JP7133367B2

JP7133367B2 - 動画編集装置、動画編集方法、及び動画編集プログラム

Info

Publication number: JP7133367B2
Application number: JP2018110423A
Authority: JP
Inventors: 秀輝衣斐; 純一石垣; 司堀ノ内; 浩之田中; 大輔山口; 博教小川; 貴文松留
Original assignee: Individual
Current assignee: Individual
Priority date: 2018-06-08
Filing date: 2018-06-08
Publication date: 2022-09-08
Anticipated expiration: 2038-06-08
Also published as: JP2019213160A

Description

特許法第３０条第２項適用（１）展示日平成２９年１２月９－１０日（２）展示会名等Ｙａｈｏｏ！ＪａｐａｎＨａｃｋＤａｙ１０ｔｈＡｎｎｉｖ．秋葉原ＵＤＸ（東京都千代田区外神田４－１４－１）（３）公開者衣斐秀輝、石垣純一、堀ノ内司、田中浩之、山口大輔、小川博教

本発明は動画編集装置、動画編集方法、及び動画編集プログラムの技術に関する。

従来、動画を作成する際には、編集材料となる動画を撮影した後、不要部分カット、テロップ付加、エフェクト付加、動画像コンテンツ付加、音声コンテンツ付加などの動画編集を行う場合がある。このような動画編集を行なうためには、高性能のコンピュータと技術者向けの専用ソフトウェアを用いる必要があり、それらを操作するためには高度な技術や専門知識が要求されていた。近年では、パーソナルコンピュータの高機能化やビデオカメラの普及等により、簡易に動画編集を行なえるソフトウェアが開発され、専門技術や専門知識のない一般ユーザでも容易に動画の編集ができるようになっている。

例えば、特許文献１には、編集済のサンプル動画を学習することにより編集情報を生成し、生成した編集情報に基づいてユーザへの編集支援を行なう映像編集支援装置が開示されている。このような装置を用いることで、不要部分カット、テロップ付加、エフェクト付加、動画像コンテンツ付加、音声コンテンツ付加等を模した動画編集を一般ユーザが簡易に行なうことができる。

特開２０１３－０８０９８９号公報

しかし、サンプル動画と近しいシーンを検出し、サンプル動画と同じ編集を自動で行う技術が提供されているが、動画作成者の意図を反映した編集を行うためには、近しいシーンを含む十分な量のサンプル動画が必要である。また、自動で無音部分をカットする技術や自動でテロップを挿入する技術も公知となっているが、動画作成者の意図を反映した編集を行うことができるものではない。

そこで、本発明は、以上に示したかかる課題に鑑み、動画作成者の意図を反映した編集を可能としながら動画編集の負担を削減する動画編集装置、動画編集方法、及び動画編集プログラムを提供することを目的とする。

本発明の解決しようとする課題は以上の如くであり、次にこの課題を解決するための手段を説明する。

即ち、本発明においては、動画データに含まれる動画像データから算出される時刻区間付動画像認識結果を格納する動画像認識結果格納部と、前記動画データに含まれる音声データから算出される時刻区間付音声認識結果を格納する音声認識結果格納部と、前記時刻区間付動画像認識結果および前記時刻区間付音声認識結果を各再生時刻において結合した複合認識結果を算出する認識結果結合部と、前記複合認識結果に基づき適用する時刻区間付編集情報を決定する編集情報割当部と、を備え、前記認識結果結合部において、前記時刻区間付動画像認識結果および前記時刻区間付音声認識結果は所定の組み合わせパターンと照合することにより結合され、前記所定の組み合わせパターンを登録可能とするものである。

また、前記編集情報割当部において、前記適用する時刻区間付編集情報は前記複合認識結果と、複合認識結果と時刻区間付編集情報との所定の組み合わせパターンと、を照合することにより決定され、前記所定の組み合わせパターンは登録可能とするものである。

前記編集情報割当部において決定された時刻区間付編集情報は、編集可能なデータ群として出力されるものである。

本発明の効果として、以下に示すような効果を奏する。

本発明においては、動画データから認識が可能である複合的な事象と特定の編集内容とを結びつけることができ、たとえば、音声認識により動画出演者の発話内容から生成されたテロップを動画像認識により認識された動画出演者のジェスチャに応じた位置に付加したり、音声認識により認識されたキーワードに応じた動画像コンテンツを動画像認識により検出された動画出演者の顔位置の周辺に付加したり、動画像認識により認識された動画出演者のジェスチャの応じた音声コンテンツを音声認識により検出された発話区間と重ならないタイミングで付加したり、音声認識により検出された無音声区間のうち動画像認識により認識された特定のオブジェクトが動き始める時刻より前だけをカットしたりする、
といった自動編集を可能とする。
また、動画作成者は特定の編集内容と結びつけられた複合的な事象を利用して、動画の撮影中に任意の動画再生時刻に対して意図した編集内容を指定することができ、これにより、動画作成者の意図を反映した編集を可能としながら動画編集にかかる負担を軽減することができる。

本発明の第一の実施形態に係る動画編集装置を示すブロック図。本発明の第一の実施形態に係る動画編集方法のうち認識結果取得方法を示すフローチャート図。本発明の第一の実施形態に係る動画編集方法のうち編集情報取得方法を示すフローチャート図。本発明の第一の実施形態に係る動画編集方法のうち動画自動編集方法を示すフローチャート図。本発明の第一の実施形態に係る動画編集方法のうち動画自動カット編集を示すフローチャート図。

次に、発明の実施の形態を説明する。

＜第一の実施形態＞
本発明の実施形態に係る動画編集装置１について図１を用いて説明する。
動画編集装置１は、撮影した動画データを編集するための装置である。動画編集装置１は、外部の動画撮影装置と通信する通信部１１と、撮影した動画データ、編集した動画データ、および編集情報を記憶する記憶部１２と、撮影した動画データを編集する制御部１３と、を備えている。
通信部１１は、外部の動画撮影装置２と有線または無線の通信回線を通じて通信する部分である。
記憶部１２は、撮影した動画データ、編集した動画データ、および編集情報を記憶する部分であり、例えば、ＲＡＭやＲＯＭなどで構成されている。
制御部１３は、撮影した動画データを編集する部分であり、例えば演算装置等で構成されている。
また、制御部１３は、動画データを入力する動画入力部２１と、動画データに含まれる動画像データから算出される時刻区間付動画像認識結果を格納する動画像認識結果格納部としての動画像認識部２２と、動画データに含まれる音声データから算出される時刻区間付音声認識結果を格納する音声認識結果格納部としての音声認識部２３と、時刻区間付動画像認識結果および時刻区間付音声認識結果を各再生時刻において結合した複合認識結果を算出する認識結果結合部２４と、複合認識結果に基づき適用する時刻区間付編集情報を決定する編集情報割当部２５と、を備える。動画入力部２１、動画像認識部２２、音声認識部２３、認識結果結合部２４、編集情報割当部２５は、例えば一般的なＷｅｂブラウザソフトウェアをインストールした一般的な情報処理装置によって実現されるものである。

動画入力部２１は、通信部１１を介して外部の動画撮影装置２から動画データが入力される部分である。動画データとは、少なくとも動画像データと、音声データと、時刻データと、を備えるデータ群である。また、動画データはこれらのデータの他にさらに、字幕データ、多重音声データ、副題データ・章（チャプター）データ・メタデータ（タグ）などを備えてもよい。

動画像認識部２２は、動画データに含まれる動画像データおよび時刻データから時刻区間付動画像認識結果を算出する部分である。時刻区間付動画像認識結果は、例えば、動画像データをフレーム画像に分解して、１フレームごとに認識を行うことで動画像を認識した結果である。なお、動画像認識方法は１フレームごとのフレーム分解だけに限定するものではなく、たとえば、マルチフレーム認識による動画像認識方法を採用することもできる。なお、本実施形態に限定するものでなく、動画像認識については、外部のツールもしくはウェブＡＰＩなどのサービスを利用することも可能である。すなわち、動画編集装置１は、少なくとも、算出された時刻区間付動画像認識結果を格納する部分を備えていればよい。

また、動画像認識部２２は、オブジェクト認識および動き認識を用いることもできる。
オブジェクト認識は、フレーム画像データを入力情報とし、あらかじめ登録されたオブジェクトが現れた領域およびオブジェクトの種類を少なくとも出力情報に含む認識手法である。オブジェクトが現れた領域は、複数あってもよい。また、出力情報には、認識の信頼度が含まれていてもよい。

また、マルチフレーム認識を採用することによりオブジェクトの特定の動きを対象としてもよい。例えば、人物の特定の動きを対象とする場合、人物が現れた領域、人物の特定のジェスチャの種類、および人物を認識した時刻区間を少なくとも出力に含む。

動画像認識部２２は、フレーム画像抽出部３１と、秒間フレーム数抽出部３２と、再生時刻変換部３３と、を有する。フレーム画像抽出部３１は、動画データからフレームインデクス付フレーム画像を抽出する部分である。秒間フレーム数抽出部３２は、動画データから秒間フレーム数を抽出する部分である。再生時刻変換部３３は、フレーム画像抽出部３１で抽出されたフレームインデクス付フレーム画像と、秒間フレーム数抽出部３２で抽出された秒間フレーム数と、から再生時刻を算出する部分である。

このように、フレーム画像抽出部３１と、秒間フレーム数抽出部３２と、再生時刻変換部３３とによって取得されるインデクス付フレーム画像および再生時刻から、再生時刻を起点とする時刻区間付動画像認識結果を取得する。

動画像認識の実施形態としては、例えば、時刻区間付動画像認識結果を用いて特定のジェスチャを検出するジェスチャ認識、特定の物体の位置や動き（差分）を検出する位置認識、動画出演者の表情を認識する表情認識などが含まれる。

音声認識部２３は、動画データに含まれる音声データおよび時刻データから時刻区間付音声認識結果を算出する部分である。時刻区間付音声認識結果は、例えば、発話音声認識を用いた場合の、発話内容のテキスト、特定キーワードおよび無音声区間などを認識した結果を指す。なお、音声認識方法は、発話音声認識に限定するものではなく、無音区間や発話以外の特定音声を認識する音波形認識や、音楽などの音響信号認識や、マルチパス探索による単語列認識などを組み合わせて採用することもできる。なお、本実施形態に限定するものでなく、音声認識については、外部のツールもしくはウェブＡＰＩなどのサービスを利用することも可能である。すなわち、動画編集装置１は、少なくとも、算出された時刻区間付音声認識結果を格納する部分を備えていればよい。

音声認識部２３は、動画データに含まれる音声データおよび時刻データから再生時刻を起点とする区間に対し、発話音声認識を用いた時刻区間付音声認識結果を算出する。また、音声認識部２３は、さらに、動画データに含まれる音声データおよび時刻データから声量、認識の信頼度、話者識別結果などを出力に含む構成としてもよい。

認識結果結合部２４は、時刻区間付動画像認識結果および時刻区間付音声認識結果と、から複合認識結果を算出する。複合認識結果とは、再生時刻でグループ化した時刻区間付動画像認識結果および時刻区間付音声認識結果の複合データである。なお、その他のデータであるメタデータ（タグ）に再生時刻を付与してさらに複合したデータであってもよい。

認識結果結合部２４においては、時刻区間付動画像認識結果および時刻区間付音声認識結果は、所定の組み合わせパターンと照合することにより結合される。組み合わせパターンを構成する要素は、動画編集装置１で利用することが可能な動画像認識方法で認識される任意の要素（例えばオブジェクト）と、動画編集装置１で利用することが可能な音声認識方法で認識される任意の要素（例えばキーワード）である。動画編集装置１の利用者たる動画作成者は、動画像認識方法で認識される任意の要素および音声認識方法で認識される任意の要素を任意に選択し、その組み合わせパターンを指定可能とする。
動画編集装置１で利用することが可能な動画像認識方法においては、例えば、特定の人物の顔を用いる場合、動画作成者は、予め人物の顔を認識する学習済みモデルを動画像認識部から利用可能であるように登録しておき、当該学習済みモデルは、動画像認識部で任意の要素を認識するために使用される。
また、動画編集装置１で利用することが可能な音声認識方法においては、例えば、特定のキーワードを用いる場合、動画作成者は、予め前記キーワードを音声認識部から利用可能であるように登録しておき、当該キーワードは、音声認識部で任意の要素を認識するために使用される。
認識結果結合部２４は、組み合わせパターンの入力部３５を備える。入力部３５は、動画作成者が、組み合わせパターンを指定するための入力手段であり、動画作成者は入力部３５から組み合わせパターンを指定可能である。

編集情報割当部２５は、複合認識結果に編集情報を割り当てて時刻区間付編集情報を取得する部分である。複合認識結果と時刻区間付編集情報との関係を結びつける編集方法組み合わせパターンは、予め記憶部１２に登録されている。例えば、記憶部１２には、表１に示すような編集方法組み合わせパターンが登録されている。

表１に示す編集方法組み合わせパターンは、動画作成者が、指定可能である。編集方法組み合わせパターンを構成する要素は、認識結果結合部２４において指定された任意の組み合わせパターン、および、動画編集装置１が出力する時刻区間付編集情報と動画データとを読み込んで実際に動画編集を行う別の動画編集装置、もしくはこの動画編集装置自体、で利用可能な任意の編集方法である。動画作成者は、認識結果結合部２４において指定された任意の組み合わせパターンおよび任意の編集方法を選択し、その編集方法組み合わせパターンを指定可能とするものである。
編集情報割当部２５は、編集方法組み合わせパターンの入力部３６を備える。入力部３６は、動画作成者が、編集方法組み合わせパターンを指定するための入力手段であり、動画作成者は入力部３６から編集方法組み合わせパターンを指定可能である。

時刻区間付編集情報は不可逆的なコンテナファイルとして出力される。なお、時刻区間付編集情報はコンテナファイルとして出力するものに限定するものではなく、例えば、編集可能なデータ群として出力することもできる。

また、動画編集装置１は、さらに時刻区間付編集情報に従って動画自動編集を行う動画自動編集部２６を備えてもよい。この場合、動画自動編集部２６は、さらに、画像エフェクト付加編集部５１と、テロップ付加編集部５２と、動画像コンテンツ付加編集部５３と、音声エフェクト付加編集部５４と、音声コンテンツ付加編集部５５と、を備える。

まず、再生時刻変換部３３を用いて、時刻区間付編集情報に付与された再生時刻および秒間フレーム数からフレームインデクスを取得し、フレームインデクスが付与されたインデクス付フレーム画像を選択する。

画像エフェクト付加編集部５１は、時刻区間付編集情報および再生時刻に基づいて画像エフェクトを決定し、インデクス付フレーム画像に付加する。画像エフェクトとは、画面をデジタル加工する方式であり、例えば白黒二階調化などの画像加工、粒子加工などが含まれる。

また、テロップ付加編集部５２は、時刻区間付編集情報および再生時刻に基づいて文字または記号からなるテロップを決定し、インデクス付フレーム画像に付加する。テロップとは、画面に重ねる文字または記号を記載したレイヤーである。

また、動画像コンテンツ付加編集部５３は、時刻区間付編集情報および再生時刻に基づいて動画像コンテンツを決定し、インデクス付フレーム画像に付加する。動画像コンテンツとは、フレーム画像にさらに付加される別の動画像である。

また、音声エフェクト付加編集部５４は、時刻区間付編集情報から音声エフェクトを決定し、音声データに付加する。音声エフェクトとは、音声をデジタル加工する方式であり、ハイパス加工やエコー加工などが含まれる。

また、音声コンテンツ付加編集部５５は、時刻区間付編集情報から音声コンテンツを決定し、音声データに付加する。音声コンテンツとは、音声データに付加される効果音や音楽などの音声データである。

また、動画編集装置１は、時刻区間付編集情報からカット区間を算出することもできる。この場合、動画編集装置１の制御部１３は、さらに、カット区間算出部２７を有する構成とする。

カット区間算出部２７を有する場合、時刻区間付編集情報にはカット編集情報を含まれる構成とする。
カット編集情報が含まれていた場合には、カット区間算出部２７が、時刻区間付編集情報からカット区間を算出する。

カット区間算出部２７は、動画像カット編集部６１と、音声カット編集部６２と、を有する。

動画像カット編集部６１は、カット区間に含まれるインデクス付フレーム画像を削除する。また、音声カット編集部６２は、音声データからカット区間の音声データを削除する。

動画結合部６３は、編集済み動画データを生成する。動画結合部６３は、編集済みのインデクス付フレーム画像および編集済みの音声データから編集済み動画データを生成する。

次に、本発明の実施形態に係る動画編集方法について図２から図５を用いて説明する。
まず、動画編集方法のうち、認識結果を取得する方法について図２を用いて説明する。

まず、動画入力部２１を用いて動画データを読み込む（ステップＳ１０）。ステップＳ１０において読み込まれた動画データは、制御部１３へと送信される。

次に、動画データに含まれる動画像データから時刻区間付動画像認識結果を算出する第一の工程について説明する。

第一の行程において、まず、フレーム画像抽出部３１を用いて動画データからフレームインデクス付フレーム画像を取得する（ステップＳ２０）。

次に、秒間フレーム数抽出部３２を用いて、動画データから秒間フレーム数を取得する（ステップＳ３０）。

次に、再生時刻変換部３３を用いて、フレーム画像抽出部３１で取得されたフレームインデクス付フレーム画像と、秒間フレーム数抽出部３２で取得された秒間フレーム数と、から再生時刻を取得する（ステップＳ４０）。

次に、フレーム画像抽出部３１と、秒間フレーム数抽出部３２と、再生時刻変換部３３とによって取得される再生時刻、インデクス付フレーム画像、および再生時刻から、再生時刻を起点とする区間に対し、時刻区間付動画像認識結果を取得する（ステップＳ５０）。

また、動画データに含まれる音声データから時刻区間付音声認識結果を算出する第二の行程について説明する。なお、第一の行程と、第二の行程とは、並行して処理される。

第二の行程において、まず、音声認識部２３を用いて、動画データから音声データを取得する（ステップＳ６０）。

次に、音声認識部２３を用いて、動画データに含まれる音声データおよび時刻データから再生時刻を起点とする区間に対し、時刻区間付音声認識結果を取得する（ステップＳ７０）。

次に、時刻区間付動画像認識結果および時刻区間付音声認識結果を各再生時刻において結合した複合認識結果を算出する第三の工程について、図３を用いて説明する。
認識結果結合部２４を用いて、再生時刻を含む時刻区間が付与された時刻区間付動画像認識結果と、時刻区間付音声認識結果と、から複合認識結果を算出する（ステップＳ１１０）。

次に、複合認識結果に基づき適用する編集情報を決定する第四の工程について説明する。
編集情報割当部２５を用いて、複合認識結果から時刻区間付編集情報を取得する（ステップＳ１２０）。複合認識結果と編集情報の関係は記憶部１２に表１に示すテーブルとして記録されており、複合認識結果を入力すると、編集情報割当部２５によって、テーブルに基づいて時刻区間付編集情報が生成される。

次に、時刻区間付編集情報に従って動画自動編集を行う第五の工程について、図４を用いて説明する。
動画自動編集は、動画像データの編集と、音声データの編集と、が並行して行われる。
動画像データの編集においては、再生時刻変換部３３を用いて、時刻区間付編集情報に付与された再生時刻および秒間フレーム数からフレームインデクスを取得し、フレームインデクスが付与されたインデクス付フレーム画像を選択する。（ステップＳ１５０）

次に、画像エフェクト付加編集部５１を用いて時刻区間付編集情報および再生時刻から画像エフェクトを決定し、インデクス付フレーム画像に付加する（ステップＳ１６０）。
次に、テロップ付加編集部５２を用いて、時刻区間付編集情報および再生時刻に基づいて文字または記号からなるテロップ画像を生成し、インデクス付フレーム画像に付加する（ステップＳ１７０）。
次に、動画像コンテンツ付加編集部５３を用いて、時刻区間付編集情報および再生時刻に基づいて動画像コンテンツを決定し、インデクス付フレーム画像に付加する（ステップＳ１８０）。

音声データの編集においては、まず、音声エフェクト付加編集部５４を用いて、時刻区間付編集情報から音声エフェクトを決定し、音声データに付加する（ステップＳ２２０）。
次に、音声コンテンツ付加編集部５５を用いて、時刻区間付編集情報から音声コンテンツを決定し、音声データに付加する（ステップＳ２３０）。

このように構成することにより、動画像に対して、画像エフェクト、テロップ画像、動画像コンテンツ、音声データに対する音声エフェクト、および音声コンテンツを付加することができる。

さらに、カット編集を行う第六の工程について、図５を用いて説明する。
まず、時刻区間付編集情報にカット編集情報が含まれるか否かについて判断する（ステップＳ２５０）。時刻区間付編集情報にカット編集情報が含まれない場合はカット編集を行う必要が無いため、カット編集を終了する。
ステップＳ２５０において、カット編集情報が含まれると判断された場合は、カット区間算出部を用いて時刻区間付編集情報からカット区間を算出する（ステップＳ２６０）。

カット編集には、動画像のカット編集と、音声データのカット編集と、が並行して行われる。

まず、カット区間に含まれる再生時刻において、再生時刻変換部３３を用いて、時刻区間付編集情報に付与された再生時刻および秒間フレーム数からフレームインデクスを取得し、フレームインデクスが付与されたインデクス付フレーム画像を選択する（ステップＳ２７０）。

次に、動画像カット編集部６１を用いて、前記選択されたインデクス付フレーム画像を削除する（ステップＳ２８０）。音声カット編集部６２を用いて、音声データからカット区間の音声データを削除する（ステップＳ２９０）。

このように構成することにより、動画データから不要な部分をカットするカット編集が行われる。

上記第一の工程から第六の工程が行われた後、動画結合部６３を用いて、編集済み動画データを生成する（ステップＳ３１０）。次に、編集済み動画データを出力する（ステップＳ３２０）。

次に、動画の編集方法の具体例について説明する。
第一の工程において、動画データに含まれる動画像データから算出された時刻区間付動画像認識結果の具体例として、オブジェクト認識で認識する特定のジェスチャ（ハンドサイン）が含まれる。特定のジェスチャを認識する学習済みモデルは予め登録しておく。動画データから抽出したフレーム画像データを入力情報として、オブジェクト認識を実行し、ジェスチャが現れたフレーム画像データにおける領域を検出し、認識結果とする。これらの認識結果は時刻区間と紐付けられている。
また、第二の工程において、動画データに含まれる音声データから算出された時刻区間付音声認識結果の具体例として、動画出演者の発話内容に基づくテキストの情報、特定キーワードが発話されたか否かの情報、無音声区間に関する情報が含まれる。発話音声認識で出力される発話内容文に含まれるキーワードは予め登録しておく。動画データから抽出した音声データを入力情報として、音声認識を実行し、たとえば特定キーワードが発話されたこと検出し、認識結果とする。これらの認識結果は時刻区間と紐付けられている。

認識結果結合部２４において、時刻区間と紐付けられた時刻区間付動画像認識結果および時刻区間付音声認識結果から、複合認識結果を取得する。複合認識結果には、前記認識情報が複合的になったものも含まれる。例えば、発話音声認識の結果として取得された発話時刻区間と、オブジェクト認識の結果として取得された時刻区間を時刻的に結合し、共通区間が含まれる場合、該当する発話音声認識またはオブジェクト認識のすべて、もしくは少なくとも何れか一つが含まれる時刻区間を算出し、時刻区間と紐付けられた複合認識結果とする。

編集情報割当部２５において、認識結果結合部２４において取得された複合認識結果から、表１に示す編集方法組み合わせパターンに基づいて時刻区間付編集情報を取得する。たとえば時刻区間の最も早い時刻もしくは最も遅い時刻を編集点として算出する。編集点の登録の代わりに、画面演出の付与や、効果音の付与といった編集内容を時刻区間付編集情報として対応付けることも可能である。

編集情報割当部２５に対して、入力部３６を用いて編集方法組み合わせパターンを指定可能である。編集方法組み合わせパターンは、認識結果結合部２４において指定された組み合わせパターンと、利用可能な任意の編集方法と、を対応付ける組み合わせパターンであり、編集方法は動画作成者により予め登録される。編集方法は、例えば、予め登録されたジェスチャおよびキーワードと、それらを時刻的に結合する組み合わせパターンと、前記組み合わせパターンと対応する時刻区間付編集情報と、により表現することが可能である。また、これらの編集方法はプリセットされた手順から選択できるようにしてもよく、プリセットされた複数の手順をまとめて、一括選択できるようにしてもよい。

動画編集方法の別の具体例として、話者識別を合わせた発話内容の文字起こしを行う方法について説明する。
動画作成者は、オブジェクト認識で認識する出演者ごとの顔に対し、これらを認識する学習済みモデルを予め登録する。オブジェクト認識で認識する顔の構成要素に対し、これらを認識する学習済みモデルを予め登録する。顔の構成要素は、例えば、口である。

音声認識部２３は、動画データに含まれる音声データおよび時刻データから、時刻区間付音声認識結果を出力する。また、動画像認識部２２は、動画データから抽出したフレーム画像データを入力情報としてオブジェクト認識を実行し、出演者ごとの顔が現れたフレーム画像データを検出し、各時刻における顔領域を取得する。

また、動画データから抽出したフレーム画像データを入力情報としてオブジェクト認識を実行し、顔の構成要素である口が現れたフレーム画像データを検出し、各時刻における口の領域を取得する。

また、動画データから抽出したフレーム画像データを入力情報として動き認識を行い、各時刻、各領域における動きベクトルを取得する。

オブジェクト認識及び動き認識の結果を時刻的、領域的に結合する。すなわち、各出演者の顔領域と口の領域とが共通部分を持つとき、この口の領域を出演者に対応付けて、口の領域における動きベクトルに基づいて動きが有る場合、この出演者を発話中と判定し、動画像認識による発話時刻区間を取得する。

発話音声認識による発話時刻区間と動画像認識による発話時刻区間を時刻的に結合し、共通区間が有る場合、動画像認識による発話者を、発話音声認識による発話内容文と組み合わせて時刻区間付編集情報として算出する。

前記編集方法は発話内容文、動きベクトル予め登録された出演者ごとの顔、および顔の構成要素と、それらを時刻的、領域的に結合する組み合わせパターンと、対応する時刻区間付編集情報と、により表現することが可能であり、前記編集方法は動画作成者により予め登録される。

また、動画の編集方法の別の具体例として、カット編集を行う方法について説明する。
動画作成者は、オブジェクト認識で認識する出演者の顔に対し、これらを認識する学習済みモデルを予め登録する。

音声認識部２３は、動画データに含まれる音声データおよび時刻データから、時刻区間付音声認識結果を算出する。また、動画像認識部２２は、動画データから抽出したフレーム画像データを入力情報としてオブジェクト認識を実行し、出演者の顔が現れたフレーム画像データを検出し、そのフレームに基づいて時刻区間を取得する。

発話音声認識の結果として取得された時刻区間付音声認識結果と、オブジェクト認識の結果として取得された時刻区間を時刻的に結合し、いずれも含まれない時刻区間をカット編集により削除される区間として時刻区間付編集情報として算出する。

前記編集方法は、発話内容文および予め登録された出演者の顔と、それらを時刻的に結合する組み合わせパターンと、対応する時刻区間付編集情報と、により表現することが可能であり、前記編集方法は動画作成者により予め登録される。

時刻区間付編集情報を用いて既に述べた手段により編集を行った動画像データおよび音声データを結合して編集済み動画像データを生成する。編集済み動画像データは、不可逆的なコンテナファイルとして出力される。なお、時刻区間付編集情報はコンテナファイルとして出力するものに限定するものではなく、例えば、編集可能なデータ群として出力することもできる。編集可能なデータ群として生成された場合には、一般的な動画編集ソフトによって、編集者が更に手動で編集を行うことができる。

以上のように、動画編集装置１は、動画データに含まれる動画像データから算出される時刻区間付動画像認識結果を格納する動画像認識結果格納部としての動画像認識部２２と、動画データに含まれる音声データから算出される時刻区間付音声認識結果を格納する音声認識結果格納部としての音声認識部２３と、時刻区間付動画像認識結果および前記時刻区間付音声認識結果を各再生時刻において結合した複合認識結果を算出する認識結果結合部２４と、複合認識結果に基づき適用する時刻区間付編集情報を決定する編集情報割当部２５と、を備える。
このように構成することにより、動画編集において、動画データから認識が可能である複合的な事象と特定の編集内容とを紐付けることができる。例えば、音声認識により動画出演者の発話内容から生成されたテロップを動画像認識により認識された動画出演者のジェスチャに応じた位置に付加することができる。また、音声認識により認識されたキーワードに応じた動画像コンテンツを動画像認識により検出された動画出演者の顔の位置の周辺に付加することができる。
また、動画像認識により認識された動画出演者のジェスチャに応じた音声コンテンツを音声認識により検出された発話区間と重ならないタイミングで付加することができる。また、音声認識により検出された無音声区間のうち、動画像認識により認識された特定のオブジェクトが動き始める時刻より前だけをカットすることができる。

このように構成することにより、動画作成者は特定の編集内容と紐付けられた複合的な事象を利用して動画の撮影中に任意の動画再生時刻に対して意図した編集内容を指定することができ、これにより、動画作成者の意図を反映した編集を可能としながら動画編集にかかる負担を軽減することができる。

上述の実施形態は、代表的な形態を示したに過ぎず、一実施形態の骨子を逸脱しない範囲で変形して実施することができる。さらに種々の形態で実施し得ることは勿論のことであり、本発明の範囲は、特許請求の範囲の記載によって示され、さらに特許請求の範囲に記載の均等の意味、および範囲内の全ての変更を含む。

１動画編集装置
２動画撮影装置
１１通信部
１２記憶部
１３制御部
２１動画入力部
２２動画像認識部
２３音声認識部
２４認識結果結合部
２５編集情報割当部
２６動画自動編集部
２７カット区間算出部
３１フレーム画像抽出部
３２秒間フレーム数抽出部
３３再生時刻変換部

Claims

動画データに含まれる動画像データから算出される時刻区間付動画像認識結果を格納する動画像認識結果格納部と、
前記動画データに含まれる音声データから算出される時刻区間付音声認識結果を格納する音声認識結果格納部と、
前記時刻区間付動画像認識結果および前記時刻区間付音声認識結果を各再生時刻において結合した複合認識結果を算出する認識結果結合部と、
前記複合認識結果に基づき適用する時刻区間付編集情報を決定する編集情報割当部と、を備え、
前記認識結果結合部において、前記時刻区間付動画像認識結果および前記時刻区間付音声認識結果は所定の組み合わせパターンと照合することにより結合され、前記所定の組み合わせパターンは登録可能とすることを特徴とする
動画編集装置。
前記編集情報割当部において、前記適用する時刻区間付編集情報は前記複合認識結果と、複合認識結果と時刻区間付編集情報との所定の組み合わせパターンと、を照合することにより決定され、前記所定の組み合わせパターンは登録可能とすることを特徴とする
請求項１に記載の動画編集装置。
前記編集情報割当部において決定された時刻区間付編集情報は、編集可能なデータ群として出力されることを特徴とする
請求項１または２に記載の動画編集装置。
動画データに含まれる動画像データから算出される時刻区間付動画像認識結果を格納する第一の工程と、
前記動画データに含まれる音声データから算出される時刻区間付音声認識結果を格納する第二の工程と、
前記時刻区間付動画像認識結果および前記時刻区間付音声認識結果を各再生時刻において結合した複合認識結果を算出する第三の工程と、
前記複合認識結果に基づき適用する時刻区間付編集情報を決定する第四の工程とを備え、
前記第二の工程において、前記時刻区間付動画像認識結果および前記時刻区間付音声認識結果は所定の組み合わせパターンと照合することにより結合し、前記所定の組み合わせパターンは登録可能とすることを特徴とする
動画編集方法。
前記第三の工程において、前記適用する時刻区間付編集情報は前記複合認識結果と、複合認識結果と時刻区間付編集情報との所定の組み合わせパターンと、を照合することにより決定し、前記所定の組み合わせパターンは登録可能とすることを特徴とする
請求項４に記載の動画編集方法。
前記第四の工程において決定された時刻区間付編集情報は、編集可能なデータ群として出力することを特徴とする
請求項４または５に記載の動画編集方法。
動画編集装置として情報処理装置を機能させる動画編集プログラムにおいて、
動画データに含まれる動画像データから算出される時刻区間付動画像認識結果を格納する動画像認識ステップと、
前記動画データに含まれる音声データから算出される時刻区間付音声認識結果を格納する音声認識ステップと、
前記時刻区間付動画像認識結果および前記時刻区間付音声認識結果を各再生時刻において結合した複合認識結果を算出する認識結果結合ステップと、
前記複合認識結果に基づき適用する時刻区間付編集情報を決定する編集情報割当ステップと、を前記情報処理装置に実行させて、
前記認識結果結合ステップにおいて、前記時刻区間付動画像認識結果および前記時刻区間付音声認識結果は所定の組み合わせパターンと照合することにより結合され、前記所定の組み合わせパターンは登録可能とすることを特徴とする
動画編集プログラム。
前記編集情報割当ステップにおいて、前記適用する時刻区間付編集情報は前記複合認識結果と、複合認識結果と時刻区間付編集情報との所定の組み合わせパターンと、を照合することにより決定され、前記所定の組み合わせパターンは登録可能とすることを特徴とする
請求項７に記載の動画編集プログラム。
前記編集情報割当ステップにおいて決定された時刻区間付編集情報は、編集可能なデータ群として出力されることを特徴とする
請求項７または８に記載の動画編集プログラム。