JP7133367B2 - 動画編集装置、動画編集方法、及び動画編集プログラム - Google Patents

動画編集装置、動画編集方法、及び動画編集プログラム Download PDF

Info

Publication number
JP7133367B2
JP7133367B2 JP2018110423A JP2018110423A JP7133367B2 JP 7133367 B2 JP7133367 B2 JP 7133367B2 JP 2018110423 A JP2018110423 A JP 2018110423A JP 2018110423 A JP2018110423 A JP 2018110423A JP 7133367 B2 JP7133367 B2 JP 7133367B2
Authority
JP
Japan
Prior art keywords
recognition result
moving image
editing
time
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018110423A
Other languages
English (en)
Other versions
JP2019213160A (ja
Inventor
秀輝 衣斐
純一 石垣
司 堀ノ内
浩之 田中
大輔 山口
博教 小川
貴文 松留
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP2018110423A priority Critical patent/JP7133367B2/ja
Publication of JP2019213160A publication Critical patent/JP2019213160A/ja
Application granted granted Critical
Publication of JP7133367B2 publication Critical patent/JP7133367B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

特許法第30条第2項適用 (1)展示日 平成29年12月9-10日 (2)展示会名等 Yahoo!Japan Hack Day 10th Anniv. 秋葉原UDX(東京都千代田区外神田4-14-1) (3)公開者 衣斐 秀輝、石垣 純一、堀ノ内 司、田中 浩之、山口 大輔、小川 博教
本発明は動画編集装置、動画編集方法、及び動画編集プログラムの技術に関する。
従来、動画を作成する際には、編集材料となる動画を撮影した後、不要部分カット、テロップ付加、エフェクト付加、動画像コンテンツ付加、音声コンテンツ付加などの動画編集を行う場合がある。このような動画編集を行なうためには、高性能のコンピュータと技術者向けの専用ソフトウェアを用いる必要があり、それらを操作するためには高度な技術や専門知識が要求されていた。近年では、パーソナルコンピュータの高機能化やビデオカメラの普及等により、簡易に動画編集を行なえるソフトウェアが開発され、専門技術や専門知識のない一般ユーザでも容易に動画の編集ができるようになっている。
例えば、特許文献1には、編集済のサンプル動画を学習することにより編集情報を生成し、生成した編集情報に基づいてユーザへの編集支援を行なう映像編集支援装置が開示されている。このような装置を用いることで、不要部分カット、テロップ付加、エフェクト付加、動画像コンテンツ付加、音声コンテンツ付加等を模した動画編集を一般ユーザが簡易に行なうことができる。
特開2013-080989号公報
しかし、サンプル動画と近しいシーンを検出し、サンプル動画と同じ編集を自動で行う技術が提供されているが、動画作成者の意図を反映した編集を行うためには、近しいシーンを含む十分な量のサンプル動画が必要である。また、自動で無音部分をカットする技術や自動でテロップを挿入する技術も公知となっているが、動画作成者の意図を反映した編集を行うことができるものではない。
そこで、本発明は、以上に示したかかる課題に鑑み、動画作成者の意図を反映した編集を可能としながら動画編集の負担を削減する動画編集装置、動画編集方法、及び動画編集プログラムを提供することを目的とする。
本発明の解決しようとする課題は以上の如くであり、次にこの課題を解決するための手段を説明する。
即ち、本発明においては、動画データに含まれる動画像データから算出される時刻区間付動画像認識結果を格納する動画像認識結果格納部と、前記動画データに含まれる音声データから算出される時刻区間付音声認識結果を格納する音声認識結果格納部と、前記時刻区間付動画像認識結果および前記時刻区間付音声認識結果を各再生時刻において結合した複合認識結果を算出する認識結果結合部と、前記複合認識結果に基づき適用する時刻区間付編集情報を決定する編集情報割当部と、を備え、前記認識結果結合部において、前記時刻区間付動画像認識結果および前記時刻区間付音声認識結果は所定の組み合わせパターンと照合することにより結合され、前記所定の組み合わせパターンを登録可能とするものである。
また、前記編集情報割当部において、前記適用する時刻区間付編集情報は前記複合認識結果と、複合認識結果と時刻区間付編集情報との所定の組み合わせパターンと、を照合することにより決定され、前記所定の組み合わせパターンは登録可能とするものである。
前記編集情報割当部において決定された時刻区間付編集情報は、編集可能なデータ群として出力されるものである。
本発明の効果として、以下に示すような効果を奏する。
本発明においては、動画データから認識が可能である複合的な事象と特定の編集内容とを結びつけることができ、たとえば、音声認識により動画出演者の発話内容から生成されたテロップを動画像認識により認識された動画出演者のジェスチャに応じた位置に付加したり、音声認識により認識されたキーワードに応じた動画像コンテンツを動画像認識により検出された動画出演者の顔位置の周辺に付加したり、動画像認識により認識された動画出演者のジェスチャの応じた音声コンテンツを音声認識により検出された発話区間と重ならないタイミングで付加したり、音声認識により検出された無音声区間のうち動画像認識により認識された特定のオブジェクトが動き始める時刻より前だけをカットしたりする、
といった自動編集を可能とする。
また、動画作成者は特定の編集内容と結びつけられた複合的な事象を利用して、動画の撮影中に任意の動画再生時刻に対して意図した編集内容を指定することができ、これにより、動画作成者の意図を反映した編集を可能としながら動画編集にかかる負担を軽減することができる。
本発明の第一の実施形態に係る動画編集装置を示すブロック図。 本発明の第一の実施形態に係る動画編集方法のうち認識結果取得方法を示すフローチャート図。 本発明の第一の実施形態に係る動画編集方法のうち編集情報取得方法を示すフローチャート図。 本発明の第一の実施形態に係る動画編集方法のうち動画自動編集方法を示すフローチャート図。 本発明の第一の実施形態に係る動画編集方法のうち動画自動カット編集を示すフローチャート図。
次に、発明の実施の形態を説明する。
<第一の実施形態>
本発明の実施形態に係る動画編集装置1について図1を用いて説明する。
動画編集装置1は、撮影した動画データを編集するための装置である。動画編集装置1は、外部の動画撮影装置と通信する通信部11と、撮影した動画データ、編集した動画データ、および編集情報を記憶する記憶部12と、撮影した動画データを編集する制御部13と、を備えている。
通信部11は、外部の動画撮影装置2と有線または無線の通信回線を通じて通信する部分である。
記憶部12は、撮影した動画データ、編集した動画データ、および編集情報を記憶する部分であり、例えば、RAMやROMなどで構成されている。
制御部13は、撮影した動画データを編集する部分であり、例えば演算装置等で構成されている。
また、制御部13は、動画データを入力する動画入力部21と、動画データに含まれる動画像データから算出される時刻区間付動画像認識結果を格納する動画像認識結果格納部としての動画像認識部22と、動画データに含まれる音声データから算出される時刻区間付音声認識結果を格納する音声認識結果格納部としての音声認識部23と、時刻区間付動画像認識結果および時刻区間付音声認識結果を各再生時刻において結合した複合認識結果を算出する認識結果結合部24と、複合認識結果に基づき適用する時刻区間付編集情報を決定する編集情報割当部25と、を備える。動画入力部21、動画像認識部22、音声認識部23、認識結果結合部24、編集情報割当部25は、例えば一般的なWebブラウザソフトウェアをインストールした一般的な情報処理装置によって実現されるものである。
動画入力部21は、通信部11を介して外部の動画撮影装置2から動画データが入力される部分である。動画データとは、少なくとも動画像データと、音声データと、時刻データと、を備えるデータ群である。また、動画データはこれらのデータの他にさらに、字幕データ、多重音声データ、副題データ・章(チャプター)データ・メタデータ(タグ)などを備えてもよい。
動画像認識部22は、動画データに含まれる動画像データおよび時刻データから時刻区間付動画像認識結果を算出する部分である。時刻区間付動画像認識結果は、例えば、動画像データをフレーム画像に分解して、1フレームごとに認識を行うことで動画像を認識した結果である。なお、動画像認識方法は1フレームごとのフレーム分解だけに限定するものではなく、たとえば、マルチフレーム認識による動画像認識方法を採用することもできる。なお、本実施形態に限定するものでなく、動画像認識については、外部のツールもしくはウェブAPIなどのサービスを利用することも可能である。すなわち、動画編集装置1は、少なくとも、算出された時刻区間付動画像認識結果を格納する部分を備えていればよい。
また、動画像認識部22は、オブジェクト認識および動き認識を用いることもできる。
オブジェクト認識は、フレーム画像データを入力情報とし、あらかじめ登録されたオブジェクトが現れた領域およびオブジェクトの種類を少なくとも出力情報に含む認識手法である。オブジェクトが現れた領域は、複数あってもよい。また、出力情報には、認識の信頼度が含まれていてもよい。
また、マルチフレーム認識を採用することによりオブジェクトの特定の動きを対象としてもよい。例えば、人物の特定の動きを対象とする場合、人物が現れた領域、人物の特定のジェスチャの種類、および人物を認識した時刻区間を少なくとも出力に含む。
動画像認識部22は、フレーム画像抽出部31と、秒間フレーム数抽出部32と、再生時刻変換部33と、を有する。フレーム画像抽出部31は、動画データからフレームインデクス付フレーム画像を抽出する部分である。秒間フレーム数抽出部32は、動画データから秒間フレーム数を抽出する部分である。再生時刻変換部33は、フレーム画像抽出部31で抽出されたフレームインデクス付フレーム画像と、秒間フレーム数抽出部32で抽出された秒間フレーム数と、から再生時刻を算出する部分である。
このように、フレーム画像抽出部31と、秒間フレーム数抽出部32と、再生時刻変換部33とによって取得されるインデクス付フレーム画像および再生時刻から、再生時刻を起点とする時刻区間付動画像認識結果を取得する。
動画像認識の実施形態としては、例えば、時刻区間付動画像認識結果を用いて特定のジェスチャを検出するジェスチャ認識、特定の物体の位置や動き(差分)を検出する位置認識、動画出演者の表情を認識する表情認識などが含まれる。
音声認識部23は、動画データに含まれる音声データおよび時刻データから時刻区間付音声認識結果を算出する部分である。時刻区間付音声認識結果は、例えば、発話音声認識を用いた場合の、発話内容のテキスト、特定キーワードおよび無音声区間などを認識した結果を指す。なお、音声認識方法は、発話音声認識に限定するものではなく、無音区間や発話以外の特定音声を認識する音波形認識や、音楽などの音響信号認識や、マルチパス探索による単語列認識などを組み合わせて採用することもできる。なお、本実施形態に限定するものでなく、音声認識については、外部のツールもしくはウェブAPIなどのサービスを利用することも可能である。すなわち、動画編集装置1は、少なくとも、算出された時刻区間付音声認識結果を格納する部分を備えていればよい。
音声認識部23は、動画データに含まれる音声データおよび時刻データから再生時刻を起点とする区間に対し、発話音声認識を用いた時刻区間付音声認識結果を算出する。また、音声認識部23は、さらに、動画データに含まれる音声データおよび時刻データから声量、認識の信頼度、話者識別結果などを出力に含む構成としてもよい。
認識結果結合部24は、時刻区間付動画像認識結果および時刻区間付音声認識結果と、から複合認識結果を算出する。複合認識結果とは、再生時刻でグループ化した時刻区間付動画像認識結果および時刻区間付音声認識結果の複合データである。なお、その他のデータであるメタデータ(タグ)に再生時刻を付与してさらに複合したデータであってもよい。
認識結果結合部24においては、時刻区間付動画像認識結果および時刻区間付音声認識結果は、所定の組み合わせパターンと照合することにより結合される。組み合わせパターンを構成する要素は、動画編集装置1で利用することが可能な動画像認識方法で認識される任意の要素(例えばオブジェクト)と、動画編集装置1で利用することが可能な音声認識方法で認識される任意の要素(例えばキーワード)である。動画編集装置1の利用者たる動画作成者は、動画像認識方法で認識される任意の要素および音声認識方法で認識される任意の要素を任意に選択し、その組み合わせパターンを指定可能とする。
動画編集装置1で利用することが可能な動画像認識方法においては、例えば、特定の人物の顔を用いる場合、動画作成者は、予め人物の顔を認識する学習済みモデルを動画像認識部から利用可能であるように登録しておき、当該学習済みモデルは、動画像認識部で任意の要素を認識するために使用される。
また、動画編集装置1で利用することが可能な音声認識方法においては、例えば、特定のキーワードを用いる場合、動画作成者は、予め前記キーワードを音声認識部から利用可能であるように登録しておき、当該キーワードは、音声認識部で任意の要素を認識するために使用される。
認識結果結合部24は、組み合わせパターンの入力部35を備える。入力部35は、動画作成者が、組み合わせパターンを指定するための入力手段であり、動画作成者は入力部35から組み合わせパターンを指定可能である。
編集情報割当部25は、複合認識結果に編集情報を割り当てて時刻区間付編集情報を取得する部分である。複合認識結果と時刻区間付編集情報との関係を結びつける編集方法組み合わせパターンは、予め記憶部12に登録されている。例えば、記憶部12には、表1に示すような編集方法組み合わせパターンが登録されている。
Figure 0007133367000001
表1に示す編集方法組み合わせパターンは、動画作成者が、指定可能である。編集方法組み合わせパターンを構成する要素は、認識結果結合部24において指定された任意の組み合わせパターン、および、動画編集装置1が出力する時刻区間付編集情報と動画データとを読み込んで実際に動画編集を行う別の動画編集装置、もしくはこの動画編集装置自体、で利用可能な任意の編集方法である。動画作成者は、認識結果結合部24において指定された任意の組み合わせパターンおよび任意の編集方法を選択し、その編集方法組み合わせパターンを指定可能とするものである。
編集情報割当部25は、編集方法組み合わせパターンの入力部36を備える。入力部36は、動画作成者が、編集方法組み合わせパターンを指定するための入力手段であり、動画作成者は入力部36から編集方法組み合わせパターンを指定可能である。
時刻区間付編集情報は不可逆的なコンテナファイルとして出力される。なお、時刻区間付編集情報はコンテナファイルとして出力するものに限定するものではなく、例えば、編集可能なデータ群として出力することもできる。
また、動画編集装置1は、さらに時刻区間付編集情報に従って動画自動編集を行う動画自動編集部26を備えてもよい。この場合、動画自動編集部26は、さらに、画像エフェクト付加編集部51と、テロップ付加編集部52と、動画像コンテンツ付加編集部53と、音声エフェクト付加編集部54と、音声コンテンツ付加編集部55と、を備える。
まず、再生時刻変換部33を用いて、時刻区間付編集情報に付与された再生時刻および秒間フレーム数からフレームインデクスを取得し、フレームインデクスが付与されたインデクス付フレーム画像を選択する。
画像エフェクト付加編集部51は、時刻区間付編集情報および再生時刻に基づいて画像エフェクトを決定し、インデクス付フレーム画像に付加する。画像エフェクトとは、画面をデジタル加工する方式であり、例えば白黒二階調化などの画像加工、粒子加工などが含まれる。
また、テロップ付加編集部52は、時刻区間付編集情報および再生時刻に基づいて文字または記号からなるテロップを決定し、インデクス付フレーム画像に付加する。テロップとは、画面に重ねる文字または記号を記載したレイヤーである。
また、動画像コンテンツ付加編集部53は、時刻区間付編集情報および再生時刻に基づいて動画像コンテンツを決定し、インデクス付フレーム画像に付加する。動画像コンテンツとは、フレーム画像にさらに付加される別の動画像である。
また、音声エフェクト付加編集部54は、時刻区間付編集情報から音声エフェクトを決定し、音声データに付加する。音声エフェクトとは、音声をデジタル加工する方式であり、ハイパス加工やエコー加工などが含まれる。
また、音声コンテンツ付加編集部55は、時刻区間付編集情報から音声コンテンツを決定し、音声データに付加する。音声コンテンツとは、音声データに付加される効果音や音楽などの音声データである。
また、動画編集装置1は、時刻区間付編集情報からカット区間を算出することもできる。この場合、動画編集装置1の制御部13は、さらに、カット区間算出部27を有する構成とする。
カット区間算出部27を有する場合、時刻区間付編集情報にはカット編集情報を含まれる構成とする。
カット編集情報が含まれていた場合には、カット区間算出部27が、時刻区間付編集情報からカット区間を算出する。
カット区間算出部27は、動画像カット編集部61と、音声カット編集部62と、を有する。
まず、再生時刻変換部33を用いて、時刻区間付編集情報に付与された再生時刻および秒間フレーム数からフレームインデクスを取得し、フレームインデクスが付与されたインデクス付フレーム画像を選択する。
動画像カット編集部61は、カット区間に含まれるインデクス付フレーム画像を削除する。また、音声カット編集部62は、音声データからカット区間の音声データを削除する。
動画結合部63は、編集済み動画データを生成する。動画結合部63は、編集済みのインデクス付フレーム画像および編集済みの音声データから編集済み動画データを生成する。
次に、本発明の実施形態に係る動画編集方法について図2から図5を用いて説明する。
まず、動画編集方法のうち、認識結果を取得する方法について図2を用いて説明する。
まず、動画入力部21を用いて動画データを読み込む(ステップS10)。ステップS10において読み込まれた動画データは、制御部13へと送信される。
次に、動画データに含まれる動画像データから時刻区間付動画像認識結果を算出する第一の工程について説明する。
第一の行程において、まず、フレーム画像抽出部31を用いて動画データからフレームインデクス付フレーム画像を取得する(ステップS20)。
次に、秒間フレーム数抽出部32を用いて、動画データから秒間フレーム数を取得する(ステップS30)。
次に、再生時刻変換部33を用いて、フレーム画像抽出部31で取得されたフレームインデクス付フレーム画像と、秒間フレーム数抽出部32で取得された秒間フレーム数と、から再生時刻を取得する(ステップS40)。
次に、フレーム画像抽出部31と、秒間フレーム数抽出部32と、再生時刻変換部33とによって取得される再生時刻、インデクス付フレーム画像、および再生時刻から、再生時刻を起点とする区間に対し、時刻区間付動画像認識結果を取得する(ステップS50)。
また、動画データに含まれる音声データから時刻区間付音声認識結果を算出する第二の行程について説明する。なお、第一の行程と、第二の行程とは、並行して処理される。
第二の行程において、まず、音声認識部23を用いて、動画データから音声データを取得する(ステップS60)。
次に、音声認識部23を用いて、動画データに含まれる音声データおよび時刻データから再生時刻を起点とする区間に対し、時刻区間付音声認識結果を取得する(ステップS70)。
次に、時刻区間付動画像認識結果および時刻区間付音声認識結果を各再生時刻において結合した複合認識結果を算出する第三の工程について、図3を用いて説明する。
認識結果結合部24を用いて、再生時刻を含む時刻区間が付与された時刻区間付動画像認識結果と、時刻区間付音声認識結果と、から複合認識結果を算出する(ステップS110)。
次に、複合認識結果に基づき適用する編集情報を決定する第四の工程について説明する。
編集情報割当部25を用いて、複合認識結果から時刻区間付編集情報を取得する(ステップS120)。複合認識結果と編集情報の関係は記憶部12に表1に示すテーブルとして記録されており、複合認識結果を入力すると、編集情報割当部25によって、テーブルに基づいて時刻区間付編集情報が生成される。
次に、時刻区間付編集情報に従って動画自動編集を行う第五の工程について、図4を用いて説明する。
動画自動編集は、動画像データの編集と、音声データの編集と、が並行して行われる。
動画像データの編集においては、再生時刻変換部33を用いて、時刻区間付編集情報に付与された再生時刻および秒間フレーム数からフレームインデクスを取得し、フレームインデクスが付与されたインデクス付フレーム画像を選択する。(ステップS150)
次に、画像エフェクト付加編集部51を用いて時刻区間付編集情報および再生時刻から画像エフェクトを決定し、インデクス付フレーム画像に付加する(ステップS160)。
次に、テロップ付加編集部52を用いて、時刻区間付編集情報および再生時刻に基づいて文字または記号からなるテロップ画像を生成し、インデクス付フレーム画像に付加する(ステップS170)。
次に、動画像コンテンツ付加編集部53を用いて、時刻区間付編集情報および再生時刻に基づいて動画像コンテンツを決定し、インデクス付フレーム画像に付加する(ステップS180)。
音声データの編集においては、まず、音声エフェクト付加編集部54を用いて、時刻区間付編集情報から音声エフェクトを決定し、音声データに付加する(ステップS220)。
次に、音声コンテンツ付加編集部55を用いて、時刻区間付編集情報から音声コンテンツを決定し、音声データに付加する(ステップS230)。
このように構成することにより、動画像に対して、画像エフェクト、テロップ画像、動画像コンテンツ、音声データに対する音声エフェクト、および音声コンテンツを付加することができる。
さらに、カット編集を行う第六の工程について、図5を用いて説明する。
まず、時刻区間付編集情報にカット編集情報が含まれるか否かについて判断する(ステップS250)。時刻区間付編集情報にカット編集情報が含まれない場合はカット編集を行う必要が無いため、カット編集を終了する。
ステップS250において、カット編集情報が含まれると判断された場合は、カット区間算出部を用いて時刻区間付編集情報からカット区間を算出する(ステップS260)。
カット編集には、動画像のカット編集と、音声データのカット編集と、が並行して行われる。
まず、カット区間に含まれる再生時刻において、再生時刻変換部33を用いて、時刻区間付編集情報に付与された再生時刻および秒間フレーム数からフレームインデクスを取得し、フレームインデクスが付与されたインデクス付フレーム画像を選択する(ステップS270)。
次に、動画像カット編集部61を用いて、前記選択されたインデクス付フレーム画像を削除する(ステップS280)。音声カット編集部62を用いて、音声データからカット区間の音声データを削除する(ステップS290)。
このように構成することにより、動画データから不要な部分をカットするカット編集が行われる。
上記第一の工程から第六の工程が行われた後、動画結合部63を用いて、編集済み動画データを生成する(ステップS310)。次に、編集済み動画データを出力する(ステップS320)。
次に、動画の編集方法の具体例について説明する。
第一の工程において、動画データに含まれる動画像データから算出された時刻区間付動画像認識結果の具体例として、オブジェクト認識で認識する特定のジェスチャ(ハンドサイン)が含まれる。特定のジェスチャを認識する学習済みモデルは予め登録しておく。動画データから抽出したフレーム画像データを入力情報として、オブジェクト認識を実行し、ジェスチャが現れたフレーム画像データにおける領域を検出し、認識結果とする。これらの認識結果は時刻区間と紐付けられている。
また、第二の工程において、動画データに含まれる音声データから算出された時刻区間付音声認識結果の具体例として、動画出演者の発話内容に基づくテキストの情報、特定キーワードが発話されたか否かの情報、無音声区間に関する情報が含まれる。発話音声認識で出力される発話内容文に含まれるキーワードは予め登録しておく。動画データから抽出した音声データを入力情報として、音声認識を実行し、たとえば特定キーワードが発話されたこと検出し、認識結果とする。これらの認識結果は時刻区間と紐付けられている。
認識結果結合部24において、時刻区間と紐付けられた時刻区間付動画像認識結果および時刻区間付音声認識結果から、複合認識結果を取得する。複合認識結果には、前記認識情報が複合的になったものも含まれる。例えば、発話音声認識の結果として取得された発話時刻区間と、オブジェクト認識の結果として取得された時刻区間を時刻的に結合し、共通区間が含まれる場合、該当する発話音声認識またはオブジェクト認識のすべて、もしくは少なくとも何れか一つが含まれる時刻区間を算出し、時刻区間と紐付けられた複合認識結果とする。
編集情報割当部25において、認識結果結合部24において取得された複合認識結果から、表1に示す編集方法組み合わせパターンに基づいて時刻区間付編集情報を取得する。たとえば時刻区間の最も早い時刻もしくは最も遅い時刻を編集点として算出する。編集点の登録の代わりに、画面演出の付与や、効果音の付与といった編集内容を時刻区間付編集情報として対応付けることも可能である。
編集情報割当部25に対して、入力部36を用いて編集方法組み合わせパターンを指定可能である。編集方法組み合わせパターンは、認識結果結合部24において指定された組み合わせパターンと、利用可能な任意の編集方法と、を対応付ける組み合わせパターンであり、編集方法は動画作成者により予め登録される。編集方法は、例えば、予め登録されたジェスチャおよびキーワードと、それらを時刻的に結合する組み合わせパターンと、前記組み合わせパターンと対応する時刻区間付編集情報と、により表現することが可能である。また、これらの編集方法はプリセットされた手順から選択できるようにしてもよく、プリセットされた複数の手順をまとめて、一括選択できるようにしてもよい。
動画編集方法の別の具体例として、話者識別を合わせた発話内容の文字起こしを行う方法について説明する。
動画作成者は、オブジェクト認識で認識する出演者ごとの顔に対し、これらを認識する学習済みモデルを予め登録する。オブジェクト認識で認識する顔の構成要素に対し、これらを認識する学習済みモデルを予め登録する。顔の構成要素は、例えば、口である。
音声認識部23は、動画データに含まれる音声データおよび時刻データから、時刻区間付音声認識結果を出力する。また、動画像認識部22は、動画データから抽出したフレーム画像データを入力情報としてオブジェクト認識を実行し、出演者ごとの顔が現れたフレーム画像データを検出し、各時刻における顔領域を取得する。
また、動画データから抽出したフレーム画像データを入力情報としてオブジェクト認識を実行し、顔の構成要素である口が現れたフレーム画像データを検出し、各時刻における口の領域を取得する。
また、動画データから抽出したフレーム画像データを入力情報として動き認識を行い、各時刻、各領域における動きベクトルを取得する。
オブジェクト認識及び動き認識の結果を時刻的、領域的に結合する。すなわち、各出演者の顔領域と口の領域とが共通部分を持つとき、この口の領域を出演者に対応付けて、口の領域における動きベクトルに基づいて動きが有る場合、この出演者を発話中と判定し、動画像認識による発話時刻区間を取得する。
発話音声認識による発話時刻区間と動画像認識による発話時刻区間を時刻的に結合し、共通区間が有る場合、動画像認識による発話者を、発話音声認識による発話内容文と組み合わせて時刻区間付編集情報として算出する。
前記編集方法は発話内容文、動きベクトル予め登録された出演者ごとの顔、および顔の構成要素と、それらを時刻的、領域的に結合する組み合わせパターンと、対応する時刻区間付編集情報と、により表現することが可能であり、前記編集方法は動画作成者により予め登録される。
また、動画の編集方法の別の具体例として、カット編集を行う方法について説明する。
動画作成者は、オブジェクト認識で認識する出演者の顔に対し、これらを認識する学習済みモデルを予め登録する。
音声認識部23は、動画データに含まれる音声データおよび時刻データから、時刻区間付音声認識結果を算出する。また、動画像認識部22は、動画データから抽出したフレーム画像データを入力情報としてオブジェクト認識を実行し、出演者の顔が現れたフレーム画像データを検出し、そのフレームに基づいて時刻区間を取得する。
発話音声認識の結果として取得された時刻区間付音声認識結果と、オブジェクト認識の結果として取得された時刻区間を時刻的に結合し、いずれも含まれない時刻区間をカット編集により削除される区間として時刻区間付編集情報として算出する。
前記編集方法は、発話内容文および予め登録された出演者の顔と、それらを時刻的に結合する組み合わせパターンと、対応する時刻区間付編集情報と、により表現することが可能であり、前記編集方法は動画作成者により予め登録される。
時刻区間付編集情報を用いて既に述べた手段により編集を行った動画像データおよび音声データを結合して編集済み動画像データを生成する。編集済み動画像データは、不可逆的なコンテナファイルとして出力される。なお、時刻区間付編集情報はコンテナファイルとして出力するものに限定するものではなく、例えば、編集可能なデータ群として出力することもできる。編集可能なデータ群として生成された場合には、一般的な動画編集ソフトによって、編集者が更に手動で編集を行うことができる。
以上のように、動画編集装置1は、動画データに含まれる動画像データから算出される時刻区間付動画像認識結果を格納する動画像認識結果格納部としての動画像認識部22と、動画データに含まれる音声データから算出される時刻区間付音声認識結果を格納する音声認識結果格納部としての音声認識部23と、時刻区間付動画像認識結果および前記時刻区間付音声認識結果を各再生時刻において結合した複合認識結果を算出する認識結果結合部24と、複合認識結果に基づき適用する時刻区間付編集情報を決定する編集情報割当部25と、を備える。
このように構成することにより、動画編集において、動画データから認識が可能である複合的な事象と特定の編集内容とを紐付けることができる。例えば、音声認識により動画出演者の発話内容から生成されたテロップを動画像認識により認識された動画出演者のジェスチャに応じた位置に付加することができる。また、音声認識により認識されたキーワードに応じた動画像コンテンツを動画像認識により検出された動画出演者の顔の位置の周辺に付加することができる。
また、動画像認識により認識された動画出演者のジェスチャに応じた音声コンテンツを音声認識により検出された発話区間と重ならないタイミングで付加することができる。また、音声認識により検出された無音声区間のうち、動画像認識により認識された特定のオブジェクトが動き始める時刻より前だけをカットすることができる。
このように構成することにより、動画作成者は特定の編集内容と紐付けられた複合的な事象を利用して動画の撮影中に任意の動画再生時刻に対して意図した編集内容を指定することができ、これにより、動画作成者の意図を反映した編集を可能としながら動画編集にかかる負担を軽減することができる。
上述の実施形態は、代表的な形態を示したに過ぎず、一実施形態の骨子を逸脱しない範囲で変形して実施することができる。さらに種々の形態で実施し得ることは勿論のことであり、本発明の範囲は、特許請求の範囲の記載によって示され、さらに特許請求の範囲に記載の均等の意味、および範囲内の全ての変更を含む。
1 動画編集装置
2 動画撮影装置
11 通信部
12 記憶部
13 制御部
21 動画入力部
22 動画像認識部
23 音声認識部
24 認識結果結合部
25 編集情報割当部
26 動画自動編集部
27 カット区間算出部
31 フレーム画像抽出部
32 秒間フレーム数抽出部
33 再生時刻変換部

Claims (9)

  1. 動画データに含まれる動画像データから算出される時刻区間付動画像認識結果を格納する動画像認識結果格納部と、
    前記動画データに含まれる音声データから算出される時刻区間付音声認識結果を格納する音声認識結果格納部と、
    前記時刻区間付動画像認識結果および前記時刻区間付音声認識結果を各再生時刻において結合した複合認識結果を算出する認識結果結合部と、
    前記複合認識結果に基づき適用する時刻区間付編集情報を決定する編集情報割当部と、を備え
    前記認識結果結合部において、前記時刻区間付動画像認識結果および前記時刻区間付音声認識結果は所定の組み合わせパターンと照合することにより結合され、前記所定の組み合わせパターンは登録可能とすることを特徴とする
    動画編集装置。
  2. 前記編集情報割当部において、前記適用する時刻区間付編集情報は前記複合認識結果と、複合認識結果と時刻区間付編集情報との所定の組み合わせパターンと、を照合することにより決定され、前記所定の組み合わせパターンは登録可能とすることを特徴とする
    請求項に記載の動画編集装置。
  3. 前記編集情報割当部において決定された時刻区間付編集情報は、編集可能なデータ群として出力されることを特徴とする
    請求項1または2に記載の動画編集装置。
  4. 動画データに含まれる動画像データから算出される時刻区間付動画像認識結果を格納する第一の工程と、
    前記動画データに含まれる音声データから算出される時刻区間付音声認識結果を格納する第二の工程と、
    前記時刻区間付動画像認識結果および前記時刻区間付音声認識結果を各再生時刻において結合した複合認識結果を算出する第三の工程と、
    前記複合認識結果に基づき適用する時刻区間付編集情報を決定する第四の工程とを備え
    前記第二の工程において、前記時刻区間付動画像認識結果および前記時刻区間付音声認識結果は所定の組み合わせパターンと照合することにより結合し、前記所定の組み合わせパターンは登録可能とすることを特徴とする
    動画編集方法。
  5. 前記第三の工程において、前記適用する時刻区間付編集情報は前記複合認識結果と、複合認識結果と時刻区間付編集情報との所定の組み合わせパターンと、を照合することにより決定し、前記所定の組み合わせパターンは登録可能とすることを特徴とする
    請求項に記載の動画編集方法。
  6. 前記第四の工程において決定された時刻区間付編集情報は、編集可能なデータ群として出力することを特徴とする
    請求項4または5に記載の動画編集方法。
  7. 動画編集装置として情報処理装置を機能させる動画編集プログラムにおいて、
    動画データに含まれる動画像データから算出される時刻区間付動画像認識結果を格納する動画像認識ステップと、
    前記動画データに含まれる音声データから算出される時刻区間付音声認識結果を格納する音声認識ステップと、
    前記時刻区間付動画像認識結果および前記時刻区間付音声認識結果を各再生時刻において結合した複合認識結果を算出する認識結果結合ステップと、
    前記複合認識結果に基づき適用する時刻区間付編集情報を決定する編集情報割当ステップと、を前記情報処理装置に実行させて、
    前記認識結果結合ステップにおいて、前記時刻区間付動画像認識結果および前記時刻区間付音声認識結果は所定の組み合わせパターンと照合することにより結合され、前記所定の組み合わせパターンは登録可能とすることを特徴とする
    動画編集プログラム。
  8. 前記編集情報割当ステップにおいて、前記適用する時刻区間付編集情報は前記複合認識結果と、複合認識結果と時刻区間付編集情報との所定の組み合わせパターンと、を照合することにより決定され、前記所定の組み合わせパターンは登録可能とすることを特徴とする
    請求項に記載の動画編集プログラム。
  9. 前記編集情報割当ステップにおいて決定された時刻区間付編集情報は、編集可能なデータ群として出力されることを特徴とする
    請求項7または8に記載の動画編集プログラム。
JP2018110423A 2018-06-08 2018-06-08 動画編集装置、動画編集方法、及び動画編集プログラム Active JP7133367B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018110423A JP7133367B2 (ja) 2018-06-08 2018-06-08 動画編集装置、動画編集方法、及び動画編集プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018110423A JP7133367B2 (ja) 2018-06-08 2018-06-08 動画編集装置、動画編集方法、及び動画編集プログラム

Publications (2)

Publication Number Publication Date
JP2019213160A JP2019213160A (ja) 2019-12-12
JP7133367B2 true JP7133367B2 (ja) 2022-09-08

Family

ID=68847093

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018110423A Active JP7133367B2 (ja) 2018-06-08 2018-06-08 動画編集装置、動画編集方法、及び動画編集プログラム

Country Status (1)

Country Link
JP (1) JP7133367B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102553519B1 (ko) * 2021-12-07 2023-07-10 한국전자기술연구원 컴퓨터와 사람의 협업을 통한 동영상 반자동 편집을 위한 인공지능 기반 동영상 편집 추천 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001143445A (ja) 1999-09-08 2001-05-25 Sony United Kingdom Ltd 編集装置及び方法
JP2002142188A (ja) 2000-11-02 2002-05-17 Canon Inc 動画像編集方法及び装置
JP2013182570A (ja) 2012-03-05 2013-09-12 Canon Inc 映像生成装置及びその制御方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001143445A (ja) 1999-09-08 2001-05-25 Sony United Kingdom Ltd 編集装置及び方法
JP2002142188A (ja) 2000-11-02 2002-05-17 Canon Inc 動画像編集方法及び装置
JP2013182570A (ja) 2012-03-05 2013-09-12 Canon Inc 映像生成装置及びその制御方法

Also Published As

Publication number Publication date
JP2019213160A (ja) 2019-12-12

Similar Documents

Publication Publication Date Title
JP4250301B2 (ja) 映像シーケンスを編集する方法及びシステム
US20150261419A1 (en) Web-Based Video Navigation, Editing and Augmenting Apparatus, System and Method
US8966360B2 (en) Transcript editor
US20200126559A1 (en) Creating multi-media from transcript-aligned media recordings
US20200126583A1 (en) Discovering highlights in transcribed source material for rapid multimedia production
US20180226101A1 (en) Methods and systems for interactive multimedia creation
WO2007127695A2 (en) Prefernce based automatic media summarization
JP6280312B2 (ja) 議事録記録装置、議事録記録方法及びプログラム
CN110781328A (zh) 基于语音识别的视频生成方法、系统、装置和存储介质
US20170242833A1 (en) Systems and Methods to Generate Comic Books or Graphic Novels from Videos
JP2007101945A (ja) 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム
JP2010011409A (ja) 映像ダイジェスト装置及び映像編集プログラム
JPWO2008136466A1 (ja) 動画編集装置
CN109376145B (zh) 影视对白数据库的建立方法、建立装置及存储介质
JP7133367B2 (ja) 動画編集装置、動画編集方法、及び動画編集プログラム
JP2008084021A (ja) 動画シナリオ生成方法、プログラムおよび装置
JP2008217447A (ja) コンテンツ生成装置及びコンテンツ生成プログラム
JP6641045B1 (ja) コンテンツ生成システム、及びコンテンツ生成方法
Gupta et al. Intelligent video editing: incorporating modern talking face generation algorithms in a video editor
KR101783872B1 (ko) 동영상 검색 시스템 및 방법
KR20140137219A (ko) 멀티미디어 파일에서 원하는 부분만 쉽고 빠르게 정확히 추출하거나 저장하여 s,e,u-컨텐츠를 만드는 장치 및 그 방법 또는 요점 추출 저장
KR20080084303A (ko) 멀티미디어 파일에서 원하는 부분만 쉽고 빠르게 정확히 추출하여 u-컨텐츠 만드는 방법
JP2007078985A (ja) データ検索装置及びその制御方法
JP2019197210A (ja) 音声認識誤り修正支援装置およびそのプログラム
JP7128222B2 (ja) 映像コンテンツに対する合成音のリアルタイム生成を基盤としたコンテンツ編集支援方法およびシステム

Legal Events

Date Code Title Description
A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20180621

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210520

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220411

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220426

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220517

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220823

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220829

R150 Certificate of patent or registration of utility model

Ref document number: 7133367

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150