JP2009182762A

JP2009182762A - 映像編集装置、映像編集プログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体

Info

Publication number: JP2009182762A
Application number: JP2008020323A
Authority: JP
Inventors: Kota Hidaka; 浩太日高; Takashi Sato; 隆佐藤; Takeshi Irie; 豪入江; Uwe Kowalik; ウーヴェコヴァリク; Yosuke Torii; 陽介鳥井; Yukinobu Taniguchi; 行信谷口
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2008-01-31
Filing date: 2008-01-31
Publication date: 2009-08-13
Anticipated expiration: 2028-01-31
Also published as: JP4802199B2

Abstract

【課題】本発明は、複数の指標でダイジェストを生成する際に、ユーザがダイジェストを構成する区間の選択理由を直感的に理解可能となる新たな技術の提供を目的とする。
【解決手段】編集対象の映像を解析して、ダイジェストを生成するために利用される区間を所定の選択基準に基づいて区間案として決定する。続いて、ユーザに対して、決定した区間案の決定理由となった選択基準の情報を提示し、さらに、決定した区間案で構成されるダイジェスト案とそのダイジェスト案の時間長案とを提示する。そして、この提示に応答して、ユーザが選択基準を改訂する場合には、その改訂された選択基準に基づいて区間案を再決定する。この構成に従って、ユーザは、ダイジェストを構成する区間の選択理由を直感的に理解することができるようになる。そして、ユーザが選択基準を決定できることにより、ユーザの嗜好に添ったダイジェストを生成することができるようになる。
【選択図】図１

Description

本発明は、映像を自動編集、もしくはユーザが簡易に編集する映像編集装置と、その映像編集装置の実現に用いられる映像編集プログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体とに関する。なお、本発明における映像とは音声、音楽を含むものとする。

映像数の増加に伴い、効率的な映像視聴方法が求められる。このためには、映像のダイジェストを視聴することが、効果的な手法としてあげられる。

例えば、特許文献１の“特開２００３−３１６３７８（特許第３８０３３１１号）：日高浩太、水野理、中嶌信弥、「音声処理方法及びその方法を使用した装置及びそのプログラム」”では、強調音声区間を基に、ユーザの指定する任意の時間長でダイジェストを生成する手法について述べられている。

また、特許文献２の“特開２００５−３４５４９６：日高浩太、「音声処理装置、音声処理方法およびそのプログラム」”では、音声の感情状態に対応してダイジェストを生成する手法について述べられている。

また、特許文献３の“特開２００６−１４８３９７：桑野秀豪、紺家裕子、山田智一、川添雄彦、日高浩太、「ダイジェスト映像作成装置、ダイジェスト映像作成方法、ダイジェスト映像作成プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体」”では、ダイジェストシーンとして相応しい映像中のシーンを抽出し、かつ、あらかじめ決められた時間長に収まるダイジェスト映像の作成を効率的に実行できるようにするダイジェスト映像装置について述べられている。
特開２００３−３１６３７８号公報特開２００５−３４５４９６号公報特開２００６−１４８３９７号公報

従来提案されている方法は、ダイジェスト時間長や、映像全体の時間長とダイジェスト時間長との比をユーザが設定することでダイジェストを生成する方法であった。

そのため、例えば、前記の強調音声区間にのみ着目してダイジェストを生成する場合、ユーザは映像を構成する各区間がダイジェストに利用される／利用されない理由を、強調音声であるか否かという指標で直感的に理解できる。

しかしながら、例えば、強調音声区間と感情音声区間など、複数の指標でダイジェストを生成する場合、ユーザは映像中の当該区間がどの観点でダイジェストに利用されたのか、あるいは利用されないのかを直感的に理解するのは、前述のひとつの指標に基づいた場合に比べ困難となる。指標が増加するのに比例して、直感的理解の難易度も増す。

また、複数の指標を用いる場合、それぞれの指標による映像を構成する区間は必ずしも同一でないことが想定される。例えば、強調音声区間の開始時刻と、感情音声区間の開始時刻が異なる可能性は否定できない。その結果、ダイジェストを構成する区間が、各前記指標に依存することとなり、前述のユーザが映像中の当該区間がどの観点でダイジェストに利用／未利用であるかを直感的に理解できるようにする課題を鑑みれば、更に課題解決を困難にしてしまう。

本発明は、前記事情に着目してなされたもので、その目的とするところは、複数の指標でダイジェストを生成する際に、ユーザがダイジェストを構成する区間の選択理由を直感的に理解可能となる新たな技術を提供することにある。

この目的を達成するために、本発明の映像編集装置は、（１）映像を入力する映像入力部と、（２）映像入力部の入力した映像を解析して、ダイジェストを生成するために利用される一つ以上の区間を所定の選択基準に基づいて区間案として決定するダイジェスト利用区間案決定部と、（３）ユーザに対して、ダイジェスト利用区間案決定部の決定した各区間案について記述する、その区間案の決定理由となった一つ以上の選択基準の情報を提示するダイジェスト利用区間案選択基準提示部と、（４）ユーザに対して、ダイジェスト利用区間案決定部の決定した区間案で構成されるダイジェスト案とそのダイジェスト案の時間長案とを提示するダイジェスト案・時間長案提示部と、（５）ユーザに対して、ダイジェスト利用区間案決定部の決定した区間案を結合することで生成されるダイジェストの生成に必要となる情報を提示するか、それらの区間案を結合することでダイジェストを生成してそれを提示するダイジェスト情報提示部とを備えるように構成する。

以上の各処理手段はコンピュータプログラムでも実現できるものであり、このコンピュータプログラムは、適当なコンピュータ読み取り可能な記録媒体に記録して提供されたり、ネットワークを介して提供され、本発明を実施する際にインストールされてＣＰＵなどの制御手段上で動作することにより本発明を実現することになる。

このように構成される本発明の映像編集装置では、編集対象の映像を入力すると、その入力した映像を解析して、ダイジェストを生成するために利用される区間を所定の選択基準に基づいて区間案として決定する。

例えば、音声を解析することにより検出される強調音声区間の強調度合いと、音声を解析することにより検出される所定の感情音声区間の感情度合いと、画像を解析することにより検出される顔が笑顔である度合いと、画像を解析することにより検出される顔領域が画像中に占める支配度度合いの一部又は全てを検出して、その検出結果がその検出対象の各々に設定された閾値を超えるのか否かを判断することを選択基準として、その選択基準を基づいて、ダイジェストを生成するために利用される区間案を決定する。

ここで、この区間案の決定にあたって、二つ以上の選択基準による区間案の開始時刻、終了時刻に差異が生じた場合には、これを統一する時刻に修正することがある。

続いて、ユーザに対して、決定した区間案の決定理由となった選択基準の情報を提示し、さらに、決定した区間案で構成されるダイジェスト案とそのダイジェスト案の時間長案とを提示する。

このとき、映像を構成する各区間について、いずれの区間が区間案として決定され、いずれの区間が区間案として決定されなかったのかを示す情報を提示することでダイジェスト案を提示することがある。

そして、この提示に応答して、ユーザが選択基準を改訂する場合には、その改訂された選択基準に基づいて区間案を再決定することになる。

本発明によれば、複数の指標で映像を解析し、統一された映像区間を基準として、選択基準に基づきダイジェスト案、ダイジェスト時間長案が可視化され、ユーザのダイジェストに対する直感的理解を伴なったダイジェスト生成が可能となる。

すなわち、本発明によれば、統一された映像区間を構成単位として、複数の指標においても簡易にダイジェストが生成可能となる。

そして、本発明によれば、ダイジェストの選択基準、ダイジェスト案、ダイジェスト時間長案が提示されることから、ダイジェストの生成理由をユーザが直感的に理解可能となる。

そして、本発明によれば、ユーザが選択基準を決定できることにより、ユーザの嗜好に添ったダイジェストを生成可能となる。

そして、本発明によれば、音声解析により検出される強調音声区間の強調度合い、音声解析により検出される所定の感情音声区間の感情度合い、画像解析により検出される笑顔である度合い、画像解析により検出される顔領域が画像中に占める支配度度合い、のうち二つ以上を用いて、映像を解析し、その解析結果をダイジェストに利用することが可能となる。

そして、本発明によれば、ダイジェストコンテンツやダイジェストに利用／未利用の区間の情報が出力可能となる。

以下、実施の形態に従って本発明を詳細に説明する。

図１に、本発明の映像編集装置１の装置構成を図示する。

この図に示すように、本発明の映像編集装置１は、映像入力部１０と、映像ファイル１１と、ダイジェスト利用区間案決定部１２と、ダイジェスト利用区間案選択基準提示部１３と、ダイジェスト案・時間長案提示部１４と、対話変更部１５と、ダイジェスト情報提示部１６とを備える。

図２に、このように構成される本発明の映像編集装置１の実行する基本的なフローチャート（基本手順）を示す。

本発明の映像編集装置１は、この基本手順に示すように、まず最初に、ステップＳ１０で、映像入力部１０で、映像を入力して映像ファイル１１に格納する。

続いて、ステップＳ１１で、ダイジェスト利用区間案決定部１２で、映像入力部１０の入力した映像を分析して、ダイジェストを生成するために利用する区間案（ダイジェスト利用区間案）を決定する。

続いて、ステップＳ１２で、ダイジェスト利用区間案選択基準提示部１３で、ユーザに対して、各ダイジェスト利用区間案がどのような選択基準によりダイジェスト利用空間案として決定されたのかという理由を提示する。

続いて、ステップＳ１３で、ダイジェスト案・時間長案提示部１４で、ユーザに対して、ダイジェストに利用／未利用の区間の情報で構成されるダイジェスト案とそのダイジェスト案の時間長案を提示する。

続いて、ステップＳ１４で、ダイジェスト利用区間案選択基準提示部１３やダイジェスト案・時間長案提示部１４の提示に対して、ユーザから選択基準の変更要求があるのか否かを判断して、ユーザから選択基準の変更要求があることを判断するときには、ステップＳ１５に進んで、対話変更部１５で、ユーザと対話することで選択基準を変更してから、ステップＳ１１の処理に戻ってダイジェスト利用区間案の決定をやり直す。

一方、ステップＳ１４で、ユーザから選択基準の変更要求がないことを判断するときには、ステップＳ１６に進んで、ダイジェスト利用区間案選択基準提示部１３やダイジェスト案・時間長案提示部１４の提示に対して、ユーザからダイジェスト案の変更要求があるのか否かを判断して、ユーザからダイジェスト案の変更要求があることを判断するときには、ステップＳ１７に進んで、対話変更部１５で、ユーザと対話することでダイジェスト案を変更する。

続いて、ステップＳ１８で、ダイジェスト案・時間長案提示部１４で、ユーザに対して、変更したダイジェスト案とそのダイジェスト案の時間長案を提示してから、ステップＳ１６の処理に戻って、ユーザからダイジェスト案の変更要求があるのか否かを判断する。

一方、ステップＳ１６で、ユーザからダイジェスト案の変更要求がないことを判断するときには、ステップＳ１９に進んで、ダイジェスト情報提示部１６で、ダイジェスト利用区間案を結合することで生成されるダイジェストの生成に必要となる情報を生成してユーザに提示したり、そのダイジェストを生成してユーザに提示する。

次に、ダイジェスト利用区間案決定部１２、ダイジェスト利用区間案選択基準提示部１３、ダイジェスト案・時間長案提示部１４、対話変更部１５、ダイジェスト情報提示部１６の実行する各処理の詳細について説明する。

〔１〕ダイジェスト利用区間案決定部１２の処理について
次に、ダイジェスト利用区間案決定部１２の処理について詳述する。

ステップＳ１０で入力された映像を構成するＡｕｄｉｏ／Ｖｉｓｕａｌのうち、Ａｕｄｉｏを分析する手法としては、例えば、音声の韻律情報から強調音声区間の強調度合い、所定の感情音声区間の感情度合いを抽出する。

強調音声区間の強調度合いは、例えば、前述した特許文献１の“特許第３８０３３１１号：日高浩太、水野理、中嶌信弥、「音声処理方法及びその方法を使用した装置及びそのプログラム」”により行えばよい。また、所定の感情音声区間の感情度合いは、例えば、前述した特許文献２の“特開２００５−３４５４９６：日高浩太、「音声処理装置、音声処理方法およびそのプログラム」”により行えばよい。所定の感情とは、例えば「笑い」、「怒り」、「悲しみ」などとすればよい。

Ｖｉｓｕａｌを分析する手法としては、顔画像領域を検出し、その顔画像が笑顔である度合いを検出することで行う。顔画像領域の検出としては、例えば、以下の手法により実施できる。

図３に、本発明で用いる表情検出方法（笑顔である度合いの検出方法）のフローチャートを示す。

本発明では、このフローチャートに示すように、まず最初に、ステップＳ２０の顔画像領域抽出処理で、入力された動画像から人物の顔画像領域を抽出し、続いて、ステップＳ２１の特徴点抽出処理で、その抽出した顔画像領域から鼻の先端、口角の左右の位置を特徴点として抽出し、続いて、ステップＳ２２の特徴量抽出処理で、鼻の先端を基準としたときの口角の左右位置との角度を計測して特徴とし、続いて、ステップＳ２３の笑い状態検出処理で、その特徴とした角度の時間変化を求め、その時間変化から平衡状態からの立ち上がり状態、最大角度状態、平衡状態への立ち下がり状態の３状態に分割し、笑い状態の開始から終了までの連続的な変化をとらえる。

ステップＳ２０の顔画像領域抽出処理については、Ａｄａｂｏｏｓｔ学習による、Ｈａａｒ−ｌｉｋｅ特徴を用いた識別器を用いる。

ここで、多数の弱識別器をカスケード型とし、それらのカスケード型識別器を識別対象の大きさ、位置を変化させて適用し、顔画像領域を特定する。これについては、例えば、Paul Viola, Michael J.Jones. Robust Real-Time Face Detection. International Journal of Computer Vision. Vol 57, No.2 pp.137-154 (2004)などに記載されている。

ステップＳ２１の特徴点抽出処理では、その事前処理として、図４の黒抜き丸で示す２５点の特徴点を抽出している。特徴点は、輪郭、目玉、眉毛、鼻、口に関連して割り振っている。

この特徴点の抽出方法としては、例えば、Lades M., Vorbruggen J., Buhmann J., Lange J., Konen W., von der Malsburg C., Wurtz R. Distortion Invariant Object Recognition in the Dynamic Link Architecture. IEEE Trans. Computers, Vol.42, No.3 pp.300-311 (1993)、Wiskott L., Fellous J.-M., Kruger N., von der Malsburg C. Face Recognition by Elastic Bunch Graph Matching. IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol.19, Issue 7, pp.775-779 (1997)などにより公知の方法となっている。

これらの公知技術を参照することにより、例えば、人物が顔を動かすなどの行為を行ったとしても安定して前記２５点の特徴点を抽出可能である。

そして、ステップＳ２１の特徴点抽出処理では、これらの２５点の特徴点のうち、図５に示す二重丸の３点のみを特徴点として抽出し、残りの点は必要としない。これらは、鼻の先端、口角の左右の位置に相当する点である。

ステップＳ２２の特徴量抽出処理では、図６に示す鼻の先端を基準としたときの左右の口角の位置の角度（図中に示すα）を計測し、特徴量とする。

ステップＳ２３の笑い状態検出処理では、前記角度の特徴量をαとしたときのその時間履歴を図７のように計測する。さらに、その時間履歴から、図７に示すように、平衡状態からの立ち上がり、最大角度、平衡状態への立ち下がりの３状態に分割する。

実際には、人間が平衡状態にあるときに必ずしも口の形状がしまっている状態ではないことが想定される。また、通常会話しているときも口の形状は開閉状態となる。このような場合においても、笑っているか否かを判断するためには、例えば、特徴量αの時間変化を観測すればよい。具体的には、図８に示すように、特徴量αの時間微分ｄα／ｄｔと、２つの閾値を用いる。２つの閾値については、高閾値thupper と低閾値thlower と呼ぶこととする。この閾値は静的に設定されるものでもよく、後述する方法により動的に設定されるものであってもよい。

これより、前記３状態に分割する方法について詳述する。

平衡状態からの立ち上がり状態については、その開始時刻は、時間微分ｄα／ｄｔが高閾値thupper を越えた時刻の時間微分ｄα／ｄｔから時間的に前方向を観測し、最短時間でｄα／ｄｔ＝０となる時刻ｔ₀（図８中に示す時刻ｔ₀）とする。一方、その終了時刻は、時間微分ｄα／ｄｔが高閾値thupper を越えた時刻の時間微分ｄα／ｄｔから時間的に後ろ方向を観測し、最短時間でｄα／ｄｔ＝０となる時刻ｔ₁（図８中に示す時刻ｔ₁）とする。この時刻ｔ₁は最大角度状態の開始時刻にも相当する。

平衡状態への立ち下がり状態については、その開始時刻は、最大角度状態以降で、時間微分ｄα／ｄｔが低閾値thlower を下回った時刻の時間微分ｄα／ｄｔから時間的に前方向を観測し、最短時間でｄα／ｄｔ＝０となる時刻ｔ₂（図８中に示す時刻ｔ₂）とする。この時刻ｔ₂は最大角度状態の終了時刻にも相当する。一方、その終了時刻は、最大角度状態以降で、時間微分ｄα／ｄｔが低閾値thlower を下回った時刻の時間微分ｄα／ｄｔから時間的に後ろ方向を観測し、最短時間でｄα／ｄｔ＝０となる時刻ｔ₃（図８中に示す時刻ｔ₃）とする。

前述のように、平衡状態への立ち上がり状態の開始時刻から平衡状態からの立ち下がり終了時刻までが一連の笑い状態として判別される。

次に、前述の高閾値thupper と低閾値thlower を動的に設定する方法について述べる。例えば、高閾値thupper と低閾値thlower の標準偏差と平均値をそれぞれ、σupper とμupper 、σlower とμlower とした場合、
thupper ＝ａ・σupper ＋ｂ・μupper ・・・式（１）
thlower ＝ｃ・σlower ＋ｄ・μlower ・・・式（２）
としてもよい。

ここで、ａ，ｂ，ｃ，ｄは係数で任意の値とし、例えば、予め、試験用動画像を用意し、統計的な学習工程を経て設定するものであってもよい。具体的には、人手により本手法による笑い状態の前記３状態の開始時刻と終了時刻の正解集合を設定し、これと本発明によって抽出された前記３状態の開始時刻と終了時刻との時間差を最小限とするようにａ，ｂ，ｃ，ｄを設定してもよい。

人間は、発話を一切していない状態においても口の形状が微小に変化していることが想定される。例えば、唇を噛みしめることや、つばを飲み込む動作を考えるだけでも、これらは容易に想像できる。これらの微小な変化が、前記角度αに影響する。また、笑いを含む発声行為についても、人間は規則的に口を開閉するのではなく、ある程度の不規則さを伴なって開閉することが想定される。いわゆるこのようなノイズの影響を軽減させるために、例えば、検出した角度にメディアンフィルターを適用する対策を施してもよい。

また、本発明による時間微分ｄα／ｄｔでは、笑い状態と一般の発声とが区別がつかない場合も想定される。例えば、ｉｌｌｅｇａｌと発声した場合、“ｉｌｌｅ”の部分でｄα／ｄｔが増加し、“ｇａｌ”の部分でｄα／ｄｔが減少するため、笑い状態と似ている挙動となる可能性がある。そのような場合には、例えば、最大角度状態の時間に着目し、“ｔ₂−ｔ₁＞ｔ_time”などの時間的な閾値ｔ_timeを設定することで問題を回避することが可能となる。

これまで、本発明の基本的な実施形態例を述べてきたが、例えば、前記角度αのみに着目している場合、例えば、引きつった笑いや、いやみを発言するときなどに頻出する、鼻の稜線を基準線としたときの左右非対称の状態においても笑い状態と判別する可能性がある。

このような問題に対しては、図９に示すように、口角の左右の位置を結ぶ線分の中心と、鼻の先端とを結ぶ線分を基準線とし、基準線に対する左右の口角位置との角度をそれぞれα１、α２として求めて、これらの値の差を考慮することで対象であるか否かを判定すればよい。

例えば、それぞれの時間微分ｄα１／ｄｔ、ｄα２／ｄｔの時間履歴を測定し、これらの相関係数を求め、例えば０．５以上であるときに対象としてもよい。また、それぞれの時間微分がｄα１／ｄｔ＞０、ｄα２／ｄｔ＞０となる時刻をｔｓ１，ｔｓ２とした時の｜ｔｓ１−ｔｓ２｜に閾値を設定するなどしてもよい。

また、Ｖｉｓｕａｌを分析するその他の手法としては、顔画像領域を用いて、顔領域が画像中に支配的であるか否かの支配度度合いを求めることで行う。

これについては、例えば、“特開２００６−２４４０７４：鳥井陽介、紺谷精一、森本正志、「動物体アップフレーム検出方法及びプログラム及びプログラムを格納した記憶媒体及び動物体アップショット検出方法及び動物体アップフレームあるいはショット検出方法及びプログラム及びプログラムを格納した記憶媒体」”により行えばよい。

以上、述べてきた強調音声区間の強調度合い、所定の感情音声区間の感情度合い、画像を解析することにより検出される顔領域に基づいて測定されるその顔が笑顔である度合い、その顔領域が画像中に支配的であるか否かの支配度度合いのうち２つ以上を、ダイジェスト利用区間案決定部１２では求め、それぞれに対して閾値を設定することで選択基準として、ダイジェスト利用区間案を決定する。

すなわち、ダイジェスト利用区間案決定部１２では、音声解析により検出される音声の強調度合いがそれに割り付けられた閾値を越える区間をダイジェスト利用区間案として決定したり、音声解析により検出される感情度合いがそれに割り付けられた閾値を越える区間をダイジェスト利用区間案として決定したり、画像解析により検出される笑顔である度合いがそれに割り付けられた閾値を越える区間をダイジェスト利用区間案として決定したり、画像解析により検出される顔領域が画像中に占める支配度度合いがそれに割り付けられた閾値を越える区間をダイジェスト利用区間案として決定したり、それらの２つ以上の度合いがそれに割り付けられた閾値を越える区間をダイジェスト利用区間案として決定する。

〔２〕ダイジェスト利用区間案選択基準提示部１３の処理について
次に、ダイジェスト利用区間案選択基準提示部１３の処理について説明する。

ダイジェスト利用区間案選択基準提示部１３は、ダイジェスト利用区間案決定部１２の決定した各ダイジェスト利用区間案について、その決定理由を提示する。

この提示にあたって、ダイジェスト利用区間案選択基準提示部１３は、ダイジェスト利用区間案決定部１２で得られた、強調音声区間の強調度合い、所定の感情音声区間の感情度合い、顔が笑顔である度合い、顔領域が画像中に支配的であるか否かの支配度度合いのうち２つ以上を表示する。

図１０では、音声の強調度合いと、所定の感情を「笑い」「怒り」「泣き」とした場合の３種類の感情の度合いと、笑顔の度合いと、顔領域の支配度合いの計６種類を表示した例を示している。

さらに、ダイジェスト利用区間案選択基準提示部１３は、この表示に対して、ダイジェストの作成に利用する区間であるのか否かの選択基準となる閾値を表示する。

図１１では、これらの閾値として６つの閾値を黒丸で示し、各閾値を点線で結んだものを示している。例えば、笑顔の度合いや「笑い」の度合いが高いことから、楽しそうなダイジェストを生成することが直感的に理解できる。

これらの閾値の初期値は、過去のユーザの操作履歴を記録しておき、例えば、前回の形状と同一のものとしてもよい。また、以下の方法によって簡易に定めるものでもよい。

すなわち、映像の全ての区間について、各区間ごとに強調音声の度合いの平均値を求めＰ１とする。同様の方法で「笑い」をＰ２、「泣き」をＰ３、「怒り」をＰ４、笑顔の度合いをＰ５、支配度合いをＰ６とし、Ｐ１〜Ｐ６のそれぞれについて最小値と最大値を求めるとともに、Ｐ１〜Ｐ６のそれぞれについて平均値を求めて、そのようにして求めた最小値と最大値を図１０の各度合いの各軸上の両端とするとともに、そのようにして求めた平均値やその平均値に規定の係数を乗算した値を閾値の初期値としてプロットするようにしてもよい。

前述したように、ダイジェスト利用区間案決定部１２は、音声の強調度合い、感情の度合い（音声解析により検出される）、笑顔の度合い（画像解析により検出される）、顔領域の支配度合いを図１１に示す閾値を用いて評価することで、ダイジェスト利用区間案を決定するようにしている。

このダイジェスト利用区間案の決定を受けて、ダイジェスト利用区間案選択基準提示部１３は、ユーザに対して、これらの各ダイジェスト利用区間案がどのような理由で決定されたのかを提示する処理を行う。

例えば、ダイジェスト利用区間案決定部１２がダイジェスト利用区間案として区間２、区間４、区間６を決定した場合にあって、区間２の決定理由が笑顔の度合いが閾値を越えたことにあり、区間４の決定理由が笑いの度合いが閾値を越えたことと、音声の強調度合いが閾値を越えたことにあり、区間６の決定理由が顔領域の支配度合いが閾値を越えたことにある場合には、ダイジェスト利用区間案選択基準提示部１３は、図１２に示すように、それらの決定理由を提示することで、各区間がダイジェスト利用区間案に採用された理由をユーザが直感的に理解できるようにする。

ここで、この提示にあたって、区間４のように複数の決定理由があるときには、それらの決定理由がどのような形で重複しているのかが分かるような形で提示することも可能である。

例えば、区間４では、笑いの度合いが閾値を越えたことと、音声の強調度合いが閾値を越えたという２つの理由によりダイジェスト利用区間案として決定されたのであるが、このとき、笑いの度合いの区間部分と音声の強調度合いの区間部分とが完全に一致している場合には、図１３（ｉ）に示すように提示し、笑いの度合いの区間部分と音声の強調度合いの区間部分とが重なっている場合には、図１３（ii）に示すように提示し、笑いの度合いの区間部分が音声の強調度合いの区間部分に内包されている場合には、図１３（iii)に示すように提示することで、決定理由となった区間部分に差異が生じる場合においても、その区間がダイジェスト利用区間案に採用された理由をユーザが選択基準ごとに直感的に理解できるようにすることも可能である。

次に、各選択基準とダイジェストに利用／未利用する区間との関係について詳述する。

例えば、前述した特許文献１の“特許第３８０３３１１号：日高浩太、水野理、中嶌信弥、「音声処理方法及びその方法を使用した装置及びそのプログラム」”では、音声段落を区間としている。一方、前述した“特開２００６−２４４０７４：鳥井陽介、紺谷精一、森本正志、「動物体アップフレーム検出方法及びプログラム及びプログラムを格納した記憶媒体及び動物体アップショット検出方法及び動物体アップフレームあるいはショット検出方法及びプログラム及びプログラムを格納した記憶媒体」”では、動画像の切り替え、すなわちカット点を区間の開始時刻／終了時刻に利用している。

その結果、これら２つだけを考慮した場合においても、区間が一致しないことがありえる。

ここでは、区間を同一のものとして取り扱う場合について述べるが、本発明においては個別の区間を用いてダイジェストを生成してもよい。

例えば、図１４（Ａ）に示すように、ほぼ同一時刻にあるダイジェスト利用区間案の開始時刻が選択基準１ではｔ_s1、選択基準２ではｔ_s2となり、終了時刻が選択基準１ではｔ_e1、選択基準２ではｔ_e2となる場合に、図１４（Ｂ）に示すように、論理積の手法に従って、そのダイジェスト利用区間案の開始時刻をｔ_s＝ｔ_s2、終了時刻をｔ_e＝ｔ_e1と設定したり、図１４（Ｃ）に示すように、論理和の手法に従って、そのダイジェスト利用区間案の開始時刻をｔ_s＝ｔ_s1、終了時刻をｔ_e＝ｔ_e2と設定することで、区間を同一のものとして取り扱うようにする。

ここで、本発明における一つ以上の度合いは、区間ごとに抽出されるのではなく、より短時間を分析単位として求められている。例えば、強調度合いと所定の感情度合いは５０ｍｓ毎に算出可能であることが、前記特許文献に示されており、支配度合いや笑顔度合いもフレーム単位に算出可能となっている。

そこで、一つの度合い、例えば、強調度合いによる区間をダイジェストに利用／未利用の区間と選定し、他の度合いをあてはめるなどの対処を施してもよい。

〔３〕ダイジェスト案・時間長案提示部１４の処理について
次に、ダイジェスト案・時間長案提示部１４の処理について説明する。

ダイジェスト案・時間長案提示部１４は、図１５に示すように、ダイジェスト利用区間案決定部１２の決定したダイジェスト利用区間案で構成されるダイジェスト案とそのダイジェスト案の時間長案とを提示し、さらにこのとき、ダイジェスト利用区間案選択基準提示部１３の用いる選択基準を併せて提示する。

ここで、図１５（Ａ）では、映像の全体区間を提示し、図１５（Ｂ）では、ダイジェスト利用区間案として利用されなかった区間がどれであるのかを提示し、図１５（Ｃ）では、ダイジェスト利用区間案として利用された区間がどれであるのかを提示し、図１５（Ｄ）では、ダイジェスト利用区間案として利用された区間が結合された場合の時間長を提示し、図１５（Ｅ）では、時間長の理解を助けるために時間軸を表示する。

このダイジェスト案・時間長案の提示により、図１５に示す例から分かるように、例えば、映像の全区間が区１、区２、区３、区４、区５、区６で示される６つの区間で、ダイジェスト利用区間案に未利用の区間が区１、区３、区５で示される３つの区間で、ダイジェスト利用区間案に利用の区間が区２、区４、区６で示される３つの区間で、ダイジェスト時間長がダイジェスト利用区間案に利用される区２、区４、区６を繋ぎ合わせることでどの程度の長さになるのかということが一目で分かるようになる。

この図１５（Ａ）〜（Ｄ）では、各区間を単なる四角の枠で示したが、各区間を示す四角中に、例えば、代表画像／映像を表示するようにしてもよい。代表画像としては、図１２に示す理由により区２、区４、区６がダイジェスト利用区間案として選択されている場合には、区２が笑顔の度合いにより選択されているので、例えば、区２では笑顔の度合いが最大となるフレームを代表画像とすればよい。また、区６が顔領域の支配度合いにより選択されているので、同様にして、区６では顔領域の支配度合いが最大となるフレームを代表画像とすればよい。また、区４が笑いの度合いと音声の強調度合いとにより選択されているので、例えば、区４では笑いの度合いと音声の強調度合いとを比較して、大きい度合いのフレームを代表画像とすればよい。

〔４〕対話変更部１５の処理について
次に、対話変更部１５の処理について説明する。

前述したように、ダイジェスト利用区間案決定部１２がダイジェスト利用区間案を決定すると、ダイジェスト利用区間案選択基準提示部１３は、図１２や図１３に示すように、それらの決定理由を提示することで、各区間がダイジェスト利用区間案に採用された理由をユーザが直感的に理解できるようにする。

この提示を受けて、ユーザは、例えば、笑顔の度合いにより選択された区間が少ないので、笑顔の度合いの選択基準に用いられた閾値を小さくしてダイジェスト利用区間案の決定をやり直したいというようなことを考える場合がある。

また、前述したように、ダイジェスト利用区間案決定部１２がダイジェスト利用区間案を決定すると、ダイジェスト案・時間長案提示部１４は、図１５に示すように、それらのダイジェスト利用区間案で構成されるダイジェスト案とそのダイジェスト案の時間長案とを提示することで、ユーザがどの位の時間長さのダイジェストになるのかを理解できるようにする。

この提示を受けて、ユーザは、例えば、ダイジェスト案の時間長案が長いので、ダイジェスト利用区間案選択基準提示部１３の提示する決定理由（図１２に示すもの）などを参照しながら、ダイジェスト案に含まれる一部のダイジェスト利用区間案を削除したいというようなことを考える場合がある。

このようなユーザ要求を受けて、対話変更部１５は、選択基準の変更処理を行うためのＧＵＩを介してユーザと対話することで、ダイジェスト利用区間案選択基準提示部１３の提示する選択基準（図１１に示すもの）を変更して、ダイジェスト利用区間案決定部１２に対して、ダイジェスト利用区間案の決定を再度やり直すことを指示したり、ダイジェスト案の変更処理を行うためのＧＵＩを介してユーザと対話することで、ダイジェスト案・時間長案提示部１４の提示するダイジェスト案を変更する。

すなわち、対話変更部１５は、ユーザ操作があると、図１６のフローチャートに示すように、まず最初に、ステップＳ３０で、そのユーザ操作が選択基準の変更要求であるのか否かを判断して、ユーザ操作が選択基準の変更要求であることを判断するときには、ステップＳ３１に進んで、ユーザの要求に応じて、ダイジェスト利用区間案選択基準提示部１３の提示する選択基準（図１１に示すもの）を変更し、続くステップＳ３２で、ダイジェスト利用区間案決定部１２を再起動する。一方、ステップＳ３０で、ユーザ操作が選択基準の変更要求ではないことを判断するとき、すなわち、ユーザ操作がダイジェスト案の変更要求であることを判断するときには、ステップＳ３３に進んで、ユーザの要求に応じて、ダイジェスト案・時間長案提示部１４の提示するダイジェスト案を変更するという処理を行うのである。

〔５〕ダイジェスト情報提示部１６の処理について
次に、ダイジェスト情報提示部１６の処理について説明する。

ダイジェスト情報提示部１６は、ダイジェスト利用区間案決定部１２の決定したダイジェスト利用区間案を結合することで生成されるダイジェストの生成に必要となる情報を提示するか、それらのダイジェスト利用区間案を結合することでダイジェストを生成してそれを提示する。

例えば、ダイジェスト利用区間案決定部１２が図１５（Ｃ）に示すように、区２、区４、区６で示される３つのダイジェスト利用区間案を利用することを決定する場合には、それらの３つの区間を繋ぎ合わせたダイジェストコンテンツを生成して提示したり、そのダイジェストコンテンツの生成に必要となる情報であるそれらの３つの区間の情報を生成して提示するのである。

この情報の生成方法としては、例えば、“特開２００７−１４０９５１：日高浩太、佐藤隆、「データ編集装置とそのプログラム」”により行えばよい。

本発明は、映像編集に適用できるものであり、複数の指標でダイジェストを生成する際に、ユーザがダイジェストを構成する区間の選択理由を直感的に理解することができるようになる。

本発明の映像編集装置の装置構成図である。本発明の映像編集装置の実行する基本的なフローチャートである。本発明で用いる表情検出方法のフローチャートである。本発明で用いる表情検出方法の説明図である。本発明で用いる表情検出方法の説明図である。本発明で用いる表情検出方法の説明図である。本発明で用いる表情検出方法の説明図である。本発明で用いる表情検出方法の説明図である。本発明で用いる表情検出方法の説明図である。選択基準の説明図である。選択基準の説明図である。ダイジェスト利用区間案選択基準提示部の提示する情報の説明図である。ダイジェスト利用区間案選択基準提示部の提示する情報の説明図である。ダイジェスト利用区間案の開始時刻および終了時刻の統一処理の説明図である。ダイジェスト案・時間長案提示部の提示する情報の説明図である。対話変更部の実行するフローチャートである。

符号の説明

１映像編集装置
１０映像入力部
１１映像ファイル
１２ダイジェスト利用区間案決定部
１３ダイジェスト利用区間案選択基準提示部
１４ダイジェスト案・時間長案提示部
１５対話変更部
１６ダイジェスト情報提示部

Claims

映像を編集してダイジェストを生成する映像編集装置において、
映像を入力する映像入力部と、
前記映像入力部の入力した映像を解析して、ダイジェストを生成するために利用される一つ以上の区間を所定の選択基準に基づいて区間案として決定するダイジェスト利用区間案決定部と、
ユーザに対して、前記ダイジェスト利用区間案決定部の決定した各区間案について記述する、その区間案の決定理由となった一つ以上の選択基準の情報を提示するダイジェスト利用区間案選択基準提示部と、
ユーザに対して、前記ダイジェスト利用区間案決定部の決定した区間案で構成されるダイジェスト案とそのダイジェスト案の時間長案とを提示するダイジェスト案・時間長案提示部とを備えることを、
特徴とする映像編集装置。
請求項１に記載の映像編集装置において、
ユーザに対して、前記ダイジェスト利用区間案決定部の決定した区間案を結合することで生成されるダイジェストの生成に必要となる情報を提示するか、それらの区間案を結合することでダイジェストを生成してそれを提示するダイジェスト情報提示部を備えることを、
特徴とする映像編集装置。
請求項１又は２に記載の映像編集装置において、
前記ダイジェスト利用区間案決定部は、前記ダイジェスト利用区間案選択基準提示部の提示した選択基準がユーザにより改訂される場合には、その改訂された選択基準に基づいて前記区間案を再決定することを、
特徴とする映像編集装置。
請求項１ないし３のいずれか１項に記載の映像編集装置において、
前記ダイジェスト利用区間案決定部は、音声を解析することにより検出される強調音声区間の強調度合いと、音声を解析することにより検出される所定の感情音声区間の感情度合いと、画像を解析することにより検出される顔が笑顔である度合いと、画像を解析することにより検出される顔領域が画像中に占める支配度度合いの一部又は全てを検出して、その検出結果がその検出対象の各々に設定された閾値を超えるのか否かを判断することで前記選択基準とすることを、
特徴とする映像編集装置。
請求項１ないし３のいずれか１項に記載の映像編集装置において、
前記ダイジェスト利用区間案決定部は、二つ以上の前記選択基準による前記区間案の開始時刻、終了時刻に差異が生じた場合に、これを統一する時刻に修正することを、
特徴とする映像編集装置。
請求項１ないし３のいずれか１項に記載の映像編集装置において、
前記ダイジェスト案・時間長案提示部は、ユーザに対して、映像を構成する各区間について、いずれの区間が前記区間案として決定され、いずれの区間が前記区間案として決定されなかったのかを示す情報を提示することで前記ダイジェスト案を提示することを、
特徴とする映像編集装置。
請求項１ないし６のいずれか１項に記載の映像編集装置を構成する手段としてコンピュータを機能させるための映像編集プログラム。
請求項１ないし６のいずれか１項に記載の映像編集装置を構成する手段としてコンピュータを機能させるための映像編集プログラムを記録したコンピュータ読み取り可能な記録媒体。