JP2009182762A - 映像編集装置、映像編集プログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体 - Google Patents

映像編集装置、映像編集プログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体 Download PDF

Info

Publication number
JP2009182762A
JP2009182762A JP2008020323A JP2008020323A JP2009182762A JP 2009182762 A JP2009182762 A JP 2009182762A JP 2008020323 A JP2008020323 A JP 2008020323A JP 2008020323 A JP2008020323 A JP 2008020323A JP 2009182762 A JP2009182762 A JP 2009182762A
Authority
JP
Japan
Prior art keywords
digest
plan
section
video editing
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008020323A
Other languages
English (en)
Other versions
JP4802199B2 (ja
Inventor
Kota Hidaka
浩太 日高
Takashi Sato
隆 佐藤
Takeshi Irie
豪 入江
Uwe Kowalik
ウーヴェ コヴァリク
Yosuke Torii
陽介 鳥井
Yukinobu Taniguchi
行信 谷口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008020323A priority Critical patent/JP4802199B2/ja
Publication of JP2009182762A publication Critical patent/JP2009182762A/ja
Application granted granted Critical
Publication of JP4802199B2 publication Critical patent/JP4802199B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)

Abstract

【課題】本発明は、複数の指標でダイジェストを生成する際に、ユーザがダイジェストを構成する区間の選択理由を直感的に理解可能となる新たな技術の提供を目的とする。
【解決手段】編集対象の映像を解析して、ダイジェストを生成するために利用される区間を所定の選択基準に基づいて区間案として決定する。続いて、ユーザに対して、決定した区間案の決定理由となった選択基準の情報を提示し、さらに、決定した区間案で構成されるダイジェスト案とそのダイジェスト案の時間長案とを提示する。そして、この提示に応答して、ユーザが選択基準を改訂する場合には、その改訂された選択基準に基づいて区間案を再決定する。この構成に従って、ユーザは、ダイジェストを構成する区間の選択理由を直感的に理解することができるようになる。そして、ユーザが選択基準を決定できることにより、ユーザの嗜好に添ったダイジェストを生成することができるようになる。
【選択図】図1

Description

本発明は、映像を自動編集、もしくはユーザが簡易に編集する映像編集装置と、その映像編集装置の実現に用いられる映像編集プログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体とに関する。なお、本発明における映像とは音声、音楽を含むものとする。
映像数の増加に伴い、効率的な映像視聴方法が求められる。このためには、映像のダイジェストを視聴することが、効果的な手法としてあげられる。
例えば、特許文献1の“特開2003−316378(特許第3803311号):日高浩太、水野理、中嶌信弥、「音声処理方法及びその方法を使用した装置及びそのプログラム」”では、強調音声区間を基に、ユーザの指定する任意の時間長でダイジェストを生成する手法について述べられている。
また、特許文献2の“特開2005−345496:日高浩太、「音声処理装置、音声処理方法およびそのプログラム」”では、音声の感情状態に対応してダイジェストを生成する手法について述べられている。
また、特許文献3の“特開2006−148397:桑野秀豪、紺家裕子、山田智一、川添雄彦、日高浩太、「ダイジェスト映像作成装置、ダイジェスト映像作成方法、ダイジェスト映像作成プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体」”では、ダイジェストシーンとして相応しい映像中のシーンを抽出し、かつ、あらかじめ決められた時間長に収まるダイジェスト映像の作成を効率的に実行できるようにするダイジェスト映像装置について述べられている。
特開2003−316378号公報 特開2005−345496号公報 特開2006−148397号公報
従来提案されている方法は、ダイジェスト時間長や、映像全体の時間長とダイジェスト時間長との比をユーザが設定することでダイジェストを生成する方法であった。
そのため、例えば、前記の強調音声区間にのみ着目してダイジェストを生成する場合、ユーザは映像を構成する各区間がダイジェストに利用される/利用されない理由を、強調音声であるか否かという指標で直感的に理解できる。
しかしながら、例えば、強調音声区間と感情音声区間など、複数の指標でダイジェストを生成する場合、ユーザは映像中の当該区間がどの観点でダイジェストに利用されたのか、あるいは利用されないのかを直感的に理解するのは、前述のひとつの指標に基づいた場合に比べ困難となる。指標が増加するのに比例して、直感的理解の難易度も増す。
また、複数の指標を用いる場合、それぞれの指標による映像を構成する区間は必ずしも同一でないことが想定される。例えば、強調音声区間の開始時刻と、感情音声区間の開始時刻が異なる可能性は否定できない。その結果、ダイジェストを構成する区間が、各前記指標に依存することとなり、前述のユーザが映像中の当該区間がどの観点でダイジェストに利用/未利用であるかを直感的に理解できるようにする課題を鑑みれば、更に課題解決を困難にしてしまう。
本発明は、前記事情に着目してなされたもので、その目的とするところは、複数の指標でダイジェストを生成する際に、ユーザがダイジェストを構成する区間の選択理由を直感的に理解可能となる新たな技術を提供することにある。
この目的を達成するために、本発明の映像編集装置は、(1)映像を入力する映像入力部と、(2)映像入力部の入力した映像を解析して、ダイジェストを生成するために利用される一つ以上の区間を所定の選択基準に基づいて区間案として決定するダイジェスト利用区間案決定部と、(3)ユーザに対して、ダイジェスト利用区間案決定部の決定した各区間案について記述する、その区間案の決定理由となった一つ以上の選択基準の情報を提示するダイジェスト利用区間案選択基準提示部と、(4)ユーザに対して、ダイジェスト利用区間案決定部の決定した区間案で構成されるダイジェスト案とそのダイジェスト案の時間長案とを提示するダイジェスト案・時間長案提示部と、(5)ユーザに対して、ダイジェスト利用区間案決定部の決定した区間案を結合することで生成されるダイジェストの生成に必要となる情報を提示するか、それらの区間案を結合することでダイジェストを生成してそれを提示するダイジェスト情報提示部とを備えるように構成する。
以上の各処理手段はコンピュータプログラムでも実現できるものであり、このコンピュータプログラムは、適当なコンピュータ読み取り可能な記録媒体に記録して提供されたり、ネットワークを介して提供され、本発明を実施する際にインストールされてCPUなどの制御手段上で動作することにより本発明を実現することになる。
このように構成される本発明の映像編集装置では、編集対象の映像を入力すると、その入力した映像を解析して、ダイジェストを生成するために利用される区間を所定の選択基準に基づいて区間案として決定する。
例えば、音声を解析することにより検出される強調音声区間の強調度合いと、音声を解析することにより検出される所定の感情音声区間の感情度合いと、画像を解析することにより検出される顔が笑顔である度合いと、画像を解析することにより検出される顔領域が画像中に占める支配度度合いの一部又は全てを検出して、その検出結果がその検出対象の各々に設定された閾値を超えるのか否かを判断することを選択基準として、その選択基準を基づいて、ダイジェストを生成するために利用される区間案を決定する。
ここで、この区間案の決定にあたって、二つ以上の選択基準による区間案の開始時刻、終了時刻に差異が生じた場合には、これを統一する時刻に修正することがある。
続いて、ユーザに対して、決定した区間案の決定理由となった選択基準の情報を提示し、さらに、決定した区間案で構成されるダイジェスト案とそのダイジェスト案の時間長案とを提示する。
このとき、映像を構成する各区間について、いずれの区間が区間案として決定され、いずれの区間が区間案として決定されなかったのかを示す情報を提示することでダイジェスト案を提示することがある。
そして、この提示に応答して、ユーザが選択基準を改訂する場合には、その改訂された選択基準に基づいて区間案を再決定することになる。
本発明によれば、複数の指標で映像を解析し、統一された映像区間を基準として、選択基準に基づきダイジェスト案、ダイジェスト時間長案が可視化され、ユーザのダイジェストに対する直感的理解を伴なったダイジェスト生成が可能となる。
すなわち、本発明によれば、統一された映像区間を構成単位として、複数の指標においても簡易にダイジェストが生成可能となる。
そして、本発明によれば、ダイジェストの選択基準、ダイジェスト案、ダイジェスト時間長案が提示されることから、ダイジェストの生成理由をユーザが直感的に理解可能となる。
そして、本発明によれば、ユーザが選択基準を決定できることにより、ユーザの嗜好に添ったダイジェストを生成可能となる。
そして、本発明によれば、音声解析により検出される強調音声区間の強調度合い、音声解析により検出される所定の感情音声区間の感情度合い、画像解析により検出される笑顔である度合い、画像解析により検出される顔領域が画像中に占める支配度度合い、のうち二つ以上を用いて、映像を解析し、その解析結果をダイジェストに利用することが可能となる。
そして、本発明によれば、ダイジェストコンテンツやダイジェストに利用/未利用の区間の情報が出力可能となる。
以下、実施の形態に従って本発明を詳細に説明する。
図1に、本発明の映像編集装置1の装置構成を図示する。
この図に示すように、本発明の映像編集装置1は、映像入力部10と、映像ファイル11と、ダイジェスト利用区間案決定部12と、ダイジェスト利用区間案選択基準提示部13と、ダイジェスト案・時間長案提示部14と、対話変更部15と、ダイジェスト情報提示部16とを備える。
図2に、このように構成される本発明の映像編集装置1の実行する基本的なフローチャート(基本手順)を示す。
本発明の映像編集装置1は、この基本手順に示すように、まず最初に、ステップS10で、映像入力部10で、映像を入力して映像ファイル11に格納する。
続いて、ステップS11で、ダイジェスト利用区間案決定部12で、映像入力部10の入力した映像を分析して、ダイジェストを生成するために利用する区間案(ダイジェスト利用区間案)を決定する。
続いて、ステップS12で、ダイジェスト利用区間案選択基準提示部13で、ユーザに対して、各ダイジェスト利用区間案がどのような選択基準によりダイジェスト利用空間案として決定されたのかという理由を提示する。
続いて、ステップS13で、ダイジェスト案・時間長案提示部14で、ユーザに対して、ダイジェストに利用/未利用の区間の情報で構成されるダイジェスト案とそのダイジェスト案の時間長案を提示する。
続いて、ステップS14で、ダイジェスト利用区間案選択基準提示部13やダイジェスト案・時間長案提示部14の提示に対して、ユーザから選択基準の変更要求があるのか否かを判断して、ユーザから選択基準の変更要求があることを判断するときには、ステップS15に進んで、対話変更部15で、ユーザと対話することで選択基準を変更してから、ステップS11の処理に戻ってダイジェスト利用区間案の決定をやり直す。
一方、ステップS14で、ユーザから選択基準の変更要求がないことを判断するときには、ステップS16に進んで、ダイジェスト利用区間案選択基準提示部13やダイジェスト案・時間長案提示部14の提示に対して、ユーザからダイジェスト案の変更要求があるのか否かを判断して、ユーザからダイジェスト案の変更要求があることを判断するときには、ステップS17に進んで、対話変更部15で、ユーザと対話することでダイジェスト案を変更する。
続いて、ステップS18で、ダイジェスト案・時間長案提示部14で、ユーザに対して、変更したダイジェスト案とそのダイジェスト案の時間長案を提示してから、ステップS16の処理に戻って、ユーザからダイジェスト案の変更要求があるのか否かを判断する。
一方、ステップS16で、ユーザからダイジェスト案の変更要求がないことを判断するときには、ステップS19に進んで、ダイジェスト情報提示部16で、ダイジェスト利用区間案を結合することで生成されるダイジェストの生成に必要となる情報を生成してユーザに提示したり、そのダイジェストを生成してユーザに提示する。
次に、ダイジェスト利用区間案決定部12、ダイジェスト利用区間案選択基準提示部13、ダイジェスト案・時間長案提示部14、対話変更部15、ダイジェスト情報提示部16の実行する各処理の詳細について説明する。
〔1〕ダイジェスト利用区間案決定部12の処理について
次に、ダイジェスト利用区間案決定部12の処理について詳述する。
ステップS10で入力された映像を構成するAudio/Visualのうち、Audioを分析する手法としては、例えば、音声の韻律情報から強調音声区間の強調度合い、所定の感情音声区間の感情度合いを抽出する。
強調音声区間の強調度合いは、例えば、前述した特許文献1の“特許第3803311号:日高浩太、水野理、中嶌信弥、「音声処理方法及びその方法を使用した装置及びそのプログラム」”により行えばよい。また、所定の感情音声区間の感情度合いは、例えば、前述した特許文献2の“特開2005−345496:日高浩太、「音声処理装置、音声処理方法およびそのプログラム」”により行えばよい。所定の感情とは、例えば「笑い」、「怒り」、「悲しみ」などとすればよい。
Visualを分析する手法としては、顔画像領域を検出し、その顔画像が笑顔である度合いを検出することで行う。顔画像領域の検出としては、例えば、以下の手法により実施できる。
図3に、本発明で用いる表情検出方法(笑顔である度合いの検出方法)のフローチャートを示す。
本発明では、このフローチャートに示すように、まず最初に、ステップS20の顔画像領域抽出処理で、入力された動画像から人物の顔画像領域を抽出し、続いて、ステップS21の特徴点抽出処理で、その抽出した顔画像領域から鼻の先端、口角の左右の位置を特徴点として抽出し、続いて、ステップS22の特徴量抽出処理で、鼻の先端を基準としたときの口角の左右位置との角度を計測して特徴とし、続いて、ステップS23の笑い状態検出処理で、その特徴とした角度の時間変化を求め、その時間変化から平衡状態からの立ち上がり状態、最大角度状態、平衡状態への立ち下がり状態の3状態に分割し、笑い状態の開始から終了までの連続的な変化をとらえる。
ステップS20の顔画像領域抽出処理については、Adaboost学習による、Haar−like特徴を用いた識別器を用いる。
ここで、多数の弱識別器をカスケード型とし、それらのカスケード型識別器を識別対象の大きさ、位置を変化させて適用し、顔画像領域を特定する。これについては、例えば、Paul Viola, Michael J.Jones. Robust Real-Time Face Detection. International Journal of Computer Vision. Vol 57, No.2 pp.137-154 (2004)などに記載されている。
ステップS21の特徴点抽出処理では、その事前処理として、図4の黒抜き丸で示す25点の特徴点を抽出している。特徴点は、輪郭、目玉、眉毛、鼻、口に関連して割り振っている。
この特徴点の抽出方法としては、例えば、Lades M., Vorbruggen J., Buhmann J., Lange J., Konen W., von der Malsburg C., Wurtz R. Distortion Invariant Object Recognition in the Dynamic Link Architecture. IEEE Trans. Computers, Vol.42, No.3 pp.300-311 (1993)、Wiskott L., Fellous J.-M., Kruger N., von der Malsburg C. Face Recognition by Elastic Bunch Graph Matching. IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol.19, Issue 7, pp.775-779 (1997)などにより公知の方法となっている。
これらの公知技術を参照することにより、例えば、人物が顔を動かすなどの行為を行ったとしても安定して前記25点の特徴点を抽出可能である。
そして、ステップS21の特徴点抽出処理では、これらの25点の特徴点のうち、図5に示す二重丸の3点のみを特徴点として抽出し、残りの点は必要としない。これらは、鼻の先端、口角の左右の位置に相当する点である。
ステップS22の特徴量抽出処理では、図6に示す鼻の先端を基準としたときの左右の口角の位置の角度(図中に示すα)を計測し、特徴量とする。
ステップS23の笑い状態検出処理では、前記角度の特徴量をαとしたときのその時間履歴を図7のように計測する。さらに、その時間履歴から、図7に示すように、平衡状態からの立ち上がり、最大角度、平衡状態への立ち下がりの3状態に分割する。
実際には、人間が平衡状態にあるときに必ずしも口の形状がしまっている状態ではないことが想定される。また、通常会話しているときも口の形状は開閉状態となる。このような場合においても、笑っているか否かを判断するためには、例えば、特徴量αの時間変化を観測すればよい。具体的には、図8に示すように、特徴量αの時間微分dα/dtと、2つの閾値を用いる。2つの閾値については、高閾値thupper と低閾値thlower と呼ぶこととする。この閾値は静的に設定されるものでもよく、後述する方法により動的に設定されるものであってもよい。
これより、前記3状態に分割する方法について詳述する。
平衡状態からの立ち上がり状態については、その開始時刻は、時間微分dα/dtが高閾値thupper を越えた時刻の時間微分dα/dtから時間的に前方向を観測し、最短時間でdα/dt=0となる時刻t0 (図8中に示す時刻t0 )とする。一方、その終了時刻は、時間微分dα/dtが高閾値thupper を越えた時刻の時間微分dα/dtから時間的に後ろ方向を観測し、最短時間でdα/dt=0となる時刻t1 (図8中に示す時刻t1 )とする。この時刻t1 は最大角度状態の開始時刻にも相当する。
平衡状態への立ち下がり状態については、その開始時刻は、最大角度状態以降で、時間微分dα/dtが低閾値thlower を下回った時刻の時間微分dα/dtから時間的に前方向を観測し、最短時間でdα/dt=0となる時刻t2 (図8中に示す時刻t2 )とする。この時刻t2 は最大角度状態の終了時刻にも相当する。一方、その終了時刻は、最大角度状態以降で、時間微分dα/dtが低閾値thlower を下回った時刻の時間微分dα/dtから時間的に後ろ方向を観測し、最短時間でdα/dt=0となる時刻t3 (図8中に示す時刻t3 )とする。
前述のように、平衡状態への立ち上がり状態の開始時刻から平衡状態からの立ち下がり終了時刻までが一連の笑い状態として判別される。
次に、前述の高閾値thupper と低閾値thlower を動的に設定する方法について述べる。例えば、高閾値thupper と低閾値thlower の標準偏差と平均値をそれぞれ、σupper とμupper 、σlower とμlower とした場合、
thupper =a・σupper +b・μupper ・・・ 式(1)
thlower =c・σlower +d・μlower ・・・ 式(2)
としてもよい。
ここで、a,b,c,dは係数で任意の値とし、例えば、予め、試験用動画像を用意し、統計的な学習工程を経て設定するものであってもよい。具体的には、人手により本手法による笑い状態の前記3状態の開始時刻と終了時刻の正解集合を設定し、これと本発明によって抽出された前記3状態の開始時刻と終了時刻との時間差を最小限とするようにa,b,c,dを設定してもよい。
人間は、発話を一切していない状態においても口の形状が微小に変化していることが想定される。例えば、唇を噛みしめることや、つばを飲み込む動作を考えるだけでも、これらは容易に想像できる。これらの微小な変化が、前記角度αに影響する。また、笑いを含む発声行為についても、人間は規則的に口を開閉するのではなく、ある程度の不規則さを伴なって開閉することが想定される。いわゆるこのようなノイズの影響を軽減させるために、例えば、検出した角度にメディアンフィルターを適用する対策を施してもよい。
また、本発明による時間微分dα/dtでは、笑い状態と一般の発声とが区別がつかない場合も想定される。例えば、illegalと発声した場合、“ille”の部分でdα/dtが増加し、“gal”の部分でdα/dtが減少するため、笑い状態と似ている挙動となる可能性がある。そのような場合には、例えば、最大角度状態の時間に着目し、“t2 −t1 >ttime”などの時間的な閾値ttimeを設定することで問題を回避することが可能となる。
これまで、本発明の基本的な実施形態例を述べてきたが、例えば、前記角度αのみに着目している場合、例えば、引きつった笑いや、いやみを発言するときなどに頻出する、鼻の稜線を基準線としたときの左右非対称の状態においても笑い状態と判別する可能性がある。
このような問題に対しては、図9に示すように、口角の左右の位置を結ぶ線分の中心と、鼻の先端とを結ぶ線分を基準線とし、基準線に対する左右の口角位置との角度をそれぞれα1、α2として求めて、これらの値の差を考慮することで対象であるか否かを判定すればよい。
例えば、それぞれの時間微分dα1/dt、dα2/dtの時間履歴を測定し、これらの相関係数を求め、例えば0.5以上であるときに対象としてもよい。また、それぞれの時間微分がdα1/dt>0、dα2/dt>0となる時刻をts1,ts2とした時の|ts1−ts2|に閾値を設定するなどしてもよい。
また、Visualを分析するその他の手法としては、顔画像領域を用いて、顔領域が画像中に支配的であるか否かの支配度度合いを求めることで行う。
これについては、例えば、“特開2006−244074:鳥井陽介、紺谷精一、森本正志、「動物体アップフレーム検出方法及びプログラム及びプログラムを格納した記憶媒体及び動物体アップショット検出方法及び動物体アップフレームあるいはショット検出方法及びプログラム及びプログラムを格納した記憶媒体」”により行えばよい。
以上、述べてきた強調音声区間の強調度合い、所定の感情音声区間の感情度合い、画像を解析することにより検出される顔領域に基づいて測定されるその顔が笑顔である度合い、その顔領域が画像中に支配的であるか否かの支配度度合いのうち2つ以上を、ダイジェスト利用区間案決定部12では求め、それぞれに対して閾値を設定することで選択基準として、ダイジェスト利用区間案を決定する。
すなわち、ダイジェスト利用区間案決定部12では、音声解析により検出される音声の強調度合いがそれに割り付けられた閾値を越える区間をダイジェスト利用区間案として決定したり、音声解析により検出される感情度合いがそれに割り付けられた閾値を越える区間をダイジェスト利用区間案として決定したり、画像解析により検出される笑顔である度合いがそれに割り付けられた閾値を越える区間をダイジェスト利用区間案として決定したり、画像解析により検出される顔領域が画像中に占める支配度度合いがそれに割り付けられた閾値を越える区間をダイジェスト利用区間案として決定したり、それらの2つ以上の度合いがそれに割り付けられた閾値を越える区間をダイジェスト利用区間案として決定する。
〔2〕ダイジェスト利用区間案選択基準提示部13の処理について
次に、ダイジェスト利用区間案選択基準提示部13の処理について説明する。
ダイジェスト利用区間案選択基準提示部13は、ダイジェスト利用区間案決定部12の決定した各ダイジェスト利用区間案について、その決定理由を提示する。
この提示にあたって、ダイジェスト利用区間案選択基準提示部13は、ダイジェスト利用区間案決定部12で得られた、強調音声区間の強調度合い、所定の感情音声区間の感情度合い、顔が笑顔である度合い、顔領域が画像中に支配的であるか否かの支配度度合いのうち2つ以上を表示する。
図10では、音声の強調度合いと、所定の感情を「笑い」「怒り」「泣き」とした場合の3種類の感情の度合いと、笑顔の度合いと、顔領域の支配度合いの計6種類を表示した例を示している。
さらに、ダイジェスト利用区間案選択基準提示部13は、この表示に対して、ダイジェストの作成に利用する区間であるのか否かの選択基準となる閾値を表示する。
図11では、これらの閾値として6つの閾値を黒丸で示し、各閾値を点線で結んだものを示している。例えば、笑顔の度合いや「笑い」の度合いが高いことから、楽しそうなダイジェストを生成することが直感的に理解できる。
これらの閾値の初期値は、過去のユーザの操作履歴を記録しておき、例えば、前回の形状と同一のものとしてもよい。また、以下の方法によって簡易に定めるものでもよい。
すなわち、映像の全ての区間について、各区間ごとに強調音声の度合いの平均値を求めP1とする。同様の方法で「笑い」をP2、「泣き」をP3、「怒り」をP4、笑顔の度合いをP5、支配度合いをP6とし、P1〜P6のそれぞれについて最小値と最大値を求めるとともに、P1〜P6のそれぞれについて平均値を求めて、そのようにして求めた最小値と最大値を図10の各度合いの各軸上の両端とするとともに、そのようにして求めた平均値やその平均値に規定の係数を乗算した値を閾値の初期値としてプロットするようにしてもよい。
前述したように、ダイジェスト利用区間案決定部12は、音声の強調度合い、感情の度合い(音声解析により検出される)、笑顔の度合い(画像解析により検出される)、顔領域の支配度合いを図11に示す閾値を用いて評価することで、ダイジェスト利用区間案を決定するようにしている。
このダイジェスト利用区間案の決定を受けて、ダイジェスト利用区間案選択基準提示部13は、ユーザに対して、これらの各ダイジェスト利用区間案がどのような理由で決定されたのかを提示する処理を行う。
例えば、ダイジェスト利用区間案決定部12がダイジェスト利用区間案として区間2、区間4、区間6を決定した場合にあって、区間2の決定理由が笑顔の度合いが閾値を越えたことにあり、区間4の決定理由が笑いの度合いが閾値を越えたことと、音声の強調度合いが閾値を越えたことにあり、区間6の決定理由が顔領域の支配度合いが閾値を越えたことにある場合には、ダイジェスト利用区間案選択基準提示部13は、図12に示すように、それらの決定理由を提示することで、各区間がダイジェスト利用区間案に採用された理由をユーザが直感的に理解できるようにする。
ここで、この提示にあたって、区間4のように複数の決定理由があるときには、それらの決定理由がどのような形で重複しているのかが分かるような形で提示することも可能である。
例えば、区間4では、笑いの度合いが閾値を越えたことと、音声の強調度合いが閾値を越えたという2つの理由によりダイジェスト利用区間案として決定されたのであるが、このとき、笑いの度合いの区間部分と音声の強調度合いの区間部分とが完全に一致している場合には、図13(i)に示すように提示し、笑いの度合いの区間部分と音声の強調度合いの区間部分とが重なっている場合には、図13(ii)に示すように提示し、笑いの度合いの区間部分が音声の強調度合いの区間部分に内包されている場合には、図13(iii)に示すように提示することで、決定理由となった区間部分に差異が生じる場合においても、その区間がダイジェスト利用区間案に採用された理由をユーザが選択基準ごとに直感的に理解できるようにすることも可能である。
次に、各選択基準とダイジェストに利用/未利用する区間との関係について詳述する。
例えば、前述した特許文献1の“特許第3803311号:日高浩太、水野理、中嶌信弥、「音声処理方法及びその方法を使用した装置及びそのプログラム」”では、音声段落を区間としている。一方、前述した“特開2006−244074:鳥井陽介、紺谷精一、森本正志、「動物体アップフレーム検出方法及びプログラム及びプログラムを格納した記憶媒体及び動物体アップショット検出方法及び動物体アップフレームあるいはショット検出方法及びプログラム及びプログラムを格納した記憶媒体」”では、動画像の切り替え、すなわちカット点を区間の開始時刻/終了時刻に利用している。
その結果、これら2つだけを考慮した場合においても、区間が一致しないことがありえる。
ここでは、区間を同一のものとして取り扱う場合について述べるが、本発明においては個別の区間を用いてダイジェストを生成してもよい。
例えば、図14(A)に示すように、ほぼ同一時刻にあるダイジェスト利用区間案の開始時刻が選択基準1ではts1、選択基準2ではts2となり、終了時刻が選択基準1ではte1、選択基準2ではte2となる場合に、図14(B)に示すように、論理積の手法に従って、そのダイジェスト利用区間案の開始時刻をts =ts2、終了時刻をte =te1と設定したり、図14(C)に示すように、論理和の手法に従って、そのダイジェスト利用区間案の開始時刻をts =ts1、終了時刻をte =te2と設定することで、区間を同一のものとして取り扱うようにする。
ここで、本発明における一つ以上の度合いは、区間ごとに抽出されるのではなく、より短時間を分析単位として求められている。例えば、強調度合いと所定の感情度合いは50ms毎に算出可能であることが、前記特許文献に示されており、支配度合いや笑顔度合いもフレーム単位に算出可能となっている。
そこで、一つの度合い、例えば、強調度合いによる区間をダイジェストに利用/未利用の区間と選定し、他の度合いをあてはめるなどの対処を施してもよい。
〔3〕ダイジェスト案・時間長案提示部14の処理について
次に、ダイジェスト案・時間長案提示部14の処理について説明する。
ダイジェスト案・時間長案提示部14は、図15に示すように、ダイジェスト利用区間案決定部12の決定したダイジェスト利用区間案で構成されるダイジェスト案とそのダイジェスト案の時間長案とを提示し、さらにこのとき、ダイジェスト利用区間案選択基準提示部13の用いる選択基準を併せて提示する。
ここで、図15(A)では、映像の全体区間を提示し、図15(B)では、ダイジェスト利用区間案として利用されなかった区間がどれであるのかを提示し、図15(C)では、ダイジェスト利用区間案として利用された区間がどれであるのかを提示し、図15(D)では、ダイジェスト利用区間案として利用された区間が結合された場合の時間長を提示し、図15(E)では、時間長の理解を助けるために時間軸を表示する。
このダイジェスト案・時間長案の提示により、図15に示す例から分かるように、例えば、映像の全区間が区1、区2、区3、区4、区5、区6で示される6つの区間で、ダイジェスト利用区間案に未利用の区間が区1、区3、区5で示される3つの区間で、ダイジェスト利用区間案に利用の区間が区2、区4、区6で示される3つの区間で、ダイジェスト時間長がダイジェスト利用区間案に利用される区2、区4、区6を繋ぎ合わせることでどの程度の長さになるのかということが一目で分かるようになる。
この図15(A)〜(D)では、各区間を単なる四角の枠で示したが、各区間を示す四角中に、例えば、代表画像/映像を表示するようにしてもよい。代表画像としては、図12に示す理由により区2、区4、区6がダイジェスト利用区間案として選択されている場合には、区2が笑顔の度合いにより選択されているので、例えば、区2では笑顔の度合いが最大となるフレームを代表画像とすればよい。また、区6が顔領域の支配度合いにより選択されているので、同様にして、区6では顔領域の支配度合いが最大となるフレームを代表画像とすればよい。また、区4が笑いの度合いと音声の強調度合いとにより選択されているので、例えば、区4では笑いの度合いと音声の強調度合いとを比較して、大きい度合いのフレームを代表画像とすればよい。
〔4〕対話変更部15の処理について
次に、対話変更部15の処理について説明する。
前述したように、ダイジェスト利用区間案決定部12がダイジェスト利用区間案を決定すると、ダイジェスト利用区間案選択基準提示部13は、図12や図13に示すように、それらの決定理由を提示することで、各区間がダイジェスト利用区間案に採用された理由をユーザが直感的に理解できるようにする。
この提示を受けて、ユーザは、例えば、笑顔の度合いにより選択された区間が少ないので、笑顔の度合いの選択基準に用いられた閾値を小さくしてダイジェスト利用区間案の決定をやり直したいというようなことを考える場合がある。
また、前述したように、ダイジェスト利用区間案決定部12がダイジェスト利用区間案を決定すると、ダイジェスト案・時間長案提示部14は、図15に示すように、それらのダイジェスト利用区間案で構成されるダイジェスト案とそのダイジェスト案の時間長案とを提示することで、ユーザがどの位の時間長さのダイジェストになるのかを理解できるようにする。
この提示を受けて、ユーザは、例えば、ダイジェスト案の時間長案が長いので、ダイジェスト利用区間案選択基準提示部13の提示する決定理由(図12に示すもの)などを参照しながら、ダイジェスト案に含まれる一部のダイジェスト利用区間案を削除したいというようなことを考える場合がある。
このようなユーザ要求を受けて、対話変更部15は、選択基準の変更処理を行うためのGUIを介してユーザと対話することで、ダイジェスト利用区間案選択基準提示部13の提示する選択基準(図11に示すもの)を変更して、ダイジェスト利用区間案決定部12に対して、ダイジェスト利用区間案の決定を再度やり直すことを指示したり、ダイジェスト案の変更処理を行うためのGUIを介してユーザと対話することで、ダイジェスト案・時間長案提示部14の提示するダイジェスト案を変更する。
すなわち、対話変更部15は、ユーザ操作があると、図16のフローチャートに示すように、まず最初に、ステップS30で、そのユーザ操作が選択基準の変更要求であるのか否かを判断して、ユーザ操作が選択基準の変更要求であることを判断するときには、ステップS31に進んで、ユーザの要求に応じて、ダイジェスト利用区間案選択基準提示部13の提示する選択基準(図11に示すもの)を変更し、続くステップS32で、ダイジェスト利用区間案決定部12を再起動する。一方、ステップS30で、ユーザ操作が選択基準の変更要求ではないことを判断するとき、すなわち、ユーザ操作がダイジェスト案の変更要求であることを判断するときには、ステップS33に進んで、ユーザの要求に応じて、ダイジェスト案・時間長案提示部14の提示するダイジェスト案を変更するという処理を行うのである。
〔5〕ダイジェスト情報提示部16の処理について
次に、ダイジェスト情報提示部16の処理について説明する。
ダイジェスト情報提示部16は、ダイジェスト利用区間案決定部12の決定したダイジェスト利用区間案を結合することで生成されるダイジェストの生成に必要となる情報を提示するか、それらのダイジェスト利用区間案を結合することでダイジェストを生成してそれを提示する。
例えば、ダイジェスト利用区間案決定部12が図15(C)に示すように、区2、区4、区6で示される3つのダイジェスト利用区間案を利用することを決定する場合には、それらの3つの区間を繋ぎ合わせたダイジェストコンテンツを生成して提示したり、そのダイジェストコンテンツの生成に必要となる情報であるそれらの3つの区間の情報を生成して提示するのである。
この情報の生成方法としては、例えば、“特開2007−140951:日高浩太、佐藤隆、「データ編集装置とそのプログラム」”により行えばよい。
本発明は、映像編集に適用できるものであり、複数の指標でダイジェストを生成する際に、ユーザがダイジェストを構成する区間の選択理由を直感的に理解することができるようになる。
本発明の映像編集装置の装置構成図である。 本発明の映像編集装置の実行する基本的なフローチャートである。 本発明で用いる表情検出方法のフローチャートである。 本発明で用いる表情検出方法の説明図である。 本発明で用いる表情検出方法の説明図である。 本発明で用いる表情検出方法の説明図である。 本発明で用いる表情検出方法の説明図である。 本発明で用いる表情検出方法の説明図である。 本発明で用いる表情検出方法の説明図である。 選択基準の説明図である。 選択基準の説明図である。 ダイジェスト利用区間案選択基準提示部の提示する情報の説明図である。 ダイジェスト利用区間案選択基準提示部の提示する情報の説明図である。 ダイジェスト利用区間案の開始時刻および終了時刻の統一処理の説明図である。 ダイジェスト案・時間長案提示部の提示する情報の説明図である。 対話変更部の実行するフローチャートである。
符号の説明
1 映像編集装置
10 映像入力部
11 映像ファイル
12 ダイジェスト利用区間案決定部
13 ダイジェスト利用区間案選択基準提示部
14 ダイジェスト案・時間長案提示部
15 対話変更部
16 ダイジェスト情報提示部

Claims (8)

  1. 映像を編集してダイジェストを生成する映像編集装置において、
    映像を入力する映像入力部と、
    前記映像入力部の入力した映像を解析して、ダイジェストを生成するために利用される一つ以上の区間を所定の選択基準に基づいて区間案として決定するダイジェスト利用区間案決定部と、
    ユーザに対して、前記ダイジェスト利用区間案決定部の決定した各区間案について記述する、その区間案の決定理由となった一つ以上の選択基準の情報を提示するダイジェスト利用区間案選択基準提示部と、
    ユーザに対して、前記ダイジェスト利用区間案決定部の決定した区間案で構成されるダイジェスト案とそのダイジェスト案の時間長案とを提示するダイジェスト案・時間長案提示部とを備えることを、
    特徴とする映像編集装置。
  2. 請求項1に記載の映像編集装置において、
    ユーザに対して、前記ダイジェスト利用区間案決定部の決定した区間案を結合することで生成されるダイジェストの生成に必要となる情報を提示するか、それらの区間案を結合することでダイジェストを生成してそれを提示するダイジェスト情報提示部を備えることを、
    特徴とする映像編集装置。
  3. 請求項1又は2に記載の映像編集装置において、
    前記ダイジェスト利用区間案決定部は、前記ダイジェスト利用区間案選択基準提示部の提示した選択基準がユーザにより改訂される場合には、その改訂された選択基準に基づいて前記区間案を再決定することを、
    特徴とする映像編集装置。
  4. 請求項1ないし3のいずれか1項に記載の映像編集装置において、
    前記ダイジェスト利用区間案決定部は、音声を解析することにより検出される強調音声区間の強調度合いと、音声を解析することにより検出される所定の感情音声区間の感情度合いと、画像を解析することにより検出される顔が笑顔である度合いと、画像を解析することにより検出される顔領域が画像中に占める支配度度合いの一部又は全てを検出して、その検出結果がその検出対象の各々に設定された閾値を超えるのか否かを判断することで前記選択基準とすることを、
    特徴とする映像編集装置。
  5. 請求項1ないし3のいずれか1項に記載の映像編集装置において、
    前記ダイジェスト利用区間案決定部は、二つ以上の前記選択基準による前記区間案の開始時刻、終了時刻に差異が生じた場合に、これを統一する時刻に修正することを、
    特徴とする映像編集装置。
  6. 請求項1ないし3のいずれか1項に記載の映像編集装置において、
    前記ダイジェスト案・時間長案提示部は、ユーザに対して、映像を構成する各区間について、いずれの区間が前記区間案として決定され、いずれの区間が前記区間案として決定されなかったのかを示す情報を提示することで前記ダイジェスト案を提示することを、
    特徴とする映像編集装置。
  7. 請求項1ないし6のいずれか1項に記載の映像編集装置を構成する手段としてコンピュータを機能させるための映像編集プログラム。
  8. 請求項1ないし6のいずれか1項に記載の映像編集装置を構成する手段としてコンピュータを機能させるための映像編集プログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2008020323A 2008-01-31 2008-01-31 映像編集装置、映像編集プログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体 Expired - Fee Related JP4802199B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008020323A JP4802199B2 (ja) 2008-01-31 2008-01-31 映像編集装置、映像編集プログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008020323A JP4802199B2 (ja) 2008-01-31 2008-01-31 映像編集装置、映像編集プログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体

Publications (2)

Publication Number Publication Date
JP2009182762A true JP2009182762A (ja) 2009-08-13
JP4802199B2 JP4802199B2 (ja) 2011-10-26

Family

ID=41036370

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008020323A Expired - Fee Related JP4802199B2 (ja) 2008-01-31 2008-01-31 映像編集装置、映像編集プログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JP4802199B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2022091230A1 (ja) * 2020-10-27 2022-05-05
JP2022075661A (ja) * 2020-10-27 2022-05-18 株式会社I’mbesideyou 情報抽出装置
JP7390877B2 (ja) 2019-11-29 2023-12-04 エヌ・ティ・ティ・コミュニケーションズ株式会社 動画編集装置、動画編集方法及びコンピュータプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005033619A (ja) * 2003-07-08 2005-02-03 Matsushita Electric Ind Co Ltd コンテンツ管理装置およびコンテンツ管理方法
JP2005236527A (ja) * 2004-02-18 2005-09-02 Sharp Corp 映像再生装置、再生スクリプト生成装置、映像配信装置、映像切出し装置、及び映像蓄積装置
JP2007228334A (ja) * 2006-02-24 2007-09-06 Fujifilm Corp 動画像制御装置および方法並びにプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005033619A (ja) * 2003-07-08 2005-02-03 Matsushita Electric Ind Co Ltd コンテンツ管理装置およびコンテンツ管理方法
JP2005236527A (ja) * 2004-02-18 2005-09-02 Sharp Corp 映像再生装置、再生スクリプト生成装置、映像配信装置、映像切出し装置、及び映像蓄積装置
JP2007228334A (ja) * 2006-02-24 2007-09-06 Fujifilm Corp 動画像制御装置および方法並びにプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7390877B2 (ja) 2019-11-29 2023-12-04 エヌ・ティ・ティ・コミュニケーションズ株式会社 動画編集装置、動画編集方法及びコンピュータプログラム
JPWO2022091230A1 (ja) * 2020-10-27 2022-05-05
WO2022091230A1 (ja) * 2020-10-27 2022-05-05 株式会社I’mbesideyou 情報抽出装置
JP2022075661A (ja) * 2020-10-27 2022-05-18 株式会社I’mbesideyou 情報抽出装置
JP7130290B2 (ja) 2020-10-27 2022-09-05 株式会社I’mbesideyou 情報抽出装置

Also Published As

Publication number Publication date
JP4802199B2 (ja) 2011-10-26

Similar Documents

Publication Publication Date Title
Zadeh et al. Multimodal language analysis in the wild: Cmu-mosei dataset and interpretable dynamic fusion graph
Zadeh et al. Memory fusion network for multi-view sequential learning
Kucherenko et al. Gesticulator: A framework for semantically-aware speech-driven gesture generation
Shlizerman et al. Audio to body dynamics
Chiu et al. Gesture generation with low-dimensional embeddings
Metallinou et al. Decision level combination of multiple modalities for recognition and analysis of emotional expression
Zhu et al. Arbitrary talking face generation via attentional audio-visual coherence learning
Lin et al. Error weighted semi-coupled hidden Markov model for audio-visual emotion recognition
TW201935272A (zh) 基於多模態情緒與臉部屬性識別的人機交互方法、系統
Eyben et al. String-based audiovisual fusion of behavioural events for the assessment of dimensional affect
Kim et al. ISLA: Temporal segmentation and labeling for audio-visual emotion recognition
Chakrabarti et al. Facial expression recognition using eigenspaces
Lee et al. Predicting interruptions in dyadic spoken interactions
JPWO2019102619A1 (ja) 表情認識装置
JP4802199B2 (ja) 映像編集装置、映像編集プログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体
Lingenfelser et al. Asynchronous and event-based fusion systems for affect recognition on naturalistic data in comparison to conventional approaches
Petridis et al. Audiovisual detection of laughter in human-machine interaction
JP2009278202A (ja) 映像編集装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体
US10120932B2 (en) Social capture rules
McLaren et al. A heuristic method for automatic gaze detection in constrained multi-modal dialogue corpora
JPH09269889A (ja) 対話装置
JP2009098901A (ja) 表情検出方法及び装置及びプログラム
Tahir et al. Real-time sociometrics from audio-visual features for two-person dialogs
Shahid et al. Comparisons of visual activity primitives for voice activity detection
Yang et al. Analyzing Temporal Dynamics of Dyadic Synchrony in Affective Interactions.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100114

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20100331

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110330

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110412

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110518

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110607

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110711

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110802

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110808

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140812

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees