JP2010011409A - 映像ダイジェスト装置及び映像編集プログラム - Google Patents

映像ダイジェスト装置及び映像編集プログラム Download PDF

Info

Publication number
JP2010011409A
JP2010011409A JP2008171642A JP2008171642A JP2010011409A JP 2010011409 A JP2010011409 A JP 2010011409A JP 2008171642 A JP2008171642 A JP 2008171642A JP 2008171642 A JP2008171642 A JP 2008171642A JP 2010011409 A JP2010011409 A JP 2010011409A
Authority
JP
Japan
Prior art keywords
video
template
digest
time
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008171642A
Other languages
English (en)
Inventor
Kota Hidaka
浩太 日高
Takashi Sato
隆 佐藤
Takeshi Irie
豪 入江
Uwe Kowalik
ウーヴェ コヴァリク
Yosuke Torii
陽介 鳥井
Toshikazu Karitsuka
俊和 狩塚
Yukinobu Taniguchi
行信 谷口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008171642A priority Critical patent/JP2010011409A/ja
Publication of JP2010011409A publication Critical patent/JP2010011409A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)

Abstract

【課題】ダイジェストに利用しないほうがよい区間を対象外として、それ以外の区間からダイジェストを生成する、または/かつ、ダイジェストに含めたい区間を指定してダイジェストを生成する。
【解決手段】本発明は、映像を入力し、コンテンツ記憶手段に格納する映像入力手段と、
映像が生成された手法が示されたテンプレートを入力し、テンプレート記憶手段に格納し、テンプレート記憶手段からテンプレートを読み出して、該テンプレートを解析してコンテンツ記憶手段の映像と対応させ、対応付けられた映像を用いてダイジェストを生成する。
【選択図】図1

Description

本発明は、映像ダイジェスト装置及び映像編集プログラムに係り、特に、映像のダイジェストを生成するための映像ダイジェスト装置及び映像編集プログラムに関する。
以下では、「映像」とは、音声、音楽を含むものとし、「テンプレート」とは、映像を生成した手法が示されているものとする。
映像数の増加に伴い、効率的な映像視聴方法が求められる。このためには、映像のダイジェストを視聴することが効果的な手法として、強調音声区間を基に、ユーザの指定する任意の時間長でダイジェストを生成する方法がある(例えば、特許文献1参照)。
また、音声の感情状態に対応してダイジェストを生成する手法がある(例えば、特許文献2参照)。
また、動物体が大きく写っている映像区間を作成することができ、ダイジェスト的な映像区間閲覧のためのインデックスを利用者に提供する手法がある(例えば、特許文献3参照)。
特開2003−316378号公報 特開2005−345496号公報 特開2006−244074号公報
従来提案されている方法は、装置、または、プログラムがダイジェストを生成するものである。ここで、編集が施された映像を考慮すれば、当該映像は編集の工程で、例えば、オープニング/エンディングが存在することや、複数のシーンをシーンチェンジにより繋ぎ合わせていることなどが想定される。このような映像のダイジェストを生成する場合、従来技術では、上記のオープニング/エンディングの存在を知る術がなく、カット点検出技術などを利用したとしても同様の課題を解決することは難しい。そのため、例えば、該オープニング/エンディング区間の音声が、上記の特許文献1に記載の技術により、最尤度の強調音声であると判定されれば、最優先でダイジェストに該区間が用いられてしまう。特許文献2、3に記載の技術も同様である。
また、撮影者/編集者の立場に立てば、ハイライトシーンをあえてダイジェストに利用したくないということが想定される。例えば、結婚式のビデオで、ラストシーンの挨拶や、花嫁が親に向けた手紙を涙ながらに読み上げるシーンなどがあげられる。撮影者/編集者にとっては、該シーンを見せない、あるいは該シーンの直前/直前をみせることで、ダイジェスト視聴者の該シーンへの興味を誘発したいと考える場合がある。これらについても、上記の従来の技術が、直接的に該シーンを同定することは困難である。
本発明は、上記の点に鑑みなされたもので、ダイジェストに利用しないほうがよい区間を対象外として、それ以外の区間からダイジェストを生成する、または/かつ、ダイジェストに含めたい区間を指定してダイジェストを生成することが可能な映像ダイジェスト装置及び映像編集プログラムを提供することを目的とする。
図1は、本発明の原理構成図である。
本発明(請求項1)は、映像のダイジェストを生成する映像ダイジェスト生成装置であって、
映像を入力し、コンテンツ記憶手段141に格納する映像入力手段131と、
映像が生成された手法が示されたテンプレートを入力し、テンプレート記憶手段142に格納するテンプレート入力手段132と、
テンプレート記憶手段142からテンプレートを読み出して、該テンプレートを解析してコンテンツ記憶手段141の映像と対応させるテンプレート解析・対応手段133と、
対応付けられた映像を用いてダイジェストを生成するダイジェスト生成手段134と、を有する。
また、本発明(請求項2)は、一つ以上の区間に分割された映像の該区間について、該区間の撮影方法を示したものをテンプレートとする。
また、本発明(請求項3)は、テンプレート入力手段132において、
映像を構成するAudioまたは/及びVisualデータと共に梱包された映像ファイル内のテンプレートを入力する手段、
または、
映像ファイル内にないテンプレートを、該映像と対応付けて検索して入力する手段、
のいずれかである。
また、本発明(請求項4)は、テンプレート解析・対応手段133において、
テンプレートを用いて、映像を構成する一つ以上の区間について、該区間のダイジェストに利用または未使用を対応付ける手段を含む。
また、本発明(請求項5)は、ダイジェスト生成手段134において、
テンプレート解析・対応手段133によりダイジェストに利用された一つ以上の区間について、該ダイジェストに利用するための優先順位を付与し、複数の長さのダイジェストを生成する手段を含む。
また、本発明(請求項6)は、ダイジェスト生成手段134において、
優先順位について、音声特徴量、テンプレートのいずれか一つ以上を用いて付与する手段を含む。
本発明(請求項7)は、請求項1乃至6に記載の映像ダイジェスト装置を構成する各手段としてコンピュータを機能させるための映像編集プログラムである。
上記のように、本発明によれば、ダイジェストに利用しないほうが良い区間を対象外として、それ以外の区間からダイジェストを生成することができる。また、本発明では、ダイジェストに含めたい区間を指定してダイジェストを生成することもできる。
以下、図面と共に本発明の実施の形態を説明する。
図2は、本発明の一実施の形態における映像ダイジェスト装置の構成図を示す。
同図に示す映像ダイジェスト装置は、中央処理ユニット(CPU:Central Processing Unit)11を備える。当該CPU11には、バス12を介してプログラムメモリ13、データメモリ14、通信インタフェース(通信I/F)15がそれぞれ接続されている。プログラムメモリ13には、映像入力部131、テンプレート入力部132、テンプレート解析・対応部133、ダイジェスト生成部134が記憶される。データメモリ14には、コンテンツ記憶部141、テンプレート記憶部142が設けられている。
通信I/F15は、CPU11の制御の下、インターネット上のサーバ及びインターネットサイトとの間で、通信ネットワークにより規定される通信プロトコルに従い通信を行う。通信プロトコルとしては、例えば、TCP/IP(Transmission Control/Internet Protocol)が使用される。
以下、プログラムメモリ13の各構成要素について説明する。
<映像入力部131>
映像入力部131は、映像ファイルを入力して、コンテンツ記憶部141に記憶する。
<テンプレート入力部132>
テンプレート入力部132は、テンプレートを入力し、テンプレート記憶部142に記憶する。ここで、テンプレートについて詳述する。テンプレートは、映像を生成した手法が示されたものであればいずれの記録形式であってもよい。テンプレートなしに映像を撮影し、編集行程もない場合、映像は冗長になることが想定される。
例えば、映像撮影経験の少ないユーザや、映像の撮影方法の教育を受けていないユーザの映像には、手ブレ、意味のないパン/ズームイン/ズームアウトが頻繁に存在することが多く、本発明においては、これらの映像を低品質と呼ぶこととする。このような低品質の素材では、編集を施したとしても、魅力的な映像にすることは困難である。それにもかかわらず、多くの映像は、撮影の後、編集の行程を経ないことがみられるため、低品質の元素材がそのまま映像ファイルとなり、視聴に耐えないコンテンツとなってしまう。
この問題を解決するために、撮影の直前に、もしくは同期して、撮影手法をユーザに提示することで、高品質、すなわち、手ブレ、意味のないパン/ズームイン/ズームアウトを少なくすることが可能となる。さらに、映像をストーリー立てて撮影するシナリオを提示すれば、例えば、結婚式の映像は、クライマックスで花嫁が親へ宛てた手紙のシーンがフェーズアウトし、涙ながらの親の顔がアップでフェードインする、といった演出を、編集なしに行うことが可能となる。すなわち、本発明におけるテンプレートとは、低品質の元素材となる問題を解決するものと位置づけられる。
図3は、本発明の一実施の形態における具体的なテンプレートの例である。
同図に示すテンプレートは、例えば、「運動会」「正月」「家族旅行」「結婚式」「同窓会」などジャンルから選ぶものでもよい。しかしながら、本発明におけるテンプレートが、ジャンルを必要とするものではない。図3では、ユーザが「結婚式」を選んだ際のテンプレート全体像を示している。テンプレート全体像は、例えば、全体で180分の結婚式を、オープング、入場、主賓挨拶、乾杯、スピーチ&雑談、退場、お色直し入場、スピーチ&雑談、手紙、花束、挨拶、お開き、エンディングのトピックに分割し、85分に編集するように撮影する例を示している。
当該テンプレートは、市販の撮影機器の表示画面に示すものでもよい。例えば、図4のように示されていてもよい。図4では、テンプレート全体像が挿入されていることで、現在"手紙のシーン"を撮影しなければならないことが撮影者にとって一目瞭然となっている。"手紙のシーン"が終了すれば、ボタン132aを押下することにより、次のトピックに移行する。ユーザには、現在のトピック"手紙"の撮影手法が提示される。
例えば、図5に示すように、四角枠に向かって、花嫁にアップするようにするにズームするよう指示表示132bで指示され、指示通りにした際には、終了ボタン132cを押下する。指示通りに撮影されなかった場合、再度ボタン132dによりやり直す。その後、図6に示すように、指示表示132eとして「次は親をアップで撮影してください」と表示させ、ユーザに指示通り撮影させる。その際、前述と同様に"再度"ボタン132d、"終了"ボタン132cを用意しておけば、指示通りのシーンを、高い確率で撮影することが可能となる。
本発明におけるテンプレートは、前述の手法以外の方法であっても、撮影方法を指示するものであればいずれでもよい。例えば、テロップを挿入する、BGMを挿入する、シーンチェンジのトランジションの設定など、一般の映像編集で行われるものを指示した場合なども、本発明におけるテンプレートといえる。
このような手順で、図3に示すテンプレート全体像に沿って撮影した後、図7に示すように、テンプレート記憶部142に、各トピックを、指示、時刻を保存しておけば、それらを元に品質の高い映像を作成することが可能となる。あるいは、"再度"ボタン132dが押下された場合を鑑みれば、当該区間を録画から削除することにより、撮影後直ちに高い映像を作ることが可能となる。本発明において、削除方法は、撮影後でもよく、撮影中同時並行して実施されるものであってもよい。これまで述べてきたいずれの場合においても、各トピック、指示、時刻を示したものをテンプレートとする。あるいは、特開2007−318450号公報に記載の撮影方法をテンプレートとしてもよい。
テンプレート入力部132は、上記のテンプレートを入力する。その際、図7に示したテンプレートが、映像/音声データと共に、映像ファイルに梱包されていれば、映像入力部131で映像ファイルを入手した後、テンプレートを抽出すればよい。
これにより、映像ファイルにテンプレートが梱包されていない場合について詳述する。図7に示すテンプレートが、ネットワークで接続されたいずれかの場所に存在したとする。例えば、映像ファイルには、ヘッダ部分と呼ばれる映像圧縮形式などに記された領域がある。その領域に、テンプレートのアドレスが記されていれば、テンプレートを入手できる。あるいは、映像ファイルの映像データに電子透かしが埋め込まれている場合、電子透かし領域にてプレートアドレスを記述しておけばよい。例えば、特許第3589111号公報、特開2001−16438号に記載された方法により、映像データを構成する任意の画像に電子透かしを施せばよい。
あるいは、ネットワークからテンプレートを収集し、当該テンプレート群から適切な…プレートを選定しても良い。そのために、当該映像のカット点、カメラワーク、テロップ認識、音楽の有無などを検出すればよい。
カット点検出については、例えば、特許第2839132号公報、特開平8−214210号公報に記載されている方法を用いることができる。カメラワーク検出については、例えば、特開平11−15953号公報に記載されている方法により行えばよい。
音楽の有無については、例えば、特許第3470938号公報、特開平10−320557号公報に記載の方法により行えばよい。
テロップ認識については、例えば、特許第3569390号公報、特開平10−40391号公報に記載の方法により行えばよい。
同定の方法としては、当該映像のカット点の時刻に最も接近するテンプレートを推察することがあげられる。また、図5の例では、カメラがズームしている。前述のカメラワーク検出により、ズーム時刻が既知であるため、このズーム時刻もテンプレート推定の要素となっている。例えば、テンプレートの指示によりオープニングには任意の音楽がBGMとして入っていた場合、BGMの挿入時刻を前述の公知技術により取得することで、同様にテンプレート類推が行える。テロップの出現時刻についても同様である。このようにすることで、ネットワーク上のテンプレートであっても入手することが可能となる。具体的には、テンプレートに指示されたカット点時刻(Tc1,Tc2,Tc3,…,Tcm)と、該映像のカット点(Vc1,Vc2,Vc3,…,VcN)についてΣ│Tci−Vci│/m(但し、i=1,2,3,…,m)を求める。さらに、当該時刻にテンプレートに記されたカメラワーク、テロップ、音楽の有無の一致性を1/0(1:一致、0:不一致)で判定し、それぞれ、
カメラワーク得点:CM;
テロップ得点:TL;
音楽得点:MS
とし、
CM+TL+MS+Σ│Tci−Vci│/m
をテンプレート群に全てにおいて求め、最小のテンプレートを当該映像のテンプレートと類推する。
該映像を作成したテンプレートが存在せず、撮影時に、図3で示した、テンプレート全体像しかない場合においても、前述のカット点、カメラワーク、テロップ、音楽の有無から確率的に当該映像撮影時に用いたテンプレート全体像を選択することが可能となる。以後、テンプレート全体像についても、単に「テンプレート」と呼ぶこととする。入手したテンプレートはテンプレート記憶部142に記憶される。
<テンプレート解析・対応部133>
テンプレート解析・対応部133は、テンプレート記憶部142からテンプレートを読み出し、前述のテンプレートのタイムラインを解析し、結果として図7に示す情報を取得する。テンプレートにより映像の時間構造が詳細にわかっているため、それを頼りに、当該映像を構成する一つ以上の区間に分割する。
テンプレートと当該映像を対応させる方法について詳述する。ここで、テンプレート作成者、当該映像撮影者、当該映像をネットワーク経由により、電子メールに添付したいと考える者、当該映像をネットワーク上のサイトに公開したと考える者に着目し、彼らを単に「映像関係者」と呼ぶこととする。映像関係者は、ダイジェストを生成するという立場に立てば、該映像の該区間について、見せても良い区間と、見せたくない区間があることが想定される。例えば、上記の手紙のシーンが、結婚式の最もクライマックスのシーンであったとする。当該手紙のシーンのうち、特に、図6に示す花嫁にズームしてアップショットとする区間をダイジェストに利用しないために、テンプレート上に利用の可否を予め記述しておけばよい。
例えば、テンプレート作成者が、当該区間は利用不可と初期設定してもよい。映像関係者は当該初期設定を変更できるものとしてもよく、あるいはテンプレート作成者の意向を最重要視し、変更できないものとしてもよい。図7に示すテンプレートは、テンプレート解析・対応部133により、図8に示すように、各区間の利用の可否の情報が付加された状態となる。
例えば、図8では、オープニング、エンディングについて、ダイジェストの利用が"否"となっている。映像関係者が、オープニング、エンディングそれ自体を視聴しても、魅力的でないと判断すれば、そのようにすればよい。更に、テンプレートに最初から優先順位を付与するものであってもよい。例えば、映像関係者が、時刻T1〜T2の花嫁を撮影するシーンがダイジェストに最優先に利用したいと考えれば、図8の利用の可否と共に優先順位を記述すればよい。あるいは、映像関係者により何らかの指示がない場合、テンプレート解析・対応部133が独自に各区間の利用可否を決定してもよい。ダイジェストに利用しないと判断する区間としては、
(1)オープニング、エンディング区間;
(2)カメラワークが「ズーム」「パン」の状態が支配的である区間;
(3)後述するダイジェストに利用するための所定の特徴量が、所定の値を超える区間;が挙げられる。(2)については、当該シーンのシーン長Lについて、ズーム、パンのいずれかが存在する時刻tzpとの比tzp/Lが一定値、例えば、0.5以上となる場合に、当該シーンを利用しないとしてもよい。また、(3)については、後述するシーン毎に付与される強調度、感情度、笑顔度、支配度のいずれか一つ以上に閾値を設定し、例えば、0.5以上となる場合の当該シーンを利用しないとしてもよい。さらに、映像関係者が単に「すすり泣き」の存在するシーンは優先順位を高くする、といったように簡易的に指示するものであってもよい。例えば、新郎新婦/撮影者/招待客のいずれかのすすり泣きが集音された箇所には、何かしらのイベントがあると推察し、優先的にダイジェストに用いることができる。この上記の簡易的指示と、利用の可否と組み合わせて、利用が「可」で、かつ、簡易的指示が存在した場合は、優先順位を1つ上昇するなどの応用を施してもよい。
<ダイジェスト生成部134>
ダイジェスト生成部134について詳述する。
ダイジェスト生成部134は、ダイジェストに利用可能な区間に、優先順位を付与する。付与した優先順位を、図9のように保管しておけばよい。その付与方法としては、例えば、前述の特許文献1に記載の方法により行っても良い。音声の強調状態を確率的、すなわち、強調度として抽出する本手法は、該区間の優先順位を、該区間の上記強調度を降順にすることで、付与することが可能となる。本手法では、強調音声と平静音声を学習することにより、強調度を求めたが、本手法を「すすり泣き」と「平静音声」で学習することにより、すすり泣く区間を優位的に出すことが可能となる。この手法を用いれば、上記「すすり泣くシーン」を推定でき、前述の「すすり泣くシーンはダイジェストに利用しない」という判定に利用することが可能となる。
また、下記の方法によって行ってもよい。該区間の音声の感情度を求め、感情度の降順に優先順位を付与する。
または、下記の方法によって行っても良い。該区間の音声の感情度を求め、感情度の降順に優先順位を付与する。
感情検出方法を図10に基づいて説明する。図10は、感情検出方法を説明するフローチャートである。
なお、本実施形態の説明におけるデータは、汎用的な記憶部(例えば、メモリやハードディスク装置)あるいは記憶手段に記憶され、アクセスされるものとする。
まず、ステップS110(統計モデル構築処理ステップ)は、本実施形態に係る感情検出方法によって、実際に感情的状態の判定を行う前に、予め行っておくステップであり、感情的状態確率を計算するために用いる統計モデルを構築するステップである。なお、上記統計モデルの実体とは、その統計を計算する関数、及び、統計量などのパラメータをプログラムとして記載したものである。なお、上記統計モデルのパラメータ及び関数型を表す符号は記憶部に格納されることになるが、それらのための記憶容量が比較的小さい。
次に、ステップS120(音声特徴量抽出処理ステップ)では、取り込まれたコンテンツの音声信号データから、所望の音声特徴量をベクトルとして分析フレーム(以下、単にフレームと呼ぶ)毎に計算し、抽出する。なお、この音声特徴量ベクトルは、基本周波数,基本周波数の時間変動特性の系列,パワー,パワーの時間変動特性の系列,発話速度の時間変動特性のうち1つ以上の要素で構成されるベクトルである。また、音声信号データは、音声信号データ入力手段(例えば、後述する図11の入力部210)によって、入力されるものとする。抽出された音声特徴量は、記憶部に記憶される。ステップS120〜S150は感情的状態確率を計算する処理である。
次に、ステップS130(音声特徴量出現確率計算処理ステップ)では、ステップS120において計算され記憶部に記憶された音声特徴量ベクトルに基づき、フレーム毎に、感情的状態に対応する音声特徴量ベクトルが出現する確率を、ステップS110において予め構成された統計モデルによって算出し、その算出結果を音声特徴量出現確率と見做す。
次に、ステップS140(感情的状態遷移確率計算処理ステップ)では、フレーム毎に、ステップS110において予め構成された統計モデルを用いて、感情的状態に対応する1つ以上の状態変数の時間方向への遷移確率を算出し、その算出結果を感情的状態遷移確率と見做す。
次に、ステップS150(感情的状態確率計算処理ステップ)では、フレーム毎に、ステップS130で計算した音声特徴量出現確率及びS140で計算した感情的状態遷移確率に基づいて、感情的状態確率を計算する。
そして、ステップS160(感情的状態判定処理ステップ)では、フレーム毎に、ステップS150で計算した感情的状態確率に基づいて、該フレームの感情的状態を判定し、出力する。
必要であれば、ステップS170(要約コンテンツ生成処理ステップ)において、ステップS150において計算された感情的状態確率,判定された感情的状態,連続発話及び連続非発話時間,連続発話,連続非発話時間のうち1つ以上に基づいて、1つ以上のフレームで構成される区間を構成し、この区間を単位としたコンテンツの要約を生成し、出力する。
以下に、感情検出方法の各ステップを詳細に説明する。
まず、統計モデルを構成するステップS110の処理詳細を図12に基づいて説明する。なお、統計モデルは、学習用音声信号データから学習を行うことによって獲得するものとする。
まず、ステップS111において、学習用音声信号データを入力する。なお、学習用音声信号データは、音声信号データ入力手段から入力されても良いし、学習用音声信号データ専用の入力手段(学習用音声信号データ入力手段)から入力されても良い。
次に、ステップS112において、この学習用音声信号データに対して、学習用音声信号データ全てに渡って、フレーム毎に、人間が実際に視聴して判断したそのフレームにおける感情的状態eを与える。ここで、この感情的状態eは、人間によって判定されたものをラベルと呼ぶこととし、判定行為をラベル付けと呼ぶこととする。
また、厳密にはフレーム毎に感情的状態eのラベルが与えられていない場合であっても、フレーム単位にラベル付けされるように変換できるものであれば、これに変換することで利用してもよい。ラベル付けの例としては、ある区間において感情的状態eのラベルが付与されている場合もある。この場合には、その区間に含まれるフレームに対して、区間に付与されたラベルと同じラベルを付与することによって、フレーム毎にラベル付けできる。より具体的には、音声のある時刻t1〜t2が感情的状態eとラベル付けされている場合は、該区間の全フレームはeと与えられているものとして構成する。
次に、ステップS113において、フレーム毎に、上記ステップS120と同様に、音声特徴量ベクトルxを抽出する。以下では、フレーム番号tのフレームFtにおける音声特徴量ベクトルxt、感情的状態etと表す。
次に、ステップS114において、音声特徴量出現確率を計算するための統計モデルと、感情的状態遷移確率を計算するための統計モデルをそれぞれ学習によって構成する。
まず、音声特徴量出現確率を計算するための統計モデルの学習方法の一例を説明する。音声特徴量出現確率を計算のための統計モデルは、フレーム毎に与えられる音声特徴量ベクトルx空間上の確率分布であって、例えば、フレームFtにおいては、それ以前のある(n−1)フレーム区間における感情的状態et={et,et-1,・・・,et-n+1}に依存してxtが出現する確率を表す、条件付き確率分布pA(xt|et)として作成する。nは、例えば、2〜3程度とするものでよい。
この条件付き確率分布pA(xt|et)は、例えば、etの取りうる値毎に、正規分布、混合正規分布などといった、確率モデルを用いて構成してもよい。また、更に音声特徴量の種類別に、正規分布、混合正規分布、多項分布などといった、確率モデルを用いて構成するのでもよい。これら確率モデルのパラメータを学習用音声信号データに基づいて推定することになる。
なお、上記パラメータの推定方法は、例えば、最尤推定法や、EMアルゴリズム、変分Bayes法などが公知のもの(例えば、「石井健一郎、上田修功、前田栄作、村瀬洋、『わかりやすいパターン認識』オーム社、第1版、1998年8月、pp. 52-54」、「汪金芳、手塚集、上田修功、田栗正章、『計算統計I確率計算の新しい手法 統計科学のフロンティア11 第III章 3EM法 4変分ベイズ法』岩波書店、2003年6月、pp.157−186」)を用いることができる。
次に、感情的状態遷移確率を計算するための統計モデルを説明する。
感情的状態遷移確率を計算するための統計モデルは、音声特徴量出現確率を計算するための統計モデル同様、学習用音声信号データから、学習を行うことによって獲得する。
上記ステップS111〜S113において、上記学習用音声信号データは、学習用音声信号データ全てに渡って、フレーム毎に、抽出された音声特徴量ベクトルxと、人間が実際に視聴して判断したそのフレームにおける感情的状態eと、が与えられているという前提で、以下に、ステップS114の学習を行うステップの一例について説明する。なお、フレーム番号tにおける感情的状態をetと表す。
感情的状態遷移確率計算のための統計モデルは、t番目のフレームFtにおける感情的状態の系列et空間上の確率分布であって、Ft以前の(n−1)フレームにおける感情的状態系列et-1={et-1,et-2,・・・,et-n}に依存して、etが出現する確率を表す条件付き確率分布pB(et|et-1)として作成する。
なお、etは、例えば、喜び、怒り、哀しみ、などの感情的状態を表す変数であり、離散変数であるから、上記条件付き確率分布pB(et|et-1)は、例えば、bi−gram型のヒストグラムを作成することで構成することが考えられる。この場合は、学習用音声信号データに基づき、et-1が与えられている時に、各感情的状態の系列etが何度出現するのかを計数することによってこれを構成することができる。
以上がステップS110の詳細処理である。
次に、ステップS120では、取り込まれたコンテンツの音声信号データから、所望の音声特徴量ベクトルをフレーム毎に抽出する。なお、本発明における音声とは、人間による会話音声のみではなく、歌唱音声、または音楽なども含むものとする。
以下に、音声特徴量ベクトル抽出方法の一例を説明する。
まず、音声特徴量について説明する。本実施形態における音声特徴量としては、音声スペクトルやケプストラム等と比較して、雑音環境下でも安定して得られ、かつ感情的状態を判定するにあたり、話者のプロフィールに依存しにくいものが好ましい。
上述のような条件を満たす音声特徴量として、基本周波数f0,基本周波数の時間変動特性の系列{rf0i},パワーp,パワーの時間変動特性の系列{rpi},発話速度の時間変動特性等を抽出する。なお、iは時間変動特性のインデクスである。
また、本実施形態においては、系列とは1つ以上の要素を持つ集合であると定義する。時間変動特性の例としては、例えば、回帰係数、分析フレーム内変化量の平均値,最大値,最小値や、分析フレーム内変化量の絶対値の累積和、レンジなどが考えられ、必要に応じて選択すれば良い。特に、回帰係数の場合には、インデクスは次数に対応づけることができる。回帰係数は、何次までを用いてもよいが、例えば、1〜3次程度としてもよい。以下の例では、時間変動特性として回帰係数のみを採用した場合について説明する。パワーpは、音声信号波形の振幅値を用いるものでもよいし、絶対値や平滑値、rms値を用いるのでもよい。また、ある周波数帯域、例えば、人間の聞き取り易い500Hz(ヘルツ)〜3KHz(キロヘルツ)などの領域におけるパワーの平均値などを用いるのでも良い。
上記抽出すべき基本周波数f0及びパワーpの抽出法は様々である。それらの抽出方法は公知であり、その詳細については、例えば、上述の非特許文献1に記載の方法等を参照されたい。
上記抽出すべき発話速度の時間変動特性は、既知の方法(例えば、「嵯峨山茂樹、板倉文忠、『音声の動的尺度に含まれる個人性情報』、日本音響学界昭和54年度春季研究発表会講演論文集、3−2−7,1979年、pp.579-590」、特開2005−345496号公報参照)によって、動的尺度mの時間変動特性rmとして抽出する。
例えば、動的尺度のピークを検出し、その数をカウントすることで発話速度を検出する方法をとってもよく、また、発話リズムに相当するピーク間隔の平均値、分散値を計算して発話速度の時間変動特性を検出する方法をとるのでもよい。
以下の説明では、動的尺度のピーク間隔平均値を用いた、動的尺度の時間変動特性rmについて説明することとする。
上記抽出すべき基本周波数の時間変動特性の系列{rf0i}、及びパワーの時間変動特性の系列{rpi}として、回帰係数を抽出する方法の一例について説明する。
分析する時刻をtとしたとき、時刻tにおいて抽出された基本周波数f0t(例えば、図13中の符号δのグラフ)又はptと、{rf0it}又は{rpit}との関係は、次の近似式によって表される。
Figure 2010011409
ただし、Iは回帰関数の最大次数を表す。tの近傍でこの近似誤差が小さくなるように{rf0it}及び{rpit}を決定すればよく、これを実現する方法として、例えば、最小自乗法を用いることが考えられる。
Iは任意の値でよいが、ここでは、例として、I=1であるときのrf01tを求める場合について説明する。rp1jについても同様に計算できる。分析する時刻をtとすると、tにおける基本周波数の時間変動特性rf01tは、
Figure 2010011409
と求めることができる。ここで、dは時刻t前後の計算に用いるサンプリング点の数で、tの近傍に対応する。例えば、d=2とする。
以下では、例えば、I=1の場合に求めたrf01t、rp1jのみをそれぞれ基本周波数の時間変動特性rf0、パワーの時間変動特性rpとして扱う場合について説明する。
フレーム毎に音声特徴量を計算する方法の一例を説明する。1フレームの長さ(以下、フレーム長とよぶ)を100ms(ミリセコンド)とし、次のフレームは現フレームに対して50msの時間シフトによって形成されるものとする。
これらのフレーム毎に、各フレーム内での各音声特徴量の平均値、つまり、平均基本周波数f0'、基本周波数の平均時間変動特性rf0'、平均パワーp'、パワーの平均時間変動特性rp'、動的尺度の平均ピーク間隔平均値rm'を計算するものとする。あるいは、これらの平均値のみではなく、フレーム内での各音声特徴量の最大値、最小値、または、変動幅などを計算して用いてもよい。以下では、平均値のみを用いた場合について説明する。
各音声特徴量は予め規格化しておくことが好ましい。規格化は、例えばf0'について、例えば、処理対象となる音声信号データ全体に渡る平均基本周波数を差し引く、もしくは、平均基本周波数で割ることによって行うのでもよいし、標準正規化して平均0分散1にするのでもよい。その他の音声特徴量についても、同様に行うことが考えられる。
感情的状態の判定においては、音声特徴量の時間的な挙動を捉えることが必要である。本実施形態では、フレーム毎に計算した音声特徴量から、1つ以上のフレームの音声特徴量を用いて音声特徴量ベクトルを計算して、音声特徴量の時間的な挙動の捕捉を実現する。なお、この音声特徴量ベクトルを抽出する区間を、音声特徴量ベクトル抽出区間(例えば、図14中の符号Wで示される区間)と呼ぶこととする。
以下、その音声特徴量の時間的な挙動の捕捉方法の一例を図14に基づいて説明する。現フレームFについて、そのフレーム番号をjとおき、Fjと表す。Fjに含まれるフレーム毎の音声特徴量をそれぞれ、基本周波数f0'j、基本周波数の時間変動特性rf0'j、パワーp'j、パワーの時間変動特性rp'j、動的尺度のピーク間隔平均値rm'jと表すものとする。
以上で求めた音声特徴量に基づいた音声特徴量ベクトルの構成方法は、例えば、音声特徴量毎に遅延座標空間に埋め込むことで構成する方法が考えられる。すなわち、現フレームからSフレーム分過去のフレームまでに含まれる音声特徴量をベクトル表記することで構成するものとする。
例えば、基本周波数の場合、現フレーム番号をtとおけば、f0={f0't,f0't-1,・・・,f0't-S}Tのように基本周波数の音声特徴量ベクトルf0を求める物とする。図14中のフレームは、符号w1で示すフレームFt-S,符号w2で示すフレームFt-1,符号w3で示すフレームFtである。
あるいは、音声特徴量毎に現フレームからSフレーム分過去のフレームまでのフレーム間差分量を計算し、これをベクトル表記することで構成する方法も考えられる。
ここで、上記Sの値は、例えば、S=5とする。同様に、基本周波数の時間変動特性rf0、パワーp、パワーの時間変動特性rp、動的尺度の時間変動特性rmを計算する。
予め、感情的状態を判定するために使用すると決定した全音声特徴量ベクトルを並べたものをxと表記するものとする。例えば、抽出した音声特徴量全てを使用する場合は、x={f0T,rf0T,pT,rpT,rmT}Tとなる。そして、基本周波数の時間変動特性rf0、パワーの時間変動特性rp、動的尺度のピーク間隔平均値rmを使用する場合にはx={rf0T,rpT,rmT}Tとなる。
本例においては、上記音声特徴量のうち1つ以上を使用すれば、感情的状態を判定することが可能である。ただし、感情的状態において特徴的に現れる発話においては、基本周波数f0そのものの抽出が困難な場合が多く、しばしば欠損することがある。このため、そのような欠損を補完する効果を容易に得ることのできる、基本周波数の時間変動特性rf0は含むことが好ましい。更には、話者依存性を低く抑えたまま、判定精度を高めるため、パワーの時間変動特性rpを更に含むことが好ましい。
以上のように、フレーム毎に行った音声特徴量、音声特徴量ベクトルの計算処理を、コンテンツ全てに渡るフレームに対して行うことで、全てのフレームにおいて音声特徴量ベクトルを得ることが可能である。
以上がステップS120の詳細処理である。
次に、ステップS130は、ステップS120において抽出された各フレームの音声特徴量ベクトルと、ステップS110において予め構成しておいた統計モデルとを用いて各感情的状態における音声特徴量ベクトルの出現確率(音声特徴量出現確率)を計算する。
以下に、ステップS130で実行する処理の一例を説明する。
ステップS110で作成した統計モデルに基づき、音声特徴量ベクトルの出現確率を計算する方法の一例を説明する。
統計モデルは、フレーム毎に与えられる音声特徴量ベクトルxt空間上の条件付き確率分布pA(xt|et)であるため、入力された音声特徴量ベクトルxtを、ステップS110によって予め作成した統計モデルpA(xt|et)に基づいて尤度計算する。この計算した尤度を、各感情的状態においてxtが出現する音声特徴量出現確率と見做す。
以上の処理を、全てのフレームに渡って行うことで、全てのフレームに対して音声特徴量出現確率を計算することができる。
以上がステップS130の詳細処理である。
次に、ステップS140では、統計モデルを用いて、感情的状態を判定するフレーム(現フレーム)直前の1つ以上遡ったフレームの感情的状態に依存して、現フレームで各感情的状態に遷移する遷移確率(即ち、感情的状態遷移確率)が計算される。
以下に、ステップS140を実行するため処理の一例を説明する。
まず、ステップS110で作成した統計モデルに基づき、感情的状態遷移確率を計算する方法の一例を説明する。
統計モデルは、感情的状態の系列et空間上の条件付き確率分布pB(et|et-1)である。そのため、ステップS140では、et-1が既に判定され、決定されていれば、ステップS110における方法などによって予め作成した統計モデルpB(et|et-1)に基づいて各感情的状態の系列etの起こりうる確率を計算する。その上記計算した確率を、感情的状態遷移確率と見做す。
なお、感情的状態の判定は、音声信号データの時間進行方向に沿って逐次的に行っていくため、フレーム番号tがこの時間軸に対して単調増大とすることで、etを判定する段階でet-1が既に判定されている状態を構成できる。
以上の処理を、全てのフレームに渡って行うことで、全てのフレームに対して感情的状態遷移確率を計算することができる。
以上がステップS140の詳細処理である。
次に、ステップS150では、ステップS130及びステップS140において計算された音声特徴量出現確率及び感情的状態遷移確率に基づいて、感情的状態確率が計算される。
以下に、ステップS150で行う感情的状態確率を計算する処理の一例について説明する。
上記統計モデルpA(xt|et)と、pB(et|et-1)の組は、合わせて一般化状態空間モデルと呼ばれる構造を有しており、音声認識などによく用いられるLeft−to−Right型のHMM(Hidden Markov Models)などと同様の因果構造(例えば、図15中の符号St1で示される感情状態et-1,etと、符号St2で示される音声特徴量xt-1,xtである)を有する。
一般化状態空間モデルは、時刻tまでの観測系列{xt}を得た場合に、時刻tでの内部状態etの確率分布p(et|{xt})は、pA(xt|et)とpB(et|et-1)に基づき、以下の式を再帰的に計算することで求めることができる(例えば、「Kitagawa, G. 「Non-Gaussian state-space modeling of nonstationary time series」, Journal of the American Statistical Association , 1987年12月, pp. 1032-1063参照)。
Figure 2010011409
ただし、Eは、etが取りうる全ての値の集合である。
一般に、一般化状態空間モデルにおいては、Eの値が非常に大きな値となるため、上記式を直接計算してp(et|{xt})の値を求めることは困難である。
本実施形態では、etが取りうる全ての値は、取り扱う感情的状態、つまり、喜び、怒り、哀しみ、恐怖、驚き、焦り等であるため、この数を|e|とすると、et={et,et-1,・・・,et-n+1}におけるありうる全ての組み合わせを考えたとき、Eのサイズは|e|nである。
例えば、本実施形態においては、想定する取り扱う感情的状態の数|e|は、例えば、喜び、怒り、哀しみ、恐怖、驚き、焦り、平静、などが想定され、およそ10程度である。このとき、例えば、n=3とすれば、Eのサイズオーダにして103程度であり、現在普及している汎用的なコンピュータであっても、上記表式を十分に直接計算可能な規模である。
従って、本実施形態では、この表式の確率分布p(et|{xt})の値を直接計算することが可能であるので、直接計算することで感情的状態確率を計算するものとする。
更に、etの要素からetを除外したものをe't={et-1,・・・,et-n+1}とし、かつe'tが取りうる全ての値の集合E'と表すとすると、フレーム毎の感情的状態etの感情的状態確率は、
Figure 2010011409
を計算することで求めることが可能である。図16に、喜び、哀しみ、平静の感情的状態を扱った場合の感情的状態確率の例を示す。即ち、図16中の符号L1で示す曲線が喜びの感情的状態確率、符号L2で示す曲線が平静の感情的状態確率、符号L3で示す曲線が哀しみの感情的状態確率である。
以上の処理を全てのフレームに渡って行うことによって、全てのフレームに対して感情的状態確率を計算することが可能である。
以上がステップS150の詳細処理である。
ステップS160において、ステップS150において計算された感情的状態確率が感情判定手段に取り込まれ、感情的状態確率に基づいて感情的状態が判定される。
以下、感情的状態を判定するステップS160の処理の一例を説明する。なお、以下の説明では、取り扱う感情的状態のカテゴリを順にe1、e2、・・・、e|e|とインデクス付けする。例えば、喜び、怒り、哀しみ、恐怖、驚き、焦り、平静の感情的状態を取り扱う場合には、e1:喜び、e2:怒り、e3:哀しみ、e4:恐怖、e5:驚き、e6:焦り、e7:平静等とすればよく、この場合は、|e|=7である。
ステップS150で、フレーム番号tのフレームFtにおける感情的状態がekである感情的状態確率pkt=p(et=ek|{xt})を計算しているため、最も単純には、この確率pktが最も高いekに対応する感情的状態を、Ftにおける感情的状態と判定することができる。あるいは、pktが高い値をとるekを、降順に1つ以上選出し、これら複数の感情的状態を持って判定結果としてもよい。
または、感情的状態によっては、同時刻に相互想起しやすいものと、しにくいものとがある。例えば、喜びと哀しみは同時に想起しにくいことは容易に想像できる。このような現象を考慮して、ある感情的状態ekに対応する感情的状態確率pktから、その他の感情的状態{e1,e2,・・・,ek-1,ek+1,・・・,e|e|}に対応する感情的状態確率{p1t,p2t,・・・,pk-1t,pk+1t,・・・,p|e|t}の凸結合である、
Figure 2010011409
を減算し、規格化したものを新たなpktとして、これを比較してもよい。
または、簡単に、予めある閾値を定め、これよりも値の大きなpktに対応する感情的状態ekを、感情的状態と判定してもよい。
以上の処理を全てのフレームに渡って行うことによって、フレーム毎に感情的状態を判定することが可能である。
以上がステップS160の詳細処理である。
以上のステップS110〜S160によって、任意の音声信号データを含むコンテンツに対して、フレーム毎に感情的状態を判定することが可能となる。
そして、ステップS170では、ステップS150において計算された感情的状態確率,ステップS160で判定した感情的状態に基づいて要約コンテンツを生成し出力する。
以下、要約コンテンツを生成する処理の一例について説明する。
本発明の原理によれば、フレーム毎に感情的状態確率及び感情的状態が与えられるため、最小単位としてはフレーム単位での要約提示が可能であるが、要約されたコンテンツは、視聴者にとって意味が理解可能であることが好ましい。よって、本実施形態においては、連続する発話であると考えられる発話区間の集合は1つの区間としてまとめる処理を行っておく。以下、この連続する発話で構成される発話区間集合のことを音声小段落と呼び、更にこれを単位として構成される発話音声区間を音声段落と呼ぶ。
ここで、音声小段落を生成する方法の一例を説明する。
まず、発話区間であると考えられる区間を抽出する。このような区間を抽出する方法の一例としては、音声波形における発話区間の周期性を利用して、自己相関関数の高い区間を発話区間であると見做して、該当区間を抽出する方法がある。
実際には、ある閾値よりも高い自己相関関数値を示す区間を、発話区間であると見做す。この閾値の与え方は、予め定数として与えてもよいし、要約するコンテンツ全体の自己相関関数値を計算した後、一般の場合の発話時間(または、有声時間)と非発話時間(または、無声時間)の割合を基準として、この基準に近い発話時間割合になるように閾値を決定してもよい。
本実施形態においては、発話区間を構成する単位はフレーム単位である。即ち、音声特徴量ベクトルに基本周波数が含まれていれば、これがある閾値よりも高い区間を発話区間(即ち、発話フレーム)と見做してもよい。
以上の処理によって、コンテンツ中からフレーム単位で発話フレームと非発話フレームを分離することが可能である。
次に、抽出された発話フレームのうち、連続する発話であると考えられる発話フレーム集合を1つの区間としてまとめていくことで、音声小段落を生成する。
このような音声小段落を生成する方法の一例について説明する。
コンテンツ中の発話フレームF'の集合を時刻の早いものから順に{F'1,F'2,・・・, F'N}とする。ここで、Nは発話フレームの総数である。
次に、時間軸上隣り合う発話フレームF'i、F'i+1の時間間隔、すなわち、F'iの終了時刻F'iendと、次のフレームであるF'i+1の開始時刻F'i+1startについて、その時刻の差Fi+1start−Fiendを計算する。
次に、その計算結果を予め決定したある閾値と比較して小さければ、FiとFi+1は連続する発話フレームであると考え、1つの音声小段落を構成する。
そして、これを全てのフレームに渡り繰り返すことで、連続発話と考えられるフレームは音声小段落にまとめることができる。
また、音声小段落を生成する方法の他例としては、次のようなものが考えられる。
まず、要約するコンテンツ全体に渡り発話フレーム毎に開始時刻、終了時刻を求め、これらを纏めて2次元のベクトルと見做す。
そして、このベクトルについて、要約するコンテンツ全体の発話時間と非発話時間の比が、一般の場合の発話時間と非発話時間の割合と同じ程度になるようにボトムアップクラスタリング法を適用し、音声小段落を生成する。
上述の他例においては、予め閾値を決定しておく方法とは異なり、コンテンツ間の発話速度の差を吸収し、適応的に音声小段落を構成できる。
以上の処理により、各音声小段落は、1つ又は連続するフレームの集合を必ず含むこととなり、コンテンツ中に含まれる発話フレーム全体を、いくつかの音声小段落にまとめることが可能である。
次に、構成した音声小段落単位での感情的状態である感情度を計算する。以下、この感情度を計算する方法の一例を図17に基づいて説明する。
コンテンツ中の音声小段落S'の集合を時刻の早いものから順に{S1,S2,・・・,SNS}とする。例えば、図17中では、符号v1で示される音声小段落Si-1,符号v2で示される音声小段落Si,符号v3で示される音声小段落Si+1である。
ここで、NSは音声小段落の総数である。また、ある音声小段落Siに含まれる発話フレームを{f1,f2,・・・,fNFi}と置く。NFiは音声小段落Siに含まれる発話フレーム数である。
各発話フレームftは、感情的状態確率計算手段によって、感情的状態確率p(et|{xt})が与えられている。音声小段落Siの感情的状態eが、ekである感情度pSi(e=ek)は、例えば、平均値を表す次式によって計算することが考えられる。
Figure 2010011409
また、例えば、最大値を表す次式によって計算することも考えられる。
Figure 2010011409
これら以外にも、例えば、音声小段落内で窓掛けを行ってから感情度を計算するなど、方法はさまざま考えられるが、音声小段落間で感情度を比較する場合があるため、感情度はある一定の値の範囲内、例えば0〜1の間に収まるようにすることが好ましい。
なお、図17における感情度は、符号H1〜H3で示されている感情度である。
学習行程において、一つ以上の感情を設定しておくことにより該感情毎の感情度を抽出可能となる。あるいは、該区間について、一つ以上の感情度の最大/和算/乗算/平均のいずれかを最終的な感情度として規定し、優先順位を付与するものであってもよい。
または、下記の方法によって行っても良い。該区間の画像情報を用いて、人間の笑い状態を検出し、笑い状態の確率を笑顔度として、その降順に優先順位を付与する。
以下に、笑顔度算出の方法の例を示す。
図19は、笑顔度算出原理を示すための図である。図20は、基本的な表情検出処理のフローチャートである。
同図に示す表示検出装置は、動画入力部10、顔画像領域抽出部20、特徴点抽出部30、特徴量抽出部40、笑い状態検出部50、特徴点記憶部35、特徴量記憶部45から構成される。
ステップ1) 動画入力部10は、動画を入力する。
ステップ2) 顔画像領域抽出部20は、Adaboost学習によるHaar-like特徴を用いた識別器を用いるものとし、入力された動画像から人物の顔画像領域を抽出する。ここで、多数の弱識別器をカスケード型とし、該カスケード型識別器を識別対象の大きさ、位置を変化させて適用し、顔画像領域を特定する。これについては、例えば、文献「Paul Viola, Michael J. Jones. Robust Real-Time Face Detection. International Journal of Computer Vision. Vol. 57, No2 pp.137-154 (2004)」などに記載されている。
ステップ3) 特徴点抽出部30は、顔画像領域抽出部20で抽出された顔画像領域から鼻の先端、口角の左右の位置を特徴点として抽出し、特徴点記憶部35に格納する。特徴点抽出処理を行う際に、事前処理として、図21に示す黒抜き丸で示す25点の特徴点を抽出している。特徴点は、輪郭、目玉、眉毛、鼻、口に関連して割り振っている。この特徴点の抽出方法としては、例えば、文献「Lades M., Vorbruggen J., Buhmann J., Lange J., Konen W., von der Malsburg C., Wurtz R. Distortion Invariant Object Recognition in the Dynamic Link Architecture. IEEE Trans. Computers, Vol. 42, No. 3 pp.300-311(1993)」、「Wiskott L., Fellous J.-M., Kruger N., von der Malsburg C. Face Recognition by Elastic Bunch Graph Matching. IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 19. Issue 7, pp. 775-779 (1997)」等の公知の方法を用いるものとする。これらの公知技術を参照することにより、例えば、人物が顔を動かすなどの行為を行ったとしても安定して、図21に示す25点の特徴を抽出可能である。この25点の特徴のうち、図22に示す二重丸の3点(h,i,j)のみを抽出し、残りの点は必要としない。これらは、鼻の先端、口角の左右の位置に相当する点である。また、25点の特徴を抽出することなく、必要な3点のみを直接抽出してもよい。このような方法により、不要な点の抽出処理を省くことができる。
ステップ4) 特徴量抽出部40は、鼻の先端を基準としたときの口角の左右位置との角度を計測して特徴とする。図23の例では、鼻の先端hを基準としたときの左右の口角の位置i,jの角度αを計測し、特徴量とし、特徴量記憶部45に格納する。
ステップ5) 笑い状態検出部50は、特徴量記憶部45から特徴量(角度α)を読み出して、各度αの時間変化を求め、時間変化から平衡状態からの立ち上がり状態、最大角度状態、平衡状態への立ち下がり状態の3状態に分割し、笑い状態からの開始から終了までの連続的な変化を捉える。具体的には、角度の特徴量をαとしたときのその時間履歴を図24のように計測する。更に、αの時間履歴から、同図に示すように、平衡状態からの立ち上がり、最大角度、平衡状態への立下りの3状態に分割する。実際には、人間が平衡状態にあるときに必ずしも口の形状が閉まっている状態ではないことが想定される。また、通常会話しているときも口の形状は開閉状態となる。このような場合においても、笑っているか否かを判断するためには、例えば、特徴量αの時間変化を観測すればよい。具体的には、図25に示すように、特徴量の時間微分dα/dtと、2つの閾値を用いる。2つの閾値については、高閾値「thupper」と低閾値「thlower」と呼ぶこととする。この閾値は静的に設定されるものでもよく、後述する方法により動的に設定されるものであってもよい。
以下に、笑い状態検出部50における、3状態に分割する方法について説明する。
平衡状態からの立ち上がり状態については、その開始時刻を時間微分dα/dtが高閾値thupperを超えた時刻の時間微分dα/dtから時間的に前方向を観測し、最短時間でdα/dt=0となる時刻t0とする。一方、終了時刻は、時間微分dα/dtが高閾値thupper越えた時刻の時間微分dα/dtから時間的に後ろ方向を観測し、最短時間でdα/dt=0となる時刻t1とする。この時刻t1は最大角度状態の開始時刻にも相当する。
平衡状態への立下り状態については、最大角度状態以降で、低閾値thlowerを下回った時刻の時間微分dα/dtから時間的に前方向を観測し、最短時間でdα/dt=0となる時刻t2を開始時刻とする。この時刻t2は、最大角度状態の終了時刻にも相当する。一方、開始時刻は、時間微分dα/dtが低閾値thlowerを下回った時刻の時間微分dα/dtから時間的に後ろ方向を観測し、最短時間でdα/dt=0となる時刻t3とする。
前述のように、立上がり状態の開始時刻から平衡状態への立下り終了時刻までが一連の笑い状態として判別される。
次に、前述の高閾値thupperと低閾値thlowerを動的に設定する方法について述べる。
例えば、高閾値と低閾値の標準偏差と平均値をそれぞれσupperとμupper、σlowerとμlowerとした場合、
thupper=a・σupper+b・μupper 式(1)
thlower=c・σlower+d・μlower 式(2)
としてもよい。ここで、a,b,c,dは、係数で任意の値とし、例えば、予め、試験用動画像を用意し、統計的な学習工程を経て設定するものであってもよい。具体的には、人手により本手法による笑い状態の上記の3状態の開始時刻と終了時刻の正解集合を設定し、これと本発明によって抽出された上記の3状態の開始時刻と終了時刻との時間差を最小限とするようにa,b,c,dを設定してもよい。
人間は、発話を一切していない状態においても口の形状が微小に変化していることが想定される。例えば、唇を噛みしめたり、つばを飲み込む動作を考えるだけでもこれらは容易に想像できる。これらの微小な変化が、角度αに影響する。また、笑いを含む発声行為についても、人間は規則的に口を開閉するもではなく、ある程度の不規則さを伴って開閉することが想定される。いわゆるこのようなノイズの影響を軽減させるために、例えば、検出した角度にメディアンフィルタを適用する対策を施してもよい。
また、本発明による時間微分dα/dtでは、笑い状態と、一般の発声と区別が付かない場合も想定される。例えば、illegalと発声した場合、"ille"の部分でdα/dtが増加し、"gal"の部分でdα/dtが減少するため、笑い状態と似ている挙動となる可能性がある。そのような場合には、例えば、最大角度状態の時間に着目し、t2−t1>ttimeなどの時間的な閾値ttimeを設定することで問題を回避可能となる。
当該笑い状態検出部50は、上記の処理により、時間、角度α、時間微分dα/dtからなる情報、または、3状態に分割された時刻の情報を出力する。
これまで、本発明の基本的な例を述べてきたが、例えば、角度αのみに着目している場合、例えば、引きつった笑いや、いやみを発言するときなどに頻出する。鼻の稜線を基準線としたときの左右非対称の状態においても笑い状態と判別する可能性がある。このような問題に対しては、図26に示すように、口角の左右の位置i,jを結ぶ線分の中心と、鼻の先端hとを結ぶ線分を基準線とし、基準線に対する左右の口角位置との角度をそれぞれ、α1、α2としてこれらの値の差を考慮することで対象であるか否かを判定すればよい。
例えば、それぞれの時間微分dα1/dt、dα2/dtの時間履歴を測定し、これらの相関係数を求め、例えば、0.5以上であるときに対象としてもよい。また、それぞれの時間微分がdα1/dt>0、dα2/dt>0となる時刻をts1、ts2としたときの│ts1−ts2│に閾値を設定するなどしてもよい。
または、下記の方法によって行ってもよい。上記顔領域が画像中に支配的であるか否かの支配度合いを求め、該区間の支配度合いを降順に優先順位とする。このためには、例えば、前述の特許文献3に記載の方法により行えばよい。
上記強調度、感情度、笑顔度、支配度を0〜1の範囲内で表現し、いずれか一つ以上について、和算、乗算、平均、最大のいずれかの値を降順に、優先順位を付与してもよい。
また、該区間はテンプレートと同期するものとして述べてきたが、例えば、下記の手法により分割して区間としてもよい。例えば、前述の特許文献1では、映像を構成する音声/音楽データに着目し、音声段落によって映像を一つ以上の区間に分割する手法が述べられている。この音声段落に同期する映像を区間として規定しても良い。しかしながら、映像を音声情報により分割することにより、カット点との時間的差異による、"切り取られた感覚"をユーザに与えてしまう可能性がある。このような問題については、上記音声段落とカット点時刻の情報を組み合わせることで、"切り取られた感覚"を軽減させる効果がある。
例えば、図27にその方法を示す。(i)音声段落S1,S2,S3,S4,S5に対して、(ii)カット点C1,C2,C3,C4を示している。これらを組み合わせた音声段落S1',S2',S3',S4',S5'を(iii)に示している。ここでは、音声段落の開始/終了時刻に最接近するカット点を新たな音声段落の開始/終了時刻としている。
しかしながら、図10に見るように、カット点C3では、この位置に音声段落S2の終了時刻を対応付けるか、あるいは、音声段落S3の終了時刻を対応付けさせるかという問題が発生することがある。その場合、S2、S3からの距離をそれぞれTs2,Ts3とした時の大小を比べて、例えば、S2の音声段落の終了時刻を変更する、と決定してもよい。
さらには、カット位置と音声段落の開始/終了時刻がある程度離れている場合は、必ずしもカット点位置に変更することが望ましくない場合も想定される。そのような場合は、音声段落の開始/終了時刻と最接近するカット点との時間差に閾値Thを設けることで、例えば、音声段落S3の終了時刻とカット点との時間差Ts2>Thであれば、無関係と判断してカット点位置に変更しない、としてもよい。
さらには、カット位置を音声がクロスオーバーしている場合、カット点に音声段落の終端を変更することで、"音声的に切り取られた感覚"によって、かえって違和感を増してしまうことが想定される。そのような場合には、カット点を音声がクロスオーバーしている場合は、変更しないという方針により、例えば、(iv)音声段落S1"の開始/終了時刻、S2"の開始時刻のように元のままとしてもよい。
上記テンプレート、上記音声段落、上記音声段落とカット点の何れかと対応付けられた該区間について、優先順位を付与する方法を述べてきたが、上記「(3)後述するダイジェストに利用するための所定の特徴量が、所定の値を超える区間」について説明する。例えば、上記強調度、感情度、笑顔度、支配度のいずれか一つ以上が所定の閾値よりも高い時の、映像のクライマックスであると推定し、ダイジェストに変更しないことにする。
あるいは、所定の値よりも高いとき、その直前/直後の区間をダイジェストに用いることにしてもよい。クライマックスの直前/直後を利用することで、映像視聴者の映像本編視聴の興味を誘発する効果がある。
また、上記音声段落、上記音声段落とカット点と対応付けられた該区間の場合、テンプレートのタイムラインと一致しないことが想定される。その場合においても、該区間の優先順位を付与する以前に、テンプレートの該区間との重なりを求めておき、重なる場合には優先順位を付与しない、とすればよい。
いずれの場合においても、ダイジェスト生成部134は、所定の時間となるまで、優先順位を昇順に該区間を抽出し、時系列に構成することで、ダイジェストを生成する。ここで、所定の時間とは、上記映像関係者が指定するものであってもよく、実際にダイジェストを視聴するユーザが指定するものであってもよい。あるいは、本発明における映像ダイジェスト装置を運用する者が設定するものであってもよい。ダイジェストを構成する区間を時系列に繋ぎ合わせる際、繋ぎ合わせ方は、フェードイン、フェードアウト、ディゾルブ、スライドインなど一般に行われているトランジションの何れかにより実施しても良い。
さらに、当該ダイジェストにBGM素材、音楽素材、効果音素材などを挿入してもよく、上記挿入によりダイジェストコンテンツの印象がよくなる効果が得られる。当該素材は映像関係が指定するものでもよく、例えば、上記テンプレートの情報を頼りに適切な素材を自動挿入するものであってもよい。例えば、図8のトピック「手紙」、指示「花嫁を撮影」の場合は、手紙&花嫁&音楽をキーワードにインターネットから当該音楽を検索してもよい。あるいは、世に存在する、結婚式の各シーンとお勧めのBGMを照会しているサイトと、上記テンプレートを予め対応付けておけば、音楽の同定は簡易に行うことができる。ここでは、結婚式について述べているが、例えば、運動会であっても同様に、各競技に適切な音楽を紹介しているサイトは多数あるため、同定は容易である。その他にも、例えば、旅行であれば、映像関係者/テンプレートにより指定された旅先のみから、例えば、ローマ旅行をしたのでカンツォーネを自動挿入するなど、場所と音楽を関連付けて挿入することも可能である。このように音楽を当該ダイジェストに加えることも本発明の範疇である。
また、これまで一つの映像ファイルについて述べてきたが、本発明は、映像ファイル数に依存するものではなく、複数の映像と複数のテンプレートからダイジェストを生成するものであってもよい。例えば、家族のビデオを断続/継続的に撮影していた場合、過去1ヶ月、過去1年、過去10年のダイジェストといったものを簡易に作成することが本発明によって実現する。
そのためには、各テンプレートで利用可能な区間について、各優先順位を同定した、上記強調度、感情度、笑顔度、支配度、すなわち、確率値を降順に、複数の映像群の複数の区間に対して横断的に優先順位を付与すればよい。ダイジェストは、第1に、優先順位に従って繋ぎ合わせるものでもよく、第2に、元の時系列を保持したままでもよく、第3に、新しいものから繋ぎ合わせるものでもよい。例えば、長い時間遡る場合、映像の撮影時系列は、さほど有効でない場合が想定される。そのような場合は、第1のダイジェスト生成方法が有用である。一方、過去を遡る映像を演出したい場合には、第3のダイジェストが有用である。
また、これまで述べてきた映像ダイジェスト装置は、ネットワーク上にあってもよく、PCや情報家電製品などの内部で実行させるものであってもよい。その場合、図2の通信I?F15は必要としない。
また、図2に示すプログラムメモリ13に格納されている各機能(プログラム)をネットワーク介して流通させることも可能である。
また、上記のプログラムをハードディスク装置や、フレキシブルディスク、CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、映像処理技術、特に、映像ダイジェスト生成技術に適用可能である。
本発明の原理構成図である。 本発明の一実施の形態における映像ダイジェスト装置の構成図である。 本発明の一実施の形態における具体的なテンプレートの例である。 本発明の一実施の形態における手プレート全体を撮影機器に表示している例である。 本発明の一実施の形態におけるテンプレートを用いてユーザに撮影方法を指示している例(その1)である。 本発明の一実施の形態におけるテンプレートを用いてユーザに撮影方法を指示している例(その2)である。 本発明の一実施の形態におけるテンプレートの例である。 本発明の一実施の形態におけるテンプレートの例(各区間の利用の可否の情報が付加された状態)である。 本発明の一実施の形態におけるテンプレートの例(優先順位を付与した状態)である。 感情検出方法を説明するフローチャートである。 統計モデル構築処理のフローチャートである。 感情検出装置の物理的な構成図である。 基本周波数の時間変動特性を求める方法の概念図である。 音声特徴量の挙動を示す図である。 一般化状態空間モデルの概念図である。 喜び、悲しみ、平静の感情的状態を扱った場合の感情的状態確率の例である。 音声小段落と感情度の関係を示す図である。 笑顔度算出の原理を示すための図である。 表示検出装置の構成例である。 基本的な表情検出処理のフローチャートである。 特徴点抽出の事前準備として抽出した特徴点の例である。 特徴点の例である。 特徴量の例1である。 笑い状態を3状態に分割した模式図である。 笑い状態を3状態に分割する方法を示した模式図である。 左右対称性を考慮して笑い状態を抽出するために用いる特徴量である。 本発明の一実施の形態における音声段落、カット点を用いて区間に分割する例である。
符号の説明
10 入力手段、動画入力部
11 CPU
12 バス
13 プログラムメモリ
14 データメモリ
15 通信インタフェース(I/F)
20 顔画像領域抽出手段、顔画像領域抽出部
30 特徴点抽出手段、特徴点抽出部
35 特徴点記憶手段、特徴点記憶部
40 特徴量抽出手段、特徴量抽出部
45 特徴量記憶手段、特徴量記憶部
50 笑い状態検出手段、笑い状態検出部
131 映像入力手段、映像入力部
132 テンプレート入力手段、テンプレート入力部
132a ボタン
132b 表示指示
132c 終了ボタン
132d 再度ボタン
132e 表示指示
133 テンプレート解析・対応手段、テンプレート解析・対応部
134 ダイジェスト生成手段、ダイジェスト生成部
141 コンテンツ記憶手段、コンテンツ記憶部
142 テンプレート記憶手段、テンプレート記憶部
210 入力部
211 キーボード
212 ポインティングデバイス
213 コンテンツ
221 CPU
222 ハードディスク
223 ROM
224 RAM
230 表示部
240 出力部
W…音声特徴量ベクトル抽出区間
w1,w2,w3…フレーム
L1…喜びの感情的状態確率
L2…平静の感情的状態確率
L3…哀しみの感情的状態確率
VC1,VC2,VC3…音声段落
v1〜v3,v11〜v20…音声小段落
H1〜H3,H11〜H19…感情度
St1…感情状態
St2…音声特徴量
δ…基本周波数f0tの局所的な傾き

Claims (7)

  1. 映像のダイジェストを生成する映像ダイジェスト生成装置であって、
    映像を入力し、コンテンツ記憶手段に格納する映像入力手段と、
    前記映像が生成された手法が示されたテンプレートを入力し、テンプレート記憶手段に格納するテンプレート入力手段と、
    前記テンプレート記憶手段から前記テンプレートを読み出して、該テンプレートを解析して前記コンテンツ記憶手段の映像と対応させるテンプレート解析・対応手段と、
    対応付けられた映像を用いてダイジェストを生成するダイジェスト生成手段と、
    を有することを特徴とする映像ダイジェスト装置。
  2. 前記テンプレートは、
    一つ以上の区間に分割された映像の該区間について、該区間の撮影方法を示したものである
    請求項1記載の映像ダイジェスト装置。
  3. 前記テンプレート入力手段は、
    前記映像を構成するAudioまたは/及びVisualデータと共に梱包された映像ファイル内のテンプレートを入力する手段、
    または、
    映像ファイル内にないテンプレートを、該映像と対応付けて検索して入力する手段、
    のいずれかである
    請求項1記載の映像ダイジェスト装置。
  4. 前記テンプレート解析・対応手段は、
    前記テンプレートを用いて、前記映像を構成する一つ以上の区間について、該区間のダイジェストに利用または未使用を対応付ける手段を含む
    請求項1記載の映像ダイジェスト装置。
  5. 前記ダイジェスト生成手段は、
    前記テンプレート解析・対応手段によりダイジェストに利用された一つ以上の区間について、該ダイジェストに利用するための優先順位を付与し、複数の長さのダイジェストを生成する手段を含む
    請求項1記載の映像ダイジェスト装置。
  6. 前記ダイジェスト生成手段は、
    前記優先順位について、音声特徴量、前記テンプレートのいずれか一つ以上を用いて付与する手段を含む
    請求項1記載の映像ダイジェスト装置。
  7. 請求項1乃至6に記載の映像ダイジェスト装置を構成する各手段としてコンピュータを機能させるための映像編集プログラム。
JP2008171642A 2008-06-30 2008-06-30 映像ダイジェスト装置及び映像編集プログラム Pending JP2010011409A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008171642A JP2010011409A (ja) 2008-06-30 2008-06-30 映像ダイジェスト装置及び映像編集プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008171642A JP2010011409A (ja) 2008-06-30 2008-06-30 映像ダイジェスト装置及び映像編集プログラム

Publications (1)

Publication Number Publication Date
JP2010011409A true JP2010011409A (ja) 2010-01-14

Family

ID=41591280

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008171642A Pending JP2010011409A (ja) 2008-06-30 2008-06-30 映像ダイジェスト装置及び映像編集プログラム

Country Status (1)

Country Link
JP (1) JP2010011409A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011242755A (ja) * 2010-04-22 2011-12-01 Fujitsu Ltd 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法
US8824863B2 (en) 2010-10-07 2014-09-02 Sony Corporation Information processing apparatus, information processing method, information processing program, and information processing system
JP2016167771A (ja) * 2015-03-10 2016-09-15 株式会社デンソー ダイジェスト映像生成装置
JP2018088655A (ja) * 2016-11-30 2018-06-07 カシオ計算機株式会社 動画像編集装置及び動画像編集方法
WO2018155480A1 (ja) * 2017-02-27 2018-08-30 ヤマハ株式会社 情報処理方法および情報処理装置
US10789972B2 (en) 2017-02-27 2020-09-29 Yamaha Corporation Apparatus for generating relations between feature amounts of audio and scene types and method therefor
JP2021087180A (ja) * 2019-11-29 2021-06-03 エヌ・ティ・ティ・コミュニケーションズ株式会社 動画編集装置、動画編集方法及びコンピュータプログラム
JP2023022665A (ja) * 2021-08-03 2023-02-15 株式会社フロンティアチャンネル プログラム及び情報処理装置
WO2023074355A1 (ja) * 2021-10-25 2023-05-04 ソニーグループ株式会社 情報処理装置、情報処理方法、プログラム、情報処理システム
EP4203457A4 (en) * 2020-09-08 2024-01-24 Sony Group Corporation IMAGE CAPTURE DEVICE, IMAGE CAPTURE SYSTEM, AND IMAGE CAPTURE DEVICE ADJUSTMENT METHOD

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011242755A (ja) * 2010-04-22 2011-12-01 Fujitsu Ltd 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法
US9099088B2 (en) 2010-04-22 2015-08-04 Fujitsu Limited Utterance state detection device and utterance state detection method
US8824863B2 (en) 2010-10-07 2014-09-02 Sony Corporation Information processing apparatus, information processing method, information processing program, and information processing system
JP2016167771A (ja) * 2015-03-10 2016-09-15 株式会社デンソー ダイジェスト映像生成装置
JP2018088655A (ja) * 2016-11-30 2018-06-07 カシオ計算機株式会社 動画像編集装置及び動画像編集方法
US11011187B2 (en) 2017-02-27 2021-05-18 Yamaha Corporation Apparatus for generating relations between feature amounts of audio and scene types and method therefor
JPWO2018155480A1 (ja) * 2017-02-27 2020-01-23 ヤマハ株式会社 情報処理方法および情報処理装置
US10789972B2 (en) 2017-02-27 2020-09-29 Yamaha Corporation Apparatus for generating relations between feature amounts of audio and scene types and method therefor
WO2018155480A1 (ja) * 2017-02-27 2018-08-30 ヤマハ株式会社 情報処理方法および情報処理装置
US11087779B2 (en) 2017-02-27 2021-08-10 Yamaha Corporation Apparatus that identifies a scene type and method for identifying a scene type
US11756571B2 (en) 2017-02-27 2023-09-12 Yamaha Corporation Apparatus that identifies a scene type and method for identifying a scene type
JP2021087180A (ja) * 2019-11-29 2021-06-03 エヌ・ティ・ティ・コミュニケーションズ株式会社 動画編集装置、動画編集方法及びコンピュータプログラム
JP7390877B2 (ja) 2019-11-29 2023-12-04 エヌ・ティ・ティ・コミュニケーションズ株式会社 動画編集装置、動画編集方法及びコンピュータプログラム
EP4203457A4 (en) * 2020-09-08 2024-01-24 Sony Group Corporation IMAGE CAPTURE DEVICE, IMAGE CAPTURE SYSTEM, AND IMAGE CAPTURE DEVICE ADJUSTMENT METHOD
JP2023022665A (ja) * 2021-08-03 2023-02-15 株式会社フロンティアチャンネル プログラム及び情報処理装置
JP7385289B2 (ja) 2021-08-03 2023-11-22 株式会社フロンティアチャンネル プログラム及び情報処理装置
WO2023074355A1 (ja) * 2021-10-25 2023-05-04 ソニーグループ株式会社 情報処理装置、情報処理方法、プログラム、情報処理システム

Similar Documents

Publication Publication Date Title
JP2010011409A (ja) 映像ダイジェスト装置及び映像編集プログラム
EP3226245B1 (en) System and method to insert visual subtitles in videos
JP5104762B2 (ja) コンテンツ要約システムと方法とプログラム
Cao et al. Expressive speech-driven facial animation
CN104980790B (zh) 语音字幕的生成方法和装置、播放方法和装置
WO2005069171A1 (ja) 文書対応付け装置、および文書対応付け方法
Ringeval et al. Emotion recognition in the wild: Incorporating voice and lip activity in multimodal decision-level fusion
JP2008152605A (ja) プレゼンテーション解析装置およびプレゼンテーション視聴システム
JP2006287319A (ja) 番組ダイジェスト作成装置および番組ダイジェスト作成プログラム
JP2007101945A (ja) 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム
JP2009278202A (ja) 映像編集装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体
CN114363714B (zh) 标题生成方法、设备及存储介质
JP4812733B2 (ja) 情報編集装置、情報編集方法、情報編集プログラムおよびそのプログラムを記録した記録媒体
Tarvainen et al. Film mood and its quantitative determinants in different types of scenes
Bigioi et al. Pose-aware speech driven facial landmark animation pipeline for automated dubbing
JP5847646B2 (ja) テレビ制御装置、テレビ制御方法及びテレビ制御プログラム
Galvan et al. Audiovisual affect recognition in spontaneous filipino laughter
JP5054608B2 (ja) コンテンツ評価方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP7133367B2 (ja) 動画編集装置、動画編集方法、及び動画編集プログラム
JP2009259167A (ja) 映像検索ダイジェスト生成装置及び方法及びプログラム
JP5054653B2 (ja) 視聴印象推定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
Kumar et al. Face Expression and Emotion Detection by using Machine learning and Music Recommendation
US20240127857A1 (en) Face-aware speaker diarization for transcripts and text-based video editing
US20240127820A1 (en) Music-aware speaker diarization for transcripts and text-based video editing
US20240134909A1 (en) Visual and text search interface for text-based video editing