JP2010011409A

JP2010011409A - 映像ダイジェスト装置及び映像編集プログラム

Info

Publication number: JP2010011409A
Application number: JP2008171642A
Authority: JP
Inventors: Kota Hidaka; 浩太日高; Takashi Sato; 隆佐藤; Takeshi Irie; 豪入江; Uwe Kowalik; ウーヴェコヴァリク; Yosuke Torii; 陽介鳥井; Toshikazu Karitsuka; 俊和狩塚; Yukinobu Taniguchi; 行信谷口
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2008-06-30
Filing date: 2008-06-30
Publication date: 2010-01-14

Abstract

【課題】ダイジェストに利用しないほうがよい区間を対象外として、それ以外の区間からダイジェストを生成する、または／かつ、ダイジェストに含めたい区間を指定してダイジェストを生成する。
【解決手段】本発明は、映像を入力し、コンテンツ記憶手段に格納する映像入力手段と、
映像が生成された手法が示されたテンプレートを入力し、テンプレート記憶手段に格納し、テンプレート記憶手段からテンプレートを読み出して、該テンプレートを解析してコンテンツ記憶手段の映像と対応させ、対応付けられた映像を用いてダイジェストを生成する。
【選択図】図１

Description

本発明は、映像ダイジェスト装置及び映像編集プログラムに係り、特に、映像のダイジェストを生成するための映像ダイジェスト装置及び映像編集プログラムに関する。

以下では、「映像」とは、音声、音楽を含むものとし、「テンプレート」とは、映像を生成した手法が示されているものとする。

映像数の増加に伴い、効率的な映像視聴方法が求められる。このためには、映像のダイジェストを視聴することが効果的な手法として、強調音声区間を基に、ユーザの指定する任意の時間長でダイジェストを生成する方法がある（例えば、特許文献１参照）。

また、音声の感情状態に対応してダイジェストを生成する手法がある（例えば、特許文献２参照）。

また、動物体が大きく写っている映像区間を作成することができ、ダイジェスト的な映像区間閲覧のためのインデックスを利用者に提供する手法がある（例えば、特許文献３参照）。
特開２００３−３１６３７８号公報特開２００５−３４５４９６号公報特開２００６−２４４０７４号公報

従来提案されている方法は、装置、または、プログラムがダイジェストを生成するものである。ここで、編集が施された映像を考慮すれば、当該映像は編集の工程で、例えば、オープニング／エンディングが存在することや、複数のシーンをシーンチェンジにより繋ぎ合わせていることなどが想定される。このような映像のダイジェストを生成する場合、従来技術では、上記のオープニング／エンディングの存在を知る術がなく、カット点検出技術などを利用したとしても同様の課題を解決することは難しい。そのため、例えば、該オープニング／エンディング区間の音声が、上記の特許文献１に記載の技術により、最尤度の強調音声であると判定されれば、最優先でダイジェストに該区間が用いられてしまう。特許文献２、３に記載の技術も同様である。

また、撮影者／編集者の立場に立てば、ハイライトシーンをあえてダイジェストに利用したくないということが想定される。例えば、結婚式のビデオで、ラストシーンの挨拶や、花嫁が親に向けた手紙を涙ながらに読み上げるシーンなどがあげられる。撮影者／編集者にとっては、該シーンを見せない、あるいは該シーンの直前／直前をみせることで、ダイジェスト視聴者の該シーンへの興味を誘発したいと考える場合がある。これらについても、上記の従来の技術が、直接的に該シーンを同定することは困難である。

本発明は、上記の点に鑑みなされたもので、ダイジェストに利用しないほうがよい区間を対象外として、それ以外の区間からダイジェストを生成する、または／かつ、ダイジェストに含めたい区間を指定してダイジェストを生成することが可能な映像ダイジェスト装置及び映像編集プログラムを提供することを目的とする。

図１は、本発明の原理構成図である。

本発明（請求項１）は、映像のダイジェストを生成する映像ダイジェスト生成装置であって、
映像を入力し、コンテンツ記憶手段１４１に格納する映像入力手段１３１と、
映像が生成された手法が示されたテンプレートを入力し、テンプレート記憶手段１４２に格納するテンプレート入力手段１３２と、
テンプレート記憶手段１４２からテンプレートを読み出して、該テンプレートを解析してコンテンツ記憶手段１４１の映像と対応させるテンプレート解析・対応手段１３３と、
対応付けられた映像を用いてダイジェストを生成するダイジェスト生成手段１３４と、を有する。

また、本発明（請求項２）は、一つ以上の区間に分割された映像の該区間について、該区間の撮影方法を示したものをテンプレートとする。

また、本発明（請求項３）は、テンプレート入力手段１３２において、
映像を構成するAudioまたは／及びVisualデータと共に梱包された映像ファイル内のテンプレートを入力する手段、
または、
映像ファイル内にないテンプレートを、該映像と対応付けて検索して入力する手段、
のいずれかである。

また、本発明（請求項４）は、テンプレート解析・対応手段１３３において、
テンプレートを用いて、映像を構成する一つ以上の区間について、該区間のダイジェストに利用または未使用を対応付ける手段を含む。

また、本発明（請求項５）は、ダイジェスト生成手段１３４において、
テンプレート解析・対応手段１３３によりダイジェストに利用された一つ以上の区間について、該ダイジェストに利用するための優先順位を付与し、複数の長さのダイジェストを生成する手段を含む。

また、本発明（請求項６）は、ダイジェスト生成手段１３４において、
優先順位について、音声特徴量、テンプレートのいずれか一つ以上を用いて付与する手段を含む。

本発明（請求項７）は、請求項１乃至６に記載の映像ダイジェスト装置を構成する各手段としてコンピュータを機能させるための映像編集プログラムである。

上記のように、本発明によれば、ダイジェストに利用しないほうが良い区間を対象外として、それ以外の区間からダイジェストを生成することができる。また、本発明では、ダイジェストに含めたい区間を指定してダイジェストを生成することもできる。

以下、図面と共に本発明の実施の形態を説明する。

図２は、本発明の一実施の形態における映像ダイジェスト装置の構成図を示す。

同図に示す映像ダイジェスト装置は、中央処理ユニット（ＣＰＵ：Central Processing Unit）１１を備える。当該ＣＰＵ１１には、バス１２を介してプログラムメモリ１３、データメモリ１４、通信インタフェース（通信Ｉ／Ｆ）１５がそれぞれ接続されている。プログラムメモリ１３には、映像入力部１３１、テンプレート入力部１３２、テンプレート解析・対応部１３３、ダイジェスト生成部１３４が記憶される。データメモリ１４には、コンテンツ記憶部１４１、テンプレート記憶部１４２が設けられている。

通信Ｉ／Ｆ１５は、ＣＰＵ１１の制御の下、インターネット上のサーバ及びインターネットサイトとの間で、通信ネットワークにより規定される通信プロトコルに従い通信を行う。通信プロトコルとしては、例えば、TCP/IP(Transmission Control/Internet Protocol)が使用される。

以下、プログラムメモリ１３の各構成要素について説明する。

＜映像入力部１３１＞
映像入力部１３１は、映像ファイルを入力して、コンテンツ記憶部１４１に記憶する。

＜テンプレート入力部１３２＞
テンプレート入力部１３２は、テンプレートを入力し、テンプレート記憶部１４２に記憶する。ここで、テンプレートについて詳述する。テンプレートは、映像を生成した手法が示されたものであればいずれの記録形式であってもよい。テンプレートなしに映像を撮影し、編集行程もない場合、映像は冗長になることが想定される。

例えば、映像撮影経験の少ないユーザや、映像の撮影方法の教育を受けていないユーザの映像には、手ブレ、意味のないパン／ズームイン／ズームアウトが頻繁に存在することが多く、本発明においては、これらの映像を低品質と呼ぶこととする。このような低品質の素材では、編集を施したとしても、魅力的な映像にすることは困難である。それにもかかわらず、多くの映像は、撮影の後、編集の行程を経ないことがみられるため、低品質の元素材がそのまま映像ファイルとなり、視聴に耐えないコンテンツとなってしまう。

この問題を解決するために、撮影の直前に、もしくは同期して、撮影手法をユーザに提示することで、高品質、すなわち、手ブレ、意味のないパン／ズームイン／ズームアウトを少なくすることが可能となる。さらに、映像をストーリー立てて撮影するシナリオを提示すれば、例えば、結婚式の映像は、クライマックスで花嫁が親へ宛てた手紙のシーンがフェーズアウトし、涙ながらの親の顔がアップでフェードインする、といった演出を、編集なしに行うことが可能となる。すなわち、本発明におけるテンプレートとは、低品質の元素材となる問題を解決するものと位置づけられる。

図３は、本発明の一実施の形態における具体的なテンプレートの例である。

同図に示すテンプレートは、例えば、「運動会」「正月」「家族旅行」「結婚式」「同窓会」などジャンルから選ぶものでもよい。しかしながら、本発明におけるテンプレートが、ジャンルを必要とするものではない。図３では、ユーザが「結婚式」を選んだ際のテンプレート全体像を示している。テンプレート全体像は、例えば、全体で１８０分の結婚式を、オープング、入場、主賓挨拶、乾杯、スピーチ＆雑談、退場、お色直し入場、スピーチ＆雑談、手紙、花束、挨拶、お開き、エンディングのトピックに分割し、８５分に編集するように撮影する例を示している。

当該テンプレートは、市販の撮影機器の表示画面に示すものでもよい。例えば、図４のように示されていてもよい。図４では、テンプレート全体像が挿入されていることで、現在"手紙のシーン"を撮影しなければならないことが撮影者にとって一目瞭然となっている。"手紙のシーン"が終了すれば、ボタン１３２ａを押下することにより、次のトピックに移行する。ユーザには、現在のトピック"手紙"の撮影手法が提示される。

例えば、図５に示すように、四角枠に向かって、花嫁にアップするようにするにズームするよう指示表示１３２ｂで指示され、指示通りにした際には、終了ボタン１３２ｃを押下する。指示通りに撮影されなかった場合、再度ボタン１３２ｄによりやり直す。その後、図６に示すように、指示表示１３２ｅとして「次は親をアップで撮影してください」と表示させ、ユーザに指示通り撮影させる。その際、前述と同様に"再度"ボタン１３２ｄ、"終了"ボタン１３２ｃを用意しておけば、指示通りのシーンを、高い確率で撮影することが可能となる。

本発明におけるテンプレートは、前述の手法以外の方法であっても、撮影方法を指示するものであればいずれでもよい。例えば、テロップを挿入する、ＢＧＭを挿入する、シーンチェンジのトランジションの設定など、一般の映像編集で行われるものを指示した場合なども、本発明におけるテンプレートといえる。

このような手順で、図３に示すテンプレート全体像に沿って撮影した後、図７に示すように、テンプレート記憶部１４２に、各トピックを、指示、時刻を保存しておけば、それらを元に品質の高い映像を作成することが可能となる。あるいは、"再度"ボタン１３２ｄが押下された場合を鑑みれば、当該区間を録画から削除することにより、撮影後直ちに高い映像を作ることが可能となる。本発明において、削除方法は、撮影後でもよく、撮影中同時並行して実施されるものであってもよい。これまで述べてきたいずれの場合においても、各トピック、指示、時刻を示したものをテンプレートとする。あるいは、特開２００７−３１８４５０号公報に記載の撮影方法をテンプレートとしてもよい。

テンプレート入力部１３２は、上記のテンプレートを入力する。その際、図７に示したテンプレートが、映像／音声データと共に、映像ファイルに梱包されていれば、映像入力部１３１で映像ファイルを入手した後、テンプレートを抽出すればよい。

これにより、映像ファイルにテンプレートが梱包されていない場合について詳述する。図７に示すテンプレートが、ネットワークで接続されたいずれかの場所に存在したとする。例えば、映像ファイルには、ヘッダ部分と呼ばれる映像圧縮形式などに記された領域がある。その領域に、テンプレートのアドレスが記されていれば、テンプレートを入手できる。あるいは、映像ファイルの映像データに電子透かしが埋め込まれている場合、電子透かし領域にてプレートアドレスを記述しておけばよい。例えば、特許第３５８９１１１号公報、特開２００１−１６４３８号に記載された方法により、映像データを構成する任意の画像に電子透かしを施せばよい。

あるいは、ネットワークからテンプレートを収集し、当該テンプレート群から適切な…プレートを選定しても良い。そのために、当該映像のカット点、カメラワーク、テロップ認識、音楽の有無などを検出すればよい。

カット点検出については、例えば、特許第２８３９１３２号公報、特開平８−２１４２１０号公報に記載されている方法を用いることができる。カメラワーク検出については、例えば、特開平１１−１５９５３号公報に記載されている方法により行えばよい。

音楽の有無については、例えば、特許第３４７０９３８号公報、特開平１０−３２０５５７号公報に記載の方法により行えばよい。

テロップ認識については、例えば、特許第３５６９３９０号公報、特開平１０−４０３９１号公報に記載の方法により行えばよい。

同定の方法としては、当該映像のカット点の時刻に最も接近するテンプレートを推察することがあげられる。また、図５の例では、カメラがズームしている。前述のカメラワーク検出により、ズーム時刻が既知であるため、このズーム時刻もテンプレート推定の要素となっている。例えば、テンプレートの指示によりオープニングには任意の音楽がＢＧＭとして入っていた場合、ＢＧＭの挿入時刻を前述の公知技術により取得することで、同様にテンプレート類推が行える。テロップの出現時刻についても同様である。このようにすることで、ネットワーク上のテンプレートであっても入手することが可能となる。具体的には、テンプレートに指示されたカット点時刻（Ｔｃ１，Ｔｃ２，Ｔｃ３，…，Ｔｃｍ）と、該映像のカット点（Ｖｃ１，Ｖｃ２，Ｖｃ３，…，ＶｃＮ）についてΣ│Ｔｃｉ−Ｖｃｉ│／m（但し、ｉ＝１，２，３，…，ｍ）を求める。さらに、当該時刻にテンプレートに記されたカメラワーク、テロップ、音楽の有無の一致性を１／０（１：一致、０：不一致）で判定し、それぞれ、
カメラワーク得点：ＣＭ；
テロップ得点：ＴＬ；
音楽得点：ＭＳ
とし、
ＣＭ＋ＴＬ＋ＭＳ＋Σ│Ｔｃｉ−Ｖｃｉ│／ｍ
をテンプレート群に全てにおいて求め、最小のテンプレートを当該映像のテンプレートと類推する。

該映像を作成したテンプレートが存在せず、撮影時に、図３で示した、テンプレート全体像しかない場合においても、前述のカット点、カメラワーク、テロップ、音楽の有無から確率的に当該映像撮影時に用いたテンプレート全体像を選択することが可能となる。以後、テンプレート全体像についても、単に「テンプレート」と呼ぶこととする。入手したテンプレートはテンプレート記憶部１４２に記憶される。

＜テンプレート解析・対応部１３３＞
テンプレート解析・対応部１３３は、テンプレート記憶部１４２からテンプレートを読み出し、前述のテンプレートのタイムラインを解析し、結果として図７に示す情報を取得する。テンプレートにより映像の時間構造が詳細にわかっているため、それを頼りに、当該映像を構成する一つ以上の区間に分割する。

テンプレートと当該映像を対応させる方法について詳述する。ここで、テンプレート作成者、当該映像撮影者、当該映像をネットワーク経由により、電子メールに添付したいと考える者、当該映像をネットワーク上のサイトに公開したと考える者に着目し、彼らを単に「映像関係者」と呼ぶこととする。映像関係者は、ダイジェストを生成するという立場に立てば、該映像の該区間について、見せても良い区間と、見せたくない区間があることが想定される。例えば、上記の手紙のシーンが、結婚式の最もクライマックスのシーンであったとする。当該手紙のシーンのうち、特に、図６に示す花嫁にズームしてアップショットとする区間をダイジェストに利用しないために、テンプレート上に利用の可否を予め記述しておけばよい。

例えば、テンプレート作成者が、当該区間は利用不可と初期設定してもよい。映像関係者は当該初期設定を変更できるものとしてもよく、あるいはテンプレート作成者の意向を最重要視し、変更できないものとしてもよい。図７に示すテンプレートは、テンプレート解析・対応部１３３により、図８に示すように、各区間の利用の可否の情報が付加された状態となる。

例えば、図８では、オープニング、エンディングについて、ダイジェストの利用が"否"となっている。映像関係者が、オープニング、エンディングそれ自体を視聴しても、魅力的でないと判断すれば、そのようにすればよい。更に、テンプレートに最初から優先順位を付与するものであってもよい。例えば、映像関係者が、時刻Ｔ１〜Ｔ２の花嫁を撮影するシーンがダイジェストに最優先に利用したいと考えれば、図８の利用の可否と共に優先順位を記述すればよい。あるいは、映像関係者により何らかの指示がない場合、テンプレート解析・対応部１３３が独自に各区間の利用可否を決定してもよい。ダイジェストに利用しないと判断する区間としては、
（１）オープニング、エンディング区間；
（２）カメラワークが「ズーム」「パン」の状態が支配的である区間；
（３）後述するダイジェストに利用するための所定の特徴量が、所定の値を超える区間；が挙げられる。（２）については、当該シーンのシーン長Ｌについて、ズーム、パンのいずれかが存在する時刻ｔｚｐとの比ｔｚｐ／Ｌが一定値、例えば、０．５以上となる場合に、当該シーンを利用しないとしてもよい。また、（３）については、後述するシーン毎に付与される強調度、感情度、笑顔度、支配度のいずれか一つ以上に閾値を設定し、例えば、０．５以上となる場合の当該シーンを利用しないとしてもよい。さらに、映像関係者が単に「すすり泣き」の存在するシーンは優先順位を高くする、といったように簡易的に指示するものであってもよい。例えば、新郎新婦／撮影者／招待客のいずれかのすすり泣きが集音された箇所には、何かしらのイベントがあると推察し、優先的にダイジェストに用いることができる。この上記の簡易的指示と、利用の可否と組み合わせて、利用が「可」で、かつ、簡易的指示が存在した場合は、優先順位を１つ上昇するなどの応用を施してもよい。

＜ダイジェスト生成部１３４＞
ダイジェスト生成部１３４について詳述する。

ダイジェスト生成部１３４は、ダイジェストに利用可能な区間に、優先順位を付与する。付与した優先順位を、図９のように保管しておけばよい。その付与方法としては、例えば、前述の特許文献１に記載の方法により行っても良い。音声の強調状態を確率的、すなわち、強調度として抽出する本手法は、該区間の優先順位を、該区間の上記強調度を降順にすることで、付与することが可能となる。本手法では、強調音声と平静音声を学習することにより、強調度を求めたが、本手法を「すすり泣き」と「平静音声」で学習することにより、すすり泣く区間を優位的に出すことが可能となる。この手法を用いれば、上記「すすり泣くシーン」を推定でき、前述の「すすり泣くシーンはダイジェストに利用しない」という判定に利用することが可能となる。

また、下記の方法によって行ってもよい。該区間の音声の感情度を求め、感情度の降順に優先順位を付与する。

または、下記の方法によって行っても良い。該区間の音声の感情度を求め、感情度の降順に優先順位を付与する。

感情検出方法を図１０に基づいて説明する。図１０は、感情検出方法を説明するフローチャートである。

なお、本実施形態の説明におけるデータは、汎用的な記憶部（例えば、メモリやハードディスク装置）あるいは記憶手段に記憶され、アクセスされるものとする。

まず、ステップＳ１１０（統計モデル構築処理ステップ）は、本実施形態に係る感情検出方法によって、実際に感情的状態の判定を行う前に、予め行っておくステップであり、感情的状態確率を計算するために用いる統計モデルを構築するステップである。なお、上記統計モデルの実体とは、その統計を計算する関数、及び、統計量などのパラメータをプログラムとして記載したものである。なお、上記統計モデルのパラメータ及び関数型を表す符号は記憶部に格納されることになるが、それらのための記憶容量が比較的小さい。

次に、ステップＳ１２０（音声特徴量抽出処理ステップ）では、取り込まれたコンテンツの音声信号データから、所望の音声特徴量をベクトルとして分析フレーム（以下、単にフレームと呼ぶ）毎に計算し、抽出する。なお、この音声特徴量ベクトルは、基本周波数，基本周波数の時間変動特性の系列，パワー，パワーの時間変動特性の系列，発話速度の時間変動特性のうち１つ以上の要素で構成されるベクトルである。また、音声信号データは、音声信号データ入力手段（例えば、後述する図１１の入力部２１０）によって、入力されるものとする。抽出された音声特徴量は、記憶部に記憶される。ステップＳ１２０〜Ｓ１５０は感情的状態確率を計算する処理である。

次に、ステップＳ１３０（音声特徴量出現確率計算処理ステップ）では、ステップＳ１２０において計算され記憶部に記憶された音声特徴量ベクトルに基づき、フレーム毎に、感情的状態に対応する音声特徴量ベクトルが出現する確率を、ステップＳ１１０において予め構成された統計モデルによって算出し、その算出結果を音声特徴量出現確率と見做す。

次に、ステップＳ１４０（感情的状態遷移確率計算処理ステップ）では、フレーム毎に、ステップＳ１１０において予め構成された統計モデルを用いて、感情的状態に対応する１つ以上の状態変数の時間方向への遷移確率を算出し、その算出結果を感情的状態遷移確率と見做す。

次に、ステップＳ１５０（感情的状態確率計算処理ステップ）では、フレーム毎に、ステップＳ１３０で計算した音声特徴量出現確率及びＳ１４０で計算した感情的状態遷移確率に基づいて、感情的状態確率を計算する。

そして、ステップＳ１６０（感情的状態判定処理ステップ）では、フレーム毎に、ステップＳ１５０で計算した感情的状態確率に基づいて、該フレームの感情的状態を判定し、出力する。

必要であれば、ステップＳ１７０（要約コンテンツ生成処理ステップ）において、ステップＳ１５０において計算された感情的状態確率，判定された感情的状態，連続発話及び連続非発話時間，連続発話，連続非発話時間のうち１つ以上に基づいて、１つ以上のフレームで構成される区間を構成し、この区間を単位としたコンテンツの要約を生成し、出力する。

以下に、感情検出方法の各ステップを詳細に説明する。

まず、統計モデルを構成するステップＳ１１０の処理詳細を図１２に基づいて説明する。なお、統計モデルは、学習用音声信号データから学習を行うことによって獲得するものとする。

まず、ステップＳ１１１において、学習用音声信号データを入力する。なお、学習用音声信号データは、音声信号データ入力手段から入力されても良いし、学習用音声信号データ専用の入力手段（学習用音声信号データ入力手段）から入力されても良い。

次に、ステップＳ１１２において、この学習用音声信号データに対して、学習用音声信号データ全てに渡って、フレーム毎に、人間が実際に視聴して判断したそのフレームにおける感情的状態ｅを与える。ここで、この感情的状態ｅは、人間によって判定されたものをラベルと呼ぶこととし、判定行為をラベル付けと呼ぶこととする。

また、厳密にはフレーム毎に感情的状態ｅのラベルが与えられていない場合であっても、フレーム単位にラベル付けされるように変換できるものであれば、これに変換することで利用してもよい。ラベル付けの例としては、ある区間において感情的状態ｅのラベルが付与されている場合もある。この場合には、その区間に含まれるフレームに対して、区間に付与されたラベルと同じラベルを付与することによって、フレーム毎にラベル付けできる。より具体的には、音声のある時刻ｔ１〜ｔ２が感情的状態ｅとラベル付けされている場合は、該区間の全フレームはｅと与えられているものとして構成する。

次に、ステップＳ１１３において、フレーム毎に、上記ステップＳ１２０と同様に、音声特徴量ベクトルｘを抽出する。以下では、フレーム番号ｔのフレームＦtにおける音声特徴量ベクトルｘt、感情的状態ｅtと表す。

次に、ステップＳ１１４において、音声特徴量出現確率を計算するための統計モデルと、感情的状態遷移確率を計算するための統計モデルをそれぞれ学習によって構成する。

まず、音声特徴量出現確率を計算するための統計モデルの学習方法の一例を説明する。音声特徴量出現確率を計算のための統計モデルは、フレーム毎に与えられる音声特徴量ベクトルｘ空間上の確率分布であって、例えば、フレームＦtにおいては、それ以前のある（ｎ−１）フレーム区間における感情的状態ｅt＝{ｅt，ｅt-1，・・・，ｅt-n+1}に依存してｘtが出現する確率を表す、条件付き確率分布ｐA（ｘt｜ｅt）として作成する。ｎは、例えば、２〜３程度とするものでよい。

この条件付き確率分布ｐA（ｘt｜ｅt）は、例えば、ｅtの取りうる値毎に、正規分布、混合正規分布などといった、確率モデルを用いて構成してもよい。また、更に音声特徴量の種類別に、正規分布、混合正規分布、多項分布などといった、確率モデルを用いて構成するのでもよい。これら確率モデルのパラメータを学習用音声信号データに基づいて推定することになる。

なお、上記パラメータの推定方法は、例えば、最尤推定法や、ＥＭアルゴリズム、変分Ｂａｙｅｓ法などが公知のもの（例えば、「石井健一郎、上田修功、前田栄作、村瀬洋、『わかりやすいパターン認識』オーム社、第１版、1998年8月、pp. 52-54」、「汪金芳、手塚集、上田修功、田栗正章、『計算統計Ｉ確率計算の新しい手法統計科学のフロンティア１１第III章３EM法４変分ベイズ法』岩波書店、2003年６月、pp.157−186」）を用いることができる。

次に、感情的状態遷移確率を計算するための統計モデルを説明する。

感情的状態遷移確率を計算するための統計モデルは、音声特徴量出現確率を計算するための統計モデル同様、学習用音声信号データから、学習を行うことによって獲得する。

上記ステップＳ１１１〜Ｓ１１３において、上記学習用音声信号データは、学習用音声信号データ全てに渡って、フレーム毎に、抽出された音声特徴量ベクトルｘと、人間が実際に視聴して判断したそのフレームにおける感情的状態ｅと、が与えられているという前提で、以下に、ステップＳ１１４の学習を行うステップの一例について説明する。なお、フレーム番号ｔにおける感情的状態をｅtと表す。

感情的状態遷移確率計算のための統計モデルは、ｔ番目のフレームＦtにおける感情的状態の系列ｅt空間上の確率分布であって、Ｆt以前の（ｎ−１）フレームにおける感情的状態系列ｅt-1＝{ｅt-1，ｅt-2，・・・，ｅt-n}に依存して、ｅtが出現する確率を表す条件付き確率分布ｐB（ｅt｜ｅt-1）として作成する。

なお、ｅtは、例えば、喜び、怒り、哀しみ、などの感情的状態を表す変数であり、離散変数であるから、上記条件付き確率分布ｐB（ｅt｜ｅt-1）は、例えば、ｂｉ−ｇｒａｍ型のヒストグラムを作成することで構成することが考えられる。この場合は、学習用音声信号データに基づき、ｅt-1が与えられている時に、各感情的状態の系列ｅtが何度出現するのかを計数することによってこれを構成することができる。

以上がステップＳ１１０の詳細処理である。

次に、ステップＳ１２０では、取り込まれたコンテンツの音声信号データから、所望の音声特徴量ベクトルをフレーム毎に抽出する。なお、本発明における音声とは、人間による会話音声のみではなく、歌唱音声、または音楽なども含むものとする。

以下に、音声特徴量ベクトル抽出方法の一例を説明する。

まず、音声特徴量について説明する。本実施形態における音声特徴量としては、音声スペクトルやケプストラム等と比較して、雑音環境下でも安定して得られ、かつ感情的状態を判定するにあたり、話者のプロフィールに依存しにくいものが好ましい。

上述のような条件を満たす音声特徴量として、基本周波数ｆ０，基本周波数の時間変動特性の系列{ｒｆ０i}，パワーｐ，パワーの時間変動特性の系列{ｒｐi}，発話速度の時間変動特性等を抽出する。なお、ｉは時間変動特性のインデクスである。

また、本実施形態においては、系列とは１つ以上の要素を持つ集合であると定義する。時間変動特性の例としては、例えば、回帰係数、分析フレーム内変化量の平均値，最大値，最小値や、分析フレーム内変化量の絶対値の累積和、レンジなどが考えられ、必要に応じて選択すれば良い。特に、回帰係数の場合には、インデクスは次数に対応づけることができる。回帰係数は、何次までを用いてもよいが、例えば、１〜３次程度としてもよい。以下の例では、時間変動特性として回帰係数のみを採用した場合について説明する。パワーｐは、音声信号波形の振幅値を用いるものでもよいし、絶対値や平滑値、ｒｍｓ値を用いるのでもよい。また、ある周波数帯域、例えば、人間の聞き取り易い５００Ｈｚ（ヘルツ）〜３ＫＨｚ（キロヘルツ）などの領域におけるパワーの平均値などを用いるのでも良い。

上記抽出すべき基本周波数ｆ０及びパワーｐの抽出法は様々である。それらの抽出方法は公知であり、その詳細については、例えば、上述の非特許文献１に記載の方法等を参照されたい。

上記抽出すべき発話速度の時間変動特性は、既知の方法（例えば、「嵯峨山茂樹、板倉文忠、『音声の動的尺度に含まれる個人性情報』、日本音響学界昭和54年度春季研究発表会講演論文集、3−2−7，1979年、pp.579-590」、特開2005−345496号公報参照）によって、動的尺度ｍの時間変動特性ｒｍとして抽出する。

例えば、動的尺度のピークを検出し、その数をカウントすることで発話速度を検出する方法をとってもよく、また、発話リズムに相当するピーク間隔の平均値、分散値を計算して発話速度の時間変動特性を検出する方法をとるのでもよい。

以下の説明では、動的尺度のピーク間隔平均値を用いた、動的尺度の時間変動特性ｒｍについて説明することとする。

上記抽出すべき基本周波数の時間変動特性の系列{ｒｆ０i}、及びパワーの時間変動特性の系列{ｒｐi}として、回帰係数を抽出する方法の一例について説明する。

分析する時刻をｔとしたとき、時刻ｔにおいて抽出された基本周波数ｆ０t（例えば、図１３中の符号δのグラフ）又はｐtと、{ｒｆ０it}又は{ｒｐit}との関係は、次の近似式によって表される。

ただし、Ｉは回帰関数の最大次数を表す。ｔの近傍でこの近似誤差が小さくなるように{ｒｆ０it}及び{ｒｐit}を決定すればよく、これを実現する方法として、例えば、最小自乗法を用いることが考えられる。

Ｉは任意の値でよいが、ここでは、例として、Ｉ＝１であるときのｒｆ０1tを求める場合について説明する。ｒｐ1jについても同様に計算できる。分析する時刻をｔとすると、ｔにおける基本周波数の時間変動特性ｒｆ０1tは、

と求めることができる。ここで、ｄは時刻ｔ前後の計算に用いるサンプリング点の数で、ｔの近傍に対応する。例えば、ｄ＝２とする。

以下では、例えば、Ｉ＝１の場合に求めたｒｆ０1t、ｒｐ1jのみをそれぞれ基本周波数の時間変動特性ｒｆ０、パワーの時間変動特性ｒｐとして扱う場合について説明する。

フレーム毎に音声特徴量を計算する方法の一例を説明する。１フレームの長さ（以下、フレーム長とよぶ）を１００ｍｓ（ミリセコンド）とし、次のフレームは現フレームに対して５０ｍｓの時間シフトによって形成されるものとする。

これらのフレーム毎に、各フレーム内での各音声特徴量の平均値、つまり、平均基本周波数ｆ０'、基本周波数の平均時間変動特性ｒｆ０'、平均パワーｐ'、パワーの平均時間変動特性ｒｐ'、動的尺度の平均ピーク間隔平均値ｒｍ'を計算するものとする。あるいは、これらの平均値のみではなく、フレーム内での各音声特徴量の最大値、最小値、または、変動幅などを計算して用いてもよい。以下では、平均値のみを用いた場合について説明する。

各音声特徴量は予め規格化しておくことが好ましい。規格化は、例えばｆ０'について、例えば、処理対象となる音声信号データ全体に渡る平均基本周波数を差し引く、もしくは、平均基本周波数で割ることによって行うのでもよいし、標準正規化して平均０分散１にするのでもよい。その他の音声特徴量についても、同様に行うことが考えられる。

感情的状態の判定においては、音声特徴量の時間的な挙動を捉えることが必要である。本実施形態では、フレーム毎に計算した音声特徴量から、１つ以上のフレームの音声特徴量を用いて音声特徴量ベクトルを計算して、音声特徴量の時間的な挙動の捕捉を実現する。なお、この音声特徴量ベクトルを抽出する区間を、音声特徴量ベクトル抽出区間（例えば、図１４中の符号Ｗで示される区間）と呼ぶこととする。

以下、その音声特徴量の時間的な挙動の捕捉方法の一例を図１４に基づいて説明する。現フレームＦについて、そのフレーム番号をｊとおき、Ｆjと表す。Ｆjに含まれるフレーム毎の音声特徴量をそれぞれ、基本周波数ｆ０'j、基本周波数の時間変動特性ｒｆ０'j、パワーｐ'j、パワーの時間変動特性ｒｐ'j、動的尺度のピーク間隔平均値ｒｍ'jと表すものとする。

以上で求めた音声特徴量に基づいた音声特徴量ベクトルの構成方法は、例えば、音声特徴量毎に遅延座標空間に埋め込むことで構成する方法が考えられる。すなわち、現フレームからＳフレーム分過去のフレームまでに含まれる音声特徴量をベクトル表記することで構成するものとする。

例えば、基本周波数の場合、現フレーム番号をｔとおけば、ｆ０＝{ｆ０'t，ｆ０'t-1，・・・，ｆ０'t-S}Tのように基本周波数の音声特徴量ベクトルｆ０を求める物とする。図１４中のフレームは、符号ｗ１で示すフレームＦt-S，符号ｗ２で示すフレームＦt-1，符号ｗ３で示すフレームＦtである。

あるいは、音声特徴量毎に現フレームからＳフレーム分過去のフレームまでのフレーム間差分量を計算し、これをベクトル表記することで構成する方法も考えられる。

ここで、上記Ｓの値は、例えば、Ｓ＝５とする。同様に、基本周波数の時間変動特性ｒｆ０、パワーｐ、パワーの時間変動特性ｒｐ、動的尺度の時間変動特性ｒｍを計算する。

予め、感情的状態を判定するために使用すると決定した全音声特徴量ベクトルを並べたものをｘと表記するものとする。例えば、抽出した音声特徴量全てを使用する場合は、ｘ＝{ｆ０T，ｒｆ０T，ｐT，ｒｐT，ｒｍT}Tとなる。そして、基本周波数の時間変動特性ｒｆ０、パワーの時間変動特性ｒｐ、動的尺度のピーク間隔平均値ｒｍを使用する場合にはｘ＝{ｒｆ０T，ｒｐT，ｒｍT}Tとなる。

本例においては、上記音声特徴量のうち１つ以上を使用すれば、感情的状態を判定することが可能である。ただし、感情的状態において特徴的に現れる発話においては、基本周波数ｆ０そのものの抽出が困難な場合が多く、しばしば欠損することがある。このため、そのような欠損を補完する効果を容易に得ることのできる、基本周波数の時間変動特性ｒｆ０は含むことが好ましい。更には、話者依存性を低く抑えたまま、判定精度を高めるため、パワーの時間変動特性ｒｐを更に含むことが好ましい。

以上のように、フレーム毎に行った音声特徴量、音声特徴量ベクトルの計算処理を、コンテンツ全てに渡るフレームに対して行うことで、全てのフレームにおいて音声特徴量ベクトルを得ることが可能である。

以上がステップＳ１２０の詳細処理である。

次に、ステップＳ１３０は、ステップＳ１２０において抽出された各フレームの音声特徴量ベクトルと、ステップＳ１１０において予め構成しておいた統計モデルとを用いて各感情的状態における音声特徴量ベクトルの出現確率（音声特徴量出現確率）を計算する。

以下に、ステップＳ１３０で実行する処理の一例を説明する。

ステップＳ１１０で作成した統計モデルに基づき、音声特徴量ベクトルの出現確率を計算する方法の一例を説明する。

統計モデルは、フレーム毎に与えられる音声特徴量ベクトルｘt空間上の条件付き確率分布ｐA（ｘt｜ｅt）であるため、入力された音声特徴量ベクトルｘtを、ステップＳ１１０によって予め作成した統計モデルｐA（ｘt｜ｅt）に基づいて尤度計算する。この計算した尤度を、各感情的状態においてｘtが出現する音声特徴量出現確率と見做す。

以上の処理を、全てのフレームに渡って行うことで、全てのフレームに対して音声特徴量出現確率を計算することができる。

以上がステップＳ１３０の詳細処理である。

次に、ステップＳ１４０では、統計モデルを用いて、感情的状態を判定するフレーム（現フレーム）直前の１つ以上遡ったフレームの感情的状態に依存して、現フレームで各感情的状態に遷移する遷移確率（即ち、感情的状態遷移確率）が計算される。

以下に、ステップＳ１４０を実行するため処理の一例を説明する。

まず、ステップＳ１１０で作成した統計モデルに基づき、感情的状態遷移確率を計算する方法の一例を説明する。

統計モデルは、感情的状態の系列ｅt空間上の条件付き確率分布ｐB（ｅt｜ｅt-1）である。そのため、ステップＳ１４０では、ｅt-1が既に判定され、決定されていれば、ステップＳ１１０における方法などによって予め作成した統計モデルｐB（ｅt｜ｅt-1）に基づいて各感情的状態の系列ｅtの起こりうる確率を計算する。その上記計算した確率を、感情的状態遷移確率と見做す。

なお、感情的状態の判定は、音声信号データの時間進行方向に沿って逐次的に行っていくため、フレーム番号ｔがこの時間軸に対して単調増大とすることで、ｅtを判定する段階でｅt-1が既に判定されている状態を構成できる。

以上の処理を、全てのフレームに渡って行うことで、全てのフレームに対して感情的状態遷移確率を計算することができる。

以上がステップＳ１４０の詳細処理である。

次に、ステップＳ１５０では、ステップＳ１３０及びステップＳ１４０において計算された音声特徴量出現確率及び感情的状態遷移確率に基づいて、感情的状態確率が計算される。

以下に、ステップＳ１５０で行う感情的状態確率を計算する処理の一例について説明する。

上記統計モデルｐA（ｘt｜ｅt）と、ｐB（ｅt｜ｅt-1）の組は、合わせて一般化状態空間モデルと呼ばれる構造を有しており、音声認識などによく用いられるＬｅｆｔ−ｔｏ−Ｒｉｇｈｔ型のＨＭＭ（Hidden Markov Models）などと同様の因果構造（例えば、図１５中の符号Ｓt1で示される感情状態ｅt-1，ｅtと、符号Ｓt2で示される音声特徴量ｘt-1，ｘtである）を有する。

一般化状態空間モデルは、時刻ｔまでの観測系列{ｘt}を得た場合に、時刻ｔでの内部状態ｅtの確率分布ｐ（ｅt｜{ｘt}）は、ｐA（ｘt｜ｅt）とｐB（ｅt｜ｅt-1）に基づき、以下の式を再帰的に計算することで求めることができる（例えば、「Kitagawa, G. 「Non-Gaussian state-space modeling of nonstationary time series」, Journal of the American Statistical Association , 1987年12月, pp. 1032-1063参照）。

ただし、Ｅは、ｅtが取りうる全ての値の集合である。

一般に、一般化状態空間モデルにおいては、Ｅの値が非常に大きな値となるため、上記式を直接計算してｐ（ｅt｜{ｘt}）の値を求めることは困難である。

本実施形態では、ｅtが取りうる全ての値は、取り扱う感情的状態、つまり、喜び、怒り、哀しみ、恐怖、驚き、焦り等であるため、この数を｜ｅ｜とすると、ｅt＝{ｅt，ｅt-1，・・・，ｅt-n+1}におけるありうる全ての組み合わせを考えたとき、Ｅのサイズは｜ｅ｜nである。

例えば、本実施形態においては、想定する取り扱う感情的状態の数｜ｅ｜は、例えば、喜び、怒り、哀しみ、恐怖、驚き、焦り、平静、などが想定され、およそ１０程度である。このとき、例えば、ｎ＝３とすれば、Ｅのサイズオーダにして１０3程度であり、現在普及している汎用的なコンピュータであっても、上記表式を十分に直接計算可能な規模である。

従って、本実施形態では、この表式の確率分布ｐ（ｅt｜{ｘt}）の値を直接計算することが可能であるので、直接計算することで感情的状態確率を計算するものとする。

更に、ｅtの要素からｅtを除外したものをｅ't＝{ｅt-1，・・・，ｅt-n+1}とし、かつｅ'tが取りうる全ての値の集合Ｅ'と表すとすると、フレーム毎の感情的状態ｅtの感情的状態確率は、

を計算することで求めることが可能である。図１６に、喜び、哀しみ、平静の感情的状態を扱った場合の感情的状態確率の例を示す。即ち、図１６中の符号Ｌ１で示す曲線が喜びの感情的状態確率、符号Ｌ２で示す曲線が平静の感情的状態確率、符号Ｌ３で示す曲線が哀しみの感情的状態確率である。

以上の処理を全てのフレームに渡って行うことによって、全てのフレームに対して感情的状態確率を計算することが可能である。

以上がステップＳ１５０の詳細処理である。

ステップＳ１６０において、ステップＳ１５０において計算された感情的状態確率が感情判定手段に取り込まれ、感情的状態確率に基づいて感情的状態が判定される。

以下、感情的状態を判定するステップＳ１６０の処理の一例を説明する。なお、以下の説明では、取り扱う感情的状態のカテゴリを順にｅ1、ｅ2、・・・、ｅ|e|とインデクス付けする。例えば、喜び、怒り、哀しみ、恐怖、驚き、焦り、平静の感情的状態を取り扱う場合には、ｅ1：喜び、ｅ2：怒り、ｅ3：哀しみ、ｅ4：恐怖、ｅ5：驚き、ｅ6：焦り、ｅ7：平静等とすればよく、この場合は、｜ｅ｜＝７である。

ステップＳ１５０で、フレーム番号ｔのフレームＦtにおける感情的状態がｅkである感情的状態確率ｐkt＝ｐ（ｅt＝ｅk｜{ｘt}）を計算しているため、最も単純には、この確率ｐktが最も高いｅkに対応する感情的状態を、Ｆtにおける感情的状態と判定することができる。あるいは、ｐktが高い値をとるｅkを、降順に１つ以上選出し、これら複数の感情的状態を持って判定結果としてもよい。

または、感情的状態によっては、同時刻に相互想起しやすいものと、しにくいものとがある。例えば、喜びと哀しみは同時に想起しにくいことは容易に想像できる。このような現象を考慮して、ある感情的状態ｅkに対応する感情的状態確率ｐktから、その他の感情的状態{ｅ1，ｅ2，・・・，ｅk-1，ｅk+1，・・・，ｅ|e|}に対応する感情的状態確率{ｐ1t，ｐ2t，・・・，ｐk-1t，ｐk+1t，・・・，ｐ|e|t}の凸結合である、

を減算し、規格化したものを新たなｐktとして、これを比較してもよい。

または、簡単に、予めある閾値を定め、これよりも値の大きなｐktに対応する感情的状態ｅkを、感情的状態と判定してもよい。

以上の処理を全てのフレームに渡って行うことによって、フレーム毎に感情的状態を判定することが可能である。

以上がステップＳ１６０の詳細処理である。

以上のステップＳ１１０〜Ｓ１６０によって、任意の音声信号データを含むコンテンツに対して、フレーム毎に感情的状態を判定することが可能となる。

そして、ステップＳ１７０では、ステップＳ１５０において計算された感情的状態確率，ステップＳ１６０で判定した感情的状態に基づいて要約コンテンツを生成し出力する。

以下、要約コンテンツを生成する処理の一例について説明する。

本発明の原理によれば、フレーム毎に感情的状態確率及び感情的状態が与えられるため、最小単位としてはフレーム単位での要約提示が可能であるが、要約されたコンテンツは、視聴者にとって意味が理解可能であることが好ましい。よって、本実施形態においては、連続する発話であると考えられる発話区間の集合は１つの区間としてまとめる処理を行っておく。以下、この連続する発話で構成される発話区間集合のことを音声小段落と呼び、更にこれを単位として構成される発話音声区間を音声段落と呼ぶ。

ここで、音声小段落を生成する方法の一例を説明する。

まず、発話区間であると考えられる区間を抽出する。このような区間を抽出する方法の一例としては、音声波形における発話区間の周期性を利用して、自己相関関数の高い区間を発話区間であると見做して、該当区間を抽出する方法がある。

実際には、ある閾値よりも高い自己相関関数値を示す区間を、発話区間であると見做す。この閾値の与え方は、予め定数として与えてもよいし、要約するコンテンツ全体の自己相関関数値を計算した後、一般の場合の発話時間（または、有声時間）と非発話時間（または、無声時間）の割合を基準として、この基準に近い発話時間割合になるように閾値を決定してもよい。

本実施形態においては、発話区間を構成する単位はフレーム単位である。即ち、音声特徴量ベクトルに基本周波数が含まれていれば、これがある閾値よりも高い区間を発話区間（即ち、発話フレーム）と見做してもよい。

以上の処理によって、コンテンツ中からフレーム単位で発話フレームと非発話フレームを分離することが可能である。

次に、抽出された発話フレームのうち、連続する発話であると考えられる発話フレーム集合を１つの区間としてまとめていくことで、音声小段落を生成する。

このような音声小段落を生成する方法の一例について説明する。

コンテンツ中の発話フレームＦ'の集合を時刻の早いものから順に{Ｆ'1，Ｆ'2，・・・，Ｆ'N}とする。ここで、Ｎは発話フレームの総数である。

次に、時間軸上隣り合う発話フレームＦ'i、Ｆ'i+1の時間間隔、すなわち、Ｆ'iの終了時刻Ｆ'iendと、次のフレームであるＦ'i+1の開始時刻Ｆ'i+1startについて、その時刻の差Ｆi+1start−Ｆiendを計算する。

次に、その計算結果を予め決定したある閾値と比較して小さければ、ＦiとＦi+1は連続する発話フレームであると考え、１つの音声小段落を構成する。

そして、これを全てのフレームに渡り繰り返すことで、連続発話と考えられるフレームは音声小段落にまとめることができる。

また、音声小段落を生成する方法の他例としては、次のようなものが考えられる。

まず、要約するコンテンツ全体に渡り発話フレーム毎に開始時刻、終了時刻を求め、これらを纏めて２次元のベクトルと見做す。

そして、このベクトルについて、要約するコンテンツ全体の発話時間と非発話時間の比が、一般の場合の発話時間と非発話時間の割合と同じ程度になるようにボトムアップクラスタリング法を適用し、音声小段落を生成する。

上述の他例においては、予め閾値を決定しておく方法とは異なり、コンテンツ間の発話速度の差を吸収し、適応的に音声小段落を構成できる。

以上の処理により、各音声小段落は、１つ又は連続するフレームの集合を必ず含むこととなり、コンテンツ中に含まれる発話フレーム全体を、いくつかの音声小段落にまとめることが可能である。

次に、構成した音声小段落単位での感情的状態である感情度を計算する。以下、この感情度を計算する方法の一例を図１７に基づいて説明する。

コンテンツ中の音声小段落Ｓ'の集合を時刻の早いものから順に{Ｓ1，Ｓ2，・・・，ＳNS}とする。例えば、図１７中では、符号ｖ１で示される音声小段落Ｓi-1，符号ｖ２で示される音声小段落Ｓi，符号ｖ３で示される音声小段落Ｓi+1である。

ここで、ＮＳは音声小段落の総数である。また、ある音声小段落Ｓiに含まれる発話フレームを{ｆ1，ｆ2，・・・，ｆNFi}と置く。ＮＦｉは音声小段落Ｓiに含まれる発話フレーム数である。

各発話フレームｆtは、感情的状態確率計算手段によって、感情的状態確率ｐ（ｅt｜{ｘt}）が与えられている。音声小段落Ｓiの感情的状態ｅが、ｅkである感情度ｐSi（ｅ＝ｅk）は、例えば、平均値を表す次式によって計算することが考えられる。

また、例えば、最大値を表す次式によって計算することも考えられる。

これら以外にも、例えば、音声小段落内で窓掛けを行ってから感情度を計算するなど、方法はさまざま考えられるが、音声小段落間で感情度を比較する場合があるため、感情度はある一定の値の範囲内、例えば０〜１の間に収まるようにすることが好ましい。

なお、図１７における感情度は、符号Ｈ１〜Ｈ３で示されている感情度である。

学習行程において、一つ以上の感情を設定しておくことにより該感情毎の感情度を抽出可能となる。あるいは、該区間について、一つ以上の感情度の最大／和算／乗算／平均のいずれかを最終的な感情度として規定し、優先順位を付与するものであってもよい。

または、下記の方法によって行っても良い。該区間の画像情報を用いて、人間の笑い状態を検出し、笑い状態の確率を笑顔度として、その降順に優先順位を付与する。

以下に、笑顔度算出の方法の例を示す。

図１９は、笑顔度算出原理を示すための図である。図２０は、基本的な表情検出処理のフローチャートである。

同図に示す表示検出装置は、動画入力部１０、顔画像領域抽出部２０、特徴点抽出部３０、特徴量抽出部４０、笑い状態検出部５０、特徴点記憶部３５、特徴量記憶部４５から構成される。

ステップ１）動画入力部１０は、動画を入力する。

ステップ２）顔画像領域抽出部２０は、Adaboost学習によるHaar-like特徴を用いた識別器を用いるものとし、入力された動画像から人物の顔画像領域を抽出する。ここで、多数の弱識別器をカスケード型とし、該カスケード型識別器を識別対象の大きさ、位置を変化させて適用し、顔画像領域を特定する。これについては、例えば、文献「Paul Viola, Michael J. Jones. Robust Real-Time Face Detection. International Journal of Computer Vision. Vol. 57, No2 pp.137-154 (2004)」などに記載されている。

ステップ３）特徴点抽出部３０は、顔画像領域抽出部２０で抽出された顔画像領域から鼻の先端、口角の左右の位置を特徴点として抽出し、特徴点記憶部３５に格納する。特徴点抽出処理を行う際に、事前処理として、図２１に示す黒抜き丸で示す２５点の特徴点を抽出している。特徴点は、輪郭、目玉、眉毛、鼻、口に関連して割り振っている。この特徴点の抽出方法としては、例えば、文献「Lades M., Vorbruggen J., Buhmann J., Lange J., Konen W., von der Malsburg C., Wurtz R. Distortion Invariant Object Recognition in the Dynamic Link Architecture. IEEE Trans. Computers, Vol. 42, No. 3 pp.300-311(1993)」、「Wiskott L., Fellous J.-M., Kruger N., von der Malsburg C. Face Recognition by Elastic Bunch Graph Matching. IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 19. Issue 7, pp. 775-779 (1997)」等の公知の方法を用いるものとする。これらの公知技術を参照することにより、例えば、人物が顔を動かすなどの行為を行ったとしても安定して、図２１に示す２５点の特徴を抽出可能である。この２５点の特徴のうち、図２２に示す二重丸の３点（ｈ，ｉ，ｊ）のみを抽出し、残りの点は必要としない。これらは、鼻の先端、口角の左右の位置に相当する点である。また、２５点の特徴を抽出することなく、必要な３点のみを直接抽出してもよい。このような方法により、不要な点の抽出処理を省くことができる。

ステップ４）特徴量抽出部４０は、鼻の先端を基準としたときの口角の左右位置との角度を計測して特徴とする。図２３の例では、鼻の先端ｈを基準としたときの左右の口角の位置ｉ，ｊの角度αを計測し、特徴量とし、特徴量記憶部４５に格納する。

ステップ５）笑い状態検出部５０は、特徴量記憶部４５から特徴量（角度α）を読み出して、各度αの時間変化を求め、時間変化から平衡状態からの立ち上がり状態、最大角度状態、平衡状態への立ち下がり状態の３状態に分割し、笑い状態からの開始から終了までの連続的な変化を捉える。具体的には、角度の特徴量をαとしたときのその時間履歴を図２４のように計測する。更に、αの時間履歴から、同図に示すように、平衡状態からの立ち上がり、最大角度、平衡状態への立下りの３状態に分割する。実際には、人間が平衡状態にあるときに必ずしも口の形状が閉まっている状態ではないことが想定される。また、通常会話しているときも口の形状は開閉状態となる。このような場合においても、笑っているか否かを判断するためには、例えば、特徴量αの時間変化を観測すればよい。具体的には、図２５に示すように、特徴量の時間微分ｄα／ｄｔと、２つの閾値を用いる。２つの閾値については、高閾値「thupper」と低閾値「thlower」と呼ぶこととする。この閾値は静的に設定されるものでもよく、後述する方法により動的に設定されるものであってもよい。

以下に、笑い状態検出部５０における、３状態に分割する方法について説明する。

平衡状態からの立ち上がり状態については、その開始時刻を時間微分ｄα／ｄｔが高閾値thupperを超えた時刻の時間微分ｄα／ｄｔから時間的に前方向を観測し、最短時間でｄα／ｄｔ＝０となる時刻ｔ０とする。一方、終了時刻は、時間微分ｄα／ｄｔが高閾値thupper越えた時刻の時間微分ｄα／ｄｔから時間的に後ろ方向を観測し、最短時間でｄα／ｄｔ＝０となる時刻ｔ１とする。この時刻ｔ１は最大角度状態の開始時刻にも相当する。

平衡状態への立下り状態については、最大角度状態以降で、低閾値thlowerを下回った時刻の時間微分ｄα／ｄｔから時間的に前方向を観測し、最短時間でｄα／ｄｔ＝０となる時刻ｔ２を開始時刻とする。この時刻ｔ２は、最大角度状態の終了時刻にも相当する。一方、開始時刻は、時間微分ｄα／ｄｔが低閾値thlowerを下回った時刻の時間微分ｄα／ｄｔから時間的に後ろ方向を観測し、最短時間でｄα／ｄｔ＝０となる時刻ｔ３とする。

前述のように、立上がり状態の開始時刻から平衡状態への立下り終了時刻までが一連の笑い状態として判別される。

次に、前述の高閾値thupperと低閾値thlowerを動的に設定する方法について述べる。

例えば、高閾値と低閾値の標準偏差と平均値をそれぞれσupperとμupper、σlowerとμlowerとした場合、
thupper＝ａ・σupper＋ｂ・μupper 式（１）
thlower＝ｃ・σlower＋ｄ・μlower 式（２）
としてもよい。ここで、ａ，ｂ，ｃ，ｄは、係数で任意の値とし、例えば、予め、試験用動画像を用意し、統計的な学習工程を経て設定するものであってもよい。具体的には、人手により本手法による笑い状態の上記の３状態の開始時刻と終了時刻の正解集合を設定し、これと本発明によって抽出された上記の３状態の開始時刻と終了時刻との時間差を最小限とするようにａ，ｂ，ｃ，ｄを設定してもよい。

人間は、発話を一切していない状態においても口の形状が微小に変化していることが想定される。例えば、唇を噛みしめたり、つばを飲み込む動作を考えるだけでもこれらは容易に想像できる。これらの微小な変化が、角度αに影響する。また、笑いを含む発声行為についても、人間は規則的に口を開閉するもではなく、ある程度の不規則さを伴って開閉することが想定される。いわゆるこのようなノイズの影響を軽減させるために、例えば、検出した角度にメディアンフィルタを適用する対策を施してもよい。

また、本発明による時間微分ｄα／ｄｔでは、笑い状態と、一般の発声と区別が付かない場合も想定される。例えば、illegalと発声した場合、"ille"の部分でｄα／ｄtが増加し、"gal"の部分でｄα／ｄｔが減少するため、笑い状態と似ている挙動となる可能性がある。そのような場合には、例えば、最大角度状態の時間に着目し、t2−t1＞ttimeなどの時間的な閾値ttimeを設定することで問題を回避可能となる。

当該笑い状態検出部５０は、上記の処理により、時間、角度α、時間微分ｄα／ｄｔからなる情報、または、３状態に分割された時刻の情報を出力する。

これまで、本発明の基本的な例を述べてきたが、例えば、角度αのみに着目している場合、例えば、引きつった笑いや、いやみを発言するときなどに頻出する。鼻の稜線を基準線としたときの左右非対称の状態においても笑い状態と判別する可能性がある。このような問題に対しては、図２６に示すように、口角の左右の位置ｉ，ｊを結ぶ線分の中心と、鼻の先端ｈとを結ぶ線分を基準線とし、基準線に対する左右の口角位置との角度をそれぞれ、α１、α２としてこれらの値の差を考慮することで対象であるか否かを判定すればよい。

例えば、それぞれの時間微分ｄα１／ｄｔ、ｄα２／ｄｔの時間履歴を測定し、これらの相関係数を求め、例えば、０．５以上であるときに対象としてもよい。また、それぞれの時間微分がｄα１／ｄｔ＞０、ｄα２／ｄｔ＞０となる時刻をｔｓ１、ｔｓ２としたときの│ｔｓ１−ｔｓ２│に閾値を設定するなどしてもよい。

または、下記の方法によって行ってもよい。上記顔領域が画像中に支配的であるか否かの支配度合いを求め、該区間の支配度合いを降順に優先順位とする。このためには、例えば、前述の特許文献３に記載の方法により行えばよい。

上記強調度、感情度、笑顔度、支配度を０〜１の範囲内で表現し、いずれか一つ以上について、和算、乗算、平均、最大のいずれかの値を降順に、優先順位を付与してもよい。

また、該区間はテンプレートと同期するものとして述べてきたが、例えば、下記の手法により分割して区間としてもよい。例えば、前述の特許文献１では、映像を構成する音声／音楽データに着目し、音声段落によって映像を一つ以上の区間に分割する手法が述べられている。この音声段落に同期する映像を区間として規定しても良い。しかしながら、映像を音声情報により分割することにより、カット点との時間的差異による、"切り取られた感覚"をユーザに与えてしまう可能性がある。このような問題については、上記音声段落とカット点時刻の情報を組み合わせることで、"切り取られた感覚"を軽減させる効果がある。

例えば、図２７にその方法を示す。（i）音声段落Ｓ１，Ｓ２，Ｓ３，Ｓ４，Ｓ５に対して、（ii）カット点Ｃ１，Ｃ２，Ｃ３，Ｃ４を示している。これらを組み合わせた音声段落Ｓ１'，Ｓ２'，Ｓ３'，Ｓ４'，Ｓ５'を（iii）に示している。ここでは、音声段落の開始／終了時刻に最接近するカット点を新たな音声段落の開始／終了時刻としている。

しかしながら、図１０に見るように、カット点Ｃ３では、この位置に音声段落Ｓ２の終了時刻を対応付けるか、あるいは、音声段落Ｓ３の終了時刻を対応付けさせるかという問題が発生することがある。その場合、Ｓ２、Ｓ３からの距離をそれぞれＴｓ２，Ｔｓ３とした時の大小を比べて、例えば、Ｓ２の音声段落の終了時刻を変更する、と決定してもよい。

さらには、カット位置と音声段落の開始／終了時刻がある程度離れている場合は、必ずしもカット点位置に変更することが望ましくない場合も想定される。そのような場合は、音声段落の開始／終了時刻と最接近するカット点との時間差に閾値Ｔｈを設けることで、例えば、音声段落Ｓ３の終了時刻とカット点との時間差Ｔｓ２＞Ｔｈであれば、無関係と判断してカット点位置に変更しない、としてもよい。

さらには、カット位置を音声がクロスオーバーしている場合、カット点に音声段落の終端を変更することで、"音声的に切り取られた感覚"によって、かえって違和感を増してしまうことが想定される。そのような場合には、カット点を音声がクロスオーバーしている場合は、変更しないという方針により、例えば、(iv)音声段落Ｓ１"の開始／終了時刻、Ｓ２"の開始時刻のように元のままとしてもよい。

上記テンプレート、上記音声段落、上記音声段落とカット点の何れかと対応付けられた該区間について、優先順位を付与する方法を述べてきたが、上記「（３）後述するダイジェストに利用するための所定の特徴量が、所定の値を超える区間」について説明する。例えば、上記強調度、感情度、笑顔度、支配度のいずれか一つ以上が所定の閾値よりも高い時の、映像のクライマックスであると推定し、ダイジェストに変更しないことにする。

あるいは、所定の値よりも高いとき、その直前／直後の区間をダイジェストに用いることにしてもよい。クライマックスの直前／直後を利用することで、映像視聴者の映像本編視聴の興味を誘発する効果がある。

また、上記音声段落、上記音声段落とカット点と対応付けられた該区間の場合、テンプレートのタイムラインと一致しないことが想定される。その場合においても、該区間の優先順位を付与する以前に、テンプレートの該区間との重なりを求めておき、重なる場合には優先順位を付与しない、とすればよい。

いずれの場合においても、ダイジェスト生成部１３４は、所定の時間となるまで、優先順位を昇順に該区間を抽出し、時系列に構成することで、ダイジェストを生成する。ここで、所定の時間とは、上記映像関係者が指定するものであってもよく、実際にダイジェストを視聴するユーザが指定するものであってもよい。あるいは、本発明における映像ダイジェスト装置を運用する者が設定するものであってもよい。ダイジェストを構成する区間を時系列に繋ぎ合わせる際、繋ぎ合わせ方は、フェードイン、フェードアウト、ディゾルブ、スライドインなど一般に行われているトランジションの何れかにより実施しても良い。

さらに、当該ダイジェストにＢＧＭ素材、音楽素材、効果音素材などを挿入してもよく、上記挿入によりダイジェストコンテンツの印象がよくなる効果が得られる。当該素材は映像関係が指定するものでもよく、例えば、上記テンプレートの情報を頼りに適切な素材を自動挿入するものであってもよい。例えば、図８のトピック「手紙」、指示「花嫁を撮影」の場合は、手紙＆花嫁＆音楽をキーワードにインターネットから当該音楽を検索してもよい。あるいは、世に存在する、結婚式の各シーンとお勧めのＢＧＭを照会しているサイトと、上記テンプレートを予め対応付けておけば、音楽の同定は簡易に行うことができる。ここでは、結婚式について述べているが、例えば、運動会であっても同様に、各競技に適切な音楽を紹介しているサイトは多数あるため、同定は容易である。その他にも、例えば、旅行であれば、映像関係者／テンプレートにより指定された旅先のみから、例えば、ローマ旅行をしたのでカンツォーネを自動挿入するなど、場所と音楽を関連付けて挿入することも可能である。このように音楽を当該ダイジェストに加えることも本発明の範疇である。

また、これまで一つの映像ファイルについて述べてきたが、本発明は、映像ファイル数に依存するものではなく、複数の映像と複数のテンプレートからダイジェストを生成するものであってもよい。例えば、家族のビデオを断続／継続的に撮影していた場合、過去１ヶ月、過去１年、過去１０年のダイジェストといったものを簡易に作成することが本発明によって実現する。

そのためには、各テンプレートで利用可能な区間について、各優先順位を同定した、上記強調度、感情度、笑顔度、支配度、すなわち、確率値を降順に、複数の映像群の複数の区間に対して横断的に優先順位を付与すればよい。ダイジェストは、第１に、優先順位に従って繋ぎ合わせるものでもよく、第２に、元の時系列を保持したままでもよく、第３に、新しいものから繋ぎ合わせるものでもよい。例えば、長い時間遡る場合、映像の撮影時系列は、さほど有効でない場合が想定される。そのような場合は、第１のダイジェスト生成方法が有用である。一方、過去を遡る映像を演出したい場合には、第３のダイジェストが有用である。

また、これまで述べてきた映像ダイジェスト装置は、ネットワーク上にあってもよく、ＰＣや情報家電製品などの内部で実行させるものであってもよい。その場合、図２の通信Ｉ？Ｆ１５は必要としない。

また、図２に示すプログラムメモリ１３に格納されている各機能（プログラム）をネットワーク介して流通させることも可能である。

また、上記のプログラムをハードディスク装置や、フレキシブルディスク、ＣＤ−ＲＯＭ等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。

なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。

本発明は、映像処理技術、特に、映像ダイジェスト生成技術に適用可能である。

本発明の原理構成図である。本発明の一実施の形態における映像ダイジェスト装置の構成図である。本発明の一実施の形態における具体的なテンプレートの例である。本発明の一実施の形態における手プレート全体を撮影機器に表示している例である。本発明の一実施の形態におけるテンプレートを用いてユーザに撮影方法を指示している例（その１）である。本発明の一実施の形態におけるテンプレートを用いてユーザに撮影方法を指示している例（その２）である。本発明の一実施の形態におけるテンプレートの例である。本発明の一実施の形態におけるテンプレートの例（各区間の利用の可否の情報が付加された状態）である。本発明の一実施の形態におけるテンプレートの例（優先順位を付与した状態）である。感情検出方法を説明するフローチャートである。統計モデル構築処理のフローチャートである。感情検出装置の物理的な構成図である。基本周波数の時間変動特性を求める方法の概念図である。音声特徴量の挙動を示す図である。一般化状態空間モデルの概念図である。喜び、悲しみ、平静の感情的状態を扱った場合の感情的状態確率の例である。音声小段落と感情度の関係を示す図である。笑顔度算出の原理を示すための図である。表示検出装置の構成例である。基本的な表情検出処理のフローチャートである。特徴点抽出の事前準備として抽出した特徴点の例である。特徴点の例である。特徴量の例１である。笑い状態を３状態に分割した模式図である。笑い状態を３状態に分割する方法を示した模式図である。左右対称性を考慮して笑い状態を抽出するために用いる特徴量である。本発明の一実施の形態における音声段落、カット点を用いて区間に分割する例である。

符号の説明

１０入力手段、動画入力部
１１ＣＰＵ
１２バス
１３プログラムメモリ
１４データメモリ
１５通信インタフェース（Ｉ／Ｆ）
２０顔画像領域抽出手段、顔画像領域抽出部
３０特徴点抽出手段、特徴点抽出部
３５特徴点記憶手段、特徴点記憶部
４０特徴量抽出手段、特徴量抽出部
４５特徴量記憶手段、特徴量記憶部
５０笑い状態検出手段、笑い状態検出部
１３１映像入力手段、映像入力部
１３２テンプレート入力手段、テンプレート入力部
１３２ａボタン
１３２ｂ表示指示
１３２ｃ終了ボタン
１３２ｄ再度ボタン
１３２ｅ表示指示
１３３テンプレート解析・対応手段、テンプレート解析・対応部
１３４ダイジェスト生成手段、ダイジェスト生成部
１４１コンテンツ記憶手段、コンテンツ記憶部
１４２テンプレート記憶手段、テンプレート記憶部
２１０入力部
２１１キーボード
２１２ポインティングデバイス
２１３コンテンツ
２２１ＣＰＵ
２２２ハードディスク
２２３ＲＯＭ
２２４ＲＡＭ
２３０表示部
２４０出力部
Ｗ…音声特徴量ベクトル抽出区間
ｗ１，ｗ２，ｗ３…フレーム
Ｌ１…喜びの感情的状態確率
Ｌ２…平静の感情的状態確率
Ｌ３…哀しみの感情的状態確率
ＶＣ１，ＶＣ２，ＶＣ３…音声段落
ｖ１〜ｖ３，ｖ１１〜ｖ２０…音声小段落
Ｈ１〜Ｈ３，Ｈ１１〜Ｈ１９…感情度
Ｓt1…感情状態
Ｓt2…音声特徴量
δ…基本周波数ｆ０tの局所的な傾き

Claims

映像のダイジェストを生成する映像ダイジェスト生成装置であって、
映像を入力し、コンテンツ記憶手段に格納する映像入力手段と、
前記映像が生成された手法が示されたテンプレートを入力し、テンプレート記憶手段に格納するテンプレート入力手段と、
前記テンプレート記憶手段から前記テンプレートを読み出して、該テンプレートを解析して前記コンテンツ記憶手段の映像と対応させるテンプレート解析・対応手段と、
対応付けられた映像を用いてダイジェストを生成するダイジェスト生成手段と、
を有することを特徴とする映像ダイジェスト装置。
前記テンプレートは、
一つ以上の区間に分割された映像の該区間について、該区間の撮影方法を示したものである
請求項１記載の映像ダイジェスト装置。
前記テンプレート入力手段は、
前記映像を構成するAudioまたは／及びVisualデータと共に梱包された映像ファイル内のテンプレートを入力する手段、
または、
映像ファイル内にないテンプレートを、該映像と対応付けて検索して入力する手段、
のいずれかである
請求項１記載の映像ダイジェスト装置。
前記テンプレート解析・対応手段は、
前記テンプレートを用いて、前記映像を構成する一つ以上の区間について、該区間のダイジェストに利用または未使用を対応付ける手段を含む
請求項１記載の映像ダイジェスト装置。
前記ダイジェスト生成手段は、
前記テンプレート解析・対応手段によりダイジェストに利用された一つ以上の区間について、該ダイジェストに利用するための優先順位を付与し、複数の長さのダイジェストを生成する手段を含む
請求項１記載の映像ダイジェスト装置。
前記ダイジェスト生成手段は、
前記優先順位について、音声特徴量、前記テンプレートのいずれか一つ以上を用いて付与する手段を含む
請求項１記載の映像ダイジェスト装置。
請求項１乃至６に記載の映像ダイジェスト装置を構成する各手段としてコンピュータを機能させるための映像編集プログラム。