JP5096259B2

JP5096259B2 - 要約コンテンツ生成装置および要約コンテンツ生成プログラム

Info

Publication number: JP5096259B2
Application number: JP2008203712A
Authority: JP
Inventors: 秀信長田; ＫｏｗａｌｉｃＵｗｅ; 行信谷口; 浩太日高; 陽介鳥井; 豪入江; 泳青孫; 光洋我妻
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2008-08-07
Filing date: 2008-08-07
Publication date: 2012-12-12
Anticipated expiration: 2028-08-07
Also published as: JP2010039877A

Description

本発明は，未編集の映像素材を要約した要約コンテンツを生成する要約コンテンツ生成装置およびそのプログラムに関する。

放送番組の制作工程の一つに，未編集の素材映像からの編集工程がある。編集工程においては，大量の素材映像中から本編に用いる素材を探す必要が生じることがよくある。本工程で素材を探すにあたって，素材映像に対してメタデータが付与されていない場合，素材映像を順次再生しながらその内容を確認しなくてはならず，それにかかる作業コストは極めて大きい。

したがって，素材映像の内容を短時間に把握することができるような要約コンテンツを生成することが可能であれば，仮に素材映像が大量に存在したとしても，その内容の把握にかかる作業コストは大幅に低減されることになる。このような要約コンテンツの生成方法に関しては，以下の特許文献１〜特許文献５および非特許文献１，非特許文献２に開示されている技術がある。

特許文献１には，話者に依存しない発話状態の判定を可能にするため，音声特徴量ベクトルの強調状態での出現確率および平静状態での出現確率をコードごとに格納した符号帳を用い，入力音声からフレームごとに得た音声特徴量の組を量子化した対応する音声特徴量ベクトルの強調状態および平静状態での出現確率を求め，それらを比較して強調状態であるか否かを判定する音声処理方法が開示されている。

また，特許文献２には，被写体の種類にかかわらず，動物体が大きく写っている動物体アップフレームの映像時刻および動物体のアップショットを精度よく検出するため，入力された映像の動きベクトルから所定のカメラワークモデルに則しているかを判定し，則していない場合には動物体アップフレームとして検出する方法が開示されている。

また，特許文献３には，速見映像の作成において，選択可能な方法により映像を要約編集可能にするため，ユーザに映像斜め読み出し方法または映像探し読み出し方法を選択させ，映像斜め読み出し方法が選択された場合には，指定された速見時間長を速見区間の各ショットに所定の率で割り当て，ショット速見時間に対応するフレーム数で各ショットから速見フレーム位置の速見フレームを抽出して順次表示し，映像探し読み出し方法が選択された場合には，速見時間長を速見区間の各ショットに所定の率で割り当て，ショット速見時間に対応するフレーム数で速見フレームを各ショットから等間隔で抽出して順次表示する技術が開示されている。

また，特許文献４には，映像情報を符号化したまま圧縮処理を可能とするため，映像ソースを再生装置で再生し，可変レート符号化部で符号化し，ポインタ管理部でポインタの付与を行った後，蓄積媒体に蓄積し，次いで，ユーザから入力したしきい値（圧縮時間）に基づいて，映像フレームの抽出を行い，表示装置に表示する映像内容圧縮再生処理方法が開示されている。

また，特許文献５には，マルチメディアコンテンツの要約において，単一のメディアに偏らない要約を実現するため，マルチメディアコンテンツに対して，複数の個々のメディアごとにそれぞれ重要度分布を求め，それぞれのメディアの重みを加味させて総合重要度分布を作成し，総合重要度分布から要約率に沿うよう全体の要約を再生するマルチメディアコンテンツの要約方法が開示されている。

また，非特許文献１には，インターネット上のＣＧＭ（Consumer Generated Media）動画数が爆発的に増加してきており，また視聴者のＣＧＭ動画に対する嗜好や視聴要求の多様化が進んでいることから，多様なハイライト区間の自動検出・配信を可能にするため，印象的な区間を特徴付ける重要な要因として「笑い」や「泣き」などの感情表出に着目し，この区間を自動検出する感情表出区間自動検出法が開示されている。

非特許文献２には，映像の基本的な単位であるショットの切換わりを自動的に検出するにあたって，瞬時にショットを切り換えるカットだけでなく，フェードやワイプといったゆっくりしたショット切換えも検出できるようにするため，隣り合うフレームの間だけではなく，より間隔をおいた２枚のフレームの間で非類似度を計算し，それらを総合的に評価してショット切換えの判定を行う映像ショット切換え検出法が開示されている。
特許第３８０３３１１号公報特開２００６−２４４０７４号公報特開平６−２３３２２７号公報特開平５−２２５２３７号公報特開２００３−２５６４４５号公報入江豪，日高浩太，佐藤隆，谷口行信，中蔦信弥「ＣＧＭ動画を対象とした感情表出区間自動検出法」電子情報通信学会総合大会講演論文集，Proceedings of the IEICE General Conference ，Vol.2007年＿情報・システム，No.2（20070307）p.210 ，社団法人電予情報通信学会谷口行信，外村佳伸，浜田洋著「映像ショット切換え検出法とその映像アクセスインタフェースへの応用」，電子情報通信学会論文誌，Vol.J79-D2 No.4 （1996年４月），p.538-546 ，社団法人電子情報通信学会

〔特許文献１〕および〔非特許文献１〕で挙げた技術によると，映像中の音声信号から抽出した特徴に基づいて，映像コンテンツの内容が把握可能なハイライトシーンや，「楽しいシーン」「悲しいシーン」といった，ユーザが映像コンテンツを閲覧した結果抱く何らかの感情状態に即したシーンを映像中から抽出し，これを提示することができる。この技術を用いれば，個人撮影動画などに代表される冗長な映像コンテンツに含まれる「見どころ」の提示や，「面白いシーンが見たい」といったユーザの要望に適うシーンの提示ができるほか，スポーツ録画からプレー中に生じたイベントによって上がった歓声を含むシーンをハイライトシーンとして抽出することもできる。

すなわち，〔特許文献１〕および〔非特許文献１〕の技術によると，元の映像から短時間の要約コンテンツの生成が可能で，その要約コンテンツによって元の映像の概要や盛り上がった雰囲気までも伝えることができる上に，多数の映像があった場合でも，それらの中から興味の持てそうな映像をユーザが容易に選択できるようになる。

また，〔特許文献２〕および〔非特許文献２〕の技術によると，映像コンテンツ中のショット切り替え位置や，動物体被写体が大きく写されたシーンを抽出可能であり，これらの抽出された位置ならびにシーンを時刻の前後関係を保持した上で繋ぎ合わせ，これを要約コンテンツとすることで，画面内に何らかの動的な特徴が現れているような映像や，特定被写体の有無といった情報を，ユーザが素早く理解することができるような要約コンテンツを提供できると考えられる。

このように，〔特許文献１，２〕および〔非特許文献１，２〕の技術によって，現段階では，既にある種の要約コンテンツが生成可能であるが，例えば，映像の扱いに慣れたプロフェッショナル・ユーザが，できるだけ短時間のうちに，多数の放送番組用の素材映像に含まれているシーンを満遍なく確認するというような利用シーンを想定した場合，従来技術ではまだ十分とは言えず，このような利用シーンにさらに適した要約コンテンツの生成が可能であることが望まれる。

以降，本発明でいう素材映像とは，一般的に次のような特徴を含む映像を含んでよいものとする。

素材映像とは，映像が一旦撮影された後，全ての編集作業を終えるよりも以前の状態にある，未完成の映像のことを総称する。このような素材映像には，黒つぶれ・白飛びを起したフレームや，監督から「ＯＫ，カット！」等の号令が出されるまで幾度となく撮り直されたシーンや，シーン撮影の合間に無駄にカメラに収められたと思われるシーンや，部分的な編集作業によって生成されたシーンチェンジや，カラーバー等の機械的に生成されたシーンや，クラップボード（カチンコ）やガンマイク等の撮影機器が図らずも写ってしまったようなシーン等の放送番組の素材映像ならではの冗長なシーンが多数含まれる。

また，素材映像には，人物が無言で大きく写っている場面や，路地の雑踏シーン，建物のカット，風景，カメラが特定の物体にズームするようなシーン等，いわゆる音声はあまり含まれないか，あるいは全く含まれないものの，番組の内容上は必要不可欠であるために意図的に撮影されたシーンが含まれる。さらに，素材映像には，最終的に生成される番組とは一切の関連がないものの，別の番組に使うことなどを意図して撮影された，いわゆるストック用の短時間のシーンなどが含まれる場合もある。

本発明では，一般的な映像だけではなく，上記のような特徴を有する素材映像の場合でも，これをもとに要約コンテンツを生成できる方法である。上記のような素材映像をもとに要約コンテンツを生成する場合，最適な要約コンテンツを以下のように定める。

第１の点：冗長な部分が除外されている要約コンテンツ
大量の素材映像のシーンを満遍なく，短時間に確認する必要があることから，要約コンテンツには無駄な部分が可能な限り少ないほうがよい。すなわち，機械的に生成されたカラーバーや，黒つぶれ・白飛びのフレームを含むような内容に無関係のシーンや，複数回に渡って撮影された，同じ内容を持つシーンは要約コンテンツからは除外されていることが望ましい。

第２の点：画像と音声信号の両方の特徴を用いて決定した要約区間を含む要約コンテンツ
要約コンテンツは，意図を持って撮影された部分をできるだけ満遍なく，多く含んでいることが望ましい。すなわち，要約区間として，音声信号に基づいて抽出されたハイライトシーンに加え，画像信号から抽出される特徴量を用いることにより，音声は全く含まれないか，あるいは音量が極めて小さいが，内容上重要であるシーンが要約コンテンツに含まれていることが望ましい。

第３の点：所定の区間ごとに適切に再生速度が設定された可変倍速の要約コンテンツ
本発明が想定する利用シーンにおける要約コンテンツの閲覧者は，映像編集作業従事者の業務遂行に必要な一般知識を特に有しない，いわゆる一般ユーザも含まれる。元の素材映像のシーンを効率よくかつ満遍なく確認する目的を達成するためには，要約コンテンツの時間長が短いことに加え，要約コンテンツが素材映像のより多くの時間的範囲を網羅できるように，適切な再生速度が設定される必要がある。すなわち，要約コンテンツの再生速度が１倍（元の素材映像の再生速度に等しい速度）であることは必須の条件でなく，内容把握が可能である範囲で，要約区間のそれぞれに対して適切な区間再生速度を設定する必要がある。

上述した従来の技術を上記３点について鑑みた場合，次のことが言える。第１の点と第２の点に関しては，〔特許文献１〕〜〔特許文献２〕によると，映像・画像のそれぞれ個別の特徴に基づく要約コンテンツの生成はできるが，素材映像ならではの冗長区間の除外処理ができないほか，要約区間の決定と同時に該区間の区間再生速度を決定するような，再生速度値を算出する方法は考慮されていない。

また，第３の点に関しては，〔特許文献３〕，〔特許文献４〕および〔特許文献５〕の開示技術では，可変倍速再生が可能であるとして再生速度の算出段階を備えるが，これらに開示されている技術における再生速度は，コンテンツの速見を目的とした再生速度であって，セグメントごとにユーザが予め指定した速度であるか，コンテンツの速見に割く時間長が所定の時間内に収まるように算出された一定の倍速速度であるか，あるいは，映像中の動きか音声情報のいずれかの物理量によって決定された再生速度であるにとどまっている。

本発明が想定しているような，素材内容を効率的に，かつ満遍なく把握する，といった利用シーンにおける要約コンテンツの再生速度は，単純な画面の動き量や音声の有無といった物理的な特徴に基づく再生速度では不十分であり，素材中の被写体へのズーム，素材中の動物体，人物の顔，歓声といった，物理特徴よりもさらに映像中の意味内容に近い，いわゆる高レベルな特徴を考慮に入れて決定される必要がある。しかし，〔特許文献３〕〜〔特許文献５〕に記載の技術はその術を具備しない。

このような理由から，従来技術およびそれらのあらゆる組み合わせを以ってしても，本発明が目指す要約コンテンツは生成できない，という問題があった。

本発明は，上記問題点に基づいてなされたもので，映像コンテンツ中の音声・画像を解析し，映像コンテンツ中の所定のセグメントごとに，要約コンテンツに用いる区間と当該区間の区間再生速度を決定し，素材映像に含まれているシーンをできる限り短時間に，満遍なく把握できるような可変倍速の要約コンテンツを生成するための新しい技術手段を提供することを目的とする。

上記課題を解決するための要約コンテンツ生成装置は，要約対象の映像コンテンツ中に含まれる画像信号と音声信号とを解析し，それぞれ連続したフレーム列からなる映像区間のショットに分割する映像信号解析手段と，前記映像信号解析手段により得られた各ショットごとに，映像の各フレームから得られる画像または音声の特徴を表す値が所定の閾値以上となるものをイベントとして検出するイベント検出手段と，前記イベント検出手段により検出されたイベントに基づいて，イベントが少ないほど，またはさらにフレーム間の画像変化が少ないほど，前記ショットから抽出される要約区間が速い速度で再生されるように要約区間ごとの再生速度を決定し，さらに前記イベントが少ないほど前記要約区間が短くなり，前記要約区間の全長が元の映像コンテンツに対し所定の割合の時間長となるように各要約区間の長さを決定する要約区間・区間再生速度決定手段と，前記要約区間・区間再生速度決定手段により決定された再生速度に基づいて，前記映像コンテンツから，前記各要約区間ごとの再生速度に適合する要約コンテンツを生成するダイジェスト映像生成手段とを備えることを特徴とする。

ここで，前記映像信号解析手段は，前記映像コンテンツにおける隣接するフレーム間画像の差分を算出する手段と，前記映像コンテンツにおける各フレームの画素値のヒストグラムを算出する手段と，前記フレーム間画像の差分または前記ヒストグラムに基づいて，前記各ショットからジャンクショットまたは同一もしくは類似するフレーム列からなる重複テイクを検出し，それらのフレームが要約コンテンツに含まれないように除外する手段とを備えてもよい。

また，前記イベント検出手段は，前記映像コンテンツの映像を撮影したカメラが操作されているカメラワーク区間を検出する手段と，前記映像コンテンツの映像中から動物体がアップで表示されている動物体アップショット区間を検出する手段と，前記映像コンテンツの音声トラックから音声が強調されている音声強調区間を検出する手段と，前記映像コンテンツの映像中から人物の顔画像が含まれている部分を顔区間として検出する手段の少なくともいずれか複数を有し，前記カメラワーク区間の検出結果，前記動物体アップショット区間の検出結果，前記音声強調区間の検出結果または前記顔区間の検出結果を，前記画像または音声の特徴を表す値としてイベントを検出する構成も採り得る。

本発明によれば，映像コンテンツの画像信号・音声信号の分析に基づいて，所定のセグメント（ショット）ごとに要約区間を決定することが可能になる。前記所定のセグメントは，映像コンテンツの画像信号・音声信号の少なくとも一つから自動的に決定することが可能である。これをもとに，所定のセグメントごとに，要約コンテンツに用いる要約区間と区間再生速度の双方を考慮した要約コンテンツの生成を行うことができる。

また，要約コンテンツに用いる要約区間と区間再生速度を，所定のセグメントの長さと，所定のセグメントに含まれる映像中のイベントの種類と，所定のセグメントにおけるフレーム間画像差分情報とを考慮して決定することができる。

本発明の最良の実施形態について説明する。本実施例は，素材映像と短縮率を入力し，要約区間と区間再生速度を自動で算出し，これに基づいて要約コンテンツを出力する例である。なお，以下の説明において，ショットとは連続した一区間の映像をいう。要約区間は，各ショットの中の動きやイベントの数などに基づいて求められるものであり，ショットの長さ以下となる。

図１は，本発明に係る要約コンテンツ生成装置の構成例を示す。要約コンテンツ生成装置１は，素材映像と短縮率とを入力する入力部１１と，素材映像の映像信号を解析する映像信号解析処理部１２と，映像信号の解析結果をもとに短縮率に従ってダイジェスト映像を生成する要約処理部１３とを備える。

映像信号解析処理部１２は，素材映像のフレーム間画像の差分を算出するフレーム間画像差分算出部１２１と，素材映像を映像の基本的な単位であるショットに分割するショット分割部１２２と，フレーム画像から各色ごとの画素値のヒストグラムを生成するカラーヒストグラム算出部１２３と，素材映像からジャンクショットを取り除くジャンクショット除外処理部１２４と，素材映像から重複テイクを取り除く重複テイク除外処理部１２５を備える。

また，要約処理部１３は，映像信号解析処理部１２による解析結果から映像中のイベントを検出するイベント検出部１３１と，検出されたイベント情報をもとに指定された短縮率に従って要約区間と各要約区間ごとの再生速度を決定する要約区間および区間再生速度決定部１３２と，決定した要約区間と区間再生速度に従って要約コンテンツであるダイジェスト映像を生成するダイジェスト映像生成部１３３とを備える。

図１に示す要約コンテンツ生成装置１を実現するための装置構成図を，図２に示す。図２に示すように，本装置は，ハードウェアとして，プログラムメモリ１０と，中央処理ユニット（ＣＰＵ：Central Processing Unit ）２０と，データメモリ３０と，バス４０とを備え，ＣＰＵ２０には，バス４０を介してプログラムメモリ１０，データメモリ３０がそれぞれ接続されている。プログラムメモリ１０には，入力部１１，映像信号解析処理部１２，要約処理部１３の機能を実現するためのソフトウェアプログラムが記憶される。データメモリ３０には，フレーム間画像差分記憶部３１，イベント情報記憶部３２，ショット情報記憶部３３，再生制御情報記憶部３４，ヒストグラム記憶部３５が設けられている。

本実施例の全体動作を示すフローチャートを図３に示す。本実施例は，素材映像および短縮率の入力ステップＳ１１と，前処理ステップＳ１２と，冗長部分除外処理ステップＳ１３と，ショット内イベント検出処理ステップＳ１４と，要約区間および区間再生速度決定ステップＳ１５と，ダイジェスト映像生成ステップＳ１６とを実行する。

素材映像および短縮率の入力ステップＳ１１では，入力部１１により素材映像と要約映像の短縮率を入力する。素材映像は必要に応じてデコードする。入力された素材映像と短縮率は，直ちに一時記憶部（図示せず）に格納される。

前処理ステップＳ１２では，一時記憶部から素材映像を入力し，映像信号解析処理部１２において，前記素材映像の映像音声信号を解析し，ショット情報をショット情報記憶部３３に，フレーム間画像差分情報をフレーム間画像差分記憶部３１に，カラーヒストグラムをヒストグラム記憶部３５に，それぞれ出力する。ショット情報は，例えばショットの開始時刻と終了時刻である。これはショットに含まれる映像を特定できるものであればよく，フレーム番号情報のようなものであってもよい。

この前処理ステップＳ１２の詳細動作を，図４に示すフローチャートに従って説明する。前処理ステップＳ１２は，映像入力ステップＳ１２１と，映像のデコードステップＳ１２２と，フレーム間画像差分算出ステップＳ１２３と，フレーム間画像差分情報出力ステップＳ１２４と，カット検出ステップＳ１２５と，ショット分割ステップＳ１２６と，ショット情報出力ステップＳ１２７と，カラーヒストグラム算出ステップＳ１２８と，カラーヒストグラム出力ステップＳ１２９とからなる。以下に，各ステップＳ１２１〜Ｓ１２９の動作について記す。

映像入力ステップＳ１２１では，一時記憶部から映像信号解析処理部１２に素材映像を入力する。

映像のデコードステップＳ１２２では，前記入力された映像をデコードし，タイムコードと関連付けられた一連のフレーム画像および音声パケットを抽出し，一時記憶部に出力する。

フレーム間画像差分算出ステップＳ１２３では，一時記憶部から映像のデコードステップＳ１２２で取得された一連のフレーム画像を入力し，時刻的に隣接するフレーム同士のフレーム画像の差分を算出し，一時記憶部に出力する。このとき，フレーム間画像差分の情報は，フレーム画像内の領域について量子化してもよい。さらに，フレーム間画像差分の情報は，時刻の隣接するフレーム同士で差分を算出した後，任意時間幅でもって平滑化処理を施してもよい。

フレーム間画像差分情報出力ステップＳ１２４では，一時記憶部から，フレーム間画像差分算出ステップＳ１２３で求められたフレーム間画像差分情報を，フレーム間画像差分記憶部３１に出力する。

カット検出ステップＳ１２５では，一時記憶部から，従来技術として既知のシーンチェンジの検出方法を用いてシーンチェンジを検出し，検出された時刻をカット点とし，一時記憶部に出力する。このシーンチェンジの検出方法としては，例えば非特許文献２に記載されている方法を用いることができる。

ショット分割ステップＳ１２６では，一時記憶部からカット検出ステップＳ１２５によって得られたカット点の時刻情報に基づいて，ショット情報を生成する。

ショット情報出力ステップＳ１２７では，ショット分割ステップＳ１２６で生成したショット情報を，ショット情報記憶部３３に出力する。

カラーヒストグラム算出ステップＳ１２８では，フレーム画像から，（Ｒ，Ｇ，Ｂ）のカラーヒストグラムを生成する。

カラーヒストグラム出力ステップＳ１２９では，カラーヒストグラム算出ステップＳ１２８により生成されたヒストグラムデータをヒストグラム記憶部３５に出力する。

以上の前処理の後，図３の冗長部分除外処理ステップＳ１３では，ショット情報記憶部３３からショット情報を，またフレーム間画像差分記憶部３１からフレーム間画像差分情報を入力し，映像信号解析処理部１２において，ショット情報とフレーム間画像差分情報とに基づいて冗長区間の検出と除外を行い，その処理の結果に基づいて，ショット情報記憶部３３のショット情報を上書きする。

冗長部分除外処理ステップＳ１３の詳細動作を，図５のフローチャートに従って説明する。図５に示すように，本ステップは，主として，ジャンクショット（機械的に生成されたカラーバーや黒いフレーム等の，無駄なショット）の除外処理と，重複テイクの除外処理との二つの処理から構成されており，ショット情報入力ステップＳ１３１と，フレーム間画像差分情報入力ステップＳ１３２と，ジャンク値評価ステップＳ１３３と，除外区間決定ステップＳ１３４と，ショット情報上書きステップＳ１３５と，隣接ショット間類似度算出ステップＳ１３６と，除外ショット決定ステップＳ１３７と，ショット情報上書きステップＳ１３８とからなる。以下に，各ステップＳ１３１〜Ｓ１３８の動作について記す。

ショット情報入力ステップＳ１３１では，ショット情報記憶部３３から，映像信号解析処理部１２にショット情報を入力する。

フレーム間画像差分情報入力ステップＳ１３２では，フレーム間画像差分記憶部３１から，フレーム間画像差分情報を映像信号解析処理部１２に入力する。

ジャンク値評価ステップＳ１３３では，フレーム間画像差分記憶部３１からフレーム間画像差分情報を入力し，ショット情報記憶部３３からショット情報を入力し，機械的に生成された縦横のカラーバーや，黒つぶれ・白飛びしたフレーム等に代表される，編集時にカットされるであろうフレームを判別するためのジャンク値を求める。本ステップは映像信号解析処理部１２におけるジャンクショット除外処理部１２４にて行われる。このとき，例えば以下のアルゴリズムを用いることができる。

例１：ジャンクフレーム判別アルゴリズム
以下は，ジャンクフレームの判別方法の例である。はじめに，第ｎ番目のフレーム画像について，そのフレーム画像領域を，等サイズの矩形領域に分割し，当該分割された領域に，ｚ−ｏｒｄｅｒで１〜Ａの番号を付与する。すなわち，左上の領域から右側へ向かって順番に番号を振り，右端の領域まで番号を振ったならば，次に２段目の左端の領域から右側へ向かって番号を振り，同様に右下の領域に到達するまで番号を振るものとする。

続いて，前記番号の付与された各領域のカラーヒストグラムベクトルをｄ_n ^a（ａ＝１〜Ａ）とし，以下に記載する（ａ）〜（ｋ）のステップに従って，前記フレームがジャンクフレームであるか否かを判断し，当該フレームに対し“junkframe ”のラベルを付与する。

下記のアルゴリズムの例において，ｎはフレームに対する添え字，ａは各フレーム画像を領域分割してｚ−ｏｒｄｅｒに領域番号を付与した場合の領域番号，ｋはフレーム画像をｋ×ｋの合計ｋ²個の矩形領域に分割するとした場合の，行数に関する添え字，ＶＣＢ_nは機械的に生成された縦のカラーバーを検出するための特徴量，ＨＣＢ_nは機械的に生成された横のカラーバーを検出するための特徴量，ＢＨ_nは黒つぶれ・白飛びを検出するための特徴量，ｊ_vcb,hcb，ｊ_BH1およびｊ_BH2は，前記各特徴量と閾値との関係によってフレームｎのジャンク値Ｊ_nに加算されるジャンク値，ｌａｂｅｌ_nは第ｎ番目のフレームに対して付与されたラベルである。Ｔｈ１〜Ｔｈ３およびεは閾値であり，自由に定めてかまわない。
（ａ）ｎ＝１の先頭フレームからｎ＝Ｎの最終フレームまで，各フレームｎについて，以下の処理を繰り返す。
（ｂ）ａ＝１からａ＝Ａまで，領域番号ａの各領域に対して，以下の処理を繰り返す。
（ｃ）ＶＣＢ_nを次式により算出する。

（ｄ）ＨＣＢ_nを次式により算出する。

なお，この式において，「ｗｈｅｒｅａ≠Ｃｋ」は，ａがｋの整数倍でないときだけ｜ｄ_n ^a+1−ｄ_n ^a｜を算出して，和を計算することを意味する。
（ｅ）ＢＨ_nを次式により算出する。

（ｆ）ＶＣＢ_n×ＨＣＢ_nが閾値εより小さければ，ジャンク値Ｊ_n（初期値は０）にｊ_vcb,hcbを加算する。
（ｇ）ＢＨ_nと閾値Ｔｈ１とを比較し，ＢＨ_nが閾値Ｔｈ１より大きければ，ジャンク値Ｊ_nにｊ_BH1を加算する。
（ｈ）ＢＨ_nと閾値Ｔｈ２とを比較し，ＢＨ_nが閾値Ｔｈ２より小さければ，ジャンク値Ｊ_nにｊ_BH2を加算する。
（ｉ）ａに１を加算し，ａ≦Ａであれば，処理（ｃ）以降を同様に繰り返す。ａ＞Ａになったならば，次の処理（ｊ）へ進む。
（ｊ）次に，ジャンク値Ｊ_nと閾値Ｔｈ３とを比較し，Ｊ_nが閾値Ｔｈ３より大きければ，フレームｎのラベルｌａｂｅｌ_nを“junkframe ”とし，“junkframe ”のラベルを付与する。
（ｋ）ｎに１を加算し，ｎ≦Ｎであれば，処理（ｂ）以降を同様に繰り返す。ｎ＞Ｎになったならば，ジャンクフレームの判別処理を終了する。

以上の例で示したラベリングにおいては，各フレームに対するラベリングを示したが，所定の時間長に相当する複数フレームに対するラベリング処理であってもかまわない。さらに，本例ではカラーヒストグラムベクトルｄ_n ^aを用いた例を示したが，ｄ_n ^aとして，カラーヒストグラムでなく，カラーヒストグラムの形状を表すような，ケプストラム係数を用いてもよく，前記領域分割された各領域のＲＧＢパラメータの平均値を用いてもよい。また，ＲＧＢ以外の任意のカラーパラメータを用いてもよい。また，フレーム画像を矩形に分割する際には，各領域のカラーまたは輝度バランスを考慮して矩形を任意のサイズとしてもよい。また，フレーム画像の複数の領域をグルーピングした，矩形以外の選択領域としてもかまわない，また，各領域は互いに重畳する部分があってもかまわない。

除外区間決定ステップＳ１３４では，ジャンク値評価ステップＳ１３３によって算出されたジャンク値に基づいて，ジャンクフレームであるとラベルされたフレームか，あるいはジャンク値が所定の閾値以上となるフレームについて，これらを要約区間に含めない除外区間となるよう，除外区間情報を一時記憶部に出力する。

ショット情報上書きステップＳ１３５では，一時記憶部から，除外区間情報を入力し，ショット情報記憶部３３のショット情報を上書きする。

隣接ショット間類似度算出ステップＳ１３６では，フレーム間画像差分情報入力ステップＳ１３２で入力されたフレーム間画像差分情報と，ショット情報上書きステップＳ１３５で上書きされたショット情報を用い，映像信号解析処理部１２において，隣接するショット同士の類似度を評価し，素材映像中から同じシーンが取り直されている部分を検出する。隣接するショット間の類似度は，１次元または多次元のＤＰマッチングを用いて求めることができる。

また，ＤＰマッチングにおいてショット同士の類似度を算出する際，ショット中のフレーム画像の色に基づいて生成したカラーヒストグラム等を生成し，そのヒストグラムの類似度を求めることにより，ショット同士の類似度を評価することもできる。さらに，カラーヒストグラムの生成時には，ショットのフレーム画像のうち，所定の区間に該当するフレーム画像のみを用いてヒストグラムを生成してもよく，前記所定の区間を定めるにあたっては，フレーム間画像差分情報，すなわち時刻的に隣接するフレーム画像の画像差分に基づいて区間を定めてもよい。特に，フレーム間画像差分の値が所定の値未満となるようなフレームが連続する，一連のフレーム画像を用いることにより，動きの少ないフレームを用いて，ＤＰマッチングのためのカラーヒストグラムを生成することが可能になる。

除外ショット決定ステップＳ１３７では，隣接ショット間類似度算出ステップＳ１３６で得られた隣接ショット間類似度に基づいて，類似度が所定の閾値以上となるショットを要約区間に含めない除外ショットとし，当該除外ショットの時刻情報を一時記憶部に出力する。この際，２つの隣接する類似ショットにおいてどちらかを除外する際に，タイムスタンプが小さいショットを除外ショットとしてもよい。あるいは，ショットの時間長が短いショットを除外ショットとしてもよい。

ショット情報上書きステップＳ１３８では，一時記憶部から，除外ショット決定ステップＳ１３７で求められた除外ショットの時刻を入力し，ショット情報記憶部３３のショット情報を上書きする。

なお，ステップＳ１３３からステップＳ１３５までのジャンクショットの除外処理は，素材映像および短縮率の入力ステップＳ１１で入力されるコンテンツの種類がホームビデオ等のいわゆるＣＧＶであることが事前知識として与えられている場合，この実行をスキップしてよい。また，ショットの数またはカメラワークまたは文字列情報の有無に基づいて，一定時間長におけるこれらの生起回数が所定の回数を下回る場合に，入力映像がＣＧＶであると判断して，ステップＳ１３３からステップＳ１３５までのジャンクショットの除外処理をスキップしてもよい。

次に，図３のショット内イベント検出処理ステップＳ１４では，要約処理部１３のイベント検出部１３１が，ショット情報記憶部３３からショット情報を入力し，一時記憶部から素材映像を入力し，映像中のイベントを検出し，イベント情報記憶部３２にイベント情報を出力する。

ショット内イベント検出処理ステップＳ１４の詳細動作を，図６のフローチャートに従って説明する。本ステップは，カメラワーク区間検出ステップＳ１４１と，動物体アップショット検出ステップＳ１４２と，音声強調区間検出ステップＳ１４３と，顔検出ステップＳ１４４と，イベント情報出力ステップＳ１４５とからなる。以下に，各ステップＳ１４１〜Ｓ１４５の動作について記す。

カメラワーク区間検出ステップＳ１４１では，例えば下記の〔参考技術文献１〕に記載されているような既知の方法に基づいて，素材映像からカメラが上下左右に操作されて撮影された区間をカメラワーク区間として検出し，同時に，検出されたカメラワーク区間における，カメラワークの生起確率を取得し，フレーム単位イベント情報ファイルに，前記方法で検出したカメラワーク区間内に対応するフレームへ，カメラワーク値として，０〜１の値に正規化したカメラワーク生起確率の値を追記する。

〔参考技術文献１〕：特許第３４０８１１７号公報，谷口行信，阿久津明人，外村佳伸「カメラ操作推定方法およびカメラ操作推定プログラムを記録した記録媒体」，日本電信電話株式会社。

動物体アップショット検出ステップＳ１４２では，前記〔特許文献２〕に記載の方法で，映像中から動物体がアップで表示されている部分を動物体アップショット区間として検出し，同時に，検出された動物体アップショット区間における，動物体アップショットの生起確率を取得し，フレーム単位イベント情報ファイルに，前記方法で検出した動物体アップショット区間に対応するフレームへ，動物体アップショット値として，０〜１の値に正規化した動物体アップショットの生起確率の値を追記する。

音声強調区間検出ステップＳ１４３では，前記〔特許文献１〕に記載の方法で，映像中の音声トラックから，音声が強調されている区間を音声強調区間として検出し，同時に，前記音声強調区間の音声強調度を取得し，フレーム単位イベント情報ファイルに，前記方法で検出した音声強調区間に対応するフレームへ，０〜１の値に正規化した音声強調度の値を追記する。

顔検出ステップＳ１４４では，下記の〔参考技術文献２〕に記載されている方法に基づいて，素材映像から人物の顔画像が含まれている部分を顔区間として検出し，同時に，顔の出現確率の値を取得し，フレーム単位イベント情報ファイルに，前記方法で検出した顔区間に対応するフレームへ，０〜１の値に正規化した顔の出現確率を追記する。

〔参考技術文献２〕：特開平９−５０５２８号公報，福島和恵，川村春美，曽根原登，水谷伸「人物検出装置」，日本電信電話株式会社。

イベント情報出力ステップＳ１４５では，ステップＳ１４１〜Ｓ１４４で追記されたフレーム単位イベント情報ファイルを，イベント情報記憶部３２に出力する。なお，ステップＳ１４１〜Ｓ１４４は順不同であり，並列，直列のいずれの実行方法によって実行してもよく，直列の場合にはどのような順序で実行してもかまわない。さらに，ステップＳ１４１〜Ｓ１４４では，フレーム単位イベント情報ファイルに処理結果を追記する方法によって実行したが，当該情報はファイルではなくメモリ等の一時記憶部上の情報であってかまわない。

次に，図３の要約区間および区間再生速度決定ステップＳ１５では，フレーム間画像差分記憶部３１からフレーム間画像差分情報を，イベント情報記憶部３２からフレーム単位イベント情報を，ショット情報記憶部３３からショット情報を，一時記憶部から素材映像を入力し，要約処理部１３の要約区間および区間再生速度決定部１３２において，要約区間と当該区間の再生速度を決定し，再生制御情報記憶部３４に再生制御情報として出力する。

要約区間および区間再生速度決定ステップＳ１５の詳細動作を，図７のフローチャートに従って説明する。本ステップは，ショット情報入力ステップＳ１５１と，イベント検出結果入力ステップＳ１５２と，フレーム間画像差分情報入力ステップＳ１５３と，短縮率入力ステップＳ１５４と，短縮パラメータ決定ステップＳ１５５と，初期化ステップＳ１５６と，要約区間および区間再生速度更新ステップＳ１５７と，コンテンツ長さ評価ステップＳ１５８と，パラメータ更新ステップＳ１５９とからなる。以下に，ステップＳ１５１〜Ｓ１５９のそれぞれの動作を説明する。

ショット情報入力ステップＳ１５１では，ショット情報記憶部３３から要約処理部１３へ，ショット情報を入力する。ここで入力したショット情報は，後述するステップＳ１５５やＳ１５７で用いるＬ_nの初期値を算出するために利用される。

イベント検出結果入力ステップＳ１５２では，イベント情報記憶部３２から要約処理部１３へ，フレーム単位イベント情報を入力する。

フレーム間画像差分情報入力ステップＳ１５３では，フレーム間画像差分記憶部３１から要約処理部１３へ，フレーム間画像差分情報を入力する。

短縮率入力ステップＳ１５４では，一時記憶部から，要約コンテンツの時間長の上限値を決める基準となる，元の素材映像の時間長に対する比率を，短縮率として入力する。

短縮パラメータ決定ステップＳ１５５では，例えば，以下の方法により，要約区間に対する区間長パラメータＰｃ_nと区間速度パラメータＰｓ_nを算出する。

Ｐｓ_n＝Ｃｓ_n×（ｄ×Ｌ_n）／（Ｅ_n×Ｄ_n） …（式１）
Ｐｃ_n＝Ｃｃ_n×（ｄ×Ｌ_n）／（Ｅ_n×Ｄ_n） …（式２）
ただし，ｎは要約区間に対する添え字，Ｃｃ_nはｎ番目の要約区間の区間長に対して与える定数，Ｃｓ_nはｎ番目の要約区間の区間再生速度に対して与えられる定数，Ｅ_nはｎ番目の要約区間におけるユニークなイベントの数（イベントの種類），Ｄ_nはｎ番目の要約区間におけるフレーム間画像差分の平均値，Ｌ_nはｎ番目の要約区間の時間長，ｄは短縮率である。

本ステップにおいては，Ｄ_nの値としてフレーム間画像差分の値でなく，局所と大域ヒストグラムの差分値か，あるいは，局所と大域ヒストグラムの差分値またはフレーム間画像差分の値を所定の時間窓でもって平滑化処理を施した値を用いてもよい。また，Ｅ_nの値として，所定の時間長さにおけるイベントの生起密度か，あるいは，イベントの変化回数を用いてもよい。

ここで，局所と大域ヒストグラムの差分値とは，次のような情報である。今，ヒストグラムをＲＧＢのカラーヒストグラムであるとすれば，大域ヒストグラムとは，例えばフレーム画像１枚から生成されるＲＧＢの画素値の平均値からなるヒストグラムであり，局所ヒストグラムとは，例えばステップＳ１３３の説明で述べたジャンクフレームの判別アルゴリズムで用いたような，１枚のフレーム画像を複数の領域に分割（ｋ×ｋのグリッドで分割するなど）した際の，分割された各領域から生成されたヒストグラムである。局所と大域ヒストグラムの差分値とは，これらのヒストグラムの差分値をいう。

また，Ｅ_nの値として用いることができるイベントの生起密度は，例えば次のようにして算出される値である。まず，フレーム単位イベント情報によって得られるイベントの生起確率に対して閾値処理を施し，連続したフレームにおいて所定の閾値以上の生起確率を呈したイベントの回数を，イベントの種類ごとにカウントし，そのカウントされた回数を単位時間当たりの値に正規化した値を算出し，これをイベントの生起密度とする。

また，Ｅ_nの値として用いることができるイベントの変化回数は，前述したイベントの種類ごとにカウントする処理で，当該ショットにおいてイベントが何回変化したかをカウントし，これを同様に単位時間当たりの値に正規化した値を算出し，これをイベント変化回数とする。

以上の（式１）（式２）で用いているパラメータＰｓ_n，Ｐｃ_nには，負の値を用いてもよい。また，（式１）（式２）の例に限らず，要約区間長に比例し，かつ，要約区間のイベントおよびフレーム間画像差分に反比例する関数を任意に定めてよい。

初期化ステップＳ１５６では，要約区間と区間再生速度の初期値を求める。区間再生速度の初期値は１．０（通常の再生速度）とする。初期の要約区間は，フレーム単位イベント情報に基づいて，所定の値を閾値として設定し，当該閾値を上回る区間を全て抽出し，これを初期の要約区間とする。すなわち，ショットについては，ジャンクショットや重複テイクを排除した後，連続フレーム区間を一つずつに数え，各ショットとする。初期の要約区間は，このショットのうち，ある閾値以上となる部分を抽出し，連続フレーム区間ごとに各要約区間とする。このとき，要約区間の時間長が所定の時間長となるように，あるいは，一つの要約区間の終了時刻と前記要約区間の一つ後方に隣接する要約区間の開始時刻との差が所定の時間となるように，フレーム単位イベント情報に対して平滑化処理を施した後，要約区間の抽出を行ってもよい。また，（式２）のＥ_nの値を正規分布であると仮定し，確率値の低い区間をカットする方法によって要約区間を決定してよい。

次に，各要約区間ｎについて，ステップＳ１５７〜Ｓ１５９をｎ＝１からｎ＝Ｎまで適応し，それをステップＳ１５８の条件が満たされるまで繰り返す。

要約区間および区間再生速度更新ステップＳ１５７では，全ての要約区間に対し，ステップＳ１５９で更新したパラメータを適用し，次の式により要約区間と区間再生速度を更新する。

Ｌ_n＝Ｌ_n−ｃ_n
Ｓ_n＝Ｓ_n＋ｓ_n …（式３）
ただし，Ｌ_nは第ｎ番目の要約区間の時間長，Ｓ_nは第ｎ番目の要約区間の区間再生速度，ｃ_nとｓ_nはそれぞれ要約区間の更新分の長さと区間再生速度の更新分の速度の大きさである。ステップＳ１５９が一度も実行されていない初期の段階では，要約区間と区間再生速度は，初期化ステップＳ１５６で算出した初期値とし，ｃ_n，ｓ_n＝０である。

コンテンツ長さ評価ステップＳ１５８では，要約区間および区間再生速度更新ステップＳ１５７により決定された要約区間のそれぞれの時間長と，それぞれの区間再生速度に基づいて，要約コンテンツの総時間長を求め，これを元の素材映像の時間長の比が所定の短縮率を満足するかを算出しながら，要約区間と区間再生速度を決定する。短縮率を満たすかどうかについては，例えば，以下の評価式を用いることができる。

Σ_n-1 ^N｛Ｌ_n×（１／Ｓ_n）｝／Ｌ_org≦ｄ …（式４）
ただし，ｎは要約区間に対する添え字，Ｌ_nは第ｎ番目のショットの長さ，Ｓ_nは第ｎ番目のショットの区間再生速度，Ｌ_orgは元の素材映像の総時間長，ｄは短縮率である。

パラメータ更新ステップＳ１５９では，コンテンツ長さ評価ステップＳ１５８の評価の結果，（式４）を満たさない場合，要約コンテンツが所定の短縮率に至っていないとし，要約区間と区間再生速度を以下の式に基づいて更新する。

Δｃ_n＝Ｐｃ_n×Ｌ_n， Δｓ_n＝Ｐｓ_n×Ｌ_n
ｃ_n+1＝ｃ_n＋Δｃ_n，ｓ_n+1＝ｓ_n＋Δｓ_n …（式５）
ただし，ｎは要約区間に対する添え字，Ｐｃ_nとＰｓ_nはそれぞれ（式１）と（式２）で算出した要約区間と区間再生速度に与えるパラメータ，Ｌ_nは現時点での要約区間の時間長，ｃ_nとｓ_nはそれぞれ要約区間の長さと区間再生速度の更新用パラメータである。本ステップでは，所定の量を超えた更新パラメータｃ_nとｓ_nとならないよう，ｃ_nとｓ_nの値の大きさか，あるいはステップＳ１５９の累積実行回数に応じて，Δｃ_nおよびΔｓ_nを０とするか，あるいは所定の大きさを与えるなどしてもよい。また，
ｃ_n＝ｗ₁×ｃ_n1＋ｗ₂×ｃ_n2，ｗｈｅｒｅｗ₁＋ｗ₂＝１ …（式６）
とし，（式３）において要約区間の長さを決定する際，ｎ番目の要約区間の前半からｃ_n1，ｎ番目の要約区間の後半からｃ_n2だけ長さを更新することもできる。

以上のように，本実施の形態では，（式１）および（式２）で算出したパラメータを用いて，要約区間の更新に関わるパラメータｃ_n，ｓ_nを決めることにより，ステップＳ１５７からＳ１５９のループでもって，要約区間の長さとその速度をインクリメンタルに更新していくところが特徴となっている。このような方法を用いることにより，「イベントの少ないショット」ほど，また「動きの量が少ないショット」ほど，要約区間が早送りになり，しかも短くカットされていくことになり，適切な要約区間の長さと再生速度が決定されることになる。

ダイジェスト映像生成ステップＳ１６では，再生制御情報記憶部３４から再生制御情報を入力し，一時記憶部から素材映像を入力し，前記再生制御情報に基づいて区間と当該区間の再生速度となるように，要約コンテンツを生成し，一時記憶部に出力する。再生制御情報として得られた要約区間と区間再生速度に従って，ダイジェスト映像（要約コンテンツ）を生成する処理は，どのような方法を用いてもよい。簡単な方法としては，区間再生速度に応じて要約区間内のフレームを間引く方法を用いることができる。音声についても区間再生速度に合うように再サンプルを行い，早送り映像を作ることができる。

上記の全てのステップの実行により，素材映像から，複数の要約区間とその各区間の区間再生速度が適切に設定された要約コンテンツを生成することができる。

以上の要約コンテンツ生成の処理は，コンピュータとソフトウェアプログラムとによって実現することができ，そのプログラムをコンピュータ読み取り可能な記録媒体に記録して提供することも，ネットワークを通して提供することも可能である。

本発明の構成例を示す図である。実施例における装置構成図である。実施例における処理の全体フローチャートである。前処理（Ｓ１２）の詳細フローチャートである。冗長部分除外処理（Ｓ１３）の詳細フローチャートである。イベント検出処理（Ｓ１４）の詳細フローチャートである。要約区間および区間再生速度決定処理（Ｓ１５）の詳細フローチャートである。

符号の説明

１要約コンテンツ生成装置
１０プログラムメモリ
１１入力部
１２映像信号解析処理部
１３要約処理部
２０ＣＰＵ
３０データメモリ
３１フレーム間画像差分記憶部
３２イベント情報記憶部
３３ショット情報記憶部
３４再生制御情報記憶部
３５ヒストグラム記憶部
４０バス
１２１フレーム間画像差分算出部
１２２ショット分割部
１２３カラーヒストグラム算出部
１２４ジャンクショット除外処理部
１２５重複テイク除外処理部
１３１イベント検出部
１３２要約区間および区間再生速度決定部
１３３ダイジェスト映像生成部

Claims

映像コンテンツ中に含まれる画像信号および音声信号を解析し，要約コンテンツを生成する要約コンテンツ生成装置において，
要約対象の映像コンテンツ中に含まれる画像信号と音声信号とを解析し，それぞれ連続したフレーム列からなる映像区間のショットに分割する映像信号解析手段と，
前記映像信号解析手段により得られた各ショットごとに，映像の各フレームから得られる画像または音声の特徴を表す値が所定の閾値以上となるものをイベントとして検出するイベント検出手段と，
前記イベント検出手段により検出されたイベントに基づいて，イベントが少ないほど，またはさらにフレーム間の画像変化が少ないほど，前記ショットから抽出される要約区間が速い速度で再生されるように要約区間ごとの再生速度を決定し，さらに前記イベントが少ないほど前記要約区間が短くなり，前記要約区間の全長が元の映像コンテンツに対し所定の割合の時間長となるように各要約区間の長さを決定する要約区間・区間再生速度決定手段と，
前記要約区間・区間再生速度決定手段により決定された再生速度に基づいて，前記映像コンテンツから，前記各要約区間ごとの再生速度に適合する要約コンテンツを生成するダイジェスト映像生成手段とを備える
ことを特徴とする要約コンテンツ生成装置。
請求項１記載の要約コンテンツ生成装置において，
前記映像信号解析手段は，
前記映像コンテンツにおける隣接するフレーム間画像の差分を算出する手段と，
前記映像コンテンツにおける各フレームの画素値のヒストグラムを算出する手段と，
前記フレーム間画像の差分または前記ヒストグラムに基づいて，前記各ショットからジャンクショットまたは同一もしくは類似するフレーム列からなる重複テイクを検出し，それらのフレームが要約コンテンツに含まれないように除外する手段とを備える
ことを特徴とする要約コンテンツ生成装置。
請求項１または請求項２記載の要約コンテンツ生成装置において，
前記イベント検出手段は，
前記映像コンテンツの映像を撮影したカメラが操作されているカメラワーク区間を検出する手段と，
前記映像コンテンツの映像中から動物体がアップで表示されている動物体アップショット区間を検出する手段と，
前記映像コンテンツの音声トラックから音声が強調されている音声強調区間を検出する手段と，
前記映像コンテンツの映像中から人物の顔画像が含まれている部分を顔区間として検出する手段の少なくともいずれか複数を有し，
前記カメラワーク区間の検出結果，前記動物体アップショット区間の検出結果，前記音声強調区間の検出結果または前記顔区間の検出結果を，前記画像または音声の特徴を表す値としてイベントを検出する
ことを特徴とする要約コンテンツ生成装置。
コンピュータを，請求項１から請求項３までのいずれか１項に記載の要約コンテンツ生成装置が備える前記各手段として機能させるための要約コンテンツ生成プログラム。