JP5092000B2

JP5092000B2 - 映像処理装置、方法、及び映像処理システム

Info

Publication number: JP5092000B2
Application number: JP2010214478A
Authority: JP
Inventors: 晃司山本; 誠広畑
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2010-09-24
Filing date: 2010-09-24
Publication date: 2012-12-05
Anticipated expiration: 2030-09-24
Also published as: JP2012070283A; US8879788B2; US20120076357A1

Description

本発明の実施形態は、映像処理装置、方法、及び映像処理システムに関する。

同一のイベントにおいて複数の撮像装置により撮影された画像を効率的に閲覧する方法がある。

特開２００８−３１２０６１号公報

しかしながら、複数の映像区間の対応付けは撮影時刻のみで行っており、撮影時刻情報を持たない映像に対しては、対応付けを行うことはできない。また、撮影時刻情報を有する場合に、偶然同一時刻に撮影された映像であると、イベントの重要なシーンと誤って判定されうるが、必ずしも同一時刻に撮影された映像が視聴する人（ユーザ）の所望の映像とは限らない。

本開示は、重要な区間を含んだ要約を生成できる映像処理装置及び方法を提供することを目的とする。すなわち、撮影時刻情報の有無によらず、複数の映像から区間対応付けを行うことができる映像処理装置を提供する。

本実施形態に係る映像処理装置は、取得部、第１抽出部、生成部、第２抽出部、算出部、及び選択部を含む。取得部は、画像および音響を含む複数の映像を取得する。第１抽出部は、前記映像ごとに、前記画像および前記音響のうちの少なくとも１つを解析し、映像の特性を示す特徴量であって、前記複数の映像の間で共通の特徴を示す特徴量を抽出する。生成部は、前記特徴量の変化に応じて前記映像ごとに該映像を分割して複数の区間を生成し、互いに異なる前記映像に含まれる１以上の区間の特徴量の類似度が第１閾値以上の区間を前記複数の映像間で対応付けて対応区間を生成する。第２抽出部は、前記対応区間を含んだ前記映像の数が第２閾値以上である場合、該対応区間を共通映像区間として抽出する。算出部は、前記共通映像区間の前記画像の特徴量および前記音響の特徴量のうちの少なくとも１つを用いて、共通映像区間で定義され時間を変数とするスコアであって該共通映像区間に含まれる映像部分を要約映像に含める度合いを示す要約スコアを算出する。選択部は、前記要約スコアに基づいて、前記共通映像区間から要約映像に用いる映像部分を要約区間として選択する。

第１の実施形態に係る映像処理装置を示すブロック図。第１の実施形態に係る映像処理装置の動作を示すフローチャート。第１の実施形態に係る区間対応付けの概念を示す図。生成部の動作を示すフローチャート。統計モデルに基づいて対応区間を生成する一例を示す図。要約スコア算出部における要約スコアの算出方法の一例を示す図。選択部における要約区間の選択手法の一例を示す図。選択部における要約区間の選択手法の別例を示す図。第２の実施形態に係る映像処理システムを示す図。第２の実施形態に係る映像処理システムの動作を示すフローチャート。第３の実施形態に係る映像処理装置を示すブロック図。第３の実施形態に係る映像処理装置の動作を示すフローチャート。典型ショットパターン辞書に格納される典型ショットパターンの一例を示す図。第３の実施形態に係る検出部と補正部との処理を示す図。第４の実施形態に係る映像処理装置を示すブロック図。管理部と選択部との動作を示すフローチャート。第５の実施形態に係る映像処理装置を示すブロック図。第５の実施形態に係る映像処理装置の動作を示すフローチャート。

結婚式や学校行事など、多くの人が集まるイベントでは、複数の撮影者がカメラやビデオでイベントの様子や自分の周辺の様子を撮影する。しかし、このようなイベントでの撮影に限らず、個人が撮影した映像は無駄なシーンや失敗シーンを含む。撮影者以外の他人にとっては、このような低品質な映像を未編集のまま見せられることは退屈で、視聴に要する時間も長くなる。
そこで、映像から重要な区間を抽出して短い映像に編集する技術として、要約技術がある。要約技術のうち、テレビ放送の映像を対象にするものは適用が困難であるものが多い。なぜならば、テレビ放送は専門家によって撮影および編集された映像であり、不要なシーンはカットされた状態で放送されるからである。また、映像全体も番組構成に沿って、ある程度決まった構造を持っている。一方で、個人撮影の映像は内容も雑多であり、撮影者の撮影技術も低いため、個人撮影の映像の要約においては、テレビ放送向けとは異なる要約技術が必要となる。

また、一般的に、複数の撮影者の映像を互いに共有するための手段として、オンラインストレージまたは動画投稿サイトなどがあり、ネットワークを介して映像のやりとりを行うことが想定される。映像データをアップロードするときにはデータサイズの制限や取り扱い易さを考慮して再エンコードされることが多く、撮影情報などのメタデータは失われ、対応付けを行うことができない。

以下、図面を参照しながら本実施形態に係る映像処理装置、方法、及び映像処理システムについて詳細に説明する。なお、以下の実施形態では、同一の参照符号を付した部分は同様の動作を行うものとして、重複する説明を適宜省略する。
本実施形態に係る映像処理装置について図１のブロック図を参照して説明する。
本実施形態に係る映像処理装置１００は、取得部１０１と、第１抽出部１０２と、生成部１０３と、第２抽出部１０４と、算出部１０５と、選択部１０６と、出力部１０７とを含む。
取得部１０１は、外部から複数の映像を複数受け取る。なお、映像は、ここでは画像と音響とを含む。

第１抽出部１０２は、取得部１０１から複数の映像を受け取り、映像ごとに所定の時間単位で映像の特徴量を抽出する。特徴量は、画像から得られる映像の特性（以下、画像特徴という）または音響から得られる映像の特性（以下、音響特徴という）を示す値である。なお、所定の時間単位は、一定の時間間隔でもよいし、一定のフレーム数でもよい。さらに、抽出する特徴量は、画像特徴および音響特徴のどちらか一方でもよいし、両方を抽出してもよい。
また、入力映像がＭＰＥＧなどで符号化された形式である場合は、特定の圧縮方式が用いられたフレームから特徴量を抽出してもよい。例えば、ＭＰＥＧではフレーム内予測方式であるＩピクチャとフレーム間予測方式であるＰピクチャ、Ｂピクチャと呼ばれるフレームが存在するが、このうち、Ｉピクチャだけを用いる。ＰピクチャやＢピクチャでは、フレーム間予測に用いた他のフレームも含めて復号する必要があるが、Ｉピクチャではそのフレームだけを復号すればよいので、高速に処理できる。

画像特徴としては例えば、色や輝度などの画像自体から解析を必要としない低レベル特徴と、エッジや周波数成分、動きの大きさ、局所特徴など比較的簡単な解析を行うことで得られる中レベル特徴と、顔検出などで得られる顔情報といった複数の解析を合わせて行うことで得られる高レベル特徴とがある。また、画像特徴を色ヒストグラムなど統計量として扱ってもよい。
同様に音響特徴も、音量や周波数成分などの低レベル特徴と各種認識手法を用いて得られる高レベル特徴とがある。高レベル特徴としては例えば、音声認識で得られる文字情報や人の声、音楽などの音の種別、話者の識別または分類結果がある。
また、入力映像がＭＰＥＧなどの符号化された形式である場合は、符号化されたデータを用いてもよい。符号化されたデータとは、例えば、画像であれば、ＤＣ成分情報、動きベクトル情報やその符号長である。また、音声であれば、周波数情報などを復号することなく抽出することができる。

生成部１０３は、第１抽出部１０２から特徴量を受け取り、映像ごとに時間単位ごとに抽出した特徴量が大きく変化する位置で、１つの映像を複数の区間に分割する。その後、各区間の特徴量を比較して類似度を算出する。複数の映像から、区間の類似度が閾値以上であれば、それらの区間を対応付けて対応区間を生成する。
第２抽出部１０４は、生成部１０３から対応区間を受け取り、対応付けられた区間に閾値以上の数の映像が対応付いているかを判定し、閾値以上の数の映像が存在すれば、対応区間を共通映像区間として抽出する。
算出部１０５は、第１抽出部１０２から特徴量を、第２抽出部１０４から共通映像区間をそれぞれ受け取り、共通映像区間に含まれる映像の特徴量ごとに、所定の時間単位で要約スコアを算出する。要約スコアは、例えば画面に登場する顔の大きさや数、笑顔度、鮮明度などを用いて算出される。すなわち、どの程度要約映像に含まれるのに適する区間であるか、要約映像に含める度合いを示す値である。
選択部１０６は、算出部１０５から共通映像区間および対応する要約スコアを受け取り、要約スコアに基づいて、共通映像区間の中から要約映像として用いる区間を示す要約区間を選択する。
出力部１０７は、選択部１０６から要約区間を受け取り、要約区間を外部へ出力する。出力する要約区間は、映像と対応する区間とを特定する情報だけでもよいし、要約区間の映像を結合した要約映像でもよい。

次に、本実施形態に係る映像処理装置１００の動作について図２のフローチャートを参照して説明する。
ステップＳ２０１では、取得部１０１が、外部から複数の映像を受け取る。
ステップＳ２０２では、第１抽出部１０２が、映像ごとに、所定の時間単位で映像の特徴量を抽出する。
ステップＳ２０３では、生成部１０３が、時間単位ごとに抽出した特徴量が大きく変化する位置で、映像を複数の区間に分割する。例えば、画像のフレーム単位に色のヒストグラムを比較し、距離を算出する。そして、距離が大きくなったフレーム間で分割する。距離は、例えば、ヒストグラムのビンごとに頻度の差の絶対値を求め、全ビンの差の絶対値の総和を距離とする。なお、映像区間を分割しない場合は、ステップＳ２０２からステップＳ２０４に進む。
ステップＳ２０４では、生成部１０３が、複数の区間の間で、区間の特徴量を比較して類似度を算出する。区間の特徴量は、区間に含まれる時間単位の特徴量の平均値または分布をもとに作成したモデルのパラメータなどを用いる。

ステップＳ２０５では、生成部１０３が、複数の映像から、区間の類似度が閾値以上である区間をそれぞれ対応付けることで、対応区間を生成する。
ステップＳ２０６では、第２抽出部１０４が、対応区間に閾値以上の数の映像が含まれているかどうか、すなわち、対応区間を生成する際に用いられた映像の数が閾値以上であるかどうかを判定する。映像の数が閾値以上である場合はステップＳ２０７に進み、映像の数が閾値未満である場合は、処理を終了する。
ステップＳ２０７では、第２抽出部１０４が、閾値以上の数の映像が含まれる場合はイベントの重要なシーンを含むと推測されるので、それらの対応区間を共通映像区間として抽出する。
ステップＳ２０８では、算出部１０５が、特徴量を用いて所定の時間単位における共通映像区間に含まれる映像ごとに要約スコアを算出する。なお、所定の時間単位は、上述した一定の時間間隔または一定のフレーム数に加えて、区間単位など一定ではない時間間隔でもよい。
ステップＳ２０９では、選択部１０６が、要約スコアに基づいて共通映像区間の中から要約区間を選択する。要約区間の選択は、例えば要約スコアが高い順でもよいし、要約スコアが閾値以上である共通映像区間を選択してもよい。
ステップＳ２１０では、出力部１０７が、要約区間を外部へ出力する。

次に、区間対応付けの概念について図３を参照して説明する。
なお、図３では、入力される映像として結婚式を撮影した映像を示し、Ａ、Ｂ、Ｃの３つの撮像機器でそれぞれ撮影した映像３０１、３０２、３０３が入力される場合を想定する。区間３０４から区間３０６までは、Ａ、Ｂ、Ｃの撮像機器でそれぞれ撮影した新郎新婦の入場シーンであり、始端と終端とをサムネイルで示す。区間３０７から区間３０９までは、Ａ、Ｂ、Ｃにおいてそれぞれ撮影された新郎新婦によるケーキカットシーンであり、始端と終端とをサムネイルで示す。新郎新婦の入場シーンおよび新郎新婦によるケーキカットシーンは、このイベントでの重要なシーンであり、Ａ、Ｂ、Ｃの３つ全てで撮影されたシーンである。一方、区間３１０に示す斜線部分は、イベントの重要なシーンではなく、３つの撮像機器のそれぞれで撮影した映像である。それゆえ、斜線部分の区間は映像３０１、３０２、３０３でそれぞれ内容が異なる。生成部１０３は、重要なシーンと考えられ、多くの撮像機器で撮影されている、区間３０４から区間３０６まで、または、区間３０７から区間３０９までのような対応区間を生成する区間対応付け処理を行う。

次に、具体的な生成部１０３における区間対応付け処理について図４を参照して説明する。
特徴量４０１および特徴量４０２は、それぞれ異なるカメラで撮影された映像から抽出された輝度値である。輝度値としては、画面全体の輝度の平均値を与えればよい。ここで、区間４０３から区間４０６まで、および、区間４０８から区間４１１までは、輝度とは別の特徴量（例えば音響特徴）によって分割された区間である。
このうち、区間４０４と区間４１０とは、類似度の高い区間であるため同一区間を撮影した対応区間として抽出する。なお、類似度は、相互相関などを用いて求めればよい。さらに、輝度値ではなく音響のレベルによっても同様の手法で対応区間を生成できる。

別の手法として、フラッシュを用いることができる。例えば、区間４０７および区間４１２に示すように、輝度値が大きい部分がある。これは、カメラなどのフラッシュによる影響であり、対応区間が重要なシーンである場合には会場で多くのフラッシュを使用した撮影が行われるので、区間４０７および区間４１２に示すような輝度の変化パターンを示す。よって、輝度値が所定の閾値以上となる場合にフラッシュであると判定し、フラッシュのタイミングが同期する区間を対応区間として生成する。フラッシュによる対応区間の判定についても、フラッシュありの場合に１、フラッシュなしの場合に０をとる関数による相互相関を計算すればよい。なお、フラッシュを用いて撮影をしない場合でも、音響特徴など別の特徴量を用いれば同様に対応区間を生成できる。相互相関による対応区間の探索に処理時間がかかる場合、比較する区間の特徴量をヒストグラム化してヒストグラム同士を比較することで、高速に探索することもできる。

さらに別の手法として、ある統計モデルに基づいて対応区間を生成してもよい。
統計モデルに基づいて対応区間を生成する一例について図５を参照して説明する。
グラフ５０１およびグラフ５０２はそれぞれ、異なるカメラで撮影された映像から抽出された特徴量に、最も近い音響モデルの尤度である。音響モデルは、音響の周波数成分をもとにＭＦＣＣ（Mel Frequency Cepstral Coefficient：メル周波数ケプストラム係数）を求め、その分布をＧＭＭ（Gaussian Mixture Model：ガウス混合モデル）で記述したモデルである。このような音響モデルを音響から複数作成しておく。音響モデルの作成は予め、会話モデル、拍手モデル、歓声モデルなどを用意してもよいし、撮影時の音響をクラスタリングすることで音響モデルを生成してもよい。
撮影時の音響の判定単位ごとに音響モデルとの比較を行い、判定単位区間で最も尤度の高い音響モデルをその区間のモデルとし、その尤度を算出する。

なお、音響モデルを用いることで区間の分割を行うこともできる。区間５０３から区間５０６まで、および、区間５０７から区間５１０までが分割された区間とする。このとき、区間５０３から区間５０４までの分割点では音響モデルが切り替わる。そして、斜線部分の区間５０５と区間５０８とが同じ音響モデルであれば、これらの区間は同じ場面を撮影したものと推定することができ、これらの区間を対応付けて対応区間を生成することができる。また、ＧＭＭによる混合モデルを用いているため、背景音に音声が重畳しているような場合であっても、背景音の類似度が高ければ同じシーンであると推定することができ、背景音に影響されず対応区間を生成することができる。

次に、算出部１０５で算出される要約スコアの算出方法の一例について図６を参照して説明する。
スコア６０１からスコア６０６まではそれぞれ、顔の数、顔の大きさ、笑顔度、鮮明度、発話、歓声といった映像の特性を表わすための要素を、映像から抽出してゼロから１の間でスコア付けした値の時間変化を示す。要約スコア６０７は、これらの要素ごとのスコアを加算して正規化した値である。加算する際に、要素ごとの重要度に応じて重み付けして加算してもよい。例えば、特定の人物が重要なイベントであれば、顔の大きさまたは発話のスコアが高くなるよう重み付けし、歓声のスコアが低くなるよう重み付けすればよい。なお、ここでは要約スコアを複数の要素から算出する例を示したが、映像の時間変化とともにスコアの変化があれば、ひとつの要素を用いて行ってもよい。また、算出コスト削減のために適宜要素数を減らしてもよい。また、スコアの変化は画像のフレームを基準に変化を算出してもよく、例えば画像に付した番号（フレーム番号）をもとに算出してもよい。
また、結婚式の新郎新婦のように、イベントでは要約の中心となるべき主役が存在することがある。そこで、顔検出によって得られた複数の顔を顔の特徴量に基づいてクラスタリングして人物ごとに分類し、クラスタ（分類した集合）要素数から主役を決定して高いスコアを与えるようにしてもよい。

次に、選択部１０６における要約区間の選択手法について図７および図８を参照して説明する。図７は、要約スコアが閾値を超える区間を要約区間として選択する場合を示し、図８は最も高い要約スコアを有する区間を要約区間として選択する場合を示す。
図７は、１つの映像から要約区間を選択する手法であり、まず、要約スコア６０７に対して閾値７０１を設定する。次に、閾値７０１よりも要約スコアが大きい区間である、区間７０２から区間７０５までを要約区間として選択する。なお、閾値７０１は、予め設定した値でもよいし、要約区間の数または要約区間の時間の総和が所定の値となるように設定してもよい。

また、図８に示すように、複数の映像を用いた区間の対応付けが要約スコアの算出単位でなされる場合は、各単位で最も高い要約スコアを持つ映像の区間を選択すればよい。具体例としては、始めに、映像Ａから映像Ｃに対応する要約スコア８０１から要約スコア８０３までをそれぞれ算出する。要約スコア８０１から要約スコア８０３までは、それぞれ時間が同期するように並べて記述する。また、図８中の斜線部は非撮影区間である。次に、各時刻において最大の要約スコアを持つ映像が切り替わる位置で、区間に分割する。すなわち、最初は、映像Ａ、Ｂ、Ｃの中で映像Ｃの要約スコア８０３が一番高いため映像Ｃが要約区間として選択され、途中で映像Ａの要約スコアが映像Ｃの要約スコアよりも高くなるので、要約区間として映像Ａが選択される。この際、映像Ｃと映像Ａとの切り替えが行われる位置を分割位置として、区間８０５では映像Ｃが、区間８０６では映像Ａが要約区間の映像として用いられる。上述の処理を繰り返すことにより、要約区間８０５から要約区間８０８までを得ることができる。なお、各時間位置における最大の要約スコアを算出して、上述した要約区間により構成された映像が要約映像８０４となる。

以上に示した第１の実施形態によれば、複数の映像から要約映像を作成する際に、映像に関する特徴量を用いて区間の対応付けを行うことにより、撮影時刻情報がない映像でも同一時刻の映像を対応付けることができ、さらに映像の重要度を示す要約スコアを算出することにより、重要なシーンの判定が可能となる。すなわち、イベントの重要なシーンの誤判定を低減しつつ高品質な要約映像を作成することができる。

（第２の実施形態）
１人の撮影者が複数のカメラを設置して撮影した、同一のイベントに関する映像を１ヶ所に集めて管理および編集を行うことは容易であるが、複数の撮影者が同一のイベントを個々に撮影した場合では、すぐに映像を集めることができない場合が多い。そこで第２の実施形態では、複数の撮影者（クライアント）が個々に映像をサーバに転送し、サーバ上で要約を作成するシステムを想定する。このようにすることで、要約映像を作成する際により多くの映像を用いることができ、さらに高品位な要約映像を作成することができる。

この際、サーバに第１の実施形態に係る映像処理装置の構成を全て含めてもよいし、ネットワークに接続される複数の装置に映像処理装置の構成を分散させて配置することも可能である。映像処理装置を分散させた場合、映像から各処理部において必要な情報を選択的に送信できるため、転送量を低減できる利点がある。例えば、クライアントからサーバへ転送する情報としては、フレームを間引いた画像または縮小した画像を用いればよい。また、ＭＰＥＧ等の符号化データであれば、動きベクトルまたはフレーム内符号化された画像の低周波成分から生成される低解像度画像を用いればよい。あるいは、特徴量抽出時には音響特徴だけを用いてもよい。特に音響特徴は、映像の画像データと比較してデータサイズが小さいため、音響特徴を用いて転送する映像の区間を絞り込めば、全体の転送量を大きく削減できる。

第２の実施形態に係る映像処理システムについて図９を参照して説明する。
第２の実施形態に係る映像処理システム９００は、サーバ９０１、クライアント９０２−１，９０２−２，９０２−３を含む。サーバ９０１と各クライアント９０２とは、ネットワーク９０３を介して接続される。なお、第２の実施形態では、サーバ９０１を１台、クライアント９０２を３台として説明するが、これに限らず何台でもよい。但し、サーバ９０１が複数台存在する場合は、１カ所のサーバに処理に必要なデータを集める必要がある。
第２の実施形態では、図１に示した、取得部１０１と出力部１０７とをクライアント９０２側とし、生成部１０３、第２抽出部１０４、算出部１０５、および選択部１０６とをサーバ９０１側とする場合を想定する。各部の動作は、それぞれ第１の実施形態に係る部と同様であるため、ここでの説明は省略する。

次に、映像処理システム９００の動作について図１０のフローチャートを参照して説明する。
ステップＳ１００１では、クライアント９０２が１以上の映像を取得する。
ステップＳ１００２では、クライアント９０２が、映像に含まれる音響をサーバ９０１に送信する。
ステップＳ１００３では、サーバ９０１が音響を受信する。このとき、サーバ９０１は、複数のクライアント９０２から音響を受信することとなる。
ステップＳ１００４では、サーバ９０１の第１抽出部１０２が、音響から音響特徴を抽出する。
ステップＳ１００５では、サーバ９０１の生成部１０３が、複数の映像の音響特徴から、区間を対応付けて対応区間を生成する。なお、サーバ９０１は、全てのクライアント９０２から音響を受信していない場合は、全てのクライアント９０２から音響情報を受信するまで区間を対応付ける処理を保留してもよいし、一定数のクライアント９０２から音響を受信したら区間を対応付ける処理を行ってもよい。

ステップＳ１００６では、サーバ９０１の第２抽出部１０４が、第１の実施形態と同様の手法で共通映像区間を抽出する。
ステップＳ１００７では、サーバ９０１からクライアント９０２へ共通映像区間を送信する。この際、サーバ９０１は、全てのクライアント９０２に対して共通映像区間を送信してもよいし、音響をサーバ９０１に送信したクライアント９０２のみに、共通映像区間を送信してもよい。
ステップＳ１００８では、クライアント９０２は共通映像区間を受信する。
ステップＳ１００９では、クライアント９０２は、共通映像区間に示された区間の画像（部分画像ともいう）をサーバ９０１に送信する。このとき、サーバ９０１は、複数のクライアント９０２から部分画像を受信することとなる。
ステップＳ１０１０では、サーバ９０１はクライアント９０２から部分画像を受信する。
ステップＳ１０１１では、サーバ９０１の第１抽出部１０２が、部分画像から画像特徴を抽出する。
ステップＳ１０１２では、サーバ９０１の算出部１０５が、画像特徴に基づいて共通映像区間に含まれる映像の要約スコアを算出する。なお、音響特徴を合わせて要約スコアを算出してもよい。

ステップＳ１０１３では、サーバ９０１の選択部１０６が、要約スコアに基づいて要約区間を選択する。
ステップＳ１０１４では、サーバ９０１からクライアント９０２へ要約区間を送信する。要約区間としては、具体的には、クライアント９０２自身から送信した映像に関わる区間の場合は、区間を特定する情報のみでもよいし、映像自体を含んでもよい。また、他のクライアント９０２から送信された映像を含む場合は、その映像自体を含むようにする。ただし、クライアント９０２から送信されていない映像であっても、例えば、動画共有サービスなどを用いて視聴が可能な場合は、その場所（ＵＲＬなど）と区間を特定する情報とであってもよい。
ステップＳ１０１５では、クライアント９０２が要約区間を受信する。
ステップＳ１０１６では、クライアント９０２の出力部１０７が、要約区間を出力する。なお、出力される要約区間は、映像または区間を特定する情報だけでもよいし、要約区間の映像を結合した要約映像でもよい。

以上に示した第２の実施形態によれば、複数のクライアントからの映像をサーバで処理することにより、複数の映像から効率よく高品位な要約映像を生成することができる。また、特徴量を抽出する際に画像よりもデータサイズが小さい音響を転送することで、クライアントとサーバとの間の転送量を削減することができる。

（第３の実施形態）
同一のイベントを複数のカメラで撮影した映像を編集する際に、しばしば典型ショットパターンが用いられる。典型ショットパターンは、ショットの集合が所定の映像シーンとなるようなショットの組み合わせを示す。具体的には、例えば、乾杯の挨拶の場面を編集する場合を想定すると、初めに挨拶を行う人物を中心としたショットを写し、挨拶のあと、拍手をする会場のショットに切り替わるという映像の遷移パターンである。このように編集するには、予め複数のカメラを用意しておき、典型ショットパターンが撮影できるように、どのタイミングでどの映像を撮影するというような準備が必要であり、プロのカメラマンではない一般の参加者が気軽に撮影することは難しい。しかし、複数の参加者が偶然異なる方向の映像を撮影していれば、それらの映像を合わせることで典型ショットパターンの映像を作成することができる。

第３の実施形態に係る映像処理装置について図１１のブロック図を参照して説明する。
第３の実施形態に係る映像処理装置１１００は、取得部１０１と、第１抽出部１０２と、生成部１０３と、第２抽出部１０４と、算出部１０５と、選択部１１０３と、出力部１０７と、検出部１１０１と、補正部１１０２とを含む。
取得部１０１、第１抽出部１０２、生成部１０３、第２抽出部１０４、算出部１０５、および出力部１０７は、第１の実施形態と同様の動作を行うためここでの説明は省略する。

検出部１１０１は、第１抽出部１０２から特徴量を、後述するショットパターン辞書１１０４から典型ショットパターンの特徴量モデルをそれぞれ受け取り、特徴量と典型ショットパターンの特徴量モデルとを比較して尤度を算出する。特徴量モデルは、典型ショットパターンとしての映像の特徴量をモデル化し、時系列に表したモデルである。
補正部１１０２は、検出部１１０１から尤度を受け取り、尤度に応じて補正値を生成する。
選択部１１０３は、第１の実施形態とほぼ同様の動作を行い、算出部１０５から要約スコアを、補正部１１０２から補正値をそれぞれ受け取り、補正値を要約スコアに加算した補正要約スコアに基づいて、要約区間を選択する。
ショットパターン辞書１１０４は、複数の典型ショットパターンの特徴量モデルを格納する。なお、典型ショットパターンの特徴量モデルは、予め経験的にパラメータを設定して生成してもよいし、統計データを用いて学習させて生成してもよい。また、ｗｅｂなど外部にある辞書から特徴量モデルを受け取って、適宜格納するようにしてもよい。ショットパターン辞書１１０４は、図１３を参照して後述する。

次に、第３の実施形態に係る映像処理装置１１００の動作について図１２のフローチャートを参照して説明する。なお、ステップＳ１０１からステップＳ１１０までは、第１の実施形態と同様の処理を行うので、ここでの説明は省略する。
ステップＳ１２０１では、検出部１１０１が、ショットパターン辞書１１０４から典型ショットパターンの特徴量モデルを取得する。
ステップＳ１２０２では、検出部１１０１が、ステップＳ１０２で算出された特徴量と、１以上の典型ショットパターンの特徴量モデルとを比較し、一致するかどうかの尤度を典型ショットパターンごとに算出する。尤度を算出した結果、閾値以上の尤度を有する典型ショットパターンがある場合、ステップＳ１２０３へ進み、閾値以上の尤度を有する典型ショットパターンがない場合、ステップＳ１０９へ進む。
ステップＳ１２０３では、補正部１１０２が、尤度によって重み付けされた値を補正値として生成する。補正値は、典型ショットパターンとして用いられる区間が選ばれやすくなるような値として算出されればよい。その後、選択部１１０３が、典型ショットパターンとして用いられる区間の要約スコアと補正値とを加算して補正要約スコアを生成する。

次に、典型ショットパターン辞書に格納される典型ショットパターンの一例について図１３を参照して説明する。
図１３に示すように、典型ショットパターンに用いられるショットがどのような要素で構成されるかをそれぞれ対応付けて、ショットごとに格納する。これら複数のショットを組み合わせることで典型ショットパターンを生成することができる。
例えば、乾杯の挨拶を想定すると、挨拶をしているショットではカメラの動きは少なく、画面の中央で比較的大きく人物が撮影されていることが多い。また、会場が拍手をしている場面ではたくさんの人が写っていたり、会場全体を見渡すようなカメラの動き（パン）を伴っていたりする。よって、画像特徴は構図に関わる顔の位置や大きさ、またはカメラの動きの特徴と含むモデルとする。また、音響特徴についても、挨拶をしている区間では人の声が主体で、拍手をしている区間では拍手の音が主体であるので、音響タイプとしては人の声や拍手などの周波数分布をモデルとする。

具体的には、図１３に示す「ショット１」では、１人の人物が挨拶をしている場面であるので、パラメータとして「顔の数」が１、「顔の位置」が画面中央、「顔の大きさ」が大、「カメラワーク」は固定、「音響タイプ」は会話モデルとなる特徴量を格納する。一方、「ショット２」では、会場全体を見渡すため、「顔の数」が５以上、「顔の位置」が画面全体、「顔の大きさ」が小、「カメラワーク」はパン、「音響タイプ」は拍手モデルとなる特徴量を格納する。撮影した映像の特徴量に、「ショット１」と「ショット２」との特徴量モデルに対応する組み合わせがあれば、典型ショットパターンを生成することができる。
なお、特徴量モデルは、画像特徴と音響特徴との両方を含む必要はなく、一方だけを含んでもよい。さらに、特徴量モデルは、画像特徴および音響特徴以外の特徴によって生成されてもよい。また、典型ショットパターンのパラメータとして図１３に示す他に、イベントの主人公（新郎新婦など）であるかどうかを含めてもよく、顔の向きまたは口の動きなどの詳細な顔のパラメータなどを含めてもよい。これによって、結婚式でスピーチをする者が新郎新婦に問いかけるような典型ショットパターンも作成できる。

次に、検出部１１０１と補正部１１０２との処理について図１４を参照して説明する。
検出部１１０１は、映像から算出された特徴量と典型ショットパターンに記述された特徴量モデルとを比較し、どの程度特徴量が一致しているかの尤度を算出する。例えば、時間単位に対応付けられた２つの映像Ａ、Ｂについて、ある位置を境に映像Ａではショット１のパターン、映像Ｂではショット２のパターンというように、尤度が高い区間を探索する。同様に映像Ａに対してショット２の尤度を算出し、映像Ｂに対してショット１の尤度を算出するように入れ替えて評価する。
全てを探索した後、最も尤度が高いショットを組み合わせて典型ショットパターンを生成できる場合は、補正部１１０２は、要約区間としてそれぞれのショットが選択されるような補正値を生成する。

以上に示した第３の実施形態によれば、典型ショットパターンの特徴量をモデル化しておき、さらに複数の映像から典型ショットパターンを検出して該当する区間を含む映像を組み合わせることで、典型ショットパターンとして撮影することを意識せずに、典型ショットパターンを含む要約映像を作成することができる。

（第４の実施形態）
第１の実施形態では、要約映像を作成すると、要約映像作成者とは別のユーザが保有する映像が要約区間に含まれる場合があり、ユーザによっては、自分が保有する映像を他者に使われることを望まないことがある。そこで第４の実施形態では、別のユーザが保有する映像が要約区間に含まれたときは、映像を保有するユーザに利用許可を求め、許諾を得られなかった場合にはその区間が含まれないように要約区間を変更する。このようにすることで、ユーザの意思を尊重した要約映像を生成することができる。

第４の実施形態に係る映像処理装置について図１５のブロック図を参照して説明する。
第４の実施形態に係る映像処理装置１５００は、取得部１０１と、第１抽出部１０２と、生成部１０３と、第２抽出部１０４と、算出部１０５と、選択部１５０２と、出力部１０７と、管理部１５０１とを含む。
取得部１０１、第１抽出部１０２、生成部１０３、第２抽出部１０４、算出部１０５、および出力部１０７については、第１の実施形態と同様の動作を行うためここでの説明は省略する。
なお、映像には、映像を他のユーザが利用できるかどうか（例えば、他人が要約映像に利用できるかどうか）を示す可否情報が付与されるとする。

管理部１５０１は、後述する選択部１５０２から要約区間を受け取り、要約区間に含まれる映像が、可否情報に基づいて許諾区間であるかまたは未許諾区間であるかを判定する。許諾区間は、要約区間の含まれる映像の可否情報が「可」となっている区間であり、未許諾区間は、要約区間の含まれる映像の可否情報が「不可」となっている区間である。また、管理部１５０１は、未許諾区間の映像を保有するユーザに利用許可を請求する。
選択部１５０２は、第１の実施形態に係る選択部１０６とほぼ同様の動作を行うが、要約区間に未許諾区間が含まれる場合は、未許諾区間の映像を削除するか、または次に要約スコアの高い共通映像区間を要約区間として選択する点が異なる。

次に、管理部１５０１および選択部１５０２の動作について図１６のフローチャートを参照して説明する。
ステップＳ１６０１では、管理部１５０１が、選択部１５０２から要約区間を取得する。
ステップＳ１６０２では、要約区間に未許諾区間が含まれているかどうかを判定する。要約区間に未許諾区間が含まれる場合は、ステップＳ１６０３に進み、要約区間に未許諾区間が含まれない場合は処理を終了し、要約区間には変更を加えない。
ステップＳ１６０３では、管理部１５０１が、未許諾区間の映像を保有するユーザに利用許可を請求する。なお、明示的に許諾を求めるメッセージなどを表示するのではなく、ユーザの登録情報またはユーザが登録しているソーシャル・ネットワーク・サービス（ＳＮＳ）において、管理部１５０１が、参加しているコミュニティの映像許諾の有無、映像コンテンツの公開範囲などの各種情報に基づいて、自動的に判定してもよい。また、管理部１５０１が未許諾区間の映像を保有するユーザに直接的に利用許可を請求せずに、要約映像作成者に、「要約映像に未許諾区間の映像が含まれます。他のユーザに利用許可を取りますか？」という旨のメッセージを表示して、利用許可の請求を行うように促してもよい。さらに、利用許可の請求は、ユーザ間で直接行う代わりに、サーバを介して匿名で行ってもよい。

ステップＳ１６０４では、要約区間の全区間の利用許可が得られたかどうかを判定する。要約区間の全区間の利用許可が得られた場合は、要約区間を変更することなく処理を終了する。利用許可を得られなかった区間が存在する場合は、ステップＳ１６０５へ進む。
ステップＳ１６０５では、利用許可が得られなかった区間を要約映像から除くように要約区間を変更する。要約区間の変更は、例えば、該当する区間を削除したり、該当する区間の要約スコアを小さくして、他の区間が選ばれるように設定すればよい。その後、新しく選ばれた区間に対して同様の処理を行うために、再びステップＳ１６０２に戻り、全ての要約区間の許諾が得られるまで処理を繰り返す。

以上に示した第４の実施形態によれば、別のユーザが保有する映像が要約区間に含まれたときは、映像を保有するユーザに利用の許諾を求めることにより、許諾を得られなかった場合にはその区間が含まれないように要約区間が変更することができ、ユーザの意思を尊重した要約映像を生成することができる。

（第５の実施形態）
第５の実施形態では、例えば、複数のユーザが各々のカメラで撮影した映像を共通のサーバ上で保持する環境において、あるユーザＡが保有する映像と同じイベントを撮影した映像を別のユーザＢが保有しているときに、ユーザＢに対して、サーバ上に同じイベントに参加したユーザＡがいることを通知する。ユーザＢからユーザＡに対しても同様に通知することができる。このようにすることで、同じ趣向のユーザまたはコミュニティといったユーザが関心のある情報を提示することができる。

第５の実施形態に係る映像処理装置について図１７のブロック図を参照して説明する。
第５の実施形態に係る映像処理装置１７００は、取得部１０１と、第１抽出部１０２と、生成部１０３と、算出部１７０１と、判定部１７０２と、通知部１７０３とを含む。
取得部１０１、第１抽出部１０２、および生成部１０３については、第１の実施形態と同様の動作を行うため、ここでの説明は省略する。
算出部１７０１は、生成部１０３から複数の対応区間を受け取り、ユーザ関連度スコアを算出する。ユーザ関連度スコアは、入力映像を保有するユーザ間の関連度を示す値であり、スコアが高いほどユーザ間の関連度が高いことを示す。ユーザ関連度スコアは例えば、対応区間の長さを用いる。また、実際に区間として抽出しなくても、区間の対応付けのために算出する特徴量の距離あるいは類似度をユーザ関連度スコアとしてもよい。
判定部１７０２は、算出部１７０１からユーザ関連度スコアを受け取り、ユーザ関連度スコアが閾値以上のユーザがいるかどうかを判定する。さらに、ユーザ関連度スコアが閾値以上であるユーザに対して通知許可があるかどうかを判定する。
通知部１７０３は、判定部１７０２から判定結果を受け取り、判定結果に基づいてユーザに通知する。

次に、第５の実施形態に係る映像処理装置１７００の動作について図１８のフローチャートを参照して説明する。
なお、ステップＳ１０１からステップＳ１０５までは、第１の実施形態と同様の処理を行うためここでの説明は省略する。
ステップＳ１８０１では、算出部１７０１が、対応区間についてユーザ関連度スコアを算出する。
ステップＳ１８０２では、判定部１７０２が、ユーザ関連度スコアが所定の閾値以上であるユーザがいるかどうかを判定する。ユーザ関連度スコアが閾値以上のユーザがいない場合は処理を完了する。ユーザ関連度スコアが閾値以上のユーザがいる場合は、ステップＳ１８０３に進む。
ステップＳ１８０３では、通知部１７０３が、他の関連ユーザ（上述の説明ではユーザＢ）に対して、自身（ユーザＡ）が関連ユーザであることを通知するかどうかの認証をユーザＡに対して通知する。認証は、例えばメッセージをユーザＡに表示して、ユーザＡが可否を入力することで回答すればよい。また、他の関連ユーザは複数存在する可能性があり、各々の関連ユーザに対して、通知するかどうかの許可をユーザＡに求めてもよい。

ステップＳ１８０４では、通知部１７０３が、通知許可をした他の関連ユーザがいるかどうかを判定する。この判定は、例えばステップＳ１８０３において自身が関連するユーザであることを通知すると決定したユーザがいるかどうかで判定する。通知許可のある他の関連ユーザがいる場合はステップＳ１８０５に進み、通知許可のある他の関連ユーザがいない場合は処理を終了する。
ステップＳ１８０５では、通知部１７０３が、他の関連ユーザに通知を行う。以上で映像処理装置１７００の動作を終了する。
なお、ユーザＢからユーザＡに通知する場合も同様に、他の関連ユーザ（ユーザＡ）に対して、自身（ユーザＢ）が関連ユーザであることを通知してもよいか許可をユーザＢに求める。許可は、例えばメッセージを表示して、ユーザＢが可否を入力することで回答する。また、ユーザＡが操作しているときと同時刻にユーザＢが操作をしているとは限らないので、メッセージを表示するページへの誘導は電子メールなどを用いてもよい。さらに、関連するユーザが複数存在する場合、各々のユーザがすぐに回答するとは限らない。その場合は、定期的に通知許可のある関連ユーザがいるかチェックを行い、関連するユーザがいる場合に通知を行えばよい。
さらに、自身（ユーザＡ）が他の関連ユーザ（ユーザＢ）への通知を常時許可する場合は、他のユーザに対して、他の関連ユーザが自身（ユーザＡ）を参照するかどうかについての通知をおこなってもよい。例えば、通知部１７０３が、ユーザＢに対して、「新しい関連ユーザがいます。ご覧になりますか？」という旨のメッセージを通知し、ユーザＢが可否を入力すればよい。ユーザＢが「可（Ｙｅｓ）」を選択すれば、新しい関連ユーザＡを参照することができる。

なお、ソーシャル・ネットワーク・サービス（ＳＮＳ）では関連の深いユーザ同士でコミュニティを作成し、コミュニティ内でメールやブログなどのコミュニケーションを図ることができる。当然、コミュニティに属するユーザは関連度が高いと考えられる。そこで、通知部１７０３は、関連ユーザより算出されるコミュニティ関連度スコアに基づいて、関連度が高いコミュニティへの参加を促すような通知をユーザに行ってもよい。さらに、自身に関連するコミュニティが既にサービス上に存在するかどうか分からない場合には、保有する映像およびコミュニティ関連度スコアに基づいてコミュニティを探すこともできる。
コミュニティ関連度スコアは例えば、コミュニティに属するユーザの関連度スコアの平均値とする。または、コミュニティに属するユーザのうち、関連ユーザの数の合計値または割合を求めてもよい。

以上に示した第５の実施形態によれば、ユーザ関連度スコアから同じ趣向のユーザまたはコミュニティといったユーザが関心のある情報を提示することができる。

なお、上述した実施形態では動画を用いて記述しているが、同様の処理は静止画についても行うことができる。１秒間に１枚〜１０数枚程度の細かい間隔で撮影された静止画であれば、動画を１フレームごとに展開して処理したものと考え、画像特徴のみを用いて上述した処理を行うことができる。また、一般的な撮影間隔の写真であっても、撮影時間が近いものをクラスタリングした上で、画像特徴から写真間の類似度を算出して対応付けることで、同様の処理を行うことができる。
上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した映像処理装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フレキシブルディスク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＯＭ、ＤＶＤ±Ｒ、ＤＶＤ±ＲＷなど）、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をＣＰＵで実行させれば、上述した実施形態の映像処理装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているＯＳ（オペレーティングシステム）や、データベース管理ソフト、ネットワーク等のＭＷ（ミドルウェア）等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、ＬＡＮやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は１つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。

なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の１つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００，１１００，１５００，１７００・・・映像処理装置、１０１・・・取得部、１０２・・・第１抽出部、１０３・・・生成部、１０４・・・第２抽出部、１０５・・・算出部、１０６，１１０３，１５０２・・・選択部、１０７・・・出力部、３０１〜３０３・・・映像、３０４〜３１０，４０３〜４１２，５０３〜５１０，７０２〜７０５，８０５〜８０８・・・区間、４０１，４０２・・・特徴量、５０１，５０２・・・グラフ、６０１〜６０６・・・スコア、６０７，８０１〜８０３・・・要約スコア、７０１・・・閾値、８０４・・・要約映像、９００・・・映像処理システム、９０１・・・サーバ、９０２・・・クライアント、９０３・・・ネットワーク、１１０１・・・検出部、１１０２・・・補正部、１１０４・・・ショットパターン辞書、１５０１・・・管理部、１７０１・・・算出部、１７０２・・・判定部、１７０３・・・通知部。

Claims

画像および音響を含む複数の映像を取得する取得部と、
前記映像ごとに、前記画像および前記音響のうちの少なくとも１つを解析し、映像の特性を示す特徴量であって、前記複数の映像の間で共通の特徴を示す特徴量を抽出する第１抽出部と、
前記特徴量の変化に応じて前記映像ごとに該映像を分割して複数の区間を生成し、互いに異なる前記映像に含まれる１以上の区間の特徴量の類似度が第１閾値以上の区間を前記複数の映像間で対応付けて対応区間を生成する生成部と、
前記対応区間を含んだ前記映像の数が第２閾値以上である場合、該対応区間を共通映像区間として抽出する第２抽出部と、
前記共通映像区間の前記画像の特徴量および前記音響の特徴量のうちの少なくとも１つを用いて、共通映像区間で定義され時間を変数とするスコアであって該共通映像区間に含まれる映像部分を要約映像に含める度合いを示す要約スコアを算出する算出部と、
前記要約スコアに基づいて、前記共通映像区間から要約映像に用いる映像部分を要約区間として選択する選択部と、
を具備することを特徴とする映像処理装置。
前記生成部は、前記音響の特徴量に応じて前記対応区間を生成し、
前記算出部は、少なくとも前記画像の特徴量に基づいて、前記要約スコアを算出することを特徴とする請求項１に記載の映像処理装置。
ショットの集合が所定の映像シーンとなるような該ショットの組み合わせを示す典型ショットパターンの特徴量モデルと、前記特徴量とが一致するかどうかの尤度を算出し、前記尤度が第３閾値以上である特徴量を検出する検出部と、
前記尤度が前記第３閾値以上である特徴量から算出された前記要約スコアに対する補正値を生成する補正部と、をさらに具備し、
前記選択部は、前記補正値が加算された要約スコアに基づいて、前記要約区間を選択することを特徴とする請求項１に記載の映像処理装置。
前記映像は、さらに該映像を利用できるかどうかを示す可否情報を含み、
前記要約区間として選択された映像の前記可否情報が利用不可を示す場合、前記映像を保有するユーザに利用許可を請求する管理部をさらに具備し、
前記選択部は、前記要約区間の利用許可が得られない場合は、該要約区間を削除するか、または前記可否情報が利用許可を示す共通映像区間を要約区間として選択することを特徴とする請求項１に記載の映像処理装置。
画像および音響を含む複数の映像を取得する取得部と、
前記映像ごとに、前記画像および前記音響のうちの少なくとも１つを解析し、映像の特性を示す特徴量であって、前記複数の映像の間で共通の特徴を示す特徴量を抽出する第１抽出部と、
前記特徴量の変化に応じて前記映像ごとに該映像を分割して複数の区間を生成し、互いに異なる前記映像に含まれる１以上の区間の特徴量の類似度が第１閾値以上の区間を前記複数の映像間で対応付けて対応区間を生成する生成部と、
前記対応区間の類似度が高いほど映像を保有するユーザ間の関連度が高いことを示す関連度スコアを算出する算出部と、
前記関連度スコアが第４閾値以上であるかどうかを判定する判定部と、
前記関連度スコアが前記第４閾値以上であると判定されたユーザに対しメッセージを通知する通知部と、を具備することを特徴とする映像処理装置。
複数のユーザによって構成されるコミュニティが複数存在する場合、
前記通知部は、前記関連度スコアが、前記コミュニティに属するユーザの関連度スコアから算出されるコミュニティ関連度スコア以上である場合、前記コミュニティに関するメッセージを通知することを特徴とする請求項５に記載の映像処理装置。
画像および音響を含む複数の映像のうち、複数の音響を受信する受信部と、
前記音響ごとに、前記音響を解析し、音響の特性を示す特徴量であって、前記複数の音響の間で共通の特徴を示す第１特徴量を抽出する第１抽出部と、
前記第１特徴量の変化に応じて前記音響ごとに該音響を分割して複数の区間を生成し、互いに異なる音響に含まれる１以上の区間の第１特徴量の類似度が第１閾値以上の区間を複数の音響間で対応付けて対応区間を生成する生成部と、
前記対応区間を含む前記音響の数が第２閾値以上である場合、該対応区間を共通映像区間として抽出する第２抽出部と、を具備し、
前記受信部は、前記共通映像区間に含まれる画像をさらに受信し、
前記第１抽出部は、前記共通映像区間に含まれる画像ごとに、前記共通映像区間に含まれる画像に基づいた画像の特性を示す特徴量であって、前記複数の画像の間で共通の特徴を示す第２特徴量をさらに抽出し、
前記共通映像区間の第２特徴量を用いて、共通映像区間で定義され時間を変数とするスコアであって該共通映像区間に含まれる映像部分を要約映像に含める度合いを示す要約スコアを算出する算出部と、
前記要約スコアに基づいて、前記共通映像区間から要約映像に用いる映像部分を要約区間として選択する選択部と、をさらに具備することを特徴とする映像処理装置。
第１送受信部を具備する１以上のクライアントと、第２送受信部を具備し該クライアントと通信を行うサーバと、を含む映像処理システムであって、
前記クライアントは、
画像および音響を含む複数の映像を取得する取得部をさらに具備し、
前記第１送受信部は、前記音響を送信し、
前記サーバは、
前記第２送受信部は、前記音響を受信し、
前記音響ごとに、前記音響を解析し、音響の特性を示す特徴量であって、前記複数の音響の間で共通の特徴を示す第１特徴量を抽出する第１抽出部と、
前記第１特徴量に応じて前記音響ごとに該音響を分割して複数の区間を生成し、互いに異なる音響に含まれる１以上の区間の第１特徴量の類似度が第１閾値以上の区間複数の音響間で対応付けて対応区間を生成する生成部と、
前記対応区間を含む前記音響の数が第２閾値以上である場合、該対応区間を共通映像区間として抽出する第２抽出部と、をさらに具備し、
前記第２送受信部は、前記共通映像区間を送信し、
前記クライアントにおいて、
前記第１送受信部は、前記共通映像区間を受信して、該共通映像区間に含まれる画像を送信し、
前記サーバは、
前記第２送受信部は、前記共通映像区間に含まれる画像を受信し、
前記第１抽出部は、前記共通映像区間に含まれる画像に基づいた画像の特性を示す特徴量であって、前記複数の画像の間で共通の特徴を示す第２特徴量を、さらに抽出し、
前記共通映像区間の第２特徴量を用いて、共通映像区間で定義され時間を変数とするスコアであって該共通映像区間に含まれる映像部分を要約映像に含める度合いを示す要約スコアを算出する算出部と、
前記要約スコアに基づいて、前記共通映像区間から要約映像に用いる映像部分を要約区間として選択する選択部と、をさらに具備し、
前記第２送受信部は、前記要約区間を送信することを特徴とする映像処理システム。
複数の画像を含む画像群を１以上取得する取得部と、
前記画像群ごとに、前記画像群を解析し、該画像群に基づいた画像の特性を示す特徴量であって、前記複数の画像群の間で共通の特徴を示す特徴を抽出する第１抽出部と、
前記特徴量の変化に応じて前記画像群ごとに該画像群に含まれる画像同士の特徴量の類似度が第１閾値以上の画像を前記複数の画像間で対応付けて、複数の画像を含む対応画像を生成する生成部と、
前記対応画像を含んだ前記画像群の数が第２閾値以上である場合、該対応画像を共通画像として抽出する第２抽出部と、
前記共通画像の特徴量を用いて、該共通画像で定義され時間を変数とするスコアであって該共通画像に含まれる画像を要約画像に含める度合いを示す要約スコアを算出する算出部と、
前記要約スコアに基づいて、前記共通画像から要約画像に用いる部分画像を選択する選択部と、を具備することを特徴とする映像処理装置。
画像および音響を含む複数の映像を取得し、
前記映像ごとに、前記画像および前記音響のうちの少なくとも１つを解析し、映像の特性を示す特徴量であって、前記複数の映像の間で共通の特徴を示す特徴量を抽出し、
前記特徴量の変化に応じて前記映像ごとに該映像を分割して複数の区間を生成し、互いに異なる前記映像に含まれる１以上の区間の特徴量の類似度が第１閾値以上の区間を前記複数の映像間で対応付けて対応区間を生成し、
前記対応区間を含んだ前記映像の数が第２閾値以上である場合、該対応区間を共通映像区間として抽出し、
前記共通映像区間の前記画像の特徴量および前記音響の特徴量のうちの少なくとも１つを用いて、共通映像区間で定義され時間を変数とするスコアであって該共通映像区間に含まれる映像部分を要約映像に含める度合いを示す要約スコアを算出し、
前記要約スコアに基づいて、前記共通映像区間から要約映像に用いる映像部分を要約区間として選択することを具備することを特徴とする映像処理方法。