JP2014179888A

JP2014179888A - 映像要約装置、映像要約方法及び映像要約プログラム

Info

Publication number: JP2014179888A
Application number: JP2013053671A
Authority: JP
Inventors: Shuhei Tarashima; 周平田良島; Taiga Yoshida; 大我吉田; Ken Tsutsuguchi; けん筒口; Hiroyuki Arai; 啓之新井; Yukinobu Taniguchi; 行信谷口
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2013-03-15
Filing date: 2013-03-15
Publication date: 2014-09-25
Anticipated expiration: 2033-03-15
Also published as: JP5898117B2

Abstract

【課題】ハードウェア資源と計算コストの増大を抑えて要約映像を生成することができる映像要約装置を提供する。
【解決手段】映像から要約映像を生成する映像要約裝置であって、映像を構成する映像区間と他の映像区間との類似度に基づき、映像区間を一つのノード、該ノード間の類似度をエッジとするグラフによって映像を表現するグラフ構築部と、グラフを構成するノード群の中から、グラフ分割の開始点となるクエリノードを抽出するクエリ抽出部と、クエリノードを開始点として、クエリノード近傍のノードから構成するサブグラフを生成することによりグラフを分割するグラフ分割処理部と、サブグラフの重複度の高いもの同士を結合したクラスタを生成するクラスタ生成部と、クラスタを構成するノードの中から、代表ノードを抽出する代表ノード抽出部と、代表ノードに対応する映像区間を使用して要約映像生成して出力する要約映像出力部とを備える。
【選択図】図１

Description

本発明は、映像から要約映像を生成する映像要約装置、映像要約方法及び映像要約プログラムに関する。

放送波やインターネットを介して個人がアクセス可能な映像メディアは既に膨大な規模であり、またその規模は増加の一途を辿っている。例えば、ある動画共有サイトでは、１分あたりにアップロードされる動画の総映像長は７２時間にのぼることが報告されている。映像は時間軸を有するメディアであり、一般にその内容は視聴しなくては理解できない。そのため、視聴困難もしくは不可能な規模の映像からその概要を把握したり、所望の情報を発見したりする行為は明らかに多大な労力を伴う。この問題意識のもと、映像を短時間に圧縮し、短時間での概要把握や情報発見を可能にすることを目的とした映像要約技術の発明が今まで数多くなされてきた。

ここで映像要約技術とは、一つ以上の映像から得られる映像区間群の中から、要約に含めるべき映像区間を選択する技術を指す。代表的な映像要約方法として、特許文献１、非特許文献１に記載の技術を挙げることができる。特許文献１では、映像区間から抽出される様々な特徴の重みを、視聴者自身に調節させ、その特徴が一定の閾値を超えたような映像区間を抽出することで、視聴者の嗜好に合った要約映像を生成する技術が開示されている。また、非特許文献１では、放送日時が近いニュースでは同一の話題が扱われる可能性が高いことに着目し、映像区間の見た目と意味双方の観点で類似したニュース映像区間をクラスタリングする技術が開示されている。

特開２０１２−４４３９０号公報

W.-T. Chu, C.-C. Huang and W.-F. Cheng: News Story Clustering from Both What and How Aspects: Using Bag of Word Model and Affinity Propagation, in Proc. AIEM-Pro, pp.7-12, 2011

ところで、視聴困難な規模の映像が存在するという昨今の状況においては、映像要約技術は以下の（１）〜（３）の事項を満たすことが望ましい。
（１）選択された映像区間に重複がない。
（２）要約映像処理に必要な、ハードディスク等の記憶装置へ常に格納しておく必要のあるデータのサイズが小さくて済む。
（３）記憶装置に格納されたデータから要約映像を高速に生成することができる。

まず（１）について、要約映像は短い時間でできるだけ多くの情報を含む必要があるため、選ばれた映像区間の間に重複が発生していないことが望ましい。また重複は個々の映像内だけではなく、要約対象となる全ての映像から得られる映像区間の間で重複していないことが望ましい。

次に（２）について、膨大な規模の映像から要約映像を生成するには、膨大なデータを解析する必要があることが一般的である。中でも特にハードディスク等の記憶装置へ常時格納する必要のあるデータは、データの格納に必要な記憶装置の容量に影響し、運用コストにも影響を及ぼす。低コストでの要約処理を実現するためには、記憶装置へ常に格納しておく必要のあるデータ容量が少なくて済むことが望ましい。

最後に（３）について、記憶装置に格納されたデータに基づく要約処理は、映像データの追加に伴い再度実施されたり、例えば個人の嗜好や興味を反映するために要求に応じて実施されたりすることが想定される。そのため記憶装置に格納されたデータから要約映像を出力する処理は特に高速であることが望ましい。

しかしながら、特許文献１では、要約に含まれる映像区間の選択は特徴の閾値のみで管理されているため、抽出される映像区間は類似したものばかりである可能性があり、（１）の観点が全く考慮されていないという問題がある。

一方、非特許文献１では、類似した映像区間をクラスタリングによってまとめるといった方法が取られており、映像が重複する問題は解決されている。

しかしながら、非特許文献１で用いられるクラスタリングを行うためには、全映像区間間の類似度を記憶装置に格納する必要がある。一般に１時間の映像は約６００の見た目の異なるシーンから構成されると言われているが、仮に１００時間の映像を要約することを考えると、シーンの数はおよそ６００００、全映像区間間の類似度の要素数はおよそ４０億となり、データの格納には膨大容量の記憶装置が必要となるという問題がある。加えて、非特許文献１で用いられるＡｆｆｉｎｉｔｙＰｒｏｐａｇａｔｉｏｎをはじめとする種々のクラスタリング手法は、データサイズの線形、もしくはそれ以上のオーダに比例する計算コストを有する。特に要約対象の映像の数が膨大である場合、記憶装置に格納されたデータから要約映像を生成するための計算コストが膨大であるという問題がある。

本発明は、このような事情に鑑みてなされたもので、ハードウェア資源と計算コストの増大を抑えて要約映像を生成することができる映像要約装置、映像要約方法及び映像要約プログラムを提供することを目的とする。

本発明は、映像から要約映像を生成する映像要約裝置であって、前記映像を構成する映像区間と他の映像区間との類似度に基づき、前記映像区間を一つのノード、該ノード間の類似度をエッジとするグラフによって前記映像を表現するグラフ構築部と、前記グラフを構成するノード群の中から、グラフ分割の開始点となるクエリノードを抽出するクエリ抽出部と、前記クエリノードを開始点として、前記クエリノード近傍のノードから構成するサブグラフを生成することにより前記グラフを分割するグラフ分割処理部と、前記サブグラフの重複度の高いもの同士を結合したクラスタを生成するクラスタ生成部と、前記クラスタを構成する前記ノードの中から、代表ノードを抽出する代表ノード抽出部と、前記代表ノードに対応する映像区間を使用して前記要約映像生成して出力する要約映像出力部とを備えることを特徴とする。

本発明は、前記グラフ分割処理部は、前記サブグラフのうち、クラスタらしさを表す局所的な評価指標を満たすものを前記サブグラフとすることを特徴とする。

本発明は、前記代表ノード抽出部は、前記クラスタ内に類似要素を多く持つ前記ノードを前記代表ノードとして抽出することを特徴とする。

本発明は、前記要約映像出力部は、前記代表ノードが含まれる前記クラスタの大きさでランキングし、ランキングの高い前記ノードに対応する映像区間を、指定された要約映像長になるまで順に結合することで前記要約映像を生成することを特徴とする。

本発明は、映像から要約映像を生成する映像要約裝置が行う映像要約方法であって、前記映像を構成する映像区間と他の映像区間との類似度に基づき、前記映像区間を一つのノード、該ノード間の類似度をエッジとするグラフによって前記映像を表現するグラフ構築ステップと、前記グラフを構成するノード群の中から、グラフ分割の開始点となるクエリノードを抽出するクエリ抽出ステップと、前記クエリノードを開始点として、前記クエリノード近傍のノードから構成するサブグラフを生成することにより前記グラフを分割するグラフ分割処理ステップと、前記サブグラフの重複度の高いもの同士を結合したクラスタを生成するクラスタ生成ステップと、前記クラスタを構成する前記ノードの中から、代表ノードを抽出する代表ノード抽出ステップと、前記代表ノードに対応する映像区間を使用して前記要約映像生成して出力する要約映像出力ステップとを有することを特徴とする。

本発明は、コンピュータを、前記映像要約装置として機能させるための映像要約プログラムである。

本発明によれば、ハードウェア資源と計算コストの増大を抑えつつ、高速に要約映像を生成することができるという効果が得られる。

本発明の一実施形態の構成を示すブロック図である。図１に示す映像要約装置１の処理動作を示すフローチャートである。各映像の分割を伴う場合のグラフの構築の例を示す図である。各映像の分割を伴わない場合のグラフの構築例を示す図である。グラフ分割処理の一例を示す図である。クラスタ生成の一例を示す図である。

以下、図面を参照して、本発明の一実施形態による映像要約装置を説明する。以下の説明では、一つ以上の映像から構成されるものを映像群と称する。図１は同実施形態の構成を示すブロック図である。この図において、符号１は、コンピュータ装置によって構成する映像要約装置である。符号１１は、映像群を入力する映像入力部である。符号１２は、映像入力部によって入力した映像群を記憶する記憶部である。記憶されるデータは、映像そのもの以外にもメタデータと呼ばれるコンテキスト情報が含まれていても構わない。メタデータとして、例えば映像のタイトルや概要文、音声認識やクローズドキャプションによって得られた発話内容および時刻のデータといったものがある。

符号１３は、記憶部１２に記憶された映像群に基づきグラフを構築するグラフ構築部である。符号１４は、グラフ構築部１３において得られた近傍無向グラフから、グラフ分割処理で用いるクエリノードの抽出を行うクエリ抽出部である。符号１５は、クエリ抽出部１４において得られた各クエリを開始点としてグラフ分割処理を行うグラフ分割処理部である。符号１６は、グラフ分割結果に基づきクラスタを生成するクラスタ生成部である。符号１７は、クラスタ生成部１６において得られた各クラスタから、代表ノードを抽出する代表ノード抽出部である。符号１８は、代表ノード抽出部１７において得られた各代表ノードに対応する映像区間を結合することで、要約映像を出力する要約映像出力部である。

次に、図２を参照して、図１に示す映像要約装置１の処理動作を説明する。図２は、図１に示す映像要約装置１の処理動作を示すフローチャートである。まず、映像入力部１１は、外部から映像群を入力し、記憶部１２に記憶する（ステップＳ１）。記憶部１２に映像群が記憶されると、グラフ構築部１３は、記憶部１２に記憶された映像から、映像区間をノード、ノード間の類似性をエッジとして表現するグラフを構築する（ステップＳ２）。ここで定義された各ノードに対応する映像区間は、要約映像として出力される映像区間の候補である。映像区間は、一つの映像として定義してもよいし、例えば各映像の映像長が長い場合は、各映像を分割することで定義してもよい。以下では一つの例として、各映像を区間に分割し、得られた各映像区間の類似性を考慮することでグラフを構築する処理動作について説明する。

まず、グラフ構築部１３は、記憶部１２に記憶された各映像を、映像区間に分割する。分割する方法として、一定間隔で分割しても構わないし、参考文献１「Y. Tonomura, A. Akutsu, Y. Taniguchi and G. Suzuki: Structured Video Computing, IEEE Multimedia, pp.34-43, 1994.」に記載される情報など、見た目が不連続に切り替わる点であるカット点で分割してもよい。映像入力部１１によってクローズドキャプションなどの時刻情報付きメタデータも合わせて入力されている場合、その時刻にしたがって映像を分割するようにしてもよい。

次に、得られた各映像区間から特徴量を抽出する。映像区間の特徴は、（ｉ）動画像を解析することによって得られる動画像特徴、（ｉｉ）音声を解析することによって得られる音声特徴、（ｉｉｉ）映像入力部でメタデータが付与されている場合、メタデータ特徴、のうち、少なくとも一つ以上から構成されるものであり、これらの特徴量は、ヒストグラムもしくはベクトルで表されるものとする。特徴は任意のものを用いることができる。

動画像特徴の場合、例えばＬ^＊ａ^＊ｂ^＊色空間における各軸の値を数え上げることで得られるカラーヒストグラムや、参考文献２「A. Oliva and A. Torralba: Building the Gist of a Scene: The Role of Global Image Features in Recognition、Progress in Brain Research, 155, pp. 23-36, 2006.」に記載される景観に関する特徴を表したＧＩＳＴ記述子を用いて得られるベクトルを用いることができる。

また、音声特徴の場合、例えば音声の韻律に関する特徴を表したメル尺度ケプストラム係数（ＭＦＣＣ，Mel-Frequency Cepstral Coefficients）を用いることができる。また、メタデータ特徴の場合、例えば一つの映像区間を文書、映像区間に付与されたメタデータを単語とみなし、各単語に関するＴＦ−ＩＤＦ値を算出、その値を要素とする文書ベクトルを用いることができる。

なお、ここで抽出される特徴は、グラフが得られた後には必要はないものであり、必ずしも記憶部１２へ記憶する必要はない。

次に、得られた映像区間群および各映像区間の特徴を用いて、一つの映像区間をノード、ノード間の類似関係をエッジとして表現する近傍無向グラフを構築する。図３は、各映像の分割を伴う場合のグラフの構築の例を示す図である。図３に示すように、映像Ａ（１つ目の映像）を映像区間ａ１、ａ２、ａ３、．．．に分割し、映像Ｂ（２つ目の映像）を映像区間ｂ１、ｂ２、ｂ３、．．．に分割する。３つ目の映像、４つ目の映像についても同様である。そして、映像区間それぞれをノード（図３において○で示している）、ノード間の類似関係をエッジ（図３においては直線で示している）として表現する近傍無向グラフを構築する。図３において、ａ１〜ａ３、ｂ１〜ｂ３は、要約に含まれる映像区間の候補である。

グラフ構築は任意の形態で行うことができ、例えば各ノードから見て近傍ｋ個のノードにのみエッジを張るｋ近傍グラフや、各ノードから見て距離εの中に存在するノードにのみエッジを張るε−グラフを構築すればよい。ｋは正の整数をとるパラメータ、εは正の実数をとるパラメータである。ここで、ノード間の類似度もしくは距離は、映像区間特徴抽出部で得られた特徴間で算出される。類似度尺度もしくは距離尺度は任意のものを用いることが可能で、例えば類似度尺度であればコサイン類似度やＪａｃｃａｒｄ係数、距離尺度としてはユークリッド距離やカイ二乗距離といった公知の尺度を用いればよい。

最も単純な近傍グラフの構築方法は、全ノード間総当りで類似度もしくは距離を算出し、各ノードに対して条件に合致する近傍ノードを選択するというものである。しかしこの処理の計算オーダはデータ数の二乗に比例するためコストが高い。近傍グラフを高速に構築する方法は多くの公知技術があるため、これらを用いればよい。例えば、参考文献３「W. Dong, M. Charikar and K. Li: Efficient K-Nearest Neighbor Graph Construction for Generic Similarity Measures, in Proc. WWW, pp.577-586, 2011」、参考文献４「W. Liu, J. He and S.F. Chang: Large Graph Construction for Scalable Semi-Supervised Learning, in Proc. ICML, 2010」、参考文献５「J. Chen, H. Fang and Y. Saad: Fast Approximate kNN Graph Construction for High Dimensional Data via Recursive Lanczos Bisection, Journal of Machine Learning Research, 10, pp. 1989-2012, 2009」等の技術を適用できる。

グラフ構築部１３は、ここで構築したグラフの情報を記憶部１２に記憶する。グラフ構造自体はノードとエッジの情報のみで構成されるため、記憶部１２へ記憶するデータサイズを小さく抑えることが可能となる。なおグラフ構造の記憶には任意のデータベースを用いることができる。例えば隣接ノードへのアクセスにインデクス参照を必要としないデータ構造を有するグラフデータベースを用いれば、データへの高速なアクセスが可能となり好適である。

前述した説明においては、映像の分割を伴う場合のグラフ構築部１３の処理動作を説明したが、映像の分割を伴わない場合の処理動作は、図４に示すように行えばよい。図４は、各映像の分割を伴わない場合のグラフの構築例を示す図である。図４に示すように、映像１〜Ｎそれぞれをノード（図４において○で示している）、ノード間の類似関係をエッジ（図４においては直線で示している）として表現する近傍無向グラフを構築する。図４において、１〜Ｎは、要約に含まれる映像区間の候補である。図３に示す処理動作と図４に示す処理動作を比較すると、図４の処理動作では、映像区間に分割する処理がない点が異なる。すなわち、図４に示す処理は、図３に示す処理動作において１つの映像に映像区間が１つのみある場合と同じである。

次に、クエリ抽出部１４は、グラフ構築部１３において得られた近傍無向グラフから、グラフ分割処理で用いるクエリノードの抽出を行う（ステップＳ３）。クエリノードの抽出には任意の方法を用いることができる。例えば、（ｉ）次数（ノードに張られたエッジの数）次数が高いノードをクエリとして抽出する方法、（ｉｉ）任意の数のノードをランダムにクエリとして抽出する方法を用いることができる。

加えてユーザの興味や嗜好が既知である場合、その情報に基づいてクエリを抽出してもよい。例えば（ｉｉｉ）ユーザが興味を持った映像区間が与えられている場合、それらをクエリとする方法、（ｉｖ）ノードにメタデータが付与されている場合、ユーザが興味を持っているメタデータが付与されている映像区間をクエリとして抽出する方法を用いることができる。

次に、グラフ分割処理部１５は、クエリ抽出部１４において得られた各クエリを開始点としてグラフ分割処理を行う（ステップＳ４）。図５は、グラフ分割処理の一例を示す図である。図５に示すように、クエリノードを開始点として、開始点の近傍において、エッジを辿りながらグラフ分割を行う。ここで言うグラフ分割処理とは、クエリノード近傍の一つ以上のノード群から構成されるサブグラフのうち、最も「クラスタらしい」サブグラフを出力する処理を指す。「クラスタらしさ」を表す評価指標は、グラフ全体の情報をふまえた大域的な評価指標とグラフの局所的な情報のみをふまえた局所的な評価指標の大きく２種類が存在するが、ここでは後者の局所的な評価指標を用いてグラフ分割処理を行う。

局所的な評価指標を用いることによって、個々のクエリを開始点とするグラフ分割処理はグラフ全体のデータサイズに依存せず、よって高速な処理が可能となる。また、グラフ分割処理はクエリ毎に完全に独立であり、容易に並列化が可能であるため、これも処理の高速化に寄与する要因である。更には、評価指標がグラフの局所性を強く反映したものであるため、得られるサブグラフもまた局所性が強く反映されたものとなる。局所性が強く反映されることで、要素間の類似性が明確なサブグラフが生成され、その結果映像群の概要把握により効果のある映像区間を要約映像に含めることに寄与する。

クラスタらしさの局所的な評価指標としては任意のものを用いることができる。例えば（１）式に示されるｄｅｎｓｉｔｙと呼ばれる指標や、（２）式に示されるｃｏｎｄｕｃｔａｎｃｅと呼ばれる指標を用いればよい。

（１）式、（２）式において、ｖｏｌ（Ｓ）はサブグラフＳに含まれるノードの次数和、δ（Ｓ）はサブグラフＳとその外部を接続するエッジ数、｜Ｓ｜はサブグラフの要素数を表す。Ｄｅｎｓｉｔｙはその値が大きいほど、ｃｏｎｄｕｃｔａｎｃｅはその値が小さいほどクラスタらしいことを表している。

これら２つの指標について、Ｄｅｎｓｉｔｙよりもｃｏｎｄｕｃｔａｎｃｅを評価指標とした結果の方がよりよい結果を出力できるため、ｃｏｎｄｕｃｔａｎｃｅを指標として採用するほうがより好適である。

ｃｏｎｄｕｃｔａｎｃｅを指標としたグラフ分割アルゴリズムはいくつか提案されており、ここではそれらの公知技術から任意のものを用いればよい。例えば、参考文献６「D. A. Spielman and S. H. Ten: A Local Clustering Algorithm for Massive Graphs and its Application to Nearly-Linear Time Graph Partitioning, CoRR, abs/0809.3232, 2008」は、グラフを構成する各ノードの次数から得られる遷移確率行列に基づきクエリノードから近傍ノードへの遷移確率を計算し、遷移確率の高いノード群から構成されるサブグラフの中から、ｃｏｎｄｕｃｔａｎｃｅを最小とするものを出力する方法が開示されている。

また、参考文献７「R. Andersen and F. Chung: Detecting Sharp Drops in PageRank and a Simplified Local Partitioning Algorithm, in Proc. TAMC, pp. 1-12, 2008」は、遷移確率行列の代わりにページランク行列を用いる。クエリノードに対し重要度の高いノード群から構成されるサブグラフの中から、ｃｏｎｄｕｃｔａｎｃｅを最小とするものを出力する方法が開示されている。

また、参考文献８「R. Andersen and Y. Peres: Finding Sparse Cuts Locally Using Evolving Sets, in Proc. STOC, pp.235-244, 2009」は、開始点近傍における状態遷移確率をサンプリングによってシミュレートし、グラフ全体の遷移確率行列を用いることなくｃｏｎｄｕｃｔａｎｃｅを最小とするサブグラフを出力する方法が開示されている。

参考文献６〜参考文献８で開示されているグラフ分割処理のうち、もっとも高速であるのは参考文献８の処理である。一方で参考文献８で開示されている技術は、確率的にサンプリングされた値を用いるため、試行毎に得られるサブグラフが必ずしも一致しないという特徴がある。

また、参考文献６〜参考文献８で開示されているいずれの技術においても、得られるサブグラフは繰り返し処理によってそのサイズ（サブグラフに含まれるノードの数）が大きくなるように更新されていく。繰り返し処理を終了させる方法としては、例えばあらかじめｃｏｎｄｕｃｔａｎｃｅの閾値を設定したり、繰り返し処理回数の上限を定めておいたりするなど、任意の方法を用いることができる。

グラフ分割処理部１５におけるグラフ分割処理はクエリ毎に完全に独立しているため、得られたサブグラフ群の中には部分的、もしくは完全に重複しているものが存在する可能性がある。クラスタ生成部１６は、サブグラフの重複度が高いもの同士についてはサブグラフを結合させ、新たなサブグラフを生成する。この処理を経て、クラスタ生成部１６は、グラフ分割処理部１５において得られたサブグラフ群から、クラスタ群を生成する（ステップＳ５）。図６は、クラスタ生成の一例を示す図である。図６に示すように、サブグラフ１とサブグラフ２では、重複している部分が大きい（重複しているノードが多い）ため、サブグラフ１とサブグラフ２と結合して、クラスタとする。

サブグラフの重複度は任意の方法で求めることができる。例えばサブグラフＳ_１とＳ_２に対し、（３）式の評価式を満たす場合両者の和集合として新たなサブグラフを生成するといった方法を用いればよい。（３）式においてρは実数パラメータである。

次に、代表ノード抽出部１７は、クラスタ生成部１６で得られた各クラスタから、代表ノードを抽出する（ステップＳ６）。ここで代表ノードは、クラスタ内で類似した要素を最も多く含むものを抽出する。クラスタ内の各要素は基本的に類似した要素から構成されるが、その中でも特に類似した要素の多いノードは、クラスタの中心を担うノードであると言える。クラスタ中心とも言えるノードを代表として抽出することで、続く処理の結果得られる要約映像が、より映像群の把握に効果的な映像区間を含むことに寄与する。

クラスタ内類似要素を最も多く含むノードの抽出には任意の方法を用いることができる。例えばクラスタ内次数が最も高いノードを代表ノードとして抽出する方法や、グラフ構築部で算出したノード間の類似度を利用して、クラスタ内における類似度の総和が最大となるものを代表ノードとして抽出する方法を用いればよい。

次に、要約映像出力部１８は、代表ノード抽出部１７において得られた各代表ノードに対応する映像区間を結合することで、要約映像を出力する（ステップＳ７）。ここで、例えば出力する要約映像の映像長があらかじめ指定されていた場合など、代表ノードに対応する映像区間全てを要約映像に含むことができないという場合が考えられる。そこで、類似したノードをより多く持つクラスタから抽出された映像区間を優先的に要約映像に含めることとする。これには、クラスタ内要素の数を数え上げ、クラスタ群をランキングすればよい。クラスタ内要素数の多い映像区間を優先することは、映像群を代表する映像区間が優先的に要約映像に含められることになり、結果得られる要約映像が映像群の概要把握に効果的な映像区間を含むことに寄与する。

なお、映像区間の順序については任意の方法を用いることができる。最も簡単な方法は、映像区間選択のために算出したクラスタのランキング結果の順に並べることである。あるいは放送日時など、映像の前後関係を示すメタデータがあらかじめ与えられていた場合、その情報に基づいて映像区間を並べ替えてもよい。

以上説明したように、前述した（１）〜（３）のいずれも満たす要約処理を実現するため、映像区間をノード、ノード間の特徴の類似性をエッジとするグラフで大規模映像群を表現し、このグラフ構造を記憶部へ記憶する。そして、要素間類似度の全ての組み合わせをデータとして保持する必要のある既存手法に比べ、本発明ではノードと、近傍ノード間を接続するエッジの情報のみでデータの全体像を構成することができるため、（２）の要約処理に必要なデータサイズの問題を解決することができる。

また、記憶部に記憶されたグラフのクラスタリングを行い、得られた各クラスタから代表ノードを抽出することによって要約映像を出力するようにした。これにより（１）の重複性の問題を解決することができる。更に本発明で用いるクラスタリング処理は、グラフの局所的な情報のみをふまえた評価指標に基づく、局所グラフ分割処理に基づいたクラスタリングを行う。クラスタリング処理を行うための評価指標がデータサイズに依存していた従来技術に比べ、本発明ではクラスタリング処理の計算コストがデータ数に依存しなくなり、またクラスタリング処理の並列性が増すため、（３）の処理速度の問題を解決することができる。

特に、映像区間をノード、ノード間の特徴の類似性をエッジとするグラフにより映像群を表現することで、要約映像生成処理中に記憶部に常に記憶しておくべきデータのサイズを抑えることができる。また、グラフ分割処理部におけるクエリ毎の処理はグラフのサイズ、すなわちデータ数に依存しないため、高速に処理を実行することができる。またグラフ分割処理はクエリ毎に完全に独立しているため、容易に並列化することが可能であり、処理を高速化することができる。

また、グラフ分割処理部およびクラスタ生成部から得られるクラスタはグラフの局所性が強く反映されるため、より直感的に類似性が明らかな要素から構成されるクラスタを生成することができる。これは、生成される要約映像の精度を高める効果を持ち、映像区間の重複が少なく質の高い要約映像を出力することができる。

また、クラスタに含まれる要素の多さでクラスタをランキングし、上位のクラスタからクラスタ内類似度が最も高いノードに対応する映像区間を要約映像に含める映像区間とすることで、映像区間の重複が少なく質の高い要約映像を出力することができる。

なお、図１における処理部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより映像要約処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境（あるいは表示環境）を備えたＷＷＷシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

以上、図面を参照して本発明の実施の形態を説明してきたが、上記実施の形態は本発明の例示に過ぎず、本発明が上記実施の形態に限定されるものではないことは明らかである。したがって、本発明の技術思想及び範囲を逸脱しない範囲で構成要素の追加、省略、置換、その他の変更を行っても良い。

ハードウェア資源と計算コストの増大を抑えて要約映像を生成することが不可欠な用途に適用できる。

１・・・映像要約装置、１１・・・映像入力部、１２・・・記憶部、１３・・・グラフ構築部、１４・・・クエリ抽出部、１５・・・グラフ分割処理部、１６・・・クラスタ生成部、１７・・・代表ノード抽出部、１８・・・要約映像出力部

Claims

映像から要約映像を生成する映像要約裝置であって、
前記映像を構成する映像区間と他の映像区間との類似度に基づき、前記映像区間を一つのノード、該ノード間の類似度をエッジとするグラフによって前記映像を表現するグラフ構築部と、
前記グラフを構成するノード群の中から、グラフ分割の開始点となるクエリノードを抽出するクエリ抽出部と、
前記クエリノードを開始点として、前記クエリノード近傍のノードから構成するサブグラフを生成することにより前記グラフを分割するグラフ分割処理部と、
前記サブグラフの重複度の高いもの同士を結合したクラスタを生成するクラスタ生成部と、
前記クラスタを構成する前記ノードの中から、代表ノードを抽出する代表ノード抽出部と、
前記代表ノードに対応する映像区間を使用して前記要約映像生成して出力する要約映像出力部と
を備えることを特徴とする映像要約裝置。
前記グラフ分割処理部は、
前記サブグラフのうち、クラスタらしさを表す局所的な評価指標を満たすものを前記サブグラフとすることを特徴とする請求項１に記載の映像要約裝置。
前記代表ノード抽出部は、
前記クラスタ内に類似要素を多く持つ前記ノードを前記代表ノードとして抽出することを特徴とする請求項１または２に記載の映像要約裝置。
前記要約映像出力部は、
前記代表ノードが含まれる前記クラスタの大きさでランキングし、ランキングの高い前記ノードに対応する映像区間を、指定された要約映像長になるまで順に結合することで前記要約映像を生成することを特徴とする請求項１から３のいずれか１項に記載の映像要約裝置。
映像から要約映像を生成する映像要約裝置が行う映像要約方法であって、
前記映像を構成する映像区間と他の映像区間との類似度に基づき、前記映像区間を一つのノード、該ノード間の類似度をエッジとするグラフによって前記映像を表現するグラフ構築ステップと、
前記グラフを構成するノード群の中から、グラフ分割の開始点となるクエリノードを抽出するクエリ抽出ステップと、
前記クエリノードを開始点として、前記クエリノード近傍のノードから構成するサブグラフを生成することにより前記グラフを分割するグラフ分割処理ステップと、
前記サブグラフの重複度の高いもの同士を結合したクラスタを生成するクラスタ生成ステップと、
前記クラスタを構成する前記ノードの中から、代表ノードを抽出する代表ノード抽出ステップと、
前記代表ノードに対応する映像区間を使用して前記要約映像生成して出力する要約映像出力ステップと
を有することを特徴とする映像要約方法。
コンピュータを、請求項１から４のいずれか１項に記載の映像要約装置として機能させるための映像要約プログラム。