JP2014179888A - 映像要約装置、映像要約方法及び映像要約プログラム - Google Patents

映像要約装置、映像要約方法及び映像要約プログラム Download PDF

Info

Publication number
JP2014179888A
JP2014179888A JP2013053671A JP2013053671A JP2014179888A JP 2014179888 A JP2014179888 A JP 2014179888A JP 2013053671 A JP2013053671 A JP 2013053671A JP 2013053671 A JP2013053671 A JP 2013053671A JP 2014179888 A JP2014179888 A JP 2014179888A
Authority
JP
Japan
Prior art keywords
video
graph
node
cluster
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013053671A
Other languages
English (en)
Other versions
JP5898117B2 (ja
Inventor
Shuhei Tarashima
周平 田良島
Taiga Yoshida
大我 吉田
Ken Tsutsuguchi
けん 筒口
Hiroyuki Arai
啓之 新井
Yukinobu Taniguchi
行信 谷口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013053671A priority Critical patent/JP5898117B2/ja
Publication of JP2014179888A publication Critical patent/JP2014179888A/ja
Application granted granted Critical
Publication of JP5898117B2 publication Critical patent/JP5898117B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ハードウェア資源と計算コストの増大を抑えて要約映像を生成することができる映像要約装置を提供する。
【解決手段】映像から要約映像を生成する映像要約裝置であって、映像を構成する映像区間と他の映像区間との類似度に基づき、映像区間を一つのノード、該ノード間の類似度をエッジとするグラフによって映像を表現するグラフ構築部と、グラフを構成するノード群の中から、グラフ分割の開始点となるクエリノードを抽出するクエリ抽出部と、クエリノードを開始点として、クエリノード近傍のノードから構成するサブグラフを生成することによりグラフを分割するグラフ分割処理部と、サブグラフの重複度の高いもの同士を結合したクラスタを生成するクラスタ生成部と、クラスタを構成するノードの中から、代表ノードを抽出する代表ノード抽出部と、代表ノードに対応する映像区間を使用して要約映像生成して出力する要約映像出力部とを備える。
【選択図】図1

Description

本発明は、映像から要約映像を生成する映像要約装置、映像要約方法及び映像要約プログラムに関する。
放送波やインターネットを介して個人がアクセス可能な映像メディアは既に膨大な規模であり、またその規模は増加の一途を辿っている。例えば、ある動画共有サイトでは、1分あたりにアップロードされる動画の総映像長は72時間にのぼることが報告されている。映像は時間軸を有するメディアであり、一般にその内容は視聴しなくては理解できない。そのため、視聴困難もしくは不可能な規模の映像からその概要を把握したり、所望の情報を発見したりする行為は明らかに多大な労力を伴う。この問題意識のもと、映像を短時間に圧縮し、短時間での概要把握や情報発見を可能にすることを目的とした映像要約技術の発明が今まで数多くなされてきた。
ここで映像要約技術とは、一つ以上の映像から得られる映像区間群の中から、要約に含めるべき映像区間を選択する技術を指す。代表的な映像要約方法として、特許文献1、非特許文献1に記載の技術を挙げることができる。特許文献1では、映像区間から抽出される様々な特徴の重みを、視聴者自身に調節させ、その特徴が一定の閾値を超えたような映像区間を抽出することで、視聴者の嗜好に合った要約映像を生成する技術が開示されている。また、非特許文献1では、放送日時が近いニュースでは同一の話題が扱われる可能性が高いことに着目し、映像区間の見た目と意味双方の観点で類似したニュース映像区間をクラスタリングする技術が開示されている。
特開2012−44390号公報
W.-T. Chu, C.-C. Huang and W.-F. Cheng: News Story Clustering from Both What and How Aspects: Using Bag of Word Model and Affinity Propagation, in Proc. AIEM-Pro, pp.7-12, 2011
ところで、視聴困難な規模の映像が存在するという昨今の状況においては、映像要約技術は以下の(1)〜(3)の事項を満たすことが望ましい。
(1)選択された映像区間に重複がない。
(2)要約映像処理に必要な、ハードディスク等の記憶装置へ常に格納しておく必要のあるデータのサイズが小さくて済む。
(3)記憶装置に格納されたデータから要約映像を高速に生成することができる。
まず(1)について、要約映像は短い時間でできるだけ多くの情報を含む必要があるため、選ばれた映像区間の間に重複が発生していないことが望ましい。また重複は個々の映像内だけではなく、要約対象となる全ての映像から得られる映像区間の間で重複していないことが望ましい。
次に(2)について、膨大な規模の映像から要約映像を生成するには、膨大なデータを解析する必要があることが一般的である。中でも特にハードディスク等の記憶装置へ常時格納する必要のあるデータは、データの格納に必要な記憶装置の容量に影響し、運用コストにも影響を及ぼす。低コストでの要約処理を実現するためには、記憶装置へ常に格納しておく必要のあるデータ容量が少なくて済むことが望ましい。
最後に(3)について、記憶装置に格納されたデータに基づく要約処理は、映像データの追加に伴い再度実施されたり、例えば個人の嗜好や興味を反映するために要求に応じて実施されたりすることが想定される。そのため記憶装置に格納されたデータから要約映像を出力する処理は特に高速であることが望ましい。
しかしながら、特許文献1では、要約に含まれる映像区間の選択は特徴の閾値のみで管理されているため、抽出される映像区間は類似したものばかりである可能性があり、(1)の観点が全く考慮されていないという問題がある。
一方、非特許文献1では、類似した映像区間をクラスタリングによってまとめるといった方法が取られており、映像が重複する問題は解決されている。
しかしながら、非特許文献1で用いられるクラスタリングを行うためには、全映像区間間の類似度を記憶装置に格納する必要がある。一般に1時間の映像は約600の見た目の異なるシーンから構成されると言われているが、仮に100時間の映像を要約することを考えると、シーンの数はおよそ60000、全映像区間間の類似度の要素数はおよそ40億となり、データの格納には膨大容量の記憶装置が必要となるという問題がある。加えて、非特許文献1で用いられるAffinity Propagationをはじめとする種々のクラスタリング手法は、データサイズの線形、もしくはそれ以上のオーダに比例する計算コストを有する。特に要約対象の映像の数が膨大である場合、記憶装置に格納されたデータから要約映像を生成するための計算コストが膨大であるという問題がある。
本発明は、このような事情に鑑みてなされたもので、ハードウェア資源と計算コストの増大を抑えて要約映像を生成することができる映像要約装置、映像要約方法及び映像要約プログラムを提供することを目的とする。
本発明は、映像から要約映像を生成する映像要約裝置であって、前記映像を構成する映像区間と他の映像区間との類似度に基づき、前記映像区間を一つのノード、該ノード間の類似度をエッジとするグラフによって前記映像を表現するグラフ構築部と、前記グラフを構成するノード群の中から、グラフ分割の開始点となるクエリノードを抽出するクエリ抽出部と、前記クエリノードを開始点として、前記クエリノード近傍のノードから構成するサブグラフを生成することにより前記グラフを分割するグラフ分割処理部と、前記サブグラフの重複度の高いもの同士を結合したクラスタを生成するクラスタ生成部と、前記クラスタを構成する前記ノードの中から、代表ノードを抽出する代表ノード抽出部と、前記代表ノードに対応する映像区間を使用して前記要約映像生成して出力する要約映像出力部とを備えることを特徴とする。
本発明は、前記グラフ分割処理部は、前記サブグラフのうち、クラスタらしさを表す局所的な評価指標を満たすものを前記サブグラフとすることを特徴とする。
本発明は、前記代表ノード抽出部は、前記クラスタ内に類似要素を多く持つ前記ノードを前記代表ノードとして抽出することを特徴とする。
本発明は、前記要約映像出力部は、前記代表ノードが含まれる前記クラスタの大きさでランキングし、ランキングの高い前記ノードに対応する映像区間を、指定された要約映像長になるまで順に結合することで前記要約映像を生成することを特徴とする。
本発明は、映像から要約映像を生成する映像要約裝置が行う映像要約方法であって、前記映像を構成する映像区間と他の映像区間との類似度に基づき、前記映像区間を一つのノード、該ノード間の類似度をエッジとするグラフによって前記映像を表現するグラフ構築ステップと、前記グラフを構成するノード群の中から、グラフ分割の開始点となるクエリノードを抽出するクエリ抽出ステップと、前記クエリノードを開始点として、前記クエリノード近傍のノードから構成するサブグラフを生成することにより前記グラフを分割するグラフ分割処理ステップと、前記サブグラフの重複度の高いもの同士を結合したクラスタを生成するクラスタ生成ステップと、前記クラスタを構成する前記ノードの中から、代表ノードを抽出する代表ノード抽出ステップと、前記代表ノードに対応する映像区間を使用して前記要約映像生成して出力する要約映像出力ステップとを有することを特徴とする。
本発明は、コンピュータを、前記映像要約装置として機能させるための映像要約プログラムである。
本発明によれば、ハードウェア資源と計算コストの増大を抑えつつ、高速に要約映像を生成することができるという効果が得られる。
本発明の一実施形態の構成を示すブロック図である。 図1に示す映像要約装置1の処理動作を示すフローチャートである。 各映像の分割を伴う場合のグラフの構築の例を示す図である。 各映像の分割を伴わない場合のグラフの構築例を示す図である。 グラフ分割処理の一例を示す図である。 クラスタ生成の一例を示す図である。
以下、図面を参照して、本発明の一実施形態による映像要約装置を説明する。以下の説明では、一つ以上の映像から構成されるものを映像群と称する。図1は同実施形態の構成を示すブロック図である。この図において、符号1は、コンピュータ装置によって構成する映像要約装置である。符号11は、映像群を入力する映像入力部である。符号12は、映像入力部によって入力した映像群を記憶する記憶部である。記憶されるデータは、映像そのもの以外にもメタデータと呼ばれるコンテキスト情報が含まれていても構わない。メタデータとして、例えば映像のタイトルや概要文、音声認識やクローズドキャプションによって得られた発話内容および時刻のデータといったものがある。
符号13は、記憶部12に記憶された映像群に基づきグラフを構築するグラフ構築部である。符号14は、グラフ構築部13において得られた近傍無向グラフから、グラフ分割処理で用いるクエリノードの抽出を行うクエリ抽出部である。符号15は、クエリ抽出部14において得られた各クエリを開始点としてグラフ分割処理を行うグラフ分割処理部である。符号16は、グラフ分割結果に基づきクラスタを生成するクラスタ生成部である。符号17は、クラスタ生成部16において得られた各クラスタから、代表ノードを抽出する代表ノード抽出部である。符号18は、代表ノード抽出部17において得られた各代表ノードに対応する映像区間を結合することで、要約映像を出力する要約映像出力部である。
次に、図2を参照して、図1に示す映像要約装置1の処理動作を説明する。図2は、図1に示す映像要約装置1の処理動作を示すフローチャートである。まず、映像入力部11は、外部から映像群を入力し、記憶部12に記憶する(ステップS1)。記憶部12に映像群が記憶されると、グラフ構築部13は、記憶部12に記憶された映像から、映像区間をノード、ノード間の類似性をエッジとして表現するグラフを構築する(ステップS2)。ここで定義された各ノードに対応する映像区間は、要約映像として出力される映像区間の候補である。映像区間は、一つの映像として定義してもよいし、例えば各映像の映像長が長い場合は、各映像を分割することで定義してもよい。以下では一つの例として、各映像を区間に分割し、得られた各映像区間の類似性を考慮することでグラフを構築する処理動作について説明する。
まず、グラフ構築部13は、記憶部12に記憶された各映像を、映像区間に分割する。分割する方法として、一定間隔で分割しても構わないし、参考文献1「Y. Tonomura, A. Akutsu, Y. Taniguchi and G. Suzuki: Structured Video Computing, IEEE Multimedia, pp.34-43, 1994.」に記載される情報など、見た目が不連続に切り替わる点であるカット点で分割してもよい。映像入力部11によってクローズドキャプションなどの時刻情報付きメタデータも合わせて入力されている場合、その時刻にしたがって映像を分割するようにしてもよい。
次に、得られた各映像区間から特徴量を抽出する。映像区間の特徴は、(i)動画像を解析することによって得られる動画像特徴、(ii)音声を解析することによって得られる音声特徴、(iii)映像入力部でメタデータが付与されている場合、メタデータ特徴、のうち、少なくとも一つ以上から構成されるものであり、これらの特徴量は、ヒストグラムもしくはベクトルで表されるものとする。特徴は任意のものを用いることができる。
動画像特徴の場合、例えばL色空間における各軸の値を数え上げることで得られるカラーヒストグラムや、参考文献2「A. Oliva and A. Torralba: Building the Gist of a Scene: The Role of Global Image Features in Recognition、Progress in Brain Research, 155, pp. 23-36, 2006.」に記載される景観に関する特徴を表したGIST記述子を用いて得られるベクトルを用いることができる。
また、音声特徴の場合、例えば音声の韻律に関する特徴を表したメル尺度ケプストラム係数(MFCC,Mel-Frequency Cepstral Coefficients)を用いることができる。また、メタデータ特徴の場合、例えば一つの映像区間を文書、映像区間に付与されたメタデータを単語とみなし、各単語に関するTF−IDF値を算出、その値を要素とする文書ベクトルを用いることができる。
なお、ここで抽出される特徴は、グラフが得られた後には必要はないものであり、必ずしも記憶部12へ記憶する必要はない。
次に、得られた映像区間群および各映像区間の特徴を用いて、一つの映像区間をノード、ノード間の類似関係をエッジとして表現する近傍無向グラフを構築する。図3は、各映像の分割を伴う場合のグラフの構築の例を示す図である。図3に示すように、映像A(1つ目の映像)を映像区間a1、a2、a3、...に分割し、映像B(2つ目の映像)を映像区間b1、b2、b3、...に分割する。3つ目の映像、4つ目の映像についても同様である。そして、映像区間それぞれをノード(図3において○で示している)、ノード間の類似関係をエッジ(図3においては直線で示している)として表現する近傍無向グラフを構築する。図3において、a1〜a3、b1〜b3は、要約に含まれる映像区間の候補である。
グラフ構築は任意の形態で行うことができ、例えば各ノードから見て近傍k個のノードにのみエッジを張るk近傍グラフや、各ノードから見て距離εの中に存在するノードにのみエッジを張るε−グラフを構築すればよい。kは正の整数をとるパラメータ、εは正の実数をとるパラメータである。ここで、ノード間の類似度もしくは距離は、映像区間特徴抽出部で得られた特徴間で算出される。類似度尺度もしくは距離尺度は任意のものを用いることが可能で、例えば類似度尺度であればコサイン類似度やJaccard係数、距離尺度としてはユークリッド距離やカイ二乗距離といった公知の尺度を用いればよい。
最も単純な近傍グラフの構築方法は、全ノード間総当りで類似度もしくは距離を算出し、各ノードに対して条件に合致する近傍ノードを選択するというものである。しかしこの処理の計算オーダはデータ数の二乗に比例するためコストが高い。近傍グラフを高速に構築する方法は多くの公知技術があるため、これらを用いればよい。例えば、参考文献3「W. Dong, M. Charikar and K. Li: Efficient K-Nearest Neighbor Graph Construction for Generic Similarity Measures, in Proc. WWW, pp.577-586, 2011」、参考文献4「W. Liu, J. He and S.F. Chang: Large Graph Construction for Scalable Semi-Supervised Learning, in Proc. ICML, 2010」、参考文献5「J. Chen, H. Fang and Y. Saad: Fast Approximate kNN Graph Construction for High Dimensional Data via Recursive Lanczos Bisection, Journal of Machine Learning Research, 10, pp. 1989-2012, 2009」等の技術を適用できる。
グラフ構築部13は、ここで構築したグラフの情報を記憶部12に記憶する。グラフ構造自体はノードとエッジの情報のみで構成されるため、記憶部12へ記憶するデータサイズを小さく抑えることが可能となる。なおグラフ構造の記憶には任意のデータベースを用いることができる。例えば隣接ノードへのアクセスにインデクス参照を必要としないデータ構造を有するグラフデータベースを用いれば、データへの高速なアクセスが可能となり好適である。
前述した説明においては、映像の分割を伴う場合のグラフ構築部13の処理動作を説明したが、映像の分割を伴わない場合の処理動作は、図4に示すように行えばよい。図4は、各映像の分割を伴わない場合のグラフの構築例を示す図である。図4に示すように、映像1〜Nそれぞれをノード(図4において○で示している)、ノード間の類似関係をエッジ(図4においては直線で示している)として表現する近傍無向グラフを構築する。図4において、1〜Nは、要約に含まれる映像区間の候補である。図3に示す処理動作と図4に示す処理動作を比較すると、図4の処理動作では、映像区間に分割する処理がない点が異なる。すなわち、図4に示す処理は、図3に示す処理動作において1つの映像に映像区間が1つのみある場合と同じである。
次に、クエリ抽出部14は、グラフ構築部13において得られた近傍無向グラフから、グラフ分割処理で用いるクエリノードの抽出を行う(ステップS3)。クエリノードの抽出には任意の方法を用いることができる。例えば、(i)次数(ノードに張られたエッジの数)次数が高いノードをクエリとして抽出する方法、(ii)任意の数のノードをランダムにクエリとして抽出する方法を用いることができる。
加えてユーザの興味や嗜好が既知である場合、その情報に基づいてクエリを抽出してもよい。例えば(iii)ユーザが興味を持った映像区間が与えられている場合、それらをクエリとする方法、(iv)ノードにメタデータが付与されている場合、ユーザが興味を持っているメタデータが付与されている映像区間をクエリとして抽出する方法を用いることができる。
次に、グラフ分割処理部15は、クエリ抽出部14において得られた各クエリを開始点としてグラフ分割処理を行う(ステップS4)。図5は、グラフ分割処理の一例を示す図である。図5に示すように、クエリノードを開始点として、開始点の近傍において、エッジを辿りながらグラフ分割を行う。ここで言うグラフ分割処理とは、クエリノード近傍の一つ以上のノード群から構成されるサブグラフのうち、最も「クラスタらしい」サブグラフを出力する処理を指す。「クラスタらしさ」を表す評価指標は、グラフ全体の情報をふまえた大域的な評価指標とグラフの局所的な情報のみをふまえた局所的な評価指標の大きく2種類が存在するが、ここでは後者の局所的な評価指標を用いてグラフ分割処理を行う。
局所的な評価指標を用いることによって、個々のクエリを開始点とするグラフ分割処理はグラフ全体のデータサイズに依存せず、よって高速な処理が可能となる。また、グラフ分割処理はクエリ毎に完全に独立であり、容易に並列化が可能であるため、これも処理の高速化に寄与する要因である。更には、評価指標がグラフの局所性を強く反映したものであるため、得られるサブグラフもまた局所性が強く反映されたものとなる。局所性が強く反映されることで、要素間の類似性が明確なサブグラフが生成され、その結果映像群の概要把握により効果のある映像区間を要約映像に含めることに寄与する。
クラスタらしさの局所的な評価指標としては任意のものを用いることができる。例えば(1)式に示されるdensityと呼ばれる指標や、(2)式に示されるconductanceと呼ばれる指標を用いればよい。
Figure 2014179888
Figure 2014179888
(1)式、(2)式において、vol(S)はサブグラフSに含まれるノードの次数和、δ(S)はサブグラフSとその外部を接続するエッジ数、|S|はサブグラフの要素数を表す。Densityはその値が大きいほど、conductanceはその値が小さいほどクラスタらしいことを表している。
これら2つの指標について、Densityよりもconductanceを評価指標とした結果の方がよりよい結果を出力できるため、conductanceを指標として採用するほうがより好適である。
conductanceを指標としたグラフ分割アルゴリズムはいくつか提案されており、ここではそれらの公知技術から任意のものを用いればよい。例えば、参考文献6「D. A. Spielman and S. H. Ten: A Local Clustering Algorithm for Massive Graphs and its Application to Nearly-Linear Time Graph Partitioning, CoRR, abs/0809.3232, 2008」は、グラフを構成する各ノードの次数から得られる遷移確率行列に基づきクエリノードから近傍ノードへの遷移確率を計算し、遷移確率の高いノード群から構成されるサブグラフの中から、conductanceを最小とするものを出力する方法が開示されている。
また、参考文献7「R. Andersen and F. Chung: Detecting Sharp Drops in PageRank and a Simplified Local Partitioning Algorithm, in Proc. TAMC, pp. 1-12, 2008」は、遷移確率行列の代わりにページランク行列を用いる。クエリノードに対し重要度の高いノード群から構成されるサブグラフの中から、conductanceを最小とするものを出力する方法が開示されている。
また、参考文献8「R. Andersen and Y. Peres: Finding Sparse Cuts Locally Using Evolving Sets, in Proc. STOC, pp.235-244, 2009」は、開始点近傍における状態遷移確率をサンプリングによってシミュレートし、グラフ全体の遷移確率行列を用いることなくconductanceを最小とするサブグラフを出力する方法が開示されている。
参考文献6〜参考文献8で開示されているグラフ分割処理のうち、もっとも高速であるのは参考文献8の処理である。一方で参考文献8で開示されている技術は、確率的にサンプリングされた値を用いるため、試行毎に得られるサブグラフが必ずしも一致しないという特徴がある。
また、参考文献6〜参考文献8で開示されているいずれの技術においても、得られるサブグラフは繰り返し処理によってそのサイズ(サブグラフに含まれるノードの数)が大きくなるように更新されていく。繰り返し処理を終了させる方法としては、例えばあらかじめconductanceの閾値を設定したり、繰り返し処理回数の上限を定めておいたりするなど、任意の方法を用いることができる。
グラフ分割処理部15におけるグラフ分割処理はクエリ毎に完全に独立しているため、得られたサブグラフ群の中には部分的、もしくは完全に重複しているものが存在する可能性がある。クラスタ生成部16は、サブグラフの重複度が高いもの同士についてはサブグラフを結合させ、新たなサブグラフを生成する。この処理を経て、クラスタ生成部16は、グラフ分割処理部15において得られたサブグラフ群から、クラスタ群を生成する(ステップS5)。図6は、クラスタ生成の一例を示す図である。図6に示すように、サブグラフ1とサブグラフ2では、重複している部分が大きい(重複しているノードが多い)ため、サブグラフ1とサブグラフ2と結合して、クラスタとする。
サブグラフの重複度は任意の方法で求めることができる。例えばサブグラフSとSに対し、(3)式の評価式を満たす場合両者の和集合として新たなサブグラフを生成するといった方法を用いればよい。(3)式においてρは実数パラメータである。
Figure 2014179888
次に、代表ノード抽出部17は、クラスタ生成部16で得られた各クラスタから、代表ノードを抽出する(ステップS6)。ここで代表ノードは、クラスタ内で類似した要素を最も多く含むものを抽出する。クラスタ内の各要素は基本的に類似した要素から構成されるが、その中でも特に類似した要素の多いノードは、クラスタの中心を担うノードであると言える。クラスタ中心とも言えるノードを代表として抽出することで、続く処理の結果得られる要約映像が、より映像群の把握に効果的な映像区間を含むことに寄与する。
クラスタ内類似要素を最も多く含むノードの抽出には任意の方法を用いることができる。例えばクラスタ内次数が最も高いノードを代表ノードとして抽出する方法や、グラフ構築部で算出したノード間の類似度を利用して、クラスタ内における類似度の総和が最大となるものを代表ノードとして抽出する方法を用いればよい。
次に、要約映像出力部18は、代表ノード抽出部17において得られた各代表ノードに対応する映像区間を結合することで、要約映像を出力する(ステップS7)。ここで、例えば出力する要約映像の映像長があらかじめ指定されていた場合など、代表ノードに対応する映像区間全てを要約映像に含むことができないという場合が考えられる。そこで、類似したノードをより多く持つクラスタから抽出された映像区間を優先的に要約映像に含めることとする。これには、クラスタ内要素の数を数え上げ、クラスタ群をランキングすればよい。クラスタ内要素数の多い映像区間を優先することは、映像群を代表する映像区間が優先的に要約映像に含められることになり、結果得られる要約映像が映像群の概要把握に効果的な映像区間を含むことに寄与する。
なお、映像区間の順序については任意の方法を用いることができる。最も簡単な方法は、映像区間選択のために算出したクラスタのランキング結果の順に並べることである。あるいは放送日時など、映像の前後関係を示すメタデータがあらかじめ与えられていた場合、その情報に基づいて映像区間を並べ替えてもよい。
以上説明したように、前述した(1)〜(3)のいずれも満たす要約処理を実現するため、映像区間をノード、ノード間の特徴の類似性をエッジとするグラフで大規模映像群を表現し、このグラフ構造を記憶部へ記憶する。そして、要素間類似度の全ての組み合わせをデータとして保持する必要のある既存手法に比べ、本発明ではノードと、近傍ノード間を接続するエッジの情報のみでデータの全体像を構成することができるため、(2)の要約処理に必要なデータサイズの問題を解決することができる。
また、記憶部に記憶されたグラフのクラスタリングを行い、得られた各クラスタから代表ノードを抽出することによって要約映像を出力するようにした。これにより(1)の重複性の問題を解決することができる。更に本発明で用いるクラスタリング処理は、グラフの局所的な情報のみをふまえた評価指標に基づく、局所グラフ分割処理に基づいたクラスタリングを行う。クラスタリング処理を行うための評価指標がデータサイズに依存していた従来技術に比べ、本発明ではクラスタリング処理の計算コストがデータ数に依存しなくなり、またクラスタリング処理の並列性が増すため、(3)の処理速度の問題を解決することができる。
特に、映像区間をノード、ノード間の特徴の類似性をエッジとするグラフにより映像群を表現することで、要約映像生成処理中に記憶部に常に記憶しておくべきデータのサイズを抑えることができる。また、グラフ分割処理部におけるクエリ毎の処理はグラフのサイズ、すなわちデータ数に依存しないため、高速に処理を実行することができる。またグラフ分割処理はクエリ毎に完全に独立しているため、容易に並列化することが可能であり、処理を高速化することができる。
また、グラフ分割処理部およびクラスタ生成部から得られるクラスタはグラフの局所性が強く反映されるため、より直感的に類似性が明らかな要素から構成されるクラスタを生成することができる。これは、生成される要約映像の精度を高める効果を持ち、映像区間の重複が少なく質の高い要約映像を出力することができる。
また、クラスタに含まれる要素の多さでクラスタをランキングし、上位のクラスタからクラスタ内類似度が最も高いノードに対応する映像区間を要約映像に含める映像区間とすることで、映像区間の重複が少なく質の高い要約映像を出力することができる。
なお、図1における処理部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより映像要約処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
以上、図面を参照して本発明の実施の形態を説明してきたが、上記実施の形態は本発明の例示に過ぎず、本発明が上記実施の形態に限定されるものではないことは明らかである。したがって、本発明の技術思想及び範囲を逸脱しない範囲で構成要素の追加、省略、置換、その他の変更を行っても良い。
ハードウェア資源と計算コストの増大を抑えて要約映像を生成することが不可欠な用途に適用できる。
1・・・映像要約装置、11・・・映像入力部、12・・・記憶部、13・・・グラフ構築部、14・・・クエリ抽出部、15・・・グラフ分割処理部、16・・・クラスタ生成部、17・・・代表ノード抽出部、18・・・要約映像出力部

Claims (6)

  1. 映像から要約映像を生成する映像要約裝置であって、
    前記映像を構成する映像区間と他の映像区間との類似度に基づき、前記映像区間を一つのノード、該ノード間の類似度をエッジとするグラフによって前記映像を表現するグラフ構築部と、
    前記グラフを構成するノード群の中から、グラフ分割の開始点となるクエリノードを抽出するクエリ抽出部と、
    前記クエリノードを開始点として、前記クエリノード近傍のノードから構成するサブグラフを生成することにより前記グラフを分割するグラフ分割処理部と、
    前記サブグラフの重複度の高いもの同士を結合したクラスタを生成するクラスタ生成部と、
    前記クラスタを構成する前記ノードの中から、代表ノードを抽出する代表ノード抽出部と、
    前記代表ノードに対応する映像区間を使用して前記要約映像生成して出力する要約映像出力部と
    を備えることを特徴とする映像要約裝置。
  2. 前記グラフ分割処理部は、
    前記サブグラフのうち、クラスタらしさを表す局所的な評価指標を満たすものを前記サブグラフとすることを特徴とする請求項1に記載の映像要約裝置。
  3. 前記代表ノード抽出部は、
    前記クラスタ内に類似要素を多く持つ前記ノードを前記代表ノードとして抽出することを特徴とする請求項1または2に記載の映像要約裝置。
  4. 前記要約映像出力部は、
    前記代表ノードが含まれる前記クラスタの大きさでランキングし、ランキングの高い前記ノードに対応する映像区間を、指定された要約映像長になるまで順に結合することで前記要約映像を生成することを特徴とする請求項1から3のいずれか1項に記載の映像要約裝置。
  5. 映像から要約映像を生成する映像要約裝置が行う映像要約方法であって、
    前記映像を構成する映像区間と他の映像区間との類似度に基づき、前記映像区間を一つのノード、該ノード間の類似度をエッジとするグラフによって前記映像を表現するグラフ構築ステップと、
    前記グラフを構成するノード群の中から、グラフ分割の開始点となるクエリノードを抽出するクエリ抽出ステップと、
    前記クエリノードを開始点として、前記クエリノード近傍のノードから構成するサブグラフを生成することにより前記グラフを分割するグラフ分割処理ステップと、
    前記サブグラフの重複度の高いもの同士を結合したクラスタを生成するクラスタ生成ステップと、
    前記クラスタを構成する前記ノードの中から、代表ノードを抽出する代表ノード抽出ステップと、
    前記代表ノードに対応する映像区間を使用して前記要約映像生成して出力する要約映像出力ステップと
    を有することを特徴とする映像要約方法。
  6. コンピュータを、請求項1から4のいずれか1項に記載の映像要約装置として機能させるための映像要約プログラム。
JP2013053671A 2013-03-15 2013-03-15 映像要約装置、映像要約方法及び映像要約プログラム Expired - Fee Related JP5898117B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013053671A JP5898117B2 (ja) 2013-03-15 2013-03-15 映像要約装置、映像要約方法及び映像要約プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013053671A JP5898117B2 (ja) 2013-03-15 2013-03-15 映像要約装置、映像要約方法及び映像要約プログラム

Publications (2)

Publication Number Publication Date
JP2014179888A true JP2014179888A (ja) 2014-09-25
JP5898117B2 JP5898117B2 (ja) 2016-04-06

Family

ID=51699382

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013053671A Expired - Fee Related JP5898117B2 (ja) 2013-03-15 2013-03-15 映像要約装置、映像要約方法及び映像要約プログラム

Country Status (1)

Country Link
JP (1) JP5898117B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022154270A1 (ko) * 2021-01-13 2022-07-21 삼성전자 주식회사 요약 영상 생성 방법 및 그 전자 장치

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000287166A (ja) * 1999-01-29 2000-10-13 Sony Corp データ記述方法及びデータ処理装置
JP2001157165A (ja) * 1999-09-22 2001-06-08 Lg Electronics Inc マルチメディアストリームのセグメント間の意味的連結情報の構成方法並びにこれを用いたビデオブラウジング方法
JP2008276775A (ja) * 2007-04-25 2008-11-13 Fujitsu Ltd 画像検索装置
JP2010245983A (ja) * 2009-04-09 2010-10-28 Nippon Telegr & Teleph Corp <Ntt> 映像構造化装置,映像構造化方法および映像構造化プログラム
JP2011082915A (ja) * 2009-10-09 2011-04-21 Sony Corp 情報処理装置、画像抽出方法及び画像抽出プログラム
WO2012137493A1 (ja) * 2011-04-07 2012-10-11 パナソニック株式会社 画像処理装置、画像処理方法、画像処理プログラム及び集積回路

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000287166A (ja) * 1999-01-29 2000-10-13 Sony Corp データ記述方法及びデータ処理装置
JP2001157165A (ja) * 1999-09-22 2001-06-08 Lg Electronics Inc マルチメディアストリームのセグメント間の意味的連結情報の構成方法並びにこれを用いたビデオブラウジング方法
JP2008276775A (ja) * 2007-04-25 2008-11-13 Fujitsu Ltd 画像検索装置
JP2010245983A (ja) * 2009-04-09 2010-10-28 Nippon Telegr & Teleph Corp <Ntt> 映像構造化装置,映像構造化方法および映像構造化プログラム
JP2011082915A (ja) * 2009-10-09 2011-04-21 Sony Corp 情報処理装置、画像抽出方法及び画像抽出プログラム
WO2012137493A1 (ja) * 2011-04-07 2012-10-11 パナソニック株式会社 画像処理装置、画像処理方法、画像処理プログラム及び集積回路

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022154270A1 (ko) * 2021-01-13 2022-07-21 삼성전자 주식회사 요약 영상 생성 방법 및 그 전자 장치

Also Published As

Publication number Publication date
JP5898117B2 (ja) 2016-04-06

Similar Documents

Publication Publication Date Title
US9165255B1 (en) Automatic sequencing of video playlists based on mood classification of each video and video cluster transitions
CN112015949B (zh) 视频生成方法和装置、存储介质及电子设备
CN110442747B (zh) 一种基于关键词的视频摘要生成方法
CN110019794B (zh) 文本资源的分类方法、装置、存储介质及电子装置
JP6216467B2 (ja) 視覚・意味複合ネットワーク、および当該ネットワークを形成するための方法
US20150317389A1 (en) Learning Multimedia Semantics from Large-Scale Unstructured Data
CN112749326B (zh) 信息处理方法、装置、计算机设备及存储介质
CN113709561A (zh) 视频剪辑方法、装置、设备及存储介质
JP5469046B2 (ja) 情報検索装置、情報検索方法及び情報検索プログラム
KR102576344B1 (ko) 비디오를 처리하기 위한 방법, 장치, 전자기기, 매체 및 컴퓨터 프로그램
CN111046225B (zh) 音频资源处理方法、装置、设备及存储介质
JP2014153977A (ja) コンテンツ解析装置、コンテンツ解析方法、コンテンツ解析プログラム、およびコンテンツ再生システム
CN111859079B (zh) 信息搜索方法、装置、计算机设备及存储介质
JP5898117B2 (ja) 映像要約装置、映像要約方法及び映像要約プログラム
CN109977294B (zh) 信息/查询处理装置、查询处理/文本查询方法、存储介质
Huang et al. Tag refinement of micro-videos by learning from multiple data sources
US11328218B1 (en) Identifying subjective attributes by analysis of curation signals
Trzcinski Multimodal social media video classification with deep neural networks
Li et al. A comparison study of clustering algorithms for microblog posts
CN112883229B (zh) 基于多特征图注意网络模型的视频-文本跨模态检索方法和装置
Ibrahim et al. Large-scale text-based video classification using contextual features
Lv et al. Pf-face: A parallel framework for face classification and search from massive videos based on spark
JP2015001834A (ja) コンテンツ要約装置、コンテンツ要約方法及びコンテンツ要約プログラム
Hammad et al. Characterizing the impact of using features extracted from pre-trained models on the quality of video captioning sequence-to-sequence models
JP2014179906A (ja) 映像要約装置、映像要約方法及び映像要約プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150203

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151218

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160301

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160303

R150 Certificate of patent or registration of utility model

Ref document number: 5898117

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees