JP2013235491A - 映像キーワード割り当て装置、映像キーワード割り当て方法及び映像キーワード割り当てプログラム - Google Patents

映像キーワード割り当て装置、映像キーワード割り当て方法及び映像キーワード割り当てプログラム Download PDF

Info

Publication number
JP2013235491A
JP2013235491A JP2012108518A JP2012108518A JP2013235491A JP 2013235491 A JP2013235491 A JP 2013235491A JP 2012108518 A JP2012108518 A JP 2012108518A JP 2012108518 A JP2012108518 A JP 2012108518A JP 2013235491 A JP2013235491 A JP 2013235491A
Authority
JP
Japan
Prior art keywords
video
keyword
cluster
assigned
importance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012108518A
Other languages
English (en)
Inventor
Shuhei Tarashima
周平 田良島
Takashi Sato
隆 佐藤
Takeshi Tono
豪 東野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012108518A priority Critical patent/JP2013235491A/ja
Publication of JP2013235491A publication Critical patent/JP2013235491A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Abstract

【課題】映像内の時間的かつ空間的に適切な位置に、キーワードの割り当てを行う。
【解決手段】各映像から抽出される代表画像の部分領域を特徴量に基いてクラスタリングし、得られたクラスタについて、(a)映像群におけるクラスタの重要度と(b)映像内におけるクラスタの重要度の双方を考慮して定義されるクラスタの重要度を算出し、算出した重要度に基いて各代表画像の重要領域を決定して重要領域の特徴量を求め、重要領域に前記キーワードが割り当てられる確率を重要領域の特徴量と未知のパラメータを用いて定義し、その確率と、キーワードと映像の関連度と、映像にキーワードが付与されている状況とに基づく評価関数を最適化して未知のパラメータを求め、重要領域にキーワードが割り当てられる確率を計算して重要領域にキーワードを割り当てる。
【選択図】図1

Description

本発明は、映像内の時間的かつ空間的に適切な位置にキーワードを割り当てる技術に関する。
現在、多種多様なサービスにおいて映像コンテンツが配信、提供されている。これらのサービスの多くにおいて、各映像には、映像に関する情報を表したキーワードが付与されていることが多い。キーワードは、主にタグや概要文といった形態で映像に付与されている。タグは、映像に映っている人物や物体の名称、映像の雰囲気、ジャンルを表すデータであり、タグ自体がひとつのキーワードであると言える。一方概要文の場合、あらすじや要点が文章として映像に付与されており、この場合、文中に出てくる特徴的な単語をキーワードであるとみなすことができる。視聴者は、タグや概要文を利用することで、映像を見なくともその映像に関する情報を手に入れることができる。またサービス提供者は、それらの情報を利用することで、例えば、視聴者が見たい映像に付与されている情報と関連性の高い情報が付与された映像を、視聴者に推薦するといったことができる。
特許第4355227号公報
X. Zhu, Z. Huang and H. T. Shen, "Video-to-Shot Tag Allocation by Weighted Sparse Group Lasso", ACM Multimedia 2011, pp.1501-1504 G. Li, M. Wang, Y. T. Zheng, H. Li, Z. J. Zha and T. S. Chua, "ShotTagger: Tag Location for Internet Videos", 2011 ACM International Conference on Multimedia Retrieval, Article No. 37, 2011
多くの場合、ひとつの映像の中には複数の映像区間(時間的位置)が存在する。一方で、多くの映像配信サービスにおいて、タグや概要文は映像単位で付与されることが一般的である。このため、タグや概要文は、映像単位で付与されることが妥当であっても、映像中のあらゆる区間に対して妥当であるとは必ずしも言えない。図6に示す例において、犬が登場する映像コンテンツに「犬」というキーワードが付与されることは妥当であるが、映像中の、犬が登場しない時間的位置に対し「犬」というキーワードは相応しいとは言えない。「子供」というキーワードについても、このキーワードが割り当てられるのに相応しいのは、映像内で子供が登場する区間である。このように、映像単位で付与されたタグや概要文は、それらの表す内容が映像内のどこかに存在することを示すのみである。タグや概要文に関連した時間的位置を特定するには、視聴者は自ら映像を見て探さなくてはならないという問題がある。
空間的な観点からも同様のことが言える。すなわち、仮に映像区間に対して正しくキーワードの割り当てがなされたとしても、キーワードが映像区間内のどの場所を示しているのか明らかではない。また、ある時間的位置に複数の要素が含まれ、複数のキーワードが付与されていたとき、視聴者は、どのキーワードがどの要素に対応しているのか、自ら探さなくてはならないという問題がある。
特許文献1は、映像に表示されるテロップと、映像制作の過程で作成されるシナリオテキストとのマッチングをおこなうことで、映像の時間的位置に対してキーワードを割り当てる技術が開示されている。しかし、特許文献1では、映像中のテロップおよびシナリオテキストの存在を仮定しているため、適用可能な映像が限定されるという問題がある。
非特許文献1,2では、大量の映像およびそれらに付与されたキーワードを用いることにより、汎用的に映像の時間的位置に対してキーワードを割り当てる技術が開示されている。非特許文献1では、映像単位とキーワードが紐づけられたデータベースを利用して、キーワードが割り当てられていない映像区間に対し、データベース上に存在するキーワードを割り当てる技術が開示されている。一方、非特許文献2では、各時間的位置に各キーワードが割り当てられる確率を定義し、その確率と時間的位置のキーフレームの特徴量との関連性の学習によって、各時間的位置に各キーワードが割り当てられる確率を推定している技術が開示されている。
しかしながら、いずれの技術も、映像の時間的位置のみを考慮してキーワードを割り当てる技術であり、キーワードの空間的位置については考慮されていない。それゆえに、非特許文献1,2の技術は背景やキーワードを示す領域の位置の変化に弱く、したがって精度が低いという問題がある。また、非特許文献1,2の技術から得られる結果は、映像におけるキーワードの時間的位置のみしか示しておらず、空間的な対応づけは視聴者自ら行わなくてはならないという問題点がある。
本発明は、上記に鑑みてなされたものであり、映像内の時間的かつ空間的に適切な位置に、キーワードの割り当てを行うことを目的とする。
第1の本発明に係る映像キーワード割り当て装置は、1つ以上のキーワードが映像単位で付与されている複数の映像の各映像内の時間的かつ空間的に適切な位置に前記キーワードを割り当てる映像キーワード割り当て装置であって、前記複数の映像それぞれから抽出された1枚以上の代表画像を入力し、前記代表画像それぞれを部分領域に分割する部分領域分割手段と、前記部分領域の特徴量を計算する部分領域特徴量計算手段と、前記部分領域の特徴量に基づき前記部分領域をクラスタに分類するクラスタリング手段と、前記クラスタそれぞれについて、前記複数の映像におけるクラスタの重要度と前記映像内におけるクラスタの重要度の双方の観点から、前記クラスタに属する部分領域の数に基づき、前記映像それぞれにおける重要度を計算する重要度計算手段と、前記代表画像それぞれについて、前記重要度が高いクラスタに属する前記部分領域を重要領域として、当該重要領域の特徴量を計算する重要領域特徴量計算手段と、前記映像に付与されているキーワードそれぞれについて、前記キーワードと前記映像に付与されている他のキーワード群との関連度をキーワードと映像の関連度として計算する関連度計算手段と、前記重要領域に前記キーワードが割り当てられる確率を前記重要領域の特徴量と未知のパラメータを用いて定義し、前記確率と前記関連度と映像にキーワードが付与されている状況に基づく評価関数を用いて、当該評価関数から算出される評価値を最小もしくは最大とする前記パラメータを求める評価関数最適化手段と、前記パラメータを代入して重要領域にキーワードが割り当てられる確率を計算し、当該確率に基いて前記重要領域に前記キーワードを割り当てるキーワード割り当て手段と、を有することを特徴とする。
上記映像キーワード割り当て装置において、前記重要度計算手段は、前記複数の映像におけるクラスタの重要度として、前記複数の映像における前記クラスタに属する前記部分領域の出現頻度と前記複数の映像の各映像単位での前記クラスタに属する前記部分領域の出現頻度の少なくとも一方を用い、前記映像内におけるクラスタの重要度として、前記映像における前記クラスタに属する前記部分領域の出現頻度と前記映像の各代表画像単位での前記クラスタに属する前記部分領域の出現頻度の少なくとも一方を用いることを特徴とする。
第2の本発明に係る映像キーワード割り当て方法は、1つ以上のキーワードが映像単位で付与されている複数の映像の各映像内の時間的かつ空間的に適切な位置に前記キーワードを割り当てる映像キーワード割り当て方法であって、前記複数の映像それぞれから抽出された1枚以上の代表画像を入力し、前記代表画像それぞれを部分領域に分割するステップと、前記部分領域の特徴量を計算するステップと、前記部分領域の特徴量に基づき前記部分領域をクラスタに分類するステップと、前記クラスタそれぞれについて、前記複数の映像におけるクラスタの重要度と前記映像内におけるクラスタの重要度の双方の観点から、前記クラスタに属する部分領域の数に基づき、前記映像それぞれにおける重要度を計算するステップと、前記代表画像それぞれについて、前記重要度が高いクラスタに属する前記部分領域を重要領域として、当該重要領域の特徴量を計算するステップと、前記映像に付与されているキーワードそれぞれについて、前記キーワードと前記映像に付与されている他のキーワード群との関連度をキーワードと映像の関連度として計算するステップと、前記重要領域に前記キーワードが割り当てられる確率を前記重要領域の特徴量と未知のパラメータを用いて定義し、前記確率と前記関連度と映像にキーワードが付与されている状況に基づく評価関数を用いて、当該評価関数から算出される評価値を最小もしくは最大とする前記パラメータを求めるステップと、前記パラメータを代入して重要領域にキーワードが割り当てられる確率を計算し、当該確率に基いて前記重要領域に前記キーワードを割り当てるステップと、を有することを特徴とする。
上記映像キーワード割り当て方法において、前記重要度を計算するステップは、前記複数の映像におけるクラスタの重要度として、前記複数の映像における前記クラスタに属する前記部分領域の出現頻度と前記複数の映像の各映像単位での前記クラスタに属する前記部分領域の出現頻度の少なくとも一方を用い、前記映像内におけるクラスタの重要度として、前記映像における前記クラスタに属する前記部分領域の出現頻度と前記映像の各代表画像単位での前記クラスタに属する前記部分領域の出現頻度の少なくとも一方を用いることを特徴とする。
第3の本発明に係る映像キーワード割り当てプログラムは、上記映像キーワード割り当て方法の各ステップをコンピュータに実行させることを特徴とする。
本発明によれば、映像内の時間的かつ空間的に適切な位置に、キーワードの割り当てを行うことができる。
本実施の形態における映像キーワード割り当て装置の構成を示す機能ブロック図である。 映像に付与されたキーワードに関するテーブルの例を示す図である。 各映像についての映像区間の情報、代表画像の情報、重要領域に関する情報、重要領域の特徴量を格納した例を示す図である。 キーワードと映像の関連度の例を示す図である。 本実施の形態により映像にキーワードを割り当てた例を示す図である。 従来の映像単位でキーワードを付与した例を示す図である。
以下、本発明の実施の形態について図面を用いて説明する。
図1は、本実施の形態における映像キーワード割り当て装置の構成を示す機能ブロック図である。図1に示す映像キーワード割り当て装置1は、映像区間分割部11、代表画像抽出部12、重要領域決定部13、重要領域特徴量計算部14、関連度計算部15、評価関数最適化部16、キーワード割り当て決定部17、および記憶部18を備える。映像キーワード割り当て装置1が備える各部は、演算処理装置、記憶装置等を備えたコンピュータにより構成して、各部の処理がプログラムによって実行されるものとしてもよい。このプログラムは映像キーワード割り当て装置1が備える記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリ等の記録媒体に記録することも、ネットワークを通して提供することも可能である。
まず、映像キーワード割り当て装置1の処理の流れを説明する。
最初に、キーワードが付与された複数の映像を入力し、映像群とキーワード群を記憶部18に格納する。各映像には、映像内に映っているオブジェクトや映像の雰囲気など、その映像に関連する情報を表す1つ以上のキーワードが紐づけられている。図2に、映像に付与されたキーワードに関するテーブルの例を示す。図2(a)に示すテーブルは、各映像を識別する映像IDに、タイトル、概要文、キーワードIDが関連付け、図2(b)に示すテーブルは、キーワードIDにキーワード(文字列)を関連付けている。これらのテーブルは、例えば「ID:a01の映像に付与されているキーワード群一覧」や「ID:t001のキーワードが付与されている映像群一覧」を容易に得られる構造が望ましい。なお、図2に示すテーブルは一例であり、タイトルや概要文などの属性は格納されていなくてもよく、他の属性が格納されていてもよい。
映像群を入力した後、映像区間分割部11が各映像について映像区間の分割を行い、代表画像抽出部12が各映像区間から1つ以上の代表画像を抽出する。
映像区間の分割方法については、一定の時間間隔(たとえば1秒毎)で分割してもよいし、映像が不連続に変化するカット点を検出して分割してもよい(参考文献1 Y. Tonomura, A. Akutsu, Y. Taniguchi and G. Suzuki, “Structured Video Computing”, IEEE Multimedia, 1(3):34-43, 1994)。映像が明確に切り替わる部分で分割することが望ましい。
代表画像を抽出する方法については、各映像区間の先頭や中間の画像を代表画像としてもよいし、アップショットと呼ばれる、動物体が大きく写っている映像区間を検出して代表画像を抽出してもよい(参考文献2 特開2007−019814号公報)。
代表画像を抽出した後、重要領域決定部13が各代表画像の重要領域を決定し、重要領域特徴量計算部14が重量領域の特徴量を算出する。具体的には、部分領域分割部131が各代表画像を部分領域に分割し、部分領域特徴量計算部132が各部分領域の特徴量を計算し、クラスタリング部133が各部分領域の特徴量に基いて部分領域をクラスタに分類し、重要度計算部134が各クラスタについて、クラスタに属する部分領域の数に基いて各映像における重要度を計算する。そして、各代表画像について、重要度の高いクラスタに属する部分領域を重要領域として重要領域の特徴量を算出する。なお、代表画像の重要領域を決定する処理の詳細については後述する。
ここまでの処理により得られた、各映像についての映像区間の情報、各映像区間から抽出された代表画像の情報、各代表画像の重要領域に関する情報、および各重要領域の特徴量は記憶部18に格納される。図3に、記憶部18に格納された情報の例を示す。図3に示す例では、映像区間の情報は映像区間の開始時刻と終了時刻で管理され、代表画像の情報は、その代表画像が出現する時刻で管理されている。重要領域に関する情報は、画像を構成する各ピクセルについて、そのピクセルが重要領域に含まれているか否かを示すファイルによって管理される。
一方、映像に付与されたキーワードについては、関連度計算部15が、映像毎に、映像に付与された各キーワードについて、キーワードとその他のキーワード群との関連度を計算し、キーワードと映像の関連度を求め、記憶部18に格納する。図4に、記憶部18に格納されたキーワードと映像の関連度の例を示す。図4の例では、各映像a01,a02,・・と各キーワードt001,t002,・・との関連度が格納されている。
最後に、各代表画像の重要領域にキーワードが割り当てられるか否かを決定する。本実施の形態では、重要領域にキーワードが割り当てられる確率を重要領域の特徴量と未知のパラメータを用いて定義し、評価関数最適化部16が、重要領域にキーワードが割り当てられる確率と、キーワードと映像の関連度と、映像にキーワードが付与されている状況とに基づく評価関数を用いて、評価関数から算出される評価値が最小もしくは最大となるような未知のパラメータを求め、キーワード割り当て決定部17が、未知のパラメータを代入して各重要領域にキーワードが割り当てられる確率を計算し、映像の時間的、空間的位置に各キーワードを割り当てる。図5に、各映像の時間的、空間的位置に各キーワードを割り当てた例を示す。
〈代表画像の重要領域を決定する処理について〉
次に、代表画像の重要領域を決定する処理について説明する。
代表画像の重要領域を決定する処理は、代表画像を部分領域に分割する処理、各部分領域の特徴量を算出する処理、部分領域をクラスタリングする処理、および各クラスタの重要度を計算する処理で構成される。以下、各処理について順に説明する。
部分領域分割部131は、代表画像抽出部12が抽出した代表画像について、画像を任意の部分領域に分割する処理を行う。画像を部分領域に分割する手法としては、例えば、任意のサイズの矩形領域(50×50ピクセルなど)で分割してもよいし、画像の特徴を踏まえた領域分割手法を用いてもよい(参考文献3 R. Szeliski, “Computer Vision: Algorithms and Applications, Chapter 5 Segmentation”, pp.267-308, 2010)。例えば、グラフカットと呼ばれる一連の手法は、定義したエネルギー関数に基いて画像内の各ピクセルを頂点とするグラフを作成し、min-cut/max-flow algorithm により最適なグラフ(すなわち画像)の切断面を得る手法である。また、mean-shift 法と呼ばれる領域分割手法は、画像内の各ピクセル値をもとにクラスタリングを行い、得られたクラスタに基いて領域分割を行う手法である。後述する部分領域をクラスタリングする処理では、部分領域の画像特徴量に基いてクラスタリングするため、代表画像を部分領域に分割する方法としては、参考文献3に示されているような、画像の特徴を踏まえた領域分割手法を用いることが望ましい。なお、各部分領域については、例えば部分領域を構成する画素の、元画像における位置を記録しておく、といった方法により、元画像へと復元することが可能なデータとして記憶しておく。
続いて、部分領域特徴量計算部132が、代表画像を分割した各部分領域について特徴量を計算する。部分領域に対する特徴量は、例えば、明るさ特徴量、色特徴量、輝度勾配特徴量、オブジェクト特徴量、およびテクスチャ特徴量などがある。
明るさ特徴量は、HSV表色系で表された色空間におけるV値を数え上げることで、ヒストグラムとして抽出することができる。
色特徴量は、L*a*b*表色系やオストワルト表色系で表された色空間における各軸(L*,a*,b*)や(C,W,B)の値を数え上げることで、ヒストグラムとして抽出することができる(参考文献4 R. Szeliski, “Computer Vision: Algorithms and Applications, Chapter 2 Image Formation”, pp.74-75, 2010)。
輝度勾配特徴量は、縦横2方向の微分フィルタから算出される輝度勾配の向きを数え上げることで、ヒストグラムとして抽出することができる。ヒストグラムのビンの数は任意であるが、例えば勾配の向きを8方向に離散化し、かつ元画像の解像度を1/2,1/4,1/8にした画像についても同様に輝度勾配を計算した場合、ヒストグラムのビンの数は8×4=32となる。
テクスチャ特徴量としては、濃淡ヒストグラムの統計量(コントラスト)やパワースペクトルなどを求めればよい。あるいは局所特徴量を用いると、色や動きなどと同様、ヒストグラムの形式で抽出することができるようになるため好適である。局所特徴としては、SIFT(Scale Invariant Feature Transform)(参考文献5 D. G. Lowe, “Distinctive Image Features from Scale-Invariant Keypoints”, International Journal of Computer Vision, pp.91-110, 2004)やSURF(Speeded Up Robust Features)(参考文献6 H. Bay, T. Tuytelaars, and L. V. Gool, “SURF:Speeded Up Robust Features”, Lecture Notes in Computer Science, vol. 3951, pp.404-417, 2006)などを用いることができる。
なお、ここで取り上げたもの以外でも、任意の特徴量を用いて構わない。
続いて、クラスタリング部133が部分領域の特徴量に基づきクラスタリングを行う。特徴量に基づくクラスタリングについて、K-means 法、Spectral Clustering(参考文献7 U. Luxburg, “A Tutorial on Spectral Clustering”, Statistics and Computing, 17, pp.395-416, 2007)、Affinity Propagation(参考文献8 B. J. Frey and D. Dueck, “Clustering by Passing Messages Between Data Points”, Science, 315, pp.972-976, 2007)などの任意のクラスタリング手法を用いることができる。
K-means 法は最も一般的なクラスタリング手法のひとつであり、実装も容易であるが、以下の4点のような問題点がある。
(1)クラスタリング結果が初期値に強く依存するため、結果が収束するまで繰り返し試行する必要がある点
(2)特徴量空間における各クラスタのサイズがほぼ等しいことが暗黙的に仮定されているので、例えばある特定のオブジェクトが高頻度で出現する映像群を入力データとして用いる場合など、クラスタ毎にそのサイズが異なることが予想される場合においては、良好なクラスタリング結果を得られない可能性がある点
(3)線形分離不能なデータに対して適切なクラスタリングができない点
(4)要素間の関係性が要素間の距離以外では定義できない点
Spectral Clustering を用いる利点としては、大きく以下の3点を挙げることができる。
(1)大域的に最適なクラスタリング結果を得られることが保証されている点
(2)線形分離不能なデータに対して適切なクラスタリングが可能である点
(3)値の大きさと関係性の高さが比例するような値であれば、要素間の関連性は如何様にも定義することができる点
一方で、Spectral Clustering には、以下の2点のような問題点がある。
(1)計算量が膨大であり、往々にして処理に時間がかかる点
(2)新しい要素を既存のクラスタで分類することが困難である点
Affinity Propagation を用いる利点としては、大きく以下の3点を挙げることができる。
(1)結果が初期値に依存せず、試行が1回で済む点
(2)試行回数が少ないため、全体の処理時間としては K-means よりも往々にして短く済む点
(3)値の大きさと関係性の高さが比例するような値であれば、要素間の関連性は如何様にも定義することができる点
実際にクラスタリングを行う際には、データの構造と各手法の特徴とを照らし合わせながら、適切な手法を選択すればよい。
続いて、重要度計算部134が各映像における各クラスタの重要度を算出する。各映像における各クラスタの重要度は、(a)「映像群におけるクラスタの重要度」と(b)「映像内におけるクラスタの重要度」の2つの観点において重要であるほど高い値をとる尺度として定義される。重要度を算出する方法について、(a),(b)それぞれの重要度の和として定義したり、(a),(b)それぞれの重要度の積として定義する方法が考えられる。
(a)「映像群におけるクラスタの重要度」は、(i)映像群内におけるクラスタ要素の出現頻度、(ii)映像群内の各映像単位におけるクラスタ要素の出現頻度のうち、少なくとも一方の観点を考慮する値として定義される。
(i)について、例えば「犬」というキーワードに対し本発明を適用することを考えたとき、「犬」というキーワードが付与された映像から抽出される部分領域群の中には犬に関連する部分領域が多く含まれていると考えられる。したがって、各クラスタに所属する要素の数は、そのクラスタの重要度を示す指標のひとつであると言える。(i)を定式化する方法はいくつか考えられるが、たとえばクラスタCkに含まれる要素数をNSCk、映像群内の全部分領域の数をNSallとすれば、(i)はNSCk/NSallと表すことができる。
(ii)について、例えば「空」、「芝生」、「海」といった背景や景観は、映像中に数多く出現することが予想される。しかし、各映像の特徴を表すキーワードは、これらの背景や景観に依存しない可能性が高い。すなわち、多くの映像に出現するようなありふれたクラスタは、本発明が解決する問題において重要度が低いと言える。(ii)を定式化する方法はいくつか考えられるが、例えば、映像群内の映像の数をNVall、映像群内の映像のうちクラスタCkの要素がひとつでも含まれる映像の数をNVCkとすれば、(ii)はNVall/NVCkと表すことができる。
(b)「映像内におけるクラスタの重要度」は、(iii)各映像内におけるクラスタ要素の出現頻度、(iv)各映像内の各代表画像単位におけるクラスタ要素の出現頻度のうち少なくとも一方の観点を考慮する値として定義される。(iii),(iv)は(i),(ii)と同様の考察を映像単位で行ったものであると言える。
(iii)は、各映像内において数多く出現するクラスタほど重要であるという考察に基いており、(i)と同様な定式化をすると、NSCk∩Vn/NSVnと表すことができる。ただし、NSCk∩Vnは映像Vnに含まれるクラスタCkの要素数であり、NSVnは映像Vnを構成する全部分領域の要素数である。
(iv)は、映像内の多くの代表画像に出現するクラスタほど重要ではないという考察に基いており、(ii)と同様な定式化をすると、NFVn/NFCk∩Vnと表すことができる。ただし、NFVnは映像Vnを構成する代表画像の数であり、NFCk∩Vnは映像Vnを構成する代表画像のうち、クラスタCkの要素をひとつでも含んでいる代表画像の数を表す。
以上の考察から算出される、映像群に含まれる映像VnにおけるクラスタCkの重要度IMVn(Ck)は次式(1)で表すことができる。
Figure 2013235491
なお、クラスタCkの重要度IMVn(Ck)は、(i)〜(iv)のそれぞれが高い値であるほど高い値をとるように定式化されていればよく、式(1)のように(i)〜(iv)の積として定式化する方法や、あるいは(i)〜(iv)の和として定式化する方法がある。
重要度計算部134では、各映像、各クラスタについて、重要度IMVn(Ck)を計算する。計算した重要度IMVn(Ck)が閾値を上回る値であれば、そのクラスタCkを映像Vnにおける重要クラスタであると判定する。閾値を決定する方法について、例えばあらかじめ決定しておいてもよいし、各映像区間について得られた確率値群の平均や中央値を用いるなどしてもよい。
そして、各代表画像について、重要クラスタに所属する部分領域で構成される領域を重要領域と定義し、重要領域特徴量計算部14が、各代表画像の重要領域の特徴量を計算する。重要領域特徴量計算部14による重要領域の特徴量の計算については、上記の部分領域特徴量計算部132と同じ要領で行い、任意の特徴量算出方法を用いることができる。
〈キーワードと映像の関連度について〉
本実施の形態では、キーワードと映像の関連度について、キーワードと映像に付与されたその他のキーワード群との関連度を考え、これをキーワードと映像の関連度とみなす。例えば「犬」というキーワードが付与された2つの映像A,Bがあるとする。映像Aは、映像中の1映像区間のみに犬が登場する映像であるのに対し、映像Bは、犬の話題を中心に扱ったドキュメンタリーであるとする。このとき「犬」というキーワードと映像の関連度について、映像Aよりも映像Bの方が高いことは明らかである。映像Aは犬との関連性が低いため、おそらく映像Aに付与されている他のキーワードは、例えば人物名や地名など、犬とは関係のないキーワードが多く付与されている可能性が高い。一方で、犬との関連性が高い映像Bには、「犬」というキーワードのほかに、例えば「ポメラニアン」「チワワ」といった犬の種類に関するキーワードであったり、「かわいい」「小さい」といった犬の態様に関するキーワードが多く付与されると考えられる。したがって、本実施の形態では、キーワードと映像の関連度を評価するために、キーワードと映像に付与されたその他のキーワード群の関連度を評価する。
キーワードと映像に付与されたその他のキーワード群の関連度を評価するためには、キーワードとその他のキーワード群の各要素の関連度の平均をとればよい。任意の2つのキーワード間の関連度を評価する方法について、キーワード間の、同一の映像に付与される共起の頻度を考えてもよいし、Normalized Google Distance(NGD)を用いてもよい(参考文献9 R.L. Cilibrasi and P.M.B. Vitanyi, “The Google Similarity Distance”, IEEE Transactions on Knowledge and Data Engineering, Vol. 19, No. 3, pp.370-383, 2007)。NGDを用いた場合、キーワードtと映像Vとの関連度は次式(2)のように定義できる。
Figure 2013235491
ただし、Tは映像Vに付与されているキーワードの集合、|T|は映像Vに付与されているキーワードの数を示す。
各キーワードに関して、各映像との関連度を考慮することは、以下で説明する評価関数の性能を左右する重要な要素のひとつである。
〈評価関数最適化処理について〉
本実施の形態では、重要領域決定部13が抽出した代表画像の重要領域に対してキーワードが割り当てられる確率を用いて、各代表画像の重要領域に割り当てるキーワードを決定する。各代表画像の重要領域に各キーワードが割り当てられる確率を定義する方法について、例えばナイーブベイズモデルやロジスティック回帰モデルを用いることができる。i番目の映像のj番目の映像区間におけるk番目の代表画像の重要領域rijkに対してキーワードtが割り当てられる確率Pt(t|rijk)は、例えばロジスティック回帰モデルを用いた場合、次式(3)で表される。
Figure 2013235491
ただし、frijkはrijkの特徴量ベクトル、Wtは重みベクトル、btはスケーリングパラメータである。frijkとWtの次元数が等しいことは言うまでもない。重みベクトルWtおよびパラメータbtは未知の値であり、これらを求めることで、Pt(t|rijk)の値が得られる。
続いて、重みベクトルWtおよびパラメータbtを求める方法について説明する。
まず、式(3)で定義された各重要領域に各キーワードが割り当てられる確率をもとに、各映像に対して各キーワードが割り当てられる確率を定義する。各映像に対して各キーワードが割り当てられる確率を定義する方法について、例えば、各重要領域に各キーワードが割り当てられる確率に、その確率が全体に占める割合を乗じた値の総和をとることで定義する方法や、各重要領域に各キーワードが割り当てられる確率に、次式(4)で示されるソフトマックス関数を乗じた値の総和をとることで定義する方法がある。
Figure 2013235491
式(4)を用いた場合、i番目の映像Viにキーワードtが割り当てられる確率P(t|Vi)は次式(5)のように表すことができる。
Figure 2013235491
本実施の形態では、キーワードが映像単位でどの映像に付与されているかは既知であることを利用し、映像Viにキーワードtが割り当てられる確率P(t|Vi)が、既知のキーワード付与状況を最もよく表すように最適化を行う。例えば最小二乗誤差の最適化であったり、相関の最大化といった形で定式化することができる。
以下では、キーワードtが映像Viに割り当てられる確率P(t|Vi)と、キーワードtが実際に各映像に付与されている状況との最小二乗誤差を最小化するように、重みベクトルWtおよびパラメータbtを求める手順について述べる。このとき、評価関数Etは次式(6)のように定義できる。
Figure 2013235491
iは、映像Viにキーワードtが付与されている場合は1、付与されていない場合は0をとる。NVは、映像群中の映像の数である。rel(t,Vi)は、式(2)で定義した、キーワードtと映像Viの関連度である。
式(6)を最小化するには、最急降下法や共役勾配法といった方法を用いることができる。ここでは最急降下法で最適化する手順の例を示す。
1.重みベクトルWtおよびパラメータbtについて適当な初期値Wt 0,bt 0を設定する。
2.重みベクトルWtおよびパラメータbtをもとに、式(2),(3),(5)からEtを計算する。
3.前回計算したEtと比較し、差が閾値より小さければ処理を終了する。
4.以下の式(7)〜(13)を用いてWt,btを更新する。
5.ステップ2に戻り、ステップ3の条件が満たされるまで、ステップ2〜4を繰り返す。
Figure 2013235491
なお、Wn,tは重みベクトルWtのn番目の要素であり、frijk,nは重要領域rijkの特徴量ベクトルfrijkのn番目の要素である。
以上の最適化処理によって、重みベクトルWtおよびパラメータbtを得ることができる。
〈キーワード割り当て決定処理について〉
キーワード割り当て決定部17は、評価関数最適化部16による最適化処理の結果を用いて、映像の時間的かつ空間的な位置へのキーワードの割り当てを行う。キーワード割り当て処理は、キーワード割り当て部171による代表画像にキーワードを割り当てる処理と、キーワード動き推定部172による各キーワードの動きを推定する処理で構成される。
評価関数最適化部16による最適化処理によって、各重要領域に各キーワードが割り当てられる確率を具体的に計算することができる。具体的には、最適化処理で得られた重みベクトルWtおよびパラメータbtを式(3)に代入することによって、確率Pt(t|rijk)が計算できる。この確率Pt(t|rijk)をもとに、各映像区間および各重要領域について、実際にキーワードを割り当てるか否かを決定する。例えば、ある一定の閾値を設け、確率Pt(t|rijk)が閾値以上であればキーワードを割り当て、閾値未満であればキーワードを割り当てないという方法を用いる。閾値を決定する方法について、例えば予め設定しておいてもよいし、各映像区間について得られた確率値群の平均や中央値を用いてもよい。
割り当てられることが決定したキーワードについては、割り当てる位置を決定する。例えば代表画像の重要領域の重心を計算し、重心の位置にキーワードを重畳する方法や、映像中への重畳を避けて、重心から横方向もしくは縦方向にずらして画像の外部に設定する方法が考えられる。
キーワード割り当て部171が割り当てたキーワードの位置は、代表画像におけるキーワードの位置であるので、キーワード動き推定部172が、代表画像中のキーワードの位置をもとに、映像区間内におけるキーワードの動きを推定する。例えば、代表画像におけるキーワードの位置を中心として矩形領域のオプティカルフローを計算する方法が考えられる。
以上の処理を、キーワード群内の全てのキーワードについて行うことによって、映像単位で割り当てられたキーワードの、映像区間への割り当ておよび映像区間内の場所への割り当てを、同一処理で行うことができる。
以上説明したように、本実施の形態によれば、各映像から抽出される代表画像の部分領域を特徴量に基いてクラスタリングし、得られたクラスタについて、(a)映像群におけるクラスタの重要度と(b)映像内におけるクラスタの重要度の双方を考慮して定義されるクラスタの重要度を算出し、算出した重要度に基いて各代表画像の重要領域を決定して重要領域の特徴量を求め、重要領域に前記キーワードが割り当てられる確率を重要領域の特徴量と未知のパラメータを用いて定義し、その確率と、キーワードと映像の関連度と、映像にキーワードが付与されている状況とに基づく評価関数を最適化して未知のパラメータを求め、重要領域にキーワードが割り当てられる確率を計算して重要領域にキーワードを割り当てることにより、各映像から抽出した代表画像の重要領域の重要度を用いて空間性を考慮するので、時間的にも、空間的にも適切な位置にキーワードを割り当てることが可能となる。
本実施の形態では、(a)映像群におけるクラスタの重要度を(i)映像群内におけるクラスタ要素の出現頻度と(ii)映像群内の各映像単位でのクラスタ要素の出現頻度のうち少なくとも一方の観点を考慮する値として定義し、(b)映像内におけるクラスタの重要度を(iii)映像におけるクラスタ要素の出現頻度と(iv)映像内の各代表画像単位でのクラスタ要素の出現頻度のうち少なくとも一方の観点を考慮する値として定義した。
また、本実施の形態では、キーワードと映像の関連度を、キーワードと映像に付与された他のキーワードとの関連度から求めた。
1…映像キーワード割り当て装置
11…映像区間分割部
12…代表画像抽出部
13…重要領域決定部
131…部分領域分割部
132…部分領域特徴量計算部
133…クラスタリング部
134…重要度計算部
14…重要領域特徴量計算部
15…関連度計算部
16…評価関数最適化部
17…キーワード割り当て決定部
171…キーワード割り当て部
172…キーワード動き推定部
18…記憶部

Claims (5)

  1. 1つ以上のキーワードが映像単位で付与されている複数の映像の各映像内の時間的かつ空間的に適切な位置に前記キーワードを割り当てる映像キーワード割り当て装置であって、
    前記複数の映像それぞれから抽出された1枚以上の代表画像を入力し、前記代表画像それぞれを部分領域に分割する部分領域分割手段と、
    前記部分領域の特徴量を計算する部分領域特徴量計算手段と、
    前記部分領域の特徴量に基づき前記部分領域をクラスタに分類するクラスタリング手段と、
    前記クラスタそれぞれについて、前記複数の映像におけるクラスタの重要度と前記映像内におけるクラスタの重要度の双方の観点から、前記クラスタに属する部分領域の数に基づき、前記映像それぞれにおける重要度を計算する重要度計算手段と、
    前記代表画像それぞれについて、前記重要度が高いクラスタに属する前記部分領域を重要領域として、当該重要領域の特徴量を計算する重要領域特徴量計算手段と、
    前記映像に付与されているキーワードそれぞれについて、前記キーワードと前記映像に付与されている他のキーワード群との関連度をキーワードと映像の関連度として計算する関連度計算手段と、
    前記重要領域に前記キーワードが割り当てられる確率を前記重要領域の特徴量と未知のパラメータを用いて定義し、前記確率と前記関連度と映像にキーワードが付与されている状況に基づく評価関数を用いて、当該評価関数から算出される評価値を最小もしくは最大とする前記パラメータを求める評価関数最適化手段と、
    前記パラメータを代入して重要領域にキーワードが割り当てられる確率を計算し、当該確率に基いて前記重要領域に前記キーワードを割り当てるキーワード割り当て手段と、
    を有することを特徴とする映像キーワード割り当て装置。
  2. 前記重要度計算手段は、
    前記複数の映像におけるクラスタの重要度として、前記複数の映像における前記クラスタに属する前記部分領域の出現頻度と前記複数の映像の各映像単位での前記クラスタに属する前記部分領域の出現頻度の少なくとも一方を用い、
    前記映像内におけるクラスタの重要度として、前記映像における前記クラスタに属する前記部分領域の出現頻度と前記映像の各代表画像単位での前記クラスタに属する前記部分領域の出現頻度の少なくとも一方を用いること
    を特徴とする請求項1記載の映像キーワード割り当て装置。
  3. 1つ以上のキーワードが映像単位で付与されている複数の映像の各映像内の時間的かつ空間的に適切な位置に前記キーワードを割り当てる映像キーワード割り当て方法であって、
    前記複数の映像それぞれから抽出された1枚以上の代表画像を入力し、前記代表画像それぞれを部分領域に分割するステップと、
    前記部分領域の特徴量を計算するステップと、
    前記部分領域の特徴量に基づき前記部分領域をクラスタに分類するステップと、
    前記クラスタそれぞれについて、前記複数の映像におけるクラスタの重要度と前記映像内におけるクラスタの重要度の双方の観点から、前記クラスタに属する部分領域の数に基づき、前記映像それぞれにおける重要度を計算するステップと、
    前記代表画像それぞれについて、前記重要度が高いクラスタに属する前記部分領域を重要領域として、当該重要領域の特徴量を計算するステップと、
    前記映像に付与されているキーワードそれぞれについて、前記キーワードと前記映像に付与されている他のキーワード群との関連度をキーワードと映像の関連度として計算するステップと、
    前記重要領域に前記キーワードが割り当てられる確率を前記重要領域の特徴量と未知のパラメータを用いて定義し、前記確率と前記関連度と映像にキーワードが付与されている状況に基づく評価関数を用いて、当該評価関数から算出される評価値を最小もしくは最大とする前記パラメータを求めるステップと、
    前記パラメータを代入して重要領域にキーワードが割り当てられる確率を計算し、当該確率に基いて前記重要領域に前記キーワードを割り当てるステップと、
    を有することを特徴とする映像キーワード割り当て方法。
  4. 前記重要度を計算するステップは、
    前記複数の映像におけるクラスタの重要度として、前記複数の映像における前記クラスタに属する前記部分領域の出現頻度と前記複数の映像の各映像単位での前記クラスタに属する前記部分領域の出現頻度の少なくとも一方を用い、
    前記映像内におけるクラスタの重要度として、前記映像における前記クラスタに属する前記部分領域の出現頻度と前記映像の各代表画像単位での前記クラスタに属する前記部分領域の出現頻度の少なくとも一方を用いること
    を特徴とする請求項3記載の映像キーワード割り当て方法。
  5. 請求項3又は4に記載の映像キーワード割り当て方法の各ステップをコンピュータに実行させることを特徴とする映像キーワード割り当てプログラム。
JP2012108518A 2012-05-10 2012-05-10 映像キーワード割り当て装置、映像キーワード割り当て方法及び映像キーワード割り当てプログラム Pending JP2013235491A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012108518A JP2013235491A (ja) 2012-05-10 2012-05-10 映像キーワード割り当て装置、映像キーワード割り当て方法及び映像キーワード割り当てプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012108518A JP2013235491A (ja) 2012-05-10 2012-05-10 映像キーワード割り当て装置、映像キーワード割り当て方法及び映像キーワード割り当てプログラム

Publications (1)

Publication Number Publication Date
JP2013235491A true JP2013235491A (ja) 2013-11-21

Family

ID=49761555

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012108518A Pending JP2013235491A (ja) 2012-05-10 2012-05-10 映像キーワード割り当て装置、映像キーワード割り当て方法及び映像キーワード割り当てプログラム

Country Status (1)

Country Link
JP (1) JP2013235491A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021516407A (ja) * 2018-03-22 2021-07-01 オッポ広東移動通信有限公司Guangdong Oppo Mobile Telecommunications Corp., Ltd. ビデオ時間セグメントを検索するための方法およびシステム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021516407A (ja) * 2018-03-22 2021-07-01 オッポ広東移動通信有限公司Guangdong Oppo Mobile Telecommunications Corp., Ltd. ビデオ時間セグメントを検索するための方法およびシステム
JP7091468B2 (ja) 2018-03-22 2022-06-27 オッポ広東移動通信有限公司 ビデオ時間セグメントを検索するための方法およびシステム
US11663268B2 (en) 2018-03-22 2023-05-30 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method and system for retrieving video temporal segments

Similar Documents

Publication Publication Date Title
US10394878B2 (en) Associating still images and videos
JP3568117B2 (ja) ビデオ画像の分割、分類、および要約のための方法およびシステム
CN108132968B (zh) 网络文本与图像中关联语义基元的弱监督学习方法
Zhou et al. Movie genre classification via scene categorization
JP4139615B2 (ja) 前景/背景セグメント化を用いた画像のイベント・クラスタリング
US8467611B2 (en) Video key-frame extraction using bi-level sparsity
Chum Large-scale discovery of spatially related images
US20120148149A1 (en) Video key frame extraction using sparse representation
Allili et al. Image and video segmentation by combining unsupervised generalized Gaussian mixture modeling and feature selection
JP4545641B2 (ja) 類似画像検索方法,類似画像検索システム,類似画像検索プログラム及び記録媒体
US9087242B2 (en) Video synthesis using video volumes
US8942469B2 (en) Method for classification of videos
US8254678B2 (en) Image segmentation
CN112418012A (zh) 一种基于时空注意力模型的视频摘要生成方法
Etezadifar et al. Scalable video summarization via sparse dictionary learning and selection simultaneously
Zhao et al. Key‐Frame Extraction Based on HSV Histogram and Adaptive Clustering
US7852414B2 (en) Method of selecting seeds for the clustering of key-frames
Pedronette et al. Unsupervised effectiveness estimation for image retrieval using reciprocal rank information
JP2009060413A (ja) 動画特徴抽出方法およびシステムならびに動画検索方法およびシステム
US8666164B2 (en) System and method for modeling a region segmented image
JP2013235491A (ja) 映像キーワード割り当て装置、映像キーワード割り当て方法及び映像キーワード割り当てプログラム
JP2013070158A (ja) 映像検索装置およびプログラム
Wang et al. Community discovery from movie and its application to poster generation
JP2017021606A (ja) 動画像検索方法、動画像検索装置及びそのプログラム
Yeh et al. Extraction of robust visual phrases using graph mining for image retrieval