JP2013235491A

JP2013235491A - 映像キーワード割り当て装置、映像キーワード割り当て方法及び映像キーワード割り当てプログラム

Info

Publication number: JP2013235491A
Application number: JP2012108518A
Authority: JP
Inventors: Shuhei Tarashima; 周平田良島; Takashi Sato; 隆佐藤; Takeshi Tono; 豪東野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-05-10
Filing date: 2012-05-10
Publication date: 2013-11-21

Abstract

【課題】映像内の時間的かつ空間的に適切な位置に、キーワードの割り当てを行う。
【解決手段】各映像から抽出される代表画像の部分領域を特徴量に基いてクラスタリングし、得られたクラスタについて、（ａ）映像群におけるクラスタの重要度と（ｂ）映像内におけるクラスタの重要度の双方を考慮して定義されるクラスタの重要度を算出し、算出した重要度に基いて各代表画像の重要領域を決定して重要領域の特徴量を求め、重要領域に前記キーワードが割り当てられる確率を重要領域の特徴量と未知のパラメータを用いて定義し、その確率と、キーワードと映像の関連度と、映像にキーワードが付与されている状況とに基づく評価関数を最適化して未知のパラメータを求め、重要領域にキーワードが割り当てられる確率を計算して重要領域にキーワードを割り当てる。
【選択図】図１

Description

本発明は、映像内の時間的かつ空間的に適切な位置にキーワードを割り当てる技術に関する。

現在、多種多様なサービスにおいて映像コンテンツが配信、提供されている。これらのサービスの多くにおいて、各映像には、映像に関する情報を表したキーワードが付与されていることが多い。キーワードは、主にタグや概要文といった形態で映像に付与されている。タグは、映像に映っている人物や物体の名称、映像の雰囲気、ジャンルを表すデータであり、タグ自体がひとつのキーワードであると言える。一方概要文の場合、あらすじや要点が文章として映像に付与されており、この場合、文中に出てくる特徴的な単語をキーワードであるとみなすことができる。視聴者は、タグや概要文を利用することで、映像を見なくともその映像に関する情報を手に入れることができる。またサービス提供者は、それらの情報を利用することで、例えば、視聴者が見たい映像に付与されている情報と関連性の高い情報が付与された映像を、視聴者に推薦するといったことができる。

特許第４３５５２２７号公報

X. Zhu, Z. Huang and H. T. Shen, "Video-to-Shot Tag Allocation by Weighted Sparse Group Lasso", ACM Multimedia 2011, pp.1501-1504 G. Li, M. Wang, Y. T. Zheng, H. Li, Z. J. Zha and T. S. Chua, "ShotTagger: Tag Location for Internet Videos", 2011 ACM International Conference on Multimedia Retrieval, Article No. 37, 2011

多くの場合、ひとつの映像の中には複数の映像区間（時間的位置）が存在する。一方で、多くの映像配信サービスにおいて、タグや概要文は映像単位で付与されることが一般的である。このため、タグや概要文は、映像単位で付与されることが妥当であっても、映像中のあらゆる区間に対して妥当であるとは必ずしも言えない。図６に示す例において、犬が登場する映像コンテンツに「犬」というキーワードが付与されることは妥当であるが、映像中の、犬が登場しない時間的位置に対し「犬」というキーワードは相応しいとは言えない。「子供」というキーワードについても、このキーワードが割り当てられるのに相応しいのは、映像内で子供が登場する区間である。このように、映像単位で付与されたタグや概要文は、それらの表す内容が映像内のどこかに存在することを示すのみである。タグや概要文に関連した時間的位置を特定するには、視聴者は自ら映像を見て探さなくてはならないという問題がある。

空間的な観点からも同様のことが言える。すなわち、仮に映像区間に対して正しくキーワードの割り当てがなされたとしても、キーワードが映像区間内のどの場所を示しているのか明らかではない。また、ある時間的位置に複数の要素が含まれ、複数のキーワードが付与されていたとき、視聴者は、どのキーワードがどの要素に対応しているのか、自ら探さなくてはならないという問題がある。

特許文献１は、映像に表示されるテロップと、映像制作の過程で作成されるシナリオテキストとのマッチングをおこなうことで、映像の時間的位置に対してキーワードを割り当てる技術が開示されている。しかし、特許文献１では、映像中のテロップおよびシナリオテキストの存在を仮定しているため、適用可能な映像が限定されるという問題がある。

非特許文献１，２では、大量の映像およびそれらに付与されたキーワードを用いることにより、汎用的に映像の時間的位置に対してキーワードを割り当てる技術が開示されている。非特許文献１では、映像単位とキーワードが紐づけられたデータベースを利用して、キーワードが割り当てられていない映像区間に対し、データベース上に存在するキーワードを割り当てる技術が開示されている。一方、非特許文献２では、各時間的位置に各キーワードが割り当てられる確率を定義し、その確率と時間的位置のキーフレームの特徴量との関連性の学習によって、各時間的位置に各キーワードが割り当てられる確率を推定している技術が開示されている。

しかしながら、いずれの技術も、映像の時間的位置のみを考慮してキーワードを割り当てる技術であり、キーワードの空間的位置については考慮されていない。それゆえに、非特許文献１，２の技術は背景やキーワードを示す領域の位置の変化に弱く、したがって精度が低いという問題がある。また、非特許文献１，２の技術から得られる結果は、映像におけるキーワードの時間的位置のみしか示しておらず、空間的な対応づけは視聴者自ら行わなくてはならないという問題点がある。

本発明は、上記に鑑みてなされたものであり、映像内の時間的かつ空間的に適切な位置に、キーワードの割り当てを行うことを目的とする。

第１の本発明に係る映像キーワード割り当て装置は、１つ以上のキーワードが映像単位で付与されている複数の映像の各映像内の時間的かつ空間的に適切な位置に前記キーワードを割り当てる映像キーワード割り当て装置であって、前記複数の映像それぞれから抽出された１枚以上の代表画像を入力し、前記代表画像それぞれを部分領域に分割する部分領域分割手段と、前記部分領域の特徴量を計算する部分領域特徴量計算手段と、前記部分領域の特徴量に基づき前記部分領域をクラスタに分類するクラスタリング手段と、前記クラスタそれぞれについて、前記複数の映像におけるクラスタの重要度と前記映像内におけるクラスタの重要度の双方の観点から、前記クラスタに属する部分領域の数に基づき、前記映像それぞれにおける重要度を計算する重要度計算手段と、前記代表画像それぞれについて、前記重要度が高いクラスタに属する前記部分領域を重要領域として、当該重要領域の特徴量を計算する重要領域特徴量計算手段と、前記映像に付与されているキーワードそれぞれについて、前記キーワードと前記映像に付与されている他のキーワード群との関連度をキーワードと映像の関連度として計算する関連度計算手段と、前記重要領域に前記キーワードが割り当てられる確率を前記重要領域の特徴量と未知のパラメータを用いて定義し、前記確率と前記関連度と映像にキーワードが付与されている状況に基づく評価関数を用いて、当該評価関数から算出される評価値を最小もしくは最大とする前記パラメータを求める評価関数最適化手段と、前記パラメータを代入して重要領域にキーワードが割り当てられる確率を計算し、当該確率に基いて前記重要領域に前記キーワードを割り当てるキーワード割り当て手段と、を有することを特徴とする。

上記映像キーワード割り当て装置において、前記重要度計算手段は、前記複数の映像におけるクラスタの重要度として、前記複数の映像における前記クラスタに属する前記部分領域の出現頻度と前記複数の映像の各映像単位での前記クラスタに属する前記部分領域の出現頻度の少なくとも一方を用い、前記映像内におけるクラスタの重要度として、前記映像における前記クラスタに属する前記部分領域の出現頻度と前記映像の各代表画像単位での前記クラスタに属する前記部分領域の出現頻度の少なくとも一方を用いることを特徴とする。

第２の本発明に係る映像キーワード割り当て方法は、１つ以上のキーワードが映像単位で付与されている複数の映像の各映像内の時間的かつ空間的に適切な位置に前記キーワードを割り当てる映像キーワード割り当て方法であって、前記複数の映像それぞれから抽出された１枚以上の代表画像を入力し、前記代表画像それぞれを部分領域に分割するステップと、前記部分領域の特徴量を計算するステップと、前記部分領域の特徴量に基づき前記部分領域をクラスタに分類するステップと、前記クラスタそれぞれについて、前記複数の映像におけるクラスタの重要度と前記映像内におけるクラスタの重要度の双方の観点から、前記クラスタに属する部分領域の数に基づき、前記映像それぞれにおける重要度を計算するステップと、前記代表画像それぞれについて、前記重要度が高いクラスタに属する前記部分領域を重要領域として、当該重要領域の特徴量を計算するステップと、前記映像に付与されているキーワードそれぞれについて、前記キーワードと前記映像に付与されている他のキーワード群との関連度をキーワードと映像の関連度として計算するステップと、前記重要領域に前記キーワードが割り当てられる確率を前記重要領域の特徴量と未知のパラメータを用いて定義し、前記確率と前記関連度と映像にキーワードが付与されている状況に基づく評価関数を用いて、当該評価関数から算出される評価値を最小もしくは最大とする前記パラメータを求めるステップと、前記パラメータを代入して重要領域にキーワードが割り当てられる確率を計算し、当該確率に基いて前記重要領域に前記キーワードを割り当てるステップと、を有することを特徴とする。

上記映像キーワード割り当て方法において、前記重要度を計算するステップは、前記複数の映像におけるクラスタの重要度として、前記複数の映像における前記クラスタに属する前記部分領域の出現頻度と前記複数の映像の各映像単位での前記クラスタに属する前記部分領域の出現頻度の少なくとも一方を用い、前記映像内におけるクラスタの重要度として、前記映像における前記クラスタに属する前記部分領域の出現頻度と前記映像の各代表画像単位での前記クラスタに属する前記部分領域の出現頻度の少なくとも一方を用いることを特徴とする。

第３の本発明に係る映像キーワード割り当てプログラムは、上記映像キーワード割り当て方法の各ステップをコンピュータに実行させることを特徴とする。

本発明によれば、映像内の時間的かつ空間的に適切な位置に、キーワードの割り当てを行うことができる。

本実施の形態における映像キーワード割り当て装置の構成を示す機能ブロック図である。映像に付与されたキーワードに関するテーブルの例を示す図である。各映像についての映像区間の情報、代表画像の情報、重要領域に関する情報、重要領域の特徴量を格納した例を示す図である。キーワードと映像の関連度の例を示す図である。本実施の形態により映像にキーワードを割り当てた例を示す図である。従来の映像単位でキーワードを付与した例を示す図である。

以下、本発明の実施の形態について図面を用いて説明する。

図１は、本実施の形態における映像キーワード割り当て装置の構成を示す機能ブロック図である。図１に示す映像キーワード割り当て装置１は、映像区間分割部１１、代表画像抽出部１２、重要領域決定部１３、重要領域特徴量計算部１４、関連度計算部１５、評価関数最適化部１６、キーワード割り当て決定部１７、および記憶部１８を備える。映像キーワード割り当て装置１が備える各部は、演算処理装置、記憶装置等を備えたコンピュータにより構成して、各部の処理がプログラムによって実行されるものとしてもよい。このプログラムは映像キーワード割り当て装置１が備える記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリ等の記録媒体に記録することも、ネットワークを通して提供することも可能である。

まず、映像キーワード割り当て装置１の処理の流れを説明する。

最初に、キーワードが付与された複数の映像を入力し、映像群とキーワード群を記憶部１８に格納する。各映像には、映像内に映っているオブジェクトや映像の雰囲気など、その映像に関連する情報を表す１つ以上のキーワードが紐づけられている。図２に、映像に付与されたキーワードに関するテーブルの例を示す。図２（ａ）に示すテーブルは、各映像を識別する映像ＩＤに、タイトル、概要文、キーワードＩＤが関連付け、図２（ｂ）に示すテーブルは、キーワードＩＤにキーワード（文字列）を関連付けている。これらのテーブルは、例えば「ＩＤ：ａ０１の映像に付与されているキーワード群一覧」や「ＩＤ：ｔ００１のキーワードが付与されている映像群一覧」を容易に得られる構造が望ましい。なお、図２に示すテーブルは一例であり、タイトルや概要文などの属性は格納されていなくてもよく、他の属性が格納されていてもよい。

映像群を入力した後、映像区間分割部１１が各映像について映像区間の分割を行い、代表画像抽出部１２が各映像区間から１つ以上の代表画像を抽出する。

映像区間の分割方法については、一定の時間間隔（たとえば１秒毎）で分割してもよいし、映像が不連続に変化するカット点を検出して分割してもよい（参考文献１ Y. Tonomura, A. Akutsu, Y. Taniguchi and G. Suzuki, “Structured Video Computing”, IEEE Multimedia, 1(3):34-43, 1994）。映像が明確に切り替わる部分で分割することが望ましい。

代表画像を抽出する方法については、各映像区間の先頭や中間の画像を代表画像としてもよいし、アップショットと呼ばれる、動物体が大きく写っている映像区間を検出して代表画像を抽出してもよい（参考文献２特開２００７−０１９８１４号公報）。

代表画像を抽出した後、重要領域決定部１３が各代表画像の重要領域を決定し、重要領域特徴量計算部１４が重量領域の特徴量を算出する。具体的には、部分領域分割部１３１が各代表画像を部分領域に分割し、部分領域特徴量計算部１３２が各部分領域の特徴量を計算し、クラスタリング部１３３が各部分領域の特徴量に基いて部分領域をクラスタに分類し、重要度計算部１３４が各クラスタについて、クラスタに属する部分領域の数に基いて各映像における重要度を計算する。そして、各代表画像について、重要度の高いクラスタに属する部分領域を重要領域として重要領域の特徴量を算出する。なお、代表画像の重要領域を決定する処理の詳細については後述する。

ここまでの処理により得られた、各映像についての映像区間の情報、各映像区間から抽出された代表画像の情報、各代表画像の重要領域に関する情報、および各重要領域の特徴量は記憶部１８に格納される。図３に、記憶部１８に格納された情報の例を示す。図３に示す例では、映像区間の情報は映像区間の開始時刻と終了時刻で管理され、代表画像の情報は、その代表画像が出現する時刻で管理されている。重要領域に関する情報は、画像を構成する各ピクセルについて、そのピクセルが重要領域に含まれているか否かを示すファイルによって管理される。

一方、映像に付与されたキーワードについては、関連度計算部１５が、映像毎に、映像に付与された各キーワードについて、キーワードとその他のキーワード群との関連度を計算し、キーワードと映像の関連度を求め、記憶部１８に格納する。図４に、記憶部１８に格納されたキーワードと映像の関連度の例を示す。図４の例では、各映像ａ０１，ａ０２，・・と各キーワードｔ００１，ｔ００２，・・との関連度が格納されている。

最後に、各代表画像の重要領域にキーワードが割り当てられるか否かを決定する。本実施の形態では、重要領域にキーワードが割り当てられる確率を重要領域の特徴量と未知のパラメータを用いて定義し、評価関数最適化部１６が、重要領域にキーワードが割り当てられる確率と、キーワードと映像の関連度と、映像にキーワードが付与されている状況とに基づく評価関数を用いて、評価関数から算出される評価値が最小もしくは最大となるような未知のパラメータを求め、キーワード割り当て決定部１７が、未知のパラメータを代入して各重要領域にキーワードが割り当てられる確率を計算し、映像の時間的、空間的位置に各キーワードを割り当てる。図５に、各映像の時間的、空間的位置に各キーワードを割り当てた例を示す。

〈代表画像の重要領域を決定する処理について〉
次に、代表画像の重要領域を決定する処理について説明する。

代表画像の重要領域を決定する処理は、代表画像を部分領域に分割する処理、各部分領域の特徴量を算出する処理、部分領域をクラスタリングする処理、および各クラスタの重要度を計算する処理で構成される。以下、各処理について順に説明する。

部分領域分割部１３１は、代表画像抽出部１２が抽出した代表画像について、画像を任意の部分領域に分割する処理を行う。画像を部分領域に分割する手法としては、例えば、任意のサイズの矩形領域（５０×５０ピクセルなど）で分割してもよいし、画像の特徴を踏まえた領域分割手法を用いてもよい（参考文献３ R. Szeliski, “Computer Vision: Algorithms and Applications, Chapter 5 Segmentation”, pp.267-308, 2010）。例えば、グラフカットと呼ばれる一連の手法は、定義したエネルギー関数に基いて画像内の各ピクセルを頂点とするグラフを作成し、min-cut/max-flow algorithm により最適なグラフ（すなわち画像）の切断面を得る手法である。また、mean-shift 法と呼ばれる領域分割手法は、画像内の各ピクセル値をもとにクラスタリングを行い、得られたクラスタに基いて領域分割を行う手法である。後述する部分領域をクラスタリングする処理では、部分領域の画像特徴量に基いてクラスタリングするため、代表画像を部分領域に分割する方法としては、参考文献３に示されているような、画像の特徴を踏まえた領域分割手法を用いることが望ましい。なお、各部分領域については、例えば部分領域を構成する画素の、元画像における位置を記録しておく、といった方法により、元画像へと復元することが可能なデータとして記憶しておく。

続いて、部分領域特徴量計算部１３２が、代表画像を分割した各部分領域について特徴量を計算する。部分領域に対する特徴量は、例えば、明るさ特徴量、色特徴量、輝度勾配特徴量、オブジェクト特徴量、およびテクスチャ特徴量などがある。

明るさ特徴量は、ＨＳＶ表色系で表された色空間におけるＶ値を数え上げることで、ヒストグラムとして抽出することができる。

色特徴量は、Ｌ＊ａ＊ｂ＊表色系やオストワルト表色系で表された色空間における各軸（Ｌ＊，ａ＊，ｂ＊）や（Ｃ，Ｗ，Ｂ）の値を数え上げることで、ヒストグラムとして抽出することができる（参考文献４ R. Szeliski, “Computer Vision: Algorithms and Applications, Chapter 2 Image Formation”, pp.74-75, 2010）。

輝度勾配特徴量は、縦横２方向の微分フィルタから算出される輝度勾配の向きを数え上げることで、ヒストグラムとして抽出することができる。ヒストグラムのビンの数は任意であるが、例えば勾配の向きを８方向に離散化し、かつ元画像の解像度を１／２，１／４，１／８にした画像についても同様に輝度勾配を計算した場合、ヒストグラムのビンの数は８×４＝３２となる。

テクスチャ特徴量としては、濃淡ヒストグラムの統計量（コントラスト）やパワースペクトルなどを求めればよい。あるいは局所特徴量を用いると、色や動きなどと同様、ヒストグラムの形式で抽出することができるようになるため好適である。局所特徴としては、ＳＩＦＴ（Scale Invariant Feature Transform）（参考文献５ D. G. Lowe, “Distinctive Image Features from Scale-Invariant Keypoints”, International Journal of Computer Vision, pp.91-110, 2004）やＳＵＲＦ（Speeded Up Robust Features）（参考文献６ H. Bay, T. Tuytelaars, and L. V. Gool, “SURF:Speeded Up Robust Features”, Lecture Notes in Computer Science, vol. 3951, pp.404-417, 2006）などを用いることができる。

なお、ここで取り上げたもの以外でも、任意の特徴量を用いて構わない。

続いて、クラスタリング部１３３が部分領域の特徴量に基づきクラスタリングを行う。特徴量に基づくクラスタリングについて、K-means 法、Spectral Clustering（参考文献７ U. Luxburg, “A Tutorial on Spectral Clustering”, Statistics and Computing, 17, pp.395-416, 2007）、Affinity Propagation（参考文献８ B. J. Frey and D. Dueck, “Clustering by Passing Messages Between Data Points”, Science, 315, pp.972-976, 2007）などの任意のクラスタリング手法を用いることができる。

K-means 法は最も一般的なクラスタリング手法のひとつであり、実装も容易であるが、以下の４点のような問題点がある。

（１）クラスタリング結果が初期値に強く依存するため、結果が収束するまで繰り返し試行する必要がある点
（２）特徴量空間における各クラスタのサイズがほぼ等しいことが暗黙的に仮定されているので、例えばある特定のオブジェクトが高頻度で出現する映像群を入力データとして用いる場合など、クラスタ毎にそのサイズが異なることが予想される場合においては、良好なクラスタリング結果を得られない可能性がある点
（３）線形分離不能なデータに対して適切なクラスタリングができない点
（４）要素間の関係性が要素間の距離以外では定義できない点
Spectral Clustering を用いる利点としては、大きく以下の３点を挙げることができる。

（１）大域的に最適なクラスタリング結果を得られることが保証されている点
（２）線形分離不能なデータに対して適切なクラスタリングが可能である点
（３）値の大きさと関係性の高さが比例するような値であれば、要素間の関連性は如何様にも定義することができる点
一方で、Spectral Clustering には、以下の２点のような問題点がある。

（１）計算量が膨大であり、往々にして処理に時間がかかる点
（２）新しい要素を既存のクラスタで分類することが困難である点
Affinity Propagation を用いる利点としては、大きく以下の３点を挙げることができる。

（１）結果が初期値に依存せず、試行が１回で済む点
（２）試行回数が少ないため、全体の処理時間としては K-means よりも往々にして短く済む点
（３）値の大きさと関係性の高さが比例するような値であれば、要素間の関連性は如何様にも定義することができる点
実際にクラスタリングを行う際には、データの構造と各手法の特徴とを照らし合わせながら、適切な手法を選択すればよい。

続いて、重要度計算部１３４が各映像における各クラスタの重要度を算出する。各映像における各クラスタの重要度は、（ａ）「映像群におけるクラスタの重要度」と（ｂ）「映像内におけるクラスタの重要度」の２つの観点において重要であるほど高い値をとる尺度として定義される。重要度を算出する方法について、（ａ），（ｂ）それぞれの重要度の和として定義したり、（ａ），（ｂ）それぞれの重要度の積として定義する方法が考えられる。

（ａ）「映像群におけるクラスタの重要度」は、（ｉ）映像群内におけるクラスタ要素の出現頻度、（ｉｉ）映像群内の各映像単位におけるクラスタ要素の出現頻度のうち、少なくとも一方の観点を考慮する値として定義される。

（ｉ）について、例えば「犬」というキーワードに対し本発明を適用することを考えたとき、「犬」というキーワードが付与された映像から抽出される部分領域群の中には犬に関連する部分領域が多く含まれていると考えられる。したがって、各クラスタに所属する要素の数は、そのクラスタの重要度を示す指標のひとつであると言える。（ｉ）を定式化する方法はいくつか考えられるが、たとえばクラスタＣ_kに含まれる要素数をＮＳ_Ck、映像群内の全部分領域の数をＮＳ_allとすれば、（ｉ）はＮＳ_Ck／ＮＳ_allと表すことができる。

（ｉｉ）について、例えば「空」、「芝生」、「海」といった背景や景観は、映像中に数多く出現することが予想される。しかし、各映像の特徴を表すキーワードは、これらの背景や景観に依存しない可能性が高い。すなわち、多くの映像に出現するようなありふれたクラスタは、本発明が解決する問題において重要度が低いと言える。（ｉｉ）を定式化する方法はいくつか考えられるが、例えば、映像群内の映像の数をＮＶ_all、映像群内の映像のうちクラスタＣ_kの要素がひとつでも含まれる映像の数をＮＶ_Ckとすれば、（ｉｉ）はＮＶ_all／ＮＶ_Ckと表すことができる。

（ｂ）「映像内におけるクラスタの重要度」は、（ｉｉｉ）各映像内におけるクラスタ要素の出現頻度、（ｉｖ）各映像内の各代表画像単位におけるクラスタ要素の出現頻度のうち少なくとも一方の観点を考慮する値として定義される。（ｉｉｉ），（ｉｖ）は（ｉ），（ｉｉ）と同様の考察を映像単位で行ったものであると言える。

（ｉｉｉ）は、各映像内において数多く出現するクラスタほど重要であるという考察に基いており、（ｉ）と同様な定式化をすると、ＮＳ_Ck∩Vn／ＮＳ_Vnと表すことができる。ただし、ＮＳ_Ck∩Vnは映像Ｖnに含まれるクラスタＣ_kの要素数であり、ＮＳ_Vnは映像Ｖnを構成する全部分領域の要素数である。

（ｉｖ）は、映像内の多くの代表画像に出現するクラスタほど重要ではないという考察に基いており、（ｉｉ）と同様な定式化をすると、ＮＦ_Vn／ＮＦ_Ck∩Vnと表すことができる。ただし、ＮＦ_Vnは映像Ｖnを構成する代表画像の数であり、ＮＦ_Ck∩Vnは映像Ｖnを構成する代表画像のうち、クラスタＣ_kの要素をひとつでも含んでいる代表画像の数を表す。

以上の考察から算出される、映像群に含まれる映像ＶnにおけるクラスタＣ_kの重要度ＩＭ_Vn(Ｃ_k)は次式（１）で表すことができる。

なお、クラスタＣ_kの重要度ＩＭ_Vn(Ｃ_k)は、（ｉ）〜（ｉｖ）のそれぞれが高い値であるほど高い値をとるように定式化されていればよく、式（１）のように（ｉ）〜（ｉｖ）の積として定式化する方法や、あるいは（ｉ）〜（ｉｖ）の和として定式化する方法がある。

重要度計算部１３４では、各映像、各クラスタについて、重要度ＩＭ_Vn(Ｃ_k)を計算する。計算した重要度ＩＭ_Vn(Ｃ_k)が閾値を上回る値であれば、そのクラスタＣ_kを映像Ｖnにおける重要クラスタであると判定する。閾値を決定する方法について、例えばあらかじめ決定しておいてもよいし、各映像区間について得られた確率値群の平均や中央値を用いるなどしてもよい。

そして、各代表画像について、重要クラスタに所属する部分領域で構成される領域を重要領域と定義し、重要領域特徴量計算部１４が、各代表画像の重要領域の特徴量を計算する。重要領域特徴量計算部１４による重要領域の特徴量の計算については、上記の部分領域特徴量計算部１３２と同じ要領で行い、任意の特徴量算出方法を用いることができる。

〈キーワードと映像の関連度について〉
本実施の形態では、キーワードと映像の関連度について、キーワードと映像に付与されたその他のキーワード群との関連度を考え、これをキーワードと映像の関連度とみなす。例えば「犬」というキーワードが付与された２つの映像Ａ，Ｂがあるとする。映像Ａは、映像中の１映像区間のみに犬が登場する映像であるのに対し、映像Ｂは、犬の話題を中心に扱ったドキュメンタリーであるとする。このとき「犬」というキーワードと映像の関連度について、映像Ａよりも映像Ｂの方が高いことは明らかである。映像Ａは犬との関連性が低いため、おそらく映像Ａに付与されている他のキーワードは、例えば人物名や地名など、犬とは関係のないキーワードが多く付与されている可能性が高い。一方で、犬との関連性が高い映像Ｂには、「犬」というキーワードのほかに、例えば「ポメラニアン」「チワワ」といった犬の種類に関するキーワードであったり、「かわいい」「小さい」といった犬の態様に関するキーワードが多く付与されると考えられる。したがって、本実施の形態では、キーワードと映像の関連度を評価するために、キーワードと映像に付与されたその他のキーワード群の関連度を評価する。

キーワードと映像に付与されたその他のキーワード群の関連度を評価するためには、キーワードとその他のキーワード群の各要素の関連度の平均をとればよい。任意の２つのキーワード間の関連度を評価する方法について、キーワード間の、同一の映像に付与される共起の頻度を考えてもよいし、Normalized Google Distance（ＮＧＤ）を用いてもよい（参考文献９ R.L. Cilibrasi and P.M.B. Vitanyi, “The Google Similarity Distance”, IEEE Transactions on Knowledge and Data Engineering, Vol. 19, No. 3, pp.370-383, 2007）。ＮＧＤを用いた場合、キーワードｔと映像Ｖとの関連度は次式（２）のように定義できる。

ただし、Ｔは映像Ｖに付与されているキーワードの集合、｜Ｔ｜は映像Ｖに付与されているキーワードの数を示す。

各キーワードに関して、各映像との関連度を考慮することは、以下で説明する評価関数の性能を左右する重要な要素のひとつである。

〈評価関数最適化処理について〉
本実施の形態では、重要領域決定部１３が抽出した代表画像の重要領域に対してキーワードが割り当てられる確率を用いて、各代表画像の重要領域に割り当てるキーワードを決定する。各代表画像の重要領域に各キーワードが割り当てられる確率を定義する方法について、例えばナイーブベイズモデルやロジスティック回帰モデルを用いることができる。ｉ番目の映像のｊ番目の映像区間におけるｋ番目の代表画像の重要領域ｒ_ijkに対してキーワードｔが割り当てられる確率Ｐ_t（ｔ｜ｒ_ijk）は、例えばロジスティック回帰モデルを用いた場合、次式（３）で表される。

ただし、ｆ_rijkはｒ_ijkの特徴量ベクトル、Ｗ_tは重みベクトル、ｂ_tはスケーリングパラメータである。ｆ_rijkとＷ_tの次元数が等しいことは言うまでもない。重みベクトルＷ_tおよびパラメータｂ_tは未知の値であり、これらを求めることで、Ｐ_t（ｔ｜ｒ_ijk）の値が得られる。

続いて、重みベクトルＷ_tおよびパラメータｂ_tを求める方法について説明する。

まず、式（３）で定義された各重要領域に各キーワードが割り当てられる確率をもとに、各映像に対して各キーワードが割り当てられる確率を定義する。各映像に対して各キーワードが割り当てられる確率を定義する方法について、例えば、各重要領域に各キーワードが割り当てられる確率に、その確率が全体に占める割合を乗じた値の総和をとることで定義する方法や、各重要領域に各キーワードが割り当てられる確率に、次式（４）で示されるソフトマックス関数を乗じた値の総和をとることで定義する方法がある。

式（４）を用いた場合、ｉ番目の映像Ｖ_iにキーワードｔが割り当てられる確率Ｐ（ｔ｜Ｖ_i）は次式（５）のように表すことができる。

本実施の形態では、キーワードが映像単位でどの映像に付与されているかは既知であることを利用し、映像Ｖ_iにキーワードｔが割り当てられる確率Ｐ（ｔ｜Ｖ_i）が、既知のキーワード付与状況を最もよく表すように最適化を行う。例えば最小二乗誤差の最適化であったり、相関の最大化といった形で定式化することができる。

以下では、キーワードｔが映像Ｖ_iに割り当てられる確率Ｐ（ｔ｜Ｖ_i）と、キーワードｔが実際に各映像に付与されている状況との最小二乗誤差を最小化するように、重みベクトルＷ_tおよびパラメータｂ_tを求める手順について述べる。このとき、評価関数Ｅ_tは次式（６）のように定義できる。

Ｙ_iは、映像Ｖ_iにキーワードｔが付与されている場合は１、付与されていない場合は０をとる。Ｎ_Vは、映像群中の映像の数である。ｒｅｌ（ｔ，Ｖ_i）は、式（２）で定義した、キーワードｔと映像Ｖ_iの関連度である。

式（６）を最小化するには、最急降下法や共役勾配法といった方法を用いることができる。ここでは最急降下法で最適化する手順の例を示す。

１．重みベクトルＷ_tおよびパラメータｂ_tについて適当な初期値Ｗ_t ⁰，ｂ_t ⁰を設定する。

２．重みベクトルＷ_tおよびパラメータｂ_tをもとに、式（２），（３），（５）からＥ_tを計算する。

３．前回計算したＥ_tと比較し、差が閾値より小さければ処理を終了する。

４．以下の式（７）〜（１３）を用いてＷ_t，ｂ_tを更新する。

５．ステップ２に戻り、ステップ３の条件が満たされるまで、ステップ２〜４を繰り返す。

なお、Ｗ_n,tは重みベクトルＷ_tのｎ番目の要素であり、ｆ_rijk,nは重要領域ｒ_ijkの特徴量ベクトルｆ_rijkのｎ番目の要素である。

以上の最適化処理によって、重みベクトルＷ_tおよびパラメータｂ_tを得ることができる。

〈キーワード割り当て決定処理について〉
キーワード割り当て決定部１７は、評価関数最適化部１６による最適化処理の結果を用いて、映像の時間的かつ空間的な位置へのキーワードの割り当てを行う。キーワード割り当て処理は、キーワード割り当て部１７１による代表画像にキーワードを割り当てる処理と、キーワード動き推定部１７２による各キーワードの動きを推定する処理で構成される。

評価関数最適化部１６による最適化処理によって、各重要領域に各キーワードが割り当てられる確率を具体的に計算することができる。具体的には、最適化処理で得られた重みベクトルＷ_tおよびパラメータｂ_tを式（３）に代入することによって、確率Ｐ_t（ｔ｜ｒ_ijk）が計算できる。この確率Ｐ_t（ｔ｜ｒ_ijk）をもとに、各映像区間および各重要領域について、実際にキーワードを割り当てるか否かを決定する。例えば、ある一定の閾値を設け、確率Ｐ_t（ｔ｜ｒ_ijk）が閾値以上であればキーワードを割り当て、閾値未満であればキーワードを割り当てないという方法を用いる。閾値を決定する方法について、例えば予め設定しておいてもよいし、各映像区間について得られた確率値群の平均や中央値を用いてもよい。

割り当てられることが決定したキーワードについては、割り当てる位置を決定する。例えば代表画像の重要領域の重心を計算し、重心の位置にキーワードを重畳する方法や、映像中への重畳を避けて、重心から横方向もしくは縦方向にずらして画像の外部に設定する方法が考えられる。

キーワード割り当て部１７１が割り当てたキーワードの位置は、代表画像におけるキーワードの位置であるので、キーワード動き推定部１７２が、代表画像中のキーワードの位置をもとに、映像区間内におけるキーワードの動きを推定する。例えば、代表画像におけるキーワードの位置を中心として矩形領域のオプティカルフローを計算する方法が考えられる。

以上の処理を、キーワード群内の全てのキーワードについて行うことによって、映像単位で割り当てられたキーワードの、映像区間への割り当ておよび映像区間内の場所への割り当てを、同一処理で行うことができる。

以上説明したように、本実施の形態によれば、各映像から抽出される代表画像の部分領域を特徴量に基いてクラスタリングし、得られたクラスタについて、（ａ）映像群におけるクラスタの重要度と（ｂ）映像内におけるクラスタの重要度の双方を考慮して定義されるクラスタの重要度を算出し、算出した重要度に基いて各代表画像の重要領域を決定して重要領域の特徴量を求め、重要領域に前記キーワードが割り当てられる確率を重要領域の特徴量と未知のパラメータを用いて定義し、その確率と、キーワードと映像の関連度と、映像にキーワードが付与されている状況とに基づく評価関数を最適化して未知のパラメータを求め、重要領域にキーワードが割り当てられる確率を計算して重要領域にキーワードを割り当てることにより、各映像から抽出した代表画像の重要領域の重要度を用いて空間性を考慮するので、時間的にも、空間的にも適切な位置にキーワードを割り当てることが可能となる。

本実施の形態では、（ａ）映像群におけるクラスタの重要度を（ｉ）映像群内におけるクラスタ要素の出現頻度と（ｉｉ）映像群内の各映像単位でのクラスタ要素の出現頻度のうち少なくとも一方の観点を考慮する値として定義し、（ｂ）映像内におけるクラスタの重要度を（ｉｉｉ）映像におけるクラスタ要素の出現頻度と（ｉｖ）映像内の各代表画像単位でのクラスタ要素の出現頻度のうち少なくとも一方の観点を考慮する値として定義した。

また、本実施の形態では、キーワードと映像の関連度を、キーワードと映像に付与された他のキーワードとの関連度から求めた。

１…映像キーワード割り当て装置
１１…映像区間分割部
１２…代表画像抽出部
１３…重要領域決定部
１３１…部分領域分割部
１３２…部分領域特徴量計算部
１３３…クラスタリング部
１３４…重要度計算部
１４…重要領域特徴量計算部
１５…関連度計算部
１６…評価関数最適化部
１７…キーワード割り当て決定部
１７１…キーワード割り当て部
１７２…キーワード動き推定部
１８…記憶部

Claims

１つ以上のキーワードが映像単位で付与されている複数の映像の各映像内の時間的かつ空間的に適切な位置に前記キーワードを割り当てる映像キーワード割り当て装置であって、
前記複数の映像それぞれから抽出された１枚以上の代表画像を入力し、前記代表画像それぞれを部分領域に分割する部分領域分割手段と、
前記部分領域の特徴量を計算する部分領域特徴量計算手段と、
前記部分領域の特徴量に基づき前記部分領域をクラスタに分類するクラスタリング手段と、
前記クラスタそれぞれについて、前記複数の映像におけるクラスタの重要度と前記映像内におけるクラスタの重要度の双方の観点から、前記クラスタに属する部分領域の数に基づき、前記映像それぞれにおける重要度を計算する重要度計算手段と、
前記代表画像それぞれについて、前記重要度が高いクラスタに属する前記部分領域を重要領域として、当該重要領域の特徴量を計算する重要領域特徴量計算手段と、
前記映像に付与されているキーワードそれぞれについて、前記キーワードと前記映像に付与されている他のキーワード群との関連度をキーワードと映像の関連度として計算する関連度計算手段と、
前記重要領域に前記キーワードが割り当てられる確率を前記重要領域の特徴量と未知のパラメータを用いて定義し、前記確率と前記関連度と映像にキーワードが付与されている状況に基づく評価関数を用いて、当該評価関数から算出される評価値を最小もしくは最大とする前記パラメータを求める評価関数最適化手段と、
前記パラメータを代入して重要領域にキーワードが割り当てられる確率を計算し、当該確率に基いて前記重要領域に前記キーワードを割り当てるキーワード割り当て手段と、
を有することを特徴とする映像キーワード割り当て装置。
前記重要度計算手段は、
前記複数の映像におけるクラスタの重要度として、前記複数の映像における前記クラスタに属する前記部分領域の出現頻度と前記複数の映像の各映像単位での前記クラスタに属する前記部分領域の出現頻度の少なくとも一方を用い、
前記映像内におけるクラスタの重要度として、前記映像における前記クラスタに属する前記部分領域の出現頻度と前記映像の各代表画像単位での前記クラスタに属する前記部分領域の出現頻度の少なくとも一方を用いること
を特徴とする請求項１記載の映像キーワード割り当て装置。
１つ以上のキーワードが映像単位で付与されている複数の映像の各映像内の時間的かつ空間的に適切な位置に前記キーワードを割り当てる映像キーワード割り当て方法であって、
前記複数の映像それぞれから抽出された１枚以上の代表画像を入力し、前記代表画像それぞれを部分領域に分割するステップと、
前記部分領域の特徴量を計算するステップと、
前記部分領域の特徴量に基づき前記部分領域をクラスタに分類するステップと、
前記クラスタそれぞれについて、前記複数の映像におけるクラスタの重要度と前記映像内におけるクラスタの重要度の双方の観点から、前記クラスタに属する部分領域の数に基づき、前記映像それぞれにおける重要度を計算するステップと、
前記代表画像それぞれについて、前記重要度が高いクラスタに属する前記部分領域を重要領域として、当該重要領域の特徴量を計算するステップと、
前記映像に付与されているキーワードそれぞれについて、前記キーワードと前記映像に付与されている他のキーワード群との関連度をキーワードと映像の関連度として計算するステップと、
前記重要領域に前記キーワードが割り当てられる確率を前記重要領域の特徴量と未知のパラメータを用いて定義し、前記確率と前記関連度と映像にキーワードが付与されている状況に基づく評価関数を用いて、当該評価関数から算出される評価値を最小もしくは最大とする前記パラメータを求めるステップと、
前記パラメータを代入して重要領域にキーワードが割り当てられる確率を計算し、当該確率に基いて前記重要領域に前記キーワードを割り当てるステップと、
を有することを特徴とする映像キーワード割り当て方法。
前記重要度を計算するステップは、
前記複数の映像におけるクラスタの重要度として、前記複数の映像における前記クラスタに属する前記部分領域の出現頻度と前記複数の映像の各映像単位での前記クラスタに属する前記部分領域の出現頻度の少なくとも一方を用い、
前記映像内におけるクラスタの重要度として、前記映像における前記クラスタに属する前記部分領域の出現頻度と前記映像の各代表画像単位での前記クラスタに属する前記部分領域の出現頻度の少なくとも一方を用いること
を特徴とする請求項３記載の映像キーワード割り当て方法。
請求項３又は４に記載の映像キーワード割り当て方法の各ステップをコンピュータに実行させることを特徴とする映像キーワード割り当てプログラム。