JP4995770B2

JP4995770B2 - 画像辞書生成装置，画像辞書生成方法，および画像辞書生成プログラム

Info

Publication number: JP4995770B2
Application number: JP2008132711A
Authority: JP
Inventors: 泳青孫; 聡嶌田; 行信谷口
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2008-05-21
Filing date: 2008-05-21
Publication date: 2012-08-08
Anticipated expiration: 2028-05-21
Also published as: JP2009282660A

Description

本発明は，画像や映像中のオブジェクトやシーンがどのような概念であるかを認識するときに必要となる画像辞書を生成する画像辞書生成装置，画像辞書生成方法，および画像辞書生成プログラムに関する。

予め定義しておいた意味ラベルと画像内容との関係に基づいて画像辞書を生成する従来技術として，大量の正事例データと負事例データを手動で収集し，収集したデータを学習することで求めた識別関数により，画像辞書を生成する方法がある。

例えば，非特許文献１に記載されている技術では，まず，ある意味に関する画像群を学習データとして収集し，次に学習データから色，テクスチャ，形状などの特徴量（Ｌ個）を別々に抽出し，その後，学習手法を用いて，個々の特徴空間においてＬ個の特徴識別モデルを構築する。このようにして学習データから求めた特徴識別モデルと各モデルの重み付け係数とをもとに画像辞書を生成する。

また，正事例と負事例を自動で収集する方法として，ウェブ画像を自動収集してから，その中から選択した正事例とランダムに生成した負事例とを学習データとして用いて，その学習データを学習することで求めた識別関数により画像辞書を生成する方法がある（非特許文献２参照）。

なお，後述する本発明の実施例で用いることができる領域分割方法の一例としては，非特許文献３に示されている技術がある。
A.Yanagawa, S.-F.Chang, L.Kennedy, and W.Hsu: "Columbia University's Baseline detectors for 374 LSCOM Semantic Visual Concepts", Columbia University ADVENT Technical Report #222-2006-8, March 20, 2007. Keiji Yanai, Kobus Barnard: Probabilistic Web Image Gatheringp, Proc. of ACM Multimedia Workshop on Multimedia Information Retrieval, pp.57-64, Nov. 2005. Yongqing Sun, Shinji Ozawa: "HIRBIA: A Hierarchical Approach for Region-based Image Retrival", ACM Multimedia System Journal, 10(6): 559-569(2005).

従来の大量の正事例と負事例の学習データを手動で収集しておくことを前提とした技術は，学習データの収集に多大のコストと時間がかかることと，意味ラベルと画像内容との関係が変動する場合に適用できないことが問題である。

例えば，ウェブ上にある画像の検索を行う場合，利用者の検索要求が生じるたびに，その定義ラベルを表す画像を大量に収集する必要がある。意味ラベルと画像内容の関係が変動するケースとして，（１）話題の変化によって意味ラベルの指し示す内容が変化するケース（例えば，Ｔｉｇｅｒという意味ラベルに対して，ＴｉｇｅｒＷｏｏｄｓが優勝した日のＴｉｇｅｒＷｏｏｄｓ），（２）アナウンサーシーンという意味ラベルに対して，ニュース映像におけるアナウンサーのシーンを対応づける場合に，ニューススタジオが変わると，意味ラベルと画像内容の関係が変化するというようなケースがある。このような場合にその都度，改めて大量の学習データを収集して学習しなおす必要がある。このように，手動で学習データを収集する方法は，学習にコストと時間がかかるために適用領域が限定されるという問題があった。

また，正事例と負事例を自動で収集する従来技術においては，負事例がランダムに収集されているので，負事例には正事例も混じる可能性が高く，画像辞書の精度が低くなることが問題であった。

本発明は，上記課題の解決を図り，学習データの収集に負荷をかけることなく，かつ高精度に画像辞書を生成することができる技術を提供することを目的とする。

画像辞書を高精度に生成するためには，負事例データをランダムに収集するのではなく，正事例データのできるだけ近くに分布するが，正事例ではないデータを負事例とすればよい結果が得られる。

そこで，本発明は，辞書用画像群から意味ラベルを表現している正事例データを選定する手段と，選定した正事例データを利用して，本発明に特有の方法により意味ラベルを表していない負事例データを辞書用画像群から選定する手段とを備えることを主要な特徴とする。すなわち，選定した正事例データを利用して，同じ辞書用画像群から意味ラベルを表していない負事例データを選定する手段を備えることにより，識別精度の高い画像辞書の生成が可能になる点が従来技術と大きく異なる。

また，一般的に，画像は複数の対象物で構成されていることが多いので，画像を領域分割して得られる部分領域から意味ラベルを表す辞書を生成する方法が有効である。意味ラベルを表す画像情報が多く含まれた辞書用画像群が与えられたときに，これらの辞書用画像の中で，画像の特徴が類似した部分領域が頻出していれば，その中に意味ラベルをよく表現した領域があるとすることは妥当である。

したがって，さらに本発明では，頻出する類似の部分領域を求め，その中から正事例を選定する。負事例については，前述したように正事例を利用して適切に選定できるとよい。例えば，辞書用画像群が主要な被写体と背景で構成されていて，主要な被写体が正事例として選定されたときに，背景が似たシーンの中には正事例と類似しているが正事例ではない被写体が出現することが多い。このような部分領域の共起関係に着目し，正事例として選定された部分領域を利用して負事例を選定する方法が有効である。

以上の点に鑑み，本発明では，さらに辞書用画像群の各画像に対して領域分割を行う画像領域分割処理手段と前記得られた領域群が類似している領域クラスタを検出するクラスタリング処理手段を用いて，領域クラスタの中から正事例を選定し，また，負事例の選定では，正事例領域クラスタに属する画像領域を含む画像から，正事例データでない領域のクラスタを抽出し，辞書用画像群の中から，正事例領域クラスタに属する画像領域を含まない画像であり，抽出したクラスタの領域を含む画像を抽出し，抽出した画像における分割された領域群から正事例データの近傍にある領域を負事例データとして選定する。この発明では，画像領域分割手段により画像領域分割した領域群にクラスタリング処理を行うことで自動的に領域クラスタを求め，その中のどれを正事例にするかを利用者が選択する簡単な指示を行うだけで，適切な正事例データと負事例データとを選定できるので，負荷をかけることなく高精度な画像辞書が生成できる。

また，辞書用画像群が映像として与えられたときには，時間的に連続していて，被写体の動きやカメラの動きなどで見かけの変動があるが，同一の被写体が写っている場合や背景が同じ場合など，画像内容が類似している区間をショット区間として検出し，ショット単位で一括して正事例および負事例を選定すれば，効率よく画像辞書が生成できる。例えば，１０秒間のショットから０．１秒間隔で画像を選択すれば，一つのショットを選定するだけで１００枚の学習用の画像データを選定でき，学習データ収集の負荷を軽減することができる。

そこで，本発明は，与えられた辞書用映像の中から，画像内容が類似している，時間的に連続した区間をショットとして検出するショット検出手段を備え，ショット単位で，正事例データおよび負事例データを選定する。

上記のように本発明によれば，辞書生成に用いる辞書用画像群が与えられたときに，その辞書用画像群から意味ラベルを表現している正事例データを選定し，その選定した正事例データを利用して負事例データを選定するので，学習データを簡単に効率よく取得することができる。

また，正事例選定手段では，利用者の要求に応じた正事例を選択することにより，意味ラベルと画像内容との関係が変動する場合の辞書生成に適用できる。

また，正事例を含まない辞書用画像群の中で意味ラベルを表してない負事例データを選定する手段を設けることで，高精度な辞書を生成することができる。

以下，図面を参照しながら，本発明の実施の形態を説明する。

〔第１の例〕
第１の例の画像辞書生成装置は，与えられた辞書用画像群の各画像を領域分割し，クラスタリングをしてユーザに提示する。ユーザは，提示されたクラスタリング結果から正事例をポインティングデバイスなどにより指示する。その指示を入力して正事例データを選定し，次に，正事例でない他の領域をクラスタリングし，そのクラスタ領域を含む他の画像を得る。正事例のクラスタと距離が近い他のクラスタの領域を負事例とする。

第１の例の画像辞書生成装置の構成図を，図１に示す。本例の画像辞書生成装置は，辞書用画像群蓄積部１１と，画像領域分割処理部１２と，クラスタリング処理部１３と，正事例領域クラスタ選定部１４と，負事例選択部１５と，画像辞書生成部１６と，辞書記憶部１７とから構成される。これらは，ＣＰＵ，メモリ，外部記憶装置等からなるコンピュータとソフトウェアプログラム等によって実現される。各部の処理内容について以下に説明する。

辞書用画像群蓄積部１１は，事前に取得しておいた辞書用の画像を蓄積・管理しておき，画像領域分割処理部１２からの要求に応じて辞書用画像を画像領域分割処理部１２に出力する。辞書用画像群蓄積部１１には，例えば意味ラベルを検索ワードとしてウェブ画像検索エンジンから収集した画像群を収集して，辞書用画像群として格納すればよい。

画像領域分割処理部１２は，辞書用画像群蓄積部１１に読み取り要求を出して辞書用画像群蓄積部１１から受け取ったある意味ラベルに関する辞書用画像群の個々の画像について，領域分割を行う。領域分割については，非特許文献３に示されているような従来の技術を用いることをができる。領域分割により得られた領域群をクラスタリング処理部１３へ出力する。

クラスタリング処理部１３は，画像領域分割処理部１２から辞書用画像群の領域群を受け取って，クラスタリングを行う。求められた領域クラスタを正事例領域クラスタ選定部１４へ出力する。

正事例領域クラスタ選定部１４は，クラスタリング処理部１３から受け取った領域クラスタをディスプレイに表示し，利用者に提示する。ポインティングデバイス等により入力した利用者の指示に応じた一つの領域クラスタを正事例領域クラスタとして選択する。その正事例領域クラスタを負事例選択部１５へ出力する。

負事例選択部１５は，正事例領域クラスタ選定部１４から正事例領域クラスタを受け取ると，正事例領域クラスタにおける各正事例領域を含む画像を除いた辞書用画像群の中で，負事例を選択する。

画像辞書生成部１６は，負事例選択部１５から受け取った正事例と負事例を学習データとして用いて，従来技術と同様な学習手法によりモデルを求めて，辞書記憶部１７へ出力する。辞書記憶部１７は，画像辞書生成部１６から受け取ったモデルと意味ラベルを組にして画像辞書として記憶する。

次に，上記の構成における処理手順を説明する。図２は，図１に示す画像辞書生成装置の基本動作のフローチャートである。

・ステップＳ２１：辞書用画像群蓄積部１１で管理されている辞書用画像群を読み込む。

・ステップＳ２２：ステップＳ２１において収集した辞書用画像群の個々の画像に対して領域分割を行う。領域分割の手法については，例えば非特許文献３に記載されているような従来技術を用いればよい。このような領域分割の手法は，よく知られている技術であるので，ここでの詳細な説明は省略する。

・ステップＳ２３：ステップＳ２２で得られた領域群をクラスタリング手法に基づいて領域クラスタに分類する。この領域の分類は，ＦｕｚｚｙＫ−ｍｅａｎｓなどのクラスタリングにより実現できる。この領域の分類手法についても，画像処理技術の分野ではよく知られている手法であるので，その詳細な手順の説明は省略する。

・ステップＳ２４：ステップＳ２３で求められた領域クラスタを利用者に提示し，利用者からの指示により正事例領域クラスタを選定する。

図３に，利用者からの指示を入力し，正事例領域クラスタを選定するためのＧＵＩ（Graphical User Interface）の例を示す。例えば，図３（Ａ）に示すような辞書用画像群の各画像３１〜３４を，ステップＳ２２において領域分割することにより，画像３１については分割領域３１ａ〜３１ｄが，画像３２については分割領域３２ａ〜３２ｄが，画像３３については分割領域３３ａ〜３３ｄが，画像３４については分割領域３４ａ〜３４ｄが，それぞれ得られたとする。

ステップＳ２３では，これらの各分割領域３１ａ〜３４ｄについて，類似する特徴を有するものをグループ化し，クラスタリングする。ここで，分割領域３１ａ，３３ｄ，３４ｃが領域クラスタCluster1に，分割領域３２ｄ，３３ａが領域クラスタCluster2に，分割領域３１ｃ，３３ｃ，３４ａが領域クラスタCluster3にクラスタリングされたとすると，そのクラスタリング結果の三つの領域クラスタを，図３（Ｂ）に示す表示画面３５のようにディスプレイに一覧表示し，この中から利用者が正事例領域クラスタとみなすクラスタをポインティングデバイスでクリックすることにより指示できるようにする。ステップＳ２４では，この指示を入力し，正事例領域クラスタを選定する。この例では，領域クラスタCluster1が正事例領域クラスタとして選定されている。これらの領域の画像を正事例とする。

・ステップＳ２５：次に，正事例領域クラスタの選定結果を利用して，正事例の分布の近傍にある負事例を選択する処理を行う。この処理内容の詳細については，図４に従って後述する。

・ステップＳ２６：ステップＳ２４，Ｓ２５で求められた正事例と負事例とを用いて，モデルを学習する。学習手法の実施例として，サポートベクターマシン（ＳＶＭ：Suport Vector Machine ）を用いればよい。もちろん，他の学習器を用いることも可能である。

・ステップＳ２７：ステップＳ２６で得られたモデルとそれに関する意味ラベルを画像辞書として辞書記憶部１７に格納する。以上の処理により，画像辞書が生成される。

次に，上記ステップＳ２５における負事例選択処理の詳細について，図４に示すフローチャートに従って説明する。ここで，図５に示す辞書用画像群を説明の例として用いる。図５において，Ａは画像辞書生成の対象となる被写体で，Ｃ，ＤはＡと似ている被写体で，Ｂ１〜Ｂ６は画像の中の背景である。例えば，Ａ，Ｃ，Ｄはゴルフ選手であり，Ｂ１，Ｂ２，Ｂ３はゴルフ場の芝生，空などの背景であるが，この場合のように似ている背景の被写体は類似していることが多い。

・ステップＳ３１：図２のステップＳ２４にて得られた正事例領域クラスタ（Ａの領域で構成されるクラスタ）を読み込む。

・ステップＳ３２：辞書用画像群の中で正事例領域を含む画像（Ａの領域を含む画像１，画像２）を収集する。

・ステップＳ３３：ステップＳ３２で得られた画像群（画像１，画像２）における，正事例でない領域群のクラスタを抽出する。なお，ここで正事例でない領域群に対してクラスタリングを行って，クラスタ内の領域数や領域の面積により（ステップＳ３５の説明参照），主要なクラスタ（Ｂ１，Ｂ２，Ｂ３の領域で構成されるクラスタ）を求めてもよい。

・ステップＳ３４：辞書用画像群の中から，ステップＳ３３で求められたクラスタにおける領域（Ｂ１，Ｂ２，Ｂ３の領域）を含み，かつ正事例（Ａの領域）を含まない画像（画像３，画像４，画像５，画像６）を取得する。

・ステップＳ３５：ステップＳ３４で得られた画像の領域群（ステップＳ２２の領域分割で得られた領域群のうち画像３〜６の領域群）を再度クラスタリングし，クラスタリング結果から主要なクラスタ（例えばＣ，Ｄの領域で構成されるクラスタ）を抽出する。ここでは，例えばクラスタ内の領域数が多いクラスタ，もしくはその領域数がある閾値以上のクラスタ，または，クラスタ内の領域の面積が大きいクラスタというような，負事例の候補として適切であると考えられるクラスタを，主要なクラスタとして抽出する。また，ここで抽出するクラスタとして，そのクラスタの中心と正事例領域クラスタの中心との特徴空間における距離が最も小さいクラスタを選んでもよい。

・ステップＳ３６：ステップＳ３５で得られたクラスタ（この例では，Ｃ，Ｄの領域で構成されるクラスタ）にある各領域と正事例領域クラスタの中心との距離を算出する。距離の小さい順に正事例と同数の領域を選択して負事例とする。選択する負事例は，必ずしも正事例と同数でなくてもよいが，同数に近いほうが学習結果の精度がよくなる。

以上のステップＳ３１からステップＳ３６に至る処理により，正事例の分布の近傍にある負事例を選択することができる。それらの負事例を学習に用いることで，誤認識を抑えることができる。なお，上記ステップＳ３６において，図３（Ｂ）と同じようなＧＵＩによる一覧表示により，利用者に負事例を選択させることも可能である。

〔第２の例〕
第２の例の画像辞書生成装置は，辞書生成に用いる辞書用画像群が映像として与えられたときに，映像をショットに分割し，ショット単位で正事例を利用者に指定させ，他を負事例として学習することにより，画像辞書を生成する。

第２の例の画像辞書生成装置の構成図を，図６に示す。本例の画像辞書生成装置は，辞書用画像群蓄積部４０，ショット分割部４１，正事例選定部４２，負事例選択部４３，画像辞書生成部４４，辞書記憶部４５で構成される。これらは，ＣＰＵ，メモリ，外部記憶装置等からなるコンピュータとソフトウェアプログラム等によって実現される。各部の処理内容について以下に説明する。

辞書用画像群蓄積部４０は，事前に取得しておいた辞書用の映像を蓄積・管理しておき，ショット分割部４１からの要求に応じて辞書用映像をショット分割部４１に出力する。

ショット分割部４１は，辞書用画像群蓄積部４０に読み取り要求を出して，辞書用画像群蓄積部４０から受け取った辞書用映像において，画像内容が類似している，時間的に連続した区間をショットとして検出する。検出したショット区間情報を正事例選定部４２へ出力する。

正事例選定部４２は，ショット分割部４１から受け取ったショット区間情報を利用者に提示する。利用者から指示により正事例を選定する。

図７に，利用者からの指示を入力し，学習データを選定するためのＧＵＩ（Graphical User Interface）の例を示す。図７に示すように，ディスプレイに各ショットの先頭画像を一覧表示し，その中から利用者にマウス等のポインティングデバイスで正事例を指示させることにより，正事例を選定する。

ここで，二つの選定方法が有効である。一つは，各ショットの先頭画像の下にある“正解”をクリックさせることにより，クリックされたショットを正事例データとして選定する方法である。この選定方法を用いれば，映像の中の「人物顔」などのオブジェクトに関する正事例を選定することができる。二つ目の方法は，各ショットの先頭画像の下にある“Ｉｎ”または“Ｏｕｔ”を利用者にクリックさせることにより，“Ｉｎ”から“Ｏｕｔ”までの間のショットを正事例として選定する方法である。例えば，図７において，画像３の下にある“Ｉｎ”のボタンと，画像５の下にある“Ｏｕｔ”のボタンがクリックされると，画像３から画像５の前までの間の全ショットを正事例として選定する。この選定方法により，映像の中の「サッカーのシュートシーン」などの動的なイベントシーンに関する正事例を，効率よく選定することが可能になる。

負事例選択部４３は，正事例選定部４２で選定した正事例以外の区間を負事例として選定する。

画像辞書生成部４４は，正事例選定部４２と負事例選択部４３によって求められた正事例と負事例を用いて，モデルを学習する。学習手法の実施例としてＳＶＭを用いればよい。もちろん，他の学習器を用いることも可能である。

画像辞書生成部４４によって得られたモデルとそれに関する意味ラベルは，画像辞書として辞書記憶部４５に格納される。

次に，上記の構成における処理手順について説明する。図８は，図６に示す画像辞書生成装置の基本動作のフローチャートである。

・ステップＳ５１：辞書用画像群蓄積部４０で管理されている映像を辞書用画像群として読み込む。

・ステップＳ５２：ステップＳ５１で読み込んだ辞書用映像において，画像内容が類似している，時間的に連続した区間をショットとして検出する。

・ステップＳ５３：ステップＳ５２から受け取ったショット区間情報を利用者に提示する。図７に示すようなＧＵＩにより利用者から指示された正事例を選択する。

・ステップＳ５４：ステップＳ５３で選定した正事例以外の区間を負事例として選択する。

・ステップＳ５５：求められた正事例と負事例を用いて，モデルを学習する。学習手法の一例としては，ＳＶＭを用いる方法があるが，他の学習器を用いることもできる。

・ステップＳ５６：学習によって得られたモデルとそれに関する意味ラベルの組を画像辞書として辞書記憶部４５に格納する。以上の処理により，画像辞書が生成できる。

以上の画像辞書生成の処理は，コンピュータとソフトウェアプログラムとによって実現することができ，そのプログラムをコンピュータ読み取り可能な記録媒体に記録して提供することも，ネットワークを通して提供することも可能である。

画像辞書生成装置の構成図である。画像辞書生成装置の基本動作のフローチャートである。正事例領域クラスタを選定するためのＧＵＩの例を示す図である。負事例選択処理を示すフローチャートである。辞書用画像群の例を示す図である。画像辞書生成装置の構成図である。正事例を選定するためのＧＵＩの例を示す図である。画像辞書生成装置の基本動作のフローチャートである。

符号の説明

１１，４０辞書用画像群蓄積部
１２画像領域分割処理部
１３クラスタリング処理部
１４正事例領域クラスタ選定部
１５，４３負事例選択部
１６，４４画像辞書生成部
１７，４５辞書記憶部
４１ショット分割部
４２正事例選定部

Claims

概念を表す言葉である意味ラベルと，当該意味ラベルの概念を表す画像情報とを組とする画像辞書を生成する画像辞書生成装置であって，
与えられた辞書生成に用いる辞書用画像群から，画像辞書生成の対象となっている特定の意味ラベルを表現している正事例データを選定する正事例選定手段と，
前記正事例選定手段により選定した正事例データを利用して，前記辞書用画像群の中の正事例データを含まない画像群から，意味ラベルを表していない負事例データを選定する負事例選定手段と，
前記正事例選定手段と前記負事例選定手段により選定した正事例データと負事例データとから画像辞書を生成する画像辞書生成手段と，
前記画像辞書生成手段が生成した画像辞書を記憶する辞書記憶手段とを備え，
前記正事例選定手段は，
前記辞書用画像群の各画像に対して領域分割を行う画像領域分割処理手段と，
前記得られた領域群をクラスタリングし，類似している領域群からなるクラスタを検出するクラスタリング処理手段と，
前記クラスタの中から，正事例となる正事例領域クラスタを，利用者からの指示により特定することで正事例データを選定する正事例領域クラスタ選定手段とを備え，
前記負事例選定手段は，
前記正事例領域クラスタに属する画像領域を含む画像から，正事例データでない領域のクラスタを抽出する手段と，
前記辞書用画像群の中から，前記正事例領域クラスタに属する画像領域を含まない画像であり，前記抽出したクラスタの領域を含む画像を抽出する手段と，
前記抽出した画像における前記分割された領域群から正事例データの近傍にある領域を負事例データとして選定する手段とを備える
ことを特徴とする画像辞書生成装置。
辞書生成に用いる辞書用画像群が映像として与えられたときに，与えられた辞書用映像の中から，画像内容が類似している，時間的に連続した区間をショットとして検出するショット検出手段を備え，
前記正事例選定手段および前記負事例選定手段は，前記ショット検出手段が検出したショット単位で正事例データおよび負事例データを選定する
ことを特徴とする請求項１に記載の画像辞書生成装置。
コンピュータによって構成される画像辞書生成装置が，概念を表す言葉である意味ラベルと，当該意味ラベルの概念を表す画像情報とを組とする画像辞書を生成する画像辞書生成方法であって，
前記画像辞書生成装置が，与えられた辞書生成に用いる辞書用画像群から，画像辞書生成の対象となっている特定の意味ラベルを表現している正事例データを選定する正事例選定過程と，
前記画像辞書生成装置が，前記正事例選定過程により選定した正事例データを利用して，前記辞書用画像群の中の正事例データを含まない画像群から，意味ラベルを表していない負事例データを選定する負事例選定過程と，
前記画像辞書生成装置が，前記正事例選定過程と前記負事例選定過程において選定した正事例データと負事例データとから画像辞書を生成する画像辞書生成過程と，
前記画像辞書生成装置が，前記画像辞書生成過程により生成した画像辞書を辞書記憶装置に記憶する辞書記憶過程とを有し，
前記画像辞書生成装置が実行する前記正事例選定過程は，
前記辞書用画像群の各画像に対して領域分割を行う画像領域分割処理過程と，
前記得られた領域群をクラスタリングし，類似している領域群からなるクラスタを検出するクラスタリング処理過程と，
前記領域クラスタの中から，正事例となる正事例領域クラスタを，利用者からの指示により特定することで正事例データを選定する正事例領域クラスタ選定過程とを有し，
前記画像辞書生成装置が実行する前記負事例選定過程は，
前記正事例領域クラスタに属する画像領域を含む画像から，正事例データでない領域のクラスタを抽出する過程と，
前記辞書用画像群の中から，前記正事例領域クラスタに属する画像領域を含まない画像であり，前記抽出したクラスタの領域を含む画像を抽出する過程と，
前記抽出した画像における前記分割された領域群から正事例データの近傍にある領域を負事例データとして選定する過程とを有する
ことを特徴とする画像辞書生成方法。
前記画像辞書生成装置が，辞書生成に用いる辞書用画像群が映像として与えられたときに，与えられた辞書用映像の中から，画像内容が類似している，時間的に連続した区間をショットとして検出するショット検出過程を有し，
前記画像辞書生成装置が実行する前記正事例選定過程および前記負事例選定過程では，前記ショット検出過程において検出したショット単位で正事例データおよび負事例データを選定する
ことを特徴とする請求項３に記載の画像辞書生成方法。
請求項３または請求項４に記載の画像辞書生成方法を，コンピュータに実行させるための画像辞書生成プログラム。