JP2014115737A

JP2014115737A - 画像辞書生成装置、画像辞書生成方法及びコンピュータプログラム

Info

Publication number: JP2014115737A
Application number: JP2012267627A
Authority: JP
Inventors: Yongqing Sun; 泳青孫; Kyoko Sudo; 恭子数藤; Yukinobu Taniguchi; 行信谷口
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-12-06
Filing date: 2012-12-06
Publication date: 2014-06-26
Anticipated expiration: 2032-12-06
Also published as: JP5870014B2

Abstract

【課題】画像辞書の精度を向上させること。
【解決手段】複数の意味ラベルそれぞれに対応付けられた複数の学習画像について特徴量を抽出し、特徴量をクラスタリングし、クラスタ毎にそのクラスタに含まれる特徴量に基づいてトピックモデルを生成し、トピックモデルと学習画像との類似度に基づいて、各トピックモデルに対して複数の学習画像を対応付けし、トピックモデルと複数の学習画像との対応付けに基づいて複数のトピックモデルの識別器を生成し、複数の識別器の組み合わせを意味ラベルの画像辞書として取得する。
【選択図】図１

Description

本発明は、画像辞書を生成する技術に関する。

従来の画像辞書生成方法として次のような方法がある。
まず、ある意味ラベルに関する画像を学習データとして収集する。次に、学習データから色や形状などの特徴量を抽出する。最後に、機械学習手法を用いて、識別モデルを構築する。以上の処理により、学習データから求めた識別モデルを、任意の意味ラベルの画像辞書として生成することができる。（非特許文献１参照）

Yongqing Sun, Satoshi Shimada, Masashi Morimoto, "Visual pattern discovery using web images", ACM MIR workshop , 2006

しがしながら、上記の非特許文献１に示す画像辞書生成方法には、以下の問題がある。
意味ラベルが、画像における複数の要素（以下、「トピック」という。）の組み合わせで構成されることがある。例えば、“ビーチ”という意味ラベルは、“海”、“太陽”、“砂”、“人”などの複数のトピックの組み合わせで構成される。ところが、画像全体から抽出された一つの特徴量（例えば色や形状のヒストグラム）は、複数のトピックと意味ラベルとの対応関係を明確に規定できない。そのため、画像全体から抽出された一つの特徴量を用いる非特許文献１の方法では、画像辞書の精度が低くなってしまうという問題がある。

上記事情に鑑み、本発明は、画像辞書の精度を向上させることを可能とする技術の提供を目的としている。

本発明の一態様は、複数の意味ラベルそれぞれに対応付けられた複数の学習画像について特徴量を抽出する特徴量抽出部と、前記特徴量をクラスタリングし、クラスタ毎にそのクラスタに含まれる前記特徴量に基づいてトピックモデルを生成するトピックモデル生成部と、前記トピックモデルと前記学習画像との類似度に基づいて、各トピックモデルに対して複数の学習画像を対応付ける学習画像対応付け部と、前記トピックモデルと複数の学習画像との対応付けに基づいて複数のトピックモデルの識別器を生成し、複数の識別器の組み合わせを前記意味ラベルの画像辞書として取得する画像辞書生成部と、を備える画像辞書生成装置である。

本発明の一態様は、上記の画像辞書生成装置であって、前記画像辞書生成部は、前記複数の意味ラベルのうち処理の対象となっている意味ラベルについて、前記意味ラベルに対応付けられており且つトピックモデルに対応付けられた前記学習画像をトピックラベル毎に取得し、取得された学習画像に基づいてトピックモデル毎に識別器を生成し、生成された複数の識別器の組み合わせを、前記処理の対象となっている意味ラベルの画像辞書として取得する。

本発明の一態様は、複数の意味ラベルそれぞれに対応付けられた複数の学習画像について特徴量を抽出する特徴量抽出ステップと、前記特徴量をクラスタリングし、クラスタ毎にそのクラスタに含まれる前記特徴量に基づいてトピックモデルを生成するトピックモデル生成ステップと、前記トピックモデルと前記学習画像との類似度に基づいて、各トピックモデルに対して複数の学習画像を対応付ける学習画像対応付けステップと、前記トピックモデルと複数の学習画像との対応付けに基づいて複数のトピックモデルの識別器を生成し、複数の識別器の組み合わせを前記意味ラベルの画像辞書として取得する画像辞書生成ステップと、を有する画像辞書生成方法である。

本発明の一態様は、コンピュータを上記の画像辞書生成装置として機能させるためのコンピュータプログラムである。

本発明により、画像辞書の精度を向上させることが可能となる。

画像辞書生成装置１０の構成を示す概略ブロック図である。画像辞書生成装置１０の処理の具体例を示すフローチャートである。学習画像対応付け部５が学習画像をトピックに対応付ける処理の具体例を示すフローチャートである。画像辞書生成部６が画像辞書を生成する処理の具体例を示すフローチャートである。画像辞書生成装置１０によって生成された画像辞書を用いて、画像や映像に意味ラベルを付与する処理の具体例を表すフローチャートである。画像辞書を用いて画像や映像に意味ラベルを付与する処理の概略を表す概略図である。

本発明における画像辞書生成装置の一実施例の詳細について説明する。
図１は、画像辞書生成装置１０の構成を示す概略ブロック図である。画像辞書生成装置１０は、バスで接続されたＣＰＵ（Central Processing Unit）やメモリや補助記憶装置などを備え、画像辞書生成プログラムを実行する。画像辞書生成装置１０は、画像辞書生成プログラムの実行によって、蓄積部１、学習画像群収集部２、特徴量抽出部３、トピックモデル生成部４、学習画像対応付け部５及び画像辞書生成部６を備える装置として機能する。なお、画像辞書生成装置１０の各機能の全て又は一部は、ＡＳＩＣ（Application Specific Integrated Circuit）やＰＬＤ（Programmable Logic Device）やＦＰＧＡ（Field Programmable Gate Array）等のハードウェアを用いて実現されても良い。画像辞書生成プログラムは、コンピュータ読み取り可能な記録媒体に記録されても良い。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。

蓄積部１は、磁気ハードディスク装置や半導体記憶装置などの記憶装置を用いて構成される。蓄積部１は、事前に用意された学習画像を意味ラベル毎に蓄積する。学習画像と意味ラベルとの対応付けは、どのような処理によって行われても良い。例えば、人の手によって意味ラベルに学習画像が対応付けされても良い。例えば、Ｗｅｂ上に存在する画像及びタグを、対応付けられた学習画像及び意味ラベルとして取得しても良い。蓄積部１は、学習画像群収集部２から意味ラベルの指定を受けると、指定された意味ラベルに対応付けられた複数の学習画像を学習画像群収集部２に対して出力する。

学習画像群収集部２は、蓄積部１に対して意味ラベルの指定を出力することによって、蓄積部１に格納された学習画像を受け取る。学習画像群収集部２は、受け取った複数の学習画像（以下、「学習画像群」という。）を特徴量抽出部３へ出力する。学習画像群には、各学習画像の意味ラベルに関する情報（以下、「意味ラベル情報」という。）も含まれる。

特徴量抽出部３は、学習画像群収集部２から意味ラベルに関する学習画像群を受け取る。特徴量抽出部３は、受け取った学習画像群に含まれる個々の学習画像について、特徴量を抽出する。特徴量抽出部３は、例えば、色ヒストグラムや模様ヒストグラムなどの特徴量（物理特徴量）を抽出しても良い。特徴量抽出部３は、学習画像を分割し、各領域から特徴量を抽出しても良い。特徴量抽出部３は、学習画像からＳＩＦＴ特徴点を抽出し、ＳＩＦＴなどの局所特徴量を抽出しても良い。特徴量抽出部３は、抽出された特徴量をトピックモデル生成部４へ出力する。

トピックモデル生成部４は、特徴量抽出部３によって抽出された複数の特徴量を受け取る。トピックモデル生成部４は、受け取った複数の特徴量についてクラスタリング処理を行い、複数のクラスタを生成する。生成された各クラスタが一つのトピックに対応する。また、各クラスタを表すパラメータがトピックモデルである。例えば、クラスタリング処理は、k-means法、ＬＤＡ（Latent Dirichlet Allocation）法などを用いて実行されても良い。k-means法が用いられた場合、トピックモデルはトピックに属する複数の特徴量（以下、「特徴量群」という。）の平均値である。ＬＤＡ法が用いられた場合、トピックモデルは、トピックに属する特徴量群のDirichlet分布を表すgamma matrixである。

クラスタリング処理では、特徴量から算出される画像類似度が近い画像群が、一つのクラスタ（トピック）として出力される。物理特徴量が用いられる場合、学習画像群における色及び模様の組み合わせ（例えば、赤と丸、緑と三角、青と楕円などの組み合わせ）に対応付けられたトピックモデルが生成される。領域特徴量やＳＩＦＴが特徴量として用いられる場合、学習画像群における実世界のオブジェクト（顔、手、車、海など）に対応付けられたトピックモデルが生成される。

トピックモデル生成部４は、生成されたトピックモデルを蓄積部１に格納する。また、トピックモデル生成部４は、生成されたトピックモデルを学習画像対応付け部５へ出力する。

学習画像対応付け部５は、トピックモデル生成部４から、生成された複数のトピックモデルを受け取る。学習画像対応付け部５は、学習画像群における各学習画像とトピックモデルとの類似度を算出することで、各学習画像をトピックに対応付ける。学習画像対応付け部５は、トピックと学習画像との対応関係を画像辞書生成部６へ出力する。

画像辞書生成部６は、学習画像対応付け部５からトピック毎の学習画像を受け取る。画像辞書生成部６は、画像辞書を生成しようとしている意味ラベル（以下、「処理対象意味ラベル」という。）に付与された学習画像を収集し、機械学習手法を用いてトピック毎の識別モデルを構築する。そして、画像辞書生成部６は、トピック毎の識別モデルを合わせて、処理対象意味ラベルの画像辞書を生成する。画像辞書生成部６は、生成した画像辞書を蓄積部１に格納する。

図２は、画像辞書生成装置１０の処理の具体例を示すフローチャートである。以下、図２を用いて画像辞書生成装置１０の処理例について説明する。

まず、学習画像群収集部２が、蓄積部１から、意味ラベルに対応付けられた全ての学習画像（学習画像群）を読み出す（ステップＳ２０１）。次に、特徴量抽出部３が、読み出された学習画像群において、学習画像毎に特徴量を抽出する（ステップＳ２０２）。次に、トピックモデル生成部４が、抽出された特徴量に対してクラスタリング処理を行う。そして、トピックモデル生成部４が、各クラスタを表すパラメタとしてトピックモデルを生成する（ステップＳ２０３）。

次に、学習画像対応付け部５が、トピックモデル生成部４によって生成された複数のトピックモデルに基づいて、学習画像群における各学習画像を各トピックに対応付ける（ステップＳ２０４）。

図３は、学習画像対応付け部５が学習画像をトピックに対応付ける処理の具体例を示すフローチャートである。まず、学習画像対応付け部５は、全ての意味ラベルに関する学習画像群（Ｎ枚の学習画像を含む：Ｎは１以上の整数）を読み出す（ステップＳ３０１）。次に、学習画像対応付け部５は、ステップＳ２０３において生成された複数のトピックモデル（Ｍ個とする：Ｍは２以上の整数）を読み出す（ステップＳ３０２）。

次に、学習画像対応付け部５は、変数ｎに１を代入する（ステップＳ３０３）。学習画像対応付け部５は、Ｍ個の各トピックモデルとｎ番目の学習画像との類似度を算出する（ステップＳ３０４）。例えばk-means法を用いた場合は以下のような処理によって類似度が算出される。学習画像対応付け部５は、ステップＳ２０２において抽出されたｎ番目の学習画像の特徴量と、各トピックに属する特徴量群の平均値との距離を算出する。学習画像対応付け部５は、算出された距離を、ｎ番目の学習画像と各トピックとの類似度として取り扱う。

次に、学習画像対応付け部５は、学習画像群に含まれる全ての学習画像について類似度の算出が完了したか否か判定する（ステップＳ３０５）。具体的には、学習画像対応付け部５は、変数ｎが学習画像群の枚数Ｎよりも小さいか否か判定する。変数ｎがＮよりも小さい場合（ステップＳ３０５−ＹＥＳ）、学習画像対応付け部５は、変数ｎをインクリメントしてステップＳ３０４の処理に戻る（ステップＳ３０７）。一方、変数ｎがＮ以上である場合（ステップＳ３０５−ＮＯ）、学習画像対応付け部５は、各トピックについて、算出された類似度の高い方から順に上位Ｐ個（Ｐは１以上の整数）の学習画像をそのトピックに対応付ける。

以上の処理によって、学習画像が複数のトピックに対応付けられる。例えば、ＳＩＦＴ点や領域特徴量が用いられた場合、意味ラベル“ビーチ”に対応付けられた学習画像が、“太陽”、“人”、“海”のようなトピックに対応付けられる。

図２の説明に戻る。ステップＳ２０４の処理の後、画像辞書生成部６は、トピック毎に対応付けられた学習画像に基づいて、意味ラベルに関する画像辞書を生成する（ステップＳ２０５）。

図４は、画像辞書生成部６が画像辞書を生成する処理の具体例を示すフローチャートである。まず、画像辞書生成部６が、Ｍ個のトピックモデル毎に、各トピックモデルに対応付けられた複数の学習画像を読み込む（ステップＳ４０１）。次に、画像辞書生成部６が、変数ｃに１を代入する（ステップＳ４０２）。次に、画像辞書生成部６が、変数ｍに１を代入する（ステップＳ４０３）。

次に、画像辞書生成部６が、ｍ番目のトピックモデルに対応付けられた学習画像の中から、ｃ番目の意味ラベルに付与された学習画像を取得する（ステップＳ４０４）。この処理において、画像辞書生成部６は、このような条件に該当する全ての学習画像を取得する。次に、画像辞書生成部６が、取得された学習画像の数が所定の閾値以上であるか否か判定する（ステップＳ４０５）。所得された学習画像の数が所定の閾値以上である場合（ステップＳ４０５−ＹＥＳ）、画像辞書生成部６が、機械学習手法を用いて、ｃ番目の意味ラベルに関するｍ番目のトピックの識別器を生成する（ステップＳ４０６）。機械学習手法の具体例として、ＳＶＭ（Support vector machine）がある。識別器を生成する際に用いられる特徴量については、ステップＳ２０２において抽出される特徴量が物理的な特徴量（色や模様など）である場合、そのまま特徴量が使用されても良い。ステップＳ２０２において抽出される特徴量がＳＩＦＴ特徴点や領域特徴量の場合、ｎ番目の学習画像におけるｍ番目のトピックモデルとの類似度が一定の値以上である特徴点や領域特徴量を特徴量として用いれば良い。

ステップＳ４０５の処理において、取得された学習画像の数が所定の閾値未満である場合（ステップＳ４０５−ＮＯ）、又はステップＳ４０６の処理の後、画像辞書生成部６が、ｃ番目の意味ラベルに関して、全てのトピックに対してステップＳ４０４〜Ｓ４０６の処理が完了したか否か判定する（ステップＳ４０７）。処理が完了していないトピックが存在する場合、すなわち変数ｍがＭより小さい場合（ステップＳ４０７−ＹＥＳ）、画像辞書生成部６が、ｍをインクリメントして（ステップＳ４１０）、ステップＳ４０４の処理に戻る。

一方、ステップＳ４０７の処理において、全てのトピックについてステップＳ４０４〜Ｓ４０６の処理が完了した場合（ステップＳ４０７−ＮＯ）、すなわち変数ｍがＭ以上である場合、画像辞書生成部６が、各トピックの識別器をｃ番目の意味ラベルの画像辞書として蓄積部１に格納する（ステップＳ４０８）。

次に、画像辞書生成部６が、全ての意味ラベルに対してステップＳ４０８の処理が行われたか否か判定する（ステップＳ４０９）。ステップＳ４０８の処理が行われていない意味ラベルが存在する場合（ステップＳ４０９−ＹＥＳ）、すなわち変数ｃがＣよりも小さい場合、画像辞書生成部６が、変数ｃをインクリメントしてステップＳ４０３の処理に戻る。一方、全ての意味ラベルについてステップＳ４０８の処理が完了している場合（ステップＳ４０９−ＮＯ）、すなわち変数ｃがＣ以上である場合、画像辞書生成部６は処理を終了する。

図５は、画像辞書生成装置１０によって生成された画像辞書を用いて、画像や映像に意味ラベルを付与する処理の具体例を表すフローチャートである。図６は、画像辞書を用いて画像や映像に意味ラベルを付与する処理の概略を表す概略図である。以下、画像辞書を用いて画像や映像に意味ラベルを付与する処理の具体例について説明する。なお、以下の処理は不図示の意味ラベル付与装置によって行われる。

まず、意味ラベル付与装置は、Ｍ個のトピックモデルを蓄積部１から取得する（ステップＳ５０１）。次に、意味ラベル付与装置は、意味ラベルの付与対象となる画像（例えばＪ枚）を読み込む（ステップＳ５０２）。次に、意味ラベル付与装置は、変数ｆｊに１を代入する（ステップＳ５０３）。次に、意味ラベル付与装置は、ｆｊ番目の画像とトピックモデルＴｍ（ｍ＝１、・・・、Ｍ：ｍ及びＭは１以上の整数）との類似度を算出する。意味ラベル付与装置は、所定の閾値以上の類似度が算出されたトピックモデルＴｍとｆｊ番目の画像とを対応付ける。例えば、図６において、クロス“×”で表示されているトピックモデル（Ｔ１及びＴｍ−１）と画像ｆｊとが対応付けられている。

次に、意味ラベル付与装置は、図６の表の列毎に、ｆｊが対応付けられたトピックモデルに関する特徴量とその列にある個々の識別器との類似度とを算出する。そして、意味ラベル付与装置は、意味ラベルＣｉ（ｉ＝１，…，Ｌ：ｉ及びＬは１以上の整数）毎に算出した類似度の組み合わせを、画像ｆｊと意味ラベルＣiとの類似度として取得する（ステップＳ５０５）。

次に、意味ラベル付与装置は、ステップＳ５０５において取得された類似度の高い方から順にＰ個までの意味ラベルを画像ｆｊに付与する（ステップＳ５０６）。次に意味ラベル付与装置は、全ての画像に意味ラベルを付与したか否か判定する（ステップＳ５０７）。意味ラベルが付与されていない画像が存在する場合（ステップＳ５０７−ＹＥＳ）、すなわち変数ｆｊがＪよりも小さい場合、意味ラベル付与装置は変数ｆｊをインクリメントしてステップＳ５０４の処理に戻る。一方、意味ラベルが付与されていない画像が存在しない場合（ステップＳ５０７−ＮＯ）、すなわち変数ｆｊがＪ以上である場合、意味ラベル付与装置は処理を終了する。

画像辞書生成装置１０では、一つの意味ラベルの画像辞書が複数のトピックの識別器によって構成される。そのため、複数のトピックの組み合わせで構成される意味ラベルについても、精度良く画像辞書を生成することがかのうとなる。

また、画像辞書生成装置１０では、全ての意味ラベルに関する学習画像群（様々な意味合いを持つ画像群）に基づいて、全ての意味ラベルに共通したトピックモデルが生成される。そのため、よりバリエーションに長けたトピックモデルを生成することが可能となる。例えば、“ビーチ”という意味ラベルに関する画像群のみから“人”のトピックモデルを生成する場合に比べて、“ビーチ”、“祭り”、“会議”、“野生”、“飲み会”などの豊富な意味ラベルに関する画像群から“人”のトピックモデルを生成した方が、より精度が良く汎用性の高いトピックモデルを生成することが可能となる。

なお、画像辞書の生成に際して機械学習手法が用いられるため、従来は学習データが多くなるにつれて処理時間が多くなるという問題もあった。例えば、非特許文献１のように一つの意味ラベルに対して全ての学習データを用いて一つの識別モデルを算出するような画像辞書生成方法では、学習画像の量に応じて膨大な処理時間を要してしまうという問題があった。このような問題に対し、画像辞書生成装置１０では、全ての意味ラベルに対して共通したトピックモデルを生成するため、学習画像の量が増大した場合に処理時間の増大を抑える事が可能となる。
また、意味ラベルが大量に存在する場合や、意味ラベル付与対象となる画像が大量に存在する場合、より効率よく意味ラベルを付与することが可能となる。

＜変形例＞
図３のフローチャートのステップＳ３０６の処理において、学習画像対応付け部５は、類似度に基づいて他の基準でトピックと学習画像との対応付けを行っても良い。例えば、学習画像対応付け部５は、各トピックについて、予め定められた閾値を超える類似度の画像を全てそのトピックに対応付けても良い。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

１０…画像辞書生成装置，１…蓄積部，２…学習画像群収集部，３…特徴量抽出部，４…トピックモデル生成部，５…学習画像対応付け部，６…画像辞書生成部

Claims

複数の意味ラベルそれぞれに対応付けられた複数の学習画像について特徴量を抽出する特徴量抽出部と、
前記特徴量をクラスタリングし、クラスタ毎にそのクラスタに含まれる前記特徴量に基づいてトピックモデルを生成するトピックモデル生成部と、
前記トピックモデルと前記学習画像との類似度に基づいて、各トピックモデルに対して複数の学習画像を対応付ける学習画像対応付け部と、
前記トピックモデルと複数の学習画像との対応付けに基づいて複数のトピックモデルの識別器を生成し、複数の識別器の組み合わせを前記意味ラベルの画像辞書として取得する画像辞書生成部と、
を備える画像辞書生成装置。
前記画像辞書生成部は、前記複数の意味ラベルのうち処理の対象となっている意味ラベルについて、前記意味ラベルに対応付けられており且つトピックモデルに対応付けられた前記学習画像をトピックラベル毎に取得し、取得された学習画像に基づいてトピックモデル毎に識別器を生成し、生成された複数の識別器の組み合わせを、前記処理の対象となっている意味ラベルの画像辞書として取得する、請求項１に記載の画像辞書生成装置。
複数の意味ラベルそれぞれに対応付けられた複数の学習画像について特徴量を抽出する特徴量抽出ステップと、
前記特徴量をクラスタリングし、クラスタ毎にそのクラスタに含まれる前記特徴量に基づいてトピックモデルを生成するトピックモデル生成ステップと、
前記トピックモデルと前記学習画像との類似度に基づいて、各トピックモデルに対して複数の学習画像を対応付ける学習画像対応付けステップと、
前記トピックモデルと複数の学習画像との対応付けに基づいて複数のトピックモデルの識別器を生成し、複数の識別器の組み合わせを前記意味ラベルの画像辞書として取得する画像辞書生成ステップと、
を有する画像辞書生成方法。
コンピュータを請求項１又は２に記載の画像辞書生成装置として機能させるためのコンピュータプログラム。