JP4926266B2

JP4926266B2 - 学習データ作成装置、学習データ作成方法及びプログラム

Info

Publication number: JP4926266B2
Application number: JP2010158360A
Authority: JP
Inventors: ゾランステイチ
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2010-07-13
Filing date: 2010-07-13
Publication date: 2012-05-09
Anticipated expiration: 2030-07-13
Also published as: JP2012022419A

Description

本発明は、オブジェクト認識に用いる学習データを作成する学習データ作成装置等に関する。

画像中に含まれる物体等のオブジェクトを認識する技術としてのオブジェクト認識のためには、オブジェクト毎の特徴量（配色、テクスチャ、形状等の画像の特徴を数値化して表現したもの）を用意しておく必要がある。そのオブジェクトの特徴量は、学習用の画像データを大量に準備し、その画像を機械学習等することにより得られる。

従って、精度の高いオブジェクト認識を行うためには、オブジェクトを正しく表した学習データを大量に準備する必要がある。学習データは、一般には人が目視によって画像の内容を確認して、オブジェクトが含まれる画像に対してラベル付けを行うことにより生成されるため、人為的な労力が必要になる。

また、近年ではウェブ検索が広く普及し、ウェブ上から大量のデータを収集することが可能になってきたため、オブジェクトを表すキーワードによるウェブ検索を行うことによって関連する画像を収集することができるようになった。

しかし、ウェブ検索における検索インデックスは、ウェブページ内に含まれるキーワードを用いて生成されるため、検索された画像の中に該キーワードを表すオブジェクトが含まれているとは限らない。

また、オブジェクトが含まれていたとしても、遠方からの撮影によりオブジェクトが小さかったり、照明が不足していたりといったように、撮影状態が学習データには適していないものが含まれていることがある。このため、ウェブ検索により収集した画像からも、人手で選別したり、画像中から切り出す作業を行ったりと、やはり膨大な手間がかかった。

このような人による学習データの正否判断の手間を低減させる技術として、画像を複数の領域に分割し、その領域画像をクラスタリングすることで得られたクラスタの中から利用者に正事例を選定させて、この選定に基づいて学習データ（画像辞書）を作成する技術が知られている（特許文献１参照）。

特開２００９−２８２６６０号公報

しかし、特許文献１の技術においても、クラスタの中から正事例を選定させるという人による判断を行わなければならず、クラスタ数が多くなるとその判断は複雑になり、煩雑であった。

本発明は、上述した課題に鑑みて為されたものであり、その目的とするところは、ウェブ上から収集した画像データから人手を介さずに学習データを自動作成することである。

上記目的を達成するため、第１の発明は、キーワードに基づくウェブ検索により収集された複数の画像データからオブジェクト認識用の学習データを作成する学習データ作成装置において、前記収集された複数の画像データから検出される領域画像の特徴量に基づいて該領域画像を所定のクラスタに分類し、各画像データの領域画像が属するクラスタと、該クラスタに属する領域画像の数とを該画像データ毎に生成するクラスタ分類手段と、前記各クラスタに属する領域画像の数に基づく前記各クラスタに対する前記領域画像の分類状態から、前記領域画像の分布が少ないクラスタを特定する非共通領域特定手段と、前記特定されたクラスタに属する領域画像を、該領域画像を検出した前記画像データから除去することにより学習データを作成する学習データ作成手段と、を備えることを特徴としている。

第１の発明によれば、各クラスタに属する領域画像の数に基づいたクラスタに対する領域画像の分類状態から、領域画像の分布の少ないクラスタを特定し、そのクラスタに属する領域画像を画像データから除去することで学習データを作成する。このため、画像間を亘って共通性のない画像領域が除去されていくこととなるため、学習データには、画像間で共通性のある画像領域が残る。この、キーワード検索により収集された画像データの中でも更に共通性のある画像領域には、キーワードを表すオブジェクトが含まれていると推測される。従って、ウェブ上から収集した画像データから人手を介さずに学習データを自動作成することができる。

また、第２の発明における前記非共通領域特定手段は、前記領域画像が分類されたクラスタのうちの、該クラスタに分類された領域画像の検出元の画像データの枚数に基づいて前記領域画像の分布が少ないクラスタを特定することを特徴としている。

第２の発明によれば、クラスタに分類された領域画像の検出元の画像データの枚数に基づいて領域画像の分布が少ないクラスタを特定するため、画像がどのクラスタに分類されたかに応じて共通性の画像領域を特定することができる。

また、第３の発明は、前記各画像データから検出した領域画像の数に対する前記非共通領域特定手段により特定されたクラスタに属する該画像データの領域画像の数の比率に基づいて、前記領域画像を除去した場合の画像データが前記学習データに適しているか否かを判定する品質判定手段を更に備え、前記学習データ作成手段は、前記品質判定手段により前記学習データに適していると判定された画像データから前記領域画像の除去を行って前記学習データを作成することを特徴としている。

第３の発明によれば、領域画像を除去した場合の画像データが学習データに適しているか否かによって学習データの作成を行うため、オブジェクト認識に適した質の高い学習データを作成することができる。

また、第４の発明における前記学習データ作成手段は、前記特定されたクラスタに分類された領域画像の前記画像データに対する検出位置に基づいて、前記画像データに対して外側から前記領域画像を除去することを特徴としている。

第４の発明によれば、特定されたクラスタに分類された領域画像の検出位置に基づいて、画像の外側から該領域画像を除去するため、学習データとして作成した画像データ内でオブジェクトに欠けが生じることを防止できる。

本発明によれば、ウェブ上から収集した画像データから人手を介さずに学習データを自動作成することができる。

本発明に係る学習データ作成装置の機能構成を示すブロック図。特徴ベクトル生成処理のフローチャート。画像データからの領域画像の抽出とビジュアルキーワードへのマッピングの様子を示す図。学習データ作成処理のフローチャート。非共通領域の特定等を説明するための概念図。学習データの作成例を示す図。非共通領域の除去の他の実施例を説明するための図。

［画像検索装置の構成］
以下、本発明の実施の形態を図面に基づいて説明する。
図１は、本発明を適用した学習データ作成装置１の機能ブロック図である。学習データ作成装置１は、通信ネットワークを介して接続されたインターネットに接続され、該インターネットを介してウェブ上から画像データを収集可能となっている。この収集したデータの中からオブジェクトを含む画像領域の切り出しや選定を行ってオブジェクト認識に用いる学習データを作成する。

本実施形態における学習データ作成装置１は、画像データ間を亘って非共通な画像領域を特定し、その特定した画像領域に共通のオブジェクトは含まれていないと判定して、学習データを作成する。この非共通な画像領域の特定にビジュアルキーワードの手法を用いる。

ビジュアルキーワードとは、画像を複数の細かな画像領域の集合として見なして、各画像を構成する画像領域（以下、適宜「領域画像」「部分画像」という）から得られる特徴量に基づいて画像のインデックス（特徴ベクトル）を生成する技術であり、テキスト中のキーワードから文章の特徴量を求めるテキスト技術の応用といえる。

このため、ビジュアルキーワードでは、画像中の領域画像（視覚的な切片）をキーワードとして扱うことで、画像の細かい部分的な領域まで分析して一枚の画像を表す特徴ベクトルを生成することができる。また、単語（キーワード）の集合として文書解析を行うテキスト技術（転置インデックスやベクトル空間モデル、単語の出現頻度等）を画像の特徴ベクトルを技術に適用することができるので、大規模且つ高速性を実現することができる。

ビジュアルキーワードによる画像検索についての参考技術文献としては、
・Sivic and Zisserman:“Efficient visual search for objects in videos”, Proceedings of the IEEE, Vol.96,No.4.,pp.548-566,Apr 2008.
・Yang and Hauptmann:“A text categorization approach to video scene classification using keypoint features”,Carnegie Mellon University Technical Report,pp.25,Oct 2006.
・Jiang and Ngo:“Bag-of-visual-words expansion using visual relatedness for video indexing”,Proc.31^st ACM SIGIR Conf.,pp.769-770,Jul 2008.
・Jiang, Ngo, andYang:“Towards optimal bag-of-features for object categorization and semantic video retrieval”,Proc.6th ACM CIVR Conf.,pp.494-501,Jul.2007.
・Yang, Jiang, Hauptmann, and Ngo:“Evaluating bag-of-visual-words representations in scene classification”,Proc.15^th ACM MM Conf., Workshop onMMIR,pp.197-206,Sep. 2007.
等が挙げられる。

図１に示すように、学習データ作成装置１は、画像収集部１０、画像ＤＢ（データベース）１５、ビジュアルキーワード生成部２０、ビジュアルキーワードＤＢ２５、特徴ベクトル生成部３０、領域管理ＤＢ３５、特徴ベクトルＤＢ４０、非共通領域特定部５０、品質判定部６０、学習データ作成部７０及び学習データＤＢ７５を備えて構成される。

これらの機能部は、所謂コンピュータにより構成され、演算／制御装置としてのＣＰＵ（Central Processing Unit）、記憶媒体としてのＲＡＭ（Random Access Memory）及びＲＯＭ（Read Only Memory）、通信インターフェイス等が連関することで実現される。

画像収集部１０は、インターネットを介してウェブ上から画像データを収集する機能部である。画像収集部１０は、予め定められたキーワードを検索エンジンに送信する等して、該キーワードに関連付けられたウェブページを取得する。そして、このウェブページ内に含まれる画像データを抽出して、キーワードと画像データとを対応付けて画像ＤＢ１５に記憶する。

また、検索エンジンとしては、画像データを検索対象とした画像検索エンジンであってもよく、その場合には、キーワードの送信に応じて返される検索結果の画像データを受信して、画像ＤＢ１５に記憶する。

画像ＤＢ１５は、画像収集部１０が収集した画像データを蓄積記憶するデータベースであって、図１に示すように、キーワードと、画像ＩＤと、画像データとを対応付けて記憶する。画像ＩＤは、各画像データを固有に識別するための識別情報であって、キーワード及び画像データを記憶する際に、画像収集部１０により割り振られる。

ビジュアルキーワード生成部２０は、画像データの特徴ベクトルを生成する際に、画像内の領域画像をマッピングする対象の分類（クラスタ）を生成する。ビジュアルキーワード生成部２０は、画像検索に用いる画像や学習用に予め用意された画像データから複数の領域画像を抽出し、その領域画像の有する特徴量に基づいてそれらの画像をクラスタリングする。尚、クラスタリングの標準的な手法としては、k-means, Hierarchical Agglomerative Clustering(HAC)などが用いられる。

後述する特徴ベクトル生成部３０は、画像から検出した領域画像を、ビジュアルキーワード生成部２０のクラスタリングにより形成されるクラスタにマッピング（分類）することで、特徴ベクトルを生成する。このクラスタを、画像を視覚的なキーワードの集まりとして表現するための特徴量空間として「ビジュアルキーワード」という。

ビジュアルキーワードＤＢ２５は、ビジュアルキーワード生成部２０のクラスタリングにより形成されたクラスタを識別するビジュアルキーワードＩＤ（ＶＫＩＤ）と、そのクラスタの特徴量空間（多次元空間）での中心点の座標である中心座標と、該クラスタの範囲を示す半径とを対応付けて記憶するデータベースである。

中心座標は、各クラスタに属する画像の特徴量の平均値を示す値であり、特徴量空間上での多次元の座標により示される。半径は、例えば、クラスタに属する画像のうちの、中心座標から最遠の画像との距離により求められる。

特徴ベクトル生成部３０は、画像データから領域画像を抽出し、その領域画像の特徴量に基づいて特徴ベクトルを生成する特徴ベクトル生成処理（図２参照）を行って、各画像データの特徴ベクトルを生成する。特徴ベクトル生成処理については後述する。

領域管理ＤＢ３５は、特徴ベクトル生成部３０により各画像データから検出された領域画像と、そのマッピング先のビジュアルキーワードと、領域画像の検出元の画像データとの対応関係を記憶するデータベースであって、図１に示すように、画像ＩＤと、領域ＩＤと、ＶＫＩＤとを対応付けて記憶する。

特徴ベクトルＤＢ４０は、特徴ベクトル生成部３０が生成した特徴ベクトルを画像毎に対応付けて記憶するデータベースであり、図１に示すように、画像ＩＤと、特徴ベクトルとなるビジュアルキーワード毎の領域画像の出現頻度とを対応付けて記憶する。

ここで、特徴ベクトル生成処理について、図２のフローチャートと、図３の概念図とを参照しながら説明する。

先ず、特徴ベクトル生成部３０は、画像ＤＢ１５に記憶された画像データを読み出し、その画像データから複数の領域画像を検出する（ステップＳ１１）。この領域画像の検出方法としては、画像中の特徴的な領域（特徴領域）を検出する手法と、画像を所定領域で分割することで検出する手法とがある。

特徴領域を検出する手法としては、
・Ｈａｒｒｉｓ−ａｆｆｉｎｅ
・Ｈｅｓｓｉａｎ−ａｆｆｉｎｅ
・Ｍａｘｉｍａｌｌｙｓｔａｂｌｅｅｘｔｒｅｍａｌｒｅｇｉｏｎｓ（ＭＳＥＲ）
・ＤｉｆｆｅｒｅｎｃｅｏｆＧａｕｓｓｉａｎｓ（ＤｏＧ）
・ＬａｐｌａｃｉａｎｏｆＧａｕｓｓｉａｎ（ＬｏＧ）
・ＤｅｔｅｒｍｉｎａｎｔｏｆＨｅｓｓｉａｎ（ＤｏＨ）
等がある。

また、特徴領域の検出技術については、“Local Invariant Feature Detectors: A Survey”（Foundations and Trends in Computer Graphics and Vision,Vol.3,No.3,pp.177-280,2007.）等において公開されており、適宜公知技術を採用可能である。

また、画像を所定領域で分割して検出する手法としては、例えば、予め定めたＭ×Ｎブロックに分割したり、分割後のブロックの大きさが予め定めたｍ×ｎ画素となるように分割したりする手法がある。例えば、画像を１０×１０のブロックに分割する場合、画像の大きさが６４０×４８０画素であれば、１ブロックの大きさは６４×４８画素となる。

図３では、画像を所定領域に分割した例を示しており、Ｎｏ．０００１の画像については７×６ブロックに分割されている。また、Ｎｏ．０００２の画像については５×７ブロック、Ｎｏ．０００３の画像については６×６ブロックに分割されている。尚、図示の例では、説明の簡略化のために数ブロックに分割しているが、数万のブロックに分割される。

次に、特徴ベクトル生成部３０は、検出した領域画像が有する特徴量を算出する（ステップＳ１２）。尚、特徴領域を抽出している場合には、スケール変化や回転、角度変化等のアフィン変換に耐性を持つ局所特徴量を抽出する。局所特徴量の一例としては、例えば次のものが挙げられる。

・ＳＩＦＴ
・ｇｒａｄｉｅｎｔｌｏｃａｔｉｏｎａｎｄｏｒｉｅｎｔａｔｉｏｎｈｉｓｔｏｇｒａｍ
・ｓｈａｐｅｃｏｎｔｅｘｔ
・ＰＣＡ−ＳＩＦＴ
・ｓｐｉｎｉｍａｇｅｓ
・ｓｔｅｅｒａｂｌｅｆｉｌｔｅｒｓ
・ｄｉｆｆｅｒｅｎｔｉａｌｉｎｖａｒｉａｎｔｓ
・ｃｏｍｐｌｅｘｆｉｌｔｅｒｓ
・ｍｏｍｅｎｔｉｎｖａｒｉａｎｔｓ

局所特徴量の抽出については、“A performance evaluation of local descriptors”（IEEE Trans. Pattern Analysis and Machine Intelligence, Vol.27, No.10,pp.1615-1630,2005.）等において公開されており、適宜公知技術を採用可能である。

この特徴領域から抽出した特徴量に基づいて生成した特徴ベクトルは、オブジェクト（物体）の存在する可能性の高い特徴領域から生成されるため、画像中のオブジェクトの特徴を示す指標として有効である。

また、領域分割により領域画像を抽出している場合には、画像の配色やテクスチャ、形状等の各画像の特徴を数値化して表現した画像特徴量を用いる。この領域分割により検出した領域画像の特徴量から生成した特徴ベクトルは、画像を構成する各部分から生成されるため、画像の全体的な構成を示す指標として有効である。

そして、特徴ベクトル生成部３０は、画像データから検出した複数の領域画像を、その領域画像が有する特徴量に基づいてビジュアルキーワードにマッピング（分類）する（ステップＳ１３）。ビジュアルキーワードへのマッピングは、各ビジュアルキーワード（クラスタ）の中心点と、領域画像の特徴量との特徴量空間における距離に基づいて、距離が最も近いビジュアルキーワードを選定することで行う。

図３の例では、画像ＩＤ‘０００１’の画像から検出した領域画像Ｔ１、Ｔ３〜Ｔ６がビジュアルキーワードＶＫ１、領域画像Ｔ２がビジュアルキーワードＶＫ２にマッピングされている。また、画像ＩＤ‘０００２’の画像から検出した領域画像Ｔ１２〜Ｔ１４がビジュアルキーワードＶＫ３にマッピングされている。また、画像ＩＤ‘０００２’の画像の領域画像Ｔ１１と、画像ＩＤ‘０００３’の画像の領域画像Ｔ２１がビジュアルキーワードＶＫ４にマッピングされている。

特徴ベクトル生成部３０は、各領域画像をビジュアルキーワード（クラスタ）にマッピングすると、各ビジュアルキーワードでの領域画像の出現頻度を計上し、このビジュアルキーワード毎での領域画像の出現頻度により多次元で表される特徴ベクトルを生成し、特徴ベクトルＤＢ４０に記憶する（ステップＳ１４）。

例えば、図３の‘０００１’の画像であれば、該画像から検出した領域画像の出現頻度は、ビジュアルキーワードＶＫ１では‘５’、ビジュアルキーワードＶＫ２では‘１’、ビジュアルキーワードＶＫ３では‘０’となる。この複数のビジュアルキーワードに対する出現頻度をベクトル要素とした特徴ベクトルを生成する。

また、特徴ベクトル生成部３０は、画像データから検出した領域画像に領域ＩＤを割り振り、その領域画像をマッピングしたビジュアルキーワードのＶＫＩＤを画像ＩＤと領域ＩＤとに対応付けて領域管理ＤＢ３５に記憶する。この領域ＩＤは、画像内でのＸＹ座標であってもよいし、領域分割した際の行番号・列番号であってもよい。

非共通領域特定部５０は、特徴ベクトル生成部３０により生成された特徴ベクトルを用いて、画像データ間を亘って非共通となる画像領域を特定する。詳細については、後述するが、簡単に説明すると、領域画像を検出する元となった複数の画像データ（以下「元画像」ともいう。）毎に生成された特徴ベクトルに基づいて、元画像がマッピングされたビジュアルキーワード、即ち、元画像の同一特徴量空間への分布状態を算出して、その分布状態によって画像間での非共通となる画像領域を判定する。

品質判定部６０は、非共通領域特定部５０により判定された非共通の画像領域を、元画像から除去した場合の、その除去後の画像データが学習データとして適しているか否かの品質を判定する。これは、オブジェクト認識に用いる学習データがオブジェクトの特徴を一定以上の品質で十分に表現していることが好ましいからであり、品質判定部６０は、非共通領域を元画像から除去した場合の領域画像のビジュアルキーワードへのマッピング状態に基づいて品質を判定する。

学習データ作成部７０は、品質判定部６０によって学習データに適していると判定された画像データに対して、非共通領域特定部５０によって非共通領域として特定された領域画像を除去して学習データを作成し、学習データＤＢ７５に記憶する。

学習データＤＢ７５は、キーワードと学習データとを対応付けて記憶するデータベースであり、学習データ作成部７０が作成した学習データに、その学習データの作成元となった画像データに対応付けられた画像ＤＢ１５のキーワードが対応付けられて記憶される。

この学習データＤＢ７５に格納された学習データは、オブジェクト認識装置により利用されて、各キーワードで表されるオブジェクトの特徴が学習される。このオブジェクト認識装置が行う学習方法や特徴量の抽出方法等は、学習データ作成装置１のアルゴリズムに依存するものではなく、オブジェクト認識装置によって任意に設定されるものである。

尚、本実施形態においては、品質判定部６０の品質判定によって学習データとして記憶する画像データを選定しているが、この品質判定を行わずに非共通領域特定部５０により非共通と特定された画像領域を除去することで学習データを作成して学習データＤＢ７５に登録することとしてもよい。

〔学習データ作成処理〕
次に、図４のフローチャートと、図５の概念図とを用いて、非共通領域特定部５０、品質判定部６０及び学習データ作成部７０により実行される学習データ作成処理を説明する。

先ず、非共通領域特定部５０は、各画像の領域画像をマッピングした画像毎のビジュアルキーワードの数（ＶＫ割当数）と、各ビジュアルキーワードに分布している元画像の枚数（元画像分布数）とを算出する。

具体的には、同一のキーワードが関連付けられた複数の画像データについて、各画像から検出した領域画像のマッピングしたビジュアルキーワードの数を画像毎に算出する（ステップＳ２１）。例えば、図５のように、画像ＩＭＧ１から検出した領域画像のマッピング先はＶＫ１，ＶＫ２，ＶＫ４の３つであり、ＶＫ割当数は‘３’と算出される。

また、各ビジュアルキーワードに領域画像がマッピングされた元画像の枚数を元画像分布数としてビジュアルキーワード毎に算出する（ステップＳ２２）。例えば、図５において、ビジュアルキーワードＶＫ１には、画像ＩＭＧ１，ＩＭＧ２，ＩＭＧ３の３枚の元画像から領域画像がマッピングされているので、元画像分布数は‘３’と算出される。

次に、非共通領域特定部５０は、ビジュアルキーワードを１つ選択し（ステップＳ２３）、そのビジュアルキーワードの元画像分布数が所定の閾値未満であるか否かを判定する（ステップＳ２４）。そして、その元画像分布数が所定の閾値未満であると判定した場合には（ステップＳ２４；Ｙｅｓ）、そのビジュアルキーワードにマッピングされた領域画像が非共通領域であると特定する（ステップＳ２５）。

非共通領域特定部５０は、全てのビジュアルキーワードについてステップＳ２３〜Ｓ２５の処理を行ったか否かを判断して（ステップＳ２６）、未処理のビジュアルキーワードがあれば、ステップＳ２３に処理を移行する。

例えば、閾値が‘３’と設定されており、選択したビジュアルキーワードがＶＫ１であれば、このビジュアルキーワードＶＫ１で表される特徴量空間は共通領域と判定されることとなる。また、図５のように、ビジュアルキーワードＶＫ２については、閾値未満であるので、非共通領域と判定される。

このように、ビジュアルキーワードを用いて生成した特徴ベクトルを用いることで、各画像間を亘って共通でないビジュアルキーワードである特徴量空間上でのクラスタを特定することができる。

本実施形態の学習データ作成装置１は、この非共通のビジュアルキーワードに属する画像領域を元画像から除去していくことで、画像間に亘って共通の画像領域を残していく。この画像間で共通の画像領域は、キーワード検索により得られた画像集合の中で共通の特徴量を有する画像領域であるから、キーワードで表されるオブジェクトが含まれているといえる。従って、非共通領域を元画像から除去していくことで、オブジェクトを含む画像を生成することができる。

尚、ステップＳ２４における非共通領域であるか否かの特定に用いる閾値は前述のように定数であってもよいし、キーワードに基づいて収集した画像の総数のＰ％（例えば１０％）の枚数として動的に設定することとしてもよい。また、定数か画像総数のＰ％の枚数の何れかのうちの、最大となるほうを選択して設定することとしてもよい。

非共通領域特定部５０がステップＳ２６において全てのビジュアルキーワードについて処理を行ったと判断した場合は（ステップＳ２６；Ｙｅｓ）、品質判定部６０が、元画像を一枚ずつ選択して（ステップＳ２７）、ステップＳ２８〜Ｓ３１の処理を行う。

先ず、選択した元画像から非共通領域と特定されたビジュアルキーワードに属する画像領域を元画像から除去した場合の画像が品質条件を満たしているかを判定する（ステップＳ２８）。

具体的には、全画像から非共通領域となったビジュアルキーワードを除去した場合の該ビジュアルキーワードの総数（ＶＫ残総数）に対する、非共通領域を除去した場合の各画像のビジュアルキーワードへの分布（ＶＫ残数）の比率が所定値以上であれば、品質条件を満たしていると判定する。この非共通領域の除去による分布の比率は、次式により求められる。

各画像の分布の比率＝ＶＫ残数／ＶＫ残総数

ＶＫ残数は、非共通領域のビジュアルキーワードにマッピングされた画像領域を元画像から除去した場合でも、画像領域がマッピングされて残っているビジュアルキーワードの数であり、画像毎に算出される。図５においては、破線で囲んだビジュアルキーワードを除いたビジュアルキーワードの数となる。画像ＩＭＧ１では、ビジュアルキーワードＶＫ１とＶＫ４が残っているので、ＶＫ残数＝２となる。画像ＩＭＧ４では、ビジュアルキーワードＶＫ４のみにマッピングされて残っているので、ＶＫ残数＝１となる。

また、ＶＫ残総数は、非共通領域のビジュアルキーワードの全画像がマッピングされ残っているビジュアルキーワードから除去した場合でも残っているビジュアルキーワードの総数であり、収集された画像全体に対して求められる。図５においては、全画像がマッピングされているビジュアルキーワードは６つであり、そのうち、非共通領域として特定されたビジュアルキーワードが４つであるから、ＶＫ残総数＝２となる。

このＶＫ残総数に対する各画像のＶＫ残数の比率が所定の閾値（例えば、０．５）以下である場合は、その画像が学習データとしての品質を満たしていないと判定する。これは、非共通領域の除去によってオブジェクトを表現するビジュアルキーワードが、全体的な集合（ＶＫ残総数）に対して相対的に少ない、ということを意味する。

即ち、非共通領域を除去した後でも残っているビジュアルキーワード（特徴量空間のクラスタ）が少なくなっていると、該除去によってオブジェクトを表現するに足る特徴が削られてしまったとして、学習データには不適であると判定する。

また、例えば、オブジェクトが小さく撮影されていたり、オブジェクトの一部分が撮影されていた画像に対して非共通の画像領域を除去すると、残存する画像が小さくなり、学習データとして耐えられないことがある。このような場合であっても、上述の品質判定によって学習に適した学習データを選定し登録することができる。

尚、この品質判定における閾値は、前述のように定数であってもよいし、各画像の分布の比率の平均値としてもよい。また、定数か画像分布の比率の平均値の何れかのうちの、最大となるほうを選択して設定することとしてもよい。

品質判定部６０は、画像が品質条件を満たしていないと判定した場合には（ステップＳ２８；Ｎｏ）、その画像を画像ＤＢ１５から削除し（ステップＳ３０）、次ぎの画像を選択する（ステップＳ３１→Ｓ２７）。

また、画像が品質条件を満たしていると判定した場合には（ステップＳ２８；Ｙｅｓ）、その画像から非共通領域のビジュアルキーワードにマッピングされた画像領域を除去して学習データを作成し、学習データＤＢ７５にキーワードと共に格納する（ステップＳ２９）。

このように、各画像からビジュアルキーワードを用いて生成した特徴ベクトルに基づいて、各画像間を亘って非共通であると特定される画像領域を除去することで、図６のように例えば「ランドマーク」というキーワードで収集した画像の中でも、「ランドマーク」というオブジェクトを表す画像領域（破線で囲まれる領域）を切り出して、オブジェクト認識に適切な学習データを作成することができる。

また、図６の画像ＩＭＧ４のように、非共通であると特定される画像領域を除去した場合に、学習データとしての質を満たさない場合には、その画像データを学習データとしては登録しないため、精度のよい学習データを作成することができる。

尚、上述した実施形態は、本発明を適用した一例であって、本発明の目的を逸脱しない範囲において適宜設計変更等してもよい。以下、本発明の変形例について説明する。

〔ビジュアルキーワードへの分布の指標の変更〕
先ず、ビジュアルキーワードの画像の分布の度合いとして、上述例では、元画像分布数を算出したが、各ビジュアルキーワードにマッピングされた画像領域の枚数を算出して、非共通領域の特定を行うこととしてもよい。

具体的には、図４のステップＳ２１においては、ＶＫ割当数を算出するのに代えて、各画像から検出した領域画像の検出数を、画像毎に検出数として算出する。また、ステップＳ２２においては、元画像分布数を算出するのに代えて、各ビジュアルキーワードにマッピングされた領域画像の総数をＶＫマッピング数として算出する。そして、ステップＳ２５においては、ＶＫマッピング数が所定閾値未満であるビジュアルキーワードを非共通領域として特定する。

例えば、図５において、画像ＩＭＧ１から１５枚、画像ＩＭＧ２から１１枚、画像ＩＭＧ３から７枚の領域画像がビジュアルキーワードＶＫ１にマッピングされているので、それらを加算した３３がＶＫマッピング数として算出される。そして、閾値が２０に設定されている場合には、図５においてビジュアルキーワードＶＫ２，ＶＫ５，ＶＫ６が非共通領域として特定される。

また、学習データとしての品質の判定のステップＳ２８においては、全画像から非共通領域となったビジュアルキーワードを除去した場合に残る画像領域の枚数（残領域総数）に対する、非共通領域を除去した場合の各画像のビジュアルキーワードへの画像領域の分布（検出残数）の比率が所定値以上であれば、品質条件を満たしていると判定する。この非共通領域の除去による分布の比率は、次式により求められる。

各画像の分布の比率＝検出残数／残領域総数

残領域総数は、非共通領域のビジュアルキーワードにマッピングされた画像領域を元画像から除去した場合でも各ビジュアルキーワードにマッピングされて残っている画像領域の数であり、画像毎に算出される。図５においては、ビジュアルキーワードＶＫ１，ＶＫ３，ＶＫ４にマッピングされている画像領域の総数‘８８’が残領域総数として算出される。

また、検出残数は、非共通領域のビジュアルキーワードの領域画像を除去した場合でも各画像に残っている領域画像の枚数であり、画像毎に算出される。図５において画像ＩＭＧ１については、非共通領域以外のビジュアルキーワードＶＫ１，ＶＫ３，ＶＫ４にマッピングされている領域画像は２４枚として算出される。

この残領域総数に対する各画像の検出残数の比率が所定の閾値（例えば、０．５）以下である場合は、その画像が学習データとしての品質を満たしていないと判定する。このように、非特定領域であるビジュアルキーワードの特定や、学習データとしての品質の判定に、各ビジュアルキーワードにマッピングされた領域画像の枚数を用いることで、より質の高い学習データを作成することができる。

〔非共通領域にマッピングされた画像領域の除去〕
また、上述例では、非共通領域として特定されたビジュアルキーワードに属する領域画像を元画像から除去することで学習データを作成することとして説明しているが、その非共通領域と特定されたビジュアルキーワードに属する領域画像の元画像内での位置に基づいて実際に除去する領域を求めることとしてもよい。

具体的に、図７に示す画像ＩＭＧ５において、破線で示す領域で分割が為され、網掛けの領域が非共通領域として特定されたビジュアルキーワードにマッピングされた画像領域であるとする。

図７のように非共通領域にマッピングされた画像領域の位置から、共通領域となる画像領域（白地の領域）を認識することができるため、この共通領域のうち、上下左右方向に最も外側の画像領域を抽出し、その画像領域を含むように学習データを切り出す。

即ち、画像ＩＭＧ５の中では、画像領域Ｐ１〜Ｐ４を共通領域となる画像領域の外縁として抽出し、この画像領域Ｐ１〜Ｐ４を含む枠Ｆを抽出する。この枠Ｆの外側の画像領域を画像ＩＭＧから除去することで、枠Ｆの内側の画像を学習データとして作成する。

本実施形態の学習データ作成装置１により作成された学習データを用いたオブジェクト認識に用いる特徴量は、オブジェクト認識のエンジンにより異なる。従って、オブジェクトを含む十分な大きさで学習データを作成することで、学習過程においてオブジェクトの特質を精度よく抽出することができる。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

１学習データ作成装置
１０画像収集部
１５画像ＤＢ
２０ビジュアルキーワード生成部
２５ビジュアルキーワードＤＢ
３０特徴ベクトル生成部
３５領域管理ＤＢ
４０特徴ベクトルＤＢ
５０非共通領域特定部
６０品質判定部
７０学習データ作成部
７５学習データＤＢ

Claims

キーワードに基づくウェブ検索により収集された複数の画像データからオブジェクト認識用の学習データを作成する学習データ作成装置において、
前記収集された複数の画像データから検出される領域画像の特徴量に基づいて該領域画像を所定のクラスタに分類し、各画像データの領域画像が属するクラスタと、該クラスタに属する領域画像の数とを該画像データ毎に生成するクラスタ分類手段と、
前記各クラスタに属する領域画像の数に基づく前記各クラスタに対する前記領域画像の分類状態から、前記領域画像の分布が少ないクラスタを特定する非共通領域特定手段と、
前記特定されたクラスタに属する領域画像を、該領域画像を検出した前記画像データから除去することにより学習データを作成する学習データ作成手段と、
を備えることを特徴とする学習データ作成装置。
前記非共通領域特定手段は、
前記領域画像が分類されたクラスタのうちの、該クラスタに分類された領域画像の検出元の画像データの枚数に基づいて前記領域画像の分布が少ないクラスタを特定することを特徴とする請求項１に記載の学習データ作成装置。
前記各画像データから検出した領域画像の数に対する前記非共通領域特定手段により特定されたクラスタに属する該画像データの領域画像の数の比率に基づいて、前記領域画像を除去した場合の画像データが前記学習データに適しているか否かを判定する品質判定手段を更に備え、
前記学習データ作成手段は、
前記品質判定手段により前記学習データに適していると判定された画像データから前記領域画像の除去を行って前記学習データを作成することを特徴とする請求項１又は２に記載の学習データ作成装置。
前記学習データ作成手段は、
前記特定されたクラスタに分類された領域画像の前記画像データに対する検出位置に基づいて、前記画像データに対して外側から前記領域画像を除去することを特徴とする請求項１〜３の何れかに記載の学習データ作成装置。
コンピュータが、キーワードに基づくウェブ検索により収集された複数の画像データからオブジェクト認識用の学習データを作成する学習データ作成方法において、
前記収集された複数の画像データから検出される領域画像の特徴量に基づいて該領域画像を所定のクラスタに分類し、各画像データの領域画像が属するクラスタと、該クラスタに属する領域画像の数とを該画像データ毎に生成するクラスタ工程と、
前記各クラスタに属する領域画像の数に基づく前記各クラスタに対する前記領域画像の分類状態から、前記領域画像の分布が少ないクラスタを特定する非共通領域特定工程と、
前記特定されたクラスタに属する領域画像を、該領域画像を検出した前記画像データから除去することにより学習データを作成する学習データ作成工程と、
を前記コンピュータが行うことを特徴とする学習データ作成方法。
請求項５に記載の学習データ作成方法をコンピュータに実行させるためのプログラム。