JP5565190B2

JP5565190B2 - 学習モデル作成プログラム、画像識別情報付与プログラム、学習モデル作成装置及び画像識別情報付与装置

Info

Publication number: JP5565190B2
Application number: JP2010180262A
Authority: JP
Inventors: 文渊戚; 典司加藤; 基文福井
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2010-08-11
Filing date: 2010-08-11
Publication date: 2014-08-06
Anticipated expiration: 2030-08-11
Also published as: JP2012038244A; US20120039527A1

Description

本発明は、学習モデル作成プログラム、画像識別情報付与プログラム、学習モデル作成装置及び画像識別情報付与装置に関する。

近年、画像アノテーション技術は、画像データベース管理における画像検索システム、画像認識システムなどのための一つの重要な技術となっている。この画像アノテーション技術により、ユーザは、例えば、必要とする画像と近い特徴量を持つ画像を検索できる。一般的な画像アノテーション技術では、画像領域から特徴量を抽出し、対象の特徴に対して予め学習しておいた画像特徴の中から最も近いと判断した画像のアノテーションを付与する。

画像アノテーション技術としては、学習用画像に対して分割した領域から複数の特徴量を抽出し、領域ごとに代表特徴量により量子化して特徴量を分類し、同一分類に属する特徴量ベクトルに対して付与されているラベルの出現頻度によって事前確率Ｐ（Ｌｉ）の推定を行い、推定したＰ（Ｌｉ）を用いて最大事後確率Ｐ（Ｌｉ｜Ｃｋ）を計算し、ラベル尤度の高い順にラベルを推定する手法が提案されている（例えば、特許文献１参照）。特徴量の分類には、一般にバイナリ識別器が用いられる。

画像全体についてのラベル尤度Ｐ（Ｌｉ｜Ｉｍａｇｅ）は、ラベルをＬｉ、領域ｋに属する代表特徴量をＣｋ、領域数をＳとすると、以下の（数１）により表される。

特開２０００−３５３１７３号公報

本発明の課題は、バイナリ識別器を用いて作成した学習モデルよりも未知画像に対して信頼性の高い識別情報を付与することが可能な学習モデルを作成することができる学習モデル作成プログラム及び学習モデル作成装置を提供することである。また、本発明の課題は、バイナリ識別器を用いて作成した学習モデルを用いた場合よりも未知画像に対して信頼性の高い識別情報を付与することができる画像識別情報付与プログラム及び画像識別情報付与装置を提供することである。

［１］コンピュータを、画像の内容を表す識別情報が既知の画像である学習用画像から複数の特徴量を抽出し、バイナリ識別器を用いて前記複数の特徴量を分類し、前記識別情報と前記特徴量とを対応付けるための学習モデルを前記識別情報及び前記特徴量の種類毎に作成する作成手段と、前記識別情報の条件付確率を求める計算式をシグモイド関数で近似し、前記識別情報の条件付確率が最大となるように前記シグモイド関数のパラメータを最適化することで前記識別情報毎に前記学習モデルを最適化する最適化手段として機能させるための学習モデル作成プログラム。

［２］前記最適化手段は、前記シグモイド関数のパラメータを同一の識別情報の範囲で共
通化して前記学習モデルを最適化する前記［１］に記載の学習モデル作成プログラム。
［３］前記シグモイド関数は、以下の式（ただし、ｆは特徴量、Ａ、Ｂはパラメータである。）

である、前記［１］に記載の学習モデル作成プログラム。

［４］コンピュータを、画像の内容を表す識別情報が既知の画像である学習用画像から複数の特徴量を抽出し、バイナリ識別器を用いて前記複数の特徴量を分類し、前記識別情報と前記特徴量とを対応付けるための学習モデルを作成する作成手段と、前記識別情報の条件付確率を求める計算式をシグモイド関数で近似し、前記識別情報の条件付確率が最大となるように前記シグモイド関数のパラメータを最適化することで前記識別情報毎に前記学習モデルを最適化する最適化手段と、識別情報が未知の画像である未知画像から複数の特徴量を抽出する特徴量抽出手段と、前記特徴量抽出手段によって抽出された前記複数の特徴量、及び前記最適化手段によって最適化された前記学習モデルを用いて前記対象画像に対して識別情報を付与する識別情報付与手段として機能させるための画像識別情報付与プログラム。
［５］前記シグモイド関数は、以下の式（ただし、ｆは特徴量、Ａ、Ｂはパラメータである。）

である、前記［４］に記載の画像識別情報付与プログラム。

［６］識別情報が既知の学習用画像から複数の特徴量を抽出し、バイナリ識別器を用いて前記複数の特徴量を分類し、前記識別情報と前記特徴量とを対応付けるための学習モデルを作成する作成手段と、前記識別情報の条件付確率を求める計算式をシグモイド関数で近似し、前記識別情報の条件付確率が最大となるように前記シグモイド関数のパラメータを最適化することで前記識別情報毎に前記学習モデルを最適化する最適化手段とを備えた学習モデル作成装置。
［７］前記シグモイド関数は、以下の式（ただし、ｆは特徴量、Ａ、Ｂはパラメータである。）

である、前記［６］に記載の学習モデル作成装置。

［８］画像の内容を表す識別情報が既知の画像である学習用画像から複数の特徴量を抽出し、バイナリ識別器を用いて前記複数の特徴量を分類し、前記識別情報と前記特徴量とを対応付けるための学習モデルを作成する作成手段と、前記識別情報の条件付確率を求める計算式をシグモイド関数で近似し、前記識別情報の条件付確率が最大となるように前記シグモイド関数のパラメータを最適化することで前記識別情報毎に前記学習モデルを最適化する最適化手段と、識別情報が未知の画像である未知画像から複数の特徴量を抽出する特徴量抽出手段と、前記特徴量抽出手段によって抽出された前記複数の特徴量、及び前記最適化手段によって最適化された前記学習モデルを用いて前記対象画像に対して識別情報を付与する識別情報付与手段とを備えた画像識別情報付与装置。
［９］前記シグモイド関数は、以下の式（ただし、ｆは特徴量、Ａ、Ｂはパラメータである。）

である、前記［８］に記載の画像識別情報付与装置。

請求項１、３、８、９に記載の発明によれば、バイナリ識別器を用いて作成した学習モデルよりも未知画像に対して信頼性の高い識別情報を付与することが可能な学習モデルを作成することができる。

請求項２に記載の発明によれば、シグモリド関数を用いて、識別器が特徴量を0/1ではなく、確率的に分類することができる。

請求項４、５に記載の発明によれば、本構成を採用しない場合と比べて計算量を少なくする
ことができる。

請求項６、７に係る発明によれば、バイナリ識別器を用いて作成した学習モデルを用いた場合よりも未知画像に対して信頼性の高い識別情報を付与することができる。

図１は、本発明の実施の形態に係るアノテーションシステムの構成の一例を示すブロック図である。図２は、画像識別情報の付与方法の一例を示すフローチャートである。図３は、学習フェーズの具体的な流れの一例を示すフローチャートである。図４は、最適化フェーズの具体的な流れの一例を示すフローチャートである。図５は、検証フェーズの具体的な流れの一例を示すフローチャートである。図６は、更新フェーズの流れの一例を示すフローチャートである。図７は、検証フェーズの具体例を示す図である。図８は、量子化の一例を示す図である。図９は、シグモイド（sigmoid）関数とパラメータＡの関係の一例を示す図である。

図１は、本発明の実施の形態に係る学習モデル作成装置及び画像識別情報付与装置が適用されたアノテーションシステムの構成の一例を示すブロック図である。

このアノテーションシステム１００は、ラベル（識別情報）を付けたい未知画像（以下、「クエリ画像」ともいう。）を受け付ける入力部３１と、特徴生成部３２と、確率推定部３３と、識別器群作成部１０と、最適化部２０と、ラベル付け部３０と、修正・更新部４０と、出力部４１とを有する。特徴生成部３２、確率推定部３３、識別器群作成部１０、最適化部２０、ラベル付け部３０及び修正・更新部４０は、バス７０を介して接続される。

アノテーションシステム１００は、学習コーパス１の学習用画像から抽出した複数種類の特徴量を最適化し、高いアノテーション精度を達成するため、改良型バイナリ識別モデルを用いて、複数種類の特徴量に対する識別器群を作成し、シグモイド（sigmoid）関数による複数種類の識別器群を確率化して、最適化された重み付け係数で特徴量とアノテーションの尤度を最大化する。

本明細書において、「アノテーション」とは、画像全体に対してラベルを付けることをいう。「ラベル」は、画像の全体又は部分領域の内容を表す識別情報である。

識別器群作成部１０、最適化部２０、ラベル付け部３０、特徴生成部３２、確率推定部３３及び修正・更新部４０は、後述するＣＰＵ６１がプログラム５４に従って動作することにより実現することができる。なお、識別器群作成部１０、最適化部２０、ラベル付け部３０、特徴生成部３２、確率推定部３３及び修正・更新部４０の全部又は一部をＡＳＩＣ等のハードウエアによって実現してもよい。

識別器群作成部１０は、作成手段の一例であり、識別情報が既知の学習用画像から複数の特徴量を抽出し、バイナリ識別器を用いて複数の特徴量を分類し、識別情報と特徴量とを対応付けるための学習モデルを識別情報及び特徴量の種類毎に作成する。

最適化部２０は、最適化手段の一例であり、複数の特徴量の相関に基づいて識別情報毎に識別器群作成部１０によって作成された学習モデルを最適化する。具体的には、最適化部２０は、識別情報の条件付確率を求める計算式をシグモイド関数で近似し、識別情報の条件付確率が最大となるようにシグモイド関数のパラメータを最適化することで学習モデルを最適化する。

入力部３１は、マウス、キーボード等の入力デバイスを備え、表示プログラムの出力は外部表示設備（図示しない）にて行う。入力部３１には、一般的な画像の操作（例えば、移動、色の修正、変形、保存フォーマットの変換など）だけでなく、選択されたクエリ画像又はインターネットを介してダウロードされたクエリ画像に対して、予測アノテーションを修正する機能をも有する。すなわち、入力部３１は、より高精度のアノテーションを達成するために、現在の結果を考慮して、認識結果を修正する手段も提供する。

出力部４１は、液晶ディスプレイ等の表示デバイスを備え、クエリ画像に対するアノテーション結果を表示する。また、出力部４１は、キエリ画像の部分領域に対するラベリングを表示する機能をも有する。また、出力部４１は、表示画面で様々な選択肢を提供するので、希望する機能のみを選択して結果を表示できる。

修正・更新分４０は、ラベルを付けた画像を使って、自動的に学習コーパス１及び予め備えたアノテーション辞書を更新することにより、システムのスケールが増加しても、計算スピードとアノテーション時間を落とすことなく、認識精度を向上できる。

記憶部５０は、予め備えた学習コーパス１以外に、クエリ画像（図示しない）と、学習モデル５１と、最適化パラメータ５２と、局所領域情報５３と、プログラム５４と、コードブック群５５とを記憶する。クエリ画像は、アノテーションを付けたい画像及びその画像に関する付加的な情報（例えば、回転、スケール変換、色修正など）を保持する。記憶部５０は、容易にアクセスでき、計算量を減らすために、特徴量を計算する際に局所領域情報５３もデータベースとして記憶する。

予め備えた学習コーパス１は、学習用画像と学習用画像全体に対するラベルが対になったものである。

また、本アノテーションシステム１００は、通常のシステムで必要となるＣＰＵ６１、メモリ６１、ハードデスクなどの記憶部５０、ＧＰＵ（Graphics Processing Unit）６３等を備える。ＣＰＵ６１とＧＰＵ６３は、計算を並列化できるという特性を有し、画像データの分析を効果的に行うシステムを目指すために重要である。ＣＰＵ６１、メモリ６１、記憶部５０、ＧＰＵ６３は、バス７０を介して接続される。

（アノテーションシステムの動作）
図２は、本アノテーションシステムの全体の動作の一例を示すフローチャートである。本アノテーションシステム１００は、大きく４つの段階、すなわち学習フェーズ（Ｓ１０）、最適化フェーズ（Ｓ２０）、検証フェーズ（Ｓ３０）及び更新フェーズ（Ｓ４０）を有する。

図３は、学習フェーズの具体的な流れの一例を示す図である。最初に、学習フェーズについて説明する。

（１）学習フェーズ
図３に示すように、学習フェーズでは、学習コーパス１の学習用画像から様々な特徴量を抽出し、識別器を用いて学習モデルを構築する。学習フェーズでは、構築した学習モデルを再利用するために、学習モデルの各種パラメータを学習モデルデータベースに保存する。学習モデルの各種パラメータは、後述する表２に示すように、学習モデルマトリクス５１の形式で保存する。

（１−１）局所領域の分割
まず、識別器群作成部１０は、学習コーパス１の学習用画像ＩをＦＨ法、Ｍｅａｎｓｈｉｆｔ法等の既存の領域分割手法を用いて複数の局所領域に分割し、局所領域の位置情報を局所領域情報５３として記憶部５０に記憶する。ＦＨ法は、例えばP.F. Felzenszwalb and D.P. Huttenlocher. “Efficient Graph-Based Image Segmentation”. International Journal of Computer Vision, 59(2):167-181, 2004.に開示されている。ＭｅａｎＳｈｉｆｔ法は、例えばD. Comaniciu and P. Meer. “Mean shift: A robust approach toward feature space analysis”. IEEE Trans. Pattern Anal. Machine Intell., 24:603-619, 2002.に開示されている。

（１−２）特徴量の抽出
次に、識別器群作成部１０は、各局所領域からそれぞれ複数種類の特徴量を抽出する。特徴量は、本実施の形態では、ＲＧＢ、ｎｏｒｍａｌｉｚｅｄ−ＲＧ、ＨＳＶ、ＬＡＢ、ｒｏｂｕｓｔＨｕｅ特徴量（van de Weijer, C. Schmid, “Coloring Local Feature Extraction”, ECCV 2006を参照）、Ｇａｂｏｒ特徴量、ＤＣＴ特徴量、ＳＩＦＴ特徴量（D. G. Lowe, “Object recognition from local scale invariant features”, Proc. of IEEE International Conference on Computer Vision (ICCV), pp.1150-1157, 1999.を参照）及びＧＩＳＴ特徴量（A. Oliva and A. Torralba. “Modeling the shape of the scene: a holistic representation of the spatial envelope”, International Journal of Computer Vision, 42(3):145-175, 2001.を参照）の合わせて９種類の特徴量を用いるが、いかなる特徴を用いてもよい。ここで、ＧＩＳＴ特徴量のみは局所領域ではなく、大域領域（画像全体など）から抽出される。このとき、特徴ベクトルの数は、領域数（Ｓ）×特徴量の種類（Ｎ）である。各特徴ベクトルＴの次元数は、特徴量の種類によって異なる。

（１−３）代表特徴量集合の算出
図３に示すように、識別器群作成部１０は、特徴量Ｔに「１」を入力する（Ｓ１１）。次に、識別器群作成部１０は、学習コーパス１全体から周知のＫ−Ｍｅａｎｓクラスタリングによって特徴量の種類Ｔの局所特徴量を抽出し（Ｓ１２）、特徴量の種類Ｔ毎に代表特徴量集合を算出する（Ｓ１３）。この算出結果は、コードブック群５５のデータベースに格納する（このデータベースは代表特徴空間と呼ばれる）。ここで、コードブック群５５の種類と特徴量の種類は同じくＮであり、各コードブックの次元数は予め設定したＣとする。

表１は、コードブック群５５の構成を示している。表１において、Ｖ_ｉｊは種類ｉに対するコードブック群５５のｊ番目の代表特徴量ベクトルを意味する。

（１−４）量子化
次に、識別器群作成部１０は、学習用画像Ｉのある種類の特徴量ベクトル集合に対して、同じ種類のコードブックを用いて量子化プロセスを行い、ヒストグラムを作る（Ｓ１４）。このとき、学習用画像Ｉに対して、量子化特徴量ベクトルＴ’の数は、領域数（Ｓ）×特徴量の種類（Ｎ）であり、各ベクトルＴ’の次元数は、コードブックの次元数と同じ（Ｃ）になる。

表２は、Ｓ個の局所領域で分割された学習用画像Ｉにおける量子化された特徴量の構成を示している。表２において、Ｔ’_ｉｊは、種類ｉのコードブックによる局所領域ｊで量子化された特徴量を意味する。

（１−５）学習モデル群の生成
次に、学習フェーズは、上記生成された各種類の特徴量を用いて、ＳＶＭ識別器により学習モデル群を生成する（Ｓ１５）。ラベル毎に生成された学習モデル群の数はＮである。ある学習モデル群に対して、１対Ｌ−１のＬ個バイナリＳＶＭ識別器による学習モデルを使う。ここで、Ｌはクラスの種類、すなわち予め揃えたラベルの数である。そして、学習モデル群を最適化フェーズに適用するために、このステップで生成した学習モデル群は、予め備えたラベルごとに、学習モデルマトリクス５１というデータベースに格納しておく。このとき、学習モデルマトリクスのサイズは、特徴量の種類（Ｎ）×予め揃えたラベルの数（Ｌ）である。

表３は、学習モデルマトリクスの具体的な構成を示している。アクセスすることを容易にするために、モデルのフォーマットは、全てＸＭＬ形式とする。また、Ｍ_ｉｊは、ラベルＬｉに対する種類ｊの複数の特徴量から学習した学習モデルを意味する。

学習フェーズは、特徴量の種類Ｔに「１」を加算してＳ１２へ戻り、特徴量の全てＮ種類の処理が終わるまでＳ１２からＳ１５までの処理を繰り返す（Ｓ１６）。ここまでが、学習フェーズである。最適化フェーズでは、学習フェーズにおいて計算した学習モデル群に対して、最適化部２０は、ラベル毎にｓｉｇｍｏｉｄモデルを用いて学習モデルを最適化する（Ｓ１８）。この最適化フェーズでは、異なる種類の特徴間の影響も考慮して、さらに強い識別器を構成することで、最適化パラメータを出力する。この機能は、本システムの最も核心部分である。

（２）最適化フェーズ
図４は、最適化フェーズの具体的な流れの一例を示す図である。この最適化フェーズでは、異なる種類の特徴間の影響も考慮して、さらに強い識別器を構成することで、最適化パラメータを出力する。

最適化フェーズは、確率テーブルを作成ための準備プロセス及び学習モデル最適化部から構成される。最適化部２０は、画像の物理的な複数種類の特徴情報と意味的情報の対応関係を構築するために、条件付確率Ｐ（Ｌｉ｜Ｔ’_１，・・・，Ｔ’_Ｎ）が最大となるようにラベルを推定する。ここで、Ｌｉはラベルであり、Ｔ’は表２に示す量子化した特徴量である。

仮に、学習フェーズにおいて通常のバイナリＳＶＭ識別器を用いて学習すると、特徴量ｆは以下の（数２）により表され、結果は０か１しかないので、確率分布を計算することができないという問題があるため、識別器を確率化することが必要ある。

ここで、ＳＶＭ識別器に対する学習データは、特徴量ｘと、ｘがラベルＬｉに属するか属さないかのバイナリクラスから構成する。

ここで、ｙ_ｋ＝−１はｘがラベルＬｉに属さないことを、ｙ_ｋ＝＋１はｘがラベルＬｉに属することを意味する。Ｋはカーネル関数であり、αとｂは学習モデルの構成要素（パラメータ）である。このαとｂは、以下の（数４）計算式（４）により最適化する。

ここで、ｗは、特徴量ｘの重みベクトル、パラメータζは、不等式制約を等式制約に変換するために導入するスラック変数であり、パラメータγが特定問題に対してある値域内の値を働くのに従い、（ｗ・ｗ）は対応する値域を平滑に変化する。また、ｘ、ｙ_ｋ、αとｂは、上記（数２）と同一である。

確率的なラベル分類結果を得るために、本実施の形態は文献「Probabilistic Outputs for SVM and Comparisons to Regularized Likelihood Methods；John C. Platt March 26,1999」に従って、ラベルに対する確率的な判別を行う。上記文献においては、識別器の識別関数の代わりに、以下の（数５）に示す決定関数によって条件付確率を計算する。

本実施の形態は、あるラベルＬｉに対して、以下の（数６）を最小化した後に、条件付確率を計算する。

ここで、ｐ_ｋは、以下の（数７）により表され、ｔ_ｋは、以下の（数８）により表される。

ここで、Ｎ_＋はｙ_ｋ＝＋１のサンプルの数であり、Ｎ₋はｙ_ｋ＝−１のサンプルの数である。上記（数７）において、パラメータＡとＢを学習し、さらにテストフェーズにおける事後確率テーブルを作成した上で、ラベリングを推定する。

本アノテーションシステム１００の最適化フェーズでは、学習フェーズにおいて各種類の特徴量について最適化された学習モデル群の最適化を実施する。最適化部２０は、学習コーパス１に対して、各特徴量からの影響力を考慮して最適化する。本アノテーションシステム１００は、予め学習することにより学習モデルに重みを付ける。すなわち、本アノテーションシステム１００は、識別器の決定関数（上記（数５））によって改良したｓｉｇｍｏｉｄモデルで得られた重み係数ベクトル（Ａ，Ｂ）を用いることにより、条件付確率を算出した上で、さらに高い精度のアノテーションを付与することができる。この点は、上記文献に記載された従来技術と根本的な相違点である。

（実施例１）
実施例１として、ラベルの事後確率を上記（数７）から以下の（数９）のように変形する。

上記（数９）において、ｆ^ｋ _ｉｊは、表３に示す学習モデルマトリクス行のｉ番目、列のｊ番目のモデルの決定関数において、表２の種類ｊの特徴量Ｔ’_ｊｋを入力としたときの出力値（０〜１）である。すなわち、最適化部２０は、上記（数９）によって上記（数６）の最小値を見つけて、ラベル毎に学習モデルを最適化する。上記（数９）における最適化パラメータＡ_ｉｊとＢ_ｉｊは、上記（数７）のパラメータＡ，Ｂとは別のパラメータである。そして、最適化部２０は、バックトラッキング線形探索法（backtracking linear search）を用いたニュートン法によって（Nocedal,J. and S.J.Wright: “Numerical Optimization” Algorithm 6.2. New York, NY: Springer- Verlag, 1999.を参照）、ｓｉｇｍｏｉｄパラメータベクトルＡ_ｉｊとＢ_ｉｊを学習し、後述の検証（テスト）フェーズにおいて、ラベル付け部３０が事後確率テーブルを作成した上で、ラベリングを推定する。

図４に示すように、最適化部２０は、ｓｉｇｍｏｉｄ関数によるモデル最適化（Ｓ２１）を、全てのラベルの処理が終わるまで繰り返し行う（Ｓ２２、Ｓ２３）。この最適化ステップは、生成された二つパラメータベクトルＡ_ｉｊとＢ_ｉｊを、学習モデルの一部として最適化パラメータ５２のデータベースに格納する（Ｓ２４）。以上が最適化フェーズである。

（実施例２）
上記（数９）において、最適化パラメータの数は２×Ｌ×Ｎであるので、最適化フェーズで複雑なマトリックス計算が必要となる。この計算時間を減らすために、本実施例２では、ｓｉｇｍｏｉｄのパラメータを同一のラベル範囲で共通化して、計算量を減らしている。実施例２では、以下の（数１０）と（数１１）に従って、学習モデルのパラメータを最適化する。

ここで、ｉはラベルのインデックスであり、ｋは学習サンプルのインデックスである。また、実施例２では、パラメータの数が２×Ｌ×Ｎから２×Ｎに減り、計算量が１／Ｌに減少する。

（３）検証フェーズ
図５は、検証フェーズの具体的な流れの一例を示す。次に、検証フェーズでは、レベル付け部３０が最適化フェーズで生成した最適化パラメータを用いて、画像に最終的なアノテーションを付ける。検証フェーズでは、未知画像Ｕ（ラベルを付けたい画像）にラベリングする。特徴量の抽出ステップは学習フェーズと同様である。すなわち、特徴生成部３２によりクエリ画像を分割し、分割した局所領域から複数種類の特徴量を抽出し、局所特徴量を計算する（Ｓ３１）。特徴量の種類１〜Ｎ毎の特徴量集合を算出する（Ｓ３２）。

局所領域においてラベルに対する確率分布テーブルの計算方法を以下の（数１２）に示す。

ここで、Ｎは特徴量の種類であり、ｉは付けたいラベルの番号である。検証ステップでは、上記（数１２）のパラメータＡとＢに、実施例１のパラメータＡ_ｉｊとＢ_ｉｊ又は実施例２のパラメータＡ_ｊとＢ_ｊを用いる。

そして、ラベル付け部３０は、ラベルによる複数の局所領域の確率分布テーブルに重みを付けて、画像全体における確率マップを以下の（数１３）に基づいて作成する。

ここで、ωｋは局所領域による重み係数であり、Ｒｉは意味的なラベルＬｉが発生する確率である。ωｋの一例としてωｋ局所領域ｋの面積が考えられる。また一定値でもよい。算出したラベルの発生確率によって、ユーザから指定されたしきい値で上位いくつかのラベルを未知画像Ｕに添付して、出力部４１に表示する。

（５）更新フェーズ
図６は、更新フェーズの流れの一例を示す図である。更新フェーズでは、ユーザインタフェースにより修正したいアノテーションを指定して（Ｓ４１、Ｓ４２）、本システムの学習フェーズをもう一度利用して、修正・更新部４０は、学習モデルとパラメータを最適化する（Ｓ４３）。そして修正・更新部４０は、学習コーパス１の更新をしたときに、この学習コーパス１を使用するために学習モデルマトリクス５１、ラベル辞書２なども更新する（Ｓ４４）。このとき、修正・更新部４０は、修正したアノテーションがラベル辞書２に載ってない場合、新規なラベルをアノテーションの結果として登録しておく。

修正・更新部４０は、アノテーションの性能を向上させるために、未知画像情報を学習コーパス１に追加する。その際に、更新フェーズは、学習コーパス１にできる限りノイズが入らないように、付与されたラベルのうち、精度が良くないラベルを廃棄することが必要である。その上で、修正・更新部４０は、未知画像をその修正したラベルと共に、学習コーパス１に格納する。

（検証フェーズの具体例）
図７は、検証フェーズの具体例を示す図である。図７において、アノテーションの種類は、例えば、５種類であり（Ｌ＝５、ｆｌｏｗｅｒ、ｐｅｔａｌｓ、ｌｅａｆ、ｓｋｙ、ｔｉｇｅｒ）、画像の分割領域数は９であり(Ｓ＝９）、各領域による局所特徴量の種類は３である（Ｎ＝３；特徴量は色のＬａｂ、テクスチャのＳＩＦＴ（Scale Invariant Feature Transform）、形状のＧａｂｏｒの３種類）。

図７に示す検証フェーズでは、クエリ画像３を９個の局所領域３ａに分割する。検証フェーズは、各局所領域３ａから３種類の局所特徴量を抽出して（Ｓ３１、Ｓ３２）、それぞれを各特徴量に対応したコードブックを用いて、量子化を行う（Ｓ３３）。

次に、検証フェーズは、局所領域３ａ内で、量子化された特徴量のヒストグラムを生成し、識別のための特徴量とする。そして、その特徴量を用いて、本実施の形態の識別器で各局所領域３ａにおけるアノテーションの確率を算出し、これを各局所領域３ａについて平均して画像のアノテーションとする。図７の場合、「ｐｅｔａｌｓ」、「ｌｅａｆ」、「ｆｌｏｗｅｒ」の各ラベル４がアノテーション結果である。

また、表４は、局所特徴量を例えば５００個の状態に量子化するためのコードブック群５５であり、各コードブックは５００の代表特徴量を持つ。

表４の各欄において、括弧の中は、局所特徴量のベクトル成分であり、括弧の右下の数字は、ベクトルの次元数である。局所特徴量の次元数は、特徴量の種類によって異なる。

図８は、量子化の一例を示す図である。同図は、色特徴量Ｌａｂに対する、局所領域８に抽出された局所特徴量の量子化の流れを示す。次に、コードブックによって、各領域から生成された局所特徴量を量子化する方法を説明する。量子化の手法は、領域中のサンプリングポイントから局所Ｌａｂ特徴量を抽出して、表４のコードブック−Ｌａｂ中の代表特徴量の中で、最も近い代表特徴量を求め、その量子化番号を求める。量子化の手法は、最後に、局所領域８中の量子化番号のヒストグラムを生成する。

量子化の手法は、他の領域も同じように、特徴の種類ごとに量子化された特徴量を作成する。具体例を表５に示す。

ここで、各特徴量の次元数は、コードブック数と同じ５００である。

そして、検証フェーズでは、量子化特徴量をすべての学習画像に対して求め、これを用いて、ＳＶＭ識別器を各レベル、各特徴量に対して学習する（Ｓ３４）。学習されたモデルの具体例を表６に示す。各学習モデルは、パラメータα、bとＳＶＭのサポートベクターから構成される。

次に、パラメータＡとＢの計算方法を説明する。まず、すべての学習サンプルに対して、学習したモデルマトリクスのパラメータ及び上記（数５）を用いて、識別関数の出力ｆを求める。さらに、上記（数９）又は改良された上記（数１１）によって、パラメータＡとＢを計算する。ここで、パラメータＡとＢは、上記（数９）のパラメータＡ_ｉｊとＢ_ｉｊ又は改良された上記（数１１）のＡ_ｊとＢ_ｊと同じである。

図９は、シグモイド（sigmoid）関数とパラメータＡの関係の一例を示す図である。ここで、パラメータＡの意味について説明する。上記（数９）又は（数１１）の関数の特性から、パラメータＡが小さいほど、その特徴量を用いた識別器がアノテーションに有効であることが分かる。

（比較例）
表７は、比較例のパラメータＡを示す。

表８は、本実施の形態のパラメータＡの具体例を示す。

比較例では、表７に示すように、どのラベルにおいても学習したパラメータＡが比較的大きく、その結果、アノテーション性能が不十分になる。

これに対して、本実施の形態では、ラベルによって、特定の特徴量に対して、Ａの値が小さくなっている。例えば、表８において、ラベル「ｓｋｙ」では、色の識別器（Ｌａｂ）に対するパラメータＡが小さくなっており、ラベル「ｌｅａｆ」とラベル「ｓｋｙ」を識別するために、色の特徴が有効となるように、最適化されていることが分かる。同様に、ラベル「ｐｅｔａｌ」に対しては、テクスチャ（ＳＩＦＴ）が有効となっていることが分かる。これにより、本アノテーションシステムでは、ラベルごとに有効な特徴を自動的に選択でき、アノテーション性能が向上する。

最後に、本アノテーションシステムは、検証フェーズで最適化したパラメータによって、上記（数１２）及び（数１３）を用いて、算出したラベルの発生確率によって（Ｓ３５、Ｓ３６）、ユーザから指定されたしきい値に基づいて、上位いくつかのラベルを未知画像に添付して（Ｓ３７）、出力部４１に表示する。

［他の実施の形態］
なお、本発明は、上記実施の形態に限定されず、発明の要旨を逸脱しない範囲で種々に変形が可能である。例えば、上記実施の形態で用いたプログラムをＣＤ−ＲＯＭ等の記録媒体に記憶して提供することもできる。また、上記実施の形態で説明した上記ステップの入替え、削除、追加等は可能である。

１…学習コーパス、２…ラベル辞書、３…クエリ画像、３ａ…局所領域、４…ラベル、１０…識別器群作成部、２０…最適化部、３０…ラベル付け部、３１…入力部、３２…特徴生成部、３３…確率推定部、４０…修正・更新部、４１…出力部、５０…記憶部、５１…学習モデル、５２…最適化パラメータ、５３…局所領域情報、５４…プログラム、６１…ＣＰＵ、６２…メモリ、６３…ＧＰＵ、７０…バス、１００…アノテーションシステム

Claims

コンピュータを、
画像の内容を表す識別情報が既知の画像である学習用画像から複数の特徴量を抽出し、バイナリ識別器を用いて前記複数の特徴量を分類し、前記識別情報と前記特徴量とを対応
付けるための学習モデルを前記識別情報及び前記特徴量の種類毎に作成する作成手段と、
前記識別情報の条件付確率を求める計算式をシグモイド関数で近似し、前記識別情報の条件付確率が最大となるように前記シグモイド関数のパラメータを最適化することで前記識別情報毎に前記学習モデルを最適化する最適化手段として機能させるための学習モデル作成プログラム。
前記最適化手段は、前記シグモイド関数のパラメータを同一の識別情報の範囲で共通化して前記学習モデルを最適化する請求項１に記載の学習モデル作成プログラム。
前記シグモイド関数は、以下の式（ただし、ｆは特徴量、Ａ、Ｂはパラメータである。）

である、請求項１に記載の学習モデル作成プログラム。
コンピュータを、
画像の内容を表す識別情報が既知の画像である学習用画像から複数の特徴量を抽出し、バイナリ識別器を用いて前記複数の特徴量を分類し、前記識別情報と前記特徴量とを対応付けるための学習モデルを作成する作成手段と、
前記識別情報の条件付確率を求める計算式をシグモイド関数で近似し、前記識別情報の条件付確率が最大となるように前記シグモイド関数のパラメータを最適化することで前記識別情報毎に前記学習モデルを最適化する最適化手段と、
識別情報が未知の画像である未知画像から複数の特徴量を抽出する特徴量抽出手段と、
前記特徴量抽出手段によって抽出された前記複数の特徴量、及び前記最適化手段によって最適化された前記学習モデルを用いて前記対象画像に対して識別情報を付与する識別情報付与手段として機能させるための画像識別情報付与プログラム。
前記シグモイド関数は、以下の式（ただし、ｆは特徴量、Ａ、Ｂはパラメータである。）

である、請求項４に記載の画像識別情報付与プログラム。
識別情報が既知の学習用画像から複数の特徴量を抽出し、バイナリ識別器を用いて前記複数の特徴量を分類し、前記識別情報と前記特徴量とを対応付けるための学習モデルを作成する作成手段と、
前記識別情報の条件付確率を求める計算式をシグモイド関数で近似し、前記識別情報の条件付確率が最大となるように前記シグモイド関数のパラメータを最適化することで前記識別情報毎に前記学習モデルを最適化する最適化手段とを備えた学習モデル作成装置。
前記シグモイド関数は、以下の式（ただし、ｆは特徴量、Ａ、Ｂはパラメータである。）

である、請求項６に記載の学習モデル作成装置。
画像の内容を表す識別情報が既知の画像である学習用画像から複数の特徴量を抽出し、バイナリ識別器を用いて前記複数の特徴量を分類し、前記識別情報と前記特徴量とを対応付けるための学習モデルを作成する作成手段と、
前記識別情報の条件付確率を求める計算式をシグモイド関数で近似し、前記識別情報の条件付確率が最大となるように前記シグモイド関数のパラメータを最適化することで前記識別情報毎に前記学習モデルを最適化する最適化手段と、
識別情報が未知の画像である未知画像から複数の特徴量を抽出する特徴量抽出手段と、
前記特徴量抽出手段によって抽出された前記複数の特徴量、及び前記最適化手段によって最適化された前記学習モデルを用いて前記対象画像に対して識別情報を付与する識別情報付与手段とを備えた画像識別情報付与装置。
前記シグモイド関数は、以下の式（ただし、ｆは特徴量、Ａ、Ｂはパラメータである。）

である、請求項８に記載の画像識別情報付与装置。