JP5565190B2 - 学習モデル作成プログラム、画像識別情報付与プログラム、学習モデル作成装置及び画像識別情報付与装置 - Google Patents

学習モデル作成プログラム、画像識別情報付与プログラム、学習モデル作成装置及び画像識別情報付与装置 Download PDF

Info

Publication number
JP5565190B2
JP5565190B2 JP2010180262A JP2010180262A JP5565190B2 JP 5565190 B2 JP5565190 B2 JP 5565190B2 JP 2010180262 A JP2010180262 A JP 2010180262A JP 2010180262 A JP2010180262 A JP 2010180262A JP 5565190 B2 JP5565190 B2 JP 5565190B2
Authority
JP
Japan
Prior art keywords
identification information
learning model
image
feature
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010180262A
Other languages
English (en)
Other versions
JP2012038244A (ja
Inventor
文渊 戚
典司 加藤
基文 福井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2010180262A priority Critical patent/JP5565190B2/ja
Priority to US13/040,032 priority patent/US20120039527A1/en
Publication of JP2012038244A publication Critical patent/JP2012038244A/ja
Application granted granted Critical
Publication of JP5565190B2 publication Critical patent/JP5565190B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、学習モデル作成プログラム、画像識別情報付与プログラム、学習モデル作成装置及び画像識別情報付与装置に関する。
近年、画像アノテーション技術は、画像データベース管理における画像検索システム、画像認識システムなどのための一つの重要な技術となっている。この画像アノテーション技術により、ユーザは、例えば、必要とする画像と近い特徴量を持つ画像を検索できる。一般的な画像アノテーション技術では、画像領域から特徴量を抽出し、対象の特徴に対して予め学習しておいた画像特徴の中から最も近いと判断した画像のアノテーションを付与する。
画像アノテーション技術としては、学習用画像に対して分割した領域から複数の特徴量を抽出し、領域ごとに代表特徴量により量子化して特徴量を分類し、同一分類に属する特徴量ベクトルに対して付与されているラベルの出現頻度によって事前確率P(Li)の推定を行い、推定したP(Li)を用いて最大事後確率P(Li|Ck)を計算し、ラベル尤度の高い順にラベルを推定する手法が提案されている(例えば、特許文献1参照)。特徴量の分類には、一般にバイナリ識別器が用いられる。
画像全体についてのラベル尤度P(Li|Image)は、ラベルをLi、領域kに属する代表特徴量をCk、領域数をSとすると、以下の(数1)により表される。
特開2000−353173号公報
本発明の課題は、バイナリ識別器を用いて作成した学習モデルよりも未知画像に対して信頼性の高い識別情報を付与することが可能な学習モデルを作成することができる学習モデル作成プログラム及び学習モデル作成装置を提供することである。また、本発明の課題は、バイナリ識別器を用いて作成した学習モデルを用いた場合よりも未知画像に対して信頼性の高い識別情報を付与することができる画像識別情報付与プログラム及び画像識別情報付与装置を提供することである。
[1]コンピュータを、画像の内容を表す識別情報が既知の画像である学習用画像から複数の特徴量を抽出し、バイナリ識別器を用いて前記複数の特徴量を分類し、前記識別情報と前記特徴量とを対応付けるための学習モデルを前記識別情報及び前記特徴量の種類毎に作成する作成手段と、前記識別情報の条件付確率を求める計算式をシグモイド関数で近似し、前記識別情報の条件付確率が最大となるように前記シグモイド関数のパラメータを最適化することで前記識別情報毎に前記学習モデルを最適化する最適化手段として機能させるための学習モデル作成プログラム。
[2]前記最適化手段は、前記シグモイド関数のパラメータを同一の識別情報の範囲で共
通化して前記学習モデルを最適化する前記[1]に記載の学習モデル作成プログラム。
[3]前記シグモイド関数は、以下の式(ただし、fは特徴量、A、Bはパラメータである。)

である、前記[1]に記載の学習モデル作成プログラム。
]コンピュータを、画像の内容を表す識別情報が既知の画像である学習用画像から複数の特徴量を抽出し、バイナリ識別器を用いて前記複数の特徴量を分類し、前記識別情報と前記特徴量とを対応付けるための学習モデルを作成する作成手段と、前記識別情報の条件付確率を求める計算式をシグモイド関数で近似し、前記識別情報の条件付確率が最大となるように前記シグモイド関数のパラメータを最適化することで前記識別情報毎に前記学習モデルを最適化する最適化手段と、識別情報が未知の画像である未知画像から複数の特徴量を抽出する特徴量抽出手段と、前記特徴量抽出手段によって抽出された前記複数の特徴量、及び前記最適化手段によって最適化された前記学習モデルを用いて前記対象画像に対して識別情報を付与する識別情報付与手段として機能させるための画像識別情報付与プログラム。
[5]前記シグモイド関数は、以下の式(ただし、fは特徴量、A、Bはパラメータである。)

である、前記[4]に記載の画像識別情報付与プログラム。
]識別情報が既知の学習用画像から複数の特徴量を抽出し、バイナリ識別器を用いて前記複数の特徴量を分類し、前記識別情報と前記特徴量とを対応付けるための学習モデルを作成する作成手段と、前記識別情報の条件付確率を求める計算式をシグモイド関数で近似し、前記識別情報の条件付確率が最大となるように前記シグモイド関数のパラメータを最適化することで前記識別情報毎に前記学習モデルを最適化する最適化手段とを備えた学習モデル作成装置。
[7]前記シグモイド関数は、以下の式(ただし、fは特徴量、A、Bはパラメータである。)

である、前記[6]に記載の学習モデル作成装置。
]画像の内容を表す識別情報が既知の画像である学習用画像から複数の特徴量を抽出し、バイナリ識別器を用いて前記複数の特徴量を分類し、前記識別情報と前記特徴量とを対応付けるための学習モデルを作成する作成手段と、前記識別情報の条件付確率を求める計算式をシグモイド関数で近似し、前記識別情報の条件付確率が最大となるように前記シグモイド関数のパラメータを最適化することで前記識別情報毎に前記学習モデルを最適化する最適化手段と、識別情報が未知の画像である未知画像から複数の特徴量を抽出する特徴量抽出手段と、前記特徴量抽出手段によって抽出された前記複数の特徴量、及び前記最適化手段によって最適化された前記学習モデルを用いて前記対象画像に対して識別情報を付与する識別情報付与手段とを備えた画像識別情報付与装置。
[9]前記シグモイド関数は、以下の式(ただし、fは特徴量、A、Bはパラメータである。)

である、前記[8]に記載の画像識別情報付与装置。
請求項1、3、8、9に記載の発明によれば、バイナリ識別器を用いて作成した学習モデルよりも未知画像に対して信頼性の高い識別情報を付与することが可能な学習モデルを作成することができる。
請求項2に記載の発明によれば、シグモリド関数を用いて、識別器が特徴量を0/1ではなく、確率的に分類することができる。
請求項4、5に記載の発明によれば、本構成を採用しない場合と比べて計算量を少なくする
ことができる。
請求項6、7に係る発明によれば、バイナリ識別器を用いて作成した学習モデルを用いた場合よりも未知画像に対して信頼性の高い識別情報を付与することができる。
図1は、本発明の実施の形態に係るアノテーションシステムの構成の一例を示すブロック図である。 図2は、画像識別情報の付与方法の一例を示すフローチャートである。 図3は、学習フェーズの具体的な流れの一例を示すフローチャートである。 図4は、最適化フェーズの具体的な流れの一例を示すフローチャートである。 図5は、検証フェーズの具体的な流れの一例を示すフローチャートである。 図6は、更新フェーズの流れの一例を示すフローチャートである。 図7は、検証フェーズの具体例を示す図である。 図8は、量子化の一例を示す図である。 図9は、シグモイド(sigmoid)関数とパラメータAの関係の一例を示す図である。
図1は、本発明の実施の形態に係る学習モデル作成装置及び画像識別情報付与装置が適用されたアノテーションシステムの構成の一例を示すブロック図である。
このアノテーションシステム100は、ラベル(識別情報)を付けたい未知画像(以下、「クエリ画像」ともいう。)を受け付ける入力部31と、特徴生成部32と、確率推定部33と、識別器群作成部10と、最適化部20と、ラベル付け部30と、修正・更新部40と、出力部41とを有する。特徴生成部32、確率推定部33、識別器群作成部10、最適化部20、ラベル付け部30及び修正・更新部40は、バス70を介して接続される。
アノテーションシステム100は、学習コーパス1の学習用画像から抽出した複数種類の特徴量を最適化し、高いアノテーション精度を達成するため、改良型バイナリ識別モデルを用いて、複数種類の特徴量に対する識別器群を作成し、シグモイド(sigmoid)関数による複数種類の識別器群を確率化して、最適化された重み付け係数で特徴量とアノテーションの尤度を最大化する。
本明細書において、「アノテーション」とは、画像全体に対してラベルを付けることをいう。「ラベル」は、画像の全体又は部分領域の内容を表す識別情報である。
識別器群作成部10、最適化部20、ラベル付け部30、特徴生成部32、確率推定部33及び修正・更新部40は、後述するCPU61がプログラム54に従って動作することにより実現することができる。なお、識別器群作成部10、最適化部20、ラベル付け部30、特徴生成部32、確率推定部33及び修正・更新部40の全部又は一部をASIC等のハードウエアによって実現してもよい。
識別器群作成部10は、作成手段の一例であり、識別情報が既知の学習用画像から複数の特徴量を抽出し、バイナリ識別器を用いて複数の特徴量を分類し、識別情報と特徴量とを対応付けるための学習モデルを識別情報及び特徴量の種類毎に作成する。
最適化部20は、最適化手段の一例であり、複数の特徴量の相関に基づいて識別情報毎に識別器群作成部10によって作成された学習モデルを最適化する。具体的には、最適化部20は、識別情報の条件付確率を求める計算式をシグモイド関数で近似し、識別情報の条件付確率が最大となるようにシグモイド関数のパラメータを最適化することで学習モデルを最適化する。
入力部31は、マウス、キーボード等の入力デバイスを備え、表示プログラムの出力は外部表示設備(図示しない)にて行う。入力部31には、一般的な画像の操作(例えば、移動、色の修正、変形、保存フォーマットの変換など)だけでなく、選択されたクエリ画像又はインターネットを介してダウロードされたクエリ画像に対して、予測アノテーションを修正する機能をも有する。すなわち、入力部31は、より高精度のアノテーションを達成するために、現在の結果を考慮して、認識結果を修正する手段も提供する。
出力部41は、液晶ディスプレイ等の表示デバイスを備え、クエリ画像に対するアノテーション結果を表示する。また、出力部41は、キエリ画像の部分領域に対するラベリングを表示する機能をも有する。また、出力部41は、表示画面で様々な選択肢を提供するので、希望する機能のみを選択して結果を表示できる。
修正・更新分40は、ラベルを付けた画像を使って、自動的に学習コーパス1及び予め備えたアノテーション辞書を更新することにより、システムのスケールが増加しても、計算スピードとアノテーション時間を落とすことなく、認識精度を向上できる。
記憶部50は、予め備えた学習コーパス1以外に、クエリ画像(図示しない)と、学習モデル51と、最適化パラメータ52と、局所領域情報53と、プログラム54と、コードブック群55とを記憶する。クエリ画像は、アノテーションを付けたい画像及びその画像に関する付加的な情報(例えば、回転、スケール変換、色修正など)を保持する。記憶部50は、容易にアクセスでき、計算量を減らすために、特徴量を計算する際に局所領域情報53もデータベースとして記憶する。
予め備えた学習コーパス1は、学習用画像と学習用画像全体に対するラベルが対になったものである。
また、本アノテーションシステム100は、通常のシステムで必要となるCPU61、メモリ61、ハードデスクなどの記憶部50、GPU(Graphics Processing Unit)63等を備える。CPU61とGPU63は、計算を並列化できるという特性を有し、画像データの分析を効果的に行うシステムを目指すために重要である。CPU61、メモリ61、記憶部50、GPU63は、バス70を介して接続される。
(アノテーションシステムの動作)
図2は、本アノテーションシステムの全体の動作の一例を示すフローチャートである。本アノテーションシステム100は、大きく4つの段階、すなわち学習フェーズ(S10)、最適化フェーズ(S20)、検証フェーズ(S30)及び更新フェーズ(S40)を有する。
図3は、学習フェーズの具体的な流れの一例を示す図である。最初に、学習フェーズについて説明する。
(1)学習フェーズ
図3に示すように、学習フェーズでは、学習コーパス1の学習用画像から様々な特徴量を抽出し、識別器を用いて学習モデルを構築する。学習フェーズでは、構築した学習モデルを再利用するために、学習モデルの各種パラメータを学習モデルデータベースに保存する。学習モデルの各種パラメータは、後述する表2に示すように、学習モデルマトリクス51の形式で保存する。
(1−1)局所領域の分割
まず、識別器群作成部10は、学習コーパス1の学習用画像IをFH法、Meanshift法等の既存の領域分割手法を用いて複数の局所領域に分割し、局所領域の位置情報を局所領域情報53として記憶部50に記憶する。FH法は、例えばP.F. Felzenszwalb and D.P. Huttenlocher. “Efficient Graph-Based Image Segmentation”. International Journal of Computer Vision, 59(2):167-181, 2004.に開示されている。MeanShift法は、例えばD. Comaniciu and P. Meer. “Mean shift: A robust approach toward feature space analysis”. IEEE Trans. Pattern Anal. Machine Intell., 24:603-619, 2002.に開示されている。
(1−2)特徴量の抽出
次に、識別器群作成部10は、各局所領域からそれぞれ複数種類の特徴量を抽出する。特徴量は、本実施の形態では、RGB、normalized−RG、HSV、LAB、robustHue特徴量(van de Weijer, C. Schmid, “Coloring Local Feature Extraction”, ECCV 2006を参照)、Gabor特徴量、DCT特徴量、SIFT特徴量(D. G. Lowe, “Object recognition from local scale invariant features”, Proc. of IEEE International Conference on Computer Vision (ICCV), pp.1150-1157, 1999.を参照)及びGIST特徴量(A. Oliva and A. Torralba. “Modeling the shape of the scene: a holistic representation of the spatial envelope”, International Journal of Computer Vision, 42(3):145-175, 2001.を参照)の合わせて9種類の特徴量を用いるが、いかなる特徴を用いてもよい。ここで、GIST特徴量のみは局所領域ではなく、大域領域(画像全体など)から抽出される。このとき、特徴ベクトルの数は、領域数(S)×特徴量の種類(N)である。各特徴ベクトルTの次元数は、特徴量の種類によって異なる。
(1−3)代表特徴量集合の算出
図3に示すように、識別器群作成部10は、特徴量Tに「1」を入力する(S11)。次に、識別器群作成部10は、学習コーパス1全体から周知のK−Meansクラスタリングによって特徴量の種類Tの局所特徴量を抽出し(S12)、特徴量の種類T毎に代表特徴量集合を算出する(S13)。この算出結果は、コードブック群55のデータベースに格納する(このデータベースは代表特徴空間と呼ばれる)。ここで、コードブック群55の種類と特徴量の種類は同じくNであり、各コードブックの次元数は予め設定したCとする。
表1は、コードブック群55の構成を示している。表1において、Vijは種類iに対するコードブック群55のj番目の代表特徴量ベクトルを意味する。
(1−4)量子化
次に、識別器群作成部10は、学習用画像Iのある種類の特徴量ベクトル集合に対して、同じ種類のコードブックを用いて量子化プロセスを行い、ヒストグラムを作る(S14)。このとき、学習用画像Iに対して、量子化特徴量ベクトルT’の数は、領域数(S)×特徴量の種類(N)であり、各ベクトルT’の次元数は、コードブックの次元数と同じ(C)になる。
表2は、S個の局所領域で分割された学習用画像Iにおける量子化された特徴量の構成を示している。表2において、T’ijは、種類iのコードブックによる局所領域jで量子化された特徴量を意味する。
(1−5)学習モデル群の生成
次に、学習フェーズは、上記生成された各種類の特徴量を用いて、SVM識別器により学習モデル群を生成する(S15)。ラベル毎に生成された学習モデル群の数はNである。ある学習モデル群に対して、1対L−1のL個バイナリSVM識別器による学習モデルを使う。ここで、Lはクラスの種類、すなわち予め揃えたラベルの数である。そして、学習モデル群を最適化フェーズに適用するために、このステップで生成した学習モデル群は、予め備えたラベルごとに、学習モデルマトリクス51というデータベースに格納しておく。このとき、学習モデルマトリクスのサイズは、特徴量の種類(N)×予め揃えたラベルの数(L)である。
表3は、学習モデルマトリクスの具体的な構成を示している。アクセスすることを容易にするために、モデルのフォーマットは、全てXML形式とする。また、Mijは、ラベルLiに対する種類jの複数の特徴量から学習した学習モデルを意味する。
学習フェーズは、特徴量の種類Tに「1」を加算してS12へ戻り、特徴量の全てN種類の処理が終わるまでS12からS15までの処理を繰り返す(S16)。ここまでが、学習フェーズである。最適化フェーズでは、学習フェーズにおいて計算した学習モデル群に対して、最適化部20は、ラベル毎にsigmoidモデルを用いて学習モデルを最適化する(S18)。この最適化フェーズでは、異なる種類の特徴間の影響も考慮して、さらに強い識別器を構成することで、最適化パラメータを出力する。この機能は、本システムの最も核心部分である。
(2)最適化フェーズ
図4は、最適化フェーズの具体的な流れの一例を示す図である。この最適化フェーズでは、異なる種類の特徴間の影響も考慮して、さらに強い識別器を構成することで、最適化パラメータを出力する。
最適化フェーズは、確率テーブルを作成ための準備プロセス及び学習モデル最適化部から構成される。最適化部20は、画像の物理的な複数種類の特徴情報と意味的情報の対応関係を構築するために、条件付確率P(Li|T’,・・・,T’)が最大となるようにラベルを推定する。ここで、Liはラベルであり、T’は表2に示す量子化した特徴量である。
仮に、学習フェーズにおいて通常のバイナリSVM識別器を用いて学習すると、特徴量fは以下の(数2)により表され、結果は0か1しかないので、確率分布を計算することができないという問題があるため、識別器を確率化することが必要ある。
ここで、SVM識別器に対する学習データは、特徴量xと、xがラベルLiに属するか属さないかのバイナリクラスから構成する。

ここで、y=−1はxがラベルLiに属さないことを、y=+1はxがラベルLiに属することを意味する。Kはカーネル関数であり、αとbは学習モデルの構成要素(パラメータ)である。このαとbは、以下の(数4)計算式(4)により最適化する。
ここで、wは、特徴量xの重みベクトル、パラメータζは、不等式制約を等式制約に変換するために導入するスラック変数であり、パラメータγが特定問題に対してある値域内の値を働くのに従い、(w・w)は対応する値域を平滑に変化する。また、x、y、αとbは、上記(数2)と同一である。
確率的なラベル分類結果を得るために、本実施の形態は文献「Probabilistic Outputs for SVM and Comparisons to Regularized Likelihood Methods;John C. Platt March 26,1999」に従って、ラベルに対する確率的な判別を行う。上記文献においては、識別器の識別関数の代わりに、以下の(数5)に示す決定関数によって条件付確率を計算する。
本実施の形態は、あるラベルLiに対して、以下の(数6)を最小化した後に、条件付確率を計算する。
ここで、pは、以下の(数7)により表され、tは、以下の(数8)により表される。

ここで、Nはy=+1のサンプルの数であり、Nはy=−1のサンプルの数である。上記(数7)において、パラメータAとBを学習し、さらにテストフェーズにおける事後確率テーブルを作成した上で、ラベリングを推定する。
本アノテーションシステム100の最適化フェーズでは、学習フェーズにおいて各種類の特徴量について最適化された学習モデル群の最適化を実施する。最適化部20は、学習コーパス1に対して、各特徴量からの影響力を考慮して最適化する。本アノテーションシステム100は、予め学習することにより学習モデルに重みを付ける。すなわち、本アノテーションシステム100は、識別器の決定関数(上記(数5))によって改良したsigmoidモデルで得られた重み係数ベクトル(A,B)を用いることにより、条件付確率を算出した上で、さらに高い精度のアノテーションを付与することができる。この点は、上記文献に記載された従来技術と根本的な相違点である。
(実施例1)
実施例1として、ラベルの事後確率を上記(数7)から以下の(数9)のように変形する。
上記(数9)において、f ijは、表3に示す学習モデルマトリクス行のi番目、列のj番目のモデルの決定関数において、表2の種類jの特徴量T’jkを入力としたときの出力値(0〜1)である。すなわち、最適化部20は、上記(数9)によって上記(数6)の最小値を見つけて、ラベル毎に学習モデルを最適化する。上記(数9)における最適化パラメータAijとBijは、上記(数7)のパラメータA,Bとは別のパラメータである。そして、最適化部20は、バックトラッキング線形探索法(backtracking linear search)を用いたニュートン法によって(Nocedal,J. and S.J.Wright: “Numerical Optimization” Algorithm 6.2. New York, NY: Springer- Verlag, 1999.を参照)、sigmoidパラメータベクトルAijとBijを学習し、後述の検証(テスト)フェーズにおいて、ラベル付け部30が事後確率テーブルを作成した上で、ラベリングを推定する。
図4に示すように、最適化部20は、sigmoid関数によるモデル最適化(S21)を、全てのラベルの処理が終わるまで繰り返し行う(S22、S23)。この最適化ステップは、生成された二つパラメータベクトルAijとBijを、学習モデルの一部として最適化パラメータ52のデータベースに格納する(S24)。以上が最適化フェーズである。
(実施例2)
上記(数9)において、最適化パラメータの数は2×L×Nであるので、最適化フェーズで複雑なマトリックス計算が必要となる。この計算時間を減らすために、本実施例2では、sigmoidのパラメータを同一のラベル範囲で共通化して、計算量を減らしている。実施例2では、以下の(数10)と(数11)に従って、学習モデルのパラメータを最適化する。

ここで、iはラベルのインデックスであり、kは学習サンプルのインデックスである。また、実施例2では、パラメータの数が2×L×Nから2×Nに減り、計算量が1/Lに減少する。
(3)検証フェーズ
図5は、検証フェーズの具体的な流れの一例を示す。次に、検証フェーズでは、レベル付け部30が最適化フェーズで生成した最適化パラメータを用いて、画像に最終的なアノテーションを付ける。検証フェーズでは、未知画像U(ラベルを付けたい画像)にラベリングする。特徴量の抽出ステップは学習フェーズと同様である。すなわち、特徴生成部32によりクエリ画像を分割し、分割した局所領域から複数種類の特徴量を抽出し、局所特徴量を計算する(S31)。特徴量の種類1〜N毎の特徴量集合を算出する(S32)。
局所領域においてラベルに対する確率分布テーブルの計算方法を以下の(数12)に示す。
ここで、Nは特徴量の種類であり、iは付けたいラベルの番号である。検証ステップでは、上記(数12)のパラメータAとBに、実施例1のパラメータAijとBij又は実施例2のパラメータAとBを用いる。
そして、ラベル付け部30は、ラベルによる複数の局所領域の確率分布テーブルに重みを付けて、画像全体における確率マップを以下の(数13)に基づいて作成する。

ここで、ωkは局所領域による重み係数であり、Riは意味的なラベルLiが発生する確率である。ωkの一例としてωk局所領域kの面積が考えられる。また一定値でもよい。算出したラベルの発生確率によって、ユーザから指定されたしきい値で上位いくつかのラベルを未知画像Uに添付して、出力部41に表示する。
(5)更新フェーズ
図6は、更新フェーズの流れの一例を示す図である。更新フェーズでは、ユーザインタフェースにより修正したいアノテーションを指定して(S41、S42)、本システムの学習フェーズをもう一度利用して、修正・更新部40は、学習モデルとパラメータを最適化する(S43)。そして修正・更新部40は、学習コーパス1の更新をしたときに、この学習コーパス1を使用するために学習モデルマトリクス51、ラベル辞書2なども更新する(S44)。このとき、修正・更新部40は、修正したアノテーションがラベル辞書2に載ってない場合、新規なラベルをアノテーションの結果として登録しておく。
修正・更新部40は、アノテーションの性能を向上させるために、未知画像情報を学習コーパス1に追加する。その際に、更新フェーズは、学習コーパス1にできる限りノイズが入らないように、付与されたラベルのうち、精度が良くないラベルを廃棄することが必要である。その上で、修正・更新部40は、未知画像をその修正したラベルと共に、学習コーパス1に格納する。
(検証フェーズの具体例)
図7は、検証フェーズの具体例を示す図である。図7において、アノテーションの種類は、例えば、5種類であり(L=5、flower、petals、leaf、sky、tiger)、画像の分割領域数は9であり(S=9)、各領域による局所特徴量の種類は3である(N=3;特徴量は色のLab、テクスチャのSIFT(Scale Invariant Feature Transform)、形状のGaborの3種類)。
図7に示す検証フェーズでは、クエリ画像3を9個の局所領域3aに分割する。検証フェーズは、各局所領域3aから3種類の局所特徴量を抽出して(S31、S32)、それぞれを各特徴量に対応したコードブックを用いて、量子化を行う(S33)。
次に、検証フェーズは、局所領域3a内で、量子化された特徴量のヒストグラムを生成し、識別のための特徴量とする。そして、その特徴量を用いて、本実施の形態の識別器で各局所領域3aにおけるアノテーションの確率を算出し、これを各局所領域3aについて平均して画像のアノテーションとする。図7の場合、「petals」、「leaf」、「flower」の各ラベル4がアノテーション結果である。
また、表4は、局所特徴量を例えば500個の状態に量子化するためのコードブック群55であり、各コードブックは500の代表特徴量を持つ。
表4の各欄において、括弧の中は、局所特徴量のベクトル成分であり、括弧の右下の数字は、ベクトルの次元数である。局所特徴量の次元数は、特徴量の種類によって異なる。
図8は、量子化の一例を示す図である。同図は、色特徴量Labに対する、局所領域8に抽出された局所特徴量の量子化の流れを示す。次に、コードブックによって、各領域から生成された局所特徴量を量子化する方法を説明する。量子化の手法は、領域中のサンプリングポイントから局所Lab特徴量を抽出して、表4のコードブック−Lab中の代表特徴量の中で、最も近い代表特徴量を求め、その量子化番号を求める。量子化の手法は、最後に、局所領域8中の量子化番号のヒストグラムを生成する。
量子化の手法は、他の領域も同じように、特徴の種類ごとに量子化された特徴量を作成する。具体例を表5に示す。
ここで、各特徴量の次元数は、コードブック数と同じ500である。
そして、検証フェーズでは、量子化特徴量をすべての学習画像に対して求め、これを用いて、SVM識別器を各レベル、各特徴量に対して学習する(S34)。学習されたモデルの具体例を表6に示す。各学習モデルは、パラメータα、bとSVMのサポートベクターから構成される。
次に、パラメータAとBの計算方法を説明する。まず、すべての学習サンプルに対して、学習したモデルマトリクスのパラメータ及び上記(数5)を用いて、識別関数の出力fを求める。さらに、上記(数9)又は改良された上記(数11)によって、パラメータAとBを計算する。ここで、パラメータAとBは、上記(数9)のパラメータAijとBij又は改良された上記(数11)のAとBと同じである。
図9は、シグモイド(sigmoid)関数とパラメータAの関係の一例を示す図である。ここで、パラメータAの意味について説明する。上記(数9)又は(数11)の関数の特性から、パラメータAが小さいほど、その特徴量を用いた識別器がアノテーションに有効であることが分かる。
(比較例)
表7は、比較例のパラメータAを示す。
表8は、本実施の形態のパラメータAの具体例を示す。
比較例では、表7に示すように、どのラベルにおいても学習したパラメータAが比較的大きく、その結果、アノテーション性能が不十分になる。
これに対して、本実施の形態では、ラベルによって、特定の特徴量に対して、Aの値が小さくなっている。例えば、表8において、ラベル「sky」では、色の識別器(Lab)に対するパラメータAが小さくなっており、ラベル「leaf」とラベル「sky」を識別するために、色の特徴が有効となるように、最適化されていることが分かる。同様に、ラベル「petal」に対しては、テクスチャ(SIFT)が有効となっていることが分かる。これにより、本アノテーションシステムでは、ラベルごとに有効な特徴を自動的に選択でき、アノテーション性能が向上する。
最後に、本アノテーションシステムは、検証フェーズで最適化したパラメータによって、上記(数12)及び(数13)を用いて、算出したラベルの発生確率によって(S35、S36)、ユーザから指定されたしきい値に基づいて、上位いくつかのラベルを未知画像に添付して(S37)、出力部41に表示する。
[他の実施の形態]
なお、本発明は、上記実施の形態に限定されず、発明の要旨を逸脱しない範囲で種々に変形が可能である。例えば、上記実施の形態で用いたプログラムをCD−ROM等の記録媒体に記憶して提供することもできる。また、上記実施の形態で説明した上記ステップの入替え、削除、追加等は可能である。
1…学習コーパス、2…ラベル辞書、3…クエリ画像、3a…局所領域、4…ラベル、10…識別器群作成部、20…最適化部、30…ラベル付け部、31…入力部、32…特徴生成部、33…確率推定部、40…修正・更新部、41…出力部、50…記憶部、51…学習モデル、52…最適化パラメータ、53…局所領域情報、54…プログラム、61…CPU、62…メモリ、63…GPU、70…バス、100…アノテーションシステム

Claims (9)

  1. コンピュータを、
    画像の内容を表す識別情報が既知の画像である学習用画像から複数の特徴量を抽出し、バイナリ識別器を用いて前記複数の特徴量を分類し、前記識別情報と前記特徴量とを対応
    付けるための学習モデルを前記識別情報及び前記特徴量の種類毎に作成する作成手段と、
    前記識別情報の条件付確率を求める計算式をシグモイド関数で近似し、前記識別情報の条件付確率が最大となるように前記シグモイド関数のパラメータを最適化することで前記識別情報毎に前記学習モデルを最適化する最適化手段として機能させるための学習モデル作成プログラム。
  2. 前記最適化手段は、前記シグモイド関数のパラメータを同一の識別情報の範囲で共通化して前記学習モデルを最適化する請求項1に記載の学習モデル作成プログラム。
  3. 前記シグモイド関数は、以下の式(ただし、fは特徴量、A、Bはパラメータである。)

    である、請求項1に記載の学習モデル作成プログラム。
  4. コンピュータを、
    画像の内容を表す識別情報が既知の画像である学習用画像から複数の特徴量を抽出し、バイナリ識別器を用いて前記複数の特徴量を分類し、前記識別情報と前記特徴量とを対応付けるための学習モデルを作成する作成手段と、
    前記識別情報の条件付確率を求める計算式をシグモイド関数で近似し、前記識別情報の条件付確率が最大となるように前記シグモイド関数のパラメータを最適化することで前記識別情報毎に前記学習モデルを最適化する最適化手段と、
    識別情報が未知の画像である未知画像から複数の特徴量を抽出する特徴量抽出手段と、
    前記特徴量抽出手段によって抽出された前記複数の特徴量、及び前記最適化手段によって最適化された前記学習モデルを用いて前記対象画像に対して識別情報を付与する識別情報付与手段として機能させるための画像識別情報付与プログラム。
  5. 前記シグモイド関数は、以下の式(ただし、fは特徴量、A、Bはパラメータである。)

    である、請求項4に記載の画像識別情報付与プログラム。
  6. 識別情報が既知の学習用画像から複数の特徴量を抽出し、バイナリ識別器を用いて前記複数の特徴量を分類し、前記識別情報と前記特徴量とを対応付けるための学習モデルを作成する作成手段と、
    前記識別情報の条件付確率を求める計算式をシグモイド関数で近似し、前記識別情報の条件付確率が最大となるように前記シグモイド関数のパラメータを最適化することで前記識別情報毎に前記学習モデルを最適化する最適化手段とを備えた学習モデル作成装置。
  7. 前記シグモイド関数は、以下の式(ただし、fは特徴量、A、Bはパラメータである。)

    である、請求項6に記載の学習モデル作成装置。
  8. 画像の内容を表す識別情報が既知の画像である学習用画像から複数の特徴量を抽出し、バイナリ識別器を用いて前記複数の特徴量を分類し、前記識別情報と前記特徴量とを対応付けるための学習モデルを作成する作成手段と、
    前記識別情報の条件付確率を求める計算式をシグモイド関数で近似し、前記識別情報の条件付確率が最大となるように前記シグモイド関数のパラメータを最適化することで前記識別情報毎に前記学習モデルを最適化する最適化手段と、
    識別情報が未知の画像である未知画像から複数の特徴量を抽出する特徴量抽出手段と、
    前記特徴量抽出手段によって抽出された前記複数の特徴量、及び前記最適化手段によって最適化された前記学習モデルを用いて前記対象画像に対して識別情報を付与する識別情報付与手段とを備えた画像識別情報付与装置。
  9. 前記シグモイド関数は、以下の式(ただし、fは特徴量、A、Bはパラメータである。)

    である、請求項8に記載の画像識別情報付与装置。
JP2010180262A 2010-08-11 2010-08-11 学習モデル作成プログラム、画像識別情報付与プログラム、学習モデル作成装置及び画像識別情報付与装置 Expired - Fee Related JP5565190B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2010180262A JP5565190B2 (ja) 2010-08-11 2010-08-11 学習モデル作成プログラム、画像識別情報付与プログラム、学習モデル作成装置及び画像識別情報付与装置
US13/040,032 US20120039527A1 (en) 2010-08-11 2011-03-03 Computer-readable medium storing learning-model generating program, computer-readable medium storing image-identification-information adding program, learning-model generating apparatus, image-identification-information adding apparatus, and image-identification-information adding method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010180262A JP5565190B2 (ja) 2010-08-11 2010-08-11 学習モデル作成プログラム、画像識別情報付与プログラム、学習モデル作成装置及び画像識別情報付与装置

Publications (2)

Publication Number Publication Date
JP2012038244A JP2012038244A (ja) 2012-02-23
JP5565190B2 true JP5565190B2 (ja) 2014-08-06

Family

ID=45564865

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010180262A Expired - Fee Related JP5565190B2 (ja) 2010-08-11 2010-08-11 学習モデル作成プログラム、画像識別情報付与プログラム、学習モデル作成装置及び画像識別情報付与装置

Country Status (2)

Country Link
US (1) US20120039527A1 (ja)
JP (1) JP5565190B2 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8463053B1 (en) 2008-08-08 2013-06-11 The Research Foundation Of State University Of New York Enhanced max margin learning on multimodal data mining in a multimedia database
JP5521881B2 (ja) * 2010-08-12 2014-06-18 富士ゼロックス株式会社 画像識別情報付与プログラム及び画像識別情報付与装置
US8560517B2 (en) * 2011-07-05 2013-10-15 Microsoft Corporation Object retrieval using visual query context
CN102819844A (zh) * 2012-08-22 2012-12-12 上海海事大学 适用于移动机器人相对运动估计的激光粒子影像配准方法
JP5880454B2 (ja) * 2013-01-11 2016-03-09 富士ゼロックス株式会社 画像識別装置及びプログラム
US9754177B2 (en) * 2013-06-21 2017-09-05 Microsoft Technology Licensing, Llc Identifying objects within an image
JP6355372B2 (ja) * 2014-03-17 2018-07-11 国立大学法人豊橋技術科学大学 三次元モデル特徴抽出方法、及び三次元モデル・アノテーションシステム
US10467259B2 (en) 2014-06-17 2019-11-05 Maluuba Inc. Method and system for classifying queries
US9715486B2 (en) * 2014-08-05 2017-07-25 Linkedin Corporation Annotation probability distribution based on a factor graph
US9842390B2 (en) * 2015-02-06 2017-12-12 International Business Machines Corporation Automatic ground truth generation for medical image collections
JP6437902B2 (ja) * 2015-09-18 2018-12-12 富士フイルム株式会社 画像抽出システム,画像抽出方法,画像抽出プログラムおよびそのプログラムを格納した記録媒体
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
JP7235272B2 (ja) * 2018-05-16 2023-03-08 株式会社アドダイス 画像処理装置及び検査システム
US12056216B2 (en) 2020-03-19 2024-08-06 Nec Corporation Image processing method
CN111667063B (zh) * 2020-06-30 2021-09-10 腾讯科技(深圳)有限公司 基于fpga的数据处理方法及装置
TW202232437A (zh) * 2021-02-09 2022-08-16 阿物科技股份有限公司 圖像分類與標示方法及系統

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3529036B2 (ja) * 1999-06-11 2004-05-24 株式会社日立製作所 文書付き画像の分類方法
US7783082B2 (en) * 2003-06-30 2010-08-24 Honda Motor Co., Ltd. System and method for face recognition
JP2005044330A (ja) * 2003-07-24 2005-02-17 Univ Of California San Diego 弱仮説生成装置及び方法、学習装置及び方法、検出装置及び方法、表情学習装置及び方法、表情認識装置及び方法、並びにロボット装置
WO2005114557A2 (en) * 2004-05-13 2005-12-01 Proximex Multimodal high-dimensional data fusion for classification and identification
JP2009282685A (ja) * 2008-05-21 2009-12-03 Sony Corp 情報処理装置、情報処理方法、およびプログラム
JP5157848B2 (ja) * 2008-11-26 2013-03-06 株式会社リコー 画像処理装置、画像処理方法、コンピュータプログラム、及び、情報記録媒体

Also Published As

Publication number Publication date
JP2012038244A (ja) 2012-02-23
US20120039527A1 (en) 2012-02-16

Similar Documents

Publication Publication Date Title
JP5565190B2 (ja) 学習モデル作成プログラム、画像識別情報付与プログラム、学習モデル作成装置及び画像識別情報付与装置
US11657602B2 (en) Font identification from imagery
Shi et al. Distance-normalized unified representation for monocular 3d object detection
JP2022538866A (ja) 画像前処理のためのシステム及び方法
Yan et al. Ranking with uncertain labels
Zhang et al. Simplifying mixture models through function approximation
Long et al. Accurate object detection with location relaxation and regionlets re-localization
CN110008844B (zh) 一种融合slic算法的kcf长期手势跟踪方法
US20240273134A1 (en) Image encoder training method and apparatus, device, and medium
Zagoris et al. Image retrieval systems based on compact shape descriptor and relevance feedback information
CN113657087B (zh) 信息的匹配方法及装置
WO2022035942A1 (en) Systems and methods for machine learning-based document classification
CN110889865A (zh) 一种基于局部加权稀疏特征选择的视频目标跟踪方法
WO2017188048A1 (ja) 作成装置、作成プログラム、および作成方法
Kapoor et al. Which faces to tag: Adding prior constraints into active learning
CN113298009A (zh) 一种基于熵正则化的自适应近邻人脸图像聚类方法
JP5311899B2 (ja) パターン検出器の学習装置、学習方法及びプログラム
He et al. Few-shot and meta-learning methods for image understanding: a survey
CN115203408A (zh) 一种多模态试验数据智能标注方法
Nanda et al. A person re-identification framework by inlier-set group modeling for video surveillance
Wang et al. Sparse representation for image classification via paired dictionary learning
CN117422917A (zh) 一种高光谱遥感图像分类方法及相关设备
Kumar et al. Bayesian background models for keyword spotting in handwritten documents
Nock et al. Boosting k-NN for categorization of natural scenes
CN111259176A (zh) 融合有监督信息的基于矩阵分解的跨模态哈希检索方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130724

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140311

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140430

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140520

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140602

R150 Certificate of patent or registration of utility model

Ref document number: 5565190

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees