JP2013054458A - Image identification information assigning program and image identification information assigning device - Google Patents
Image identification information assigning program and image identification information assigning device Download PDFInfo
- Publication number
- JP2013054458A JP2013054458A JP2011190967A JP2011190967A JP2013054458A JP 2013054458 A JP2013054458 A JP 2013054458A JP 2011190967 A JP2011190967 A JP 2011190967A JP 2011190967 A JP2011190967 A JP 2011190967A JP 2013054458 A JP2013054458 A JP 2013054458A
- Authority
- JP
- Japan
- Prior art keywords
- image
- identification information
- label
- unit
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、画像識別情報付与プログラム及び画像識別情報付与装置に関する。 The present invention relates to an image identification information providing program and an image identification information providing apparatus.
近年、画像アノテーション技術は、画像データベース管理における画像検索システム、画像認識システムなどのための一つの重要な技術となっている。この画像アノテーション技術により、ユーザは、例えば、必要とする画像と意味的に近い画像を検索できる。 In recent years, image annotation technology has become one important technology for image retrieval systems, image recognition systems, and the like in image database management. With this image annotation technology, the user can search for an image that is semantically close to the required image, for example.
画像アノテーション技術として、例えば特許文献1〜4に開示されているものがある。これらは、未知画像に対する意味的なラベルを付与するが、手段としては画像の特徴量を抽出してから最近傍アルゴリズム(NN:Nearest Neighbor)を用いて、類似画像を検索し、検索された類似画像に付与されたラベルを用いてターゲット画像にレベルを付与する。しかしながら、最近傍アルゴリズムで抽出された画像のみからラベルを付与するという方法では、アノテーションの精度が高くないという問題があった。
As an image annotation technique, for example, there are those disclosed in
上記の問題を改善するため、特許文献5、6で提案されているものがある。これらは、画像特徴に対するラベルの出現頻度に基づいて、学習された識別器を用いて各ラベルの確率を推定する。
In order to improve the above problems, there are some proposed in
また、既存の分類方法を改良するために、ラベルと特徴量の相関情報を正準相関分析(CCA:Canonical Correlation Analysis)でモデリングして、画像特徴量と意味的なラベルのギャップを埋めるモデルが提案されている(例えば非特許文献1参照。)。 In addition, in order to improve the existing classification method, there is a model that fills the gap between image features and semantic labels by modeling correlation information between labels and features using Canonical Correlation Analysis (CCA). (For example, refer nonpatent literature 1).
しかし、特許文献5、6に開示された方法では、識別器がオブジェクトのクラス毎に構築され、独立に各ラベルの事後確率を計算しているので、クラス間の相関を利用できないという問題がある。また、非特許文献1に開示された方法では、CCAにより構築したグラフモデルからランダムウォークでターゲット画像の特徴量からラベルを推定するものであり、局所的な最小値に陥る可能性があり、また計算時間もかかるという問題がある。
However, the methods disclosed in
本発明の課題は、画像に関する相関情報を用いて画像に対して複数の識別情報を付与する画像識別情報付与プログラム及び画像識別情報付与装置を提供することである。 The subject of this invention is providing the image identification information provision program and image identification information provision apparatus which provide several identification information with respect to an image using the correlation information regarding an image.
[1]コンピュータを、複数の画像からそれぞれ特徴量を抽出する抽出手段と、前記抽出手段によって抽出された前記特徴量から学習モデルを用いて前記画像に付与すべき複数の識別情報に対してそれぞれ第1の評価値を計算する計算手段と、前記識別情報の数に対応した数の確率場モデルを有し、前記複数の画像について前記計算手段によって計算された前記識別情報毎の前記第1の評価値を前記複数の確率場モデルに入力し、前記画像毎に前記複数の識別情報に対する第2の評価値を出力する出力手段として機能されるための画像識別情報付与プログラム。 [1] An extraction unit that extracts a feature amount from each of a plurality of images, and a plurality of pieces of identification information to be assigned to the image using a learning model from the feature amounts extracted by the extraction unit. Computation means for calculating a first evaluation value and random field models corresponding to the number of identification information, and the first information for each of the identification information calculated by the calculation means for the plurality of images An image identification information addition program for functioning as output means for inputting evaluation values to the plurality of random field models and outputting second evaluation values for the plurality of identification information for each of the images.
[2]前記出力手段の前記確率場モデルを前記複数の画像間の相関情報に基づいて最適化する最適化手段を、さらに備えた前記[1]に記載の画像識別情報付与プログラム。 [2] The image identification information adding program according to [1], further including optimization means for optimizing the random field model of the output means based on correlation information between the plurality of images.
[3]前記出力手段の前記確率場モデルを前記複数の識別情報間の相関情報に基づいて最適化する最適化手段を、さらに備えた前記[1]に記載の画像識別情報付与プログラム。 [3] The image identification information addition program according to [1], further including optimization means for optimizing the random field model of the output means based on correlation information between the plurality of identification information.
[4]複数の画像からそれぞれ特徴量を抽出する抽出手段と、前記抽出手段によって抽出された前記特徴量から学習モデルを用いて前記画像に付与すべき複数の識別情報に対してそれぞれ第1の評価値を計算する計算手段と、前記識別情報の数に対応した数のMRFモデルを有し、前記複数の画像について前記計算手段によって計算された前記識別情報毎の前記第1の評価値を前記複数の確率場モデルに入力し、前記画像毎に前記複数の識別情報に対する第2の評価値を出力する出力手段とを備えた画像識別情報付与装置。 [4] Extraction means for extracting feature amounts from a plurality of images, respectively, and a plurality of pieces of identification information to be added to the images using a learning model from the feature amounts extracted by the extraction means. A calculation means for calculating an evaluation value; and a number of MRF models corresponding to the number of the identification information, and the first evaluation value for each of the identification information calculated by the calculation means for the plurality of images An image identification information providing apparatus comprising: output means for inputting a plurality of random field models and outputting a second evaluation value for the plurality of identification information for each of the images.
請求項1又は4に記載された発明によれば、画像に関する相関情報を用いて画像に対して複数の識別情報を付与することができる。
According to the invention described in
請求項2に記載された発明によれば、複数の画像間の相関情報に基づいて画像に対して最適化された複数の識別情報を付与することができる。 According to the second aspect of the present invention, a plurality of pieces of identification information optimized for an image can be given based on correlation information between the plurality of images.
請求項3に記載された発明によれば、複数の識別情報間の相関情報に基づいて画像に対して最適化された複数の識別情報を付与することができる。 According to the third aspect of the present invention, a plurality of identification information optimized for an image can be given based on correlation information between the plurality of identification information.
以下、本発明の実施の形態について図面を参照して説明する。なお、各図中、実質的に同一の機能を有する構成要素については、同一の符号を付してその重複した説明を省略する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. In addition, in each figure, about the component which has the substantially same function, the same code | symbol is attached | subjected and the duplicate description is abbreviate | omitted.
[第1の実施の形態]
図1は、本発明の第1の実施の形態に係る画像識別情報付与装置の構成例を示すブロック図である。この画像識別情報付与装置1は、画像受付部2、特徴抽出部3、ラベル事後確率計算部4、量子化部5、ノード接合部6、ラベル推定部7、ラベル付与部8、アノテーション情報出力部9及び記憶部10を有して概略構成されている。
[First Embodiment]
FIG. 1 is a block diagram showing a configuration example of an image identification information providing apparatus according to the first embodiment of the present invention. The image identification
従来のアノテーション手段は、学習コーパス(学習用画像と学習用画像に付与されたラベルとが対になったもの)中の学習用画像から周知の特徴抽出手法により特徴量を抽出し、特徴量とラベルとの関連を識別モデルとして学習する。学習された識別モデル、すなわち学習モデル130は、データベースに保存する。そして、クエリ画像(入力画像、未知画像ともいう。)120にラベルを付与するため、学習モデル130を用いてクエリ画像120に対して、ラベルの事後確率を計算し、最も高い値を持つラベルを推定結果とする。
The conventional annotation means extracts a feature amount from a learning image in a learning corpus (a pair of a learning image and a label given to the learning image) by a known feature extraction method, The relation with the label is learned as an identification model. The learned identification model, that is, the
本明細書において、「アノテーション」とは、画像全体に対してラベルを付与することをいう。「ラベル」は、識別情報の一例であり、画像の全体又は部分領域の内容を表す識別情報、例えば単語である。 In this specification, “annotation” means that a label is assigned to the entire image. The “label” is an example of identification information, and is identification information that represents the contents of the entire image or a partial area, for example, a word.
本実施の形態は、ラベル事後確率計算部4によりラベルの事後確率を計算してから、画クエリ像120間の相関情報に基づいてMRFモデルもしくはCRFモデルでラベルの順位を調整してクエリ画像120にラベルを付与する。ここで、「MRFモデル」とは、マルコフ確率場(MRF:Markov Random Field)モデルのことであり、「CRFモデル」とは、条件付き確率場(CRF:Conditional Random Field)モデルのことである。これらのマルコフ確率場モデル及び条件付き確立場モデルは、確率場モデルの一例である。
In the present embodiment, the label posterior
以下、本実施の形態の特徴的な部分、すなわち量子化部5、ノード接合部6及びラベル推定部7を中心に説明する。
Hereinafter, the characteristic part of the present embodiment, that is, the
画像受付部2は、ラベルを付与する対象画像のクエリ画像120を受け付ける。
The
特徴抽出部3は、抽出手段の一例であり、クエリ画像から特徴量を抽出する。特徴量は、例えばR,G,B等の色やテクスチャなどの画像特徴を並べたものである。
The
ラベル事後確率計算部4は、特徴量fから各ラベルcの事後確率(P(c|f))を算出し、ラベル毎にアノテーションスコア(アナログ値)として出力する。
The label posterior
記憶部10には、画像識別情報付与プログラム110等の各種のプログラム、クエリ画像120、学習モデル130、ラベル辞書140、リンク情報150等の各種のデータが格納されている。記憶部10は、例えばROM、RAM、HDD等により構成されている。
The
アンテーション出力部9は、ラベル付与部8によって付与されたアノテーション情報(ラベルとスコア)を外部に出力するものであり、例えば液晶ディスプレイ等の表示部や、プリンタ等の印刷部を用いることができる。
The
(量子化部)
従来のMRFやCRFを用いた画像アノテーション技術では、例えば非特許文献“Word co-occurrence and Markov Random Field for Improving Automatic Image Annotation ”H.J.Escalante, M.Montes and L.E.Sucar, BMVC,2007に開示されているように、ラベルの共起を用いてMRFモデルを構築し、ラベルの確率を観測値として入力し、入力画像に対してラベルを推定する。この従来技術では、画像のラベルを推定する隠れノードは複数のラベルから一つのラベルを選択するノードであり、したがって、1つの画像全体又は画像領域に対して1つのラベルしか付与できず、画像全体に複数のラベルを付与するアノテーションには適用できない。
(Quantization part)
Conventional image annotation technology using MRF or CRF is disclosed in, for example, non-patent document “Word co-occurrence and Markov Random Field for Improving Automatic Image Annotation” HJEscalante, M. Montes and LESucar, BMVC, 2007 Then, the MRF model is constructed using the label co-occurrence, the label probability is input as an observation value, and the label is estimated for the input image. In this prior art, the hidden node that estimates the label of an image is a node that selects one label from a plurality of labels, and therefore only one label can be assigned to an entire image or image area, and the entire image It cannot be applied to annotations with multiple labels.
これを解決するために、本実施の形態は、各ラベルに対して1つのMRFもしくはCRFモデルを持ち、各モデルの隠れノードは量子化されたラベルの確率を持つ。そしてMRFもしくはCRFモデルで推定した量子化値によって、ラベルの順位を決め、1つの画像に対してスコアの高い複数のラベルを付与するものである。 In order to solve this, this embodiment has one MRF or CRF model for each label, and the hidden node of each model has the probability of a quantized label. Then, the order of the labels is determined by the quantized value estimated by the MRF or CRF model, and a plurality of labels having high scores are assigned to one image.
本実施の形態の量子化部5は、ラベル事後確率計算部4がラベル毎に算出したアナログ値であるアノテーションスコアを量子化する。量子化した値(量子化値)は、離散化した値(離散化値)である。アノテーションスコアのレベルを均等に量子化するため、ヒストグラム平坦化(Histogram Equalization)方法で決定する。量子化値は、後述するMRFモデル701〜70Nの各事後確率計算ノード72の隠れ変数の初期状態とされる。アノテーションスコア(アナログ値)とこれに対応する量子化値の一例を表1に示す。表1中、Mは画像の数であり、Nはラベルの数である。ここで、ラベル事後確率計算部4及び量子化部5は、計算手段の一例であり、ラベル事後確率計算部4が算出するアナログ値であるアノテーションスコア、及び量子化部5が出力する量子化値は、第1の評価値の一例である。
The
(ノード接合部)
本実施の形態のノード接合部6は、画像間の相関情報に基づいて事後確率計算ノード72及び推定事後確率計算ノード73間を接合する接合リンク76の位置情報(リンク情報)150を生成し、生成したリンク情報150を記憶部10に格納する。入力側リンク75及び出力側リンク77は、予め付けられている。画像間の相関情報として、例えば画像の撮影時間、画像特徴量の類似度等を用いることができる。相関情報としてアノテーション(ラベル)間の相関を用いる例は、後述する。
(Node junction)
The
ノード接合部6は、一連の複数のクエリ画像(クエリ画像集合)120を入力して、画像間の相関情報を計算してから、MRFモデル01〜70Nの事後確率計算ノード72及び推定事後確率計算ノード73間の接合方法を決める。接合方法の一例として、画像間の特徴量の類似度がある閾値以上の場合、当該画像に対応する事後確率計算ノード72及び推定事後確率計算ノード73間に接合リンク76を付与し、画像間の類似度が閾値より小さい場合、対応するノード72、73間に接合リンク76を付与しない。また、撮影時刻がお互いに近い画像に対して接合リンク76を付与してもよい。リンク情報150の一例を表2に示す。画像の数は、事後確率計算ノード72の数、及び推定事後確率計算ノード73の数と同じである。表2において、「1」はノード72、73間に接合リンク76がある場合を示し、「0」はノード72、73間に接合リンク76がない場合を示す。
The
また、リンク情報150は事前に画像の相関情報から生成することができるが、動的にリンク情報150を生成してもよい。すなわち、事後確立計算ノード72の隠れ変数の状態により、隠れ変数間の距離又は量子化値の差がある閾値以下の場合、ノード72、73間の接合リンク76を自動的に追加し、隠れ変数間の距離又は量子化値の差がある閾値より大きい場合、ノード72、73間の接合リンク76を自動的に除外してもよい。
The
(ラベル推定部)
図2は、ラベル推定部7の概略の構成例を示す図である。ラベル推定部7は、ラベル毎に設けられたMRFモデル701〜70Nを有し、対応するMRFモデル701〜70Nのノード隠れ変数の初期状態の設定及びノードを繋げるリンク情報150を入力して、グラフカットメッセージ・パッシング方法(Yuri Boykov, O.Veksler, R.Zabih, “Fast Approximate Energy Minimization via Graph Cuts”,PAMI2001)により、ラベルの量子化状態を最適化する。
(Label estimation part)
FIG. 2 is a diagram illustrating a schematic configuration example of the
各MRFモデル701〜70Nは、同一の構造を有しているので、代表としてMRFモデル701について説明する。MRFモデル701は、図2(a)に示すように、量子化値Qが入力される入力ノード711〜71Mと、アノテーションスコア量子化部5から出力された事後確率を保持する事後確率計算ノード721〜72Mと、推定の事後確率を計算する推定事後確率計算ノード731〜73Mと、ラベルのスコアを出力する出力ノード741〜74Mと、入力ノード711〜71Mと事後確率計算ノード721〜72Mを接合する入力側リンク751〜75Mと、事後確率計算ノード721〜72Mと推定事後確率計算ノード731〜73Mを接合する接合リンク76と、推定事後確率計算ノード731〜73Mと出力ノード741〜74Mを接合する出力側リンク771〜77Mとを有して概略構成されている。また、画像と入力ノード711〜71M及び出力ノード741〜74Mは一対一に対応しているので、各MRFモデル701〜70Nの入力ノード711〜71M及び出力ノード741〜74Mの数は、画像の数Mと同じである。
Since each MRF model 70 1 to 70 N has the same structure, the MRF model 70 1 will be described as a representative. MRF model 70 1, as shown in FIG. 2 (a), the posterior probability of holding an input node 71 1 -71 M quantized value Q is inputted, the posterior probability output from the annotation
例えば、最初の画像(Image1)の量子化値Q11〜Q1Nは、MRFモデル701〜70Nの各入力ノード711に入力し、次の画像(Image2)の量子化値Q21〜Q2Nは、MRFモデル701〜70Nの各入力ノード712に入力し、同様にM番目の画像(ImageM)の量子化値QM1〜QMNは、MRFモデル701〜70Nの各入力ノード71Mに入力し、その後MRFモデル701〜70Nの各出力ノード741〜74Mから画像1〜Mに対する各ラベルL1〜LNのスコアが出力される。
For example, the quantized values Q 11 to Q 1N of the first image (Image 1) are input to the input nodes 71 1 of the MRF models 70 1 to 70 N , and the quantized values Q 21 to Q of the next image (Image 2) are input. 2N inputs to each input node 71 2 of
入力側リンク751〜75M及び出力側リンク771〜77Mは、予め与えられている。接合リンク76は、リンク情報150に基づいてノード接合部6により与えられる。接合リンク76は、1つのMRFモデル70の事後確率計算ノード721〜72Mと推定事後確率計算ノード731〜73Mを接合するだけでなく、MRFモデル701〜70N間でも接合する。
The input side links 75 1 to 75 M and the output side links 77 1 to 77 M are given in advance. The junction link 76 is given by the
以上の構成により、すべてMRFモデル70の各対応するノードの状態を比較して、画像に対するすべてラベルを付与する。すなわち、画像Mに対してはMRFモデル701〜70Nの出力ノード74Mの値を比較し、上位のラベルをその画像に対して付与する。ここで、ラベル推定部7は、出力手段の一例であり、出力ノード741から出力するラベルL1〜LNのスコアは、第2の評価値の一例である。
With the above configuration, all the states of the corresponding nodes of the MRF model 70 are compared, and all labels are assigned to the images. That is, for the image M, the values of the output nodes 74 M of the MRF models 70 1 to 70 N are compared, and a higher level label is assigned to the image. Here, the
(第1の実施の形態の動作)
図3は、第1の実施の形態の動作例を示すフローチャートである。本実施の形態は、画像の相関情報に基づき、MRFモデル701〜70Nに接合リンク76を付けるのが特徴である。
(Operation of the first embodiment)
FIG. 3 is a flowchart illustrating an operation example of the first embodiment. The present embodiment is characterized in that the junction links 76 are attached to the MRF models 70 1 to 70 N based on the correlation information of the images.
画像受付部2がクエリ画像120を受け付けると、特徴抽出部3は、クエリ画像120から特徴量を抽出する。
When the
ラベル事後確率計算部4は、周知の識別器により保存された学習モデル130を用いて、クエリ画像120に対する各ラベルの事後確率を計算し(S1)、その事後確率をアノテーションスコアとして出力する。
The label posterior
量子化部5は、ラベル事後確率計算部4が出力したアノテーションスコアをあらかじめ定められた閾値に応じて量子化する(S4)。量子化された値は、隠れノードの初期値に設定され、その後グラフカットメッセージ・パッシング方法により、推定事後確率計算ノード73に隠れ変数の最終状態の推定結果が保持される。
The
次に、すべての推定事後確率計算ノード73が処理した後に、ノード72、73間を繋げるリンク情報150を取得する。ノード接合部6は、画像の相関情報に基づいて接合リンク76を付ける(S5)。画像の相関情報が時間の場合、画像ペアの撮影時間の差が予め定められた時間(例えば5時間)以下の場合、該当するペアのノード72、73間に接合リンク76を付ける。また、異なる画像の撮影時間の差が予め定められた時間(例えば5時間)よりも大きい場合、該当するペアのノード72、73間に接合リンク76を付けない。
Next, after all the estimated posterior probability calculation nodes 73 have processed, the
画像の相関情報が画像の類似度である場合、画像から様々な特徴量を抽出する。例えば、RGB、normalized−RG、HSV(色空間)、LAB、robustHue特徴量(van de Weijer, C. Schmid, “Coloring Local Feature Extraction”, ECCV 2006を参照)、Gabor特徴量、DCT(Direction Curve Tangent)特徴量、SIFT(Scale Invariant Feature Transform)特徴量及びGIST(Generalized Search Tree)特徴量であり、いかなる特徴を用いてもよい。画像同士の類似度は、特徴量の距離とする。正規化した距離が0.5以下場合には画像ペアに対応するノード72、73のペアの間に接合リンク76を付ける。0.5より大きい場合には画像ペアに対応するノード72、73のペアの間に接合リンク76を付けない。 When the correlation information of the image is the similarity of the image, various feature amounts are extracted from the image. For example, RGB, normalized-RG, HSV (color space), LAB, robustHue feature (see van de Weijer, C. Schmid, “Coloring Local Feature Extraction”, ECCV 2006), Gabor feature, DCT (Direction Curve Tangent ) Feature amount, SIFT (Scale Invariant Feature Transform) feature amount, and GIST (Generalized Search Tree) feature amount, and any feature may be used. The similarity between images is the distance of the feature amount. When the normalized distance is 0.5 or less, the junction link 76 is attached between the pair of nodes 72 and 73 corresponding to the image pair. If it is greater than 0.5, the junction link 76 is not attached between the pair of nodes 72 and 73 corresponding to the image pair.
以上のようにして1つのラベルに対応するMRFモデル70を構築する。次のステップでは、MRFモデル70を最適化する(S6)。すなわちラベルに対応するMRFモデル701〜70Nの事後確率計算ノード72に上記ステップS4で計算された隠れ変数状態を入力し、ノード72、73間を接合するリンク情報150を入力して、ノード72,73間に接合リンク76を付ける。上記ステップS4、S5、S6は、すべてのラベル及びノードについて行われる(S2、S3)。
As described above, the MRF model 70 corresponding to one label is constructed. In the next step, the MRF model 70 is optimized (S6). That is, the hidden variable state calculated in step S4 is input to the posterior probability calculation node 72 of the MRF models 70 1 to 70 N corresponding to the labels, and the
最後に、各ラベルに対応するMRFモデル701〜70Nを全部最適化し、1つの画像に対応するすべてのMRFモデル701〜70Nの推定事後確率計算ノード731〜73Mの隠れ変数の最終状態を統合し、その結果、画像に対するすべてアノテーションスコア調整できた。そして調整したアノテーションスコアの順位を付けて、高い順にクエリ画像にラベルを付与する(S7)。例えば、1つの画像(Image1)の量子化値Q11〜Q1Nを、MRFモデル701〜70Nの各入力ノード711に入力すると、すべてのMRFモデル701〜70Nの各推定事後確率計算ノード731の隠れ変数が出力ノード741から各ラベルL1〜LNのスコアとして出力される。
Finally, all the MRF models 70 1 to 70 N corresponding to each label are optimized, and the estimated posterior probability calculation nodes 73 1 to 73 M of all the MRF models 70 1 to 70 N corresponding to one image are changed. The final state was integrated, and as a result, all the annotation scores for the images could be adjusted. Then, the ranks of the adjusted annotation scores are given and labels are given to the query images in descending order (S7). For example, the quantization values Q 11 to Q 1N of one image (Image1), the input to each input node 71 1 of
(第1の実施の形態の効果)
第1の実施の形態によれば、複数の画像間の相関情報に基づいてMRFモデルを最適化しているので、本構成を採用しない場合と比べて画像に対して高い精度で複数のラベルを付与することができる。
(Effects of the first embodiment)
According to the first embodiment, since the MRF model is optimized based on correlation information between a plurality of images, a plurality of labels are assigned to the images with higher accuracy than when this configuration is not adopted. can do.
[第2の実施の形態]
図4は、本発明の第2の実施の形態に係る画像識別情報付与装置の構成例を示すブロック図である。本実施の形態の画像識別情報付与装置1は、第1の実施の形態と同様に、画像受付部2、特徴抽出部3、ラベル事後確率計算部4、量子化部5、ノード接合部6、ラベル推定部7、ラベル付与部8、アノテーション情報出力部9及び記憶部10を有して概略構成されている。本実施の形態は、第1の実施の形態とは、ノード接合部6が異なり、他は第1の実施の形態と同様に構成され、同様の作用を奏するので、その説明を省略する。
[Second Embodiment]
FIG. 4 is a block diagram showing a configuration example of an image identification information providing apparatus according to the second embodiment of the present invention. As in the first embodiment, the image identification
本実施の形態のノード接合部6は、ラベルの相関情報に基づいてMRFモデル70の事後確率計算ノード72及び推定事後確率計算ノード73間に接合リンク76を生成し、生成した接合リンク76の位置情報であるリンク情報を記憶部10に保存する。ラベルの相関情報として、例えば、ある画像ペアに対して、量子化されたアノテーションスコアにより上位5つを列挙し、順位を問わず、画像ペアの同じラベルの数を数える。同じラベルの数は1つ以上の場合、対応するノード72、73間に接合リンク76を付与し、同じラベルの数がゼロの場合、対応するノード72、73間に接合リンク76を付与しない。
The
(第2の実施の形態の効果)
第2の実施の形態によれば、複数のラベル間の相関情報に基づいてMRFモデルを最適化しているので、本構成を採用しない場合と比べて画像に対して高い精度で複数のラベルを付与することができる。
(Effect of the second embodiment)
According to the second embodiment, since the MRF model is optimized based on correlation information between a plurality of labels, a plurality of labels are assigned to an image with higher accuracy than when this configuration is not adopted. can do.
次に、本発明の実施例について、画像の数Mを100、量子化値の範囲を1から2000とした場合を例に挙げて説明する。ラベル事後確率計算部4が算出したアナログ値のアノテーションスコアは、量子化部5によって離散化値に変換される。表3は、アノテーションスコア(アナログ値)と量子化値(離散化値)の具体的な一例を示す。
Next, an embodiment of the present invention will be described by taking as an example the case where the number M of images is 100 and the range of quantization values is 1 to 2000. The annotation score of the analog value calculated by the label posterior
表3中、画像IDの下の括弧は、画像に付与すべき正解ラベルを示す。表3から、量子化部5が出力したアノテーションスコア(ラベル事後確率)のみで第1位のラベルを付けると、Image1、ImageMについて不正解となっていることから、精度が高くないことが分かる。
In Table 3, parentheses below the image ID indicate a correct label to be assigned to the image. From Table 3, it can be seen that if the first-ranked label is attached only by the annotation score (label posterior probability) output from the
ノード接合部6が作成したノード情報(ノード接合マトリクス)150の一例を表4に示す。表4中、「1」は画像間に時間的な相関があるため、ノード72、73間に接合リンク76がある場合を示し、「0」は画像間に時間的な相関が無いため、ノード72,73間に接合リンク76がない場合を示す。
An example of node information (node junction matrix) 150 created by the
表5は、調整する前(MRFモデルの入力値)の量子化されたアノテーションスコア(量子化値)と、調整した後(MRFモデルの出力値)のアノテーションスコア(量子化値)である。 Table 5 shows the quantized annotation score (quantized value) before adjustment (input value of the MRF model) and the annotation score (quantized value) after adjustment (output value of the MRF model).
ここでは、画像の数を100とし、量子化値の範囲を1から2000とする。表5中の量子化値は、アナログ値の量子化値がヒストグラム平坦化方法により離散化値に変換されたものである。表5中の画像IDの下の括弧は、画像に付けるべき正解ラベルを示す。表5の2列目と3列目はMRFモデル70を最適化する前のものである。最適化前のラベルは量子化値が高い順に並んでいる。最適化前の量子化値は表3と同じである。また、表5の4列目と5列目はMRFモデル70を最適化した後のものである。最適化後のラベルは、量子化値(調整アノテーションスコア)が高い順に並んでいる。以上の結果より、画像IDImage1については、最適化前はラベル「hug」が第1位であったが、最適化後はラベル「hand」が第1位となり、正解が得られている。また、画像IDImage100については、最適化前と最適化後で第1位のラベル「hand」は変わらない。しかし、第2位は最適化前のラベル「face」から最適化後はラベル「foot」に変わり、さらに量子化値も「117」から「148」に高くなり、正解に近くなるので、精度が高くなることが分かる。 Here, the number of images is 100, and the range of quantization values is 1 to 2000. The quantized values in Table 5 are obtained by converting the quantized values of analog values into discretized values by the histogram flattening method. The parentheses below the image ID in Table 5 indicate the correct answer label to be attached to the image. The second and third columns in Table 5 are before the MRF model 70 is optimized. The labels before optimization are arranged in descending order of quantization value. The quantization value before optimization is the same as in Table 3. The fourth and fifth columns in Table 5 are after the MRF model 70 has been optimized. The optimized labels are arranged in descending order of quantization values (adjusted annotation scores). From the above results, for the image ID Image1, the label “hug” was ranked first before optimization, but after optimization, the label “hand” was ranked first and the correct answer was obtained. In addition, for the image ID Image100, the first-ranked label “hand” does not change before and after optimization. However, the second place changes from the label “face” before optimization to the label “foot” after optimization, and the quantization value also increases from “117” to “148”, which is close to the correct answer. It turns out that it becomes high.
本実施例によれば、クエリ画像集合に対する、周知の情報検索の評価値であるF値(F-measure)は、0.536から0.549に向上した。本実施例は、画像の相関を用いたが、ラベルの相関を用いた場合も、本実施例と同様の効果が期待できる。 According to the present embodiment, the F value (F-measure), which is a well-known evaluation value of information retrieval, for the query image set is improved from 0.536 to 0.549. Although the present embodiment uses image correlation, the same effect as the present embodiment can be expected when label correlation is used.
[他の実施の形態]
なお、本発明は、上記実施の形態に限定されず、本発明の要旨を変更しない範囲で種々に変形が可能である。例えば、画像受付部2、特徴抽出部3、ラベル事後確率計算部4、量子化部5、ノード接合部6、ラベル推定部7、ラベル付与部8及びアノテーション情報出力部9の各機能は、コンピュータ読み取り可能な画像識別情報付与プログラム110に従ってCPUが動作することにより実現してもよい。また、上記実施の形態の画像受付部2、特徴抽出部3、ラベル事後確率計算部4、量子化部5、ノード接合部6、ラベル推定部7、ラベル付与部8及びアノテーション情報出力部9の全て又は一部をASIC等のハードウエアによって実現してもよい。
[Other embodiments]
In addition, this invention is not limited to the said embodiment, A various deformation | transformation is possible in the range which does not change the summary of this invention. For example, each function of the
また、上記実施の形態で用いたプログラムをCD−ROM等の記録媒体に記憶して提供することもできる。また、上記実施の形態で説明した上記ステップの入替え、削除、追加等は、本発明の要旨を変更しない範囲内で可能である。 The program used in the above embodiment can be provided by being stored in a recording medium such as a CD-ROM. Moreover, replacement, deletion, addition, and the like of the steps described in the above embodiments are possible within a range that does not change the gist of the present invention.
1…画像識別情報付与装置、2…画像受付部、3…特徴抽出部、4…ラベル事後確率計算部、5…量子化部、6…ノード接合部、7…ラベル推定部、8…ラベル付与部、9…アノテーション情報出力部、10…記憶部、701〜70N…MRFモデル、711〜71M…入力ノード、721〜72M…事後確率計算ノード、731〜73M…推定事後確率計算ノード、741〜74M…出力ノード、751〜75M…入力側リンク、76…接合リンク、771〜77M…出力側リンク、110…画像識別情報付与プログラム、120…クエリ画像、130…学習モデル、140…ラベル辞書、150…リンク情報
DESCRIPTION OF
Claims (4)
複数の画像からそれぞれ特徴量を抽出する抽出手段と、
前記抽出手段によって抽出された前記特徴量から学習モデルを用いて前記画像に付与すべき複数の識別情報に対してそれぞれ第1の評価値を計算する計算手段と、
前記識別情報の数に対応した数の確率場モデルを有し、前記複数の画像について前記計算手段によって計算された前記識別情報毎の前記第1の評価値を前記複数の確率場モデルに入力し、前記画像毎に前記複数の識別情報に対する第2の評価値を出力する出力手段として機能されるための画像識別情報付与プログラム。 Computer
Extraction means for extracting feature amounts from a plurality of images,
Calculation means for calculating a first evaluation value for each of a plurality of pieces of identification information to be added to the image using a learning model from the feature amount extracted by the extraction means;
There are a number of random field models corresponding to the number of identification information, and the first evaluation value for each of the identification information calculated by the calculation unit for the plurality of images is input to the plurality of random field models. An image identification information adding program for functioning as output means for outputting a second evaluation value for the plurality of identification information for each image.
前記抽出手段によって抽出された前記特徴量から学習モデルを用いて前記画像に付与すべき複数の識別情報に対してそれぞれ第1の評価値を計算する計算手段と、
前記識別情報の数に対応した数の確率場モデルを有し、前記複数の画像について前記計算手段によって計算された前記識別情報毎の前記第1の評価値を前記複数の確率場モデルに入力し、前記画像毎に前記複数の識別情報に対する第2の評価値を出力する出力手段とを備えた画像識別情報付与装置。
Extraction means for extracting feature amounts from a plurality of images,
Calculation means for calculating a first evaluation value for each of a plurality of pieces of identification information to be added to the image using a learning model from the feature amount extracted by the extraction means;
There are a number of random field models corresponding to the number of identification information, and the first evaluation value for each of the identification information calculated by the calculation unit for the plurality of images is input to the plurality of random field models. An image identification information providing apparatus comprising: output means for outputting a second evaluation value for the plurality of identification information for each image.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011190967A JP5754306B2 (en) | 2011-09-01 | 2011-09-01 | Image identification information addition program and image identification information addition device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011190967A JP5754306B2 (en) | 2011-09-01 | 2011-09-01 | Image identification information addition program and image identification information addition device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013054458A true JP2013054458A (en) | 2013-03-21 |
JP5754306B2 JP5754306B2 (en) | 2015-07-29 |
Family
ID=48131413
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011190967A Active JP5754306B2 (en) | 2011-09-01 | 2011-09-01 | Image identification information addition program and image identification information addition device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5754306B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104680209A (en) * | 2015-01-22 | 2015-06-03 | 广东工业大学 | Radio frequency identification label number estimating method capable of meeting EPC C1G2 standard and based on time slot states |
JP2019155561A (en) * | 2018-03-15 | 2019-09-19 | オムロン株式会社 | Operation control device of robot |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006155340A (en) * | 2004-11-30 | 2006-06-15 | Konica Minolta Holdings Inc | Image managing device, image management method, and image management program |
JP2008217706A (en) * | 2007-03-07 | 2008-09-18 | Tokyo Institute Of Technology | Labeling device, labeling method and program |
JP2010128774A (en) * | 2008-11-27 | 2010-06-10 | Nippon Telegr & Teleph Corp <Ntt> | Inherent expression extraction apparatus, and method and program for the same |
US20110191271A1 (en) * | 2010-02-04 | 2011-08-04 | Microsoft Corporation | Image tagging based upon cross domain context |
-
2011
- 2011-09-01 JP JP2011190967A patent/JP5754306B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006155340A (en) * | 2004-11-30 | 2006-06-15 | Konica Minolta Holdings Inc | Image managing device, image management method, and image management program |
JP2008217706A (en) * | 2007-03-07 | 2008-09-18 | Tokyo Institute Of Technology | Labeling device, labeling method and program |
JP2010128774A (en) * | 2008-11-27 | 2010-06-10 | Nippon Telegr & Teleph Corp <Ntt> | Inherent expression extraction apparatus, and method and program for the same |
US20110191271A1 (en) * | 2010-02-04 | 2011-08-04 | Microsoft Corporation | Image tagging based upon cross domain context |
Non-Patent Citations (1)
Title |
---|
JPN6015016901; 野川 知弘 他: '階層的MRFモデルを用いたマルチスペクトル画像の教師なしセグメンテーション' 電子情報通信学会技術研究報告 Vol.96,No.384(PRMU96-86), 19961121, pp.45-52., 社団法人電子情報通信学会 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104680209A (en) * | 2015-01-22 | 2015-06-03 | 广东工业大学 | Radio frequency identification label number estimating method capable of meeting EPC C1G2 standard and based on time slot states |
JP2019155561A (en) * | 2018-03-15 | 2019-09-19 | オムロン株式会社 | Operation control device of robot |
Also Published As
Publication number | Publication date |
---|---|
JP5754306B2 (en) | 2015-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11604822B2 (en) | Multi-modal differential search with real-time focus adaptation | |
US11605019B2 (en) | Visually guided machine-learning language model | |
US11748619B2 (en) | Image feature learning device, image feature learning method, image feature extraction device, image feature extraction method, and program | |
CN106973244B (en) | Method and system for automatically generating image captions using weak supervision data | |
US8594468B2 (en) | Statistical approach to large-scale image annotation | |
US8126274B2 (en) | Visual language modeling for image classification | |
JP7360497B2 (en) | Cross-modal feature extraction method, extraction device, and program | |
US9582518B2 (en) | Image processing apparatus, image processing method, and storage medium | |
JP5506722B2 (en) | Method for training a multi-class classifier | |
US9400918B2 (en) | Compact face representation | |
JP5281156B2 (en) | Annotating images | |
US8254699B1 (en) | Automatic large scale video object recognition | |
JP2003256441A (en) | Document classification method and apparatus | |
Son et al. | Spectral clustering with brainstorming process for multi-view data | |
Li et al. | Fusing semantic aspects for image annotation and retrieval | |
US20230055263A1 (en) | Stratification in non-classified heterogeneous object labels | |
CN108496185B (en) | System and method for object detection | |
Bouguila | On multivariate binary data clustering and feature weighting | |
JP5754306B2 (en) | Image identification information addition program and image identification information addition device | |
JP2010282276A (en) | Apparatus and method for video recognition, and program | |
JPWO2012077818A1 (en) | Method for determining transformation matrix of hash function, hash type approximate nearest neighbor search method using the hash function, apparatus and computer program thereof | |
KR20150124825A (en) | 2-Dependence Naive Bayes Classifier based Image Classification | |
CN108984726B (en) | Method for performing title annotation on image based on expanded sLDA model | |
Zhang et al. | Semi-automatic image annotation using sparse coding | |
CN111078886A (en) | Special event extraction system based on DMCNN |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140822 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150325 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150428 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150511 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5754306 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |