JP5347897B2 - Annotation apparatus, method and program - Google Patents
Annotation apparatus, method and program Download PDFInfo
- Publication number
- JP5347897B2 JP5347897B2 JP2009238350A JP2009238350A JP5347897B2 JP 5347897 B2 JP5347897 B2 JP 5347897B2 JP 2009238350 A JP2009238350 A JP 2009238350A JP 2009238350 A JP2009238350 A JP 2009238350A JP 5347897 B2 JP5347897 B2 JP 5347897B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- annotation
- unit
- images
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
- Processing Or Creating Images (AREA)
Description
本発明は、画像の特徴を解析して注釈を付与する注釈付与装置、方法およびプログラムに関する。 The present invention relates to an annotating apparatus, method, and program for analyzing an image characteristic and adding an annotation.
画像に対して画像の内容などを表す情報(注釈(アノテーション)、タグ、ラベル)を付与する画像アノテーションは、一般に手作業で行われるため負荷が大きく、時間を浪費し、高コストであった。このような問題を解消するため、画像アノテーションを自動で実行させるための研究が行われてきた。自動画像アノテーションシステムでは、単一の学習器を用いて意味範疇(注釈)を学習するため、さまざまな画像特徴量を1つの特徴ベクトルに結合する(例えば、非特許文献1)。そして、注釈が付与された学習画像を用いて、学習画像の特徴量を含む特徴ベクトルと学習画像に付与された注釈との関係を学習器により学習する。この学習結果を参照することにより、注釈付与の対象となる画像に対する適切な注釈を決定可能となる。 An image annotation that gives information (annotation (annotation), tag, label) indicating the content of an image to an image is generally a manual operation, and thus has a heavy load, wastes time, and is expensive. In order to solve such problems, research has been conducted to automatically execute image annotation. In the automatic image annotation system, a single learning device is used to learn semantic categories (annotations), and thus various image feature amounts are combined into one feature vector (for example, Non-Patent Document 1). Then, the learning device learns the relationship between the feature vector including the feature amount of the learning image and the annotation given to the learning image using the learning image to which the annotation is given. By referring to the learning result, it is possible to determine an appropriate annotation for the image to be annotated.
しかしながら、このような方法では、画像の特徴量と特定の注釈との関係が弱いため、与えられた画像に対して適切な注釈を付与できない場合があるという問題があった。 However, in such a method, since the relationship between the feature amount of the image and the specific annotation is weak, there is a problem that an appropriate annotation may not be given to the given image.
本発明は、上記に鑑みてなされたものであって、画像に付与する注釈をより適切に決定することができる注釈付与装置、方法およびプログラムを提供することを目的とする。 The present invention has been made in view of the above, and an object thereof is to provide an annotation providing apparatus, method, and program capable of more appropriately determining an annotation to be added to an image.
上述した課題を解決し、目的を達成するために、本発明は、予め定められた複数の画像と前記画像の特徴量とを対応づけたインデックスを記憶するインデックス記憶部と、前記画像と予め定められた複数の注釈とを対応づけて記憶する対応記憶部と、注釈を付与する対象画像を複数の分割画像に分割する分割部と、前記分割画像を解析し、前記分割画像の特徴量を抽出する特徴抽出部と、対応する前記特徴量と抽出された前記特徴量との類似度が大きい予め定められた個数の前記画像を前記インデックス記憶部から検索する検索部と、検索された前記画像に対応づけられた前記注釈それぞれについて、前記対応記憶部内での前記注釈の出現頻度が小さいほど大きく、かつ、対応する前記画像の前記類似度が大きいほど大きく、かつ、対応づけられた複数の前記画像の特徴量が相互に類似するほど大きい値となる前記注釈のスコアを算出する算出部と、前記スコアが大きい前記注釈を優先して前記対象画像に付与する前記注釈を決定する第1決定部と、を備えることを特徴とする注釈付与装置である。 In order to solve the above-described problems and achieve the object, the present invention provides an index storage unit that stores an index in which a plurality of predetermined images and feature amounts of the images are associated with each other, and the predetermined image. A correspondence storage unit that stores the plurality of annotations in association with each other, a division unit that divides the target image to be annotated into a plurality of divided images, and analyzes the divided images to extract feature amounts of the divided images A feature extraction unit, a search unit that searches the index storage unit for a predetermined number of images having a high degree of similarity between the corresponding feature amount and the extracted feature amount, and the searched image For each of the associated annotations, the smaller the appearance frequency of the annotation in the correspondence storage unit is, and the larger the similarity of the corresponding image is, the larger the correspondence is. A calculation unit that calculates a score of the annotation that has a larger value as the feature quantities of the plurality of images are similar to each other, and determines the annotation to be given to the target image with priority on the annotation having the higher score A first determination unit that performs the annotation.
また、本発明は、上記装置で実行することができる方法およびプログラムである。 The present invention also relates to a method and a program that can be executed by the above apparatus.
本発明によれば、画像に付与する注釈をより適切に決定することができるという効果を奏する。 According to the present invention, it is possible to more appropriately determine the annotation to be added to the image.
以下に添付図面を参照して、この発明にかかる注釈付与装置、方法およびプログラムの一実施の形態を詳細に説明する。 Exemplary embodiments of an annotation assigning apparatus, method, and program according to the present invention will be described below in detail with reference to the accompanying drawings.
本実施の形態の注釈付与装置は、学習画像と複数の注釈とを対応づけた学習データを用いた学習により得られる学習結果を参照して、注釈付与の対象となる対象画像に対する注釈を決定する。本実施の形態の注釈付与装置は、例えば、商標を表す対象画像に対して、標章の図形要素を分類するために定められている「ウイーン分類」に対応する注釈を付与する装置に適用できる。 The annotation giving apparatus according to the present embodiment determines an annotation for a target image to be annotated with reference to a learning result obtained by learning using learning data in which a learning image is associated with a plurality of annotations. . The annotation giving apparatus according to the present embodiment can be applied to, for example, an apparatus for giving an annotation corresponding to “Wien classification” defined for classifying graphic elements of a mark on a target image representing a trademark. .
ウイーン分類は、すべての図形要素を大分類、中分類、小分類に分けた階層構成となっている。そして、大分類、中分類、小分類それぞれに所定の符号体系に従った番号(以下、分類コードという)が付与されている。例えば分類コード=「1.1」は、「星、彗星」を表すことが定められている。 The Vienna classification has a hierarchical structure in which all graphic elements are divided into a large classification, a medium classification, and a small classification. A number according to a predetermined code system (hereinafter referred to as a classification code) is assigned to each of the major classification, middle classification, and minor classification. For example, the classification code = “1.1” is defined to represent “star, comet”.
以下では、本実施の形態の注釈付与装置を、対象画像に付与するウイーン分類の分類コードを決定するように構成した例について説明する。分類コードを決定すれば、分類コードに対応する内容(注釈)が決定できる。なお、適用可能な注釈はウイーン分類の分類コードに対応する注釈に限られるものではない。学習画像に付与しうるものであればよいため、任意の注釈を適用することができる。 Hereinafter, an example will be described in which the annotation adding apparatus according to the present embodiment is configured to determine the classification code of the Vienna classification to be given to the target image. If the classification code is determined, the content (annotation) corresponding to the classification code can be determined. Note that applicable annotations are not limited to annotations corresponding to the Vienna classification code. An arbitrary annotation can be applied as long as it can be given to the learning image.
本実施の形態の注釈付与装置は、まず、対象画像を複数の分割画像に分割する。次に、分割画像と特徴量が類似する上位k個の学習画像を求め、学習画像に対応する分類コードを取得する。次に、取得された分類コードに対して、学習データ内での分類コードの出現頻度、および、分割画像と検索した画像との類似度等に応じて分類コードの優先度を表すスコアを算出する。そして、スコアが上位である所定数の分類コードを、付与すべき分類コードとして決定する。これにより、画像の特徴量との関係が強い分類コードを適切に決定することができる。 The annotation giving apparatus according to the present embodiment first divides a target image into a plurality of divided images. Next, the top k learning images whose feature amounts are similar to the divided images are obtained, and a classification code corresponding to the learning image is acquired. Next, for the obtained classification code, a score representing the priority of the classification code is calculated according to the appearance frequency of the classification code in the learning data, the similarity between the divided image and the searched image, and the like. . Then, a predetermined number of classification codes having higher scores are determined as classification codes to be given. Thereby, it is possible to appropriately determine a classification code having a strong relationship with the feature amount of the image.
図1は、本実施の形態にかかる注釈付与装置を含む情報処理システムの構成例を示すブロック図である。図1に示すように情報処理システムは、注釈付与装置100と、複数のユーザ端末200a、200bとが、ネットワーク300を介して接続された構成となっている。ネットワーク300は、LAN(Loacal Area Network)およびインターネットなどのあらゆるネットワーク構成を適用できる。ユーザ端末200a、200bは、例えばPC(パーソナルコンピュータ)などのユーザにより利用される端末装置である。なお、ユーザ端末200a、200bは同様の構成を備えるため、以下では単にユーザ端末200という場合がある。また、ユーザ端末200の個数は2に限られるものではない。
FIG. 1 is a block diagram illustrating a configuration example of an information processing system including an annotation assigning apparatus according to the present embodiment. As illustrated in FIG. 1, the information processing system has a configuration in which an
ユーザ端末200は、分類コードを付与する対象となる画像を表す対象画像を注釈付与装置100に送信する。また、ユーザ端末200は、対象画像に対して注釈付与装置100が付与した分類コードを注釈付与装置100から受信し、ディスプレイなどの表示部(図示せず)に表示する。
The user terminal 200 transmits a target image representing an image to which a classification code is assigned to the
注釈付与装置100は、指定された対象画像に対して付与する分類コードを決定し、決定した分類コードをユーザ端末200等に出力する。分類コードの決定方法の詳細については後述する。
The
なお、システム構成は図1の構成に限られるものではない。例えば、注釈付与装置100内で対象画像の指定を受付け、この対象画像に対して決定された分類コードを注釈付与装置100に備えられる表示部(図示せず)等に出力するように構成してもよい。
The system configuration is not limited to the configuration shown in FIG. For example, it is configured to accept the designation of the target image in the
次に、注釈付与装置100の機能構成について説明する。図1に示すように、注釈付与装置100は、インデックス記憶部151と、対応記憶部152と、規則記憶部153と、画像受付部101と、分割部111と、特徴抽出部112と、検索部113と、算出部114と、第1決定部115と、分類部116と、第2決定部117と、パターン検出部118と、第3決定部119と、出力部121と、通信部122と、を備えている。
Next, the functional configuration of the
インデックス記憶部151は、複数の学習画像と、学習画像それぞれの特徴量とを対応づけたインデックスを記憶する。インデックス記憶部151に記憶されるインデックスは、検索部113が対象画像に類似する学習画像を検索するときに参照される。インデックスは、学習画像と複数の分類コードとを対応づけた学習データを用いた学習により、与えられた画像と特徴量が類似する複数の学習画像を検索できるように構成される。
The
なお、インデックスの学習は例えば以下のように実行される。まず、学習データに含まれる学習画像から、特徴抽出部112と同様の方法により学習画像の特徴量を抽出する。そして、分割画像と特徴量が類似する学習画像を検索するためのインデックスを、例えばk近傍(KNN:K Nearest Neighbors)法により学習する。この場合、インデックス記憶部151は、例えばKNN法で利用可能なkd(k-dimensional)木で表されたインデックスを記憶するように構成することができる。
Note that index learning is performed, for example, as follows. First, the feature amount of the learning image is extracted from the learning image included in the learning data by the same method as the
なお、インデックスの学習方法およびデータ構造は、KNN法およびkd木に限られるものではない。特徴量が類似する学習画像を検索可能なものであればあらゆる学習方法および対応するデータ構造を適用できる。 Note that the index learning method and data structure are not limited to the KNN method and the kd tree. Any learning method and corresponding data structure can be applied as long as a learning image having a similar feature amount can be searched.
対応記憶部152は、インデックス記憶部151に記憶される学習画像と当該学習画像に予め付与された複数の分類コードとを対応づけて記憶する。対応記憶部152は、検索された学習画像に対応する分類コードを取得するときに参照される。
The
規則記憶部153は、分割画像の特徴量に応じて、各分類コードに対応する複数のクラスのいずれかに分割画像を分類するための規則を記憶する。例えば、規則記憶部153は、学習画像と当該学習画像に対する1つの分類コードとを対応づけた学習データを用いてランダム・フォレスト法により学習された規則を記憶する。
The
なお、規則の学習は例えば以下のように実行される。まず、学習データに含まれる学習画像から、特徴抽出部112と同様の方法により学習画像の特徴量を抽出する。そして、分割画像と特徴量が類似する学習画像を検索するための規則を、ランダム・フォレスト法により学習する。この場合、規則記憶部153は、特徴量に応じて分岐していくことにより分類するクラスを決定する複数の決定木で表された規則を記憶する。
The rule learning is executed as follows, for example. First, the feature amount of the learning image is extracted from the learning image included in the learning data by the same method as the
なお、規則の学習方法は、ランダム・フォレスト法に限られるものではない。ランダム・フォレスト法を用いれば、多数の特徴量をベクトル化した高次元の特徴ベクトルを用いることによる、いわゆる次元の呪いの問題を解消可能となる。すなわち、ランダム・フォレスト法では、特徴ベクトルに含まれる特徴量のうち一部がランダムに選択され、選択された特徴量に応じて分割画像が分類される。また、このような分類が複数の決定木それぞれに対して行われ、各決定木による結果の投票(多数決)により、最終的に分類するクラスが決定される。したがって、より客観的に分類するクラス(分類コード)を決定することができる。 The rule learning method is not limited to the random forest method. If the random forest method is used, the so-called dimensional curse problem caused by using a high-dimensional feature vector obtained by vectorizing a large number of features can be solved. That is, in the random forest method, a part of the feature amounts included in the feature vector is selected at random, and the divided images are classified according to the selected feature amount. Further, such classification is performed on each of the plurality of decision trees, and finally a class to be classified is determined by voting (majority decision) on the result of each decision tree. Therefore, a class (classification code) to be classified more objectively can be determined.
なお、規則記憶部153では1つのクラスに対して1つの分類コードが対応づけられる。したがって、分類部116によって分類された分割画像に対しては、分類されたクラスに対応する1つの分類コードが得られる。これに対し、上述の対応記憶部152では1つの学習画像に対して複数の分類コードが対応づけられている。また、検索部113は分割画像に対して複数の類似する学習画像を検索する。したがって、検索部113によって検索された分割画像に付与すべき分類コードとして、複数の分類コードが得られる。
In the
通信部122は、ユーザ端末200などの外部装置との間で各種情報を送受信する。例えば、通信部122は、ユーザ端末200から、対象画像または対象画像を識別する情報を受信する。また、通信部122は、対象画像に対して決定された分類コードをユーザ端末200に送信する。
The
画像受付部101は、対象画像の指定を受付ける。例えば、画像受付部101は、ユーザ端末200から通信部122を介して受信した対象画像を受付ける。なお、対象画像の受付け方法はこれに限られるものではない。例えば、対象画像を識別する情報を受付け、この情報を元に注釈付与装置100内部または外部装置から対象画像を取得するように構成してもよい。
The
分割部111は、対象画像を複数の分割画像に分割する。分割部111は、例えば、対象画像に含まれる図形領域と文字領域とを認識し、各領域に対応する複数の分割画像に分割する。なお、分割方法はこれに限られるものではなく、任意の分割方法を適用できる。
The dividing
特徴抽出部112は、各分割画像を解析し、分割画像の特徴量を抽出する。特徴量としては、例えば、色ヒストグラム、配色、エッジ、テクスチャ、構図などの従来から用いられているあらゆる指標を適用できる。
The
検索部113は、各分割画像について、抽出された特徴量と類似する特徴量に対応する複数の学習画像をインデックス記憶部151から検索する。検索部113は、例えばKNN法によって、分割画像から抽出された特徴量と類似するk個の学習画像をインデックス記憶部151から検索する。なお、適用可能な検索方法はKNN法に限られず、例えば、近似最近傍探索(ANN:Approximate Nearest Neighbor)法を適用してもよい。
The
算出部114は、検索部113によって検索された学習画像に対応づけられた各分類コードについて、分類コードのスコアを算出する。具体的には、算出部114は、インデックス記憶部151のインデックスの学習に用いた学習データ内での分類コードの出現頻度が小さく、分割画像と学習画像との類似度が大きく、かつ、対応づけられた複数の学習画像の特徴量が相互に類似するほど大きい値となるスコアを算出する。スコアの算出方法の詳細については後述する。
The
第1決定部115は、算出されたスコアが大きい分類コードを優先して、対象画像に付与する分類コードとして決定する。例えば、第1決定部115は、スコアが上位の所定数の分類コードを対象画像に付与する分類コードとして決定する。なお、後述するように第2決定部117および第3決定部119によっても付与する分類コードが決定される。そして、出力部121が、決定された分類コードから、信用値(後述)が高い分類コードを、最終的に対象画像に付与する分類コードとして決定して出力する。
The
分類部116は、特徴抽出部112によって抽出された特徴量と、規則記憶部153に記憶された規則とを用いて、分割部111によって分割された各分割画像をいずれかのクラスに分類する。例えば、分類部116は、ランダム・フォレスト法により、学習された規則を用いて、分割画像を特徴量に応じたクラスに分類する。
The
第2決定部117は、分類されたクラスに対応づけられた分類コードを、対象画像に付与する分類コードとして決定する。
The
パターン検出部118は、対象画像から予め定められた画像パターンを検出する。画像パターンとしては、例えば円、楕円(ウイーン分類では26.1)、四角形(ウイーン分類では26.4)などの容易に特定可能な幾何学的パターンを適用できる。
The
第3決定部119は、検出された画像パターンに予め対応づけられた分類コードを、対象画像に付与する分類コードとして決定する。例えば、正方形が検出された場合、第3決定部119は、ウイーンコードの「正方形」に対応する分類コードである「26.4.1」を付与する分類コードとして決定する。
The
出力部121は、決定された分類コードを出力する。本実施の形態では、出力部121が、第1決定部115、第2決定部117、および第3決定部119で決定された各分類コードを統合し、すべての分類コードの中から信用値が高い所定数の分類コードを選択して最終的な分類コードとして出力する。信用値とは、分類コードの確からしさを表す値である。信用値は、例えば学習データによる学習を行ったときに事前に算出し、分類コードと信用値とを対応づけたテーブル(以下、信用テーブルという)として所定の記憶部(図示せず)に記憶しておく。信用テーブルの詳細については後述する。
The
以上のように、本実施の形態では、A.KNN法などにより検索される複数の画像から分類コードを決定する機能(以下、機能Aという)、B.ランダム・フォレスト法などにより分類されるクラスに応じた分類コードを決定する機能(以下、機能Bという)、C.対象画像から検出される画像パターンに対応する分類コードを決定する機能(以下、機能Cという)、の3つの機能により分類コードが決定される。 As described above, in this embodiment, A. A function for determining a classification code from a plurality of images searched by the KNN method or the like (hereinafter referred to as function A); A function for determining a classification code corresponding to a class classified by the random forest method (hereinafter referred to as function B), C.I. The classification code is determined by three functions: a function for determining a classification code corresponding to an image pattern detected from the target image (hereinafter referred to as function C).
本実施の形態の注釈付与装置100は、少なくとも機能Aを備えていればよい。機能Aにより、学習データ内での分類コードの出現頻度等に応じて算出した分類コードのスコアが上位である所定数の分類コードを、付与すべき分類コードとして決定することができる。すなわち、画像の特徴量との関係が強い分類コードを適切に決定することができる。機能Bをさらに備えれば、上述のように次元の呪いの問題を解消し、より客観的に分類コードを決定可能となる。
The
さらに機能Cを備えれば、分類コードが不均衡となる問題を解消可能となる。分類コードが不均衡となる問題とは、例えば、円または四角形などのような単純な画像パターンは、多くの学習データに含まれる可能性が高いため、このような画像パターンに対応する分類コードが学習結果に多く含まれることになるという問題である。 Furthermore, if the function C is provided, the problem that the classification codes are unbalanced can be solved. The problem that the classification codes are unbalanced is that, for example, a simple image pattern such as a circle or a rectangle is likely to be included in a lot of learning data. Therefore, there is a classification code corresponding to such an image pattern. It is a problem that it will be included in many learning results.
機能Cによれば、多くの画像に含まれうる画像パターンに対応する分類コードを容易に決定することができる。また、この機能Cで決定できる分類コードを除外した分類コードを、機能AおよびBにより決定するように構成すれば、一部の分類コードが多数の学習結果に含まれることを回避可能となる。 According to the function C, it is possible to easily determine a classification code corresponding to an image pattern that can be included in many images. Further, if the classification code excluding the classification code that can be determined by the function C is determined by the functions A and B, it is possible to avoid that some classification codes are included in many learning results.
なお、機能AおよびBを共に備える場合に、それぞれが決定する分類コードを重複しないように分けてもよい。例えば、機能Bでは、データ量が小さい学習データにより学習可能な分類コードを選択して学習し、それ以外の分類コードを機能Aで決定するように構成してもよい。 When both functions A and B are provided, the classification codes determined by each may be divided so as not to overlap. For example, the function B may be configured to select and learn a classification code that can be learned from learning data with a small amount of data, and to determine other classification codes using the function A.
次に、機能Aの概要について説明する。図2は、KNN法などにより検索される複数の画像から分類コードを決定する機能の概要を説明するための図である。 Next, an outline of function A will be described. FIG. 2 is a diagram for explaining an outline of a function for determining a classification code from a plurality of images searched by the KNN method or the like.
図2に示すように、入力された対象画像21は、複数の分割画像22a〜22cに分割される。なお、分割数は3に限られるものではない。また、図2では省略しているが、各分割画像に対して、特徴抽出部112によって特徴量が抽出される。
As shown in FIG. 2, the
検索部113は、各分割画像について、インデックス記憶部151を参照してKNN法により抽出した特徴量が類似する学習画像を検索する。これにより、各分割画像に対する検索結果23が得られる。なお、検索結果23は、分割画像ごとにk/n個(nは分割数)の類似する学習画像を含んでいる。得られたk/n個の学習画像は、それぞれ分割画像に対する類似度が対応づけられている。この結果、対象画像に対しては、k個の学習画像が得られる。図2では、得られたk個の学習画像を、類似度が高い順にImg1〜Imgkのように並べた例が示されている。また、図2では、画像群24が、得られたk個の学習画像を表している。
The
算出部114は、このようにして得られた分割画像ごとの学習画像に対応づけられた分類コードを対応記憶部152から取得する。そして、算出部114は、得られた分類コードに対して、出現頻度、類似度、類似度の大きい順を表すランク、および、対応づけられた学習画像の特徴量の相互類似度(後述)を用いて、分類コードのスコアを算出する。これにより、スコア付分類コードリスト25が得られる。
The
次に、このように構成された本実施の形態にかかる注釈付与装置100による注釈決定処理について説明する。図3は、本実施の形態における注釈決定処理の全体の流れを示すフローチャートである。
Next, the annotation determination process by the
まず、画像受付部101が、指定された対象画像を受付ける(ステップS301)。以下、機能A(ステップS302〜ステップS307)、機能B(ステップS302〜ステップS309)、および機能C(ステップS310、ステップS311)がそれぞれ実行される。なお、各機能は任意の順序で実行できる。また、各機能を並列に実行するように構成してもよい。
First, the
機能Aおよび機能Bに共通する処理として、まず、分割部111が、対象画像を複数の分割画像に分割する(ステップS302)。また、特徴抽出部112が、各分割画像から、分割画像の特徴量を抽出する(ステップS303)。
As processing common to function A and function B, first, the dividing
次に、機能Aに固有の処理として、検索部113は、抽出された特徴量と類似する特徴量に対応するk個の学習画像を、インデックス記憶部151から検索する(ステップS304)。検索部113は、検索した学習画像に対応する分類コードを対応記憶部152から取得する(ステップS305)。
Next, as processing unique to function A, the
次に、算出部114が、取得された分類コードのスコアを算出するスコア算出処理を実行する(ステップS306)。スコア算出処理の詳細については後述する。次に、第1決定部115が、算出されたスコアが上位の所定数の分類コードを、対象画像に付与する分類コードとして決定する(ステップS307)。
Next, the
機能Bに固有の処理としては、分類部116が、規則記憶部153を参照してランダム・フォレスト法により各分割画像をいずれかのクラスに分類する(ステップS308)。次に、第2決定部117が、分類されたクラスに対応する分類コードを、対象画像に付与する分類コードとして決定する(ステップS309)。
As processing unique to the function B, the
機能Cに固有の処理としては、パターン検出部118が、対象画像から予め定められた画像パターンを検出する(ステップS310)。画像パターン検出処理の詳細については後述する。次に、第3決定部119が、検出された画像パターンに対して予め定められた分類コードを、対象画像に付与する分類コードとして決定する(ステップS311)。
As processing unique to the function C, the
各機能により分類コードが決定された後(ステップS307、ステップS309、ステップS311)、出力部121が、決定された分類コードの中から、最適な分類コードを選択し、最終的に出力する分類コードとして決定する(ステップS312)。出力部121は、決定された分類コードを例えば通信部122を介してユーザ端末200に出力し(ステップS312)、注釈決定処理を終了する。
After the classification code is determined by each function (step S307, step S309, step S311), the
次に、ステップS306のスコア算出処理の詳細について説明する。図4は、スコア算出処理の全体の流れを示すフローチャートである。 Next, details of the score calculation process in step S306 will be described. FIG. 4 is a flowchart showing the overall flow of the score calculation process.
まず、算出部114は、図3のステップS305で取得された分類コードから未処理の分類コードを取得する(ステップS401)。なお、算出部114は、各分割画像に対して取得された分類コードをすべて含む分類コード群から、未処理であるいずれかの分類コードを1つ取得する。
First, the
次に、算出部114は、スコアを算出するために用いられる値(第1要素値)である要素a(factor_a)を算出する要素a算出処理を実行する(ステップS402)。要素aは、分割画像に対する類似度が大きく、かつ、類似度を大きい順に並べたときの順序が小さいほど大きくなるような値である。要素a算出処理の詳細については後述する。なお、要素aの算出式は以下の(1)式で表される。
ここで、coderは、取得された分類コードのうちr番目(1≦r≦分類コード数)の分類コードを表す。factor_a(coder)は、coderに対するスコアを算出するための要素aの値を表す。SimScore(Imgi)は、検索時にImgiに対して求められた分割画像に対する類似度を表す。Imgiは、coderが対応づけられた学習画像の集合であるIM(coder)に含まれる学習画像を表す。baseは、予め定められた基数である。rank(Imgi)は、k個の検索結果内での学習画像Imgiの類似度の大きさの順序(ランク)を表す。ランクは、1〜kの整数値であり、類似度が大きいほど値は小さくなる。 Here, code r represents the r-th (1 ≦ r ≦ number of classification codes) classification code among the acquired classification codes. factor_a (code r ) represents the value of element a for calculating a score for code r . SimScore (Img i ) represents the similarity to the divided image obtained for Img i at the time of search. Img i represents the learning image code r is included in the IM (code r) is the set of correspondence is learning image. base is a predetermined radix. rank (Img i ) represents the order (rank) of the magnitude of similarity of the learning image Img i in the k search results. The rank is an integer value of 1 to k, and the value decreases as the similarity degree increases.
baseは、1未満の値(例えば0.95)を設定する。これにより、rank(Imgi)を指数とするbaseのべき乗が、rank(Imgi)が大きいほど小さくなるようにできる。なお、rank(Imgi)−1を指数とするように構成してもよい。 The base is set to a value less than 1 (for example, 0.95). Thus, power of base to rank the (Img i) and index, can be made smaller as the rank (Img i) is large. It may be configured so as to index the rank (Img i) -1.
要素aを算出した後、算出部114は、スコアを算出するために用いられる別の値(第2要素値)である要素b(factor_b)を算出する要素b算出処理を実行する(ステップS403)。要素bは、分類コードに複数の学習画像が対応づけられているときに、各学習画像の特徴量が相互に類似するほど大きくなるような値である。3つ以上の学習画像が分類コードに対応づけられているときは、すべての2つの学習画像の組み合わせに対して特徴量間が相互に類似する度合いを表す相互類似度が算出され、要素bに加算される。要素b算出処理の詳細については後述する。なお、要素bの算出式は以下の(2)式〜(5)式で表される。
factor_b(coder)は、coderに対するスコアを算出するための要素bの値を表す。(4)式のw(Imgs,Imgt)は、ImgsとImgtとの相互類似度を表す。(4)式に含まれるdist(Imgs,Imgt)は、特徴ベクトル空間内でのImgsの特徴量を含む特徴ベクトルとImgtの特徴量を含む特徴ベクトルとの間のユークリッド距離を表す。また、(4)式に含まれるCは、予め定められる定数であり、例えばC=100を用いる。 factor_b (code r ) represents the value of element b for calculating the score for code r . In the formula (4), w (Img s , Img t ) represents the mutual similarity between Img s and Img t . (4) dist (Img s, Img t) contained in the formula represents the Euclidean distance between the feature vector comprising a feature value of a feature vector and Img t including the feature quantity of Img s in feature vector space . Further, C included in the equation (4) is a predetermined constant, and for example, C = 100 is used.
要素bを算出した後、算出部114は、分類コード(coder)のIDF(Inverse Document Frequency)を算出する(ステップS404)。coderのIDFは、以下の(6)式により算出される。
idf(coder)=log(N/df(coder)) ・・・(6)
After calculating the element b, the
idf (code r ) = log (N / df (code r )) (6)
Nは、インデックス記憶部151に記憶されている学習画像の総数を表す。df(coder)は、インデックス記憶部151に記憶されている学習画像のうち、coderが対応づけられている学習画像の個数を表す。
N represents the total number of learning images stored in the
次に、算出部114は、算出したIDF、要素a、および要素bを用いて、以下の(7)式により、分類コード(coder)のスコアを表すscore(coder)を算出する(ステップS405)。
score(coder)=α×idf(coder)×factor_a(coder)
+β×factor_b(coder) ・・・(7)
Next, the
score (code r ) = α × idf (code r ) × factor_a (code r )
+ Β × factor_b (code r ) (7)
αおよびβは予め定められた定数を表す。このように、算出部114は、IDFと要素aとの積と、要素bとの線形和をスコアとして算出する。
α and β represent predetermined constants. As described above, the
次に、算出部114は、すべての分類コードを処理したか否かを判断し(ステップS406)、処理していない場合は(ステップS406:No)、次の未処理の分類コードを取得して処理を繰り返す(ステップS401)。すべての分類コードを処理した場合は(ステップS406:Yes)、スコア算出処理を終了する。
Next, the
次に、ステップS402の要素a算出処理の詳細について説明する。図5は、要素a算出処理の全体の流れを示すフローチャートである。 Next, details of the element a calculation process in step S402 will be described. FIG. 5 is a flowchart showing the overall flow of the element a calculation process.
まず、算出部114は、現在処理している分類コード(coder)に対応する要素a(factor_a(coder))の値を0に初期化する(ステップS501)。次に、算出部114は、検索された学習画像のうち未処理の学習画像(以下、Imgiとする)を取得する(ステップS502)。次に、算出部114は、分類コードcoderが、学習画像Imgiに対応づけられているか否かを判断する(ステップS503)。算出部114は、例えば対応記憶部152を参照することにより、学習画像Imgiに所望の分類コードが対応づけられているかを判断する。
First, the
分類コードcoderが、学習画像Imgiに対応づけられている場合(ステップS503:Yes)、算出部114は、baseのrank(Imgi)乗を算出し、得られた値と学習画像Imgiに対して得られた類似度(SimScore(Imgi))との積を、factor_a(coder)に加算する(ステップS504)。
When the classification code code r is associated with the learning image Img i (step S503: Yes), the
分類コードcoderが、学習画像Imgiに対応づけられていない場合(ステップS503:No)、および、ステップS504の後、算出部114は、すべての学習画像を処理したか否かを判断する(ステップS505)。
When the classification code code r is not associated with the learning image Img i (step S503: No), and after step S504, the
すべての学習画像を処理していない場合(ステップS505:No)、算出部114は、次の未処理の学習画像を取得して処理を繰り返す(ステップS502)。すべての学習画像を処理した場合(ステップS505:Yes)、要素a算出処理を終了する。
When all the learning images have not been processed (step S505: No), the
次に、ステップS403の要素b算出処理の詳細について説明する。図6は、要素b算出処理の全体の流れを示すフローチャートである。 Next, details of the element b calculation process in step S403 will be described. FIG. 6 is a flowchart showing the overall flow of the element b calculation process.
まず、算出部114は、現在処理している分類コード(coder)に対応する要素b(factor_b(coder))の値、および、カウンタiを0に初期化する(ステップS601)。また、算出部114は、カウンタjをi+1に初期化する(ステップS602)。
First,
次に、算出部114は、rankがi番目となる学習画像(Imiとする)を取得する(ステップS603)。また、算出部114は、rankがj番目となる学習画像(Imjとする)を取得する(ステップS604)。次に、算出部114は、分類コードcoderが、取得したImiおよびImjの両方に対応づけられているか否かを判断する(ステップS605)。
Next, the
両方に対応づけられている場合(ステップS605:Yes)、算出部114は、ImiおよびImjとの相互類似度を算出し、factor_b(coder)に加算する(ステップS606)。相互類似度は、上記(4)式のように特徴ベクトル空間でのユークリッド距離が小さいほど大きくなるように算出される。
If both are associated (step S605: Yes),
分類コードcoderがImiおよびImjの両方に対応づけられていない場合(ステップS605:No)、および、ステップS606の後、算出部114は、jの値に1を加算する(ステップS607)。次に、算出部114は、jがkより小さいか否かを判断し(ステップS608)、小さい場合は(ステップS608:Yes)、ステップS604に戻り処理を繰り返す。jがk以上となった場合は(ステップS608:No)、算出部114は、iの値に1を加算する(ステップS609)。次に、算出部114は、iがk−1より小さいか否かを判断し(ステップS610)、小さい場合は(ステップS610:Yes)、ステップS603に戻り処理を繰り返す。iがk−1以上となった場合は(ステップS610:No)、要素b算出処理を終了する。
When the classification code code r is not associated with both Im i and Im j (step S605: No), and after step S606, the
次に、ステップS310の画像パターン検出処理の詳細について説明する。図7は、画像パターン検出処理の一例を示す説明図である。図7は、1つ以上の四角形を含む画像パターンを検出する場合の例を表している。 Next, details of the image pattern detection processing in step S310 will be described. FIG. 7 is an explanatory diagram showing an example of image pattern detection processing. FIG. 7 shows an example in which an image pattern including one or more quadrangles is detected.
パターン検出部118は、対象画像のノイズを除去し(ステップS701)、輪郭を検出する(ステップS702)。次に、パターン検出部118は、検出した各輪郭の頂点を算出し(ステップS703)、頂点が4つである輪郭を取得する(ステップS704)。次に、パターン検出部118は、輪郭の各辺の長さ、角の大きさを算出する(ステップS705)。パターン検出部118は、辺の長さ、角の大きさの算出結果から、輪郭が長方形(ウイーン分類の26.4.2)、正方形(ウイーン分類の26.4.1)、またはそれ以外の四角形であるかを判定できる。すなわち、パターン検出部118は、長方形および正方形である画像パターンを検出できる。
The
複数の輪郭が検出された場合は、パターン検出部118は、さらに輪郭間の位置関係を検出する(ステップS706)。例えば、パターン検出部118は、各四角形の4つの頂点の座標の大小関係を比較することにより、2つの四角形が重なっていることを検出する。この場合、例えば「並置・結合又は交差する複数の四角形(ウイーン分類の26.4.9)」である画像パターンが検出される。同様にして、ウイーン分類のその他の分類コード(図7では26.4.4、26.4.7、26.4.8)に対応する画像パターンを検出することができる。
If a plurality of contours are detected, the
次に、出力部121が最適な分類コードを決定するときに参照する信用テーブルについて説明する。図8は、信用テーブルのデータ構造の一例を示す図である。図8に示すように、信用テーブルは、分類コードごとに、機能A(KNN)、機能B(ランダムフォレスト)、および機能C(パターン検出)のそれぞれで検出したときの分類コードの信用値を記憶する。
Next, the trust table referred to when the
信用値は、例えば学習データに対して各機能で分類コードを検出したときに事前に算出し、信用テーブルに保存しておく。信用値としては、例えば、再現率と適合率との調和平均であるF値を用いることができる。なお、信用値はこれに限られるものではなく、分類コードの確からしさを表すものであればあらゆる指標を適用できる。例えば、再現率または適合率のいずれかを信用値として利用してもよい。 The trust value is calculated in advance when, for example, a classification code is detected for each function in the learning data, and stored in the trust table. As the credit value, for example, an F value that is a harmonic average of the recall rate and the matching rate can be used. The credit value is not limited to this, and any index can be applied as long as it represents the certainty of the classification code. For example, either the recall rate or the matching rate may be used as the credit value.
出力部121は、このような信用テーブルを参照し、第1決定部115、第2決定部117、および第3決定部119で決定された各分類コードに対応する信用値を取得する。そして、信用値が高い所定数の分類コードを選択して最終的な分類コードとして出力する。なお、出力部121は、上記各決定部(第1決定部115、第2決定部117、第3決定部119)のうち、分類コードを決定した決定部に対応する信用テーブルの列から、信用値を取得する。例えば、分類コード「26.1.1」が第1決定部115により得られた場合は、「KNN」の列に対応する信用値「0.41」を信用テーブルから取得する。また、複数の決定部が同一の分類コードが決定された場合は、対応する信用値のうち最大の信用値を取得する。
The
次に、機能Aにより分類コードのスコアを算出する処理の具体例について説明する。以下では、対象画像を分割した分割画像に類似する学習画像として、Img1〜Img5の5つの学習画像が得られた場合を例に説明する。図9は、学習画像ごとに求められるランク、類似度、対応づけられた分類コード(関連分類コード)の例を示す図である。 Next, a specific example of processing for calculating the score of the classification code by the function A will be described. Hereinafter, a case where five learning images Img 1 to Img 5 are obtained as learning images similar to the divided image obtained by dividing the target image will be described as an example. FIG. 9 is a diagram illustrating an example of ranks, similarities, and associated classification codes (related classification codes) obtained for each learning image.
図9に示すように、この例では、各学習画像に対応する分類コードとして、{1.1、2.3、4.2、3.5、5.1}が得られる。したがって、ステップS306のスコア算出処理は、この5つの分類コードを対象として実行される。 As shown in FIG. 9, in this example, {1.1, 2.3, 4.2, 3.5, 5.1} is obtained as the classification code corresponding to each learning image. Therefore, the score calculation process in step S306 is executed for these five classification codes.
分類コードは、複数の学習画像に対応づけられている場合がある。図9の例では、例えば分類コード「1.1」がImg1およびImg3の2つの学習画像に対応づけられている。したがって、例えば分類コード「1.1」が対応づけられた学習画像の集合IM(1.1)は、IM(1.1)={Img1、Img3}となる。同様に、IM(2.3)={Img1、Img2}、IM(4.2)={Img1、Img4}、IM(3.5)={Img2、Img4、Img5}、およびIM(5.1)={Img2、Img3、Img5}となる。 The classification code may be associated with a plurality of learning images. In the example of FIG. 9, for example, the classification code “1.1” is associated with two learning images of Img 1 and Img 3 . Therefore, for example, a set IM (1.1) of learning images associated with the classification code “1.1” is IM (1.1) = {Img 1 , Img 3 }. Similarly, IM (2.3) = {Img 1 , Img 2 }, IM (4.2) = {Img 1 , Img 4 }, IM (3.5) = {Img 2 , Img 4 , Img 5 } , And IM (5.1) = {Img 2 , Img 3 , Img 5 }.
分類コード「1.1」の要素a(factor_a(1.1))は、以下のように算出される。
factor_a(1.1)=0.57×power(0.95、0)
+0.48×power(0.95、2)=1.0032
The element a (factor_a (1.1)) of the classification code “1.1” is calculated as follows.
factor_a (1.1) = 0.57 × power (0.95, 0)
+ 0.48 × power (0.95, 2) = 1.0032
power(a,b)は、aを基数、bを指数とするべき乗を算出する関数を表す。なお、ここでは、rank(Imgi)−1を指数として用いている。 power (a, b) represents a function for calculating a power with a as a radix and b as an exponent. Here, rank (Img i ) -1 is used as an index.
同様に、その他の分類コードの要素aは、以下のように算出される。
factor_a(2.3)=0.57×power(0.95、0)
+0.52×power(0.95、1)=1.064
factor_a(4.2)=0.57×power(0.95、0)
+0.46×power(0.95、3)≒0.964
factor_a(3.5)=0.52×power(0.95、1)
+0.46×power(0.95、3)
+0.32×power(0.95、4)≒1.149
factor_a(5.1)=0.52×power(0.95、1)
+0.48×power(0.95、2)
+0.32×power(0.95、4)≒1.188
Similarly, the element a of the other classification code is calculated as follows.
factor_a (2.3) = 0.57 × power (0.95, 0)
+ 0.52 × power (0.95, 1) = 1.064
factor_a (4.2) = 0.57 × power (0.95, 0)
+ 0.46 × power (0.95, 3) ≈0.964
factor_a (3.5) = 0.52 × power (0.95, 1)
+ 0.46 × power (0.95, 3)
+ 0.32 × power (0.95, 4) ≈1.149
factor_a (5.1) = 0.52 × power (0.95, 1)
+ 0.48 × power (0.95, 2)
+ 0.32 × power (0.95, 4) ≈1.188
この例では、分類コード「5.1」に対する要素aの値が最も大きい。したがって、分類コード「5.1」に対するスコアがより大きい値となることが予想される。 In this example, the value of the element a for the classification code “5.1” is the largest. Therefore, the score for the classification code “5.1” is expected to be a larger value.
図10は、学習画像間の相互類似度の算出例を示す図である。図10は、上記(4)式により算出される値の一例を示している。図10の値を用いると、上記(2)式により、分類コードの要素bが以下のように算出される。
factor_b(1.1)=0.41
factor_b(2.3)=0.43
factor_b(4.2)=0.35
factor_b(3.5)=0.40+0.38+0.15=0.93
factor_b(5.1)=0.53+0.38+0.56=1.47
FIG. 10 is a diagram illustrating a calculation example of the mutual similarity between learning images. FIG. 10 shows an example of values calculated by the above equation (4). Using the values in FIG. 10, the element b of the classification code is calculated as follows according to the above equation (2).
factor_b (1.1) = 0.41
factor_b (2.3) = 0.43
factor_b (4.2) = 0.35
factor_b (3.5) = 0.40 + 0.38 + 0.15 = 0.93
factor_b (5.1) = 0.53 + 0.38 + 0.56 = 1.47
この例では、分類コード「5.1」に対する要素bの値が最も大きい。したがって、分類コード「5.1」に対するスコアがより大きい値となることが予想される。実際に算出されるスコアは、上記(2)式に示すように、各分類コードのIDF、α、およびβの値によって変わる。しかし、上記例の要素aおよび要素bの算出結果からは、分類コード「5.1」に対するスコアが最大となる可能性が高いと言える。 In this example, the value of the element b for the classification code “5.1” is the largest. Therefore, the score for the classification code “5.1” is expected to be a larger value. The actually calculated score varies depending on the IDF, α, and β values of each classification code, as shown in the above equation (2). However, from the calculation results of the element a and the element b in the above example, it can be said that there is a high possibility that the score for the classification code “5.1” is maximized.
図9に示すように、この分類コード「5.1」は、検索された5つの画像のうち、3つの画像(Img2、Img3、Img5)に対応づけられている。また、図10に示すように、分類コード「5.1」は、相互類似度が最も大きい2つの画像であるImg3およびImg5に共に含まれている。このように、本実施の形態によれば、より多くの画像に対応づけられており、かつ、対応づけられた複数の画像間の相互類似度が大きい分類コードに対して、より大きい値のスコアを算出できる。したがって、画像に付与する注釈をより適切に決定することが可能となる。 As shown in FIG. 9, the classification code “5.1” is associated with three images (Img 2 , Img 3 , Img 5 ) among the searched five images. As shown in FIG. 10, the classification code “5.1” is included in both of the two images Img 3 and Img 5 that have the highest mutual similarity. As described above, according to the present embodiment, a score having a larger value is associated with a classification code that is associated with a larger number of images and has a large mutual similarity between a plurality of associated images. Can be calculated. Therefore, it is possible to more appropriately determine the annotation to be added to the image.
次に、本実施の形態にかかる注釈付与装置のハードウェア構成について図11を用いて説明する。図11は、本実施の形態にかかる注釈付与装置のハードウェア構成の一例を示す図である。 Next, a hardware configuration of the annotation assigning apparatus according to the present embodiment will be described with reference to FIG. FIG. 11 is a diagram illustrating an example of a hardware configuration of the annotation assigning apparatus according to the present embodiment.
本実施の形態の注釈付与装置は、CPU51などの制御装置と、ROM(Read Only Memory)52やRAM53などの記憶装置と、HDD、CDドライブ装置などの外部記憶装置と、ネットワークに接続して通信を行う通信I/F54と、ディスプレイ装置などの表示装置と、キーボードやマウスなどの入力装置と、各部を接続するバス61を備えており、通常のコンピュータを利用したハードウェア構成となっている。
The annotation assigning apparatus according to the present embodiment communicates with a control device such as a
本実施の形態の注釈付与装置で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されてコンピュータ・プログラム・プロダクトとして提供される。 The program executed by the annotation assigning apparatus according to the present embodiment is an installable or executable file, and is a computer such as a CD-ROM, a flexible disk (FD), a CD-R, a DVD (Digital Versatile Disk). Recorded on a readable recording medium and provided as a computer program product.
また、本実施の形態の注釈付与装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、本実施の形態の注釈付与装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。 Further, the program executed by the annotation assigning apparatus of the present embodiment may be provided by being stored on a computer connected to a network such as the Internet and downloaded via the network. In addition, the program executed by the annotation assigning apparatus according to the present embodiment may be provided or distributed via a network such as the Internet.
また、本実施の形態のプログラムを、ROM52等に予め組み込んで提供するように構成してもよい。
Further, the program of the present embodiment may be configured to be provided by being incorporated in advance in the
本実施の形態の注釈付与装置で実行されるプログラムは、上述した各部(画像受付部、分割部、特徴抽出部、検索部、算出部、第1決定部、分類部、第2決定部、パターン検出部、第3決定部、出力部、通信部)を含むモジュール構成となっており、実際のハードウェアとしてはCPU(プロセッサ)51が上記記憶媒体からプログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、上記各部が主記憶装置上に生成されるようになっている。 The program executed by the annotation assigning apparatus according to the present embodiment includes the above-described units (image receiving unit, dividing unit, feature extracting unit, search unit, calculating unit, first determining unit, classification unit, second determining unit, pattern The module configuration includes a detection unit, a third determination unit, an output unit, and a communication unit). As actual hardware, the CPU (processor) 51 reads a program from the storage medium and executes the program, so that each unit is It is loaded on the main storage device, and the above-described units are generated on the main storage device.
100 注釈付与装置
101 画像受付部
111 分割部
112 特徴抽出部
113 検索部
114 算出部
115 第1決定部
116 分類部
117 第2決定部
118 パターン検出部
119 第3決定部
121 出力部
122 通信部
151 インデックス記憶部
152 対応記憶部
153 規則記憶部
200a、200b ユーザ端末
300 ネットワーク
DESCRIPTION OF
Claims (7)
前記画像と予め定められた複数の注釈とを対応づけて記憶する対応記憶部と、
注釈を付与する対象画像を複数の分割画像に分割する分割部と、
前記分割画像を解析し、前記分割画像の特徴量を抽出する特徴抽出部と、
対応する前記特徴量と抽出された前記特徴量との類似度が大きい予め定められた個数の前記画像を前記インデックス記憶部から検索する検索部と、
検索された前記画像に対応づけられた前記注釈それぞれについて、前記対応記憶部内での前記注釈の出現頻度が小さいほど大きく、かつ、対応する前記画像の前記類似度が大きいほど大きく、かつ、対応づけられた複数の前記画像の特徴量が相互に類似するほど大きい値となる前記注釈のスコアを算出する算出部と、
前記スコアが大きい前記注釈を優先して前記対象画像に付与する前記注釈を決定する第1決定部と、
を備えることを特徴とする注釈付与装置。 An index storage unit that stores an index in which a plurality of predetermined images and feature amounts of the images are associated;
A correspondence storage unit that associates and stores the image and a plurality of predetermined annotations;
A dividing unit that divides the target image to be annotated into a plurality of divided images;
A feature extraction unit that analyzes the divided image and extracts a feature amount of the divided image;
A search unit that searches the index storage unit for a predetermined number of images having a high degree of similarity between the corresponding feature value and the extracted feature value;
For each of the annotations associated with the searched image, the annotation is greater as the appearance frequency of the annotation in the correspondence storage unit is smaller, and is larger as the similarity of the corresponding image is larger. A calculation unit that calculates a score of the annotation that becomes a larger value as the feature quantities of the plurality of images obtained are similar to each other;
A first determination unit that determines the annotation to be given to the target image in preference to the annotation with a large score;
An annotation giving apparatus comprising:
を特徴とする請求項1に記載の注釈付与装置。 The calculation unit is similar in that the reverse appearance frequency that is greater as the appearance frequency is smaller, the first element value that is greater as the similarity of the corresponding image is larger, and the feature quantities of the plurality of associated images are similar to each other. Calculating a second element value that is larger, and calculating the score that is a linear sum of the product of the first element value and the reverse appearance frequency and the second element value;
The annotation giving apparatus according to claim 1.
を特徴とする請求項1に記載の注釈付与装置。 The calculation unit further calculates the score that is larger as the rank representing the order of the similarity of the corresponding images is larger,
The annotation giving apparatus according to claim 1.
前記特徴抽出部によって抽出された前記特徴量を前記規則に適用して前記分割画像を前記クラスのいずれかに分類する分類部と、
前記対象画像に付与する注釈として、分類された前記クラスに対応づけられた前記注釈を決定する第2決定部と、をさらに備えること、
を特徴とする請求項1に記載の注釈付与装置。 A rule storage unit for storing a rule for classifying an image into one of a plurality of classes associated with annotations according to the feature amount of the image;
A classification unit that applies the feature amount extracted by the feature extraction unit to the rule to classify the divided image into one of the classes;
A second determination unit that determines the annotation associated with the classified class as an annotation to be added to the target image;
The annotation giving apparatus according to claim 1.
前記画像パターンに予め対応づけられた注釈を、前記対象画像に付与する注釈として決定する第3決定部と、をさらに備えること、
を特徴とする請求項1に記載の注釈付与装置。 A pattern detection unit for detecting a predetermined image pattern from the target image;
A third determination unit that determines an annotation previously associated with the image pattern as an annotation to be added to the target image;
The annotation giving apparatus according to claim 1.
特徴抽出部が、前記分割画像を解析し、前記分割画像の特徴量を抽出する特徴抽出ステップと、
検索部が、予め定められた複数の画像と前記画像の特徴量とを対応づけたインデックスを記憶するインデックス記憶部から、対応する前記特徴量と抽出された前記特徴量との類似度が大きい予め定められた個数の前記画像を検索する検索ステップと、
算出部が、前記画像と予め定められた複数の注釈とを対応づけて記憶する対応記憶部内で検索された前記画像に対応づけられた前記注釈それぞれについて、前記対応記憶部内での前記注釈の出現頻度が小さいほど大きく、かつ、対応する前記画像の前記類似度が大きいほど大きく、かつ、対応づけられた複数の前記画像の特徴量が相互に類似するほど大きい値となる前記注釈のスコアを算出する算出ステップと、
第1決定部が、前記スコアが大きい前記注釈を優先して前記対象画像に付与する前記注釈を決定する第1決定ステップと、
を含むことを特徴とする注釈付与方法。 A dividing step in which the dividing unit divides the target image to be annotated into a plurality of divided images;
A feature extraction step of analyzing the divided image and extracting a feature amount of the divided image;
A search unit stores an index in which a plurality of predetermined images and feature amounts of the images are associated with each other, and the similarity between the corresponding feature amount and the extracted feature amount is large in advance. A search step for searching a predetermined number of the images;
Appearance of the annotation in the correspondence storage unit for each of the annotations associated with the image searched in the correspondence storage unit in which the calculation unit associates and stores the image and a plurality of predetermined annotations The annotation score that is larger as the frequency is smaller and larger as the degree of similarity of the corresponding image is larger and becomes larger as the feature quantities of the plurality of associated images are similar to each other is calculated. A calculating step to
A first determination unit that determines the annotation to be given to the target image in preference to the annotation with a large score;
Annotation method characterized by comprising:
注釈を付与する対象画像を複数の分割画像に分割する分割部と、
前記分割画像を解析し、前記分割画像の特徴量を抽出する特徴抽出部と、
対応する前記特徴量と抽出された前記特徴量との類似度が大きい予め定められた個数の前記画像を前記インデックス記憶部から検索する検索部と、
検索された前記画像に対応づけられた前記注釈それぞれについて、前記対応記憶部内での前記注釈の出現頻度が小さいほど大きく、かつ、対応する前記画像の前記類似度が大きいほど大きく、かつ、対応づけられた複数の前記画像の特徴量が相互に類似するほど大きい値となる前記注釈のスコアを算出する算出部と、
前記スコアが大きい前記注釈を優先して前記対象画像に付与する前記注釈を決定する第1決定部と、
して機能させるための注釈付与プログラム。 An index storage unit that stores an index that associates a plurality of predetermined images with the feature amount of the image, and a correspondence storage unit that stores the image and a plurality of predetermined annotations in association with each other. A computer with
A dividing unit that divides the target image to be annotated into a plurality of divided images;
A feature extraction unit that analyzes the divided image and extracts a feature amount of the divided image;
A search unit that searches the index storage unit for a predetermined number of images having a high degree of similarity between the corresponding feature value and the extracted feature value;
For each of the annotations associated with the searched image, the annotation is greater as the appearance frequency of the annotation in the correspondence storage unit is smaller, and is larger as the similarity of the corresponding image is larger. A calculation unit that calculates a score of the annotation that becomes a larger value as the feature quantities of the plurality of images obtained are similar to each other;
A first determination unit that determines the annotation to be given to the target image in preference to the annotation with a large score;
Annotation program to make it function.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009238350A JP5347897B2 (en) | 2009-10-15 | 2009-10-15 | Annotation apparatus, method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009238350A JP5347897B2 (en) | 2009-10-15 | 2009-10-15 | Annotation apparatus, method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011086113A JP2011086113A (en) | 2011-04-28 |
JP5347897B2 true JP5347897B2 (en) | 2013-11-20 |
Family
ID=44079011
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009238350A Expired - Fee Related JP5347897B2 (en) | 2009-10-15 | 2009-10-15 | Annotation apparatus, method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5347897B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8891878B2 (en) * | 2012-06-15 | 2014-11-18 | Mitsubishi Electric Research Laboratories, Inc. | Method for representing images using quantized embeddings of scale-invariant image features |
CN105740402B (en) * | 2016-01-28 | 2018-01-02 | 百度在线网络技术(北京)有限公司 | The acquisition methods and device of the semantic label of digital picture |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006004157A (en) * | 2004-06-17 | 2006-01-05 | Olympus Corp | Image retrieval program, image retrieval method, image retrieval device, and storage medium |
JP4478513B2 (en) * | 2004-06-10 | 2010-06-09 | キヤノン株式会社 | Digital camera, digital camera control method, program, and recording medium storing the same |
JP2006155340A (en) * | 2004-11-30 | 2006-06-15 | Konica Minolta Holdings Inc | Image managing device, image management method, and image management program |
JP2008217428A (en) * | 2007-03-05 | 2008-09-18 | Fujitsu Ltd | Image-retrieving program, method, and device |
JP2008226061A (en) * | 2007-03-15 | 2008-09-25 | Fujifilm Corp | Image tag designating device, image searching device, operation control method therefor and program for controlling those computers |
-
2009
- 2009-10-15 JP JP2009238350A patent/JP5347897B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011086113A (en) | 2011-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11868394B2 (en) | Analyzing content of digital images | |
US10430649B2 (en) | Text region detection in digital images using image tag filtering | |
US8005300B2 (en) | Image search system, image search method, and storage medium | |
JP5281156B2 (en) | Annotating images | |
US8243988B1 (en) | Clustering images using an image region graph | |
JP5121917B2 (en) | Image search apparatus, image search method and program | |
US8744183B2 (en) | Clustering of forms from large-scale scanned-document collection | |
US20150199567A1 (en) | Document classification assisting apparatus, method and program | |
WO2009098468A2 (en) | A method and system of indexing numerical data | |
JP5094830B2 (en) | Image search apparatus, image search method and program | |
US20080222113A1 (en) | Image search method, apparatus, and program | |
JP4937395B2 (en) | Feature vector generation apparatus, feature vector generation method and program | |
JP5014479B2 (en) | Image search apparatus, image search method and program | |
Dharani et al. | Content based image retrieval system using feature classification with modified KNN algorithm | |
CN111797267A (en) | Medical image retrieval method and system, electronic device and storage medium | |
Sadique et al. | Content-based image retrieval using color layout descriptor, gray-level co-occurrence matrix and k-nearest neighbors | |
JP3903613B2 (en) | Search device and computer-readable recording medium storing search program | |
JP5347897B2 (en) | Annotation apparatus, method and program | |
JP6017277B2 (en) | Program, apparatus and method for calculating similarity between contents represented by set of feature vectors | |
JP2016110256A (en) | Information processing device and information processing program | |
Chen et al. | Spatially aware feature selection and weighting for object retrieval | |
Gál et al. | Multiple kernel learning based modality classification for medical images | |
US20170293863A1 (en) | Data analysis system, and control method, program, and recording medium therefor | |
CN108475339B (en) | Method and system for classifying objects in an image | |
Schenker et al. | Clustering of web documents using graph representations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120807 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130711 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130723 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130805 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5347897 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
LAPS | Cancellation because of no payment of annual fees |