JP2015164012A - Category discriminator generation apparatus, category discrimination device, and computer program - Google Patents
Category discriminator generation apparatus, category discrimination device, and computer program Download PDFInfo
- Publication number
- JP2015164012A JP2015164012A JP2014039474A JP2014039474A JP2015164012A JP 2015164012 A JP2015164012 A JP 2015164012A JP 2014039474 A JP2014039474 A JP 2014039474A JP 2014039474 A JP2014039474 A JP 2014039474A JP 2015164012 A JP2015164012 A JP 2015164012A
- Authority
- JP
- Japan
- Prior art keywords
- category
- learning
- feature amount
- image
- level feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
Description
本発明は、画像のカテゴリを識別する技術に関する。 The present invention relates to a technique for identifying a category of an image.
画像に含まれる物体やシーンといったカテゴリを識別する手法として、例えば以下のような手法がある。事前にカテゴリラベル付きの学習用画像から特徴量を抽出し、SVM(Support vector machine)等で複数のカテゴリの識別器を学習させる。そして、カテゴリの識別対象である未知の画像の特徴量を抽出し、学習させた複数のカテゴリの識別器を用いて未知の画像が学習済みのカテゴリのいずれに属するかを判定させる。このようにして、未知の画像のカテゴリを識別することができる。
カテゴリの識別に用いられる特徴量は2つの特徴量に大別することができる。1つ目の特徴量は、SIFT(Scale-Invariant Feature Transform)や色ヒストグラムといった画像信号に基づくLow-levelな特徴量(以下、「Low-level特徴量」という。)である。2つ目の特徴量は、Low-level特徴量から新たに学習したMid-levelな特徴量(以下、「Mid-level特徴量」という。)である。Mid-level特徴量は、例えば犬における尻尾・足・毛皮や飛行機における翼・窓・金属といった動物体を構成する構成要素や質感(例えば、非特許文献1参照)を表す特徴量や、都市部におけるビル・道路・人や自然風景における木・草原・川といったシーンを構成する物体や環境(例えば、非特許文献2参照)を表す特徴量である。
As a technique for identifying a category such as an object or a scene included in an image, for example, the following technique is available. Feature amounts are extracted from learning images with category labels in advance, and classifiers of a plurality of categories are learned using an SVM (Support Vector Machine) or the like. Then, the feature amount of the unknown image that is the category identification target is extracted, and it is determined whether the unknown image belongs to the learned category by using the learned classifiers of the plurality of categories. In this way, an unknown image category can be identified.
The feature quantities used for category identification can be roughly divided into two feature quantities. The first feature amount is a low-level feature amount (hereinafter referred to as “Low-level feature amount”) based on an image signal such as SIFT (Scale-Invariant Feature Transform) or a color histogram. The second feature amount is a mid-level feature amount newly learned from the low-level feature amount (hereinafter referred to as “Mid-level feature amount”). Mid-level feature amounts include, for example, feature amounts representing texture elements (for example, see Non-Patent Document 1) and urban areas such as tails, legs, furs in dogs, wings, windows, and metals in airplanes. This is a feature amount representing an object or environment (for example, see Non-Patent Document 2) constituting a scene such as a building, road, person, and a tree, grassland, or river in a natural landscape.
カテゴリの識別にLow-level特徴量を用いる場合、画像信号から直接カテゴリを学習しているため、学習過程が不透明であり、どのようなカテゴリに対してどのような特徴量を用いることが有効であるか検証することが困難である。また、画像信号とカテゴリとの意味的なギャップが大きいため、高精度な識別を行うには多くの学習データが必要となる。
カテゴリの識別にMid-level特徴量を用いる場合、まずLow-level特徴量を基にカテゴリを構成する中間要素の識別器を学習させ、中間要素の識別器の出力値を特徴量としてカテゴリを学習させる。カテゴリは人間に知覚可能な中間要素の組合せで表現されているため、カテゴリの識別にMid-level特徴量を用いる場合には学習過程が明瞭である。また、Mid-level特徴量とカテゴリとの意味的なギャップが、Low-level特徴量とカテゴリとのギャップに比べると小さいため、少量の学習データで高精度な識別が可能である。
しかしながら、Mid-level特徴量を用いる場合、どのような中間要素を特徴量とすべきか事前に決定する必要がある。非特許文献1、2では、人手で中間要素を決定し、決定された中間要素の識別器を学習させる。非特許文献3では、識別すべきカテゴリが既知である場合、識別すべきカテゴリを弁別するために最適な中間要素の特徴量を自動的に獲得している。
When low-level features are used for category identification, the categories are learned directly from the image signal, so the learning process is opaque and it is effective to use what features for what categories. It is difficult to verify whether it exists. In addition, since the semantic gap between the image signal and the category is large, a large amount of learning data is required for highly accurate identification.
When using mid-level features for category identification, first learn the intermediate element classifiers that make up the category based on the low-level feature quantities, and learn the categories using the output values of the intermediate element classifiers as feature quantities. Let Since the category is expressed by a combination of intermediate elements that can be perceived by humans, the learning process is clear when the mid-level feature is used for category identification. In addition, since the semantic gap between the Mid-level feature value and the category is smaller than the gap between the Low-level feature value and the category, high-precision identification is possible with a small amount of learning data.
However, when using the mid-level feature value, it is necessary to determine in advance which intermediate element should be used as the feature value. In
しかしながら、新たにカテゴリを学習させる場合、既知のカテゴリの中間要素と新たに学習させるカテゴリの中間要素とが一致してしまうと、新たに学習させるカテゴリを弁別することが出来ない。例えば、事前に学習させたMid-level特徴量が尻尾・足・翼であり、既知のカテゴリが犬・飛行機であり、新たに猫のカテゴリを学習させる場合を考える。猫のカテゴリと飛行機のカテゴリとを比較した場合、猫のカテゴリには尻尾・足が存在する一方で翼は存在せず、飛行機のカテゴリには翼が存在する一方で尻尾・足は存在しない。そのため、猫のカテゴリと飛行機のカテゴリとでは、中間要素が互いに背反であるためカテゴリの弁別が可能である。しかし、猫のカテゴリと犬のカテゴリとを比較した場合、両カテゴリともに尻尾・足が存在し、翼が存在しない。そのため、猫のカテゴリと犬のカテゴリとでは、各中間要素が一致(衝突)しており両カテゴリを弁別することは困難である。上述したように、類似したカテゴリを学習する際には、事前に学習したMid-level特徴量のみではカテゴリの弁別が困難であるという問題があった。 However, when a category is newly learned, if the intermediate element of the known category matches the intermediate element of the newly learned category, the newly learned category cannot be distinguished. For example, let us consider a case where the Mid-level feature amount learned in advance is tail, foot, wing, the known category is dog / airplane, and a new category of cat is learned. When the cat category and the airplane category are compared, the cat category has a tail / foot but no wings, and the airplane category has wings but no tail / foot. Therefore, the category of the cat category and the airplane category can be discriminated because the intermediate elements are contradictory to each other. However, when comparing the cat category with the dog category, both categories have tails / feet and no wings. Therefore, in the cat category and the dog category, each intermediate element matches (collises), and it is difficult to discriminate between the two categories. As described above, when learning similar categories, there is a problem that it is difficult to discriminate between categories only by using Mid-level feature values learned in advance.
上記事情に鑑み、本発明は、類似したカテゴリを学習する場合であってもカテゴリの弁別を容易にすることができる技術の提供を目的としている。 In view of the above circumstances, an object of the present invention is to provide a technique capable of easily discriminating categories even when learning similar categories.
本発明の一態様は、画像のカテゴリを学習するための学習画像から第1の画像特徴量を抽出する第1画像特徴量抽出部と、抽出された前記第1の画像特徴量から第2の画像特徴量を抽出する第2画像特徴量抽出部と、抽出された前記第2の画像特徴量と、学習済みのカテゴリの第2の画像特徴量とに基づいて、前記学習画像のカテゴリに類似する前記学習済みのカテゴリが存在するか否か判定する類似カテゴリ判定部と、類似する前記学習済みのカテゴリが存在すると判定された場合に、前記学習画像の前記第1の画像特徴量と、類似する前記学習済みのカテゴリの第1の画像特徴量とに基づいて、類似する前記学習済みのカテゴリの第2の画像特徴量と類似しない第2の画像特徴量を生成し、生成された前記第2の画像特徴量を前記学習画像の第2の画像特徴量に加えて新たな第2の画像特徴量を生成する特徴量生成部と、前記新たな第2の画像特徴量を識別するためのカテゴリ識別器を生成するカテゴリ学習部と、備えるカテゴリ識別器生成装置である。 According to one aspect of the present invention, a first image feature amount extraction unit that extracts a first image feature amount from a learning image for learning a category of an image, and a second from the extracted first image feature amount Similar to the category of the learning image based on the second image feature amount extraction unit that extracts the image feature amount, the extracted second image feature amount, and the second image feature amount of the learned category A similar category determining unit that determines whether or not the learned category exists, and the first image feature amount of the learned image when it is determined that the similar learned category exists. And generating a second image feature quantity that is not similar to the second image feature quantity of the similar learned category based on the first image feature quantity of the learned category to be generated, and The image feature amount of 2 is used as the learning image. In addition to the second image feature amount, a feature amount generation unit that generates a new second image feature amount, and a category learning unit that generates a category identifier for identifying the new second image feature amount And a category discriminator generating device.
本発明の一態様は、上記のカテゴリ識別器生成装置であって、前記カテゴリ学習部は、前記学習画像のカテゴリに類似しない前記学習済みのカテゴリに関して、線形識別器の出力値の関係式において、前記学習画像の第2の画像特徴量に新たに追加した前記第2の画像特徴量に対する重みを無くす。 One aspect of the present invention is the above-described category classifier generation device, wherein the category learning unit is configured to use a relational expression of output values of a linear classifier for the learned category that is not similar to the category of the learning image. The weight for the second image feature amount newly added to the second image feature amount of the learning image is eliminated.
本発明の一態様は、上記のカテゴリ識別器生成装置の前記カテゴリ学習部によって学習された前記カテゴリ識別器を用いて、入力された画像のカテゴリを識別するカテゴリ識別装置である。 One aspect of the present invention is a category identification device that identifies a category of an input image using the category identifier learned by the category learning unit of the category identifier generation device.
本発明の一態様は、上記の装置としてコンピュータを機能させるためのコンピュータプログラムである。 One embodiment of the present invention is a computer program for causing a computer to function as the above-described device.
本発明により、類似したカテゴリを学習する場合であってもカテゴリの弁別を容易にすることが可能となる。 According to the present invention, even when similar categories are learned, category discrimination can be facilitated.
以下、本発明の一実施形態を、図面を参照しながら説明する。
図1は、本発明におけるカテゴリ識別器生成装置100の機能構成を表す概略ブロック図である。カテゴリ識別器生成装置100は、入力される画像(カテゴリ学習用画像)がどのようなカテゴリに分類されるかを識別する識別器(カテゴリ識別器)を学習によって生成する装置である。カテゴリは、画像に含まれる動物体やシーンなどであり、例えば猫や犬などである。また、カテゴリ識別器生成装置100には、カテゴリ学習用画像記憶部10に記憶されているカテゴリ学習用画像が入力される。カテゴリ学習用画像は、画像と画像のカテゴリとを示すカテゴリ付きの画像データである。カテゴリ学習用画像は、カテゴリ学習用画像を識別するためのインデクスに対応付けられてカテゴリ学習用画像記憶部10に記憶されている。カテゴリ識別器生成装置100は、入力されたカテゴリ学習用画像に基づいてカテゴリの識別器を学習する。
以下、カテゴリ識別器生成装置100の具体的な構成について説明する。
Hereinafter, an embodiment of the present invention will be described with reference to the drawings.
FIG. 1 is a schematic block diagram showing a functional configuration of a category
Hereinafter, a specific configuration of the category
カテゴリ識別器生成装置100は、バスで接続されたCPU(Central Processing Unit)やメモリや補助記憶装置などを備え、カテゴリ識別器生成プログラムを実行する。カテゴリ識別器生成プログラムの実行によって、カテゴリ識別器生成装置100は、Low-level特徴量抽出部(第1画像特徴量抽出部)101、Low-level特徴量記憶部102、Mid-level特徴量抽出部(第2画像特徴量抽出部)103、Mid-level特徴量記憶部104、類似カテゴリ判定部105、特徴量生成部106、カテゴリ学習部107、カテゴリ識別器記憶部108を備える装置として機能する。なお、カテゴリ識別器生成装置100の各機能の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されてもよい。また、カテゴリ識別器生成プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。また、カテゴリ識別器生成プログラムは、電気通信回線を介して送受信されてもよい。
The category
Low-level特徴量抽出部101は、入力された学習対象のカテゴリ(以下、「学習カテゴリ」という。)のカテゴリ学習用画像からLow-level特徴量(第1の画像特徴量)を抽出する。Low-level特徴量の抽出には、例えばSIFT、SURF(Speed-Up Robust Features)、HoG(Histogram of oriented Gradient)、色ヒストグラム、エッジヒストグラム、ウェーブレット特徴などが適用される。
Low-level特徴量記憶部102は、磁気ハードディスク装置や半導体記憶装置などの記憶装置を用いて構成される。Low-level特徴量記憶部102は、Low-level特徴量抽出部101によって抽出されたLow-level特徴量とともに学習カテゴリのカテゴリ学習用画像のインデクスを記憶する。
The low-level feature
The low-level feature
Mid-level特徴量抽出部103は、Low-level特徴量抽出部101によって抽出されたLow-level特徴量からMid-level特徴量(第2の画像特徴量)を抽出する。Mid-level特徴量の抽出には、学習カテゴリの識別器以外のあらゆる識別器の出力値を用いることができる。Mid-level特徴量は、非特許文献1に記載のAttribute(属性)が挙げられる。より具体的には、犬・飛行機・猫をカテゴリとするとき、尻尾・足・翼がAttributeに相当する。
Mid-level特徴量記憶部104は、磁気ハードディスク装置や半導体記憶装置などの記憶装置を用いて構成される。Mid-level特徴量記憶部104は、Mid-level特徴量抽出部103によって抽出されたMid-level特徴量とともにカテゴリ学習用画像のインデクスを記憶する。
The mid-level feature
The mid-level feature
類似カテゴリ判定部105は、Mid-level特徴量記憶部104に記憶されているMid-level特徴量に基づいて、学習カテゴリと類似したカテゴリ(以下、「類似カテゴリ」という。)が存在するか否か判定する。具体的には、類似カテゴリ判定部105は、学習カテゴリのMid-level特徴量と、学習済みカテゴリのMid-level特徴量とが衝突しているか否か検知する。類似カテゴリが存在する場合、つまり、学習カテゴリのMid-level特徴量と、学習済みカテゴリのMid-level特徴量とが衝突している場合、類似カテゴリ判定部105は類似カテゴリのインデクスの情報を特徴量生成部106に出力する。一方、類似カテゴリが存在しない場合、つまり、学習カテゴリのMid-level特徴量と、学習済みカテゴリのMid-level特徴量とが衝突していない場合、類似カテゴリ判定部105は学習カテゴリのMid-level特徴量をカテゴリ学習部107に出力する。類似カテゴリ判定部105の具体的な処理については後述する。
The similar
特徴量生成部106は、類似カテゴリのインデクスの情報に基づいて、新たなMid-level特徴量を生成する。新たなMid-level特徴量とは、Mid-level特徴量記憶部104に記憶されていないMid-level特徴量である。具体的には、まず特徴量生成部106は、類似カテゴリのインデクスの情報に基づいて、学習カテゴリのLow-level特徴量と、類似カテゴリのLow-level特徴量とをLow-level特徴量記憶部102から取得する。次に、特徴量生成部106は、取得した学習カテゴリのLow-level特徴量を正例、類似カテゴリのLow-level特徴量を負例として識別器を学習する。これにより、特徴量生成部106は、学習カテゴリと類似カテゴリとを弁別することが可能になる。そして、特徴量生成部106は、学習した識別器の出力値を新たなMid-level特徴量として生成する。識別器には、例えば線形SVMが用いられてもよい。特徴量生成部106によって生成された新たなMid-level特徴量は、新たなカテゴリを学習する際にも使用される。つまり、特徴量生成部106は、生成したMid-level特徴量をMid-level特徴量記憶部104に記憶されている各学習済みカテゴリのMid-level特徴量として新たに追加記憶させる。
The feature
カテゴリ学習部107は、学習カテゴリの識別器(カテゴリ識別器)を学習する。例えば、類似カテゴリ判定部105から学習カテゴリのMid-level特徴量が入力された場合、カテゴリ学習部107は入力されたMid-level特徴量に基づいて学習カテゴリの識別器を学習する。識別器の学習には、例えば線形識別器が用いられてもよい。また、カテゴリ学習部107は、特徴量生成部106によって得られた新たなMid-level特徴量を学習カテゴリのMid-level特徴量に加えて学習カテゴリの識別器を学習する。ここで、新たなMid-level特徴量を生成する前に学習したカテゴリ識別器と、新たなMid-level特徴量を生成した後に学習したカテゴリ識別器(学習カテゴリの識別器)とでは、Mid-level特徴量の次元数が異なる。そのため、通常は、前者のカテゴリ識別器に関して再学習が必要になる。しかし、カテゴリ学習部107が、以下の処理を行うことによって再学習が必要無くなる。線形識別器における出力値は、式1に示すようにn次元の特徴量aとその特徴量aの重みwの内積によって決定される。そのため、類似していない学習済みカテゴリに関しては、式2において特徴量生成部106で生成した特徴量の重みw_newを0とすることで式1と同じ式になるため、識別結果を不変にすることができる。そのため、識別器の再学習が不必要となる。
The
カテゴリ識別器記憶部108は、磁気ハードディスク装置や半導体記憶装置などの記憶装置を用いて構成される。カテゴリ識別器記憶部108は、カテゴリ学習部107によって学習された識別器(カテゴリ識別器)を記憶している。
The category
図2は、学習カテゴリのMid-level特徴量の衝突検知に関する概念図である。
図2には、左から順番にカテゴリ学習用画像、Mid-level特徴量、学習カテゴリのMid-level特徴量と学習済みカテゴリのMid-level特徴量との衝突検知結果が示されている。図2では、カテゴリ“飛行機”・“犬”・“猫”に関する画像がカテゴリ学習用画像として示されており、カテゴリ“飛行機”・“犬”が学習済みカテゴリに相当し、カテゴリ“猫”が学習カテゴリに相当する。図2の例では、Mid-level特徴量は、“Wing”・“Tail”・“Furry”の3つの値が示されている。各カテゴリ“飛行機”・“犬”・“猫”のカテゴリ学習用画像1−1〜1−3、2−1〜2−3、3−1〜3−3のMid-level特徴量がそれぞれのカテゴリ学習用画像1−1〜1−3、2−1〜2−3、3−1〜3−3に対応付けて示されている。例えば、カテゴリ“飛行機”のカテゴリ学習用画像1−1のMid-level特徴量は、”A1 1={0.90,0.21,0.18}”である。類似カテゴリ判定部105は、各カテゴリ学習用画像1−1〜1−3、2−1〜2−3、3−1〜3−3のMid-level特徴量に基づいて、学習カテゴリ(図2では、カテゴリ“猫”)の類似カテゴリがあるか否か判定する。
以下、類似カテゴリ判定部105の具体的な処理について説明する。
FIG. 2 is a conceptual diagram related to collision detection of the Mid-level feature amount of the learning category.
FIG. 2 shows, in order from the left, the category learning image, the Mid-level feature value, and the collision detection result between the learning category Mid-level feature value and the learned category Mid-level feature value. In FIG. 2, images related to the categories “airplane”, “dog”, and “cat” are shown as category learning images. The categories “airplane” and “dog” correspond to learned categories, and the category “cat” Corresponds to the learning category. In the example of FIG. 2, three values of “Wing”, “Tail”, and “Furry” are shown as the Mid-level feature amount. The category learning images 1-1 to 1-3, 2-1 to 2-3, and 3-1 to 3-3 for each category “airplane”, “dog”, and “cat” have respective Mid-level feature amounts. The category learning images 1-1 to 1-3, 2-1 to 2-3, and 3-1 to 3-3 are shown in association with each other. For example, the mid-level feature amount of the category learning image 1-1 of the category “airplane” is “A 1 1 = {0.90, 0.21, 0.18}”. The similar
Hereinafter, specific processing of the similar
類似カテゴリ判定部105は、衝突を検知するために学習カテゴリのMid-level特徴量と学習済みカテゴリのMid-level特徴量とに対して2標本検定を行い、帰無仮説が棄却されるか否か検定する。統計的検定には、t検定が用いられてもよい。類似カテゴリ判定部105は、Mid-level特徴量の各次元(図2では、“Wing”・“Tail”・“Furry”)に対して2標本検定を行い、帰無仮説が棄却された場合には帰無仮説が棄却された次元は衝突していないと判定する。一方、帰無仮説が棄却されなかった場合には、類似カテゴリ判定部105は帰無仮説が棄却されなかった次元は衝突していると判定する。
そして、類似カテゴリ判定部105は、各次元に対する判定結果に基づいて衝突率Rを算出する。具体的には、類似カテゴリ判定部105は、Mid-level特徴量の次元をN、衝突した次元の数をN_collisionとして、衝突率R=N_collision/Nにより衝突率Rを算出する。
The similar
Then, the similar
類似カテゴリ判定部105は、衝突率Rが閾値を超えた場合、両カテゴリのMid-level特徴量が衝突しているため弁別できない、すなわち類似カテゴリが存在すると判定する。この場合、類似カテゴリ判定部105は、類似カテゴリのインデクスの情報を特徴量生成部106に出力する。一方、類似カテゴリ判定部105は、衝突率Rが閾値を超えなかった場合、両カテゴリのMid-level特徴量が衝突していないため弁別できる、すなわち類似カテゴリが存在しないと判定する。閾値は、カテゴリ識別器生成装置100に予め記憶されていてもよいし、ユーザによって任意に決定されてもよい。
When the collision rate R exceeds the threshold, the similar
図2に示される例では、カテゴリ“飛行機”とカテゴリ“猫”との衝突検知結果は衝突率が0%である。つまり、カテゴリ“飛行機”とカテゴリ“猫”とは弁別が可能であることが示されている。この場合、類似カテゴリ判定部105は、カテゴリ“猫”のカテゴリ学習用画像のMid-level特徴量をカテゴリ学習部107に出力する。また、図2に示される例では、カテゴリ“犬”とカテゴリ“猫”との衝突検知結果は衝突率が100%である。つまり、カテゴリ“犬”とカテゴリ“猫”とは弁別が不可能である(衝突している)ことが示されている。この場合、類似カテゴリ判定部105は、類似カテゴリ(カテゴリ“犬”)のインデクスの情報を特徴量生成部106に出力する。
以上で、類似カテゴリ判定部105の具体的な処理についての説明を終了する。
In the example shown in FIG. 2, the collision detection result between the category “airplane” and the category “cat” has a collision rate of 0%. That is, it is shown that the category “airplane” and the category “cat” can be distinguished. In this case, the similar
Above, the description about the specific process of the similar
次に、図3及び4を用いて、類似カテゴリ判定部105及び特徴量生成部106の具体的な動作例について説明する。図3及び4は、類似カテゴリが存在する場合における処理を説明するための概念図である。図3及び4の説明では、予めカテゴリ“犬”及び“飛行機”の識別器が学習済みである場合を例に説明する。また、説明の簡単化のため、カテゴリで示されている移動体(例えば、“犬”や“飛行機”)がMid-level特徴量で示される属性(例えば、“Wing”や“Tail”)を有している場合には“1”で示し、有していない場合には“0”で示す。
Next, specific examples of operations of the similar
図3(A)に示される例では、学習済みカテゴリ“犬”の属性“Wing”に対応する項目が“0”、属性“Tail”に対応する項目が“1”である。つまり、犬は翼(“Wing”)を有しておらず、尻尾(“Tail”)を有していることが表されている。また、学習済みカテゴリ“飛行機”の属性“Wing”に対応する項目が“1”、属性“Tail”に対応する項目が“0”である。つまり、飛行機は翼を有しており、尻尾を有していないことが表されている。 In the example shown in FIG. 3A, the item corresponding to the attribute “Wing” of the learned category “dog” is “0”, and the item corresponding to the attribute “Tail” is “1”. That is, it is shown that the dog does not have wings (“Wing”) but has a tail (“Tail”). In addition, the item corresponding to the attribute “Wing” of the learned category “airplane” is “1”, and the item corresponding to the attribute “Tail” is “0”. That is, it is shown that the airplane has a wing and does not have a tail.
上述のように、学習済みカテゴリ“犬”と“飛行機”とでは各属性の値が異なる。そのため、類似カテゴリ判定部105は、学習済みカテゴリ“犬”と“飛行機”とで衝突率Rが閾値未満であると判定する。つまり、学習済みカテゴリ“犬”のMid-level特徴量と“飛行機”のMid-level特徴量とが衝突していない。この場合、学習済みカテゴリ“犬”と“飛行機”とは互いに背反となっているため、新たにカテゴリ“猫”の識別器を学習させる場合、衝突する学習済みカテゴリは1組だけになる。
As described above, the value of each attribute is different between the learned categories “dog” and “airplane”. Therefore, the similar
新たにカテゴリ“猫”の識別器を学習させる場合、カテゴリ“猫”に対応するカテゴリ学習用画像から抽出されたLow-level特徴量を元にMid-level特徴量(“Wing”や“Tail”)が抽出される。図3(B)に、学習カテゴリ“猫”の各属性に対応する項目を追加した例を示す。
図3(B)に示される例では、学習カテゴリ“猫”の属性“Wing”に対応する項目が“0”、属性“Tail”に対応する項目が“1”である。つまり、猫は翼(“Wing”)を有しておらず、尻尾(“Tail”)を有していることが表されている。
When a new classifier “category” is trained, a mid-level feature value (“Wing” or “Tail”) based on the low-level feature value extracted from the category learning image corresponding to the category “cat”. ) Is extracted. FIG. 3B shows an example in which items corresponding to the attributes of the learning category “cat” are added.
In the example shown in FIG. 3B, the item corresponding to the attribute “Wing” of the learning category “cat” is “0”, and the item corresponding to the attribute “Tail” is “1”. That is, the cat does not have wings (“Wing”) but has a tail (“Tail”).
図3(B)に示されるように、学習済みカテゴリ“犬”と学習カテゴリ“猫”とでは各属性の値が一致する。そのため、類似カテゴリ判定部105は、学習済みカテゴリ“犬”と学習カテゴリ“猫”とで衝突率Rが閾値以上であると判定する。つまり、学習済みカテゴリ“犬”のMid-level特徴量と学習カテゴリ“猫”のMid-level特徴量とが衝突している。この場合、特徴量生成部106は、両カテゴリ(学習済みカテゴリ“犬”と学習カテゴリ“猫”)を弁別可能な属性(New)の特徴量をMid-level特徴量として新たに追加する(図3(C))。学習済みカテゴリ“犬”と学習カテゴリ“猫”とを弁別することが可能な属性の特徴量が新たに追加されるため、全てのカテゴリは再び背反する。そして、学習カテゴリ“猫”を識別するための識別器が生成される。
As shown in FIG. 3B, the value of each attribute is the same in the learned category “dog” and the learning category “cat”. Therefore, the similar
また、再度新たにカテゴリ“ライオン”の識別器を学習させる場合、全てのカテゴリが背反であるため、衝突するカテゴリは1組だけになる。新たにカテゴリ“ライオン”の識別器を学習させる場合、カテゴリ“ライオン”に対応するカテゴリ学習用画像から抽出されたLow-level特徴量を元にMid-level特徴量(“Wing”や“Tail”や“New”)が抽出される。図4(A)に、学習カテゴリ“ライオン”の各属性に対応する項目を追加した例を示す。
図4(A)に示される例では、学習カテゴリ“ライオン”の属性“Wing”に対応する項目が“0”、属性“Tail”に対応する項目が“1”、属性“New”に対応する項目が“1”である。つまり、ライオンは翼(“Wing”)を有しておらず、尻尾(“Tail”)を有しており、属性“New”を有していることが表されている。
Further, when the classifier of the category “Lion” is newly learned again, since all categories are contradictory, there is only one set of conflicting categories. When a classifier of category “Lion” is newly learned, a Mid-level feature amount (“Wing” or “Tail”) based on the low-level feature amount extracted from the category learning image corresponding to category “Lion”. Or “New”) is extracted. FIG. 4A shows an example in which items corresponding to the attributes of the learning category “lion” are added.
In the example shown in FIG. 4A, the item corresponding to the attribute “Wing” of the learning category “Lion” corresponds to “0”, the item corresponding to the attribute “Tail” corresponds to “1”, and the attribute “New”. The item is “1”. That is, the lion does not have a wing (“Wing”), has a tail (“Tail”), and has an attribute “New”.
図4(A)に示されるように、学習済みカテゴリ“猫”と学習カテゴリ“ライオン”とで各属性の値が一致する。そのため、類似カテゴリ判定部105は、学習済みカテゴリ“猫”と学習カテゴリ“ライオン”とで衝突率Rが閾値以上であると判定する。つまり、学習済みカテゴリ“猫”のMid-level特徴量と学習カテゴリ“ライオン”のMid-level特徴量とが衝突している。この場合、特徴量生成部106は、両カテゴリ(学習済みカテゴリ“猫”と学習カテゴリ“ライオン”)を弁別可能な属性(New2)の特徴量をMid-level特徴量として新たに追加する(図4(B))。学習済みカテゴリ“猫”と学習カテゴリ“ライオン”とを弁別することが可能な属性の特徴量が新たに追加されるため、全てのカテゴリは再び背反する。そして、学習カテゴリ“ライオン”を識別するための識別器が生成される。新たなカテゴリが学習される度に、以上のような処理が繰り返し実行される。
以上で、類似カテゴリ判定部105及び特徴量生成部106の具体的な動作例についての説明を終了する。
As shown in FIG. 4A, the value of each attribute is the same in the learned category “Cat” and the learning category “Lion”. Therefore, the similar
Above, the description about the specific operation example of the similar
以下、カテゴリ識別器生成装置100における動作について具体例を用いて説明する。
カテゴリ識別器生成装置100は、カテゴリを1つずつ(逐次的に)学習する、つまり、あるカテゴリを識別するためのカテゴリ識別器を逐次的に生成する。具体例として、犬・飛行機・猫を識別するための識別器を順番に学習する例を説明する。また、Mid-level特徴量は、例えば尻尾・足・翼の特徴量が使用される。
まず、カテゴリ識別器生成装置100は、学習カテゴリ“犬”の識別器を学習する。犬が撮像されているカテゴリ学習用画像がカテゴリ識別器生成装置100に入力されると、Low-level特徴量抽出部101はカテゴリ学習用画像からLow-level特徴量を抽出する。次に、Mid-level特徴量抽出部103は、Low-level特徴量からMid-level特徴量(尻尾・足・翼)を抽出する。
Hereinafter, the operation in the category
The category
First, the category
類似カテゴリ判定部105は、Mid-level特徴量記憶部104に記憶されているMid-level特徴量に基づいて類似カテゴリが存在するか否か判定する。現時点では、類似カテゴリが存在しないため、カテゴリ学習部107は学習カテゴリ“犬”のMid-level特徴量(尻尾・足・翼)に基づいてカテゴリ“犬”の識別器を学習する。
The similar
次に、カテゴリ識別器生成装置100は、学習カテゴリ“飛行機”の識別器を学習する。飛行機が撮像されているカテゴリ学習用画像がカテゴリ識別器生成装置100に入力されると、Low-level特徴量抽出部101はカテゴリ学習用画像からLow-level特徴量を抽出する。次に、Mid-level特徴量抽出部103は、Low-level特徴量からMid-level特徴量を抽出する。
Next, the category
類似カテゴリ判定部105は、Mid-level特徴量記憶部104に記憶されているMid-level特徴量に基づいて類似カテゴリが存在するか否か判定する。この場合には、類似カテゴリ判定部105は、学習カテゴリ“飛行機”のMid-level特徴量と学習済みカテゴリ“犬”のMid-level特徴量とが衝突しているか否か判定する。学習カテゴリ“飛行機”のMid-level特徴量と学習済みカテゴリ“犬”のMid-level特徴量とは背反するため、衝突していない。つまり、類似カテゴリが存在しないため、カテゴリ学習部107は、学習カテゴリ“飛行機”のMid-level特徴量に基づいてカテゴリ“飛行機”の識別器を学習する。
The similar
次に、カテゴリ識別器生成装置100は、学習カテゴリ“猫”の識別器を学習する。猫が撮像されているカテゴリ学習用画像がカテゴリ識別器生成装置100に入力されると、Low-level特徴量抽出部101はカテゴリ学習用画像からLow-level特徴量を抽出する。次に、Mid-level特徴量抽出部103は、Low-level特徴量からMid-level特徴量を抽出する。
Next, the category
類似カテゴリ判定部105は、Mid-level特徴量記憶部104に記憶されているMid-level特徴量に基づいて類似カテゴリが存在するか否か判定する。この場合には、類似カテゴリ判定部105は、学習カテゴリ“猫”のMid-level特徴量と学習済みカテゴリ“飛行機”のMid-level特徴量とが衝突しているか否か判定する。さらに、類似カテゴリ判定部105は、学習カテゴリ“猫”のMid-level特徴量と学習済みカテゴリ“犬”のMid-level特徴量とが衝突しているか否か判定する。
The similar
学習カテゴリ“猫”のMid-level特徴量と学習済みカテゴリ“飛行機”のMid-level特徴量とは背反するため、衝突していない。一方、学習カテゴリ“猫”のMid-level特徴量と学習済みカテゴリ“犬”のMid-level特徴量とは衝突率Rが閾値以上であるため、衝突している。この場合、特徴量生成部106は、学習カテゴリ“猫”のLow-level特徴量と学習済みカテゴリ“犬”のLow-level特徴量とに基づいて新たなMid-level特徴量(New)を生成する。具体的には、学習カテゴリ“猫”のLow-level特徴量を正例、学習済みカテゴリ“犬”のLow-level特徴量を負例として線形識別器を学習する。カテゴリ学習部107は、まず学習カテゴリ“猫”の識別器を、“尻尾”・“足”・“翼”・“New”の4つのMid-level特徴量に基づいて学習する。また、カテゴリ学習部107は、類似カテゴリである学習済みカテゴリ“犬”の識別器を、学習カテゴリ“猫”の識別器と同様に4つのMid-level特徴量に基づいて再学習する。
Since the mid-level feature amount of the learning category “cat” and the mid-level feature amount of the learned category “airplane” are contradictory, there is no collision. On the other hand, the Mid-level feature amount of the learning category “Cat” and the Mid-level feature amount of the learned category “Dog” collide because the collision rate R is equal to or greater than the threshold value. In this case, the feature
その後、新たなカテゴリを学習する際、カテゴリ識別器生成装置100は上記処理にて新たに生成したMid-level特徴量“New”を加えた4つのMid-level特徴量を新たなカテゴリの対象が撮像されているカテゴリ学習用画像から抽出する。そして、カテゴリ識別器生成装置100は、抽出したMid-level特徴量が学習済みカテゴリ“犬”・“飛行機”・“猫”それぞれのMid-level特徴量と衝突しているか否か判定する。類似カテゴリが存在する場合には、新たにMid-level特徴量(New2)が追加される。
After that, when learning a new category, the category
図5は、本発明におけるカテゴリ識別装置200の機能構成を表す概略ブロック図である。カテゴリ識別装置200は、カテゴリ識別器生成装置100によって生成されたカテゴリ識別器を用いて、カテゴリ識別装置200に入力された画像のカテゴリを識別する。例えば、カテゴリ識別装置200には、テスト画像記憶部20に記憶されているテスト画像が入力される。テスト画像は、カテゴリ学習用画像と異なり、画像以外の情報を含まない。カテゴリ識別装置200は、カテゴリ識別器生成装置100によって生成されたカテゴリ識別器を用いて、入力されたテスト画像のカテゴリを識別する。
以下、カテゴリ識別装置200の具体的な構成について説明する。
FIG. 5 is a schematic block diagram showing the functional configuration of the
Hereinafter, a specific configuration of the
カテゴリ識別装置200は、バスで接続されたCPUやメモリや補助記憶装置などを備え、カテゴリ識別プログラムを実行する。カテゴリ識別プログラムの実行によって、カテゴリ識別装置200は、Low-level特徴量抽出部201、Mid-level特徴量抽出部202、カテゴリ識別器203を備える装置として機能する。なお、カテゴリ識別装置200の各機能の全て又は一部は、ASICやPLDやFPGA等のハードウェアを用いて実現されてもよい。また、カテゴリ識別プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。また、カテゴリ識別プログラムは、電気通信回線を介して送受信されてもよい。
The
Low-level特徴量抽出部201は、テスト画像からLow-level特徴量を抽出する。
Mid-level特徴量抽出部202は、Low-level特徴量抽出部201によって抽出されたLow-level特徴量からMid-level特徴量を抽出する。
カテゴリ識別器203は、カテゴリ学習部107の処理によって学習されたカテゴリ識別器である。カテゴリ識別器203は、Mid-level特徴量抽出部202によって抽出されたMid-level特徴量に基づいて、入力されたテスト画像のカテゴリを識別する。
The low-level feature
The mid-level feature
The
図6は、本実施形態におけるカテゴリ識別器生成装置100の処理の流れを示すフローチャートである。
カテゴリ識別器生成装置100にカテゴリ学習用画像が入力される(ステップS101)。カテゴリ学習用画像が入力されると、Low-level特徴量抽出部101は入力されたカテゴリ学習用画像からLow-level特徴量を抽出する(ステップS102)。その後、Low-level特徴量抽出部101は、抽出したLow-level特徴量をカテゴリ学習用画像のインデクスとともにLow-level特徴量記憶部102に記憶させる。
FIG. 6 is a flowchart showing a process flow of the category
A category learning image is input to the category discriminator generation device 100 (step S101). When the category learning image is input, the low-level feature
次に、Mid-level特徴量抽出部103は、Low-level特徴量抽出部101によって抽出されたLow-level特徴量からMid-level特徴量を抽出する(ステップS103)。その後、Mid-level特徴量抽出部103は、抽出したMid-level特徴量をカテゴリ学習用画像のインデクスとともにMid-level特徴量記憶部104に記憶させる。
Next, the mid-level feature
類似カテゴリ判定部105は、Mid-level特徴量抽出部103によって抽出されたMid-level特徴量と、Mid-level特徴量記憶部104に記憶されているMid-level特徴量とに基づいて類似カテゴリが存在するか否か判定する(ステップS104)。類似カテゴリが存在しない場合(ステップS104−NO)、カテゴリ学習部107は学習カテゴリのMid-level特徴量に基づいて、学習カテゴリの識別器を学習する(ステップS105)。その後、カテゴリ学習部107は、学習した識別器をカテゴリ識別器記憶部108に記憶させる(ステップS106)。
一方、類似カテゴリが存在する場合(ステップS104−YES)、特徴量生成部106は新たなMid-level特徴量を生成する(ステップS107)。
The similar
On the other hand, when a similar category exists (step S104—YES), the feature
以上のように構成されたカテゴリ識別器生成装置100によれば、高精度なカテゴリ識別器を生成することができる。具体的には、カテゴリ識別器生成装置100に入力されるカテゴリ学習用画像の学習カテゴリと類似する学習済みカテゴリが自動的に判定され、類似カテゴリと、学習カテゴリとを弁別可能な属性の特徴量をMid-level特徴量として逐次的に生成し追加される。したがって、新たにカテゴリを学習させる場合に追加されるMid-level特徴量も高々1つになる。このように、カテゴリ識別器生成装置100は、逐次的にカテゴリを学習することで、カテゴリの識別に必要な属性を大量に増やすことなく、必要最低限の属性の数でカテゴリを分類することができる。そのため、類似したカテゴリを学習する場合であってもカテゴリの弁別を容易にすることが可能になる。
According to the category
また、非特許文献3のように、全てのカテゴリに最適な特徴を獲得するバッチ的な手法では、カテゴリを追加するたびに特徴を一新する必要があり、追加するカテゴリの数の増加に応じて計算量が増大してしまう。これに対し、本発明は、学習カテゴリと類似カテゴリとを弁別可能な特徴量のみを生成するため、カテゴリの数の増加に対して計算量が増大してしまうおそれが少ない。そのため、カテゴリの識別器を学習するのに効率的である。 In addition, as in Non-Patent Document 3, in the batch method of acquiring the optimum feature for all categories, it is necessary to renew the feature every time a category is added, and according to the increase in the number of categories to be added. As a result, the calculation amount increases. On the other hand, since the present invention generates only the feature quantity that can discriminate between the learning category and the similar category, the calculation amount is less likely to increase with the increase in the number of categories. Therefore, it is efficient to learn a category discriminator.
また、カテゴリ識別器生成装置100は、新たなMid-level特徴量を追加して学習カテゴリの識別器を学習する場合、学習済みのカテゴリの識別器とMid-level特徴量の次元数が異なるため、再学習が必要となってしまう。しかし、本発明のように、類似していない学習済みカテゴリに関しては、新たに追加されたMid-level特徴量に対する重みを0として計算することで再学習を不要とすることができる。
また、以上のように構成されたカテゴリ識別装置200によれば、カテゴリ識別器生成装置100によって生成されたカテゴリ識別器を用いて識別対象となる画像を識別する。そのため、精度よく画像のカテゴリを識別することが可能になる。
In addition, when the category
In addition, according to the
<変形例>
カテゴリ識別器生成装置100に入力されるカテゴリ学習用画像は、1枚であってもよいし、複数枚であってもよい。また、カテゴリ識別装置200に入力されるテスト画像は、1枚であってもよいし、複数枚であってもよい。
<Modification>
The category learning image input to the category
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。 The embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to this embodiment, and includes designs and the like that do not depart from the gist of the present invention.
10…カテゴリ学習用画像記憶部, 20…テスト画像記憶部, 100…カテゴリ識別器生成装置, 101…Low-level特徴量抽出部, 102…Low-level特徴量記憶部, 103…Mid-level特徴量抽出部, 104…Mid-level特徴量記憶部, 105…類似カテゴリ判定部, 106…特徴量生成部, 107…カテゴリ学習部, 108…カテゴリ識別器記憶部, 200…カテゴリ識別装置, 201…Low-level特徴量抽出部, 202…Mid-level特徴量抽出部, 203…カテゴリ識別器
DESCRIPTION OF
Claims (4)
抽出された前記第1の画像特徴量から第2の画像特徴量を抽出する第2画像特徴量抽出部と、
抽出された前記第2の画像特徴量と、学習済みのカテゴリの第2の画像特徴量とに基づいて、前記学習画像のカテゴリに類似する前記学習済みのカテゴリが存在するか否か判定する類似カテゴリ判定部と、
類似する前記学習済みのカテゴリが存在すると判定された場合に、前記学習画像の前記第1の画像特徴量と、類似する前記学習済みのカテゴリの第1の画像特徴量とに基づいて、類似する前記学習済みのカテゴリの第2の画像特徴量と類似しない第2の画像特徴量を生成し、生成された前記第2の画像特徴量を前記学習画像の第2の画像特徴量に加えて新たな第2の画像特徴量を生成する特徴量生成部と、
前記新たな第2の画像特徴量を識別するためのカテゴリ識別器を生成するカテゴリ学習部と、
備えるカテゴリ識別器生成装置。 A first image feature amount extraction unit that extracts a first image feature amount from a learning image for learning an image category;
A second image feature quantity extraction unit for extracting a second image feature quantity from the extracted first image feature quantity;
Similarity for determining whether the learned category similar to the category of the learning image exists based on the extracted second image feature amount and the second image feature amount of the learned category A category determination unit;
When it is determined that there is a similar learned category, the learning is similar based on the first image feature quantity of the learning image and the first image feature quantity of the similar learned category. A second image feature amount that is not similar to the second image feature amount of the learned category is generated, and the generated second image feature amount is added to the second image feature amount of the learning image to newly A feature amount generation unit for generating a second image feature amount;
A category learning unit for generating a category discriminator for identifying the new second image feature amount;
A category discriminator generating device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014039474A JP2015164012A (en) | 2014-02-28 | 2014-02-28 | Category discriminator generation apparatus, category discrimination device, and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014039474A JP2015164012A (en) | 2014-02-28 | 2014-02-28 | Category discriminator generation apparatus, category discrimination device, and computer program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015164012A true JP2015164012A (en) | 2015-09-10 |
Family
ID=54186902
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014039474A Pending JP2015164012A (en) | 2014-02-28 | 2014-02-28 | Category discriminator generation apparatus, category discrimination device, and computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2015164012A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017059144A (en) * | 2015-09-18 | 2017-03-23 | Kddi株式会社 | Information terminal device, program and data structure |
-
2014
- 2014-02-28 JP JP2014039474A patent/JP2015164012A/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017059144A (en) * | 2015-09-18 | 2017-03-23 | Kddi株式会社 | Information terminal device, program and data structure |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10204283B2 (en) | Image recognizing apparatus, image recognizing method, and storage medium | |
Socher et al. | Zero-shot learning through cross-modal transfer | |
CN109117879B (en) | Image classification method, device and system | |
CN105205501B (en) | A kind of weak mark image object detection method of multi classifier combination | |
Karaoglu et al. | Object reading: text recognition for object recognition | |
CN111967387A (en) | Form recognition method, device, equipment and computer readable storage medium | |
CN106897459A (en) | A kind of text sensitive information recognition methods based on semi-supervised learning | |
EP3620980A1 (en) | Learning method, learning device for detecting lane by using cnn and testing method, testing device using the same | |
WO2012032788A1 (en) | Image recognition apparatus for objects in general and method therefor, using exclusive classifier | |
Cholakkal et al. | Backtracking ScSPM image classifier for weakly supervised top-down saliency | |
Zhang et al. | Sparse reconstruction for weakly supervised semantic segmentation | |
Tharwat et al. | Two biometric approaches for cattle identification based on features and classifiers fusion | |
Li et al. | Robust vehicle detection in high-resolution aerial images with imbalanced data | |
CN103824090A (en) | Adaptive face low-level feature selection method and face attribute recognition method | |
CN108496185B (en) | System and method for object detection | |
Crowley et al. | Of gods and goats: Weakly supervised learning of figurative art | |
Thompson et al. | finFindR: Computer-assisted recognition and identification of bottlenose dolphin photos in r | |
CN116745763A (en) | System and method for automatically extracting classification training data | |
CN109657710B (en) | Data screening method and device, server and storage medium | |
JP6531025B2 (en) | Word expansion device, classification device, machine learning device, method, and program | |
JP2015232805A (en) | Image processing method, image processor, and image processing program | |
Lau et al. | Natural adversarial objects | |
JP2015164012A (en) | Category discriminator generation apparatus, category discrimination device, and computer program | |
Modolo et al. | Context forest for object class detection | |
JP7341962B2 (en) | Learning data collection device, learning device, learning data collection method and program |