JP6151908B2 - Learning device, identification device, and program thereof - Google Patents
Learning device, identification device, and program thereof Download PDFInfo
- Publication number
- JP6151908B2 JP6151908B2 JP2012250151A JP2012250151A JP6151908B2 JP 6151908 B2 JP6151908 B2 JP 6151908B2 JP 2012250151 A JP2012250151 A JP 2012250151A JP 2012250151 A JP2012250151 A JP 2012250151A JP 6151908 B2 JP6151908 B2 JP 6151908B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- region
- feature
- unit
- feature amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000605 extraction Methods 0.000 claims description 84
- 238000004364 calculation method Methods 0.000 claims description 67
- 230000006870 function Effects 0.000 claims description 22
- 239000013598 vector Substances 0.000 description 94
- 238000000034 method Methods 0.000 description 73
- 230000008569 process Effects 0.000 description 29
- 238000012545 processing Methods 0.000 description 22
- 239000000284 extract Substances 0.000 description 19
- 238000001514 detection method Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 9
- 238000013139 quantization Methods 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 7
- 238000012986 modification Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Description
本発明は、画像特徴量算出装置、学習装置、識別装置、およびそのプログラムに関する。特に、映像や画像に含まれる事物を検出するために画像特徴量を算出する画像特徴量算出装置、学習装置、識別装置、およびそのプログラムに関する。 The present invention relates to an image feature amount calculation device, a learning device, an identification device, and a program thereof. In particular, the present invention relates to an image feature amount calculation device, a learning device, an identification device, and a program for calculating an image feature amount in order to detect an object included in a video or an image.
映像の内容を解析するための方法として、映像フレームから特徴量を抽出し、その特徴量に基づいて特定の被写体が映っているか否かを判定する手法が存在する。また、そのような判定を行なうための機械学習を行なう手法が存在する。この学習においては、正例あるいは負例のラベルが付与された学習データ(画像)を用いて、判定器のパラメーターを調整する。つまり、特定の被写体が移っているか否かを示す正解が付与された画像による学習を行なうものである。この手法を用いる場合、学習手法自体のフレームワークを変更することなく、学習データを変更するだけで、様々な被写体を検出するための判定器を実現することができることが特徴である。 As a method for analyzing the contents of a video, there is a method of extracting a feature amount from a video frame and determining whether or not a specific subject is reflected based on the feature amount. There is also a method for performing machine learning for making such a determination. In this learning, the parameters of the determiner are adjusted using learning data (images) to which positive or negative example labels are assigned. That is, learning is performed using an image to which a correct answer indicating whether or not a specific subject has moved is given. When this method is used, it is a feature that a determination device for detecting various subjects can be realized only by changing the learning data without changing the framework of the learning method itself.
フレーム画像を、特定の被写体が映っているかいないかの2つのクラスに分類するためには、まず、画像データを何らかの特徴ベクトルに変換する。特徴ベクトルを得るための最も単純な手法の例は、画像全体の各画素のR(赤)、G(緑)、B(青)それぞれの画素値に関する統計量(たとえば平均値や分散など)を要素として並べ、数次元の特徴ベクトルを算出する方法である。また、特徴ベクトルを得るためのその他の手法の例は、画像全体の周波数成分を算出し、それらの強度分布を特徴ベクトルとする(周波数成分ごとの強度値を要素として並べた特徴ベクトルを得る)方法である。また、さらに他の手法として、非特許文献1には、フレーム画像から特徴点を検出し、その周辺領域から勾配特徴を算出した後、それらの出現頻度ヒストグラムを求めることによって、そのフレーム画像の特徴ベクトルを算出する方式が示されている。この方式は、バッグ・オブ・ビジュアル・ワーズ(Bag of Visual Words, BoVW)法と呼ばれる。
In order to classify frame images into two classes depending on whether or not a specific subject is reflected, first, image data is converted into some feature vector. An example of the simplest method for obtaining a feature vector is a statistic (for example, an average value or variance) regarding pixel values of R (red), G (green), and B (blue) of each pixel of the entire image. This is a method of calculating feature vectors of several dimensions by arranging them as elements. Another example of a technique for obtaining a feature vector is to calculate frequency components of the entire image and use the intensity distribution as a feature vector (to obtain a feature vector in which intensity values for each frequency component are arranged as elements). Is the method. As yet another technique, Non-Patent
また、非特許文献2には、フレーム画像を複数の領域に分割して、それらの領域ごとに特徴ベクトルを算出し、算出されたベクトルを連結することでフレーム画像全体の特徴ベクトルを算出する方式が示されている。具体的に示されているフレーム画像の分割方法は、たとえば縦横2×2分割、あるいは縦横1×3分割といったものである。非特許文献2に記載された技術は、これにより、フレーム画像内における被写体の位置が特徴ベクトルに反映できないという問題や、被写体とそれ以外の背景領域の特徴が混合してしまうという問題の解決を図っている。
Non-Patent
しかしながら、非特許文献2に記載の技術では、フレーム画像を分割する際に、たとえば縦横2×2分割あるいは縦横1×3分割といったように、固定サイズ、固定位置での分割を行なってしまっている。このように分割のサイズや方法を固定してしまうと、被写体のサイズ変動に対する頑健性が不足してしまうという問題が生じる。たとえば同じ自動車であっても、フレーム画像全体にアップで被写体として映る場合もあれば、フレーム画像の隅のほうに小さく映る場合もある。分割された領域の画像サイズを固定することによって、そのサイズから外れるような自動車を検出できなくなるおそれもある。
However, in the technique described in
また、別の問題として、フレーム画像を分割した際に、目的とする被写体が領域の境界をまたぐ場合もあり得る。被写体が領域の境界をまたいだ場合は、分割された画像から得られる特徴ベクトルに、被写体全体の情報が正確に反映されなくなってしまう。 As another problem, when a frame image is divided, the target subject may straddle the boundary of the region. When the subject crosses the boundary of the area, the information on the entire subject is not accurately reflected in the feature vector obtained from the divided image.
これらの問題は、フレーム画像から特定の被写体を検出する際の精度の低下につながる。本発明は、このような事情を考慮して為されたものであり、高精度な被写体検出を行なうための画像特徴量算出装置、学習装置、識別装置、およびそのプログラムを提供するものである。 These problems lead to a decrease in accuracy when detecting a specific subject from the frame image. The present invention has been made in view of such circumstances, and provides an image feature amount calculation device, a learning device, an identification device, and a program thereof for performing highly accurate subject detection.
[1]上記の課題を解決するため、本発明の一態様による画像特徴量算出装置は、入力画像に含まれる複数のサイズの領域画像の範囲を指定する領域画像抽出部と、前記入力画像に基づき、前記領域画像抽出部によって指定された前記領域画像の各々の特徴量を算出するとともに、複数の前記領域画像から算出された特徴量を連結することによって前記入力画像の特徴量を生成する特徴量算出部とを具備する。 [1] In order to solve the above-described problem, an image feature amount calculation apparatus according to an aspect of the present invention includes a region image extraction unit that specifies a range of region images of a plurality of sizes included in an input image, and the input image Based on the above, the feature amount of each of the region images specified by the region image extraction unit is calculated, and the feature amount of the input image is generated by connecting the feature amounts calculated from the plurality of region images. A quantity calculation unit.
ここで「領域画像」とは、入力画像の一部分の領域の画像である。なお、入力画像と全く同一の領域の画像もまた領域画像である。領域画像が複数のサイズであるということは、縦および横のサイズ(画素数等の単位)が様々な領域画像を用いることを表わす。複数のサイズは、所定の差で段階的に変化する画素数である場合(つまり、矩形画像の縦または横の辺の長さが等差数列を為すように段階的な領域画像を用いる場合)もあり得る。また、所定の比で段階的に変化する画素数である場合(つまり、矩形画像の縦または横の辺の長さが等比数列を為すように段階的な領域画像を用いる場合)もあり得る。また、領域画像のサイズが、より不規則に段階的になるような場合もあり得る。
また「領域画像の各々の特徴量」とは、上記の領域画像の一つから得られる画像の特徴量(スカラーまたはベクトル)である。
また「複数の領域画像から算出された特徴量を連結する」とは、例えば、各々の領域画像から得られた上記の特徴量を単純に要素として並べる(連結する)ことによって特徴ベクトルを得る操作である。
Here, the “region image” is an image of a partial region of the input image. Note that an image in the same region as the input image is also a region image. The fact that the region image has a plurality of sizes means that region images having various vertical and horizontal sizes (units such as the number of pixels) are used. When the multiple sizes are the number of pixels that change stepwise with a predetermined difference (that is, when the stepwise region image is used so that the lengths of the vertical or horizontal sides of the rectangular image form an even number sequence) There is also a possibility. In addition, there may be a case where the number of pixels changes stepwise at a predetermined ratio (that is, a case where a stepwise region image is used so that the lengths of the vertical or horizontal sides of the rectangular image form a geometric progression). . In addition, there may be a case where the size of the region image becomes more irregular and stepwise.
The “feature amount of each region image” is a feature amount (scalar or vector) of an image obtained from one of the region images.
“Connecting feature amounts calculated from a plurality of region images” means, for example, an operation for obtaining a feature vector by simply arranging (connecting) the feature amounts obtained from the respective region images as elements. It is.
「複数のサイズの領域画像の範囲を指定する」ことと「指定された領域画像の各々の特徴量を算出するとともに、複数の領域画像から算出された特徴量を連結することによって入力画像の特徴量を生成する」こととの組合せは、本実施形態の技術的特徴を有する構成の一つである。領域画像が複数のサイズを有することにより、入力画像に含まれる被写体が、ある領域画像からはみ出す場合や、ある領域画像の中に相対的に小さく含まれる場合や、その中間である領域画像に程よく収まる場合などが生じる。被写体が領域画像からはみ出す場合には、画像におけるその被写体の特徴をその領域画像から良好に抽出することができないことがある。被写体が領域画像の中に小さく写りこむ場合には、その領域画像のから抽出した特徴量においてその被写体の特徴の情報が不十分であることがある。被写体が領域画像内に程よく収まる場合には、その領域画像から抽出した特徴量が、情報として、被写体の特徴を良好に表わす。そして、複数の領域画像の各々から算出された特徴量を連結することによって、ある被写体の画像としての特徴が、連結された特徴量のいずれかの場所に良好に含まれている可能性が相対的に高くなる。したがって、このような技術構成により、被写体が写りこむ大きさがたとえ変化しても、その被写体の特徴を良好に捉えた特徴量を抽出することができる。 “Specify the range of area images of multiple sizes” and “Calculate the feature quantities of each of the specified area images, and connect the feature quantities calculated from the multiple area images to combine the features of the input image The combination with “generate quantity” is one of the configurations having the technical features of the present embodiment. The area image has a plurality of sizes, so that the subject included in the input image protrudes from a certain area image, is relatively small in a certain area image, or is suitable for an intermediate area image. When it fits. When the subject protrudes from the region image, the feature of the subject in the image may not be extracted well from the region image. When the subject appears small in the area image, the feature information extracted from the area image may have insufficient information on the characteristics of the subject. When the subject fits within the area image reasonably, the feature amount extracted from the area image favorably represents the feature of the subject as information. Then, by connecting the feature values calculated from each of the plurality of region images, it is relatively possible that the feature as an image of a certain subject is well included in any place of the connected feature values. Become expensive. Therefore, according to such a technical configuration, even if the size of the subject is changed, it is possible to extract a feature amount that captures the feature of the subject satisfactorily.
[2]また、本発明の一態様による学習装置は、[1]に記載の画像特徴量算出装置と、前記入力画像が正例または負例のいずれであるかを示す情報と、前記特徴量算出部によって生成された前記入力画像の特徴量の組合せとに基づいて、未知の入力画像が正例であるか負例であるかのいずれかを識別するための識別器のパラメーターを求める識別器学習部とを具備する。
ここで、識別器のパラメーターを求める処理は、学習用データに基づいた機械学習処理である。識別器は、所定のモデルにより、未知の入力画像から抽出された特徴量を入力とし、この特徴量とパラメーターとを用いた計算の結果として、その入力画像が正例であるか負例であるかを表わす情報を出力する。パラメーターは通常は複数の変数であり、識別器学習部の処理を行なうことより、最適なパラメーター値の集合が得られる。「正例であるか負例であるか」とは、入力画像が、所定のクラスターに属するか否かということを表わす。具体例としては、入力画像に所定の被写体(人、車、山、犬、猫など)が写っているか否かを表わす。これにより、良好な特徴量を用いた学習が可能になる。
[2] A learning device according to an aspect of the present invention includes an image feature amount calculation device according to [1], information indicating whether the input image is a positive example or a negative example, and the feature amount. A discriminator for obtaining a parameter of a discriminator for discriminating whether an unknown input image is a positive example or a negative example based on a combination of feature amounts of the input image generated by the calculation unit And a learning unit.
Here, the process for obtaining the parameters of the discriminator is a machine learning process based on the learning data. The discriminator receives a feature amount extracted from an unknown input image according to a predetermined model as an input, and the input image is a positive example or a negative example as a result of calculation using the feature amount and a parameter. Outputs information that represents. The parameter is usually a plurality of variables, and an optimal set of parameter values can be obtained by performing the process of the classifier learning unit. “A positive example or a negative example” indicates whether an input image belongs to a predetermined cluster. As a specific example, it represents whether or not a predetermined subject (a person, a car, a mountain, a dog, a cat, etc.) is reflected in the input image. Thereby, learning using a good feature amount is possible.
[3]また、本発明の一態様は、上記の学習装置において、前記領域画像抽出部は、同一サイズの複数の前記領域画像の少なくとも一部が互いに重なり合うように、前記領域画像の範囲を指定することを特徴とする。
これは、実施形態に記載する設定値αまたはβの値を1未満(0<α<1または0<β<1)とすることにより実現される。これにより、特徴量抽出部は、被写体の特徴を良好に表わす特徴量を抽出できる可能性が高くなる。
さらに、0<α≦0.5としたとき、または0<α≦0.5としたときには、元のキーフレーム画像の中の任意の画素が、同一サイズの少なくとも2個の領域画像の範囲に含まれることとなる。つまりこの場合は、被写体を適切なサイズの領域画像内に捉えることのできる可能性がよりいっそう高まる。つまり、より良好な特徴量を抽出できるようになる。
[3] Further, according to one aspect of the present invention, in the learning device, the region image extraction unit specifies a range of the region image so that at least a part of the plurality of region images having the same size overlap each other. It is characterized by doing.
This is realized by setting the value α or β described in the embodiment to less than 1 (0 <α <1 or 0 <β <1). This increases the possibility that the feature amount extraction unit can extract a feature amount that well represents the feature of the subject.
Furthermore, when 0 <α ≦ 0.5, or when 0 <α ≦ 0.5, any pixel in the original key frame image falls within the range of at least two region images of the same size. Will be included. That is, in this case, the possibility that the subject can be captured in a region image of an appropriate size is further increased. That is, a better feature amount can be extracted.
[4]また、本発明の一態様による識別装置は、[1]に記載の画像特徴量算出装置と、予め学習済みのパラメーターと、前記特徴量算出部が生成した前記入力画像の特徴量とに基づいて、前記入力画像が正例であるか負例かを識別する識別部とを具備する。
これにより、画像特徴量算出装置で得られた画像特徴量と、学習済みのパラメーターとに基づき、入力画像が正例であるか負例であるかを識別できる。
[4] In addition, an identification device according to an aspect of the present invention provides an image feature amount calculation device according to [1], a parameter learned in advance, and a feature amount of the input image generated by the feature amount calculation unit. And an identification unit for identifying whether the input image is a positive example or a negative example.
Accordingly, it is possible to identify whether the input image is a positive example or a negative example based on the image feature amount obtained by the image feature amount calculation device and the learned parameter.
[5]また、本発明の一態様は、上記の識別装置において、学習用データとして入力された前記入力画像が正例または負例のいずれであるかを示す情報と、前記特徴量算出部によって生成された前記入力画像の特徴量の組合せとに基づいて、未知の入力画像が正例であるか負例であるかのいずれかを識別するための識別器のパラメーターを求める識別器学習部をさらに具備し、前記識別部は、前記識別器学習部によって求められた前記パラメーターを前記予め学習済みのパラメーターとして用いることによって、未知の前記入力画像が正例であるか負例かを識別することを特徴とする。
これにより、この識別装置は、学習処理と識別処理とを行なう。
[5] In addition, according to one aspect of the present invention, in the above-described identification device, information indicating whether the input image input as learning data is a positive example or a negative example, and the feature amount calculation unit A discriminator learning unit for obtaining a parameter of a discriminator for discriminating whether the unknown input image is a positive example or a negative example based on the generated combination of feature amounts of the input image; Further, the identifying unit identifies whether the unknown input image is a positive example or a negative example by using the parameter obtained by the classifier learning unit as the previously learned parameter. It is characterized by.
Thereby, this identification device performs a learning process and an identification process.
[6]また、本発明の一態様は、上記の識別装置において、前記領域画像抽出部は、同一サイズの複数の前記領域画像の少なくとも一部が互いに重なり合うように、前記領域画像の範囲を指定することを特徴とする。
同一サイズの複数の前記領域画像の少なくとも一部が互いに重なり合うことにより、被写体の特徴を良好に表わす特徴量を算出することができる可能性が高まる。
[6] Further, according to one aspect of the present invention, in the identification device, the region image extraction unit specifies a range of the region image so that at least a part of the plurality of region images having the same size overlap each other. It is characterized by doing.
When at least a part of the plurality of region images having the same size overlap each other, there is a high possibility that a feature amount that favorably represents the feature of the subject can be calculated.
[7]また、本発明の一態様は、コンピューターを、入力画像に含まれる複数のサイズの領域画像の範囲を指定する領域画像抽出部、前記入力画像に基づき、前記領域画像抽出部によって指定された前記領域画像の各々の特徴量を算出するとともに、複数の前記領域画像から算出された特徴量を連結することによって前記入力画像の特徴量を生成する特徴量算出部、として機能させるためのプログラムである。 [7] Further, according to one embodiment of the present invention, a computer is designated by the region image extraction unit that designates a range of region images of a plurality of sizes included in the input image, and based on the input image. A program for functioning as a feature amount calculation unit that calculates a feature amount of each of the region images and generates a feature amount of the input image by connecting the feature amounts calculated from a plurality of the region images. It is.
本発明によれば、画像内における被写体の位置やサイズの変化の影響を受けることなく、高精度に被写体の出現を判別することが可能となる。
特に、複数のサイズの領域画像の各々から得られる特徴を情報として維持する特徴量を算出することにより、被写体のサイズ変化に対して頑健な特徴量を得て使用することができる。
また特に、同一サイズの領域画像が少なくとも一部において互いに重なり合うようにして、それらの領域画像を用いることにより、被写体の位置変化に対して頑健な特徴量を得て使用することができる。つまり、グリッド境界に存在する被写体に対しても良好な結果を得ることができる。
According to the present invention, it is possible to determine the appearance of a subject with high accuracy without being affected by changes in the position and size of the subject in an image.
In particular, by calculating a feature amount that maintains information obtained from each of a plurality of size area images as information, it is possible to obtain and use a feature amount that is robust against changes in the size of the subject.
In particular, it is possible to obtain and use feature amounts that are robust against changes in the position of the subject by using region images having the same size so that they overlap at least partially. That is, a good result can be obtained even for a subject existing at the grid boundary.
次に、本発明の実施形態について、図面を参照しながら説明する。
[第1の実施形態]
図1は、第1の実施形態による識別装置2の概略機能構成を示すブロック図である。図示するように、識別装置2は、内部に学習装置1を備えている。学習装置1は、学習用映像入力部11と、キーフレーム画像抽出部13と、領域画像抽出部15と、特徴量算出部17と、識別器学習部19とを含んで構成される。また、識別装置2は、さらに、映像入力部12と、キーフレーム画像抽出部14と、領域画像抽出部16と、特徴量算出部18と、識別部20とを含んで構成される。なお、図示していないが、領域画像抽出部15と特徴量算出部17との組合せは画像特徴量算出装置として機能する。同様に、領域画像抽出部16と特徴量算出部18との組合せは画像特徴量算出装置として機能する。
Next, embodiments of the present invention will be described with reference to the drawings.
[First Embodiment]
FIG. 1 is a block diagram showing a schematic functional configuration of the
学習装置1は、読み込んだ学習データに基づいて、識別部20の機械学習を行なう。
識別装置2は、学習装置1によって学習済みの識別部により、入力映像に特定の被写体が出現するか否かを判定する。
The
The
学習用映像入力部11は、学習用の映像データを外部から取得する。
キーフレーム画像抽出部13は、学習用映像入力部11で取得された学習用映像から、キーフレーム画像を抽出する。具体的方法としては、キーフレーム画像抽出部13は、映像からショット境界を検出して、映像をショットに分割した後、各ショットの冒頭あるいは中間位置からフレーム画像を取得する。なお、ショット境界の検出は、例えば画素値の時間方向の微分値の総和が所定の閾値を超えてピークを示す箇所を検出することにより行なう。また、ショット境界が存在しない映像、あるいはひとつのショットの時間長が非常に長い映像においては、キーフレーム画像抽出部13は、所定の時間間隔でキーフレーム画像を抽出したり、フレーム間の動きベクトルの大きさが閾値以上となったタイミングでキーフレーム画像を抽出したりするようにする。
The learning
The key frame
領域画像抽出部15は、キーフレーム画像抽出部13によって抽出されたキーフレーム画像に含まれる、複数のサイズの領域画像を抽出し、それら領域画像の範囲を指定する。キーフレーム画像抽出部13は、抽出された領域画像の範囲に関する情報を出力する。
特徴量算出部17は、キーフレーム画像抽出部13で抽出されたフレーム画像から、特徴ベクトルを算出する。特徴ベクトルの算出方法については後で詳述する。
識別器学習部19は、正例あるいは負例のラベルが付与された学習データから、被写体が映っているかどうかを判定するための識別器の学習を行なう。識別器学習部19への入力データは、キーフレーム画像を基に特徴量算出部17によって算出された特徴量(特徴ベクトル)であり、各々の入力画像に対応して、「正例」または「負例」のいずれであるかを示すラベルが付随している。識別器学習部19は、このラベルを正解として使用し、機械学習処理を行なう。識別器学習部19による学習手法としては、サポートベクターマシン、ニューラルネットワーク、ベイジアンネットワークなどの一般的な機械学習手法を利用できる。なお、学習用データの構成例については、後で図6を参照しながら詳述する。
The region
The feature
The
映像入力部12は、映像データを外部から取得する。この映像データは、特定の被写体が映っているか否かを判定する対象となる映像のデータである。
キーフレーム画像抽出部14は、キーフレーム画像抽出部13と同様の方法によりキーフレーム画像を抽出する。但し、キーフレーム画像抽出部14が対象とするのは、学習用の映像データではなく、映像入力部12によって取得された映像データである。
領域画像抽出部16は、キーフレーム画像抽出部14によって抽出されたキーフレーム画像について、領域画像抽出部15と同様の方法により、領域画像の抽出を行なう。
特徴量算出部18は、特徴量算出部17と同様の方法により、キーフレーム画像の特徴量を抽出する。
識別部20は、特徴量算出部18が算出した特徴量に基づいて、入力画像(未知の画像)が正例であるか負例かを識別する。なお、識別部20は、識別器学習部19によって予め学習済みである。言い換えれば、識別部20が識別のために用いるパラメーターは、識別器学習部19による学習処理によって、予め最適化されている。
The
The key frame
The region
The feature
The identifying
これにより識別装置2は、入力される映像に特定の被写体が映っているか否かを判別する処理を行い、判別結果を出力する。
As a result, the
なお既に述べたように、キーフレーム画像抽出部13と14は、同一の機能を有する。また、領域画像抽出部15と16は、同一の機能を有する。また、特徴量算出部17と18は、同一の機能を有する。したがって、これらの同一機能を有する機能ブロックについては、これら各部を共用として装置を構成するようにしても良い。
As already described, the key frame
図2は、特徴量算出部17の詳細な機能構成を示すブロック図である。図示するように、特徴量算出部17は、特徴点検出部171と、局所特徴量子化部174と、局所特徴ベクトル生成部177と、色統計特徴算出部172と、色特徴ベクトル生成部178と、テクスチャ特徴算出部173と、テクスチャ特徴ベクトル生成部179と、特徴ベクトル生成部170とを含んで構成される。
FIG. 2 is a block diagram illustrating a detailed functional configuration of the feature
また、図2に示すように、フレーム画像データが、領域画像抽出部15と特徴量算出部17とに入力される。領域画像抽出部15は、入力されたフレーム画像から、その部分を切り取って得られるグリッド領域の画像(これを「領域画像」と呼ぶ)を順次抽出する。そして、領域画像抽出部15は、各々の領域画像の範囲を示す情報を局所特徴ベクトル生成部177と色特徴ベクトル生成部178とテクスチャ特徴ベクトル生成部179とに供給する。領域画像の形状は典型的には矩形であり、その場合、領域画像の範囲を示す情報とは、領域画像の左上隅および右下隅それぞれの画素の座標値や、領域画像の左上隅の画素の座標値および縦と横のサイズである。
Further, as shown in FIG. 2, the frame image data is input to the region
特徴点検出部171は、特徴点検出手法を用いて、入力されるフレーム画像全体から特徴点を抽出する。
局所特徴量子化部174は、特徴点検出部171によって検出された特徴点の周囲の局所領域の特徴を量子化する。
局所特徴ベクトル生成部177は、領域画像ごとの局所特徴量を連結することにより局所特徴ベクトルを生成する。
色統計特徴算出部172は、入力されるフレーム画像データを基に、色空間の変換を行い、変換後の色空間における特徴量を算出する。
色特徴ベクトル生成部178は、領域画像ごとの色特徴量を連結することにより色特徴ベクトルを生成する。
テクスチャ特徴算出部173は、ウェーブレット変換等の処理を行なうことにより、入力されるフレーム画像データのテクスチャ特徴を算出する。
テクスチャ特徴ベクトル生成部179は、ウェーブレット変換の結果の画素値の、領域画像ごとの統計的特徴値を基に、テクスチャ特徴ベクトルを算出する。
特徴ベクトル生成部170は、局所特徴ベクトルと色特徴ベクトルとテクスチャ特徴ベクトルとを連結したベクトルを生成する。
これら各部の処理の詳細については後述する。
The feature
The local
The local feature
The color statistical
The color feature
The texture
The texture feature
The feature
Details of the processing of these units will be described later.
なお、特徴量算出部18もまた、特徴量算出部17と同様の構成を有する。そして、領域画像抽出部15が抽出した領域画像に関する情報を特徴量算出部17に供給するのと同様に、領域画像抽出部16は抽出した領域画像に関する情報を特徴量算出部18に供給する。
The feature
次に、各々の特徴量抽出の詳細について説明する。
(A)局所特徴ベクトルの抽出
局所特徴ベクトルの抽出のためには、前記のバッグ・オブ・ビジュアル・ワーズ法を用いる。
特徴点検出部171は、SIFT(Scale-invariant feature transform)やSURF(Supeeded-Up. Robust Features)などの特徴点検出手法を用いて、入力されるフレーム画像全体から特徴点を抽出する。SIFTおよびSURFは、画像内における局所的特徴を検出する手法であり、それぞれ、参考文献[David G. Lowe, ``Object recognition from local scale-invariant features,'' In Proc. IEEE International Conference on Computer Vision, vol. 2, pp. 1150-1157, 1999.]および[Herbert Bay, Tinne Tuytelaars, and L Van Gool, ``SURF: Speeded Up Robust Features,'' In Proc. 9th European Conference on Computer Vision, vol. 3951, pp. 404--417, 2006.]にもその詳細が記載されている。
Next, details of each feature amount extraction will be described.
(A) Extraction of local feature vectors The above-described bag of visual words method is used to extract local feature vectors.
The feature
そして、局所特徴量子化部174は、特徴点検出部171によって検出された特徴点の周囲の局所領域の特徴を量子化する。具体的には、局所特徴量子化部174は、特徴点の周囲の局所領域から算出される勾配特徴量をクラスタリングすることにより量子化する。そのために、局所特徴量子化部174は、あらかじめ学習データから求めた勾配特徴量をたとえばk−meansなどによってクラスタリングしてクラスターごとの代表値を求めておく。そして、局所特徴量子化部174は、入力データから算出された特徴量を、最も近い代表値に対応するクラスターに割り当てる。
Then, the local
そして、局所特徴ベクトル生成部177は、領域画像抽出部15から各々の領域画像の範囲に関する情報を得て、ある1つの領域画像に含まれる特徴点に関して、量子化された勾配特徴量の出現頻度ヒストグラムを求め、そのヒストグラムを構成する頻度値の列を求める。局所特徴ベクトル生成部177は、すべての領域画像について、上記の処理を行なう。そして、局所特徴ベクトル生成部177は、各領域画像から得られた頻度値の列を、すべての領域画像に関して連結することにより、局所特徴ベクトルを生成する。この局所特徴ベクトルをVlとする。なお、「すべての領域画像に関して連結」については、後で図5を参照しながら詳述する。
Then, the local feature
(B)色特徴ベクトルの抽出
色統計特徴算出部172は、入力されるフレーム画像データを、HSV色空間およびLab色空間に変換する。HSV色空間は、色相(Hue)、彩度(Saturation)、明度(Value)の三成分からなる色空間である。Lab色空間は、明度(L)、補色次元(aおよびb)の成分からなる色空間である。例えばRGBの画素値から、HSV色空間およびLab色空間への変換は、既存の技術を使って行なわれる。色空間の変換の結果、色統計特徴算出部172は、フレーム画像に含まれる各画素について、各コンポーネントcの画素値を出力する。なお、c∈{h,s,v,l,a,b}であり、これらh,s,v,l,a,bのそれぞれは、HSV色空間およびLab色空間の成分である。
(B) Extraction of Color Feature Vector The color statistical
色特徴ベクトル生成部178は、領域画像抽出部15から各々の領域画像の範囲に関する情報を得て、領域画像ごとに、各コンポーネントcに対して、画素値の平均μc、標準偏差σc、歪度の立方根ωcを算出する。具体的には、色特徴ベクトル生成部178は、下の式(1)、式(2)、式(3)により、これらの値を算出する。
The color feature
なお、式(1)〜(3)において、xは横座標値、yは縦座標値であり、fc(x,y)は座標(x,y)におけるコンポーネントcの画素値である。また、xおよびyそれぞれにおいて、記号Σによって総和を算出する範囲は、当該領域画像の範囲である。またHSおよびWSは、それぞれ、当該領域画像の縦サイズ(高さ)および横サイズ(幅)である。HSおよびWSの単位は、画素[pixels]である。HSおよびWSについては、後でもさらに述べる。 In Expressions (1) to (3), x is an abscissa value, y is an ordinate value, and f c (x, y) is a pixel value of the component c at coordinates (x, y). In each of x and y, the range in which the sum is calculated using the symbol Σ is the range of the region image. H S and W S are the vertical size (height) and horizontal size (width) of the area image, respectively. The unit of H S and W S is a pixel [pixels]. H S and W S will be further described later.
色特徴ベクトル生成部178は、すべての領域画像について、上記の処理を行なう。そして、色特徴ベクトル生成部178は、各領域画像から算出された値の列(μh,σh,ωh,μs,σs,ωs,μv,σv,ωv,μl,σl,ωl,μa,σa,ωa,μb,σb,ωb)を、すべての領域画像に関して連結することにより、色特徴ベクトルを生成する。この色特徴ベクトルをVcとする。なお、「すべての領域画像に関して連結」については、後で図5を参照しながら詳述する。
The color feature
(C)テクスチャ特徴ベクトルの抽出
ここでは、Haarウェーブレットに基づいて画像のテクスチャを反映した特徴量を算出する。まず、テクスチャ特徴算出部173は、入力されるフレーム画像データを基に、Haarウェーブレット変換を3段階適用する。次に、テクスチャ特徴ベクトル生成部179は、領域画像抽出部15から各々の領域画像の範囲に関する情報を得て、領域画像ごとに、それぞれのサブバンド領域の画素値の分散を算出し、それらの分散値の列を当該領域画像における特徴量とする。そして、すべての領域画像に関してこれらの数値列を連結することにより、テクスチャ特徴ベクトルを生成する。このテクスチャ特徴ベクトルをVtとする。なお、「すべての領域画像に関して連結」については、後で図5を参照しながら詳述する。
(C) Extraction of Texture Feature Vector Here, a feature amount reflecting the texture of the image is calculated based on the Haar wavelet. First, the texture
以上述べたように、局所特徴ベクトル生成部177が局所特徴ベクトルVlを生成し、色特徴ベクトル生成部178が色特徴ベクトルVcを生成し、テクスチャ特徴ベクトル生成部179がテクスチャ特徴ベクトルVtを生成する。そして、特徴ベクトル生成部170は、これらの3つのベクトルを連結して特徴ベクトルVを求める。このVについては、下の式(4)に表わす通りである。特徴ベクトル生成部170によって連結されたベクトルVが、特徴量算出部17からの出力される特徴量である。
As described above, the local feature
以上、述べたように、特徴量算出部17は、入力画像に基づき、領域画像抽出部15によって指定された領域画像の各々の特徴量を算出するとともに、複数の領域画像から算出された特徴量を連結することによって入力画像の特徴量(特徴ベクトルVl,Vc,Vt,V)を生成する。特徴量算出部17によって算出された特徴量は、複数の領域画像の各々の特徴を情報として保持している。
As described above, the feature
図3は、領域画像抽出部15および16によって抽出されるグリッド領域の領域画像の範囲を示す概略図である。以下では、代表として領域画像抽出部15による処理を説明するが、領域画像抽出部16による処理も同様のものである。
領域画像抽出部15は、領域画像のサイズを段階的に変化させる。同図に示す例においては、(a)、(b)、(c)の順に、徐々に抽出する領域画像のサイズを小さくしている。入力される元のフレーム画像のサイズを縦(高さ)H、横(幅)Wとしたとき、第S番目(S=1,2,3,・・・)のスケールにおける領域画像のサイズは、縦HS、横WSであり、これらは、下の式(5)で表わされる。
FIG. 3 is a schematic diagram showing the range of the area image of the grid area extracted by the area
The region
ここで、δは、スケールの変化の度合いを表す定数であり0<δ<1である。この不等式の範囲内でδの値については適宜設定可能とする。一例として、同図に示す場合、δ=0.5としている。そして、同図(a)の場合に、S=1、H1=H、W1=Wである。また同図(b)の場合に、S=2、H2=δH、W2=δWである。また同図(c)の場合に、S=3、H3=δ2H、W3=δ2Wである。また、同図にも示すように、領域画像抽出部15は、縦方向HS×α、横方向WS×βの刻みで順次移動させながら、領域画像の範囲を抽出していく。ここで、αおよびβは、適宜設定可能な定数であり、0<α≦1、0<β≦1である。一例として、同図に示す場合、α=β=0.5としている。
Here, δ is a constant representing the degree of scale change, and 0 <δ <1. The value of δ can be set as appropriate within the range of this inequality. As an example, in the case shown in the figure, δ = 0.5. In the case of FIG. 5A, S = 1, H 1 = H, and W 1 = W. In the case of FIG. 5B, S = 2, H 2 = δH, and W 2 = δW. In the case of FIG. 3C, S = 3, H 3 = δ 2 H, and W 3 = δ 2 W. In addition, as shown in the figure, the region
同図(a)〜(c)のそれぞれにおいて、領域画像の枠の左上隅の部分のみを、黒丸と、縦・横の太線で示している。なお、フレーム画像全体の左上角の画素の座標を(x,y)=(0,0)とする。同図(a)においては、S=1であり、フレーム画像全体が領域画像に相当する。つまり、S=1の場合における領域画像の数N1は1である。また同図(b)においては、S=2であり、各々の領域画像の左上角の画素における、x座標(横座標)の値は0,βδW,2βδWであり、y座標(縦座標)の値は0,αδH,2αδHである。同図(b)に一例として示している破線の枠は、左上角の画素の座標位置が(x,y)=(βδW,αδH)である領域画像を示す。S=2の場合における領域画像の数N2は9である。また同図(c)においては、S=3であり、各々の領域画像の左上角の画素における、x座標(横座標)の値は0,βδ2W,2βδ2W,3βδ2W,4βδ2W,5βδ2W,6βδ2Wである。また、y座標(縦座標)の値は0,αδ2H,2αδ2H,3αδ2H,4αδ2H,5αδ2H,6αδ2Hである。同図(c)に一例として示している破線の枠は、左上角の画素の座標位置が(x,y)=(5βδ2W,4αδ2H)である領域画像を示す。S=3の場合における領域画像の数N3は49である。 In each of FIGS. 9A to 9C, only the upper left corner of the frame of the area image is indicated by a black circle and vertical and horizontal thick lines. Note that the coordinates of the pixel in the upper left corner of the entire frame image are (x, y) = (0, 0). In FIG. 5A, S = 1, and the entire frame image corresponds to a region image. That is, the number N 1 of area images in the case of S = 1 is 1. In FIG. 5B, S = 2, and the x-coordinate (abscissa) values are 0, βδW, 2βδW, and y-coordinate (ordinate) of the pixel in the upper left corner of each area image. The values are 0, αδH, and 2αδH. The broken line frame shown as an example in FIG. 5B shows a region image in which the coordinate position of the pixel at the upper left corner is (x, y) = (βδW, αδH). The number N 2 of area images in the case of S = 2 is 9. In FIG. 3C, S = 3, and the values of the x coordinate (abscissa) in the upper left corner pixel of each area image are 0, βδ 2 W, 2βδ 2 W, 3βδ 2 W, 4βδ. 2 W, 5βδ 2 W, 6βδ 2 W. The values of the y coordinate (ordinate) are 0, αδ 2 H, 2αδ 2 H, 3αδ 2 H, 4αδ 2 H, 5αδ 2 H, and 6αδ 2 H. A broken-line frame shown as an example in FIG. 4C shows a region image in which the coordinate position of the pixel at the upper left corner is (x, y) = (5βδ 2 W, 4αδ 2 H). The number N 3 of area images in the case of S = 3 is 49.
つまり、領域画像抽出部15は、上記のように、同一サイズの複数の領域画像の少なくとも一部が互いに重なり合うように、領域画像の範囲を指定する。同一サイズの複数の領域画像の一部が互いに重なり合うのは、縦方向に関してはα<1である場合である。また、横方向に関してはβ<1である場合である。これにより、被写体が領域画像の枠(境界線)をまたぐような位置に存在するとき(つまりその1つの領域画像の中に収まらないとき)にも、その被写体は同じサイズの他の領域画像に収まりきる可能性がある。これにより、その被写体の画像特徴を表わす特徴量を、より適切に抽出することが可能となる。
特に、0<α≦0.5としたとき、または0<β≦0.5としたときには、元のキーフレーム画像の中の任意の画素が、同一サイズの少なくとも2個の領域画像の範囲に含まれることとなる。つまりこの場合は、被写体を適切なサイズの領域画像内に捉えることのできる可能性がよりいっそう高まる。つまり、より良好な特徴量を抽出できるようになる。
That is, as described above, the region
In particular, when 0 <α ≦ 0.5 or 0 <β ≦ 0.5, any pixel in the original key frame image is within the range of at least two region images of the same size. Will be included. That is, in this case, the possibility that the subject can be captured in a region image of an appropriate size is further increased. That is, a better feature amount can be extracted.
図4は、領域画像抽出部15による、領域画像抽出の処理手順を示すフローチャートである。以下、このフローチャートに沿って説明する。なお、領域画像抽出部16による処理もこれと同様である。
まずステップS1において、領域画像抽出部15は、変数Sの値を1に初期化する。このSは、前述の通り、領域画像のスケールを指標するための値である。
次にステップS2において、領域画像抽出部15は、変数Sの値が、予め設定された上限(設定スケール)未満であるか否かを判定する。上限未満である場合(ステップS2:YES)には、次のステップS3に進む。その他の場合(ステップS2:NO)には、このフローチャート全体の処理を終了する。
次にステップS3において、領域画像抽出部15は、変数yの値を0に初期化する。このyは、縦座標の値を表わすものである。このステップの処理により、領域画像の縦座標を初期化する。
FIG. 4 is a flowchart showing a region image extraction processing procedure performed by the region
First, in step S1, the region
Next, in step S2, the area
Next, in step S3, the area
次にステップS4において、領域画像抽出部15は、変数yに関して、y+HS<Hの不等式で表わされる条件を満たすか否かを判定する。この条件を満たす場合(ステップS4:YES,つまり縦方向にまだ領域画像を取れる場合)には次のステップS5に進み、満たさない場合(ステップS4:NO,つまりフレーム画像の下端に達してしまい縦方向にもう領域画像を取れない場合)にはステップS10の処理に分岐する。
次にステップS5に進んだ場合、領域画像抽出部15は、変数xの値を0に初期化する。このxは、横座標の値を表わすものである。このステップの処理により、領域画像の横座標を初期化する。
Next, in step S4, the region
Next, when the process proceeds to step S5, the area
次にステップS6において、領域画像抽出部15は、変数xに関して、x+WS<Wの不等式で表わされる条件を満たすか否かを判定する。この条件を満たす場合(ステップS6:YES,つまり横方向にまだ領域画像を取れる場合)には次のステップS7に進み、満たさない場合(ステップS6:NO,つまりフレーム画像の右端に達してしまい横方向にもう領域画像を取れない場合)にはステップS9の処理に分岐する。
次にステップS7に進んだ場合、領域画像抽出部15は、その時の変数xおよびyの値に応じて、座標(x,y)を基点(左上角の画素)とする、高さHS、幅WSのグリッドによる領域画像を抽出する。そして、領域画像抽出部15は、抽出した領域画像の範囲を示す情報を、局所特徴ベクトル生成部177と色特徴ベクトル生成部178とテクスチャ特徴ベクトル生成部179とに渡す。これに応じて、局所特徴ベクトル生成部177と色特徴ベクトル生成部178とテクスチャ特徴ベクトル生成部179の各々は、当該領域画像に関する特徴量を前述の方法により算出する。
Next, in step S <b> 6, the region
Next, when the process proceeds to step S7, the area
次にステップS8において、領域画像抽出部15は、変数xの値をβ・WSの増分で増加させる。これは、領域画像の横座標の値を、次の領域画像の座標に進めるための処理である。このステップの処理のあとは、ステップS6の処理に戻る。
ステップS6からステップS9に進んだ場合には、領域画像抽出部15は、変数yの値をα・HSの増分で増加させる。これは、領域画像の縦座標の値を、次の領域画像の座標に進めるための処理である。このステップの処理のあとは、ステップS4の処理に戻る。
ステップS4からステップS10に進んだ場合には、領域画像抽出部15は、変数Sの値を次の値に更新する。つまり、(S+1)の値を変数Sの記憶領域に格納する。これは、領域画像のスケールを次の段階に進めるための処理である。そして、このステップの処理のあとは、ステップS2の処理に戻る。
In step S8, the area
When the process proceeds from step S6 to step S9, the region
When the process proceeds from step S4 to step S10, the area
上述した一連の処理により、領域画像抽出部15は、図3に例示したような領域画像をすべて抽出し、各領域画像の範囲を示す情報を特徴量算出部17に渡す。領域画像抽出部15がすべての領域画像の抽出を終えた後は、局所特徴ベクトル生成部177と色特徴ベクトル生成部178とテクスチャ特徴ベクトル生成部179の各々が、前述の通り、各領域画像に対応した特徴量の列をすべて並べた特徴ベクトルを出力する。そして、特徴ベクトル生成部170が、それらの特徴ベクトルを連結して得られる特徴ベクトルを出力する。領域画像抽出部16と特徴量算出部18との関係も、これと同様である。
Through the series of processes described above, the region
このように、領域画像のサイズを段階的に変化させて、各々の領域画像から特徴量を抽出し、それら領域画像ごとの特徴量を情報として含んだ特徴量(特徴ベクトル)を用いることにより、映像に含まれる被写体の大きさの変動に対して頑健性を得ることができる。 In this way, by changing the size of the region image in stages, extracting feature amounts from each region image, and using feature amounts (feature vectors) including the feature amounts for each region image as information, Robustness can be obtained against changes in the size of the subject included in the video.
図5は、上述した方法によって抽出された複数の領域画像と、特徴ベクトルとの関係を示す概略図である。同図において、(a)〜(d)は、領域画像のスケールの段階に対応しており、それぞれの場合において順に、S=1,2,3,4である。前述の通り、フレーム画像全体のサイズは、縦(高さ)H、横(幅)Wである。領域画像のサイズは、Sの値に応じて、縦(高さ)δS−1・H、横(幅)δS−1・Wである。(a)〜(d)のそれぞれにおいて、領域画像のうちの1つを、破線で示している。図中において、連結された特徴ベクトルを、2次元のグラフの形式で示している。このグラフにおいて、横軸は特徴量(スカラー)の並び順であり、縦軸は各特徴量に共通する値の大きさを表わす。「a1」で示す範囲に含まれる特徴量の列は、同図(a)に含まれる領域画像から得られる特徴量である。「b1」、「b2」、「b3」、・・・のそれぞれに示す範囲に含まれる特徴量の列は、同図(b)に含まれる複数の領域画像から得られる特徴量である。同図においては「b4」までだけを示してそれより後を省略しているが、実際には、領域画像の数の分だけ特徴量の列が後続する。同図(c)や(d)についても同様であり、領域画像ごとの特徴量の列が後続する。本実施形態では、このようにして、特徴量の列をすべての領域画像について連結することにより、特徴ベクトルを生成する。つまり、局所特徴と、色特徴と、テクスチャ特徴のそれぞれに関して、領域画像ごとの特徴量の値(または値の列)を、図5で説明したようにすべての領域画像に関して連結したものが、局所特徴ベクトルと、色特徴ベクトルと、テクスチャ特徴ベクトルである。 FIG. 5 is a schematic diagram illustrating a relationship between a plurality of region images extracted by the above-described method and feature vectors. In the figure, (a) to (d) correspond to the scale stage of the region image, and S = 1, 2, 3, 4 in order in each case. As described above, the size of the entire frame image is vertical (height) H and horizontal (width) W. The size of the region image is vertical (height) δ S-1 · H and horizontal (width) δ S-1 · W according to the value of S. In each of (a) to (d), one of the region images is indicated by a broken line. In the figure, the connected feature vectors are shown in the form of a two-dimensional graph. In this graph, the horizontal axis represents the arrangement order of feature amounts (scalar), and the vertical axis represents the size of a value common to each feature amount. The feature amount column included in the range indicated by “a1” is a feature amount obtained from the region image included in FIG. The column of feature amounts included in the ranges indicated by “b1”, “b2”, “b3”,... Is a feature amount obtained from a plurality of region images included in FIG. In the figure, only “b4” is shown and the rest is omitted, but in actuality, the feature quantity columns follow the number of area images. The same applies to (c) and (d) in the figure, and a sequence of feature amounts for each area image follows. In the present embodiment, a feature vector is generated in such a manner by connecting feature value columns for all region images. That is, for each of the local feature, the color feature, and the texture feature, a feature value (or a sequence of values) for each region image connected with respect to all the region images as described in FIG. A feature vector, a color feature vector, and a texture feature vector.
次に、学習用データの構成方法の一例について説明する。
図6は、学習用データの構成例を示す概略図である。学習用データは、学習装置1の内部の記憶装置に格納される。既に述べたように、学習用データには、正例あるいは負例のラベルが付与されている。学習用データは、例えば、オブジェクト指向データベースを用いて構成され、図示するような表構造を有している。同データは、映像番号、映像データロケーション、フレーム識別情報、被写体種類(1から40まで)のデータ項目を有している。このデータは、複数の映像データについての情報を格納するものである。また、1つの映像データに対して、1つまたは複数のキーフレームを対応させている。映像番号は、映像データを識別するために付与された番号である。映像データロケーションは、映像データの実体の所在を表わす情報であり、例えば、ファイルシステムにおけるパス名の情報が用いられる。フレーム識別情報は、1つの映像データ内に含まれる、複数のキーフレームのそれぞれを識別する情報である。フレーム識別情報としては、単なるキーフレームの連番を用いても良いし、「hh:mm:ss.nnn」(時:分:秒.フレーム番号)の形式等で映像内のフレーム位置を特定する情報を用いても良い。各々の被写体種類に対応する欄には、「正」または「負」のラベル(入力画像が正例または負例のいずれであるかを示す情報)を格納する。これらのラベルは、キーフレーム画像抽出部13によって抽出される各々のキーフレームに、被写体種類(1〜40)のそれぞれが被写体として含まれているか否かの正解を表わすラベル情報である。なお、被写体種類の第6番目から第39番目のデータは図中において記載を省略している。「正」のラベルは、その被写体がそのキーフレーム画像に含まれていることを表わす。「負」のラベルは、その被写体がそのキーフレーム画像に含まれていないことを表わす。このラベルの値が、学習時の教師データとして用いられる。なお、被写体の種類数は40に限らず、これより多くても少なくても良い。
Next, an example of a method for configuring learning data will be described.
FIG. 6 is a schematic diagram illustrating a configuration example of learning data. The learning data is stored in a storage device inside the
なお、「正」または「負」のラベルの値は、例えば、キーフレーム画像抽出部13がキーフレーム画像を抽出した後に、人手によって与え、学習用データに書き込むようにする。
Note that the value of the “positive” or “negative” label is given by hand after the key frame
以上、述べたように、本実施形態では、正例(ある物体・事象が写っている)および負例(映っていない)のラベルが付与された学習データを用いた機械学習によって、映像に特定の被写体が出現しているかどうかを判定する。そのため、フレーム画像内における被写体の出現位置やサイズなどが変動した場合においても、特定の被写体を頑健に判定することができる画像特徴量を算出する。具体的には、映像フレーム画像を、様々なサイズのグリッド領域(領域画像)に区切り、グリッド領域ごとに特徴量を算出し、それらを連結することによってサイズ変動に対する頑健性を確保する。グリッド領域のサイズは、段階的に変化させる。また、グリッド領域同士が重なりを持つようにすることによって、グリッド領域の境界に存在する物体にも対応する。 As described above, in this embodiment, a video is specified by machine learning using learning data with a positive example (a certain object / event is shown) and a negative example (not shown). It is determined whether or not the subject has appeared. Therefore, even when the appearance position or size of the subject in the frame image changes, an image feature amount that can robustly determine a specific subject is calculated. Specifically, the video frame image is divided into grid regions (region images) of various sizes, feature amounts are calculated for each grid region, and the robustness against the size variation is ensured by connecting them. The size of the grid area is changed in stages. In addition, by making the grid areas overlap, it is possible to deal with an object existing at the boundary of the grid areas.
[評価実験]
本実施形態について、実際の映像データを使用して行なった評価実験の結果は、以下の通りである。本実験では、約600時間の映像を対象として、40種類の被写体を検出し、その検出精度を評価した。検出精度の算出については、テスト映像における全フレーム画像に対して判定処理を適用し、スコアが高いものから順に並び替え、その上位2000件に対する推定平均適合率を算出することで求めた。なお、設定値としては、δ=0.5,α=0.5,β=0.5とした。領域画像のスケールの範囲は、1≦S≦4とした。
[Evaluation experiment]
The results of an evaluation experiment performed using actual video data for this embodiment are as follows. In this experiment, 40 types of subjects were detected for about 600 hours of video, and the detection accuracy was evaluated. The detection accuracy was calculated by applying determination processing to all the frame images in the test video, rearranging them in descending order from the highest score, and calculating the estimated average precision for the top 2000 cases. The set values were δ = 0.5, α = 0.5, and β = 0.5. The range of the scale of the area image is 1 ≦ S ≦ 4.
なお、評価のための比較対象(従来技術による手法)としては、フレーム画像を固定的なグリッドサイズに分割する方式を用いた。具体的には、フレーム画像を縦横2×2分割とする分割方法と、縦横3×1分割とする分割方法を用いて、分割された各領域における特徴量を求めた。 As a comparison target for evaluation (a technique according to the prior art), a method of dividing a frame image into a fixed grid size was used. Specifically, the feature amount in each divided region was obtained by using a division method that divides the frame image into 2 × 2 vertical and horizontal divisions and a division method that divides the vertical and horizontal 3 × 1 divisions.
その結果、従来手法と比べて、検出精度が向上することを確認できた。被写体の種類別に精度を比較したところ、最大で4%の精度向上が認められたものもあった。本実施形態による手法と、従来手法との、検出精度の比較結果を表1に示す。ここに示すように、本実施形態による手法では、推定平均適合率(40種類の被写体の平均)において、従来手法よりも良い結果が得られた。 As a result, it was confirmed that the detection accuracy was improved as compared with the conventional method. When the accuracy was compared according to the type of subject, there was an accuracy improvement of 4% at the maximum. Table 1 shows a comparison result of detection accuracy between the method according to the present embodiment and the conventional method. As shown here, in the method according to the present embodiment, a better result than the conventional method was obtained in the estimated average precision (average of 40 types of subjects).
[第2の実施形態]
次に、本発明の第2の実施形態について説明する。第1の実施形態が、学習処理と識別処理の両方を行なうものであったのに対して、第2の実施形態は、学習処理のみを行なう。本実施形態の機能構成は、図1の機能ブロック図に含まれる機能のうち、学習装置1と識別部20の機能のみを有するものである。学習装置1が、学習用映像入力部11とキーフレーム画像抽出部13と領域画像抽出部15と特徴量算出部17と識別器学習部19とを含んで構成される点は、第1の実施形態と同様である。また、ここに列挙した各部の処理機能およびその作用、効果も、第1の実施形態において述べたそれらと同様であるので説明を省略する。この構成により、本実施形態の学習装置は、良好な特徴量を用いて機械学習を行い、識別部20を生成する(学習によりパラメーターの値を最適化する)ことができる。
[Second Embodiment]
Next, a second embodiment of the present invention will be described. The first embodiment performs both learning processing and identification processing, whereas the second embodiment performs only learning processing. The functional configuration of the present embodiment has only the functions of the
[第3の実施形態]
次に、本発明の第3の実施形態について説明する。第1の実施形態が、学習処理と識別処理の両方を行なうものであったのに対して、第3の実施形態は、識別処理のみを行なう。本実施形態の機能構成は、図1の機能ブロック図に含まれる機能のうち、映像入力部12とキーフレーム画像抽出部14と領域画像抽出部16と特徴量算出部18と識別部20のみを含んで構成され、学習装置1を含まない。そして、ここに列挙した各部の処理機能およびその作用、効果も、第1の実施形態において述べたそれらと同様であるので説明を省略する。また、識別部20は、予め学習済である。この構成により、本実施形態の識別装置は、良好な特徴量を用いて識別処理を行うことができる。
[Third Embodiment]
Next, a third embodiment of the present invention will be described. While the first embodiment performs both learning processing and identification processing, the third embodiment performs only identification processing. The functional configuration of the present embodiment includes only the
[第4の実施形態]
次に、本発明の第4の実施形態について説明する。第4の実施形態は、第1の実施形態の中で説明した画像特徴量算出装置の機能のみを単独の装置として実施する形態である。既に述べたように、画像特徴量算出装置は、領域画像抽出部15と特徴量算出部17とを組合せた装置として実現される。この画像特徴量算出装置における領域画像抽出部15と特徴量算出部17の機能、作用、効果は、既に説明したとおりであるため、ここでは説明を省略する。本実施形態の構成により、画像特徴量算出装置は、入力画像を基に、良好な、つまり、被写体のサイズの変化に対して頑健な画像特徴量を算出することができる。
[Fourth Embodiment]
Next, a fourth embodiment of the present invention will be described. In the fourth embodiment, only the function of the image feature amount calculation apparatus described in the first embodiment is implemented as a single apparatus. As described above, the image feature amount calculation device is realized as a device in which the region
[第5の実施形態]
第1〜第4の実施形態では、領域画像を抽出する際に、範囲を等間隔に移動させていた。本実施形態における領域画像抽出部15および16は、第1〜第4の実施形態とは異なる方法で、領域画像の抽出を行なう。なお、以下に述べる領域画像の抽出のしかたは、第1〜第4の実施形態に適用可能である。そのとき、領域画像の抽出のしかた以外の技術事項に関しては、各実施形態において既に述べたとおりであるので、ここでは説明を省略する。本実施形態における領域画像抽出部15および16は、次のいずれかの方法で領域画像の抽出を行なう。
[Fifth Embodiment]
In the first to fourth embodiments, the range is moved at equal intervals when extracting the region image. The region
第1の方法では、入力画像内の位置に応じて、領域画像を抽出する密度を変化させる。具体的には、図4で説明したフローチャートにおいて、設定値αおよびβの値を常に一定にするのではなく、例えば、フレーム画像の中央に近い領域ではαおよびβの値を小さくし、フレーム画像の周辺に近い領域ではαおよびβの値を相対的に大きくする。これは、フレーム画像の中央に近い領域に被写体が存在する場合に検出精度をより高めることにつながる。なお、逆に、フレーム画像の周辺部において被写体の検出精度を相対的に高めたい場合には、逆に、周辺部においてαおよびβの値を相対的に高くする。なお、この場合も、0<α≦1、且つ0<β≦1である。このように、領域画像を抽出する密度に差をつけることにより、特徴量を算出したり被写体を識別したりするための総合的な計算量を抑制しながら、画像内の重点的な領域のみによりきめ細かな計算を行なうことができる。 In the first method, the density for extracting the region image is changed according to the position in the input image. Specifically, in the flowchart described with reference to FIG. 4, the set values α and β are not always constant. For example, in the region close to the center of the frame image, the values α and β are decreased, and the frame image In the region near the periphery of, the values of α and β are relatively increased. This leads to higher detection accuracy when the subject is present in a region near the center of the frame image. On the contrary, when it is desired to relatively increase the detection accuracy of the subject in the peripheral portion of the frame image, the values of α and β are relatively increased in the peripheral portion. In this case, 0 <α ≦ 1 and 0 <β ≦ 1. In this way, by making a difference in the density at which the region image is extracted, while suppressing the total amount of calculation for calculating the feature amount and identifying the subject, only by the priority region in the image Detailed calculations can be performed.
第2の方法では、目的とする被写体が存在する可能性が高い領域において、領域画像を抽出する密度を相対的に高める。画像内の場所に応じた、被写体が存在する可能性(確率値)を表わすデータを、外部から供給するようにする。これにより、第1の方法と類似の効果が得られる。即ち、特徴量を算出したり被写体を識別したりするための総合的な計算量を抑制しながら、画像内の重点的な領域のみによりきめ細かな計算を行なうことができる。 In the second method, the density of extracting the region image is relatively increased in the region where the target subject is highly likely to exist. Data representing the possibility (probability value) of the presence of a subject according to the location in the image is supplied from the outside. Thereby, the effect similar to the 1st method is acquired. That is, it is possible to perform fine calculation only with the important region in the image while suppressing the total calculation amount for calculating the feature amount and identifying the subject.
第3の方法では、フレーム画像内のランダムな場所において同一サイズで複数の領域画像を抽出するようにする。 In the third method, a plurality of region images having the same size are extracted at random locations in the frame image.
[第1〜第5の実施形態のコンピュータープログラムによる実施]
なお、上述した各実施形態における各処理部の機能をコンピューターで実現するようにしても良い。その場合、これらの機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
[Implementation by the computer program of the first to fifth embodiments]
In addition, you may make it implement | achieve the function of each process part in each embodiment mentioned above with a computer. In that case, the program for realizing these functions may be recorded on a computer-readable recording medium, and the program recorded on the recording medium may be read into a computer system and executed. Here, the “computer system” includes an OS and hardware such as peripheral devices. The “computer-readable recording medium” refers to a storage device such as a flexible disk, a magneto-optical disk, a portable medium such as a ROM and a CD-ROM, and a hard disk incorporated in a computer system. Furthermore, a “computer-readable recording medium” dynamically holds a program for a short time, like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. In this case, a volatile memory inside a computer system serving as a server or a client in that case may be included, and a program that holds a program for a certain period of time. The program may be a program for realizing a part of the above-described functions, or may be a program that can realize the above-described functions in combination with a program already recorded in a computer system.
以上、複数の実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。
(変形例1)前述の実施形態では、一例としてα=0.5,β=0.5とした。また、α≦0.5またはβ≦0.5とすることにより領域画像の抽出密度を高める例を記載した。しかしながら、α>0.5またはβ>0.5としても良い。
(変形例2)前述の実施形態では、画像の特徴量として、局所特徴ベクトルや色特徴ベクトルやテクスチャ特徴ベクトルを用いた。変形例では、その他の特徴量を用いるようにしても良い。
(変形例3)前述の実施形態では、学習装置1内において、キーフレーム画像抽出部13が抽出したキーフレームについて、「正例」または「負例」のラベル値を与えるようにした。変形例では、その代わりに、映像に対応したキーフレーム画像を予め抽出しておき、抽出済みのキーフレーム画像とラベル値のデータとをセットにして学習装置1が外部から取り込むようにする。そして、学習装置1は、特に映像データそのものを用いず、キーフレーム画像とラベル値とに基づいた学習処理を行なう。
(変形例4)図4のフローチャートの処理によって領域画像抽出部が領域画像を抽出する際に、元のフレーム画像の下端部または右端部に余剰が生じた場合には、領域画像の下端または右端がちょうどフレーム画像の下端または右端に合うように、領域画像の座標の増分を調整する。あるいは、フレーム画像の下端または右端をはみ出して、領域画像の座標を決定しても良い。領域画像の一部がフレーム画像の外側にはみ出す場合は、はみ出した部分については一様な画素値が存在するものとして(つまり、その部分には画像情報がないものとして)、以後の特徴量算出等の処理を行なうようにする。
Although a plurality of embodiments have been described above, the present invention can also be implemented in the following modifications.
(Modification 1) In the above-described embodiment, α = 0.5 and β = 0.5 are set as an example. In addition, an example has been described in which the extraction density of the region image is increased by setting α ≦ 0.5 or β ≦ 0.5. However, α> 0.5 or β> 0.5 may be set.
(Modification 2) In the above-described embodiment, a local feature vector, a color feature vector, or a texture feature vector is used as the feature amount of an image. In the modification, other feature amounts may be used.
(Modification 3) In the embodiment described above, a label value of “positive example” or “negative example” is given to the key frame extracted by the key frame
(Modification 4) When the region image extraction unit extracts a region image by the processing of the flowchart of FIG. 4, if a surplus occurs at the lower end or right end of the original frame image, the lower end or right end of the region image Adjust the increment of the coordinates of the region image so that is exactly aligned with the lower or right edge of the frame image. Alternatively, the coordinates of the region image may be determined by protruding the lower end or the right end of the frame image. When a part of the area image protrudes outside the frame image, it is assumed that there is a uniform pixel value for the protruding part (that is, there is no image information in that part), and the subsequent feature value calculation And so on.
以上、この発明の実施形態およびその変形例について詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。 As mentioned above, although embodiment of this invention and its modification were explained in full detail, the concrete structure is not restricted to this embodiment, The design etc. of the range which does not deviate from the summary of this invention are included.
本発明は、映像コンテンツの管理等に利用することができる。 The present invention can be used for video content management and the like.
1 学習装置
2 識別装置
11 学習用映像入力部
12 映像入力部
13,14 キーフレーム画像抽出部
15,16 領域画像抽出部
17,18 特徴量算出部
19 識別器学習部
20 識別部
170 特徴ベクトル生成部
171 特徴点検出部
172 色統計特徴算出部
173 テクスチャ特徴算出部
174 局所特徴量子化部
177 局所特徴ベクトル生成部
178 色特徴ベクトル生成部
179 テクスチャ特徴ベクトル生成部
DESCRIPTION OF
Claims (5)
前記入力画像に基づき、前記領域画像抽出部によって指定された前記領域画像の各々の特徴量を算出するとともに、複数の前記領域画像から算出された特徴量を連結することによって前記入力画像の特徴量を生成する特徴量算出部と、
前記入力画像が正例または負例のいずれであるかを示す情報と、前記特徴量算出部によって生成された前記入力画像の特徴量の組合せとに基づいて、未知の入力画像が正例であるか負例であるかのいずれかを識別するための識別器のパラメーターを求める識別器学習部と、
を具備し、
前記領域画像抽出部は、縦H S 画素且つ横W S 画素の同一サイズの複数の前記領域画像の少なくとも一部が互いに重なり合うように、縦方向(H S ×α)画素且つ横方向(W S ×β)画素の刻みで順次移動させながら前記領域画像の範囲を指定するものであり、0<α≦0.5または0<β≦0.5とする、
ことを特徴とする学習装置。 An area image extraction unit for designating a range of area images of a plurality of sizes included in the input image;
Based on the input image, the feature amount of each of the region images specified by the region image extraction unit is calculated, and the feature amount of the input image is connected by connecting the feature amounts calculated from the plurality of region images. A feature amount calculation unit for generating
An unknown input image is a positive example based on information indicating whether the input image is a positive example or a negative example and a combination of feature amounts of the input image generated by the feature amount calculation unit. A discriminator learning unit for obtaining a parameter of a discriminator for discriminating either a negative example or a negative example;
Comprising
The area image extracting unit, the vertical H S at least a portion of the pixel and horizontal W S plurality of the area images of the same size of pixels so as to overlap each other in the vertical direction (H S × α) pixels and lateral (W S Xβ) The range of the region image is designated while sequentially moving in increments of pixels , and 0 <α ≦ 0.5 or 0 <β ≦ 0.5.
A learning apparatus characterized by that.
前記入力画像に基づき、前記領域画像抽出部によって指定された前記領域画像の各々の特徴量を算出するとともに、複数の前記領域画像から算出された特徴量を連結することによって前記入力画像の特徴量を生成する特徴量算出部と、
予め学習済みのパラメーターと、前記特徴量算出部が生成した前記入力画像の特徴量とに基づいて、前記入力画像が正例であるか負例かを識別する識別部と、
を具備し、
前記領域画像抽出部は、縦H S 画素且つ横W S 画素の同一サイズの複数の前記領域画像の少なくとも一部が互いに重なり合うように、縦方向(H S ×α)画素且つ横方向(W S ×β)画素の刻みで順次移動させながら前記領域画像の範囲を指定するものであり、0<α≦0.5または0<β≦0.5とする、
ことを特徴とする識別装置。 An area image extraction unit for designating a range of area images of a plurality of sizes included in the input image;
Based on the input image, the feature amount of each of the region images specified by the region image extraction unit is calculated, and the feature amount of the input image is connected by connecting the feature amounts calculated from the plurality of region images. A feature amount calculation unit for generating
An identification unit for identifying whether the input image is a positive example or a negative example based on a parameter learned in advance and a feature amount of the input image generated by the feature amount calculation unit;
Comprising
The area image extracting unit, the vertical H S at least a portion of the pixel and horizontal W S plurality of the area images of the same size of pixels so as to overlap each other in the vertical direction (H S × α) pixels and lateral (W S Xβ) The range of the region image is designated while sequentially moving in increments of pixels , and 0 <α ≦ 0.5 or 0 <β ≦ 0.5.
An identification device characterized by that.
前記識別部は、前記識別器学習部によって求められた前記パラメーターを前記予め学習済みのパラメーターとして用いることによって、未知の前記入力画像が正例であるか負例かを識別する、
ことを特徴とする請求項2に記載の識別装置。 Based on information indicating whether the input image input as learning data is a positive example or a negative example, and a combination of feature amounts of the input image generated by the feature amount calculation unit, an unknown A discriminator learning unit for obtaining a discriminator parameter for discriminating whether the input image is a positive example or a negative example;
The identifying unit identifies whether the unknown input image is a positive example or a negative example by using the parameter obtained by the classifier learning unit as the previously learned parameter.
The identification device according to claim 2.
として機能させるためのプログラム。 A program for causing a computer to function as the learning device according to claim 1.
として機能させるためのプログラム。 A program for causing a computer to function as the identification device according to claim 2 or 3.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012250151A JP6151908B2 (en) | 2012-11-14 | 2012-11-14 | Learning device, identification device, and program thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012250151A JP6151908B2 (en) | 2012-11-14 | 2012-11-14 | Learning device, identification device, and program thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014099027A JP2014099027A (en) | 2014-05-29 |
JP6151908B2 true JP6151908B2 (en) | 2017-06-21 |
Family
ID=50940998
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012250151A Expired - Fee Related JP6151908B2 (en) | 2012-11-14 | 2012-11-14 | Learning device, identification device, and program thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6151908B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6873600B2 (en) * | 2016-03-04 | 2021-05-19 | キヤノン株式会社 | Image recognition device, image recognition method and program |
KR102082129B1 (en) * | 2018-12-26 | 2020-02-27 | 상명대학교산학협력단 | Apparatus and method for identifying specific animal species based on image recognition |
JP7453828B2 (en) | 2020-03-26 | 2024-03-21 | Go株式会社 | Programs, neural network systems, information processing methods, and neural network model generation methods |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011013732A (en) * | 2009-06-30 | 2011-01-20 | Sony Corp | Information processing apparatus, information processing method, and program |
JP5707570B2 (en) * | 2010-03-16 | 2015-04-30 | パナソニックIpマネジメント株式会社 | Object identification device, object identification method, and learning method for object identification device |
JP5201184B2 (en) * | 2010-08-24 | 2013-06-05 | 株式会社豊田中央研究所 | Image processing apparatus and program |
JP5901054B2 (en) * | 2011-12-02 | 2016-04-06 | 国立大学法人九州工業大学 | Object detection method and object detection apparatus using the method |
-
2012
- 2012-11-14 JP JP2012250151A patent/JP6151908B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2014099027A (en) | 2014-05-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dalla Mura et al. | Classification of hyperspectral images by using extended morphological attribute profiles and independent component analysis | |
CN107346409B (en) | pedestrian re-identification method and device | |
Li et al. | SHREC’13 track: large scale sketch-based 3D shape retrieval | |
EP3101594A1 (en) | Saliency information acquisition device and saliency information acquisition method | |
Xiaofeng et al. | Discriminatively trained sparse code gradients for contour detection | |
US9489566B2 (en) | Image recognition apparatus and image recognition method for identifying object | |
US9025882B2 (en) | Information processing apparatus and method of processing information, storage medium and program | |
US20150310305A1 (en) | Learning painting styles for painterly rendering | |
Ramaiah et al. | De-duplication of photograph images using histogram refinement | |
Manfredi et al. | A complete system for garment segmentation and color classification | |
JP6393230B2 (en) | Object detection method and image search system | |
US20180137630A1 (en) | Image processing apparatus and method | |
CN108197644A (en) | A kind of image-recognizing method and device | |
JP4098021B2 (en) | Scene identification method, apparatus, and program | |
JP6151908B2 (en) | Learning device, identification device, and program thereof | |
Mairon et al. | A closer look at context: From coxels to the contextual emergence of object saliency | |
CN114444565A (en) | Image tampering detection method, terminal device and storage medium | |
CN113963295A (en) | Method, device, equipment and storage medium for recognizing landmark in video clip | |
CN106056575B (en) | A kind of image matching method based on like physical property proposed algorithm | |
CN109657083B (en) | Method and device for establishing textile picture feature library | |
CN109784379B (en) | Updating method and device of textile picture feature library | |
JP4612477B2 (en) | Pattern recognition apparatus, pattern recognition method, pattern recognition program, and pattern recognition program recording medium | |
US8938118B1 (en) | Method of neighbor embedding for OCR enhancement | |
JP2016081472A (en) | Image processing device, and image processing method and program | |
KR101937859B1 (en) | System and Method for Searching Common Objects in 360-degree Images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20151001 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20161017 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20161101 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161222 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20170124 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170418 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20170426 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170523 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170526 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6151908 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |