JP7077046B2 - Information processing device, subject identification method and computer program - Google Patents

Information processing device, subject identification method and computer program Download PDF

Info

Publication number
JP7077046B2
JP7077046B2 JP2018023792A JP2018023792A JP7077046B2 JP 7077046 B2 JP7077046 B2 JP 7077046B2 JP 2018023792 A JP2018023792 A JP 2018023792A JP 2018023792 A JP2018023792 A JP 2018023792A JP 7077046 B2 JP7077046 B2 JP 7077046B2
Authority
JP
Japan
Prior art keywords
feature
image
information processing
discriminating
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018023792A
Other languages
Japanese (ja)
Other versions
JP2019139618A5 (en
JP2019139618A (en
Inventor
俊太 舘
優和 真継
克彦 森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2018023792A priority Critical patent/JP7077046B2/en
Publication of JP2019139618A publication Critical patent/JP2019139618A/en
Publication of JP2019139618A5 publication Critical patent/JP2019139618A5/ja
Application granted granted Critical
Publication of JP7077046B2 publication Critical patent/JP7077046B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は、画像に映った被写体を判別するための情報処理技術に関する。 The present invention relates to an information processing technique for discriminating a subject reflected in an image.

画像に映った被写体(人物、物体等)を認識する装置では、認識精度を高めるためのさまざまな工夫が行われている。例えば、特許文献1に開示された技術では、物体を認識する際に画像が撮影されたシーンの分類を行う。すなわち物体の画像上の出現位置をシーンごとに集計し、分類する。そして、分類の結果に応じて物体の事前知識を表すスコアを調整する。これにより、例えば「街角」のシーンの画面上方には、「車」が出現する頻度は少ないといった事前知識に基づいた物体検出を行うことにより誤検出を低減させている。 In the device that recognizes the subject (person, object, etc.) reflected in the image, various measures are taken to improve the recognition accuracy. For example, in the technique disclosed in Patent Document 1, the scene in which an image is taken when recognizing an object is classified. That is, the appearance positions of objects on the image are aggregated and classified for each scene. Then, the score representing the prior knowledge of the object is adjusted according to the result of the classification. As a result, erroneous detection is reduced by performing object detection based on prior knowledge that, for example, the frequency of appearance of "cars" is low in the upper part of the screen of the "street corner" scene.

WO2012/046426WO2012 / 046426

特許文献1に示されるシーンの分類を前提とする手法では、分類精度が適切でない場合は、逆に認識精度が低下してしまう。また、カメラの方位や仰角が異なると物体の出現位置の分布が変化するため、認識精度を高めるには多数のシーンの分類結果を用意する必要がある。そのため、効果が期待できるのは一部の画像に限られるという問題がある。 In the method premised on the classification of scenes shown in Patent Document 1, if the classification accuracy is not appropriate, the recognition accuracy is conversely lowered. In addition, since the distribution of the appearance position of the object changes when the direction and elevation angle of the camera are different, it is necessary to prepare the classification results of many scenes in order to improve the recognition accuracy. Therefore, there is a problem that the effect can be expected only for some images.

本発明は、特段の制約なしに取得した画像中の被写体を精度よく判別することができる技術を提供することを目的とする。 An object of the present invention is to provide a technique capable of accurately discriminating a subject in an acquired image without any particular restriction.

本発明の一つの側面における情報処理装置は、画像の特徴抽出のベースとなるベース特徴を生成するベース特徴生成手段と、前記画像の局所領域に関する第1解像度の第1特徴を前記ベース特徴に基づいて生成する第1特徴生成手段と、前記画像の、前記局所領域よりも広い広域領域に関する第2特徴であって、前記第1解像度よりも粗い第2解像度の第2特徴を前記ベース特徴に基づいて生成する第2特徴生成手段と、前記第2特徴に基づいて、前記画像に存在する被写体を判別するための判別パラメータを前記画像の部分領域毎に設定する設定手段と、前記第1特徴と前記判別パラメータとに基づいて前記被写体を判別する判別手段と、を備えることを特徴とする。 The information processing apparatus according to one aspect of the present invention is based on the base feature generation means for generating the base feature which is the base for extracting the feature of the image and the first feature of the first resolution regarding the local region of the image based on the base feature. Based on the base feature, the first feature generating means and the second feature of the image relating to a wide area wider than the local region and having a second resolution coarser than the first resolution are used. A second feature generation means for generating the second feature, a setting means for setting a discrimination parameter for discriminating a subject existing in the image for each partial region of the image based on the second feature, and the first feature. It is characterized by comprising a discriminating means for discriminating the subject based on the discriminating parameter.

本発明によれば、特段の制約なしに撮影された画像中の被写体を精度よく判別することができる情報処理装置を提供することができる。 According to the present invention, it is possible to provide an information processing apparatus capable of accurately discriminating a subject in an image captured without any particular restriction.

第1実施形態に係る情報処理装置のハードウェア構成図。The hardware block diagram of the information processing apparatus which concerns on 1st Embodiment. 第1実施形態に係る情報処理装置の機能ブロック構成図。The functional block block diagram of the information processing apparatus which concerns on 1st Embodiment. 第1実施形態における被写体の判別方法の手順説明図。The procedure explanatory diagram of the subject discriminating method in 1st Embodiment. ベース特徴の生成処理の詳細手順説明図。Detailed procedure explanatory diagram of the generation process of the base feature. (A)は局所特徴、(B)は広域特徴の生成処理の手順説明図。(A) is a procedure explanatory diagram of a local feature generation process, and (B) is a wide area feature generation process. 判別パラメータを推定する処理の詳細手順説明図。Detailed procedure explanatory diagram of the process of estimating the discrimination parameter. 被写体判別動作の詳細処理手順説明図。Detailed processing procedure explanatory diagram of the subject discrimination operation. 特徴マップの生成過程を示す説明図。Explanatory drawing which shows the generation process of a feature map. カメラ情報と連結して広域特徴の生成過程を示す説明図。Explanatory diagram showing the generation process of wide area features in connection with camera information. (A)~(C)は入力画像と各種カメラ情報との関係を示す説明図。(A) to (C) are explanatory views showing the relationship between the input image and various camera information. 学習処理時の機能構成を示すブロック図。A block diagram showing a functional configuration during learning processing. 判別パラメータ設定部における学習処理の手順説明図。The procedure explanatory diagram of the learning process in the discrimination parameter setting part. 判別パラメータ設定部における回帰器学習処理の手順説明図。An explanatory diagram of the procedure of the regression device learning process in the discrimination parameter setting unit. (A),(B)は学習処理に用いる学習データの例を示す説明図。(A) and (B) are explanatory diagrams showing an example of learning data used for learning processing. 判別パラメータ設定学習の流れを示す説明図。An explanatory diagram showing the flow of discriminant parameter setting learning. 第2実施形態の情報処理装置の機能構成図。The functional block diagram of the information processing apparatus of 2nd Embodiment. (A),(B)は第2実施形態における被写体の判別方法の手順説明図。(A) and (B) are procedure explanatory views of the subject discrimination method in 2nd Embodiment. 第3実施形態の情報処理装置の機能構成を示すブロック図。The block diagram which shows the functional structure of the information processing apparatus of 3rd Embodiment. 第3実施形態における被写体の判別方法の手順説明図。The procedure explanatory diagram of the subject discriminating method in 3rd Embodiment. (A)~(D)は判別パラメータ学習の模式図。(A) to (D) are schematic diagrams of discriminant parameter learning.

以下、本発明を適用した情報処理装置の実施の形態例を説明する。
情報処理装置は、ストレージを有するコンピュータとコンピュータプログラムとを用いて実施することができる。
[第1実施形態]
図1は第1実施形態に係る情報処理装置のハードウェア構成図である。この情報処理装置は、コンピュータ10とその周辺デバイスとを有する。コンピュータ10は、システムバス19に接続されたCPU11、GPU12、ROM13、RAM14、外部記憶装置15を有する。システムバス19には、また、入力デバイスインタフェース16、出力デバイスインタフェース17、映像機器インタフェース18も接続される。
Hereinafter, examples of embodiments of the information processing apparatus to which the present invention is applied will be described.
The information processing device can be implemented using a computer having storage and a computer program.
[First Embodiment]
FIG. 1 is a hardware configuration diagram of the information processing apparatus according to the first embodiment. This information processing device includes a computer 10 and its peripheral devices. The computer 10 has a CPU 11, a GPU 12, a ROM 13, a RAM 14, and an external storage device 15 connected to the system bus 19. An input device interface 16, an output device interface 17, and a video equipment interface 18 are also connected to the system bus 19.

CPU(Central Processing Unit)11は、コンピュータ10全体を制御する。GPU(Graphics Processing Unit)12は、画像処理などの高負荷の演算を行う演算装置として機能する。ROM(Read Only Memory)13は、変更を必要としない制御プログラムやパラメータなどを格納する。RAM(Random Access Memory)14は、CPU11のワークメモリであり、プログラムやデータなどを一時記憶する。外部記憶装置15は、ストレージの一例として、半導体メモリ、ハードディスク、光磁気ディスク、着脱可能なメモリカード等の記憶メディアを有するものである。外部記憶装置15には、本発明のコンピュータプログラム、画像(映像を含む)、後述する各種特徴マップ、判別パラメータ、特徴変換に用いる所定の規則、カメラ情報などが記憶される。また、特徴生成の学習に用いる学習画像、被写体判別に用いられる教師値、学習済ニューラルネットワークモデルなども記憶される。 The CPU (Central Processing Unit) 11 controls the entire computer 10. The GPU (Graphics Processing Unit) 12 functions as an arithmetic unit that performs high-load arithmetic such as image processing. The ROM (Read Only Memory) 13 stores control programs, parameters, and the like that do not require changes. The RAM (Random Access Memory) 14 is a work memory of the CPU 11, and temporarily stores programs, data, and the like. As an example of storage, the external storage device 15 has a storage medium such as a semiconductor memory, a hard disk, a magneto-optical disk, and a detachable memory card. The external storage device 15 stores the computer program of the present invention, images (including video), various feature maps described later, discrimination parameters, predetermined rules used for feature conversion, camera information, and the like. In addition, a learning image used for learning feature generation, a teacher value used for subject discrimination, a trained neural network model, and the like are also stored.

入力デバイスインタフェース16は、ポインティングデバイスやキーボードなどの入力デバイス21とのインタフェースである。出力デバイスインタフェース17は、データ表示用のモニタ22とのインタフェースである。映像機器インタフェース18は、カメラ23等の撮像機器とのインタフェースである。 The input device interface 16 is an interface with an input device 21 such as a pointing device or a keyboard. The output device interface 17 is an interface with the monitor 22 for displaying data. The video device interface 18 is an interface with an image pickup device such as a camera 23.

コンピュータ10は、CPU11が本発明のコンピュータプログラムを読み込んで実行することにより、被写体の判別方法の実施に適した情報処理装置として動作する。なお、ニューラルネットワーク等による学習、パラメータ設定、判別、画像処理等については、GPU12が処理する。もちろん、CPU11が十分高性能である場合には、GPU12は省略してよい。 The computer 10 operates as an information processing device suitable for implementing a method for discriminating a subject by having the CPU 11 read and execute the computer program of the present invention. The GPU 12 processes learning, parameter setting, discrimination, image processing, etc. by a neural network or the like. Of course, if the CPU 11 has sufficiently high performance, the GPU 12 may be omitted.

コンピュータ10が情報処理装置として動作するときの機能ブロック構成例を図2に示す。また、本実施形態の情報処理装置が実行する被写体の判別方法の処理手順例を図3に示す。以後の説明では処理の各ステップを、以下「S」と略記する。
画像入力部101は、画像を取得する(S10)。本実施形態では、カメラで撮影した撮影画像を取り込むものとする。取り込んだ画像を「入力画像」と呼ぶ。カメラ情報入力部110は撮影時の条件などを表すカメラ情報の入力処理を行う。カメラ情報の内容については、後で詳しく説明する。
FIG. 2 shows an example of a functional block configuration when the computer 10 operates as an information processing device. Further, FIG. 3 shows an example of a processing procedure of a subject discrimination method executed by the information processing apparatus of the present embodiment. In the following description, each step of the process will be abbreviated as "S" below.
The image input unit 101 acquires an image (S10). In the present embodiment, it is assumed that the captured image taken by the camera is captured. The captured image is called an "input image". The camera information input unit 110 performs camera information input processing indicating conditions at the time of shooting and the like. The contents of the camera information will be described in detail later.

ベース特徴生成部108は、入力画像における特徴抽出のベースとなるベース特徴を生成し、これを記憶する(S11)。ベース情報の内容及びその生成過程については、後で詳しく説明する。 The base feature generation unit 108 generates and stores a base feature that is a base for feature extraction in the input image (S11). The contents of the base information and the generation process thereof will be described in detail later.

第1特徴生成部102は、ベース特徴を所定の規則に従って変換することにより入力画像の局所領域の特徴を含む第1特徴を生成し、生成した第1特徴を記憶する(S12)。局所領域の特徴を、以後、「局所特徴」と呼ぶ。第2特徴生成部103は、ベース特徴を所定の規則に従って変換するとともに、必要に応じてカメラ情報をも考慮することにより、入力画像の広域領域の特徴を含む第2特徴を生成し、生成した第2特徴を記憶する(S13)。「広域領域」とは局所領域よりも広い範囲にわたる特徴をいう。この広域領域の特徴を、以後「広域特徴」と呼ぶ。 The first feature generation unit 102 generates the first feature including the feature of the local region of the input image by converting the base feature according to a predetermined rule, and stores the generated first feature (S12). The characteristics of the local region are hereinafter referred to as "local characteristics". The second feature generation unit 103 generated and generated a second feature including a feature in a wide area of the input image by converting the base feature according to a predetermined rule and also considering the camera information as necessary. The second feature is stored (S13). "Wide area" refers to a feature that covers a wider area than the local area. The characteristics of this wide area are hereinafter referred to as "wide area features".

被写体のうち例えば人物の顔を検出対象とし、その顔の検出をタスクとする場合、入力画像に人物と人工物や自然物とが乱雑に映っていると誤検出や未検出が多数生じてしまう場合がある。本実施形態では、誤検出や未検出を抑制するため、判別パラメータ設定部104で、入力画像に応じて、被写体を判別する際に用いる判別パラメータを推定する。そして、これを入力画像を構成する領域ブロックごとに設定する(S14)。「領域ブロック」は座標で特定される画素群の領域をいう。判別パラメータには、例えば被写体の候補の尤度がそれ以上であればその候補が被写体であると判別するための閾値(θ)を用いる。この閾値(θ)は、第2特徴に基づいて決定される推定値であり、判別の誤りが所定値以下となるように予め学習により決定された閾値である。 For example, when the face of a person is targeted for detection among the subjects and the task is to detect the face, if the person and an artificial object or a natural object are randomly reflected in the input image, many false detections or undetections occur. There is. In the present embodiment, in order to suppress erroneous detection and non-detection, the discrimination parameter setting unit 104 estimates the discrimination parameter used when discriminating the subject according to the input image. Then, this is set for each area block constituting the input image (S14). The "region block" refers to the region of the pixel group specified by the coordinates. For the discrimination parameter, for example, if the likelihood of the subject candidate is higher than that, a threshold value (θ) for discriminating that the candidate is the subject is used. This threshold value (θ) is an estimated value determined based on the second feature, and is a threshold value determined in advance by learning so that the discrimination error is equal to or less than a predetermined value.

被写体判別部106は、第1特徴と判別パラメータとに基づいて入力画像中の被写体を判別する(S15)。本実施形態では、検出対象である人物(あるいは人物の顔)を判別するために、被写体判別部106が、3種類の尤度生成部106a、106b、106cと閾値処理部106dの機能を備えるものとする。尤度生成部106a、106b、106cは、第1特徴生成部102で生成された第1特徴に基づいて尤度スコアを生成する。この尤度スコアは、入力画像の領域ブロックごとに、顔が小さい人物、顔が中程度の人物、顔が大きい人物がそれぞれ存在することの確からしさ(尤度)を表す尤度スコアを並べたものである。被写体判別部106は、これらの尤度マップに基づいて被写体の候補を決定する。そして、閾値処理部106dで、入力画像に応じて推定された閾値(θ)と被写体の候補とを閾値処理することにより、当該候補が、検出対象である人物(あるいは人物の顔)かどうかを判別する。結果出力部107は、判別結果をモニタ22等に出力する(S16)。 The subject discrimination unit 106 discriminates the subject in the input image based on the first feature and the discrimination parameter (S15). In the present embodiment, in order to discriminate a person (or a person's face) to be detected, the subject discrimination unit 106 has three types of likelihood generation units 106a, 106b, 106c and a threshold processing unit 106d. And. The likelihood generation units 106a, 106b, 106c generate a likelihood score based on the first feature generated by the first feature generation unit 102. For this likelihood score, the likelihood scores indicating the certainty (likelihood) that there are a person with a small face, a person with a medium face, and a person with a large face are arranged for each area block of the input image. It is a thing. The subject discrimination unit 106 determines a candidate for a subject based on these likelihood maps. Then, the threshold value processing unit 106d performs threshold value processing on the threshold value (θ) estimated according to the input image and the candidate of the subject, so that whether or not the candidate is a person (or a person's face) to be detected is determined. Determine. The result output unit 107 outputs the determination result to the monitor 22 or the like (S16).

<ベース特徴の生成>
図3のS11の処理の内容を図4及び図8を参照して詳しく説明する。図4はベース特徴生成部108が実行する処理の詳細手順説明図であり、図8は処理の概念説明図である。ベース特徴は、例えばCNN(Convolutional Neural Network:畳み込みニューラルネットワーク、以下CNNと略す)を用いて生成することができる。ただし、S11の処理では、CNNの全結合層と呼ばれる層は用いず、畳み込み層と呼ばれる種類の層のみを用いる。図8中、「ch」が付された数字は、特徴マップの枚数である。
<Generation of base features>
The contents of the process of S11 in FIG. 3 will be described in detail with reference to FIGS. 4 and 8. FIG. 4 is a detailed procedure explanatory diagram of the processing executed by the base feature generation unit 108, and FIG. 8 is a conceptual explanatory diagram of the processing. The base feature can be generated using, for example, a CNN (Convolutional Neural Network, hereinafter abbreviated as CNN). However, in the treatment of S11, a layer called a fully bonded layer of CNN is not used, and only a layer of a type called a convolutional layer is used. In FIG. 8, the number with “ch” is the number of feature maps.

ベース特徴生成部108は、まず、ベース特徴F(x,y)を格納する空の配列を用意する(S1201)。つまり、上記の配列を初期化する。(x,y)は画素の座標(X,Y座標系)を表す添え字である。初期化後、ベース特徴生成部108は、CNNにより、図8に示された複数回の畳み込み演算を繰り返すことで複数層の特徴マップを生成する(図4のS1202~S1207)。図8の例で言えば、ベース特徴生成部108は、RGB(赤、緑、青)の3chの入力画像I(x,y)401に対して、畳み込み演算402aを行い、64chの特徴マップ403aを生成する。また、この特徴マップ403aについて、再度畳み込み演算402bを行い、その演算結果について1/2プーリング404aを行うことで128chの特徴マップ403bを生成する。同様にして、特徴マップ403bについて再度畳み込み演算402cを行い、その演算結果について1/2プーリング404bを行うことで256chの特徴マップ403cを生成する。1/2プーリング404a、404bは、特徴マップ403a,403bをそれぞれ所定の局所領域ごとに代表値で代表させることにより、マップサイズを縮小する処理である。この処理には、CNNの認識性能をロバストにする効果がある(ただし、演算が進むに従って解像度が低くなる)。本実施形態の1/2プーリング404a、404bでは、それぞれ特徴マップを(2×2画素)ごとに統合して、1/2の解像度の特徴マップに縮小する。L番目の層の畳み込み演算及び1/2プーリングの処理を数式で表すと下記のようになる。 First, the base feature generation unit 108 prepares an empty array for storing the base feature F (x, y) (S1201). That is, the above array is initialized. (X, y) is a subscript representing the coordinates of the pixel (X, Y coordinate system). After initialization, the base feature generation unit 108 generates a multi-layer feature map by repeating the convolution operation shown in FIG. 8 a plurality of times by the CNN (S1202 to S1207 in FIG. 4). In the example of FIG. 8, the base feature generation unit 108 performs a convolution operation 402a on the RGB (red, green, blue) 3ch input image I (x, y) 401, and the 64ch feature map 403a. To generate. Further, the feature map 403b of 128ch is generated by performing the convolution calculation 402b again for the feature map 403a and performing the 1/2 pooling 404a for the calculation result. Similarly, the convolution calculation 402c is performed again on the feature map 403b, and the 1/2 pooling 404b is performed on the calculation result to generate the feature map 403c of 256ch. The 1/2 pooling 404a and 404b are processes for reducing the map size by representing the feature maps 403a and 403b with representative values for each predetermined local region. This process has the effect of making the CNN recognition performance robust (however, the resolution decreases as the calculation progresses). In the 1/2 pooling 404a and 404b of the present embodiment, the feature maps are integrated for each (2 × 2 pixels) and reduced to a feature map having a resolution of 1/2. The convolution operation of the Lth layer and the processing of 1/2 pooling are expressed by mathematical expressions as follows.

[数1]
(x,y,z)
=θ(ΣCHINΣΔx,Δy=-K~+K(Δx,Δy,CHIN,CHOUT)
×fL-1(x+Δx,y+Δx,CHIN)+B CHOUT
[Number 1]
f L (x, y, z)
= Θ (Σ CHIN Σ Δx, Δy = -K to + Kw L (Δx, Δy, CHIN, CHOUT)
× f L-1 (x + Δx, y + Δx, CHIN) + BL CHOUT )

ここで、f(x,y,z)は、L番目の層が出力する特徴マップの出力結果であり、z枚の特徴マップを表す。x,yは画素の位置(座標)を表す。また、θ(・)は、半波整流よりなる活性化関数(ReLU(Rectified Linear Unit)function)であり、入力した値が0以下のとき0となり、1より大きいとき入力をそのまま出力される。また、w(Δx,Δy,CHIN,CHOUT)(ただしΔx,Δy∈{-K,...,0,...,K})は、L番目の層の畳み込みの重みパラメータである。BはL番目の層のバイアス項である。CHINは、L-1番目の層が出力する特徴マップの識別番号、CHOUTは、L番目の層が出力する特徴マップの識別番号を表す。
なお、上式では入力画像I(x,y)は、特徴マップf(x,y,z)として扱うものとする。ここでは、畳み込み演算の前後で特徴マップのx,y方向のサイズが変化しないように、畳み込み演算の前に特徴マップfL-1の周囲の画素に0値を充填してから畳み込む。このようにして、CNNの各層において、それぞれ複数層となる特徴マップ403a、403b、403cが生成される。
Here, f L (x, y, z) is an output result of the feature map output by the Lth layer, and represents z sheets of feature maps. x and y represent the positions (coordinates) of the pixels. Further, θ (・) is an activation function (ReLU (Rectified Linear Unit) function) consisting of half-wave rectification, and when the input value is 0 or less, it becomes 0, and when it is larger than 1, the input is output as it is. Further, w L (Δx, Δy, CHIN, CHOUT) (where Δx, Δy ∈ {−K, ..., 0, ..., K}) is a convolution weight parameter of the Lth layer. BL is the bias term of the Lth layer. CHIN represents the identification number of the feature map output by the L-1st layer, and CHOUT represents the identification number of the feature map output by the Lth layer.
In the above equation, the input image I (x, y) is treated as the feature map f 0 (x, y, z). Here, in order to prevent the size of the feature map in the x and y directions from changing before and after the convolution calculation, the pixels around the feature map fL-1 are filled with 0 values before the convolution calculation, and then the convolution is performed. In this way, feature maps 403a, 403b, and 403c, which are multiple layers, are generated in each layer of the CNN.

CNNでは、大規模データベースを用いた画像の分類タスクにより予め重みパラメータを学習しておく。これにより、CNNの入力画像401(=I(x,y))に近い所定数の層(低層)109lの特徴マップ403aは、画像中の線分の傾きのような単純な模様によく反応する特徴マップとなり得る。また、CNNの入力画像401から最も遠い所定数の層(高層)109hの特徴マップ403cは、より広い範囲の画像パターンを集約し、複雑なパターン形状に反応する特徴マップとなり得る。中間の層(中層)109mの特徴マップ403bは、特徴マップ403aと特徴マップ403cとの中間のパターン形状に反応する特徴マップとなり得る。 In CNN, weight parameters are learned in advance by an image classification task using a large-scale database. As a result, the feature map 403a of a predetermined number of layers (low layers) 109l close to the input image 401 (= I (x, y)) of the CNN reacts well to a simple pattern such as the inclination of a line segment in the image. It can be a feature map. Further, the feature map 403c of a predetermined number of layers (high layers) 109h farthest from the input image 401 of the CNN can be a feature map that aggregates a wider range of image patterns and reacts to a complicated pattern shape. The feature map 403b of the middle layer (middle layer) 109m can be a feature map that reacts to the pattern shape between the feature map 403a and the feature map 403c.

ベース特徴生成部108は、CNNにおいて処理中の層が、特徴抽出の対象となる所定の層か否かを判定する(S1204)。所定の層は、本実施形態の例では予め定められた枚数(ch数)を表す低層、中層、高層のいずれかである。所定の層でない場合は(S1204:No)、S1207へ移行する。所定の層であれば(S1204:Yes)、特徴マップを所定サイズへアップサンプリングし(S1205)、特徴マップをベース特徴F(x,y)の配列に追加する(S1206)。このような処理をループの条件(特徴マップがn(自然数)枚に達したかどうか)を満たすまで繰り返し(S1207)、最終的にn枚の特徴マップが連結されたベース特徴F(x,y)が生成される。上記のベース特徴生成の処理は、数式では下記のように表される。
[数2]
F(x,y)
=[f(x,y),f(x,y),・・・,f(x,y)
The base feature generation unit 108 determines whether or not the layer being processed in the CNN is a predetermined layer to be feature extracted (S1204). In the example of the present embodiment, the predetermined layer is any of a low layer, a middle layer, and a high layer representing a predetermined number of sheets (ch number). If it is not a predetermined layer (S1204: No), the process proceeds to S1207. If it is a predetermined layer (S1204: Yes), the feature map is upsampled to a predetermined size (S1205), and the feature map is added to the array of base features F (x, y) (S1206). Such processing is repeated until the loop condition (whether or not the feature map reaches n (natural number)) is satisfied (S1207), and finally the base feature F (x, y) in which the n feature maps are concatenated is repeated. ) Is generated. The process of generating the base feature described above is expressed as follows in the mathematical formula.
[Number 2]
F (x, y)
= [F 1 (x, y) T , f 2 (x, y) T , ..., f n (x, y) T ] T

ここで、f,f,・・・,fは抽出された特徴マップであり、ベース特徴F(x,y)は、上記のように抽出された特徴マップをz次元方向に統合したものとなる。なお、CNNは1/2プーリング404a,404bを行うため、特徴マップの解像度は、層によって異なるものとなる。そのため、ベース特徴生成部108は、上記の統合前に、各特徴マップを所定の解像度、例えば入力画像I(x,y)の解像度に合致させる処理を行う(S1205)。具体的には、特徴マップ403bについて2倍のアップサンプリング(X2 up-sample)405aを行う。また、特徴マップ403cについて4倍のアップサンプリング(X4 up-sample)405bを行う。解像度を合致させるための変更は、画素値のコピーや線形補間といった一般的な方法を行えばよい。 Here, f 1 , f 2 , ..., F n are the extracted feature maps, and the base feature F (x, y) integrates the feature maps extracted as described above in the z-dimensional direction. It will be a thing. Since CNN performs 1/2 pooling 404a and 404b, the resolution of the feature map differs depending on the layer. Therefore, the base feature generation unit 108 performs a process of matching each feature map to a predetermined resolution, for example, the resolution of the input image I (x, y) before the above integration (S1205). Specifically, double upsampling (X2 up-sample) 405a is performed on the feature map 403b. Further, the feature map 403c is subjected to quadruple upsampling (X4 up-sample) 405b. Changes to match the resolution can be made by general methods such as copying pixel values and linear interpolation.

以上のようにして、CNNの低層109l、中層109m及び高層109hを統合した448chのベース特徴F(x,y)が生成される。これにより、第1の性質として、様々な被写体の、様々なスケール及びバリエーションの情報が、ベース特徴F(x,y)の中に含まれることとなる。第2の性質として、2次元の画素群の領域(x,y)ごとに3次元以上の高次元の特徴ベクトルが対応したものとなる。
このような二つの性質により、ベース特徴F(x,y)は、様々な被写体の検出ないし認識のタスクに有効に用いることができるようになる。
As described above, the base feature F (x, y) of 448ch in which the low layer 109l, the middle layer 109m and the high layer 109h of CNN are integrated is generated. As a result, as the first property, information on various scales and variations of various subjects is included in the base feature F (x, y). The second property is that a high-dimensional feature vector having three or more dimensions corresponds to each region (x, y) of the two-dimensional pixel group.
Due to these two properties, the base feature F (x, y) can be effectively used for various subject detection or recognition tasks.

なお、本実施形態では、入力画像I(x,y)とベース特徴F(x,y)の解像度を合致させるようにしたが、この限りでない。アップサンプリング処理の倍率を検出対象に応じて変更することで、入力画像I(x,y)よりも粗い解像度、または、細かい解像度のベース特徴F’(x’,y’)を生成することもできる。そのため、本明細書では、上述した「領域ブロック」を、ベース特徴F(x,y)の画素群の領域を表す一般化した名称として用いる。 In this embodiment, the resolutions of the input image I (x, y) and the base feature F (x, y) are matched, but this is not the case. By changing the magnification of the upsampling process according to the detection target, it is possible to generate a base feature F'(x', y') with a coarser resolution or a finer resolution than the input image I (x, y). can. Therefore, in the present specification, the above-mentioned "region block" is used as a generalized name representing the region of the pixel group of the base feature F (x, y).

<第1特徴の生成>
次に、第1特徴生成部102による第1特徴を生成する処理(S12)の詳細手順について、図5(A)を参照して説明する。この処理は、S1208からS1211のループとなる。第1特徴生成部102は、所定の規則の例として、ベース特徴F(x,y)から第1解像度となる低層の特徴109lを抽出し、低層の特徴109lから領域ブロックxy(座標(x,y)の位置の画素群、以下同じ)ごとの局所特徴Fxyを生成し、これを記憶する。局所特徴Fxyは、入力画像401に判別の検出対象、例えば人物が映っている場合に、後段で人物の顔などの局所的な部分の特徴が各領域ブロックx,yに存在するか否かの判別に用いる。その特徴量は、後段において判別に必要なデータをコンパクトに表現したベクトルとなる。
<Generation of the first feature>
Next, a detailed procedure of the process (S12) for generating the first feature by the first feature generation unit 102 will be described with reference to FIG. 5 (A). This process becomes a loop from S1208 to S1211. As an example of a predetermined rule, the first feature generation unit 102 extracts the low-layer feature 109l having the first resolution from the base feature F (x, y), and extracts the region block xy (coordinates (x, y) from the low-layer feature 109l. The pixel group at the position of y), the local feature F xy for each) is generated and stored. The local feature F xy is whether or not the feature of the local part such as the face of the person exists in each area block x, y in the subsequent stage when the detection target of discrimination, for example, a person is reflected in the input image 401. It is used to distinguish. The feature amount is a vector that compactly expresses the data necessary for discrimination in the latter stage.

第1特徴生成部102は、多次元の特徴マップであるベース特徴F(x,y)及び8近傍の特徴を取得する(S1209)。具体的には、ベース特徴F(x,y)のうち領域ブロックxyに対応する特徴ベクトル、及び、各領域ブロックの周囲の8つの領域ブロックの特徴ベクトルを抽出する。そして、これらを1次元に連結して局所特徴Fxyとして記憶する(S1210)。数式で表すと以下のとおりである。次式において、Tはベクトルの転置である。
[数3]
xy=[F(x-1,y-1),F(x,y-1),F(x+1,y-1)
F(x-1,y ),F(x,y ),F(x+1,y )
F(x-1,y+1),F(x,y+1),F(x+1,y+1),]
The first feature generation unit 102 acquires the base feature F (x, y), which is a multidimensional feature map, and the features in the vicinity of 8 (S1209). Specifically, the feature vector corresponding to the region block xy of the base feature F (x, y) and the feature vector of the eight region blocks around each region block are extracted. Then, these are connected one-dimensionally and stored as a local feature F xy (S1210). It is expressed by a mathematical formula as follows. In the following equation, T is the transpose of the vector.
[Number 3]
F xy = [F (x-1, y-1) T , F (x, y-1) T , F (x + 1, y-1) T ,
F (x-1, y) T , F (x, y) T , F (x + 1, y) T ,
F (x-1, y + 1) T , F (x, y + 1) T , F (x + 1, y + 1) T ,] T

<第2特徴の生成>
次に、第2特徴生成部103による第2特徴を生成する処理(S13)の詳細について図5(B)及び図9を参照して説明する。この処理は、S1301からS1307の順に行われるが、S103から1305はループとなる。第2特徴は、入力画像の広域特徴を含む特徴であり、判別パラメータである閾値(θ)を推定する際の手掛かりに用いられる。第2特徴も第1特徴と同じくベース特徴F(x,y)に基づいて生成する。
<Generation of second feature>
Next, the details of the process (S13) for generating the second feature by the second feature generation unit 103 will be described with reference to FIGS. 5 (B) and 9. This process is performed in the order of S1301 to S1307, but S103 to 1305 form a loop. The second feature is a feature including a wide area feature of the input image, and is used as a clue when estimating the threshold value (θ) which is a discrimination parameter. The second feature is also generated based on the base feature F (x, y) like the first feature.

第2特徴生成部103は、まず、ベース特徴F(x,y)から第1解像度よりも粗い第2解像度となる高層の特徴109hを抽出する(S1301)。そして、抽出した高層の特徴109hを1次元に整列させる(S1302)。つまり、並べ直す。これは、図8の例でいえば特徴マップ403cを整列させたものに相当する。整列に際しては、特徴マップ403cをRAM14に記憶しておき、随時読みだして使用できるようにする。 The second feature generation unit 103 first extracts the high-rise feature 109h having a second resolution coarser than the first resolution from the base feature F (x, y) (S1301). Then, the extracted high-rise feature 109h is aligned one-dimensionally (S1302). That is, rearrange. This corresponds to an arrangement of feature maps 403c in the example of FIG. At the time of alignment, the feature map 403c is stored in the RAM 14 so that it can be read out and used at any time.

次に、第2特徴生成部103は、S1303からS1305のループで、高層の特徴109hについて、ニューラルネットワークの全結合層の演算処理によって特徴変換を行う。全結合層の演算処理では、1次元に整列された高層の特徴109hについて重み付けを行う。全結合層の重み付けは、本実施形態では、図9に画像分類カテゴリ208として示す出力層を用いて、予め画像分類タスクが判定できるように学習しておく。このような学習形態を「マルチタスク学習」と呼ぶ。ここでは、例えば1000クラス程度の分類タスクの学習を行う。このマルチタスク学習を行った後に、出力層の前の中間層を用いて特徴変換を行うことで、人物やその人物の目の大きさ、髪色など、検出対象の大まかな画像の特徴を表す画像分類特徴115を得ることができる。 Next, the second feature generation unit 103 performs feature conversion for the high-rise feature 109h in the loop from S1303 to S1305 by arithmetic processing of the fully connected layer of the neural network. In the arithmetic processing of the fully connected layer, weighting is performed for the feature 109h of the high layer arranged in one dimension. In the present embodiment, the weighting of the fully connected layer is learned in advance so that the image classification task can be determined by using the output layer shown as the image classification category 208 in FIG. Such a learning form is called "multi-task learning". Here, for example, learning of about 1000 classes of classification tasks is performed. After performing this multi-task learning, by performing feature conversion using the intermediate layer in front of the output layer, the features of the person and the person's eye size, hair color, and other rough image features to be detected are expressed. Image classification feature 115 can be obtained.

第2特徴生成部103は、次に、画像分類特徴115とカメラ情報入力部110を通じて入力されたカメラ情報とを連結して広域特徴Gを生成する(S1306)。カメラ情報は入力画像の撮像時の条件を表す情報である。カメラ情報の一例として、本実施形態では図10(A)に示されるように、カメラの焦点がどの領域ブロックに合っているかを表す合焦情報1501を数値化した合焦情報値1502を用いる。合焦情報値1502は、焦点があっている領域ブロックでは0、そうでない場合は焦点の深さに応じた+の数値となる。この合焦情報値1502を領域ブロックごとの閾値(θ)に加算することにより、例えば「焦点の合っていないエリアは被写体の誤検出が多いために閾値(θ)を上げる」といった、状況に応じた閾値(θ)の設定ができる。その後、第2特徴生成部103は、連結した特徴を広域特徴Gとして記憶し、第2特徴の生成処理を終える(S1307)。 The second feature generation unit 103 next generates the wide area feature G by connecting the image classification feature 115 and the camera information input through the camera information input unit 110 (S1306). The camera information is information representing the conditions at the time of capturing the input image. As an example of the camera information, as shown in FIG. 10A, in the present embodiment, the focusing information value 1502, which is a numerical value of the focusing information 1501 indicating which region block the camera is focused on, is used. The in-focus information value 1502 is 0 in the focused area block, and is a + value according to the depth of focus otherwise. By adding this in-focus information value 1502 to the threshold value (θ) for each area block, for example, "the threshold value (θ) is raised because there are many false positives of the subject in the out-of-focus area". The threshold value (θ) can be set. After that, the second feature generation unit 103 stores the connected features as the wide area feature G, and finishes the second feature generation process (S1307).

なお、カメラ情報は、合焦情報値1502のほか、図10(B)に示すような水平線推定結果1503と各領域ブロックとの位置関係に関する水平線情報値1504を使用することもできる。水平線は、カメラが重力センサを有する場合、その重力センサの検出情報から推定することができる。そして、領域ブロックごとの閾値(θ)に加算する数値として、水平線より上の領域ブロックは-1,それ以外の領域ブロックは、近くになるほどプラスの数値となるようにする。カメラ情報の他の種類としては、図10(C)に示す物理的な測光値に関する測光情報値1505などを使用することもできる。なお、図10(A)~(C)はカメラ情報の例示であって、被写体の適切な判別パラメータ(閾値(θ))の推定及び設定の際に手がかりとなる情報であれば、あらゆる種類のカメラ情報を用いることができる。カメラ情報は、外部記憶装置15に保持され、随時、カメラ情報入力部110から第2特徴生成部103に提供される。 As the camera information, in addition to the focusing information value 1502, the horizontal line information value 1504 relating to the positional relationship between the horizontal line estimation result 1503 and each area block as shown in FIG. 10B can also be used. If the camera has a gravity sensor, the horizon can be estimated from the detection information of the gravity sensor. Then, as a numerical value to be added to the threshold value (θ) for each region block, the region block above the horizon is set to -1, and the other region blocks are set to a positive value as they are closer. As another type of camera information, a photometric information value 1505 or the like related to the physical photometric value shown in FIG. 10C can also be used. It should be noted that FIGS. 10A to 10C are examples of camera information, and any kind of information can be used as a clue when estimating and setting an appropriate discrimination parameter (threshold value (θ)) for a subject. Camera information can be used. The camera information is stored in the external storage device 15 and is provided to the second feature generation unit 103 from the camera information input unit 110 at any time.

<判別パラメータ設定>
次に、図3のS14に示した判別パラメータを設定する処理について詳細に説明する。ここでは、判別パラメータ設定部104が、判別パラメータとして人物の顔を検出する際に用いる閾値(θ)を算出し、領域ブロックごとに設定する場合の例を説明する。
判別パラメータ設定部104は、顔サイズsごとに、かつ、入力画像の領域ブロック(i,j)ごとに適切な閾値(θ)が設定されるように、図9に示される3つのパラメータ回帰器104a、104b、104cを備える。パラメータ回帰器104aは、小さい顔の閾値(顔(小)閾値)用の回帰器である。パラメータ回帰器104cは大きい顔の閾値(顔(大)閾値)用の回帰器である。パラメータ回帰器104bは、中間のサイズの顔の閾値(顔(中)閾値)用の回帰器である。領域ブロックの添え字を(i,j)とするのは、局所特徴の領域ブロック(x,y)よりも解像度を低くするためである。
<Discrimination parameter setting>
Next, the process of setting the discrimination parameter shown in S14 of FIG. 3 will be described in detail. Here, an example will be described in which the discrimination parameter setting unit 104 calculates a threshold value (θ) used when detecting a person's face as a discrimination parameter and sets it for each area block.
The discrimination parameter setting unit 104 has three parameter regression devices shown in FIG. 9 so that an appropriate threshold value (θ) is set for each face size s and for each area block (i, j) of the input image. It includes 104a, 104b, 104c. The parameter regression device 104a is a regression device for a small face threshold value (face (small) threshold value). The parameter regression device 104c is a regression device for a large face threshold value (face (large) threshold value). The parameter regressor 104b is a regressor for an intermediate size face threshold (face (medium) threshold). The subscript of the area block is (i, j) in order to make the resolution lower than that of the area block (x, y) of the local feature.

局所特徴では、顔の尤度スコアのほかに位置精度が重要となるため、より高い解像度の領域ブロック単位(x,y)で判別を行う必要があるが、判別パラメータ設定部104による閾値(θ)の推定では、位置精度はそれほど重要でない。むしろ、より粗い解像度の領域ブロック単位(i,j)で推定を行うのが好適である。その理由として、本実施形態では、閾値(θ)を入力画像の領域ブロックごとに異なるパラメータ回帰器でそれぞれ学習するため、領域ブロックの解像度が高すぎると処理量やメモリ消費の点で不利になる。また学習時の事例が少なくなるため、過学習が起こりやすい点も理由の一つに挙げられる。このように被写体の尤度判別と閾値(θ)の設定とが相補的な関係にある点が本実施形態における特長の一つである。 For local features, position accuracy is important in addition to the likelihood score of the face, so it is necessary to perform discrimination in area block units (x, y) with higher resolution, but the threshold value (θ) by the discrimination parameter setting unit 104. ), The position accuracy is not so important. Rather, it is preferable to perform the estimation in units of region blocks (i, j) having a coarser resolution. The reason is that in the present embodiment, the threshold value (θ) is learned by a parameter regression device that is different for each region block of the input image. Therefore, if the resolution of the region block is too high, it is disadvantageous in terms of processing amount and memory consumption. .. Another reason is that overfitting is likely to occur because the number of cases during learning is reduced. One of the features of this embodiment is that the likelihood discrimination of the subject and the setting of the threshold value (θ) have a complementary relationship in this way.

判別パラメータ設定部104による具体的な処理の手順は以下の通りである。判別パラメータ設定部104は、図7に示すように、顔サイズs(ただしs∈{小,中,大})、及び入力画像上の各領域ブロック(i,j)について処理を繰り返す(S1401~S1405)。判別パラメータ設定部104は、抽出された広域特徴Gを用いて、各顔サイズs及び各領域ブロック(i、j)に閾値(θijs)を算出する(S1403)。算出は、下記式に示される一般的なロジスティック回帰器の演算により行う。
[数4]
θijs=1/(1+exp{-Wijs ・G+bijs})
The specific processing procedure by the discrimination parameter setting unit 104 is as follows. As shown in FIG. 7, the discrimination parameter setting unit 104 repeats processing for the face size s (where s ∈ {small, medium, large}) and each area block (i, j) on the input image (S1401 to S1401 to). S1405). The discrimination parameter setting unit 104 calculates a threshold value (θ ijs ) for each face size s and each area block (i, j) using the extracted wide area feature G (S1403). The calculation is performed by the calculation of a general logistic regression device shown in the following equation.
[Number 4]
θ ijs = 1 / (1 + exp {-W ijs TG + b ijs })

ただし、Wは広域特徴Gと同じ長さのベクトルからなる重みパラメータ、bはバイアス値である。また。重みWの値及びバイアス値bは予め学習して得ているものとする。以上の演算により、判別パラメータである閾値(θijs)が、顔サイズs及び入力画像の領域ブロック(ij)ごとに算出され、設定される。 However, W is a weight parameter composed of a vector having the same length as the wide area feature G, and b is a bias value. Also. It is assumed that the value of the weight W and the bias value b are obtained by learning in advance. By the above calculation, the threshold value (θ ijs ), which is a discrimination parameter, is calculated and set for each face size s and the area block (ij) of the input image.

判別パラメータ設定部104の処理により設定される閾値(θijs)の例が図9に示されている。図9では、閾値(θijs)が0に近い領域ブロックほど白く、閾値(θijs)が1に近い領域ブロックほど黒く示されている。すなわち、閾値(θijs)が1に近い黒い領域ブロックほど検出を抑制し、尤度スコアが高くない限り検出をしないという設定がなされる。 An example of the threshold value (θ ijs ) set by the processing of the discrimination parameter setting unit 104 is shown in FIG. In FIG. 9, the area block whose threshold value (θ ijs ) is closer to 0 is shown white, and the area block whose threshold value (θ ijs ) is closer to 1 is shown black. That is, the black region block whose threshold value (θ ijs ) is closer to 1 suppresses the detection, and the detection is not performed unless the likelihood score is high.

<被写体判別>
次に、図3のS15に示された判別処理の詳細な手順例を図7及び図9を参照して説明する。図7において、被写体判別部106は、人物の顔のサイズsごとにS1501からS1509のループ処理を行う。すなわち、被写体判別部106は、顔(小)尤度スコアを生成する尤度生成部106a、顔(中)尤度スコアを生成する尤度生成部106b、顔(大)尤度スコアを生成する尤度生成部106cとして機能する。
各尤度スコアは、各領域ブロック(x,y)について局所特徴Fxyを入力とし、サイズsの顔が被写体の候補としてその領域ブロックに存在する確度を表す評価情報である(S1501~S1504)。具体的には、局所特徴Fxyを入力変数とし、例えばサポートベクトルマシン(SVM:support vector machine)を用いて、各領域ブロック(x,y)についてのサイズsの顔の尤度スコアLs(x,y)を以下の式により算出する。
[数5]
s(x,y)=R(Σk αsksk・Fxy+bs
<Subject discrimination>
Next, a detailed procedure example of the discrimination process shown in S15 of FIG. 3 will be described with reference to FIGS. 7 and 9. In FIG. 7, the subject discrimination unit 106 performs loop processing from S1501 to S1509 for each size s of a person's face. That is, the subject discrimination unit 106 generates a likelihood generation unit 106a that generates a face (small) likelihood score, a likelihood generation unit 106b that generates a face (medium) likelihood score, and a face (large) likelihood score. It functions as a likelihood generation unit 106c.
Each likelihood score is evaluation information indicating the probability that a face of size s exists in the region block as a candidate for a subject by inputting a local feature F xy for each region block (x, y) (S1501 to S1504). .. Specifically, using a local feature F xy as an input variable and using, for example, a support vector machine (SVM), a face likelihood score L s (size s) for each region block (x, y) ( x, y) is calculated by the following formula.
[Number 5]
L s (x, y) = R (Σ k α sk v sk · F xy + b s )

skは、SVMがサイズsの顔を判別するためのk番目のサポートベクトル、αskは同じくサポートベクトルの重み係数、bsはバイアス項である。これらのパラメータは、顔サイズsごとに予め後述する方法で学習を行い、記憶してあるものとする。R(・)は、SVMの出力を尤度に変換するための規格化関数である。ここでは簡易に下式のような関数でSVMのスコアを0~1に規格化する。なお、τは定数である。
[数6]
規格化関数z’=R(z)の定義:
z’=1 if z≧τ
z’=z/τ if 0≦z<τ
z’=0 if z<0
v sk is the k-th support vector for SVM to discriminate a face of size s, α sk is the weighting coefficient of the support vector, and b s is the bias term. It is assumed that these parameters are learned and stored in advance for each face size s by the method described later. R (・) is a normalized function for converting the output of SVM into likelihood. Here, the SVM score is simply standardized to 0 to 1 by a function like the following equation. Note that τ is a constant.
[Number 6]
Definition of normalization function z'= R (z):
z'= 1 if z ≧ τ
z'= z / τ if 0≤z <τ
z'= 0 if z <0

SVMは、線形入力素子を利用した2クラスのパターン識別器の一つである。尤度生成部106a、106b、106cは、全ての領域ブロック(x,y)と全ての顔サイズsについて条件判定の処理を行う。そのために、SVMのように軽い処理の判別器であることが好適である。換言すれば処理が軽ければ決定木や多層パーセプトロン等、どのような判別器を用いることができる。 The SVM is one of two classes of pattern classifiers using a linear input element. The likelihood generation units 106a, 106b, 106c perform condition determination processing for all region blocks (x, y) and all face sizes s. Therefore, it is preferable to use a discriminator for light processing such as SVM. In other words, any discriminator such as a decision tree or a multi-layer perceptron can be used if the processing is light.

尤度生成部106a、106b、106cは、また、抽出したLs(x,y)の値を閾値(θijs)と比較する。ただし、被写体の尤度スコアを算出した領域ブロック(x,y)と、閾値(θijs)を設定した領域ブロック(i,j)とは解像度が異なるため、下記の式に示すように座標を変換して得られる領域ブロックの閾値(θi'j's)と比較する。下記の式において、δとγは2つの領域ブロック間の座標変換のパラメータである。
[数7]
i’=δ1x+γ1
j’=δ2y+γ2
The likelihood generators 106a, 106b, 106c also compare the extracted L s (x, y) values with the threshold (θ ijs ). However, since the resolution of the area block (x, y) for which the likelihood score of the subject is calculated and the area block (i, j) for which the threshold value (θ ijs ) is set are different, the coordinates are set as shown in the following formula. Compare with the threshold value (θ i'j's ) of the area block obtained by conversion. In the following equation, δ and γ are the parameters of the coordinate transformation between the two region blocks.
[Number 7]
i'= δ 1x + γ 1
j'= δ 2y + γ 2

そして、次の数式に示す条件を判定する。
[数8]
s(x,y)≧θi'j's
Then, the conditions shown in the following formula are determined.
[Number 8]
L s (x, y) ≧ θ i'j's

このようにして尤度生成部106a、106b、106cは、図9に示す通り、顔(小)尤度スコア、顔(中)尤度スコア、顔(大)尤度スコアを生成する。
各尤度スコアが生成されると、被写体判別部106は、閾値処理部106dで各領域ブロック(x,y)について条件判定を行う(S1506)。すなわち、閾値処理部106dは、尤度スコアL(x,y)が8近傍の尤度スコアの中で最大の値か否かを判定する。また、閾値(θi'j's)以上かどうかを判定する。肯定的の場合(S1506:Yes)、条件を満たす領域ブロック(i番目の領域ブロック)の座標(x,y)を中心とする位置にサイズsの顔が存在すると判定する(S1507)。つまり、そのサイズsの顔を図9に示される被写体の候補と判定する。その後、S1505の処理に戻る。
一方、S1506の結果が否定的である場合(S1506:No)、ただちにS1505の処理に戻る。図3のS16では、上記の被写体判別部106による判定の結果が、最終検出結果121として結果出力部107に出力される。
In this way, the likelihood generation units 106a, 106b, 106c generate a face (small) likelihood score, a face (medium) likelihood score, and a face (large) likelihood score, as shown in FIG.
When each likelihood score is generated, the subject discrimination unit 106 makes a condition determination for each area block (x, y) by the threshold value processing unit 106d (S1506). That is, the threshold value processing unit 106d determines whether or not the likelihood score L s (x, y) is the maximum value among the likelihood scores in the vicinity of 8. In addition, it is determined whether or not it is equal to or greater than the threshold value (θ i'j's ). If it is affirmative (S1506: Yes), it is determined that a face of size s exists at a position centered on the coordinates (x, y) of the region block (i-th region block) satisfying the condition (S1507). That is, the face of that size s is determined to be a candidate for the subject shown in FIG. After that, the process returns to S1505.
On the other hand, if the result of S1506 is negative (S1506: No), the process immediately returns to the process of S1505. In S16 of FIG. 3, the result of the determination by the subject discrimination unit 106 is output to the result output unit 107 as the final detection result 121.

<学習処理>
次に、情報処理装置が行う学習処理について、図11から図14を参照して説明する。図11は、学習処理を行うときの情報処理装置の機能ブロック構成図である。図2の機能ブロック構成図に、カメラ情報保持部130、学習画像保持部131、教師値保持部132、尤度集計部133、判別パラメータ教師値保持部134が追加されている。なお、ベース特徴生成部108については、図示を省略してある。
<Learning process>
Next, the learning process performed by the information processing apparatus will be described with reference to FIGS. 11 to 14. FIG. 11 is a functional block configuration diagram of the information processing apparatus when performing learning processing. A camera information holding unit 130, a learning image holding unit 131, a teacher value holding unit 132, a likelihood totaling unit 133, and a discrimination parameter teacher value holding unit 134 are added to the functional block configuration diagram of FIG. The base feature generation unit 108 is not shown.

図12に示す学習処理の手順説明図を参照すると、画像入力部101は、学習画像保持部131から学習画像を取得する。また、尤度生成部106a、106b、106cは、各画像に対応する顔の教師値を教師値保持部132から取得する。なお、ここでは、各画像に対応する人物の顔の教師値を用いるが、必ずしも顔に限られない。図14(A)は学習画像セットX、同(B)は学習画像セットYを示す。各学習画像セットX,Yは、それぞれの図の(1)行に示される学習画像と、図の(2)行に示される顔の教師値のセットからなる。顔の教師値は、領域ブロックが小サイズの顔、中サイズの顔、大サイズの顔、のいずれかを含むか、あるいはいずれも含まないかを表す値である。具体的には、顔の基準点を含む領域ブロックを正事例(顔があった)“1”、それ以外の領域ブロックを負事例(顔がなかった)“0”の教師値とする。各教師値は、簡便には、顔サイズごとに入力デバイス21を介して操作者が付与してもよいが、自動認識処理によってそれを行うようにしてもよい。顔の基準点は、顔領域の重心とするが、この限りでない。 With reference to the procedure explanatory diagram of the learning process shown in FIG. 12, the image input unit 101 acquires the learning image from the learning image holding unit 131. Further, the likelihood generation units 106a, 106b, and 106c acquire the teacher value of the face corresponding to each image from the teacher value holding unit 132. Here, the teacher value of the face of the person corresponding to each image is used, but it is not necessarily limited to the face. FIG. 14A shows the learning image set X, and FIG. 14B shows the learning image set Y. Each of the training image sets X and Y consists of a training image shown in row (1) of each figure and a set of facial teacher values shown in row (2) of the figure. The face teacher value is a value indicating whether the area block includes, or does not include, a small-sized face, a medium-sized face, or a large-sized face. Specifically, the area block including the reference point of the face is set as the teacher value of the positive case (with a face) “1”, and the other area blocks are set as the teacher value of the negative case (without a face) “0”. Each teacher value may be conveniently given by the operator via the input device 21 for each face size, but it may be performed by an automatic recognition process. The reference point of the face is the center of gravity of the face area, but this is not the case.

第1特徴生成部102は、各学習画像から局所特徴を生成する(S112)。局所特徴を生成する処理の内容は、S12の処理と同様となる。
まず、尤度生成部106a,106b,106cは、局所特徴に基づき被写体(顔)を正しく判別できるよう尤度判定用のSVMを次のように学習する(S113)。すなわち、尤度生成部106a,106b,106cは、与えられた顔についての教師値の“0”、“1”の値を目標変数、対応する領域ブロックの連結層特徴量Fxyを説明変数とし、顔の正事例と負事例が判別できるようにSVMを学習する。学習は、サイズsごとに行い、SVMのパラメータ([vsk,αsk,bs])を得る。以上が、尤度生成部106aの学習手順である。
The first feature generation unit 102 generates a local feature from each learning image (S112). The content of the process for generating the local feature is the same as the process for S12.
First, the likelihood generation units 106a, 106b, 106c learn the likelihood determination SVM as follows so that the subject (face) can be correctly determined based on the local feature (S113). That is, the likelihood generation units 106a, 106b, 106c use the teacher values "0" and "1" for a given face as the target variable, and the connected layer feature amount F xy of the corresponding region block as the explanatory variable. , Learn SVM so that positive and negative cases of the face can be discriminated. Learning is performed for each size s, and SVM parameters ([v sk , α sk , b s ]) are obtained. The above is the learning procedure of the likelihood generation unit 106a.

情報処理装置では、その後、判別パラメータ設定部104の回帰器104a,104b,104cを学習する(S114)。回帰器104a,104b,104cは、画像の領域ブロックごとに備えられるパラメータ回帰器Φijである。パラメータ回帰器Φijは、それぞれが、前述した数2式に従うロジスティック回帰器である。学習の目的は、これらのロジスティック回帰器が入力画像の広域特徴に応じて適切な閾値(θij)が推定できるように、回帰器Φijの重みパラメータ([Wij,bij])を得ることである。ここでは、説明の簡単のために以降では顔のサイズsについては考慮せず、全て同じ顔として扱うものとする。サイズsを考慮したときにも本質的に学習動作は同一であり、単純に以降に述べる学習手順をサイズ別に行えばよい。 After that, the information processing apparatus learns the regression units 104a, 104b, 104c of the discrimination parameter setting unit 104 (S114). The regressors 104a, 104b, 104c are parameter regressors Φ ij provided for each region block of the image. Each of the parameter regression units Φ ij is a logistic regression unit according to the above-mentioned equation (2). The purpose of the learning is to obtain the weight parameters ([W ij , bi j ]) of the regressor Φ ij so that these logistic regression devices can estimate an appropriate threshold (θ ij ) according to the wide area characteristics of the input image. That is. Here, for the sake of simplicity of explanation, the face size s will not be considered from now on, and all of them will be treated as the same face. The learning operation is essentially the same even when the size s is taken into consideration, and the learning procedure described below may be simply performed for each size.

図13はこの学習の手順説明図であり、S1141からS1149の処理のループを実行する。図15は、学習処理の概念説明図である。図13及び図15を参照すると、画像入力部101は、学習画像保持部131に保持された複数の画像からランダムにn個サンプリングしてバッチセット501を選択する(S1142)。
尤度生成部106aは、このバッチセット501に対してSVMを用いて、各学習画像の被写体の尤度を並べた尤度マップを生成する(S1143)。
尤度集計部133は、尤度マップの局所的なピークの位置を抽出して記憶する(S1144)。そして、尤度集計部133は、ピークを集計して正事例(ピークの位置に顔があった)か負事例(ピークの位置に顔はなかった)の尤度のピークのスコアを領域ごとに集計して尤度スコアの分布を生成する(S1145)。このようにして集計された結果が図15に示す尤度スコア分布503a,503bである。尤度スコア分布503a,503bとして示されるように、尤度スコアは画像中の位置ごと、すなわち領域ブロック(i,j)ごとに集計する。なお、尤度スコア分布503a,503bの細線の曲線は、各画像のスコア分布、太線の曲線はバッチの平均のスコア分布である。
FIG. 13 is an explanatory diagram of the learning procedure, and executes a loop of processing from S1141 to S1149. FIG. 15 is a conceptual explanatory diagram of the learning process. Referring to FIGS. 13 and 15, the image input unit 101 randomly samples n images from a plurality of images held in the learning image holding unit 131 and selects a batch set 501 (S1142).
The likelihood generation unit 106a uses SVM for this batch set 501 to generate a likelihood map in which the likelihoods of the subjects of each learning image are arranged (S1143).
The likelihood aggregation unit 133 extracts and stores the position of a local peak in the likelihood map (S1144). Then, the likelihood aggregation unit 133 aggregates the peaks and sets the score of the peak likelihood of the positive case (there was a face at the peak position) or the negative case (there was no face at the peak position) for each region. Aggregate to generate a distribution of likelihood scores (S1145). The results aggregated in this way are the likelihood score distributions 503a and 503b shown in FIG. As shown as the likelihood score distributions 503a, 503b, the likelihood scores are aggregated for each position in the image, that is, for each region block (i, j). The thin line curve of the likelihood score distributions 503a and 503b is the score distribution of each image, and the thick line curve is the average score distribution of the batch.

一般に、画像のパターンから特徴を判別する場合、画像中央部では比較的精度がよく、画像の端ではパターンの一部が隠れるために認識精度が下がる。すなわち、図15に示すように、正事例と負事例のスコア分布は、画像や領域ブロックの場所によって変化する。本実施形態では、各バッチセット501の画像の領域ブロック(i,j)ごとに適切な目標となる閾値(θij)を設定する。例えば、顔検出の誤検出率が一定未満に抑えられるように、バッチセット501中の負事例の95%を棄却できるような閾値を目標閾値(θ^)として設定する。例えば、画像中央付近のパラメータ回帰器Φ3,2に対してはθ^3,2=0.4と比較的低い閾値を、画像隅のパラメータ回帰器Φ4,3に対してはθ^4,3=0.7と高い閾値を回帰推定の目標値として与える(S1146)。 Generally, when a feature is discriminated from an image pattern, the accuracy is relatively good at the center of the image, and the recognition accuracy is lowered because a part of the pattern is hidden at the edge of the image. That is, as shown in FIG. 15, the score distribution of the positive case and the negative case changes depending on the location of the image or the area block. In the present embodiment, an appropriate target threshold value (θ ij ) is set for each region block (i, j) of the image of each batch set 501. For example, a threshold value that can reject 95% of negative cases in the batch set 501 is set as a target threshold value (θ ^) so that the false detection rate of face detection can be suppressed to less than a certain level. For example, a relatively low threshold of θ ^ 3,2 = 0.4 for the parameter regressors Φ 3, 2 near the center of the image, and θ ^ 4 for the parameter regressors Φ 4 , 3 at the corners of the image. , 3 = 0.7, which is a high threshold value, is given as the target value for regression estimation (S1146).

次に、第2特徴生成部103は、バッチセット501の各バッチの画像の広域特徴505を生成する(S1147)。ついで、第2特徴生成部103は、広域特徴505を説明変数とし、目標の閾値(θ^ij)に近い閾値(θij)が、前述した数4の式で算出できるように重みパラメータ([Wij,bij])を求める。これは目標値θ^ijと推定値θijの誤差の総和の値Eをバッチごとに算出し、これを減らすような勾配方向に重みパラメータを更新すればよい。具体的には機械学習で広く公知な勾配法を用いて下式のように重みの値を微小に更新する(S1148)。
[数9]
ij t+1=η∂E/∂Wij t+Wij t
ij t+1=η∂E/∂bij t+bij t
Next, the second feature generation unit 103 generates a wide area feature 505 of the image of each batch of the batch set 501 (S1147). Next, the second feature generation unit 103 uses the wide area feature 505 as an explanatory variable, and the weight parameter ([] so that the threshold value (θ ij ) close to the target threshold value (θ ^ ij ) can be calculated by the above-mentioned equation of equation 4. W ij , b ij ]) is obtained. To do this, the total value E of the errors between the target value θ ^ ij and the estimated value θ ij may be calculated for each batch, and the weight parameter may be updated in the gradient direction to reduce this. Specifically, the weight value is minutely updated as shown in the following equation using a gradient method widely known in machine learning (S1148).
[Number 9]
W ij t + 1 = η∂E / ∂W ij t + W ij t
b ij t + 1 = η∂E / ∂b ij t + b ij t

ただし、ηは微小な係数である。上記の更新動作を所定のm回数繰り返し、得られた重みパラメータ([Wijm,bijm])をパラメータ回帰器Φijのパラメータとする。
このようにして学習されたパラメータ回帰器Φijは、画像の広域特徴に応じて、領域ブロックごとに適切な目標閾値が設定できるように鍛えられたものとなる。
However, η is a minute coefficient. The above update operation is repeated a predetermined number of times, and the obtained weight parameter ([W ijm , bijm ]) is used as the parameter of the parameter regressionr Φ ij .
The parameter regressor Φ ij learned in this way is trained so that an appropriate target threshold value can be set for each region block according to the wide area characteristics of the image.

以上の学習処理は、前述のように、顔のサイズsごとにパラメータ回帰器Φijsとして学習を行う。その結果、例えば乱雑な背景があるような画像では、誤検出しやすい小サイズの顔の検出が抑制されるような閾値(θ)が設定される。また、例えば、ポートレート写真のような画像特徴を持つ画像に対しては、中心付近の大サイズの顔の失敗事例が少ないと考えられるため、中心近辺の閾値が低く設定され、大サイズの顔が検出され易くなる。
以上が被写体判別部106、判別パラメータ設定部104の学習処理の内容となる。
As described above, the above learning process is performed as a parameter regression device Φ ijs for each face size s. As a result, for example, in an image having a messy background, a threshold value (θ) is set so as to suppress the detection of a small-sized face that is easily erroneously detected. In addition, for images with image features such as portrait photographs, it is considered that there are few cases of failure of a large-sized face near the center, so the threshold value near the center is set low and the large-sized face is set. Is more likely to be detected.
The above is the content of the learning process of the subject discrimination unit 106 and the discrimination parameter setting unit 104.

<変形例>
本実施形態の別の派生的形態として、第1特徴はCNNの低層の特徴マップ403aのみを用いて生成し、第2特徴は高層の特徴マップ403cのみを使って生成するといったベース特徴の使い分けをしてもよい。また、ニューラルネットワーク以外の特徴の形態として、色のヒストグラム、SIFT特徴といった従来の画像特徴も適応可能である。また、本実施形態の特徴は、矩形のブロック領域を要素単位として算出したが、第1特徴の生成単位は矩形ブロック形状に限定されない。例えば、色味の近さ等で画素をグループ分けして得られるスーパーピクセルと呼ばれる領域を単位とし、各領域について被写体の尤度スコアの計算を行ってもよい。
また、本実施形態では、判別パラメータ設定部104は、領域ブロック別かつ顔サイズ別に適切な閾値設定を行ったが、閾値の学習・推定を領域ブロックごとに行わない形態も考えられる。すなわち、領域ブロックに対してではなく、画像全体に対して顔サイズごとに一つの閾値を得てもよい。さらに顔サイズにも分けない、といった派生の形態も考えられる。また、判別パラメータ設定部104に与えた閾値の目標値は誤検出率が所定条件を満たすようにという基準で決定したが、この限りでない。他の派生として適合率(precision)が所定値以上であるという基準や、ベイズエラーを最小にする基準、といった形態を採用することも考えられる。
<Modification example>
As another derivative of the present embodiment, the first feature is generated using only the low-rise feature map 403a of the CNN, and the second feature is generated using only the high-rise feature map 403c. You may. Further, as a form of features other than the neural network, conventional image features such as a color histogram and SIFT features can also be applied. Further, the feature of the present embodiment is calculated by using a rectangular block area as an element unit, but the generation unit of the first feature is not limited to the rectangular block shape. For example, the likelihood score of the subject may be calculated for each region in a region called a super pixel obtained by grouping the pixels according to the closeness of color tones.
Further, in the present embodiment, the discrimination parameter setting unit 104 sets an appropriate threshold value for each area block and for each face size, but it is also conceivable that the threshold value learning / estimation is not performed for each area block. That is, one threshold may be obtained for each face size for the entire image, not for the area block. Furthermore, a derivative form such as not dividing into face size is also conceivable. Further, the target value of the threshold value given to the discrimination parameter setting unit 104 is determined on the basis that the false detection rate satisfies a predetermined condition, but this is not the case. As another derivation, it is conceivable to adopt a form such as a standard that the precision is equal to or higher than a predetermined value or a standard that minimizes Bayesian error.

[第2実施形態]
第2実施形態では、意味的領域分割などの他のタスクにも適応できることを説明する。この場合、判別パラメータとして、第1実施形態のような閾値(θ)ではなく、認識結果を統合する際のスコアバランスの重み係数βを設定する。第2実施形態の情報処理装置は、ハードウェア構成は第1実施形態と同じであるが、コンピュータプログラムにより実現される機能ブロック構成が第1実施形態と異なるものとなる。
[Second Embodiment]
In the second embodiment, it will be described that it can be applied to other tasks such as semantic region division. In this case, as the discrimination parameter, the weighting coefficient β of the score balance when integrating the recognition results is set instead of the threshold value (θ) as in the first embodiment. The information processing apparatus of the second embodiment has the same hardware configuration as that of the first embodiment, but the functional block configuration realized by the computer program is different from that of the first embodiment.

図16は、第2実施形態の情報処理装置の機能ブロック構成図である。第2実施形態の情報処理装置では、画像入力部201が、撮影画像の中から必要な入力画像を取り込む。また、第1特徴生成部202が、取り込んだ入力画像の局所領域の特徴を含む第1特徴を生成する。また、第2特徴生成部203が、取り込んだ入力画像の広域特徴を含む第2特徴を生成する。また、判別パラメータ設定部204が、第2特徴から判別パラメータを設定する。また、被写体判別部206が、第1特徴及び設定された判別パラメータに基づいて画像中の被写体を判別する。また、結果出力部207が、判別結果を出力する。また、ベース特徴生成部208が、第1特徴及び第2特徴を生成するベースとなる特徴情報を生成し、記憶する。また、カメラ情報入力部210が、カメラ情報をベース特徴生成部208に入力する処理を行う。この実施形態では、新たに、領域ブロックのカテゴリごとの判定を行う領域カテゴリ判定部211を有する。 FIG. 16 is a functional block configuration diagram of the information processing apparatus of the second embodiment. In the information processing apparatus of the second embodiment, the image input unit 201 captures a necessary input image from the captured image. In addition, the first feature generation unit 202 generates the first feature including the feature of the local region of the captured input image. In addition, the second feature generation unit 203 generates a second feature including a wide area feature of the captured input image. Further, the discrimination parameter setting unit 204 sets the discrimination parameter from the second feature. Further, the subject discrimination unit 206 discriminates the subject in the image based on the first feature and the set discriminant parameter. Further, the result output unit 207 outputs the discrimination result. Further, the base feature generation unit 208 generates and stores the base feature information for generating the first feature and the second feature. Further, the camera information input unit 210 performs a process of inputting camera information to the base feature generation unit 208. In this embodiment, a region category determination unit 211 that newly determines for each category of the region block is provided.

ベース特徴生成部208は、図16に示すように、RGBヒストグラム208a、SIFT(Scale-Invariant Feature Transform)特徴208bをベース特徴として生成する。また、カメラ情報入力部210から、水平線情報値208c、測光情報値208dといった、領域ブロックのカテゴリを判別する際に有効となるカメラ情報もベース特徴として取り込む。ここでは図10(A)~(C)に示す合焦情報値1502、水平線情報値1504、測光情報値1505を用いる。 As shown in FIG. 16, the base feature generation unit 208 generates an RGB histogram 208a and a SIFT (Scale-Invariant Feature Transform) feature 208b as base features. Further, from the camera information input unit 210, camera information that is effective when determining the category of the area block, such as the horizon information value 208c and the photometric information value 208d, is also taken in as a base feature. Here, the focusing information value 1502, the horizontal line information value 1504, and the photometric information value 1505 shown in FIGS. 10A to 10C are used.

領域カテゴリ判定部211は、入力画像の各領域ブロックの領域カテゴリの尤度スコアを算出する。領域カテゴリは、例えば、空、地面、建物、それ以外の物体の各属性を表す。領域カテゴリの教師値は、図14(A),(B)の(3)行に示すようなものである。このような領域カテゴリの判別を行うことが、第2実施形態によるタスクの目的である。 The area category determination unit 211 calculates the likelihood score of the area category of each area block of the input image. Area categories represent, for example, the attributes of the sky, ground, buildings, and other objects. The teacher values of the area category are as shown in line (3) of FIGS. 14 (A) and 14 (B). It is the purpose of the task according to the second embodiment to determine such an area category.

第2実施形態では、第1実施形態と異なり、ベース特徴生成部208がニューラルネットワークを用いていない。また、領域カテゴリ判定部211を、空領域判定部211a、地面領域判定部2011b、建物領域判定部211c、及び、物体領域判定部211dで構成する。これらの判定部211a~211dは、第1特徴生成部202で生成される第1特徴に基づいて領域カテゴリをスコア化したマップ、すなわち領域カテゴリスコアマップを生成する。この領域カテゴリスコアマップは、被写体判別部206及び第2特徴生成部203で使用される。 In the second embodiment, unlike the first embodiment, the base feature generation unit 208 does not use the neural network. Further, the area category determination unit 211 is composed of an empty area determination unit 211a, a ground area determination unit 2011b, a building area determination unit 211c, and an object area determination unit 211d. These determination units 211a to 211d generate a map in which region categories are scored based on the first feature generated by the first feature generation unit 202, that is, a region category score map. This area category score map is used by the subject discrimination unit 206 and the second feature generation unit 203.

第2実施形態における被写体の判別方法の処理手順例を図17(A),(B)を参照して説明する。まず、第1実施形態と同様に、画像入力部201で取り込んだ入力画像からベース特徴生成部208でベース特徴を生成する(S21、S22)。第1特徴生成部202は、ベース特徴から局所特徴及び広域特徴を抽出し、第1特徴を生成する(S23)。
領域カテゴリ判定部211は、領域カテゴリスコアマップを生成する(S24)。このS24の詳細な処理の手順を図17(B)に示す。すなわち、領域カテゴリ判定部211は、例えば上述のSVMを用いて、空、地面、建物、その他の物体の4種類の属性を表す領域ブロックのカテゴリの尤度スコアを算出する。そしてこれらの尤度スコアを並べて領域カテゴリスコアマップを生成する(S2401~S2405)。第2特徴生成部203は、ベース特徴と領域カテゴリスコアマップとから、第2特徴を生成する(S25)。
An example of the processing procedure of the subject discrimination method in the second embodiment will be described with reference to FIGS. 17A and 17B. First, similarly to the first embodiment, the base feature generation unit 208 generates a base feature from the input image captured by the image input unit 201 (S21, S22). The first feature generation unit 202 extracts the local feature and the wide area feature from the base feature and generates the first feature (S23).
The area category determination unit 211 generates an area category score map (S24). The detailed processing procedure of S24 is shown in FIG. 17 (B). That is, the area category determination unit 211 calculates the likelihood score of the category of the area block representing the four types of attributes of the sky, the ground, the building, and other objects by using, for example, the above-mentioned SVM. Then, these likelihood scores are arranged to generate a region category score map (S2401 to S2405). The second feature generation unit 203 generates the second feature from the base feature and the area category score map (S25).

判別パラメータ設定部204は、領域カテゴリの重み係数のパラメータβ=[β1,β2,β3,β4]を推定する(S26)。ここでは、領域カテゴリごとにロジスティック回帰器を用意し、説明変数を広域特徴Gとして用いて、適切なカテゴリ間のバランスの係数βを下式で推定する。
[数10]
βc=1/(1+exp{-Wc T・G+bc}) (c=1,・・・,4)
The discrimination parameter setting unit 204 estimates the parameter β = [β 1 , β 2 , β 3 , β 4 ] of the weighting coefficient of the region category (S26). Here, a logistic regression device is prepared for each region category, and the explanatory variables are used as the wide area feature G, and the coefficient β of the balance between appropriate categories is estimated by the following equation.
[Number 10]
β c = 1 / (1 + exp {-W c T · G + b c }) (c = 1, ..., 4)

被写体判別部206では、尤度生成部206aが、推定された重みβ=[β1,β2,β3,β4]と各カテゴリの領域カテゴリスコアマップとを掛け算して調整後の尤度スコアを算出する(S27)。
[数11]
L' c(x,y)=βc・Lc(x,y) (c=1,・・・,4)
In the subject discrimination unit 206, the likelihood generation unit 206a multiplies the estimated weight β = [β 1 , β 2 , β 3 , β 4 ] by the region category score map of each category to adjust the likelihood. Calculate the score (S27).
[Number 11]
L' c (x, y) = β c · L c (x, y) (c = 1, ..., 4)

上記のロジスティック回帰器では、予め、適切な係数βcが得られるように、重みパラメータ[Wc,bc]を調整しておく。具体的には、調整後の尤度L'c(x,y)が平均的に各カテゴリの教師値([0,1]の二値)との誤差を縮小するように勾配法等で調整すればよい。このとき、第1実施形態と異なり、広域特徴に領域カテゴリのスコアマップを連結して用いることも考えられる。このような工夫を追加すると、各領域カテゴリの間の誤検出の起こし易さなどを考慮した学習が可能となる。例えば建物と物体は取り間違えやすい、といったカテゴリ間の共起性も一種の情報として考慮し、適切な重み係数βの学習を行うことができる。例えば、建物と物体の両方の尤度スコアが高い場合は、どちらの重み係数も下げるように学習されるようにする。
閾値処理部206dは、領域カテゴリを閾値処理する(S28)。結果出力部207は、判別結果を、例えばモニタ22に出力して表示させる(S29)。
In the above logistic regression device, the weight parameters [W c , b c ] are adjusted in advance so that an appropriate coefficient βc can be obtained. Specifically, the adjusted likelihood L' c (x, y) is adjusted by the gradient method or the like so as to reduce the error with the teacher value (binary value of [0, 1]) of each category on average. do it. At this time, unlike the first embodiment, it is conceivable to connect the score map of the area category to the wide area feature and use it. By adding such a device, it becomes possible to learn in consideration of the susceptibility to false detection between each area category. For example, co-occurrence between categories, such as buildings and objects being easily mistaken for each other, can be considered as a kind of information, and appropriate weighting coefficient β can be learned. For example, if both the building and the object have high likelihood scores, learn to lower both weighting factors.
The threshold processing unit 206d performs threshold processing for the area category (S28). The result output unit 207 outputs the determination result to, for example, the monitor 22 and displays it (S29).

<変形例>
第2実施形態の変形例として、重み係数を領域カテゴリごとに掛け算するのでなく、例えば4×4のパラメータを持つ行列βMATを用いて、全カテゴリのスコアマップの結果を混合して調整後の尤度スコアを求めてもよい。この場合の領域ブロック(x,y)の4つのカテゴリの尤度L(x,y)は、下式により算出することができる。この式は、領域ブロック(x,y)の4つのカテゴリの尤度を4×1サイズのベクトルとして並べたものに相当する。
[数12]
L'(x,y)=βMAT・L(x,y)
<Modification example>
As a modification of the second embodiment, instead of multiplying the weighting coefficients for each region category, for example, using a matrix βMAT having 4 × 4 parameters, the results of the score maps of all categories are mixed and adjusted. You may ask for a degree score. The likelihood L (x, y) of the four categories of the area block (x, y) in this case can be calculated by the following equation. This equation corresponds to the likelihood of four categories of region blocks (x, y) arranged as a vector of 4 × 1 size.
[Number 12]
L'(x, y) = β MAT · L (x, y)

[第3実施形態]
情報処理装置の第3実施形態について説明する。この実施形態では、これまで説明したような定形の領域ブロックに対してではなく、不定形の領域ブロックをベースとしたタスクに対しても適応可能であることを説明する。第3実施形態の情報処理装置のハードウェア構成は第1実施形態と同じであり、コンピュータプログラムによって実現される機能ブロック構成が異なる。第3実施形態の情報処理装置の機能ブロック構成図を図18に示す。第1及び第2実施形態と異なる点は、被写体の判別を領域ブロックではなく、人間が画像に注意を向ける関心領域(ROI:Region of Interest)に着目して判別する点である。
[Third Embodiment]
A third embodiment of the information processing apparatus will be described. In this embodiment, it will be described that it is applicable not only to the fixed area block as described above but also to the task based on the irregular area block. The hardware configuration of the information processing apparatus of the third embodiment is the same as that of the first embodiment, and the functional block configuration realized by the computer program is different. FIG. 18 shows a functional block configuration diagram of the information processing apparatus of the third embodiment. The difference from the first and second embodiments is that the subject is discriminated by focusing on the region of interest (ROI) in which the human pays attention to the image, instead of focusing on the region block.

第3実施形態の情報処理装置は、図18に示されるように、特徴生成部302、ROI選択部304、ROI特徴抽出部306、被写体尤度生成部307、領域尤度生成部309、判別パラメータ設定部311、閾値処理部315の機能を有する。これらは、撮像モードによって検出したい被写体の種類や適切な閾値が異なると考えられ、これについて対応するための機能である。 As shown in FIG. 18, the information processing apparatus of the third embodiment includes a feature generation unit 302, a ROI selection unit 304, an ROI feature extraction unit 306, a subject likelihood generation unit 307, a region likelihood generation unit 309, and a discrimination parameter. It has the functions of the setting unit 311 and the threshold processing unit 315. It is considered that the type of the subject to be detected and the appropriate threshold value differ depending on the imaging mode, and these are functions for dealing with this.

第3実施形態の情報処理装置は、また、風景モードや追尾撮像モードといったカメラ側のインタフェースであって、ユーザーが選択する撮像モードを指示する撮像モード指示部312を有する。さらに、判別パラメータ設定部311において用いるサポートベクトル回帰器(SVR)の係数を保持するSVR係数保持部313を有する。 The information processing apparatus of the third embodiment also has an image pickup mode instruction unit 312 which is an interface on the camera side such as a landscape mode and a tracking image pickup mode and instructs an image pickup mode selected by the user. Further, it has an SVR coefficient holding unit 313 that holds the coefficient of the support vector regression device (SVR) used in the discrimination parameter setting unit 311.

第3実施形態における被写体の判別方法を図19を参照して説明する。ここでは、検出対象となる被写体を特定の人物とする場合の例を示す。情報処理装置は、まず、入力画像の取り込み及びその入力画像の局所特徴の生成処理を行う(S31~S32)。これらの処理の内容は、第1実施形態と同様となる。
ROI選択部304は、「人物らしさ」の高いROIを複数選択し、それぞれ対応する候補領域を生成する(S33)。ROI特徴抽出部306は、ROIごとにその位置(座標(x,y))及びサイズsを検出するとともに、各ROIの特徴量を算出し、集計する(S34、ROIプーリング処理と呼ばれる)。被写体尤度生成部307は、第1及び第2実施形態と同様の手法で被写体尤度(人物の尤度)を算出し、算出結果を基に検出候補を生成する(S35)。
The method of discriminating the subject in the third embodiment will be described with reference to FIG. Here, an example is shown in which the subject to be detected is a specific person. The information processing apparatus first captures an input image and performs processing for generating local features of the input image (S31 to S32). The contents of these processes are the same as those in the first embodiment.
The ROI selection unit 304 selects a plurality of ROIs having a high “personality” and generates candidate regions corresponding to each (S33). The ROI feature extraction unit 306 detects the position (coordinates (x, y)) and size s for each ROI, and calculates and aggregates the feature amount of each ROI (S34, called ROI pooling process). The subject likelihood generation unit 307 calculates the subject likelihood (likelihood of a person) by the same method as in the first and second embodiments, and generates detection candidates based on the calculation result (S35).

また、領域尤度生成部309は、特徴生成部302で生成された局所特徴を用いて、領域ブロックごとに、芝生,群衆、ボールといった領域カテゴリ(属性)の尤度を推定して領域カテゴリ尤度を生成する(S36)。判別パラメータ設定部311は、例えば情報処理装置の操作者が撮像モード指示部312で指示したモードに応じて、予めモードごとに学習済であるの重みパラメータであるSVR係数をSVR係数保持部313から読み出す(S37)。指示されるモードには、例えば風景モード、マクロモード、追尾モード、ポートレートモードなどがある。 Further, the region likelihood generation unit 309 estimates the likelihood of region categories (attributes) such as lawn, crowd, and ball for each region block using the local features generated by the feature generation unit 302, and the region category likelihood. Generate degrees (S36). The discrimination parameter setting unit 311 obtains the SVR coefficient, which is a weight parameter that has been learned in advance for each mode, from the SVR coefficient holding unit 313 according to the mode instructed by the operator of the information processing device in the image pickup mode instruction unit 312, for example. Read (S37). The instructed mode includes, for example, a landscape mode, a macro mode, a tracking mode, a portrait mode, and the like.

判別パラメータ設定部311は、ROI特徴抽出部306が抽出したROIのサイズs、及び、ROIの座標(x、y)と、領域尤度生成部309が生成したROI中の領域カテゴリの尤度310とに基づいて判別パラメータを生成する(S38)。本実施形態の判別パラメータは、各ROIの判別に用いる閾値(θROI)である(S38)。閾値処理部315は、閾値(θROI)とS35で生成した検出候補の尤度とを比較し、すなわち閾値処理し、検出候補が被写体(人物)かどうかを判別し(S39)、その結果を出力する(S40)。情報処理装置は、このような形態の処理により、例えば“ボールの周辺にある小サイズの人物は検出対象の被写体である可能性が高い”などの情報を考慮して、人物の判別を行うことができる。 The discrimination parameter setting unit 311 has the ROI size s extracted by the ROI feature extraction unit 306, the coordinates (x, y) of the ROI, and the likelihood 310 of the region category in the ROI generated by the region likelihood generation unit 309. A discriminant parameter is generated based on (S38). The discrimination parameter of the present embodiment is a threshold value (θ ROI ) used for discrimination of each ROI (S38). The threshold value processing unit 315 compares the threshold value (θ ROI ) with the likelihood of the detection candidate generated in S35, that is, performs threshold value processing, determines whether the detection candidate is a subject (person) (S39), and determines the result. Output (S40). The information processing apparatus determines a person by such a form of processing in consideration of information such as "a small-sized person around the ball is likely to be a subject to be detected". Can be done.

なお、SVRはサポートベクトルのマージン最大化を基準として回帰学習を行う手法である。SVRで最適な閾値(θ)を推定するためには、まず、各学習事例について目標閾値(θ^)を準備する。まず、図20(A)に示すように、ROIの位置及びサイズを特徴次元とする特徴空間上の人物の正事例と負事例の分布を考える。各事例には、被写体尤度生成部307が生成した人物の尤度の値(L)が予め付されている。 SVR is a method of performing regression learning based on maximizing the margin of the support vector. In order to estimate the optimum threshold value (θ) by SVR, first, a target threshold value (θ ^) is prepared for each learning case. First, as shown in FIG. 20 (A), consider the distribution of positive and negative cases of a person in a feature space whose feature dimension is the position and size of the ROI. In each case, the value (L) of the likelihood of the person generated by the subject likelihood generation unit 307 is attached in advance.

判別パラメータ設定部311は、以下のようにして、SVRの教師値となる最適な閾値(θ^)を事例ごとに設定する。具体的には、各事例について周囲のk近傍(当該事例の領域に隣り合うk(所定の定数)の領域)の事例を判別する際の適切な閾値(θ^)を設定する。ここでは、図20(A)中の正事例801について、周囲の事例の尤度スコアを参照し、近傍のいずれの事例についても閾値(θ^)を越えるような負事例がないように、θ^=0.5を目標閾値として設定している。同様にして、全ての事例について、閾値(θ^)を設定する。設定した結果の例を図20(B)に示す。
このようにして得られた閾値(θ^)のセットがSVRの学習時の教師値となる。SVRには、図20(C)に入力事例803として示すように、事例が存在しない位置に入力事例が入ってくる。そのため、ロバスト性を持たせて適切な閾値が推定できるように、マージン最大化の基準でSVRの係数の学習を行う。以上がSVRの学習方法になる。
The discrimination parameter setting unit 311 sets an optimum threshold value (θ ^), which is a teacher value of SVR, for each case as follows. Specifically, an appropriate threshold value (θ ^) for discriminating a case in the vicinity of k around the case (a region of k (predetermined constant) adjacent to the region of the case) is set for each case. Here, for the positive case 801 in FIG. 20 (A), the likelihood scores of the surrounding cases are referred to, and θ is taken so that there is no negative case that exceeds the threshold value (θ ^) in any of the neighboring cases. ^ = 0.5 is set as the target threshold value. Similarly, a threshold value (θ ^) is set for all cases. An example of the set result is shown in FIG. 20 (B).
The set of threshold values (θ ^) thus obtained becomes the teacher value at the time of learning SVR. In the SVR, as shown in FIG. 20C as the input example 803, the input example enters at a position where the example does not exist. Therefore, the coefficient of SVR is learned based on the standard of maximizing the margin so that an appropriate threshold value can be estimated with robustness. The above is the learning method of SVR.

また、図20(D)のように説明変数の特徴量としてより高次元での特徴を推定するときにも、同様の方法を用いることができる。また。このような閾値の推定の手法はSVR以外に、カーネル密度推定等の方法を用いてもよく、特定の方法に限定されない。
また、操作者が選択する撮像モードに応じて学習データと教師値の複数のセットを用意し、それぞれ学習することもできる。これにより、追尾モードの時はそれ以外のモードの時よりも、大サイズの人物の検出が抑制される、といった学習を行うことも可能である。
Further, the same method can be used when estimating a feature in a higher dimension as a feature amount of an explanatory variable as shown in FIG. 20 (D). Also. As a method for estimating such a threshold value, a method such as kernel density estimation may be used in addition to SVR, and the method is not limited to a specific method.
It is also possible to prepare a plurality of sets of learning data and teacher values according to the imaging mode selected by the operator and learn each. This makes it possible to perform learning such that the detection of a large-sized person is suppressed in the tracking mode as compared with the other modes.

第3実施形態では、第1実施形態と異なり、定形的な領域ブロックをベースとしない認識手法にも適用可能となる。特に、判別パラメータの設定についても、SVRなどの手法を使うことによって、位置やサイズ等の連続値を考慮した判別パラメータの設定が行える。 In the third embodiment, unlike the first embodiment, it can be applied to a recognition method that is not based on a fixed area block. In particular, regarding the setting of the discrimination parameter, the discrimination parameter can be set in consideration of the continuous value such as the position and the size by using a method such as SVR.

本発明は、以下の処理を実行することによっても実現される。すなわち、上述した各実施形態の機能を実現するコンピュータプログラムを、ネットワークまたは各種記憶媒体を介してシステム或いは装置に供給する。そしてそのシステム或いは装置のコンピュータ(またはCPU等)がコンピュータプログラムを読み出して実行する処理によっても本発明の実施は可能である。この場合、そのコンピュータプログラム、および該コンピュータプログラムを記憶した記録媒体は本発明を構成することになる。 The present invention is also realized by executing the following processing. That is, a computer program that realizes the functions of each of the above-described embodiments is supplied to the system or device via a network or various storage media. The present invention can also be carried out by a process in which a computer (or CPU, etc.) of the system or device reads out and executes a computer program. In this case, the computer program and the recording medium in which the computer program is stored constitutes the present invention.

Claims (18)

画像の特徴抽出のベースとなるベース特徴を生成するベース特徴生成手段と、
前記画像の局所領域に関する第1解像度の第1特徴を前記ベース特徴に基づいて生成する第1特徴生成手段と、
前記画像の、前記局所領域よりも広い広域領域に関する第2特徴であって、前記第1解像度よりも粗い第2解像度の第2特徴を前記ベース特徴に基づいて生成する第2特徴生成手段と、
前記第2特徴に基づいて、前記画像に存在する被写体を判別するための判別パラメータを前記画像の部分領域毎に設定する設定手段と、
前記第1特徴と前記判別パラメータとに基づいて前記被写体を判別する判別手段と、
を備えることを特徴とする、
情報処理装置。
A base feature generation means that generates a base feature that is the basis for image feature extraction,
A first feature generating means for generating a first feature of the first resolution with respect to a local region of the image based on the base feature .
A second feature generation means for generating a second feature of the image, which is a wide area wider than the local region and has a second resolution coarser than the first resolution, based on the base feature .
Based on the second feature, a setting means for setting a discrimination parameter for discriminating a subject existing in the image for each partial region of the image, and a setting means.
A discriminating means for discriminating the subject based on the first feature and the discriminating parameter, and
Characterized by
Information processing equipment.
前記判別手段は、前記部分領域毎に前記被写体が含まれることの尤度を前記第1特徴に基づいて生成し、当該尤度と前記判別パラメータとに基づいて前記被写体を判別することを特徴とする、
請求項1に記載の情報処理装置。
The discriminating means is characterized in that the likelihood that the subject is included in each of the partial regions is generated based on the first feature, and the subject is discriminated based on the likelihood and the discriminating parameter. do,
The information processing apparatus according to claim 1.
画像の局所領域に関する第1特徴を生成する第1特徴生成手段と、
前記画像の、前記局所領域よりも広い広域領域に関する第2特徴を生成する第2特徴生成手段と、
前記第2特徴に基づいて、前記画像に存在する複数種類の被写体を判別するための、前記複数種類それぞれに対応する複数の判別パラメータを前記画像の部分領域毎に設定する設定手段と、
記部分領域毎に前記複数種類の被写体それぞれに対応する複数の尤度を前記第1特徴に基づいて生成し、前記複数の尤度と前記複数の判別パラメータとに基づいて前記複数種類の被写体を判別する判別手段と、を備えることを特徴とする、
情報処理装置。
A first feature generating means for generating a first feature relating to a local region of an image,
A second feature generation means for generating a second feature for a wide area of the image, which is wider than the local area.
Based on the second feature, a setting means for setting a plurality of discrimination parameters corresponding to each of the plurality of types of subjects existing in the image for each partial region of the image, and a setting means for discriminating the plurality of types of subjects.
A plurality of likelihoods corresponding to each of the plurality of types of subjects are generated for each of the partial regions based on the first feature, and the plurality of types are based on the plurality of likelihoods and the plurality of discrimination parameters. It is characterized by comprising a discriminating means for discriminating a subject.
Information processing equipment.
前記設定手段は、複数のサイズそれぞれに対応する複数の判別パラメータを、前記部分領域毎に設定し、
前記判別手段は、前記部分領域毎に前記複数のサイズそれぞれに対応する複数の尤度を前記第1特徴に基づいて生成し、前記複数の尤度と、前記複数の判別パラメータとに基づいて前記被写体を判別することを特徴とする、
請求項1または2に記載の情報処理装置。
The setting means sets a plurality of discrimination parameters corresponding to each of the plurality of sizes for each of the partial areas.
The discrimination means generates a plurality of likelihoods corresponding to each of the plurality of sizes for each of the partial regions based on the first feature, and the discrimination means is based on the plurality of likelihoods and the plurality of discrimination parameters. Characterized by discriminating the subject,
The information processing apparatus according to claim 1 or 2.
前記ベース特徴生成手段は、前記画像に対してニューラルネットワークで複数回の畳み込み演算を行うことにより、複数層の特徴マップを生成するとともに、これらの層の特徴マップを統合することにより前記ベース特徴を生成することを特徴とする、
請求項1または2に記載の情報処理装置。
The base feature generation means generates a feature map of a plurality of layers by performing a plurality of convolution operations on the image with a neural network, and integrates the feature maps of these layers to generate the base feature. Characterized by generating,
The information processing apparatus according to claim 1 or 2 .
前記ベース特徴生成手段は、前記複数層の特徴マップの解像度を合致させ、前記複数層の特徴マップを統合することを特徴とする、
請求項5に記載の情報処理装置。
The base feature generation means is characterized in that the resolutions of the feature maps of the plurality of layers are matched and the feature maps of the plurality of layers are integrated.
The information processing apparatus according to claim 5.
前記第1特徴生成手段は、前記複数層の特徴マップのうち前記第1解像度の層の特徴マップを変換することにより前記第1特徴を生成し、
前記第2特徴生成手段は、前記第2解像度の層の特徴マップを変換することにより前記第2特徴を生成することを特徴とする、
請求項5又は6に記載の情報処理装置。
The first feature generation means generates the first feature by converting the feature map of the layer having the first resolution among the feature maps of the plurality of layers.
The second feature generation means is characterized in that the second feature is generated by converting the feature map of the second resolution layer.
The information processing apparatus according to claim 5 or 6.
前記画像の撮像時の条件を表すカメラ情報を取得する取得手段を更に備え、
前記第2特徴生成手段は、前記カメラ情報に基づいて、前記第2特徴を生成することを特徴とする、
請求項1から7のいずれか1項に記載の情報処理装置。
Further provided with an acquisition means for acquiring camera information representing the conditions at the time of capturing the image,
The second feature generation means is characterized in that the second feature is generated based on the camera information.
The information processing apparatus according to any one of claims 1 to 7.
前記第2特徴生成手段は、予め分類された画像特徴である画像分類特徴と前記カメラ情報とを連結することにより前記第2特徴を生成することを特徴とする、
請求項8に記載の情報処理装置。
The second feature generation means is characterized in that the second feature is generated by linking the image classification feature, which is a preclassified image feature, with the camera information.
The information processing apparatus according to claim 8.
前記カメラ情報は、合焦している領域に関する合焦情報、水平線推定結果に関する水平線情報または測光値に関する測光情報であることを特徴とする、
請求項8または9に記載の情報処理装置。
The camera information is characterized by being in-focus information regarding an in-focus region, horizon information regarding a horizon estimation result, or photometric information regarding a photometric value.
The information processing apparatus according to claim 8 or 9.
前記設定手段は、前記画像分類特徴を用いて複数のサイズごとに前記判別パラメータを設定することを特徴とする、
請求項9に記載の情報処理装置。
The setting means is characterized in that the discrimination parameter is set for each of a plurality of sizes by using the image classification feature.
The information processing apparatus according to claim 9.
前記判別パラメータは、予め学習により決定された閾値であることを特徴とする、
請求項1から11のいずれか一項に記載の情報処理装置。
The discriminant parameter is a threshold value determined in advance by learning.
The information processing apparatus according to any one of claims 1 to 11.
前記部分領域毎に領域の属性を判定する判定手段を備えており、
前記第2特徴生成手段は、前記判定手段による判定結果に基づいて前記第2特徴を生成することを特徴とする、
請求項1から3のいずれか一項に記載の情報処理装置。
A determination means for determining the attribute of the area is provided for each of the partial areas.
The second feature generation means is characterized in that the second feature is generated based on the determination result by the determination means.
The information processing apparatus according to any one of claims 1 to 3.
前記設定手段は、前記判定手段による判定結果に基づいて前記判別パラメータを設定することを特徴とする、
請求項13に記載の情報処理装置。
The setting means is characterized in that the determination parameter is set based on the determination result by the determination means.
The information processing apparatus according to claim 13.
前記第1特徴に基づいて、前記画像を構成する複数の領域ブロック各々の属性の尤度を判定する判定手段と、
関心領域である前記部分領域を特定する特定手段と、
前記特定手段により特定された前記部分領域各々の位置及びサイズを検出するとともに、前記部分領域毎の特徴を抽出する特徴抽出手段と、を更に備え、
前記設定手段は、前記部分領域毎の位置及びサイズと前記判定手段による判定結果とに基づいて前記判別パラメータを前記部分領域毎に設定することを特徴とする、
請求項1に記載の情報処理装置。
A determination means for determining the likelihood of the attributes of each of the plurality of region blocks constituting the image based on the first feature.
Specific means for identifying the partial area, which is a region of interest, and
Further provided with a feature extraction means for detecting the position and size of each of the partial regions specified by the specific means and extracting the features of each of the partial regions.
The setting means is characterized in that the discrimination parameter is set for each partial region based on the position and size of each partial region and the determination result by the determination means.
The information processing apparatus according to claim 1.
画像の特徴抽出のベースとなるベース特徴を生成するステップと、
前記画像の局所領域に関する第1解像度の第1特徴を前記ベース特徴に基づいて生成するステップと、
前記画像の、前記局所領域よりも広い広域領域に関する第2特徴であって、前記第1解像度よりも粗い第2解像度の第2特徴を前記ベース特徴に基づいて生成するステップと、 前記第2特徴に基づいて、前記画像に存在する被写体を判別するための判別パラメータを前記画像の部分領域毎に設定するステップと、
前記第1特徴と前記判別パラメータとに基づいて前記被写体を判別するステップと、を有することを特徴とする、
被写体の判別方法。
Steps to generate the base features that are the basis for image feature extraction,
A step of generating a first feature of the first resolution for a local region of the image based on the base feature .
A step of generating a second feature of the image, which is a wide area wider than the local region and has a second resolution coarser than the first resolution , based on the base feature, and the second feature. A step of setting a discrimination parameter for discriminating a subject existing in the image for each partial region of the image based on the above.
It is characterized by having a step of discriminating the subject based on the first feature and the discriminating parameter.
How to identify the subject.
画像の局所領域に関する第1特徴を生成するステップと、The steps to generate the first feature for the local area of the image,
前記画像の、前記局所領域よりも広い広域領域に関する第2特徴を生成するステップと、 A step of generating a second feature of the image for a wide area wider than the local area.
前記第2特徴に基づいて、前記画像に存在する複数種類の被写体を判別するための、前記複数種類それぞれに対応する複数の判別パラメータを前記画像の部分領域毎に設定するステップと、 A step of setting a plurality of discrimination parameters corresponding to each of the plurality of types for discriminating a plurality of types of subjects existing in the image based on the second feature for each partial region of the image.
前記部分領域毎に前記複数種類の被写体それぞれに対応する複数の尤度を前記第1特徴に基づいて生成し、前記複数の尤度と前記複数の判別パラメータとに基づいて前記複数種類の被写体を判別するステップと、を有することを特徴とする、 A plurality of likelihoods corresponding to each of the plurality of types of subjects are generated for each of the partial regions based on the first feature, and the plurality of types of subjects are generated based on the plurality of likelihoods and the plurality of discrimination parameters. It is characterized by having a step of discriminating.
被写体の判別方法。 How to identify the subject.
コンピュータを請求項1から15のいずれか一項に記載された情報処理装置として機能させるためのコンピュータプログラム。 A computer program for operating a computer as the information processing apparatus according to any one of claims 1 to 15.
JP2018023792A 2018-02-14 2018-02-14 Information processing device, subject identification method and computer program Active JP7077046B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018023792A JP7077046B2 (en) 2018-02-14 2018-02-14 Information processing device, subject identification method and computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018023792A JP7077046B2 (en) 2018-02-14 2018-02-14 Information processing device, subject identification method and computer program

Publications (3)

Publication Number Publication Date
JP2019139618A JP2019139618A (en) 2019-08-22
JP2019139618A5 JP2019139618A5 (en) 2021-04-15
JP7077046B2 true JP7077046B2 (en) 2022-05-30

Family

ID=67694180

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018023792A Active JP7077046B2 (en) 2018-02-14 2018-02-14 Information processing device, subject identification method and computer program

Country Status (1)

Country Link
JP (1) JP7077046B2 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102680342B1 (en) * 2019-09-23 2024-07-03 삼성전자주식회사 Electronic device for performing video hdr process based on image data obtained by plurality of image sensors
JP7490359B2 (en) * 2019-12-24 2024-05-27 キヤノン株式会社 Information processing device, information processing method, and program
US20230125890A1 (en) * 2020-03-27 2023-04-27 Hitachi Kokusai Electric Inc. Image analysis system, image analysis method, and image analysis program
JP7448006B2 (en) * 2020-06-23 2024-03-12 日本電気株式会社 Object position estimation device
CN112070083A (en) * 2020-09-04 2020-12-11 北京灵汐科技有限公司 Image content detection method and device, electronic equipment and storage medium

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006513468A (en) 2003-01-06 2006-04-20 三菱電機株式会社 How to segment pixels in an image
JP2017102622A (en) 2015-11-30 2017-06-08 キヤノン株式会社 Image processing device, image processing method and program

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5848551B2 (en) * 2011-08-26 2016-01-27 キヤノン株式会社 Learning device, learning device control method, detection device, detection device control method, and program
JP6395481B2 (en) * 2014-07-11 2018-09-26 キヤノン株式会社 Image recognition apparatus, method, and program
JP6639113B2 (en) * 2015-06-05 2020-02-05 キヤノン株式会社 Image recognition device, image recognition method, and program
JP2017097510A (en) * 2015-11-20 2017-06-01 ソニー株式会社 Image processing apparatus, image processing method, and program

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006513468A (en) 2003-01-06 2006-04-20 三菱電機株式会社 How to segment pixels in an image
JP2017102622A (en) 2015-11-30 2017-06-08 キヤノン株式会社 Image processing device, image processing method and program

Also Published As

Publication number Publication date
JP2019139618A (en) 2019-08-22

Similar Documents

Publication Publication Date Title
JP7077046B2 (en) Information processing device, subject identification method and computer program
US8818034B2 (en) Face recognition apparatus and methods
Creusot et al. A machine-learning approach to keypoint detection and landmarking on 3D meshes
Su et al. Preference-aware view recommendation system for scenic photos based on bag-of-aesthetics-preserving features
JP4663013B2 (en) Color classification method, color recognition method, and color recognition apparatus
Cevikalp et al. Face and landmark detection by using cascade of classifiers
KR101896357B1 (en) Method, device and program for detecting an object
US20100014758A1 (en) Method for detecting particular object from image and apparatus thereof
Jun et al. Robust real-time face detection using face certainty map
JP5574033B2 (en) Image recognition system, recognition method thereof, and program
CN109740572A (en) A kind of human face in-vivo detection method based on partial color textural characteristics
US8170332B2 (en) Automatic red-eye object classification in digital images using a boosting-based framework
JP2008102611A (en) Image processor
JP4795864B2 (en) Feature point detection apparatus and method, and program
CN114399731B (en) Target positioning method under supervision of single coarse point
JP2006323779A (en) Image processing method and device
Li et al. Solving a special type of jigsaw puzzles: Banknote reconstruction from a large number of fragments
JP2007511838A (en) Image clustering using distance, local linear structure and affine symmetry
Hasan et al. Improving alignment of faces for recognition
JP3962517B2 (en) Face detection method and apparatus, and computer-readable medium
JPH0973544A (en) Shape recognition device/method
JPH11110542A (en) Method and device for extracting pattern and medium recorded with program therefor
Estrada et al. Appearance-based keypoint clustering
Campadelli et al. A color based method for face detection
JP4185083B2 (en) Shape recognition apparatus and method

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210210

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220111

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220323

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220419

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220518

R151 Written notification of patent or utility model registration

Ref document number: 7077046

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151