JP7386630B2 - Image processing device, control method and program for the image processing device - Google Patents

Image processing device, control method and program for the image processing device Download PDF

Info

Publication number
JP7386630B2
JP7386630B2 JP2019122098A JP2019122098A JP7386630B2 JP 7386630 B2 JP7386630 B2 JP 7386630B2 JP 2019122098 A JP2019122098 A JP 2019122098A JP 2019122098 A JP2019122098 A JP 2019122098A JP 7386630 B2 JP7386630 B2 JP 7386630B2
Authority
JP
Japan
Prior art keywords
image
feature
image processing
facial
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019122098A
Other languages
Japanese (ja)
Other versions
JP2021009493A (en
Inventor
光太郎 矢野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2019122098A priority Critical patent/JP7386630B2/en
Publication of JP2021009493A publication Critical patent/JP2021009493A/en
Application granted granted Critical
Publication of JP7386630B2 publication Critical patent/JP7386630B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Studio Devices (AREA)
  • Image Analysis (AREA)

Description

本発明は、画像処理装置、画像処理装置の制御方法及びプログラムに関する。 The present invention relates to an image processing apparatus, a method of controlling the image processing apparatus, and a program.

近年、カメラで所定のエリアを撮影して、撮影した映像を解析することによって映像中から特定の人物を検索するシステムが提案されている。このようなシステムでは、予めシステムに登録されている顔画像を用いて公共の空間に設置された監視カメラから人物を検索することで不審人物の早期発見への活用が期待されている。人物の検索には登録人物と映像中の人物の顔画像を照合する顔認識技術が用いられる。 2. Description of the Related Art In recent years, systems have been proposed that search for a specific person in a video by photographing a predetermined area with a camera and analyzing the photographed video. Such a system is expected to be useful for early detection of suspicious persons by searching for people from surveillance cameras installed in public spaces using facial images registered in the system in advance. Face recognition technology is used to search for people by matching registered people with facial images of people in videos.

顔認識技術においては、登録および入力顔画像の夫々から顔の特徴を表す特徴量を抽出して、抽出した特徴量の類似度から同一人物か否かを判定する。このような顔認識技術は、近年、ディープラーニング技術の導入により、人の認識精度を超えるものも報告されている。非特許文献1では、事前に画像から検出し、アライメントを行った顔画像をニューラルネットワークで抽出した顔特徴量で照合を行っている。 In face recognition technology, feature quantities representing facial features are extracted from each of the registered and input face images, and it is determined whether the two are the same person based on the similarity of the extracted feature quantities. In recent years, with the introduction of deep learning technology, it has been reported that such face recognition technology exceeds human recognition accuracy. In Non-Patent Document 1, a facial image that has been detected and aligned in advance from an image is compared using facial features extracted by a neural network.

Taigmanら. Deepface: closing the gap to human-level performance in face verification. in 2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)Taigman et al. Deepface: closing the gap to human-level performance in face verification. in 2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Girshick. Fast R-CNN. in 2015 IEEE International Conference on Computer Vision(ICCV)Girshick. Fast R-CNN. in 2015 IEEE International Conference on Computer Vision(ICCV)

しかしながら、従来技術では、予め顔画像から目、口等の特徴点を検出してアライメントを行う必要がある。従って、アライメントの精度が低いと、抽出する特徴量がずれてしまい、顔の照合精度が低下するといった課題がある。 However, in the conventional technology, it is necessary to detect feature points such as eyes and mouth from a face image in advance and perform alignment. Therefore, if the accuracy of alignment is low, the extracted feature amounts will shift, resulting in a problem that face matching accuracy will decrease.

本発明は、上記の課題に鑑みてなされたものであり、アライメント等の前処理を必要とすることなく、精度良く顔画像等のオブジェクト画像の照合を行うための技術を提供することを目的とする。 The present invention has been made in view of the above-mentioned problems, and an object of the present invention is to provide a technique for accurately matching object images such as face images without requiring preprocessing such as alignment. do.

上記の目的を達成する本発明に係る画像処理装置は、
撮影装置が撮影することにより取得される画像からオブジェクトの照合を行う画像処理装置であって、
前記画像から畳み込みニューラルネットワークによって、画像の特徴点が検出された位置が示された複数の特徴マップを算出する特徴マップ算出手段と、
前記特徴マップ算出手段により算出され前記複数の特徴マップにおける前記画像中の前記オブジェクトの特徴点位置を推定する推定手段と、
前記推定手段により推定され前記特徴点位置を用いて、前記複数の特徴マップから部分領域を抽出し、かつ前記部分領域を所定サイズに正規化する正規化処理手段と、
前記正規化処理手段により正規化され特徴マップから、前記特徴点位置に対応する特徴を含む前記オブジェクトの特徴を抽出する抽出手段と、
前記抽出手段により抽出され特徴と予め記憶されている特徴とを照合する照合手段と、
を備えることを特徴とする。
An image processing device according to the present invention that achieves the above object includes:
An image processing device that matches objects from images obtained by photographing with a photographing device, the image processing device comprising:
Feature map calculation means for calculating a plurality of feature maps indicating positions where feature points of the image are detected from the image using a convolutional neural network;
Estimating means for estimating the feature point position of the object in the image in the plurality of feature maps calculated by the feature map calculating means;
normalization processing means for extracting partial regions from the plurality of feature maps using the feature point positions estimated by the estimation means, and normalizing the partial regions to a predetermined size;
Extracting means for extracting features of the object including features corresponding to the feature point positions from the feature map normalized by the normalization processing means;
collation means for collating the features extracted by the extraction means and the features stored in advance;
It is characterized by having the following.

本発明によれば、アライメント等の前処理を必要とすることなく、精度良くオブジェクト画像の照合を行うことが可能となる。 According to the present invention, it is possible to accurately match object images without requiring preprocessing such as alignment.

本発明の一実施形態に係る画像処理装置の機能構成の一例を示す図。1 is a diagram showing an example of a functional configuration of an image processing apparatus according to an embodiment of the present invention. 本発明の一実施形態に係る画像処理装置が実施する顔画像照合処理の手順を示すフローチャート。5 is a flowchart illustrating a procedure of facial image matching processing performed by an image processing apparatus according to an embodiment of the present invention. 本発明の一実施形態に係る畳み込みニューラルネットワークの例を示す図。FIG. 1 is a diagram illustrating an example of a convolutional neural network according to an embodiment of the present invention. 本発明の一実施形態に係る顔特徴点の例を示す図。FIG. 3 is a diagram showing an example of facial feature points according to an embodiment of the present invention. 本発明の一実施形態に係る、顔画像を入力とした場合に畳み込みニューラルネットワークが出力する3つの特徴マップの例を示す図。FIG. 4 is a diagram showing examples of three feature maps output by a convolutional neural network when a facial image is input, according to an embodiment of the present invention. 本発明の一実施形態に係る画像処理装置が実施する顔画像登録処理の手順を示すフローチャート。1 is a flowchart showing a procedure of facial image registration processing performed by an image processing apparatus according to an embodiment of the present invention. 本発明の一実施形態に係る画像処理装置のハードウェア構成の一例を示す図。1 is a diagram illustrating an example of a hardware configuration of an image processing apparatus according to an embodiment of the present invention.

以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものでない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。 Hereinafter, embodiments will be described in detail with reference to the accompanying drawings. Note that the following embodiments do not limit the claimed invention. Although a plurality of features are described in the embodiments, not all of these features are essential to the invention, and the plurality of features may be arbitrarily combined. Furthermore, in the accompanying drawings, the same or similar components are designated by the same reference numerals, and redundant description will be omitted.

<画像処理装置のハードウェア構成>
図7は、本実施形態に係る画像処理装置のハードウェア構成の一例を示す図である。図7において、画像処理装置200は、演算処理装置1、記憶装置2、入力装置3、及び出力装置4を含んで構成される。なお、各装置は、互いに通信可能に構成され、バス等により接続されている。
<Hardware configuration of image processing device>
FIG. 7 is a diagram showing an example of the hardware configuration of the image processing apparatus according to this embodiment. In FIG. 7, an image processing device 200 includes an arithmetic processing device 1, a storage device 2, an input device 3, and an output device 4. Note that the devices are configured to be able to communicate with each other and are connected via a bus or the like.

演算処理装置1は、画像処理装置200の動作を制御し、記憶装置2に格納されたプログラムの実行等を行い、CPU(Central Processing Unit)およびGPU(Graphics Processing Unit)で構成される。記憶装置2は、磁気記憶装置、半導体メモリ等のストレージデバイスであり、演算処理装置1の動作に基づき読み込まれたプログラム、長時間記憶しなくてはならないデータ等を記憶する。本実施形態では、演算処理装置1が、記憶装置2に格納されたプログラムの手順に従って処理を行うことによって、画像処理装置200における機能及び後述するフローチャートに係る処理が実現される。記憶装置2は、また、画像処理装置200が処理対象とする画像および処理結果を記憶する。 The arithmetic processing device 1 controls the operation of the image processing device 200, executes programs stored in the storage device 2, etc., and is composed of a CPU (Central Processing Unit) and a GPU (Graphics Processing Unit). The storage device 2 is a storage device such as a magnetic storage device or a semiconductor memory, and stores programs read based on the operation of the arithmetic processing unit 1, data that must be stored for a long time, and the like. In this embodiment, the arithmetic processing device 1 performs processing according to the procedure of the program stored in the storage device 2, thereby realizing the functions of the image processing device 200 and the processing related to the flowcharts described below. The storage device 2 also stores images to be processed by the image processing device 200 and processing results.

入力装置3は、マウス、キーボード、タッチパネルデバイス、ボタン等であり、各種の指示を入力する。入力装置3は、また、カメラ等の撮像装置を含みうる。出力装置4は、液晶パネル、外部モニタ等であり、各種の情報を出力する。 The input device 3 is a mouse, keyboard, touch panel device, button, etc., and is used to input various instructions. The input device 3 may also include an imaging device such as a camera. The output device 4 is a liquid crystal panel, an external monitor, etc., and outputs various information.

なお、画像処理装置200のハードウェア構成は、上述した構成に限られるものではない。例えば、画像処理装置200は、各種の装置間で通信を行うためのI/O装置を備えてもよい。例えば、I/O装置は、メモリーカード、USBケーブル等の入出力部、有線、無線等による送受信部である。 Note that the hardware configuration of the image processing device 200 is not limited to the configuration described above. For example, the image processing device 200 may include an I/O device for communicating between various devices. For example, the I/O device is an input/output unit such as a memory card or a USB cable, or a wired or wireless transmission/reception unit.

<画像処理装置の機能構成>
図1は、本発明の実施形態に係る画像処理装置の機能構成を示す図である。図1に示すように、画像処理装置200は、カメラ(撮影装置)100と接続されている。画像処理装置200は、パラメータ取得部201、画像取得部202、画像変倍部203、特徴マップ算出部204及び特徴マップ記憶部205を備えている。また、画像処理装置200は、顔特徴点位置推定部206、正規化処理部207、顔特徴抽出部208、顔特徴記憶部209、顔サイズ算出部210、顔特徴選択部211、顔特徴照合部212、および、不図示の入力部と表示部をさらに備えている。なお、画像処理装置200がカメラ100を含む構成であってもよい。
<Functional configuration of image processing device>
FIG. 1 is a diagram showing the functional configuration of an image processing apparatus according to an embodiment of the present invention. As shown in FIG. 1, the image processing device 200 is connected to a camera (photographing device) 100. The image processing device 200 includes a parameter acquisition section 201, an image acquisition section 202, an image scaling section 203, a feature map calculation section 204, and a feature map storage section 205. The image processing device 200 also includes a facial feature point position estimation unit 206, a normalization processing unit 207, a facial feature extraction unit 208, a facial feature storage unit 209, a face size calculation unit 210, a facial feature selection unit 211, a facial feature matching unit 212, and an input section and a display section (not shown). Note that the image processing device 200 may include the camera 100.

パラメータ取得部201は、カメラ100の撮影パラメータを取得する。画像取得部202は、カメラ100で撮影した画像データを取得する。画像変倍部203は、画像取得部202で取得した画像データを所定サイズの画像に変倍する。変倍する画像サイズはパラメータ取得部201で取得した撮影パラメータに基づいて設定する。 The parameter acquisition unit 201 acquires photographing parameters of the camera 100. The image acquisition unit 202 acquires image data captured by the camera 100. The image scaling unit 203 scales the image data acquired by the image acquisition unit 202 into an image of a predetermined size. The image size to be scaled is set based on the imaging parameters acquired by the parameter acquisition unit 201.

特徴マップ算出部204は、画像変倍部203を介して取得した画像データを畳み込みニューラルネットワークに入力して処理を行うことによって複数の特徴マップを算出する。特徴マップ記憶部205は、特徴マップ算出部204の処理結果を記憶する。顔特徴点位置推定部206は、特徴マップ算出部204で求めた複数の特徴マップから画像中の人物の顔特徴点位置を推定する。正規化処理部207は、特徴マップ記憶部205に記憶された特徴マップから顔特徴点位置推定部206で求めた顔特徴点位置を用いて部分領域を切り出し、所定サイズの特徴マップに正規化する。顔特徴抽出部208は、正規化処理部207が出力する特徴マップから人物の顔特徴を抽出する。顔特徴記憶部209は、顔特徴抽出部208で求めた処理結果を記憶する。 The feature map calculation unit 204 calculates a plurality of feature maps by inputting the image data acquired through the image scaling unit 203 into a convolutional neural network and processing the data. The feature map storage unit 205 stores the processing results of the feature map calculation unit 204. The facial feature point position estimation unit 206 estimates the facial feature point positions of the person in the image from the plurality of feature maps obtained by the feature map calculation unit 204. The normalization processing unit 207 cuts out a partial region from the feature map stored in the feature map storage unit 205 using the facial feature point positions determined by the facial feature point position estimation unit 206, and normalizes it into a feature map of a predetermined size. . The facial feature extraction unit 208 extracts facial features of a person from the feature map output by the normalization processing unit 207. The facial feature storage unit 209 stores the processing results obtained by the facial feature extraction unit 208.

顔サイズ算出部210は、顔特徴点位置推定部206で求めた顔特徴点位置から顔の大きさを算出する。顔特徴選択部211は、顔特徴記憶部209に記憶された顔特徴から顔サイズ算出部210で求めた顔の大きさに基づいて適切な顔特徴を選択する。顔特徴照合部212は、顔特徴抽出部208で求めた顔特徴と顔特徴選択部211で選択した顔特徴とを照合し、顔特徴間の類似度を出力する。 The face size calculation unit 210 calculates the size of the face from the facial feature point positions determined by the facial feature point position estimation unit 206. The facial feature selection unit 211 selects appropriate facial features based on the face size calculated by the face size calculation unit 210 from the facial features stored in the facial feature storage unit 209. The facial feature matching unit 212 matches the facial features obtained by the facial feature extracting unit 208 and the facial features selected by the facial feature selecting unit 211, and outputs the degree of similarity between the facial features.

<顔画像照合処理>
続いて、図2のフローチャートを参照して、本発明の一実施形態に係る画像処理装置200が実施する顔画像照合処理の手順を説明する。なお、以下においては不図示の入力部で指定した検索対象である登録顔画像とカメラ100で撮影した顔画像との照合処理について説明する。
<Face image matching process>
Next, with reference to the flowchart of FIG. 2, the procedure of face image matching processing performed by the image processing apparatus 200 according to an embodiment of the present invention will be described. Note that, below, a process of matching a registered face image, which is a search target specified by an input unit (not shown), with a face image photographed by the camera 100 will be explained.

S100において、画像取得部201は、カメラ100で撮影した映像から画像データを取得する。取得する画像データは、例えば、RGB各8ビットの画素からなる二次元データである。あるいは、8ビット画素からなる輝度データでも構わないし、各画素のビット数も8ビットに限定されるものではない。このとき、パラメータ取得部201は、取得した画像データを撮影した際の撮影パラメータを取得する。取得する撮影パラメータは撮影レンズの焦点距離、絞り値、シャッタースピード、イメージセンサーのゲイン、撮影した画像の圧縮率、等を含む。但し、これら全ての撮影パラメータを必ずしも取得する必要はなく、撮影した画像の画質に影響するパラメータを少なくとも一つ取得すればよい。 In S100, the image acquisition unit 201 acquires image data from the video captured by the camera 100. The image data to be acquired is, for example, two-dimensional data consisting of 8-bit RGB pixels. Alternatively, brightness data consisting of 8-bit pixels may be used, and the number of bits of each pixel is not limited to 8 bits. At this time, the parameter acquisition unit 201 acquires the photographing parameters when the acquired image data was photographed. The photographing parameters to be acquired include the focal length of the photographing lens, the aperture value, the shutter speed, the gain of the image sensor, the compression rate of the photographed image, and the like. However, it is not necessary to acquire all of these photographing parameters, and it is sufficient to acquire at least one parameter that affects the image quality of the photographed image.

S200において、画像変倍部203は。画像取得部202で取得した画像データを所定サイズの画像に変倍する。変倍する画像サイズはパラメータ取得部201で取得した撮影パラメータに基づいて設定する。 In S200, the image scaling unit 203. The image data acquired by the image acquisition unit 202 is scaled to an image of a predetermined size. The image size to be scaled is set based on the imaging parameters acquired by the parameter acquisition unit 201.

以下では、シャッタースピードを撮影パラメータとして、シャッタースピードに基づいて画像サイズを決める場合について、その方法を説明する。公共の空間を歩いている人物を撮影した画像中の顔はシャッタースピードが遅いとブレが生じるため撮影時に取得した画像でそのまま顔の照合を行うと照合精度が低下する。そこで、ブレのある画像の場合は縮小してブレの影響を抑制する必要がある。そこで、シャッタースピードに応じて変倍する画像サイズを設定する。具体的には、シャッタースピードが遅ければ遅いほど変倍する画像サイズが小さくなるように設定する。画像サイズの設定は、予めシャッタースピードと画像サイズとの関係をテーブルとして記憶しておき、テーブルを参照してシャッタースピードから画像サイズを求めるようにしておけばよい。 In the following, a method will be described in which the image size is determined based on the shutter speed, using the shutter speed as a photographing parameter. Faces in images taken of people walking in public spaces will be blurred if the shutter speed is slow, so if faces are matched using the images obtained at the time of shooting, the matching accuracy will drop. Therefore, in the case of a blurred image, it is necessary to reduce the size of the image to suppress the effects of blur. Therefore, the image size to be scaled is set according to the shutter speed. Specifically, the setting is such that the slower the shutter speed, the smaller the image size to be scaled. To set the image size, the relationship between shutter speed and image size may be stored in advance as a table, and the image size may be determined from the shutter speed by referring to the table.

撮影した画像の画質に影響するその他の撮影パラメータにおいても同様にして画像サイズを設定することで同様の効果が得られる。例えば、イメージセンサーのゲインや撮影した画像の圧縮率は画像ノイズに影響するので同様の効果が得られる。 A similar effect can be obtained by similarly setting the image size for other shooting parameters that affect the image quality of the shot image. For example, the gain of the image sensor and the compression rate of the captured image affect image noise, so similar effects can be obtained.

また、撮影パラメータを取得することなく撮影した画像の画質を解析して適切な画像サイズを設定することでも、同様の効果が得られることは言うまでもない。例えば、撮影した画像を周波数解析することで画像ブレやノイズを推定して適用することができる。 It goes without saying that similar effects can also be obtained by analyzing the image quality of a photographed image and setting an appropriate image size without acquiring photographic parameters. For example, image blur and noise can be estimated and applied by frequency analysis of a captured image.

S300において、特徴マップ算出部204は、画像変倍部203を介して取得した画像データを、畳み込みニューラルネットワークに入力して処理を行うことによって、複数の特徴マップを算出する。 In S300, the feature map calculation unit 204 calculates a plurality of feature maps by inputting the image data acquired via the image scaling unit 203 into a convolutional neural network and processing it.

<畳み込みニューラルネットワークの例>
ここで、図3に畳み込みニューラルネットワークの例を示す。図3に示すように、この畳み込みニューラルネットワークはConv1~Conv10の10層の畳み込み層によって構成される。畳み込み層Conv1~Conv6は、特徴マップ算出部204の機能を構成する層であり、画像データを入力として複数の特徴マップを出力する。また、畳み込み層Conv7~Conv10は後述する顔特徴点位置推定部206の機能を構成する。各畳み込み層Conv1~Conv10は、例えば、3×3の畳み込み演算を各層の出力チャネル数分だけ行う。また、図3に示した畳み込みニューラルネットワークでは畳み込み層Conv1~Conv4では1画素おきに飛ばして(ストライド数2)畳み込み演算を行い、出力する特徴マップの解像度を縦横2分の1のサイズに縮小している。また、畳み込み層Conv5~Conv6では前段の畳み込み層から入力した特徴マップと同じサイズの特徴マップを出力するように畳み込み演算を行う。
<Example of convolutional neural network>
Here, FIG. 3 shows an example of a convolutional neural network. As shown in FIG. 3, this convolutional neural network is composed of 10 convolutional layers Conv1 to Conv10. The convolutional layers Conv1 to Conv6 are layers that constitute the functions of the feature map calculation unit 204, and output a plurality of feature maps by inputting image data. Further, the convolutional layers Conv7 to Conv10 constitute the function of a facial feature point position estimation unit 206, which will be described later. Each of the convolutional layers Conv1 to Conv10 performs, for example, 3×3 convolution operations for the number of output channels of each layer. In addition, in the convolutional neural network shown in Figure 3, convolution operations are performed by skipping every other pixel (stride number is 2) in convolution layers Conv1 to Conv4, and the resolution of the output feature map is reduced to half the size vertically and horizontally. ing. Furthermore, convolutional operations are performed in the convolutional layers Conv5 to Conv6 so as to output a feature map of the same size as the feature map input from the previous convolutional layer.

このような多層構成の畳み込みニューラルネットワークでは、畳み込み演算を繰り返すことによって低次から高次の特徴マップを得ることができる。高次の特徴は低次の特徴に比べて入力画像に対して畳み込み演算を行った回数が多いので受容野が広くなる。ここで、受容野とはマップ中の一つの特徴に寄与する入力画像の領域であり、高次の特徴はより広い領域の画像から特徴を抽出した結果になる。 In such a multilayer convolutional neural network, feature maps from low to high order can be obtained by repeating convolution operations. A high-order feature has a wider receptive field because the convolution operation is performed on the input image more times than a low-order feature. Here, the receptive field is an area of the input image that contributes to one feature in the map, and higher-order features are the result of extracting features from a wider area of the image.

特徴マップ算出部204の処理結果は、特徴マップ記憶部205に記憶される。特徴マップ記憶部205は、少なくとも特徴マップ算出部204の最終層である畳み込み層Conv6から出力される複数の特徴マップを記憶するが、複数の畳み込み層、および、異なる解像度の特徴マップを記憶するようにしてもよい。例えば、図3の畳み込みニューラルネットワークの畳み込み層Conv1~Conv3、および、Conv6の特徴マップを記憶するようにする。各畳み込み層の全ての特徴マップを記憶するようにしてもよいし、一部の特徴マップを記憶するようにしてもよい。記憶する特徴マップの数が多いほど顔の照合精度として高い精度が期待できるが、特徴マップ記憶部205に記憶する特徴マップの容量が多くなるので必要とする精度に応じて特徴マップの数を最適に選択してもよい。 The processing results of the feature map calculation unit 204 are stored in the feature map storage unit 205. The feature map storage unit 205 stores at least a plurality of feature maps output from the convolutional layer Conv6, which is the final layer of the feature map calculation unit 204, and stores feature maps of a plurality of convolutional layers and different resolutions. You may also do so. For example, the feature maps of convolutional layers Conv1 to Conv3 and Conv6 of the convolutional neural network in FIG. 3 are stored. All feature maps of each convolutional layer may be stored, or some feature maps may be stored. The larger the number of feature maps stored, the higher the face matching accuracy can be expected, but since the capacity of feature maps stored in the feature map storage unit 205 increases, the number of feature maps is optimized depending on the required accuracy. may be selected.

S400において、顔特徴点位置推定部206は、特徴マップ算出部204で求めた複数の特徴マップから画像中の人物の顔特徴点位置を推定する。ここで、図4に抽出する顔特徴点の例を示す。推定する顔特徴点は図4における、LE(Left Eye)、RE(Right Eye)、N(Nose)で示す3点である。ここでは、左右の目の中心、および、鼻の頂点の3点の位置を推定するようにしたが、口など、その他の点の位置を推定するようにしてもよい。 In S400, the facial feature point position estimation unit 206 estimates the facial feature point positions of the person in the image from the plurality of feature maps obtained by the feature map calculation unit 204. Here, FIG. 4 shows an example of facial feature points to be extracted. The facial feature points to be estimated are three points indicated by LE (Left Eye), RE (Right Eye), and N (Nose) in FIG. 4. Here, the positions of three points, the centers of the left and right eyes and the apex of the nose, are estimated, but the positions of other points, such as the mouth, may be estimated.

再び図3を参照して顔特徴点位置推定部206を構成する畳み込み層Conv7~Conv10について説明する。畳み込み層Conv7~Conv10は逆畳み込みニューラルネットワークで構成する。逆畳み込みニューラルネットワークでは前段の畳み込み層から入力した特徴マップを縦横2倍のサイズに拡大した後、畳み込み演算を行うことで前段の畳み込み層から入力した特徴マップの縦横2倍のサイズ特徴マップを取得する。なお、顔特徴点位置推定部206の最終層である畳み込み層Conv10の出力チャネル数は3であり、3つの特徴マップは夫々、左目、右目、および、鼻の位置に高い出力値を得るように予め学習されている。ニューラルネットワークの学習方法については後述する。そして、図5(a)~図5(c)に顔画像を入力とした場合の3つの特徴マップの出力例を示す。但し、図5(a)~図5(c)では特徴マップの出力を元の顔画像に重畳している。図中、夫々左目(図5(a))、右目(図5(b))、および、鼻(図5(c))の位置に重畳した明暗の分布が左目、右目、および、鼻の位置推定結果であり、暗い位置ほど信頼度が高いことを示す。顔特徴点位置推定部206は、畳み込み層Conv10の夫々の特徴マップの値が最も高い位置を夫々左目、右目、および、鼻の推定位置として、その位置座標を出力する。 Referring again to FIG. 3, the convolutional layers Conv7 to Conv10 forming the facial feature point position estimating section 206 will be described. The convolutional layers Conv7 to Conv10 are composed of deconvolutional neural networks. In a deconvolutional neural network, the feature map input from the previous convolutional layer is enlarged to twice the size vertically and horizontally, and then a convolution operation is performed to obtain a feature map that is twice the size vertically and horizontally of the feature map input from the previous convolutional layer. do. Note that the number of output channels of the convolutional layer Conv10, which is the final layer of the facial feature point position estimation unit 206, is three, and the three feature maps are designed to obtain high output values at the positions of the left eye, right eye, and nose, respectively. It has been learned in advance. The learning method of the neural network will be described later. FIGS. 5(a) to 5(c) show output examples of three feature maps when a facial image is input. However, in FIGS. 5(a) to 5(c), the output of the feature map is superimposed on the original face image. In the figure, the distribution of brightness and darkness superimposed on the positions of the left eye (Fig. 5 (a)), right eye (Fig. 5 (b)), and nose (Fig. 5 (c)) are the positions of the left eye, right eye, and nose, respectively. This is an estimation result, indicating that the darker the position, the higher the reliability. The facial feature point position estimating unit 206 outputs the position coordinates of the positions where the value of each feature map of the convolutional layer Conv10 is the highest as the estimated positions of the left eye, right eye, and nose, respectively.

なお、図5の例では画像中に顔が一つの場合の出力例を示したが、画像中に複数人の顔がある場合も同様にして顔特徴点位置を推定することができる。 Note that although the example in FIG. 5 shows an output example when there is one face in the image, facial feature point positions can be similarly estimated even when there are multiple faces in the image.

以上、逆畳み込みニューラルネットワークが出力する特徴マップから顔特徴点位置を推定する方法を説明したが、特徴マップ算出部204が出力する特徴マップを全結合層に入力して直接顔特徴点の位置座標を回帰推定するようにしてもよい。 The method for estimating the facial feature point positions from the feature map output by the deconvolutional neural network has been described above, but the feature map output by the feature map calculation unit 204 is input to the fully connected layer and the position coordinates of the facial feature points are directly estimated. may be estimated by regression.

S500において、正規化処理部207は特徴マップ記憶部205に記憶された特徴マップから顔特徴点位置推定部206で求めた顔特徴点位置を用いて部分領域を切り出し、所定サイズの特徴マップに正規化する。特徴マップ正規化処理には非特許文献2に記載のRoI Pooling層を用いる。RoI Pooling層では入力した特徴マップの任意の矩形領域を所定サイズの矩形領域に投影し、出力する矩形領域内の要素毎に特徴マップの最大値を出力するようにする。入力する特徴マップの矩形領域は、顔特徴点位置推定部206で求めた顔特徴点位置を用いて切り出した部分領域である。 In S500, the normalization processing unit 207 cuts out a partial region from the feature map stored in the feature map storage unit 205 using the facial feature point positions determined by the facial feature point position estimation unit 206, and normalizes it into a feature map of a predetermined size. become The RoI Pooling layer described in Non-Patent Document 2 is used for the feature map normalization process. The RoI Pooling layer projects any rectangular area of the input feature map onto a rectangular area of a predetermined size, and outputs the maximum value of the feature map for each element within the output rectangular area. The rectangular region of the input feature map is a partial region cut out using the facial feature point positions determined by the facial feature point position estimation unit 206.

ここで、顔特徴点位置から部分領域を求める方法を説明する。顔特徴点位置推定部206で求めた左目LE、右目RE、鼻Nの位置座標を夫々(xL,yL)、(xR,yR)、(xN,yN)とすると、部分領域の中心座標(x,y)、幅W、高さHは、以下の(式1)で求められる。 Here, a method for determining partial regions from facial feature point positions will be explained. If the positional coordinates of the left eye LE, right eye RE, and nose N obtained by the facial feature point position estimation unit 206 are (xL, yL), (xR, yR), and (xN, yN), respectively, then the central coordinate of the partial region (x , y), width W, and height H are determined by the following (Equation 1).

Figure 0007386630000001
Figure 0007386630000001

なお、以上の説明では左目、右目、鼻の位置座標から部分領域を求めるようにしたが、口、耳、等のその他の顔特徴点位置を用いてもよい。その場合には顔特徴点位置推定部206において部分領域を求めるために必要な顔特徴点位置を推定できるようにしておく。 Note that in the above description, partial regions are determined from the positional coordinates of the left eye, right eye, and nose, but the positions of other facial feature points such as the mouth, ear, etc. may also be used. In that case, the facial feature point position estimating unit 206 is configured to be able to estimate the facial feature point positions necessary to find the partial region.

正規化処理部207は、以上説明した正規化処理を特徴マップ記憶部205に記憶された特徴マップの夫々に対して行い、処理結果を出力する。 The normalization processing unit 207 performs the normalization processing described above on each of the feature maps stored in the feature map storage unit 205, and outputs the processing results.

S600において、顔特徴抽出部208は正規化処理部207が出力する特徴マップから人物の顔特徴を抽出する。顔特徴抽出部208では、正規化処理部207が出力した複数の特徴マップを入力として全結合層により所定次元数の特徴量(顔特徴)を取得する。全結合層を複数層設けて顔特徴を抽出するようにしてもよい。出力する次元数は大きいほど高精度の照合が期待できるが、演算量も大きくなるので必要とする精度に応じて適切な次元数を選択してもよい。顔特徴抽出部208で求めた処理結果は、顔特徴記憶部209に記憶する。 In S600, the facial feature extraction unit 208 extracts the facial features of the person from the feature map output by the normalization processing unit 207. The facial feature extraction unit 208 receives the plurality of feature maps output by the normalization processing unit 207 as input and acquires feature quantities (facial features) of a predetermined number of dimensions using a fully connected layer. A plurality of fully connected layers may be provided to extract facial features. The larger the number of output dimensions, the more accurate matching can be expected, but the amount of calculation will also increase, so an appropriate number of dimensions may be selected depending on the required accuracy. The processing results obtained by the facial feature extraction unit 208 are stored in the facial feature storage unit 209.

S700において、顔特徴選択部211は顔特徴記憶部209に記憶された顔特徴から入力画像の顔の大きさに基づいて適切な顔特徴を選択する。顔特徴記憶部209には顔画像の解像度に応じて照合対象とする人物の複数の顔特徴が予め登録時に記憶されている。なお、顔特徴の登録時の処理については後述する。顔サイズ算出部210は、顔特徴点位置推定部206で求めた顔特徴点位置から顔の大きさを求める。顔の大きさSは、例えば、(式1)で求めた幅W、高さHを用いて、以下の(式2)で求められる。 In S700, the facial feature selection unit 211 selects appropriate facial features from the facial features stored in the facial feature storage unit 209 based on the size of the face in the input image. A plurality of facial features of a person to be matched are stored in advance in the facial feature storage unit 209 at the time of registration according to the resolution of the facial image. Note that the process when registering facial features will be described later. The face size calculation unit 210 calculates the size of the face from the facial feature point positions determined by the facial feature point position estimation unit 206. The size S of the face is obtained, for example, by the following (Formula 2) using the width W and height H obtained by (Formula 1).

Figure 0007386630000002
Figure 0007386630000002

顔特徴選択部211は顔の大きさSに基づいて顔特徴記憶部209に記憶された複数の顔特徴から適切な顔特徴を選択する。 The facial feature selection unit 211 selects an appropriate facial feature from the plurality of facial features stored in the facial feature storage unit 209 based on the size S of the face.

顔特徴の選択は、顔サイズ算出部210で算出した顔の大きさSと照合対象とする人物の顔特徴を登録する際に求めておいた複数の解像度の顔画像の顔の大きさとの照合によって行う。例えば、ある人物の顔画像を高低2つの解像度で登録し、登録時に夫々顔の大きさS1、S2を得たとすると、入力顔の大きさSとの差が小さい方の顔特徴を選択するようにする。登録顔の大きさが入力顔の大きさにより近い方の顔特徴を選択することは、顔特徴の抽出に寄与する周囲画素の受容野がより近い顔特徴を選択することを意味する。小さい顔から抽出した顔特徴の受容野は大きい顔から抽出した顔特徴の受容野に比べて広くなる。 The facial features are selected by comparing the face size S calculated by the face size calculation unit 210 with the face sizes of face images of multiple resolutions obtained when registering the facial features of the person to be matched. done by. For example, if a face image of a certain person is registered at two resolutions, high and low, and the face sizes S1 and S2 are obtained at the time of registration, the facial feature with the smaller difference from the input face size S is selected. Make it. Selecting a facial feature whose registered face size is closer to the input face size means selecting a facial feature whose receptive fields of surrounding pixels that contribute to facial feature extraction are closer. The receptive field for facial features extracted from small faces is wider than the receptive field for facial features extracted from large faces.

S800において、顔特徴照合部212は、顔特徴抽出部208で求めた顔特徴と顔特徴選択部211で選択した顔特徴とを照合し、顔特徴間の類似度を出力する。顔特徴間の類似度は、2つの顔特徴の差のL2ノルムを用いて算出する。類似度としては、この他にコサイン類似度やサポートベクターマシン等の機械学習で得たパラメータによる算出方法を用いてもよい。顔特徴照合部212では、顔特徴選択部211で入力顔の顔特徴の受容野により近い登録顔の顔特徴を選択するようにしたので、高精度な照合を行うことができる。 In S800, the facial feature matching unit 212 matches the facial features obtained by the facial feature extracting unit 208 and the facial features selected by the facial feature selecting unit 211, and outputs the degree of similarity between the facial features. The degree of similarity between facial features is calculated using the L 2 norm of the difference between two facial features. In addition to this, a calculation method using parameters obtained by machine learning, such as cosine similarity and support vector machine, may be used as the similarity. In the facial feature matching unit 212, since the facial feature selecting unit 211 selects the facial feature of the registered face that is closer to the receptive field of the facial feature of the input face, highly accurate matching can be performed.

顔特徴照合部212の出力が所定の閾値を超えた場合、画像処理装置の不図示の表示部は検索結果として顔画像を表示する。 If the output of the facial feature matching unit 212 exceeds a predetermined threshold, a display unit (not shown) of the image processing device displays the facial image as a search result.

S900において、顔特徴照合部212は、現在のフレームの画像について全ての顔画像に対して処理が終了したか否かを判定する。全ての顔画像に対して処理が終了していない場合、S500に戻る。すなわち、S400の顔特徴点位置の推定処理で複数人の顔の特徴点位置が取得されている場合、夫々の顔画像についてS500~S800の処理を繰り返すことになる。一方、全ての顔画像に対して処理が終了した場合、S1000へ進む。 In S900, the facial feature matching unit 212 determines whether processing has been completed for all facial images of the current frame. If the processing has not been completed for all face images, the process returns to S500. That is, if the feature point positions of multiple people's faces have been acquired in the facial feature point position estimation process of S400, the processes of S500 to S800 are repeated for each face image. On the other hand, if the processing has been completed for all face images, the process advances to S1000.

S1000において、顔特徴照合部212は、カメラ100で撮影した後続のフレームの画像が存在するか否かを判定する。後続のフレームの画像が存在する場合、S100に戻って処理を繰り返す。後続のフレームの画像が存在しない場合、一連の処理を終了する。 In S1000, the facial feature matching unit 212 determines whether there is an image of a subsequent frame captured by the camera 100. If an image of a subsequent frame exists, the process returns to S100 and repeats the process. If the image of the subsequent frame does not exist, the series of processing ends.

<顔画像登録処理>
次に、図6のフローチャートを参照して、本発明の一実施形態に係る画像処理装置が実施する顔特徴の登録処理の手順を説明する。S110において、画像取得部201は、不図示の入力部で指定した検索対象である登録顔画像を取得する。
<Face image registration processing>
Next, with reference to the flowchart of FIG. 6, a procedure for facial feature registration processing performed by the image processing apparatus according to an embodiment of the present invention will be described. In S110, the image acquisition unit 201 acquires a registered face image that is a search target specified by an input unit (not shown).

S210において、画像変倍部203は、画像取得部120で取得した画像データを所定サイズの画像に変倍する。変倍する画像サイズは所定のサイズを用いる。図4に示したような顔画像の登録を想定した場合、例えば、100×100画素、および、50×50画素程度の解像度になるように変倍率を設定しておく。変倍率を変えた画像の数が多いほど高精度の照合が期待できるが、登録時の演算量や登録する顔特徴の容量が多くなるので、必要とする精度に応じて変倍する画像の数を適切に選ぶのが良い。 In S210, the image scaling unit 203 scales the image data acquired by the image acquisition unit 120 into an image of a predetermined size. A predetermined size is used as the image size to be scaled. When it is assumed that a face image as shown in FIG. 4 is to be registered, the scaling factor is set to have a resolution of, for example, 100×100 pixels and 50×50 pixels. The higher the number of images with different scaling factors, the more accurate matching can be expected, but the amount of calculations during registration and the capacity of facial features to be registered will increase, so the number of images with different scaling factors depends on the required precision. It is better to choose appropriately.

S310において、特徴マップ算出部204は、画像変倍部203を介して取得した画像データを畳み込みニューラルネットワークに入力して処理を行うことによって、複数の特徴マップを算出する。特徴マップ算出部204は、図2のS300に示した照合時の処理と同様の処理を行う。 In S310, the feature map calculation unit 204 calculates a plurality of feature maps by inputting the image data acquired via the image scaling unit 203 to a convolutional neural network and processing the image data. The feature map calculation unit 204 performs the same process as the process at the time of matching shown in S300 of FIG.

S410において、顔特徴点位置推定部206は、特徴マップ算出部204で求めた複数の特徴マップから画像中の人物の顔特徴点位置を推定する。顔特徴点位置推定部206は、図2のS400に示した照合時の処理と同様の処理を行う。 In S410, the facial feature point position estimating unit 206 estimates the facial feature point position of the person in the image from the plurality of feature maps obtained by the feature map calculating unit 204. The facial feature point position estimation unit 206 performs the same process as the process at the time of matching shown in S400 of FIG.

S510において、正規化処理部207は、特徴マップ記憶部205に記憶された特徴マップから顔特徴点位置推定部206で求めた顔特徴点位置を用いて部分領域を切り出し、所定サイズの特徴マップに正規化する。正規化処理部207は、図2のS500に示した照合時の処理と同様の処理を行う。 In S510, the normalization processing unit 207 cuts out a partial region from the feature map stored in the feature map storage unit 205 using the facial feature point positions determined by the facial feature point position estimation unit 206, and converts the partial region into a feature map of a predetermined size. Normalize. The normalization processing unit 207 performs the same process as the process at the time of verification shown in S500 of FIG.

S610において、顔特徴抽出部208は、正規化処理部207が出力する特徴マップから人物の顔特徴を抽出する。顔特徴抽出部208は、図2のS600に示した照合時の処理と同様の処理を行う。顔特徴抽出部208で求めた処理結果は、顔特徴記憶部209に記憶する。このとき、顔サイズ算出部210は、幅W、高さHを用いて(式2)によって顔の大きさを求め、抽出した顔特徴と対応付けて顔特徴記憶部209に記憶しておく。 In S610, the facial feature extraction unit 208 extracts the facial features of the person from the feature map output by the normalization processing unit 207. The facial feature extraction unit 208 performs the same process as the process at the time of matching shown in S600 of FIG. The processing results obtained by the facial feature extraction unit 208 are stored in the facial feature storage unit 209. At this time, the face size calculation unit 210 calculates the size of the face using (Equation 2) using the width W and the height H, and stores it in the facial feature storage unit 209 in association with the extracted facial feature.

S710において、画像変倍部203は、全ての変倍する数の画像を処理したか否かを判定する。ここでは、S210で複数の変倍率の画像に対して処理を行う必要がある場合、全ての変倍率の画像について処理を行ったか否かを判定する。全ての画像について処理済である場合、一連の処理を終了する。一方、未処理の画像がある場合、S210に戻り、S210~S610の処理を変倍率毎に繰り返す。 In S710, the image scaling unit 203 determines whether all the images to be scaled have been processed. Here, if it is necessary to process images with a plurality of variable magnifications in S210, it is determined whether or not the images with all variable magnifications have been processed. If all images have been processed, the series of processing ends. On the other hand, if there is an unprocessed image, the process returns to S210 and the processes of S210 to S610 are repeated for each magnification ratio.

S110~S710の一連の処理によって、登録顔画像の複数の解像度に対する顔特徴を取得することができる。 Through a series of processes from S110 to S710, facial features for multiple resolutions of the registered facial image can be acquired.

<ニューラルネットワークの学習方法>
続いて、本実施形態の特徴マップ算出部204、顔特徴点位置推定部206、および、顔特徴抽出部208で用いるニューラルネットワークの学習方法について説明する。
<Neural network learning method>
Next, a learning method of the neural network used in the feature map calculation unit 204, facial feature point position estimation unit 206, and facial feature extraction unit 208 of this embodiment will be described.

まず、図3に示した特徴マップ算出部204、および、顔特徴点位置推定部206のニューラルネットワークの学習方法について説明する。予め学習に使う枚数分の顔画像データと画像中の顔特徴点位置の座標値とを準備しておく。学習サンプルの目安としては数万~数十万の数のサンプルを用いる。顔特徴点位置の座標値は顔画像の夫々について人手で指定しておく。次に、顔特徴点位置の座標値から顔特徴点の夫々について信頼度マップを取得する。信頼度マップは、図5に示した顔特徴点位置推定部206が出力する特徴マップと同様のマップであり、顔特徴点位置を中心にガウス分布に基づいて信頼度の値を割り当てたマップである。左目、右目、および、鼻の顔特徴点位置を推定する場合には、夫々に対応する3つの信頼度マップを作成する。次に、準備した顔画像と信頼度マップとを用いて、以下の(式3)に示す損失関数L1が最小となるニューラルネットワークのパラメータを求める。 First, a learning method of the neural networks of the feature map calculation unit 204 and the facial feature point position estimation unit 206 shown in FIG. 3 will be described. Facial image data for the number of images used for learning and coordinate values of facial feature point positions in the images are prepared in advance. As a guideline for training samples, tens of thousands to hundreds of thousands of samples are used. The coordinate values of the facial feature point positions are manually specified for each facial image. Next, a reliability map is obtained for each facial feature point from the coordinate values of the facial feature point position. The reliability map is a map similar to the feature map output by the facial feature point position estimation unit 206 shown in FIG. 5, and is a map in which reliability values are assigned based on a Gaussian distribution around the facial feature point positions. be. When estimating the facial feature point positions of the left eye, right eye, and nose, three reliability maps corresponding to each are created. Next, using the prepared face image and reliability map, the parameters of the neural network that minimize the loss function L1 shown in (Equation 3) below are determined.

Figure 0007386630000003
Figure 0007386630000003

但し、

Figure 0007386630000004
、および、
Figure 0007386630000005
は夫々ニューラルネットワークが推定した信頼度マップと学習データとして準備した信頼度マップである。
Figure 0007386630000006
はL2ノルムである。Σn、Σf、Σpは夫々学習データ、顔特徴点、信頼度マップの要素の総和を表す。パラメータの学習は確率的勾配降下法等を用いて行う。 however,
Figure 0007386630000004
,and,
Figure 0007386630000005
are the reliability map estimated by the neural network and the reliability map prepared as learning data, respectively.
Figure 0007386630000006
is the L2 norm. Σ n , Σ f , and Σ p represent the sum of learning data, facial feature points, and reliability map elements, respectively. Parameter learning is performed using stochastic gradient descent, etc.

顔特徴抽出部208で用いるニューラルネットワークの学習は、学習した特徴マップ算出部204の畳み込みニューラルネットワークが出力する特徴マップを用いて行う。予め学習に使用する枚数分の顔画像データと画像中の顔特徴点位置の座標値を準備しておく。学習サンプルの目安としては数万~数十万の数のサンプルを用いる。学習サンプルの顔画像には人物ID(個人識別番号)を対応付けておく。ニューラルネットワークの学習においては、任意の2つの顔画像のペアをサンプリングしておく。そして、夫々特徴マップ算出部204の畳み込みニューラルネットワークが出力する特徴マップを用いて、顔特徴抽出部208で用いるニューラルネットワークが出力する顔特徴を抽出しておく。顔特徴を抽出する際には、特徴マップ算出部204の畳み込みニューラルネットワークが出力する特徴マップを学習データとして準備した顔特徴点位置の座標値を用いて正規化処理部207によって正規化を行う。次に、準備した顔画像と顔特徴点位置、および、人物IDを用いて、以下の(式4)に示す損失関数L2が最小となるニューラルネットワークのパラメータを求める。 Learning of the neural network used by the facial feature extraction unit 208 is performed using the feature map output by the learned convolutional neural network of the feature map calculation unit 204. Facial image data for the number of images used for learning and coordinate values of facial feature point positions in the images are prepared in advance. As a guideline for training samples, tens of thousands to hundreds of thousands of samples are used. A person ID (personal identification number) is associated with the face image of the learning sample. In learning the neural network, a pair of arbitrary two face images is sampled. Then, using the feature maps output by the convolutional neural network of the feature map calculation unit 204, the facial features output by the neural network used by the facial feature extraction unit 208 are extracted. When extracting facial features, the normalization processing unit 207 performs normalization using the coordinate values of facial feature point positions prepared as learning data from the feature map output by the convolutional neural network of the feature map calculation unit 204. Next, using the prepared face image, facial feature point positions, and person ID, the parameters of the neural network that minimize the loss function L2 shown in (Equation 4) below are determined.

Figure 0007386630000007
Figure 0007386630000007

但し、dnは2つの顔画像から算出した顔特徴の差のL2ノルムである。ynは2つの顔画像が同一人物の場合1、他人の場合0の値を取る。marginは所定の値を取るパラメータである。Σnは学習データとしてサンプリングした2つの顔画像のペア数分の総和を表す。顔特徴抽出部208で用いるニューラルネットワークのパラメータの学習は確率的勾配降下法等を用いて行う。 However, d n is the L 2 norm of the difference in facial features calculated from two facial images. y n takes a value of 1 if the two face images are of the same person, and 0 if the two face images are of different people. Margin is a parameter that takes a predetermined value. Σ n represents the sum of the number of pairs of two face images sampled as learning data. Learning of the parameters of the neural network used in the facial feature extraction unit 208 is performed using stochastic gradient descent or the like.

以上説明したように、本実施形態では、顔画像からニューラルネットワークによって抽出した特徴マップから顔特徴点位置を推定し、推定した顔特徴点位置を用いて特徴マップから顔特徴を抽出する。これにより、アライメント等の前処理を必要とすることなく、精度良く顔の照合を行うことができる。 As described above, in this embodiment, facial feature point positions are estimated from a feature map extracted from a facial image by a neural network, and facial features are extracted from the feature map using the estimated facial feature point positions. As a result, faces can be matched with high accuracy without requiring preprocessing such as alignment.

また、予め登録人物の複数の異なる解像度の顔画像から夫々取得した顔特徴を登録しておき、顔画像同士の顔の大きさが近い顔特徴を選択して照合するようにしたので、更に高精度な照合を行うことができる。なお、登録人物の顔特徴が一つの解像度の顔画像から取得した場合であっても、入力顔画像から複数の異なる解像度の顔画像を得て取得した顔特徴と照合することで同様の効果を得ることができる。また、登録および入力顔画像の双方で複数の解像度の顔画像から夫々顔特徴を取得して照合しても、同様の効果が得られることは言うまでもない。 In addition, the facial features acquired from multiple facial images of registered people with different resolutions are registered in advance, and the facial features of the facial images that are similar in size are selected and compared, resulting in even higher performance. Accurate matching can be performed. Note that even if the facial features of a registered person are obtained from a facial image with one resolution, the same effect can be achieved by comparing the facial features obtained from multiple facial images with different resolutions from the input facial image. Obtainable. Furthermore, it goes without saying that the same effect can be obtained even if facial features are acquired from facial images of a plurality of resolutions for both registered and input facial images and compared.

また、カメラで撮影した際の画質を考慮して顔画像を変倍して顔の照合を行うようにしたので、更に高精度な照合を行うことができる。撮影パラメータを取得して適切な解像度の顔画像を照合に用いることで、より簡便に顔画像の画質を考慮した照合を行うことができる。 Further, since face matching is performed by changing the size of the face image in consideration of the image quality when photographed with a camera, it is possible to perform matching with even higher accuracy. By acquiring photographic parameters and using a face image with an appropriate resolution for matching, it is possible to more easily perform matching that takes into account the image quality of the face image.

なお、本実施形態では顔画像の照合を例に説明したが、人物の全身画像(つまり人物全体)の照合についても本発明を適用できる。例えば、畳み込みニューラルネットワークによって特徴マップを取得し、特徴マップから人物の関節位置等の特徴点位置を推定して、特徴点位置に基づいて切り出して正規化した特徴マップから人物の全身特徴を抽出して照合するようにすればよい。カメラ100で撮影した画像の解像度が低く、人物の顔が識別困難な場合には、全身特徴による照合が人物の検索に有用になる。また、本発明は人物の照合に限らず、その他のオブジェクト(例えば、動物、自動車など)の照合にも広く適用できることは言うまでもない。 Note that although this embodiment has been described using the comparison of face images as an example, the present invention can also be applied to the comparison of a whole body image of a person (that is, the entire person). For example, a feature map is obtained using a convolutional neural network, the positions of feature points such as joint positions of a person are estimated from the feature map, and the whole body features of the person are extracted from the feature map that is extracted and normalized based on the feature point positions. All you have to do is to check it. If the resolution of the image taken by the camera 100 is low and it is difficult to identify a person's face, matching based on body features becomes useful for searching for the person. Furthermore, it goes without saying that the present invention is widely applicable not only to the verification of people but also to the verification of other objects (for example, animals, cars, etc.).

(その他の実施形態)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
(Other embodiments)
The present invention provides a system or device with a program that implements one or more of the functions of the embodiments described above via a network or a storage medium, and one or more processors in the computer of the system or device reads and executes the program. This can also be achieved by processing. It can also be realized by a circuit (for example, ASIC) that realizes one or more functions.

発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。 The invention is not limited to the embodiments described above, and various changes and modifications can be made without departing from the spirit and scope of the invention. Therefore, the following claims are hereby appended to disclose the scope of the invention.

100:カメラ、200:画像処理装置、201:パラメータ取得部、202:画像取得部、203:画像変倍部、204:特徴マップ算出部、205:特徴マップ記憶部、206:顔特徴点位置推定部、207:正規化処理部、208:顔特徴抽出部、209:顔特徴記憶部、210:顔サイズ算出部、211:顔特徴選択部、212:顔特徴照合部 100: Camera, 200: Image processing device, 201: Parameter acquisition unit, 202: Image acquisition unit, 203: Image scaling unit, 204: Feature map calculation unit, 205: Feature map storage unit, 206: Facial feature point position estimation 207: Normalization processing unit, 208: Facial feature extraction unit, 209: Facial feature storage unit, 210: Face size calculation unit, 211: Facial feature selection unit, 212: Facial feature matching unit

Claims (10)

撮影装置が撮影することにより取得される画像からオブジェクトの照合を行う画像処理装置であって、
前記画像から畳み込みニューラルネットワークによって、画像の特徴点が検出された位置が示された複数の特徴マップを算出する特徴マップ算出手段と、
前記特徴マップ算出手段により算出され前記複数の特徴マップにおける前記画像中の前記オブジェクトの特徴点位置を推定する推定手段と、
前記推定手段により推定され前記特徴点位置を用いて、前記複数の特徴マップから部分領域を抽出し、かつ前記部分領域を所定サイズに正規化する正規化処理手段と、
前記正規化処理手段により正規化され特徴マップから、前記特徴点位置に対応する特徴を含む前記オブジェクトの特徴を抽出する抽出手段と、
前記抽出手段により抽出され特徴と予め記憶されている特徴とを照合する照合手段と、
を備えることを特徴とする画像処理装置。
An image processing device that matches objects from images obtained by photographing with a photographing device, the image processing device comprising:
Feature map calculation means for calculating a plurality of feature maps indicating positions where feature points of the image are detected from the image using a convolutional neural network;
Estimating means for estimating the feature point position of the object in the image in the plurality of feature maps calculated by the feature map calculating means;
normalization processing means for extracting partial regions from the plurality of feature maps using the feature point positions estimated by the estimation means, and normalizing the partial regions to a predetermined size;
Extracting means for extracting features of the object including features corresponding to the feature point positions from the feature map normalized by the normalization processing means;
collation means for collating the features extracted by the extraction means and the features stored in advance;
An image processing device comprising:
前記推定手段により推定され特徴点位置を用いて、オブジェクトの大きさを算出する算出手段と、
前記算出手段により算出されオブジェクトの大きさに基づいて、複数の特徴の中から照合に用いる前記オブジェクトの特徴を選択する選択手段と、をさらに備え、
前記照合手段は、前記選択手段により選択され特徴を用いて前記照合を行うことを特徴とする請求項1に記載の画像処理装置。
Calculating means for calculating the size of the object using the feature point positions estimated by the estimating means;
further comprising a selection means for selecting a feature of the object to be used for matching from a plurality of features based on the size of the object calculated by the calculation means,
2. The image processing apparatus according to claim 1, wherein the verification means performs the verification using the features selected by the selection means.
前記選択手段は、前記オブジェクトの大きさが類似する特徴を選択することを特徴とする請求項2に記載の画像処理装置。 3. The image processing apparatus according to claim 2, wherein the selection means selects features that are similar in size to the object. 前記選択手段は、複数の異なる解像度の画像からそれぞれ予め取得された複数の特徴の中から、前記照合に用いる前記オブジェクトの特徴を選択することを特徴とする請求項2又は3に記載の画像処理装置。 The image processing according to claim 2 or 3, wherein the selection means selects the feature of the object to be used for the matching from among a plurality of features obtained in advance from a plurality of images of different resolutions. Device. 前記撮影装置の撮影パラメータを取得する取得手段と、
前記取得手段により取得される撮影パラメータに基づいて、前記撮影装置により撮影された画像を変倍する変倍手段と、
をさらに備えることを特徴とする請求項1乃至4の何れか1項に記載の画像処理装置。
acquisition means for acquiring imaging parameters of the imaging device;
Magnification changing means for changing the size of the image photographed by the photographing device based on the photographing parameters acquired by the acquisition means;
The image processing device according to any one of claims 1 to 4, further comprising:
前記撮影パラメータは、前記撮影装置により撮影される画像の画質に影響するパラメータを含むことを特徴とする請求項5に記載の画像処理装置。 6. The image processing apparatus according to claim 5, wherein the photographing parameters include parameters that affect the quality of images photographed by the photographing device. 前記画像の画質を解析する解析手段と、
前記解析手段により解析される画質に基づいて、前記撮影装置が撮影することにより取得される画像を変倍する変倍手段と、
をさらに備えることを特徴とする請求項1乃至4の何れか1項に記載の画像処理装置。
analysis means for analyzing the image quality of the image;
A scaling unit for scaling an image obtained by photographing with the photographing device based on the image quality analyzed by the analyzing unit;
The image processing device according to any one of claims 1 to 4, further comprising:
前記オブジェクトは、人物全体又は人物の顔であることを特徴とする請求項1乃至7の何れか1項に記載の画像処理装置。 8. The image processing apparatus according to claim 1, wherein the object is an entire person or a face of a person. 撮影装置が撮影することにより取得される画像からオブジェクトの照合を行う画像処理装置の制御方法であって、
前記画像から畳み込みニューラルネットワークによって、画像の特徴点が検出された位置が示された複数の特徴マップを算出する特徴マップ算出工程と、
前記特徴マップ算出工程において算出され複数の特徴マップから前記画像中の前記オブジェクトの特徴点位置を推定する推定工程と、
前記推定工程において推定され特徴点位置を用いて、前記複数の特徴マップから部分領域を抽出し、かつ前記部分領域を所定サイズに正規化する正規化処理工程と、
前記正規化処理工程において正規化され特徴マップから、前記特徴点位置に対応する特徴を含む前記オブジェクトの特徴を抽出する抽出工程と、
前記抽出工程において抽出され特徴と予め記憶されている特徴とを照合する照合工程と、
を有することを特徴とする画像処理装置の制御方法。
A method of controlling an image processing device that performs object matching from an image obtained by photographing with a photographing device, the method comprising:
a feature map calculation step of calculating a plurality of feature maps indicating positions where feature points of the image are detected from the image by a convolutional neural network;
an estimation step of estimating the feature point position of the object in the image from the plurality of feature maps calculated in the feature map calculation step;
a normalization processing step of extracting partial regions from the plurality of feature maps using the feature point positions estimated in the estimation step, and normalizing the partial regions to a predetermined size;
an extraction step of extracting features of the object including features corresponding to the feature point positions from the feature map normalized in the normalization processing step;
a matching step of matching the features extracted in the extraction step with features stored in advance;
A method for controlling an image processing device, comprising:
コンピュータを、請求項1乃至8の何れか1項に記載の画像処理装置として機能させるためのプログラム。 A program for causing a computer to function as the image processing device according to any one of claims 1 to 8.
JP2019122098A 2019-06-28 2019-06-28 Image processing device, control method and program for the image processing device Active JP7386630B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019122098A JP7386630B2 (en) 2019-06-28 2019-06-28 Image processing device, control method and program for the image processing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019122098A JP7386630B2 (en) 2019-06-28 2019-06-28 Image processing device, control method and program for the image processing device

Publications (2)

Publication Number Publication Date
JP2021009493A JP2021009493A (en) 2021-01-28
JP7386630B2 true JP7386630B2 (en) 2023-11-27

Family

ID=74199983

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019122098A Active JP7386630B2 (en) 2019-06-28 2019-06-28 Image processing device, control method and program for the image processing device

Country Status (1)

Country Link
JP (1) JP7386630B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115661113B (en) * 2022-11-09 2023-05-09 浙江酷趣智能科技有限公司 Moisture-absorbing sweat-releasing fabric and preparation process thereof

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004334836A (en) 2003-04-14 2004-11-25 Fuji Photo Film Co Ltd Method of extracting image feature, image feature extracting program, imaging device, and image processing device
JP2006301970A (en) 2005-04-20 2006-11-02 Sharp Corp Authentication device, authentication system, authentication method, program, and computer readable recording medium having program recorded therein
JP2009053916A (en) 2007-08-27 2009-03-12 Sony Corp Face image processing apparatus, face image processing method, and computer program
JP2019096006A (en) 2017-11-21 2019-06-20 キヤノン株式会社 Information processing device, and information processing method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004334836A (en) 2003-04-14 2004-11-25 Fuji Photo Film Co Ltd Method of extracting image feature, image feature extracting program, imaging device, and image processing device
JP2006301970A (en) 2005-04-20 2006-11-02 Sharp Corp Authentication device, authentication system, authentication method, program, and computer readable recording medium having program recorded therein
JP2009053916A (en) 2007-08-27 2009-03-12 Sony Corp Face image processing apparatus, face image processing method, and computer program
JP2019096006A (en) 2017-11-21 2019-06-20 キヤノン株式会社 Information processing device, and information processing method

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Lezi WANG et al.,"A Coupled Encoder-Decoder Network for Joint Face Detection and Landmark Localization",2017 12th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2017),2017年05月,DOI: 10.1109/FG.2017.40

Also Published As

Publication number Publication date
JP2021009493A (en) 2021-01-28

Similar Documents

Publication Publication Date Title
US10872262B2 (en) Information processing apparatus and information processing method for detecting position of object
US11087169B2 (en) Image processing apparatus that identifies object and method therefor
US9104914B1 (en) Object detection with false positive filtering
US9053388B2 (en) Image processing apparatus and method, and computer-readable storage medium
JP4739355B2 (en) Fast object detection method using statistical template matching
JP6368709B2 (en) Method for generating 3D body data
JP2000306095A (en) Image collation/retrieval system
JP5366756B2 (en) Information processing apparatus and information processing method
JP2012530994A (en) Method and apparatus for half-face detection
WO2004095358A1 (en) Human figure contour outlining in images
US20090207260A1 (en) Image pickup apparatus and image pickup method
JP2021503139A (en) Image processing equipment, image processing method and image processing program
JP7354767B2 (en) Object tracking device and object tracking method
CN112101195A (en) Crowd density estimation method and device, computer equipment and storage medium
CN111784658B (en) Quality analysis method and system for face image
JP2004185611A (en) Method for extracting face position, program for making the face position extracting method executed by computer, and face position extracting apparatus
CN112991159B (en) Face illumination quality evaluation method, system, server and computer readable medium
JP7386630B2 (en) Image processing device, control method and program for the image processing device
CN110781712A (en) Human head space positioning method based on human face detection and recognition
CN114757984A (en) Scene depth estimation method and device of light field camera
JP2009258770A (en) Image processing method, image processor, image processing program, and imaging device
JP7253967B2 (en) Object matching device, object matching system, object matching method, and computer program
JP2017005582A (en) Image processing system, image processing method and program
CN115720664A (en) Object position estimating apparatus, object position estimating method, and recording medium
JP7103443B2 (en) Information processing equipment, information processing methods, and programs

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20210103

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210113

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220616

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230414

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230421

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230616

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230707

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230831

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231016

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231114

R151 Written notification of patent or utility model registration

Ref document number: 7386630

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151