JP2021051376A - Image processing apparatus, image processing method, and program - Google Patents

Image processing apparatus, image processing method, and program Download PDF

Info

Publication number
JP2021051376A
JP2021051376A JP2019172192A JP2019172192A JP2021051376A JP 2021051376 A JP2021051376 A JP 2021051376A JP 2019172192 A JP2019172192 A JP 2019172192A JP 2019172192 A JP2019172192 A JP 2019172192A JP 2021051376 A JP2021051376 A JP 2021051376A
Authority
JP
Japan
Prior art keywords
image
feature
feature point
reliability
person
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019172192A
Other languages
Japanese (ja)
Other versions
JP7479809B2 (en
Inventor
内山 寛之
Hiroyuki Uchiyama
寛之 内山
東條 洋
Hiroshi Tojo
洋 東條
山本 真司
Shinji Yamamoto
真司 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2019172192A priority Critical patent/JP7479809B2/en
Priority to PCT/JP2020/034093 priority patent/WO2021054217A1/en
Publication of JP2021051376A publication Critical patent/JP2021051376A/en
Priority to US17/695,622 priority patent/US20220207904A1/en
Application granted granted Critical
Publication of JP7479809B2 publication Critical patent/JP7479809B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

To enable appropriate collation of a person even when the person is partially masked by another object.SOLUTION: An image processing apparatus includes: detection means of detecting a feature point group in association with regions of an object from an image obtained by imaging the object having a plurality of regions; acquisition means of acquiring reliability which indicates a degree of probability of the region corresponding to the feature point, for each of the detected feature points; extraction means of extracting feature quantity for identifying an object for each of the regions corresponding to the feature points, from the image; and recognition means of recognizing the object by comparing the extracted feature quantity with feature quantity of the object registered in advance, in accordance with the reliability acquired for each of the feature points.SELECTED DRAWING: Figure 1

Description

本発明は、画像における人物の検出に関する。 The present invention relates to the detection of a person in an image.

監視カメラシステムにおいて、カメラ画像から人物などの物体を検出して、他のカメラで検出された物体と同一であるか否かを判定する技術がある。同定対象の物体が人物である場合、まず、カメラ画像中から物体を検出する。次に、その物体の領域から物体固有の特徴を表す照合特徴を抽出する。そして、異なるカメラで検出された物体の照合特徴を比較することで、これらの物体が同一であるか否かを識別する。 In a surveillance camera system, there is a technique of detecting an object such as a person from a camera image and determining whether or not it is the same as an object detected by another camera. When the object to be identified is a person, the object is first detected in the camera image. Next, collation features representing the features unique to the object are extracted from the area of the object. Then, by comparing the matching features of the objects detected by different cameras, it is possible to identify whether or not these objects are the same.

非特許文献1では、人物の画像から関節点を抽出し、さらにそれぞれの関節毎に当該関節近傍の画像特徴を抽出する。関節毎に抽出された画像特徴を基に全身の照合特徴を生成する。 In Non-Patent Document 1, joint points are extracted from an image of a person, and image features in the vicinity of the joints are extracted for each joint. Based on the image features extracted for each joint, the matching features of the whole body are generated.

C. Su et al.“Pose‐driven Deep Convolutional Model for Person Re‐identification,” IEEE,2017C. Su et al. “Pose-driven Deep Convolutional Model for Person Re-identification,” IEEE, 2017

非特許文献1の手法では、人物の一部が遮蔽されて見えなくなっている場合、遮蔽された関節の周辺領域から抽出された画像特徴は人物照合に用いる画像特徴が含まれていない可能性が高い。そのため、非特許文献1の手法では、一部が遮蔽された人物の照合は失敗する可能性が高い。本発明は上記課題に鑑みてなされたものであり、人物の一部が他の物体に遮蔽された状況においても、適切に人物の照合が行えるようにすることを目的とする。 In the method of Non-Patent Document 1, when a part of a person is shielded and cannot be seen, the image feature extracted from the peripheral area of the shielded joint may not include the image feature used for person matching. high. Therefore, in the method of Non-Patent Document 1, there is a high possibility that the collation of a partially shielded person will fail. The present invention has been made in view of the above problems, and an object of the present invention is to enable appropriate matching of a person even in a situation where a part of the person is shielded by another object.

本発明の目的を達成するために、複数の部位を有する物体を撮像した画像から、該物体の部位に対応させて特徴点群を検出する検出手段と、前記検出された特徴点毎に、該特徴点に対応する前記部位である確からしさを示す信頼度を取得する取得手段と、前記画像から前記特徴点が対応する部位毎に物体を識別するための前記特徴量を抽出する抽出手段と、前記特徴点毎に前記取得された信頼度に応じて、抽出された前記特徴量を、予め登録された前記物体の特徴量と比較することで、前記物体を認識する認識手段と、を有することを特徴とする。 In order to achieve the object of the present invention, a detection means for detecting a feature point group corresponding to a part of the object from an image obtained by capturing an object having a plurality of parts, and each of the detected feature points. An acquisition means for acquiring the reliability indicating the certainty of the part corresponding to the feature point, and an extraction means for extracting the feature amount for identifying an object for each part corresponding to the feature point from the image. Each feature point has a recognition means for recognizing the object by comparing the extracted feature amount with the feature amount of the object registered in advance according to the acquired reliability. It is characterized by.

本発明によれば、人物の一部が他の物体に遮蔽された状況においても、適切に人物の照合が行える。 According to the present invention, even in a situation where a part of a person is shielded by another object, the person can be appropriately collated.

実施形態画像表示装置の機能構成例を示すブロック図Block diagram showing a functional configuration example of the image display device of the embodiment 画像特徴決定部の機能構成例を示すブロック図Block diagram showing a functional configuration example of the image feature determination unit ハードウェア構成例を示すブロック図Block diagram showing a hardware configuration example 実施形態画像処理装置が実行する処理の流れを示すフローチャートEmbodiment A flowchart showing the flow of processing executed by the image processing apparatus. 画像処理装置が実行する処理の流れを示すフローチャートFlowchart showing the flow of processing executed by the image processing device 画像処理装置が実行する処理の流れを示すフローチャートFlowchart showing the flow of processing executed by the image processing device 腰の特徴点の補正の一例を説明する図The figure explaining an example of the correction of the characteristic point of the waist 足の特徴点の補正の一例を説明する図The figure explaining an example of correction of a feature point of a foot 物体の領域を決定する処理を説明する図The figure explaining the process of determining the area of an object 画像処理装置が実行する処理の流れを示すフローチャートFlowchart showing the flow of processing executed by the image processing device 部分画像領域外の特徴点を補正する処理を説明する図The figure explaining the process of correcting a feature point outside a partial image area. ニューラルネットワークの構成例を説明する図The figure explaining the configuration example of the neural network ニューラルネットワークに学習させる処理の流れを示すフローチャートFlowchart showing the flow of processing to be trained by the neural network 画面表示例を説明する図The figure explaining the screen display example 顔における部位の例を説明する図The figure explaining the example of the part in a face サブネットワークの構成例を説明する図The figure explaining the configuration example of the sub-network 画像統合サブネットワークの構成例を説明する図The figure explaining the configuration example of the image integration subnetwork 人物の遮蔽部分の一例を説明する図The figure explaining an example of the shielding part of a person

以下、本発明の実施形態について説明する。 Hereinafter, embodiments of the present invention will be described.

<実施形態1>
図3に、本実施形態のハードウェア構成例を示す。図3で、301はCCD、CMOS、等で構成され、被写体像を光から電気信号に変換するための撮像素子(撮像手段)である。302は撮像素子301から得られた被写体像に関する時系列信号を処理し、デジタル信号に変換する信号処理回路である。301と302はカメラとしてバスに接続されている。303はCPUであり、ROM304に格納されている制御プログラムを実行することにより、本装置全体の制御を行う。304はROMであり、CPU303が実行する制御プログラムや各種パラメータデータを格納する。制御プログラムは、CPU303で実行されることにより、後述するフローチャートに示す各処理を実行するための各種手段として、当該装置を機能させる。305はRAMであり、画像や各種情報を記憶する。また、RAM305は、CPU303のワークエリアやデータの一時待避領域として機能する。306はディスプレイである。307はマウス等のポインティングデバイスや、キーボード等の入力装置であり、ユーザからの入力を受け付ける。308はネットワークやバス等の通信装置であり、他の通信装置とデータや制御信号を通信する。なお、本実施形態では、後述するフローチャートの各ステップに対応する処理を、CPU303を用いてソフトウェアで実現することとするが、その処理の一部または全部を電子回路などのハードウェアで実現するようにしても構わない。また、本発明の画像表示装置は、撮像素子301や信号処理回路302を省いて汎用PCを用いて実現してもよいし、専用装置として実現するようにしても構わない。また、ネットワークまたは各種記憶媒体を介して取得したソフトウェア(プログラム)をパーソナルコンピュータ等の処理装置(CPU,プロセッサ)にて実行してもよい。
<Embodiment 1>
FIG. 3 shows an example of the hardware configuration of the present embodiment. In FIG. 3, 301 is an image pickup device (imaging means) for converting a subject image from light into an electric signal, which is composed of a CCD, CMOS, or the like. Reference numeral 302 denotes a signal processing circuit that processes a time-series signal related to a subject image obtained from the image sensor 301 and converts it into a digital signal. 301 and 302 are connected to the bus as cameras. Reference numeral 303 denotes a CPU, which controls the entire apparatus by executing a control program stored in the ROM 304. Reference numeral 304 denotes a ROM, which stores a control program executed by the CPU 303 and various parameter data. When the control program is executed by the CPU 303, the device is made to function as various means for executing each process shown in the flowchart described later. Reference numeral 305 is RAM, which stores images and various information. Further, the RAM 305 functions as a work area of the CPU 303 and a temporary save area for data. Reference numeral 306 is a display. Reference numeral 307 is a pointing device such as a mouse or an input device such as a keyboard, which receives input from a user. Reference numeral 308 is a communication device such as a network or a bus, which communicates data and control signals with other communication devices. In the present embodiment, the processing corresponding to each step of the flowchart described later is realized by software using the CPU 303, but a part or all of the processing is realized by hardware such as an electronic circuit. It doesn't matter. Further, the image display device of the present invention may be realized by using a general-purpose PC by omitting the image pickup element 301 and the signal processing circuit 302, or may be realized as a dedicated device. Further, software (program) acquired via a network or various storage media may be executed by a processing device (CPU, processor) such as a personal computer.

実施形態の説明に先立って用語について説明する。特徴点とは、複数の部位から構成される物体の構成単位と対応づけられた点である。以下の説明において、特徴点は、具体的には画像における人物の関節の位置(2次元座標)とする。信頼度は、検出された前記特徴点毎に算出され、その特徴点に対応する部位が画像上の存在する尤度を示す0から1の実数である。例えば、特徴点として人物の頭の位置を検出するとき、画像においてある人物の頭部がはっきりと映っていれば信頼度は大きくなる。逆に、頭部が霞んで映っている場合や、何か他の物体に頭部が遮蔽されている場合は、頭部に対応する特徴点の信頼度は小さくなる。つまり、該特徴点が示す位置が該特徴点に対応する前記部位である確からしさを示す。本実施形態は監視対象の物体として人物を例に説明するが、これに限定せず、動物や車など他の物体でも構わない。すなわち、複数の部位からなる構造物であれば適用可能である。本実施形態では、人物の全身の特徴量を用いて人物を同定する。一方、顔を用いて人物の同定を行ってもよく、この場合、特に「顔認証」、「顔照合」、「顔検索」などの名称で知られている。 Prior to the description of the embodiment, the terms will be described. A feature point is a point associated with a structural unit of an object composed of a plurality of parts. In the following description, the feature points are specifically the positions (two-dimensional coordinates) of the joints of a person in the image. The reliability is calculated for each of the detected feature points, and is a real number from 0 to 1 indicating the likelihood that the portion corresponding to the feature point exists on the image. For example, when detecting the position of a person's head as a feature point, the reliability increases if the person's head is clearly shown in the image. Conversely, if the head appears hazy, or if the head is shielded by some other object, the reliability of the feature points corresponding to the head is reduced. That is, it indicates the certainty that the position indicated by the feature point is the portion corresponding to the feature point. The present embodiment will be described by taking a person as an example of the object to be monitored, but the present embodiment is not limited to this, and other objects such as animals and cars may be used. That is, any structure composed of a plurality of parts can be applied. In this embodiment, a person is identified by using the feature amount of the whole body of the person. On the other hand, a person may be identified using a face, and in this case, it is known by names such as "face recognition", "face matching", and "face search".

本実施形態の構成を図1に示す。本実施形態は、画像取得部101、第1の検出部102、特徴群部103、第2の検出部104、特徴点記憶部105、領域決定部106、画像抽出部107、画像特徴抽出部108、認識部109、表示部110、学習部111、物体記憶部112で構成される。 The configuration of this embodiment is shown in FIG. In this embodiment, the image acquisition unit 101, the first detection unit 102, the feature group unit 103, the second detection unit 104, the feature point storage unit 105, the area determination unit 106, the image extraction unit 107, and the image feature extraction unit 108 , A recognition unit 109, a display unit 110, a learning unit 111, and an object storage unit 112.

画像取得部101はカメラから複数の部位を有する物体を撮像した画像フレームを取得する。第1の検出部102は画像フレームから物体の特徴点の位置とその信頼度を検出する。画像における人物の関節の位置とその信頼度を検出する方法の詳細は後述する。特徴群決定部103は、第1の検出部102で検出された特徴点の位置と信頼度に基づいて、信頼度が所定の値より小さい特徴点を検出するための特徴群を決定する。この特徴点群の組み合わせは事前に用意されており、この中から特徴点の信頼度の条件に応じて決定する。この具体的な方法は後述する。第2の検出部104は、第1の検出部によって検出された特徴点のうち所定の特徴点の信頼度が所定の値より小さい場合は、第1の検出手段とは異なる方法で、画像から前記所定の特徴点を検出する。特徴点の検出は、特徴点間の相対位置関係を用いて行う。具体的な方法は後述する。特徴点記憶部105は検出された特徴点を記憶する。領域決定部106は特徴点から物体が存在する領域を決定する。検出された特徴点のうち、事前に決められた特定の特徴点の組み合わせを用いて、画像特徴抽出の対象の物体が存在する領域を決定する。画像抽出部107は画像フレームから、領域決定部で決定された領域を切り出す。画像特徴抽出部108は切り出された部分画像からニューラルネットワークなどを用いて人物を識別するための画像特徴を抽出する。認識部109は抽出された画像特徴を用いて画像認識を行う。本実施形態では画像認識として人物の同定を行う。具体的には、抽出した画像特徴同士を比較することで、この特徴量が同一人物のものか否かを判別する。詳細は後述する。表示部110は画像認識の結果を画面に表示する。学習部111は画像特徴抽出部108で画像特徴抽出に用いるニューラルネットワークなどを学習する。物体記憶手段112は認識部109で使用する物体の情報が記憶されている。 The image acquisition unit 101 acquires an image frame obtained by capturing an image of an object having a plurality of parts from a camera. The first detection unit 102 detects the position of the feature point of the object and its reliability from the image frame. Details of the method for detecting the position of a person's joint in an image and its reliability will be described later. The feature group determination unit 103 determines a feature group for detecting feature points whose reliability is less than a predetermined value, based on the position and reliability of the feature points detected by the first detection unit 102. The combination of the feature point groups is prepared in advance, and is determined from among them according to the condition of the reliability of the feature points. The specific method will be described later. When the reliability of the predetermined feature points among the feature points detected by the first detection unit is smaller than the predetermined value, the second detection unit 104 uses a method different from that of the first detection means from the image. The predetermined feature point is detected. The feature points are detected by using the relative positional relationship between the feature points. The specific method will be described later. The feature point storage unit 105 stores the detected feature points. The area determination unit 106 determines the area where the object exists from the feature points. Among the detected feature points, a region in which the object to be extracted for image feature exists is determined by using a combination of specific feature points determined in advance. The image extraction unit 107 cuts out a region determined by the region determination unit from the image frame. The image feature extraction unit 108 extracts an image feature for identifying a person from the cut out partial image by using a neural network or the like. The recognition unit 109 performs image recognition using the extracted image features. In this embodiment, a person is identified as image recognition. Specifically, by comparing the extracted image features with each other, it is determined whether or not the feature amounts belong to the same person. Details will be described later. The display unit 110 displays the result of image recognition on the screen. The learning unit 111 learns a neural network or the like used for image feature extraction by the image feature extraction unit 108. The object storage means 112 stores information on the object used by the recognition unit 109.

図1の画像特徴抽出部108の構成例を図2に示す。画像特徴抽出部108は領域外特徴点補正部202、物体部位抽出部203、中間画像特徴抽出部204、信頼度変換部205、特徴統合部206、画像特徴出力部207で構成される。 A configuration example of the image feature extraction unit 108 of FIG. 1 is shown in FIG. The image feature extraction unit 108 is composed of an out-of-area feature point correction unit 202, an object part extraction unit 203, an intermediate image feature extraction unit 204, a reliability conversion unit 205, a feature integration unit 206, and an image feature output unit 207.

領域外特徴点補正部202は図1の特徴点抽出部102で抽出した特徴点のうち、部分画像領域外の特徴点を補正する。物体部位抽出部203は画像から物体の部位(パーツ)を抽出する。中間画像特徴抽出部204は画像と物体の部位から第1の画像特徴(中間画像特徴)を抽出する。信頼度変換部205は特徴点抽出部102で抽出した特徴点の信頼度に変換処理を適用する。特徴統合部206は中間画像特徴抽出部204の出力と信頼度変換部205の出力を統合する。画像特徴出力部207は特徴統合部206の出力から画像特徴を生成する。 The out-of-area feature point correction unit 202 corrects the feature points outside the partial image area among the feature points extracted by the feature point extraction unit 102 in FIG. The object part extraction unit 203 extracts an object part (part) from the image. The intermediate image feature extraction unit 204 extracts the first image feature (intermediate image feature) from the image and the part of the object. The reliability conversion unit 205 applies the conversion process to the reliability of the feature points extracted by the feature point extraction unit 102. The feature integration unit 206 integrates the output of the intermediate image feature extraction unit 204 and the output of the reliability conversion unit 205. The image feature output unit 207 generates an image feature from the output of the feature integration unit 206.

本画像処理装置の動作を図4のフローチャートで説明する。図4のフローチャートに示した処理は、コンピュータである図3のCPU303によりROM304に格納されているコンピュータプログラムに従って実行される。 The operation of this image processing apparatus will be described with reference to the flowchart of FIG. The process shown in the flowchart of FIG. 4 is executed by the CPU 303 of FIG. 3, which is a computer, according to a computer program stored in the ROM 304.

ステップ401はカメラから画像フレームを取得する。本ステップは図1の画像取得部101の動作に該当する。 Step 401 acquires an image frame from the camera. This step corresponds to the operation of the image acquisition unit 101 of FIG.

ステップ402は、ステップ401で取得した複数の部位を有する物体を撮像した画像から、該物体の部位に対応づけられた複数の特徴点を検出する(第1の検出方法)。本ステップは図1の第1の検出部102の動作に該当する。また、ステップ402では画像フレームを入力とし、画像中に存在する人物の複数の特徴点とそれらの信頼度を抽出する。検出された前記特徴点毎に、該特徴点が前記画像に映っている確からしさを示す信頼度を取得する。画像処理対象が人物であれば、特徴点として人体の関節位置を用いることができる。本ステップで検出する特徴点は、頭頂、首、腰、右足首、左足首の5点である。特徴点の検出には、Convolutional Pose Machinesを使用する。(Shih−En Wei et al.,“Convolutional Pose Machines,”IEEE,2016.)。この方法では、学習済みモデル(ニューラルネットワーク)を用いて、それぞれの関節位置が画像上のどこに存在しているかを示す信頼度マップを算出する。信頼度マップは2次元のマップであり、関節点の数をPとすると、P+1枚存在する(1枚は背景に対応するマップ)。ある関節点の信頼度マップにおいて、信頼度の大きい位置をその関節点が存在する位置とみなす。信頼度は、その特徴点の存在する尤度を示す0から1の実数である。1に近いほど関節点が存在する確度が高い。他の物体に遮蔽されている関節点は、人物でない物体上から抽出されるため、人物関節としての尤もらしさが低下する。したがって、他の物体に遮蔽されていない関節に比べ、関節の位置の信頼度が低くなる。一方、他の物体に隠されていない関節は、人物上から良好に抽出されるため、関節の信頼度が高くなる。 Step 402 detects a plurality of feature points associated with the parts of the object from the image of the object having the plurality of parts acquired in step 401 (first detection method). This step corresponds to the operation of the first detection unit 102 in FIG. Further, in step 402, the image frame is input, and a plurality of feature points of the person existing in the image and their reliabilitys are extracted. For each of the detected feature points, the reliability indicating the certainty that the feature points are reflected in the image is acquired. If the image processing target is a person, the joint position of the human body can be used as a feature point. The five feature points detected in this step are the crown, neck, hips, right ankle, and left ankle. Convolutional Pose Machines are used to detect feature points. (Shih-En Wei et al., "Convolutional Pose Machines," IEEE, 2016.). In this method, a trained model (neural network) is used to calculate a reliability map showing where each joint position is located on the image. The reliability map is a two-dimensional map, and if the number of joint points is P, there are P + 1 (one is a map corresponding to the background). In the reliability map of a certain joint point, the position with high reliability is regarded as the position where the joint point exists. The reliability is a real number from 0 to 1 indicating the likelihood that the feature point exists. The closer it is to 1, the higher the probability that the joint point exists. Since the joint points shielded by other objects are extracted from the non-human object, the plausibility as a human joint is reduced. Therefore, the reliability of the joint position is lower than that of a joint that is not shielded by other objects. On the other hand, joints that are not hidden by other objects are well extracted from the person, so that the reliability of the joints is high.

なお、物体の特徴点とその信頼度の検出方法は、Convolutional Pose Machines以外の方法を用いても構わない。例えば、ルールベースの方法を用いて、人体の各関節点について抽出した画像特徴を用いて各関節点を特定しても良い。他、画像から頭部の画像特徴を抽出し、頭部が抽出された位置から胴体の位置を推定しても良い。また、本実施形態では特徴点として人体の関節点を用いるが、画像処理対象が顔ならば、顔特徴点を用いることができる。顔特徴点として、目、眉毛、鼻、口、耳などのパーツの中心や端点、輪郭線上の点、顔全体形状の輪郭線上の点などを用いることができる。 As a method for detecting the feature points of the object and its reliability, a method other than Convolutional Pose Machines may be used. For example, a rule-based method may be used to identify each breakpoint using image features extracted for each breakpoint of the human body. Alternatively, the image feature of the head may be extracted from the image, and the position of the body may be estimated from the position where the head is extracted. Further, in the present embodiment, the joint points of the human body are used as the feature points, but if the image processing target is a face, the face feature points can be used. As the facial feature points, the center and end points of parts such as eyes, eyebrows, nose, mouth, and ears, points on the contour line, points on the contour line of the entire face shape, and the like can be used.

ステップ403は、第2の検出方法に用いる特徴点群を決定する。ステップ403は図1の特徴群決定部103の動作に該当する。ステップ403で決定された特徴点群は、第2の検出方法に用いる。特徴点群は組み合わせのパターンが複数用意されており、この中から特徴点の信頼度の条件に応じて選択し、決定する。後のステップ404での第2の検出方法で使用される。特徴点群には、補正後の位置を決定するために用いる特徴点(ここでは、頭、首または腰)が含まれる。本実施形態において、所定の特徴点として補正の対象となる特徴点は、腰、右足首、左足首である。右足首と左足首の補正は同じ手順で行うため、右足首の補正のみを取り上げて説明する。以下、処理対象の片側の足首を単に「足首」と表記する。 Step 403 determines a feature point cloud to be used in the second detection method. Step 403 corresponds to the operation of the feature group determination unit 103 of FIG. The feature point group determined in step 403 is used in the second detection method. A plurality of combinations of patterns are prepared for the feature point group, and the feature point group is selected and determined according to the reliability condition of the feature point. It will be used in the second detection method in a later step 404. The feature point group includes feature points (here, head, neck or waist) used to determine the corrected position. In the present embodiment, the feature points to be corrected as predetermined feature points are the waist, the right ankle, and the left ankle. Since the correction of the right ankle and the correction of the left ankle are performed in the same procedure, only the correction of the right ankle will be described. Hereinafter, the ankle on one side to be processed is simply referred to as "ankle".

ステップ403の動作を図5のフローチャートで説明する。後述するように、補正に用いる特徴点群の候補として、特徴点群A1、A2、A3、B1、B2、B3の6種類が事前に用意されている。腰の補正に関する特徴点群A1、A2、A3から1つと、第2の検出方法における足首の検出に関する特徴点群B1、B2、B3から1つを条件に応じて決定する。 The operation of step 403 will be described with reference to the flowchart of FIG. As will be described later, six types of feature point groups A1, A2, A3, B1, B2, and B3 are prepared in advance as candidates for the feature point group used for correction. One of the feature point groups A1, A2, and A3 related to the correction of the waist and one of the feature point groups B1, B2, and B3 related to the detection of the ankle in the second detection method are determined according to the conditions.

詳細は後述するが、特徴点群A1は空集合であり、第1の検出部の検出結果をそのまま採用する。特徴点群A2を用いて、現在フレームでの頭と首の位置から、腰の位置を検出する。特徴点群A3を用いて、過去フレームでの頭と腰の位置から現在の腰の位置を検出する。特徴点群B1は空集合であり、第1の検出部の検出結果をそのまま採用する。特徴点群B2を用いて、現在フレームでの首と腰の位置から、足首の位置を検出する。特徴点群B3を用いて、過去フレームでの首と足首の位置から現在のフレームでの足首の位置を検出する。 Although the details will be described later, the feature point group A1 is an empty set, and the detection result of the first detection unit is adopted as it is. Using the feature point group A2, the position of the waist is detected from the positions of the head and neck on the current frame. Using the feature point group A3, the current waist position is detected from the head and waist positions in the past frame. The feature point group B1 is an empty set, and the detection result of the first detection unit is adopted as it is. Using the feature point group B2, the position of the ankle is detected from the positions of the neck and waist on the current frame. Using the feature point group B3, the position of the ankle in the current frame is detected from the positions of the neck and ankle in the past frame.

図5のステップ501は、ステップ402で決定した現在のフレームでの腰の信頼度が事前に定められたしきい値以上か否かを評価する。しきい値以上だったらステップ503に進み、そうでなかったらステップ502に進む。 Step 501 of FIG. 5 evaluates whether or not the reliability of the waist in the current frame determined in step 402 is equal to or higher than a predetermined threshold value. If it is above the threshold, the process proceeds to step 503, and if not, the process proceeds to step 502.

ステップ502では、特徴点記憶部105で記憶された過去のフレームにおける腰の信頼度がしきい値以上か否かを評価する。しきい値以上だったらステップ505に進み、そうでなかったら504に進む。過去のフレームとは、図4のフローチャートの繰り返しループにおいて、1つ前の繰り返しループのステップ401で取得された画像フレームである。ただし、特徴点記憶部105に過去のフレームにおける特徴点が記憶されていない場合、すなわち初めて図4のステップ403を実行する場合は、ステップ504に進む。 In step 502, it is evaluated whether or not the reliability of the waist in the past frame stored in the feature point storage unit 105 is equal to or higher than the threshold value. If it is above the threshold, the process proceeds to step 505, and if not, the process proceeds to 504. The past frame is an image frame acquired in step 401 of the previous repeating loop in the repeating loop of the flowchart of FIG. However, when the feature points in the past frame are not stored in the feature point storage unit 105, that is, when step 403 of FIG. 4 is executed for the first time, the process proceeds to step 504.

ステップ503では、第2の検出方法に用いる特徴点群として特徴点群A1を決定し、ステップ506に進む。特徴点群A1が決定される場合は、現在フレームの腰の特徴点が信頼できる場合であり、腰の特徴点を以降の処理で検出し直す必要がない。 In step 503, the feature point group A1 is determined as the feature point group used in the second detection method, and the process proceeds to step 506. When the feature point group A1 is determined, it is a case where the waist feature points of the current frame are reliable, and it is not necessary to detect the waist feature points again in the subsequent processing.

ステップ504では、第2の検出方法に用いる特徴点群として特徴点群A2を決定し、ステップ506に進む。特徴点群A2が決定される場合は、現在のフレームと過去のフレームの両方の腰の関節点が信頼できず、現在のフレームの頭と首の位置から現在のフレームの腰の位置を以降の処理で検出する。 In step 504, the feature point group A2 is determined as the feature point group used in the second detection method, and the process proceeds to step 506. When the feature point group A2 is determined, the hip joint points of both the current frame and the past frame are unreliable, and the position of the waist of the current frame is changed from the position of the head and neck of the current frame. Detect by processing.

ステップ505では、補正に用いる特徴点群として特徴点群A3を選択し、ステップ506に進む。特徴点群A3が選択される場合は現在のフレームの腰の特徴点が信頼できないが、過去のフレームの腰の特徴点は信頼できる場合であり、過去のフレームの頭と腰の位置から現在の腰の位置を以降の処理で補正する。 In step 505, the feature point group A3 is selected as the feature point group used for the correction, and the process proceeds to step 506. When the feature point group A3 is selected, the waist feature points of the current frame are unreliable, but the waist feature points of the past frame are reliable, and the current frame is from the head and waist positions of the past frame. The waist position is corrected in the subsequent processing.

ステップ506は、ステップ402で決定した現在のフレームでの足首の信頼度が事前に定められたしきい値以上か否かを評価する。しきい値以上だったらステップ508に進み、そうでなかったらステップ507に進む。 Step 506 evaluates whether the reliability of the ankle in the current frame determined in step 402 is greater than or equal to a predetermined threshold. If it is above the threshold, the process proceeds to step 508, and if not, the process proceeds to step 507.

ステップ507では、特徴点記憶部105で記憶された過去のフレームにおける足首の信頼度が事前に定められたしきい値以上か否かを評価する。しきい値以上だったらステップ510に進み、そうでなかったら509に進む。ただし、特徴点記憶部105に過去のフレームにおける特徴点が記憶されていない場合、すなわち初めて図4のステップ403を実行する場合は、ステップ509に進む。 In step 507, it is evaluated whether or not the reliability of the ankle in the past frame stored in the feature point storage unit 105 is equal to or higher than a predetermined threshold value. If it is above the threshold, the process proceeds to step 510, and if not, the process proceeds to 509. However, when the feature points in the past frame are not stored in the feature point storage unit 105, that is, when step 403 of FIG. 4 is executed for the first time, the process proceeds to step 509.

ここで、S501、S502、S506、S507で用いるしきい値は、本実施例ではそれぞれ異なる値とするが、同じ値としても構わない。 Here, the threshold values used in S501, S502, S506, and S507 are different values in this embodiment, but may be the same value.

ステップ508では、補正に用いる特徴点群として特徴点群B1を選択し、図5のフローチャートの処理を終了する。特徴点群B1が選択された場合は、現在フレームでの足の特徴点が信頼できる場合であり、足の位置を後の処理で検出する必要がない。 In step 508, the feature point group B1 is selected as the feature point group used for the correction, and the processing of the flowchart of FIG. 5 is completed. When the feature point group B1 is selected, it means that the feature points of the foot in the current frame are reliable, and it is not necessary to detect the position of the foot in a later process.

ステップ509では、補正に用いる特徴点群として特徴点群B2を選択し、図5のフローチャートの処理を終了する。特徴点群B2が選択された場合は、現在フレームと過去フレームの両方で足の位置が信頼できない場合であり、現在フレームの足と腰の位置から現在フレームの足の位置を以降の処理で検出する。 In step 509, the feature point group B2 is selected as the feature point group used for the correction, and the processing of the flowchart of FIG. 5 is completed. When the feature point group B2 is selected, the foot position is unreliable in both the current frame and the past frame, and the foot position of the current frame is detected from the foot and waist positions of the current frame in the subsequent processing. To do.

ステップ510では、補正に用いる特徴点群として特徴点群B3を選択し、図5のフローチャートの処理を終了する。特徴点群B3が選択された場合は現在フレームで足の特徴点が信頼できないが、過去フレームで足の特徴点が信頼できる場合であり、過去フレームの首と足の位置から現在フレームの位置を以降の処理で検出する。 In step 510, the feature point group B3 is selected as the feature point group used for the correction, and the processing of the flowchart of FIG. 5 is completed. When the feature point group B3 is selected, the feature points of the foot are unreliable in the current frame, but the feature points of the foot are reliable in the past frame, and the position of the current frame is determined from the positions of the neck and foot of the past frame. It will be detected in the subsequent processing.

以上のステップ506、507、508、509、510の説明では片側の足首(右足首)のみを対象としたが、もう片側の足首(左足首)についても同様に第2の検出方法に用いる特徴点群を決定する。なお、足首の位置を検出するには、なるべく足首の位置に近い特徴点から足首の位置を推定できると良い。そのため、腰の位置が採用できる(腰の位置の信頼度が高い)場合は、腰の位置を用いて足首の位置を検出する。腰の位置が分からない(腰の位置の信頼度が低い)場合は、腰の次に足首に近い首の位置を用いて足首の位置を検出する。以下の処理順序は上記の意図を踏まえた順序になっているが、順序は変えても構わない。また、腰の位置を検出せずに、足首の位置だけを検出するように特徴群を決定してもよい。 In the above description of steps 506, 507, 508, 509, and 510, only one ankle (right ankle) was targeted, but the other ankle (left ankle) is also a feature point used in the second detection method. Determine the group. In order to detect the position of the ankle, it is preferable that the position of the ankle can be estimated from a feature point as close to the position of the ankle as possible. Therefore, when the waist position can be adopted (the waist position is highly reliable), the waist position is used to detect the ankle position. If the position of the waist is unknown (the position of the waist is unreliable), the position of the ankle is detected by using the position of the neck next to the waist and the position of the neck closest to the ankle. The following processing order is based on the above intention, but the order may be changed. Further, the feature group may be determined so as to detect only the position of the ankle without detecting the position of the waist.

図4のステップ404では、ステップ403で決定した特徴点群を用いて、第2の検出方法により所定の特徴点を検出する。ステップ404の処理は、図1の第2の検出部104に該当する。ステップ404の動作を図6のフローチャートを用いて説明する。図6の処理では、図5のフローチャートの処理で決定した特徴点群A1、A2、A3、B1、B2、B3に基づいて所定の特徴点(足首の位置)を検出する。 In step 404 of FIG. 4, a predetermined feature point is detected by the second detection method using the feature point group determined in step 403. The process of step 404 corresponds to the second detection unit 104 of FIG. The operation of step 404 will be described with reference to the flowchart of FIG. In the process of FIG. 6, a predetermined feature point (position of the ankle) is detected based on the feature point groups A1, A2, A3, B1, B2, and B3 determined by the process of the flowchart of FIG.

図4のステップ403と同様に、右足首と左足首の補正は同じ手順で行うため、右足首の検出のみを取り上げて説明する。以下、処理対象の片側の足首を単に「足首」と表記する。 Since the correction of the right ankle and the left ankle is performed in the same procedure as in step 403 of FIG. 4, only the detection of the right ankle will be described. Hereinafter, the ankle on one side to be processed is simply referred to as "ankle".

図6のステップ601では腰に関する特徴点群A1、A2、A3のいずれが選択されているか判定する。特徴点群A1が選択されていたらステップ602に進み、特徴点群A2が選択されていたらステップ603に進み、特徴点群A3が選択されていたらステップ604に進む。ステップ602、ステップ603、ステップ604では、第2の検出方法で腰の特徴点の位置を検出する。 In step 601 of FIG. 6, it is determined which of the feature point groups A1, A2, and A3 related to the waist is selected. If the feature point group A1 is selected, the process proceeds to step 602, if the feature point group A2 is selected, the process proceeds to step 603, and if the feature point group A3 is selected, the process proceeds to step 604. In step 602, step 603, and step 604, the position of the feature point of the waist is detected by the second detection method.

ステップ602は、腰の特徴点の位置を検出しない。なぜなら、以前の処理で腰の特徴点の信頼度があるしきい値より大きく、信頼できると考えられるためである。 Step 602 does not detect the position of the waist feature point. This is because the reliability of the waist feature points in the previous process is larger than a certain threshold value and is considered to be reliable.

ステップ603は、現在の画像フレームで検出された頭と首の位置から、腰の位置を検出する。図7を用いて処理を説明する。図7(a)のように、図4のステップ402によって、頭頂701、首702、腰703、右足首704、左足首705の特徴点が検出されている。まず、図7(b)のように、頭と首を結ぶ直線706を計算する。また、頭と首の間の距離をそれぞれの位置座標から計算する。ここで、人体の頭と首の距離と頭と腰の距離の比は、個人差はあるものの、およそ同じであると仮定できる。このため、腰の位置が、頭と首を結ぶ直線上となり、頭と首の距離と頭と腰の距離の比が所定のものとなるように検出する。図7(c)に補正後の腰の特徴点707の例を示す。この所定の比は、例えば平均的な成人の人体部位の比から定めることができる。 Step 603 detects the position of the waist from the positions of the head and neck detected in the current image frame. The process will be described with reference to FIG. 7. As shown in FIG. 7A, the feature points of the crown 701, the neck 702, the waist 703, the right ankle 704, and the left ankle 705 are detected by step 402 of FIG. First, as shown in FIG. 7B, a straight line 706 connecting the head and the neck is calculated. Also, the distance between the head and neck is calculated from the respective position coordinates. Here, it can be assumed that the ratio of the distance between the head and the neck of the human body and the distance between the head and the waist is approximately the same, although there are individual differences. Therefore, the position of the waist is on a straight line connecting the head and the neck, and the ratio of the distance between the head and the neck and the distance between the head and the waist is detected so as to be a predetermined value. FIG. 7C shows an example of the corrected waist feature point 707. This predetermined ratio can be determined, for example, from the ratio of the average adult human body part.

ステップ604は、過去フレームでの頭と腰の位置から現在の腰の位置を検出する。まず、特徴点記憶部105で記憶された過去のフレームの特徴点から、頭と腰の距離を計算する。次に、現在のフレームにおいて、図7(b)と同様に、頭と首を結ぶ直線を計算する。ここで、過去のフレームにおける頭と腰の距離と現在のフレームにおける頭と腰の距離はおよそ同じであると仮定する。そして、腰の位置が頭と首を結ぶ直線上となり、現在のフレームにおける頭と腰の距離が過去のフレームにおける頭と腰の距離と等しくなるように、現在のフレームにおける腰の位置を検出する。 Step 604 detects the current hip position from the head and hip positions in the past frame. First, the distance between the head and the waist is calculated from the feature points of the past frame stored in the feature point storage unit 105. Next, in the current frame, a straight line connecting the head and the neck is calculated in the same manner as in FIG. 7 (b). Here, it is assumed that the distance between the head and the waist in the past frame and the distance between the head and the waist in the current frame are approximately the same. Then, the position of the waist in the current frame is detected so that the position of the waist is on the straight line connecting the head and the neck and the distance between the head and the waist in the current frame is equal to the distance between the head and the waist in the past frame. ..

図6のステップ605では足首に関する特徴点群B1、B2、B3のいずれが選択されているか判定する。特徴点群B1が選択されていたらステップ606に進み、特徴点群B2が選択されていたらステップ607に進み、特徴点群B3が選択されていたらステップ608に進む。ステップ607、ステップ608では、足首の特徴点の位置を検出する。ステップ606は、足首の特徴点の位置を検出しない。 In step 605 of FIG. 6, it is determined which of the feature point groups B1, B2, and B3 related to the ankle is selected. If the feature point group B1 is selected, the process proceeds to step 606, if the feature point group B2 is selected, the process proceeds to step 607, and if the feature point group B3 is selected, the process proceeds to step 608. In step 607 and step 608, the position of the feature point of the ankle is detected. Step 606 does not detect the position of the ankle feature point.

ステップ607は、現在フレームでの首と腰の位置から、足首の位置を検出する。図8を用いて処理を説明する。図8(a)のように、図4のステップ402によって、頭頂801、首802、腰803、右足首804、左足首805の特徴点が検出されている。まず、図8(b)のように、首と腰を結ぶ直線806(体軸)を計算する。また、首と腰の間の距離をそれぞれの位置座標から計算する。ここで、人体の首と腰の距離と首と右足首の距離の比は、個人差はあるものの、およそ同じであると仮定できる。このため、足首の位置が、首と腰を結ぶ直線上となり、首と腰の距離と首と足首の距離の比が所定のものとなるように検出する。左図8(c)に足首807の特徴点の検出後の例を示す。 Step 607 detects the position of the ankle from the position of the neck and hips on the current frame. The process will be described with reference to FIG. As shown in FIG. 8A, the feature points of the crown 801 and the neck 802, the waist 803, the right ankle 804, and the left ankle 805 are detected by step 402 of FIG. First, as shown in FIG. 8B, a straight line 806 (body axis) connecting the neck and the waist is calculated. Also, the distance between the neck and hips is calculated from the respective position coordinates. Here, it can be assumed that the ratio of the distance between the neck and the waist of the human body and the distance between the neck and the right ankle is approximately the same, although there are individual differences. Therefore, the position of the ankle is on a straight line connecting the neck and the waist, and the ratio of the distance between the neck and the waist and the distance between the neck and the ankle is detected to be a predetermined value. Figure 8 (c) on the left shows an example after detecting the feature points of the ankle 807.

ステップ604は、過去フレームでの首と足首の位置から現在のフレームでの足首の位置を検出する。まず、特徴点記憶部105で記憶された過去のフレームの特徴点から、首と腰の距離を計算する。次に、現在のフレームにおいて、図8(b)と同様に、首と腰を結ぶ直線(体軸)を計算する。ここで、過去のフレームにおける首と足首の距離と現在のフレームにおける首と足首の距離はおよそ同じであると仮定する。そして、足首の位置が体軸上となり、現在のフレームにおける首と足首の距離が過去のフレームにおける首と足首の距離と等しくなるように、現在のフレームにおける足首の位置を検出する。 Step 604 detects the position of the ankle in the current frame from the position of the neck and ankle in the past frame. First, the distance between the neck and the waist is calculated from the feature points of the past frame stored in the feature point storage unit 105. Next, in the current frame, a straight line (body axis) connecting the neck and the waist is calculated in the same manner as in FIG. 8 (b). Here, it is assumed that the distance between the neck and the ankle in the past frame and the distance between the neck and the ankle in the current frame are approximately the same. Then, the position of the ankle in the current frame is detected so that the position of the ankle is on the body axis and the distance between the neck and the ankle in the current frame is equal to the distance between the neck and the ankle in the past frame.

以上のステップ605、606、607、608の説明では右足首のみを対象としたが、左足首についても同様に検出を行う。この処理によって、足首部分がオクルージョンやノイズによって第1の検出部で上手く検出されない場合でも、より確からしい足首の位置を検出することができる。 In the above description of steps 605, 606, 607, and 608, only the right ankle is targeted, but the left ankle is also detected in the same manner. By this process, even if the ankle portion is not detected well by the first detection unit due to occlusion or noise, a more probable ankle position can be detected.

図4のステップ405では検出された前記特徴点に基づいて、前記物体が存在する領域を決定する。この部分画像領域は、撮像画像における人物が存在する領域を示し、後の処理で人物画像を画像フレームから抽出する領域の指定に用いる。ステップ405の動作は図1の領域決定部106に該当する。ステップ405の処理を図9(a)を用いて説明する。図9(a)のように、画像フレーム903中に頭頂、首、腰、右足首、左足首の特徴点が存在する。まず、右足首と左足首の中点を計算する。そして、頭とその中点を結ぶ直線901(体軸)を計算する。本実施形態では、部分画像領域は矩形であり、アスペクト比が事前に定められたものとする。矩形の縦方向が体軸に平行であり、矩形の中心軸が体軸と等しく、矩形の上辺が頭と接し、矩形の下辺が足首と接するように、矩形902を決定する。このとき、矩形の上辺と頭の間と、矩形の下辺と足首の間に余白を設けても構わない。例えば、頭と足首の距離(身長)に一定の係数を乗算した大きさの余白を設けても構わない。すなわち、部分画像領域は特徴点の外接矩形を基に決定する。本実施形態では、矩形のアスペクト比は後のニューラルネットワークへの入力を容易にするために固定としたが、後の処理の構成によっては固定でなくても構わない。なお、補正した関節位置を用いる場合、ここで決定した領域には人物の部位が遮蔽されていることや、ノイズが多く出ていることがあり得る。例えば、図18のように、足首の部位が遮蔽物1803によって隠されている場合でも人物の部位を含む領域として決定する。このように領域を決定することで、矩形の中における人体の部位の配置が整合的な部分画像領域を決定できる。部位の配置を整合的にすることで、後段で行う特徴量の抽出処理において、各部位の特徴がより反映された各部位の特徴量を抽出できる効果がある。 In step 405 of FIG. 4, the region where the object exists is determined based on the detected feature points. This partial image area indicates an area in which a person exists in the captured image, and is used to specify an area for extracting the person image from the image frame in a later process. The operation of step 405 corresponds to the area determination unit 106 of FIG. The process of step 405 will be described with reference to FIG. 9A. As shown in FIG. 9A, the feature points of the crown, neck, waist, right ankle, and left ankle are present in the image frame 903. First, calculate the midpoint between the right and left ankles. Then, the straight line 901 (body axis) connecting the head and its midpoint is calculated. In the present embodiment, the partial image area is rectangular and the aspect ratio is predetermined. The rectangle 902 is determined so that the vertical direction of the rectangle is parallel to the body axis, the central axis of the rectangle is equal to the body axis, the upper side of the rectangle is in contact with the head, and the lower side of the rectangle is in contact with the ankle. At this time, a margin may be provided between the upper side of the rectangle and the head, and between the lower side of the rectangle and the ankle. For example, a margin having a size obtained by multiplying the distance (height) between the head and ankle by a certain coefficient may be provided. That is, the partial image area is determined based on the circumscribed rectangle of the feature point. In the present embodiment, the aspect ratio of the rectangle is fixed in order to facilitate input to the later neural network, but it may not be fixed depending on the configuration of the later processing. When the corrected joint position is used, it is possible that the part of the person is shielded or a lot of noise is generated in the region determined here. For example, as shown in FIG. 18, even when the part of the ankle is hidden by the shield 1803, it is determined as the area including the part of the person. By determining the region in this way, it is possible to determine the partial image region in which the arrangement of the parts of the human body in the rectangle is consistent. By making the arrangement of the parts consistent, there is an effect that the feature amount of each part that more reflects the characteristics of each part can be extracted in the feature amount extraction process performed in the subsequent stage.

図4のステップ406では、ステップ405で決定した部分画像領域を人物画像として画像フレームから切り出す。ステップ405で決定した部分画像領域の矩形が傾斜している場合は、矩形が直立するように画像を回転する。図9(a)から切り出した例を図9(b)に図示する。ステップ406の動作は図1の画像抽出部107に該当する。 In step 406 of FIG. 4, the partial image area determined in step 405 is cut out from the image frame as a person image. If the rectangle of the partial image area determined in step 405 is tilted, the image is rotated so that the rectangle stands upright. An example cut out from FIG. 9 (a) is shown in FIG. 9 (b). The operation of step 406 corresponds to the image extraction unit 107 of FIG.

ステップ407では、現在フレームにおける補正後の部位を記憶する。ステップ407の動作は図1の特徴点記憶部105に該当する。 In step 407, the corrected portion in the current frame is stored. The operation of step 407 corresponds to the feature point storage unit 105 of FIG.

ステップ408は部分画像領域(人物画像)から特徴量を抽出する。ステップ408の動作は図1および図2の画像特徴抽出部108に該当する。ステップ408の動作を図10のフローチャートを用いて説明する。 In step 408, the feature amount is extracted from the partial image area (personal image). The operation of step 408 corresponds to the image feature extraction unit 108 of FIGS. 1 and 2. The operation of step 408 will be described with reference to the flowchart of FIG.

図10のステップ1001は領域外特徴点補正部202が、部分画像領域と特徴点の座標に基づいて、部分画像領域外の特徴点の信頼度を補正する。ステップ1001は図2の領域外特徴点補正部202に該当する。部分画像領域の矩形のアスペクト比が固定である場合、手足を広げているときなど、特徴点が部分画像領域に含まれない場合がある。部分画像領域外にある人体部位は特徴抽出の範囲外であり、この部分における特徴抽出の精度が低下する問題がある。このため、後のステップでその影響を軽減するために、部分領域外の特徴点の信頼度を減少させる調整を施す。例えば、図11において、右足首1104が矩形1106の範囲外であり、この右足首の特徴点の信頼度を減少させる。本実施形態では、元の信頼度に1より小さいあらかじめ定めた実数値を乗じた値を補正後の信頼度とする。このように、部分領域外の特徴点の信頼度を減少させることで、部分領域外に人体パーツが配置されたことによる特徴抽出の精度の低下の問題と、遮蔽による特徴抽出の精度の低下の問題を、以降で共通の処理で対処することができる。 In step 1001 of FIG. 10, the out-of-area feature point correction unit 202 corrects the reliability of the feature points outside the partial image area based on the coordinates of the partial image area and the feature points. Step 1001 corresponds to the out-of-area feature point correction unit 202 of FIG. When the aspect ratio of the rectangle in the partial image area is fixed, the feature points may not be included in the partial image area, such as when the limbs are spread out. The human body part outside the partial image area is outside the range of feature extraction, and there is a problem that the accuracy of feature extraction in this part is lowered. Therefore, in order to mitigate the influence in a later step, an adjustment is made to reduce the reliability of the feature points outside the partial region. For example, in FIG. 11, the right ankle 1104 is outside the range of the rectangle 1106, which reduces the reliability of the feature points of the right ankle. In the present embodiment, the value obtained by multiplying the original reliability by a predetermined real value smaller than 1 is used as the corrected reliability. In this way, by reducing the reliability of the feature points outside the partial region, the problem of the decrease in the accuracy of feature extraction due to the placement of human body parts outside the partial region and the decrease in the accuracy of feature extraction due to shielding are reduced. The problem can be dealt with by a common process thereafter.

ステップ1002は部分画像領域と特徴点の信頼度から特徴量を抽出する。特徴量の抽出はニューラルネットワークが使用できる。図12にニューラルネットワークの構成例を示す。図12のニューラルネットワークは画像1201と特徴点信頼度1206を入力とし、画像特徴1210を出力する。ニューラルネットワークは、画像変換サブネットワーク1202、信頼度変換サブネットワーク1207、統合サブネットワーク1208、特徴出力サブネットワーク1209で構成される。画像変換サブネットワーク1202は図2の中間画像特徴抽出部204に該当する。信頼度変換サブネットワーク1207は図2の信頼度変換部205に該当する。統合サブネットワーク1208は図2の特徴統合部206に該当する。特徴出力サブネットワーク1209は図2の画像特徴出力部207に該当する。 In step 1002, the feature amount is extracted from the reliability of the partial image area and the feature point. A neural network can be used to extract the features. FIG. 12 shows a configuration example of the neural network. The neural network of FIG. 12 inputs the image 1201 and the feature point reliability 1206, and outputs the image feature 1210. The neural network is composed of an image conversion subnet 1202, a reliability transformation subnet 1207, an integrated subnet 1208, and a feature output subnet 1209. The image conversion sub-network 1202 corresponds to the intermediate image feature extraction unit 204 of FIG. The reliability conversion sub-network 1207 corresponds to the reliability conversion unit 205 of FIG. The integrated subnetwork 1208 corresponds to the feature integrated section 206 of FIG. The feature output sub-network 1209 corresponds to the image feature output unit 207 of FIG.

ニューラルネットワークで扱う入力データ、中間データ、出力データはテンソルとして扱われる。テンソルは多次元の配列として表現されるデータで、その次元数は階数とよばれる。階数が0のテンソルはスカラー、階数が1のテンソルはベクトル、階数が2のテンソルは行列と呼ばれる。例えば、チャネル数が1の画像(グレースケール画像など)はサイズH×Wの階数2のテンソル、またはサイズH×W×1の階数3のテンソルとして扱える。また、RGB成分を持つ画像はサイズH×W×3の階数3のテンソルとして扱える。 Input data, intermediate data, and output data handled by the neural network are treated as tensors. A tensor is data expressed as a multidimensional array, and the number of dimensions is called the rank. A tensor with a rank of 0 is called a scalar, a tensor with a rank of 1 is called a vector, and a tensor with a rank of 2 is called a matrix. For example, an image having one channel (such as a grayscale image) can be treated as a size H × W rank 2 tensor or a size H × W × 1 rank 3 tensor. Further, an image having an RGB component can be treated as a tensor having a size of H × W × 3 and a rank of 3.

テンソルをある次元のある位置で切断した面を取り出したデータおよびその操作をスライスと呼ぶ。例えば、サイズH×W×Cの階数3のテンソルを3番目の次元のc番目の位置でスライスすることで、H×Wの階数2のテンソルまたはH×W×1の階数3のテンソルが得られる。 The data obtained by extracting the surface of the tensor cut at a certain position in a certain dimension and its operation are called slices. For example, by slicing a rank 3 tensor of size H × W × C at the cth position of the third dimension, a rank 2 tensor of H × W or a rank 3 tensor of H × W × 1 can be obtained. Be done.

あるテンソルに畳み込み演算を行う層をコンボリューション層(Convと略記)と呼ぶ。畳み込み演算に用いるフィルタの係数を「重み」と呼ぶ。一例として、コンボリューション層によって、H×W×Cの入力テンソルからH×W×Dの出力テンソルを生成する。 A layer that performs a convolution operation on a certain tensor is called a convolution layer (abbreviated as Conv). The coefficient of the filter used for the convolution operation is called "weight". As an example, the convolution layer generates an H × W × D output tensor from an H × W × C input tensor.

あるベクトルに重み行列を乗算し、バイアスベクトルを加算する操作を行う層を全結合層(FCと略記)と呼ぶ。一例として、長さCのベクトルから、全結合層を適用することで長さDのベクトルを生成する。 A layer that multiplies a vector by a weight matrix and adds a bias vector is called a fully connected layer (abbreviated as FC). As an example, a vector of length D is generated from a vector of length C by applying a fully connected layer.

あるテンソルを区間に区切り、その区間の最大値を取ることで、テンソルのサイズを縮小する操作を最大プーリングと呼ぶ。最大値ではなく、区間の平均値をとる場合には平均プーリングと呼ぶ。本実施形態では、最大プーリングを用い、これを行うニューラルネットワークの層を単にプーリング層(Poolingと略記)と呼ぶ。本実施形態では、プーリング層によって、1次元目と2次元目の大きさが入力の半分となるようなテンソルを出力する。具体的には、H×W×Cの入力テンソルからH/2×W/2×Cの出力テンソルを生成する。 The operation of reducing the size of a tensor by dividing a tensor into intervals and taking the maximum value of that interval is called maximum pooling. When the average value of the section is taken instead of the maximum value, it is called average pooling. In the present embodiment, the maximum pooling is used, and the layer of the neural network that performs this is simply referred to as a pooling layer (abbreviated as Polling). In the present embodiment, the pooling layer outputs a tensor in which the size of the first dimension and the second dimension is half of the input. Specifically, an H / 2 × W / 2 × C output tensor is generated from an H × W × C input tensor.

ニューラルネットワークにおいて、通常コンボリューション層の後に適用する非線形関数を活性化関数と呼ぶ。活性化関数として正規化線形関数(ReLUと略記)、シグモイド関数などがある。特に、シグモイド関数は出力値の範囲が0から1となる性質がある。本実施形態では、断りがなければ活性化関数としてReLUを用いる。 In a neural network, the nonlinear function that is usually applied after the convolution layer is called the activation function. The activation function includes a rectified linear function (abbreviated as ReLU) and a sigmoid function. In particular, the sigmoid function has the property that the range of output values is 0 to 1. In this embodiment, ReLU is used as an activation function unless otherwise specified.

ニューラルネットワークにおいて、テンソル同士をある次元方向に並べて連結する操作を「連結」と呼ぶ。 In a neural network, the operation of arranging and connecting tensors in a certain dimensional direction is called "connection".

Global average poolingについて説明する。階数3のサイズH×W×Cのテンソルにおいて、3番目の次元の全ての位置でのスライスに対し、それぞれスライスに含まれる全要素の平均値をとる。そして、このC個の平均値を並べることで、長さCのベクトルを生成する。この操作をGlobal average poolingと呼ぶ。 Global average reporting will be described. In a rank 3 size H × W × C tensor, the average value of all the elements contained in each slice is taken for the slices at all positions in the third dimension. Then, by arranging the average values of C pieces, a vector of length C is generated. This operation is called Global average reporting.

図12において、ニューラルネットワークの入力となる画像1201のサイズは幅W1、高さH1、チャネル数3とする。すなわち、画像はH1×W1×3のテンソルとみなせる。 In FIG. 12, the size of the image 1201 that is the input of the neural network is width W1, height H1, and the number of channels 3. That is, the image can be regarded as a H1 × W1 × 3 tensor.

画像変換サブネットワーク1202は画像1201を特徴マップに変換する。画像変換サブネットワーク1202はさらに前処理サブネットワーク1203、パーツ推定サブネットワーク1204、画像統合サブネットワーク1205で構成される。 The image conversion subnet 1202 converts the image 1201 into a feature map. The image conversion subnet 1202 is further composed of a preprocessing subnet 1203, a parts estimation subnet 1204, and an image integration subnet 1205.

画像変換サブネットワーク1202は、検出された特徴点に対応する部位毎に物体を識別するための特徴量を抽出する。具体的にはL. Zhaoらの論文のように、パーツを推定し、パーツの特徴を抽出するモジュールを含む。画像変換サブネットワーク1202は図2の物体部位抽出部203に該当する。(L. Zhao et al.“Deeply−Learned Part−Aligned Representations for Person Re−Identification,” IEEE,2017。)本実施形態では特徴抽出を行うニューラルネットワーク内で物体部位抽出部203を動作させるが、このニューラルネットの外で物体部位抽出部203を動作させ、外からパーツの位置や大きさに関する情報を与えてもいい。また、物体部位抽出部203と図1の第1の検出部102は互いに用途を兼ねてもよく、第1の検出部102の出力に由来する情報を物体部位抽出部203の出力として用いてもよく、その逆を行ってもよい。なお、ここで抽出される部位毎の特徴量は、後の処理で全体特徴量として統合される。その際、特徴点毎の信頼度に応じて各部位の特徴量を全体特徴量に反映する重みづけをする。つまり、信頼度が小さい特徴点に対応する部位から抽出された特徴量が最終的な認識結果に寄与することを抑制する。信頼度が小さい特徴点は物体が遮蔽されていることや、ノイズが多くなっている可能性があり、その部位から抽出された特徴量は必ずしもその物体の部位の特徴を示しているとは限らないためである。このような処理を行うことで、物体の特徴をより反映した特徴量を生成でき、物体の認識精度が向上する効果が期待できる。 The image conversion sub-network 1202 extracts a feature amount for identifying an object for each part corresponding to the detected feature point. Specifically, L. Like the paper by Zhao et al., It includes a module that estimates parts and extracts the features of the parts. The image conversion sub-network 1202 corresponds to the object part extraction unit 203 of FIG. (. The object part extraction unit 203 may be operated outside the neural network to provide information on the position and size of the part from the outside. Further, the object part extraction unit 203 and the first detection unit 102 in FIG. 1 may be used for each other, and the information derived from the output of the first detection unit 102 may be used as the output of the object part extraction unit 203. Well, the reverse may be done. The feature amount for each part extracted here is integrated as the total feature amount in the later processing. At that time, weighting is performed so that the feature amount of each part is reflected in the overall feature amount according to the reliability of each feature point. That is, it is suppressed that the feature amount extracted from the part corresponding to the feature point having low reliability contributes to the final recognition result. Feature points with low reliability may be obstructed by an object or have a lot of noise, and the features extracted from that part do not always indicate the characteristics of the part of the object. Because there is no such thing. By performing such processing, a feature amount that more reflects the features of the object can be generated, and the effect of improving the recognition accuracy of the object can be expected.

画像変換サブネットワーク1202は1つ以上のコンボリューション層(Conv)、最大プーリング層(Pooling)のシーケンスで構成できる。本実施形態では、「Conv、Conv、Pooling、Conv、Pooling、Conv、Pooling、Conv」といったシーケンスで構成する。構成の概略を図16(a)に示す。画像に画像変換サブネットワークを適用した結果、H2×W2×C2のテンソルを得る。 The image conversion subnet line 1202 can be composed of a sequence of one or more convolution layers (Conv) and a maximum pooling layer (Pooling). In the present embodiment, it is composed of a sequence such as "Conv, Conv, Polling, Conv, Polling, Conv, Polling, Conv". The outline of the configuration is shown in FIG. 16 (a). As a result of applying the image conversion subnetwork to the image, a tensor of H2 × W2 × C2 is obtained.

パーツ推定サブネットワーク1204は画像変換サブネットワーク1202の出力を入力とし、特徴マップであるH2×W2×P1のテンソルを出力する。ここで、P1は推定するパーツの数であり、事前に定められた任意の数でよい。このテンソルの3番目の次元の位置pでのスライス(サイズがH2×W2×1のテンソル)はp番目のパーツの存在位置を示すマスク画像である。それぞれの画素は0から1の値を取り、1に近いほどその位置にそのパーツが存在する確度が高い。パーツ推定サブネットワーク1204は1つのコンボリューション層とシグモイド関数で構成される。構成の概略を図16(b)に示す。パーツ推定ネットワークの構成はこれに限らず、複数のコンボリューション層で構成しても構わない。 The parts estimation sub-network 1204 takes the output of the image conversion sub-network 1202 as an input, and outputs a tensor of H2 × W2 × P1 which is a feature map. Here, P1 is the number of parts to be estimated, and may be an arbitrary number determined in advance. The slice (tensor having a size of H2 × W2 × 1) at the position p in the third dimension of this tensor is a mask image showing the existence position of the p-th part. Each pixel takes a value from 0 to 1, and the closer it is to 1, the higher the probability that the part exists at that position. The parts estimation subnet 1204 is composed of one convolution layer and a sigmoid function. The outline of the configuration is shown in FIG. 16 (b). The configuration of the parts estimation network is not limited to this, and may be configured by a plurality of convolution layers.

画像統合サブネットワーク1205は画像変換サブネットワーク1202とパーツ推定サブネットワーク1204の出力を統合する。図17に処理の流れを示す。まず、パーツ推定サブネットワークの出力テンソル1701の3番目の次元での位置pでのスライス1702(サイズがH2×W2×1のテンソル)をC2個コピーして3番目の次元方向に連結し、サイズH2×W2×C2のテンソル1703に拡張する。そして、このテンソルの各要素について、画像変換サブネットワーク1202の出力テンソル1704の各要素と乗算することで、新たなテンソル1705(サイズH2×W2×C2)を生成する。そして、このテンソルに対し、global average poolingを適用することで、長さC2のベクトル1706を生成し、さらに全結合層を適用することで長さC3のベクトル1707を生成する。この処理をすべてのパーツのチャネルpに対して適用し、それぞれの生成されたベクトルを連結したベクトル1708を生成する。すなわち、画像統合サブネットワークで生成されるベクトル1708の長さは(C3)P1である。本実施形態では統合対象のデータがベクトルであるが、ベクトルはテンソルの一種であり、統合対象のデータが2階以上のテンソルである場合にも同様に結合によって統合しても構わない。 The image integration subnet 1205 integrates the output of the image transformation subnet 1202 with the parts estimation subnet 1204. FIG. 17 shows the processing flow. First, C2 slices 1702 (tensors of size H2 × W2 × 1) at position p in the third dimension of the output tensor 1701 of the parts estimation subnetwork are copied and connected in the third dimension, and the size is increased. Extend to H2 x W2 x C2 tensor 1703. Then, each element of this tensor is multiplied by each element of the output tensor 1704 of the image conversion subnet 1202 to generate a new tensor 1705 (size H2 × W2 × C2). Then, by applying global average reporting to this tensor, a vector 1706 of length C2 is generated, and by further applying a fully connected layer, a vector 1707 of length C3 is generated. This process is applied to the channel p of all parts to generate a vector 1708 that concatenates each generated vector. That is, the length of the vector 1708 generated by the image integration subnet is (C3) P1. In the present embodiment, the data to be integrated is a vector, but the vector is a kind of tensor, and even when the data to be integrated is a tensor of the second or higher order, it may be integrated by combining in the same manner.

特徴点信頼度1206は長さC4のベクトルとする。本実施形態では、図4のステップ402で検出される特徴点の数が5なのでC4=5である。 The feature point reliability 1206 is a vector of length C4. In this embodiment, since the number of feature points detected in step 402 in FIG. 4 is 5, C4 = 5.

信頼度変換サブネットワーク1207は、特徴点信頼度1206を長さC5のベクトルに変換する。信頼度変換サブネットワーク1207は0個以上の全結合層で構成できる。本実施形態では1個の全結合層とする。構成の概略を図16(c)に示す。 The reliability conversion subnet 1207 converts the feature point reliability 1206 into a vector of length C5. The reliability conversion subnetwork 1207 can be composed of 0 or more fully connected layers. In this embodiment, there is one fully connected layer. The outline of the configuration is shown in FIG. 16 (c).

統合サブネットワーク1208は画像統合サブネットワーク1205の出力ベクトルと信頼度変換サブネットワーク1207の出力ベクトルを統合する。統合サブネットワーク1208は長さC6のベクトルを出力する。本実施形態では、この2つのベクトルを連結する。構成の概略を図16(d)に示す。そのため、C6=(C3)P1+C5となる。 The integrated subnet 1208 integrates the output vector of the image integrated subnet 1205 with the output vector of the reliability transformation subnet 1207. The integrated subnet network 1208 outputs a vector of length C6. In this embodiment, these two vectors are connected. The outline of the configuration is shown in FIG. 16 (d). Therefore, C6 = (C3) P1 + C5.

特徴出力サブネットワーク1209は統合サブネットワーク1208の出力ベクトルを入力とし、長さC7のベクトルである画像特徴1210を出力する。特徴出力サブネットワーク1209は1つ以上の全結合層で構成できる。本実施形態では2つの全結合層で構成する。構成の概略を図16(e)に示す。この画像特徴は、「照合特徴」、「人物特徴」、「ディスクリプタ」、「embedding」とも呼ばれる。 The feature output subnet 1209 takes the output vector of the integrated subnet 1208 as an input and outputs the image feature 1210 which is a vector of length C7. Features The output subnetwork 1209 can consist of one or more fully coupled layers. In this embodiment, it is composed of two fully connected layers. The outline of the configuration is shown in FIG. 16 (e). This image feature is also referred to as a "matching feature", a "personal feature", a "descriptor", or an "embedding".

図4のステップ409は、ステップ408で抽出した人物画像の特徴量を人物データベースに保存してある特徴量と比較する。人物データベースとは、人物同定の対象のN人の人物の切り出し画像と特徴量があらかじめ登録されている記憶手段である。事前に人物同定対象の人物の画像を撮影しておき、ステップ402からステップ408と同様の方法で画像切り出しと特徴量抽出を行い保存してある。人物データベースは図1の物体記憶手段112に該当する。ステップ409では、人物データベース内の人物の特徴量とステップ408で抽出した人物画像の特徴量の距離を計算する。そして、距離順に人物データベース内の人物の並び替えを行い、最も距離の小さい人物を並びの先頭に配置する。ステップ409は図1の認識部109の処理に該当する。本実施形態では、特徴量の比較にユークリッド距離を用いる。特徴量の比較は他の方法でもよく、L1距離やコサイン距離などの他の距離指標でもよく、メトリクスラーニングやニューラルネットワークなどの機械学習を利用して比較しても構わない。 In step 409 of FIG. 4, the feature amount of the person image extracted in step 408 is compared with the feature amount stored in the person database. The person database is a storage means in which cut-out images and feature amounts of N people to be identified are registered in advance. An image of the person to be identified is taken in advance, and the image is cut out and the feature amount is extracted by the same method as in steps 402 to 408 and saved. The person database corresponds to the object storage means 112 of FIG. In step 409, the distance between the feature amount of the person in the person database and the feature amount of the person image extracted in step 408 is calculated. Then, the people in the person database are sorted in order of distance, and the person with the shortest distance is placed at the beginning of the line. Step 409 corresponds to the processing of the recognition unit 109 in FIG. In this embodiment, the Euclidean distance is used for comparison of features. The feature quantities may be compared by other methods, other distance indexes such as L1 distance and cosine distance, and may be compared by using machine learning such as metric learning or neural network.

図4のステップ410はステップ409で該当する人物を画面に表示する。ステップ410は図1の画像表示部110の処理に該当する。表示画面例を図14に示す。表示画面1401にはクエリ1402とギャラリ1403で構成される。クエリ1402は検索したい人物の画像であり、ステップ406で切り出した人物画像を表示する。ギャラリ1403は検索結果の一覧であり、ステップ409で距離順に並び替えた人物データベース内の画像を順番に上位5人を表示する。この際、上位5人を表示してもいいし、5人の中から距離が事前に定めたしきい値以下の人物だけを表示しても構わない。ギャラリに表示される画像は、図4のステップ401からステップ407と同様の方法で切り出されてもいいし、他の方法で切り出されたものでよい。クエリとギャラリの人物の画像には、図14のように、検出した特徴点の位置を示すマーカを重畳表示しても構わない。 In step 410 of FIG. 4, the person corresponding to the person in step 409 is displayed on the screen. Step 410 corresponds to the processing of the image display unit 110 of FIG. An example of the display screen is shown in FIG. The display screen 1401 is composed of a query 1402 and a gallery 1403. Query 1402 is an image of the person to be searched, and displays the person image cut out in step 406. The gallery 1403 is a list of search results, and displays the top five images in order of the images in the person database sorted in order of distance in step 409. At this time, the top five people may be displayed, or only the people whose distance is less than or equal to a predetermined threshold value may be displayed from among the five people. The image displayed in the gallery may be cut out by the same method as in step 407 from step 401 of FIG. 4, or may be cut out by another method. As shown in FIG. 14, a marker indicating the position of the detected feature point may be superimposed and displayed on the image of the person in the query and the gallery.

図4のステップ411はフローチャートの処理を終了するか否かを判定する。本実施形態では、ステップ411の実行回数が規定回数以上になった場合、終了すると判定する。そうでなかった場合、ステップ401に進み、フローチャートの処理を続行する。 Step 411 of FIG. 4 determines whether or not to end the processing of the flowchart. In the present embodiment, when the number of times of execution of step 411 exceeds the specified number of times, it is determined that the process ends. If not, the process proceeds to step 401 and the flowchart processing is continued.

<ニューラルネットワークの学習>
図1の画像特徴抽出部108で使用するニューラルネットワークの学習の方法を図13のフローチャートを用いて説明する。図13のフローチャートの処理は図1の学習手段111に該当する。
<Neural network learning>
The method of learning the neural network used in the image feature extraction unit 108 of FIG. 1 will be described with reference to the flowchart of FIG. The processing of the flowchart of FIG. 13 corresponds to the learning means 111 of FIG.

ニューラルネットワークの構造は上述のように図12で示される。ニューラルネットワークは画像1201と特徴点信頼度1206を入力とし、画像特徴1210を出力する。 The structure of the neural network is shown in FIG. 12 as described above. The neural network inputs the image 1201 and the feature point reliability 1206, and outputs the image feature 1210.

ニューラルネットワークはtriplet lossで学習する。(F. Shroff et al.“Face Net: A Unified Embedding for Face Recognition and Clustering,”arXiv:1503.03832)。triplet lossでは、アンカーサンプルと呼ばれるサンプル、ポジティブサンプルと呼ばれるアンカーと同じ人物のサンプル、ネガティブサンプルと呼ばれるアンカーと異なる人物のサンプルで構成される三つ組(triplet)を使用する。アンカーサンプル、ポジティブサンプル、ネガティブサンプルから得られるそれぞれの特徴量を比較してロス関数を計算することで、ネットワークを更新する。 Neural networks are learned by triple loss. (F. Shroff et al. "Face Net: A United Embedding for Face Recognition and Clustering," arXiv: 1503.03832). In triple loss, a triplet consisting of a sample called an anchor sample, a sample of the same person as the anchor called a positive sample, and a sample of a person different from the anchor called a negative sample is used. The network is updated by calculating the loss function by comparing the features obtained from the anchor sample, positive sample, and negative sample.

図13のステップ1301はネットワークを構成するコンボリューション層と全結合層の重みを初期化する。本実施形態では、重みの初期値として乱数を使用する。 Step 1301 of FIG. 13 initializes the weights of the convolution layer and the fully connected layer constituting the network. In this embodiment, a random number is used as the initial value of the weight.

ステップ1302では学習データ群から学習データをランダムに取得する。1つの学習データは三つ組(triplet)であり、アンカーサンプル、ポジティブサンプル、ネガティブサンプルを1つずつ含む。アンカーサンプル、ポジティブサンプル、ネガティブサンプルは、それぞれ画像と特徴点信頼度で構成される。画像と特徴点信頼度は図4のフローチャートで使用するニューラルネットワークに入力するものと同様の手順で生成が行われている。 In step 1302, learning data is randomly acquired from the learning data group. One training data is a triplet and includes one anchor sample, one positive sample, and one negative sample. Anchor sample, positive sample, and negative sample are each composed of an image and feature point reliability. The image and the feature point reliability are generated by the same procedure as that input to the neural network used in the flowchart of FIG.

ステップ1303は学習データでネットワークを更新する。まず、アンカーサンプル、ポジティブサンプル、ネガティブサンプルに対し、現在の状態のネットワークを適用して、それぞれ特徴量を計算する。これらの3つの特徴量に対し、triplet lossによってロスを計算する。そして、バックプロパゲーション法によって、ネットワーク内の重みを更新する。 Step 1303 updates the network with the training data. First, the current state network is applied to the anchor sample, the positive sample, and the negative sample, and the features are calculated for each. For these three features, the loss is calculated by triple loss. Then, the weight in the network is updated by the backpropagation method.

ステップ1304で学習を終了するか判定する。ステップ1304を規定回数実行した場合、終了すると判定し、図13のフローチャートの一連の処理を終了する。終了しないと判定した場合、ステップ1302に進む。 It is determined in step 1304 whether to end learning. When step 1304 is executed a predetermined number of times, it is determined that the step 1304 is finished, and the series of processes of the flowchart of FIG. 13 is finished. If it is determined that the process does not end, the process proceeds to step 1302.

本実施形態によれば、特徴群決定部103および第2の検出部104において、良好な特徴点から良好でない特徴点をもう一度検出することができる。そのため、物体の一部が他の物体に遮蔽された状況や外乱を受けている状況においても、領域決定部106による物体領域決定の誤りを低減する効果が見込める。 According to the present embodiment, the feature group determination unit 103 and the second detection unit 104 can detect the bad feature points from the good feature points again. Therefore, even in a situation where a part of the object is shielded by another object or is subjected to disturbance, the effect of reducing the error of the object area determination by the area determination unit 106 can be expected.

物体の一部が他の物体に遮蔽された領域や外乱を受けている領域において、第1の検出部102で取得される特徴点の信頼度は正常時よりも低下して出力されると仮定できる。このとき、これらの局所領域から抽出される画像認識のための画像特徴の品質も同時に低下すると考えられる。そのため、画像特徴抽出部108において、ある局所領域の信頼性を表す指標として特徴点の信頼度の情報を用いることで、画像特徴の品質の低下を軽減する効果が見込める。したがって、画像認識の精度が向上する効果が見込める。 It is assumed that the reliability of the feature points acquired by the first detection unit 102 is lower than that in the normal state in the region where a part of the object is shielded by another object or the region is disturbed. it can. At this time, it is considered that the quality of the image features for image recognition extracted from these local regions also deteriorates at the same time. Therefore, by using the information on the reliability of the feature points as an index showing the reliability of a certain local region in the image feature extraction unit 108, the effect of reducing the deterioration of the quality of the image features can be expected. Therefore, the effect of improving the accuracy of image recognition can be expected.

図10のステップ1001は部分画像領域外の特徴点の信頼度を減少させる。部分画像領域外にある人体部位は特徴抽出の範囲外であり、この部分における特徴抽出の精度が低下する問題がある。このため、後のステップでその影響を軽減するために、部分領域外の特徴点の信頼度を減少させることで、画像特徴の品質の低下を軽減する効果が見込める。 Step 1001 in FIG. 10 reduces the reliability of feature points outside the partial image area. The human body part outside the partial image area is outside the range of feature extraction, and there is a problem that the accuracy of feature extraction in this part is lowered. Therefore, in order to reduce the influence in a later step, the effect of reducing the deterioration of the quality of the image feature can be expected by reducing the reliability of the feature points outside the partial region.

ステップ403とステップ404において、現在のフレームだけでなく過去のフレームの特徴点も用いて補正に用いる特徴点群の選択と特徴点の補正を行っている。過去のフレームの特徴点を用いることで、現在のフレームで特徴点の信頼度が低い場合においても、特徴点の補正精度を向上させる効果が見込める。 In steps 403 and 404, the feature points used for the correction are selected and the feature points are corrected by using not only the feature points of the current frame but also the feature points of the past frame. By using the feature points of the past frame, the effect of improving the correction accuracy of the feature points can be expected even when the reliability of the feature points is low in the current frame.

ステップ403において、特徴点の選択を予め定められた順序で行っている。ステップ404の特徴点の位置の補正において精度がよりよいと見込まれる特徴点を優先的に選択することで、より正しく特徴点位置を修正できる効果が見込める。 In step 403, the feature points are selected in a predetermined order. By preferentially selecting the feature points that are expected to have better accuracy in the correction of the feature point positions in step 404, the effect of correcting the feature point positions more accurately can be expected.

ステップ404において、所定の順序で特徴点を補正している。ここでは、腰、足という順番で特徴点を補正している。これは、人物は首、腰、足という順番で体の部位がつながっているためである。まず、腰の位置を修正した後、そのより正しい腰の位置を用いて足を修正することができる。このように、所定の順序で特徴点を比較することで、より正しく特徴点位置を修正できる効果が見込める。 In step 404, the feature points are corrected in a predetermined order. Here, the feature points are corrected in the order of waist and legs. This is because the body parts of a person are connected in the order of neck, waist, and legs. First, the hip position can be corrected, and then the legs can be corrected using the more correct hip position. By comparing the feature points in a predetermined order in this way, the effect of being able to correct the feature point positions more accurately can be expected.

ステップ404において、特徴点間の相対位置関係から特徴点の位置を補正している。実施形態では、特徴点間の距離の比や、特徴点から求められる直線(体軸)を基に特徴点を補正している。このように、物体の構造に関する事前知識を用いることで、より正しく特徴点の位置を修正できる効果が見込める。 In step 404, the position of the feature point is corrected from the relative positional relationship between the feature points. In the embodiment, the feature points are corrected based on the ratio of the distances between the feature points and the straight line (body axis) obtained from the feature points. In this way, by using the prior knowledge about the structure of the object, the effect of being able to correct the position of the feature point more correctly can be expected.

<実施形態1の変形例>
ステップ402で抽出する特徴点は、頭頂、首、腰、右足首、左足首に限らず、手首、肘、膝など、他の部位でも構わない。また、必ずしも体の部位上でなくてもよく、右足首と左足首の中間点や体軸と左足首・右足首を結ぶ線の交点など、体の部位の位置関係から決まる他の点でも構わない。
<Modified Example of Embodiment 1>
The feature points extracted in step 402 are not limited to the crown, neck, hips, right ankle, and left ankle, but may be other parts such as wrists, elbows, and knees. In addition, it does not necessarily have to be on the body part, and other points determined by the positional relationship of the body part such as the midpoint between the right ankle and the left ankle and the intersection of the lines connecting the body axis and the left ankle / right ankle may be used. Absent.

ステップ604で、過去フレームでの頭と腰の距離から現在のフレームにおける腰の位置を補正したが、他の方法でも構わない。過去のフレームでの頭と腰の位置座標の差異から、現在フレームの腰の位置を補正しても構わない。例えば、過去フレームでの頭と腰の位置座標の差異として、腰のx座標・y座標は、頭のx座標・y座標よりそれぞれXピクセル、Yピクセル大きいとする。この過去フレームでの頭と腰との位置座標の差異と等しくなるように、現在のフレームにおいて腰の位置を補正しても構わない。また、頭と腰の位置座標の差異の代わりに、首と腰の位置座標の差異を用いても構わない。 In step 604, the position of the waist in the current frame is corrected from the distance between the head and the waist in the past frame, but other methods may be used. The position of the waist of the current frame may be corrected from the difference in the position coordinates of the head and the waist in the past frame. For example, as a difference between the position coordinates of the head and the waist in the past frame, it is assumed that the x-coordinate and the y-coordinate of the waist are X-pixel and Y-pixel larger than the x-coordinate and the y-coordinate of the head, respectively. The position of the waist may be corrected in the current frame so as to be equal to the difference in the position coordinates between the head and the waist in the past frame. Further, instead of the difference in the position coordinates of the head and the waist, the difference in the position coordinates of the neck and the waist may be used.

ステップ607では、人体の首と腰の距離と首と右足首(または左足首)の距離の比を用いたが、これに限らず、他の特徴点間の比を用いても構わない。一例として、頭と腰の距離と頭と右足首(または左足首)の距離の比のように、首の代わりに頭を用いてもよい。他の例として、頭と首の距離と腰と右足首(または左足首)の距離の比を用いてもよい。ステップ608も同様である。 In step 607, the ratio of the distance between the neck and the waist of the human body and the distance between the neck and the right ankle (or the left ankle) is used, but the ratio is not limited to this, and the ratio between other feature points may be used. As an example, the head may be used instead of the neck, such as the ratio of the head-to-waist distance to the head-to-right ankle (or left ankle) distance. As another example, the ratio of the distance between the head and the neck and the distance between the waist and the right ankle (or left ankle) may be used. The same applies to step 608.

ステップ607では、右足首と左足首が体軸の上になるように補正した。これに限らず、特徴点間の比があらかじめ定めたものとなるように、右足首(または左足首)を体軸方向に移動させることで補正しても構わない。ステップ608も同様である。 In step 607, the right ankle and the left ankle were corrected so as to be on the body axis. Not limited to this, correction may be made by moving the right ankle (or left ankle) in the body axis direction so that the ratio between the feature points becomes a predetermined value. The same applies to step 608.

領域決定部106では、部分画像領域を矩形としたが、他の形状でも構わない。例えば、多角形でもいいし、曲線に囲まれていてもよい。図形ではなく、物体領域とその他の領域を区別するマスク画像でもよい。 In the area determination unit 106, the partial image area is rectangular, but other shapes may be used. For example, it may be a polygon or may be surrounded by a curve. Instead of a figure, a mask image that distinguishes an object area from another area may be used.

実施形態1のニューラルネットワークの構造はこれに限定されない。例えば、サブネットワークの間に別のサブネットワークが挿入されてもいい。また、ネットワークの分岐構造が異なっていても構わない。サブネットワークの構成について、コンボリューション層やプーリング層、全結合層などの構成要素の種類や数が異なっていても構わない。 The structure of the neural network of the first embodiment is not limited to this. For example, another subnet may be inserted between subnets. Moreover, the branch structure of the network may be different. Regarding the configuration of the sub-network, the types and numbers of components such as the convolution layer, the pooling layer, and the fully connected layer may be different.

図12の統合サブネットワーク1208では2つのベクトルを結合することで2つのベクトルを統合したが、他の演算方法を用いても構わない。例えば、2つのベクトルのサイズが同じであれば、ベクトルの要素同士の乗算や加算を代わりに用いても構わない。 In the integrated subnet 1208 of FIG. 12, the two vectors are integrated by combining the two vectors, but other calculation methods may be used. For example, if the sizes of the two vectors are the same, multiplication or addition between the elements of the vectors may be used instead.

図2の信頼度変換部205を図12のように信頼度変換サブネットワーク1207として実施しているが、信頼度変換部205はニューラルネットワークの外部に設けても構わない。例えば、特徴点の信頼度に正規化処理や変換処理などの処理をニューラルネットワークの外部で行い、その処理結果をニューラルネットワークの入力の1つとしても構わない。 Although the reliability conversion unit 205 of FIG. 2 is implemented as the reliability conversion sub-network 1207 as shown in FIG. 12, the reliability conversion unit 205 may be provided outside the neural network. For example, processing such as normalization processing or conversion processing may be performed on the reliability of the feature points outside the neural network, and the processing result may be used as one of the inputs of the neural network.

図4のステップ403およびステップ特徴点を補正において、現在のフレームと1つ前のフレームから補正に用いる特徴点群の選択や特徴点の補正を行った。1つ前のフレームだけでなく、それ以前のフレームを用いて特徴点群の選択や特徴点の補正を行っても構わない。さらに、現在のフレームと合わせ、3フレーム以上のフレームを用いても構わない。 In step 403 and step feature points in FIG. 4, the feature point group to be used for correction was selected from the current frame and the previous frame, and the feature points were corrected. Not only the previous frame but also the previous frame may be used to select the feature point group and correct the feature points. Further, a frame of 3 or more may be used in combination with the current frame.

画像特徴抽出部108をニューラルネットで構成したが、ニューラルネット以外の方法を用いても構わない。例えば、HOG(Histogram of Oriented Gradients)特徴やLBP(Local Binary Pattern)特徴を抽出して、これを基に画像特徴を決定してもいい。他には、HOG特徴やLBP特徴からパーツ推定を行ってもいい。 Although the image feature extraction unit 108 is composed of a neural network, a method other than the neural network may be used. For example, HOG (Histogram of Oriented Gradients) features and LBP (Local Binary Pattern) features may be extracted, and image features may be determined based on these. Alternatively, parts may be estimated from HOG features and LBP features.

図6のステップ603で頭と首から図7の直線706を計算したが、頭または首のみから直線を計算しても構わない。例えば、人物の体軸が画像フレームのy軸と平行であると仮定できる場合には、直線は画像フレームのy軸に平行であると仮定することができ、首または頭のどちらか1点から直線を計算できる。同様に、図4のステップ405でも複数点から図9の直線901を計算しているが、1点から計算しても構わない。 Although the straight line 706 of FIG. 7 was calculated from the head and neck in step 603 of FIG. 6, a straight line may be calculated from only the head or neck. For example, if it can be assumed that the body axis of a person is parallel to the y-axis of the image frame, then the straight line can be assumed to be parallel to the y-axis of the image frame, starting from either the neck or the head. You can calculate a straight line. Similarly, in step 405 of FIG. 4, the straight line 901 of FIG. 9 is calculated from a plurality of points, but it may be calculated from one point.

図10のS1001では、元の信頼度に1より小さいあらかじめ定めた実数値を乗じた値を補正後の信頼度としたが、他の方法でも構わない。信頼度の更新方法はこれに限らず、信頼度を0としてもいいし、信頼度からあらかじめ定めた実数値を減じてもいいし、他の方法を用いても構わない。 In S1001 of FIG. 10, the value obtained by multiplying the original reliability by a predetermined real value smaller than 1 is used as the corrected reliability, but other methods may be used. The method for updating the reliability is not limited to this, and the reliability may be set to 0, a predetermined real value may be subtracted from the reliability, or another method may be used.

以上のように、実施形態1で説明した処理によって、人物の一部が他の物体に遮蔽された状況においても、適切に人物の照合が行える。 As described above, by the process described in the first embodiment, the person can be appropriately collated even in a situation where a part of the person is shielded by another object.

<実施形態2>
実施形態1では人物の全身を画像処理の対象としたが、代わりに顔を画像処理の対象にしても構わない。実施形態2では実施形態1との差分のみ説明する。
<Embodiment 2>
In the first embodiment, the whole body of the person is targeted for image processing, but the face may be targeted for image processing instead. In the second embodiment, only the difference from the first embodiment will be described.

顔を対象とする場合、図4のステップ402では顔特徴点を検出する。図15に図示する。ここでは、右目1501、左目1502、鼻1503、口の右端1504、口の左端1505を特徴点として検出するとする。 When the face is targeted, the facial feature points are detected in step 402 of FIG. It is illustrated in FIG. Here, it is assumed that the right eye 1501, the left eye 1502, the nose 1503, the right end 1504 of the mouth, and the left end 1505 of the mouth are detected as feature points.

実施形態2においては、ステップ403、404において、右目の特徴点を鼻と口から補正するケースを考える。左目については、右目と同様の処理である。 In the second embodiment, consider the case where the feature points of the right eye are corrected from the nose and the mouth in steps 403 and 404. The process for the left eye is the same as that for the right eye.

ステップ403の処理を説明する。まず右目の特徴点の信頼度を評価する。信頼度がしきい値以上の場合は特徴点群C1を選択する。信頼度がしきい値より小さい場合は、過去のフレームでの右目の信頼度がしきい値以上でなかったら特徴点群C2を選択し、しきい値以上だったら特徴点群C3を選択する。 The process of step 403 will be described. First, the reliability of the feature points of the right eye is evaluated. If the reliability is equal to or higher than the threshold value, the feature point group C1 is selected. When the reliability is smaller than the threshold value, the feature point group C2 is selected if the reliability of the right eye in the past frame is not equal to or higher than the threshold value, and the feature point group C3 is selected if the reliability is higher than the threshold value.

ステップ404の処理を説明する。補正に用いる特徴点群が特徴点群C1であったら、右目の位置を補正しない。特徴点群C2であったら、現在フレームの鼻と口の右端と口の左端の位置関係から、平均的な人物の顔のパーツの配置に近くなるように、現在フレームの右目の位置を補正する。特徴点群C3であったら、過去のフレームの右目、鼻、口の右端、口の左端の配置に近くなるように、現在フレームの右目の位置を補正する。 The process of step 404 will be described. If the feature point group used for correction is the feature point group C1, the position of the right eye is not corrected. If it is the feature point group C2, the position of the right eye of the current frame is corrected so as to be close to the arrangement of the facial parts of the average person from the positional relationship between the nose and the right end of the mouth and the left end of the mouth of the current frame. .. If it is the feature point group C3, the position of the right eye of the current frame is corrected so as to be close to the arrangement of the right eye, the nose, the right end of the mouth, and the left end of the mouth of the past frame.

他のステップの処理も全身から抽出する特徴点を顔の特徴点に置き換えれば、実施形態1の処理と同様である。 The processing of the other steps is the same as the processing of the first embodiment if the feature points extracted from the whole body are replaced with the facial feature points.

実施形態2では顔特徴点を右目、左目、鼻、口の右端、口の左端としたが、目じり、目頭、瞳、鼻の右端、鼻の下端、眉毛、顔の輪郭など、他の部分を特徴点としても構わない。そして、ステップ403やステップ404の処理をそれに合わせて変更しても構わない。 In the second embodiment, the facial feature points are the right eye, the left eye, the nose, the right end of the mouth, and the left end of the mouth. It may be a feature point. Then, the processing of step 403 and step 404 may be changed accordingly.

実施形態2によれば、画像フレームからの顔画像の切り出しや顔認識の性能を向上させる効果が見込める。例えば、顔がサングラスやマスクなどのアクセサリで一部分が覆われているケースや、手などで一時的に顔の一部が隠れるケースにおいて有効である。 According to the second embodiment, the effect of cutting out the face image from the image frame and improving the performance of face recognition can be expected. For example, it is effective in a case where the face is partially covered with accessories such as sunglasses and a mask, and a case where a part of the face is temporarily hidden by a hand or the like.

本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、データ通信用のネットワーク又は各種記憶媒体を介してシステム或いは装置に供給する。そして、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。また、そのプログラムをコンピュータが読み取り可能な記録媒体に記録して提供してもよい。 The present invention is also realized by executing the following processing. That is, software (program) that realizes the functions of the above-described embodiment is supplied to the system or device via a network for data communication or various storage media. Then, the computer (or CPU, MPU, etc.) of the system or device reads and executes the program. Further, the program may be recorded and provided on a computer-readable recording medium.

101 画像取得部
102 第1の検出部
103 特徴群決定部
104 第2の検出部
105 特徴点記憶部
106 領域決定部
107 画像抽出部
108 画像特徴抽出部
109 認識部
110 表示部
111 学習部
112 物体記憶部
101 Image acquisition unit 102 First detection unit 103 Feature group determination unit 104 Second detection unit 105 Feature point storage unit 106 Area determination unit 107 Image extraction unit 108 Image feature extraction unit 109 Recognition unit 110 Display unit 111 Learning unit 112 Object Memory

Claims (10)

複数の部位を有する物体を撮像した画像から、該物体の部位に対応させて特徴点群を検出する検出手段と、
前記検出された特徴点毎に、該特徴点に対応する前記部位である確からしさを示す信頼度を取得する取得手段と、
前記画像から前記特徴点が対応する部位毎に物体を識別するための前記特徴量を抽出する抽出手段と、
前記特徴点毎に前記取得された信頼度に応じて、抽出された前記特徴量を、予め登録された前記物体の特徴量と比較することで、前記物体を認識する認識手段と、を有することを特徴とする画像処理装置。
A detection means for detecting a feature point cloud corresponding to a part of the object from an image obtained by capturing an object having a plurality of parts.
For each of the detected feature points, an acquisition means for acquiring the reliability indicating the certainty of the portion corresponding to the feature point, and
An extraction means for extracting the feature amount for identifying an object for each part corresponding to the feature point from the image, and
Each feature point has a recognition means for recognizing the object by comparing the extracted feature amount with the feature amount of the object registered in advance according to the acquired reliability. An image processing device characterized by.
前記抽出手段は、前記人物を含む部分画像と前記信頼度とを入力として前記特徴量を出力するニューラルネットワークによって前記特徴量を抽出することを特徴とする請求項1に記載の画像処理装置。 The image processing apparatus according to claim 1, wherein the extraction means extracts the feature amount by a neural network that outputs the feature amount by inputting a partial image including the person and the reliability. 前記取得手段は、前記特徴点が所定の領域の範囲外に位置する場合、該特徴点の信頼度を前記所定の値より小さくなるように前記信頼度を取得することを特徴とする請求項1または2に記載の画像処理装置。 Claim 1 is characterized in that, when the feature point is located outside the range of a predetermined region, the acquisition means acquires the reliability so that the reliability of the feature point is smaller than the predetermined value. Or the image processing apparatus according to 2. 前記物体は人体であって、
前記認識手段は、予め登録された人物の特徴量と、抽出された特徴量とを比較することによって前記人物を同定することを特徴とする請求項1乃至3のいずれか1項に記載の画像処理装置。
The object is a human body
The image according to any one of claims 1 to 3, wherein the recognition means identifies the person by comparing the feature amount of the person registered in advance with the extracted feature amount. Processing equipment.
前記特徴点は、人物の関節の位置であることを特徴とする請求項4に記載の画像処理装置。 The image processing apparatus according to claim 4, wherein the feature point is a position of a joint of a person. 前記特徴点は、人物が顔の部位の位置であることを特徴とする請求項4に記載の画像処理装置。 The image processing apparatus according to claim 4, wherein the feature point is a position of a facial portion of a person. 前記信頼度と、抽出された前記特徴量とを統合する統合手段を更に有し、
前記認識手段は、前記統合された特徴量と、予め登録された前記物体の特徴量と比較することで、前記物体を認識することを特徴とする請求項1乃至6のいずれか1項に記載の画像処理装置。
Further having an integration means for integrating the reliability and the extracted features.
The recognition means according to any one of claims 1 to 6, wherein the recognition means recognizes the object by comparing the integrated feature amount with the feature amount of the object registered in advance. Image processing equipment.
画像から画像特徴を抽出する画像処理装置であって、
前記画像から複数の部位を有する物体の特徴点群と、該特徴点に対応する前記部位である確からしさを示す信頼度と、を抽出する特徴点抽出手段と、
前記画像から前記特徴点が対応する部位毎に第1の画像特徴を抽出する画像特徴抽出手段と、
前記信頼度と、前記第1の画像特徴と、を統合できる形に変換する変換手段と、
前記変換手段によって変換された前記中間画像特徴と前記信頼度とを統合した前記物体の第2の画像特徴を出力する出力手段と、を有する画像処理装置。
An image processing device that extracts image features from an image.
A feature point extraction means for extracting a feature point cloud of an object having a plurality of parts from the image and a reliability indicating the certainty of the part corresponding to the feature point.
An image feature extraction means for extracting a first image feature from the image for each part corresponding to the feature point, and an image feature extraction means.
A conversion means for converting the reliability and the first image feature into a form that can be integrated.
An image processing apparatus having an output means for outputting a second image feature of the object in which the intermediate image feature converted by the conversion means and the reliability are integrated.
コンピュータを、請求項1乃至8のいずれか1項に記載の画像処理装置が有する各手段として機能させるためのプログラム。 A program for causing a computer to function as each means included in the image processing apparatus according to any one of claims 1 to 8. 複数の部位を有する物体を撮像した画像から、該物体の部位に対応させて特徴点群を検出する検出工程と、
前記検出された特徴点毎に、該特徴点に対応する前記部位である確からしさを示す信頼度を取得する取得工程と、
前記画像から前記特徴点が対応する部位毎に物体を識別するための前記特徴量を抽出する抽出工程と、
前記特徴点毎に前記取得された信頼度に応じて、抽出された前記特徴量を、予め登録された前記物体の特徴量と比較することで、前記物体を認識する認識工程と、を有することを特徴とする画像処理方法。
A detection step of detecting a feature point cloud corresponding to a part of the object from an image obtained by capturing an object having a plurality of parts.
For each of the detected feature points, an acquisition step of acquiring the reliability indicating the certainty of the part corresponding to the feature point, and
An extraction step of extracting the feature amount for identifying an object for each part corresponding to the feature point from the image, and
Each feature point has a recognition step of recognizing the object by comparing the extracted feature amount with the feature amount of the object registered in advance according to the acquired reliability. An image processing method characterized by.
JP2019172192A 2019-09-20 2019-09-20 Image processing device, image processing method, and program Active JP7479809B2 (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019172192A JP7479809B2 (en) 2019-09-20 2019-09-20 Image processing device, image processing method, and program
PCT/JP2020/034093 WO2021054217A1 (en) 2019-09-20 2020-09-09 Image processing device, image processing method and program
US17/695,622 US20220207904A1 (en) 2019-09-20 2022-03-15 Image processing apparatus, image processing method, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019172192A JP7479809B2 (en) 2019-09-20 2019-09-20 Image processing device, image processing method, and program

Publications (2)

Publication Number Publication Date
JP2021051376A true JP2021051376A (en) 2021-04-01
JP7479809B2 JP7479809B2 (en) 2024-05-09

Family

ID=75157901

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019172192A Active JP7479809B2 (en) 2019-09-20 2019-09-20 Image processing device, image processing method, and program

Country Status (1)

Country Link
JP (1) JP7479809B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115862060A (en) * 2022-11-25 2023-03-28 天津大学四川创新研究院 Pig face identification and pig weight identification based pig unique identification method and system

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004005384A (en) * 2002-04-19 2004-01-08 Sony Corp Image processing method, image processing device, program, recording medium, automatic trimming device and picture-taking arrangement
JP2010165052A (en) * 2009-01-13 2010-07-29 Canon Inc Image processor and image processing method
JP2014178862A (en) * 2013-03-14 2014-09-25 Secom Co Ltd Feature point extraction device

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004005384A (en) * 2002-04-19 2004-01-08 Sony Corp Image processing method, image processing device, program, recording medium, automatic trimming device and picture-taking arrangement
JP2010165052A (en) * 2009-01-13 2010-07-29 Canon Inc Image processor and image processing method
JP2014178862A (en) * 2013-03-14 2014-09-25 Secom Co Ltd Feature point extraction device

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115862060A (en) * 2022-11-25 2023-03-28 天津大学四川创新研究院 Pig face identification and pig weight identification based pig unique identification method and system
CN115862060B (en) * 2022-11-25 2023-09-26 天津大学四川创新研究院 Pig unique identification method and system based on pig face identification and pig re-identification

Also Published As

Publication number Publication date
JP7479809B2 (en) 2024-05-09

Similar Documents

Publication Publication Date Title
CN110147721B (en) Three-dimensional face recognition method, model training method and device
US9684850B2 (en) Biological information processor
US9020250B2 (en) Methods and systems for building a universal dress style learner
US7912253B2 (en) Object recognition method and apparatus therefor
US7925093B2 (en) Image recognition apparatus
JP7094702B2 (en) Image processing device and its method, program
US7995805B2 (en) Image matching apparatus, image matching method, computer program and computer-readable storage medium
CN109558810B (en) Target person identification method based on part segmentation and fusion
JP6773829B2 (en) Object recognition device, object recognition method, and object recognition program
CN110264493A (en) A kind of multiple target object tracking method and device under motion state
CN110263768A (en) A kind of face identification method based on depth residual error network
CN111027464A (en) Iris identification method for convolutional neural network and sequence feature coding joint optimization
JP2011113313A (en) Attitude estimation device
JP2021503139A (en) Image processing equipment, image processing method and image processing program
CN112784712B (en) Missing child early warning implementation method and device based on real-time monitoring
CN111723687A (en) Human body action recognition method and device based on neural network
CN111898571A (en) Action recognition system and method
CN111860196A (en) Hand operation action scoring device and method and computer readable storage medium
JP2019016268A (en) Image processing apparatus, image processing method and image processing program
WO2021054217A1 (en) Image processing device, image processing method and program
JP7479809B2 (en) Image processing device, image processing method, and program
JP2021051375A (en) Image processing apparatus, image processing method, and program
JP2013003861A (en) Object shape estimation device
CN111444374B (en) Human body retrieval system and method
JP7270304B2 (en) Method and mobile device for implementing the method for verifying the identity of a user by identifying an object in an image that has the user&#39;s biometric characteristics

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220720

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230606

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230804

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231031

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20231213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240326

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240424