JP6770363B2 - Face direction estimator and its program - Google Patents

Face direction estimator and its program Download PDF

Info

Publication number
JP6770363B2
JP6770363B2 JP2016154536A JP2016154536A JP6770363B2 JP 6770363 B2 JP6770363 B2 JP 6770363B2 JP 2016154536 A JP2016154536 A JP 2016154536A JP 2016154536 A JP2016154536 A JP 2016154536A JP 6770363 B2 JP6770363 B2 JP 6770363B2
Authority
JP
Japan
Prior art keywords
face direction
face
image
feature amount
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016154536A
Other languages
Japanese (ja)
Other versions
JP2018022416A (en
Inventor
真介 横澤
真介 横澤
高橋 正樹
正樹 高橋
山内 結子
結子 山内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2016154536A priority Critical patent/JP6770363B2/en
Publication of JP2018022416A publication Critical patent/JP2018022416A/en
Application granted granted Critical
Publication of JP6770363B2 publication Critical patent/JP6770363B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Processing (AREA)
  • Image Analysis (AREA)

Description

本発明は、色ヒストグラム及び他の特徴量を用いて、被写体の顔方向を推定する顔方向推定装置及びそのプログラムに関する。 The present invention relates to a face direction estimation device that estimates the face direction of a subject using a color histogram and other features, and a program thereof.

従来より、映像中の人物の顔向きを推定する手法は、様々なものが提案されている。ここで、サッカーの試合を広角の固定カメラで撮影し、その映像からサッカー選手の顔画像を抽出すると、その顔画像の解像度が低くなることが多い。このような低解像度の顔画像を扱う手法では、顔方向を8方向で定義し、それらをパターン認識で分類するアプローチが多く取られている。 Conventionally, various methods for estimating the face orientation of a person in an image have been proposed. Here, when a soccer game is shot with a wide-angle fixed camera and a face image of a soccer player is extracted from the image, the resolution of the face image is often lowered. In the method of handling such a low-resolution face image, many approaches are taken in which the face directions are defined in eight directions and they are classified by pattern recognition.

また、顔画像から抽出する特徴量として、iDF(Non-local Intensity Difference Feature)と、cDF(Non-local Color Different Feature)と、IF(Intensity Feature)とを用いる手法が提案されている(非特許文献1)。この他、HOG(Histograms of Oriented Gradients)と、CTC(Color Triplet Comparison)とを用いる手法が提案されている(非特許文献2)。 In addition, a method using iDF (Non-local Intensity Difference Feature), cDF (Non-local Color Different Feature), and IF (Intensity Feature) has been proposed as feature quantities extracted from facial images (non-patented). Document 1). In addition, a method using HOG (Histograms of Oriented Gradients) and CTC (Color Triplet Comparison) has been proposed (Non-Patent Document 2).

T. Siriteerakul, D. Sugimura and Y. Sato, “Head Pose Classification from Low Resolution Images Using Pairwise Non-Local Intensity and Color Differences”, Proc. Fourth Pacific-Rim Symposium on Image and Video Technology, pp.362-369 (Nov. 2010)T. Siriteerakul, D. Sugimura and Y. Sato, “Head Pose Classification from Low Resolution Images Using Pairwise Non-Local Intensity and Color Differences”, Proc. Fourth Pacific-Rim Symposium on Image and Video Technology, pp.362-369 ( Nov. 2010) B. Benfold and I. Reid, “Unsupervised learning of a scene-specific coarse gaze estimator”, Proc. 2011 International Conference on Computer Vision, pp.2344-2351 (Nov. 2011)B. Benfold and I. Reid, “Unsupervised learning of a scene-specific coarse gaze estimator”, Proc. 2011 International Conference on Computer Vision, pp.2344-2351 (Nov. 2011)

しかし、非特許文献1,2に記載の手法は、特徴量の次元数が多いので、その特徴量による学習及び識別の処理負荷が重くなるという問題があった。このため、非特許文献1,2に記載の手法は、サッカーの中継のようにリアルタイム性が要求されるコンテンツへの適用が困難であった。 However, the methods described in Non-Patent Documents 1 and 2 have a problem that since the number of dimensions of the feature amount is large, the processing load of learning and identification based on the feature amount becomes heavy. Therefore, it has been difficult to apply the methods described in Non-Patent Documents 1 and 2 to contents that require real-time performance, such as soccer relay.

そこで、本発明は、リアルタイムで顔方向を高精度に推定できる顔方向推定装置及びそのプログラムを提供することを課題とする。 Therefore, an object of the present invention is to provide a face direction estimation device and a program thereof that can estimate the face direction with high accuracy in real time.

前記した課題に鑑みて、本発明に係る顔方向推定装置は、色ヒストグラム、及び、前記色ヒストグラムと異なる1種類以上の第2特徴量を用いて、被写体の顔画像から前記被写体の顔方向を推定する顔方向推定装置であって、画像領域分割部と、第1特徴量計算部と、第1識別部と、第2特徴量計算部と、第2識別部と、顔方向推定部と、を備える構成とした。 In view of the above problems, the face direction estimation device according to the present invention uses a color histogram and one or more types of second feature quantities different from the color histogram to determine the face direction of the subject from the face image of the subject. An image region dividing unit, a first feature amount calculation unit, a first identification unit, a second feature amount calculation unit, a second identification unit, a face direction estimation unit, and the face direction estimation device for estimating. The configuration is provided with.

かかる構成によれば、顔方向推定装置は、画像領域分割部によって、前記顔画像を入力し、入力した前記顔画像を複数の領域に分割する。そして、顔方向推定装置は、前記領域毎の色ヒストグラムを計算し、計算した前記領域毎の色ヒストグラムを連結することで、前記顔画像全体の色ヒストグラムを求める。 According to such a configuration, the face direction estimation device inputs the face image by the image region dividing unit, and divides the input face image into a plurality of regions. Then, the face direction estimation device calculates the color histogram for each of the regions, and concatenates the calculated color histogram for each region to obtain the color histogram of the entire face image.

ここで、顔方向推定装置は、各画素の位置情報を記述するために顔画像を領域分割し、それぞれの領域で色ヒストグラムを計算するので、特徴量の次元数を少なくできる。さらに、顔方向推定装置は、顔画像内で頭部位置が変化する場合、顔画像の解像度が低下する場合や顔画像にノイズが重畳する場合でも、顔画像の領域毎に色ヒストグラムを計算するので、特徴量の計算結果がこれらの影響を受けにくくなる。 Here, since the face direction estimation device divides the face image into regions in order to describe the position information of each pixel and calculates the color histogram in each region, the number of dimensions of the feature amount can be reduced. Further, the face direction estimation device calculates the color histogram for each region of the face image even when the head position changes in the face image, the resolution of the face image decreases, or noise is superimposed on the face image. Therefore, the calculation result of the feature amount is less affected by these.

顔方向推定装置は、第1識別部により、顔方向が異なる訓練データの色ヒストグラムを学習した識別器により、前記顔画像全体の色ヒストグラムから、前記被写体が各顔方向を向いている確率である信頼度を計算する。 The face direction estimation device is the probability that the subject is facing each face direction from the color histogram of the entire face image by the classifier that has learned the color histograms of the training data having different face directions by the first identification unit. Calculate the confidence.

顔方向推定装置は、第2特徴量計算部によって、前記第2特徴量の種類毎に、前記顔画像の第2特徴量を計算する。そして、顔方向推定装置は、第2識別部によって、前記第2特徴量の種類毎に、前記訓練データの第2特徴量を学習した識別器により、前記顔画像の第2特徴量から、前記信頼度を計算する。さらに、顔方向推定装置は、顔方向推定部によって、色ヒストグラム及び前記第2特徴量の種類毎に計算した信頼度を統合することで、前記被写体の顔方向を推定する。 The face direction estimation device calculates the second feature amount of the face image for each type of the second feature amount by the second feature amount calculation unit. Then, the face direction estimation device is described from the second feature amount of the face image by the classifier that has learned the second feature amount of the training data for each type of the second feature amount by the second identification unit. Calculate the reliability. Further, the face direction estimation device estimates the face direction of the subject by integrating the color histogram and the reliability calculated for each type of the second feature amount by the face direction estimation unit.

このように、顔方向推定装置は、特徴量の次元数が少ないので、学習及び識別の処理負荷を軽減し、被写体の顔方向をリアルタイムで推定することができる。さらに、顔方向推定装置は、色ヒストグラムと、色ヒストグラム以外の第2特徴量とを併用するので、被写体の顔方向を高精度に推定することができる。 As described above, since the face direction estimation device has a small number of dimensions of the feature amount, the processing load of learning and identification can be reduced, and the face direction of the subject can be estimated in real time. Further, since the face direction estimation device uses the color histogram and the second feature amount other than the color histogram in combination, the face direction of the subject can be estimated with high accuracy.

なお、本発明に係る顔方向推定装置は、コンピュータが備えるCPU、メモリ、ハードディスク等のハードウェア資源を、前記した各手段として協調動作させる顔方向推定プログラムで実現することもできる。 The face direction estimation device according to the present invention can also be realized by a face direction estimation program in which hardware resources such as a CPU, a memory, and a hard disk included in a computer are cooperatively operated as the above-mentioned means.

本発明によれば、以下のような優れた効果を奏する。
本発明に係る顔方向推定装置は、顔画像の領域毎に色ヒストグラムを計算するので、顔画像内での頭部位置の変化、顔画像の解像度低下やノイズ重畳の影響を受けにくく、特徴量の次元数を少なくできる。これにより、顔方向推定装置は、学習及び識別の処理負荷を軽減し、被写体の顔方向をリアルタイムで推定することができる。さらに、顔方向推定装置は、色ヒストグラムと、色ヒストグラム以外の第2特徴量とを併用するので、被写体の顔方向を高精度に推定することができる。
According to the present invention, the following excellent effects are obtained.
Since the face direction estimation device according to the present invention calculates the color histogram for each region of the face image, it is not easily affected by the change in the head position in the face image, the decrease in the resolution of the face image and the superposition of noise, and the feature amount The number of dimensions of can be reduced. As a result, the face direction estimation device can reduce the processing load of learning and identification and estimate the face direction of the subject in real time. Further, since the face direction estimation device uses the color histogram and the second feature amount other than the color histogram in combination, the face direction of the subject can be estimated with high accuracy.

本発明の第1実施形態に係る顔方向推定システムの概略を示す概略図である。It is a schematic diagram which shows the outline of the face direction estimation system which concerns on 1st Embodiment of this invention. 顔方向推定システムが合成したCG映像を説明する説明図である。It is explanatory drawing explaining the CG image synthesized by the face direction estimation system. 本発明の第1実施形態に係る顔方向推定装置の構成を示すブロック図である。It is a block diagram which shows the structure of the face direction estimation apparatus which concerns on 1st Embodiment of this invention. (a)は顔画像抽出部が抽出した顔画像の一例であり、(b)は正規化した顔画像の一例である。(A) is an example of a face image extracted by the face image extraction unit, and (b) is an example of a normalized face image. 画像領域分割部が分割した顔画像の一例である。This is an example of a face image divided by the image area division portion. (a)は領域画像の一例であり、(b)は色ヒストグラムの計算を説明する説明図である。(A) is an example of a region image, and (b) is an explanatory diagram illustrating the calculation of the color histogram. (a)は顔方向の基準となる座標軸を説明する図であり、(b)は顔方向を説明する図である。(A) is a diagram for explaining a coordinate axis that serves as a reference for the face direction, and (b) is a diagram for explaining the face direction. 訓練データの一例である。This is an example of training data. (a)は輝度の勾配強度及び勾配方向を説明する図であり、(b)は輝度のヒストグラムを説明する図である。(A) is a diagram for explaining the gradient intensity and the gradient direction of the luminance, and (b) is a diagram for explaining the histogram of the luminance. 本発明の第2実施形態に係る顔方向推定装置の構成を示すブロック図である。It is a block diagram which shows the structure of the face direction estimation apparatus which concerns on 2nd Embodiment of this invention. 顔方向推定装置の学習モードの動作を示すフローチャートである。It is a flowchart which shows the operation of the learning mode of a face direction estimation apparatus. 顔方向推定装置の推定モードの動作を示すフローチャートである。It is a flowchart which shows the operation of the estimation mode of the face direction estimation device. 実施例1、参考例1及び比較例1〜3の識別性能を表すテーブルである。It is a table which shows the identification performance of Example 1, Reference Example 1 and Comparative Examples 1-3. 実施例1、参考例1及び比較例1〜3の計算時間を表すテーブルである。It is a table which shows the calculation time of Example 1, Reference Example 1 and Comparative Examples 1-3. 実施例1の混同行列である。It is a confusion matrix of Example 1. 参考例1の混同行列である。It is a confusion matrix of Reference Example 1. 比較例1の混同行列である。It is a confusion matrix of Comparative Example 1. 比較例2の混同行列である。It is a confusion matrix of Comparative Example 2. 比較例3の混同行列である。It is a confusion matrix of Comparative Example 3.

以下、本発明の各実施形態について、適宜図面を参照しながら詳細に説明する。なお、各実施形態において、同一の手段には同一の符号を付し、説明を省略した。 Hereinafter, each embodiment of the present invention will be described in detail with reference to the drawings as appropriate. In each embodiment, the same means are designated by the same reference numerals, and the description thereof is omitted.

(第1実施形態)
[顔方向推定システムの概略]
図1を参照し、本発明の第1実施形態に係る顔方向推定システム100の概略について説明する。
顔方向推定システム100は、サッカー選手(被写体)の顔方向をリアルタイムで推定し、推定したサッカー選手の顔方向を中継映像にCG合成する。図1に示すように、顔方向推定システム100は、第1撮影部Cと、第2撮影部Cと、顔方向推定装置1と、CG合成装置2と、を備える。
(First Embodiment)
[Outline of face direction estimation system]
The outline of the face direction estimation system 100 according to the first embodiment of the present invention will be described with reference to FIG.
The face direction estimation system 100 estimates the face direction of a soccer player (subject) in real time, and CG synthesizes the estimated face direction of the soccer player into a relay image. As shown in FIG. 1, the face direction estimation system 100 includes a first photographing unit C 1 , a second photographing unit C 2 , a face direction estimating device 1, and a CG synthesizer 2.

第1撮影部Cは、顔方向推定用の映像を撮影するカメラである。本実施形態では、第1撮影部Cは、コーナーエリア91付近に配置され、複数のサッカー選手を同時に撮影できるように、広角でサッカーの試合を撮影する。この第1撮影部Cは、特に制限されないが、例えば、パン、チルト及びズームの各機能(PTZ機能)を備えない固定カメラである。 The first shooting unit C 1 is a camera that shoots an image for estimating the face direction. In the present embodiment, the first shooting unit C 1 is arranged near the corner area 91 and shoots a soccer game at a wide angle so that a plurality of soccer players can be shot at the same time. The first photographing unit C 1 is not particularly limited, but is, for example, a fixed camera that does not have the pan, tilt, and zoom functions (PTZ functions).

第2撮影部Cは、サッカーの試合映像を撮影するカメラである。本実施形態では、第2撮影部Cは、センターライン92付近に配置され、カメラマンによる手動操作又は自動制御でサッカーの試合を撮影する。この第2撮影部Cは、特に制限されないが、例えば、PTZ機能を備えたPTZカメラである。 The second shooting unit C 2 is a camera that shoots a soccer game video. In the present embodiment, the second shooting unit C 2 is arranged near the center line 92, and shoots a soccer game by manual operation or automatic control by a photographer. The second photographing unit C 2 is not particularly limited, but is, for example, a PTZ camera having a PTZ function.

顔方向推定装置1は、サッカー選手の顔方向を識別するための識別器を予め生成する。そして、顔方向推定装置1は、この識別器を用いて、第1撮影部Cで撮影した映像から、サッカー選手の顔方向を推定する。なお、顔方向推定装置1の詳細は、後記する。 The face direction estimation device 1 generates in advance a classifier for identifying the face direction of a soccer player. The face direction estimating apparatus 1 uses this identifier, the image taken by the first imaging unit C 1, to estimate the face direction of the soccer player. The details of the face direction estimation device 1 will be described later.

CG合成装置2は、第2撮影部Cで撮影した映像に、顔方向推定装置1が推定したサッカー選手の顔方向を示すCGを合成する。例えば、CG合成装置2は、図2に示すように、サッカーの試合映像に、サッカー選手の顔方向を示す扇状マーカαのCGを合成する。
これにより、顔方向推定システム100は、サッカー選手の動きを視聴者が把握し易くなり、より臨場感が高いスポーツ映像を提供することができる。
The CG synthesizer 2 synthesizes a CG indicating the face direction of the soccer player estimated by the face direction estimation device 1 with the image taken by the second shooting unit C 2 . For example, as shown in FIG. 2, the CG synthesizer 2 synthesizes the CG of the fan-shaped marker α indicating the face direction of the soccer player with the soccer match video.
As a result, the face direction estimation system 100 makes it easier for the viewer to grasp the movement of the soccer player, and can provide a sports image with a higher sense of presence.

[顔方向推定装置の構成]
図3を参照し、本発明の実施形態に係る顔方向推定装置1の構成について説明する。
顔方向推定装置1は、色ヒストグラム、及び、色ヒストグラムと異なる1種類以上の第2特徴量を用いて、サッカー選手の顔画像から顔方向を推定する。本実施形態では、顔方向推定装置1は、第2特徴量として、HOGを用いることとした。つまり、顔方向推定装置1は、色に関連した特徴量である色ヒストグラム、及び、形状に関連した特徴量であるHOGのように、特性が異なる特徴量を併用している。
[Configuration of face direction estimation device]
The configuration of the face direction estimation device 1 according to the embodiment of the present invention will be described with reference to FIG.
The face direction estimation device 1 estimates the face direction from the face image of a soccer player by using the color histogram and one or more types of second feature quantities different from the color histogram. In the present embodiment, the face direction estimation device 1 uses HOG as the second feature amount. That is, the face direction estimation device 1 uses the feature amounts having different characteristics, such as the color histogram which is the feature amount related to the color and the HOG which is the feature amount related to the shape.

図3に示すように、顔方向推定装置1は、特徴量計算装置3と、顔画像抽出部10と、画像サイズ正規化部11と、第1識別部14と、第2特徴量計算部15と、第2識別部16と、識別結果統合部(顔方向推定部)17と、出力部18と、を備える。 As shown in FIG. 3, the face direction estimation device 1 includes a feature amount calculation device 3, a face image extraction unit 10, an image size normalization unit 11, a first identification unit 14, and a second feature amount calculation unit 15. A second identification unit 16, an identification result integration unit (face direction estimation unit) 17, and an output unit 18 are provided.

ここで、操作者は、図示を省略したマウス、キーボード等の操作手段を介して、顔方向推定装置1に学習モード又は推定モードを指定する。
学習モードは、顔方向推定装置1が識別器を生成するモードである。学習モードの場合、顔方向推定装置1は、特徴量計算装置3、画像サイズ正規化部11、第1識別部14、第2特徴量計算部15、及び、第2識別部16が機能する。
推定モードは、顔方向推定装置1がサッカー選手の顔方向を推定するモードである。推定モードの場合、顔方向推定装置1の全手段が機能する。
Here, the operator designates the learning mode or the estimation mode to the face direction estimation device 1 via an operating means such as a mouse or a keyboard (not shown).
The learning mode is a mode in which the face direction estimation device 1 generates a classifier. In the learning mode, the face direction estimation device 1 functions as a feature amount calculation device 3, an image size normalization unit 11, a first identification unit 14, a second feature amount calculation unit 15, and a second identification unit 16.
The estimation mode is a mode in which the face direction estimation device 1 estimates the face direction of a soccer player. In the estimation mode, all means of the face direction estimation device 1 function.

顔画像抽出部10は、推定モードの場合、第1撮影部Cより入力した映像から顔画像を抽出する。例えば、顔画像抽出部10は、サッカーの試合映像に被写体追跡処理を施し、この映像に含まれるサッカー選手の位置を求める(例えば、参考文献1)。この参考文献1に記載の手法は、サッカー選手の動きをモデル化し、パーティクルフィルタにより追跡を行うものである。
参考文献1:西濃拓郎、滝口哲也、有木康雄、「単眼動画像におけるボールと選手の3次元位置推定」、2009年電子情報通信学会総合大会(情報・システム講演論文集2)、p213
Facial image extraction unit 10, when the estimation mode, extracts a face image from the image input from the first imaging section C 1. For example, the face image extraction unit 10 performs subject tracking processing on a soccer match video to obtain the position of a soccer player included in this video (for example, Reference 1). The method described in Reference 1 models the movement of a soccer player and tracks it with a particle filter.
Reference 1: Takuro Seino, Tetsuya Takiguchi, Yasuo Ariki, "Three-dimensional position estimation of ball and player in monocular motion image", 2009 IEICE General Conference (Information and System Lecture Proceedings 2), p213

また、顔画像抽出部10は、外部からサッカー選手の位置情報が提供される場合(例えば、参考文献2)、この位置情報を利用してもよい。
参考文献2:ChyronHego, “TRACAB Optical Tracking”, URL<http://chyronhego.com/sports-data/tracab>
Further, the face image extraction unit 10 may use this position information when the position information of the soccer player is provided from the outside (for example, Reference 2).
Reference 2: ChyronHego, “TRACAB Optical Tracking”, URL <http://chyronhego.com/sports-data/tracab>

次に、顔画像抽出部10は、サッカー選手の位置を基準にして、サッカー選手の顔領域の画像である顔画像を抽出する。この顔画像は、第1撮影部Cが広角で撮影を行っているので、解像度が低くなることが多い。また、顔画像は、映像内におけるサッカー選手の位置に応じて、その解像度(サイズ)が異なる。図4(a)の例では、顔画像の解像度は、横15ピクセル、縦15ピクセルである。 Next, the face image extraction unit 10 extracts a face image which is an image of the face area of the soccer player with reference to the position of the soccer player. The face image, the first imaging section C 1 is performing photographing at a wide angle, is often low resolution. In addition, the resolution (size) of the face image differs depending on the position of the soccer player in the image. In the example of FIG. 4A, the resolution of the face image is 15 pixels in the horizontal direction and 15 pixels in the vertical direction.

なお、顔画像抽出部10は、映像に複数のサッカー選手が含まれる場合、全サッカー選手の顔画像を抽出してもよい。この場合、顔方向推定装置1は、顔画像抽出部10が抽出した全サッカー選手の顔方向を推定することになる。
また、操作者は、操作手段により、顔方向の推定対象となるサッカー選手を指定してもよい。この場合、顔方向推定装置1は、操作者が指定したサッカー選手の顔方向を推定することになる。
When the video includes a plurality of soccer players, the face image extraction unit 10 may extract the face images of all the soccer players. In this case, the face direction estimation device 1 estimates the face directions of all soccer players extracted by the face image extraction unit 10.
Further, the operator may specify a soccer player to be estimated in the face direction by the operation means. In this case, the face direction estimation device 1 estimates the face direction of the soccer player designated by the operator.

画像サイズ正規化部11は、推定モードの場合、顔画像抽出部10から入力した顔画像を、予め設定したサイズに正規化する。例えば、画像サイズ正規化部11は、図4(a)の顔画像を、図4(b)に示すように縦横20ピクセルのサイズに正規化する。
また、画像サイズ正規化部11は、学習モードの場合、操作者が入力した訓練データを、推定モードと同様に正規化する。なお、訓練データの詳細は、後記する。
In the estimation mode, the image size normalization unit 11 normalizes the face image input from the face image extraction unit 10 to a preset size. For example, the image size normalization unit 11 normalizes the face image of FIG. 4 (a) to a size of 20 pixels in length and width as shown in FIG. 4 (b).
Further, in the learning mode, the image size normalization unit 11 normalizes the training data input by the operator in the same manner as in the estimation mode. The details of the training data will be described later.

特徴量計算装置3は、色ヒストグラムを用いて、画像サイズ正規化部11から入力した顔画像の特徴量を計算する。図3に示すように、特徴量計算装置3は、画像領域分割部12と、第1特徴量計算部13と、を備える。 The feature amount calculation device 3 calculates the feature amount of the face image input from the image size normalizing unit 11 by using the color histogram. As shown in FIG. 3, the feature amount calculation device 3 includes an image area dividing unit 12 and a first feature amount calculation unit 13.

画像領域分割部12は、推定モードの場合、画像サイズ正規化部11から入力した顔画像を、i×j個の領域に分割する(iは縦方向の領域分割数を表す2以上の整数、jは横方向の領域分割数を表す2以上の整数)。例えば、画像領域分割部12は、図5に示すように、縦横20ピクセルの顔画像を縦横に4等分し、16個の領域に分割する(i=j=4)。つまり、各領域は、縦横5ピクセルの画像になる。
また、画像領域分割部12は、学習モードの場合、画像サイズ正規化部11から入力した訓練データを、推定モードと同様に分割する。
In the estimation mode, the image area division unit 12 divides the face image input from the image size normalization unit 11 into i × j areas (i is an integer of 2 or more representing the number of area divisions in the vertical direction. j is an integer of 2 or more representing the number of region divisions in the horizontal direction). For example, as shown in FIG. 5, the image area dividing unit 12 divides a face image having 20 pixels in height and width into four equal parts in length and width, and divides the face image into 16 areas (i = j = 4). That is, each area becomes an image of 5 pixels in length and width.
Further, in the learning mode, the image area dividing unit 12 divides the training data input from the image size normalizing unit 11 in the same manner as in the estimation mode.

第1特徴量計算部13は、推定モードの場合、画像領域分割部12から入力した顔画像の領域毎に色ヒストグラムを計算し、計算した領域毎の色ヒストグラムを連結することで、顔画像全体の色ヒストグラムを求める。
また、第1特徴量計算部13は、学習モードの場合、画像領域分割部12から入力した訓練データ全体の色ヒストグラムを、推定モードと同様に求める。
In the estimation mode, the first feature amount calculation unit 13 calculates the color histogram for each area of the face image input from the image area division unit 12, and concatenates the color histograms for each calculated area to form the entire face image. Find the color histogram of.
Further, in the learning mode, the first feature amount calculation unit 13 obtains the color histogram of the entire training data input from the image area dividing unit 12 in the same manner as in the estimation mode.

<色ヒストグラムの計算>
以下、図6を参照し、色ヒストグラムの計算について説明する(適宜図3参照)。
第1特徴量計算部13は、図6(a)の領域画像について、各原色の画像における画素値(輝度値)のヒストグラムを求める。図6(a)の領域画像は、図5の顔画像で左上の領域に対応する画像である。
<Calculation of color histogram>
Hereinafter, the calculation of the color histogram will be described with reference to FIG. 6 (see FIG. 3 as appropriate).
The first feature amount calculation unit 13 obtains a histogram of pixel values (luminance values) in the images of each primary color for the region image of FIG. 6A. The area image of FIG. 6A is an image corresponding to the upper left area of the face image of FIG.

まず、第1特徴量計算部13は、図6(a)の領域画像から、赤色成分を抽出したR画像、緑色成分を抽出したG画像、及び、青色成分を抽出したB画像を生成する。そして、第1特徴量計算部13は、図6(b)に示すように、R画像、G画像及びB画像において、それぞれの画素値の分布を表したヒストグラムを算出する。 First, the first feature amount calculation unit 13 generates an R image from which the red component is extracted, a G image from which the green component is extracted, and a B image from which the blue component is extracted from the region image of FIG. 6A. Then, as shown in FIG. 6B, the first feature amount calculation unit 13 calculates a histogram showing the distribution of each pixel value in the R image, the G image, and the B image.

例えば、第1特徴量計算部13は、画素値が0〜255の範囲となる場合には、この範囲を4等分し、0〜63、64〜127、128〜191、192〜255のグループに分割する。そして、第1特徴量計算部13は、R画像、G画像及びB画像のそれぞれで、各グループに含まれる画素値の数を格納した配列を生成する。例えば、第1特徴量計算部13は、R画像について、0〜63のグループに対応したR[0]と、64〜127のグループに対応したR[1]と、128〜191のグループに対応したR[2]と、192〜255のグループに対応したR[3]とを格納した配列を生成する(G画像及びB画像も同様)。 For example, when the pixel value is in the range of 0 to 255, the first feature amount calculation unit 13 divides this range into four equal groups of 0 to 63, 64-127, 128-191, and 192 to 255. Divide into. Then, the first feature amount calculation unit 13 generates an array in which the number of pixel values included in each group is stored in each of the R image, the G image, and the B image. For example, the first feature amount calculation unit 13 corresponds to R [0] corresponding to the groups 0 to 63, R [1] corresponding to the groups 64 to 127, and the groups 128 to 191 for the R image. An array containing the R [2] and the R [3] corresponding to the groups of 192 to 255 is generated (the same applies to the G image and the B image).

このようにして、第1特徴量計算部13は、図6(a)の領域画像について、R[0]〜R[3]、G[0]〜G[3]、B[0]〜B[3]を要素とする色ヒストグラムを計算できる。さらに、第1特徴量計算部13は、図6(a)以外の領域についても、同様に色ヒストグラムを計算する。その後、第1特徴量計算部13は、左上から右下までの全領域画像の色ヒストグラムを連結し、顔画像全体の色ヒストグラムを求める。 In this way, the first feature amount calculation unit 13 has R [0] to R [3], G [0] to G [3], and B [0] to B for the region image of FIG. 6A. The color histogram with [3] as an element can be calculated. Further, the first feature amount calculation unit 13 calculates the color histogram in the same manner for the regions other than those shown in FIG. 6A. After that, the first feature amount calculation unit 13 concatenates the color histograms of the entire region images from the upper left to the lower right to obtain the color histogram of the entire face image.

図3に戻り、顔方向推定装置1の構成について、説明を続ける。
第1識別部14は、学習モードの場合、顔方向が異なる訓練データの色ヒストグラムを学習した識別器を生成する。また、第1識別部14は、推定モードの場合、この識別器により、顔画像全体の色ヒストグラムから、被写体が各顔方向を向いている確率である信頼度を計算する。
Returning to FIG. 3, the configuration of the face direction estimation device 1 will be described.
In the learning mode, the first discriminator 14 generates a discriminator that has learned the color histograms of the training data having different face directions. Further, in the estimation mode, the first identification unit 14 calculates the reliability, which is the probability that the subject is facing each face direction, from the color histogram of the entire face image by this classifier.

第1識別部14は、機械学習の手法が特に制限されないが、例えば、one‐versus‐restによるマルチクラスSVM(Support Vector Machine)を用いる。本実施形態では、第1識別部14は、顔方向を8方向で定義したので、8クラスのSVMを用いる。 The first identification unit 14 uses, for example, a multi-class SVM (Support Vector Machine) by one-versus-rest, although the machine learning method is not particularly limited. In the present embodiment, since the first identification unit 14 defines the face direction in eight directions, eight classes of SVMs are used.

SVMは、あるクラスと別のクラスとの境界を定義すべく、サポートベクトルとマージンという2つの概念を導入する。サポートベクトルとは、分離超平面から一番近い各クラスのデータのことであり、サポートベクトルから分離超平面までの距離をマージンと呼ぶ。 SVM introduces two concepts, support vectors and margins, to define the boundaries between one class and another. The support vector is the data of each class closest to the separated hyperplane, and the distance from the support vector to the separated hyperplane is called the margin.

2次元の特徴空間において、2クラスの訓練サンプルを与えたこととする。この場合、SVMは、マージンが最大となるように、2クラスの真ん中に分離超平面を引く。また、SVMでは、分離超平面を境界として、2クラスの訓練サンプルを識別(分類)する。すなわち、マルチクラスSVMは、2クラスのSVMを複数用いて、マルチクラスの識別を行う。 It is assumed that two classes of training samples are given in a two-dimensional feature space. In this case, the SVM draws a hyperplane separation in the middle of the two classes so that the margin is maximized. In SVM, two classes of training samples are identified (classified) with the separation hyperplane as the boundary. That is, the multi-class SVM uses a plurality of two-class SVMs to identify the multi-class.

本実施形態では、図7(a)に示すように、センターマーク93を基準にして、サッカーコート90の横方向(図面下方向)をx軸とし、サッカーコート90の縦方向(図面右方向)をy軸とする。そして、図7(b)に示すように、x軸の方向を0°とし、反時計回りに45°おきの8方向で顔方向を定義した。 In the present embodiment, as shown in FIG. 7A, the horizontal direction of the soccer court 90 (downward in the drawing) is the x-axis with reference to the center mark 93, and the vertical direction of the soccer court 90 (right in the drawing). Is the y-axis. Then, as shown in FIG. 7B, the direction of the x-axis was set to 0 °, and the face direction was defined in eight directions at intervals of 45 ° counterclockwise.

<識別器の生成、識別器による信頼度の計算>
以下、識別器の生成と、識別器による信頼度の計算とを順に説明する。
識別器の生成に必要な訓練データを準備する。この訓練データは、サッカー選手の顔方向を表した教師信号(アノテーション)と、サッカー選手の顔画像とを対応付けたデータである。例えば、図8に示すように、訓練データとして、0°から315°までの方向を向いたサッカー選手の顔画像を準備する。
<Generation of classifier, calculation of reliability by classifier>
Hereinafter, the generation of the classifier and the calculation of the reliability by the classifier will be described in order.
Prepare the training data required to generate the classifier. This training data is data in which a teacher signal (annotation) indicating the face direction of a soccer player is associated with a face image of the soccer player. For example, as shown in FIG. 8, as training data, a face image of a soccer player facing a direction from 0 ° to 315 ° is prepared.

なお、図8では、各顔方向の訓練データを1つだけ図示したが、識別精度を向上させるため、訓練データを複数準備することが好ましい。
また、訓練データは、実際にサッカーの試合を撮影した映像から生成してもよく、所定のデータセットを利用してもよい(例えば、参考文献3)。
Although only one training data in each face direction is shown in FIG. 8, it is preferable to prepare a plurality of training data in order to improve the identification accuracy.
Further, the training data may be generated from a video of actually shooting a soccer game, or a predetermined data set may be used (for example, Reference 3).

参考文献3: S. A. Pettersen et al., “Soccer video and player position dataset”, Proc. of the 5th ACM Multimedia Systems Conference, pp.18-23, Mar. 2014. DOI: 10.1145/2557642.2563677 Reference 3: S.A. Pettersen et al., “Soccer video and player position dataset”, Proc. Of the 5th ACM Multimedia Systems Conference, pp.18-23, Mar. 2014. DOI: 10.1145 / 2557642.2563677

操作者は、顔方向推定装置1を学習モードに設定し、訓練データを画像サイズ正規化部11に入力する。すると、顔方向推定装置1は、訓練データのサイズを正規化し、訓練データを複数の領域に分割する。そして、顔方向推定装置1は、訓練データの領域毎に色ヒストグラムを計算及び連結し、訓練データ全体の色ヒストグラムを求める。さらに、第1識別部14は、マルチクラスSVMにより、訓練データ全体の色ヒストグラムを学習し、識別器を生成する。 The operator sets the face direction estimation device 1 to the learning mode and inputs the training data to the image size normalization unit 11. Then, the face direction estimation device 1 normalizes the size of the training data and divides the training data into a plurality of regions. Then, the face direction estimation device 1 calculates and concatenates the color histograms for each area of the training data, and obtains the color histogram of the entire training data. Further, the first discriminator 14 learns the color histogram of the entire training data by the multi-class SVM and generates a discriminator.

次に、操作者は、顔方向推定装置1を推定モードに設定し、第1撮影部Cでサッカーの試合を撮影する。すると、顔方向推定装置1は、第1撮影部Cの映像から顔画像を抽出し、顔画像のサイズを正規化し、顔画像を複数の領域に分割する。そして、顔方向推定装置1は、顔画像の領域毎に色ヒストグラムを計算及び連結し、顔画像全体の色ヒストグラムを求める。さらに、第1識別部14は、顔画像全体の色ヒストグラムを識別器に入力し、この識別器から信頼度の計算結果を得る。 Next, the operator sets the face direction estimating apparatus 1 in estimation mode, shooting a soccer game on the first imaging unit C 1. Then, the face direction estimating apparatus 1, the first imaging unit C 1 video extracts a face image, and normalizes the size of the face image, divides the facial image into a plurality of regions. Then, the face direction estimation device 1 calculates and concatenates the color histograms for each region of the face image, and obtains the color histogram of the entire face image. Further, the first identification unit 14 inputs the color histogram of the entire face image to the classifier, and obtains the calculation result of the reliability from the classifier.

図3に戻り、顔方向推定装置1の構成について、説明を続ける。
第2特徴量計算部15は、推定モードの場合、画像サイズ正規化部11から入力した顔画像のHOGを計算する。
また、第2特徴量計算部15は、学習モードの場合、画像サイズ正規化部11から入力した訓練データのHOGを、推定モードと同様に求める。
Returning to FIG. 3, the configuration of the face direction estimation device 1 will be described.
In the estimation mode, the second feature amount calculation unit 15 calculates the HOG of the face image input from the image size normalization unit 11.
Further, in the learning mode, the second feature amount calculation unit 15 obtains the HOG of the training data input from the image size normalization unit 11 in the same manner as in the estimation mode.

<HOGの計算>
以下、図9を参照して、HOGの計算について説明する(適宜図3参照)。
このHOGは、顔画像の局所領域(セル)での輝度の勾配方向をヒストグラム化したものである。図9(a)に示すように、顔画像全体を1ブロックとし、セルのサイズを縦横に4ピクセルとした。つまり、1ブロックは、縦横に5個のセルを有する。
<Calculation of HOG>
Hereinafter, the calculation of HOG will be described with reference to FIG. 9 (see FIG. 3 as appropriate).
This HOG is a histogram of the gradient direction of the brightness in the local region (cell) of the face image. As shown in FIG. 9A, the entire face image was set as one block, and the cell size was set to 4 pixels vertically and horizontally. That is, one block has five cells vertically and horizontally.

まず、第2特徴量計算部15は、図9(a)の顔画像に含まれる全てのピクセルから、輝度の勾配強度及び勾配方向を求める。図9(a)のセルでは、各ピクセルにおける輝度の勾配強度及び勾配方向を、線分の濃淡と方向で図示した。つまり、図9(a)のセルにおいて、線分の濃淡が輝度の勾配強度を示し、線分の方向が輝度の勾配方向を示す。 First, the second feature amount calculation unit 15 obtains the gradient intensity and the gradient direction of the luminance from all the pixels included in the face image of FIG. 9A. In the cell of FIG. 9A, the gradient intensity and the gradient direction of the luminance at each pixel are shown in the shade and direction of the line segment. That is, in the cell of FIG. 9A, the shade of the line segment indicates the gradient intensity of the luminance, and the direction of the line segment indicates the gradient direction of the luminance.

次に、第2特徴量計算部15は、図9(b)に示すように、セル毎に、輝度の勾配方向を0°〜180°の間で20°間隔で9方向に区分けして、輝度のヒストグラムを生成する。つまり、このヒストグラムは、縦軸が輝度の勾配強度となり、横軸が輝度の勾配方向となる。 Next, as shown in FIG. 9B, the second feature amount calculation unit 15 divides the luminance gradient direction between 0 ° and 180 ° into 9 directions at 20 ° intervals for each cell. Generate a luminance histogram. That is, in this histogram, the vertical axis is the luminance gradient intensity, and the horizontal axis is the luminance gradient direction.

図3に戻り、顔方向推定装置1の構成について、説明を続ける。
第2識別部16は、学習モードの場合、訓練データのHOGを学習した識別器を生成する。また、第2識別部16は、推定モードの場合、この識別器により、顔画像のHOGから信頼度を計算する。
なお、第2識別部16は、色ヒストグラムの代わりにHOGを用いる以外、第1識別部14と同様のため、詳細な説明を省略する。
Returning to FIG. 3, the configuration of the face direction estimation device 1 will be described.
In the learning mode, the second discriminator 16 generates a discriminator that has learned the HOG of the training data. Further, in the case of the estimation mode, the second identification unit 16 calculates the reliability from the HOG of the face image by this classifier.
Since the second identification unit 16 is the same as the first identification unit 14 except that the HOG is used instead of the color histogram, detailed description thereof will be omitted.

識別結果統合部17は、推定モードの場合、色ヒストグラム及びHOGで計算した信頼度を統合することで、被写体の顔方向を推定する。具体的には、識別結果統合部17は、顔方向毎に色ヒストグラムで計算した信頼度とHOGで計算した信頼度とを乗算し、乗算した信頼度が最も高くなる顔方向を被写体の顔方向として推定する。 In the estimation mode, the identification result integration unit 17 estimates the face direction of the subject by integrating the color histogram and the reliability calculated by the HOG. Specifically, the identification result integration unit 17 multiplies the reliability calculated by the color histogram for each face direction and the reliability calculated by HOG, and sets the face direction having the highest multiplied reliability as the face direction of the subject. Estimate as.

つまり、識別結果統合部17は、下記式(1)のように、マルチクラスSVMの信頼度に基づくlate fusionを行う。ここで、p(X)は、顔画像Xがh番目のクラスに属する信頼度、つまり、クラス統合後の識別結果を表す。また、p (X)は、n番目の識別器により、顔画像Xがh番目のクラスに分類される事後確率である。 That is, the identification result integration unit 17 performs late fusion based on the reliability of the multi-class SVM as shown in the following equation (1). Here, p h (X) represents the reliability that the face image X belongs to the hth class, that is, the identification result after class integration. Further, ph n (X) is a posterior probability that the face image X is classified into the hth class by the nth classifier.

なお、nは、何種類目の特徴量であるかを表す整数であり、1≦n≦Nである。また、Nは、顔方向推定装置1で用いる特徴量の最大種類数を表す。本実施形態では、1種類目の特徴量が色ヒストグラムであり、2種類目の特徴量がHOGであるので、N=2となる。 Note that n is an integer indicating the number of types of feature quantities, and 1 ≦ n ≦ N. Further, N represents the maximum number of types of features used in the face direction estimation device 1. In the present embodiment, since the feature amount of the first type is the color histogram and the feature amount of the second type is HOG, N = 2.

また、顔方向が8方向なので、顔方向0°をクラス1、顔方向45°をクラス2、顔方向90°をクラス3、顔方向135°をクラス4、顔方向180°をクラス5、顔方向225°をクラス6、顔方向270°をクラス7、顔方向315°をクラス8と定義する。この場合、hは、何番目のクラスであるかを表す整数であり、1≦h≦Hである。また、Hは、顔方向推定装置1で定義したクラスの最大数を表す。本実施形態では、8クラスを定義したので、H=8となる。 In addition, since the face direction is 8 directions, the face direction 0 ° is class 1, the face direction 45 ° is class 2, the face direction 90 ° is class 3, the face direction 135 ° is class 4, the face direction 180 ° is class 5, and the face. The direction 225 ° is defined as class 6, the face direction 270 ° is defined as class 7, and the face direction 315 ° is defined as class 8. In this case, h is an integer indicating which class it belongs to, and 1 ≦ h ≦ H. Further, H represents the maximum number of classes defined by the face direction estimation device 1. In this embodiment, since 8 classes are defined, H = 8.

本実施形態では、識別結果統合部17は、N=2及びH=8なので、下記式(1−1)の計算を行う。そして、識別結果統合部17は、信頼度p(X)〜p(X)の信頼度のうち、その値が最も高くなるクラスの顔方向を推定結果とする。 In the present embodiment, since the identification result integration unit 17 has N = 2 and H = 8, the following formula (1-1) is calculated. The identification result integration unit 17, among the reliability of the reliability p 1 (X) ~p 8 ( X), the face direction of the class to which the value is the highest estimated results.

例えば、第1識別部14が、クラス1の事後確率p (X)=0.8、クラス2の事後確率p (X)=0.4、…、クラス8の事後確率p (X)=0.05と計算したこととする。また、例えば、第2識別部16が、クラス1の事後確率p (X)=0.7、クラス2の事後確率p (X)=0.5、…、クラス8の事後確率p (X)=0.1と計算したこととする。
なお、説明を簡易にするため、クラス3〜7の事後確率の計算は省略した。
For example, the first identification unit 14 has a class 1 posterior probability p 1 1 (X) = 0.8, a class 2 posterior probability p 2 1 (X) = 0.4, ..., a class 8 posterior probability p 8 It is assumed that 1 (X) = 0.05 is calculated. Further, for example, the second identification unit 16 has a class 1 posterior probability p 1 2 (X) = 0.7, a class 2 posterior probability p 2 2 (X) = 0.5, ..., a class 8 posterior probability. and it was calculated to p 8 2 (X) = 0.1 .
For the sake of simplicity, the calculation of posterior probabilities for classes 3 to 7 is omitted.

この場合、識別結果統合部17は、色ヒストグラムで計算したクラス1の信頼度p (X)=0.8と、HOGで計算した計算したクラス1の信頼度p (X)=0.7とを乗算し、クラス1の信頼度p(X)=0.56を求める。また、識別結果統合部17は、色ヒストグラムで計算したクラス2の信頼度p (X)=0.4と、HOGで計算した計算したクラス2の信頼度p (X)=0.5とを乗算し、クラス2の信頼度p(X)=0.2を求める。そして、識別結果統合部17は、色ヒストグラムで計算したクラス8の信頼度p (X)=0.05と、HOGで計算した計算したクラス8の信頼度p (X)=0.1とを乗算し、クラス8の信頼度p(X)=0.005を求める。さらに、識別結果統合部17は、信頼度p(X)〜p(X)のうち、最高値となるクラス1の顔方向=0°を推定結果とする。 In this case, the identification result integration unit 17, and the reliability p 1 1 (X) = 0.8 for class 1 calculated by the color histogram, the reliability p 1 2 Class 1 calculated calculated in HOG (X) = Multiply by 0.7 to obtain the class 1 reliability p 1 (X) = 0.56. Further, the identification result integration unit 17 has class 2 reliability p 2 1 (X) = 0.4 calculated by the color histogram and class 2 reliability p 2 2 (X) = 0 calculated by HOG. Multiply with .5 to obtain the class 2 reliability p 2 (X) = 0.2. Then, the identification result integration unit 17 has the reliability p 8 1 (X) = 0.05 of the class 8 calculated by the color histogram and the reliability p 8 2 (X) = 0 of the class 8 calculated by the HOG. multiplying the .1 determine the reliability p 8 (X) = 0.005 for class 8. Further, the identification result integration unit 17 sets the highest value of the reliability p 1 (X) to p 8 (X) of the class 1 face direction = 0 ° as the estimation result.

出力部18は、識別結果統合部17が推定した顔方向を外部(例えば、CG合成装置2)に出力する。本実施形態では、出力部18は、顔方向の推定結果として、顔方向を表した数値を出力する。
なお、出力部18は、顔方向を任意の形式で出力可能であり、顔方向を表したCGを生成、出力してもよい。
The output unit 18 outputs the face direction estimated by the identification result integration unit 17 to the outside (for example, the CG synthesizer 2). In the present embodiment, the output unit 18 outputs a numerical value representing the face direction as the estimation result of the face direction.
The output unit 18 can output the face direction in any format, and may generate and output CG representing the face direction.

[作用・効果]
以上のように、本発明の第1実施形態に係る顔方向推定装置1は、各画素の位置情報を記述するために顔画像を領域分割し、それぞれの領域で色ヒストグラムを計算するので、従来技術に比べて、特徴量の次元数を少なくできる(例えば、RGB各色のビン数が4なので、色ヒストグラムで合計12次元)。さらに、顔方向推定装置1は、顔画像の領域毎に色ヒストグラムを計算するので、顔画像内での頭部位置の変化、顔画像の解像度低下やノイズ重畳の影響を受けにくくなる。これにより、顔方向推定装置1は、学習及び識別の処理負荷を軽減し、サッカー選手の顔方向をリアルタイムで推定することができる。
[Action / Effect]
As described above, the face direction estimation device 1 according to the first embodiment of the present invention divides the face image into regions in order to describe the position information of each pixel, and calculates the color histogram in each region. Compared with the technology, the number of dimensions of the feature amount can be reduced (for example, since the number of bins of each RGB color is 4, the total of 12 dimensions in the color histogram). Further, since the face direction estimation device 1 calculates the color histogram for each region of the face image, it is less susceptible to changes in the head position in the face image, reduction in resolution of the face image, and noise superposition. As a result, the face direction estimation device 1 can reduce the processing load of learning and identification and estimate the face direction of the soccer player in real time.

さらに、顔方向推定装置1は、色に関連した特徴量である色ヒストグラム、及び、形状に関連した特徴量であるHOGのように、特性が異なる特徴量を併用するので、サッカー選手の顔方向を高精度に推定することができる。
なお、顔方向推定装置1の動作は、第2実施形態で説明する。
Further, since the face direction estimation device 1 uses feature amounts having different characteristics such as the color histogram, which is a feature amount related to color, and HOG, which is a feature amount related to shape, the face direction of a soccer player. Can be estimated with high accuracy.
The operation of the face direction estimation device 1 will be described in the second embodiment.

(第2実施形態)
[顔方向推定装置の構成]
図10を参照し、本発明の第2実施形態に係る顔方向推定装置1Bの構成について、第1実施形態と異なる点を説明する。
(Second Embodiment)
[Configuration of face direction estimation device]
With reference to FIG. 10, the configuration of the face direction estimation device 1B according to the second embodiment of the present invention will be described as being different from the first embodiment.

第1実施形態では、色ヒストグラム及びHOGという2種類の特徴量を用いることとして説明した。第2実施形態では、N−1種類の第2特徴量及び色ヒストグラムを合わせて、N種類の特徴量を用いる点が、第1実施形態と異なる。 In the first embodiment, it has been described that two types of feature quantities, the color histogram and the HOG, are used. The second embodiment is different from the first embodiment in that N-1 types of second feature amounts and color histograms are combined and N types of feature amounts are used.

図10に示すように、顔方向推定装置1Bは、特徴量計算装置3と、顔画像抽出部10と、画像サイズ正規化部11と、第1識別部14と、第2特徴量計算部15(15〜15)と、第2識別部16(16〜16)と、識別結果統合部(顔方向推定部)17Bと、出力部18と、を備える。 As shown in FIG. 10, the face direction estimation device 1B includes a feature amount calculation device 3, a face image extraction unit 10, an image size normalization unit 11, a first identification unit 14, and a second feature amount calculation unit 15. It includes a (15 2 to 15 N), and the second identification portion 16 (16 2 ~ 16 N), and the identification result integration unit (face direction estimating section) 17B, and an output unit 18.

つまり、顔方向推定装置1Bは、第2特徴量の種類毎に、第2特徴量計算部15と第2識別部16との組を備える。言い換えるなら、顔方向推定装置1Bは、第2特徴量計算部15と第2識別部16との組をN−1個だけ備える。 That is, the face direction estimation device 1B includes a set of the second feature amount calculation unit 15 and the second identification unit 16 for each type of the second feature amount. In other words, the face direction estimation device 1B includes only N-1 pairs of the second feature amount calculation unit 15 and the second identification unit 16.

ここで、顔方向推定装置1Bは、組み合わせ可能な特徴量の種類及び数が特に制限されず、特性が異なる第2特徴量を併用することが好ましい。また、顔方向推定装置1Bは、色に関連した特徴量(色ヒストグラム)を用いるので、色以外に関連した第2特徴量を併用することがより好ましい。 Here, in the face direction estimation device 1B, the types and numbers of the feature amounts that can be combined are not particularly limited, and it is preferable to use the second feature amounts having different characteristics together. Further, since the face direction estimation device 1B uses the feature amount (color histogram) related to the color, it is more preferable to use the second feature amount related to other than the color together.

例えば、顔方向推定装置1Bは、第1実施形態と同様、2種類目の特徴量として、形状に関連したHOGを用いてもよい。また、顔方向推定装置1Bは、3種類目の特徴量として、エッジに関連したEOG(Edge of Orientation Histogram)を用いてもよい。さらに、顔方向推定装置1Bは、SIFT(Scale-Invariant Feature Transform)、SURF(Speeded Up Robust Features)等の特徴量を用いてもよい。SIFT又はSURFを用いる場合、顔方向推定装置1Bは、顔画像の画素数が少ないため特徴点を抽出せず、固定グリッドで特徴量を記述することが好ましい(dense sampling)。 For example, the face direction estimation device 1B may use a shape-related HOG as the second type of feature amount as in the first embodiment. Further, the face direction estimation device 1B may use an EOG (Edge of Orientation Histogram) related to the edge as the third type of feature amount. Further, the face direction estimation device 1B may use a feature amount such as SIFT (Scale-Invariant Feature Transform) and SURF (Speeded Up Robust Features). When SIFT or SURF is used, it is preferable that the face direction estimation device 1B does not extract feature points because the number of pixels of the face image is small, and describes the feature amount on a fixed grid (dense sampling).

第2特徴量計算部15(15〜15)は、第2特徴量の種類毎に、画像サイズ正規化部11から入力した顔画像及び訓練データの第2特徴量を計算する。具体的には、第2特徴量計算部15は、顔画像及び訓練データから1種類目の第2特徴量を計算する。また、第2特徴量計算部15は、顔画像及び訓練データから2種類目の第2特徴量を計算する。さらに、第2特徴量計算部15は、顔画像及び訓練データからN−1種類目の第2特徴量を計算する。
なお、第2特徴量計算部15(15〜15)は、学習モード及び推定モードでの処理内容が第1実施形態と同様のため、これ以上の説明を省略する。
The second feature quantity calculating unit 15 (15 2 ~15 N), for each type of the second feature amount, calculates a second characteristic amount of the face image and the training data input from the image size normalization section 11. Specifically, the second feature quantity calculating unit 15 2 calculates the second feature quantity of the first type from the face image and the training data. The second feature quantity calculator 15 3 calculates a second characteristic amount of the second type from the face image and the training data. Further, the second feature amount calculation unit 15 N calculates the second feature amount of the N-1 type from the face image and the training data.
Note that the second feature quantity calculator 15 (15 2 ~15 N), because processing of the learning mode and estimation mode is similar to the first embodiment, further explanation is omitted here.

第2識別部16(16〜16)は、学習モードの場合、第2特徴量の種類毎に、訓練データの第2特徴量を学習した識別器を生成する。また、第2識別部16(16〜16)は、推定モードの場合、第2特徴量の種類毎に、この識別器により、顔画像の第2特徴量から信頼度を計算する。 Second identification portion 16 (16 2 ~16 N), when the learning mode, for each type of the second feature quantity, generates a classifier learned the second feature amount of training data. The second identifying unit 16 (16 2 ~16 N), when the estimated mode for each type of the second feature quantity by the discriminator, calculates reliability from a second characteristic amount of the face image.

具体的には、第2識別部16は、1種類目の第2特徴量により、識別器の生成及び信頼度の計算を行う。また、第2識別部16は、2種類目の第2特徴量により、識別器の生成及び信頼度の計算を行う。さらに、第2識別部16は、N−1種類目の第2特徴量により、識別器の生成及び信頼度の計算を行う。
なお、第2識別部16(16〜16)は、学習モード及び推定モードでの処理内容が第1実施形態と同様のため、これ以上の説明を省略する。
Specifically, the second identifying unit 16 2, the second feature quantity of the first type, and generates and reliability calculation discriminator. Further, the second identification portion 16 3, the second feature quantity of the second type, and generates and reliability calculation discriminator. Further, the second identification unit 16 N generates the classifier and calculates the reliability based on the second feature amount of the N-1th type.
Incidentally, the second identification portion 16 (16 2 ~16 N), because processing of the learning mode and estimation mode is similar to the first embodiment, further explanation is omitted here.

識別結果統合部17Bは、推定モードの場合、第1識別部14及び第2識別部16〜16で計算した信頼度を統合することで、被写体の顔方向を推定する。具体的には、識別結果統合部17Bは、顔方向毎に色ヒストグラム、及び、それぞれの第2特徴量で計算した信頼度を乗算し、乗算した信頼度が最も高くなる顔方向を被写体の顔方向として推定する。つまり、識別結果統合部17Bは、前記した式(1)により、顔方向毎の信頼度を計算し、その値が最も高くなるクラスの顔方向を推定結果とする。 Identification result integration unit 17B, when the estimation mode, by integrating the calculated confidence in the first identifying unit 14 and the second identifying unit 16 2 ~ 16 N, to estimate the face direction of the object. Specifically, the identification result integration unit 17B multiplies the color histogram for each face direction and the reliability calculated by the second feature amount of each, and sets the face direction having the highest reliability as the subject's face. Estimate as direction. That is, the identification result integration unit 17B calculates the reliability for each face direction by the above equation (1), and sets the face direction of the class having the highest value as the estimation result.

[顔方向推定装置の動作:学習モード]
図11を参照し、顔方向推定装置1Bの学習モードの動作について説明する(適宜図10参照)。この学習モードでは、操作者が顔方向推定装置1Bに複数の訓練データを入力し、顔方向推定装置1Bが訓練データを1個ずつ学習する。
なお、図11では、n種類目の特徴量を特徴量(n)と図示した(図12も同様)。
[Operation of face direction estimation device: learning mode]
The operation of the learning mode of the face direction estimation device 1B will be described with reference to FIG. 11 (see FIG. 10 as appropriate). In this learning mode, the operator inputs a plurality of training data into the face direction estimation device 1B, and the face direction estimation device 1B learns the training data one by one.
In FIG. 11, the nth type of feature amount is shown as a feature amount (n) (the same applies to FIG. 12).

画像サイズ正規化部11は、訓練データのサイズを正規化する(ステップS10)。
顔方向推定装置1Bは、何種類目の特徴量であるかを表す整数nを1に初期化する(ステップS11)。
The image size normalization unit 11 normalizes the size of the training data (step S10).
The face direction estimation device 1B initializes the integer n indicating which type of feature amount is 1 to 1. (Step S11).

顔方向推定装置1Bは、n種類目の特徴量で領域分割が必要か否かを判定する。ここで、顔方向推定装置1Bは、領域分割が必要な特徴量(例えば、色ヒストグラム)、及び、領域分割が必要でない特徴量(例えば、HOG)を予め設定し、その設定結果に基づいて判定を行う。ここで、顔方向推定装置1Bは、n=1(色ヒストグラム)の場合、領域分割が必要と判定する。一方、顔方向推定装置1Bは、n=2(HOG)の場合、領域分割が必要でないと判定する(ステップS12)。 The face direction estimation device 1B determines whether or not region division is necessary based on the nth type of feature amount. Here, the face direction estimation device 1B sets in advance a feature amount that requires region division (for example, a color histogram) and a feature amount that does not require region division (for example, HOG), and determines based on the setting result. I do. Here, the face direction estimation device 1B determines that region division is necessary when n = 1 (color histogram). On the other hand, the face direction estimation device 1B determines that the region division is not necessary when n = 2 (HOG) (step S12).

領域分割が必要な場合(ステップS12でYes)、画像領域分割部12は、訓練データを、i×j個の領域に分割する(ステップS13)。
第1特徴量計算部13は、訓練データのそれぞれの領域について、色ヒストグラムを計算する。そして、第1特徴量計算部13は、それぞれの領域の色ヒストグラムを連結し、訓練データ全体の色ヒストグラムを求める(ステップS14)。
第1識別部14は、訓練データの色ヒストグラムを学習した識別器を生成する(ステップS15)。
When region division is required (Yes in step S12), the image region division unit 12 divides the training data into i × j regions (step S13).
The first feature amount calculation unit 13 calculates the color histogram for each region of the training data. Then, the first feature amount calculation unit 13 concatenates the color histograms of the respective regions and obtains the color histogram of the entire training data (step S14).
The first discriminator 14 generates a discriminator that has learned the color histogram of the training data (step S15).

領域分割が必要でない場合(ステップS12でNo)、第2特徴量計算部15は、訓練データのn種類目の特徴量を計算する(ステップS16)。
第2識別部16は、訓練データのn種類目の特徴量を学習した識別器を生成する(ステップS17)。
If you do not need Segmentation (No in step S12), the second feature quantity calculator 15 n calculates the feature quantity of n types th training data (step S16).
The second identification section 16 n, and generates a classifier learned feature quantity of n types th training data (step S17).

顔方向推定装置1Bは、整数nが特徴量の最大種類数Nに一致するか否かにより、全種類の特徴量で識別器を生成したか否かを判定する(ステップS18)。
整数nが最大種類数Nに一致しない場合(ステップ18でNo)、顔方向推定装置1Bは、整数nをインクリメントし(ステップS19)、ステップS12の処理に戻る。
The face direction estimation device 1B determines whether or not the classifier has been generated for all types of feature amounts based on whether or not the integer n matches the maximum number of types N of the feature amounts (step S18).
When the integer n does not match the maximum number of types N (No in step 18), the face direction estimation device 1B increments the integer n (step S19) and returns to the process of step S12.

整数nが最大種類数Nに一致する場合(ステップ18でYes)、顔方向推定装置1Bは、全訓練データの学習を終了したか否かを判定する(ステップS20)。
全訓練データの学習を終了していない場合(ステップS20でNo)、顔方向推定装置1Bは、ステップS10の処理に戻り、次の訓練データを学習する。
全訓練データの学習を終了した場合(ステップS20でYes)、顔方向推定装置1Bは、学習モードを終了する。
このように、学習モードにより、顔方向推定装置1Bは、サッカー選手の顔方向の推定に必要な識別器を生成できる。
When the integer n matches the maximum number of types N (Yes in step 18), the face direction estimation device 1B determines whether or not the learning of all training data has been completed (step S20).
When the learning of all training data is not completed (No in step S20), the face direction estimation device 1B returns to the process of step S10 and learns the next training data.
When the learning of all the training data is completed (Yes in step S20), the face direction estimation device 1B ends the learning mode.
In this way, the learning mode allows the face direction estimation device 1B to generate a classifier necessary for estimating the face direction of a soccer player.

[顔方向推定装置の動作:推定モード]
図12を参照し、顔方向推定装置1Bの推定モードの動作について説明する(適宜図10参照)。
[Operation of face direction estimation device: estimation mode]
The operation of the estimation mode of the face direction estimation device 1B will be described with reference to FIG. 12 (see FIG. 10 as appropriate).

顔方向推定装置1Bは、第1撮影部Cが撮影したサッカーの試合映像を入力する(ステップS30)。
顔画像抽出部10は、映像に被写体追跡処理を施し、サッカー選手の位置を求める。そして、顔画像抽出部10は、サッカー選手の位置を基準にして、サッカー選手の顔画像を抽出する(ステップS31)。
Face direction estimating apparatus 1B, the first imaging section C 1 inputs a game image of a soccer captured (step S30).
The face image extraction unit 10 performs subject tracking processing on the image to obtain the position of the soccer player. Then, the face image extraction unit 10 extracts the face image of the soccer player based on the position of the soccer player (step S31).

このステップS31において、サッカーの試合映像に複数のサッカー選手が含まれる場合、顔画像抽出部10は、全サッカー選手の顔画像を抽出してもよく、操作者が指定したサッカー選手の顔画像を抽出してもよい。推定モードでは、顔方向推定装置1Bが、顔画像を1個ずつ推定する。 In step S31, when a plurality of soccer players are included in the soccer match video, the face image extraction unit 10 may extract the face images of all the soccer players, and the face image of the soccer player designated by the operator may be extracted. It may be extracted. In the estimation mode, the face direction estimation device 1B estimates face images one by one.

画像サイズ正規化部11は、顔画像のサイズを正規化する(ステップS32)。
顔方向推定装置1Bは、何種類目の特徴量であるかを表す整数nを1に初期化する(ステップS33)。
顔方向推定装置1Bは、図11のステップS12と同様、n種類目の特徴量で領域分割が必要か否かを判定する(ステップS34)。
The image size normalization unit 11 normalizes the size of the face image (step S32).
The face direction estimation device 1B initializes the integer n indicating the number of types of feature quantities to 1 (step S33).
Similar to step S12 in FIG. 11, the face direction estimation device 1B determines whether or not region division is necessary for the nth type of feature amount (step S34).

領域分割が必要な場合(ステップS34でYes)、画像領域分割部12は、顔画像を、i×j個の領域に分割する(ステップS35)。
第1特徴量計算部13は、顔画像のそれぞれの領域について、色ヒストグラムを計算する。そして、第1特徴量計算部13は、それぞれの領域の色ヒストグラムを連結し、顔画像全体の色ヒストグラムを求める(ステップS36)。
第1識別部14は、色ヒストグラムを学習した識別器により、顔画像全体の色ヒストグラムから信頼度を計算する(ステップS37)。
When the region division is required (Yes in step S34), the image region division unit 12 divides the face image into i × j regions (step S35).
The first feature amount calculation unit 13 calculates the color histogram for each region of the face image. Then, the first feature amount calculation unit 13 connects the color histograms of the respective regions to obtain the color histogram of the entire face image (step S36).
The first identification unit 14 calculates the reliability from the color histogram of the entire face image by the classifier that has learned the color histogram (step S37).

領域分割が必要でない場合(ステップS34でNo)、第2特徴量計算部15は、顔画像のn種類目の特徴量を計算する(ステップS38)。
第2識別部16は、n種類目の特徴量を学習した識別器により、顔画像でn種類目の特徴量から信頼度を計算する(ステップS39)。
If you do not need Segmentation (No in step S34), the second feature quantity calculator 15 n calculates the feature quantity of n types th face image (step S38).
The second identifying unit 16 n, the identifier learned feature quantity of n types th, calculates the reliability from the feature of n type th in the face image (step S39).

顔方向推定装置1Bは、整数nが特徴量の最大種類数Nに一致するか否かにより、全種類の特徴量で信頼度を計算したか否かを判定する(ステップS40)。
整数nが最大種類数Nに一致しない場合(ステップ40でNo)、顔方向推定装置1Bは、整数nをインクリメントし(ステップS41)、ステップS34の処理に戻る。
The face direction estimation device 1B determines whether or not the reliability is calculated for all types of feature amounts based on whether or not the integer n matches the maximum number of types N of the feature amounts (step S40).
When the integer n does not match the maximum number of types N (No in step 40), the face direction estimation device 1B increments the integer n (step S41) and returns to the process of step S34.

整数nが最大種類数Nに一致する場合(ステップS40でYes)、識別結果統合部17Bは、1種類目からn種類目までの信頼度を統合し、顔方向を推定する(ステップS42)。
顔方向推定装置1Bは、全顔画像の顔方向の推定を終了したか否かを判定する(ステップS43)。
全顔画像の顔方向の推定を終了していない場合(ステップS43でNo)、顔方向推定装置1Bは、ステップS32の処理に戻り、次の顔画像の顔方向を推定する。
When the integer n matches the maximum number of types N (Yes in step S40), the identification result integration unit 17B integrates the reliability of the first type to the nth type and estimates the face direction (step S42).
The face direction estimation device 1B determines whether or not the estimation of the face direction of all face images has been completed (step S43).
When the estimation of the face direction of all face images is not completed (No in step S43), the face direction estimation device 1B returns to the process of step S32 and estimates the face direction of the next face image.

全顔画像の顔方向の推定を終了した場合(ステップS43でYes)、出力部18は、識別結果統合部17Bが推定した全顔画像の顔方向を外部(例えば、CG合成装置2)に出力し(ステップS44)、推定モードを終了する。
このように、推定モードにより、顔方向推定装置1Bは、サッカー選手の顔方向を推定できる。
When the estimation of the face direction of the whole face image is completed (Yes in step S43), the output unit 18 outputs the face direction of the whole face image estimated by the identification result integration unit 17B to the outside (for example, the CG synthesizer 2). (Step S44), the estimation mode is terminated.
In this way, the face direction estimation device 1B can estimate the face direction of the soccer player by the estimation mode.

[作用・効果]
本発明の第2実施形態に係る顔方向推定装置1Bは、顔画像の領域毎に色ヒストグラムを計算するので、第1実施形態と同様、特徴量の次元数を少なくし、サッカー選手の顔方向をリアルタイムで推定することができる。さらに、顔方向推定装置1Bは、色ヒストグラム、及び、1以上の任意の第2特徴量を併用するので、サッカー選手の顔方向を高精度に推定することができる。
[Action / Effect]
Since the face direction estimation device 1B according to the second embodiment of the present invention calculates the color histogram for each region of the face image, the number of dimensions of the feature amount is reduced and the face direction of the soccer player is reduced as in the first embodiment. Can be estimated in real time. Further, since the face direction estimation device 1B uses the color histogram and one or more arbitrary second feature amounts in combination, the face direction of the soccer player can be estimated with high accuracy.

(変形例)
以上、本発明の各実施形態を詳述してきたが、本発明は前記した各実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。
前記した各実施形態では、顔方向を8方向で識別することとして説明したが、これに限定されない。例えば、顔方向推定装置は、顔方向を4方向又は16方向で推定してもよい。
(Modification example)
Although each embodiment of the present invention has been described in detail above, the present invention is not limited to each of the above-described embodiments, and includes design changes and the like within a range not deviating from the gist of the present invention.
In each of the above-described embodiments, the face direction is identified in eight directions, but the present invention is not limited to this. For example, the face direction estimation device may estimate the face direction in 4 directions or 16 directions.

前記した各実施形態では、顔方向推定装置が、識別器を事前に学習することとして説明したが、これに限定されない。例えば、顔方向推定装置は、オンライン学習により、識別器を学習しながら、リアルタイムで顔方向を推定することができる。 In each of the above embodiments, the face orientation estimator has been described as learning the classifier in advance, but is not limited thereto. For example, the face direction estimation device can estimate the face direction in real time while learning the classifier by online learning.

前記した各実施形態では、顔方向推定装置が、one‐versus‐restによるマルチクラスSVMを用いることとして説明したが、これに限定されない。例えば、顔方向推定装置は、ランダムフォレスト、ニューラルネットワーク等の機械学習を用いてもよい。 In each of the above embodiments, the face orientation estimator has been described as using a multi-class SVM by one-versus-rest, but is not limited thereto. For example, the face direction estimation device may use machine learning such as a random forest or a neural network.

前記した各実施形態では、顔方向推定装置が、サッカー選手の顔方向を推定することとして説明したが、これに限定されない。例えば、顔方向推定装置は、サッカー以外のスポーツ映像に含まれる選手の顔方向を推定できる。また、顔方向推定装置は、監視カメラの映像に含まれる人物の顔方向を推定してもよい。 In each of the above-described embodiments, the face direction estimation device has been described as estimating the face direction of a soccer player, but the present invention is not limited to this. For example, the face direction estimation device can estimate the face direction of a player included in a sports image other than soccer. Further, the face direction estimation device may estimate the face direction of a person included in the image of the surveillance camera.

前記した各実施形態では、顔方向推定装置を独立したハードウェアとして説明したが、これに限定されない。例えば、顔方向推定装置は、コンピュータが備えるCPU、メモリ、ハードディスク等のハードウェア資源を、前記した各手段として協調動作させる顔方向推定プログラムで実現することもできる。このプログラムは、通信回線を介して配布してもよく、CD−ROMやフラッシュメモリ等の記録媒体に書き込んで配布してもよい。 In each of the above embodiments, the face orientation estimation device has been described as independent hardware, but the present invention is not limited thereto. For example, the face direction estimation device can also be realized by a face direction estimation program in which hardware resources such as a CPU, a memory, and a hard disk included in a computer are cooperatively operated as the above-mentioned means. This program may be distributed via a communication line, or may be written and distributed on a recording medium such as a CD-ROM or a flash memory.

前記した各実施形態では、顔方向推定装置が特徴量計算装置を備えることとして説明したが、これに限定されない。つまり、特徴量計算装置は、顔方向推定装置に組み込むことなく、独立したハードウェアとして利用することができる。 In each of the above-described embodiments, the face direction estimation device is described as including the feature amount calculation device, but the present invention is not limited to this. That is, the feature amount calculation device can be used as independent hardware without being incorporated in the face direction estimation device.

本発明の実施例として、本発明に係る顔方向推定装置の評価試験の結果について説明する。
本発明に係る顔方向推定プログラムをコンピュータにインストールし、第1実施形態と同様の構成とした。このコンピュータは、CPUがインテル株式会社製の「Core(登録商標) i7‐4790 3.60GHz」であり、RAMが16GBであり、OSがマイクロソフト社製の「WINDOWS(登録商標)7 Pro SP1 64bit」である。また、顔方向推定プログラムは、Python3.5.1の環境においてシングルスレッドで実装した。以下、顔方向推定プログラムを実装したコンピュータを、顔方向推定装置とする。
As an example of the present invention, the result of the evaluation test of the face direction estimation device according to the present invention will be described.
The face orientation estimation program according to the present invention was installed on a computer to have the same configuration as that of the first embodiment. This computer has a CPU of "Core (registered trademark) i7-4790 3.60 GHz" manufactured by Intel Corporation, a RAM of 16 GB, and an OS of "WINDOWS (registered trademark) 7 Pro SP1 64 bit" manufactured by Microsoft. Is. The face orientation estimation program was implemented in a single thread in the environment of Python 3.5.1. Hereinafter, a computer equipped with a face direction estimation program will be referred to as a face direction estimation device.

本発明に係る顔方向推定装置の評価試験には、サッカーの試合映像を用いた。第1撮影部は、キヤノン株式会社製の「XA25」の1台で撮影を行った。第1撮影部は、センターライン付近の観客席に配置し、サッカーコートの半分が映る画角で撮影した。センターマークの原点を(0,0)とすれば、第1撮影部の座標は、(34,0)付近の観客席を表す。 In the evaluation test of the face direction estimation device according to the present invention, a soccer match image was used. The first shooting section shot with one of the "XA25" manufactured by Canon Inc. The first shooting section was placed in the audience seats near the center line and shot at an angle of view that reflected half of the soccer court. Assuming that the origin of the center mark is (0,0), the coordinates of the first photographing unit represent the audience seats near (34.0).

評価試験では、正解ラベル(教師信号)を手入力とし、各クラス均等に合計800サンプルを用意した。サンプルの75%を訓練データ、残り25%を評価データ(顔画像)とした。HOGのパラメータは、1セルを4×4ピクセル、1ブロックを5×5セルとした。色ヒストグラムのパラメータは、領域分割数をi=j=4とし、RGB各色についてビン数を4とした。そして、識別器の生成及び顔方向の推定を50回試行し、推定結果を平均した。これを実施例1とする。 In the evaluation test, the correct answer label (teacher signal) was manually input, and a total of 800 samples were prepared evenly for each class. 75% of the sample was training data, and the remaining 25% was evaluation data (face image). The parameters of HOG were 4 × 4 pixels per cell and 5 × 5 cells per block. As the parameters of the color histogram, the number of region divisions was set to i = j = 4, and the number of bins was set to 4 for each RGB color. Then, the generation of the classifier and the estimation of the face direction were tried 50 times, and the estimation results were averaged. This is referred to as Example 1.

また、特徴量計算装置(領域分割する色ヒストグラム)の評価実験を行った。これを参考例1とする。この参考例1において、コンピュータの仕様、サンプル、特徴量のパラメータ、試行回数等の評価条件は、実施例1と同等であった。 In addition, an evaluation experiment was conducted on the feature amount calculation device (color histogram that divides the area). This is referred to as Reference Example 1. In Reference Example 1, the evaluation conditions such as computer specifications, samples, feature quantity parameters, and number of trials were the same as those in Example 1.

実施例1と比較すべく、iDF、cDF及びIFを組み合わせて評価実験を行った。このとき、iDF及びcDFのパラメータは、ペア数=10000とした。これを比較例1とする。HOG及びCTCを組み合わせて評価実験を行い、これを比較例2とした。さらに、HOGのみで評価実験を行い、これを比較例3とした。比較例1〜3の評価条件は、実施例1,2と同等であった。 An evaluation experiment was conducted in combination with iDF, cDF and IF in order to compare with Example 1. At this time, the parameters of iDF and cDF were set to the number of pairs = 10000. This is referred to as Comparative Example 1. An evaluation experiment was conducted by combining HOG and CTC, and this was designated as Comparative Example 2. Further, an evaluation experiment was conducted using only HOG, and this was designated as Comparative Example 3. The evaluation conditions of Comparative Examples 1 to 3 were the same as those of Examples 1 and 2.

図13では、「iDF+cDF+IF」が比較例1であり、「CTC+HOG」が比較例2であり、「HOG」が比較例3であり、「Color histograms」が参考例1であり、「Proposed」が実施例1である(図14〜図19も同様)。 In FIG. 13, "iDF + cDF + IF" is Comparative Example 1, "CTC + HOG" is Comparative Example 2, "HOG" is Comparative Example 3, "Color histograms" is Reference Example 1, and "Proposed" is carried out. Example 1 (the same applies to FIGS. 14 to 19).

また、図13には、実施例1、参考例1及び比較例1〜3の識別性能として、正解率(Accuracy)、適合率(Precision)、再現率(Recall)、F値(F-measure)を示した。図13より、実施例1は、全項目で比較例1〜3を上回っており、HOGと色ヒストグラムとを組み合わせたことで、良好な識別性能を有することが分かった。 Further, in FIG. 13, the accuracy rate (Accuracy), precision rate (Precision), recall rate (Recall), and F value (F-measure) are shown as the discrimination performances of Example 1, Reference Example 1, and Comparative Examples 1 to 3. showed that. From FIG. 13, it was found that Example 1 exceeded Comparative Examples 1 to 3 in all items, and had good discrimination performance by combining the HOG and the color histogram.

図14には、実施例1、参考例1及び比較例1〜3の計算時間として、1サンプルあたりの特徴量抽出時間(Feature extraction)、学習時間(Training)、識別時間(Classifying)を示した。図14より、実施例1は、3つの合計時間が約3.3msとなり、リアルタイム(29.97fps相当)で処理できることが分かった。 FIG. 14 shows the feature extraction time (Feature extraction), training time (Training), and identification time (Classifying) per sample as the calculation times of Example 1, Reference Example 1, and Comparative Examples 1 to 3. .. From FIG. 14, it was found that in Example 1, the total time of the three was about 3.3 ms, and the processing could be performed in real time (equivalent to 29.97 fps).

図15〜図19には、実施例1、参考例1及び比較例1〜3の識別結果として、混同行列(Confusion matrix)を示した。この混同行列は、縦軸が訓練データの顔方向を表し、横軸が評価データの顔方向を表す。また、混同行列は、数値が識別数を表し、濃淡が信頼度を表す。これら混同行列では、左上から右下まで対角線上の項目において、識別数が多く、信頼度が高くなれば、識別結果が良好であると言える。 15 to 19 show a confusion matrix as the identification results of Example 1, Reference Example 1 and Comparative Examples 1 to 3. In this confusion matrix, the vertical axis represents the face direction of the training data, and the horizontal axis represents the face direction of the evaluation data. In the confusion matrix, the numerical value represents the number of identifications and the shade represents the reliability. In these confusion matrices, it can be said that the identification result is good if the number of identifications is large and the reliability is high in the items on the diagonal line from the upper left to the lower right.

図15〜図19より、実施例1は、比較例1〜3と比較して、同程度の推定精度を有することが分かった。また、実施例1は、隣接するクラス間で誤分類が発生している。その理由としては、訓練及び識別のプロセスに起因するものの他、アノテーションにおける顔方向の判断の影響もあると考えられる。つまり、アノテーションの明確な基準がなく、顔方向を人間の主観で判断しているため、例えば、顔方向が0°と45°との中間のように見える場合、アノテーションをどちらにするか判断が困難である。このように、アノテーションが誤分類の原因になると考えられる。 From FIGS. 15 to 19, it was found that Example 1 had the same degree of estimation accuracy as Comparative Examples 1 to 3. Further, in the first embodiment, misclassification occurs between adjacent classes. The reason may be due to the process of training and identification, as well as the influence of facial orientation judgment in annotation. In other words, since there is no clear standard for annotation and the face direction is judged by human subjectivity, for example, when the face direction looks between 0 ° and 45 °, it is decided which annotation to use. Have difficulty. In this way, annotations are considered to cause misclassification.

1,1B 顔方向推定装置
3 特徴量計算装置
10 顔画像抽出部
11 画像サイズ正規化部
12 画像領域分割部
13 第1特徴量計算部
14 第1識別部
15,15〜15 第2特徴量計算部
16,16〜16 第2識別部
17,17B 識別結果統合部(顔方向推定部)
18 出力部
1,1B Face direction estimation device 3 Feature calculation device 10 Face image extraction unit 11 Image size normalization unit 12 Image area division unit 13 First feature amount calculation unit 14 First identification unit 15, 15 2 to 15 N Second feature Quantitative calculation unit 16, 16 2 to 16 N Second identification unit 17, 17B Identification result integration unit (face direction estimation unit)
18 Output section

Claims (5)

色ヒストグラム、及び、前記色ヒストグラムと異なる1種類以上の第2特徴量を用いて、被写体の顔画像から前記被写体の顔方向を推定する顔方向推定装置であって、
前記顔画像を入力し、入力した前記顔画像を複数の領域に分割する画像領域分割部と、
前記領域毎の色ヒストグラムを計算し、計算した前記領域毎の色ヒストグラムを連結することで、前記顔画像全体の色ヒストグラムを求める第1特徴量計算部と、
顔方向が異なる訓練データの色ヒストグラムを学習した識別器により、前記顔画像全体の色ヒストグラムから、前記被写体が各顔方向を向いている確率である信頼度を計算する第1識別部と、
前記第2特徴量の種類毎に、前記顔画像の第2特徴量を計算する第2特徴量計算部と、
前記第2特徴量の種類毎に、前記訓練データの第2特徴量を学習した識別器により、前記顔画像の第2特徴量から、前記信頼度を計算する第2識別部と、
色ヒストグラム及び前記第2特徴量の種類毎に計算した信頼度を統合することで、前記被写体の顔方向を推定する顔方向推定部と、
を備えることを特徴とする顔方向推定装置。
A face direction estimation device that estimates the face direction of the subject from the face image of the subject by using the color histogram and one or more types of second feature quantities different from the color histogram.
An image area dividing unit that inputs the face image and divides the input face image into a plurality of areas.
The first feature amount calculation unit for obtaining the color histogram of the entire face image by calculating the color histogram for each region and concatenating the calculated color histogram for each region.
A first discriminator that calculates the reliability, which is the probability that the subject is facing each face direction, from the color histogram of the entire face image by the classifier that has learned the color histograms of the training data having different face directions.
A second feature amount calculation unit that calculates the second feature amount of the face image for each type of the second feature amount,
A second identification unit that calculates the reliability from the second feature amount of the face image by a discriminator that has learned the second feature amount of the training data for each type of the second feature amount.
By integrating the color histogram and the reliability calculated for each type of the second feature amount, the face direction estimation unit that estimates the face direction of the subject and the face direction estimation unit
A face direction estimation device, which comprises.
前記第2特徴量計算部は、前記第2特徴量として、前記顔画像のHOGを計算し、
前記第2識別部は、前記訓練データでHOGを学習した識別器により、前記顔画像のHOGから前記信頼度を計算することを特徴とする請求項1に記載の顔方向推定装置。
The second feature amount calculation unit calculates the HOG of the face image as the second feature amount.
The face direction estimation device according to claim 1, wherein the second identification unit calculates the reliability from the HOG of the face image by a classifier that has learned the HOG from the training data.
前記顔方向推定部は、前記顔方向毎に前記色ヒストグラムで計算した信頼度と前記HOGで計算した信頼度とを乗算し、乗算した当該信頼度が最も高くなる顔方向を前記被写体の顔方向として推定することを特徴とする請求項2に記載の顔方向推定装置。 The face direction estimation unit multiplies the reliability calculated by the color histogram and the reliability calculated by the HOG for each face direction, and determines the face direction having the highest reliability as the face direction of the subject. The face direction estimation device according to claim 2, wherein the face direction estimation device is characterized in that. 前記被写体を撮影した映像を入力し、入力した前記映像から低解像度の前記顔画像を抽出する顔画像抽出部と、
前記低解像度の顔画像を予め設定したサイズに正規化する画像サイズ正規化部と、をさらに備え、
前記画像領域分割部は、正規化した前記顔画像を前記複数の領域に分割することを特徴とする請求項1から請求項3の何れか一項に記載の顔方向推定装置。
A face image extraction unit that inputs a video of the subject and extracts the low-resolution face image from the input video.
An image size normalization unit that normalizes the low-resolution face image to a preset size is further provided.
The face direction estimation device according to any one of claims 1 to 3, wherein the image region dividing unit divides the normalized face image into the plurality of regions.
コンピュータを、請求項1から請求項4の何れか一項に記載の顔方向推定装置として機能させるための顔方向推定プログラム。 A face direction estimation program for causing a computer to function as the face direction estimation device according to any one of claims 1 to 4.
JP2016154536A 2016-08-05 2016-08-05 Face direction estimator and its program Active JP6770363B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016154536A JP6770363B2 (en) 2016-08-05 2016-08-05 Face direction estimator and its program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016154536A JP6770363B2 (en) 2016-08-05 2016-08-05 Face direction estimator and its program

Publications (2)

Publication Number Publication Date
JP2018022416A JP2018022416A (en) 2018-02-08
JP6770363B2 true JP6770363B2 (en) 2020-10-14

Family

ID=61165983

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016154536A Active JP6770363B2 (en) 2016-08-05 2016-08-05 Face direction estimator and its program

Country Status (1)

Country Link
JP (1) JP6770363B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7122243B2 (en) * 2018-03-05 2022-08-19 日本テレビ放送網株式会社 Image identification device, classification system, production support system, methods and programs thereof
JP2020187657A (en) * 2019-05-16 2020-11-19 株式会社キーエンス Image inspection device

Also Published As

Publication number Publication date
JP2018022416A (en) 2018-02-08

Similar Documents

Publication Publication Date Title
Bak et al. One-shot metric learning for person re-identification
US20220138490A1 (en) Image processing apparatus, image processing method, and non-transitory computer-readable storage medium
US11361459B2 (en) Method, device and non-transitory computer storage medium for processing image
Yan et al. No matter where you are: Flexible graph-guided multi-task learning for multi-view head pose classification under target motion
US9619708B2 (en) Method of detecting a main subject in an image
JP6438403B2 (en) Generation of depth maps from planar images based on combined depth cues
AU2012219026B2 (en) Image quality assessment
CN112686812B (en) Bank card inclination correction detection method and device, readable storage medium and terminal
EP3093822B1 (en) Displaying a target object imaged in a moving picture
WO2017181892A1 (en) Foreground segmentation method and device
JP7142420B2 (en) Image processing device, learning method, trained model, image processing method
US10007678B2 (en) Image processing apparatus, image processing method, and recording medium
Bouachir et al. Structure-aware keypoint tracking for partial occlusion handling
US10810433B2 (en) Method and system for tracking objects
JP5656768B2 (en) Image feature extraction device and program thereof
Zoidi et al. Stereo object tracking with fusion of texture, color and disparity information
JP6770363B2 (en) Face direction estimator and its program
JP6511950B2 (en) Image processing apparatus, image processing method and program
JP7014005B2 (en) Image processing equipment and methods, electronic devices
JP3962517B2 (en) Face detection method and apparatus, and computer-readable medium
CN116051736A (en) Three-dimensional reconstruction method, device, edge equipment and storage medium
WO2022266878A1 (en) Scene determining method and apparatus, and computer readable storage medium
Chen et al. Illumination-invariant video cut-out using octagon sensitive optimization
Lau et al. Atdetect: Face detection and keypoint extraction at range and altitude
CN111767757B (en) Identity information determining method and device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190703

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200821

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200901

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200925

R150 Certificate of patent or registration of utility model

Ref document number: 6770363

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150