JP7152651B2 - Program, information processing device, and information processing method - Google Patents

Program, information processing device, and information processing method Download PDF

Info

Publication number
JP7152651B2
JP7152651B2 JP2018092913A JP2018092913A JP7152651B2 JP 7152651 B2 JP7152651 B2 JP 7152651B2 JP 2018092913 A JP2018092913 A JP 2018092913A JP 2018092913 A JP2018092913 A JP 2018092913A JP 7152651 B2 JP7152651 B2 JP 7152651B2
Authority
JP
Japan
Prior art keywords
person
image
parts
estimated
position information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018092913A
Other languages
Japanese (ja)
Other versions
JP2019200456A (en
Inventor
聡 田辺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2018092913A priority Critical patent/JP7152651B2/en
Publication of JP2019200456A publication Critical patent/JP2019200456A/en
Application granted granted Critical
Publication of JP7152651B2 publication Critical patent/JP7152651B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は、プログラム、情報処理装置、及び情報処理方法に関する。 The present invention relates to a program, an information processing apparatus, and an information processing method.

従来から、視線方向を推定する技術がある。例えば、アパレルショップやスーパーの店内に設置された監視カメラで撮影した人物の画像から、人物の視線を推定する、などである。これにより、例えば、群衆がどのような商品に注目しているか、を経営者などは把握することができ、売り上げ戦略を策定することが可能となる場合がある。また、例えば、セキュリティ用の都市監視として、標識やサイネージの近傍に設置された監視カメラで撮影した人物画像から視線方向を推定することで、標識などの設置効果の調査や、群衆行動の把握などに利用される場合がある。 Conventionally, there are techniques for estimating the line-of-sight direction. For example, the line of sight of a person is estimated from an image of the person captured by a surveillance camera installed in an apparel shop or supermarket. As a result, for example, a manager or the like can grasp what kind of products the crowd is paying attention to, and it may be possible to formulate a sales strategy. In addition, for example, for city surveillance for security purposes, by estimating the line-of-sight direction from images of people captured by surveillance cameras installed near signs and signage, it is possible to investigate the effects of installing signs and understand crowd behavior. may be used for

視線方向を推定する技術として、例えば、以下がある。すなわち、撮影手段で撮影された現時刻の画像フレームに基づいて、眼球の3次元モデルを利用して特定人物の眼球中心の3次元位置を推定するとともに、特定人物の虹彩の位置を検出し、眼球中心と虹彩位置に基づいて視線方向を推定する技術がある。 Techniques for estimating the line-of-sight direction include, for example, the following. That is, based on the image frame at the current time taken by the photographing means, the three-dimensional position of the center of the eyeball of the specific person is estimated using the three-dimensional model of the eyeball, and the position of the iris of the specific person is detected, There is a technique for estimating the line-of-sight direction based on the center of the eyeball and the position of the iris.

この技術によれば、顔の向きの制限を緩和して、比較的少数のカメラにより、観測範囲内の任意の位置における被測定対象者の視線方向をリアルタイムに推定し追跡することができる、とされる。 According to this technology, it is possible to estimate and track the line-of-sight direction of the person to be measured at any position within the observation range in real time, using a relatively small number of cameras, by relaxing restrictions on the orientation of the face. be done.

特開2012-216180号公報JP 2012-216180 A

上述した、眼球中心と虹彩位置に基づいて視線方向を推定する技術は、例えば、人物の顔が複数の撮影手段で撮影されることが条件となっている。従って、顔が隠れた人物の画像の場合、上述した技術では、その人物の視線方向を推定することができない場合がある。 The above-described technique for estimating the line-of-sight direction based on the center of the eyeball and the position of the iris requires, for example, that a person's face is photographed by a plurality of photographing means. Therefore, in the case of an image of a person whose face is hidden, the above-described technique may not be able to estimate the line-of-sight direction of the person.

そこで、一開示は、顔が隠れた人物の画像であっても視線方向を推定できるようにしたプログラム、情報処理装置、及び情報処理方法を提供することにある。 Therefore, one disclosure is to provide a program, an information processing apparatus, and an information processing method that enable estimation of a line-of-sight direction even in an image of a person whose face is hidden.

一開示は、入力画像データに対して、人物の部位に関する正解データを利用して、画像に含まれる人物の部位の位置情報を推定し、前記部位のうち顔の部位の位置情報を推定することができなかったとき、推定することができた他の部位の位置情報に基づいて、画像に含まれる人物の視線方向を推定する、処理をコンピュータに実行させるプログラムにある。 One disclosure is to estimate the position information of the parts of the person included in the input image data using the correct data about the parts of the person, and to estimate the position information of the parts of the face among the parts. A program for causing a computer to execute a process of estimating the line-of-sight direction of a person included in an image based on the position information of other parts that could be estimated when the estimation could not be performed.

一開示によれば、顔が隠れた人物の画像であっても視線方向を推定することが可能である。 According to one disclosure, it is possible to estimate the gaze direction even for an image of a person whose face is hidden.

図1は情報処理システムの構成例を表す図である。FIG. 1 is a diagram showing a configuration example of an information processing system. 図2は動作例を表すフローチャートである。FIG. 2 is a flow chart showing an operation example. 図3は部位番号の例を表す図である。FIG. 3 is a diagram showing examples of part numbers. 図4は画像の例を表す図である。FIG. 4 is a diagram showing an example of an image. 図5は姿勢推定処理の例を表すフローチャートである。FIG. 5 is a flowchart showing an example of posture estimation processing. 図6(A)は姿勢推定部の構成例、図6(B)は画像データの例、図6(C)は各部位の確率分布の例をそれぞれ表す図である。FIG. 6A is a diagram showing a configuration example of a posture estimation unit, FIG. 6B is an example of image data, and FIG. 6C is a diagram showing an example of probability distribution of each part. 図7(A)は右手の確率分布の例、図7(B)は右ひじの確率分布の例、図7(C)は右手と右ひじのつながり度合いの確率分布の例をそれぞれ表す図である。7A shows an example of the probability distribution of the right hand, FIG. 7B shows an example of the probability distribution of the right elbow, and FIG. 7C shows an example of the probability distribution of the degree of connection between the right hand and the right elbow. be. 図8は注目度算出処理の例を表すフローチャートである。FIG. 8 is a flowchart showing an example of attention level calculation processing. 図9(A)は部位の例、図9(B)は向きベクトルの例をそれぞれ表す図である。FIG. 9A is a diagram showing an example of a part, and FIG. 9B is a diagram showing an example of a direction vector. 図10(A)は部位の例、図10(B)はベクトルの例、図10(C)は向きベクトルの例をそれぞれ表す図である。10A is an example of a part, FIG. 10B is an example of a vector, and FIG. 10C is an example of a direction vector. 図11はカウント処理の例を表すフローチャートである。FIG. 11 is a flowchart showing an example of counting processing. 図12は3次元位置座標の例を表す図である。FIG. 12 is a diagram showing an example of three-dimensional position coordinates. 図13は姿勢推定部の構成例を表す図である。FIG. 13 is a diagram showing a configuration example of a posture estimation unit. 図14は動作例を表すフローチャートである。FIG. 14 is a flow chart showing an operation example. 図15(A)は同一人物特定処理、図15(B)は類似度計算処理の例をそれぞれ表す図である。FIG. 15A is a diagram showing an example of same person identification processing, and FIG. 15B is a diagram showing an example of similarity calculation processing. 図16は注目度算出処理の動作例を表すフローチャートである。FIG. 16 is a flowchart showing an operation example of attention degree calculation processing. 図17は情報処理システムの構成例を表す図である。FIG. 17 is a diagram showing a configuration example of an information processing system. 図18は動作例を表すフローチャートである。FIG. 18 is a flow chart showing an operation example. 図19は注目度変化検出処理の例を表すフローチャートである。FIG. 19 is a flowchart showing an example of attention degree change detection processing. 図20は注目度ベクトルの時系列の例を表す図である。FIG. 20 is a diagram showing an example of a time series of attention level vectors. 図21(A)と図21(C)は画像の例、図21(B)と図21(D)は注目度ベクトルの例をそれぞれ表す図である。FIGS. 21A and 21C are examples of images, and FIGS. 21B and 21D are examples of interest vectors. 図22は情報処理装置のハードウェア構成例を表す図である。FIG. 22 is a diagram showing a hardware configuration example of an information processing apparatus.

以下、本発明を実施するための形態について説明する。なお、以下の実施例は開示の技術を限定するものではない。そして、各実施の形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。 EMBODIMENT OF THE INVENTION Hereinafter, the form for implementing this invention is demonstrated. It should be noted that the following examples do not limit the technology disclosed. Further, each embodiment can be appropriately combined within a range in which the processing contents are not inconsistent.

[第1の実施の形態]
<情報処理システムの構成例>
図1は情報処理システム10の構成例を表す図である。
[First embodiment]
<Configuration example of information processing system>
FIG. 1 is a diagram showing a configuration example of an information processing system 10. As shown in FIG.

情報処理システム10は、情報処理装置100と撮像装置200を備える。情報処理装置100は、撮像装置200で撮影された画像の画像データを入力し、入力した画像データから、画像に写っている人物の視線方向を推定する。本第1の実施の形態では、情報処理装置100は、顔が隠れた画像であっても、そのような画像の画像データから視線方向を推定することが可能である。 The information processing system 10 includes an information processing device 100 and an imaging device 200 . The information processing apparatus 100 receives image data of an image captured by the imaging apparatus 200, and estimates the line-of-sight direction of a person appearing in the image from the input image data. In the first embodiment, the information processing apparatus 100 can estimate the line-of-sight direction from the image data of even an image in which the face is hidden.

情報処理装置100は、姿勢推定部110と注目度算出部120、空間情報記憶部130、及び注目度記憶部140を備える。 Information processing apparatus 100 includes posture estimation section 110 , attention level calculation section 120 , spatial information storage section 130 , and attention level storage section 140 .

姿勢推定部110は、撮像装置200から出力された画像データを入力し、入力画像データに基づいて、画像に含まれる人物i(i=1,2,…,I)の姿勢pを推定する。姿勢pは、例えば、人物iの「鼻」、「左目」、「右目」など、各部位の位置情報を含む。姿勢pの詳細は動作例で説明する。 The posture estimation unit 110 receives the image data output from the imaging device 200, and estimates the posture p i of the person i (i=1, 2, . . . , I) included in the image based on the input image data. . The posture pi includes position information of each part such as the "nose", "left eye", and "right eye" of the person i . The details of the posture pi will be described in an operation example.

本第1の実施の形態においては、姿勢推定部110は、例えば、入力画像データに基づいて、人物の部位に関するモデルデータ(又は正解データ、或いは教師データ。以下では、これら3つを区別しないで用いる場合がある。)を利用して、姿勢pを生成する。姿勢推定部110における姿勢pの推定処理については動作例で説明する。姿勢推定部110は、推定した姿勢pを注目度算出部120へ出力する。 In the first embodiment, posture estimating section 110 generates model data (or correct data, or teacher data) relating to parts of a person based on input image data, for example. ) is used to generate the pose p i . The estimation processing of posture p i in posture estimation section 110 will be described with an operation example. Posture estimation section 110 outputs the estimated posture p i to attention degree calculation section 120 .

注目度算出部120は、姿勢pに含まれる位置情報を利用して、画像に含まれる人物iの視線方向を推定する。具体的には、注目度算出部120は、例えば、姿勢推定部110で推定対象となっている人物iの部位のうち、顔の部位の位置情報を推定することができなかったとき、推定することができた顔以外の他の部位の位置情報に基づいて、画像に含まれる人物iの視線方向を推定する。 The attention degree calculation unit 120 estimates the line-of-sight direction of the person i included in the image using the position information included in the posture pi. Specifically, for example, when the posture estimating unit 110 cannot estimate the position information of the parts of the face among the parts of the person i to be estimated by the posture estimating unit 110, the attention level calculating unit 120 estimates The line-of-sight direction of the person i included in the image is estimated based on the position information of other parts other than the face.

例えば、撮像装置200で撮像された画像には、障害物や視線方向などによって人物iの顔などの部位が写っていない場合もある。従って、姿勢推定部110で推定された姿勢pには、顔の部位(例えば、目や鼻など)の位置情報が含まれない場合がある。注目度算出部120では、そのような姿勢推定部110で推定することができなかった顔の部位の位置情報を、姿勢推定部110で推定できた他の部位の位置情報を利用して算出し、これらの位置情報に基づいて、人物iの視線方向を推定するようにしている。 For example, the image captured by the imaging device 200 may not show a part such as the face of the person i due to obstacles, line-of-sight direction, or the like. Therefore, the pose p i estimated by the pose estimation unit 110 may not include position information of facial parts (eg, eyes, nose, etc.). Attention degree calculation section 120 calculates the position information of the part of the face that could not be estimated by posture estimation section 110 using the position information of other parts that could be estimated by posture estimation section 110 . , the line-of-sight direction of the person i is estimated based on the position information.

なお、注目度算出部120は、例えば、人物iの向きベクトルqを計算することで、人物iの視線方向を推定する。本第1の実施の形態では、向きベクトルqのことを、例えば、注目度と称する場合がある。以下では、注目度、向きベクトルq、及び視線方向を区別しないで用いる場合がある。注目度算出処理の詳細については、動作例で説明する。注目度算出部120は、算出した注目度を注目度記憶部140に記憶する。 Note that the attention level calculation unit 120 estimates the line-of-sight direction of the person i, for example, by calculating the direction vector q i of the person i. In the first embodiment, the orientation vector qi may be referred to as, for example, the attention level. Below, attention level, orientation vector q i , and line-of-sight direction may be used without distinction. Details of the attention level calculation process will be described in an operation example. The attention degree calculation unit 120 stores the calculated attention degree in the attention degree storage unit 140 .

また、注目度算出部120は、空間情報記憶部130から、各対象物300-1,300-2の位置情報を読み出す。そして、注目度算出部120は、算出した向きベクトルqと、各対象物300-1,300-2の位置情報とに基づいて、各対象物300-1,300-2に視線を向けている人物iの数をカウントする。注目度算出部120は、カウントしたカウント値を注目度記憶部140に記憶する。カウント処理の詳細も、動作例で説明する。 Also, the attention level calculation unit 120 reads the position information of each of the objects 300-1 and 300-2 from the space information storage unit 130. FIG. Then, based on the calculated orientation vector q i and the position information of each of the objects 300-1 and 300-2, the attention level calculation unit 120 directs the line of sight to each of the objects 300-1 and 300-2. Count the number of persons i present. The attention level calculation unit 120 stores the counted count value in the attention level storage unit 140 . The details of the counting process will also be explained with an operation example.

空間情報記憶部130は、例えば、メモリであって、各対象物300-1,300-2の位置情報を記憶する。位置情報としては、例えば、各対象物300-1,300-2の設置点とその周囲の領域を、2次元座標(x,y)で表されたものであってもよい。 The spatial information storage unit 130 is, for example, a memory and stores position information of each of the objects 300-1 and 300-2. As the positional information, for example, the installation points of the objects 300-1 and 300-2 and their surrounding areas may be represented by two-dimensional coordinates (x, y).

注目度記憶部140は、例えば、メモリであって、注目度算出部120で算出された注目度を記憶する。 The attention level storage unit 140 is, for example, a memory, and stores the attention level calculated by the attention level calculation unit 120 .

撮像装置200は、例えば、1又は複数の人物を撮影し、撮影した画像を画像データとして情報処理装置100へ出力する。図1の例では、撮像装置200は、対象物300-1,300-2と、対象物300-1,300-2へ視線方向を向けている複数の人物とを含む画像を撮影する。 The imaging device 200, for example, photographs one or more persons and outputs the photographed image to the information processing device 100 as image data. In the example of FIG. 1, the imaging device 200 captures an image including objects 300-1 and 300-2 and a plurality of persons facing the objects 300-1 and 300-2.

なお、図1の例では、撮像装置200は情報処理装置100の外部に配置される例を表しているが、撮像装置200は、例えば、撮像部として、情報処理装置100内に設けられてもよい。また、図1の例では、撮像装置200は、1台の例を表しているが、複数台あってもよい。複数台の例は、第2の実施の形態で説明する。 In the example of FIG. 1, the imaging device 200 is arranged outside the information processing device 100, but the imaging device 200 may be provided inside the information processing device 100 as an imaging unit, for example. good. Also, in the example of FIG. 1, the imaging device 200 represents an example of one unit, but there may be a plurality of units. An example of multiple units will be described in the second embodiment.

<動作例>
図2は情報処理システム10の動作例を表すフローチャートである。
<Operation example>
FIG. 2 is a flow chart showing an operation example of the information processing system 10 .

撮像装置200と情報処理装置100は処理を開始すると(S10)、撮像装置200は群衆を撮影する(S11)。例えば、撮像装置200は、図1に示すように、複数の人物(以下、「群衆」と称する場合がある、)が写った画像を撮影し、撮影した画像データを情報処理装置100へ出力する。 When the imaging device 200 and the information processing device 100 start processing (S10), the imaging device 200 photographs the crowd (S11). For example, as shown in FIG. 1, the imaging device 200 captures an image of a plurality of people (hereinafter sometimes referred to as a “crowd”) and outputs the captured image data to the information processing device 100. .

次に、情報処理装置100は、画像データに基づいて、撮像装置200で撮影された画像に写っている人物iの姿勢pを推定する(S12)。姿勢pは、例えば、以下の式(1)で表される。 Next, the information processing device 100 estimates the posture pi of the person i appearing in the image captured by the imaging device 200 based on the image data (S12). The attitude p i is represented by the following equation (1), for example.

Figure 0007152651000001
Figure 0007152651000001

式(1)において、x は画像内における人物iの部位jのx座標、y は画像内における人物iの部位jのy座標をそれぞれ表す。また、v は、人物iの部位jが画像内で視えている(又は写っている、或いは含まれる)ときは「1」、視えていないときは「0」の値をとるパラメータである。 In equation (1), x j i represents the x-coordinate of part j of person i in the image, and y j i represents the y-coordinate of part j of person i in the image. Also, v j i is a parameter that takes a value of “1” when the part j of the person i is visible (or captured or included) in the image, and takes a value of “0” when it is not visible. .

図3は部位番号と部位との関係例を表す図である。図3に示すように、各部位jには、部位番号が予め割り振られている。図3の例では、部位j=1のときは「鼻」を表し、部位j=6のときは「首」を表す。図3は一例であって他の番号が割り振られてもよい。 FIG. 3 is a diagram showing an example of the relationship between part numbers and parts. As shown in FIG. 3, a part number is assigned in advance to each part j. In the example of FIG. 3, when part j=1, it represents "nose", and when part j=6, it represents "neck". FIG. 3 is an example and other numbers may be assigned.

図4は撮像された画像の例を表す図である。図4の例では、人物i=1の右手の部位(j=12)は画像に写っているが、左肘の部位(j=9)は障害物により画像に写っていない。そのため、姿勢p=(・・・ x 0 ・・・ x12 12 1 ・・・)となり得る。例えば、姿勢推定部110は、入力画像データに基づいて、このような姿勢pを推定する。以下では、姿勢推定処理(S12)の詳細について説明する。なお、以下では、姿勢pと姿勢ベクトルpとを区別しないで用いる場合がある。 FIG. 4 is a diagram showing an example of a captured image. In the example of FIG. 4, the right hand part (j=12) of person i=1 is shown in the image, but the left elbow part (j=9) is not shown in the image due to an obstacle. Therefore, the posture p i =(... x 9 1 y 9 1 0... x 12 1 y 12 1 1...) can be obtained. For example, posture estimation section 110 estimates such posture p i based on input image data. Details of the posture estimation processing (S12) will be described below. It should be noted that, hereinafter, the posture p i and the posture vector p i may be used without distinction.

<姿勢推定処理>
図5は姿勢推定処理(S12)の例を表すフローチャートである。また、図6(A)は姿勢推定部110の構成例を表す図である。図5の各処理を説明しながら、図6(A)について説明する。なお、図6(A)に示すように、姿勢推定部110は、CNN(Convolutional neural network)処理部111と候補点算出部112、及びグルーピング処理部113を備える。
<Posture estimation processing>
FIG. 5 is a flowchart showing an example of posture estimation processing (S12). FIG. 6A is a diagram showing a configuration example of posture estimation section 110. As shown in FIG. FIG. 6A will be described while describing each process in FIG. In addition, as shown in FIG. 6A, the posture estimation unit 110 includes a CNN (Convolutional neural network) processing unit 111 , a candidate point calculation unit 112 , and a grouping processing unit 113 .

図5に示すように、姿勢推定部110は、姿勢推定処理を開始すると(S120)、部位j(j=1,2,…,J)の確率分布(又はヒートマップ)を計算する(S121)。CNN処理部111では、例えば、畳み込みニューラルネットワーク(以下、「CNN」と称する場合がある。)を用いた公知の手法により、確率分布φ(X,W)を計算する。Wは、例えば、CNN処理に利用されるパラメータを表す。例えば、CNN処理部111は、以下の処理を行う。 As shown in FIG. 5, when posture estimation processing is started (S120), posture estimation section 110 calculates a probability distribution (or heat map) of part j (j=1, 2, . . . , J) (S121). . The CNN processing unit 111 calculates the probability distribution φ(X, W) by, for example, a known method using a convolutional neural network (hereinafter sometimes referred to as “CNN”). W represents a parameter used for CNN processing, for example. For example, the CNN processing unit 111 performs the following processing.

すなわち、CNN処理部111は、ある画像データに対して、右手の正解データを利用して、フィルタリング処理(又は畳み込み処理)を行う。そして、CNN処理部111は、フィルタリング後のデータに対して、複数画像を含むブロック毎の代表値(又は最大値)を抽出するプーリング処理を施し、以後、フィルタリング処理とプーリング処理を繰り返すことで、右手(j=12)の確率分布の正解データを生成する。次に、CNN処理部111は、図6(B)に示すようにRGB(Red Green Blue)の画像データXを入力する。CNN処理部111は、右手(j=12)の確率分布の正解データを利用して、入力画像データXに対して、フィルタリング処理とプーリング処理を繰り返すことで、右手の確率分布φ(X,W)を得る。 That is, the CNN processing unit 111 performs filtering processing (or convolution processing) on certain image data using the right-hand correct data. Then, the CNN processing unit 111 performs pooling processing for extracting a representative value (or maximum value) for each block containing a plurality of images from the data after filtering, and thereafter repeats the filtering processing and the pooling processing. Correct data of the right-hand (j=12) probability distribution are generated. Next, the CNN processing unit 111 inputs RGB (Red Green Blue) image data X as shown in FIG. 6B. The CNN processing unit 111 repeats the filtering process and the pooling process on the input image data X using the correct data of the right-hand (j=12) probability distribution, thereby obtaining the right-hand probability distribution φ(X, W ).

図6(C)は右手の確率分布φ(X,W)の例を表す図である。例えば、確率分布φ(X,W)は、画素毎(又は複数画素を含むブロック毎)に「0」から「1」までの数値(又は確率値)を表すものとして表現される。 FIG. 6C is a diagram showing an example of the right-hand probability distribution φ(X, W). For example, the probability distribution φ(X, W) is expressed as a numerical value (or probability value) from "0" to "1" for each pixel (or each block containing a plurality of pixels).

なお、以下では、フィルタリング処理とプーリング処理を繰り返す処理のことを、例えば、CNN処理と称する場合がある。 In addition, below, the process which repeats a filtering process and a pooling process may be called CNN process, for example.

同様に、CNN処理部111は、右肘(j=10)の正解データを利用して、CNN処理により、右肘の確率分布の正解データを得る。そして、CNN処理部111は、右肘の確率分布の正解データを利用して、CNN処理により、入力画像データXから、右肘の確率分布φ(X,W)を得る。 Similarly, the CNN processing unit 111 uses the correct data of the right elbow (j=10) to obtain the correct data of the probability distribution of the right elbow by CNN processing. Then, the CNN processing unit 111 obtains the probability distribution φ(X, W) of the right elbow from the input image data X by CNN processing using the correct data of the probability distribution of the right elbow.

なお、CNN処理部111は、各部位の確率分布φ(X,W)だけではなく、各部位のつながり度合いを表す確率分布φ(X,W)を算出する。CNN処理部111では、CNN処理に利用した、各部位の正解データから、各部位を接続させた正解データを得ることができる。そして、CNN処理部111は、ある画像データから、各部位を接続させた正解データを利用して、ある画像データに対してCNN処理を行うことで、各部位を接続させた正解データの確率分布を得て、入力画像Xに対して、この確率分布を利用してCNN処理を行うことで、各部位のつながり度合いを表す確率分布φ(X,W)を算出することができる。 Note that the CNN processing unit 111 calculates not only the probability distribution φ(X, W) of each part but also the probability distribution φ(X, W) representing the degree of connection of each part. The CNN processing unit 111 can obtain correct data in which each part is connected from the correct data of each part used for the CNN processing. Then, the CNN processing unit 111 performs CNN processing on certain image data using correct data in which each part is connected from certain image data, thereby obtaining a probability distribution of correct data in which each part is connected. By performing CNN processing on the input image X using this probability distribution, it is possible to calculate a probability distribution φ(X, W) representing the degree of connection between parts.

このように、CNN処理部111は、各部位jの正解データを利用して、画像データXに対して、畳み込み処理などを施すことで、各部位jの確率分布φ(X,W)を計算する。 In this way, the CNN processing unit 111 uses the correct data of each part j to perform convolution processing or the like on the image data X, thereby calculating the probability distribution φ(X, W) of each part j. do.

CNN処理部111は、S121において、例えば、以下の処理を行う。すなわち、CNN処理部111は、内部メモリに記憶された各部位jの正解データを読み出して、この正解データを利用して、ある画像データに対してCNN処理を行い、各部位jの確率分布の正解データを計算し、内部メモリに記憶する。CNN処理部111は、このような各部位jの確率分布の正解データを、S121の処理の前に計算し、内部メモリに記憶させておいてもよい。そして、CNN処理部111は、入力画像データXに対して、内部メモリから読み出した各部位jの確率分布の正解データを利用して、CNN処理を行うことで、各部位の確率分布φ(X,W)を得る。 The CNN processing unit 111 performs, for example, the following processing in S121. That is, the CNN processing unit 111 reads the correct data of each part j stored in the internal memory, uses this correct data, performs CNN processing on certain image data, and obtains the probability distribution of each part j. Correct answer data is calculated and stored in internal memory. The CNN processing unit 111 may calculate such correct data of the probability distribution of each part j before the process of S121 and store it in the internal memory. Then, the CNN processing unit 111 performs CNN processing on the input image data X using the correct data of the probability distribution of each part j read out from the internal memory, thereby obtaining the probability distribution φ(X , W).

CNN処理部111は、正解データを用いたときの各部位jの部位番号と、その部位jの確率分布φ(X,W)とを候補点算出部112へ出力する。 The CNN processing unit 111 outputs the part number of each part j when using the correct data and the probability distribution φ(X, W) of the part j to the candidate point calculation unit 112 .

以上、各部位jの確率分布φ(X,W)の計算例について説明した。このような畳み込みニューラルネットワークを用いた手法として、例えば、Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh, "Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields", In CVPR 2017に開示された手法がある。CNN処理部111は、これを用いて、各部位jの確率分布φ(X,W)を計算してもよい。また、各部位の確率分布φ(X,W)の計算例としては、畳み込みニューラルネットワーク以外にも、テンプレートマッチングを用いた公知の手法が用いられてもよい。テンプレートマッチングは、例えば、各部位のモデルデータと比較して、入力画像の各部位の確率分布φ(X,W)を算出する手法である。 An example of calculation of the probability distribution φ(X, W) of each part j has been described above. As a method using such a convolutional neural network, for example, the method disclosed in Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh, "Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields", In CVPR 2017 There is The CNN processing unit 111 may use this to calculate the probability distribution φ(X, W) of each part j. As an example of calculation of the probability distribution φ(X, W) of each part, a known method using template matching may be used other than the convolutional neural network. Template matching is, for example, a method of calculating the probability distribution φ(X, W) of each part of the input image by comparing with model data of each part.

図5に戻り、次に、姿勢推定部110は、部位位置の候補点を求める(S122)。例えば、図6(A)に示すように、候補点算出部112は、CNN処理部111から出力された各部位の確率分布φ(X,W)に基づいて、候補点を算出する。 Returning to FIG. 5, next, posture estimation section 110 obtains candidate points for part positions (S122). For example, as shown in FIG. 6A, the candidate point calculator 112 calculates candidate points based on the probability distribution φ(X, W) of each part output from the CNN processor 111 .

図7(A)は、右手(j=12)の確率分布φ(X,W)に対して右手の候補点A1,A2を探索する例を表す図である。候補点算出部112は、右手の確率分布φ(X,W)において、あるブロックの確率が極大点となっている位置座標A1,A2を探索する。この位置座標A1,A2が右手の候補点となる。また、図7(B)に示すように、候補点算出部112は、右肘の確率分布確率分布φ(X,W)において、確率が極大点となっている位置座標B1,B2を探索する。位置座標B1,B2が右肘の候補点となる。候補点算出部112は、各部位の部位番号とその候補点とをグルーピング処理部113へ出力する。 FIG. 7A is a diagram showing an example of searching for candidate points A1 and A2 on the right hand with respect to the probability distribution φ(X, W) on the right hand (j=12). Candidate point calculation section 112 searches for position coordinates A1 and A2 at which the probability of a certain block is the maximum point in right-hand probability distribution φ(X, W). These position coordinates A1 and A2 are candidate points on the right hand side. Further, as shown in FIG. 7B, the candidate point calculation unit 112 searches for the position coordinates B1 and B2 at which the probability is the maximum point in the probability distribution φ(X, W) of the right elbow. . Position coordinates B1 and B2 are candidate points for the right elbow. Candidate point calculation section 112 outputs the part number of each part and its candidate points to grouping processing section 113 .

なお、姿勢推定部110は、例えば、極大点が閾値以上のとき、そのような極大点をその部位の候補点とし、極大点が閾値より小さいときは、その部位が入力画像に写っていないと判定する。前者の場合、姿勢推定部110は、v =1(又は視えている部位)とし、後者の場合、v =0(又は視えていない部位)とする。姿勢推定部110は、前者の場合に以降の処理を行い、後者の場合はここで姿勢推定処理(S12)を終了する。 For example, when the local maximum point is equal to or greater than a threshold, posture estimation section 110 regards such a local maximum point as a candidate point for the part, and when the local maximum point is smaller than the threshold, it assumes that the part is not shown in the input image. judge. In the former case, posture estimation section 110 sets v j i =1 (or the visible part), and in the latter case, v j i =0 (or the non-visible part). Posture estimation section 110 performs subsequent processing in the former case, and terminates posture estimation processing (S12) here in the latter case.

図5に戻り、次に、姿勢推定部110は、部位位置の候補点ごとにグルーピングを行い(S123)、人物iごとに部位を特定する。例えば、図6(A)のグルーピング処理部113においてこのようなグルーピングが行われる。グルーピング処理部113は、例えば、部位jの候補点間の距離を比較することで、各候補点をグループ化する。具体的には、グルーピング処理部113は、例えば、CNN処理部111においてCNN処理が施された、部位と部位とのつながり度合いを示す確率分布φ(X,W)を用いて処理を行う。 Returning to FIG. 5, next, posture estimation section 110 performs grouping for each part position candidate point (S123), and identifies a part for each person i. For example, such grouping is performed in the grouping processing unit 113 of FIG. 6(A). The grouping processing unit 113 groups the candidate points by, for example, comparing the distances between the candidate points of the part j. Specifically, the grouping processing unit 113 performs processing using, for example, the probability distribution φ(X, W) indicating the degree of connection between parts, which has been subjected to CNN processing in the CNN processing unit 111 .

図7(C)は右手と右肘のつながり度合いの確率分布φ(X,W)の例を表す図である。候補点算出部112において、右手の候補点A1,A2(図7(A))と右肘の候補点B1,B2(図7(B))を得ている。グルーピング処理部113は、これらの候補点A1,A2,B1,B2に対して、A1とB1とが同一人物に属する部位であるのか、A1とB2とが同一人物に属する部位であるのかを、右手と右肘のつながり度合いの確率分布に基づいて、判別する。例えば、グルーピング処理部113は、以下の式を利用して、各組み合わせのつながり度合いを計算する。 FIG. 7C is a diagram showing an example of the probability distribution φ(X, W) of the degree of connection between the right hand and the right elbow. Candidate point calculation section 112 obtains candidate points A1 and A2 for the right hand (FIG. 7A) and candidate points B1 and B2 for the right elbow (FIG. 7B). The grouping processing unit 113 determines whether A1 and B1 belong to the same person or whether A1 and B2 belong to the same person. The determination is made based on the probability distribution of the degree of connection between the right hand and the right elbow. For example, the grouping processing unit 113 uses the following formula to calculate the degree of connection of each combination.

Figure 0007152651000002
Figure 0007152651000002

Figure 0007152651000003
Figure 0007152651000003

式(2)と式(3)において、y1は、例えば、図7(C)に示すように、人物i=1の右手と右肘のつながり度合いを示す確率分布上の集合を表す。ここで、候補点A1とB1のつながり度合いは、例えば、集合yに対して、候補点A1とB1とを結んだ線分の線積分の数値を表している。また、候補点A1とB2とのつながり度合いは、例えば、集合yに対して、候補点A1とB2とを結んだ線分の線積分の数値を表している。グルーピング処理部113は、式(2)と式(3)の数値に対して、大きい方、例えば、候補点A1とB1とを選択し、選択した候補点A1とB1とをグループ化する。同様に、グルーピング処理部113は、人物i=2の右手と右肘のつながり度合いを示す確率分布をCNN処理部111から候補点算出部112を介して取得し、式(2)と式(3)において、yをyに代えた式を用いて、その数値の大きい方を選択して、グループ化する。この場合、グルーピング処理部113は、A2とB2とをグループ化する。 In equations (2) and (3), y 1 represents, for example, a set on a probability distribution indicating the degree of connection between the right hand and right elbow of person i=1, as shown in FIG. 7(C). Here, the degree of connection between the candidate points A1 and B1 represents, for example, the numerical value of the line integral connecting the candidate points A1 and B1 with respect to the set y1. The degree of connection between the candidate points A1 and B2 represents, for example, the numerical value of the line integral connecting the candidate points A1 and B2 with respect to the set y1. The grouping processing unit 113 selects, for example, the candidate points A1 and B1, which are larger than the numerical values of the equations (2) and (3), and groups the selected candidate points A1 and B1. Similarly, the grouping processing unit 113 acquires the probability distribution indicating the degree of connection between the right hand and the right elbow of the person i=2 from the CNN processing unit 111 via the candidate point calculation unit 112, and ), using the formula in which y 1 is replaced with y 2 , the larger value is selected and grouped. In this case, the grouping processing unit 113 groups A2 and B2.

このように、CNN処理部111では、各部位のつながり度合いを示す確率分布を計算し、グルーピング処理部113は、このような確率分布と、候補点算出部112で算出された各候補点の組み合わせとに対して、線積分の計算を行う。そして、グルーピング処理部113は、その計算結果が最も大きい候補点の組み合わせをグループ化する。グルーピング処理部113は、グループ化した各候補点により、人物iの各部位を特定することができる。 In this way, the CNN processing unit 111 calculates a probability distribution indicating the degree of connection of each part, and the grouping processing unit 113 combines such a probability distribution with each candidate point calculated by the candidate point calculation unit 112. Calculate the line integral for Then, the grouping processing unit 113 groups the combination of candidate points with the largest calculation result. The grouping processing unit 113 can specify each part of the person i by each grouped candidate point.

CNN処理部111は、S123において、例えば、以下の処理を行う。すなわち、CNN処理部111は、内部メモリから式(2)と式(3)を読み出し、各部位のつながり度合いを示す確率分布の集合を式(2)と式(3)に代入し、各線分の線積分の数値を得る。そして、CNN処理部111は、最も大きい数値となっている候補点の組み合わせを1つのまとめることで、グループ化する。 The CNN processing unit 111 performs, for example, the following processing in S123. That is, the CNN processing unit 111 reads out the equations (2) and (3) from the internal memory, substitutes a set of probability distributions indicating the degree of connection of each part into the equations (2) and (3), and obtains each line segment Get the numerical value of the line integral of . Then, the CNN processing unit 111 groups the combination of candidate points having the largest numerical value into one.

図5に戻り、次に、姿勢推定部110は、グループ化した人物iごとにその姿勢pを取得する(S124)。例えば、図6(A)のグルーピング処理部113は、グループ化した各部位の候補点(又は位置座標)を、式(1)に示された姿勢pの各要素に代入することで、人物iの姿勢pを得る。 Returning to FIG. 5, next, posture estimation section 110 acquires the posture p i of each grouped person i (S124). For example, the grouping processing unit 113 in FIG. 6A substitutes the grouped candidate points (or position coordinates) of each part for each element of the posture pi shown in Equation (1), thereby Get the pose p i of i.

以上が姿勢推定処理(S12)である。 The posture estimation processing (S12) has been described above.

図2に戻り、次に、情報処理装置100は、群衆の人物iごとに注目度を算出する(S13)。以下、注目度算出処理の例について説明する。 Returning to FIG. 2, next, the information processing apparatus 100 calculates the degree of attention for each person i in the crowd (S13). An example of attention degree calculation processing will be described below.

<注目度算出処理>
図8は、注目度算出処理の例を表すフローチャートである。例えば、注目度算出部120で行われる処理である。
<Attention degree calculation processing>
FIG. 8 is a flowchart showing an example of attention level calculation processing. For example, it is a process performed by the attention degree calculation unit 120 .

注目度算出部120は、注目度算出処理を開始すると(S130)、姿勢pを利用して、顔の部位、首、左肩、及び右肩は視えているか否かを判別する(S131)。例えば、注目度算出部120は、以下の式を利用して判定する。 When the attention degree calculation process is started (S130), the attention degree calculation unit 120 uses the posture pi to determine whether or not the parts of the face, the neck, the left shoulder, and the right shoulder are visible (S131). For example, the attention degree calculation unit 120 uses the following formula for determination.

Figure 0007152651000004
Figure 0007152651000004

注目度算出部120は、vが「1」のとき、顔の部位(鼻、左目、右目、左耳、右耳)、首、左肩、及び右肩が全て視えていると判定し、vが「0」のとき、顔の部位、首、左肩、又は右肩のいずれかが視えていないと判定する。例えば、注目度算出部120は、内部メモリから式(4)を読み出して、姿勢推定部110から出力された姿勢pからv ~v を抽出し、式(4)に代入することで判定する。 When v i is “1”, the attention level calculation unit 120 determines that all parts of the face (nose, left eye, right eye, left ear, right ear), neck, left shoulder, and right shoulder are visible. When i is "0", it is determined that any part of the face, neck, left shoulder, or right shoulder is not visible. For example, attention level calculation section 120 reads equation (4) from the internal memory, extracts v 1 i to v 8 i from posture p i output from posture estimation section 110, and substitutes them into equation (4). Judge by

注目度算出部120は、顔の部位、首、左肩、又は右肩のいずれかが視えていないと判定したとき(S131でNO)、視えていない部位の位置情報を補間により算出する(S132)。注目度算出部120は、例えば、以下の式を用いて、人物iにおいて視えていない部位kの位置ベクトル(又は位置情報。以下では、位置ベクトルと位置情報とを区別しないで用いる場合がある。) =(x を算出する。 When the attention level calculation unit 120 determines that any part of the face, neck, left shoulder, or right shoulder is not visible (NO in S131), it calculates the position information of the invisible part by interpolation (S132). . The attention level calculation unit 120 uses, for example, the following equation to obtain the position vector (or position information) of the invisible part k of the person i. Hereinafter, the position vector and the position information may be used without distinction. ) a k i =(x k i y k i ) T.

Figure 0007152651000005
Figure 0007152651000005

式(5)において、ak1 ,ak2 ,…,akM は人物iの視えている部位(k1,k2,…,kM)(Mは、0<M≦jを満たす整数)の位置ベクトル、 は2行2列の行列、b は2行1列の縦ベクトルをそれぞれ表す。 In Equation (5 ) , a k1 i , a k2 i , . A position vector, A k M represents a matrix of 2 rows and 2 M columns, and b k M represents a vertical vector of 2 rows and 1 column.

式(5)は、例えば、視えていない部位kの位置ベクトルa は、視ている部位の位置ベクトルak1 ,ak2 ,…,akM とオフセットb とを用いて算出されることを表している。 For example, the position vector a k i of the unseen part k is obtained by using the position vectors a k1 i , a k2 i , . It means that it is calculated.

式(5)の行列 と縦ベクトルb は、姿勢sの集合Pを用いて、以下の式を解くことで求めることができる。 The matrix A k M and the vertical vector b k M in Equation (5) can be obtained by solving the following equation using the set P of postures s.

Figure 0007152651000006
Figure 0007152651000006

式(6)において、 =(x は、姿勢sの部位番号kの部位の位置ベクトルを表す。また、姿勢sの集合Pは、例えば、3D-CGソフトウェアなどで作成した人体模型をモデルデータとした場合の各部位の位置ベクトルの集合である。 In Equation (6), s k i =(x k i y k i ) T represents the position vector of the part with the part number k of the posture s. A set P of postures s is, for example, a set of position vectors of each part when a human body model created by 3D-CG software or the like is used as model data.

式(6)は、例えば、このような人体模型として作成された人物の部位番号kの位置ベクトルs と、姿勢推定部110で推定された、視えている部位の位置ベクトルak1 ,ak2 ,…,akM との誤差が最小となる とb とを表している。式(6)は、例えば、勾配降下法など、公知の手法により解くことが可能である。 Equation (6) is, for example, a position vector s k i of a part number k of a person created as such a human body model and a position vector a k1 i of a visible part estimated by the posture estimation unit 110, A kM and b k M that minimize the error from a k2 i , . . . , a kM i are shown . Equation (6) can be solved by a known method such as gradient descent.

このように注目度算出部120は、例えば、顔の部位の位置情報を姿勢推定部110で推定することができなかったとき、姿勢推定部110で推定することができた他の部位の位置情報を利用して、顔の部位の位置情報を算出している。 In this way, for example, when posture estimation section 110 cannot estimate the position information of a part of the face, attention level calculation section 120 calculates the position information of other parts that could be estimated by posture estimation section 110. is used to calculate the position information of the parts of the face.

具体的には、注目度算出部120は、S132において、例えば、以下の処理を行う。すなわち、注目度算出部120は、姿勢推定部110から受け取った姿勢pから、視えている部位の位置ベクトルak1 ,ak2 ,…,akM を抽出する。そして、注目度算出部120は、内部メモリに記憶された式(5)を読み出して、式(5)に代入することで、姿勢pの中で視えていない部位kの位置ベクトルa を算出する。その際、注目度算出部120は、内部メモリから式(6)を読み出して、視えている部位の位置ベクトルak1 ,ak2 ,…,akM を式(6)に代入して演算を行うことで、 とb を取得して、式(5)に代入する。 Specifically, the attention degree calculation unit 120 performs, for example, the following processing in S132. That is, attention level calculation section 120 extracts position vectors a k1 i , a k2 i , . Then, attention level calculation section 120 reads out equation (5) stored in the internal memory and substitutes it into equation (5) to obtain position vector a k i of part k that is not visible in posture p i . Calculate At that time, the attention level calculation unit 120 reads out the expression (6 ) from the internal memory , substitutes the position vectors a k1 i , a k2 i , . By performing calculations, A k M and b k M are obtained and substituted into equation (5).

なお、首、左肩、右肩、及び鼻を、顔の部位に含めてもよい。この場合、注目度算出部120は、これらの部位を含めた顔の部位について、その部位が視えているか否かをS131において判定してもよい。 Note that the neck, left shoulder, right shoulder, and nose may be included in the facial region. In this case, the attention degree calculation unit 120 may determine in S131 whether or not the part of the face including these parts is visible.

次に、注目度算出部120は、人物iの向きベクトルqを算出する(S133)。例えば、注目度算出部120は、以下の式を用いて、向きベクトルqを算出する。 Next, the attention level calculation unit 120 calculates the orientation vector qi of the person i (S133). For example, the attention level calculation unit 120 calculates the direction vector q i using the following formula.

Figure 0007152651000007
Figure 0007152651000007

式(7)において、Wは2行2列の行列、wは2行1列の縦ベクトルをそれぞれ表す。また、a は、人物iの部位jの位置ベクトルを表す。行列Wと縦ベクトルwは、式(6)と同様に、以下の式を解くことにより求められる。 In equation (7), W represents a matrix of 2 rows and 2 J columns, and w0 represents a vertical vector of 2 rows and 1 column. Also, a j i represents the position vector of the part j of the person i. Matrix W and column vector w0 can be obtained by solving the following equations as in equation (6).

Figure 0007152651000008
Figure 0007152651000008

式(8)において、s=(xは、姿勢sの部位番号kの部位の位置ベクトルを表し、姿勢sの集合Pは、例えば、上述した場合と同様に、3D-CGソフトウェアなどで作成された人体模型のおける各部位の位置ベクトルの集合である。また、qは、例えば、姿勢sが持つ向きベクトルであり、顔の部位(左目、右目、左耳、右耳、鼻、首)の最小2乗平面Sfaceに直交するベクトルとして定義される。図9(A)は人物画像の例を表し、図9(B)は向きベクトルqの例を表す図である。 In equation (8), s k =(x k y k ) T represents the position vector of the part of pose s with part number k, and the set P of poses s is, for example, a 3D- It is a set of position vectors of each part in a human body model created by CG software or the like. Also, qs is, for example, the direction vector of the posture s , and is defined as a vector orthogonal to the least-squares plane S face of the parts of the face (left eye, right eye, left ear, right ear, nose, neck). . FIG. 9A shows an example of a person image, and FIG. 9B shows an example of a direction vector qs .

例えば、注目度算出部120は、S133において、以下の処理を行う。すなわち、注目度算出部120は、内部メモリに記憶された式(7)を読み出して、姿勢pから抽出した、視えている部位の位置ベクトルak1 ,ak2 ,…,akM と、補間により算出した、視えていない部位kの位置ベクトルa とを、式(7)に代入する。そして、注目度算出部120は、人物iの向きベクトルqを算出する。その際、注目度算出部120は、内部メモリから、式(8)、向きベクトルq、及び各部位番号kの部位の位置ベクトルsを読み出して、式(8)に代入することで、Wとwとを取得する。この場合、予め計算されたWとwとが内部メモリに記憶され、注目度算出部120は、処理の際に内部メモリからWとwとを読み出して、式(7)に代入するようにしてもよい。 For example, the attention degree calculation unit 120 performs the following processing in S133. That is, the attention level calculation unit 120 reads out the equation (7 ) stored in the internal memory, and extracts the position vectors a k1 i , a k2 i , . , and the position vector a k i of the invisible site k calculated by interpolation are substituted into the equation (7). Then, the attention degree calculation unit 120 calculates the orientation vector q i of the person i. At that time, the attention level calculation unit 120 reads out the expression (8), the direction vector q s , and the position vector s k of the part with the part number k from the internal memory, and substitutes them into the expression (8). Get W and w0 . In this case, pre-calculated W and w0 are stored in the internal memory, and the attention level calculation unit 120 reads out W and w0 from the internal memory and substitutes them into equation (7). can be

図8に戻り、注目度算出部120は、人物iの向きベクトルqを算出すると、注目度算出処理を終了する(S134)。 Returning to FIG. 8, after calculating the orientation vector qi of the person i , the attention level calculation unit 120 ends the attention level calculation process (S134).

一方、注目度算出部120は、顔の部位、首、左肩、及び右肩のいずれも視えていると判定したとき(S131でYES)、人物iの向きベクトルqを算出し(S133)、注目度算出処理を終了する(S134)。この場合、注目度算出部120は、補間処理(S132)を行うことなく、視ている部位jの位置ベクトルa ,a ,…,a を式(7)に代入することで、向きベクトルqを算出する。 On the other hand, when the attention level calculation unit 120 determines that all parts of the face, the neck, the left shoulder, and the right shoulder are visible (YES in S131), the attention level calculation unit 120 calculates the direction vector qi of the person i (S133), The attention level calculation process is terminated (S134). In this case, the attention level calculation unit 120 substitutes the position vectors a 1 i , a 2 i , . to calculate the orientation vector qi .

上述した例は、人物iの向きベクトルqの算出する(S133)例として、式(7)と式(8)を用いた例について説明した。例えば、注目度算出部120は、式(7)と式(8)に代えて、以下の式を用いて、人物iの向きベクトルqを算出してもよい。 In the above example, the example using equations (7) and (8) was described as an example of calculating the orientation vector qi of the person i (S133). For example, the attention level calculation unit 120 may calculate the direction vector qi of the person i using the following formula instead of the formulas (7) and (8).

Figure 0007152651000009
Figure 0007152651000009

式(9)に示すように、注目度算出部120は、鼻(j=1)、首(j=6)、左肩(j=7)、右肩(j=8)の各部位の位置ベクトルa のx軸方向の位置座標(x ,x ,x ,x )を用いて、向きベクトルqを算出する。なお、式(9)において、w,wはパラメータであり、例えば、w=1.0、w=0.5である。図10(A)から図10(C)は、w=1.0、w=0.5の場合の各座標の関係例を表す図である。 As shown in Equation (9), the attention level calculation unit 120 calculates position vectors of the nose (j=1), neck (j=6), left shoulder (j=7), and right shoulder (j=8). A direction vector q i is calculated using the position coordinates (x 1 i , x 6 i , x 7 i , x 8 i ) of a k i in the x-axis direction. In equation (9), w 1 and w 2 are parameters, for example w 1 =1.0 and w 2 =0.5. FIGS. 10(A) to 10(C) are diagrams showing examples of the relationship between coordinates when w 1 =1.0 and w 2 =0.5.

注目度算出部120は、例えば、以下の処理を行う。すなわち、注目度算出部120は、内部メモリに記憶した式(9)を読み出す。そして、注目度算出部120は、姿勢pから抽出した、又は、補間により算出した、各部位(j=1,6,7,8)の位置ベクトルak1 のx座標を式(9)に代入することで、人物iの向きベクトルqを算出する。 The attention degree calculation unit 120 performs, for example, the following processing. That is, the attention level calculation unit 120 reads out the formula (9) stored in the internal memory. Then, attention level calculation section 120 calculates the x-coordinate of position vector a k1 i of each part (j=1, 6, 7, 8) extracted from posture p i or calculated by interpolation using equation (9). , the orientation vector q i of the person i is calculated.

以上が注目度算出処理(S13)の例である。上述した例は、人物iの向きベクトルqを算出する例について説明した。例えば、注目度算出部120は、姿勢推定部110から、他の人物(i+1)の姿勢pi+1を受け取ったときは、この人物(i+1)に対する注目度算出処理(S13)を行い、姿勢pi+1を算出する。このようにして、注目度算出部120は、画像に写っている全ての人物iの向きベクトルqを算出する。 The above is an example of the attention level calculation process (S13). The above example describes an example of calculating the orientation vector q i of the person i. For example, when attention level calculation section 120 receives posture pi+1 of another person ( i +1) from posture estimation section 110, attention level calculation section 120 performs attention level calculation processing (S13) for this person (i+1), and performs attitude pi+1. Calculate In this way, the attention level calculation unit 120 calculates the direction vectors qi of all the persons i appearing in the image.

図2に戻り、次に、情報処理装置100は、算出した人物iの向きベクトルqを注目度記憶部140に記憶する(S15)。 Returning to FIG. 2, next, the information processing apparatus 100 stores the calculated orientation vector qi of the person i in the attention level storage unit 140 (S15).

次に、情報処理装置100は、終了するか否かを判定する(S16)。例えば、情報処理装置100を操作するユーザが終了ボタンを操作したか否か、或いは、終了コマンドを入力したか否かにより判定する。 Next, the information processing apparatus 100 determines whether or not to end (S16). For example, it is determined whether or not the user operating the information processing apparatus 100 has operated the end button or whether or not the end command has been input.

情報処理装置100は、終了するときは(S16でYES)、一連の処理を終了させ(S17)、終了しないときは、S11へ移行して、上述した処理を繰り返す(S11からS15)。例えば、情報処理装置100は、他の画像(又は次の画像フレーム)に対して、画像に写っている人物iの向きベクトルqを算出するときは、終了することなく(S16でNO)、上述した処理を繰り返せばよい。 When the information processing apparatus 100 ends (YES in S16), the series of processes ends (S17). For example, the information processing apparatus 100 does not end (NO in S16 ), The above processing may be repeated.

なお、情報処理装置100は、向きベクトルqを注目度記憶部140に記憶した後、対象物300-1,300-2に視線を向けている人物iの数をカウント処理を行ってもよい。 After storing the direction vector qi in the attention level storage unit 140, the information processing apparatus 100 may count the number of persons i who are looking at the objects 300-1 and 300-2. .

図11は、カウント処理の例を表すフローチャートである。例えば、注目度算出部120で行われる。 FIG. 11 is a flowchart showing an example of counting processing. For example, it is performed by the attention degree calculation unit 120 .

注目度算出部120は、処理を開始すると(S140)、向きベクトルqが対象物mと交差するか否かを判定する(S141)。例えば、注目度算出部120は、算出した向きベクトルqを、n(n>0)倍し、n倍した向きベクトルqが、対象物300-1,300-2の設置点の位置座標と交差するか否か、或いは設置点の位置座標の周囲の一定範囲内の領域で交差するか否かにより判定する。この場合、注目度算出部120は、例えば、向きベクトルqを表す二次方程式に、設置点の位置座標を代入しても二次方程式としての解が得られるか否かにより判定してもよい。或いは、注目度算出部120は、向きベクトルqを表す二次方程式と一定範囲内の領域を表す一次方程式とで解が得られるか否かにより判定してもよい。注目度算出部120は、例えば、空間情報記憶部130に記憶された対象物300-1,300-2の設定点を表す位置情報などを利用して、このような計算を行う。 When the process is started (S140), the attention level calculation unit 120 determines whether or not the direction vector qi intersects the object m (S141). For example, the attention level calculation unit 120 multiplies the calculated orientation vector q i by n (n>0), and the n-fold orientation vector q i is the position coordinates of the installation points of the objects 300-1 and 300-2. or whether it intersects within a certain range around the position coordinates of the installation point. In this case, the attention level calculation unit 120 may determine, for example, whether or not a solution as a quadratic equation can be obtained by substituting the position coordinates of the installation point into the quadratic equation representing the direction vector qi . good. Alternatively, the attention level calculation unit 120 may determine whether or not a solution can be obtained from a quadratic equation representing the direction vector q i and a linear equation representing the region within a certain range. The attention degree calculation unit 120 performs such calculation using, for example, position information representing the set points of the objects 300-1 and 300-2 stored in the spatial information storage unit .

注目度算出部120は、向きベクトルqが対象物mと交差すると判定したとき(S141でYES)、対象mに対するカウント値を増加させる(S142)。例えば、注目度算出部120は、n倍した向きベクトルqが、対象物300-1の設置点の位置座標や、その周囲の領域で交差するとき、対象物300-1のカウント値をインクリメントする。 When the attention level calculation unit 120 determines that the direction vector q i intersects the object m (YES in S141), it increases the count value for the object m (S142). For example, when the direction vector q i multiplied by n intersects the positional coordinates of the installation point of the object 300-1 or the surrounding area, the attention level calculation unit 120 increments the count value of the object 300-1. do.

次に、注目度算出部120は、終了判定を行い(S143)、カウント処理を終了させるときは(S143でYES)、終了し(S144)、終了させないときは(S143でNO)、人物iをインクリメントし(S145)、次の人物iに対して、どの対象物mに着目しているかを判定する(S141,S142)。 Next, the attention level calculation unit 120 determines whether to end the counting process (S143). The number is incremented (S145), and it is determined which object m the next person i is focused on (S141, S142).

一方、注目度算出部120は、向きベクトルqが対象物mと交差しないと判定したとき(S141でNo)、対象物mに対するカウント値を増加させることなく、終了判定を行う(S143)。 On the other hand, when the attention level calculation unit 120 determines that the orientation vector qi does not intersect the object m (No in S141), it performs end determination without increasing the count value for the object m (S143).

例えば、注目度算出部120は、カウント処理を終了したとき(S144)、例えば、内部メモリなどに記憶した各対象物mに対するカウント値を、注目度記憶部140に記憶する。注目度算出部120は、表示装置へカウント値を出力することで、ユーザに対して、どの対象物300-1,300-2に群衆が着目しているかを、通知することができる。 For example, when the counting process ends (S144), the attention level calculation unit 120 stores the count value for each object m stored in the internal memory or the like in the attention level storage unit 140, for example. By outputting the count value to the display device, the attention degree calculation unit 120 can notify the user of which objects 300-1 and 300-2 the crowd is paying attention to.

例えば、街中などで監視カメラを用いて群衆の画像が撮影された場合を考える。この場合、撮影された画像には、障害物や監視カメラの設置場所などによって、顔が隠れた人物が含まれる場合がある。このような場合、顔の部位の位置情報が得られない場合がある。 For example, consider a case where a surveillance camera is used to capture an image of a crowd in a city. In this case, the photographed image may include a person whose face is hidden due to obstacles, installation locations of surveillance cameras, or the like. In such a case, it may not be possible to obtain the positional information of the parts of the face.

本第1の実施の形態の情報処理装置100は、顔の部位の位置情報が得られないときであっても、位置情報が得られた他の部位の位置情報を利用して、補間処理(例えば図8のS132)により、顔の部位の位置情報を算出する。そして、情報処理装置100は、顔の位置情報と他の部位の位置情報とを用いて、向きベクトルqを算出する。従って、本情報処理装置100は、顔が隠れた人物の画像であっても、その人物の視線方向を推定することが可能である。 Information processing apparatus 100 according to the first embodiment performs interpolation processing ( For example, in S132) of FIG. 8, the position information of the part of the face is calculated. Then, the information processing apparatus 100 calculates the direction vector q i using the position information of the face and the position information of other parts. Therefore, the information processing apparatus 100 can estimate the line-of-sight direction of a person whose face is hidden in the image.

[第2の実施の形態]
第1の実施の形態では、姿勢pなどは、2次元空間上のベクトルとして表現される例について説明した。本第2の実施の形態では、姿勢pなどが、3次元空間上のベクトルとして表現される例について説明する。このような3次元空間上のベクトルは、例えば、複数台のカメラ(又は撮像装置200)を用いて、計算が可能となる。
[Second embodiment]
In the first embodiment, an example has been described in which the posture p i and the like are expressed as vectors in a two-dimensional space. In the second embodiment, an example in which postures p i and the like are expressed as vectors in a three-dimensional space will be described. Vectors in such a three-dimensional space can be calculated using, for example, multiple cameras (or imaging devices 200).

図12は、2台のカメラの座標系と3次元空間上の位置座標の例を表す図である。図12に示す2台のカメラは、例えば、撮像装置200が2台あることを表している。 FIG. 12 is a diagram showing an example of coordinate systems of two cameras and position coordinates in a three-dimensional space. Two cameras shown in FIG. 12 represent, for example, that there are two imaging devices 200 .

図12において、Oは第1のカメラの原点、O’は第2のカメラの原点をそれぞれ表す。また、tは第1のカメラから第2のカメラへ向かう並進ベクトル、(X,Y,Z)は第1のカメラの座標系から見た部位の3次元位置座標をそれぞれ表す。さらに、Rは、第1のカメラから見た第2のカメラの回転角を表す回転行列、fは第1のカメラの焦点距離(原点Oから第1のカメラの画像座標系の原点までの距離)、f’は第2のカメラの焦点距離(原点O’から第2のカメラの画像座標系の原点までの距離)をそれぞれ表す。さらに、(x,y)は、第1のカメラの画像内(又は第1のカメラの画像座標系)における部位の2次元位置座標、(x’,y’)は、第2のカメラの画像内(又は第2のカメラの画像座標系)における部位の2次元位置座標をそれぞれ表す。 In FIG. 12, O represents the origin of the first camera, and O' represents the origin of the second camera. Also, t represents a translation vector from the first camera to the second camera, and (X, Y, Z) represents the three-dimensional position coordinates of the part viewed from the coordinate system of the first camera. Furthermore, R is a rotation matrix representing the rotation angle of the second camera as seen from the first camera, f is the focal length of the first camera (the distance from the origin O to the origin of the image coordinate system of the first camera ) and f′ represent the focal length of the second camera (the distance from the origin O′ to the origin of the image coordinate system of the second camera). Furthermore, (x, y) is the two-dimensional position coordinates of the part in the image of the first camera (or the image coordinate system of the first camera), and (x', y') is the image of the second camera. (or the image coordinate system of the second camera).

図13は、第2の実施の形態における姿勢推定部110の構成例を表す図である。 FIG. 13 is a diagram showing a configuration example of posture estimation section 110 in the second embodiment.

図13に示すように、姿勢推定部110は、第1及び第2のCNN処理部111-1,111-2、第1及び第2の候補点算出部112-1,112-2、第1及び第2のグルーピング処理部113-1,113-2を備える。また、姿勢推定部110は、同一人物特定処理部114、カメラ行列計算部115、及び3次元位置計算部116を備える。 As shown in FIG. 13, posture estimation section 110 includes first and second CNN processing sections 111-1 and 111-2, first and second candidate point calculation sections 112-1 and 112-2, first and second grouping processing units 113-1 and 113-2. In addition, posture estimation section 110 includes same person identification processing section 114 , camera matrix calculation section 115 , and three-dimensional position calculation section 116 .

第1及び第2のCNN処理部111-1,111-2は、第1及び第2のカメラから出力された画像データに対して、CNN処理などを施して、各部位に対する確率分布φ(X,W)を出力する。第1及び第2のCNN処理部111-1,111-2の各々は、各カメラからの画像データに対して、例えば、第1の実施の形態と同様のCNN処理を施すことで、各カメラで撮像された画像の各部位に対する確率分布φ(X,W)を出力する。 The first and second CNN processing units 111-1 and 111-2 perform CNN processing and the like on the image data output from the first and second cameras, and obtain a probability distribution φ(X , W). Each of the first and second CNN processing units 111-1 and 111-2 performs, for example, the same CNN processing as in the first embodiment on the image data from each camera, so that each camera output the probability distribution φ(X, W) for each part of the image captured by .

第1及び第2の候補点算出部112-1,112-2は、第1及び第2のCNN処理部111-1,111-2から出力された確率分布φ(X,W)に基づいて、各部位の候補点をそれぞれ算出する。第1及び第2の候補点算出部112-1,112-2の各々は、例えば、第1の実施の形態と同様に、確率分布φ(X,W)から極大点を探索するなどにより、候補点を算出する。 The first and second candidate point calculation units 112-1 and 112-2 are based on the probability distribution φ(X, W) output from the first and second CNN processing units 111-1 and 111-2. , and the candidate points for each part are calculated. Each of the first and second candidate point calculation units 112-1 and 112-2, for example, similarly to the first embodiment, searches for a local maximum point from the probability distribution φ(X, W), Calculate candidate points.

第1及び第2のグルーピング処理部113-1,113-2は、第1及び第2の候補点算出部112-1,112-2から出力された候補点に対して、それぞれグルーピングを行う。第1及び第2のグルーピング処理部113-1,113-2の各々は、例えば、第1の実施の形態と同様に、各候補点の距離に基づいて、グルーピングを行う。 The first and second grouping processors 113-1 and 113-2 respectively group the candidate points output from the first and second candidate point calculators 112-1 and 112-2. Each of the first and second grouping processing units 113-1 and 113-2 performs grouping based on the distance of each candidate point, for example, as in the first embodiment.

同一人物特定処理部114は、第1及び第2のグルーピング処理部113-1,113-2から出力された、グループ化された候補点が同一人物の候補点であるか否かを、類似度を用いて特定する。同一人物特定処理部114は、類似度の高い候補点の組み合わせを同一人物の候補点であると判定して、その候補点を出力する。詳細は動作例で説明する。 The same person identification processing unit 114 determines whether or not the grouped candidate points output from the first and second grouping processing units 113-1 and 113-2 are candidate points of the same person. Identify using The same person identification processing unit 114 determines that a combination of candidate points with a high degree of similarity is candidate points of the same person, and outputs the candidate points. Details will be explained in an operation example.

カメラ行列計算部115は、カメラ行列P,P’を計算する。カメラ行列Pは、例えば、図12に示すように、第1のカメラの画像座標系を3次元位置の座標系へ変換する行列を表す。また、カメラ行列P’は、例えば、第2のカメラの画像座標系を3次元位置の座標系を変換する行列を表す。カメラ行列計算部115は、同一人物特定処理部114から出力された各候補点と、計算したカメラ行列P,P’とを3次元位置計算部116へ出力する。カメラ行列P,P’の計算例は動作例で説明する。 The camera matrix calculator 115 calculates camera matrices P and P'. The camera matrix P represents a matrix for transforming the image coordinate system of the first camera into the coordinate system of the three-dimensional position, as shown in FIG. 12, for example. Also, the camera matrix P' represents, for example, a matrix for transforming the image coordinate system of the second camera into the coordinate system of the three-dimensional position. The camera matrix calculation unit 115 outputs each candidate point output from the same person identification processing unit 114 and the calculated camera matrices P and P′ to the three-dimensional position calculation unit 116 . A calculation example of the camera matrices P and P' will be described in an operation example.

3次元位置計算部116は、例えば、カメラ行列P,P’を用いて、グループ化された各部位の候補点(2次元の位置座標)を3次元位置座標へ変換して、3次元位置ベクトルを含む姿勢pを出力する。詳細は動作例で説明する。 The three-dimensional position calculation unit 116 converts the grouped candidate points (two-dimensional position coordinates) of each part into three-dimensional position coordinates using, for example, the camera matrices P and P′, and generates a three-dimensional position vector Output the pose p i containing . Details will be explained in an operation example.

図14は第2の実施の形態における動作例を表すフローチャートである。例えば、情報処理装置100は、図2に示すフローチャートに代えて、図14に示すフローチャートにより処理を行う。 FIG. 14 is a flow chart showing an operation example in the second embodiment. For example, the information processing apparatus 100 performs processing according to the flowchart shown in FIG. 14 instead of the flowchart shown in FIG.

情報処理装置100は、処理を開始すると(S20)、第1のカメラで群衆を撮影し(S21)、第2のカメラでも同じ群衆を撮影する(S23)。例えば、撮像装置200が2台あり、一方の撮像装置200が第1のカメラ、他方の撮像装置200が第2のカメラとして、各々群衆を撮影する。 When the information processing apparatus 100 starts processing (S20), the first camera captures an image of the crowd (S21), and the second camera captures an image of the same crowd (S23). For example, there are two imaging devices 200, one imaging device 200 serves as a first camera, and the other imaging device 200 serves as a second camera, each of which photographs a crowd.

次に、情報処理装置100は、第1のカメラで撮影された画像に含まれる各人物の姿勢を推定し(S22)、第2のカメラで撮影された画像に含まれる各人物の姿勢も推定する(S24)。例えば、第1のCNN処理部111-1、第1の候補点算出部112-1、及び第1のグルーピング処理部113-1において、第1のカメラで撮影された画像に含まれる各人物の姿勢を推定する。また、例えば、第2のCNN処理部111-2、第2の候補点算出部112-2、及び第2のグルーピング処理部113-2において、第2のカメラで撮影された画像に含まれる各人物の姿勢を推定する。 Next, the information processing apparatus 100 estimates the posture of each person included in the image captured by the first camera (S22), and also estimates the posture of each person included in the image captured by the second camera. (S24). For example, in the first CNN processing unit 111-1, the first candidate point calculation unit 112-1, and the first grouping processing unit 113-1, each person included in the image captured by the first camera Estimate pose. Further, for example, in the second CNN processing unit 111-2, the second candidate point calculation unit 112-2, and the second grouping processing unit 113-2, each Estimate the pose of a person.

次に、情報処理装置100は、2つのカメラで撮影された画像に対して、同一人物特定処理を行う(S25)。 Next, the information processing apparatus 100 performs same person identification processing on the images captured by the two cameras (S25).

図15(A)は同一人物特定処理の例を表すフローチャートである。例えば、同一人物特定処理部114において行われる。 FIG. 15A is a flowchart showing an example of same person identification processing. For example, it is performed in the same person identification processing unit 114 .

同一人物特定処理部114は、同一人物特定処理を開始すると(S250)、第1のカメラで撮影した人物の画像をトリミング(又は切り抜き、或いは切り取り)し(S251)、第2のカメラで撮影された人物の画像をトリミングする(S252)。例えば、同一人物特定処理部114は、以下の処理を行う。 When starting the same person identification processing (S250), the same person identification processing unit 114 trims (or cuts out or cuts) the image of the person captured by the first camera (S251), and the image of the person captured by the second camera is trimmed (or cut out) (S251). Then, the image of the person who has been photographed is trimmed (S252). For example, the same person identification processing unit 114 performs the following processing.

すなわち、同一人物特定処理部114は、第1及び第2のグルーピング処理部113-1,113-2から、グループ化された候補点を入力する。そのため、同一人物特定処理部114は、候補点に基づいて、グループ化された候補点全体の周囲にある画像の画素値が一定の範囲内にある画素値を、第1及び第2の画像の画像データから抽出することで、人物の画像をトリミングする。例えば、人物の画像の各画素の画素値は、第1及び第2のCNN処理部111-1,111-2、第1及び第2の候補点算出部112-1,112-2,及び第1及び第2のグルーピング処理部113-1,113-2を介して、同一人物特定処理部114へ入力される。 That is, the same person identification processing unit 114 receives grouped candidate points from the first and second grouping processing units 113-1 and 113-2. Therefore, based on the candidate points, the same person identification processing unit 114 assigns the pixel values of the images surrounding the entire grouped candidate points within a certain range to the pixel values of the first and second images. Crop the image of the person by extracting from the image data. For example, the pixel value of each pixel in the image of a person is obtained by the first and second CNN processing units 111-1 and 111-2, the first and second candidate point calculation units 112-1 and 112-2, and the It is input to the same person identification processing unit 114 via the first and second grouping processing units 113-1 and 113-2.

次に、同一人物特定処理部114は、類似度計算処理を行う(S253)。 Next, the same person identification processing unit 114 performs similarity calculation processing (S253).

図15(B)は類似度計算処理の例を表すフローチャートである。 FIG. 15B is a flowchart showing an example of similarity calculation processing.

同一人物特定処理部114は、類似度計算処理を開始すると(S2530)、第1及び第2のカメラで撮影された人物の部位の画像をトリミングする(S2531,S2533)。この場合も、例えば、同一人物特定処理部114は、候補点ごとに、候補点の周囲にある画像の画素値が一定の範囲内にある画素値を抽出することで、人物の部位の画像をトリミングする。同一人物特定処理部114は、例えば、第1及び第2のカメラで撮影された画像ごとに、このような部位の画像をトリミングする。 When starting the similarity calculation process (S2530), the same person identification processing unit 114 trims the images of the parts of the person captured by the first and second cameras (S2531, S2533). Also in this case, for example, the same person identification processing unit 114 extracts the pixel values of the image around the candidate point within a certain range for each candidate point, thereby extracting the image of the part of the person. trim. The same person identification processing unit 114 trims the image of such a region, for example, for each image captured by the first and second cameras.

次に、同一人物特定処理部114は、各々トリミングした部位の画像に対して、カラーヒストグラムを計算する(S2532,S2534)。例えば、同一人物特定処理部114は、以下の処理を行う。 Next, the same person identification processing unit 114 calculates a color histogram for each trimmed part image (S2532, S2534). For example, the same person identification processing unit 114 performs the following processing.

すなわち、同一人物特定処理部114は、各部位の画像の各画素を所定セル(例えば、8×8画素)にまとめ、所定セルごとに、RGBの各画素値(又は階調値)の出現回数を取得する。このような処理は、公知手法でよく、例えば、色情報を利用した局所特徴量であるCSS(Color Self-Similarity)特徴量を計算することで、カラーヒストグラムが計算されてよい。同一人物特定処理部114は、第1及び第2のカメラで撮影された画像ごとに、カラーヒストグラムを計算する。 That is, the same person identification processing unit 114 collects each pixel of the image of each part into a predetermined cell (for example, 8×8 pixels), and for each predetermined cell, calculates the number of appearances of each pixel value (or gradation value) of RGB. to get Such processing may be performed by a known method. For example, a color histogram may be calculated by calculating a CSS (Color Self-Similarity) feature amount, which is a local feature amount using color information. The same person identification processing unit 114 calculates a color histogram for each image captured by the first and second cameras.

次に、同一人物特定処理部114は、カラーヒストグラム(S2532,S2534)を用いて平均2乗誤差を計算し、類似度を計算する(S2535)。例えば、同一人物特定処理部114は、以下の処理を行う。 Next, the same person identification processing unit 114 calculates the mean square error using the color histograms (S2532, S2534) and calculates the degree of similarity (S2535). For example, the same person identification processing unit 114 performs the following processing.

すなわち、同一人物特定処理部114は、第1のカメラで撮影した、ある部位の画像に対応するカラーヒストグラム(S2532)と、第2のカメラで撮影した、その部位の画像に対応するカラーヒストグラム(S2534)との平均2乗誤差を計算する。カラーヒストグラムでは、異なるカメラで撮影された部位の画像について、所定セルごとの画素値の出現回数として計算される。そのため、同一人物特定処理部114は、そのような2つの出現回数の誤差の2乗を算出し、その算出値の部位全体における平均値を算出する。同一人物特定処理部114は、算出した平均値の逆数を、類似度として計算する。同一人物特定処理部114は、部位ごとに、このような類似度を計算する。 That is, the same person identification processing unit 114 creates a color histogram (S2532) corresponding to the image of a certain part taken by the first camera and a color histogram (S2532) corresponding to the image of the part taken by the second camera. S2534) to calculate the mean squared error. The color histogram is calculated as the number of appearances of a pixel value for each predetermined cell for images of regions captured by different cameras. Therefore, the same person identification processing unit 114 calculates the square of the error between the two appearance counts, and calculates the average value of the calculated values for the entire part. The same person identification processing unit 114 calculates the reciprocal of the calculated average value as the degree of similarity. The same person identification processing unit 114 calculates such a degree of similarity for each part.

同一人物特定処理部114は、類似度を計算すると、類似度計算処理を終了する(S2536)。 After calculating the degree of similarity, the same person identification processing unit 114 ends the degree of similarity calculation processing (S2536).

図15(A)に戻り、次に、同一人物特定処理部114は、類似度の高い組み合わせを探索する(S254)。例えば、同一人物特定処理部114は、部位ごとに計算した複数の類似度が、すべて類似度閾値以上のとき、第1のカメラで撮影した人物と第2のカメラで撮影した人物が同一人物であると判定し、そうでないときは、同一人物ではないと判定する。このような判定は、一例であって、同一人物特定処理部114は、類似度が類似度閾値以上となっている部位の個数が、個数閾値以上のとき、同一人物であると判定し、そうでないときは同一人物ではないと判定してもよい。例えば、類似度が高いほど、同一人物由来の部位画像である確率は高くなる。 Returning to FIG. 15A, next, the same person identification processing unit 114 searches for a combination with a high degree of similarity (S254). For example, the same person identification processing unit 114 determines that the person photographed by the first camera and the person photographed by the second camera are the same person when all of the plurality of similarities calculated for each part are equal to or greater than the similarity threshold. If not, it is determined that they are not the same person. Such a determination is an example, and the same person identification processing unit 114 determines that the person is the same person when the number of parts whose similarity is equal to or higher than the similarity threshold is equal to or higher than the number threshold. If not, it may be determined that they are not the same person. For example, the higher the degree of similarity, the higher the probability that the partial images are derived from the same person.

そして、同一人物特定処理部114は、同一人物特定処理を終了する(S255)。 Then, the same person identification processing unit 114 ends the same person identification processing (S255).

図14に戻り、次に、情報処理装置100は、カメラ行列P,P’を計算する(S26)。ここで、カメラ行列P,P’について説明する。 Returning to FIG. 14, the information processing apparatus 100 then calculates the camera matrices P and P' (S26). Here, the camera matrices P and P' will be explained.

図12に示すように、最初に、第1のカメラの座標系から見た部位の3次元位置座標(X,Y,Z)を第1のカメラの画像内における部位の2次元位置座標(x,y)と第2のカメラの画像内における部位の2次元位置座標(x’,y’)と並進ベクトルt、回転行列Rとで記述することを考える。 As shown in FIG. 12, first, the three-dimensional position coordinates (X, Y, Z) of the part viewed from the coordinate system of the first camera are converted to the two-dimensional position coordinates (x , y), the two-dimensional position coordinates (x′, y′) of the part in the image of the second camera, the translation vector t, and the rotation matrix R.

まず、投資投影モデルによれば、3次元位置座標(X,Y,Z)は、2次元位置座標(x,y)と第1のカメラの焦点距離fを用いて、以下の式(9-1)または式(9-2)で記述される。 First, according to the investment projection model, the three-dimensional position coordinates (X, Y, Z) are obtained by the following equation (9- 1) or described by formula (9-2).

Figure 0007152651000010
Figure 0007152651000010

Figure 0007152651000011
Figure 0007152651000011

同様にして、第2のカメラの座標系から見た部位の3次元位置座標(X’,Y’,Z’)は、以下の式(9-3)又は式(9-4)式で記述される。ここで、kとk’は「0」ではない実数である。 Similarly, the three-dimensional position coordinates (X', Y', Z') of the part viewed from the coordinate system of the second camera are described by the following formula (9-3) or formula (9-4). be done. Here, k and k' are real numbers that are not "0".

Figure 0007152651000012
Figure 0007152651000012

Figure 0007152651000013
Figure 0007152651000013

一方、図12に示すように、第2カメラの座標系(X’,Y’,Z’)と第1カメラの座標系(X,Y,Z)の関係は、並進ベクトルtと回転行列Rを用いて以下の式(9-5)で記述できる。 On the other hand, as shown in FIG. 12, the relationship between the coordinate system (X', Y', Z') of the second camera and the coordinate system (X, Y, Z) of the first camera is the translation vector t and the rotation matrix R can be described by the following equation (9-5) using

Figure 0007152651000014
Figure 0007152651000014

以上の式(9-1)、式(9-2)、式(9-3)、式(9-4)、及び式(9-5)を連立させて解けば、3次元位置座標(X,Y,Z)と2次元位置座標(x,y)と2次元位置座標(x’,y’)の関係が、並進ベクトルt、回転行列Rとを用いて以下の4つの式で記述されることが分かる。 By simultaneously solving the above equations (9-1), (9-2), (9-3), (9-4), and (9-5), the three-dimensional position coordinates (X , Y, Z), two-dimensional position coordinates (x, y), and two-dimensional position coordinates (x', y') are described by the following four equations using a translation vector t and a rotation matrix R. I understand that.

Figure 0007152651000015
Figure 0007152651000015

Figure 0007152651000016
Figure 0007152651000016

Figure 0007152651000017
Figure 0007152651000017

Figure 0007152651000018
Figure 0007152651000018

ここで、P,P’カメラ行列とよばれる行列である。2次元位置座標(x,y)と2次元位置座標(x’,y’)、並進ベクトルt、回転行列Rが分かれば、3次元位置座標(X,Y,Z)は、上記の式(9-6)、式(9-7)、式(9-8)、及び式(9-9)を逆に解くことで計算できることが分かった。 Here, it is a matrix called a P, P' camera matrix. If the two-dimensional position coordinates (x, y), the two-dimensional position coordinates (x', y'), the translation vector t, and the rotation matrix R are known, the three-dimensional position coordinates (X, Y, Z) can be obtained by the above equation ( 9-6), equations (9-7), equations (9-8), and equations (9-9) can be solved in reverse.

以上から、カメラ行列計算部115は、例えば、以下の式を用いて、カメラ行列P,P’を計算する。 Based on the above, the camera matrix calculation unit 115 calculates camera matrices P and P' using, for example, the following equations.

Figure 0007152651000019
Figure 0007152651000019

Figure 0007152651000020
Figure 0007152651000020

式(10)と式(11)において、fは、スケールを調整するパラメータであり、例えば、f=1である。 In equations (10) and (11), f 0 is a parameter for adjusting the scale, for example f 0 =1.

カメラ行列計算部115は、例えば、内部メモリに記憶された式(10)と式(11)を読み出して、第1及び第2のカメラの焦点距離f,f’、回転行列R、第1のカメラの原点Oから第2のカメラの原点O’へ向かうベクトルtを式(10)と式(11)に代入する。カメラ行列計算部115は、例えば、焦点距離f,f’、回転行列R、ベクトルtも内部メモリに記憶されており、これらの値を内部メモリから読み出して、式(10)と式(11)に代入すればよい。 The camera matrix calculation unit 115 reads, for example, the equations (10) and (11) stored in the internal memory, the focal lengths f and f′ of the first and second cameras, the rotation matrix R, the first A vector t directed from the origin O of the camera to the origin O' of the second camera is substituted into the equations (10) and (11). The camera matrix calculator 115 also stores focal lengths f, f′, rotation matrix R, and vector t in the internal memory, for example, and reads out these values from the internal memory to obtain equations (10) and (11). should be substituted for

次に、情報処理装置100は、各部位の3次元位置(X,Y,Z)を計算する(S27)。例えば、3次元位置計算部116は、以下の式の連立方程式を解くことで、(X,Y,Z)を計算する。 Next, the information processing device 100 calculates the three-dimensional position (X, Y, Z) of each part (S27). For example, the three-dimensional position calculation unit 116 calculates (X, Y, Z) by solving the following simultaneous equations.

Figure 0007152651000021
Figure 0007152651000021

Figure 0007152651000022
Figure 0007152651000022

Figure 0007152651000023
Figure 0007152651000023

Figure 0007152651000024
Figure 0007152651000024

例えば、3次元位置計算部116は、以下の処理を行う。すなわち、3次元位置計算部116は、内部メモリに記憶された式(12)から式(15)を読み出して、S26で計算したカメラ行列P,P’の各成分と、部位の位置座標(x,y),(x’,y’)を、式(12)から式(15)に代入する。そして、3次元位置計算部116は、式(12)から式(15)の連立方程式を解くことで、部位の3次元位置座標(X,Y,Z)を得る。この場合、3次元位置計算部116は、計算した部位の3次元位置座標を、式(1)に代入することで、3次元ベクトルとして表現された姿勢pを得る。 For example, the 3D position calculator 116 performs the following processing. That is, the three-dimensional position calculation unit 116 reads out the equations (12) to (15) stored in the internal memory, the components of the camera matrices P and P′ calculated in S26, and the position coordinates (x , y) and (x', y') are substituted into equations (12) to (15). Then, the three-dimensional position calculation unit 116 obtains the three-dimensional position coordinates (X, Y, Z) of the part by solving the simultaneous equations (12) to (15). In this case, the three-dimensional position calculation unit 116 obtains the posture p i expressed as a three-dimensional vector by substituting the calculated three-dimensional position coordinates of the part into Equation (1).

以降は、情報処理装置100は、第1の実施の形態と同様に、姿勢pを利用して、S13からS17の処理を行って、向きベクトルqを算出し、一連の処理を終了する(S28)。S13からS17の処理においては、情報処理装置100は、例えば、3次元位置座標を用いて処理を行い、3次元位置ベクトルとして表現された向きベクトルqを得る。 After that, the information processing apparatus 100 uses the orientation p i to perform the processes of S13 to S17 to calculate the orientation vector q i , as in the first embodiment, and ends the series of processes. (S28). In the processing from S13 to S17, the information processing apparatus 100 performs processing using, for example, the three-dimensional position coordinates, and obtains the orientation vector q i expressed as a three-dimensional position vector.

このように本第2の実施の形態では、姿勢pや向きベクトルqを3次元位置ベクトルとして表現できるため、2次元位置ベクトルを利用した第1の実施の形態と比較して、正確な向きベクトルqを得ることが可能となる。 As described above, in the second embodiment, the posture p i and the orientation vector q i can be expressed as three-dimensional position vectors. It becomes possible to obtain the orientation vector qi .

[第3の実施の形態]
第1の実施の形態では、注目度算出処理(例えば図8のS130)において、一定の部位に着目して、視えていない部位については補間する処理について説明した。例えば、ある人物iの視えていない部位kの数が閾値以下でないとき、補間によりそのような部位kを算出しても、その部位kの位置ベクトル =(x を精度良く算出することができない場合がある。
[Third Embodiment]
In the first embodiment, in the attention degree calculation process (for example, S130 in FIG. 8), attention is paid to a certain part, and the process of interpolating a part that is not visible has been described. For example, when the number of unseen parts k of a certain person i is not equal to or less than a threshold, even if such parts k are calculated by interpolation, the position vector a k i =(x k i y k i ) of the part k is T. may not be calculated with high accuracy.

本第3の実施の形態の情報処理装置100は、人物iの姿勢は、隣接する人物tの姿勢に似る傾向を持つという、経験測に基づいて、人物iの姿勢pだけではなく、人物tの姿勢pも利用して、人物iの位置ベクトル =(x を算出する。 The information processing apparatus 100 according to the third embodiment is based on empirical measurement that the posture of a person i tends to resemble the posture of an adjacent person t. The position vector a k i =(x k i y k i ) T of the person i is calculated using the pose p t of t.

図16は、第3の実施の形態における注目度算出処理の例を表すフローチャートである。ただし、撮像装置200により群衆が撮影され(図2のS11)、姿勢推定部110において、姿勢推定処理(図2のS12)により、人物iの姿勢pと人物tの姿勢pとが得られているものとする。 FIG. 16 is a flowchart showing an example of attention level calculation processing according to the third embodiment. However, the crowd is photographed by the imaging device 200 (S11 in FIG. 2), and the posture estimating unit 110 obtains the posture p i of the person i and the posture p t of the person t through the posture estimation process (S12 in FIG. 2). shall be provided.

注目度算出部120は、注目度算出処理を開始すると(S130)、ある人物iの視えていない部位(とくに顔の部位)の数が閾値以下か否かを判定する(S135)。例えば、注目度算出部120は、姿勢推定部110から出力された姿勢pにおいて、v =0となっている数が閾値以上となっているか否かを判定する。この場合、例えば、注目度算出部120は、顔の部位(j=1~5)に着目し、その部位のv が「0」となっている数が閾値以上か否かを判定してもよい。 Upon starting the attention level calculation process (S130), the attention level calculation unit 120 determines whether or not the number of unseen parts (especially facial parts) of a certain person i is equal to or less than a threshold (S135). For example, attention level calculation section 120 determines whether or not the number of v j i =0 in posture p i output from posture estimation section 110 is greater than or equal to a threshold. In this case, for example, the attention level calculation unit 120 focuses on a part of the face (j=1 to 5) and determines whether or not the number of v j i of that part being “0” is equal to or greater than a threshold. may

注目度算出部120は、視えていない部位の数が閾値よりも多いとき(S135でNO)、視えていない部位kの位置ベクトル =(x を補間により算出する(S136)。例えば、注目度算出部120は、以下の式を用いて、位置ベクトルa を算出する。 When the number of unseen parts is greater than the threshold (NO in S135), the attention level calculation unit 120 calculates the position vector ak i =(x k i y k i ) T of the unseen part k by interpolation. (S136). For example, the attention degree calculation unit 120 calculates the position vector a k i using the following formula.

Figure 0007152651000025
Figure 0007152651000025

式(16)において、ak1 ,ak2 ,…,akM1 は、人物iにおいて視えている部位の位置ベクトル、ak1 ,ak2 ,…,akM2 は、人物iに隣接する人物tにおいて視えている部位の位置ベクトルをそれぞれ表す。また、A M1,M2は、2M行2M +2M の行列である。A M1,M2とb M1,M2は、例えば、姿勢sの集合P(教師データ)を用いて、式(6)と同様に、以下の式を用いて算出する。 In Equation ( 16 ) , a k1 i , a k2 i , . Position vectors of parts visible to an adjacent person t are respectively represented. Also, A k M1 and M2 are matrices of 2M rows and 2M 1 +2M 2 columns . A k M1, M2 and b k M1, M2 are calculated using, for example, the set P (teaching data) of postures s using the following equations, similar to equation (6).

Figure 0007152651000026
Figure 0007152651000026

例えば、注目度算出部120は、以下の処理を行う。すなわち、注目度算出部120は、姿勢推定部110から出力された姿勢pと姿勢pに基づいて、人物iの中心座標と、人物tの中心座標を求める。注目度算出部120は、2つの中心座標が閾値以内であれば、人物tは人物iに隣接すると判定する。隣接すると判定すると、注目度算出部120は、内部メモリから式(17)を読み出して、A M1,M2とb M1,M2を計算する。注目度算出部120は、姿勢pからv =1となっている位置ベクトルと、姿勢pからv =1となっている位置ベクトル、及び計算したA M1,M2とb M1,M2を、式(16)の右辺に代入することで、人物iの視えていない部位kの位置ベクトルa を算出する。 For example, the attention degree calculation unit 120 performs the following processing. That is, attention level calculation section 120 obtains the center coordinates of person i and the center coordinates of person t based on posture p i and posture p t output from posture estimation section 110 . The attention level calculation unit 120 determines that the person t is adjacent to the person i if the two center coordinates are within the threshold. If it is determined that they are adjacent, the attention level calculation unit 120 reads Equation (17) from the internal memory and calculates A k M1, M2 and b k M1, M2 . The attention level calculation unit 120 calculates the position vector v j i =1 from the posture p i , the position vector v j t =1 from the posture p t , and the calculated A k M1, M2 and b By substituting k M1 and M2 into the right side of the equation (16), the position vector a k i of the invisible part k of the person i is calculated.

次に、注目度算出部120は、視えている部位の位置ベクトルak1 ,ak2 ,…,akM1 と、補間により算出した、視えていない部位kの位置ベクトルa とを利用して、人物iの向きベクトルqを算出する(S137)。例えば、注目度算出部120は、第1の実施の形態と同様に式(7)を用いて向きベクトルqを算出する。 Next, attention level calculation section 120 calculates position vectors a k1 i , a k2 i , . Using this, the direction vector qi of the person i is calculated (S137). For example, the attention level calculation unit 120 calculates the direction vector qi using the equation (7) as in the first embodiment.

そして、注目度算出部120は、注目度算出処理を終了する(S138)。 Then, the attention degree calculation unit 120 ends the attention degree calculation processing (S138).

一方、注目度算出部120は、視えていない部位の数が閾値以下のとき(S135でYES)、姿勢pに基づいて、人物iの向きベクトルqを算出する(S137)。この場合、姿勢pには、部位の位置座標が一部含まれないこともあるが、そのような場合は、注目度算出部120は、行列Wの成分を調整して、そのような行列Wを含む式(7)を利用して、向きベクトルqを算出する。 On the other hand, when the number of unseen parts is equal to or less than the threshold (YES in S135), attention degree calculation section 120 calculates orientation vector qi of person i based on posture pi (S137). In this case, the posture p i may not include part of the position coordinates of the body parts. Using equation (7) with W, the orientation vector q i is calculated.

以降、情報処理装置100は、第1の実施の形態と同様の処理(S15からS17)を行う。 Thereafter, the information processing apparatus 100 performs the same processing (S15 to S17) as in the first embodiment.

このように、本第3の実施の形態では、情報処理装置100は、視えていない部位の数が閾値よりも多いときは、処理対象の人物iに隣接する人物tの位置ベクトルを利用して、人物iの部位の位置ベクトルを補間により算出している。従って、補間処理を行わない場合と比較して、本第3の実施の形態の情報処理装置100は、視えていない部位の位置を精度よく算出することができ、さらに、向きベクトルqを精度よく算出することも可能となる。 As described above, in the third embodiment, when the number of invisible parts is larger than the threshold, the information processing apparatus 100 uses the position vector of the person t adjacent to the person i to be processed. , the position vector of the part of the person i is calculated by interpolation. Therefore, the information processing apparatus 100 according to the third embodiment can accurately calculate the position of the unseen part, and can accurately calculate the direction vector q i as compared to the case where the interpolation process is not performed. It is also possible to calculate well.

[第4の実施の形態]
第1の実施の形態で利用した式(5)と式(7)は、線形な関数として表現されている。そのため、対象に対する関数の近似能力に限界がある場合がある。そこで、本第4の実施の形態では、式(5)と式(7)に非線形な関数を用いる。これにより、例えば、線形な関数を用いた場合と比較して、対象に対する近似能力を高めるようにする。
[Fourth Embodiment]
Equations (5) and (7) used in the first embodiment are expressed as linear functions. Therefore, the approximation ability of the function to the object may be limited. Therefore, in the fourth embodiment, non-linear functions are used for equations (5) and (7). As a result, for example, the approximation ability for the object is enhanced compared to the case of using a linear function.

本第4の実施の形態の情報処理装置100は、式(5)に代えて、以下の式を用いて、視えていない部位kの位置ベクトルa を補間により算出する。 The information processing apparatus 100 according to the fourth embodiment uses the following equation instead of equation (5) to calculate the position vector a k i of the invisible part k by interpolation.

Figure 0007152651000027
Figure 0007152651000027

Figure 0007152651000028
Figure 0007152651000028

式(18)において、Dl1 は、l1行2M列の行列、Dl2 l1は、l2行11列の行列、D l2は、k行l2列の行列をそれぞれ表す。また、ak1 ,ak2 ,…,akM は、人物iにおいて視えている部位の位置ベクトルを表す。また、式(19)において、δ(x)は活性化関数であり、αとβは、α≠βとなる予め決められた実数をそれぞれ表す。 In Equation (18), D l1 M represents a matrix of l1 rows and 2M columns, D l2 l1 represents a matrix of l2 rows and 11 columns, and D k l2 represents a matrix of k rows and l2 columns. Also, a k1 i , a k2 i , . Also, in equation (19), δ(x) is an activation function, and α and β respectively represent predetermined real numbers that satisfy α≠β.

行列Dl1 ,Dl2 l1,及びD l2は、例えば、式(6)と同様に、姿勢sの集合Pを用いて、以下の式を解くことで得られる行列である。 The matrices D l1 M , D l2 l1 , and D k l2 are, for example, matrices obtained by solving the following equations using the set P of postures s, like Equation (6).

Figure 0007152651000029
Figure 0007152651000029

例えば、注目度算出部120は、補間処理(図8のS132)として、以下の処理を行う。すなわち、注目度算出部120は、内部メモリに記憶されたs と、sk1 ,sk2 ,…,skM とを内部メモリから読み出し、内部メモリから読み出した式(20)に代入し、行列Dl1 ,Dl2 l1,及びD l2を得る。そして、注目度算出部120は、内部メモリに記憶された式(18)を内部メモリから読み出して、式(20)で得た行列Dl1 ,Dl2 l1,及びD l2と、姿勢sから抽出したak1 ,ak2 ,…,akM とを、式(18)に代入する。これにより、注目度算出部120は、視えていない部位kの位置ベクトルa を算出する。 For example, the attention level calculation unit 120 performs the following process as the interpolation process (S132 in FIG. 8). That is, the attention level calculation unit 120 reads s k i and s k1 i , s k2 i , . Substitute to obtain matrices D l1 M , D l2 l1 , and D k l2 . Then, attention level calculation section 120 reads equation (18) stored in the internal memory from the internal memory, and obtains matrices D l1 M , D l2 l1 , and D k l2 obtained by equation (20), and attitude s a k1 i , a k2 i , . Thereby, the attention level calculation unit 120 calculates the position vector a k i of the part k that is not visible.

また、本第4の実施の形態の情報処理装置100は、式(7)に代えて、以下の式を用いて、人物iの向きベクトルqを算出する。 Further, the information processing apparatus 100 according to the fourth embodiment calculates the orientation vector qi of the person i using the following equation instead of the equation (7).

Figure 0007152651000030
Figure 0007152651000030

式(21)において、Wl1 は、l1行2J列の行列、Wl2 l1は、l2行11列の行列、W l2は、k行l2列の行列をそれぞれ表す。 In equation (21), W l1 J represents a matrix of l1 rows and 2J columns, W l2 l1 represents a matrix of l2 rows and 11 columns, and W k l2 represents a matrix of k rows and l2 columns.

行列Wl1 ,Wl2 l1,W l2は、例えば、式(8)と同様に、姿勢sの集合Pを用いて、以下の式を解くことで得られる行列である。 The matrices W l1 J , W l2 l1 , and W k l2 are, for example, matrices obtained by solving the following equations using the set P of postures s, like equation (8).

Figure 0007152651000031
Figure 0007152651000031

例えば、注目度算出部120は向きベクトルqの算出処理(図8のS133)として、以下の処理を行う。すなわち、注目度算出部120は、内部メモリに記憶されたq と、s ,s ,…,s とを内部メモリから読み出し、内部メモリに記憶された式(22)を内部メモリから読み出して、式(22)に代入し、行列Wl1 ,Wl2 l1,W l2を得る。注目度算出部120は、内部メモリに記憶された式(21)を内部メモリから読み出して、式(22)で得た行列Wl1 ,Wl2 l1,W l2と、姿勢sから抽出したa ,a ,…,a とを、式(21)に代入し、人物iの向きベクトルqを算出する。 For example, the attention degree calculation unit 120 performs the following processing as the direction vector qi calculation processing (S133 in FIG. 8). That is, the attention level calculation unit 120 reads q s i and s 1 i , s 2 i , . is read from the internal memory and substituted into equation (22) to obtain the matrices W l1 J , W l2 l1 and W k l2 . The attention level calculation unit 120 reads the expression (21) stored in the internal memory from the internal memory, and extracts from the matrix W l1 J , W l2 l1 , W k l2 obtained by the expression (22) and the orientation s A 1 i , a 2 i , .

なお、式(18)において、3つの行列Dl1 ,Dl2 l1,D l2を用いる例について説明した。例えば、注目度算出部120は、このうち2つの行列を用いて式(18)を計算してもよい。また、例えば、注目度算出部120は、3つの行列Wl1 ,Wl2 l1,W l2ではなく、このうち、2つの行列を用いて式(21)を計算してもよい。 Note that the example using the three matrices D l1 M , D l2 l1 , and D k l2 in Equation (18) has been described. For example, attention level calculation section 120 may calculate equation (18) using two of these matrices. Also, for example, the attention level calculation unit 120 may calculate Equation (21) using two of these matrices instead of the three matrices W l1 J , W l2 l1 and W k l2 .

[第5の実施の形態]
第1の実施の形態では、注目度を算出する例について説明した。本第5の実施の形態では、算出した注目度の変化を検出する例について説明する。情報処理装置100において、このような注目度の変化を検出することで、例えば、群衆が視線を向けている方向が突然変化したような状況が発生したことを検知でき、そのような状況が発生した時間を検出することも可能となる。
[Fifth embodiment]
1st Embodiment demonstrated the example which calculates attention degree. In the fifth embodiment, an example of detecting a change in the calculated attention level will be described. By detecting such a change in the degree of attention in the information processing apparatus 100, it is possible to detect, for example, the occurrence of a sudden change in the direction in which the line of sight of the crowd is directed, and the occurrence of such a situation can be detected. It is also possible to detect the time when the

図17は、第5の実施の形態における情報処理システム10の構成例を表す図である。 FIG. 17 is a diagram showing a configuration example of the information processing system 10 according to the fifth embodiment.

図17に示すように、情報処理装置100は、さらに、変化検知部150を備える。変化検知部150は、注目度記憶部140から注目度を読み出し、例えば、その時間的な変化を検知する。変化検知部150は、検知した結果を、例えば、外部の表示装置へ出力し、ユーザへ知らせることが可能である。 As shown in FIG. 17 , the information processing device 100 further includes a change detection section 150 . The change detection unit 150 reads attention levels from the attention level storage unit 140, and detects, for example, changes over time. The change detection unit 150 can output the detection result to, for example, an external display device to notify the user.

図18は、情報処理装置100の動作例を表すフローチャートである。図18において、S11からS15までの処理は、第1の実施の形態と同様である。 FIG. 18 is a flow chart showing an operation example of the information processing apparatus 100 . In FIG. 18, the processing from S11 to S15 is the same as in the first embodiment.

情報処理装置100は、各人物iの注目度(又は向きベクトルq)を注目度記憶部140に記録すると(S15)、注目度変化検出処理(S18)を行う。 When the information processing apparatus 100 records the attention level (or orientation vector q i ) of each person i in the attention level storage unit 140 (S15), the information processing apparatus 100 performs attention level change detection processing (S18).

図19は、注目度変化検出処理の例を表すフローチャートである。図19の各処理は、例えば、変化検知部150で行われる。 FIG. 19 is a flowchart showing an example of attention degree change detection processing. Each process in FIG. 19 is performed by the change detection unit 150, for example.

変化検知部150は、注目度検出処理を開始すると(S180)、注目度ベクトルu を、時刻(T-n)<t≦(T-m)と、時刻(T-m)<tとの2つの集合に分ける(S181)。 When the attention level detection process is started (S180), the change detection unit 150 changes the attention level vector u i t to the time (Tn)<t≦(Tm) and the time (Tm)<t. (S181).

ここで、注目度ベクトルu は、例えば、時刻tにおける人物iの向きベクトルq を正規化したものであり、以下の式で定義される。 Here, the interest vector u i t is obtained by normalizing the direction vector q i t of the person i at time t, for example, and is defined by the following equation.

Figure 0007152651000032
Figure 0007152651000032

また、時刻(T-n)<t≦(T-m)(ただし、n>m)での注目度ベクトルの集合を、UT-n<t≦T-mとすると、注目度ベクトルの集合UT-n<t≦T-mは、例えば、以下の式で定義される。 Also, if the set of interest vectors at time (Tn)<t≦(Tm) (where n>m) is U Tn<t≦Tm , then the set of interest vectors UT-n<t≦Tm is defined, for example, by the following equation.

Figure 0007152651000033
Figure 0007152651000033

図20は、時刻t、時刻(T-n)、時刻(T-m)の関係例を表す図である。各時刻tにおいて、1つの注目度ベクトルuが算出されるものとすると、時刻tが現在時刻Tのとき、時刻t=T-nから時刻t=Tまでは、n個の注目度ベクトルuが算出される。また、時刻tが時刻(T-n)から時刻t=(T-m)までの間で算出された注目度ベクトルの個数は(n-m)個であり、時刻(T-m)から現在時刻Tまでの間で算出された注目度ベクトルの個数はm個となる。図20に示すように、時刻(T-m)を境に、前半と後半に別れ、注目度ベクトルの集合UT-n<t≦T-mは、前半である、時刻(T-n)から時刻(T-m)までの注目度ベクトルu の集合を表している。 FIG. 20 is a diagram showing an example of the relationship between time t, time (Tn), and time (Tm). Assuming that one attention vector u is calculated at each time t, when time t is the current time T, n attention vector u are calculated from time t=Tn to time t=T. Calculated. Further, the number of interest vectors calculated from time (Tn) to time t=(Tm) is (nm). The number of interest vectors calculated up to time T is m. As shown in FIG. 20, the first half and the second half are separated at the time (Tm), and the set of attention level vectors U T-n<t≦Tm is the first half, the time (Tm). to time ( Tm ) .

変化検知部150は、S181の処理として、例えば、以下の処理を行う。すなわち、変化検知部150は、注目度記憶部140から、時刻(T-n)から現在時刻Tまでのn個の向きベクトルqを、注目度記憶部140から読み出す。そして、変化検知部150は、内部メモリに記憶された式(22)を読み出して、式(22)に向きベクトルqを代入して、n個の注目度ベクトルu を算出する。変化検知部150は、n個の注目度ベクトルu を、時刻(T-n)<t≦(T-m)までの(n-m)個の注目度ベクトルの集合と、時刻(T-m)<tまでのm個の注目度ベクトルの集合に分ける。前者の注目度ベクトルの集合は、例えば、式(24)として表される。 The change detection unit 150 performs, for example, the following process as the process of S181. That is, the change detection unit 150 reads out the n direction vectors q i from the time (Tn) to the current time T from the attention level storage unit 140 . Then, the change detection unit 150 reads out the equation (22) stored in the internal memory, substitutes the orientation vector qi into the equation (22), and calculates n attention level vectors u i t . The change detection unit 150 combines the n attention level vectors u i t with a set of (nm) attention level vectors until the time (Tn)<t≦(Tm) and the time (T −m) < t into a set of m attention vectors. The former set of attention level vectors is represented, for example, by Equation (24).

図19に戻り、変化検知部150は、時刻(T-n)<t≦(T-m)までの(n-m)個の注目度ベクトルの集合UT-n<t≦T-mに対して、注目度ベクトルu の確率分布p(u )を推定する(S182)。本処理においては、確率分布p(u )は、例えば、混合フォン・ミーゼス分布(又はフォンミーゼスフィッシャー分布)に沿って分布すると仮定する。混合フォン・ミーゼス分布は、例えば、注目度ベクトルu の始点をd次元(dは例えば2又は3)空間上の原点にとった場合、注目度ベクトルu の向きがどのような方向へ確率的に分布しているかを表している。 Returning to FIG. 19, the change detection unit 150 selects a set of (nm) interest level vectors UT-n<t≦Tm until time (Tn)<t≦(Tm). In contrast, the probability distribution p(u i t ) of the attention vector u i t is estimated (S182). In this process, it is assumed that the probability distribution p(u i t ) is distributed along, for example, a mixed von Mises distribution (or a von Mises Fisher distribution). The mixed von Mises distribution, for example, assumes that the starting point of the attention vector u i t is the origin in a d-dimensional (d is, for example, 2 or 3) space, the direction of the attention vector u i t is It represents whether it is distributed stochastically to

図21(A)は入力画像、図21(B)は、入力画像に対して、注目度ベクトルu の確率分布の例をそれぞれ表す図である。図21(A)と図21(B)に示すように、画像において群衆は主に2つの方向へ視線を向けているため、注目度ベクトルu の向きも主に2つの方向へ分布している。図21(B)は、混合フォン・ミーゼス分布の例を表している。 FIG. 21A is a diagram showing an example of the probability distribution of the attention level vector u i t for the input image, and FIG. 21B is a diagram showing an example of the probability distribution for the input image. As shown in FIGS. 21(A) and 21(B) , since the crowd mainly directs their line of sight in two directions in the image, the directions of the attention vector u i t are also distributed mainly in two directions. ing. FIG. 21B shows an example of a mixed von Mises distribution.

変化検知部150は、例えば、以下の式を用いて、注目度ベクトルu の集合UT-n<t≦T-mに対して、確率分布p(u )を推定する。 The change detection unit 150 estimates a probability distribution p(u i t ) for a set U T-n<t≦Tm of attention level vectors u i t using, for example, the following equation.

Figure 0007152651000034
Figure 0007152651000034

式(25)において、M(u |μ,σ)は、例えば、以下の式を用いて算出される。 In Equation (25), M(u i tj , σ j ) is calculated using, for example, the following equation.

Figure 0007152651000035
Figure 0007152651000035

式(26)において、Iρ(γ)は、例えば、以下の式を用いて算出される。 In Equation (26), I ρ (γ) is calculated using, for example, the following equation.

Figure 0007152651000036
Figure 0007152651000036

式(25)から式(27)において、dは注目度ベクトルu の次元数(2又は3)、Iρ(γ)はρ階の第1種変形ベッセル関数をそれぞれ表す。また、式(25)から式(27)において、α,μ,σは、パラメータである。パラメータα,μ,σの推定は、例えば、注目度ベクトルの集合UT-n<t≦T-mを用いて、公知の期待値最大化法を用いて推定可能である。 In equations (25) to (27), d represents the number of dimensions (2 or 3) of the interest vector u i t , and I ρ (γ) represents the ρ-th order modified Bessel function of the first kind. Also, in equations (25) to (27), α j , μ j , and σ j are parameters. The parameters α j , μ j , σ j can be estimated using a known expectation maximization method, for example, using the set of interest vectors U T-n<t≦Tm .

例えば、変化検知部150は、S182において、以下の処理を行う。すなわち、変化検知部150は、時刻(T-n)<t≦(T-m)までの注目度ベクトルの集合UT-n<t≦T-mに対して、期待値最大化法などを用いて、パラメータα,μ,σを推定する。そして、変化検知部150は、内部メモリに記憶された式(25)から式(27)を読み出して、推定したパラメータα,μ,σや、注目度ベクトルu を、式(25)から式(27)に代入することで、確率分布p(u )を推定する。 For example, the change detection unit 150 performs the following process in S182. That is, the change detection unit 150 applies the expected value maximization method or the like to the set of attention level vectors UT-n<t≦Tm until the time (Tn)<t≦(Tm). to estimate the parameters α j , μ j , σ j . Then, the change detection unit 150 reads out the equations (25) to (27) stored in the internal memory, and converts the estimated parameters α j , μ j , σ j and the interest vector u i t into the equation ( 25) into equation (27), the probability distribution p(u i t ) is estimated.

図19に戻り、次に、変化検知部150は、時刻(T-m)<tでの注目度ベクトルの集合UT-m<tの異常度βを計算する(S183)。異常度βは、例えば、以下の式で計算される。 Returning to FIG. 19, next, the change detection unit 150 calculates the degree of anomaly β of the attention vector set U T−m<t at the time (T−m)<t (S183). The degree of abnormality β is calculated by, for example, the following formula.

Figure 0007152651000037
Figure 0007152651000037

式(28)に示すように、異常度βは、例えば、時刻(T-n)<t≦(T-m)における注目度ベクトルの集合UT-n<t≦T-mに対する確率分布p(u )を基準にして、時刻(T-m)<tの注目度ベクトルの集合UT-m<tの分布がどれだけ外れているかを表している。注目度ベクトルの集合UT-m<tの分布が、注目度ベクトルの集合UT-n<t≦T-mに対する確率分布p(u )から外れたときは、異常度βの値は大きな値をとり、そうでないときは小さな値をとり得る。 As shown in equation (28), the degree of anomaly β is, for example, a probability distribution p Based on (u i t ), it represents how much the distribution of the set U T-m<t of attention level vectors at time (Tm)<t deviates. When the distribution of the attention vector set U T-m<t deviates from the probability distribution p(u i t ) for the attention vector set U T-n<t≦Tm , the value of the degree of abnormality β can take a large value, otherwise it can take a small value.

例えば、変化検知部150は、内部メモリに記憶された式(28)を読み出して、S182で推定した確率分布p(u )を、式(28)に代入することで、異常度βを計算する。 For example, the change detection unit 150 reads the equation (28) stored in the internal memory, and substitutes the probability distribution p(u i t ) estimated in S182 into the equation (28), thereby obtaining the degree of abnormality β as calculate.

次に、変化検知部150は、異常度βが閾値以上か否かを判定する(S184)。変化検知部150は、異常度βが閾値以上のとき(S184でYES)、変化をユーザへ知らせる。そして、変化検知部150は、注目度変化検出処理を終了する(S186)。一方、変化検知部150は、異常度βが閾値より小さいとき(S184でNO)、S184の処理を行うことなく、注目度変化検出処理を終了する(S186)。 Next, the change detection unit 150 determines whether or not the degree of abnormality β is equal to or greater than a threshold (S184). When the degree of abnormality β is greater than or equal to the threshold (YES in S184), change detection unit 150 notifies the user of the change. Then, the change detection unit 150 ends the attention level change detection process (S186). On the other hand, when the degree of abnormality β is smaller than the threshold (NO in S184), the change detection unit 150 ends the attention level change detection process without performing the process of S184 (S186).

変化検知部150は、例えば、以下の処理を行う。すなわち、変化検知部150は、S183で計算した異常度βと、内部メモリに記憶された閾値と比較して、異常度βが閾値以上のとき、変化があったこと、変化があった時刻(例えば、時刻t=(T-m))を外部の表示装置へ出力する。一方、変化検知部150は、異常度βが閾値より小さいときは、変化を通知することなく処理を終了する。 The change detection unit 150 performs, for example, the following processes. That is, the change detection unit 150 compares the degree of abnormality β calculated in S183 with the threshold value stored in the internal memory. For example, time t=(T−m)) is output to an external display device. On the other hand, when the degree of abnormality β is smaller than the threshold, the change detection unit 150 terminates the process without notifying the change.

図21(A)から図21(D)は、例えば、ある時刻(T-m)を境に群衆の視線方向が変化している様子を表している。図21(A)と図21(C)に示すように、視線方向に変化が生じると、向きベクトルqも変化し、注目度ベクトルu も変化する。そのため、注目度ベクトルの集合UT-n<t≦T-mに対する確率分布p(u )を基準(図21(B))にすると、注目度ベクトルの集合UT-m<tの分布が大きくはずれ(図21(D))、異常度βも大きくなる。 FIGS. 21A to 21D show, for example, how the line-of-sight direction of the crowd changes at a certain time (Tm). As shown in FIGS. 21(A) and 21(C), when the line-of-sight direction changes, the direction vector q i changes and the attention vector u i t also changes. Therefore, when the probability distribution p(u i t ) for the attention vector set U T-n<t≦Tm is used as a reference (FIG. 21B), the attention vector set U T-m<t The distribution deviates greatly (FIG. 21(D)), and the degree of anomaly β also increases.

情報処理装置100では、このような変化の検知結果を外部の表示装置へ出力することで、ユーザに対して、変化が発生したことや変化が発生した時刻をユーザに通知することができる。これにより、例えば、セキュリティ用の都市監視において、視線方向においてイベントが発生したことやその発生時刻などを、ユーザに知らせることが可能となる。 The information processing apparatus 100 can notify the user of the occurrence of the change and the time at which the change occurs by outputting the detection result of such a change to an external display device. As a result, for example, in city surveillance for security purposes, it is possible to notify the user of the occurrence of an event in the line-of-sight direction, the time of occurrence, and the like.

[その他の実施の形態]
図22は、情報処理装置100のハードウェア構成例を表す図である。
[Other embodiments]
FIG. 22 is a diagram showing a hardware configuration example of the information processing apparatus 100. As shown in FIG.

情報処理装置100は、インタフェース部180、メモリ181、CPU(Central Processing Unit)182、ROM(Read Only Memory)183、及びRAM(Random Access Memory)184を備える。 The information processing apparatus 100 includes an interface section 180 , a memory 181 , a CPU (Central Processing Unit) 182 , a ROM (Read Only Memory) 183 , and a RAM (Random Access Memory) 184 .

インタフェース部180は、例えば、撮像装置200から出力された画像データをメモリ181やCPU182へ出力する。 The interface unit 180 outputs image data output from the imaging device 200 to the memory 181 and the CPU 182, for example.

メモリ181は、例えば、第1の実施の形態の空間情報記憶部130と注目度記憶部140に対応する。また、メモリ181は、例えば、姿勢推定部110、注目度算出部120、及び第5の実施の形態の変化検知部150における内部メモリに対応する。 The memory 181 corresponds to, for example, the spatial information storage unit 130 and the attention level storage unit 140 of the first embodiment. Also, the memory 181 corresponds to, for example, the internal memory in the posture estimation unit 110, the attention level calculation unit 120, and the change detection unit 150 of the fifth embodiment.

CPU182は、例えば、ROM183に記憶されたプログラムを読み出して、RAM184にロードし、ロードしたプログラムを実行することで、姿勢推定部110、注目度算出部120、及び変化検知部150の機能を実現する。CPU182は、例えば、姿勢推定部110、注目度算出部120、及び変化検知部150に対応する。 The CPU 182, for example, reads a program stored in the ROM 183, loads it into the RAM 184, and executes the loaded program, thereby realizing the functions of the posture estimation unit 110, the attention degree calculation unit 120, and the change detection unit 150. . The CPU 182 corresponds to, for example, the posture estimation unit 110, the attention level calculation unit 120, and the change detection unit 150.

なお、CPU182にえて、MPU(Micro Processing Unit)やDSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)などのプロセッサやコントローラなどが用いられてもよい。 In place of the CPU 182, a processor such as an MPU (Micro Processing Unit), a DSP (Digital Signal Processor), or an FPGA (Field Programmable Gate Array), a controller, or the like may be used.

以上まとめると、付記のようになる。 The above is summarized as follows.

(付記1)
入力画像データに対して、人物の部位に関する正解データを利用して、画像に含まれる人物の部位の位置情報を推定し、
前記部位のうち顔の部位の位置情報を推定することができなかったとき、推定することができた他の部位の位置情報に基づいて、画像に含まれる人物の視線方向を推定する、
処理をコンピュータに実行させることを特徴とするプログラム。
(Appendix 1)
estimating the positional information of the parts of the person included in the input image data using the correct data on the parts of the person;
estimating the line-of-sight direction of the person included in the image based on the position information of other parts that could be estimated when the position information of the part of the face could not be estimated among the parts;
A program characterized by causing a computer to execute processing.

(付記2)
前記顔の部位の位置情報には、鼻、左目、右目、左耳、右耳、首、左肩、及び右肩の少なくともいずれか1つの位置情報を含むことを特徴とする付記1記載のプログラム。
(Appendix 2)
The program according to Supplementary Note 1, wherein the positional information of the parts of the face includes positional information of at least one of nose, left eye, right eye, left ear, right ear, neck, left shoulder, and right shoulder.

(付記3)
前記入力画像データに対して、前記正解データを利用して、前記人物の各部位の確率分布を計算し、前記各部位の確率分布に基づいて、前記各部位の候補点を探索し、前記各部位の候補点を人物ごとにグルーピングすることにより、前記人物の部位の位置情報を推定することを特徴とする付記1記載のプログラム。
(Appendix 3)
For the input image data, using the correct data, the probability distribution of each part of the person is calculated, based on the probability distribution of each part, candidate points of each part are searched, The program according to Supplementary Note 1, wherein the position information of the body part of the person is estimated by grouping the candidate points of the body part for each person.

(付記4)
前記正解データを利用して、所定画像の画像データに対するフィルタリング処理を行い、フィルタリング処理後の画像データから、複数画素を含むブロック単位に最大値を抽出するプーリング処理を行い、前記フィルタリング処理と前記プーリング処理とを繰り返して、人物の各部位の確率分布の正解データを生成し、前記人物の各部位の確率分布の正解データを利用して、入力画像データに対する前記フィルタリング処理を行い、フィルタリング処理後の画像データから、前記ブロック単位に最大値を抽出する前記プーリング処理を行い、前記フィルタリング処理と前記プーリング処理とを繰り返して、前記各部位の確率分布を生成することを特徴とする付記3記載のプログラム。
(Appendix 4)
Filtering processing is performed on image data of a predetermined image using the correct data, pooling processing is performed for extracting a maximum value in units of blocks including a plurality of pixels from the image data after filtering processing, and the filtering processing and the pooling are performed. are repeated to generate correct data of the probability distribution of each part of the person, perform the filtering process on the input image data using the correct data of the probability distribution of each part of the person, and perform the filtering process after the filtering process. The program according to Supplementary Note 3, wherein the pooling process for extracting the maximum value for each block is performed from the image data, and the filtering process and the pooling process are repeated to generate the probability distribution of each part. .

(付記5)
前記各部位の確率分布に基づいて、極大点となっている位置座標を前記各部位の候補点とすることを特徴とする付記3記載のプログラム。
(Appendix 5)
3. The program according to claim 3, wherein a position coordinate of a local maximum point is set as a candidate point for each part based on the probability distribution of each part.

(付記6)
前記極大点が閾値より小さいとき、前記部位が前記画像に含まれていないと判定し、前記極大点が閾値以上のとき、前記部位が画像に含まれていると判定することを特徴とする付記5記載のプログラム。
(Appendix 6)
When the local maximum point is smaller than a threshold, it is determined that the site is not included in the image, and when the local maximum point is greater than or equal to the threshold, it is determined that the site is included in the image. 5 program.

(付記7)
前記入力画像データに対して、各部位を接続した確率分布の正解データを利用して、フィルタリング処理を行い、フィルタリング処理後の画像データから、複数画素を含むブロック単位に最大値を抽出するプーリング処理を行い、前記フィルタリング処理と前記プーリング処理とを繰り返して、前記各部位のつながり度合いを示す確率分布を生成し、生成した確率分布と前記各部位の候補点とに基づいて、人物ごとに前記候補点をグルーピングすることを特徴とする付記3記載のプログラム。
(Appendix 7)
A pooling process of filtering the input image data using correct data of the probability distribution connecting each part, and extracting the maximum value in units of blocks containing a plurality of pixels from the image data after the filtering process. and repeating the filtering process and the pooling process to generate a probability distribution indicating the degree of connection of each part, and based on the generated probability distribution and the candidate points of each part, the candidates for each person 3. The program according to appendix 3, wherein the points are grouped.

(付記8)
入力画像データに基づいて、人物の部位に関する正解データを利用して、画像に含まれる人物の部位の位置情報と、前記画像に前記部位が含まれるか否かを示すパラメータとを含む姿勢ベクトルを推定することを特徴とする付記1記載のプログラム。
(Appendix 8)
Based on the input image data, using the correct data regarding the body part of the person, a posture vector containing the position information of the body part included in the image and a parameter indicating whether or not the body part is included in the image is generated. The program according to appendix 1, characterized by estimating.

(付記9)
前記顔の部位が前記画像に含まれるか否かを示す前記パラメータに基づいて、前記部位のうち顔の部位の位置情報を推定することができなかったことを判定することを特徴する付記8記載のプログラム。
(Appendix 9)
Supplementary note 8, wherein, based on the parameter indicating whether or not the facial part is included in the image, it is determined that the position information of the facial part could not be estimated among the facial parts. program.

(付記10)
内部メモリから読み出した以下の式(29)に、推定することができた他の部位の位置情報を表す位置ベクトルak1 ,ak2 ,…,akM を代入することで、前記部位のうち顔の部位の位置情報を表す位置ベクトルa を算出することを特徴とする付記1記載のプログラム。

Figure 0007152651000038
(ただし、 は2行2列の行列、b は2行1列の縦ベクトル、Mは0<M≦jを満たす整数をそれぞれ表し、 とb は、姿勢sの集合Pを用いて、以下の式(30)を解くことで算出される。)
Figure 0007152651000039
(Appendix 10)
By substituting position vectors a k1 i , a k2 i , . The program according to Supplementary Note 1, wherein the position vector a k i representing the position information of the part of the face is calculated.
Figure 0007152651000038
(where A k M is a matrix of 2 rows and 2 M columns, b k M is a column vector of 2 rows and 1 column, M represents an integer that satisfies 0 < M ≤ j, and A k M and b k M are It is calculated by solving the following equation (30) using the set P of postures s.)
Figure 0007152651000039

(付記11)
内部メモリから読み出した以下の式(31)に、前記顔の部位の位置情報と前記他の部位の位置情報とを表す位置ベクトルa ,a ,…,a を以下の式(31)に代入することで、画像に含まれる人物iの視線方向を表す向きベクトルqを算出することを特徴とする付記1記載のプログラム。

Figure 0007152651000040
(ただし、Wは2行2列の行列、wは2行1列の縦ベクトル、jは前記人物の部位をそれぞれ表し、姿勢sの集合Pと、姿勢sが持つ向きベクトルq、及び姿勢sの部位番号kの部位の位置ベクトルs=(x,yを用いて、Wとwは、以下の式(32)を解くことで算出される。)
Figure 0007152651000041
(Appendix 11)
Position vectors a 1 i , a 2 i , . The program according to Supplementary Note 1, wherein the direction vector qi representing the line-of-sight direction of the person i included in the image is calculated by substituting (31).
Figure 0007152651000040
(where W is a matrix of 2 rows and 2 J columns, w 0 is a vertical vector of 2 rows and 1 column, j represents a part of the person, a set P of postures s, a direction vector q s of postures s, W and w 0 are calculated by solving the following equation (32) using the position vector sk = (x k , y k ) T of the part with part number k in posture s.
Figure 0007152651000041

(付記12)
内部メモリから読み出した以下の式(33)に基づいて、画像に含まれる人物iの視線方向を表す向きベクトルqを算出することを特徴とする付記1記載のプログラム。

Figure 0007152651000042
(ただし、式(33)において、wとwはパラメータを表す) (Appendix 12)
2. The program according to appendix 1, wherein the direction vector q i representing the line-of-sight direction of the person i included in the image is calculated based on the following equation (33) read out from the internal memory.
Figure 0007152651000042
(where w 1 and w 1 represent parameters in equation (33))

(付記13)
内部メモリから読み出した式(33)に、前記顔の部位の位置情報と前記他の部位の位置情報とを表す、鼻、首、左肩、及び右肩の各部位のx軸方向の位置座標x ,x ,x ,x を代入することで、画像に含まれる人物iの視線方向を表す向きベクトルqを算出することを特徴とする付記11記載のプログラム。
(Appendix 13)
In the equation (33) read out from the internal memory, positional coordinates x in the x-axis direction of each part of the nose, neck, left shoulder, and right shoulder, which represent the positional information of the facial parts and the positional information of the other parts. 12. The program according to Supplementary note 11, wherein the orientation vector q i representing the line-of-sight direction of the person i included in the image is calculated by substituting 1 i , x 6 i , x 7 i , and x 8 i .

(付記14)
前記向きベクトルqと、空間情報記憶部から読み出した対象物の位置座標とに基づいて、前記対象物に視線を向けている人物の数をカウントすることを特徴とする付記11記載のプログラム。
(Appendix 14)
12. The program according to Supplementary Note 11, wherein the number of persons looking at the object is counted based on the orientation vector qi and the positional coordinates of the object read from the spatial information storage unit.

(付記15)
第1のカメラで撮影された第1の画像の第1の画像データに対して、前記正解データを利用して、前記第1の画像に含まれる人物の部位の2次元座標として表される第1の位置座標を推定し、第2のカメラで撮影された第2の画像の第2の画像データに基づいて、前記正解データを利用して、前記第2の画像に含まれる人物の部位の2次元座標として表される第2の位置座標を推定し、
前記第1の位置座標と前記第2の位置座標とを、部位の3次元位置座標へ変換し、
前記3次元位置座標を利用して、前記人物の顔の部位の位置情報を算出し、画像に含まれる人物の視線方向を推定することを特徴とする付記1記載のプログラム。
(Appendix 15)
First image data of a first image captured by a first camera is represented as two-dimensional coordinates of a part of a person included in the first image using the correct data. 1 position coordinates are estimated, and based on the second image data of the second image captured by the second camera, the correct data is used to determine the part of the person included in the second image. estimating a second position coordinate represented as a two-dimensional coordinate;
converting the first position coordinates and the second position coordinates into three-dimensional position coordinates of a part;
The program according to Supplementary Note 1, wherein the three-dimensional position coordinates are used to calculate the position information of the part of the person's face, and to estimate the line-of-sight direction of the person included in the image.

(付記16)
前記第1の画像における前記部位の各画素値の第1の出現回数と、前記第2の画像における前記部位の各画素値の第2の出現回数とに基づいて、前記第1の画像内における人物と前記第2の画像内における人物とが同一人物であるか否かを判定し、同一人物であると判定したとき、同一人物の3次元位置座標(X,Y,Z)への変換を行うことを特徴とする付記15記載のプログラム。
(Appendix 16)
Based on the first number of appearances of each pixel value of the part in the first image and the second number of appearances of each pixel value of the part in the second image, in the first image determining whether or not the person and the person in the second image are the same person; 16. The program according to appendix 15, characterized by performing

(付記17)
内部メモリから読み出した以下の式(34)と式(35)に、前記第1のカメラの原点から前記第1の位置座標の原点までの焦点距離を表すf、前記第2のカメラの原点から前記第2の位置座標の原点までの焦点距離を表すf’、前記第1のカメラから見た前記第2のカメラの回転角を表すR、前記第1のカメラから前記第2のカメラへ向かう並進ベクトルを表すtを代入して、カメラ行列P,P’を算出し、
前記内部メモリから読み出した以下の式(36)から式(39)に、カメラ行列P,P’の各成分と、前記第1の位置座標を表す(x,y)、前記第2の位置座標を表す(x’,y’)を代入して、式(36)から式(39)に示す連立方程式を解くことで、前記部位の3次元位置座標への変換を行うことを特徴とする付記15記載のプログラム。

Figure 0007152651000043
Figure 0007152651000044
Figure 0007152651000045
Figure 0007152651000046
Figure 0007152651000047
Figure 0007152651000048
(Appendix 17)
The following equations (34) and (35) read out from the internal memory are given by f representing the focal length from the origin of the first camera to the origin of the first position coordinates, f from the origin of the second camera f′ representing the focal length to the origin of the second position coordinates, R representing the rotation angle of the second camera viewed from the first camera, and direction from the first camera to the second camera Calculate the camera matrices P and P' by substituting t representing the translation vector,
(36) to (39) read out from the internal memory, each component of the camera matrices P and P′, (x, y) representing the first position coordinates, and the second position coordinates By substituting (x', y') representing and solving the simultaneous equations shown in equations (36) to (39), the transformation to the three-dimensional position coordinates of the part is performed. 15. The program according to 15 above.
Figure 0007152651000043
Figure 0007152651000044
Figure 0007152651000045
Figure 0007152651000046
Figure 0007152651000047
Figure 0007152651000048

(付記18)
推定することができなかった第1の人物の前記部位のうち顔の部位の位置情報の数が閾値よりも多いとき、第1の人物において推定することができた他の部位の位置情報と、第1の人物に隣接する第2の人物において推定することができた部位の位置情報とに基づいて、第1の人物において推定することができなかった前記顔の部位の位置情報を算出することを特徴とする付記1記載のプログラム。
(Appendix 18)
when the number of pieces of position information of facial parts among the parts of the first person that could not be estimated is greater than a threshold, position information of other parts that could be estimated in the first person; Calculating the position information of the part of the face that could not be estimated in the first person based on the position information of the part that could be estimated in the second person adjacent to the first person. The program according to appendix 1, characterized by:

(付記19)
内部メモリから読み出した以下の式(40)に、推定することができた他の部位の位置情報を表す位置ベクトルak1 ,ak2 ,…,akM を代入することで、前記部位のうち顔の部位の位置情報を表す位置ベクトルa を算出することを特徴とする付記1記載のプログラム。

Figure 0007152651000049
(ただし、式(40)において、δ(x)は、以下の式(41)に示す活性化関数であり、式(40)において、行列Dl1 ,Dl2 l1,及びD l2は、姿勢sの集合Pを用いて、以下の式(42)を解くことで得られる行列である。)
Figure 0007152651000050
Figure 0007152651000051
(Appendix 19)
By substituting position vectors a k1 i , a k2 i , . The program according to Supplementary Note 1, wherein the position vector a k i representing the position information of the part of the face is calculated.
Figure 0007152651000049
(where, in equation (40), δ(x) is the activation function shown in equation (41) below, and in equation (40), matrices D l1 M , D l2 l1 , and D k l2 are It is a matrix obtained by solving the following equation (42) using the set P of postures s.)
Figure 0007152651000050
Figure 0007152651000051

(付記20)
内部メモリから読み出した以下の式(43)に、前記顔の部位の位置情報と前記他の部位の位置情報を表す位置ベクトルa ,a ,…,a を代入することで、画像に含まれる人物iの視線方向を表す向きベクトルqを算出することを特徴とする付記1記載のプログラム。

Figure 0007152651000052
(ただし、式(43)において、δ(x)は、以下の式(44)に示す活性化関数であり、式(43)において、行列Wl1 ,Wl2 l1,W l2は、姿勢sの集合Pを用いて、以下の式(45)を解くことで得られる行列である。)
Figure 0007152651000053
Figure 0007152651000054
(Appendix 20)
By substituting position vectors a 1 i , a 2 i , . , the program according to appendix 1, which calculates a direction vector q i representing the line-of-sight direction of the person i included in the image.
Figure 0007152651000052
(However, in equation (43), δ(x) is the activation function shown in equation (44) below, and in equation (43), matrices W l1 J , W l2 l1 , and W k l2 are the orientation It is a matrix obtained by solving the following equation (45) using the set P of s.)
Figure 0007152651000053
Figure 0007152651000054

(付記21)
さらに、推定した前記人物の視線方向の変化を検知し、検知結果を出力する
ことを特徴とする付記1記載のプログラム。
(Appendix 21)
The program according to Supplementary Note 1, further detecting a change in the estimated line-of-sight direction of the person and outputting a detection result.

(付記22)
時刻tを現在時刻Tとしたとき、推定した前記人物の視線方向を表す向きベクトルを正規化した注目度ベクトルを、時刻(T-n)から時刻(T-m)までに取得した第1の注目度ベクトルの集合と、時刻(T-m)から時刻tまでに取得した第2の注目度ベクトルの集合に分けて、前記第1の注目度ベクトルの集合に基づいて、前記第2の注目度ベクトルの集合の異常度を計算し、前記異常度が閾値以上のとき、時刻(T-m)を境にして視線方向に変化があったことを示す検知結果を出力することを特徴とする付記21記載のプログラム。
(Appendix 22)
When the time t is the current time T, the attention level vector obtained by normalizing the direction vector representing the estimated line-of-sight direction of the person is obtained from the first Divided into a set of interest vectors and a set of second interest vectors obtained from time (T−m) to time t, and based on the first interest vector set, the second attention vector The degree of abnormality of the set of degree vectors is calculated, and when the degree of abnormality is equal to or greater than a threshold, a detection result indicating that the line-of-sight direction has changed at time (Tm) is output. The program according to Appendix 21.

(付記23)
内部メモリから読み出した以下の式(46)に、時刻(T-n)から時刻(T-m)までに取得した前記人物の視線方向を表す向きベクトルqを代入して、時刻(T-n)から時刻(T-m)までに取得した第1の注目度ベクトルの集合に含まれる注目度ベクトルu を求め、

Figure 0007152651000055
前記内部メモリから読み出した以下の式(47)に、注目度ベクトルu を代入して、時刻(T-n)から時刻(T-m)までに取得した第1の注目度ベクトルの集合における注目度ベクトルu の確率分布p(u )を算出し、
Figure 0007152651000056
前記内部メモリから読み出した以下の式(48)に、確率分布p(u )を代入することで、異常度βを算出することを特徴とする付記21記載のプログラム。
Figure 0007152651000057
(ただし、式(46)は、以下の式(49)と式(50)を用いて算出され、α,μ,σはパラメータを表す。)
Figure 0007152651000058
Figure 0007152651000059
(Appendix 23)
By substituting the direction vector q i representing the line-of-sight direction of the person obtained from time (Tn) to time (Tm) into the following equation (46) read from the internal memory, the time (T- n) to the time (Tm) to obtain the interest vector u i t included in the set of the first interest vectors,
Figure 0007152651000055
A set of first attention vectors obtained from time (Tn) to time (Tm) by substituting attention vector u i t into the following equation (47) read from the internal memory Calculate the probability distribution p(u i t ) of the interest vector u i t in
Figure 0007152651000056
22. The program according to appendix 21, wherein the degree of abnormality β is calculated by substituting the probability distribution p(u i t ) into the following equation (48) read out from the internal memory.
Figure 0007152651000057
(However, Equation (46) is calculated using Equations (49) and (50) below, and α j , μ j , and σ j represent parameters.)
Figure 0007152651000058
Figure 0007152651000059

(付記24)
前記部位のうち顔の部位の位置情報を推定することができなかったとき、推定することができた他の部位の位置情報を利用して、前記顔の部位の位置情報を算出し、前記顔の部位の位置情報と前記他の部位の位置情報に基づいて、画像に含まれる人物の視線方向を推定することを特徴とする付記1記載のプログラム。
(Appendix 24)
When the position information of the part of the face cannot be estimated among the parts, the position information of the part of the face is calculated using the position information of other parts that can be estimated, and the position information of the part of the face is calculated. The program according to Supplementary Note 1, wherein the line-of-sight direction of the person included in the image is estimated based on the positional information of the part of (1) and the positional information of the other parts.

(付記25)
入力画像データに対して、人物の部位に関する正解データを利用して、画像に含まれる人物の部位の位置情報を推定する姿勢推定部と、
前記部位のうち顔の部位の位置情報を推定することができなかったとき、推定することができた他の部位の位置情報に基づいて、画像に含まれる人物の視線方向を推定する注目度算出部と
を備えることを特徴とする情報処理装置。
(Appendix 25)
a posture estimation unit for estimating position information of human body parts included in an image by using correct data on human body parts for input image data;
Attention degree calculation for estimating the line-of-sight direction of a person included in an image based on the position information of other parts that could be estimated when the position information of the part of the face could not be estimated among the parts. An information processing apparatus comprising: a section;

(付記26)
姿勢推定部と注目度算出部とを有する情報処理装置における情報処理方法であって、
前記姿勢推定部により、入力画像データに対して、人物の部位に関する正解データを利用して、画像に含まれる人物の部位の位置情報を推定し、
前記注目度算出部により、前記部位のうち顔の部位の位置情報を推定することができなかったとき、推定することができた他の部位の位置情報に基づいて、画像に含まれる人物の視線方向を推定する
ことを特徴とする情報処理方法。
(Appendix 26)
An information processing method in an information processing device having a posture estimation unit and an attention level calculation unit,
estimating the position information of the parts of the person included in the image by using the correct data regarding the parts of the person with respect to the input image data by the posture estimation unit;
When the attention level calculation unit cannot estimate the position information of the face part among the parts, the line of sight of the person included in the image is calculated based on the position information of other parts that could be estimated. An information processing method characterized by estimating a direction.

10:情報処理システム 100:情報処理装置
110:姿勢推定部 111:CNN処理部
111-1:第1のCNN処理部 111-2:第2のCNN処理部
112:候補点算出部 112-1:第1の候補点算出部
112-2:第2の候補点算出部 113:グルーピング処理部
113-1:第1のグルーピング処理部 113-2:第2のグルーピング処理部
114:同一人物特定処理部 115:カメラ行列計算部
116:3次元位置計算部 120:注目度算出部
130:空間情報記憶部 140:注目度記憶部
150:変化検知部 200:撮像装置
300-1,300-2:対象物
10: Information processing system 100: Information processing device 110: Posture estimation unit 111: CNN processing unit 111-1: First CNN processing unit 111-2: Second CNN processing unit 112: Candidate point calculation unit 112-1: First candidate point calculation unit 112-2: Second candidate point calculation unit 113: Grouping processing unit 113-1: First grouping processing unit 113-2: Second grouping processing unit 114: Same person identification processing unit 115: camera matrix calculation unit 116: three-dimensional position calculation unit 120: attention level calculation unit 130: spatial information storage unit 140: attention level storage unit 150: change detection unit 200: imaging devices 300-1, 300-2: target object

Claims (11)

入力画像データに対して、人物の部位に関する正解データを利用して、画像に含まれる人物の部位の位置情報を推定し、
前記部位のうち顔の部位の位置情報を推定することができなかったとき、推定することができた顔以外の部位の位置情報に基づいて、画像に含まれる人物の視線方向を推定する、
処理をコンピュータに実行させることを特徴とするプログラム。
estimating the positional information of the parts of the person included in the input image data using the correct data on the parts of the person;
estimating the line-of-sight direction of the person included in the image based on the estimated position information of the part other than the face when the position information of the part of the face cannot be estimated among the parts;
A program characterized by causing a computer to execute processing.
前記顔の部位の位置情報には、鼻、左目、右目、左耳、右耳、首、左肩、及び右肩の少なくともいずれか1つの位置情報を含むことを特徴とする請求項1記載のプログラム。 2. The program according to claim 1, wherein the positional information of said facial parts includes positional information of at least one of nose, left eye, right eye, left ear, right ear, neck, left shoulder, and right shoulder. . 入力画像データに基づいて、人物の部位に関する正解データを利用して、画像に含まれる人物の部位の位置情報と、前記画像に前記部位が含まれるか否かを示すパラメータとを含む姿勢ベクトルを推定することを特徴とする請求項1記載のプログラム。 Based on the input image data, using the correct data regarding the body part of the person, a posture vector containing the position information of the body part included in the image and a parameter indicating whether or not the body part is included in the image is generated. 2. The program according to claim 1, wherein the estimation is performed. 内部メモリから読み出した以下の式(51)に基づいて、画像に含まれる人物iの視線方向を表す向きベクトルqを算出することを特徴とする請求項1記載のプログラム。
Figure 0007152651000060
(ただし、式(51)において、w はパラメータを表す。また、式(51)において、x は、人物iの部位jの位置のx座標を示す。j=1 は鼻、j=6 は首、j=7は左肩、j=8は右肩を示す。
2. The program according to claim 1, wherein the orientation vector qi representing the line-of-sight direction of the person i included in the image is calculated based on the following equation (51) read out from the internal memory.
Figure 0007152651000060
(In equation (51), w 1 and w 2 represent parameters. In equation (51), x j i indicates the x-coordinate of the position of part j of person i. j=1 is the nose , j=6 for the neck, j=7 for the left shoulder, and j=8 for the right shoulder. )
第1のカメラで撮影された第1の画像の第1の画像データに対して、前記正解データを利用して、前記第1の画像に含まれる人物の部位の2次元座標として表される第1の位置座標を推定し、第2のカメラで撮影された第2の画像の第2の画像データに基づいて、前記正解データを利用して、前記第2の画像に含まれる人物の部位の2次元座標として表される第2の位置座標を推定し、
前記第1の位置座標と前記第2の位置座標とを、部位の3次元位置座標へ変換し、
前記3次元位置座標を利用して、前記人物の顔の部位の位置情報を算出し、画像に含まれる人物の視線方向を推定することを特徴とする請求項1記載のプログラム。
First image data of a first image captured by a first camera is represented as two-dimensional coordinates of a part of a person included in the first image using the correct data. 1 position coordinates are estimated, and based on the second image data of the second image captured by the second camera, the correct data is used to determine the part of the person included in the second image. estimating a second position coordinate represented as a two-dimensional coordinate;
converting the first position coordinates and the second position coordinates into three-dimensional position coordinates of a part;
2. The program according to claim 1, wherein said three-dimensional positional coordinates are used to calculate positional information of parts of said person's face, and to estimate a line-of-sight direction of said person included in an image.
推定することができなかった第1の人物の前記部位のうち顔の部位の位置情報の数が閾値よりも多いとき、第1の人物において推定することができた他の部位の位置情報と、第1の人物に隣接する第2の人物において推定することができた部位の位置情報とに基づいて、第1の人物において推定することができなかった前記顔の部位の位置情報を算出することを特徴とする請求項1記載のプログラム。 when the number of pieces of position information of facial parts among the parts of the first person that could not be estimated is greater than a threshold, position information of other parts that could be estimated in the first person; Calculating the position information of the part of the face that could not be estimated in the first person based on the position information of the part that could be estimated in the second person adjacent to the first person. 2. The program according to claim 1, characterized by: さらに、推定した前記人物の視線方向の変化を検知し、検知結果を出力する
ことを特徴とする請求項1記載のプログラム。
2. The program according to claim 1, further detecting a change in the estimated line-of-sight direction of said person and outputting a detection result.
時刻tを現在時刻Tとしたとき、推定した前記人物の視線方向を表す向きベクトルを正規化した注目度ベクトルを、時刻(T-n)から時刻(T-m)までに取得した第1の注目度ベクトルの集合と、時刻(T-m)から時刻tまでに取得した第2の注目度ベクトルの集合に分けて、前記第1の注目度ベクトルの集合に基づいて、前記第2の注目度ベクトルの集合の異常度を計算し、前記異常度が閾値以上のとき、時刻(T-m)を境にして視線方向に変化があったことを示す検知結果を出力することを特徴とする請求項7記載のプログラム。 When the time t is the current time T, the attention level vector obtained by normalizing the direction vector representing the estimated line-of-sight direction of the person is obtained from the first Divided into a set of interest vectors and a set of second interest vectors acquired from time (T−m) to time t, and based on the first interest vector set, the second interest vector The degree of abnormality of the set of degree vectors is calculated, and when the degree of abnormality is equal to or greater than a threshold, a detection result indicating that the line-of-sight direction has changed at time (Tm) is output. 8. A program according to claim 7. 前記部位のうち顔の部位の位置情報を推定することができなかったとき、推定することができた他の部位の位置情報を利用して、前記顔の部位の位置情報を算出し、前記顔の部
位の位置情報と前記他の部位の位置情報に基づいて、画像に含まれる人物の視線方向を推定することを特徴とする請求項1記載のプログラム。
When the position information of the part of the face cannot be estimated among the parts, the position information of the part of the face is calculated using the position information of other parts that can be estimated, and the position information of the part of the face is calculated. 2. The program according to claim 1, wherein the line-of-sight direction of the person included in the image is estimated based on the positional information of the part of and the positional information of the other part.
入力画像データに対して、人物の部位に関する正解データを利用して、画像に含まれる人物の部位の位置情報を推定する姿勢推定部と、
前記部位のうち顔の部位の位置情報を推定することができなかったとき、推定することができた顔以外の部位の位置情報に基づいて、画像に含まれる人物の視線方向を推定する注目度算出部と
を備えることを特徴とする情報処理装置。
a posture estimation unit for estimating position information of human body parts included in an image by using correct data on human body parts for input image data;
Attention level for estimating the line-of-sight direction of a person included in an image based on the position information of parts other than the face that can be estimated when the position information of the parts other than the face cannot be estimated among the parts. An information processing apparatus comprising: a calculation unit;
姿勢推定部と注目度算出部とを有する情報処理装置における情報処理方法であって、
前記姿勢推定部により、入力画像データに対して、人物の部位に関する正解データを利用して、画像に含まれる人物の部位の位置情報を推定し、
前記注目度算出部により、前記部位のうち顔の部位の位置情報を推定することができなかったとき、推定することができた顔以外の部位の位置情報に基づいて、画像に含まれる人物の視線方向を推定する
ことを特徴とする情報処理方法。
An information processing method in an information processing device having a posture estimation unit and an attention level calculation unit,
estimating the position information of the parts of the person included in the image by using the correct data regarding the parts of the person with respect to the input image data by the posture estimation unit;
When the attention degree calculation unit cannot estimate the position information of the face part among the parts, the position information of the part other than the face that can be estimated is used to determine the position information of the person included in the image. An information processing method characterized by estimating a line-of-sight direction.
JP2018092913A 2018-05-14 2018-05-14 Program, information processing device, and information processing method Active JP7152651B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018092913A JP7152651B2 (en) 2018-05-14 2018-05-14 Program, information processing device, and information processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018092913A JP7152651B2 (en) 2018-05-14 2018-05-14 Program, information processing device, and information processing method

Publications (2)

Publication Number Publication Date
JP2019200456A JP2019200456A (en) 2019-11-21
JP7152651B2 true JP7152651B2 (en) 2022-10-13

Family

ID=68612090

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018092913A Active JP7152651B2 (en) 2018-05-14 2018-05-14 Program, information processing device, and information processing method

Country Status (1)

Country Link
JP (1) JP7152651B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021099686A (en) * 2019-12-23 2021-07-01 富士通株式会社 Information processor, method, and program

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006268189A (en) 2005-03-22 2006-10-05 Nissan Motor Co Ltd Visual inspection action determining device
JP2008194146A (en) 2007-02-09 2008-08-28 Toshiba Corp Visual line detecting apparatus and its method
JP2010198313A (en) 2009-02-25 2010-09-09 Denso Corp Device for specifying degree of eye opening
JP2013105384A (en) 2011-11-15 2013-05-30 Nippon Hoso Kyokai <Nhk> Attention degree estimating device and program thereof
JP2017182739A (en) 2016-03-31 2017-10-05 富士通株式会社 Gaze detection device, gaze detection method and computer program for gaze detection
JP2017208007A (en) 2016-05-20 2017-11-24 株式会社デンソー Face orientation estimation device and face orientation estimation method

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8885882B1 (en) * 2011-07-14 2014-11-11 The Research Foundation For The State University Of New York Real time eye tracking for human computer interaction

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006268189A (en) 2005-03-22 2006-10-05 Nissan Motor Co Ltd Visual inspection action determining device
JP2008194146A (en) 2007-02-09 2008-08-28 Toshiba Corp Visual line detecting apparatus and its method
JP2010198313A (en) 2009-02-25 2010-09-09 Denso Corp Device for specifying degree of eye opening
JP2013105384A (en) 2011-11-15 2013-05-30 Nippon Hoso Kyokai <Nhk> Attention degree estimating device and program thereof
JP2017182739A (en) 2016-03-31 2017-10-05 富士通株式会社 Gaze detection device, gaze detection method and computer program for gaze detection
JP2017208007A (en) 2016-05-20 2017-11-24 株式会社デンソー Face orientation estimation device and face orientation estimation method

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
久保田整 外2名,近赤外カメラによるドライバの頭部姿勢追跡,画像ラボ,日本工業出版株式会社,2009年05月10日,第20巻,第5号,pp.12-17

Also Published As

Publication number Publication date
JP2019200456A (en) 2019-11-21

Similar Documents

Publication Publication Date Title
EP3674852B1 (en) Method and apparatus with gaze estimation
Shreve et al. Macro-and micro-expression spotting in long videos using spatio-temporal strain
JP5812599B2 (en) Information processing method and apparatus
JP6013241B2 (en) Person recognition apparatus and method
JP4653606B2 (en) Image recognition apparatus, method and program
JP6590609B2 (en) Image analysis apparatus and image analysis method
WO2021084677A1 (en) Image processing device, image processing method, and non-transitory computer-readable medium having image processing program stored thereon
US20100033574A1 (en) Method and System for Object Surveillance and Real Time Activity Recognition
JP2019125057A (en) Image processing apparatus, method thereof and program
JP2023015989A (en) Item identification and tracking system
JP2009245338A (en) Face image collating apparatus
CN114894337B (en) Temperature measurement method and device for outdoor face recognition
US11544926B2 (en) Image processing apparatus, method of processing image, and storage medium
CN109740659A (en) A kind of image matching method and device, electronic equipment, storage medium
JP2004185611A (en) Method for extracting face position, program for making the face position extracting method executed by computer, and face position extracting apparatus
KR20130059212A (en) Robust face recognition method through statistical learning of local features
CN107231519B (en) Video processing apparatus and control method
JP7152651B2 (en) Program, information processing device, and information processing method
JP7099809B2 (en) Image monitoring system
WO2021229751A1 (en) Image selecting device, image selecting method and program
JP2019066909A (en) Object distribution estimation apparatus
JP5448952B2 (en) Same person determination device, same person determination method, and same person determination program
WO2020261403A1 (en) Height estimation device, height estimation method, and non-transitory computer-readable medium having program stored thereon
JP7396364B2 (en) Image processing device, image processing method, and image processing program
WO2022079794A1 (en) Image selection device, image selection method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220408

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220830

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220912

R150 Certificate of patent or registration of utility model

Ref document number: 7152651

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150