JP2020107244A - Posture estimating apparatus, learning apparatus, and program - Google Patents
Posture estimating apparatus, learning apparatus, and program Download PDFInfo
- Publication number
- JP2020107244A JP2020107244A JP2018247875A JP2018247875A JP2020107244A JP 2020107244 A JP2020107244 A JP 2020107244A JP 2018247875 A JP2018247875 A JP 2018247875A JP 2018247875 A JP2018247875 A JP 2018247875A JP 2020107244 A JP2020107244 A JP 2020107244A
- Authority
- JP
- Japan
- Prior art keywords
- learning
- posture
- angle
- angles
- accuracy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000006870 function Effects 0.000 claims description 19
- 238000013528 artificial neural network Methods 0.000 claims description 13
- 238000012885 constant function Methods 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 abstract description 15
- 238000003786 synthesis reaction Methods 0.000 abstract description 15
- 230000007935 neutral effect Effects 0.000 abstract 1
- 238000000034 method Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 8
- 210000000056 organ Anatomy 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 6
- 210000003128 head Anatomy 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000001815 facial effect Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000000470 constituent Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
Description
本発明は、入力画像から被写体の姿勢を推定する姿勢推定装置、入力画像と被写体の姿勢の関係を学習する学習装置、及びプログラムに関する。 The present invention relates to a posture estimation device that estimates the posture of a subject from an input image, a learning device that learns the relationship between the input image and the posture of the subject, and a program.
従来、被写体を含む入力画像から当該被写体の姿勢を推定する姿勢推定装置が知られている。例えば、顔の姿勢を推定するために、テンプレートを用いて入力画像との間でマッチング処理を行う技術が開示されている(例えば、特許文献1を参照)。具体的には、この技術は、顔を構成する眼等の器官のテンプレートを用いて、入力画像から頭部姿勢を推定し、眼等の器官の位置を計算し、頭部モデルを適合して頭部の回転変位及び並進変位を決定するものである。 Conventionally, there is known a posture estimation device that estimates a posture of a subject from an input image including the subject. For example, a technique of performing matching processing with an input image using a template in order to estimate the posture of a face is disclosed (for example, see Patent Document 1). Specifically, this technique uses a template of organs such as eyes that form a face to estimate the head posture from an input image, calculates the positions of organs such as eyes, and adapts the head model. The rotational displacement and translational displacement of the head are determined.
また、例えば、顔の姿勢を推定するために、入力画像の色ヒストグラムに基づく識別結果と、色ヒストグラム以外の特徴量(例えば、勾配ヒストグラム)に基づく識別結果とを統合化する技術が開示されている(例えば、特許文献2を参照)。 Further, for example, in order to estimate the posture of a face, a technique of integrating an identification result based on a color histogram of an input image and an identification result based on a feature amount (for example, a gradient histogram) other than the color histogram is disclosed. (For example, see Patent Document 2).
しかしながら、前述の特許文献1のテンプレートマッチングによる技術は、顔の姿勢を推定するために、顔を構成する眼等の器官毎のテンプレートが予め必要である。このため、顔を構成する器官毎のテンプレートを用意するのに手間がかかるという問題があった。 However, in the technique of template matching of Patent Document 1 described above, in order to estimate the posture of the face, a template for each organ such as an eye forming the face is required in advance. Therefore, there is a problem that it takes time to prepare a template for each organ constituting a face.
また、前述の特許文献2の技術は、入力画像の色ヒストグラムと例えば勾配ヒストグラムとに基づいて、顔の姿勢の推定を低負荷に行うものである。
Further, the technique of the above-mentioned
しかしながら、入力画像には色ヒストグラム及び勾配ヒストグラム以外にも、顔の姿勢を推定するために有用な情報が含まれ得る。例えば、周波数領域における位相情報、特徴的なパターンの見え方(傾き、位置、大きさ、縦横比等)等も有用となる可能性があるが、特許文献2の技術では、これらの情報を有効に活用していない。このため、色ヒストグラム等の情報に限定した処理では、顔の姿勢の推定精度が不十分であるという問題があった。
However, the input image may include information useful for estimating the posture of the face, in addition to the color histogram and the gradient histogram. For example, phase information in the frequency domain, appearance of a characteristic pattern (tilt, position, size, aspect ratio, etc.) may be useful, but in the technique of
そこで、本発明は前記課題を解決するためになされたものであり、その目的は、被写体の姿勢を簡易かつ高精度に推定可能な姿勢推定装置、学習装置及びプログラムを提供することにある。 Then, this invention is made in order to solve the said subject, The objective is to provide the posture estimation apparatus, the learning apparatus, and program which can estimate the posture of a to-be-photographed object easily and highly accurately.
前記課題を解決するために、請求項1の姿勢推定装置は、入力画像に含まれる被写体の姿勢を推定する姿勢推定装置において、前記入力画像に基づいて前記被写体の角度を識別し、予め設定された複数の角度のそれぞれに対応する確度値を求める識別部と、前記識別部により求めた前記複数の角度のそれぞれに対応する前記確度値に応じた重み付けにより、前記複数の角度を加重合成し、姿勢情報を求める加重合成部と、を備えたことを特徴とする。 In order to solve the problem, the posture estimation apparatus according to claim 1 is a posture estimation apparatus that estimates the posture of a subject included in an input image, identifies the angle of the subject based on the input image, and sets the preset angle. An identifying unit that obtains an accuracy value corresponding to each of the plurality of angles, by weighting according to the accuracy value corresponding to each of the plurality of angles obtained by the identifying unit, the plurality of angles are weighted and combined, And a weighted synthesis unit for obtaining posture information.
請求項1の発明によれば、識別部は、離散的な角度に対する確度値を求めればよいから、連続的な角度の確度値を求める場合に比べ、回路規模を削減することができる。また、加重合成部により、離散的な角度に対する確度値を用いて、連続的な角度情報である姿勢情報が得られる。加重合成部の処理は、積和演算で済むから低負荷である。したがって、低負荷かつ小規模な回路により、連続的な姿勢情報を得ることができる。 According to the first aspect of the present invention, since the identifying unit only needs to obtain the accuracy value for discrete angles, the circuit scale can be reduced as compared with the case where the accuracy values for continuous angles are obtained. In addition, the weighted composition unit obtains posture information that is continuous angle information using the accuracy values for discrete angles. The processing of the weighted synthesis unit is low in load because it is sufficient to perform the product-sum calculation. Therefore, continuous posture information can be obtained with a low-load and small-scale circuit.
また、請求項2の姿勢推定装置は、請求項1に記載の姿勢推定装置において、前記識別部が、ニューラルネットワークにより構成される、ことを特徴とする。 A posture estimating apparatus according to a second aspect is the posture estimating apparatus according to the first aspect, characterized in that the identifying unit is configured by a neural network.
請求項2の発明によれば、ニューラルネットワークの構成及び種類並びにパラメータである結合重み係数の設定次第で、入力画像の多様な特徴のうち姿勢を推定するために好適な特徴を抽出するネットワークを構築することができる。その結果、特定の特徴量を用いて姿勢を推定する従来の手法よりも、推定精度を向上させることができる。また、被写体の部分(例えば、顔の器官)毎のテンプレートを明示的に与える必要もない。 According to the second aspect of the present invention, a network for extracting a feature suitable for estimating the posture from the various features of the input image is constructed depending on the configuration and type of the neural network and the setting of the connection weighting coefficient which is a parameter. can do. As a result, the estimation accuracy can be improved as compared with the conventional method of estimating the posture by using the specific feature amount. Also, it is not necessary to explicitly give a template for each part of the subject (for example, a facial organ).
また、請求項3の姿勢推定装置は、請求項1または2に記載の姿勢推定装置において、前記姿勢情報を前記被写体の角度とする、または、前記姿勢情報をベクトル値または複素数値として表したときのノルムを信頼度とした場合に、前記姿勢情報を、前記被写体の角度及び当該角度における前記信頼度とする、ことを特徴とする。
Further, the posture estimation apparatus according to claim 3 is the posture estimation apparatus according to
請求項3の発明によれば、姿勢情報を被写体の角度及び信頼度とすることで、被写体の角度の信頼度も定量化することができる。これにより、当該姿勢推定装置により得られた姿勢情報を用いて他の処理を行う場合、信頼度の低い姿勢情報については、他の処理のために用いないようにする。つまり、当該姿勢推定装置、及び姿勢情報を用いる装置を含む全体システムにおいて、信頼度を向上させることができる。 According to the third aspect of the present invention, by using the posture information as the angle and the reliability of the subject, the reliability of the angle of the subject can be quantified. Thereby, when other processing is performed using the posture information obtained by the posture estimation apparatus, the posture information having low reliability is not used for other processing. That is, reliability can be improved in the entire system including the posture estimation device and a device that uses posture information.
さらに、請求項4の学習装置は、学習データとして被写体を含む画像及び前記被写体の姿勢情報を入力し、前記学習データを用いてモデルを学習し、当該モデルのパラメータの最適化を行う学習装置において、前記姿勢情報に基づいて、予め設定された複数の角度のそれぞれに対応する学習用確度値を求める確度生成部と、前記画像、及び前記確度生成部により求めた前記複数の角度のそれぞれに対応する前記学習用確度値に基づいて、前記被写体の角度を識別するための前記モデルを学習し、前記被写体の姿勢を推定するために用いる前記パラメータを更新する学習用識別部と、を備えたことを特徴とする。 Furthermore, the learning device according to claim 4, wherein an image including a subject and posture information of the subject are input as learning data, a model is learned using the learning data, and parameters of the model are optimized. , An accuracy generating unit that obtains a learning accuracy value corresponding to each of a plurality of preset angles based on the posture information, the image, and the plurality of angles that are obtained by the accuracy generating unit. A learning identifying unit that learns the model for identifying the angle of the subject based on the learning accuracy value and updates the parameter used to estimate the posture of the subject. Is characterized by.
請求項4の発明によれば、姿勢情報から、複数の角度のそれぞれに対応する学習用確度値を得ることができ、画像及び学習用確度値を用いてモデルを学習することができ、最適化したパラメータを得ることができる。 According to the invention of claim 4, the learning accuracy value corresponding to each of the plurality of angles can be obtained from the posture information, and the model can be learned using the image and the learning accuracy value. The obtained parameters can be obtained.
また、請求項5の学習装置は、請求項4に記載の学習装置において、前記確度生成部が、前記姿勢情報のベクトルと前記複数の角度のそれぞれのベクトルとの間のなす角を算出し、当該なす角に対し、広義単調減少かつ非定数の関数を適用し、前記複数の角度のそれぞれに対応する前記学習用確度値を求める、ことを特徴とする。 The learning device according to claim 5 is the learning device according to claim 4, wherein the accuracy generation unit calculates an angle formed between the vector of the posture information and each vector of the plurality of angles. A broadly monotonically decreasing and non-constant function is applied to the formed angle, and the learning accuracy value corresponding to each of the plurality of angles is obtained.
請求項5の発明によれば、姿勢情報に近い角度ほど、学習用確度値が大きくなる。このような学習用確度値を用いる学習用識別部は、モデルにより姿勢情報に近い角度の姿勢が推定されるように、パラメータを更新することができる。このパラメータを姿勢推定装置に用いることで、被写体の姿勢を適切に推定することができる。 According to the invention of claim 5, the learning accuracy value increases as the angle becomes closer to the posture information. The learning identifying unit that uses such a learning accuracy value can update the parameters so that the model estimates the attitude at an angle close to the attitude information. By using this parameter in the posture estimation device, the posture of the subject can be properly estimated.
また、請求項6の学習装置は、請求項4に記載の学習装置において、前記確度生成部が、前記姿勢情報のベクトルと前記複数の角度のそれぞれのベクトルとの間のなす角を算出し、前記複数の角度のうち前記なす角が最小となる角度について、所定値を前記学習用確度値に設定し、前記複数の角度のうち前記なす角が最小とならない角度について、前記所定値よりも小さい値を前記学習用確度値に設定する、ことを特徴とする。 In the learning device according to claim 6, in the learning device according to claim 4, the accuracy generation unit calculates an angle formed between the vector of the posture information and each of the plurality of angles, Of the plurality of angles, a predetermined value is set to the learning accuracy value for the angle at which the formed angle is the smallest, and an angle at which the formed angle is not the smallest among the plurality of angles is smaller than the predetermined value. A value is set to the learning accuracy value.
請求項6の発明によれば、学習用確度値は2値であるため、学習用確度値に対応する各角度に対し、2値分類の学習を行えばよいこととなる。その結果、学習用識別部の回路規模を小さくすることができ、学習効率を向上させることができる。 According to the invention of claim 6, since the learning accuracy value is binary, it is sufficient to perform binary classification learning for each angle corresponding to the learning accuracy value. As a result, the circuit size of the learning identifying unit can be reduced, and the learning efficiency can be improved.
さらに、請求項7のプログラムは、コンピュータを、請求項1から3までのいずれか一項に記載の姿勢推定装置として機能させることを特徴とする。 Further, the program according to claim 7 causes a computer to function as the posture estimation device according to any one of claims 1 to 3.
また、請求項8のプログラムは、コンピュータを、請求項4から6までのいずれか一項に記載の学習装置として機能させることを特徴とする。
Further, a program according to
以上のように、本発明によれば、被写体の姿勢を簡易かつ高精度に推定することができる。 As described above, according to the present invention, the posture of a subject can be estimated easily and with high accuracy.
以下、本発明を実施するための形態について図面を用いて詳細に説明する。本発明の 実施形態による姿勢推定装置は、姿勢推定の対象となる画像Iを入力し、予め設定されたパラメータpを用いて、画像Iに基づき姿勢情報θ及び必要に応じてその信頼度rを推定して出力する。 Hereinafter, modes for carrying out the present invention will be described in detail with reference to the drawings. The posture estimation apparatus according to the embodiment of the present invention inputs an image I to be subjected to posture estimation, and uses a preset parameter p to calculate the posture information θ based on the image I and its reliability r as necessary. Estimate and output.
画像Iは、例えば、人の頭部画像とする。姿勢情報θは、例えば、画像Iを撮影したカメラに対して人の頭部が正対した場合を0とし、所定の回転方向(例えば、人の上から見て反時計回り)を正の回転角とした場合の角度値(0ラジアン以上2πラジアン未満の角度値)とする。 The image I is, for example, a human head image. The posture information θ is, for example, 0 when the person's head is directly facing the camera that captured the image I, and a positive rotation in a predetermined rotation direction (eg, counterclockwise when viewed from above the person). An angle value (angle value of 0 radian or more and less than 2π radian) is defined as an angle.
画像Iの大きさ、形状及び解像度は、好適には固定とする。例えば、画像Iは、水平W画素及び垂直H画素の矩形画像とする。W及びHは自然数とする。画像Iは、例えばカラー画像であってもよいし、モノクロ画像であってもよい。 The size, shape and resolution of the image I are preferably fixed. For example, the image I is a rectangular image having horizontal W pixels and vertical H pixels. W and H are natural numbers. The image I may be, for example, a color image or a monochrome image.
姿勢情報θは、角度値であってもよいし、方向ベクトルのベクトル値または複素数値(フェーザ)であってもよい。姿勢情報θを角度値にて表現する場合、θの範囲を所定範囲に限定してもよい(θを弧度法で表す場合には、例えば、0≦θ<2πとする)。また、姿勢情報θをベクトル値または複素数値にて表現する場合、そのノルム値(例えば、ユークリッドノルム値)は1とする。信頼度rは、例えば0以上1以下の実数値とする。 The posture information θ may be an angle value, a vector value of a direction vector, or a complex value (phasor). When the posture information θ is represented by an angle value, the range of θ may be limited to a predetermined range (when θ is represented by the arc method, for example, 0≦θ<2π). When the posture information θ is represented by a vector value or a complex value, its norm value (for example, Euclidean norm value) is 1. The reliability r is, for example, a real value of 0 or more and 1 or less.
尚、姿勢情報θ及び信頼度rを一括して、ベクトル値または複素数値としての姿勢情報θとして表現してもよい。このとき、姿勢情報θの偏角を姿勢角に呼応させ、姿勢情報θのノルム値を信頼度rに呼応させる。 The posture information θ and the reliability r may be collectively expressed as the posture information θ as a vector value or a complex value. At this time, the deviation angle of the posture information θ is made to correspond to the posture angle, and the norm value of the posture information θ is made to correspond to the reliability r.
また、本発明の実施形態による学習装置は、画像Jk及び姿勢情報φkを学習データとして、画像Jkと姿勢情報φkとの間の関係を学習し、姿勢推定装置にて使用する最適なパラメータpを求める。 Further, the learning apparatus according to the embodiment of the present invention uses the image J k and the posture information φ k as learning data to learn the relationship between the image J k and the posture information φ k, and uses the optimum value in the posture estimation apparatus. A parameter p is calculated.
〔姿勢推定装置〕
次に、本発明の実施形態による姿勢推定装置について詳細に説明する。図1は、本発明の実施形態による姿勢推定装置の構成の一例を示すブロック図であり、図2は、姿勢推定装置の処理の一例を示すフローチャートである。この姿勢推定装置1は、入力画像に含まれる被写体の姿勢を推定する装置であり、識別部10及び加重合成部20を備えている。
[Posture estimation device]
Next, the posture estimation apparatus according to the embodiment of the present invention will be described in detail. FIG. 1 is a block diagram showing an example of the configuration of a posture estimation apparatus according to an embodiment of the present invention, and FIG. 2 is a flowchart showing an example of processing of the posture estimation apparatus. The posture estimation device 1 is a device that estimates the posture of a subject included in an input image, and includes an
(識別部10)
識別部10は、姿勢推定の対象となる画像Iを入力し、予め設定されたパラメータpを用いて、画像Iに含まれる被写体についてN個の代表的な角度θnの識別処理を行い、それぞれの確度値w(θn)を求める。Nは2以上の自然数であり、nは0以上N−1以下の整数である。N個の代表的な角度θnは、予め設定される。そして、識別部10は、N個の角度θnに対するそれぞれの確度値w(θn)からなる確度値列(w(θn))n∈{0,1,…,N-1}を加重合成部20に出力する。
(Identification unit 10)
The
すなわち、識別部10は、入力信号を画像Iとし、出力信号を、N個の代表的な角度θnに対するそれぞれの確度値w(θn)とする識別器である。後述する図3においては、入力信号であるの画像Iを、各画素3成分からなるカラー画像とし、N=8としている。
That is, the
代表的な角度θnは、例えば以下の式のとおり、2πラジアンをN等分するように予め設定される。
識別部10は、例えばニューラルネットワークにより構成される。図3は、識別部10の構成の一例を示すブロック図であり、識別部10が畳み込みニューラルネットワークにより構成された場合を示している。識別部10は、畳み込み層(畳み込み部)11,12,13,14及び全結合層(全結合部)15,16からなる畳み込みニューラルネットワークにより構成される。
The
尚、ニューラルネットワークの層数、素子数、活性化関数、畳み込み層の有無、畳み込みカーネルの大きさ、全結合層の有無、ストライド(サブサンプリング)の有無及びステップ、プーリング層の有無及び種類、ドロップアウトの有無等の構成は任意である。また、識別部10は、畳み込みニューラルネットワーク以外のニューラルネットワークであってもよい。
The number of layers of neural network, number of elements, activation function, presence/absence of convolutional layer, size of convolution kernel, presence/absence of fully connected layer, presence/absence and step of stride (subsampling), presence/absence and type of pooling layer, drop The configuration such as presence or absence of out is arbitrary. The
図3において、例えば、識別部10が入力する画像Iを、水平W=20画素、垂直H=20画素及び色3成分からなる20×20×3の3階テンソルとする。以下、水平W画素数×垂直H画素数×成分数で表される水平画素、垂直画素及び成分を、説明の便宜上「画素成分」という。
In FIG. 3, for example, the image I input by the
図2及び図3を参照して、畳み込み層11は、20×20×3画素成分の3階テンソルの画像Iを入力する(ステップS201)。そして、畳み込み層11は、画像Iに対し、3×3×3画素成分の畳み込みフィルタを2×2のストライドにおいて12種類適用し、予め設定されたパラメータpを用いて畳み込み処理を行う。畳み込み層11は、10×10×12画素成分の3階テンソルの画像T1を生成する(ステップS202)。
With reference to FIG. 2 and FIG. 3, the
尚、畳み込みニューラルネットワークにおける畳み込み層11,12,13,14による畳み込み処理は既知であるから、ここでは詳細な説明を省略する。 Since the convolution processing by the convolution layers 11, 12, 13, and 14 in the convolutional neural network is already known, detailed description thereof will be omitted here.
畳み込み層11は、10×10×12画素成分の3階テンソルの画像T1を畳み込み層12に出力する。画像T1は、水平W=10画素、垂直H=10画素及び12成分からなる3階テンソルの画像である。
The
畳み込み層12は、畳み込み層11から、10×10×12画素成分の3階テンソルの画像T1を入力する。そして、畳み込み層12は、画像T1に対し、3×3×3画素成分の畳み込みフィルタを2×2のストライドにおいて24種類適用し、予め設定されたパラメータpを用いて畳み込み処理を行う。畳み込み層12は、5×5×24画素成分の3階テンソルの画像T2を生成する(ステップS203)。
The convolutional layer 12 inputs the image T 1 of the third-order tensor of 10×10×12 pixel components from the
畳み込み層12は、5×5×24画素成分の3階テンソルの画像T2を畳み込み層13に出力する。画像T2は、水平W=5画素、垂直H=5画素及び24成分からなる3階テンソルの画像である。 The convolutional layer 12 outputs the image T 2 of the third-order tensor of 5×5×24 pixel components to the convolutional layer 13. The image T 2 is a third-order tensor image composed of horizontal W=5 pixels, vertical H=5 pixels, and 24 components.
畳み込み層13は、畳み込み層12から、5×5×24画素成分の3階テンソルの画像T2を入力する。そして、畳み込み層13は、画像T2に対し、3×3×3画素成分の畳み込みフィルタを1×1のストライドにおいて32種類適用し、予め設定されたパラメータpを用いて畳み込み処理を行う。畳み込み層13は、3×3×32画素成分の3階テンソルの画像T3を生成する(ステップS204)。 The convolutional layer 13 inputs the image T 2 of the third-order tensor of 5×5×24 pixel components from the convolutional layer 12. Then, the convolutional layer 13 applies 32 types of convolutional filters of 3×3×3 pixel components to the image T 2 in a 1×1 stride, and performs convolutional processing using a preset parameter p. The convolutional layer 13 generates an image T 3 of a third-order tensor of 3×3×32 pixel components (step S204).
畳み込み層13は、3×3×32画素成分の3階テンソルの画像T3を畳み込み層14に出力する。画像T3は、水平W=3画素、垂直H=3画素及び32成分からなる3階テンソルの画像である。 The convolutional layer 13 outputs the image T 3 of the third-order tensor of 3×3×32 pixel components to the convolutional layer 14. The image T 3 is a third-order tensor image composed of horizontal W=3 pixels, vertical H=3 pixels, and 32 components.
畳み込み層14は、畳み込み層13から、3×3×32画素成分の3階テンソルの画像T3を入力する。そして、畳み込み層14は、画像T3に対し、3×3×3画素成分の畳み込みフィルタを1×1のストライドにおいて64種類適用し、予め設定されたパラメータpを用いて畳み込み処理を行う。畳み込み層14は、1×1×64画素成分の3階テンソルの画像(64成分のベクトルV1)を生成する(ステップS205)。畳み込み層14は、64成分のベクトルV1を全結合層15に出力する。
The convolutional layer 14 inputs the image T 3 of the third-order tensor of 3×3×32 pixel components from the convolutional layer 13. Then, the convolutional layer 14 applies 64 types of convolution filters of 3×3×3 pixel components to the image T 3 in a 1×1 stride, and performs convolution processing using a preset parameter p. The convolutional layer 14 generates an image of a third-order tensor of 1×1×64 pixel components (vector V 1 of 64 components) (step S205). The convolutional layer 14 outputs the 64-component vector V 1 to the fully connected
全結合層15は、畳み込み層14から64成分のベクトルV1を入力し、予め設定されたパラメータpを用いて、64成分のベクトルV1を構成する全ての成分を結合するための全結合処理を行い、16成分のベクトルV2を生成する(ステップS206)。そして、全結合層15は、16成分のベクトルV2を全結合層16に出力する。つまり、全結合層15は、入力信号である64成分のベクトルV1の各要素と、出力信号である16成分のベクトルV2の各要素とを全て結合するネットワークである。
The
尚、畳み込みニューラルネットワークにおける全結合層15,16による全結合処理は既知であるから、ここでは詳細な説明を省略する。 Since the total connection process by the total connection layers 15 and 16 in the convolutional neural network is known, detailed description thereof will be omitted here.
全結合層16は、全結合層15から16成分のベクトルV2を入力し、予め設定されたパラメータpを用いて、16成分のベクトルV2を構成する全ての成分を結合するための全結合処理を行う。全結合層16は、8成分のベクトルV3(確度値w(θn),n=0,1,・・・,7)を生成する(ステップS207)。
The fully-connected
全結合層16は、8成分のベクトルV3である、8個の角度θnに対するそれぞれの確度値w(θn)からなる確度値列(w(θn))n∈{0,1,…,7}を加重合成部20に出力する。この場合、θ0=0・2π/8=0,θ1=1・2π/8=π/4,θ2=2・2π/8=π/2,・・・,θ7=7・2π/8=7π/4である。つまり、全結合層16は、入力信号である16成分のベクトルV2の各要素と、出力信号である8成分のベクトルV3の各要素とを全て結合するネットワークである。
The fully connected
このように、識別部10は、離散的な角度θnに対する確度値w(θn)を求めればよいから、連続的な角度に対する確度値を求める場合に比べ、簡易な処理で済み、かつ回路規模を削減することができる。
As described above, since the
尚、畳み込み層11,12,13,14及び全結合層15,16を構成する素子(ニューロン)には、バイアス値を設定するようにしてもよい。また、畳み込み層11,12,13,14及び全結合層15,16を構成する素子に適用する活性化関数は任意であるが、例えば半波整流関数(ReLU:Rectified Linear Unit)、シグモイド(Sigmoid)関数、双曲線正接関数等を用いることができる。
A bias value may be set to the elements (neurons) that form the
畳み込み層11,12,13,14及び全結合層15,16にて用いるパラメータpは、図1に示した姿勢推定装置1における識別部10の識別方法を特定するためのパラメータである。識別部10がニューラルネットワークによる場合は、重み値、バイアス値、フィルタ係数等の結合重み係数である。パラメータpは、後述する学習装置2により予め求めた値が用いられ、姿勢推定装置1に備えたROM(Read Only Memory)等に格納しておくようにしてもよいし、外部から更新できるように、RAM(Random Access Memory)またはフラッシュROMに格納しておくようにしてもよい。
The parameter p used in the
(加重合成部20)
図1及び図2に戻って、加重合成部20は、識別部10から、N個(図3の例ではN=8)の角度θnに対するそれぞれの確度値w(θn)からなる確度値列(w(θn))n∈{0,1,…,N-1}を入力する。
(Weighted combining unit 20)
Returning to FIG. 1 and FIG. 2, the
加重合成部20は、N個の角度θnに対するそれぞれの確度値w(θn)に応じた重み付けにより、N個の角度θnの加重合成処理を行い、姿勢情報θを推定する(ステップS208)。そして、加重合成部20は、姿勢情報θを出力する(ステップS209)。
例えば、加重合成部20は、以下の式のとおり、確度値w(θn)を重みとして、絶対値1及び角度(偏角)θnの複素数値を加重合成し、加重合成の結果である複素数ζを算出する。
尚、複素数ζの代わりに、複素数ζの実部及び虚部を成分とする2次元ベクトル値を用いて、前記式(2)の演算を行うようにしてもよい。 Instead of the complex number ζ, a two-dimensional vector value having a real part and an imaginary part of the complex number ζ as a component may be used to perform the calculation of the equation (2).
また、加重合成部20は、姿勢情報θ及び信頼度rを一括して、ベクトル値または複素数値としての姿勢情報θを表現する場合、前記式(2)において、以下の式のとおり、複素数ζを姿勢情報θとしてそのまま出力する。
また、加重合成部20は、姿勢情報θ及び信頼度rを個別に出力する場合、以下の式を用いて演算を行う。
は、例えばユークリッドノルムとする。
In addition, the
Is, for example, the Euclidean norm.
このように、加重合成部20は、離散的な角度θnに対する確度値w(θn)を重みとして角度θnを加重合成することで、連続的な角度情報の姿勢情報θを推定するようにした。これにより、加重合成の処理は積和演算により行われるから、演算負荷を低減することができ、かつ小規模な回路にて連続的な値をとる姿勢情報θを推定することができる。
Thus, the weighted combining
以上のように、本発明の実施形態の姿勢推定装置1によれば、識別部10は、画像Iを入力し、例えば畳み込みニューラルネットワークにて、予め設定されたパラメータpを用いて、N個の代表的な角度θnを識別し、それぞれの確度値w(θn)を求める。
As described above, according to the posture estimation apparatus 1 of the embodiment of the present invention, the
加重合成部20は、N個の角度θnに対するそれぞれの確度値w(θn)に応じた重み付けにより、N個の角度θnを加重合成し、姿勢情報θを生成する。
The
これにより、予め設定されたパラメータpを用いて姿勢情報θを推定することができ、パラメータpは後述する学習装置2により得ることができるから、前述の特許文献1に記載された顔の器官毎のテンプレートを用意する必要がない。つまり、特許文献1の技術に比べ、手間がかかることはない。
Thereby, the posture information θ can be estimated using the preset parameter p, and the parameter p can be obtained by the
また、姿勢情報θを推定するために、特定の特徴量のみを用いることがないから、特定の特徴量のみを用いる特許文献2の技術に比べ、姿勢情報θの推定精度を向上させることができる。したがって、被写体の姿勢を簡易かつ高精度に推定することができる。
Further, since the particular feature amount is not used to estimate the posture information θ, the estimation accuracy of the posture information θ can be improved as compared with the technique of
〔学習装置〕
次に、本発明の実施形態による学習装置について詳細に説明する。図4は、本発明の実施形態による学習装置の構成の一例を示すブロック図であり、図5は、学習装置の処理の一例を示すフローチャートである。この学習装置2は、確度生成部30及び学習用識別部40を備えている。
[Learning device]
Next, the learning device according to the embodiment of the present invention will be described in detail. FIG. 4 is a block diagram showing an example of the configuration of the learning device according to the embodiment of the present invention, and FIG. 5 is a flowchart showing an example of the processing of the learning device. The
学習装置2は、学習データとして、K個(組)の画像Jk及び姿勢情報φkを入力する(ステップS501)。そして、学習装置2は、これらの学習データを用いて、画像Jkに含まれる被写体の角度を識別するためのモデルを学習する。学習装置2は、当該モデルのパラメータp、すなわち図1に示した姿勢推定装置1の識別部10の動作を規定する、被写体の姿勢を推定するために用いるパラメータpの最適化を行い、最適化されたパラメータpを出力する。パラメータpは、図1に示した姿勢推定装置1の識別部10に設定される。Kは自然数であり、kは0以上K未満の整数である。
The
(確度生成部30)
確度生成部30は、学習データの姿勢情報φkを入力し、姿勢情報φkに基づいて、N個の角度θnに対するそれぞれの学習用確度値tk(θn)を生成する(ステップS502)。そして、確度生成部30は、1個の姿勢情報φkについて、N個の角度θnに対するそれぞれの学習用確度値tk(θn)からなる学習用確度値列(tk(θn))n∈{0,1,…,N-1}を学習用識別部40に出力する。
(Accuracy generation unit 30)
The
姿勢情報φkは、図1に示した姿勢情報θと同様に、角度値(例えば、弧度法による)とする。 The posture information φ k is an angle value (for example, by the radian method), like the posture information θ shown in FIG. 1.
具体的には、確度生成部30は、姿勢情報φk(の示す角度)のベクトルと各角度θnのベクトルとの間のなす角α(φk,θn)を算出し、なす角α(φk,θn)に応じた学習用確度値tk(θn)を生成する。α(φk,θn)は、姿勢情報φk(の示す角度)のベクトルと各角度θnのベクトルとの間のなす角を演算する関数である。
Specifically, the
例えば、確度生成部30は、以下の式のとおり、なす角α(φk,θn)が最小となる場合、当該角度θnについて学習用確度値tk(θn)=A(Aは所定の実数、例えばA=1)を設定する。また、確度生成部30は、なす角α(φk,θn)が最小とならない場合、当該角度θnについて学習用確度値tk(θn)=B(BはAよりも小さい所定の実数、例えばB=0)を設定する。
また、確度生成部30は、以下の式のとおり、なす角α(φk,θn)に対して所定の関数fを適用し、学習用確度値tk(θn)を算出するようにしてもよい。
関数fは、広義単調減少の関数であり、かつ非定数の関数である。例えば、関数fとして、以下のガウス関数が用いられる。
このように、確度生成部30は、連続的な角度情報の姿勢情報φkから、離散的な角度θnに対する学習用確度値tk(θn)を生成するようにした。これにより、離散的な角度θnに対する学習用確度値tk(θn)は、図1に示した姿勢推定装置1の識別部10により生成される確度値w(θn)に対応させることができる。そして、識別部10に対応する学習用識別部40において、これを学習データとして用いることができる。
As described above, the
(学習用識別部40)
図6は、学習用識別部40の構成の一例を示すブロック図である。学習用識別部40は、畳み込み層11,12,13,14及び全結合層15,16等を備えている。
(Learning identification unit 40)
FIG. 6 is a block diagram showing an example of the configuration of the
学習用識別部40は、学習データの画像Jkを入力すると共に、確度生成部30から、N個の角度θnに対するそれぞれの学習用確度値tk(θn)からなる学習用確度値列(tk(θn))n∈{0,1,…,N-1}を入力する。そして、学習用識別部40は、図1に示した識別部10に対応する学習処理を行い、K個の画像Jk及び学習用確度値列(tk(θn))n∈{0,1,…,N-1}を用いて、識別部10が備えるべき最適なパラメータpを求め、当該パラメータpを出力する。
The
識別部10がニューラルネットワークにより構成される場合には、学習用識別部40も識別部10と同様に、ニューラルネットワークにより構成され、その結合重み係数であるパラメータpを更新可能な状態としておく。
When the identifying
学習用識別部40は、学習データの画像Jkを入力する。そして、学習用識別部40は、画像Jkに対し、畳み込み層11,12,13,14による畳み込み処理、及び全結合層15,16による全結合処理を行い、N個の角度θnに対するそれぞれの確度値wk(θn)を求める(ステップS503)。これにより、N個の角度θnに対するそれぞれの確度値wk(θn)からなる確度値列(wk(θn))n∈{0,1,…,N-1}が得られる。
The learning
学習用識別部40に備えた図示しない誤差算出部は、以下の式のとおり、確度値列(wk(θn))n∈{0,1,…,N-1}と学習用確度値列(tk(θn))n∈{0,1,…,N-1}との間の誤差を算出する。そして、誤差算出部は、当該誤差を、N個の角度θnに対するそれぞれの誤差値dk(θn)からなる誤差値列(dk(θn))n∈{0,1,…,N-1}とする(ステップS504)。
学習用識別部40に備えた図示しない逆伝播部は、誤差値列(dk(θn))n∈{0,1,…,N-1}を、畳み込み層11,12,13,14及び全結合層15,16に対してこの逆の順番に伝播(逆伝播)させる(ステップS505)。そして、逆伝播部は、この誤差値逆伝播法により、畳み込み層11,12,13,14及び全結合層15,16においてそれぞれ用いるパラメータpを更新する(ステップS506)。
The back propagation unit (not shown) included in the
学習用識別部40は、K個の画像Jk及び学習用確度値列(tk(θn))n∈{0,1,…,N-1}について、ステップS502〜S506の処理が完了したか否かを判定する(ステップS507)。学習用識別部40は、ステップS507において、処理が完了していないと判定した場合(ステップS507:N)、次のパラメータkを設定し(ステップS508)、ステップS502へ移行する。
The
一方、学習用識別部40は、ステップS507において、処理が完了したと判定した場合(ステップS507:Y)、ステップS506にて更新したパラメータpを最適なパラメータであるとして出力する(ステップS509)。出力されたパラメータpは、図1に示した識別部10にて用いられる。
On the other hand, when the
尚、学習装置2は、図5のステップS502〜S508に示したように、誤差値逆伝播法による処理を、K個の画像Jk及び姿勢情報φk(学習用確度値列(tk(θn))n∈{0,1,…,N-1})に対して適宜実行するようにしてもよい。この場合、学習装置2は、K個の画像Jk及び姿勢情報φk(学習用確度値列(tk(θn))n∈{0,1,…,N-1})の全てについて、順次実行するようにしてもよいし、K個の中から所定数をランダムに選択して実行するようにしてもよい。また、学習装置2は、K個の中から1個以上を選択し、1個以上の画像Jk及び姿勢情報φk(学習用確度値列(tk(θn))n∈{0,1,…,N-1})をまとめた、いわゆるミニバッチを構成し、実行するようにしてもよい。
As shown in steps S502 to S508 of FIG. 5, the
このように、学習装置2は、図1に示した識別部10にて用いるパラメータpを、確度生成部30及び当該識別部10に対応する学習用識別部40において学習し、最適化するようにした。これにより、最適化されたパラメータpを用いて、識別部10を動作させることができる。
In this way, the
以上のように、本発明の実施形態の学習装置2によれば、確度生成部30は、姿勢情報φk(の示す角度)のベクトルと各角度θnのベクトルとの間のなす角α(φk,θn)を算出し、なす角α(φk,θn)に応じた学習用確度値tk(θn)を生成する。
As described above, according to the
学習用識別部40は、図1に示した識別部10と同様にニューラルネットワークにより構成される場合、学習データの画像Jkに対し、畳み込み層11,12,13,14及び全結合層15,16による処理を行う。そして、学習用識別部40は、N個の角度θnに対するそれぞれの確度値wk(θn)を求める。
When the
学習用識別部40は、確度値wk(θn)と学習用確度値tk(θn)との間の誤差値dk(θn)を算出し、誤差値dk(θn)を、畳み込み層11,12,13,14及び全結合層15,16に逆伝播させ、パラメータpを更新する。
確度生成部30は、K個の姿勢情報φkについて処理を行い、K個の学習用確度値tk(θn)を生成する。そして、学習用識別部40は、K個の画像Jk及び学習用確度値tk(θn)について処理を行い、最適なパラメータpを生成する。
The
このようにして生成された最適なパラメータpは、図1に示した姿勢推定装置1にて用いられ、姿勢推定装置1の識別部10を動作させることができる。
The optimum parameter p thus generated is used in the posture estimation apparatus 1 shown in FIG. 1, and the
これにより、姿勢推定装置1において、パラメータpを用いて姿勢情報θを推定することができるから、前述の特許文献1に記載された顔の器官毎のテンプレートを用意する必要がなく、手間がかかることはない。 With this, the posture estimation apparatus 1 can estimate the posture information θ using the parameter p, and therefore it is not necessary to prepare the template for each facial organ described in Patent Document 1 described above, which is troublesome. There is no such thing.
また、姿勢情報θを推定するために、特定の特徴量のみを用いることがないから、特定の特徴量のみを用いる特許文献2の技術に比べ、姿勢情報θの推定精度を向上させることができる。
Further, since the particular feature amount is not used to estimate the posture information θ, the estimation accuracy of the posture information θ can be improved as compared with the technique of
したがって、学習装置2により生成されたパラメータpを用いることで、姿勢推定装置1において被写体の姿勢を簡易かつ高精度に推定することができる。
Therefore, by using the parameter p generated by the
以上、実施形態を挙げて本発明を説明したが、本発明は前記実施形態に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。例えば、図3において、識別部10は、水平W=20画素、垂直H=20画素及び色3成分からなる画像Iを入力するようにしたが、本発明は、画素数及び色成分数を限定するものではない。
Although the present invention has been described with reference to the embodiments, the present invention is not limited to the above embodiments, and various modifications can be made without departing from the technical idea thereof. For example, in FIG. 3, the
また、図3において、識別部10は、ニューラルネットワークにより構成されるようにした。本発明は、識別部10をニューラルネットワークに限定するものではなく、ニューラルネットワーク以外の構成部を用いるようにしてもよい。つまり、識別部10は、画像Iを入力し、パラメータpを用いて、画像Iに含まれる被写体についてN個の代表的な角度θnの識別処理を行い、それぞれの確度値w(θn)を求めて出力する構成部であればよい。識別部10に対応する図6に示した学習用識別部40についても同様である。
Further, in FIG. 3, the
尚、本発明の実施形態による姿勢推定装置1及び学習装置2のハードウェア構成としては、通常のコンピュータを使用することができる。姿勢推定装置1及び学習装置2は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。
As the hardware configuration of the posture estimation device 1 and the
姿勢推定装置1に備えた識別部10及び加重合成部20の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。また、学習装置2に備えた確度生成部30及び学習用識別部40の各機能も、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。
Each function of the
これらのプログラムは、前記記憶媒体に格納されており、CPUに読み出されて実行される。また、これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。 These programs are stored in the storage medium, read by the CPU, and executed. Further, these programs can be stored and distributed in a storage medium such as a magnetic disk (floppy (registered trademark) disk, hard disk, etc.), optical disk (CD-ROM, DVD, etc.), semiconductor memory, etc., and distributed via a network. You can also send and receive.
1 姿勢推定装置
2 学習装置
10 識別部
11,12,13,14 畳み込み層(畳み込み部)
15,16 全結合層(全結合部)
20 加重合成部
30 確度生成部
40 学習用識別部
1 Posture
15,16 Fully bonded layer (Fully bonded part)
20
Claims (8)
前記入力画像に基づいて前記被写体の角度を識別し、予め設定された複数の角度のそれぞれに対応する確度値を求める識別部と、
前記識別部により求めた前記複数の角度のそれぞれに対応する前記確度値に応じた重み付けにより、前記複数の角度を加重合成し、姿勢情報を求める加重合成部と、
を備えたことを特徴とする姿勢推定装置。 In a posture estimation device that estimates the posture of a subject included in an input image,
An identification unit that identifies the angle of the subject based on the input image and obtains a certainty value corresponding to each of a plurality of preset angles;
By a weighted combination of the plurality of angles by weighting according to the certainty value corresponding to each of the plurality of angles obtained by the identification unit, a weighted combination unit that obtains posture information,
An attitude estimation device comprising:
前記識別部は、ニューラルネットワークにより構成される、ことを特徴とする姿勢推定装置。 The posture estimation apparatus according to claim 1,
The posture estimating apparatus, wherein the identifying unit is configured by a neural network.
前記姿勢情報を前記被写体の角度とする、または、前記姿勢情報をベクトル値または複素数値として表したときのノルムを信頼度とした場合に、前記姿勢情報を、前記被写体の角度及び当該角度における前記信頼度とする、ことを特徴とする姿勢推定装置。 In the posture estimation device according to claim 1,
When the posture information is the angle of the subject, or when the norm when the posture information is expressed as a vector value or a complex value is reliability, the posture information is the angle of the subject and the angle at the angle. A posture estimation device having reliability.
前記姿勢情報に基づいて、予め設定された複数の角度のそれぞれに対応する学習用確度値を求める確度生成部と、
前記画像、及び前記確度生成部により求めた前記複数の角度のそれぞれに対応する前記学習用確度値に基づいて、前記被写体の角度を識別するための前記モデルを学習し、前記被写体の姿勢を推定するために用いる前記パラメータを更新する学習用識別部と、
を備えたことを特徴とする学習装置。 In a learning device that inputs an image including a subject as learning data and posture information of the subject, learns a model using the learning data, and optimizes parameters of the model,
An accuracy generation unit that obtains a learning accuracy value corresponding to each of a plurality of preset angles based on the posture information;
Based on the learning accuracy value corresponding to each of the plurality of angles obtained by the image and the accuracy generation unit, the model for identifying the angle of the subject is learned, and the posture of the subject is estimated. A learning identification unit that updates the parameters used to
A learning device comprising:
前記確度生成部は、
前記姿勢情報のベクトルと前記複数の角度のそれぞれのベクトルとの間のなす角を算出し、当該なす角に対し、広義単調減少かつ非定数の関数を適用し、前記複数の角度のそれぞれに対応する前記学習用確度値を求める、ことを特徴とする学習装置。 The learning device according to claim 4,
The accuracy generation unit,
The angle between the vector of the posture information and each vector of the plurality of angles is calculated, and a monotonically-decreasing and non-constant function in a broad sense is applied to the angle to correspond to each of the plurality of angles. A learning device, wherein the learning accuracy value is obtained.
前記確度生成部は、
前記姿勢情報のベクトルと前記複数の角度のそれぞれのベクトルとの間のなす角を算出し、前記複数の角度のうち前記なす角が最小となる角度について、所定値を前記学習用確度値に設定し、前記複数の角度のうち前記なす角が最小とならない角度について、前記所定値よりも小さい値を前記学習用確度値に設定する、ことを特徴とする学習装置。 The learning device according to claim 4,
The accuracy generation unit,
An angle formed between the vector of the posture information and each vector of the plurality of angles is calculated, and a predetermined value is set to the learning accuracy value for an angle of the plurality of angles where the formed angle is the smallest. The learning device is characterized in that a value smaller than the predetermined value is set as the learning accuracy value for an angle that does not become the smallest among the plurality of angles.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018247875A JP2020107244A (en) | 2018-12-28 | 2018-12-28 | Posture estimating apparatus, learning apparatus, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018247875A JP2020107244A (en) | 2018-12-28 | 2018-12-28 | Posture estimating apparatus, learning apparatus, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020107244A true JP2020107244A (en) | 2020-07-09 |
Family
ID=71449205
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018247875A Pending JP2020107244A (en) | 2018-12-28 | 2018-12-28 | Posture estimating apparatus, learning apparatus, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2020107244A (en) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005530278A (en) * | 2002-06-20 | 2005-10-06 | アイデンティクス・インコーポレーテッド | System and method for estimating pose angle |
US7848548B1 (en) * | 2007-06-11 | 2010-12-07 | Videomining Corporation | Method and system for robust demographic classification using pose independent model from sequence of face images |
WO2018189796A1 (en) * | 2017-04-10 | 2018-10-18 | 富士通株式会社 | Recognition device, recognition system, recognition method, and recognition program |
JP2018180756A (en) * | 2017-04-07 | 2018-11-15 | 住友電装株式会社 | Connector posture recognition apparatus, terminal unit holding apparatus,connector posture recognition method, and terminal unit holding method |
-
2018
- 2018-12-28 JP JP2018247875A patent/JP2020107244A/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005530278A (en) * | 2002-06-20 | 2005-10-06 | アイデンティクス・インコーポレーテッド | System and method for estimating pose angle |
US7848548B1 (en) * | 2007-06-11 | 2010-12-07 | Videomining Corporation | Method and system for robust demographic classification using pose independent model from sequence of face images |
JP2018180756A (en) * | 2017-04-07 | 2018-11-15 | 住友電装株式会社 | Connector posture recognition apparatus, terminal unit holding apparatus,connector posture recognition method, and terminal unit holding method |
WO2018189796A1 (en) * | 2017-04-10 | 2018-10-18 | 富士通株式会社 | Recognition device, recognition system, recognition method, and recognition program |
Non-Patent Citations (2)
Title |
---|
LIANG ZHAO ET AL.: ""REAL-TIME HEAD ORIENTATION ESTIMATION USING NEURAL NETWORKS"", PROCEEDINGS. INTERNATIONAL CONFERENCE ON IMAGE PROCESSING, JPN6022043683, 22 September 2002 (2002-09-22), US, pages 297 - 300, ISSN: 0005033260 * |
上條 俊介: ""マーケティング映像におけるパラメータ間関係を考慮した人物姿勢認識およびトラッキング"", 画像ラボ, vol. 25, no. 3, JPN6022043685, 10 March 2014 (2014-03-10), JP, pages 46 - 54, ISSN: 0004900844 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113196289B (en) | Human body action recognition method, human body action recognition system and equipment | |
US20140185924A1 (en) | Face Alignment by Explicit Shape Regression | |
Punnappurath et al. | Face recognition across non-uniform motion blur, illumination, and pose | |
US11960259B2 (en) | Control system using autoencoder | |
US11557391B2 (en) | Systems and methods for human pose and shape recovery | |
JP2013513191A (en) | Robust object recognition by dynamic modeling in augmented reality | |
WO2012100819A1 (en) | Method and system for comparing images | |
CN109919971B (en) | Image processing method, image processing device, electronic equipment and computer readable storage medium | |
JP7405198B2 (en) | Image processing device, image processing method, and image processing program | |
CN109784353B (en) | Method, device and storage medium for processor implementation | |
Hu et al. | LDF-Net: Learning a displacement field network for face recognition across pose | |
Liu et al. | Learning explicit shape and motion evolution maps for skeleton-based human action recognition | |
Oka et al. | Real-time face tracking and recognition by sparse eigentracker with associative mapping to 3D shape | |
JP7437918B2 (en) | Information processing device, information processing method, and program | |
JP2020107244A (en) | Posture estimating apparatus, learning apparatus, and program | |
Baby et al. | Face depth estimation and 3D reconstruction | |
US20230040793A1 (en) | Performance of Complex Optimization Tasks with Improved Efficiency Via Neural Meta-Optimization of Experts | |
Tran et al. | 3D face pose and animation tracking via eigen-decomposition based bayesian approach | |
JP2022189901A (en) | Learning method, learning device, program, and recording medium | |
LU101933B1 (en) | Human action recognition method, human action recognition system and equipment | |
Li et al. | Video face editing using temporal-spatial-smooth warping | |
Savitha et al. | Deep learning-based face hallucination: a survey | |
Wang et al. | Real-time image tracking with an adaptive complementary filter | |
Tang et al. | Mixed noise face hallucination via adaptive weighted residual and nuclear-norm regularization | |
Tomar et al. | Comprehensive survey of face super-resolution techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211029 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221011 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221020 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20230411 |