JP2021144359A - Learning apparatus, estimation apparatus, learning method, and program - Google Patents
Learning apparatus, estimation apparatus, learning method, and program Download PDFInfo
- Publication number
- JP2021144359A JP2021144359A JP2020041377A JP2020041377A JP2021144359A JP 2021144359 A JP2021144359 A JP 2021144359A JP 2020041377 A JP2020041377 A JP 2020041377A JP 2020041377 A JP2020041377 A JP 2020041377A JP 2021144359 A JP2021144359 A JP 2021144359A
- Authority
- JP
- Japan
- Prior art keywords
- depth
- human body
- depth image
- neck
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
Description
本発明は、学習装置、推定装置、学習方法、及びプログラムに関する。 The present invention relates to a learning device, an estimation device, a learning method, and a program.
これまでに、深度画像から人体部位の頭、肩、首、肘など、人体骨格を推定する認識処理の研究が行われている。この認識処理では、人体の三次元モデルを生成した上で、その三次元モデルでの各部位(頭・肩など)が、どのような深度分布になっているかを機械学習させて、人体の各骨格位置を推定している。この推定において、三次元モデルの視えている部分のみを機械学習した場合、例えば、腕を前にすることによって肩が視えなくなると、肩の関節位置を推定できなくなることがある。 So far, research has been conducted on recognition processing that estimates the human skeleton such as the head, shoulders, neck, and elbows of human body parts from depth images. In this recognition process, after generating a three-dimensional model of the human body, machine learning is performed to learn what kind of depth distribution each part (head, shoulder, etc.) in the three-dimensional model has, and each part of the human body. The skeletal position is estimated. In this estimation, if only the visible part of the three-dimensional model is machine-learned, for example, if the shoulder cannot be seen by putting the arm in front, the shoulder joint position may not be estimated.
特許文献1には、深度画像を用いて、分析対象が視える可視部分だけでなく、他部位で隠れて視えない隠し部分の部位を認識することができる技術が開示されている。特許文献1では、分類ツリーを用いて、分析対象が可視部分であるか、隠し部分であるかを認識する。その結果から、その分析対象部分の深度値を復元して、各部位を推定している。この分類ツリーは学習させて、認識性能を向上させている。 Patent Document 1 discloses a technique that can recognize not only a visible portion that can be seen by an analysis target but also a hidden portion that cannot be seen because it is hidden by another portion by using a depth image. In Patent Document 1, the classification tree is used to recognize whether the analysis target is a visible part or a hidden part. From the result, the depth value of the analysis target part is restored and each part is estimated. This classification tree is trained to improve recognition performance.
また、非特許文献1には、深度画像から人体の関節位置の座標を推定する技術が開示されている。非特許文献1では、可視部分の人体部位を分類する分類ツリーで各最終ノードに分類される類似部位の位置から関節位置を回帰分析により推定し、隠れた部位でも推定できる。 Further, Non-Patent Document 1 discloses a technique for estimating the coordinates of the joint position of the human body from a depth image. In Non-Patent Document 1, the joint position is estimated by regression analysis from the position of the similar part classified into each final node in the classification tree for classifying the human body part of the visible part, and the hidden part can also be estimated.
しかしながら、特許文献1では、可視部分及び隠し部分の両方を入力として、分類ツリーから分析対象が可視部分であるか、隠し部分であるかを認識しているため、認識処理に大量のデータが必要となり、処理の複雑化、又は、処理時間の長期化するおそれがある。また、非特許文献1では、人体の全身部位をマルチクラス分類しているため、非特許文献1でも、処理の複雑化、又は、処理時間の長期化するおそれがある。 However, in Patent Document 1, since both the visible part and the hidden part are input and whether the analysis target is the visible part or the hidden part is recognized from the classification tree, a large amount of data is required for the recognition process. Therefore, there is a risk that the processing will be complicated or the processing time will be prolonged. Further, in Non-Patent Document 1, since the whole body part of the human body is classified into multi-class, even in Non-Patent Document 1, there is a possibility that the processing becomes complicated or the processing time becomes long.
本発明の目的の一例は、人体の隠れた部位の深度を推定できる識別モデルを生成する学習装置、学習方法、及びプログラム、並びに、その識別モデルを用いた推定装置を提供することにある。 An example of an object of the present invention is to provide a learning device, a learning method, and a program that generate a discriminative model capable of estimating the depth of a hidden part of the human body, and an estimation device using the discriminative model.
上記目的を達成するため、本発明の一側面における学習装置は、
人体の三次元モデルを生成する三次元モデル生成部と、
前記三次元モデルの深度画像を生成する深度画像生成部と、
前記三次元モデルの深度画像から、前記人体の首を含む首領域の深度画像を選択する首領域選択部と、
前記三次元モデルの深度画像から、前記人体の特定部位の深度を取得する深度取得部と、
撮像装置で撮像された深度画像から人体の特定部位の深度を識別するための識別モデルを、選択された前記首領域の深度画像から取得できる前記首領域の深度と、取得された前記特定部位の深度との深度差に基づいて生成する、識別モデル生成部と、
を備える。
In order to achieve the above object, the learning device in one aspect of the present invention is
A 3D model generator that generates a 3D model of the human body,
A depth image generator that generates a depth image of the three-dimensional model,
A neck region selection unit that selects a depth image of the neck region including the neck of the human body from the depth image of the three-dimensional model.
A depth acquisition unit that acquires the depth of a specific part of the human body from the depth image of the three-dimensional model.
A discriminative model for identifying the depth of a specific part of the human body from the depth image captured by the imaging device is obtained from the selected depth image of the neck area, the depth of the neck area, and the acquired depth of the specific part. The discriminative model generator, which is generated based on the depth difference from the depth,
To be equipped.
また、上記目的を達成するため、本発明の一側面における推定装置は、
撮像装置から深度画像を取得する深度画像取得部と、
取得された前記深度画像に、人体の首を中心とした領域を推定し、推定した前記領域に基づいて、前記深度画像から人体を検出する人体検出部と、
前記人体が検出された場合、前記領域内における深度分布に基づいて、前記人体の特定部位の深度を推定する深度推定部と、
を備え、
前記深度推定部は、
生成された人体の三次元モデルの深度画像から、前記人体の首を含む領域の深度画像が選択され、選択された前記深度画像から生成された識別モデルを用いて、前記人体の特定部位の深度を推定する。
Further, in order to achieve the above object, the estimation device in one aspect of the present invention is used.
A depth image acquisition unit that acquires a depth image from an image pickup device,
A human body detection unit that estimates a region centered on the neck of the human body from the acquired depth image and detects the human body from the depth image based on the estimated region.
When the human body is detected, a depth estimation unit that estimates the depth of a specific part of the human body based on the depth distribution in the region, and a depth estimation unit.
With
The depth estimation unit
From the generated depth image of the three-dimensional model of the human body, a depth image of the region including the neck of the human body is selected, and the depth of a specific part of the human body is used by using the discriminative model generated from the selected depth image. To estimate.
また、上記目的を達成するため、本発明の一側面における学習方法は、
人体の三次元モデルを生成するステップと、
前記三次元モデルの深度画像を生成するステップと、
前記三次元モデルの深度画像から、前記人体の首を含む首領域の深度画像を選択するステップと、
前記三次元モデルの深度画像から、前記人体の特定部位の深度を取得するステップと、
撮像装置で撮像された深度画像から人体の特定部位の深度を識別するための識別モデルを、選択された前記首領域の深度画像から取得できる前記首領域の深度と、取得された前記特定部位の深度との深度差に基づいて生成する、ステップと、
を備える。
Further, in order to achieve the above object, the learning method in one aspect of the present invention is:
Steps to generate a three-dimensional model of the human body,
Steps to generate a depth image of the 3D model,
A step of selecting a depth image of the neck region including the neck of the human body from the depth image of the three-dimensional model, and
The step of acquiring the depth of a specific part of the human body from the depth image of the three-dimensional model, and
A discriminative model for identifying the depth of a specific part of the human body from the depth image captured by the imaging device is obtained from the selected depth image of the neck area, the depth of the neck area, and the acquired depth of the specific part. Steps and steps generated based on the depth difference from the depth
To be equipped.
更に、上記目的を達成するため、本発明の一側面におけるプログラムは、
コンピュータに、
人体の三次元モデルを生成するステップと、
前記三次元モデルの深度画像を生成するステップと、
前記三次元モデルの深度画像から、前記人体の首を含む首領域の深度画像を選択するステップと、
前記三次元モデルの深度画像から、前記人体の特定部位の深度を取得するステップと、
撮像装置で撮像された深度画像から人体の特定部位の深度を識別するための識別モデルを、選択された前記首領域の深度画像から取得できる前記首領域の深度と、取得された前記特定部位の深度との深度差に基づいて生成する、ステップと、
を実行させる命令を含む。
Further, in order to achieve the above object, the program in one aspect of the present invention is:
On the computer
Steps to generate a three-dimensional model of the human body,
Steps to generate a depth image of the 3D model,
A step of selecting a depth image of the neck region including the neck of the human body from the depth image of the three-dimensional model, and
The step of acquiring the depth of a specific part of the human body from the depth image of the three-dimensional model, and
A discriminative model for identifying the depth of a specific part of the human body from the depth image captured by the imaging device is obtained from the selected depth image of the neck area, the depth of the neck area, and the acquired depth of the specific part. Steps and steps generated based on the depth difference from the depth
Includes instructions to execute.
以上のように本発明によれば、隠れた人体の特定部位の深度を推定することができる。 As described above, according to the present invention, the depth of a specific part of the hidden human body can be estimated.
以下、本発明の一実施形態における学習装置および学習方法について、図1〜図6を参照しながら説明する。 Hereinafter, the learning device and the learning method according to the embodiment of the present invention will be described with reference to FIGS. 1 to 6.
[装置構成]
図1は、学習装置10の構成図である。
[Device configuration]
FIG. 1 is a configuration diagram of the
学習装置10は、撮像装置で撮像された深度画像(以下、撮像画像と言う)から、人体の特定部位の深度を推定するための識別モデルを学習させるための装置である。「特定部位」は、人体の頭、肩又は首である。学習装置10は、生成した人体の三次元モデルを用いて、識別モデルを学習させていくことで、撮像画像から人体の特定部位の深度を推定する精度を高めることを可能としている。
The
学習装置10は、三次元モデル生成部1、深度画像生成部2、首領域選択部3と、深度取得部4と、識別モデル生成部5と、を備えている。
The
三次元モデル生成部1は、人体の三次元モデルを生成する。 The three-dimensional model generation unit 1 generates a three-dimensional model of the human body.
深度画像生成部2は、生成された三次元モデルの深度画像を生成する。
The depth
首領域選択部3は、三次元モデルの深度画像から、人体の首を含む首領域の深度画像を選択する。
The neck
深度取得部4は、三次元モデルの深度画像から、人体の特定部位の深度を取得する。 The depth acquisition unit 4 acquires the depth of a specific part of the human body from the depth image of the three-dimensional model.
識別モデル生成部5は、撮像装置で撮像された深度画像から人体の特定部位の深度を識別するための識別モデルを、選択された首領域の深度画像から取得できる首領域の深度と、取得された特定部位の深度との深度差に基づいて生成する。
The discriminative
この構成の学習装置10によると、生成した三次元モデルを用いて、首領域と特定部位との深度差を推定する識別モデルを生成している。撮像装置で人を撮像して、その撮像画像から人体の特定部位の深度を推定する場合、この識別モデルを用いることで、撮像画像内の人の首の深度を基準とした深度差に基づいて、特定部位の深度を推定できる。
According to the
続いて、学習装置10の構成についてさらに具体的に説明する。
Subsequently, the configuration of the
三次元モデル生成部1は、人体の三次元モデルを生成する。三次元モデルは、モーションキャプチャを利用して生成してもよいし、人体を撮像して得られた画像から生成してもよく、その生成方法は、特に限定されない。 The three-dimensional model generation unit 1 generates a three-dimensional model of the human body. The three-dimensional model may be generated by using motion capture, or may be generated from an image obtained by imaging a human body, and the generation method thereof is not particularly limited.
深度画像生成部2は、三次元モデル生成部1により生成された三次元モデルの深度画像を生成する。深度画像は、カメラ位置から人体の各部位までの距離を示す距離情報を有した画像である。
The depth
図2は、三次元モデルの深度画像から、識別モデルを生成する方法を説明するための図である。図2は、特定部位が左肩である場合を示す。 FIG. 2 is a diagram for explaining a method of generating an discriminative model from a depth image of a three-dimensional model. FIG. 2 shows a case where the specific part is the left shoulder.
首領域選択部3は、人体の三次元モデルを一方向から視たときの首の位置を含む首領域の深度画像を選択する。三次元モデルは生成されたものであるため、人体の各部位の位置は特定可能である。首領域選択部3は、三次元モデルの深度画像から、人体の首の位置を特定し、その位置を含む首領域31を生成し、その首領域31の深度画像を選択する。
The neck
深度取得部4は、三次元モデルの深度画像から、人体の特定部位である肩32の位置を特定し、その肩32を含む特定部位領域32の深度を取得する。
The depth acquisition unit 4 identifies the position of the
識別モデル生成部5は、首領域31の深度画像と、特定部位領域32の深度とから、深度画像の首領域に含まれる各首領域の深度画像から得られる深度と、特定部位の深度との深度差を推定する識別モデルを生成する。首領域31に含まれる首領域の各ピクセルを中心とする深度分布を特徴量として、各ピクセルの深度と特定部位領域32の深度との深度差を推定する識別モデルを生成する。特徴量は、首領域31に含まれるピクセル数分だけ作成される。この識別モデルで推定した首領域31の各ピクセルでの深度差と、各ピクセルの深度とを足すと、推定した特定部位32の深度が得られる。この深度データに対して最頻値探索又は平均値処理を行うことで特定部位32の最終的な推定結果が計算される。
The discriminative
なお、特定部位が首である場合、例えば、識別モデル生成部5は、首領域31の中心点の深度と、特定部位領域32の最頻値深度との差(深度差)を、識別モデルとして生成する。
When the specific part is the neck, for example, the identification
識別モデル生成部5は、生成した識別モデルを、学習装置10が備える記憶装置、又は、学習装置10の外部の記憶装置に記憶する。
The discriminative
このように、学習装置10は、三次元モデルによる識別モデルの学習を行う。識別モデルは、撮像画像から人体の特定部位の深度を推定する推定装置で用いられる。以下に、その推定装置について説明する。
In this way, the
図3は、推定装置20の構成を示すブロック図である。
FIG. 3 is a block diagram showing the configuration of the
推定装置20は、撮像装置30から撮像画像を取得する。撮像装置30は、空間内の人を撮像するように、配置されている。撮像装置30は、人体の正面から撮像するように配置されてもよいし、側方又は上方から撮像するように配置されていてもよい。推定装置20は、取得した撮像画像から人を検出し、検出された人体の特定部位である、頭、肩又は首の二次元座標上の位置を推定し、また、その特定部位の深度を推定する。頭、肩又は首の位置及び深度を推定することで、頭、肩又は首周囲の三次元座標上の位置を推定できる。そして、頭、肩又は首周囲の関節位置を推定できる。関節位置を推定することで、身振り手振りなどのジェスチャー動作を認識したり、人の姿勢を推定したりできるようになる。
The
なお、推定装置20と撮像装置30とは、それぞれ独立した装置で、データ通信可能に接続された構成であってもよいし、推定装置20が撮像装置30を備えた構成であってもよい。また、識別モデルを記憶する記憶装置が、学習装置10の外部に設けられている場合、推定装置20は、その記憶装置に対してのみ、データ通信可能に接続された構成であってもよい。
The
推定装置20は、深度画像取得部21と、人検出部22と、位置推定部23と、深度推定部24と、関節推定部25とを備えている。
The
深度画像取得部21は、撮像装置30から撮像画像を取得する。
The depth
人検出部22は、取得された撮像画像に対して、人体の首を含む領域を推定し、推定した領域に基づいて、撮像画像から人を検出する。まず、人検出部22は、取得された撮像画像に含まれる距離情報に応じて、撮像画像の縮小画像を生成する。例えば、撮像画像内の人の大きさは、撮像装置30の近距離に位置する場合と遠距離に位置する場合とで、異なる。このため、人検出部22は、近距離の場合には縮小率を大きくした縮小画像を撮像画像から生成し、遠距離の場合には縮小率を小さくした縮小画像を撮像画像から生成する。
The
人検出部22は、生成した縮小画像内で、人体の首の位置を推定し、その推定した位置を含む領域を生成する。ここでは、人検出部22は、例えば、NMS(Non Maximum Suppression)を用いた処理により、領域を生成する。人検出部22は、撮像画像に含まれる距離情報に応じた縮小画像を生成し、その縮小画像に対して領域を生成するため、撮像画像における人の大きさに関わらず、略同じ領域を生成することができる。
The
人検出部22は、人検出用の識別モデルを用いて、撮像画像に人が写っているかを判定する。人検出用の識別モデルは、例えば、学習装置10で生成される。学習装置10で生成された三次元モデルでは、各部位の位置を特定できるので、学習装置10は、三次元モデルにおける「首」の位置が特定され、その位置を中心とする領域を生成し、その領域の深度画像を選択する。選択した領域の深度画像の深度情報の深度分布を特徴量として人検出する識別モデルを生成する。
The
人検出部22は、撮像画像(具体的には縮小画像)に推定した領域の深度分布と、人検出用の識別モデルと対比することで、推定した領域が首を含む領域であるかを判定し、首を含む領域であると判定すると、撮像画像には人が写っていると特定する。これにより、人検出部22は、撮像画像内の人を検出する。
The
位置推定部23は、撮像画像に人が検出されると、人検出部22が推定した領域内における深度分布に基づいて、首の周囲にある人体の特定部位である頭、肩又は首の位置を、位置推定用の識別モデルを用いて推定する。位置推定用の識別モデルは、学習装置10で生成される。
When a person is detected in the captured image, the
学習装置10において、三次元モデルにおける特定部位の位置を特定して、その位置を中心とする領域を生成し、その領域の深度画像を選択する。このとき、三次元モデルを動かして、特定部位が他の部位で隠れた姿勢(オクルージョンが発生した姿勢)、又は、特定部位が隠れていない姿勢(オクルージョンが発生していない姿勢)とする。そして、各姿勢に対して、特定部位の位置を特定して、その位置を中心とする領域を生成し、その領域の深度画像を選択する。そして、領域の深度画像の深度分布を、位置推定用の識別モデルとして生成する。
In the
位置推定部23は、位置推定用の識別モデルを用いることで、撮像画像にオクルージョンが発生しているか否かに関わらず、特定部位の位置を推定することができる。例えば、撮像画像内の人の姿勢が、左肩が左手で隠れた姿勢である場合であっても、位置推定部23は、人検出部22が推定した領域の深度分布が、同じ姿勢の三次元モデルから生成された位置推定用の識別モデルの深度分布と類似していることで、撮像画像における人の左肩の位置を推定することができる。
By using the identification model for position estimation, the
位置推定部23は、撮像画像における推定した位置に、円形状のラベルを付与する。例えば、位置推定部23は、推定した左肩の位置に対して、左肩を示すラベルを付与する。これにより、位置推定部23は、二次元座標上における、特定部位の位置を推定する。
The
深度推定部24は、人検出部22により生成された領域内における深度分布に基づいて、人体の特定部位の深度を推定する。深度推定部24は、人検出部22が推定した首領域に含まれる各ピクセルの深度と、学習装置10の識別モデル生成部5で推定できる特定部位との深度差から、特定部位の深度を推定する。
The
関節推定部25は、位置推定部23が推定した特定部位の二次元座標上の位置と、深度推定部24が推定した特定部位の深度とから、特定部位の三次元座標上の位置を推定し、その推定結果に基づいて、関節位置の三次元座標上の位置を推定する。
The
[装置動作]
次に、本実施形態における学習装置10の動作について図4を用いて説明する。図4は、学習装置10の動作を示すフロー図である。以下の説明においては、適宜図1〜図3を参照する。また、本実施形態では、学習装置10を動作させることによって、学習方法が実施される。よって、本実施形態における学習方法の説明は、以下の学習装置10の動作説明に代える。
[Device operation]
Next, the operation of the
三次元モデル生成部1は、三次元モデルを生成する(S1)。深度画像生成部2は、生成された三次元モデルの深度画像を生成する(S2)。首領域選択部3は、三次元モデルの深度画像から、人体の首の位置を特定し、その位置を含む首領域31を生成し、その首領域31の深度画像を選択する(S3)。続いて、深度取得部4は、三次元モデルの深度画像から、人体の特定部位である肩32の位置を特定し、その肩32の深度を取得する(S4)。
The three-dimensional model generation unit 1 generates a three-dimensional model (S1). The depth
識別モデル生成部5は、首領域31の深度画像と、特定部位領域32の深度とから、首領域に含まれる各ピクセルの深度と特定部位領域32の深度との深度差を推定する識別モデルを生成する(S5)。識別モデル生成部5は、生成した識別モデルを、記憶装置へ記憶する(S6)。
The discriminative
次に、推定装置20の動作について説明する。図5は、推定装置20の動作を示すフロー図である。
Next, the operation of the
深度画像取得部21は、撮像装置30から撮像画像を取得する(S11)。人検出部22は、取得された撮像画像の縮小画像を生成する(S12)。このとき、人検出部22は、撮像画像に含まれる距離情報に応じて、撮像画像の縮小画像を生成する。人検出部22は、近距離の場合には縮小率を大きくした縮小画像を撮像画像から生成し、遠距離の場合には縮小率を小さくした縮小画像を撮像画像から生成する。
The depth
人検出部22は、生成した縮小画像から人を検出する(S13)。人検出部22は、生成した縮小画像に対して、人体の首を含む領域を推定し、その領域の深度画像の深度分布と、人検出用の識別モデルとを対比する。そして、人検出部22は、対比することで、推定した領域が首を含む領域であるかを判定し、首を含む領域であると判定すると、撮像画像には人が写っていると特定する。
The
位置推定部23は、撮像画像に人が検出されると、S13で推定された領域の深度分布に基づいて、首の周囲にある人体の特定部位である頭、肩又は首の位置を、位置推定用の識別モデルを用いて推定する(S14)。そして、位置推定部23は、推定した位置に、円形状のラベルを付与する(S15)。
When a person is detected in the captured image, the
深度推定部24は、人検出部22により生成された領域内における深度分布に基づいて、人体の特定部位の深度を推定する(S16)。深度推定部24は、人検出部22が推定した領域の深度を基準として、図4のS5で生成した識別モデルに含まれる深度差から、特定部位の深度を推定する。関節推定部25は、位置推定部23が推定した特定部位の二次元座標上の位置と、深度推定部24が推定した特定部位の深度とから、特定部位の三次元座標上の位置を推定し、その推定結果に基づいて、関節位置の三次元座標上の位置を推定する(S17)。
The
以上のように、学習装置10が、首を中心として識別モデルを生成することで、推定装置20は、特定部位にオクルージョンが発生しているか否かにかかわらず、撮像画像における人の特定部位の深度を推定することができる。
As described above, the
[プログラム]
本実施形態におけるプログラムは、コンピュータに、図4に示す各ステップを実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施形態における学習装置と学習方法とを実現することができる。この場合、コンピュータのプロセッサは、三次元モデル生成部1、深度画像生成部2、首領域選択部3、特定部位領域選択部4及び識別モデル生成部5として機能し、処理を行なう。
[program]
The program in this embodiment may be any program that causes a computer to execute each step shown in FIG. By installing this program on a computer and executing it, the learning device and the learning method in the present embodiment can be realized. In this case, the computer processor functions as a three-dimensional model generation unit 1, a depth
また、本実施形態におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されても良い。この場合は、例えば、各コンピュータが、それぞれ、三次元モデル生成部1、深度画像生成部2、首領域選択部3、特定部位領域選択部4及び識別モデル生成部5のいずれかとして機能しても良い。
Moreover, the program in this embodiment may be executed by a computer system constructed by a plurality of computers. In this case, for example, each computer functions as one of a three-dimensional model generation unit 1, a depth
また、コンピュータに、図5に示す各ステップを実行させるプログラムをインストールし、実行することによって、本実施形態における推定装置を実現することができる。この場合、コンピュータのプロセッサは、深度画像取得部21、人検出部22、位置推定部23、深度推定部24及び関節推定部25として機能し、処理を行なう。このプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されても良い。この場合は、例えば、各コンピュータが、それぞれ、深度画像取得部21、人検出部22、位置推定部23、深度推定部24及び関節推定部25のいずれかとして機能しても良い。
Further, the estimation device according to the present embodiment can be realized by installing and executing a program for executing each step shown in FIG. 5 on a computer. In this case, the computer processor functions as a depth
コンピュータとしては、汎用のPCの他に、スマートフォン、タブレット型端末装置が挙げられる。 Examples of computers include smartphones and tablet terminal devices in addition to general-purpose PCs.
[物理構成]
ここで、本実施形態におけるプログラムを実行することによって、学習装置10を実現するコンピュータについて図6を用いて説明する。図6は、学習装置10を実現するコンピュータの一例を示すブロック図である。
[Physical configuration]
Here, a computer that realizes the
図6に示すように、コンピュータ110は、CPU(Central Processing Unit)111と、メインメモリ112と、記憶装置113と、入力インターフェイス114と、表示コントローラ115と、データリーダ/ライタ116と、通信インターフェイス117とを備える。これらの各部は、バス121を介して、互いにデータ通信可能に接続される。
As shown in FIG. 6, the
また、コンピュータ110は、CPU111に加えて、又はCPU111に代えて、GPU(Graphics Processing Unit)、又はFPGA(Field-Programmable Gate Array)を備えていても良い。この態様では、GPU又はFPGAが、実施の形態におけるプログラムを実行することができる。
Further, the
CPU111は、記憶装置113に格納された、コード群で構成された実施形態におけるプログラムをメインメモリ112に展開し、各コードを所定順序で実行することにより、各種の演算を実施する。メインメモリ112は、典型的には、DRAM(Dynamic Random Access Memory)等の揮発性の記憶装置である。
The
また、実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体120に格納された状態で提供される。なお、本実施形態におけるプログラムは、通信インターフェイス117を介して接続されたインターネット上で流通するものであっても良い。
Further, the program in the embodiment is provided in a state of being stored in a computer-
また、記憶装置113の具体例としては、ハードディスクドライブの他、フラッシュメモリ等の半導体記憶装置が挙げられる。入力インターフェイス114は、CPU111と、キーボード及びマウスといった入力機器118との間のデータ伝送を仲介する。表示コントローラ115は、ディスプレイ装置119と接続され、ディスプレイ装置119での表示を制御する。
Further, specific examples of the
データリーダ/ライタ116は、CPU111と記録媒体120との間のデータ伝送を仲介し、記録媒体120からのプログラムの読み出し、及びコンピュータ110における処理結果の記録媒体120への書き込みを実行する。通信インターフェイス117は、CPU111と、他のコンピュータとの間のデータ伝送を仲介する。
The data reader /
また、記録媒体120の具体例としては、CF(Compact Flash(登録商標))及びSD(Secure Digital)等の汎用的な半導体記憶デバイス、フレキシブルディスク(Flexible Disk)等の磁気記録媒体、又はCD−ROM(Compact Disk Read Only Memory)などの光学記録媒体が挙げられる。
Specific examples of the
なお、本実施形態における学習装置10は、プログラムがインストールされたコンピュータではなく、各部に対応したハードウェアを用いることによっても実現可能である。更に、学習装置10は、一部がプログラムで実現され、残りの部分がハードウェアで実現されていてもよい。
The
なお、推定装置20を実現するコンピュータについて、図6と同様であるため、その説明は省略する。
Since the computer that realizes the
上述した実施の形態の一部又は全部は、以下に記載する(付記1)〜(付記10)によって表現することができるが、以下の記載に限定されるものではない。 A part or all of the above-described embodiments can be expressed by the following descriptions (Appendix 1) to (Appendix 10), but the present invention is not limited to the following description.
(付記1)
人体の三次元モデルを生成する三次元モデル生成部と、
前記三次元モデルの深度画像を生成する深度画像生成部と、
前記三次元モデルの深度画像から、前記人体の首を含む首領域の深度画像を選択する首領域選択部と、
前記三次元モデルの深度画像から、前記人体の特定部位の深度を取得する深度取得部と、
撮像装置で撮像された深度画像から人体の特定部位の深度を識別するための識別モデルを、選択された前記首領域の深度画像から取得できる前記首領域の深度と、取得された前記特定部位の深度との深度差に基づいて生成する、識別モデル生成部と、
を備える、学習装置。
(Appendix 1)
A 3D model generator that generates a 3D model of the human body,
A depth image generator that generates a depth image of the three-dimensional model,
A neck region selection unit that selects a depth image of the neck region including the neck of the human body from the depth image of the three-dimensional model.
A depth acquisition unit that acquires the depth of a specific part of the human body from the depth image of the three-dimensional model.
A discriminative model for identifying the depth of a specific part of the human body from the depth image captured by the imaging device is obtained from the selected depth image of the neck area, the depth of the neck area, and the acquired depth of the specific part. The discriminative model generator, which is generated based on the depth difference from the depth,
A learning device equipped with.
(付記2)
付記1に記載の学習装置であって、
前記識別モデル生成部は、前記首領域の深度画像の深度分布を特徴量として学習して、前記首領域の深度画像から得られる深度と、選択された前記特定部位の深度との深度差を推定する、前記識別モデルを生成する、
学習装置。
(Appendix 2)
The learning device according to Appendix 1,
The discriminative model generation unit learns the depth distribution of the depth image of the neck region as a feature amount, and estimates the depth difference between the depth obtained from the depth image of the neck region and the depth of the selected specific portion. To generate the discriminative model,
Learning device.
(付記3)
付記1又は付記2に記載の学習装置であって、
前記特定部位は、前記人体の首、肩又は頭である、
学習装置。
(Appendix 3)
The learning device according to Appendix 1 or
The specific site is the neck, shoulders or head of the human body.
Learning device.
(付記4)
撮像装置から深度画像を取得する深度画像取得部と、
取得された前記深度画像に、人体の首を中心とした領域を推定し、推定した前記領域に基づいて、前記深度画像から人体を検出する人体検出部と、
前記人体が検出された場合、前記領域内における深度分布に基づいて、前記人体の特定部位の深度を推定する深度推定部と、
を備え、
前記深度推定部は、
生成された人体の三次元モデルの深度画像から、前記人体の首を含む領域の深度画像が選択され、選択された前記深度画像から生成された識別モデルを用いて、前記人体の特定部位の深度を推定する、
推定装置。
(Appendix 4)
A depth image acquisition unit that acquires a depth image from an image pickup device,
A human body detection unit that estimates a region centered on the neck of the human body from the acquired depth image and detects the human body from the depth image based on the estimated region.
When the human body is detected, a depth estimation unit that estimates the depth of a specific part of the human body based on the depth distribution in the region, and a depth estimation unit.
With
The depth estimation unit
From the generated depth image of the three-dimensional model of the human body, a depth image of the region including the neck of the human body is selected, and the depth of a specific part of the human body is used by using the discriminative model generated from the selected depth image. To estimate,
Estimator.
(付記5)
人体の三次元モデルを生成するステップと、
前記三次元モデルの深度画像を生成するステップと、
前記三次元モデルの深度画像から、前記人体の首を含む首領域の深度画像を選択するステップと、
前記三次元モデルの深度画像から、前記人体の特定部位の深度を取得するステップと、
撮像装置で撮像された深度画像から人体の特定部位の深度を識別するための識別モデルを、選択された前記首領域の深度画像から取得できる前記首領域の深度と、取得された前記特定部位の深度との深度差に基づいて生成する、ステップと、
を備える、学習方法。
(Appendix 5)
Steps to generate a three-dimensional model of the human body,
Steps to generate a depth image of the 3D model,
A step of selecting a depth image of the neck region including the neck of the human body from the depth image of the three-dimensional model, and
The step of acquiring the depth of a specific part of the human body from the depth image of the three-dimensional model, and
A discriminative model for identifying the depth of a specific part of the human body from the depth image captured by the imaging device is obtained from the selected depth image of the neck area, the depth of the neck area, and the acquired depth of the specific part. Steps and steps generated based on the depth difference from the depth
A learning method that includes.
(付記6)
付記5に記載の学習方法であって、
前記識別モデルを生成するステップでは、前記首領域の深度画像の深度分布を特徴量として学習して、前記首領域の深度画像から得られる深度と、選択された前記特定部位の深度との深度差を推定する、前記識別モデルを生成する、
学習方法。
(Appendix 6)
The learning method described in
In the step of generating the discriminative model, the depth distribution of the depth image of the neck region is learned as a feature amount, and the depth difference between the depth obtained from the depth image of the neck region and the depth of the selected specific portion is obtained. To generate the discriminative model,
Learning method.
(付記7)
付記5又は付記6に記載の学習方法であって、
前記特定部位は、前記人体の首、肩又は頭である、
学習方法。
(Appendix 7)
The learning method according to
The specific site is the neck, shoulders or head of the human body.
Learning method.
(付記8)
コンピュータに、
人体の三次元モデルを生成するステップと、
前記三次元モデルの深度画像を生成するステップと、
前記三次元モデルの深度画像から、前記人体の首を含む首領域の深度画像を選択するステップと、
前記三次元モデルの深度画像から、前記人体の特定部位の深度を取得するステップと、
撮像装置で撮像された深度画像から人体の特定部位の深度を識別するための識別モデルを、選択された前記首領域の深度画像から取得できる前記首領域の深度と、取得された前記特定部位の深度との深度差に基づいて生成する、ステップと、
を実行させる命令を含む、プログラム。
(Appendix 8)
On the computer
Steps to generate a three-dimensional model of the human body,
Steps to generate a depth image of the 3D model,
A step of selecting a depth image of the neck region including the neck of the human body from the depth image of the three-dimensional model, and
The step of acquiring the depth of a specific part of the human body from the depth image of the three-dimensional model, and
A discriminative model for identifying the depth of a specific part of the human body from the depth image captured by the imaging device is obtained from the selected depth image of the neck area, the depth of the neck area, and the acquired depth of the specific part. Steps and steps generated based on the depth difference from the depth
A program that contains instructions to execute.
(付記9)
付記8に記載のプログラムであって、
前記識別モデルを生成するステップでは、前記首領域の深度画像の深度分布を特徴量として学習して、前記首領域の深度画像から得られる深度と、選択された前記特定部位の深度との深度差を推定する、前記識別モデルを生成する、
プログラム。
(Appendix 9)
The program described in Appendix 8
In the step of generating the discriminative model, the depth distribution of the depth image of the neck region is learned as a feature amount, and the depth difference between the depth obtained from the depth image of the neck region and the depth of the selected specific portion is obtained. To generate the discriminative model,
program.
(付記10)
付記8又は付記9に記載のプログラムであって、
前記特定部位は、前記人体の首、肩又は頭である、
プログラム。
(Appendix 10)
The program described in Appendix 8 or Appendix 9.
The specific site is the neck, shoulders or head of the human body.
program.
1 三次元モデル生成部
2 深度画像生成部
3 首領域選択部
4 深度取得部
5 識別モデル生成部
10 学習装置
20 推定装置
21 深度画像取得部
22 人検出部
23 位置推定部
24 深度推定部
25 関節推定部
30 撮像装置
110 コンピュータ
111 CPU
112 メインメモリ
113 記憶装置
114 入力インターフェイス
115 表示コントローラ
116 データリーダ/ライタ
117 通信インターフェイス
118 入力機器
119 ディスプレイ装置
120 記録媒体
121 バス
1 3D
112
Claims (10)
前記三次元モデルの深度画像を生成する深度画像生成部と、
前記三次元モデルの深度画像から、前記人体の首を含む首領域の深度画像を選択する首領域選択部と、
前記三次元モデルの深度画像から、前記人体の特定部位の深度を取得する深度取得部と、
撮像装置で撮像された深度画像から人体の特定部位の深度を識別するための識別モデルを、選択された前記首領域の深度画像から取得できる前記首領域の深度と、取得された前記特定部位の深度との深度差に基づいて生成する、識別モデル生成部と、
を備える、学習装置。 A 3D model generator that generates a 3D model of the human body,
A depth image generator that generates a depth image of the three-dimensional model,
A neck region selection unit that selects a depth image of the neck region including the neck of the human body from the depth image of the three-dimensional model.
A depth acquisition unit that acquires the depth of a specific part of the human body from the depth image of the three-dimensional model.
A discriminative model for identifying the depth of a specific part of the human body from the depth image captured by the imaging device is obtained from the selected depth image of the neck area, the depth of the neck area, and the acquired depth of the specific part. The discriminative model generator, which is generated based on the depth difference from the depth,
A learning device equipped with.
前記識別モデル生成部は、前記首領域の深度画像の深度分布を特徴量として学習して、前記首領域の深度画像から得られる深度と、選択された前記特定部位の深度との深度差を推定する、前記識別モデルを生成する、
学習装置。 The learning device according to claim 1.
The discriminative model generation unit learns the depth distribution of the depth image of the neck region as a feature amount, and estimates the depth difference between the depth obtained from the depth image of the neck region and the depth of the selected specific portion. To generate the discriminative model,
Learning device.
前記特定部位は、前記人体の首、肩又は頭である、
学習装置。 The learning device according to claim 1 or 2.
The specific site is the neck, shoulders or head of the human body.
Learning device.
取得された前記深度画像に、人体の首を中心とした領域を推定し、推定した前記領域に基づいて、前記深度画像から人体を検出する人体検出部と、
前記人体が検出された場合、前記領域内における深度分布に基づいて、前記人体の特定部位の深度を推定する深度推定部と、
を備え、
前記深度推定部は、
生成された人体の三次元モデルの深度画像から、前記人体の首を含む領域の深度画像が選択され、選択された前記深度画像から生成された識別モデルを用いて、前記人体の特定部位の深度を推定する、
推定装置。 A depth image acquisition unit that acquires a depth image from an image pickup device,
A human body detection unit that estimates a region centered on the neck of the human body from the acquired depth image and detects the human body from the depth image based on the estimated region.
When the human body is detected, a depth estimation unit that estimates the depth of a specific part of the human body based on the depth distribution in the region, and a depth estimation unit.
With
The depth estimation unit
From the generated depth image of the three-dimensional model of the human body, a depth image of the region including the neck of the human body is selected, and the depth of a specific part of the human body is used by using the discriminative model generated from the selected depth image. To estimate,
Estimator.
前記三次元モデルの深度画像を生成するステップと、
前記三次元モデルの深度画像から、前記人体の首を含む首領域の深度画像を選択するステップと、
前記三次元モデルの深度画像から、前記人体の特定部位の深度を取得するステップと、
撮像装置で撮像された深度画像から人体の特定部位の深度を識別するための識別モデルを、選択された前記首領域の深度画像から取得できる前記首領域の深度と、取得された前記特定部位の深度との深度差に基づいて生成する、ステップと、
を備える、学習方法。 Steps to generate a three-dimensional model of the human body,
Steps to generate a depth image of the 3D model,
A step of selecting a depth image of the neck region including the neck of the human body from the depth image of the three-dimensional model, and
The step of acquiring the depth of a specific part of the human body from the depth image of the three-dimensional model, and
A discriminative model for identifying the depth of a specific part of the human body from the depth image captured by the imaging device is obtained from the selected depth image of the neck area, the depth of the neck area, and the acquired depth of the specific part. Steps and steps generated based on the depth difference from the depth
A learning method that includes.
前記識別モデルを生成するステップでは、前記首領域の深度画像の深度分布を特徴量として学習して、前記首領域の深度画像から得られる深度と、選択された前記特定部位の深度との深度差を推定する、前記識別モデルを生成する、
学習方法。 The learning method according to claim 5.
In the step of generating the discriminative model, the depth distribution of the depth image of the neck region is learned as a feature amount, and the depth difference between the depth obtained from the depth image of the neck region and the depth of the selected specific portion is obtained. To generate the discriminative model,
Learning method.
前記特定部位は、前記人体の首、肩又は頭である、
学習方法。 The learning method according to claim 5 or 6.
The specific site is the neck, shoulders or head of the human body.
Learning method.
人体の三次元モデルを生成するステップと、
前記三次元モデルの深度画像を生成するステップと、
前記三次元モデルの深度画像から、前記人体の首を含む首領域の深度画像を選択するステップと、
前記三次元モデルの深度画像から、前記人体の特定部位の深度を取得するステップと、
撮像装置で撮像された深度画像から人体の特定部位の深度を識別するための識別モデルを、選択された前記首領域の深度画像から取得できる前記首領域の深度と、取得された前記特定部位の深度との深度差に基づいて生成する、ステップと、
を実行させる命令を含む、プログラム。 On the computer
Steps to generate a three-dimensional model of the human body,
Steps to generate a depth image of the 3D model,
A step of selecting a depth image of the neck region including the neck of the human body from the depth image of the three-dimensional model, and
The step of acquiring the depth of a specific part of the human body from the depth image of the three-dimensional model, and
A discriminative model for identifying the depth of a specific part of the human body from the depth image captured by the imaging device is obtained from the selected depth image of the neck area, the depth of the neck area, and the acquired depth of the specific part. Steps and steps generated based on the depth difference from the depth
A program that contains instructions to execute.
前記識別モデルを生成するステップでは、前記首領域の深度画像の深度分布を特徴量として学習して、前記首領域の深度画像から得られる深度と、選択された前記特定部位の深度との深度差を推定する、前記識別モデルを生成する、
プログラム。 The program according to claim 8.
In the step of generating the discriminative model, the depth distribution of the depth image of the neck region is learned as a feature amount, and the depth difference between the depth obtained from the depth image of the neck region and the depth of the selected specific portion is obtained. To generate the discriminative model,
program.
前記特定部位は、前記人体の首、肩又は頭である、
プログラム。
The program according to claim 8 or 9.
The specific site is the neck, shoulders or head of the human body.
program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020041377A JP2021144359A (en) | 2020-03-10 | 2020-03-10 | Learning apparatus, estimation apparatus, learning method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020041377A JP2021144359A (en) | 2020-03-10 | 2020-03-10 | Learning apparatus, estimation apparatus, learning method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021144359A true JP2021144359A (en) | 2021-09-24 |
Family
ID=77766638
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020041377A Pending JP2021144359A (en) | 2020-03-10 | 2020-03-10 | Learning apparatus, estimation apparatus, learning method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021144359A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023200111A1 (en) * | 2022-04-13 | 2023-10-19 | 주식회사 뷰웍스 | Animal in-vivo imaging device and operating method thereof |
CN117523677A (en) * | 2024-01-02 | 2024-02-06 | 武汉纺织大学 | Classroom behavior recognition method based on deep learning |
-
2020
- 2020-03-10 JP JP2020041377A patent/JP2021144359A/en active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023200111A1 (en) * | 2022-04-13 | 2023-10-19 | 주식회사 뷰웍스 | Animal in-vivo imaging device and operating method thereof |
CN117523677A (en) * | 2024-01-02 | 2024-02-06 | 武汉纺织大学 | Classroom behavior recognition method based on deep learning |
CN117523677B (en) * | 2024-01-02 | 2024-06-11 | 武汉纺织大学 | Classroom behavior recognition method based on deep learning |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7227145B2 (en) | Hybrid tracker system and method for match move | |
JP5726125B2 (en) | Method and system for detecting an object in a depth image | |
WO2017152794A1 (en) | Method and device for target tracking | |
US11138419B2 (en) | Distance image processing device, distance image processing system, distance image processing method, and non-transitory computer readable recording medium | |
JP6570786B2 (en) | Motion learning device, skill discrimination device, and skill discrimination system | |
CN112506340B (en) | Equipment control method, device, electronic equipment and storage medium | |
JP5251987B2 (en) | Person determination device, method and program | |
JP7031685B2 (en) | Model learning device, model learning method and computer program | |
JP2021144359A (en) | Learning apparatus, estimation apparatus, learning method, and program | |
JP2019212148A (en) | Information processing device and information processing program | |
US11941498B2 (en) | Facial motion detection and image correction method and apparatus | |
KR20150103520A (en) | Method and apparatus for recognating hand motion | |
JP5848665B2 (en) | Moving object motion vector detection apparatus, moving object motion vector detection method, and program | |
JP5829155B2 (en) | Pedestrian detection device and program | |
US9761009B2 (en) | Motion tracking device control systems and methods | |
JP2021144358A (en) | Learning apparatus, estimation apparatus, learning method, and program | |
JP5643147B2 (en) | Motion vector detection apparatus, motion vector detection method, and motion vector detection program | |
JP6273686B2 (en) | Image processing apparatus, image processing method, and image processing program | |
WO2022181252A1 (en) | Joint detection device, training model generation device, joint detection method, training model generation method, and computer-readable recording medium | |
KR101785650B1 (en) | Click detecting apparatus and method for detecting click in first person viewpoint | |
WO2022181253A1 (en) | Joint point detection device, teaching model generation device, joint point detection method, teaching model generation method, and computer-readable recording medium | |
WO2022181251A1 (en) | Articulation point detection device, articulation point detection method, and computer-readable recording medium | |
US11847823B2 (en) | Object and keypoint detection system with low spatial jitter, low latency and low power usage | |
CN112711324B (en) | Gesture interaction method and system based on TOF camera | |
WO2023007730A1 (en) | Information processing system, information processing device, information processing method, and recording medium |