JP7164045B2 - 骨格認識方法、骨格認識プログラムおよび骨格認識システム - Google Patents

骨格認識方法、骨格認識プログラムおよび骨格認識システム Download PDF

Info

Publication number
JP7164045B2
JP7164045B2 JP2021529879A JP2021529879A JP7164045B2 JP 7164045 B2 JP7164045 B2 JP 7164045B2 JP 2021529879 A JP2021529879 A JP 2021529879A JP 2021529879 A JP2021529879 A JP 2021529879A JP 7164045 B2 JP7164045 B2 JP 7164045B2
Authority
JP
Japan
Prior art keywords
skeleton
heat map
image
subject
directions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021529879A
Other languages
English (en)
Other versions
JPWO2021002025A1 (ja
JPWO2021002025A5 (ja
Inventor
能久 浅山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2021002025A1 publication Critical patent/JPWO2021002025A1/ja
Publication of JPWO2021002025A5 publication Critical patent/JPWO2021002025A5/ja
Application granted granted Critical
Publication of JP7164045B2 publication Critical patent/JP7164045B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

本発明は、骨格認識方法、骨格認識プログラム、骨格認識システム、学習方法、学習プログラムおよび学習装置に関する。
体操や医療などの幅広い分野において、選手や患者などの人の骨格を認識することが行われている。近年では、カラー画像を用いて3次元の骨格を認識する技術や距離画像を用いて3次元の骨格を認識する技術が知られている。なお、骨格を認識するとは、複数の関節それぞれの3次元位置を推定する事である。
例えば、カラー画像を用いた骨格認識技術は、Coarse-to-Fine法を用いて、始めは画像からヒートマップ画像を認識することで関節の2次元位置を推定し、2段目は奥行き方向の分解能数を2枚に増やしたヒートマップ画像を認識する。このようにして、最終的に奥行き方向の分解能数を64枚に増やしたヒートマップ画像を認識することで関節の3次元位置を推定し、全関節数分の3次元位置を推定することで3次元骨格を推定する。
また、距離画像を用いた骨格認識技術は、ランダムフォレスト法を用いて、距離画像から関節の2次元位置を推定し、予め関節毎に設定した計算式を用いて各関節の画素値から奥行き値を算出することで関節の3次元位置を推定する。
特開2015-211765号公報 国際公開第2018/207351号 特開2012-120647号公報
Georgios Pavlakos et al、"Coarse-to-Fine Volumetric Prediction for Single-Image 3D Human Pose"、CVPR 2017、26 July 2017. Jamie Shotton et al、"Real-Time Human Pose Recognition in Parts from Single Depth Images"、CVPR 2011.
例えば、カラー画像を用いた骨格認識技術では、奥行き方向の分解能を小さくするためには、段数を大きくする必要がある。しかし、従来技術に開示されているように分解能数が64である場合には、±1mを64個に分解すると、1領域で約3.2cmとなり、奥行き方向の精度が低い。つまり、分解能が大きいので、高精度に認識することが困難である。また、3次元ボクセル空間に対して推定するので、メモリ量が膨大になり、現実的ではない。
また、距離画像を用いた骨格認識技術では、高精度に骨格を認識するために、それぞれの姿勢についての複数のモデルに分割して学習することが要求される。そして、複数のモデルを学習するために膨大な時間がかかる。よって、精度を高めるためには、多くの姿勢のモデルをいかにして準備するかということとなり、モデルの準備が十分でない場合、骨格認識の精度が低下する。また、部位が隠れている時に距離値がわからないので、正確な奥行き値を算出することができず、認識精度が低下する。
以上を踏まえると、これら従来技術では、骨格認識の精度が十分でなく、仮に十分な精度を得ようとすると、事前準備に膨大な時間を必要とするという問題があった。
そこで、一つの側面では、姿勢毎のモデルを準備することなく、骨格の認識精度を従来技術と比較して向上させることができる骨格認識方法、骨格認識プログラム、骨格認識システム、学習方法、学習プログラムおよび学習装置を提供することを目的とする。
第1の案では、骨格認識方法は、コンピュータが、被写体の距離画像から、前記被写体の複数の関節位置の尤度を複数方向から投影したヒートマップ画像を認識する学習モデルを取得する処理を実行する。骨格認識方法は、コンピュータが、処理対象の距離画像を前記学習モデルに入力して、前記複数方向それぞれのヒートマップ画像を取得する処理を実行する。骨格認識方法は、コンピュータが、前記複数方向それぞれのヒートマップ画像と前記複数方向の相対位置関係を示す情報とを用いて、前記被写体の前記複数の関節位置に関する3次元座標を算出する処理を実行する。骨格認識方法は、コンピュータが、前記複数の関節位置に関する3次元座標を含む骨格認識結果を、出力する処理を実行する。
一つの側面では、骨格の認識精度を向上させることができる。
図1は、実施例1にかかる認識装置を含むシステムの全体構成例を示す図である。 図2は、実施例1にかかる学習処理および認識処理を説明する図である。 図3は、実施例1にかかる学習装置と認識装置の機能構成を示す機能ブロック図である。 図4は、骨格定義DBに記憶される定義情報の例を示す図である。 図5は、学習データの例を示す図である。 図6は、距離画像とヒートマップ画像の一例を示す図である。 図7は、算出結果DBに記憶される情報の例を示す図である 図8は、3次元の骨格算出イメージを説明する図である。 図9は、実施例1にかかる学習処理の流れを示すフローチャートである。 図10は、実施例1にかかる認識処理の流れを示すフローチャートである。 図11は、実施例2にかかる視差情報の取得する説明する図である。 図12は、実施例2にかかる認識処理の流れを示すフローチャートである。 図13は、ハードウェア構成例を説明する図である。
以下に、本発明にかかる骨格認識方法、骨格認識プログラム、骨格認識システム、学習方法、学習プログラムおよび学習装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。
[全体構成]
図1は、実施例1にかかる認識装置を含むシステムの全体構成例を示す図である。図1に示すように、このシステムは、3Dレーザセンサ5、学習装置10、認識装置50、採点装置90を有し、被写体である演技者1の3次元データを撮像し、骨格等を認識して正確な技の採点を行うシステムである。なお、本実施例では、一例として、体操競技における演技者の骨格情報を認識する例で説明する。また、本実施例では、骨格位置の2次元座標や2次元座標の骨格位置を、単に2次元骨格位置などと記載する場合がある。
一般的に、体操競技における現在の採点方法は、複数の採点者によって目視で行われているが、技の高度化に伴い、採点者の目視では採点が困難な場合が増加している。近年では、3Dレーザセンサ5を使った、採点競技の自動採点システムや採点支援システムが知られている。例えば、これらのシステムにおいては、3Dレーザセンサ5により選手の3次元データである距離画像を取得し、距離画像から選手の各関節の向きや各関節の角度などである骨格を認識する。そして、採点支援システムにおいては、骨格認識の結果を3Dモデルにより表示することで、採点者が、演技者の細部の状況を確認するなどにより、より正しい採点を実施することを支援する。また、自動採点システムにおいては、骨格認識の結果から、演技した技などを認識し、採点ルールに照らして採点を行う。
ここで、採点支援システムや自動採点システムにおいては、随時行われる演技を、タイムリーに採点支援または自動採点することが求められる。従来の距離画像やカラー画像から演技者の3次元骨格を認識する手法では、メモリ不足などによる処理時間の長時間化や骨格認識の精度低下を招く。
例えば、自動採点システムによる自動採点の結果を採点者へ提供し、採点者が自己の採点結果と比較する形態では、従来技術を用いた場合、採点者への情報提供が遅延する。さらに、骨格認識の精度が低下することで、続く技認識も誤ってしまう可能性があり、結果として技による決定される得点も誤ってしまう。
同様に、採点支援システムにおいて、演技者の関節の角度や位置を、3Dモデルを使って表示する際にも、表示までの時間が遅延したり、表示される角度等が正しくないという事態を生じうる。この場合には、この採点支援システムを利用した採点者による採点は、誤った採点となってしまう場合もある。
以上の通り、自動採点システムや採点支援システムにおける骨格認識の精度が悪かったり、処理に時間を要すると、採点ミスの発生や、採点時間の長時間化を招いてしまう。
そこで、実施例1にかかるシステムでは、3Dレーザセンサ5から得られた距離画像を用いた機械学習により、演技者1の部位が器具などの隠れている場合や隠れていない場合に関わらず、どのような姿勢であっても人の3次元骨格を、高速かつ高精度に認識する。
ここで、本実施例で説明する骨格認識は、距離画像と、2つのヒートマップそれぞれの仮想視点の相対的な位置関係を示す情報とを用いて、演技者1の骨格認識を実行する。実施例1では、入力に与える距離画像そのものの視点(基準視点)である正面方向のヒートマップ画像と、基準視点に対して任意の数値分平行移動および回転させた位置に仮定した仮想視点のヒートマップ画像である真上方向のヒートマック画像とを用いて、3次元骨格を認識する。
まず、図1におけるシステムを構成する各装置について説明する。3Dレーザセンサ5は、赤外線レーザ等を用いて対象物の距離を画素ごとに測定(センシング)するセンサ装置の一例である。距離画像には、各画素までの距離が含まれる。つまり、距離画像は、3Dレーザセンサ(深度センサ)5から見た被写体の深度を表す深度画像である。
学習装置10は、骨格認識用の学習モデルを学習するコンピュータ装置の一例である。具体的には、学習装置10は、事前に取得した距離画像や3次元の骨格位置情報などを学習データとして使用して、ディープラーニングなどの機械学習を用いて学習モデルを学習する。
認識装置50は、3Dレーザセンサ5により測定された距離画像を用いて、演技者1の各関節の向きや位置等に関する骨格を認識するコンピュータ装置の一例である。具体的には、認識装置50は、3Dレーザセンサ5により測定された距離画像を、学習装置10によって学習された学習済みの学習モデルに入力し、学習モデルの出力結果に基づいて骨格を認識する。その後、認識装置50は、認識された骨格を採点装置90に出力する。なお、本実施例において、骨格認識の結果として得られる情報は、各関節の3次元位置に関する情報である。
採点装置90は、認識装置50により入力された認識結果情報を用いて、演技者の各関節の位置や向きから得られる動きの推移を特定し、演技者が演技した技の特定および採点を実行するコンピュータ装置の一例である。
ここで、学習処理について説明する。学習装置10は、学習処理において、距離画像と当該距離画像における3次元の骨格位置情報とを利用する。そして、学習装置10は、3次元の骨格位置情報から、被写体の複数の関節位置の尤度を複数方向から投影したヒートマップ画像を生成する。例えば、学習装置10は、演技者を正面から見た正面方向のヒートマップ画像(以下では、正面ヒートマップやxyヒートマップなどと記載する場合がある)と演技者を真上から見た真上方向のヒートマップ画像(以下では、真上ヒートマップやxzヒートマップなどと記載する場合がある)とを生成する。そして、学習装置10は、距離画像を説明変数、距離画像に対応付けられる2方向のヒートマップ画像を目的変数とする訓練データを用いて、学習モデルを学習する。
図2は、実施例1にかかる認識処理を説明する図である。図2に示すように、認識装置50は、3Dレーザセンサ5により演技者1の距離画像を取得し、学習済みの学習モデルに距離画像を入力して、2方向の2次元ヒートマップ画像を関節数分認識する。そして、認識装置50は、各方向の関節数分の2次元ヒートマップ画像から画像上の骨格位置の2次元座標を算出し、各方向の2次元の骨格位置と人領域の重心から、演技者1の骨格位置の3次元座標を算出する。
このように、実施例1にかかるシステムでは、機械学習により得られた学習モデルへの入力データは距離画像で、出力は、複数の関節それぞれについて、複数方向から見たヒートマップ画像である。実施例1に係るシステムは、関節数分の各方向のヒートマップ画像と学習モデルへの入力データとしても用いた距離画像とを用いて、演技者1の骨格を総合的に認識する。つまり、当該システムは、各関節の3次元の位置等に関する骨格認識結果を生成する。この結果、実施例1にかかるシステムでは、学習モデルは姿勢に依存せずに利用可能であるため、姿勢毎のモデルを準備する従来技術と比較して、姿勢毎のモデルを準備することなく、演技者1の骨格を高精度に認識することができる。
[機能構成]
図3は、実施例1にかかる学習装置10と認識装置50の機能構成を示す機能ブロック図である。なお、採点装置90は、骨格情報を用いて、演技における技を認識し、演技者の演技を採点する装置である。
(学習装置10の機能構成)
図3に示すように、学習装置10は、通信部11、記憶部12、制御部20を有する。通信部11は、他の装置との間の通信を制御する処理部であり、例えば通信インタフェースなどである。例えば、通信部11は、学習結果などを認識装置50に出力する。
記憶部12は、データや制御部20が実行するプログラムなどを記憶する記憶装置の一例であり、例えばメモリやハードディスクなどである。この記憶部12は、骨格定義DB13、学習データDB14、学習モデル15を記憶する。
骨格定義DB13は、骨格モデル上の各関節を特定するための定義情報を記憶するデータベースである。ここで記憶される定義情報は、3Dレーザセンサによる3Dセンシングによって演技者ごとに測定してもよく、一般的な体系の骨格モデルを用いて定義してもよい。
図4は、骨格定義DB13に記憶される定義情報の例を示す図である。図4に示すように、骨格定義DB13は、公知の骨格モデルで特定される各関節をナンバリングした、18個(0番から17番)の定義情報を記憶する。例えば、図4に示すように、右肩関節(SHOULDER_RIGHT)には7番が付与され、左肘関節(ELBOW_LEFT)には5番が付与され、左膝関節(KNEE_LEFT)には11番が付与され、右股関節(HIP_RIGHT)には14番が付与される。ここで、実施例では、8番の右肩関節のX座標をX8、Y座標をY8、Z座標をZ8と記載する場合がある。なお、例えば、Z軸は、3Dレーザセンサ5から対象に向けた距離方向、Y軸は、Z軸に垂直な高さ方向、X軸は、水平方向をと定義することができる。
学習データDB14は、骨格を認識する学習モデルの学習に利用される学習データを記憶するデータベースである。図5は、学習データの例を示す図である。図5に示すように、学習データDB14は、「項番、画像情報、骨格情報」を対応付けて記憶する。
ここで記憶される「項番」は、学習データを識別する識別子である。「画像情報」は、関節などの位置が既知である距離画像のデータである。「骨格情報」は、骨格の位置情報であり、図4に示した18個の各関節に対応する関節位置(3次元座標)である。図4の例では、距離画像である「画像データA1」には、HEADの座標「X3,Y3,Z3」などを含む18個の関節の位置が既知であることを示す。
すなわち、画像情報が説明変数、骨格情報から生成される18枚の正面ヒートマップ画像および18枚の真上ヒートマップ画像が目的変数(正解ラベル)として、教師有学習に利用される。なお、方向は任意であるが、正面と真上のように、互いに視線方向が大きく異なる方向が、2以上、選択される。
学習モデル15は、学習済みの学習モデルである。例えば、学習モデル15は、機械学習等によって学習された、距離画像から18枚の正面ヒートマップ画像と18枚の真上ヒートマップ画像とを予測する学習モデルである。
制御部20は、学習装置10全体を司る処理部であり、例えばプロセッサなどである。制御部20は、ヒートマップ生成部21と学習部22を有し、学習モデルの学習処理を実行する。なお、ヒートマップ生成部21と学習部22は、プロセッサが有する電子回路の一例やプロセッサが実行するプロセスの一例である。また、ヒートマップ生成部21は、生成部に対応し、学習部22は、学習部に対応する。
ヒートマップ生成部21は、ヒートマップ画像を生成する処理部である。具体的には、ヒートマップ生成部21は、学習データDB14に記憶される各骨格情報を用いて、18個の関節それぞれについて、正面ヒートマップ画像と真上ヒートマップ画像を生成する。すなわち、ヒートマップ生成部21は、各距離画像に対応付けられた骨格情報に含まれる、ある関節の3次元位置を用いて、当該関節の3次元位置を、正面と真上のそれぞれから見た平面へ投影する。そして、ヒートマップ生成部21は、ある関節の存在確率を示すヒートマップ画像を生成する。なお、骨格定義DB13に記憶される18個の関節それぞれについて、正面と真上それぞれから見た平面へ投影した場合の2種類のヒートマップ画像が生成される。そして、学習データDB14に記憶される画像情報(距離画像)に、正解情報として、複数の関節それぞれについて生成された複数方向のヒートマップ画像が対応付けて保持される。
なお、ヒートマップ画像の生成には、公知の様々な手法を採用することができる。例えば、ヒートマップ生成部21は、骨格情報に設定される座標位置を最も尤度(存在確率)の高い位置とし、その位置が半径Xcmを次に尤度の高い位置、さらにその位置から半径Xcmを次に尤度の高い位置として、ヒートマップ画像を生成する。なお、Xは閾値であり、任意の数字である。
学習部22は、距離画像から2方向のヒートマップ画像を出力する学習モデルを学習する処理部である。具体的には、学習部22は、学習データDB14に記憶される画像情報を説明変数、ヒートマップ生成部21により生成された正面ヒートマップ画像および真上ヒートマップ画像を目的変数とする訓練データを用いて、学習モデルを学習する。
例えば、学習部22は、距離画像のデータを、入力データとしてニューラルネットワークに入力する。そして、学習部22は、ニューラルネットワークの出力として、各関節のヒートマップ画像を取得する。その後、学習部35は、ニューラルネットワークの出力である18枚の正面ヒートマップ画像および18枚の真上ヒートマップ画像と、ヒートマップ生成部21により生成された18枚の正面ヒートマップ画像および18枚の真上ヒートマップ画像とを比較する。そして、学習部22は、各関節の誤差が最小となるように、誤差逆伝搬法などを用いてニューラルネットワークを学習する。
ここで、訓練データ(距離画像とヒートマップ画像群のセット)について説明する。図6は、距離画像とヒートマップ画像の一例を示す図である。図6の(a)に示すように、距離画像は、3Dレーザセンサ5から画素までの距離が含まれるデータであり、3Dレーザセンサ5からの距離が近いほど、濃い色で表示される。また、図6の(b)に示すように、ヒートマップ画像は、関節ごとに生成され、各関節位置の尤度を可視化した画像であって、最も尤度が高い座標位置ほど、濃い色で表示される。なお、通常、ヒートマップ画像では、人物の形は表示されないが、図6では、説明をわかりやすくするために、人物の形を図示するが、画像の表示形式を限定するものではない。
また、学習部22は、学習が終了すると、ニューラルネットワークにおける各種パラメータが学習された学習モデル15を学習結果として、記憶部12に格納する。なお、学習を終了するタイミングは、所定数以上の学習データを用いた学習が完了した時点や誤差が閾値未満となった時点など、任意に設定することができる。また、ここでは、ニューラルネットワークを用いた学習モデルを例にして説明したが、これに限定されるものではなく、CNN(Convolutional Neural Network)など他の機械学習を用いることができる。また、学習モデル15ではなく、学習されたパラメータを記憶部12に格納することもできる。
(認識装置50の機能構成)
図3に示すように、認識装置50は、通信部51、撮像部52、記憶部53、制御部60を有する。通信部51は、他の装置との間の通信を制御する処理部であり、例えば通信インタフェースなどである。例えば、通信部51は、学習装置10から学習済みの学習モデルを取得して記憶部53に保存し、演技者1の骨格情報を採点装置90に送信する。
撮像部52は、演技者1の距離画像を撮像する処理部であり、例えば3Dレーザセンサ5を制御して、演技者1を撮像する。例えば、撮像部52は、演技者1の距離画像を撮像し、撮像した距離画像のデータを制御部60に出力する。なお、撮像部52は、認識装置50の外にあってもよい。
記憶部53は、データや制御部60が実行するプログラムなどを記憶する記憶装置の一例であり、例えばメモリやハードディスクなどである。この記憶部53は、学習モデル54、算出結果DB55を記憶する。なお、記憶部53は、学習装置10の骨格定義DB13に記憶される骨格の定義情報を記憶することもできる。
学習モデル54は、学習装置10により学習された学習モデルを記憶するデータベースである。この学習モデル54は、学習モデル15と同様の情報を記憶するので、詳細な説明は省略する。
算出結果DB55は、後述する制御部60によって算出された各関節の情報を記憶するデータベースである。具体的には、算出結果DB55は、各距離画像に含まれる演技者1の骨格認識の結果を記憶する。図7は、算出結果DB55に記憶される情報の例を示す図である。図7に示すように、算出結果DB55は、「演技者ID、算出結果」を対応付けて記憶する。ここで記憶される「演技者ID」は、演技者を識別する識別子であり、「算出結果」は、図4に示した各関節の算出結果である。図7の例では、演技者(ID01)に対して、HEADの座標として(X1,Y1,Z1)が算出されたことを示す。なお、骨格認識の結果は、演技された時間や演技者など対応付けることができる。
制御部60は、認識装置50全体を司る処理部であり、例えばプロセッサなどである。この制御部60は、距離画像取得部61、ヒートマップ認識部62、2次元算出部63、3次元算出部64を有し、学習モデルを用いた骨格認識を実行する。なお、距離画像取得部61、ヒートマップ認識部62、2次元算出部63、3次元算出部64は、プロセッサが有する電子回路の一例やプロセッサが実行するプロセスの一例である。また、ヒートマップ認識部62は、取得部に対応し、2次元算出部63は、第1算出部に対応し、3次元算出部64は、第2算出部に対応する。
距離画像取得部61は、演技者1の距離画像を取得する処理部である。例えば、距離画像取得部61は、3Dレーザセンサ5により撮像された距離画像を撮像部52から取得し、3次元算出部64およびヒートマップ認識部62などに出力する。
ヒートマップ認識部62は、学習装置10により学習された学習済みの学習モデルを用いて、距離画像からヒートマップ画像を認識する処理部である。例えば、ヒートマップ認識部62は、記憶部53から、ニューラルネットワークを用いた学習済みの学習モデル54を取得する。
続いて、ヒートマップ認識部62は、距離画像取得部61から取得した距離画像を、学習済みの学習モデルに入力し、出力結果として、18個の関節それぞれに関する正面ヒートマップ画像と、18個の関節それぞれに関する真上ヒートマップ画像を取得する。そして、ヒートマップ認識部62は、このようにして認識した各ヒートマップ画像を、2次元算出部63に出力する。
2次元算出部63は、2次元ヒートマップ画像から画像上の骨格を算出する処理部である。例えば、2次元算出部63は、ヒートマップ認識部62から、18個の関節に関する正面ヒートマップ画像と18個の関節に関する真上ヒートマップ画像とを取得する。そして、2次元算出部63は、各ヒートマップ画像の最高値画素から各関節の位置を特定し、画像上の骨格位置の2次元座標を算出して、3次元算出部64に出力する。
つまり、2次元算出部63は、18個の関節に関する正面ヒートマップ画像それぞれについて、ヒートマップ画像の最高値の画素を特定して、各関節の画像上の位置を、個別に特定する。そして、2次元算出部63は、各正面ヒートマップ画像から特定された関節位置を組み合わせて、演技者1を正面から見た場合の18個の関節位置を特定する。
同様に、2次元算出部63は、18個の関節に関する真上ヒートマップ画像それぞれについて、ヒートマップ画像の最高値の画素を特定して、各関節の画像上の位置を、個別に特定する。そして、2次元算出部63は、各真上ヒートマップ画像から特定された関節位置を組み合わせて、演技者1を真上から見た場合の18個の関節位置を特定する。
3次元算出部64は、重心算出部65、奥行き値算出部66、骨格算出部67を有し、正面方向および真上方向の2次元骨格位置と人領域の重心とを用いて、3次元骨格位置を算出する処理部である。
ここで、3次元の骨格算出時のイメージについて説明する。図8は、3次元の骨格算出イメージを説明する図である。図8に示すように、本実施例において撮像される距離画像は、演技者の水平方向をx軸、垂直方向をy軸、奥行き方向をz軸とした場合のxy軸方向の距離画像(単に距離画像またはxy距離画像と記載する場合がある)などである。
また、ヒートマップ認識部62により認識される18個の関節に関する正面ヒートマップ画像は、演技者1を正面から見た場合の画像であり、x軸-y軸方向から撮像されるxyヒートマップ画像である。また、ヒートマップ認識部62により認識される18個の関節に関する真上ヒートマップ画像は、演技者1を真上から見た場合の画像であり、x軸-z軸方向から撮像されるxzヒートマップ画像である。
3次元算出部64は、距離画像に映る人領域の重心(以下、人重心と記載する場合がある)を算出し、人重心とxzヒートマップ画像上の2次元骨格位置とから18関節分の奥行き値を算出する。そして、3次元算出部64は、18関節分の奥行き値とxyヒートマップ画像上の2次元骨格位置とを用いて3次元骨格位置(骨格位置の3次元座標)を算出する。
重心算出部65は、距離画像から人領域の重心を算出する処理部である。例えば、重心算出部65は、距離画像取得部61から演技者の距離画像を取得する。ここで、距離画像には、人が映っている画素が含まれており、各画素には、3Dイメージセンサから人(演技者1)までのZ値が格納されている。Z値とは、距離画像上で人が映っている画素の画素値である。なお、一般的には、距離画像の距離の情報を、x,y,zの直交座標の座標軸で表す座標値に変換した値のうち、3Dイメージセンサから被写体へ向かう方向であるz軸の値をZ値という。
そこで、重心算出部65は、3Dイメージセンサから距離が閾値未満であり、画素値が一定値以上である各画素を特定する。つまり、重心算出部65は、距離画像上で演技者1を特定する。そして、重心算出部65は、特定した各画素の画素値の平均値を算出し、当該平均値を人領域の重心として、奥行き値算出部66等に出力する。
奥行き値算出部66は、人領域の重心と演技者1を真上から見た画像である真上画像上の2次元の骨格位置とを用いて、18関節分の奥行き値を算出する処理部である。例えば、奥行き値算出部66は、ヒートマップ認識部62から取得した18個の関節に関する各真上ヒートマップ画像(xzヒートマップ画像)から、画素値が一定値以上である各画素を特定し、画像上で演技者が映っている領域を特定する。そして、奥行き値算出部66は、各xyヒートマップ画像上で特定された人領域の2次元座標(x,z)を算出する。
ここで、距離画像は、人の重心が画像の中心にくるように、例えば1ピクセル=10mmとなるように作成される。したがって、奥行き値算出部66は、各xyヒートマップ画像上で特定された人領域の2次元座標(x,z)のz値が距離画像の中心からどれだけ離れているかにより、3次元空間中のZ値を算出することができる。
例えば、奥行き値算出部66は、画像サイズを(320,320)、画像中心を(160,160)、人領域の重心を6000mm、頭のz値を200とする例で説明すると、3次元空間中のZ値を「(200-160)×10+6000=6400mm」と算出する。そして、奥行き値算出部66は、算出した3次元空間中のZ値を、骨格算出部67に出力する。
骨格算出部67は、奥行き値算出部66により算出された18関節分の奥行き値と、ヒートマップ認識部62により認識されたxyヒートマップ画像上の2次元骨格位置とを用いて、演技者1の骨格位置の3次元座標を算出する処理部である。
具体的には、骨格算出部67は、奥行き値算出部66により算出された18関節分の奥行き値である3次元空間中のZ値を取得する。そして、骨格算出部67は、上記手法を用いて、xyヒートマップ画像から画像上の(x,y)の2次元座標を算出し、2次元座標(x,y)から3次元空間中のベクトルを算出する。
例えば、3Dレーザセンサ5のような3次元センサで撮像された距離画像は、センサ原点から各画素を通る3次元ベクトル情報を有していることから、この情報を用いることにより、各画素に写っている物体の3次元座標値が算出できる。そして、骨格算出部67は、xyヒートマップ画像に(x,y)座標の3次元ベクトルを(normX,normY,normZ)、奥行き値算出部66により算出されたその座標のZ値を「pixelZ」とすると、式(1)を用いることにより、(x,y)座標に映っている物体(演技者1)の(X,Y,Z)を算出することができる。このようにして、骨格算出部67は、各画素に写っている物体、すなわち演技者1の各関節の3次元座標(X,Y,Z)を算出して採点装置90に送信する。なお、採点装置90には、各関節の3次元座標とともに、フレーム番号や時刻情報などの情報が対応付けて、出力されても良い。
Figure 0007164045000001
[処理の流れ]
次に、上述した学習装置10が実行する学習処理と、認識装置50が実行する認識処理のそれぞれについて説明する。
(学習処理)
図9は、実施例1にかかる学習処理の流れを示すフローチャートである。図9に示すように、学習装置10のヒートマップ生成部21は、学習処理の開始が指示されると(S101:Yes)、学習データDB14から学習データを取得し(S102)、学習データ内の骨格情報を取得する(S103)。
続いて、ヒートマップ生成部21は、骨格情報を用いて、18個の関節それぞれに対して正面ヒートマップ画像と真上ヒートマップ画像とを生成し、合計36枚のヒートマップ画像を生成する(S104)。
その後、学習部22は、36枚のヒートマップ画像と距離画像を訓練データとして、学習モデルを学習する(S105)。そして、学習部22は、精度等により学習が十分ではないと判定される場合(S106:No)、次の学習データについてS102以降を実行する。
一方、学習部22は、精度等により学習が十分であると判定される場合(S106:Yes)、学習済みの学習モデルを学習モデル15に格納する(S107)。なお、学習モデルは、学習装置10から認識装置50へ送信される。また、図9の各ステップは、矛盾がない範囲内で順序を変更することができる。
(認識処理)
図10は、実施例1にかかる認識処理の流れを示すフローチャートである。図10に示すように、認識装置50のヒートマップ認識部62は、事前に学習モデル54から学習済みの学習モデルを読み出して構築する(S201)。
そして、認識処理の開始が指示されると(S202:Yes)、距離画像取得部61が、3Dレーザセンサ5等を用いて演技者1の距離画像を取得し(S203)、ヒートマップ認識部62が、学習済みの学習モデルに距離画像を入力して、各方向のヒートマップ画像を認識する(S204)。
この結果、ヒートマップ認識部62は、正面と真上の2方向の2次元ヒートマップ画像を18関節分認識し、18枚の正面ヒートマップ画像と18枚の真上ヒートマップ画像とを取得する(S205とS206)。
続いて、2次元算出部63は、18枚の正面ヒートマップ画像それぞれにおいて、尤度が最高値である画素から画像上の2次元骨格位置を算出するとともに(S207)、18枚の真上ヒートマップ画像それぞれにおいて、尤度が最高である画素から画像上の2次元骨格位置を算出する(S208)。
そして、3次元算出部64は、距離画像に映る人領域の重心(人重心)を算出し(S209)、人重心と真上画像上の2次元骨格位置から18関節分の奥行き値を算出する(S210)。その後、3次元算出部64は、18関節分の奥行き値と演技者1を正面からみた画像である正面画像上の2次元骨格位置を用いて、演技者1の18関節分の3次元骨格位置を算出する(S211)。なお、図10の各ステップは、矛盾がない範囲内で順序を変更することができる。
[効果]
上述したように、実施例1にかかるシステムでは、3Dレーザセンサ5から得られた距離画像から複数方向から見たヒートマップを取得できるため、ある方向から見たときに演技者1の体の一部が器具などに隠れていたとしても、各関節の3次元位置を認識することができる。つまり、骨格認識の精度を向上させることができる。さらに、距離画像からヒートマップを得るための学習モデルは、姿勢ごとに準備する必要がない。よって、どのような姿勢であっても、演技者1の3次元骨格を認識することができる。さらに、本実施例に係るシステムは、従来技術と比較して処理負荷が低いため、骨格認識結果を得るまでの処理速度を向上させることができる。したがって、骨格認識結果を利用した採点競技の自動採点システムや採点支援システムにおいて、自動採点の精度や、表示する3Dモデルの精度を向上させることができる。さらには、これらのシステムの処理時間を短縮することができる。
ところで、実施例1では、2つのヒートマップそれぞれの仮想視点の相対的な位置関係を示す情報として、正面ヒートマップ画像および真上ヒートマップ画像を用いる例を説明したが、これに限定されるものではなく、他の方向のヒートマップ画像を用いることもできる。そこで、実施例2では、一例として、入力に与える距離画像そのものの視点(基準視点)である正面方向のヒートマップ画像と、基準視点に対して任意の数値分平行移動および回転させた位置に仮定した仮想視点のヒートマップ画像である視差位置からのヒートマック画像とを用いて、3次元骨格を認識する。
図11は、実施例2にかかる視差情報の取得する説明する図である。図11に示すように、図11に示すように、学習装置10は、機械学習により、正面方向と視差画像のように正面方向から真横方向に移動した位置(視差位置)との2方向のヒートマップ画像を認識する学習モデルを学習する。つまり、学習装置10は、距離画像を説明変数、18枚の正面ヒートマットと視差画像のように真横に移動した位置から見た18枚の視差ヒートマップ画像を目的変数として、学習モデルを学習する。
そして、認識装置50は、演技者1の距離画像を学習済みの学習モデルに入力し、18枚の正面ヒートマットと18枚の視差ヒートマップ画像とを認識し、これらを用いて、演技者1の骨格位置を算出する。図12を用いて、実施例2にかかる処理を具体的に説明する。図12は、実施例2にかかる認識処理の流れを示すフローチャートである。なお、実施例2にかかる学習処理は、真上ヒートマップ画像と視差ヒートマップ画像との違いなので、同様の処理を実行するので、詳細な説明は省略する。
図12に示すように、認識装置50のヒートマップ認識部62は、事前に学習モデル54から学習済みの学習モデルを読み出して構築する(S301)。そして、認識処理の開始が指示されると(S302:Yes)、距離画像取得部61が、3Dレーザセンサ5等を用いて演技者1の距離画像を取得し(S303)、ヒートマップ認識部62が、学習済みの学習モデルに距離画像を入力して、各方向のヒートマップ画像を認識する(S304)。
この結果、ヒートマップ認識部62は、正面と真上の2方向の2次元ヒートマップ画像を18関節分認識し、18枚の正面ヒートマップ画像と18枚の視差ヒートマップ画像とを取得する(S305とS306)。
続いて、2次元算出部63は、18枚の正面ヒートマップ画像それぞれの最高値画素から画像上の2次元骨格位置を算出するとともに(S307)、18枚の視差ヒートマップ画像それぞれの最高値画素から画像上の2次元骨格位置を算出する(S308)。
その後、3次元算出部64は、視差画像を取得する際に予め設定した視差情報から、正面画像への透視投影情報として透視投影変換行列を算出する(S309)。例えば、3次元算出部64は、公知の様々な手法を用いることができる。例えば、3次元算出部64は、視野の水平角度や垂直角度、3Dレーダセンサから最前面までの距離や最奥面までの距離、画面の縦横比であるアスペクト比などを含む視差情報を用いて、視点をz軸上に置いてz軸に垂直な面に投影する透視投影変換行列を算出する。
そして、3次元算出部64は、透視投影変換行列を用いて、正面画像と視差画像の2次元骨格位置から18関節分の3次元骨格位置を算出する(S310)。なお、図12の各ステップは、矛盾がない範囲内で順序を変更することができる。
上述したように、上記学習装置10は、正面のヒートマップ画像と視差のヒートマップ画像を用いた学習を実行することができるので、競技の種類等によって、真上ヒートマップ画像を用いたり、視差ヒートマップ画像を用いたりすることができる。したがって、システムの汎用性や柔軟性を向上させることができる。なお、透視投影変換行列とは、実空間に存在する物体(3次元)を画像上(2次元)に投射するためのパラメータである。また、透視投影変換行列に限らず、一般的なステレオ手法などを用いることもできる。
さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。
[適用例]
上記実施例では、体操競技を例にして説明したが、これに限定されるものではなく、選手が一連の技を行って審判が採点する他の競技にも適用することができる。他の競技の一例としては、フィギュアスケート、新体操、チアリーディング、水泳の飛び込み、空手の型、モーグルのエアーなどがある。また、スポーツに限らず、トラック、タクシー、電車などの運転手の姿勢検出やパイロットの姿勢検出などにも適用することができる。
[骨格情報]
また、上記実施例では、18個の各関節の位置を学習する例を説明したが、これに限定されるものではなく、1個以上の関節を指定して学習することもできる。また、上記実施例では、骨格情報の一例として各関節の位置を例示して説明したが、これに限定されるものではなく、各関節の角度、手足の向き、顔の向きなど、予め定義できる情報であれば、様々な情報を採用することができる。
[数値や方向等]
上記実施例で用いた数値などがあくまで一例であり、実施例を限定するものではなく、任意に設定変更することができる。また、上記実施例では、2方向のヒートマップ画像を例示して説明したが、これに限定されるものではなく、3方向以上のヒートマップ画像を対象とすることもできる。
[仮想視点の相対的な位置関係を示す情報]
上記実施例では、基準視点のヒートマップ画像と、基準視点に対して任意の数値分平行移動、回転させた位置に仮定した仮想視点のヒートマップ画像とを使用して3次元の骨格位置を算出する例を説明したが、仮想視点の相対的な位置関係を示す情報であれば他の情報を用いることもでき、任意に設定した回転行列の値や平行移動を用いることができる。ここで、片方の仮想視点の座標系Aを基準に、もう一方の仮想視点の座標系Bを座標系Aと一致させるために必要な情報が、平行移動[X,Y,Z]と回転行列である。
実施例1の場合、「正面」は入力に与える距離画像そのものの視点で、これを基準に考えて、「真上」の「正面」に対する相対的な位置関係として、回転行列は、X軸に-90度回転となり、平行移動は、Z軸方向に距離画像から得られる重心のZ値、Y軸方向に距離画像から得られる重心のY値+αとなる。なお、αは、学習時にどの視点のヒートマップを学習したかに依存するので、例えば、学習時に真上ヒートマップ画像を人領域の重心の真上5700mm位置から見たヒートマップ画像として学習させた場合、α=5700mmとなる。すなわち、実施例1では、平行移動[0,α,重心Z]、回転[-90,0,0]となる。
実施例2の場合、「正面」は実施例1と変わらず入力に与える距離画像そのものの視点であり、これを基準に考えて、「視差位置」の「正面」に対する相対的な位置関係として、回転行列は、変化なし(=X,Y,Z軸どれに対しても回転0°)となり、平行移動は、「正面」から真横方向に移動した位置βとなる。なお、βは、学習時にどれだけ真横に移動した位置のヒートマップを学習させたかに依存するので、例えば、視差位置を正面に対してX軸正方向に100mm移動した位置を仮定してヒートマップを学習させた場合、平行移動は[100,0,0]となる。すなわち、実施例2では、平行移動[100,0,0]、回転[0,0,0]となる。
[システム]
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、学習装置10と認識装置50とを同じ装置で実現することもできる。また、3Dレーザセンサ5は、各装置に内蔵されていてもよく、各装置の外部装置として通信等で接続されていてもよい。
さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
[ハードウェア]
次に、学習装置10や認識装置50などのコンピュータのハードウェア構成について説明する。図13は、ハードウェア構成例を説明する図である。図13に示すように、コンピュータ100は、通信装置100a、HDD(Hard Disk Drive)100b、メモリ100c、プロセッサ100dを有する。また、図13に示した各部は、バス等で相互に接続される。
通信装置100aは、ネットワークインタフェースカードなどであり、他のサーバとの通信を行う。HDD100bは、図3に示した機能を動作させるプログラムやDBを記憶する。
プロセッサ100dは、図3に示した各処理部と同様の処理を実行するプログラムをHDD100b等から読み出してメモリ100cに展開することで、図3等で説明した各機能を実行するプロセスを動作させる。すなわち、このプロセスは、学習装置10や認識装置50が有する各処理部と同様の機能を実行する。具体的には、認識装置50を例にすると、プロセッサ100dは、距離画像取得部61、ヒートマップ認識部62、2次元算出部63、3次元算出部64等と同様の機能を有するプログラムをHDD100b等から読み出す。そして、プロセッサ100dは、距離画像取得部61、ヒートマップ認識部62、2次元算出部63、3次元算出部64等と同様の処理を実行するプロセスを実行する。なお、学習装置10についても同様のハードウェア構成を用いて処理することができる。
このように学習装置10または認識装置50は、プログラムを読み出して実行することで学習方法または認識方法を実行する情報処理装置として動作する。また、学習装置10または認識装置50は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、学習装置10または認識装置50によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。
5 3Dレーザセンサ
10 学習装置
11 通信部
12 記憶部
13 骨格定義DB
14 学習データDB
15 学習モデル
20 制御部
21 ヒートマップ生成部
22 学習部
50 認識装置
51 通信部
52 撮像部
53 記憶部
54 学習モデル
55 算出結果DB
60 制御部
61 距離画像取得部
62 ヒートマップ認識部
63 2次元算出部
64 3次元算出部
65 重心算出部
66 奥行き値算出部
67 骨格算出部

Claims (9)

  1. コンピュータが、
    被写体の距離画像から、前記被写体の複数の関節位置の尤度を複数方向から投影したヒートマップ画像を認識する学習モデルを取得し、
    処理対象の距離画像を前記学習モデルに入力して、前記複数方向それぞれのヒートマップ画像を取得し、
    前記複数方向それぞれのヒートマップ画像と前記複数方向の相対位置関係を示す情報とを用いて、前記被写体の前記複数の関節位置に関する3次元座標を算出し、
    前記複数の関節位置に関する3次元座標を含む骨格認識結果を、出力する
    処理を実行することを特徴とする骨格認識方法。
  2. 前記算出する処理において、前記ヒートマップ画像を用いて、前記複数方向それぞれから前記被写体を見た場合の前記被写体の関節位置の2次元座標を算出し、
    前記複数方向それぞれについて算出された前記複数の関節それぞれの関節位置の2次元座標と、前記距離画像とに基づき、前記3次元座標を算出する、ことを特徴とする請求項1に記載の骨格認識方法。
  3. 前記学習モデルは、予め撮像された被写体の距離画像と、予め定義された既知である複数の関節の位置情報とを用いて、前記距離画像に対応する複数方向のヒートマップ画像を生成し、前記予め撮像された被写体の距離画像を説明変数、生成された前記複数方向のヒートマップ画像を目的変数とする訓練データを用いて、学習する処理によって生成されたことを特徴とする請求項1に記載の骨格認識方法。
  4. 前記複数方向は、前記被写体に対する正面方向と前記被写体に対する真上方向であることを特徴とする請求項2に記載の骨格認識方法。
  5. 前記2次元座標を算出する処理は、前記正面方向からみた第一のヒートマップ画像を用いて、前記被写体を正面方向から見たときの前記被写体の骨格位置の2次元座標である第1の骨格位置を算出し、前記真上方向からみた第二のヒートマップ画像を用いて、前記被写体を真上方向から見たときの前記被写体の骨格位置の2次元座標である第2の骨格位置を算出し、
    前記3次元座標を算出する処理は、前記処理対象の距離画像から算出される前記被写体の重心と、前記第2の骨格位置とを用いて、関節数分の奥行き値を算出し、前記関節数分の奥行き値と、前記第1の骨格位置とを用いて、前記被写体の骨格位置の3次元座標を算出することを特徴とする請求項4に記載の骨格認識方法。
  6. 前記複数方向は、前記被写体に対する正面方向と、前記正面方向から横方向に移動した視差位置であることを特徴とする請求項2に記載の骨格認識方法。
  7. 前記2次元座標を算出する処理は、前記正面方向からみた第一のヒートマップ画像を用いて、前記被写体を正面方向から見たときの前記被写体の骨格位置の2次元座標である第1の骨格位置を算出し、前記視差位置からみた第二のヒートマップ画像を用いて、前記被写体を視差位置から見たときの前記被写体の骨格位置の2次元座標である第2の骨格位置を算出し、
    前記3次元座標を算出する処理は、前記視差位置から撮像する際に予め定められた設定値を含む視差情報と、前記第1の骨格位置と、前記第2の骨格位置とを用いて、前記被写体の骨格位置の3次元座標を算出することを特徴とする請求項6に記載の骨格認識方法。
  8. コンピュータに、
    被写体の距離画像から、前記被写体の複数の関節位置の尤度を複数方向から投影したヒートマップ画像を認識する学習モデルを取得し、
    処理対象の距離画像を前記学習モデルに入力して、前記複数方向それぞれのヒートマップ画像を取得し、
    前記複数方向それぞれのヒートマップ画像と前記複数方向の相対位置関係を示す情報とを用いて、前記被写体の前記複数の関節位置に関する3次元座標を算出し、
    前記複数の関節位置に関する3次元座標を含む骨格認識結果を、出力する
    処理を実行させることを特徴とする骨格認識プログラム。
  9. 学習装置と認識装置とを含む骨格認識システムにおいて、
    前記学習装置は、
    予め撮像された被写体の距離画像と、予め定義された複数の関節の位置情報とを用いて、前記被写体の複数の関節位置の尤度を複数方向から投影したヒートマップ画像を生成する生成部と、
    前記予め撮像された被写体の距離画像を説明変数、生成された前記複数方向のヒートマップ画像を目的変数とする訓練データを用いて、前記複数方向それぞれのヒートマップ画像を認識する学習モデルを学習する学習部と、を有し、
    前記認識装置は、
    前記学習モデルを取得する取得部と、
    処理対象の距離画像を前記学習モデルに入力して、前記複数方向それぞれのヒートマップ画像を取得する取得部と、
    前記複数方向それぞれのヒートマップ画像と前記複数方向の相対位置関係を示す情報とを用いて、前記被写体の前記複数の関節の位置に関する3次元座標を算出する算出部と、
    前記複数の関節の位置に関する3次元座標を含む骨格認識結果を、出力する出力部と、を有する
    ことを特徴とする骨格認識システム。
JP2021529879A 2019-07-04 2019-07-04 骨格認識方法、骨格認識プログラムおよび骨格認識システム Active JP7164045B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/026746 WO2021002025A1 (ja) 2019-07-04 2019-07-04 骨格認識方法、骨格認識プログラム、骨格認識システム、学習方法、学習プログラムおよび学習装置

Publications (3)

Publication Number Publication Date
JPWO2021002025A1 JPWO2021002025A1 (ja) 2021-01-07
JPWO2021002025A5 JPWO2021002025A5 (ja) 2022-02-03
JP7164045B2 true JP7164045B2 (ja) 2022-11-01

Family

ID=74101206

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021529879A Active JP7164045B2 (ja) 2019-07-04 2019-07-04 骨格認識方法、骨格認識プログラムおよび骨格認識システム

Country Status (3)

Country Link
US (1) US20220092302A1 (ja)
JP (1) JP7164045B2 (ja)
WO (1) WO2021002025A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112975993B (zh) * 2021-02-22 2022-11-25 北京国腾联信科技有限公司 一种机器人示教方法、装置、存储介质和设备
US20240202933A1 (en) * 2021-05-19 2024-06-20 Nippon Telegraph And Telephone Corporation Learning apparatus, estimation apparatus, learning model data generation method, estimation method and program
KR20220169005A (ko) * 2021-06-14 2022-12-26 주식회사 히타치하이테크 컴퓨터 시스템, 치수 계측 방법, 및 기억 매체
CN114066986B (zh) * 2022-01-11 2022-04-19 南昌虚拟现实研究院股份有限公司 三维坐标的确定方法、装置、电子设备及存储介质
CN115330753B (zh) * 2022-10-10 2022-12-20 博志生物科技(深圳)有限公司 椎骨识别方法、装置、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6589144B2 (ja) * 2014-10-30 2019-10-16 パナソニックIpマネジメント株式会社 姿勢推定方法および姿勢推定装置
JP6923789B2 (ja) * 2017-07-05 2021-08-25 富士通株式会社 情報処理プログラム、情報処理装置、情報処理方法、及び情報処理システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Adrian Bulat and Georgios Tzimiropoulos,Human pose estimation via Convolutional Part Heatmap Regression,[online],2016年09月06日,https://arxiv.org/abs/1609.01743

Also Published As

Publication number Publication date
US20220092302A1 (en) 2022-03-24
JPWO2021002025A1 (ja) 2021-01-07
WO2021002025A1 (ja) 2021-01-07

Similar Documents

Publication Publication Date Title
JP7164045B2 (ja) 骨格認識方法、骨格認識プログラムおよび骨格認識システム
JP7367764B2 (ja) 骨格認識方法、骨格認識プログラムおよび情報処理装置
EP4002198A1 (en) Posture acquisition method and device, and key point coordinate positioning model training method and device
WO2020054442A1 (ja) 関節位置の取得方法及び装置、動作の取得方法及び装置
US11948376B2 (en) Method, system, and device of generating a reduced-size volumetric dataset
US8737767B2 (en) Perceptually guided capture and stylization of 3D human figures
CN102609954B (zh) 对人类目标跟踪的确认分析
EP3605470A1 (en) Generating device, generating method, and program
US20110292036A1 (en) Depth sensor with application interface
CN109176512A (zh) 一种体感控制机器人的方法、机器人及控制装置
US11490062B2 (en) Information processing apparatus, information processing method, and storage medium
KR102450931B1 (ko) 이미지 정합 방법 및 연관된 모델 훈련 방법, 기기, 장치
CN113449570A (zh) 图像处理方法和装置
JP2003061936A (ja) 動立体モデル生成装置及び方法
WO2020145224A1 (ja) 映像処理装置、映像処理方法、及び映像処理プログラム
JP7318814B2 (ja) データ生成方法、データ生成プログラムおよび情報処理装置
CN115994944A (zh) 三维关键点预测方法、训练方法及相关设备
Zhang et al. Kinect-based Universal Range Sensor and its Application in Educational Laboratories.
Chang et al. Using line consistency to estimate 3D indoor Manhattan scene layout from a single image
JP7500333B2 (ja) 生成装置、生成方法、およびプログラム
JP2019197278A (ja) 画像処理装置、画像処理装置の制御方法およびプログラム
JP7272470B2 (ja) 運動認識方法、運動認識プログラムおよび情報処理装置
Schacter Multi-camera active-vision system reconfiguration for deformable object motion capture
JP2023011218A (ja) マップ情報生成装置、位置特定装置、マップ情報生成方法、位置特定方法、プログラム及び記録媒体
CN116958350A (zh) 一种三维点云骨骼运动模拟方法、介质及系统

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211102

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211102

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220920

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221003

R150 Certificate of patent or registration of utility model

Ref document number: 7164045

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150