JP7164045B2

JP7164045B2 - 骨格認識方法、骨格認識プログラムおよび骨格認識システム

Info

Publication number: JP7164045B2
Application number: JP2021529879A
Authority: JP
Inventors: 能久浅山
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-07-04
Filing date: 2019-07-04
Publication date: 2022-11-01
Anticipated expiration: 2039-07-04
Also published as: US20220092302A1; JPWO2021002025A1; WO2021002025A1

Description

本発明は、骨格認識方法、骨格認識プログラム、骨格認識システム、学習方法、学習プログラムおよび学習装置に関する。

体操や医療などの幅広い分野において、選手や患者などの人の骨格を認識することが行われている。近年では、カラー画像を用いて３次元の骨格を認識する技術や距離画像を用いて３次元の骨格を認識する技術が知られている。なお、骨格を認識するとは、複数の関節それぞれの３次元位置を推定する事である。

例えば、カラー画像を用いた骨格認識技術は、Coarse－to－Fine法を用いて、始めは画像からヒートマップ画像を認識することで関節の２次元位置を推定し、２段目は奥行き方向の分解能数を２枚に増やしたヒートマップ画像を認識する。このようにして、最終的に奥行き方向の分解能数を６４枚に増やしたヒートマップ画像を認識することで関節の３次元位置を推定し、全関節数分の３次元位置を推定することで３次元骨格を推定する。

また、距離画像を用いた骨格認識技術は、ランダムフォレスト法を用いて、距離画像から関節の２次元位置を推定し、予め関節毎に設定した計算式を用いて各関節の画素値から奥行き値を算出することで関節の３次元位置を推定する。

特開２０１５－２１１７６５号公報国際公開第２０１８／２０７３５１号特開２０１２－１２０６４７号公報

Georgios Pavlakos et al、"Coarse－to－Fine Volumetric Prediction for Single－Image ３D Human Pose"、CVPR 2017、26 July 2017． Jamie Shotton et al、"Real－Time Human Pose Recognition in Parts from Single Depth Images"、CVPR 2011．

例えば、カラー画像を用いた骨格認識技術では、奥行き方向の分解能を小さくするためには、段数を大きくする必要がある。しかし、従来技術に開示されているように分解能数が６４である場合には、±１ｍを６４個に分解すると、1領域で約３．２ｃｍとなり、奥行き方向の精度が低い。つまり、分解能が大きいので、高精度に認識することが困難である。また、３次元ボクセル空間に対して推定するので、メモリ量が膨大になり、現実的ではない。

また、距離画像を用いた骨格認識技術では、高精度に骨格を認識するために、それぞれの姿勢についての複数のモデルに分割して学習することが要求される。そして、複数のモデルを学習するために膨大な時間がかかる。よって、精度を高めるためには、多くの姿勢のモデルをいかにして準備するかということとなり、モデルの準備が十分でない場合、骨格認識の精度が低下する。また、部位が隠れている時に距離値がわからないので、正確な奥行き値を算出することができず、認識精度が低下する。

以上を踏まえると、これら従来技術では、骨格認識の精度が十分でなく、仮に十分な精度を得ようとすると、事前準備に膨大な時間を必要とするという問題があった。

そこで、一つの側面では、姿勢毎のモデルを準備することなく、骨格の認識精度を従来技術と比較して向上させることができる骨格認識方法、骨格認識プログラム、骨格認識システム、学習方法、学習プログラムおよび学習装置を提供することを目的とする。

第１の案では、骨格認識方法は、コンピュータが、被写体の距離画像から、前記被写体の複数の関節位置の尤度を複数方向から投影したヒートマップ画像を認識する学習モデルを取得する処理を実行する。骨格認識方法は、コンピュータが、処理対象の距離画像を前記学習モデルに入力して、前記複数方向それぞれのヒートマップ画像を取得する処理を実行する。骨格認識方法は、コンピュータが、前記複数方向それぞれのヒートマップ画像と前記複数方向の相対位置関係を示す情報とを用いて、前記被写体の前記複数の関節位置に関する３次元座標を算出する処理を実行する。骨格認識方法は、コンピュータが、前記複数の関節位置に関する３次元座標を含む骨格認識結果を、出力する処理を実行する。

一つの側面では、骨格の認識精度を向上させることができる。

図１は、実施例１にかかる認識装置を含むシステムの全体構成例を示す図である。図２は、実施例１にかかる学習処理および認識処理を説明する図である。図３は、実施例１にかかる学習装置と認識装置の機能構成を示す機能ブロック図である。図４は、骨格定義ＤＢに記憶される定義情報の例を示す図である。図５は、学習データの例を示す図である。図６は、距離画像とヒートマップ画像の一例を示す図である。図７は、算出結果ＤＢに記憶される情報の例を示す図である図８は、３次元の骨格算出イメージを説明する図である。図９は、実施例１にかかる学習処理の流れを示すフローチャートである。図１０は、実施例１にかかる認識処理の流れを示すフローチャートである。図１１は、実施例２にかかる視差情報の取得する説明する図である。図１２は、実施例２にかかる認識処理の流れを示すフローチャートである。図１３は、ハードウェア構成例を説明する図である。

以下に、本発明にかかる骨格認識方法、骨格認識プログラム、骨格認識システム、学習方法、学習プログラムおよび学習装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。

［全体構成］
図１は、実施例１にかかる認識装置を含むシステムの全体構成例を示す図である。図１に示すように、このシステムは、３Ｄレーザセンサ５、学習装置１０、認識装置５０、採点装置９０を有し、被写体である演技者１の３次元データを撮像し、骨格等を認識して正確な技の採点を行うシステムである。なお、本実施例では、一例として、体操競技における演技者の骨格情報を認識する例で説明する。また、本実施例では、骨格位置の２次元座標や２次元座標の骨格位置を、単に２次元骨格位置などと記載する場合がある。

一般的に、体操競技における現在の採点方法は、複数の採点者によって目視で行われているが、技の高度化に伴い、採点者の目視では採点が困難な場合が増加している。近年では、３Ｄレーザセンサ５を使った、採点競技の自動採点システムや採点支援システムが知られている。例えば、これらのシステムにおいては、３Ｄレーザセンサ５により選手の３次元データである距離画像を取得し、距離画像から選手の各関節の向きや各関節の角度などである骨格を認識する。そして、採点支援システムにおいては、骨格認識の結果を３Ｄモデルにより表示することで、採点者が、演技者の細部の状況を確認するなどにより、より正しい採点を実施することを支援する。また、自動採点システムにおいては、骨格認識の結果から、演技した技などを認識し、採点ルールに照らして採点を行う。

ここで、採点支援システムや自動採点システムにおいては、随時行われる演技を、タイムリーに採点支援または自動採点することが求められる。従来の距離画像やカラー画像から演技者の３次元骨格を認識する手法では、メモリ不足などによる処理時間の長時間化や骨格認識の精度低下を招く。

例えば、自動採点システムによる自動採点の結果を採点者へ提供し、採点者が自己の採点結果と比較する形態では、従来技術を用いた場合、採点者への情報提供が遅延する。さらに、骨格認識の精度が低下することで、続く技認識も誤ってしまう可能性があり、結果として技による決定される得点も誤ってしまう。

同様に、採点支援システムにおいて、演技者の関節の角度や位置を、３Ｄモデルを使って表示する際にも、表示までの時間が遅延したり、表示される角度等が正しくないという事態を生じうる。この場合には、この採点支援システムを利用した採点者による採点は、誤った採点となってしまう場合もある。

以上の通り、自動採点システムや採点支援システムにおける骨格認識の精度が悪かったり、処理に時間を要すると、採点ミスの発生や、採点時間の長時間化を招いてしまう。

そこで、実施例１にかかるシステムでは、３Ｄレーザセンサ５から得られた距離画像を用いた機械学習により、演技者１の部位が器具などの隠れている場合や隠れていない場合に関わらず、どのような姿勢であっても人の３次元骨格を、高速かつ高精度に認識する。

ここで、本実施例で説明する骨格認識は、距離画像と、２つのヒートマップそれぞれの仮想視点の相対的な位置関係を示す情報とを用いて、演技者１の骨格認識を実行する。実施例１では、入力に与える距離画像そのものの視点（基準視点）である正面方向のヒートマップ画像と、基準視点に対して任意の数値分平行移動および回転させた位置に仮定した仮想視点のヒートマップ画像である真上方向のヒートマック画像とを用いて、３次元骨格を認識する。

まず、図１におけるシステムを構成する各装置について説明する。３Ｄレーザセンサ５は、赤外線レーザ等を用いて対象物の距離を画素ごとに測定（センシング）するセンサ装置の一例である。距離画像には、各画素までの距離が含まれる。つまり、距離画像は、３Ｄレーザセンサ（深度センサ）５から見た被写体の深度を表す深度画像である。

学習装置１０は、骨格認識用の学習モデルを学習するコンピュータ装置の一例である。具体的には、学習装置１０は、事前に取得した距離画像や３次元の骨格位置情報などを学習データとして使用して、ディープラーニングなどの機械学習を用いて学習モデルを学習する。

認識装置５０は、３Ｄレーザセンサ５により測定された距離画像を用いて、演技者１の各関節の向きや位置等に関する骨格を認識するコンピュータ装置の一例である。具体的には、認識装置５０は、３Ｄレーザセンサ５により測定された距離画像を、学習装置１０によって学習された学習済みの学習モデルに入力し、学習モデルの出力結果に基づいて骨格を認識する。その後、認識装置５０は、認識された骨格を採点装置９０に出力する。なお、本実施例において、骨格認識の結果として得られる情報は、各関節の３次元位置に関する情報である。

採点装置９０は、認識装置５０により入力された認識結果情報を用いて、演技者の各関節の位置や向きから得られる動きの推移を特定し、演技者が演技した技の特定および採点を実行するコンピュータ装置の一例である。

ここで、学習処理について説明する。学習装置１０は、学習処理において、距離画像と当該距離画像における３次元の骨格位置情報とを利用する。そして、学習装置１０は、３次元の骨格位置情報から、被写体の複数の関節位置の尤度を複数方向から投影したヒートマップ画像を生成する。例えば、学習装置１０は、演技者を正面から見た正面方向のヒートマップ画像（以下では、正面ヒートマップやｘｙヒートマップなどと記載する場合がある）と演技者を真上から見た真上方向のヒートマップ画像（以下では、真上ヒートマップやｘｚヒートマップなどと記載する場合がある）とを生成する。そして、学習装置１０は、距離画像を説明変数、距離画像に対応付けられる２方向のヒートマップ画像を目的変数とする訓練データを用いて、学習モデルを学習する。

図２は、実施例１にかかる認識処理を説明する図である。図２に示すように、認識装置５０は、３Ｄレーザセンサ５により演技者１の距離画像を取得し、学習済みの学習モデルに距離画像を入力して、２方向の２次元ヒートマップ画像を関節数分認識する。そして、認識装置５０は、各方向の関節数分の２次元ヒートマップ画像から画像上の骨格位置の２次元座標を算出し、各方向の２次元の骨格位置と人領域の重心から、演技者１の骨格位置の３次元座標を算出する。

このように、実施例１にかかるシステムでは、機械学習により得られた学習モデルへの入力データは距離画像で、出力は、複数の関節それぞれについて、複数方向から見たヒートマップ画像である。実施例１に係るシステムは、関節数分の各方向のヒートマップ画像と学習モデルへの入力データとしても用いた距離画像とを用いて、演技者１の骨格を総合的に認識する。つまり、当該システムは、各関節の３次元の位置等に関する骨格認識結果を生成する。この結果、実施例１にかかるシステムでは、学習モデルは姿勢に依存せずに利用可能であるため、姿勢毎のモデルを準備する従来技術と比較して、姿勢毎のモデルを準備することなく、演技者１の骨格を高精度に認識することができる。

［機能構成］
図３は、実施例１にかかる学習装置１０と認識装置５０の機能構成を示す機能ブロック図である。なお、採点装置９０は、骨格情報を用いて、演技における技を認識し、演技者の演技を採点する装置である。

（学習装置１０の機能構成）
図３に示すように、学習装置１０は、通信部１１、記憶部１２、制御部２０を有する。通信部１１は、他の装置との間の通信を制御する処理部であり、例えば通信インタフェースなどである。例えば、通信部１１は、学習結果などを認識装置５０に出力する。

記憶部１２は、データや制御部２０が実行するプログラムなどを記憶する記憶装置の一例であり、例えばメモリやハードディスクなどである。この記憶部１２は、骨格定義ＤＢ１３、学習データＤＢ１４、学習モデル１５を記憶する。

骨格定義ＤＢ１３は、骨格モデル上の各関節を特定するための定義情報を記憶するデータベースである。ここで記憶される定義情報は、３Ｄレーザセンサによる３Ｄセンシングによって演技者ごとに測定してもよく、一般的な体系の骨格モデルを用いて定義してもよい。

図４は、骨格定義ＤＢ１３に記憶される定義情報の例を示す図である。図４に示すように、骨格定義ＤＢ１３は、公知の骨格モデルで特定される各関節をナンバリングした、１８個（０番から１７番）の定義情報を記憶する。例えば、図４に示すように、右肩関節（SHOULDER＿RIGHT）には７番が付与され、左肘関節（ELBOW＿LEFT）には５番が付与され、左膝関節（KNEE＿LEFT）には１１番が付与され、右股関節（HIP＿RIGHT）には１４番が付与される。ここで、実施例では、８番の右肩関節のＸ座標をＸ８、Ｙ座標をＹ８、Ｚ座標をＺ８と記載する場合がある。なお、例えば、Ｚ軸は、３Ｄレーザセンサ５から対象に向けた距離方向、Ｙ軸は、Ｚ軸に垂直な高さ方向、Ｘ軸は、水平方向をと定義することができる。

学習データＤＢ１４は、骨格を認識する学習モデルの学習に利用される学習データを記憶するデータベースである。図５は、学習データの例を示す図である。図５に示すように、学習データＤＢ１４は、「項番、画像情報、骨格情報」を対応付けて記憶する。

ここで記憶される「項番」は、学習データを識別する識別子である。「画像情報」は、関節などの位置が既知である距離画像のデータである。「骨格情報」は、骨格の位置情報であり、図４に示した１８個の各関節に対応する関節位置（３次元座標）である。図４の例では、距離画像である「画像データＡ１」には、ＨＥＡＤの座標「Ｘ３，Ｙ３，Ｚ３」などを含む１８個の関節の位置が既知であることを示す。

すなわち、画像情報が説明変数、骨格情報から生成される１８枚の正面ヒートマップ画像および１８枚の真上ヒートマップ画像が目的変数（正解ラベル）として、教師有学習に利用される。なお、方向は任意であるが、正面と真上のように、互いに視線方向が大きく異なる方向が、２以上、選択される。

学習モデル１５は、学習済みの学習モデルである。例えば、学習モデル１５は、機械学習等によって学習された、距離画像から１８枚の正面ヒートマップ画像と１８枚の真上ヒートマップ画像とを予測する学習モデルである。

制御部２０は、学習装置１０全体を司る処理部であり、例えばプロセッサなどである。制御部２０は、ヒートマップ生成部２１と学習部２２を有し、学習モデルの学習処理を実行する。なお、ヒートマップ生成部２１と学習部２２は、プロセッサが有する電子回路の一例やプロセッサが実行するプロセスの一例である。また、ヒートマップ生成部２１は、生成部に対応し、学習部２２は、学習部に対応する。

ヒートマップ生成部２１は、ヒートマップ画像を生成する処理部である。具体的には、ヒートマップ生成部２１は、学習データＤＢ１４に記憶される各骨格情報を用いて、１８個の関節それぞれについて、正面ヒートマップ画像と真上ヒートマップ画像を生成する。すなわち、ヒートマップ生成部２１は、各距離画像に対応付けられた骨格情報に含まれる、ある関節の３次元位置を用いて、当該関節の３次元位置を、正面と真上のそれぞれから見た平面へ投影する。そして、ヒートマップ生成部２１は、ある関節の存在確率を示すヒートマップ画像を生成する。なお、骨格定義ＤＢ１３に記憶される１８個の関節それぞれについて、正面と真上それぞれから見た平面へ投影した場合の２種類のヒートマップ画像が生成される。そして、学習データＤＢ１４に記憶される画像情報（距離画像）に、正解情報として、複数の関節それぞれについて生成された複数方向のヒートマップ画像が対応付けて保持される。

なお、ヒートマップ画像の生成には、公知の様々な手法を採用することができる。例えば、ヒートマップ生成部２１は、骨格情報に設定される座標位置を最も尤度（存在確率）の高い位置とし、その位置が半径Ｘｃｍを次に尤度の高い位置、さらにその位置から半径Ｘｃｍを次に尤度の高い位置として、ヒートマップ画像を生成する。なお、Ｘは閾値であり、任意の数字である。

学習部２２は、距離画像から２方向のヒートマップ画像を出力する学習モデルを学習する処理部である。具体的には、学習部２２は、学習データＤＢ１４に記憶される画像情報を説明変数、ヒートマップ生成部２１により生成された正面ヒートマップ画像および真上ヒートマップ画像を目的変数とする訓練データを用いて、学習モデルを学習する。

例えば、学習部２２は、距離画像のデータを、入力データとしてニューラルネットワークに入力する。そして、学習部２２は、ニューラルネットワークの出力として、各関節のヒートマップ画像を取得する。その後、学習部３５は、ニューラルネットワークの出力である１８枚の正面ヒートマップ画像および１８枚の真上ヒートマップ画像と、ヒートマップ生成部２１により生成された１８枚の正面ヒートマップ画像および１８枚の真上ヒートマップ画像とを比較する。そして、学習部２２は、各関節の誤差が最小となるように、誤差逆伝搬法などを用いてニューラルネットワークを学習する。

ここで、訓練データ（距離画像とヒートマップ画像群のセット）について説明する。図６は、距離画像とヒートマップ画像の一例を示す図である。図６の（ａ）に示すように、距離画像は、３Ｄレーザセンサ５から画素までの距離が含まれるデータであり、３Ｄレーザセンサ５からの距離が近いほど、濃い色で表示される。また、図６の（ｂ）に示すように、ヒートマップ画像は、関節ごとに生成され、各関節位置の尤度を可視化した画像であって、最も尤度が高い座標位置ほど、濃い色で表示される。なお、通常、ヒートマップ画像では、人物の形は表示されないが、図６では、説明をわかりやすくするために、人物の形を図示するが、画像の表示形式を限定するものではない。

また、学習部２２は、学習が終了すると、ニューラルネットワークにおける各種パラメータが学習された学習モデル１５を学習結果として、記憶部１２に格納する。なお、学習を終了するタイミングは、所定数以上の学習データを用いた学習が完了した時点や誤差が閾値未満となった時点など、任意に設定することができる。また、ここでは、ニューラルネットワークを用いた学習モデルを例にして説明したが、これに限定されるものではなく、ＣＮＮ（Convolutional Neural Network）など他の機械学習を用いることができる。また、学習モデル１５ではなく、学習されたパラメータを記憶部１２に格納することもできる。

（認識装置５０の機能構成）
図３に示すように、認識装置５０は、通信部５１、撮像部５２、記憶部５３、制御部６０を有する。通信部５１は、他の装置との間の通信を制御する処理部であり、例えば通信インタフェースなどである。例えば、通信部５１は、学習装置１０から学習済みの学習モデルを取得して記憶部５３に保存し、演技者１の骨格情報を採点装置９０に送信する。

撮像部５２は、演技者１の距離画像を撮像する処理部であり、例えば３Ｄレーザセンサ５を制御して、演技者１を撮像する。例えば、撮像部５２は、演技者１の距離画像を撮像し、撮像した距離画像のデータを制御部６０に出力する。なお、撮像部５２は、認識装置５０の外にあってもよい。

記憶部５３は、データや制御部６０が実行するプログラムなどを記憶する記憶装置の一例であり、例えばメモリやハードディスクなどである。この記憶部５３は、学習モデル５４、算出結果ＤＢ５５を記憶する。なお、記憶部５３は、学習装置１０の骨格定義ＤＢ１３に記憶される骨格の定義情報を記憶することもできる。

学習モデル５４は、学習装置１０により学習された学習モデルを記憶するデータベースである。この学習モデル５４は、学習モデル１５と同様の情報を記憶するので、詳細な説明は省略する。

算出結果ＤＢ５５は、後述する制御部６０によって算出された各関節の情報を記憶するデータベースである。具体的には、算出結果ＤＢ５５は、各距離画像に含まれる演技者１の骨格認識の結果を記憶する。図７は、算出結果ＤＢ５５に記憶される情報の例を示す図である。図７に示すように、算出結果ＤＢ５５は、「演技者ＩＤ、算出結果」を対応付けて記憶する。ここで記憶される「演技者ＩＤ」は、演技者を識別する識別子であり、「算出結果」は、図４に示した各関節の算出結果である。図７の例では、演技者（ＩＤ０１）に対して、ＨＥＡＤの座標として（Ｘ１，Ｙ１，Ｚ１）が算出されたことを示す。なお、骨格認識の結果は、演技された時間や演技者など対応付けることができる。

制御部６０は、認識装置５０全体を司る処理部であり、例えばプロセッサなどである。この制御部６０は、距離画像取得部６１、ヒートマップ認識部６２、２次元算出部６３、３次元算出部６４を有し、学習モデルを用いた骨格認識を実行する。なお、距離画像取得部６１、ヒートマップ認識部６２、２次元算出部６３、３次元算出部６４は、プロセッサが有する電子回路の一例やプロセッサが実行するプロセスの一例である。また、ヒートマップ認識部６２は、取得部に対応し、２次元算出部６３は、第１算出部に対応し、３次元算出部６４は、第２算出部に対応する。

距離画像取得部６１は、演技者１の距離画像を取得する処理部である。例えば、距離画像取得部６１は、３Ｄレーザセンサ５により撮像された距離画像を撮像部５２から取得し、３次元算出部６４およびヒートマップ認識部６２などに出力する。

ヒートマップ認識部６２は、学習装置１０により学習された学習済みの学習モデルを用いて、距離画像からヒートマップ画像を認識する処理部である。例えば、ヒートマップ認識部６２は、記憶部５３から、ニューラルネットワークを用いた学習済みの学習モデル５４を取得する。

続いて、ヒートマップ認識部６２は、距離画像取得部６１から取得した距離画像を、学習済みの学習モデルに入力し、出力結果として、１８個の関節それぞれに関する正面ヒートマップ画像と、１８個の関節それぞれに関する真上ヒートマップ画像を取得する。そして、ヒートマップ認識部６２は、このようにして認識した各ヒートマップ画像を、２次元算出部６３に出力する。

２次元算出部６３は、２次元ヒートマップ画像から画像上の骨格を算出する処理部である。例えば、２次元算出部６３は、ヒートマップ認識部６２から、１８個の関節に関する正面ヒートマップ画像と１８個の関節に関する真上ヒートマップ画像とを取得する。そして、２次元算出部６３は、各ヒートマップ画像の最高値画素から各関節の位置を特定し、画像上の骨格位置の２次元座標を算出して、３次元算出部６４に出力する。

つまり、２次元算出部６３は、１８個の関節に関する正面ヒートマップ画像それぞれについて、ヒートマップ画像の最高値の画素を特定して、各関節の画像上の位置を、個別に特定する。そして、２次元算出部６３は、各正面ヒートマップ画像から特定された関節位置を組み合わせて、演技者１を正面から見た場合の１８個の関節位置を特定する。

同様に、２次元算出部６３は、１８個の関節に関する真上ヒートマップ画像それぞれについて、ヒートマップ画像の最高値の画素を特定して、各関節の画像上の位置を、個別に特定する。そして、２次元算出部６３は、各真上ヒートマップ画像から特定された関節位置を組み合わせて、演技者１を真上から見た場合の１８個の関節位置を特定する。

３次元算出部６４は、重心算出部６５、奥行き値算出部６６、骨格算出部６７を有し、正面方向および真上方向の２次元骨格位置と人領域の重心とを用いて、３次元骨格位置を算出する処理部である。

ここで、３次元の骨格算出時のイメージについて説明する。図８は、３次元の骨格算出イメージを説明する図である。図８に示すように、本実施例において撮像される距離画像は、演技者の水平方向をｘ軸、垂直方向をｙ軸、奥行き方向をｚ軸とした場合のｘｙ軸方向の距離画像（単に距離画像またはｘｙ距離画像と記載する場合がある）などである。

また、ヒートマップ認識部６２により認識される１８個の関節に関する正面ヒートマップ画像は、演技者１を正面から見た場合の画像であり、ｘ軸－ｙ軸方向から撮像されるｘｙヒートマップ画像である。また、ヒートマップ認識部６２により認識される１８個の関節に関する真上ヒートマップ画像は、演技者１を真上から見た場合の画像であり、ｘ軸－ｚ軸方向から撮像されるｘｚヒートマップ画像である。

３次元算出部６４は、距離画像に映る人領域の重心（以下、人重心と記載する場合がある）を算出し、人重心とｘｚヒートマップ画像上の２次元骨格位置とから１８関節分の奥行き値を算出する。そして、３次元算出部６４は、１８関節分の奥行き値とｘｙヒートマップ画像上の２次元骨格位置とを用いて３次元骨格位置（骨格位置の３次元座標）を算出する。

重心算出部６５は、距離画像から人領域の重心を算出する処理部である。例えば、重心算出部６５は、距離画像取得部６１から演技者の距離画像を取得する。ここで、距離画像には、人が映っている画素が含まれており、各画素には、３Ｄイメージセンサから人（演技者１）までのＺ値が格納されている。Ｚ値とは、距離画像上で人が映っている画素の画素値である。なお、一般的には、距離画像の距離の情報を、ｘ，ｙ，ｚの直交座標の座標軸で表す座標値に変換した値のうち、３Ｄイメージセンサから被写体へ向かう方向であるｚ軸の値をＺ値という。

そこで、重心算出部６５は、３Ｄイメージセンサから距離が閾値未満であり、画素値が一定値以上である各画素を特定する。つまり、重心算出部６５は、距離画像上で演技者１を特定する。そして、重心算出部６５は、特定した各画素の画素値の平均値を算出し、当該平均値を人領域の重心として、奥行き値算出部６６等に出力する。

奥行き値算出部６６は、人領域の重心と演技者１を真上から見た画像である真上画像上の２次元の骨格位置とを用いて、１８関節分の奥行き値を算出する処理部である。例えば、奥行き値算出部６６は、ヒートマップ認識部６２から取得した１８個の関節に関する各真上ヒートマップ画像（ｘｚヒートマップ画像）から、画素値が一定値以上である各画素を特定し、画像上で演技者が映っている領域を特定する。そして、奥行き値算出部６６は、各ｘｙヒートマップ画像上で特定された人領域の２次元座標（ｘ，ｚ）を算出する。

ここで、距離画像は、人の重心が画像の中心にくるように、例えば１ピクセル＝１０ｍｍとなるように作成される。したがって、奥行き値算出部６６は、各ｘｙヒートマップ画像上で特定された人領域の２次元座標（ｘ，ｚ）のｚ値が距離画像の中心からどれだけ離れているかにより、３次元空間中のＺ値を算出することができる。

例えば、奥行き値算出部６６は、画像サイズを（３２０，３２０）、画像中心を（１６０，１６０）、人領域の重心を６０００ｍｍ、頭のｚ値を２００とする例で説明すると、３次元空間中のＺ値を「（２００－１６０）×１０＋６０００＝６４００ｍｍ」と算出する。そして、奥行き値算出部６６は、算出した３次元空間中のＺ値を、骨格算出部６７に出力する。

骨格算出部６７は、奥行き値算出部６６により算出された１８関節分の奥行き値と、ヒートマップ認識部６２により認識されたｘｙヒートマップ画像上の２次元骨格位置とを用いて、演技者１の骨格位置の３次元座標を算出する処理部である。

具体的には、骨格算出部６７は、奥行き値算出部６６により算出された１８関節分の奥行き値である３次元空間中のＺ値を取得する。そして、骨格算出部６７は、上記手法を用いて、ｘｙヒートマップ画像から画像上の（ｘ，ｙ）の２次元座標を算出し、２次元座標（ｘ，ｙ）から３次元空間中のベクトルを算出する。

例えば、３Ｄレーザセンサ５のような３次元センサで撮像された距離画像は、センサ原点から各画素を通る３次元ベクトル情報を有していることから、この情報を用いることにより、各画素に写っている物体の３次元座標値が算出できる。そして、骨格算出部６７は、ｘｙヒートマップ画像に（ｘ，ｙ）座標の３次元ベクトルを（ｎｏｒｍＸ，ｎｏｒｍＹ，ｎｏｒｍＺ）、奥行き値算出部６６により算出されたその座標のＺ値を「ｐｉｘｅｌＺ」とすると、式（１）を用いることにより、（ｘ，ｙ）座標に映っている物体（演技者１）の（Ｘ，Ｙ，Ｚ）を算出することができる。このようにして、骨格算出部６７は、各画素に写っている物体、すなわち演技者１の各関節の３次元座標（Ｘ，Ｙ，Ｚ）を算出して採点装置９０に送信する。なお、採点装置９０には、各関節の３次元座標とともに、フレーム番号や時刻情報などの情報が対応付けて、出力されても良い。

［処理の流れ］
次に、上述した学習装置１０が実行する学習処理と、認識装置５０が実行する認識処理のそれぞれについて説明する。

（学習処理）
図９は、実施例１にかかる学習処理の流れを示すフローチャートである。図９に示すように、学習装置１０のヒートマップ生成部２１は、学習処理の開始が指示されると（Ｓ１０１：Ｙｅｓ）、学習データＤＢ１４から学習データを取得し（Ｓ１０２）、学習データ内の骨格情報を取得する（Ｓ１０３）。

続いて、ヒートマップ生成部２１は、骨格情報を用いて、１８個の関節それぞれに対して正面ヒートマップ画像と真上ヒートマップ画像とを生成し、合計３６枚のヒートマップ画像を生成する（Ｓ１０４）。

その後、学習部２２は、３６枚のヒートマップ画像と距離画像を訓練データとして、学習モデルを学習する（Ｓ１０５）。そして、学習部２２は、精度等により学習が十分ではないと判定される場合（Ｓ１０６：Ｎｏ）、次の学習データについてＳ１０２以降を実行する。

一方、学習部２２は、精度等により学習が十分であると判定される場合（Ｓ１０６：Ｙｅｓ）、学習済みの学習モデルを学習モデル１５に格納する（Ｓ１０７）。なお、学習モデルは、学習装置１０から認識装置５０へ送信される。また、図９の各ステップは、矛盾がない範囲内で順序を変更することができる。

（認識処理）
図１０は、実施例１にかかる認識処理の流れを示すフローチャートである。図１０に示すように、認識装置５０のヒートマップ認識部６２は、事前に学習モデル５４から学習済みの学習モデルを読み出して構築する（Ｓ２０１）。

そして、認識処理の開始が指示されると（Ｓ２０２：Ｙｅｓ）、距離画像取得部６１が、３Ｄレーザセンサ５等を用いて演技者１の距離画像を取得し（Ｓ２０３）、ヒートマップ認識部６２が、学習済みの学習モデルに距離画像を入力して、各方向のヒートマップ画像を認識する（Ｓ２０４）。

この結果、ヒートマップ認識部６２は、正面と真上の２方向の２次元ヒートマップ画像を１８関節分認識し、１８枚の正面ヒートマップ画像と１８枚の真上ヒートマップ画像とを取得する（Ｓ２０５とＳ２０６）。

続いて、２次元算出部６３は、１８枚の正面ヒートマップ画像それぞれにおいて、尤度が最高値である画素から画像上の２次元骨格位置を算出するとともに（Ｓ２０７）、１８枚の真上ヒートマップ画像それぞれにおいて、尤度が最高である画素から画像上の２次元骨格位置を算出する（Ｓ２０８）。

そして、３次元算出部６４は、距離画像に映る人領域の重心（人重心）を算出し（Ｓ２０９）、人重心と真上画像上の２次元骨格位置から１８関節分の奥行き値を算出する（Ｓ２１０）。その後、３次元算出部６４は、１８関節分の奥行き値と演技者１を正面からみた画像である正面画像上の２次元骨格位置を用いて、演技者１の１８関節分の３次元骨格位置を算出する（Ｓ２１１）。なお、図１０の各ステップは、矛盾がない範囲内で順序を変更することができる。

［効果］
上述したように、実施例１にかかるシステムでは、３Ｄレーザセンサ５から得られた距離画像から複数方向から見たヒートマップを取得できるため、ある方向から見たときに演技者１の体の一部が器具などに隠れていたとしても、各関節の３次元位置を認識することができる。つまり、骨格認識の精度を向上させることができる。さらに、距離画像からヒートマップを得るための学習モデルは、姿勢ごとに準備する必要がない。よって、どのような姿勢であっても、演技者１の３次元骨格を認識することができる。さらに、本実施例に係るシステムは、従来技術と比較して処理負荷が低いため、骨格認識結果を得るまでの処理速度を向上させることができる。したがって、骨格認識結果を利用した採点競技の自動採点システムや採点支援システムにおいて、自動採点の精度や、表示する３Ｄモデルの精度を向上させることができる。さらには、これらのシステムの処理時間を短縮することができる。

ところで、実施例１では、２つのヒートマップそれぞれの仮想視点の相対的な位置関係を示す情報として、正面ヒートマップ画像および真上ヒートマップ画像を用いる例を説明したが、これに限定されるものではなく、他の方向のヒートマップ画像を用いることもできる。そこで、実施例２では、一例として、入力に与える距離画像そのものの視点（基準視点）である正面方向のヒートマップ画像と、基準視点に対して任意の数値分平行移動および回転させた位置に仮定した仮想視点のヒートマップ画像である視差位置からのヒートマック画像とを用いて、３次元骨格を認識する。

図１１は、実施例２にかかる視差情報の取得する説明する図である。図１１に示すように、図１１に示すように、学習装置１０は、機械学習により、正面方向と視差画像のように正面方向から真横方向に移動した位置（視差位置）との２方向のヒートマップ画像を認識する学習モデルを学習する。つまり、学習装置１０は、距離画像を説明変数、１８枚の正面ヒートマットと視差画像のように真横に移動した位置から見た１８枚の視差ヒートマップ画像を目的変数として、学習モデルを学習する。

そして、認識装置５０は、演技者１の距離画像を学習済みの学習モデルに入力し、１８枚の正面ヒートマットと１８枚の視差ヒートマップ画像とを認識し、これらを用いて、演技者１の骨格位置を算出する。図１２を用いて、実施例２にかかる処理を具体的に説明する。図１２は、実施例２にかかる認識処理の流れを示すフローチャートである。なお、実施例２にかかる学習処理は、真上ヒートマップ画像と視差ヒートマップ画像との違いなので、同様の処理を実行するので、詳細な説明は省略する。

図１２に示すように、認識装置５０のヒートマップ認識部６２は、事前に学習モデル５４から学習済みの学習モデルを読み出して構築する（Ｓ３０１）。そして、認識処理の開始が指示されると（Ｓ３０２：Ｙｅｓ）、距離画像取得部６１が、３Ｄレーザセンサ５等を用いて演技者１の距離画像を取得し（Ｓ３０３）、ヒートマップ認識部６２が、学習済みの学習モデルに距離画像を入力して、各方向のヒートマップ画像を認識する（Ｓ３０４）。

この結果、ヒートマップ認識部６２は、正面と真上の２方向の２次元ヒートマップ画像を１８関節分認識し、１８枚の正面ヒートマップ画像と１８枚の視差ヒートマップ画像とを取得する（Ｓ３０５とＳ３０６）。

続いて、２次元算出部６３は、１８枚の正面ヒートマップ画像それぞれの最高値画素から画像上の２次元骨格位置を算出するとともに（Ｓ３０７）、１８枚の視差ヒートマップ画像それぞれの最高値画素から画像上の２次元骨格位置を算出する（Ｓ３０８）。

その後、３次元算出部６４は、視差画像を取得する際に予め設定した視差情報から、正面画像への透視投影情報として透視投影変換行列を算出する（Ｓ３０９）。例えば、３次元算出部６４は、公知の様々な手法を用いることができる。例えば、３次元算出部６４は、視野の水平角度や垂直角度、３Ｄレーダセンサから最前面までの距離や最奥面までの距離、画面の縦横比であるアスペクト比などを含む視差情報を用いて、視点をｚ軸上に置いてｚ軸に垂直な面に投影する透視投影変換行列を算出する。

そして、３次元算出部６４は、透視投影変換行列を用いて、正面画像と視差画像の２次元骨格位置から１８関節分の３次元骨格位置を算出する（Ｓ３１０）。なお、図１２の各ステップは、矛盾がない範囲内で順序を変更することができる。

上述したように、上記学習装置１０は、正面のヒートマップ画像と視差のヒートマップ画像を用いた学習を実行することができるので、競技の種類等によって、真上ヒートマップ画像を用いたり、視差ヒートマップ画像を用いたりすることができる。したがって、システムの汎用性や柔軟性を向上させることができる。なお、透視投影変換行列とは、実空間に存在する物体（３次元）を画像上（２次元）に投射するためのパラメータである。また、透視投影変換行列に限らず、一般的なステレオ手法などを用いることもできる。

さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。

［適用例］
上記実施例では、体操競技を例にして説明したが、これに限定されるものではなく、選手が一連の技を行って審判が採点する他の競技にも適用することができる。他の競技の一例としては、フィギュアスケート、新体操、チアリーディング、水泳の飛び込み、空手の型、モーグルのエアーなどがある。また、スポーツに限らず、トラック、タクシー、電車などの運転手の姿勢検出やパイロットの姿勢検出などにも適用することができる。

［骨格情報］
また、上記実施例では、１８個の各関節の位置を学習する例を説明したが、これに限定されるものではなく、１個以上の関節を指定して学習することもできる。また、上記実施例では、骨格情報の一例として各関節の位置を例示して説明したが、これに限定されるものではなく、各関節の角度、手足の向き、顔の向きなど、予め定義できる情報であれば、様々な情報を採用することができる。

［数値や方向等］
上記実施例で用いた数値などがあくまで一例であり、実施例を限定するものではなく、任意に設定変更することができる。また、上記実施例では、２方向のヒートマップ画像を例示して説明したが、これに限定されるものではなく、３方向以上のヒートマップ画像を対象とすることもできる。

［仮想視点の相対的な位置関係を示す情報］
上記実施例では、基準視点のヒートマップ画像と、基準視点に対して任意の数値分平行移動、回転させた位置に仮定した仮想視点のヒートマップ画像とを使用して３次元の骨格位置を算出する例を説明したが、仮想視点の相対的な位置関係を示す情報であれば他の情報を用いることもでき、任意に設定した回転行列の値や平行移動を用いることができる。ここで、片方の仮想視点の座標系Ａを基準に、もう一方の仮想視点の座標系Ｂを座標系Ａと一致させるために必要な情報が、平行移動［Ｘ，Ｙ，Ｚ］と回転行列である。

実施例１の場合、「正面」は入力に与える距離画像そのものの視点で、これを基準に考えて、「真上」の「正面」に対する相対的な位置関係として、回転行列は、Ｘ軸に－９０度回転となり、平行移動は、Ｚ軸方向に距離画像から得られる重心のＺ値、Ｙ軸方向に距離画像から得られる重心のＹ値＋αとなる。なお、αは、学習時にどの視点のヒートマップを学習したかに依存するので、例えば、学習時に真上ヒートマップ画像を人領域の重心の真上５７００ｍｍ位置から見たヒートマップ画像として学習させた場合、α＝５７００ｍｍとなる。すなわち、実施例１では、平行移動［０，α，重心Ｚ］、回転［－９０，０，０］となる。

実施例２の場合、「正面」は実施例１と変わらず入力に与える距離画像そのものの視点であり、これを基準に考えて、「視差位置」の「正面」に対する相対的な位置関係として、回転行列は、変化なし（＝Ｘ,Ｙ,Ｚ軸どれに対しても回転０°）となり、平行移動は、「正面」から真横方向に移動した位置βとなる。なお、βは、学習時にどれだけ真横に移動した位置のヒートマップを学習させたかに依存するので、例えば、視差位置を正面に対してＸ軸正方向に１００ｍｍ移動した位置を仮定してヒートマップを学習させた場合、平行移動は［１００，０，０］となる。すなわち、実施例２では、平行移動［１００，０，０］、回転［０，０，０］となる。

［システム］
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、学習装置１０と認識装置５０とを同じ装置で実現することもできる。また、３Ｄレーザセンサ５は、各装置に内蔵されていてもよく、各装置の外部装置として通信等で接続されていてもよい。

さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

［ハードウェア］
次に、学習装置１０や認識装置５０などのコンピュータのハードウェア構成について説明する。図１３は、ハードウェア構成例を説明する図である。図１３に示すように、コンピュータ１００は、通信装置１００ａ、ＨＤＤ（Hard Disk Drive）１００ｂ、メモリ１００ｃ、プロセッサ１００ｄを有する。また、図１３に示した各部は、バス等で相互に接続される。

通信装置１００ａは、ネットワークインタフェースカードなどであり、他のサーバとの通信を行う。ＨＤＤ１００ｂは、図３に示した機能を動作させるプログラムやＤＢを記憶する。

プロセッサ１００ｄは、図３に示した各処理部と同様の処理を実行するプログラムをＨＤＤ１００ｂ等から読み出してメモリ１００ｃに展開することで、図３等で説明した各機能を実行するプロセスを動作させる。すなわち、このプロセスは、学習装置１０や認識装置５０が有する各処理部と同様の機能を実行する。具体的には、認識装置５０を例にすると、プロセッサ１００ｄは、距離画像取得部６１、ヒートマップ認識部６２、２次元算出部６３、３次元算出部６４等と同様の機能を有するプログラムをＨＤＤ１００ｂ等から読み出す。そして、プロセッサ１００ｄは、距離画像取得部６１、ヒートマップ認識部６２、２次元算出部６３、３次元算出部６４等と同様の処理を実行するプロセスを実行する。なお、学習装置１０についても同様のハードウェア構成を用いて処理することができる。

このように学習装置１０または認識装置５０は、プログラムを読み出して実行することで学習方法または認識方法を実行する情報処理装置として動作する。また、学習装置１０または認識装置５０は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、学習装置１０または認識装置５０によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。

５３Ｄレーザセンサ
１０学習装置
１１通信部
１２記憶部
１３骨格定義ＤＢ
１４学習データＤＢ
１５学習モデル
２０制御部
２１ヒートマップ生成部
２２学習部
５０認識装置
５１通信部
５２撮像部
５３記憶部
５４学習モデル
５５算出結果ＤＢ
６０制御部
６１距離画像取得部
６２ヒートマップ認識部
６３２次元算出部
６４３次元算出部
６５重心算出部
６６奥行き値算出部
６７骨格算出部

Claims

コンピュータが、
被写体の距離画像から、前記被写体の複数の関節位置の尤度を複数方向から投影したヒートマップ画像を認識する学習モデルを取得し、
処理対象の距離画像を前記学習モデルに入力して、前記複数方向それぞれのヒートマップ画像を取得し、
前記複数方向それぞれのヒートマップ画像と前記複数方向の相対位置関係を示す情報とを用いて、前記被写体の前記複数の関節位置に関する３次元座標を算出し、
前記複数の関節位置に関する３次元座標を含む骨格認識結果を、出力する
処理を実行することを特徴とする骨格認識方法。
前記算出する処理において、前記ヒートマップ画像を用いて、前記複数方向それぞれから前記被写体を見た場合の前記被写体の関節位置の２次元座標を算出し、
前記複数方向それぞれについて算出された前記複数の関節それぞれの関節位置の２次元座標と、前記距離画像とに基づき、前記３次元座標を算出する、ことを特徴とする請求項１に記載の骨格認識方法。
前記学習モデルは、予め撮像された被写体の距離画像と、予め定義された既知である複数の関節の位置情報とを用いて、前記距離画像に対応する複数方向のヒートマップ画像を生成し、前記予め撮像された被写体の距離画像を説明変数、生成された前記複数方向のヒートマップ画像を目的変数とする訓練データを用いて、学習する処理によって生成されたことを特徴とする請求項１に記載の骨格認識方法。
前記複数方向は、前記被写体に対する正面方向と前記被写体に対する真上方向であることを特徴とする請求項２に記載の骨格認識方法。
前記２次元座標を算出する処理は、前記正面方向からみた第一のヒートマップ画像を用いて、前記被写体を正面方向から見たときの前記被写体の骨格位置の２次元座標である第１の骨格位置を算出し、前記真上方向からみた第二のヒートマップ画像を用いて、前記被写体を真上方向から見たときの前記被写体の骨格位置の２次元座標である第２の骨格位置を算出し、
前記３次元座標を算出する処理は、前記処理対象の距離画像から算出される前記被写体の重心と、前記第２の骨格位置とを用いて、関節数分の奥行き値を算出し、前記関節数分の奥行き値と、前記第１の骨格位置とを用いて、前記被写体の骨格位置の３次元座標を算出することを特徴とする請求項４に記載の骨格認識方法。
前記複数方向は、前記被写体に対する正面方向と、前記正面方向から横方向に移動した視差位置であることを特徴とする請求項２に記載の骨格認識方法。
前記２次元座標を算出する処理は、前記正面方向からみた第一のヒートマップ画像を用いて、前記被写体を正面方向から見たときの前記被写体の骨格位置の２次元座標である第１の骨格位置を算出し、前記視差位置からみた第二のヒートマップ画像を用いて、前記被写体を視差位置から見たときの前記被写体の骨格位置の２次元座標である第２の骨格位置を算出し、
前記３次元座標を算出する処理は、前記視差位置から撮像する際に予め定められた設定値を含む視差情報と、前記第１の骨格位置と、前記第２の骨格位置とを用いて、前記被写体の骨格位置の３次元座標を算出することを特徴とする請求項６に記載の骨格認識方法。
コンピュータに、
被写体の距離画像から、前記被写体の複数の関節位置の尤度を複数方向から投影したヒートマップ画像を認識する学習モデルを取得し、
処理対象の距離画像を前記学習モデルに入力して、前記複数方向それぞれのヒートマップ画像を取得し、
前記複数方向それぞれのヒートマップ画像と前記複数方向の相対位置関係を示す情報とを用いて、前記被写体の前記複数の関節位置に関する３次元座標を算出し、
前記複数の関節位置に関する３次元座標を含む骨格認識結果を、出力する
処理を実行させることを特徴とする骨格認識プログラム。
学習装置と認識装置とを含む骨格認識システムにおいて、
前記学習装置は、
予め撮像された被写体の距離画像と、予め定義された複数の関節の位置情報とを用いて、前記被写体の複数の関節位置の尤度を複数方向から投影したヒートマップ画像を生成する生成部と、
前記予め撮像された被写体の距離画像を説明変数、生成された前記複数方向のヒートマップ画像を目的変数とする訓練データを用いて、前記複数方向それぞれのヒートマップ画像を認識する学習モデルを学習する学習部と、を有し、
前記認識装置は、
前記学習モデルを取得する取得部と、
処理対象の距離画像を前記学習モデルに入力して、前記複数方向それぞれのヒートマップ画像を取得する取得部と、
前記複数方向それぞれのヒートマップ画像と前記複数方向の相対位置関係を示す情報とを用いて、前記被写体の前記複数の関節の位置に関する３次元座標を算出する算出部と、
前記複数の関節の位置に関する３次元座標を含む骨格認識結果を、出力する出力部と、を有する
ことを特徴とする骨格認識システム。