JP7489247B2

JP7489247B2 - プログラム、情報処理方法、情報処理装置及びモデル生成方法

Info

Publication number: JP7489247B2
Application number: JP2020121381A
Authority: JP
Inventors: 直樹加藤; 祐介内田; 浩大本多
Original assignee: Ｇｏ株式会社
Priority date: 2020-07-15
Filing date: 2020-07-15
Publication date: 2024-05-23
Anticipated expiration: 2040-07-15
Also published as: JP2022018333A

Description

本発明は、プログラム、情報処理方法、情報処理装置及びモデル生成方法に関する。

被写体人物を撮像した２次元画像から、当該人物の骨格点（関節点）の３次元座標を推定する姿勢検出技術がある。例えば特許文献１では、被写体の２次元画像から被写体の骨格点の２次元座標を推定し、推定した２次元座標に基づいて３次元座標を推定する３次元特徴点情報生成装置が開示されている。

特開２０２０－４７２７３号公報

しかしながら、特許文献１に係る発明は、推定の途中で関節点の奥行きに関する情報を喪失するため、関節点の３次元座標を正確に推定することができない。

一つの側面では、被写体人物の各関節点の３次元座標値を好適に推定することができるプログラム等を提供することを目的とする。

一つの側面に係るプログラムは、人物が撮像された動画像を取得し、前記動画像を構成するフレーム画像を入力した場合に、前記フレーム画像における前記人物の各関節点の２次元座標値及び深度を出力するよう学習済みの第１モデルに、取得した前記動画像を構成する複数のフレーム画像を入力して、前記複数のフレーム画像それぞれに対応する前記２次元座標値及び深度を出力し、前記複数のフレーム画像それぞれに対応する前記２次元座標値及び深度を入力した場合に、前記各関節点の３次元座標値を出力するよう学習済みの第２モデルに、前記第１モデルから出力された前記複数のフレーム画像それぞれに対応する前記２次元座標値及び深度を入力して、前記３次元座標値を出力する処理をコンピュータに実行させるプログラムであって、前記フレーム画像を前記第１モデルに入力して、一の前記フレーム画像に対し、前記各関節点に対応する複数の３次元ヒートマップを生成し、生成した前記複数の３次元ヒートマップに基づき、前記各関節点の２次元座標値及び深度を出力し、前記第２モデルは、複数の畳み込み層それぞれに、所定のカーネルサイズ及び拡張係数の畳み込みフィルタを適用した拡張畳み込みニューラルネットワークであり、時系列で連続する前記複数のフレーム画像の前記２次元座標値及び深度を、前記複数の畳み込み層それぞれにおいて所定数ずつ畳み込み、前記複数のフレーム画像のうち、一の前記フレーム画像に対応する前記３次元座標値を出力する処理をコンピュータに実行させる。

一つの側面では、被写体人物の各関節点の３次元座標値を好適に推定することができる。

情報処理装置の構成例を示すブロック図である。実施の形態の概要を示す説明図である。第１モデルに関する説明図である。第２モデルに関する説明図である。第２モデルのネットワーク構造を示す説明図である。モデル生成処理の手順を示すフローチャートである。座標推定処理の手順を示すフローチャートである。

以下、本発明をその実施の形態を示す図面に基づいて詳述する。
（実施の形態１）
図１は、情報処理装置１の構成例を示すブロック図である。本実施の形態では、人物を撮像した動画像から当該人物の関節点の３次元座標値を推定する情報処理装置１について説明する。

情報処理装置１は、種々の情報処理、情報の送受信が可能な情報処理装置であり、例えばサーバコンピュータ、パーソナルコンピュータ等である。本実施の形態では情報処理装置１がサーバコンピュータであるものとし、以下では簡潔のためサーバ１と読み替える。サーバ１は、例えば外部の端末２から動画像を取得し、動画像に写る人物の各関節点（手首、肘、肩等）の３次元座標値を推定し、推定結果を端末２に出力する。具体的には後述のように、サーバ１は、機械学習モデルである第１モデル５１及び第２モデル５２（図２参照）を用いて３次元座標値を推定する。

サーバ１は、制御部１１、主記憶部１２、通信部１３、及び補助記憶部１４を備える。制御部１１は、一又は複数のＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro-Processing Unit）、ＧＰＵ（Graphics Processing Unit）等の演算処理装置であり、補助記憶部１４に記憶されたプログラムＰを読み出して実行することにより、種々の情報処理、制御処理等を行う。主記憶部１２は、ＳＲＡＭ（Static Random Access Memory）、ＤＲＡＭ（Dynamic Random Access Memory）、フラッシュメモリ等の一時記憶領域であり、制御部１１が演算処理を実行するために必要なデータを一時的に記憶する。通信部１３は、通信に関する処理を行うための通信モジュールであり、外部と情報の送受信を行う。

補助記憶部１４は、大容量メモリ、ハードディスク等の不揮発性記憶領域であり、制御部１１が処理を実行するために必要なプログラムＰ、その他のデータを記憶している。また、補助記憶部１４は、第１モデル５１、第２モデル５２を記憶している。第１モデル５１は、所定の訓練データを学習済みの機械学習モデルであり、動画像を構成するフレーム画像を入力した場合に、フレーム画像内の人物の各関節点の２次元座標値及び深度を出力する学習済みモデルである。第２モデル５２は、所定の訓練データを学習済みの機械学習モデルであり、動画像を構成する複数のフレーム画像それぞれにおける各関節点の２次元座標値及び深度を入力した場合に、各関節点の３次元座標値を出力する学習済みモデルである。第１モデル５１及び第２モデル５２は、人工知能ソフトウェアの一部として機能するソフトウェアモジュールとしての利用が想定される。

なお、補助記憶部１４はサーバ１に接続された外部記憶装置であってもよい。また、サーバ１は複数のコンピュータからなるマルチコンピュータであっても良く、ソフトウェアによって仮想的に構築された仮想マシンであってもよい。

また、本実施の形態においてサーバ１は上記の構成に限られず、例えば操作入力を受け付ける入力部、画像を表示する表示部等を含んでもよい。また、サーバ１は、ＣＤ（Compact Disk）－ＲＯＭ、ＤＶＤ（Digital Versatile Disc）－ＲＯＭ等の可搬型記憶媒体１ａを読み取る読取部を備え、可搬型記憶媒体１ａからプログラムＰを読み取って実行するようにしても良い。あるいはサーバ１は、半導体メモリ１ｂからプログラムＰを読み込んでも良い。

また、本実施の形態では動画解析用のコンピュータがサーバコンピュータであるものとして説明するが、例えば車載コンピュータ、ロボット制御用コンピュータ等に適用してもよい。

図２は、実施の形態の概要を示す説明図である。図２では、人物を撮像した動画像から、当該人物の各関節点の３次元座標値が推定される様子を概念的に図示している。図２に基づき、本実施の形態の概要を説明する。

サーバ１は、上述の如く、第１モデル５１及び第２モデル５２を用いて、動画像に写る人物の各関節点の３次元座標値を推定する。第１モデル５１及び第２モデル５２は共に、所定の訓練データを学習済みの機械学習モデルであり、例えば深層学習により生成されたニューラルネットワークである。

関節点の３次元座標値を推定する場合、サーバ１はまず、動画像を構成する複数のフレーム画像をそれぞれ第１モデル５１に入力し、各フレーム画像における各関節点の２次元座標値及び深度を推定する。なお、２次元座標値は画像面に平行なｘ軸方向及びｙ軸方向の座標値であり、深度は画像面に垂直なｚ軸方向の座標値（奥行き）である。なお、各関節点の深度は、関節点の一つである腰を基準（ｚ＝０）に表現される。サーバ１は、フレーム毎に各関節点の２次元座標値及び深度を推定する。

次にサーバ１は、第１モデル５１で推定した各フレーム画像の２次元座標値及び深度を第２モデル５２に入力し、各フレーム画像における各関節点の３次元座標値を推定する。具体的には後述のように、サーバ１は、時系列に沿って連続する複数のフレーム画像のデータ（２次元座標値及び深度）を時系列方向に畳み込み、各フレーム画像における３次元座標値を推定する。

図３は、第１モデル５１に関する説明図である。図３では、フレーム画像から関節点毎にヒートマップが生成され、各ヒートマップから各関節点の２次元座標値及び深度が推定される様子を概念的に図示している。

第１モデル５１は、上述の如く訓練データを学習済みの機械学習モデルであり、例えばＣＮＮ（Convolutional Neural Network；畳み込みニューラルネットワーク）である。本実施の形態では第１モデル５１として、ＩｎｔｅｇｒａｌＰｏｓｅＲｅｇｒｅｓｓｉｏｎと呼ばれるモデルを用いる。当該モデルは、関節点を特徴点として抽出したヒートマップ（図３中央参照）をフレーム画像から生成するタスクと、生成したヒートマップから関節点の座標値を推定するタスクとを行うモデルである。第１モデル５１は、入力されたフレーム画像からヒートマップを生成し、生成したヒートマップに対してＳｏｆｔｍａｘ関数を適用して正規化し、正規化されたヒートマップの重心位置を求めることにより各関節点の座標値を得る。

具体的には、第１モデル５１は、フレーム画像から各関節点の２次元座標値及び深度（すなわち、３次元座標値）を得るため、関節点毎に３次元ヒートマップを生成する。なお、図３では図示の便宜上、ヒートマップを２次元で図示している。第１モデル５１は、各関節点に対応する複数の３次元ヒートマップから、各関節点の２次元座標値及び深度を推定する。具体的には、第１モデル５１は、以下の数式（１）に基づき各関節点の座標値を計算する。

なお、Ｊ_ｋは関節点の３次元座標値（ｋは関節点の番号）、Ｈ_ｋはヒートマップ、ｐはヒートマップ内の位置を表す。詳細な説明は省略するが、第１モデル５１は、３次元のヒートマップＨ_ｋをｘ，ｙ，ｚ軸それぞれに対応する１次元のベクトル値に変換し、各ベクトル値から関節点の座標値（ｘ，ｙ，ｚ）を算出する。

サーバ１は、訓練用の人物の動画像と、動画像を構成する各フレーム画像における各関節点の２次元座標値及び深度（３次元座標値）とを含む訓練データ（例えばＨｕｍａｎ３．６Ｍ）を用いて、第１モデル５１を生成する。サーバ１は、訓練用の動画像のフレーム画像を第１モデル５１に入力し、ヒートマップを生成して各関節点の２次元座標値及び深度を推定する。サーバ１は、推定した２次元座標値及び深度を、正解の２次元座標値及び深度と比較し、両者が近似するように第１モデル５１のパラメータ（ニューロン間の重み等）を最適化する。これによりサーバ１は、第１モデル５１を生成する。

上述の如く、本実施の形態に係る第１モデル５１はフレーム画像からヒートマップを生成し、生成したヒートマップから関節点の座標値を推定する。ヒートマップ表現は学習が容易であるが、ヒートマップにおいて値が最大の位置を関節点の座標と推定する処理は微分不可能であるため、Ｅｎｄ－ｔｏ－Ｅｎｄの推定が難しい。一方で、画像から直接的に関節点の座標を推定する処理（回帰）は学習が難しい。本実施の形態ではこれらの手法を統合し、学習が容易なヒートマップ表現を用いつつ、Ｅｎｄ－ｔｏ－Ｅｎｄの推定を可能にする。

図４は、第２モデル５２に関する説明図である。図４では、時系列で連続する複数のフレーム画像それぞれに対応する関節点の２次元座標値（及び深度）から、３次元座標値を推定する様子を概念的に図示している。

第２モデル５２は、第１モデル５１と同様に機械学習モデルであり、例えば複数の畳み込み層を有するＣＮＮである。本実施の形態では第２モデル５２として、ＶｉｄｅｏＰｏｓｅ３Ｄと呼ばれるモデルを用いる。当該モデルは、時系列データを取り扱う畳み込みニューラルネットワーク（Temporal Convolutional Network）であり、関節点の２次元座標値の時系列データから関節点の３次元座標値を推定するフレームワークである。

具体的には、第２モデル５２は、複数の畳み込み層それぞれに、拡張畳み込み（Dilated Covolution）と呼ばれる特殊な畳み込みフィルタを適用した拡張畳み込みニューラルネットワークにより構成される。より詳細には、直列的に接続された各畳み込み層に適用される畳み込みフィルタに、拡張係数（Dilation Factor）と呼ばれるハイパーパラメータが設定され、各畳み込み層では拡張係数ｄに応じて、ｄ^ｉ（ｉは畳み込み層の順序）ずつ入力データを畳み込む。

図４ではｄ＝３として、３^ｉずつ入力データが畳み込まれる様子を図示している。図４の例では、１番目の畳み込み層で３フレーム分のデータが畳み込まれ、続く２番目の畳み込み層で、３×３＝９フレーム分のデータが畳み込まれている。最終的に第２モデル５２は、３^ｉフレーム分のデータを畳み込み、３^ｉフレームのうち、中央１フレーム（例えば３^ｉ＝９であれば５番目のフレーム）の３次元座標値を推定する。

上述の如く、本実施の形態では拡張畳み込みニューラルネットワークを用いて、時系列で連続する複数フレームのデータを処理する。拡張畳み込みを採用することで、ＲＮＮ（Recurrent Neural Network）等と比較して、複数フレームのデータを並列的に処理することができ、また、学習時のメモリ消費を抑えることもできる。

図５は、第２モデル５２のネットワーク構造を示す説明図である。図５に、第２モデル５２の具体的なネットワーク構造を図示する。本実施の形態に係る第２モデル５２は、Ｓｋｉｐ－ｃｏｎｎｅｃｔｉｏｎを利用した残差ネットワーク（Residual Network）で構成され、中間層の各残差ブロック（以下、単に「ブロック」と呼ぶ）において入力と出力との残差を取りながら畳み込みを行う。

図５において、太線で示すレイヤは畳み込み層である。図５に示すように、入力層及び中間層は、畳み込み層及びその他のレイヤ（BatchNorm, ReLU, Dropout）から成るブロックで構成される。例えば入力層は１ブロック、中間層は４ブロックで構成される。入力層は所定のフレーム数（例えば２４３フレーム）の各関節点（例えばＪ（Joints）＝１７の関節点）の座標値の入力を受け付ける。なお、畳み込み層に示す「３Ｊ，３ｄ１，１０２４」はそれぞれ、入力チャネル数（３軸×関節数）、カーネルサイズ及び拡張係数（カーネルサイズが３、拡張係数が１）、及び出力チャネル数を表す。中間層も入力層と同様のブロック構造を有するが、拡張畳み込みを行うブロック（カーネルサイズが３ｄｉの畳み込み層を有するブロック）と、カーネルサイズが１のブロックとを１単位（１ブロック）として構成される。図５に示すように、中間層では一のブロックの入力が次のブロックの入力にスキップされ、当該一のブロックの入力及び出力の残差が次のブロックに入力され、当該次のブロックの出力が計算される。

上述の如く、本実施の形態では第２モデル５２に残差ネットワークを用いる。これにより、ネットワークの層数を深くした場合の勾配消失や勾配発散の問題に好適に対処することができる。

図５において中間層の各ブロックの先頭の畳み込み層に「３ｄ３」、「３ｄ９」、「３ｄ２７」、及び「３ｄ８１」と示すように、各ブロックの先頭の畳み込み層で、カーネルサイズを３として３フレーム、９フレーム、２７フレーム、及び８１フレーム分のデータが畳み込まれる。最終的に第２モデル５２は、出力層に相当する最後尾の畳み込み層において、各関節点の３次元座標値（３Ｊ）を計算する。

ＶｉｄｅｏＰｏｓｅ３Ｄは関節点の２次元座標値を３次元座標値に変換するフレームワークであるが、本実施の形態では第２モデル５２の入力に関節点の深度を加え、２次元座標値及び深度から３次元座標値を推定する。すなわち、通常は入力チャネル数が「２Ｊ」（ｘ，ｙ）であるところを、本実施の形態では「３Ｊ」（ｘ，ｙ，ｚ）とする。サーバ１は、第１モデル５１で推定した各フレーム画像の２次元座標値及び深度を第２モデル５２に入力し、中央１フレームの３次元座標値を推定する。

例えばサーバ１は、第１モデル５１の学習に用いた訓練データ（Ｈｕｍａｎ３．６Ｍ）を第２モデル５２の訓練データに用いて、第２モデル５２を生成する。なお、第１モデル５１及び第２モデル５２で異なる訓練データを用いてもよい。サーバ１は、訓練用の動画像を構成する複数のフレーム画像それぞれの２次元座標値及び深度を第２モデル５２に入力し、一のフレーム画像の３次元座標値を推定する。サーバ１は、推定した３次元座標値を正解の３次元座標値と比較し、両者が近似するように第２モデル５２のパラメータ（ニューロン間の重み等）を最適化する。

なお、詳細な説明は省略するが、サーバ１は、推定した３次元座標値を２次元座標値に逆変換する処理を行うこと（Back-Projection）で、正解の３次元座標値が既知の訓練データを用いた教師あり学習と、正解の３次元座標値が未知の訓練データを用いた教師なし学習とを組み合わせた半教師あり学習を行うようにしてもよい。

本実施の形態でサーバ１は、学習を行う際に、訓練データが示す深度に所定のノイズを付加して第２モデル５２に与える。例えばサーバ１は、ガウシアンノイズ（σ＝０．１）を付加した値に深度を変換し、変換した深度と、訓練データが示す２次元座標値とを第２モデル５２に与え、学習を行う。深度にノイズを付加して学習することで、過学習を抑制することができる。

上述の如く、サーバ１は、２次元座標値及び深度を推定する第１モデル５１と、３次元座標値を推定する第２モデル５２とを利用して、動画像を構成する各フレーム画像における各関節点の３次元座標値を推定する。２次元座標値以外に深度を第２モデル５２の入力に加えることで、人物の外観（奥行き）の情報を与え、３次元座標値を精度良く推定することができる。

図６は、モデル生成処理の手順を示すフローチャートである。図６に基づき、第１モデル５１及び第２モデル５２を生成する機械学習処理について説明する。
サーバ１の制御部１１は、第１モデル５１及び第２モデル５２を生成するための訓練データを取得する（ステップＳ１１）。訓練データは、人物を撮像した動画像と、動画像を構成する各フレーム画像における人物の各関節点の２次元座標値及び深度（３次元座標値）とを含む。

制御部１１は訓練データに基づき、動画像を構成するフレーム画像を入力した場合に、フレーム画像に写る人物の各関節点の２次元座標値及び深度を出力する第１モデル５１を生成する（ステップＳ１２）。具体的には、制御部１１は、ヒートマップ推定と回帰とを統合したＣＮＮを生成する。制御部１１は、訓練用の動画像を構成する各フレーム画像を第１モデル５１に入力して関節点毎に３次元ヒートマップを生成し、生成した３次元ヒートマップから各関節点の２次元座標値及び深度を推定する。制御部１１は、推定した関節点の２次元座標値及び深度と、訓練データが示す正解の２次元座標値及び深度とを比較し、両者が近似するように第１モデル５１のパラメータを最適化する。

制御部１１は、訓練データが示す関節点の深度を、ガウシアンノイズを付加した値を変換する（ステップＳ１３）。制御部１１は、深度を変換した訓練データに基づき、複数のフレーム画像それぞれに対応する各関節点の２次元座標値及び深度を入力した場合に、一のフレーム画像に対応する各関節点の３次元座標値を出力する第２モデル５２を生成する（ステップＳ１４）。具体的には、制御部１１は、残差ネットワーク構造を有し、かつ、各畳み込み層で拡張畳み込みを行うＣＮＮを生成する。制御部１１は、訓練用の動画像を構成する複数のフレーム画像の２次元座標値と、変換後の深度とを第２モデル５２に与え、中央１フレームに対応する各関節点の３次元座標値を推定する。制御部１１は、推定した３次元座標値が、正解の３次元座標値に近似するように第２モデル５２のパラメータを最適化する。制御部１１は一連の処理を終了する。

図７は、座標推定処理の手順を示すフローチャートである。図７に基づき、動画像から各関節点の３次元座標値を推定する際の処理内容について説明する。
サーバ１の制御部１１は、人物が撮像された動画像を端末２から取得する（ステップＳ３１）。制御部１１は、動画像を構成する各フレーム画像を第１モデル５１に入力し、各フレーム画像に対応する各関節点の２次元座標値及び深度を推定する（ステップＳ３２）。制御部１１は、第１モデル５１で推定された２次元座標値及び深度であって、連続する複数のフレーム画像それぞれに対応する２次元座標値及び深度を第２モデル５２に入力し、一のフレーム画像に対応する各関節点の３次元座標値を推定する（ステップＳ３３）。制御部１１は一連の処理を終了する。

以上より、本実施の形態によれば、動画像から２次元座標値及び深度を推定する第１モデル５１と、複数フレームの２次元座標値及び深度から３次元座標値を推定する第２モデル５２とを組み合わせることで、動画像に写る人物の各関節点の３次元座標値を好適に推定することができる。

また、本実施の形態によれば、学習が容易なヒートマップ表現を用いつつ、Ｅｎｄ－ｔｏ－Ｅｎｄで関節点の２次元座標及び深度を推定することができる。

また、本実施の形態によれば、関節点毎に３次元ヒートマップを生成することで、各関節点の２次元座標値及び深度を精度良く推定することができる。

また、本実施の形態によれば、第２モデル５２に拡張畳み込みネットワークを用いることで、時系列データを好適に処理することができる。

また、本実施の形態によれば、第２モデル５２に残差ネットワークを用いることで、第２モデル５２の層数が深くなった場合でも好適に処理することができる。

今回開示された実施の形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。

１サーバ（情報処理装置）
１１制御部
１２主記憶部
１３通信部
１４補助記憶部
Ｐプログラム
５１第１モデル
５２第２モデル

Claims

人物が撮像された動画像を取得し、
前記動画像を構成するフレーム画像を入力した場合に、前記フレーム画像における前記人物の各関節点の２次元座標値及び深度を出力するよう学習済みの第１モデルに、取得した前記動画像を構成する複数のフレーム画像を入力して、前記複数のフレーム画像それぞれに対応する前記２次元座標値及び深度を出力し、
前記複数のフレーム画像それぞれに対応する前記２次元座標値及び深度を入力した場合に、前記各関節点の３次元座標値を出力するよう学習済みの第２モデルに、前記第１モデルから出力された前記複数のフレーム画像それぞれに対応する前記２次元座標値及び深度を入力して、前記３次元座標値を出力する
処理をコンピュータに実行させるプログラムであって、
前記フレーム画像を前記第１モデルに入力して、一の前記フレーム画像に対し、前記各関節点に対応する複数の３次元ヒートマップを生成し、
生成した前記複数の３次元ヒートマップに基づき、前記各関節点の２次元座標値及び深度を出力し、
前記第２モデルは、複数の畳み込み層それぞれに、所定のカーネルサイズ及び拡張係数の畳み込みフィルタを適用した拡張畳み込みニューラルネットワークであり、
時系列で連続する前記複数のフレーム画像の前記２次元座標値及び深度を、前記複数の畳み込み層それぞれにおいて所定数ずつ畳み込み、前記複数のフレーム画像のうち、一の前記フレーム画像に対応する前記３次元座標値を出力する
処理をコンピュータに実行させるプログラム。
人物が撮像された動画像を構成する各フレーム画像における前記人物の各関節点の２次元座標値及び深度を示す訓練データを取得し、
訓練用の複数の前記フレーム画像それぞれに対応する前記２次元座標値及び深度を前記第２モデルに入力することで、前記３次元座標値を出力し、
出力した前記３次元座標値を前記２次元座標値に逆変換する処理を行うことで、正解の前記３次元座標値が既知の訓練データを生成し、
正解の前記３次元座標値が既知の訓練データを用いた教師あり学習と、正解の前記３次元座標値が未知の訓練データを用いた教師なし学習とを組み合わせた半教師あり学習を行うことで、前記第２モデルをトレーニングする
請求項１に記載のプログラム。
前記第２モデルは、前記畳み込み層を含む残差ブロックを複数有する残差ネットワークであり、
一の前記残差ブロックの入力及び出力の残差を、前記一の残差ブロックに続く次の前記残差ブロックに入力して該次の残差ブロックの出力を計算する
請求項１又は２に記載のプログラム。
人物が撮像された動画像を取得し、
前記動画像を構成するフレーム画像を入力した場合に、前記フレーム画像における前記人物の各関節点の２次元座標値及び深度を出力するよう学習済みの第１モデルに、取得した前記動画像を構成する複数のフレーム画像を入力して、前記複数のフレーム画像それぞれに対応する前記２次元座標値及び深度を出力し、
前記複数のフレーム画像それぞれに対応する前記２次元座標値及び深度を入力した場合に、前記各関節点の３次元座標値を出力するよう学習済みの第２モデルに、前記第１モデルから出力された前記複数のフレーム画像それぞれに対応する前記２次元座標値及び深度を入力して、前記３次元座標値を出力する
処理をコンピュータに実行させる情報処理方法であって、
前記フレーム画像を前記第１モデルに入力して、一の前記フレーム画像に対し、前記各関節点に対応する複数の３次元ヒートマップを生成し、
生成した前記複数の３次元ヒートマップに基づき、前記各関節点の２次元座標値及び深度を出力し、
前記第２モデルは、複数の畳み込み層それぞれに、所定のカーネルサイズ及び拡張係数の畳み込みフィルタを適用した拡張畳み込みニューラルネットワークであり、
時系列で連続する前記複数のフレーム画像の前記２次元座標値及び深度を、前記複数の畳み込み層それぞれにおいて所定数ずつ畳み込み、前記複数のフレーム画像のうち、一の前記フレーム画像に対応する前記３次元座標値を出力する
処理をコンピュータに実行させる情報処理方法。
人物が撮像された動画像を取得する取得部と、
前記動画像を構成するフレーム画像を入力した場合に、前記フレーム画像における前記人物の各関節点の２次元座標値及び深度を出力するよう学習済みの第１モデルに、取得した前記動画像を構成する複数のフレーム画像を入力して、前記複数のフレーム画像それぞれに対応する前記２次元座標値及び深度を出力する第１出力部と、
前記複数のフレーム画像それぞれに対応する前記２次元座標値及び深度を入力した場合に、前記各関節点の３次元座標値を出力するよう学習済みの第２モデルに、前記第１モデルから出力された前記複数のフレーム画像それぞれに対応する前記２次元座標値及び深度を入力して、前記３次元座標値を出力する第２出力部と
を備え、
前記第１出力部は、
前記フレーム画像を前記第１モデルに入力して、一の前記フレーム画像に対し、前記各関節点に対応する複数の３次元ヒートマップを生成し、
生成した前記複数の３次元ヒートマップに基づき、前記各関節点の２次元座標値及び深度を出力し、
前記第２モデルは、複数の畳み込み層それぞれに、所定のカーネルサイズ及び拡張係数の畳み込みフィルタを適用した拡張畳み込みニューラルネットワークであり、
前記第２出力部は、時系列で連続する前記複数のフレーム画像の前記２次元座標値及び深度を、前記複数の畳み込み層それぞれにおいて所定数ずつ畳み込み、前記複数のフレーム画像のうち、一の前記フレーム画像に対応する前記３次元座標値を出力する
情報処理装置。
人物が撮像された動画像と、該動画像を構成する各フレーム画像における前記人物の各関節点の２次元座標値及び深度とを含む訓練データを取得し、
前記訓練データに基づき、前記フレーム画像を入力した場合に、前記各関節点の２次元座標値及び深度を出力する第１モデルを生成し、
前記訓練データに基づき、複数の前記フレーム画像それぞれに対応する前記２次元座標値及び深度を入力した場合に、前記各関節点の３次元座標値を出力する第２モデルを生成する
処理をコンピュータに実行させるモデル生成方法であって、
前記複数のフレーム画像それぞれに対応する前記２次元座標値及び深度を前記第２モデルに入力することで、前記３次元座標値を出力し、
出力した前記３次元座標値を前記２次元座標値に逆変換する処理を行うことで、正解の前記３次元座標値が既知の訓練データを生成し、
正解の前記３次元座標値が既知の訓練データを用いた教師あり学習と、正解の前記３次元座標値が未知の訓練データを用いた教師なし学習とを組み合わせた半教師あり学習を行うことで、前記第２モデルをトレーニングする
処理をコンピュータに実行させるモデル生成方法。
前記訓練データが示す深度を、所定のノイズを付加した値に変換し、
前記訓練データが示す前記２次元座標値と、変換後の前記深度とに基づき、前記第２モデルを生成する
請求項６に記載のモデル生成方法。