JP7223865B2

JP7223865B2 - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: JP7223865B2
Application number: JP2021546157A
Authority: JP
Inventors: 直之宮田; 公嘉水野
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2019-09-20
Filing date: 2019-09-20
Publication date: 2023-02-16
Anticipated expiration: 2039-09-20
Also published as: CN114391156A; JPWO2021053817A1; WO2021053817A1; US20220327733A1

Description

本発明は、情報処理装置、情報処理方法およびプログラムに関する。

被写体の姿勢推定については、例えば、被写体の画像に基づく推定方法、被写体に装着したセンサの出力に基づく推定方法、事前知識モデルに基づく推定方法など、様々な技術が提案されている。特許文献１には、全体姿勢行列と一部姿勢行列とを用いた動作モデル学習装置が記載されている。

特開２０１２－８３９５５号公報

しかしながら、従来の技術においては、撮像装置の画角内に被写体全体が収まっていることを前提としている。そのため、例えば被写体の一部が画角外に位置する構図で生成された画像を対象として姿勢推定を行う場合には、対応することが困難であった。

本発明は、被写体の一部が画像の画角外に位置する場合でも画像に基づく姿勢推定を行うことができる情報処理装置、情報処理方法およびプログラムを提供することを目的とする。

本発明のある観点によれば、複数の関節を有する被写体の第１の画像と、複数の関節の位置を示し第１の画像の画角よりも拡張された範囲で定義される座標情報との関係性を学習することによって、新たに取得された被写体の第２の画像の画角外に位置する少なくとも１つの関節の座標情報を推定する学習済みモデルを構築する関係性学習部を備える情報処理装置が提供される。

本発明の別の観点によれば、複数の関節を有する被写体の第１の画像と、複数の関節の位置を示し第１の画像の画角よりも拡張された範囲で定義される座標情報との関係性を学習することによって構築された学習済みモデルに基づいて、新たに取得された被写体の第２の画像の画角外に位置する少なくとも１つの関節の座標情報を推定する座標推定部を備える情報処理装置が提供される。

本発明のさらに別の観点によれば、複数の関節を有する被写体の第１の画像と、複数の関節の位置を示し第１の画像の画角よりも拡張された範囲で定義される座標情報との関係性を学習することによって、新たに取得された被写体の第２の画像の画角外に位置する少なくとも１つの関節の座標情報を推定する学習済みモデルを構築するステップと、学習済みモデルに基づいて、第２の画像の画角外に位置する少なくとも１つの関節の座標情報を推定するステップとを含む情報処理方法が提供される。

本発明のさらに別の観点によれば、複数の関節を有する被写体の第１の画像と、複数の関節の位置を示し第１の画像の画角よりも拡張された範囲で定義される座標情報との関係性を学習することによって、新たに取得された被写体の第２の画像の画角外に位置する少なくとも１つの関節の座標情報を推定する学習済みモデルを構築する機能をコンピュータに実現させるためのプログラムが提供される。

本発明のさらに別の観点によれば、複数の関節を有する被写体の第１の画像と、複数の関節の位置を示し第１の画像の画角よりも拡張された範囲で定義される座標情報との関係性を学習することによって構築された学習済みモデルに基づいて、新たに取得された被写体の第２の画像の画角外に位置する少なくとも１つの関節の座標情報を推定する機能をコンピュータに実現させるためのプログラムが提供される。

本発明の実施形態に係る情報処理装置を含むシステムの概略的な構成を示すブロック図である。図１の例における入力データについて説明する図である。図１の例における関節の座標の推定の例について説明するための図である。図１の例における関節の座標の推定の別の例について説明するための図である。図１の例における関節の座標の推定のさらに別の例について説明するための図である。本発明の実施形態における処理の例を示すフローチャートである。本発明の実施形態における処理の例を示す別のフローチャートである。

以下、添付図面を参照しながら、本発明のいくつかの実施形態について詳細に説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

図１は、本発明の実施形態に係る情報処理装置を含むシステムの概略的な構成を示すブロック図である。図示された例において、システム１０は、情報処理装置１００，２００を含む。情報処理装置１００，２００は、それぞれ有線または無線のネットワークに接続され、例えば情報処理装置１００によって構築されてネットワーク上のストレージに格納される学習済みモデル３００が情報処理装置２００によって読み出される。

情報処理装置１００，２００は、例えば通信インターフェース、プロセッサ、およびメモリを有するコンピュータによって実装される。情報処理装置１００，２００では、プロセッサがメモリに格納された、または通信インターフェースを介して受信されたプログラムに従って動作することによって、以下で説明するような各部の機能がソフトウェア的に実現される。

情報処理装置１００は、入力部１１０と、関係性学習部１２０と、出力部１３０とを含む。情報処理装置１００によって構築される学習済みモデル３００を用いて、後述する情報処理装置２００が被写体の画像に基づく推定処理を実行することによって、撮像装置の画角から外れた部分を含む領域で被写体の関節の座標を推定することができる。

入力部１１０は、関係性学習部１２０による学習に用いられる入力データ１１１の入力を受け付ける。本実施形態において、入力データ１１１には、複数の関節を有する被写体の画像と、画像の被写体の関節座標情報とが含まれる。

図２は、図１の例における入力データ１１１について説明する図である。本実施形態において、入力データ１１１には、図２において画像Ａ１から画像Ａ４として示されるような、被写体ｏｂｊの一部が画角外に位置する構図で生成された画像が含まれる。画像Ａ１から画像Ａ４において、被写体ｏｂｊの輪郭線のうち画角内に含まれる部分を実線で示し、画角外に位置する部分を破線で示す。また、被写体ｏｂｊの姿勢を示す実線は、被写体ｏｂｊの各関節とそれらの相互の関連性とを示す。
これ以外にも、入力データ１１１には、被写体の全体が画角内に位置する構図で生成された画像が含まれても良い。画像は、ＲＧＢセンサなどにより生成される二次元画像であっても良いし、ＲＧＢ－Ｄセンサなどにより生成される三次元画像であっても良い。

さらに、入力データ１１１には、図２において関節座標情報Ｂｃとして示されるような、被写体の複数の関節の位置を示す座標情報が含まれる。本実施形態において、関節座標情報Ｂｃは画像の画角よりも拡張された範囲で定義されるため、入力データ１１１には、被写体ｏｂｊの一部が画角外に位置する構図で生成された画像Ａ１から画像Ａ４と、画像Ａ１から画像Ａ４の被写体ｏｂｊの全体の関節の位置を示す関節座標情報Ｂｃとが含まれる。
例えば、画像Ａ１の場合、両手首の関節Ｊ１が画像の画角外に位置しているが、入力データ１１１には、画像Ａ１と、画像Ａ１の画角内に位置する各関節および両手首の関節Ｊ１の座標情報を含む関節座標情報Ｂｃとが含まれる。

ここで、本実施形態において、図２に示されるような関節座標情報Ｂｃは、画像Ａ１から画像Ａ４には依存しない三次元の姿勢データに基づいて入力される。このような三次元の姿勢データは、例えば、画像Ａ１から画像Ａ４を撮影するカメラとは異なる複数のカメラによって撮影された画像や、被写体ｏｂｊに取り付けられたＩＭＵ（Inertial Measurement Unit）センサを用いたモーションキャプチャなどにより取得される。なお、このような三次元の姿勢データの取得については、公知の各種の技術を利用可能であるため詳細な説明は省略する。

再び図１を参照して、情報処理装置１００の関係性学習部１２０は、入力部１１０を介して入力された画像と関節座標情報との関係性を学習して学習済みモデル３００を構築する。本実施形態において、関係性学習部１２０は、例えば、入力部１１０を介して入力された画像および関節座標情報を入力データとし、三次元の姿勢データを正解データとした教師あり学習を実行することによって学習済みモデル３００を構築する。なお、機械学習の具体的な手法については、公知の各種の技術を利用可能であるため詳細な説明は省略する。関係性学習部１２０は、構築された学習済みモデル３００のパラメータを、出力部１３０を介して出力する。

情報処理装置２００は、入力部２１０と、座標推定部２２０と、三次元姿勢推定部２３０と、出力部２４０とを含む。情報処理装置２００は、情報処理装置１００によって構築された学習済みモデル３００を用いて被写体の画像に基づく推定処理を実行することによって、撮像装置の画角から外れた部分を含む領域で被写体の関節の座標を推定する。

入力部２１０は、座標推定部２２０による推定に用いられる入力画像２１１の入力を受け付ける。入力画像２１１は、例えば撮像装置２１２によって新たに取得された画像である。入力画像２１１は、上記で図２を参照して説明したような複数の関節を有する被写体ｏｂｊの画像である。なお、入力データ１１１の画像の被写体と入力画像２１１の被写体とは、関節の構造が同じ被写体であるが、必ずしも同一の被写体でなくてもよい。具体的には、例えば、入力データ１１１の画像の被写体が人間である場合、入力画像２１１の被写体も人間であるが、同一人物である必要はない。
また、入力画像２１１は、撮像装置２１２によって取得された画像に限らない。例えば、情報処理装置２００と有線または無線で接続された記憶装置に記憶されている画像を、入力部２１０を介して入力して入力画像２１１としても良い。また、ネットワーク上から取得した画像を、入力部２１０を介して入力して入力画像２１１としても良い。さらに、入力画像２１１は、静止画像であっても良いし動画像であっても良い。

座標推定部２２０は、学習済みモデル３００に基づいて、入力部２１０を介して入力された入力画像２１１から被写体が有する複数の関節の座標を推定する。上述のように、学習済みモデル３００は、画像の画角よりも拡張された範囲で定義された関節の座標情報に基づいて構築されるため、入力画像２１１の画角外の領域でも各関節の位置およびそれらの関節間のリンク構造の推論を行うことができる。その結果、座標推定部２２０は、「入力部２１０に入力された画像の画角内に存在しないが、画角外に拡張された座標（Ｘ，Ｙ，Ｚ）に関節が存在する」との推定を行うことができる。また、座標推定部２２０は、推定した複数の関節の座標に基づいて、複数の関節の位置関係を推定することも可能である。

図３は、図１の例における関節の座標の推定の例について説明するための図である。本実施形態において、学習済みモデル３００は、画像から画角内に位置する関節の座標を推定する第１の学習済みモデルＭ１と、画角内に位置する関節の座標の情報から画角外に位置する少なくとも１つの関節の座標を推定する第２の学習済みモデルＭ２とを含む。座標推定部２２０は、第１の学習済みモデルＭ１および第２の学習済みモデルＭ２を用いた２段階の推定処理を実行する。

ここで、図３（ａ）に示される例では、入力画像２１１は、両足首の関節Ｊ２が画角外に位置する画像Ａ５を含む。図３（ｂ）に示される第１の学習済みモデルＭ１は、ＣＮＮ（Convolutional Neural Network）ベースの学習済みモデルである。座標推定部２２０は、第１の学習済みモデルＭ１を用いて、画像Ａ５の画角内に位置する関節、すなわち両足首の関節Ｊ２を除く関節の座標を推定する。これによって、画像の画角内に位置する関節の座標を特定した中間データＤＴ１が得られる。

さらに、図３（ｃ）に示されるように、座標推定部２２０は、中間データＤＴ１を用いて第２の学習済みモデルＭ２を用いた推定処理を実行する。図３（ｄ）に示される第２の学習済みモデルＭ２は、ＲＮＮ（Recurrent Neural Network）ベースの学習済みモデルであり、中間データＤＴ１から、中間データＤＴ１には含まれない画角外の関節の座標、すなわちこの例では両足首の関節Ｊ２の座標を推定することができる。

また、図示された例において、中間データＤＴ１は関節の座標を二次元座標で表現するデータであるが、第２の学習済みモデルＭ２は、時系列の中間データＤＴ１を入力することによって、図３（ｅ）に示すように関節の座標を三次元座標で推定することができる。図３（ｅ）に示すように、第２の学習済みモデルＭ２を用いた推定によって得られる最終データＤＴ２は、図３（ａ）に示された画像Ａ５の画角外に位置する両足首の関節Ｊ２を含む、被写体のすべての関節の座標の推定結果を含む。

再び図１を参照して、情報処理装置２００の三次元姿勢推定部２３０は、座標推定部２２０が推定した関節の座標に基づいて、被写体の全身姿勢を推定する。三次元姿勢推定部２３０は、推定した被写体の全身姿勢を表すデータ２４１を、出力部２４０を介して出力する。例えば、被写体の全身姿勢を表すデータ２４１は、入力画像２１１を拡張した画像としてディスプレイに表示されてもよい。例えば、被写体の全身姿勢を表すデータ２４１は、被写体の姿勢を模倣するユーザのアバターの画像や、ゲームや動画像などのキャラクタの画像の動きとして出力されてもよい。あるいは、ディスプレイによる出力とともに、またはこれに代えて、被写体の全身姿勢を表すデータ２４１は被写体の姿勢を模倣するロボットの動きとして出力されてもよい。

以上で説明したような本実施形態の構成によれば、複数の関節を有する被写体の画像と、画像の画角よりも拡張された範囲で定義される関節の座標情報との関係性を学習することによって構築された学習済みモデル３００に基づいて、入力部２１０に入力された画像の画角外に位置する少なくとも１つの関節を含む複数の関節の座標が推定される。したがって、被写体の一部が画像の画角外に位置する場合でも、画像に基づく被写体の姿勢推定を行うことができる。

図４は、図１の例における関節の座標の推定の別の例について説明するための図である。図４の例において、学習済みモデル３００は、図３の例と同様の第１の学習済みモデルＭ１と、関節ごとに構築される学習済みモデル群（第３の学習済みモデルＭ３、第４の学習済みモデルＭ４、および第５の学習済みモデルＭ５）とを含む。

図４（ａ）および（ｂ）に示される例では、図３（ａ）および（ｂ）と同様に、座標推定部２２０は、第１の学習済みモデルＭ１を用いて、画像Ａ５の画角内に位置する関節、すなわち両足首の関節Ｊ２を除く関節の座標を推定する。これによって、画像の画角内に位置する関節の座標を特定した中間データＤＴ１が得られる。

次に、図４（ｃ）に示されるように、座標推定部２２０は中間データＤＴ１を用いて第３の学習済みモデルＭ３から第５の学習済みモデルＭ５を用いた推定処理を実行する。
図４（ｄ）に示される第３の学習済みモデルＭ３から第５の学習済みモデルＭ５は、図３に例示した第２の学習済みモデルＭ２と同様に、ＲＮＮ（Recurrent Neural Network）ベースの学習済みモデルである。ただし、図４（ｄ）に示される第３の学習済みモデルＭ３から第５の学習済みモデルＭ５は、単一の（または１組の）関節の座標を推定することについて限定的に構築された学習済みモデルである。例えば、第３の学習済みモデルＭ３は、両足首の関節の座標を推定することについて限定的に構築された学習済みモデルである。この場合、座標推定部２２０は、第３の学習済みモデルＭ３を用いて、中間データＤＴ１から、両足首の関節Ｊ２の座標を推定することができる。他にも画角外に位置する関節がある場合、第４の学習済みモデルＭ４または第５の学習済みモデルＭ５を用いた推定が並行して実施され、推定結果が統合されてもよい。

なお、図４の例においても、図３の例と同様に、中間データＤＴ１は関節の座標を二次元座標で表現するデータであるが、第３の学習済みモデルＭ３から第５の学習済みモデルＭ５は、時系列の中間データＤＴ１を入力することによって、図４（ｅ）に示すように関節の座標を三次元座標で推定することができる。図４（ｅ）に示すように、第３の学習済みモデルＭ３から第５の学習済みモデルＭ５を用いた推定によって得られる最終データＤＴ３は、図４（ａ）に示された画像Ａ５の画角外に位置する両足首の関節Ｊ２を含む、被写体のすべての関節の座標の推定結果を含む。

図４に例示した関節の座標の推定の別の例によれば、画像の画角外に位置するのがどこの関節であるかに応じて、異なる学習済みモデルを用いてその関節の座標が推定される。それぞれの学習済みモデル（上記の例の場合、第３の学習済みモデルＭ３、第４の学習済みモデルＭ４、および第５の学習済みモデルＭ５）が単一の（または１組の）関節の座標を推定することについて限定的に構築されることによって、各モデルのサイズが小さくなり、処理負荷を軽減することが期待できる。
また、例えば、「顔の位置のみ推定」等の限定的な要望に関して、最小限の処理負荷で結果を得ることができる。

図５は、図１の例における関節の座標の推定のさらに別の例について説明するための図である。図５の例において、学習済みモデル３００は、図３に例示した第１の学習済みモデルＭ１および第２の学習済みモデルＭ２による２段階の推定処理を一括して実行する機能を有する学習済みモデルであり、時系列の入力画像２１１から画角外に位置するものを含む被写体の関節の座標を推定する第６の学習済みモデルＭ６を含む。座標推定部２２０は、第６の学習済みモデルＭ６を用いて推定処理を実行する。

図５（ａ）に示される例では、図３（ａ）の例と同様に、入力画像２１１は、両足首の関節Ｊ２が画角外に位置する画像Ａ５を含む。図示された例において、入力画像２１１は基本的には二次元画像であるが、第６の学習済みモデルＭ６は、時系列の入力画像２１１を入力することによって、図５（ｃ）に示すように関節の座標を三次元座標で推定することができる。

図５（ｂ）に示される第６の学習済みモデルＭ６は、図３（ｂ）に示された第１の学習済みモデルＭ１に、図３（ｄ）に示された第２の学習済みモデルＭ２のような時制的な要素を加味した学習済みモデルである。座標推定部２２０は、第６の学習済みモデルＭ６を用いて、画像Ａ５の画角内および画角外に位置する関節、すなわち両足首の関節Ｊ２を含めたすべての関節の座標を推定する。

この結果、図５（ｃ）に示すように、第６の学習済みモデルＭ６を用いた推定によって得られる最終データＤＴ４は、図５（ａ）に示された画像Ａ５の画角外に位置する両足首の関節Ｊ２を含む、被写体のすべての関節の座標の推定結果を含む。

なお、上述した本発明の実施形態において、情報処理装置１００による学習済みモデル３００の構築と、情報処理装置２００による被写体の全身姿勢の推定とは、独立に行われても良い。例えば、情報処理装置１００による学習済みモデル３００の構築を予め行っておき、任意の情報処理装置２００が学習済みモデル３００に基づいて、被写体の全身姿勢の推定を行っても良い。また、例えば、情報処理装置１００および情報処理装置２００が学習済みモデル３００と接続可能な単一のコンピュータによって実装されても良い。

また、本発明の実施形態において、情報処理装置１００および情報処理装置２００で実装されるものとして説明された機能は、サーバーで実装されてもよい。例えば、撮像装置によって生成された画像が情報処理装置からサーバーに送信され、サーバーで被写体の全身姿勢の推定を行うことも可能である。

また、本発明の実施形態の学習済みモデル３００は、被写体が有するすべての関節の位置を推定するモデルであっても良いし、一部の関節の位置のみを推定するモデルであっても良い。また、本実施形態の座標推定部２２０は、被写体が有するすべての関節の位置を推定しても良いし、一部の関節の位置のみを推定しても良い。さらに、本実施形態の三次元姿勢推定部２３０は、被写体の全身の三次元姿勢を推定しても良いし、例えば、上半身のみなど、一部の三次元姿勢のみを推定しても良い。

また、本発明の実施形態においては、被写体として人物を例示したが、本発明はこの例に限定されない。例えば、動物やロボットなど、複数の関節を有する被写体であればどのようなものであっても対象となり得る。本実施形態における情報処理装置２００は、例えばロボットに実装することにより、ロボットの動き制御に利用することができる。また、本実施形態における情報処理装置２００は、例えば監視カメラ装置に実装することにより、不審人物の監視などに利用することができる。

図６および図７は、本発明の実施形態における処理の例を示すフローチャートである。
図６には、情報処理装置１００が学習済みモデル３００を構築するまでの処理が示されている。まず、情報処理装置１００の入力部１１０が、関係性学習部１２０による学習に用いられる入力データ１１１、すなわち画像と、被写体の関節の座標情報とを含むデータの入力を受け付ける（ステップＳ１０１）。ここで、関節の座標情報は、画像の画角よりも拡張された範囲で定義されており、したがって被写体の一部の関節が画角外に位置する画像についても、入力データ１１１には、画像と、当該関節を含むすべての関節の座標情報とが含まれる。次に、関係性学習部１２０が、入力データ１１１における画像と座標情報との関係性を学習することによって学習済みモデル３００を構築する（ステップＳ１０２）。情報処理装置１００では、出力部１３０が、例えばネットワーク上のストレージに構築された学習済みモデル３００、具体的には例えば学習済みモデル３００のパラメータを出力する（ステップＳ１０３）。

一方、図７には、情報処理装置２００が学習済みモデル３００を用いて画像から関節の座標を推定する処理が示されている。情報処理装置２００の入力部２１０が新たな入力画像２１１の入力を受け付けると（ステップＳ２０１）、座標推定部２２０が学習済みモデル３００を用いて画像から関節の座標を推定する（ステップＳ２０２）。さらに、三次元姿勢推定部２３０が、座標推定部２２０による関節の座標の推定結果に基づいて被写体の全身姿勢を推定する（ステップＳ２０３）。情報処理装置２００では、出力部２４０が、推定した被写体の全身姿勢を表すデータを出力する（ステップＳ２０４）。

以上、添付図面を参照しながら本発明のいくつかの実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

１０…システム、１００，２００…情報処理装置、１１０，２１０…入力部、１１１…入力データ、１２０…関係性学習部、１３０，２４０…出力部、２１１…入力画像、２１２…撮像装置、２２０…座標推定部、２３０…三次元姿勢推定部、３００…学習済みモデル

Claims

複数の関節を有する被写体の第１の画像と、前記複数の関節の位置を示し前記第１の画像の画角よりも拡張された範囲で定義される座標情報との関係性を学習することによって、新たに取得された前記被写体の第２の画像の画角外に位置する少なくとも１つの関節の座標情報を推定する学習済みモデルを構築する関係性学習部を備える情報処理装置。
前記関係性学習部は、前記少なくとも１つの関節を含む前記複数の関節の前記座標情報を推定する前記学習済みモデルを構築する、請求項１に記載の情報処理装置。
前記関係性学習部は、時系列で取得された複数の前記第１の画像と、複数の前記第１の画像の前記座標情報との関係性を学習することによって、前記第２の画像における前記複数の関節の三次元の座標情報を推定する前記学習済みモデルを構築する、請求項１または請求項２に記載の情報処理装置。
前記複数の関節は、第１の関節および第２の関節を含み、
前記学習済みモデルは、前記第１の関節が前記第２の画像の画角外に位置するときに前記第１の関節の座標情報を推定する第１の学習済みモデルと、前記第２の関節が前記第２の画像の画角外に位置するときに前記第２の関節の座標情報を推定する第２の学習済みモデルとを含む、請求項１から請求項３のいずれか一項に記載の情報処理装置。
前記学習済みモデルは、前記第２の画像の画角内に位置する関節の座標情報を推定する第３の学習済みモデルと、前記第２の画像の画角外に位置する少なくとも１つの関節の座標情報を推定する第４の学習済みモデルとを含む、請求項１から請求項４のいずれか一項に記載の情報処理装置。
複数の関節を有する被写体の第１の画像と、前記複数の関節の位置を示し前記第１の画像の画角よりも拡張された範囲で定義される座標情報との関係性を学習することによって構築された学習済みモデルに基づいて、新たに取得された前記被写体の第２の画像の画角外に位置する少なくとも１つの関節の座標情報を推定する座標推定部を備える情報処理装置。
前記座標推定部は、前記少なくとも１つの関節を含む前記複数の関節の前記座標情報を推定する、請求項６に記載の情報処理装置。
前記第２の画像は、時系列で取得された複数の画像を含み、
前記座標推定部は、前記複数の関節の三次元の座標情報を推定する、請求項６または請求項７に記載の情報処理装置。
前記複数の関節は、第１の関節および第２の関節を含み、
前記学習済みモデルは、前記第１の関節が前記第２の画像の画角外に位置するときに前記第１の関節の座標情報を推定する第１の学習済みモデルと、前記第２の関節が前記第２の画像の画角外に位置するときに前記第２の関節の座標情報を推定する第２の学習済みモデルとを含み、
前記座標推定部は、前記第１の関節が前記第２の画像の画角外に位置するときには前記第１の学習済みモデルに基づいて前記第１の関節の座標情報を推定し、前記第２の関節が前記第２の画像の画角外に位置するときには前記第２の学習済みモデルに基づいて前記第２の関節の座標情報を推定する、請求項６から請求項８のいずれか一項に記載の情報処理装置。
前記学習済みモデルは、前記第２の画像の画角内に位置する関節の座標情報を推定する第３の学習済みモデルと、前記第２の画像の画角外に位置する少なくとも１つの関節の座標情報を推定する第４の学習済みモデルとを含み、
前記座標推定部は、前記第３の学習済みモデルに基づいて前記第２の画像の画角内に位置する関節の座標情報を推定し、前記第４の学習済みモデルに基づいて前記第２の画像の画角外に位置する少なくとも１つの関節の座標情報を推定する、請求項６から請求項９のいずれか一項に記載の情報処理装置。
複数の関節を有する被写体の第１の画像と、前記複数の関節の位置を示し前記第１の画像の画角よりも拡張された範囲で定義される座標情報との関係性を学習することによって、新たに取得された前記被写体の第２の画像の画角外に位置する少なくとも１つの関節の座標情報を推定する学習済みモデルを構築するステップと、
前記学習済みモデルに基づいて、前記第２の画像の画角外に位置する少なくとも１つの関節の座標情報を推定するステップと
を含む情報処理方法。
複数の関節を有する被写体の第１の画像と、前記複数の関節の位置を示し前記第１の画像の画角よりも拡張された範囲で定義される座標情報との関係性を学習することによって、新たに取得された前記被写体の第２の画像の画角外に位置する少なくとも１つの関節の座標情報を推定する学習済みモデルを構築する機能をコンピュータに実現させるためのプログラム。
複数の関節を有する被写体の第１の画像と、前記複数の関節の位置を示し前記第１の画像の画角よりも拡張された範囲で定義される座標情報との関係性を学習することによって構築された学習済みモデルに基づいて、新たに取得された前記被写体の第２の画像の画角外に位置する少なくとも１つの関節の座標情報を推定する機能をコンピュータに実現させるためのプログラム。