JP7223865B2 - 情報処理装置、情報処理方法およびプログラム - Google Patents
情報処理装置、情報処理方法およびプログラム Download PDFInfo
- Publication number
- JP7223865B2 JP7223865B2 JP2021546157A JP2021546157A JP7223865B2 JP 7223865 B2 JP7223865 B2 JP 7223865B2 JP 2021546157 A JP2021546157 A JP 2021546157A JP 2021546157 A JP2021546157 A JP 2021546157A JP 7223865 B2 JP7223865 B2 JP 7223865B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- joint
- angle
- view
- coordinate information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/75—Determining position or orientation of objects or cameras using feature-based methods involving models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Description
本発明は、情報処理装置、情報処理方法およびプログラムに関する。
被写体の姿勢推定については、例えば、被写体の画像に基づく推定方法、被写体に装着したセンサの出力に基づく推定方法、事前知識モデルに基づく推定方法など、様々な技術が提案されている。特許文献1には、全体姿勢行列と一部姿勢行列とを用いた動作モデル学習装置が記載されている。
しかしながら、従来の技術においては、撮像装置の画角内に被写体全体が収まっていることを前提としている。そのため、例えば被写体の一部が画角外に位置する構図で生成された画像を対象として姿勢推定を行う場合には、対応することが困難であった。
本発明は、被写体の一部が画像の画角外に位置する場合でも画像に基づく姿勢推定を行うことができる情報処理装置、情報処理方法およびプログラムを提供することを目的とする。
本発明のある観点によれば、複数の関節を有する被写体の第1の画像と、複数の関節の位置を示し第1の画像の画角よりも拡張された範囲で定義される座標情報との関係性を学習することによって、新たに取得された被写体の第2の画像の画角外に位置する少なくとも1つの関節の座標情報を推定する学習済みモデルを構築する関係性学習部を備える情報処理装置が提供される。
本発明の別の観点によれば、複数の関節を有する被写体の第1の画像と、複数の関節の位置を示し第1の画像の画角よりも拡張された範囲で定義される座標情報との関係性を学習することによって構築された学習済みモデルに基づいて、新たに取得された被写体の第2の画像の画角外に位置する少なくとも1つの関節の座標情報を推定する座標推定部を備える情報処理装置が提供される。
本発明のさらに別の観点によれば、複数の関節を有する被写体の第1の画像と、複数の関節の位置を示し第1の画像の画角よりも拡張された範囲で定義される座標情報との関係性を学習することによって、新たに取得された被写体の第2の画像の画角外に位置する少なくとも1つの関節の座標情報を推定する学習済みモデルを構築するステップと、学習済みモデルに基づいて、第2の画像の画角外に位置する少なくとも1つの関節の座標情報を推定するステップとを含む情報処理方法が提供される。
本発明のさらに別の観点によれば、複数の関節を有する被写体の第1の画像と、複数の関節の位置を示し第1の画像の画角よりも拡張された範囲で定義される座標情報との関係性を学習することによって、新たに取得された被写体の第2の画像の画角外に位置する少なくとも1つの関節の座標情報を推定する学習済みモデルを構築する機能をコンピュータに実現させるためのプログラムが提供される。
本発明のさらに別の観点によれば、複数の関節を有する被写体の第1の画像と、複数の関節の位置を示し第1の画像の画角よりも拡張された範囲で定義される座標情報との関係性を学習することによって構築された学習済みモデルに基づいて、新たに取得された被写体の第2の画像の画角外に位置する少なくとも1つの関節の座標情報を推定する機能をコンピュータに実現させるためのプログラムが提供される。
以下、添付図面を参照しながら、本発明のいくつかの実施形態について詳細に説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
図1は、本発明の実施形態に係る情報処理装置を含むシステムの概略的な構成を示すブロック図である。図示された例において、システム10は、情報処理装置100,200を含む。情報処理装置100,200は、それぞれ有線または無線のネットワークに接続され、例えば情報処理装置100によって構築されてネットワーク上のストレージに格納される学習済みモデル300が情報処理装置200によって読み出される。
情報処理装置100,200は、例えば通信インターフェース、プロセッサ、およびメモリを有するコンピュータによって実装される。情報処理装置100,200では、プロセッサがメモリに格納された、または通信インターフェースを介して受信されたプログラムに従って動作することによって、以下で説明するような各部の機能がソフトウェア的に実現される。
情報処理装置100は、入力部110と、関係性学習部120と、出力部130とを含む。情報処理装置100によって構築される学習済みモデル300を用いて、後述する情報処理装置200が被写体の画像に基づく推定処理を実行することによって、撮像装置の画角から外れた部分を含む領域で被写体の関節の座標を推定することができる。
入力部110は、関係性学習部120による学習に用いられる入力データ111の入力を受け付ける。本実施形態において、入力データ111には、複数の関節を有する被写体の画像と、画像の被写体の関節座標情報とが含まれる。
図2は、図1の例における入力データ111について説明する図である。本実施形態において、入力データ111には、図2において画像A1から画像A4として示されるような、被写体objの一部が画角外に位置する構図で生成された画像が含まれる。画像A1から画像A4において、被写体objの輪郭線のうち画角内に含まれる部分を実線で示し、画角外に位置する部分を破線で示す。また、被写体objの姿勢を示す実線は、被写体objの各関節とそれらの相互の関連性とを示す。
これ以外にも、入力データ111には、被写体の全体が画角内に位置する構図で生成された画像が含まれても良い。画像は、RGBセンサなどにより生成される二次元画像であっても良いし、RGB-Dセンサなどにより生成される三次元画像であっても良い。
これ以外にも、入力データ111には、被写体の全体が画角内に位置する構図で生成された画像が含まれても良い。画像は、RGBセンサなどにより生成される二次元画像であっても良いし、RGB-Dセンサなどにより生成される三次元画像であっても良い。
さらに、入力データ111には、図2において関節座標情報Bcとして示されるような、被写体の複数の関節の位置を示す座標情報が含まれる。本実施形態において、関節座標情報Bcは画像の画角よりも拡張された範囲で定義されるため、入力データ111には、被写体objの一部が画角外に位置する構図で生成された画像A1から画像A4と、画像A1から画像A4の被写体objの全体の関節の位置を示す関節座標情報Bcとが含まれる。
例えば、画像A1の場合、両手首の関節J1が画像の画角外に位置しているが、入力データ111には、画像A1と、画像A1の画角内に位置する各関節および両手首の関節J1の座標情報を含む関節座標情報Bcとが含まれる。
例えば、画像A1の場合、両手首の関節J1が画像の画角外に位置しているが、入力データ111には、画像A1と、画像A1の画角内に位置する各関節および両手首の関節J1の座標情報を含む関節座標情報Bcとが含まれる。
ここで、本実施形態において、図2に示されるような関節座標情報Bcは、画像A1から画像A4には依存しない三次元の姿勢データに基づいて入力される。このような三次元の姿勢データは、例えば、画像A1から画像A4を撮影するカメラとは異なる複数のカメラによって撮影された画像や、被写体objに取り付けられたIMU(Inertial Measurement Unit)センサを用いたモーションキャプチャなどにより取得される。なお、このような三次元の姿勢データの取得については、公知の各種の技術を利用可能であるため詳細な説明は省略する。
再び図1を参照して、情報処理装置100の関係性学習部120は、入力部110を介して入力された画像と関節座標情報との関係性を学習して学習済みモデル300を構築する。本実施形態において、関係性学習部120は、例えば、入力部110を介して入力された画像および関節座標情報を入力データとし、三次元の姿勢データを正解データとした教師あり学習を実行することによって学習済みモデル300を構築する。なお、機械学習の具体的な手法については、公知の各種の技術を利用可能であるため詳細な説明は省略する。関係性学習部120は、構築された学習済みモデル300のパラメータを、出力部130を介して出力する。
情報処理装置200は、入力部210と、座標推定部220と、三次元姿勢推定部230と、出力部240とを含む。情報処理装置200は、情報処理装置100によって構築された学習済みモデル300を用いて被写体の画像に基づく推定処理を実行することによって、撮像装置の画角から外れた部分を含む領域で被写体の関節の座標を推定する。
入力部210は、座標推定部220による推定に用いられる入力画像211の入力を受け付ける。入力画像211は、例えば撮像装置212によって新たに取得された画像である。入力画像211は、上記で図2を参照して説明したような複数の関節を有する被写体objの画像である。なお、入力データ111の画像の被写体と入力画像211の被写体とは、関節の構造が同じ被写体であるが、必ずしも同一の被写体でなくてもよい。具体的には、例えば、入力データ111の画像の被写体が人間である場合、入力画像211の被写体も人間であるが、同一人物である必要はない。
また、入力画像211は、撮像装置212によって取得された画像に限らない。例えば、情報処理装置200と有線または無線で接続された記憶装置に記憶されている画像を、入力部210を介して入力して入力画像211としても良い。また、ネットワーク上から取得した画像を、入力部210を介して入力して入力画像211としても良い。さらに、入力画像211は、静止画像であっても良いし動画像であっても良い。
また、入力画像211は、撮像装置212によって取得された画像に限らない。例えば、情報処理装置200と有線または無線で接続された記憶装置に記憶されている画像を、入力部210を介して入力して入力画像211としても良い。また、ネットワーク上から取得した画像を、入力部210を介して入力して入力画像211としても良い。さらに、入力画像211は、静止画像であっても良いし動画像であっても良い。
座標推定部220は、学習済みモデル300に基づいて、入力部210を介して入力された入力画像211から被写体が有する複数の関節の座標を推定する。上述のように、学習済みモデル300は、画像の画角よりも拡張された範囲で定義された関節の座標情報に基づいて構築されるため、入力画像211の画角外の領域でも各関節の位置およびそれらの関節間のリンク構造の推論を行うことができる。その結果、座標推定部220は、「入力部210に入力された画像の画角内に存在しないが、画角外に拡張された座標(X,Y,Z)に関節が存在する」との推定を行うことができる。また、座標推定部220は、推定した複数の関節の座標に基づいて、複数の関節の位置関係を推定することも可能である。
図3は、図1の例における関節の座標の推定の例について説明するための図である。本実施形態において、学習済みモデル300は、画像から画角内に位置する関節の座標を推定する第1の学習済みモデルM1と、画角内に位置する関節の座標の情報から画角外に位置する少なくとも1つの関節の座標を推定する第2の学習済みモデルM2とを含む。座標推定部220は、第1の学習済みモデルM1および第2の学習済みモデルM2を用いた2段階の推定処理を実行する。
ここで、図3(a)に示される例では、入力画像211は、両足首の関節J2が画角外に位置する画像A5を含む。図3(b)に示される第1の学習済みモデルM1は、CNN(Convolutional Neural Network)ベースの学習済みモデルである。座標推定部220は、第1の学習済みモデルM1を用いて、画像A5の画角内に位置する関節、すなわち両足首の関節J2を除く関節の座標を推定する。これによって、画像の画角内に位置する関節の座標を特定した中間データDT1が得られる。
さらに、図3(c)に示されるように、座標推定部220は、中間データDT1を用いて第2の学習済みモデルM2を用いた推定処理を実行する。図3(d)に示される第2の学習済みモデルM2は、RNN(Recurrent Neural Network)ベースの学習済みモデルであり、中間データDT1から、中間データDT1には含まれない画角外の関節の座標、すなわちこの例では両足首の関節J2の座標を推定することができる。
また、図示された例において、中間データDT1は関節の座標を二次元座標で表現するデータであるが、第2の学習済みモデルM2は、時系列の中間データDT1を入力することによって、図3(e)に示すように関節の座標を三次元座標で推定することができる。図3(e)に示すように、第2の学習済みモデルM2を用いた推定によって得られる最終データDT2は、図3(a)に示された画像A5の画角外に位置する両足首の関節J2を含む、被写体のすべての関節の座標の推定結果を含む。
再び図1を参照して、情報処理装置200の三次元姿勢推定部230は、座標推定部220が推定した関節の座標に基づいて、被写体の全身姿勢を推定する。三次元姿勢推定部230は、推定した被写体の全身姿勢を表すデータ241を、出力部240を介して出力する。例えば、被写体の全身姿勢を表すデータ241は、入力画像211を拡張した画像としてディスプレイに表示されてもよい。例えば、被写体の全身姿勢を表すデータ241は、被写体の姿勢を模倣するユーザのアバターの画像や、ゲームや動画像などのキャラクタの画像の動きとして出力されてもよい。あるいは、ディスプレイによる出力とともに、またはこれに代えて、被写体の全身姿勢を表すデータ241は被写体の姿勢を模倣するロボットの動きとして出力されてもよい。
以上で説明したような本実施形態の構成によれば、複数の関節を有する被写体の画像と、画像の画角よりも拡張された範囲で定義される関節の座標情報との関係性を学習することによって構築された学習済みモデル300に基づいて、入力部210に入力された画像の画角外に位置する少なくとも1つの関節を含む複数の関節の座標が推定される。したがって、被写体の一部が画像の画角外に位置する場合でも、画像に基づく被写体の姿勢推定を行うことができる。
図4は、図1の例における関節の座標の推定の別の例について説明するための図である。図4の例において、学習済みモデル300は、図3の例と同様の第1の学習済みモデルM1と、関節ごとに構築される学習済みモデル群(第3の学習済みモデルM3、第4の学習済みモデルM4、および第5の学習済みモデルM5)とを含む。
図4(a)および(b)に示される例では、図3(a)および(b)と同様に、座標推定部220は、第1の学習済みモデルM1を用いて、画像A5の画角内に位置する関節、すなわち両足首の関節J2を除く関節の座標を推定する。これによって、画像の画角内に位置する関節の座標を特定した中間データDT1が得られる。
次に、図4(c)に示されるように、座標推定部220は中間データDT1を用いて第3の学習済みモデルM3から第5の学習済みモデルM5を用いた推定処理を実行する。
図4(d)に示される第3の学習済みモデルM3から第5の学習済みモデルM5は、図3に例示した第2の学習済みモデルM2と同様に、RNN(Recurrent Neural Network)ベースの学習済みモデルである。ただし、図4(d)に示される第3の学習済みモデルM3から第5の学習済みモデルM5は、単一の(または1組の)関節の座標を推定することについて限定的に構築された学習済みモデルである。例えば、第3の学習済みモデルM3は、両足首の関節の座標を推定することについて限定的に構築された学習済みモデルである。この場合、座標推定部220は、第3の学習済みモデルM3を用いて、中間データDT1から、両足首の関節J2の座標を推定することができる。他にも画角外に位置する関節がある場合、第4の学習済みモデルM4または第5の学習済みモデルM5を用いた推定が並行して実施され、推定結果が統合されてもよい。
図4(d)に示される第3の学習済みモデルM3から第5の学習済みモデルM5は、図3に例示した第2の学習済みモデルM2と同様に、RNN(Recurrent Neural Network)ベースの学習済みモデルである。ただし、図4(d)に示される第3の学習済みモデルM3から第5の学習済みモデルM5は、単一の(または1組の)関節の座標を推定することについて限定的に構築された学習済みモデルである。例えば、第3の学習済みモデルM3は、両足首の関節の座標を推定することについて限定的に構築された学習済みモデルである。この場合、座標推定部220は、第3の学習済みモデルM3を用いて、中間データDT1から、両足首の関節J2の座標を推定することができる。他にも画角外に位置する関節がある場合、第4の学習済みモデルM4または第5の学習済みモデルM5を用いた推定が並行して実施され、推定結果が統合されてもよい。
なお、図4の例においても、図3の例と同様に、中間データDT1は関節の座標を二次元座標で表現するデータであるが、第3の学習済みモデルM3から第5の学習済みモデルM5は、時系列の中間データDT1を入力することによって、図4(e)に示すように関節の座標を三次元座標で推定することができる。図4(e)に示すように、第3の学習済みモデルM3から第5の学習済みモデルM5を用いた推定によって得られる最終データDT3は、図4(a)に示された画像A5の画角外に位置する両足首の関節J2を含む、被写体のすべての関節の座標の推定結果を含む。
図4に例示した関節の座標の推定の別の例によれば、画像の画角外に位置するのがどこの関節であるかに応じて、異なる学習済みモデルを用いてその関節の座標が推定される。それぞれの学習済みモデル(上記の例の場合、第3の学習済みモデルM3、第4の学習済みモデルM4、および第5の学習済みモデルM5)が単一の(または1組の)関節の座標を推定することについて限定的に構築されることによって、各モデルのサイズが小さくなり、処理負荷を軽減することが期待できる。
また、例えば、「顔の位置のみ推定」等の限定的な要望に関して、最小限の処理負荷で結果を得ることができる。
また、例えば、「顔の位置のみ推定」等の限定的な要望に関して、最小限の処理負荷で結果を得ることができる。
図5は、図1の例における関節の座標の推定のさらに別の例について説明するための図である。図5の例において、学習済みモデル300は、図3に例示した第1の学習済みモデルM1および第2の学習済みモデルM2による2段階の推定処理を一括して実行する機能を有する学習済みモデルであり、時系列の入力画像211から画角外に位置するものを含む被写体の関節の座標を推定する第6の学習済みモデルM6を含む。座標推定部220は、第6の学習済みモデルM6を用いて推定処理を実行する。
図5(a)に示される例では、図3(a)の例と同様に、入力画像211は、両足首の関節J2が画角外に位置する画像A5を含む。図示された例において、入力画像211は基本的には二次元画像であるが、第6の学習済みモデルM6は、時系列の入力画像211を入力することによって、図5(c)に示すように関節の座標を三次元座標で推定することができる。
図5(b)に示される第6の学習済みモデルM6は、図3(b)に示された第1の学習済みモデルM1に、図3(d)に示された第2の学習済みモデルM2のような時制的な要素を加味した学習済みモデルである。座標推定部220は、第6の学習済みモデルM6を用いて、画像A5の画角内および画角外に位置する関節、すなわち両足首の関節J2を含めたすべての関節の座標を推定する。
この結果、図5(c)に示すように、第6の学習済みモデルM6を用いた推定によって得られる最終データDT4は、図5(a)に示された画像A5の画角外に位置する両足首の関節J2を含む、被写体のすべての関節の座標の推定結果を含む。
なお、上述した本発明の実施形態において、情報処理装置100による学習済みモデル300の構築と、情報処理装置200による被写体の全身姿勢の推定とは、独立に行われても良い。例えば、情報処理装置100による学習済みモデル300の構築を予め行っておき、任意の情報処理装置200が学習済みモデル300に基づいて、被写体の全身姿勢の推定を行っても良い。また、例えば、情報処理装置100および情報処理装置200が学習済みモデル300と接続可能な単一のコンピュータによって実装されても良い。
また、本発明の実施形態において、情報処理装置100および情報処理装置200で実装されるものとして説明された機能は、サーバーで実装されてもよい。例えば、撮像装置によって生成された画像が情報処理装置からサーバーに送信され、サーバーで被写体の全身姿勢の推定を行うことも可能である。
また、本発明の実施形態の学習済みモデル300は、被写体が有するすべての関節の位置を推定するモデルであっても良いし、一部の関節の位置のみを推定するモデルであっても良い。また、本実施形態の座標推定部220は、被写体が有するすべての関節の位置を推定しても良いし、一部の関節の位置のみを推定しても良い。さらに、本実施形態の三次元姿勢推定部230は、被写体の全身の三次元姿勢を推定しても良いし、例えば、上半身のみなど、一部の三次元姿勢のみを推定しても良い。
また、本発明の実施形態においては、被写体として人物を例示したが、本発明はこの例に限定されない。例えば、動物やロボットなど、複数の関節を有する被写体であればどのようなものであっても対象となり得る。本実施形態における情報処理装置200は、例えばロボットに実装することにより、ロボットの動き制御に利用することができる。また、本実施形態における情報処理装置200は、例えば監視カメラ装置に実装することにより、不審人物の監視などに利用することができる。
図6および図7は、本発明の実施形態における処理の例を示すフローチャートである。
図6には、情報処理装置100が学習済みモデル300を構築するまでの処理が示されている。まず、情報処理装置100の入力部110が、関係性学習部120による学習に用いられる入力データ111、すなわち画像と、被写体の関節の座標情報とを含むデータの入力を受け付ける(ステップS101)。ここで、関節の座標情報は、画像の画角よりも拡張された範囲で定義されており、したがって被写体の一部の関節が画角外に位置する画像についても、入力データ111には、画像と、当該関節を含むすべての関節の座標情報とが含まれる。次に、関係性学習部120が、入力データ111における画像と座標情報との関係性を学習することによって学習済みモデル300を構築する(ステップS102)。情報処理装置100では、出力部130が、例えばネットワーク上のストレージに構築された学習済みモデル300、具体的には例えば学習済みモデル300のパラメータを出力する(ステップS103)。
図6には、情報処理装置100が学習済みモデル300を構築するまでの処理が示されている。まず、情報処理装置100の入力部110が、関係性学習部120による学習に用いられる入力データ111、すなわち画像と、被写体の関節の座標情報とを含むデータの入力を受け付ける(ステップS101)。ここで、関節の座標情報は、画像の画角よりも拡張された範囲で定義されており、したがって被写体の一部の関節が画角外に位置する画像についても、入力データ111には、画像と、当該関節を含むすべての関節の座標情報とが含まれる。次に、関係性学習部120が、入力データ111における画像と座標情報との関係性を学習することによって学習済みモデル300を構築する(ステップS102)。情報処理装置100では、出力部130が、例えばネットワーク上のストレージに構築された学習済みモデル300、具体的には例えば学習済みモデル300のパラメータを出力する(ステップS103)。
一方、図7には、情報処理装置200が学習済みモデル300を用いて画像から関節の座標を推定する処理が示されている。情報処理装置200の入力部210が新たな入力画像211の入力を受け付けると(ステップS201)、座標推定部220が学習済みモデル300を用いて画像から関節の座標を推定する(ステップS202)。さらに、三次元姿勢推定部230が、座標推定部220による関節の座標の推定結果に基づいて被写体の全身姿勢を推定する(ステップS203)。情報処理装置200では、出力部240が、推定した被写体の全身姿勢を表すデータを出力する(ステップS204)。
以上、添付図面を参照しながら本発明のいくつかの実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
10…システム、100,200…情報処理装置、110,210…入力部、111…入力データ、120…関係性学習部、130,240…出力部、211…入力画像、212…撮像装置、220…座標推定部、230…三次元姿勢推定部、300…学習済みモデル
Claims (13)
- 複数の関節を有する被写体の第1の画像と、前記複数の関節の位置を示し前記第1の画像の画角よりも拡張された範囲で定義される座標情報との関係性を学習することによって、新たに取得された前記被写体の第2の画像の画角外に位置する少なくとも1つの関節の座標情報を推定する学習済みモデルを構築する関係性学習部を備える情報処理装置。
- 前記関係性学習部は、前記少なくとも1つの関節を含む前記複数の関節の前記座標情報を推定する前記学習済みモデルを構築する、請求項1に記載の情報処理装置。
- 前記関係性学習部は、時系列で取得された複数の前記第1の画像と、複数の前記第1の画像の前記座標情報との関係性を学習することによって、前記第2の画像における前記複数の関節の三次元の座標情報を推定する前記学習済みモデルを構築する、請求項1または請求項2に記載の情報処理装置。
- 前記複数の関節は、第1の関節および第2の関節を含み、
前記学習済みモデルは、前記第1の関節が前記第2の画像の画角外に位置するときに前記第1の関節の座標情報を推定する第1の学習済みモデルと、前記第2の関節が前記第2の画像の画角外に位置するときに前記第2の関節の座標情報を推定する第2の学習済みモデルとを含む、請求項1から請求項3のいずれか一項に記載の情報処理装置。 - 前記学習済みモデルは、前記第2の画像の画角内に位置する関節の座標情報を推定する第3の学習済みモデルと、前記第2の画像の画角外に位置する少なくとも1つの関節の座標情報を推定する第4の学習済みモデルとを含む、請求項1から請求項4のいずれか一項に記載の情報処理装置。
- 複数の関節を有する被写体の第1の画像と、前記複数の関節の位置を示し前記第1の画像の画角よりも拡張された範囲で定義される座標情報との関係性を学習することによって構築された学習済みモデルに基づいて、新たに取得された前記被写体の第2の画像の画角外に位置する少なくとも1つの関節の座標情報を推定する座標推定部を備える情報処理装置。
- 前記座標推定部は、前記少なくとも1つの関節を含む前記複数の関節の前記座標情報を推定する、請求項6に記載の情報処理装置。
- 前記第2の画像は、時系列で取得された複数の画像を含み、
前記座標推定部は、前記複数の関節の三次元の座標情報を推定する、請求項6または請求項7に記載の情報処理装置。 - 前記複数の関節は、第1の関節および第2の関節を含み、
前記学習済みモデルは、前記第1の関節が前記第2の画像の画角外に位置するときに前記第1の関節の座標情報を推定する第1の学習済みモデルと、前記第2の関節が前記第2の画像の画角外に位置するときに前記第2の関節の座標情報を推定する第2の学習済みモデルとを含み、
前記座標推定部は、前記第1の関節が前記第2の画像の画角外に位置するときには前記第1の学習済みモデルに基づいて前記第1の関節の座標情報を推定し、前記第2の関節が前記第2の画像の画角外に位置するときには前記第2の学習済みモデルに基づいて前記第2の関節の座標情報を推定する、請求項6から請求項8のいずれか一項に記載の情報処理装置。 - 前記学習済みモデルは、前記第2の画像の画角内に位置する関節の座標情報を推定する第3の学習済みモデルと、前記第2の画像の画角外に位置する少なくとも1つの関節の座標情報を推定する第4の学習済みモデルとを含み、
前記座標推定部は、前記第3の学習済みモデルに基づいて前記第2の画像の画角内に位置する関節の座標情報を推定し、前記第4の学習済みモデルに基づいて前記第2の画像の画角外に位置する少なくとも1つの関節の座標情報を推定する、請求項6から請求項9のいずれか一項に記載の情報処理装置。 - 複数の関節を有する被写体の第1の画像と、前記複数の関節の位置を示し前記第1の画像の画角よりも拡張された範囲で定義される座標情報との関係性を学習することによって、新たに取得された前記被写体の第2の画像の画角外に位置する少なくとも1つの関節の座標情報を推定する学習済みモデルを構築するステップと、
前記学習済みモデルに基づいて、前記第2の画像の画角外に位置する少なくとも1つの関節の座標情報を推定するステップと
を含む情報処理方法。 - 複数の関節を有する被写体の第1の画像と、前記複数の関節の位置を示し前記第1の画像の画角よりも拡張された範囲で定義される座標情報との関係性を学習することによって、新たに取得された前記被写体の第2の画像の画角外に位置する少なくとも1つの関節の座標情報を推定する学習済みモデルを構築する機能をコンピュータに実現させるためのプログラム。
- 複数の関節を有する被写体の第1の画像と、前記複数の関節の位置を示し前記第1の画像の画角よりも拡張された範囲で定義される座標情報との関係性を学習することによって構築された学習済みモデルに基づいて、新たに取得された前記被写体の第2の画像の画角外に位置する少なくとも1つの関節の座標情報を推定する機能をコンピュータに実現させるためのプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2019/037031 WO2021053817A1 (ja) | 2019-09-20 | 2019-09-20 | 情報処理装置、情報処理方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2021053817A1 JPWO2021053817A1 (ja) | 2021-03-25 |
JP7223865B2 true JP7223865B2 (ja) | 2023-02-16 |
Family
ID=74884424
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021546157A Active JP7223865B2 (ja) | 2019-09-20 | 2019-09-20 | 情報処理装置、情報処理方法およびプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220327733A1 (ja) |
JP (1) | JP7223865B2 (ja) |
CN (1) | CN114391156A (ja) |
WO (1) | WO2021053817A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021174059A (ja) * | 2020-04-20 | 2021-11-01 | オムロン株式会社 | 推定装置、学習装置、教師データ作成装置、推定方法、学習方法、教師データ作成方法、及びプログラム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014021816A (ja) | 2012-07-20 | 2014-02-03 | Hitachi Ltd | 画像認識装置及びエレベータ装置 |
US20140244344A1 (en) | 2013-02-26 | 2014-08-28 | Elwha Llc | System and method for activity monitoring |
JP2017097577A (ja) | 2015-11-24 | 2017-06-01 | キヤノン株式会社 | 姿勢推定方法及び姿勢推定装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112005198A (zh) * | 2018-01-25 | 2020-11-27 | 脸谱科技有限责任公司 | 基于多个输入的手部状态重建 |
JP7209333B2 (ja) * | 2018-09-10 | 2023-01-20 | 国立大学法人 東京大学 | 関節位置の取得方法及び装置、動作の取得方法及び装置 |
-
2019
- 2019-09-20 JP JP2021546157A patent/JP7223865B2/ja active Active
- 2019-09-20 US US17/641,889 patent/US20220327733A1/en active Pending
- 2019-09-20 WO PCT/JP2019/037031 patent/WO2021053817A1/ja active Application Filing
- 2019-09-20 CN CN201980100231.0A patent/CN114391156A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014021816A (ja) | 2012-07-20 | 2014-02-03 | Hitachi Ltd | 画像認識装置及びエレベータ装置 |
US20140244344A1 (en) | 2013-02-26 | 2014-08-28 | Elwha Llc | System and method for activity monitoring |
JP2017097577A (ja) | 2015-11-24 | 2017-06-01 | キヤノン株式会社 | 姿勢推定方法及び姿勢推定装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021174059A (ja) * | 2020-04-20 | 2021-11-01 | オムロン株式会社 | 推定装置、学習装置、教師データ作成装置、推定方法、学習方法、教師データ作成方法、及びプログラム |
JP7375666B2 (ja) | 2020-04-20 | 2023-11-08 | オムロン株式会社 | 推定装置、学習装置、教師データ作成装置、推定方法、学習方法、教師データ作成方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
CN114391156A (zh) | 2022-04-22 |
JPWO2021053817A1 (ja) | 2021-03-25 |
WO2021053817A1 (ja) | 2021-03-25 |
US20220327733A1 (en) | 2022-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190126484A1 (en) | Dynamic Multi-Sensor and Multi-Robot Interface System | |
WO2020054442A1 (ja) | 関節位置の取得方法及び装置、動作の取得方法及び装置 | |
JP6116784B1 (ja) | 3次元モデル生成システム、3次元モデル生成方法、及びプログラム | |
KR101347840B1 (ko) | 신체 제스처 인식 방법 및 장치 | |
US20100271200A1 (en) | Postural information system and method including determining response to subject advisory information | |
KR102436906B1 (ko) | 대상자의 보행 패턴을 식별하는 방법 및 이를 수행하는 전자 장치 | |
JP2019041261A (ja) | 画像処理システムおよび画像処理システムの設定方法 | |
CN105027030A (zh) | 用于三维成像、映射、建网和界面连接的无线腕式计算和控制设备和方法 | |
US9008442B2 (en) | Information processing apparatus, information processing method, and computer program | |
JP6598191B2 (ja) | 画像表示システムおよび画像表示方法 | |
JP7520123B2 (ja) | 人間-ロボット混在製造プロセスにおける自動異常検出のためのシステムおよび方法 | |
WO2022174594A1 (zh) | 基于多相机的裸手追踪显示方法、装置及系统 | |
JP2021144631A (ja) | 動物行動推定システム、動物行動推定支援装置、動物行動推定方法及びプログラム | |
JP7223865B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
JP2003266349A (ja) | 位置認識方法、その装置、そのプログラム、その記録媒体及び位置認識装置搭載型ロボット装置 | |
JP2020141806A (ja) | 運動評価システム | |
JP7388352B2 (ja) | 制御装置、制御方法、およびプログラム | |
KR20210046759A (ko) | 이미지 디스플레이 방법, 장치 및 시스템 | |
WO2019123744A1 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN113986093A (zh) | 互动方法及相关装置 | |
JP2021141876A (ja) | 動物行動推定装置、動物行動推定方法及びプログラム | |
WO2020008726A1 (ja) | 対象物体検出プログラム、および対象物体検出装置 | |
WO2018127995A1 (ja) | 回転ずれ量検出装置、物体検知センサ、回転ずれ量検出システム、回転ずれ量検出方法及び回転ずれ量検出プログラム | |
CN111971149A (zh) | 记录介质、信息处理设备和信息处理方法 | |
WO2023119657A1 (ja) | 接触対象推定装置、方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211118 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230110 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230206 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7223865 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |