JP2022510417A

JP2022510417A - 関節のある身体姿勢を検出するシステムおよび方法

Info

Publication number: JP2022510417A
Application number: JP2021531830A
Authority: JP
Inventors: ペスカルダン
Original assignee: Everseen Ltd
Current assignee: Everseen Ltd
Priority date: 2018-12-03
Filing date: 2019-10-18
Publication date: 2022-01-26
Anticipated expiration: 2039-10-18
Also published as: WO2020115579A1; KR102598762B1; KR20210095941A; JP7241876B2; MX2021006521A; AU2019394188B2; US20200175713A1; CN113168521A; CA3121119C; CA3121119A1; BR112021008816A2; US10937185B2; CO2021008155A2; EP3891651A1; AU2019394188A1; CL2021001455A1

Abstract

イメージコンテンツから関節のある身体姿勢を検出するシステムは、イメージコンテンツを取り込む撮像モジュールと、イメージコンテンツのトップダウンビューを取得し、機械学習アルゴリズムを使用して、トップダウンビューを処理し、関節のある身体姿勢を検出するように動作可能なプロセッサとを含み、関節のある身体姿勢は複数の関節を含んでいる。処理は、関節のある身体姿勢の各関節に対応する部分信頼度マップを作成することと、イメージコンテンツのトップダウンビューに部分信頼度マップを投影することによってヒートマップを生成することと、各身体部分に対応する部分親和性マップを作成することと、イメージコンテンツのトップダウンビューに部分親和性マップを投影してベクトルマップを生成することと、ヒートマップとベクトルマップを使用し、関節のある身体姿勢に対応する身体フレームワークを生成することと、を含む。

Description

本開示は、概して、関節のある身体姿勢の検出に、より具体的には、イメージコンテンツから関節のある身体姿勢を検出するシステムに関する。さらに、本開示はまた、イメージコンテンツから関節のある身体姿勢を検出する方法に関する。

技術の進歩に伴い、姿勢推定は非常に重要になっている。姿勢推定は、人間活動の解析、研究用動物の活動の解析など、様々なアプリケーションに貢献している。さらに、姿勢推定は盗難などの万引き犯による非合法活動を検出することによりビデオ監視を支援し、これにより、店員に注意を促し盗難を防止する。さらに、姿勢推定は、知的運転者支援システム、必要な人間用の生活支援システム、ビデオゲーム、理学療法などに利用されている。さらに、姿勢推定は、スポーツ、軍事、医療、ロボット工学などの分野で積極的に使用されている。

概して、人間はそれぞれ、異なる身体構造、異なる体型、異なる肌の色などを有しているので、姿勢検出は困難なタスクである。さらに、人間の異なるタイプの衣服は、姿勢の推定を複雑にする。従来、１人用の姿勢推定方法が、姿勢推定に使用されていた。１人用の姿勢推定方法は、画像内の各人物を１人ずつ検出する人物検出器を含み、これにより時間のかかるプロセスとなっている。さらに、画像の背景から人物をセグメント化することは過酷なタスクであるため、画像内の複数の人物の検出は困難である。特に、人々の数が増えるにつれて、人間の姿勢のリアルタイム推定の複雑さは増し、これにより、姿勢推定のリアルタイム性能は大きな課題となっている。

さらに、現在使用されている姿勢推定技術は、偽の実在につながる可能性があり、すなわち、人間の像などの非人間を人間として検出する可能性がある。通常、使用される姿勢推定技術は、姿勢推定を実行する必要のある領域の限られた視野を提供する水平視線カメラ設定を利用している。

したがって、前述の議論に照らして、姿勢検出技術に関連付けられた前述の欠点を克服する必要がある。

本開示の第１の態様によれば、イメージコンテンツから関節のある身体姿勢を検出するシステムが提供される。システムは、イメージコンテンツを取り込む撮像モジュールと、撮像モジュールに通信可能に結合されたプロセッサと、を含み得る。プロセッサは、イメージコンテンツのトップダウンビューを取得して、機械学習アルゴリズムを使用して、トップダウンビューを処理し、イメージコンテンツに対応する関節のある身体姿勢を検出するように動作可能である。処理は、関節のある身体姿勢の各関節に対応する部分信頼度マップを作成すること、およびイメージコンテンツのトップダウンビューに部分信頼度マップを投影することによってヒートマップを生成すること、を含み得る。処理は、関節のある身体姿勢の各関節に関連付けられた各身体部分に対応する部分親和性マップを作成すること、およびイメージコンテンツのトップダウンビューに部分親和性マップを投影することによってベクトルマップを生成すること、をさらに含み得る。処理は、関節のある身体姿勢を検出するために、ヒートマップおよびベクトルマップを使用して、関節のある身体姿勢に対応する身体フレームワークを生成すること、をさらに含み得る。

本開示の第２の態様によれば、イメージコンテンツから関節のある身体姿勢を検出する方法が提供される。方法は、イメージコンテンツのトップダウンビューを取得すること、および、機械学習アルゴリズムを使用して、トップダウンビューを処理し、イメージコンテンツに対応する関節のある身体姿勢を検出することを含み得る。処理は、関節のある身体姿勢の各関節に対応する部分信頼度マップを作成すること、およびイメージコンテンツのトップダウンビューに部分信頼度マップを投影することによってヒートマップを生成すること、を含み得る。処理は、関節のある身体姿勢の各関節に関連付けられた各身体部分に対応する部分親和性マップを作成すること、およびイメージコンテンツのトップダウンビューに部分親和性マップを投影することによってベクトルマップを生成すること、をさらに含み得る。処理は、関節のある身体姿勢を検出するために、ヒートマップおよびベクトルマップを使用して、関節のある身体姿勢に対応する身体フレームワークを生成すること、をさらに含み得る。

本開示の第３の態様によれば、イメージコンテンツから関節のある身体姿勢を検出するためのコンピュータプログラム製品が提供される。コンピュータプログラム可能製品は、プロセッサによって実行されると、プロセッサに、イメージコンテンツのトップダウンビューを取得させ、機械学習アルゴリズムを使用して、トップダウンビューを処理し、イメージコンテンツに対応する関節のある身体姿勢を検出させるような、一連の命令を含み、関節のある身体姿勢は複数の関節を含む。処理は、関節のある身体姿勢の各関節に対応する部分信頼度マップを作成すること、およびイメージコンテンツのトップダウンビューに部分信頼度マップを投影することによってヒートマップを生成すること、を含み得る。処理は、関節のある身体姿勢の各関節に関連付けられた各身体部分に対応する部分親和性マップを作成すること、およびイメージコンテンツのトップダウンビューに部分親和性マップを投影することによってベクトルマップを生成すること、をさらに含み得る。処理は、関節のある身体姿勢を検出するために、ヒートマップおよびベクトルマップを使用して、関節のある身体姿勢に対応する身体フレームワークを生成することを、さらに含み得る。

本開示の特徴は、添付の特許請求の範囲によって定義される本開示の範囲から逸脱することなく、様々な組み合わせで組み合わせることが可能であることが理解されるであろう。

上記の概要、および以下の例示的な実施形態の詳細な説明は、添付の図面と併せて読むとよりよく理解される。本開示を説明する目的のために、本開示の例示的な構造が、図面に示されている。しかしながら、本開示は、本明細書で開示される特定の方法および手段に限定されない。さらに、当業者は、図面が縮尺通りではないことを理解するであろう。可能であれば常に、同様の要素は、同一の番号によって示されている。

本開示の実施形態は、以下の図を参照して、例としてのみ説明される。

図１は、本開示の一実施形態による、イメージコンテンツから関節のある身体姿勢を検出するシステムのブロック図である。図２は、本開示の例示的な実施形態による、関節のある身体姿勢を検出するシステムによって取得されるイメージコンテンツの図である。図３は、本開示の例示的な実施形態による、関節のある身体姿勢を検出するために作成された複数の部分信頼度マップの図である。図４Ａは、本開示の例示的な実施形態による、関節のある身体姿勢を検出するために作成された複数の部分親和性マップの図である。図４Ｂは、本開示の例示的な実施形態による、関節のある身体姿勢を検出するために作成された複数の部分親和性マップの図である。図５は、本開示の例示的な実施形態による、図２のイメージコンテンツにおける関節のある身体姿勢に対応する身体フレームワークの図である。図６は、本開示の一実施形態による、イメージコンテンツから関節のある身体姿勢を検出する方法のステップを示す。

付随する図面において、下線のある番号は、下線のある番号が位置付けられる項目、または下線のある番号が隣接している項目を表すために利用される。下線のない番号は、下線のない番号を項目にリンクする線によって識別される項目に関する。番号に、下線がなく、関連する矢印によって付随された場合に、下線のない番号は、矢印が向いている一般的な項目を識別するために使用される。

以下の詳細な説明は、本開示の実施形態およびそれらを実施できるやり方を示す。本開示を実施するいくつかのモードが開示されているが、当業者は、本開示を実施または実践するための他の実施形態も可能であることを認識するであろう。

本開示は、イメージコンテンツのトップダウンビューを利用し、トップダウンビューによって提供される拡張図の助けを借りて、正確に関節のある身体姿勢を検出する、イメージコンテンツから関節のある身体姿勢を検出するシステムおよび方法を提供する。さらに、システムは、イメージコンテンツ内の人間および／または動物の身体ごとに関連付けられた、異なる身体構造、異なる体型、異なる肌色の影響を考慮して、イメージコンテンツ内の、複数の人体、動物体、またはその両方の関節のある身体姿勢を検出することが可能である。さらに、システムは、複数の関節のある身体姿勢の検出が同時に行われるため、時間効率の高いプロセスを提供する。さらに、システムは、リアルタイムの身体の数が増加した場合でも、各身体を正確に検出することにより、リアルタイムの関節のある身体姿勢検出が直面する複雑さの軽減を可能にする。

図１を参照すると、本開示によるイメージコンテンツから関節のある身体姿勢を検出するシステム１００のブロック図が示されている。システム１００は、イメージコンテンツを取り込む撮像モジュール１０２を含む。イメージコンテンツは、画像、ビデオ、およびグラフィックス交換フォーマット（ＧＩＦ）ベースのコンテンツのうちの少なくとも１つを含む。撮像モジュール１０２は、１つまたは複数の画像の形式でイメージコンテンツを取り込むように構成され、画像は、姿勢が検出され得る少なくとも１つの身体を含む。さらに、イメージコンテンツは、様々な姿勢における関節のある身体を描写する一連のフレームを含むビデオの形式であってもよい。さらに、イメージコンテンツは、本質的に反復的な複数のフレームを含むＧＩＦを含んでいてもよく、複数のフレームは、少なくとも１つの関節のある身体姿勢を含む。

撮像モジュール１０２は、撮像デバイス、プロセッサ、およびメモリを備える。任意選択で、撮像デバイスは、限定されないが、ＣＣＴＶ（ｃｌｏｓｅｄ－ｃｉｒｃｕｉｔｔｅｌｅｖｉｓｉｏｎ）カメラ、高解像度（ＨＤ）カメラ、非ＨＤカメラ、ハンドヘルドカメラ、カメラ、パトカーカメラ、無人航空機（ＵＡＶ）に利用されているカメラを含む。特に、１つまたは複数の撮像デバイスが、イメージコンテンツを取り込むおよび／または記録するために、撮像モジュール１０２内で使用され得る。任意選択で、撮像モジュール１０２は、イメージコンテンツを取り込むおよび／または記録するように構成されたリモートデバイスに通信可能に結合される。リモートデバイスは、限定されないが、スマートフォン、デジタルカメラ、ラップトップコンピュータ、パーソナルコンピュータ、およびタブレットコンピュータを含む。さらに、撮像モジュール１０２は、撮像モジュール１０２によって受信および／または取り込まれたイメージコンテンツを処理するように構成されたプロセッサを備える。本開示を通じて、「プロセッサ」という用語は、システム１００を動かす命令に応答し処理するように動作可能な計算要素に関連する。任意選択で、プロセッサは、限定されないが、マイクロプロセッサ、マイクロコントローラ、複合命令セットコンピューティング（ＣＩＳＣ）マイクロプロセッサ、縮小命令セット（ＲＩＳＣ）マイクロプロセッサ、超長命令語（ＶＬＩＷ）マイクロプロセッサ、またはその他の任意のタイプの処理回路を含む。さらに、「プロセッサ」という用語は、１つまたは複数の個々のプロセッサ、処理装置、および他の処理装置によって共有され得る撮像モジュール１０２に関連付けられた様々な要素を指し得る。処理されたイメージコンテンツはさらに、撮像モジュール１０２のメモリに格納される。本明細書で使用される「メモリ」という用語は、コンピュータがデータまたはソフトウェアを任意の期間保存できる、電気回路、磁気ディスク、仮想メモリ、または光ディスクなどの揮発性または持続性媒体に関する。任意選択で、メモリは、物理記憶媒体などの不揮発性大容量記憶装置を含む。

図２は、撮像モジュール１０２の設定中に、垂直視線に焦点を合わせることにより、撮像モジュール１０２によって生成された例示的なイメージコンテンツ２００を示す。イメージコンテンツ２００は、ＣＣＴＶ、トップダウンビューを取り込むために高所で利用されるカメラなどの撮像デバイスによって直接取得され得る。一例では、ＣＣＴＶはホテルのロビーなどのエリア内の監視に利用されている。別の例では、カメラは野球場の各選手のトップダウンビューを取り込むために野球場内の高所で利用される。一実施形態では、トップダウンビューは、イメージコンテンツの複数のビューを処理し、トップダウンビューを取得することによって取得され得る。一実施形態では、イメージコンテンツの複数のビューは、背面ビュー、正面ビュー、上面ビュー、底面ビュー、左側面ビュー、右側面ビュー、および斜視ビューを含む。

図１に戻って参照すると、システム１００は、イメージコンテンツ２００などのイメージコンテンツのグラウンドトゥルース（ＧＴ）を生成するグラウンドトゥルース生成モジュール１０４をさらに含む。ＧＴ生成モジュール１０４は、情報を格納、処理、および／または共有するように構成されたプログラム可能および／または非プログラム可能コンポーネントを含む構造および／またはモジュールに関する。

ＧＴラベルの第１の部分は、部分信頼度マップ（ＰＣＭ）を含み、ＰＣＭは、関節がイメージコンテンツ２００の関節のある身体姿勢のどこに位置するか、および関節位置の周りのどのくらいの領域が「ＧＴ」と見なされるかを定義する。一例では、ＰＣＭは、関節位置が実際にイメージコンテンツ２００のどこに位置するかのアノテーションを含む。関節のタイプ（例えば、左肩、右肘、頭など）ごとに、ＧＴ生成モジュール１０４は、ラベルマトリックスを生成し得る。一例では、ラベルマトリックスは（４６×４６）ラベルマトリックスであり得る。

本開示の一実施形態では、ＰＣＭを生成するために、ＧＴ生成モジュール１０４は、最初に関節アノテーションのそれぞれの位置（ｘ，ｙ）を決定し、決定された位置をより低い解像度の値にスケーリングし、次に、決定された位置の周りにガウス分布などの正規分布を適用するように構成される。決定された位置の周りの分布の長さは「ＧＴ」と見なされ、値、シグマによって示される。

図３は、イメージコンテンツ２００のために生成された第１から第１４の部分信頼度マップ（ＰＣＭ）３０２ａから３０２ｈ（以下、まとめてＰＣＭ３０２と呼ぶ）の例を示す。各ＰＣＭ３０２は、イメージコンテンツ２００の関節のある身体姿勢の各関節のための２次元の解剖学的キーポイントの位置のグラフ表示を参照する。関節のある身体は、各ＰＣＭ３０２を計算するためにバックグラウンドからセグメント化され、関節のある身体の各関節は対応するＰＣＭ３０２を作成するために識別される。一例では、イメージコンテンツ２００がサッカーをしている２人のプレーヤーを含む場合、膝、肘、肩、手首などのプレーヤーのそれぞれの各関節が識別され、ＰＣＭが各関節に対して作成され得る。ＰＣＭ３０２が生成されると、対応するイメージコンテンツ２００のトップダウンビューにＰＣＭ３０２を投影することによって、ヒートマップを作成し得る。ヒートマップにおいて、ＰＣＭ３０２内の検出された関節は、関節のある身体のそれぞれの関節の領域に重ね合わされ得る。領域は、それぞれの関節の正確な位置を含み得る。

ＧＴラベルの第２の部分は部分親和性フィールド（ＰＡＦ）を含み、各ＰＡＦはイメージコンテンツ２００の関節のある身体姿勢の関節接続を定義する。関節接続の例は、限定されないが、頭頸部接続、右肘右肩接続、右肘右肩接続を含む。関節接続ごとに、ＧＴ生成モジュール１０４は２つのラベルマトリックスを生成するように構成され、１つはＸ方向用のラベルマトリックス、もう１つはＹ方向用のラベルマトリックスである。一例では、各ラベルマトリックスは（４６ｘ４６）ラベルマトリックスである

ラベルマトリックスを生成するために、ＧＴ生成モジュール１０４は、２つの関節位置、例えば、頭および首の関節位置を取り、２つの関節位置の間に線を引いて、関節接続を生成する。その後、ＧＴ生成モジュール１０４は、関節接続に対応する、ＸおよびＹ方向のそれぞれにおける点のセットを計算する。点のセットは、２つの関節間の線分の距離閾値内にある１つまたは複数の点を含む。

図４Ａおよび４Ｂは、本開示の例示的な実施形態による、イメージコンテンツ２００に対して生成された例示的なＰＡＦ４００ａおよび４００ｂの例示である。本明細書で使用されるＰＡＦは、関節のある身体の各関節接続に関連付けられた２次元ベクトル場を指す。一例として、人体では、肘と手首が前腕を介して接続されている。したがって、ＰＡＦは、関節のある身体姿勢を検出するために作成された前腕に対応する。関節接続（肘－手首、膝－足首など）用のＰＡＦを作成するために、ｘ軸とｙ軸に対応する２つのマトリックスを生成し得る。その後、関節接続間の線分が計算され、線分は関節接続を結ぶ領域（前腕など）に対応し得る。

イメージコンテンツに対してＰＡＦ４００ａおよび４００ｂが生成されると、ベクトルマップは、イメージコンテンツ２００のトップダウンビューにＰＡＦ４００ａおよび４００ｂを投影することによって、生成され得る。したがって、ＰＡＦ４００ａおよび４００ｂのそれぞれの検出された関節接続は、関節のある身体のそれぞれの関節接続の正確な位置に重ね合わされる。

イメージコンテンツ２００の場合、対応するＰＣＭおよびＰＡＦが組み合わされて、画像関連ラベルを形成する。ラベルは、イメージコンテンツ２００のグラウンドトゥルースである。

本開示の一実施形態では、ＧＴ生成モジュール１０４は、イメージコンテンツ２００と同様のイメージコンテンツを含む複数のデータセットを使用して、姿勢推定ニューラルネットワーク１０６用のグラウンドトゥルースを生成するように構成される。複数のタイプのデータセットの場合、ＧＴ生成モジュール１０４は、共通の骨格構造を定義するように構成され得る。さらに、可能な限り最高のグラウンドトゥルースを構築するために、データセットは事前に検証される。さらに、データセットのイメージコンテンツは、コントラストと明るさを調整するために前処理され得る。また、データセットのイメージコンテンツを、回転、平行移動、スケーリング、ズームなどの拡張機能（ａｕｇｍｅｎｔａｔｉｏｎｓ）を適用することによって、増やし得る。

図１に戻ると、システム１００は、イメージコンテンツのトップダウンビューを処理するための畳み込みニューラルネットワークである姿勢推定ニューラルネットワーク１０６をさらに含む。本明細書で使用される「ニューラルネットワーク」という用語は、処理要素の高度に相互接続されたネットワークを含むことができ、それぞれ、任意選択でローカルメモリに関連付けられる。一例では、ニューラルネットワークは、コホーネンマップ、多層パーセプトロンなどであり得る。さらに、ニューラルネットワークの処理要素は、「人工ニューラルユニット」、「人工ニューロン」、「ニューラルユニット」、「ニューロン」、「ノード」など、とすることができる。さらに、ニューロンは、入力または１つもしくは複数の他のニューロンからデータを受信し、データを処理し、処理されたデータを出力またはさらに１つもしくは複数の他のニューロンに送信できる。ニューラルネットワークまたはその１つもしくは複数のニューロンは、ハードウェア、ソフトウェア、またはハードウェアとソフトウェアの組み合わせのいずれかで生成でき、その後、ニューラルネットワークをトレーニングできる。畳み込みニューラルネットワークは、入力層、複数の隠れ層、および出力層から成ることを理解されるだろう。さらに、畳み込みニューラルネットワークの複数の隠れ層は、通常、畳み込み層、プーリング層、全結合層、および正規化層からなる。任意選択で、ＶｉｓｕａｌＧｅｏｍｅｔｒｙＧｒｏｕｐ１９（ＶＧＧ１９）モデルが畳み込みニューラルネットワークアーキテクチャとして使用される。ＶＧＧ１９モデルは、与えられた画像データ内のオブジェクトを分類するように構成されている。一例では、車、芝生に座っている人間、犬を含む画像を、ＶＧＧ１９畳み込みニューラルネットワークに与える。ＶＧＧ１９は与えられた画像から、車、人、犬を識別および分類する。同様に、ＶＧＧ１９モデルは、関節のある身体姿勢の検出のために、イメージコンテンツ内の関節のある身体を識別するようにトレーニングされる。特に、複数の関節のある身体が識別され得る、および関節のある身体のそれぞれに関連付けられた姿勢が検出され得る。ＶＧＧ１９モデルは、その入力レイヤーを介してイメージコンテンツを受け取るように構成されている。さらに、イメージコンテンツは、さらに処理するために隠れ層に渡される。隠れ層は、畳み込み層の複数のセットを含むことが理解されるであろう。

姿勢推定ニューラルネットワーク１０６は、イメージコンテンツ２００、およびイメージコンテンツ２００のためのＧＴデータに基づいて、イメージコンテンツ２００の予測ラベル１０８を生成するように構成される。イメージコンテンツ２００の場合、予測ラベル１０８は、複数のシグマ値でのＰＣＭ、および複数の閾値でのＰＡＦを含む。

本開示の一実施形態では、姿勢推定ニューラルネットワーク１０６は、複数のシグマ値のためのイメージコンテンツ２００用のＰＣＭを作成するように構成される。各関節（左肩、右肘、頭など）のＰＣＭは、マトリックスを生成することによって作成される。さらに、マトリックスを生成するために、各関節のｘ－ｙの位置が取得される。さらに、正規分布（ガウス分布など）が関節の周囲に適用される。さらに、関節周囲の正規分布の量に応じて、値「シグマ」がＰＣＭに割り当てられる。特に、関節周囲の正規分布が大きいほど、シグマの値は大きくなる。

本開示の別の実施形態では、姿勢推定ニューラルネットワーク１０６は、複数の閾値に対してＰＡＦを作成するように構成される。各関節接続のＰＡＦは、２つのマトリックスを生成することによって作成される。さらに、２つのマトリックス、Ｘ方向の１つのマトリックスともう１つのＹ方向のマトリックス、を生成するために、２つのスケーリングされた関節接続（頭―首など）が考慮される。さらに、関節接続間の線分が計算され、関節接続に対応する点のセットが計算される。さらに、ＰＡＦ内の線分（すなわち、２つの関節を接続する線）からの点のセットのそれぞれの距離に応じて、「閾」値がＰＡＦに割り当てられる。

システム１００は、予測ラベル１０８から、イメージコンテンツ２００の各関節の複数の関節位置（ｘ、ｙ）を抽出するように構成された関節抽出モジュール１１０をさらに含む。複数の関節位置は、それぞれＰＣＭおよびＰＡＦの複数のシグマおよび閾値に対応する。

システムは、イメージコンテンツ２００の対応する複数の関節位置に基づいて複数の骨格構造（以下、推定骨格とも呼ばれる）を構築するように構成された骨格構造構築モジュール１１２をさらに含む。複数の骨格構造は、それぞれＰＣＭおよびＰＡＦの複数のシグマおよび閾値に対応する。

図５を参照すると、本開示の例示的な実施形態による、イメージコンテンツ２００のための骨格構造構築モジュール１１２によって生成された身体フレームワーク５００の図が示されている。身体フレームワーク５００は、検出された関節および検出された関節接続から構築された骨格構造に対応する。検出された関節のある身体姿勢は、関節のある身体に重ねられた身体フレームワーク５００として表示され得る。

図１に戻ると、システム１００は、リアルタイムで検出された関節のある身体姿勢を見ることを視聴者に可能にさせるためのディスプレイデバイス１１４をさらに含み得る。ディスプレイデバイス１１４の例は、限定されないが、液晶ディスプレイ（ＬＤＣ）デバイス、発光ダイオード（ＬＥＤ）ベースのディスプレイ、有機ＬＥＤ（ＯＬＥＤ）ベースのディスプレイデバイス、およびマイクロＯＬＥＤベースのディスプレイデバイスを含む。

本開示の一実施形態では、骨格構造構築モジュール１１２によって生成された骨格構造は、姿勢推定ニューラルネットワーク１０６のトレーニングのためにトレーニングモジュール１１６によってさらに使用される。トレーニングモジュール１１６は、推定骨格をＧＴ骨格と比較し、一致する関節点の数、および一致する骨格の数を決定する。姿勢推定ニューラルネットワーク１０６のトレーニングプロセスは、イメージコンテンツ２００のための骨格構造を所定の回数正確に生成可能になるまで実行される、ことが理解されよう。

本開示の一実施形態では、イメージコンテンツ２００について、トレーニングモジュール１１６は、定義されたＰＣＭ（すなわち、グラウンドトゥルースのＰＣＭ）を、姿勢推定ニューラルネットワーク１０６によって生成された複数の予測ＰＣＭのそれぞれと比較するように構成される。さらに、グラウンドトゥルースＰＣＭと最もよく一致する予測ＰＣＭが選択される。さらに、選択されたＰＣＭ部分信頼度マップに対応するシグマ値（すなわち、真のシグマ値）が、イメージコンテンツ２００に割り当てられる。本開示の別の実施形態では、イメージコンテンツ２００について、システム１００は、定義されたＰＡＦ（すなわち、ＧＴのＰＡＦ）を、予測されたＰＡＦのそれぞれと比較して、複数の閾値から真の閾値を選択するように動作可能である。さらに、グラウンドトゥルースと最も一致する部分親和性フィールドが選択される。さらに、選択された部分親和性フィールドに対応する閾値（すなわち、真の閾値）が、イメージコンテンツ２００に割り当てられる。

一例では、関節抽出モジュール１１０によって出力されたヒートマップは、点（ヒートマップ上の各円の中心）を比較し、それらを照合することによって、グラウンドトゥルースヒートマップと比較される。２つの点が同じ位置にある場合、またはｘ軸もしくはｙ軸で最大１ピクセルの違いがあるが、両方にはない場合、２つの点は一致すると見なされる。次に、推論の出力、すなわち、骨格構造構築モジュール１１２によって生成された骨格が、グラウンドトゥルース骨格と比較される。２つの骨格は、それらの間で一致する点の数を最大にし、残りの点の間の距離を最小にすることによって一致する。点は上記のように一致する。この比較に基づいて、一致した骨格の数および骨格（一致していない）の残りの数などのメトリックが決定される。

図６を参照すると、本開示の一実施形態による、イメージコンテンツから関節のある身体姿勢を検出するための方法のステップが示されている。ステップ６０２にて、イメージコンテンツのトップダウンビューが取得される。ステップ６０４にて、機械学習アルゴリズムを使用して、トップダウンビューが処理され、イメージコンテンツに対応する関節のある身体姿勢が検出される。ステップ６０４は、関節のある身体姿勢の各関節に対応する部分信頼度マップを作成することと、イメージコンテンツのトップダウンビューに部分信頼度マップを投影することによってヒートマップを生成することと、関節のある身体姿勢の各関節に関連付けられた各身体部分に対応する部分親和性フィールドを作成することと、イメージコンテンツのトップダウンビューに部分親和性フィールドを投影してベクトルマップを生成することと、関節のある身体姿勢を検出するために、ヒートマップとベクトルマップを使用し、関節のある身体姿勢に対応する身体フレームワークを生成することと、をさらに含む。

上記で説明された本開示の実施形態に対する変更は、付随する特許請求の範囲によって定義される本開示の範囲から逸脱することなく可能である。本開示を説明および請求するために使用される「～を含む（ｉｎｃｌｕｄｉｎｇ）」、「～を備える（ｃｏｍｐｒｉｓｉｎｇ）」、「～を組み込む（ｉｎｃｏｒｐｏｒａｔｉｎｇ）」、「～からなる（ｃｏｎｓｉｓｔｉｎｇｏｆ）」、「～を有する（ｈａｖｅ）」、「～である（ｉｓ）」などの表現は、非排他式にみなされることが意図されており、すなわち、明示的に説明されていない項目、コンポーネント、または要素もまた存在することが可能である。単数形への言及もまた、複数形に関するようにみなされる。

Claims

イメージコンテンツから関節のある身体姿勢を検出するシステムであって、
前記イメージコンテンツを取り込む撮像モジュールと、
前記撮像モジュールと通信可能に結合されたプロセッサであって、前記プロセッサは、
前記イメージコンテンツのトップダウンビューを取得し、
機械学習アルゴリズムを使用して、前記トップダウンビューを処理し、前記イメージコンテンツに対応する前記関節のある身体姿勢を検出することであって、前記関節のある身体姿勢は複数の関節を含むように動作可能であり、前記処理は、
前記関節のある身体姿勢の各関節に対応する部分信頼度マップを作成することと、
前記イメージコンテンツの前記トップダウンビューに前記部分信頼度マップを投影することによってヒートマップを生成することと、
前記関節のある身体姿勢の前記各関節に関連付けられた各身体部分に対応する部分親和性マップを作成することと、
前記イメージコンテンツの前記トップダウンビューに前記部分親和性マップを投影することによってベクトルマップを生成することと、
前記関節のある身体姿勢を検出するために、前記ヒートマップおよび前記ベクトルマップを使用して前記関節のある身体姿勢に対応する身体フレームワークを生成することと、
を含む、前記プロセッサと、
を備えた、システム。
前記撮像モジュールが、撮像デバイスと、プロセッサと、メモリとを含む、請求項１に記載のシステム。
前記イメージコンテンツは、画像、ビデオ、グラフィックス交換フォーマット（ＧＩＦ）ベースのコンテンツの少なくとも１つを含む、請求項１に記載のシステム。
前記システムは、前記機械学習アルゴリズムのトレーニングをさらに備え、前記システムは、
前記撮像モジュールから定義された部分信頼度マップおよび定義された部分親和性マップを受信し、
複数のシグマ値に対する前記部分信頼度マップを作成し、
複数の閾値に対する前記部分親和性マップを作成し、
前記複数のシグマ値に対する前記部分信頼度マップを前記定義された部分信頼度マップと比較して、前記複数のシグマ値から真のシグマ値を選択し、
前記複数の閾値に対する前記部分親和性マップを前記定義された部分親和性マップと比較して、前記複数の閾値から真の閾値を選択し、
前記真のシグマ値の前記部分信頼度マップを使用して前記ヒートマップを生成し、および前記真の閾値の前記部分親和性マップを使用して前記ベクトルマップを生成し、
前記関節のある身体姿勢を検出するために、前記ヒートマップおよび前記ベクトルマップを使用して前記関節のある身体姿勢に対応する前記身体フレームワークを生成する、
ように動作可能である、請求項１に記載のシステム。
前記システムは、処理の前に、前記イメージコンテンツの前記トップダウンビューの解像度を下げることを備える、請求項１に記載のシステム。
前記トップダウンビューを取得することは、
前記トップダウンビューの形式で前記イメージコンテンツを受信すること、または、
前記イメージコンテンツの複数のビューを処理し、前記トップダウンビューを取得すること、
の１つを含む、請求項１に記載のシステム。
前記イメージコンテンツの前記複数のビューは、背面ビュー、正面ビュー、上面ビュー、下面ビュー、左側面ビュー、右側面ビュー、斜視ビューを含む、請求項６に記載のシステム。
前記システムは、前記検出された関節のある身体姿勢を見るためのディスプレイデバイスをさらに備える、請求項１に記載のシステム。
イメージコンテンツから関節のある身体姿勢を検出する方法であって、
前記イメージコンテンツのトップダウンビューを取得すること、および
機械学習アルゴリズムを使用して、前記トップダウンビューを処理し、前記イメージコンテンツに対応する前記関節のある身体姿勢を検出することであって、前記関節のある身体姿勢は複数の関節を含み、前記処理は
前記関節のある身体姿勢の各関節に対応する部分信頼度マップを作成することと、
前記イメージコンテンツの前記トップダウンビューに前記部分信頼度マップを投影することによってヒートマップを生成することと、
前記関節のある身体姿勢の前記各関節に関連付けられた各身体部分に対応する部分親和性マップを作成することと、
前記イメージコンテンツの前記トップダウンビューに前記部分親和性マップを投影することによってベクトルマップを生成することと、
前記関節のある身体姿勢を検出するために、前記ヒートマップおよび前記ベクトルマップを使用して前記関節のある身体姿勢に対応する身体フレームワークを生成することと、
を含む、ことを備える方法。
前記方法は、畳み込みニューラルネットワークを利用して前記部分信頼度マップおよび前記部分親和性マップを作成することを備える、請求項９に記載の方法。
前記方法はさらに前記機械学習アルゴリズムのトレーニングを備え、前記方法は、
定義された部分信頼度マップおよび定義された部分親和性マップを受信することと、
複数のシグマ値に対する前記部分信頼度マップを作成することと、
複数の閾値に対する前記部分親和性マップを作成することと、
前記複数のシグマ値に対する前記部分信頼度マップを前記定義された部分信頼度マップと比較して、前記複数のシグマ値から真のシグマ値を選択することと、
前記複数の閾値に対する前記部分親和性マップを前記定義された部分親和性マップと比較して、前記複数の閾値から真の閾値を選択することと、
前記真のシグマ値の前記部分信頼度マップを使用して前記ヒートマップを、および前記真の閾値の前記部分親和性マップを使用して前記ベクトルマップを、生成することと、
前記関節のある身体姿勢を検出するために、前記ヒートマップおよび前記ベクトルマップを使用して前記関節のある身体姿勢に対応する前記身体フレームワークを生成することと、
を備える、請求項９に記載の方法。
前記方法は、処理の前に、前記イメージコンテンツの前記トップダウンビューの解像度を下げることを備える、請求項９に記載の方法。
前記トップダウンビューを取得することは、
前記トップダウンビューの形式で前記イメージコンテンツを受信すること、または、
前記イメージコンテンツの複数のビューを処理し、前記トップダウンビューを取得すること、
の１つを含む、請求項９に記載の方法。
前記イメージコンテンツの前記複数のビューは、背面ビュー、正面ビュー、上面ビュー、下面ビュー、左側面ビュー、右側面ビュー、斜視ビューを含む、請求項１３に記載の方法。
イメージコンテンツから関節のある身体姿勢を検出するコンピュータプログラム可能製品であって、前記コンピュータプログラム可能製品は、一連の命令を含み、前記一連の命令は、プロセッサによって実行されると、前記プロセッサに
前記イメージコンテンツのトップダウンビューを取得させ、および
機械学習アルゴリズムを使用して、前記トップダウンビューを処理させ、前記イメージコンテンツに対応する前記関節のある身体姿勢を検出させることであって、前記関節のある身体姿勢は複数の関節を含み、前記処理は
前記関節のある身体姿勢の各関節に対応する部分信頼度マップを作成することと、
前記イメージコンテンツの前記トップダウンビューに前記部分信頼度マップを投影することによってヒートマップを生成することと、
前記関節のある身体姿勢の前記各関節に関連付けられた各身体部分に対応する部分親和性マップを作成することと、
前記イメージコンテンツの前記トップダウンビューに前記部分親和性マップを投影することによってベクトルマップを生成することと、
前記関節のある身体姿勢を検出するために、前記ヒートマップおよび前記ベクトルマップを使用して前記関節のある身体姿勢に対応する身体フレームワークを生成することと、
を含む、ことをさせる、
コンピュータプログラム可能製品。
前記一連の命令がプロセッサによって実行されると、前記プロセッサに、畳み込みニューラルネットワークを利用して前記部分信頼度マップおよび前記部分親和性マップを作成させる、請求項１５に記載のコンピュータプログラム可能製品。
前記一連の命令は、プロセッサによって実行されると、前記プロセッサに
定義された部分信頼度マップおよび定義された部分親和性マップを受信し、
複数のシグマ値に対する前記部分信頼度マップを作成させ、
複数の閾値に対する前記部分親和性マップを作成させ、
前記複数のシグマ値に対する前記部分信頼度マップを前記定義された部分信頼度マップと比較して、前記複数のシグマ値から真のシグマ値を選択させ、
前記複数の閾値に対する前記部分親和性マップを前記定義された部分親和性マップと比較して、前記複数の閾値から真の閾値を選択させ、
前記真のシグマ値の前記部分信頼度マップを使用して前記ヒートマップを、および前記真の閾値の前記部分親和性マップを使用して前記ベクトルマップを、生成させ、
前記関節のある身体姿勢を検出するために、前記ヒートマップおよび前記ベクトルマップを使用して前記関節のある身体姿勢に対応する前記身体フレームワークを生成させる、
請求項１５に記載のコンピュータプログラム可能製品。
前記トップダウンビューを取得することは、
前記トップダウンビューの形式で前記イメージコンテンツを受信すること、または、
前記イメージコンテンツの複数のビューを処理し、前記トップダウンビューを取得すること、
の１つを含む、請求項１５に記載のコンピュータプログラム可能製品。
前記イメージコンテンツの前記複数のビューは、背面ビュー、正面ビュー、上面ビュー、下面ビュー、左側面ビュー、右側面ビュー、斜視ビューを含む、請求項１８に記載のコンピュータプログラム可能製品。