JP2023517964A

JP2023517964A - マルチビュー画像を使用した３ｄ人間ポーズ推定に基づく視覚ベースのリハビリ訓練システム

Info

Publication number: JP2023517964A
Application number: JP2022554553A
Authority: JP
Inventors: リン，シン－ヤオ; タン，フイ; ホアン，チャオ; ハン，リアンイ; フオ，ジミン; ファン，ウェイ
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2020-11-12
Filing date: 2021-06-25
Publication date: 2023-04-27
Anticipated expiration: 2041-06-25
Also published as: US20220148453A1; EP4120912A1; WO2022103441A1; EP4120912A4; CN115515487A; JP7490072B2

Abstract

マーカなしのモーションキャプチャーのためのシステム及び方法が提供される。方法は、人間の身体の複数のビデオを取得するステップと、人間のマーカに依存することなく複数のビデオに基づいて人間の３次元（３Ｄ）姿勢を推定するステップであって、推定するステップは３Ｄ身体関節集合を取得するステップを含む、ステップと、ある期間の間に人間の動きに対応する前記３Ｄ身体関節集合の動きのアニメーションを取得するステップと、３Ｄ身体関節集合の動きの分析を実行させるステップと、ディスプレイ又はスピーカを介して、分析に基づいて、分析のリハビリ評価結果又はリハビリ訓練示唆を示すステップと、を含む。

Description

関連出願の相互参照
本出願は、米国特許出願第１７／０９６，２５６号（２０２０年１１月１２日出願）に基づく優先権を主張し、その全体が参照により本明細書に組み込まれる。

［技術分野］
本開示の実施形態は、リハビリシステム、より詳細には、マーカなしのモーションキャプチャシステムを対象とする。

従来のリハビリシステムでは、患者は身体に特定のセンサを装着する必要がある。しかしながら、このようなセンサに基づくシステムは患者に不便をもたらす。最近の研究のいくつかは、手回復訓練のために奥行きセンサで手の姿勢を推定している。しかしながら、システムでの特別なセンサの使用は、一般化を制限する。さらにまた、従来のデバイスは通常高価である。

本発明の概要

本開示の実施形態は、上記の問題及び／又は他の問題を解決し得る。

本開示の実施形態は、視覚に基づく技術を用いたマーカなしのモーションキャプチャシステムを提供することができ、これは、低コストの市販のカメラ（例えば、３台のカメラ）によって捕捉されたマルチビュー画像に基づいて３次元（３Ｄ）人体姿勢を推定することができる。

本開示の実施形態は、例えば、運動障害のリハビリ訓練のためのマルチビュー３Ｄ人間姿勢推定を提供し得る。低コストのカメラによって捕捉されたマルチビュー画像に基づいて、本開示の実施形態のディープラーニングモデルは、正確な３Ｄ人間姿勢を計算することができる。

本開示の実施形態は、３Ｄ身体関節（３Ｄｂｏｄｙｊｏｉｎｔｓ）を得ることができるだけでなく、患者の運動の評価結果及びリハビリ示唆を提供することもできる。したがって、リハビリ訓練の評価及びガイダンスは、その過程で医師の助けを借りることなく実施することができる。

本開示の実施形態は、患者の動き及び姿勢を監視又はモニタリングし、その訓練を改善するために、患者にアニメーションを表示するためのモジュールを含み得る。さらに、本開示の実施形態は、評価指標を含むことができ、患者のリハビリを改善するのに役立つ示唆を提供することができる。実施形態によれば、３Ｄ人間姿勢推定技術は、関連技術によって達成されていないリハビリ訓練に活用できる。

本開示の実施形態は、リハビリ訓練のための視覚に基づくの、マーカなしの、モーションキャプチャシステムを提供することができ、これは、従来のモーションキャプチャシステムの制限を回避し、かつ、関連技術によって達成されていない。

本開示の実施形態は、非接触リハビリ訓練評価及びガイダンスの一部として、ビデオ及び音声ガイダンスの組み合わせを含むことができる。

本開示の実施形態は、様々な観点におけるマルチビュー画像又は多視点画像を用いたディープラーニング技術に基づいて３Ｄ人間姿勢を推定することができる。マルチビュー画像の情報は、３Ｄ人間姿勢を正確に推定するためにディープラーニング技術を支援する。

１つ以上の実施形態によれば、少なくとも１つのプロセッサによって実行される方法が提供される。方法は、人間の身体の複数のビデオを取得するステップであって、複数のビデオは、ある期間の間に第１カメラによって捕捉される第１視点からの人間の第１ビデオと、前記期間の間に第２カメラによって捕捉される、第１視点と異なる第２視点からの人間の第２ビデオと、を含む、ステップと、人間上の（ｏｎｔｈｅｐｅｒｓｏｎ）マーカに依存することなく複数のビデオに基づいて人間の３次元（３Ｄ）ポーズを推定するステップであって、推定するステップは３Ｄ身体関節集合を取得するステップを含む、ステップと、前記期間の間に人間の動きに対応する３Ｄ身体関節集合の動きのアニメーションを取得するステップと、３Ｄ身体関節の集合の動きの分析を実行させるステップと、ディスプレイ又はスピーカを介して、分析に基づいて、分析のリハビリ評価結果又はリハビリ訓練示唆を示すステップと、を含む。

一実施形態によれば、分析を実行するステップは、３Ｄ身体関節集合の動きに基づいて少なくとも１つのリハビリ評価指標を計算するステップを含む。一実施形態によれば、分析を実行するステップはさらに、ユーザからの入力に基づいて計算されるべき少なくとも１つのリハビリ評価指標を選択するステップを含む。

一実施形態によれば、方法はさらに、３Ｄ身体関節の集合の動きのアニメーションを表示するステップ、をさらに含む。

一実施形態によれば、３Ｄ身体関節集合の動きのアニメーションは、前記期間の間に人間の動きに関してリアルタイムで表示される。

一実施形態によれば、アニメーションは、３Ｄ身体関節の集合と組み合わされた人間の身体の画像を含む。

一実施形態によれば、取得される複数のビデオはさらに、前記期間の間に第３カメラによって捕捉される、第１視点及び第２視点と異なる第３視点からの人間の第３ビデオを含む。

一実施形態によれば、第１視点は、人間の左側視点であり、第２視点は、人間の正面視点であり、第３視点は、人間の右側視点である。

一実施形態によれば、第２カメラは、第１カメラが第１ビデオを捕捉する高さ及び第３カメラが第３ビデオを捕捉する高さより高い高さにおいて第２ビデオを捕捉する。

一実施形態によれば、第１カメラが第１ビデオを捕捉する高さ及び第３カメラが第３ビデオを捕捉する高さは同じである。

１つ以上の実施形態によれば、システムが提供される。システムは、複数のカメラを備え、複数のカメラは、各々が人間の身体の複数のビデオのうちのそれぞれのビデオを取得するように構成されている。複数のカメラは、ある期間の間に第１視点から人間の、複数のビデオのうちの第１ビデオを取得するように構成された第１カメラと、前記期間の間に第１視点と異なる第２視点から人間の、複数のビデオのうちの第２ビデオを取得するように構成された第２カメラと、を有する。システムは、さらに、ディスプレイ又はスピーカと、少なくとも１つのプロセッサと、コンピュータコードを含むメモリと、を含む。コンピュータプログラムコードは、少なくとも１つのプロセッサに、人間のマーカに依存することなく複数のビデオに基づいて、３Ｄ身体関節集合を取得することによって人間の３次元（３Ｄ）ポーズを推定させるように構成された第１コードと、少なくとも１つのプロセッサに、前記期間の間に人間の動きに対応する３Ｄ身体関節集合の動きのアニメーションを取得させるように構成された第２コードと、少なくとも１つのプロセッサに、３Ｄ身体関節集合の動きの分析を実行させるように構成された第３コードと、少なくとも１つのプロセッサに、ディスプレイ又はスピーカを介して、分析に基づいて、分析のリハビリ評価結果又はリハビリ訓練示唆を示させるように構成された第４コードと、を含む。

一実施形態によれば、３Ｄ身体関節集合の動きに基づいて少なくとも１つのリハビリ評価指標を計算することによって前記分析を実行させるように構成されている。

一実施形態によれば、第３コードは、前記少なくとも１つのプロセッサに、ユーザからの入力に基づいて計算されるべき少なくとも１つのリハビリ評価指標を選択させるように構成されている。

一実施形態によれば、システムはディスプレイを備え、第２コードはさらに、少なくとも１つのプロセッサが、３Ｄ身体関節集合の動きのアニメーションをディスプレイに表示させるように、構成されている。

一実施形態によれば、第２コードは、少なくとも１つのプロセッサが、前記期間の間の人間の動きに関するアニメーションをリアルタイムでディスプレイに表示させるように、構成されている。

一実施形態によれば、アニメーションは、３Ｄ身体関節集合と組み合わされた人間の身体の画像を含む。

一実施形態によれば、第３カメラは、前記期間の間に、第１視点及び第２視点と異なる第３視点からの人間の第３ビデオを取得するように構成されている。

一実施形態によれば、第２カメラは第１カメラ及び前第３カメラより高い高さにある。

１つ以上の実施形態によれば、コンピュータ命令を格納する非一時的コンピュータ可読媒体が提供される。コンピュータコードは、少なくとも１つのプロセッサで実行される場合に、少なくとも１つのプロセッサに、人間の三次元（３Ｄ）姿勢を、人間上のマーカに依存することなく、人間の身体の複数のビデオに基づいて３Ｄ身体関節の集合を取得することによって、推定させ、ある期間の間に人間の動きに対応する前記３Ｄ身体関節集合の動きのアニメーションを取得させ、３Ｄ身体関節集合の動きの分析を実行させ、ディスプレイ又はスピーカを介して、分析に基づく、分析のリハビリ評価結果又はリハビリ訓練示唆を示させる、ように構成させている。複数のビデオは、前記期間の間に第１カメラによって捕捉される第１視点からの人間の第１ビデオと、前記期間の間に第２カメラによって捕捉される、第１視点と異なる第２視点からの人間の第２ビデオと、を含む。

開示された主題のさらなる特徴、性質、及び様々な利点は、以下の詳細な説明及び添付の図面からより明らかになるであろう。
図１は、実施形態によるリハビリ訓練システムの概略図である。図２は、本開示の実施形態によるプロセスのブロック図である。図３は、本開示の実施形態によるコンピュータコードの概略図である。図４は、本開示の実施形態によるカメラ構成の斜視図である。図５は、本開示の実施形態による、３Ｄ身体関節によって表される患者の姿勢の一例である。図６は、本開示の実施形態によるプロセスのブロック図である。図７Ａは、本開示の実施形態による、表示されたアニメーションの一部の例示的な説明図である。図７Ｂは、本開示の実施形態による、表示されたアニメーションの一部の例示的な説明図である。図８は、本開示の一実施例によるデコーダの概略図である。

実施形態によれば、図１を参照すると、リハビリ訓練システム１００が提供される。リハビリ訓練システム１００は、例えば、カメラ１１０、コンピュータシステム１２０、及びディスプレイ１３０を含むことができる。カメラ１１０は、任意の数のカメラを含むことができる。例えば、実施形態によれば、カメラ１１０は、２つ又は３つのカメラを含んでもよい。カメラ１１０は、ビデオデータを取得し、有線又は無線接続を介してコンピュータシステム１２０にビデオデータを送信するように構成することができる。コンピュータシステム１２０は、少なくとも１つのプロセッサ１２２と、コンピュータコードを記憶するメモリとを含むことができる。コンピュータコードは、少なくとも１つのプロセッサ１２２によって実行されると、少なくとも１つのプロセッサ１２２に、図２に関して以下に説明するようなコンピュータシステム１２０のプロセスを実行させるように構成することができる。コンピュータコードの例示図を図３に示す。コンピュータシステム１２０はまた、ディスプレイ１３０を含むことができ、又はディスプレイ１３０に接続されることができ、さらに、ディスプレイ１３０にコンピュータシステム１２０のプロセスの結果を表示させるように構成されることができる。コンピュータシステム１２０は、有線又は無線接続を介してディスプレイ１３０に接続することができる。

図２乃至３を参照すると、コンピュータシステム１２０によって実行されるプロセスを以下に説明する。図２を参照すると、コンピュータシステム１２０は、マルチビュー３Ｄ人間姿勢推定２２０、人間動き可視化２３０、人間の動きの分析２４０、及び、評価結果及び示唆の提供２５０、のプロセスを実行することができる。図３を参照すると、このようなプロセスは、それぞれ、メモリ１２４に含まれる、姿勢推定コード３２０、動き可視化コード３３０、動き分析コード３４０、及び評価コード３５０によって、コンピュータシステム１２０の少なくとも１つのプロセッサ１２２によって実行され得る。

コンピュータシステム１２０は、マルチビュー３Ｄ人間姿勢推定２２０への入力として、カメラ１１０からビデオデータを受信することができる。例えば、各カメラ１１０は、各々がそれぞれの視点からの患者の画像を含むシングルビュービデオ（例えば、シングルビュービデオ２１０－１、２１０－２、．．．、２１０－Ｎ）をコンピュータシステム１２０に提供することができる。換言すれば、カメラ１１０の各々は、患者の姿勢及び動きを、それぞれのシングルビュービデオ（例えば、シングルビュービデオ２１０－１、２１０－２、．．．、２１０－Ｎ）内のそれぞれの方向から補足することができ、これらは、カメラ１１０からコンピュータシステム１２０によって取得される。

一例として、図４を参照すると、リハビリ訓練システム１００のカメラ１１０は、構成４００内に第１カメラ４１１、第２カメラ４１２、及び第３カメラ４１３を含むことができる。構成４００において、第１カメラ４１１、第２カメラ４１２、及び第３カメラ４１３は、位置（ｘ０、ｙ０、ｚ０）を原点とする（ｓｔａｒｔｓ）患者のそれぞれの視点を捕捉するために、それぞれの位置に設けられることができる。図４を参照すると、ｘ方向は、図４に関して左右方向に延在するｘ軸に沿うことができ（＋ｘ方向は図４の右側に向かう）、ｙ方向は、図４に入る方向又は図４から出る方向に延在するｙ軸に沿うことができ（＋ｙ方向は図４に入る方向に向かう）、ｚ方向は、図４に対して上下方向に延在するｚ軸に沿うことができる（＋ｚ方向が図４の上側に向かう）。第２カメラ４１２は、患者が原点とする位置（ｘ０、ｙ０、ｚ０）と同一又は類似のｘ位置にあることができ、また、＋ｚ方向において、（ｘ０、ｙ０、ｚ０）より上（例えば、地面より上）の高さｈ１にあることができる。第１カメラ４１１は、位置（ｘ０、ｙ０、ｚ０）及び／又は第２カメラ４１２に関して距離ｄ１で－ｘ方向にあることができ、第３のカメラ４１３は、位置（ｘ０、ｙ０、ｚ０）及び／又は第２カメラ４１２に関して距離ｄ１で＋ｘ方向にあることができる。第１カメラ４１１及び第３カメラ４１３は、＋ｚ方向の位置（ｘ０、ｙ０、ｚ０）より上（例えば、地面の高さより上）で同じ高さｈ２であってもよい。第１カメラ４１１、第２カメラ４１２、及び第３カメラ４１３は、各々、同じｙ位置（例えば＋ｙ位置）にあってもよい。第１カメラ４１１、第２カメラ４１２、及び第３カメラ４１３はそれぞれ、位置（ｘ０、ｙ０、ｚ０）に向かう少なくとも１つの軸に関して角度付けられたそれぞれの視野角ａ１（ｖｉｅｗａｎｇｌｅａ１）を有することができる。例えば、図４に示すように、第３カメラ４１３の視野角ａ１は、－ｘ方向において少なくともｙ軸から角度をつけることができる。さらに、第１カメラ４１１の視野角は、＋ｘ方向において少なくともｙ軸から角度をつけることができ、第２カメラ４１２の視野角は、－ｚ方向において少なくともｙ軸から角度をつけることができる。構成４００によれば、第１カメラ４１１は、患者の体の左側の斜視図を捕捉するように構成されることができ、第２カメラ４１２は、患者の体の上側／前側の斜視図を捕捉するように構成されることができ、第３カメラ４１３は、患者の体の右側の斜視図を捕捉するように構成されることができる。

図４は、構成４００を示しているが、本開示の実施形態においては、異なる数のカメラ１１０、カメラ位置、及び／又はカメラ視野角を有する他のカメラ構成を実施し得る。

上述のように、カメラ１１０は、患者の様々な斜視又は視点（ｐｅｒｓｐｅｃｔｉｖｅｓ）を捕捉するために、様々な位置に、様々な視野角で設けられることができ、カメラ１１０からのビデオデータは、マルチビュー３Ｄ人間姿勢推定２２０を実行するためにコンピュータシステム１２０に入力されることができる。マルチビュー３Ｄ人間姿勢推定２２０は、コンピュータシステム１２０がカメラ１１０からのビデオデータを使用して患者の（１つ以上の）姿勢を推定し、（１つ以上の）姿勢を３Ｄ関節位置集合として表現するプロセスであることができる。３Ｄ身体関節によって表される患者の姿勢の一例を図５に示す。図５に示すように、姿勢５００は、例えば、右足関節５０１、左足関節５０２、右膝関節５０３、左膝関節５０４、右股関節５０５、左股関節５０６、右手関節５０７、左手関節５０８、右肘関節５０９、左肘関節５１０、右肩関節５１２、左肩関節５１３、及び頭関節５１４を含む種々の身体関節で表すことができる。

実施形態によれば、図６を参照すると、マルチビュー３Ｄ人間姿勢推定２２０は、プロセス６００を使用してコンピュータシステム１２０によって実行されることができる。プロセス６００は、エンドツーエンドのディープニューラルネットワーク（ＤＮＮ）モデルによって実現されることができる。

プロセス６００は、身体関節の２Ｄ座標が各シングルカメラビュー内で推定され、三角回帰及び線形回帰が、３Ｄ人間姿勢を推論するためにマルチビュー情報を考慮に入れるために使用される２段階アプローチであることができる。

例えば、図６を参照すると、プロセス６００は、各カメラ１１０から、それぞれのシングルビュービデオ（例えば、シングルビュービデオ６１０－１、．．．、６１０－Ｎ）を取得することを含み得る。各シングルビュービデオ６１０－１、．．．、６１０－Ｎに基づいて、それぞれの２Ｄバックボーン６２０－１、．．．、６２０－Ｎが取得され得る。各２Ｄバックボーン６２０－１、．．．、６２０－Ｎに基づいて、それぞれの２Ｄ関節ヒートマップ６３０－１、．．．、６３０－Ｎの集合を取得することができる。２Ｄ関節ヒートマップ６３０－１、．．．、６３０－Ｎの各集合をそれぞれのソフトａｒｇｍａｘ関数６４０－１、．．．、６４０－Ｎに入力して、それぞれの２Ｄ関節キーポイント６５０－１、．．．、６５０－Ｎの集合を取得することができる。続いて、代数的三角法（ａｌｇｅｂｒａｉｃｔｒｉａｎｇｕｌａｔｉｏｎ）６６０は、２Ｄ関節キーポイント６５０－１、．．．、６５０－Ｎのすべての集合を使用し、各２Ｄバックボーン６２０－１、．．．、６２０－Ｎに基づいて取得された関節信頼度を使用して、３Ｄで推定された身体関節の集合である３Ｄ身体関節位置集合６７０を取得するために実行され得る。

図７Ａ乃至７Ｂを参照すると、コンピュータシステム１２０は、患者に対して推定された３Ｄ人間動きが、３Ｄで推定された身体関節の集合（例えば、３Ｄ身体関節位置６７０の集合）に基づいて表される、人間動き視覚化２３０プロセスを実行するように構成され得る。人間動き可視化２３０プロセスは、不全姿勢推定（ｆａｉｌｕｒｅｐｏｓｅｅｓｔｉｍａｔｉｏｎ）に起因するノイズを除去すること、及び、リアルタイムアニメーションを生成することを含み得る。

例えば、図７Ａに示されるように、コンピュータシステム１２０は、患者のビデオ画像を、３Ｄで推定された患者の身体関節の集合（例えば、３Ｄ身体関節位置６７０の集合）と組合せ、その組合せをアニメーション７１０として表示するように構成することができる。実施形態によれば、アニメーション７１０は、３Ｄで推定された身体関節集合と組み合わされた患者の複数の斜視ビデオ画像を同時に含むことができる。一例として、アニメーション７１０は、患者の右斜視ビデオ７１２と、患者の正面斜視ビデオ７１４と共に示される。しかしながら、ビデオの数及び視点のタイプは、アニメーション７１０において変化し得る。

また、図７Ｂに示すように、コンピュータシステム１２０は、アニメーション７１０と同様のアニメーション７２０を生成するように構成されることができ、３Ｄで推定された身体関節集合は、複数の斜視で同時表示され、患者のビデオ画像は示されない。

実施形態によれば、アニメーション７１０とアニメーション７２０は同時に表示され得る。実施形態によれば、アニメーション７１０及びアニメーション７２０は、リアルタイムアニメーションであり得る。実施形態によれば、３Ｄ推定身体関節集合と組み合わされた患者の複数の斜視ビデオ画像は、２つ以上のシングルビュービデオ２１０－１，．．．２１０－Ｎ（図２を参照）から得ることができる。実施形態によれば、コンピュータシステム１２０は、アニメーション７１０及び／又はアニメーション７２０をディスプレイ１３０に表示させることができる（図１を参照）。

本開示の実施形態にしたがってアニメーションを表示することにより、患者は、彼らの動き及び姿勢をよりよくモニタリングすることができ、それは、彼らがリハビリ訓練でどのように実行するかを理解するのを助けることができる。

また、コンピュータシステム１２０は、人間の動作分析２４０プロセスを実行するように構成することができ、このプロセスにおいて、ユーザは、リハビリ訓練タイプにしたがって異なる評価インジケータを設定することができる。その後、コンピュータシステム１２０は、マルチビュー３Ｄ人間姿勢推定２２０プロセス及び人間動き可視化２３０プロセスから得られた推定３Ｄ人間動きに基づいてインジケータを計算することができる。推定された３Ｄの人間の動きは、３Ｄ推定身体関節集合（例えば、３Ｄ推定身体関節位置集合６７０）のアニメーション化された動きを参照することができる（図６～７Ｂを参照）。リハビリ訓練タイプの例としては、歩行運動のリハビリ訓練がある。歩行運動のリハビリ訓練の指標には、患者の歩行速度、患者の脚の高さ、歩行安定性、及び患者の腕振りの振幅及び周波数が含まれる。実施形態によれば、コンピュータシステム１２０は、コンピュータシステム１２０に接続された入力デバイス（例えば、マウス、キーボード、タッチスクリーン、マイクロホンなど）を用いて、ユーザがリハビリ訓練タイプを選択することに基づいて計算されるインジケータを自動的に決定することができる。実施形態によれば、ユーザは、入力デバイスを使用して計算されるインジケータを手動で選択することができ、計算システム１２０は、選択に基づいて計算を実行するように構成することができる。

人間の動作分析２４０プロセスに続いて、コンピュータシステム１２０は、評価結果及び提案２５０プロセスを実行するように構成されることができる。すなわち、例えば、評価結果は、人間の動き分析２４０プロセスの結果に基づいて計算システム１２０によって決定され得、訓練提案（評価結果の有無を問わず）は、評価結果に基づいて患者に提供され得る（例えば、ディスプレイ１３０に表示され得るか、又はスピーカによって出力され得る）。一例として、評価結果が、腕の振幅が小さすぎるために、患者の歩行運動を遅すぎると判断する場合、コンピュータシステム１２０は、患者が腕の振りを強化すべきであることを示すトレーニングを提供することができる。実施形態によれば、コンピュータシステム１２０によって実行される結果及び示唆２５０プロセスは、人間の動作分析２４０プロセスの結果に基づいて、患者に最終評価スコアを計算及び提供（例えば、ディスプレイ１３０上に表示する、又はスピーカによって出力する）することを含み得る。

上記の技術は、コンピュータ可読命令を用いたコンピュータソフトウェアとして行うことができて、物理的に１つ以上のコンピュータ可読媒体に格納されることができる。例えば、図８は、開示された主題のコンピュータシステム１２０を実施するのに適しているコンピュータシステム９００を示す。

コンピュータソフトウェアは、アセンブリ、コンパイル、リンク、又は同様のメカニズムの対象となり得る任意の適切な機械コード又はコンピュータ言語を使用してコーディングされ得、コンピュータ中央処理ユニット（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）などによって、直接又は解釈、マイクロコード実行などを介して、実行され得る命令を含むコードを生成し得る。

命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲームデバイス、物品のインターネット等を含む種々のタイプのコンピュータ又はその構成要素上で実行されることができる。

コンピュータシステム９００のための図８に示されるコンポーネントは、例示的な性質のものであり、本開示の実施形態を実装するコンピュータソフトウェアの使用範囲又は機能性に関する制限を示唆することを意図するものではない。また、コンポーネントの構成は、コンピュータシステム９００の例示的な実施形態に示されるコンポーネントのいずれか１つ又は組み合わせに関連する依存性又は要件を有すると解釈されるべきではない。

コンピュータシステム９００は、特定のヒューマンインタフェース入力デバイスを含み得る。このようなヒューマンインタフェース入力デバイスは、例えば、触覚入力（例えば、キーストローク、スイッピング、データグローブの動き）、音声入力（例えば、音声、拍手）、視覚入力（例えば、ジェスチャ）、嗅覚入力（図示せず）を介して、一人又は複数の人間ユーザによる入力に応答し得る。また、ヒューマンインタフェースデバイスは、オーディオ（例えば、音声、音楽、周囲の音声）、画像（例えば、走査画像、静止画像カメラから得られる写真画像）、ビデオ（例えば、２次元ビデオ、立体画像を含む３次元ビデオ）等の、人間による意識的入力に必ずしも直接関係しない特定の媒体を捕捉するために用いられ得る。

入力ヒューマンインタフェースデバイスには、次のものが１つ以上含まれ得る（それぞれ１つのみ表されている）：キーボード９０１、マウス９０２、トラックパッド９０３、タッチスクリーン９１０、データグローブ、ジョイスティック９０５、マイクロホン９０６、スキャナ９０７、及びカメラ９０８。

コンピュータシステム９００はまた、特定のヒューマンインタフェース出力デバイスを含み得る。かかるヒューマンインタフェース出力デバイスは、例えば、触覚出力、音、光、及び嗅覚／味覚を通して、１人又は複数の人間ユーザの感覚を刺激し得る。かかるヒューマンインタフェースデバイス出力デバイスには、触覚出力デバイスが含むことができ（たとえば、タッチスクリーン９１０、データグローブ、またはジョイスティック９０５による触覚フィードバックであるが、入力デバイスとして機能しない触覚フィードバックデバイスであることもできる）。例えば、かかるデバイスは、オーディオ出力デバイス（例えば、スピーカ９０９、ヘッドホン（図示せず））、視覚出力デバイス（例えば、ＣＲＴスクリーン、ＬＣＤスクリーン、プラズマスクリーン、ＯＬＥＤスクリーンを含むスクリーン９１０など、それぞれタッチスクリーン入力機能を備えるか又は備えない、それぞれ触覚フィードバック機能を備えるか又は備えない、ーそのうちのいくつかは、ステレオグラフィック出力などの手段を介して、２次元の視覚的出力又は３次元以上の出力を出力できる場合がある：バーチャルリアリティグラス（図示せず）、ホログラフィックディスプレイ、及びスモークタンク（図示せず））、プリンタ（図示せず）などであり得る。

コンピュータシステム９００はまた、人間がアクセス可能な記憶デバイスと、それらのアクセス可能な媒体とを含むことができ、媒体は、例えば、ＣＤ／ＤＶＤ等の媒体９２１によるＣＤ／ＤＶＤＲＯＭ／ＲＷを含む光学媒体ドライブ（６２０）、ＵＳＢメモリ９２２、着脱可能ヘッドドライブ又はソリッドステートドライブ９２３、テープ、フロッピーディスク（図示せず）等の従来の磁気媒体、セキュリティドングル等の特殊化されたＲＯＭ／ＡＳＩＣ／ＰＬＤベースデバイス等である。

当業者はまた、現在開示されている主題に関連して使用される「コンピュータ可読媒体」という用語は、伝送媒体、搬送波、又は他の一時的な信号を包含しないことを理解されたい。

コンピュータシステム９００はまた、１つ以上の通信ネットワークへのインタフェースを含むことができる。ネットワークは、例えば、無線、有線、光であり得る。ネットワークは、さらに、ローカル、広域、大都市、車両及び工業、リアルタイム、遅延耐性等であり得る。ネットワークの例としては、イーサネット、無線ＬＡＮ、ＧＳＭ、３Ｇ、４Ｇ、５Ｇ、ＬＴＥ等を含むセルラーネットワーク、ケーブルＴＶ、衛星ＴＶ、及び地上放送ＴＶ、ＣＡＮＢｕｓを含む産業用及び車両用を含む。特定のネットワークは、一般に、特定の汎用データポート又は周辺バス９４９に接続される外部ネットワークインタフェースアダプタ（例えば、コンピュータシステム９００のＵＳＢポート）を必要とし、他のネットワークは、一般に、以下に説明するシステムバスに接続されることにより、コンピュータシステム９００のコアに統合される（、例えば、ＰＣコンピュータシステムへのイーサネットインタフェース又はスマートフォンコンピュータシステムへのセルラーネットワークインタフェースである）。これらのネットワークのいずれかを使用して、コンピュータシステム９００は、他のエンティティと通信することができる。かかる通信は、単指向性通信、受信のみ（例えば、放送テレビ）通信、単指向性送信専用（例えば、特定のＣＡＮバスデバイスへのＣＡＮバス）通信、又は、例えばローカル又は広域デジタルネットワークを使用する他のコンピュータシステムへの、双方向通信であることができる。この種の通信は、クラウドコンピューティング環境９５５との通信を含むことができる。特定のプロトコル及びプロトコルスタックは、上述のように、それらのネットワーク及びネットワークインタフェースの各々で使用されることができる。

前述のヒューマンインタフェースデバイス、人間がアクセス可能な記憶デバイス、及びネットワークインタフェース９５４は、コンピュータシステム９００のコア９４０に接続されることができる。

コア９４０は、１つ以上の中央処理デバイス（ＣＰＵ）９４１、グラフィックス処理デバイス（ＧＰＵ）９４２、フィールドプログラマブルゲートエリア（ＦＰＧＡ）９４３の形態の特殊なプログラマブル処理デバイス、特定のタスクのためのハードウェアアクセラレータ８４４等を含むことができる。これらのデバイスは、読出し専用メモリ（ＲＯＭ）９４５、ランダムアクセスメモリ９４６、内部大容量記憶デバイス、例えば内部非ユーザアクセス可能ハードドライブ、ＳＳＤ等と共に、システムバス９４８を介して接続され得る。いくつかのコンピュータシステムでは、システムバス９４８は、追加のＣＰＵ、ＧＰＵ等による拡張を可能にするために、１つ又は複数の物理プラグの形態でアクセス可能である。周辺デバイスは、コアのシステムバス９４８に直接接続するか、又は周辺バス９４９を介して接続することができる。周辺バスのアーキテクチャは、ＰＣＩ、ＵＳＢ等を含む。グラフィックアダプタ９５０は、コア９４０に含まれることができる。

ＣＰＵ９４１、ＧＰＵ９４２、ＦＰＧＡ９４３、及びアクセラレータ９４４は、組み合わされて、上述のコンピュータコードを構成することができる特定の命令を実行することができる。そのコンピュータコードは、ＲＯＭ９４５又はＲＡＭ９４６に格納されることができる。移行データは、ＲＡＭ９４６に格納されることもできるが、永久データは例えば内部大容量記憶デバイス９４７に格納されことができる。１つ以上のＣＰＵ９４１、ＧＰＵ９４２、大容量記憶デバイス９４７、ＲＯＭ９４５、ＲＡＭ９４６等と密接に関連付けることができるキャッシュメモリを使用することによって、メモリデバイスのいずれかへの高速記憶及び検索を可能にすることができる。

コンピュータ可読媒体は、各種のコンピュータ実施動作（ｃｏｍｐｕｔｅｒ－ｉｍｐｌｅｍｅｎｔｅｄｏｐｅｒａｔｉｏｎｓ）を実行するためにその上のコンピュータコードを有することができる。メディア及びコンピュータコードは特別に設計されたそれらであることができて、本開示のために作成されることができる、又は、それらはよく公知で、コンピュータソフトウェア技術の技術を有するそれらが利用できる種類でありえる。

一例として、限定するものではなく、アーキテクチャ、具体的にはコア９４０を有するコンピュータシステム９００は、有形のコンピュータ可読媒体に具現化されたソフトウェアを実行する１つ以上のプロセッサ（ＣＰＵ、ＧＰＵ、ＦＰＧＡ、アクセラレータ等を含む）の結果として機能性を提供することができる。かかるコンピュータ可読媒体は、コア－内部大容量記憶デバイス９４７又はＲＯＭ９４５等の一時的でない性質のコア９４０の特定の記憶デバイスと同様に、上述のようにユーザがアクセス可能な大容量記憶デバイスに関連する媒体であってもよい。本開示の様々な実施形態を実装するソフトウェアは、かかるデバイスに記憶され、コア９４０によって実行され得る。コンピュータ読取可能媒体は、特定のニーズに応じて、１つ以上のメモリデバイス又はチップを含むことができる。ソフトウェアは、コア９４０及びその中の具体的にプロセッサ（ＣＰＵ、ＧＰＵ、ＦＰＧＡ等を含む）に、ＲＡＭ９４６に記憶されたデータ構造を定義し、ソフトウェアによって定義されたプロセスにしたがって、かかるデータ構造を変更することを含む、本明細書に記載された特定のプロセス又は特定の部分を実行させることができる。付加的に又は代替的に、コンピュータシステムは、回路（例えば、アクセラレータ９４４）内に配線された、又は他の方法で具現化されたロジックの結果として、機能性を提供することができ、これは、本明細書に記載される特定のプロセス又は特定のプロセスの特定の部分を実行するために、ソフトウェアの代わりに、又はソフトウェアと共に動作することができる。ソフトウェアへの言及は、論理を含み、また、必要に応じて、その逆も可能である。コンピュータ読取り可能媒体への参照は、実行のためのソフトウェアを記憶する（集積回路（ＩＣ）等の）回路、実行のためのロジックを具体化する回路、又は適切な場合にはその両方を含むことができる。本開示は、ハードウェア及びソフトウェアの任意の適切な組み合わせを包含する。

この開示は、いくつかの非限定的な例示的な実施形態を説明しているが、本開示の範囲内にある変更、順列、および様々な代替の同等物が存在する。したがって、当業者は、本明細書に明示的に示されていないか又は記載されていないが、本発明の原理を実施し、したがってその概念及び範囲内にある多数のシステム及び方法を創造することができることが理解されよう。

Claims

少なくとも１つのプロセッサによって実行される方法であって、
人間の身体の複数のビデオを取得するステップであって、前記複数のビデオは、ある期間の間に第１カメラによって捕捉される第１視点からの前記人間の第１ビデオと、前記期間の間に第２カメラによって捕捉される、前記第１視点と異なる第２視点からの前記人間の第２ビデオと、を含む、ステップと、
前記人間上のマーカに依存することなく前記複数のビデオに基づいて前記人間の３次元（３Ｄ）姿勢を推定するステップであって、前記推定するステップは３Ｄ身体関節集合を取得するステップを含む、ステップと、
前記期間の間に前記人間の動きに対応する前記３Ｄ身体関節集合の動きのアニメーションを取得するステップと、
前記３Ｄ身体関節集合の前記動きの分析を実行するステップと、
ディスプレイ又はスピーカを介して、前記分析に基づいて、前記分析のリハビリ評価結果又はリハビリ訓練示唆を示すステップと、
を含む、方法。
前記分析を実行するステップは、前記３Ｄ身体関節集合の前記動きに基づいて少なくとも１つのリハビリ評価指標を計算するステップを含む、
請求項１記載の方法。
前記分析を実行するステップはさらに、ユーザからの入力に基づいて計算されるべき前記少なくとも１つのリハビリ評価指標を選択するステップを含む、
請求項２記載の方法。
前記３Ｄ身体関節集合の前記動きの前記アニメーションを表示するステップ、をさらに含む
請求項１記載の方法。
前記３Ｄ身体関節集合の前記動きの前記アニメーションは、前記期間の間に前記人間の前記動きに関してリアルタイムで表示される、
請求項４記載の方法。
前記アニメーションは、前記３Ｄ身体関節集合と組み合わされた前記人間の前記身体の画像を含む、
請求項５記載の方法。
取得される前記複数のビデオはさらに、前記期間の間に第３カメラによって捕捉される、前記第１視点及び前記第２視点と異なる第３視点からの前記人間の第３ビデオを含む、
請求項１記載の方法。
前記第１視点は、前記人間の左側視点であり、前記第２視点は、前記人間の正面視点であり、前記第３視点は、前記人間の右側視点である、
請求項７記載の方法。
前記第２カメラは、前記第１カメラが前記第１ビデオを捕捉する高さ及び前記第３カメラが前記第３ビデオを捕捉する高さより高い高さにおいて前記第２ビデオを捕捉する、
請求項８記載の方法。
前記第１カメラが前記第１ビデオを捕捉する高さ及び前記第３カメラが前記第３ビデオを捕捉する高さは同じである、
請求項９記載の方法。
複数のカメラであって、前記複数のカメラは、各々が人間の身体の複数のビデオのうちのそれぞれのビデオを取得するように構成されており、前記複数のカメラは、ある期間の間に第１視点から前記人間の、前記複数のビデオのうちの第１ビデオを取得するように構成された第１カメラと、前記期間の間に第１視点と異なる第２視点から前記人間の、前記複数のビデオのうちの第２ビデオを取得するように構成された第２カメラと、を有する、複数のカメラと、
ディスプレイ又はスピーカと、
少なくとも１つのプロセッサと、
コンピュータコードを有するメモリと、を備えるシステムであって、
前記コンピュータコードは、前記少なくとも１つのプロセッサに、請求項１乃至１０いずれか１項記載の方法を実行させるように構成されている、
システム。
コンピュータコードを有するコンピュータプログラムであって、前記コンピュータコードは、少なくとも１つのプロセッサで実行される場合に、前記少なくとも１つのプロセッサに、請求項１乃至１０いずれか１項記載の方法を実行させるように構成されている、プログラム。