JP7490142B2

JP7490142B2 - 姿勢の脱曖昧化

Info

Publication number: JP7490142B2
Application number: JP2023528243A
Authority: JP
Inventors: バシキーロフ、セルゲイ; テイラー、マイケル
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2020-11-11
Filing date: 2021-11-08
Publication date: 2024-05-24
Anticipated expiration: 2041-11-08
Also published as: CN116420170A; JP2023544215A; EP4244818A4; US20220148247A1; CN116420170B; EP4244818A1; WO2022103678A1; US11763508B2

Description

本出願は、コンピュータアニメーションに関し、より具体的には、ビデオからアニメーションを生成する際の姿勢の決定に関する。

コンピュータアニメーションは、一般に、アニメーション化された画像をデジタルで生成するために使用されるプロセスを指す。現代のコンピュータアニメーションは、通常、３Ｄコンピュータグラフィックスを使用して画像を生成する。運動錯視を作成するために、コンピュータで生成された画像が表示され、それに似ているが時間がわずかに進んでいる新しい画像に（例えば、２４、２５、または３０フレーム／秒の速度で）繰り返し置き換えられる。コンピュータアニメーション技術は、テレビ及び映画に伝統的に関連付けられていたのと同じ運動錯視を実現できる。コンピュータアニメーションは、コンピュータを使用して動画のフレームを生成する、デジタルで実装されたストップモーション技術と考えられ得る。デジタルコンピューティングを使用すると、３Ｄモデルを使用して、より詳細でリアルなアニメーションを実装することができる。コンピュータアニメーションは、エフェクトショットにミニチュアを使用する、または群衆シーンにエキストラを雇うなど、従来の物理ベースのプロセスよりも優れた制御及び柔軟性を提供する。最新のコンピュータアニメーションシステム及びソフトウェアは、いかなる他の技術でも実現できない画像を作成することができる。

ほとんどの３Ｄコンピュータアニメーションシステムでは、アニメータは、キャラクタの解剖学的形態を構成するセグメントの単純化された表現を作成する。この単純化された表現は、骨格モデルと考えられることができる。セグメントは、バインド姿勢、またはフィギュアのＴ姿勢と呼ばれることもあるデフォルト位置に配置される。各セグメントの位置は、アニメーション変数によって定義され、これらを組み合わせて、フィギュアの姿勢を定義する。人間及び動物のキャラクタでは、骨格モデルの多くの部位が実際の骨に対応している場合があるが、骨格アニメーションは、人型ロボットなどの擬人化されたオブジェクト、またはアニメータがアニメーション化したものであるかのように描写したいその他の無生物オブジェクトを含む他のものをアニメーション化するためにも使用することができる。コンピュータはモデルを使用して特定のキャラクタの正確な位置及び配向を計算し、最終的に画像にレンダリングする。このように、アニメーション変数の値を経時的に変更することにより、アニメータはキャラクタをフレームからフレームへ移動させることで動きを作成する。

アニメーション変数値を生成して、リアルな動きを得るためのいくつかの方法がある。従来、アニメータはこれらの値を直接操作する。これは、フレームごとに値を設定することで行うことができるが、より一般的には、戦略的な時点（フレーム）に設定され、コンピュータはキーフレームと呼ばれるプロセスでそれらの間を補間する、または「トゥイーン」する。

モーションキャプチャと呼ばれるより新しい方法では、実写映像を利用する。コンピュータアニメーションがモーションキャプチャによって駆動される場合、実際のパフォーマは、アニメーション化されるキャラクタであるかのようにシーンを演じる。パフォーマの動きは、ビデオカメラ及びマーカを重要なポイント、例えば関節及び四肢などで使用して、コンピュータに記録され、次いで、このパフォーマンスは、アニメーション化されたキャラクタに適用される。最近では、モーションキャプチャデータを強化学習（ＲＬ）での基準値として使用して、ニューラルネットワークをトレーニングし、人型ロボットを制御する、または生きているようなアニメーションを低コストで作成する技術が開発された。

本開示の態様が生じるのはこの状況においてである。

本開示の教示は、添付図面とあわせて以下の詳細な説明を検討することによって容易に理解できる。

Ａ及びＢは、単眼カメラで得られた画像における姿勢の曖昧さの問題を説明する図解である。本開示の態様による、コンピュータアニメーションにおける姿勢の脱曖昧化方法を示す概略図である。本開示の態様による、コンピュータアニメーションにおける姿勢の脱曖昧化方法を示すフロー図である。本開示の態様による、姿勢脱曖昧化を伴うコンピュータアニメーションのための装置を示す概略図である。本開示の態様による、ビデオから導出されたコンピュータアニメーションにおける単眼姿勢予測を示すフロー図である。本開示の態様による、ロボットのコンピュータアニメーションコントロールにおける単眼姿勢予測を示すフロー図である。本開示の態様による、コンピュータアニメーションにおける単眼姿勢予測を伴うコンピュータアニメーションのための装置を示す概略図である。

以下の詳細な説明は、例示を目的として多くの具体的な詳細を含むが、当業者は、以下の詳細に対する多くの変形及び改変が本発明の範囲内にあることを認識する。したがって、以下で説明される発明の例示的な実施形態は、特許請求される発明への一般性を失うことなく、及び特許請求される発明への限定を課すことなく示される。

序論
モーションキャプチャは、人間のパフォーマに対しては非常にうまく機能するが、動物、特に野生動物に対してはやや難しい。具体的には、動物にモーションキャプチャマーカを取り付けるには課題があり、モーションキャプチャマーカを付けた動物は自然に行動する可能性が低くなる。動物、特に野生動物のビデオから直接アニメーション化する方がはるかに有利である。このようなビデオのフレームは、例えば画像解析ソフトウェアを用いて解析され、各フレームでの動物の姿勢を決定することができる。

本開示の態様によれば、動物などのキャラクタのアニメーションは、ビデオフレームから導出され得る。具体的には、動物のセグメンテーションマスクは、動物のビデオフレーム及び動物の３Ｄモデルから生成されることができる。実際の動物及び３Ｄ動物モデルの姿勢が異なるほど、それらのセグメンテーションマスクが異なる。差異の定量的表現は、例えば、ＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎである場合がある。

一般に理解されているように、ＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎは、特定のデータセットに対するオブジェクト検出器の精度を測定するために使用される評価指標である。ＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎを使用して、予測の生成に使用されるアルゴリズムから独立した、オブジェクト検出器及び畳み込みニューラルネットワーク検出器（Ｒ－ＣＮＮ、ＦａｓｔｅｒＲ－ＣＮＮ、ＹＯＬＯなど）のパフォーマンスを評価する。画像内のオブジェクトまたはキャラクタの予測されたバウンディングボックスまたはセグメンテーションマスクを出力として提供するいずれのアルゴリズムも、ＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎ（ＩｏＵ）を使用して評価することができる。ＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎを適用して（任意の）オブジェクト検出器を評価するためには、通常、（１）グラウンドトゥルースバウンディングボックス（例えば、画像内のオブジェクトの位置を指定するテストセットから手動でラベル付けされたバウンディングボックス）、及び（２）モデルから予測されたバウンディングボックスが必要である。これら２セットのバウンディングボックスを用いると、ＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎ（ＩｏＵ）を次のように決定することができる。
ＩｏＵ＝領域の共通部分／領域の和集合。
この値が１に近いほど、予測が優れている。

図１Ａに示されるように、入力ビデオフレーム（本明細書ではソースフレームと呼ばれる）からソースキャラクタＳＣのコンピュータアニメーションフレーム（ターゲットフレーム）を生成するために、アニメーションプログラムは、ビデオ画像内のキャラクタＣのセグメンテーションマスクを生成する。画像セグメンテーションは、ビデオ画像内のキャラクタのピクセル単位のソースマスク１０２を作成する。アニメーションプログラムは、ソースマスク１０２を使用してソースキャラクタＳＣをモデル化し、対応する現在のキャラクタＣＣが何らかの予測された初期姿勢にある、対応する現在のアニメーションフレームを生成する。次に、現在のアニメーションフレームから現在のセグメンテーションマスク１０４を生成する。コンピュータアニメーションは、現在のキャラクタの関節及び四肢の位置及び配向を表す３次元データを使用して、現在のキャラクタＣＣをモデル化し得る。キャラクタの関節及び四肢の位置及び配向の組み合わせは、多くの場合、キャラクタの姿勢と呼ばれる。現在の姿勢は、現在のセグメンテーションマスクをソースセグメンテーションマスク１０２と繰り返し比較し（例えば、ＩｏＵを計算することによって）、姿勢を調整して更新された現在のアニメーションフレーム及び現在のセグメンテーションマスクを生成することによって最適化され得る。キャラクタＣの正しい姿勢を決定するために、既知の姿勢での対応するターゲットキャラクタＴＣのターゲットセグメンテーションマスク１０６を生成する。ターゲットセグメンテーションマスク１０６は、ターゲットキャラクタが既知の姿勢である場合にターゲットキャラクタの関節及び四肢の位置及び配向を表す、対応する３次元ターゲットデータセットから生成され得る。正しい姿勢は、現在のセグメンテーションマスク１０４と１つ以上の異なるターゲットセグメンテーションマスク１０６との間のＩｏＵを決定することによって決定することができる。いくつかの実施態様によれば、現在のセグメンテーションマスク及び／またはターゲットセグメンテーションマスクのうちの１つ以上は、キャラクタの姿勢のアウトラインのみを示すエッジマスクである場合がある。セグメンテーションマスクにエッジマスクを使用する利点は、エッジマスクがより正確な姿勢マッチングを提供し得ることである。セグメンテーションマスクとしてエッジマスクを使用すると、仮想キャラクタが遠くにあるためにスケールが異なる場合を回避し得る。これらのような場合、仮想キャラクタは、ターゲットセグメンテーションマスクの内側に適合し、ターゲットマスクによって曖昧になる場合がある。

前述のプロセスは、後続のフレームに繰り返され得る。さらに、物理ベースのシミュレーションは、現在のセグメンテーションマスク１０４及び／またはターゲットセグメンテーションマスク１０６から決定された所与の候補姿勢の実行可能性を評価するために、キャラクタとその周囲との間のインタラクションをシミュレートし得る。実行不可能な姿勢の例には、例えば、キャラクタが転倒する結果となる姿勢が含まれる。この姿勢実行可能性評価プロセスは、ターゲットセグメンテーションマスク１０６を生成する前に反復的に繰り返され得るため、セグメンテーションマスクの生成が実行可能な姿勢に限定される。

セグメンテーションマスクは、画像平面上へのすべてのボディポイントの２Ｄ射影である。そのため、元の３Ｄ姿勢に関する完全な情報を搬送しない。その結果、単眼画像内のオブジェクトの姿勢に曖昧さが存在する場合がある。図１Ｂは、そのような曖昧さの一例を示す。図１Ｂでは、ビデオフレームからのオオカミＷの画像を解析しており、コンピュータアニメーションの入力としてセグメント化された画像１００を生成する。図１では、オオカミの前肢Ｆ１、Ｆ２、または後肢Ｈ１、Ｈ２のどちらがカメラに最も近いかについて曖昧さがある。３Ｄで姿勢をより良くマッチングさせるために、いくつかの技法を使用することができる。

姿勢の脱曖昧化
本開示の態様によれば、コンピュータアニメーション方法は、姿勢の曖昧さを解決するために、キャラクタの複数のカメラビューにターゲットセグメンテーションマスクを使用してもよい。これは、現在のセグメンテーションマスクと様々な姿勢の様々なターゲットセグメンテーションマスクとの間の差異を最小にして、正しい姿勢を取得すること、例えば、ＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎによって、行うことができる。

図２Ａ及び図２Ｂは、本開示の態様による、コンピュータアニメーション方法の可能な実施態様を示す。図２Ａに示されるように、ビデオフレーム２０１を解析して、ビデオフレーム２０１からキャラクタＣＣの２つの異なる同時性ビューに対して、対応する現在のセグメンテーションマスク２０３を生成する。限定ではなく例として、キャラクタＣＣの異なる同時性ビューを示す２つのビデオフレーム２０１は、２つの異なる同期したカメラを使用して生成され得る。本明細書で使用される場合、「同時性ビュー」という用語は、一般に、例えば、標準ビデオフレームレートの場合、互いに１または２フレームの増分内で、ビューがほぼ同時に取得されることを意味する。いくつかの実施態様では、２つ以上の角度付きミラーを介してキャラクタＣＣを見る単一カメラを使用して、異なる角度で２つの異なる画像を取得することが可能である場合がある。そのような実施態様では、２つ以上の異なる同時性画像及び対応するセグメンテーションマスクを、異なる画像に対応する同じビデオフレームの異なる部分から導出することができる。対応するターゲットセグメンテーションマスク２０５は、最初にソースビデオフレーム２０１から３次元アニメーションデータ２０３を生成することによって生成され得、このアニメーションデータを使用してターゲットセグメンテーションマスク２０５を生成し得る。限定ではなく例として、現在のキャラクタＣＣの様々なビューは、基準面、例えば、ターゲットセグメンテーションマスク２０５を生成するために使用される仮想カメラの画像平面に対して＋４５°及び－４５°に配向されたビューを含んでもよい。同様に、ソースマスク２０７は、対応する基準面に対して＋４５°及び－４５°に配向された２台のカメラで撮影されたキャラクタＣＣのビデオの同時フレームから生成され得る。

図２Ｂに示される実施態様では、ターゲットセグメンテーションマスク２０５は、以下のようにアニメーションデータ２０３から生成され得る。２０２に示されるように、入力フレーム２０１はコンピュータアニメーションプログラムによって解析されると、アニメーションデータ２０３が生成される。アニメーションデータ２０３は、ターゲット姿勢でのビデオフレーム２０１からのキャラクタＣＣの３次元モデルＴＣに対応する。アニメーションプログラムは、仮想カメラＶＣ１、ＶＣ２からモデルＴＣの異なるビューを射影することを含むプロセスを通じて、ターゲットセグメンテーションマスク２０５を生成する。仮想カメラの配向は、ビデオフレーム２０１を生成した実際のカメラの配向に対応し得る。ソースセグメンテーションマスク２０５も、２０４で示されるように、入力ビデオフレーム２０１から生成される。いくつかの実施態様では、ソースセグメンテーションマスク２０７は、アニメーションデータ２０３を生成する、または洗練するプロセスで任意選択に使用され得る。

３次元モデルＴＣが示す姿勢がビデオフレーム２０１内のキャラクタＣＣの姿勢に対応するかどうかを決定するために、２０６に示されるように、ターゲットセグメンテーションマスク２０５が対応するソースセグメンテーションマスクと比較される。次に、２０８で示されるように、比較の結果を解析する。限定ではなく例として、２０６では、ターゲット／ソースマスクの比較ごとのＩｏＵを計算し得る。次に、２０８では、モデルＴＣの姿勢がキャラクタＣＣの姿勢に対応するかどうかを決定するために、ＩｏＵ計算のそれぞれの結果を何らかの閾値と比較してもよい。２０８での解析の結果に応じて、２０２では、アニメーションデータ２０３を調整して、モデルＴＣの姿勢を調整してもよい。２０４では新しいターゲットマスクを生成し、２０６ではソースマスクと比較してもよい。アニメーションデータを調整するには、モデルＴＣの１つ以上の関節角度を調整すること、基準面に対する仮想カメラＶＣ１、ＶＣ２の配向を回転させること、または関節角度の調整及びカメラ配向の調整の何らかの組み合わせが含まれ得るが、これらに限定されない。このプロセスは、解析の結果がビデオフレーム２０１内のモデルＴＣ及びキャラクタＣＣの姿勢間のマッチングを示すまで、反復され得る。マッチングが得られると、２１０に示されるように、最終姿勢データ２０９を使用して、アニメーションフレーム２１１を生成し得る。

限定ではなく例として、現在のキャラクタＣＣの様々なビューは、基準面、例えば、現在のソースマスク２０５を生成するために使用される仮想カメラの画像平面に対して＋４５°及び－４５°に配向されたビューを含んでもよい。

２１４に示されるように、現在のセグメンテーションマスク２０７をターゲットセグメンテーションマスク２１３、２１５のそれぞれと比較して、ビデオフレーム２０１内のソースキャラクタの正しい姿勢に対応する現在のキャラクタＣＣの最終姿勢データ２１７を決定し得る。限定ではなく例として、現在のマスク２０５をターゲットマスク２０９、２１１と比較することは、ターゲットセグメンテーションマスク２１３、２１５のそれぞれと現在のセグメンテーションマスク２０７との間のＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎ（ＩｏＵ）を計算することを含み得る。ＩｏＵ値を閾値と比較してもよく、現在のマスク、例えば、少なくとも閾値を満たすターゲットマスクごとのＩｏＵ値を有する現在のマスクから正しい姿勢を決定し得る。複数の現在のマスク２０７のいずれも閾値を満たさない場合、エラー状態が決定され得、問題を修正するためにターゲットマスクが調整され得る。例えば、ＩｏＵ値がＩｏＵ閾値を上回らないし、２つのＩｏＵ値の間の差が差の閾値を下回らない場合、ターゲットデータ２１１を調整して、ターゲットキャラクタＴＣの姿勢を異なる姿勢に変更してもよく、２１２に示すように、新しいターゲットセグメンテーションマスク２１３、２１５を生成し得る。ＩｏＵ値が特定の姿勢の閾値を上回るが、他の姿勢では上回らない場合、アニメーションプログラムは、特定の姿勢に対応する最終姿勢データ２１７を生成し得る。次に、アニメーションプログラムは、２１６に示されるように、最終姿勢データ２１７を使用して、現在のキャラクタＣＣを正しい姿勢で描写する最終アニメーションフレーム２１９を生成し得る。次に２１８に示されるように、その次のビデオフレームに前述のプロセスを繰り返してもよい。

前述の例では、モデルＴＣ及びキャラクタＣＣの２つの異なるビューを使用して、２つのターゲットセグメンテーションマスク及び２つの対応するソースマスクを生成するが、３つ以上の異なるビューを使用して、３つ以上の対応する異なるターゲット及びソースセグメンテーションマスクを生成してもよい。さらに代替の実施態様では、ターゲットセグメンテーションマスクは、２つ以上の異なるカメラを使用して取得された２つ以上の対応する異なる角度からのターゲットキャラクタの２つ以上の同時性ビデオフレームから生成され得る。

姿勢脱曖昧化装置
図３は、例えば図２Ａ及び図２Ｂに関して、説明された姿勢脱曖昧化を伴うコンピュータアニメーションのための装置を示す。装置は、ユーザ入力デバイス３０２に結合されたコンピューティングデバイス３００を含んでもよい。ユーザ入力デバイス３０２は、コントローラ、タッチスクリーン、マイクロフォン、キーボード、マウス、ジョイスティック、またはユーザが音響データを含む情報をシステムに入力することを可能にする他のデバイスであり得る。ユーザ入力デバイスは、ハプティックフィードバックデバイス、例えば、振動モータ、フォースフィードバックシステム、超音波フィードバックシステム、または空気圧フィードバックシステムに結合されてもよく、またはそれを含んでもよい。さらに、システムは、例えば、限定ではないが、可動関節用のコントローラ３０１を含み得、コントローラは、物理ロボットの制御のための物理ベースのアニメーションを含む実施態様では、ロボット上の関節用のモータまたはアクチュエータを制御し得る。

コンピューティングデバイス３００は、例えば、シングルコア、デュアルコア、クアッドコア、マルチコア、プロセッサコプロセッサ、及びセルプロセッサなどの公知のアーキテクチャに従って構成し得る、１つ以上のプロセッサユニット３０３を含んでもよい。コンピューティングデバイスはまた、１つ以上のメモリユニット３０４（例えば、ランダムアクセスメモリ（ＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、及びリードオンリメモリ（ＲＯＭ）など）を含んでもよい。

プロセッサユニット３０３は、１つ以上のプログラム３１７を実行してもよく、１つ以上のプログラムの一部は、メモリ３０４に記憶されてもよく、プロセッサ３０３は、例えば、データバス３０５を介してメモリにアクセスすることによって、メモリに動作可能に結合されてもよい。プログラム３１７は、ディスクドライブ、ＣＤ－ＲＯＭドライブ、テープドライブ、フラッシュメモリなどといった大容量記憶装置３１５に格納され得る。プログラムは、プロセッサユニットに、図２Ａ及び図２Ｂに関して上述されたようなアニメーション方法を実行させる命令を実装し得る。プログラムは、本明細書の他の箇所で説明されるように、物理ベースのアニメーション入力制御スキームにニューラルネットワーク（ＮＮ）３１４を含む実施態様のために、ＮＮの重み及び遷移値を調整するように構成された機械学習アルゴリズムをさらに含んでもよい。さらに、メモリ３０４は、本明細書の上記に記載されるように、ビデオフレームデータ３０８及びアニメーションデータ３０９を格納し得、これらを使用して、それぞれソースセグメンテーションマスク３１０及びターゲットセグメンテーションマスク３１２を生成し得る。ビデオフレームデータ３０８、アニメーションデータ３０９、及びセグメンテーションマスク３１０、３１２も、データ３１８としてマスストア３１５に格納され得る。さらにプロセッサユニット３０３は、マスストア３１５にまたはメモリ３０４に格納された１つ以上のプログラム３１７を実行すると、プロセッサが上述の方法のうちの１つ以上を実行するように構成される。

コンピューティングデバイス３００はまた、例えば、バス３０５を介してシステムの他のコンポーネントと通信し得る、入力／出力（Ｉ／Ｏ）回路３０７、電源（Ｐ／Ｓ）３２１、クロック（ＣＬＫ）３２２、及びキャッシュ３２３などの公知のサポート回路３０６を含んでもよい。コンピューティングデバイス３００は、電子通信ネットワーク３３０を介した通信を促進するためのネットワークインタフェース３３２を含んでもよい。ネットワークインタフェース３３２は、ローカルエリアネットワーク及びインターネットなどのワイドエリアネットワークを通じた有線通信または無線通信を実装するように構成されてもよい。コンピューティングデバイス３００は、ネットワーク３２０経由で１つ以上のメッセージパケットを介してファイルのデータ及び／または要求を送受信し得る。ネットワーク３２０を通じて送信されるメッセージパケットは、メモリ３０４内のバッファに一時的に格納されてもよい。アニメーションフレーム３０８、ビデオフレーム３０９、及びセグメンテーションマスク３１１、３１２、３１３は、ネットワーク３３０を介してリモートコンピューティングデバイスまたはストレージデバイスから取得され得、コンピューティングデバイス３００による使用のためにメモリ３０４及び／またはマスストレージデバイス３１５に部分的に格納され得る。

プロセッサユニット３０３及びネットワークインタフェース３３２は、適切なネットワークプロトコル、例えば、パーソナルエリアネットワーク（ＰＡＮ）のＢｌｕｅｔｏｏｔｈ（登録商標）を介して、ローカルエリアネットワーク（ＬＡＮ）またはＰＡＮを実装するように構成されてもよい。コンピューティングデバイスはまた、システムとユーザとの間の対話を促進するためのユーザインタフェース３１６を含んでもよい。ユーザインタフェースは、モニタ、テレビスクリーン、スピーカ、ヘッドフォン、またはユーザに情報を通信する他のデバイスを含んでもよい。

単眼姿勢予測
本開示の代替の態様によれば、個々のビデオフレームのそれぞれを独立して解析する代わりに、連続するアニメーションフレームを単一の問題として解析することができる。これらのような実施態様では、最初のアニメーションフレームの姿勢候補を構築する。各姿勢候補は、同じセグメンテーションマスクを有する。ただし、３Ｄ空間では、モデルＴＣの候補姿勢は、互いに可能な限り離れて分散される。続いて、現実のａｃｔｏｒ－ｃｒｉｔｉｃトレーニング済みニューラルネットワーク（ＮＮ）が候補の姿勢を解析する。候補の姿勢を評価するには、様々な方法がある。これらの方法は、以下で説明される、様々な実施態様で組み合わせることができる。

図４Ａは、本開示の態様による、コンピュータアニメーションにおける単眼姿勢予測のための一般化方法の一例を示す。この方法は、フレーム４０１の入力ビデオシーケンスで開始し得る。入力ビデオフレームは、ライブフィードまたはアーカイブ映像から取得され得る。キャラクタを示す任意の適切なタイプのビデオフレームが使用され得る。好ましくは、入力ビデオフレームシーケンス４０１は、デジタルビデオフレームの形式である。あるいは、非デジタルビデオフレームまたはモーションピクチャフレームをデジタル化して、入力ビデオフレームシーケンス４０１を提供してもよい。アニメーションプログラムは、４０２に示されるように、入力ビデオフレームシーケンス４０１の各フレーム内のキャラクタのセグメンテーションマスク４０３の対応するシーケンスを生成し得る。セグメンテーションマスク４０３は、エッジマスクであってもよい。一部の実施態様では、アニメーションプログラムが何らかの外部ソースからセグメンテーションマスク４０３を受信し得、この場合、セグメンテーションマスクの生成は必要ないことに留意する。

アニメーションプログラムは、４０４に示されるように、３次元アニメーションモデル４０５を生成し得る。アニメーションモデル４０５は、セグメンテーションマスク４０３内のキャラクタに対応するアニメーションキャラクタの関節及び四肢を表す３次元データを含む。４０６に示されるように、コンピュータアニメーションプログラムは、可能な候補姿勢シーケンスに対応する姿勢シーケンスデータ４０７を生成し、各シーケンスは、ビデオシーケンスの連続するフレームに対応する異なる時間ステップでアニメーションモデル４０５によって表されるキャラクタの２つ以上の姿勢を含む。各候補姿勢シーケンス内の各姿勢は、ビデオシーケンス４０１内の対応するフレームのセグメンテーションマスクにマッチングするセグメンテーションマスクを有するような方法で生成される。限定ではなく例として、様々な可能な候補姿勢のセグメンテーションマスクは、エッジマスクであってもよい。上述した姿勢の曖昧さの問題により、各時間ステップにおける候補姿勢間の距離が最大になるような方法で候補姿勢を生成することが望ましい。限定ではなく例として、各候補姿勢は、３次元モデル４０５内のＮ個の関節角度のＮ多次元ベクトルで表され得、姿勢間の距離は、Ｎ次元の距離式を用いて計算され得る。アニメーションプログラムは、４０８に示されるように、複数の候補姿勢シーケンスのうち最適な姿勢シーケンスを決定する。アニメーションプログラムは、結果として得られる最適姿勢シーケンスデータ４０９を４１０では使用して、アニメーションフレーム４１１を生成する。次に、アニメーションプログラムは、４１２に示されるように、別の入力ビデオフレームに前述のプロセスを繰り返し得る。

上述のように、４０６では姿勢シーケンスを生成し、４０８では最適姿勢シーケンスを決定する様々な方法がある。一実施態様によれば、ビデオシーケンス４０１内の２つ以上の連続するアニメーションフレームからの姿勢候補のペアは、姿勢最適化４０８を実行するニューラルネットワークへの入力として使用され得る。姿勢最適化の一部として、値ネットワーク（評価器）が姿勢候補シーケンスをテストする場合がある。最高値を与えるシーケンスが正しいシーケンスであると想定される。そのような実施態様では、シーケンス４０１の第一ビデオフレームのセグメンテーションマスクに基づいて、アニメーションモデル４０５のいくつかの３次元（３Ｄ）姿勢が生成される。すべての姿勢は、シーケンス内の第一ビデオフレームのセグメンテーションマスクにマッチングするセグメンテーションマスクを有する。３Ｄ姿勢は、互いにできるだけ距離を置くように生成される。姿勢間の距離は、例えば、アニメーションキャラクタの３Ｄモデル内の関節間の平均角度差として測定することができる。シーケンス４０１内の第一フレームから導出された３Ｄ姿勢ごとに、最適化プロセス４０８は、ビデオフレームごとに姿勢のセグメンテーションマスクがシーケンス４０１の対応するビデオフレームのセグメンテーションマスクにマッチングするような方法で、３Ｄ姿勢を経時的に調整する。最適化プロセス中、モデル４０５によって表されるキャラクタの運動は、物理シミュレーション環境によってシミュレートされる。最適化プロセス４０８は、シーケンス４０１のフレームのセグメンテーションマスクを、モデル４０５の候補姿勢の対応する射影にマッチングさせると同時に、アニメーション化されたキャラクタの運動が物理的に一貫性のある、例えば、アニメーションキャラクタを転倒させない、または関節の制約に違反させないことを確認する。この目的のために、遺伝的（進化的）アルゴリズムを使用することができる。

代替の実施態様では、上記のとおりであるが、アニメーションフレームごとに、いくつかの姿勢候補を生成し得る。所与のアニメーションフレームのすべての姿勢候補は、シーケンス４０１の対応するビデオフレームのセグメンテーションマスクにマッチングするセグメンテーションマスクを有する。最適化プロセス４０８中、連続するビデオフレームの姿勢候補のペアは、同様のアニメーションを使用して物理シミュレーション環境内でキャラクタを制御するように事前にトレーニングされたニューラルネットワークに送られ得る。次に、姿勢候補のペアはニューラルネットワークによって評価される。最良の姿勢候補ペアのセグメンテーションマスクは、対応するビデオフレームから取得されたセグメンテーションマスクとの最良のマッチングを提供するであろう。同時に、シミュレートされた物理環境内でのキャラクタの運動によって、キャラクタが転倒してはならない、または関節の制約に違反してはならない。ソリューションは、第一フレームペアからビデオシーケンス４０１の終わりまで連続して進行する。

いくつかの実施態様では、アニメーションプログラムは、４１４に示されるように、４０８で姿勢最適化プロセスの出力を使用して、ロボット制御入力４１３を生成し得る。アニメーションプログラムは、ロボットコントローラ４１５に制御入力４１３を供給し得、このロボットコントローラは、制御入力を多関節ロボット４１７に送信される制御信号に変換する。ロボットコントローラ４１５は、ハードウェアまたはソフトウェアに実装され得る。ハードウェア実装の場合、アニメーションプログラムの最適化プロセス４０８は便利な形式で入力を提供し、ロボットコントローラは入力をロボットコマンドに変換することができる。ソフトウェア実装の場合、ロボットコントローラ４１５は、アニメーションプログラムと同じコンピュータシステム上で実行するコードによって実装され得る。そのようなロボットコントローラコードは、アニメーションプログラムとは別のプログラムであってもよく、またはアニメーションプログラムに組み込まれてもよい。

上述のように、姿勢最適化プロセス４０８は、ロボット４１７または対応するアニメーション化されたキャラクタの姿勢シーケンスに対する姿勢組み合わせの様々な組み合わせの実行可能性を評価するために、物理シミュレーションによって通知されてもよい。例として、姿勢最適化プロセス４０８は、１つ以上の物理ベースの制約に従って、アニメーション化されたキャラクタまたはロボット４１７の運動を制限し得る。あるいは、姿勢最適化プロセス４０８は、ロボット４１７の動作と一貫性のない姿勢、例えば、ロボットを転倒させる、または関節の制約に違反させる姿勢をリジェクトし得る。いくつかの実施態様では、姿勢最適化プロセス４０８は、任意選択で、図２Ａ及び図２Ｂに関して上で説明されたような技法を使用して、姿勢脱曖昧化を含み得る。これには、３Ｄアニメーションモデル４０５の異なるビューから２つ以上の異なる候補ターゲットマスクを生成し、ターゲットマスクを、入力ビデオフレーム４０１の異なる同時性ビューから生成された対応するマスク４０３と比較することが含まれ得る。

図４Ｂは、本開示の態様による、コンピュータアニメーションにおける単眼姿勢予測の使用のための姿勢最適化４０８の一例を示す。図４Ｂに示されるように、姿勢最適化プロセス４０８は、ニューラルネットワーク４２０を使用して、姿勢シーケンス４０７内の候補姿勢を対応するセグメンテーションマスク４０３に適合させて、任意選択で、制御入力４１３を生成し得る。図示の実施態様では、ニューラルネットワーク４２０への入力は、ビデオフレームシーケンス４０１から取得されたセグメンテーションマスク４０３である。図４Ｂに示された例では、ニューラルネットワーク４２０のゴールは、その次の２つの姿勢の候補に対応するセグメンテーションマスク４２１、４２３である。具体的には、ゴールは、ロボット４１７が模倣するターゲットアニメーションから取られた２つの連続した姿勢であってもよい。ニューラルネットワーク４２０は、実際のロボット４１７を転倒させることなく、このロボットで実行することができるような方法で、ターゲットアニメーションをリアルタイムで変換する。

ニューラルネットワーク４２０は、現在の姿勢からその次の２つの姿勢を決定するようにトレーニングされ得る。ニューラルネットワーク４２０のトレーニングには、物理シミュレーション内でのキャラクタモデルの使用が含まれる場合がある。モーションキャプチャまたは手動でアニメーション化された姿勢をターゲットとして使用し得、ニューラルネットワーク４２０は、機械学習アルゴリズムを使用して物理シミュレーションの制約内でターゲット姿勢を複製するようにトレーニングされ得る。機械学習アルゴリズム及び／またはニューラルネットワークレイアウトは、例えば、限定ではないが、強化学習アルゴリズム、模倣学習アルゴリズム、または教師あり学習アルゴリズムであってもよい。トレーニングされたニューラルネットワークを使用して、候補姿勢のそれぞれに基づいてスコアを出力し得る。トレーニングの結果、スコアはシミュレーション内での姿勢の実行可能性を表す。姿勢は、その次の２つのフレームでの安定性（シミュレーション内でキャラクタが転倒するなど）、制約に違反する関節（逆に曲がった肘関節など）がなにかあるか、すべての関節が動く距離を最小にしようとする試み、衝突する四肢がなにかあるか、四肢が対応する関節に連結されているかなどのような要因で評価される。これらの評価要因の一部またはすべては、ニューラルネットワークによって生成され、スコアによって表されてもよく、または代替に、これらの要因の一部もしくはすべては、ユーザによって決定され、スコアに追加されてもよい。候補の姿勢から最良の姿勢セットを選択し、これは手動で行われてもよく、または最小最大層を使用してニューラルネットワーク内で行われてもよい。姿勢決定ニューラルネットワークの詳細については、並行して出願された米国特許出願番号１７／０９５，５８６（米国特許出願公開番号：２０２２０１４３８２０）を参照する。

選択された候補の姿勢から、ニューラルネットワーク４２０を使用してロボットを制御し得る。ニューラルネットワーク４２０の出力には、アクション４２５及び値４２７が含まれる。アクション４２５は、ロボット４１５への制御入力に対応する。値４２７は、内部トレーニングアルゴリズム量である。これは、トレーニングステップ中にのみ必要であり、ランダムな改善試行の効果を推定するために使用される。

ロボットコントローラ４１５は、アクション４２５に基づいてコマンドをロボット４１７内のモータに提供する。一般に、ロボット４１７は、構造要素及びセンサによって連結された可動関節を含み得る。各関節はセンサに連結され得、このセンサは、関節の状態に関する情報に関連するセンサ値を生成するように構成される。物理ロボット用のセンサは、例えば、限定ではないが、エンコーダ、ポテンショメータ、線形可変差動変圧器、圧力センサ、ジャイロスコープ、重力計、加速度計、リゾルバ、速度計、または速度センサを含み得る。そのようなセンサのセンサ値は、そのようなセンサの出力またはそこから導出される情報に対応する。ロボットのセンサからのセンサ値の例には、関節位置、関節速度、関節トルク、ロボットの配向、ロボットの直線速度、ロボットの角速度、足の測定子、足の圧力、またはこれらの２つ以上が含まれるが、これらに限定されない。アニメーションキャラクタの場合、センサは仮想センサであってもよく、センサ値は、可動関節の状態に関連するデータ、例えば、位置、速度、加速度のデータを単純に含み得る。ロボットシミュレーションからのセンサ値の例には、関節位置、関節速度、関節トルク、モデルの配向、モデルの直線速度、モデルの角速度、足の測定子、足の圧力、またはこれらの２つ以上が含まれるが、これらに限定されない。コントローラ４１５またはアニメーションプログラムからの位置データは、モーション決定ニューラルネットワークに渡され、姿勢最適化プロセス４０８と併せて強化学習中に状態データとして使用され得る。

制御入力の性質は、ロボット４１７の関節を制御するためにロボットコントローラ４１５によって使用される制御パラメータ化に依存する。多関節ロボットに一般的に使用される制御パラメータ化には、位置制御、速度制御、及びトルク制御が含まれる。考えられる実施態様の１つは、ハイブリッドスキームを採用し、そこでは、ニューラルネットワークは、位置微分係数ｖとしてラベル付けされ得る、ターゲット関節速度を出力する。積分器ブロックは、シミュレーションまたはアニメーション内の位置微分（ＰＤ）コントローラか、ロボット４１７のアクチュエータかいずれかに直接適用される前に、ｘ＝∫ｖｄｔに従って微分係数ｖを関節位置ｘに積分する。積分器ブロックの出力を、入力としてニューラルネットワークにルーティングすることにより、フィードバック信号として使用してもよい。積分ステップは、ノイズの多いセンサ及びセンサスパイクに対するロボットの反応を滑らかにすることによって、ロボット４１７のシミュレーション及び制御におけるモータのジッタを視覚的に観測できないレベルまで有利に抑制し得る。この積分により、不具合シナリオ中にネットワーク入力が状態空間の分布外領域に入る場合、ロボットの運動が適度になることもできる。

図示の例では、ニューラルネットワークは、アクション４２５及び値４２７を生成すると、ポリシー及び値の関数を、重みを共有していない別個のネットワーク４２２、４２４に分割する。図示のポリシーネットワーク４２２及び評価器ネットワーク４２４は、それぞれ各層に同数のニューロンを含む３つの層からなり得る。各ニューロンは同じ活性化関数を有し得る。限定ではなく例として、これらの層はそれぞれ１２８個のニューロンを含み、活性化関数としてソフトサインを使用する。ネットワーク入力（観測）は、移動平均及び標準偏差を使用して正規化される。入力には、次の特徴、ゴールの配向、関節センサの読み出し値、前の時間ステップでのアクション、前の時間ステップでのアクチュエータ入力、ローカル基準フレーム内の重力ベクトル、加速度計の読み出し値、ジャイロの読み出し値、及び足圧センサの読み出し値のいずれかまたはすべてが含まれ得る。

ゴールの配向は、軸角度形式で表され得、２つのエンコード層４２６、４２８を使用して潜在表現にエンコードされ得る。例として、各エンコード層は、６４個のニューロンを有する第二層に結合された１２８個のニューロンを有する第一層を含み得る。各ニューロンは、ｌｅａｋｙＲｅＬＵ活性化関数を使用する場合がある。アクション４２５は、ニューラルネットワークによって出力される関節位置微分係数セットを指定する。アクチュエータ入力は、位置微分係数を積分することによって計算された更新された関節位置を示す。前の時間ステップからのアクション及びアクチュエータの入力をネットワークに送ると、フィードバック信号が導入される。

探索は、学習したガウス分布からポリシーネットワークの出力をサンプリングすることによって、トレーニング中に行われる。この方法でサンプリングすると、トレーニング中にジッタが導入され、転倒が誘起されるため、学習が困難になる。前述の積分スキームは、ジッタを軽減するのに役立つ。さらに、各時間ステップでガウス分布からランダムアクションをサンプリングする代わりに、固定確率εでポリシーネットワーク４２２からランダムアクションをサンプリングし得、確率１－εでロボット４１７はガウス平均によって指定された決定論的アクションを実行する。さらに、探索ノイズが適用されるサンプルのみを使用して更新を実行してもよい。

姿勢予測装置
図５は、例えば図４Ａ及び図４Ｂに関して、説明された単眼姿勢予測を伴うコンピュータアニメーションのための装置を示す。装置は、ユーザ入力デバイス５０２に結合されたコンピューティングデバイス５００を含んでもよい。ユーザ入力デバイス５０２は、コントローラ、タッチスクリーン、マイクロフォン、キーボード、マウス、ジョイスティック、またはユーザが音響データを含む情報をシステムに入力することを可能にする他のデバイスであり得る。ユーザ入力デバイスは、ハプティックフィードバックデバイス、例えば、振動モータ、フォースフィードバックシステム、超音波フィードバックシステム、または空気圧フィードバックシステムに結合されてもよく、またはそれを含んでもよい。さらに、システムは、例えば、限定ではないが、可動関節用のコントローラ５０１を含み得、コントローラは、物理ロボットの制御のための物理ベースのアニメーションを含む実施態様では、ロボット上の関節用のモータまたはアクチュエータを制御し得る。

コンピューティングデバイス５００は、例えば、シングルコア、デュアルコア、クアッドコア、マルチコア、プロセッサコプロセッサ、及びセルプロセッサなどの公知のアーキテクチャに従って構成し得る、１つ以上のプロセッサユニット５０３を含んでもよい。コンピューティングデバイスはまた、１つ以上のメモリユニット５０４（例えば、ランダムアクセスメモリ（ＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、及びリードオンリメモリ（ＲＯＭ）など）を含んでもよい。

プロセッサユニット５０３は、１つ以上のプログラム５１７を実行してもよく、１つ以上のプログラムの一部は、メモリ５０４に記憶されてもよく、プロセッサ５０３は、例えば、データバス５０５を介してメモリにアクセスすることによって、メモリに動作可能に結合されてもよい。プログラム５１７は、ディスクドライブ、ＣＤ－ＲＯＭドライブ、テープドライブ、フラッシュメモリなどといった大容量記憶装置５１５に格納され得る。プログラムは、プロセッサユニットに、図４Ａ及び図４Ｂに関して上述されたようなアニメーション方法を実行させる命令を実装し得る。プログラムは、本明細書の他の箇所で説明されるように、物理ベースのアニメーション入力制御スキームにニューラルネットワーク（ＮＮ）５１３を含む実施態様のために、ＮＮの重み及び遷移値を調整するように構成された機械学習アルゴリズムをさらに含み得る。さらに、メモリ５０４は、ビデオフレームデータ５０８及びアニメーションフレームデータ５０９を格納し得る。ビデオフレームデータ５０８を使用して、上記の姿勢予測で使用するセグメンテーションマスク５１０を生成し得る。姿勢予測に使用される姿勢データ５１１も、メモリ５０４に格納され得る。ロボット５３０の制御に使用される場合、メモリは、例えば上述のように、ニューラルネットワーク５１３によって生成されたロボットコマンド５１２及び品質値５１４も格納し得る。ビデオフレームデータ５０８、アニメーションデータ５０９、セグメンテーションマスク５１０、姿勢シーケンスデータ５１１、ロボットコマンド５１２、及び品質値５１４も、マスストレージ５１５にデータ５１８として格納され得る。

またコンピューティングデバイス５００は、例えばバス５０５を介して、システムの他のコンポーネントと通信し得る、入力／出力（Ｉ／Ｏ）回路５０７、電源（Ｐ／Ｓ）５２１、クロック（ＣＬＫ）５２２、及びキャッシュ５２３などの公知のサポート回路５０６を含んでもよい。ロボット５３０の制御を伴う実施態様では、ロボットコマンド５１２は、Ｉ／Ｏ回路を介してロボットに中継され得る。コンピューティングデバイス５００は、電子通信ネットワーク５３０を介した通信を促進するためのネットワークインタフェース５３２を含んでもよい。ネットワークインタフェース５３２は、ローカルエリアネットワーク及びインターネットなどのワイドエリアネットワークを通じた有線通信または無線通信を実装するように構成されてもよい。コンピューティングデバイス５００は、ネットワーク５２０経由で１つ以上のメッセージパケットを介してファイルのデータ及び／または要求を送受信し得る。ネットワーク５２０を通じて送信されるメッセージパケットは、メモリ５０４内のバッファに一時的に格納されてもよい。アニメーションフレーム５０８、ビデオフレーム５０９、及びセグメンテーションマスク５１１は、ネットワーク５２０を介してリモートコンピューティングデバイスまたはストレージデバイスから取得され得、コンピューティングデバイス５００による使用のためにメモリ５０４及び／またはマスストレージデバイス３１５に部分的に格納され得る。

プロセッサユニット５０３及びネットワークインタフェース５３２は、適切なネットワークプロトコル、例えば、パーソナルエリアネットワーク（ＰＡＮ）のＢｌｕｅｔｏｏｔｈ（登録商標）を介して、ローカルエリアネットワーク（ＬＡＮ）またはＰＡＮを実装するように構成されてもよい。コンピューティングデバイスはまた、システムとユーザとの間のインタラクションを促進するためのユーザインタフェース５１６を含んでもよい。ユーザインタフェースは、モニタ、テレビスクリーン、スピーカ、ヘッドフォン、またはユーザに情報を通信する他のデバイスを含んでもよい。

本明細書では、ロボットを制御する目的でコンピュータアニメーションに関して特定の実施態様が説明されているが、本開示の態様はそのように限定されない。姿勢脱曖昧化及び単眼姿勢予測は、他の多くの用途に役立つ。さらに本明細書では、動物のアニメーションに関して特定の実施態様が説明されているが、本開示の態様はそのように限定されない。例えば、本明細書に記載の技法を使用して、人間のキャラクタ及び／またはロボットのキャラクタまたは他の移動オブジェクトのコンピュータアニメーションを、アーカイブ映像、またはモーションキャプチャが実用的でないもしくは不可能な他の状況から生成し得る。

上記は、本発明の好ましい実施形態の完全な説明であるが、多様な代替策、修正、及び均等物を使用することが可能である。したがって、本発明の範囲は、上記説明を参照して判定されるべきでなく、代わりに、均等物のそれらの全範囲に従った、添付の特許請求の範囲を参照して判定されるべきである。好ましいか否かに関わらず、本明細書で説明された任意の特徴が、好ましいか否かに関わらず、本明細書で説明された任意の他の特徴と組み合わされてよい。以下の特許請求の範囲では、不定冠詞「Ａ」または「Ａｎ」は、明確に述べられる場合を除き、冠詞に続く項目のうちの１つ以上の量を指す。添付の特許請求の範囲は、手段プラス機能の限定が、フレーズ「～する手段（ｍｅａｎｓｆｏｒ）」を使用して所与の請求項に明確に記載されない限り、そのような限定を含むとして解釈されるべきではない。

Claims

コンピュータアニメーションのための方法であって、
ａ）２つ以上の対応する視点から特定の瞬間に観測されたキャラクタの２つ以上の対応する同時性ビデオ画像から２つ以上のソースセグメンテーションマスクを生成することと、
ｂ）前記２つ以上の同時性ビデオ画像内の前記キャラクタに対応するアニメーションキャラクタの３次元モデルを生成することであって、前記アニメーションキャラクタの前記３次元モデルを生成することは、前記アニメーションキャラクタと周囲環境との間の関節または接触点に関連するセンサ値を使用して前記アニメーションキャラクタと前記周囲環境との間のインタラクションの物理ベースのシミュレーションの少なくとも２つの時間ステップを実行することによって、前記アニメーションキャラクタの姿勢の実行可能性を評価することを含み、前記アニメーションキャラクタの姿勢の実行可能性を評価することは、前記アニメーションキャラクタがシミュレーションで転倒するかどうかを評価することを含む、前記生成することと、
ｃ）前記２つ以上のビデオ画像内の前記キャラクタに対応する前記アニメーションキャラクタの２つ以上の異なるビューに対応する２つ以上の異なるターゲットセグメンテーションマスクを生成することと、
ｄ）前記２つ以上のターゲットセグメンテーションマスクのそれぞれを前記２つ以上のソースセグメンテーションマスクの対応する１つと比較し、前記比較から、前記アニメーションキャラクタの前記３次元モデルの姿勢が前記２つ以上の同時性ビデオ画像内の前記キャラクタの姿勢に対応するかどうかを決定することと、
ｅ）前記アニメーションキャラクタの前記３次元モデルの前記姿勢が前記２つ以上の同時性ビデオ画像内の前記キャラクタの前記姿勢に対応する場合、前記３次元モデルを使用して、前記アニメーションキャラクタのアニメーションフレームを生成することと、
を含む、方法。
前記ｄ）後に、前記アニメーションキャラクタの前記姿勢が前記２つ以上の同時性ビデオ画像内の前記キャラクタの前記姿勢に対応しない場合、前記アニメーションキャラクタの前記３次元モデルを調整して、調整されたモデルを生成することと、
ｆ）必要に応じて、前記アニメーションキャラクタの前記姿勢が前記２つ以上の同時性ビデオ画像内の前記キャラクタの前記姿勢に対応するまで、前記ｂ）、前記ｃ）、前記ｄ）、及び前記ｅ）を繰り返すことであって、前記ｅ）は前記調整されたモデルを使用して、前記アニメーションフレームを生成することを含む、前記繰り返すことと、
をさらに含む、請求項１に記載の方法。
前記２つ以上の同時性ビデオ画像内の前記キャラクタの前記２つ以上の異なるビューは、基準面に対して＋４５°及び－４５°に配向されたビューを含む、請求項１に記載の方法。
前記２つ以上のターゲットセグメンテーションマスクのそれぞれを前記２つ以上のソースセグメンテーションマスクの前記対応する１つと比較することは、その対応するソースセグメンテーションマスクの前記２つ以上のターゲットセグメンテーションマスクのそれぞれの間のＩｏＵ（ＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎ：共通部分を和集合で除算したもの）を計算することを含む、請求項１に記載の方法。
前記２つ以上の異なるターゲットセグメンテーションマスクを生成することは、３次元アニメーションデータを使用して２つ以上の対応する異なる角度からアニメーション化されたキャラクタの２つ以上の異なるアニメーションフレームを生成することと、前記２つ以上の異なる基準セグメンテーションマスクを前記２つ以上の異なるアニメーションフレームから生成することとを含む、請求項１に記載の方法。
前記２つ以上のソースセグメンテーションマスクを生成することは、２つ以上の異なるカメラを用いて２つ以上の対応する異なる角度から２つ以上の同時性ビデオフレームを生成することを含む、請求項１に記載の方法。
前記２つ以上のソースセグメンテーションマスクは、１つ以上のエッジマスクを含む、請求項１に記載の方法。
前記２つ以上のターゲットセグメンテーションマスクは、１つ以上のエッジマスクを含む、請求項１に記載の方法。
前記２つ以上のソースセグメンテーションマスクは１つ以上のエッジマスクを含み、前記２つ以上のターゲットセグメンテーションマスクは１つ以上の異なるエッジマスクを含む、請求項１に記載の方法。
コンピュータアニメーションのための装置であって、
プロセッサと、
メモリと、
前記メモリ内で具現化される実行可能な命令であって、前記命令は前記プロセッサによって実行されると、コンピュータアニメーションのための方法を前記プロセッサに実装させる、前記命令と、
を含み、
前記方法は、
ａ）２つ以上の対応する視点から特定の瞬間に観測されたキャラクタの２つ以上の対応する同時性ビデオ画像から２つ以上のソースセグメンテーションマスクを生成することと、
ｂ）前記２つ以上の同時性ビデオ画像内の前記キャラクタに対応するアニメーションキャラクタの３次元モデルを生成することであって、前記アニメーションキャラクタの前記３次元モデルを生成することは、前記アニメーションキャラクタと周囲環境との間の関節または接触点に関連するセンサ値を使用して前記アニメーションキャラクタと前記周囲環境との間のインタラクションの物理ベースのシミュレーションの少なくとも２つの時間ステップを実行することによって、前記アニメーションキャラクタの姿勢の実行可能性を評価することを含み、前記アニメーションキャラクタの姿勢の実行可能性を評価することは、前記アニメーションキャラクタがシミュレーションで転倒するかどうかを評価することを含む、前記生成することと、
ｃ）前記２つ以上のビデオ画像内の前記キャラクタに対応する前記アニメーションキャラクタの２つ以上の異なるビューに対応する２つ以上の異なるターゲットセグメンテーションマスクを生成することと、
ｄ）前記２つ以上のターゲットセグメンテーションマスクのそれぞれを前記２つ以上のソースセグメンテーションマスクの対応する１つと比較し、前記比較から、前記アニメーションキャラクタの前記３次元モデルの前記姿勢が前記２つ以上の同時性ビデオ画像内の前記キャラクタの姿勢に対応するかどうかを決定することと、
ｅ）前記アニメーションキャラクタの前記３次元モデルの前記姿勢が前記２つ以上の同時性ビデオ画像内の前記キャラクタの前記姿勢に対応する場合、前記３次元モデルを使用して、前記アニメーションキャラクタのアニメーションフレームを生成することと、
を含む、装置。
前記方法は、
前記ｄ）後に、前記アニメーションキャラクタの前記姿勢が前記２つ以上の同時性ビデオ画像内の前記キャラクタの前記姿勢に対応しない場合、前記アニメーションキャラクタの前記３次元モデルを調整して、調整されたモデルを生成することと、
ｆ）必要に応じて、前記アニメーションキャラクタの前記姿勢が前記２つ以上の同時性ビデオ画像内の前記キャラクタの前記姿勢に対応するまで、前記ｂ）、前記ｃ）、前記ｄ）、及び前記ｅ）を繰り返すことであって、前記ｅ）は前記調整されたモデルを使用して、前記アニメーションフレームを生成することを含む、前記繰り返すことと、
をさらに含む、請求項１０に記載の装置。
前記２つ以上の同時性ビデオ画像内の前記キャラクタの前記２つ以上の異なるビューは、基準面に対して＋４５°及び－４５°に配向されたビューを含む、請求項１０に記載の装置。
前記２つ以上のターゲットセグメンテーションマスクのそれぞれを前記２つ以上のソースセグメンテーションマスクの前記対応する１つと前記比較することは、その対応するソースセグメンテーションマスクの前記２つ以上のターゲットセグメンテーションマスクのそれぞれの間のＩｏＵ（ＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎ：共通部分を和集合で除算したもの）を計算することを含む、請求項１０に記載の装置。
前記２つ以上の異なるターゲットセグメンテーションマスクを生成することは、３次元アニメーションデータを使用して２つ以上の対応する異なる角度からアニメーション化されたキャラクタの２つ以上の異なるアニメーションフレームを生成することと、前記２つ以上の異なる基準セグメンテーションマスクを前記２つ以上の異なるアニメーションフレームから生成することとを含む、請求項１０に記載の装置。
前記２つ以上のソースセグメンテーションマスクを生成することは、２つ以上の異なるカメラを用いて２つ以上の対応する異なる角度から２つ以上の同時性ビデオフレームを生成することを含む、請求項１０に記載の装置。
前記２つ以上のソースセグメンテーションマスクは、１つ以上のエッジマスクを含む、請求項１０に記載の装置。
前記２つ以上のターゲットセグメンテーションマスクは、１つ以上のエッジマスクを含む、請求項１０に記載の装置。
前記２つ以上のソースセグメンテーションマスクは１つ以上のエッジマスクを含み、前記２つ以上のターゲットセグメンテーションマスクは１つ以上の異なるエッジマスクを含む、請求項１０に記載の装置。
実行可能な命令が具体化された非一時的なコンピュータ可読媒体であって、前記命令はコンピュータによって実行されると、コンピュータアニメーションのための方法を前記コンピュータに実装させ、
前記方法は、
ａ）２つ以上の対応する視点から特定の瞬間に観測されたキャラクタの２つ以上の対応する同時性ビデオ画像から２つ以上のソースセグメンテーションマスクを生成することと、
ｂ）前記２つ以上の同時性ビデオ画像内の前記キャラクタに対応するアニメーションキャラクタの３次元モデルを生成することであって、前記アニメーションキャラクタの前記３次元モデルを生成することは、前記アニメーションキャラクタと周囲環境との間の関節または接触点に関連するセンサ値を使用して前記アニメーションキャラクタと前記周囲環境との間のインタラクションの物理ベースのシミュレーションの少なくとも２つの時間ステップを実行することによって、前記アニメーションキャラクタの姿勢の実行可能性を評価することを含み、前記アニメーションキャラクタの姿勢の実行可能性を評価することは、前記アニメーションキャラクタがシミュレーションで転倒するかどうかを評価することを含む、前記生成することと、
ｃ）前記２つ以上のビデオ画像内の前記キャラクタに対応する前記アニメーションキャラクタの２つ以上の異なるビューに対応する２つ以上の異なるターゲットセグメンテーションマスクを生成することと、
ｄ）前記２つ以上のターゲットセグメンテーションマスクのそれぞれを前記２つ以上のソースセグメンテーションマスクの対応する１つと比較し、前記比較から、前記アニメーションキャラクタの前記３次元モデルの前記姿勢が前記２つ以上の同時性ビデオ画像内の前記キャラクタの姿勢に対応するかどうかを決定することと、
ｅ）前記アニメーションキャラクタの前記３次元モデルの前記姿勢が前記２つ以上の同時性ビデオ画像内の前記キャラクタの前記姿勢に対応する場合、前記３次元モデルを使用して、前記アニメーションキャラクタのアニメーションフレームを生成することと、
を含む、非一時的なコンピュータ可読媒体。
前記方法は、
前記ｄ）後に、前記アニメーションキャラクタの前記姿勢が前記２つ以上の同時性ビデオ画像内の前記キャラクタの前記姿勢に対応しない場合、前記アニメーションキャラクタの前記３次元モデルを調整して、調整されたモデルを生成することと、
ｆ）必要に応じて、前記アニメーションキャラクタの前記姿勢が前記２つ以上の同時性ビデオ画像内の前記キャラクタの前記姿勢に対応するまで、前記ｂ）、前記ｃ）、前記ｄ）、及び前記ｅ）を繰り返すことであって、前記ｅ）は前記調整されたモデルを使用して、前記アニメーションフレームを生成することを含む、前記繰り返すことと、
をさらに含む、請求項１９に記載の非一時的なコンピュータ可読媒体。
前記２つ以上の同時性ビデオ画像内の前記キャラクタの前記２つ以上の異なるビューは、基準面に対して＋４５°及び－４５°に配向されたビューを含む、請求項１９に記載の非一時的なコンピュータ可読媒体。
前記２つ以上のターゲットセグメンテーションマスクのそれぞれを前記２つ以上のソースセグメンテーションマスクの前記対応する１つと前記比較することは、その対応するソースセグメンテーションマスクの前記２つ以上のターゲットセグメンテーションマスクのそれぞれの間のＩｏＵ（ＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎ：共通部分を和集合で除算したもの）を計算することを含む、請求項１９に記載の非一時的なコンピュータ可読媒体。
前記２つ以上の異なるターゲットセグメンテーションマスクを生成することは、３次元アニメーションデータを使用して２つ以上の対応する異なる角度からアニメーション化されたキャラクタの２つ以上の異なるアニメーションフレームを生成することと、前記２つ以上の異なる基準セグメンテーションマスクを前記２つ以上の異なるアニメーションフレームから生成することとを含む、請求項１９に記載の非一時的なコンピュータ可読媒体。
前記２つ以上のソースセグメンテーションマスクを生成することは、２つ以上の異なるカメラを用いて２つ以上の対応する異なる角度から２つ以上の同時性ビデオフレームを生成することを含む、請求項１９に記載の非一時的なコンピュータ可読媒体。
前記２つ以上のソースセグメンテーションマスクは、１つ以上のエッジマスクを含む、請求項１９に記載の非一時的なコンピュータ可読媒体。
前記２つ以上のターゲットセグメンテーションマスクは、１つ以上のエッジマスクを含む、請求項１９に記載の非一時的なコンピュータ可読媒体。
前記２つ以上のソースセグメンテーションマスクは１つ以上のエッジマスクを含み、前記２つ以上のターゲットセグメンテーションマスクは１つ以上の異なるエッジマスクを含む、請求項１９に記載の非一時的なコンピュータ可読媒体。