JP4202479B2

JP4202479B2 - 三次元動作復元システム

Info

Publication number: JP4202479B2
Application number: JP26991298A
Authority: JP
Inventors: ウィリアム・ティー・フリーマン; マイケル・イー・レヴェントン
Original assignee: Mitsubishi Electric Research Laboratories Inc
Current assignee: Mitsubishi Electric Research Laboratories Inc
Priority date: 1998-02-12
Filing date: 1998-09-24
Publication date: 2008-12-24
Anticipated expiration: 2018-09-24
Also published as: EP0936576A2; DE69823001D1; DE69823001T2; US6115052A; JPH11259660A; EP0936576B1; EP0936576A3

Description

【０００１】
【発明の属する技術分野】
この発明は、身体の動作を認識するシステムに関し、より詳しくは、実際のまたは前もって記録された身体のイメージシーケンスから人物の身体の三次元の位置推定を復元するための三次元動作復元システムに関するものである。
【０００２】
【従来の技術】
人物が動いているフィルムまたは映像を見る際、二次元で映し出されるイメージをある期間見て、動いている人物の三次元での動作を容易に推定できる。ダンサーはフィルムに描写された動作を繰り返すことができる。しかし、そのような三次元の動作をコンピュータが推定することは困難である。
【０００３】
三次元の動作を推測する同等の能力を有するコンピュータから多くの応用ができる。対話式ゲームや仮想現実と同様にエレベータやエスカレータの公共安全への応用がある。コンピュータグラフィックでは、成長産業はデジタル化された人物像の動作がコンピュータグラフィックのキャラクターを動かす「動作捕獲」（motion capture）に専心している。人物の三次元動作の情報は複測定カメラおよび特別な目的の目印を利用する磁気センサや光学技術のいずれかによってデジタル化される。しかし不都合なことに、いずれの技術も高価であり、扱いにくい。単一カメラ映像から三次元像の動作情報を得ることで、一般の一眼ビデオカメラでの動作捕獲を可能にし、記録保持フィルムまたは映像に応用できる。
【０００４】
【発明が解決しようとする課題】
L.Goncalves、E.D.Bernardo、E.Ursella、およびP.Peronaの、「Monocular tracking of the human arm in 3d.」（Proc. ５th Intl. Conf. on Computer Vision,７６４−７７０ページ、IEEE、１９９５年）に述べられているように、制限された観察および動作状態下で、Goncalvesおよび合作者が三次元で腕の動作をトラックした。「Ｍodel‐based tracking of self‐occluding articulated objects」（Proc. ５th Intl. Conf. on Computer Vision、６１２−６１７ページ、IEEE、１９９５年）と題されるJ.M.RehgおよびT.Kanadeの記事では、いくつかの手の動作が三次元でトラックされ、かなりの咬合が認められている。しかしながら、これには三次元モデルの初期設定および制御された観察状態が必要である。一つ以上のカメラから身体の位置を復元する作業は、D.M.GavrilaおよびL.S.Davisの、「3‐d model‐based tracking of humans in action: a multi‐view approach」（Proc. IEEE CVPR、７３−８０ページ、１９９６年）に述べられているように、より成功しやすい。I.Essaにより編集され、「Internaltional Workshop on Automatic Face‐ and Gesture‐ Recognition」（IEEE Computer Society, Killington, バーモント、１９９７年）と題される本に示されているように、この研究の注目度に反して、単一カメラ映像から三次元像動作を復元する問題はまだ満足のいくようには解決されていない。
【０００５】
【課題を解決するための手段】
個人に目印を使用せずに、また６つものカメラを使用せずに人物の動作を感知するために、映像入力信号および元のトレーニング集合を取り、映像入力、トレーニングデータおよび手動で入力された修正に対応する身体の目印の最適化された三次元の座標を出力するオプティマイザーが使用される。
【０００６】
最適化を成し遂げるために、オプティマイザーは入力映像を説明し,ユーザ修正に対応し、またもっともらしい三次元動作セグメントであるのに最も起こりそうなトレーニングデータの線形結合を見つけだす。一実施例では、最適な三次元座標を導き出してから、行為者の身体に物理的な目印を使用せずに、行為者を観察する単一カメラからリアルな漫画のキャラクターが生成される。行為者の動作をキャラクター化できるだけでなく、記録保持フィルムをフィルム中の行為者の動作に関して解析可能である。結果として、いかなる目的にでも簡単な面倒でない方法で動画を生成することができる。
【０００７】
一実施例において、オプティマイザーは以下の公式に従って役割を果たす。
【０００８】
【数３】

【０００９】
ここで、Ｅ(→α)は見つけだされる最適係数により最小となるエネルギー関数であり、→Ｒはイメージデータからの時間経過に伴うセンサ応答のベクトルである。なお、「→」はベクトルを表す。関数→ｆは身体の動作係数→αを予測されたセンサ応答に変換する。→Ｉ_ｉはユーザにより特定されるｉ番目のポイント位置であり、Ｐ_ｉは対応するｉ番目の棒線像部二次元位置上に係数αを射影する。λ_１およびλ_２はイメージデータのウェート、人物の動作に対する優先、対話的に特定された二次元ポイントの一致を反映する定数である。
【００１０】
本発明では、トレーニングデータの形でどのように人物が動くかについての強固な事前知識が用いられる。この事前知識が三次元人物の動作例と適合して三次元復元を劇的に向上させる。
【００１１】
本発明では、簡略化されたイメージレンダリング領域での三次元復元はベイズ解析を利用して、イメージデータから像の動作を推定することについての基本的な疑問への解析解を提供する。ベイズの方法を実際のイメージに適用することは、困難なフィルムシーケンスからさえも復元を可能にする自動二次元追跡エラーの対話的修正に対応する本システムを用いて、記録保持映像から人物像の動作を復元することを可能にする。一実施例においては、棒線像が動いている人物のイメージ上に重ねられ、ユーザが二次元動作推定エラーを確認し修正するのを可能にする。
【００１２】
要するに、統計学的アプローチと共に動作の捕獲例の集合を用いて人物像の短い動作シーケンスにガウスの確率モデルが形成される単眼的に観察されたイメージシーケンスから、人物の三次元の動作を復元するためのシステムが提供される。簡略化されたレンダリング領域において、これにより与えられた二次元の一時的なシーケンスからリアルな動画を生成するために使用される人物動作の最適な三次元推定がもたらされる。本発明はまた、推定が困難な動作形態を識別するのに有用である。一実施例では、不正確にトラックされた身体の部分を手動で修正できるように、棒線像が入力映像イメージ上に重ねられる。棒線像の修正は、入力映像シーケンスで表現される動作をより正確に三次元で復元するように手動で修正できるようにする。対話式追跡システム（interactive tracking system）は実際の映像シーケンスを処理し、人物像の動作を三次元でよく復元する。
【００１３】
【発明の実施の形態】
実施の形態１．
図１を参照して、一実施例において、個人の身体の動作の三次元推定を提供するシステム１０が、行為者の動作に類似する動作の漫画のキャラクターを提供するのに使用される。前述したように、人物の動作に基づいてリアルに動く漫画のキャラクターを生成することは難しい。
【００１４】
示される実施例では、行為者１２の動作はビデオカメラ１４で撮影され、１６においてデジタル化されてオプティマイザー２０につながれる。この目的は、与えられた三次元動作トレーニングデータ集合２２から最適な三次元の身体座標を見つけることである。
【００１５】
一実施例において、トレーニングデータは人物動作の基底ベクトルと呼ばれるものを定義する断片またはセグメントに分割される。これらの値を係数で掛け、その結果を足すと新しい動作がもたらされる。基底ベクトルとは以下の構成要素、フレーム番号、そのフレーム中の各目印数、および各目印のｘ、ｙ、およびｚ位置を有するベクトルである。目印がトレーニングデータ集合から得られることに注意する。トレーニングデータ集合の目印は、身体部分の位置を示す身体上の様々な位置を示す。これらは個人の衣服上に物理的な目印を配置し、複数のカメラから三角測量することにより物理的な目印の三次元位置を測定するのと同様である。動画用のトレーニングデータはマサチューセッツ州、ケンブリッジにあるAdaptive Optics Associatesから商業的に利用でき、そこではデータセットが、例えば、ダンサーに関して提供され目印で身体部分の位置が示される。これらのトレーニング集合のかたちでの動作シーケンス例は本システムで使用される事前データを提供する。
【００１６】
断片が所定数のフレームを有することが言及される。さらに一実施例においては、一断片とその次の断片の開始部分の間でいくつのフレームがスキップされるかを示すオフセットが存在する。
【００１７】
オプティマイザー２０の目的は、（１）入力映像データを最もよく説明し、（２）以後説明されるユーザ修正に対応する、三次元動作トレーニングデータ集合の係数の集合を見つけることである。本システムは二次元データを操作するが、これは漫画のキャラクターに加えられる身体の動作を描写するのに必要な三次元データを提供するのには通常不十分であることに注意する。
【００１８】
三次元推定は、二次元イメージ情報および二次元ユーザ修正を明らかにする三次元トレーニングデータの最も起こりそうな線形結合を見つけることを通して、二次元映像データから導き出される。
【００１９】
身体の動作の三次元描写を完成するために、三つめの次元を推測することが必要である。どのようにこれが成し遂げられるかは、一般的に、トレーニングデータからの三つめの次元の情報に始まる。明確には、トレーニングデータの特定の線形結合への事前優先（prior preference）が形成される。これはトレーニングデータから得られる。次に、オプティマイザー２０は所与の線形結合への事前優先の強さを、どのくらいその線形結合が入力映像データを説明し、またユーザ修正を明らかにするかに対してトレードオフする。
【００２０】
オプティマイザー２０はトレーニング動作断片の最適な線形結合を繰り返し探し、研究されている動作への最適な係数集合を出力する。ここでは、２４で示されるように、この出力は前述の身体目印の推定三次元座標と呼ばれる。
【００２１】
要求はされないが、推定がどのぐらい正確かは一実施例においてユーザにより確認される。この実施例では、２６で示される回復した目印位置の三次元から二次元への投影が、モニタ３０で視覚比較が行われる２８で示されるように対応する映像に重なるように作られた棒線像に変換される。ユーザは棒線像の位置と映像中の行為者の位置とを比較して、行為者の対応する身体位置と一列にするために棒線像にどのような調整が行われなければならないかを確認する。これは装置３２で行われる。マウス３４は、一実施例において、棒線像のどの身体部分が選択されたのか、またその棒線像の身体部分がどこに行くべきなのかを指定するのに利用される。これは、マウスで調整される目印を選択すること、およびもう一度マウスをクリックしてその目印が映像身体イメージ上のどこに移動されるべきなのかを指定することを通して成し遂げられる。
【００２２】
オプティマイザー２０の働きのため、手動で各目印を調整することは必要ではないしまた好ましくない。むしろ、調整するための選択目印を特定する対話的処理を通して、オプティマイザー２０は変更された棒線像の推定を出力する。人間の身体ができることは限られているために、棒線像への可能性の範囲は限られている。これは、トレーニングデータに潜在的に含まれている一定量の事前知識が結果として生ずる三次元棒線像座標に少しずつ漏れ出すためである。
【００２３】
行為者の身体全体に目印を配置するのに頼るよりもむしろ、本システムは妨害されない行為者の映像シーケンスから同じ三次元情報を回復（recover）する。もはや、行為者の動作を検出するために６台のカメラで観察したり、服に装置をつける必要もない。むしろ、デジタル化された映像を解析して動作を検出し行為者の動作を模倣する漫画の対応キャラクターを生成するのに使用される目印を含む三次元棒線像描写を提供する。
【００２４】
４０で示されるように、推定三次元座標は一実施例において、所定のキャラクターモデルを三次元座標にあわせることによりキャラクターモデルを生成するのに使用される。いったんキャラクターモデルが三次元座標にあわせられると、キャラクターモデルが４２で表示される。キャラクター表示は、好みの衣装にしたり、像を回転させるためにカメラ視点を変えられるし、またはゲーム中で別のキャラクターや背景要素と互いに関係させたりもできることに注意すべきである。結果として、テレビゲーム作成が簡略化され、また行為者に邪魔な装置をつけることなく、また高価な動作捕獲設備なしでよりリアルなものを作成できるようになった。
【００２５】
行為者または運動選手の動作をビデオカメラにより捕獲するだけでなく、フィルムまたは映像中のキャラクターに似たキャラクターをフィルムまたは映像中のキャラクターと同じように動かすことができるように、記録保持フィルムまたは映像を解析することも可能である。このように、キャラクターを新しい設定で、または新しいカメラアングルから再レンダリングできる。さらに、フィルム上で本来捕らえたキャラクターを、不可能であったことだが、目印を物理的に配置せずに互いに関係させることができる。このために、本発明を利用して、仮想世界で亡くなった俳優を生き返らせたり、またキャラクターとリアルに相互に関係させたりできる。
【００２６】
同様の技術が、与えられた環境でどの動作が非正常行動となるのかを確かめるために利用される。例えば、エスカレータで降りている人々をリアルタイムで観察でき、万が一人が倒れても、この事実は本装置により検出できる。さらに、本技術を用いて時間および動作の研究を生み出すことが可能である。
【００２７】
後述されるように、オプティマイザー２０が最適化する関数は所与の三次元身体動作のベイズの事後確率として解釈される。これは断片係数（snippet coefficient）の集合の事前確率を利用して成される。動作が断片の線形結合として表されることが理解されるだろう。このように、事前確率は所与の断片係数の集合によって示される動作を生じさせる人物の確率の数学的表現である。さらに、事前確率は新しい映像のない、すなわち映像を見る前のトレーニングデータから生じることが理解されるだろう。事後確率は、映像データを検査しユーザ修正をオプション的に組み入れた後の集合の確率を示す。
【００２８】
オプティマイザー２０は、ベイズの数学的確率法を利用して、身体の動作を描写するのに使用される三次元推定が最適であることを確認する。これは、映像データの説明、ユーザ修正への対応、および起こりそうな人物三次元動作の推定、の間で最適なトレードオフを提示する。
【００２９】
さらに詳しくは、一実施例において、ここで使用されるトレーニング例は、商業的に得られたそれぞれ５〜１０秒の１０の三次元動作捕獲シーケンスである。データは、１秒ごとに約２０フレームでサンプルされた、各シーケンスの１２０から２４０の一時的なフレームでの３７の目印の位置情報である。動作は、おそらく動作捕獲設備の範囲および精密さを示すよう設計された短い活動の折衷集合である。
【００３０】
図２は、１０の動作シーケンスのうちの３つの部分集合を表している。他の動作表示でのように、これらの像は、明確にするために一時的に二段抽出されかつ時空間的にオフセットされた、動画化されたシーケンスの「ストロボスコープ的」表示を表す。線は解釈しやすい棒状の人を作成するために、目印または円の間に引かれる。
【００３１】
本発明の目的は、これらの例から習得された三次元動作の簡素で扱いやすいがそれでいて有用な確率モデルを求めることである。一実施例において、動作信号は所定の短い一時的長さの「セグメント」に分割される。事前モデルは２，３のフレームにわたる目印位置の一時的セグメントでの確率分布である。
【００３２】
人物動作のユニットにフレームを多く選びすぎる場合は、トレーニングデータは、十分に信頼性のあるそのような複雑なベクトルのモデルを提供するのに充分な長さがない。選んだフレームが少なすぎる場合は、本モデルを用いて十分な動作規則を捕獲できない。各セグメントに１０のフレームが適当であることがわかっている。５フレームのオーバーラップしたオフセットと共に元データからサンプリングすると、２５７の１０フレームのセグメントが得られそれぞれが１１１０の番号で表される、すなわち、３７の身体目印掛ける３つの次元掛ける１０のフレームである。
【００３３】
R.O.DudaおよびP.E.Hartによる「Pattern classification and scene analysis」（Wiley‐Interscience, １９７３年）またM.TurkおよびA.Pentlandによる「Eigenfaces for recognition」（J. of Cognitive Neuroscience、３（１）、１９９１年）に述べられているように、これらのベクトルを説明し、次元数削減においての主構成要素解析（principle components analysis）, ＰＣＡの連続により動機づけられる確率モデルを得るために、最初にこれらの動作セグメントが基底関数（basis functions）の線形結合として記述できるかどうかを確かめる。これは、始めに平均ベクトル→ｍを部分追跡（subtraking）した後で、列の１１１０の次元トレーニングベクトルを一緒にスタックすることにより、トレーニング行列Ｍを形成して成される。特異値分解 (ＳＶＤ)はＭ＝ＵＳＶ’を提供するが、Ｕの列は基底関数であり、Ｓの対角要素は対応する特異値である。図４の実線は特異値スペクトルを示す。スペクトルは急降下するが、これはデータのよい概要、すなわち、５０の固有ベクトルから９１％の分散、を提供する。
【００３４】
図３は、４０の固有ベクトルを用いて合成した典型的な動作シーケンスを示し、不完全な、しかしよい復元を示している。このように、１１１０の次元空間の５０の次元部分空間でのそれぞれの座標により１１１０の次元動作セグメントベクトルを要約できる。
【００３５】
もちろん、特異値自体は動作セグメントデータについての追加情報を提供する。前述のDudaの著書に述べられるように、分散がＡ＝ＵＳであるガウスの確率分布の結果得られるものとしてデータをモデルできる。この確率モデルは、B.MoghaddamおよびA.PentlandによるProbabilistic visual learning for object detection（Proc. 5th Intl. Conf. Computer Vision、７８６〜７９３ページ、IEEE, １９９５年）に述べられるように、部分空間情報自体だけよりも強固である。
【００３６】
図５は、１０フレームの人物動作セグメントの結果として得られた確率モデルからの３つの無作為な抽出を示す図である。動作は、もちろん不揃いであるが、人物のもっともらしい動作に見える。このガウスの分布は時がたつにつれてどのように人物が動くかに対する有用な事前モデルを提供する。しかもなお、容易に作業しいくつかの解析推定結果を提供するのに十分なほど簡略である。
【００３７】
目標は、イメージシーケンスから三次元の人物動作を推定することである。そのためには、簡略化されたレンダリング状態を利用するが、その簡略化されたレンダリング状態とは以下のことである。身体は透き通り、各目印は画面に直交的にレンダリングされる。人物動作の基底係数（basis coefficient）→αにより記述される像からなる動作に対してのレンダリングされたイメージシーケンス →ｙは、
【００３８】
【数４】

【００３９】
であり、ＰはイメージシーケンスＵ→αのｙ次元をつぶす（collapse）射影演算子である。このようなレンダリング状態では目印は互いに識別可能であることに注意する。
【００４０】
像の三次元動作を推定するために、与えられた目印の二次元観察→ｙに対して、→αにより特定される最も起こりそうな三次元解釈を見つけだす。ベイズの定理により、
【００４１】
【数５】

【００４２】
が得られるが、ここでｋ_１は、最適にしようとするパラメータ→αとは無関係な正規化定数である。上に展開されたように、事前確率Ｐ(→α)に対しての多次元ガウス（gaussian）は、
【００４３】
【数６】

【００４４】
ここで、ｋ_２は別の正規化定数である。観察ノイズ（observation noise）を共分散がσであるi.i.d ガウスとしてモデルする場合、ベイズの定理の尤度項（likelihood term）に対して、
【００４５】
【数７】

【００４６】
ここで、ｋ_３は正規化定数である。
【００４７】
事後分布はこれら二つのガウスの産物である。編集者A.Gelbによる「Applied optimal estimation」（MIT Press、１９７４年）に記述されるように、「二次式の平方化」の行列一般化（matrix generalization）により見つけられる平均と共分散を有する別のガウスをもたらす。αについての平方エラー最適推定（squared error optimal estimate）は、以下の式のとおりである。
【００４８】
【数８】

【００４９】
図６(ａ）〜（ｄ）は、この推定を、１０のフレームセグメントがそれぞれ５フレームにオフセットされた２０フレームの三次元動作セグメントのオーバーラップされたシーケンスに適用したものを示す。一実験では、１０シーケンスの内の一つがトレーニングデータから省略され、その部分集合がこのテストに使用された。図６（ａ）は元のシーケンスを表し、図６（ｂ）は正投影を表す。図６（ｃ）はガウスの事前情報を省略した尤度項のみに起因する三次元復元である。これは、視覚データを最もよく説明する人物動作の基底関数の係数を見つける。三次元復元は不十分であることに注意する。図６（ｄ）は方程式６の完全なベイズの解である。事前情報を含めるとはるかによい三次元復元が得られる。本ガウスの確率モデルおよび簡略化されたレンダリング状態は最適三次元動作推定についての解析解を与える。
【００５０】
また、二次元シーケンスを観察した後の推定三次元配置での不確定性（uncertainty）を示す共分散行列Ｑが知られている。ここで、Ｉは観察の次元性を有する行と列である単位行列である。
【００５１】
【数９】

【００５２】
もちろん、人物動作モデルなしでは、各目印の奥行きは全くの未知である。本システムの人物動作の事前モデルは大部分の不明確性を取り除く。事後共分散Ｑの構成は、イメージシーケンスの観察後に、不明確性が三次元構造に残っていることを明らかにする。図４は、事前共分散の対角項（diagonal terms）、すなわち実線と事後共分散の対角項、すなわち点線の比較を表す。一つの形態、形態２では、不確定性が実質的に減少しないことを示す。これは、図７（ａ）に示されるように、ほとんどカメラの視界線にそって移動する固定平行移動形態（rigid translation mode）に一致する。二番目に高い不確定性形態である形態１は、図７（ｂ）に示されるように、もう一つの固定平行移動形態である。最も高い事後不確定性を有する非固定形態である形態１０は、図７（ｃ）に示される。この形態では、個人の腕をカメラの視界線にそって広げている。この不確定性の高い形態は図６（ｄ）の復元で観察されたエラーを反映していることに注意する。
【００５３】
本ガウスの事前モデル下では、時間経過に伴う目印位置の正投影を見てどのくらいの三次元動作情報が得られるか測ることができる。図６（ａ）〜図６（ｄ）の例では、事前確率分布が５０の次元パラメータ空間で一定の空間を占める。事後確率分布の体積に対するその体積の割合は１０^−１４である。直観的に高次元の体積を測定することは困難だが、割合は小さく、また事後不確定性はかなり減少する。また、処理後に、ユーザ対話または固定接地制限（rigid ground contact constraints）を適用することにより、固定形態の不明確性を取り除こうと思うかもしれない。
【００５４】
以下の結論が、簡略化されたレンダリング領域における問題の研究から導き出される。人物動作の事前知識を使用することは実際に単眼イメージシーケンスデータから可能な三次元復元を向上させる。人物動作の本トレーニング集合について、観察後に残っている不確定性はカメラから離れた固定平行移動に、またカメラ線にそって腕を広げる形態にある。復元は大体よい。用いられたイメージ情報は棒線像の目印位置の二次元射影である。結論としては、おおまかに直交的にレンダリングされた、映像シーケンスにおいて人物像の上部に二次元棒線像を正確に重ねることが可能であれば、実際のイメージに匹敵する三次元復元精度が得られるはずである。
【００５５】
三次元の身体の動作を推定するためには、最初に人物像の二次元動作イメージの棒線像概略を見つけようとする。これは様々な研究グループが取り組んできている問題であり、Hager、BelheumerおよびBlackにより述べられるように、大部分解決された。さらに、G.D.HagerおよびP.N.Belhumeurによる「Real‐time tracking of image regions with changes in geometry and illumination」（Proc. IEEE CVPR、４０３〜４１０ページ、１９９６年）、またM.J.Black、Y.Yacoob、A.D.JepsonおよびD.J.Fleetによる「Learning paramterized models of image motion」（Proc. IEEE CVPR、５６１〜５６７ページ、１９９７年）に述べられるように、合作者は特定の人物行動をトラックするためにパラメータ化された動作モデルを発展させた。Computer GraphicsのAnnual Conference Seriesでの「3D position, attitude and shape input using video tracking of hands and lips」（Proc. SIGGRAPH 94, １８５〜１９２ページ、１９９４年）と題されたA.BlakeおよびM.Isardによる記事には、研究者が非固定物体の輪郭を基にした追跡を展開している。C.Wren、A.Azarbayejani,T.DarrellおよびA.Pentlandの「Pfinder: real‐time tracking of the human body」（Intl. Conf. on Automatic Face and Gesture Recognition、５１〜５６ページ、Killington、バーモント、１９９６年、IEEE Computer Society）によるPfinderは静止した環境で人物像をトラックすることに注意する。
【００５６】
以下に本追跡方法を説明する。困難なフィルムシーケンスからさえも三次元像を復元することは重要であったため、自動追跡の間違いを対話的に修正することが許された。これは、どの期間にわたってどの人物をトラックするかを特定する、問題に必要な他の対話に加えたものである。
【００５７】
目標は、簡略化されたレンダリングについて展開された復元方法を自然な場面に進展させることを論証することであった。興味の時間枠にわたるイメージレンダリングは、動いている背景の効果を無視した状態で、おおまかに直交していると仮定された。カメラフレームに対する像の動作は復元されたが、背景は復元されなかった。
【００５８】
人物像の服装パターンにいくらかの独立性を得るために、イメージ輝度の勾配が取られ、また勾配強度（gradient strength）が局所コントラスト強度（local contrast strength）のおおまかな平均（blurred average）により正規化された。正規化された辺強度（edge strength）が８つのセンサにより１０の低解析度サンプリングをするのに十分なほどにぼやけさせられた（blur）。
【００５９】
棒線像の棒の位置に基づいて、各棒に所定の辺強度を割り当てながら、センサが何を見るべきかの予測が形成された。観察されたセンサ応答と予測間の差分を２乗したものがペナルティーされた（penalized）。
【００６０】
ユーザは、あらゆる時間枠でいかなる棒線像部も正しい位置に対話的に指定できる。これは、その特定の時間にイメージ位置と棒線像部の間にばねを効果的に設置する。
【００６１】
これら二つの入力は、関数最適配列（function optimization scheme）において事前情報と統合される。求めようとする→αはエネルギーＥ（→α）を最小にするものである。
【００６２】
【数１０】

【００６３】
→Ｒはイメージデータからの時間経過に伴うセンサ応答のベクトルである。関数→ｆは身体動作係数→αを予測されたセンサ応答に変換する。→Ｉ_ｉはユーザにより特定されるｉ番目のポイント位置であり、Ｐ_ｉはα係数を対応するｉ番目の棒線像部分二次元位置上に射影する。λ_１およびλ_２は、イメージデータのウェート、人物動作に対する優先、および対話的に特定される二次元ポイントの一致を反映する定数である。
【００６４】
ベイズのフレームワークにおいて、Ｅは事後確率のマイナスの対数として解釈する。λ_１およびλ_２は、観察とユーザの「雑音強度（noise strength）」を表す。センサ応答の違いについての二次ペナルティー（quadratic penalty）は、尤度項の対数であり、対話的に配置されたばねとガウスの事前動作モデルの両方はパラメータについての事前情報を表す。また、事前確率の計算においてのすべてのトレーニングデータを９０°回転させたものが含まれる。三次元身体動作パラメータは事後確率を最大にするものが見つけられる。
【００６５】
回復した最適なαは時間経過に伴う回復した目印位置をもたらす。目印位置は最小２乗法を用いて簡単な像モデルでの円筒位置へ当てはめられる。
【００６６】
図８（ａ）〜図８（ｃ）はバリスニコフ（？Barishnikov）ダンスの、結果として得られた１００のフレームシーケンスからの三次元像位置の推定を示す。三次元復元アルゴリズムをテストするために、二次元追跡アルゴリズムを用いるよりもむしろ、フレームごとにおよそ一つの位置を対話的に特定して、動作シーケンス上に棒線像を正確に重ねることを保証した。図８（ａ）は、入力シーケンスおよび重ねられた棒線像を示す。
【００６７】
方程式１のＥは、オーバーラップされた１０フレームの各セグメントの→α推定を見つけるために、最小化される。オーバーラップしたセグメントからの位置は、線形的に混合された。各セグメントのカメラから離れたオフセットは、次セグメントへの連続性を保証するために設置された。
【００６８】
図８（ｂ）は、カメラの位置から３０°離れたところから観察した回復した三次元目印位置を示す。図８（ｃ）は、同様のカメラから離れた位置から観察した三次元円筒モデルを示す。人物動作についての簡単なガウスの事前モデルが与えられると、結果は非常に強固である。三次元のダンスは動作捕獲トレーニング集合から習得した基本動作の線形結合としてレンダリングされる。踊っている円筒像は一般的に、ダンサーの三次元での動作を捕獲する。円筒ダンサーはバリスニコフでのようにつま先立ちしないが、つま先立ちはトレーニング集合にはない。
【００６９】
統計モデルを用いて、人物が動いているイメージシーケンスから人物像の三次元位置を推定する。人物動作のモデルは、測定された追跡システムから得られた三次元動作の捕獲データのトレーニング集合から習得された。
【００７０】
それらの結果は、動いている人のイメージ上に二次元の棒線像を配置できる場合での三次元像動作の推定のしかたを表す。そのようなトラッカー（tracker）が開発され、三次元回復方法をテストするために追跡間違いの対話的修正が可能になった。一台のカメラから観察された困難なダンスシーケンスの三次元動作のよい回復が得られた。これらの結果は、ベイズのフレームワークにおいて、人物動作の事前知識を、人々のイメージを解釈する問題に加えることの力を表している。
【００７１】
三次元推定をより強固にする三つの改良点があることに注意する。第一の改良として、方程式８の和の第一項は、
【００７２】
【数１１】

【００７３】
により置き換えられる。ここで、ｔは動作セグメントの各フレームのフレーム時間の指数である。→Ｉ_ｔはそのベクトル引数の二次元位置における時間ｔでのイメージ輝度のベクトルである。→Ｍ(α)は、結合係数αにより与えられるトレーニングセグメントの線形結合によって表される人物動作での各目印の二次元位置である。このように、この項を最小にする係数αは、イメージ中の目印位置でのイメージ輝度がフレームによる変化が最も少ないことがわかるだろう。これは、映像で人物像をトラックするための像モデルを助長する。
【００７４】
第二に、動作セグメントは順番に推定されることが可能で、しばしば時間が重複する。例えば、動作セグメント１が映像フレーム１から１０に対応し、動作セグメント２が映像フレーム２から１１等に対応してもよい。それぞれのセグメントについて、三次元推定が形成される。特定の映像フレーム番号についての三次元復元は、重複しているすべての動作セグメントの推定平均として計算される。
【００７５】
このように、方程式８に最適なαを見つける前に、様々な時間フレームへの目印位置の初期推定が、前動作セグメントからの動作推定から計算できる。
【００７６】
トレーニングセグメントの適する部分集合が、最適化しようとする線形結合において用いられてもよいことは明白であろう。すべての時間で全トレーニングセグメントを用いることは、モデルに多すぎる自由度を与え、不十分な復元を導く。復元は、最適化に用いるセグメントを小さい数、言ってみれば、５または１０などの現断片（current snippet）の現行の最もよい推定に近い数に制限することにより向上できる。
【００７７】
第二項は、
【００７８】
【数１２】

【００７９】
で置き換えらることができ、ここで、
【００８０】
【数１３】

【００８１】
とは係数→αの事前平均値である。好適な実施例において、
【００８２】
【数１４】

【００８３】
は、Ｎの選択されたトレーニングセグメントのそれぞれに対して、選択されたトレーニングセグメント
【００８４】
【数１５】

【００８５】
の小さい数の平均値に設定される。
【００８６】
【発明の効果】
この発明に係る三次元動作復元システムは、以上説明したとおり、単一のカメラで撮影された人のイメージシーケンスから人物像の三次元動作を復元するための三次元動作復元システムであって、前記単一のカメラで撮影されたイメージシーケンスをデジタル化する手段と、トレーニングイメージシーケンスとして、代表的な動作及びその目印を含む三次元動作トレーニングデータを提供する手段と、前記三次元動作トレーニングデータと前記デジタル化されたイメージシーケンスを一時的セグメント（segment）にグループ化する手段であって、各一時的セグメントがあらかじめ決められたフレームを含む、グループ化する手段と、前記デジタル化する手段及び前記グループ化する手段に結びつき、前記単一のカメラで撮影されたイメージシーケンスに対応する前記三次元動作トレーニングデータの前記一時的セグメントの線形結合を見つけるように、前記目印に従って前記三次元動作トレーニングデータの前記一時的セグメントを最適化する手段と、対応する目印の推定三次元座標を出力する手段と、前記三次元動作トレーニングデータの前記一時的セグメントの線形結合における前記目印の推定三次元座標に対してキャラクターモデルをあわせる手段と、前記キャラクターモデル及びその動作を表示する手段とを備え、前記最適化する手段は、
【数１６】

を実行する手段を含み、ここで、Ｅ ( →α ) は見つけられる最適係数→αにより最小となるエネルギー関数であり、→Ｒはイメージデータからの時間経過に伴うセンサ応答のベクトルであり、関数→ｆは身体動作係数→αを予測されたセンサ応答に変換し、→Ｉ _ｉはユーザにより特定されるｉ番目のポイント位置であり、Ｐ _ｉはα係数を対応するｉ番目の棒線像部分二次元位置上に射影し、λ _１及びλ _２は、イメージデータのウェート、人物動作に対する優先、及び対話的に特定される二次元ポイントの一致を反映する定数であるので、いかなる目的にでも簡単な面倒でない方法で動画を生成することができるという効果を奏する。
【００８７】
また、この発明に係る三次元動作復元システムは、以上説明したとおり、推定三次元座標に対応する二次元棒線像を生成する手段と、前記デジタル化されたイメージシーケンスに前記二次元棒線像を重ねる手段と、その結果を表示する手段と、ユーザ入力装置と、前記ユーザ入力装置に応答して、前記結果を修正する手段とをさらに備え、前記最適化する手段は、修正結果に従って前記推定三次元座標を修正する手段を含むので、いかなる目的にでも簡単な面倒でない方法で動画を生成することができるという効果を奏する。
【００８９】
また、この発明に係る三次元動作復元システムは、以上説明したとおり、各動作セグメントは多数のフレームを有し、またさらに、
【数１７】
により置き換える手段を含み、ここで、ｔは動作セグメントの各フレームのフレーム時間の指数であり、→Ｉ_ｉはそのベクトル引数の二次元位置における時間ｔでのイメージ輝度（image strength）のベクトルであり、→Ｍ(α)は、結合係数αにより与えられるトレーニングセグメントの線形結合によって表される人物動作の各目印の二次元位置であり、フレームからフレームへの目印位置でのイメージ輝度を最小化するともに、前記人物の動作をトラックするためのキャラクターモデルを助長するので、いかなる目的にでも簡単な面倒でない方法で動画を生成することができるという効果を奏する。
【００９０】
また、この発明に係る三次元動作復元システムは、以上説明したとおり、選択された動作セグメントをオーバーラップすることで、動作セグメントを順に推定して所与の期間に複数の推定三次元座標を得て、オーバーラップされたすべての動作セグメントでの推定平均値を計算することにより所定のフレームに三次元復元を提供する手段を備えるので、いかなる目的にでも簡単な面倒でない方法で動画を生成することができるという効果を奏する。
【００９１】
さらに、この発明に係る三次元動作復元システムは、以上説明したとおり、前記一時的セグメントは部分集合に分割され、前記最適化する手段が、前記最適化する手段により推定されるセグメントの現行の最もよい推定に最も近い一時的セグメントの部分集合を選択する手段を備え、それによりあわせすぎ（overfit）を防ぎ、このようにして、前記推定三次元座標の推定を向上させるので、いかなる目的にでも簡単な面倒でない方法で動画を生成することができるという効果を奏する。
【図面の簡単な説明】
【図１】リアルな動画を提供するために用いられる三次元動作推定を提供するための映像または記録保持フィルム入力を有するシステムのブロック図である。
【図２】１０シーケンスのトレーニング集合からの動作シーケンス例を示す図である。
【図３】基底関数の線形結合としての人物動作信号の近似値を示す図であり、（ａ）は４０の基底関数近似値を示し、（ｂ）は元の人物動作シーケンスを示している。
【図４】人物動作の事前不確定性を大幅に減らす画面での目印位置の測定を用いて、半対数スケールで描かれた事前および事後共分散行列対角要素を示すグラフである。
【図５】３７の三次元目印位置のガウスの事前分布からの３つの無作為抽出を示す図であり、結果はすべて人物に見え、また人物動作に大まかに一致している。
【図６】元の三次元シーケンス、正投影され明快にするために目印が線でつながれたイメージ、事前情報を省いた三次元復元、を示す図であり、イメージデータおよび完全なベイズの復元を最も良く説明する人物動作の固有空間での三次元像が表されている。事前情報の追加で原物により類似する復元が生成されることに注意する。高事後共分散形態（high posterior covariance modes）は元のシーケンスとの残りの差分を説明する。
【図７】最高の事後不確定性を有する三つの形態を示す図である。
【図８】トラックされた二次元棒線像が重ねられたバリスニコフダンスの１００のフレームシーケンスからのサンプル、三次元像動作にガウスの事前モデルを使用して推測された三次元目印位置、およびダンサーの三次元動作を捕獲する復元された三次元動作中円筒像（recovered 3‐d moving cylinder figure）、をそれぞれ示す図である。
【符号の説明】
１０三次元動作復元システム、１２行為者、１４ビデオカメラ、１６デジタイザ、２０オプティマイザー、２２三次元動作トレーニングデータ、３４マウス。

Claims

単一のカメラで撮影された人のイメージシーケンスから人物像の三次元動作を復元するための三次元動作復元システムであって、
前記単一のカメラで撮影されたイメージシーケンスをデジタル化する手段と、
トレーニングイメージシーケンスとして、代表的な動作及びその目印を含む三次元動作トレーニングデータを提供する手段と、
前記三次元動作トレーニングデータと前記デジタル化されたイメージシーケンスを一時的セグメント（segment）にグループ化する手段であって、各一時的セグメントがあらかじめ決められたフレームを含む、グループ化する手段と、
前記デジタル化する手段及び前記グループ化する手段に結びつき、前記単一のカメラで撮影されたイメージシーケンスに対応する前記三次元動作トレーニングデータの前記一時的セグメントの線形結合を見つけるように、前記目印に従って前記三次元動作トレーニングデータの前記一時的セグメントを最適化する手段と、
対応する目印の推定三次元座標を出力する手段と、
前記三次元動作トレーニングデータの前記一時的セグメントの線形結合における前記目印の推定三次元座標に対してキャラクターモデルをあわせる手段と、
前記キャラクターモデル及びその動作を表示する手段とを備え、
前記最適化する手段は、

を実行する手段を含み、
ここで、Ｅ ( →α ) は見つけられる最適係数→αにより最小となるエネルギー関数であり、
→Ｒはイメージデータからの時間経過に伴うセンサ応答のベクトルであり、
関数→ｆは身体動作係数→αを予測されたセンサ応答に変換し、
→Ｉ _ｉはユーザにより特定されるｉ番目のポイント位置であり、
Ｐ _ｉはα係数を対応するｉ番目の棒線像部分二次元位置上に射影し、
λ _１及びλ _２は、イメージデータのウェート、人物動作に対する優先、及び対話的に特定される二次元ポイントの一致を反映する定数である
三次元動作復元システム。
推定三次元座標に対応する二次元棒線像を生成する手段と、
前記デジタル化されたイメージシーケンスに前記二次元棒線像を重ねる手段と、
その結果を表示する手段と、
ユーザ入力装置と、
前記ユーザ入力装置に応答して、前記結果を修正する手段とをさらに備え、
前記最適化する手段は、修正結果に従って前記推定三次元座標を修正する手段を含む
請求項１記載の三次元動作復元システム。
各動作セグメントは多数のフレームを有し、またさらに、

により置き換える手段を含み、
ここで、ｔは動作セグメントの各フレームのフレーム時間の指数であり、
→Ｉ _ｉはそのベクトル引数の二次元位置における時間ｔでのイメージ輝度（ image stre ngth ）のベクトルであり、
→Ｍ ( α ) は、結合係数αにより与えられるトレーニングセグメントの線形結合によって表される人物動作の各目印の二次元位置であり、フレームからフレームへの目印位置でのイメージ輝度を最小化するともに、前記人物の動作をトラックするためのキャラクターモデルを助長する
請求項１記載の三次元動作復元システム。
選択された動作セグメントをオーバーラップすることで、動作セグメントを順に推定して所与の期間に複数の推定三次元座標を得て、オーバーラップされたすべての動作セグメントでの推定平均値を計算することにより所定のフレームに三次元復元を提供する手段を備える
請求項１記載の三次元動作復元システム。
前記一時的セグメントは部分集合に分割され、前記最適化する手段が、前記最適化する手段により推定されるセグメントの現行の最もよい推定に最も近い一時的セグメントの部分集合を選択する手段を備え、それによりあわせすぎ（ overfit ）を防ぎ、このようにして、前記推定三次元座標の推定を向上させる
請求項１記載の三次元動作復元システム。