JP4836065B2 - エッジトラッキング方法及びそのコンピュータプログラム - Google Patents

エッジトラッキング方法及びそのコンピュータプログラム Download PDF

Info

Publication number
JP4836065B2
JP4836065B2 JP2005100997A JP2005100997A JP4836065B2 JP 4836065 B2 JP4836065 B2 JP 4836065B2 JP 2005100997 A JP2005100997 A JP 2005100997A JP 2005100997 A JP2005100997 A JP 2005100997A JP 4836065 B2 JP4836065 B2 JP 4836065B2
Authority
JP
Japan
Prior art keywords
edge
projected
model
edges
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005100997A
Other languages
English (en)
Other versions
JP2006285358A (ja
JP2006285358A5 (ja
Inventor
ペドラム・アザド
アレス・ウデ
ゴードン・チェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2005100997A priority Critical patent/JP4836065B2/ja
Publication of JP2006285358A publication Critical patent/JP2006285358A/ja
Publication of JP2006285358A5 publication Critical patent/JP2006285358A5/ja
Application granted granted Critical
Publication of JP4836065B2 publication Critical patent/JP4836065B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Processing (AREA)
  • Image Analysis (AREA)

Description

この発明はモーションキャプチャシステムに関し、特に、高フレームレートに適する、一連の画像中の対象物のエッジをトラッキングすることに関する。
マーカなしで人体のモーションキャプチャをするという考えは、なんら付加的な構成を必要とせずに、画像シーケンスのみの操作によって人の動きをキャプチャしようというものである。このようなシステムのためのハードウェアは、コンピュータに加えて、1台又は2台以上のカメラのみからなり、このため手ごろな価格で容易に設定できる。
しかしながら、ヒューマノイドロボットの能動型の頭部にこれを適用するためには、いくつかの制限に対処しなければならない。比較的短距離に配置された2台のカメラという限定に加えて、能動型の頭部は潜在的に動く可能性があり、このため前景のセグメント化にオプティカル・フローまたは類似のアルゴリズムが利用できないことを念頭に置く必要がある。最大の問題は、少なくとも30Hz、最適な結果を達成するためには好ましくは60Hzまたはそれ以上のフレームレートでリアルタイムに計算を行なわなければならないことである。
モーションキャプチャの問題の一般的な定義は、入力画像の各々について、又は画像のタプルについて、基となる関節で連結された3Dの人体モデルの正確な形状を見出すこと、というものである。主な問題は、人体モデルの自由度(Degree Of Freedom:DOF)の数が増えるにつれて、探索空間が指数関数的に増大することである。人間の体の現実的なモデルは少なくとも25DOFを有する。DOFがこれほど高いと、探索空間の次元が非常に高くなる。
A.ブレーク及びM.イサード、「アクティブ輪郭」、スプリンガー、1998年(A. Blake and M. Isard. Active Contours. Springer, 1998.) J.ドイチャー、A.ブレーク、及びI.レイド、「アニールされたパーティクルフィルタリングによる関節により連結された物体のモーションキャプチャ」、コンピュータビジョン及びパターン認識(CVPR)、2126−2133ページ、ヒルトンヘッド、USA、2000年(J. Deutscher, A. Blake, and I. Reid. Articulated body motion capture by annealed particle filtering. In Computer Vision and Pattern Recognition (CVPR), pages 2126-2133, Hilton Head, USA, 2000.) J.ドイチャー、A.ダビソン、及びI.レイド、「連接された物体のモーションキャプチャに関連する高次元探索空間の自動的パーティショニング」、コンピュータビジョン及びパターン認識(CVPR)、669−676ページ、カウアイ、USA、2001年(J. Deutscher, A. Davison, and I. Reid. Automatic partitioning of high dimensional search spaces associated with articulated body motion capture. In Computer Vision and Pattern Recognition (CVPR), pages 669-676, Kauai, USA, 2001.) M.イサード及びA.ブレーク、「濃縮-視覚的トラッキングのための条件付き密度伝搬」、コンピュータビジョン国際ジャーナル、29(1):5−28、1998年(M. Isard and A. Blake. Condensation - conditional density propagation for visual tracking. International Journal of Computer Vision, 29(1):5-28, 1998.) J.マコーミック、「視覚的トラッキングのための確率モデル及び確率的アルゴリズム」、オックスフォード大学、博士論文。UK、2000年(J. MacCormick. Probabilistic models and stochastic algorithms for visual tracking. PhD thesis, University of Oxford, UK, 2000.) J.マコーミック及びM.イサード、「パーティション化されたサンプリング、関節により連結された物体、及びインターフェース品質の手のトラッキング」、コンピュータビジョンヨーロッパ会議(ECCV)、3−19ページ、ダブリン、アイルランド、2000年(J. MacCormick and M. Isard. Partitioned sampling, articulated objects, and interface-quality hand tracking. In European Conference Computer Vision (ECCV), pages 3-19, Dublin, Ireland, 2000.) H.サイデンブラー、「単眼のビデオシーケンスにおける3Dの人の動きの確率論的トラッキングと再構築」、王立工科大学博士論文、ストックホルム、スウェーデン、2001年(H. Sidenbladh. Probabilistic Tracking and Reconstruction of 3D Human Motion in Monocular Video Sequences. PhD thesis, Royal Institute of Technology, Stockholm, Sweden, 2001.)
従って、この発明の目的の1つは、人間の体等の動く対象物を、一連の画像でトラッキングすることを可能にする高フレームレートに適した方法を提供することである。
この発明の一局面に従えば、対象物の一連の画像中においてエッジをトラッキングする方法は、対象物の形状を記述するモデルを準備するステップと、対象物のモデルのエッジを画像の画像平面に投影するステップと、画像平面上に投影されたエッジの各々の周囲の予め定められた区域内で画像のエッジ画素の組を探索するステップと、投影されたエッジの各々のエッジ画素の組について線分を当てはめるステップと、投影されたエッジの各々について、線分を規定する所定のパラメータの組でその線分を表すステップと、線分を用いて対象物のモデルを更新するステップとを含む。
上述の方法によれば、計算量が実質的に減じられ、一連の画像中での対象物の画像トラッキングを高フレームレートで行なうことができる。
好ましくは、探索するステップは、投影されたエッジの各々について探索点の組を決定するステップと、投影されたエッジの各々の探索点の各々について、投影されたエッジの両側において、投影されたエッジと交差する方向の予め定められた距離内に存在する、画像の高コントラスト点を探索するステップとを含む。
より好ましくは、投影されたエッジと交差する方向は、投影されたエッジと直交する方向である。
さらに好ましくは、決定するステップが、投影されたエッジの各々について、一定の距離をあけて探索点の組を決定するステップを含む。
上述のモデルは、モデルのとり得る複数個の形状とそれぞれに関連する確率とで記述されてもよい。更新するステップは、モデルの形状の確率分布関数のうち、選択されたもののパーティクルにノイズを加えることにより、モデルの形状の新たな組を予測するステップと、モデルの形状の新たな組の各々のエッジの組と、エッジ画素の組との間で所定の誤差尺度を計算するステップと、形状の新たな組の各形状に、計算するステップで計算された関連の誤差尺度に従って重みを割当てるステップと、それぞれの重みで重み付けされた新たな形状の総和を計算することによって、新たなモデルを計算するステップとを含む。
この発明の別の局面は、コンピュータ上で実行されると、上述の方法のいずれかの全てのステップをコンピュータに実行させるコンピュータプログラムに関するものである。
1.はじめに
この実施例では、ベイズのフレームワークによるパーティクルフィルタリングを用いて現在の形状の確率分布を計算する。濃縮アルゴリズムとしても知られるパーティクルフィルタリングは、非特許文献4で紹介されているように、一般に輪郭トラッキングのために(非特許文献1、5、6)、特に非特許文献2及び7において示されるように人体のモーションキャプチャのために、適用可能な頑健な技術であることがわかっている。
視覚的トラッキングにおいて、パーティクルフィルタは以下のように動作する。xをt番目のフレームの状態ベクトルとし、yを観測ベクトルとし、Y={y…y}をyの履歴とする。状態の推定は、確率密度分布(pdf)p(x|Y)を推定することとして定式化される。パーティクルフィルタでは、p(x|Y)は以下で示すディスクリートなサンプルのいくつかの組として表される。
Figure 0004836065
ここでs (i)(i=1〜N)は、状態空間xにおけるランダムでディスクリートなサンプルを示す。サンプルs (i)は対応の重みπ (i)に対応する確率を有する。従って、p(x|Y)で非ガウスpdfを近似することが可能である。
パーティクルフィルタでは、各サンプルは推定ステップと観測ステップとで更新される。推定するステップでは、サンプルst−1 ζが、重みπt−1 (i)に比例する確率に従って、以下の組から選択される。
Figure 0004836065
その後新たなサンプルs (i)が動力学的モデルp(x|st−1=st−1 ζ)から生成される。観測ステップでは、現時点での観測ベクトルyが与えられると、観測された密度p(y|x=sζ)に基づいて各サンプルs (i)の尤度が評価され、尤度に比例する対応の重みπ (i)が計算される。最後に、現在の状態が、全てのサンプルを組合せることによって推定される。
パーティクルフィルタでは、探索空間が大きくなるとより多くのパーティクルを必要とする。この問題に対処する1つの戦略は、被験者の動きの範囲を、例えば被験者が歩いていると仮定することによって限定し、それによって形状空間の大きさを減じることである。一般に、このようなアプローチはいずれも、結果として得られるトラッカの一般性を大いに限定する。このため、このアプローチは好ましくない。別の方策は、分解、すなわち階層的な探索を行なうことによって形状空間の大きさと探索空間のサイズとの線形関係を仮定することである。このような方法の短所は、ある種の動き、例えば体軸周りの回転等では、体の全ての部分を同時に観察することによって得られるような重要な情報が失われることである。
パーティクルの数を減じる一般的かつ有効な方法は、非特許文献2、3で提示されたシミュレーテッドアニーリングの考え方である。しかし、最終的に得られたシステムは部屋の角の固定位置で3台のカメラを用いるものであり、1GHzのクロック信号で動作する最先端のプロセッサでも1フレームを処理するのに平均で15秒を要する[非特許文献3]。
この実施例は高度に最適化された尤度関数を備えた人体のモーションキャプチャシステムに関するものであり、これは従来の人体のモーションキャプチャシステムのいずれに対しても2倍から3倍の速度を達成する。この実施例は高速キャプチャリングに寄与するパーティクルフィルタによるエッジ検出に基づくものである。このアプローチは上述の戦略等、他の最適化のいずれに対しても独立して適用可能である。
さらに、この実施例で採用されるアルゴリズムは直線エッジでモデル化され得るいかなる種類の対象物にも利用可能であり、またわずかな修正を加えれば楕円等の他の基本要素を組入れることもできる。このアプローチの唯一の制限は、これが60Hz(またはそれ以上)の高フレームレートに依存することである。しかし、以下で示すように、リアルタイムの人体のモーションキャプチャではいずれにせよ高フレームレートが必要とされるので、これは問題にならない。
2.基本アルゴリズム
人体モデルの形状sの投影エッジと現在の入力画像zとが与えられると、人体のモーションキャプチャシステムのエッジの手がかりのための尤度関数p(z|s)は、投影されたエッジの組を与える形状が適切な形状である尤度、すなわちエッジ画像に最も合致する尤度を計算する。ここで人体モデルの形状のエッジを「投影する」とは、エッジを予め定められた画像平面に投影し、画像平面上の投影されたエッジの画像の座標を計算することを意味する。
図1を参照して、基本的な技法は、投影されたエッジ20の全体にわたり、一定の距離Δをあけて探索点を決定し、それぞれの探索点から、投影されたエッジ20に直交する(両側の)方向で、固定された探索距離δ内の高コントラスト特徴点30を探索すること、すなわちカメラ画像中でエッジ画素を見出すことである[非特許文献4]。この目的のために、カメラ画像は通常、階調の勾配を用いたエッジ検出器により前処理され、画像エッジ22が生成される。
尤度は、二乗誤差合計(Sum of Squared Difference:SSD)に基づいて計算される。表記の便宜上、全てのエッジはM=L/Δ個の範囲に分けられて1つの連続したスプライン内に含まれるものとする。ただし、Lは現在の画像中の投影されたエッジの全ての長さの合計を表す。m番目の点についてエッジとしての特徴が見出された距離をdとし、μは、エッジとしての特徴を見出すことができない場合に適用される一定の最大誤差を表す。従って、尤度関数は以下の式で与えられる。
Figure 0004836065
この実施の形態では、わずかに修正した尤度関数を用いて、より良好な結果を得る。その尤度関数とは、エッジごとの平均誤差を計算し、すべての誤差の平均誤差を計算するというものである。この修正した尤度関数を以下の式で表す。
Figure 0004836065
ここでeは特定の投影されたエッジを表し、Eは投影されたエッジの総数を表す。さらに、
Figure 0004836065

キャニーのエッジ検出器(Canny Edge Detector)等の高レベルエッジ検出器は、一般に、1画素幅の線を生成するので、ある特定の画素がエッジの一部であるかどうかのテストを複雑にするか、又は不適当にする。ドイチャーは非特許文献2で、階調の勾配を用いたエッジ検出マスクを用い、この結果をしきい値処理してスプリアスエッジを除去し、これに続いてガウス平滑化マスクを適用して画素マップを作成することを提案しており、このマップでは各画素値はそのエッジにどの程度近接しているかに関連づけられている。こうすることによって、画素があるエッジの一部であるか否かのテストと、そのエッジへの近接度の計算とが1回の動作で解決できる。最大値を見出すためとループ管理のために必要とされるさらに3つの動作を考慮すると、基本的動作の数は以下の式で表される。
Figure 0004836065
3.新たなアルゴリズム
この実施の形態の戦略は、処理ステップをもう一歩進めて、対象エッジの幾何学的な表現を抽出することである。このために、この実施の形態では、オン−ザ−フライで(すぐさま)のエッジ検出という基本的な考え方を用いる。これは、人体モデルによって与えられる情報をエッジ検出アルゴリズムに組込むというものである。主な違いは、この実施の形態ではパーティクルの各々に対してアルゴリズムを行なうのではなく、これを画像の前処理に用いることである。その後このアルゴリズムは、人体モデルの投影されたエッジに対応する点の各組に当てはまる線分(回帰直線)を求めることで拡張される。
少なくとも30Hz、好ましくは60Hzまたはそれ以上の高フレームレートで画像が獲得されると仮定すれば、このアプローチはかなり高速であるばかりか、オン−ザ−フライのエッジ検出より良好な結果を達成する。一見したところ、これは驚くべきことであるように思われる。というのも、理論的には、オン−ザ−フライのエッジ検出は、エッジを検出するために人体モデルの予測された形状を用いて観測を行なうために、予測を用いることによる最強の情報基盤を有するからである。しかし、欠点は、比較的大きな動きの予測ではエッジの同定誤りにつながるおそれがあることである。フレームレートがこの発明の新たなアプローチに十分なほど高くなければ、このアプローチはうまくいかない。一般的な低フレームレートの効果はセクション4で論じる。
3.1 直線の当てはめ
人体モデルをエッジ検出に組込む主な利点は以下の2つである。
・階調の勾配を、予測されるエッジと垂直に計算できる。
・検出されたエッジ画素と投影されたエッジとのマッピングが得られる。
検出された画素と投影されたエッジとのマッピングが、人体モデルの投影されたエッジの各々についてわかっているので、アルゴリズムで特定された画素の組に対して回帰直線を見出すことができる。この組に対して最小二乗という意味で最適回帰直線を求めた後、この組の全ての画素について反復処理し、計算された直線までのそれらの距離を予め規定されたしきい値と比較することによって、アウトライアー(異常値)をフィルタリングによって除去する。最終的な結果はこのフィルタリングされた画素の組に対する回帰曲線を求めることで計算される。
この実施の形態では、画像の階調の勾配は予測されるエッジと垂直な方向で計算される。しかしながら、この方向は、必ずしも予測された方向と垂直でなくてもよい。高コントラストの特徴点の探索は、予測されたエッジと交差する方向に行なえばよい。
3.2 誤差尺度
直線の対の組が得られた後、尤度の計算のために誤差尺度を定義することになる。理論的には、2Dで2つの直線間の距離を定義できるのは、2直線が平行の場合のみである。しかし、図2で示すように、線Eと線分/AB40又は42(ここで「/」は線分を表すものとし、本来文字ABの上に表記すべきものである。)との尺度を以下のように定義できる。基本的アルゴリズムによって計算される誤差尺度は、ディスクリートな点での観測値に基づいて計算された、直線Eと線分/AB40又は42との平均距離である。この平均距離は、図2に例示されるように、総面積を長さ/A’B’で除したものに等しい。従って、誤差尺度は以下のように計算される。
Figure 0004836065
本発明者らは、この尺度について可能な組合せ2つを試みた。Eを画像から抽出された直線と定義し、/ABを投影されたエッジとする組合せと、その逆とである。後者の場合、抽出された直線の各々について端点A及びBを定義しなければならない。これは図3に示すように、フィルタされた点の組のうち最初と最後の点を画像のエッジを表す直線に直交投影することでなされる。本発明者らは、このようにすることが最良の結果を達成することを見出した。なぜなら、これは画像エッジの長さの推定値を尤度関数に組込んでいるからである。長さの推定が悲観的であるため、結果として得られる誤差尺度は楽観的になる。実際、これはエッジの幾何学的表現に対して行なわれる式(3)で表される基本アルゴリズムの正確なエミュレーションである。式(2)で適用される新たな関数は最終的に以下のように定義される。
Figure 0004836065
別の可能な誤差尺度は、図2に示される線Eと線分/ABとの間の面積であろう。
図3は誤った形状に誤差尺度を適用した例を示す。点AとBとの間、及び点AとBとの間の白の点は、検出されたエッジ画素を特定し、線60及び62は回帰直線を示し、線50及び52は人体モデルから投影されたエッジを示す。入力画像はガウスカーネルによる3×3平滑フィルタで平滑化されている。
上述のエッジ検出は、ブロッブ(かたまり状の画像)のエッジ検出に拡張可能である。ブロッブモデルを楕円または円で表す場合、探索点は楕円線上の一定距離Δだけ離れた点として決定され、各探索点において、投影された楕円線の両側のある距離δ内で画像エッジが探索される。その後、検出された画像エッジ点に楕円を当てはめることができる。この場合、誤差は楕円の重心間の距離によって測定できる。
3.3 有効性
前処理ステップが成功し、エッジが正確に抽出されれば、本形態の新たな誤差尺度はより正確なので、より有効なアルゴリズムが得られる。エッジを成功裏に抽出するためには、以下の2つの条件が満たされなければならない。
・画像中のエッジはほぼ直線でなければならない。
・フレームレートは十分高くなければならない。
通常の着衣を仮定すれば、第一の条件が満たされることは、発明者らのテストで示された。この仮定は適切なものである。なぜなら、基本アルゴリズムでさえ、あまりにゆったりとした着衣ではトラッカの性能が悪くなるからである。テストでは、30Hzのフレームレートで十分であり、これで現実的な速度の動きがキャプチャされる。フレームレートの問題は、セクション4で詳細に検討する。この実施の形態で採用される新たなアルゴリズムがより効果的である理由は以下のように説明できる。
・直線を抽出するのでノイズが抑制される。
・直線に基づいて誤差尺度を計算するので、完璧でないエッジであっても正確な尤度が計算される。
・フレームレートに比例する速度のみを許すことで、誤ったエッジの検出が避けられる。
これらの考察は、実際に正しいことが検証された。テストでは、この実施の形態で採用された新たなアルゴリズムの性能が基本アルゴリズムより劣ることは決してなく、実際のところは、多くの場合より良好な結果を達成した。
3.4 効率性
このセクションでは、基本アルゴリズムの効率を新たなアルゴリズムのそれと理論上で比較する。この考察は、セクション6で提示するテスト結果で検証する。最大解像度は、Δ=1を選択することで達成される。以下の考察では、δ=15を選択する。投影された全エッジの長さの合計は、ここで提示された画像シーケンスではL≒1500(画素)である。
基本アルゴリズムでは、セクション2で概要を述べた計算を、フレームレートfで各フレームの各パーティクルについて行なわなければならない。これは、N個のパーティクルではNfT(1500)=1.8・10Nf回の演算を、毎秒行なうことを意味する。計算に要する作業については、画像の前処理は考慮していない。なぜなら、画像処理は新たなアルゴリズムでも同様に行なわなければならないからである。新たに必要となったエッジ抽出の作業は、セクション6の結果で検証されるように、無視できるものである。新たなアルゴリズムでは、各パーティクルに対し、式(5)を評価する必要がある。パーティクル1個当たりの演算数は約30であり、そのほとんどが浮動小数点演算である。総計算作業量は
T’≒ 90 (7)
個の基本演算に相当するものであり、これは毎秒60Nfの作業量を意味する。基本アルゴリズムで必要とされる基本演算数と比較すると、検討された例ではこれはT(1500)/T’=2・10倍の高速化を意味する。しかし、システム全体では、実際の高速化はこれを下回る。なぜなら、この最適化された実現例では、人体モデルの運動と結果として得られる2Dの輪郭との計算もまた、各パーティクルに対して行なう必要があり、これがボトルネックとなるからである。尤度関数の計算とシステムとの高速化の実際については、セクション6で示す。
4.低フレームレートの影響
入力画像シーケンスのフレームレートが低いと、どのようなマーカ無しの人体のモーションキャプチャシステムにとっても不利となる。以下では、同じ動きを第1のフレームレートfと、f<fである第2のフレームレートfでキャプチャし、この結果、画像シーケンスV及びVがそれぞれ得られたと仮定する。この場合、Vでの連続画像の関節部の各々での角度変化は、Vと比べてf/f倍だけ大きい。総探索空間はDOFの数dによって指数関数的に増大するので、探索空間のサイズs(V)とs(V)との関係は以下で与えられる。
Figure 0004836065
これは、このシステムにおいてフレームレートを半減すると228倍のパーティクルが必要となる、という意味ではなく、定性的な結論として、2倍のフレームレートで動作させれば実際の探索空間を大いに減じることができる、という意味である。従って、パーティクルの数が同じでフレームレートが2倍ならば、人体のモーションキャプチャシステムの精度と解像度とはかなり高くなる。
高フレームレートのもう1つの大きな利点は、誤ったエッジを検出する危険性が当然のことながら低くなることである。一般に、コンピュータビジョンでは、より小さい探索空間は同時に2つの長所を持つ。すなわち、より高い「効率」と、より高い「頑健性」とである。例えば、立体視の場合にエピポーラジオメトリが相関処理をかなり高速化するだけでなく、誤った対応の確率を減じるのと同様、人体のモーションキャプチャシステムでも、高フレームレートの結果として得られる、より小さい探索空間は、誤った形状の確率を減じるとともに、より頑健なシステムを結果としてもたらす。
人体のモーションキャプチャシステムのエッジの手がかりに関する良い目安は、連続した画像間での、体部品の主軸に対し直交する方向の距離が、この体部品の幅の半分以下である、というものである。そうでないと、形状を誤る確率が比較的高くなる。なぜなら、体部品の2個のエッジのうち1個がすでに、間違ったエッジと対応付けられやすくなっているからである。この実施の形態で用いられる最適化されたアルゴリズムでは、2倍から3倍の高速化が達成されるが、エッジは予測とは「独立に」抽出され、そのため、この条件が満たされることが厳格に求められる。結論として、フレームレートが高ければ、より効率的で、より精度が高く、より頑健なシステムが得られると言え、その差は単に線形の倍率f/fだけでは説明できない。
5.実現例
5.1 構造
図4はこの発明の一実施の形態に従った人体のモーションキャプチャ(Human Motion Capture:HMC)システム124を示す。図4を参照して、HMCシステム124は、ロボットの頭部に比較的短い距離をおいて装着された2台のカメラからの2つの画像120及び122を受け、最も確からしい人体モデルのパラメータ126を出力する。2台のカメラを使うこと、すなわち画像対のシーケンスを処理することで、リアルな3Dの動きを抽出することが可能である。
図4を参照して、HMCシステム124は、画像120及び122を平滑化するとともにノイズを除去するための一対の3×3ガウス平滑化モジュール140と、エッジ(図3に示すエッジに当てはまる線のA及びBの対)及び肌の色の重心を抽出し、着衣の色のマップと深度計算マップとを計算するための一対の前処理モジュール142と、前処理モジュール142によって抽出され計算された情報に基づく動力学的モデルを用いて、前回の確率密度関数のパーティクルにノイズを加えることにより、新たな人体モデルの形状を予測するための新形状組予測モジュール144と、形状を、前処理モジュール142から出力された情報と比較することにより、右と左のカメラにつきそれぞれ予測された形状sの各々について、確率密度関数{(s,π)}を計算する、一対の尤度計算モジュール146とを含む。
HMCシステム124はさらに、尤度計算モジュール146によって計算された確率密度関数{(s,π)}を記憶するためのPD(確率密度)記憶部148と、人体モデルの平均形状
Figure 0004836065
を、PD記憶部148に記憶された確率密度関数に基づいて計算し、計算された平均形状を人体モデルパラメータ126として出力するための平均形状計算モジュール150と、次のフレームの前処理のために、平均形状計算モジュール150によって計算された平均形状
Figure 0004836065
を記憶するための平均形状記憶部152とを含む。平均形状記憶部152は前処理モジュール142に接続され、前処理モジュール142はこの平均形状を利用して、次の画像120及び122を前処理する。同様に、新形状組予測モジュール144は、PD記憶部148に記憶された確率密度関数を利用して、次の画像フレームのための新たな形状の組を予測する。
図5は前処理モジュール142の詳細を示す。図5を参照して、前処理モジュール142は、形状sの各々について、カメラ画像120及び122内において、人体モデルから投影されたエッジから距離δ以内でエッジ画素を見出し、これらのエッジ画素に当てはまる線分を求め、この線分の2つの端点に関する情報を出力するためのエッジ抽出モジュール160と、各画像内で、予め定められた肌の色を持つブロッブの座標の重心を抽出するための肌色重心抽出モジュール162と、動きをキャプチャしようとするユーザの着衣の色のマップを計算するための着衣色マップ計算モジュール164と、2つの画像120及び122に基づいて、画像の深度マップを計算するための深度マップ計算モジュール168とを含む。これらのモジュール160、162、164及び168の出力は全て、新形状組予測モジュール144に与えられる。
図6は図5に示すエッジ抽出モジュール160を実現するコンピュータプログラムの制御構造を示す。図6を参照して、ステップ180で、人体モデルの平均形状から投影された全てのエッジについて、ステップ182〜190が繰返される。これらのステップが全てのエッジについて繰返されたあと、制御はこのルーチンから出る。
ステップ182で、処理すべき投影エッジの全体にわたり、一定の距離Δをあけて探索点が決定される。ステップ184で、ステップ186が全ての探索点について繰返される。ステップ186では、探索点を起点とし、投影されたエッジに直交する方向(の両方)の一定の探索距離δ内で、高コントラスト特徴点を探索する。この動作により、カメラ画像中のエッジ画素が見出されることとなる。
ステップ186が全ての探索点について繰返されると、制御はステップ188に進む。ステップ188では、ステップ186で見出されたエッジ点に当てはまる線分(回帰直線)を求める。ステップ190で、この線分の2つの代表点A及びB(図3を参照)が決定される。
5.2 動作
この実施例のHMCシステム124は以下のように動作する。図4を参照して、2つの画像120及び122が与えられると、ガウス平滑化モジュール140が各画像を平滑化し、ノイズを除去する。このように処理された画像は前処理モジュール142に与えられる。
前処理モジュール142では、図5を参照して、先のフレームサイクルで得られた、人人体モデルの平均形状
Figure 0004836065
について、エッジ抽出モジュール160がこの形状から投影されたエッジを計算し、投影されたエッジの各々全体にわたり、一定の距離Δをあけて探索点を決定し、探索点を起点として、投影エッジに直行する方向で一定の探索距離δ内の高コントラストな特徴を持つ点を探索し、これらエッジ画素に当てはまる線分を求め、線分の2つの代表点を決定し、これらの点の座標を出力する。
同様に、肌色重心抽出モジュール162は画像中で肌の色を持つブロッブの重心を出力し、着衣色マップ計算モジュール164は予め定められた着衣の色で画素のマップを計算し、深度マップ計算モジュール168は両方のカメラの画像から、深度マップを計算する。これらのモジュールの出力は全て、新形状組予測モジュール144に与えられる。
新形状組予測モジュール144は、PD記憶部148に記憶された最後の確率密度関数{(s,π)}のパーティクルにノイズを加えることにより、動力学的モデルを用いて新たな人体モデル形状の組を予測する。この新たな人体モデル形状の組は尤度計算モジュール146に与えられる。
予測された形状の各々について、尤度計算モジュール146は前処理モジュール142から出力された情報と、対象となるモデル形状から投影された画像とを比較し、エッジ、肌の色重心、着衣色マップ、及び深度マップの誤差に基づいて確率を計算し、その後これらの確率を乗ずることにより、対象となるモデル形状の全体の確率を計算し、形状sの各々について、確率密度関数{(s,π)}を出力する。
PD記憶部148はこの確率密度変数を記憶する。
平均形状計算モジュール150は、平均形状
Figure 0004836065
を、平均形状計算モジュール150に記憶された確率密度関数に基づいて計算し、この平均形状を人体モデルパラメータ126として出力する。平均形状記憶部152は平均形状計算モジュール150の出力を記憶して、次のフレームサイクルの動作に備える。
6.結果
本発明者らは、この実施例の新たなアルゴリズムの効率を、基本アルゴリズムを利用したシステム及びオン−ザ−フライのエッジ検出に基づくアルゴリズムと比較した。結果を表1に示す。
Figure 0004836065
表1は2.8GHzクロック信号で動作する最新のコンピュータでの効率を比較したものである。テストでは、1000個のパーティクルを用いた。値は1フレームの処理時間である。表1を参照して、この実施の形態に係るアルゴリズムは、2000倍以上の高速化を達成できる可能性がある。しかし、システム全体の現在の実現例では、人体モデルの運動及びその結果得られる輪郭の計算がボトルネックであり、このため、実質的な高速化は130倍となっている。
60Hzでキャプチャされたビデオシーケンスのテストでは、この実施の形態で利用されたアルゴリズムは基本アルゴリズムを利用したシステム及びオン−ザ−フライのエッジ検出に基づくアプローチに比べ、さらに良好な結果を達成した。すなわち、この実施の形態で計算された尤度はより適切であると思われた。これを理論で証明するのは困難である。しかし、結果として得られた、計算された平均形状を投影したものを含むビデオ画像は、この有効性を明らかに示している。処理された8個のフレームのシーケンスを図7に示す。
図7は60Hzでキャプチャされた8枚の画像のシーケンスを例示する。左から右へ、1列目が画像1−4、2列目が画像5−8である。人体モデルの計算された平均形状の投影されたエッジが白のエッジで表示されている。30Hzでキャプチャされたビデオシーケンスも、このシステムがこのような低フレームレートでも動作することを示した。
7.結論
この明細書で、発明者らは、パーティクルフィルタを用いた、エッジトラキングのための、高度に最適化された尤度関数を備えた人体のモーションキャプチャシステムを提示した。用いられたアルゴリズムを詳細に説明し、効率と有効性とを検討し、通常のアプローチと理論的に比較し、結果を実際に検証した。この実施の形態で用いられるアルゴリズムの唯一の付加的な条件である、少なくとも30Hz、好ましくは60Hz以上という高いカメラフレームレートは、制限というよりはむしろ、いかなるリアルタイムの人間モーションキャプチャシステムでも、理にかなった選択というべきであろう。
セクション6で示したように、この実施の形態で用いられるアルゴリズムでは、尤度関数を通常のアプローチに比べ2000倍も速く、オン−ザ−フライのエッジ検出に基づくアプローチに比べ3000倍も速く計算する。ここで、システム全体の有効な高速化は通常のアプローチに比べ約130倍であると述べた。この実施の形態で利用した尤度関数では、さらなる高速化のためのボトルネックは人体モデルとなる。
本発明者らが知る限りでは、この実施の形態で用いたアルゴリズムによってはじめて、マーカ無しでリアルタイムの人体のモーションキャプチャが実現可能なものとなった。このアルゴリズムは、ヒューマノイドロボットの能動型の頭部に適用するための人体のモーションキャプチャシステムに重要な役割を果たすであろう。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。
人体モデルから投影されたエッジから、どのように画像エッジが求められるかを概略的に示す図である。 線分と線の誤差尺度とを概略的に示す図である。 画像の2つのエッジに当てはめられた線分と人体モデルから投影された2本の線との結果を示す図である。 この発明の一実施例に従った人体のモーションキャプチャシステム124のブロック図である。 図4に示す前処理モジュール142の詳細図である。 図5に示すエッジ抽出モジュール160を実現するコンピュータプログラムの制御フロー図である。 この発明の実施例によって処理された8個のフレームシーケンスを示す図である。
符号の説明
50及び52 投影されたエッジ
60及び62 回帰直線
120及び122 画像
124 HMCシステム
126 人体モデルパラメータ
140 ガウス平滑化モジュール
142 前処理モジュール
144 新形状組予測モジュール
146 尤度計算モジュール
148 PD記憶部
150 平均形状計算モジュール
152 平均形状記憶部
160 エッジ抽出モジュール
162 肌色重心抽出モジュール
164 着衣色マップ計算モジュール
168 深度マップ計算モジュール

Claims (5)

  1. 対象物の一連の2D画像中においてエッジをトラッキングする方法であって、
    前記対象物の3D形状を3D空間内のエッジにより記述するモデルを準備するステップと、
    前記対象物のモデルのエッジを前記画像の画像平面に投影するステップと、
    前記画像平面上に投影されたエッジの各々の周囲の予め定められた区域内で前記画像のエッジ画素の組を探索するステップと、
    前記投影されたエッジの各々のエッジ画素の組について回帰直線を求めることにより、前記エッジ画素の組の各々に線分を当てはめるステップと、
    前記投影されたエッジの各々について、前記線分を規定する所定のパラメータの組でその線分を表すステップと、
    前記線分を用いて対象物のモデルを更新するステップとを含み、
    前記モデルは、前記モデルのとり得る複数個の形状と、前記モデルが当該形状を取る確率とから求められた平均形状で記述され、
    前記更新するステップは
    前記モデルの形状に対し、前記確率により規定されるパーティクルフィルタを適用することにより、前記モデルの形状の新たな組を予測するステップと、
    前記モデルの形状の新たな組の各々のエッジの組と、前記エッジ画素の組に対して求められた前記線分との間で所定の誤差尺度を計算するステップと、
    前記新たな組の各形状に、前記計算するステップで計算された関連の誤差尺度に従って、前記対象物が各形状である確率を割当てるステップと、
    それぞれの確率で重み付けされた新たな形状の総和を計算することによって、新たなモデルを計算するステップとを含む、エッジトラッキング方法。
  2. 前記探索するステップが、
    前記投影されたエッジの各々について探索点の組を決定するステップと、
    前記投影されたエッジの各々の前記探索点の各々について、投影されたエッジの両側において、前記投影されたエッジと交差する方向の予め定められた距離内に存在する、画像の高コントラスト点を探索するステップとを含む、請求項1に記載の方法。
  3. 前記投影されたエッジと交差する前記方向は、前記投影されたエッジと直交する方向である、請求項2に記載の方法。
  4. 前記決定するステップが、
    前記投影されたエッジの各々について、一定の距離をあけて前記探索点の組を決定するステップを含む、請求項2または請求項3に記載の方法。
  5. コンピュータ上で実行されると、請求項1〜請求項のいずれかに記載の全てのステップを当該コンピュータに実行させる、コンピュータプログラム。
JP2005100997A 2005-03-31 2005-03-31 エッジトラッキング方法及びそのコンピュータプログラム Expired - Fee Related JP4836065B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005100997A JP4836065B2 (ja) 2005-03-31 2005-03-31 エッジトラッキング方法及びそのコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005100997A JP4836065B2 (ja) 2005-03-31 2005-03-31 エッジトラッキング方法及びそのコンピュータプログラム

Publications (3)

Publication Number Publication Date
JP2006285358A JP2006285358A (ja) 2006-10-19
JP2006285358A5 JP2006285358A5 (ja) 2008-04-17
JP4836065B2 true JP4836065B2 (ja) 2011-12-14

Family

ID=37407260

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005100997A Expired - Fee Related JP4836065B2 (ja) 2005-03-31 2005-03-31 エッジトラッキング方法及びそのコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP4836065B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101388077A (zh) 2007-09-11 2009-03-18 松下电器产业株式会社 目标形状检测方法及装置
US8331619B2 (en) 2008-03-14 2012-12-11 Sony Computer Entertainment Inc. Image processing apparatus and image processing method
WO2015104969A1 (ja) * 2014-01-09 2015-07-16 ソニー株式会社 映像信号処理装置、映像信号処理方法およびカメラ装置
JP6185879B2 (ja) * 2014-05-01 2017-08-23 日本電信電話株式会社 多関節物体追跡装置、多関節物体追跡方法、及びプログラム
GB201621404D0 (en) * 2016-12-15 2017-02-01 Trw Ltd A method of tracking objects in a scene
CN115442521B (zh) * 2022-08-08 2023-10-27 杭州华橙软件技术有限公司 摄像控制方法及相关装置、摄像机和存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001005973A (ja) * 1999-04-20 2001-01-12 Atr Media Integration & Communications Res Lab カラー画像による人物の3次元姿勢推定方法および装置
JP2001266159A (ja) * 2000-03-17 2001-09-28 Toshiba Corp 物体領域情報生成方法及び物体領域情報生成装置並びに近似多角形生成方法及び近似多角形生成装置
US7130446B2 (en) * 2001-12-03 2006-10-31 Microsoft Corporation Automatic detection and tracking of multiple individuals using multiple cues

Also Published As

Publication number Publication date
JP2006285358A (ja) 2006-10-19

Similar Documents

Publication Publication Date Title
EP2858008B1 (en) Target detecting method and system
US8948448B2 (en) Method and apparatus for trajectory estimation, and method for segmentation
US8340400B2 (en) Systems and methods for extracting planar features, matching the planar features, and estimating motion from the planar features
EP3016071B1 (en) Estimating device and estimation method
US8711206B2 (en) Mobile camera localization using depth maps
KR101776620B1 (ko) 검색 기반 상관 매칭을 이용하여 이동 로봇의 위치를 인식하기 위한 장치 및 그 방법
CN109934847B (zh) 弱纹理三维物体姿态估计的方法和装置
US9672634B2 (en) System and a method for tracking objects
US20120320162A1 (en) Video object localization method using multiple cameras
WO2013090864A1 (en) Learning image processing tasks from scene reconstructions
JP2006509211A (ja) 多重同期ビデオストリームからの動的奥行き復元
Jellal et al. LS-ELAS: Line segment based efficient large scale stereo matching
US20130080111A1 (en) Systems and methods for evaluating plane similarity
JP4836065B2 (ja) エッジトラッキング方法及びそのコンピュータプログラム
US11651581B2 (en) System and method for correspondence map determination
JP2018113021A (ja) 情報処理装置およびその制御方法、プログラム
JP2014235743A (ja) 深度画像に基づく手の位置確定方法と設備
KR102295183B1 (ko) Cctv 프로젝션 모델을 이용한 cctv 영상의 객체 추적 방법
KR102494552B1 (ko) 실내 복원 방법
JP6659095B2 (ja) 画像処理装置、画像処理方法及びプログラム
Agouris et al. Automated spatiotemporal change detection in digital aerial imagery
CN114399532A (zh) 一种相机位姿确定方法和装置
Cheung et al. Optimization-based automatic parameter tuning for stereo vision
Weissenfeld et al. Robust rigid head motion estimation based on differential evolution
JP2007257489A (ja) 画像処理装置および画像処理方法

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080228

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080228

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101018

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101026

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110308

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110412

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110607

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110708

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110830

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110920

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141007

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees