JP2007172627A

JP2007172627A - 電子画像内で物体のセグメントを求める方法

Info

Publication number: JP2007172627A
Application number: JP2006343950A
Authority: JP
Inventors: Michael Goetting; ミヒャエル・ゲッティング; Heiko Wersing; ハイコ・ヴェルジング; Jochen J Steil; ヨッヒェン・ジェイ・スタイル
Original assignee: Honda Research Institute Europe GmbH
Current assignee: Honda Research Institute Europe GmbH
Priority date: 2005-12-22
Filing date: 2006-12-21
Publication date: 2007-07-05
Anticipated expiration: 2026-12-21
Also published as: EP1801731A1; DE602005007370D1; US8238650B2; EP1801731B1; US20070147678A1; JP4567660B2

Abstract

【課題】電子画像内で物体のセグメントを決定するための高速な方法を提供する。
【解決手段】複数特徴セグメンテーションを教師なし学習するステップおよび関連性マップを形成するステップを備える。教師なし学習するステップは、基本フィルタ・マップ（Ｆｉ）を使用して訓練データベクトルを形成するステップと、ベクトル定量化ネットワーク（ＶＱ）を使用して訓練データベクトルからコードブック・ベクトルを取得するステップと、訓練データベクトルおよびコードブック・ベクトルから適応トポグラフィック・アクチベーション・マップ（Ｖ^Ｊ）を生成するステップと、適応トポグラフィック・アクチベーション・マップ（Ｖ^Ｊ）を２値化して２値適応トポグラフィック・アクチベーション・マップ（Ｂ_ｉ）を取得するステップと、を備える。
【選択図】図２

Description

本発明は、機械によるデジタル画像処理の分野に関する。特に、本発明は、実世界のシーンにおける機械による注意制御、シーンのセグメンテーション、および物体認識の問題に関する。

インテリジェントな人間−機械のインタラクションを実現するため、注意制御（attention control）および物体認識（object recognition）は重要な課題として広く認識されている。実世界のシーンにおいてシーンのセグメンテーション（segmentation、セグメント化、分割、区分）および物体認識が困難であるため、この領域の多くの作業は、たとえば整理された背景、前景物体の均質な配色、または定義済みの物体の種類などの明示的または黙示的に制約されるシナリオに専念してきた。しかし、下位レベルの先入観と物体表現の記号レベルとの間のギャップを埋めることは、依然として困難である。

物体学習の現在最も強力な手法は、確率論およびベイズの方法に基づくものである（非特許文献１）。Ｊ．ＷｉｎｎおよびＮ．Ｊｏｉｊｉｃは（非特許文献２）、学習規範型物体（learning prototypic object）のカテゴリを、本来の画像とは異なる形状で示す。しかし、彼らの方法は計算処理的に極めて要求が厳しく、オンラインおよびインタラクティブ学習には適していない。

ビジュアル処理を容易にし、検索スペースを軽減するため、多くの認知視覚システムでは視覚制御に基づく注意を使用して固視点（fixation）を生成する。下位レベルにおいて、注意制御は多くの場合、地形的に順序付けられたマップ（topographically ordered map）に基づいてある関心点にシステムリソースを集中させる（非特許文献３）。これらのマップでは大部分が、色、有向エッジ（oriented edge）、または輝度などの単純な刺激を使用するが、より上位レベルの情報を統合するためのメカニズムも提案された（非特許文献４）。意味論的レベルに到達するための１つの手法は、全体論的な物体分類体系により現在の固視点において既知の物体を検索することであり（非特許文献５）、認識された物体を記号メモリに格納することである（非特許文献６および非特許文献７）。さまざまな視点からの膨大量の訓練画像が必要になるため、物体分類自体はあらかじめオフラインで訓練しておく必要がある。

セグメンテーションと認識には密接な関係性があると一般に考えられており、一部の著者は両手法を同時に解決しようと試み（たとえば、非特許文献８を参照）、その結果オンライン機能によらないかなり複雑なアーキテクチャに至る。より伝統的な手法において、セグメンテーションは、認識に対して独立した前処理段階として扱われる。しかし、物体に関する先験的知識は使用できないため、そのような学習コンテキストにおいては、教師なしの（unsupervised）セグメンテーションを使用することが極めて重要である。

教師なしセグメンテーションを可能にするため、いくつかのクラスタ・ベースのセグメンテーションの手法（非特許文献９および非特許文献１０）では、さまざまな色空間と、場合によってはピクセル座標を特徴空間として使用する。彼らは、Ｋ平均（K-means）または自己組織化マップ（self organizing map：ＳＯＭ）のようなベクトル量子化法を適用して、この空間を分割し、コードブック・ベクトル（codebook vector）に関して画像を区分化する。同様に、一部の手法では、色にインデックスを付け、このインデックス空間を定量化して、この定量化をセグメントに背景映写する（非特許文献１１および非特許文献１２）。そのような定量化法は高速となる可能性を秘めているが、物体が均質的に彩色される必要があり、１つのセグメントによってカバーされうることを想定する。立体画像が使用可能である場合、視差情報はセグメンテーション・キューとして使用することができ（非特許文献１３）、一部の手法では追加の色セグメンテーションによって信頼できない視差情報をサポートしようと試みる（非特許文献１４）。これらの方式において、色セグメンテーションは学習されず、根底にある強い均質性の前提を使用する。黙示的には、これらの手法では区分化する物体が相互に分離されることも想定されるが、これは現実のシナリオにおいて、特に人間が学習対象の物体を操作して機械に提示する場合、あてはまらない。

一部の手法は、教師なしの色クラスタリング法を、他のソースから導出された物体に関するトップダウンの情報と組み合わせるためになされた（非特許文献１５および非特許文献１６）。この手法は、教師なしステップにおいて、より小さいセグメントが生成され、それが物体を過剰に区分化することができるという利点を備えている。したがって、均質性の前提は緩和できるが、トップダウンの情報は、結果として生じるあいまいさを解決するのに十分でなければならない。

したがって、前述の非特許文献１５において、教師なしステップは、ツリーで順序付けられたセグメントの階層および連続的な最適化手順を生成して、トップレベル情報に基づくコスト関数に関して物体に属すことを示すラベルをセグメントに付けることからなる。

この方法の複雑さは、ピクセルの数では線形であるが、依然として、毎秒数フレームというリアルタイム・パフォーマンス処理を可能にするほど十分な高速さを備えてはいない。
Krishnapuram B., C. M. Bishop, and M. Szummer, "Generative models and Bayesian model comparison for shape recognition", Proceedings Ninth International Workshop on Frontiers in Handwriting Recognition, 2004 J. Winn and N. Joijic, "Locus: Learning object classes withunsupervised segmentation", Intl. Conf. on Computer Vision, 2005 Joseph A. Driscoll, Richard Alan Peters II and Kyle R. Cave, "A visual attention network for a humanoid robot", Proceedings of the IEEE/RSJ International Conference on Intelligent Robots and Systems（IROS-98）, Victoria, B. C. , 1998年10月12〜16日 J．J．Steil、G．Heidemann、J．Jockusch、R．Rae、N．Jungclausand H．Ritter, "Guiding attention for grasping tasks by gestural instruction: The gravis-robot architecture", Proc．IROS 2001, pages 1570-1577, IEEE, 2001 J．J．Steil and H．Ritter, "Learning issues in a multi-modal robot-instruction scenario", IEEE Int. Conf. Robotics, Intelligent Systems and Signal Processing, 2003 G．Heidemann, "A multi-purpose visual classification system", In B．Reusch、Editor、Proc．7th Fuzzy Days、Dortmund、2001、pages 305-312、Springer-Verlag、2001 G．Heidemann and H．Ritter, "Combining multiple neural nets for visual feature selection and classification", Proceedings of ICANN 99、1999 Stella X. Yu, Ralph Gross, and Jianbo Shi, "Concurrent object recognition and segmentation by graph partitioning", Online proceedings of the Neural Information Processing Systems conference、2002 Guo Dong and Ming Xie, "Color clustering and learning for image Segmentation based on neural networks", IEEE Transactions on Neural Networks、16(14):925-936、2005 Y. Jiang and Z. -H. Zhou, "Some ensemble-based image Segmentation", Neural Processing Letters、20(3):171-178、2004 Jung Kim Robert Li, "Image compression using fast transformed vector quantization", Applied Imagery Pattern Recognition Workshop、page 141、2000 Dorin Comaniciu and Richard Grisel, "Image coding using transform vector quantization with training set synthesis", Signal Process．，82(11):1649-1663、2002 N. H. Kim and Jai Song Park, "Segmentation of object regions using depth information", ICIP、pages 231-234、2004 Hai Tao and Harpreet S. Sawhney, "Global matching criterion and Color Segmentation based stereo", Workshop on the application of Computer Vision、pages 246〜253、2000 E. Borenstein, E. Sharon, and S. Ullman, "Combining top-down and bottom-up Segmentation", 2004 Conference on Computer Vision and Pattern Recognition Workshop （CVPRW’04）、4:46、2004 M．J．Bravo and H．Farid, "Object Segmentation by top-down processes", Visual Cognition、10(4):471-491、2003

したがって、本発明の目的は、電子画像内で物体のセグメント（segment、部分、切片、区分）を決定するための高速な方法およびシステムを提供することである。方法またはシステムは、たとえば毎秒数フレームのリアルタイム処理を可能にする十分な速さであることが好ましい。

この問題は、請求項１に記載の方法、独立請求項２１に記載のソフトウェア、および独立請求項２２に記載のコンピュータ・プログラムによって解決される。有利な実施形態は、従属請求項において定義される。

電子画像内の物体のセグメントを決定する方法は、複数特徴の（multi-featured）セグメンテーションを教師なし学習するステップおよび関連性マップ（relevance map）を形成するステップを備えることができる。

方法はさらに、セグメントおよび関連性マップの重複によってセグメントが物体に属する確率を推定するステップを備えることができる。

方法において、複数特徴セグメンテーションを教師なし学習するステップはさらに、基本フィルタ・マップを使用して訓練データベクトルを形成するステップと、ベクトル定量化ネットワーク（vector quantization network：ＶＱ）を使用して訓練データベクトルからコードブック・ベクトルを取得するステップと、訓練データベクトルおよびコードブック・ベクトルから適応トポグラフィック・アクチベーション・マップ（adaptive topographic activation map）を生成するステップと、適応トポグラフィック・アクチベーション・マップを２値化して２値化（binarised）適応トポグラフィック・アクチベーション・マップを取得するステップと、を備えることができる。

この方法において、アクチベーション・マップの生成は、固定数の訓練ステップを備える標準ベクトル定量化ネットワークを採用してもよい。適用されるベクトル量子化法はまた、Ｋ平均法（K-means method）、自己組織化マップ、あるいは成長ニューラル・ガス（growing neural gas）または瞬時トポロジカル・マップ（instantaneous topological map）のような成長ネットワーク（growing map）であってもよい。

さらに、訓練データベクトル

は、ピクセル位置（ｘ，ｙ）を特徴として含むことができる。

訓練データベクトルの各成分は、その分散σ（ｍ_ｉ）^２により正規化することができる。訓練データベクトルの各成分はさらに、追加重み係数（additional weighting factor）により重み付けすることができる。追加重み係数は、発見的に決めることができる。

初期コードブック・ベクトル

は、画像からランダムな（ｘ，ｙ）位置を抽出するステップ、この位置において特徴ベクトルを生成するステップ、現在のコードブックのすべてのコードブック・ベクトルまでのこのベクトルの最小距離を計算するステップ、および新たなコードブック・ベクトルを割り当てるステップによって取得される。新たなコードブック・ベクトルは、最小距離がしきい値よりも大きく、新たな特徴ベクトルが他の方法で抽出される場合、ランダムに抽出されたベクトルと等しくなりうる。その後の入力画像に対して、すでに既存のコードブック・ベクトルは、標準ＶＱ学習ステップを使用して適合される。

さらに、シーン依存型（scene dependent）適応トポグラフィック・アクチベーション・マップ（Ｖ^ｊ）は、

として計算することができる。シーン依存型適応トポグラフィック・アクチベーション・マップ（Ｖ^ｊ）は、すべてのｊにわたる勝者決定競合（winner-take-all competition）によって２値化することができる。さらに、関連性マスク（relevance mask）は、中央マップおよび視差マップから付加的な重ね合わせとして計算することができる。

関連性マップは、どの適応シーン依存型フィルタ（Adaptive Scene Dependent Filter：ＡＳＤＦ）の組み合わせが選択されるべきかを明らかにするために使用することができる。方法はさらに、皮膚色マスクを形成／皮膚色を検出するステップを備えることができる。適応皮膚色セグメンテーションはさらに、最終マスク（final mask）から皮膚色領域を除外することができる。

関連マスクと２値化されたトポグラフィック・アクチベーション・マップとの間の交点のピクセル数、および関連マスクなしの２値化トポグラフィック・アクチベーション・マップのピクセル数は、適切なマスクを選択するために使用することができる。マスクが物体に属する確率は、関連マスクとトポグラフィック・アクチベーション・マップとの間の重複によって推定される。相対度数が所定のしきい値よりも大きい場合、マスクは最終セグメント・マスクに含めることができる。最終マスクは、選択されたアクチベーション・マップの付加的な重ね合わせとして計算することができ、皮膚色ピクセルはこのマスクから削除することができる。

本発明のさらなる態様および利点は、付属の図面と共に以下の詳細な説明を読めば明らかとなろう。

図１は、適応シーン依存型フィルタ（ＡＳＤＦ）１１０、関連性マップ１２０、および皮膚色検出１３０を、物体マップ決定モジュール１４０の入力として使用する、画像セグメンテーションおよび物体認識のための多段階およびマルチパスＡＳＤＦ処理スキームの概要を示している。物体マップ決定モジュール１４０は、セグメンテーション・マスクを求めるが、これはその後、物体認識モジュール１５０において使用される。

縦の点線は、処理体系が二重であることを示している。最初に、セグメンテーション・マスクが導出される。次に、取得されたセグメンテーション・マスクは、物体認識モジュールによって使用される。

本発明は主として、前述の３つの入力１１０、１２０、および１３０を取得して、そのようなセグメンテーション・マスクを導出するためにこれらの入力を組み合わせる第１のステップに関係している。

図２を参照して、適応シーン依存型フィルタ１１０を取得するプロセスが最初に説明される。

完全な視覚アーキテクチャの初期段階において、入力画像に対する低レベルのフィルタ操作または基本フィルタ・マップが提供されることが想定される。純色セグメンテーションスキームとは対照的に、結合特徴空間を形成するためのエッジ・マップ、輝度、差分画像、速度フィールド、視差、画像位置、またはさまざまな色空間のようなあらゆる種類のトポグラフィック特徴マップの組み合わせが許容される。本発明において、ピクセル位置（ｘ，ｙ）において特徴

を持つＭ個のそのような基本フィルタ・マップＦ_ｉが、第１層に使用される：

ここで、（ｘ，ｙ）はそれぞれのピクセル・インデックスであり、

は特徴としてピクセル位置を含む。各成分は、その分散σ（ｍ_ｉ）^２により正規化される。ζ^ｉは、追加の発見的に決められた重み係数（weighting factor）であるが、これは別のマップの相対的重要度に重み付けするために使用することができる。

第２層において、ベクトル定量化ネットワーク（vector quantization network：ＶＱ）は、最も度数が高く顕著な特徴の組み合わせを表すＮ個の原型コードブック・ベクトル

を取得するために採用される。適用されるベクトル量子化法は、Ｋ平均法、自己組織化マップの変種（flavor）、あるいは成長ニューラル・ガスまたは瞬時トポロジカル・マップのような成長ネットワークであってもよい。以下において、アクチベーション・マップの生成は、固定数の訓練ステップ（計算を加速するため）および訓練データ

（上記の式１を参照）を備える標準ＶＱを採用する。

各ステップにおいて、最小距離

が計算され、最小距離を持つ勝者（winning）コードブック・ベクトルが標準ＶＱ規則（standard VQ rule）を通じて適合される。

ＶＱコードブックＣの初期化では、空のコードブックから開始し、以下の手順により新たなコードブック・ベクトルを付加的に割り当てることができる。

画像からランダムな（ｘ，ｙ）位置を抽出し、この位置において特徴ベクトル

を生成し、現在のコードブックのすべての

までの

の最小距離ｄ_ｍｉｎを計算する。新たなコードブック・ベクトル

は、ｄ_ｍｉｎに応じて以下のように割り当てられる。

ここで

は、コードブック・ベクトルの良好な分散を確実にするためのしきい値である。この手順は、コードブック・ベクトルの最大数に達するまで、ＶＱの各適合ステップの前に行われてもよい。

前述のステップは、以下のアルゴリズムにおいて実施することができる（擬似コードで記述）。

アルゴリズムは、Ｑの反復ステップを実行する。各ステップ内で、標準ＶＱ学習ステップが既存のコードブック・ベクトルに対して実行される。ランダムに抽出された

がすでに既存のコードブック・ベクトルまで十分に離れた距離を有する場合、新たなコードブック・ベクトルが追加される。

第３層において、特徴空間の分割は、元の特徴ベクトルのコードブック・ベクトルまでの距離を各ピクセル位置に割り当てることにより、コードブック・ベクトルごとに新たな適応特徴マップを生成する。

第３層の入力は、適応コードブックＣおよび基本フィルタ・マップＦ_ｉからなる。コードブックに基づいて、Ｎ個のシーン依存型アクチベーション・マップ（Ｖ^ｊ）は、以下のように計算される。

適応マップ間の更なる勝者決定競合は、互いに素なセグメントを取得するために使用される。これは、マップＶ^ｊを以下のように２値化することにより達成される。

物体マップ決定ユニットの課題は、着目された物体を区分化するためのＡＳＤＦの組み合わせを明らかにすることである。これは、適切な選択基準を使用して、再結合ステップにおいて行われる。

関連性マップは、適切な選択基準として使用することができる。関連性マップは、着目された物体周囲の粗い領域の予測マスクとしての役割を果たすことができる。この領域は、適応シーン依存型フィルタのセットから適切なフィルタを見つけ出すための手がかりとして使用することができる。

図３に示されているように、関連性マップは、参照番号３１０によって示される中央マップＩ_Ｃ、および参照番号３２０によって示される視差（disparity）マップＩ_Ｄｉｓｐから付加的な重ね合わせとして計算することができる。関連性マップの出力は、参照番号３３０によって示される画像マスクＩ_Ｒｅｌを備えている。

再結合ステップでは、関連性マップからの情報を使用して、どのセグメントが物体に属するかを決定する。Ｅ．Ｂｏｒｅｎｓｔｅｉｎ、Ｅ．ＳｈａｒｏｎおよびＳ．Ｕｌｌｍａｎによる手法（前述の非特許文献１５を参照）とは対照的に、この再結合のステップは、学習対象の物体に関する明示的な前提を使用せず、注意システムからの情報のみに依存して関心領域を定義するが、それは使用可能な場合に視差情報またはその他の手がかりによって改良することができる。処理を加速するために、関心領域にあると想定される、セグメントが物体に属する確率は、セグメントの関連性マップとの重複によって推定することができる。

関連性マップはさらに、領域をゼロの関連度に設定するセグメントを特に除外することができるようにする。これは、別個の特化された処理パスにおいて検出される皮膚および手の色を表す領域を減算するために使用することができる。常に、完全なセグメントまたはセグメントの連結コンポーネントが受け入れられるので、さらに初期の関心領域の外側になるピクセルは、最終マスクに含めることができる。

入力画面内にあっても関心領域の外側にある物体は、区分化されず、計算時間を節約することができる。アーキテクチャは、関連性マップによって定義された注意の焦点において物体を区分化するために、あらゆる種類の画像に適応することができ、特に、任意の背景の前面にいる人間のパートナーによって提示される「手持ちの物体（objects in hand）」のオンライン学習の状況において使用することができる。

この目的のために、Ｉ_ＲｅｌおよびＢ_ｉの交点のピクセルの数ｉｎＰｉｘ（ｉｎＰｉｘ＝＃（Ｂ_ｉ＼Ｉ_Ｒｅｌ））および、Ｉ_ＲｅｌなしのＢ_ｉのピクセルの数ｏｕｔＰｉｘ（ｏｕｔＰｉｘ＝＃（Ｂ_ｉ＼Ｉ_Ｒｅｌ））が計算される。これらの２つのパラメータは、適切なマスクを選択するために使用することができる。マスクＢ_ｉが物体に属する確率は、相対度数ｏｕｔＰｉｘ／ｉｎＰｉｘによって推定することができる。ｏｕｔＰｉｘ／ｉｎＰｉｘ＜０．２である場合に、マスクは最終セグメント・マスクＩ_{Ｆｉｎａｌ}に含めることができる。

適応皮膚色セグメンテーションは、最終マスクから皮膚色領域を除外することができる。最終マスクＩ_{Ｆｉｎａｌ}は、選択されたＢ_ｉの付加的な重ね合わせとして計算することができ、皮膚色ピクセルはこのマスクから削除することができる：
（Ｉ_{Ｆｉｎａｌ}＝Σ_ｉＢ_ｉ−Ｉ_Ｓｋｉｎ）
図４は、２値化ＡＳＤＦセグメントＢ_ｉを示している。セグメント５、７、９、１１、１２、および１３の組み合わせは、示されている物体の物体・マスクを構成している。マスク番号９は、輪郭の一部をもたらし、色特徴に特化されないことに留意されたい。

図５は、アーキテクチャのセグメンテーション結果（入力画像、視差マスク、および最終セグメンテーション）を示す。

適応フィルタ、関連性マップ、皮膚色検出および物体認識モジュールを使用する画像セグメンテーションおよび物体認識のためのマルチパスＡＳＤＦ処理スキームを示す図である。多段ＡＳＤＦアーキテクチャを示す図である。関連性マップのコンポーネントを示す図である。２値化ＡＳＤＦセグメントＢ_ｉを示す図である。アーキテクチャのセグメンテーション結果（入力画像、視差マスク、および最終セグメンテーション）を示す図である。

符号の説明

１１０適応シーン依存型フィルタ（ＡＳＤＦ）
１２０関連性マップ
１３０皮膚色検出
１４０物体マップ決定モジュール
１５０物体認識モジュール
Ｂ_ｉ２値化適応トポグラフィック・アクチベーション・マップ
Ｃ^Ｊコードブック・ベクトル
Ｆ_ｉ基本フィルタ・マップ
Ｉ_Ｃ中央マップ
Ｉ_ＤＩＳＰ視差マップ
Ｉ_ＲＥＬ関連マスク
Ｉ_{ｆｉｎａｌ} 最終セグメント・マスク
Ｖ^Ｊ適応トポグラフィック・アクチベーション・マップ
ＶＱベクトル定量化ネットワーク

Claims

電子画像内で物体のセグメントを求める方法であって、
複数特徴セグメンテーションを教師なし学習するステップと、
関連性マップを形成するステップと、
を備える方法。
セグメントと前記関連性マップとの重複によって、該セグメントが物体に属する確率を推定するステップをさらに備える、請求項１に記載の方法。
複数特徴セグメンテーションを教師なし学習する前記ステップが、
基本フィルタ・マップ（Ｆ_ｉ）を使用して訓練データベクトル

を形成するステップと、
ベクトル定量化ネットワーク（ＶＱ）を使用して前記訓練データベクトル

からコードブック・ベクトル

を取得するステップと、
前記訓練データベクトル

および前記コードブック・ベクトル

から適応トポグラフィック・アクチベーション・マップ（Ｖ^Ｊ）を生成するステップと、
前記適応トポグラフィック・アクチベーション・マップ（Ｖ^Ｊ）を２値化して、２値化適応トポグラフィック・アクチベーション・マップ（Ｂ_ｉ）を取得するステップと、
を備える、請求項１または２に記載の方法。
前記アクチベーション・マップの生成は、固定数の訓練ステップを備える標準ベクトル定量化ネットワークＶＱを採用する、請求項３に記載の方法。
前記訓練データベクトル

が、ピクセル位置（ｘ，ｙ）を特徴として含む、請求項３に記載の方法。
前記訓練データベクトル

の各成分が、その分散σ（ｍ_ｉ）^２によりそれぞれ正規化される、請求項３に記載の方法。
前記訓練データベクトルの各成分が、追加重み係数（ζ^ｉ）により重み付けされる、請求項３に記載の方法。
前記追加重み係数（ζ^ｉ）が、発見的に求められる、請求項３に記載の方法。
前記コードブック・ベクトルＣ^Ｊが、
画像からランダムな（ｘ，ｙ）位置を抽出するステップと、
この位置においてベクトル

を生成するステップと、
現在のコードブックのすべてのＣ^Ｊまでのｍ（ｘ，ｙ）の最小距離（ｄ_ｍｉｎ）を計算するステップと、
新たなコードブック・ベクトル

を割り当てるステップと、
によって得られる、請求項３に記載の方法。
ｄ_ｍｉｎがしきい値（ｄ’）よりも大きく、かつ新たなベクトル

が他の方法で抽出される場合、前記新たなコードブック・ベクトル

が、

と等しくなる、請求項９に記載の方法。
前記シーン依存型適応トポグラフィック・アクチベーション・マップ（Ｖ^Ｊ）が、

として計算される、請求項３に記載の方法。
前記シーン依存型適応トポグラフィック・アクチベーション・マップ（Ｖ^Ｊ）が、数式

によって２値化される、請求項１１に記載の方法。
前記関連性マスク（Ｉ_ＲＥＬ）が、中央マップＩ_Ｃおよび視差マップＩ_ＤＩＳＰから付加的な重ね合わせとして計算される、請求項１に記載の方法。
前記関連性マップが、どのＡＳＤＦの組み合わせが選択されるべきかを明らかにするために使用される、請求項１に記載の方法。
皮膚色マスクを形成し、皮膚色を検出するステップをさらに備える、請求項１に記載の方法。
適応皮膚色セグメンテーションが、さらに前記最終マスクから皮膚色領域を除外する、請求項２に記載の方法。
前記関連性マスクと前記２値化されたトポグラフィック・アクチベーション・マップ（Ｂ_ｉ）との間の交点のピクセル数（ｉｎＰｉｘ）および前記関連性マスク（Ｉ_Ｒｅｌ）なしの前記２値化トポグラフィック・アクチベーション・マップ（Ｂ_ｉ）のピクセル数（ｏｕｔＰｉｘ）が、適切なマスクを選択するために使用される、請求項１に記載の方法。
マスク（Ｂ_ｉ）が物体に属する確率は相対度数ｏｕｔＰｉｘ／ｉｎＰｉｘによって推定される、請求項２に記載の方法。
前記相対度数が所定のしきい値よりも大きい場合、前記マスクは前記最終セグメント・マスク（Ｉ_{ｆｉｎａｌ}）に含まれる、請求項１に記載の方法。
前記最終マスクＩ_{Ｆｉｎａｌ}は選択されたＢ_ｉの付加的な重ね合わせとして計算され、前記皮膚色ピクセルはこのマスクから削除される（Ｉ_{Ｆｉｎａｌ}＝Σ_ｉＢ_ｉ−Ｉ_Ｓｋｉｎ）、請求項１に記載の方法。
コンピュータにロードされて実行されるときに、請求項１乃至２０のいずれかに記載の方法を実行するソフトウェア。
請求項２１に記載のソフトウェアが格納されるコンピュータ読み取り可能媒体。