JP2015138554A

JP2015138554A - 対象追跡方法及び装置

Info

Publication number: JP2015138554A
Application number: JP2015006674A
Authority: JP
Inventors: リアンリンイェヌ; Lingyan Liang; ガンワン; Gang Wang
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2014-01-20
Filing date: 2015-01-16
Publication date: 2015-07-30
Also published as: US20150206004A1; CN104794733A; US9524562B2; CN104794733B

Abstract

【課題】本発明は対象追跡方法及び装置を提供する。【解決手段】対象追跡方法は、画像シーケンスを取得するステップと、追跡される対象の候補目標エリアを予測するステップと、候補目標エリアの深度重みマップを確定するステップと、特徴の確率密度分布で表される目標テンプレートを取得するステップと、候補目標エリアに位置しスライドする候補目標を特徴の確率密度分布で表し、候補目標の特徴の確率密度を推定する工程において、画素ごとに、画素の色空間情報と、画素の深度重み情報に基づいて重み付けを行うステップと、目標テンプレートの確率密度表示と候補目標の確率密度表示に基づき、目標テンプレートと候補目標との類似度を計算することによって、候補目標エリアの確信度マップを取得するステップと、候補目標エリアの確信度マップに基づいて、追跡される対象の現在の画像における位置を特定するステップと、を含む。【選択図】図２

Description

本発明は画像処理に関し、具体的にはコンピュータ視覚技術における対象追跡方法及び装置に関する。

現在、コンピュータ視覚技術分野において、対象追跡は、例えば、マン・マシン・インタラクション制御システム、ユーザー監視システム、車両運転支援システムなどにおける、ジェスチャー追跡、歩行者追跡、車両追跡などのように、広く汎用され、非常に重要な技術になっている。

ジェスチャー追跡を例にすると、ジェスチャー制御システムはユーザーに対して特に便利である。有効なジェスチャー識別システムは、自然かつ効果的なインタラクション方式を提供することができるが、ジェスチャー識別システムにおける、非常に重要でかつ決定的な部分は、つまり手の追跡である。

手追跡システムは、ユーザーの操作の利便性を図るためには、ユーザーにいずれかの特殊装置、例えば特殊な手袋、カラーマーカーなどの装着を求めるべきではない。同時に、手は柔軟なもので、動きが早く、変形が容易で、自己遮蔽などの特徴を有するため、手の追跡技術は非常にチャレンジ的なジョブである。

現在、手追跡技術は、主として色特徴によって追跡を行い、周知のように、色情報は光照射変化と背景色の影響を受け易いため、追跡システムのロバスト性を低減してしまう。また、追跡システムは、一部遮蔽または追跡オブジェクトの形態変化の影響を受け易く、追跡機能の低下に繋がってしまう。追跡システムのロバスト性を高めるために、現在この分野において研究改善がなされ、多くの特許及び関係文献が存在している。

米国特許出願公開ＵＳ２０１１０２１１７５４Ａ１号は、カラー画像と深度画像を併せることによってオブジェクト追跡を行う追跡方法を公開している。該発明においては、カラー画像と深度画像上でそれぞれオブジェクト追跡を行っており、最終の追跡結果はカラー画像と深度画像上における追跡結果によって共同で決められる。追跡工程で用いられた特徴は主として深度情報、色情報及び色動き情報などがあり、追跡の核心技術は多種の特徴を融合して形成されており、ａ）形状モデル、例えば、楕円モデルを採用して手の形状を代表すること、ｂ）手の最新位置に基づいて対応する色ヒストグラムを生成すること、ｃ）深度平均値情報を採用し、追跡する手の現在の深度値を予測すること、ｄ）背景モデルを更新すること、が含まれている。当該技術において、カラー画像上の追跡結果は依然として光照射条件の影響を受け易くなるため、光照射条件が悪い場合、追跡結果は主として深度画像上の追跡で決められる。また、深度マップにおける追跡結果は主として深度のしきい値によって判定がなされ、ロバスト性が悪くなる可能性がある。

著者ＱＩＡＯＢｉｎｇ，ＬＩＺｈｉｃｈｅｎｇ，ＨＵＰｅｎｇの、「ｉｎｆｏｒｍａｔｉｏｎａｎｄｃｏｎｔｒｏｌ」というジャーナルに発表された「Ｏｂｊｅｃｔ
ＴｒａｃｋｉｎｇＡｌｇｏｒｉｔｈｍＢａｓｅｄｏｎＣａｍｓｈｉｆｔｗｉｔｈＤｕａｌＲＯＩａｎｄＶｅｌｏｃｉｔｙＩｎｆｏｒｍａｔｉｏｎＦｕｓｉｏｎ」という表題の文献においては、追跡オブジェクトの周囲の背景色の影響による追跡失敗を防止するために、単一のＲＯＩエリアを２つのＲＯＩサブエリアに分割し、一方のエリアはメイン追跡エリアとし、他方のエリアはサブ追跡エリアとする技術が提案されている。該文献によれば、２つのｃａｍｓｈｉｆｔ追跡装置はそれぞれ追跡を行う。該文献の該追跡方法によると、追跡オブジェクトと周囲の背景色が完全に類似した場合は、エラーが生じる可能性がある。

本発明の目的は、コンピュータ視覚技術における対象追跡方法及び装置を提供することにある。

本発明の一態様によれば、１つの対象追跡方法を提供する。該方法は、グレースケール画像シーケンスと、関連する深度画像シーケンスとを取得するステップと、現在のグレースケール画像と深度画像のうちの少なくとも１つにおいて追跡される対象の候補目標エリアを予測するステップと、各画素の深度情報に基づき、該画素が追跡される対象に属する確率を表示する各画素の深度重み情報が含まれる候補目標エリアの深度重みマップを確定するステップと、特徴の確率密度分布で表される目標テンプレートを取得するステップと、候補目標エリアに位置しスライドする候補目標を特徴の確率密度分布で表しており、候補目標の特徴の確率密度を推定する工程において、画素ごとに画素の色空間情報のみでなく、画素の深度重み情報にも基づいて重み付けを行うステップと、目標テンプレートの確率密度表示と候補目標の確率密度表示に基づき、目標テンプレートと候補目標との類似度を計算することによって、候補目標エリアの確信度マップを取得するステップと、候補目標エリアの確信度マップに基づいて、追跡される対象の現在の画像における位置を特定するステップと、を含んでもよい。

本発明の他の一態様によれば、１つの対象追跡装置を提供する。該装置は、グレースケール画像シーケンスと、関連する深度画像シーケンスとを取得する画像取得部と、現在のグレースケール画像と深度画像のうちの少なくとも１つにおいて追跡される対象の候補目標エリアを予測する候補目標エリア予測部と、各画素の深度情報に基づき、該画素が追跡される対象に属する確率を表示する各画素の深度重み情報が含まれる候補目標エリアの深度重みマップを確定する深度重み確定部と、目標テンプレートを取得するための、特徴の確率密度分布で表される目標テンプレート取得部と、候補目標エリアに位置しスライドする候補目標を特徴の確率密度分布で表しており、候補目標の特徴の確率密度を推定する工程において、画素ごとに画素の色空間情報のみでなく、画素の深度重み情報にも基づいて重み付けを行う候補目標表示部と、目標テンプレートの確率密度表示と候補目標の確率密度表示に基づき、目標テンプレートと候補目標との類似度を計算することによって、候補目標エリアの確信度マップを取得する確信度マップ取得部と、候補目標エリアの確信度マップに基づいて、追跡される対象の現在の画像における位置を特定する対象位置決め部と、を含んでもよい。

本発明の実施例による対象追跡方法及び対象追跡装置を利用すれば、候補目標の各特徴の確率密度を推定する工程において、画素ごとに画素の色空間情報のみでなく、画素の深度重み情報にも基づいて重み付けを行うため、従来技術における、深度情報を分離的かつ単独に考慮するか、深度情報のみをしきい値として不適な目標候補のフィルター処理を行うことに比べて、全追跡工程において深度情報を対象追跡に自然且つ緊密に結合することで、情報の利用率及び追跡の正確性を向上することができる。

以下の、図面を併せた本発明の実施例に対する詳細な記述により、本発明のこれらおよび／またはその他の方面と利点がより明らかに、より理解し易くなる。
本発明の１つの実施例における手追跡技術がマン・マシン・インタラクションに用いられる場面の概要図である。本発明の実施例における対象追跡装置１００の構成ブロック図である。本発明の１つの実施例における対象追跡方法２００の全体フロー図である。候補目標空間エリアに対して算出された深度重みマップの概要図である。（ａ）および（ｂ）は、ブロック分け例示図に対して、如何にサブテンプレートを追跡することにより候補追跡エリアの分割処理を行うかを概要的に説明した図である。（ａ）乃至（ｇ）は、ブロック分けと深度重み付けによる対象追跡方法の概要図である。（ａ）は、目標テンプレートの分割および目標テンプレートとサブ目標テンプレート間の関係を概要的に説明し、（ｂ）は、サブ目標テンプレートの独立更新を概要的に説明した図である。本発明の実施形態を実現するために適したコンピュータシステム６００の一例のブロック図である。

当業者の本発明への理解を容易とするために、以下、図面と具体的な実施例を併せて、さらに本発明を詳細に説明する。

下記の順で説明する。

１、適用場面の例
２、対象追跡装置の構成例
３、対象追跡方法の第１実施例
４、対象追跡方法の第２実施例
５、対象追跡方法の第３実施例
６、対象追跡を行うためのコンピュータシステム
以下の説明において、手を追跡対象として説明する。しかし、これは例示に過ぎず、実際に、本発明は任意の対象の追跡に適用することができる。

１、適用場面の例
図１は、本発明の１つの実施例における手追跡技術がマン・マシン・インタラクションに用いられる場面を概要的に説明した概要図である。図１に示されたように、カメラがコンピュータの上方に配置され、ユーザーがカメラの範囲内に立つ。ユーザーがカメラの範囲内で、手を動かすと、コンピュータは、手に対するリアルタイム追跡の目的を達成するように、手の真実の位置情報を計算し、手の異なる時刻における位置ポイントは、図１におけるドットで示された通りである。

該カメラは、例えば、両眼カメラのように、カラー画像及び深度画像を取得可能なものが好ましい。当業者に周知されているように、深度画像（Ｄｅｐｔｈｉｍａｇｅ）は画像における画素値が深度となる画像である。グレースケール画像に比べて、深度画像はオブジェクトの深度（奥行）情報を備えるため、特に立体情報が必要な各種応用に適合する。また、周知のように、１つの画素点の深度値と視差値との間には簡単な換算関係があるため、本発明における深度情報の意味は広義であって、視差情報が含まれる。

ここで、図１は１つの概要的な例に過ぎず、手を追跡するための装置は、コンピュータに限らず、例えば、ゲーム機、プロジェクター、テレビなどであってもよい。

２、対象追跡装置の構成例
以下、図２を参考して本発明の実施例における対象追跡装置の構成例を説明する。

図２は本発明の実施例における対象追跡装置１００の構成ブロック図である。

図２に示されたように、対象追跡装置１００は、画像取得部１１０、候補目標エリア予測部１２０、深度重み確定部１３０、目標テンプレート取得部１４０、候補目標表示部１５０、確信度マップ取得部１６０、対象位置決め部１７０を含む。

画像取得部１１０は、グレースケール画像シーケンスと、関連する深度画像シーケンスとを取得する、例えば、両眼カメラからのカラー画像及び深度画像を受信する、ためのものである。

候補目標エリア予測部１２０は、現在のグレースケール画像と深度画像のうちの少なくとも１つから、追跡される対象の候補目標エリアを予測するためのものである。

深度重み確定部１３０は、各画素の深度情報に基づき、該画素が追跡される対象に属する確率を表示する各画素の深度重み情報が含まれる候補目標エリアの深度重みマップを確定するためのものである。

目標テンプレート取得部１４０は、特徴の確率密度分布で表される目標テンプレートを取得するためのものである。

候補目標表示部１５０は、候補目標エリアに位置しスライドする候補目標を特徴の確率密度分布で表しており、候補目標の特徴の確率密度を推定する工程において、画素ごとに画素の色空間情報のみでなく、画素の深度重み情報にも基づいて重み付けを行うためのものである。

確信度マップ取得部１６０は、目標テンプレートの確率密度表示と候補目標の確率密度表示に基づき、目標テンプレートと候補目標との類似度を計算することによって、候補目標エリアの確信度マップを取得するためのものである。

対象位置決め部１７０は、候補目標エリアの確信度マップに基づいて、追跡される対象の現在の画像における位置を特定するためのものである。

対象追跡装置１００は対象位置決め部１７０の追跡結果を評価して目標テンプレート更新を適時に行うための目標テンプレート更新部をさらに含むことが好ましいが、必須ではない。

ここで、上記対象追跡装置１００の部はソフトウェア・プログラムによって実現されてもよい。例えば、汎用コンピュータにおけるＣＰＵと、ＲＡＭとＲＯＭなどおよびその中に実行するソフトウェア・コードを結合することによって実現される。ソフトウェア・プログラムはフラッシュメモリ、フロッピー（登録商標）ディスク、ハードディスク、コンパクトディスクなどのような記憶媒体上に記憶され、実行時にランダム・アクセス・メモリディスクＲＡＭのようなものにロードしＣＰＵによって実行される。また、汎用コンピュータ以外に、専用集積回路とソフトウェアとの協働によって実現されてもよい。前記集積回路は、例えば、ＭＰＵ（マイクロプロセッサ）、ＤＳＰ（デジタル・シグナル・プロセッサ）、ＦＰＧＡ（フィールド・プログラマブル・ゲート・アレイ）、ＡＳＩＣ（特定用途向け集積回路）などのうちの少なくとも１つによって実現されるものを含む。このような汎用コンピュータまたは専用集積回路などは、例えば、カメラのような撮像装置と通信可能であるため、カメラで撮影したカラー画像および／または立体画像への処理によって対象追跡結果の取得が可能になり、また、オプション的に、対象追跡結果による実行中のアプリケーションへの制御が可能になる。また、対象追跡装置１００の各部は専門的なハードウェアによって実現されてもよい。例えば、特定のフィールド・プログラマブル・ゲート・アレイ、特定用途向け集積回路などがある。また、対象追跡装置１００の各部はソフトウェアとハードウェアとの組み合わせによって実現されてもよい。

ここで、図２に示された矢印は２つのパーツの機能の間に論理関係が存在することを表すだけで、２つのパーツの間は、直接または間接に動作的に接続されてもよい。また、図２におけるある２つのパーツの間にある方向の矢印による接続が示されなくても、これは両者間に該方向の論理関係が必ず存在しないことを表すものではなく、逆に、両者間には動作的な接続関係が存在してもよい。例えば、対象位置決め部１７０及び目標テンプレート更新部１８０は、操作工程において画像入力部１１０から入力された１フレームまたは複数フレームの画像を利用する必要があり得ることから、対象位置決め部１７０と目標テンプレート更新部１８０と画像入力部１１０との間には論理関係が存在してもよい。

上記対象追跡装置１００における各単位の構造と数は、本発明の範囲への制限をなすものではない。本発明の１つの実施例によれば、上記画像取得部１１０、候補目標エリア予測部１２０、深度重み確定部１３０、目標テンプレート表示部１４０、候補目標表示部１５０、確信度マップ取得部１６０、対象位置決め部１７０は１つの独立の部に統合されて対応する機能及び操作を実現してもよく、または、画像取得部１１０、候補目標エリア予測部１２０、深度重み確定部１３０、目標テンプレート表示部１４０、候補目標表示部１５０、確信度マップ取得部１６０、対象位置決め部１７０をさらにより小さい単位に分割してその各々の機能及び動作を実現してもよい。

また、ここで、図２に示された構造は排他的なものではなく、逆に対象追跡装置１００は、他の部、例えば、例として対象位置決め部１７０の処理後の結果を表示するためのディスプレー部と、例えば、関連する情報および／または中間処理結果を外部へ伝達するための通信部などを含んでもよい。

３、対象追跡方法の第１実施例
以下、対象追跡装置１００の各部の機能及び動作例を詳細に説明する。以上のように、手を追跡対象として説明する。

図３は本発明の１つの実施例における対象追跡方法２００の全体フロー図である。

図３に示されたように、ステップＳ２１０において、画像取得部１１０はグレースケール画像シーケンスと、関連する深度画像シーケンスとを取得する。

例えば、両眼カメラ、多眼ケメラ、立体カメラによって画像を撮影し、次に画像取得部１１０に入力される。画像取得部１１０に入力された画像はＲＧＢカラー画像のみを含んでもよい。次に、画像取得部１１０は取得されたＲＧＢカラー画像（例えば、左画像と右画像）によってマッチング処理を行うことで深度画像を取得する。代わりに、ＲＧＢカラー画像のみでなく、関連する深度画像も含まれる画像シーケンスを画像取得部に入力してもよい。

好ましくは、ローカルにおいてカメラから画像を直接的に入力する代わりに、有線回線または無線回線によってリモートから画像を受信してもよい。

ここで、本明細書において、両眼カメラを立体ビデオカメラの例とする。しかし、本発明は他の種類の立体ビデオカメラ、例えば、赤外線を能動的に放射することによって立体情報を補助的に生成する立体ビデオカメラを応用してもよい。このようなビデオカメラの例では、マイクロソフトのＫｉｎｅｃｔ、他にも赤外線飛行時間（ＴｉｍｅｏｆＦｌｉｇｈｔ，ＴＯＦ）技術に基づく種類、または構造化照明（ｓｔｒｕｃｔｕｒｅｄｌｉｇｈｔ）に基づく種類などがある。

ステップＳ２２０において、現在のグレースケール画像と深度画像のうちの少なくとも１つから、追跡される対象の候補目標エリアを予測する。

追跡される対象の候補目標エリアを予測することで、以降の該予測された候補目標エリアにおける対象の捜索が可能になり、処理量の低減、追跡のリアルタイム性の向上が可能になり、同時にシステムのロバスト性を増強することができる。

例えば、対象の過去の運動情報、例えば速度、加速度などによって、入力画像における対象の候補出現エリアを予測する。

具体的に、例えば、局所範囲内の手の動きは等速移動に近似し、移動速度を予測根拠とすれば、現在の画像における、手の出現可能位置は、式（８）及び（９）によって求められる。現在、よく使用される予測方法はｋａｌｍａｎフィルター、粒子フィルターなどであり、本実施例では、任意の予測方法を用いてもよい。

式（１）中、（Ｓ_{ｘ，ｔ−１}，Ｓ_{ｙ，ｔ−１}）は前フレームにおける（ｔ−１時刻）手の位置ポイントの横座標と縦座標であり、（Ｓ_ｘ，ｔ，Ｓ_ｙ，ｔ）は現画像（ｔ時刻）における、手の出現可能な位置ポイントの横座標と縦座標である。Δｔは連続する２つのフレームの間の時間間隔である。式（２）は移動速度を計算する数式を示す。

もう１つの例において、位置エリアの予測は、さらに深度（奥行）に対する予測を含む。この場合は、上記式（１）及び（２）は、以下の式（３）及び（４）にそれぞれ変換する。

候補エリアの予測によって、処理時間を低減させるのみでなく、システムのロバスト性をも増強することができる。

ステップＳ２３０において、各画素の深度情報に基づき、該画素が追跡される対象に属する確率を表示する各画素の深度重み情報が含まれる候補目標エリアの深度重みマップを確定する。

該ステップは深度の視点から、各画素が追跡される対象に属する確率を推定することを目的とする。

１つの例示において、候補目標エリアの深度重みマップを確定することは、
まず、追跡される対象の現在フレームにおける代表的な深度値ｄｅｐｔｈ_{ｏｂｊｅｃｔ}を予測することと、
次に、下記式（５）によって候補目標エリアにおける画素ｉが追跡される対象に属する確率を計算すること、を含んでもよい。

式中、ｉは候補目標エリアに位置される画素の番号を表し、ｄｅｐｔｈ（ｉ）は画素ｉの深度値または画素ｉの局所エリアの平滑深度値を表し、ｍｉｎ（ｄｅｐｔｈ_{ｏｂｊｅｃｔ}，ｄｅｐｔｈ（ｉ））はｄｅｐｔｈ（ｉ）とｄｅｐｔｈ_{ｏｂｊｅｃｔ}におけるより小さい値を表し、ｍａｘ（ｄｅｐｔｈ_{ｏｂｊｅｃｔ}，ｄｅｐｔｈ（ｉ））はｄｅｐｔｈ（ｉ）とｄｅｐｔｈ_{ｏｂｊｅｃｔ}におけるより大きい値を表示する。ここで、画素ｉの局所エリアの平滑深度値は、ある状況でノイズの影響から、画素ｉ自身の深度値が該位置における実際の深度をリアルに正確に反映しない可能性があることを考慮し、この場合は画素ｉの周辺エリアにおける画素の深度値に基づいて画素ｉの深度値を平滑化することでノイズの影響を低減することができる。もう１つの例示において、下記式（６）によって候補目標エリアにおける画素ｉが追跡される対象に属する確率を計算してもよい。

式中、ｉは候補目標エリアに位置される画素の番号を表し、ｄｅｐｔｈ（ｉ）は画素ｉの深度値または画素ｉの局所エリアの平滑深度値を表し、ｈ^{ｄｅｐｔｈ}は中心点ｄｅｐｔｈ_{ｏｂｊｅｃｔ}に対する帯域幅を表し、ｋ（・）はカーネル関数、例えば、ガウス関数を表示する。

追跡される対象の現在フレームにおける代表的な深度値ｄｅｐｔｈ_{ｏｂｊｅｃｔ}を予測する方法の例示として、例えば、追跡される対象の直前のフレームまたは複数のフレーム画像における深度平均値を代表的な深度値ｄｅｐｔｈ_{ｏｂｊｅｃｔ}としてもよい。もう１つの例示において、追跡される対象の直前のフレームまたは複数のフレーム画像における値の採用頻度が最も高い深度値を代表的な深度値ｄｅｐｔｈ_{ｏｂｊｅｃｔ}としてもよい。もう１つの例示において、現在フレームの候補目標エリアにおける深度平均値を代表的な深度値ｄｅｐｔｈ_{ｏｂｊｅｃｔ}としてもよい。もう１つの例示において、現在フレームの候補目標エリアにおける値の採用頻度が最も高い深度値を代表的な深度値ｄｅｐｔｈ_{ｏｂｊｅｃｔ}としてもよい。

もう１つの例示において、前記式（３）における３番目の等式、式（４）における３番目の等式を利用するように歴史情報から得られた手の深度方向上の移動速度に基づいて手の現在フレームにおける深度値を推定することによって、代表的な深度値ｄｅｐｔｈ_{ｏｂｊｅｃｔ}としてもよい。

図４は候補目標空間エリアに対して算出された深度重みマップについての概要図である。

ステップＳ２４０において、特徴の確率密度分布で表される目標テンプレートを取得する。

１つの目標テンプレートに対して、各種の形式で表徴することが可能である。

例えば最も簡単には、グレースケール画像における各画素のＲＧＢ色特徴を利用して直接的に表示できる。即ちその表示は該目標テンプレートである。

１つの例示において、画素の特徴はＲＧＢ色特徴成分であり、または画像画素の値域はＲＧＢ色空間であると言う。

特徴空間における各特徴の確率密度分布で目標テンプレートを表示するため、１つの具体的な例示において、各特徴を離散化して特徴空間における特徴値の確率で目標テンプレートを表してもよい。

例えば、三次元ＲＧＢ特徴空間に対して、特徴空間をｍ個の空間柱（通常ｂｉｎと称されている）に分割する。例えば、Ｒ特徴における値の採用範囲をａ個の空間に、Ｇ特徴における値の採用範囲をｂ個の空間に、Ｂ特徴における値の採用範囲をｃ個の空間に分けると、ｍ＝ａ*ｂ*ｃ個のｂｉｎが得られる。即ち、特徴空間における特徴値の数（即ちｂｉｎの数である）はｍである。次に、各ｂｉｎの中に入る（あるいは、対応する特徴値を取る）画素の個数を合計することによって目標テンプレートを表徴してもよい。

関数ｂ（．）を、ｘ_ｉ（二次元空間における座標）に位置される画素を量子化された後の特徴空間における空間柱ｂｉｎに関連付けるためのエリア間の量子化関数とすると、１つの例示における目標テンプレートは、特徴空間における各特徴値ｕ＝１．．．ｍ（各空間柱とも言われる）の確率で表示できる。これは、下式（７）に示されたように、目標テンプレート表示または目標テンプレート記述と称される。

式中、Ｘ_０は目標エリアの中心位置を表し、一般的にはゼロとし、ｕは特徴値の番号であり、ｕ＝１．．．ｍ、ｍは上記のように特徴空間の特徴値における採用可能な値の総数を表し、ｑ_ｕは目標テンプレートの特徴空間のｕ番目の特徴値の確率であり、Ｎは目標テンプレートに対応するエリアの画素点の総数であり、ｉは候補目標における画素の番号であり、ｘ_ｉはｉ番目の画素の二次元座標であって、一般的には正規化された後の画素位置であるため、上記Ｘ_０は一般的にはゼロとし、ｈは中心点に対する帯域幅であって、目標テンプレートに対応するエリアの大きさを表し、Ｃ_ｑは正規化係数であり、ｂ（・）は前記のようにエリア間量子化関数を表し、δはＫｒｏｈｅｃｋｅｒｄｅｌｔａ関数を表し、ｂ（ｘ_ｉ）＝ｕになると、δの値は１となり、さもないとゼロとなり、ｖ（ｉ）はｉ番目の画素の深度重み値である。

ここで、正規化係数Ｃ_ｑは、下式（８）から算出されてもよい。

ｋ（・）は二次元空間情報を基づいて画素に対する重み付けを行うことを目的とする二次元空間重み付けカーネル関数を表示する。遮蔽または背景の影響によって、目標テンプレートの中心付近における画素が他の画素よりも信頼できると考えられるため、
（外１）
は中心の画素に対してより大きな重み値を付与しており、中心から離れた画素に対してより小さな重み値を付与する。１つの例示において、カーネル関数はガウス関数である。

このように、目標テンプレートの表示ｑ＝（ｑ_１，．．．，ｑ_ｕ，．．．，ｑ_ｍ）が算出される。

このカーネルに基づく対象追跡の技術及びテンプレート表示については２００３年「ＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎ（Ｖｏｌｕｍｅ：２５，Ｉｓｓｕｅ：５）」に発表された「Ｋｅｒｎｅｌ−ｂａｓｅｄｏｂｊｅｃｔｔｒａｃｋｉｎｇ」という表題の文献における紹介を参考できる。

ここで、前でＲＧＢ色特徴を例として対象画素の特徴の記述を説明したが、これは例に過ぎない。場合によって他の特徴を追加するか、他の特徴をＲＧＢ色特徴の代わりに用いてもよい。

例えば、１つの例示において、表示対象の各特徴はグレースケール情報における色特徴成分、グレースケール情報の勾配特徴成分、深度画像における勾配特徴成分を含む。この場合は、このような色特徴成分、グレースケール情報の勾配特徴成分、深度画像における勾配特徴成分の確率密度分布で目標テンプレートを表示できる。グレースケール情報における色特徴成分、グレースケール情報の勾配特徴成分、深度画像における勾配特徴成分が含まれる特徴集合に基づいて得られる目標テンプレートは、ＲＧＢ色特徴のみに基づいて得られる目標テンプレートに比べて、情報量がさらに豊かであり、勾配特徴成分は方向特徴のような手の輪郭特徴をさらに体現することができる。そのため、よりノイズの影響に対抗し、追跡の正確性を向上することが可能になる。

１つの例示において、特徴がグレースケール情報における色特徴情報、グレースケール情報の勾配特徴成分、深度画像における勾配特徴成分を含む場合において、前でＲＧＢを例に、離散化特徴によって特徴ヒストグラムを取得することを説明したように、各特徴を離散化してもよく、これにより、特徴空間における特徴値の確率を用いた目標テンプレートの表示が可能になる。例えば、Ｌ次元特徴空間を仮定し、次元ごとの特徴ｉ（ｉ＝１．．．Ｌ）の採用可能な値の範囲をｎ_ｉ個のエリアに分けて特徴空間をｍ個の空間柱（即ちｂｉｎ）に分割すれば、ｍ＝ｎ_１*ｎ_２，．．．*ｎ_ｉ，．．．*ｎ_Ｌ個のｂｉｎが得られる。その後、例えば、式（７）に基づいて各ｂｉｎの中に入る（あるいは、対応する特徴値を取る）画素の数を合計することによって目標テンプレートを表徴することができる。

目標テンプレートに対応するエリアについては、例えば、先頭フレームの中から手動で確定される１つの追跡目標を含むエリアであってもよく、例えば、矩形エリアまたは楕円エリアであってもよい。次に、該エリアにおける画素に対して、上記の分析合計処理を行うことによって目標テンプレートを取得し、且つ所定の保存エリアに保存する。

以降のフレームに対する追跡工程において、１つのエリアの大きさが目標テンプレートの大きさと同一の窓口を用いて、例えば、ステップＳ２２０から得られた候補目標エリアでスライドさせ、各窓口で枠が確定された候補目標と目標テンプレートとのマッチングを行うことで、目標の位置特定を行ってもよい。

位置特定が成功すると、最新の位置特定された候補目標に基づいて目標テンプレートを更新且つ保存することができる。

図３に戻り、ステップＳ２５０において、候補目標エリアに位置しスライドする候補目標を特徴の確率密度分布で表し、候補目標の特徴の確率密度を推定する工程において、画素ごとに画素の色空間情報のみでなく、画素の深度重み情報にも基づいて重み付けを行う。

前記のように、大きさが目標テンプレートと同じ窓口を候補目標エリア上にスライドさせ、窓口が位置特定されたエリアを候補目標とし、候補目標における画素を分析して、候補目標の表示を取得する。

以下、候補目標の表示の例を説明する。

候補目標に対する表示は目標テンプレートの表示と類似し、即ち、同様な特徴空間に対して、候補目標における確率密度分布を取得する。

ここでの重要なのは、候補目標の各特徴の確率密度を推定する工程において、画素ごとに画素の色空間情報のみでなく、画素の深度重み情報にも基づいて重み付けを行う。

候補目標の中心位置をｙとすれば、候補目標はｐ（ｙ）＝（ｐ_１（ｙ），．．．，ｐ_ｕ（ｙ），．．．，ｐ_ｍ（ｙ））を表示できる。

前記候補目標の特徴空間における特徴値の確率ｐ_ｕ（ｙ）は下の式（９）によって計算してもよい。

式中、前記のように、ｙは候補目標の中心位置を表し、ｕは特徴値の番号であり、ｕ＝１．．．ｍ、ｍは特徴空間の特徴値における採用可能な値の総数を表し、Ｐ_ｕ（ｙ）は候補目標における特徴空間のｕ番目の特徴値の確率であり、Ｎは候補目標の画素点の総数であり、ｉは候補目標における画素番号であり、ｘ_ｉはｉ番目の画素の二次元座標であり、ｈは中心点ｙに対する帯域幅であり、Ｃ_Ｐは正規化係数であり、ｂ（・）はエリア間量子化関数を表し、δはＫｒｏｎｅｃｋｅｒｄｅｌｔａ関数を表し、ｋ（・）は二次元空間重み付けカーネル関数を表し、ｖ（ｉ）はi番目の画素の深度重み付け値である。

ここでの深度重み付け値ｖ（ｉ）は前ステップＳ２３０において得られてもよい。例えば前式（５）または（６）に基づいて計算によって得られる。

本例示において、画素の深度重み付け値と二次元空間位置は同時に利用されて特徴空間における特徴値の確率計算中において該画素に対する重み付け処理を行って、深度情報を自然且つ緊密で対象追跡の中に結合させできる。それで現有技術のように深度情報を分離的で単独に考慮する、または深度情報のみをしきい値として不適当な目標候補のフィルター処理を行うのではない。

図３に戻れば、ステップＳ２６０において、目標テンプレートの確率密度表示と候補目標の確率密度表示に基づき、目標テンプレートと候補目標との類似度を計算することによって、候補目標エリアの確信度マップを取得する。

１つの例示において、目標テンプレートと候補目標を２つのｍ次元ベクトルを見なしてもよい。即ち、候補目標はｐ（ｙ）＝（ｐ_１（ｙ），．．．，ｐ_ｕ（ｙ），．．．，ｐ_ｍ（ｙ））であり、目標テンプレートはｑ＝（ｑ_１，．．．，ｑ_ｕ，．．．，ｑ_ｍ）である。次に、この２つのベクトル間のＢｈａｔｔａｃｈａｒｙｙａ係数に基づいて目標テンプレートと候補目標との間の類似度を計量する。具体的に、前記「Ｋｅｒｎｅｌ−ｂａｓｅｄｏｂｊｅｃｔｔｒａｃｋｉｎｇ」という表題の文献における技術を参考して、下記の式（１０）によって候補目標と目標テンプレートとの類似度を計算してもよい。

式（１０）は直観的な物理的意味を有する。即ち、ｍ次元ベクトル
（外２）
と
（外３）
との間に形成される角度の余弦値と見なしてもよく、この２つのベクトル間の相関性がある計量と見なしてもよい。

これでは、位置ｙにおける候補目標と目標テンプレートとの類似度を計算によって得られる。

このように、候補目標を選択するためスライドする窓口は候補目標エリア上にスライドさせること、即ち候補目標の位置ｙを変更することによって、各位置ｙにおける候補目標が得られる。次に各候補目標に対して上記ステップＳ２５０における動作のように候補目標表示が得られ、且つ目標テンプレートと候補目標との間の類似度がさらに計算によって得られる。このように循環して、候補目標エリアを辿り終了まで、候補目標エリアの確信度マップを求め可能である。各位置の確信度は各位置が現在フレームにおける目標位置である可能性を反映する。

図３に戻れば、ステップＳ２７０において、候補目標エリアの確信度マップに基づいて、追跡される対象の現在の画像における位置を特定する。

下で式（１０）の類似度関数に基づく追跡目標を位置決め工程を例として説明する。

現在フレームの候補目標エリアにおいて目標の１つの開始点を検索して、ｙ_０と仮定する。ｙ_０は、例えば、候補目標エリアにおける左上隅の点の位置、または候補目標エリアにおける中心点の位置などであってもよい。これではテイラー展開に基づいて、式（１０）は式（１１）と表してもよい。

式（７）及び（９）を式（１１）に代入して式（１２）が得られる。
式中、

そのため、候補目標と目標テンプレートとの間の類似度を最大化しようとすれば、式（１１）における第２項を最大化すべきである。

ここで、平均シフト方法によって位置ｙ０から位置ｙ１まで再帰的に移動させ、次に辿り処理を行い、候補目標と目標テンプレートとの間の類似度が最大化された候補目標エリアにおける位置ポイントを見つけて対象が現在フレームにおける位置点としてもよい。

前記例示における対象追跡方法が候補目標の各特徴の確率密度を推定する工程において、画素ごとに画素の色空間情報のみでなく、画素の深度重み情報にも基づいて重み付けを行いており、従来技術における深度情報を分離的で単独に検討することまたは深度情報のみをしきい値として不適当な目標候補のフィルター処理を行うことに比べると、全追跡工程において深度情報を対象追跡に自然且つ緊密で結合できることによって、情報の利用率を高めて追跡の正確性を高める。追跡対象は周囲背景の色と完全な相似である場合にも、対象を正確に追跡できる。

ここで、図４に示されたステップ順序は例示のみであって、実際的に、図４に示された順序に従って動作を行わなくてもよい、例えば、画素の深度重み情報を確定するステップ（ステップＳ２３０）はステップＳ２５０において行われてもよい。

４、対象追跡方法の第２実施例
前記対象追跡方法の第１実施例において、目標テンプレート及び候補目標は対象の全体に対応する。下での第２実施例における対象追跡方法において、目標テンプレート及び候補目標をブロック分けて複数のサブ目標テンプレート及び候補目標が得られ、且つブロック分けの１つのペア（即ちサブ目標テンプレートと対応するサブ候補目標である）に対して、第１実施例における対象追跡方法によって両者の類似度を計算し、且つ各サブテンプレートと対応するサブ候補目標の類似度に基づいて目標テンプレートと候補目標との間の類似度が得られる。

具体的に、１つの例示において、目標テンプレートは各サブテンプレートから成る。候補目標に対して、目標テンプレートを各サブ目標テンプレートに分ける手段に従って、候補目標を各サブ候補目標に分割する。

図５（ａ）および（ｂ）は、ブロック分け例示図に対して、如何にサブテンプレートを追跡することより候補追跡エリアに対して分け処理を行うことを概要的に説明した。図５（ａ）は手の追跡テンプレートであって、該追跡テンプレートは６つの大きさの等しいサブテンプレートから構成される。これは１つの例示のみであって、サブテンプレートの数の設定は追跡オブジェクトの特性によって異なってもよい。（ｄｘ，ｄｙ）は各サブテンプレートの中心点（数字１で示された点）と追跡テンプレートの中心点（数字２で示された点）との間の距離オフセットを表示する。（ｄｘ，ｄｙ）の関係式によって、図５（ｂ）において候補目標（図５（ｂ）において候補目標エリアに位置される点線枠で示された部分）をサブテンプレートに対応する複数のサブエリアブロックに分けてもよい。

１つの例示において、前記全体の目標テンプレート及び候補目標に対する処理と類似しており、各サブテンプレート及び各サブ候補目標に対して、各特徴的な確率でそれぞれ表してもよい。各特徴値の確率は関連するエリアにおける該特徴値を採用する画素の数を合計することによって推定され、サブ候補目標における各特徴値の確率を推定する工程において、画素ごとに画素の色空間情報のみでなく、画素の深度重み情報にも基づいて重み付けを行う。

例えば、このとき、サブ目標テンプレートｔの特徴の確率密度を下での式（１４）によって計算してもよい。

式中、ｔはサブ目標テンプレートの番号であり、ｕは特徴値の番号であり、ｕ＝１．．．ｍ、ｍは特徴空間の特徴値における採用可能な値の総数を表し、ｑ_ｕ ^ｔはサブ目標テンプレートにおけるｕ番目の特徴値の確率であり、Ｎ^ｔはサブ目標テンプレートｔの画素点の総数であり、ｉはサブ目標テンプレートｔにおける画素の番号であり、ｘ_ｉ ^ｔはサブ目標テンプレートｔにおける画素ｉの二次元座標であり、ｈ^ｔは中心点ｘ_０ ^ｔに対する帯域幅であり、Ｃ_ｑ ^ｔは正規化係数であり、ｂ（・）はエリア間量子化関数を表し、δはＫｒｏｎｅｃｋｅｒｄｅｌｔａ関数を表し、ｋ（・）は二次元空間重み付けカーネル関数を表示する。

サブ候補目標ｔの特徴の確率密度を下での式（１５）によって計算してもよい。

式中、ｔはサブ候補目標の番号であり、ｙ^ｔはサブ候補目標ｔの中心位置を表し、ｕは特徴値の番号であり、ｕ＝１．．．ｍ、ｍは特徴空間の特徴値における採用可能な値の総数を表し、Ｐ_ｕ ^ｔ（ｙ^ｔ）はサブ候補目標におけるｕ番目の特徴値の確率であり、Ｎ^ｔはサブ候補目標ｔの画素点の総数であり、ｉはサブ候補目標ｔにおける画素の番号であり、ｘ_ｉ ^ｔはサブ候補目標ｔにおける画素ｉの二次元座標であり、ｈ^ｔは中心点ｙ^ｔに対する帯域幅であり、Ｃ_Ｐ ^ｔは正規化係数であり、ｂ（・）はエリア間量子化関数を表し、δはＫｒｏｎｅｃｋｅｒｄｅｌｔａ関数を表し、ｋ（・）は二次元空間重み付けカーネル関数を表し、ｖ（ｉ^ｔ）はサブ候補目標ｔにおける画素iの深度重み付け値である。

その後、サブ目標テンプレートｑ_ｕ ^ｔと対応するサブ候補目標ｐ_ｕ ^ｔ（ｙ^ｔ）の確率密度表示に基づいて、サブ目標テンプレートｑ_ｕ ^ｔと対応するサブ候補目標ｐ_ｕ ^ｔ（ｙ^ｔ）との間の類似度ρ^ｔを計算する。計算方法は前文に第１実施例の対象追跡方法における目標テンプレートと候補目標との類似度を計算することについての方法と一致させてもよいが、ここで贅述しない。

各サブ目標テンプレートｑ_ｕ ^ｔと対応するサブ候補目標ｐ_ｕ ^ｔ（ｙ^ｔ）との間の類似度に基づいて、候補目標と目標テンプレートとの間の類似度ρ（ｙ）を計算する。

１つの例示において、候補目標と目標テンプレートとの間の類似度ρ（ｙ）を式（１６）の方法によって計算してもよい。

式中、ｔはサブ目標テンプレート及びサブ候補目標の番号を表し、Ｓはサブ目標テンプレート及びサブ候補目標の個数を表し、λは各サブエリアの重み値を表して、サブエリアが目標追跡結果に対して奏される作用の重要度を表徴し、１つの例示において、
と設置してもよいが、これは必要ではなく、ρ^ｔはサブ目標テンプレートｑ_ｕ ^ｔと対応するサブ候補目標ｐ_ｕ ^ｔ（ｙ^ｔ）との間の類似度を表示する。

第１実施例と類似して、窓口が候補目標エリアにおけるスライドによって候補目標の位置を変換して、各位置の候補目標が得られ、次に該候補目標に対する分け処理を行ってサブ候補目標が得られ、サブ候補目標に対する確率密度表示を行ってサブ候補目標と目標テンプレートとの間の類似度を計算して、さらに候補目標と目標テンプレートとの間の類似度が得られる。このように循環して行い、全体の候補目標エリアを辿って、候補目標エリアの確信度マップが得られる。確信度マップ上には、前景エリア（目標オブジェクト）上における画素点がより大きい確信度値を有するが、背景エリアにおける画素点がより小さい確信度値を有する。そのため、確信度マップ上における最大確率分布点を検索することによって現在フレームにおける目標位置が得られる。

図６（ａ）乃至（ｇ）は、ブロック分けと深度重み付けに基づく対象追跡方法を概要的に説明した概要図である。（ａ）は候補目標エリアにおけるグレースケール画像を示しており、数字１は候補目標を示して点線は該候補目標の分けを示し、（ｂ）は該候補目標エリアにおける深度画像を示し、（ｃ）は色特徴と勾配特徴が含まれるグレースケール画像から得られた特徴を示し、（ｄ）は得られた候補目標エリアにおける深度重みマップを示し、（ｅ）は目標テンプレートのグレースケール画像、及び目標テンプレートの分け指示、得られた各サブ目標テンプレート表示で得られた目標テンプレートを表し、（ｆ）は得られた候補目標エリアにおける確信度マップを示し、（ｇ）は候補目標エリアにおける位置特定された手の位置ポイントを示した。

第２実施例における方法を利用して、目標テンプレートと候補目標に対する分け処理を行っており、各サブ候補目標の重み値は異なってもよい。１つの例示において、歴史情報による前のサブ候補目標とサブ目標テンプレートとの間の類似度はより低いであれば、該サブ候補目標に対してより低い重み値を設置してもよい。このように、例えば、あるブロックが遮蔽される状況において、該ブロックとサブ目標テンプレートとの間の類似度はより低くて、さらに該ブロックの重み値はより低く設置されるため、遮蔽エリアが全体の候補目標と目標テンプレートとの間の類似度に対する影響を降下できる。また、サブ候補目標の確率密度表示を計算するとき、画素の深度重み情報を自然で緊密に融合させ、それによってあるブロックの深度と予測された手の深度との差がより大きい場合、該ブロックにおける画素に対してより低い深度重み付けを与える。それによって該ブロックが手に対応するブロックに属する確率がより低いであることを評価したため、局所遮蔽が手追跡に対する影響を降下する。第２実施例における深度重み付けを緊密に融合させてブロック分けに基づくことを併せての追跡方法を利用して、例え追跡対象が周囲背景の色と十分に相似し且つ局所遮蔽が存在する状況においても、対象を正確に追跡できる。

５、対象追跡方法の第３実施例
対象追跡方法の第３実施例においては、さらに目標テンプレートを更新するステップを含む。

１つの例示において、目標テンプレートと候補目標に対するブロック分け処理を行わない場合、そして更新条件を満足する場合は、下記式（１７）によって目標テンプレートに対する更新を行う。

式中、ｑ_ｆは更新された後の目標テンプレートであり、ｑ_ｆ-１は前フレームの後に得られた目標テンプレート（即ち現在フレームにおいて目標を検索中に使用される目標テンプレートである）であり、ｐ_ｃｕｒは現在フレームにおいて位置特定された候補目標の確率密度表示であり、αは調整係数で、１≧α≧０を満足する。１つの例示において、目標テンプレートと候補目標との類似度が所定のしきい値より低くなった場合は、目標テンプレートに対する更新を行わない。即ちα＝０である。もう１つの例示においては、目標テンプレートと候補目標との類似度が大きくなるほど、αが大きくなる。

もう１つの例示において、目標テンプレートと候補目標に対するブロック分け処理を行う場合は、各サブ目標テンプレートを独立に更新することが含む、目標テンプレートの更新を行う、ここでは、位置特定されたサブ候補目標が所定の更新条件を満足する場合のみ、該サブ候補目標を利用して対応するサブ目標テンプレートを更新する。

例えば、ｋ番目のサブテンプレートは、下の式（１８）によって更新することができる。

式中、ｑ_ｆ ^ｋは更新された後のサブ目標テンプレートｋであり、ｑ^ｋ _ｆ-１は前フレームの後に得られた目標テンプレート（即ち現在フレームにおいて目標を検索中に使用されるサブ目標テンプレートである）であり、ｐ^ｋ _ｃｕｒは現在フレームにおいて位置特定されたサブ候補目標の確率密度表示であり、αは調整係数で、１≧α≧０である。１つの例示において、サブ目標テンプレートとサブ候補目標との類似度が所定のしきい値（例えば、０．５である）より低くなる場合は、サブ目標テンプレートに対する更新を行わない。即ちα＝０である。もう１つの例示においては、サブ目標テンプレートとサブ候補目標との類似度が大きくなるほど、αが大きくなる。

本例示において、手追跡テンプレートの更新は、全体テンプレートの更新によって行われるものではなく、各サブテンプレートに対する更新をそれぞれ行うことによって行われる。サブテンプレートの更新工程は独立に行われる。

図７では、（ａ）が目標テンプレートの分割、および目標テンプレートとサブ目標テンプレートとの間の関係を概要的に説明し；（ｂ）がサブ目標テンプレートの独立更新を概要的に説明した図である。図７（ｂ）において、候補目標上に部分的な遮蔽が出現するため、該遮蔽エリアに対応するブロックとサブ目標テンプレートとの間の類似度はより低くなる。所定のしきい値より低くなれば、該サブ候補目標に基づいて対応するサブ目標テンプレートを更新しない。このように、遮蔽オブジェクトによって生み出されたノイズは追跡テンプレートに引き込まれないため、追跡シフト現象を効果的に阻止する。

もう１つの例示においては、各サブテンプレートに対応する重み係数λの更新も必要となり、（ｔ＋１）時刻（即ち現在時刻後の時刻である）に、前記ｋ番目のサブテンプレートが使用される重み係数λは、式（１９）による計算によって得られる。

式（１９）中、ρはサブ目標テンプレートとサブ候補目標との間の類似度であり、βは１つの比例調整係数である。これによって、現在時刻におけるサブ候補目標とサブ目標テンプレートとの類似度に基づいて、サブ目標テンプレートの重み係数を調整し、次の時刻の使用に供することができる。

一般的な状況において、追跡目標上に部分的な遮蔽が出現する場合、遮蔽された部分は目標の追跡に対して悪い影響を与えるが、本発明の実施例はブロック分け及び重み付けの手段を採用して部分的な遮蔽から与えられる悪い影響を効果的に防止できる。追跡目標の表面に部分的な遮蔽が出現する場合、該部分の信頼性は図７（ｂ）に示されたようにより低くなる。そのため、類似度計算によって得られる該部分に対する重み値は低下し、該部分の追跡結果の全体の目標の追跡結果への影響は少なくなる。手が遮蔽オブジェクトを通り抜けた場合、元々遮蔽された部分の重み係数が再び上昇する。このため、追跡工程において、例え追跡オブジェクト上に部分的な遮蔽が出現したとしても、追跡結果に影響を及ぼすことはない。

以上のことから、サブ候補目標とサブ目標テンプレートとの類似度が低くなる場合、該サブ候補目標に基づいたサブ目標テンプレートの更新を行わないのみならず、同時にサブ目標テンプレートの重み係数て低下することにより、部分的な遮蔽の追跡への影響を効果的に低減することができる。

６、対象追跡を行うためのコンピュータシステム
本発明は、さらに１つの対象追跡を行うためのコンピュータシステムによって実施されてもよい。図８は、本発明の実施形態を実現するために適用する例示性コンピュータシステム６００のブロック図である。図８に示されたように、コンピュータシステム６００は、ＣＰＵ（中央処理装置）６０１、ＲＡＭ（ランダム・アクセス・メモリディスク）６０２、ＲＯＭ（読出専用メモリー）６０３、バスシステム６０４、ハードディスク制御部６０５、キーボード制御部６０６、シリアルインターフェース制御部６０７、パラレルインターフェース制御部６０８、ディスプレー制御部６０９、ハードディスク６１０、キーボード６１１、シリアル周辺機器６１２、パラレル周辺機器６１３及びディスプレー６１４を含んでもよい。これらの装置において、バスシステム６０４と連結されるものは、ＣＰＵ６０１、ＲＡＭ６０２、ＲＯＭ６０３、ハードディスク制御部６０５、キーボード制御部６０６、シリアルインターフェース制御部６０７、パラレルインターフェース制御部６０８及びディスプレー制御部６０９である。ハードディスク６１０はハードディスク制御部６０５に、キーボード６１１はキーボード制御部６０６に、シリアル周辺機器６１２はシリアルインターフェース制御部６０７に、パラレル周辺機器６１３はパラレルインターフェース制御部６０８に、ディスプレー６１４はディスプレー制御部６０９にそれぞれ連結する。理解すべきなのは、図８に示された構成ブロック図は例示が目的であり、本発明への限定をなすものではない。また、場合によっては、装置の増減も可能である。

当業者にとっては、本発明はシステム、装置、方法またはコンピュータプログラム製品として実現されてもよい。そのため、本発明は以下の形式として具体的に実現されてもよい。即ち、完全なハードウェアでも、完全なソフトウェア（ファームウェア、常駐ソフトウェア、マイクロコード）でもよく、または、ハードウェアとソフトウェアを組み合わせた形式でもよい。本文においては、一般的に「回路」、「モジュール」、「装置」または「システム」と称している。なお、一部の実施例において、本発明は１つまたは複数のコンピュータ読取可能な媒体におけるコンピュータプログラム製品の形式として実現されてもよい。該コンピュータ読取可能な媒体にはコンピュータ読取可能なプログラムコードが含まれる。

１つまたは複数のコンピュータ読取可能な媒体の任意の組み合わせを用いてもよい。コンピュータ読取可能な媒体はコンピュータ読取可能な信号媒体またはコンピュータ読取可能な記憶媒体であってもよい。コンピュータ読取可能な記憶媒体は電気、磁気、電磁気、光、赤外線または半導体のシステム、装置または部品、または任意の以上の組み合わせであってもよいが、これらに限定されない。コンピュータ読取可能な記憶媒体のさらに具体的な例（網羅的なリストではない）は、１つまたは複数のリード線による電気接続、携帯式コンピュータディスク、ハードディスク、ランダム・アクセス・メモリディスク（ＲＡＭ）、読出専用メモリー（ＲＯＭ）、消去・プログラム可能な読取専用メモリー（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバー、携帯式コンパクトディスク型読取専用メモリー（ＣＤ−ＲＯＭ）、光記憶部品、磁気記憶部品、または上述の任意の適切な組み合わせを含む。本文において、コンピュータ読取可能な記憶媒体はプログラムが含まれる、または記憶されるいかなる物理媒体であってもよい。該プログラムは指令実行のシステム、装置または部品より使用され、またはそれらを併せて使用されてもよい。

コンピュータ読取可能な信号媒体は、コンピュータ読取可能なプログラムコードが載せられた、ベースバンド伝送されるか、搬送波の一部として伝達されるデータ信号を含んでもよい。この伝達されるデータ信号は各種形式を用いることができ、電磁気信号、光信号またはこれらの組み合わせを含んでもよいが、この限りではない。コンピュータ読取可能な信号媒体は、コンピュータ読取可能な記憶媒体以外のいかなるコンピュータ読取可能な媒体であってもよい。該コンピュータ読取可能な媒体は、指令実行のシステム、装置または部品より使用されるまたはそれらを併せて使用されるプログラムを送信、伝達または伝送してもよい。

コンピュータ読取可能な媒体上に含まれるプログラムコードは、いかなる適切な媒体によって伝送されてもよい。該媒体は、無線、電線、光ケーブル、ＲＦなど、または上述の任意の適切な組み合わせを含んでもよいが、この限りではない。
１種または多種のプログラミング言語またはその組み合わせによって本発明の動作を実行するためのコンピュータプログラムコードを作成してもよい。前記プログラミング言語は対象指向プログラミング言語、例えば、Ｊａｖａ（登録商標）、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋、を含み、また通常の手続き型プログラミング言語、例えば、「Ｃ」言語または類似するプログラミング言語を含む。プログラムコードはユーザーのコンピュータにおいて完全に実行されてもよく、ユーザーのコンピュータにおいて部分的に実行されてもよく、１つの独立したパッケージソフトウェアとして実行されてもよく、一部分がユーザーのコンピュータにおいて、一部分がリモートコンピュータにおいて実行されてもよく、またはリモートコンピュータまたはサーバーにおいて完全に実行されてもよい。リモートコンピュータに関わる場合において、リモートコンピュータはローカルエリア・ネットワーク（ＬＡＮ）または広域ネットワーク（ＷＡＮ）を含む任意の種類のネットワークによってユーザーのコンピュータに接続してもよく、または、外部コンピュータ（例えば、インターネットサービス業者を利用してインターネットによって接続する）に接続してもよい。

以上、本発明の実施例における方法、装置（システム）及びコンピュータプログラム製品のフロー図および／またはブロック図を参照して本発明を説明したが、フロー図および／またはブロック図の各四角枠及びフロー図および／またはブロック図の各四角枠の組み合わせは、いずれもコンピュータプログラム指令によって実現可能である。これらのコンピュータプログラム指令は汎用コンピュータ、専用コンピュータまたは他のプログラミング可能なデータ処理装置のプロセッサに提供されて１つの機器を生成する。これらのコンピュータプログラム指令はコンピュータまたは他のプログラミング可能なデータ処理装置によって実行されて、フロー図および／またはブロック図における四角枠の中の所定の機能／動作を実現する装置を生成する。

これらのコンピュータプログラム指令をコンピュータまたは他のプログラミング可能なデータ処理装置が特定な方式で動作可能なコンピュータ読取可能な媒体に記憶させてもよい。これにより、コンピュータ読取可能な媒体に記憶される指令は１つのフロー図および／またはブロック図における四角枠の中の所定の機能／動作を実現する指令装置（ｉｎｓｔｒｕｃｔｉｏｎｍｅａｎｓ）を含む製造品（ｍａｎｕｆａｃｔｕｒｅ）を生成する。

コンピュータ、他のプログラミング可能なデータ処理装置や、他の装置に一連の動作手順を実行し、コンピュータ実現の工程を生成するように、コンピュータプログラム指令をコンピュータ、他のプログラミング可能なデータ処理装置や、他の装置にロードしてもよい。それによって、コンピュータまたは他のプログラミング可能なデータ処理装置に実行される指令により、フロー図および／またはブロック図における四角枠の中の所定の機能／動作を実現する工程が提供される。

前述の説明は説明性的なものに過ぎず、複数の修正および／または差し替えを行ってもよい。

例えば、前の説明において、追跡対象の例は手であるが、これは例に過ぎず、追跡対象は、人の顔、人体全体、他の移動可能なオブジェクトなどであってもよい。

また、例えば、前の説明において、色特徴とグレー特徴を例として特徴評価、特徴選択及びテンプレート構成を説明した。しかし、これは例示のみである。実際的に、採用される特徴に対する制限がなく、形状特徴、輪郭特徴、面積特徴などであってもよい。

また、例えば、前の説明において、特徴の特徴値を離散化させることによって特徴値の確率の計算を説明したが、連続的な値の特徴の確率密度が求められる場合、連続的な値の特徴の確率密度を適用してもよい。

図面におけるフロー図及びブロック図は本発明の複数の実施例におけるシステム、方法及びコンピュータプログラム製品の実現可能な体系構造、機能及び動作を表したものであり、この点において、フロー図またはブロック図における各四角枠は１つのモジュール、プログラムセグメントまたはコードの一部分を代表してもよい。前記モジュール、プログラムセグメントまたはコードの一部分は１つまたは複数の規定される論理的な機能を実現するための実行可能な指令を含む。ここで、幾つかの差し替えとしての実現において、四角枠に表示される機能は図面に表示される手順と異なるものによって発生されてもよい。例えば、実際には２つの連続する四角枠が基本的に並行して実行されてもよく、場合によっては逆の手順によって実行されてもよい。これは関わる機能によって決められる。また、ここで、フロー図および／またはブロック図の各四角枠、及びフロー図および／またはブロック図の各四角枠の組み合わせは、所定の機能または動作を実行する専用のハードウェアによるシステムで実現されてもよく、または専用ハードウェアとコンピュータ指令を併せて実現されてもよい。

以上、本発明の各実施例を説明したが、前述の説明は例示に過ぎず、網羅的なものではなく、開示された各実施例に限定されるものではない。説明された各実施例の範囲及び発想を逸脱しない範囲内の、各種修正及び変更は当業者に自明である。本文に使用される技術用語の選択は、各実施例の原理、実際の応用または市場における技術に対する改善を好適的に解釈すること、または当業者が本文に開示された各実施例を理解させることを目的とする。

Claims

グレースケール画像シーケンスと、関連する深度画像シーケンスとを取得するステップと、
現在のグレースケール画像と深度画像のうちの少なくとも１つから、追跡される対象の候補目標エリアを予測するステップと、
各画素の深度情報に基づき、該画素が追跡される対象に属する確率を表示する各画素の深度重み情報が含まれる、候補目標エリアの深度重みマップを確定するステップと、
特徴の確率密度分布で表される目標テンプレートを取得するステップと、
候補目標エリアに位置しスライドする候補目標を特徴の確率密度分布で表し、候補目標の特徴の確率密度を推定する工程において、画素ごとに、画素の色空間情報と、画素の深度重み情報とに基づいて重み付けを行うステップと、
目標テンプレートの確率密度表示と候補目標の確率密度表示に基づき、目標テンプレートと候補目標との類似度を計算することによって、候補目標エリアの確信度マップを取得するステップと、
候補目標エリアの確信度マップに基づいて、追跡される対象の現在の画像における位置を特定するステップと、を含む、対象追跡方法。
前記候補目標の特徴空間の特徴値の確率は、下記の数式、
（式中、ｙは候補目標の中心位置を表し、ｕは特徴値の番号であり、ｕ＝１．．．ｍ、ｍは特徴空間の特徴値における採用可能な値の総数を表し、Ｐ_ｕ（ｙ）は候補目標における特徴空間のｕ番目の特徴値の確率であり、Ｎは候補目標の画素点の総数であり、ｉは候補目標における画素番号であり、ｘ_ｉはｉ番目の画素の二次元座標であり、ｈは中心点ｙに対する帯域幅であり、Ｃ_Ｐは正規化係数であり、ｂ（・）はエリア間量子化関数を表し、δはＫｒｏｎｅｃｋｅｒｄｅｌｔａ関数を表し、ｋ（・）は二次元空間重み付けカーネル関数を表し、ｖ（ｉ）はi番目の画素の深度重み付け値である）
によって計算することを特徴とする請求項１に記載の対象追跡方法。
目標テンプレートは各サブテンプレートから構成され、
候補目標に対し、目標テンプレートを各サブ目標テンプレートに分割する形式で、候補目標を各サブ候補目標に分割し、
各サブテンプレート及び各サブ候補目標をそれぞれ各特徴値の確率で表し、各特徴値の確率は関連するエリアにおける該特徴値を採用した画素の数を集計することによって推定し、サブ候補目標の各特徴値の確率を推定する工程において、画素ごとに、画素の色空間情報のみでなく、画素の深度重み情報にも基づいて重み付けを行い、
サブ目標テンプレートと、対応するサブ候補目標との確率密度表示に基づいて、サブ目標テンプレートと対応するサブ候補目標との類似度を計算し、及び、
各サブ候補目標と各サブ目標テンプレートとの類似度に基づいて、候補目標と目標テンプレートとの類似度を計算する、ことを特徴とする請求項１に記載の対象追跡方法。
前記サブ候補目標の特徴の確率密度は、下記の数式
（式中、ｔはサブ候補目標の番号であり、ｙ^ｔはサブ候補目標ｔの中心位置を表し、ｕは特徴値の番号であり、ｕ＝１．．．ｍ、ｍは特徴空間の特徴値における採用可能な値の総数を表し、Ｐ_ｕ ^ｔ（ｙ^ｔ）はサブ候補目標におけるｕ番目の特徴値の確率であり、Ｎ^ｔはサブ候補目標ｔの画素点の総数であり、ｉはサブ候補目標ｔにおける画素の番号であり、ｘ_ｉ ^ｔはサブ候補目標ｔにおける画素ｉの二次元座標であり、ｈ^ｔは中心点ｙ^ｔに対する帯域幅であり、Ｃ_Ｐ ^ｔは正規化係数であり、ｂ（・）はエリア間量子化関数を表し、δはＫｒｏｎｅｃｋｅｒｄｅｌｔａ関数を表し、ｋ（・）は二次元空間重み付けカーネル関数を表し、ｖ（ｉ^ｔ）はサブ候補目標ｔにおける画素ｉの深度重み付け値である）
によって計算することを特徴とする請求項３に記載の対象追跡方法。
前記候補目標エリアの深度重みマップを確定するステップは、
追跡される対象の現在フレームにおける代表的な深度値ｄｅｐｔｈ_{ｏｂｊｅｃｔ}を予測することと、
下記の数式
（式中、ｉは候補目標エリアに位置される画素の番号を表し、ｄｅｐｔｈ（ｉ）は画素ｉの深度値または画素ｉの局所エリアの平滑深度値を表し、ｍｉｎ（ｄｅｐｔｈ_{ｏｂｊｅｃｔ}，ｄｅｐｔｈ（ｉ））はｄｅｐｔｈ（ｉ）とｄｅｐｔｈ_{ｏｂｊｅｃｔ}におけるより小さい値を表し、ｍａｘ（ｄｅｐｔｈ_{ｏｂｊｅｃｔ}，ｄｅｐｔｈ（ｉ））はｄｅｐｔｈ（ｉ）とｄｅｐｔｈ_{ｏｂｊｅｃｔ}におけるより大きい値を表示する）
によって、候補目標エリアにおける画素iの追跡される対象に属する確率を計算することと、を含む、ことを特徴とする請求項１に記載の対象追跡方法。
前記候補目標エリアの深度重みマップを判断するステップは、
追跡される対象の現在フレームにおける代表的な深度値ｄｅｐｔｈ_{ｏｂｊｅｃｔ}を予測することと、
下記の数式
（式中、ｉは候補目標エリアに位置される画素の番号を表し、ｄｅｐｔｈ（ｉ）は画素ｉの深度値または画素ｉの局所エリアの平滑深度値を表し、ｈ^{ｄｅｐｔｈ}は中心点ｄｅｐｔｈ_{ｏｂｊｅｃｔ}に対する帯域幅を表示する）
によって、候補目標エリアにおける画素iの追跡される対象に属する確率を計算することと、を含む、ことを特徴とする請求項１に記載の対象追跡方法。
前記各サブ候補目標と各サブ目標テンプレートとの類似度に基づいて候補目標と目標テンプレートとの類似度を計算するステップにおいて、各サブ目標テンプレートが対応する重み係数を有しており、
前記対象追跡方法は、さらに、サブ候補目標とサブ目標テンプレートとの類似度に基づいて、サブ目標テンプレートに対応する重み係数を更新することを含む、ことを特徴とする請求項５または請求項６に記載の対象追跡方法。
前記表示対象の各特徴は、グレースケール情報における色特徴成分、グレースケール情報の勾配特徴成分、深度画像における勾配特徴成分を含む、ことを特徴とする請求項１に記載の対象追跡方法。
候補目標エリアの確信度マップに基づいて、追跡対象の現在の画像における位置を特定後に、
位置特定されたサブ候補目標が所定の更新条件を満足した場合のみ、該サブ候補目標を利用して対応するサブ目標テンプレートを更新する、独立に各サブ目標テンプレートを更新するステップを含む、目標テンプレート更新ステップをさらに含むことを特徴とする請求項３に記載の対象追跡方法。
対象追跡装置であって、
グレースケール画像シーケンスと、関連する深度画像シーケンスとを取得する画像取得部と、
現在のグレースケール画像と深度画像のうちの少なくとも１つから、追跡される対象の候補目標エリアを予測する候補目標エリア予測部と、
各画素の深度情報に基づき、該画素の追跡される対象に属する確率を表示する各画素の深度重み情報が含まれる候補目標エリアの深度重みマップを確定する深度重み確定部と、
特徴の確率密度で表される目標テンプレートを取得するための目標テンプレート取得部と、
候補目標エリアに位置しスライドする候補目標を特徴の確率密度で表示し、候補目標の特徴の確率密度を推定する工程において、画素ごとに、画素の色空間情報のみでなく、画素の深度重み情報にも基づいて重み付けを行う候補目標表示部と、
目標テンプレートの確率密度表示と候補目標の確率密度表示に基づき、目標テンプレートと候補目標との類似度を計算することによって、候補目標エリアの確信度マップを取得する確信度マップ取得部と、
候補目標エリアの確信度マップに基づいて、追跡される対象の現在の画像における位置を特定する対象位置決め部と、を含む、対象追跡装置。
前記候補目標の特徴空間の特徴値の確率は、下記の数式、
（式中、ｙは候補目標の中心位置を表し、ｕは特徴値の番号であり、ｕ＝１．．．ｍ、ｍは特徴空間の特徴値における採用可能な値の総数を表し、Ｐ_ｕ（ｙ）は候補目標における特徴空間のｕ番目の特徴値の確率であり、Ｎは候補目標の画素点の総数であり、ｉは候補目標における画素番号であり、ｘ_ｉはｉ番目の画素の二次元座標であり、ｈは中心点ｙに対する帯域幅であり、Ｃ_Ｐは正規化係数であり、ｂ（・）はエリア間量子化関数を表し、δはＫｒｏｎｅｃｋｅｒｄｅｌｔａ関数を表し、ｋ（・）は二次元空間重み付けカーネル関数を表し、ｖ（ｉ）はi番目の画素の深度重み付け値である）
によって計算することを特徴とする請求項１０に記載の対象追跡装置。
目標テンプレートは各サブテンプレートから構成され、
候補目標に対し、目標テンプレートを各サブ目標テンプレートに分割する形式で、候補目標を各サブ候補目標に分割し、
各サブテンプレート及び各サブ候補目標をそれぞれ各特徴値の確率で表し、各特徴値の確率は関連するエリアにおける該特徴値を採用した画素の数を集計することによって推定し、サブ候補目標の各特徴値の確率を推定することにおいて、画素ごとに、画素の色空間情報のみでなく、画素の深度重み情報にも基づいて重み付けを行い、
サブ目標テンプレートと、対応するサブ候補目標との確率密度表示に基づいて、サブ目標テンプレートと対応するサブ候補目標との類似度を計算し、及び、
各サブ候補目標と各サブ目標テンプレートとの類似度に基づいて、候補目標と目標テンプレートとの類似度を計算する、ことを特徴とする請求項１０に記載の対象追跡装置。
前記サブ候補目標の特徴の確率密度は、下記の数式
（式中、ｔはサブ候補目標の番号であり、ｙ^ｔはサブ候補目標ｔの中心位置を表し、ｕは特徴値の番号であり、ｕ＝１．．．ｍ、ｍは特徴空間の特徴値における採用可能な値の総数を表し、Ｐ_ｕ ^ｔ（ｙ^ｔ）はサブ候補目標におけるｕ番目の特徴値の確率であり、Ｎ^ｔはサブ候補目標ｔの画素点の総数であり、ｉはサブ候補目標ｔにおける画素の番号であり、ｘ_ｉ ^ｔはサブ候補目標ｔにおける画素ｉの二次元座標であり、ｈ^ｔは中心点ｙ^ｔに対する帯域幅であり、Ｃ_Ｐ ^ｔは正規化係数であり、ｂ（・）はエリア間量子化関数を表し、δはＫｒｏｎｅｃｋｅｒｄｅｌｔａ関数を表し、ｋ（・）は二次元空間重み付けカーネル関数を表し、ｖ（ｉ^ｔ）はサブ候補目標ｔにおける画素ｉの深度重み付け値である）
によって計算することを特徴とする請求項１２に記載の対象追跡装置。
前記候補目標エリアの深度重みマップを確定することは、
追跡される対象の現在フレームにおける代表的な深度値ｄｅｐｔｈ_{ｏｂｊｅｃｔ}を予測することと、
下記の数式
（式中、ｉは候補目標エリアに位置される画素の番号を表し、ｄｅｐｔｈ（ｉ）は画素ｉの深度値または画素ｉの局所エリアの平滑深度値を表し、ｍｉｎ（ｄｅｐｔｈ_{ｏｂｊｅｃｔ}，ｄｅｐｔｈ（ｉ））はｄｅｐｔｈ（ｉ）とｄｅｐｔｈ_{ｏｂｊｅｃｔ}におけるより小さい値を表し、ｍａｘ（ｄｅｐｔｈ_{ｏｂｊｅｃｔ}，ｄｅｐｔｈ（ｉ））はｄｅｐｔｈ（ｉ）とｄｅｐｔｈ_{ｏｂｊｅｃｔ}におけるより大きい値を表示する）
によって、候補目標エリアにおける画素iの追跡される対象に属する確率を計算することと、を含む、ことを特徴とする請求項１０に記載の対象追跡装置。
前記候補目標エリアの深度重みマップを判断することは、
追跡される対象の現在フレームにおける代表的な深度値ｄｅｐｔｈ_{ｏｂｊｅｃｔ}を予測することと、
下記の数式
（式中、ｉは候補目標エリアに位置される画素の番号を表し、ｄｅｐｔｈ（ｉ）は画素ｉの深度値または画素ｉの局所エリアの平滑深度値を表し、ｈ^{ｄｅｐｔｈ}は中心点ｄｅｐｔｈ_{ｏｂｊｅｃｔ}に対する帯域幅を表示する）
によって、候補目標エリアにおける画素iの追跡される対象に属する確率を計算することと、を含む、ことを特徴とする請求項１０に記載の対象追跡装置。
前記各サブ候補目標と各サブ目標テンプレートとの類似度に基づいて候補目標と目標テンプレートとの類似度を計算することにおいて、各サブ目標テンプレートが対応する重み係数を有しており、
前記対象追跡装置は、さらに、サブ候補目標とサブ目標テンプレートとの類似度に基づいて、サブ目標テンプレートに対応する重み係数を更新する、ことを特徴とする請求項１４または請求項１５に記載の対象追跡装置。
前記表示対象の各特徴は、グレースケール情報における色特徴成分、グレースケール情報の勾配特徴成分、深度画像における勾配特徴成分を含む、ことを特徴とする請求項１０に記載の対象追跡装置。
候補目標エリアの確信度マップに基づいて、追跡対象の現在の画像における位置を特定後に、
位置特定されたサブ候補目標が所定の更新条件を満足した場合のみ、該サブ候補目標を利用して対応するサブ目標テンプレートを更新する、独立に各サブ目標テンプレートを更新する目標テンプレート更新部をさらに含むことを特徴とする請求項１２に記載の対象追跡装置。