JP7375192B2

JP7375192B2 - ターゲット追跡方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラムプロダクト

Info

Publication number: JP7375192B2
Application number: JP2022527078A
Authority: JP
Inventors: 翔博蘇; 宇辰袁; 昊孫
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-05-22
Filing date: 2020-09-25
Publication date: 2023-11-07
Anticipated expiration: 2040-09-25
Also published as: EP4044117A4; US20220383535A1; CN111640140B; EP4044117A1; KR20220110320A; JP2023500969A; WO2021232652A1; CN111640140A

Description

関連出願の相互参照
本開示は、２０２０年５月２２日に中国で提出された中国特許出願番号Ｎｏ．２０２０１０４４３８９２．８の優先権を主張し、その全ての内容が援用によりここに取り込まれる。

本開示は、人工知能の分野に関し、特にコンピュータビジョンの技術分野に関する。

関連技術において、リアルタイムビデオストリームにおけるターゲット追跡に対して、まず検出器を利用して現在のフレームの画像における全てのターゲット検出枠を抽出し、次に全てのターゲット検出枠を従来の軌跡と関連付けてマッチングすることにより、現在のフレームの画像におけるターゲットの新たな軌跡を取得することができる。しかしながら、ターゲットの運動状態が急激に変化し、例えば長時間静止した後に突然運動し、移動中で突然静止し、移動速度が明らかに変化するなどの状況が発生すると、ターゲットの検出枠と従来の軌跡位置が成功裏にマッチングできず、追跡が無効になることをもたらす。

本開示の実施例は、ターゲット追跡方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体を提供することにより、現在追跡ターゲットの運動状態が急激に変化する時に追跡失効をもたらしやすいという課題を解決する。

上記技術的課題を解決するために、本開示は、以下のように実現される。

第１の態様では、本開示の実施例は、
現在のフレームの画像に対してターゲット検出を行い、前記現在のフレームの画像におけるターゲット検出枠の、第１の位置及び第１のサイズを表すための第１の情報を得ることと、
カルマンフィルタを利用してターゲット追跡を行い、前記現在のフレームの画像におけるターゲット追跡枠の、第２の位置及び第２のサイズを表すための第２の情報を得ることと、
カルマンフィルタにおける予測誤差共分散行列に対してフォールトトレランス補正を行い、補正後の共分散行列を得ることと、
前記第１の情報、前記第２の情報及び前記補正後の共分散行列に基づいて、前記現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠との間のマハラノビス距離を算出することと、
前記マハラノビス距離に基づいて、前記現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠に対して関連マッチングを行うことと、
を含むターゲット追跡方法を提供する。

このように、フォールトトレランス補正後の予測誤差共分散行列に基づいてターゲット検出枠とターゲット追跡枠との間のマハラノビス距離を算出できることにより、ターゲット運動状態が急激に変化する場合であっても、該マハラノビス距離をより合理的な範囲内に維持することができ、それにより、該マハラノビス距離に基づいて現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠に対して関連マッチングを行う場合、ターゲットが異なる運動状態で追跡されるロバスト性を向上させることができる。

第２の態様では、本開示の実施例は、
現在のフレームの画像に対してターゲット検出を行い、前記現在のフレームの画像におけるターゲット検出枠の、第１の位置及び第１のサイズを表すための第１の情報を得るための検出モジュールと、
カルマンフィルタを利用してターゲット追跡を行い、前記現在のフレームの画像におけるターゲット追跡枠の、第２の位置及び第２のサイズを表すための第２の情報を得るための追跡モジュールと、
カルマンフィルタにおける予測誤差共分散行列に対してフォールトトレランス補正を行い、補正後の共分散行列を得るための補正モジュールと、
前記第１の情報、前記第２の情報及び前記補正後の共分散行列に基づいて、前記現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠との間のマハラノビス距離を算出するための第１の算出モジュールと、
前記マハラノビス距離に基づいて、前記現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠に対して関連マッチングを行うためのマッチングモジュールと、
を含むターゲット追跡装置を提供する。

第３の態様では、本開示の実施例は、さらに、
少なくとも１つのプロセッサと、
該少なくとも１つのプロセッサにより実行可能で、前記少なくとも１つのプロセッサにより実行されることにより、前記少なくとも１つのプロセッサに前記ターゲット追跡方法を実行させる命令が記憶され、前記少なくとも１つのプロセッサと通信接続されたメモリと、
を含む電子機器を提供する。

第４の態様では、本開示の実施例は、前記コンピュータに前記ターゲット追跡方法を実行させるためのコンピュータ命令が格納されている非一時的なコンピュータ読み取り可能な記憶媒体を提供する。

上記出願における１つの実施例は、以下の利点又は有益な効果を有する。フォールトトレランス補正後の予測誤差共分散行列に基づいてターゲット検出枠とターゲット追跡枠との間のマハラノビス距離を算出できることにより、ターゲット運動状態が急激に変化する場合であっても、該マハラノビス距離をより合理的な範囲内に維持することができ、それにより、該マハラノビス距離に基づいて現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠に対して関連マッチングを行う場合、ターゲットが異なる運動状態で追跡されるロバスト性を向上させることができる。現在のフレームの画像に対してターゲット検出を行い、ターゲット検出枠の、第１の位置及び第１のサイズを表すための第１の情報を得て、カルマンフィルタを利用してターゲット追跡を行い、現在のフレームの画像におけるターゲット追跡枠の、第２の位置及び第２のサイズを表すための第２の情報を得て、カルマンフィルタにおける予測誤差共分散行列に対してフォールトトレランス補正を行い、補正後の共分散行列を得て、前記第１の情報、前記第２の情報及び前記補正後の共分散行列に基づいて、前記現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠との間のマハラノビス距離を算出し、前記マハラノビス距離に基づいて、前記現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠に対して関連マッチングを行う技術手段を採用するため、現在の追跡ターゲットの運動状態が急激に変化する場合に追跡失効をもたらしやすいという技術的課題を解消し、さらに、ターゲットが異なる運動状態で追跡されるロバスト性を向上させるという技術的効果を達成する。

上記好ましい方式が有する他の効果は、以下に具体的な実施例を組み合わせて説明する。

図面は本解決手段をよりよく理解するために用いられ、本開示を限定するものではない。

本開示の実施例に係るターゲット追跡方法のフローチャートである。本開示の具体的な実施例におけるターゲット追跡プロセスのフローチャートである。本開示の実施例に係るターゲット追跡方法を実現するための追跡装置のブロック図である。本開示の実施例に係るターゲット追跡方法を実現するための電子機器のブロック図である。

以下に図面を参照しながら、本開示の例示的な実施例を説明し、理解を容易にするために本開示の実施例の様々な詳細を含み、それらを例示的なものに過ぎないと考えられるべきである。したがって、当業者であれば、本開示の範囲及び精神から逸脱することなく、ここで説明された実施例に対して様々な変更及び補正を行うことができることを理解すべきである。同様に、明確かつ簡潔にするために、以下の説明において公知の機能及び構造に対する説明を省略する。

本開示の明細書及び特許請求の範囲における「第１」、「第２」などの用語は、類似する対象を区別するために用いられ、必ずしも特定の順序又は前後順序を説明するために用いられるわけではない。ここに記載される本開示の実施例がここに示されるか又は記載されるもの以外の順序で実施され得るように、そのように使用されるデータは適切な状況下で交換可能であることが理解されるべきである。さらに、「含む」及び「有する」という用語、並びにそれらの変形は、非排他的な包含をカバーすることを意図し、例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品又は機器は、必ずしも明示的に記載されているステップ又はユニットに限定されるものではなく、明示的に記載されていない、又はプロセス、方法、製品又は機器に固有の他のステップ又はユニットを含んでもよい。

図１を参照すると、図１は本開示の実施例に係るターゲット追跡方法のフローチャートであり、該方法は、電子機器に応用され、図１に示すように、以下のステップ１０１～１０５を含む。

ステップ１０１では、現在のフレームの画像に対してターゲット検出を行い、前記現在のフレームの画像におけるターゲット検出枠の第１の情報を取得する。

本実施例では、該第１の情報は、第１の位置及び第１のサイズを表し、すなわち、該当ターゲット検出枠に含まれるターゲットの位置情報（例えば、座標情報）及びサイズ情報を表すことに用いられる。例えば、該第１の情報は、（ｘ、ｙ、ｗ、ｈ）と表すことができ、ここで、ｘは、ターゲット検出枠の左上隅の横座標を表し、ｙは、ターゲット検出枠の左上隅の縦座標を表し、ｗは、ターゲット検出枠の幅を表し、ｈは、ターゲット検出枠の高さを表し、さらに、該ｘ、ｙ、ｗ及びｈは、いずれも画素を単位として、１つのターゲットの画像における領域に対応することができる。

好ましくは、上記現在のフレームの画像に対してターゲット検出を行うプロセスは、現在のフレームの画像をターゲット検出モデル（又はターゲット検出器と呼ばれる）に入力し、前記現在のフレームの画像におけるターゲット検出枠の第１の情報を取得することを含む。理解されるように、ターゲット検出により得られたターゲット検出枠の数は、複数であってもよく、すなわち、ターゲット検出により一連のターゲット検出枠を得ることができ、各ターゲット検出枠は、該当ターゲットの座標情報及びサイズ情報を含む。上記ターゲット検出モデルは、関連技術におけるディープラーニングに基づく方法を選択してトレーニングして得られるものであり、ダイレクトマルチターゲット検出（ＳｉｎｇｌｅＳｈｏｔＭｕｌｔｉＢｏｘＤｅｔｅｃｔｏｒ、ＳＳＤ）モデル、ファインダイレクトマルチターゲット検出（Ｓｉｎｇｌｅ－ＳｈｏｔＲｅｆｉｎｅｍｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋｆｏｒＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎ、ＲｅｆｉｎｅＤｅｔ）、モバイルビジョンアプリケーションのための効率的な畳み込みニューラルネットワークに基づくダイレクトマルチターゲット検出（ＭｏｂｉｌｅＮｅｔｂａｓｅｄＳｉｎｇｌｅＳｈｏｔＭｕｌｔｉＢｏｘＤｅｔｅｃｔｏｒ、ＭｏｂｉｌｅＮｅｔ－ＳＳＤ）モデル、統合されたリアルタイムオブジェクト検出（ＹｏｕＯｎｌｙＬｏｏｋＯｎｃｅ：Ｕｎｉｆｉｅｄ、Ｒｅａｌ－ＴｉｍｅＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎ、ＹＯＬＯ）モデルなどのうちのいずれか１つであってもよい。

一実施形態では、ターゲット検出モデルを利用してターゲット検出を行う場合、該ターゲット検出モデルが前処理された画像に基づいてトレーニングして得られると、現在のフレームの画像に対してターゲット検出を行う前に、現在のフレームの画像に対して前処理を行う必要があり、例えば、現在のフレームの画像を固定サイズ（例えば、５１２＊５１２）にスケーリングし、かつ統合されたＲＧＢ平均値（例えば、［１０４、１１７、１２３］）を減算することにより、モデルトレーニングプロセスにおけるトレーニングサンプルとの統合を保証し、モデルのロバスト性を向上させる。

別の実施形態では、上記現在のフレームの画像は、監視又は他のシーンカメラのリアルタイムビデオストリーム内の画像であってもよい。上記ターゲットは、歩行者、車両などであってもよい。

ステップ１０２では、カルマンフィルタを利用してターゲット追跡を行い、前記現在のフレームの画像におけるターゲット追跡枠の第２の情報を得る。

本実施例では、該第２の情報は、第２の位置及び第２のサイズを表し、すなわち、該当ターゲット追跡枠に含まれるターゲットの位置情報（例えば、座標情報）及びサイズ情報を表すことに用いられる。例えば、該第２の情報は、（ｘ、ｙ、ｗ、ｈ）と表すことができ、ここで、ｘは、ターゲット追跡枠の左上隅の横座標を表し、ｙは、ターゲット追跡枠の左上隅の縦座標を表し、ｗは、ターゲット追跡枠の幅を表し、ｈは、ターゲット追跡枠の高さを表し、さらに、該ｘ、ｙ、ｗ及びｈは、いずれも画素を単位として、１つのターゲットの画像における領域に対応することができる。

上記カルマンフィルタ（Ｋａｌｍａｎフィルタ）を利用してターゲット追跡を行うことは、以下のように理解できる。ターゲット軌跡の既存の運動状態に基づいて、該ターゲットが現在のフレームの画像に出現する可能性のある位置及びサイズの大きさを予測する。該ターゲット軌跡は、現在のフレームの画像の前のいくつかのフレームの画像において、全ての同じターゲットに属する異なるフレームの画像におけるターゲット検出枠と表すことができる。各ターゲット軌跡は、１つのＫａｌｍａｎフィルタに対応し、該Ｋａｌｍａｎフィルタは、ターゲットが初めて出現した検出枠で初期化し、かつ各フレームの画像の関連マッチングが完了した後、マッチングしたターゲット検出枠で該Ｋａｌｍａｎフィルタを補正する。新たに得られた１つのフレームの画像（例えば、現在のフレームの画像）に対して、記憶された全てのターゲット軌跡のＫａｌｍａｎフィルタを予測し、ターゲット軌跡の予測された現在のフレームの画像に出現する位置を得て、かつＫａｌｍａｎフィルタの予測誤差共分散行列Σを得ることができる。該予測誤差共分散行列Σは、好ましくは、４ｘ４の行列であり、ターゲット追跡における予測値と真値との誤差共分散を説明するために用いられる。

ステップ１０３では、カルマンフィルタにおける予測誤差共分散行列に対してフォールトトレランス補正を行い、補正後の共分散行列を得る。

ステップ１０４では、第１の情報、第２の情報及び補正後の共分散行列に基づいて、前記現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠との間のマハラノビス距離を算出する。

理解できるように、上記カルマンフィルタにおける予測誤差共分散行列に対してフォールトトレランス補正を行うことは、主に、マハラノビス距離算出式を改善することにより、改善されたマハラノビス距離算出式により算出されたターゲット検出枠とターゲット追跡枠との間のマハラノビス距離を、ターゲット運動状態が急激に変化する場合であっても、合理的な範囲内に維持することができる。上記フォールトトレランス補正の方式について、実際の需要に基づいて設定することができ、ここで限定しない。

ステップ１０５では、前記マハラノビス距離に基づいて、前記現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠に対して関連マッチングを行う。

好ましくは、このステップにおいてハンガリーアルゴリズムなどの画像マッチングアルゴリズムを利用してターゲット検出枠とターゲット追跡枠との間の関連マッチングを行うことにより、いくつかのマッチングしたターゲット検出枠とターゲット追跡枠との間のペアリングを得ることができる。該ペアリングにおけるターゲット検出枠とターゲット追跡枠は同じターゲット軌跡に属し、同じターゲットに属し、統合されたターゲット識別ＩＤを付与することができる。関連マッチングが完了した後に現在のフレームの画像での新たなターゲット軌跡を得ることができ、従来のターゲット軌跡の更新、従来のターゲット軌跡の削除、及び／又は新たなターゲット軌跡の増加を含む。

好ましくは、このステップにおいて関連マッチングを行うプロセスは、以下を含むことができる。前記マハラノビス距離が予め設定された閾値以下である場合、該当ターゲット検出枠とターゲット追跡枠との間のマッチングを確定するか、又は前記マハラノビス距離が前記予め設定された閾値より大きい場合、該当ターゲット検出枠とターゲット追跡枠との間のミスマッチングを確定する。つまり、ターゲット検出枠とターゲット追跡枠との間のマハラノビス距離が小さいほど、両者が同じターゲットに属する可能性が高くなる。これにより、距離情報と予め設定された閾値との比較により関連マッチングを行うことで、マッチングプロセスを簡単に実現することができる。

本開示の実施例に係るターゲット追跡方法は、フォールトトレランス補正後の予測誤差共分散行列に基づいてターゲット検出枠とターゲット追跡枠との間のマハラノビス距離を算出できることにより、ターゲット運動状態が急激に変化する場合であっても、該マハラノビス距離をより合理的な範囲内に維持することができ、それにより該マハラノビス距離に基づいて現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠に対して関連マッチングを行う場合、ターゲットが異なる運動状態で追跡されるロバスト性を向上させることができる。

マルチターゲット追跡において、関連技術におけるマハラノビス距離の算出式は以下のとおりである。

ここで、μは、カルマンフィルタの平均値（ｘ、ｙ、ｗ、ｈ）を表し、カルマンフィルタの予測ターゲット（すなわち、ターゲット追跡枠）の現在のフレームの画像における座標及び幅と高さである。Σは、カルマンフィルタの予測誤差共分散行列を表す。Ｘは、現在のフレームの画像におけるターゲット検出枠の座標及び幅と高さを表し、あるターゲットの現在の実際の運動状態（ｘ、ｙ、ｗ、ｈ）を記述する変数である。１つのターゲットが一定の時間内に同じ運動状態（例えば、長時間静止するか又は同じ運動速度を長時間維持するなど）を維持する場合、カルマンフィルタの共分散Σが小さく、Σ^－１が大きく、すなわち、予測値と真値との偏差が小さいと考えられ、予測ターゲット軌跡が次のフレームにある場合に依然として元の運動状態を維持する傾向がある。ターゲットが元の運動状態を保持する場合、すなわち（Ｘ－μ）が０に近く、Σ^－１が大きい場合に、算出して得られたマハラノビス距離Ｄ_Ｍ値が小さいが、ターゲットの運動状態が急激に変化する場合、（Ｘ－μ）の値が大きくなり、Σ^－１が大きい場合に、算出して得られたマハラノビス距離Ｄ_Ｍ値が異常に大きくなり、後続のマッチングエラーをもたらす。算出して得られたマハラノビス距離Ｄ_Ｍが予め設定された閾値より大きい場合、ターゲット検出枠Ｘが該カルマンフィルタに対応する軌跡に属さないと考えられ、追跡失敗をもたらす。

一実施形態では、上記ステップ１０４でマハラノビス距離を算出するプロセスは、以下のとおりである。

以下の式（該式は、改善されたマハラノビス距離算出式として理解できる）を利用して、現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠との間のマハラノビス距離を算出する。

ここで、Ｘは、現在のフレームの画像におけるターゲット検出枠の第１の情報を表し、例えば、位置情報及びサイズ情報を含み、（ｘ、ｙ、ｗ、ｈ）と表すことができる。μは、カルマンフィルタに基づいて得られた現在のフレームの画像におけるターゲット追跡枠の第２の情報を表し、例えば、位置情報及びサイズ情報を含み、（ｘ、ｙ、ｗ、ｈ）と表すことができる。Σは、カルマンフィルタの予測誤差共分散行列を表す。（Σ＋αＥ）は、補正後の共分散行列を表し、αは、０より大きい予め設定された係数であり、Ｅは、単位行列を表す。

上記改善されたマハラノビス距離算出式に対する分析により、以下のことが分かる。
α＞０の場合、常に、以下の不等式（１）～（３）がある。

上記不等式（３）に基づいて、Ｄ_Ｍ（Ｘ，μ）＞Ｄ_Ｍｎｅｗ（Ｘ，μ）を得ることができる。

また、以下の不等式（４）～（７）が存在する。

上記不等式（７）に基づいて、Ｄ_Ｍｎｅｗ（Ｘ，μ）＜√α｜Ｘ－μ｜を得ることができる。

すなわち、任意のＸに対して、いずれもＤ_Ｍｎｅｗ＜Ｄ_Ｍであり、かつΣが小さいほど、両者の偏差が大きくなる。１つのターゲットが一定の時間内に同じ運動状態（例えば、長時間に静止するか又は長時間に同じ運動速度を維持するなど）を維持する場合、カルマンフィルタの共分散Σが小さい。ターゲットが従来の運動状態を保持する場合、すなわち（Ｘ－μ）が０に近く、Ｄ_Ｍに比べて、算出して得られたＤ_Ｍｎｅｗの値が小さい。ターゲットの運動状態が急激に変化する場合、（Ｘ－μ）の値が大きくなるが、Ｄ_Ｍに比べて、算出されたＤ_Ｍｎｅｗは、より小さい値に制約される。

これにより、上記改善されたマハラノビス距離算出式により、ターゲット運動状態が急激に変化する場合であっても、算出されたマハラノビス距離を合理的な範囲内に維持することができ、それによりターゲットが異なる運動状態で追跡されるロバスト性を向上させる。

本開示の実施例では、関連マッチングの正確性を向上させるために、算出されたマハラノビス距離に基づいて、他の関連マッチングを補助する類似度測定方法における、例えば外観特徴類似度、形状輪郭類似度などを結合して、類似度マッチング行列を構成することにより、該類似度マッチング行列に基づいて関連マッチングを行うことができる。好ましくは、上記ステップ１０４の後、前記方法は、さらに、以下を含む。

前記マハラノビス距離に基づいて、距離類似度行列Ｍ_Ｄを算出する。ここで、前記Ｍ_Ｄにおける第ｉ行第ｊ列の値は、前記現在のフレームの画像における第ｉ個のターゲット追跡枠と第ｊ個のターゲット検出枠との間の距離類似度を表し、例えば、該距離類似度は、好ましくは、第ｉ個のターゲット追跡枠と第ｊ個のターゲット検出枠との間のマハラノビス距離Ｄ_Ｍｎｅｗの逆数す、なわちＤ_Ｍｎｅｗ ^－１、又は他の方式を採用して該マハラノビス距離Ｄ_Ｍｎｅｗを処理した後の値であり、類似度を体現すればよい。

外観深度特徴類似度行列Ｍ_Ａを算出する。ここで、前記Ｍ_Ａにおける第ｉ行第ｊ列の値は、第ｉ個のターゲット追跡枠に対応する前のフレームの画像における外観深度特徴Ｆｉと第ｊ個のターゲット検出枠の外観深度特徴Ｆｊとのコサイン類似度ｃｏｓ（Ｆｉ、Ｆｊ）を表し、外観深度特徴Ｆに対して深度畳み込みニューラルネットワーク（例えば、残差ニューラルネットワークＲｅｓＮｅｔ）を利用して該当フレームの画像から抽出して得ることができる。

前記Ｍ_Ｄ及び前記Ｍ_Ａに基づいて、類似度マッチング行列を決定する。

上記ステップ１０５は、前記類似度マッチング行列に基づいて、前記現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠に対して関連マッチングを行うことを含む。

一実施形態では、類似度マッチング行列を決定する場合、加重平均の方式でＭ_ＤとＭ_Ａを融合して得ることができ、例えば、該類似度マッチング行列は、ａＭ_ＤとｂＭ_Ａの合計に等しく、ここで、ａとｂは、それぞれＭ_ＤとＭ_Ａの重みであり、実際の需要に基づいて予め設定することができる。

別の実施形態では、類似度マッチング行列に基づいて、現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠に対して関連マッチングを行う場合、ハンガリーアルゴリズムを利用して二分図マッチングを行うことができ、それによりターゲット検出枠とターゲット追跡枠との間の一対一マッチングの結果を得る。

理解できるように、マルチターゲット追跡において、前後のターゲットが深刻に遮蔽される状況が発生する可能性があり、レンズに近いターゲットがレンズから遠いターゲットの大部分の領域を遮蔽するため、ターゲットの追跡エラーをもたらす可能性があり、後続のフレームの画像において誤った追跡結果を得る。この問題を解消するために、本開示の実施例は、ターゲットの前後トポロジー関係を利用して制約マッチングを行うことを提案する。

透視関係の存在のため、撮像装置（例えば、カメラ）が収集した画像において、地面ターゲット検出枠の下縁の中心点は、ターゲットの接地点と見なすことができ、該点が画像の下方に近いほど、レンズに近づくと考えられ、そうでなければ、レンズから離れると考えられる。２つのターゲット検出枠に対して、それらの間の交差比が一定の閾値より大きい場合、該当２つのターゲットが深刻に遮蔽されると考えられる。ターゲット接地点の位置により、２つのターゲットの前後関係を判断することができる。ここで、カメラに近いターゲットは、前景として遮蔽するターゲットであり、カメラから遠いターゲットは、背景として遮蔽されるターゲットである。全ての遮蔽ターゲットの間の前後関係は、ターゲットの前後トポロジー関係と呼ぶことができる。前後トポロジー関係の一致性は、以下のように定義することができる。連続フレーム（画像）において、前のフレームの２つのターゲットＡ及びＢが深刻に遮蔽され、ターゲットＡは、前景として遮蔽するターゲットであり、ターゲットＢは、背景として遮蔽されるターゲットである場合、後のフレームにおいて、ターゲットＡ及びＢが依然として深刻に遮蔽されると、ターゲットＡは、依然として前景として遮蔽するターゲットであり、ターゲットＢは、背景として遮蔽されるターゲットである。現在のフレームの画像において複数のターゲットが深刻に遮蔽される場合、前のフレームのターゲット軌跡の間の前後トポロジー関係を取得することができ、かつ関連マッチングにおいて前後トポロジー関係の一致性を利用して制約することにより、マッチングがより正確になる。

好ましくは、上記ステップ１０５の後、前記方法は、
前記現在のフレームの画像のトポロジー関係行列Ｍ_Ｔ１を取得し、かつ前記現在のフレームの画像の前のフレームの画像のトポロジー関係行列Ｍ_Ｔ２を取得することと、
Ｍ_Ｔ１とＭ_Ｔ２を要素ごとに乗算して、トポロジー変化行列Ｍ_０を得ることと、
Ｍ_０を利用して、現在のフレームの画像におけるターゲット検出枠のマッチング結果に対して補正処理を行うことと、をさらに含む。

ここで、前記Ｍ_Ｔ１における第ｉ行第ｊ列の値は、前記現在のフレームの画像における第ｉ個のターゲットと第ｊ個のターゲットとの前後関係を表し、前記Ｍ_Ｔ２における第ｉ行第ｊ列の値は、前記前のフレームの画像における第ｉ個のターゲットと第ｊ個のターゲットとの前後関係を表し、前記Ｍ_０における第ｉ行第ｊ列の値は、前記前のフレームの画像に比べて、前記現在のフレームの画像における第ｉ個のターゲットと第ｊ個のターゲットとの前後関係が変化したか否かを表す。上記補正処理は、前のフレームと現在のフレームにおいて、第ｉ個のターゲットと第ｊ個のターゲットとの前後関係が変化すると、現在のフレームにおける第ｉ個のターゲットと第ｊ個のターゲットとがマッチングした検出枠に対して交換処理を行うことにより、ターゲット追跡過程において関連マッチングの結果を補正する。

このように、隣接するフレームの画像における遮蔽物の前後のトポロジー関係の一致性の制約を利用することにより、ターゲットが深刻に遮蔽された場合にマッチングを行う信頼性を向上させ、ターゲット追跡プロセスがスムーズに進行することを保証することができる。

例えば、Ｍ_Ｔ１及びＭ_Ｔ２を取得する場合、ターゲット検出枠の下縁中心点（ｘ＋ｗ／２、ｙ＋ｈ）を該当ターゲットの接地点とすることができ、透視原理に基づいて、縦座標ｙ＋ｈが大きいほど、ターゲット距離がカメラに近づき、逆にカメラから離れる。２つのターゲットの間の前後関係を決定する場合、該当ターゲット検出枠の下縁中心点の縦座標を比較することができる。例えば、Ｍ_Ｔ１を例として、ここで、第ｉ行第ｊ列の値は、現在のフレームの画像における第ｉ個のターゲットと第ｊ個のターゲットの前後関係ｔを表し、第ｉ個のターゲットと第ｊ個のターゲットに遮蔽関係が存在し、かつｙ_ｉ＋ｈ_ｉ＜ｙ_ｊ＋ｈ_ｊである場合、ｔ＝－１であり、第ｉ個のターゲットが第ｊ個のターゲットの前にあることを表すか、又は第ｉ個のターゲットと第ｊ個のターゲットに遮蔽関係が存在し、かつ且ｙ_ｉ＋ｈ_ｉ＞ｙ_ｊ＋ｈ_ｊである場合、ｔ＝１であり、第ｉ個のターゲットが第ｊ個のターゲットの後にあることを表すか、又は第ｉ個のターゲットと第ｊ個のターゲットに遮蔽関係が存在しない場合、ｔ＝０である。Ｍ_Ｔ２に対して、以上のＭ_Ｔ１の方式で設定することができる。このように、Ｍ_Ｔ１とＭ_Ｔ２を要素ごとに乗算して得られたトポロジー変化行列Ｍ_０において、第ｉ個のターゲットと第ｊ個のターゲットがいずれも正確にマッチングする場合、Ｍ_０における第ｉ行第ｊ列の値が０又は１であり、すなわち、第ｉ個のターゲットと第ｊ個のターゲットの前後関係が変化しないが、Ｍ_０における第ｉ行第ｊ列の値が－１である場合、マッチングエラーにより、第ｉ個のターゲットと第ｊ個のターゲットが隣接する２つのフレームにおける前後関係が変化したことを表し、このときに現在のフレームの画像における該２つのターゲットがマッチングした検出枠に対して交換処理を行うことにより、該当ターゲット軌跡を補正し、追跡プロセスがスムーズに進行することを保証する。

好ましくは、２つのターゲットに遮蔽関係が存在するか否かに対して、該当検出枠と追跡枠の交差比（ＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎ、ＩｏＵ）を利用して決定することができる。

本開示の実施例が適用されるシーンは、ターゲットの位置、身分、運動状態及び履歴軌跡などの情報を取得するために、スマート都市、スマート交通、スマート小売などのシーンでの歩行者及び／又は車両などのターゲットの継続的な追跡を含むが、これらに限定されない。

以下に、図２を参照して本開示の具体的な実施例におけるターゲット追跡プロセスを説明する。

図２に示すように、該当ターゲット追跡プロセスは、以下のステップＳ２１～Ｓ２８を含むことができる。

Ｓ２１では、監視又は他のシーンカメラのリアルタイムビデオストリームを取得する。

Ｓ２２では、該リアルタイムビデオストリームから現在のフレームの画像を抽出し、かつ前処理を行い、例えば、固定サイズにスケーリングし、かつ統合されたＲＧＢ平均値を減算する。

Ｓ２３では、前処理された現在のフレームの画像を予め設定されたターゲット検出器に入力し、一連のターゲット検出枠を出力し、各枠は、ターゲットの座標及びサイズ情報を含む。

Ｓ２４では、カルマンフィルタを利用してターゲット追跡を行い、現在のフレームの画像におけるターゲット追跡枠に含まれるターゲットの座標及びサイズ情報を得る。

Ｓ２５では、改善されたマハラノビス距離算出式により、現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠との間のマハラノビス距離を算出し、具体的なプロセスは上記内容を参照する。

Ｓ２６では、Ｓ２５で得られたマハラノビス距離に基づいて、現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠に対して関連マッチングを行い、例えば、ハンガリーアルゴリズムを利用して二分図マッチングを行う。

Ｓ２７では、隣接するフレームの画像におけるターゲットの前後トポロジー関係を利用して関連マッチング結果に対して一致性制約を行う。

Ｓ２８では、現在のフレームの画像における追跡プロセスを終了し、かつ次の画像フレームを抽出し、ビデオストリームが終了するまで、上記Ｓ２２～Ｓ２７を繰り返す。記録が存在するが一定の時間内（いくつかの画像フレームを超える）に任意の検出枠とマッチングしないターゲット軌跡に対して、それをオフフィールドとマークし、将来に関連マッチングプロセスに参加しない。

図３を参照すると、図３は、本開示の実施例に係るターゲット追跡装置の構造概略図であり、図３に示すように、該ターゲット追跡装置３０は、
現在のフレームの画像に対してターゲット検出を行い、前記現在のフレームの画像におけるターゲット検出枠の、第１の位置及び第１のサイズを表すための第１の情報を得るための検出モジュール３１と、
カルマンフィルタを利用してターゲット追跡を行い、前記現在のフレームの画像におけるターゲット追跡枠の、第２の位置及び第２のサイズを表すための第２の情報を得るための追跡モジュール３２と、
カルマンフィルタにおける予測誤差共分散行列に対してフォールトトレランス補正を行い、補正後の共分散行列を得るための補正モジュール３３と、
前記第１の情報、前記第２の情報及び前記補正後の共分散行列に基づいて、前記現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠との間のマハラノビス距離を算出するための第１の算出モジュール３４と、
前記マハラノビス距離に基づいて、前記現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠に対して関連マッチングを行うためのマッチングモジュール３５と、
を含む。

好ましくは、前記第１の算出モジュール３４は、具体的には、以下の式を利用して、前記現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠との間のマハラノビス距離を算出することに用いられる。

ここで、Ｘは、前記第１の情報を表し、μは、前記第２の情報を表し、Σは、前記カルマンフィルタにおける予測誤差共分散行列を表し、（Σ＋αＥ）は、前記補正後の共分散行列を表し、αは、０より大きい予め設定された係数であり、Ｅは、単位行列を表す。

好ましくは、前記マッチングモジュール３５は、具体的には、前記マハラノビス距離が予め設定された閾値以下である場合、該当ターゲット検出枠とターゲット追跡枠との間のマッチングを確定するか、又は前記マハラノビス距離が前記予め設定された閾値より大きい場合、該当ターゲット検出枠とターゲット追跡枠との間のミスマッチングを確定することに用いられる。

好ましくは、前記ターゲット追跡装置３０は、
前記現在のフレームの画像のトポロジー関係行列Ｍ_Ｔ１を取得し、かつ前記現在のフレームの画像の前のフレームの画像のトポロジー関係行列Ｍ_Ｔ２を取得するための取得モジュールと、
前記Ｍ_Ｔ１と前記Ｍ_Ｔ２を要素ごとに乗算して、トポロジー変化行列Ｍ_０を得るための第２の算出モジュールと、
前記Ｍ_０を利用して、前記現在のフレームの画像におけるターゲット検出枠のマッチング結果に対して補正処理を行うための処理モジュールと、をさらに含み、
ここで、前記Ｍ_Ｔ１における第ｉ行第ｊ列の値は、前記現在のフレームの画像における第ｉ個のターゲットと第ｊ個のターゲットとの前後関係を表し、前記Ｍ_Ｔ２における第ｉ行第ｊ列の値は、前記前のフレームの画像における第ｉ個のターゲットと第ｊ個のターゲットとの前後関係を表し、前記Ｍ_０における第ｉ行第ｊ列の値は、前記前のフレームの画像に比べて、前記現在のフレームの画像における第ｉ個のターゲットと第ｊ個のターゲットとの前後関係が変化したか否かを表す。

好ましくは、前記ターゲット追跡装置３０は、
前記マハラノビス距離に基づいて、第ｉ行第ｊ列の値が前記現在のフレームの画像における第ｉ個のターゲット追跡枠と第ｊ個のターゲット検出枠との間の距離類似度を表す距離類似度行列Ｍ_Ｄを算出するための第３の算出モジュールと、
第ｉ行第ｊ列の値が第ｉ個のターゲット追跡枠に対応する前のフレームの画像における外観深度特徴と第ｊ個のターゲット検出枠の外観深度特徴とのコサイン類似度を表す外観深度特徴類似度行列Ｍ_Ａを算出するための第４の算出モジュールと、
前記Ｍ_Ｄ及び前記Ｍ_Ａに基づいて、類似度マッチング行列を決定するための決定モジュールと、
を含む。

好ましくは、前記マッチングモジュール３５は、具体的には、前記類似度マッチング行列に基づいて、前記現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠に対して関連マッチングを行うことに用いられる。

理解できるように、本開示の実施例のターゲット追跡装置３０は、上記図１に示す方法の実施例で実現された各プロセスを実現し、かつ同じ有益な効果を達成することができ、重複を回避するために、ここでは説明を省略する。

本開示の実施例によれば、本開示は、電子機器及び読み取り可能な記憶媒体をさらに提供する。

図４に示すように、本開示の実施例に係るターゲット追跡方法を実現するための電子機器のブロック図である。電子機器は、様々な形式のデジタルコンピュータ、例えば、ラップトップコンピュータ、デスクトップコンピュータ、作業台、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータを表すことを目的とする。電子機器は、さらに、様々な形式の移動装置、例えば、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス及び他の類似する算出装置を表すことができる。本明細書に示された部材、それらの接続及び関係、並びにそれらの機能は単なる例示であり、本明細書に記載された及び／又は要求された本開示の実現を制限することを意図しない。

図４に示すように、該電子機器は、１つ又は複数のプロセッサ４０１、メモリ４０２、及び高速インタフェース及び低速インタフェースを含む各部材を接続するためのインタフェースを含む。各部材は、異なるバスを利用して互いに接続され、かつ共通のマザーボードに取り付けられるか又は必要に応じて他の方式で取り付けられる。プロセッサは、メモリ又は記憶装置に記憶されて外部入力／出力装置（例えば、インタフェースに結合された表示装置）にＧＵＩのグラフィック情報を表示する命令を含む、電子機器内で実行された命令を処理することができる。他の実施形態では、必要であれば、複数のプロセッサ及び／又は複数のバスを複数のメモリ及び複数の記憶装置と共に使用することができる。同様に、複数の電子機器に接続することができ、各機器は、一部の必要な操作（例えば、サーバアレイ、一組のブレードサーバ、又はマルチプロセッサシステムとする）を提供する。図４において１つのプロセッサ４０１を例とする。

メモリ４０２は、すなわち、本開示に係る非一時的なコンピュータ読み取り可能な記憶媒体である。ここで、前記メモリに少なくとも１つのプロセッサにより実行可能な命令が記憶されることにより、前記少なくとも１つのプロセッサが本開示に係るターゲット追跡方法を実行する。本開示の非一時的なコンピュータ読み取り可能な記憶媒体は、本開示に係るターゲット追跡方法をコンピュータに実行させるためのコンピュータ命令を記憶する。

メモリ４０２は、非一時的なコンピュータ読み取り可能な記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶することに用いることができ、例えば、本開示の実施例におけるターゲット追跡方法に対応するプログラム命令／モジュール（例えば、図３に示す検出モジュール３１、追跡モジュール３２、補正モジュール３３、第１の算出モジュール３４及びマッチングモジュール３５）である。プロセッサ４０１は、メモリ４０２に記憶された非瞬時ソフトウェアプログラム、命令及びモジュールを実行することにより、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち上記方法実施例におけるターゲット追跡方法を実現する。

メモリ４０２は、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションプログラムを記憶できるプログラム記憶領域と、電子機器の使用により作成されたデータなどを記憶できるデータ記憶領域とを含むことができる。また、メモリ４０２は、高速ランダムアクセスメモリを含むことができ、さらに、非一時的メモリを含むことができ、例えば、少なくとも１つの磁気ディスクメモリ、フラッシュメモリ、又は他の非一時的固体メモリである。いくつかの実施例では、メモリ４０２は、好ましくは、プロセッサ４０１に対して遠隔に設置されたメモリを含み、これらの遠隔メモリは、ネットワークを介して電子機器に接続することができる。上記ネットワークの例は、インターネット、企業イントラネット、ローカルエリアネットワーク、移動体通信ネットワーク及びそれらの組み合わせを含むがこれらに限定されない。

ターゲット追跡方法の電子機器は、さらに、入力装置４０３及び出力装置４０４を含む。プロセッサ４０１、メモリ４０２、入力装置４０３及び出力装置４０４は、バス又は他の方式により接続されてもよく、図４においてバスにより接続されることを例とする。

入力装置４０３は、入力されたデジタル又は文字情報を受信し、かつターゲット追跡方法の電子機器のユーザ設定及び機能制御に関連するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパネル、指示レバー、１つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置４０４は、表示装置、補助照明装置（例えば、ＬＥＤ）及び触覚フィードバック装置（例えば、振動モータ）などを含むことができる。該表示装置は、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ及びプラズマディスプレイを含むがこれらに限定されない。いくつかの実施形態では、表示装置は、タッチスクリーンであってもよい。

ここで説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア及び／又はこれらの組み合わせで実現され得る。これらの様々な実施形態は、特定用途向け又は汎用のプログラマブルプロセッサであり得る少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムで実行及び／又は解釈できる、１つ又は複数のコンピュータプログラムで実施され、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、かつデータ及び命令を該記憶システム、該少なくとも１つの入力装置、及び該少なくとも１つの出力装置に伝送することができることを含む。

これらのコンピューティングプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる）は、プログラマブルプロセッサの機械命令を含み、かつ、高レベルの手続き型及び／又はオブジェクト指向プログラミング言語、及び／又はアセンブリ／機械語を利用してこれらのコンピューティングプログラムを実施することができる。本明細書で使用されるように、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、機械命令及び／又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、装置、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を指し、機械読み取り可能な信号とする機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、機械命令及び／又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。

ユーザとの対話を提供するために、コンピュータで、ここで説明されたシステム及び技術を実施することができ、該コンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）、キーボード及びポインティング装置（例えば、マウス又はトラックボール）を有し、ユーザは、該キーボード及び該ポインティング装置により入力をコンピュータに提供することができる。他の種類の装置は、さらに、ユーザとの対話を提供するために用いられ、例えば、ユーザに提供されたフィードバックは、任意の形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、かつ任意の形式（音声入力、音声入力又は触覚入力を含む）でユーザからの入力を受信することができる。

ここで説明されたシステム及び技術を、バックグラウンド部材を含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェア部材を含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンド部材を含むコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、該グラフィカルユーザインタフェース又は該ウェブブラウザを介してここで説明されたシステム及び技術の実施形態と対話することができる）、又はこのようなバックグラウンド部材、ミドルウェア部材、又はフロントエンド部材の任意の組み合わせを含むコンピューティングシステムに実施することができる。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によりシステムの部品を互いに接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、インターネットを含む。

コンピュータシステムは、クライアント及びサーバを含むことができる。クライアントとサーバは、一般的に、互いに離れ、かつ一般的に通信ネットワークを介して対話する。クライアントとサーバとの関係は、それぞれのコンピュータ上で動作し、互いにクライアント－サーバの関係を有するコンピュータプログラムによって生成される。

本開示の実施例の技術的解決手段によれば、フォールトトレランス補正後の予測誤差共分散行列に基づいてターゲット検出枠とターゲット追跡枠との間のマハラノビス距離を算出できることにより、ターゲット運動状態が急激に変化する場合であっても、該マハラノビス距離をより合理的な範囲内に維持することができ、それにより該マハラノビス距離に基づいて現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠に対して関連マッチングを行う場合、ターゲットが異なる運動状態で追跡されるロバスト性を向上させることができる。

以上に示した様々な形式のフローを使用して、ステップを改めて並べ替えたり、追加したり、削除したりできることを理解すべきである。例えば、本開示に記載の各ステップは並列的に実行されてもよく、順序的に実行されてもよく、異なる順序で実行されてもよく、本開示の技術的解決手段の所望の結果を実現することができれば、本明細書では限定されない。

上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な補正、組み合わせ、サブ組み合わせ及び置換を行うことができることを理解すべきである。任意の本開示の精神及び原則内で行われた補正、同等置換及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims

現在のフレームの画像に対してターゲット検出を行い、前記現在のフレームの画像におけるターゲット検出枠の、第１の位置及び第１のサイズを表すための第１の情報を得ることと、
カルマンフィルタを利用してターゲット追跡を行い、前記現在のフレームの画像におけるターゲット追跡枠の、第２の位置及び第２のサイズを表すための第２の情報を得ることと、
カルマンフィルタにおける予測誤差共分散行列に対してフォールトトレランス補正を行い、補正後の共分散行列を得ることと、
前記第１の情報、前記第２の情報及び前記補正後の共分散行列に基づいて、前記現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠との間のマハラノビス距離を算出することと、
前記マハラノビス距離に基づいて、前記現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠に対して関連マッチングを行うことと、
前記現在のフレームの画像のトポロジー関係行列Ｍ _Ｔ１を取得し、かつ前記現在のフレームの画像の前のフレームの画像のトポロジー関係行列Ｍ _Ｔ２を取得することと、
前記Ｍ _Ｔ１と前記Ｍ _Ｔ２を要素ごとに乗算して、トポロジー変化行列Ｍ _０を得ることと、
前記Ｍ _０を利用して、前記現在のフレームの画像におけるターゲット検出枠のマッチング結果に対して補正処理を行うことと、
を含み、
前記Ｍ _Ｔ１における第ｉ行第ｊ列の値は、前記現在のフレームの画像における第ｉ個のターゲットと第ｊ個のターゲットとの前後関係を表し、前記Ｍ _Ｔ２における第ｉ行第ｊ列の値は、前記前のフレームの画像における第ｉ個のターゲットと第ｊ個のターゲットとの前後関係を表し、前記Ｍ _０における第ｉ行第ｊ列の値は、前記前のフレームの画像に比べて、前記現在のフレームの画像における第ｉ個のターゲットと第ｊ個のターゲットとの前後関係が変化したか否かを表す、ターゲット追跡方法。
前記の前記第１の情報、前記第２の情報及び前記補正後の共分散行列に基づいて、前記現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠との間のマハラノビス距離を算出することが、
以下の式を利用して、前記現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠との間のマハラノビス距離を算出することを含み、
ここで、Ｘは、前記第１の情報を表し、μは、前記第２の情報を表し、Σは、前記カルマンフィルタにおける予測誤差共分散行列を表し、（Σ＋αＥ）は、前記補正後の共分散行列を表し、αは、０より大きい予め設定された係数であり、Ｅは、単位行列を表す請求項１に記載の方法。
前記の前記マハラノビス距離に基づいて、前記現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠に対して関連マッチングを行うことが、
前記マハラノビス距離が予め設定された閾値以下である場合、該当ターゲット検出枠とターゲット追跡枠との間のマッチングを確定するか、又は前記マハラノビス距離が前記予め設定された閾値より大きい場合、該当ターゲット検出枠とターゲット追跡枠との間のミスマッチングを確定することを含む請求項１に記載の方法。
前記の前記現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠との間のマハラノビス距離を算出することの後、
前記マハラノビス距離に基づいて、第ｉ行第ｊ列の値が前記現在のフレームの画像における第ｉ個のターゲット追跡枠と第ｊ個のターゲット検出枠との間の距離類似度を表す距離類似度行列Ｍ_Ｄを算出することと、
第ｉ行第ｊ列の値が第ｉ個のターゲット追跡枠に対応する前のフレームの画像における外観深度特徴と第ｊ個のターゲット検出枠の外観深度特徴とのコサイン類似度を表す外観深度特徴類似度行列Ｍ_Ａを算出することと、
前記Ｍ_Ｄ及び前記Ｍ_Ａに基づいて、類似度マッチング行列を決定することと、
を含み、
前記の前記マハラノビス距離に基づいて、前記現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠に対して関連マッチングを行うことが、
前記類似度マッチング行列に基づいて、前記現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠に対して関連マッチングを行うことを含む請求項１に記載の方法。
現在のフレームの画像に対してターゲット検出を行い、前記現在のフレームの画像におけるターゲット検出枠の、第１の位置及び第１のサイズを表すための第１の情報を得るための検出モジュールと、
カルマンフィルタを利用してターゲット追跡を行い、前記現在のフレームの画像におけるターゲット追跡枠の、第２の位置及び第２のサイズを表すための第２の情報を得るための追跡モジュールと、
カルマンフィルタにおける予測誤差共分散行列に対してフォールトトレランス補正を行い、補正後の共分散行列を得るための補正モジュールと、
前記第１の情報、前記第２の情報及び前記補正後の共分散行列に基づいて、前記現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠との間のマハラノビス距離を算出するための第１の算出モジュールと、
前記マハラノビス距離に基づいて、前記現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠に対して関連マッチングを行うためのマッチングモジュールと、
前記現在のフレームの画像のトポロジー関係行列Ｍ _Ｔ１を取得し、かつ前記現在のフレームの画像の前のフレームの画像のトポロジー関係行列Ｍ _Ｔ２を取得するための取得モジュールと、
前記Ｍ _Ｔ１と前記Ｍ _Ｔ２を要素ごとに乗算して、トポロジー変化行列Ｍ _０を得るための第２の算出モジュールと、
前記Ｍ _０を利用して、前記現在のフレームの画像におけるターゲット検出枠のマッチング結果に対して補正処理を行うための処理モジュールと、
を含み、
前記Ｍ _Ｔ１における第ｉ行第ｊ列の値は、前記現在のフレームの画像における第ｉ個のターゲットと第ｊ個のターゲットとの前後関係を表し、前記Ｍ _Ｔ２における第ｉ行第ｊ列の値は、前記前のフレームの画像における第ｉ個のターゲットと第ｊ個のターゲットとの前後関係を表し、前記Ｍ _０における第ｉ行第ｊ列の値は、前記前のフレームの画像に比べて、前記現在のフレームの画像における第ｉ個のターゲットと第ｊ個のターゲットとの前後関係が変化したか否かを表す、ターゲット追跡装置。
前記第１の算出モジュールが、以下の式を利用して、前記現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠との間のマハラノビス距離を算出することに用いられ、
ここで、Ｘは、前記第１の情報を表し、μは、前記第２の情報を表し、Σは、前記カルマンフィルタにおける予測誤差共分散行列を表し、（Σ＋αＥ）は、前記補正後の共分散行列を表し、αは、０より大きい予め設定された係数であり、Ｅは、単位行列を表す請求項５に記載の装置。
前記マッチングモジュールが、前記マハラノビス距離が予め設定された閾値以下である場合、該当ターゲット検出枠とターゲット追跡枠との間のマッチングを確定するか、又は前記マハラノビス距離が前記予め設定された閾値より大きい場合、該当ターゲット検出枠とターゲット追跡枠との間のミスマッチングを確定することに用いられる請求項５に記載の装置。
前記マハラノビス距離に基づいて、第ｉ行第ｊ列の値が前記現在のフレームの画像における第ｉ個のターゲット追跡枠と第ｊ個のターゲット検出枠との間の距離類似度を表す距離類似度行列Ｍ_Ｄを算出するための第３の算出モジュールと、
第ｉ行第ｊ列の値が第ｉ個のターゲット追跡枠に対応する前のフレームの画像における外観深度特徴と第ｊ個のターゲット検出枠の外観深度特徴とのコサイン類似度を表す外観深度特徴類似度行列Ｍ_Ａを算出するための第４の算出モジュールと、
前記Ｍ_Ｄ及び前記Ｍ_Ａに基づいて、類似度マッチング行列を決定するための決定モジュールと、
を含み、
前記マッチングモジュールが、
前記類似度マッチング行列に基づいて、前記現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠に対して関連マッチングを行うことに用いられる請求項５に記載の装置。
少なくとも１つのプロセッサと、
該少なくとも１つのプロセッサにより実行可能で、前記少なくとも１つのプロセッサにより実行されることにより、前記少なくとも１つのプロセッサに請求項１から４のいずれか一項に記載の方法を実行させる命令が記憶され、前記少なくとも１つのプロセッサと通信接続されたメモリと、
を含む電子機器。
コンピュータに請求項１から４のいずれか一項に記載の方法を実行させるためのコンピュータ命令が格納されている非一時的なコンピュータ読み取り可能な記憶媒体。
プロセッサによって実行されると、請求項１から４のいずれか一項に記載の方法を実現させるコンピュータプログラム。