JP2020534610A

JP2020534610A - 目標トラッキング方法及び装置、電子機器並びに記憶媒体

Info

Publication number: JP2020534610A
Application number: JP2020516429A
Authority: JP
Inventors: シャオフイリウ; ホンウェイチン
Original assignee: ベイジンセンスタイムテクノロジーデベロップメントカンパニー，リミテッド
Priority date: 2018-03-06
Filing date: 2019-02-27
Publication date: 2020-11-26
Anticipated expiration: 2039-02-27
Also published as: KR102366733B1; US11216955B2; CN108460787B; WO2019170023A1; JP6999028B2; CN108460787A; US20200219268A1; SG11202002622QA; KR20200040885A

Abstract

本願の実施例は、目標画像の複数の基準画像の特徴を取得することと、前記複数の基準画像の特徴に基づいて、前記目標画像におけるトラッキング目標の複数の初期予測位置を決定することと、前記複数の初期予測位置に基づいて、前記目標画像におけるトラッキング目標の最終位置を決定することと、を含む目標トラッキング方法及び装置、電子機器並びに記憶媒体を提供する。本願の上記実施例では、目標トラッキングの基準画像に対する依存性を回避して、目標トラッキングのロバスト性を高めることができる。

Description

（関連出願の相互参照）
本願は、２０１７年３月６日に中国特許局に提出された、出願番号ＣＮ２０１８１０１８２７９７．Ｘ、発明の名称「目標トラッキング方法及び装置、電子機器、プログラム、記憶媒体」の中国特許出願の優先権を主張し、その開示の全てが参照によって本願に組み込まれる。

本願は、コンピュータービジョン技術に関し、特に、目標トラッキング方法及び装置、電子機器並びに記憶媒体に関する。

目標トラッキング課題は、一般的には、ビデオシークエンスの第１のフレームの目標物体の位置情報が与えられた前提で、ビデオ中の物体の後続の位置を予測することを指し、目標トラッキング技術は、ビデオ監視、無人運転、ヒューマンコンピュータインタラクションなどの適用シーンに広く応用されている。単一フレームの検出技術及び分割技術が相当に時間をかかるので、目標トラッキング技術を検出分割技術と共に使用して、ビデオ処理の速度を高め、より好適なリアルタイム性を保証することはしばしばある。

本願の実施例では目標トラッキング技術を提供する。

本願の実施例の１つの態様によれば、提供される目標トラッキング方法は、
目標画像の複数の基準画像の特徴を取得することと、
前記複数の基準画像の特徴に基づいて、前記目標画像におけるトラッキング目標の複数の初期予測位置を決定することと、
前記複数の初期予測位置に基づいて、前記目標画像におけるトラッキング目標の最終位置を決定することと、を含む。

選択可能に、前記複数の基準画像の特徴に基づいて、前記目標画像におけるトラッキング目標の複数の初期予測位置を決定することは、
前記目標画像に対して特徴抽出を行い、前記目標画像の複数の特徴を得ることと、
前記目標画像の複数の特徴と前記複数の基準画像の特徴に基づいて、前記目標画像におけるトラッキング目標の複数の初期予測位置を得ることと、を含む。

選択可能に、前記目標画像の複数の特徴と前記複数の基準画像の特徴に基づいて、前記目標画像におけるトラッキング目標の複数の初期予測位置を得ることは、
前記目標画像の複数の特徴をそれぞれ前記複数の基準画像の特徴中の対応特徴と接続し、複数の接続特徴を得ることと、
前記複数の接続特徴に基づいて、前記目標画像におけるトラッキング目標の複数の初期予測位置を得ることと、を含む。

選択可能に、前記目標画像に対して特徴抽出を行い、前記目標画像の複数の特徴を得ることは、
前記目標画像に対して畳み込み操作を実行し、中間特徴を得ることと、
前記複数の基準画像のうちの少なくとも一つの基準画像におけるトラッキング目標の位置に基づいて、前記中間特徴に対して複数の関心領域のアライメント操作を実行し、前記目標画像の複数の特徴を得ることと、を含む。

選択可能に、前記中間特徴に対して複数の関心領域のアライメント操作を実行し、前記目標画像の複数の特徴を得ることは、
前記複数の基準画像のうちの少なくとも１つの基準画像におけるトラッキング目標の位置に基づいて、前記中間特徴に対して関心領域のアライメント操作を実行し、前記目標画像の特徴を得ることを含む。

選択可能に、前記複数の基準画像のうちの少なくとも１つの基準画像におけるトラッキング目標の位置に基づいて、前記中間特徴に対して関心領域のアライメント操作を実行し、前記目標画像の特徴を得ることは、
前記複数の基準画像のうちの少なくとも１つの基準画像におけるトラッキング目標に対応する位置限定枠の前記基準画像での位置を関心領域として関心領域アライメント操作を行い、前記目標画像の特徴を得ることを含む。

選択可能に、前記複数の基準画像のうちの少なくとも１つの基準画像におけるトラッキング目標に対応する位置限定枠の前記基準画像での位置を関心領域として関心領域アライメント操作を行い、前記目標画像の特徴を得ることの前に、
前記複数の基準画像のうちの少なくとも１つの基準画像におけるトラッキング目標の位置限定枠を第１の所定の倍数拡大し、前記少なくとも１つの基準画像におけるトラッキング目標に対応する位置限定枠を得ることを更に含む。

選択可能に、前記目標画像に対して畳み込み操作を実行し、中間特徴を得ることの前に、
前記目標画像に対して切り抜き処理を行い、切り抜き画像を得ることを更に含み、
前記目標画像に対して畳み込み操作を実行し、中間特徴を得ることは、
前記切り抜き画像に対して畳み込み操作を実行し、中間特徴を得ることを含む。

選択可能に、前記目標画像に対して切り抜き処理を行い、切り抜き画像を得ることは、
前記目標画像の前に位置する少なくとも１つの第１の画像におけるトラッキング目標の位置情報に基づいて、前記目標画像に対して切り抜き処理を行い、切り抜き画像を得ることを含む。

選択可能に、前記少なくとも１つの第１の画像は前記目標画像の少なくとも１つの前記基準画像を含む。

選択可能に、前記少なくとも１つの第１の画像におけるトラッキング目標の位置情報に基づいて、前記目標画像に対して切り抜き処理を行い、切り抜き画像を得ることは、
前記少なくとも１つの第１の画像におけるトラッキング目標の位置情報に基づいて、前記切り抜き画像の中心点を決定することと、
前記切り抜き画像の中心点に基づいて前記目標画像に対して切り抜き処理を行い、前記切り抜き画像を得ることと、を含む。

選択可能に、前記切り抜き画像の中心点に基づいて前記目標画像に対して切り抜き処理を行い、前記切り抜き画像を得ることは、
前記目標画像を第２の所定の倍数拡大し、拡大処理後の前記目標画像を得ることと、
前記切り抜き画像の中心点に基づいて、前記拡大処理後の前記目標画像に対して切り抜き処理を行い、前記切り抜き画像を得ることと、を含む。

選択可能に、前記複数の初期予測位置に基づいて、前記目標画像におけるトラッキング目標の最終位置を決定することは、
前記複数の初期予測位置のうちの少なくとも１つの初期予測位置と前記トラッキング目標の外観基準位置との類似度をそれぞれ決定し、類似度が第１の所定の閾値より大きい少なくとも１つの初期予測位置を得ることと、
前記類似度が第１の所定の閾値より大きい少なくとも１つの初期予測位置に基づいて、前記目標画像に対応する最終位置を決定することと、を含む。

選択可能に、前記類似度が所定の閾値より大きい少なくとも１つの初期予測位置に基づいて、前記目標画像に対応する最終位置を決定することは、
前記類似度が第１の所定の閾値より大きい少なくとも１つの初期予測位置に対して加重平均を行い、前記目標画像に対応する最終位置を得ることを含む。

選択可能に、前記複数の初期予測位置と前記トラッキング目標の外観基準位置との類似度をそれぞれ決定することは、
前記初期予測位置に対応する位置限定枠と前記トラッキング目標の外観基準位置に対応する位置限定枠との交差合併比に基づいて、少なくとも１つの前記初期予測位置と前記トラッキング目標の外観基準位置との類似度を決定することを含む。

選択可能に、前記決定された目標画像におけるトラッキング目標の最終位置を前記トラッキング目標の外観基準位置を記憶するための第１のバッファ領域に格納することを更に含む。

選択可能に、前記複数の初期予測位置に基づいて、前記目標画像におけるトラッキング目標の最終位置を決定することは、
前記複数の初期予測位置のうちの少なくとも１つの初期予測位置の信頼度を決定することと、
前記信頼度が第２の所定の閾値より大きい少なくとも１つの前記初期予測位置に基づいて、前記目標画像におけるトラッキング目標の最終位置を決定することと、を含む。

選択可能に、前記信頼度が第２の所定の閾値より大きい少なくとも１つの前記初期予測位置に基づいて、前記目標画像におけるトラッキング目標の最終位置を決定することは、
前記信頼度が第２の所定の閾値より大きい少なくとも１つの前記初期予測位置に対して加重平均を行い、前記目標画像におけるトラッキング目標の最終位置を得ることを含む。

選択可能に、前記複数の初期予測位置のうちの少なくとも１つの初期予測位置の信頼度を決定することは、
信頼度スコアリングネットワークを用いて前記少なくとも１つの初期予測位置をそれぞれ処理し、前記少なくとも１つの初期予測位置に対応する信頼度を得ることを含む。

選択可能に、前記の信頼度スコアリングネットワークを用いて前記少なくとも１つの初期予測位置をそれぞれ処理し、前記少なくとも１つの初期予測位置に対応する信頼度を得ることの前に、
前記信頼度スコアリングネットワークを用いてサンプル画像の少なくとも１つの初期予測位置を処理し、対応する少なくとも１つの前記初期予測位置の予測信頼度を得ることと、
前記サンプル画像の標識位置に基づいて、前記少なくとも１つの初期予測位置の真実信頼度を決定することと、
前記少なくとも１つの初期予測位置の予測信頼度と真実信頼度に基づいて、前記信頼度スコアリングネットワークをトレーニングすることと、を更に含む。

選択可能に、前記目標画像の複数の基準画像の特徴を取得することは、
第２のバッファ領域から目標画像の複数の基準画像の特徴を取得することを含む。

選択可能に、前記目標画像と複数の前記基準画像の間に少なくとも１つの第２の画像の間隔があり、又は、
前記複数の基準画像は隣接する少なくとも２つの画像フレームを含み、又は
前記複数の基準画像中の任意２つの基準画像は隣接しない。

選択可能に、前記複数の初期予測位置に基づいて、前記目標画像におけるトラッキング目標の最終位置を決定することの後、
前記目標画像におけるトラッキング目標の最終位置及び前記複数の基準画像におけるトラッキング目標の位置に基づいて、前記目標画像を基準画像リストに加えるか否かを決定することを更に含む。

選択可能に、前記目標画像におけるトラッキング目標の最終位置及び前記複数の基準画像におけるトラッキング目標の位置に基づいて、前記目標画像を新しく加えられる基準画像とするか否かを決定することは、
前記目標画像におけるトラッキング目標の位置限定枠と前記複数の基準画像におけるトラッキング目標の位置限定枠との交差合併比に基づいて、前記目標画像を基準画像リストに加えるか否かを決定することを含む。

選択可能に、前記目標画像フレーム中のトラッキング目標の位置限定枠と前記複数の基準画像におけるトラッキング目標の各位置限定枠との交差合併比に基づいて、前記目標画像を基準画像リストに加えるか否かを決定することは、
目標画像におけるトラッキング目標の位置限定枠と前記複数の基準画像のトラッキング目標の位置限定枠との交差合併比をそれぞれ決定することと、
決定された複数の交差合併比に基づいて、平均の交差合併比を得ることと、
前記平均の交差合併比が交差合併比閾値以上であることに応答して、前記目標画像を基準画像リストに加えることと、を含む。

選択可能に、前記複数の初期予測位置に基づいて、前記目標画像におけるトラッキング目標の最終位置を決定することの後、
前記目標画像と前記複数の基準画像のうちの前記目標画像に最も近い基準画像との間に所定の個数の画像フレームの間隔がある場合に、前記目標画像を基準画像リストに加えることを更に含む。

選択可能に、
前記目標画像を基準画像リストに加えると決定したことに応答して、前記第２のバッファ領域に前記目標画像の特徴をバッファすることを更に含む。

本願の実施例の別の態様によれば、提供される目標トラッキング装置は、
目標画像の複数の基準画像の特徴を取得するための基準取得ユニットと、
前記複数の基準画像の特徴に基づいて、前記目標画像におけるトラッキング目標の複数の初期予測位置を決定するための初期予測ユニットと、
前記複数の初期予測位置に基づいて、前記目標画像におけるトラッキング目標の最終位置を決定するための最終位置ユニットと、を含む。

選択可能に、前記初期予測ユニットは、
前記目標画像に対して特徴抽出を行い、前記目標画像の複数の特徴を得るための特徴抽出モジュールと、
前記目標画像の複数の特徴と前記複数の基準画像の特徴に基づいて、前記目標画像におけるトラッキング目標の複数の初期予測位置を得るための位置予測モジュールと、を含む。

選択可能に、前記位置予測モジュールは、前記目標画像の複数の特徴を前記複数の基準画像の特徴中の対応特徴とそれぞれ一対一に接続し、複数の接続特徴を得ることと、前記複数の接続特徴に基づいて、前記目標画像におけるトラッキング目標の複数の初期予測位置を得ることに用いられる。

選択可能に、前記特徴抽出モジュールは、
前記目標画像に対して畳み込み操作を実行し、中間特徴を得るための畳み込みモジュールと、
前記中間特徴に対して複数の関心領域のアライメント操作を実行し、前記目標画像の複数の特徴を得るためのアライメントモジュールと、を含む。

選択可能に、前記アライメントモジュールは、前記複数の基準画像のうちの少なくとも１つの基準画像におけるトラッキング目標の位置に基づいて、前記中間特徴に対して関心領域のアライメント操作を実行し、前記目標画像の特徴を得るために用いられる。

選択可能に、前記アライメントモジュールは、前記複数の基準画像のうちの少なくとも１つの基準画像におけるトラッキング目標に対応する位置限定枠の前記基準画像での位置を関心領域として関心領域アライメント操作を行い、前記目標画像の特徴を得るために用いられる。

選択可能に、前記アライメントモジュールは、更に前記複数の基準画像のうちの少なくとも１つの基準画像におけるトラッキング目標の位置限定枠を第１の所定の倍数拡大し、前記少なくとも１つの基準画像におけるトラッキング目標に対応する位置限定枠を得るために用いられる。

選択可能に、前記特徴抽出モジュールは
前記目標画像に対して切り抜き処理を行い、切り抜き画像を得るための切り抜きモジュールと、
前記切り抜き画像に対して畳み込み操作を実行し、中間特徴を得るための前記畳み込みモジュールと、を更に含む。

選択可能に、前記切り抜きモジュールは、前記目標画像の前に位置する少なくとも１つの第１の画像におけるトラッキング目標の位置情報に基づいて、前記目標画像に対して切り抜き処理を行い、切り抜き画像を得るために用いられる。

選択可能に、前記切り抜きモジュールは、
前記少なくとも１つの第１の画像におけるトラッキング目標の位置情報に基づいて、前記切り抜き画像の中心点を決定するための中心決定モジュールと、
前記切り抜き画像の中心点に基づいて前記目標画像に対して切り抜き処理を行い、前記切り抜き画像を得るための切り抜き処理モジュールと、を含む。

選択可能に、前記切り抜き処理モジュールは、前記目標画像を第２の所定の倍数拡大し、拡大処理後の前記目標画像を得ることと、前記切り抜き画像の中心点に基づいて、前記拡大処理後の前記目標画像に対して切り抜き処理を行い、前記切り抜き画像を得ることとに用いられる。

選択可能に、前記最終位置ユニットは、
前記複数の初期予測位置のうちの少なくとも１つの初期予測位置と前記トラッキング目標の外観基準位置との類似度をそれぞれ決定し、類似度が第１の所定の閾値より大きい少なくとも１つの初期予測位置を得るための類似度決定モジュールと、
前記類似度が第１の所定の閾値より大きい少なくとも１つの初期予測位置に基づいて、前記目標画像に対応する最終位置を決定するための第１の位置計算モジュールと、を含む。

選択可能に、前記第１の位置計算モジュールは、前記類似度が第１の所定の閾値より大きい少なくとも１つの初期予測位置に対して加重平均を行い、前記目標画像に対応する最終位置を得るために用いられる。

選択可能に、前記類似度決定モジュールは、前記初期予測位置に対応する位置限定枠と前記トラッキング目標の外観基準位置に対応する位置限定枠との交差合併比に基づいて、少なくとも１つの前記初期予測位置と前記トラッキング目標の外観基準位置との類似度を決定するために用いられる。

選択可能に、前記最終位置ユニットは、
前記決定された目標画像におけるトラッキング目標の最終位置を前記トラッキング目標の外観基準位置を記憶するための第１のバッファ領域に格納するための位置記憶モジュールを更に含む。

選択可能に、前記最終位置ユニットは、
前記複数の初期予測位置のうちの少なくとも１つの初期予測位置の信頼度を決定するための信頼度決定モジュールと、
前記信頼度が第２の所定の閾値より大きい少なくとも１つの前記初期予測位置に基づいて、前記目標画像におけるトラッキング目標の最終位置を決定するための第２の位置計算モジュールと、を含む。

選択可能に、前記信頼度決定モジュールは、前記信頼度が第２の所定の閾値より大きい少なくとも１つの前記初期予測位置に対して加重平均を行い、前記目標画像におけるトラッキング目標の最終位置を得るために用いられる。

選択可能に、前記信頼度決定モジュールは、信頼度スコアリングネットワークを用いて前記少なくとも１つの初期予測位置をそれぞれ処理し、前記少なくとも１つの初期予測位置に対応する信頼度を得るために用いられる。

選択可能に、前記信頼度決定モジュールは、更に、
前記信頼度スコアリングネットワークを用いてサンプル画像の少なくとも１つの初期予測位置を処理し、対応する少なくとも１つの前記初期予測位置の予測信頼度を得ることと、
前記サンプル画像の標識位置に基づいて、前記少なくとも１つの初期予測位置の真実信頼度を決定することと、
前記少なくとも１つの初期予測位置の予測信頼度と真実信頼度に基づいて、前記信頼度スコアリングネットワークをトレーニングすることとに用いられる。

選択可能に、前記基準取得ユニットは、第２のバッファ領域から目標画像の複数の基準画像の特徴を取得するために用いられる。

選択可能に、
前記目標画像におけるトラッキング目標の最終位置及び前記複数の基準画像におけるトラッキング目標の位置に基づいて、前記目標画像を基準画像リストに加えるか否かを決定するための基準画像決定ユニットを更に含む。

選択可能に、前記基準画像決定ユニットは、前記目標画像におけるトラッキング目標の位置限定枠と前記複数の基準画像におけるトラッキング目標の位置限定枠との交差合併比に基づいて、前記目標画像を基準画像リストに加えるか否かを決定するために用いられる。

選択可能に、前記基準画像決定ユニットは、
目標画像におけるトラッキング目標の位置限定枠と前記複数の基準画像のトラッキング目標の位置限定枠との交差合併比をそれぞれ決定し、決定された複数の交差合併比に基づいて、平均の交差合併比を得るための交差合併比決定モジュールと、
前記平均の交差合併比が交差合併比閾値以上であることに応答して、前記目標画像を基準画像リストに加えるための添加決定モジュールと、を含む。

選択可能に、
前記目標画像と前記複数の基準画像のうちの前記目標画像に最も近い基準画像との間に所定の個数の画像フレームの間隔がある場合に、前記目標画像を基準画像リストに加えるための基準リスト更新ユニットを更に含む。

選択可能に、
前記目標画像を基準画像リストに加えると決定したことに応答して、前記第２のバッファ領域に前記目標画像の特徴をバッファするための特徴バッファユニットを更に含む。

本願の実施例の別の態様によれば、提供される電子機器は、上記のような目標トラッキング装置を備えるプロセッサを含む。

本願の実施例の別の態様によれば、提供される電子機器は、実行可能コマンドを記憶するためのメモリと、
前記メモリと通信して前記実行可能コマンドを実行して上記のような目標トラッキング方法を完成するためのプロセッサと、を含む。

本願の実施例の別の態様によれば、提供されるコンピューター記憶媒体は、コンピューター可読コマンドを記憶するためのものであり、前記コマンドがプロセッサにより実行される時に、前記プロセッサに上記のような目標トラッキング方法を実行させる。

本願の実施例の別の態様によれば、提供されるコンピュータープログラムは、コンピューター可読コードを含み、前記コンピューター可読コードが機器上で動作する時に、前記機器中のプロセッサに上記のような目標トラッキング方法を実行させる。

本願の実施例の更に１つの態様によれば、提供されるコンピュータープログラム製品は、コンピューター可読コマンドを記憶するためのものであり、前記コマンドが実行される時に、コンピューターに上記のいずれか１つの実現可能な形態に記載の目標トラッキング方法を実行させる。

選択可能な一実施形態では、前記コンピュータプログラム製品は、具体的にコンピュータ記憶媒体であり、別の選択可能な一実施形態では、前記コンピュータプログラム製品は、具体的に例えばＳＤＫなどのソフトウェア製品である。

本願の実施例によれば、目標画像の複数の基準画像の特徴を取得することと、前記複数の基準画像の特徴に基づいて、前記目標画像におけるトラッキング目標の複数の初期予測位置を決定することと、前記複数の初期予測位置に基づいて、前記目標画像におけるトラッキング目標の最終位置を決定することと、を含む別の目標トラッキング方法及びそれに対応する装置及び電子機器、コンピューター記憶媒体、コンピュータープログラム並びにコンピュータープログラム製品を更に提供する。

本願の上記実施例で提供される目標トラッキング方法及び装置、電子機器並びに記憶媒体によれば、目標画像の複数の基準画像の特徴を取得し、複数の基準画像の特徴に基づいて、目標画像におけるトラッキング目標の複数の初期予測位置を決定し、複数の初期予測位置に基づいて、目標画像におけるトラッキング目標の最終位置を決定するようになっており、目標トラッキングの基準画像に対する依存性を回避して、目標トラッキングのロバスト性を高めることができる。

以下、図面及び実施例を通じて本願の技術的手段をさらに詳しく説明する。

明細書の一部を構成する図面は、本願の実施例を説明し、その説明と共に本願の原理を解釈することに用いられる。

図面を参照し、以下の詳細な説明により本願をより明瞭に理解することができる。
本願の実施例で提供される目標トラッキング方法のフローチャートである。本願の実施例で提供される目標トラッキング方法の選択可能な一例のフローチャートである。図２に示す回帰ネットワーク中の目標フレームブランチで目標フレームのｋ個のｐｒｏｐｏｓａｌを得る選択可能な一例のフローチャートを示す。本願の実施例で提供される目標トラッキング装置の構造模式図である。本願の実施例の端末装置又はサーバーを実現するのに適する電子機器の構造模式図である。

ここで、図面を参照しながら本願の様々な例示的な実施例を詳細に説明する。なお、特に断らない限り、これらの実施例で記述した部材及びステップの相対的配置、数式及び値は本願の範囲を限定するものではないことに注意すべきである。

同時に、説明の便宜上、図面に示した各部分の寸法は実際の比例関係に従って描いたものではないことを理解すべきである。

以下の少なくとも一つの例示的な実施例に対する説明は実際に説明的なものに過ぎず、本願及びその適用または使用へのなんらの制限にもならない。

関連分野の当業者に既知の技術、方法及び機器については、詳細に説明しない場合があるが、場合によって、前記技術、方法及び機器は明細書の一部と見なすべきである。

なお、類似する符号及び英文字は以下の図面において類似項目を表し、従って、ある一項が一つの図面において定義されれば、以降の図面においてそれをさらに説明する必要がないことに注意すべきである。

本願の実施例はコンピュータシステム／サーバーに適用可能であり、それは他の様々な共通または専用計算システム環境または構成と共に動作可能である。コンピュータシステム／サーバーとの併用に適する公知の計算システム、環境及び／または構成の例は、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、ファットクライアント、手持ちまたはラップトップデバイス、マイクロプロセッサに基づくシステム、セットトップボックス、プログラマブル消費者用電子機器、ネットワークパソコン、小型コンピュータシステム、大型コンピュータシステム及び前記の任意のシステムを含む分散型クラウドコンピューティング技術環境などを含むが、これらに限定されない。

コンピュータシステム／サーバーはコンピュータシステムにより実行されるコンピュータシステム実行可能コマンド（例えば、プログラムモジュール）の一般的な言語環境において記述できる。通常、プログラムモジュールはルーチン、プログラム、目的プログラム、コンポーネント、ロジック、データ構造などを含んでよく、それらは特定のタスクを実行するかまたは特定の抽象データ型を実現する。コンピュータシステム／サーバーは分散型クラウドコンピューティング環境において実施でき、分散型クラウドコンピューティング環境において、タスクは通信ネットワークにわたってリンクされた遠隔処理機器により実行される。分散型クラウドコンピューティング環境において、プログラムモジュールは記憶機器を含むローカルまたは遠隔計算システムの記憶媒体に存在してよい。

図１は本願の実施例で提供される目標トラッキング方法のフローチャートである。該方法は例えば端末装置、サーバー、移動機器などのような任意の電子機器により実行されてよい。

ステップ１１０において、目標画像の複数の基準画像の特徴を取得する。

選択可能な一例では、該ステップ１１０はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、基準取得ユニット４１により実行されてもよい。

トラッキング目標をトラッキングするために、選択可能に、ビデオ記録などの手段により該トラッキング目標のマルチフレーム画像を収集し、これらの画像でのトラッキング目標の位置を決定し、画像の時間の取得を組み合わせることにより、時間による該トラッキング目標の移動軌跡を決定し、トラッキング目標に対するトラッキングを実現することができる。

いくつかの実施例では、トラッキング目標に対するトラッキングを実現するために、既知の１つ又は複数の画像でのトラッキング目標の位置が必要とされ、該位置に基づいて現在トラッキングしようとするトラッキング目標を決定し、又は、トラッキング目標がある特定の目標（例えば、顔又は人体など）であることが知られており、既知のトラッキング目標に対して複数の画像フレームを収集する。

選択可能に、１つ又は複数の画像におけるトラッキング目標の決定された位置に基づいて、トラッキング目標に対するトラッキングを実現することができ、本願の実施例のトラッキングされる目標は既知又は未知の特定の物体又は人物又は他の種類であってよく、本願の実施例はこれについて制限を加えない。

本願の実施例では、複数の基準画像を含む基準画像リストが採用される。ここで、複数の基準画像中の任意２つの基準画像は隣接しても隣接しなくてもよい。例えば、該複数の基準画像はビデオストリーム中の隣接するＫ個の画像フレームであってよく、又は、該複数の基準画像中の隣接する基準画像の一部がビデオストリームにおいて隣接し、他の一部がビデオにおいて隣接しないようになってよく、又は、該複数の基準画像中の任意２つの隣接する基準画像はビデオストリームにおいて相互に隣接しなくてよく、選択可能に、複数の基準画像の間に１つ又は複数の画像の間隔があってよい。例えば、複数の基準画像中の隣接する基準画像の間に一定数量の画像フレームの間隔があってよく、例えば、Ｎ個の画像フレームの間隔があり、ここで、Ｎが２以上の所定の数値である。Ｎの数値は適用シーン及び要求に応じて決定してよく、本願の実施例ではＮの数値は限定されない。又は、該複数の基準画像中の異なる隣接画像の間に個数が異なる画像の間隔があってもよく、本願の実施例はこれについて制限を加えない。

本明細書中の「複数の基準画像中の隣接する画像又は隣接する基準画像」は、所定の順序付け規則により該複数の基準画像を配列した後隣接する基準画像を指してよく、ここで、該順序付け規則は収集時間又は検出時間により配列するなどのようになってよく、本明細書中の「ビデオストリーム中の隣接する画像」はビデオストリーム又はビデオストリームセグメント中の複数の画像を配列した後隣接する画像を指してよく、該配列はビデオストリーム中の元の順序又はある特定の順序付け規則を指してよく、本願の実施例では、配列の具体的な実現は限定されないことを理解すべきである。

本願の実施例では、選択可能に、目標画像はその複数の基準画像と隣接してよい。又は、目標画像とその基準画像の間に少なくとも１つの画像フレーム（第２の画像という）の間隔があってよい。選択可能に、目標画像とその複数の基準画像中の任意の基準画像の間に１つ又は複数の画像の間隔があってよく、又は、目標画像は複数の基準画像中の一部の基準画像と隣接してよく、複数の基準画像中の別の一部の基準画像との間に１つ又は複数の画像の間隔があってよく、本願の実施例はこれについて制限を加えない。目標画像の１フレーム前の画像を基準画像とする方式と比較すれば、本願の実施例で提供される技術的手段は予測精度を高めることができ、その原因は早い画像の予測がより精確で、早い画像をトラッキング基準画像として誤差累積の問題を効果的に解決できることにある。

本願の実施例では、選択可能に、異なる画像は異なる基準画像を有してよく、又は、複数の画像は同一な基準画像を重複使用してよく、例えば、目標画像は少なくとも１つの第３の画像と同一な基準画像を有し、例えば、目標画像の複数の基準画像が第３の画像の複数の基準画像と完全に同一であり、又は、目標画像の複数の基準画像中の一部の基準画像も第３の画像の基準画像であり、本願の実施例はこれについて制限を加えない。ここで、選択可能に、この少なくとも１つの第３の画像は該目標画像と隣接してよいが、本願の実施例はこれに限定されるものではない。この時に、選択可能に、基準画像の特徴をバッファ領域に記憶してよく、画像のトラッキング目標の位置予測を行う時に、記憶された基準画像の特徴を呼び出せばよく、位置予測の速度が高まる。

本願の実施例では、複数種の方式により基準画像の特徴を取得してよい。いくつかの実施例では、他の装置から基準画像の特徴を取得してよく、例えば、サーバーは端末装置から送信される基準画像の特徴を受信し、更に例えば、電子機器はデータベースから基準画像の特徴を取得し、ここで、該データベースは電子機器のローカルデータベースとして設置され又は他の機器に設置されてよい。別のいくつかの実施例では、基準画像を取得した後、基準画像に対して特徴抽出処理を行い、基準画像の特徴を得てよい。

１つ又は複数の選択可能な実施例では、電子機器のメモリに記憶された複数の基準画像の特徴を取得してよく、例えば、第２のバッファ領域から目標画像の複数の基準画像の特徴を取得する。選択可能に、基準画像の特徴を第２のバッファ領域に記憶し、且つ第２のバッファ領域から基準画像の特徴を取得してよく、ここで、該第２のバッファ領域を位置見本バッファ領域（ＬｏｃａｔｉｏｎＥｘｅｍｐｌａｒＢｕｆｆｅｒ）と呼んでもよいが、本願の実施例では、第２のバッファ領域の名称について制限を加えない。

本願の実施例では、第２のバッファ領域は基準画像の情報を記憶するために用いられ、選択可能に、現在基準画像とする複数の画像の情報、即ち、基準画像リストに現在含まれる複数の基準画像の情報を記憶してよく、例えば、基準画像の特徴を記憶してよく、又は更に基準画像におけるトラッキング目標の位置情報を記憶してよく、本願の実施例はこれについて制限を加えない。

深層回帰ネットワークに基づいて実現される目標トラッキング方法において、深層回帰ネットワークは基準画像ブランチ及び目標画像ブランチからなり、基準画像ブランチは基準画像特徴抽出装置を利用して価値のある位置見本（ｌｏｃａｔｉｏｎｅｘｅｍｐｌａｒ）情報を得ることができ、目標物体の位置を予測するように目標画像ブランチを指導する。選択可能に、一般的にはｔ−１番のフレームを用いてｔ番のフレームを予測する策略が採用される。しかしながら、事実的には、ｔ番のフレームの目標物体の位置を予測する時に、ｔ−２番のフレームの前の全ての画像がすでに基準画像ブランチの特徴抽出装置を通過しており、有効な位置見本が得られた。従って、位置見本の重複使用を行って、トラッキングシステムの速度を高めることができる。

ステップ１２０において、複数の基準画像の特徴に基づいて、目標画像におけるトラッキング目標の複数の初期予測位置を決定する。

選択可能な一例では、該ステップ１２０はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、初期予測ユニット４２により実行されてもよい。

いくつかの実施例では、複数の基準画像のうちのそれぞれの基準画像の特徴に基づいて、目標画像におけるトラッキング目標の１つの初期予測位置を得てよく、それに対して、複数の初期予測位置と複数の基準画像が一対一に対応する。別のいくつかの実施例では、複数の基準画像のうちの少なくとも２つの基準画像の特徴に基づいて、目標画像におけるトラッキング目標の１つの初期予測位置を得てよく、それに対して、複数の初期予測位置の数量と複数の基準画像の数量が等しく又は等しくなく、本願の実施例はこれについて制限を加えない。

１つ又は複数の選択可能な実施例では、
目標画像に対して特徴抽出を行い、目標画像の複数の特徴を得ることと、
目標画像の複数の特徴と複数の基準画像の特徴に基づいて、目標画像におけるトラッキング目標の複数の初期予測位置を得ることと、を含んでよい。

該目標画像の複数の特徴の数量と複数の基準画像の数量が等しくても等しくなくてもよく、本願の実施例はこれについて制限を加えない。

本願の実施例における用語の「特徴「」は特徴ベクトル、特徴行列、特徴テンソル又は特徴マップを指してよく、本願の実施例はこれについて制限を加えないことを理解すべきである。

いくつかの実施例では、目標画像の複数の特徴及び複数の基準画像の特徴に対して加重平均又は他の類型の１種又は複数種の処理を行い、処理結果を得、処理結果に基づいて目標画像におけるトラッキング目標の複数の初期予測位置を得てよい。

いくつかの選択可能な実施例では、目標画像の複数の特徴と複数の基準画像の特徴を接続又はスプライシングし、複数の接続特徴を得、複数の接続特徴又はスプライシング特徴に基づいて、目標画像におけるトラッキング目標の複数の初期予測位置を得てよい。

ここで、選択可能に、目標画像の複数の特徴と複数の基準画像の特徴の接続（又はスプライシング）は、目標画像の複数の特徴をそれぞれ複数の基準画像の特徴中の対応特徴と一対一に接続（又はスプライシング）し、即ち目標画像の複数の特徴を複数の基準画像の特徴と一対一に接続（又はスプライシング）して、複数の接続特徴又はスプライシング特徴を得るようになってよい。

選択可能な実現形態では、ここの接続（又はスプライシング）はチャネル重畳を指してよく、例えば、第１の画像フレームが３つのチャネルにより３つの特徴マップを出力し、基準フレームが３つのチャネルにより３つの特徴マップを出力し、特徴接続により６つの特徴マップを得ることができる。

本願の実施例では、接続特徴に基づいてトラッキング目標の位置を得る方式が多い。いくつかの選択可能な実施例では、全接続層及び／又は他のネットワーク層の処理により、トラッキング目標の位置を得てよく、本願の実施例はこれについて制限を加えない。

本願の実施例では、複数種の方式を用いて目標画像に対して特徴抽出を行ってよく、例えば、目標画像の複数の特徴を得るには、関心領域（ｒｅｇｉｏｎｏｆｉｎｔｅｒｅｓｔ、ＲｏＩ）プーリング（ｐｏｏｌｉｎｇ）により特徴抽出を行ってもよく、又は、関心領域（ＲｏＩ）アライメント（Ａｌｉｇｎ）により特徴抽出を行ってもよく、又は、他の手段により特徴抽出を行ってもよく、本願の実施例はこれについて制限を加えない。

ＲＯＩＰｏｏｌｉｎｇは、文字通り、Ｐｏｏｌｉｎｇ層の一種であり、且つＲｏＩｓに対するＰｏｏｌｉｎｇであり、その特徴は入力特徴マップのサイズが一定ではないが、出力特徴マップのサイズが一定であることであり、ＲＯＩサイズが（７、６）であれば、ＲＯＩＰｏｏｌｉｎｇプーリングを経た後得られたサイズが（６、６）であり、（７、６）から（６、６）への変換によるあるエッジ画素の損失が不可避である。関心領域アライメント（ＲＯＩＡｌｉｇｎ）は双線形補間を利用して、（７、６）のＲｏＩ補間を（１２、１２）に拡張し、この時に（６、６）のＲＯＩＰｏｏｌｉｎｇを行えば、精度を高めることができる。

なお、本願の実施例では、選択可能に、複数の基準画像のうちの少なくとも１つの基準画像におけるトラッキング目標の位置に基づいて、目標画像に対して特徴抽出を行い、目標画像の特徴を得てよく、ここで、この少なくとも１つの基準画像は複数の基準画像中の一部又は全部であってよい。例えば、Ｋ個の基準画像におけるトラッキング目標の位置に基づいて、目標画像に対して特徴抽出を行い、目標画像のＫ個の特徴を得てよく、Ｋが１以上の整数であるが、但本願の実施例はこれに限定されるものではない。

いくつかの選択可能な実施例では、目標画像に対して特徴抽出を行い、目標画像の複数の特徴を得ることは、
目標画像に対して畳み込み操作を実行し、中間特徴を得ることと、
中間特徴に対して複数の関心領域のアライメント操作を実行し、目標画像の複数の特徴を得ることと、を含む。

選択可能に、中間特徴は特徴マップ又は他の表現形式であってよい。中間特徴が特徴マップであるとすれば、選択可能に、特徴マップ中で関心領域（ＲｏＩ）を選択して関心領域（ＲｏＩ）アライメント操作を行うことにより、目標画像の特徴を得ることができる。このように、複数の関心領域（ＲｏＩ）を選択することにより、目標画像の複数の特徴を得ることができる。

本願の実施例では、複数種の方式により特徴マップ中で関心領域（ＲｏＩ）を選択できる。選択可能に、複数の基準画像のうちの少なくとも１つの基準画像におけるトラッキング目標の位置を関心領域とし、中間特徴に対して関心領域（ＲｏＩ）アライメント操作を実行し、目標画像の特徴を得てよい。いくつかの実施例では、基準画像におけるトラッキング目標の位置に基づいて、関心領域（ＲｏＩ）を決定してよい。例えば、基準画像におけるトラッキング目標の位置限定枠（ｂｏｕｎｄｉｎｇｂｏｘ）の基準画像での位置を関心領域（ＲｏＩ）としてよく、又は基準画像におけるトラッキング目標に対応する位置限定枠に対して水平移動、拡大などの１種又は複数種の操作を行って、関心領域（ＲｏＩ）を得てよく、本願の実施例はこれについて制限を加えない。

いくつかの実施例では、複数の基準画像のうちの少なくとも１つの基準画像におけるトラッキング目標に対応する位置限定枠の基準画像での位置を関心領域として関心領域アライメント操作を行い、目標画像の特徴を得る。ここで、トラッキング目標に対応する位置限定枠はトラッキング目標の位置限定枠そのものであってもよく、トラッキング目標の位置限定枠の処理により得られたものであってもよく、例えば、基準画像におけるトラッキング目標の位置限定枠を第１の所定の倍数拡大することにより、基準画像のトラッキング目標に対応する位置限定枠を得る。

選択可能に、該第１の所定の倍数は適用シーン又は実際の要求に応じて設定可能であり、例えば該第１の所定の倍数が２．０であるが、本願の実施例は該第１の所定の倍数の数値について制限を加えない。

基準画像におけるトラッキング目標に対応する位置限定枠の基準画像での位置を決定した後、目標画像における該位置に存在する領域を関心領域としてよい。

基準画像から目標画像へのトラッキング目標に変位が存在するため、依然として基準画像中の位置限定枠により目標画像の特徴を得れば、トラッキング目標の精確位置を逃す可能性があるので、基準画像におけるトラッキング目標の位置限定枠を第１の所定の倍数拡大し、拡大後の位置限定枠の基準画像での位置を関心領域（ＲｏＩ）として関心領域（ＲｏＩ）アライメント操作を行って、予測正確度を高めることができる。

本願の実施例では、直接目標画像に対して特徴抽出を行ってよく、例えば、目標画像に対して畳み込み操作を行う。又は、目標画像に対して、切り抜き、サイズ調整、縮小、回転、輝度調整などの１種又は複数種を含む前処理を行った後特徴抽出を行い、本願の実施例はこれについて制限を加えない。

いくつかの選択可能な実施例では、目標画像に対して畳み込み操作を実行し、中間特徴を得ることの前に、目標画像に対して切り抜き処理を行い、切り抜き画像を得ることを更に含む。それに対して、切り抜き画像に対して畳み込み操作を行い、中間特徴を得てよい。

選択可能に、所定のサイズに基づいて目標画像に対して切り抜き処理を行ってもよく、又は、ビデオストリーム中の他の画像に基づいて、目標画像に対して切り抜き処理を行ってもよい。例えば、少なくとも１つの第１の画像におけるトラッキング目標の位置情報に基づいて、目標画像に対して切り抜き処理を行い、切り抜き画像を得てよく、ここで、少なくとも１つの第１の画像は目標画像の前に位置する。選択可能に、この少なくとも１つの第１の画像は目標画像と隣接する少なくとも１つの画像を含んでもよく、又は、この少なくとも１つの第１の画像は目標画像の少なくとも１つの基準画像を含んでもよく、本願の実施例はこれについて制限を加えない。

いくつかの実施例では、トラッキング目標が切り抜き画像で占める割合が特定の数値に達しており、本願の実施例はこれについて制限を加えない。

選択可能に、ニューラルネットワーク中の畳み込み層により切り抜き画像に対して畳み込み操作を実行し、中間特徴を得てよく、本願の実施例はこれについて制限を加えない。

選択可能に、いくつかの実施例では、少なくとも１つの第１の画像におけるトラッキング目標の位置情報に基づいて、目標画像に対して切り抜き処理を行い、切り抜き画像を得ることは、
少なくとも１つの第１の画像におけるトラッキング目標の位置情報に基づいて、切り抜き画像の中心点を決定することと、
切り抜き画像の中心点に基づいて目標画像に対して切り抜き処理を行い、切り抜き画像を得ることと、を含む。

目標画像を切り抜く目的は、トラッキング目標を目標画像から分離して、得られた切り抜き画像におけるトラッキング目標の占める割合が所定の割合より大きいようにして、トラッキング目標の位置をより精確に決定することにある。

選択可能に、少なくとも１つの第１の画像におけるトラッキング目標に対応する位置限定枠の中心点の位置に基づいて、切り抜き画像の中心点の位置を決定してよい。例えば、少なくとも１つの第１の画像の数量が複数であり、それに対して、複数の第１の画像におけるトラッキング目標に対応する位置限定枠の中心点の位置の平均値を切り抜き画像の中心点の位置とし、更に例えば、少なくとも１つの第１の画像の個数が１つであり、それに対して、第１の画像におけるトラッキング目標に対応する位置限定枠の中心点の位置を切り抜き画像の中心点の位置として、又は第１の画像におけるトラッキング目標に対応する位置限定枠の中心点の位置に対して水平移動などの１種又は複数種の処理を行って、切り抜き画像の中心点の位置を得るが、本願の実施例はこれに限定されるものではない。

選択可能に、切り抜きプロセスは、中心点の決定と切り抜き画像の長さ及び幅の決定との２つの部分を含んでよく、ここで、選択可能な一例において、中心点は目標画像に近接した（例えば、目標画像に最も近い）基準画像又は目標画像の１フレーム前の画像におけるトラッキング目標の位置中心に基づいて決定されてよく、切り抜き画像の長さ及び幅は基準画像又は１フレーム前の画像におけるトラッキング目標に対応する位置限定枠に基づいて決定されてよい。別の選択可能な例において、少なくとも１つの第１の画像におけるトラッキング目標に対応する位置限定枠の中心点に対して平均処理を行って、切り抜き画像の中心点を得てよいが、本願の実施例はこれに限定されるものではない。

いくつかの実施例では、切り抜く前に、目標画像を第２の所定の倍数拡大し、拡大処理後の目標画像を得てよい。それに対して、切り抜き画像の中心点に基づいて、拡大処理後の目標画像に対して切り抜き処理を行い、切り抜き画像を得てよい。

第１の所定の倍数と第２の所定の倍数が等しくても等しくなくてもよい。第２の所定の倍数は実際の適用シーン又は要求に応じて決定可能であり、例えば、第２の所定の倍数が３．０であるが、本願の実施例はこれに限定されるものではない。

ステップ１３０において、複数の初期予測位置に基づいて、目標画像におけるトラッキング目標の最終位置を決定する。

選択可能な一例では、該ステップ１３０はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、最終位置ユニット４３により実行されてもい。

選択可能に、初期予測位置及び／又は最終位置はトラッキング目標に対応する位置限定枠の位置、例えば顔枠、人体枠又は特定物体又は部位の位置などを指してよく、本願の実施例ではトラッキング目標の位置の具体的な形態は限定されない。

いくつかの実施例では、複数の初期予測位置に対して例えば数学的平均又は加重平均などの平均処理を行って、トラッキング目標の目標画像での最終位置を得てよい。別のいくつかの実施例では、複数の初期予測位置から少なくとも１つの初期予測位置を選択し、少なくとも１つの初期予測位置に基づいて、トラッキング目標の目標画像での最終位置を得てよい。

１つ又は複数の選択可能な実施例では、複数の初期予測位置の信頼度に基づいて、目標画像におけるトラッキング目標の最終位置を決定する。

選択可能に、複数の初期予測位置の信頼度に基づいて、複数の初期予測位置から少なくとも１つの初期予測位置を選択し、少なくとも１つの初期予測位置に基づいて、最終位置を決定する。例えば、複数の初期予測位置から信頼度の高い少なくとも１つの初期予測位置を選択する。ここで、この少なくとも１つの初期予測位置は複数の初期予測位置のうちの信頼度が最も高い所定の数量の位置であってもよく、複数の初期予測位置のうちの信頼度が第２の所定の閾値より大きい位置であってもよく、本願の実施例はこれについて制限を加えない。

信頼度は該予測位置が該目標画像でのトラッキング目標の真実位置に対応する確率を表し、いくつかの実施例では、信頼度はトレーニングされたニューラルネットワークであるスコアリングネットワークにより得られ、例えば、１つのバイナリ分類ネットワークを利用し、予測位置と真実位置が重なり合った時に、真実値１、予測値０が出力され、予測位置と真実位置が重なり合わない時に、真実値０、予測値１が出力され、本願の実施例ではスコアリングネットワークの具体的な実現は限定されない。

いくつかの実施例では、選択された少なくとも１つの初期予測位置の平均値を最終位置とし、ここで、該平均値は算術平均値、幾何平均値又は加重平均値であってよく、例えば、選択された少なくとも１つの初期予測位置に対して加重平均を行い、目標画像でのトラッキング目標の最終位置を得、ここで、初期予測位置の重み値はその信頼度に依存するものであり、信頼度が大きいほど、重み値が大きくなり、信頼度が小さいほど、重み値が小さくなるが、本願の実施例はこれに限定されるものではない。

信頼度により得られた初期予測位置のうちのずれが大きい初期予測位置を削除してよく、それに対して、得られた最終位置は更に該目標画像におけるトラッキング目標の真実位置に近接し、より好適なトラッキングを実現することができる。

選択可能に、複数の初期予測位置のうちの少なくとも１つの初期予測位置の信頼度を決定することは、
信頼度スコアリングネットワークを利用して複数の初期予測位置をそれぞれ処理し、複数の初期予測位置に対応する信頼度を得ることを含む。

ここで、信頼度スコアリングネットワークはトレーニングして得られたものであり、入力された初期予測位置に対応してトレーニングされた信頼度スコアリングネットワークは対応する信頼度を出力でき、選択可能に、予測信頼度と真実信頼度に基づいて誤差を得て、誤差により逆勾配伝播法を利用してスコアリングネットワークをトレーニングすることができ、トレーニングされたスコアリングネットワークは予測位置が真実位置（既知の目標位置）となる確率をより好適に予測でき、該スコアリングネットワークはトラッキングしようとする特定の物体に対応してトレーニングされ、例えば、顔をトラッキングすることが必要とされる場合に、顔画像を用いて該スコアリングネットワークをトレーニングする。

選択可能に、信頼度スコアリングネットワークを利用して複数の初期予測位置をそれぞれ処理し、複数の初期予測位置に対応する信頼度を得ること前に、
信頼度スコアリングネットワークを用いてサンプル画像の少なくとも１つの初期予測位置を処理し、少なくとも１つの初期予測位置に対応する予測信頼度を得ることと、
サンプル画像の標識位置に基づいて、少なくとも１つの初期予測位置の真実信頼度を決定することと、
少なくとも１つの初期予測位置の予測信頼度と真実信頼度に基づいて、信頼度スコアリングネットワークをトレーニングすることと、ことを更に含む。

信頼度ネットワークのスコアリングの正確性を高めるために、信頼度スコアリングネットワークをトレーニングすることが必要とされ、トレーニングプロセスはニューラルネットワークのトレーニングプロセスと同様であり、いずれも真実信頼度が知られたサンプル画像に基づいて信頼度スコアリングネットワークをトレーニングし、選択可能に、様々なトラッキング目標に特定のトレーニングを採用してよく、例えば、顔をトラッキングする場合に、信頼度スコアリングネットワークをトレーニングするプロセスで、真実信頼度が知られた顔画像を用いて信頼度スコアリングネットワークをトレーニングして、得られた信頼度スコアリングネットワークによる顔画像の信頼度スコアリングがより精確になる。

本願の上記実施例で提供される目標トラッキング方法によれば、目標画像の複数の基準画像の特徴を取得し、複数の基準画像の特徴に基づいて、目標画像におけるトラッキング目標の複数の初期予測位置を決定し、複数の初期予測位置に基づいて、目標画像におけるトラッキング目標の最終位置を決定するようになっており、目標トラッキングの基準画像に対する依存性を回避して、目標トラッキングのロバスト性を高めることができる。

１つ又は複数の選択可能な実施例では、複数の初期予測位置とトラッキング目標の外観基準位置との類似度に基づいて、目標画像におけるトラッキング目標の最終位置を決定する。

選択可能に、複数の初期予測位置とトラッキング目標の外観基準位置との類似度に基づいて、複数の初期予測位置から少なくとも１つの初期予測位置を選択し、例えば、複数の初期予測位置からトラッキング目標の外観基準位置との類似度が高い少なくとも１つの初期予測位置を選択し、ここで、この少なくとも１つの初期予測位置は複数の初期予測位置のうちの外観基準位置との類似度が第１の所定の閾値より大きい位置、又は複数の初期予測位置のうちの外観基準位置との類似度が最も高い所定の数量の位置であってよく、本願の実施例ではこれについて制限を加えない。

選択可能に、他の装置から該トラッキング目標の外観基準位置を取得してよい。又は、トラッキング目標の外観基準位置を記憶するための第１のバッファ領域を設置してよく、該第１のバッファ領域は外観見本バッファ領域（ＡｐｐｅａｒａｎｃｅＥｘｅｍｐｌａｒＢｕｆｆｅｒ、ＡＥＢ）又は他の名称と呼んでもよく、本願の実施例では該第１のバッファ領域の名称について制限を加えない。この時に、第１のバッファ領域から該トラッキング目標の外観基準位置を取得してよい。又は、他の方式により該トラッキング目標の外観基準位置を得てもよく、本願の実施例では該トラッキング目標の外観基準位置の取得方式について制限を加えない。

ここで、該外観基準位置は予め設定されたものであってもよく、又はトラッキング目標の該ビデオストリーム中の１つ又は複数の画像フレームでの位置であってもよく、又はトラッキング目標の該ビデオストリーム中の１つ又は複数の画像フレームでの位置により処理して得られたものであってもよく、例えば、トラッキング目標の外観基準位置は該目標画像の前に位置する少なくとも１つの画像におけるトラッキング目標の最終位置に基づいて得られたものであり、一例において、トラッキング目標の外観基準位置は該目標対象の前に位置するある基準画像におけるトラッキング目標の最終位置であり、例えば該目標画像に最も近い基準画像におけるトラッキング目標の最終位置であり、又は、トラッキング目標の外観基準位置は該目標対象の前に位置する少なくとも１つの基準画像におけるトラッキング目標の最終位置に対して平均又は合併などの１種又は複数種の処理を行うことで得られたものである。該第１のバッファ領域中にバッファされる情報は一定のものであってもよく、又は一定の間隔の画像フレーム又は他のトリガ条件により更新されるものであってもよく、本願の実施例はこれについて制限を加えない。類似度選別により該目標画像との関連度が高い予測位置を得ることで、計算時間を節約し、トラッキング速度を高めると共に、トラッキングの正確度を保証することができる。

選択可能に、初期予測位置と外観基準位置との距離に基づいて、目標画像におけるトラッキング目標の最終位置を決定する。

選択可能に、初期予測位置に対応する位置限定枠とトラッキング目標の外観基準位置に対応する位置限定枠との交差合併比に基づいて、少なくとも１つの初期予測位置とトラッキング目標の外観基準位置との類似度を決定する。

交差合併比（ｉｎｔｅｒｓｅｃｔｉｏｎ−ｏｖｅｒ−ｕｎｉｏｎ）は２つの領域の交差集合と合併集合の比率を表し、本願の実施例では、初期予測位置に対応する位置限定枠と外観基準位置に対応する位置限定枠の交集と初期予測位置に対応する位置限定枠と外観基準位置に対応する位置限定枠の并集の割合を指してよく、交差合併比が大きいほど、２つの位置限定枠が類似するようになることを示し、即ち、類似度が大きいほど、交差合併比が小さくなり、２つの位置限定枠の類似度が小さくなる。

選択可能に、本願の実施例は更に他の方式を用いて初期予測位置と外観基準位置の間の類似度を決定してもよく、本願の実施例はこれについて制限を加えない。

選択可能に、類似度が第１の所定の閾値より大きい少なくとも１つの初期予測位置に対して加重平均を行い、目標画像に対応する最終位置を得てよい。

ここで、各初期予測位置が１つの重み値に対応し、類似度が大きい初期予測位置に対応する重み値が大きく、逆に、類似度が小さい初期予測位置に対応する重み値が小さい。

選択可能に、直接類似度が第１の所定の閾値より大きい少なくとも１つの初期予測位置に対して平均を行って、トラッキング目標の目標画像での位置を得てもよく、この時に、この少なくとも１つの初期予測位置が同一な重みに対応する。又は、他の方式を利用してこの少なくとも１つの初期予測位置を処理し、該トラッキング目標の目標画像での位置を得てもよく、本願の実施例はこれについて制限を加えない。

いくつかの選択可能な実施例では、決定された目標画像におけるトラッキング目標の最終位置をトラッキング目標の外観基準位置を記憶するための第１のバッファ領域に格納することを更に含む。

選択可能に、本願の実施例では、上書き又は増加の方式により該トラッキング目標の目標画像での位置を第１のバッファ領域に格納してよく、本願の実施例はこれについて制限を加えない。選択可能に、任意の条件でも該トラッキング目標の目標画像での位置を記憶してよい。又は、トラッキング目標の目標画像での位置が所定の条件を満たした時に第１のバッファ領域に記憶し、例えば、目標画像と第１のバッファ領域に記憶された外観基準位置に対応する画像フレームとの間の間隔が所定の数値であり、又はトラッキング目標の目標画像での位置が所定の条件を満たし、例えば目標画像と第１のバッファ領域に記憶された外観基準位置との間の差異が所定の閾値を超えたなどの場合が挙げられ、本願の実施例では目標画像におけるトラッキング目標の位置の記憶条件について制限を加えない。

１つ又は複数の選択可能な実施例では、トラッキング目標の目標画像での最終位置を決定した後、更に目標画像を基準画像リストに加えるか否かを決定してもよく、つまり、目標画像を用いて基準画像リストを更新するか否かを決定してもよい。ここで、該基準画像リストは、複数の基準画像を含んでよく、処理待ちの画像フレーム中のトラッキング目標のトラッキングに利用可能である。ずっと同一な基準画像の特徴を用いて目標画像に対して位置予測を行えば、トラッキング目標の位置移動が大きい時に、位置が不精確になるので、予測の正確性を高めるために、基準画像リストを定期的又は不定期的に更新してよく、本願の実施例はこれについて制限を加えない。

本願の実施例では、選択可能に、目標画像におけるトラッキング目標の最終位置及び複数の基準画像におけるトラッキング目標の位置に基づいて、目標画像を基準画像リストに加えるか否かを決定してもよく、又は、一定の画像間隔（例えば、Ｍ個の画像フレームの間隔）で基準画像リストを更新してもよく、この時に、目標画像と複数の基準画像の間の間隔が所定の条件を満たすか否かに応じて、目標画像を基準画像リストに加えるか否かを決定してもよく、又は、他の根拠に応じて目標画像を基準画像リストに加えるか否かを決定してもよい。

実際の目標トラッキングで、トラッキング目標の運動が複雑であり、その速度が一般的に変わらないというわけではない。ｔ＋１番のフレームの目標画像に関して、トラッキング目標のｔ番のフレームでの位置と複数の基準画像での位置を照合することにより、記憶された基準画像リストを動的に調整して、より適宜な基準画像の特徴を得てよい。

選択可能に、ｔ番のフレームを用いて基準画像リストを更新した場合に、即ちｔ番のフレームを基準画像リストに加えた場合に、ｔ＋１番のフレームの目標画像が複数の基準画像のうちの目標画像に最も近い基準画像と隣接することが可能になり、ｔ番のフレームを基準画像リストに加えなかった場合に、基準画像リストが更新されなく、この時に、ｔ＋１番のフレームの目標画像と複数の基準画像のうちの目標画像に最も近い基準画像の間に１つ又は複数の画像の間隔があってよい。例えば、目標画像と複数の基準画像のうちの目標画像に最も近い基準画像の間にＮ個の画像フレームの間隔があってよく、ここで、Ｎが２以上の所定の数値である。Ｎの数値は適用シーンに応じて決定してよく、本願の実施例ではＮの数値について制限を加えない。

選択可能に、目標画像におけるトラッキング目標の最終位置及び複数の基準画像におけるトラッキング目標の位置に基づいて、目標画像を基準画像リストに加えるか否かを決定することは、
目標画像におけるトラッキング目標の位置限定枠（ｂｏｕｎｄｉｎｇｂｏｘ）と複数の基準画像におけるトラッキング目標の位置限定枠（ｂｏｕｎｄｉｎｇｂｏｘ）との交差合併比に基づいて、目標画像を基準画像リストに加えるか否かを決定することを含む。

選択可能に、目標画像におけるトラッキング目標の位置限定枠と複数の基準画像のトラッキング目標の位置限定枠との交差合併比をそれぞれ決定し、決定された複数の交差合併比に基づいて、平均の交差合併比を得、平均の交差合併比が交差合併比閾値以上であることに応答して、目標画像を基準画像リストに加える。

選択可能に、複数の交差合併比に基づいて平均の交差合併比を得ることは、複数の交差合併比から平均値を求めることで行われ、又は複数の交差合併比に対して加重平均を実施することで行われ、ここで、選択可能に、目標画像に近い基準画像は、交差合併比の重み値が大きい。

いくつかの選択可能な実施例では、最終位置と複数の基準画像のうちの目標画像に最も近い基準画像中の位置との距離が近い（２つの位置限定枠の交差合併比が設定閾値以上である）場合に、該目標画像を基準画像リストに加える必要がなく、現在の基準画像リストの情報を用いて次のフレームの画像の位置予測を指導するのを継続することができる。最終位置と複数の基準画像のうちの目標画像に最も近い基準画像中の位置との距離が遠い（２つの位置限定枠の交差合併比が設定閾値より小さい）場合に、目標画像を基準画像リストに加えることができる。このような動的調整メカニズムにより、先に計算された特徴データ（例えば、中間特徴マップ）を十分に利用可能であり、それにより不必要な特徴抽出プロセスを多く減少した。

例えば、目標トラッキング方法を用いてビデオセグメントでの絶対位置が基本的に変わらない物体をトラッキングすれば、基準画像を更新せず、ずっと同様な基準画像を利用することができ、少なくとも１フレームのビデオ画像におけるトラッキング目標の位置のトラッキング速度を大幅に高め、更にトラッキング効率を高めた。

１つ又は複数の選択可能な実施例では、目標画像と複数の基準画像のうちの目標画像に近い（例えば、最も近い）基準画像の間に所定の個数の画像フレームの間隔があれば、目標画像を基準画像リストに加えると決定する。

特定の問題（例えば顔トラッキングのような特定の目標のトラッキング）に関して、応用する時に特定の基準画像更新策略を用いて目標トラッキング方法の基準画像を調整してよく、普及させる価値が非常に高い。

１つ又は複数の選択可能な実施例では、目標画像を基準画像リストに加えると決定したことに応答して、第２のバッファ領域に目標画像の特徴をバッファする。

選択可能に、第２のバッファ領域に記憶されるデータが持続的に増加してよく、それに対して、基準画像リストに含まれる基準画像の個数が持続的に増大してよく、このように、位置予測が必要とされる時に、第２のバッファから現在記憶された全ての基準画像中の最新の一定数量の基準画像の特徴を呼び出すことができる。選択可能に、記憶空間を節約するために、第２のバッファ領域に所定の数量の基準画像を保存してよく、基準画像リストに１つの新しい基準画像が増加された場合に、記憶時間が早い（例えば、最も早い）１つ又は複数の基準画像を削除してよく、それに対して、該基準画像リストに含まれる基準画像の個数が変わらなくてもよく、位置予測が必要とされる時に、バッファから現在記憶された全ての基準画像の特徴を呼び出せばよい。

図２は本願の実施例で提供される目標トラッキング方法の選択可能な一例のフローチャートである。図２に示すように、トラッキング目標の基準位置情報をバッファし、トラッキング目標の位置の間の類似度を決定するための外観見本バッファ領域（第１のバッファ領域）と、ｋ個の基準画像のうちの少なくとも１つの基準画像の特徴マップ及びｋ個の基準画像のうちの少なくとも１つの基準画像のトラッキング目標の位置をバッファし、マルチフレームの融合を行うための位置見本バッファ領域（第２のバッファ領域）とを含むトラッキングバッファ領域が設置されてよい。

別の態様では、目標トラッキングネットワーク全体は特徴抽出を行うための回帰ネットワークと類似度比較に利用可能な類似度判別ネットワークとを含んでよい。

回帰ネットワークは、基準画像ブランチと目標フレームブランチという２つのブランチを含んでよく、ここで、基準画像ブランチでは、基準画像に対して３倍拡大し（例えばｐａｄｄｉｎｇ）を行い、拡大後の画像を得、更に該拡大後の画像を畳み込みニューラルネットワーク（ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ、ＣＮＮ）に入力し、中間特徴を得ることができ、次に、中間特徴に対して関心領域アライメント（ＲＯＩＡｌｉｇｎ）又は関心領域プーリング（ＲＯＩＰｏｏｌｉｎｇ）処理を行い、基準画像に対応する特徴マップを得、該特徴マップに基づいて、トラッキング目標の該基準画像での位置を得ることができる。なお、更に該基準画像に対応する特徴マップ及びトラッキング目標位置を位置見本バッファ領域に格納してもよい。

目標フレームブランチでは、目標フレームに対して切り抜き処理を行い、切り抜き画像を得、切り抜き画像を畳み込みニューラルネットワーク（ＣＮＮ）に入力して処理し、中間特徴を得、次に、位置見本バッファ領域にバッファされたｋ個の基準画像におけるトラッキング目標の位置に基づいて、中間特徴に対して関心領域（ＲｏＩ）アライメント操作を行い、目標画像のＫ個の特徴マップを得、次に、目標画像のＫ個の特徴マップ及び位置見本バッファ領域にバッファされたｋ個の基準画像の特徴マップに対してスプライシング処理を行い、ｋ個の初期予測位置と呼んでもよいｋ個のプロポーザル（ｐｒｏｐｏｓａｌ）を得、最後に、類似度判断ネットワークを用いて該ｋ個のプロポーザル枠のそれぞれと外観見本バッファ領域にバッファされた外観基準位置に対してそれぞれ類似度比較を行い、目標フレームの最終予測結果を得ることができる。

図３は図２に示す回帰ネットワーク中の目標フレームブランチで目標フレームのｋ個のプロポーザル（ｐｒｏｐｏｓａｌ）を得る選択可能な一例のフローチャートを示す。図３に示すように、基準フレームブランチに関連する位置見本バッファにｋ個の位置限定枠が記憶されており、該ｋ個の位置限定枠に基づいて関心領域アライメント（ＲｏＩＡｌｉｇｎ）処理を行い、異なったスケールを有する様々な特徴マップを得、マルチスケールプーリングにより重み付け加算を行い、Ｋ個の特徴マップを得ることができ、次に、該Ｋ個の特徴マップに対して位置見本バッファに記憶されたＫ個の特徴マップとのスプライシング処理を行い、スプライシング特徴マップを得、次に該スプライシング特徴マップに対して１つ又は複数の（例として３つが図示された）全接続層の処理を行い、ｋ個のプロポーザル（ｐｒｏｐｏｓａｌ）を得ることができる。

図２及び図３に示す例は本願の実施例で提供される技術的手段をよりよく理解させるためのものに過ぎず、本願の実施例を限定するものと理解してはいけないことを理解すべきである。本願の実施例は図２及び図３に示される例に基づいて様々な変化及び置換えを加えることができ、また一部の動作又はフローが省略可能であり、本願の実施例はこれについて制限を加えない。

本願は各種の目標トラッキング技術の適用シーンに対して、マルチフレーム情報に基づく回帰ネットワーク構成を提案した。本願で提供される目標トラッキング方法は主に目標トラッキングの速度とロバスト性を向上させた。本願の目標トラッキング構成は深層回帰ネットワークの特徴重複使用技術に基づき、より効率的な中間特徴マップ管理構想を利用し、システム全体の深層回帰ネットワークのフィードフォワード時の特徴重複使用を増強し、トラッキング方法の高い効率を保証した。一方、本願では関心領域の特徴マップ、マルチフレーム重複使用及び情報融合に基づく策略が提案され、従来の回帰アルゴリズムの基準画像に対する依存性の問題が解決され、トラッキングシステムは試験においてより高いロバスト性を示した。全体的に、本願は高速を保持すると共に目標トラッキング方法のロバスト性を向上させた。

ユーザが携帯電話、カメラを用いて顔及び一般の物体を検出する時に、一般的には、目標トラッキングアルゴリズムとの組み合わせにより速度を高め、機器の消費電力を低減すると考えられる。本願の実施例は深層回帰ネットワークによる目標トラッキング技術を基礎として特徴バッファ及び特徴重複使用のメカニズムを利用し、目標トラッキングの速度を大幅に高めることができ、特定のタスク（顔トラッキング）上で１５００ｆｐｓの高速度トラッキングを実現でき、また、複数の基準画像の特徴に基づいてトラッキングを行えばトラッキングの正確度が高められる。これは実際の製品応用において非常に肝心なこととなり、従来のアルゴリズムの前向き速度を大幅に高めた。

本願の肝心なところはロバスト性の高い実用的高速目標トラッキングアルゴリズムを提案することにあり、本願のアルゴリズムは深層回帰ネットワーク特徴重複使用技術に基づいて提案されたものであり、従来の深層回帰ネットワークは主に基準画像ブランチ及び目標フレームブランチからなり、２つのフレームの間の目標物体変位のモデル化により目標フレームの目標物体位置の予測を実現する。本願では、位置見本バッファを用いて計算された中間特徴（基準画像の特徴）を記憶し、その後の予測中でその前にバッファされた基準画像の特徴を重複使用して、複数の基準画像の特徴を速やかに用いてトラッキング目標の位置を予測することを可能にすることが提案される。目標画像ブランチ中で、本願では、関心領域アライメント（ＲｏＩＡｌｉｇｎ）により特徴共有を実現することが提案され、特徴バッファ及び特徴共有といった２つのメカニズムにより速やかなマルチフレーム融合予測が可能になり、速やかでロバスト性が高い目標トラッキングを実現できる。

本願の実施例の技術的手段は高い拡張性を有し、システムは様々なマルチフレーム融合策略と組み合わせることが可能であり、例えば、類似度比較の方法、又は特定のタスク上でスコアリングする示された方法によりマルチフレームの結果融合を行って、いずれも好適な効果を図ることができる。

その前の１フレームを基準画像として次のフレームの位置を予測する他の目標トラッキングアルゴリズムにおいて、通行人トラッキングで柱により遮蔽された時に、基準画像遮蔽により基準画像の計算した位置見本にドリフトが発生し、精確に予測することができない。本願の実施例で提供される目標トラッキング方法はマルチフレーム基準画像を用いることで該問題を効果的に解決することができる。

本願の実施例の肝心なところは特徴バッファに基づく構成を提案し、高精度の実用的高速目標トラッキング方法を実現することにある。本願は回帰ネットワークの構造の分析により、特徴バッファによる回帰ネットワークの中間特徴マップのメンテナンス及び重複使用メカニズムを提案する。従来の深層回帰ネットワークは主に基準画像ブランチ及び目標フレームブランチからなり、２つのフレームの間の目標物体変位のモデル化により目標フレームの目標物体位置の予測を実現する。本願の実施例では、位置見本バッファを用いて計算された中間特徴（基準フレームブランチで計算された位置見本）を記憶し、その後の予測中でその前にバッファされた位置見本を重複使用して、複数の基準画像見本を速やかに用いて物体を予測ことを可能にすることが提案される。本願の実施例で提供される方法は様々な目標トラッキングシーンに適用可能であり、深層回帰ネットワークに基づく目標トラッキングアルゴリズムの動作速度を元の２倍程度に向上させ、トラッキングのリアルタイム性を大幅に高め、機器の消費電力を低下させた。

当業者であれば、上記方法の実施例を実現する全てまたは一部のステップはプログラムによって関連ハードウェアに命令を出すことにより完成できることを理解でき、前記プログラムは、ＲＯＭ、ＲＡＭ、磁気ディスクまたは光ディスクなどのプログラムコードを記憶可能である様々な媒体を含むコンピュータ読み取り可能記憶媒体に記憶可能であり、該プログラムは実行される時に、上記方法の実施例を含むステップを実行する。

図４は本願の実施例で提供される目標トラッキング装置の構造模式図である。該実施例の装置は本願の上記の各方法の実施例を実現するために用いられる。図４に示すように、該実施例の装置は、
目標画像の複数の基準画像の特徴を取得するための基準取得ユニット４１を含む。

選択可能に、目標画像と複数の基準画像の間に少なくとも１つの画像フレーム（第２の画像という）の間隔があり、又は、複数の基準画像は隣接する少なくとも２つの画像フレームを含み、又は、複数の基準画像中の任意２つの基準画像は隣接しない。選択可能に、目標画像とその複数の基準画像中の任意の基準画像の間に１つ又は複数の画像の間隔があってよく、又は、目標画像は複数の基準画像中の一部の基準画像と隣接し、複数の基準画像中の別の一部の基準画像との間に１つ又は複数の画像の間隔があってよく、本願の実施例はこれについて制限を加えない。目標画像の１フレーム前の画像を基準画像とする態様と比較すれば、本願の実施例で提供される技術的手段は予測精度を高めることができ、その原因は早い画像の予測がより精確で、早い画像をトラッキング基準画像として誤差累積の問題を効果的に解決できることにある。

１つ又は複数の選択可能な実施例では、基準取得ユニット４１は電子機器のメモリに記憶された複数の基準画像の特徴を取得してよく、例えば、第２のバッファ領域から目標画像の複数の基準画像の特徴を取得する。選択可能に、基準画像の特徴を第２のバッファ領域に記憶し、且つ第２のバッファ領域から基準画像の特徴を取得してよく、ここで、該第２のバッファ領域を位置見本バッファ領域（ＬｏｃａｔｉｏｎＥｘｅｍｐｌａｒＢｕｆｆｅｒ）と呼んでもよいが、本願の実施例では、第２のバッファ領域の名称について制限を加えない。

初期予測ユニット４２は、複数の基準画像の特徴に基づいて、目標画像におけるトラッキング目標の複数の初期予測位置を決定するために用いられる。

最終位置ユニット４３は、複数の初期予測位置に基づいて、目標画像におけるトラッキング目標の最終位置を決定するために用いられる。

本願の上記実施例で提供される目標トラッキング装置によれば、目標画像の複数の基準画像の特徴を取得し、複数の基準画像の特徴に基づいて、目標画像におけるトラッキング目標の複数の初期予測位置を決定し、複数の初期予測位置に基づいて、目標画像におけるトラッキング目標の最終位置を決定するようになっており、目標トラッキングの基準画像に対する依存性を回避して、目標トラッキングのロバスト性を高めることができる。

１つ又は複数の選択可能な実施例では、初期予測ユニット４２は、
目標画像に対して特徴抽出を行い、目標画像の複数の特徴を得るための特徴抽出モジュールと、
目標画像の複数の特徴と複数の基準画像の特徴に基づいて、目標画像におけるトラッキング目標の複数の初期予測位置を得るための位置予測モジュールと、を含む。

選択可能に、いくつかの選択可能な実施例では、位置予測モジュールは、目標画像の複数の特徴と複数の基準画像の特徴を接続又はスプライシングし、複数の接続特徴を得ることと、複数の接続特徴に基づいて、目標画像におけるトラッキング目標の複数の初期予測位置を得ることとに用いられる。

いくつかの選択可能な実施例では、特徴抽出モジュールは、
目標画像に対して畳み込み操作を実行し、中間特徴を得るための畳み込みモジュールと、
中間特徴に対して複数の関心領域のアライメント操作を実行し、目標画像の複数の特徴を得るためのアライメントモジュールとを含む。

選択可能に、アライメントモジュールは、基準画像におけるトラッキング目標の位置に基づいて、中間特徴に対して関心領域（ＲｏＩ）アライメント操作を実行し、目標画像の特徴を得るために用いられる。

本願の実施例では、複数種の方式により特徴マップ中で関心領域（ＲｏＩ）を選択できる。選択可能に、基準画像におけるトラッキング目標の位置に基づいて、中間特徴に対して関心領域（ＲｏＩ）アライメント操作を実行し、目標画像の特徴を得てよい。いくつかの実施例では、アライメントモジュールは、基準画像におけるトラッキング目標に対応する位置限定枠の基準画像での位置を関心領域（ＲｏＩ）として関心領域（ＲｏＩ）アライメント操作を行い、目標画像の特徴を得るために用いられる。例えば、基準画像におけるトラッキング目標に対応する位置限定枠（ｂｏｕｎｄｉｎｇｂｏｘ）の基準画像での位置を関心領域（ＲｏＩ）としてよく、又は、基準画像におけるトラッキング目標に対応する位置限定枠に対して水平移動などの１種又は複数種の操作を行うことにより、関心領域（ＲｏＩ）を得てよく、本願の実施例はこれについて制限を加えない。

選択可能に、アライメントモジュールは、更に基準画像におけるトラッキング目標の位置限定枠を第１の所定の倍数拡大し、基準画像のトラッキング目標に対応する位置限定枠を得るために用いられる。

いくつかの選択可能な実施例では、特徴抽出モジュールは、
目標画像に対して切り抜き処理を行い、切り抜き画像を得るための切り抜きモジュールと、
この時に、切り抜き画像に対して畳み込み操作を実行し、中間特徴を得るための畳み込みモジュールと、を更に含む。

選択可能に、所定のサイズに基づいて目標画像に対して切り抜き処理を行ってよく、又は、ビデオストリーム中の他の画像に基づいて、目標画像に対して切り抜き処理を行ってよい。例えば、切り抜きモジュールは、目標画像の前に位置する少なくとも１つの第１の画像におけるトラッキング目標の位置情報に基づいて、目標画像に対して切り抜き処理を行い、切り抜き画像を得るために用いられる。選択可能に、この少なくとも１つの第１の画像は目標画像と隣接する少なくとも１つの画像を含んでよく、又は、この少なくとも１つの第１の画像は目標画像の少なくとも１つの基準画像を含み、本願の実施例はこれについて制限を加えない。

選択可能に、いくつかの実施例では、切り抜きモジュールは、
少なくとも１つの第１の画像におけるトラッキング目標の位置情報に基づいて、切り抜き画像の中心点を決定するための中心決定モジュールと、
切り抜き画像の中心点に基づいて目標画像に対して切り抜き処理を行い、切り抜き画像を得るための切り抜き処理モジュールと、を含む。

いくつかの実施例では、切り抜き処理モジュールは、更に、目標画像を第２の所定の倍数拡大し、拡大処理後の目標画像を得るために用いられ、それに対して、切り抜き画像の中心点に基づいて、拡大処理後の目標画像に対して切り抜き処理を行い、切り抜き画像を得てよい。

１つ又は複数の選択可能な実施例では、最終位置ユニット４３は、
複数の初期予測位置のうちの少なくとも１つの初期予測位置とトラッキング目標の外観基準位置との類似度をそれぞれ決定し、類似度が第１の所定の閾値より大きい少なくとも１つの初期予測位置を得るための類似度決定モジュールと、
類似度が第１の所定の閾値より大きい少なくとも１つの初期予測位置に基づいて、目標画像に対応する最終位置を決定するための第１の位置計算モジュールと、を含む。

選択可能に、他の装置から該トラッキング目標の外観基準位置を取得してよい。又は、トラッキング目標の外観基準位置を記憶するための第１のバッファ領域を設置してよく、該第１のバッファ領域は外観見本バッファ領域（ＡｐｐｅａｒａｎｃｅＥｘｅｍｐｌａｒＢｕｆｆｅｒ：ＡＥＢ）又は他の名称と呼んでもよく、本願の実施例では該第１のバッファ領域の名称について制限を加えない。この時に、第１のバッファ領域から該トラッキング目標の外観基準位置を取得してよい。又は、他の方式により該トラッキング目標の外観基準位置を得てもよく、本願の実施例では該トラッキング目標の外観基準位置の取得方式について制限を加えない。

類似度選別により該目標画像との関連度が高い予測位置を得ることで、計算時間を節約し、トラッキング速度を高めると共に、トラッキングの正確度を保証することができる。

選択可能に、第１の位置計算モジュールは、類似度が第１の所定の閾値より大きい少なくとも１つの初期予測位置に対して加重平均を行い、目標画像に対応する最終位置を得るために用いられる。

選択可能に、類似度決定モジュールは、初期予測位置に対応する位置限定枠とトラッキング目標の外観基準位置に対応する位置限定枠との交差合併比に基づいて、少なくとも１つの初期予測位置とトラッキング目標の外観基準位置との類似度を決定するために用いられる。

いくつかの選択可能な実施例では、最終位置ユニット４３は、
決定された目標画像におけるトラッキング目標の最終位置をトラッキング目標の外観基準位置を記憶するための第１のバッファ領域に格納するための位置記憶モジュールを更に含む。

１つ又は複数の選択可能な実施例では、最終位置ユニット４３は、
複数の初期予測位置のうちの少なくとも１つの初期予測位置の信頼度を決定するための信頼度決定モジュールと、
信頼度が第２の所定の閾値より大きい少なくとも１つの初期予測位置に基づいて、目標画像におけるトラッキング目標の最終位置を決定するための第２の位置計算モジュールと、を含む。

信頼度は該予測位置が該目標画像でのトラッキング目標の真実位置に対応する確率を表し、この信頼度はトレーニングされたニューラルネットワークであるスコアリングネットワークにより得られ、例えば、１つのバイナリ分類ネットワークを利用し、予測位置と真実位置が重なり合った時に、真実値１、予測値０が出力され、予測位置と真実位置が重なり合わない時に、真実値０、予測値１が出力される。該実施例では主に特定の物体（例えば、顔、人体など）をトラッキングする。

選択可能に、信頼度決定モジュールは、信頼度が第２の所定の閾値より大きい少なくとも１つの初期予測位置に対して加重平均を行い、目標画像におけるトラッキング目標の最終位置を得るために用いられる。

ここで重み値は信頼度に関連し、信頼度が大きいほど重み値が大きくなり、信頼度が小さいほど、重み値が小さくなる。

選択可能に、信頼度決定モジュールは、信頼度スコアリングネットワークを用いて少なくとも１つの初期予測位置をそれぞれ処理し、少なくとも１つの初期予測位置に対応する信頼度を得るために用いられる。

選択可能に、信頼度決定モジュールは、更に、
信頼度スコアリングネットワークを用いてサンプル画像の少なくとも１つの初期予測位置を処理し、少なくとも１つの初期予測位置に対応する予測信頼度を得ることと、
サンプル画像の標識位置に基づいて、少なくとも１つの初期予測位置の真実信頼度を決定することと、
少なくとも１つの初期予測位置の予測信頼度と真実信頼度に基づいて、信頼度スコアリングネットワークをトレーニングすることとに用いられる。

１つ又は複数の選択可能な実施例では、
目標画像におけるトラッキング目標の最終位置及び複数の基準画像におけるトラッキング目標の位置に基づいて、目標画像を基準画像リストに加えるか否かを決定するための基準画像決定ユニットを更に含む。

ここで、該基準画像リストは複数の基準画像を含んでよく、該基準画像リストは処理待ちの画像フレーム中のトラッキング目標をトラッキングするために用いられる。ずっと同一な基準画像の特徴を用いて目標画像に対して位置予測を行えば、トラッキング目標の位置移動が大きい時に、位置が不精確になるので、予測の正確性を高めるために、基準画像リストを定期的又は不定期的に更新してよく、本願の実施例はこれについて制限を加えない。

選択可能に、基準画像決定ユニットは、目標画像におけるトラッキング目標の位置限定枠ｂｏｕｎｄｉｎｇｂｏｘと前記複数の基準画像におけるトラッキング目標の位置限定枠ｂｏｕｎｄｉｎｇｂｏｘとの交差合併比に基づいて、目標画像を基準画像リストに加えるか否かを決定するために用いられる。

選択可能に、基準画像決定ユニットは、
目標画像におけるトラッキング目標の位置限定枠と複数の基準画像のトラッキング目標の位置限定枠との交差合併比をそれぞれ決定し、決定された複数の交差合併比に基づいて、平均の交差合併比を得るための交差合併比決定モジュールと、
平均の交差合併比が交差合併比閾値以上であることに応答して、目標画像を基準画像リストに加えるための添加決定モジュールと、を含む。

１つ又は複数の選択可能な実施例では、
目標画像と複数の基準画像のうちの目標画像に近い（例えば、最も近い）基準画像の間に所定の個数の画像フレームの間隔があれば、目標画像を基準画像リストに加えるための基準リスト更新ユニットを更に含む。

特定の問題（例えば顔トラッキングのような特定の目標のトラッキング）に関して、応用する時に特定の基準フレーム更新策略を用いて目標トラッキング方法の基準フレームを調整してよく、普及させる価値が非常に高い。

１つ又は複数の選択可能な実施例では、目標画像を基準画像リストに加えると決定したことに応答して、第２のバッファ領域に目標画像の特徴をバッファするための特徴バッファユニットを更に含む。

本願の実施例の別の態様によれば、提供される電子機器は、本願の上記のいずれか１つの実施例の目標トラッキング装置を備えるプロセッサを含む。

本願の実施例の別の態様によれば、提供される電子機器は、実行可能コマンドを記憶するためのメモリと、
メモリと通信して実行可能コマンドを実行して本願で提供される目標トラッキング方法の上記のいずれか１つの実施例を完成するためのプロセッサと、を含む。

本願の実施例の別の態様によれば、提供されるコンピューター記憶媒体は、コンピューター可読コマンドを記憶するためのものであり、コマンドがプロセッサにより実行される時に、該プロセッサに本願で提供される目標トラッキング方法の上記のいずれか１つの実施例を実行させる。

本願の実施例の別の態様によれば、提供されるコンピュータープログラムは、コンピューター可読コードを含み、コンピューター可読コードが機器上で動作する時に、機器中のプロセッサに本願で提供される目標トラッキング方法を実行させる。

１つ又は複数の選択可能な実施形態では、本願の実施例は、コンピューター可読コマンドを記憶するためのコンピュータープログラム製品であって、前記コマンドが実行される時に、コンピューターに上記のいずれか１つの実施例に記載の目標トラッキング方法を実行させるコンピュータープログラム製品を更に提供する。

該コンピュータプログラム製品は具体的にはハードウェア、ソフトウェア又はそれらの組合せにより実現可能である。選択可能な一例において、前記コンピュータプログラム製品は具体的にはコンピュータ記憶媒体として実現され、別の選択可能な一例において、前記コンピュータプログラム製品は具体的には、例えばソフトウェア開発キット（ＳｏｆｔｗａｒｅＤｅｖｅｌｏｐｍｅｎｔＫｉｔ：ＳＤＫ）などのソフトウェア製品として実現される。

本願の実施例は、目標画像の複数の基準画像の特徴を取得することと、複数の基準画像の特徴に基づいて、目標画像におけるトラッキング目標の複数の初期予測位置を決定することと、複数の初期予測位置に基づいて、目標画像におけるトラッキング目標の最終位置を決定することと、を含む別の目標トラッキング方法及びそれに対応する装置と電子機器、コンピューター記憶媒体、コンピュータープログラム並びにコンピュータープログラム製品を更に提供する。

いくつかの実施例では、該目標トラッキング指示は具体的には呼び出しコマンドであってよく、第１の装置は呼び出すことで目標トラッキングを実行するように第２の装置を指示することができ、それに対して、呼び出しコマンドを受信したことに応答して、第２の装置は上記目標トラッキング方法中のいずれか１つの実施例におけるステップ及び／又はフローを実行することができる。

本願の実施例における「第１の」、「第２の」などの用語は区別するためのものに過ぎず、本願の実施例に対する限定と理解してはならないことを理解すべきである。

更に、本願では、「複数の」は２つ又は２つ以上を指してよく、「少なくとも１つの」は１つ、２つ又は２つ以上を指してよいことを理解すべきである。

更に、本願で言及された任意の部材、データ又は構造は、明確に限定され又は明細書の前後で反対的に示唆された場合でなければ、一般的には１つ又は複数と理解してよいことを理解すべきである。

更に、本願ではそれぞれの実施例についての説明はそれぞれの実施例の相違点を重点として強調し、その同一又は類似的な点について相互に参照してよく、簡単化するために、ここで一つずつに繰り返して説明しないことを理解すべきである。

本願の実施例は、例えば、携帯端末、パーソナルコンピュータ（ＰＣ）、タブレット型コンピュータ、サーバーなどであってよい電子機器を更に提供する。以下、図５を参照し、本願の実施例の端末装置又はサーバーを実現するのに適する電子機器５００の構造模式図を示し、図５に示すように、コンピュータシステム５００は１つ又は複数のプロセッサ、通信部などを含み、前記１つ又は複数のプロセッサは、例えば、１つ又は複数の中央処理ユニット（ＣＰＵ）５０１、及び／又は１つ又は複数の画像プロセッサ（ＧＰＵ）５１３などであり、プロセッサは、読み取り専用メモリ（ＲＯＭ）５０２に記憶された実行可能コマンド又は記憶部５０８からランダムアクセスメモリ（ＲＡＭ）５０３にロードされた実行可能コマンドによって各種の適切な動作及び処理を実現することができる。通信部５１２はネットワークカードを含んでよいが、それに限定されなく、前記ネットワークカードはＩＢ（Ｉｎｆｉｎｉｂａｎｄ）ネットワークカードを含んでよいが、それに限定されない。

プロセッサは読み取り専用メモリ５０２及び／又はランダムアクセスメモリ５０３と通信して実行可能コマンドを実行し、通信バス５０４を介して通信部５１２に接続され、通信部５１２を介して他のターゲットデバイスと通信してよく、それにより本願の実施例で提供されるいずれか一項の方法に対応する操作を完成し、例えば、目標画像の複数の基準画像の特徴を取得し、複数の基準画像の特徴に基づいて、目標画像におけるトラッキング目標の複数の初期予測位置を決定し、複数の初期予測位置に基づいて、目標画像におけるトラッキング目標の最終位置を決定する。

また、ＲＡＭ５０３には、装置の動作に必要な各種のプログラムやデータが格納されていてもよい。ＣＰＵ５０１、ＲＯＭ５０２及びＲＡＭ５０３は、通信バス５０４を介して相互に接続される。ＲＡＭ５０３を有する場合に、ＲＯＭ５０２は選択可能なモジュールである。ＲＡＭ５０３は実行可能コマンドを格納するか、または動作時に実行可能コマンドをＲＯＭ５０２に書き込み、実行可能コマンドによってプロセッサ５０１に上記通信方法に対応する操作を実行させる。入力／出力（Ｉ／Ｏ）インタフェース５０５も通信バス５０４に接続される。通信部５１２は、統合的に設置されてもよく、複数のサブモジュール（例えば複数のＩＢネットワークカード）を有し、通信バスのリンク上にあるように設置されてもよい。

キーボード、マウスなどを含む入力部５０６と、陰極線管（ＣＲＴ）、液晶ディスプレイー（ＬＣＤ）など及びスピーカなどを含む出力部５０７と、ハードディスクなどを含む記憶部５０８と、ＬＡＮカード、モデムなどのネットワークインタフェースカードを含む通信部５０９などがＩ／Ｏインタフェース５０５に接続されている。通信部分５０９は例えばインターネットのようなネットワークを介して通信処理を行う。ドライブ５１０も必要に応じてＩ／Ｏインタフェース５０５に接続される。磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのリムーバブル媒体５１１は、必要に応じてドライブ５１０上に装着され、そこから読み出されたコンピュータプログラムを必要に応じて記憶部５０８にインストールする。

なお、図５に示す構造は選択可能な一実施形態に過ぎず、実践過程では、実際の必要に応じて上記図５の部品の数及び種類を選択、削除、追加、または置換することができ、異なる機能部品の設置上でも、分離設置または統合設置などの実施形態を採用でき、例えばＧＰＵとＣＰＵは分離設置するかまたはＧＰＵをＣＰＵに統合するようにしてよく、通信部は分離設置してもよく、またＣＰＵまたはＧＰＵに統合設置してもよいことを説明する必要がある。これらの置換可能な実施形態はいずれも本願の保護範囲に属する。

特に、本願の実施例によれば、フローチャートを参照しながら上述したプロセスはコンピュータソフトウェアプログラムとして実現できる。例えば、本願の実施例はコンピュータプログラム製品を含み、それは機械可読媒体に有形に具現化された、フローチャートに示す方法を実行するためのプログラムコードを含むコンピュータプログラムを含み、プログラムコードは本願の実施例により提供される方法のステップを対応して実行する対応のコマンドを含んでよく、例えば、目標画像の複数の基準画像の特徴を取得し、複数の基準画像の特徴に基づいて、目標画像におけるトラッキング目標の複数の初期予測位置を決定し、複数の初期予測位置に基づいて、目標画像におけるトラッキング目標の最終位置を決定する。このような実施例では、該コンピュータプログラムは通信部５０９によってネットワークからダウンロード及びインストールされ、及び／又はリムーバブル媒体５１１からインストールされ得る。中央処理ユニット（ＣＰＵ）５０１によって該コンピュータプログラムを実行する時に、本発明の方法で限定された上記機能を実行する。

本明細書における様々な実施例は漸進的に説明され、各実施例は他の実施例との相違点に集中して説明したが、各実施例間の同一または類似の部分については相互に参照すればよい。システム実施例については、それは基本的に方法実施例に対応するので、説明は比較的簡単であり、関連部分は方法実施例の説明の一部を参照すればよい。

本願の方法及び装置は、様々な形態で実現され得る。例えば、ソフトウェア、ハードウェア、ファームウェアまたはソフトウェア、ハードウェア、ファームウェアの任意の組合わせによって本願の方法及び装置を実現することができる。前記方法のステップのための上記順序は説明することのみを目的とし、本願の方法のステップは、特に断らない限り、以上で具体的に説明した順序に限定されない。また、いくつかの実施例では、本願は記録媒体に記憶されたプログラムとしてもよく、これらのプログラムは本願の方法を実現するための機械可読コマンドを含む。従って、本願は本願の方法を実行するためのプログラムが記憶された記録媒体も含む。

本願の説明は、例示及び説明のために提示されたものであり、網羅的なものでありもしくは開示された形式に本願を限定するというわけでない。当業者にとっては多くの修正及び変形を加えることができるのは明らかであろう。実施例は本願の原理及び実際応用をより明瞭に説明するため、かつ当業者が本願を理解して特定用途に適した各種の修正を加えた各種の実施例を設計可能にするように選択され説明されたものである。

Claims

目標トラッキング方法であって、
目標画像の複数の基準画像の特徴を取得することと、
前記複数の基準画像の特徴に基づいて、前記目標画像におけるトラッキング目標の複数の初期予測位置を決定することと、
前記複数の初期予測位置に基づいて、前記目標画像におけるトラッキング目標の最終位置を決定することと、を含むことを特徴とする目標トラッキング方法。
前記複数の基準画像の特徴に基づいて、前記目標画像におけるトラッキング目標の複数の初期予測位置を決定することは、
前記目標画像に対して特徴抽出を行い、前記目標画像の複数の特徴を得ることと、
前記目標画像の複数の特徴と前記複数の基準画像の特徴に基づいて、前記目標画像におけるトラッキング目標の複数の初期予測位置を得ることと、を含むことを特徴とする請求項１に記載の方法。
前記目標画像の複数の特徴と前記複数の基準画像の特徴に基づいて、前記目標画像におけるトラッキング目標の複数の初期予測位置を得ることは、
前記目標画像の複数の特徴をそれぞれ前記複数の基準画像の特徴中の対応特徴と接続し、複数の接続特徴を得ることと、
前記複数の接続特徴に基づいて、前記目標画像におけるトラッキング目標の複数の初期予測位置を得ることと、を含むことを特徴とする請求項２に記載の方法。
前記目標画像に対して特徴抽出を行い、前記目標画像の複数の特徴を得ることは、
前記目標画像に対して畳み込み操作を実行し、中間特徴を得ることと、
前記中間特徴に対して複数の関心領域のアライメント操作を実行し、前記目標画像の複数の特徴を得ることと、を含むことを特徴とする請求項２又は３に記載の方法。
前記中間特徴に対して複数の関心領域のアライメント操作を実行し、前記目標画像の複数の特徴を得ることは、
前記複数の基準画像のうちの少なくとも１つの基準画像におけるトラッキング目標の位置に基づいて、前記中間特徴に対して関心領域のアライメント操作を実行し、前記目標画像の特徴を得ることを含むことを特徴とする請求項４に記載の方法。
前記複数の基準画像のうちの少なくとも１つの基準画像におけるトラッキング目標の位置に基づいて、前記中間特徴に対して関心領域のアライメント操作を実行し、前記目標画像の特徴を得ることは、
前記少なくとも１つの基準画像のうちのそれぞれの基準画像におけるトラッキング目標に対応する位置限定枠の前記各基準画像での位置を関心領域として関心領域アライメント操作を行い、前記目標画像の特徴を得ることを含むことを特徴とする請求項５に記載の方法。
前記少なくとも１つの基準画像のうちのそれぞれの基準画像におけるトラッキング目標に対応する位置限定枠の前記各基準画像での位置を関心領域として関心領域アライメント操作を行い、前記目標画像の特徴を得ることの前に、
前記少なくとも１つの基準画像のうちのそれぞれの基準画像におけるトラッキング目標の位置限定枠を第１の所定の倍数拡大し、前記各基準画像におけるトラッキング目標に対応する位置限定枠を得ることを更に含むことを特徴とする請求項６に記載の方法。
前記目標画像に対して畳み込み操作を実行し、中間特徴を得ることの前に、
前記目標画像に対して切り抜き処理を行い、切り抜き画像を得ることを更に含み、
前記目標画像に対して畳み込み操作を実行し、中間特徴を得ることは、
前記切り抜き画像に対して畳み込み操作を実行し、中間特徴を得ることを含むことを特徴とする請求項４〜７のいずれか一項に記載の方法。
前記目標画像に対して切り抜き処理を行い、切り抜き画像を得ることは、
前記目標画像の前に位置する少なくとも１つの第１の画像におけるトラッキング目標の位置情報に基づいて、前記目標画像に対して切り抜き処理を行い、切り抜き画像を得ることを含むことを特徴とする請求項８に記載の方法。
前記少なくとも１つの第１の画像は前記目標画像の少なくとも１つの前記基準画像を含むことを特徴とする請求項９に記載の方法。
前記の少なくとも１つの第１の画像におけるトラッキング目標の位置情報に基づいて、前記目標画像に対して切り抜き処理を行い、切り抜き画像を得ることは、
前記少なくとも１つの第１の画像におけるトラッキング目標の位置情報に基づいて、前記切り抜き画像の中心点を決定することと、
前記切り抜き画像の中心点に基づいて前記目標画像に対して切り抜き処理を行い、前記切り抜き画像を得ることと、を含むことを特徴とする請求項９又は１０に記載の方法。
前記切り抜き画像の中心点に基づいて前記目標画像に対して切り抜き処理を行い、前記切り抜き画像を得ることは、
前記目標画像を第２の所定の倍数拡大し、拡大処理後の前記目標画像を得ることと、
前記切り抜き画像の中心点に基づいて、前記拡大処理後の前記目標画像に対して切り抜き処理を行い、前記切り抜き画像を得ることと、を含むことを特徴とする請求項１１に記載の方法。
前記複数の初期予測位置に基づいて、前記目標画像におけるトラッキング目標の最終位置を決定することは、
前記複数の初期予測位置から少なくとも１つの初期予測位置を選択することと、
前記少なくとも１つの初期予測位置に基づいて、前記目標画像におけるトラッキング目標の最終位置を決定することと、を含むことを特徴とする請求項１〜１２のいずれか一項に記載の方法。
前記複数の初期予測位置から少なくとも１つの初期予測位置を選択することは、
前記複数の初期予測位置から前記トラッキング目標の外観基準位置との類似度が第１の所定の閾値より大きい少なくとも１つの初期予測位置を選択することを含むことを特徴とする請求項１３に記載の方法。
前記初期予測位置に対応する位置限定枠と前記トラッキング目標の外観基準位置に対応する位置限定枠との交差合併比に基づいて、前記初期予測位置と前記トラッキング目標の外観基準位置との類似度を決定することを更に含むことを特徴とする請求項１４に記載の方法。
前記決定された目標画像におけるトラッキング目標の最終位置を前記トラッキング目標の外観基準位置を記憶するための第１のバッファ領域に格納することを更に含むことを特徴とする請求項１４又は１５に記載の方法。
前記複数の初期予測位置から少なくとも１つの初期予測位置を選択することは、
前記複数の初期予測位置から信頼度が第２の所定の閾値より大きい少なくとも１つの初期予測位置を選択することを含むことを特徴とする請求項１３に記載の方法。
信頼度スコアリングネットワークを用いて前記初期予測位置を処理し、前記初期予測位置に対応する信頼度を得ることを更に含むことを特徴とする請求項１７に記載の方法。
前記信頼度スコアリングネットワークを用いてサンプル画像の少なくとも１つの初期予測位置を処理し、対応する少なくとも１つの前記初期予測位置の予測信頼度を得ることと、
前記サンプル画像の標識位置情報に基づいて、前記少なくとも１つの初期予測位置の真実信頼度を決定することと、
前記少なくとも１つの初期予測位置の予測信頼度と真実信頼度に基づいて、前記信頼度スコアリングネットワークをトレーニングすることを更に含むことを特徴とする請求項１８に記載の方法。
前記少なくとも１つの初期予測位置に基づいて、前記目標画像におけるトラッキング目標の最終位置を決定することは、
前記少なくとも１つの初期予測位置に対して加重平均を行い、前記目標画像におけるトラッキング目標の最終位置を得ることを含むことを特徴とする請求項１３〜１９のいずれか一項に記載の方法。
前記の目標画像の複数の基準画像の特徴を取得することは、
第２のバッファ領域から目標画像の複数の基準画像の特徴を取得することを含むことを特徴とする請求項１〜２０のいずれか一項に記載の方法。
前記目標画像と複数の前記基準画像の間に少なくとも１つの第２の画像の間隔があり、又は、
前記複数の基準画像は隣接する少なくとも２つの画像フレームを含み、又は、
前記複数の基準画像中の任意２つの基準画像は隣接しないことを特徴とする請求項１〜２１のいずれか一項に記載の方法。
前記複数の初期予測位置に基づいて、前記目標画像におけるトラッキング目標の最終位置を決定することの後に、
前記目標画像におけるトラッキング目標の最終位置及び前記複数の基準画像におけるトラッキング目標の位置に基づいて、前記目標画像を基準画像リストに加えるか否かを決定することを更に含むことを特徴とする請求項１〜２２のいずれか一項に記載の方法。
前記目標画像におけるトラッキング目標の最終位置及び前記複数の基準画像におけるトラッキング目標の位置に基づいて、前記目標画像を基準画像リストに加えるか否かを決定する前記目標画像を新しく加えられる基準画像とするか否かを決定することは、
前記目標画像におけるトラッキング目標の位置限定枠と前記複数の基準画像におけるトラッキング目標の位置限定枠との交差合併比に基づいて、前記目標画像を基準画像リストに加えるか否かを決定することを含むことを特徴とする請求項２３に記載の方法。
前記目標画像フレーム中のトラッキング目標の位置限定枠と前記複数の基準画像におけるトラッキング目標の各位置限定枠との交差合併比に基づいて、前記目標画像を基準画像リストに加えるか否かを決定することは、
目標画像におけるトラッキング目標の位置限定枠と前記複数の基準画像のトラッキング目標の位置限定枠との交差合併比をそれぞれ決定することと、
決定された複数の交差合併比に基づいて、平均の交差合併比を得ることと、
前記平均の交差合併比が交差合併比閾値以上であることに応答して、前記目標画像を基準画像リストに加えることと、を含むことを特徴とする請求項２４に記載の方法。
前記複数の初期予測位置に基づいて、前記目標画像におけるトラッキング目標の最終位置を決定することの後に、
前記目標画像と前記複数の基準画像のうちの前記目標画像に最も近い基準画像との間に所定の個数の画像フレームに間隔があることに応答して、前記目標画像を基準画像リストに加えることを更に含むことを特徴とする請求項１〜２２のいずれか一項に記載の方法。
前記目標画像を基準画像リストに加えると決定したことに応答して、前記第２のバッファ領域に前記目標画像の特徴をバッファすることを更に含むことを特徴とする請求項２３〜２６のいずれか一項に記載の方法。
目標トラッキング装置であって、
目標画像の複数の基準画像の特徴を取得するための基準取得ユニットと、
前記複数の基準画像の特徴に基づいて、前記目標画像におけるトラッキング目標の複数の初期予測位置を決定するための初期予測ユニットと、
前記複数の初期予測位置に基づいて、前記目標画像におけるトラッキング目標の最終位置を決定するための最終位置ユニットと、を含むことを特徴とする目標トラッキング装置。
前記初期予測ユニットは、
前記目標画像に対して特徴抽出を行い、前記目標画像の複数の特徴を得るための特徴抽出モジュールと、
前記目標画像の複数の特徴と前記複数の基準画像の特徴に基づいて、前記目標画像におけるトラッキング目標の複数の初期予測位置を得るための位置予測モジュールと、を含むことを特徴とする請求項２８に記載の装置。
前記位置予測モジュールは、前記目標画像の複数の特徴をそれぞれ前記複数の基準画像の特徴中の対応特徴と接続し、複数の接続特徴を得、前記複数の接続特徴に基づいて、前記目標画像におけるトラッキング目標の複数の初期予測位置を得るために用いられることを特徴とする請求項２９に記載の装置。
前記特徴抽出モジュールは、
前記目標画像に対して畳み込み操作を実行し、中間特徴を得るための畳み込みモジュールと、
前記中間特徴に対して複数の関心領域のアライメント操作を実行し、前記目標画像の複数の特徴を得るためのアライメントモジュールと、を含むことを特徴とする請求項２９又は３０に記載の装置。
前記アライメントモジュールは、前記複数の基準画像のうちの少なくとも１つの基準画像におけるトラッキング目標の位置に基づいて、前記中間特徴に対して関心領域のアライメント操作を実行し、前記目標画像の特徴を得るために用いられることを特徴とする請求項３１に記載の装置。
前記アライメントモジュールは、前記複数の基準画像のうちの少なくとも１つの基準画像におけるトラッキング目標に対応する位置限定枠の前記基準画像での位置を関心領域として関心領域アライメント操作を行い、前記目標画像の特徴を得るために用いられることを特徴とする請求項３２に記載の装置。
前記アライメントモジュールは、更に前記複数の基準画像のうちの少なくとも１つの基準画像におけるトラッキング目標の位置限定枠を第１の所定の倍数拡大し、前記少なくとも１つの基準画像におけるトラッキング目標に対応する位置限定枠を得るために用いられることを特徴とする請求項３３に記載の装置。
前記特徴抽出モジュールは、
前記目標画像に対して切り抜き処理を行い、切り抜き画像を得るための切り抜きモジュールと、
前記切り抜き画像に対して畳み込み操作を実行し、中間特徴を得るための前記畳み込みモジュールと、を更に含むことを特徴とする請求項３１〜３４のいずれか一項に記載の装置。
前記切り抜きモジュールは、前記目標画像の前に位置する少なくとも１つの第１の画像におけるトラッキング目標の位置情報に基づいて、前記目標画像に対して切り抜き処理を行い、切り抜き画像を得るために用いられることを特徴とする請求項３５に記載の装置。
前記少なくとも１つの第１の画像は前記目標画像の少なくとも１つの前記基準画像を含むことを特徴とする請求項３６に記載の装置。
前記切り抜きモジュールは、
前記少なくとも１つの第１の画像におけるトラッキング目標の位置情報に基づいて、前記切り抜き画像の中心点を決定するための中心決定モジュールと、
前記切り抜き画像の中心点に基づいて前記目標画像に対して切り抜き処理を行い、前記切り抜き画像を得るための切り抜き処理モジュールと、を含むことを特徴とする請求項３６又は３７に記載の装置。
前記切り抜き処理モジュールは、前記目標画像を第２の所定の倍数拡大し、拡大処理後の前記目標画像を得ることと、前記切り抜き画像の中心点に基づいて、前記拡大処理後の前記目標画像に対して切り抜き処理を行い、前記切り抜き画像を得ることとに用いられることを特徴とする請求項３８に記載の装置。
前記最終位置ユニットは、
前記複数の初期予測位置のうちの少なくとも１つの初期予測位置と前記トラッキング目標の外観基準位置との類似度をそれぞれ決定し、類似度が第１の所定の閾値より大きい少なくとも１つの初期予測位置を得るための類似度決定モジュールと、
前記類似度が第１の所定の閾値より大きい少なくとも１つの初期予測位置に基づいて、前記目標画像に対応する最終位置を決定するための第１の位置計算モジュールと、を含むことを特徴とする請求項２８〜３９のいずれか一項に記載の装置。
前記第１の位置計算モジュールは、前記類似度が第１の所定の閾値より大きい少なくとも１つの初期予測位置に対して加重平均を行い、前記目標画像に対応する最終位置を得るために用いられることを特徴とする請求項４０に記載の装置。
前記類似度決定モジュールは、前記初期予測位置に対応する位置限定枠と前記トラッキング目標の外観基準位置に対応する位置限定枠との交差合併比に基づいて、少なくとも１つの前記初期予測位置と前記トラッキング目標の外観基準位置との類似度を決定するために用いられることを特徴とする請求項４０又は４１に記載の装置。
前記最終位置ユニットは、
前記決定された目標画像におけるトラッキング目標の最終位置を前記トラッキング目標の外観基準位置を記憶するための第１のバッファ領域に格納するための位置記憶モジュールを更に含むことを特徴とする請求項４０〜４２のいずれか一項に記載の装置。
前記最終位置ユニットは、
前記複数の初期予測位置のうちの少なくとも１つの初期予測位置の信頼度を決定するための信頼度決定モジュールと、
前記信頼度が第２の所定の閾値より大きい少なくとも１つの前記初期予測位置に基づいて、前記目標画像におけるトラッキング目標の最終位置を決定するための第２の位置計算モジュールと、を含むことを特徴とする請求項２８〜３９のいずれか一項に記載の装置。
前記信頼度決定モジュールは、前記信頼度が第２の所定の閾値より大きい少なくとも１つの前記初期予測位置に対して加重平均を行い、前記目標画像におけるトラッキング目標の最終位置を得るために用いられることを特徴とする請求項４４に記載の装置。
前記信頼度決定モジュールは、信頼度スコアリングネットワークを用いて前記少なくとも１つの初期予測位置をそれぞれ処理し、前記少なくとも１つの初期予測位置に対応する信頼度を得るために用いられることを特徴とする請求項４４又は４５に記載の装置。
前記信頼度決定モジュールは、更に、
前記信頼度スコアリングネットワークを用いてサンプル画像の少なくとも１つの初期予測位置を処理し、対応する少なくとも１つの前記初期予測位置の予測信頼度を得ることと、
前記サンプル画像の標識位置に基づいて、前記少なくとも１つの初期予測位置の真実信頼度を決定することと、
前記少なくとも１つの初期予測位置の予測信頼度と真実信頼度に基づいて、前記信頼度スコアリングネットワークをトレーニングすることとに用いられることを特徴とする請求項４６に記載の装置。
前記基準取得ユニットは、第２のバッファ領域から目標画像の複数の基準画像の特徴を取得するために用いられることを特徴とする請求項２８〜４７のいずれか一項に記載の装置。
前記目標画像と複数の前記基準画像の間に少なくとも１つの第２の画像の間隔があり、又は
前記複数の基準画像は隣接する少なくとも２つの画像フレームを含み、又は
前記複数の基準画像中の任意２つの基準画像は隣接しないことを特徴とする請求項２８〜４８のいずれか一項に記載の装置。
前記目標画像におけるトラッキング目標の最終位置及び前記複数の基準画像におけるトラッキング目標の位置に基づいて、前記目標画像を基準画像リストに加えるか否かを決定するための基準画像決定ユニットを更に含むことを特徴とする請求項２８〜４９のいずれか一項に記載の装置。
前記基準画像決定ユニットは、前記目標画像におけるトラッキング目標の位置限定枠と前記複数の基準画像におけるトラッキング目標の位置限定枠との交差合併比に基づいて、前記目標画像を基準画像リストに加えるか否かを決定するために用いられることを特徴とする請求項５０に記載の装置。
前記基準画像決定ユニットは、
目標画像におけるトラッキング目標の位置限定枠と前記複数の基準画像のトラッキング目標の位置限定枠との交差合併比をそれぞれ決定し、決定された複数の交差合併比に基づいて、平均の交差合併比を得るための交差合併比決定モジュールと、
前記平均の交差合併比が交差合併比閾値以上であることに応答して、前記目標画像を基準画像リストに加えるための添加決定モジュールと、を含むことを特徴とする請求項５１に記載の装置。
前記目標画像と前記複数の基準画像のうちの前記目標画像に最も近い基準画像との間に所定の個数の画像フレームの間隔がある場合に、前記目標画像を基準画像リストに加えるための基準リスト更新ユニットを更に含むことを特徴とする請求項２８〜４９のいずれか一項に記載の装置。
前記目標画像を基準画像リストに加えると決定したことに応答して、前記第２のバッファ領域に前記目標画像の特徴をバッファするための特徴バッファユニットを更に含むことを特徴とする請求項５０〜５３のいずれか一項に記載の装置。
電子機器であって、
請求項２８〜５４のいずれか一項に記載の目標トラッキング装置を備えるプロセッサを含むことを特徴とする電子機器。
電子機器であって、
実行可能コマンドを記憶するためのメモリと、
前記メモリと通信して前記実行可能コマンドを実行して請求項１〜２７のいずれか一項に記載の目標トラッキング方法を完成するためのプロセッサと、を含むことを特徴とする電子機器。
コンピューター可読コマンドを記憶するためのコンピューター記憶媒体であって、
前記コマンドがプロセッサにより実行される時に、前記プロセッサに請求項１〜２７のいずれか一項に記載の目標トラッキング方法を実行させることを特徴とするコンピューター記憶媒体。
コンピューター可読コードを備えるコンピュータープログラム製品であって、
前記コンピューター可読コードが機器上で動作する時に、前記機器中のプロセッサに請求項１〜２７のいずれか一項に記載の目標トラッキング方法を実行させることを特徴とするコンピュータープログラム製品。