JP7163372B2

JP7163372B2 - 目標トラッキング方法及び装置、電子機器並びに記憶媒体

Info

Publication number: JP7163372B2
Application number: JP2020516424A
Authority: JP
Inventors: ▲劉▼▲紹▼▲輝▼; 秦▲紅▼▲偉▼
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2018-03-06
Filing date: 2019-02-27
Publication date: 2022-10-31
Anticipated expiration: 2039-02-27
Also published as: WO2019170024A1; US20200258242A1; JP2020534609A; SG11202002621SA; US11699240B2

Description

（関連出願の相互参照）
本願は、２０１８年３月６日に中国特許局に提出された、出願番号ＣＮ２０１８１０１８４９６７．８、発明の名称「目標トラッキング方法及び装置、電子機器、プログラム並びに記憶媒体」及び出願番号ＣＮ２０１８１０１８２７９７．Ｘ、発明の名称「目標トラッキング方法及び装置、電子機器、プログラム並びに記憶媒体」の中国特許出願の優先権を主張し、その開示の全てが参照によって本開示に組み込まれる。

本開示は、コンピュータビジョン技術に関し、特に、目標トラッキング方法及び装置、電子機器並びに記憶媒体に関する。

目標トラッキングは、一般的には、目標物体のビデオシークエンス中の第１のフレームでの位置情報が与えられた前提で、目標物体のビデオシークエンス中の後続画像フレームでの位置を予測することを指す。目標トラッキング技術は、ビデオ監視、無人運転、ヒューマンコンピュータインタラクションなどの適用シーンに広く応用されている。単一フレームの検出技術及び分割技術が相当に時間をかかるので、目標トラッキング技術を検出分割技術と共に使用して、ビデオ処理の速度を高め、より好適なリアルタイム性を保証することはしばしばある。従って、応用工学中の特定のタスクについての目標トラッキングアルゴリズムにおいて高い速度が求められている。

本開示の実施例では目標トラッキング技術を提供する。

本開示の実施例の１つの態様によれば、提供される目標トラッキング方法は、
少なくとも１つの第２の画像フレームと同一な基準フレームを有する第１の画像フレームの基準フレームの特徴データを取得することと、
前記基準フレームの特徴データに基づいて、前記第１の画像フレームにおけるトラッキング目標の位置を決定することと、を含む。

選択可能に、第１の画像フレームと基準フレームの間に少なくとも１つの画像フレームの間隔がある。

選択可能に、前記基準フレームの特徴データに基づいて、前記第１の画像フレームにおけるトラッキング目標の位置を決定することは、
前記第１の画像フレームに対して特徴抽出を行い、前記第１の画像フレームの特徴データを得ることと、
前記基準フレームの特徴データ及び前記第１の画像フレームの特徴データに基づいて、前記第１の画像フレームにおけるトラッキング目標の位置を得ることと、を含む。

選択可能に、前記基準フレームの特徴データ及び前記第１の画像フレームの特徴データに基づいて、前記第１の画像フレームにおけるトラッキング目標の位置を得ることは、
前記第１の画像フレームの特徴データと前記基準フレームの特徴データを接続し、接続特徴を得ることと、
前記接続特徴に基づいて、前記第１の画像フレームにおけるトラッキング目標の位置を得ることと、を含む。

選択可能に、前記基準フレームの特徴データに基づいて、前記第１の画像フレームにおけるトラッキング目標の位置を得ることは、
前記基準フレームの特徴データに基づいて、前記基準フレームにおけるトラッキング目標に対する前記第１の画像フレームにおけるトラッキング目標の相対的位置情報を得ることと、
前記相対的位置情報及び前記基準フレームにおけるトラッキング目標の位置情報に基づいて、前記第１の画像フレームにおけるトラッキング目標の位置を得ることと、を含む。

選択可能に、前記第１の画像フレームの基準フレームの特徴データを取得することは、
メモリから前記第１の画像フレームの基準フレームの特徴データを取得することを含む。

選択可能に、
前記第１の画像フレームにおけるトラッキング目標の位置及び前記基準フレームにおけるトラッキング目標の位置に基づいて、前記第１の画像フレームを更新後の基準フレームとするか否かを決定し、及び／又は、
前記第１の画像フレームと前記基準フレームとの間の間隔が所定の条件を満たした場合に、前記第１の画像フレームを更新後の基準フレームとすることを更に含む。

選択可能に、前記第１の画像フレームにおけるトラッキング目標の位置及び前記基準フレームにおけるトラッキング目標の位置に基づいて、前記第１の画像フレームを更新後の基準フレームとするか否かを決定することは、
前記第１の画像フレームにおけるトラッキング目標の第１の位置限定枠と前記基準フレームにおけるトラッキング目標の第２の位置限定枠との間の交差合併比に基づいて、前記第１の画像フレームを更新後の基準フレームとするか否かを決定することを含む。

選択可能に、前記第１の画像フレームにおけるトラッキング目標の第１の位置限定枠と前記基準フレームにおけるトラッキング目標の第２の位置限定枠との間の交差合併比に基づいて、前記第１の画像フレームを更新後の基準フレームとするか否かを決定することは、
前記第１の位置限定枠と前記第２の位置限定枠との間の交差合併比が所定の閾値以下であることに応答して、前記第１の画像フレームを更新後の基準フレームとすると決定することを含む。

選択可能に、前記第１の画像フレームを更新後の基準フレームとすると決定したことに応答して、前記第１の画像フレームの特徴データを記憶することを更に含む。

本開示の実施例の別の態様によれば、提供される目標トラッキング装置は、
少なくとも１つの第２の画像フレームと同一な基準フレームを有する第１の画像フレームの基準フレームの特徴データを取得するために用いられる特徴取得ユニットと、
前記基準フレームの特徴データに基づいて、前記第１の画像フレームにおけるトラッキング目標の位置を決定するために用いられる位置決定ユニットと、を含む。

選択可能に、前記位置決定ユニットは、
前記第１の画像フレームに対して特徴抽出を行い、前記第１の画像フレームの特徴データを得るために用いられる特徴抽出モジュールと、
前記基準フレームの特徴データ及び前記第１の画像フレームの特徴データに基づいて、前記第１の画像フレームにおけるトラッキング目標の位置を得るために用いられる位置モジュールと、を含む。

選択可能に、前記位置モジュールは、前記第１の画像フレームの特徴データと前記基準フレームの特徴データを接続し、接続特徴を得、
前記接続特徴に基づいて、前記第１の画像フレームにおけるトラッキング目標の位置を得るために用いられる。

選択可能に、前記位置決定ユニットは、前記基準フレームの特徴データに基づいて、前記基準フレームにおけるトラッキング目標に対する前記第１の画像フレームにおけるトラッキング目標の相対的位置情報を得、
前記相対的位置情報及び前記基準フレームにおけるトラッキング目標の位置情報に基づいて、前記第１の画像フレームにおけるトラッキング目標の位置を得るために用いられる。

選択可能に、前記特徴取得ユニットは、メモリから前記第１の画像フレームの基準フレームの特徴データを取得するために用いられる。

選択可能に、
前記第１の画像フレームにおけるトラッキング目標の位置及び前記基準フレームにおけるトラッキング目標の位置に基づいて、前記第１の画像フレームを更新後の基準フレームとするか否かを決定し、及び／又は、
前記第１の画像フレームと前記基準フレームとの間の間隔が所定の条件を満たした場合に、前記第１の画像フレームを更新後の基準フレームと決定するために用いられる基準決定ユニットを更に含む。

選択可能に、前記基準決定ユニットは、前記第１の画像フレームにおけるトラッキング目標の第１の位置限定枠と前記基準フレームにおけるトラッキング目標の第２の位置限定枠との間の交差合併比に基づいて、前記第１の画像フレームを更新後の基準フレームとするか否かを決定するために用いられる。

選択可能に、前記基準決定ユニットは、前記第１の位置限定枠と前記第２の位置限定枠との間の交差合併比が所定の閾値以下であることに応答して、前記第１の画像フレームを更新後の基準フレームとすると決定するために用いられる。

選択可能に、前記基準決定ユニットは、更に前記第１の画像フレームを更新後の基準フレームとすると決定したことに応答して、前記第１の画像フレームの特徴データを記憶するために用いられる。

本開示の実施例の別の態様によれば、提供される電子機器は、上記のような目標トラッキング装置を備えるプロセッサを含む。

本開示の実施例の別の態様によれば、提供される電子機器は、実行可能コマンドを記憶するためのメモリと、
前記メモリと通信して前記実行可能コマンドを実行して上記のような目標トラッキング方法を完成するために用いられるプロセッサとを含む。

本開示の実施例の別の態様によれば、提供されるコンピュータ記憶媒体は、コンピュータ可読コマンドを記憶するためのものであり、前記コマンドがプロセッサにより実行される時に、前記プロセッサに上記のような目標トラッキング方法を実行させる。

本開示の実施例の別の態様によれば、提供されるコンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードが機器上で動作する時に、前記機器中のプロセッサに上記のような目標トラッキング方法を実行させる。

本開示の実施例の更に１つの態様によれば、提供されるコンピュータプログラム製品は、コンピュータ可読コマンドを記憶するためのものであり、前記コマンドが実行される時に、コンピュータに上記のいずれか１つの実現可能な形態に記載の目標トラッキング方法を実行させる。

選択可能な一実施形態では、前記コンピュータプログラム製品は、具体的にコンピュータ記憶媒体であり、別の選択可能な一実施形態では、前記コンピュータプログラム製品は、具体的に例えばＳＤＫなどのソフトウェア製品である。

本開示の実施例によれば、少なくとも１つの第２の画像フレームと同一な基準フレームに対応する第１の画像フレームの基準フレームの特徴データを取得することと、前記基準フレームの特徴データに基づいて、前記第１の画像フレームにおけるトラッキング目標の位置を決定することと、を含む別の目標トラッキング方法及びそれに対応する装置、電子機器、コンピュータ記憶媒体、コンピュータプログラム並びにコンピュータプログラム製品を更に提供する。

本開示の上記実施例で提供される目標トラッキング方法及び装置、電子機器並びに記憶媒体によれば、第１の画像フレームの基準フレームの特徴データを取得し、基準フレームの特徴データに基づいて、第１の画像フレームにおけるトラッキング目標の位置を決定するようになっており、基準フレームが少なくとも２つの画像フレームに対応するので、特徴データの重複使用が実現され、特徴データの計算回数が減少され、トラッキング速度が高められる。

以下、図面及び実施例を通じて本開示の技術的手段をさらに詳しく説明する。
本願明細書は、例えば、以下の項目も提供する。
（項目１）
目標トラッキング方法であって、
少なくとも１つの第２の画像フレームと同一な基準フレームを有する第１の画像フレームの基準フレームの特徴データを取得することと、
前記基準フレームの特徴データに基づいて、前記第１の画像フレームにおけるトラッキング目標の位置を決定することと、を含むことを特徴とする目標トラッキング方法。
（項目２）
前記基準フレームの特徴データに基づいて、第１の画像フレームにおけるトラッキング目標の位置を決定することは、
前記第１の画像フレームに対して特徴抽出を行い、前記第１の画像フレームの特徴データを得ることと、
前記基準フレームの特徴データ及び前記第１の画像フレームの特徴データに基づいて、前記第１の画像フレームにおけるトラッキング目標の位置を得ることと、を含むことを特徴とする項目１に記載の方法。
（項目３）
前記基準フレームの特徴データ及び前記第１の画像フレームの特徴データに基づいて、前記第１の画像フレームにおけるトラッキング目標の位置を得ることは、
前記第１の画像フレームの特徴データと前記基準フレームの特徴データを接続し、接続特徴を得ることと、
前記接続特徴に基づいて、前記第１の画像フレームにおけるトラッキング目標の位置を得ることと、を含むことを特徴とする項目２に記載の方法。
（項目４）
前記基準フレームの特徴データに基づいて、第１の画像フレームにおけるトラッキング目標の位置を得ることは、
前記基準フレームの特徴データに基づいて、前記基準フレームにおけるトラッキング目標に対する前記第１の画像フレームにおけるトラッキング目標の相対的位置情報を得ることと、
前記相対的位置情報及び前記基準フレームにおけるトラッキング目標の位置情報に基づいて、前記第１の画像フレームにおけるトラッキング目標の位置を得ることと、を含むことを特徴とする項目１～３のいずれか一項に記載の方法。
（項目５）
前記基準フレームの特徴データを取得することは、
メモリから基準フレームの特徴データを取得することを含むことを特徴とする項目１～４のいずれか一項に記載の方法。
（項目６）
前記第１の画像フレームを更新後の基準フレームとするか否かを決定することを更に含むことを特徴とする項目１～５のいずれか一項に記載の方法。
（項目７）
前記第１の画像フレームを更新後の基準フレームとするか否かを決定することは、
前記第１の画像フレームにおけるトラッキング目標の位置及び前記基準フレームにおけるトラッキング目標の位置に基づいて、前記第１の画像フレームを更新後の基準フレームとするか否かを決定すること、及び／又は、
前記第１の画像フレームと前記基準フレームとの間の間隔に基づいて、前記第１の画像フレームを更新後の基準フレームとするか否かを決定することを含むことを特徴とする項目６に記載の方法。
（項目８）
前記第１の画像フレームにおけるトラッキング目標の位置及び前記基準フレームにおけるトラッキング目標の位置に基づいて、前記第１の画像フレームを更新後の基準フレームとするか否かを決定することは、
前記第１の画像フレームにおける前記トラッキング目標の第１の位置限定枠と前記基準フレームにおける前記トラッキング目標の第２の位置限定枠との間の交差合併比に基づいて、前記第１の画像フレームを更新後の基準フレームとするか否かを決定することを含むことを特徴とする項目７に記載の方法。
（項目９）
前記第１の画像フレームにおけるトラッキング目標の第１の位置限定枠と前記基準フレームにおけるトラッキング目標の第２の位置限定枠との間の交差合併比に基づいて、前記第１の画像フレームを更新後の基準フレームとするか否かを決定することは、
前記第１の位置限定枠と前記第２の位置限定枠との間の交差合併比が所定の閾値以下であることに応答して、前記第１の画像フレームを更新後の基準フレームとすると決定することを含むことを特徴とする項目８に記載の方法。
（項目１０）
前記第１の画像フレームを更新後の基準フレームとすると決定したことに応答して、前記第１の画像フレームの特徴データを記憶することを更に含むことを特徴とする項目６～９のいずれか一項に記載の方法。
（項目１１）
目標トラッキング装置であって、
少なくとも１つの第２の画像フレームと同一な基準フレームを有する第１の画像フレームの基準フレームの特徴データを取得するために用いられる特徴取得ユニットと、
前記基準フレームの特徴データに基づいて、前記第１の画像フレームにおけるトラッキング目標の位置を決定するために用いられる位置決定ユニットと、を含むことを特徴とする目標トラッキング装置。
（項目１２）
前記位置決定ユニットは、前記第１の画像フレームに対して特徴抽出を行い、前記第１の画像フレームの特徴データを得るために用いられる特徴抽出モジュールと、
前記基準フレームの特徴データ及び前記第１の画像フレームの特徴データに基づいて、前記第１の画像フレームにおけるトラッキング目標の位置を得るために用いられる位置モジュールと、を含むことを特徴とする項目１１に記載の装置。
（項目１３）
前記位置モジュールは、前記第１の画像フレームの特徴データと前記基準フレームの特徴データを接続し、接続特徴を得、
前記接続特徴に基づいて、前記第１の画像フレームにおけるトラッキング目標の位置を得るために用いられることを特徴とする項目１２に記載の装置。
（項目１４）
前記位置決定ユニットは、前記基準フレームの特徴データに基づいて、前記基準フレームにおけるトラッキング目標に対する前記第１の画像フレームにおけるトラッキング目標の相対的位置情報を得、
前記相対的位置情報及び前記基準フレームにおけるトラッキング目標の位置情報に基づいて、前記第１の画像フレームにおけるトラッキング目標の位置を得るために用いられることを特徴とする項目１１～１３のいずれか一項に記載の装置。
（項目１５）
前記特徴取得ユニットは、メモリから前記第１の画像フレームの基準フレームの特徴データを取得するために用いられることを特徴とする項目１１～１４のいずれか一項に記載の装置。
（項目１６）
前記第１の画像フレームにおけるトラッキング目標の位置及び前記基準フレームにおけるトラッキング目標の位置に基づいて、前記第１の画像フレームを更新後の基準フレームとするか否かを決定し、及び／又は、
前記第１の画像フレームと前記基準フレームとの間の間隔が所定の条件を満たした場合に、前記第１の画像フレームを更新後の基準フレームとすると決定するために用いられる基準決定ユニットを更に含むことを特徴とする項目１１～１５のいずれか一項に記載の装置。
（項目１７）
前記基準決定ユニットは、前記第１の画像フレームにおけるトラッキング目標の第１の位置限定枠と前記基準フレームにおけるトラッキング目標の第２の位置限定枠との間の交差合併比に基づいて、前記第１の画像フレームを更新後の基準フレームとするか否かを決定するために用いられることを特徴とする項目１６に記載の装置。
（項目１８）
前記基準決定ユニットは、前記第１の位置限定枠と前記第２の位置限定枠との間の交差合併比が所定の閾値以下であることに応答して、前記第１の画像フレームを更新後の基準フレームとすると決定するために用いられることを特徴とする項目１７に記載の装置。
（項目１９）
前記基準決定ユニットは、更に前記第１の画像フレームを更新後の基準フレームとすると決定したことに応答して、前記第１の画像フレームの特徴データを記憶するために用いられることを特徴とする項目１８に記載の装置。
（項目１９）
電子機器であって、
項目１０～１９のいずれか一項に記載の目標トラッキング装置を備えるプロセッサを含むことを特徴とする電子機器。
（項目２０）
電子機器であって、
実行可能コマンドを記憶するためのメモリと、
前記メモリと通信して前記実行可能コマンドを実行して項目１～９のいずれか一項に記載の目標トラッキング方法を完成するためのプロセッサと、を含むことを特徴とする電子機器。
（項目２１）
コンピュータ可読コマンドを記憶するためのコンピュータ記憶媒体であって、
前記コマンドがプロセッサにより実行される時に、前記プロセッサに項目１～１０のいずれか一項に記載の目標トラッキング方法を実行させることを特徴とするコンピュータ記憶媒体。
（項目２２）
コンピュータ可読コマンドを記憶するためのコンピュータプログラム製品であって、
前記コマンドが実行される時に、コンピュータに項目１～１０のいずれか一項に記載の目標トラッキング方法を実行させることを特徴とするコンピュータプログラム製品。

明細書の一部を構成する図面は、本開示の実施例を説明し、その説明と共に本開示の原理を解釈することに用いられる。

図面を参照し、以下の詳細な説明により本開示をより明瞭に理解することができる。
本開示の実施例で提供される目標トラッキング方法のフローチャートである。本開示の実施例で提供される目標トラッキング装置の構造模式図である。本開示の実施例の端末装置又はサーバーを実現するのに適する電子機器の構造模式図である。

ここで、図面を参照しながら本開示の様々な例示的な実施例を詳細に説明する。なお、特に断らない限り、これらの実施例で記述した部材及びステップの相対的配置、数式及び値は本開示の範囲を限定するものではないことに注意すべきである。

同時に、説明の便宜上、図面に示した各部分の寸法は実際の比例関係に従って描いたものではないことを理解すべきである。

以下の少なくとも一つの例示的な実施例に対する説明は実際に説明的なものに過ぎず、本開示及びその適用または使用へのなんらの制限にもならない。

関連分野の当業者に既知の技術、方法及び機器については、詳細に説明しない場合があるが、場合によって、前記技術、方法及び機器は明細書の一部と見なすべきである。

なお、類似する符号及び英文字は以下の図面において類似項目を表し、従って、ある一項が一つの図面において定義されれば、以降の図面においてそれをさらに説明する必要がないことに注意すべきである。

本開示の実施例はコンピュータシステム／サーバーに適用可能であり、それは他の様々な共通または専用計算システム環境または構成と共に動作可能である。コンピュータシステム／サーバーとの併用に適する公知の計算システム、環境及び／または構成の例は、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、ファットクライアント、手持ちまたはラップトップデバイス、マイクロプロセッサに基づくシステム、セットトップボックス、プログラマブル消費者用電子機器、ネットワークパソコン、小型コンピュータシステム、大型コンピュータシステム及び前記任意のシステムを含む分散型クラウドコンピューティング技術環境などを含むが、これらに限定されない。

コンピュータシステム／サーバーはコンピュータシステムにより実行されるコンピュータシステム実行可能コマンド（例えば、プログラムモジュール）の一般的な言語環境において記述できる。通常、プログラムモジュールはルーチン、プログラム、目的プログラム、コンポーネント、ロジック、データ構造などを含んでよく、それらは特定のタスクを実行するかまたは特定の抽象データ型を実現する。コンピュータシステム／サーバーは分散型クラウドコンピューティング環境において実施でき、分散型クラウドコンピューティング環境において、タスクは通信ネットワークにわたってリンクされた遠隔処理機器により実行される。分散型クラウドコンピューティング環境において、プログラムモジュールは記憶機器を含むローカルまたは遠隔計算システムの記憶媒体に存在してよい。

図１は本開示の実施例で提供される目標トラッキング方法のフローチャートである。該方法は例えば端末装置、サーバー、移動機器などのような任意の電子機器により実行されてよい。

ステップ１１０において、第１の画像フレームの基準フレームの特徴データを取得する。

選択可能な一例では、該ステップ１１０はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、特徴取得ユニット２１により実行されてもよい。

トラッキング目標をトラッキングするために、選択可能に、ビデオなどの手段により該トラッキング目標の複数の画像フレームを収集し、これらの画像フレームにおけるトラッキング目標の位置を決定し、画像フレームの時間の取得を組み合わせることにより、時間による該トラッキング目標のこれらの目標画像での移動軌跡を決定し、トラッキング目標に対するトラッキングを実現することができる。

いくつかの実施例では、トラッキング目標に対するトラッキングを実現するために、既知の１つの画像フレームにおけるトラッキング目標の位置が必要とされ、該位置に基づいて現在トラッキングしようとするトラッキング目標を決定し、又は、トラッキング目標がある特定の目標（例えば、顔又は人体など）であることが知られており、決定されたトラッキング目標に対して複数の画像フレームを収集する。

選択可能に、目標トラッキング問題の定義によって、１つ又は複数の画像中のトラッキング目標の決定された位置に基づいて、トラッキング目標に対するトラッキングを実現することができ、本開示の実施例でトラッキングされる目標は既知又は未知の特定の物体又は人物又は他の種類であってよく、本開示の実施例はこれについて制限を加えない。

本開示の実施例では、少なくとも２つの画像フレームは同一な基準フレームを重複使用してよく、ここで、選択可能に、この少なくとも２つの画像フレームは隣接する少なくとも２つの画像フレームであってよく、例えば、本開示の実施例では、Ｍフレームごとに基準フレームを一回更新してよく、そのように、隣接するＭ－１番の画像フレームが同一な基準フレームに対応することができ、ここで、Ｍが２以上の所定の数値であり、該所定の数値は実際の使用要求により決定してよいが、本開示の実施例ではＭの値及び同一な基準フレームを重複使用する複数の画像フレームの実現について制限を加えない。

本開示の実施例では、ある画像フレームはその基準フレームと隣接してもよく、隣接しなくてもよい。例えば、第１の画像フレームとその基準フレームの間に１つ又は複数の画像フレームの間隔があってよい。例えば、第１の画像フレームとその基準フレームの間にＮ個の画像フレームの間隔があってよく、ここで、Ｎが１以上の数値であり、本開示の実施例ではＮの数値について制限を加えない。

このように、第１の画像フレームと他の画像フレーム（例えば、１つ又は複数の第２の画像フレーム）は同一な基準フレームを重複使用でき、ここで、第２の画像フレームは第１の画像フレームの前又はその後に位置してよく、それぞれのフレームの目標画像に異なる基準フレームを採用した他の目標トラッキング方式と比較すれば、目標トラッキングの処理効率を高めることができる。

選択可能に、第１の画像フレームの基準フレームは１つ又は複数の画像フレームを含んでよく、ここで、該複数の画像フレームはビデオストリーム中の隣接する画像フレーム又は隣接しない画像フレームであってよい。例えば、該複数の基準フレームはビデオストリーム中の隣接するＫ個の基準フレームであってよく、又は、該複数の基準フレーム中の隣接する基準フレームの一部がビデオストリームにおいて隣接し、他の一部がビデオにおいて隣接しないようになってよく、又は、該複数の基準フレーム中の任意２つの隣接する基準フレームはビデオストリームにおいて相互に隣接しなくてよく、選択可能に、複数の基準フレームの間に１つ又は複数の画像の間隔があってよい。いくつかの実施例では、該複数の画像フレーム中の任意２つの隣接する画像フレームの間に個数が同一な画像フレームの間隔があり、例えば、Ｍ個の画像フレームの間隔があり、ここで、Ｍが２以上の所定の数値である。Ｍの数値は適用シーン及び要求に応じて決定してよく、本開示の実施例ではＭの数値は限定されない。又は、該複数の画像フレーム中の異なる隣接画像フレームの間に個数が異なる画像フレームの間隔があってもよく、本開示の実施例はこれについて制限を加えない。

本明細書中の「複数の基準画像中の隣接する画像又は隣接する基準画像」は、所定の順序付け規則により該複数の基準画像を配列した後隣接する基準画像を指してよく、ここで、該順序付け規則は収集時間又は検出時間により配列するなどのようになってよく、本明細書中の「ビデオストリーム中の隣接する画像」はビデオストリーム又はビデオストリームセグメント中の複数の画像を配列した後隣接する画像を指してよく、該配列はビデオストリーム中の元の順序又はある特定の順序付け規則を指してよく、本開示の実施例では、配列の具体的な実現は限定されないことを理解すべきである。

本開示の実施例では、複数種の方式により基準フレームの特徴データを取得してよい。いくつかの実施例では、他の装置から基準フレームの特徴データを取得してよく、例えば、サーバーは端末装置から送信される基準フレームの特徴データを受信する。更に例えば、電子機器はデータベースから基準フレームの特徴データを取得し、ここで、該データベースは電子機器のローカルデータベースとして設置され又は他の機器に設置されてよい。別のいくつかの実施例では、基準フレームに対して特徴抽出処理を行い、基準フレームの特徴データを得てよい。

１つ又は複数の選択可能な実施例では、電子機器は記憶された基準フレームの特徴データを取得してよく、例えば、メモリから基準フレームの特徴データを取得する。選択可能に、基準フレームを処理するプロセス（例えば、基準フレームにおけるトラッキング目標の位置情報の決定）で基準フレームの特徴データをバッファ領域に記憶し、且つバッファ領域から基準フレームの特徴データを取得してよいが、本開示の実施例はこれに限定されるものではない。

本開示の実施例では、選択可能に、目標画像はその複数の基準画像と隣接してよい。又は、目標画像とその基準画像の間に少なくとも１つの画像フレーム（第２の画像という）の間隔があってよい。選択可能に、目標画像とその複数の基準画像中の任意の基準画像の間に１つ又は複数の画像の間隔があってよく、又は、目標画像は複数の基準画像中の一部の基準画像と隣接してよく、複数の基準画像中の別の一部の基準画像との間に１つ又は複数の画像の間隔があってよく、本開示の実施例はこれについて制限を加えない。目標画像の１フレーム前の画像を基準画像とする方式と比較すれば、本開示の実施例で提供される技術的手段は予測精度を高めることができ、その原因は早い画像の予測がより精確で、早い画像をトラッキング基準画像として誤差累積の問題を効果的に解決できることにある。

本開示の実施例では、選択可能に、異なる画像は異なる基準画像を有してよく、又は、複数の画像は同一な基準画像を重複使用してよく、例えば、目標画像は少なくとも１つの第３の画像と同一な基準画像を有し、例えば、目標画像の複数の基準画像が第３の画像の複数の基準画像と完全に同一であり、又は、目標画像の複数の基準画像中の一部の基準画像も第３の画像の基準画像であり、本開示の実施例はこれについて制限を加えない。ここで、選択可能に、この少なくとも１つの第３の画像は該目標画像と隣接してよいが、本開示の実施例はこれに限定されるものではない。この時に、選択可能に、基準画像の特徴をバッファ領域に記憶してよく、画像のトラッキング目標の位置予測を行う時に、記憶された基準画像の特徴を呼び出せばよく、位置予測の速度が高まる。

本開示の実施例では、複数種の方式により基準画像の特徴を取得してよい。いくつかの実施例では、他の装置から基準画像の特徴を取得してよく、例えば、サーバーは端末装置から送信される基準画像の特徴を受信し、更に例えば、電子機器はデータベースから基準画像の特徴を取得し、ここで、該データベースは電子機器のローカルデータベースとして設置され又は他の機器に設置されてよい。別のいくつかの実施例では、基準画像を取得した後、基準画像に対して特徴抽出処理を行い、基準画像の特徴を得てよい。

１つ又は複数の選択可能な実施例では、電子機器のメモリに記憶された複数の基準画像の特徴を取得してよく、例えば、第２のバッファ領域から目標画像の複数の基準画像の特徴を取得する。選択可能に、基準画像の特徴を第２のバッファ領域に記憶し、且つ第２のバッファ領域から基準画像の特徴を取得してよく、ここで、該第２のバッファ領域を位置見本バッファ領域（ＬｏｃａｔｉｏｎＥｘｅｍｐｌａｒＢｕｆｆｅｒ）と呼んでもよいが、本開示の実施例では、第２のバッファ領域の名称について制限を加えない。

本開示の実施例では、第２のバッファ領域は基準画像の情報を記憶するために用いられ、選択可能に、現在基準画像とする複数の画像の情報、即ち、基準画像リストに現在含まれる複数の基準画像の情報を記憶してよく、例えば、基準画像の特徴を記憶してよく、又は更に基準画像中のトラッキング目標の位置情報を記憶してよく、本開示の実施例はこれについて制限を加えない。

深層回帰ネットワークに基づいて実現される目標トラッキング方法において、深層回帰ネットワークは基準画像ブランチ及び目標画像ブランチからなり、基準画像ブランチは基準画像特徴抽出装置を利用して価値のある位置見本（ｌｏｃａｔｉｏｎｅｘｅｍｐｌａｒ）情報を得ることができ、目標物体の位置を予測するように目標画像ブランチを指導する。選択可能に、一般的にはｔ－１番目のフレームを用いてｔ番目のフレームを予測する策略が採用される。しかしながら、事実的には、ｔ番目のフレームの目標物体の位置を予測する時に、ｔ－２番目のフレームの前の全ての画像がすでに基準画像ブランチの特徴抽出装置を通過しており、有効な位置見本が得られた。従って、位置見本の重複使用を行って、トラッキングシステムの速度を高めることができる。

トラッキング速度を高めるために、基準フレームに基づいて得られた特徴データをメモリに記憶し、該特徴データは基準フレームに対して特徴抽出を行って得られたものであってよく、更に得られたトラッキング目標の最終位置の画像フレームを基準フレームとしてメモリに記憶して、後続画像フレームにおけるトラッキング目標の位置を決定してよい。

ステップ１２０において、基準フレームの特徴データに基づいて、第１の画像フレームにおけるトラッキング目標の位置を決定する。

選択可能な一例では、該ステップ１２０はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、位置決定ユニット２２により実行されてもよい。

選択可能に、トラッキング目標の位置はトラッキング目標の第１の画像フレームでの座標情報、例えばトラッキング目標の位置限定枠（ｂｏｕｎｄｉｎｇｂｏｘ）の第１の画像フレームでの座標情報などを含んでよく、本開示の実施例はこれについて制限を加えない。

いくつかの選択可能な実施例では、第１の画像フレームに対して特徴抽出を行い、第１の画像フレームの特徴データを得、第１の画像フレームの特徴データ及び基準フレームの特徴データに基づいて、第１の画像フレームにおけるトラッキング目標の位置を決定してよい。

選択可能に、ニューラルネットワークにより画像フレームに対して特徴抽出を行ってよく、例えば、畳み込みニューラルネットワーク中の畳み込み層により第１の画像フレームに対して畳み込み操作を行い、第１の画像フレームの特徴データを得、ここで、選択可能に、該特徴データは特徴マップ又は他の形態であってよく、本開示の実施例では、特徴データの抽出方式及び得られる特徴データの具体的な実現形態は限定されない。

選択可能に、第１の画像フレームの特徴データと基準フレームの特徴データを接続（又はスプライシング）し、接続特徴を得、接続特徴又はスプライシング特徴に基づいて、第１の画像フレームにおけるトラッキング目標の位置を得てよい。

ここの接続（又はスプライシング）はチャネル重畳を指してよく、例えば、第１の画像フレームが３つのチャネルにより３つの特徴マップを出力し、基準フレームが３つのチャネルにより３つの特徴マップを出力し、特徴接続により６つの特徴マップを得ることができる。

本開示の実施例では、接続特徴に基づいてトラッキング目標位置を得る方式が多い。いくつかの選択可能な実施例では、全接続層及び／又は他のネットワーク層の処理により、トラッキング目標の位置を得てよく、本開示の実施例はこれについて制限を加えない。

選択可能に、接続特徴を処理し、第１の画像フレームにおけるトラッキング目標に対応する座標を得てよく、得られた座標に対応する範囲はトラッキング目標の第１の画像フレームでの位置となる。

いくつかの選択可能な実施例では、基準フレームの特徴データに基づいて、第１の画像フレームにおけるトラッキング目標の基準フレームにおけるトラッキング目標に対する相対的位置情報を得、相対的位置情報及び基準フレームにおけるトラッキング目標の位置情報に基づいて、第１の画像フレームにおけるトラッキング目標の位置を得てよい。

選択可能に、基準フレームの特徴データ及び第１の画像フレームの特徴データに基づいて、第１の画像フレームと基準フレームとの間の相対的差異を決定でき、特徴データの間の相対的差異により、トラッキング目標の第１の画像フレーム及び基準フレームでの相対的位置情報を決定することができ、ここの相対的位置情報はトラッキング目標の基準フレームから第１の画像フレームまでの移動の相対的距離を指示できる。基準フレームにおけるトラッキング目標の位置情報が決定されたものであるので、既知の基準フレームの位置情報及び相対的位置情報に基づいて第１の画像フレームにおけるトラッキング目標の位置を決定することができる。

他の目標トラッキング方式において、ｔ－１番目のフレームを用いてｔ番目のフレームを予測する策略が採用される。事実的には、ｔ番目のフレームの目標物体の位置を決定する時に、ｔ－２番目のフレーム前の全ての画像がすでに基準画像ブランチの特徴抽出装置を通過しており、有効な位置見本が得られた。深層回帰ネットワークの前向きの特性によりトラッキングシステムの速度を高めることができる。

隣接する２つのフレームの間の物体変位が大きくないので、ｔ－２、ｔ－３、ｔ－Ｋ番目のフレーム又はｔ番目のフレームの位置を利用することが完全に可能である。従って、ｔ－１番目のフレームが基準画像ブランチを通過しなくてもよく、このように多くの時間が節約される。実際の工業生産において、収集されたビデオフレームに対してＫフレームごとに基準画像ブランチの位置見本を一回更新すると考えれば、２Ｋ／（Ｋ＋１）に近い速度向上を実現できる。このような大幅の向上により実際の応用で更にリアルタイム性を高め、機器の消費電力を低下させることができる。

本開示の実施例では、複数の目標画像フレームは同一な基準フレームを重複使用してよい。このように、ある目標画像に対してトラッキング目標の位置予測を行う時に、保存された基準フレームの特徴データを呼び出し、位置予測の速度を高めることができ、また、１つ前の画像フレームを基準フレームとしない策略により精度を高めることができ、その原因は本開示の実施例で検出された基準フレームにおけるトラッキング目標の位置の精度が高く、早い画像フレームにおけるトラッキング目標の位置予測がより精確になり、早い画像フレームをトラッキングの基準フレームとして誤差累積の現象を効果的に解決できることにある。

本開示の上記実施例で提供される目標トラッキング方法によれば、第１の画像フレームの基準フレームの特徴データを取得し、基準フレームの特徴データに基づいて、第１の画像フレームにおけるトラッキング目標の位置を決定するようになっており、第１の画像フレームと少なくとも１つの第２の画像フレームが同一な基準フレームを有するので、特徴データの重複使用が実現され、特徴データの計算回数が減少され、トラッキング速度が高められる。

いくつかの選択可能な例では、ステップ１２０は、基準フレームの特徴データに基づいて、第１の画像フレームにおけるトラッキング目標の複数の初期予測位置を決定することと、
複数の初期予測位置に基づいて第１の画像フレームにおけるトラッキング目標の最終位置を決定することと、を含んでよい。

選択可能に、初期予測位置及び／又は最終位置はトラッキング目標に対応する位置限定枠の位置、例えば顔枠、人体枠又は特定物体又は部位の位置などを指してよく、本開示の実施例ではトラッキング目標の位置の具体的な形態は限定されない。

いくつかの実施例では、複数の初期予測位置に対して例えば数学的平均又は加重平均などの平均処理を行って、トラッキング目標の第１の画像フレームでの最終位置を得てよい。別のいくつかの実施例では、複数の初期予測位置から少なくとも１つの初期予測位置を選択し、少なくとも１つの初期予測位置に基づいて、トラッキング目標の第１の画像フレームでの最終位置を得てよい。

１つ又は複数の選択可能な実施例では、複数の初期予測位置の信頼度に基づいて、第１の画像フレームにおけるトラッキング目標の最終位置を決定する。

選択可能に、複数の初期予測位置の信頼度に基づいて、複数の初期予測位置から少なくとも１つの初期予測位置を選択し、少なくとも１つの初期予測位置に基づいて、最終位置を決定する。例えば、複数の初期予測位置から信頼度の高い少なくとも１つの初期予測位置を選択する。ここで、この少なくとも１つの初期予測位置は複数の初期予測位置のうちの信頼度が最も高い所定の数量の位置であってもよく、複数の初期予測位置のうちの信頼度が第２の所定の閾値より大きい位置であってもよく、本開示の実施例はこれについて制限を加えない。

信頼度は該予測位置が該第１の画像フレームにおけるトラッキング目標の真実位置に対応する確率を表し、いくつかの実施例では、信頼度はトレーニングされたニューラルネットワークであるスコアリングネットワークにより得られ、例えば、１つのバイナリ分類ネットワークを利用し、予測位置と真実位置が重なり合った時に、真実値１、予測値０が出力され、予測位置と真実位置が重なり合わない時に、真実値０、予測値１が出力され、本開示の実施例ではスコアリングネットワークの具体的な実現は限定されない。

いくつかの実施例では、選択された少なくとも１つの初期予測位置の平均値を最終位置とし、ここで、該平均値は算術平均値、幾何平均値又は加重平均値であってよく、例えば、選択された少なくとも１つの初期予測位置に対して加重平均を行い、第１の画像フレームにおけるトラッキング目標の最終位置を得、ここで、初期予測位置の重み値はその信頼度に依存するものであり、信頼度が大きいほど、重み値が大きくなり、信頼度が小さいほど、重み値が小さくなるが、本開示の実施例はこれに限定されるものではない。

信頼度により得られた初期予測位置のうちのずれが大きい初期予測位置を削除してよく、それに対して、得られた最終位置は更に該目標画像中のトラッキング目標の真実位置に近接し、より好適なトラッキングを実現することができる。

選択可能に、複数の初期予測位置のうちの少なくとも１つの初期予測位置の信頼度を決定することは、
信頼度スコアリングネットワークを利用して複数の初期予測位置をそれぞれ処理し、複数の初期予測位置に対応する信頼度を得ることを含む。

ここで、信頼度スコアリングネットワークはトレーニングして得られたものであり、入力された初期予測位置に対応してトレーニングされた信頼度スコアリングネットワークは対応する信頼度を出力でき、選択可能に、予測信頼度と真実信頼度に基づいて誤差を得て、誤差により逆勾配伝播法を利用してスコアリングネットワークをトレーニングすることができ、トレーニングされたスコアリングネットワークは予測位置が真実位置（既知の目標位置）となる確率をより好適に予測でき、該スコアリングネットワークはトラッキングしようとする特定の物体に対応してトレーニングされ、例えば、顔をトラッキングすることが必要とされる場合に、顔画像を用いて該スコアリングネットワークをトレーニングする。

選択可能に、信頼度スコアリングネットワークを利用して複数の初期予測位置をそれぞれ処理し、複数の初期予測位置に対応する信頼度を得ることの前に、
信頼度スコアリングネットワークを用いてサンプル画像の少なくとも１つの初期予測位置を処理し、少なくとも１つの初期予測位置に対応する予測信頼度を得ることと、
サンプル画像の標識位置に基づいて、少なくとも１つの初期予測位置の真実信頼度を決定することと、
少なくとも１つの初期予測位置の予測信頼度及び真実信頼度に基づいて、信頼度スコアリングネットワークをトレーニングすることと、を更に含む。

信頼度ネットワークのスコアリングの正確性を高めるために、信頼度スコアリングネットワークをトレーニングすることが必要とされ、トレーニングプロセスはニューラルネットワークのトレーニングプロセスと同様であり、いずれも真実信頼度が知られたサンプル画像に基づいて信頼度スコアリングネットワークをトレーニングし、選択可能に、様々なトラッキング目標に特定のトレーニングを採用してよく、例えば、顔をトラッキングする場合に、信頼度スコアリングネットワークをトレーニングするプロセスで、真実信頼度が知られた顔画像を用いて信頼度スコアリングネットワークをトレーニングして、得られた信頼度スコアリングネットワークによる顔画像の信頼度スコアリングがより精確になる。

いくつかの実施例では、更に第１の画像フレームを更新後の基準フレームとするか否かを決定してもよい。

選択可能に、基準フレームの更新を行わないと決定した場合に、即ち第１の画像フレームを更新後の基準フレームとしないと決定した場合に、同一な基準フレームを用いて継続的に第１の画像フレームの次の画像フレームに対して目標トラッキング処理を行う。選択可能に、基準フレームの更新を行うと決定した場合に、即ち第１の画像フレームを更新後の基準フレームとすると決定した場合に、更新後の基準フレーム、即ち第１の画像フレームを用いて、第１の画像フレームの次の画像フレームに対して目標トラッキング処理を行う。

１つ又は複数の選択可能な実施例では、第１の画像フレームにおけるトラッキング目標の位置及び基準フレームにおけるトラッキング目標の位置に基づいて、第１の画像フレームを更新後の基準フレームとするか否かを決定する。

別のいくつかの実施例では、第１の画像フレームと基準フレームとの間の間隔に基づいて、第１の画像フレームを更新後の基準フレームとするか否かを決定する。

例えば、第１の画像フレームと基準フレームとの間の間隔が所定の条件を満たしたことに応答して、第１の画像フレームを更新後の基準フレームとする。選択可能に、該所定の条件は所定の数値に達したことであってよく、例えば、Ｍ個の画像フレームごとに基準フレームを一回更新するが、本開示の実施例はこれに限定されるものではない。

実際の目標トラッキングで、トラッキング目標の運動が複雑であり、その速度が一般的に変わらないというわけではない。ｔ＋１番目のフレームの画像フレームに関して、トラッキング目標のｔ番目のフレームでの位置と基準フレームでの位置を照合することにより、基準フレームを動的に調整して、より適宜な位置見本特徴を得てよい。

選択可能に、ｔ番目のフレームを用いて基準フレームを更新した場合に、即ちｔ番目のフレームを更新後の基準フレームとした場合に、ｔ＋１番目のフレームの画像がその基準フレームと隣接することが可能になり、ｔ番目のフレームを基準フレームとしなかった場合に、基準フレームが更新されなく、この時に、ｔ＋１番目のフレームの画像とその基準フレームの間に１つ又は複数の画像フレームの間隔があることが可能になる。例えば、画像フレームとその基準フレームの間にＮ個の画像フレームの間隔があってよく、ここで、Ｎが２以上の所定の数値である。Ｎの数値は適用シーンに応じて決定してよく、本開示の実施例はＮの数値について制限を加えない。

選択可能に、第１の画像フレームにおけるトラッキング目標の位置と基準フレームにおけるトラッキング目標の位置の間の距離に基づいて、第１の画像フレームを更新後の基準フレームとするか否かを決定する。例えば、距離が特定の数値に達したことに応答して、第１の画像フレームを更新後の基準フレームとすると決定する。更に例えば、該距離が特定の数値より小さいことに応答して、第１の画像フレームを更新後の基準フレームとしなく、即ち基準フレームの更新を行わないと決定する。ここで、複数種の方式により２つの位置の間の距離を決定してよく、例えば、トラッキング目標の第１の画像フレームでの位置限定枠の中心点又はある頂点などの特定点とトラッキング目標の基準フレームでの位置限定枠の対応点の間の距離を、トラッキング目標の第１の画像フレームでの位置と基準フレームでの位置の間の距離とするなどのことが可能であり、本開示の実施例はこれについて制限を加えない。

選択可能に、第１の画像フレームにおけるトラッキング目標の第１の位置限定枠（ｂｏｕｎｄｉｎｇｂｏｘ）と基準フレームにおけるトラッキング目標の第２の位置限定枠（ｂｏｕｎｄｉｎｇｂｏｘ）の間の交差合併比に基づいて、第１の画像フレームを更新後の基準フレームとするか否かを決定する。

ずっと同一な基準フレームの特徴データを用いて画像フレームに対して位置予測を行えば、トラッキング目標の位置移動が大きい時に、位置が不精確になるので、基準フレームの特徴データを更新することが必要になり、いつ更新するかについて、選択可能に、トラッキング目標の第１の位置限定枠と基準フレームにおけるトラッキング目標の第２の位置限定枠との間の交差合併比が所定の値より大きいか否かに依存し、ここで、第１の位置限定枠は予測位置に対応する少なくとも１つの座標（例えば、全ての頂点座標）に基づいて得られ、第２の位置限定枠は基準フレームにおけるトラッキング目標に対応する少なくとも１つの座標（例えば、全ての頂点座標）に基づいて得られる。

選択可能に、第１の位置限定枠と第２の位置限定枠との間の交差合併比が所定の閾値以下であることに応答して、第１の画像フレームを更新後の基準フレームとすると決定する。

選択可能に、第１の位置限定枠と第２の位置限定枠との間の交差合併比が所定の閾値に達したことに応答して、基準フレームを更新しないと決定する。

交差合併比（ｉｎｔｅｒｓｅｃｔｉｏｎ－ｏｖｅｒ－ｕｎｉｏｎ）は２つの領域の交差集合と合併集合の比率を表し、本開示の実施例では第１の位置限定枠と第２の位置限定枠の交差集合と第１の位置限定枠と第２の位置限定枠の合併集合の割合を指し、交差合併比が小さいほど、トラッキング目標の基準フレームから第１の画像フレームまでの運動距離が大きくなることを示し、この時に、更に継続的に現在基準フレームを基準フレームとすれば、予測位置が不精確になり、従って、交差合併比が設定値より小さくなった時に、該第１の画像フレームを基準フレームとする。

選択可能に、基準フレームに対応する特徴データの取得は、第１の画像フレームに対して特徴抽出を行い、更新後の基準フレームの特徴データを得ることにより行われてもよく、又は、トラッキング目標の第１の画像フレームでの位置座標を決定し、位置座標に対して特徴抽出を実施し、更新後の基準フレームの特徴データを得ることにより行われてもよい。

予測位置と基準フレーム中の位置の絶対距離が近い（第１の位置限定枠と第２の位置限定枠との間の交差合併比が設定閾値以上である）場合に、基準フレームの更新が必要とされず、現在バッファされた基準フレームの特徴データを継続的に用いて次の画像フレームを指導することができる。予測位置と基準フレーム中の位置の絶対距離が遠い（第１の位置限定枠と第２の位置限定枠との間の交差合併比が設定閾値より小さい）場合に、第１の画像フレームの位置抽出特徴を用いて基準フレームの特徴データを更新することができ、このような動的調整メカニズムにより、先に計算された特徴データ（例えば、中間特徴マップ）を十分に利用可能であり、それにより不必要な特徴抽出プロセスを多く減少する。

例えば、目標トラッキング方法を用いてビデオセグメントでの絶対位置が基本的に変わらない物体をトラッキングすれば、ずっと第１のフレームを用いて基準フレームとしてよく、それぞれのビデオフレームにおけるトラッキング目標の位置のトラッキング速度を大幅に高め、更にトラッキング効率を高める。

特定の問題（例えば顔トラッキングのような特定の目標のトラッキング）に関して、応用する時に特定の基準フレーム更新策略を用いて目標トラッキング方法の基準フレームを調整してよく、普及させる価値が非常に高い。

１つ又は複数の選択可能な実施例では、第１の画像フレームを更新後の基準フレームとすると決定したことに応答して、第１の画像フレームの特徴データを記憶することを更に含む。

本開示の実施例では、バッファの方式により生成される特徴データを保存してよく、記憶空間を節約するために、毎回更新された後の基準フレームの特徴データを用いて１つ前の基準フレームの特徴データを置き換えるように保存してよく、位置予測が必要とされる時に、バッファから現在記憶された特徴データを呼び出せばよく、選択可能に、更に更新時間により少なくとも１つの基準フレームの特徴データを保存してもよく、少なくとも１つの特徴データ（例えば、すべてに初回に生成した特徴データ及び更新された特徴データを含む）を記憶し、このように、位置予測が必要とされる時に、最も近い時間に記憶された特徴データを呼び出し基準フレームの特徴データとする。

ユーザが携帯電話、カメラを用いて顔及び一般の物体を検出する時に、一般的には、目標トラッキングアルゴリズムとの組み合わせにより速度を高め、機器の消費電力を低減すると考えられる。本開示の実施例は深層回帰ネットワークによる目標トラッキング技術を基礎として特徴バッファ及び特徴重複使用のメカニズムを利用し、従来の回帰トラッカーの速度を大幅に高めることができ、特定のタスク（顔トラッキング）上で１５００ｆｐｓの高速度トラッキングを実現できる。これは実際の製品応用において非常に肝心なこととなり、目標トラッキングアルゴリズムの前向き速度を大幅に高める。

本開示の実施例の肝心なところは特徴バッファに基づく構成を提案し、高精度の実用的高速目標トラッキング方法を実現することにある。本開示は回帰ネットワークの構造の分析により、特徴バッファによる回帰ネットワークの中間特徴マップのメンテナンス及び重複使用メカニズムを提案する。本開示の実施例では、位置見本バッファを用いて計算された中間特徴（基準フレームブランチで計算された位置見本）を記憶し、その後のトラッキングプロセス中でその前にバッファされた位置見本を重複使用して、複数の基準フレーム見本を速やかに用いて物体をトラッキングすることを可能にすることが提案される。本開示の実施例で提供される方法は様々な目標トラッキングシーンに適用可能であり、深層回帰ネットワークに基づく目標トラッキングアルゴリズムの動作速度を元の２倍程度に向上させ、トラッキングのリアルタイム性を大幅に高め、機器の消費電力を低下させる。

本開示の実施例で提供される目標トラッキングアルゴリズムは、精度を保証した上で、従来の深層回帰ネットワークによる目標トラッキングシステムの速度に対して１倍程度の向上を実現した。特定のタスク（顔トラッキング）上で、本開示で提案される特徴重複使用に基づく回帰構成はトラッカーの精度－速度平衡曲線を著しく高め、精度を保持した上で速度の向上を実現でき、一方、速度が変わらなくてもネットワークの表現能力を高め、目標トラッカーの精度を高めることができる。

顔トラッキングについては１つのロングシーケンスビデオ（例えば、７２８９フレーム）上で実験を行って結果を以下に示す。表１は該実験中で様々なトラッキング方法を用いてトラッキングを実現して得られた指標値の比較表である。表１に示すように、実験中で基準フレームの位置見本特徴を動的に更新する策略が採用された。精度が変わらないことを保証した上で速度を１倍程度高めたことが分かった。事実的には、このようなその前の１フレームを基準フレームと決定しない策略により精度を小幅に高めることができ、その原因はフレーム検出の精度が高く、早いフレームがより精確で、早いフレームをトラッキングの基準フレームとして誤差累積の現象を効果的に解決できることにある。

当業者であれば、上記方法の実施例を実現する全てまたは一部のステップはプログラムによって関連ハードウェアに命令を出すことにより完成できることを理解でき、前記プログラムは、ＲＯＭ、ＲＡＭ、磁気ディスクまたは光ディスクなどのプログラムコードを記憶可能である様々な媒体を含むコンピュータ読み取り可能記憶媒体に記憶可能であり、該プログラムは実行される時に、上記方法の実施例を含むステップを実行する。

図２は本開示の実施例で提供される目標トラッキング装置の構造模式図である。該装置は本開示の上記の各方法実施例を実現するために用いられる。図２に示すように、該装置は以下を含む。

特徴取得ユニット２１は、基準フレームの特徴データを取得するために用いられる。

ここで、基準フレームが少なくとも２つの画像フレームに対応するので、トラッキング目標をトラッキングするために、選択可能に、ビデオなどの手段により該トラッキング目標の複数の画像フレームを収集し、これらの画像フレームにおけるトラッキング目標の位置を決定し、画像フレームの時間の取得を組み合わせることにより、時間による該トラッキング目標のこれらの目標画像での移動軌跡を決定し、トラッキング目標に対するトラッキングを実現することができる。

選択可能に、目標トラッキングの定義によって、１つ又は複数の画像中のトラッキング目標の決定された位置に基づいて、トラッキング目標に対するトラッキングを実現することができ、本開示の実施例でトラッキングされる目標は既知又は未知の特定の物体又は人物又は他の種類であってよく、本開示の実施例はこれについて制限を加えない。

１つ又は複数の選択可能な実施例では、特徴取得ユニット２１は、記憶された基準フレームの特徴データを取得してよく、例えば、メモリから第１の画像フレームの基準フレームの特徴データを取得する。選択可能に、基準フレームの特徴データをバッファ領域に記憶し、且つバッファ領域から基準フレームの特徴データを取得してよいが、本開示の実施例はこれに限定されるものではない。

位置決定ユニット２２は、基準フレームの特徴データに基づいて、第１の画像フレームにおけるトラッキング目標の位置を決定するために用いられる。

ここで、選択可能に、第１の画像フレームと基準フレームの間に少なくとも１つの画像フレームの間隔がある。

いくつかの選択可能な実施例では、位置決定ユニット２２は、
第１の画像フレームに対して特徴抽出を行い、第１の画像フレームの特徴データを得るために用いられる特徴抽出モジュールと、
基準フレームの特徴データ及び第１の画像フレームの特徴データに基づいて、第１の画像フレームにおけるトラッキング目標の位置を得るために用いられる位置モジュールと、を含んでよい。

選択可能に、位置モジュールは、第１の画像フレームの特徴データと基準フレームの特徴データを接続（又はスプライシング）し、接続特徴又はスプライシング特徴を得、接続特徴又はスプライシング特徴に基づいて、第１の画像フレームにおけるトラッキング目標の位置を得るように用いられてよい。

いくつかの選択可能な実施例では、位置決定ユニット２２は、基準フレームの特徴データに基づいて、第１の画像フレームにおけるトラッキング目標の基準フレームにおけるトラッキング目標に対する相対的位置情報を得、
相対的位置情報及び基準フレームにおけるトラッキング目標の位置情報に基づいて、第１の画像フレームにおけるトラッキング目標の位置を得るために用いられる。

本開示の上記実施例で提供される目標トラッキング装置によれば、第１の画像フレームの基準フレームの特徴データを取得し、基準フレームの特徴データに基づいて、第１の画像フレームにおけるトラッキング目標の位置を決定するようになっており、第１の画像フレームと少なくとも１つの第２の画像フレームが同一な基準フレームを有するので、特徴データの重複使用が実現され、特徴データの計算回数が減少され、トラッキング速度が高められる。

１つ又は複数の選択可能な実施例では、
第１の画像フレームにおけるトラッキング目標の位置及び基準フレームにおけるトラッキング目標の位置に基づいて、第１の画像フレームを更新後の基準フレームとするか否かを決定するために用いられる基準決定ユニットを更に含む。

選択可能に、第１の画像フレームと基準フレームとの間の間隔が所定の条件を満たした場合に、第１の画像フレームを更新後の基準フレームとする。

実際の目標トラッキングで、トラッキング目標の運動が複雑であり、その速度が一般的に変わらないというわけではない。ｔ番目のフレームの画像フレームに関して、基準フレームに対して得られた絶対位置と基準フレーム絶対位置を照合することにより、基準フレームを動的に調整して、より適宜な位置見本特徴を得てよい。

選択可能に、基準決定ユニットは、第１の画像フレームにおけるトラッキング目標の第１の位置限定枠（ｂｏｕｎｄｉｎｇｂｏｘ）と基準フレームにおけるトラッキング目標の第２の位置限定枠（ｂｏｕｎｄｉｎｇｂｏｘ）の間の交差合併比に基づいて、第１の画像フレームを更新後の基準フレームとするか否かを決定するために用いられる。

選択可能に、基準決定ユニットは、第１の位置限定枠と第２の位置限定枠との間の交差合併比が所定の閾値以下であることに応答して、第１の画像フレームを更新後の基準フレームとするために用いられる。

選択可能に、基準決定ユニットは、更に第１の画像フレームを基準フレームとすることに応答して、基準フレームの特徴データを記憶するために用いられる。

本開示の実施例の別の態様によれば、提供される電子機器は、本開示の上記のいずれか１つの実施例の目標トラッキング装置を備えるプロセッサを含む。

本開示の実施例の別の態様によれば、提供される電子機器は、実行可能コマンドを記憶するためのメモリと、
メモリと通信して実行可能コマンドを実行して本開示で提供される目標トラッキング方法の上記のいずれか１つの実施例を完成するために用いられるプロセッサと、を含む。

本開示の実施例の別の態様によれば、提供されるコンピュータ記憶媒体は、コンピュータ可読コマンドを記憶するためのものであり、コマンドがプロセッサにより実行される時に、該プロセッサに本開示で提供される目標トラッキング方法の上記のいずれか１つの実施例を実行させる。

本開示の実施例の別の態様によれば、提供されるコンピュータプログラムは、コンピュータ可読コードを含み、コンピュータ可読コードが機器上で動作する時に、機器中のプロセッサに本開示で提供される目標トラッキング方法を実行させる。

１つ又は複数の選択可能な実施形態では、本開示の実施例は更に、コンピュータ可読コマンドを記憶するためのコンピュータプログラムプログラム製品であって、前記コマンドが実行される時に、コンピュータに上記のいずれか１つの実施例に記載の目標トラッキング方法を実行させるコンピュータプログラムプログラム製品を提供する。

該コンピュータプログラム製品は具体的にはハードウェア、ソフトウェア又はそれらの組合せにより実現可能である。選択可能な一例において、前記コンピュータプログラム製品は具体的にはコンピュータ記憶媒体として実現され、別の選択可能な一例において、前記コンピュータプログラム製品は具体的には、例えばソフトウェア開発キット（ＳｏｆｔｗａｒｅＤｅｖｅｌｏｐｍｅｎｔＫｉｔ：ＳＤＫ）などのソフトウェア製品として実現される。

本開示の実施例によれば、第１の画像フレームの基準フレームの特徴データを取得し、基準フレームと第１の画像フレームの間に少なくとも１つの第２の画像フレームの間隔があることと、基準フレームの特徴データに基づいて、第１の画像フレームにおけるトラッキング目標の位置を決定することと、を含む別の目標トラッキング方法及びそれに対応する装置及び電子機器、コンピュータ記憶媒体、コンピュータプログラム並びにコンピュータプログラム製品を更に提供する。

いくつかの実施例では、該目標トラッキング指示は具体的には呼び出しコマンドであってよく、第１の装置は呼び出すことで目標トラッキングを実行するように第２の装置を指示することができ、それに対して、呼び出しコマンドを受信したことに応答して、第２の装置は上記目標トラッキング方法中のいずれか１つの実施例におけるステップ及び／又はフローを実行することができる。

本開示の実施例における「第１の」、「第２の」などの用語は区別するためのものに過ぎず、本開示の実施例に対する限定と理解してはならないことを理解すべきである。

更に、本開示では、「複数の」は２つ又は２つ以上を指してよく、「少なくとも１つの」は１つ、２つ又は２つ以上を指してよいことを理解すべきである。

更に、本開示で言及された任意の部材、データ又は構造は、明確に限定され又は明細書の前後で反対的に示唆された場合でなければ、一般的には１つ又は複数と理解してよいことを理解すべきである。

更に、本開示ではそれぞれの実施例についての説明はそれぞれの実施例の相違点を重点として強調し、その同一又は類似的な点について相互に参照してよく、簡単化するために、ここで一つずつに繰り返して説明しないことを理解すべきである。

本開示の実施例は、例えば、携帯端末、パーソナルコンピュータ（ＰＣ）、タブレット型コンピュータ、サーバーなどであってよい電子機器を更に提供する。以下、図３を参照し、本開示の実施例の端末装置又はサーバーを実現するのに適する電子機器３００の構造模式図を示し、図３に示すように、コンピュータシステム３００は１つ又は複数のプロセッサ、通信部などを含み、前記１つ又は複数のプロセッサは、例えば、１つ又は複数の中央処理ユニット（ＣＰＵ）３０１、及び／又は１つ又は複数の画像プロセッサ（ＧＰＵ）３１３などであり、プロセッサは、読み取り専用メモリ（ＲＯＭ）３０２に記憶された実行可能コマンド又は記憶部３０８からランダムアクセスメモリ（ＲＡＭ）３０３にロードされた実行可能コマンドによって各種の適切な動作及び処理を実現することができる。通信部３１２はネットワークカードを含んでよいが、それに限定されなく、前記ネットワークカードはＩＢ（Ｉｎｆｉｎｉｂａｎｄ）ネットワークカードを含んでよいが、それに限定されない。

プロセッサは読み取り専用メモリ３０２及び／又はランダムアクセスメモリ３０３と通信して実行可能コマンドを実行し、通信バス３０４を介して通信部３１２に接続され、通信部３１２を介して他のターゲットデバイスと通信してよく、それにより本開示の実施例で提供されるいずれか一項の方法に対応する操作を完成し、例えば、少なくとも１つの第２の画像フレームと同一な基準フレームを有する第１の画像フレームの基準フレームの特徴データを取得し、基準フレームの特徴データに基づいて、第１の画像フレームにおけるトラッキング目標の位置を決定する。

また、ＲＡＭ３０３には、装置の動作に必要な各種のプログラムやデータが格納されていてもよい。ＣＰＵ３０１、ＲＯＭ３０２及びＲＡＭ３０３は、通信バス３０４を介して相互に接続される。ＲＡＭ３０３を有する場合に、ＲＯＭ３０２は選択可能なモジュールである。ＲＡＭ３０３は実行可能コマンドを格納するか、または動作時に実行可能コマンドをＲＯＭ３０２に書き込み、実行可能コマンドによってプロセッサ３０１に上記通信方法に対応する操作を実行させる。入力／出力（Ｉ／Ｏ）インタフェース３０５も通信バス３０４に接続される。通信部３１２は、統合的に設置されてもよく、複数のサブモジュール（例えば複数のＩＢネットワークカード）を有し、通信バスのリンク上にあるように設置されてもよい。

キーボード、マウスなどを含む入力部３０６と、陰極線管（ＣＲＴ）、液晶ディスプレイー（ＬＣＤ）など及びスピーカなどを含む出力部３０７と、ハードディスクなどを含む記憶部３０８と、ＬＡＮカード、モデムなどのネットワークインタフェースカードを含む通信部３０９などがＩ／Ｏインタフェース３０５に接続されている。通信部３０９は例えばインターネットのようなネットワークを介して通信処理を行う。ドライブ３１０も必要に応じてＩ／Ｏインタフェース３０５に接続される。磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのリムーバブル媒体３１１は、必要に応じてドライブ３１０上に装着され、そこから読み出されたコンピュータプログラムを必要に応じて記憶部３０８にインストールする。

なお、図３に示す構造は選択可能な一実施形態に過ぎず、具体的な実践過程では、実際の必要に応じて上記図３の部品の数及び種類を選択、削除、追加、または置換することができ、異なる機能部品の設置上でも、分離設置または統合設置などの実施形態を採用でき、例えばＧＰＵとＣＰＵは分離設置するかまたはＧＰＵをＣＰＵに統合するようにしてよく、通信素子は分離設置するか、またはＣＰＵやＧＰＵに統合設置することなども可能であることを説明する必要がある。これらの置換可能な実施形態はいずれも本開示の保護範囲に属する。

特に、本開示の実施例によれば、フローチャートを参照しながら上述したプロセスはコンピュータソフトウェアプログラムとして実現できる。例えば、本開示の実施例はコンピュータプログラム製品を含み、それは機械可読媒体に有形に具現化された、フローチャートに示す方法を実行するためのプログラムコードを含むコンピュータプログラムを含み、プログラムコードは本開示の実施例により提供される方法のステップを対応して実行する対応のコマンドを含んでよく、例えば、少なくとも１つの第２の画像フレームと同一な基準フレームを有する第１の画像フレームの基準フレームの特徴データを取得し、基準フレームの特徴データに基づいて、第１の画像フレームにおけるトラッキング目標の位置を決定する。このような実施例では、該コンピュータプログラムは通信部３０９によってネットワークからダウンロード及びインストールされ、及び／又はリムーバブル媒体３１１からインストールされ得る。中央処理ユニット（ＣＰＵ）３０１によって該コンピュータプログラムを実行する時に、本発明の実施例の方法で限定された機能を実行する。

本明細書における様々な実施例は漸進的に説明され、各実施例は他の実施例との相違点に集中して説明したが、各実施例間の同一または類似の部分については相互に参照すればよい。システム実施例については、それは基本的に方法実施例に対応するので、説明は比較的簡単であり、関連部分は方法実施例の説明の一部を参照すればよい。

本開示の方法及び装置は、様々な形態で実現され得る。例えば、ソフトウェア、ハードウェア、ファームウェアまたはソフトウェア、ハードウェア、ファームウェアの任意の組合わせによって本開示の方法及び装置を実現することができる。前記方法のステップのための上記順序は説明することのみを目的とし、本開示の方法のステップは、特に断らない限り、以上で具体的に説明した順序に限定されない。また、いくつかの実施例では、本開示は記録媒体に記憶されたプログラムとしてもよく、これらのプログラムは本開示の方法を実現するための機械可読コマンドを含む。従って、本開示は本開示の方法を実行するためのプログラムが記憶された記録媒体も含む。

本開示の説明は、例示及び説明のために提示されたものであり、網羅的なものでありもしくは開示された形式に本開示を限定するというわけでない。当業者にとっては多くの修正及び変形を加えることができるのは明らかであろう。実施例は本開示の原理及び実際応用をより明瞭に説明するため、かつ当業者が本開示を理解して特定用途に適した各種の修正を加えた各種の実施例を設計可能にするように選択され説明されたものである。

Claims

目標トラッキング方法であって、
少なくとも１つの第２の画像フレームと同一な基準フレームを有する第１の画像フレームの基準フレームの特徴データを取得することと、
前記基準フレームの特徴データに基づいて、前記第１の画像フレームにおけるトラッキング目標の位置を決定することと
を含み、
前記目標トラッキング方法は、
前記第１の画像フレームにおける前記トラッキング目標の第１の位置限定枠と前記基準フレームにおける前記トラッキング目標の第２の位置限定枠との間の交差合併比が所定の閾値より小さいことに応答して、前記第１の画像フレームを更新後の基準フレームとすると決定することをさらに含む、目標トラッキング方法。
前記基準フレームの特徴データに基づいて、前記第１の画像フレームにおけるトラッキング目標の位置を決定することは、
前記第１の画像フレームに対して特徴抽出を行い、前記第１の画像フレームの特徴データを得ることと、
前記基準フレームの特徴データ及び前記第１の画像フレームの特徴データに基づいて、前記第１の画像フレームにおけるトラッキング目標の位置を得ることと
を含む、請求項１に記載の方法。
前記基準フレームの特徴データ及び前記第１の画像フレームの特徴データに基づいて、前記第１の画像フレームにおけるトラッキング目標の位置を得ることは、
前記第１の画像フレームの特徴データと前記基準フレームの特徴データとを接続し、接続特徴を得ることと、
前記接続特徴に基づいて、前記第１の画像フレームにおけるトラッキング目標の位置を得ることと
を含む、請求項２に記載の方法。
前記基準フレームの特徴データに基づいて、前記第１の画像フレームにおけるトラッキング目標の位置を得ることは、
前記基準フレームの特徴データに基づいて、前記基準フレームにおけるトラッキング目標に対する前記第１の画像フレームにおけるトラッキング目標の相対的位置情報を得ることと、
前記相対的位置情報及び前記基準フレームにおけるトラッキング目標の位置情報に基づいて、前記第１の画像フレームにおけるトラッキング目標の位置を得ることと
を含む、請求項１～３のいずれか一項に記載の方法。
前記基準フレームの特徴データを取得することは、
メモリから基準フレームの特徴データを取得することを含む、請求項１～４のいずれか一項に記載の方法。
前記方法は、前記第１の画像フレームを更新後の基準フレームとすると決定したことに応答して、前記第１の画像フレームの特徴データを記憶することを更に含む、請求項１に記載の方法。
目標トラッキング装置であって、
少なくとも１つの第２の画像フレームと同一な基準フレームを有する第１の画像フレームの基準フレームの特徴データを取得するために用いられる特徴取得ユニットと、
前記基準フレームの特徴データに基づいて、前記第１の画像フレームにおけるトラッキング目標の位置を決定するために用いられる位置決定ユニットと
を含み、
前記目標トラッキング装置は、
前記第１の画像フレームにおける前記トラッキング目標の第１の位置限定枠と前記基準フレームにおける前記トラッキング目標の第２の位置限定枠との間の交差合併比が所定の閾値より小さいことに応答して、前記第１の画像フレームを更新後の基準フレームとすると決定するために用いられる基準決定ユニットをさらに含む、目標トラッキング装置。
電子機器であって、
請求項７に記載の目標トラッキング装置を備えるプロセッサを含む電子機器。
電子機器であって、
実行可能なコマンドを記憶するためのメモリと、
前記メモリと通信して前記実行可能なコマンドを実行して請求項１～６のいずれか一項に記載の目標トラッキング方法を完成するためのプロセッサと
を含む電子機器。
コンピュータ読み取り可能なコマンドを記憶するためのコンピュータ記憶媒体であって、
前記コマンドは、プロセッサによって実行されると、請求項１～６のいずれか一項に記載の目標トラッキング方法を実行することを前記プロセッサに行わせる、コンピュータ記憶媒体。
コンピュータ読み取り可能なコマンドを記憶するためのコンピュータプログラムであって、
前記コマンドは、コンピュータによって実行されると、請求項１～６のいずれか一項に記載の目標トラッキング方法を実行することを前記コンピュータに行わせる、コンピュータプログラム。