JP2023509953A

JP2023509953A - ターゲット追跡方法、装置、電子機器及び記憶媒体

Info

Publication number: JP2023509953A
Application number: JP2022541641A
Authority: JP
Inventors: 王▲飛▼; ▲錢▼晨
Original assignee: Shanghai Sensetime Lingang Intelligent Technology Co Ltd
Current assignee: Shanghai Sensetime Lingang Intelligent Technology Co Ltd
Priority date: 2020-01-06
Filing date: 2020-12-11
Publication date: 2023-03-10
Also published as: CN111242973A; US20220366576A1; WO2021139484A1; KR20220108165A

Abstract

本願の実施例は、ターゲット追跡方法、装置、電子機器及びコンピュータ可読記憶媒体を提供する。該方法は、まず、追跡待ち画像における検索領域と基準フレームにおけるターゲット画像領域との間の画像類似性特徴マップを決定し、続いて、画像類似性特徴に基づいて、追跡待ち画像における測位待ち領域の測位位置情報を決定し、即ち、追跡待ち対象の、検索領域を含む追跡待ち画像における検出枠を決定する。

Description

（関連出願の相互参照）
本願は、２０２０年０１月０６日に提出された、出願番号が２０２０１００１１２４３．０である中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に組み込まれる。

本願は、コンピュータ技術及び画像処理分野に関し、特にターゲット追跡方法、装置、電子機器及びコンピュータ可読記憶媒体に関する。

視覚的ターゲット追跡は、コンピュータビジョンにおける１つの重要な検討方向であり、機器自動追跡、ビデオモニタリング、マンマシンインタラクション、無人運転など、種々のシーンで広く使用できる。視覚的ターゲット追跡タスクは、ビデオシーケンス中の初期フレームにおけるターゲット対象の大きさと位置が定められた場合、後続のフレームにおける該ターゲット対象の大きさと位置を予測することによって、ビデオシーケンス全体におけるターゲットの動き軌跡を得ることである。

実際の追跡予測のプロセスにおいて、視野角、光照射、サイズ、遮蔽などの不明確な干渉要因による影響のため、追跡プロセスにおいて、ドリフトや紛失の状況が発生しやすい。これに加えて、追跡技術は、実際の移動側への部署及び応用の需要を満たすために、往々にして、高い簡易性とリアルタイム性を必要とする。

これに鑑み、本願の実施例は少なくとも、ターゲット追跡方法、装置、電子機器及びコンピュータ可読記憶媒体を提供する。

第１態様によれば、本願の実施例は、ターゲット追跡方法を提供する。前記ターゲット追跡方法は、
ビデオ画像を取得するステップと、
前記ビデオ画像のうちの基準フレーム画像の後の追跡待ち画像に対して、前記追跡待ち画像における検索領域と前記基準フレーム画像におけるターゲット画像領域との間の画像類似性特徴マップを生成するステップであって、前記ターゲット画像領域内に追跡待ち対象が含まれる、ステップと、
前記画像類似性特徴マップに基づいて、前記検索領域における測位待ち領域の測位位置情報を決定するステップと、
前記検索領域から、前記測位待ち領域の測位位置情報が決定されたことに応答して、決定された測位待ち領域の測位位置情報に基づいて、前記追跡待ち対象の、前記検索領域を含む追跡待ち画像における検出枠を決定するステップと、を含む。

可能な実現形態において、前記画像類似性特徴マップに基づいて、前記検索領域における測位待ち領域の測位位置情報を決定するステップは、前記画像類似性特徴マップに基づいて、前記測位待ち領域のサイズ情報を予測するステップと、前記画像類似性特徴マップに基づいて、前記検索領域の特徴マップにおける各特徴画素点の確率値を予測するステップであって、１つの特徴画素点の確率値は、前記検索領域における、該特徴画素点に対応する画素点が前記測位待ち領域内に位置する確率を表す、ステップと、前記画像類似性特徴マップに基づいて、前記検索領域における、各前記特徴画素点に対応する画素点と前記測位待ち領域との間の位置関係情報を予測するステップと、予測された確率値のうち、前記確率値が最も大きい特徴画素点に対応する前記検索領域における画素点をターゲット画素点として選択するステップと、前記ターゲット画素点、前記ターゲット画素点と前記測位待ち領域との間の位置関係情報、及び前記測位待ち領域のサイズ情報に基づいて、前記測位待ち領域の測位位置情報を決定するステップと、を含む。

可能な実現形態において、前記追跡待ち対象の、前記基準フレーム画像における検出枠を決定するステップと、前記基準フレーム画像における前記検出枠のサイズ情報に基づいて、前記基準フレーム画像における前記検出枠に対応する第１延伸サイズ情報を決定するステップと、前記第１延伸サイズ情報に基づいて、前記基準フレーム画像における前記検出枠を開始位置として周辺へ延伸し、前記ターゲット画像領域を得るステップと、に応じて、前記基準フレーム画像から、前記ターゲット画像領域を抽出する。

可能な実現形態において、前記ビデオ画像のうち、現在フレームの追跡待ち画像の前のフレームの追跡待ち画像における、前記追跡待ち対象の検出枠を取得するステップと、前記前のフレームの追跡待ち画像における前記追跡待ち対象の検出枠のサイズ情報に基づいて、前記前のフレームの追跡待ち画像における前記追跡待ち対象の検出枠に対応する第２延伸サイズ情報を決定するステップと、前記第２延伸サイズ情報と前記前のフレームの追跡待ち画像における前記追跡待ち対象の検出枠のサイズ情報に基づいて、現在フレームの追跡待ち画像における検索領域のサイズ情報を決定するステップと、前記前のフレームの追跡待ち画像における前記追跡待ち対象の検出枠の中心点を現在フレームの追跡待ち画像における検索領域の中心として、現在フレームの追跡待ち画像における検索領域のサイズ情報に基づいて、前記検索領域を決定するステップと、に応じて、追跡待ち画像から、検索領域を抽出する。

可能な実現形態において、前記追跡待ち画像における検索領域と前記基準フレーム画像におけるターゲット画像領域との間の画像類似性特徴マップを生成するステップは、前記検索領域を第１所定のサイズにスケーリングし、そして、前記ターゲット画像領域を第２所定のサイズにスケーリングするステップと、前記検索領域における第１画像特徴マップ、及び前記ターゲット画像領域における第２画像特徴マップを生成するステップであって、前記第２画像特徴マップのサイズは、前記第１画像特徴マップのサイズよりも小さい、ステップと、前記第２画像特徴マップと前記第１画像特徴マップにおける各サブ画像特徴マップとの間の相関性特徴を決定するステップであって、前記サブ画像特徴マップと前記第２画像特徴マップのサイズが同じである、ステップと、決定された複数の相関性特徴に基づいて、前記画像類似性特徴マップを生成するステップと、を含む。

可能な実現形態において、前記ターゲット追跡方法は、追跡測位ニューラルネットワークにより実行され、前記追跡測位ニューラルネットワークは、ターゲット対象の検出枠がラベリングされているサンプル画像により訓練されたものである。

可能な実現形態において、上記ターゲット追跡方法は、サンプル画像を取得するステップであって、前記サンプル画像は、基準フレームサンプル画像と追跡待ちサンプル画像を含む、ステップと、前記サンプル画像を訓練待ち追跡測位ニューラルネットワークに入力し、前記訓練待ち追跡測位ニューラルネットワークにより、入力されたサンプル画像に対して処理を行い、前記ターゲット対象の、前記追跡待ちサンプル画像における検出枠を予測するステップと、前記追跡待ちサンプル画像におけるラベリングされた検出枠と前記追跡待ちサンプル画像における予測された検出枠に基づいて、前記訓練待ち追跡測位ニューラルネットワークのネットワークパラメータを調整するステップと、を含む、前記追跡測位ニューラルネットワークの訓練ステップを更に含む。

可能な実現形態において、前記追跡待ちサンプル画像における測位待ち領域の測位位置情報は、前記追跡待ちサンプル画像における予測された検出枠の位置情報として取得され、前記追跡待ちサンプル画像におけるラベリングされた検出枠と前記追跡待ちサンプル画像における予測された検出枠に基づいて、前記訓練待ち追跡測位ニューラルネットワークのネットワークパラメータを調整するステップは、前記追跡待ちサンプル画像における予測された検出枠のサイズ情報、前記追跡待ちサンプル画像中の検索領域における各画素点が前記追跡待ちサンプル画像における予測された検出枠内に位置する予測確率値、前記追跡待ちサンプル画像中の検索領域における各画素点と前記追跡待ちサンプル画像における予測された検出枠との予測位置関係情報、前記追跡待ちサンプル画像におけるラベリンクされた検出枠の標準サイズ情報、前記追跡待ちサンプル画像における標準検索領域における各画素点がラベリングされた検出枠中に位置するかどうかの情報、及び前記追跡待ちサンプル画像中の標準検索領域における各画素点と前記追跡待ちサンプル画像におけるラベリングされた検出枠の標準位置関係情報に基づいて、前記訓練待ち追跡測位ニューラルネットワークのネットワークパラメータを調整するステップを含む。

第２態様によれば、本願の実施例は、ターゲット追跡装置を提供する。前記装置は、
ビデオ画像を取得するように構成される画像取得モジュールと、
前記ビデオ画像のうちの基準フレーム画像の後の追跡待ち画像に対して、前記追跡待ち画像における検索領域と前記基準フレーム画像におけるターゲット画像領域との間の画像類似性特徴マップを生成するように構成される類似性特徴抽出モジュールであって、前記ターゲット画像領域内に追跡待ち対象が含まれる、類似性特徴抽出モジュールと、
前記画像類似性特徴マップに基づいて、前記検索領域における測位待ち領域の測位位置情報を決定するように構成される測位モジュールと、
前記検索領域から、前記測位待ち領域の測位位置情報が決定されたことに応答して、決定された測位待ち領域の測位位置情報に基づいて、前記追跡待ち対象の、前記検索領域を含む追跡待ち画像における検出枠を決定するように構成される追跡モジュールと、を備える。

第３態様によれば、本願の実施例は、電子機器を提供する。前記電子機器は、プロセッサと、メモリと、バスと、を備え、前記メモリは、前記プロセッサによる実行可能な機器可読命令を記憶し、電子機器が動作する場合、前記プロセッサと前記メモリがバスを介して通信し、前記プロセッサは、前記機器可読命令を実行して、上記ターゲット追跡方法のステップを実施する。

第４態様によれば、本願の実施例は、コンピュータ可読記憶媒体に、コンピュータプログラムが記憶されるコンピュータ可読記憶媒体を更に提供する。該コンピュータプログラムがプロセッサにより実行されるときに、該プロセッサに上記ターゲット追跡方法のステップを実行させる。

本願の実施例の上記装置、電子機器及びコンピュータ可読記憶媒体は、少なくとも、本願の実施例の上記方法のいずれか１つ態様又はいずれか１つの態様のいずれか１つの実施形態の技術的特徴と実質的に同一又は類似の技術的特徴を含むので、上記装置、電子機器及びコンピュータ可読記憶媒体の効果の説明については、上記方法の内容の効果の説明を参照してもよく、ここで説明を省略する。

本願の実施例によるターゲット追跡方法のフローチャートを示す。本願の実施例による測位待ち領域の中心点の決定の概略図を示す。本願の実施例による別のターゲット追跡方法におけるターゲット画像領域の抽出のフローチャートを示す。本願の実施例によるまた１つのターゲット追跡方法における検索領域の抽出のフローチャートを示す。本願の実施例によるまた１つのターゲット追跡方法における画像類似性特徴マップの生成のフローチャートを示す。本願の実施例によるまた１つのターゲット追跡方法における画像類似性特徴マップの生成の概略図を示す。本願の実施例によるまた１つのターゲット追跡方法における追跡測位ニューラルネットワークの訓練のフローチャートを示す。本願の実施例によるターゲット追跡方法のフローチャートを示す。本願の実施例によるターゲット測位のフローチャートを示す。本願の実施例によるターゲット追跡装置の構造概略図を示す。本願の実施例による電子機器の構造概略図を示す。

本願の実施例の技術的解決手段をより明確に説明するために、実施例に必要な図面を簡単に説明する。図面は、本願の幾つかの実施例を示すだけであるため、範囲を制限するものと見なされるべきではないことが理解されるべきである。当業者にとって、創造的労働を行うことなく、これらの図面に基づいてその他の関連する図面を得ることもできる。

本願の実施例の目的、技術的解決手段及び利点をより明確にするために、以下、本願の実施例における図面を参照しながら、本願の実施例における技術的解決手段を明瞭かつ完全に説明する。本願の実施例における図面は、説明及び記述をのみ目的とし、本願の実施例の保護範囲を限定するものではないことが理解されるべきである。なお、概略的な図面は実物の割合で描かれていないことが理解されるべきである。本願の実施例で使用されるフローチャートは、本願の実施例のいくつかの実施例に従って実施される動作を示す。フローチャートの動作は順序によって実現されず、論理的コンテキスト関係のないステップは順序を反転したり、同時に実施したりすることができることが理解されるべきである。なお、当業者は、本願の実施例の内容に従って、1つまたは複数の他の動作をフローチャートに追加してもよく、1つまたは複数の動作をフローチャートから削除してもよい。

なお、記述される実施例は、全ての実施例ではなく、ただ本出願の一部の実施例である。一般的には、ここの図面に説明されて示されている本願の実施例のコンポーネントは、様々な異なる構成で配置及び設計され得る。従って、図面で提供される本願の実施例に対する下記詳細な説明は、特許請求されている本願の範囲を限定するものではなく、本願の選択された実施例を示すためのものに過ぎない。本願の実施例に基づいて、当業者が創造的な労力なしに得られる他の実施例の全ては、本願の保護の範囲に含まれる。

説明すべきことは、本願の実施例では、後述する特徴の存在を示す用語「含む」が用いられるが、他の特徴を追加することは排除されない。

本願の実施例は、視覚的ターゲット追跡に対して、追跡プロセスにおいて予測計算の複雑さを効果的に低減させることができる方案を提供し、追跡待ち画像における検索領域と基準フレーム画像におけるターゲット画像領域（追跡待ち対象を含む）との間の画像類似性特徴マップに基づいて、追跡待ち対象の、上記追跡待ち画像における位置情報を予測し（実際の実施において、追跡待ち対象の位置する測位待ち領域の位置情報を予測する）、即ち、前記追跡待ち対象の、前記追跡待ち画像における検出枠を予測することができる。詳細な実施プロセスは、以下の実施例において詳しく説明する。

図１に示すように、本願の実施例は、ターゲット追跡方法を提供する。該方法は、追跡待ち対象に対して追跡測位を行う端末機器に用いられ、該端末機器は、ユーザ機器（ＵｓｅｒＥｑｕｉｐｍｅｎｔ：ＵＥ）、携帯機器、ユーザ端末、端末、セルラ電話、コードレス電話、パーソナルデジタルアシスタント（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ：ＰＤＡ）、ハンドヘルドデバイス、コンピューティングデバイス、車載機器、ウェアブル機器などであってもよい。いくつかの可能な実現形態において、該ターゲット追跡方法は、プロセッサによりメモリに記憶されているコンピュータ可読命令を呼び出すことで実現することができる。該方法は、以下のステップを含んでもよい。

Ｓ１１０において、ビデオ画像を取得する。

ここで、ビデオ画像は、追跡待ち対象に対して測位と追跡を行う必要がある画像シーケンスである。

ビデオ画像は、基準フレーム画像と少なくとも１フレームの追跡待ち画像を含む。基準フレーム画像は、追跡待ち対象を含む画像であり、ビデオ画像のうちの１フレーム目の画像であってもよく、無論、ビデオ画像のうちの他のフレームの画像であってもよい。追跡待ち画像は、それにおいて追跡待ち対象を検索し測位する必要がある画像である。基準フレーム画像における追跡待ち対象の位置とサイズ、即ち検出枠は、決定されたものである。追跡待ち画像における測位領域又は検出枠は決定されておらず、計算と予測を必要とする領域であり、測位待ち領域、又は、追跡待ち画像における検出枠とも呼ばれる。

Ｓ１２０において、前記ビデオ画像のうちの基準フレーム画像の後の追跡待ち画像に対して、前記追跡待ち画像における検索領域と前記基準フレーム画像におけるターゲット画像領域との間の画像類似性特徴マップを生成し、前記ターゲット画像領域内に追跡待ち対象が含まれる。

このステップを実行する前に、追跡待ち画像から、検索領域を抽出し、基準フレーム画像から、ターゲット画像領域を抽出する必要がある。ターゲット画像領域に、追跡待ち対象の検出枠が含まれる。検索領域に、測位が完了されていない測位待ち領域が含まれる。測位領域の位置は、追跡待ち対象の位置である。

検索領域とターゲット画像領域を抽出した後、検索領域とターゲット画像領域から、画像特徴をそれぞれ抽出し、続いて、検索領域に対応する画像特徴とターゲット画像領域の画像特徴に基づいて、検索領域とターゲット画像領域との画像類似性特徴を決定し、即ち、検索領域とターゲット画像領域との間の画像類似性特徴マップを決定することができる。

Ｓ１３０において、前記画像類似性特徴マップに基づいて、前記検索領域における測位待ち領域の測位位置情報を決定する。

ここで、前のステップにおいて生成された画像類似性特徴マップに基づいて、検索領域の特徴マップにおける各特徴画素点の確率値、及び検索領域における、各前記特徴画素点に対応する画素点と前記測位待ち領域との間の位置関係情報を予測することができる。

上記１つの特徴画素点の確率値は、前記検索領域における、該特徴画素点に対応する画素点が前記測位待ち領域内に位置する確率を表す。

上記位置関係は、追跡待ち画像中の検索領域における画素点と前記追跡待ち画像中の測位待ち領域の中心点との偏差情報であってもよい。例えば、測位待ち領域の中心点を座標中心として座標系を構築すれば、該位置関係情報は、対応する画素点の、該構築された座標系における座標情報を含む。

ここで、上記確率値に基づいて、検索領域における、確率が最も大きい測位待ち領域内に位置する画素点を決定することができる。続いて、該画素点の位置関係情報に基づいて、検索領域における測位待ち領域の測位位置情報を比較的正確に決定することができる。

上記測位位置情報は、測位待ち領域の中心点の座標などの情報を含んでもよい。実際に実施する時、検索領域における、確率が最も大きい測位待ち領域内に位置する画素点の座標情報、及び該画素点と測位待ち領域の中心点との偏差情報に基づいて、測位待ち領域の中心点の座標情報を決定することができる。

説明すべきことは、このステップにおいて、検索領域における測位待ち領域の測位位置情報を決定したが、実際の応用において、検索領域に測位待ち領域が存在する可能性があり、測位待ち領域が存在しない可能性もある。検索領域に測位待ち領域が存在しなければ、測位待ち領域の測位位置情報を決定することができず、即ち、測位待ち領域の中心点の座標などの情報を決定することができない。

Ｓ１４０において、前記検索領域から、前記測位待ち領域の測位位置情報が決定されたことに応答して、決定された測位待ち領域の測位位置情報に基づいて、前記追跡待ち対象の、前記検索領域を含む追跡待ち画像における検出枠を決定する。

検索領域に測位待ち領域が存在する場合、このステップでは、決定された測位待ち領域の測位位置情報に基づいて、前記追跡待ち対象の、前記検索領域を含む追跡待ち画像における検出枠を決定する。ここで、追跡待ち画像における測位待ち領域の測位位置情報を前記追跡待ち画像における予測された検出枠の位置情報としてもよい。

上記実施例において、追跡待ち画像から、検索領域を抽出し、基準フレーム画像から、ターゲット画像領域を抽出し、続いて、抽出された２つの画像領域間の画像類似性特徴マップに基づいて、追跡待ち画像における測位待ち領域の測位位置情報を予測又は決定し、即ち、前記検索領域を含む追跡待ち画像における追跡待ち対象の検出枠を決定し、検出枠の予測に関与する画素点の数を効果的に減少させる。本願の実施例は、予測の効率とリアルタイム性を向上させることができるだけでなく、予測計算の複雑さを低減させることもでき、それにより追跡待ち対象の検出枠を予測するためのニューラルネットワークのネットワークアーキテクチャを簡略化し、リアルタイム性とネットワーク構造の簡易性要件がいずれも高い移動端に、より適する。

いくつかの実施例において、前記測位待ち領域の、前記検索領域における測位位置情報を決定する前に、上記ターゲット追跡方法は、前記測位待ち領域のサイズ情報を予測することを更に含む。ここで、上記生成された画像類似性特徴マップに基づいて、検索領域における各画素点に対応する測位待ち領域のサイズ情報を予測することができる。実際に実施する時、該サイズ情報は、測位待ち領域の高さ値と幅値を含んでもよい。

検索領域における各画素点に対応する測位待ち領域のサイズ情報を決定した後、上述した、前記画像類似性特徴マップに基づいて、前記検索領域における測位待ち領域の測位位置情報を決定するプロセスは、以下のステップにより実現してもよい。

ステップ１において、前記画像類似性特徴マップに基づいて、前記検索領域の特徴マップにおける各特徴画素点の確率値を予測し、１つの特徴画素点の確率値は、前記検索領域における、該特徴画素点に対応する画素点が前記測位待ち領域内に位置する確率を表す。

ステップ２において、前記画像類似性特徴マップに基づいて、前記検索領域における、各前記特徴画素点に対応する画素点と前記測位待ち領域との間の位置関係情報を予測する。

ステップ３において、予測された確率値のうち、前記確率値が最も大きい特徴画素点に対応する前記検索領域における画素点をターゲット画素点として選択する。

ステップ４において、前記ターゲット画素点、前記ターゲット画素点と前記測位待ち領域との間の位置関係情報、及び前記測位待ち領域のサイズ情報に基づいて、前記測位待ち領域の測位位置情報を決定する。

上記ステップにおいて、検索領域における、測位待ち領域中に位置する可能性が最も高い画素点であるターゲット画素点と前記測位待ち領域の位置関係情報、及び該ターゲット画素点の、検索領域における座標情報を利用して、測位待ち領域の中心点座標を決定することができる。続いて、該ターゲット画素点に対応する測位待ち領域のサイズ情報を結び付けて、決定された検索領域における測位待ち領域の正確度を向上させることができ、即ち、追跡待ち対象に対する追跡と測位の正確度を向上させることができる。

図２に示すように、図２における極大値点は、測位待ち領域中に位置する可能性が最も高い画素点、即ち、確率値が最も大きいターゲット画素点である。極大値点の座標

極大値点と前記測位待ち領域との間の位置関係情報、即ち、偏差情報

に基づいて、測位待ち領域の中心点

の座標を決定することができる。

は、極大値点と測位待ち領域の中心点との、横軸方向での距離であり、

は、極大値点と測位待ち領域の中心点との、縦軸方向での距離である。測位待ち領域の測位プロセスにおいて、下記式（１）から（５）により実現してもよい。

は、測位待ち領域の中心点の横座標を表し、

は、測位待ち領域の中心点の縦座標を表し、

は、極大値点の横座標を表し、

は、極大値点の縦座標を表し、

は、極大値点と測位待ち領域の中心点との、横軸方向での距離を表し、

は、極大値点と測位待ち領域の中心点との、縦軸方向での距離を表し、

は、測位待ち領域の測位が完了された後の幅値を表し、

は、測位待ち領域の測位が完了された後の高さ値を表し、

は、予測された測位待ち領域の幅値を表し、

は、予測された測位待ち領域の高さ値を表し、

は、測位待ち領域の測位が完了された後の位置情報を表す。

上記実施例において、検索領域とターゲット画像領域との間の画像類似性特徴マップを得た後、該画像類似性特徴マップに基づいて、検索領域から、測位待ち領域内に位置する確率値が最も大きいターゲット画素点をスクリーニングすることができ、対応する確率値が最も大きいターゲット画素点の、検索領域における座標情報、該画素点と測位待ち領域との間の位置関係情報及び該画素点に対応する測位待ち領域のサイズ情報に基づいて、測位待ち領域の測位位置情報を決定することによって、決定される測位位置情報の正確度を向上させることができる。

いくつかの実施例において、図３に示すように、以下のステップに応じて、前記基準フレーム画像から、前記ターゲット画像領域を抽出することができる。

Ｓ３１０において、前記追跡待ち対象の、前記基準フレーム画像における検出枠を決定する。

上記検出枠は、測位が既に完了された、追跡待ち対象を含む画像領域である。実施する時、上記検出枠は、矩形の画像枠

であってもよく、

は、検出枠の位置情報を表し、

は、検出枠の中心点の横座標を表し、

は、検出枠の中心点の縦座標を表し、

は、検出枠の幅値を表し、

は、検出枠の高さ値を表す。

Ｓ３２０において、前記基準フレーム画像における前記検出枠のサイズ情報に基づいて、前記基準フレーム画像における前記検出枠に対応する第１延伸サイズ情報を決定する。

ここで、第１延伸サイズ情報に基づいて、検出枠に対して延伸処理を行うことができ、下記式（６）で計算してもよく、即ち、検出枠の高さと検出枠の幅との平均値を第１延伸サイズ情報とする。

は、検出枠の、検出枠の高さで延伸されるべき長さを表し、

は、検出枠の、検出枠の幅で延伸されるべき長さを表し、

は、検出枠の幅値を表し、

は、検出枠の高さ値を表す。

検出枠に対して延伸を行う場合、検出枠の高さ方向の両辺で、上記算出された数値の半分だけそれぞれ延伸し、検出枠の幅方向の両辺で、上記算出された数値の半分だけそれぞれ延伸してもよい。

Ｓ３３０において、前記第１延伸サイズ情報に基づいて、前記基準フレーム画像における前記検出枠を開始位置として周辺へ延伸し、前記ターゲット画像領域を得る。

ここで、第１延伸サイズ情報に基づいて、検出枠に対して延伸を行うことによって、ターゲット画像領域を直接的に得ることができる。無論、検出枠に対して延伸を行った後、延伸後の画像に対して更に処理を行い、ターゲット画像領域を得ることができ、又は、第１延伸サイズ情報に基づいて検出枠に対して延伸を行うことなく、第１延伸サイズ情報に基づいて、ターゲット画像領域のサイズ情報を決定し、続いて、決定されたターゲット画像領域のサイズ情報に基づいて、検出枠に対して延伸を行うことで、ターゲット画像領域を直接的に得ることができる。

追跡待ち対象の、基準フレーム画像におけるサイズと位置、即ち、追跡待ち対象の、基準フレーム画像における検出枠のサイズ情報に基づいて、検出枠に対して延伸を行うことで得られたターゲット画像領域は、追跡待ち対象を含むだけでなく、追跡待ち対象の周辺の領域も含み、それにより多くの画像内容を含むターゲット画像領域を決定することができる。

いくつかの実施例において、上述した、前記第１延伸サイズ情報に基づいて、前記基準フレーム画像における前記検出枠を開始位置として周辺へ延伸し、前記ターゲット画像領域を得ることは、
前記検出枠のサイズ情報と前記第１延伸サイズ情報に基づいて、ターゲット画像領域のサイズ情報を決定するステップと、前記検出枠の中心点とターゲット画像領域のサイズ情報に基づいて、前記検出枠を延伸した後の前記ターゲット画像領域を決定するステップと、により実現してもよい。

実施する時、下記式（７）を利用して、ターゲット画像領域のサイズ情報を決定してもよく、即ち、検出枠の幅

を所定のサイズ

だけ延伸し、検出枠の高さ

を所定のサイズ

だけ延伸し、続いて、延伸後の幅と高さに対して、算術平方根を求め、得られた結果をターゲット画像領域の幅（又は高さ）とする。つまり、ターゲット画像領域は、高さと幅が等しい正方形領域である。

は、ターゲット画像領域の幅値を表し、

は、ターゲット画像領域の高さ値を表し、

は、検出枠の、検出枠の幅で延伸されるべき長さを表し、

は、検出枠の幅値を表し、

は、検出枠の高さ値を表す。

ターゲット画像領域のサイズ情報を決定した後、検出枠の中心点を中心点として、所定のサイズ情報に応じて、直接的に検出枠に対して延伸を行い、ターゲット画像領域を得ることができ、又は、検出枠の中心点を中心点として、決定されたサイズ情報に応じて、検出枠を第１延伸サイズ情報に応じて延伸した後の画像から、ターゲット画像領域を切り取ることができる。

上記実施例において、検出枠のサイズ情報と前記第１延伸サイズ情報に基づいて、検出枠に対して延伸を行う上で、延伸した画像から、正方形のターゲット画像領域を切り取ることによって、得られたターゲット画像領域に、追跡待ち対象以外の多すぎる他の画像領域を含ませない。

いくつかの実施例において、図４に示すように、以下のステップに応じて、追跡待ち画像から、検索領域を抽出してもよい。

Ｓ４１０において、前記ビデオ画像のうち、現在フレームの追跡待ち画像の前のフレームの追跡待ち画像における、前記追跡待ち対象の検出枠を取得する。

ここで、現在フレームの追跡待ち画像の前のフレームの追跡待ち画像における検出枠は、測位が完了した追跡待ち対象の位置する画像領域である。

Ｓ４２０において、前記追跡待ち対象の検出枠のサイズ情報に基づいて、前記追跡待ち対象の検出枠に対応する第２延伸サイズ情報を決定する。

ここで、検出枠のサイズ情報に基づいて、第２延伸サイズ情報を決定するアルゴリズムは、上記実施例における、第１延伸サイズ情報を決定するステップと同じである。ここで説明を省略する。

Ｓ４３０において、前記第２延伸サイズ情報と前記追跡待ち対象の検出枠のサイズ情報に基づいて、現在フレームの追跡待ち画像における検索領域のサイズ情報を決定する。

ここで、前記第２延伸サイズ情報と前記前のフレームの追跡待ち画像における検出枠のサイズ情報に基づいて、延伸待ち検索領域のサイズ情報を決定するステップと、前記延伸待ち検索領域のサイズ情報、前記検索領域に対応する第１所定のサイズ、及び前記ターゲット画像領域に対応する第２所定のサイズに基づいて、前記検索領域のサイズ情報を決定するステップであって、前記検索領域は、前記延伸待ち検索領域を延伸した後に得られたものである、ステップと、によって、検索領域のサイズ情報を決定してもよい。

上述した、延伸待ち検索領域のサイズ情報の計算方法は、上記実施例における前記検出枠のサイズ情報と前記第１延伸サイズ情報に基づいて、ターゲット画像領域のサイズ情報を決定する計算方法と同じである。ここで説明を省略する。

上述した、前記延伸待ち検索領域のサイズ情報、前記検索領域に対応する第１所定のサイズ、及び前記ターゲット画像領域に対応する第２所定のサイズに基づいて、前記延伸待ち検索領域を延伸した後の前記検索領域のサイズ情報を決定するステップは、下記式（８）と（９）を利用して計算してもよい。

は、検索領域のサイズ情報を表し、

は、延伸待ち検索領域のサイズ情報を表し、

は、前記延伸待ち検索領域の延伸すべきサイズを表し、

は、検索領域に対応する第１所定のサイズを表し、

は、ターゲット画像領域に対応する第２所定のサイズを表す。ここで式（７）から分かるように、検索領域とターゲット画像領域は、いずれも、高さと幅が等しい正方形領域である。従って、ここのサイズは、対応する画像領域の高さと幅に対応する画素数である。

このステップにおいて、延伸待ち検索領域のサイズ情報、前記検索領域に対応する第１所定のサイズ、及び前記ターゲット画像領域に対応する第２所定のサイズに基づいて、検索領域に対して更なる延伸を行うことによって、検索領域を更に増大することができる。大きい検索領域は、追跡待ち対象に対する追跡測位の成功率を向上させることができる。

Ｓ４４０において、前記追跡待ち対象の検出枠の中心点を現在フレームの追跡待ち画像における検索領域の中心として、現在フレームの追跡待ち画像における検索領域のサイズ情報に基づいて、前記検索領域を決定する。

実施する時、前記前のフレームの追跡待ち画像における検出枠の中心点の座標を現在フレームの追跡待ち画像における初期測位領域の中心点とし、前のフレームの追跡待ち画像における検出枠のサイズ情報を現在フレームの追跡待ち画像における初期測位領域のサイズ情報として、現在フレームの追跡待ち画像における初期測位領域を決定することができる。続いて、第２延伸サイズ情報に基づいて、初期測位領域に対して延伸処理を行い、更に、上記延伸待ち検索領域のサイズ情報に応じて、延伸後の画像から、延伸待ち検索領域を切り取ることができる。続いて、上述延伸待ち検索領域の延伸後のサイズ情報に基づいて、延伸待ち検索領域に対して延伸を行った後に、検索領域を得る。

無論、前記前のフレームの追跡待ち画像における検出枠の中心点を現在フレームの追跡待ち画像における検索領域の中心点とし、算出された上述検索領域のサイズ情報に応じて、現在フレームの追跡待ち画像から、検索領域を直接的に切り取ることもできる。

前のフレームの追跡待ち画像における決定された検出枠のサイズ情報に基づいて、第２延伸サイズ情報を決定し、第２延伸サイズ情報に基づいて、現在フレームの追跡待ち画像に対して、大きい検索領域を決定することができ、大きい検索領域は、決定される測位待ち領域の測位位置情報の正確度を向上させることができ、即ち、追跡待ち対象に対する追跡測位の成功率を向上させることができる。

いくつかの実施例において、前記画像類似性特徴マップを生成する前に、上記ターゲット追跡方法は、
前記検索領域を第１所定のサイズにスケーリングし、そして、前記ターゲット画像領域を第２所定のサイズにスケーリングするステップを更に含んでもよい。

ここで、検索領域とターゲット画像領域を対応する所定のサイズに設定することで、生成される画像類似度特徴マップにおける画素点の数を制御することができ、それにより計算の複雑さを制御することができる。

いくつかの実施例において、図５に示すように、上述した、前記追跡待ち画像における検索領域と前記基準フレーム画像におけるターゲット画像領域との間の画像類似性特徴マップを生成するステップは、以下のステップにより実現してもよい。

Ｓ５１０において、前記検索領域における第１画像特徴マップ、及び前記ターゲット画像領域における第２画像特徴マップを生成し、前記第２画像特徴マップのサイズは、前記第１画像特徴マップのサイズよりも小さい。

ここで、深層畳み込みニューラルネットワークを利用して、検索領域における画像特徴とターゲット画像領域における画像特徴を抽出し、上記第１画像特徴マップと第２画像特徴マップをそれぞれ得ることができる。

図６において、第１画像特徴マップ６１の幅値と高さ値は、いずれも８個の画素点であり、第２画像特徴マップ６２の幅値と高さ値は、いずれも４個の画素点である。

Ｓ５２０において、前記第２画像特徴マップと前記第１画像特徴マップにおける各サブ画像特徴マップとの間の相関性特徴を決定し、前記サブ画像特徴マップと前記第２画像特徴マップのサイズが同じである。

図６に示すように、第２画像特徴マップ６２を左から右へ、上から下への順番に応じて、第１画像特徴マップ６１上で移動し、第２画像特徴マップ６２の、第１画像特徴マップ６１における各正投影領域を各サブ画像特徴マップとしてもよい。

実施する時、相関（ｃｏｒｒｅｌａｔｉｏｎ）計算を利用して、第２画像特徴マップとサブ画像特徴マップとの間の相関性特徴を決定してもよい。

Ｓ５３０において、決定された複数の相関性特徴に基づいて、前記画像類似性特徴マップを生成する。

図６に示すように、第２画像特徴マップと各サブ画像特徴マップとの間の相関性特徴に基づいて生成された画像類似性特徴マップ６３の幅値と高さ値は、いずれも５個の画素点である。

上記画像類似性特徴マップにおいて、各画素点に対応する相関性特徴は、第１画像特徴マップにおける１つのサブ領域（即ち、サブ画像特徴マップ）と第２画像特徴マップとの画像類似性の度合いを表すことができる。該画像類似性の度合いに基づいて、検索領域における、測位待ち領域内に位置する確率が最も大きい画素点を正確にスクリーニングし、続いて、該確率値が最も大きい画素点の情報に基づいて、決定される測位待ち領域の測位位置情報の正確度を効果的に向上させることができる。

上記実施例のターゲット追跡方法において、取得されたビデオ画像に対して処理を行い、各フレームの追跡待ち画像における測位待ち領域の測位位置情報を得て、そして、前記追跡待ち対象の、前記検索領域を含む追跡待ち画像における検出枠を決定するプロセスは、追跡測位ニューラルネットワークを利用して行われてもよい。前記追跡測位ニューラルネットワークは、ターゲット対象の検出枠がラベリングされているサンプル画像により訓練されたものである。

上記ターゲット追跡方法において、追跡測位ニューラルネットワークを利用して、測位待ち領域の測位位置情報を決定し、即ち、前記追跡待ち対象の、前記検索領域を含む追跡待ち画像における検出枠を決定する。計算方法を簡略化したため、追跡測位ニューラルネットワークの構造を簡略化し、それにより移動端に部署しやすくなる。

本願の実施例は、上記追跡測位ニューラルネットワークを訓練する方法を更に提供する。図７は、以下のステップを含む。

Ｓ７１０において、サンプル画像を取得し、前記サンプル画像は、基準フレームサンプル画像と追跡待ちサンプル画像を含む。

サンプル画像に、基準フレームサンプル画像と少なくとも１フレームの追跡待ちサンプル画像を含む。基準フレームサンプル画像に、追跡待ち対象の、測位位置情報が決定された検出枠が含まれる。追跡待ちサンプル画像における測位待ち領域の測位位置情報が決定されておらず、追跡測位ニューラルネットワークにより予測又は決定を行う必要がある。

Ｓ７２０において、前記サンプル画像を訓練待ち追跡測位ニューラルネットワークに入力し、前記訓練待ち追跡測位ニューラルネットワークにより、入力されたサンプル画像に対して処理を行い、前記ターゲット対象の、前記追跡待ちサンプル画像における検出枠を予測する。

Ｓ７３０において、前記追跡待ちサンプル画像におけるラベリングされた検出枠と前記追跡待ちサンプル画像における予測された検出枠に基づいて、前記訓練待ち追跡測位ニューラルネットワークのネットワークパラメータを調整する。

実施する時、前記追跡待ちサンプル画像における測位待ち領域の測位位置情報を前記追跡待ちサンプル画像における予測された検出枠の位置情報とする。

上述した、前記追跡待ちサンプル画像におけるラベリングされた検出枠と前記追跡待ちサンプル画像における予測された検出枠に基づいて、前記訓練待ち追跡測位ニューラルネットワークのネットワークパラメータを調整するステップは、
前記予測された検出枠のサイズ情報、前記追跡待ちサンプル画像中の検索領域における各画素点が前記予測された検出枠内に位置する予測確率値、前記追跡待ちサンプル画像中の検索領域における各画素点と前記予測された検出枠との予測位置関係情報、前記ラベリンクされた検出枠の標準サイズ情報、前記追跡待ちサンプル画像における標準検索領域における各画素点がラベリングされた検出枠中に位置するかどうかの情報、及び前記標準検索領域における各画素点と前記ラベリングされた検出枠の標準位置関係情報に基づいて、前記訓練待ち追跡測位ニューラルネットワークのネットワークパラメータを調整するステップにより、実現してもよい。

前記標準サイズ情報、前記標準検索領域における各画素点がラベリングされた検出枠に位置するかどうかの情報、前記標準検索領域における各画素点と前記ラベリングされた検出枠との標準位置関係情報は、いずれも、前記ラベリングされた検出枠に基づいて決定されてもよい。

上記予測位置関係情報は、対応する画素点と予測された検出枠の中心点との偏差情報であり、対応する画素点と該中心点との距離の、横軸方向での成分と、対応する画素点と該中心点との距離の、横軸方向での成分と、を含んでもよい。

上記画素点がラベリングされた検出枠中に位置するかどうかの情報は、対象の画素点がラベリングされた検出枠内に位置する標準値Ｌ_ｐにより決定されてもよい。

は、追跡待ちサンプル画像における検出枠を表し、

は、検索領域における左から右へ、上から下へのｉ番目の位置での画素点が検出枠

内に位置する標準値を表す。標準値Ｌｐが０であれば、画素点が検出枠

外に位置することを表し、標準値Ｌｐが１であれば、画素点が検出枠

内に位置することを表す。

実施する時、クロスエントロピー損失関数を用いて、

と予測確率値に対して制約を行い、サブ損失関数

を構築してもよく、これは、式（１１）に示すとおりである。

は、ラベリングされた検出枠内に属する画素点の集合を表し、

は、ラベリングされた検出枠外に属する画素点の集合を表し、

は、画素点ｉが予測された検出枠内に属する予測確率値を表し、

は、画素点ｉが予測された検出枠外に属する予測確率値を表す。

実施する時、スムージングされたＬ１ノルム損失関数

を用いて、標準位置関係情報と予測位置関係情報とのサブ損失関数

を決定してもよい。

は、予測位置関係情報を表し、

は、標準位置関係情報を表す。

標準位置関係情報

は、画素点とラベリングされた検出枠の中心点とのリアルな偏差情報であり、画素点とラベリングされた検出枠の中心点との距離の、横軸方向での成分

と、画素点とラベリングされた検出枠の中心点との距離の、横軸方向での成分

と、を含んでもよい。

上記式（１１）により生成されたサブ損失関数と上記式（１２）により生成されたサブ損失関数に基づいて、総合的な損失関数を構築することができ、これは、下記式（１３）に示すとおりである。

は、所定の重み係数である。

更に、上記所定の検出枠サイズ情報に基づいて、前記訓練待ち追跡測位ニューラルネットワークにおけるネットワークパラメータを調整してもよい。上記式（１１）、（１２）を利用して、サブ損失関数

とサブ損失関数

を構築してもよい。

下記式（１４）を利用して、予測された検出枠のサイズ情報に関わるサブ損失関数

を構築してもよい。

は、標準サイズ情報における幅値を表し、

は、標準サイズ情報における高さ値を表し、

は、検出枠の予測サイズ情報における幅値を表し、

は、検出枠の予測サイズ情報における高さ値を表す。

上記

という３つのサブ損失関数に基づいて、総合的な損失関数

を構築することができ、これは、下記式（１５）に示すとおりである。

は、所定の重み係数であり、

は、別の所定の重み係数である。

上記実施例は、追跡測位ニューラルネットワークを訓練するプロセスにおいて、更に、予測された検出枠のサイズ情報と追跡待ちサンプル画像における検出枠の標準サイズ情報を結び付けて、損失関数を構築し、該損失関数を利用して、訓練により得られる追跡測位ニューラルネットワークの計算の正確度を更に向上させることができる。予測された確率値、位置関係情報、予測された検出枠のサイズ情報、サンプル画像の対応する標準値を利用して、損失関数を構築し、追跡測位ニューラルネットワークを訓練する。訓練の目的は、構築された損失関数の値を最も小さくすることであり、それにより訓練により得られる追跡測位ニューラルネットワークの計算の正確度の向上に有利である。

ターゲット追跡方法は、観測モデルのクラスに応じて、生成式方法と判別式方法に分けられてもよい。近年では、深層学習と関連フィルタリングを主とした判別式追跡方法は、主流となる地位を占め、ターゲット追跡技術の画期的な進展を実現させた。特に、深層学習により得られた画像特徴を基礎とした各判別式方法の追跡性能は、リードレベルを達した。深層学習方法は、大規模の画像データによりエンドツーエンド学習訓練を行うことで得られた効果的な特徴表現能力を利用して、ターゲット追跡アルゴリズムをより正確かつ迅速にする。

深層学習方法に基づくドメイン間追跡方法（ＭＤＮｅｔ）は、大量のオフライン学習及びオンライン更新ポリシーにより、ターゲットと非ターゲットに対する高精度分類器を学習により得て、後続のフレーム内の対象に対してクラス判別と枠調整を行い、追跡結果を最終的に得る。このような深層学習に完全に基づく追跡方法は、追跡精度が大きく向上したが、リアルタイム性能が低い、例えば、１秒当たりの転送フレーム数（ＦｒａｍｅｓＰｅｒＳｅｃｏｎｄ：ＦＰＳ）は１である。同年に提案されたＧＯＴＵＲＮ方法は、深層畳み込みニューラルネットワークにより、隣接するフレームの画像の特徴を抽出し、１フレーム前に対するターゲット特徴の位置変動を学習することによって、後続フレームのターゲット測位操作を完了する。該方法は、一定の精度を保持すると同時に、高いリアルタイム性能、例えば、１００ＦＰＳを得る。深層学習に基づく追跡方法は、速度と精度に優れているが、より深いネットワーク構造、例えば、ＶＧＧ（ＶｉｓｕａｌＧｅｏｍｅｔｒｙＧｒｏｕｐ：コンピュータビジョングループ）、ＲｅｓＮｅｔなどのネットワークによる計算の複雑さにより、精度がより高い追跡アルゴリズムは、実際の生産に応用しにくい。

任意の指定のターゲット対象の追跡について、現在の方法は、主に、フレームごとの検出、関連フィルタリング及び深層学習に基づくリアルタイム追跡アルゴリズムなどを含む。これらの方法は、リアルタイム性、精度及び構造の複雑さがいずれも不十分であり、複雑な追跡シーンと実際の移動端への応用に好適に適応できない。検出分類方式に基づく追跡方法、例えば、ＭＤＮｅｔなどの方法は、オンライン学習を行う必要があり、リアルタイム要件を達することが困難である。関連フィルタリングと検出に基づく追跡アルゴリズムは、位置を予測した後、１フレーム前のターゲット枠の形状を微調整するが、生成された枠の精度が不十分である。領域候補枠、例えば、ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ：領域生成ネットワーク）に基づく方法により生成される冗長な枠が多く、計算が複雑である。

本願の実施例は、高い精度を有すると同時に、アルゴリズムのリアルタイム性の点で最適化されるターゲット追跡方法を提供することが望ましい。

図８Ａは、本願の実施例によるターゲット追跡方法のフローチャートである。図８に示すように、前記ターゲット追跡方法は、以下のステップを含む。

ステップＳ８１０において、ターゲット画像領域と検索領域に対して特徴抽出を行う。

本願の実施例において、追跡されるターゲット画像領域は、初期フレーム（１フレーム目）においてターゲット枠の形式で提供される。検索領域は、１フレーム前のターゲットの追跡位置と大きさに基づいて、一定の空間領域を拡張することで得られた。切り取られたターゲット領域と検索領域を所定の異なるサイズだけスケーリングした後、同一の予め訓練された深層畳み込みニューラルネットワークにより、両者のそれぞれの画像特徴を抽出する。つまり、ターゲットの位置する画像と追跡待ち画像を入力とし、畳み込みニューラルネットワークにより、ターゲット対象領域の特徴と検索領域の特徴を出力する。以下、これらの操作を説明する。

まず、ターゲット画像領域を取得する。本願の実施例において、追跡される対象は、ビデオデータである。一般的には、追跡される１フレーム目（初期フレーム）において、矩形枠の方式で、ターゲット領域中心の位置情報、例えば、

を提供し、該ターゲット領域中心の所在位置を中心位置とし、ターゲット長さと幅に応じて、

を充填した後、面積が不変のままである正方形領域

を切り取り、ターゲット画像領域を得る。

次に、検索領域を取得する。１フレーム前の追跡結果

（初期フレームは、提供されたターゲット枠

である）に基づいて、現在フレームの

において、

の位置を中心とし、ターゲット画像領域と同様な処により、正方形領域

を得る。ターゲット対象を可能な限り含むために、該正方形領域を基礎として、より大きい内容情報領域を追加し、検索領域を得る。

続いて、取得された画像をスケーリングし、入力画像を得る。本願の実施例において、辺長が

画素のである画像を検索領域の入力として用い、

の画像をターゲット画像領域の入力として用いる。検索領域

を所定のサイズ

にスケーリングし、ターゲット画像領域

を所定のサイズ

にスケーリングする。

最後に、特徴抽出を行う。深層畳み込みニューラルネットワークを用いて、スケーリングされた入力画像に対してそれぞれ特徴抽出を行い、ターゲット特徴

と検索領域の特徴

を得る。

ステップＳ８２０において、検索領域の類似度特徴を計算する。

ターゲット特徴

と検索領域特徴

を入力し、図６に示すように、

をスライディングウィンドウの方式により

上で移動し、検索サブ領域（大きさがターゲット特徴と同じであるサブ領域）とターゲット特徴に対して相関計算を行う。最後に、検索領域の類似度特徴

を得る。

ステップＳ８３０において、ターゲットを測位する。

該プロセスにおいて、類似度測定特徴

を入力とし、最後にターゲット点分類結果

偏差回帰結果

及びターゲットワークの長さと幅結果

を出力する。

ターゲット測位のプロセスは、図８Ｂに示すとおりである。類似度測定特徴８１をターゲット点分類分岐８２に送り込み、ターゲット点分類結果８３を得て、ターゲット点分類結果８３により、各点に対応する検索領域が検索待ちターゲット領域であるかどうかを予測する。類似度測定特徴８１を回帰分岐８４に送り込み、ターゲット点の偏差回帰結果８５とターゲット枠の長さと幅の回帰結果８６を得る。偏差回帰結果８５により、ターゲット点からターゲット中心点への偏差を予測する。長さと幅の回帰結果８６により、ターゲット枠の長さと幅に対して予測を行う。最後に、類似度が最も高いターゲット点位置情報と偏差情報を結び付けて、ターゲット中心点位置を得て、更に、ターゲット枠の長さと幅の予測結果に基づいて、該位置の最終的なターゲット枠結果を得る。以下、アルゴリズム訓練と測位という２つのプロセスをそれぞれ説明する。

アルゴリズム訓練プロセス：アルゴリズムは、逆伝播の方式、エンドツーエンドの訓練特徴抽出ネットワーク、及び後続の分類と回帰分岐を用いる。特徴マップにおけるターゲット点に対応するクラスラベル

は、上記式（１０）により決定される。ターゲット点分類結果

における各位置はいずれも１つの二分類結果を出力し、該位置がターゲット枠内に属するかどうかを判断する。アルゴリズムは、クロスエントロピー損失関数を用いて

に対して制約を行い、中心点までの偏差、長さと幅により出力された損失関数に対して、

計算を用いる。以上の定義された損失関数に基づいて、勾配逆伝播の計算方式により、ネットワークパラメータを訓練する。モデルの訓練が完了した後、ネットワークパラメータを定め、前処理された動作領域画像をネットワークに入力しフィードフォワードし、現在フレームのターゲット点分類結果

偏差回帰結果

及びターゲット枠の長さと幅の結果

を予測する。

アルゴリズム測位プロセス：分類結果

から、極大値点

の所在位置

及び該点により予測された偏差

と予測された長さと幅情報

を取り、続いて、式（１）から（５）を利用して新たなフレームのターゲット領域

を計算する。

本願の実施例において、まず、追跡待ち画像における検索領域と基準フレーム画像におけるターゲット画像領域との間の画像類似性特徴マップを決定し、続いて、画像類似性特徴に基づいて、追跡待ち画像における測位待ち領域の測位位置情報を予測又は決定し、即ち、追跡待ち対象の、検索領域を含む追跡待ち画像における検出枠を決定し、追跡待ち対象の検出枠の予測に関与する画素点の数を効果的に減少させる。予測の効率とリアルタイム性を向上させることができるだけでなく、予測計算の複雑さを低減させることもでき、それにより追跡待ち対象の検出枠を予測するためのニューラルネットワークのネットワークアーキテクチャを簡略化し、リアルタイム性とネットワーク構造の簡易性要件がいずれも高い移動端に、より適する。

本願の実施例は、エンドツーエンドの訓練方式を利用して、予測ターゲットに対して十分に訓練を行い、オンライン更新を必要とせず、リアルタイム性がより高い。それと同時に、ネットワークにより、ターゲット枠の点位置、偏差及び長さと幅を直接的に予測し、計算により、最終的なターゲット枠情報を直接的に得ることができ、構造がより簡単かつ有効であり、候補枠の予測プロセスが存在せず、移動端のアルゴリズム需要に、更に適応する。そして、精度を向上させると同時に、追跡アルゴリズムのリアルタイム性を維持する。本願の実施例によるアルゴリズムを利用して、移動端と埋込み式機器の追跡アルゴリズムの応用、例えば、端末機器における顔追跡、無人機によるターゲット追跡などのシーンを行うことができる。該アルゴリズムと移動式又は埋込み式機器との組み合わせにより、人為的追跡が困難である高速動き、及び指定対象のリアルタイムなスマート追跡及び方向補正追跡タスクを実行する。

上記ターゲット追跡方法に対応して、本願の実施例は、ターゲット追跡装置を更に提供する。該装置は、ターゲット追跡を行う必要がある端末機器に用いられ、かつ該装置及びその各モジュールは、上記ターゲット追跡方法と同じである方法のステップを実行することができ、同じ又は類似の有益な効果を達することができるため、重複した部分について、説明を省略する。

図９に示すように、本願の実施例によるターゲット追跡装置は、
ビデオ画像を取得するように構成される画像取得モジュール９１０と、
前記ビデオ画像のうちの基準フレーム画像の後の追跡待ち画像に対して、前記追跡待ち画像における検索領域と前記基準フレーム画像におけるターゲット画像領域との間の画像類似性特徴マップを生成するように構成される類似性特徴抽出モジュール９２０であって、前記ターゲット画像領域内に追跡待ち対象が含まれる、類似性特徴抽出モジュール９２０と、
前記画像類似性特徴マップに基づいて、前記検索領域における測位待ち領域の測位位置情報を決定するように構成される測位モジュール９３０と、
前記検索領域から、前記測位待ち領域の測位位置情報が決定されたことに応答して、決定された測位待ち領域の測位位置情報に基づいて、前記追跡待ち対象の、前記検索領域を含む追跡待ち画像における検出枠を決定するように構成される追跡モジュール９４０と、を備える。

いくつかの実施例において、前記測位モジュール９３０は、前記画像類似性特徴マップに基づいて、前記測位待ち領域のサイズ情報を予測し、前記画像類似性特徴マップに基づいて、前記検索領域の特徴マップにおける各特徴画素点の確率値を予測し、１つの特徴画素点の確率値は、前記検索領域における、該特徴画素点に対応する画素点が前記測位待ち領域内に位置する確率を表し、前記画像類似性特徴マップに基づいて、前記検索領域における、各前記特徴画素点に対応する画素点と前記測位待ち領域との間の位置関係情報を予測し、予測された確率値のうち、前記確率値が最も大きい特徴画素点に対応する前記検索領域における画素点をターゲット画素点として選択し、前記ターゲット画素点、前記ターゲット画素点と前記測位待ち領域との間の位置関係情報、及び前記測位待ち領域のサイズ情報に基づいて、前記測位待ち領域の測位位置情報を決定するように構成される。

いくつかの実施例において、前記類似性特徴抽出モジュール９２０は、前記追跡待ち対象の、前記基準フレーム画像における検出枠を決定するステップと、前記基準フレーム画像における前記検出枠のサイズ情報に基づいて、前記基準フレーム画像における前記検出枠に対応する第１延伸サイズ情報を決定するステップと、前記第１延伸サイズ情報に基づいて、前記基準フレーム画像における前記検出枠を開始位置として周辺へ延伸し、前記ターゲット画像領域を得るステップと、に応じて、前記基準フレーム画像から、前記ターゲット画像領域を抽出するように構成される。

いくつかの実施例において、前記類似性特徴抽出モジュール９２０は、前記ビデオ画像のうち、現在フレームの追跡待ち画像の前のフレームの追跡待ち画像における、前記追跡待ち対象の検出枠を取得するステップと、前記追跡待ち対象の検出枠のサイズ情報に基づいて、前記追跡待ち対象の検出枠に対応する第２延伸サイズ情報を決定するステップと、前記第２延伸サイズ情報と前記追跡待ち対象の検出枠のサイズ情報に基づいて、現在フレームの追跡待ち画像における検索領域のサイズ情報を決定するステップと、前記追跡待ち対象の検出枠の中心点を現在フレームの追跡待ち画像における検索領域の中心として、現在フレームの追跡待ち画像における検索領域のサイズ情報に基づいて、前記検索領域を決定するステップと、に応じて、追跡待ち画像から、検索領域を抽出するように構成される。

いくつかの実施例において、前記類似性特徴抽出モジュール９２０は、前記検索領域を第１所定のサイズにスケーリングし、そして、前記ターゲット画像領域を第２所定のサイズにスケーリングし、前記検索領域における第１画像特徴マップ、及び前記ターゲット画像領域における第２画像特徴マップを生成し、前記第２画像特徴マップのサイズは、前記第１画像特徴マップのサイズよりも小さく、前記第２画像特徴マップと前記第１画像特徴マップにおける各サブ画像特徴マップとの間の相関性特徴を決定し、前記サブ画像特徴マップと前記第２画像特徴マップのサイズが同じであり、決定された複数の相関性特徴に基づいて、前記画像類似性特徴マップを生成するように構成される。

いくつかの実施例において、前記ターゲット追跡装置は、追跡測位ニューラルネットワークを利用して、前記追跡待ち対象の、前記検索領域を含む追跡待ち画像における検出枠を決定し、前記追跡測位ニューラルネットワークは、ターゲット対象の検出枠がラベリングされているサンプル画像により訓練されたものである。

いくつかの実施例において、前記ターゲット追跡装置は、サンプル画像を取得し、前記サンプル画像は、基準フレームサンプル画像と追跡待ちサンプル画像を含み、前記サンプル画像を訓練待ち追跡測位ニューラルネットワークに入力し、前記訓練待ち追跡測位ニューラルネットワークにより、入力されたサンプル画像に対して処理を行い、前記ターゲット対象の、前記追跡待ちサンプル画像における検出枠を予測し、前記追跡待ちサンプル画像におけるラベリングされた検出枠と前記追跡待ちサンプル画像における予測された検出枠に基づいて、前記訓練待ち追跡測位ニューラルネットワークのネットワークパラメータを調整するように構成されるモデル訓練モジュール９５０を更に備える。

いくつかの実施例において、前記追跡待ちサンプル画像における測位待ち領域の測位位置情報を前記追跡待ちサンプル画像における予測された検出枠の位置情報とし、前記モデル訓練モジュール９５０は、前記追跡待ちサンプル画像におけるラベリングされた検出枠と前記追跡待ちサンプル画像における予測された検出枠に基づいて、前記訓練待ち追跡測位ニューラルネットワークのネットワークパラメータを調整する場合、前記予測された検出枠のサイズ情報、前記追跡待ちサンプル画像中の検索領域における各画素点が前記予測された検出枠内に位置する予測確率値、前記追跡待ちサンプル画像中の検索領域における各画素点と前記予測された検出枠との予測位置関係情報、前記ラベリンクされた検出枠の標準サイズ情報、前記追跡待ちサンプル画像における標準検索領域における各画素点がラベリングされた検出枠中に位置するかどうかの情報、前記標準検索領域における各画素点と前記ラベリングされた検出枠の標準位置関係情報に基づいて、前記訓練待ち追跡測位ニューラルネットワークのネットワークパラメータを調整するように構成される。

本願の実施例の上記ターゲット追跡装置により検出枠を予測するプロセスにおいて実行される実施形態は、上記ターゲット追跡方法の記述を参照してもよく、実施プロセスは、上記と類似する。ここで説明を省略する。

本願の実施例は、電子機器を提供する。図１０に示すように、プロセッサ１００１と、メモリ１００２と、バス１００３とを備え、前記メモリ１００２に、前記プロセッサ１００１による実行可能な機器可読命令が記憶されており、電子機器が動作する場合、前記プロセッサ１００１と前記メモリ１００２とは、バス１００３を介して通信する。

前記機器可読命令が前記プロセッサ１００１により実行される時、ビデオ画像を取得するステップと、前記ビデオ画像のうちの基準フレーム画像の後の追跡待ち画像に対して、前記追跡待ち画像における検索領域と前記基準フレーム画像におけるターゲット画像領域との間の画像類似性特徴マップを生成するステップであって、前記ターゲット画像領域内に追跡待ち対象が含まれる、ステップと、前記画像類似性特徴マップに基づいて、前記検索領域における測位待ち領域の測位位置情報を決定するステップと、前記検索領域から、前記測位待ち領域の測位位置情報が決定されたことに応答して、決定された測位待ち領域の測位位置情報に基づいて、前記追跡待ち対象の、前記検索領域を含む追跡待ち画像における検出枠を決定するステップと、を含むターゲット追跡方法のステップを実行する。

これに加えて、機器可読命令がプロセッサ１００１により実行されるとき、上記方法の一部の記述のいずれか１つの実施方法における方法内容を実行してもよい。ここで説明を省略する。

本願の実施例は、上記方法及び装置に対応するコンピュータプログラム製品を更に提供する。該コンピュータプログラム製品は、プログラムコードを記憶したコンピュータ可読記憶媒体を含み、プログラムコードに含まれる命令は、前記方法の実施例における方法を実行するために用いられてもよく、実現プロセスは、方法の実施例を参照してもよい。ここで説明を省略する。

上述の各実施例に対する記述は、各実施例間の相違点を強調する傾向があり、その同一または類似の点を相互に参照してもよい。簡潔化を図るために、ここで説明を省略する。

説明上の便宜及び簡素化を図るために、上記説明されたシステム及び装置の具体的な作動過程は、前記方法の実施例における対応した過程を参照することができ、ここで詳細な説明を省略するステップは、当業者にはっきり理解されるべきである。本発明で提供する幾つかの実施例で開示したシステム、装置及び方法は、他の方式によって実現できることを理解すべきである。以上に記載した装置の実施例はただ例示的なものであり、例えば、前記ユニットの分割はただロジック機能の分割で、実際に実現する時は他の分割方式によってもよい。また例えば、複数のユニット又はコンポーネントを組み合わせてもよく、別のシステムに組み込んでもよい。又は若干の特徴を無視してもよく、実行しなくてもよい。また、示したか或いは検討した相互間の結合又は直接的な結合又は通信接続は、幾つかの通信インタフェース、装置又はユニットによる間接的な結合又は通信接続であってもよく、電気的、機械的または他の形態であってもよい。

分離部材として説明した前記モジュールは、物理的に別個のものであってもよく、そうでなくてもよい。モジュールとして示された部材は、物理的ユニットであってもよく、そうでなくてもよい。即ち、同一の位置に位置してもよく、複数のネットワークユニットに分布してもよい。実際の需要に応じてそのうちの一部又は全てのユニットにより本実施例の方策の目的を実現することができる。

また、本願の各実施例における各機能ユニットは１つの処理ユニットに集積されてもよく、各ユニットが物理的に別個のものとして存在してもよく、２つ又は２つ以上のユニットが１つのユニットに集積されてもよい。

前記機能はソフトウェア機能ユニットの形で実現され、かつ独立した製品として販売または使用されるとき、プロセッサによる実行可能な不揮発性コンピュータ可読記憶媒体に記憶されてもよい。このような理解のもと、本願の技術的解決手段は、本質的に、又は、従来技術に対して貢献をもたらした部分又は該技術的解決手段の一部は、ソフトウェア製品の形式で具現化することができ、このようなコンピュータソフトウェア製品は、記憶媒体に記憶しても良く、また、１台のコンピュータ機器（パソコン、サーバ、又はネットワーク機器など）に、本願の各実施例に記載の方法の全部又は一部のステップを実行させるための若干の命令を含む。上述した記憶媒体は、ＵＳＢメモリ、リムーバブルハードディスク、ＲＯＭ、ＲＡＭ、磁気ディスク、又は光ディスクなど、プログラムコードを記憶可能な各種の媒体を含む。

以上は、本願の実施例の実施形態に過ぎず、本願の実施例の保護範囲は、それに限らない。いかなる当業者が、本願に掲示される技術的範囲内に、容易に想到できる変形又は置換は、いずれも、本願の保護範囲内に含まれるべきである。そのため、本願の実施例の保護範囲は、特許請求の範囲の保護範囲を基準とすべきである。

本願の実施例において、エンドツーエンドの訓練方式を利用して、予測ターゲットに対して十分に訓練を行い、オンライン更新を必要とせず、リアルタイム性がより高い。それと同時に、追跡ネットワークにより、ターゲット枠の点位置、偏差及び長さと幅を直接的に予測することによって、最終的なターゲット枠情報を直接的に得ることができ、ネットワーク構造がより簡単かつ有効であり、候補枠の予測プロセスが存在せず、移動端のアルゴリズム需要に、更に適応する。そして、精度を向上させると同時に、追跡アルゴリズムのリアルタイム性を維持する。

本願の実施例の上記装置、電子機器及びコンピュータ可読記憶媒体は、少なくとも、本願の実施例の上記方法のいずれか１つ態様又はいずれか１つの態様のいずれか１つの実施形態の技術的特徴と実質的に同一又は類似の技術的特徴を含むので、上記装置、電子機器及びコンピュータ可読記憶媒体の効果の説明については、上記方法の内容の効果の説明を参照してもよく、ここで説明を省略する。
例えば、本願は以下の項目を提供する。
（項目１）
ターゲット追跡方法であって、
ビデオ画像を取得するステップと、
前記ビデオ画像のうちの基準フレーム画像の後の追跡待ち画像に対して、前記追跡待ち画像における検索領域と前記基準フレーム画像におけるターゲット画像領域との間の画像類似性特徴マップを生成するステップであって、前記ターゲット画像領域内に追跡待ち対象が含まれる、ステップと、
前記画像類似性特徴マップに基づいて、前記検索領域における測位待ち領域の測位位置情報を決定するステップと、
前記検索領域から、前記測位待ち領域の測位位置情報が決定されたことに応答して、決定された測位待ち領域の測位位置情報に基づいて、前記追跡待ち対象の、前記検索領域を含む追跡待ち画像における検出枠を決定するステップと、を含む、ターゲット追跡方法。
（項目２）
前記画像類似性特徴マップに基づいて、前記検索領域における測位待ち領域の測位位置情報を決定するステップは、
前記画像類似性特徴マップに基づいて、前記測位待ち領域のサイズ情報を予測するステップと、
前記画像類似性特徴マップに基づいて、前記検索領域の特徴マップにおける各特徴画素点の確率値を予測するステップであって、１つの特徴画素点の確率値は、前記検索領域における、該特徴画素点に対応する画素点が前記測位待ち領域内に位置する確率を表す、ステップと、
前記画像類似性特徴マップに基づいて、前記検索領域における、各前記特徴画素点に対応する画素点と前記測位待ち領域との間の位置関係情報を予測するステップと、
予測された確率値のうち、前記確率値が最も大きい特徴画素点に対応する前記検索領域における画素点をターゲット画素点として選択するステップと、
前記ターゲット画素点、前記ターゲット画素点と前記測位待ち領域との間の位置関係情報、及び前記測位待ち領域のサイズ情報に基づいて、前記測位待ち領域の測位位置情報を決定するステップと、を含む
項目１に記載のターゲット追跡方法。
（項目３）
前記追跡待ち対象の、前記基準フレーム画像における検出枠を決定するステップと、
前記基準フレーム画像における前記検出枠のサイズ情報に基づいて、前記基準フレーム画像における前記検出枠に対応する第１延伸サイズ情報を決定するステップと、
前記第１延伸サイズ情報に基づいて、前記基準フレーム画像における前記検出枠を開始位置として周辺へ延伸し、前記ターゲット画像領域を得るステップと、に応じて、
前記基準フレーム画像から、前記ターゲット画像領域を抽出する
項目１又は２に記載のターゲット追跡方法。
（項目４）
前記ビデオ画像のうち、現在フレームの追跡待ち画像の前のフレームの追跡待ち画像における、前記追跡待ち対象の検出枠を取得するステップと、
前記追跡待ち対象の検出枠のサイズ情報に基づいて、前記追跡待ち対象の検出枠に対応する第２延伸サイズ情報を決定するステップと、
前記第２延伸サイズ情報と前記追跡待ち対象の検出枠のサイズ情報に基づいて、現在フレームの追跡待ち画像における検索領域のサイズ情報を決定するステップと、
前記追跡待ち対象の検出枠の中心点を現在フレームの追跡待ち画像における検索領域の中心として、現在フレームの追跡待ち画像における検索領域のサイズ情報に基づいて、前記検索領域を決定するステップと、に応じて、
追跡待ち画像から、検索領域を抽出する
項目１又は２に記載のターゲット追跡方法。
（項目５）
前記追跡待ち画像における検索領域と前記基準フレーム画像におけるターゲット画像領域との間の画像類似性特徴マップを生成するステップは、
前記検索領域を第１所定のサイズにスケーリングし、前記ターゲット画像領域を第２所定のサイズにスケーリングするステップと、
前記検索領域における第１画像特徴マップ、及び前記ターゲット画像領域における第２画像特徴マップを生成するステップであって、前記第２画像特徴マップのサイズは、前記第１画像特徴マップのサイズよりも小さい、ステップと、
前記第２画像特徴マップと前記第１画像特徴マップにおける各サブ画像特徴マップとの間の相関性特徴を決定するステップであって、前記サブ画像特徴マップと前記第２画像特徴マップのサイズが同じである、ステップと、
決定された複数の相関性特徴に基づいて、前記画像類似性特徴マップを生成するステップと、を含む
項目１から４のうちいずれか一項に記載のターゲット追跡方法。
（項目６）
前記ターゲット追跡方法は、追跡測位ニューラルネットワークにより実行され、前記追跡測位ニューラルネットワークは、ターゲット対象の検出枠がラベリングされているサンプル画像により訓練されたものである
項目１から５のうちいずれか一項に記載のターゲット追跡方法。
（項目７）
前記ターゲット追跡方法は、
サンプル画像を取得するステップであって、前記サンプル画像は、基準フレームサンプル画像と追跡待ちサンプル画像を含む、ステップと、
前記サンプル画像を訓練待ち追跡測位ニューラルネットワークに入力し、前記訓練待ち追跡測位ニューラルネットワークにより、入力されたサンプル画像に対して処理を行い、前記ターゲット対象の、前記追跡待ちサンプル画像における検出枠を予測するステップと、
前記追跡待ちサンプル画像におけるラベリングされた検出枠と前記追跡待ちサンプル画像における予測された検出枠に基づいて、前記訓練待ち追跡測位ニューラルネットワークのネットワークパラメータを調整するステップと、を含む、
前記追跡測位ニューラルネットワークの訓練ステップを更に含む
項目６に記載のターゲット追跡方法。
（項目８）
前記追跡待ちサンプル画像における測位待ち領域の測位位置情報は、前記追跡待ちサンプル画像における予測された検出枠の位置情報として取得され、
前記追跡待ちサンプル画像におけるラベリングされた検出枠と前記追跡待ちサンプル画像における予測された検出枠に基づいて、前記訓練待ち追跡測位ニューラルネットワークのネットワークパラメータを調整するステップは、
前記追跡待ちサンプル画像における予測された検出枠のサイズ情報、
前記追跡待ちサンプル画像中の検索領域における各画素点が前記追跡待ちサンプル画像における予測された検出枠内に位置する予測確率値、
前記追跡待ちサンプル画像中の検索領域における各画素点と前記追跡待ちサンプル画像における予測された検出枠との予測位置関係情報、
前記ラベリンクされた検出枠の標準サイズ情報、
前記追跡待ちサンプル画像における標準検索領域における各画素点がラベリングされた検出枠中に位置するかどうかの情報、及び
前記標準検索領域における各画素点と前記ラベリングされた検出枠の標準位置関係情報に基づいて、
前記訓練待ち追跡測位ニューラルネットワークのネットワークパラメータを調整するステップを含む
項目７に記載のターゲット追跡方法。
（項目９）
ターゲット追跡装置であって、
ビデオ画像を取得するように構成される画像取得モジュールと、
前記ビデオ画像のうちの基準フレーム画像の後の追跡待ち画像に対して、前記追跡待ち画像における検索領域と前記基準フレーム画像におけるターゲット画像領域との間の画像類似性特徴マップを生成するように構成される類似性特徴抽出モジュールであって、前記ターゲット画像領域内に追跡待ち対象が含まれる、類似性特徴抽出モジュールと、
前記画像類似性特徴マップに基づいて、前記検索領域における測位待ち領域の測位位置情報を決定するように構成される測位モジュールと、
前記検索領域から、前記測位待ち領域の測位位置情報が決定されたことに応答して、決定された測位待ち領域の測位位置情報に基づいて、前記追跡待ち対象の、前記検索領域を含む追跡待ち画像における検出枠を決定するように構成される追跡モジュールと、を備える、ターゲット追跡装置。
（項目１０）
前記測位モジュールは、
前記画像類似性特徴マップに基づいて、前記測位待ち領域のサイズ情報を予測し、
前記画像類似性特徴マップに基づいて、前記検索領域の特徴マップにおける各特徴画素点の確率値を予測し、１つの特徴画素点の確率値は、前記検索領域における、該特徴画素点に対応する画素点が前記測位待ち領域内に位置する確率を表し、
前記画像類似性特徴マップに基づいて、前記検索領域における、各前記特徴画素点に対応する画素点と前記測位待ち領域との間の位置関係情報を予測し、
予測された確率値のうち、前記確率値が最も大きい特徴画素点に対応する前記検索領域における画素点をターゲット画素点として選択し、
前記ターゲット画素点、前記ターゲット画素点と前記測位待ち領域との間の位置関係情報、及び前記測位待ち領域のサイズ情報に基づいて、前記測位待ち領域の測位位置情報を決定するように構成される
項目９に記載のターゲット追跡装置。
（項目１１）
前記類似性特徴抽出モジュールは、
前記追跡待ち対象の、前記基準フレーム画像における検出枠を決定するステップと、
前記基準フレーム画像における前記検出枠のサイズ情報に基づいて、前記基準フレーム画像における前記検出枠に対応する第１延伸サイズ情報を決定するステップと、
前記第１延伸サイズ情報に基づいて、前記基準フレーム画像における前記検出枠を開始位置として周辺へ延伸し、前記ターゲット画像領域を得るステップと、に応じて、
前記基準フレーム画像から、前記ターゲット画像領域を抽出するように構成される
項目９又は１０に記載のターゲット追跡装置。
（項目１２）
前記類似性特徴抽出モジュールは、
前記ビデオ画像のうち、現在フレームの追跡待ち画像の前のフレームの追跡待ち画像における、前記追跡待ち対象の検出枠を取得するステップと、
前記追跡待ち対象の検出枠のサイズ情報に基づいて、前記追跡待ち対象の検出枠に対応する第２延伸サイズ情報を決定するステップと、
前記第２延伸サイズ情報と前記追跡待ち対象の検出枠のサイズ情報に基づいて、現在フレームの追跡待ち画像における検索領域のサイズ情報を決定するステップと、
前記追跡待ち対象の検出枠の中心点を現在フレームの追跡待ち画像における検索領域の中心として、現在フレームの追跡待ち画像における検索領域のサイズ情報に基づいて、前記検索領域を決定するステップと、に応じて、
追跡待ち画像から、検索領域を抽出するように構成される
項目９又は１０に記載のターゲット追跡装置。
（項目１３）
前記類似性特徴抽出モジュールは、
前記検索領域を第１所定のサイズにスケーリングし、前記ターゲット画像領域を第２所定のサイズにスケーリングし、
前記検索領域における第１画像特徴マップ、及び前記ターゲット画像領域における第２画像特徴マップを生成し、前記第２画像特徴マップのサイズは、前記第１画像特徴マップのサイズよりも小さく、
前記第２画像特徴マップと前記第１画像特徴マップにおける各サブ画像特徴マップとの間の相関性特徴を決定し、前記サブ画像特徴マップと前記第２画像特徴マップのサイズが同じであり、
決定された複数の相関性特徴に基づいて、前記画像類似性特徴マップを生成するように構成される
項目９から１２のうちいずれか一項に記載のターゲット追跡装置。
（項目１４）
前記ターゲット追跡装置は、追跡測位ニューラルネットワークを利用して、前記追跡待ち対象の、前記検索領域を含む追跡待ち画像における検出枠を決定し、前記追跡測位ニューラルネットワークは、ターゲット対象の検出枠がラベリングされているサンプル画像により訓練されたものである
項目９から１３のうちいずれか一項に記載のターゲット追跡装置。
（項目１５）
前記ターゲット追跡装置は、
サンプル画像を取得し、前記サンプル画像は、基準フレームサンプル画像と追跡待ちサンプル画像を含み、
前記サンプル画像を訓練待ち追跡測位ニューラルネットワークに入力し、前記訓練待ち追跡測位ニューラルネットワークにより、入力されたサンプル画像に対して処理を行い、前記ターゲット対象の、前記追跡待ちサンプル画像における検出枠を予測し、
前記追跡待ちサンプル画像におけるラベリングされた検出枠と前記追跡待ちサンプル画像における予測された検出枠に基づいて、前記訓練待ち追跡測位ニューラルネットワークのネットワークパラメータを調整するように構成されるモデル訓練モジュールを更に備える
項目１４に記載のターゲット追跡装置。
（項目１６）
前記追跡待ちサンプル画像における測位待ち領域の測位位置情報は、前記追跡待ちサンプル画像における予測された検出枠の位置情報として取得され、前記モデル訓練モジュールは、前記追跡待ちサンプル画像におけるラベリングされた検出枠と前記追跡待ちサンプル画像における予測された検出枠に基づいて、前記訓練待ち追跡測位ニューラルネットワークのネットワークパラメータを調整する場合、
前記予測された検出枠のサイズ情報、前記追跡待ちサンプル画像中の検索領域における各画素点が前記予測された検出枠内に位置する予測確率値、前記追跡待ちサンプル画像中の検索領域における各画素点と前記予測された検出枠との予測位置関係情報、前記ラベリンクされた検出枠の標準サイズ情報、前記追跡待ちサンプル画像における標準検索領域における各画素点がラベリングされた検出枠中に位置するかどうかの情報、及び前記標準検索領域における各画素点と前記ラベリングされた検出枠の標準位置関係情報に基づいて、前記訓練待ち追跡測位ニューラルネットワークのネットワークパラメータを調整するように構成される
項目１５に記載のターゲット追跡装置。
（項目１７）
プロセッサ、メモリ及びバスを備える電子機器であって、
前記メモリは、前記プロセッサによる実行可能な機器可読命令を記憶し、電子機器が動作する場合、前記プロセッサと前記メモリがバスを介して通信し、前記プロセスは、前記機器可読命令を実行して、項目１から８のうちいずれか一項に記載のターゲット追跡方法を実施する、電子機器。
（項目１８）
コンピュータプログラムが記憶されるコンピュータ可読記憶媒体であって、
前記コンピュータプログラムがプロセッサにより実行されるときに、前記プロセッサに項目１から８のうちいずれか一項に記載のターゲット追跡方法を実行させる、コンピュータ可読記憶媒体。

Claims

ターゲット追跡方法であって、
ビデオ画像を取得するステップと、
前記ビデオ画像のうちの基準フレーム画像の後の追跡待ち画像に対して、前記追跡待ち画像における検索領域と前記基準フレーム画像におけるターゲット画像領域との間の画像類似性特徴マップを生成するステップであって、前記ターゲット画像領域内に追跡待ち対象が含まれる、ステップと、
前記画像類似性特徴マップに基づいて、前記検索領域における測位待ち領域の測位位置情報を決定するステップと、
前記検索領域から、前記測位待ち領域の測位位置情報が決定されたことに応答して、決定された測位待ち領域の測位位置情報に基づいて、前記追跡待ち対象の、前記検索領域を含む追跡待ち画像における検出枠を決定するステップと、を含む、ターゲット追跡方法。
前記画像類似性特徴マップに基づいて、前記検索領域における測位待ち領域の測位位置情報を決定するステップは、
前記画像類似性特徴マップに基づいて、前記測位待ち領域のサイズ情報を予測するステップと、
前記画像類似性特徴マップに基づいて、前記検索領域の特徴マップにおける各特徴画素点の確率値を予測するステップであって、１つの特徴画素点の確率値は、前記検索領域における、該特徴画素点に対応する画素点が前記測位待ち領域内に位置する確率を表す、ステップと、
前記画像類似性特徴マップに基づいて、前記検索領域における、各前記特徴画素点に対応する画素点と前記測位待ち領域との間の位置関係情報を予測するステップと、
予測された確率値のうち、前記確率値が最も大きい特徴画素点に対応する前記検索領域における画素点をターゲット画素点として選択するステップと、
前記ターゲット画素点、前記ターゲット画素点と前記測位待ち領域との間の位置関係情報、及び前記測位待ち領域のサイズ情報に基づいて、前記測位待ち領域の測位位置情報を決定するステップと、を含む
請求項１に記載のターゲット追跡方法。
前記追跡待ち対象の、前記基準フレーム画像における検出枠を決定するステップと、
前記基準フレーム画像における前記検出枠のサイズ情報に基づいて、前記基準フレーム画像における前記検出枠に対応する第１延伸サイズ情報を決定するステップと、
前記第１延伸サイズ情報に基づいて、前記基準フレーム画像における前記検出枠を開始位置として周辺へ延伸し、前記ターゲット画像領域を得るステップと、に応じて、
前記基準フレーム画像から、前記ターゲット画像領域を抽出する
請求項１又は２に記載のターゲット追跡方法。
前記ビデオ画像のうち、現在フレームの追跡待ち画像の前のフレームの追跡待ち画像における、前記追跡待ち対象の検出枠を取得するステップと、
前記追跡待ち対象の検出枠のサイズ情報に基づいて、前記追跡待ち対象の検出枠に対応する第２延伸サイズ情報を決定するステップと、
前記第２延伸サイズ情報と前記追跡待ち対象の検出枠のサイズ情報に基づいて、現在フレームの追跡待ち画像における検索領域のサイズ情報を決定するステップと、
前記追跡待ち対象の検出枠の中心点を現在フレームの追跡待ち画像における検索領域の中心として、現在フレームの追跡待ち画像における検索領域のサイズ情報に基づいて、前記検索領域を決定するステップと、に応じて、
追跡待ち画像から、検索領域を抽出する
請求項１又は２に記載のターゲット追跡方法。
前記追跡待ち画像における検索領域と前記基準フレーム画像におけるターゲット画像領域との間の画像類似性特徴マップを生成するステップは、
前記検索領域を第１所定のサイズにスケーリングし、前記ターゲット画像領域を第２所定のサイズにスケーリングするステップと、
前記検索領域における第１画像特徴マップ、及び前記ターゲット画像領域における第２画像特徴マップを生成するステップであって、前記第２画像特徴マップのサイズは、前記第１画像特徴マップのサイズよりも小さい、ステップと、
前記第２画像特徴マップと前記第１画像特徴マップにおける各サブ画像特徴マップとの間の相関性特徴を決定するステップであって、前記サブ画像特徴マップと前記第２画像特徴マップのサイズが同じである、ステップと、
決定された複数の相関性特徴に基づいて、前記画像類似性特徴マップを生成するステップと、を含む
請求項１から４のうちいずれか一項に記載のターゲット追跡方法。
前記ターゲット追跡方法は、追跡測位ニューラルネットワークにより実行され、前記追跡測位ニューラルネットワークは、ターゲット対象の検出枠がラベリングされているサンプル画像により訓練されたものである
請求項１から５のうちいずれか一項に記載のターゲット追跡方法。
前記ターゲット追跡方法は、
サンプル画像を取得するステップであって、前記サンプル画像は、基準フレームサンプル画像と追跡待ちサンプル画像を含む、ステップと、
前記サンプル画像を訓練待ち追跡測位ニューラルネットワークに入力し、前記訓練待ち追跡測位ニューラルネットワークにより、入力されたサンプル画像に対して処理を行い、前記ターゲット対象の、前記追跡待ちサンプル画像における検出枠を予測するステップと、
前記追跡待ちサンプル画像におけるラベリングされた検出枠と前記追跡待ちサンプル画像における予測された検出枠に基づいて、前記訓練待ち追跡測位ニューラルネットワークのネットワークパラメータを調整するステップと、を含む、
前記追跡測位ニューラルネットワークの訓練ステップを更に含む
請求項６に記載のターゲット追跡方法。
前記追跡待ちサンプル画像における測位待ち領域の測位位置情報は、前記追跡待ちサンプル画像における予測された検出枠の位置情報として取得され、
前記追跡待ちサンプル画像におけるラベリングされた検出枠と前記追跡待ちサンプル画像における予測された検出枠に基づいて、前記訓練待ち追跡測位ニューラルネットワークのネットワークパラメータを調整するステップは、
前記追跡待ちサンプル画像における予測された検出枠のサイズ情報、
前記追跡待ちサンプル画像中の検索領域における各画素点が前記追跡待ちサンプル画像における予測された検出枠内に位置する予測確率値、
前記追跡待ちサンプル画像中の検索領域における各画素点と前記追跡待ちサンプル画像における予測された検出枠との予測位置関係情報、
前記ラベリンクされた検出枠の標準サイズ情報、
前記追跡待ちサンプル画像における標準検索領域における各画素点がラベリングされた検出枠中に位置するかどうかの情報、及び
前記標準検索領域における各画素点と前記ラベリングされた検出枠の標準位置関係情報に基づいて、
前記訓練待ち追跡測位ニューラルネットワークのネットワークパラメータを調整するステップを含む
請求項７に記載のターゲット追跡方法。
ターゲット追跡装置であって、
ビデオ画像を取得するように構成される画像取得モジュールと、
前記ビデオ画像のうちの基準フレーム画像の後の追跡待ち画像に対して、前記追跡待ち画像における検索領域と前記基準フレーム画像におけるターゲット画像領域との間の画像類似性特徴マップを生成するように構成される類似性特徴抽出モジュールであって、前記ターゲット画像領域内に追跡待ち対象が含まれる、類似性特徴抽出モジュールと、
前記画像類似性特徴マップに基づいて、前記検索領域における測位待ち領域の測位位置情報を決定するように構成される測位モジュールと、
前記検索領域から、前記測位待ち領域の測位位置情報が決定されたことに応答して、決定された測位待ち領域の測位位置情報に基づいて、前記追跡待ち対象の、前記検索領域を含む追跡待ち画像における検出枠を決定するように構成される追跡モジュールと、を備える、ターゲット追跡装置。
前記測位モジュールは、
前記画像類似性特徴マップに基づいて、前記測位待ち領域のサイズ情報を予測し、
前記画像類似性特徴マップに基づいて、前記検索領域の特徴マップにおける各特徴画素点の確率値を予測し、１つの特徴画素点の確率値は、前記検索領域における、該特徴画素点に対応する画素点が前記測位待ち領域内に位置する確率を表し、
前記画像類似性特徴マップに基づいて、前記検索領域における、各前記特徴画素点に対応する画素点と前記測位待ち領域との間の位置関係情報を予測し、
予測された確率値のうち、前記確率値が最も大きい特徴画素点に対応する前記検索領域における画素点をターゲット画素点として選択し、
前記ターゲット画素点、前記ターゲット画素点と前記測位待ち領域との間の位置関係情報、及び前記測位待ち領域のサイズ情報に基づいて、前記測位待ち領域の測位位置情報を決定するように構成される
請求項９に記載のターゲット追跡装置。
前記類似性特徴抽出モジュールは、
前記追跡待ち対象の、前記基準フレーム画像における検出枠を決定するステップと、
前記基準フレーム画像における前記検出枠のサイズ情報に基づいて、前記基準フレーム画像における前記検出枠に対応する第１延伸サイズ情報を決定するステップと、
前記第１延伸サイズ情報に基づいて、前記基準フレーム画像における前記検出枠を開始位置として周辺へ延伸し、前記ターゲット画像領域を得るステップと、に応じて、
前記基準フレーム画像から、前記ターゲット画像領域を抽出するように構成される
請求項９又は１０に記載のターゲット追跡装置。
前記類似性特徴抽出モジュールは、
前記ビデオ画像のうち、現在フレームの追跡待ち画像の前のフレームの追跡待ち画像における、前記追跡待ち対象の検出枠を取得するステップと、
前記追跡待ち対象の検出枠のサイズ情報に基づいて、前記追跡待ち対象の検出枠に対応する第２延伸サイズ情報を決定するステップと、
前記第２延伸サイズ情報と前記追跡待ち対象の検出枠のサイズ情報に基づいて、現在フレームの追跡待ち画像における検索領域のサイズ情報を決定するステップと、
前記追跡待ち対象の検出枠の中心点を現在フレームの追跡待ち画像における検索領域の中心として、現在フレームの追跡待ち画像における検索領域のサイズ情報に基づいて、前記検索領域を決定するステップと、に応じて、
追跡待ち画像から、検索領域を抽出するように構成される
請求項９又は１０に記載のターゲット追跡装置。
前記類似性特徴抽出モジュールは、
前記検索領域を第１所定のサイズにスケーリングし、前記ターゲット画像領域を第２所定のサイズにスケーリングし、
前記検索領域における第１画像特徴マップ、及び前記ターゲット画像領域における第２画像特徴マップを生成し、前記第２画像特徴マップのサイズは、前記第１画像特徴マップのサイズよりも小さく、
前記第２画像特徴マップと前記第１画像特徴マップにおける各サブ画像特徴マップとの間の相関性特徴を決定し、前記サブ画像特徴マップと前記第２画像特徴マップのサイズが同じであり、
決定された複数の相関性特徴に基づいて、前記画像類似性特徴マップを生成するように構成される
請求項９から１２のうちいずれか一項に記載のターゲット追跡装置。
前記ターゲット追跡装置は、追跡測位ニューラルネットワークを利用して、前記追跡待ち対象の、前記検索領域を含む追跡待ち画像における検出枠を決定し、前記追跡測位ニューラルネットワークは、ターゲット対象の検出枠がラベリングされているサンプル画像により訓練されたものである
請求項９から１３のうちいずれか一項に記載のターゲット追跡装置。
前記ターゲット追跡装置は、
サンプル画像を取得し、前記サンプル画像は、基準フレームサンプル画像と追跡待ちサンプル画像を含み、
前記サンプル画像を訓練待ち追跡測位ニューラルネットワークに入力し、前記訓練待ち追跡測位ニューラルネットワークにより、入力されたサンプル画像に対して処理を行い、前記ターゲット対象の、前記追跡待ちサンプル画像における検出枠を予測し、
前記追跡待ちサンプル画像におけるラベリングされた検出枠と前記追跡待ちサンプル画像における予測された検出枠に基づいて、前記訓練待ち追跡測位ニューラルネットワークのネットワークパラメータを調整するように構成されるモデル訓練モジュールを更に備える
請求項１４に記載のターゲット追跡装置。
前記追跡待ちサンプル画像における測位待ち領域の測位位置情報は、前記追跡待ちサンプル画像における予測された検出枠の位置情報として取得され、前記モデル訓練モジュールは、前記追跡待ちサンプル画像におけるラベリングされた検出枠と前記追跡待ちサンプル画像における予測された検出枠に基づいて、前記訓練待ち追跡測位ニューラルネットワークのネットワークパラメータを調整する場合、
前記予測された検出枠のサイズ情報、前記追跡待ちサンプル画像中の検索領域における各画素点が前記予測された検出枠内に位置する予測確率値、前記追跡待ちサンプル画像中の検索領域における各画素点と前記予測された検出枠との予測位置関係情報、前記ラベリンクされた検出枠の標準サイズ情報、前記追跡待ちサンプル画像における標準検索領域における各画素点がラベリングされた検出枠中に位置するかどうかの情報、及び前記標準検索領域における各画素点と前記ラベリングされた検出枠の標準位置関係情報に基づいて、前記訓練待ち追跡測位ニューラルネットワークのネットワークパラメータを調整するように構成される
請求項１５に記載のターゲット追跡装置。
プロセッサ、メモリ及びバスを備える電子機器であって、
前記メモリは、前記プロセッサによる実行可能な機器可読命令を記憶し、電子機器が動作する場合、前記プロセッサと前記メモリがバスを介して通信し、前記プロセスは、前記機器可読命令を実行して、請求項１から８のうちいずれか一項に記載のターゲット追跡方法を実施する、電子機器。
コンピュータプログラムが記憶されるコンピュータ可読記憶媒体であって、
前記コンピュータプログラムがプロセッサにより実行されるときに、前記プロセッサに請求項１から８のうちいずれか一項に記載のターゲット追跡方法を実行させる、コンピュータ可読記憶媒体。