JP2023509953A - ターゲット追跡方法、装置、電子機器及び記憶媒体 - Google Patents

ターゲット追跡方法、装置、電子機器及び記憶媒体 Download PDF

Info

Publication number
JP2023509953A
JP2023509953A JP2022541641A JP2022541641A JP2023509953A JP 2023509953 A JP2023509953 A JP 2023509953A JP 2022541641 A JP2022541641 A JP 2022541641A JP 2022541641 A JP2022541641 A JP 2022541641A JP 2023509953 A JP2023509953 A JP 2023509953A
Authority
JP
Japan
Prior art keywords
image
tracking
waiting
target
positioning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2022541641A
Other languages
English (en)
Inventor
王▲飛▼
▲錢▼晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Sensetime Lingang Intelligent Technology Co Ltd
Original Assignee
Shanghai Sensetime Lingang Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Sensetime Lingang Intelligent Technology Co Ltd filed Critical Shanghai Sensetime Lingang Intelligent Technology Co Ltd
Publication of JP2023509953A publication Critical patent/JP2023509953A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box

Abstract

本願の実施例は、ターゲット追跡方法、装置、電子機器及びコンピュータ可読記憶媒体を提供する。該方法は、まず、追跡待ち画像における検索領域と基準フレームにおけるターゲット画像領域との間の画像類似性特徴マップを決定し、続いて、画像類似性特徴に基づいて、追跡待ち画像における測位待ち領域の測位位置情報を決定し、即ち、追跡待ち対象の、検索領域を含む追跡待ち画像における検出枠を決定する。

Description

(関連出願の相互参照)
本願は、2020年01月06日に提出された、出願番号が202010011243.0である中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に組み込まれる。
本願は、コンピュータ技術及び画像処理分野に関し、特にターゲット追跡方法、装置、電子機器及びコンピュータ可読記憶媒体に関する。
視覚的ターゲット追跡は、コンピュータビジョンにおける1つの重要な検討方向であり、機器自動追跡、ビデオモニタリング、マンマシンインタラクション、無人運転など、種々のシーンで広く使用できる。視覚的ターゲット追跡タスクは、ビデオシーケンス中の初期フレームにおけるターゲット対象の大きさと位置が定められた場合、後続のフレームにおける該ターゲット対象の大きさと位置を予測することによって、ビデオシーケンス全体におけるターゲットの動き軌跡を得ることである。
実際の追跡予測のプロセスにおいて、視野角、光照射、サイズ、遮蔽などの不明確な干渉要因による影響のため、追跡プロセスにおいて、ドリフトや紛失の状況が発生しやすい。これに加えて、追跡技術は、実際の移動側への部署及び応用の需要を満たすために、往々にして、高い簡易性とリアルタイム性を必要とする。
これに鑑み、本願の実施例は少なくとも、ターゲット追跡方法、装置、電子機器及びコンピュータ可読記憶媒体を提供する。
第1態様によれば、本願の実施例は、ターゲット追跡方法を提供する。前記ターゲット追跡方法は、
ビデオ画像を取得するステップと、
前記ビデオ画像のうちの基準フレーム画像の後の追跡待ち画像に対して、前記追跡待ち画像における検索領域と前記基準フレーム画像におけるターゲット画像領域との間の画像類似性特徴マップを生成するステップであって、前記ターゲット画像領域内に追跡待ち対象が含まれる、ステップと、
前記画像類似性特徴マップに基づいて、前記検索領域における測位待ち領域の測位位置情報を決定するステップと、
前記検索領域から、前記測位待ち領域の測位位置情報が決定されたことに応答して、決定された測位待ち領域の測位位置情報に基づいて、前記追跡待ち対象の、前記検索領域を含む追跡待ち画像における検出枠を決定するステップと、を含む。
可能な実現形態において、前記画像類似性特徴マップに基づいて、前記検索領域における測位待ち領域の測位位置情報を決定するステップは、前記画像類似性特徴マップに基づいて、前記測位待ち領域のサイズ情報を予測するステップと、前記画像類似性特徴マップに基づいて、前記検索領域の特徴マップにおける各特徴画素点の確率値を予測するステップであって、1つの特徴画素点の確率値は、前記検索領域における、該特徴画素点に対応する画素点が前記測位待ち領域内に位置する確率を表す、ステップと、前記画像類似性特徴マップに基づいて、前記検索領域における、各前記特徴画素点に対応する画素点と前記測位待ち領域との間の位置関係情報を予測するステップと、予測された確率値のうち、前記確率値が最も大きい特徴画素点に対応する前記検索領域における画素点をターゲット画素点として選択するステップと、前記ターゲット画素点、前記ターゲット画素点と前記測位待ち領域との間の位置関係情報、及び前記測位待ち領域のサイズ情報に基づいて、前記測位待ち領域の測位位置情報を決定するステップと、を含む。
可能な実現形態において、前記追跡待ち対象の、前記基準フレーム画像における検出枠を決定するステップと、前記基準フレーム画像における前記検出枠のサイズ情報に基づいて、前記基準フレーム画像における前記検出枠に対応する第1延伸サイズ情報を決定するステップと、前記第1延伸サイズ情報に基づいて、前記基準フレーム画像における前記検出枠を開始位置として周辺へ延伸し、前記ターゲット画像領域を得るステップと、に応じて、前記基準フレーム画像から、前記ターゲット画像領域を抽出する。
可能な実現形態において、前記ビデオ画像のうち、現在フレームの追跡待ち画像の前のフレームの追跡待ち画像における、前記追跡待ち対象の検出枠を取得するステップと、前記前のフレームの追跡待ち画像における前記追跡待ち対象の検出枠のサイズ情報に基づいて、前記前のフレームの追跡待ち画像における前記追跡待ち対象の検出枠に対応する第2延伸サイズ情報を決定するステップと、前記第2延伸サイズ情報と前記前のフレームの追跡待ち画像における前記追跡待ち対象の検出枠のサイズ情報に基づいて、現在フレームの追跡待ち画像における検索領域のサイズ情報を決定するステップと、前記前のフレームの追跡待ち画像における前記追跡待ち対象の検出枠の中心点を現在フレームの追跡待ち画像における検索領域の中心として、現在フレームの追跡待ち画像における検索領域のサイズ情報に基づいて、前記検索領域を決定するステップと、に応じて、追跡待ち画像から、検索領域を抽出する。
可能な実現形態において、前記追跡待ち画像における検索領域と前記基準フレーム画像におけるターゲット画像領域との間の画像類似性特徴マップを生成するステップは、前記検索領域を第1所定のサイズにスケーリングし、そして、前記ターゲット画像領域を第2所定のサイズにスケーリングするステップと、前記検索領域における第1画像特徴マップ、及び前記ターゲット画像領域における第2画像特徴マップを生成するステップであって、前記第2画像特徴マップのサイズは、前記第1画像特徴マップのサイズよりも小さい、ステップと、前記第2画像特徴マップと前記第1画像特徴マップにおける各サブ画像特徴マップとの間の相関性特徴を決定するステップであって、前記サブ画像特徴マップと前記第2画像特徴マップのサイズが同じである、ステップと、決定された複数の相関性特徴に基づいて、前記画像類似性特徴マップを生成するステップと、を含む。
可能な実現形態において、前記ターゲット追跡方法は、追跡測位ニューラルネットワークにより実行され、前記追跡測位ニューラルネットワークは、ターゲット対象の検出枠がラベリングされているサンプル画像により訓練されたものである。
可能な実現形態において、上記ターゲット追跡方法は、サンプル画像を取得するステップであって、前記サンプル画像は、基準フレームサンプル画像と追跡待ちサンプル画像を含む、ステップと、前記サンプル画像を訓練待ち追跡測位ニューラルネットワークに入力し、前記訓練待ち追跡測位ニューラルネットワークにより、入力されたサンプル画像に対して処理を行い、前記ターゲット対象の、前記追跡待ちサンプル画像における検出枠を予測するステップと、前記追跡待ちサンプル画像におけるラベリングされた検出枠と前記追跡待ちサンプル画像における予測された検出枠に基づいて、前記訓練待ち追跡測位ニューラルネットワークのネットワークパラメータを調整するステップと、を含む、前記追跡測位ニューラルネットワークの訓練ステップを更に含む。
可能な実現形態において、前記追跡待ちサンプル画像における測位待ち領域の測位位置情報は、前記追跡待ちサンプル画像における予測された検出枠の位置情報として取得され、前記追跡待ちサンプル画像におけるラベリングされた検出枠と前記追跡待ちサンプル画像における予測された検出枠に基づいて、前記訓練待ち追跡測位ニューラルネットワークのネットワークパラメータを調整するステップは、前記追跡待ちサンプル画像における予測された検出枠のサイズ情報、前記追跡待ちサンプル画像中の検索領域における各画素点が前記追跡待ちサンプル画像における予測された検出枠内に位置する予測確率値、前記追跡待ちサンプル画像中の検索領域における各画素点と前記追跡待ちサンプル画像における予測された検出枠との予測位置関係情報、前記追跡待ちサンプル画像におけるラベリンクされた検出枠の標準サイズ情報、前記追跡待ちサンプル画像における標準検索領域における各画素点がラベリングされた検出枠中に位置するかどうかの情報、及び前記追跡待ちサンプル画像中の標準検索領域における各画素点と前記追跡待ちサンプル画像におけるラベリングされた検出枠の標準位置関係情報に基づいて、前記訓練待ち追跡測位ニューラルネットワークのネットワークパラメータを調整するステップを含む。
第2態様によれば、本願の実施例は、ターゲット追跡装置を提供する。前記装置は、
ビデオ画像を取得するように構成される画像取得モジュールと、
前記ビデオ画像のうちの基準フレーム画像の後の追跡待ち画像に対して、前記追跡待ち画像における検索領域と前記基準フレーム画像におけるターゲット画像領域との間の画像類似性特徴マップを生成するように構成される類似性特徴抽出モジュールであって、前記ターゲット画像領域内に追跡待ち対象が含まれる、類似性特徴抽出モジュールと、
前記画像類似性特徴マップに基づいて、前記検索領域における測位待ち領域の測位位置情報を決定するように構成される測位モジュールと、
前記検索領域から、前記測位待ち領域の測位位置情報が決定されたことに応答して、決定された測位待ち領域の測位位置情報に基づいて、前記追跡待ち対象の、前記検索領域を含む追跡待ち画像における検出枠を決定するように構成される追跡モジュールと、を備える。
第3態様によれば、本願の実施例は、電子機器を提供する。前記電子機器は、プロセッサと、メモリと、バスと、を備え、前記メモリは、前記プロセッサによる実行可能な機器可読命令を記憶し、電子機器が動作する場合、前記プロセッサと前記メモリがバスを介して通信し、前記プロセッサは、前記機器可読命令を実行して、上記ターゲット追跡方法のステップを実施する。
第4態様によれば、本願の実施例は、コンピュータ可読記憶媒体に、コンピュータプログラムが記憶されるコンピュータ可読記憶媒体を更に提供する。該コンピュータプログラムがプロセッサにより実行されるときに、該プロセッサに上記ターゲット追跡方法のステップを実行させる。
本願の実施例の上記装置、電子機器及びコンピュータ可読記憶媒体は、少なくとも、本願の実施例の上記方法のいずれか1つ態様又はいずれか1つの態様のいずれか1つの実施形態の技術的特徴と実質的に同一又は類似の技術的特徴を含むので、上記装置、電子機器及びコンピュータ可読記憶媒体の効果の説明については、上記方法の内容の効果の説明を参照してもよく、ここで説明を省略する。
本願の実施例によるターゲット追跡方法のフローチャートを示す。 本願の実施例による測位待ち領域の中心点の決定の概略図を示す。 本願の実施例による別のターゲット追跡方法におけるターゲット画像領域の抽出のフローチャートを示す。 本願の実施例によるまた1つのターゲット追跡方法における検索領域の抽出のフローチャートを示す。 本願の実施例によるまた1つのターゲット追跡方法における画像類似性特徴マップの生成のフローチャートを示す。 本願の実施例によるまた1つのターゲット追跡方法における画像類似性特徴マップの生成の概略図を示す。 本願の実施例によるまた1つのターゲット追跡方法における追跡測位ニューラルネットワークの訓練のフローチャートを示す。 本願の実施例によるターゲット追跡方法のフローチャートを示す。 本願の実施例によるターゲット測位のフローチャートを示す。 本願の実施例によるターゲット追跡装置の構造概略図を示す。 本願の実施例による電子機器の構造概略図を示す。
本願の実施例の技術的解決手段をより明確に説明するために、実施例に必要な図面を簡単に説明する。図面は、本願の幾つかの実施例を示すだけであるため、範囲を制限するものと見なされるべきではないことが理解されるべきである。当業者にとって、創造的労働を行うことなく、これらの図面に基づいてその他の関連する図面を得ることもできる。
本願の実施例の目的、技術的解決手段及び利点をより明確にするために、以下、本願の実施例における図面を参照しながら、本願の実施例における技術的解決手段を明瞭かつ完全に説明する。本願の実施例における図面は、説明及び記述をのみ目的とし、本願の実施例の保護範囲を限定するものではないことが理解されるべきである。なお、概略的な図面は実物の割合で描かれていないことが理解されるべきである。本願の実施例で使用されるフローチャートは、本願の実施例のいくつかの実施例に従って実施される動作を示す。フローチャートの動作は順序によって実現されず、論理的コンテキスト関係のないステップは順序を反転したり、同時に実施したりすることができることが理解されるべきである。なお、当業者は、本願の実施例の内容に従って、1つまたは複数の他の動作をフローチャートに追加してもよく、1つまたは複数の動作をフローチャートから削除してもよい。
なお、記述される実施例は、全ての実施例ではなく、ただ本出願の一部の実施例である。一般的には、ここの図面に説明されて示されている本願の実施例のコンポーネントは、様々な異なる構成で配置及び設計され得る。従って、図面で提供される本願の実施例に対する下記詳細な説明は、特許請求されている本願の範囲を限定するものではなく、本願の選択された実施例を示すためのものに過ぎない。本願の実施例に基づいて、当業者が創造的な労力なしに得られる他の実施例の全ては、本願の保護の範囲に含まれる。
説明すべきことは、本願の実施例では、後述する特徴の存在を示す用語「含む」が用いられるが、他の特徴を追加することは排除されない。
本願の実施例は、視覚的ターゲット追跡に対して、追跡プロセスにおいて予測計算の複雑さを効果的に低減させることができる方案を提供し、追跡待ち画像における検索領域と基準フレーム画像におけるターゲット画像領域(追跡待ち対象を含む)との間の画像類似性特徴マップに基づいて、追跡待ち対象の、上記追跡待ち画像における位置情報を予測し(実際の実施において、追跡待ち対象の位置する測位待ち領域の位置情報を予測する)、即ち、前記追跡待ち対象の、前記追跡待ち画像における検出枠を予測することができる。詳細な実施プロセスは、以下の実施例において詳しく説明する。
図1に示すように、本願の実施例は、ターゲット追跡方法を提供する。該方法は、追跡待ち対象に対して追跡測位を行う端末機器に用いられ、該端末機器は、ユーザ機器(User Equipment:UE)、携帯機器、ユーザ端末、端末、セルラ電話、コードレス電話、パーソナルデジタルアシスタント(Personal Digital Assistant:PDA)、ハンドヘルドデバイス、コンピューティングデバイス、車載機器、ウェアブル機器などであってもよい。いくつかの可能な実現形態において、該ターゲット追跡方法は、プロセッサによりメモリに記憶されているコンピュータ可読命令を呼び出すことで実現することができる。該方法は、以下のステップを含んでもよい。
S110において、ビデオ画像を取得する。
ここで、ビデオ画像は、追跡待ち対象に対して測位と追跡を行う必要がある画像シーケンスである。
ビデオ画像は、基準フレーム画像と少なくとも1フレームの追跡待ち画像を含む。基準フレーム画像は、追跡待ち対象を含む画像であり、ビデオ画像のうちの1フレーム目の画像であってもよく、無論、ビデオ画像のうちの他のフレームの画像であってもよい。追跡待ち画像は、それにおいて追跡待ち対象を検索し測位する必要がある画像である。基準フレーム画像における追跡待ち対象の位置とサイズ、即ち検出枠は、決定されたものである。追跡待ち画像における測位領域又は検出枠は決定されておらず、計算と予測を必要とする領域であり、測位待ち領域、又は、追跡待ち画像における検出枠とも呼ばれる。
S120において、前記ビデオ画像のうちの基準フレーム画像の後の追跡待ち画像に対して、前記追跡待ち画像における検索領域と前記基準フレーム画像におけるターゲット画像領域との間の画像類似性特徴マップを生成し、前記ターゲット画像領域内に追跡待ち対象が含まれる。
このステップを実行する前に、追跡待ち画像から、検索領域を抽出し、基準フレーム画像から、ターゲット画像領域を抽出する必要がある。ターゲット画像領域に、追跡待ち対象の検出枠が含まれる。検索領域に、測位が完了されていない測位待ち領域が含まれる。測位領域の位置は、追跡待ち対象の位置である。
検索領域とターゲット画像領域を抽出した後、検索領域とターゲット画像領域から、画像特徴をそれぞれ抽出し、続いて、検索領域に対応する画像特徴とターゲット画像領域の画像特徴に基づいて、検索領域とターゲット画像領域との画像類似性特徴を決定し、即ち、検索領域とターゲット画像領域との間の画像類似性特徴マップを決定することができる。
S130において、前記画像類似性特徴マップに基づいて、前記検索領域における測位待ち領域の測位位置情報を決定する。
ここで、前のステップにおいて生成された画像類似性特徴マップに基づいて、検索領域の特徴マップにおける各特徴画素点の確率値、及び検索領域における、各前記特徴画素点に対応する画素点と前記測位待ち領域との間の位置関係情報を予測することができる。
上記1つの特徴画素点の確率値は、前記検索領域における、該特徴画素点に対応する画素点が前記測位待ち領域内に位置する確率を表す。
上記位置関係は、追跡待ち画像中の検索領域における画素点と前記追跡待ち画像中の測位待ち領域の中心点との偏差情報であってもよい。例えば、測位待ち領域の中心点を座標中心として座標系を構築すれば、該位置関係情報は、対応する画素点の、該構築された座標系における座標情報を含む。
ここで、上記確率値に基づいて、検索領域における、確率が最も大きい測位待ち領域内に位置する画素点を決定することができる。続いて、該画素点の位置関係情報に基づいて、検索領域における測位待ち領域の測位位置情報を比較的正確に決定することができる。
上記測位位置情報は、測位待ち領域の中心点の座標などの情報を含んでもよい。実際に実施する時、検索領域における、確率が最も大きい測位待ち領域内に位置する画素点の座標情報、及び該画素点と測位待ち領域の中心点との偏差情報に基づいて、測位待ち領域の中心点の座標情報を決定することができる。
説明すべきことは、このステップにおいて、検索領域における測位待ち領域の測位位置情報を決定したが、実際の応用において、検索領域に測位待ち領域が存在する可能性があり、測位待ち領域が存在しない可能性もある。検索領域に測位待ち領域が存在しなければ、測位待ち領域の測位位置情報を決定することができず、即ち、測位待ち領域の中心点の座標などの情報を決定することができない。
S140において、前記検索領域から、前記測位待ち領域の測位位置情報が決定されたことに応答して、決定された測位待ち領域の測位位置情報に基づいて、前記追跡待ち対象の、前記検索領域を含む追跡待ち画像における検出枠を決定する。
検索領域に測位待ち領域が存在する場合、このステップでは、決定された測位待ち領域の測位位置情報に基づいて、前記追跡待ち対象の、前記検索領域を含む追跡待ち画像における検出枠を決定する。ここで、追跡待ち画像における測位待ち領域の測位位置情報を前記追跡待ち画像における予測された検出枠の位置情報としてもよい。
上記実施例において、追跡待ち画像から、検索領域を抽出し、基準フレーム画像から、ターゲット画像領域を抽出し、続いて、抽出された2つの画像領域間の画像類似性特徴マップに基づいて、追跡待ち画像における測位待ち領域の測位位置情報を予測又は決定し、即ち、前記検索領域を含む追跡待ち画像における追跡待ち対象の検出枠を決定し、検出枠の予測に関与する画素点の数を効果的に減少させる。本願の実施例は、予測の効率とリアルタイム性を向上させることができるだけでなく、予測計算の複雑さを低減させることもでき、それにより追跡待ち対象の検出枠を予測するためのニューラルネットワークのネットワークアーキテクチャを簡略化し、リアルタイム性とネットワーク構造の簡易性要件がいずれも高い移動端に、より適する。
いくつかの実施例において、前記測位待ち領域の、前記検索領域における測位位置情報を決定する前に、上記ターゲット追跡方法は、前記測位待ち領域のサイズ情報を予測することを更に含む。ここで、上記生成された画像類似性特徴マップに基づいて、検索領域における各画素点に対応する測位待ち領域のサイズ情報を予測することができる。実際に実施する時、該サイズ情報は、測位待ち領域の高さ値と幅値を含んでもよい。
検索領域における各画素点に対応する測位待ち領域のサイズ情報を決定した後、上述した、前記画像類似性特徴マップに基づいて、前記検索領域における測位待ち領域の測位位置情報を決定するプロセスは、以下のステップにより実現してもよい。
ステップ1において、前記画像類似性特徴マップに基づいて、前記検索領域の特徴マップにおける各特徴画素点の確率値を予測し、1つの特徴画素点の確率値は、前記検索領域における、該特徴画素点に対応する画素点が前記測位待ち領域内に位置する確率を表す。
ステップ2において、前記画像類似性特徴マップに基づいて、前記検索領域における、各前記特徴画素点に対応する画素点と前記測位待ち領域との間の位置関係情報を予測する。
ステップ3において、予測された確率値のうち、前記確率値が最も大きい特徴画素点に対応する前記検索領域における画素点をターゲット画素点として選択する。
ステップ4において、前記ターゲット画素点、前記ターゲット画素点と前記測位待ち領域との間の位置関係情報、及び前記測位待ち領域のサイズ情報に基づいて、前記測位待ち領域の測位位置情報を決定する。
上記ステップにおいて、検索領域における、測位待ち領域中に位置する可能性が最も高い画素点であるターゲット画素点と前記測位待ち領域の位置関係情報、及び該ターゲット画素点の、検索領域における座標情報を利用して、測位待ち領域の中心点座標を決定することができる。続いて、該ターゲット画素点に対応する測位待ち領域のサイズ情報を結び付けて、決定された検索領域における測位待ち領域の正確度を向上させることができ、即ち、追跡待ち対象に対する追跡と測位の正確度を向上させることができる。
図2に示すように、図2における極大値点は、測位待ち領域中に位置する可能性が最も高い画素点、即ち、確率値が最も大きいターゲット画素点である。極大値点の座標
Figure 2023509953000002
極大値点と前記測位待ち領域との間の位置関係情報、即ち、偏差情報
Figure 2023509953000003
に基づいて、測位待ち領域の中心点
Figure 2023509953000004
の座標を決定することができる。
Figure 2023509953000005
は、極大値点と測位待ち領域の中心点との、横軸方向での距離であり、
Figure 2023509953000006
は、極大値点と測位待ち領域の中心点との、縦軸方向での距離である。測位待ち領域の測位プロセスにおいて、下記式(1)から(5)により実現してもよい。
Figure 2023509953000007
Figure 2023509953000008
Figure 2023509953000009
Figure 2023509953000010
Figure 2023509953000011
Figure 2023509953000012
は、測位待ち領域の中心点の横座標を表し、
Figure 2023509953000013
は、測位待ち領域の中心点の縦座標を表し、
Figure 2023509953000014
は、極大値点の横座標を表し、
Figure 2023509953000015
は、極大値点の縦座標を表し、
Figure 2023509953000016
は、極大値点と測位待ち領域の中心点との、横軸方向での距離を表し、
Figure 2023509953000017
は、極大値点と測位待ち領域の中心点との、縦軸方向での距離を表し、
Figure 2023509953000018
は、測位待ち領域の測位が完了された後の幅値を表し、
Figure 2023509953000019
は、測位待ち領域の測位が完了された後の高さ値を表し、
Figure 2023509953000020
は、予測された測位待ち領域の幅値を表し、
Figure 2023509953000021
は、予測された測位待ち領域の高さ値を表し、
Figure 2023509953000022
は、測位待ち領域の測位が完了された後の位置情報を表す。
上記実施例において、検索領域とターゲット画像領域との間の画像類似性特徴マップを得た後、該画像類似性特徴マップに基づいて、検索領域から、測位待ち領域内に位置する確率値が最も大きいターゲット画素点をスクリーニングすることができ、対応する確率値が最も大きいターゲット画素点の、検索領域における座標情報、該画素点と測位待ち領域との間の位置関係情報及び該画素点に対応する測位待ち領域のサイズ情報に基づいて、測位待ち領域の測位位置情報を決定することによって、決定される測位位置情報の正確度を向上させることができる。
いくつかの実施例において、図3に示すように、以下のステップに応じて、前記基準フレーム画像から、前記ターゲット画像領域を抽出することができる。
S310において、前記追跡待ち対象の、前記基準フレーム画像における検出枠を決定する。
上記検出枠は、測位が既に完了された、追跡待ち対象を含む画像領域である。実施する時、上記検出枠は、矩形の画像枠
Figure 2023509953000023
であってもよく、
Figure 2023509953000024
は、検出枠の位置情報を表し、
Figure 2023509953000025
は、検出枠の中心点の横座標を表し、
Figure 2023509953000026
は、検出枠の中心点の縦座標を表し、
Figure 2023509953000027
は、検出枠の幅値を表し、
Figure 2023509953000028
は、検出枠の高さ値を表す。
S320において、前記基準フレーム画像における前記検出枠のサイズ情報に基づいて、前記基準フレーム画像における前記検出枠に対応する第1延伸サイズ情報を決定する。
ここで、第1延伸サイズ情報に基づいて、検出枠に対して延伸処理を行うことができ、下記式(6)で計算してもよく、即ち、検出枠の高さと検出枠の幅との平均値を第1延伸サイズ情報とする。
Figure 2023509953000029
Figure 2023509953000030
は、検出枠の、検出枠の高さで延伸されるべき長さを表し、
Figure 2023509953000031
は、検出枠の、検出枠の幅で延伸されるべき長さを表し、
Figure 2023509953000032
は、検出枠の幅値を表し、
Figure 2023509953000033
は、検出枠の高さ値を表す。
検出枠に対して延伸を行う場合、検出枠の高さ方向の両辺で、上記算出された数値の半分だけそれぞれ延伸し、検出枠の幅方向の両辺で、上記算出された数値の半分だけそれぞれ延伸してもよい。
S330において、前記第1延伸サイズ情報に基づいて、前記基準フレーム画像における前記検出枠を開始位置として周辺へ延伸し、前記ターゲット画像領域を得る。
ここで、第1延伸サイズ情報に基づいて、検出枠に対して延伸を行うことによって、ターゲット画像領域を直接的に得ることができる。無論、検出枠に対して延伸を行った後、延伸後の画像に対して更に処理を行い、ターゲット画像領域を得ることができ、又は、第1延伸サイズ情報に基づいて検出枠に対して延伸を行うことなく、第1延伸サイズ情報に基づいて、ターゲット画像領域のサイズ情報を決定し、続いて、決定されたターゲット画像領域のサイズ情報に基づいて、検出枠に対して延伸を行うことで、ターゲット画像領域を直接的に得ることができる。
追跡待ち対象の、基準フレーム画像におけるサイズと位置、即ち、追跡待ち対象の、基準フレーム画像における検出枠のサイズ情報に基づいて、検出枠に対して延伸を行うことで得られたターゲット画像領域は、追跡待ち対象を含むだけでなく、追跡待ち対象の周辺の領域も含み、それにより多くの画像内容を含むターゲット画像領域を決定することができる。
いくつかの実施例において、上述した、前記第1延伸サイズ情報に基づいて、前記基準フレーム画像における前記検出枠を開始位置として周辺へ延伸し、前記ターゲット画像領域を得ることは、
前記検出枠のサイズ情報と前記第1延伸サイズ情報に基づいて、ターゲット画像領域のサイズ情報を決定するステップと、前記検出枠の中心点とターゲット画像領域のサイズ情報に基づいて、前記検出枠を延伸した後の前記ターゲット画像領域を決定するステップと、により実現してもよい。
実施する時、下記式(7)を利用して、ターゲット画像領域のサイズ情報を決定してもよく、即ち、検出枠の幅
Figure 2023509953000034
を所定のサイズ
Figure 2023509953000035
だけ延伸し、検出枠の高さ
Figure 2023509953000036
を所定のサイズ
Figure 2023509953000037
だけ延伸し、続いて、延伸後の幅と高さに対して、算術平方根を求め、得られた結果をターゲット画像領域の幅(又は高さ)とする。つまり、ターゲット画像領域は、高さと幅が等しい正方形領域である。
Figure 2023509953000038
Figure 2023509953000039
は、ターゲット画像領域の幅値を表し、
Figure 2023509953000040
は、ターゲット画像領域の高さ値を表し、
Figure 2023509953000041
は、検出枠の、検出枠の高さで延伸されるべき長さを表し、
Figure 2023509953000042
は、検出枠の、検出枠の幅で延伸されるべき長さを表し、
Figure 2023509953000043
は、検出枠の幅値を表し、
Figure 2023509953000044
は、検出枠の高さ値を表す。
ターゲット画像領域のサイズ情報を決定した後、検出枠の中心点を中心点として、所定のサイズ情報に応じて、直接的に検出枠に対して延伸を行い、ターゲット画像領域を得ることができ、又は、検出枠の中心点を中心点として、決定されたサイズ情報に応じて、検出枠を第1延伸サイズ情報に応じて延伸した後の画像から、ターゲット画像領域を切り取ることができる。
上記実施例において、検出枠のサイズ情報と前記第1延伸サイズ情報に基づいて、検出枠に対して延伸を行う上で、延伸した画像から、正方形のターゲット画像領域を切り取ることによって、得られたターゲット画像領域に、追跡待ち対象以外の多すぎる他の画像領域を含ませない。
いくつかの実施例において、図4に示すように、以下のステップに応じて、追跡待ち画像から、検索領域を抽出してもよい。
S410において、前記ビデオ画像のうち、現在フレームの追跡待ち画像の前のフレームの追跡待ち画像における、前記追跡待ち対象の検出枠を取得する。
ここで、現在フレームの追跡待ち画像の前のフレームの追跡待ち画像における検出枠は、測位が完了した追跡待ち対象の位置する画像領域である。
S420において、前記追跡待ち対象の検出枠のサイズ情報に基づいて、前記追跡待ち対象の検出枠に対応する第2延伸サイズ情報を決定する。
ここで、検出枠のサイズ情報に基づいて、第2延伸サイズ情報を決定するアルゴリズムは、上記実施例における、第1延伸サイズ情報を決定するステップと同じである。ここで説明を省略する。
S430において、前記第2延伸サイズ情報と前記追跡待ち対象の検出枠のサイズ情報に基づいて、現在フレームの追跡待ち画像における検索領域のサイズ情報を決定する。
ここで、前記第2延伸サイズ情報と前記前のフレームの追跡待ち画像における検出枠のサイズ情報に基づいて、延伸待ち検索領域のサイズ情報を決定するステップと、前記延伸待ち検索領域のサイズ情報、前記検索領域に対応する第1所定のサイズ、及び前記ターゲット画像領域に対応する第2所定のサイズに基づいて、前記検索領域のサイズ情報を決定するステップであって、前記検索領域は、前記延伸待ち検索領域を延伸した後に得られたものである、ステップと、によって、検索領域のサイズ情報を決定してもよい。
上述した、延伸待ち検索領域のサイズ情報の計算方法は、上記実施例における前記検出枠のサイズ情報と前記第1延伸サイズ情報に基づいて、ターゲット画像領域のサイズ情報を決定する計算方法と同じである。ここで説明を省略する。
上述した、前記延伸待ち検索領域のサイズ情報、前記検索領域に対応する第1所定のサイズ、及び前記ターゲット画像領域に対応する第2所定のサイズに基づいて、前記延伸待ち検索領域を延伸した後の前記検索領域のサイズ情報を決定するステップは、下記式(8)と(9)を利用して計算してもよい。
Figure 2023509953000045
Figure 2023509953000046
Figure 2023509953000047
は、検索領域のサイズ情報を表し、
Figure 2023509953000048
は、延伸待ち検索領域のサイズ情報を表し、
Figure 2023509953000049
は、前記延伸待ち検索領域の延伸すべきサイズを表し、
Figure 2023509953000050
は、検索領域に対応する第1所定のサイズを表し、
Figure 2023509953000051
は、ターゲット画像領域に対応する第2所定のサイズを表す。ここで式(7)から分かるように、検索領域とターゲット画像領域は、いずれも、高さと幅が等しい正方形領域である。従って、ここのサイズは、対応する画像領域の高さと幅に対応する画素数である。
このステップにおいて、延伸待ち検索領域のサイズ情報、前記検索領域に対応する第1所定のサイズ、及び前記ターゲット画像領域に対応する第2所定のサイズに基づいて、検索領域に対して更なる延伸を行うことによって、検索領域を更に増大することができる。大きい検索領域は、追跡待ち対象に対する追跡測位の成功率を向上させることができる。
S440において、前記追跡待ち対象の検出枠の中心点を現在フレームの追跡待ち画像における検索領域の中心として、現在フレームの追跡待ち画像における検索領域のサイズ情報に基づいて、前記検索領域を決定する。
実施する時、前記前のフレームの追跡待ち画像における検出枠の中心点の座標を現在フレームの追跡待ち画像における初期測位領域の中心点とし、前のフレームの追跡待ち画像における検出枠のサイズ情報を現在フレームの追跡待ち画像における初期測位領域のサイズ情報として、現在フレームの追跡待ち画像における初期測位領域を決定することができる。続いて、第2延伸サイズ情報に基づいて、初期測位領域に対して延伸処理を行い、更に、上記延伸待ち検索領域のサイズ情報に応じて、延伸後の画像から、延伸待ち検索領域を切り取ることができる。続いて、上述延伸待ち検索領域の延伸後のサイズ情報に基づいて、延伸待ち検索領域に対して延伸を行った後に、検索領域を得る。
無論、前記前のフレームの追跡待ち画像における検出枠の中心点を現在フレームの追跡待ち画像における検索領域の中心点とし、算出された上述検索領域のサイズ情報に応じて、現在フレームの追跡待ち画像から、検索領域を直接的に切り取ることもできる。
前のフレームの追跡待ち画像における決定された検出枠のサイズ情報に基づいて、第2延伸サイズ情報を決定し、第2延伸サイズ情報に基づいて、現在フレームの追跡待ち画像に対して、大きい検索領域を決定することができ、大きい検索領域は、決定される測位待ち領域の測位位置情報の正確度を向上させることができ、即ち、追跡待ち対象に対する追跡測位の成功率を向上させることができる。
いくつかの実施例において、前記画像類似性特徴マップを生成する前に、上記ターゲット追跡方法は、
前記検索領域を第1所定のサイズにスケーリングし、そして、前記ターゲット画像領域を第2所定のサイズにスケーリングするステップを更に含んでもよい。
ここで、検索領域とターゲット画像領域を対応する所定のサイズに設定することで、生成される画像類似度特徴マップにおける画素点の数を制御することができ、それにより計算の複雑さを制御することができる。
いくつかの実施例において、図5に示すように、上述した、前記追跡待ち画像における検索領域と前記基準フレーム画像におけるターゲット画像領域との間の画像類似性特徴マップを生成するステップは、以下のステップにより実現してもよい。
S510において、前記検索領域における第1画像特徴マップ、及び前記ターゲット画像領域における第2画像特徴マップを生成し、前記第2画像特徴マップのサイズは、前記第1画像特徴マップのサイズよりも小さい。
ここで、深層畳み込みニューラルネットワークを利用して、検索領域における画像特徴とターゲット画像領域における画像特徴を抽出し、上記第1画像特徴マップと第2画像特徴マップをそれぞれ得ることができる。
図6において、第1画像特徴マップ61の幅値と高さ値は、いずれも8個の画素点であり、第2画像特徴マップ62の幅値と高さ値は、いずれも4個の画素点である。
S520において、前記第2画像特徴マップと前記第1画像特徴マップにおける各サブ画像特徴マップとの間の相関性特徴を決定し、前記サブ画像特徴マップと前記第2画像特徴マップのサイズが同じである。
図6に示すように、第2画像特徴マップ62を左から右へ、上から下への順番に応じて、第1画像特徴マップ61上で移動し、第2画像特徴マップ62の、第1画像特徴マップ61における各正投影領域を各サブ画像特徴マップとしてもよい。
実施する時、相関(correlation)計算を利用して、第2画像特徴マップとサブ画像特徴マップとの間の相関性特徴を決定してもよい。
S530において、決定された複数の相関性特徴に基づいて、前記画像類似性特徴マップを生成する。
図6に示すように、第2画像特徴マップと各サブ画像特徴マップとの間の相関性特徴に基づいて生成された画像類似性特徴マップ63の幅値と高さ値は、いずれも5個の画素点である。
上記画像類似性特徴マップにおいて、各画素点に対応する相関性特徴は、第1画像特徴マップにおける1つのサブ領域(即ち、サブ画像特徴マップ)と第2画像特徴マップとの画像類似性の度合いを表すことができる。該画像類似性の度合いに基づいて、検索領域における、測位待ち領域内に位置する確率が最も大きい画素点を正確にスクリーニングし、続いて、該確率値が最も大きい画素点の情報に基づいて、決定される測位待ち領域の測位位置情報の正確度を効果的に向上させることができる。
上記実施例のターゲット追跡方法において、取得されたビデオ画像に対して処理を行い、各フレームの追跡待ち画像における測位待ち領域の測位位置情報を得て、そして、前記追跡待ち対象の、前記検索領域を含む追跡待ち画像における検出枠を決定するプロセスは、追跡測位ニューラルネットワークを利用して行われてもよい。前記追跡測位ニューラルネットワークは、ターゲット対象の検出枠がラベリングされているサンプル画像により訓練されたものである。
上記ターゲット追跡方法において、追跡測位ニューラルネットワークを利用して、測位待ち領域の測位位置情報を決定し、即ち、前記追跡待ち対象の、前記検索領域を含む追跡待ち画像における検出枠を決定する。計算方法を簡略化したため、追跡測位ニューラルネットワークの構造を簡略化し、それにより移動端に部署しやすくなる。
本願の実施例は、上記追跡測位ニューラルネットワークを訓練する方法を更に提供する。図7は、以下のステップを含む。
S710において、サンプル画像を取得し、前記サンプル画像は、基準フレームサンプル画像と追跡待ちサンプル画像を含む。
サンプル画像に、基準フレームサンプル画像と少なくとも1フレームの追跡待ちサンプル画像を含む。基準フレームサンプル画像に、追跡待ち対象の、測位位置情報が決定された検出枠が含まれる。追跡待ちサンプル画像における測位待ち領域の測位位置情報が決定されておらず、追跡測位ニューラルネットワークにより予測又は決定を行う必要がある。
S720において、前記サンプル画像を訓練待ち追跡測位ニューラルネットワークに入力し、前記訓練待ち追跡測位ニューラルネットワークにより、入力されたサンプル画像に対して処理を行い、前記ターゲット対象の、前記追跡待ちサンプル画像における検出枠を予測する。
S730において、前記追跡待ちサンプル画像におけるラベリングされた検出枠と前記追跡待ちサンプル画像における予測された検出枠に基づいて、前記訓練待ち追跡測位ニューラルネットワークのネットワークパラメータを調整する。
実施する時、前記追跡待ちサンプル画像における測位待ち領域の測位位置情報を前記追跡待ちサンプル画像における予測された検出枠の位置情報とする。
上述した、前記追跡待ちサンプル画像におけるラベリングされた検出枠と前記追跡待ちサンプル画像における予測された検出枠に基づいて、前記訓練待ち追跡測位ニューラルネットワークのネットワークパラメータを調整するステップは、
前記予測された検出枠のサイズ情報、前記追跡待ちサンプル画像中の検索領域における各画素点が前記予測された検出枠内に位置する予測確率値、前記追跡待ちサンプル画像中の検索領域における各画素点と前記予測された検出枠との予測位置関係情報、前記ラベリンクされた検出枠の標準サイズ情報、前記追跡待ちサンプル画像における標準検索領域における各画素点がラベリングされた検出枠中に位置するかどうかの情報、及び前記標準検索領域における各画素点と前記ラベリングされた検出枠の標準位置関係情報に基づいて、前記訓練待ち追跡測位ニューラルネットワークのネットワークパラメータを調整するステップにより、実現してもよい。
前記標準サイズ情報、前記標準検索領域における各画素点がラベリングされた検出枠に位置するかどうかの情報、前記標準検索領域における各画素点と前記ラベリングされた検出枠との標準位置関係情報は、いずれも、前記ラベリングされた検出枠に基づいて決定されてもよい。
上記予測位置関係情報は、対応する画素点と予測された検出枠の中心点との偏差情報であり、対応する画素点と該中心点との距離の、横軸方向での成分と、対応する画素点と該中心点との距離の、横軸方向での成分と、を含んでもよい。
上記画素点がラベリングされた検出枠中に位置するかどうかの情報は、対象の画素点がラベリングされた検出枠内に位置する標準値Lにより決定されてもよい。
Figure 2023509953000052
Figure 2023509953000053
は、追跡待ちサンプル画像における検出枠を表し、
Figure 2023509953000054
は、検索領域における左から右へ、上から下へのi番目の位置での画素点が検出枠
Figure 2023509953000055
内に位置する標準値を表す。標準値Lpが0であれば、画素点が検出枠
Figure 2023509953000056
外に位置することを表し、標準値Lpが1であれば、画素点が検出枠
Figure 2023509953000057
内に位置することを表す。
実施する時、クロスエントロピー損失関数を用いて、
Figure 2023509953000058
と予測確率値に対して制約を行い、サブ損失関数
Figure 2023509953000059
を構築してもよく、これは、式(11)に示すとおりである。
Figure 2023509953000060
Figure 2023509953000061
は、ラベリングされた検出枠内に属する画素点の集合を表し、
Figure 2023509953000062
は、ラベリングされた検出枠外に属する画素点の集合を表し、
Figure 2023509953000063
は、画素点iが予測された検出枠内に属する予測確率値を表し、
Figure 2023509953000064
は、画素点iが予測された検出枠外に属する予測確率値を表す。
実施する時、スムージングされたL1ノルム損失関数
Figure 2023509953000065
を用いて、標準位置関係情報と予測位置関係情報とのサブ損失関数
Figure 2023509953000066
を決定してもよい。
Figure 2023509953000067
Figure 2023509953000068
は、予測位置関係情報を表し、
Figure 2023509953000069
は、標準位置関係情報を表す。
標準位置関係情報
Figure 2023509953000070
は、画素点とラベリングされた検出枠の中心点とのリアルな偏差情報であり、画素点とラベリングされた検出枠の中心点との距離の、横軸方向での成分
Figure 2023509953000071
と、画素点とラベリングされた検出枠の中心点との距離の、横軸方向での成分
Figure 2023509953000072
と、を含んでもよい。
上記式(11)により生成されたサブ損失関数と上記式(12)により生成されたサブ損失関数に基づいて、総合的な損失関数を構築することができ、これは、下記式(13)に示すとおりである。
Figure 2023509953000073
Figure 2023509953000074
は、所定の重み係数である。
更に、上記所定の検出枠サイズ情報に基づいて、前記訓練待ち追跡測位ニューラルネットワークにおけるネットワークパラメータを調整してもよい。上記式(11)、(12)を利用して、サブ損失関数
Figure 2023509953000075
とサブ損失関数
Figure 2023509953000076
を構築してもよい。
下記式(14)を利用して、予測された検出枠のサイズ情報に関わるサブ損失関数
Figure 2023509953000077
を構築してもよい。
Figure 2023509953000078
Figure 2023509953000079
は、標準サイズ情報における幅値を表し、
Figure 2023509953000080
は、標準サイズ情報における高さ値を表し、
Figure 2023509953000081
は、検出枠の予測サイズ情報における幅値を表し、
Figure 2023509953000082
は、検出枠の予測サイズ情報における高さ値を表す。
上記
Figure 2023509953000083
という3つのサブ損失関数に基づいて、総合的な損失関数
Figure 2023509953000084
を構築することができ、これは、下記式(15)に示すとおりである。
Figure 2023509953000085
Figure 2023509953000086
は、所定の重み係数であり、
Figure 2023509953000087
は、別の所定の重み係数である。
上記実施例は、追跡測位ニューラルネットワークを訓練するプロセスにおいて、更に、予測された検出枠のサイズ情報と追跡待ちサンプル画像における検出枠の標準サイズ情報を結び付けて、損失関数を構築し、該損失関数を利用して、訓練により得られる追跡測位ニューラルネットワークの計算の正確度を更に向上させることができる。予測された確率値、位置関係情報、予測された検出枠のサイズ情報、サンプル画像の対応する標準値を利用して、損失関数を構築し、追跡測位ニューラルネットワークを訓練する。訓練の目的は、構築された損失関数の値を最も小さくすることであり、それにより訓練により得られる追跡測位ニューラルネットワークの計算の正確度の向上に有利である。
ターゲット追跡方法は、観測モデルのクラスに応じて、生成式方法と判別式方法に分けられてもよい。近年では、深層学習と関連フィルタリングを主とした判別式追跡方法は、主流となる地位を占め、ターゲット追跡技術の画期的な進展を実現させた。特に、深層学習により得られた画像特徴を基礎とした各判別式方法の追跡性能は、リードレベルを達した。深層学習方法は、大規模の画像データによりエンドツーエンド学習訓練を行うことで得られた効果的な特徴表現能力を利用して、ターゲット追跡アルゴリズムをより正確かつ迅速にする。
深層学習方法に基づくドメイン間追跡方法(MDNet)は、大量のオフライン学習及びオンライン更新ポリシーにより、ターゲットと非ターゲットに対する高精度分類器を学習により得て、後続のフレーム内の対象に対してクラス判別と枠調整を行い、追跡結果を最終的に得る。このような深層学習に完全に基づく追跡方法は、追跡精度が大きく向上したが、リアルタイム性能が低い、例えば、1秒当たりの転送フレーム数(Frames Per Second:FPS)は1である。同年に提案されたGOTURN方法は、深層畳み込みニューラルネットワークにより、隣接するフレームの画像の特徴を抽出し、1フレーム前に対するターゲット特徴の位置変動を学習することによって、後続フレームのターゲット測位操作を完了する。該方法は、一定の精度を保持すると同時に、高いリアルタイム性能、例えば、100FPSを得る。深層学習に基づく追跡方法は、速度と精度に優れているが、より深いネットワーク構造、例えば、VGG(Visual Geometry Group:コンピュータビジョングループ)、ResNetなどのネットワークによる計算の複雑さにより、精度がより高い追跡アルゴリズムは、実際の生産に応用しにくい。
任意の指定のターゲット対象の追跡について、現在の方法は、主に、フレームごとの検出、関連フィルタリング及び深層学習に基づくリアルタイム追跡アルゴリズムなどを含む。これらの方法は、リアルタイム性、精度及び構造の複雑さがいずれも不十分であり、複雑な追跡シーンと実際の移動端への応用に好適に適応できない。検出分類方式に基づく追跡方法、例えば、MDNetなどの方法は、オンライン学習を行う必要があり、リアルタイム要件を達することが困難である。関連フィルタリングと検出に基づく追跡アルゴリズムは、位置を予測した後、1フレーム前のターゲット枠の形状を微調整するが、生成された枠の精度が不十分である。領域候補枠、例えば、RPN(RegionProposal Network:領域生成ネットワーク)に基づく方法により生成される冗長な枠が多く、計算が複雑である。
本願の実施例は、高い精度を有すると同時に、アルゴリズムのリアルタイム性の点で最適化されるターゲット追跡方法を提供することが望ましい。
図8Aは、本願の実施例によるターゲット追跡方法のフローチャートである。図8に示すように、前記ターゲット追跡方法は、以下のステップを含む。
ステップS810において、ターゲット画像領域と検索領域に対して特徴抽出を行う。
本願の実施例において、追跡されるターゲット画像領域は、初期フレーム(1フレーム目)においてターゲット枠の形式で提供される。検索領域は、1フレーム前のターゲットの追跡位置と大きさに基づいて、一定の空間領域を拡張することで得られた。切り取られたターゲット領域と検索領域を所定の異なるサイズだけスケーリングした後、同一の予め訓練された深層畳み込みニューラルネットワークにより、両者のそれぞれの画像特徴を抽出する。つまり、ターゲットの位置する画像と追跡待ち画像を入力とし、畳み込みニューラルネットワークにより、ターゲット対象領域の特徴と検索領域の特徴を出力する。以下、これらの操作を説明する。
まず、ターゲット画像領域を取得する。本願の実施例において、追跡される対象は、ビデオデータである。一般的には、追跡される1フレーム目(初期フレーム)において、矩形枠の方式で、ターゲット領域中心の位置情報、例えば、
Figure 2023509953000088
を提供し、該ターゲット領域中心の所在位置を中心位置とし、ターゲット長さと幅に応じて、
Figure 2023509953000089
を充填した後、面積が不変のままである正方形領域
Figure 2023509953000090
を切り取り、ターゲット画像領域を得る。
次に、検索領域を取得する。1フレーム前の追跡結果
Figure 2023509953000091
(初期フレームは、提供されたターゲット枠
Figure 2023509953000092
である)に基づいて、現在フレームの
Figure 2023509953000093
において、
Figure 2023509953000094
の位置を中心とし、ターゲット画像領域と同様な処により、正方形領域
Figure 2023509953000095
を得る。ターゲット対象を可能な限り含むために、該正方形領域を基礎として、より大きい内容情報領域を追加し、検索領域を得る。
続いて、取得された画像をスケーリングし、入力画像を得る。本願の実施例において、辺長が
Figure 2023509953000096
画素のである画像を検索領域の入力として用い、
Figure 2023509953000097
の画像をターゲット画像領域の入力として用いる。検索領域
Figure 2023509953000098
を所定のサイズ
Figure 2023509953000099
にスケーリングし、ターゲット画像領域
Figure 2023509953000100
を所定のサイズ
Figure 2023509953000101
にスケーリングする。
最後に、特徴抽出を行う。深層畳み込みニューラルネットワークを用いて、スケーリングされた入力画像に対してそれぞれ特徴抽出を行い、ターゲット特徴
Figure 2023509953000102
と検索領域の特徴
Figure 2023509953000103
を得る。
ステップS820において、検索領域の類似度特徴を計算する。
ターゲット特徴
Figure 2023509953000104
と検索領域特徴
Figure 2023509953000105
を入力し、図6に示すように、
Figure 2023509953000106
をスライディングウィンドウの方式により
Figure 2023509953000107
上で移動し、検索サブ領域(大きさがターゲット特徴と同じであるサブ領域)とターゲット特徴に対して相関計算を行う。最後に、検索領域の類似度特徴
Figure 2023509953000108
を得る。
ステップS830において、ターゲットを測位する。
該プロセスにおいて、類似度測定特徴
Figure 2023509953000109
を入力とし、最後にターゲット点分類結果
Figure 2023509953000110
偏差回帰結果
Figure 2023509953000111
及びターゲットワークの長さと幅結果
Figure 2023509953000112
を出力する。
ターゲット測位のプロセスは、図8Bに示すとおりである。類似度測定特徴81をターゲット点分類分岐82に送り込み、ターゲット点分類結果83を得て、ターゲット点分類結果83により、各点に対応する検索領域が検索待ちターゲット領域であるかどうかを予測する。類似度測定特徴81を回帰分岐84に送り込み、ターゲット点の偏差回帰結果85とターゲット枠の長さと幅の回帰結果86を得る。偏差回帰結果85により、ターゲット点からターゲット中心点への偏差を予測する。長さと幅の回帰結果86により、ターゲット枠の長さと幅に対して予測を行う。最後に、類似度が最も高いターゲット点位置情報と偏差情報を結び付けて、ターゲット中心点位置を得て、更に、ターゲット枠の長さと幅の予測結果に基づいて、該位置の最終的なターゲット枠結果を得る。以下、アルゴリズム訓練と測位という2つのプロセスをそれぞれ説明する。
アルゴリズム訓練プロセス:アルゴリズムは、逆伝播の方式、エンドツーエンドの訓練特徴抽出ネットワーク、及び後続の分類と回帰分岐を用いる。特徴マップにおけるターゲット点に対応するクラスラベル
Figure 2023509953000113
は、上記式(10)により決定される。ターゲット点分類結果
Figure 2023509953000114
における各位置はいずれも1つの二分類結果を出力し、該位置がターゲット枠内に属するかどうかを判断する。アルゴリズムは、クロスエントロピー損失関数を用いて
Figure 2023509953000115
に対して制約を行い、中心点までの偏差、長さと幅により出力された損失関数に対して、
Figure 2023509953000116
計算を用いる。以上の定義された損失関数に基づいて、勾配逆伝播の計算方式により、ネットワークパラメータを訓練する。モデルの訓練が完了した後、ネットワークパラメータを定め、前処理された動作領域画像をネットワークに入力しフィードフォワードし、現在フレームのターゲット点分類結果
Figure 2023509953000117
偏差回帰結果
Figure 2023509953000118
及びターゲット枠の長さと幅の結果
Figure 2023509953000119
を予測する。
アルゴリズム測位プロセス:分類結果
Figure 2023509953000120
から、極大値点
Figure 2023509953000121
の所在位置
Figure 2023509953000122
及び該点により予測された偏差
Figure 2023509953000123
と予測された長さと幅情報
Figure 2023509953000124
を取り、続いて、式(1)から(5)を利用して新たなフレームのターゲット領域
Figure 2023509953000125
を計算する。
本願の実施例において、まず、追跡待ち画像における検索領域と基準フレーム画像におけるターゲット画像領域との間の画像類似性特徴マップを決定し、続いて、画像類似性特徴に基づいて、追跡待ち画像における測位待ち領域の測位位置情報を予測又は決定し、即ち、追跡待ち対象の、検索領域を含む追跡待ち画像における検出枠を決定し、追跡待ち対象の検出枠の予測に関与する画素点の数を効果的に減少させる。予測の効率とリアルタイム性を向上させることができるだけでなく、予測計算の複雑さを低減させることもでき、それにより追跡待ち対象の検出枠を予測するためのニューラルネットワークのネットワークアーキテクチャを簡略化し、リアルタイム性とネットワーク構造の簡易性要件がいずれも高い移動端に、より適する。
本願の実施例は、エンドツーエンドの訓練方式を利用して、予測ターゲットに対して十分に訓練を行い、オンライン更新を必要とせず、リアルタイム性がより高い。それと同時に、ネットワークにより、ターゲット枠の点位置、偏差及び長さと幅を直接的に予測し、計算により、最終的なターゲット枠情報を直接的に得ることができ、構造がより簡単かつ有効であり、候補枠の予測プロセスが存在せず、移動端のアルゴリズム需要に、更に適応する。そして、精度を向上させると同時に、追跡アルゴリズムのリアルタイム性を維持する。本願の実施例によるアルゴリズムを利用して、移動端と埋込み式機器の追跡アルゴリズムの応用、例えば、端末機器における顔追跡、無人機によるターゲット追跡などのシーンを行うことができる。該アルゴリズムと移動式又は埋込み式機器との組み合わせにより、人為的追跡が困難である高速動き、及び指定対象のリアルタイムなスマート追跡及び方向補正追跡タスクを実行する。
上記ターゲット追跡方法に対応して、本願の実施例は、ターゲット追跡装置を更に提供する。該装置は、ターゲット追跡を行う必要がある端末機器に用いられ、かつ該装置及びその各モジュールは、上記ターゲット追跡方法と同じである方法のステップを実行することができ、同じ又は類似の有益な効果を達することができるため、重複した部分について、説明を省略する。
図9に示すように、本願の実施例によるターゲット追跡装置は、
ビデオ画像を取得するように構成される画像取得モジュール910と、
前記ビデオ画像のうちの基準フレーム画像の後の追跡待ち画像に対して、前記追跡待ち画像における検索領域と前記基準フレーム画像におけるターゲット画像領域との間の画像類似性特徴マップを生成するように構成される類似性特徴抽出モジュール920であって、前記ターゲット画像領域内に追跡待ち対象が含まれる、類似性特徴抽出モジュール920と、
前記画像類似性特徴マップに基づいて、前記検索領域における測位待ち領域の測位位置情報を決定するように構成される測位モジュール930と、
前記検索領域から、前記測位待ち領域の測位位置情報が決定されたことに応答して、決定された測位待ち領域の測位位置情報に基づいて、前記追跡待ち対象の、前記検索領域を含む追跡待ち画像における検出枠を決定するように構成される追跡モジュール940と、を備える。
いくつかの実施例において、前記測位モジュール930は、前記画像類似性特徴マップに基づいて、前記測位待ち領域のサイズ情報を予測し、前記画像類似性特徴マップに基づいて、前記検索領域の特徴マップにおける各特徴画素点の確率値を予測し、1つの特徴画素点の確率値は、前記検索領域における、該特徴画素点に対応する画素点が前記測位待ち領域内に位置する確率を表し、前記画像類似性特徴マップに基づいて、前記検索領域における、各前記特徴画素点に対応する画素点と前記測位待ち領域との間の位置関係情報を予測し、予測された確率値のうち、前記確率値が最も大きい特徴画素点に対応する前記検索領域における画素点をターゲット画素点として選択し、前記ターゲット画素点、前記ターゲット画素点と前記測位待ち領域との間の位置関係情報、及び前記測位待ち領域のサイズ情報に基づいて、前記測位待ち領域の測位位置情報を決定するように構成される。
いくつかの実施例において、前記類似性特徴抽出モジュール920は、前記追跡待ち対象の、前記基準フレーム画像における検出枠を決定するステップと、前記基準フレーム画像における前記検出枠のサイズ情報に基づいて、前記基準フレーム画像における前記検出枠に対応する第1延伸サイズ情報を決定するステップと、前記第1延伸サイズ情報に基づいて、前記基準フレーム画像における前記検出枠を開始位置として周辺へ延伸し、前記ターゲット画像領域を得るステップと、に応じて、前記基準フレーム画像から、前記ターゲット画像領域を抽出するように構成される。
いくつかの実施例において、前記類似性特徴抽出モジュール920は、前記ビデオ画像のうち、現在フレームの追跡待ち画像の前のフレームの追跡待ち画像における、前記追跡待ち対象の検出枠を取得するステップと、前記追跡待ち対象の検出枠のサイズ情報に基づいて、前記追跡待ち対象の検出枠に対応する第2延伸サイズ情報を決定するステップと、前記第2延伸サイズ情報と前記追跡待ち対象の検出枠のサイズ情報に基づいて、現在フレームの追跡待ち画像における検索領域のサイズ情報を決定するステップと、前記追跡待ち対象の検出枠の中心点を現在フレームの追跡待ち画像における検索領域の中心として、現在フレームの追跡待ち画像における検索領域のサイズ情報に基づいて、前記検索領域を決定するステップと、に応じて、追跡待ち画像から、検索領域を抽出するように構成される。
いくつかの実施例において、前記類似性特徴抽出モジュール920は、前記検索領域を第1所定のサイズにスケーリングし、そして、前記ターゲット画像領域を第2所定のサイズにスケーリングし、前記検索領域における第1画像特徴マップ、及び前記ターゲット画像領域における第2画像特徴マップを生成し、前記第2画像特徴マップのサイズは、前記第1画像特徴マップのサイズよりも小さく、前記第2画像特徴マップと前記第1画像特徴マップにおける各サブ画像特徴マップとの間の相関性特徴を決定し、前記サブ画像特徴マップと前記第2画像特徴マップのサイズが同じであり、決定された複数の相関性特徴に基づいて、前記画像類似性特徴マップを生成するように構成される。
いくつかの実施例において、前記ターゲット追跡装置は、追跡測位ニューラルネットワークを利用して、前記追跡待ち対象の、前記検索領域を含む追跡待ち画像における検出枠を決定し、前記追跡測位ニューラルネットワークは、ターゲット対象の検出枠がラベリングされているサンプル画像により訓練されたものである。
いくつかの実施例において、前記ターゲット追跡装置は、サンプル画像を取得し、前記サンプル画像は、基準フレームサンプル画像と追跡待ちサンプル画像を含み、前記サンプル画像を訓練待ち追跡測位ニューラルネットワークに入力し、前記訓練待ち追跡測位ニューラルネットワークにより、入力されたサンプル画像に対して処理を行い、前記ターゲット対象の、前記追跡待ちサンプル画像における検出枠を予測し、前記追跡待ちサンプル画像におけるラベリングされた検出枠と前記追跡待ちサンプル画像における予測された検出枠に基づいて、前記訓練待ち追跡測位ニューラルネットワークのネットワークパラメータを調整するように構成されるモデル訓練モジュール950を更に備える。
いくつかの実施例において、前記追跡待ちサンプル画像における測位待ち領域の測位位置情報を前記追跡待ちサンプル画像における予測された検出枠の位置情報とし、前記モデル訓練モジュール950は、前記追跡待ちサンプル画像におけるラベリングされた検出枠と前記追跡待ちサンプル画像における予測された検出枠に基づいて、前記訓練待ち追跡測位ニューラルネットワークのネットワークパラメータを調整する場合、前記予測された検出枠のサイズ情報、前記追跡待ちサンプル画像中の検索領域における各画素点が前記予測された検出枠内に位置する予測確率値、前記追跡待ちサンプル画像中の検索領域における各画素点と前記予測された検出枠との予測位置関係情報、前記ラベリンクされた検出枠の標準サイズ情報、前記追跡待ちサンプル画像における標準検索領域における各画素点がラベリングされた検出枠中に位置するかどうかの情報、前記標準検索領域における各画素点と前記ラベリングされた検出枠の標準位置関係情報に基づいて、前記訓練待ち追跡測位ニューラルネットワークのネットワークパラメータを調整するように構成される。
本願の実施例の上記ターゲット追跡装置により検出枠を予測するプロセスにおいて実行される実施形態は、上記ターゲット追跡方法の記述を参照してもよく、実施プロセスは、上記と類似する。ここで説明を省略する。
本願の実施例は、電子機器を提供する。図10に示すように、プロセッサ1001と、メモリ1002と、バス1003とを備え、前記メモリ1002に、前記プロセッサ1001による実行可能な機器可読命令が記憶されており、電子機器が動作する場合、前記プロセッサ1001と前記メモリ1002とは、バス1003を介して通信する。
前記機器可読命令が前記プロセッサ1001により実行される時、ビデオ画像を取得するステップと、前記ビデオ画像のうちの基準フレーム画像の後の追跡待ち画像に対して、前記追跡待ち画像における検索領域と前記基準フレーム画像におけるターゲット画像領域との間の画像類似性特徴マップを生成するステップであって、前記ターゲット画像領域内に追跡待ち対象が含まれる、ステップと、前記画像類似性特徴マップに基づいて、前記検索領域における測位待ち領域の測位位置情報を決定するステップと、前記検索領域から、前記測位待ち領域の測位位置情報が決定されたことに応答して、決定された測位待ち領域の測位位置情報に基づいて、前記追跡待ち対象の、前記検索領域を含む追跡待ち画像における検出枠を決定するステップと、を含むターゲット追跡方法のステップを実行する。
これに加えて、機器可読命令がプロセッサ1001により実行されるとき、上記方法の一部の記述のいずれか1つの実施方法における方法内容を実行してもよい。ここで説明を省略する。
本願の実施例は、上記方法及び装置に対応するコンピュータプログラム製品を更に提供する。該コンピュータプログラム製品は、プログラムコードを記憶したコンピュータ可読記憶媒体を含み、プログラムコードに含まれる命令は、前記方法の実施例における方法を実行するために用いられてもよく、実現プロセスは、方法の実施例を参照してもよい。ここで説明を省略する。
上述の各実施例に対する記述は、各実施例間の相違点を強調する傾向があり、その同一または類似の点を相互に参照してもよい。簡潔化を図るために、ここで説明を省略する。
説明上の便宜及び簡素化を図るために、上記説明されたシステム及び装置の具体的な作動過程は、前記方法の実施例における対応した過程を参照することができ、ここで詳細な説明を省略するステップは、当業者にはっきり理解されるべきである。本発明で提供する幾つかの実施例で開示したシステム、装置及び方法は、他の方式によって実現できることを理解すべきである。以上に記載した装置の実施例はただ例示的なものであり、例えば、前記ユニットの分割はただロジック機能の分割で、実際に実現する時は他の分割方式によってもよい。また例えば、複数のユニット又はコンポーネントを組み合わせてもよく、別のシステムに組み込んでもよい。又は若干の特徴を無視してもよく、実行しなくてもよい。また、示したか或いは検討した相互間の結合又は直接的な結合又は通信接続は、幾つかの通信インタフェース、装置又はユニットによる間接的な結合又は通信接続であってもよく、電気的、機械的または他の形態であってもよい。
分離部材として説明した前記モジュールは、物理的に別個のものであってもよく、そうでなくてもよい。モジュールとして示された部材は、物理的ユニットであってもよく、そうでなくてもよい。即ち、同一の位置に位置してもよく、複数のネットワークユニットに分布してもよい。実際の需要に応じてそのうちの一部又は全てのユニットにより本実施例の方策の目的を実現することができる。
また、本願の各実施例における各機能ユニットは1つの処理ユニットに集積されてもよく、各ユニットが物理的に別個のものとして存在してもよく、2つ又は2つ以上のユニットが1つのユニットに集積されてもよい。
前記機能はソフトウェア機能ユニットの形で実現され、かつ独立した製品として販売または使用されるとき、プロセッサによる実行可能な不揮発性コンピュータ可読記憶媒体に記憶されてもよい。このような理解のもと、本願の技術的解決手段は、本質的に、又は、従来技術に対して貢献をもたらした部分又は該技術的解決手段の一部は、ソフトウェア製品の形式で具現化することができ、このようなコンピュータソフトウェア製品は、記憶媒体に記憶しても良く、また、1台のコンピュータ機器(パソコン、サーバ、又はネットワーク機器など)に、本願の各実施例に記載の方法の全部又は一部のステップを実行させるための若干の命令を含む。上述した記憶媒体は、USBメモリ、リムーバブルハードディスク、ROM、RAM、磁気ディスク、又は光ディスクなど、プログラムコードを記憶可能な各種の媒体を含む。
以上は、本願の実施例の実施形態に過ぎず、本願の実施例の保護範囲は、それに限らない。いかなる当業者が、本願に掲示される技術的範囲内に、容易に想到できる変形又は置換は、いずれも、本願の保護範囲内に含まれるべきである。そのため、本願の実施例の保護範囲は、特許請求の範囲の保護範囲を基準とすべきである。
本願の実施例において、エンドツーエンドの訓練方式を利用して、予測ターゲットに対して十分に訓練を行い、オンライン更新を必要とせず、リアルタイム性がより高い。それと同時に、追跡ネットワークにより、ターゲット枠の点位置、偏差及び長さと幅を直接的に予測することによって、最終的なターゲット枠情報を直接的に得ることができ、ネットワーク構造がより簡単かつ有効であり、候補枠の予測プロセスが存在せず、移動端のアルゴリズム需要に、更に適応する。そして、精度を向上させると同時に、追跡アルゴリズムのリアルタイム性を維持する。
本願の実施例の上記装置、電子機器及びコンピュータ可読記憶媒体は、少なくとも、本願の実施例の上記方法のいずれか1つ態様又はいずれか1つの態様のいずれか1つの実施形態の技術的特徴と実質的に同一又は類似の技術的特徴を含むので、上記装置、電子機器及びコンピュータ可読記憶媒体の効果の説明については、上記方法の内容の効果の説明を参照してもよく、ここで説明を省略する。
例えば、本願は以下の項目を提供する。
(項目1)
ターゲット追跡方法であって、
ビデオ画像を取得するステップと、
前記ビデオ画像のうちの基準フレーム画像の後の追跡待ち画像に対して、前記追跡待ち画像における検索領域と前記基準フレーム画像におけるターゲット画像領域との間の画像類似性特徴マップを生成するステップであって、前記ターゲット画像領域内に追跡待ち対象が含まれる、ステップと、
前記画像類似性特徴マップに基づいて、前記検索領域における測位待ち領域の測位位置情報を決定するステップと、
前記検索領域から、前記測位待ち領域の測位位置情報が決定されたことに応答して、決定された測位待ち領域の測位位置情報に基づいて、前記追跡待ち対象の、前記検索領域を含む追跡待ち画像における検出枠を決定するステップと、を含む、ターゲット追跡方法。
(項目2)
前記画像類似性特徴マップに基づいて、前記検索領域における測位待ち領域の測位位置情報を決定するステップは、
前記画像類似性特徴マップに基づいて、前記測位待ち領域のサイズ情報を予測するステップと、
前記画像類似性特徴マップに基づいて、前記検索領域の特徴マップにおける各特徴画素点の確率値を予測するステップであって、1つの特徴画素点の確率値は、前記検索領域における、該特徴画素点に対応する画素点が前記測位待ち領域内に位置する確率を表す、ステップと、
前記画像類似性特徴マップに基づいて、前記検索領域における、各前記特徴画素点に対応する画素点と前記測位待ち領域との間の位置関係情報を予測するステップと、
予測された確率値のうち、前記確率値が最も大きい特徴画素点に対応する前記検索領域における画素点をターゲット画素点として選択するステップと、
前記ターゲット画素点、前記ターゲット画素点と前記測位待ち領域との間の位置関係情報、及び前記測位待ち領域のサイズ情報に基づいて、前記測位待ち領域の測位位置情報を決定するステップと、を含む
項目1に記載のターゲット追跡方法。
(項目3)
前記追跡待ち対象の、前記基準フレーム画像における検出枠を決定するステップと、
前記基準フレーム画像における前記検出枠のサイズ情報に基づいて、前記基準フレーム画像における前記検出枠に対応する第1延伸サイズ情報を決定するステップと、
前記第1延伸サイズ情報に基づいて、前記基準フレーム画像における前記検出枠を開始位置として周辺へ延伸し、前記ターゲット画像領域を得るステップと、に応じて、
前記基準フレーム画像から、前記ターゲット画像領域を抽出する
項目1又は2に記載のターゲット追跡方法。
(項目4)
前記ビデオ画像のうち、現在フレームの追跡待ち画像の前のフレームの追跡待ち画像における、前記追跡待ち対象の検出枠を取得するステップと、
前記追跡待ち対象の検出枠のサイズ情報に基づいて、前記追跡待ち対象の検出枠に対応する第2延伸サイズ情報を決定するステップと、
前記第2延伸サイズ情報と前記追跡待ち対象の検出枠のサイズ情報に基づいて、現在フレームの追跡待ち画像における検索領域のサイズ情報を決定するステップと、
前記追跡待ち対象の検出枠の中心点を現在フレームの追跡待ち画像における検索領域の中心として、現在フレームの追跡待ち画像における検索領域のサイズ情報に基づいて、前記検索領域を決定するステップと、に応じて、
追跡待ち画像から、検索領域を抽出する
項目1又は2に記載のターゲット追跡方法。
(項目5)
前記追跡待ち画像における検索領域と前記基準フレーム画像におけるターゲット画像領域との間の画像類似性特徴マップを生成するステップは、
前記検索領域を第1所定のサイズにスケーリングし、前記ターゲット画像領域を第2所定のサイズにスケーリングするステップと、
前記検索領域における第1画像特徴マップ、及び前記ターゲット画像領域における第2画像特徴マップを生成するステップであって、前記第2画像特徴マップのサイズは、前記第1画像特徴マップのサイズよりも小さい、ステップと、
前記第2画像特徴マップと前記第1画像特徴マップにおける各サブ画像特徴マップとの間の相関性特徴を決定するステップであって、前記サブ画像特徴マップと前記第2画像特徴マップのサイズが同じである、ステップと、
決定された複数の相関性特徴に基づいて、前記画像類似性特徴マップを生成するステップと、を含む
項目1から4のうちいずれか一項に記載のターゲット追跡方法。
(項目6)
前記ターゲット追跡方法は、追跡測位ニューラルネットワークにより実行され、前記追跡測位ニューラルネットワークは、ターゲット対象の検出枠がラベリングされているサンプル画像により訓練されたものである
項目1から5のうちいずれか一項に記載のターゲット追跡方法。
(項目7)
前記ターゲット追跡方法は、
サンプル画像を取得するステップであって、前記サンプル画像は、基準フレームサンプル画像と追跡待ちサンプル画像を含む、ステップと、
前記サンプル画像を訓練待ち追跡測位ニューラルネットワークに入力し、前記訓練待ち追跡測位ニューラルネットワークにより、入力されたサンプル画像に対して処理を行い、前記ターゲット対象の、前記追跡待ちサンプル画像における検出枠を予測するステップと、
前記追跡待ちサンプル画像におけるラベリングされた検出枠と前記追跡待ちサンプル画像における予測された検出枠に基づいて、前記訓練待ち追跡測位ニューラルネットワークのネットワークパラメータを調整するステップと、を含む、
前記追跡測位ニューラルネットワークの訓練ステップを更に含む
項目6に記載のターゲット追跡方法。
(項目8)
前記追跡待ちサンプル画像における測位待ち領域の測位位置情報は、前記追跡待ちサンプル画像における予測された検出枠の位置情報として取得され、
前記追跡待ちサンプル画像におけるラベリングされた検出枠と前記追跡待ちサンプル画像における予測された検出枠に基づいて、前記訓練待ち追跡測位ニューラルネットワークのネットワークパラメータを調整するステップは、
前記追跡待ちサンプル画像における予測された検出枠のサイズ情報、
前記追跡待ちサンプル画像中の検索領域における各画素点が前記追跡待ちサンプル画像における予測された検出枠内に位置する予測確率値、
前記追跡待ちサンプル画像中の検索領域における各画素点と前記追跡待ちサンプル画像における予測された検出枠との予測位置関係情報、
前記ラベリンクされた検出枠の標準サイズ情報、
前記追跡待ちサンプル画像における標準検索領域における各画素点がラベリングされた検出枠中に位置するかどうかの情報、及び
前記標準検索領域における各画素点と前記ラベリングされた検出枠の標準位置関係情報に基づいて、
前記訓練待ち追跡測位ニューラルネットワークのネットワークパラメータを調整するステップを含む
項目7に記載のターゲット追跡方法。
(項目9)
ターゲット追跡装置であって、
ビデオ画像を取得するように構成される画像取得モジュールと、
前記ビデオ画像のうちの基準フレーム画像の後の追跡待ち画像に対して、前記追跡待ち画像における検索領域と前記基準フレーム画像におけるターゲット画像領域との間の画像類似性特徴マップを生成するように構成される類似性特徴抽出モジュールであって、前記ターゲット画像領域内に追跡待ち対象が含まれる、類似性特徴抽出モジュールと、
前記画像類似性特徴マップに基づいて、前記検索領域における測位待ち領域の測位位置情報を決定するように構成される測位モジュールと、
前記検索領域から、前記測位待ち領域の測位位置情報が決定されたことに応答して、決定された測位待ち領域の測位位置情報に基づいて、前記追跡待ち対象の、前記検索領域を含む追跡待ち画像における検出枠を決定するように構成される追跡モジュールと、を備える、ターゲット追跡装置。
(項目10)
前記測位モジュールは、
前記画像類似性特徴マップに基づいて、前記測位待ち領域のサイズ情報を予測し、
前記画像類似性特徴マップに基づいて、前記検索領域の特徴マップにおける各特徴画素点の確率値を予測し、1つの特徴画素点の確率値は、前記検索領域における、該特徴画素点に対応する画素点が前記測位待ち領域内に位置する確率を表し、
前記画像類似性特徴マップに基づいて、前記検索領域における、各前記特徴画素点に対応する画素点と前記測位待ち領域との間の位置関係情報を予測し、
予測された確率値のうち、前記確率値が最も大きい特徴画素点に対応する前記検索領域における画素点をターゲット画素点として選択し、
前記ターゲット画素点、前記ターゲット画素点と前記測位待ち領域との間の位置関係情報、及び前記測位待ち領域のサイズ情報に基づいて、前記測位待ち領域の測位位置情報を決定するように構成される
項目9に記載のターゲット追跡装置。
(項目11)
前記類似性特徴抽出モジュールは、
前記追跡待ち対象の、前記基準フレーム画像における検出枠を決定するステップと、
前記基準フレーム画像における前記検出枠のサイズ情報に基づいて、前記基準フレーム画像における前記検出枠に対応する第1延伸サイズ情報を決定するステップと、
前記第1延伸サイズ情報に基づいて、前記基準フレーム画像における前記検出枠を開始位置として周辺へ延伸し、前記ターゲット画像領域を得るステップと、に応じて、
前記基準フレーム画像から、前記ターゲット画像領域を抽出するように構成される
項目9又は10に記載のターゲット追跡装置。
(項目12)
前記類似性特徴抽出モジュールは、
前記ビデオ画像のうち、現在フレームの追跡待ち画像の前のフレームの追跡待ち画像における、前記追跡待ち対象の検出枠を取得するステップと、
前記追跡待ち対象の検出枠のサイズ情報に基づいて、前記追跡待ち対象の検出枠に対応する第2延伸サイズ情報を決定するステップと、
前記第2延伸サイズ情報と前記追跡待ち対象の検出枠のサイズ情報に基づいて、現在フレームの追跡待ち画像における検索領域のサイズ情報を決定するステップと、
前記追跡待ち対象の検出枠の中心点を現在フレームの追跡待ち画像における検索領域の中心として、現在フレームの追跡待ち画像における検索領域のサイズ情報に基づいて、前記検索領域を決定するステップと、に応じて、
追跡待ち画像から、検索領域を抽出するように構成される
項目9又は10に記載のターゲット追跡装置。
(項目13)
前記類似性特徴抽出モジュールは、
前記検索領域を第1所定のサイズにスケーリングし、前記ターゲット画像領域を第2所定のサイズにスケーリングし、
前記検索領域における第1画像特徴マップ、及び前記ターゲット画像領域における第2画像特徴マップを生成し、前記第2画像特徴マップのサイズは、前記第1画像特徴マップのサイズよりも小さく、
前記第2画像特徴マップと前記第1画像特徴マップにおける各サブ画像特徴マップとの間の相関性特徴を決定し、前記サブ画像特徴マップと前記第2画像特徴マップのサイズが同じであり、
決定された複数の相関性特徴に基づいて、前記画像類似性特徴マップを生成するように構成される
項目9から12のうちいずれか一項に記載のターゲット追跡装置。
(項目14)
前記ターゲット追跡装置は、追跡測位ニューラルネットワークを利用して、前記追跡待ち対象の、前記検索領域を含む追跡待ち画像における検出枠を決定し、前記追跡測位ニューラルネットワークは、ターゲット対象の検出枠がラベリングされているサンプル画像により訓練されたものである
項目9から13のうちいずれか一項に記載のターゲット追跡装置。
(項目15)
前記ターゲット追跡装置は、
サンプル画像を取得し、前記サンプル画像は、基準フレームサンプル画像と追跡待ちサンプル画像を含み、
前記サンプル画像を訓練待ち追跡測位ニューラルネットワークに入力し、前記訓練待ち追跡測位ニューラルネットワークにより、入力されたサンプル画像に対して処理を行い、前記ターゲット対象の、前記追跡待ちサンプル画像における検出枠を予測し、
前記追跡待ちサンプル画像におけるラベリングされた検出枠と前記追跡待ちサンプル画像における予測された検出枠に基づいて、前記訓練待ち追跡測位ニューラルネットワークのネットワークパラメータを調整するように構成されるモデル訓練モジュールを更に備える
項目14に記載のターゲット追跡装置。
(項目16)
前記追跡待ちサンプル画像における測位待ち領域の測位位置情報は、前記追跡待ちサンプル画像における予測された検出枠の位置情報として取得され、前記モデル訓練モジュールは、前記追跡待ちサンプル画像におけるラベリングされた検出枠と前記追跡待ちサンプル画像における予測された検出枠に基づいて、前記訓練待ち追跡測位ニューラルネットワークのネットワークパラメータを調整する場合、
前記予測された検出枠のサイズ情報、前記追跡待ちサンプル画像中の検索領域における各画素点が前記予測された検出枠内に位置する予測確率値、前記追跡待ちサンプル画像中の検索領域における各画素点と前記予測された検出枠との予測位置関係情報、前記ラベリンクされた検出枠の標準サイズ情報、前記追跡待ちサンプル画像における標準検索領域における各画素点がラベリングされた検出枠中に位置するかどうかの情報、及び前記標準検索領域における各画素点と前記ラベリングされた検出枠の標準位置関係情報に基づいて、前記訓練待ち追跡測位ニューラルネットワークのネットワークパラメータを調整するように構成される
項目15に記載のターゲット追跡装置。
(項目17)
プロセッサ、メモリ及びバスを備える電子機器であって、
前記メモリは、前記プロセッサによる実行可能な機器可読命令を記憶し、電子機器が動作する場合、前記プロセッサと前記メモリがバスを介して通信し、前記プロセスは、前記機器可読命令を実行して、項目1から8のうちいずれか一項に記載のターゲット追跡方法を実施する、電子機器。
(項目18)
コンピュータプログラムが記憶されるコンピュータ可読記憶媒体であって、
前記コンピュータプログラムがプロセッサにより実行されるときに、前記プロセッサに項目1から8のうちいずれか一項に記載のターゲット追跡方法を実行させる、コンピュータ可読記憶媒体。

Claims (18)

  1. ターゲット追跡方法であって、
    ビデオ画像を取得するステップと、
    前記ビデオ画像のうちの基準フレーム画像の後の追跡待ち画像に対して、前記追跡待ち画像における検索領域と前記基準フレーム画像におけるターゲット画像領域との間の画像類似性特徴マップを生成するステップであって、前記ターゲット画像領域内に追跡待ち対象が含まれる、ステップと、
    前記画像類似性特徴マップに基づいて、前記検索領域における測位待ち領域の測位位置情報を決定するステップと、
    前記検索領域から、前記測位待ち領域の測位位置情報が決定されたことに応答して、決定された測位待ち領域の測位位置情報に基づいて、前記追跡待ち対象の、前記検索領域を含む追跡待ち画像における検出枠を決定するステップと、を含む、ターゲット追跡方法。
  2. 前記画像類似性特徴マップに基づいて、前記検索領域における測位待ち領域の測位位置情報を決定するステップは、
    前記画像類似性特徴マップに基づいて、前記測位待ち領域のサイズ情報を予測するステップと、
    前記画像類似性特徴マップに基づいて、前記検索領域の特徴マップにおける各特徴画素点の確率値を予測するステップであって、1つの特徴画素点の確率値は、前記検索領域における、該特徴画素点に対応する画素点が前記測位待ち領域内に位置する確率を表す、ステップと、
    前記画像類似性特徴マップに基づいて、前記検索領域における、各前記特徴画素点に対応する画素点と前記測位待ち領域との間の位置関係情報を予測するステップと、
    予測された確率値のうち、前記確率値が最も大きい特徴画素点に対応する前記検索領域における画素点をターゲット画素点として選択するステップと、
    前記ターゲット画素点、前記ターゲット画素点と前記測位待ち領域との間の位置関係情報、及び前記測位待ち領域のサイズ情報に基づいて、前記測位待ち領域の測位位置情報を決定するステップと、を含む
    請求項1に記載のターゲット追跡方法。
  3. 前記追跡待ち対象の、前記基準フレーム画像における検出枠を決定するステップと、
    前記基準フレーム画像における前記検出枠のサイズ情報に基づいて、前記基準フレーム画像における前記検出枠に対応する第1延伸サイズ情報を決定するステップと、
    前記第1延伸サイズ情報に基づいて、前記基準フレーム画像における前記検出枠を開始位置として周辺へ延伸し、前記ターゲット画像領域を得るステップと、に応じて、
    前記基準フレーム画像から、前記ターゲット画像領域を抽出する
    請求項1又は2に記載のターゲット追跡方法。
  4. 前記ビデオ画像のうち、現在フレームの追跡待ち画像の前のフレームの追跡待ち画像における、前記追跡待ち対象の検出枠を取得するステップと、
    前記追跡待ち対象の検出枠のサイズ情報に基づいて、前記追跡待ち対象の検出枠に対応する第2延伸サイズ情報を決定するステップと、
    前記第2延伸サイズ情報と前記追跡待ち対象の検出枠のサイズ情報に基づいて、現在フレームの追跡待ち画像における検索領域のサイズ情報を決定するステップと、
    前記追跡待ち対象の検出枠の中心点を現在フレームの追跡待ち画像における検索領域の中心として、現在フレームの追跡待ち画像における検索領域のサイズ情報に基づいて、前記検索領域を決定するステップと、に応じて、
    追跡待ち画像から、検索領域を抽出する
    請求項1又は2に記載のターゲット追跡方法。
  5. 前記追跡待ち画像における検索領域と前記基準フレーム画像におけるターゲット画像領域との間の画像類似性特徴マップを生成するステップは、
    前記検索領域を第1所定のサイズにスケーリングし、前記ターゲット画像領域を第2所定のサイズにスケーリングするステップと、
    前記検索領域における第1画像特徴マップ、及び前記ターゲット画像領域における第2画像特徴マップを生成するステップであって、前記第2画像特徴マップのサイズは、前記第1画像特徴マップのサイズよりも小さい、ステップと、
    前記第2画像特徴マップと前記第1画像特徴マップにおける各サブ画像特徴マップとの間の相関性特徴を決定するステップであって、前記サブ画像特徴マップと前記第2画像特徴マップのサイズが同じである、ステップと、
    決定された複数の相関性特徴に基づいて、前記画像類似性特徴マップを生成するステップと、を含む
    請求項1から4のうちいずれか一項に記載のターゲット追跡方法。
  6. 前記ターゲット追跡方法は、追跡測位ニューラルネットワークにより実行され、前記追跡測位ニューラルネットワークは、ターゲット対象の検出枠がラベリングされているサンプル画像により訓練されたものである
    請求項1から5のうちいずれか一項に記載のターゲット追跡方法。
  7. 前記ターゲット追跡方法は、
    サンプル画像を取得するステップであって、前記サンプル画像は、基準フレームサンプル画像と追跡待ちサンプル画像を含む、ステップと、
    前記サンプル画像を訓練待ち追跡測位ニューラルネットワークに入力し、前記訓練待ち追跡測位ニューラルネットワークにより、入力されたサンプル画像に対して処理を行い、前記ターゲット対象の、前記追跡待ちサンプル画像における検出枠を予測するステップと、
    前記追跡待ちサンプル画像におけるラベリングされた検出枠と前記追跡待ちサンプル画像における予測された検出枠に基づいて、前記訓練待ち追跡測位ニューラルネットワークのネットワークパラメータを調整するステップと、を含む、
    前記追跡測位ニューラルネットワークの訓練ステップを更に含む
    請求項6に記載のターゲット追跡方法。
  8. 前記追跡待ちサンプル画像における測位待ち領域の測位位置情報は、前記追跡待ちサンプル画像における予測された検出枠の位置情報として取得され、
    前記追跡待ちサンプル画像におけるラベリングされた検出枠と前記追跡待ちサンプル画像における予測された検出枠に基づいて、前記訓練待ち追跡測位ニューラルネットワークのネットワークパラメータを調整するステップは、
    前記追跡待ちサンプル画像における予測された検出枠のサイズ情報、
    前記追跡待ちサンプル画像中の検索領域における各画素点が前記追跡待ちサンプル画像における予測された検出枠内に位置する予測確率値、
    前記追跡待ちサンプル画像中の検索領域における各画素点と前記追跡待ちサンプル画像における予測された検出枠との予測位置関係情報、
    前記ラベリンクされた検出枠の標準サイズ情報、
    前記追跡待ちサンプル画像における標準検索領域における各画素点がラベリングされた検出枠中に位置するかどうかの情報、及び
    前記標準検索領域における各画素点と前記ラベリングされた検出枠の標準位置関係情報に基づいて、
    前記訓練待ち追跡測位ニューラルネットワークのネットワークパラメータを調整するステップを含む
    請求項7に記載のターゲット追跡方法。
  9. ターゲット追跡装置であって、
    ビデオ画像を取得するように構成される画像取得モジュールと、
    前記ビデオ画像のうちの基準フレーム画像の後の追跡待ち画像に対して、前記追跡待ち画像における検索領域と前記基準フレーム画像におけるターゲット画像領域との間の画像類似性特徴マップを生成するように構成される類似性特徴抽出モジュールであって、前記ターゲット画像領域内に追跡待ち対象が含まれる、類似性特徴抽出モジュールと、
    前記画像類似性特徴マップに基づいて、前記検索領域における測位待ち領域の測位位置情報を決定するように構成される測位モジュールと、
    前記検索領域から、前記測位待ち領域の測位位置情報が決定されたことに応答して、決定された測位待ち領域の測位位置情報に基づいて、前記追跡待ち対象の、前記検索領域を含む追跡待ち画像における検出枠を決定するように構成される追跡モジュールと、を備える、ターゲット追跡装置。
  10. 前記測位モジュールは、
    前記画像類似性特徴マップに基づいて、前記測位待ち領域のサイズ情報を予測し、
    前記画像類似性特徴マップに基づいて、前記検索領域の特徴マップにおける各特徴画素点の確率値を予測し、1つの特徴画素点の確率値は、前記検索領域における、該特徴画素点に対応する画素点が前記測位待ち領域内に位置する確率を表し、
    前記画像類似性特徴マップに基づいて、前記検索領域における、各前記特徴画素点に対応する画素点と前記測位待ち領域との間の位置関係情報を予測し、
    予測された確率値のうち、前記確率値が最も大きい特徴画素点に対応する前記検索領域における画素点をターゲット画素点として選択し、
    前記ターゲット画素点、前記ターゲット画素点と前記測位待ち領域との間の位置関係情報、及び前記測位待ち領域のサイズ情報に基づいて、前記測位待ち領域の測位位置情報を決定するように構成される
    請求項9に記載のターゲット追跡装置。
  11. 前記類似性特徴抽出モジュールは、
    前記追跡待ち対象の、前記基準フレーム画像における検出枠を決定するステップと、
    前記基準フレーム画像における前記検出枠のサイズ情報に基づいて、前記基準フレーム画像における前記検出枠に対応する第1延伸サイズ情報を決定するステップと、
    前記第1延伸サイズ情報に基づいて、前記基準フレーム画像における前記検出枠を開始位置として周辺へ延伸し、前記ターゲット画像領域を得るステップと、に応じて、
    前記基準フレーム画像から、前記ターゲット画像領域を抽出するように構成される
    請求項9又は10に記載のターゲット追跡装置。
  12. 前記類似性特徴抽出モジュールは、
    前記ビデオ画像のうち、現在フレームの追跡待ち画像の前のフレームの追跡待ち画像における、前記追跡待ち対象の検出枠を取得するステップと、
    前記追跡待ち対象の検出枠のサイズ情報に基づいて、前記追跡待ち対象の検出枠に対応する第2延伸サイズ情報を決定するステップと、
    前記第2延伸サイズ情報と前記追跡待ち対象の検出枠のサイズ情報に基づいて、現在フレームの追跡待ち画像における検索領域のサイズ情報を決定するステップと、
    前記追跡待ち対象の検出枠の中心点を現在フレームの追跡待ち画像における検索領域の中心として、現在フレームの追跡待ち画像における検索領域のサイズ情報に基づいて、前記検索領域を決定するステップと、に応じて、
    追跡待ち画像から、検索領域を抽出するように構成される
    請求項9又は10に記載のターゲット追跡装置。
  13. 前記類似性特徴抽出モジュールは、
    前記検索領域を第1所定のサイズにスケーリングし、前記ターゲット画像領域を第2所定のサイズにスケーリングし、
    前記検索領域における第1画像特徴マップ、及び前記ターゲット画像領域における第2画像特徴マップを生成し、前記第2画像特徴マップのサイズは、前記第1画像特徴マップのサイズよりも小さく、
    前記第2画像特徴マップと前記第1画像特徴マップにおける各サブ画像特徴マップとの間の相関性特徴を決定し、前記サブ画像特徴マップと前記第2画像特徴マップのサイズが同じであり、
    決定された複数の相関性特徴に基づいて、前記画像類似性特徴マップを生成するように構成される
    請求項9から12のうちいずれか一項に記載のターゲット追跡装置。
  14. 前記ターゲット追跡装置は、追跡測位ニューラルネットワークを利用して、前記追跡待ち対象の、前記検索領域を含む追跡待ち画像における検出枠を決定し、前記追跡測位ニューラルネットワークは、ターゲット対象の検出枠がラベリングされているサンプル画像により訓練されたものである
    請求項9から13のうちいずれか一項に記載のターゲット追跡装置。
  15. 前記ターゲット追跡装置は、
    サンプル画像を取得し、前記サンプル画像は、基準フレームサンプル画像と追跡待ちサンプル画像を含み、
    前記サンプル画像を訓練待ち追跡測位ニューラルネットワークに入力し、前記訓練待ち追跡測位ニューラルネットワークにより、入力されたサンプル画像に対して処理を行い、前記ターゲット対象の、前記追跡待ちサンプル画像における検出枠を予測し、
    前記追跡待ちサンプル画像におけるラベリングされた検出枠と前記追跡待ちサンプル画像における予測された検出枠に基づいて、前記訓練待ち追跡測位ニューラルネットワークのネットワークパラメータを調整するように構成されるモデル訓練モジュールを更に備える
    請求項14に記載のターゲット追跡装置。
  16. 前記追跡待ちサンプル画像における測位待ち領域の測位位置情報は、前記追跡待ちサンプル画像における予測された検出枠の位置情報として取得され、前記モデル訓練モジュールは、前記追跡待ちサンプル画像におけるラベリングされた検出枠と前記追跡待ちサンプル画像における予測された検出枠に基づいて、前記訓練待ち追跡測位ニューラルネットワークのネットワークパラメータを調整する場合、
    前記予測された検出枠のサイズ情報、前記追跡待ちサンプル画像中の検索領域における各画素点が前記予測された検出枠内に位置する予測確率値、前記追跡待ちサンプル画像中の検索領域における各画素点と前記予測された検出枠との予測位置関係情報、前記ラベリンクされた検出枠の標準サイズ情報、前記追跡待ちサンプル画像における標準検索領域における各画素点がラベリングされた検出枠中に位置するかどうかの情報、及び前記標準検索領域における各画素点と前記ラベリングされた検出枠の標準位置関係情報に基づいて、前記訓練待ち追跡測位ニューラルネットワークのネットワークパラメータを調整するように構成される
    請求項15に記載のターゲット追跡装置。
  17. プロセッサ、メモリ及びバスを備える電子機器であって、
    前記メモリは、前記プロセッサによる実行可能な機器可読命令を記憶し、電子機器が動作する場合、前記プロセッサと前記メモリがバスを介して通信し、前記プロセスは、前記機器可読命令を実行して、請求項1から8のうちいずれか一項に記載のターゲット追跡方法を実施する、電子機器。
  18. コンピュータプログラムが記憶されるコンピュータ可読記憶媒体であって、
    前記コンピュータプログラムがプロセッサにより実行されるときに、前記プロセッサに請求項1から8のうちいずれか一項に記載のターゲット追跡方法を実行させる、コンピュータ可読記憶媒体。
JP2022541641A 2020-01-06 2020-12-11 ターゲット追跡方法、装置、電子機器及び記憶媒体 Withdrawn JP2023509953A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010011243.0 2020-01-06
CN202010011243.0A CN111242973A (zh) 2020-01-06 2020-01-06 目标跟踪方法、装置、电子设备及存储介质
PCT/CN2020/135971 WO2021139484A1 (zh) 2020-01-06 2020-12-11 目标跟踪方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
JP2023509953A true JP2023509953A (ja) 2023-03-10

Family

ID=70872351

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022541641A Withdrawn JP2023509953A (ja) 2020-01-06 2020-12-11 ターゲット追跡方法、装置、電子機器及び記憶媒体

Country Status (5)

Country Link
US (1) US20220366576A1 (ja)
JP (1) JP2023509953A (ja)
KR (1) KR20220108165A (ja)
CN (1) CN111242973A (ja)
WO (1) WO2021139484A1 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111242973A (zh) * 2020-01-06 2020-06-05 上海商汤临港智能科技有限公司 目标跟踪方法、装置、电子设备及存储介质
CN111744187B (zh) * 2020-08-10 2022-04-15 腾讯科技(深圳)有限公司 一种游戏数据处理方法、装置、计算机及可读存储介质
CN112464001B (zh) * 2020-12-11 2022-07-05 厦门四信通信科技有限公司 一种物体移动跟踪方法、装置、设备及存储介质
CN112907628A (zh) * 2021-02-09 2021-06-04 北京有竹居网络技术有限公司 视频目标追踪方法、装置、存储介质及电子设备
CN113140005B (zh) * 2021-04-29 2024-04-16 上海商汤科技开发有限公司 目标对象定位方法、装置、设备及存储介质
CN113627379A (zh) * 2021-08-19 2021-11-09 北京市商汤科技开发有限公司 一种图像处理方法、装置、设备以及存储介质
CN113450386B (zh) * 2021-08-31 2021-12-03 北京美摄网络科技有限公司 一种人脸跟踪方法和装置
CN113793364B (zh) * 2021-11-16 2022-04-15 深圳佑驾创新科技有限公司 目标跟踪方法、装置、计算机设备和存储介质
CN114554300A (zh) * 2022-02-28 2022-05-27 合肥高维数据技术有限公司 基于特定目标的视频水印嵌入方法
CN115393755A (zh) * 2022-07-11 2022-11-25 影石创新科技股份有限公司 视觉目标跟踪方法、装置、设备以及存储介质
CN116385485B (zh) * 2023-03-13 2023-11-14 腾晖科技建筑智能(深圳)有限公司 一种长条形塔吊吊物的视频跟踪方法及系统
CN116152298B (zh) * 2023-04-17 2023-08-29 中国科学技术大学 一种基于自适应局部挖掘的目标跟踪方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530894B (zh) * 2013-10-25 2016-04-20 合肥工业大学 一种基于多尺度块稀疏表示的视频目标追踪方法及其系统
CN103714554A (zh) * 2013-12-12 2014-04-09 华中科技大学 一种基于传播融合的视频跟踪方法
JP6004148B1 (ja) * 2014-12-15 2016-10-05 コニカミノルタ株式会社 画像処理装置、画像処理方法、および画像処理プログラム
CN106909885A (zh) * 2017-01-19 2017-06-30 博康智能信息技术有限公司上海分公司 一种基于目标候选的目标跟踪方法及装置
CN109145781B (zh) * 2018-08-03 2021-05-04 北京字节跳动网络技术有限公司 用于处理图像的方法和装置
CN109493367B (zh) * 2018-10-29 2020-10-30 浙江大华技术股份有限公司 一种对目标对象进行跟踪的方法和设备
CN109671103A (zh) * 2018-12-12 2019-04-23 易视腾科技股份有限公司 目标跟踪方法及装置
CN109858455B (zh) * 2019-02-18 2023-06-20 南京航空航天大学 一种针对圆形目标的分块检测尺度自适应跟踪方法
CN110176027B (zh) * 2019-05-27 2023-03-14 腾讯科技(深圳)有限公司 视频目标跟踪方法、装置、设备及存储介质
CN110363791B (zh) * 2019-06-28 2022-09-13 南京理工大学 一种融合单目标跟踪结果的在线多目标跟踪方法
CN111242973A (zh) * 2020-01-06 2020-06-05 上海商汤临港智能科技有限公司 目标跟踪方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN111242973A (zh) 2020-06-05
US20220366576A1 (en) 2022-11-17
WO2021139484A1 (zh) 2021-07-15
KR20220108165A (ko) 2022-08-02

Similar Documents

Publication Publication Date Title
JP2023509953A (ja) ターゲット追跡方法、装置、電子機器及び記憶媒体
US11450146B2 (en) Gesture recognition method, apparatus, and device
EP2864933B1 (en) Method, apparatus and computer program product for human-face features extraction
CN107369166B (zh) 一种基于多分辨率神经网络的目标跟踪方法及系统
JP7147078B2 (ja) ビデオフレームの情報ラベリング方法、装置、機器及びコンピュータプログラム
CN110998594A (zh) 检测动作的方法和系统
CN110120065B (zh) 一种基于分层卷积特征和尺度自适应核相关滤波的目标跟踪方法及系统
CN107067410B (zh) 一种基于增广样本的流形正则化相关滤波目标跟踪方法
CN111860504A (zh) 基于深度学习的视觉多目标跟踪方法及装置
CN106407978B (zh) 一种结合似物度的无约束视频中显著物体检测方法
CN112949512A (zh) 一种动态手势识别方法、手势交互方法及交互系统
CN108537825B (zh) 一种基于迁移学习回归网络的目标跟踪方法
CN115335872A (zh) 目标检测网络的训练方法、目标检测方法及装置
CN115205336A (zh) 一种基于多层感知机的特征融合目标感知跟踪方法
JP7163372B2 (ja) 目標トラッキング方法及び装置、電子機器並びに記憶媒体
CN115690545A (zh) 训练目标跟踪模型和目标跟踪的方法和装置
CN111145221A (zh) 一种基于多层深度特征提取的目标跟踪算法
CN106934818B (zh) 一种手部运动跟踪方法及系统
CN104182990B (zh) 一种实时序列图像运动目标区域获取方法
CN112634331A (zh) 一种光流预测方法及装置
JP6899986B1 (ja) オブジェクト領域特定装置、オブジェクト領域特定方法、及びオブジェクト領域特定プログラム
EP4086848A1 (en) Method and apparatus with object tracking using dynamic field of view
CN112836640B (zh) 一种单摄像头多目标行人跟踪方法
KR101373982B1 (ko) 스테레오 비전에서 탐색 영역 예측을 통한 빠른 스테레오 정합 방법 및 장치와 이를 이용한 스테레오 비전 시스템
Chen et al. Event Data Association via Robust Model Fitting for Event-based Object Tracking

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220705

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220705

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20230113