JP7125562B2 - 目標追跡方法、コンピュータプログラム、及び電子機器 - Google Patents

目標追跡方法、コンピュータプログラム、及び電子機器 Download PDF

Info

Publication number
JP7125562B2
JP7125562B2 JP2021536748A JP2021536748A JP7125562B2 JP 7125562 B2 JP7125562 B2 JP 7125562B2 JP 2021536748 A JP2021536748 A JP 2021536748A JP 2021536748 A JP2021536748 A JP 2021536748A JP 7125562 B2 JP7125562 B2 JP 7125562B2
Authority
JP
Japan
Prior art keywords
nth
feature map
filter
input feature
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021536748A
Other languages
English (en)
Other versions
JP2022516055A (ja
Inventor
スン,チョォン
スン,ユィシュアン
ルゥ,フゥチョアン
シェン,シアオヨン
タイ,ユィウィン
ジィア,ジィアヤ
Original Assignee
テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド filed Critical テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
Publication of JP2022516055A publication Critical patent/JP2022516055A/ja
Application granted granted Critical
Publication of JP7125562B2 publication Critical patent/JP7125562B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/431Frequency domain transformation; Autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20024Filtering details
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Description

[関連出願]
本願は、2019年05月10日に提出された、出願番号が201910391497.7であり、発明の名称が「画面における目標の追跡方法、装置、記憶媒体及び電子機器」である中国特許出願の優先権を主張し、その全ての内容を引用により本願に組み込む。
[技術分野]
本願は、画像データ処理の分野に関し、特に目標追跡方法、装置、記憶媒体及び電子機器に関する。
目標追跡は、ビデオの連続したフレームにおいて、手動で指定された目標対象に対して位置決め操作を行うものである。ここ数十年、目標追跡は、自動運転、マンマシンインタラクション及び行動認識の分野で幅広く応用されているが、トレーニングデータが限られているため、目標追跡は、依然として非常に困難な作業である。
相関フィルタに基づく目標追跡アルゴリズムは、現在の目標追跡方法の一つである。巡回畳み込みによるサンプルの高速取得は、相関フィルタ(Correlation Filters)の特徴である。2015年、Danelljanらは、フィルタに正則化項を加えてエッジ情報を抑制し、目標の中心エリアを学習するようにフィルタを促し、境界効果を効果的に解決することを提案した。2017年、BACF(Learning Background-Aware Correlation Filters for Visual Tracking)アルゴリズムは、境界効果を解決するためのもう一つの実行可能な方法を提供し、実際のトレーニングサンプルを生成し、学習フィルタの認識能力を大幅に向上させた。
しかしながら、関連技術において相関フィルタに基づく目標追跡アルゴリズムにおける複雑な公式には、多数のパラメータを導入する必要があり、限られたサンプル数では、マッチング操作を実行できず、パラメータの過剰適合が発生する可能性がある。通常のプーリング操作によりパラメータ削減操作を実行する場合、サンプル数も同様に削減され、依然としてパラメータとサンプル数の不均衡という技術課題を効果的に解決することができない。
本願は、パラメータの過剰適合が発生しないだけでなく、対応する相関フィルタモデルのロバスト性を高めることができる目標追跡方法及び目標追跡装置を提供することにより、目標追跡の精度及び有効性を向上させる。
本願の実施例は、
目標ビデオの複数の連続した画面フレームを取得し、前記複数の連続した画面フレームのうちのn番目の画面フレームに対応するn番目の追跡目標エリアを設定するステップであって、nは正の整数である、ステップと、
前記n番目の追跡目標エリアに対して特徴抽出操作を行い、前記n番目の追跡目標エリアに対応する、n番目のエリア入力特徴図(特徴マップ、Feature mapとも呼ぶ)を取得するステップであって、前記n番目のエリア入力特徴図は複数の特徴チャネルを含むものであるステップと、
相関フィルタアルゴリズム及び平均プーリング制約条件に従って、前記n番目のエリア入力特徴図に対応する、n番目の重みフィルタを計算するステップであって、前記n番目の重みフィルタは、前記n番目のエリア入力特徴図における各特徴チャネルに対応するフィルタ重みを含むものであるステップと、
前記n番目の重みフィルタ、及び前記複数の連続した画面フレームのうちのn+1番目の画面フレームの入力特徴図であるn+1番目の画面フレーム入力特徴図を用いてn+1番目の出力応答を計算し、前記n+1番目の出力応答に従って前記n+1番目の画面フレームに対応するn+1番目の追跡目標エリアを特定するステップと、
全ての連続した画面フレームの追跡目標エリアを取得するまで、前記n+1番目の追跡目標エリアに対して特徴抽出を行い、前記n+1番目の追跡目標エリアに対応するn+1番目のエリア入力特徴図を取得し、前記n+1番目のエリア入力特徴図に対応するn+1番目の重みフィルタを計算するステップと、を含む目標追跡方法を提供する。
本願の実施例は、さらに、
目標ビデオの複数の連続した画面フレームを取得し、前記複数の連続した画面フレームのうちのn番目の画面フレームに対応するn番目の追跡目標エリアを設定するための追跡目標エリア設定モジュールであって、nは正の整数である、追跡目標エリア設定モジュールと、
前記n番目の追跡目標エリアに対して特徴抽出操作を行い、前記n番目の追跡目標エリアに対応する、n番目のエリア入力特徴図を取得するための特徴抽出モジュールであって、前記n番目のエリア入力特徴図は複数の特徴チャネルを含むものである特徴抽出モジュールと、
相関フィルタアルゴリズム及び平均プーリング制約条件に従って、前記n番目のエリア入力特徴図に対応する、n番目の重みフィルタを計算するための重みフィルタ計算モジュールであって、前記n番目の重みフィルタは、前記n番目のエリア入力特徴図における各特徴チャネルに対応するフィルタ重みを含むものである重みフィルタ計算モジュールと、
前記n番目の重みフィルタ、及び前記複数の連続した画面フレームのうちのn+1番目の画面フレームの入力特徴図であるn+1番目の画面フレーム入力特徴図を利用し、n+1番目の出力応答を計算し、前記n+1番目の出力応答に従って前記n+1番目の画面フレームに対応するn+1番目の追跡目標エリアを特定するための追跡目標エリア特定モジュールと、
特徴抽出操作をカウントするためのカウントモジュールと、を含む目標追跡装置を提供する。
本願に記載の目標追跡装置では、相関フィルタモデル作成ユニットは、
前記n番目の重みフィルタに対して二値化マスクを設定することによって、前記n番目の追跡目標エリア以外に対応する重みフィルタのフィルタ重みを小さくするための二値化マスク設定サブユニットを含む。
本願に記載の目標追跡装置では、相関フィルタモデル作成ユニットは、
前記n番目の重みフィルタに対して正則化重みを設定することによって、前記n番目の重みフィルタの前記n番目の追跡目標エリアの中心部分におけるフィルタ重みを大きくするための正則化重み設定サブユニットを含む。
本願の実施例は、プロセッサ実行可能な指令が記憶されており、前記指令を、1つ又は複数のプロセッサによりローディングすることで上記の目標追跡方法を実行する記憶媒体をさらに提供する。
本願の実施例は、プロセッサ及びメモリを備え、前記メモリにコンピュータプログラムが記憶されており、前記プロセッサが前記コンピュータプログラムを呼び出すことで上記の目標追跡方法を実行する電子機器をさらに提供する。
関連技術に比べて、本願の目標追跡方法、装置、記憶媒体及び電子機器は、入力特徴図の異なる特徴チャネルに対応するフィルタ重みに対して平均プーリング操作を行うことにより、アルゴリズムパラメータを削減する。また、追跡目標エリアを減らす必要がないため、入力特徴図のトレーニングサンプルの特徴の数を確保し、パラメータの過剰適合の発生を回避し、目標追跡の精度及び有効性を向上させた。さらに、目標追跡方法及び目標追跡装置においてパラメータの過剰適合や追跡精度の低下を引き起こしやすいという技術課題を効果的に解決した。
本願に係る目標追跡方法の一実施例のフローチャートである。 本願に係る目標追跡方法の一実施例のステップS103のフローチャートである。 制約条件を有する相関フィルタモデルによる画面フレームの追跡目標エリアの処理プロセスの模式図である。 本願に係る目標追跡方法の一実施例の画面フレームの特徴変化の模式図である。 本願に係る目標追跡装置の一実施例の構造模式図である。 本願に係る目標追跡装置の一実施例の重みフィルタ計算モジュールの構造模式図である。 本願に係る目標追跡装置の一実施例の重みフィルタ計算モジュールの相関フィルタモデル作成ユニットの構造模式図である。 本願に係る目標追跡方法及び目標追跡装置の目標追跡模式図である。 本願に係る目標追跡方法及び目標追跡装置の目標追跡フローチャートである。 本願に係る目標追跡装置の位置する電子機器の作業環境の構造模式図である。
図面を参照しながら説明する。図面では、同じ符号で同じ構成要素を表す。本願の原理は、適切な演算環境での実行を例として説明される。以下の説明は、例示された本願の任意の実施例に基づくものであり、本願の明細書で詳細に説明されていない他の任意の実施例を限定するものとして解釈されるべきではない。
以下の説明では、本願の任意の実施例は、特に明記しない限り、1つまたは複数のコンピュータによって実行される作業のステップ及び符号を参照して説明される。したがって、これらのステップ及び操作は、コンピュータによって実行されると何回も表現するが、構造化された形式でデータの電子信号を表すコンピュータ処理ユニットによって処理されることを含むと理解できる。このような処理は、当該データを変換するか、または、当該コンピュータのメモリシステム内の位置にテータを維持することにより、当該コンピュータの動作を再構成するか、または、本分野の技術者が熟知した方法で当該コンピュータの動作を変更することができる。当該データによって維持されたデータ構造は、当該メモリの実体位置であり、当該データのフォーマットによって定義された特定の特性を有する。しかし、本願の原理を、上記の内容で説明するが、限定する意図はない。本分野の技術者は、下記の様々なステップ及び操作がハードウェアでも実施できることを理解できる。
本願の目標追跡方法及び目標追跡装置は、任意の電子機器に配置可能であり、ビデオ画面における所定又は特定のオブジェクトに対する追跡操作を行うためのものである。当該電子機器は、ウェアラブルデバイス、ヘッドマウントデバイス、医療および健康プラットフォーム、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドデバイス又はラップトップデバイス、モバイルデバイス(例えば、携帯電話、パーソナルデジタルアシスタント(PDA)、メディアプレイヤーなど)、マルチプロセッサシステム、消費者向け電子機器、小型コンピュータ、大型コンピュータ、上記の任意のシステム又はデバイスを備える分散コンピューティング環境などを含むが、これらに限定されない。当該電子機器は、画面処理端末又は画面処理サーバであってもよい。ユーザは、当該電子機器を介してビデオの連続した画面フレームにおける所定又は特定のオブジェクトを正確に特定し、ビデオにおける所定又は特定のオブジェクトに対する高精度の有効的な追跡を実行することができる。
図1を参照されたい。図1は、本願に係る目標追跡方法の一実施例のフローチャートである。本実施例の目標追跡方法は、上記の電子機器により実施できる。本実施例の目標追跡方法は、以下のステップを含む。
ステップS101:目標ビデオの複数の連続した画面フレームを取得し、複数の連続した画面フレームのうちのn番目の画面フレームの追跡目標エリアを設定する。ただし、nは、正の整数である。
当該追跡目標エリアは、n番目の画面フレームに対応する追跡目標エリアであるため、当該追跡目標エリアは、n番目の追跡目標エリアとすることができる。
ステップS102:n番目の画面フレームの追跡目標エリアに対して特徴抽出操作を行い、複数の特徴チャネルを含む追跡目標エリアの入力特徴図を取得する。
当該追跡目標エリアは、n番目の追跡目標エリアであり、当該入力特徴図は当該n番目の追跡目標エリアに対応する入力特徴図であり、当該入力特徴図は、追跡目標エリアの特徴を示すため、当該入力特徴図は、n番目のエリア入力特徴図とすることができる。
ステップS103:相関フィルタアルゴリズム及び平均プーリング制約条件に従って、追跡目標エリアの入力特徴図に対応し、入力特徴図における各特徴チャネルに対応するフィルタ重みを含む重みフィルタを計算する。
当該入力特徴図は、n番目のエリア入力特徴図であり、当該重みフィルタは、当該n番目のエリア入力特徴図に対応する重みフィルタであるため、当該重みフィルタは、n番目の重みフィルタとすることができる。
ステップS104:重みフィルタ及び複数の連続した画面フレームのうちのn+1番目の画面フレームの入力特徴図を用いてn+1番目の画面フレームの出力応答を計算し、n+1番目の画面フレームの出力応答に従って、n+1番目の画面フレームの追跡目標エリアを特定する。
当該入力特徴図は、n+1番目の画面フレームに対応する入力特徴図であり、当該入力特徴図は、画面フレームの特徴を示すため、当該入力特徴図は、n+1番目の画面フレーム入力特徴図とすることができる。当該出力応答は、n+1番目の画面フレームに対応する出力応答であるため、当該出力応答は、n+1番目の出力応答とすることができる。
ステップS105:n+1番目の画面フレームの追跡目標エリアに対して特徴抽出を行い、n+1番目の画面フレームの追跡目標エリアの入力特徴図を取得し、全ての連続した画面フレームの追跡目標エリアを取得するまでn+1番目の画面フレームの追跡目標エリアの入力特徴図に対応する重みフィルタを計算する。
当該追跡目標エリアは、n+1番目の画面フレームに対応する追跡目標エリアであるため、当該追跡目標エリアは、n+1番目の追跡目標エリアとすることができる。当該入力特徴図は、n+1番目の追跡目標エリアに対応する入力特徴図であり、当該入力特徴図は、追跡目標エリアの特徴を示すため、当該入力特徴図は、n+1番目のエリア入力特徴図とすることができる。当該重みフィルタは、n+1番目のエリア入力特徴図に対応する重みフィルタであるため、当該重みフィルタは、n+1番目の重みフィルタとすることができる。
以下では、複数の連続した画面フレームのうちの1番目の画面フレームから処理を行う場合を例として、本実施例の目標追跡方法の各ステップの流れを詳しく説明する。
ステップS101では、電子機器(例えば、画面処理サーバ)は、目標ビデオの複数の連続した画面フレームを取得する。目標ビデオにおける特定又は所定のオブジェクトに対する追跡操作を容易に行うために、ここでは、複数の連続した画面フレームのうちの1番目の画面フレームに対応する1番目の追跡目標エリアを設定する。当該1番目の追跡目標エリアは、複数の連続した画面フレームのうちの1番目の画面フレームの追跡目標エリアである。
ここで言う1番目の追跡目標エリアとは、特定又は所定のオブジェクトの画面フレームにおける画面エリアであり、ここで言う特定又は所定のオブジェクトとは、予め設定された人、動物、乗り物又は任意の移動オブジェクトであってもよい。これによって、1番目の画面フレームにおける追跡目標エリアの特徴に従って、後続の他の画面フレーム内で対応する追跡目標エリアを見つけることができる。
ステップS102では、電子機器は、n番目の追跡目標エリアに対して特徴抽出操作を行い、n番目の追跡目標エリアに対応するn番目のエリア入力特徴図を取得する。たたし、n=1である。当該n番目の追跡目標エリアは、n番目の画面フレームの追跡目標エリアであり、n番目のエリア入力特徴図は、n番目の画面フレームの追跡目標エリアの入力特徴図である。
任意には、ここでは、n番目の追跡目標エリアをa*aサイズのグリッドエリアに分割し、その後、d種類の異なるサイズの畳み込みカーネルによって、上記のa*aサイズのグリッドエリアに対して畳み込み及びサンプリング操作を行うことで、d個の特徴チャネルを有するn番目のエリア入力特徴図を取得することができる。畳み込みカーネルのサイズは、グリッドエリアのサイズよりも小さい。
ステップS103では、電子機器は、相関フィルタアルゴリズム及び平均プーリング制約条件に従って、1番目のエリア入力特徴図に対応し、入力特徴図における各特徴チャネルに対応するフィルタ重みを含む1番目の重みフィルタを計算する。当該1番目の重みフィルタは、1番目の画面フレームの追跡目標エリアの入力特徴図に対応する重みフィルタである。
図2を参照されたい。図2は、本願に係る目標追跡方法の上記の実施例のステップS103のフローチャートである。当該ステップS103は、以下のステップを含む。
ステップS201:電子機器は、リッジ回帰判別関数に基づいて、1番目のエリア入力特徴図に対応する1番目の重みフィルタの相関フィルタモデルを作成し、プーリングエリアにおける特徴チャネルに対応するフィルタ重みが等しいことを相関フィルタモデルの制約条件とする。
任意には、電子機器は、リッジ回帰判別関数に基づいて、1番目のエリア入力特徴図に対応する1番目の重みフィルタの相関フィルタモデルを以下のように作成する。
Figure 0007125562000001
ただし、yは追跡目標エリアの予期出力応答であり、xは追跡目標エリアの特徴チャネルdの入力特徴図であり、ωは追跡目標エリアの特徴チャネルdの入力特徴図に対応するフィルタ重みであり、Dは特徴チャネルの数であり、pは追跡目標エリアの特徴チャネルdに対応する重みフィルタの二値化マスクであり、gは追跡目標エリアの特徴チャネルdに対応する重みフィルタの正則化重みである。
出力応答は、対応する重みフィルタの作用での画面フレームにおける追跡目標エリアと背景エリアのディープネットワークによって抽出された畳み込み特徴の目標応答であり、予期出力応答は、画面フレームの追跡目標エリアと背景エリアを区別できる予め設定した出力応答であり、当該予期出力応答は、ガウス分布を満たすべきであり、即ち、追跡目標エリアに近いほど、そのエリア特徴に対応する目標応答が大きくなる。
二値化マスクは、追跡目標エリア以外に対応する重みフィルタのフィルタ重みを効果的に小さくし、後続の背景エリアの追跡目標エリアの判定への影響を減らすことができる。入力特徴図に対応するエリアが追跡目標エリア以外の背景エリアであると判断される場合、二値化マスクにより相関重みフィルタのフィルタ重みを小さくする。ユーザは、自分のニーズに応じて上記の二値化マスクを使用するか否かを選択することできる。
正則化重みは、追跡目標エリアに対応する重みフィルタの追跡目標エリアの中心部分におけるフィルタ重みを効果的に大きくすることができ、即ち、追跡目標エリアの中心部分のフィルタ重みを直接増加させることができる。追跡目標エリアの中心部分の画面特徴は最も重要であるため、追跡目標エリアの中心部分のフィルタ重みを増加させることで、追跡目標エリアの認識の精度をさらに高めることができる。ユーザは、自分のニーズに応じて、上記の正則化重みを使用するか否かを選択することができる。
続いて、電子機器は、プーリングエリアにおける同じ特徴チャネルに対応するフィルタ重みが等しいことを相関フィルタモデルの制約条件として設定する。
Figure 0007125562000002
ただし、Pは、対応するプーリングエリアであり、Kは、重みが等しい等式の制約の数であり、プーリングエリアにおける入力特徴図の特徴の数がkである場合、K=C であり、i、jはプーリングエリアにおける入力特徴図に対応する位置である。
ここでのプーリングエリアは、追跡目標エリアにおける範囲のサイズの設定(例えば、2*2又は3*3のピクセルサイズの設定)であり、また、隣接プーリングエリアは、境界を共有してもよいが、隣接プーリングエリアの範囲が重ならない。これによって、プーリングエリアを迅速に設定することができ、また、相関フィルタモデルにおけるアルゴリズムパラメータを効果的に削減し、パラメータの過剰適合の発生を回避し、目標追跡の精度を向上させることができる。
上記の制約条件を有する相関フィルタモデルによる画面フレームの追跡目標エリアの処理プロセスは、図3に示される。つまり、1番目の追跡目標エリアに対して畳み込み及びサンプリングにより切り抜き操作を行い、その後、切り抜かれた特徴図における隣接エリアに対してプーリング操作を行う。即ち、プーリングエリアにおけるフィルタ重みを設定することにより、切り抜かれた隣接エリアのプーリング操作が完成し、その後、対応する1番目のエリア入力特徴図が取得される。
元の画面フレームに対してプーリング操作を直接行わない(即ち、元の画面フレームのサイズを縮小しない)ことにより、切り抜かれたサンプル数が多く、また、それぞれの切り抜かれた画面エリアの隣接エリアに対してプーリング操作を行うことで、相関フィルタモデルにおけるアルゴリズムパラメータも削減されるため、パラメータの過剰適合の発生を効果的に回避することができる。
ステップS202:電子機器は、拡張ラグランジュ乗数法により、ステップS201で取得された制約条件を有する相関フィルタモデルを変換し、エリアプーリング相関フィルタモデルを生成する。
まず、パーセバルの定理に基づいて、上記の相関フィルタモデル及び対応する制約条件をフーリエ変換し、変換後の相関フィルタモデルは、以下のとおりである。
Figure 0007125562000003
ただし、Fはフーリエ変換行列であり、F -1はフーリエ逆変化行列であり、y^は追跡目標エリアの出力応答のフーリエ係数であり、P^は追跡目標エリアの特徴チャネルdの入力特徴図に対応する二値化マスクのフーリエ係数構造のテプリッツ行列であり、ω^は追跡目標エリアの特徴チャネルdの入力特徴図に対応するフィルタ重みのフーリエ係数であり、x^は追跡目標エリアの特徴チャネルdの入力特徴図のフーリエ係数であり、G^は追跡目標エリアの特徴チャネルdの入力特徴図に対応する正則化重みのフーリエ係数構造のテプリッツ行列である。
ここで、V 及びV は、1又は0をエントリとするインデックス行列であり、ただし、
Figure 0007125562000004
上記の変換後の相関フィルタモデルは、次のように簡略化することができる。
Figure 0007125562000005
その後、電子機器は、拡張ラグランジュ乗数法により、簡略化された相関フィルタモデル及び制約条件を変換し、エリアプーリング相関フィルタモデルを生成する。エリアプーリング相関フィルタモデルは、次のとおりである。
Figure 0007125562000006
ステップS203:電子機器は、共役勾配降下法により、ステップS202で取得されたエリアプーリング相関フィルタモデルを最適化することによって、1番目のエリア入力特徴図に対応する1番目の重みフィルタを取得する。
ここで、交互方向乗数法により、エリアプーリング相関フィルタモデルにおける最適化されたラグランジュ乗数及びフィルタ重みを交互に取得する。ラグランジュ乗数が一定である場合、共役勾配降下法により、対応するフィルタ重みを計算し、即ち、上記のエリアプーリング相関フィルタモデルにおけるフィルタ重みω^に関する目標関数の勾配を計算し、勾配をゼロベクトルに設定するとき、次の線型方程式系を得ることができる。
Figure 0007125562000007
Figure 0007125562000008
Figure 0007125562000009
iは、反復回数を示す。
上記の反復最適化演算により、最終的に追跡目標エリアの入力特徴図に対応する以下の重みフィルタを取得することができる。
Figure 0007125562000010
このように、1番目のエリア入力特徴図及び追跡目標エリアの予期出力応答により、1番目の重みフィルタを計算するプロセスが完成する。
任意には、1番目のエリア入力特徴図及び予期出力応答を設定する(画面フレームにおける特定のオブジェクトを追跡目標エリアの中心として設定する)場合、電子機器は、直接、上記の相関フィルタアルゴリズム及び平均プーリング制約条件により、1番目のエリア入力特徴図及び予期出力応答を用いて1番目の重みフィルタを計算する。
なお、本実施例において、n=1である場合を例として、1番目のエリア入力特徴図及び追跡目標エリアの予期出力応答により、1番目の重みフィルタを計算するプロセスを詳細に説明した。その後、1番目の画面フレームに対応する1番目の重みフィルタにより、引き続き1番目の画面フレーム以降の複数の画面フレームを処理することができるため、n=1ではなくなり、1ずつ増加させ、例えば、n=2、3、4…とし、つまり、nは、2以上であってもよい。
そのため、その後、n番目の画面フレーム入力特徴図及びn-1番目の重みフィルタを取得し、また、nは2以上である場合、電子機器は、相関フィルタアルゴリズム及び平均プーリング制約条件に従って、n番目の画面フレーム入力特徴図及びn-1番目の重みフィルタを用いてn番目の出力応答を計算することができる。n番目の画面フレーム入力特徴図は、n番目の画面フレームの入力特徴図であり、n-1番目の重みフィルタは、n-1番目の画面フレームの追跡目標エリアの入力特徴図に対応する重みフィルタであり、n番目の出力応答は、n番目の画面フレームの出力応答である。
その後、電子機器は、n番目の出力応答により、n番目の追跡目標エリアの位置、及びn番目のエリア入力特徴図を取得する。即ち、電子機器は、出力応答が最大になる点をn番目の追跡目標エリアの中心とし、n番目のエリア入力特徴図を決定する。n番目の追跡目標エリアは、n番目の画面フレームの追跡目標エリアであり、n番目のエリア入力特徴図は、n番目の画面フレームの追跡目標エリアの入力特徴図である。
そして、電子機器は、相関フィルタアルゴリズム及び平均プーリング制約条件に従って、追跡目標エリアの予期出力応答、及びn番目のエリア入力特徴図を用いてn番目のエリア入力特徴図に対応するn番目の重みフィルタを計算することができる。当該n番目の重みフィルタは、n番目の画面フレームの追跡目標エリアの入力特徴図に対応する重みフィルタである。本ステップと上記の1番目の重みフィルタの計算プロセスとは同様である。
算出されたn番目の重みフィルタの精度をさらに高めるために、電子機器は、相関フィルタアルゴリズム及び平均プーリング制約条件に従って、追跡目標エリアの予期出力応答、n番目のエリア入力特徴図及びn番目の画面フレームの前の複数の画面フレームの追跡目標エリアの入力特徴図を用いてn番目の重みフィルタを計算することができる。
任意には、電子機器は、相関フィルタアルゴリズム及び平均プーリング制約条件に従って、追跡目標エリアの予期出力応答、n番目のエリア入力特徴図及びn番目の画面フレームの前の複数の画面フレームの追跡目標エリアの入力特徴図を用いて各画面フレームに関連するフィルタ損失関数の線形加重融合を行うことで、マルチフレームに基づく相関フィルタモデルを得る。
即ち、下記のマルチフレームに基づく相関フィルタモデルを取得する。
Figure 0007125562000011
n番目の画面フレームの前の画面フレームの数が50フレーム以下である場合、全てのn番目の画面フレームの前の画面フレームの入力特徴図を取ってn番目の画面フレームの重みフィルタの計算を行うことができる。n番目の画面フレームの前の画面フレームの数が50フレームを超える場合、n番目の画面フレームの前の画面フレームを融合し、融合された50個の画面フレームを生成し、融合された50個の画面フレームの入力特徴図により、n番目の画面フレームに対応するn番目の重みフィルタの計算を行うことができる。
n番目の画面フレームに近いほど、画面フレームに対応する重みが大きくなる。
ステップS104では、電子機器は、複数の連続した画面フレームのうちのn+1番目の画面フレームに対して特徴抽出を行うことで、n+1番目の画面フレーム入力特徴図を得る。ここでは、n+1=2である。当該n+1番目の画面フレーム入力特徴図は、n+1番目の画面フレームの入力特徴図である。
その後、電子機器は、ステップS103で取得された1番目の重みフィルタを用いて2番目の出力応答を計算し、当該2番目の出力応答は、2番目の画面フレームの入力特徴図に対応する出力応答である。また、2番目の出力応答とステップS102における出力応答とを比較し、ステップS102における出力応答(最大の出力応答)に最も近いものに対応する画面フレームエリアを2番目の追跡目標エリアとして特定し、当該2番目の追跡目標エリアは、2番目の画面フレームの追跡目標エリアである。
ステップS105では、特徴抽出操作をカウントする。ステップS102を改めて実行し、特徴抽出操作の実行回数が1回増加したため、この際に特徴抽出操作をカウントした結果、特徴抽出操作の実行回数は2回である。ステップS104において目標ビデオのすべての連続した画面フレームの追跡目標エリアを取得するまで、2番目のエリア入力特徴図に対応する2番目の重みフィルタを計算する。当該2番目のエリア入力特徴図は、2番目の画面フレームの追跡目標エリアの入力特徴図であり、当該2番目の重みフィルタは、2番目の画面フレームの追跡目標エリアの入力特徴図に対応する重みフィルタである。
こうすることで、電子機器は、すべての連続した画面フレームの追跡目標エリアにより、目標ビデオにおける所定又は特定のオブジェクトを効果的に追跡できる。
このように、本実施例の目標追跡方法による目標ビデオにおける所定又は特定のオブジェクトの追跡プロセスが完成する。
図4は、本願に係る目標追跡方法の上記の実施例の画面フレームの特徴変化の模式図である。曲線2c1は、関連技術に係る目標追跡方法の第1フレームと他の各フレームにおける同じエリアの特徴の差のL2ノルム距離の変化曲線であり、曲線2c2は、本実施例に係る目標追跡方法の第1フレームと他の各フレームにおける同じエリアの特徴の差のL2ノルム距離の変化曲線である。図4から分かるように、本実施例の目標追跡方法におけるL2ノルム距離の変化幅が小さく、即ち、同じ特徴エリアの異なる画面フレームにおける特徴の差異が小さく、これにより、目標ビデオにおける所定又は特定のオブジェクトの効果的な追跡操作をより良好に実現することができる。
本実施例の目標追跡方法は、入力特徴図の異なる特徴チャネルに対応するフィルタ重みに対して平均プーリング操作を行うことにより、アルゴリズムパラメータが削減される。また、追跡目標エリアを減らす必要がないため、入力特徴図のトレーニングサンプルの特徴の数を確保し、パラメータの過剰適合の発生を回避し、目標追跡の精度及び有効性を向上させた。
本願は、目標追跡装置をさらに提供する。図5を参照されたい。図5は、本願に係る目標追跡装置の一実施例の構造模式図である。本実施例の目標追跡装置は、上記の目標追跡方法の実施例によって実施できる。本実施例の目標追跡装置30は、追跡目標エリア設定モジュール31、特徴抽出モジュール32、重みフィルタ計算モジュール33、追跡目標エリア特定モジュール34、カウントモジュール35及びモデル設定モジュール36を含む。
追跡目標エリア設定モジュール31は、目標ビデオの複数の連続した画面フレームを取得し、複数の連続した画面フレームのうちのn番目の画面フレームの追跡目標エリアを設定するためのものであり、ただし、nは、正の整数である。特徴抽出モジュール32は、n番目の画面フレームの追跡目標エリアに対して特徴抽出操作を行い、追跡目標エリアの入力特徴図を取得するためのものである。重みフィルタ計算モジュール33は、関連するフィルタアルゴリズム及び平均プーリング制約条件に従って、n番目の画面フレームの追跡目標エリアの入力特徴図に対応する重みフィルタを計算するためのものである。追跡目標エリア特定モジュール34は、重みフィルタ及び複数の連続した画面フレームのうちのn+1番目の画面フレームの入力特徴図を用いてn+1番目の画面フレームの出力応答を計算し、n+1番目の画面フレームの出力応答によりn+1番目の画面フレームの追跡目標エリアを特定するためのものである。カウントモジュール35は、特徴抽出操作をカウントするためのものである。モデル設定モジュール36は、追跡目標エリアのプーリングエリアの範囲を設定するためのものである。
ここで、上記の方法の実施例と同じ理由により、複数の連続した画面フレームのうちのn番目の画面フレームの追跡目標エリアは、n番目の追跡目標エリアとすることができ、n番目の画面フレームの追跡目標エリアの入力特徴図は、n番目のエリア入力特徴図とすることができ、n番目の画面フレームの追跡目標エリアの入力特徴図に対応する重みフィルタは、n番目の重みフィルタとすることができる。複数の連続した画面フレームのうちのn+1番目の画面フレームの入力特徴図は、n+1番目の画面フレームの入力特徴図とすることができ、n+1番目の画面フレームの出力応答は、n+1番目の出力応答とすることができる。n+1番目の画面フレームの追跡目標エリアは、n+1番目の追跡目標エリアとすることができる。
図6を参照されたい。図6は、本願に係る目標追跡装置の一実施例の重みフィルタ計算モジュールの構造模式図である。当該重みフィルタ計算モジュール33は、相関フィルタモデル作成ユニット41、エリアプーリング相関フィルタモデル生成ユニット42及びモデル最適化ユニット43を含む。
相関フィルタモデル作成ユニット41は、リッジ回帰判別関数に基づいて、n番目のエリア入力特徴図に対応するn番目の重みフィルタの相関フィルタモデルを作成し、プーリングエリアにおける特徴チャネルに対応するフィルタ重みが等しいことを相関フィルタモデルの制約条件とするためのものである。エリアプーリング相関フィルタモデル生成ユニット42は、拡張ラグランジュ乗数法により制約条件を変換し、エリアプーリング相関フィルタモデルを生成するためのものである。モデル最適化ユニット43は、共役勾配降下法により、エリアプーリング相関フィルタモデルを最適化することによって、n番目のエリア入力特徴図に対応するn番目の重みフィルタを取得するためのものである。
図7を参照されたい。図7は、本願に係る目標追跡装置の一実施例の重みフィルタ計算モジュールの相関フィルタモデル作成ユニットの構造模式図である。当該相関フィルタモデル作成ユニット41は、二値化マスク設定サブユニット51及び正則化重み設定サブユニット52を含む。
二値化マスク設定サブユニット51は、n番目の重みフィルタに対して二値化マスクを設定し、n番目の追跡目標エリア以外に対応する重みフィルタのフィルタ重みを小さくするためのものである。正則化重み設定サブユニット52は、n番目の重みフィルタに対して正則化重みを設定し、n番目の重みフィルタのn番目の追跡目標エリアの中心部分におけるフィルタ重みを大きくするためのものである。
本実施例の目標追跡装置30は、使用時に、まず、追跡目標エリア設定モジュール31によって目標ビデオの複数の連続した画面フレームを取得する。目標ビデオにおける特定又は所定のオブジェクトを追跡するためように、ここでは、複数の連続した画面フレームのうちの1番目の画面フレームに対応する1番目の追跡目標エリアを設定する。当該1番目の追跡目標エリアは、複数の連続した画面フレームのうちの1番目の画面フレームの追跡目標エリアである。
ここで言う1番目の追跡目標エリアとは、特定又は所定のオブジェクトの画面フレームにおける画面エリアであり、ここで言う特定又は所定のオブジェクトは、予め設定された人、動物、乗り物又は任意の移動オブジェクトであってもよい。これによって、1番目の画面フレームにおける追跡目標エリアの特徴に従って、後続の他の画面フレーム内で対応する追跡目標エリアを見つけることができる。
その後、特徴抽出モジュール32は、n番目の追跡目標エリアに対して特徴抽出操作を行い、n番目の追跡目標エリアに対応するn番目のエリア入力特徴図を取得する。ここでは、n=1である。当該n番目の追跡目標エリアは、n番目の画面フレームの追跡目標エリアであり、当該n番目のエリア入力特徴図は、複数の連続した画面フレームのうちのn番目の画面フレームの追跡目標エリアの入力特徴図である。
任意には、特徴抽出モジュール32は、n番目の追跡目標エリアをa*aサイズのグリッドエリアに分割し、その後、d種類の異なるサイズの畳み込みカーネルを用いて上記のa*aサイズのグリッドエリアに対して畳み込み及びサンプリング操作を行うことで、d個の特徴チャネルを有するn番目のエリア入力特徴図を取得することができる。畳み込みカーネルのサイズは、グリッドエリアのサイズよりも小さい。
そして、重みフィルタ計算モジュール33は、相関フィルタアルゴリズム及び平均プーリング制約条件に従って、1番目のエリア入力特徴図に対応する1番目の重みフィルタを計算する。当該1番目の重みフィルタは、入力特徴図における各特徴チャネルに対応するフィルタ重みを含む。当該1番目の重みフィルタは、1番目の画面フレームの追跡目標エリアの入力特徴図に対応する重みフィルタである。
重みフィルタ計算モジュール33の相関フィルタモデル作成ユニット41は、リッジ回帰判別関数に基づいて、1番目のエリアに対応する1番目の重みフィルタの相関フィルタモデルを作成し、プーリングエリアにおける特徴チャネルに対応するフィルタ重みが等しいことを相関フィルタモデルの制約条件とするステップを含むことができる。
任意には、相関フィルタモデル作成ユニット41は、リッジ回帰判別関数に基づいて、1番目のエリア入力特徴図に対応する1番目の重みフィルタの相関フィルタモデルを以下のように作成する。
Figure 0007125562000012
ただし、yは追跡目標エリアの予期出力応答であり、xは追跡目標エリアの特徴チャネルdの入力特徴図であり、ωは追跡目標エリアの特徴チャネルdの入力特徴図に対応するフィルタ重みであり、Dは特徴チャネルの数であり、pは相関フィルタモデル作成ユニット41の二値化マスク設定サブユニット51によって設定される追跡目標エリアの特徴チャネルdの入力特徴図に対応する二値化マスクであり、gは相関フィルタモデル作成ユニット41の正則化重み設定サブユニット52によって設定される追跡目標エリアの特徴チャネルdの入力特徴図に対応する正則化重みである。
出力応答は、対応する重みフィルタの作用での画面フレームにおける追跡目標エリアと背景エリアのディープネットワークによって抽出された畳み込み特徴の目標応答であり、予期出力応答は、画面フレームの追跡目標エリアと背景エリアを区別できる予め設定した出力応答であり、当該予期出力応答は、ガウス分布を満たすべきであり、即ち、追跡目標エリアに近いほど、そのエリア特徴に対応する目標応答が大きくなる。
二値化マスクは、追跡目標エリア以外に対応する重みフィルタのフィルタ重みを効果的に小さくし、後続の背景エリアの追跡目標エリアの判定への影響を減らすことができる。入力特徴図に対応するエリアが追跡目標エリア以外の背景エリアであると判断される場合、二値化マスクにより相関重みフィルタのフィルタ重みを小さくする。ユーザは、自分のニーズに応じて上記の二値化マスクを使用するか否かを選択することができる。
正則化重みは、追跡目標エリアに対応する重みフィルタの追跡目標エリアの中心部分におけるフィルタ重みを効果的に大きくすることができ、即ち、追跡目標エリアの中心部分のフィルタ重みを直接増加させることができる。追跡目標エリアの中心部分の画面特徴は最も重要であるため、追跡目標エリアの中心部分のフィルタ重みを増加させることで、追跡目標エリアの認識の精度をさらに高めることができる。ユーザは、自分のニーズに応じて、上記の正則化重みを使用するか否かを選択することができる。
続いて、相関フィルタモデル作成ユニット41は、プーリングエリアにおける特徴チャネルに対応するフィルタ重みが等しいことを相関フィルタモデルの制約条件として設定する。
Figure 0007125562000013
ただし、Pは、対応するプーリングエリアであり、Kは、プーリングエリアにおける入力特徴図の特徴の数であり、i、jはプーリングエリアにおける入力特徴図に対応する位置である。
ここでのプーリングエリアは、モデル設定モジュール36による追跡目標エリアにおける範囲のサイズの設定(例えば、2*2又は3*3のピクセルサイズの設定)であり、また、隣接プーリングエリアは、境界を共有してもよいが、隣接プーリングエリアの範囲が重ならない。これによって、プーリングエリアを迅速に設定することができ、また、相関フィルタモデルにおけるアルゴリズムパラメータを効果的に削減し、パラメータの過剰適合の発生を回避し、目標追跡の精度を向上させることができる。
重みフィルタ計算モジュール33のエリアプーリング相関フィルタモデル生成ユニット42は、拡張ラグランジュ乗数法により、取得された制約条件を有する相関フィルタモデルを変換し、エリアプーリング相関フィルタモデルを生成する。
まず、エリアプーリング相関フィルタモデル生成ユニット42は、パーセバルの式に基づいて、上記の相関フィルタモデル及び対応する制約条件をフーリエ変換し、変換後の相関フィルタモデルは、以下のとおりである。
Figure 0007125562000014
ただし、Fはフーリエ変換行列であり、F-1 はフーリエ逆変化行列であり、y^は追跡目標エリアの出力応答のフーリエ係数であり、P^は追跡目標エリアの特徴チャネルdの入力特徴図に対応する二値化マスクのフーリエ係数構造のテプリッツ行列であり、ω^は追跡目標エリアの特徴チャネルdの入力特徴図に対応するフィルタ重みのフーリエ係数であり、x^は追跡目標エリアの特徴チャネルdの入力特徴図のフーリエ係数であり、G^は追跡目標エリアの特徴チャネルdの入力特徴図に対応する正則化重みのフーリエ係数構造のテプリッツ行列である。
ここで、V 及びV は、1又は0をエントリとするインデックス行列であり、ただし、
Figure 0007125562000015
従って、上記の変換後の相関フィルタモデルは、次のように簡略化することができる。
Figure 0007125562000016
その後、エリアプーリング相関フィルタモデル生成ユニット42は、拡張ラグランジュ乗数法により、簡略化された相関フィルタモデル及び制約条件を変換し、エリアプーリング相関フィルタモデルを生成する。エリアプーリング相関フィルタモデルは、次のとおりである。
Figure 0007125562000017
重みフィルタ計算モジュール33のモデル最適化ユニット43は、共役勾配降下法により、取得されたエリアプーリング相関フィルタモデルを最適化することによって、1番目のエリア入力特徴図に対応する1番目の重みフィルタを取得する。
ここで、交互方向乗数法により、エリアプーリング相関フィルタモデルにおける最適化されたラグランジュ乗数及びフィルタ重みを交互に取得する。ラグランジュ乗数が一定である場合、共役勾配降下法により、対応するフィルタ重みを計算し、即ち、上記のエリアプーリング相関フィルタモデルにおけるフィルタ重みに関する目標関数の勾配を計算し、勾配をゼロベクトルに設定するとき、次の線型方程式系を得ることができる。
Figure 0007125562000018
Figure 0007125562000019
Figure 0007125562000020
ただし、iは反復回数を示す。
上記の反復最適化演算により、最終的に追跡目標エリアの入力特徴図に対応する以下の重みフィルタを取得することができる。
Figure 0007125562000021
このように、1番目のエリア入力特徴図及び追跡目標エリアの予期出力応答により、1番目の重みフィルタを計算するプロセスが完成する。
任意には、1番目のエリア入力特徴図及び予期出力応答を設定する(画面フレームにおける特定のオブジェクトを追跡目標エリアの中心として設定する)場合、重みフィルタ計算モジュール33は、直接、上記の相関フィルタアルゴリズム及び平均プーリング制約条件により、1番目のエリア入力特徴図及び予期出力応答を用いて1番目の重みフィルタを計算する。
なお、本実施例において、n=1である場合を例として、1番目のエリア入力特徴図及び追跡目標エリアの予期出力応答により、1番目の重みフィルタを計算するプロセスを詳細に説明した。その後、1番目の画面フレームに対応する1番目の重みフィルタにより、引き続き1番目の画面フレーム以降の複数の画面フレームを処理することができるため、n=1ではなくなり、1ずつ増加させ、例えば、n=2、3、4…であり、つまり、nは、2以上であってもよい。
そのため、その後、n番目の画面フレーム入力特徴図及びn-1番目の重みフィルタを取得し、また、nは2以上である場合、重みフィルタ計算モジュール33は、相関フィルタアルゴリズム及び平均プーリング制約条件に従って、n番目の画面フレーム入力特徴図及びn-1番目の重みフィルタを用いてn番目の出力応答を計算することができる。n番目の画面フレーム入力特徴図は、n番目の画面フレームの入力特徴図であり、n-1番目の重みフィルタは、n-1番目の画面フレームの追跡目標エリアの入力特徴図に対応する重みフィルタであり、n番目の出力応答は、n番目の画面フレームの出力応答である。
その後、重みフィルタ計算モジュール33は、n番目の出力応答により、n番目の追跡目標エリアの位置、及びn番目のエリア入力特徴図を取得する。即ち、重みフィルタ計算モジュール33は、出力応答が最大になる点をn番目の画面フレームの追跡目標エリアの中心とし、n番目のエリア入力特徴図を決定する。n番目の追跡目標エリアは、n番目の画面フレームの追跡目標エリアであり、n番目のエリア入力特徴図は、n番目の画面フレームの追跡目標エリアの入力特徴図である。
そして、重みフィルタ計算モジュール33は、相関フィルタアルゴリズム及び平均プーリング制約条件に従って、追跡目標エリアの予期出力応答、及びn番目のエリア入力特徴図を用いてn番目のエリア入力特徴図に対応するn番目の重みフィルタを計算することができる。当該n番目の重みフィルタは、n番目の画面フレームの追跡目標エリアの入力特徴図に対応する重みフィルタである。本ステップと上記の1番目の重みフィルタの計算プロセスとは同様である。
計算されたn番目の重みフィルタの精度をさらに高めるために、重みフィルタ計算モジュール33は、相関フィルタアルゴリズム及び平均プーリング制約条件に従って、追跡目標エリアの予期出力応答、n番目のエリア入力特徴図及びn番目の画面フレームの前の複数の画面フレームの追跡目標エリアの入力特徴図を用いてn番目の重みフィルタを計算することができる。
任意には、重みフィルタ計算モジュール33は、相関フィルタアルゴリズム及び平均プーリング制約条件に従って、追跡目標エリアの予期出力応答、n番目のエリア入力特徴図及びn番目の画面フレームの前の複数の画面フレームの追跡目標エリアの入力特徴図を用いて各画面フレーム相関フィルタ損失関数の線形加重融合を行うことで、マルチフレームに基づく相関フィルタモデルを得る。
即ち、下記のマルチフレームに基づく相関フィルタモデルを取得する。
Figure 0007125562000022
μは各サンプルtの重みであり、即ち、t番目の画面フレームの重みである。
n番目の画面フレームの前の画面フレームの数が50フレーム以下である場合、全てのn番目の画面フレームの前の画面フレームの入力特徴図を取ってn番目の画面フレームの重みフィルタの計算を行うことができる。n番目の画面フレームの前の画面フレームの数が50フレームを超える場合、n番目の画面フレームの前の画面フレームを融合し、融合された50個の画面フレームを生成し、融合された50個の画面フレームの入力特徴図により、n番目の画面フレームに対応するn番目の重みフィルタの計算を行うことができる。
ここで、n番目の画面フレームに近いほど、画面フレームに対応する重みが大きくなる。
その後、追跡目標エリア特定モジュール34は、複数の連続した画面フレームのうちのn+1番目の画面フレームに対して特徴抽出を行うことで、n+1番目の画面フレーム入力特徴図を得る。ここでは、n+1=2である。当該n+1番目の画面フレーム入力特徴図は、n+1番目の画面フレームの入力特徴図である。
その後、追跡目標エリア特定モジュール34は、取得された1番目の重みフィルタを用いて2番目の出力応答を計算し、当該2番目の出力応答は、2番目の画面フレームの入力特徴図に対応する出力応答である。また、2番目の出力応答と特徴抽出モジュールの出力応答とを比較し、特徴抽出モジュールの出力応答(最大の出力応答)に最も近いものに対応する画面フレームエリアを2番目の追跡目標エリアとして特定し、当該2番目の追跡目標エリアは、2番目の画面フレームの追跡目標エリアである。
最後に、カウントモジュール35は、特徴抽出操作をカウントする。ステップS102を改めて実行し、特徴抽出操作の実行回数が1回増加したため、この際に特徴抽出操作をカウントした結果、特徴抽出操作の実行回数は2回である。重みフィルタ計算モジュール33は、追跡目標エリア特定モジュール34が目標ビデオのすべての連続した画面フレームの追跡目標エリアを取得するまで、2番目のエリア入力特徴図に対応する2番目の重みフィルタを計算する。当該2番目のエリア入力特徴図は、2番目の画面フレームの追跡目標エリアの入力特徴図であり、当該2番目の重みフィルタは、2番目の画面フレームの追跡目標エリアの入力特徴図に対応する重みフィルタである。
こうすることで、目標追跡装置30は、すべての連続した画面フレームの追跡目標エリアにより、目標ビデオにおける所定又は特定のオブジェクトを効果的に追跡できる。
このように、本実施例の目標追跡装置30による目標ビデオにおける所定又は特定のオブジェクトの追跡プロセスが完成する。
本実施例の目標追跡装置は、入力特徴図の異なる特徴チャネルに対応するフィルタ重みに対して平均プーリング操作を行うことにより、アルゴリズムパラメータが削減される。また、追跡目標エリアを減らす必要がないため、入力特徴図のトレーニングサンプルの特徴の数を確保し、パラメータの過剰適合の発生を回避し、目標追跡の精度及び有効性を向上させた。
以下では、任意の一実施例により本願に係る目標追跡方法及び目標追跡装置の具体的な動作原理を説明する。図8及び図9を参照されたい。図8は、本願に係る目標追跡方法及び目標追跡装置の目標追跡模式図であり、図9は、本願に係る目標追跡方法及び目標追跡装置の目標追跡フローチャートである。
本実施例では、カメラ61によって特定のオブジェクトの動的ビデオを取得し、そして、画面処理サーバ62によって、当該動的ビデオにおける特定のオブジェクトに対して目標追跡操作を行うことで、特定のオブジェクトの動的ビデオにおける運動軌跡を取得する。本実施例の目標追跡プロセスは、以下のステップを含む。
ステップS601:カメラ61は、特定のオブジェクトの動的ビデオを取得し、当該動的ビデオを画面処理サーバ62に送信する。
ステップS602:画面処理サーバ62は、動的ビデオを複数の連続した画面フレームに変換し、複数の連続した画面フレームのうちの1番目の画面フレームを取得する。
ステップS603:1番目の画面フレームに対応する1番目の追跡目標エリア、即ち、図8における自動車エリア601を設定する。当該1番目の追跡目標エリアは、1番目の画面フレームの追跡目標エリアである。
ステップS604:画面処理サーバ62は、1番目の追跡目標エリアに対して特徴抽出操作を行い、即ち、設定されたサイズの畳み込みカーネルにより追跡目標エリアに対して畳み込み特徴抽出操作を行い、1番目の追跡目標エリアに対応する1番目のエリア入力特徴図を取得する。当該1番目のエリア入力特徴図は、1番目の画面フレームの追跡目標エリアの入力特徴図である。
ステップS605:画面処理サーバ62は、相関フィルタアルゴリズム及び平均プーリング制約条件に従って、ステップS604で取得された1番目のエリア入力特徴図及び予期出力応答に基づいて、当該1番目のエリア入力特徴図に対応する1番目の重みフィルタを取得する。当該1番目の重みフィルタは、1番目の画面フレームの追跡目標エリアの入力特徴図に対応する重みフィルタである。
ステップS606:画面処理サーバ62は、ステップS605で取得された1番目の重みフィルタ及び後続の画面フレームの入力特徴図を用いて後続の画面フレームの出力応答を1つずつ順次に計算し、出力応答に基づいて後続の画面フレームの追跡目標エリアの入力特徴図を継続的に補正する。
その後、修正された後続の画面フレームの追跡目標エリアの入力特徴図及び予期出力応答を用いて後続の画面フレームの重みフィルタを継続的に補正する。これにより、後続の画面フレームの出力応答により、後続の画面フレームの追跡目標エリア、即ち、図8における自動車エリア602、自動車エリア603及び自動車エリア604を特定することができる。
ステップS607:画面処理サーバ62は、動的ビデオにおける全ての画面フレームの追跡目標エリアにより、対応する特定のオブジェクトの動的ビデオにおける運動軌跡を取得し、カメラ61によって特定のオブジェクトの運動軌跡を引き続き捕捉できるように、特定のオブジェクトの運動軌跡に基づいてカメラ61の後続の撮影方向を制御する。
このように、本実施例に係る目標追跡方法及び目標追跡装置の目標追跡プロセスが完成する。
本願に係る目標追跡方法及び目標追跡装置は、入力特徴図の異なる特徴チャネルに対応するフィルタ重みに対して平均プーリング操作を行うことにより、アルゴリズムパラメータを削減する。また、追跡目標エリアを減らす必要がないため、相関フィルタアルゴリズムの固有の欠陥を解消し、入力特徴図のトレーニングサンプルの特徴の数を確保し、パラメータの過剰適合の発生を回避し、関連するアルゴリズムのロバスト性を高め、さらに、目標追跡の精度及び有効性を向上させ、関連技術に係る目標追跡方法及び目標追跡装置においてパラメータの過剰適合や追跡精度の低下を引き起こしやすいという技術課題を効果的に解決した。
本願で使用される「構成要素」、「モジュール」、「システム」、「インタフェース」、「プロセス」などの用語は、一般的に、コンピュータに関連する実体、例えば、ハードウェア、ハードウェアとソフトウェアとの組合せ、ソフトウェア、又は実行中のソフトウェアを指すことを意図している。例えば、構成要素は、プロセッサ上で実行されるプロセス、プロセッサ、対象、実行可能なアプリケーション、実行されるスレッド、プログラム及び/又はコンピュータであってもよいが、これらに限定されない。図示したとおり、コントローラで実行されるアプリケーションと当該コントローラの両方とも構成要素にしてもよい。1つ又は複数の構成要素は、実行されるプロセス及び/又はスレッド内に存在してもよく、また、構成要素は、1つのコンピュータに配置され、及び/又は2つ以上のコンピュータの間に分散してもよい。
図10及び以下の内容では、本願を実現するためのビデオ画面レンダリング装置の位置する電子機器の動作環境を簡潔で概略的に説明する。図10の動作環境は、単なる適切な動作環境の一例であり、動作環境に関する用途又は機能の範囲への如何なる制限を示唆することを意図するものではない。
必須ではないが、「コンピュータ読み取り可能な指令」が1つ又は複数の電子機器によって実行されるという通常の状況で実施例を説明する。コンピュータ読み取り可能な指令は、コンピュータ読み取り可能な媒体を介して分散することができる(以下で説明する)。コンピュータ読み取り可能な指令は、プログラムモジュールとして実現でき、例えば、特定のタスクを実行し、又は特定の抽象データタイプを実現する機能、対象、アプリケーションプログラミングインタフェース(API)、データ構造などが挙げられる。典型的には、当該コンピュータ読み取り可能な指令の機能は、様々な環境で任意に組み合わせたり、分散したりすることができる。
図10には、本願に係る目標追跡装置における1つ又は複数の実施例の電子機器712を含む例が示されている。一構成では、電子機器712は、少なくとも1つの処理ユニット716及びメモリ718を含む。電子機器の具体的な配置及びタイプによっては、メモリ718は、揮発性のもの(例えば、RAM)でもよいし、不揮発性のもの(例えば、ROM、フラッシュメモリなど)でもよいし、又はその両者の何らかの組合せでもよい。当該配置は、図10において破線714によって示される。
別の実施例では、電子機器712は、追加の特徴及び/又は機能を含むことができる。例えば、電子機器712は、(例えば、取り外し可能及び/又は取り外し不可能な)追加の記憶装置をさらに含むことができる。当該追加の記憶装置は、磁気記憶装置、光学記憶装置などを含むが、これらに限定されない。このような追加の記憶装置は、図10において記憶装置720によって示される。一実施例では、本明細書で提供される1つ又は複数の実施例を実現するためのコンピュータ読み取り可能な指令は、記憶装置720に記憶されてもよい。記憶装置720には、オペレーティングシステム、アプリケーションプログラム等を実現するための他のコンピュータ読み取り可能な指令がさらに記憶されてもよい。コンピュータ読み取り可能な指令は、メモリ718内にロードされ、例えば処理ユニット716によって実行されることができる。
本明細書で使用される「コンピュータ読み取り可能な媒体」という用語は、コンピュータ記憶媒体を含む。コンピュータ記憶媒体は、コンピュータ読み取り可能な指令又は他のデータなどのような情報を記憶するための任意の方法又は技術によって実現される揮発性および不揮発性の媒体、取り外し可能及び取り外し不能な媒体を含む。メモリ718及び記憶装置720は、コンピュータ記憶媒体の例である。コンピュータ記憶媒体は、RAM、ROM、EEPROM、フラッシュメモリ又は他のメモリ技術、CD-ROM、デジタル多用途ディスク(DVD)又は他の光学記憶装置、カセットテープ、磁気テープ、磁気ディスク記憶装置又は他の磁気記憶装置、或いは予期情報を記憶するために用いられ、電子機器712によってアクセスできる他の任意の媒体を含むが、これらに限定されない。任意のこのようなコンピュータ記憶媒体は、電子機器712の一部であり得る。
電子機器712は、電子機器712が他のデバイスと通信することを可能にする通信接続726をさらに含み得る。通信接続726は、モデム、ネットワークインタフェースカード(NIC)、統合ネットワークインタフェース、無線周波数送信器/受信器、赤外線ポート、USB接続又は電子機器712を他の電子機器に接続するための他のインタフェースを含むが、これらに限定されない。通信接続726は、有線接続又は無線接続を含み得る。通信接続726は、通信媒体を送信および/または受信することができる。
「コンピュータ読み取り可能な媒体」という用語は、通信媒体を含み得る。通信媒体は、典型的には、コンピュータ読み取り可能な指令、又は搬送波や他の伝送手段などのような「変調されたデータ信号」における他のデータを含み、また、任意の情報配信媒体を含む。「変調されたデータ信号」という用語は、情報を信号に符号化するように当該信号の1つ又は複数の特性が設定又は変更される信号を含むことができる。
電子機器712は、入力デバイス724、例えば、キーボード、マウス、ペン、音声入力デバイス、タッチ入力デバイス、赤外線カメラ、ビデオ入力デバイス及び/又は他の任意の入力デバイスを含み得る。電子機器712は、出力デバイス722、例えば、1つ又は複数のディスプレイ、スピーカー、プリンタ及び/又は他の任意の出力デバイスをさらに含み得る。入力デバイス724及び出力デバイス722は、有線接続、無線接続又はそれらの任意の組合せを介して電子機器712に接続することができる。一実施例では、別の電子機器に配置された入力デバイス又は出力デバイスは、電子機器712の入力デバイス724又は出力デバイス722として使用することができる。
電子機器712の構成要素は、様々な相互接続(例えば、バス)を介して接続することができる。このような相互接続は、ペリフェラルコンポーネントインターコネクト(PCI)(例えば、PCIエクスプレス)、ユニバーサルシリアルバス(USB)、ファイヤーワイヤー(IEEE 1394)、光学バス構造などを含むことができる。別の実施例では、電子機器712の構成要素は、ネットワークを介して相互接続することができる。例えば、メモリ718は、異なる物理的位置に配置され、ネットワークを介して相互接続される複数の物理的メモリユニットで構成され得る。
本分野の技術者は、コンピュータ読み取り可能な指令を記憶するための記憶装置がネットワークにわたって分散してもよいことを理解するであろう。例えば、ネットワーク728を介してアクセス可能なバックエンドサーバ730は、本願で提供される1つ又は複数の実施例を実現するためのコンピュータ読み取り可能な指令を記憶することができる。電子機器712は、バックエンドサーバ730にアクセスし、実行のためにコンピュータ読み取り可能な指令の一部又は全部をダウンロードすることができる。あるいは、電子機器712は、必要に応じて複数のコンピュータ読み取り可能な指令をダウンロードすることができ、又は、一部の指令を電子機器712で実行し、一部の指令をバックエンドサーバ730で実行するようにすることができる。
本願の実施例では、プロセッサ及びメモリを備え、メモリにコンピュータプログラムが記憶されており、プロセッサが当該コンピュータプログラムを呼び出すことで以下の操作を実行する電子機器を提供する。
目標ビデオの複数の連続した画面フレームを取得し、複数の連続した画面フレームのうちのn番目の画面フレームに対応するn番目の追跡目標エリアを設定する(ただし、nは、正の整数である)。
n番目の追跡目標エリアに対して特徴抽出操作を行い、n番目の追跡目標エリアに対応する、n番目のエリア入力特徴図を取得し、前記n番目のエリア入力特徴図は複数の特徴チャネルを含む。
相関フィルタアルゴリズム及び平均プーリング制約条件に従って、n番目のエリア入力特徴図に対応し、n番目のエリア入力特徴図における各特徴チャネルに対応するフィルタ重みを含むn番目の重みフィルタを計算する。
n番目の重みフィルタ、及び複数の連続した画面フレームのうちのn+1番目の画面フレームの入力特徴図であるn+1番目の画面フレーム入力特徴図を利用し、n+1番目の出力応答を計算し、n+1番目の出力応答に従ってn+1番目の画面フレームに対応するn+1番目の追跡目標エリアを特定する。
n+1番目の追跡目標エリアに対して特徴抽出を行い、n+1番目の追跡目標エリアに対応するn+1番目のエリア入力特徴図を取得し、全ての連続した画面フレームの追跡目標エリアを取得するまでn+1番目のエリア入力特徴図に対応するn+1番目の重みフィルタを計算する。
任意には、当該プロセッサは、当該コンピュータプログラムを呼び出すことで以下の操作を実行するためのものである。
リッジ回帰判別関数に基づいて、n番目のエリア入力特徴図に対応するn番目の重みフィルタの相関フィルタモデルを作成し、プーリングエリアにおける特徴チャネルに対応するフィルタ重みが等しいことを相関フィルタモデルの制約条件とする。
拡張ラグランジュ乗数法により、制約条件を有する相関フィルタモデルを変換し、エリアプーリング相関フィルタモデルを生成する。
共役勾配降下法により、エリアプーリング相関フィルタモデルを最適化することによって、n番目のエリア入力特徴図に対応するn番目の重みフィルタを取得する。
任意には、当該プロセッサは、当該コンピュータプログラムを呼び出すことで以下の操作を実行するためのものである。
隣接プーリングエリアの範囲が重ならないように、追跡目標エリアの複数のプーリングエリアの範囲を設定する。
任意には、当該プロセッサは、当該コンピュータプログラムを呼び出すことで以下の操作を実行するためのものである。
1番目のエリア入力特徴図を取得する場合、相関フィルタアルゴリズム及び平均プーリング制約条件に従って、1番目の画面フレームに対応する1番目の追跡目標エリアの入力特徴図である1番目のエリア入力特徴図、及び追跡目標エリアの予期出力応答を用いて1番目のエリア入力特徴図に対応する1番目の重みフィルタを計算する。
n番目の画面フレーム入力特徴図及びn-1番目の重みフィルタを取得し、また、nが2以上である場合、相関フィルタアルゴリズム及び平均プーリング制約条件に従って、n番目の画面フレームの入力特徴図であるn番目の画面フレーム入力特徴図、及びn-1番目の画面フレームに対応する重みフィルタであるn-1番目の重みフィルタを用いてn番目の出力応答を計算する。n番目の出力応答により、n番目の画面フレームの追跡目標エリアの位置、及びn番目のエリア入力特徴図を取得する。
相関フィルタアルゴリズム及び平均プーリング制約条件に従って、追跡目標エリアの予期出力応答、及びn番目のエリア入力特徴図を用いてn番目の重みフィルタを計算する。
任意には、当該プロセッサは、当該コンピュータプログラムを呼び出すことで以下の操作を実行するためのものである。
n番目の画面フレーム入力特徴図及びn-1番目の重みフィルタを取得し、また、nが2以上である場合、相関フィルタアルゴリズム及び平均プーリング制約条件に従って、n番目の画面フレームの入力特徴図であるn番目の画面フレーム入力特徴図、及びn-1番目の画面フレームに対応する重みフィルタであるn-1番目の重みフィルタを用いてn番目の出力応答を計算する。
n番目の出力応答により、n番目の画面フレームの追跡目標エリアの位置、及びn番目のエリア入力特徴図を取得する。
相関フィルタアルゴリズム及び平均プーリング制約条件に従って、追跡目標エリアの予期出力応答、n番目のエリア入力特徴図及びn番目の画面フレームの前の複数の画面フレームの追跡目標エリアの入力特徴図を用いてn番目の重みフィルタを計算する。
任意には、当該プロセッサは、当該コンピュータプログラムを呼び出すことで以下の操作を実行するためのものである。
相関フィルタアルゴリズム及び平均プーリング制約条件に従って、追跡目標エリアの予期出力応答、n番目のエリア入力特徴図及びn番目の画面フレームの前の複数の画面フレームの追跡目標エリアの入力特徴図を用いて各画面フレームの相関フィルタ損失関数の線形加重融合を行うことで、マルチフレームに基づく相関フィルタモデルを得る。
マルチフレームに基づく相関フィルタモデルを計算し、n番目の重みフィルタを得る。
任意には、当該プロセッサは、当該コンピュータプログラムを呼び出すことで以下の操作を実行するためのものである。
n番目の重みフィルタに対して二値化マスクを設定することによって、n番目の追跡目標エリア以外に対応する重みフィルタのフィルタ重みを小さくする。
任意には、当該プロセッサは、当該コンピュータプログラムを呼び出すことで以下の操作を実行するためのものである。
n番目の重みフィルタに対して正則化重みを設定することによって、n番目の重みフィルタのn番目の追跡目標エリアの中心部分におけるフィルタ重みを大きくする。
本明細書は、実施例の様々な操作を提供する。一実施例では、1つ又は複数の操作により、1つ又は複数のコンピュータ読み取り可能な媒体に記憶されたコンピュータ読み取り可能な指令を構成でき、当該コンピュータ読み取り可能な指令は、電子機器によって実行される際に、コンピューティングデバイスを動作させる。一部又は全ての操作を説明する順序は、これらの操作が必ずこの順で関連していることを示唆していると解釈すべきではない。本分野の技術者は、本明細書の利点を有する代替可能な順序でもよいと理解できる。さらに、全ての操作が必ずしも本明細書で提供される各実施例に含まれるわけではないと理解できる。
また、1つ又は複数の実施形態について本開示を示し、説明したが、本分野の技術者であれば、本明細書及び図面の読解に基づいて同等の変形および修正に想到することができる。本開示は、このような修正及び変形の全てを含み、添付の特許請求の範囲のみによって制限される。特に、上記の構成要素(例えば素子、リソース等)によって実行される様々な機能に関して、このような構成要素を説明するための用語は、本明細書に示す本開示の例示的な実施形態における機能を実行する本開示の構造と構造上に同等ではない場合でも、構成要素の所定の機能(例えば機能上に同等である)を実行する任意の構成要素に対応することを意図している(特に断らない限り)。なお、本開示の特定の特徴は幾つかの実施形態のうちの1つのみにおいて開示されたが、このような特徴は、所与又は特定の応用にとって望ましくかつ有利である可能性がある他の実施形態の1つ又は複数の他の特徴と組み合わせることができる。さらに、「含む」、「有する」、「含有」という用語又はそれらの変形が具体的な実施形態又は特許請求の範囲で使用される場合、このような用語は、「含む」という用語と同様に含まれることを意図している。
本願の実施例における各機能ユニットが1つの処理モジュールに組み込まれてもよく、各ユニットが別体で物理的に存在してもよく、2つ又は2つ以上のユニットが1つのモジュールに組み込まれてもよい。上記の組み込まれたモジュールは、ハードウェアとして実現してもよく、ソフトウェア機能モジュールとして実現してもよい。組み込まれたモジュールがソフトウェア機能モジュールとして実現され、単独の製品として販売または使用される場合、1つのコンピュータ読み取り可能な記憶媒体に記憶されてもよい。上記の記憶媒体は、リードオンリメモリ、磁気ディスク又は光学ディスクなどであってもよい。上記の各装置又はシステムは、相応する方法の実施例における方法を実行することができる。
本願の実施例では、プロセッサ実行可能な指令が記憶されており、当該指令を1つ又は複数のプロセッサによりローディングすることで以下の操作を実行する記憶媒体を提供する。
目標ビデオの複数の連続した画面フレームを取得し、複数の連続した画面フレームのうちのn番目の画面フレームに対応するn番目の追跡目標エリアを設定する(ただし、nは、正の整数である)。
n番目の追跡目標エリアに対して特徴抽出操作を行い、n番目の追跡目標エリアに対応し、n番目のエリア入力特徴図を取得し、前記n番目のエリア入力特徴図は複数の特徴チャネルを含む。
相関フィルタアルゴリズム及び平均プーリング制約条件に従って、n番目のエリア入力特徴図に対応し、n番目のエリア入力特徴図における各特徴チャネルに対応するフィルタ重みを含むn番目の重みフィルタを計算する。
n番目の重みフィルタ、及び複数の連続した画面フレームのうちのn+1番目の画面フレームの入力特徴図であるn+1番目の画面フレーム入力特徴図を用いてn+1番目の出力応答を計算し、n+1番目の出力応答により、n+1番目の画面フレームに対応するn+1番目の追跡目標エリアを特定する。
n+1番目の追跡目標エリアに対して特徴抽出を行い、n+1番目の追跡目標エリアに対応するn+1番目のエリア入力特徴図を取得し、全ての連続した画面フレームの追跡目標エリアを取得するまでn+1番目のエリア入力特徴図に対応するn+1番目の重みフィルタを計算する。
任意には、当該指令を1つ又は1つ以上のプロセッサによりローディングすることで以下の操作を実行する。
リッジ回帰判別関数に基づいて、n番目のエリア入力特徴図に対応するn番目の重みフィルタの相関フィルタモデルを作成し、プーリングエリアにおける特徴チャネルに対応するフィルタ重みが等しいことを相関フィルタモデルの制約条件をする。
拡張ラグランジュ乗数法により、制約条件を有する相関フィルタモデルを変換し、エリアプーリング相関フィルタモデルを生成する。
共役勾配降下法により、エリアプーリング相関フィルタモデルを最適化することによって、n番目のエリア入力特徴図に対応するn番目の重みフィルタを取得する。
任意には、当該指令を1つ又は1つ以上のプロセッサによりローディングすることで以下の操作を実行する。
隣接プーリングエリアの範囲が重ならないように、追跡目標エリアの複数のプーリングエリアの範囲を設定する。
任意には、当該指令を1つ又は1つ以上のプロセッサによりローディングすることで以下の操作を実行する。
1番目のエリア入力特徴図を取得する場合、相関フィルタアルゴリズム及び平均プーリング制約条件に従って、1番目の画面フレームに対応する1番目の追跡目標エリアの入力特徴図である1番目のエリア入力特徴図、及び追跡目標エリアの予期出力応答を用いて1番目のエリア入力特徴図に対応する1番目の重みフィルタを計算する。
n番目の画面フレーム入力特徴図及びn-1番目の重みフィルタを取得し、また、nが2以上である場合、相関フィルタアルゴリズム及び平均プーリング制約条件に従って、n番目の画面フレームの入力特徴図であるn番目の画面フレーム入力特徴図、及びn-1番目の画面フレームに対応する重みフィルタであるn-1番目の重みフィルタを用いてn番目の出力応答を計算する。
n番目の出力応答により、n番目の画面フレームの追跡目標エリアの位置、及びn番目のエリア入力特徴図を取得する。
相関フィルタアルゴリズム及び平均プーリング制約条件に従って、追跡目標エリアの予期出力応答、及びn番目のエリア入力特徴図を用いてn番目の重みフィルタを計算する。
任意には、当該指令を1つ又は1つ以上のプロセッサによりローディングすることで以下の操作を実行する。
n番目の画面フレーム入力特徴図及びn-1番目の重みフィルタを取得し、また、nが2以上である場合、相関フィルタアルゴリズム及び平均プーリング制約条件に従って、n番目の画面フレームの入力特徴図であるn番目の画面フレーム入力特徴図、及びn-1番目の画面フレームに対応する重みフィルタであるn-1番目の重みフィルタを用いてn番目の出力応答を計算する。
n番目の出力応答により、n番目の画面フレームの追跡目標エリアの位置、及びn番目のエリア入力特徴図を取得する。
相関フィルタアルゴリズム及び平均プーリング制約条件に従って、追跡目標エリアの予期出力応答、n番目のエリア入力特徴図及びn番目の画面フレームの前の複数の画面フレームの追跡目標エリアの入力特徴図を用いてn番目の重みフィルタを計算する。
任意には、当該指令を1つ又は1つ以上のプロセッサによりローディングすることで以下の操作を実行する。
相関フィルタアルゴリズム及び平均プーリング制約条件に従って、追跡目標エリアの予期出力応答、n番目のエリア入力特徴図及びn番目の画面フレームの前の複数の画面フレームの追跡目標エリアの入力特徴図を用いて各画面フレームの相関フィルタ損失関数の線形加重融合を行うことで、マルチフレームに基づく相関フィルタモデルを得る。
マルチフレームに基づく相関フィルタモデルを計算し、n番目の重みフィルタを得る。
任意には、当該指令を1つ又は1つ以上のプロセッサによりローディングすることで以下の操作を実行する。
n番目の重みフィルタに対して二値化マスクを設定することによって、n番目の追跡目標エリア以外に対応する重みフィルタのフィルタ重みを小さくする。
任意には、当該指令を1つ又は1つ以上のプロセッサによりローディングすることで以下の操作を実行する。
n番目の重みフィルタに対して正則化重みを設定することによって、n番目の重みフィルタのn番目の追跡目標エリアの中心部分におけるフィルタ重みを大きくする。
以上をまとめると、本願は、実施例にて上記のように開示されたが、実施例の前の番号は、説明の便宜のために使用されるものに過ぎず、本願の各実施例の順序を制限しない。また、上記の実施例は、本願を制限するためのものではなく、本分野の通常の技術者は、本願の精神及び範囲から逸脱することなく、様々な変更および修正を行うことができるため、本願の保護範囲は、特許請求の範囲によって限定された範囲を基準とする。

Claims (10)

  1. 電子機器が実行する目標追跡方法であって、
    目標ビデオの複数の連続した画面フレームを取得し、前記複数の連続した画面フレームのうちのn番目の画面フレームに対応するn番目の追跡目標エリアを設定するステップであって、nは正の整数である、ステップと、
    前記n番目の追跡目標エリアに対して特徴抽出操作を行い、前記n番目の追跡目標エリアに対応するn番目のエリア入力特徴図を取得するステップであって、前記n番目のエリア入力特徴図は、複数の特徴チャネルを含むものである、ステップと、
    相関フィルタアルゴリズム及び平均プーリング制約条件に従って、前記n番目のエリア入力特徴図に対応するn番目の重みフィルタを計算するステップであって、前記n番目の重みフィルタは、前記n番目のエリア入力特徴図における各特徴チャネルに対応するフィルタ重みを含むものである、ステップと、
    前記n番目の重みフィルタ、及び前記複数の連続した画面フレームのうちのn+1番目の画面フレームの入力特徴図であるn+1番目の画面フレーム入力特徴図を用いてn+1番目の出力応答を計算し、前記n+1番目の出力応答に従って前記n+1番目の画面フレームに対応するn+1番目の追跡目標エリアを特定するステップと、
    全ての連続した画面フレームの追跡目標エリアを取得するまで、前記n+1番目の追跡目標エリアに対して特徴抽出を行い、前記n+1番目の追跡目標エリアに対応するn+1番目のエリア入力特徴図を取得し、前記n+1番目のエリア入力特徴図に対応するn+1番目の重みフィルタを計算するステップと、
    を含むことを特徴とする目標追跡方法。
  2. 相関フィルタアルゴリズム及び平均プーリング制約条件に従って、前記n番目のエリア入力特徴図に対応するn番目の重みフィルタを計算する前記ステップは、
    リッジ回帰判別関数に基づいて、前記n番目のエリア入力特徴図に対応するn番目の重みフィルタの相関フィルタモデルを作成し、プーリングエリアにおける特徴チャネルに対応するフィルタ重みが等しいことを前記相関フィルタモデルの制約条件とするステップと、
    拡張ラグランジュ乗数法により、制約条件を有する相関フィルタモデルを変換し、エリアプーリング相関フィルタモデルを生成するステップと、
    共役勾配降下法により、前記エリアプーリング相関フィルタモデルを最適化することによって、前記n番目のエリア入力特徴図に対応するn番目の重みフィルタを取得するステップと、を含むことを特徴とする請求項1に記載の目標追跡方法。
  3. 前記目標追跡方法は、
    隣接プーリングエリアの範囲が重ならないように、前記追跡目標エリアの複数のプーリングエリアの範囲を設定するステップをさらに含むことを特徴とする請求項1又は2に記載の目標追跡方法。
  4. 相関フィルタアルゴリズム及び平均プーリング制約条件に従って、前記n番目のエリア入力特徴図に対応するn番目の重みフィルタを計算する前記ステップは、
    1番目のエリア入力特徴図を取得する場合、前記相関フィルタアルゴリズム及び前記平均プーリング制約条件に従って、1番目の画面フレームに対応する1番目の追跡目標エリアの入力特徴図である前記1番目のエリア入力特徴図、及び追跡目標エリアの予期出力応答を用いて前記1番目のエリア入力特徴図に対応する1番目の重みフィルタを計算するステップと、
    n番目の画面フレーム入力特徴図及びn-1番目の重みフィルタを取得し、nが2以上である場合、前記相関フィルタアルゴリズム及び前記平均プーリング制約条件に従って、前記n番目の画面フレームの入力特徴図である前記n番目の画面フレーム入力特徴図、及び前記n-1番目の画面フレームに対応する重みフィルタである前記n-1番目の重みフィルタを用いてn番目の出力応答を計算するステップと、
    前記n番目の出力応答により、前記n番目の画面フレームの追跡目標エリアの位置、及び前記n番目のエリア入力特徴図を取得するステップと、
    前記相関フィルタアルゴリズム及び前記平均プーリング制約条件に従って、前記追跡目標エリアの予期出力応答、及び前記n番目のエリア入力特徴図を用いて前記n番目の重みフィルタを計算するステップと、を含むことを特徴とする請求項1~3のいずれか一項に記載の目標追跡方法。
  5. 相関フィルタアルゴリズム及び平均プーリング制約条件に従って、前記n番目のエリア入力特徴図に対応するn番目の重みフィルタを計算する前記ステップは、
    前記n番目の画面フレーム入力特徴図及びn-1番目の重みフィルタを取得し、nが2以上である場合、前記相関フィルタアルゴリズム及び前記平均プーリング制約条件に従って、前記n番目の画面フレームの入力特徴図である前記n番目の画面フレーム入力特徴図、及びn-1番目の画面フレームに対応する重みフィルタである前記n-1番目の重みフィルタを用いてn番目の出力応答を計算するステップと、
    前記n番目の出力応答により、前記n番目の画面フレームの追跡目標エリアの位置、及び前記n番目のエリア入力特徴図を取得するステップと、
    前記相関フィルタアルゴリズム及び前記平均プーリング制約条件に従って、追跡目標エリアの予期出力応答、前記n番目のエリア入力特徴図及びn番目の画面フレームの前の複数の画面フレームの追跡目標エリアの入力特徴図を用いて前記n番目の重みフィルタを計算するステップと、を含むことを特徴とする請求項1~3のいずれか一項に記載の目標追跡方法。
  6. 前記相関フィルタアルゴリズム及び前記平均プーリング制約条件に従って、追跡目標エリアの予期出力応答、前記n番目のエリア入力特徴図及びn番目の画面フレームの前の複数の画面フレームの追跡目標エリアの入力特徴図を用いて前記n番目の重みフィルタを計算する前記ステップは、
    前記相関フィルタアルゴリズム及び前記平均プーリング制約条件に従って、追跡目標エリアの予期出力応答、前記n番目のエリア入力特徴図及びn番目の画面フレームの前の複数の画面フレームの追跡目標エリアの入力特徴図を用いて各画面フレームの相関フィルタ損失関数の線形加重融合を行うことで、マルチフレームに基づく相関フィルタモデルを得るステップと、
    前記マルチフレームに基づく相関フィルタモデルを計算し、前記n番目の重みフィルタを得るステップと、を含むことを特徴とする請求項5に記載の目標追跡方法。
  7. 相関フィルタアルゴリズム及び平均プーリング制約条件に従って、前記n番目のエリア入力特徴図に対応するn番目の重みフィルタを計算する前記ステップは、
    前記n番目の重みフィルタに対して二値化マスクを設定することによって、前記n番目の追跡目標エリア以外に対応する重みフィルタのフィルタ重みを小さくするステップを含むことを特徴とする請求項1~3のいずれか一項に記載の目標追跡方法。
  8. 相関フィルタアルゴリズム及び平均プーリング制約条件に従って、前記n番目のエリア入力特徴図に対応するn番目の重みフィルタを計算する前記ステップは、
    前記n番目の重みフィルタに対して正則化重みを設定することによって、前記n番目の重みフィルタの前記n番目の追跡目標エリアの中心部分におけるフィルタ重みを大きくするステップを含むことを特徴とする請求項1~3のいずれか一項に記載の目標追跡方法。
  9. 請求項1~8のいずれか一項に記載の目標追跡方法をコンピュータに実行させるコンピュータプログラム。
  10. プロセッサ及びメモリを備え、前記メモリにコンピュータプログラムが記憶されており、前記プロセッサが前記コンピュータプログラムを実行することにより請求項1~8のいずれか一項に記載の目標追跡方法を実行する、電子機器。
JP2021536748A 2019-05-10 2020-04-26 目標追跡方法、コンピュータプログラム、及び電子機器 Active JP7125562B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910391497.7 2019-05-10
CN201910391497.7A CN110148157B (zh) 2019-05-10 2019-05-10 画面目标跟踪方法、装置、存储介质及电子设备
PCT/CN2020/087041 WO2020228522A1 (zh) 2019-05-10 2020-04-26 目标跟踪方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
JP2022516055A JP2022516055A (ja) 2022-02-24
JP7125562B2 true JP7125562B2 (ja) 2022-08-24

Family

ID=67595267

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021536748A Active JP7125562B2 (ja) 2019-05-10 2020-04-26 目標追跡方法、コンピュータプログラム、及び電子機器

Country Status (5)

Country Link
US (1) US11610321B2 (ja)
EP (1) EP3968280A4 (ja)
JP (1) JP7125562B2 (ja)
CN (1) CN110148157B (ja)
WO (1) WO2020228522A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110148157B (zh) * 2019-05-10 2021-02-02 腾讯科技(深圳)有限公司 画面目标跟踪方法、装置、存储介质及电子设备
CN112446255A (zh) * 2019-08-31 2021-03-05 华为技术有限公司 一种视频图像处理方法及装置
CN111161321B (zh) * 2019-12-31 2023-07-04 北京理工大学重庆创新中心 一种基于背景感知的相关滤波跟踪方法
KR102504321B1 (ko) * 2020-08-25 2023-02-28 한국전자통신연구원 온라인 행동 탐지 장치 및 방법
CN113393493B (zh) * 2021-05-28 2024-04-05 京东科技信息技术有限公司 目标对象的跟踪方法及装置
CN113344973B (zh) * 2021-06-09 2023-11-24 南京信息工程大学 一种基于时空正则化和特征可靠性评估的目标跟踪方法
CN113808171A (zh) * 2021-09-27 2021-12-17 山东工商学院 基于特征权重池的动态特征选择的无人机视觉跟踪方法
CN116051385A (zh) * 2021-10-28 2023-05-02 北京三星通信技术研究有限公司 图像处理方法、装置、电子设备及存储介质
CN114596337B (zh) * 2022-03-03 2022-11-25 捻果科技(深圳)有限公司 一种基于多摄像机位联动性的自识别目标追踪方法及系统
CN116309710A (zh) * 2023-02-27 2023-06-23 荣耀终端有限公司 目标追踪方法和电子设备
CN116863342B (zh) * 2023-09-04 2023-11-21 江西啄木蜂科技有限公司 一种基于大尺度遥感影像的松材线虫病死木提取方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108550126A (zh) 2018-04-18 2018-09-18 长沙理工大学 一种自适应相关滤波器目标跟踪方法及系统
CN109448024A (zh) 2018-11-06 2019-03-08 深圳大学 利用深度数据构建约束相关滤波器的视觉跟踪方法、系统
CN109543615A (zh) 2018-11-23 2019-03-29 长沙理工大学 一种基于多级特征的双学习模型目标跟踪方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105913453A (zh) * 2016-04-01 2016-08-31 海信集团有限公司 一种目标跟踪方法和装置
CN108229455B (zh) * 2017-02-23 2020-10-16 北京市商汤科技开发有限公司 物体检测方法、神经网络的训练方法、装置和电子设备
CN107240122A (zh) * 2017-06-15 2017-10-10 国家新闻出版广电总局广播科学研究院 基于时空连续相关滤波的视频目标跟踪方法
KR101953626B1 (ko) * 2017-06-29 2019-03-06 서강대학교산학협력단 다중 히스토그램을 이용한 객체 추적 방법 및 이를 이용한 객체 추적 시스템
CN107644217B (zh) * 2017-09-29 2020-06-26 中国科学技术大学 基于卷积神经网络和相关滤波器的目标跟踪方法
US10628961B2 (en) * 2017-10-13 2020-04-21 Qualcomm Incorporated Object tracking for neural network systems
CN110148157B (zh) * 2019-05-10 2021-02-02 腾讯科技(深圳)有限公司 画面目标跟踪方法、装置、存储介质及电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108550126A (zh) 2018-04-18 2018-09-18 长沙理工大学 一种自适应相关滤波器目标跟踪方法及系统
CN109448024A (zh) 2018-11-06 2019-03-08 深圳大学 利用深度数据构建约束相关滤波器的视觉跟踪方法、系统
CN109543615A (zh) 2018-11-23 2019-03-29 长沙理工大学 一种基于多级特征的双学习模型目标跟踪方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Martin danelljan, st al.,Learning Spatially Regularized Correlation Filters for Visual Tracking ,ARXIV.ORG,米国,CORNELL UNIVERSITY LIBRARRY,2016年08月19日
Yuxuan Sun, et al.,ROI Pooled Correlation Filters for Visual Tracking,2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),米国,IEEE,2019年08月19日

Also Published As

Publication number Publication date
WO2020228522A1 (zh) 2020-11-19
CN110148157A (zh) 2019-08-20
JP2022516055A (ja) 2022-02-24
US20210327076A1 (en) 2021-10-21
US11610321B2 (en) 2023-03-21
CN110148157B (zh) 2021-02-02
EP3968280A4 (en) 2022-06-22
EP3968280A1 (en) 2022-03-16

Similar Documents

Publication Publication Date Title
JP7125562B2 (ja) 目標追跡方法、コンピュータプログラム、及び電子機器
US10936919B2 (en) Method and apparatus for detecting human face
CN109961009B (zh) 基于深度学习的行人检测方法、系统、装置及存储介质
US9904874B2 (en) Hardware-efficient deep convolutional neural networks
US20220036135A1 (en) Method and apparatus for determining image to be labeled and model training method and apparatus
CN109740534B (zh) 图像处理方法、装置及处理设备
CN111401516B (zh) 一种神经网络通道参数的搜索方法及相关设备
CN111402130B (zh) 数据处理方法和数据处理装置
CN111860398B (zh) 遥感图像目标检测方法、系统及终端设备
US9152888B2 (en) System and method for automated object detection in an image
US20190188460A1 (en) Method and device for use in hand gesture recognition
CN110765882B (zh) 一种视频标签确定方法、装置、服务器及存储介质
US20190385073A1 (en) Visual recognition via light weight neural network
EP4024270A1 (en) Gesture recognition method, electronic device, computer-readable storage medium, and chip
CN108229658B (zh) 基于有限样本的物体检测器的实现方法及装置
CN113066001A (zh) 一种图像处理方法及相关设备
US10133955B2 (en) Systems and methods for object recognition based on human visual pathway
CN110738650B (zh) 一种传染病感染识别方法、终端设备及存储介质
CN111242273B (zh) 一种神经网络模型训练方法及电子设备
CN112789627A (zh) 一种神经网络处理器、数据处理方法及相关设备
KR101903684B1 (ko) 이미지 특징 예측 방법 및 장치
CN115238909A (zh) 一种基于联邦学习的数据价值评估方法及其相关设备
CN114169393A (zh) 一种图像分类方法及其相关设备
US11989939B2 (en) System and method for enhancing machine learning model for audio/video understanding using gated multi-level attention and temporal adversarial training
Mao et al. A deep learning approach to track Arabidopsis seedlings’ circumnutation from time-lapse videos

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210628

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220802

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220812

R150 Certificate of patent or registration of utility model

Ref document number: 7125562

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150