JP7375192B2 - ターゲット追跡方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラムプロダクト - Google Patents

ターゲット追跡方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラムプロダクト Download PDF

Info

Publication number
JP7375192B2
JP7375192B2 JP2022527078A JP2022527078A JP7375192B2 JP 7375192 B2 JP7375192 B2 JP 7375192B2 JP 2022527078 A JP2022527078 A JP 2022527078A JP 2022527078 A JP2022527078 A JP 2022527078A JP 7375192 B2 JP7375192 B2 JP 7375192B2
Authority
JP
Japan
Prior art keywords
target
frame
image
current frame
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022527078A
Other languages
English (en)
Other versions
JP2023500969A (ja
Inventor
翔博 蘇
宇辰 袁
昊 孫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2023500969A publication Critical patent/JP2023500969A/ja
Application granted granted Critical
Publication of JP7375192B2 publication Critical patent/JP7375192B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/277Analysis of motion involving stochastic approaches, e.g. using Kalman filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Description

関連出願の相互参照
本開示は、2020年5月22日に中国で提出された中国特許出願番号No.202010443892.8の優先権を主張し、その全ての内容が援用によりここに取り込まれる。
本開示は、人工知能の分野に関し、特にコンピュータビジョンの技術分野に関する。
関連技術において、リアルタイムビデオストリームにおけるターゲット追跡に対して、まず検出器を利用して現在のフレームの画像における全てのターゲット検出枠を抽出し、次に全てのターゲット検出枠を従来の軌跡と関連付けてマッチングすることにより、現在のフレームの画像におけるターゲットの新たな軌跡を取得することができる。しかしながら、ターゲットの運動状態が急激に変化し、例えば長時間静止した後に突然運動し、移動中で突然静止し、移動速度が明らかに変化するなどの状況が発生すると、ターゲットの検出枠と従来の軌跡位置が成功裏にマッチングできず、追跡が無効になることをもたらす。
本開示の実施例は、ターゲット追跡方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体を提供することにより、現在追跡ターゲットの運動状態が急激に変化する時に追跡失効をもたらしやすいという課題を解決する。
上記技術的課題を解決するために、本開示は、以下のように実現される。
第1の態様では、本開示の実施例は、
現在のフレームの画像に対してターゲット検出を行い、前記現在のフレームの画像におけるターゲット検出枠の、第1の位置及び第1のサイズを表すための第1の情報を得ることと、
カルマンフィルタを利用してターゲット追跡を行い、前記現在のフレームの画像におけるターゲット追跡枠の、第2の位置及び第2のサイズを表すための第2の情報を得ることと、
カルマンフィルタにおける予測誤差共分散行列に対してフォールトトレランス補正を行い、補正後の共分散行列を得ることと、
前記第1の情報、前記第2の情報及び前記補正後の共分散行列に基づいて、前記現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠との間のマハラノビス距離を算出することと、
前記マハラノビス距離に基づいて、前記現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠に対して関連マッチングを行うことと、
を含むターゲット追跡方法を提供する。
このように、フォールトトレランス補正後の予測誤差共分散行列に基づいてターゲット検出枠とターゲット追跡枠との間のマハラノビス距離を算出できることにより、ターゲット運動状態が急激に変化する場合であっても、該マハラノビス距離をより合理的な範囲内に維持することができ、それにより、該マハラノビス距離に基づいて現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠に対して関連マッチングを行う場合、ターゲットが異なる運動状態で追跡されるロバスト性を向上させることができる。
第2の態様では、本開示の実施例は、
現在のフレームの画像に対してターゲット検出を行い、前記現在のフレームの画像におけるターゲット検出枠の、第1の位置及び第1のサイズを表すための第1の情報を得るための検出モジュールと、
カルマンフィルタを利用してターゲット追跡を行い、前記現在のフレームの画像におけるターゲット追跡枠の、第2の位置及び第2のサイズを表すための第2の情報を得るための追跡モジュールと、
カルマンフィルタにおける予測誤差共分散行列に対してフォールトトレランス補正を行い、補正後の共分散行列を得るための補正モジュールと、
前記第1の情報、前記第2の情報及び前記補正後の共分散行列に基づいて、前記現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠との間のマハラノビス距離を算出するための第1の算出モジュールと、
前記マハラノビス距離に基づいて、前記現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠に対して関連マッチングを行うためのマッチングモジュールと、
を含むターゲット追跡装置を提供する。
第3の態様では、本開示の実施例は、さらに、
少なくとも1つのプロセッサと、
該少なくとも1つのプロセッサにより実行可能で、前記少なくとも1つのプロセッサにより実行されることにより、前記少なくとも1つのプロセッサに前記ターゲット追跡方法を実行させる命令が記憶され、前記少なくとも1つのプロセッサと通信接続されたメモリと、
を含む電子機器を提供する。
第4の態様では、本開示の実施例は、前記コンピュータに前記ターゲット追跡方法を実行させるためのコンピュータ命令が格納されている非一時的なコンピュータ読み取り可能な記憶媒体を提供する。
上記出願における1つの実施例は、以下の利点又は有益な効果を有する。フォールトトレランス補正後の予測誤差共分散行列に基づいてターゲット検出枠とターゲット追跡枠との間のマハラノビス距離を算出できることにより、ターゲット運動状態が急激に変化する場合であっても、該マハラノビス距離をより合理的な範囲内に維持することができ、それにより、該マハラノビス距離に基づいて現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠に対して関連マッチングを行う場合、ターゲットが異なる運動状態で追跡されるロバスト性を向上させることができる。現在のフレームの画像に対してターゲット検出を行い、ターゲット検出枠の、第1の位置及び第1のサイズを表すための第1の情報を得て、カルマンフィルタを利用してターゲット追跡を行い、現在のフレームの画像におけるターゲット追跡枠の、第2の位置及び第2のサイズを表すための第2の情報を得て、カルマンフィルタにおける予測誤差共分散行列に対してフォールトトレランス補正を行い、補正後の共分散行列を得て、前記第1の情報、前記第2の情報及び前記補正後の共分散行列に基づいて、前記現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠との間のマハラノビス距離を算出し、前記マハラノビス距離に基づいて、前記現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠に対して関連マッチングを行う技術手段を採用するため、現在の追跡ターゲットの運動状態が急激に変化する場合に追跡失効をもたらしやすいという技術的課題を解消し、さらに、ターゲットが異なる運動状態で追跡されるロバスト性を向上させるという技術的効果を達成する。
上記好ましい方式が有する他の効果は、以下に具体的な実施例を組み合わせて説明する。
図面は本解決手段をよりよく理解するために用いられ、本開示を限定するものではない。
本開示の実施例に係るターゲット追跡方法のフローチャートである。 本開示の具体的な実施例におけるターゲット追跡プロセスのフローチャートである。 本開示の実施例に係るターゲット追跡方法を実現するための追跡装置のブロック図である。 本開示の実施例に係るターゲット追跡方法を実現するための電子機器のブロック図である。
以下に図面を参照しながら、本開示の例示的な実施例を説明し、理解を容易にするために本開示の実施例の様々な詳細を含み、それらを例示的なものに過ぎないと考えられるべきである。したがって、当業者であれば、本開示の範囲及び精神から逸脱することなく、ここで説明された実施例に対して様々な変更及び補正を行うことができることを理解すべきである。同様に、明確かつ簡潔にするために、以下の説明において公知の機能及び構造に対する説明を省略する。
本開示の明細書及び特許請求の範囲における「第1」、「第2」などの用語は、類似する対象を区別するために用いられ、必ずしも特定の順序又は前後順序を説明するために用いられるわけではない。ここに記載される本開示の実施例がここに示されるか又は記載されるもの以外の順序で実施され得るように、そのように使用されるデータは適切な状況下で交換可能であることが理解されるべきである。さらに、「含む」及び「有する」という用語、並びにそれらの変形は、非排他的な包含をカバーすることを意図し、例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品又は機器は、必ずしも明示的に記載されているステップ又はユニットに限定されるものではなく、明示的に記載されていない、又はプロセス、方法、製品又は機器に固有の他のステップ又はユニットを含んでもよい。
図1を参照すると、図1は本開示の実施例に係るターゲット追跡方法のフローチャートであり、該方法は、電子機器に応用され、図1に示すように、以下のステップ101~105を含む。
ステップ101では、現在のフレームの画像に対してターゲット検出を行い、前記現在のフレームの画像におけるターゲット検出枠の第1の情報を取得する。
本実施例では、該第1の情報は、第1の位置及び第1のサイズを表し、すなわち、該当ターゲット検出枠に含まれるターゲットの位置情報(例えば、座標情報)及びサイズ情報を表すことに用いられる。例えば、該第1の情報は、(x、y、w、h)と表すことができ、ここで、xは、ターゲット検出枠の左上隅の横座標を表し、yは、ターゲット検出枠の左上隅の縦座標を表し、wは、ターゲット検出枠の幅を表し、hは、ターゲット検出枠の高さを表し、さらに、該x、y、w及びhは、いずれも画素を単位として、1つのターゲットの画像における領域に対応することができる。
好ましくは、上記現在のフレームの画像に対してターゲット検出を行うプロセスは、現在のフレームの画像をターゲット検出モデル(又はターゲット検出器と呼ばれる)に入力し、前記現在のフレームの画像におけるターゲット検出枠の第1の情報を取得することを含む。理解されるように、ターゲット検出により得られたターゲット検出枠の数は、複数であってもよく、すなわち、ターゲット検出により一連のターゲット検出枠を得ることができ、各ターゲット検出枠は、該当ターゲットの座標情報及びサイズ情報を含む。上記ターゲット検出モデルは、関連技術におけるディープラーニングに基づく方法を選択してトレーニングして得られるものであり、ダイレクトマルチターゲット検出(Single Shot Multi Box Detector、SSD)モデル、ファインダイレクトマルチターゲット検出(Single-Shot Refinement Neural Network for Object Detection、RefineDet)、モバイルビジョンアプリケーションのための効率的な畳み込みニューラルネットワークに基づくダイレクトマルチターゲット検出(MobileNet based Single Shot Multi Box Detector、MobileNet-SSD)モデル、統合されたリアルタイムオブジェクト検出(You Only Look Once: Unified、Real-Time Object Detection、YOLO)モデルなどのうちのいずれか1つであってもよい。
一実施形態では、ターゲット検出モデルを利用してターゲット検出を行う場合、該ターゲット検出モデルが前処理された画像に基づいてトレーニングして得られると、現在のフレームの画像に対してターゲット検出を行う前に、現在のフレームの画像に対して前処理を行う必要があり、例えば、現在のフレームの画像を固定サイズ(例えば、512*512)にスケーリングし、かつ統合されたRGB平均値(例えば、[104、117、123])を減算することにより、モデルトレーニングプロセスにおけるトレーニングサンプルとの統合を保証し、モデルのロバスト性を向上させる。
別の実施形態では、上記現在のフレームの画像は、監視又は他のシーンカメラのリアルタイムビデオストリーム内の画像であってもよい。上記ターゲットは、歩行者、車両などであってもよい。
ステップ102では、カルマンフィルタを利用してターゲット追跡を行い、前記現在のフレームの画像におけるターゲット追跡枠の第2の情報を得る。
本実施例では、該第2の情報は、第2の位置及び第2のサイズを表し、すなわち、該当ターゲット追跡枠に含まれるターゲットの位置情報(例えば、座標情報)及びサイズ情報を表すことに用いられる。例えば、該第2の情報は、(x、y、w、h)と表すことができ、ここで、xは、ターゲット追跡枠の左上隅の横座標を表し、yは、ターゲット追跡枠の左上隅の縦座標を表し、wは、ターゲット追跡枠の幅を表し、hは、ターゲット追跡枠の高さを表し、さらに、該x、y、w及びhは、いずれも画素を単位として、1つのターゲットの画像における領域に対応することができる。
上記カルマンフィルタ(Kalmanフィルタ)を利用してターゲット追跡を行うことは、以下のように理解できる。ターゲット軌跡の既存の運動状態に基づいて、該ターゲットが現在のフレームの画像に出現する可能性のある位置及びサイズの大きさを予測する。該ターゲット軌跡は、現在のフレームの画像の前のいくつかのフレームの画像において、全ての同じターゲットに属する異なるフレームの画像におけるターゲット検出枠と表すことができる。各ターゲット軌跡は、1つのKalmanフィルタに対応し、該Kalmanフィルタは、ターゲットが初めて出現した検出枠で初期化し、かつ各フレームの画像の関連マッチングが完了した後、マッチングしたターゲット検出枠で該Kalmanフィルタを補正する。新たに得られた1つのフレームの画像(例えば、現在のフレームの画像)に対して、記憶された全てのターゲット軌跡のKalmanフィルタを予測し、ターゲット軌跡の予測された現在のフレームの画像に出現する位置を得て、かつKalmanフィルタの予測誤差共分散行列Σを得ることができる。該予測誤差共分散行列Σは、好ましくは、4x4の行列であり、ターゲット追跡における予測値と真値との誤差共分散を説明するために用いられる。
ステップ103では、カルマンフィルタにおける予測誤差共分散行列に対してフォールトトレランス補正を行い、補正後の共分散行列を得る。
ステップ104では、第1の情報、第2の情報及び補正後の共分散行列に基づいて、前記現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠との間のマハラノビス距離を算出する。
理解できるように、上記カルマンフィルタにおける予測誤差共分散行列に対してフォールトトレランス補正を行うことは、主に、マハラノビス距離算出式を改善することにより、改善されたマハラノビス距離算出式により算出されたターゲット検出枠とターゲット追跡枠との間のマハラノビス距離を、ターゲット運動状態が急激に変化する場合であっても、合理的な範囲内に維持することができる。上記フォールトトレランス補正の方式について、実際の需要に基づいて設定することができ、ここで限定しない。
ステップ105では、前記マハラノビス距離に基づいて、前記現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠に対して関連マッチングを行う。
好ましくは、このステップにおいてハンガリーアルゴリズムなどの画像マッチングアルゴリズムを利用してターゲット検出枠とターゲット追跡枠との間の関連マッチングを行うことにより、いくつかのマッチングしたターゲット検出枠とターゲット追跡枠との間のペアリングを得ることができる。該ペアリングにおけるターゲット検出枠とターゲット追跡枠は同じターゲット軌跡に属し、同じターゲットに属し、統合されたターゲット識別IDを付与することができる。関連マッチングが完了した後に現在のフレームの画像での新たなターゲット軌跡を得ることができ、従来のターゲット軌跡の更新、従来のターゲット軌跡の削除、及び/又は新たなターゲット軌跡の増加を含む。
好ましくは、このステップにおいて関連マッチングを行うプロセスは、以下を含むことができる。前記マハラノビス距離が予め設定された閾値以下である場合、該当ターゲット検出枠とターゲット追跡枠との間のマッチングを確定するか、又は前記マハラノビス距離が前記予め設定された閾値より大きい場合、該当ターゲット検出枠とターゲット追跡枠との間のミスマッチングを確定する。つまり、ターゲット検出枠とターゲット追跡枠との間のマハラノビス距離が小さいほど、両者が同じターゲットに属する可能性が高くなる。これにより、距離情報と予め設定された閾値との比較により関連マッチングを行うことで、マッチングプロセスを簡単に実現することができる。
本開示の実施例に係るターゲット追跡方法は、フォールトトレランス補正後の予測誤差共分散行列に基づいてターゲット検出枠とターゲット追跡枠との間のマハラノビス距離を算出できることにより、ターゲット運動状態が急激に変化する場合であっても、該マハラノビス距離をより合理的な範囲内に維持することができ、それにより該マハラノビス距離に基づいて現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠に対して関連マッチングを行う場合、ターゲットが異なる運動状態で追跡されるロバスト性を向上させることができる。
マルチターゲット追跡において、関連技術におけるマハラノビス距離の算出式は以下のとおりである。
ここで、μは、カルマンフィルタの平均値(x、y、w、h)を表し、カルマンフィルタの予測ターゲット(すなわち、ターゲット追跡枠)の現在のフレームの画像における座標及び幅と高さである。Σは、カルマンフィルタの予測誤差共分散行列を表す。Xは、現在のフレームの画像におけるターゲット検出枠の座標及び幅と高さを表し、あるターゲットの現在の実際の運動状態(x、y、w、h)を記述する変数である。1つのターゲットが一定の時間内に同じ運動状態(例えば、長時間静止するか又は同じ運動速度を長時間維持するなど)を維持する場合、カルマンフィルタの共分散Σが小さく、Σ-1が大きく、すなわち、予測値と真値との偏差が小さいと考えられ、予測ターゲット軌跡が次のフレームにある場合に依然として元の運動状態を維持する傾向がある。ターゲットが元の運動状態を保持する場合、すなわち(X-μ)が0に近く、Σ-1が大きい場合に、算出して得られたマハラノビス距離D値が小さいが、ターゲットの運動状態が急激に変化する場合、(X-μ)の値が大きくなり、Σ-1が大きい場合に、算出して得られたマハラノビス距離D値が異常に大きくなり、後続のマッチングエラーをもたらす。算出して得られたマハラノビス距離Dが予め設定された閾値より大きい場合、ターゲット検出枠Xが該カルマンフィルタに対応する軌跡に属さないと考えられ、追跡失敗をもたらす。
一実施形態では、上記ステップ104でマハラノビス距離を算出するプロセスは、以下のとおりである。
以下の式(該式は、改善されたマハラノビス距離算出式として理解できる)を利用して、現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠との間のマハラノビス距離を算出する。
ここで、Xは、現在のフレームの画像におけるターゲット検出枠の第1の情報を表し、例えば、位置情報及びサイズ情報を含み、(x、y、w、h)と表すことができる。μは、カルマンフィルタに基づいて得られた現在のフレームの画像におけるターゲット追跡枠の第2の情報を表し、例えば、位置情報及びサイズ情報を含み、(x、y、w、h)と表すことができる。Σは、カルマンフィルタの予測誤差共分散行列を表す。(Σ+αE)は、補正後の共分散行列を表し、αは、0より大きい予め設定された係数であり、Eは、単位行列を表す。
上記改善されたマハラノビス距離算出式に対する分析により、以下のことが分かる。
α>0の場合、常に、以下の不等式(1)~(3)がある。
上記不等式(3)に基づいて、D(X,μ)>DMnew(X,μ)を得ることができる。
また、以下の不等式(4)~(7)が存在する。
上記不等式(7)に基づいて、DMnew(X,μ)<√α|X-μ|を得ることができる。
すなわち、任意のXに対して、いずれもDMnew<Dであり、かつΣが小さいほど、両者の偏差が大きくなる。1つのターゲットが一定の時間内に同じ運動状態(例えば、長時間に静止するか又は長時間に同じ運動速度を維持するなど)を維持する場合、カルマンフィルタの共分散Σが小さい。ターゲットが従来の運動状態を保持する場合、すなわち(X-μ)が0に近く、Dに比べて、算出して得られたDMnewの値が小さい。ターゲットの運動状態が急激に変化する場合、(X-μ)の値が大きくなるが、Dに比べて、算出されたDMnewは、より小さい値に制約される。
これにより、上記改善されたマハラノビス距離算出式により、ターゲット運動状態が急激に変化する場合であっても、算出されたマハラノビス距離を合理的な範囲内に維持することができ、それによりターゲットが異なる運動状態で追跡されるロバスト性を向上させる。
本開示の実施例では、関連マッチングの正確性を向上させるために、算出されたマハラノビス距離に基づいて、他の関連マッチングを補助する類似度測定方法における、例えば外観特徴類似度、形状輪郭類似度などを結合して、類似度マッチング行列を構成することにより、該類似度マッチング行列に基づいて関連マッチングを行うことができる。好ましくは、上記ステップ104の後、前記方法は、さらに、以下を含む。
前記マハラノビス距離に基づいて、距離類似度行列Mを算出する。ここで、前記Mにおける第i行第j列の値は、前記現在のフレームの画像における第i個のターゲット追跡枠と第j個のターゲット検出枠との間の距離類似度を表し、例えば、該距離類似度は、好ましくは、第i個のターゲット追跡枠と第j個のターゲット検出枠との間のマハラノビス距離DMnewの逆数す、なわちDMnew -1、又は他の方式を採用して該マハラノビス距離DMnewを処理した後の値であり、類似度を体現すればよい。
外観深度特徴類似度行列Mを算出する。ここで、前記Mにおける第i行第j列の値は、第i個のターゲット追跡枠に対応する前のフレームの画像における外観深度特徴Fiと第j個のターゲット検出枠の外観深度特徴Fjとのコサイン類似度cos(Fi、Fj)を表し、外観深度特徴Fに対して深度畳み込みニューラルネットワーク(例えば、残差ニューラルネットワークResNet)を利用して該当フレームの画像から抽出して得ることができる。
前記M及び前記Mに基づいて、類似度マッチング行列を決定する。
上記ステップ105は、前記類似度マッチング行列に基づいて、前記現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠に対して関連マッチングを行うことを含む。
一実施形態では、類似度マッチング行列を決定する場合、加重平均の方式でMとMを融合して得ることができ、例えば、該類似度マッチング行列は、aMとbMの合計に等しく、ここで、aとbは、それぞれMとMの重みであり、実際の需要に基づいて予め設定することができる。
別の実施形態では、類似度マッチング行列に基づいて、現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠に対して関連マッチングを行う場合、ハンガリーアルゴリズムを利用して二分図マッチングを行うことができ、それによりターゲット検出枠とターゲット追跡枠との間の一対一マッチングの結果を得る。
理解できるように、マルチターゲット追跡において、前後のターゲットが深刻に遮蔽される状況が発生する可能性があり、レンズに近いターゲットがレンズから遠いターゲットの大部分の領域を遮蔽するため、ターゲットの追跡エラーをもたらす可能性があり、後続のフレームの画像において誤った追跡結果を得る。この問題を解消するために、本開示の実施例は、ターゲットの前後トポロジー関係を利用して制約マッチングを行うことを提案する。
透視関係の存在のため、撮像装置(例えば、カメラ)が収集した画像において、地面ターゲット検出枠の下縁の中心点は、ターゲットの接地点と見なすことができ、該点が画像の下方に近いほど、レンズに近づくと考えられ、そうでなければ、レンズから離れると考えられる。2つのターゲット検出枠に対して、それらの間の交差比が一定の閾値より大きい場合、該当2つのターゲットが深刻に遮蔽されると考えられる。ターゲット接地点の位置により、2つのターゲットの前後関係を判断することができる。ここで、カメラに近いターゲットは、前景として遮蔽するターゲットであり、カメラから遠いターゲットは、背景として遮蔽されるターゲットである。全ての遮蔽ターゲットの間の前後関係は、ターゲットの前後トポロジー関係と呼ぶことができる。前後トポロジー関係の一致性は、以下のように定義することができる。連続フレーム(画像)において、前のフレームの2つのターゲットA及びBが深刻に遮蔽され、ターゲットAは、前景として遮蔽するターゲットであり、ターゲットBは、背景として遮蔽されるターゲットである場合、後のフレームにおいて、ターゲットA及びBが依然として深刻に遮蔽されると、ターゲットAは、依然として前景として遮蔽するターゲットであり、ターゲットBは、背景として遮蔽されるターゲットである。現在のフレームの画像において複数のターゲットが深刻に遮蔽される場合、前のフレームのターゲット軌跡の間の前後トポロジー関係を取得することができ、かつ関連マッチングにおいて前後トポロジー関係の一致性を利用して制約することにより、マッチングがより正確になる。
好ましくは、上記ステップ105の後、前記方法は、
前記現在のフレームの画像のトポロジー関係行列MT1を取得し、かつ前記現在のフレームの画像の前のフレームの画像のトポロジー関係行列MT2を取得することと、
T1とMT2を要素ごとに乗算して、トポロジー変化行列Mを得ることと、
を利用して、現在のフレームの画像におけるターゲット検出枠のマッチング結果に対して補正処理を行うことと、をさらに含む。
ここで、前記MT1における第i行第j列の値は、前記現在のフレームの画像における第i個のターゲットと第j個のターゲットとの前後関係を表し、前記MT2における第i行第j列の値は、前記前のフレームの画像における第i個のターゲットと第j個のターゲットとの前後関係を表し、前記Mにおける第i行第j列の値は、前記前のフレームの画像に比べて、前記現在のフレームの画像における第i個のターゲットと第j個のターゲットとの前後関係が変化したか否かを表す。上記補正処理は、前のフレームと現在のフレームにおいて、第i個のターゲットと第j個のターゲットとの前後関係が変化すると、現在のフレームにおける第i個のターゲットと第j個のターゲットとがマッチングした検出枠に対して交換処理を行うことにより、ターゲット追跡過程において関連マッチングの結果を補正する。
このように、隣接するフレームの画像における遮蔽物の前後のトポロジー関係の一致性の制約を利用することにより、ターゲットが深刻に遮蔽された場合にマッチングを行う信頼性を向上させ、ターゲット追跡プロセスがスムーズに進行することを保証することができる。
例えば、MT1及びMT2を取得する場合、ターゲット検出枠の下縁中心点(x+w/2、y+h)を該当ターゲットの接地点とすることができ、透視原理に基づいて、縦座標y+hが大きいほど、ターゲット距離がカメラに近づき、逆にカメラから離れる。2つのターゲットの間の前後関係を決定する場合、該当ターゲット検出枠の下縁中心点の縦座標を比較することができる。例えば、MT1を例として、ここで、第i行第j列の値は、現在のフレームの画像における第i個のターゲットと第j個のターゲットの前後関係tを表し、第i個のターゲットと第j個のターゲットに遮蔽関係が存在し、かつy+h<y+hである場合、t=-1であり、第i個のターゲットが第j個のターゲットの前にあることを表すか、又は第i個のターゲットと第j個のターゲットに遮蔽関係が存在し、かつ且y+h>y+hである場合、t=1であり、第i個のターゲットが第j個のターゲットの後にあることを表すか、又は第i個のターゲットと第j個のターゲットに遮蔽関係が存在しない場合、t=0である。MT2に対して、以上のMT1の方式で設定することができる。このように、MT1とMT2を要素ごとに乗算して得られたトポロジー変化行列Mにおいて、第i個のターゲットと第j個のターゲットがいずれも正確にマッチングする場合、Mにおける第i行第j列の値が0又は1であり、すなわち、第i個のターゲットと第j個のターゲットの前後関係が変化しないが、Mにおける第i行第j列の値が-1である場合、マッチングエラーにより、第i個のターゲットと第j個のターゲットが隣接する2つのフレームにおける前後関係が変化したことを表し、このときに現在のフレームの画像における該2つのターゲットがマッチングした検出枠に対して交換処理を行うことにより、該当ターゲット軌跡を補正し、追跡プロセスがスムーズに進行することを保証する。
好ましくは、2つのターゲットに遮蔽関係が存在するか否かに対して、該当検出枠と追跡枠の交差比(Intersection over Union、IoU)を利用して決定することができる。
本開示の実施例が適用されるシーンは、ターゲットの位置、身分、運動状態及び履歴軌跡などの情報を取得するために、スマート都市、スマート交通、スマート小売などのシーンでの歩行者及び/又は車両などのターゲットの継続的な追跡を含むが、これらに限定されない。
以下に、図2を参照して本開示の具体的な実施例におけるターゲット追跡プロセスを説明する。
図2に示すように、該当ターゲット追跡プロセスは、以下のステップS21~S28を含むことができる。
S21では、監視又は他のシーンカメラのリアルタイムビデオストリームを取得する。
S22では、該リアルタイムビデオストリームから現在のフレームの画像を抽出し、かつ前処理を行い、例えば、固定サイズにスケーリングし、かつ統合されたRGB平均値を減算する。
S23では、前処理された現在のフレームの画像を予め設定されたターゲット検出器に入力し、一連のターゲット検出枠を出力し、各枠は、ターゲットの座標及びサイズ情報を含む。
S24では、カルマンフィルタを利用してターゲット追跡を行い、現在のフレームの画像におけるターゲット追跡枠に含まれるターゲットの座標及びサイズ情報を得る。
S25では、改善されたマハラノビス距離算出式により、現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠との間のマハラノビス距離を算出し、具体的なプロセスは上記内容を参照する。
S26では、S25で得られたマハラノビス距離に基づいて、現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠に対して関連マッチングを行い、例えば、ハンガリーアルゴリズムを利用して二分図マッチングを行う。
S27では、隣接するフレームの画像におけるターゲットの前後トポロジー関係を利用して関連マッチング結果に対して一致性制約を行う。
S28では、現在のフレームの画像における追跡プロセスを終了し、かつ次の画像フレームを抽出し、ビデオストリームが終了するまで、上記S22~S27を繰り返す。記録が存在するが一定の時間内(いくつかの画像フレームを超える)に任意の検出枠とマッチングしないターゲット軌跡に対して、それをオフフィールドとマークし、将来に関連マッチングプロセスに参加しない。
図3を参照すると、図3は、本開示の実施例に係るターゲット追跡装置の構造概略図であり、図3に示すように、該ターゲット追跡装置30は、
現在のフレームの画像に対してターゲット検出を行い、前記現在のフレームの画像におけるターゲット検出枠の、第1の位置及び第1のサイズを表すための第1の情報を得るための検出モジュール31と、
カルマンフィルタを利用してターゲット追跡を行い、前記現在のフレームの画像におけるターゲット追跡枠の、第2の位置及び第2のサイズを表すための第2の情報を得るための追跡モジュール32と、
カルマンフィルタにおける予測誤差共分散行列に対してフォールトトレランス補正を行い、補正後の共分散行列を得るための補正モジュール33と、
前記第1の情報、前記第2の情報及び前記補正後の共分散行列に基づいて、前記現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠との間のマハラノビス距離を算出するための第1の算出モジュール34と、
前記マハラノビス距離に基づいて、前記現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠に対して関連マッチングを行うためのマッチングモジュール35と、
を含む。
好ましくは、前記第1の算出モジュール34は、具体的には、以下の式を利用して、前記現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠との間のマハラノビス距離を算出することに用いられる。
ここで、Xは、前記第1の情報を表し、μは、前記第2の情報を表し、Σは、前記カルマンフィルタにおける予測誤差共分散行列を表し、(Σ+αE)は、前記補正後の共分散行列を表し、αは、0より大きい予め設定された係数であり、Eは、単位行列を表す。
好ましくは、前記マッチングモジュール35は、具体的には、前記マハラノビス距離が予め設定された閾値以下である場合、該当ターゲット検出枠とターゲット追跡枠との間のマッチングを確定するか、又は前記マハラノビス距離が前記予め設定された閾値より大きい場合、該当ターゲット検出枠とターゲット追跡枠との間のミスマッチングを確定することに用いられる。
好ましくは、前記ターゲット追跡装置30は、
前記現在のフレームの画像のトポロジー関係行列MT1を取得し、かつ前記現在のフレームの画像の前のフレームの画像のトポロジー関係行列MT2を取得するための取得モジュールと、
前記MT1と前記MT2を要素ごとに乗算して、トポロジー変化行列Mを得るための第2の算出モジュールと、
前記Mを利用して、前記現在のフレームの画像におけるターゲット検出枠のマッチング結果に対して補正処理を行うための処理モジュールと、をさらに含み、
ここで、前記MT1における第i行第j列の値は、前記現在のフレームの画像における第i個のターゲットと第j個のターゲットとの前後関係を表し、前記MT2における第i行第j列の値は、前記前のフレームの画像における第i個のターゲットと第j個のターゲットとの前後関係を表し、前記Mにおける第i行第j列の値は、前記前のフレームの画像に比べて、前記現在のフレームの画像における第i個のターゲットと第j個のターゲットとの前後関係が変化したか否かを表す。
好ましくは、前記ターゲット追跡装置30は、
前記マハラノビス距離に基づいて、第i行第j列の値が前記現在のフレームの画像における第i個のターゲット追跡枠と第j個のターゲット検出枠との間の距離類似度を表す距離類似度行列Mを算出するための第3の算出モジュールと、
第i行第j列の値が第i個のターゲット追跡枠に対応する前のフレームの画像における外観深度特徴と第j個のターゲット検出枠の外観深度特徴とのコサイン類似度を表す外観深度特徴類似度行列Mを算出するための第4の算出モジュールと、
前記M及び前記Mに基づいて、類似度マッチング行列を決定するための決定モジュールと、
を含む。
好ましくは、前記マッチングモジュール35は、具体的には、前記類似度マッチング行列に基づいて、前記現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠に対して関連マッチングを行うことに用いられる。
理解できるように、本開示の実施例のターゲット追跡装置30は、上記図1に示す方法の実施例で実現された各プロセスを実現し、かつ同じ有益な効果を達成することができ、重複を回避するために、ここでは説明を省略する。
本開示の実施例によれば、本開示は、電子機器及び読み取り可能な記憶媒体をさらに提供する。
図4に示すように、本開示の実施例に係るターゲット追跡方法を実現するための電子機器のブロック図である。電子機器は、様々な形式のデジタルコンピュータ、例えば、ラップトップコンピュータ、デスクトップコンピュータ、作業台、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータを表すことを目的とする。電子機器は、さらに、様々な形式の移動装置、例えば、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス及び他の類似する算出装置を表すことができる。本明細書に示された部材、それらの接続及び関係、並びにそれらの機能は単なる例示であり、本明細書に記載された及び/又は要求された本開示の実現を制限することを意図しない。
図4に示すように、該電子機器は、1つ又は複数のプロセッサ401、メモリ402、及び高速インタフェース及び低速インタフェースを含む各部材を接続するためのインタフェースを含む。各部材は、異なるバスを利用して互いに接続され、かつ共通のマザーボードに取り付けられるか又は必要に応じて他の方式で取り付けられる。プロセッサは、メモリ又は記憶装置に記憶されて外部入力/出力装置(例えば、インタフェースに結合された表示装置)にGUIのグラフィック情報を表示する命令を含む、電子機器内で実行された命令を処理することができる。他の実施形態では、必要であれば、複数のプロセッサ及び/又は複数のバスを複数のメモリ及び複数の記憶装置と共に使用することができる。同様に、複数の電子機器に接続することができ、各機器は、一部の必要な操作(例えば、サーバアレイ、一組のブレードサーバ、又はマルチプロセッサシステムとする)を提供する。図4において1つのプロセッサ401を例とする。
メモリ402は、すなわち、本開示に係る非一時的なコンピュータ読み取り可能な記憶媒体である。ここで、前記メモリに少なくとも1つのプロセッサにより実行可能な命令が記憶されることにより、前記少なくとも1つのプロセッサが本開示に係るターゲット追跡方法を実行する。本開示の非一時的なコンピュータ読み取り可能な記憶媒体は、本開示に係るターゲット追跡方法をコンピュータに実行させるためのコンピュータ命令を記憶する。
メモリ402は、非一時的なコンピュータ読み取り可能な記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶することに用いることができ、例えば、本開示の実施例におけるターゲット追跡方法に対応するプログラム命令/モジュール(例えば、図3に示す検出モジュール31、追跡モジュール32、補正モジュール33、第1の算出モジュール34及びマッチングモジュール35)である。プロセッサ401は、メモリ402に記憶された非瞬時ソフトウェアプログラム、命令及びモジュールを実行することにより、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち上記方法実施例におけるターゲット追跡方法を実現する。
メモリ402は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを記憶できるプログラム記憶領域と、電子機器の使用により作成されたデータなどを記憶できるデータ記憶領域とを含むことができる。また、メモリ402は、高速ランダムアクセスメモリを含むことができ、さらに、非一時的メモリを含むことができ、例えば、少なくとも1つの磁気ディスクメモリ、フラッシュメモリ、又は他の非一時的固体メモリである。いくつかの実施例では、メモリ402は、好ましくは、プロセッサ401に対して遠隔に設置されたメモリを含み、これらの遠隔メモリは、ネットワークを介して電子機器に接続することができる。上記ネットワークの例は、インターネット、企業イントラネット、ローカルエリアネットワーク、移動体通信ネットワーク及びそれらの組み合わせを含むがこれらに限定されない。
ターゲット追跡方法の電子機器は、さらに、入力装置403及び出力装置404を含む。プロセッサ401、メモリ402、入力装置403及び出力装置404は、バス又は他の方式により接続されてもよく、図4においてバスにより接続されることを例とする。
入力装置403は、入力されたデジタル又は文字情報を受信し、かつターゲット追跡方法の電子機器のユーザ設定及び機能制御に関連するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパネル、指示レバー、1つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置404は、表示装置、補助照明装置(例えば、LED)及び触覚フィードバック装置(例えば、振動モータ)などを含むことができる。該表示装置は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ及びプラズマディスプレイを含むがこれらに限定されない。いくつかの実施形態では、表示装置は、タッチスクリーンであってもよい。
ここで説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア及び/又はこれらの組み合わせで実現され得る。これらの様々な実施形態は、特定用途向け又は汎用のプログラマブルプロセッサであり得る少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行及び/又は解釈できる、1つ又は複数のコンピュータプログラムで実施され、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、かつデータ及び命令を該記憶システム、該少なくとも1つの入力装置、及び該少なくとも1つの出力装置に伝送することができることを含む。
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、かつ、高レベルの手続き型及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/機械語を利用してこれらのコンピューティングプログラムを実施することができる。本明細書で使用されるように、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、装置、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指し、機械読み取り可能な信号とする機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。
ユーザとの対話を提供するために、コンピュータで、ここで説明されたシステム及び技術を実施することができ、該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)、キーボード及びポインティング装置(例えば、マウス又はトラックボール)を有し、ユーザは、該キーボード及び該ポインティング装置により入力をコンピュータに提供することができる。他の種類の装置は、さらに、ユーザとの対話を提供するために用いられ、例えば、ユーザに提供されたフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、かつ任意の形式(音声入力、音声入力又は触覚入力を含む)でユーザからの入力を受信することができる。
ここで説明されたシステム及び技術を、バックグラウンド部材を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア部材を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド部材を含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、該グラフィカルユーザインタフェース又は該ウェブブラウザを介してここで説明されたシステム及び技術の実施形態と対話することができる)、又はこのようなバックグラウンド部材、ミドルウェア部材、又はフロントエンド部材の任意の組み合わせを含むコンピューティングシステムに実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によりシステムの部品を互いに接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、インターネットを含む。
コンピュータシステムは、クライアント及びサーバを含むことができる。クライアントとサーバは、一般的に、互いに離れ、かつ一般的に通信ネットワークを介して対話する。クライアントとサーバとの関係は、それぞれのコンピュータ上で動作し、互いにクライアント-サーバの関係を有するコンピュータプログラムによって生成される。
本開示の実施例の技術的解決手段によれば、フォールトトレランス補正後の予測誤差共分散行列に基づいてターゲット検出枠とターゲット追跡枠との間のマハラノビス距離を算出できることにより、ターゲット運動状態が急激に変化する場合であっても、該マハラノビス距離をより合理的な範囲内に維持することができ、それにより該マハラノビス距離に基づいて現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠に対して関連マッチングを行う場合、ターゲットが異なる運動状態で追跡されるロバスト性を向上させることができる。
以上に示した様々な形式のフローを使用して、ステップを改めて並べ替えたり、追加したり、削除したりできることを理解すべきである。例えば、本開示に記載の各ステップは並列的に実行されてもよく、順序的に実行されてもよく、異なる順序で実行されてもよく、本開示の技術的解決手段の所望の結果を実現することができれば、本明細書では限定されない。
上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な補正、組み合わせ、サブ組み合わせ及び置換を行うことができることを理解すべきである。任意の本開示の精神及び原則内で行われた補正、同等置換及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims (11)

  1. 現在のフレームの画像に対してターゲット検出を行い、前記現在のフレームの画像におけるターゲット検出枠の、第1の位置及び第1のサイズを表すための第1の情報を得ることと、
    カルマンフィルタを利用してターゲット追跡を行い、前記現在のフレームの画像におけるターゲット追跡枠の、第2の位置及び第2のサイズを表すための第2の情報を得ることと、
    カルマンフィルタにおける予測誤差共分散行列に対してフォールトトレランス補正を行い、補正後の共分散行列を得ることと、
    前記第1の情報、前記第2の情報及び前記補正後の共分散行列に基づいて、前記現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠との間のマハラノビス距離を算出することと、
    前記マハラノビス距離に基づいて、前記現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠に対して関連マッチングを行うことと、
    前記現在のフレームの画像のトポロジー関係行列M T1 を取得し、かつ前記現在のフレームの画像の前のフレームの画像のトポロジー関係行列M T2 を取得することと、
    前記M T1 と前記M T2 を要素ごとに乗算して、トポロジー変化行列M を得ることと、
    前記M を利用して、前記現在のフレームの画像におけるターゲット検出枠のマッチング結果に対して補正処理を行うことと、
    を含み、
    前記M T1 における第i行第j列の値は、前記現在のフレームの画像における第i個のターゲットと第j個のターゲットとの前後関係を表し、前記M T2 における第i行第j列の値は、前記前のフレームの画像における第i個のターゲットと第j個のターゲットとの前後関係を表し、前記M における第i行第j列の値は、前記前のフレームの画像に比べて、前記現在のフレームの画像における第i個のターゲットと第j個のターゲットとの前後関係が変化したか否かを表す、ターゲット追跡方法。
  2. 前記の前記第1の情報、前記第2の情報及び前記補正後の共分散行列に基づいて、前記現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠との間のマハラノビス距離を算出することが、
    以下の式を利用して、前記現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠との間のマハラノビス距離を算出することを含み、
    ここで、Xは、前記第1の情報を表し、μは、前記第2の情報を表し、Σは、前記カルマンフィルタにおける予測誤差共分散行列を表し、(Σ+αE)は、前記補正後の共分散行列を表し、αは、0より大きい予め設定された係数であり、Eは、単位行列を表す請求項1に記載の方法。
  3. 前記の前記マハラノビス距離に基づいて、前記現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠に対して関連マッチングを行うことが、
    前記マハラノビス距離が予め設定された閾値以下である場合、該当ターゲット検出枠とターゲット追跡枠との間のマッチングを確定するか、又は前記マハラノビス距離が前記予め設定された閾値より大きい場合、該当ターゲット検出枠とターゲット追跡枠との間のミスマッチングを確定することを含む請求項1に記載の方法。
  4. 前記の前記現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠との間のマハラノビス距離を算出することの後、
    前記マハラノビス距離に基づいて、第i行第j列の値が前記現在のフレームの画像における第i個のターゲット追跡枠と第j個のターゲット検出枠との間の距離類似度を表す距離類似度行列Mを算出することと、
    第i行第j列の値が第i個のターゲット追跡枠に対応する前のフレームの画像における外観深度特徴と第j個のターゲット検出枠の外観深度特徴とのコサイン類似度を表す外観深度特徴類似度行列Mを算出することと、
    前記M及び前記Mに基づいて、類似度マッチング行列を決定することと、
    を含み、
    前記の前記マハラノビス距離に基づいて、前記現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠に対して関連マッチングを行うことが、
    前記類似度マッチング行列に基づいて、前記現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠に対して関連マッチングを行うことを含む請求項1に記載の方法。
  5. 現在のフレームの画像に対してターゲット検出を行い、前記現在のフレームの画像におけるターゲット検出枠の、第1の位置及び第1のサイズを表すための第1の情報を得るための検出モジュールと、
    カルマンフィルタを利用してターゲット追跡を行い、前記現在のフレームの画像におけるターゲット追跡枠の、第2の位置及び第2のサイズを表すための第2の情報を得るための追跡モジュールと、
    カルマンフィルタにおける予測誤差共分散行列に対してフォールトトレランス補正を行い、補正後の共分散行列を得るための補正モジュールと、
    前記第1の情報、前記第2の情報及び前記補正後の共分散行列に基づいて、前記現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠との間のマハラノビス距離を算出するための第1の算出モジュールと、
    前記マハラノビス距離に基づいて、前記現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠に対して関連マッチングを行うためのマッチングモジュールと、
    前記現在のフレームの画像のトポロジー関係行列M T1 を取得し、かつ前記現在のフレームの画像の前のフレームの画像のトポロジー関係行列M T2 を取得するための取得モジュールと、
    前記M T1 と前記M T2 を要素ごとに乗算して、トポロジー変化行列M を得るための第2の算出モジュールと、
    前記M を利用して、前記現在のフレームの画像におけるターゲット検出枠のマッチング結果に対して補正処理を行うための処理モジュールと、
    を含み、
    前記M T1 における第i行第j列の値は、前記現在のフレームの画像における第i個のターゲットと第j個のターゲットとの前後関係を表し、前記M T2 における第i行第j列の値は、前記前のフレームの画像における第i個のターゲットと第j個のターゲットとの前後関係を表し、前記M における第i行第j列の値は、前記前のフレームの画像に比べて、前記現在のフレームの画像における第i個のターゲットと第j個のターゲットとの前後関係が変化したか否かを表す、ターゲット追跡装置。
  6. 前記第1の算出モジュールが、以下の式を利用して、前記現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠との間のマハラノビス距離を算出することに用いられ、
    ここで、Xは、前記第1の情報を表し、μは、前記第2の情報を表し、Σは、前記カルマンフィルタにおける予測誤差共分散行列を表し、(Σ+αE)は、前記補正後の共分散行列を表し、αは、0より大きい予め設定された係数であり、Eは、単位行列を表す請求項に記載の装置。
  7. 前記マッチングモジュールが、前記マハラノビス距離が予め設定された閾値以下である場合、該当ターゲット検出枠とターゲット追跡枠との間のマッチングを確定するか、又は前記マハラノビス距離が前記予め設定された閾値より大きい場合、該当ターゲット検出枠とターゲット追跡枠との間のミスマッチングを確定することに用いられる請求項に記載の装置。
  8. 前記マハラノビス距離に基づいて、第i行第j列の値が前記現在のフレームの画像における第i個のターゲット追跡枠と第j個のターゲット検出枠との間の距離類似度を表す距離類似度行列Mを算出するための第3の算出モジュールと、
    第i行第j列の値が第i個のターゲット追跡枠に対応する前のフレームの画像における外観深度特徴と第j個のターゲット検出枠の外観深度特徴とのコサイン類似度を表す外観深度特徴類似度行列Mを算出するための第4の算出モジュールと、
    前記M及び前記Mに基づいて、類似度マッチング行列を決定するための決定モジュールと、
    を含み、
    前記マッチングモジュールが、
    前記類似度マッチング行列に基づいて、前記現在のフレームの画像におけるターゲット検出枠とターゲット追跡枠に対して関連マッチングを行うことに用いられる請求項に記載の装置。
  9. 少なくとも1つのプロセッサと、
    該少なくとも1つのプロセッサにより実行可能で、前記少なくとも1つのプロセッサにより実行されることにより、前記少なくとも1つのプロセッサに請求項1からのいずれか一項に記載の方法を実行させる命令が記憶され、前記少なくとも1つのプロセッサと通信接続されたメモリと、
    を含む電子機器。
  10. コンピュータに請求項1からのいずれか一項に記載の方法を実行させるためのコンピュータ命令が格納されている非一時的なコンピュータ読み取り可能な記憶媒体。
  11. プロセッサによって実行されると、請求項1からのいずれか一項に記載の方法を実現させるコンピュータプログラム。
JP2022527078A 2020-05-22 2020-09-25 ターゲット追跡方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラムプロダクト Active JP7375192B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010443892.8A CN111640140B (zh) 2020-05-22 2020-05-22 目标跟踪方法、装置、电子设备及计算机可读存储介质
CN202010443892.8 2020-05-22
PCT/CN2020/117751 WO2021232652A1 (zh) 2020-05-22 2020-09-25 目标跟踪方法、装置、电子设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
JP2023500969A JP2023500969A (ja) 2023-01-11
JP7375192B2 true JP7375192B2 (ja) 2023-11-07

Family

ID=72331521

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022527078A Active JP7375192B2 (ja) 2020-05-22 2020-09-25 ターゲット追跡方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラムプロダクト

Country Status (6)

Country Link
US (1) US20220383535A1 (ja)
EP (1) EP4044117A4 (ja)
JP (1) JP7375192B2 (ja)
KR (1) KR20220110320A (ja)
CN (1) CN111640140B (ja)
WO (1) WO2021232652A1 (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111640140B (zh) * 2020-05-22 2022-11-25 北京百度网讯科技有限公司 目标跟踪方法、装置、电子设备及计算机可读存储介质
CN112257502A (zh) * 2020-09-16 2021-01-22 深圳微步信息股份有限公司 一种监控视频行人识别与跟踪方法、装置及存储介质
CN112270302A (zh) * 2020-11-17 2021-01-26 支付宝(杭州)信息技术有限公司 肢体控制方法、装置和电子设备
CN112419368A (zh) * 2020-12-03 2021-02-26 腾讯科技(深圳)有限公司 运动目标的轨迹跟踪方法、装置、设备及存储介质
CN112488058A (zh) * 2020-12-17 2021-03-12 北京比特大陆科技有限公司 面部跟踪方法、装置、设备和存储介质
CN112528932B (zh) * 2020-12-22 2023-12-08 阿波罗智联(北京)科技有限公司 用于优化位置信息的方法、装置、路侧设备和云控平台
CN112800864B (zh) * 2021-01-12 2024-05-07 北京地平线信息技术有限公司 目标跟踪方法及装置、电子设备和存储介质
CN114764814A (zh) * 2021-01-12 2022-07-19 富泰华工业(深圳)有限公司 植物高度确定方法、装置、电子设备及介质
CN112785625B (zh) * 2021-01-20 2023-09-22 北京百度网讯科技有限公司 目标跟踪方法、装置、电子设备及存储介质
CN112785630A (zh) * 2021-02-02 2021-05-11 宁波智能装备研究院有限公司 一种显微操作中多目标轨迹异常处理方法及系统
CN112836684B (zh) * 2021-03-09 2023-03-10 上海高德威智能交通系统有限公司 基于辅助驾驶的目标尺度变化率计算方法、装置及设备
CN112907636B (zh) * 2021-03-30 2023-01-31 深圳市优必选科技股份有限公司 多目标跟踪方法、装置、电子设备及可读存储介质
CN113177968A (zh) * 2021-04-27 2021-07-27 北京百度网讯科技有限公司 目标跟踪方法、装置、电子设备及存储介质
CN113223083B (zh) * 2021-05-27 2023-08-15 北京奇艺世纪科技有限公司 一种位置确定方法、装置、电子设备及存储介质
CN113326773A (zh) * 2021-05-28 2021-08-31 北京百度网讯科技有限公司 识别模型训练方法、识别方法、装置、设备及存储介质
CN113763431B (zh) * 2021-09-15 2023-12-12 深圳大学 一种目标跟踪方法、系统、电子装置及存储介质
CN114001976B (zh) * 2021-10-19 2024-03-12 杭州飞步科技有限公司 控制误差的确定方法、装置、设备及存储介质
CN114549584A (zh) * 2022-01-28 2022-05-27 北京百度网讯科技有限公司 信息处理的方法、装置、电子设备及存储介质
CN115223135B (zh) * 2022-04-12 2023-11-21 广州汽车集团股份有限公司 车位跟踪方法、装置、车辆及存储介质
CN115063452B (zh) * 2022-06-13 2024-03-26 中国船舶重工集团公司第七0七研究所九江分部 一种针对海上目标的云台摄像头跟踪方法
CN115082713B (zh) * 2022-08-24 2022-11-25 中国科学院自动化研究所 引入空间对比信息的目标检测框提取方法、系统及设备
CN116129350B (zh) * 2022-12-26 2024-01-16 广东高士德电子科技有限公司 数据中心安全作业的智能监控方法、装置、设备及介质
CN115908498B (zh) * 2022-12-27 2024-01-02 清华大学 一种基于类别最优匹配的多目标跟踪方法及装置
CN115995062B (zh) * 2023-03-22 2023-08-04 西南交通大学 一种接触网电联接线线夹螺母异常识别方法及系统
CN116563769B (zh) * 2023-07-07 2023-10-20 南昌工程学院 一种视频目标识别追踪方法、系统、计算机及存储介质
CN117351039B (zh) * 2023-12-06 2024-02-02 广州紫为云科技有限公司 一种基于特征查询的非线性多目标跟踪方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011002266A (ja) 2009-06-17 2011-01-06 Nec Corp 目標追尾処理器及びそれに用いる誤差共分散行列の補正方法
CN103281476A (zh) 2013-04-22 2013-09-04 中山大学 基于电视图像运动目标的自动跟踪方法
US20150055829A1 (en) 2013-08-23 2015-02-26 Ricoh Company, Ltd. Method and apparatus for tracking object
CN107516303A (zh) 2017-09-01 2017-12-26 成都通甲优博科技有限责任公司 多目标跟踪方法及系统
CN109635657A (zh) 2018-11-12 2019-04-16 平安科技(深圳)有限公司 目标跟踪方法、装置、设备及存储介质
CN109816690A (zh) 2018-12-25 2019-05-28 北京飞搜科技有限公司 基于深度特征的多目标追踪方法及系统
CN110348332A (zh) 2019-06-24 2019-10-18 长沙理工大学 一种交通视频场景下机非人多目标实时轨迹提取方法
CN111192296A (zh) 2019-12-30 2020-05-22 长沙品先信息技术有限公司 一种基于视频监控的行人多目标检测与跟踪方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9552648B1 (en) * 2012-01-23 2017-01-24 Hrl Laboratories, Llc Object tracking with integrated motion-based object detection (MogS) and enhanced kalman-type filtering
CN109785368B (zh) * 2017-11-13 2022-07-22 腾讯科技(深圳)有限公司 一种目标跟踪方法和装置
CN110544272B (zh) * 2019-09-06 2023-08-04 腾讯科技(深圳)有限公司 脸部跟踪方法、装置、计算机设备及存储介质
CN111640140B (zh) * 2020-05-22 2022-11-25 北京百度网讯科技有限公司 目标跟踪方法、装置、电子设备及计算机可读存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011002266A (ja) 2009-06-17 2011-01-06 Nec Corp 目標追尾処理器及びそれに用いる誤差共分散行列の補正方法
CN103281476A (zh) 2013-04-22 2013-09-04 中山大学 基于电视图像运动目标的自动跟踪方法
US20150055829A1 (en) 2013-08-23 2015-02-26 Ricoh Company, Ltd. Method and apparatus for tracking object
CN107516303A (zh) 2017-09-01 2017-12-26 成都通甲优博科技有限责任公司 多目标跟踪方法及系统
CN109635657A (zh) 2018-11-12 2019-04-16 平安科技(深圳)有限公司 目标跟踪方法、装置、设备及存储介质
CN109816690A (zh) 2018-12-25 2019-05-28 北京飞搜科技有限公司 基于深度特征的多目标追踪方法及系统
CN110348332A (zh) 2019-06-24 2019-10-18 长沙理工大学 一种交通视频场景下机非人多目标实时轨迹提取方法
CN111192296A (zh) 2019-12-30 2020-05-22 长沙品先信息技术有限公司 一种基于视频监控的行人多目标检测与跟踪方法

Also Published As

Publication number Publication date
CN111640140B (zh) 2022-11-25
US20220383535A1 (en) 2022-12-01
EP4044117A4 (en) 2023-11-29
WO2021232652A1 (zh) 2021-11-25
JP2023500969A (ja) 2023-01-11
CN111640140A (zh) 2020-09-08
KR20220110320A (ko) 2022-08-05
EP4044117A1 (en) 2022-08-17

Similar Documents

Publication Publication Date Title
JP7375192B2 (ja) ターゲット追跡方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラムプロダクト
US20230186486A1 (en) Vehicle tracking method and apparatus, and electronic device
Tan et al. Robust monocular SLAM in dynamic environments
KR102175491B1 (ko) 상관 필터 기반 객체 추적 방법
CN111753961B (zh) 模型训练方法和装置、预测方法和装置
CN112528786B (zh) 车辆跟踪方法、装置及电子设备
Luo et al. Real-time dense monocular SLAM with online adapted depth prediction network
US11915439B2 (en) Method and apparatus of training depth estimation network, and method and apparatus of estimating depth of image
CN111612820A (zh) 多目标跟踪方法、特征提取模型的训练方法和装置
US11514676B2 (en) Method and apparatus for detecting region of interest in video, device and medium
CN112364865B (zh) 一种复杂场景中运动小目标的检测方法
Huang et al. An Occlusion‐aware Edge‐Based Method for Monocular 3D Object Tracking using Edge Confidence
CN111815595A (zh) 图像语义分割方法、装置、设备和可读存储介质
Hua et al. Light-weight UAV object tracking network based on strategy gradient and attention mechanism
CN111275827B (zh) 基于边缘的增强现实三维跟踪注册方法、装置和电子设备
Sun et al. Online multiple object tracking based on fusing global and partial features
CN111191619A (zh) 车道线虚线段的检测方法、装置、设备和可读存储介质
Wang et al. Improving RGB-D SLAM accuracy in dynamic environments based on semantic and geometric constraints
CN110849380B (zh) 一种基于协同vslam的地图对齐方法及系统
Wan et al. Automatic moving object segmentation for freely moving cameras
CN114707611B (zh) 基于图神经网络特征提取与匹配的移动机器人地图构建方法、存储介质及设备
Zheng et al. Learning factorized cross-view fusion for multi-view crowd counting
Vijayakumar et al. YOLO-based Object Detection Models: A Review and its Applications
CN111832459A (zh) 目标检测方法、装置、设备以及存储介质
Chen et al. SLDF: A semantic line detection framework for robot guidance

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220511

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220511

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230613

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230912

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231017

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231025

R150 Certificate of patent or registration of utility model

Ref document number: 7375192

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150