JP7178386B2

JP7178386B2 - 目標追跡方法、装置、電子デバイス、記憶媒体、及びプログラム

Info

Publication number: JP7178386B2
Application number: JP2020104949A
Authority: JP
Inventors: シアオシンジュー; ヨンイースン; チョンファーワン
Original assignee: Apollo Intelligent Connectivity Beijing Technology Co Ltd
Current assignee: Apollo Intelligent Connectivity Beijing Technology Co Ltd
Priority date: 2019-11-13
Filing date: 2020-06-18
Publication date: 2022-11-25
Anticipated expiration: 2040-06-18
Also published as: CN110827325B; US11282212B2; JP2021077334A; CN110827325A; EP3822857A1; US20210142489A1

Description

本発明は、自動運転分野に関し、特に目標追跡方法、装置、電子デバイス、記憶媒体、及びプログラムに関する。

追跡とは、物体の一意認識を解決する方法である。検出によって、ビデオフレームにおける検出枠を得ることができ、検出枠ごとに１つの障害対象が含まれている。そこで、１つ前のビデオフレームにおける検出枠が、後のビデオフレームにおけるどの検出枠との間にマッチング関係が存在しているかについては、追跡の解決すべき問題である。前後２つのビデオフレームにおける一対の検出枠の間にマッチング関係が存在することが確認された場合、この一対の検出枠に含まれる障害対象が同一の障害対象であると決定することができる。

従来技術では、通常、検出枠間のマッチング関係が単一の情報に基づいて決定されるため、追跡の正確性が高くない。特に、検出枠が重なる場合に、視差の問題による追跡エラーを起こしやすい。

本発明は、従来技術における１つ又は複数の技術的課題を解決するための目標追跡方法、装置、電子デバイス、及び記憶媒体を提供する。

本発明の第１様態は、目標追跡方法を提供する。当該目標追跡方法は、
現在のビデオフレーム及び１つ前のビデオフレームにおける各検出枠の特徴情報であって、検出枠の位置情報と検出枠内の障害対象の外観特徴とを含む特徴情報を取得することと、
現在のビデオフレームにおける各検出枠の特徴情報と、１つ前のビデオフレームにおける各検出枠の特徴情報とのマッチング検出をそれぞれ行うことと、
マッチング検出結果に基づいて、現在のビデオフレームにおける各検出枠の追跡軌跡を決定することと、を含み、
外観特徴は、テクスチャ特徴とセマンティック特徴とを含む。

本発明の実施形態では、現在のビデオフレームと１つ前のビデオフレームにおける検出枠の位置情報及び外観特徴を用いて検出枠に対しマッチング検出を行い、マッチング検出結果に基づいて追跡を行う。マッチング検出が位置情報と外観特徴との両者に基づいて行われるため、より豊富なデータを用いてマッチング検出を行うことができる。そのため、マッチング検出の正確率がより高くなり、追跡の正確性を向上させることができる。

１つの実施形態において、検出枠内の障害対象の外観特徴を取得することは、
ニューラルネットワークモデルを用いて障害対象の外観特徴を取得することを含み、
ニューラルネットワークモデルの下位層部分を用いて障害対象のテクスチャ特徴を取得し、ニューラルネットワークモデルの上位層部分を用いて障害対象のセマンティック特徴を取得する。

本発明の実施形態によれば、ニューラルネットワークモデルの異なる階層を用いて障害対象の上位層の特徴と下位層の特徴を取得することにより、より豊富な外観特徴を収集し、マッチング検出の正確率を向上させ、追跡の正確性を向上させることができる。

１つの実施形態において、検出枠の位置情報を取得することは、
検出枠の形状が矩形である場合、検出枠の中心点及び４つの隅点の位置情報を取得することを含む。

本発明の実施形態によれば、中心点と４つの隅点を用いて検出枠を位置決めすることにより、検出枠の位置を簡潔かつ効率的に決めることができ、マッチング検出を容易に行うことができる。

１つの実施形態において、現在のビデオフレームにおける各検出枠の特徴情報と、１つ前のビデオフレームにおける各検出枠の特徴情報とのマッチング検出をそれぞれ行うことは、
現在のビデオフレームにおける各検出枠の特徴情報と、１つ前のビデオフレームにおける各検出枠の特徴情報との間の相違度をそれぞれ計算することと、
相違度に基づいて、予め設定されたマッチングアルゴリズムを用いてマッチング検出を行うことと、を含む。

本発明の実施形態によれば、予め設定されたマッチングアルゴリズムを用いてマッチング検出を行うことにより、検出枠間のマッチング検出を迅速かつ正確に実現することができる。

１つの実施形態において、相違度を計算することは、
現在のビデオフレームにおける検出枠の中心点と１つ前のビデオフレームにおける検出枠の中心点との間の第１距離を計算し、現在のビデオフレームにおける検出枠の各隅点と１つ前のビデオフレームにおける検出枠の対応する隅点との間の第２距離を計算し、現在のビデオフレームにおける検出枠内の障害対象のテクスチャ特徴と１つ前のビデオフレームにおける検出枠内の障害対象のテクスチャ特徴との間の第３距離を計算し、現在のビデオフレームにおける検出枠内の障害対象のセマンティック特徴と１つ前のビデオフレームにおける検出枠内の障害対象のセマンティック特徴との間の第４距離を計算することと、
第１距離、第２距離、第３距離、第４距離及び各距離に対応する重みを用いて相違度を計算することと、を含む。

本発明の実施形態では、２つの検出枠の各特徴間の距離を計算し、距離及びその対応する重みを用いて２つの検出枠間の相違度を計算する。重みが調整可能であるため、相違度を計算する際の各特徴の割合を調整することができる。

本発明の第２様態は、目標追跡装置を提供する。当該目標追跡装置は、
現在のビデオフレーム及び１つ前のビデオフレームにおける各検出枠の特徴情報であって、検出枠の位置情報と検出枠内の障害対象の外観特徴とを含む前記特徴情報を取得するための取得モジュールと、
現在のビデオフレームにおける各検出枠の特徴情報と、１つ前のビデオフレームにおける各検出枠の特徴情報とのマッチング検出をそれぞれ行うためのマッチング検出モジュールと、
マッチング検出結果に基づいて、現在のビデオフレームにおける各検出枠の追跡軌跡を決定するための追跡モジュールと、を備え、
外観特徴には、テクスチャ特徴とセマンティック特徴とが含まれる。

１つの実施形態において、取得モジュールは、
ニューラルネットワークモデルを用いて障害対象の外観特徴を取得するための外観特徴取得サブモジュールを備え、
ニューラルネットワークモデルの下位層部分を用いて障害対象のテクスチャ特徴を取得し、ニューラルネットワークモデルの上位層部分を用いて障害対象のセマンティック特徴を取得する。

１つの実施形態において、取得モジュールは、
検出枠の形状が矩形である場合、検出枠の中心点及び４つの隅点の位置情報を取得するための位置情報取得サブモジュールを備える。

１つの実施形態において、マッチング検出モジュールは、
現在のビデオフレームにおける各検出枠の特徴情報と、１つ前のビデオフレームにおける各検出枠の特徴情報との間の相違度をそれぞれ計算するための相違度計算サブモジュールと、
相違度に基づいて、予め設定されたマッチングアルゴリズムを用いてマッチング検出を行うための検出サブモジュールと、を備える。

１つの実施形態において、相違度計算サブモジュールは、
現在のビデオフレームにおける検出枠の中心点と１つ前のビデオフレームにおける検出枠の中心点との間の第１距離を計算し、現在のビデオフレームにおける検出枠の各隅点と１つ前のビデオフレームにおける検出枠の対応する隅点との間の第２距離を計算し、現在のビデオフレームにおける検出枠内の障害対象のテクスチャ特徴と１つ前のビデオフレームにおける検出枠内の障害対象のテクスチャ特徴との間の第３距離を計算し、現在のビデオフレームにおける検出枠内の障害対象のセマンティック特徴と１つ前のビデオフレームにおける検出枠内の障害対象のセマンティック特徴との間の第４距離を計算し、
第１距離、第２距離、第３距離、第４距離及び各距離に対応する重みを用いて相違度を計算するために用いられる。

本発明の第３様態は、電子設備を提供する。当該電子設備は、
１つ又は複数のプロセッサと、
前記１つ又は複数のプロセッサに通信接続されるメモリとを含み、
前記メモリには、前記１つ又は複数のプロセッサにより実行可能なコマンドを記憶しており、
前記１つ又は複数のプロセッサは、前記１つ又は複数のコマンドを実行する場合、第１態様のいずれか１項に記載の目標追跡方法を実行させる。

本発明の第４態様は、コンピュータコマンドが記憶された非一過性のコンピュータ可読記憶媒体を提供し、コンピュータコマンドが第１態様のいずれか１項に記載の目標追跡方法を実行させる。

上記本発明の実施形態のうちの少なくとも１つの実施形態は、下記のメリット及び有益な効果を有する。

本発明の実施形態では、現在のビデオフレームと１つ前のビデオフレームにおける検出枠の位置情報及び外観特徴を用いて検出枠に対しマッチング検出を行い、マッチング検出結果に基づいて追跡を行う。マッチング検出が位置情報と外観特徴の両者に基づいて行われるため、より豊富なデータを用いてマッチング検出を行うことができる。そのため、マッチング検出の正確率がより高くなり、追跡の正確性を向上させることができる。

上記の選択可能な実施形態によるその他の効果は、具体的な実施形態とあわせて後述する。

添付図面は、本開示の理解を促すためのものであり、いかなる限定を目的としない。
本発明による目標追跡方法の実現のフローチャートである。本発明による目標追跡方法におけるステップＳ１０２の実現のフローチャートである。本発明による目標追跡方法における２つの検出枠間の相違度の計算のフローチャートである。本発明による目標追跡装置の構成を示す模式図である。本発明による目標追跡装置の構成を示す模式図である。本発明の実施形態による目標追跡方法を実現するための電子デバイスのブロック図である。

以下、図面を参照しながら本発明の例示的な実施形態を説明するが、本発明の実施形態の様々な詳細が理解を容易にするために含まれており、それらは単なる例示的と考えられるべきである。したがって、当業者は、本発明の範囲及び旨から逸脱することなく、本発明明細書に記載された実施形態に対して様々な変更及び修正を行うことができることを理解すべきである。同様に、以下の説明では、公知な機能及び構造についての説明は、明瞭かつ簡明のために省略される。

本発明の実施形態は、目標追跡方法を提供する。図１は、本発明による目標追跡方法の実現のフローチャートであり、当該目標追跡方法は、以下のステップＳ１０１～Ｓ１０３を含む。

ステップＳ１０１において、現在のビデオフレーム及び１つ前のビデオフレームにおける各検出枠の特徴情報を取得し、当該特徴情報は、検出枠の位置情報と検出枠内の障害対象の外観特徴とを含み、外観特徴は、テクスチャ特徴とセマンティック特徴とを含む。

ステップＳ１０２において、現在のビデオフレームにおける各検出枠の特徴情報と、１つ前のビデオフレームにおける各検出枠の特徴情報とのマッチング検出をそれぞれ行う。

ステップＳ１０３において、マッチング検出結果に基づいて、現在のビデオフレームにおける各検出枠の追跡軌跡を決定する。

１つの可能な実施形態では、上記の現在のビデオフレーム及び１つ前のビデオフレームとは、カメラによって収集されたビデオデータから抽出された２つの連続するまたは隣接するビデオフレームであってもよく、１つのビデオフレームに１つまたは複数の検出枠が含まれてもよく、各検出枠に１つの障害対象が含まれる。上記の障害対象とは、車両、歩行者などであってもよい。

１つの可能な実施形態では、マッチング検出結果として、マッチングした場合と、或いはマッチングしなかった場合とがある。現在のビデオフレームにおける検出枠Ａと１つ前のビデオフレームにおける検出枠Ａ’とがマッチングした場合、検出枠Ａが検出枠Ａ’に類似する特徴情報を有することを表しており、検出枠Ａ内の障害対象と検出枠Ａ’ 内の障害対象とが同一の障害対象であるとみなされてもよく、この場合、現在のビデオフレームにおける検出枠Ａを、１つ前のビデオフレームにおける検出枠Ａ’の所在する追跡軌跡に追加してもよい。現在のビデオフレームにおける検出枠Ｂが１つ前のビデオフレームにおけるいずれの検出枠にもマッチングしなかった場合、１つ前のビデオフレームにおいて検出枠Ｂの特徴情報と類似する検出枠が存在しないことを表しており、検出枠Ｂ内の障害対象が現在のビデオフレームにおいて現れたばかりの障害対象であるとみなされてもよく、この場合、現在のビデオフレームにおける検出枠Ｂを新たな追跡軌跡の始点としてもよい。

１つの可能な実施形態では、ステップＳ１０１において検出枠内の障害対象の外観特徴を取得することは、ニューラルネットワークモデルを用いて障害対象の外観特徴を取得することを含む。

ここで、ニューラルネットワークモデルの下位層部分を用いて障害対象のテクスチャ特徴を取得し、ニューラルネットワークモデルの上位層部分を用いて障害対象のセマンティック特徴を取得する。

上記のニューラルネットワークモデルは、コンボリューションニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ、ＣＮＮ）を採用してもよい。ニューラルネットワークモデルには、複数の層が含まれている。本発明の実施形態では、ニューラルネットワークモデルの下位層部分を用いて検出枠内の障害対象のテクスチャ特徴を取得し、ニューラルネットワークモデルの上位層部分を用いて検出枠内の障害対象のセマンティック特徴を取得することができる。テクスチャ特徴は、障害対象の下位層の外観特徴であるとみなされてもよく、セマンティック特徴は、障害対象の上位層の外観特徴であるとみなされてもよい。本発明の実施形態では、テクスチャ特徴とセマンティック特徴とがベクトルで表現されてもよい。実際の応用において、異なるタイプの障害対象に対し、異なるニューラルネットワークモデルを用いて障害対象の外観特徴を取得してもよい。例えば、車両を追跡する必要がある場合、車両識別のためのニューラルネットワークモデルを用いて、車両の外観特徴を抽出してもよく、歩行者を追跡する必要がある場合、歩行者識別のためのニューラルネットワークモデルを用いて、歩行者の外観特徴を抽出してもよい。

１つの可能な実施形態では、ステップＳ１０１において検出枠の位置情報を取得することは、検出枠の形状が矩形である場合、検出枠の中心点及び４つの隅点の位置情報を取得することを含む。

図２は、本発明による目標追跡方法におけるステップＳ１０２の実現のフローチャートであり、当該目標追跡方法は、以下のステップＳ２０１～Ｓ２０２を含む。

ステップＳ２０１において、現在のビデオフレームにおける各検出枠の特徴情報と、１つ前のビデオフレームにおける各検出枠の特徴情報との間の相違度をそれぞれ計算する。

ステップＳ２０２において、相違度に基づいて、予め設定されたマッチングアルゴリズムを用いてマッチング検出を行う。

上記ステップＳ２０２において、本発明の実施形態では、ハンガリーのアルゴリズムなどの２部グラフマッチングアルゴリズムを用いてマッチング検出を行ってもよい。

例えば、現在のビデオフレームは、検出枠１１、検出枠１２、検出枠１３、検出枠１４を含む４つの検出枠があり、１つ前のビデオフレームは、検出枠２１、検出枠２２、検出枠２３を含む３つの検出枠がある。

検出枠１１と検出枠２１と、検出枠１１と検出枠２２と、検出枠１１と検出枠２３との相違度は、それぞれＤ１１、Ｄ１２、Ｄ１３であり、検出枠１２と検出枠２１と、検出枠１２と検出枠２２と、検出枠１２と検出枠２３との相違度は、それぞれＤ２１、Ｄ２２、Ｄ２３であり、検出枠１３と検出枠２１と、検出枠１３と検出枠２２と、検出枠１３と検出枠２３との相違度は、それぞれＤ３１、Ｄ３２、Ｄ３３であり、検出枠１４と検出枠２１と、検出枠１４と検出枠２２と、検出枠１４と検出枠２３との相違度は、それぞれＤ４１、Ｄ４２、Ｄ４３であることを算出する。

マッチングが行われる時、現在のビデオフレームにおける１つの検出枠は、多くとも１つ前のビデオフレームにおける１つの検出枠とマッチング関係が存在する。２部グラフマッチングアルゴリズムを用いて、相違度の和が最小となるマッチング方案を決定する。

上記のマッチング方案では、現在のビデオフレームにおけるある検出枠に、対応する検出枠が割り当てられていない場合、当該現在のビデオフレームにおける検出枠に対するマッチング検出結果が「マッチングせず」となり、この検出枠内の障害対象が新たに現れた障害対象であり、新たな標識（ＩＤ）を割り当てる必要があることを表している。

現在のビデオフレームにおけるある検出枠に、対応する検出枠が割り当てられている場合にも、その検出枠と割り当てられた検出枠との相違度が閾値条件を満たすか否かを判定する必要があり、満たさない場合、両者の差異が大きすぎることを表すため、この現在のビデオフレームにおける検出枠に対するマッチング検出結果も「マッチングせず」となり、新たな標識（ＩＤ）を割り当てる必要があり、満たす場合、この現在のビデオフレームにおける検出枠に対するマッチング検出結果が「マッチングしている」となり、この現在のビデオフレームにおける検出枠を、マッチングした検出枠の所在する追跡軌跡に追加してもよい。

図３は、本発明による目標追跡方法における２つの検出枠間の相違度の計算のフローチャートであり、当該目標追跡方法は、以下のステップＳ３０１～Ｓ３０２を含む。

ステップＳ３０１において、現在のビデオフレームにおける検出枠の中心点と１つ前のビデオフレームにおける検出枠の中心点との間の第１距離を計算し、現在のビデオフレームにおける検出枠の各隅点と１つ前のビデオフレームにおける検出枠の対応する隅点との間の第２距離を計算し、現在のビデオフレームにおける検出枠内の障害対象のテクスチャ特徴と１つ前のビデオフレームにおける検出枠内の障害対象のテクスチャ特徴との間の第３距離を計算し、現在のビデオフレームにおける検出枠内の障害対象のセマンティック特徴と１つ前のビデオフレームにおける検出枠内の障害対象のセマンティック特徴との間の第４距離を計算する。

ステップＳ３０２において、第１距離、第２距離、第３距離、第４距離及び各距離に対応する重みを用いて相違度を計算する。

例えば、現在のビデオフレームにおける１つの検出枠Ｘと１つ前のビデオフレームにおける１つの検出枠Ｙについて、計算による２つの検出枠の各特徴間の距離は、以下のとおりである。

検出枠Ｘの中心点の位置と検出枠Ｙの中心点の位置との間の距離をｄ１とし、
検出枠Ｘの左上隅点の位置と検出枠Ｙの左上隅点の位置との間の距離をｄ２とし、
検出枠Ｘの右上隅点の位置と検出枠Ｙの右上隅点の位置との間の距離をｄ３とし、
検出枠Ｘの左下隅点の位置と検出枠Ｙの左下隅点の位置との間の距離をｄ４とし、
検出枠Ｘの右下隅点の位置と検出枠Ｙの右下隅点の位置との間の距離をｄ５とし、
検出枠Ｘ内の障害対象のテクスチャ特徴と検出枠Ｙ内の障害対象のテクスチャ特徴との間の距離をｄ６とし、
検出枠Ｘ内の障害対象のセマンティック特徴と検出枠Ｙ内の障害対象のセマンティック特徴との間の距離をｄ７とする。

ここで、上記の中心点の位置及び各隅点の位置とは、対応する点のビデオフレームにおける座標位置を指してもよく、上記のｄ１～ｄ５は、幾何学的に計算されてもよく、ｄ２～ｄ５は、上記の第２距離を構成する。

テクスチャ特徴はベクトルで表されることができるため、上記のテクスチャ特徴間の距離ｄ６は、具体的にテクスチャ特徴ベクトルの夾角の余弦値とされてもよく、余弦値が１に近いほど、角度は０度に近く、すなわち、２つのテクスチャ特徴ベクトルが似ていることが表される。同様に、セマンティック特徴間の距離ｄ７もセマンティック特徴ベクトルの夾角の余弦値である。

上記の各距離の計算が完了した後、検出枠Ｘと検出枠Ｙとの相違度は、次式で計算することができる。

Ｄ＝ｗ１＊ｄ１＋ｗ２＊ｄ２＋ｗ３＊ｄ３＋ｗ４＊ｄ４＋ｗ５＊ｄ５＋ｗ６＊ｄ６＋ｗ７＊ｄ７
ただし、ｗ１～ｗ７は、それぞれ各距離に対応する重みである。

上記の各重みは、実際の状況に応じて設定・調整可能であるため、検出枠間の相違度を算出する際の上記各距離の重要度を調整することができる。

本発明の実施形態は、目標追跡装置をさらに提供する。図４は、本発明による目標追跡装置の構成を示す模式図である。図４に示すように、目標追跡装置４００は、
現在のビデオフレーム及び１つ前のビデオフレームにおける各検出枠の特徴情報であって、検出枠の位置情報と検出枠内の障害対象の外観特徴とを含む前記特徴情報を取得するための取得モジュール４１０と、
現在のビデオフレームにおける各検出枠の特徴情報と、１つ前のビデオフレームにおける各検出枠の特徴情報とのマッチング検出をそれぞれ行うためのマッチング検出モジュール４２０と、
マッチング検出結果に基づいて、現在のビデオフレームにおける各検出枠の追跡軌跡を決定するための追跡モジュール４３０と、を備え、
外観特徴には、テクスチャ特徴とセマンティック特徴とが含まれる。

本発明の実施形態は、目標追跡装置をさらに提案する。図５は、本発明による目標追跡装置の構成を示す模式図である。図５に示すように、目標追跡装置５００は、取得モジュール４１０と、マッチング検出モジュール４２０と、追跡モジュール４３０と、を備える。

ここで、取得モジュール４１０は、ニューラルネットワークモデルを用いて障害対象の外観特徴を取得するための外観特徴取得サブモジュール４１１を備え、ニューラルネットワークモデルの下位層部分を用いて障害対象のテクスチャ特徴を取得し、ニューラルネットワークモデルの上位層部分を用いて障害対象のセマンティック特徴を取得する。

取得モジュール４１０は、検出枠の形状が矩形である場合、検出枠の中心点及び４つの隅点の位置情報を取得するための位置情報取得サブモジュール４１２をさらに備える。

１つの実施形態では、マッチング検出モジュール４２０は、
現在のビデオフレームにおける各検出枠の特徴情報と、１つ前のビデオフレームにおける各検出枠の特徴情報との間の相違度をそれぞれ計算するための相違度計算サブモジュール４２１と、
相違度に基づいて、予め設定されたマッチングアルゴリズムを用いてマッチング検出を行うための検出サブモジュール４２２と、を備える。

１つの実施形態では、相違度計算サブモジュール４２１は、
現在のビデオフレームにおける検出枠の中心点と１つ前のビデオフレームにおける検出枠の中心点との間の第１距離を計算し、現在のビデオフレームにおける検出枠の各隅点と１つ前のビデオフレームにおける検出枠の対応する隅点との間の第２距離を計算し、現在のビデオフレームにおける検出枠内の障害対象のテクスチャ特徴と１つ前のビデオフレームにおける検出枠内の障害対象のテクスチャ特徴との間の第３距離を計算し、現在のビデオフレームにおける検出枠内の障害対象のセマンティック特徴と１つ前のビデオフレームにおける検出枠内の障害対象のセマンティック特徴との間の第４距離を計算し、
第１距離、第２距離、第３距離、第４距離及び各距離に対応する重みを用いて相違度を計算するために用いられる。

本発明の実施形態に係る各装置における各モジュールの機能は、上記の方法における対応説明を参照することができるので、ここでは説明を省略する。

本発明に係る実施形態では、電子デバイスと非一過性のコンピュータ可読取記録媒体をさらに提供する。

図６は、本発明の実施形態による目標追跡方法を実現する電子デバイスのブロック図である。電子デバイスは、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータのような様々な形態のデジタルコンピュータを表すことができる。また、電子デバイスはパーソナルデジタル処理、携帯電話、スマートフォン、装着可能デバイス、及びその他の類似のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すことができる。ここで示した構成要素、それらの接続と関係、及びそれらの機能は例示的なものに過ぎず、本発明で説明されたもの及び／または要求される本発明の実施を制限することは意図されない。

図６に示すように、当該電子デバイスは、１つ又は複数のプロセッサ６０１と、メモリ６０２と、高速インターフェースと低速インターフェースとを含む各構成要素を接続するためのインターフェースとを含む。各構成要素は、異なるバスを利用して互いに接続し、共通のマザーボードに取り付けられてもよいし、必要に応じて他の方法で取り付けられてもよい。プロセッサは、電子デバイス内で実行される命令を処理してもよく、また、外部入出力デバイス（例えば、インターフェースに接続された表示デバイス）にグラフィックユーザインターフェース（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ，ＧＵＩ）を表示するための、メモリまたはメモリ上に記憶されたグラフィカル情報の命令を含む。他の実施形態では、必要に応じて、複数のプロセッサ及び／または複数のバスを複数のメモリ及び複数のメモリとともに使用することができる。同様に、複数の電子デバイスを接続してもよく、各デバイスは、部分的に必要な動作（例えば、サーバアレイ、ブレードサーバのセット、またはマルチプロセッサシステムとして）を提供する。図６においてプロセッサ６０１を例とする。

メモリ６０２は、本発明にて提供された非一過性のコンピュータ可読記憶媒体である。メモリは、本発明で提供される目標追跡方法を少なくとも１つのプロセッサに実行させるように、少なくとも１つのプロセッサによって実行されることができる命令を記憶する。本発明における非一過性のコンピュータ可読記憶媒体は、本発明で提供された目標追跡方法をコンピュータに実行させるためのコンピュータ命令を記憶する。

メモリ６０２は、非一過性のコンピュータ可読記憶媒体として、非一過性のソフトウェアプログラム、非一過性のコンピュータ実行可能なプログラム及びモジュールを記憶するために使用されてもよく、本発明の実施形態における目標追跡方法に対応するプログラム命令／モジュール（例えば、図４に示される取得モジュール４１０、マッチング検出モジュール４２０、及び追跡モジュール４３０）のようなものである。プロセッサ６０１は、メモリ６０２に記憶されている非一過性のソフトウェアプログラム、命令及びモジュールを実行することにより、サーバの様々な機能アプリケーション及びデータ処理、すなわち上述した方法に関する実施形態に係る目標追跡方法を実行する。

メモリ６０２は、オペレーティングシステムや少なくとも１つの機能に必要なアプリケーションを記憶することができるプログラムの記憶領域と、目標追跡方法に係る電子デバイスの使用によって生成されたデータなどを記憶することができるデータの記憶領域と、を含むことができる。さらに、メモリ６０２は、高速ランダムアクセスメモリを含んでもよく、非一過性の固体記憶装置を含んでもよい。例えば、少なくとも１つの磁気ディスク記憶装置、フラッシュメモリ装置、または他の非一過性の固体記憶装置を含むことができる。いくつかの実施形態では、メモリ６０２はオプションとして、プロセッサ６０１に対して遠隔的に設定されたメモリを含み、これらの遠隔メモリは、ネットワークを介して目標追跡方法に係る電子デバイスに接続されてもよい。上記のネットワークの例は、インターネット、企業内ネットワーク、ローカルネットワーク、モバイル通信ネットワーク及びその組み合わせを含むが、これらに限定されない。

目標追跡方法に係る電子デバイスは、入力装置６０３と出力装置６０４とをさらに含むことができる。プロセッサ６０１、メモリ６０２、入力装置６０３、及び出力装置６０４は、バスまたは他の方法で接続されてもよく、図６ではバスを介して接続されている。

入力装置６０３は、入力された数字または文字を受信し、目標追跡方法に係る電子デバイスのユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えば、タッチパネル、キーパッド、マウス、トラックボード、タッチパッド、指示棒、１つまたは複数のマウスボタン、トラックボール、ジョイスティックなどを含むことができる。出力装置６０４は、表示装置、補助照明装置（例えばＬＥＤ）、及び触覚フィードバック装置（例えば、振動モータ）などを含むことができる。この表示装置は、液晶ディスプレイ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ、ＬＣＤ）、発光ダイオード（ＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ、ＬＥＤ）ディスプレイ及びプラズマディスプレイを含むことができるがこれらに限定されない。いくつかの実施形態では、表示装置はタッチパネルであってもよい。

本発明におけるシステム及び技術に係る様々な実施形態は、デジタル電子回路システム、集積回路システム、専用集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔｓ、ＡＳＩＣ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／またはこれらの組み合わせによって実現されることができる。これらの様々な実施形態は、１つまたは複数のコンピュータプログラムにおいて実装されてもよく、この１つまたは複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラム可能なシステム上で実行されてもよく、及び／または解釈されてもよく、このプログラマブルプロセッサは、専用または汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置より、データと命令を受信し、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置に、データと命令を送信する。

これらの計算プログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードともいう）は、プログラマブルプロセッサのマシン命令を含み、プロセス指向及び／またはオブジェクト指向プログラミング言語、及び／またはアセンブリ／マシン言語を用いてこれらの計算プログラムを実施することができる。本発明で使用されるように、「機械可読媒体」及び「コンピュータ可読媒体」という用語は、マシン命令及び／またはデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、デバイス、及び／または装置（例えば、磁気ディスク、光ディスク、メモリ、編集可能論理デバイス（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｄｅｖｉｃｅ、ＰＬＤ）を意味し、機械読み取り可能な信号としてのマシン命令を受信する機械可読媒体を含む。「機械読み取り可能な信号」という用語は、マシン命令及び／またはデータをプログラマブルプロセッサに提供するための任意の信号を意味する。

ユーザとのイントラクションを提供するために、本発明で説明されているシステムや技術は、コンピュータ上で実施されてもよく、また、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ、ブラウン管）またはＬＣＤ（液晶ディスプレイ）モニタ）と、入力をコンピュータに提供するためのキーボード及びポインティングデバイス（例えば、マウスまたはトラックボール）とを備えてもよい。他の種類の装置も、ユーザとのイントラクションを提供するために使用され得る。例えば、ユーザに提供されたフィードバックは、任意の形態のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であってもよく、ユーザからの入力は、いかなる形式（音響入力、音声入力、または触覚入力を含む）で受信されてもよい。

本発明で説明されているシステム及び技術は、バックグラウンド構成要素を含む計算システム（例えば、データサーバとして）、または中間部構成要素を含む計算システム（例えば、アプリケーションサーバ）、または、フロントエンド構成要素を含む計算システム（例えば、グラフィカルユーザインタフェースまたはネットワークブラウザを備えたユーザコンピュータであって、ユーザがこのグラフィカルユーザインタフェースまたはネットワークブラウザを介して本発明で説明されたシステム及び技術に係る実施形態とインタラクションを行うことができるユーザコンピュータ）に実行されてもよく、または、このようなバックグラウンド構成要素、中間部構成要素、またはフロントエンド構成要素の任意の組合せを含む計算システムにおいて実行されてもよい。システムの構成要素は、任意の形態または媒体のデジタルデータ通信（例えば、通信ネットワーク）によって相互に接続されてもよい。通信ネットワークの例えとして、ローカルネットワーク（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ，ＬＡＮ）、広域ネットワーク（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ，ＷＡＮ）及びインターネットを含む。

コンピュータシステムは、クライアント及びサーバを含むことができる。クライアントとサーバは一般的に相互に離れており、通信ネットワークを介してインタラクションを行う。クライアントとサーバとの関係を持つコンピュータプログラムがそれぞれのコンピュータ上で実行されることによって、クライアントとサーバとの関係は構築される。

本発明の実施形態に係る発明によれば、前後２つのフレームにおける検出枠の位置情報及び外観特徴を用いて、検出枠に対しマッチング検出を行い、マッチング検出結果に基づいて追跡する。マッチング検出が位置情報と外観特徴の両者に基づいて行われるため、より豊富なデータを用いてマッチング検出を行うことができ、そのため、マッチング検出の確率がより高くなり、追跡の正確性を向上させることができる。

上記の様々な態様のフローを使用して、ステップを新たに順序付け、追加、または削除することが可能であることを理解すべきである。例えば、本発明で記載された各ステップは、並列に実行しても良いし、順次に実行しても良いし、異なる順序で実行しても良い。本発明で開示された技術案が所望する結果を実現することができる限り、本発明ではこれに限定されない。

上記具体的な実施形態は、本発明の保護範囲に対する限定を構成するものではない。当業者は、設計事項やその他の要因によって、様々な修正、組み合わせ、サブ組み合わせ、及び代替が可能であることを理解するべきである。本発明の要旨及び原則内における変更、均等な置換及び改善等は、いずれも本発明の保護範囲に含まれるべきである。

Claims

現在のビデオフレーム及び１つ前のビデオフレームにおける各検出枠の特徴情報であって、前記検出枠の位置情報と前記検出枠内の障害対象の外観特徴とを含む特徴情報を取得することと、
前記現在のビデオフレームにおける各検出枠の特徴情報と、前記１つ前のビデオフレームにおける各検出枠の特徴情報とのマッチング検出をそれぞれ行うことと、
マッチング検出結果に基づいて、前記現在のビデオフレームにおける各検出枠の追跡軌跡を決定することと、を含み、
前記外観特徴は、テクスチャ特徴とセマンティック特徴とを含む、
ことを特徴とする目標追跡方法。
前記検出枠内の障害対象の外観特徴を取得することは、
ニューラルネットワークモデルを用いて前記障害対象の外観特徴を取得することを含み、
前記ニューラルネットワークモデルの下位層部分を用いて前記障害対象のテクスチャ特徴を取得し、前記ニューラルネットワークモデルの上位層部分を用いて前記障害対象のセマンティック特徴を取得する、
ことを特徴とする請求項１に記載の目標追跡方法。
前記検出枠の位置情報を取得することは、
前記検出枠の形状が矩形である場合、前記検出枠の中心点及び４つの隅点の位置情報を取得することを含む、
ことを特徴とする請求項１または２に記載の目標追跡方法。
前記現在のビデオフレームにおける各検出枠の特徴情報と、前記１つ前のビデオフレームにおける各検出枠の特徴情報とのマッチング検出をそれぞれ行うことは、
前記現在のビデオフレームにおける各検出枠の特徴情報と、前記１つ前のビデオフレームにおける各検出枠の特徴情報との間の相違度をそれぞれ計算することと、
前記相違度に基づいて、予め設定されたマッチングアルゴリズムを用いてマッチング検出を行うことと、を含む、
ことを特徴とする請求項３に記載の目標追跡方法。
前記相違度を計算することは、
前記現在のビデオフレームにおける検出枠の中心点と前記１つ前のビデオフレームにおける検出枠の中心点との間の第１距離を計算し、前記現在のビデオフレームにおける検出枠の各隅点と前記１つ前のビデオフレームにおける検出枠の対応する隅点との間の第２距離を計算し、前記現在のビデオフレームにおける検出枠内の障害対象のテクスチャ特徴と前記１つ前のビデオフレームにおける検出枠内の障害対象のテクスチャ特徴との間の第３距離を計算し、前記現在のビデオフレームにおける検出枠内の障害対象のセマンティック特徴と前記１つ前のビデオフレームにおける検出枠内の障害対象のセマンティック特徴との間の第４距離を計算することと、
前記第１距離、前記第２距離、前記第３距離、前記第４距離及び各距離に対応する重みを用いて前記相違度を計算することと、を含む、
ことを特徴とする請求項４に記載の目標追跡方法。
現在のビデオフレーム及び１つ前のビデオフレームにおける各検出枠の特徴情報であって、前記検出枠の位置情報と前記検出枠内の障害対象の外観特徴とを含む特徴情報を取得する取得モジュールと、
前記現在のビデオフレームにおける各検出枠の特徴情報と、前記１つ前のビデオフレームにおける各検出枠の特徴情報とのマッチング検出をそれぞれ行うマッチング検出モジュールと、
マッチング検出結果に基づいて、前記現在のビデオフレームにおける各検出枠の追跡軌跡を決定する追跡モジュールと、を備え、
前記外観特徴は、テクスチャ特徴とセマンティック特徴とを含む、
ことを特徴とする目標追跡装置。
前記取得モジュールは、
ニューラルネットワークモデルを用いて前記障害対象の外観特徴を取得するための外観特徴取得サブモジュールを備え、
前記ニューラルネットワークモデルの下位層部分を用いて前記障害対象のテクスチャ特徴を取得し、前記ニューラルネットワークモデルの上位層部分を用いて前記障害対象のセマンティック特徴を取得する、
ことを特徴とする請求項６に記載の目標追跡装置。
前記取得モジュールは、
前記検出枠の形状が矩形である場合、前記検出枠の中心点及び４つの隅点の位置情報を取得するための位置情報取得サブモジュールを備える、
ことを特徴とする請求項６または７に記載の目標追跡装置。
前記マッチング検出モジュールは、
前記現在のビデオフレームにおける各検出枠の特徴情報と、前記１つ前のビデオフレームにおける各検出枠の特徴情報との間の相違度をそれぞれ計算するための相違度計算サブモジュールと、
前記相違度に基づいて、予め設定されたマッチングアルゴリズムを用いてマッチング検出を行うための検出サブモジュールと、を備える、
ことを特徴とする請求項８に記載の目標追跡装置。
前記相違度計算サブモジュールは、
前記現在のビデオフレームにおける検出枠の中心点と前記１つ前のビデオフレームにおける検出枠の中心点との間の第１距離を計算し、前記現在のビデオフレームにおける検出枠の各隅点と前記１つ前のビデオフレームにおける検出枠の対応する隅点との間の第２距離を計算し、前記現在のビデオフレームにおける検出枠内の障害対象のテクスチャ特徴と前記１つ前のビデオフレームにおける検出枠内の障害対象のテクスチャ特徴との間の第３距離を計算し、前記現在のビデオフレームにおける検出枠内の障害対象のセマンティック特徴と前記１つ前のビデオフレームにおける検出枠内の障害対象のセマンティック特徴との間の第４距離を計算し、
前記第１距離、前記第２距離、前記第３距離、前記第４距離及び各距離に対応する重みを用いて前記相違度を計算する、
ことを特徴とする請求項９に記載の目標追跡装置。
１つ又は複数のプロセッサと、
前記１つ又は複数のプロセッサに通信接続されるメモリとを備え、
前記メモリには、前記１つ又は複数のプロセッサにより実行可能なコマンドを記憶しており、
前記１つ又は複数のプロセッサは、前記１つ又は複数のコマンドを実行する場合、請求項１～５のいずれか１項に記載の目標追跡方法を実行させる、
ことを特徴とする電子デバイス。
請求項１～５のいずれか１項に記載の目標追跡方法をコンピュータに実行させるためのコンピュータコマンドを記憶した非一過性のコンピュータ可読記憶媒体。
コンピュータにおいて、プロセッサにより実行される場合、請求項１～５のいずれか１項に記載の目標追跡方法を実現することを特徴とするプログラム。