JP2022542566A

JP2022542566A - オブジェクト追跡方法及び装置、記憶媒体並びにコンピュータプログラム

Info

Publication number: JP2022542566A
Application number: JP2022504275A
Authority: JP
Inventors: 飛王; 光啓陳; 晨銭
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2020-04-28
Filing date: 2021-04-16
Publication date: 2022-10-05
Anticipated expiration: 2041-04-16
Also published as: CN111539991B; JP7292492B2; TWI769787B; TW202141424A; CN111539991A; KR20220024986A; WO2021218671A1

Abstract

本発明は、オブジェクト追跡方法及び装置、記憶媒体並びにコンピュータプログラムを提供する。当該方法は、同一シーンに対応する複数枚のシーン画像を取得するステップと、前記複数枚のシーン画像のうちの各シーン画像に対して特徴抽出処理及び目標部位検出を行い、前記各シーン画像の特徴情報と前記各シーン画像における複数の目標部位の位置とを取得するステップと、前記各シーン画像の特徴情報のうち、前記複数の目標部位の位置のそれぞれに対応する目標特徴情報を取得するステップと、取得された前記複数の目標部位の位置のそれぞれに対応する目標特徴情報に基づいて、前記複数枚のシーン画像に現れた複数の同じオブジェクトを特定するステップと、を含み、各シーン画像は、前記複数の同じオブジェクトのうちの一部又は全部を含む。【選択図】図１

Description

本発明は、コンピュータビジョン分野に関し、特にオブジェクト追跡方法及び装置、記憶媒体並びにコンピュータプログラムに関する。

現在、複数オブジェクト追跡技術によってオブジェクトの運動軌跡を分析する需要は、ますます強くなってきている。複数オブジェクト追跡を行う過程では、オブジェクト検出によって複数のオブジェクトの所在する位置を取得してから、各オブジェクトに対して単一オブジェクト追跡を行う必要がある。

上記複数オブジェクト追跡の処理時間は、シーンにおけるオブジェクトの数に対して線形相関を示す。例えば、シーンにＮ個の対象（オブジェクト）が含まれ、ここでのＮが正整数である場合に、複数オブジェクト追跡は、単一オブジェクト追跡の推論をＮ回行う必要があり、処理時間は、単一オブジェクト追跡に必要な時間のＮ倍まで増加する。Ｎの値が大きいほど、複数オブジェクト追跡の時間は、長くなる。そのため、機器の高い演算能力が要求されるとともに、時間も長くかかってしまった。

本発明は、オブジェクト追跡方法及び装置、記憶媒体並びにコンピュータプログラムを提供する。

本発明の実施例の第１態様は、オブジェクト追跡方法を提供する。前記方法は、同一シーンに対応する複数枚のシーン画像を取得するステップと、前記複数枚のシーン画像のうちの各シーン画像に対して特徴抽出処理及び目標部位検出を行い、前記各シーン画像の特徴情報と前記各シーン画像における複数の目標部位の位置とを取得するステップと、前記各シーン画像の特徴情報のうち、前記複数の目標部位の位置のそれぞれに対応する目標特徴情報を取得するステップと、取得された前記複数の目標部位の位置のそれぞれに対応する目標特徴情報に基づいて、前記複数枚のシーン画像に現れた複数の同じオブジェクトを特定するステップと、を含み、各シーン画像は、前記複数の同じオブジェクトのうちの一部又は全部を含む。

幾つかの選択可能な実施例において、前記複数枚のシーン画像のうちの各シーン画像に対して特徴抽出処理及び目標部位検出を行い、前記各シーン画像の特徴情報と前記各シーン画像における複数の目標部位の位置とを取得するステップは、前記複数枚のシーン画像のうちの各シーン画像の第１特徴マップを抽出することと、前記各シーン画像の第１特徴マップにおいて目標部位検出を行い、前記各シーン画像における複数の目標部位の位置を取得し、且つ、前記各シーン画像の第１特徴マップに対して特徴抽出処理を行い、多次元の第２特徴マップを取得することと、を含み、前記各シーン画像の特徴情報のうち、前記複数の目標部位の位置のそれぞれに対応する目標特徴情報を取得するステップは、前記多次元の第２特徴マップにおいて、前記複数の目標部位の位置のそれぞれに対応する目標特徴ベクトルを取得することを含む。

幾つかの選択可能な実施例において、前記取得された前記複数の目標部位の位置のそれぞれに対応する目標特徴情報に基づいて、前記複数枚のシーン画像に現れた複数の同じオブジェクトを特定するステップは、前記複数枚のシーン画像のうちの隣接する２枚ずつのシーン画像にそれぞれ対応する複数の目標特徴情報を利用し、前記隣接する２枚ずつのシーン画像における各目標部位の間の類似度を取得することと、前記隣接する２枚ずつのシーン画像における各目標部位の間の類似度に基づいて、異なるシーン画像に現れた複数の同じオブジェクトを特定することと、を含む。

幾つかの選択可能な実施例において、前記隣接する２枚ずつのシーン画像は、第１シーン画像及び第２シーン画像であり、前記複数枚のシーン画像のうちの隣接する２枚ずつのシーン画像にそれぞれ対応する複数の目標特徴情報を利用し、前記隣接する２枚ずつのシーン画像における各目標部位の間の類似度を取得することは、第１シーン画像におけるＮ個の目標特徴ベクトルのそれぞれと第２シーン画像におけるＭ個の目標特徴ベクトルとの類似度を特定することと、前記第１シーン画像におけるＮ個の目標特徴ベクトルのそれぞれと前記第２シーン画像におけるＭ個の目標特徴ベクトルとの前記類似度に基づいて、Ｎ×Ｍ次元の類似度行列を取得することと、を含み、Ｎ及びＭは、２以上の正整数であり、前記類似度行列における何れかの次元の値は、前記第１シーン画像の何れかの第１目標部位と前記第２シーン画像中の何れかの第２目標部位との類似度を表す。

幾つかの選択可能な実施例において、前記隣接する２枚ずつのシーン画像における各目標部位の間の類似度に基づいて、前記異なるシーン画像に現れた複数の同じオブジェクトを特定することは、前記類似度行列に基づいて、前記Ｎ個の目標特徴ベクトルのうちの第１目標特徴ベクトルのそれぞれと前記Ｍ個の目標特徴ベクトルとの類似度から類似度最大値を特定することと、前記類似度最大値が所定閾値よりも大きい場合に、前記Ｍ個の目標特徴ベクトルのうち、前記類似度最大値に対応する第２目標特徴ベクトルを特定することと、前記第１シーン画像における前記第１目標特徴ベクトルに対応する第１目標部位の所属するオブジェクトと前記第２シーン画像における第２目標特徴ベクトルに対応する第２目標部位の所属するオブジェクトとを同じオブジェクトとすることと、を含む。

幾つかの選択可能な実施例において、前記複数枚のシーン画像のうちの各シーン画像に対して特徴抽出処理及び目標部位検出を行い、前記各シーン画像の特徴情報と前記各シーン画像における複数の目標部位の位置とを取得するステップは、特徴検出モデルのバックボーンネットワークを介して前記複数枚のシーン画像のうちの各シーン画像の第１特徴マップを抽出することと、前記特徴検出モデルの部位検出ブランチを介して、前記各シーン画像の第１特徴マップにおいて目標部位検出を行い、前記各シーン画像における複数の目標部位の位置を取得し、且つ、前記特徴検出モデルの特徴抽出ブランチを介して、前記各シーン画像の第１特徴マップに対して特徴抽出処理を行い、多次元の第２特徴マップを取得することと、を含む。

幾つかの選択可能な実施例において、前記方法は、同一シーンに対応する複数枚のサンプルシーン画像を初期ニューラルネットワークモデルに入力し、前記初期ニューラルネットワークモデルから出力された各サンプルシーン画像における複数の目標部位の位置のそれぞれに対応するサンプル特徴ベクトルを取得するステップと、前記各サンプルシーン画像におけるマーキングされた複数の目標部位のそれぞれに対応するオブジェクト識別子に基づいて、隣接する２枚ずつのサンプルシーン画像における、同じ前記オブジェクト識別子の前記目標部位の位置に対応する前記サンプル特徴ベクトルの間の第１類似度を特定し、及び／又は、異なる前記オブジェクト識別子の前記目標部位の位置に対応する前記サンプル特徴ベクトルの間の第２類似度を特定するステップと、前記各サンプルシーン画像におけるマーキングされた複数の目標部位のそれぞれに対応するオブジェクト識別子に基づいて、前記第１類似度と前記第２類似度とのうちの少なくとも一方に基づいて、前記初期ニューラルネットワークモデルに対して教師ありトレーニングを行い、前記特徴検出モデルを取得するステップと、更に含む。

幾つかの選択可能な実施例において、前記各サンプルシーン画像におけるマーキングされた複数の目標部位のそれぞれに対応するオブジェクト識別子に基づいて、前記第１類似度と前記第２類似度とのうちの少なくとも一方に基づいて、前記初期ニューラルネットワークモデルに対して教師ありトレーニングを行い、前記特徴検出モデルを取得するステップは、第１類似度参照値と前記第１類似度との差分を第１損失関数とすることと、第２類似度参照値と前記第２類似度との差分を第２損失関数とすることと、前記第１損失関数と前記第２損失関数とのうちの少なくとも一方に基づいて、前記初期ニューラルネットワークモデルをトレーニングし、前記特徴検出モデルを取得することと、を含み、
前記第１類似度参照値は、前記隣接する２枚ずつのサンプルシーン画像におけるマーキングされた同じオブジェクト識別子の目標部位に対応するサンプル特徴ベクトルの間の類似度参照値であり、前記第２類似度参照値は、前記隣接する２枚ずつのサンプルシーン画像におけるマーキングされた異なるオブジェクト識別子の目標部位に対応するサンプル特徴ベクトルの間の類似度参照値である。

幾つかの選択可能な実施例において、前記方法は、前記複数のシーン画像に現れた複数の同じオブジェクトのうちの少なくとも１つのオブジェクトの、所定時間帯内における運動軌跡が目標運動軌跡に合致するか否かを特定するステップを更に含む。

幾つかの選択可能な実施例において、前記複数枚のシーン画像は、教室シーンに対応し、前記オブジェクトは、ティーチング対象を含み、前記目標運動軌跡は、ティーチングタスクにおいて前記ティーチング対象へ指定される少なくとも１種の運動軌跡を含む。

本発明の実施例の第２態様は、オブジェクト追跡装置を提供する。前記装置は、同一シーンに対応する複数枚のシーン画像を取得するための取得モジュールと、前記複数枚のシーン画像のうちの各シーン画像に対して特徴抽出処理及び目標部位検出を行い、前記各シーン画像の特徴情報と前記各シーン画像における複数の目標部位の位置とを取得するための処理モジュールと、前記各シーン画像の特徴情報のうち、前記複数の目標部位の位置のそれぞれに対応する目標特徴情報を取得するための特徴情報特定モジュールと、取得された前記複数の目標部位の位置のそれぞれに対応する目標特徴情報に基づいて、前記複数枚のシーン画像に現れた複数の同じオブジェクトを特定するためのオブジェクト特定モジュールと、を備え、各シーン画像は、前記複数の同じオブジェクトのうちの一部又は全部を含む。

本発明の実施例の第３態様は、コンピュータ可読記憶媒体を提供する。前記記憶媒体には、コンピュータプログラムが記憶され、前記コンピュータプログラムは、第１態様の何れか一項に記載のオブジェクト追跡方法を実行するために用いられる。

本発明の実施例の第４態様は、オブジェクト追跡装置を提供する。当該オブジェクト追跡装置は、プロセッサと、前記プロセッサで実行され得る実行可能指令を記憶するためのメモリと、を備え、前記プロセッサは、前記メモリに記憶された実行可能指令を呼び出すことで第１態様の何れか一項に記載のオブジェクト追跡方法を実施するように構成される。

本発明の実施例の第５態様は、コンピュータプログラムを提供する。前記コンピュータプログラムがプロセッサによって実行されたときに、第１態様の何れか一項に記載のオブジェクト追跡方法は、実施可能である。

本発明の実施例に係る技術案は、以下の有利な作用効果を奏することができる。

本発明の実施例では、隣接する２枚ずつのシーン画像において複数のオブジェクトをそれぞれ特定した後で前段のシーン画像における各オブジェクトごとに後段のシーン画像に含まれる複数のオブジェクトを単一オブジェクト追跡推論をそれぞれ行う必要がなく、単一シーン画像に対して単一フレーム推定を行って複数の目標部位の位置に対応する目標特徴情報を取得し、単一フレーム推定結果についてマッチングを取って隣接する２枚ずつのシーン画像における複数の同じオブジェクトを取得し、複数オブジェクト追跡の目的を果たす。また、現在シーンに複数のオブジェクトが含まれたとしても、シーン画像全体に対して推定を行うため、全複数オブジェクト追跡手順の時間は、シーン画像に含まれるオブジェクトの数に関係しない。そのため、オブジェクト数の増加につれて単一オブジェクト追跡推論を逐一に行うことによって追跡時間が増加することはない。これにより、計算リソースが非常に大きく節約され、複数オブジェクト追跡の時間が短縮され、複数オブジェクト追跡の検出効率が有効的に向上する。

上述した一般的な記述及び後文の詳細に対する記述が単に例示的や解釈的なものであり、本発明を制限できないことは、理解されるべきである。

ここでの図面は、明細書に組み込まれて明細書の一部を構成する。これらの図面は、本発明に合致する実施例を示しつつ、明細書の記載とともに本発明の原理を解釈するために用いられる。
本発明の１つの例示的な実施例に示すオブジェクト追跡方法のフローチャートである。本発明の１つの例示的な実施例に示すもう１つのオブジェクト追跡方法のフローチャートである。本発明の１つの例示的な実施例に示すもう１つのオブジェクト追跡方法のフローチャートである。本発明の１つの例示的な実施例に示すもう１つのオブジェクト追跡方法のフローチャートである。本発明の１つの例示的な実施例に示すもう１つのオブジェクト追跡方法のフローチャートである。本発明の１つの例示的な実施例に示す特徴検出モデルの構造模式図である。本発明の１つの例示的な実施例に示す複数オブジェクト追跡の推定手順の模式図である。本発明の１つの例示的な実施例に示すもう１つのオブジェクト追跡方法のフローチャートである。本発明の１つの例示的な実施例に示す特徴検出モデルのトレーニングシーンの模式図である。本発明の１つの例示的な実施例に示すもう１つのオブジェクト追跡方法のフローチャートである。本発明の１つの例示的な実施例に示すオブジェクト追跡装置のブロック図である。本発明の１つの例示的な実施例に示すオブジェクト追跡装置のための構造模式図である。

ここで、例示的な実施例を詳細に説明する。その例示は、図面に示される。以下の記述は、図面に係る際、別途示さない限り、異なる図面における同じ符号が同じ又は類似する要素を示す。以下の例示的な実施例に記述される実施形態が本発明と一致する全ての実施形態を代表するわけではない。逆に、それらは、単に添付する特許請求の範囲に詳細に記述されるような、本発明の幾つかの態様に一致する装置及び方法の例である。

本発明で使用される用語は、単に特定の実施例を記述する目的であり、本発明を制限するためのものではない。本発明及び添付する特許請求の範囲で使用される単数形式の「１種」、「前記」及び「当該」も、文脈から他の意味を明瞭で分かる場合でなければ、複数の形式を含むことを意図する。理解すべきことは、本文で使用される用語「及び／又は」が、１つ又は複数の関連する列挙項目を含む如何なる或いは全ての可能な組み合わせを指す。

理解すべきことは、本発明において第１、第２、第３等の用語を用いて各種の情報を記述するが、これらの情報は、これらの用語に限定されるものではない。これらの用語は、単に同一のタイプの情報同士を区分するために用いられる。例えば、本発明の範囲を逸脱しない限り、第１情報が第２情報と呼称されてもよく、類似的に、第２情報が第１情報と呼称されてもよい。これは、コンテキストに依存する。例えば、ここで使用される言葉「場合」は、「…とき」や「…ときに」あるいは「特定の状況に応じて」として解釈されてもよい。

本発明の実施例は、複数オブジェクト追跡案を提供し、例示として、異なるシーンでの端末機器に適用可能である。異なるシーンは、教室、監視カメラを配置した地点、又は複数オブジェクトを追跡する必要がある他の室内若しくは室外シーンを含むが、それらに限定されない。端末機器は、カメラヘッドを有する如何なる機器を採用可能であり、又は、端末機器は、外付け撮像機器であってもよい。端末機器は、同一シーンで前後して複数枚のシーン画像を収集してもよく、又は、ビデオストリームをそのまま収集して当該ビデオストリームにおける複数枚の画像を前記複数枚のシーン画像としてもよい。

更に、端末機器は、取得された複数枚のシーン画像のうちの各シーン画像に対して、特徴抽出処理及び目標部位検出を行い、各シーン画像の特徴情報と前記各シーン画像における複数の目標部位の位置とに基づいて、各シーン画像の特徴情報のうち、複数の目標部位の位置のそれぞれに対応する目標特徴情報を取得することにより、複数枚のシーン画像に現れた複数の同じオブジェクトを特定する。

例えば、教室において、端末機器は、教室内に配置された、カメラヘッドを有するティーチングマルチメディア機器を採用可能であり、ティーチングプロジェクタ、教室内のモニタリング機器等を含むが、それらに限定されない。端末機器は、教室内の複数枚のシーン画像を取得することにより、前記複数枚のシーン画像のうちの各シーン画像に対して特徴抽出処理及び目標部位検出を行い、前記各シーン画像の特徴情報と前記各シーン画像における複数の目標部位の位置とを取得する。前記各シーン画像の特徴情報のうち、前記複数の目標部位の位置のそれぞれに対応する目標特徴情報を取得することにより、前記複数枚のシーン画像に現れた複数の同じオブジェクトを特定し、複数オブジェクト追跡の目的を果たす。当該シーンにおけるオブジェクトは、ティーチング対象、例えば、学生を含んでもよいが、それに限定されない。目標部位は、人顔部位及び人体部位を含んでもよいが、それらに限定されない。

更に例えば、地下鉄又は鉄道駅には、１つ又は複数のモニタリングカメラヘッドが配置されて、モニタリングカメラヘッドを介して地下鉄又は鉄道駅の複数枚のシーン画像を取得してもよい。当該シーンでのオブジェクトは、乗客、乗客の持つスーツケース、従業員等を含んでもよい。本発明の実施例に関わる技術案を採用すると、地下鉄駅又は鉄道駅のような人の通行量が大きいシーンにおいて、複数枚のシーン画像に現れた複数の同じオブジェクトを特定可能であり、複数オブジェクト追跡の目的を果たす。

例示として、本発明の実施例に関わる複数オブジェクト追跡案は、更に、異なるシーンでのクラウドサーバに適用可能である。当該クラウドサーバは、外付けカメラヘッドが設けられて、外付けカメラヘッドを介して同一シーンで前後して複数枚のシーン画像を収集してもよく、又は、ビデオストリームをそのまま収集して当該ビデオストリームにおける複数枚の画像を前記複数枚のシーン画像としてもよい。収集されたシーン画像は、ルータ又はゲートウェイを介してクラウドサーバへ送信されてもよい。クラウドサーバは、各シーン画像に対して特徴抽出処理及び目標部位検出を行い、前記各シーン画像の特徴情報と前記各シーン画像における複数の目標部位の位置とを取得することにより、前記各シーン画像の特徴情報のうち、前記複数の目標部位の位置のそれぞれに対応する目標特徴情報を取得し、更に、前記複数枚のシーン画像に現れた複数の同じオブジェクトを特定する。

例えば、外付けカメラヘッドは、教室に設けられ、教室内で複数枚のシーン画像を収集し、ルータ又はゲートウェイを介してクラウドサーバへ送信し、クラウドサーバは、上記オブジェクト追跡方法を実行する。

本発明の実施例では、端末機器又はクラウドサーバを介して、複数枚のシーン画像に現れた複数の同じオブジェクトを特定した後、同じ認識枠で同一オブジェクトをマーキングしてマーキングされた後のシーン画像を出力してもよい。例えば、出力された隣接する２枚のシーン画像において、赤色認識枠で当該シーンにおけるオブジェクト１をマーキングし、緑色認識枠で当該シーンにおけるオブジェクト２をマーキングし、青色認識枠で当該シーンにおけるオブジェクト３をマーキングする等により、現在シーンにおける複数の同じオブジェクトをより良好に示す。或いは、認識枠に対応するオブジェクト識別子によって同じ又は異なるオブジェクトを区分してもよい。例えば、出力された１枚のシーン画像に３つの認識枠が含まれ、対応するオブジェクト識別子がそれぞれ１、２及び３であり、それに隣接するシーン画像に２つの認識枠が含まれ、対応するオブジェクト識別子がそれぞれ１及び３である場合に、この２枚のシーン画像におけるオブジェクト識別子が１である認識枠が、同じオブジェクトに対応し、オブジェクト識別子が３である認識枠も同じオブジェクトに対応し、オブジェクト識別子が１及び３である認識枠がそれぞれ異なるオブジェクトに対応することは、特定することができる。

また、更に、端末機器又はクラウドサーバを介して、複数の同じオブジェクトのうちの少なくとも１つのオブジェクトの、所定時間帯における運動軌跡を特定し、当該運動軌跡が目標運動軌跡に合致するか否かを分析してもよい。

例えば、現在シーンが教室であり、オブジェクトがティーチング対象を含む場合に、目標運動軌跡は、ティーチングタスクにおいて前記ティーチング対象へ指定される少なくとも１種の運動軌跡、例えば、現在所在する位置から教師によって指定された他の位置（他の位置は、教壇、黒板又は他のクラスメートの所在する位置であってもよい）へ移動することを含んでもよいが、それに限定されない。又は、目標運動軌跡は、同一位置に存在することを含んでもよい。教師は、複数のティーチング対象の運動軌跡に基づいて、ティーチング活動をより良好に行うことができる。

更に例えば、現在シーンが監視カメラを配置した地下鉄駅又は鉄道駅であることを例とし、オブジェクトが乗車員を含むが、それに限定されない場合に、目標運動軌跡は、指定の危険運動軌跡又は不正運動軌跡、例えばホーム位置からレールの所在する位置に移動したり、改札機の上方又は下方等に移動したりすることを含んでもよいが、それらに限定されない。従業員は、乗車員の運動軌跡に応じて、駅管理をより良好に行い、危険行為又はただ乗りなどの不正乗車行為の発生を回避することができる。

上述したのが単に本発明に適用するシーンに対する例示の説明であり、動作タイプ認識を迅速に行う必要がある他の室内又はシーンも本発明の保護範囲に含まれる。

図１に示すように、図１は、１つの例示的な実施例に係るオブジェクト追跡方法を示し、以下のステップを含む。

ステップ１０１では、同一シーンに対応する複数枚のシーン画像を取得する。

本発明の実施例において、同一シーンで前後して複数枚のシーン画像を収集してもよく、又はビデオストリームを収集してビデオストリームにおける複数枚の画像を複数枚のシーン画像としてもよい。本発明のシーンは、複数オブジェクト追跡を行う必要がある如何なるシーン、例えば、教室、監視カメラを配置した地点等を含むが、それらに限定されない。

ステップ１０２では、前記複数枚のシーン画像のうちの各シーン画像に対して特徴抽出処理及び目標部位検出を行い、前記各シーン画像の特徴情報と前記各シーン画像における複数の目標部位の位置とを取得する。

本発明の実施例において、各シーン画像に対して特徴抽出を行うとは、各シーン画像から特徴情報を抽出することを指し、当該特徴情報は、色特徴、テクスチャ特徴、形状特徴等を含んでもよいが、それらに限定されない。色特徴は、グローバル特徴であり、画像に対応する対象の表面色属性を記述し、テクスチャ特徴もグローバル特徴であり、画像に対応する対象の表面テクスチャ属性を記述し、形状特徴は、２種の表し方を有し、１種が輪郭特徴であり、もう１種が領域特徴である。画像の輪郭特徴は、主に対象の外側境界に対するものであり、画像の領域特徴は、画像領域の形状に関連する。

本発明の実施例において、１つの目標部位が１つのオブジェクトに対応するが、それに限定されなく、複数の目標部位が１つのオブジェクトに対応してもよい。目標部位は、人顔部位及び／又は人体部位を含んでもよいが、それらに限定されない。人体部位は、人物の人体全体又は人体のある指定部位、例えば手部、足部等を含んでもよい。目標部位の位置は、少なくとも当該目標部位の認識枠の中心位置で示されてもよい。例えば、目標部位が人顔部位を含む場合に、目標部位の位置は、人顔認識枠の中心位置で示されてもよい。当該目標部位の認識枠は、例えば、当該目標部位の外接矩形枠等として実現されてもよい。

ステップ１０３では、前記各シーン画像の特徴情報のうち、前記複数の目標部位の位置のそれぞれに対応する目標特徴情報を取得する。

本発明の実施例において、各シーン画像に複数の目標部位が含まれ、取得された各シーン画像の特徴情報に基づいて、目標部位を含む領域の画素に対して特徴抽出を行い、複数の目標部位の位置のそれぞれに対応する目標特徴情報を特定する。例示として、畳み込み処理等により、各シーン画像の特徴情報のうち、各目標部位の領域に含まれる複数の画素のそれぞれに対応する目標特徴情報を取得してもよい。

ステップ１０４では、取得された前記複数の目標部位の位置のそれぞれに対応する目標特徴情報に基づいて、前記複数枚のシーン画像に現れた複数の同じオブジェクトを特定する。各シーン画像は、前記複数の同じオブジェクトのうちの一部のオブジェクト又は全部のオブジェクトを含む。

上記実施例では、各シーン画像において複数の目標部位の位置に対応する目標特徴情報を取得し、前記複数枚のシーン画像のこれらの目標特徴情報に対してマッチングを取ることにより、前記複数枚のシーン画像に現れた複数の同じオブジェクトを特定することができる。

上記実施例では、隣接する２枚ずつのシーン画像において複数のオブジェクトをそれぞれ特定した後、前者のシーン画像における各オブジェクトに対して、後者のシーン画像に含まれる複数のオブジェクトの中で、単一オブジェクト追跡推論をそれぞれ行う必要がない。代わりに、単一シーン画像に対して単一フレーム推定を行って複数の目標部位の位置に対応する目標特徴情報を取得し、取得された隣接する２枚ずつのシーン画像の単一フレーム推定結果についてマッチングを取って隣接する２枚ずつのシーン画像における複数の同じオブジェクトを取得し、複数オブジェクト追跡の目的を果たす。現在シーンに複数のオブジェクトが含まれたとしても、シーン画像全体に対して推定を行うため、全複数オブジェクト追跡手順の時間は、シーン画像に含まれるオブジェクトの数に関係しない。そのため、オブジェクト数の増加につれて単一オブジェクト追跡推論を逐一に行うことによって追跡時間が増加することはない。これにより、計算リソースが非常に大きく節約され、複数オブジェクト追跡の時間が短縮され、複数オブジェクト追跡の検出効率が有効的に向上する。

幾つかの選択可能な実施例において、図２に示すように、ステップ１０２は、以下のステップを含んでもよい。

ステップ１０２－１では、前記複数枚のシーン画像のうちの各シーン画像の第１特徴マップを抽出する。

本発明の実施例において、予めトレーニングされたニューラルネットワークモデルを介して各シーン画像の画像特徴を抽出して第１特徴マップを取得してもよい。当該ニューラルネットワークモデルは、ビジュアル幾何学グループネットワーク（ＶｉｓｕａｌＧｅｏｍｅｔｒｙＧｒｏｕｐＮｅｔｗｏｒｋ、ＶＧＧＮｅｔ）等のモデルを採用してもよいが、それらに限定されない。

ステップ１０２－２では、前記各シーン画像の第１特徴マップにおいて目標部位検出を行い、前記各シーン画像における複数の目標部位の位置を取得し、且つ、前記各シーン画像の第１特徴マップに対して特徴抽出処理を行い、多次元の第２特徴マップを取得する。

本発明の実施例において、目標部位は、人顔部位及び／又は人体部位を含んでもよい。領域予測ネットワーク（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ、ＲＰＮ）を介して、各シーン画像の第１特徴マップにおいて人顔部位及び／又は人体部位の検出を行い、人顔部位に対応する人顔領域及び／又は人体部位に対応する人体領域を特定してもよい。人顔領域は、人顔認識枠でマーキングされてもよく、人体領域は、人体認識枠でマーキングされてもよい。例示として、人顔認識枠の中心位置を人顔部位の位置としてもよい。同様に、人体認識枠の中心位置を人体部位の位置としてもよい。

更に、各シーン画像の第１特徴マップに対して特徴抽出処理を行い、第１特徴マップに含まれる複数種の特徴情報を異なるチャンネルを介して抽出してもよい。このように、多次元の第２特徴マップを取得する。例示として、第２特徴マップのサイズは、第１特徴マップのサイズと同じであってもよく、且つ第２特徴マップの次元値は、各シーン画像に対応する所定チャンネル数である。

それ相応に、ステップ１０３は、以下のことを含んでもよい。

前記多次元の第２特徴マップにおいて、前記複数の目標部位の位置のそれぞれに対応する目標特徴ベクトルを取得する。

本発明の実施例において、目標特徴情報は、何れかの次元の第２特徴マップに含まれる複数の目標部位の領域のうちの各領域中の複数の画素のそれぞれに対応する特徴情報を表すために用いられる。目標部位は、人顔部位及び／又は人体部位を含んでもよい。

何れかの次元の第２特徴マップに含まれる複数の目標部位の領域において、何れか１つの画素に対応する特徴情報も、１つの一次元の特徴ベクトルを構成可能である。後の類似度算出が容易にするように、これらの特徴ベクトルから１つ又は複数の特徴ベクトルを選択して当該目標部位の領域の特徴情報（即ち、目標特徴情報）を示してもよい。本発明の実施例において、目標部位の位置の画素に対応する特徴ベクトルを選択し、当該特徴ベクトルを当該次元の第２特徴マップにおける目標部位の位置に対応する目標特徴ベクトルとしてもよい。目標部位の位置は、人顔認識枠の中心位置及び／又は人体認識枠の中心位置を含んでもよい。

更に、後の目標部位のマッチングの正確度が向上するように、多次元の第２特徴マップのうちの少なくとも１つの次元の第２特徴マップについて、複数の目標部位の位置の画素に対応する特徴情報を得て前記複数の目標部位の位置のそれぞれに対応する目標特徴ベクトルを取得してもよい。例示として、各次元の第２特徴マップごとに、複数の目標部位の位置のそれぞれに対応する目標特徴ベクトルを取得可能である。このように、目標特徴ベクトルの次元値と第２特徴マップの次元値とを同じにする。例えば、第２特徴マップの次元値がＣである場合に、目標特徴ベクトルの次元値もＣとなる。

上記実施例では、シーン画像全体について順次に実行された特徴抽出、目標部位検出、及び複数の目標部位の位置のそれぞれに対応する目標特徴ベクトルの特定である全手順が単一シーン画像に対する単一フレーム推定であるため、その中に含まれるオブジェクトの数の多少に関係しない。後続では、隣接する２枚ずつのシーン画像における、複数のオブジェクト位置のそれぞれに対応する目標特徴ベクトルに対してマッチングを取るため、単一オブジェクト追跡推論を別々に行う必要がない。シーン画像に含まれるオブジェクト数が多くなっても、一度にマッピング手順を完了することができる。本発明のオブジェクト追跡方法がシーン画像中のオブジェクト数に関係せず、オブジェクト数の増加による追跡時間の増加はない。これにより、計算リソースが非常に大きく節約され、複数オブジェクト追跡の時間が短縮され、複数オブジェクト追跡の検出効率が有効的に向上する。

幾つかの選択可能な実施例において、図３に示すように、ステップ１０４は、以下のステップを含んでもよい。

ステップ１０４－１では、前記複数枚のシーン画像のうちの隣接する２枚ずつのシーン画像にそれぞれ対応する前記複数の目標特徴情報を利用して、前記隣接する２枚ずつのシーン画像における各目標部位の間の類似度を取得する。

本発明の実施例では、各シーン画像の特徴情報のうち、前記複数の目標部位に対応する複数の目標特徴情報が既に特定され、隣接する２枚ずつのシーン画像のそれぞれに対応する複数の目標特徴情報を利用して類似度算出を行い、隣接する２枚ずつのシーン画像における各目標部位の間の類似度を取得することができる。

ステップ１０４－２では、前記隣接する２枚ずつのシーン画像における各目標部位の間の類似度に基づいて、前記異なるシーン画像に現れた複数の同じオブジェクトを特定する。

本発明の実施例において、隣接する２枚ずつのシーン画像における、最も類似度が大きい目標部位の所属するオブジェクトを異なるシーン画像に現れた同じオブジェクトとしてもよい。

上記実施例において、隣接する２枚ずつのシーン画像における各目標部位の間の類似度に基づいて異なるシーン画像に現れた複数の同じオブジェクトを特定可能であり、複数オブジェクト追跡の目的が果たされるとともに、追跡手順がオブジェクト数に関係せず、利用可能性が高くなる。

幾つかの選択可能な実施例において、隣接する２枚ずつのシーン画像は、第１シーン画像Ｔ_０及び第２シーン画像Ｔ_１である。

図４に示すように、上記ステップ１０４－１は、以下のステップを含んでもよい。

ステップ１０４－１１では、第１シーン画像におけるＮ個の目標特徴ベクトルのそれぞれと第２シーン画像におけるＭ個の目標特徴ベクトルとの類似度を特定する。

本発明の実施例において、目標特徴情報は、何れかの次元の第２特徴マップに含まれる複数の目標部位の領域の各領域中の複数の画素のそれぞれに対応する特徴情報を表すために用いられる。目標部位は、人顔部位及び／又は人体部位を含んでもよい。

目標特徴情報に基づくと、何れかの次元の第２特徴マップに含まれる複数の目標部位の領域において、何れか１つの画素に対応する特徴情報も、１つの一次元の特徴ベクトルを構成可能である。後の類似度算出が容易にするように、これらの特徴ベクトルから１つ又は複数の特徴ベクトルを選択して当該目標部位の領域の特徴情報を示してもよい。本発明の実施例において、目標部位の位置の画素に対応する特徴ベクトルを選択し、当該特徴ベクトルを当該次元の第２特徴マップにおける目標部位の位置に対応する目標特徴ベクトルとしてもよい。目標部位の位置は、人顔認識枠の中心位置及び／又は人体認識枠の中心位置を含んでもよい。

類似度を特定する手順では、隣接する２枚ずつのシーン画像のうちの第１シーン画像におけるＮ個の目標特徴ベクトルのそれぞれと第２シーン画像におけるＭ個の目標特徴ベクトルとの類似度を特定してもよい。Ｎ及びＭは、２以上の正整数である。即ち、第１シーン画像における複数の目標特徴ベクトルのそれぞれと第２シーン画像における複数の目標特徴ベクトルとの間の類似度を特定する。

１つの可能な実現方式では、類似度の特定時に、目標特徴ベクトルの間の余弦類似度値を特定してもよい。第１シーン画像における何れか１つの目標特徴ベクトルと第２シーン画像における何れか１つの目標特徴ベクトルとの夾角の余弦値を算出することにより、それらの類似度を評価する。

ステップ１０４－１２では、前記第１シーン画像におけるＮ個の目標特徴ベクトルのそれぞれと前記第２シーン画像におけるＭ個の目標特徴ベクトルとの前記類似度に基づいて、Ｎ×Ｍ次元の類似度行列を取得する。

本発明の実施例において、類似度行列における何れかの次元の値は、前記第１シーン画像の何れかの第１目標部位と前記第２シーン画像中の何れかの第２目標部位との類似度を表す。ＮとＭは、等しくてもよく、等しくなくてもよい。

上記実施例では、第１シーン画像におけるＮ個の目標特徴ベクトルのそれぞれと第２シーン画像におけるＭ個の目標特徴ベクトルとの類似度を特定することにより、Ｎ×Ｍ次元の類似度行列を取得し、前記第１シーン画像の何れかの第１目標部位と前記第２シーン画像中の何れかの第２目標部位との類似度を類似度行列で示してもよく、実現しやすくなり、利用可能性が高くなる。

幾つかの選択可能な実施例において、ステップ１０４－２に関し、２部グラフアルゴリズムを採用してもよい。空間距離制約を満たす条件で、前記隣接する２枚ずつのシーン画像における各目標部位の間の類似度に基づいて、前記異なるシーン画像に現れた複数の同じオブジェクトを特定する。

２部グラフアルゴリズムとは、１つの２部グラフ内において、左頂点をＸ、右頂点をＹとし、各グループの左右接続Ｘ_ｉＹ_ｊについて重み付け値ｗ_ｉｊを与え、全てのｗ_ｉｊの和が最大となるマッチングを求めることを指す。本発明の実施例において、Ｘ_ｉは、第１シーン画像におけるＮ個の目標特徴ベクトルのうちの１つに相当し、Ｙ_ｊは、第２シーン画像におけるＭ個の目標特徴ベクトルのうちの１つに相当し、重み付け値ｗ_ｉｊは、類似度に対応する。本発明では、類似度が最大である場合に、Ｎ個の目標特徴ベクトルと第２目標特徴ベクトルとをマッチングさせ、現在隣接する２枚ずつのシーン画像における複数の同じオブジェクトを最終的に特定できるようにする必要がある。

本発明の実施例において、空間距離制約を満たす条件は、Ｎ個の目標特徴ベクトルとＭ個の目標特徴ベクトルとの間の類似度の次元がＮ×Ｍを超えないことを含む。

１つの可能な実現方式において、複数オブジェクト追跡の正確性が更に向上するように、類似度が最大であるとともにこの類似度最大値が所定閾値を超えることも確保する必要がある。

図５に示すように、ステップ１０４－２は、以下のステップを含んでもよい。

ステップ１０４－２１では、前記類似度行列に基づいて、前記Ｎ個の目標特徴ベクトルのうちの第１目標特徴ベクトルのそれぞれと前記Ｍ個の目標特徴ベクトルとの類似度から類似度最大値を特定する。

本発明の実施例において、第１目標特徴ベクトルは、第１シーン画像において特定されたＮ個の目標特徴ベクトルのうちの何れか１つである。類似度行列に基づいて当該第１目標特徴ベクトルと第２シーン画像における各目標特徴ベクトルとの間の類似度を取得してもよい。これらの類似度から１つの類似度最大値を特定してもよい。

類似度行列が

であり、第１目標特徴ベクトルとＭ個の第２目標特徴ベクトルとの間の類似度がそれぞれａ₁₁、ａ₁₂及びａ₁₃であるとすれば、その中の最大値（ａ₁₁と仮定する）は、特定可能である。

ステップ１０４－２２では、前記類似度最大値が所定閾値よりも大きい場合に、前記Ｍ個の目標特徴ベクトルのうち、前記類似度最大値に対応する第２目標特徴ベクトルを特定する。

本発明の実施例において、第２目標特徴ベクトルは、第２シーン画像に含まれるＭ個の目標特徴ベクトルのうち、当該類似度最大値に対応する目標特徴ベクトルである。

複数オブジェクト追跡の正確性が更に確保されるように、類似度最大値が所定閾値よりも大きいことを確保する必要がある。

ステップ１０４－２３では、前記第１シーン画像における前記第１目標特徴ベクトルに対応する第１目標部位の所属するオブジェクトと前記第２シーン画像における第２目標特徴ベクトルに対応する第２目標部位の所属するオブジェクトとを同じオブジェクトとする。

本発明の実施例において、上記類似度最大値が所定閾値よりも大きいときこそ、前記第１シーン画像の第１目標特徴ベクトルに対応する第１目標部位の所属するオブジェクトと前記第２シーン画像における第２目標特徴ベクトルに対応する第２目標部位の所属するオブジェクトとを同じオブジェクトとする。

類似度最大値が所定閾値以下であれば、第１シーン画像における第１目標特徴ベクトルに対応する第１目標部位の所属するオブジェクトが第２シーン画像において同じオブジェクトを有さないと考えられてもよい。

上記ステップ１０４－２１から１０４－２３を繰り返し、繰り返し回数が第１シーン画像に含まれる目標特徴ベクトルの数Ｎであり、第１シーン画像と第２シーン画像とに現れた全ての同じオブジェクトを最終的に特定することができる。

上記実施例において、類似度行列に応じて、隣接する２枚ずつのシーン画像における目標部位の間の類似度が最も近接する２つのオブジェクトを同じオブジェクトとしてもよく、複数オブジェクト追跡の目的が果たされ、利用可能性が高くなる。

幾つかの選択可能な実施例において、複数枚のシーン画像が取得された後、前記複数枚のシーン画像のうちの少なくとも２枚を予めトレーニングされた特徴検出モデルに入力し、前記特徴検出モデルを介して前記複数枚のシーン画像のうちの各シーン画像に対して特徴抽出処理及び目標部位検出を行い、前記各シーン画像の特徴情報と前記各シーン画像における複数の目標部位の位置とを取得し、且つ、前記各シーン画像における複数の目標部位の位置に基づいて、前記各シーン画像の特徴情報のうち、前記複数の目標部位に対応する複数の目標特徴情報を取得してもよい。

特徴検出モデルの構成は、図６に示すように、複数枚のシーン画像を特徴検出モデルに入力し、特徴検出モデルは、まず、バックボーンネットワーク（ｂａｃｋｂｏｎｅ）を介して複数枚のシーン画像のうちの各シーン画像に対して特徴抽出を行い、各シーン画像の第１特徴マップを取得する。

更に、特徴検出モデルの部位検出ブランチを介して、前記各シーン画像の第１特徴マップにおいて目標部位検出を行い、前記各シーン画像における複数の目標部位の位置を取得し、且つ、前記特徴検出モデルの特徴抽出ブランチを介して、前記各シーン画像の第１特徴マップに対して特徴抽出処理を行い、多次元の第２特徴マップを取得する。オブジェクトは、人物を含んでもよく、目標部位は、人顔部位及び／又は人体部位を含んでもよい。特徴抽出ブランチは、少なくとも１つの畳み込み層を直列に接続して形成されてもよい。第２特徴マップのサイズは、第１特徴マップのサイズと同じである。このように、各次元の第２特徴マップにおいて、複数の目標部位の位置は、同じである。第２特徴マップの次元値は、各シーン画像に対応する所定チャンネル数と同じである。

更に、前記多次元の第２特徴マップにおいて、前記複数の目標部位の位置に対応する複数の目標特徴ベクトルを取得してもよい。目標部位の位置は、人顔認識枠の中心位置及び／又は人体認識枠の中心位置で示されてもよい。目標特徴ベクトルの次元値は、第２特徴マップの次元値と同じである。ある人顔認識枠の中心位置座標が（ｘ、ｙ）であり、特徴抽出ブランチで得られた第２特徴マップのサイズが第１特徴マップサイズに一致しており、何れもＨ×Ｗであり、Ｈ及びＷがそれぞれ画像の長さ及び幅であり、第２特徴マップの次元値がＣであり、Ｃが各シーン画像に対応する所定チャンネル数である。各チャンネルの何れにも、人顔認識枠中心位置（ｘ、ｙ）に対応する目標特徴ベクトルを取得可能であるため、目標特徴ベクトルの次元値は、Ｃとなる。

本発明の実施例では、前記多次元の第２特徴マップにおいて前記複数の目標部位の位置に対応する複数の目標特徴ベクトルを抽出した後、第１シーン画像におけるＮ個の目標特徴ベクトルのそれぞれと第２シーン画像におけるＭ個の目標特徴ベクトルとの類似度を特定することにより、類似度行列を取得し、当該類似度行列に基づいて、前記異なるシーン画像に現れた複数の同じオブジェクトを特定してもよい。特定方式は、上記ステップ１０４－２の方式と同じであるため、ここで繰り返し説明しない。

図７に示すように、第１シーン画像Ｔ_０及び第２シーン画像Ｔ_１へ上記特徴検出モデルを別々に入力することにより、Ｎ個の目標特徴ベクトル及びＭ個の目標特徴ベクトルをそれぞれ取得してもよい。更に、２部グラフアルゴリズムを採用し、空間距離制約を満たす条件で、抽出された前記目標部位の特徴に対してマッチングを取ることにより、Ｔ_０とＴ_１とに現れた同じオブジェクトを特定してもよい。

上記実施例において、各シーン画像に対して単一フレーム推定を行い、各シーン画像に幾つのオブジェクトが含まれても、複数オブジェクト追跡が迅速に実現可能であり、複数オブジェクト追跡の検出効率が有効的に向上する。

幾つかの選択可能な実施例において、図８に示すように、当該方法は、以下のステップを更に含んでもよい。

ステップ１００－１では、同一シーンに対応する複数枚のサンプルシーン画像を初期ニューラルネットワークモデルに入力し、前記初期ニューラルネットワークモデルから出力された各サンプルシーン画像における複数の目標部位の位置のそれぞれに対応するサンプル特徴ベクトルを取得する。

本発明の実施例において、同一シーンに対応する既存の複数枚のサンプル画像を初期ニューラルネットワークモデルの入力値として採用し、複数枚のサンプル画像において予め各認識枠及び／又は対応するオブジェクト識別子によって複数の同じオブジェクト及び異なるオブジェクトをマーキングする。

本発明の実施例において、初期ニューラルネットワークモデルの構成は、同様に図６に示すように、バックボーンネットワーク、部位検出ブランチ及び特徴抽出ブランチを含んでもよい。入力値が複数枚のサンプルシーン画像を含む場合に、各サンプルシーン画像における複数の目標部位の位置のそれぞれに対応するサンプル特徴ベクトルを取得してもよい。

ステップ１００－２では、前記各サンプルシーン画像におけるマーキングされた複数の目標部位のそれぞれに対応するオブジェクト識別子に基づいて、隣接する２枚ずつのサンプルシーン画像において、同じ前記オブジェクト識別子の前記目標部位の位置に対応する前記サンプル特徴ベクトルの間の第１類似度を特定し、及び／又は、異なる前記オブジェクト識別子の前記目標部位の位置に対応する前記サンプル特徴ベクトルの間の第２類似度を特定する。

本発明の実施例において、初期ニューラルネットワークモデルから出力された各サンプルシーン画像における複数の目標部位の位置のそれぞれに対応するサンプル特徴ベクトルに基づいて、隣接する２枚ずつのサンプルシーン画像における同じ前記オブジェクト識別子の前記目標部位の位置に対応する前記サンプル特徴ベクトルの間の第１類似度、及び／又は、前記隣接する２枚ずつのサンプルシーン画像における異なる前記オブジェクト識別子の前記目標部位の位置に対応する前記サンプル特徴ベクトルの間の第２類似度を特定してもよい。

サンプル特徴ベクトルの間の余弦類似度値に基づいて上記第１類似度値及び第２類似度値を取得してもよい。

ステップ１００－３では、前記各サンプルシーン画像におけるマーキングされた複数の目標部位のそれぞれに対応するオブジェクト識別子に基づいて、前記第１類似度と前記第２類似度とのうちの少なくとも一方に基づいて、前記初期ニューラルネットワークモデルに対して教師ありトレーニングを行い、前記特徴検出モデルを取得する。

本発明の実施例において、第１類似度値を上げて第２類似度値を下げる方式で、図９に示すように、損失関数を特定してもよい。前記隣接する２枚ずつのサンプルシーン画像における複数の目標部位のそれぞれに対応するオブジェクト識別子を基に、特定された損失関数によって所定モデルのネットワークパラメータを調整し、教師ありトレーニングを完了した後、特徴検出モデルを取得する。

上記実施例では、前記各サンプルシーン画像におけるマーキングされた複数の目標部位のそれぞれに対応するオブジェクト識別子に基づいて、初期ニューラルネットワークモデルに対して教師ありトレーニングを行って前記特徴検出モデルを取得することにより、特徴検出モデルの検出性能及び汎化性能を向上させる。

幾つかの選択可能な実施例において、ステップ１００－３に関し、第１類似度参照値と前記第１類似度との差分を第１損失関数としてもよい。第１類似度参照値は、前記２枚ずつのサンプルシーン画像におけるマーキングされた同じオブジェクト識別子の目標部位に対応するサンプル特徴ベクトルの間の類似度参照値である。例示として、第１類似度参照値は、サンプル特徴ベクトルの間の余弦類似度値であり、その値が１であってもよい。

初期ニューラルネットワークモデルのネットワークパラメータを調整して第１損失関数を最小にする又は所定トレーニング回数に達させることにより、特徴検出モデルを取得する。

又は、第２類似度参照値と前記第２類似度との差分を第２損失関数としてもよい。第２類似度参照値は、前記２枚ずつのサンプルシーン画像におけるマーキングされた異なるオブジェクト識別子の目標部位に対応するサンプル特徴ベクトルの間の類似度参照値である。例示として、第２類似度参照値は、サンプル特徴ベクトルの間の余弦類似度値であり、その値が０であってもよい。

同様に、初期ニューラルネットワークモデルのネットワークパラメータを調整して第２損失関数を最小にする又は所定トレーニング回数に達させることにより、特徴検出モデルを取得する。

又は、第１損失関数と第２損失関数との両方を初期ニューラルネットワークモデルの損失関数とし、初期ニューラルネットワークモデルのネットワークパラメータを調整して２つの損失関数を最小にする又は所定トレーニング回数に達させることにより、特徴検出モデルを取得してもよい。

幾つかの選択可能な実施例において、図１０に示すように、当該方法は、以下のステップを更に含んでもよい。

ステップ１０５では、前記複数のシーン画像に現れた複数の同じオブジェクトのうちの少なくとも１つのオブジェクトの、所定時間帯内における運動軌跡が目標運動軌跡に合致するか否かを特定する。

本発明の実施例において、複数枚のシーン画像は、教室シーンに対応し、前記オブジェクトは、ティーチング対象を含み、前記目標運動軌跡は、ティーチングタスクにおいて前記ティーチング対象へ指定される少なくとも１種の運動軌跡を含む。ティーチングタスクにおいて前記ティーチング対象へ指定される少なくとも１種の運動軌跡は、現在の所在する位置から教師によって指定された他の位置まで歩くことを含むが、それに限定されない。他の位置は、教壇、黒板若しくは他のクラスメートの所在する位置であってもよく、又は、目標運動軌跡は、現在位置に移動が発生しないことを更に含んでもよい。

例えば、教室では、教室内に配置された、カメラヘッドを有するティーチングマルチメディア機器（ティーチングプロジェクタ、教室内のモニタリング機器等を含むが、それらに限定されない）を用いて教室内で複数枚のシーン画像を前後して収集してもよい。教室シーン画像に含まれる少なくとも１つティーチング対象の運動軌跡を特定する。当該ティーチング対象は、学生であってもよい。

更に、設定時間帯内、例えば、教師が授業する１コマの時間帯内で、各ティーチング対象例えば各学生の運動軌跡がティーチングタスクにおいて前記ティーチング対象へ指定される少なくとも１種の運動軌跡に合致するか否かを特定してもよい。例えば、教師の指示に従って現在位置から黒板の前に若しくは他のクラスメートの所在する位置に移動したか否か、又は、運動軌跡の移動が発生せずにずっと同一位置にいる、例えばずっと自分の位置に座って授業を受けているか否か等を特定する。教師がティーチングタスクをより良好に行うように、ティーチングマルチメディア機器を介して上記結果を表示してもよい。

上記方法実施例に対応し、本発明は、装置の実施例を更に提供する。

図１１に示すように、図１１は、本発明の１つの例示的な実施例に示すオブジェクト追跡装置ブロック図である。装置は、同一シーンに対応する複数枚のシーン画像を取得するための取得モジュール２１０と、前記複数枚のシーン画像のうちの各シーン画像に対して特徴抽出処理及び目標部位検出を行い、前記各シーン画像の特徴情報と前記各シーン画像における複数の目標部位の位置とを取得するための処理モジュール２２０と、前記各シーン画像の特徴情報のうち、前記複数の目標部位の位置のそれぞれに対応する目標特徴情報を取得するための特徴情報特定モジュール２３０と、取得された前記複数の目標部位の位置のそれぞれに対応する目標特徴情報に基づいて、前記複数枚のシーン画像に現れた複数の同じオブジェクトを特定するためのオブジェクト特定モジュール２４０と、を備え、各シーン画像は、前記複数の同じオブジェクトのうちの一部又は全部を含む。

幾つかの選択可能な実施例において、前記処理モジュールは、前記複数枚のシーン画像のうちの各シーン画像の第１特徴マップを抽出するための第１処理サブモジュールと、前記各シーン画像の第１特徴マップにおいて目標部位検出を行い、前記各シーン画像における複数の目標部位の位置を取得し、且つ、前記各シーン画像の第１特徴マップに対して特徴抽出処理を行い、多次元の第２特徴マップを取得するための第２処理サブモジュールと、を備え、前記特徴情報特定モジュールは、前記多次元の第２特徴マップにおいて前記複数の目標部位の位置に対応する複数の目標特徴ベクトルを取得するための特徴ベクトル特定サブモジュールを備える。

幾つかの選択可能な実施例において、前記オブジェクト特定モジュールは、前記複数枚のシーン画像のうちの隣接する２枚ずつのシーン画像にそれぞれ対応する複数の目標特徴情報を利用し、前記隣接する２枚ずつのシーン画像における各目標部位の間の類似度を取得するための類似度特定サブモジュールと、前記隣接する２枚ずつのシーン画像における各目標部位の間の類似度に基づいて、前記異なるシーン画像に現れた複数の同じオブジェクトを特定するためのオブジェクト特定サブモジュールと、を備える。

幾つかの選択可能な実施例において、前記隣接する２枚ずつのシーン画像は、第１シーン画像及び第２シーン画像であり、前記類似度特定サブモジュールは、第１シーン画像におけるＮ個の目標特徴ベクトルのそれぞれと第２シーン画像におけるＭ個の目標特徴ベクトルとの類似度を特定することと、前記第１シーン画像におけるＮ個の目標特徴ベクトルのそれぞれと前記第２シーン画像におけるＭ個の目標特徴ベクトルとの前記類似度に基づいて、Ｎ×Ｍ次元の類似度行列を取得することとを実行し、Ｎ及びＭは、２以上の正整数であり、前記類似度行列における何れかの次元の値は、前記第１シーン画像の何れかの第１目標部位と前記第２シーン画像中の何れかの第２目標部位との類似度を表す。

幾つかの選択可能な実施例において、前記オブジェクト特定サブモジュールは、前記類似度行列に基づいて、前記Ｎ個の目標特徴ベクトルのうちの第１目標特徴ベクトルのそれぞれと前記Ｍ個の目標特徴ベクトルとの類似度から類似度最大値を特定することと、前記類似度最大値が所定閾値よりも大きい場合に、前記Ｍ個の目標特徴ベクトルのうち、前記類似度最大値に対応する第２目標特徴ベクトルを特定することと、前記第１シーン画像における前記第１目標特徴ベクトルに対応する第１目標部位の所属するオブジェクトと前記第２シーン画像における第２目標特徴ベクトルに対応する第２目標部位の所属するオブジェクトとを同じオブジェクトとすることと、を実行する。

幾つかの選択可能な実施例において、前記処理モジュールは、特徴検出モデルのバックボーンネットワークを介して前記複数枚のシーン画像のうちの各シーン画像の第１特徴マップを抽出するための第３処理サブモジュールと、前記特徴検出モデルの部位検出ブランチを介して、前記各シーン画像の第１特徴マップにおいて目標部位検出を行い、前記各シーン画像における複数の目標部位の位置を取得し、且つ、前記特徴検出モデルの特徴抽出ブランチを介して、前記各シーン画像の第１特徴マップに対して特徴抽出処理を行い、多次元の第２特徴マップを取得するための第４処理サブモジュールと、を備える。

幾つかの選択可能な実施例において、前記装置は、同一シーンに対応する複数枚のサンプルシーン画像を所定モデルに入力し、前記所定モデルから出力された各サンプルシーン画像における複数の目標部位の位置に対応する複数の特徴ベクトルを取得するための特徴ベクトル特定モジュールと、隣接する２枚ずつのサンプルシーン画像におけるマーキングされた複数の目標部位のそれぞれに対応するオブジェクト識別子に基づいて、前記隣接する２枚ずつのサンプルシーン画像における同じ前記オブジェクト識別子の前記目標部位の位置に対応するサンプル特徴ベクトルの間の第１類似度を特定し、及び／又は、前記隣接する２枚ずつのサンプルシーン画像における異なるオブジェクト識別子の目標部位の位置に対応するサンプル特徴ベクトルの間の第２類似度を特定するための類似度特定モジュールと、前記隣接する２枚ずつのサンプルシーン画像におけるマーキングされた複数の目標部位のそれぞれに対応するオブジェクト識別子を基に、前記第２類似度と前記第１類似度とのうちの少なくとも一方に基づいて、前記所定モデルに対して教師ありトレーニングを行い、前記特徴検出モデルを取得するためのトレーニングモジュールと、を更に備える。

幾つかの実施例において、第１類似度参照値と前記第１類似度との差分を第１損失関数とすることと、第２類似度参照値と前記第２類似度との差分を第２損失関数とすることと、前記第１損失関数と前記第２損失関数とのうちの少なくとも一方に基づいて、前記初期ニューラルネットワークモデルをトレーニングし、前記特徴検出モデルを取得することとを実行し、前記第１類似度参照値は、前記隣接する２枚ずつのサンプルシーン画像におけるマーキングされた同じオブジェクト識別子の目標部位に対応するサンプル特徴ベクトルの間の類似度参照値であり、前記第２類似度参照値は、前記隣接する２枚ずつのサンプルシーン画像におけるマーキングされた異なるオブジェクト識別子の目標部位に対応するサンプル特徴ベクトルの間の類似度参照値である。

幾つかの選択可能な実施例において、前記装置は、前記複数のシーン画像に現れた複数の同じオブジェクトのうちの少なくとも１つのオブジェクトの、所定時間帯内における運動軌跡が目標運動軌跡に合致するか否かを特定するための運動軌跡特定モジュールを更に備える。

装置実施例は、方法実施例に基本的に対応するため、その関連箇所が方法実施例部分の説明を参照すればよい。上述した装置実施例は、単に例示であり、その中、分離部品として説明される手段が物理的に分離されるものであってもよくでなくてもよい。また、手段として表示される部品は、物理手段であってもでなくてもよい。更に、それらの手段は、１箇所に位置してもよく、複数のネットワークセルに分散してもよい。実際の需要に応じてその中の一部又は全部のモジュールを選択して本実施例の目的を果たすことが可能である。当業者は、進歩性に値する労働をせずに、理解して実施可能である。

本発明の実施例は、コンピュータ可読記憶媒体を更に提供する。記憶媒体には、コンピュータプログラムが記憶され、コンピュータプログラムは、上記何れか一項に記載のオブジェクト追跡方法を実行するために用いられる。

幾つかの選択可能な実施例において、本発明の実施例は、コンピュータプログラム製品を提供する。当該コンピュータプログラム製品は、コンピュータ可読コードを含み、コンピュータ可読コードが機器で運転されたときに、機器におけるプロセッサは、上述した何れか１つの実施例に係るオブジェクト追跡方法を実施するための指令を実行する。

幾つかの選択可能な実施例において、本発明の実施例は、別のコンピュータプログラム製品を更に提供する。当該コンピュータプログラム製品は、コンピュータ可読指令を記憶し、指令が実行されたときに、コンピュータは、上記何れか１つの実施例に係るオブジェクト追跡方法の操作を実行する。

当該上記コンピュータプログラム製品は、具体的にハードウェア、ソフトウェア又はそれらの組み合わせで実現されてもよい。ある好適な実施例において、前記コンピュータプログラム製品は、コンピュータ記憶媒体として具現化されてもよく、別の好適な実施例において、コンピュータプログラム製品は、ソフトウェア製品、例えばソフトウェア開発キット（ＳｏｆｔｗａｒｅＤｅｖｅｌｏｐｍｅｎｔＫｉｔ、ＳＤＫ）等として具現化される。

幾つかの選択可能な実施例において、本発明の実施例は、コンピュータプログラムを提供する。前記コンピュータプログラムが実行されたときに、コンピュータは、上記何れか１つの実施例に係るオブジェクト追跡方法の操作を実行する。

本発明の実施例は、オブジェクト追跡装置を更に提供する。当該オブジェクト追跡装置は、プロセッサと、プロセッサで実行され得る実行可能指令を記憶するためのメモリと、を備え、プロセッサは、前記メモリに記憶された実行可能指令を呼び出すことにより、上記何れか１つのオブジェクト追跡方法を実施するように構成される。

図１２は、本発明の実施例に係るオブジェクト追跡装置のハードウェア構造模式図である。当該オブジェクト追跡装置３１０は、プロセッサ３１１を備え、入力装置３１２、出力装置３１３及びメモリ３１４を更に備えてもよい。当該入力装置３１２、出力装置３１３、メモリ３１４とプロセッサ３１１の間は、バスを介して互いに接続される。

メモリは、ランダムアクセスメモリ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ、ＲＡＭ）、読み出し専用メモリ（ｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ、ＲＯＭ）、消去可能なプログラマブル読み出し専用メモリ（ｅｒａｓａｂｌｅｐｒｏｇｒａｍｍａｂｌｅｒｅａｄｏｎｌｙｍｅｍｏｒｙ、ＥＰＲＯＭ）、又は携帯型読み出し専用メモリ（ｃｏｍｐａｃｔｄｉｓｃｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ、ＣＤ－ＲＯＭ）を含むが、それらに限定されない。当該メモリは、関連する指令及びデータを記憶する。

入力装置は、データ及び／又は信号を入力し、出力装置は、データ及び／又は信号を出力する。出力装置と入力装置は、独立するデバイスであってもよく、１つの全体のデバイスであってもよい。

プロセッサは、１つ又は複数のプロセッサであってもよく、例えば１つ又は複数の中央処理装置（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ、ＣＰＵ）を含んでもよい。プロセッサが１つのＣＰＵである場合に、当該ＣＰＵは、シングルコアＣＰＵであってもよく、マルチコアＣＰＵであってもよい。

メモリは、ネットワーク機器のプログラムコード及びデータを記憶する。

プロセッサは、当該メモリにおけるプログラムコード及びデータを呼び出して、上記方法実施例におけるステップを実行する。詳細は、方法実施例における記述を参照すればよく、ここで繰り返し説明しない。

理解できるように、図１２は、単に１種のオブジェクト追跡装置の簡素化設計を示す。実際の応用において、オブジェクト追跡装置は、必要な他の素子をそれぞれ含んでもよく、任意数の入力／出力装置、プロセッサ、コントローラ及びメモリ等を含むが、それらに限定されない。本発明の実施例を実現できる全てのオブジェクト追跡装置は、何れも本発明の保護範囲内に含まれる。

当業者は、明細書を考慮してここで開示された本発明を実践した後、本発明の他の実施案を容易に想到し得る。本発明は、本発明の如何なる変形、用途又は適応的変化もカバーすることを意図する。これらの変形、用途又は適応的変化は、本発明の一般的な原理に従い、本発明に開示されていない当分野における公知常識或いは慣用技術手段を含む。明細書及び実施例は、単に例示と見なされ、本発明の真の範囲及び要旨は、請求項から与えられる。

上述したのは、本発明の好適な実施例に過ぎず、本発明を制限するためのものではない。本発明の精神及び原則内でなされた如何なる変更、均等物による置換、改良等も、本発明の保護範囲内に含まれるべきである。

本願は、２０２０年４月２８日に提出された、出願番号が２０２０１０３５２３６５．６であって発明名称が「オブジェクト追跡方法及び装置、記憶媒体」である中国特許出願の優先権を要求し、当該出願の全ての内容が引用によって本願に組み込まれる。

Claims

オブジェクト追跡方法であって、
同一シーンに対応する複数枚のシーン画像を取得するステップと、
前記複数枚のシーン画像のうちの各シーン画像に対して特徴抽出処理及び目標部位検出を行い、前記各シーン画像の特徴情報と前記各シーン画像における複数の目標部位の位置とを取得するステップと、
前記各シーン画像の特徴情報のうち、前記複数の目標部位の位置のそれぞれに対応する目標特徴情報を取得するステップと、
取得された前記複数の目標部位の位置のそれぞれに対応する目標特徴情報に基づいて、前記複数枚のシーン画像に現れた複数の同じオブジェクトを特定するステップと、を含み、
各シーン画像は、前記複数の同じオブジェクトのうちの一部又は全部を含むことを特徴とするオブジェクト追跡方法。
前記複数枚のシーン画像のうちの各シーン画像に対して特徴抽出処理及び目標部位検出を行い、前記各シーン画像の特徴情報と前記各シーン画像における複数の目標部位の位置とを取得するステップは、
前記複数枚のシーン画像のうちの各シーン画像の第１特徴マップを抽出することと、
前記各シーン画像の第１特徴マップにおいて目標部位検出を行い、前記各シーン画像における複数の目標部位の位置を取得し、且つ、前記各シーン画像の第１特徴マップに対して特徴抽出処理を行い、多次元の第２特徴マップを取得することと、を含み、
前記各シーン画像の特徴情報のうち、前記複数の目標部位の位置のそれぞれに対応する目標特徴情報を取得するステップは、
前記多次元の第２特徴マップにおいて、前記複数の目標部位の位置のそれぞれに対応する目標特徴ベクトルを取得することを含むことを特徴とする請求項１に記載のオブジェクト追跡方法。
前記取得された前記複数の目標部位の位置のそれぞれに対応する目標特徴情報に基づいて、前記複数枚のシーン画像に現れた複数の同じオブジェクトを特定するステップは、
前記複数枚のシーン画像のうちの隣接する２枚ずつのシーン画像にそれぞれ対応する複数の目標特徴情報を利用し、前記隣接する２枚ずつのシーン画像における各目標部位の間の類似度を取得することと、
前記隣接する２枚ずつのシーン画像における各目標部位の間の類似度に基づいて、異なるシーン画像に現れた複数の同じオブジェクトを特定することと、を含むことを特徴とする請求項１又は２に記載のオブジェクト追跡方法。
前記隣接する２枚ずつのシーン画像は、第１シーン画像及び第２シーン画像であり、
前記複数枚のシーン画像のうちの隣接する２枚ずつのシーン画像にそれぞれ対応する複数の目標特徴情報を利用し、前記隣接する２枚ずつのシーン画像における各目標部位の間の類似度を取得することは、
第１シーン画像におけるＮ個の目標特徴ベクトルのそれぞれと第２シーン画像におけるＭ個の目標特徴ベクトルとの類似度を特定することと、
前記第１シーン画像におけるＮ個の目標特徴ベクトルのそれぞれと前記第２シーン画像におけるＭ個の目標特徴ベクトルとの前記類似度に基づいて、Ｎ×Ｍ次元の類似度行列を取得することと、を含み、
Ｎ及びＭは、２以上の正整数であり、前記類似度行列における何れかの次元の値は、前記第１シーン画像の何れかの第１目標部位と前記第２シーン画像中の何れかの第２目標部位との類似度を表すことを特徴とする請求項３に記載のオブジェクト追跡方法。
前記隣接する２枚ずつのシーン画像における各目標部位の間の類似度に基づいて、前記異なるシーン画像に現れた複数の同じオブジェクトを特定することは、
前記類似度行列に基づいて、前記Ｎ個の目標特徴ベクトルのうちの第１目標特徴ベクトルのそれぞれと前記Ｍ個の目標特徴ベクトルとの類似度から類似度最大値を特定することと、
前記類似度最大値が所定閾値よりも大きい場合に、前記Ｍ個の目標特徴ベクトルのうち、前記類似度最大値に対応する第２目標特徴ベクトルを特定することと、
前記第１シーン画像における前記第１目標特徴ベクトルに対応する第１目標部位の所属するオブジェクトと前記第２シーン画像における第２目標特徴ベクトルに対応する第２目標部位の所属するオブジェクトとを同じオブジェクトとすることと、を含むことを特徴とする請求項４に記載のオブジェクト追跡方法。
前記複数枚のシーン画像のうちの各シーン画像に対して特徴抽出処理及び目標部位検出を行い、前記各シーン画像の特徴情報と前記各シーン画像における複数の目標部位の位置とを取得するステップは、
特徴検出モデルのバックボーンネットワークを介して前記複数枚のシーン画像のうちの各シーン画像の第１特徴マップを抽出することと、
前記特徴検出モデルの部位検出ブランチを介して、前記各シーン画像の第１特徴マップにおいて目標部位検出を行い、前記各シーン画像における複数の目標部位の位置を取得し、且つ、前記特徴検出モデルの特徴抽出ブランチを介して、前記各シーン画像の第１特徴マップに対して特徴抽出処理を行い、多次元の第２特徴マップを取得することと、を含むことを特徴とする請求項１から５の何れか一項に記載のオブジェクト追跡方法。
同一シーンに対応する複数枚のサンプルシーン画像を初期ニューラルネットワークモデルに入力し、前記初期ニューラルネットワークモデルから出力された各サンプルシーン画像における複数の目標部位の位置のそれぞれに対応するサンプル特徴ベクトルを取得するステップと、
前記各サンプルシーン画像におけるマーキングされた複数の目標部位のそれぞれに対応するオブジェクト識別子に基づいて、隣接する２枚ずつのサンプルシーン画像における、同じ前記オブジェクト識別子の前記目標部位の位置に対応する前記サンプル特徴ベクトルの間の第１類似度を特定し、及び／又は、異なる前記オブジェクト識別子の前記目標部位の位置に対応する前記サンプル特徴ベクトルの間の第２類似度を特定するステップと、
前記各サンプルシーン画像におけるマーキングされた複数の目標部位のそれぞれに対応するオブジェクト識別子に基づいて、前記第１類似度と前記第２類似度とのうちの少なくとも一方に基づいて、前記初期ニューラルネットワークモデルに対して教師ありトレーニングを行い、前記特徴検出モデルを取得するステップと、更に含むことを特徴とする請求項６に記載のオブジェクト追跡方法。
前記各サンプルシーン画像におけるマーキングされた複数の目標部位のそれぞれに対応するオブジェクト識別子に基づいて、前記第１類似度と前記第２類似度とのうちの少なくとも一方に基づいて、前記初期ニューラルネットワークモデルに対して教師ありトレーニングを行い、前記特徴検出モデルを取得するステップは、
第１類似度参照値と前記第１類似度との差分を第１損失関数とすることと、
第２類似度参照値と前記第２類似度との差分を第２損失関数とすることと、
前記第１損失関数と前記第２損失関数とのうちの少なくとも一方に基づいて、前記初期ニューラルネットワークモデルをトレーニングし、前記特徴検出モデルを取得することと、を含み、
前記第１類似度参照値は、前記隣接する２枚ずつのサンプルシーン画像におけるマーキングされた同じオブジェクト識別子の目標部位に対応するサンプル特徴ベクトルの間の類似度参照値であり、前記第２類似度参照値は、前記隣接する２枚ずつのサンプルシーン画像におけるマーキングされた異なるオブジェクト識別子の目標部位に対応するサンプル特徴ベクトルの間の類似度参照値であることを特徴とする請求項７に記載のオブジェクト追跡方法。
前記複数のシーン画像に現れた複数の同じオブジェクトのうちの少なくとも１つのオブジェクトの、所定時間帯内における運動軌跡が目標運動軌跡に合致するか否かを特定するステップを更に含むことを特徴とする請求項１から８の何れか一項に記載のオブジェクト追跡方法。
前記複数枚のシーン画像は、教室シーンに対応し、前記オブジェクトは、ティーチング対象を含み、前記目標運動軌跡は、ティーチングタスクにおいて前記ティーチング対象へ指定される少なくとも１種の運動軌跡を含むことを特徴とする請求項９に記載のオブジェクト追跡方法。
オブジェクト追跡装置であって、
同一シーンに対応する複数枚のシーン画像を取得するための取得モジュールと、
前記複数枚のシーン画像のうちの各シーン画像に対して特徴抽出処理及び目標部位検出を行い、前記各シーン画像の特徴情報と前記各シーン画像における複数の目標部位の位置とを取得するための処理モジュールと、
前記各シーン画像の特徴情報のうち、前記複数の目標部位の位置のそれぞれに対応する目標特徴情報を取得するための特徴情報特定モジュールと、
取得された前記複数の目標部位の位置のそれぞれに対応する目標特徴情報に基づいて、前記複数枚のシーン画像に現れた複数の同じオブジェクトを特定するためのオブジェクト特定モジュールと、を備え、
各シーン画像は、前記複数の同じオブジェクトのうちの一部又は全部を含むことを特徴とするオブジェクト追跡装置。
コンピュータ可読記憶媒体であって、
前記コンピュータ可読記憶媒体には、コンピュータプログラムが記憶され、前記コンピュータプログラムは、請求項１から１０の何れか一項に記載のオブジェクト追跡方法を実行するために用いられることを特徴とするコンピュータ可読記憶媒体。
オブジェクト追跡装置であって、
プロセッサと、
前記プロセッサで実行され得る実行可能指令を記憶するためのメモリと、を備え、
前記プロセッサは、前記メモリに記憶された実行可能指令を呼び出すことで請求項１から１０の何れか一項に記載のオブジェクト追跡方法を実施するように構成されることを特徴とするオブジェクト追跡装置。
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサによって実行されたときに、請求項１から１０の何れか一項に記載のオブジェクト追跡方法が実施されることを特徴とするコンピュータプログラム。