JP2022542566A - オブジェクト追跡方法及び装置、記憶媒体並びにコンピュータプログラム - Google Patents

オブジェクト追跡方法及び装置、記憶媒体並びにコンピュータプログラム Download PDF

Info

Publication number
JP2022542566A
JP2022542566A JP2022504275A JP2022504275A JP2022542566A JP 2022542566 A JP2022542566 A JP 2022542566A JP 2022504275 A JP2022504275 A JP 2022504275A JP 2022504275 A JP2022504275 A JP 2022504275A JP 2022542566 A JP2022542566 A JP 2022542566A
Authority
JP
Japan
Prior art keywords
target
scene
feature
similarity
scene image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022504275A
Other languages
English (en)
Other versions
JP7292492B2 (ja
Inventor
飛 王
光啓 陳
晨 銭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Publication of JP2022542566A publication Critical patent/JP2022542566A/ja
Application granted granted Critical
Publication of JP7292492B2 publication Critical patent/JP7292492B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30232Surveillance

Abstract

本発明は、オブジェクト追跡方法及び装置、記憶媒体並びにコンピュータプログラムを提供する。当該方法は、同一シーンに対応する複数枚のシーン画像を取得するステップと、前記複数枚のシーン画像のうちの各シーン画像に対して特徴抽出処理及び目標部位検出を行い、前記各シーン画像の特徴情報と前記各シーン画像における複数の目標部位の位置とを取得するステップと、前記各シーン画像の特徴情報のうち、前記複数の目標部位の位置のそれぞれに対応する目標特徴情報を取得するステップと、取得された前記複数の目標部位の位置のそれぞれに対応する目標特徴情報に基づいて、前記複数枚のシーン画像に現れた複数の同じオブジェクトを特定するステップと、を含み、各シーン画像は、前記複数の同じオブジェクトのうちの一部又は全部を含む。【選択図】図1

Description

本発明は、コンピュータビジョン分野に関し、特にオブジェクト追跡方法及び装置、記憶媒体並びにコンピュータプログラムに関する。
現在、複数オブジェクト追跡技術によってオブジェクトの運動軌跡を分析する需要は、ますます強くなってきている。複数オブジェクト追跡を行う過程では、オブジェクト検出によって複数のオブジェクトの所在する位置を取得してから、各オブジェクトに対して単一オブジェクト追跡を行う必要がある。
上記複数オブジェクト追跡の処理時間は、シーンにおけるオブジェクトの数に対して線形相関を示す。例えば、シーンにN個の対象(オブジェクト)が含まれ、ここでのNが正整数である場合に、複数オブジェクト追跡は、単一オブジェクト追跡の推論をN回行う必要があり、処理時間は、単一オブジェクト追跡に必要な時間のN倍まで増加する。Nの値が大きいほど、複数オブジェクト追跡の時間は、長くなる。そのため、機器の高い演算能力が要求されるとともに、時間も長くかかってしまった。
本発明は、オブジェクト追跡方法及び装置、記憶媒体並びにコンピュータプログラムを提供する。
本発明の実施例の第1態様は、オブジェクト追跡方法を提供する。前記方法は、同一シーンに対応する複数枚のシーン画像を取得するステップと、前記複数枚のシーン画像のうちの各シーン画像に対して特徴抽出処理及び目標部位検出を行い、前記各シーン画像の特徴情報と前記各シーン画像における複数の目標部位の位置とを取得するステップと、前記各シーン画像の特徴情報のうち、前記複数の目標部位の位置のそれぞれに対応する目標特徴情報を取得するステップと、取得された前記複数の目標部位の位置のそれぞれに対応する目標特徴情報に基づいて、前記複数枚のシーン画像に現れた複数の同じオブジェクトを特定するステップと、を含み、各シーン画像は、前記複数の同じオブジェクトのうちの一部又は全部を含む。
幾つかの選択可能な実施例において、前記複数枚のシーン画像のうちの各シーン画像に対して特徴抽出処理及び目標部位検出を行い、前記各シーン画像の特徴情報と前記各シーン画像における複数の目標部位の位置とを取得するステップは、前記複数枚のシーン画像のうちの各シーン画像の第1特徴マップを抽出することと、前記各シーン画像の第1特徴マップにおいて目標部位検出を行い、前記各シーン画像における複数の目標部位の位置を取得し、且つ、前記各シーン画像の第1特徴マップに対して特徴抽出処理を行い、多次元の第2特徴マップを取得することと、を含み、前記各シーン画像の特徴情報のうち、前記複数の目標部位の位置のそれぞれに対応する目標特徴情報を取得するステップは、前記多次元の第2特徴マップにおいて、前記複数の目標部位の位置のそれぞれに対応する目標特徴ベクトルを取得することを含む。
幾つかの選択可能な実施例において、前記取得された前記複数の目標部位の位置のそれぞれに対応する目標特徴情報に基づいて、前記複数枚のシーン画像に現れた複数の同じオブジェクトを特定するステップは、前記複数枚のシーン画像のうちの隣接する2枚ずつのシーン画像にそれぞれ対応する複数の目標特徴情報を利用し、前記隣接する2枚ずつのシーン画像における各目標部位の間の類似度を取得することと、前記隣接する2枚ずつのシーン画像における各目標部位の間の類似度に基づいて、異なるシーン画像に現れた複数の同じオブジェクトを特定することと、を含む。
幾つかの選択可能な実施例において、前記隣接する2枚ずつのシーン画像は、第1シーン画像及び第2シーン画像であり、前記複数枚のシーン画像のうちの隣接する2枚ずつのシーン画像にそれぞれ対応する複数の目標特徴情報を利用し、前記隣接する2枚ずつのシーン画像における各目標部位の間の類似度を取得することは、第1シーン画像におけるN個の目標特徴ベクトルのそれぞれと第2シーン画像におけるM個の目標特徴ベクトルとの類似度を特定することと、前記第1シーン画像におけるN個の目標特徴ベクトルのそれぞれと前記第2シーン画像におけるM個の目標特徴ベクトルとの前記類似度に基づいて、N×M次元の類似度行列を取得することと、を含み、N及びMは、2以上の正整数であり、前記類似度行列における何れかの次元の値は、前記第1シーン画像の何れかの第1目標部位と前記第2シーン画像中の何れかの第2目標部位との類似度を表す。
幾つかの選択可能な実施例において、前記隣接する2枚ずつのシーン画像における各目標部位の間の類似度に基づいて、前記異なるシーン画像に現れた複数の同じオブジェクトを特定することは、前記類似度行列に基づいて、前記N個の目標特徴ベクトルのうちの第1目標特徴ベクトルのそれぞれと前記M個の目標特徴ベクトルとの類似度から類似度最大値を特定することと、前記類似度最大値が所定閾値よりも大きい場合に、前記M個の目標特徴ベクトルのうち、前記類似度最大値に対応する第2目標特徴ベクトルを特定することと、前記第1シーン画像における前記第1目標特徴ベクトルに対応する第1目標部位の所属するオブジェクトと前記第2シーン画像における第2目標特徴ベクトルに対応する第2目標部位の所属するオブジェクトとを同じオブジェクトとすることと、を含む。
幾つかの選択可能な実施例において、前記複数枚のシーン画像のうちの各シーン画像に対して特徴抽出処理及び目標部位検出を行い、前記各シーン画像の特徴情報と前記各シーン画像における複数の目標部位の位置とを取得するステップは、特徴検出モデルのバックボーンネットワークを介して前記複数枚のシーン画像のうちの各シーン画像の第1特徴マップを抽出することと、前記特徴検出モデルの部位検出ブランチを介して、前記各シーン画像の第1特徴マップにおいて目標部位検出を行い、前記各シーン画像における複数の目標部位の位置を取得し、且つ、前記特徴検出モデルの特徴抽出ブランチを介して、前記各シーン画像の第1特徴マップに対して特徴抽出処理を行い、多次元の第2特徴マップを取得することと、を含む。
幾つかの選択可能な実施例において、前記方法は、同一シーンに対応する複数枚のサンプルシーン画像を初期ニューラルネットワークモデルに入力し、前記初期ニューラルネットワークモデルから出力された各サンプルシーン画像における複数の目標部位の位置のそれぞれに対応するサンプル特徴ベクトルを取得するステップと、前記各サンプルシーン画像におけるマーキングされた複数の目標部位のそれぞれに対応するオブジェクト識別子に基づいて、隣接する2枚ずつのサンプルシーン画像における、同じ前記オブジェクト識別子の前記目標部位の位置に対応する前記サンプル特徴ベクトルの間の第1類似度を特定し、及び/又は、異なる前記オブジェクト識別子の前記目標部位の位置に対応する前記サンプル特徴ベクトルの間の第2類似度を特定するステップと、前記各サンプルシーン画像におけるマーキングされた複数の目標部位のそれぞれに対応するオブジェクト識別子に基づいて、前記第1類似度と前記第2類似度とのうちの少なくとも一方に基づいて、前記初期ニューラルネットワークモデルに対して教師ありトレーニングを行い、前記特徴検出モデルを取得するステップと、更に含む。
幾つかの選択可能な実施例において、前記各サンプルシーン画像におけるマーキングされた複数の目標部位のそれぞれに対応するオブジェクト識別子に基づいて、前記第1類似度と前記第2類似度とのうちの少なくとも一方に基づいて、前記初期ニューラルネットワークモデルに対して教師ありトレーニングを行い、前記特徴検出モデルを取得するステップは、第1類似度参照値と前記第1類似度との差分を第1損失関数とすることと、第2類似度参照値と前記第2類似度との差分を第2損失関数とすることと、前記第1損失関数と前記第2損失関数とのうちの少なくとも一方に基づいて、前記初期ニューラルネットワークモデルをトレーニングし、前記特徴検出モデルを取得することと、を含み、
前記第1類似度参照値は、前記隣接する2枚ずつのサンプルシーン画像におけるマーキングされた同じオブジェクト識別子の目標部位に対応するサンプル特徴ベクトルの間の類似度参照値であり、前記第2類似度参照値は、前記隣接する2枚ずつのサンプルシーン画像におけるマーキングされた異なるオブジェクト識別子の目標部位に対応するサンプル特徴ベクトルの間の類似度参照値である。
幾つかの選択可能な実施例において、前記方法は、前記複数のシーン画像に現れた複数の同じオブジェクトのうちの少なくとも1つのオブジェクトの、所定時間帯内における運動軌跡が目標運動軌跡に合致するか否かを特定するステップを更に含む。
幾つかの選択可能な実施例において、前記複数枚のシーン画像は、教室シーンに対応し、前記オブジェクトは、ティーチング対象を含み、前記目標運動軌跡は、ティーチングタスクにおいて前記ティーチング対象へ指定される少なくとも1種の運動軌跡を含む。
本発明の実施例の第2態様は、オブジェクト追跡装置を提供する。前記装置は、同一シーンに対応する複数枚のシーン画像を取得するための取得モジュールと、前記複数枚のシーン画像のうちの各シーン画像に対して特徴抽出処理及び目標部位検出を行い、前記各シーン画像の特徴情報と前記各シーン画像における複数の目標部位の位置とを取得するための処理モジュールと、前記各シーン画像の特徴情報のうち、前記複数の目標部位の位置のそれぞれに対応する目標特徴情報を取得するための特徴情報特定モジュールと、取得された前記複数の目標部位の位置のそれぞれに対応する目標特徴情報に基づいて、前記複数枚のシーン画像に現れた複数の同じオブジェクトを特定するためのオブジェクト特定モジュールと、を備え、各シーン画像は、前記複数の同じオブジェクトのうちの一部又は全部を含む。
本発明の実施例の第3態様は、コンピュータ可読記憶媒体を提供する。前記記憶媒体には、コンピュータプログラムが記憶され、前記コンピュータプログラムは、第1態様の何れか一項に記載のオブジェクト追跡方法を実行するために用いられる。
本発明の実施例の第4態様は、オブジェクト追跡装置を提供する。当該オブジェクト追跡装置は、プロセッサと、前記プロセッサで実行され得る実行可能指令を記憶するためのメモリと、を備え、前記プロセッサは、前記メモリに記憶された実行可能指令を呼び出すことで第1態様の何れか一項に記載のオブジェクト追跡方法を実施するように構成される。
本発明の実施例の第5態様は、コンピュータプログラムを提供する。前記コンピュータプログラムがプロセッサによって実行されたときに、第1態様の何れか一項に記載のオブジェクト追跡方法は、実施可能である。
本発明の実施例に係る技術案は、以下の有利な作用効果を奏することができる。
本発明の実施例では、隣接する2枚ずつのシーン画像において複数のオブジェクトをそれぞれ特定した後で前段のシーン画像における各オブジェクトごとに後段のシーン画像に含まれる複数のオブジェクトを単一オブジェクト追跡推論をそれぞれ行う必要がなく、単一シーン画像に対して単一フレーム推定を行って複数の目標部位の位置に対応する目標特徴情報を取得し、単一フレーム推定結果についてマッチングを取って隣接する2枚ずつのシーン画像における複数の同じオブジェクトを取得し、複数オブジェクト追跡の目的を果たす。また、現在シーンに複数のオブジェクトが含まれたとしても、シーン画像全体に対して推定を行うため、全複数オブジェクト追跡手順の時間は、シーン画像に含まれるオブジェクトの数に関係しない。そのため、オブジェクト数の増加につれて単一オブジェクト追跡推論を逐一に行うことによって追跡時間が増加することはない。これにより、計算リソースが非常に大きく節約され、複数オブジェクト追跡の時間が短縮され、複数オブジェクト追跡の検出効率が有効的に向上する。
上述した一般的な記述及び後文の詳細に対する記述が単に例示的や解釈的なものであり、本発明を制限できないことは、理解されるべきである。
ここでの図面は、明細書に組み込まれて明細書の一部を構成する。これらの図面は、本発明に合致する実施例を示しつつ、明細書の記載とともに本発明の原理を解釈するために用いられる。
本発明の1つの例示的な実施例に示すオブジェクト追跡方法のフローチャートである。 本発明の1つの例示的な実施例に示すもう1つのオブジェクト追跡方法のフローチャートである。 本発明の1つの例示的な実施例に示すもう1つのオブジェクト追跡方法のフローチャートである。 本発明の1つの例示的な実施例に示すもう1つのオブジェクト追跡方法のフローチャートである。 本発明の1つの例示的な実施例に示すもう1つのオブジェクト追跡方法のフローチャートである。 本発明の1つの例示的な実施例に示す特徴検出モデルの構造模式図である。 本発明の1つの例示的な実施例に示す複数オブジェクト追跡の推定手順の模式図である。 本発明の1つの例示的な実施例に示すもう1つのオブジェクト追跡方法のフローチャートである。 本発明の1つの例示的な実施例に示す特徴検出モデルのトレーニングシーンの模式図である。 本発明の1つの例示的な実施例に示すもう1つのオブジェクト追跡方法のフローチャートである。 本発明の1つの例示的な実施例に示すオブジェクト追跡装置のブロック図である。 本発明の1つの例示的な実施例に示すオブジェクト追跡装置のための構造模式図である。
ここで、例示的な実施例を詳細に説明する。その例示は、図面に示される。以下の記述は、図面に係る際、別途示さない限り、異なる図面における同じ符号が同じ又は類似する要素を示す。以下の例示的な実施例に記述される実施形態が本発明と一致する全ての実施形態を代表するわけではない。逆に、それらは、単に添付する特許請求の範囲に詳細に記述されるような、本発明の幾つかの態様に一致する装置及び方法の例である。
本発明で使用される用語は、単に特定の実施例を記述する目的であり、本発明を制限するためのものではない。本発明及び添付する特許請求の範囲で使用される単数形式の「1種」、「前記」及び「当該」も、文脈から他の意味を明瞭で分かる場合でなければ、複数の形式を含むことを意図する。理解すべきことは、本文で使用される用語「及び/又は」が、1つ又は複数の関連する列挙項目を含む如何なる或いは全ての可能な組み合わせを指す。
理解すべきことは、本発明において第1、第2、第3等の用語を用いて各種の情報を記述するが、これらの情報は、これらの用語に限定されるものではない。これらの用語は、単に同一のタイプの情報同士を区分するために用いられる。例えば、本発明の範囲を逸脱しない限り、第1情報が第2情報と呼称されてもよく、類似的に、第2情報が第1情報と呼称されてもよい。これは、コンテキストに依存する。例えば、ここで使用される言葉「場合」は、「…とき」や「…ときに」あるいは「特定の状況に応じて」として解釈されてもよい。
本発明の実施例は、複数オブジェクト追跡案を提供し、例示として、異なるシーンでの端末機器に適用可能である。異なるシーンは、教室、監視カメラを配置した地点、又は複数オブジェクトを追跡する必要がある他の室内若しくは室外シーンを含むが、それらに限定されない。端末機器は、カメラヘッドを有する如何なる機器を採用可能であり、又は、端末機器は、外付け撮像機器であってもよい。端末機器は、同一シーンで前後して複数枚のシーン画像を収集してもよく、又は、ビデオストリームをそのまま収集して当該ビデオストリームにおける複数枚の画像を前記複数枚のシーン画像としてもよい。
更に、端末機器は、取得された複数枚のシーン画像のうちの各シーン画像に対して、特徴抽出処理及び目標部位検出を行い、各シーン画像の特徴情報と前記各シーン画像における複数の目標部位の位置とに基づいて、各シーン画像の特徴情報のうち、複数の目標部位の位置のそれぞれに対応する目標特徴情報を取得することにより、複数枚のシーン画像に現れた複数の同じオブジェクトを特定する。
例えば、教室において、端末機器は、教室内に配置された、カメラヘッドを有するティーチングマルチメディア機器を採用可能であり、ティーチングプロジェクタ、教室内のモニタリング機器等を含むが、それらに限定されない。端末機器は、教室内の複数枚のシーン画像を取得することにより、前記複数枚のシーン画像のうちの各シーン画像に対して特徴抽出処理及び目標部位検出を行い、前記各シーン画像の特徴情報と前記各シーン画像における複数の目標部位の位置とを取得する。前記各シーン画像の特徴情報のうち、前記複数の目標部位の位置のそれぞれに対応する目標特徴情報を取得することにより、前記複数枚のシーン画像に現れた複数の同じオブジェクトを特定し、複数オブジェクト追跡の目的を果たす。当該シーンにおけるオブジェクトは、ティーチング対象、例えば、学生を含んでもよいが、それに限定されない。目標部位は、人顔部位及び人体部位を含んでもよいが、それらに限定されない。
更に例えば、地下鉄又は鉄道駅には、1つ又は複数のモニタリングカメラヘッドが配置されて、モニタリングカメラヘッドを介して地下鉄又は鉄道駅の複数枚のシーン画像を取得してもよい。当該シーンでのオブジェクトは、乗客、乗客の持つスーツケース、従業員等を含んでもよい。本発明の実施例に関わる技術案を採用すると、地下鉄駅又は鉄道駅のような人の通行量が大きいシーンにおいて、複数枚のシーン画像に現れた複数の同じオブジェクトを特定可能であり、複数オブジェクト追跡の目的を果たす。
例示として、本発明の実施例に関わる複数オブジェクト追跡案は、更に、異なるシーンでのクラウドサーバに適用可能である。当該クラウドサーバは、外付けカメラヘッドが設けられて、外付けカメラヘッドを介して同一シーンで前後して複数枚のシーン画像を収集してもよく、又は、ビデオストリームをそのまま収集して当該ビデオストリームにおける複数枚の画像を前記複数枚のシーン画像としてもよい。収集されたシーン画像は、ルータ又はゲートウェイを介してクラウドサーバへ送信されてもよい。クラウドサーバは、各シーン画像に対して特徴抽出処理及び目標部位検出を行い、前記各シーン画像の特徴情報と前記各シーン画像における複数の目標部位の位置とを取得することにより、前記各シーン画像の特徴情報のうち、前記複数の目標部位の位置のそれぞれに対応する目標特徴情報を取得し、更に、前記複数枚のシーン画像に現れた複数の同じオブジェクトを特定する。
例えば、外付けカメラヘッドは、教室に設けられ、教室内で複数枚のシーン画像を収集し、ルータ又はゲートウェイを介してクラウドサーバへ送信し、クラウドサーバは、上記オブジェクト追跡方法を実行する。
本発明の実施例では、端末機器又はクラウドサーバを介して、複数枚のシーン画像に現れた複数の同じオブジェクトを特定した後、同じ認識枠で同一オブジェクトをマーキングしてマーキングされた後のシーン画像を出力してもよい。例えば、出力された隣接する2枚のシーン画像において、赤色認識枠で当該シーンにおけるオブジェクト1をマーキングし、緑色認識枠で当該シーンにおけるオブジェクト2をマーキングし、青色認識枠で当該シーンにおけるオブジェクト3をマーキングする等により、現在シーンにおける複数の同じオブジェクトをより良好に示す。或いは、認識枠に対応するオブジェクト識別子によって同じ又は異なるオブジェクトを区分してもよい。例えば、出力された1枚のシーン画像に3つの認識枠が含まれ、対応するオブジェクト識別子がそれぞれ1、2及び3であり、それに隣接するシーン画像に2つの認識枠が含まれ、対応するオブジェクト識別子がそれぞれ1及び3である場合に、この2枚のシーン画像におけるオブジェクト識別子が1である認識枠が、同じオブジェクトに対応し、オブジェクト識別子が3である認識枠も同じオブジェクトに対応し、オブジェクト識別子が1及び3である認識枠がそれぞれ異なるオブジェクトに対応することは、特定することができる。
また、更に、端末機器又はクラウドサーバを介して、複数の同じオブジェクトのうちの少なくとも1つのオブジェクトの、所定時間帯における運動軌跡を特定し、当該運動軌跡が目標運動軌跡に合致するか否かを分析してもよい。
例えば、現在シーンが教室であり、オブジェクトがティーチング対象を含む場合に、目標運動軌跡は、ティーチングタスクにおいて前記ティーチング対象へ指定される少なくとも1種の運動軌跡、例えば、現在所在する位置から教師によって指定された他の位置(他の位置は、教壇、黒板又は他のクラスメートの所在する位置であってもよい)へ移動することを含んでもよいが、それに限定されない。又は、目標運動軌跡は、同一位置に存在することを含んでもよい。教師は、複数のティーチング対象の運動軌跡に基づいて、ティーチング活動をより良好に行うことができる。
更に例えば、現在シーンが監視カメラを配置した地下鉄駅又は鉄道駅であることを例とし、オブジェクトが乗車員を含むが、それに限定されない場合に、目標運動軌跡は、指定の危険運動軌跡又は不正運動軌跡、例えばホーム位置からレールの所在する位置に移動したり、改札機の上方又は下方等に移動したりすることを含んでもよいが、それらに限定されない。従業員は、乗車員の運動軌跡に応じて、駅管理をより良好に行い、危険行為又はただ乗りなどの不正乗車行為の発生を回避することができる。
上述したのが単に本発明に適用するシーンに対する例示の説明であり、動作タイプ認識を迅速に行う必要がある他の室内又はシーンも本発明の保護範囲に含まれる。
図1に示すように、図1は、1つの例示的な実施例に係るオブジェクト追跡方法を示し、以下のステップを含む。
ステップ101では、同一シーンに対応する複数枚のシーン画像を取得する。
本発明の実施例において、同一シーンで前後して複数枚のシーン画像を収集してもよく、又はビデオストリームを収集してビデオストリームにおける複数枚の画像を複数枚のシーン画像としてもよい。本発明のシーンは、複数オブジェクト追跡を行う必要がある如何なるシーン、例えば、教室、監視カメラを配置した地点等を含むが、それらに限定されない。
ステップ102では、前記複数枚のシーン画像のうちの各シーン画像に対して特徴抽出処理及び目標部位検出を行い、前記各シーン画像の特徴情報と前記各シーン画像における複数の目標部位の位置とを取得する。
本発明の実施例において、各シーン画像に対して特徴抽出を行うとは、各シーン画像から特徴情報を抽出することを指し、当該特徴情報は、色特徴、テクスチャ特徴、形状特徴等を含んでもよいが、それらに限定されない。色特徴は、グローバル特徴であり、画像に対応する対象の表面色属性を記述し、テクスチャ特徴もグローバル特徴であり、画像に対応する対象の表面テクスチャ属性を記述し、形状特徴は、2種の表し方を有し、1種が輪郭特徴であり、もう1種が領域特徴である。画像の輪郭特徴は、主に対象の外側境界に対するものであり、画像の領域特徴は、画像領域の形状に関連する。
本発明の実施例において、1つの目標部位が1つのオブジェクトに対応するが、それに限定されなく、複数の目標部位が1つのオブジェクトに対応してもよい。目標部位は、人顔部位及び/又は人体部位を含んでもよいが、それらに限定されない。人体部位は、人物の人体全体又は人体のある指定部位、例えば手部、足部等を含んでもよい。目標部位の位置は、少なくとも当該目標部位の認識枠の中心位置で示されてもよい。例えば、目標部位が人顔部位を含む場合に、目標部位の位置は、人顔認識枠の中心位置で示されてもよい。当該目標部位の認識枠は、例えば、当該目標部位の外接矩形枠等として実現されてもよい。
ステップ103では、前記各シーン画像の特徴情報のうち、前記複数の目標部位の位置のそれぞれに対応する目標特徴情報を取得する。
本発明の実施例において、各シーン画像に複数の目標部位が含まれ、取得された各シーン画像の特徴情報に基づいて、目標部位を含む領域の画素に対して特徴抽出を行い、複数の目標部位の位置のそれぞれに対応する目標特徴情報を特定する。例示として、畳み込み処理等により、各シーン画像の特徴情報のうち、各目標部位の領域に含まれる複数の画素のそれぞれに対応する目標特徴情報を取得してもよい。
ステップ104では、取得された前記複数の目標部位の位置のそれぞれに対応する目標特徴情報に基づいて、前記複数枚のシーン画像に現れた複数の同じオブジェクトを特定する。各シーン画像は、前記複数の同じオブジェクトのうちの一部のオブジェクト又は全部のオブジェクトを含む。
上記実施例では、各シーン画像において複数の目標部位の位置に対応する目標特徴情報を取得し、前記複数枚のシーン画像のこれらの目標特徴情報に対してマッチングを取ることにより、前記複数枚のシーン画像に現れた複数の同じオブジェクトを特定することができる。
上記実施例では、隣接する2枚ずつのシーン画像において複数のオブジェクトをそれぞれ特定した後、前者のシーン画像における各オブジェクトに対して、後者のシーン画像に含まれる複数のオブジェクトの中で、単一オブジェクト追跡推論をそれぞれ行う必要がない。代わりに、単一シーン画像に対して単一フレーム推定を行って複数の目標部位の位置に対応する目標特徴情報を取得し、取得された隣接する2枚ずつのシーン画像の単一フレーム推定結果についてマッチングを取って隣接する2枚ずつのシーン画像における複数の同じオブジェクトを取得し、複数オブジェクト追跡の目的を果たす。現在シーンに複数のオブジェクトが含まれたとしても、シーン画像全体に対して推定を行うため、全複数オブジェクト追跡手順の時間は、シーン画像に含まれるオブジェクトの数に関係しない。そのため、オブジェクト数の増加につれて単一オブジェクト追跡推論を逐一に行うことによって追跡時間が増加することはない。これにより、計算リソースが非常に大きく節約され、複数オブジェクト追跡の時間が短縮され、複数オブジェクト追跡の検出効率が有効的に向上する。
幾つかの選択可能な実施例において、図2に示すように、ステップ102は、以下のステップを含んでもよい。
ステップ102-1では、前記複数枚のシーン画像のうちの各シーン画像の第1特徴マップを抽出する。
本発明の実施例において、予めトレーニングされたニューラルネットワークモデルを介して各シーン画像の画像特徴を抽出して第1特徴マップを取得してもよい。当該ニューラルネットワークモデルは、ビジュアル幾何学グループネットワーク(Visual Geometry Group Network、VGG Net)等のモデルを採用してもよいが、それらに限定されない。
ステップ102-2では、前記各シーン画像の第1特徴マップにおいて目標部位検出を行い、前記各シーン画像における複数の目標部位の位置を取得し、且つ、前記各シーン画像の第1特徴マップに対して特徴抽出処理を行い、多次元の第2特徴マップを取得する。
本発明の実施例において、目標部位は、人顔部位及び/又は人体部位を含んでもよい。領域予測ネットワーク(Region Proposal Network、RPN)を介して、各シーン画像の第1特徴マップにおいて人顔部位及び/又は人体部位の検出を行い、人顔部位に対応する人顔領域及び/又は人体部位に対応する人体領域を特定してもよい。人顔領域は、人顔認識枠でマーキングされてもよく、人体領域は、人体認識枠でマーキングされてもよい。例示として、人顔認識枠の中心位置を人顔部位の位置としてもよい。同様に、人体認識枠の中心位置を人体部位の位置としてもよい。
更に、各シーン画像の第1特徴マップに対して特徴抽出処理を行い、第1特徴マップに含まれる複数種の特徴情報を異なるチャンネルを介して抽出してもよい。このように、多次元の第2特徴マップを取得する。例示として、第2特徴マップのサイズは、第1特徴マップのサイズと同じであってもよく、且つ第2特徴マップの次元値は、各シーン画像に対応する所定チャンネル数である。
それ相応に、ステップ103は、以下のことを含んでもよい。
前記多次元の第2特徴マップにおいて、前記複数の目標部位の位置のそれぞれに対応する目標特徴ベクトルを取得する。
本発明の実施例において、目標特徴情報は、何れかの次元の第2特徴マップに含まれる複数の目標部位の領域のうちの各領域中の複数の画素のそれぞれに対応する特徴情報を表すために用いられる。目標部位は、人顔部位及び/又は人体部位を含んでもよい。
何れかの次元の第2特徴マップに含まれる複数の目標部位の領域において、何れか1つの画素に対応する特徴情報も、1つの一次元の特徴ベクトルを構成可能である。後の類似度算出が容易にするように、これらの特徴ベクトルから1つ又は複数の特徴ベクトルを選択して当該目標部位の領域の特徴情報(即ち、目標特徴情報)を示してもよい。本発明の実施例において、目標部位の位置の画素に対応する特徴ベクトルを選択し、当該特徴ベクトルを当該次元の第2特徴マップにおける目標部位の位置に対応する目標特徴ベクトルとしてもよい。目標部位の位置は、人顔認識枠の中心位置及び/又は人体認識枠の中心位置を含んでもよい。
更に、後の目標部位のマッチングの正確度が向上するように、多次元の第2特徴マップのうちの少なくとも1つの次元の第2特徴マップについて、複数の目標部位の位置の画素に対応する特徴情報を得て前記複数の目標部位の位置のそれぞれに対応する目標特徴ベクトルを取得してもよい。例示として、各次元の第2特徴マップごとに、複数の目標部位の位置のそれぞれに対応する目標特徴ベクトルを取得可能である。このように、目標特徴ベクトルの次元値と第2特徴マップの次元値とを同じにする。例えば、第2特徴マップの次元値がCである場合に、目標特徴ベクトルの次元値もCとなる。
上記実施例では、シーン画像全体について順次に実行された特徴抽出、目標部位検出、及び複数の目標部位の位置のそれぞれに対応する目標特徴ベクトルの特定である全手順が単一シーン画像に対する単一フレーム推定であるため、その中に含まれるオブジェクトの数の多少に関係しない。後続では、隣接する2枚ずつのシーン画像における、複数のオブジェクト位置のそれぞれに対応する目標特徴ベクトルに対してマッチングを取るため、単一オブジェクト追跡推論を別々に行う必要がない。シーン画像に含まれるオブジェクト数が多くなっても、一度にマッピング手順を完了することができる。本発明のオブジェクト追跡方法がシーン画像中のオブジェクト数に関係せず、オブジェクト数の増加による追跡時間の増加はない。これにより、計算リソースが非常に大きく節約され、複数オブジェクト追跡の時間が短縮され、複数オブジェクト追跡の検出効率が有効的に向上する。
幾つかの選択可能な実施例において、図3に示すように、ステップ104は、以下のステップを含んでもよい。
ステップ104-1では、前記複数枚のシーン画像のうちの隣接する2枚ずつのシーン画像にそれぞれ対応する前記複数の目標特徴情報を利用して、前記隣接する2枚ずつのシーン画像における各目標部位の間の類似度を取得する。
本発明の実施例では、各シーン画像の特徴情報のうち、前記複数の目標部位に対応する複数の目標特徴情報が既に特定され、隣接する2枚ずつのシーン画像のそれぞれに対応する複数の目標特徴情報を利用して類似度算出を行い、隣接する2枚ずつのシーン画像における各目標部位の間の類似度を取得することができる。
ステップ104-2では、前記隣接する2枚ずつのシーン画像における各目標部位の間の類似度に基づいて、前記異なるシーン画像に現れた複数の同じオブジェクトを特定する。
本発明の実施例において、隣接する2枚ずつのシーン画像における、最も類似度が大きい目標部位の所属するオブジェクトを異なるシーン画像に現れた同じオブジェクトとしてもよい。
上記実施例において、隣接する2枚ずつのシーン画像における各目標部位の間の類似度に基づいて異なるシーン画像に現れた複数の同じオブジェクトを特定可能であり、複数オブジェクト追跡の目的が果たされるとともに、追跡手順がオブジェクト数に関係せず、利用可能性が高くなる。
幾つかの選択可能な実施例において、隣接する2枚ずつのシーン画像は、第1シーン画像T及び第2シーン画像Tである。
図4に示すように、上記ステップ104-1は、以下のステップを含んでもよい。
ステップ104-11では、第1シーン画像におけるN個の目標特徴ベクトルのそれぞれと第2シーン画像におけるM個の目標特徴ベクトルとの類似度を特定する。
本発明の実施例において、目標特徴情報は、何れかの次元の第2特徴マップに含まれる複数の目標部位の領域の各領域中の複数の画素のそれぞれに対応する特徴情報を表すために用いられる。目標部位は、人顔部位及び/又は人体部位を含んでもよい。
目標特徴情報に基づくと、何れかの次元の第2特徴マップに含まれる複数の目標部位の領域において、何れか1つの画素に対応する特徴情報も、1つの一次元の特徴ベクトルを構成可能である。後の類似度算出が容易にするように、これらの特徴ベクトルから1つ又は複数の特徴ベクトルを選択して当該目標部位の領域の特徴情報を示してもよい。本発明の実施例において、目標部位の位置の画素に対応する特徴ベクトルを選択し、当該特徴ベクトルを当該次元の第2特徴マップにおける目標部位の位置に対応する目標特徴ベクトルとしてもよい。目標部位の位置は、人顔認識枠の中心位置及び/又は人体認識枠の中心位置を含んでもよい。
類似度を特定する手順では、隣接する2枚ずつのシーン画像のうちの第1シーン画像におけるN個の目標特徴ベクトルのそれぞれと第2シーン画像におけるM個の目標特徴ベクトルとの類似度を特定してもよい。N及びMは、2以上の正整数である。即ち、第1シーン画像における複数の目標特徴ベクトルのそれぞれと第2シーン画像における複数の目標特徴ベクトルとの間の類似度を特定する。
1つの可能な実現方式では、類似度の特定時に、目標特徴ベクトルの間の余弦類似度値を特定してもよい。第1シーン画像における何れか1つの目標特徴ベクトルと第2シーン画像における何れか1つの目標特徴ベクトルとの夾角の余弦値を算出することにより、それらの類似度を評価する。
ステップ104-12では、前記第1シーン画像におけるN個の目標特徴ベクトルのそれぞれと前記第2シーン画像におけるM個の目標特徴ベクトルとの前記類似度に基づいて、N×M次元の類似度行列を取得する。
本発明の実施例において、類似度行列における何れかの次元の値は、前記第1シーン画像の何れかの第1目標部位と前記第2シーン画像中の何れかの第2目標部位との類似度を表す。NとMは、等しくてもよく、等しくなくてもよい。
上記実施例では、第1シーン画像におけるN個の目標特徴ベクトルのそれぞれと第2シーン画像におけるM個の目標特徴ベクトルとの類似度を特定することにより、N×M次元の類似度行列を取得し、前記第1シーン画像の何れかの第1目標部位と前記第2シーン画像中の何れかの第2目標部位との類似度を類似度行列で示してもよく、実現しやすくなり、利用可能性が高くなる。
幾つかの選択可能な実施例において、ステップ104-2に関し、2部グラフアルゴリズムを採用してもよい。空間距離制約を満たす条件で、前記隣接する2枚ずつのシーン画像における各目標部位の間の類似度に基づいて、前記異なるシーン画像に現れた複数の同じオブジェクトを特定する。
2部グラフアルゴリズムとは、1つの2部グラフ内において、左頂点をX、右頂点をYとし、各グループの左右接続Xについて重み付け値wijを与え、全てのwijの和が最大となるマッチングを求めることを指す。本発明の実施例において、Xは、第1シーン画像におけるN個の目標特徴ベクトルのうちの1つに相当し、Yは、第2シーン画像におけるM個の目標特徴ベクトルのうちの1つに相当し、重み付け値wijは、類似度に対応する。本発明では、類似度が最大である場合に、N個の目標特徴ベクトルと第2目標特徴ベクトルとをマッチングさせ、現在隣接する2枚ずつのシーン画像における複数の同じオブジェクトを最終的に特定できるようにする必要がある。
本発明の実施例において、空間距離制約を満たす条件は、N個の目標特徴ベクトルとM個の目標特徴ベクトルとの間の類似度の次元がN×Mを超えないことを含む。
1つの可能な実現方式において、複数オブジェクト追跡の正確性が更に向上するように、類似度が最大であるとともにこの類似度最大値が所定閾値を超えることも確保する必要がある。
図5に示すように、ステップ104-2は、以下のステップを含んでもよい。
ステップ104-21では、前記類似度行列に基づいて、前記N個の目標特徴ベクトルのうちの第1目標特徴ベクトルのそれぞれと前記M個の目標特徴ベクトルとの類似度から類似度最大値を特定する。
本発明の実施例において、第1目標特徴ベクトルは、第1シーン画像において特定されたN個の目標特徴ベクトルのうちの何れか1つである。類似度行列に基づいて当該第1目標特徴ベクトルと第2シーン画像における各目標特徴ベクトルとの間の類似度を取得してもよい。これらの類似度から1つの類似度最大値を特定してもよい。
類似度行列が
Figure 2022542566000002
であり、第1目標特徴ベクトルとM個の第2目標特徴ベクトルとの間の類似度がそれぞれa11、a12及びa13であるとすれば、その中の最大値(a11と仮定する)は、特定可能である。
ステップ104-22では、前記類似度最大値が所定閾値よりも大きい場合に、前記M個の目標特徴ベクトルのうち、前記類似度最大値に対応する第2目標特徴ベクトルを特定する。
本発明の実施例において、第2目標特徴ベクトルは、第2シーン画像に含まれるM個の目標特徴ベクトルのうち、当該類似度最大値に対応する目標特徴ベクトルである。
複数オブジェクト追跡の正確性が更に確保されるように、類似度最大値が所定閾値よりも大きいことを確保する必要がある。
ステップ104-23では、前記第1シーン画像における前記第1目標特徴ベクトルに対応する第1目標部位の所属するオブジェクトと前記第2シーン画像における第2目標特徴ベクトルに対応する第2目標部位の所属するオブジェクトとを同じオブジェクトとする。
本発明の実施例において、上記類似度最大値が所定閾値よりも大きいときこそ、前記第1シーン画像の第1目標特徴ベクトルに対応する第1目標部位の所属するオブジェクトと前記第2シーン画像における第2目標特徴ベクトルに対応する第2目標部位の所属するオブジェクトとを同じオブジェクトとする。
類似度最大値が所定閾値以下であれば、第1シーン画像における第1目標特徴ベクトルに対応する第1目標部位の所属するオブジェクトが第2シーン画像において同じオブジェクトを有さないと考えられてもよい。
上記ステップ104-21から104-23を繰り返し、繰り返し回数が第1シーン画像に含まれる目標特徴ベクトルの数Nであり、第1シーン画像と第2シーン画像とに現れた全ての同じオブジェクトを最終的に特定することができる。
上記実施例において、類似度行列に応じて、隣接する2枚ずつのシーン画像における目標部位の間の類似度が最も近接する2つのオブジェクトを同じオブジェクトとしてもよく、複数オブジェクト追跡の目的が果たされ、利用可能性が高くなる。
幾つかの選択可能な実施例において、複数枚のシーン画像が取得された後、前記複数枚のシーン画像のうちの少なくとも2枚を予めトレーニングされた特徴検出モデルに入力し、前記特徴検出モデルを介して前記複数枚のシーン画像のうちの各シーン画像に対して特徴抽出処理及び目標部位検出を行い、前記各シーン画像の特徴情報と前記各シーン画像における複数の目標部位の位置とを取得し、且つ、前記各シーン画像における複数の目標部位の位置に基づいて、前記各シーン画像の特徴情報のうち、前記複数の目標部位に対応する複数の目標特徴情報を取得してもよい。
特徴検出モデルの構成は、図6に示すように、複数枚のシーン画像を特徴検出モデルに入力し、特徴検出モデルは、まず、バックボーンネットワーク(backbone)を介して複数枚のシーン画像のうちの各シーン画像に対して特徴抽出を行い、各シーン画像の第1特徴マップを取得する。
更に、特徴検出モデルの部位検出ブランチを介して、前記各シーン画像の第1特徴マップにおいて目標部位検出を行い、前記各シーン画像における複数の目標部位の位置を取得し、且つ、前記特徴検出モデルの特徴抽出ブランチを介して、前記各シーン画像の第1特徴マップに対して特徴抽出処理を行い、多次元の第2特徴マップを取得する。オブジェクトは、人物を含んでもよく、目標部位は、人顔部位及び/又は人体部位を含んでもよい。特徴抽出ブランチは、少なくとも1つの畳み込み層を直列に接続して形成されてもよい。第2特徴マップのサイズは、第1特徴マップのサイズと同じである。このように、各次元の第2特徴マップにおいて、複数の目標部位の位置は、同じである。第2特徴マップの次元値は、各シーン画像に対応する所定チャンネル数と同じである。
更に、前記多次元の第2特徴マップにおいて、前記複数の目標部位の位置に対応する複数の目標特徴ベクトルを取得してもよい。目標部位の位置は、人顔認識枠の中心位置及び/又は人体認識枠の中心位置で示されてもよい。目標特徴ベクトルの次元値は、第2特徴マップの次元値と同じである。ある人顔認識枠の中心位置座標が(x、y)であり、特徴抽出ブランチで得られた第2特徴マップのサイズが第1特徴マップサイズに一致しており、何れもH×Wであり、H及びWがそれぞれ画像の長さ及び幅であり、第2特徴マップの次元値がCであり、Cが各シーン画像に対応する所定チャンネル数である。各チャンネルの何れにも、人顔認識枠中心位置(x、y)に対応する目標特徴ベクトルを取得可能であるため、目標特徴ベクトルの次元値は、Cとなる。
本発明の実施例では、前記多次元の第2特徴マップにおいて前記複数の目標部位の位置に対応する複数の目標特徴ベクトルを抽出した後、第1シーン画像におけるN個の目標特徴ベクトルのそれぞれと第2シーン画像におけるM個の目標特徴ベクトルとの類似度を特定することにより、類似度行列を取得し、当該類似度行列に基づいて、前記異なるシーン画像に現れた複数の同じオブジェクトを特定してもよい。特定方式は、上記ステップ104-2の方式と同じであるため、ここで繰り返し説明しない。
図7に示すように、第1シーン画像T及び第2シーン画像Tへ上記特徴検出モデルを別々に入力することにより、N個の目標特徴ベクトル及びM個の目標特徴ベクトルをそれぞれ取得してもよい。更に、2部グラフアルゴリズムを採用し、空間距離制約を満たす条件で、抽出された前記目標部位の特徴に対してマッチングを取ることにより、TとTとに現れた同じオブジェクトを特定してもよい。
上記実施例において、各シーン画像に対して単一フレーム推定を行い、各シーン画像に幾つのオブジェクトが含まれても、複数オブジェクト追跡が迅速に実現可能であり、複数オブジェクト追跡の検出効率が有効的に向上する。
幾つかの選択可能な実施例において、図8に示すように、当該方法は、以下のステップを更に含んでもよい。
ステップ100-1では、同一シーンに対応する複数枚のサンプルシーン画像を初期ニューラルネットワークモデルに入力し、前記初期ニューラルネットワークモデルから出力された各サンプルシーン画像における複数の目標部位の位置のそれぞれに対応するサンプル特徴ベクトルを取得する。
本発明の実施例において、同一シーンに対応する既存の複数枚のサンプル画像を初期ニューラルネットワークモデルの入力値として採用し、複数枚のサンプル画像において予め各認識枠及び/又は対応するオブジェクト識別子によって複数の同じオブジェクト及び異なるオブジェクトをマーキングする。
本発明の実施例において、初期ニューラルネットワークモデルの構成は、同様に図6に示すように、バックボーンネットワーク、部位検出ブランチ及び特徴抽出ブランチを含んでもよい。入力値が複数枚のサンプルシーン画像を含む場合に、各サンプルシーン画像における複数の目標部位の位置のそれぞれに対応するサンプル特徴ベクトルを取得してもよい。
ステップ100-2では、前記各サンプルシーン画像におけるマーキングされた複数の目標部位のそれぞれに対応するオブジェクト識別子に基づいて、隣接する2枚ずつのサンプルシーン画像において、同じ前記オブジェクト識別子の前記目標部位の位置に対応する前記サンプル特徴ベクトルの間の第1類似度を特定し、及び/又は、異なる前記オブジェクト識別子の前記目標部位の位置に対応する前記サンプル特徴ベクトルの間の第2類似度を特定する。
本発明の実施例において、初期ニューラルネットワークモデルから出力された各サンプルシーン画像における複数の目標部位の位置のそれぞれに対応するサンプル特徴ベクトルに基づいて、隣接する2枚ずつのサンプルシーン画像における同じ前記オブジェクト識別子の前記目標部位の位置に対応する前記サンプル特徴ベクトルの間の第1類似度、及び/又は、前記隣接する2枚ずつのサンプルシーン画像における異なる前記オブジェクト識別子の前記目標部位の位置に対応する前記サンプル特徴ベクトルの間の第2類似度を特定してもよい。
サンプル特徴ベクトルの間の余弦類似度値に基づいて上記第1類似度値及び第2類似度値を取得してもよい。
ステップ100-3では、前記各サンプルシーン画像におけるマーキングされた複数の目標部位のそれぞれに対応するオブジェクト識別子に基づいて、前記第1類似度と前記第2類似度とのうちの少なくとも一方に基づいて、前記初期ニューラルネットワークモデルに対して教師ありトレーニングを行い、前記特徴検出モデルを取得する。
本発明の実施例において、第1類似度値を上げて第2類似度値を下げる方式で、図9に示すように、損失関数を特定してもよい。前記隣接する2枚ずつのサンプルシーン画像における複数の目標部位のそれぞれに対応するオブジェクト識別子を基に、特定された損失関数によって所定モデルのネットワークパラメータを調整し、教師ありトレーニングを完了した後、特徴検出モデルを取得する。
上記実施例では、前記各サンプルシーン画像におけるマーキングされた複数の目標部位のそれぞれに対応するオブジェクト識別子に基づいて、初期ニューラルネットワークモデルに対して教師ありトレーニングを行って前記特徴検出モデルを取得することにより、特徴検出モデルの検出性能及び汎化性能を向上させる。
幾つかの選択可能な実施例において、ステップ100-3に関し、第1類似度参照値と前記第1類似度との差分を第1損失関数としてもよい。第1類似度参照値は、前記2枚ずつのサンプルシーン画像におけるマーキングされた同じオブジェクト識別子の目標部位に対応するサンプル特徴ベクトルの間の類似度参照値である。例示として、第1類似度参照値は、サンプル特徴ベクトルの間の余弦類似度値であり、その値が1であってもよい。
初期ニューラルネットワークモデルのネットワークパラメータを調整して第1損失関数を最小にする又は所定トレーニング回数に達させることにより、特徴検出モデルを取得する。
又は、第2類似度参照値と前記第2類似度との差分を第2損失関数としてもよい。第2類似度参照値は、前記2枚ずつのサンプルシーン画像におけるマーキングされた異なるオブジェクト識別子の目標部位に対応するサンプル特徴ベクトルの間の類似度参照値である。例示として、第2類似度参照値は、サンプル特徴ベクトルの間の余弦類似度値であり、その値が0であってもよい。
同様に、初期ニューラルネットワークモデルのネットワークパラメータを調整して第2損失関数を最小にする又は所定トレーニング回数に達させることにより、特徴検出モデルを取得する。
又は、第1損失関数と第2損失関数との両方を初期ニューラルネットワークモデルの損失関数とし、初期ニューラルネットワークモデルのネットワークパラメータを調整して2つの損失関数を最小にする又は所定トレーニング回数に達させることにより、特徴検出モデルを取得してもよい。
幾つかの選択可能な実施例において、図10に示すように、当該方法は、以下のステップを更に含んでもよい。
ステップ105では、前記複数のシーン画像に現れた複数の同じオブジェクトのうちの少なくとも1つのオブジェクトの、所定時間帯内における運動軌跡が目標運動軌跡に合致するか否かを特定する。
本発明の実施例において、複数枚のシーン画像は、教室シーンに対応し、前記オブジェクトは、ティーチング対象を含み、前記目標運動軌跡は、ティーチングタスクにおいて前記ティーチング対象へ指定される少なくとも1種の運動軌跡を含む。ティーチングタスクにおいて前記ティーチング対象へ指定される少なくとも1種の運動軌跡は、現在の所在する位置から教師によって指定された他の位置まで歩くことを含むが、それに限定されない。他の位置は、教壇、黒板若しくは他のクラスメートの所在する位置であってもよく、又は、目標運動軌跡は、現在位置に移動が発生しないことを更に含んでもよい。
例えば、教室では、教室内に配置された、カメラヘッドを有するティーチングマルチメディア機器(ティーチングプロジェクタ、教室内のモニタリング機器等を含むが、それらに限定されない)を用いて教室内で複数枚のシーン画像を前後して収集してもよい。教室シーン画像に含まれる少なくとも1つティーチング対象の運動軌跡を特定する。当該ティーチング対象は、学生であってもよい。
更に、設定時間帯内、例えば、教師が授業する1コマの時間帯内で、各ティーチング対象例えば各学生の運動軌跡がティーチングタスクにおいて前記ティーチング対象へ指定される少なくとも1種の運動軌跡に合致するか否かを特定してもよい。例えば、教師の指示に従って現在位置から黒板の前に若しくは他のクラスメートの所在する位置に移動したか否か、又は、運動軌跡の移動が発生せずにずっと同一位置にいる、例えばずっと自分の位置に座って授業を受けているか否か等を特定する。教師がティーチングタスクをより良好に行うように、ティーチングマルチメディア機器を介して上記結果を表示してもよい。
上記方法実施例に対応し、本発明は、装置の実施例を更に提供する。
図11に示すように、図11は、本発明の1つの例示的な実施例に示すオブジェクト追跡装置ブロック図である。装置は、同一シーンに対応する複数枚のシーン画像を取得するための取得モジュール210と、前記複数枚のシーン画像のうちの各シーン画像に対して特徴抽出処理及び目標部位検出を行い、前記各シーン画像の特徴情報と前記各シーン画像における複数の目標部位の位置とを取得するための処理モジュール220と、前記各シーン画像の特徴情報のうち、前記複数の目標部位の位置のそれぞれに対応する目標特徴情報を取得するための特徴情報特定モジュール230と、取得された前記複数の目標部位の位置のそれぞれに対応する目標特徴情報に基づいて、前記複数枚のシーン画像に現れた複数の同じオブジェクトを特定するためのオブジェクト特定モジュール240と、を備え、各シーン画像は、前記複数の同じオブジェクトのうちの一部又は全部を含む。
幾つかの選択可能な実施例において、前記処理モジュールは、前記複数枚のシーン画像のうちの各シーン画像の第1特徴マップを抽出するための第1処理サブモジュールと、前記各シーン画像の第1特徴マップにおいて目標部位検出を行い、前記各シーン画像における複数の目標部位の位置を取得し、且つ、前記各シーン画像の第1特徴マップに対して特徴抽出処理を行い、多次元の第2特徴マップを取得するための第2処理サブモジュールと、を備え、前記特徴情報特定モジュールは、前記多次元の第2特徴マップにおいて前記複数の目標部位の位置に対応する複数の目標特徴ベクトルを取得するための特徴ベクトル特定サブモジュールを備える。
幾つかの選択可能な実施例において、前記オブジェクト特定モジュールは、前記複数枚のシーン画像のうちの隣接する2枚ずつのシーン画像にそれぞれ対応する複数の目標特徴情報を利用し、前記隣接する2枚ずつのシーン画像における各目標部位の間の類似度を取得するための類似度特定サブモジュールと、前記隣接する2枚ずつのシーン画像における各目標部位の間の類似度に基づいて、前記異なるシーン画像に現れた複数の同じオブジェクトを特定するためのオブジェクト特定サブモジュールと、を備える。
幾つかの選択可能な実施例において、前記隣接する2枚ずつのシーン画像は、第1シーン画像及び第2シーン画像であり、前記類似度特定サブモジュールは、第1シーン画像におけるN個の目標特徴ベクトルのそれぞれと第2シーン画像におけるM個の目標特徴ベクトルとの類似度を特定することと、前記第1シーン画像におけるN個の目標特徴ベクトルのそれぞれと前記第2シーン画像におけるM個の目標特徴ベクトルとの前記類似度に基づいて、N×M次元の類似度行列を取得することとを実行し、N及びMは、2以上の正整数であり、前記類似度行列における何れかの次元の値は、前記第1シーン画像の何れかの第1目標部位と前記第2シーン画像中の何れかの第2目標部位との類似度を表す。
幾つかの選択可能な実施例において、前記オブジェクト特定サブモジュールは、前記類似度行列に基づいて、前記N個の目標特徴ベクトルのうちの第1目標特徴ベクトルのそれぞれと前記M個の目標特徴ベクトルとの類似度から類似度最大値を特定することと、前記類似度最大値が所定閾値よりも大きい場合に、前記M個の目標特徴ベクトルのうち、前記類似度最大値に対応する第2目標特徴ベクトルを特定することと、前記第1シーン画像における前記第1目標特徴ベクトルに対応する第1目標部位の所属するオブジェクトと前記第2シーン画像における第2目標特徴ベクトルに対応する第2目標部位の所属するオブジェクトとを同じオブジェクトとすることと、を実行する。
幾つかの選択可能な実施例において、前記処理モジュールは、特徴検出モデルのバックボーンネットワークを介して前記複数枚のシーン画像のうちの各シーン画像の第1特徴マップを抽出するための第3処理サブモジュールと、前記特徴検出モデルの部位検出ブランチを介して、前記各シーン画像の第1特徴マップにおいて目標部位検出を行い、前記各シーン画像における複数の目標部位の位置を取得し、且つ、前記特徴検出モデルの特徴抽出ブランチを介して、前記各シーン画像の第1特徴マップに対して特徴抽出処理を行い、多次元の第2特徴マップを取得するための第4処理サブモジュールと、を備える。
幾つかの選択可能な実施例において、前記装置は、同一シーンに対応する複数枚のサンプルシーン画像を所定モデルに入力し、前記所定モデルから出力された各サンプルシーン画像における複数の目標部位の位置に対応する複数の特徴ベクトルを取得するための特徴ベクトル特定モジュールと、隣接する2枚ずつのサンプルシーン画像におけるマーキングされた複数の目標部位のそれぞれに対応するオブジェクト識別子に基づいて、前記隣接する2枚ずつのサンプルシーン画像における同じ前記オブジェクト識別子の前記目標部位の位置に対応するサンプル特徴ベクトルの間の第1類似度を特定し、及び/又は、前記隣接する2枚ずつのサンプルシーン画像における異なるオブジェクト識別子の目標部位の位置に対応するサンプル特徴ベクトルの間の第2類似度を特定するための類似度特定モジュールと、前記隣接する2枚ずつのサンプルシーン画像におけるマーキングされた複数の目標部位のそれぞれに対応するオブジェクト識別子を基に、前記第2類似度と前記第1類似度とのうちの少なくとも一方に基づいて、前記所定モデルに対して教師ありトレーニングを行い、前記特徴検出モデルを取得するためのトレーニングモジュールと、を更に備える。
幾つかの実施例において、第1類似度参照値と前記第1類似度との差分を第1損失関数とすることと、第2類似度参照値と前記第2類似度との差分を第2損失関数とすることと、前記第1損失関数と前記第2損失関数とのうちの少なくとも一方に基づいて、前記初期ニューラルネットワークモデルをトレーニングし、前記特徴検出モデルを取得することとを実行し、前記第1類似度参照値は、前記隣接する2枚ずつのサンプルシーン画像におけるマーキングされた同じオブジェクト識別子の目標部位に対応するサンプル特徴ベクトルの間の類似度参照値であり、前記第2類似度参照値は、前記隣接する2枚ずつのサンプルシーン画像におけるマーキングされた異なるオブジェクト識別子の目標部位に対応するサンプル特徴ベクトルの間の類似度参照値である。
幾つかの選択可能な実施例において、前記装置は、前記複数のシーン画像に現れた複数の同じオブジェクトのうちの少なくとも1つのオブジェクトの、所定時間帯内における運動軌跡が目標運動軌跡に合致するか否かを特定するための運動軌跡特定モジュールを更に備える。
幾つかの選択可能な実施例において、前記複数枚のシーン画像は、教室シーンに対応し、前記オブジェクトは、ティーチング対象を含み、前記目標運動軌跡は、ティーチングタスクにおいて前記ティーチング対象へ指定される少なくとも1種の運動軌跡を含む。
装置実施例は、方法実施例に基本的に対応するため、その関連箇所が方法実施例部分の説明を参照すればよい。上述した装置実施例は、単に例示であり、その中、分離部品として説明される手段が物理的に分離されるものであってもよくでなくてもよい。また、手段として表示される部品は、物理手段であってもでなくてもよい。更に、それらの手段は、1箇所に位置してもよく、複数のネットワークセルに分散してもよい。実際の需要に応じてその中の一部又は全部のモジュールを選択して本実施例の目的を果たすことが可能である。当業者は、進歩性に値する労働をせずに、理解して実施可能である。
本発明の実施例は、コンピュータ可読記憶媒体を更に提供する。記憶媒体には、コンピュータプログラムが記憶され、コンピュータプログラムは、上記何れか一項に記載のオブジェクト追跡方法を実行するために用いられる。
幾つかの選択可能な実施例において、本発明の実施例は、コンピュータプログラム製品を提供する。当該コンピュータプログラム製品は、コンピュータ可読コードを含み、コンピュータ可読コードが機器で運転されたときに、機器におけるプロセッサは、上述した何れか1つの実施例に係るオブジェクト追跡方法を実施するための指令を実行する。
幾つかの選択可能な実施例において、本発明の実施例は、別のコンピュータプログラム製品を更に提供する。当該コンピュータプログラム製品は、コンピュータ可読指令を記憶し、指令が実行されたときに、コンピュータは、上記何れか1つの実施例に係るオブジェクト追跡方法の操作を実行する。
当該上記コンピュータプログラム製品は、具体的にハードウェア、ソフトウェア又はそれらの組み合わせで実現されてもよい。ある好適な実施例において、前記コンピュータプログラム製品は、コンピュータ記憶媒体として具現化されてもよく、別の好適な実施例において、コンピュータプログラム製品は、ソフトウェア製品、例えばソフトウェア開発キット(Software Development Kit、SDK)等として具現化される。
幾つかの選択可能な実施例において、本発明の実施例は、コンピュータプログラムを提供する。前記コンピュータプログラムが実行されたときに、コンピュータは、上記何れか1つの実施例に係るオブジェクト追跡方法の操作を実行する。
本発明の実施例は、オブジェクト追跡装置を更に提供する。当該オブジェクト追跡装置は、プロセッサと、プロセッサで実行され得る実行可能指令を記憶するためのメモリと、を備え、プロセッサは、前記メモリに記憶された実行可能指令を呼び出すことにより、上記何れか1つのオブジェクト追跡方法を実施するように構成される。
図12は、本発明の実施例に係るオブジェクト追跡装置のハードウェア構造模式図である。当該オブジェクト追跡装置310は、プロセッサ311を備え、入力装置312、出力装置313及びメモリ314を更に備えてもよい。当該入力装置312、出力装置313、メモリ314とプロセッサ311の間は、バスを介して互いに接続される。
メモリは、ランダムアクセスメモリ(random access memory、RAM)、読み出し専用メモリ(read-only memory、ROM)、消去可能なプログラマブル読み出し専用メモリ(erasable programmable read only memory、EPROM)、又は携帯型読み出し専用メモリ(compact disc read-only memory、CD-ROM)を含むが、それらに限定されない。当該メモリは、関連する指令及びデータを記憶する。
入力装置は、データ及び/又は信号を入力し、出力装置は、データ及び/又は信号を出力する。出力装置と入力装置は、独立するデバイスであってもよく、1つの全体のデバイスであってもよい。
プロセッサは、1つ又は複数のプロセッサであってもよく、例えば1つ又は複数の中央処理装置(central processing unit、CPU)を含んでもよい。プロセッサが1つのCPUである場合に、当該CPUは、シングルコアCPUであってもよく、マルチコアCPUであってもよい。
メモリは、ネットワーク機器のプログラムコード及びデータを記憶する。
プロセッサは、当該メモリにおけるプログラムコード及びデータを呼び出して、上記方法実施例におけるステップを実行する。詳細は、方法実施例における記述を参照すればよく、ここで繰り返し説明しない。
理解できるように、図12は、単に1種のオブジェクト追跡装置の簡素化設計を示す。実際の応用において、オブジェクト追跡装置は、必要な他の素子をそれぞれ含んでもよく、任意数の入力/出力装置、プロセッサ、コントローラ及びメモリ等を含むが、それらに限定されない。本発明の実施例を実現できる全てのオブジェクト追跡装置は、何れも本発明の保護範囲内に含まれる。
当業者は、明細書を考慮してここで開示された本発明を実践した後、本発明の他の実施案を容易に想到し得る。本発明は、本発明の如何なる変形、用途又は適応的変化もカバーすることを意図する。これらの変形、用途又は適応的変化は、本発明の一般的な原理に従い、本発明に開示されていない当分野における公知常識或いは慣用技術手段を含む。明細書及び実施例は、単に例示と見なされ、本発明の真の範囲及び要旨は、請求項から与えられる。
上述したのは、本発明の好適な実施例に過ぎず、本発明を制限するためのものではない。本発明の精神及び原則内でなされた如何なる変更、均等物による置換、改良等も、本発明の保護範囲内に含まれるべきである。
本願は、2020年4月28日に提出された、出願番号が202010352365.6であって発明名称が「オブジェクト追跡方法及び装置、記憶媒体」である中国特許出願の優先権を要求し、当該出願の全ての内容が引用によって本願に組み込まれる。

Claims (14)

  1. オブジェクト追跡方法であって、
    同一シーンに対応する複数枚のシーン画像を取得するステップと、
    前記複数枚のシーン画像のうちの各シーン画像に対して特徴抽出処理及び目標部位検出を行い、前記各シーン画像の特徴情報と前記各シーン画像における複数の目標部位の位置とを取得するステップと、
    前記各シーン画像の特徴情報のうち、前記複数の目標部位の位置のそれぞれに対応する目標特徴情報を取得するステップと、
    取得された前記複数の目標部位の位置のそれぞれに対応する目標特徴情報に基づいて、前記複数枚のシーン画像に現れた複数の同じオブジェクトを特定するステップと、を含み、
    各シーン画像は、前記複数の同じオブジェクトのうちの一部又は全部を含むことを特徴とするオブジェクト追跡方法。
  2. 前記複数枚のシーン画像のうちの各シーン画像に対して特徴抽出処理及び目標部位検出を行い、前記各シーン画像の特徴情報と前記各シーン画像における複数の目標部位の位置とを取得するステップは、
    前記複数枚のシーン画像のうちの各シーン画像の第1特徴マップを抽出することと、
    前記各シーン画像の第1特徴マップにおいて目標部位検出を行い、前記各シーン画像における複数の目標部位の位置を取得し、且つ、前記各シーン画像の第1特徴マップに対して特徴抽出処理を行い、多次元の第2特徴マップを取得することと、を含み、
    前記各シーン画像の特徴情報のうち、前記複数の目標部位の位置のそれぞれに対応する目標特徴情報を取得するステップは、
    前記多次元の第2特徴マップにおいて、前記複数の目標部位の位置のそれぞれに対応する目標特徴ベクトルを取得することを含むことを特徴とする請求項1に記載のオブジェクト追跡方法。
  3. 前記取得された前記複数の目標部位の位置のそれぞれに対応する目標特徴情報に基づいて、前記複数枚のシーン画像に現れた複数の同じオブジェクトを特定するステップは、
    前記複数枚のシーン画像のうちの隣接する2枚ずつのシーン画像にそれぞれ対応する複数の目標特徴情報を利用し、前記隣接する2枚ずつのシーン画像における各目標部位の間の類似度を取得することと、
    前記隣接する2枚ずつのシーン画像における各目標部位の間の類似度に基づいて、異なるシーン画像に現れた複数の同じオブジェクトを特定することと、を含むことを特徴とする請求項1又は2に記載のオブジェクト追跡方法。
  4. 前記隣接する2枚ずつのシーン画像は、第1シーン画像及び第2シーン画像であり、
    前記複数枚のシーン画像のうちの隣接する2枚ずつのシーン画像にそれぞれ対応する複数の目標特徴情報を利用し、前記隣接する2枚ずつのシーン画像における各目標部位の間の類似度を取得することは、
    第1シーン画像におけるN個の目標特徴ベクトルのそれぞれと第2シーン画像におけるM個の目標特徴ベクトルとの類似度を特定することと、
    前記第1シーン画像におけるN個の目標特徴ベクトルのそれぞれと前記第2シーン画像におけるM個の目標特徴ベクトルとの前記類似度に基づいて、N×M次元の類似度行列を取得することと、を含み、
    N及びMは、2以上の正整数であり、前記類似度行列における何れかの次元の値は、前記第1シーン画像の何れかの第1目標部位と前記第2シーン画像中の何れかの第2目標部位との類似度を表すことを特徴とする請求項3に記載のオブジェクト追跡方法。
  5. 前記隣接する2枚ずつのシーン画像における各目標部位の間の類似度に基づいて、前記異なるシーン画像に現れた複数の同じオブジェクトを特定することは、
    前記類似度行列に基づいて、前記N個の目標特徴ベクトルのうちの第1目標特徴ベクトルのそれぞれと前記M個の目標特徴ベクトルとの類似度から類似度最大値を特定することと、
    前記類似度最大値が所定閾値よりも大きい場合に、前記M個の目標特徴ベクトルのうち、前記類似度最大値に対応する第2目標特徴ベクトルを特定することと、
    前記第1シーン画像における前記第1目標特徴ベクトルに対応する第1目標部位の所属するオブジェクトと前記第2シーン画像における第2目標特徴ベクトルに対応する第2目標部位の所属するオブジェクトとを同じオブジェクトとすることと、を含むことを特徴とする請求項4に記載のオブジェクト追跡方法。
  6. 前記複数枚のシーン画像のうちの各シーン画像に対して特徴抽出処理及び目標部位検出を行い、前記各シーン画像の特徴情報と前記各シーン画像における複数の目標部位の位置とを取得するステップは、
    特徴検出モデルのバックボーンネットワークを介して前記複数枚のシーン画像のうちの各シーン画像の第1特徴マップを抽出することと、
    前記特徴検出モデルの部位検出ブランチを介して、前記各シーン画像の第1特徴マップにおいて目標部位検出を行い、前記各シーン画像における複数の目標部位の位置を取得し、且つ、前記特徴検出モデルの特徴抽出ブランチを介して、前記各シーン画像の第1特徴マップに対して特徴抽出処理を行い、多次元の第2特徴マップを取得することと、を含むことを特徴とする請求項1から5の何れか一項に記載のオブジェクト追跡方法。
  7. 同一シーンに対応する複数枚のサンプルシーン画像を初期ニューラルネットワークモデルに入力し、前記初期ニューラルネットワークモデルから出力された各サンプルシーン画像における複数の目標部位の位置のそれぞれに対応するサンプル特徴ベクトルを取得するステップと、
    前記各サンプルシーン画像におけるマーキングされた複数の目標部位のそれぞれに対応するオブジェクト識別子に基づいて、隣接する2枚ずつのサンプルシーン画像における、同じ前記オブジェクト識別子の前記目標部位の位置に対応する前記サンプル特徴ベクトルの間の第1類似度を特定し、及び/又は、異なる前記オブジェクト識別子の前記目標部位の位置に対応する前記サンプル特徴ベクトルの間の第2類似度を特定するステップと、
    前記各サンプルシーン画像におけるマーキングされた複数の目標部位のそれぞれに対応するオブジェクト識別子に基づいて、前記第1類似度と前記第2類似度とのうちの少なくとも一方に基づいて、前記初期ニューラルネットワークモデルに対して教師ありトレーニングを行い、前記特徴検出モデルを取得するステップと、更に含むことを特徴とする請求項6に記載のオブジェクト追跡方法。
  8. 前記各サンプルシーン画像におけるマーキングされた複数の目標部位のそれぞれに対応するオブジェクト識別子に基づいて、前記第1類似度と前記第2類似度とのうちの少なくとも一方に基づいて、前記初期ニューラルネットワークモデルに対して教師ありトレーニングを行い、前記特徴検出モデルを取得するステップは、
    第1類似度参照値と前記第1類似度との差分を第1損失関数とすることと、
    第2類似度参照値と前記第2類似度との差分を第2損失関数とすることと、
    前記第1損失関数と前記第2損失関数とのうちの少なくとも一方に基づいて、前記初期ニューラルネットワークモデルをトレーニングし、前記特徴検出モデルを取得することと、を含み、
    前記第1類似度参照値は、前記隣接する2枚ずつのサンプルシーン画像におけるマーキングされた同じオブジェクト識別子の目標部位に対応するサンプル特徴ベクトルの間の類似度参照値であり、前記第2類似度参照値は、前記隣接する2枚ずつのサンプルシーン画像におけるマーキングされた異なるオブジェクト識別子の目標部位に対応するサンプル特徴ベクトルの間の類似度参照値であることを特徴とする請求項7に記載のオブジェクト追跡方法。
  9. 前記複数のシーン画像に現れた複数の同じオブジェクトのうちの少なくとも1つのオブジェクトの、所定時間帯内における運動軌跡が目標運動軌跡に合致するか否かを特定するステップを更に含むことを特徴とする請求項1から8の何れか一項に記載のオブジェクト追跡方法。
  10. 前記複数枚のシーン画像は、教室シーンに対応し、前記オブジェクトは、ティーチング対象を含み、前記目標運動軌跡は、ティーチングタスクにおいて前記ティーチング対象へ指定される少なくとも1種の運動軌跡を含むことを特徴とする請求項9に記載のオブジェクト追跡方法。
  11. オブジェクト追跡装置であって、
    同一シーンに対応する複数枚のシーン画像を取得するための取得モジュールと、
    前記複数枚のシーン画像のうちの各シーン画像に対して特徴抽出処理及び目標部位検出を行い、前記各シーン画像の特徴情報と前記各シーン画像における複数の目標部位の位置とを取得するための処理モジュールと、
    前記各シーン画像の特徴情報のうち、前記複数の目標部位の位置のそれぞれに対応する目標特徴情報を取得するための特徴情報特定モジュールと、
    取得された前記複数の目標部位の位置のそれぞれに対応する目標特徴情報に基づいて、前記複数枚のシーン画像に現れた複数の同じオブジェクトを特定するためのオブジェクト特定モジュールと、を備え、
    各シーン画像は、前記複数の同じオブジェクトのうちの一部又は全部を含むことを特徴とするオブジェクト追跡装置。
  12. コンピュータ可読記憶媒体であって、
    前記コンピュータ可読記憶媒体には、コンピュータプログラムが記憶され、前記コンピュータプログラムは、請求項1から10の何れか一項に記載のオブジェクト追跡方法を実行するために用いられることを特徴とするコンピュータ可読記憶媒体。
  13. オブジェクト追跡装置であって、
    プロセッサと、
    前記プロセッサで実行され得る実行可能指令を記憶するためのメモリと、を備え、
    前記プロセッサは、前記メモリに記憶された実行可能指令を呼び出すことで請求項1から10の何れか一項に記載のオブジェクト追跡方法を実施するように構成されることを特徴とするオブジェクト追跡装置。
  14. コンピュータプログラムであって、
    前記コンピュータプログラムがプロセッサによって実行されたときに、請求項1から10の何れか一項に記載のオブジェクト追跡方法が実施されることを特徴とするコンピュータプログラム。
JP2022504275A 2020-04-28 2021-04-16 オブジェクト追跡方法及び装置、記憶媒体並びにコンピュータプログラム Active JP7292492B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010352365.6 2020-04-28
CN202010352365.6A CN111539991B (zh) 2020-04-28 2020-04-28 目标跟踪方法及装置、存储介质
PCT/CN2021/087870 WO2021218671A1 (zh) 2020-04-28 2021-04-16 目标跟踪方法及装置、存储介质及计算机程序

Publications (2)

Publication Number Publication Date
JP2022542566A true JP2022542566A (ja) 2022-10-05
JP7292492B2 JP7292492B2 (ja) 2023-06-16

Family

ID=71977335

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022504275A Active JP7292492B2 (ja) 2020-04-28 2021-04-16 オブジェクト追跡方法及び装置、記憶媒体並びにコンピュータプログラム

Country Status (5)

Country Link
JP (1) JP7292492B2 (ja)
KR (1) KR20220024986A (ja)
CN (1) CN111539991B (ja)
TW (1) TWI769787B (ja)
WO (1) WO2021218671A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111539991B (zh) * 2020-04-28 2023-10-20 北京市商汤科技开发有限公司 目标跟踪方法及装置、存储介质
CN113129339B (zh) * 2021-04-28 2023-03-10 北京市商汤科技开发有限公司 一种目标跟踪方法、装置、电子设备及存储介质
CN114783043B (zh) * 2022-06-24 2022-09-20 杭州安果儿智能科技有限公司 一种儿童行为轨迹定位方法和系统
WO2024071587A1 (ko) * 2022-09-29 2024-04-04 삼성전자 주식회사 객체를 추적하는 방법 및 전자 장치
CN115880614B (zh) * 2023-01-19 2023-05-12 清华大学 一种宽视场高分辨视频高效智能检测方法及系统
CN116721045B (zh) * 2023-08-09 2023-12-19 经智信息科技(山东)有限公司 一种多ct图像融合的方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005337954A (ja) * 2004-05-28 2005-12-08 Secom Co Ltd センシング装置及び身長測定装置
JP2009020897A (ja) * 2002-09-26 2009-01-29 Toshiba Corp 画像解析方法、画像解析装置、画像解析プログラム
JP2019075116A (ja) * 2017-10-13 2019-05-16 株式会社ストラドビジョン トラッキングネットワークを含むCNN(Convolutional Neural Network)を用いてイメージ上の客体に対応するバウンディングボックスを獲得するための方法及びこれを利用した装置
CN110163890A (zh) * 2019-04-24 2019-08-23 北京航空航天大学 一种面向空基监视的多目标跟踪方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI492188B (zh) * 2008-12-25 2015-07-11 Univ Nat Chiao Tung 利用多攝影機自動偵測與追蹤多目標的方法及系統
CN108875465B (zh) * 2017-05-26 2020-12-11 北京旷视科技有限公司 多目标跟踪方法、多目标跟踪装置以及非易失性存储介质
WO2018218640A1 (en) * 2017-06-02 2018-12-06 SZ DJI Technology Co., Ltd. Systems and methods for multi-target tracking and autofocusing based on deep machine learning and laser radar
CN109214238B (zh) * 2017-06-30 2022-06-28 阿波罗智能技术(北京)有限公司 多目标跟踪方法、装置、设备及存储介质
CN108491816A (zh) * 2018-03-30 2018-09-04 百度在线网络技术(北京)有限公司 在视频中进行目标跟踪的方法和装置
CN110866428B (zh) * 2018-08-28 2023-12-15 杭州海康威视数字技术股份有限公司 目标跟踪方法、装置、电子设备及存储介质
CN109522843B (zh) * 2018-11-16 2021-07-02 北京市商汤科技开发有限公司 一种多目标跟踪方法及装置、设备和存储介质
CN109800624A (zh) * 2018-11-27 2019-05-24 上海眼控科技股份有限公司 一种基于行人重识别的多目标跟踪方法
CN109859238B (zh) * 2019-03-14 2021-03-12 郑州大学 一种基于多特征最优关联的在线多目标跟踪方法
CN110889464B (zh) * 2019-12-10 2021-09-14 北京市商汤科技开发有限公司 检测目标对象的神经网络训练、目标对象的检测方法及装置
CN111539991B (zh) * 2020-04-28 2023-10-20 北京市商汤科技开发有限公司 目标跟踪方法及装置、存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009020897A (ja) * 2002-09-26 2009-01-29 Toshiba Corp 画像解析方法、画像解析装置、画像解析プログラム
JP2005337954A (ja) * 2004-05-28 2005-12-08 Secom Co Ltd センシング装置及び身長測定装置
JP2019075116A (ja) * 2017-10-13 2019-05-16 株式会社ストラドビジョン トラッキングネットワークを含むCNN(Convolutional Neural Network)を用いてイメージ上の客体に対応するバウンディングボックスを獲得するための方法及びこれを利用した装置
CN110163890A (zh) * 2019-04-24 2019-08-23 北京航空航天大学 一种面向空基监视的多目标跟踪方法

Also Published As

Publication number Publication date
CN111539991B (zh) 2023-10-20
JP7292492B2 (ja) 2023-06-16
TWI769787B (zh) 2022-07-01
TW202141424A (zh) 2021-11-01
CN111539991A (zh) 2020-08-14
KR20220024986A (ko) 2022-03-03
WO2021218671A1 (zh) 2021-11-04

Similar Documents

Publication Publication Date Title
JP7292492B2 (ja) オブジェクト追跡方法及び装置、記憶媒体並びにコンピュータプログラム
US11468697B2 (en) Pedestrian re-identification method based on spatio-temporal joint model of residual attention mechanism and device thereof
CN111709409B (zh) 人脸活体检测方法、装置、设备及介质
US20220358770A1 (en) Scene reconstruction in three-dimensions from two-dimensional images
Sidla et al. Pedestrian detection and tracking for counting applications in crowded situations
US11048948B2 (en) System and method for counting objects
US8179440B2 (en) Method and system for object surveillance and real time activity recognition
CN205334563U (zh) 一种学生课堂参与度检测系统
CN110378259A (zh) 一种面向监控视频的多目标行为识别方法及系统
CN109819208A (zh) 一种基于人工智能动态监控的密集人群安防监控管理方法
CN111598998A (zh) 三维虚拟模型重建方法、装置、计算机设备和存储介质
US20230015773A1 (en) Crowd motion simulation method based on real crowd motion videos
CN109214366A (zh) 局部目标重识别方法、装置及系统
CN106033601A (zh) 检测异常情形的方法和装置
CN112528812A (zh) 行人跟踪的方法、行人跟踪装置以及行人跟踪系统
CN113378649A (zh) 身份、位置和动作识别方法、系统、电子设备及存储介质
CN114565976A (zh) 一种训练智能测试方法以及装置
KR101529620B1 (ko) 이동 방향별 보행자 계수 방법 및 장치
TWI776429B (zh) 動作識別方法及裝置、電腦可讀存儲介質
CN111652045B (zh) 课堂教学质量评估方法和系统
Psarras et al. Visual saliency in navigation: Modelling navigational behaviour using saliency and depth analysis
KR101467360B1 (ko) 이동 방향별 보행자 계수 방법 및 장치
CN113496200A (zh) 数据处理方法、装置、电子设备及存储介质
CN104077554A (zh) 基于线性动态系统的视角无关的人体行为识别方法
CN112163537B (zh) 一种行人异常行为检测方法、系统、终端以及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230516

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230606

R150 Certificate of patent or registration of utility model

Ref document number: 7292492

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150