JP7459949B2 - 学習装置、学習方法、追跡装置及びプログラム - Google Patents

学習装置、学習方法、追跡装置及びプログラム Download PDF

Info

Publication number
JP7459949B2
JP7459949B2 JP2022545169A JP2022545169A JP7459949B2 JP 7459949 B2 JP7459949 B2 JP 7459949B2 JP 2022545169 A JP2022545169 A JP 2022545169A JP 2022545169 A JP2022545169 A JP 2022545169A JP 7459949 B2 JP7459949 B2 JP 7459949B2
Authority
JP
Japan
Prior art keywords
learning
information
image
tracking
tracking target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022545169A
Other languages
English (en)
Other versions
JPWO2022044222A5 (ja
JPWO2022044222A1 (ja
Inventor
康敬 馬場崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2022044222A1 publication Critical patent/JPWO2022044222A1/ja
Publication of JPWO2022044222A5 publication Critical patent/JPWO2022044222A5/ja
Application granted granted Critical
Publication of JP7459949B2 publication Critical patent/JP7459949B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/277Analysis of motion involving stochastic approaches, e.g. using Kalman filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/77Determining position or orientation of objects or cameras using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Description

本開示は、学習装置、学習方法、追跡装置及び記憶媒体の技術分野に関する。
安全に関する分野では、人や物の追跡を時系列の画像間において行う技術が存在する。例えば、特許文献1には、動画像が入力された場合に、各画像における人の姿勢情報を認識し、姿勢の類似度に基づき、追跡処理を行う画像検索装置が開示されている。
特開2019-091138号公報
特許文献1のように、姿勢情報に基づき追跡処理を行う場合には、姿勢推定に誤差が生じた場合に追跡処理の精度が低下してしまうという問題があった。
本開示の目的は、上述した課題を鑑み、画像間での追跡対象の追跡に関する学習を好適に実行可能な学習装置、追跡装置、学習方法及び記憶媒体を提供することを主な課題とする。
学習装置の一の態様は、
時系列に撮影された学習用の画像である第1学習画像及び第2学習画像と、当該第1学習画像及び第2学習画像の各々に含まれる追跡対象の位置又は姿勢に関する追跡対象位置情報と、前記追跡対象の識別情報とが関連付けられた追跡学習データを取得する取得手段と、
前記第1学習画像及び第2学習画像の各々から推定した前記追跡対象の姿勢を示す姿勢情報と、前記追跡対象位置情報とを照合することで、前記姿勢情報に前記識別情報を紐付ける推定結果照合手段と、
前記姿勢情報に基づく情報が入力された場合に、前記第1学習画像と前記第2学習画像とでの前記追跡対象の対応関係を示す対応情報を推論する推論器の学習を、前記姿勢情報と前記識別情報とに基づき行う学習手段と、
を有する学習装置である。
学習方法の一の態様は、コンピュータにより、
時系列に撮影された学習用の画像である第1学習画像及び第2学習画像と、当該第1学習画像及び第2学習画像の各々に含まれる追跡対象の位置又は姿勢に関する追跡対象位置情報と、前記追跡対象の識別情報とが関連付けられた追跡学習データを取得し、
前記第1学習画像及び第2学習画像の各々から推定した前記追跡対象の姿勢を示す姿勢情報と、前記追跡対象位置情報とを照合することで、前記姿勢情報に前記識別情報を紐付け、
前記姿勢情報に基づく情報が入力された場合に、前記第1学習画像と前記第2学習画像とでの前記追跡対象の対応関係を示す対応情報を推論する推論器の学習を、前記姿勢情報と前記識別情報とに基づき行う、
学習方法である。
プログラムの一の態様は、
時系列に撮影された学習用の画像である第1学習画像及び第2学習画像と、当該第1学習画像及び第2学習画像の各々に含まれる追跡対象の位置又は姿勢に関する追跡対象位置情報と、前記追跡対象の識別情報とが関連付けられた追跡学習データを取得し、
前記第1学習画像及び第2学習画像の各々から推定した前記追跡対象の姿勢を示す姿勢情報と、前記追跡対象位置情報とを照合することで、前記姿勢情報に前記識別情報を紐付け、
前記姿勢情報に基づく情報が入力された場合に、前記第1学習画像と前記第2学習画像とでの前記追跡対象の対応関係を示す対応情報を推論する推論器の学習を、前記姿勢情報と前記識別情報とに基づき行う処理をコンピュータに実行させるプログラムである。
画像間での追跡対象の追跡に関する学習を好適に実行することができる。
実施形態における追跡システムの概略構成である。 (A)追跡学習データ記憶部が記憶する追跡学習データのデータ構造の一例を示す。(B)撮影画像・追跡情報記憶部が記憶するデータのデータ構造の一例を示す。 (A)学習装置のハードウェア構成の一例を示す。(B)追跡装置のハードウェア構成の一例を示す。 学習装置の機能ブロックの一例を示す。 追跡装置の機能ブロックの一例を示す。 追跡対象位置情報が第1学習画像及び第2学習画像において追跡対象の各々の存在領域を示す場合の照合処理の概要を示す図である。 追跡対象位置情報が第1学習画像及び第2学習画像において追跡対象の各々の特徴点の位置を示す場合の照合処理の概要を示す図である。 特徴情報及び対応情報の生成処理に関する概要図を示す。 (A)特徴情報の第1形式において、第1画像での頭のx座標値に相当する相当するチャンネルにおける行列を示す。(B)特徴情報の第1形式において、第2画像での頭のx座標値に相当するチャンネルにおける行列を示す。 (A)特徴点の座標値を定める座標系の第1の例を示す。(B)特徴点の座標値を定める第2の例を示す。 特徴情報の第2形式において、頭のx座標値に相当するチャンネルにおける行列を示す。 (A)図8に示す第1画像及び第2画像に基づく特徴情報が入力された場合に推論器が出力する対応行列の第1の例を示す。(B)図8に示す第1画像及び第2画像に基づく特徴情報が入力された場合に推論器が出力する対応行列の第2の例を示す。 (A)図12(A)に示す形式の対応行列を推論器が出力する場合に、第1の学習仕様において正解として設定される対応行列の一例である。(B)図12(B)に示す形式の対応行列を推論器が出力する場合に、第1の学習仕様において正解として設定される対応行列の第1行列の一例である。(C)図12(B)に示す形式の対応行列を推論器が出力する場合に、第1の学習仕様において正解として設定される対応行列の第2行列の一例である。 (A)図12(B)に示す形式の対応行列を推論器が出力する場合に、第2の学習仕様において正解として設定される対応行列の第1行列の一例である。(B)図12(B)に示す形式の対応行列を推論器が出力する場合に、第2の学習仕様において正解として設定される対応行列の第2行列の一例である。 推論器の学習に関する処理手順を示すフローチャートの一例である。 追跡処理の手順を示すフローチャートの一例である。 第2実施形態に係る学習装置の概略構成を示す。 第2実施形態において学習装置が実行する処理手順を示すフローチャートの一例である。
以下、図面を参照しながら、学習装置、追跡装置、学習方法及び記憶媒体の実施形態について説明する。
<第1実施形態>
(1)全体構成
図1は、第1実施形態における追跡システム100の概略構成である。追跡システム100は、物体の追跡を行うシステムである。追跡システム100は、主に、物体の追跡に関する推論を行うモデルである推論器の学習を行う学習装置1と、追跡に必要な情報を記憶する記憶装置2と、追跡の実行及び管理を行う追跡装置3と、追跡の対象となる空間の撮影を行うカメラ4とを有する。
学習装置1は、記憶装置2の追跡学習データ記憶部21が記憶する追跡学習データに基づいて、追跡に関する推論を行うモデルである推論器の学習を行い、学習により得られた推論器のパラメータをパラメータ記憶部22に記憶する。
記憶装置2は、追跡学習データ記憶部21と、パラメータ記憶部22と、撮影画像・追跡情報記憶部23とを有する。これらの各記憶部については後述する。なお、記憶装置2は、学習装置1又は追跡装置3に接続又は内蔵されたハードディスクなどの外部記憶装置であってもよく、フラッシュメモリなどの記憶媒体であってもよく、学習装置1及び追跡装置3とデータ通信を行うサーバ装置などであってもよい。また、記憶装置2は、複数の記憶装置から構成され、上述した各記憶部を分散して保有してもよい。
追跡装置3は、カメラ4が撮影した時系列の画像において被写体となる特定の物体(「追跡対象」とも呼ぶ。)の画像間での対応関係を特定し、画像間において共通する追跡対象に対して共通の識別情報(「追跡ID」とも呼ぶ。)を割り当てることで、追跡対象の管理を行う。ここで、追跡対象は、人全般であってもよく、特定の属性(例えば性別、年齢等)を有する人であってもよく、人以外の特定の種類の移動物(車両など)であってもよい。追跡装置3は、パラメータ記憶部22が記憶するパラメータを参照することで、追跡対象の画像間での対応関係の推論を行うモデルである推論器を構成し、この推論器に基づき、追跡対象の画像間での対応関係を示す情報(「対応情報Ic」とも呼ぶ。)の推論を行う。
なお、図1に示される追跡システム100の構成は一例であり、種々の変更が行われてもよい。例えば、学習装置1と、記憶装置2と、追跡装置3とのうち少なくとも2つが同一装置により実現されてもよい。他の例では、学習装置1と追跡装置3とは、夫々、複数の装置により構成されてもよい。この場合、学習装置1を構成する複数の装置及び追跡装置3を構成する複数の装置は、予め割り当てられた処理を実行するために必要な情報の授受を、有線又は無線での直接通信により又はネットワークを介した通信により装置間において行う。
(2)データ構造
次に、記憶装置2に記憶されるデータについて説明する。
追跡学習データ記憶部21は、学習装置1による学習に用いられる学習用(訓練用)データである追跡学習データを記憶する。図2(A)は、追跡学習データのデータ構造の一例を示す。図2(A)に示すように、追跡学習データは、時系列の学習画像と、追跡対象位置情報と、追跡IDとを少なくとも含んでいる。
学習画像は、時系列により撮影された画像である。なお、時系列の学習画像は、カメラのフレームレートに基づく間隔により生成された画像群であってもよく、当該画像群から所定間隔毎に抽出した画像により構成される画像群であってもよい。そして、時系列の学習画像の各画像において被写体となる各追跡対象には、追跡対象位置情報と追跡IDとが関連付けられている。
追跡対象位置情報は、時系列の学習画像の各画像に含まれる追跡対象の位置に関する情報である。例えば、追跡対象位置情報は、時系列の学習画像の各画像に含まれる追跡対象の各々の画像内での存在領域を示す情報であってもよく、追跡対象の各々の画像内での特徴点の位置を示す情報であってもよい。ここで、「特徴点」は、追跡対象において特徴的な部位の位置であって、追跡対象とする物体の種類によって予め定められている。特徴点は、例えば、追跡対象が人の場合には、一般的に人が備える各関節の位置を示す。
パラメータ記憶部22は、追跡装置3が使用する推論器を構成するために必要なパラメータを記憶する。推論器に用いる学習モデルは、ニューラルネットワークに基づく学習モデルであってもよく、サポートベクターマシーンなどの他の種類の学習モデルであってもよく、これらを組み合わせた学習モデルであってもよい。例えば、上述の推論器がニューラルネットワークに基づく構成を有する場合、パラメータ記憶部22には、推論器の層構造、各層のニューロン構造、各層におけるフィルタ数及びフィルタサイズ、並びに各フィルタの各要素の重みなどの種々のパラメータの情報が記憶される。なお、好適には、推論器の学習モデルとして、畳み込み層を有するニューラルネットワークを用いるとよい。これにより、後述するように、画像間での追跡対象の全ての組み合わせの候補を考慮した的確な追跡対象の対応関係の把握を行うことが可能となる。
撮影画像・追跡情報記憶部23は、追跡に用いる撮影画像及び当該画像から得られた追跡に関する情報を記憶する。図2(B)は、撮影画像・追跡情報記憶部23が記憶するデータのデータ構造の一例を示す。図2(B)に示すように、撮影画像・追跡情報記憶部23は、時系列の撮影画像と、姿勢情報と、追跡IDとを少なくとも記憶する。
撮影画像は、カメラ4が時系列により生成した画像である。例えば、記憶装置2は、カメラ4から順次送信される画像を受信し、受信した画像を時系列の撮影画像として撮影画像・追跡情報記憶部23に記憶する。なお、カメラ4が生成した画像を撮影画像・追跡情報記憶部23に記憶する処理は、学習装置1又は追跡装置3等の他の装置を介して行われてもよい。そして、時系列の撮影画像の各画像において被写体となる各追跡対象には、追跡装置3により、以下の姿勢情報と追跡IDとが関連付けられる。
姿勢情報は、時系列の撮影画像の各画像に含まれる追跡対象の各々の画像内での姿勢を示す情報である。姿勢情報は、時系列の撮影画像の各画像に含まれる追跡対象の各々の画像内での特徴点の位置を示す情報を含んでいる。追跡IDは、追跡装置3が時系列の撮影画像の各画像に含まれる追跡対象に割り当てた識別情報である。なお、この追跡IDは、追跡学習データに含まれる追跡IDと整合していなくともよい。即ち、時系列の学習画像と時系列の撮影画像とで夫々同一の追跡対象が含まれている場合であっても、同一の追跡IDが割り当てられる必要はない。
(3)ハードウェア構成
次に、学習装置1及び追跡装置3の各ハードウェア構成について説明する。
図3(A)は、学習装置1のハードウェア構成の一例を示す。学習装置1は、ハードウェアとして、プロセッサ11と、メモリ12と、インターフェース13とを含む。プロセッサ11、メモリ12、及びインターフェース13は、データバス19を介して接続されている。
プロセッサ11は、メモリ12に記憶されているプログラムを実行することにより、学習装置1の全体の制御を行うコントローラ(演算装置)として機能する。プロセッサ11は、例えば、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、TPU(Tensor Processing Unit)、量子プロセッサなどのプロセッサである。プロセッサ11は、複数のプロセッサから構成されてもよい。プロセッサ11は、コンピュータの一例である。
メモリ12は、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリなどの各種の揮発性メモリ及び不揮発性メモリにより構成される。また、メモリ12には、学習装置1が実行する処理を実行するためのプログラムが記憶される。なお、メモリ12が記憶する情報の一部は、学習装置1と通信可能な記憶装置2などの外部記憶装置により記憶されてもよく、学習装置1に対して着脱自在な記憶媒体により記憶されてもよい。また、メモリ12は、記憶装置2が記憶する情報を代わりに記憶してもよい。
インターフェース13は、学習装置1と他の装置とを電気的に接続するためのインターフェースである。これらのインターフェースは、他の装置とデータの送受信を無線により行うためのネットワークアダプタなどのワイアレスインタフェースであってもよく、他の装置とケーブル等により接続するためのハードウェアインターフェースであってもよい。
図3(B)は、追跡装置3のハードウェア構成の一例を示す。追跡装置3は、ハードウェアとして、プロセッサ31と、メモリ32と、インターフェース33とを含む。プロセッサ31、メモリ32、及びインターフェース33は、データバス30を介して接続されている。
プロセッサ31は、メモリ32に記憶されているプログラムを実行することにより、追跡装置3の全体の制御を行うコントローラ(演算装置)として機能する。プロセッサ31は、例えば、CPU、GPU、TPU、量子プロセッサなどのプロセッサである。プロセッサ31は、複数のプロセッサから構成されてもよい。プロセッサ31は、コンピュータの一例である。
メモリ32は、RAM、ROM、フラッシュメモリなどの各種の揮発性メモリ及び不揮発性メモリにより構成される。また、メモリ32には、追跡装置3が実行する処理を実行するためのプログラムが記憶される。なお、メモリ32が記憶する情報の一部は、追跡装置3と通信可能な記憶装置2などの外部記憶装置により記憶されてもよく、追跡装置3に対して着脱自在な記憶媒体により記憶されてもよい。また、メモリ32は、記憶装置2が記憶する情報を代わりに記憶してもよい。
インターフェース33は、追跡装置3と他の装置とを電気的に接続するためのインターフェースである。これらのインターフェースは、他の装置とデータの送受信を無線により行うためのネットワークアダプタなどのワイアレスインタフェースであってもよく、他の装置とケーブル等により接続するためのハードウェアインターフェースであってもよい。
なお、学習装置1及び追跡装置3のハードウェア構成は、図3(A)及び図3(B)に示す構成に限定されない。例えば、学習装置1又は追跡装置3の少なくとも一方は、ディスプレイなどの表示部、キーボードやマウスなどの入力部、スピーカなどの音出力部などをさらに備えてもよい。
(4)機能ブロック
次に、追跡システム100の機能的な構成について説明する。
(4-1)学習装置
図4は、学習装置1の機能ブロックの一例である。図4に示すように、学習装置1のプロセッサ11は、機能的には、姿勢推定部15と、推定結果照合部16と、特徴抽出部17と、学習部18とを有する。なお、図4では、データの授受が行われるブロック同士を実線により結んでいるが、データの授受が行われるブロックの組合せは図4に限定されない。後述する他の機能ブロックの図においても同様である。
姿勢推定部15は、インターフェース13を介し、追跡学習データ記憶部21から2枚分の時系列の学習画像を抽出し、抽出した画像に対し、追跡対象の検出及び検出した追跡対象の姿勢の推定を行う。この場合、姿勢推定部15は、例えば、追跡学習データ記憶部21に記憶された時系列の学習画像から、撮影時刻が早い順に2つの画像を順次抽出し、抽出した画像に対して夫々処理を行う。以後では、説明便宜上、撮影時刻「t-δ」である「第1学習画像」と、撮影時刻「t」である「第2学習画像」とが追跡学習データ記憶部21から抽出された場合の処理について説明する。t及びδは自然数である。
姿勢推定部15は、第1学習画像と、第2学習画像とに対し、任意の姿勢推定技術を適用することで、処理対象の画像に夫々含まれる追跡対象の複数の特徴点で構成される姿勢情報「Ip」を生成する。入力画像から複数の特徴点で構成される姿勢情報を推定する技術は、例えば、特許文献1に開示されている。例えば、姿勢推定部15は、深層学習等に基づき予め学習された姿勢推定器のパラメータが記憶装置2又はメモリ12等に記憶されている場合には、当該パラメータを参照することで構成した姿勢推定器を用いてもよい。この場合、姿勢推定部15は、姿勢推定器に第1学習画像及び第2学習画像を夫々入力することで姿勢推定器から出力される追跡対象の特徴点に関する情報を、姿勢情報Ipとして取得する。姿勢推定部15は、生成した姿勢情報Ipを、推定結果照合部16及び特徴抽出部17に夫々供給する。
推定結果照合部16は、第1学習画像及び第2学習画像に夫々含まれる追跡対象に関する追跡対象位置情報及び追跡IDを追跡学習データ記憶部21から抽出し、抽出した追跡対象位置情報と、姿勢推定部15から供給される姿勢情報Ipとの照合を行う。これにより、推定結果照合部16は、第1学習画像及び第2学習画像に含まれる各追跡対象の姿勢を示す姿勢情報Ipに対し、最もマッチした追跡対象位置情報に対応する追跡IDを紐付ける。この場合、好適には、姿勢推定器が対象を検出できない可能性および学習データセットに存在しない対象を検出する可能性を考慮し、推定結果照合部16は、所定の基準を満たした姿勢情報Ipに対し、最もマッチした追跡対象位置情報に対応する追跡IDを紐付けるとよい。ここで、「所定の基準」とは、例えば、
(1)正解の矩形領域に対して、検出した特徴点は最低「N」(Nは正の整数)数以上含まれている
(2)正解の特徴点位置と予測の特徴点位置の距離は「L」(Lは正数)以下である
などが該当する。「N」、「L」の情報は、例えば、予めメモリ12又は記憶装置2に記憶されている。この場合、所定の基準を満たさなかったことにより追跡IDの紐付けがなされなかった姿勢情報Ipは、学習部18の処理において用いられない。推定結果照合部16は、姿勢情報Ipと追跡IDとの関係を紐付ける情報(「追跡紐付情報Ir」とも呼ぶ。)を、学習部18に供給する。例えば、追跡対象毎の姿勢情報Ipを識別するための画像ごとの通し番号(例えば後述の検出番号)が追跡対象毎の姿勢情報Ipに付加されている場合には、追跡紐付情報Irは、この通し番号と、追跡IDとの対応関係を画像毎に示したテーブル情報であってもよい。なお、推定結果照合部16による追跡対象位置情報と姿勢情報Ipとの照合処理の詳細については、「(5)推定結果の照合」のセクションにおいて詳しく説明する。
特徴抽出部17は、姿勢推定部15から供給される姿勢情報Ipに基づき、各追跡対象の特徴を表す情報(「特徴情報IF」とも呼ぶ。)を生成する。この特徴情報IFは、推論器に入力される入力形式に姿勢情報Ipを変換した情報に相当する。特徴抽出部17は、後述するように、第1学習画像での追跡対象の検出数と、第2学習画像での追跡対象の検出数と、各追跡対象が有する特徴点の数(即ち検出対象となる特徴点の種類の数)とに基づく形式の特徴情報IFを生成する。特徴抽出部17は、生成した特徴情報IFを、学習部18に供給する。特徴情報IFについては、「(6)特徴情報及び行列情報の生成」のセクションにおいて詳しく説明する。また、特徴抽出部17は、画像毎の各追跡対象に対して割り当てる後述の検出番号と、追跡IDとの対応関係を示す情報を、学習部18に供給する。
学習部18は、推定結果照合部16から供給される追跡紐付情報Irと、特徴抽出部17から供給される特徴情報IFとに基づき、推論器の学習を行い、学習により得られた推論器のパラメータを、パラメータ記憶部22に記憶する。この場合、学習部18は、第1学習画像及び第2学習画像での追跡対象の正解の対応関係を追跡紐付情報Irに基づき認識する。そして、学習部18は、特徴情報IFを推論器の入力データとし、かつ、上記の正解の対応関係を示す対応情報Icを推論器が出力すべき正解データとして用いることで、推論器の学習を行う。この場合、学習部18は、上記の入力データを推論器に入力した場合に、上記の正解データに対する推論器の推論結果の損失が最小となるように推論器の学習を行う。なお、損失を最小化するように上述のパラメータを決定するアルゴリズムは、勾配降下法や誤差逆伝播法などの機械学習において用いられる任意の学習アルゴリズムであってもよい。学習部18による学習については、「(6)特徴情報及び行列情報の生成」のセクションにおいて詳しく説明する。
ここで、図4において説明したプロセッサ11の各構成要素(姿勢推定部15、推定結果照合部16、特徴抽出部17及び学習部18)は、例えば、プロセッサ11がプログラムを実行することによって実現できる。また、必要なプログラムを任意の不揮発性記憶媒体に記録しておき、必要に応じてインストールすることで、各構成要素を実現するようにしてもよい。なお、これらの各構成要素の少なくとも一部は、プログラムによるソフトウェアで実現することに限ることなく、ハードウェア、ファームウェア、及びソフトウェアのうちのいずれかの組合せ等により実現してもよい。また、これらの各構成要素の少なくとも一部は、例えばFPGA(field-programmable gate array)又はマイクロコントローラ等の、ユーザがプログラミング可能な集積回路を用いて実現してもよい。この場合、この集積回路を用いて、上記の各構成要素から構成されるプログラムを実現してもよい。また、各構成要素の少なくとも一部は、ASSP(Application Specific Standard Produce)やASIC(Application Specific Integrated Circuit)により構成されてもよい。このように、上述の各構成要素は、種々のハードウェアにより実現されてもよい。さらに、これらの各構成要素は,例えば,クラウドコンピューティング技術などを用いて、複数のコンピュータの協働によって実現されてもよい。以上のことは、後述する他の実施の形態においても同様である。
(4-2)追跡装置
図5は、追跡装置3の機能ブロックの一例である。図5に示すように、追跡装置3のプロセッサ31は、機能的には、姿勢推定部35と、特徴抽出部37と、対応情報生成部38と、追跡情報管理部39とを有する。
姿勢推定部35は、インターフェース33を介し、撮影画像・追跡情報記憶部23から2枚分の時系列の撮影画像を抽出し、抽出した各撮影画像に対し、追跡対象の検出及び検出した追跡対象の姿勢の推定を行う。以後では、姿勢推定部35が撮影画像・追跡情報記憶部23から抽出した2枚分の時系列の撮影画像を、夫々、撮影時刻順に、「第1撮影画像」、「第2撮影画像」と呼ぶ。そして、姿勢推定部35は、第1撮影画像と、第2撮影画像とに対し、任意の姿勢推定技術を適用することで、第1撮影画像及び第2撮影画像に夫々含まれる追跡対象の複数の特徴点で構成される姿勢情報Ipを生成する。姿勢推定部35は、生成した姿勢情報Ipを、特徴抽出部37及び追跡情報管理部39に夫々供給する。
ここで、追跡装置3が処理対象とする第1撮影画像及び第2撮影画像の選択について補足説明する。例えば、追跡装置3は、前回の処理において第2撮影画像として選択した画像を、次の処理において第1撮影画像とし、当該第1撮影画像の後に撮影された画像を第2撮影画像として選択する。このように、追跡装置3は、1枚分重複させながら、時系列の撮影画像から第1撮影画像及び第2撮影画像を順次選択することで、任意の撮影時間長となる時系列の撮影画像群における追跡対象の追跡を行う。なお、追跡装置3は、撮影画像・追跡情報記憶部23に記憶された時系列の撮影画像から、所定間隔により間引いた画像を、第1撮影画像及び第2撮影画像として順次選択してもよい。
特徴抽出部37は、姿勢推定部35から供給される姿勢情報Ipに基づき、特徴情報IFを生成する。特徴抽出部37が実行する処理は、特徴抽出部17が実行する処理と同一のため、その説明を省略する。
対応情報生成部38は、パラメータ記憶部22から抽出したパラメータに基づき、学習装置1が学習した推論器を構成し、構成した推論器に特徴情報IFを入力することで、第1撮影画像及び第2撮影画像での追跡対象の対応関係を示す対応情報Icを生成する。そして、対応情報生成部38は、生成した対応情報Icを、追跡情報管理部39に供給する。
追跡情報管理部39は、対応情報生成部38から供給される対応情報Icに基づき、姿勢推定部35から供給される姿勢情報Ipに追跡IDの対応付けを行い、対応付けた姿勢情報Ipを撮影画像・追跡情報記憶部23に記憶する。この場合、追跡情報管理部39は、追跡IDの発行(新規追加)、更新、削除などを行う。例えば、第1撮影画像または第2撮影画像において、追跡IDが割り当てられていない追跡対象が存在する場合、当該追跡対象に対して、新規の追跡IDを発行し、当該追跡対象の姿勢情報Ipに対して、新規に発行した追跡IDを対応付けて撮影画像・追跡情報記憶部23に記憶する。他の例では、追跡情報管理部39は、第1撮影画像において存在した追跡対象が第2撮影画像において存在しなくなったとき、第1撮影画像において存在した追跡対象に割り当てた追跡IDの削除を行う。
ここで、追跡IDは、追跡対象ごとに固有のIDとなる必要はなく、カメラ4の撮影対象範囲内に連続して存在する撮影期間において同一の追跡IDが割り当てられていればよい。例えば、追跡対象がカメラ4の撮影対象範囲から出た後で再び撮影対象範囲内に進入した場合には、追跡情報管理部39は、当該追跡対象に対して異なる追跡IDを割り当ててもよい。
一方、追跡情報管理部39は、追跡対象ごとに固有のIDとなるように追跡IDの割り当て管理を行ってもよい。この場合、追跡情報管理部39は、追跡対象を識別するための特徴情報(例えば顔の特徴情報等)を撮影画像・追跡情報記憶部23に記憶しておき、この特徴情報をさらに参照することで、第1撮影画像で存在せずに第2撮影画像に出現した追跡対象が、既に追跡IDを割り当てられているか否かの判定等を行う。この場合、追跡情報管理部39は、Re-Identification(ReID)において用いられる任意の技術を用いて、追跡対象の同定を行ってもよい。
ここで、図5において説明したプロセッサ31の各構成要素(姿勢推定部35、特徴抽出部37、対応情報生成部38及び追跡情報管理部39)は、例えば、プロセッサ31がプログラムを実行することによって実現できる。また、必要なプログラムを任意の不揮発性記憶媒体に記録しておき、必要に応じてインストールすることで、各構成要素を実現するようにしてもよい。なお、これらの各構成要素の少なくとも一部は、プログラムによるソフトウェアで実現することに限ることなく、ハードウェア、ファームウェア、及びソフトウェアのうちのいずれかの組合せ等により実現してもよい。また、これらの各構成要素の少なくとも一部は、例えばFPGA又はマイクロコントローラ等の、ユーザがプログラミング可能な集積回路を用いて実現してもよい。この場合、この集積回路を用いて、上記の各構成要素から構成されるプログラムを実現してもよい。また、各構成要素の少なくとも一部は、ASSPやASICにより構成されてもよい。このように、上述の各構成要素は、種々のハードウェアにより実現されてもよい。以上のことは、後述する他の実施の形態においても同様である。
(5)推定結果の照合
次に、推定結果照合部16が実行する処理について詳しく説明する。以後では、追跡対象位置情報が、第1学習画像及び第2学習画像において追跡対象の各々の存在領域を示す場合と、第1学習画像及び第2学習画像において追跡対象の各々の特徴点の位置を示す場合(即ち姿勢情報である場合)とに分けて説明する。
図6は、追跡対象位置情報が第1学習画像及び第2学習画像において追跡対象の各々の存在領域を示す場合の推定結果照合部16の照合処理の概要を示す図である。ここでは、追跡対象は、人であるものとし、第1学習画像には、追跡ID「1」~「3」が夫々割り当てられた歩行者が存在し、第2学習画像には、追跡ID「1」と追跡ID「3」が夫々割り当てられた歩行者が存在している。
図6の上段は、追跡学習データ記憶部21に記憶された追跡対象位置情報と追跡IDとを明示した第1学習画像及び第2学習画像を示す。図6の上段では、追跡対象位置情報が示す追跡対象の各々の存在領域が、矩形枠40~44により第1学習画像及び第2学習画像上において明示されている。また、図6の下段は、姿勢情報Ipが示す特徴点(ここでは関節点)の位置を明示した第1学習画像及び第2学習画像を示す。図6の下段では、追跡対象毎に推定された関節点の位置が、追跡対象毎の推定関節点群45~49により第1学習画像及び第2学習画像上において明示されている。また、図6の下段には、矩形枠40~44と同一位置に配置された破線の矩形枠40a~44aが、第1学習画像及び第2学習画像上において明示されている。
この場合、推定結果照合部16は、姿勢情報Ipが示す各追跡対象の関節点の推定位置を示す推定関節点群45~49と、追跡対象位置情報が示す追跡対象の各々の存在領域を示す矩形枠40a~44aとの位置関係に基づき、追跡紐付情報Irを生成する。具体的には、推定結果照合部16は、推定関節点群45~49の各々について、個々の推定関節点が最も多く含まれている矩形枠40a~44aを多数決により決定する。例えば、推定関節点群45が示す全12個の関節点は、全て矩形枠40aに含まれていることから、推定結果照合部16は、推定関節点群45に対し、多数決により決定した矩形枠40aに対応する追跡ID「1」を紐付ける。同様に、推定結果照合部16は、各推定関節点群46~49について、学習画像毎の各矩形枠に含まれる数の多数決を行うことで、各推定関節点群46~49に対し、夫々、追跡ID「3」、「2」、「1」、「3」を夫々紐付ける。そして、推定結果照合部16は、全ての推定関節点群45~49に対する追跡IDの紐付け結果を示す追跡紐付情報Irを生成する。
このように、推定結果照合部16は、追跡対象位置情報が追跡対象の各々の存在領域を示す場合に、追跡紐付情報Irを好適に生成することができる。なお、追跡対象位置情報が示す追跡対象の各々の存在領域は、矩形領域に限らず、任意の形状の領域であってもよい。また、好適には、推定結果照合部16は、姿勢推定器が対象を検出できない可能性および学習データセットに存在しない対象を検出する可能性を考慮し、推定結果照合部16は、上述した「所定の基準」を満たした姿勢情報Ipに対してのみ、追跡IDの紐付け処理を行うとよい。
図7は、追跡対象位置情報が第1学習画像及び第2学習画像において追跡対象の各々の特徴点の位置を示す場合の推定結果照合部16の照合処理の概要を示す図である。図7に示す第1学習画像及び第2学習画像は、図6に示す第1学習画像及び第2学習画像と同一である。
図7の上段では、追跡対象位置情報が示す追跡対象の各々の関節点の位置が、追跡対象毎の点群50~54により第1学習画像及び第2学習画像上において明示されている。
この場合、推定結果照合部16は、姿勢情報Ipが示す各追跡対象の関節点の推定位置を示す推定関節点群45~49と、追跡対象位置情報が示す各追跡対象の関節点の正解位置を示す正解関節点群50~54との位置関係に基づき、追跡紐付情報Irを生成する。具体的には、推定結果照合部16は、学習画像毎及び追跡対象毎に、追跡対象位置情報が示す正解関節点群と、推定関節点群の各々との対応する関節点同士の距離の合計値を算出し、当該合計値が最も小さい推定関節点群に対し、追跡対象の追跡IDを紐付ける。例えば、推定結果照合部16は、第1学習画像において、追跡ID「1」に紐付ける推定関節点群を特定する場合、追跡ID「1」に対応する正解関節点群50と、第1学習画像内の推定関節点群45~47の各々との関節点毎の距離の合計値を算出する。そして、推定結果照合部16は、最も合計値が小さくなる推定関節点群45に対し、正解関節点群50に対応する追跡ID「1」を紐付ける。同様に、推定結果照合部16は、正解関節点群51~54に対して最も上記合計値が小さくなる推定関節点群46~49を夫々特定し、推定関節点群46~49に対して夫々追跡ID「3」、「2」、「1」、「3」を夫々紐付ける。そして、推定結果照合部16は、全ての推定関節点群45~49に対する追跡IDの紐付け結果に基づき、追跡紐付情報Irを生成する。
このように、推定結果照合部16は、追跡対象位置情報が追跡対象の各々の姿勢情報を示す場合であっても、追跡紐付情報Irを好適に生成することができる。また、好適には、推定結果照合部16は、姿勢推定器が対象を検出できない可能性および学習データセットに存在しない対象を検出する可能性を考慮し、推定結果照合部16は、上述した「所定の基準」を満たした姿勢情報Ipに対してのみ、追跡IDの紐付け処理を行うとよい。
(6)特徴情報及び行列情報の生成
(6-1)概要
図8は、学習装置1及び追跡装置3が実行する特徴情報IF及び対応情報Icの生成処理に関する概要図を示す。まず、学習装置1が行う処理を前提として説明を行う。
学習装置1の特徴抽出部17は、姿勢推定部15から供給される姿勢情報Ipを、所定形式のテンソルへ変換した特徴情報IFを生成する。なお、図8では、姿勢情報Ipとして、追跡対象となる各歩行者の関節点を、撮影時刻t-δの画像(第1学習画像)及び撮影時刻tの画像(第2学習画像)上において明示している。また、ここでは、説明便宜上、各追跡対象に対して画像毎の検出番号「1」~「3」、「1a」~「2a」を付している。なお、検出番号は、例えば、画像毎に各追跡対象に対して所定の規則(例えば画像内の各追跡対象の中心座標と原点との距離)に基づき割り当てられた番号であり、追跡IDと整合しなくともよい。
ここで、図8に示すように、特徴情報IFは、画像毎に、追跡対象の各特徴点(ここでは、頭、右手等)の画像内でのx座標値及びy座標値を、第1学習画像及び第2学習画像での追跡対象の各検出数と、特徴点の数とに基づく形式に表したものである。上記の「座標値」は、ピクセル単位に基づく横又は縦方向の位置を表す値であってもよく、サブピクセル単位に基づく横又は縦方向の位置を示す値であってもよい。特徴情報IFの形式については後述する。
そして、学習部18は、特徴抽出部17が生成した特徴情報IFを、推論器に入力する。この場合、推論器は、第1学習画像における追跡対象と、第2学習画像における追跡対象との対応を確からしさにより示した対応行列を出力する。そして、学習部18は、この対応行列と、追跡紐付情報Irに基づき生成した正解の対応行列との損失が最小化するように、推論器のパラメータを決定する。
ここで、好適には、推論器として学習されるモデルは、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)等に基づくモデルである。このように、畳み込みニューラルネットワークを推論器として学習させることで、畳み込み層の存在により、画像間での追跡対象の全ての組み合わせの候補を考慮した的確な追跡対象の対応関係の把握を行うことが可能となる。
好適な例では、検出番号は、疑似乱数を基にしてランダムに割り当てられた番号であってもよい。これにより、正解として設定される対応行列が同じ成分配置(例えば、対角行列)になることに起因して学習段階に不具合が生じるのを防ぐことができる。
ここで、検出番号を、疑似乱数を基にしてランダムに割り当てられた番号とする場合の処理について補足説明する。この場合、学習装置1は、以下の4つの手順を行う。
手順1.特徴抽出部17は、検出した姿勢情報Ipにある所定の規則(例えば、画像上の原点に近い順)で番号を振る(このときの番号を「仮検出番号」と呼ぶ。)。
手順2.推定結果照合部16は、仮検出番号と追跡IDとの紐付けを行い、追跡紐付情報Irを生成する。
手順3.特徴抽出部17は、ランダムに割り当てた検出番号を生成し、手順1で振った仮検出番号とランダムに割り当てた検出番号との対応情報(「番号対応情報In」とも呼ぶ。)を生成する。この場合、特徴抽出部17は、推論器へ入力する行列である特徴情報IFを、ランダムに割り当てた検出番号を基に情報を配置して作成する。
手順4.学習部18は、追跡紐付情報Irと番号対応情報Inを用いて、ランダムに割り当てた検出番号と追跡IDの紐付けを行い、正解の対応行列を作成する。
次に、追跡装置3による特徴情報IF及び対応情報Icの生成処理について説明する。追跡装置3の特徴抽出部37は、第1撮影画像及び第2撮影画像に基づき生成された姿勢情報Ipを、所定形式のテンソルへ変換した特徴情報IFを生成する。この特徴情報IFは、画像毎に、追跡対象の各特徴点の画像内でのx座標値及びy座標値を、第1撮影画像及び第2撮影画像での追跡対象の各検出数と、特徴点の数とに基づく形式に表したものとなる。
そして、対応情報生成部38は、パラメータ記憶部22を参照することで推論器を構成し、当該推論器に対し、特徴抽出部37が生成した特徴情報IFを入力する。これにより、推論器は、第1撮影画像における追跡対象と、第2撮影画像における追跡対象との対応を確からしさにより示した対応行列を出力する。そして、対応情報生成部38は、この対応行列を、対応情報Icとして追跡情報管理部39に供給する。
(6-2)特徴情報の形式
次に、特徴情報IFのデータ構造(形式)について説明する。特徴情報IFのデータ構造は、以下に述べる第1形式又は第2形式のいずれであってもよい。なお、学習装置1及び追跡装置3が扱う特徴情報IFの形式は共通であるため、以後では、説明便宜上、「第1画像」と「第2画像」は、第1学習画像と第2学習画像の組、又は、第1撮影画像と第2撮影画像の組のいずれかを示すものとする。
第1形式は、図8に示した特徴情報IFの形式であり、第1画像での追跡対象の検出数を「N」、第2画像での追跡対象の検出数を「M」、対象とする画像の数を「TF」、特徴点(関節点)の種類数を「K」、画像の次元数を「D」とすると、以下の形式のテンソルを示す。
N×M×(TF×K×D)
ここで、「TF」は、対象とする画像の数が第1画像と第2画像の2枚であるため「2」となり、「D」は、画像の次元がx座標とy座標の2次元であるため「2」となる。また、図8では、第1画像での追跡対象の検出数Nは「3」となり、第2画像での追跡対象の検出数Mは「2」となる。また、ここでは、一例として、「N×M」が行列の大きさに対応し、(TF×K×D)がチャンネル方向の大きさに対応するものとする。
図9(A)は、第1形式において、第1画像での特徴点の座標値(ここでは頭のx座標値)に相当するチャンネルにおける行列を示し、図9(B)は、第1形式において、第2画像での特徴点の座標値(ここでは頭のx座標値)に相当するチャンネルにおける行列を示す。図9(A)、(B)に示される行列は、いずれも、行数が第1画像での追跡対象の検出数Nに相当し、列数が第2画像での追跡対象の検出数Mに相当する行列となる。そして、図9(A)に示す行列の各行は、第1画像での追跡対象の検出番号に順に対応しており、対応する検出番号に応じた追跡対象の特徴点の座標値を格納している。また、図9(A)に示す行列は、列毎に同一の値(即ち同一の行の各成分には全て同一の値)が格納されている。一方、図9(B)に示す行列の各列は、第2画像での追跡対象の検出番号に順に対応しており、対応する検出番号に応じた追跡対象の特徴点の座標値を格納している。また、図9(B)に示す行列は、行毎に同一の値(即ち同一の列の各成分には全て同一の値)が格納されている。
このように、第1形式に係る特徴情報IFは、第1画像及び第2画像で検出された全ての追跡対象の全ての特徴点のx座標及びy座標を含む情報となり、推論器へ入力するデータとして好適に用いられる。
ここで、特徴情報IFの要素として格納する各特徴点の座標値を定める基準となる座標系について補足説明する。
各特徴点の座標値は、画像の所定の位置を基準として定められる座標系(画像内での絶対座標系)に基づく座標値であってもよく、追跡対象毎の位置を基準として定められる座標系(画像内での追跡対象毎の相対座標系)に基づく座標値であってもよい。図10(A)は、特徴点の座標値を定める座標系の第1の例を示し、図10(B)は、特徴点の座標値を定める第2の例を示す。図10(A)の例では、各特徴点の座標値は、画像端(例えば左上端)を原点として横方向をx座標、縦方向をy座標とした座標系に基づく座標値となっており、追跡対象間において共通の座標系が用いられる。図10(B)では、追跡対象が2体存在し、夫々の追跡対象に対し、追跡対象の中心点(特徴点の重心位置)を原点として横方向をx座標、縦方向をy座標とした座標系が設定される。この場合、各特徴点の座標値は、追跡対象毎に定められる原点からのオフセットにより表現される。
次に、特徴情報IFの第2形式について説明する。第2形式は、各特徴点の座標の距離を成分として有するテンソルとすることで、「TF」に相当する次元を削減した形式であり、以下の形式のテンソルを示す。
N×M×(K×D)
第2形式では,
「N×M」が行列の大きさに対応し、(K×D)がチャンネル方向の大きさに対応する。
図11は、特徴情報の第2形式において、頭のx座標値に相当するチャンネルにおける行列を示す。図11に示される行列は、行数が第1画像での追跡対象の検出数Nに相当し、列数が第2画像での追跡対象の検出数Mに相当する行列となる。また、図11に示される行列の各成分は、行番号に対応する第1画像の追跡対象と列番号に対応する第2画像の追跡対象との、対象となる特徴点の座標値(ここでは頭のx座標値)の距離(即ち、差分の絶対値)を示している。図11の例では、行列の行番号を第1画像での検出番号に対応させ、かつ、列番号を第2画像での検出番号に対応させている。これにより、第1画像と第2画像との全ての追跡対象の組み合わせに係る頭のx座標値の距離を、行列において表現することが可能となる。
このように、第2形式に係る特徴情報IFは、第1画像及び第2画像で検出された全ての追跡対象の全ての特徴点のx座標及びy座標を加味した情報となり、第1形式と同様、推論器への入力データとして好適に用いられる。
(6-3)対応行列
次に、推論器が出力する対応行列について具体的に説明する。
図12(A)は、図8に示す第1画像及び第2画像に基づく特徴情報IFが入力された場合に推論器が出力する対応行列の第1の例を示す。また、図12(B)は、図8に示す第1画像及び第2画像に基づく特徴情報IFが入力された場合に推論器が出力する対応行列の第2の例を示す。ここでは、第1画像の歩行者に対して検出番号「1」、「2」、「3」が割り当てられ、第2画像の歩行者に対して検出番号「1a」、「2a」が割り当てられている。
図12(A)に示す第1の例では、推論器は、第1画像の検出番号「1」~「3」の歩行者と、第2画像の検出番号「1a」、「1b」の歩行者との対応の有無についての推論を行い、その推論結果を対応行列として出力する。この場合、対応行列は、第1画像での歩行者の検出数Nと第2画像での歩行者の検出数Mとに応じたサイズを有し、行番号が第1画像での歩行者の検出番号に対応し、列番号が第2画像での歩行者の検出番号に対応している。ここでは、第2画像の検出番号「1a」の歩行者は、第1画像の検出番号「1」の歩行者と対応する確からしさ(確信度)が最も高い「0.9」となっている。また、第2画像の検出番号「2a」の歩行者は、第1画像の検出番号「3」の歩行者と対応する確からしさが最も高い「0.8」となっている。なお、対応行列の各成分の最大値は1に限らず、任意の所定値であってもよい。
図12(A)に示される対応行列によれば、追跡装置3の追跡情報管理部39は、検出番号「1」の歩行者と、検出番号「1a」の歩行者とに対して同一の追跡IDを付し、検出番号「3」の歩行者と、検出番号「2a」の歩行者とに対して同一の追跡IDを付すべきことを好適に特定することができる。具体的には、追跡対象の検出数が少ない(検出数が同数の場合には任意の一方の)画像(ここでは第2画像)中の各追跡対象を対象に、最も確からしさが高い他方の画像(ここでは第1画像)中の追跡対象を夫々特定し、特定した追跡対象と同一の追跡IDを設定する。これにより、追跡情報管理部39は、同一の追跡IDを付すべき追跡対象を好適に特定可能となる。また、例えば、追跡情報管理部39は、第1画像のみに登場する追跡対象が存在する場合、当該追跡対象の追跡IDを消滅させ、第2画像のみに登場する追跡対象が存在する場合には、当該追跡対象の追跡IDを新規発行する。図12(C)の例では、追跡情報管理部39は、検出番号「2」の歩行者の追跡IDを消滅させる。なお、上述したReIDに基づき、一度撮影範囲から外れた追跡対象が再び撮影範囲内に進入した場合に当該追跡対象に同一の追跡IDを付す場合には、追跡情報管理部39は、追跡IDを消滅させることなく、追跡対象の同定に必要な情報と関連付けて記憶装置2等に記憶する。
このように、第1の例によれば、第1画像での追跡対象の各々と第2画像での追跡対象の各々とが対応する確からしさを示す各成分を含む対応行列を出力するモデルを推論器のモデルとして設定することで、追跡IDの管理に好適な情報を推論器に出力させることができる。なお、対応行列は、対応する確からしさを表す行列に加えて、対応しない確からしさを表す行列がチャンネル方向に重ねられた構造を有してもよい。この構造例については、図13(A)~(C)を参照して後述する。
図12(B)に示す対応行列の第2の例では、推論器は、第1画像の検出番号「1」~「3」の追跡対象と、第2画像の検出番号「1a」、「1b」の追跡対象との対応付け及び追跡対象の生成、消滅についての推論を行い、その推論結果を示す2つの対応行列を出力する。具体的には、推論器は、N×(M+1)の行列(「第1行列」とも呼ぶ。)と、(N+1)×Mの行列(「第2行列」とも呼ぶ。)とを夫々出力する。
ここで、第1行列は、図12(A)に示す対応行列に対し、第1画像における各追跡対象が第2画像において存在しないこと(即ち生成・消滅の発生)の確からしさを表す列を最後列として追加した行列となる。例えば、図8に示す第1画像及び第2画像では、第1画像に存在する検出番号「2」の歩行者が第2画像には存在しない確からしさが高いことから、検出番号「2」に対応する2番目の行に対応する追加した3番目の列の成分が「0.8」となっている。
また、第2行列は、図12(A)に示す対応行列に対し、第2画像における各追跡対象が第1画像において存在しないこと(即ち消滅・消滅の発生)の確からしさを表す行を追加した行列となる。例えば、図8に示す第1画像及び第2画像では、第2画像に存在する検出番号「1a」、「2a」の各歩行者は、いずれも第1画像において存在する確からしさが高いことから、追加した行の各成分は低い値(0.1)となっている。
このように、図12(B)に示す例によれば、追跡対象の生成又は消滅に関する確からしさの情報を的確に含む対応行列を出力することができる。
(6-4)推論器の学習
次に、学習部18による推論器の学習について説明する。
第1の学習仕様では、学習部18は、推論器が出力する対応行列に対し、対応する確からしさを表すチャンネル(「対応確率チャンネル」とも呼ぶ。)と、対応しない確からしさを表すチャンネル(「非対応確率チャンネル」とも呼ぶ。)とを設け、チャンネル方向に積算した各成分の確からしさが1になるように、推論器の学習を行う。対応確率チャンネルは、第1チャンネルの一例であり、非対応確率チャンネルは、第2チャンネルの一例である。
図13(A)は、図12(A)に示す形式の対応行列を推論器が出力する場合に、第1の学習仕様において正解として設定される対応行列の一例である。この場合、学習部18は、追跡紐付情報Irに基づき、第1画像及び第2画像での追跡対象の対応関係を認識し、対応確率チャンネル及び非対応確率チャンネルを含む正解の対応行列を設定する。この場合、図13(A)に示すように、N×M(ここでは、3×2)の対応行列の各要素は、対応確率チャンネルと非対応確率チャンネルとを有し、チャンネル方向に積算すると1になるように設定されている。また、この場合、推論器は、対応行列の各成分のチャンネル方向の積算値が1になるように、出力層としてsoftmax層などが設けられている。
図13(B)は、図12(B)に示す形式の対応行列を推論器が出力する場合に、第1の学習仕様において正解として設定される対応行列の第1行列の一例である。この場合、N×(M+1)(ここでは、3×3)の行列である第1行列の各要素は、対応確率チャンネルと非対応確率チャンネルとを有し、チャンネル方向に積算すると1になるように設定されている。図13(C)は、図12(B)に示す形式の対応行列を推論器が出力する場合に、第1の学習仕様において正解として設定される対応行列の第2行列の一例である。この場合、(N+1)×M(ここでは、4×2)の行列である第2行列の各要素は、対応確率チャンネルと非対応確率チャンネルとを有し、チャンネル方向に積算すると1になるように設定されている。また、この場合、推論器は、対応行列の各成分のチャンネル方向の積算値が1になるように、出力層としてsoftmax層などが設けられている。
そして、学習部18は、図13(A)に示す正解の対応行列、又は、図13(B)及び図13(C)に示す正解の対応行列を用いて、推論器の学習を行う。具体的には、学習部18は、第1学習画像及び第2学習画像に基づく特徴情報IFを推論器に入力し、推論器から出力された対応確率チャンネル及び非対応確率チャンネルを含む対応行列を取得する。そして、学習部18は、この対応行列と、対応確率チャンネル及び非対応確率チャンネルを含む正解の対応行列とに基づく損失が最小となるように、推論器の学習を行う。この場合の損失関数には、例えば、softmax cross entropyなどを用いる。このように、学習部18は、第1の学習仕様に基づき、好適に推論器の学習を行うことができる。
第2の学習仕様では、学習部18は、推論器が出力する対応行列について、行方向又は列方向に積算した場合に1となるように、推論器の学習を行う。第2の学習仕様では、図12(B)に示す形式の対応行列を前提とする。
図14(A)は、図12(B)に示す形式の対応行列を推論器が出力する場合に、第2の学習仕様において正解として設定される対応行列の第1行列の一例である。また、図14(B)は、図12(B)に示す形式の対応行列を推論器が出力する場合に、第2の学習仕様において正解として設定される対応行列の第2行列の一例である。図14(A)に示すように、第1行列では、少なくとも行毎の各成分の積算値が1になるように設定されている。一方、図14(B)に示すように、第2行列では、少なくとも列毎の各成分の積算値が1になるように設定されている。また、この場合、推論器は、第1行列の各行の積算値が1となり、第2行列の各列の積算値が1になるように、出力層としてsoftmax層などが用いられる。
そして、学習部18は、図14(A)に示す第1行列と、図14(B)に示す第2行列とのペアを正解の対応行列とみなし、推論器の学習を行う。この場合の損失関数には、例えば、softmax cross entropyなどを用いる。このようにすることで、学習部18は、第2の学習仕様においても、好適に推論器の学習を行うことができる。
(7)処理フロー
次に、学習装置1と追跡装置3が夫々実行する処理フローについて説明する。
(7-1)学習処理
図15は、学習装置1が実行する推論器の学習に関する処理手順を示すフローチャートの一例である。
まず、姿勢推定部15は、学習に用いられていない時系列の学習画像を追跡学習データ記憶部21から取得する(ステップS11)。この場合、姿勢推定部15は、例えば、学習画像として、学習に用いられていない画像の組み合わせであって、時系列に撮影された第1学習画像と第2学習画像とを、追跡学習データ記憶部21から抽出する。
次に、姿勢推定部15は、ステップS11で取得した時系列の学習画像に対して追跡対象の姿勢推定を行う(ステップS12)。この場合、姿勢推定部15は、時系列の学習画像の各々に対し、追跡対象毎に、予め定めた種類の特徴点の画像内での位置を推定することで、姿勢情報Ipを生成する。
次に、推定結果照合部16は、ステップS12で姿勢推定部15が生成した姿勢情報Ipを、追跡対象位置情報と照合することで、追跡紐付情報Irを生成する(ステップS13)。この場合、推定結果照合部16は、ステップS11で抽出した時系列の学習画像に含まれる追跡対象の位置を示す追跡対象位置情報を、追跡学習データ記憶部21から取得する。
また、特徴抽出部17は、ステップS12で姿勢推定部15が生成した姿勢情報Ipを、特徴情報IFに変換する(ステップS14)。なお、ステップS14の処理は、ステップS13と同時に行われてもよく、逆の順序により実行されてもよい。
次に、学習部18は、ステップS14で特徴抽出部17が生成した特徴情報IFと、ステップS13で推定結果照合部16が生成した追跡紐付情報Irとに基づき、推論器の学習を行う(ステップS15)。この場合、学習部18は、追跡紐付情報Irに基づき、図13(A)、図13(B)及び図13(C)、又は、図14(A)及び図14(B)のいずれかに示される形式の正解の対応行列を生成し、特徴情報IFを入力したときに推論器が出力する対応行列との損失が最小となるように、推論器のパラメータを決定する。そして、学習部18は、決定したパラメータを、パラメータ記憶部22に記憶する。
そして、学習装置1は、学習の終了条件を満たすか否か判定する(ステップS16)。例えば、学習装置1は、学習を終了すべき旨のユーザ入力等を検知した場合、又は、追跡学習データ記憶部21に記憶された全ての時系列の学習画像に対し、ステップS11~ステップS15の処理を実行した場合、終了条件を満たすと判定する。他の例では、学習装置1はステップS15で算出される損失が所定の閾値以下となった場合に、終了条件を満たすと判定する。さらに別の例では、学習装置1は、ステップS11~ステップS15を所定の規定回数繰り返した場合に、終了条件を満たすと判定する。そして、学習装置1は、学習の終了条件を満たす場合(ステップS16;Yes)、フローチャートの処理を終了する。一方、学習装置1は、学習の終了条件を満たさない場合(ステップS16;No)、ステップS11へ処理を戻す。
(7-2)追跡処理
図16は、追跡装置3が実行する追跡処理の手順を示すフローチャートの一例である。
まず、追跡装置3の姿勢推定部35は、処理すべき時系列の撮影画像が存在するか否か判定する(ステップS21)。この場合、姿勢推定部15は、例えば、撮影画像・追跡情報記憶部23に記憶された未処理の時系列の2枚の画像が存在するか否か判定する。そして、姿勢推定部15は、処理すべき時系列の撮影画像が存在すると判定した場合(ステップS21;Yes)、ステップS22へ処理を進める。一方、姿勢推定部15は、処理すべき時系列の撮影画像が存在しない場合(ステップS21;No)、引き続きステップS21の判定を継続する。
処理すべき時系列の撮影画像が存在する場合、姿勢推定部35は、これらの撮影画像に対して追跡対象の姿勢推定を行う(ステップS22)。この場合、姿勢推定部35は、時系列の撮影画像の各々に対し、追跡対象毎に、予め定めた種類の特徴点の画像内での位置を推定することで、姿勢情報Ipを生成する。
次に、特徴抽出部37は、ステップS22で姿勢推定部35が生成した姿勢情報Ipを、特徴情報IFに変換する(ステップS23)。そして、対応情報生成部38は、学習装置1が学習した推論器のパラメータに基づき構成した推論器を用いて、対応情報Icを生成する(ステップS24)。この場合、例えば、対応情報生成部38は、ステップS23で生成した特徴情報IFを推論器に入力することで推論器から出力される対応行列を示す情報を、対応情報Icとして取得する。
次に、追跡情報管理部39は、ステップS24において対応情報生成部38が生成した対応情報Icに基づき、対象の撮影画像中の各追跡対象に対して追跡IDの設定を行う(ステップS25)。この場合、追跡情報管理部39は、処理対象となる撮影画像の各々に存在した追跡対象に対し、追跡IDを割り当てる。また、追跡情報管理部39は、撮影画像間での追跡対象の消滅又は発生があったと判定した場合には、追跡IDの削除や新規発行などを行う。
そして、追跡情報管理部39は、設定した追跡IDに関する出力を行う(ステップS26)。例えば、追跡情報管理部39は、処理対象となった撮影画像に対し、ステップS25で設定した追跡IDに関する情報を、撮影画像・追跡情報記憶部23に記憶する。他の例では、追跡情報管理部39は、ステップS25での追跡IDの設定情報を、上位のアプリケーションの処理を行う他の処理部に供給してもよく、表示装置等に表示させてもよい。
そして、追跡装置3は、追跡処理を終了すべきか否か判定する(ステップS27)。例えば、追跡装置3は、追跡処理を終了すべき旨のユーザ入力があった場合、又は、追跡処理に関する所定の終了条件が満たされた場合、追跡処理を終了する。そして、追跡装置3は、追跡処理を終了すべきと判定した場合(ステップS27;Yes)、フローチャートの処理を終了する。一方、追跡装置3は、追跡処理を終了すべきでないと判定した場合(ステップS27;No)、ステップS21へ処理を戻す。
(8)技術的効果
第1実施形態における技術的効果について補足説明する。
一般に、物体・人の追跡では、物体・人同士の重なりなどが多発する混雑状況化においては、すれ違いによる追跡IDの移り変わり、物体・人同士の重なりに起因する特徴の変化による追跡IDの伝搬ミスが発生する。よって、このような混雑状況化においても頑健な追跡技術が必要とされる。これに対し、例えば、特許文献1では、追跡対象の姿勢推定を行った後、フレーム間関節点の距離などのルールベースでフレーム間の追跡対象の照合を行っていた。しかしながら、このようなルールベースでの照合の場合、姿勢推定に用いる姿勢推定器での推定ミスにより同一の追跡対象に対するマッチングミスが多発する可能性がある。言い換えると、姿勢推定ミスが発生しやすい混雑状況下においては、人の重なり等に起因してフレーム間において推定される姿勢が大きく異なる場合が生じ、同一の追跡対象に対して同一の追跡IDを付与できない場合が存在する。
以上を勘案し、本実施形態では、姿勢推定の結果を入力として対応関係を予測する推論器を学習により構築する。これにより、姿勢推定における推定ミスの傾向を考慮して、推論器の学習を行うことができるため、姿勢推定ミスにロバストな結果を出力する推論器を構築することができる。また、このような推論器を用いることで、追跡装置3は、追跡対象が画像内で混み合う混雑状況下においても、ロバストな追跡を行い、同一の追跡対象に対して適切に同一の追跡IDを付与することができる。
<第2実施形態>
図17は、第2実施形態に係る学習装置1Xの概略構成を示す。学習装置1Xは、主に、取得手段15Xと、推定結果照合手段16Xと、学習手段18Xとを備える。
取得手段15Xは、時系列に撮影された学習用の画像である第1学習画像及び第2学習画像と、当該第1学習画像及び第2学習画像の各々に含まれる追跡対象の位置又は姿勢に関する追跡対象位置情報と、追跡対象の識別情報とが関連付けられた追跡学習データを取得する。取得手段15Xは、第1実施形態においてインターフェース13を介して追跡学習データ記憶部21を参照する姿勢推定部15及び推定結果照合部16とすることができる。なお、取得手段15Xは、追跡学習データを参照できればよく、他の装置から受信してもよく、学習装置1Xに記憶された追跡学習データを抽出してもよい。また、「追跡対象の識別情報」は、第1実施形態の追跡IDに相当する。
推定結果照合手段16Xは、第1学習画像及び第2学習画像の各々から推定した追跡対象の姿勢を示す姿勢情報と、追跡対象位置情報とを照合することで、姿勢情報に追跡対象の識別情報を紐付ける。推定結果照合手段16Xは、第1実施形態における推定結果照合部16とすることができる。なお、学習装置1Xは、第1学習画像及び第2学習画像に基づき上記の姿勢情報を自ら生成してもよく、他の装置が第1学習画像及び第2学習画像に基づき生成した姿勢情報を取得してもよい。
学習手段18Xは、姿勢情報に基づく情報が入力された場合に、第1学習画像と第2学習画像とでの追跡対象の対応関係を示す対応情報を推論する推論器の学習を、姿勢情報と追跡対象の識別情報とに基づき行う。ここで、「姿勢情報に基づく情報」は、姿勢情報そのものであってもよく、姿勢情報を推論器へ入力可能なデータ形式に変更した情報(例えば第1実施形態における特徴情報IF)であってもよい。学習手段18Xは、第1実施形態における学習部18とすることができる。
図18は、第2実施形態において学習装置1Xが実行する処理手順を示すフローチャートの一例である。取得手段15Xは、時系列に撮影された学習用の画像である第1学習画像及び第2学習画像と、当該第1学習画像及び第2学習画像の各々に含まれる追跡対象の位置又は姿勢に関する追跡対象位置情報と、追跡対象の識別情報とが関連付けられた追跡学習データを取得する。(ステップS21)。推定結果照合手段16Xは、第1学習画像及び第2学習画像の各々から推定した追跡対象の姿勢を示す姿勢情報と、追跡対象位置情報とを照合することで、姿勢情報に追跡対象の識別情報を紐付ける(ステップS22)。学習手段18Xは、姿勢情報に基づく情報が入力された場合に、第1学習画像と第2学習画像とでの追跡対象の対応関係を示す対応情報を推論する推論器の学習を、姿勢情報と追跡対象の識別情報とに基づき行う(ステップS23)。
第2実施形態によれば、学習装置1Xは、時系列の画像において存在する追跡対象の対応関係を示す対応情報を推論する推論器の学習を、姿勢推定における推定ミスの傾向等を考慮して好適に実行することできる。
その他、上記の各実施形態(変形例を含む、以下同じ)の一部又は全部は、以下の付記のようにも記載され得るが以下には限られない。
[付記1]
時系列に撮影された学習用の画像である第1学習画像及び第2学習画像と、当該第1学習画像及び第2学習画像の各々に含まれる追跡対象の位置又は姿勢に関する追跡対象位置情報と、前記追跡対象の識別情報とが関連付けられた追跡学習データを取得する取得手段と、
前記第1学習画像及び第2学習画像の各々から推定した前記追跡対象の姿勢を示す姿勢情報と、前記追跡対象位置情報とを照合することで、前記姿勢情報に前記識別情報を紐付ける推定結果照合手段と、
前記姿勢情報に基づく情報が入力された場合に、前記第1学習画像と前記第2学習画像とでの前記追跡対象の対応関係を示す対応情報を推論する推論器の学習を、前記姿勢情報と前記識別情報とに基づき行う学習手段と、
を有する学習装置。
[付記2]
前記姿勢情報を、前記時系列の学習画像から検出された前記追跡対象の特徴点毎の位置を示す情報である特徴情報に変換する特徴抽出手段をさらに有し、
前記学習手段は、前記姿勢情報に基づく情報として、前記特徴情報を前記推論器に入力する、付記1に記載の学習装置。
[付記3]
前記特徴抽出手段は、前記第1学習画像での前記追跡対象の検出数と、前記第2学習画像での前記追跡対象の検出数と、前記特徴点の数とに基づく形式の前記特徴情報を生成する、付記2に記載の学習装置。
[付記4]
前記推論器は、畳み込み層を有するニューラルネットワークである、付記1~3のいずれか一項に記載の学習装置。
[付記5]
前記対応情報は、前記第1学習画像での前記追跡対象の各々と前記第2学習画像での前記追跡対象の各々とが対応する確からしさを示す各成分を含む行列を示す、付記1~4のいずれか一項に記載の学習装置。
[付記6]
前記行列は、前記第1学習画像と前記第2学習画像とにおける前記追跡対象の生成又は消滅の確からしさを示す行又は列をさらに有する、付記5に記載の学習装置。
[付記7]
前記学習手段は、前記行列の行又は列ごとの前記各成分の積算値が所定値になるように前記推論器の学習を行う、付記6に記載の学習装置。
[付記8]
前記行列は、前記第1学習画像での前記追跡対象の各々と前記第2学習画像での前記追跡対象の各々とが対応する確からしさを示す各成分を含む第1チャンネルと、前記第1学習画像での前記追跡対象の各々と前記第2学習画像での前記追跡対象の各々とが対応しない確からしさを示す各成分を含む第2チャンネルとを有し、
前記学習手段は、前記各成分のチャンネル方向の積算値が所定値となるように前記推論器の学習を行う、付記5または6に記載の学習装置。
[付記9]
前記追跡対象位置情報は、前記第1学習画像及び前記第2学習画像において前記追跡対象の各々の存在領域を示す情報である、または、前記第1学習画像及び前記第2学習画像において前記追跡対象の各々の特徴点の位置を示す情報である、付記1~8のいずれか一項に記載の学習装置。
[付記10]
前記第1学習画像及び第2学習画像に基づき、前記第1学習画像及び第2学習画像の各々に存在する前記追跡対象の姿勢を推定することで、前記姿勢情報を生成する姿勢推定手段をさらに有する、付記1~9のいずれか一項に記載の学習装置。
[付記11]
時系列に撮影された第1撮影画像及び第2撮影画像を取得する取得手段と、
前記第1撮影画像及び第2撮影画像に基づき、前記第1撮影画像及び第2撮影画像の各々に存在する前記追跡対象の姿勢の推定結果を示す姿勢情報を生成する姿勢推定手段と、
前記姿勢情報と、請求項1~10のいずれか一項に記載の学習装置により学習された推論器とに基づき、前記第1撮影画像と前記第2撮影画像とでの前記追跡対象の対応関係を示す対応情報を生成する対応情報生成手段と、
を有する追跡装置。
[付記12]
前記対応情報に基づき、前記追跡対象に割り当てる識別情報を管理する追跡情報管理手段をさらに有する、付記11に記載の学習装置。
[付記13]
コンピュータにより、
時系列に撮影された学習用の画像である第1学習画像及び第2学習画像と、当該第1学習画像及び第2学習画像の各々に含まれる追跡対象の位置又は姿勢に関する追跡対象位置情報と、前記追跡対象の識別情報とが関連付けられた追跡学習データを取得し、
前記第1学習画像及び第2学習画像の各々から推定した前記追跡対象の姿勢を示す姿勢情報と、前記追跡対象位置情報とを照合することで、前記姿勢情報に前記識別情報を紐付け、
前記姿勢情報に基づく情報が入力された場合に、前記第1学習画像と前記第2学習画像とでの前記追跡対象の対応関係を示す対応情報を推論する推論器の学習を、前記姿勢情報と前記識別情報とに基づき行う、
学習方法。
[付記14]
時系列に撮影された学習用の画像である第1学習画像及び第2学習画像と、当該第1学習画像及び第2学習画像の各々に含まれる追跡対象の位置又は姿勢に関する追跡対象位置情報と、前記追跡対象の識別情報とが関連付けられた追跡学習データを取得し、
前記第1学習画像及び第2学習画像の各々から推定した前記追跡対象の姿勢を示す姿勢情報と、前記追跡対象位置情報とを照合することで、前記姿勢情報に前記識別情報を紐付け、
前記姿勢情報に基づく情報が入力された場合に、前記第1学習画像と前記第2学習画像とでの前記追跡対象の対応関係を示す対応情報を推論する推論器の学習を、前記姿勢情報と前記識別情報とに基づき行う処理をコンピュータに実行させるプログラムを格納する記憶媒体。
[付記15]
コンピュータにより、
時系列に撮影された第1撮影画像及び第2撮影画像を取得し、
前記第1撮影画像及び第2撮影画像に基づき、前記第1撮影画像及び第2撮影画像の各々に存在する前記追跡対象の姿勢の推定結果を示す姿勢情報を生成し、
前記姿勢情報と、付記1~10のいずれか一項に記載の学習装置により学習された推論器とに基づき、前記第1撮影画像と前記第2撮影画像とでの前記追跡対象の対応関係を示す対応情報を生成する、
追跡方法。
[付記16]
時系列に撮影された第1撮影画像及び第2撮影画像を取得し、
前記第1撮影画像及び第2撮影画像に基づき、前記第1撮影画像及び第2撮影画像の各々に存在する前記追跡対象の姿勢の推定結果を示す姿勢情報を生成し、
前記姿勢情報と、付記1~10のいずれか一項に記載の学習装置により学習された推論器とに基づき、前記第1撮影画像と前記第2撮影画像とでの前記追跡対象の対応関係を示す対応情報を生成する処理をコンピュータに実行させるプログラムを格納する記憶媒体。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。すなわち、本願発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。また、引用した上記の特許文献等の各開示は、本書に引用をもって繰り込むものとする。
セーフティ事業における人物・物体の姿勢・動き追跡に好適に適用される。例えば、駅構内等での人の侵入検知及びカウント、集団スポーツにおける選手の行動自動モニタ、駅プラットフォームでのふらつき検知などの行動認識などに好適に適用される。
1、1X 学習装置
2 記憶装置
3 追跡装置
4 カメラ
11、31 プロセッサ
12、32 メモリ
13、33 インターフェース
21 追跡学習データ記憶部
22 パラメータ記憶部
23 撮影画像・追跡情報記憶部
100 追跡システム

Claims (10)

  1. 時系列に撮影された学習用の画像である第1学習画像及び第2学習画像と、当該第1学習画像及び第2学習画像の各々に含まれる追跡対象の位置又は姿勢に関する追跡対象位置情報と、前記追跡対象の識別情報とが関連付けられた追跡学習データを取得する取得手段と、
    前記第1学習画像及び第2学習画像の各々から推定した前記追跡対象の姿勢を示す姿勢情報と、前記追跡対象位置情報とを照合することで、前記姿勢情報に前記識別情報を紐付ける推定結果照合手段と、
    前記姿勢情報に基づく情報が入力された場合に、前記第1学習画像と前記第2学習画像とでの前記追跡対象の対応関係を示す対応情報を推論する推論器の学習を、前記姿勢情報と前記識別情報とに基づき行う学習手段と、
    を有する学習装置。
  2. 前記姿勢情報を、前記時系列の学習画像から検出された前記追跡対象の特徴点毎の位置を示す情報である特徴情報に変換する特徴抽出手段をさらに有し、
    前記学習手段は、前記姿勢情報に基づく情報として、前記特徴情報を前記推論器に入力する、請求項1に記載の学習装置。
  3. 前記特徴抽出手段は、前記第1学習画像での前記追跡対象の検出数と、前記第2学習画像での前記追跡対象の検出数と、前記特徴点の数とに基づく形式の前記特徴情報を生成する、請求項2に記載の学習装置。
  4. 前記推論器は、畳み込み層を有するニューラルネットワークである、請求項1~3のいずれか一項に記載の学習装置。
  5. 前記対応情報は、前記第1学習画像での前記追跡対象の各々と前記第2学習画像での前記追跡対象の各々とが対応する確からしさを示す各成分を含む行列を示す、請求項1~4のいずれか一項に記載の学習装置。
  6. 前記行列は、前記第1学習画像と前記第2学習画像とにおける前記追跡対象の生成又は消滅の確からしさを示す行又は列をさらに有する、請求項5に記載の学習装置。
  7. 前記学習手段は、前記行列の行又は列ごとの前記各成分の積算値が所定値になるように前記推論器の学習を行う、請求項6に記載の学習装置。
  8. 時系列に撮影された第1撮影画像及び第2撮影画像を取得する取得手段と、
    前記第1撮影画像及び第2撮影画像に基づき、前記第1撮影画像及び第2撮影画像の各々に存在する追跡対象の姿勢の推定結果を示す姿勢情報を生成する姿勢推定手段と、
    前記姿勢情報と、請求項1~のいずれか一項に記載の学習装置により学習された推論器とに基づき、前記第1撮影画像と前記第2撮影画像とでの前記追跡対象の対応関係を示す対応情報を生成する対応情報生成手段と、
    を有する追跡装置。
  9. コンピュータにより、
    時系列に撮影された学習用の画像である第1学習画像及び第2学習画像と、当該第1学習画像及び第2学習画像の各々に含まれる追跡対象の位置又は姿勢に関する追跡対象位置情報と、前記追跡対象の識別情報とが関連付けられた追跡学習データを取得し、
    前記第1学習画像及び第2学習画像の各々から推定した前記追跡対象の姿勢を示す姿勢情報と、前記追跡対象位置情報とを照合することで、前記姿勢情報に前記識別情報を紐付け、
    前記姿勢情報に基づく情報が入力された場合に、前記第1学習画像と前記第2学習画像とでの前記追跡対象の対応関係を示す対応情報を推論する推論器の学習を、前記姿勢情報と前記識別情報とに基づき行う、
    学習方法。
  10. 時系列に撮影された学習用の画像である第1学習画像及び第2学習画像と、当該第1学習画像及び第2学習画像の各々に含まれる追跡対象の位置又は姿勢に関する追跡対象位置情報と、前記追跡対象の識別情報とが関連付けられた追跡学習データを取得し、
    前記第1学習画像及び第2学習画像の各々から推定した前記追跡対象の姿勢を示す姿勢情報と、前記追跡対象位置情報とを照合することで、前記姿勢情報に前記識別情報を紐付け、
    前記姿勢情報に基づく情報が入力された場合に、前記第1学習画像と前記第2学習画像とでの前記追跡対象の対応関係を示す対応情報を推論する推論器の学習を、前記姿勢情報と前記識別情報とに基づき行う処理をコンピュータに実行させるプログラム
JP2022545169A 2020-08-27 2020-08-27 学習装置、学習方法、追跡装置及びプログラム Active JP7459949B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/032459 WO2022044222A1 (ja) 2020-08-27 2020-08-27 学習装置、学習方法、追跡装置及び記憶媒体

Publications (3)

Publication Number Publication Date
JPWO2022044222A1 JPWO2022044222A1 (ja) 2022-03-03
JPWO2022044222A5 JPWO2022044222A5 (ja) 2023-05-12
JP7459949B2 true JP7459949B2 (ja) 2024-04-02

Family

ID=80354923

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022545169A Active JP7459949B2 (ja) 2020-08-27 2020-08-27 学習装置、学習方法、追跡装置及びプログラム

Country Status (3)

Country Link
US (1) US20230326041A1 (ja)
JP (1) JP7459949B2 (ja)
WO (1) WO2022044222A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022096379A (ja) * 2020-12-17 2022-06-29 富士通株式会社 画像出力プログラム,画像出力方法および画像出力装置
US20220237414A1 (en) * 2021-01-26 2022-07-28 Nvidia Corporation Confidence generation using a neural network

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011102416A1 (ja) 2010-02-19 2011-08-25 株式会社 東芝 移動物体追跡システムおよび移動物体追跡方法
CN107563313A (zh) 2017-08-18 2018-01-09 北京航空航天大学 基于深度学习的多目标行人检测与跟踪方法
JP2018026108A (ja) 2016-08-08 2018-02-15 パナソニックIpマネジメント株式会社 物体追跡方法、物体追跡装置およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011102416A1 (ja) 2010-02-19 2011-08-25 株式会社 東芝 移動物体追跡システムおよび移動物体追跡方法
JP2018026108A (ja) 2016-08-08 2018-02-15 パナソニックIpマネジメント株式会社 物体追跡方法、物体追跡装置およびプログラム
CN107563313A (zh) 2017-08-18 2018-01-09 北京航空航天大学 基于深度学习的多目标行人检测与跟踪方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HENSCHEL, Roberto et al.,"Multiple People Tracking using Body and Joint Detections",2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW) [online],米国,IEEE,2020年04月09日,pp.770-779,[検索日 2020.11.13], インターネット:<URL: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9025639&isnumber=9025328>,DOI: 10.1109/CVPRW.2019.00105
LEAL-TAIXE, Laura et al.,"Learning by tracking: Siamese CNN for robust target association",arXiv.org [online],arXiv:1604.07866v3,Cornell University,2016年08月,[検索日 2020.11.13], インターネット:<URL: https://arxiv.org/pdf/1604.07866v3>

Also Published As

Publication number Publication date
WO2022044222A1 (ja) 2022-03-03
JPWO2022044222A1 (ja) 2022-03-03
US20230326041A1 (en) 2023-10-12

Similar Documents

Publication Publication Date Title
JP6832504B2 (ja) 物体追跡方法、物体追跡装置およびプログラム
JP7386545B2 (ja) 画像中の物体を識別するための方法、及び当該方法を実施するためのモバイル装置
Xiong et al. Transferable two-stream convolutional neural network for human action recognition
JP6614611B2 (ja) 画像間類似度を考慮して物体を追跡する装置、プログラム及び方法
WO2018228218A1 (zh) 身份识别方法、计算设备及存储介质
CN109325456B (zh) 目标识别方法、装置、目标识别设备及存储介质
JP5459674B2 (ja) 移動物体追跡システムおよび移動物体追跡方法
JP6933164B2 (ja) 学習用データ作成装置、学習用モデル作成システム、学習用データ作成方法、及びプログラム
JP7459949B2 (ja) 学習装置、学習方法、追跡装置及びプログラム
US11048917B2 (en) Method, electronic device, and computer readable medium for image identification
US11410327B2 (en) Location determination apparatus, location determination method and computer program
KR20220076398A (ko) Ar장치를 위한 객체 인식 처리 장치 및 방법
WO2019033567A1 (zh) 眼球动作捕捉方法、装置及存储介质
US11836944B2 (en) Information processing apparatus, information processing method, and storage medium
JP7065557B2 (ja) 人物を追跡する映像解析装置、プログラム及び方法
CN113326726A (zh) 行为识别方法、行为识别设备和计算机可读记录介质
JP6876312B1 (ja) 学習モデル生成方法、コンピュータプログラム及び情報処理装置
US11836960B2 (en) Object detection device, object detection method, and program
CN113553893A (zh) 基于深度神经网络的人体跌倒检测方法、装置和电子设备
JP7374632B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP2023008030A (ja) 画像処理システム、画像処理方法及び画像処理プログラム
Sandhiyasa et al. Real Time Face Recognition for Mobile Application Based on Mobilenetv2
JP6763408B2 (ja) 情報処理装置、情報処理方法、及び、プログラム
CN111061367B (zh) 一种自助设备手势鼠标的实现方法
US11645627B2 (en) Systems and methods for machine learning-informed automated recording of time activities with an automated electronic time recording system or service

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230224

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230224

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240304

R150 Certificate of patent or registration of utility model

Ref document number: 7459949

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150