JP7459949B2

JP7459949B2 - 学習装置、学習方法、追跡装置及びプログラム

Info

Publication number: JP7459949B2
Application number: JP2022545169A
Authority: JP
Inventors: 康敬馬場崎
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2020-08-27
Filing date: 2020-08-27
Publication date: 2024-04-02
Anticipated expiration: 2040-08-27
Also published as: WO2022044222A1; JPWO2022044222A1; US20230326041A1

Description

本開示は、学習装置、学習方法、追跡装置及び記憶媒体の技術分野に関する。

安全に関する分野では、人や物の追跡を時系列の画像間において行う技術が存在する。例えば、特許文献１には、動画像が入力された場合に、各画像における人の姿勢情報を認識し、姿勢の類似度に基づき、追跡処理を行う画像検索装置が開示されている。

特開２０１９－０９１１３８号公報

特許文献１のように、姿勢情報に基づき追跡処理を行う場合には、姿勢推定に誤差が生じた場合に追跡処理の精度が低下してしまうという問題があった。

本開示の目的は、上述した課題を鑑み、画像間での追跡対象の追跡に関する学習を好適に実行可能な学習装置、追跡装置、学習方法及び記憶媒体を提供することを主な課題とする。

学習装置の一の態様は、
時系列に撮影された学習用の画像である第１学習画像及び第２学習画像と、当該第１学習画像及び第２学習画像の各々に含まれる追跡対象の位置又は姿勢に関する追跡対象位置情報と、前記追跡対象の識別情報とが関連付けられた追跡学習データを取得する取得手段と、
前記第１学習画像及び第２学習画像の各々から推定した前記追跡対象の姿勢を示す姿勢情報と、前記追跡対象位置情報とを照合することで、前記姿勢情報に前記識別情報を紐付ける推定結果照合手段と、
前記姿勢情報に基づく情報が入力された場合に、前記第１学習画像と前記第２学習画像とでの前記追跡対象の対応関係を示す対応情報を推論する推論器の学習を、前記姿勢情報と前記識別情報とに基づき行う学習手段と、
を有する学習装置である。

学習方法の一の態様は、コンピュータにより、
時系列に撮影された学習用の画像である第１学習画像及び第２学習画像と、当該第１学習画像及び第２学習画像の各々に含まれる追跡対象の位置又は姿勢に関する追跡対象位置情報と、前記追跡対象の識別情報とが関連付けられた追跡学習データを取得し、
前記第１学習画像及び第２学習画像の各々から推定した前記追跡対象の姿勢を示す姿勢情報と、前記追跡対象位置情報とを照合することで、前記姿勢情報に前記識別情報を紐付け、
前記姿勢情報に基づく情報が入力された場合に、前記第１学習画像と前記第２学習画像とでの前記追跡対象の対応関係を示す対応情報を推論する推論器の学習を、前記姿勢情報と前記識別情報とに基づき行う、
学習方法である。

プログラムの一の態様は、
時系列に撮影された学習用の画像である第１学習画像及び第２学習画像と、当該第１学習画像及び第２学習画像の各々に含まれる追跡対象の位置又は姿勢に関する追跡対象位置情報と、前記追跡対象の識別情報とが関連付けられた追跡学習データを取得し、
前記第１学習画像及び第２学習画像の各々から推定した前記追跡対象の姿勢を示す姿勢情報と、前記追跡対象位置情報とを照合することで、前記姿勢情報に前記識別情報を紐付け、
前記姿勢情報に基づく情報が入力された場合に、前記第１学習画像と前記第２学習画像とでの前記追跡対象の対応関係を示す対応情報を推論する推論器の学習を、前記姿勢情報と前記識別情報とに基づき行う処理をコンピュータに実行させるプログラムである。

画像間での追跡対象の追跡に関する学習を好適に実行することができる。

実施形態における追跡システムの概略構成である。（Ａ）追跡学習データ記憶部が記憶する追跡学習データのデータ構造の一例を示す。（Ｂ）撮影画像・追跡情報記憶部が記憶するデータのデータ構造の一例を示す。（Ａ）学習装置のハードウェア構成の一例を示す。（Ｂ）追跡装置のハードウェア構成の一例を示す。学習装置の機能ブロックの一例を示す。追跡装置の機能ブロックの一例を示す。追跡対象位置情報が第１学習画像及び第２学習画像において追跡対象の各々の存在領域を示す場合の照合処理の概要を示す図である。追跡対象位置情報が第１学習画像及び第２学習画像において追跡対象の各々の特徴点の位置を示す場合の照合処理の概要を示す図である。特徴情報及び対応情報の生成処理に関する概要図を示す。（Ａ）特徴情報の第１形式において、第１画像での頭のｘ座標値に相当する相当するチャンネルにおける行列を示す。（Ｂ）特徴情報の第１形式において、第２画像での頭のｘ座標値に相当するチャンネルにおける行列を示す。（Ａ）特徴点の座標値を定める座標系の第１の例を示す。（Ｂ）特徴点の座標値を定める第２の例を示す。特徴情報の第２形式において、頭のｘ座標値に相当するチャンネルにおける行列を示す。（Ａ）図８に示す第１画像及び第２画像に基づく特徴情報が入力された場合に推論器が出力する対応行列の第１の例を示す。（Ｂ）図８に示す第１画像及び第２画像に基づく特徴情報が入力された場合に推論器が出力する対応行列の第２の例を示す。（Ａ）図１２（Ａ）に示す形式の対応行列を推論器が出力する場合に、第１の学習仕様において正解として設定される対応行列の一例である。（Ｂ）図１２（Ｂ）に示す形式の対応行列を推論器が出力する場合に、第１の学習仕様において正解として設定される対応行列の第１行列の一例である。（Ｃ）図１２（Ｂ）に示す形式の対応行列を推論器が出力する場合に、第１の学習仕様において正解として設定される対応行列の第２行列の一例である。（Ａ）図１２（Ｂ）に示す形式の対応行列を推論器が出力する場合に、第２の学習仕様において正解として設定される対応行列の第１行列の一例である。（Ｂ）図１２（Ｂ）に示す形式の対応行列を推論器が出力する場合に、第２の学習仕様において正解として設定される対応行列の第２行列の一例である。推論器の学習に関する処理手順を示すフローチャートの一例である。追跡処理の手順を示すフローチャートの一例である。第２実施形態に係る学習装置の概略構成を示す。第２実施形態において学習装置が実行する処理手順を示すフローチャートの一例である。

以下、図面を参照しながら、学習装置、追跡装置、学習方法及び記憶媒体の実施形態について説明する。

＜第１実施形態＞
（１）全体構成
図１は、第１実施形態における追跡システム１００の概略構成である。追跡システム１００は、物体の追跡を行うシステムである。追跡システム１００は、主に、物体の追跡に関する推論を行うモデルである推論器の学習を行う学習装置１と、追跡に必要な情報を記憶する記憶装置２と、追跡の実行及び管理を行う追跡装置３と、追跡の対象となる空間の撮影を行うカメラ４とを有する。

学習装置１は、記憶装置２の追跡学習データ記憶部２１が記憶する追跡学習データに基づいて、追跡に関する推論を行うモデルである推論器の学習を行い、学習により得られた推論器のパラメータをパラメータ記憶部２２に記憶する。

記憶装置２は、追跡学習データ記憶部２１と、パラメータ記憶部２２と、撮影画像・追跡情報記憶部２３とを有する。これらの各記憶部については後述する。なお、記憶装置２は、学習装置１又は追跡装置３に接続又は内蔵されたハードディスクなどの外部記憶装置であってもよく、フラッシュメモリなどの記憶媒体であってもよく、学習装置１及び追跡装置３とデータ通信を行うサーバ装置などであってもよい。また、記憶装置２は、複数の記憶装置から構成され、上述した各記憶部を分散して保有してもよい。

追跡装置３は、カメラ４が撮影した時系列の画像において被写体となる特定の物体（「追跡対象」とも呼ぶ。）の画像間での対応関係を特定し、画像間において共通する追跡対象に対して共通の識別情報（「追跡ＩＤ」とも呼ぶ。）を割り当てることで、追跡対象の管理を行う。ここで、追跡対象は、人全般であってもよく、特定の属性（例えば性別、年齢等）を有する人であってもよく、人以外の特定の種類の移動物（車両など）であってもよい。追跡装置３は、パラメータ記憶部２２が記憶するパラメータを参照することで、追跡対象の画像間での対応関係の推論を行うモデルである推論器を構成し、この推論器に基づき、追跡対象の画像間での対応関係を示す情報（「対応情報Ｉｃ」とも呼ぶ。）の推論を行う。

なお、図１に示される追跡システム１００の構成は一例であり、種々の変更が行われてもよい。例えば、学習装置１と、記憶装置２と、追跡装置３とのうち少なくとも２つが同一装置により実現されてもよい。他の例では、学習装置１と追跡装置３とは、夫々、複数の装置により構成されてもよい。この場合、学習装置１を構成する複数の装置及び追跡装置３を構成する複数の装置は、予め割り当てられた処理を実行するために必要な情報の授受を、有線又は無線での直接通信により又はネットワークを介した通信により装置間において行う。

（２）データ構造
次に、記憶装置２に記憶されるデータについて説明する。

追跡学習データ記憶部２１は、学習装置１による学習に用いられる学習用（訓練用）データである追跡学習データを記憶する。図２（Ａ）は、追跡学習データのデータ構造の一例を示す。図２（Ａ）に示すように、追跡学習データは、時系列の学習画像と、追跡対象位置情報と、追跡ＩＤとを少なくとも含んでいる。

学習画像は、時系列により撮影された画像である。なお、時系列の学習画像は、カメラのフレームレートに基づく間隔により生成された画像群であってもよく、当該画像群から所定間隔毎に抽出した画像により構成される画像群であってもよい。そして、時系列の学習画像の各画像において被写体となる各追跡対象には、追跡対象位置情報と追跡ＩＤとが関連付けられている。

追跡対象位置情報は、時系列の学習画像の各画像に含まれる追跡対象の位置に関する情報である。例えば、追跡対象位置情報は、時系列の学習画像の各画像に含まれる追跡対象の各々の画像内での存在領域を示す情報であってもよく、追跡対象の各々の画像内での特徴点の位置を示す情報であってもよい。ここで、「特徴点」は、追跡対象において特徴的な部位の位置であって、追跡対象とする物体の種類によって予め定められている。特徴点は、例えば、追跡対象が人の場合には、一般的に人が備える各関節の位置を示す。

パラメータ記憶部２２は、追跡装置３が使用する推論器を構成するために必要なパラメータを記憶する。推論器に用いる学習モデルは、ニューラルネットワークに基づく学習モデルであってもよく、サポートベクターマシーンなどの他の種類の学習モデルであってもよく、これらを組み合わせた学習モデルであってもよい。例えば、上述の推論器がニューラルネットワークに基づく構成を有する場合、パラメータ記憶部２２には、推論器の層構造、各層のニューロン構造、各層におけるフィルタ数及びフィルタサイズ、並びに各フィルタの各要素の重みなどの種々のパラメータの情報が記憶される。なお、好適には、推論器の学習モデルとして、畳み込み層を有するニューラルネットワークを用いるとよい。これにより、後述するように、画像間での追跡対象の全ての組み合わせの候補を考慮した的確な追跡対象の対応関係の把握を行うことが可能となる。

撮影画像・追跡情報記憶部２３は、追跡に用いる撮影画像及び当該画像から得られた追跡に関する情報を記憶する。図２（Ｂ）は、撮影画像・追跡情報記憶部２３が記憶するデータのデータ構造の一例を示す。図２（Ｂ）に示すように、撮影画像・追跡情報記憶部２３は、時系列の撮影画像と、姿勢情報と、追跡ＩＤとを少なくとも記憶する。

撮影画像は、カメラ４が時系列により生成した画像である。例えば、記憶装置２は、カメラ４から順次送信される画像を受信し、受信した画像を時系列の撮影画像として撮影画像・追跡情報記憶部２３に記憶する。なお、カメラ４が生成した画像を撮影画像・追跡情報記憶部２３に記憶する処理は、学習装置１又は追跡装置３等の他の装置を介して行われてもよい。そして、時系列の撮影画像の各画像において被写体となる各追跡対象には、追跡装置３により、以下の姿勢情報と追跡ＩＤとが関連付けられる。

姿勢情報は、時系列の撮影画像の各画像に含まれる追跡対象の各々の画像内での姿勢を示す情報である。姿勢情報は、時系列の撮影画像の各画像に含まれる追跡対象の各々の画像内での特徴点の位置を示す情報を含んでいる。追跡ＩＤは、追跡装置３が時系列の撮影画像の各画像に含まれる追跡対象に割り当てた識別情報である。なお、この追跡ＩＤは、追跡学習データに含まれる追跡ＩＤと整合していなくともよい。即ち、時系列の学習画像と時系列の撮影画像とで夫々同一の追跡対象が含まれている場合であっても、同一の追跡ＩＤが割り当てられる必要はない。

（３）ハードウェア構成
次に、学習装置１及び追跡装置３の各ハードウェア構成について説明する。

図３（Ａ）は、学習装置１のハードウェア構成の一例を示す。学習装置１は、ハードウェアとして、プロセッサ１１と、メモリ１２と、インターフェース１３とを含む。プロセッサ１１、メモリ１２、及びインターフェース１３は、データバス１９を介して接続されている。

プロセッサ１１は、メモリ１２に記憶されているプログラムを実行することにより、学習装置１の全体の制御を行うコントローラ（演算装置）として機能する。プロセッサ１１は、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＴＰＵ（ＴｅｎｓｏｒＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、量子プロセッサなどのプロセッサである。プロセッサ１１は、複数のプロセッサから構成されてもよい。プロセッサ１１は、コンピュータの一例である。

メモリ１２は、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フラッシュメモリなどの各種の揮発性メモリ及び不揮発性メモリにより構成される。また、メモリ１２には、学習装置１が実行する処理を実行するためのプログラムが記憶される。なお、メモリ１２が記憶する情報の一部は、学習装置１と通信可能な記憶装置２などの外部記憶装置により記憶されてもよく、学習装置１に対して着脱自在な記憶媒体により記憶されてもよい。また、メモリ１２は、記憶装置２が記憶する情報を代わりに記憶してもよい。

インターフェース１３は、学習装置１と他の装置とを電気的に接続するためのインターフェースである。これらのインターフェースは、他の装置とデータの送受信を無線により行うためのネットワークアダプタなどのワイアレスインタフェースであってもよく、他の装置とケーブル等により接続するためのハードウェアインターフェースであってもよい。

図３（Ｂ）は、追跡装置３のハードウェア構成の一例を示す。追跡装置３は、ハードウェアとして、プロセッサ３１と、メモリ３２と、インターフェース３３とを含む。プロセッサ３１、メモリ３２、及びインターフェース３３は、データバス３０を介して接続されている。

プロセッサ３１は、メモリ３２に記憶されているプログラムを実行することにより、追跡装置３の全体の制御を行うコントローラ（演算装置）として機能する。プロセッサ３１は、例えば、ＣＰＵ、ＧＰＵ、ＴＰＵ、量子プロセッサなどのプロセッサである。プロセッサ３１は、複数のプロセッサから構成されてもよい。プロセッサ３１は、コンピュータの一例である。

メモリ３２は、ＲＡＭ、ＲＯＭ、フラッシュメモリなどの各種の揮発性メモリ及び不揮発性メモリにより構成される。また、メモリ３２には、追跡装置３が実行する処理を実行するためのプログラムが記憶される。なお、メモリ３２が記憶する情報の一部は、追跡装置３と通信可能な記憶装置２などの外部記憶装置により記憶されてもよく、追跡装置３に対して着脱自在な記憶媒体により記憶されてもよい。また、メモリ３２は、記憶装置２が記憶する情報を代わりに記憶してもよい。

インターフェース３３は、追跡装置３と他の装置とを電気的に接続するためのインターフェースである。これらのインターフェースは、他の装置とデータの送受信を無線により行うためのネットワークアダプタなどのワイアレスインタフェースであってもよく、他の装置とケーブル等により接続するためのハードウェアインターフェースであってもよい。

なお、学習装置１及び追跡装置３のハードウェア構成は、図３（Ａ）及び図３（Ｂ）に示す構成に限定されない。例えば、学習装置１又は追跡装置３の少なくとも一方は、ディスプレイなどの表示部、キーボードやマウスなどの入力部、スピーカなどの音出力部などをさらに備えてもよい。

（４）機能ブロック
次に、追跡システム１００の機能的な構成について説明する。

（４－１）学習装置
図４は、学習装置１の機能ブロックの一例である。図４に示すように、学習装置１のプロセッサ１１は、機能的には、姿勢推定部１５と、推定結果照合部１６と、特徴抽出部１７と、学習部１８とを有する。なお、図４では、データの授受が行われるブロック同士を実線により結んでいるが、データの授受が行われるブロックの組合せは図４に限定されない。後述する他の機能ブロックの図においても同様である。

姿勢推定部１５は、インターフェース１３を介し、追跡学習データ記憶部２１から２枚分の時系列の学習画像を抽出し、抽出した画像に対し、追跡対象の検出及び検出した追跡対象の姿勢の推定を行う。この場合、姿勢推定部１５は、例えば、追跡学習データ記憶部２１に記憶された時系列の学習画像から、撮影時刻が早い順に２つの画像を順次抽出し、抽出した画像に対して夫々処理を行う。以後では、説明便宜上、撮影時刻「ｔ－δ」である「第１学習画像」と、撮影時刻「ｔ」である「第２学習画像」とが追跡学習データ記憶部２１から抽出された場合の処理について説明する。ｔ及びδは自然数である。

姿勢推定部１５は、第１学習画像と、第２学習画像とに対し、任意の姿勢推定技術を適用することで、処理対象の画像に夫々含まれる追跡対象の複数の特徴点で構成される姿勢情報「Ｉｐ」を生成する。入力画像から複数の特徴点で構成される姿勢情報を推定する技術は、例えば、特許文献１に開示されている。例えば、姿勢推定部１５は、深層学習等に基づき予め学習された姿勢推定器のパラメータが記憶装置２又はメモリ１２等に記憶されている場合には、当該パラメータを参照することで構成した姿勢推定器を用いてもよい。この場合、姿勢推定部１５は、姿勢推定器に第１学習画像及び第２学習画像を夫々入力することで姿勢推定器から出力される追跡対象の特徴点に関する情報を、姿勢情報Ｉｐとして取得する。姿勢推定部１５は、生成した姿勢情報Ｉｐを、推定結果照合部１６及び特徴抽出部１７に夫々供給する。

推定結果照合部１６は、第１学習画像及び第２学習画像に夫々含まれる追跡対象に関する追跡対象位置情報及び追跡ＩＤを追跡学習データ記憶部２１から抽出し、抽出した追跡対象位置情報と、姿勢推定部１５から供給される姿勢情報Ｉｐとの照合を行う。これにより、推定結果照合部１６は、第１学習画像及び第２学習画像に含まれる各追跡対象の姿勢を示す姿勢情報Ｉｐに対し、最もマッチした追跡対象位置情報に対応する追跡ＩＤを紐付ける。この場合、好適には、姿勢推定器が対象を検出できない可能性および学習データセットに存在しない対象を検出する可能性を考慮し、推定結果照合部１６は、所定の基準を満たした姿勢情報Ｉｐに対し、最もマッチした追跡対象位置情報に対応する追跡ＩＤを紐付けるとよい。ここで、「所定の基準」とは、例えば、
（１）正解の矩形領域に対して、検出した特徴点は最低「Ｎ」（Ｎは正の整数）数以上含まれている
（２）正解の特徴点位置と予測の特徴点位置の距離は「Ｌ」（Ｌは正数）以下である
などが該当する。「Ｎ」、「Ｌ」の情報は、例えば、予めメモリ１２又は記憶装置２に記憶されている。この場合、所定の基準を満たさなかったことにより追跡ＩＤの紐付けがなされなかった姿勢情報Ｉｐは、学習部１８の処理において用いられない。推定結果照合部１６は、姿勢情報Ｉｐと追跡ＩＤとの関係を紐付ける情報（「追跡紐付情報Ｉｒ」とも呼ぶ。）を、学習部１８に供給する。例えば、追跡対象毎の姿勢情報Ｉｐを識別するための画像ごとの通し番号（例えば後述の検出番号）が追跡対象毎の姿勢情報Ｉｐに付加されている場合には、追跡紐付情報Ｉｒは、この通し番号と、追跡ＩＤとの対応関係を画像毎に示したテーブル情報であってもよい。なお、推定結果照合部１６による追跡対象位置情報と姿勢情報Ｉｐとの照合処理の詳細については、「（５）推定結果の照合」のセクションにおいて詳しく説明する。

特徴抽出部１７は、姿勢推定部１５から供給される姿勢情報Ｉｐに基づき、各追跡対象の特徴を表す情報（「特徴情報ＩＦ」とも呼ぶ。）を生成する。この特徴情報ＩＦは、推論器に入力される入力形式に姿勢情報Ｉｐを変換した情報に相当する。特徴抽出部１７は、後述するように、第１学習画像での追跡対象の検出数と、第２学習画像での追跡対象の検出数と、各追跡対象が有する特徴点の数（即ち検出対象となる特徴点の種類の数）とに基づく形式の特徴情報ＩＦを生成する。特徴抽出部１７は、生成した特徴情報ＩＦを、学習部１８に供給する。特徴情報ＩＦについては、「（６）特徴情報及び行列情報の生成」のセクションにおいて詳しく説明する。また、特徴抽出部１７は、画像毎の各追跡対象に対して割り当てる後述の検出番号と、追跡ＩＤとの対応関係を示す情報を、学習部１８に供給する。

学習部１８は、推定結果照合部１６から供給される追跡紐付情報Ｉｒと、特徴抽出部１７から供給される特徴情報ＩＦとに基づき、推論器の学習を行い、学習により得られた推論器のパラメータを、パラメータ記憶部２２に記憶する。この場合、学習部１８は、第１学習画像及び第２学習画像での追跡対象の正解の対応関係を追跡紐付情報Ｉｒに基づき認識する。そして、学習部１８は、特徴情報ＩＦを推論器の入力データとし、かつ、上記の正解の対応関係を示す対応情報Ｉｃを推論器が出力すべき正解データとして用いることで、推論器の学習を行う。この場合、学習部１８は、上記の入力データを推論器に入力した場合に、上記の正解データに対する推論器の推論結果の損失が最小となるように推論器の学習を行う。なお、損失を最小化するように上述のパラメータを決定するアルゴリズムは、勾配降下法や誤差逆伝播法などの機械学習において用いられる任意の学習アルゴリズムであってもよい。学習部１８による学習については、「（６）特徴情報及び行列情報の生成」のセクションにおいて詳しく説明する。

ここで、図４において説明したプロセッサ１１の各構成要素（姿勢推定部１５、推定結果照合部１６、特徴抽出部１７及び学習部１８）は、例えば、プロセッサ１１がプログラムを実行することによって実現できる。また、必要なプログラムを任意の不揮発性記憶媒体に記録しておき、必要に応じてインストールすることで、各構成要素を実現するようにしてもよい。なお、これらの各構成要素の少なくとも一部は、プログラムによるソフトウェアで実現することに限ることなく、ハードウェア、ファームウェア、及びソフトウェアのうちのいずれかの組合せ等により実現してもよい。また、これらの各構成要素の少なくとも一部は、例えばＦＰＧＡ（field-programmable gate array）又はマイクロコントローラ等の、ユーザがプログラミング可能な集積回路を用いて実現してもよい。この場合、この集積回路を用いて、上記の各構成要素から構成されるプログラムを実現してもよい。また、各構成要素の少なくとも一部は、ＡＳＳＰ（Application Specific Standard Produce）やＡＳＩＣ（Application Specific Integrated Circuit）により構成されてもよい。このように、上述の各構成要素は、種々のハードウェアにより実現されてもよい。さらに、これらの各構成要素は，例えば，クラウドコンピューティング技術などを用いて、複数のコンピュータの協働によって実現されてもよい。以上のことは、後述する他の実施の形態においても同様である。

（４－２）追跡装置
図５は、追跡装置３の機能ブロックの一例である。図５に示すように、追跡装置３のプロセッサ３１は、機能的には、姿勢推定部３５と、特徴抽出部３７と、対応情報生成部３８と、追跡情報管理部３９とを有する。

姿勢推定部３５は、インターフェース３３を介し、撮影画像・追跡情報記憶部２３から２枚分の時系列の撮影画像を抽出し、抽出した各撮影画像に対し、追跡対象の検出及び検出した追跡対象の姿勢の推定を行う。以後では、姿勢推定部３５が撮影画像・追跡情報記憶部２３から抽出した２枚分の時系列の撮影画像を、夫々、撮影時刻順に、「第１撮影画像」、「第２撮影画像」と呼ぶ。そして、姿勢推定部３５は、第１撮影画像と、第２撮影画像とに対し、任意の姿勢推定技術を適用することで、第１撮影画像及び第２撮影画像に夫々含まれる追跡対象の複数の特徴点で構成される姿勢情報Ｉｐを生成する。姿勢推定部３５は、生成した姿勢情報Ｉｐを、特徴抽出部３７及び追跡情報管理部３９に夫々供給する。

ここで、追跡装置３が処理対象とする第１撮影画像及び第２撮影画像の選択について補足説明する。例えば、追跡装置３は、前回の処理において第２撮影画像として選択した画像を、次の処理において第１撮影画像とし、当該第１撮影画像の後に撮影された画像を第２撮影画像として選択する。このように、追跡装置３は、１枚分重複させながら、時系列の撮影画像から第１撮影画像及び第２撮影画像を順次選択することで、任意の撮影時間長となる時系列の撮影画像群における追跡対象の追跡を行う。なお、追跡装置３は、撮影画像・追跡情報記憶部２３に記憶された時系列の撮影画像から、所定間隔により間引いた画像を、第１撮影画像及び第２撮影画像として順次選択してもよい。

特徴抽出部３７は、姿勢推定部３５から供給される姿勢情報Ｉｐに基づき、特徴情報ＩＦを生成する。特徴抽出部３７が実行する処理は、特徴抽出部１７が実行する処理と同一のため、その説明を省略する。

対応情報生成部３８は、パラメータ記憶部２２から抽出したパラメータに基づき、学習装置１が学習した推論器を構成し、構成した推論器に特徴情報ＩＦを入力することで、第１撮影画像及び第２撮影画像での追跡対象の対応関係を示す対応情報Ｉｃを生成する。そして、対応情報生成部３８は、生成した対応情報Ｉｃを、追跡情報管理部３９に供給する。

追跡情報管理部３９は、対応情報生成部３８から供給される対応情報Ｉｃに基づき、姿勢推定部３５から供給される姿勢情報Ｉｐに追跡ＩＤの対応付けを行い、対応付けた姿勢情報Ｉｐを撮影画像・追跡情報記憶部２３に記憶する。この場合、追跡情報管理部３９は、追跡ＩＤの発行（新規追加）、更新、削除などを行う。例えば、第１撮影画像または第２撮影画像において、追跡ＩＤが割り当てられていない追跡対象が存在する場合、当該追跡対象に対して、新規の追跡ＩＤを発行し、当該追跡対象の姿勢情報Ｉｐに対して、新規に発行した追跡ＩＤを対応付けて撮影画像・追跡情報記憶部２３に記憶する。他の例では、追跡情報管理部３９は、第１撮影画像において存在した追跡対象が第２撮影画像において存在しなくなったとき、第１撮影画像において存在した追跡対象に割り当てた追跡ＩＤの削除を行う。

ここで、追跡ＩＤは、追跡対象ごとに固有のＩＤとなる必要はなく、カメラ４の撮影対象範囲内に連続して存在する撮影期間において同一の追跡ＩＤが割り当てられていればよい。例えば、追跡対象がカメラ４の撮影対象範囲から出た後で再び撮影対象範囲内に進入した場合には、追跡情報管理部３９は、当該追跡対象に対して異なる追跡ＩＤを割り当ててもよい。

一方、追跡情報管理部３９は、追跡対象ごとに固有のＩＤとなるように追跡ＩＤの割り当て管理を行ってもよい。この場合、追跡情報管理部３９は、追跡対象を識別するための特徴情報（例えば顔の特徴情報等）を撮影画像・追跡情報記憶部２３に記憶しておき、この特徴情報をさらに参照することで、第１撮影画像で存在せずに第２撮影画像に出現した追跡対象が、既に追跡ＩＤを割り当てられているか否かの判定等を行う。この場合、追跡情報管理部３９は、Ｒｅ－Ｉｄｅｎｔｉｆｉｃａｔｉｏｎ（ＲｅＩＤ）において用いられる任意の技術を用いて、追跡対象の同定を行ってもよい。

ここで、図５において説明したプロセッサ３１の各構成要素（姿勢推定部３５、特徴抽出部３７、対応情報生成部３８及び追跡情報管理部３９）は、例えば、プロセッサ３１がプログラムを実行することによって実現できる。また、必要なプログラムを任意の不揮発性記憶媒体に記録しておき、必要に応じてインストールすることで、各構成要素を実現するようにしてもよい。なお、これらの各構成要素の少なくとも一部は、プログラムによるソフトウェアで実現することに限ることなく、ハードウェア、ファームウェア、及びソフトウェアのうちのいずれかの組合せ等により実現してもよい。また、これらの各構成要素の少なくとも一部は、例えばＦＰＧＡ又はマイクロコントローラ等の、ユーザがプログラミング可能な集積回路を用いて実現してもよい。この場合、この集積回路を用いて、上記の各構成要素から構成されるプログラムを実現してもよい。また、各構成要素の少なくとも一部は、ＡＳＳＰやＡＳＩＣにより構成されてもよい。このように、上述の各構成要素は、種々のハードウェアにより実現されてもよい。以上のことは、後述する他の実施の形態においても同様である。

（５）推定結果の照合
次に、推定結果照合部１６が実行する処理について詳しく説明する。以後では、追跡対象位置情報が、第１学習画像及び第２学習画像において追跡対象の各々の存在領域を示す場合と、第１学習画像及び第２学習画像において追跡対象の各々の特徴点の位置を示す場合（即ち姿勢情報である場合）とに分けて説明する。

図６は、追跡対象位置情報が第１学習画像及び第２学習画像において追跡対象の各々の存在領域を示す場合の推定結果照合部１６の照合処理の概要を示す図である。ここでは、追跡対象は、人であるものとし、第１学習画像には、追跡ＩＤ「１」～「３」が夫々割り当てられた歩行者が存在し、第２学習画像には、追跡ＩＤ「１」と追跡ＩＤ「３」が夫々割り当てられた歩行者が存在している。

図６の上段は、追跡学習データ記憶部２１に記憶された追跡対象位置情報と追跡ＩＤとを明示した第１学習画像及び第２学習画像を示す。図６の上段では、追跡対象位置情報が示す追跡対象の各々の存在領域が、矩形枠４０～４４により第１学習画像及び第２学習画像上において明示されている。また、図６の下段は、姿勢情報Ｉｐが示す特徴点（ここでは関節点）の位置を明示した第１学習画像及び第２学習画像を示す。図６の下段では、追跡対象毎に推定された関節点の位置が、追跡対象毎の推定関節点群４５～４９により第１学習画像及び第２学習画像上において明示されている。また、図６の下段には、矩形枠４０～４４と同一位置に配置された破線の矩形枠４０ａ～４４ａが、第１学習画像及び第２学習画像上において明示されている。

この場合、推定結果照合部１６は、姿勢情報Ｉｐが示す各追跡対象の関節点の推定位置を示す推定関節点群４５～４９と、追跡対象位置情報が示す追跡対象の各々の存在領域を示す矩形枠４０ａ～４４ａとの位置関係に基づき、追跡紐付情報Ｉｒを生成する。具体的には、推定結果照合部１６は、推定関節点群４５～４９の各々について、個々の推定関節点が最も多く含まれている矩形枠４０ａ～４４ａを多数決により決定する。例えば、推定関節点群４５が示す全１２個の関節点は、全て矩形枠４０ａに含まれていることから、推定結果照合部１６は、推定関節点群４５に対し、多数決により決定した矩形枠４０ａに対応する追跡ＩＤ「１」を紐付ける。同様に、推定結果照合部１６は、各推定関節点群４６～４９について、学習画像毎の各矩形枠に含まれる数の多数決を行うことで、各推定関節点群４６～４９に対し、夫々、追跡ＩＤ「３」、「２」、「１」、「３」を夫々紐付ける。そして、推定結果照合部１６は、全ての推定関節点群４５～４９に対する追跡ＩＤの紐付け結果を示す追跡紐付情報Ｉｒを生成する。

このように、推定結果照合部１６は、追跡対象位置情報が追跡対象の各々の存在領域を示す場合に、追跡紐付情報Ｉｒを好適に生成することができる。なお、追跡対象位置情報が示す追跡対象の各々の存在領域は、矩形領域に限らず、任意の形状の領域であってもよい。また、好適には、推定結果照合部１６は、姿勢推定器が対象を検出できない可能性および学習データセットに存在しない対象を検出する可能性を考慮し、推定結果照合部１６は、上述した「所定の基準」を満たした姿勢情報Ｉｐに対してのみ、追跡ＩＤの紐付け処理を行うとよい。

図７は、追跡対象位置情報が第１学習画像及び第２学習画像において追跡対象の各々の特徴点の位置を示す場合の推定結果照合部１６の照合処理の概要を示す図である。図７に示す第１学習画像及び第２学習画像は、図６に示す第１学習画像及び第２学習画像と同一である。

図７の上段では、追跡対象位置情報が示す追跡対象の各々の関節点の位置が、追跡対象毎の点群５０～５４により第１学習画像及び第２学習画像上において明示されている。

この場合、推定結果照合部１６は、姿勢情報Ｉｐが示す各追跡対象の関節点の推定位置を示す推定関節点群４５～４９と、追跡対象位置情報が示す各追跡対象の関節点の正解位置を示す正解関節点群５０～５４との位置関係に基づき、追跡紐付情報Ｉｒを生成する。具体的には、推定結果照合部１６は、学習画像毎及び追跡対象毎に、追跡対象位置情報が示す正解関節点群と、推定関節点群の各々との対応する関節点同士の距離の合計値を算出し、当該合計値が最も小さい推定関節点群に対し、追跡対象の追跡ＩＤを紐付ける。例えば、推定結果照合部１６は、第１学習画像において、追跡ＩＤ「１」に紐付ける推定関節点群を特定する場合、追跡ＩＤ「１」に対応する正解関節点群５０と、第１学習画像内の推定関節点群４５～４７の各々との関節点毎の距離の合計値を算出する。そして、推定結果照合部１６は、最も合計値が小さくなる推定関節点群４５に対し、正解関節点群５０に対応する追跡ＩＤ「１」を紐付ける。同様に、推定結果照合部１６は、正解関節点群５１～５４に対して最も上記合計値が小さくなる推定関節点群４６～４９を夫々特定し、推定関節点群４６～４９に対して夫々追跡ＩＤ「３」、「２」、「１」、「３」を夫々紐付ける。そして、推定結果照合部１６は、全ての推定関節点群４５～４９に対する追跡ＩＤの紐付け結果に基づき、追跡紐付情報Ｉｒを生成する。

このように、推定結果照合部１６は、追跡対象位置情報が追跡対象の各々の姿勢情報を示す場合であっても、追跡紐付情報Ｉｒを好適に生成することができる。また、好適には、推定結果照合部１６は、姿勢推定器が対象を検出できない可能性および学習データセットに存在しない対象を検出する可能性を考慮し、推定結果照合部１６は、上述した「所定の基準」を満たした姿勢情報Ｉｐに対してのみ、追跡ＩＤの紐付け処理を行うとよい。

（６）特徴情報及び行列情報の生成
（６－１）概要
図８は、学習装置１及び追跡装置３が実行する特徴情報ＩＦ及び対応情報Ｉｃの生成処理に関する概要図を示す。まず、学習装置１が行う処理を前提として説明を行う。

学習装置１の特徴抽出部１７は、姿勢推定部１５から供給される姿勢情報Ｉｐを、所定形式のテンソルへ変換した特徴情報ＩＦを生成する。なお、図８では、姿勢情報Ｉｐとして、追跡対象となる各歩行者の関節点を、撮影時刻ｔ－δの画像（第１学習画像）及び撮影時刻ｔの画像（第２学習画像）上において明示している。また、ここでは、説明便宜上、各追跡対象に対して画像毎の検出番号「１」～「３」、「１ａ」～「２ａ」を付している。なお、検出番号は、例えば、画像毎に各追跡対象に対して所定の規則（例えば画像内の各追跡対象の中心座標と原点との距離）に基づき割り当てられた番号であり、追跡ＩＤと整合しなくともよい。

ここで、図８に示すように、特徴情報ＩＦは、画像毎に、追跡対象の各特徴点（ここでは、頭、右手等）の画像内でのｘ座標値及びｙ座標値を、第１学習画像及び第２学習画像での追跡対象の各検出数と、特徴点の数とに基づく形式に表したものである。上記の「座標値」は、ピクセル単位に基づく横又は縦方向の位置を表す値であってもよく、サブピクセル単位に基づく横又は縦方向の位置を示す値であってもよい。特徴情報ＩＦの形式については後述する。

そして、学習部１８は、特徴抽出部１７が生成した特徴情報ＩＦを、推論器に入力する。この場合、推論器は、第１学習画像における追跡対象と、第２学習画像における追跡対象との対応を確からしさにより示した対応行列を出力する。そして、学習部１８は、この対応行列と、追跡紐付情報Ｉｒに基づき生成した正解の対応行列との損失が最小化するように、推論器のパラメータを決定する。

ここで、好適には、推論器として学習されるモデルは、畳み込みニューラルネットワーク（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）等に基づくモデルである。このように、畳み込みニューラルネットワークを推論器として学習させることで、畳み込み層の存在により、画像間での追跡対象の全ての組み合わせの候補を考慮した的確な追跡対象の対応関係の把握を行うことが可能となる。

好適な例では、検出番号は、疑似乱数を基にしてランダムに割り当てられた番号であってもよい。これにより、正解として設定される対応行列が同じ成分配置（例えば、対角行列）になることに起因して学習段階に不具合が生じるのを防ぐことができる。
ここで、検出番号を、疑似乱数を基にしてランダムに割り当てられた番号とする場合の処理について補足説明する。この場合、学習装置１は、以下の４つの手順を行う。
手順１．特徴抽出部１７は、検出した姿勢情報Ｉｐにある所定の規則（例えば、画像上の原点に近い順）で番号を振る（このときの番号を「仮検出番号」と呼ぶ。）。
手順２．推定結果照合部１６は、仮検出番号と追跡ＩＤとの紐付けを行い、追跡紐付情報Ｉｒを生成する。
手順３．特徴抽出部１７は、ランダムに割り当てた検出番号を生成し、手順１で振った仮検出番号とランダムに割り当てた検出番号との対応情報（「番号対応情報Ｉｎ」とも呼ぶ。）を生成する。この場合、特徴抽出部１７は、推論器へ入力する行列である特徴情報ＩＦを、ランダムに割り当てた検出番号を基に情報を配置して作成する。
手順４．学習部１８は、追跡紐付情報Ｉｒと番号対応情報Ｉｎを用いて、ランダムに割り当てた検出番号と追跡IDの紐付けを行い、正解の対応行列を作成する。

次に、追跡装置３による特徴情報ＩＦ及び対応情報Ｉｃの生成処理について説明する。追跡装置３の特徴抽出部３７は、第１撮影画像及び第２撮影画像に基づき生成された姿勢情報Ｉｐを、所定形式のテンソルへ変換した特徴情報ＩＦを生成する。この特徴情報ＩＦは、画像毎に、追跡対象の各特徴点の画像内でのｘ座標値及びｙ座標値を、第１撮影画像及び第２撮影画像での追跡対象の各検出数と、特徴点の数とに基づく形式に表したものとなる。

そして、対応情報生成部３８は、パラメータ記憶部２２を参照することで推論器を構成し、当該推論器に対し、特徴抽出部３７が生成した特徴情報ＩＦを入力する。これにより、推論器は、第１撮影画像における追跡対象と、第２撮影画像における追跡対象との対応を確からしさにより示した対応行列を出力する。そして、対応情報生成部３８は、この対応行列を、対応情報Ｉｃとして追跡情報管理部３９に供給する。

（６－２）特徴情報の形式
次に、特徴情報ＩＦのデータ構造（形式）について説明する。特徴情報ＩＦのデータ構造は、以下に述べる第１形式又は第２形式のいずれであってもよい。なお、学習装置１及び追跡装置３が扱う特徴情報ＩＦの形式は共通であるため、以後では、説明便宜上、「第１画像」と「第２画像」は、第１学習画像と第２学習画像の組、又は、第１撮影画像と第２撮影画像の組のいずれかを示すものとする。

第１形式は、図８に示した特徴情報ＩＦの形式であり、第１画像での追跡対象の検出数を「Ｎ」、第２画像での追跡対象の検出数を「Ｍ」、対象とする画像の数を「ＴＦ」、特徴点（関節点）の種類数を「Ｋ」、画像の次元数を「Ｄ」とすると、以下の形式のテンソルを示す。
Ｎ×Ｍ×（ＴＦ×Ｋ×Ｄ）
ここで、「ＴＦ」は、対象とする画像の数が第１画像と第２画像の２枚であるため「２」となり、「Ｄ」は、画像の次元がｘ座標とｙ座標の２次元であるため「２」となる。また、図８では、第１画像での追跡対象の検出数Ｎは「３」となり、第２画像での追跡対象の検出数Ｍは「２」となる。また、ここでは、一例として、「Ｎ×Ｍ」が行列の大きさに対応し、（ＴＦ×Ｋ×Ｄ）がチャンネル方向の大きさに対応するものとする。

図９（Ａ）は、第１形式において、第１画像での特徴点の座標値（ここでは頭のｘ座標値）に相当するチャンネルにおける行列を示し、図９（Ｂ）は、第１形式において、第２画像での特徴点の座標値（ここでは頭のｘ座標値）に相当するチャンネルにおける行列を示す。図９（Ａ）、（Ｂ）に示される行列は、いずれも、行数が第１画像での追跡対象の検出数Ｎに相当し、列数が第２画像での追跡対象の検出数Ｍに相当する行列となる。そして、図９（Ａ）に示す行列の各行は、第１画像での追跡対象の検出番号に順に対応しており、対応する検出番号に応じた追跡対象の特徴点の座標値を格納している。また、図９（Ａ）に示す行列は、列毎に同一の値（即ち同一の行の各成分には全て同一の値）が格納されている。一方、図９（Ｂ）に示す行列の各列は、第２画像での追跡対象の検出番号に順に対応しており、対応する検出番号に応じた追跡対象の特徴点の座標値を格納している。また、図９（Ｂ）に示す行列は、行毎に同一の値（即ち同一の列の各成分には全て同一の値）が格納されている。

このように、第１形式に係る特徴情報ＩＦは、第１画像及び第２画像で検出された全ての追跡対象の全ての特徴点のｘ座標及びｙ座標を含む情報となり、推論器へ入力するデータとして好適に用いられる。

ここで、特徴情報ＩＦの要素として格納する各特徴点の座標値を定める基準となる座標系について補足説明する。

各特徴点の座標値は、画像の所定の位置を基準として定められる座標系（画像内での絶対座標系）に基づく座標値であってもよく、追跡対象毎の位置を基準として定められる座標系（画像内での追跡対象毎の相対座標系）に基づく座標値であってもよい。図１０（Ａ）は、特徴点の座標値を定める座標系の第１の例を示し、図１０（Ｂ）は、特徴点の座標値を定める第２の例を示す。図１０（Ａ）の例では、各特徴点の座標値は、画像端（例えば左上端）を原点として横方向をｘ座標、縦方向をｙ座標とした座標系に基づく座標値となっており、追跡対象間において共通の座標系が用いられる。図１０（Ｂ）では、追跡対象が２体存在し、夫々の追跡対象に対し、追跡対象の中心点（特徴点の重心位置）を原点として横方向をｘ座標、縦方向をｙ座標とした座標系が設定される。この場合、各特徴点の座標値は、追跡対象毎に定められる原点からのオフセットにより表現される。

次に、特徴情報ＩＦの第２形式について説明する。第２形式は、各特徴点の座標の距離を成分として有するテンソルとすることで、「ＴＦ」に相当する次元を削減した形式であり、以下の形式のテンソルを示す。
Ｎ×Ｍ×（Ｋ×Ｄ）
第２形式では,
「Ｎ×Ｍ」が行列の大きさに対応し、（Ｋ×Ｄ）がチャンネル方向の大きさに対応する。

図１１は、特徴情報の第２形式において、頭のｘ座標値に相当するチャンネルにおける行列を示す。図１１に示される行列は、行数が第１画像での追跡対象の検出数Ｎに相当し、列数が第２画像での追跡対象の検出数Ｍに相当する行列となる。また、図１１に示される行列の各成分は、行番号に対応する第１画像の追跡対象と列番号に対応する第２画像の追跡対象との、対象となる特徴点の座標値（ここでは頭のｘ座標値）の距離（即ち、差分の絶対値）を示している。図１１の例では、行列の行番号を第１画像での検出番号に対応させ、かつ、列番号を第２画像での検出番号に対応させている。これにより、第１画像と第２画像との全ての追跡対象の組み合わせに係る頭のｘ座標値の距離を、行列において表現することが可能となる。

このように、第２形式に係る特徴情報ＩＦは、第１画像及び第２画像で検出された全ての追跡対象の全ての特徴点のｘ座標及びｙ座標を加味した情報となり、第１形式と同様、推論器への入力データとして好適に用いられる。

（６－３）対応行列
次に、推論器が出力する対応行列について具体的に説明する。

図１２（Ａ）は、図８に示す第１画像及び第２画像に基づく特徴情報ＩＦが入力された場合に推論器が出力する対応行列の第１の例を示す。また、図１２（Ｂ）は、図８に示す第１画像及び第２画像に基づく特徴情報ＩＦが入力された場合に推論器が出力する対応行列の第２の例を示す。ここでは、第１画像の歩行者に対して検出番号「１」、「２」、「３」が割り当てられ、第２画像の歩行者に対して検出番号「１ａ」、「２ａ」が割り当てられている。

図１２（Ａ）に示す第１の例では、推論器は、第１画像の検出番号「１」～「３」の歩行者と、第２画像の検出番号「１ａ」、「１ｂ」の歩行者との対応の有無についての推論を行い、その推論結果を対応行列として出力する。この場合、対応行列は、第１画像での歩行者の検出数Ｎと第２画像での歩行者の検出数Ｍとに応じたサイズを有し、行番号が第１画像での歩行者の検出番号に対応し、列番号が第２画像での歩行者の検出番号に対応している。ここでは、第２画像の検出番号「１ａ」の歩行者は、第１画像の検出番号「１」の歩行者と対応する確からしさ（確信度）が最も高い「０．９」となっている。また、第２画像の検出番号「２ａ」の歩行者は、第１画像の検出番号「３」の歩行者と対応する確からしさが最も高い「０．８」となっている。なお、対応行列の各成分の最大値は１に限らず、任意の所定値であってもよい。

図１２（Ａ）に示される対応行列によれば、追跡装置３の追跡情報管理部３９は、検出番号「１」の歩行者と、検出番号「１ａ」の歩行者とに対して同一の追跡ＩＤを付し、検出番号「３」の歩行者と、検出番号「２ａ」の歩行者とに対して同一の追跡ＩＤを付すべきことを好適に特定することができる。具体的には、追跡対象の検出数が少ない（検出数が同数の場合には任意の一方の）画像（ここでは第２画像）中の各追跡対象を対象に、最も確からしさが高い他方の画像（ここでは第１画像）中の追跡対象を夫々特定し、特定した追跡対象と同一の追跡ＩＤを設定する。これにより、追跡情報管理部３９は、同一の追跡ＩＤを付すべき追跡対象を好適に特定可能となる。また、例えば、追跡情報管理部３９は、第１画像のみに登場する追跡対象が存在する場合、当該追跡対象の追跡ＩＤを消滅させ、第２画像のみに登場する追跡対象が存在する場合には、当該追跡対象の追跡ＩＤを新規発行する。図１２（Ｃ）の例では、追跡情報管理部３９は、検出番号「２」の歩行者の追跡ＩＤを消滅させる。なお、上述したＲｅＩＤに基づき、一度撮影範囲から外れた追跡対象が再び撮影範囲内に進入した場合に当該追跡対象に同一の追跡ＩＤを付す場合には、追跡情報管理部３９は、追跡ＩＤを消滅させることなく、追跡対象の同定に必要な情報と関連付けて記憶装置２等に記憶する。

このように、第１の例によれば、第１画像での追跡対象の各々と第２画像での追跡対象の各々とが対応する確からしさを示す各成分を含む対応行列を出力するモデルを推論器のモデルとして設定することで、追跡ＩＤの管理に好適な情報を推論器に出力させることができる。なお、対応行列は、対応する確からしさを表す行列に加えて、対応しない確からしさを表す行列がチャンネル方向に重ねられた構造を有してもよい。この構造例については、図１３（Ａ）～（Ｃ）を参照して後述する。

図１２（Ｂ）に示す対応行列の第２の例では、推論器は、第１画像の検出番号「１」～「３」の追跡対象と、第２画像の検出番号「１ａ」、「１ｂ」の追跡対象との対応付け及び追跡対象の生成、消滅についての推論を行い、その推論結果を示す２つの対応行列を出力する。具体的には、推論器は、Ｎ×（Ｍ＋１）の行列（「第１行列」とも呼ぶ。）と、（Ｎ＋１）×Ｍの行列（「第２行列」とも呼ぶ。）とを夫々出力する。

ここで、第１行列は、図１２（Ａ）に示す対応行列に対し、第１画像における各追跡対象が第２画像において存在しないこと（即ち生成・消滅の発生）の確からしさを表す列を最後列として追加した行列となる。例えば、図８に示す第１画像及び第２画像では、第１画像に存在する検出番号「２」の歩行者が第２画像には存在しない確からしさが高いことから、検出番号「２」に対応する２番目の行に対応する追加した３番目の列の成分が「０．８」となっている。

また、第２行列は、図１２（Ａ）に示す対応行列に対し、第２画像における各追跡対象が第１画像において存在しないこと（即ち消滅・消滅の発生）の確からしさを表す行を追加した行列となる。例えば、図８に示す第１画像及び第２画像では、第２画像に存在する検出番号「１ａ」、「２ａ」の各歩行者は、いずれも第１画像において存在する確からしさが高いことから、追加した行の各成分は低い値（０．１）となっている。

このように、図１２（Ｂ）に示す例によれば、追跡対象の生成又は消滅に関する確からしさの情報を的確に含む対応行列を出力することができる。

（６－４）推論器の学習
次に、学習部１８による推論器の学習について説明する。

第１の学習仕様では、学習部１８は、推論器が出力する対応行列に対し、対応する確からしさを表すチャンネル（「対応確率チャンネル」とも呼ぶ。）と、対応しない確からしさを表すチャンネル（「非対応確率チャンネル」とも呼ぶ。）とを設け、チャンネル方向に積算した各成分の確からしさが１になるように、推論器の学習を行う。対応確率チャンネルは、第１チャンネルの一例であり、非対応確率チャンネルは、第２チャンネルの一例である。

図１３（Ａ）は、図１２（Ａ）に示す形式の対応行列を推論器が出力する場合に、第１の学習仕様において正解として設定される対応行列の一例である。この場合、学習部１８は、追跡紐付情報Ｉｒに基づき、第１画像及び第２画像での追跡対象の対応関係を認識し、対応確率チャンネル及び非対応確率チャンネルを含む正解の対応行列を設定する。この場合、図１３（Ａ）に示すように、Ｎ×Ｍ（ここでは、３×２）の対応行列の各要素は、対応確率チャンネルと非対応確率チャンネルとを有し、チャンネル方向に積算すると１になるように設定されている。また、この場合、推論器は、対応行列の各成分のチャンネル方向の積算値が１になるように、出力層としてｓｏｆｔｍａｘ層などが設けられている。

図１３（Ｂ）は、図１２（Ｂ）に示す形式の対応行列を推論器が出力する場合に、第１の学習仕様において正解として設定される対応行列の第１行列の一例である。この場合、Ｎ×（Ｍ＋１）（ここでは、３×３）の行列である第１行列の各要素は、対応確率チャンネルと非対応確率チャンネルとを有し、チャンネル方向に積算すると１になるように設定されている。図１３（Ｃ）は、図１２（Ｂ）に示す形式の対応行列を推論器が出力する場合に、第１の学習仕様において正解として設定される対応行列の第２行列の一例である。この場合、（Ｎ＋１）×Ｍ（ここでは、４×２）の行列である第２行列の各要素は、対応確率チャンネルと非対応確率チャンネルとを有し、チャンネル方向に積算すると１になるように設定されている。また、この場合、推論器は、対応行列の各成分のチャンネル方向の積算値が１になるように、出力層としてｓｏｆｔｍａｘ層などが設けられている。

そして、学習部１８は、図１３（Ａ）に示す正解の対応行列、又は、図１３（Ｂ）及び図１３（Ｃ）に示す正解の対応行列を用いて、推論器の学習を行う。具体的には、学習部１８は、第１学習画像及び第２学習画像に基づく特徴情報ＩＦを推論器に入力し、推論器から出力された対応確率チャンネル及び非対応確率チャンネルを含む対応行列を取得する。そして、学習部１８は、この対応行列と、対応確率チャンネル及び非対応確率チャンネルを含む正解の対応行列とに基づく損失が最小となるように、推論器の学習を行う。この場合の損失関数には、例えば、ｓｏｆｔｍａｘｃｒｏｓｓｅｎｔｒｏｐｙなどを用いる。このように、学習部１８は、第１の学習仕様に基づき、好適に推論器の学習を行うことができる。

第２の学習仕様では、学習部１８は、推論器が出力する対応行列について、行方向又は列方向に積算した場合に１となるように、推論器の学習を行う。第２の学習仕様では、図１２（Ｂ）に示す形式の対応行列を前提とする。

図１４（Ａ）は、図１２（Ｂ）に示す形式の対応行列を推論器が出力する場合に、第２の学習仕様において正解として設定される対応行列の第１行列の一例である。また、図１４（Ｂ）は、図１２（Ｂ）に示す形式の対応行列を推論器が出力する場合に、第２の学習仕様において正解として設定される対応行列の第２行列の一例である。図１４（Ａ）に示すように、第１行列では、少なくとも行毎の各成分の積算値が１になるように設定されている。一方、図１４（Ｂ）に示すように、第２行列では、少なくとも列毎の各成分の積算値が１になるように設定されている。また、この場合、推論器は、第１行列の各行の積算値が１となり、第２行列の各列の積算値が１になるように、出力層としてｓｏｆｔｍａｘ層などが用いられる。

そして、学習部１８は、図１４（Ａ）に示す第１行列と、図１４（Ｂ）に示す第２行列とのペアを正解の対応行列とみなし、推論器の学習を行う。この場合の損失関数には、例えば、ｓｏｆｔｍａｘｃｒｏｓｓｅｎｔｒｏｐｙなどを用いる。このようにすることで、学習部１８は、第２の学習仕様においても、好適に推論器の学習を行うことができる。

（７）処理フロー
次に、学習装置１と追跡装置３が夫々実行する処理フローについて説明する。

（７－１）学習処理
図１５は、学習装置１が実行する推論器の学習に関する処理手順を示すフローチャートの一例である。

まず、姿勢推定部１５は、学習に用いられていない時系列の学習画像を追跡学習データ記憶部２１から取得する（ステップＳ１１）。この場合、姿勢推定部１５は、例えば、学習画像として、学習に用いられていない画像の組み合わせであって、時系列に撮影された第１学習画像と第２学習画像とを、追跡学習データ記憶部２１から抽出する。

次に、姿勢推定部１５は、ステップＳ１１で取得した時系列の学習画像に対して追跡対象の姿勢推定を行う（ステップＳ１２）。この場合、姿勢推定部１５は、時系列の学習画像の各々に対し、追跡対象毎に、予め定めた種類の特徴点の画像内での位置を推定することで、姿勢情報Ｉｐを生成する。

次に、推定結果照合部１６は、ステップＳ１２で姿勢推定部１５が生成した姿勢情報Ｉｐを、追跡対象位置情報と照合することで、追跡紐付情報Ｉｒを生成する（ステップＳ１３）。この場合、推定結果照合部１６は、ステップＳ１１で抽出した時系列の学習画像に含まれる追跡対象の位置を示す追跡対象位置情報を、追跡学習データ記憶部２１から取得する。

また、特徴抽出部１７は、ステップＳ１２で姿勢推定部１５が生成した姿勢情報Ｉｐを、特徴情報ＩＦに変換する（ステップＳ１４）。なお、ステップＳ１４の処理は、ステップＳ１３と同時に行われてもよく、逆の順序により実行されてもよい。

次に、学習部１８は、ステップＳ１４で特徴抽出部１７が生成した特徴情報ＩＦと、ステップＳ１３で推定結果照合部１６が生成した追跡紐付情報Ｉｒとに基づき、推論器の学習を行う（ステップＳ１５）。この場合、学習部１８は、追跡紐付情報Ｉｒに基づき、図１３（Ａ）、図１３（Ｂ）及び図１３（Ｃ）、又は、図１４（Ａ）及び図１４（Ｂ）のいずれかに示される形式の正解の対応行列を生成し、特徴情報ＩＦを入力したときに推論器が出力する対応行列との損失が最小となるように、推論器のパラメータを決定する。そして、学習部１８は、決定したパラメータを、パラメータ記憶部２２に記憶する。

そして、学習装置１は、学習の終了条件を満たすか否か判定する（ステップＳ１６）。例えば、学習装置１は、学習を終了すべき旨のユーザ入力等を検知した場合、又は、追跡学習データ記憶部２１に記憶された全ての時系列の学習画像に対し、ステップＳ１１～ステップＳ１５の処理を実行した場合、終了条件を満たすと判定する。他の例では、学習装置１はステップＳ１５で算出される損失が所定の閾値以下となった場合に、終了条件を満たすと判定する。さらに別の例では、学習装置１は、ステップＳ１１～ステップＳ１５を所定の規定回数繰り返した場合に、終了条件を満たすと判定する。そして、学習装置１は、学習の終了条件を満たす場合（ステップＳ１６；Ｙｅｓ）、フローチャートの処理を終了する。一方、学習装置１は、学習の終了条件を満たさない場合（ステップＳ１６；Ｎｏ）、ステップＳ１１へ処理を戻す。

（７－２）追跡処理
図１６は、追跡装置３が実行する追跡処理の手順を示すフローチャートの一例である。

まず、追跡装置３の姿勢推定部３５は、処理すべき時系列の撮影画像が存在するか否か判定する（ステップＳ２１）。この場合、姿勢推定部１５は、例えば、撮影画像・追跡情報記憶部２３に記憶された未処理の時系列の２枚の画像が存在するか否か判定する。そして、姿勢推定部１５は、処理すべき時系列の撮影画像が存在すると判定した場合（ステップＳ２１；Ｙｅｓ）、ステップＳ２２へ処理を進める。一方、姿勢推定部１５は、処理すべき時系列の撮影画像が存在しない場合（ステップＳ２１；Ｎｏ）、引き続きステップＳ２１の判定を継続する。

処理すべき時系列の撮影画像が存在する場合、姿勢推定部３５は、これらの撮影画像に対して追跡対象の姿勢推定を行う（ステップＳ２２）。この場合、姿勢推定部３５は、時系列の撮影画像の各々に対し、追跡対象毎に、予め定めた種類の特徴点の画像内での位置を推定することで、姿勢情報Ｉｐを生成する。

次に、特徴抽出部３７は、ステップＳ２２で姿勢推定部３５が生成した姿勢情報Ｉｐを、特徴情報ＩＦに変換する（ステップＳ２３）。そして、対応情報生成部３８は、学習装置１が学習した推論器のパラメータに基づき構成した推論器を用いて、対応情報Ｉｃを生成する（ステップＳ２４）。この場合、例えば、対応情報生成部３８は、ステップＳ２３で生成した特徴情報ＩＦを推論器に入力することで推論器から出力される対応行列を示す情報を、対応情報Ｉｃとして取得する。

次に、追跡情報管理部３９は、ステップＳ２４において対応情報生成部３８が生成した対応情報Ｉｃに基づき、対象の撮影画像中の各追跡対象に対して追跡ＩＤの設定を行う（ステップＳ２５）。この場合、追跡情報管理部３９は、処理対象となる撮影画像の各々に存在した追跡対象に対し、追跡ＩＤを割り当てる。また、追跡情報管理部３９は、撮影画像間での追跡対象の消滅又は発生があったと判定した場合には、追跡ＩＤの削除や新規発行などを行う。

そして、追跡情報管理部３９は、設定した追跡ＩＤに関する出力を行う（ステップＳ２６）。例えば、追跡情報管理部３９は、処理対象となった撮影画像に対し、ステップＳ２５で設定した追跡ＩＤに関する情報を、撮影画像・追跡情報記憶部２３に記憶する。他の例では、追跡情報管理部３９は、ステップＳ２５での追跡ＩＤの設定情報を、上位のアプリケーションの処理を行う他の処理部に供給してもよく、表示装置等に表示させてもよい。

そして、追跡装置３は、追跡処理を終了すべきか否か判定する（ステップＳ２７）。例えば、追跡装置３は、追跡処理を終了すべき旨のユーザ入力があった場合、又は、追跡処理に関する所定の終了条件が満たされた場合、追跡処理を終了する。そして、追跡装置３は、追跡処理を終了すべきと判定した場合（ステップＳ２７；Ｙｅｓ）、フローチャートの処理を終了する。一方、追跡装置３は、追跡処理を終了すべきでないと判定した場合（ステップＳ２７；Ｎｏ）、ステップＳ２１へ処理を戻す。

（８）技術的効果
第１実施形態における技術的効果について補足説明する。

一般に、物体・人の追跡では、物体・人同士の重なりなどが多発する混雑状況化においては、すれ違いによる追跡ＩＤの移り変わり、物体・人同士の重なりに起因する特徴の変化による追跡ＩＤの伝搬ミスが発生する。よって、このような混雑状況化においても頑健な追跡技術が必要とされる。これに対し、例えば、特許文献１では、追跡対象の姿勢推定を行った後、フレーム間関節点の距離などのルールベースでフレーム間の追跡対象の照合を行っていた。しかしながら、このようなルールベースでの照合の場合、姿勢推定に用いる姿勢推定器での推定ミスにより同一の追跡対象に対するマッチングミスが多発する可能性がある。言い換えると、姿勢推定ミスが発生しやすい混雑状況下においては、人の重なり等に起因してフレーム間において推定される姿勢が大きく異なる場合が生じ、同一の追跡対象に対して同一の追跡ＩＤを付与できない場合が存在する。

以上を勘案し、本実施形態では、姿勢推定の結果を入力として対応関係を予測する推論器を学習により構築する。これにより、姿勢推定における推定ミスの傾向を考慮して、推論器の学習を行うことができるため、姿勢推定ミスにロバストな結果を出力する推論器を構築することができる。また、このような推論器を用いることで、追跡装置３は、追跡対象が画像内で混み合う混雑状況下においても、ロバストな追跡を行い、同一の追跡対象に対して適切に同一の追跡ＩＤを付与することができる。

＜第２実施形態＞
図１７は、第２実施形態に係る学習装置１Ｘの概略構成を示す。学習装置１Ｘは、主に、取得手段１５Ｘと、推定結果照合手段１６Ｘと、学習手段１８Ｘとを備える。

取得手段１５Ｘは、時系列に撮影された学習用の画像である第１学習画像及び第２学習画像と、当該第１学習画像及び第２学習画像の各々に含まれる追跡対象の位置又は姿勢に関する追跡対象位置情報と、追跡対象の識別情報とが関連付けられた追跡学習データを取得する。取得手段１５Ｘは、第１実施形態においてインターフェース１３を介して追跡学習データ記憶部２１を参照する姿勢推定部１５及び推定結果照合部１６とすることができる。なお、取得手段１５Ｘは、追跡学習データを参照できればよく、他の装置から受信してもよく、学習装置１Ｘに記憶された追跡学習データを抽出してもよい。また、「追跡対象の識別情報」は、第１実施形態の追跡ＩＤに相当する。

推定結果照合手段１６Ｘは、第１学習画像及び第２学習画像の各々から推定した追跡対象の姿勢を示す姿勢情報と、追跡対象位置情報とを照合することで、姿勢情報に追跡対象の識別情報を紐付ける。推定結果照合手段１６Ｘは、第１実施形態における推定結果照合部１６とすることができる。なお、学習装置１Ｘは、第１学習画像及び第２学習画像に基づき上記の姿勢情報を自ら生成してもよく、他の装置が第１学習画像及び第２学習画像に基づき生成した姿勢情報を取得してもよい。

学習手段１８Ｘは、姿勢情報に基づく情報が入力された場合に、第１学習画像と第２学習画像とでの追跡対象の対応関係を示す対応情報を推論する推論器の学習を、姿勢情報と追跡対象の識別情報とに基づき行う。ここで、「姿勢情報に基づく情報」は、姿勢情報そのものであってもよく、姿勢情報を推論器へ入力可能なデータ形式に変更した情報（例えば第１実施形態における特徴情報ＩＦ）であってもよい。学習手段１８Ｘは、第１実施形態における学習部１８とすることができる。

図１８は、第２実施形態において学習装置１Ｘが実行する処理手順を示すフローチャートの一例である。取得手段１５Ｘは、時系列に撮影された学習用の画像である第１学習画像及び第２学習画像と、当該第１学習画像及び第２学習画像の各々に含まれる追跡対象の位置又は姿勢に関する追跡対象位置情報と、追跡対象の識別情報とが関連付けられた追跡学習データを取得する。（ステップＳ２１）。推定結果照合手段１６Ｘは、第１学習画像及び第２学習画像の各々から推定した追跡対象の姿勢を示す姿勢情報と、追跡対象位置情報とを照合することで、姿勢情報に追跡対象の識別情報を紐付ける（ステップＳ２２）。学習手段１８Ｘは、姿勢情報に基づく情報が入力された場合に、第１学習画像と第２学習画像とでの追跡対象の対応関係を示す対応情報を推論する推論器の学習を、姿勢情報と追跡対象の識別情報とに基づき行う（ステップＳ２３）。

第２実施形態によれば、学習装置１Ｘは、時系列の画像において存在する追跡対象の対応関係を示す対応情報を推論する推論器の学習を、姿勢推定における推定ミスの傾向等を考慮して好適に実行することできる。

その他、上記の各実施形態（変形例を含む、以下同じ）の一部又は全部は、以下の付記のようにも記載され得るが以下には限られない。
［付記１］
時系列に撮影された学習用の画像である第１学習画像及び第２学習画像と、当該第１学習画像及び第２学習画像の各々に含まれる追跡対象の位置又は姿勢に関する追跡対象位置情報と、前記追跡対象の識別情報とが関連付けられた追跡学習データを取得する取得手段と、
前記第１学習画像及び第２学習画像の各々から推定した前記追跡対象の姿勢を示す姿勢情報と、前記追跡対象位置情報とを照合することで、前記姿勢情報に前記識別情報を紐付ける推定結果照合手段と、
前記姿勢情報に基づく情報が入力された場合に、前記第１学習画像と前記第２学習画像とでの前記追跡対象の対応関係を示す対応情報を推論する推論器の学習を、前記姿勢情報と前記識別情報とに基づき行う学習手段と、
を有する学習装置。
［付記２］
前記姿勢情報を、前記時系列の学習画像から検出された前記追跡対象の特徴点毎の位置を示す情報である特徴情報に変換する特徴抽出手段をさらに有し、
前記学習手段は、前記姿勢情報に基づく情報として、前記特徴情報を前記推論器に入力する、付記１に記載の学習装置。
［付記３］
前記特徴抽出手段は、前記第１学習画像での前記追跡対象の検出数と、前記第２学習画像での前記追跡対象の検出数と、前記特徴点の数とに基づく形式の前記特徴情報を生成する、付記２に記載の学習装置。
［付記４］
前記推論器は、畳み込み層を有するニューラルネットワークである、付記１～３のいずれか一項に記載の学習装置。
［付記５］
前記対応情報は、前記第１学習画像での前記追跡対象の各々と前記第２学習画像での前記追跡対象の各々とが対応する確からしさを示す各成分を含む行列を示す、付記１～４のいずれか一項に記載の学習装置。
［付記６］
前記行列は、前記第１学習画像と前記第２学習画像とにおける前記追跡対象の生成又は消滅の確からしさを示す行又は列をさらに有する、付記５に記載の学習装置。
［付記７］
前記学習手段は、前記行列の行又は列ごとの前記各成分の積算値が所定値になるように前記推論器の学習を行う、付記６に記載の学習装置。
［付記８］
前記行列は、前記第１学習画像での前記追跡対象の各々と前記第２学習画像での前記追跡対象の各々とが対応する確からしさを示す各成分を含む第１チャンネルと、前記第１学習画像での前記追跡対象の各々と前記第２学習画像での前記追跡対象の各々とが対応しない確からしさを示す各成分を含む第２チャンネルとを有し、
前記学習手段は、前記各成分のチャンネル方向の積算値が所定値となるように前記推論器の学習を行う、付記５または６に記載の学習装置。
［付記９］
前記追跡対象位置情報は、前記第１学習画像及び前記第２学習画像において前記追跡対象の各々の存在領域を示す情報である、または、前記第１学習画像及び前記第２学習画像において前記追跡対象の各々の特徴点の位置を示す情報である、付記１～８のいずれか一項に記載の学習装置。
［付記１０］
前記第１学習画像及び第２学習画像に基づき、前記第１学習画像及び第２学習画像の各々に存在する前記追跡対象の姿勢を推定することで、前記姿勢情報を生成する姿勢推定手段をさらに有する、付記１～９のいずれか一項に記載の学習装置。

［付記１１］
時系列に撮影された第１撮影画像及び第２撮影画像を取得する取得手段と、
前記第１撮影画像及び第２撮影画像に基づき、前記第１撮影画像及び第２撮影画像の各々に存在する前記追跡対象の姿勢の推定結果を示す姿勢情報を生成する姿勢推定手段と、
前記姿勢情報と、請求項１～１０のいずれか一項に記載の学習装置により学習された推論器とに基づき、前記第１撮影画像と前記第２撮影画像とでの前記追跡対象の対応関係を示す対応情報を生成する対応情報生成手段と、
を有する追跡装置。
［付記１２］
前記対応情報に基づき、前記追跡対象に割り当てる識別情報を管理する追跡情報管理手段をさらに有する、付記１１に記載の学習装置。
［付記１３］
コンピュータにより、
時系列に撮影された学習用の画像である第１学習画像及び第２学習画像と、当該第１学習画像及び第２学習画像の各々に含まれる追跡対象の位置又は姿勢に関する追跡対象位置情報と、前記追跡対象の識別情報とが関連付けられた追跡学習データを取得し、
前記第１学習画像及び第２学習画像の各々から推定した前記追跡対象の姿勢を示す姿勢情報と、前記追跡対象位置情報とを照合することで、前記姿勢情報に前記識別情報を紐付け、
前記姿勢情報に基づく情報が入力された場合に、前記第１学習画像と前記第２学習画像とでの前記追跡対象の対応関係を示す対応情報を推論する推論器の学習を、前記姿勢情報と前記識別情報とに基づき行う、
学習方法。
［付記１４］
時系列に撮影された学習用の画像である第１学習画像及び第２学習画像と、当該第１学習画像及び第２学習画像の各々に含まれる追跡対象の位置又は姿勢に関する追跡対象位置情報と、前記追跡対象の識別情報とが関連付けられた追跡学習データを取得し、
前記第１学習画像及び第２学習画像の各々から推定した前記追跡対象の姿勢を示す姿勢情報と、前記追跡対象位置情報とを照合することで、前記姿勢情報に前記識別情報を紐付け、
前記姿勢情報に基づく情報が入力された場合に、前記第１学習画像と前記第２学習画像とでの前記追跡対象の対応関係を示す対応情報を推論する推論器の学習を、前記姿勢情報と前記識別情報とに基づき行う処理をコンピュータに実行させるプログラムを格納する記憶媒体。
［付記１５］
コンピュータにより、
時系列に撮影された第１撮影画像及び第２撮影画像を取得し、
前記第１撮影画像及び第２撮影画像に基づき、前記第１撮影画像及び第２撮影画像の各々に存在する前記追跡対象の姿勢の推定結果を示す姿勢情報を生成し、
前記姿勢情報と、付記１～１０のいずれか一項に記載の学習装置により学習された推論器とに基づき、前記第１撮影画像と前記第２撮影画像とでの前記追跡対象の対応関係を示す対応情報を生成する、
追跡方法。
［付記１６］
時系列に撮影された第１撮影画像及び第２撮影画像を取得し、
前記第１撮影画像及び第２撮影画像に基づき、前記第１撮影画像及び第２撮影画像の各々に存在する前記追跡対象の姿勢の推定結果を示す姿勢情報を生成し、
前記姿勢情報と、付記１～１０のいずれか一項に記載の学習装置により学習された推論器とに基づき、前記第１撮影画像と前記第２撮影画像とでの前記追跡対象の対応関係を示す対応情報を生成する処理をコンピュータに実行させるプログラムを格納する記憶媒体。

以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。すなわち、本願発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。また、引用した上記の特許文献等の各開示は、本書に引用をもって繰り込むものとする。

セーフティ事業における人物・物体の姿勢・動き追跡に好適に適用される。例えば、駅構内等での人の侵入検知及びカウント、集団スポーツにおける選手の行動自動モニタ、駅プラットフォームでのふらつき検知などの行動認識などに好適に適用される。

１、１Ｘ学習装置
２記憶装置
３追跡装置
４カメラ
１１、３１プロセッサ
１２、３２メモリ
１３、３３インターフェース
２１追跡学習データ記憶部
２２パラメータ記憶部
２３撮影画像・追跡情報記憶部
１００追跡システム

Claims

時系列に撮影された学習用の画像である第１学習画像及び第２学習画像と、当該第１学習画像及び第２学習画像の各々に含まれる追跡対象の位置又は姿勢に関する追跡対象位置情報と、前記追跡対象の識別情報とが関連付けられた追跡学習データを取得する取得手段と、
前記第１学習画像及び第２学習画像の各々から推定した前記追跡対象の姿勢を示す姿勢情報と、前記追跡対象位置情報とを照合することで、前記姿勢情報に前記識別情報を紐付ける推定結果照合手段と、
前記姿勢情報に基づく情報が入力された場合に、前記第１学習画像と前記第２学習画像とでの前記追跡対象の対応関係を示す対応情報を推論する推論器の学習を、前記姿勢情報と前記識別情報とに基づき行う学習手段と、
を有する学習装置。
前記姿勢情報を、前記時系列の学習画像から検出された前記追跡対象の特徴点毎の位置を示す情報である特徴情報に変換する特徴抽出手段をさらに有し、
前記学習手段は、前記姿勢情報に基づく情報として、前記特徴情報を前記推論器に入力する、請求項１に記載の学習装置。
前記特徴抽出手段は、前記第１学習画像での前記追跡対象の検出数と、前記第２学習画像での前記追跡対象の検出数と、前記特徴点の数とに基づく形式の前記特徴情報を生成する、請求項２に記載の学習装置。
前記推論器は、畳み込み層を有するニューラルネットワークである、請求項１～３のいずれか一項に記載の学習装置。
前記対応情報は、前記第１学習画像での前記追跡対象の各々と前記第２学習画像での前記追跡対象の各々とが対応する確からしさを示す各成分を含む行列を示す、請求項１～４のいずれか一項に記載の学習装置。
前記行列は、前記第１学習画像と前記第２学習画像とにおける前記追跡対象の生成又は消滅の確からしさを示す行又は列をさらに有する、請求項５に記載の学習装置。
前記学習手段は、前記行列の行又は列ごとの前記各成分の積算値が所定値になるように前記推論器の学習を行う、請求項６に記載の学習装置。
時系列に撮影された第１撮影画像及び第２撮影画像を取得する取得手段と、
前記第１撮影画像及び第２撮影画像に基づき、前記第１撮影画像及び第２撮影画像の各々に存在する追跡対象の姿勢の推定結果を示す姿勢情報を生成する姿勢推定手段と、
前記姿勢情報と、請求項１～７のいずれか一項に記載の学習装置により学習された推論器とに基づき、前記第１撮影画像と前記第２撮影画像とでの前記追跡対象の対応関係を示す対応情報を生成する対応情報生成手段と、
を有する追跡装置。
コンピュータにより、
時系列に撮影された学習用の画像である第１学習画像及び第２学習画像と、当該第１学習画像及び第２学習画像の各々に含まれる追跡対象の位置又は姿勢に関する追跡対象位置情報と、前記追跡対象の識別情報とが関連付けられた追跡学習データを取得し、
前記第１学習画像及び第２学習画像の各々から推定した前記追跡対象の姿勢を示す姿勢情報と、前記追跡対象位置情報とを照合することで、前記姿勢情報に前記識別情報を紐付け、
前記姿勢情報に基づく情報が入力された場合に、前記第１学習画像と前記第２学習画像とでの前記追跡対象の対応関係を示す対応情報を推論する推論器の学習を、前記姿勢情報と前記識別情報とに基づき行う、
学習方法。
時系列に撮影された学習用の画像である第１学習画像及び第２学習画像と、当該第１学習画像及び第２学習画像の各々に含まれる追跡対象の位置又は姿勢に関する追跡対象位置情報と、前記追跡対象の識別情報とが関連付けられた追跡学習データを取得し、
前記第１学習画像及び第２学習画像の各々から推定した前記追跡対象の姿勢を示す姿勢情報と、前記追跡対象位置情報とを照合することで、前記姿勢情報に前記識別情報を紐付け、
前記姿勢情報に基づく情報が入力された場合に、前記第１学習画像と前記第２学習画像とでの前記追跡対象の対応関係を示す対応情報を推論する推論器の学習を、前記姿勢情報と前記識別情報とに基づき行う処理をコンピュータに実行させるプログラム。