JP2024006695A

JP2024006695A - 照合プログラム、照合方法および情報処理装置

Info

Publication number: JP2024006695A
Application number: JP2022107825A
Authority: JP
Inventors: 修司粟井; Shuji Awai
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2022-07-04
Filing date: 2022-07-04
Publication date: 2024-01-17
Also published as: EP4303831A1; AU2023203031A1; US20240005554A1

Abstract

【課題】照合精度を向上させること。【解決手段】情報処理装置は、カメラで撮影された映像を取得し、取得した映像に含まれる人物の骨格認識に基づいて、人物の時系列での骨格の位置を推定する。情報処理装置は、カメラのパラメータに基づいて、人物の第１身長を推定し、推定された人物の第１身長と、映像を構成する画素あたりの基準となる第１画素長とを用いて、推定された人物の骨格の位置を補正する。情報処理装置は、補正された人物の骨格の時系列での位置に基づいて、人物の照合を実施する。【選択図】図４

Description

本発明は、照合プログラム等に関する。

カメラによって撮影された映像は各種の捜査で用いられ、重要な情報となり得る。たとえば、警察が対象人物を捜査する場合、複数の位置に設置されたカメラの映像を解析し、人物の特徴に基づく照合を行うことで、人物の追跡等を行う。ここで、人物の特徴として、人物の顔、人物の服装、髪型を用いると、映像が不鮮明である場合に、照合精度が低下するため、歩容照合技術が利用される。

図１４は、従来の歩容照合技術を説明するための図である。ここでは、従来の歩容照合技術を実行する装置を「従来装置」と表記する。従来装置は、人物の映像に含まれる時系列のフレームＩ_１，Ｉ_２，・・・，Ｉ_ｎを、学習モデルＭ１に入力することで、時系列の骨格情報ｐ_１，ｐ_２、・・・ｐ_ｎを推定する。

骨格情報ｐ_１～ｐ_ｎには、複数の関節の座標が設定される。従来装置は、時系列の骨格情報ｐ_１～ｐ_ｎを、学習モデルＭ２に入力することで、人物の特徴量Ｆ_１を算出する。特徴量Ｆ_１は、１２８次元のベクトルであり、一人の人物の映像（時系列のフレームＩ_１，Ｉ_２，・・・，Ｉ_ｎ）から、一つの特徴量Ｆ_１が算出される。なお、学習モデルＭ１，Ｍ２は、学習データを用いて、事前に訓練しておく。

従来装置は、人物毎に図１４で説明した処理を実行することで、人物毎の特徴量を算出する。従来装置は、各人物の特徴量の類似度を基にして、同一の人物を特定する。たとえば、第１地点のカメラで撮影した第１人物の映像の特徴量と、第２地点のカメラで撮影した映像の第２人物の特徴量との類似度が閾値以上である場合に、第１人物と第２人物とを同一人物として特定する。

特開２０２０－７７０１７号公報特開２０２２－６５２４１号公報

しかしながら、上述した従来の歩容照合技術では、学習モデルＭ１の訓練で用いた学習データにない人物の条件で照合を行うと、照合精度が低下するという問題がある。人物の条件は、人物のサイズ、人物が歩く位置等の条件である。

図１５は、従来技術の問題を説明するための図である。たとえば、学習データを、学習データＩｍ１とする。学習データＩｍ１の解像度を「３２０×２４０」とする。照合対象データを、照合対象データＩｍ２，Ｉｍ３とする。照合対象データＩｍ２の解像度を「３２０×２４０」とする。照合対象データＩｍ３の解像度を「１２８０×７２０」とする。

照合対象データＩｍ２の解像度および人物の条件は、学習データＩｍ１の解像度および人物の条件と類似している。この場合、従来装置が、照合対象データＩｍ２を学習モデルＭ１に入力すると、適切な特徴量が算出され、照合精度が高くなる。

一方、照合対象データＩｍ３の解像度および人物の条件は、学習データＩｍ１の解像度および人物の条件と大きく異なっている。このため、従来装置が、照合対象データＩｍ３を学習モデルＭ１に入力すると、適切な特徴量が算出されず、照合精度が低くなる。

１つの側面では、本発明は、照合精度を向上させることができる照合プログラム、照合方法および情報処理装置を提供することを目的とする。

第１の案では、コンピュータに次の処理を実行する。コンピュータは、カメラで撮影された映像を取得し、取得した映像に含まれる人物の骨格認識に基づいて、人物の時系列での骨格の位置を推定する。コンピュータは、カメラのパラメータに基づいて、人物の第１身長を推定し、推定された人物の第１身長と、映像を構成する画素あたりの基準となる第１画素長とを用いて、推定された人物の骨格の位置を補正する。コンピュータは、補正された人物の骨格の時系列での位置に基づいて、人物の照合を実施する。

照合精度を向上させることができる。

図１は、本実施例に係る照合システムを示す図である。図２は、事前処理を説明するための図である。図３は、補正処理を説明するための図（１）である。図４は、補正処理を説明するための図（２）である。図５は、本実施例に係る情報処理装置の構成を示す機能ブロック図である。図６は、映像バッファのデータ構造の一例を示す図である。図７は、基準設定情報のデータ構造の一例を示す図である。図８は、パラメータテーブルのデータ構造の一例を示す図である。図９は、特徴量ＤＢのデータ構造の一例を示す図である。図１０は、本実施例に係る情報処理装置の学習時の処理手順を示すフローチャートである。図１１は、本実施例に係る情報処理装置の照合時の処理手順を示すフローチャートである。図１２は、本実施例に係る照合処理の処理手順を示すフローチャートである。図１３は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。図１４は、従来の歩容照合技術を説明するための図である。図１５は、従来技術の問題を説明するための図である。

以下に、本願の開示する照合プログラム、照合方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

まず、本実施例に係る照合システムの一例について説明する。図１は、本実施例に係る照合システムを示す図である。図１に示すように、この照合システムは、カメラ１０ａ，１０ｂ，１０ｃ，１０ｄと、情報処理装置１００とを有する。カメラ１０ａ～１０ｄと、情報処理装置１００とは、無線または有線によって相互に接続される。図示を省略するが、照合システムは、他のカメラを更に有していてもよい。

カメラ１０ａ～１０ｄは、撮像範囲の映像を撮影するカメラである。カメラ１０ａ～１０ｄは、それぞれ異なる位置に設置される。以下の説明では、カメラ１０ａ～１０ｄを特に区別しない場合に、カメラ１０と表記する。

カメラ１０は、撮影した映像のデータを、情報処理装置１００に送信する。以下の説明では、映像のデータを「映像データ」と表記する。映像データには、時系列のフレームが含まれる。フレームは、あるタイミングでカメラ１０に撮影された静止画像である。各フレームには時系列にフレーム番号が付与される。また、映像データには、かかる映像データを撮影したカメラ１０を識別するカメラ識別情報が付与される。

情報処理装置１００は、映像データに含まれる人物の時系列の骨格情報を推定し、時系列の骨格情報を基にして、人物の特徴量を算出する。また、情報処理装置１００は、各人物の特徴量を基にして、人物の照合を行う。

ここで、情報処理装置１００は、人物の照合精度を高めるために、事前処理、補正処理を実行する。以下において、事前処理、補正処理の一例について説明する。

まず、情報処理装置１００が実行する事前処理について説明する。図２は、事前処理を説明するための図である。情報処理装置１００は、身長が既知となる人物ｈ１の映像データ（時系列のフレーム）をカメラ１０で撮影し、フレームｆ１から人物の領域Ａ１を特定する。情報処理装置１００は、特定した領域Ａ１の人物の胴体部ｂ１のピクセル長を特定する。以下の説明では、既知となる人物ｈ１の身長を「基準身長」と表記する。また、人物ｈ１をカメラ１０で撮影した映像データに含まれるフレームｆ１であって、フレームｆ１の人物の領域の胴体部ｂ１のピクセル長を「基準ピクセル長」と表記する。

情報処理装置１００は、カメラ１０が撮影した映像データを基にして、カメラ１０の位置推定を実行し、カメラ１０のパラメータを算出する。たとえば、カメラ１０のパラメータには、カメラ１０の高さ、角度、焦点距離等が含まれる。

続いて、情報処理装置１００が実行する補正処理について説明する。図３および図４は、補正処理を説明するための図である。図３について説明する。たとえば、情報処理装置１００は、カメラ１０が撮影したフレームｆ１－１に含まれる人物の領域Ａ１－１を特定し、カメラ１０のパラメータを基にして、領域Ａ１－１の人物の身長を推定する。以下の説明では、フレームの人物の領域から推定した人物の身長を「推定身長」と表記する。

情報処理装置１００は、フレームｆ１－１を、訓練済みの骨格推定モデル５０に入力することで、骨格情報ｐ１－１を推定する。骨格推定モデル５０は、フレーム（静止画像）を入力とし、人物の骨格情報を出力とするＮＮ（neural network）である。

図４の説明に移行する。ここでは、フレームｆ１－１を、骨格推定モデル５０に入力することで推定した骨格情報ｐ１－１に対して補正する場合について説明する。補正後の骨格情報を、補正骨格情報ｐ１－１’とする。補正骨格情報ｐ１－１’の胴体部ｐｂ１´の胴体長（ピクセル長）を、「対象ピクセル長」と表記する。

情報処理装置１００は、下記の「条件１」を満たす、対象ピクセル長を特定する。

基準身長：推定身長＝基準ピクセル長：対象ピクセル長・・・（条件１）

情報処理装置１００は、骨格情報ｐ１－１の胴体部ｐｂ１のピクセル長が、対象ピクセル長となるように、骨格情報ｐ１－１のスケールを変換することで、補正骨格情報ｐ１－１´を生成する。補正骨格情報ｐ１－１´の胴体部ｐｂ１´のピクセル長が、基準ピクセル長となる。たとえば、情報処理装置１００は、対象ピクセル長を、骨格情報ｐ１－１の胴体部ｐｂ１のピクセル長で除算した補正値を算出し、骨格情報ｐ１－１の各関節の長さに、補正値を乗算した値を、スケール変換後の各関節の長さとする。

情報処理装置１００は、フレームｆ１－２についても同様にして、人物の領域Ａ１－２を特定し、カメラ１０のパラメータを基にして、領域Ａ１－２の推定身長を推定する。また、情報処理装置１００は、フレームｆ１－２を、骨格推定モデル５０に入力することで、骨格情報ｐ１－２を推定し、スケールを変換する。

情報処理装置１００が、上記の事前処理、補正処理を実行することで、入力データの解像度および人物の条件が学習データの解像度および人物の条件と大きく異なっている場合でも、適切な骨格情報を推定することができる。たとえば、図４で説明したスケール変換によって、入力データ毎の座標範囲のずれを補正することができる。

情報処理装置１００は、補正処理を行った時系列の骨格情報を基にして、人物の特徴量を算出することで、照合精度を向上させることができる。

次に、上述した処理を実行する情報処理装置１００の構成例について説明する。図５は、本実施例に係る情報処理装置の構成を示す機能ブロック図である。図５に示すように、情報処理装置１００は、通信部１１０、入力部１２０、表示部１３０、記憶部１４０、制御部１５０を有する。

通信部１１０は、ネットワークを介して、カメラ１０、外部装置等とデータ通信を実行する。たとえば、通信部１１０は、カメラ１０から映像データを受信する。

入力部１２０は、ユーザによる入力操作に対応して、制御部１５０に対して各種の情報を入力する。

表示部１３０は、制御部１５０から出力される情報を表示する。

記憶部１４０は、学習データテーブル４０、骨格推定モデル５０、特徴量算出モデル６０、映像バッファ１４１、基準設定情報１４２、カメラパラメータテーブル１４３、特徴量ＤＢ（Data Base）１４４を有する。記憶部１４０は、ＲＡＭ（Random Access Memory)、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等である。

学習データテーブル４０ａは、特徴量算出モデル６０を訓練する複数の学習データを保持するテーブルである。たとえば、学習データテーブル４０の学習データは、人物の時系列のフレーム（静止画像）を入力データとし、人物の特徴量を正解ラベルとする学習データである。本実施例では、時系列のフレームを、訓練済みの骨格推定モデル５０に入力することで、時系列の骨格情報を推定し、係る時系列の骨格情報を、特徴量算出モデル６０の入力とする。本実施例では、学習データの入力データとして用いる時系列のフレームを、カメラ１０ａが撮影した映像データとする。

骨格推定モデル５０は、フレームを入力とし、かかるフレームに含まれる人物の骨格情報を出力とするモデルである。骨格推定モデル５０は、ＮＮ等である。人物の骨格情報には、人物の各関節と、各関節の２次元座標とが設定される。骨格推定モデル５０を訓練済みとする。

特徴量算出モデル６０は、時系列の骨格情報を入力とし、人物の特徴量を出力とするモデルである。

映像バッファ１４１は、カメラ１０が撮影した映像データを格納する。図６は、映像バッファのデータ構造の一例を示す図である。図６に示すように、この映像バッファ１４１は、カメラ識別情報と、映像データとを対応付ける。カメラ識別情報は、カメラ１０ａ～１０ｄをそれぞれ識別する情報である。たとえば、カメラ１０ａの識別情報を、カメラ識別情報Ｃ１０ａとする。カメラ１０ｂの識別情報を、カメラ識別情報Ｃ１０ｂとする。カメラ１０ｃの識別情報を、カメラ識別情報Ｃ１０ｃとする。カメラ１０ｄの識別情報を、カメラ識別情報Ｃ１０ｄとする。映像データは、カメラ１０が撮影した映像データであり、時系列のフレーム（静止画像）が含まれる。各フレームには、時系列にフレーム番号が付与される。

基準設定情報１４２は、図２で説明した事前処理によって特定される基準身長の情報と、基準ピクセル長の情報とを含む。図７は、基準設定情報のデータ構造の一例を示す図である。図７に示すように、この基準設定情報１４２は、基準身長と、基準ピクセル長とを対応付ける。基準身長および基準ピクセル長は、カメラ１０で共通となる。

カメラパラメータテーブル１４３は、カメラ１０のパラメータを保持する。図８は、パラメータテーブルのデータ構造の一例を示す図である。カメラ識別情報と、カメラ１０の位置情報と、高さ、角度、焦点距離とを対応付ける。カメラ１０の位置情報には、カメラ１０が設置された経度、緯度などが設定される。高さ、角度、焦点距離は、カメラ１０のパラメータである。本実施例では、角度を、カメラ１０の俯角とするが、これに限定されるものではなく、パン、チルト、ロール等の角度であってもよい。

特徴量ＤＢ１４４は、各カメラ１０の映像データを基にして算出される特徴量を保持するテーブルである。図９は、特徴量ＤＢのデータ構造の一例を示す図である。図９に示すように、この特徴量ＤＢ１４４は、カメラ識別情報と、特徴量とを対応付ける。特徴量は、映像データから推定される時系列の骨格情報を、特徴量算出モデル６０に入力することで、算出される特徴量である。

図５の説明に戻る。制御部１５０は、取得部１５１、事前処理部１５２、学習部１５３、特徴量算出部１５４、補正処理部１５５、照合部１５６を有する。制御部１５０は、ＣＰＵ（Central Processing Unit）やＭＰＵ(Micro Processing Unit)等の集積回路である。

取得部１５１は、カメラ１０から、映像データを取得する。取得部１５１は、取得した映像データを、カメラ識別情報に対応付けて、映像バッファ１４１に登録する。

事前処理部１５２は、上述した事前処理を実行する。たとえば、事前処理部１５２は、ユーザの操作する入力部１２０から、「基準設定情報１４２」の入力を受け付ける。かかる基準設定情報１４２には、図７で説明した基準身長と、基準ピクセル長とが設定される。事前処理部１５２は、受け付けた基準設定情報１４２を、記憶部１４０に登録する。

また、事前処理部１５２は、カメラ１０ａが撮影した映像データを基にして、カメラ１０ａの位置推定（カメラのキャリブレーション）を実行し、カメラ１０ａのパラメータ（高さ、角度、焦点距離）を算出する。事前処理部１５２は、どのような技術を用いて、カメラ１０ａのパラメータを算出してもよい。たとえば、事前処理部１５２は、文献「Yoshioka, T., Awai, S., and Konno., T. “Improving person re-identification based on human height information”. 2021 International Conference on Engineering and Emerging Technologies (ICEET)」に基づいて、パラメータを算出する。

事前処理部１５２は、カメラ識別情報「Ｃａ１０ａ」、パラメータの算出結果となる高さ、角度、焦点距離、入力部１２０を操作するユーザから入力されるカメラ１０ａの位置情報をカメラパラメータテーブル１４３に登録する。

事前処理部１５２は、カメラ１０ｂ～１０ｄについても、上記処理を実行することで、カメラ１０ｂ～１０ｄに対応するパラメータを算出し、算出結果を、カメラパラメータテーブル１４３に登録する。

ところで、事前処理部１５２が、上記処理を実行することで、カメラパラメータテーブル１４３に登録する情報を生成する場合について説明したが、これに限定されるものではない。たとえば、事前処理部１５２は、入力部１２０、通信部１１０等を介して、既に情報が登録済みのカメラパラメータテーブル１４３を受信し、記憶部１４０に登録してもよい。

学習部１５３は、学習データテーブル４０に登録された学習データを用いて、特徴量算出モデル６０を訓練する。学習部１５３は、学習データの入力データ（時系列のフレーム）を順に、骨格推定モデル５０に入力することで、時系列の骨格情報を推定する。学習部１５３は、フレームから人物の領域を抽出し、抽出した領域を、骨格推定モデル５０に入力する。

推定された時系列の骨格情報は、後述する補正処理部１５５によって補正される。学習部１５３は、補正された時系列の骨格情報を、特徴量算出モデル６０に入力した際の特徴量が、学習データの正解ラベルの近づくように、特徴量算出モデル６０を訓練する。たとえば、学習部１５３は、誤差逆伝播法に基づいて、特徴量算出モデル６０を訓練する。

特徴量算出部１５４は、映像バッファ１４１に格納された映像データ（時系列のフレーム）を取得し、時系列のフレームを順に、骨格推定モデル５０に入力することで、時系列の骨格情報を推定する。特徴量算出部１５４は、フレームから人物の領域を抽出し、抽出した領域を、骨格推定モデル５０に入力する。

推定された時系列の骨格情報は、後述する補正処理部１５５によって補正される。特徴量算出部１５４は、補正された時系列の骨格情報を、特徴量算出モデル６０に入力することで、カメラ１０が撮影した映像データの人物の特徴量を算出する。特徴量算出部１５４は、カメラ１０ａ～１０ｄが撮影した映像データについて、上記処理をそれぞれ実行することで、特徴量を算出し、算出した特徴量を、カメラ識別情報と対応付けて、特徴量ＤＢ１４４に登録する。特徴量算出部１５４が利用する特徴量算出モデル６０は、学習部１５３によって訓練済みとする。

補正処理部１５５は、図３および図４で説明した補正処理を行う。まず、補正処理部１５５が、学習部１５３と協働して実行する補正処理について説明する。

上記のように、学習部１５３は、学習データのフレームを、骨格推定モデル５０に入力することで、骨格情報を推定する。学習フレームのフレームを撮影したカメラを、カメラ１０ａとすると、補正処理部１５５は、カメラパラメータテーブル１４３から、カメラ識別情報「Ｃａ１０ａ」に対応するパラメータ（高さ、角度、焦点距離）を取得する。補正処理部１５５は、基準設定情報１４２から、カメラ１０で共通の基準身長、基準ピクセル長を取得する。

補正処理部１５５は、学習データのフレームに含まれる人物の領域を特定し、カメラ１０ａのパラメータを基にして、特定した領域の人物の推定身長を推定する。補正処理部１５５は、基準身長、推定身長、基準ピクセル長を基にして、条件１を満たす対象ピクセル長を特定する。補正処理部１５５は、対象ピクセル長を基にして、学習データのフレームを、骨格推定モデル５０に入力することで推定された骨格情報のスケール変換を実行する。補正処理部１５５は、学習データの他のフレームから生成される骨格情報についても、上記処理を繰り返し実行し、時系列の骨格情報のスケール変換を実行する。

続いて、補正処理部１５５が、特徴量算出部１５４と協働して実行する補正処理について説明する。

上記のように、特徴量算出部１５４は、カメラ１０が撮影した映像データ（フレーム）を、骨格推定モデル５０に入力することで、骨格情報を推定する。ここでは、カメラ１０ａが撮影した映像データ（フレーム）によって推定される骨格情報を用いて説明する。補正処理部１５５は、カメラパラメータテーブル１４３から、カメラ識別情報「Ｃａ１０ａ」に対応するパラメータ（高さ、角度、焦点距離）を取得する。補正処理部１５５は、基準設定情報１４２から、基準身長、基準ピクセル長を取得する。

補正処理部１５５は、映像データのフレームに含まれる人物の領域を特定し、カメラ１０ａのパラメータを基にして、特定した領域の人物の推定身長を推定する。補正処理部１５５は、基準身長、推定身長、基準ピクセル長を基にして、条件１を満たす対象ピクセル長を特定する。補正処理部１５５は、対象ピクセル長を基にして、映像データのフレームを、骨格推定モデル５０に入力することで推定された骨格情報のスケール変換を実行する。補正処理部１５５は、カメラ１０ａが撮影した映像データの他のフレームから生成される骨格情報についても、上記処理を繰り返し実行し、時系列の骨格情報を補正する。

補正処理部１５５は、他のカメラ１０ｂ～１０ｄが撮影した映像データから推定される時系列の骨格情報についても、上記の処理と同様の処理を実行することで、時系列の骨格情報のスケール変換を実行する。

照合部１５６は、ユーザの操作する入力装置から、捜査対象となる人物の指定を受け付けた場合に、下記の処理を実行する。以下の説明では、捜査対象となる人物を、「対象人物」と表記する。たとえば、照合部１５６は、対象人物を撮影したカメラのカメラ識別情報を受け付けると、特徴量ＤＢ１４４を基にして、受け付けたカメラ識別情報に対応する特徴量を特定する。特定した特徴量を、「対象特徴量」と表記する。

照合部１５６は、特徴量ＤＢ１４４において、対象特徴量と、他の特徴量のコサイン類似度をそれぞれ算出し、コサイン類似度が閾値以上となる、他の特徴量を特定する。特定した他の特徴量を「特定特徴量」と表記する。照合部１５６は、特定特徴量に対応するカメラ識別情報を、対象人物を撮影したカメラの識別情報として特定し、特定したカメラ識別情報に対応する映像データを、映像バッファ１４１から抽出する。照合部１５６は、抽出した映像データを、表示部１３０に出力してもよいし、ネットワークを介して、外部装置に送信してもよい。

次に、本実施例に係る情報処理装置１００の処理手順の一例について説明する。図１０は、本実施例に係る情報処理装置の学習時の処理手順を示すフローチャートである。図１０に示すように、情報処理装置１００の学習部１５３は、学習データテーブル４０から、映像データの時系列のフレームを取得する（ステップＳ１０１）。

学習部１５３は、映像データの各フレームから人物の領域を抽出する（ステップＳ１０２）。学習部１５３は、人物の領域の情報を時系列に、骨格推定モデル５０に入力することで、時系列の骨格情報を推定する（ステップＳ１０３）。

情報処理装置１００の補正処理部１５５は、基準設定情報１４２、カメラパラメータテーブル１４３を基にして、時系列の骨格情報に対してスケール変換を実行する（ステップＳ１０４）。学習部１５３は、スケール変換後の時系列の骨格情報を、特徴量算出モデル６０に入力し、出力結果が正解ラベルに近づくように、特徴量算出モデル６０を訓練する（ステップＳ１０５）。

学習部１５３は、処理を継続する場合には（ステップＳ１０６，Ｙｅｓ）、ステップＳ１０１に移行する。学習部１５３は、処理を継続しない場合には（ステップＳ１０６，Ｎｏ）、処理を終了する。

図１１は、本実施例に係る情報処理装置の照合時の処理手順を示すフローチャートである。図１１に示すように、情報処理装置１００の取得部１５１は、カメラ１０から映像データを取得し、映像バッファ１４１に登録する（ステップＳ２０１）。

特徴量算出部１５４は、映像バッファ１４１から映像データを取得する（ステップＳ２０２）。特徴量算出部１５４は、映像データの各フレームから人物の領域を抽出する（ステップＳ２０３）。特徴量算出部１５４は、人物の領域の情報を時系列に、骨格推定モデル５０に入力することで、時系列の骨格情報を推定する（ステップＳ２０４）。

情報処理装置１００の補正処理部１５５は、基準設定情報１４２、カメラパラメータテーブル１４３を基にして、時系列の骨格情報に対してスケール変換を実行する（ステップＳ２０５）。

特徴量算出部１５４は、スケール変換後の時系列の骨格情報を、特徴量算出モデル６０に入力し、特徴量を算出する（ステップＳ２０６）。

特徴量算出部１５４は、特徴量を特徴量ＤＢ１４４に登録する（ステップＳ２０７）。情報処理装置１００の照合部１５６は、照合処理を実行する（ステップＳ２０８）。

次に、図１１のステップＳ２０８に示した照合処理の一例について説明する。図１２は、本実施例に係る照合処理の処理手順を示すフローチャートである。図１２に示すように、情報処理装置１００の照合部１５６は、対象人物を撮影したカメラ１０のカメラ識別情報の入力を受け付ける（ステップＳ３０１）。

照合部１５６は、特徴量ＤＢ１４４から、対象人物の対象特徴量を特定する（ステップＳ３０２）。照合部１５６は、対象特徴量と、他の特徴量とのコサイン類似度をそれぞれ算出する（ステップＳ３０３）。

照合部１５６は、対象特徴量とのコサイン類似度が閾値以上となる特徴量に対応するカメラ識別情報の映像データを、映像バッファ１４１から抽出する（ステップＳ３０４）。照合部１５６は、抽出した映像データを表示部１３０に出力する（ステップＳ３０５）。

次に、本実施例に係る情報処理装置１００の効果について説明する。情報処理装置１００は、映像データのフレームを骨格推定モデルに入力して推定した骨格情報を、基準設定情報１４２、カメラパラメータテーブル１４３を基にして補正し、補正した時系列の骨格情報を、特徴量算出モデル６０に入力して特徴量を算出する。これによって、フレームの解像度および人物の条件が学習データの解像度および人物の条件と大きく異なっている場合でも、適切な骨格情報を推定することができる。たとえば、図４で説明したスケール変換によって、入力データ毎の座標範囲のずれを補正することができる。

情報処理装置１００は、特徴量ＤＢ１４４に登録された対象人物の対象特徴量と、他の特徴量とのコサイン類似度をそれぞれ算出し、コサイン類似度が閾値以上となる特徴量に対応するカメラ識別情報の映像データを抽出する。これによって、対象人物に関する映像データを提供することができる。

情報処理装置１００は、学習データのフレームを、骨格推定モデルに入力して推定した骨格情報を、基準設定情報１４２、カメラパラメータテーブル１４３を基にして補正し、補正した時系列の骨格情報を用いて、特徴量算出モデル６０を訓練する。これによって、特徴量算出モデル６０に入力する骨格情報の精度を向上させ、特徴量算出モデル６０の学習を適切に実行することができる。

次に、上記実施例に示した情報処理装置１００と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図１３は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

図１３に示すように、コンピュータ２００は、各種演算処理を実行するＣＰＵ２０１と、ユーザからのデータの入力を受け付ける入力装置２０２と、ディスプレイ２０３とを有する。また、コンピュータ２００は、有線または無線ネットワークを介して、外部装置等との間でデータの授受を行う通信装置２０４と、インタフェース装置２０５とを有する。また、コンピュータ２００は、各種情報を一時記憶するＲＡＭ２０６と、ハードディスク装置２０７とを有する。そして、各装置２０１～２０７は、バス２０８に接続される。

ハードディスク装置２０７は、取得プログラム２０７ａ、事前処理プログラム２０７ｂ、学習プログラム２０７ｃ、特徴量算出プログラム２０７ｄ、補正処理プログラム２０７ｅ、照合プログラム２０７ｆを有する。また、ＣＰＵ２０１は、各プログラム２０７ａ～２０７ｆを読み出してＲＡＭ２０６に展開する。

取得プログラム２０７ａは、取得プロセス２０６ａとして機能する。事前処理プログラム２０７ｂは、事前処理プロセス２０６ｂとして機能する。学習プログラム２０７ｃは、学習プロセス２０６ｃとして機能する。特徴量算出プログラム２０７ｄは、特徴量算出プロセス２０６ｄとして機能する。補正処理プログラム２０７ｅは、補正処理プロセス２０６ｅとして機能する。照合プログラム２０７ｆは、照合プロセス２０６ｆとして機能する。

取得プロセス２０６ａの処理は、取得部１５１の処理に対応する。事前処理プロセス２０６ｂの処理は、事前処理部１５２の処理に対応する。学習プロセス２０６ｃの処理は、学習部１５３の処理に対応する。特徴量算出プロセス２０６ｄの処理は、特徴量算出部１５４の処理に対応する。補正処理プロセス２０６ｅの処理は、補正処理部１５５の処理に対応する。照合プロセス２０６ｆの処理は、照合部１５６の処理に対応する。

なお、各プログラム２０７ａ～２０７ｆについては、必ずしも最初からハードディスク装置２０７に記憶させておかなくても良い。例えば、コンピュータ２００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＤＶＤ、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ２００が各プログラム２０７ａ～２０７ｆを読み出して実行するようにしてもよい。

以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。

（付記１）カメラで撮影された映像を取得し、
取得した前記映像に含まれる人物の骨格認識に基づいて、前記人物の時系列での骨格の位置を推定し、
前記カメラのパラメータに基づいて、前記人物の第１身長を推定し、
推定された前記人物の第１身長と、前記映像を構成する画素あたりの基準となる第１画素長とを用いて、推定された前記人物の骨格の位置を補正し、
補正された前記人物の骨格の時系列での位置に基づいて、前記人物の照合を実施する
処理をコンピュータに実行させることを特徴とする照合プログラム。

（付記２）ある人物の第２身長と、映像に含まれる前記ある人物の胴体部の第２画素長とを取得する処理を更に実行し、前記補正する処理は、前記映像を構成する画素あたりの基準となる前記第１画素長であって、前記映像に含まれる前記人物の胴体部の前記第１画素長を特定し、前記第１身長および前記第２身長の比率と、前記第１画素長および前記第２画素長の比率とが同一の比率となる第１画素長を特定し、特徴した第１画素長に基づいて、前記人物の骨格の位置を補正することを特徴とする付記１に記載の照合プログラム。

（付記３）前記カメラのパラメータに基づいて、学習データの映像に含まれる人物の第３身長を推定する処理を更に実行し、前記学習データの映像を構成する画素あたりの基準となる第３画素長であって、前記学習データの映像に含まれる前記人物の胴体部の第３画素長を特定し、前記第２身長および前記第３身長の比率と、前記第２画素長および前記第３画素長の比率とが同一の比率となる第３画素長を特定し、特徴した第３画素長に基づいて、前記学習データから推定された前記人物の骨格の位置を補正する処理を更に実行することを特徴とする付記２に記載の照合プログラム。

（付記４）撮影する映像の俯角が異なるとともに設置される場所が異なる複数のカメラのそれぞれで撮影された映像を取得し、
取得した複数のカメラのそれぞれで撮影された映像の中から、捜査の対象となる人物を設定し、
設定された捜査の対象となる人物の骨格の時系列での位置と、前記複数のカメラのそれぞれで撮影された映像に含まれる人物の骨格の時系列での位置とに基づいて、複数のカメラのそれぞれで撮影された映像から、捜査の対象となる人物を含む映像を抽出する処理を更にコンピュータに実行させることを特徴とする付記２または３に記載の照合プログラム。

（付記５）カメラで撮影された映像を取得し、
取得した前記映像に含まれる人物の骨格認識に基づいて、前記人物の時系列での骨格の位置を推定し、
前記カメラのパラメータに基づいて、前記人物の第１身長を推定し、
推定された前記人物の第１身長と、前記映像を構成する画素あたりの基準となる第１画素長とを用いて、推定された前記人物の骨格の位置を補正し、
補正された前記人物の骨格の時系列での位置に基づいて、前記人物の照合を実施する
処理をコンピュータが実行することを特徴とする照合方法。

（付記６）ある人物の第２身長と、映像に含まれる前記ある人物の胴体部の第２画素長とを取得する処理を更に実行し、前記補正する処理は、前記映像を構成する画素あたりの基準となる前記第１画素長であって、前記映像に含まれる前記人物の胴体部の前記第１画素長を特定し、前記第１身長および前記第２身長の比率と、前記第１画素長および前記第２画素長の比率とが同一の比率となる第１画素長を特定し、特徴した第１画素長に基づいて、前記人物の骨格の位置を補正することを特徴とする付記５に記載の照合方法。

（付記７）前記カメラのパラメータに基づいて、学習データの映像に含まれる人物の第３身長を推定する処理を更に実行し、前記学習データの映像を構成する画素あたりの基準となる第３画素長であって、前記学習データの映像に含まれる前記人物の胴体部の第３画素長を特定し、前記第２身長および前記第３身長の比率と、前記第２画素長および前記第３画素長の比率とが同一の比率となる第３画素長を特定し、特徴した第３画素長に基づいて、前記学習データから推定された前記人物の骨格の位置を補正する処理を更に実行することを特徴とする付記６に記載の照合方法。

（付記８）撮影する映像の俯角が異なるとともに設置される場所が異なる複数のカメラのそれぞれで撮影された映像を取得し、
取得した複数のカメラのそれぞれで撮影された映像の中から、捜査の対象となる人物を設定し、
設定された捜査の対象となる人物の骨格の時系列での位置と、前記複数のカメラのそれぞれで撮影された映像に含まれる人物の骨格の時系列での位置とに基づいて、複数のカメラのそれぞれで撮影された映像から、捜査の対象となる人物を含む映像を抽出する処理を更にコンピュータが実行することを特徴とする付記６または７に記載の照合方法。

（付記９）カメラで撮影された映像を取得し、
取得した前記映像に含まれる人物の骨格認識に基づいて、前記人物の時系列での骨格の位置を推定し、
前記カメラのパラメータに基づいて、前記人物の第１身長を推定し、
推定された前記人物の第１身長と、前記映像を構成する画素あたりの基準となる第１画素長とを用いて、推定された前記人物の骨格の位置を補正し、
補正された前記人物の骨格の時系列での位置に基づいて、前記人物の照合を実施する
処理を実行する制御部を有する情報処理装置。

（付記１０）ある人物の第２身長と、映像に含まれる前記ある人物の胴体部の第２画素長とを取得する処理を更に実行し、前記補正する処理は、前記映像を構成する画素あたりの基準となる前記第１画素長であって、前記映像に含まれる前記人物の胴体部の前記第１画素長を特定し、前記第１身長および前記第２身長の比率と、前記第１画素長および前記第２画素長の比率とが同一の比率となる第１画素長を特定し、特徴した第１画素長に基づいて、前記人物の骨格の位置を補正することを特徴とする付記９に記載の情報処理装置。

（付記１１）前記カメラのパラメータに基づいて、学習データの映像に含まれる人物の第３身長を推定する処理を更に実行し、前記学習データの映像を構成する画素あたりの基準となる第３画素長であって、前記学習データの映像に含まれる前記人物の胴体部の第３画素長を特定し、前記第２身長および前記第３身長の比率と、前記第２画素長および前記第３画素長の比率とが同一の比率となる第３画素長を特定し、特徴した第３画素長に基づいて、前記学習データから推定された前記人物の骨格の位置を補正する処理を更に実行することを特徴とする付記１０に記載の情報処理装置。

（付記１２）前記制御部は、撮影する映像の俯角が異なるとともに設置される場所が異なる複数のカメラのそれぞれで撮影された映像を取得し取得した複数のカメラのそれぞれで撮影された映像の中から、捜査の対象となる人物を設定し、設定された捜査の対象となる人物の骨格の時系列での位置と、前記複数のカメラのそれぞれで撮影された映像に含まれる人物の骨格の時系列での位置とに基づいて、複数のカメラのそれぞれで撮影された映像から、捜査の対象となる人物を含む映像を抽出する処理を更に実行することを特徴とする付記１０または１１に記載の情報処理装置。

４０学習データテーブル
５０骨格推定モデル
６０特徴量算出モデル
１００情報処理装置
１１０通信部
１２０入力部
１３０表示部
１４０記憶部
１４１映像バッファ
１４２基準設定情報
１４３カメラパラメータテーブル
１４４特徴量ＤＢ
１５０制御部
１５１取得部
１５２事前処理部
１５３学習部
１５４特徴量算出部
１５５補正処理部
１５６照合部

Claims

カメラで撮影された映像を取得し、
取得した前記映像に含まれる人物の骨格認識に基づいて、前記人物の時系列での骨格の位置を推定し、
前記カメラのパラメータに基づいて、前記人物の第１身長を推定し、
推定された前記人物の第１身長と、前記映像を構成する画素あたりの基準となる第１画素長とを用いて、推定された前記人物の骨格の位置を補正し、
補正された前記人物の骨格の時系列での位置に基づいて、前記人物の照合を実施する
処理をコンピュータに実行させることを特徴とする照合プログラム。
ある人物の第２身長と、映像に含まれる前記ある人物の胴体部の第２画素長とを取得する処理を更に実行し、前記補正する処理は、前記映像を構成する画素あたりの基準となる前記第１画素長であって、前記映像に含まれる前記人物の胴体部の前記第１画素長を特定し、前記第１身長および前記第２身長の比率と、前記第１画素長および前記第２画素長の比率とが同一の比率となる第１画素長を特定し、特徴した第１画素長に基づいて、前記人物の骨格の位置を補正することを特徴とする請求項１に記載の照合プログラム。
前記カメラのパラメータに基づいて、学習データの映像に含まれる人物の第３身長を推定する処理を更に実行し、前記学習データの映像を構成する画素あたりの基準となる第３画素長であって、前記学習データの映像に含まれる前記人物の胴体部の第３画素長を特定し、前記第２身長および前記第３身長の比率と、前記第２画素長および前記第３画素長の比率とが同一の比率となる第３画素長を特定し、特徴した第３画素長に基づいて、前記学習データから推定された前記人物の骨格の位置を補正する処理を更に実行することを特徴とする請求項２に記載の照合プログラム。
撮影する映像の俯角が異なるとともに設置される場所が異なる複数のカメラのそれぞれで撮影された映像を取得し、
取得した複数のカメラのそれぞれで撮影された映像の中から、捜査の対象となる人物を設定し、
設定された捜査の対象となる人物の骨格の時系列での位置と、前記複数のカメラのそれぞれで撮影された映像に含まれる人物の骨格の時系列での位置とに基づいて、複数のカメラのそれぞれで撮影された映像から、捜査の対象となる人物を含む映像を抽出する処理を更にコンピュータに実行させることを特徴とする請求項２または３に記載の照合プログラム。
カメラで撮影された映像を取得し、
取得した前記映像に含まれる人物の骨格認識に基づいて、前記人物の時系列での骨格の位置を推定し、
前記カメラのパラメータに基づいて、前記人物の第１身長を推定し、
推定された前記人物の第１身長と、前記映像を構成する画素あたりの基準となる第１画素長とを用いて、推定された前記人物の骨格の位置を補正し、
補正された前記人物の骨格の時系列での位置に基づいて、前記人物の照合を実施する
処理をコンピュータが実行することを特徴とする照合方法。
カメラで撮影された映像を取得し、
取得した前記映像に含まれる人物の骨格認識に基づいて、前記人物の時系列での骨格の位置を推定し、
前記カメラのパラメータに基づいて、前記人物の第１身長を推定し、
推定された前記人物の第１身長と、前記映像を構成する画素あたりの基準となる第１画素長とを用いて、推定された前記人物の骨格の位置を補正し、
補正された前記人物の骨格の時系列での位置に基づいて、前記人物の照合を実施する
処理を実行する制御部を有する情報処理装置。