JP2024006695A - 照合プログラム、照合方法および情報処理装置 - Google Patents

照合プログラム、照合方法および情報処理装置 Download PDF

Info

Publication number
JP2024006695A
JP2024006695A JP2022107825A JP2022107825A JP2024006695A JP 2024006695 A JP2024006695 A JP 2024006695A JP 2022107825 A JP2022107825 A JP 2022107825A JP 2022107825 A JP2022107825 A JP 2022107825A JP 2024006695 A JP2024006695 A JP 2024006695A
Authority
JP
Japan
Prior art keywords
person
skeleton
video
height
camera
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022107825A
Other languages
English (en)
Inventor
修司 粟井
Shuji Awai
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2022107825A priority Critical patent/JP2024006695A/ja
Priority to AU2023203031A priority patent/AU2023203031A1/en
Priority to EP23173902.0A priority patent/EP4303831A1/en
Priority to US18/200,576 priority patent/US20240005554A1/en
Publication of JP2024006695A publication Critical patent/JP2024006695A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/292Multi-camera tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Geometry (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Collating Specific Patterns (AREA)
  • Closed-Circuit Television Systems (AREA)

Abstract

【課題】照合精度を向上させること。【解決手段】情報処理装置は、カメラで撮影された映像を取得し、取得した映像に含まれる人物の骨格認識に基づいて、人物の時系列での骨格の位置を推定する。情報処理装置は、カメラのパラメータに基づいて、人物の第1身長を推定し、推定された人物の第1身長と、映像を構成する画素あたりの基準となる第1画素長とを用いて、推定された人物の骨格の位置を補正する。情報処理装置は、補正された人物の骨格の時系列での位置に基づいて、人物の照合を実施する。【選択図】図4

Description

本発明は、照合プログラム等に関する。
カメラによって撮影された映像は各種の捜査で用いられ、重要な情報となり得る。たとえば、警察が対象人物を捜査する場合、複数の位置に設置されたカメラの映像を解析し、人物の特徴に基づく照合を行うことで、人物の追跡等を行う。ここで、人物の特徴として、人物の顔、人物の服装、髪型を用いると、映像が不鮮明である場合に、照合精度が低下するため、歩容照合技術が利用される。
図14は、従来の歩容照合技術を説明するための図である。ここでは、従来の歩容照合技術を実行する装置を「従来装置」と表記する。従来装置は、人物の映像に含まれる時系列のフレームI,I,・・・,Iを、学習モデルM1に入力することで、時系列の骨格情報p,p、・・・pを推定する。
骨格情報p~pには、複数の関節の座標が設定される。従来装置は、時系列の骨格情報p~pを、学習モデルM2に入力することで、人物の特徴量Fを算出する。特徴量Fは、128次元のベクトルであり、一人の人物の映像(時系列のフレームI,I,・・・,I)から、一つの特徴量Fが算出される。なお、学習モデルM1,M2は、学習データを用いて、事前に訓練しておく。
従来装置は、人物毎に図14で説明した処理を実行することで、人物毎の特徴量を算出する。従来装置は、各人物の特徴量の類似度を基にして、同一の人物を特定する。たとえば、第1地点のカメラで撮影した第1人物の映像の特徴量と、第2地点のカメラで撮影した映像の第2人物の特徴量との類似度が閾値以上である場合に、第1人物と第2人物とを同一人物として特定する。
特開2020-77017号公報 特開2022-65241号公報
しかしながら、上述した従来の歩容照合技術では、学習モデルM1の訓練で用いた学習データにない人物の条件で照合を行うと、照合精度が低下するという問題がある。人物の条件は、人物のサイズ、人物が歩く位置等の条件である。
図15は、従来技術の問題を説明するための図である。たとえば、学習データを、学習データIm1とする。学習データIm1の解像度を「320×240」とする。照合対象データを、照合対象データIm2,Im3とする。照合対象データIm2の解像度を「320×240」とする。照合対象データIm3の解像度を「1280×720」とする。
照合対象データIm2の解像度および人物の条件は、学習データIm1の解像度および人物の条件と類似している。この場合、従来装置が、照合対象データIm2を学習モデルM1に入力すると、適切な特徴量が算出され、照合精度が高くなる。
一方、照合対象データIm3の解像度および人物の条件は、学習データIm1の解像度および人物の条件と大きく異なっている。このため、従来装置が、照合対象データIm3を学習モデルM1に入力すると、適切な特徴量が算出されず、照合精度が低くなる。
1つの側面では、本発明は、照合精度を向上させることができる照合プログラム、照合方法および情報処理装置を提供することを目的とする。
第1の案では、コンピュータに次の処理を実行する。コンピュータは、カメラで撮影された映像を取得し、取得した映像に含まれる人物の骨格認識に基づいて、人物の時系列での骨格の位置を推定する。コンピュータは、カメラのパラメータに基づいて、人物の第1身長を推定し、推定された人物の第1身長と、映像を構成する画素あたりの基準となる第1画素長とを用いて、推定された人物の骨格の位置を補正する。コンピュータは、補正された人物の骨格の時系列での位置に基づいて、人物の照合を実施する。
照合精度を向上させることができる。
図1は、本実施例に係る照合システムを示す図である。 図2は、事前処理を説明するための図である。 図3は、補正処理を説明するための図(1)である。 図4は、補正処理を説明するための図(2)である。 図5は、本実施例に係る情報処理装置の構成を示す機能ブロック図である。 図6は、映像バッファのデータ構造の一例を示す図である。 図7は、基準設定情報のデータ構造の一例を示す図である。 図8は、パラメータテーブルのデータ構造の一例を示す図である。 図9は、特徴量DBのデータ構造の一例を示す図である。 図10は、本実施例に係る情報処理装置の学習時の処理手順を示すフローチャートである。 図11は、本実施例に係る情報処理装置の照合時の処理手順を示すフローチャートである。 図12は、本実施例に係る照合処理の処理手順を示すフローチャートである。 図13は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。 図14は、従来の歩容照合技術を説明するための図である。 図15は、従来技術の問題を説明するための図である。
以下に、本願の開示する照合プログラム、照合方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。
まず、本実施例に係る照合システムの一例について説明する。図1は、本実施例に係る照合システムを示す図である。図1に示すように、この照合システムは、カメラ10a,10b,10c,10dと、情報処理装置100とを有する。カメラ10a~10dと、情報処理装置100とは、無線または有線によって相互に接続される。図示を省略するが、照合システムは、他のカメラを更に有していてもよい。
カメラ10a~10dは、撮像範囲の映像を撮影するカメラである。カメラ10a~10dは、それぞれ異なる位置に設置される。以下の説明では、カメラ10a~10dを特に区別しない場合に、カメラ10と表記する。
カメラ10は、撮影した映像のデータを、情報処理装置100に送信する。以下の説明では、映像のデータを「映像データ」と表記する。映像データには、時系列のフレームが含まれる。フレームは、あるタイミングでカメラ10に撮影された静止画像である。各フレームには時系列にフレーム番号が付与される。また、映像データには、かかる映像データを撮影したカメラ10を識別するカメラ識別情報が付与される。
情報処理装置100は、映像データに含まれる人物の時系列の骨格情報を推定し、時系列の骨格情報を基にして、人物の特徴量を算出する。また、情報処理装置100は、各人物の特徴量を基にして、人物の照合を行う。
ここで、情報処理装置100は、人物の照合精度を高めるために、事前処理、補正処理を実行する。以下において、事前処理、補正処理の一例について説明する。
まず、情報処理装置100が実行する事前処理について説明する。図2は、事前処理を説明するための図である。情報処理装置100は、身長が既知となる人物h1の映像データ(時系列のフレーム)をカメラ10で撮影し、フレームf1から人物の領域A1を特定する。情報処理装置100は、特定した領域A1の人物の胴体部b1のピクセル長を特定する。以下の説明では、既知となる人物h1の身長を「基準身長」と表記する。また、人物h1をカメラ10で撮影した映像データに含まれるフレームf1であって、フレームf1の人物の領域の胴体部b1のピクセル長を「基準ピクセル長」と表記する。
情報処理装置100は、カメラ10が撮影した映像データを基にして、カメラ10の位置推定を実行し、カメラ10のパラメータを算出する。たとえば、カメラ10のパラメータには、カメラ10の高さ、角度、焦点距離等が含まれる。
続いて、情報処理装置100が実行する補正処理について説明する。図3および図4は、補正処理を説明するための図である。図3について説明する。たとえば、情報処理装置100は、カメラ10が撮影したフレームf1-1に含まれる人物の領域A1-1を特定し、カメラ10のパラメータを基にして、領域A1-1の人物の身長を推定する。以下の説明では、フレームの人物の領域から推定した人物の身長を「推定身長」と表記する。
情報処理装置100は、フレームf1-1を、訓練済みの骨格推定モデル50に入力することで、骨格情報p1-1を推定する。骨格推定モデル50は、フレーム(静止画像)を入力とし、人物の骨格情報を出力とするNN(neural network)である。
図4の説明に移行する。ここでは、フレームf1-1を、骨格推定モデル50に入力することで推定した骨格情報p1-1に対して補正する場合について説明する。補正後の骨格情報を、補正骨格情報p1-1’とする。補正骨格情報p1-1’の胴体部pb1´の胴体長(ピクセル長)を、「対象ピクセル長」と表記する。
情報処理装置100は、下記の「条件1」を満たす、対象ピクセル長を特定する。
基準身長:推定身長=基準ピクセル長:対象ピクセル長・・・(条件1)
情報処理装置100は、骨格情報p1-1の胴体部pb1のピクセル長が、対象ピクセル長となるように、骨格情報p1-1のスケールを変換することで、補正骨格情報p1-1´を生成する。補正骨格情報p1-1´の胴体部pb1´のピクセル長が、基準ピクセル長となる。たとえば、情報処理装置100は、対象ピクセル長を、骨格情報p1-1の胴体部pb1のピクセル長で除算した補正値を算出し、骨格情報p1-1の各関節の長さに、補正値を乗算した値を、スケール変換後の各関節の長さとする。
情報処理装置100は、フレームf1-2についても同様にして、人物の領域A1-2を特定し、カメラ10のパラメータを基にして、領域A1-2の推定身長を推定する。また、情報処理装置100は、フレームf1-2を、骨格推定モデル50に入力することで、骨格情報p1-2を推定し、スケールを変換する。
情報処理装置100が、上記の事前処理、補正処理を実行することで、入力データの解像度および人物の条件が学習データの解像度および人物の条件と大きく異なっている場合でも、適切な骨格情報を推定することができる。たとえば、図4で説明したスケール変換によって、入力データ毎の座標範囲のずれを補正することができる。
情報処理装置100は、補正処理を行った時系列の骨格情報を基にして、人物の特徴量を算出することで、照合精度を向上させることができる。
次に、上述した処理を実行する情報処理装置100の構成例について説明する。図5は、本実施例に係る情報処理装置の構成を示す機能ブロック図である。図5に示すように、情報処理装置100は、通信部110、入力部120、表示部130、記憶部140、制御部150を有する。
通信部110は、ネットワークを介して、カメラ10、外部装置等とデータ通信を実行する。たとえば、通信部110は、カメラ10から映像データを受信する。
入力部120は、ユーザによる入力操作に対応して、制御部150に対して各種の情報を入力する。
表示部130は、制御部150から出力される情報を表示する。
記憶部140は、学習データテーブル40、骨格推定モデル50、特徴量算出モデル60、映像バッファ141、基準設定情報142、カメラパラメータテーブル143、特徴量DB(Data Base)144を有する。記憶部140は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等である。
学習データテーブル40aは、特徴量算出モデル60を訓練する複数の学習データを保持するテーブルである。たとえば、学習データテーブル40の学習データは、人物の時系列のフレーム(静止画像)を入力データとし、人物の特徴量を正解ラベルとする学習データである。本実施例では、時系列のフレームを、訓練済みの骨格推定モデル50に入力することで、時系列の骨格情報を推定し、係る時系列の骨格情報を、特徴量算出モデル60の入力とする。本実施例では、学習データの入力データとして用いる時系列のフレームを、カメラ10aが撮影した映像データとする。
骨格推定モデル50は、フレームを入力とし、かかるフレームに含まれる人物の骨格情報を出力とするモデルである。骨格推定モデル50は、NN等である。人物の骨格情報には、人物の各関節と、各関節の2次元座標とが設定される。骨格推定モデル50を訓練済みとする。
特徴量算出モデル60は、時系列の骨格情報を入力とし、人物の特徴量を出力とするモデルである。
映像バッファ141は、カメラ10が撮影した映像データを格納する。図6は、映像バッファのデータ構造の一例を示す図である。図6に示すように、この映像バッファ141は、カメラ識別情報と、映像データとを対応付ける。カメラ識別情報は、カメラ10a~10dをそれぞれ識別する情報である。たとえば、カメラ10aの識別情報を、カメラ識別情報C10aとする。カメラ10bの識別情報を、カメラ識別情報C10bとする。カメラ10cの識別情報を、カメラ識別情報C10cとする。カメラ10dの識別情報を、カメラ識別情報C10dとする。映像データは、カメラ10が撮影した映像データであり、時系列のフレーム(静止画像)が含まれる。各フレームには、時系列にフレーム番号が付与される。
基準設定情報142は、図2で説明した事前処理によって特定される基準身長の情報と、基準ピクセル長の情報とを含む。図7は、基準設定情報のデータ構造の一例を示す図である。図7に示すように、この基準設定情報142は、基準身長と、基準ピクセル長とを対応付ける。基準身長および基準ピクセル長は、カメラ10で共通となる。
カメラパラメータテーブル143は、カメラ10のパラメータを保持する。図8は、パラメータテーブルのデータ構造の一例を示す図である。カメラ識別情報と、カメラ10の位置情報と、高さ、角度、焦点距離とを対応付ける。カメラ10の位置情報には、カメラ10が設置された経度、緯度などが設定される。高さ、角度、焦点距離は、カメラ10のパラメータである。本実施例では、角度を、カメラ10の俯角とするが、これに限定されるものではなく、パン、チルト、ロール等の角度であってもよい。
特徴量DB144は、各カメラ10の映像データを基にして算出される特徴量を保持するテーブルである。図9は、特徴量DBのデータ構造の一例を示す図である。図9に示すように、この特徴量DB144は、カメラ識別情報と、特徴量とを対応付ける。特徴量は、映像データから推定される時系列の骨格情報を、特徴量算出モデル60に入力することで、算出される特徴量である。
図5の説明に戻る。制御部150は、取得部151、事前処理部152、学習部153、特徴量算出部154、補正処理部155、照合部156を有する。制御部150は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等の集積回路である。
取得部151は、カメラ10から、映像データを取得する。取得部151は、取得した映像データを、カメラ識別情報に対応付けて、映像バッファ141に登録する。
事前処理部152は、上述した事前処理を実行する。たとえば、事前処理部152は、ユーザの操作する入力部120から、「基準設定情報142」の入力を受け付ける。かかる基準設定情報142には、図7で説明した基準身長と、基準ピクセル長とが設定される。事前処理部152は、受け付けた基準設定情報142を、記憶部140に登録する。
また、事前処理部152は、カメラ10aが撮影した映像データを基にして、カメラ10aの位置推定(カメラのキャリブレーション)を実行し、カメラ10aのパラメータ(高さ、角度、焦点距離)を算出する。事前処理部152は、どのような技術を用いて、カメラ10aのパラメータを算出してもよい。たとえば、事前処理部152は、文献「Yoshioka, T., Awai, S., and Konno., T. “Improving person re-identification based on human height information”. 2021 International Conference on Engineering and Emerging Technologies (ICEET)」に基づいて、パラメータを算出する。
事前処理部152は、カメラ識別情報「Ca10a」、パラメータの算出結果となる高さ、角度、焦点距離、入力部120を操作するユーザから入力されるカメラ10aの位置情報をカメラパラメータテーブル143に登録する。
事前処理部152は、カメラ10b~10dについても、上記処理を実行することで、カメラ10b~10dに対応するパラメータを算出し、算出結果を、カメラパラメータテーブル143に登録する。
ところで、事前処理部152が、上記処理を実行することで、カメラパラメータテーブル143に登録する情報を生成する場合について説明したが、これに限定されるものではない。たとえば、事前処理部152は、入力部120、通信部110等を介して、既に情報が登録済みのカメラパラメータテーブル143を受信し、記憶部140に登録してもよい。
学習部153は、学習データテーブル40に登録された学習データを用いて、特徴量算出モデル60を訓練する。学習部153は、学習データの入力データ(時系列のフレーム)を順に、骨格推定モデル50に入力することで、時系列の骨格情報を推定する。学習部153は、フレームから人物の領域を抽出し、抽出した領域を、骨格推定モデル50に入力する。
推定された時系列の骨格情報は、後述する補正処理部155によって補正される。学習部153は、補正された時系列の骨格情報を、特徴量算出モデル60に入力した際の特徴量が、学習データの正解ラベルの近づくように、特徴量算出モデル60を訓練する。たとえば、学習部153は、誤差逆伝播法に基づいて、特徴量算出モデル60を訓練する。
特徴量算出部154は、映像バッファ141に格納された映像データ(時系列のフレーム)を取得し、時系列のフレームを順に、骨格推定モデル50に入力することで、時系列の骨格情報を推定する。特徴量算出部154は、フレームから人物の領域を抽出し、抽出した領域を、骨格推定モデル50に入力する。
推定された時系列の骨格情報は、後述する補正処理部155によって補正される。特徴量算出部154は、補正された時系列の骨格情報を、特徴量算出モデル60に入力することで、カメラ10が撮影した映像データの人物の特徴量を算出する。特徴量算出部154は、カメラ10a~10dが撮影した映像データについて、上記処理をそれぞれ実行することで、特徴量を算出し、算出した特徴量を、カメラ識別情報と対応付けて、特徴量DB144に登録する。特徴量算出部154が利用する特徴量算出モデル60は、学習部153によって訓練済みとする。
補正処理部155は、図3および図4で説明した補正処理を行う。まず、補正処理部155が、学習部153と協働して実行する補正処理について説明する。
上記のように、学習部153は、学習データのフレームを、骨格推定モデル50に入力することで、骨格情報を推定する。学習フレームのフレームを撮影したカメラを、カメラ10aとすると、補正処理部155は、カメラパラメータテーブル143から、カメラ識別情報「Ca10a」に対応するパラメータ(高さ、角度、焦点距離)を取得する。補正処理部155は、基準設定情報142から、カメラ10で共通の基準身長、基準ピクセル長を取得する。
補正処理部155は、学習データのフレームに含まれる人物の領域を特定し、カメラ10aのパラメータを基にして、特定した領域の人物の推定身長を推定する。補正処理部155は、基準身長、推定身長、基準ピクセル長を基にして、条件1を満たす対象ピクセル長を特定する。補正処理部155は、対象ピクセル長を基にして、学習データのフレームを、骨格推定モデル50に入力することで推定された骨格情報のスケール変換を実行する。補正処理部155は、学習データの他のフレームから生成される骨格情報についても、上記処理を繰り返し実行し、時系列の骨格情報のスケール変換を実行する。
続いて、補正処理部155が、特徴量算出部154と協働して実行する補正処理について説明する。
上記のように、特徴量算出部154は、カメラ10が撮影した映像データ(フレーム)を、骨格推定モデル50に入力することで、骨格情報を推定する。ここでは、カメラ10aが撮影した映像データ(フレーム)によって推定される骨格情報を用いて説明する。補正処理部155は、カメラパラメータテーブル143から、カメラ識別情報「Ca10a」に対応するパラメータ(高さ、角度、焦点距離)を取得する。補正処理部155は、基準設定情報142から、基準身長、基準ピクセル長を取得する。
補正処理部155は、映像データのフレームに含まれる人物の領域を特定し、カメラ10aのパラメータを基にして、特定した領域の人物の推定身長を推定する。補正処理部155は、基準身長、推定身長、基準ピクセル長を基にして、条件1を満たす対象ピクセル長を特定する。補正処理部155は、対象ピクセル長を基にして、映像データのフレームを、骨格推定モデル50に入力することで推定された骨格情報のスケール変換を実行する。補正処理部155は、カメラ10aが撮影した映像データの他のフレームから生成される骨格情報についても、上記処理を繰り返し実行し、時系列の骨格情報を補正する。
補正処理部155は、他のカメラ10b~10dが撮影した映像データから推定される時系列の骨格情報についても、上記の処理と同様の処理を実行することで、時系列の骨格情報のスケール変換を実行する。
照合部156は、ユーザの操作する入力装置から、捜査対象となる人物の指定を受け付けた場合に、下記の処理を実行する。以下の説明では、捜査対象となる人物を、「対象人物」と表記する。たとえば、照合部156は、対象人物を撮影したカメラのカメラ識別情報を受け付けると、特徴量DB144を基にして、受け付けたカメラ識別情報に対応する特徴量を特定する。特定した特徴量を、「対象特徴量」と表記する。
照合部156は、特徴量DB144において、対象特徴量と、他の特徴量のコサイン類似度をそれぞれ算出し、コサイン類似度が閾値以上となる、他の特徴量を特定する。特定した他の特徴量を「特定特徴量」と表記する。照合部156は、特定特徴量に対応するカメラ識別情報を、対象人物を撮影したカメラの識別情報として特定し、特定したカメラ識別情報に対応する映像データを、映像バッファ141から抽出する。照合部156は、抽出した映像データを、表示部130に出力してもよいし、ネットワークを介して、外部装置に送信してもよい。
次に、本実施例に係る情報処理装置100の処理手順の一例について説明する。図10は、本実施例に係る情報処理装置の学習時の処理手順を示すフローチャートである。図10に示すように、情報処理装置100の学習部153は、学習データテーブル40から、映像データの時系列のフレームを取得する(ステップS101)。
学習部153は、映像データの各フレームから人物の領域を抽出する(ステップS102)。学習部153は、人物の領域の情報を時系列に、骨格推定モデル50に入力することで、時系列の骨格情報を推定する(ステップS103)。
情報処理装置100の補正処理部155は、基準設定情報142、カメラパラメータテーブル143を基にして、時系列の骨格情報に対してスケール変換を実行する(ステップS104)。学習部153は、スケール変換後の時系列の骨格情報を、特徴量算出モデル60に入力し、出力結果が正解ラベルに近づくように、特徴量算出モデル60を訓練する(ステップS105)。
学習部153は、処理を継続する場合には(ステップS106,Yes)、ステップS101に移行する。学習部153は、処理を継続しない場合には(ステップS106,No)、処理を終了する。
図11は、本実施例に係る情報処理装置の照合時の処理手順を示すフローチャートである。図11に示すように、情報処理装置100の取得部151は、カメラ10から映像データを取得し、映像バッファ141に登録する(ステップS201)。
特徴量算出部154は、映像バッファ141から映像データを取得する(ステップS202)。特徴量算出部154は、映像データの各フレームから人物の領域を抽出する(ステップS203)。特徴量算出部154は、人物の領域の情報を時系列に、骨格推定モデル50に入力することで、時系列の骨格情報を推定する(ステップS204)。
情報処理装置100の補正処理部155は、基準設定情報142、カメラパラメータテーブル143を基にして、時系列の骨格情報に対してスケール変換を実行する(ステップS205)。
特徴量算出部154は、スケール変換後の時系列の骨格情報を、特徴量算出モデル60に入力し、特徴量を算出する(ステップS206)。
特徴量算出部154は、特徴量を特徴量DB144に登録する(ステップS207)。情報処理装置100の照合部156は、照合処理を実行する(ステップS208)。
次に、図11のステップS208に示した照合処理の一例について説明する。図12は、本実施例に係る照合処理の処理手順を示すフローチャートである。図12に示すように、情報処理装置100の照合部156は、対象人物を撮影したカメラ10のカメラ識別情報の入力を受け付ける(ステップS301)。
照合部156は、特徴量DB144から、対象人物の対象特徴量を特定する(ステップS302)。照合部156は、対象特徴量と、他の特徴量とのコサイン類似度をそれぞれ算出する(ステップS303)。
照合部156は、対象特徴量とのコサイン類似度が閾値以上となる特徴量に対応するカメラ識別情報の映像データを、映像バッファ141から抽出する(ステップS304)。照合部156は、抽出した映像データを表示部130に出力する(ステップS305)。
次に、本実施例に係る情報処理装置100の効果について説明する。情報処理装置100は、映像データのフレームを骨格推定モデルに入力して推定した骨格情報を、基準設定情報142、カメラパラメータテーブル143を基にして補正し、補正した時系列の骨格情報を、特徴量算出モデル60に入力して特徴量を算出する。これによって、フレームの解像度および人物の条件が学習データの解像度および人物の条件と大きく異なっている場合でも、適切な骨格情報を推定することができる。たとえば、図4で説明したスケール変換によって、入力データ毎の座標範囲のずれを補正することができる。
情報処理装置100は、補正処理を行った時系列の骨格情報を基にして、人物の特徴量を算出することで、照合精度を向上させることができる。
情報処理装置100は、特徴量DB144に登録された対象人物の対象特徴量と、他の特徴量とのコサイン類似度をそれぞれ算出し、コサイン類似度が閾値以上となる特徴量に対応するカメラ識別情報の映像データを抽出する。これによって、対象人物に関する映像データを提供することができる。
情報処理装置100は、学習データのフレームを、骨格推定モデルに入力して推定した骨格情報を、基準設定情報142、カメラパラメータテーブル143を基にして補正し、補正した時系列の骨格情報を用いて、特徴量算出モデル60を訓練する。これによって、特徴量算出モデル60に入力する骨格情報の精度を向上させ、特徴量算出モデル60の学習を適切に実行することができる。
次に、上記実施例に示した情報処理装置100と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図13は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。
図13に示すように、コンピュータ200は、各種演算処理を実行するCPU201と、ユーザからのデータの入力を受け付ける入力装置202と、ディスプレイ203とを有する。また、コンピュータ200は、有線または無線ネットワークを介して、外部装置等との間でデータの授受を行う通信装置204と、インタフェース装置205とを有する。また、コンピュータ200は、各種情報を一時記憶するRAM206と、ハードディスク装置207とを有する。そして、各装置201~207は、バス208に接続される。
ハードディスク装置207は、取得プログラム207a、事前処理プログラム207b、学習プログラム207c、特徴量算出プログラム207d、補正処理プログラム207e、照合プログラム207fを有する。また、CPU201は、各プログラム207a~207fを読み出してRAM206に展開する。
取得プログラム207aは、取得プロセス206aとして機能する。事前処理プログラム207bは、事前処理プロセス206bとして機能する。学習プログラム207cは、学習プロセス206cとして機能する。特徴量算出プログラム207dは、特徴量算出プロセス206dとして機能する。補正処理プログラム207eは、補正処理プロセス206eとして機能する。照合プログラム207fは、照合プロセス206fとして機能する。
取得プロセス206aの処理は、取得部151の処理に対応する。事前処理プロセス206bの処理は、事前処理部152の処理に対応する。学習プロセス206cの処理は、学習部153の処理に対応する。特徴量算出プロセス206dの処理は、特徴量算出部154の処理に対応する。補正処理プロセス206eの処理は、補正処理部155の処理に対応する。照合プロセス206fの処理は、照合部156の処理に対応する。
なお、各プログラム207a~207fについては、必ずしも最初からハードディスク装置207に記憶させておかなくても良い。例えば、コンピュータ200に挿入されるフレキシブルディスク(FD)、CD-ROM、DVD、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ200が各プログラム207a~207fを読み出して実行するようにしてもよい。
以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)カメラで撮影された映像を取得し、
取得した前記映像に含まれる人物の骨格認識に基づいて、前記人物の時系列での骨格の位置を推定し、
前記カメラのパラメータに基づいて、前記人物の第1身長を推定し、
推定された前記人物の第1身長と、前記映像を構成する画素あたりの基準となる第1画素長とを用いて、推定された前記人物の骨格の位置を補正し、
補正された前記人物の骨格の時系列での位置に基づいて、前記人物の照合を実施する
処理をコンピュータに実行させることを特徴とする照合プログラム。
(付記2)ある人物の第2身長と、映像に含まれる前記ある人物の胴体部の第2画素長とを取得する処理を更に実行し、前記補正する処理は、前記映像を構成する画素あたりの基準となる前記第1画素長であって、前記映像に含まれる前記人物の胴体部の前記第1画素長を特定し、前記第1身長および前記第2身長の比率と、前記第1画素長および前記第2画素長の比率とが同一の比率となる第1画素長を特定し、特徴した第1画素長に基づいて、前記人物の骨格の位置を補正することを特徴とする付記1に記載の照合プログラム。
(付記3)前記カメラのパラメータに基づいて、学習データの映像に含まれる人物の第3身長を推定する処理を更に実行し、前記学習データの映像を構成する画素あたりの基準となる第3画素長であって、前記学習データの映像に含まれる前記人物の胴体部の第3画素長を特定し、前記第2身長および前記第3身長の比率と、前記第2画素長および前記第3画素長の比率とが同一の比率となる第3画素長を特定し、特徴した第3画素長に基づいて、前記学習データから推定された前記人物の骨格の位置を補正する処理を更に実行することを特徴とする付記2に記載の照合プログラム。
(付記4)撮影する映像の俯角が異なるとともに設置される場所が異なる複数のカメラのそれぞれで撮影された映像を取得し、
取得した複数のカメラのそれぞれで撮影された映像の中から、捜査の対象となる人物を設定し、
設定された捜査の対象となる人物の骨格の時系列での位置と、前記複数のカメラのそれぞれで撮影された映像に含まれる人物の骨格の時系列での位置とに基づいて、複数のカメラのそれぞれで撮影された映像から、捜査の対象となる人物を含む映像を抽出する処理を更にコンピュータに実行させることを特徴とする付記2または3に記載の照合プログラム。
(付記5)カメラで撮影された映像を取得し、
取得した前記映像に含まれる人物の骨格認識に基づいて、前記人物の時系列での骨格の位置を推定し、
前記カメラのパラメータに基づいて、前記人物の第1身長を推定し、
推定された前記人物の第1身長と、前記映像を構成する画素あたりの基準となる第1画素長とを用いて、推定された前記人物の骨格の位置を補正し、
補正された前記人物の骨格の時系列での位置に基づいて、前記人物の照合を実施する
処理をコンピュータが実行することを特徴とする照合方法。
(付記6)ある人物の第2身長と、映像に含まれる前記ある人物の胴体部の第2画素長とを取得する処理を更に実行し、前記補正する処理は、前記映像を構成する画素あたりの基準となる前記第1画素長であって、前記映像に含まれる前記人物の胴体部の前記第1画素長を特定し、前記第1身長および前記第2身長の比率と、前記第1画素長および前記第2画素長の比率とが同一の比率となる第1画素長を特定し、特徴した第1画素長に基づいて、前記人物の骨格の位置を補正することを特徴とする付記5に記載の照合方法。
(付記7)前記カメラのパラメータに基づいて、学習データの映像に含まれる人物の第3身長を推定する処理を更に実行し、前記学習データの映像を構成する画素あたりの基準となる第3画素長であって、前記学習データの映像に含まれる前記人物の胴体部の第3画素長を特定し、前記第2身長および前記第3身長の比率と、前記第2画素長および前記第3画素長の比率とが同一の比率となる第3画素長を特定し、特徴した第3画素長に基づいて、前記学習データから推定された前記人物の骨格の位置を補正する処理を更に実行することを特徴とする付記6に記載の照合方法。
(付記8)撮影する映像の俯角が異なるとともに設置される場所が異なる複数のカメラのそれぞれで撮影された映像を取得し、
取得した複数のカメラのそれぞれで撮影された映像の中から、捜査の対象となる人物を設定し、
設定された捜査の対象となる人物の骨格の時系列での位置と、前記複数のカメラのそれぞれで撮影された映像に含まれる人物の骨格の時系列での位置とに基づいて、複数のカメラのそれぞれで撮影された映像から、捜査の対象となる人物を含む映像を抽出する処理を更にコンピュータが実行することを特徴とする付記6または7に記載の照合方法。
(付記9)カメラで撮影された映像を取得し、
取得した前記映像に含まれる人物の骨格認識に基づいて、前記人物の時系列での骨格の位置を推定し、
前記カメラのパラメータに基づいて、前記人物の第1身長を推定し、
推定された前記人物の第1身長と、前記映像を構成する画素あたりの基準となる第1画素長とを用いて、推定された前記人物の骨格の位置を補正し、
補正された前記人物の骨格の時系列での位置に基づいて、前記人物の照合を実施する
処理を実行する制御部を有する情報処理装置。
(付記10)ある人物の第2身長と、映像に含まれる前記ある人物の胴体部の第2画素長とを取得する処理を更に実行し、前記補正する処理は、前記映像を構成する画素あたりの基準となる前記第1画素長であって、前記映像に含まれる前記人物の胴体部の前記第1画素長を特定し、前記第1身長および前記第2身長の比率と、前記第1画素長および前記第2画素長の比率とが同一の比率となる第1画素長を特定し、特徴した第1画素長に基づいて、前記人物の骨格の位置を補正することを特徴とする付記9に記載の情報処理装置。
(付記11)前記カメラのパラメータに基づいて、学習データの映像に含まれる人物の第3身長を推定する処理を更に実行し、前記学習データの映像を構成する画素あたりの基準となる第3画素長であって、前記学習データの映像に含まれる前記人物の胴体部の第3画素長を特定し、前記第2身長および前記第3身長の比率と、前記第2画素長および前記第3画素長の比率とが同一の比率となる第3画素長を特定し、特徴した第3画素長に基づいて、前記学習データから推定された前記人物の骨格の位置を補正する処理を更に実行することを特徴とする付記10に記載の情報処理装置。
(付記12)前記制御部は、撮影する映像の俯角が異なるとともに設置される場所が異なる複数のカメラのそれぞれで撮影された映像を取得し取得した複数のカメラのそれぞれで撮影された映像の中から、捜査の対象となる人物を設定し、設定された捜査の対象となる人物の骨格の時系列での位置と、前記複数のカメラのそれぞれで撮影された映像に含まれる人物の骨格の時系列での位置とに基づいて、複数のカメラのそれぞれで撮影された映像から、捜査の対象となる人物を含む映像を抽出する処理を更に実行することを特徴とする付記10または11に記載の情報処理装置。
40 学習データテーブル
50 骨格推定モデル
60 特徴量算出モデル
100 情報処理装置
110 通信部
120 入力部
130 表示部
140 記憶部
141 映像バッファ
142 基準設定情報
143 カメラパラメータテーブル
144 特徴量DB
150 制御部
151 取得部
152 事前処理部
153 学習部
154 特徴量算出部
155 補正処理部
156 照合部

Claims (6)

  1. カメラで撮影された映像を取得し、
    取得した前記映像に含まれる人物の骨格認識に基づいて、前記人物の時系列での骨格の位置を推定し、
    前記カメラのパラメータに基づいて、前記人物の第1身長を推定し、
    推定された前記人物の第1身長と、前記映像を構成する画素あたりの基準となる第1画素長とを用いて、推定された前記人物の骨格の位置を補正し、
    補正された前記人物の骨格の時系列での位置に基づいて、前記人物の照合を実施する
    処理をコンピュータに実行させることを特徴とする照合プログラム。
  2. ある人物の第2身長と、映像に含まれる前記ある人物の胴体部の第2画素長とを取得する処理を更に実行し、前記補正する処理は、前記映像を構成する画素あたりの基準となる前記第1画素長であって、前記映像に含まれる前記人物の胴体部の前記第1画素長を特定し、前記第1身長および前記第2身長の比率と、前記第1画素長および前記第2画素長の比率とが同一の比率となる第1画素長を特定し、特徴した第1画素長に基づいて、前記人物の骨格の位置を補正することを特徴とする請求項1に記載の照合プログラム。
  3. 前記カメラのパラメータに基づいて、学習データの映像に含まれる人物の第3身長を推定する処理を更に実行し、前記学習データの映像を構成する画素あたりの基準となる第3画素長であって、前記学習データの映像に含まれる前記人物の胴体部の第3画素長を特定し、前記第2身長および前記第3身長の比率と、前記第2画素長および前記第3画素長の比率とが同一の比率となる第3画素長を特定し、特徴した第3画素長に基づいて、前記学習データから推定された前記人物の骨格の位置を補正する処理を更に実行することを特徴とする請求項2に記載の照合プログラム。
  4. 撮影する映像の俯角が異なるとともに設置される場所が異なる複数のカメラのそれぞれで撮影された映像を取得し、
    取得した複数のカメラのそれぞれで撮影された映像の中から、捜査の対象となる人物を設定し、
    設定された捜査の対象となる人物の骨格の時系列での位置と、前記複数のカメラのそれぞれで撮影された映像に含まれる人物の骨格の時系列での位置とに基づいて、複数のカメラのそれぞれで撮影された映像から、捜査の対象となる人物を含む映像を抽出する処理を更にコンピュータに実行させることを特徴とする請求項2または3に記載の照合プログラム。
  5. カメラで撮影された映像を取得し、
    取得した前記映像に含まれる人物の骨格認識に基づいて、前記人物の時系列での骨格の位置を推定し、
    前記カメラのパラメータに基づいて、前記人物の第1身長を推定し、
    推定された前記人物の第1身長と、前記映像を構成する画素あたりの基準となる第1画素長とを用いて、推定された前記人物の骨格の位置を補正し、
    補正された前記人物の骨格の時系列での位置に基づいて、前記人物の照合を実施する
    処理をコンピュータが実行することを特徴とする照合方法。
  6. カメラで撮影された映像を取得し、
    取得した前記映像に含まれる人物の骨格認識に基づいて、前記人物の時系列での骨格の位置を推定し、
    前記カメラのパラメータに基づいて、前記人物の第1身長を推定し、
    推定された前記人物の第1身長と、前記映像を構成する画素あたりの基準となる第1画素長とを用いて、推定された前記人物の骨格の位置を補正し、
    補正された前記人物の骨格の時系列での位置に基づいて、前記人物の照合を実施する
    処理を実行する制御部を有する情報処理装置。
JP2022107825A 2022-07-04 2022-07-04 照合プログラム、照合方法および情報処理装置 Pending JP2024006695A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2022107825A JP2024006695A (ja) 2022-07-04 2022-07-04 照合プログラム、照合方法および情報処理装置
AU2023203031A AU2023203031A1 (en) 2022-07-04 2023-05-15 Verification program, verification method, and information processing apparatus
EP23173902.0A EP4303831A1 (en) 2022-07-04 2023-05-17 Verification program, verification method, and information processing apparatus
US18/200,576 US20240005554A1 (en) 2022-07-04 2023-05-23 Non-transitory computer-readable recording medium, verification method, and information processing apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022107825A JP2024006695A (ja) 2022-07-04 2022-07-04 照合プログラム、照合方法および情報処理装置

Publications (1)

Publication Number Publication Date
JP2024006695A true JP2024006695A (ja) 2024-01-17

Family

ID=86387103

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022107825A Pending JP2024006695A (ja) 2022-07-04 2022-07-04 照合プログラム、照合方法および情報処理装置

Country Status (4)

Country Link
US (1) US20240005554A1 (ja)
EP (1) EP4303831A1 (ja)
JP (1) JP2024006695A (ja)
AU (1) AU2023203031A1 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2806634B1 (en) * 2012-01-17 2020-08-12 Sony Corporation Information processing device and method, and program
WO2019064375A1 (ja) * 2017-09-27 2019-04-04 日本電気株式会社 情報処理装置、制御方法、及びプログラム
JP7182778B2 (ja) 2018-11-05 2022-12-05 公立大学法人大阪 歩容解析装置
US20220383653A1 (en) * 2019-10-31 2022-12-01 Nec Corporation Image processing apparatus, image processing method, and non-transitory computer readable medium storing image processing program
JP2022065241A (ja) 2020-10-15 2022-04-27 株式会社日立ハイテク 運動可視化システムおよび運動可視化方法

Also Published As

Publication number Publication date
EP4303831A1 (en) 2024-01-10
AU2023203031A1 (en) 2024-01-18
US20240005554A1 (en) 2024-01-04

Similar Documents

Publication Publication Date Title
JP6942488B2 (ja) 画像処理装置、画像処理システム、画像処理方法、及びプログラム
JP4594945B2 (ja) 人物検索装置および人物検索方法
KR101791590B1 (ko) 물체 자세 인식장치 및 이를 이용한 물체 자세 인식방법
EP2320379B1 (en) Image processing device, object tracking device, and image processing method
JP7311640B2 (ja) 行動予測方法及び装置、歩容認識方法及び装置、電子機器並びにコンピュータ可読記憶媒体
CN104346811B (zh) 基于视频图像的目标实时追踪方法及其装置
US20140177944A1 (en) Method and System for Modeling Subjects from a Depth Map
JP4951498B2 (ja) 顔画像認識装置、顔画像認識方法、顔画像認識プログラムおよびそのプログラムを記録した記録媒体
JP6362085B2 (ja) 画像認識システム、画像認識方法およびプログラム
JP2007233871A (ja) 画像処理装置、コンピュータの制御方法及びプログラム
JP6969878B2 (ja) 識別器学習装置および識別器学習方法
JP5839796B2 (ja) 情報処理装置、情報処理システム、情報処理方法及びプログラム
JP2010244207A (ja) 移動物体追跡装置、移動物体追跡方法および移動物体追跡プログラム
JP2008288684A (ja) 人物検出装置及びプログラム
JP6977337B2 (ja) 部位認識方法、装置、プログラム、及び撮像制御システム
CN113158974A (zh) 姿态估计方法、装置、计算机设备和存储介质
JP2019185556A (ja) 画像解析装置、方法およびプログラム
JP2024006695A (ja) 照合プログラム、照合方法および情報処理装置
CN114463663A (zh) 一种人员身高的计算方法、装置、电子设备及存储介质
JP7386630B2 (ja) 画像処理装置、画像処理装置の制御方法及びプログラム
JP7048347B2 (ja) 位置関係決定装置
JP4823298B2 (ja) 三次元形状復元方法とその装置及びプログラム
JP7256314B2 (ja) 位置関係決定装置
JP2020181268A (ja) 物体対応付け装置、物体対応付けシステム、物体対応付け方法及びコンピュータプログラム
JP3811474B2 (ja) 顔部品位置検出方法及び顔部品位置検出装置