JP2024065990A

JP2024065990A - 照合支援プログラム、照合支援方法、および情報処理装置

Info

Publication number: JP2024065990A
Application number: JP2022175148A
Authority: JP
Inventors: 隆宏吉岡; Takahiro Yoshioka; 剛史紺野; Tsuyoshi Konno
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2022-10-31
Filing date: 2022-10-31
Publication date: 2024-05-15
Also published as: EP4361962A1; AU2023206218A1; US20240144714A1

Abstract

【課題】人物の照合処理の精度向上を図ること。【解決手段】情報処理装置１００は、対象の人物１１１が映った複数のフレームを含む対象の映像１１０上の物体１１２の位置を検出する。情報処理装置１００は、取得した対象の映像１１０上の対象の人物１１１が有するいずれかの部位の位置を検出する。情報処理装置１００は、対象の映像１１０の複数のフレームのうち、検出した物体１１２の動き方と検出したいずれかの部位の動き方とに相関関係が現れるフレームを含まない１以上のフレームを特定する。情報処理装置１００は、特定した１以上のフレームに基づいて、対象の人物１１１の照合処理を実施する。【選択図】図１

Description

本発明は、照合支援プログラム、照合支援方法、および情報処理装置に関する。

従来、第１人物に関する特徴と、第２人物に関する特徴とを照合することにより、第１人物が、第２人物と一致するのかを判定する照合処理を実施することがある。例えば、人物同士の指紋、静脈、光彩、または、声紋などの特徴を照合する技術が考えられる。例えば、人物同士の歩容の特徴を照合する技術が考えられる。

先行技術としては、例えば、撮影画像に写る歩行者の実空間における歩行特性を示す解析データを、個人識別用データと比較することにより、撮影画像に写る歩行者を特定するものがある。また、例えば、被写体の画像に形状モデルを当てはめて、パーツ単位での代表点位置の時系列画像データを抽出する技術がある。また、例えば、映像内の人物の身元を、当該人物の歩行に従って認識する技術がある。また、例えば、電子デバイスの部分的に周期的な動きを検出する技術がある。

特開２０１７－２０５１３５号公報特開２００５－２０２６５３号公報米国特許出願公開第２０１７／０２４３０５８号明細書米国特許出願公開第２０２０／００２６８３１号明細書

しかしながら、従来技術では、人物の照合処理を精度よく実施することが難しい場合がある。例えば、ある人物が荷物を持つ場合の歩容の特徴は、同一の人物が荷物を持たない場合の歩容の特徴と一致しないことがあり、人物の照合処理を精度よく実施することができなくなる場合がある。

１つの側面では、本発明は、人物の照合処理の精度向上を図ることを目的とする。

１つの実施態様によれば、人物を含む映像を取得し、取得した前記映像を分析することで、前記映像の中に含まれる物体を検出し、検出した前記物体と前記人物が有する複数の部位のうちいずれかの部位との位置関係に基づいて、前記物体の動きと前記いずれかの部位の動きとが相関関係を有するか否かを判定し、前記物体の動きと前記いずれかの部位の動きとが相関関係を有すると判定されたときに、前記映像を構成する複数のフレームのうち、前記相関関係が現れる第一のフレームを特定し、前記複数のフレームの中から前記第一のフレームが除外された第二のフレームを用いて、前記人物の照合を実施する照合支援プログラム、照合支援方法、および情報処理装置が提案される。

一態様によれば、人物の照合処理の精度向上を図ることが可能になる。

図１は、実施の形態にかかる照合支援方法の一実施例を示す説明図である。図２は、照合処理システム２００の一例を示す説明図である。図３は、情報処理装置１００のハードウェア構成例を示すブロック図である。図４は、特徴情報管理テーブル４００の記憶内容の一例を示す説明図である。図５は、映像撮影装置２０１のハードウェア構成例を示すブロック図である。図６は、情報処理装置１００の機能的構成例を示すブロック図である。図７は、情報処理装置１００の動作の流れを示す説明図である。図８は、骨格情報を取得する一例を示す説明図（その１）である。図９は、骨格情報を取得する一例を示す説明図（その２）である。図１０は、機械学習モデルを学習する一例を示す説明図である。図１１は、人物を検出する一例を示す説明図である。図１２は、所持品を検出する一例を示す説明図である。図１３は、除外対象とするフレームを特定する一例を示す説明図である。図１４は、処理対象とする１以上のフレームを特定する一例を示す説明図である。図１５は、照合処理を実施する一例を示す説明図である。図１６は、全体処理手順の一例を示すフローチャートである。

以下に、図面を参照して、本発明にかかる照合支援プログラム、照合支援方法、および情報処理装置の実施の形態を詳細に説明する。

（実施の形態にかかる照合支援方法の一実施例）
図１は、実施の形態にかかる照合支援方法の一実施例を示す説明図である。情報処理装置１００は、人物の照合処理の精度向上を図るためのコンピュータである。情報処理装置１００は、例えば、サーバ、または、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）などである。

照合処理は、人物同士を照合することにより、当該人物同士が同一人物であるか否かを判定する処理である。照合処理は、例えば、人物同士の特徴を照合することにより、当該人物同士が同一人物であるか否かを判定する。照合処理は、具体的には、異なるタイミングの映像に映った人物同士を照合し、当該人物同士が同一人物であるか否かを判定する。

ここで、例えば、人物同士の指紋、静脈、または、光彩などの特徴を照合することにより、人物の照合処理を実現しようとする手法が考えられる。この手法では、人物の照合処理を精度よく実施することが難しい場合がある。例えば、人物の指、血管、または、目などの精細な画像を接写することが難しい場合には、人物の照合処理を精度よく実施することができない。

また、例えば、人物同士の声紋などの特徴を照合することにより、人物の照合処理を実現しようとする手法が考えられる。この手法でも、人物の照合処理を精度よく実施することが難しい場合がある。例えば、人物の音声データを計測することが難しい場合には、人物の照合処理を精度よく実施することができない。例えば、人物の音声データに、雑音が含まれる場合には、人物の照合処理を精度よく実施することができないことがある。

また、例えば、人物同士の体格および服装などの見た目の特徴を照合することにより、人物の照合処理を実現しようとする手法が考えられる。この手法でも、人物の照合処理を精度よく実施することが難しい場合がある。例えば、人物の服装が変化したことに応じて、人物の見た目の特徴が変化する傾向がある。例えば、ある人物が特定の服装である場合の見た目の特徴は、同一の人物が別の服装である場合の見た目の特徴とは一致しないことがあり、人物の照合処理を精度よく実施することができないことがある。

また、例えば、人物同士の歩容の特徴を照合することにより、人物の照合処理を実現しようとする手法が考えられる。この手法でも、人物の照合処理を精度よく実施することが難しい場合がある。例えば、ある人物が荷物を持つ場合の歩容の特徴は、同一の人物が荷物を持たない場合の歩容の特徴と一致しないことがあり、人物の照合処理を精度よく実施することができないことがある。

また、例えば、映像上の人物の映り方に応じて、人物同士の見た目の特徴を照合するか、または、人物同士の歩容の特徴を照合するかを使い分ける手法が考えられる。この手法でも、人物の照合処理を精度よく実施することが難しい場合がある。例えば、ある人物が荷物を持つ場合の歩容の特徴は、同一の人物が荷物を持たない場合の歩容の特徴と一致しないことがあり、人物の照合処理を精度よく実施することができないという問題は解消されていない。

このように、従来では、人物の照合処理を精度よく実施することが難しい場合がある。そこで、本実施の形態では、人物の照合処理の精度向上を図ることができる照合支援方法について説明する。

図１において、情報処理装置１００は、対象の人物１１１が映った複数のフレームを含む対象の映像１１０を取得する。情報処理装置１００は、例えば、撮像素子を用いて、対象の人物１１１が映った複数のフレームを含む対象の映像１１０を撮影することにより、対象の人物１１１が映った複数のフレームを含む対象の映像１１０を取得する。情報処理装置１００は、例えば、他のコンピュータから、対象の人物１１１が映った複数のフレームを含む対象の映像１１０を受信することにより、対象の人物１１１が映った複数のフレームを含む対象の映像１１０を取得してもよい。

（１－１）情報処理装置１００は、取得した対象の映像１１０上の物体１１２の位置を検出する。物体１１２は、例えば、対象の人物１１１とは異なる物体１１２である。物体１１２は、具体的には、対象の人物１１１が保持し得る物体１１２である。物体１１２は、具体的には、対象の人物１１１が手に持ち得る物体１１２である。物体１１２は、より具体的には、鞄、リュックサック、傘、上着、雑誌、書類束、工具、受話器、または、スマートフォンなどである。位置は、例えば、ピクセル座標などである。情報処理装置１００は、例えば、取得した対象の映像１１０を分析することにより、取得した対象の映像１１０の各フレームにおける物体１１２の位置を検出する。

（１－２）情報処理装置１００は、取得した対象の映像１１０上の対象の人物１１１が有する複数の部位の少なくともいずれかの部位の位置を検出する。部位は、例えば、首、頭、右肩、左肩、右肘、左肘、右手、左手、右膝、左膝、右足、または、左足などである。部位は、具体的には、関節である。位置は、例えば、ピクセル座標などである。情報処理装置１００は、例えば、取得した対象の映像１１０を分析することにより、取得した対象の映像１１０の各フレームにおける対象の人物１１１が有する複数の部位の少なくともいずれかの部位の位置を検出する。情報処理装置１００は、具体的には、取得した対象の映像１１０を分析することにより、取得した対象の映像１１０の各フレームにおける対象の人物１１１が有する右手または左手の部位の位置を検出する。

（１－３）情報処理装置１００は、検出した物体１１２の位置と、対象の映像１１０上の対象の人物が有する複数の部位の少なくともいずれかの部位の位置との位置関係に基づいて、対象の映像１１０の複数のフレームのうち、１以上のフレームを特定する。情報処理装置１００は、例えば、物体１１２の位置と、いずれかの部位の位置との位置関係に基づいて、複数のフレームのうち、当該物体１１２の動き方と当該いずれかの部位の動き方とに相関関係が現れるフレームを含まない１以上のフレームを特定する。

情報処理装置１００は、例えば、対象の映像１１０の各フレームにおいて、いずれかの部位が、物体１１２と動き方に相関関係を有する部位であるか否かを判定する。情報処理装置１００は、例えば、複数のフレームのうち、いずれかの部位が、物体１１２と動き方に相関関係を有する部位であると判定したフレームを含まない１以上のフレームを特定する。

情報処理装置１００は、具体的には、対象の映像１１０の各フレームにおいて、検出した物体１１２の位置と、検出した右手の部位の位置との距離が一定以内であるか否かを判定する。情報処理装置１００は、具体的には、距離が一定以内であれば、右手の部位が、物体１１２を保持すると判定し、当該物体１１２と動き方に相関関係を有する部位であると判定する。情報処理装置１００は、具体的には、距離が一定以内でなければ、右手の部位が、物体１１２を保持しないと判定し、当該物体１１２と動き方に相関関係を有する部位ではないと判定する。情報処理装置１００は、具体的には、複数のフレームのうち、右手の部位が、物体１１２と動き方に相関関係を有する部位であると判定したフレームを、除外対象に設定する。

情報処理装置１００は、具体的には、複数のフレームのうち、除外対象に設定したフレームを含まない１以上のフレームを特定する。情報処理装置１００は、より具体的には、複数のフレームのうち、除外対象に設定したフレームを含まない、連続した所定数以上のフレームを特定してもよい。

これにより、情報処理装置１００は、物体がいずれかの部位の動き方を拘束した確率が比較的高く、対象の人物１１１の歩容が、通常の状態の歩容とは異なる歩容になるフレームを特定し、当該フレームを含まない１以上のフレームを特定することができる。通常の状態は、例えば、対象の人物１１１が自然体の状態である。通常の状態は、例えば、対象の人物１１１が無手の状態である。情報処理装置１００は、例えば、物体がいずれかの部位の動き方を拘束し、当該いずれかの部位が、対象の人物１１１の歩容に対して変則的な影響を与え得る状態になったことを判断することができる。情報処理装置１００は、例えば、いずれかの部位が、対象の人物１１１の歩容に対して変則的な影響を与え得る状態になったフレームを含まない１以上のフレームを特定することができる。

このため、情報処理装置１００は、複数のフレームのうち、対象の人物１１１の照合処理の際にノイズとなり易いフレームを特定することができ、ノイズとなり易いフレームを除いた１以上のフレームを特定することができる。照合処理は、例えば、対象の人物１１１が、対象の人物１１１の候補となる特定の人物であるか否かを判定する処理である。照合処理は、具体的には、対象の人物１１１の歩容の特徴に基づいて実施される。照合処理は、より具体的には、対象の人物１１１の歩容の特徴と、対象の人物１１１の候補となる特定の人物の歩容の特徴とを比較することにより実現される。

情報処理装置１００は、例えば、複数のフレームのうち、照合処理にあたって、対象の人物１１１の歩容の特徴と、対象の人物１１１の候補となる特定の人物の歩容の特徴とを比較する際にノイズとなり易いフレームを特定することができる。情報処理装置１００は、複数のフレームのうち、ノイズとなり易いフレームを除き、対象の人物１１１の歩容の特徴と、対象の人物１１１の候補となる特定の人物の歩容の特徴とを比較する際に利用することが好ましい１以上のフレームを特定することができる。

（１－４）情報処理装置１００は、特定した１以上のフレームに基づいて、対象の人物１１１の照合処理を実施する。情報処理装置１００は、例えば、特定した１以上のフレームにおける対象の人物１１１が有する複数の部位の位置に基づいて、対象の人物１１１の歩容の特徴を示す特徴ベクトルを生成する。情報処理装置１００は、例えば、生成した特徴ベクトルと、対象の人物１１１の候補となる特定の人物の歩容の特徴を示す特徴ベクトルとが類似するか否かに基づいて、対象の人物１１１が、特定の人物であるか否かを判定する。

情報処理装置１００は、例えば、生成した特徴ベクトルと、対象の人物１１１の候補となる特定の人物の歩容の特徴を示す特徴ベクトルとが類似する場合、対象の人物１１１が、特定の人物であると判定する。情報処理装置１００は、例えば、生成した特徴ベクトルと、対象の人物１１１の候補となる特定の人物の歩容の特徴を示す特徴ベクトルとが類似しない場合、対象の人物１１１が、特定の人物ではないと判定する。

これにより、情報処理装置１００は、対象の人物１１１の照合処理を精度よく実施することができる。情報処理装置１００は、複数のフレームのうち、ノイズとなり易いフレームを含まない１以上のフレームを選択し、対象の人物１１１の歩容の特徴と、特定の人物の歩容の特徴とを比較することができる。このため、情報処理装置１００は、対象の人物１１１の照合処理を精度よく実施することができる。

また、情報処理装置１００は、例えば、人物の指、血管、または、目などの精細な画像を接写することが難しい場合にも、人物の照合処理を精度よく実施することができる。また、情報処理装置１００は、例えば、人物の音声データを計測することが難しい場合にも、人物の照合処理を精度よく実施することができる。また、例えば、情報処理装置１００は、例えば、人物の服装が変化する場合にも、人物の照合処理を精度よく実施することができる。

ここでは、情報処理装置１００が、単独で動作する場合について説明したが、これに限らない。例えば、情報処理装置１００が、他のコンピュータと協働する場合があってもよい。例えば、複数のコンピュータが協働して、情報処理装置１００としての機能を実現する場合があってもよい。具体的には、クラウド上に、情報処理装置１００としての機能が実現される場合があってもよい。

ここでは、情報処理装置１００が、対象の映像１１０を分析することにより、対象の映像１１０の各フレームにおける物体１１２の位置を検出する場合について説明したが、これに限らない。例えば、情報処理装置１００が、対象の映像１１０を分析する他のコンピュータから、対象の映像１１０の各フレームにおける物体１１２の位置を受信することにより、対象の映像１１０の各フレームにおける物体１１２の位置を検出する場合があってもよい。

ここでは、情報処理装置１００が、対象の映像１１０を分析することにより、対象の映像１１０の各フレームにおける対象の人物１１１が有する複数の部位の少なくともいずれかの部位の位置を検出する場合について説明したが、これに限らない。例えば、情報処理装置１００が、対象の映像１１０を分析する他のコンピュータから、対象の映像１１０の各フレームにおける対象の人物１１１が有する部位の位置を受信することにより、当該部位の位置を検出する場合があってもよい。

ここでは、情報処理装置１００が、対象の映像１１０を分析することにより、対象の映像１１０の各フレームにおける対象の人物１１１が有する右手または左手の部位の位置を検出する場合について説明したが、これに限らない。例えば、情報処理装置１００が、対象の映像１１０を分析することにより、対象の映像１１０の各フレームにおける対象の人物１１１が有する右手および左手以外の部位の位置を検出する場合があってもよい。具体的には、情報処理装置１００が、対象の映像１１０の各フレームにおける対象の人物１１１が有する右足または左足の部位の位置を検出する場合などがあってもよい。

（照合処理システム２００の一例）
次に、図２を用いて、図１に示した情報処理装置１００を適用した、照合処理システム２００の一例について説明する。

図２は、照合処理システム２００の一例を示す説明図である。図２において、照合処理システム２００は、情報処理装置１００と、１以上の映像撮影装置２０１と、１以上のクライアント装置２０２とを含む。

照合処理システム２００において、情報処理装置１００と映像撮影装置２０１とは、有線または無線のネットワーク２１０を介して接続される。ネットワーク２１０は、例えば、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）、インターネットなどである。また、照合処理システム２００において、情報処理装置１００とクライアント装置２０２とは、有線または無線のネットワーク２１０を介して接続される。

情報処理装置１００は、照合処理を実施するためのコンピュータである。情報処理装置１００は、例えば、第１機械学習モデルを記憶する。第１機械学習モデルは、例えば、映像の入力に応じて、当該映像に映った人物が有する部位の位置を出力する機能を有する。部位は、例えば、首、頭、右肩、左肩、右肘、左肘、右手、左手、右膝、左膝、右足、または、左足などである。位置は、例えば、部位の関節の位置である。位置は、例えば、映像上のピクセル座標などである。

第１機械学習モデルは、具体的には、映像の各フレームの入力に応じて、当該フレームにおける人物が有する部位の位置を出力する機能を有する。第１機械学習モデルは、例えば、ＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）モデルなどである。第１機械学習モデルは、例えば、ニューラルネットワーク、数式、または、木構造などによって実現されることが考えられる。

情報処理装置１００は、例えば、第２機械学習モデルを記憶する。第２機械学習モデルは、例えば、映像上の人物が有する部位の位置の入力に応じて、当該人物の歩容に関する特徴を表す特徴情報を出力する機能を有する。特徴情報は、例えば、特徴ベクトルなどである。位置は、例えば、映像上のピクセル座標である。

第２機械学習モデルは、具体的には、連続する２以上のフレームにおける人物が有する部位の位置の入力に応じて、当該人物の歩容に関する特徴を表す特徴情報を出力する機能を有する。第２機械学習モデルは、例えば、ＡＩモデルなどである。第２機械学習モデルは、例えば、ニューラルネットワーク、数式、または、木構造などによって実現されることが考えられる。

情報処理装置１００は、例えば、第３機械学習モデルを記憶する。第３機械学習モデルは、例えば、映像の入力に応じて、当該映像に映った物体の位置を出力する機能を有する。物体は、例えば、人物とは異なる物体である。物体は、具体的には、人物が保持し得る物体である。物体は、具体的には、人物が手に持ち得る物体である。物体は、より具体的には、鞄、リュックサック、傘、上着、雑誌、書類束、工具、受話器、または、スマートフォンなどである。位置は、例えば、ピクセル座標などである。

第３機械学習モデルは、具体的には、映像の各フレームの入力に応じて、当該フレームにおける物体の位置を出力する機能を有する。第３機械学習モデルは、例えば、ＡＩモデルなどである。第３機械学習モデルは、例えば、パターンマッチングによって実現されることが考えられる。第３機械学習モデルは、例えば、ニューラルネットワーク、数式、または、木構造などによって実現されることが考えられる。

情報処理装置１００は、例えば、特定の人物に対応付けて、特定の人物の歩容に関する特徴を表す特徴情報を記憶する。特定の人物は、例えば、複数人存在していてもよい。特徴情報は、例えば、特徴ベクトルである。特徴情報は、例えば、第２機械学習モデルによって、特定の人物が映った映像に基づいて生成される。

特定の人物が映った映像は、例えば、対象の人物の照合処理に用いられる標本となる。特定の人物が映った映像は、例えば、特定の人物の歩容が映った映像である。特定の人物が映った映像は、具体的には、通常の状態の特定の人物の歩容が映った映像である。通常の状態は、例えば、対象の人物が自然体の状態である。通常の状態は、例えば、対象の人物が無手の状態である。特定の人物が映った映像は、例えば、映像撮影装置２０１によって生成される。

情報処理装置１００は、具体的には、図４に後述する特徴情報管理テーブル４００を記憶する。情報処理装置１００は、例えば、特定の人物に対応付けて、特定の人物が映った映像を記憶していてもよい。情報処理装置１００は、具体的には、特定の人物が映った映像を、映像撮影装置２０１から受信し、特定の人物に対応付けて記憶していてもよい。情報処理装置１００は、第２機械学習モデルによって、特定の人物が映った映像に基づいて、特定の人物の歩容に関する特徴を表す特徴情報を生成してもよい。

情報処理装置１００は、対象の人物が映った複数のフレームを含む対象の映像を取得する。情報処理装置１００は、例えば、対象の映像を、映像撮影装置２０１から受信することにより取得する。情報処理装置１００は、複数の人物が映った映像を取得し、取得した映像に映った複数の人物のうち対象の人物の指定を受け付けてもよい。情報処理装置１００は、例えば、取得した映像を、クライアント装置２０２に送信し、取得した映像に映った複数の人物のうち対象の人物を指定する情報を、クライアント装置２０２から受信することにより、対象の人物の指定を受け付けてもよい。情報処理装置１００は、例えば、利用者の操作入力に基づき、取得した映像に映った複数の人物のうち対象の人物の指定を受け付けてもよい。

情報処理装置１００は、対象の映像上の物体の位置を検出する。情報処理装置１００は、例えば、対象の映像の各フレームにおける物体の位置を検出する。情報処理装置１００は、具体的には、第３機械学習モデルによって、対象の映像に基づいて、対象の映像の各フレームにおける物体の位置を検出する。対象の映像上で位置を検出する物体の種類は、例えば、予め設定されていてもよい。情報処理装置１００は、対象の映像上で位置を検出する物体の種類の指定を受け付けてもよい。情報処理装置１００は、例えば、対象の映像上で位置を検出する物体の種類を指定する情報を、クライアント装置２０２から受信することにより、物体の種類の指定を受け付けてもよい。情報処理装置１００は、例えば、利用者の操作入力に基づき、対象の映像上で位置を検出する物体の種類の指定を受け付けてもよい。情報処理装置１００は、例えば、対象の映像上の指定の物体の位置を検出する。

情報処理装置１００は、対象の映像上の対象の人物が有する複数の部位の少なくともいずれかの部位の位置を検出する。情報処理装置１００は、例えば、対象の映像上の対象の人物が有する複数の部位のそれぞれの部位の位置を検出する。情報処理装置１００は、具体的には、対象の映像の各フレームにおける対象の人物が有する複数の部位のそれぞれの部位の位置を検出する。情報処理装置１００は、具体的には、第１機械学習モデルによって、対象の映像に基づいて、対象の映像の各フレームにおける対象の人物が有する複数の部位のそれぞれの部位の位置を検出する。

情報処理装置１００は、対象の映像上の物体の位置と、対象の映像上の対象の人物が有する複数の部位の少なくともいずれかの部位の位置との位置関係に基づいて、対象の映像の複数のフレームのうち、１以上のフレームを特定する。情報処理装置１００は、例えば、対象の映像の複数のフレームのうち、物体の動き方と、対象の人物が有する複数の部位の少なくともいずれかの部位の動き方とに相関関係が現れるフレームを含まない１以上のフレームを特定する。情報処理装置１００は、第２機械学習モデルによって、特定した１以上のフレームに基づいて、対象の人物の歩容に関する特徴を表す特徴情報を生成する。

情報処理装置１００は、生成した対象の人物の歩容に関する特徴を表す特徴情報と、特定の人物の歩容に関する特徴を表す特徴情報とを比較することにより、対象の人物の照合処理を実施する。特定の人物は、例えば、予め設定されていてもよい。情報処理装置１００は、例えば、特定の人物の指定を受け付けてもよい。情報処理装置１００は、例えば、特定の人物を指定する情報を、クライアント装置２０２から受信することにより、特定の人物の指定を受け付けてもよい。情報処理装置１００は、例えば、利用者の操作入力に基づき、特定の人物の指定を受け付けてもよい。

情報処理装置１００は、例えば、対象の人物の歩容に関する特徴を表す特徴情報と、特定の人物の歩容に関する特徴を表す特徴情報とを比較することにより、対象の人物と、特定の人物とが一致するか否かを判定する照合処理を実施する。情報処理装置１００は、対象の人物の照合処理の処理結果を出力する。情報処理装置１００は、例えば、対象の人物と、特定の人物とが一致するか否かを判定した判定結果を出力する。出力形式は、例えば、ディスプレイへの表示、プリンタへの印刷出力、他のコンピュータへの送信、または、記憶領域への記憶などである。

情報処理装置１００は、具体的には、対象の人物と、特定の人物とが一致するか否かを判定した判定結果を、クライアント装置２０２に送信する。情報処理装置１００は、例えば、照合処理システム２００を管理する利用者によって管理される。情報処理装置１００は、例えば、サーバ、または、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）などである。

映像撮影装置２０１は、特定の領域を撮影し、人物が映った映像を生成するためのコンピュータである。映像撮影装置２０１は、複数の撮像素子を有するカメラを含み、カメラによって人物が存在し得る特定の領域を撮影する。映像撮影装置２０１は、例えば、特定の人物が映った映像を生成し、情報処理装置１００に送信する。映像撮影装置２０１は、具体的には、特定の人物となり得る複数の人物が映った映像を生成し、情報処理装置１００に送信してもよい。

映像撮影装置２０１は、例えば、対象の人物が映った映像を生成し、情報処理装置１００に送信する。映像撮影装置２０１は、具体的には、対象の人物となり得る複数の人物が映った映像を生成し、情報処理装置１００に送信してもよい。映像撮影装置２０１は、例えば、スマートフォンなどである。映像撮影装置２０１は、例えば、定点カメラなどであってもよい。映像撮影装置２０１は、例えば、ドローンなどであってもよい。

クライアント装置２０２は、対象の人物の照合処理の処理結果を利用しようとする作業者によって用いられるコンピュータである。クライアント装置２０２は、人物が映った映像を、情報処理装置１００から受信し、作業者が参照可能に出力してもよい。クライアント装置２０２は、作業者の操作入力に基づき、映像に映った人物のうち対象の人物の指定を受け付け、対象の人物を指定する情報を、情報処理装置１００に送信してもよい。

クライアント装置２０２は、作業者の操作入力に基づき、対象の映像上で位置を検出する物体の種類の指定を受け付け、物体の種類を指定する情報を、情報処理装置１００に送信してもよい。クライアント装置２０２は、作業者の操作入力に基づき、特定の人物の指定を受け付け、特定の人物を指定する情報を、情報処理装置１００に送信してもよい。

クライアント装置２０２は、対象の人物の照合処理の処理結果を、情報処理装置１００から受信する。クライアント装置２０２は、対象の人物の照合処理の処理結果を、作業者が参照可能に出力する。出力形式は、例えば、ディスプレイへの表示、プリンタへの印刷出力、他のコンピュータへの送信、または、記憶領域への記憶などである。クライアント装置２０２は、例えば、ＰＣ、タブレット端末、または、スマートフォンなどである。

ここでは、情報処理装置１００が、映像撮影装置２０１とは異なる装置である場合について説明したが、これに限らない。例えば、情報処理装置１００が、映像撮影装置２０１としての機能を有し、映像撮影装置２０１としても動作する場合があってもよい。ここでは、情報処理装置１００が、クライアント装置２０２とは異なる装置である場合について説明したが、これに限らない。例えば、情報処理装置１００が、クライアント装置２０２としての機能を有し、クライアント装置２０２としても動作する場合があってもよい。

（照合処理システム２００の適用例）
次に、照合処理システム２００の適用例について説明する。照合処理システム２００は、例えば、監視カメラが撮影した映像に映った対象の人物が、行方不明者、または、犯罪容疑者などの特定の人物と一致するか否かを判定する照合処理を実施しようとする場合に対して適用されることが考えられる。この場合、映像撮影装置２０１は、例えば、監視カメラである。作業者は、例えば、警察官などである。

照合処理システム２００は、例えば、部屋の入口付近に設けられた定点カメラが撮影した映像に映った対象の人物が、当該部屋の入室が許可された特定の人物と一致するか否かを判定する照合処理を実施しようとする場合に対して適用されることが考えられる。この場合、照合処理システム２００は、クライアント装置２０２を含まなくてもよい。情報処理装置１００は、クライアント装置２０２に代わり、部屋の施錠管理装置などに、照合処理の処理結果を送信し、対象の人物が適切に当該部屋に入室可能になるよう制御することが考えられる。

（情報処理装置１００のハードウェア構成例）
次に、図３を用いて、情報処理装置１００のハードウェア構成例について説明する。

図３は、情報処理装置１００のハードウェア構成例を示すブロック図である。図３において、情報処理装置１００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）３０１と、メモリ３０２と、ネットワークＩ／Ｆ（Ｉｎｔｅｒｆａｃｅ）３０３とを有する。また、情報処理装置１００は、記録媒体Ｉ／Ｆ３０４と、記録媒体３０５と、ディスプレイ３０６と、入力装置３０７とを有する。また、各構成部は、バス３００によってそれぞれ接続される。

ここで、ＣＰＵ３０１は、情報処理装置１００の全体の制御を司る。メモリ３０２は、例えば、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）およびフラッシュＲＯＭなどを有する。具体的には、例えば、フラッシュＲＯＭやＲＯＭが各種プログラムを記憶し、ＲＡＭがＣＰＵ３０１のワークエリアとして使用される。メモリ３０２に記憶されるプログラムは、ＣＰＵ３０１にロードされることにより、コーディングされている処理をＣＰＵ３０１に実行させる。

メモリ３０２は、映像の各フレームの入力に応じて当該フレームにおける人物が有する部位の位置を出力する機械学習モデルを記憶していてもよい。メモリ３０２は、１以上のフレームにおける人物が有する部位の位置の入力に応じて当該人物の歩容に関する特徴を表す特徴情報を出力する機械学習モデルを記憶していてもよい。メモリ３０２は、映像の各フレームの入力に応じて当該フレームにおける物体の位置を出力する機械学習モデルを記憶していてもよい。メモリ３０２は、例えば、図４に後述する特徴情報管理テーブル４００を記憶する。

ネットワークＩ／Ｆ３０３は、通信回線を通じてネットワーク２１０に接続され、ネットワーク２１０を介して他のコンピュータに接続される。そして、ネットワークＩ／Ｆ３０３は、ネットワーク２１０と内部のインターフェースを司り、他のコンピュータからのデータの入出力を制御する。ネットワークＩ／Ｆ３０３は、例えば、モデムやＬＡＮアダプタなどである。

記録媒体Ｉ／Ｆ３０４は、ＣＰＵ３０１の制御に従って記録媒体３０５に対するデータのリード／ライトを制御する。記録媒体Ｉ／Ｆ３０４は、例えば、ディスクドライブ、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）ポートなどである。記録媒体３０５は、記録媒体Ｉ／Ｆ３０４の制御で書き込まれたデータを記憶する不揮発メモリである。記録媒体３０５は、例えば、ディスク、半導体メモリ、ＵＳＢメモリなどである。記録媒体３０５は、情報処理装置１００から着脱可能であってもよい。

ディスプレイ３０６は、カーソル、アイコン、ツールボックス、文書、画像、または、機能情報などのデータを表示する。ディスプレイ３０６は、例えば、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）、液晶ディスプレイ、または、有機ＥＬ（Ｅｌｅｃｔｒｏｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイなどである。入力装置３０７は、文字、数字、または、各種指示などの入力のためのキーを有し、データの入力を行う。入力装置３０７は、例えば、キーボード、または、マウスなどである。入力装置３０７は、例えば、タッチパネル式の入力パッド、または、テンキーなどであってもよい。

情報処理装置１００は、上述した構成部の他、例えば、カメラなどを有してもよい。また、情報処理装置１００は、上述した構成部の他、例えば、プリンタ、スキャナ、マイク、または、スピーカーなどを有してもよい。また、情報処理装置１００は、例えば、記録媒体Ｉ／Ｆ３０４および記録媒体３０５を複数有していてもよい。また、情報処理装置１００は、例えば、ディスプレイ３０６、または、入力装置３０７などを有していなくてもよい。また、情報処理装置１００は、例えば、記録媒体Ｉ／Ｆ３０４および記録媒体３０５を有していなくてもよい。

（特徴情報管理テーブル４００の記憶内容）
次に、図４を用いて、特徴情報管理テーブル４００の記憶内容の一例について説明する。特徴情報管理テーブル４００は、例えば、図３に示した情報処理装置１００のメモリ３０２や記録媒体３０５などの記憶領域により実現される。

図４は、特徴情報管理テーブル４００の記憶内容の一例を示す説明図である。図４に示すように、特徴情報管理テーブル４００は、人物と、映像と、特徴情報とのフィールドを有する。特徴情報管理テーブル４００は、人物ごとに各フィールドに情報を設定することにより、特徴情報管理情報がレコード４００－ａとして記憶される。ａは、任意の整数である。

人物のフィールドには、人物を識別する識別情報が設定される。映像のフィールドには、上記人物が映った映像のサンプルを識別する識別情報が設定される。特徴情報のフィールドには、上記人物の歩容の特徴を表す特徴情報が設定される。特徴情報は、例えば、特徴ベクトルである。

（映像撮影装置２０１のハードウェア構成例）
次に、図５を用いて、映像撮影装置２０１のハードウェア構成例について説明する。

図５は、映像撮影装置２０１のハードウェア構成例を示すブロック図である。図５において、映像撮影装置２０１は、ＣＰＵ５０１と、メモリ５０２と、ネットワークＩ／Ｆ５０３と、記録媒体Ｉ／Ｆ５０４と、記録媒体５０５と、カメラ５０６とを有する。また、各構成部は、バス５００によってそれぞれ接続される。

ここで、ＣＰＵ５０１は、映像撮影装置２０１の全体の制御を司る。メモリ５０２は、例えば、ＲＯＭ、ＲＡＭおよびフラッシュＲＯＭなどを有する。具体的には、例えば、フラッシュＲＯＭやＲＯＭが各種プログラムを記憶し、ＲＡＭがＣＰＵ５０１のワークエリアとして使用される。メモリ５０２に記憶されるプログラムは、ＣＰＵ５０１にロードされることにより、コーディングされている処理をＣＰＵ５０１に実行させる。

ネットワークＩ／Ｆ５０３は、通信回線を通じてネットワーク２１０に接続され、ネットワーク２１０を介して他のコンピュータに接続される。そして、ネットワークＩ／Ｆ５０３は、ネットワーク２１０と内部のインターフェースを司り、他のコンピュータからのデータの入出力を制御する。ネットワークＩ／Ｆ５０３は、例えば、モデムやＬＡＮアダプタなどである。

記録媒体Ｉ／Ｆ５０４は、ＣＰＵ５０１の制御に従って記録媒体５０５に対するデータのリード／ライトを制御する。記録媒体Ｉ／Ｆ５０４は、例えば、ディスクドライブ、ＳＳＤ、ＵＳＢポートなどである。記録媒体５０５は、記録媒体Ｉ／Ｆ５０４の制御で書き込まれたデータを記憶する不揮発メモリである。記録媒体５０５は、例えば、ディスク、半導体メモリ、ＵＳＢメモリなどである。記録媒体５０５は、映像撮影装置２０１から着脱可能であってもよい。

カメラ５０６は、複数の撮像素子を有し、複数の撮像素子によって特定の領域を撮影した映像を生成する。カメラ５０６は、例えば、特定の領域に人物が存在すれば、当該人物が映った映像を生成することになる。カメラ５０６は、例えば、デジタルカメラである。カメラ５０６は、例えば、定点カメラである。カメラ５０６は、例えば、移動可能であってもよい。カメラ５０６は、例えば、監視カメラである。

映像撮影装置２０１は、上述した構成部の他、例えば、キーボード、マウス、ディスプレイ、プリンタ、スキャナ、マイク、スピーカーなどを有してもよい。また、映像撮影装置２０１は、記録媒体Ｉ／Ｆ５０４や記録媒体５０５を複数有していてもよい。また、映像撮影装置２０１は、記録媒体Ｉ／Ｆ５０４や記録媒体５０５を有していなくてもよい。

（クライアント装置２０２のハードウェア構成例）
クライアント装置２０２のハードウェア構成例は、具体的には、図３に示した情報処理装置１００のハードウェア構成例と同様であるため、説明を省略する。

（情報処理装置１００の機能的構成例）
次に、図６を用いて、情報処理装置１００の機能的構成例について説明する。

図６は、情報処理装置１００の機能的構成例を示すブロック図である。情報処理装置１００は、記憶部６００と、取得部６０１と、第１検出部６０２と、第２検出部６０３と、特定部６０４と、照合部６０５と、出力部６０６とを含む。

記憶部６００は、例えば、図３に示したメモリ３０２や記録媒体３０５などの記憶領域によって実現される。以下では、記憶部６００が、情報処理装置１００に含まれる場合について説明するが、これに限らない。例えば、記憶部６００が、情報処理装置１００とは異なる装置に含まれ、記憶部６００の記憶内容が情報処理装置１００から参照可能である場合があってもよい。

取得部６０１～出力部６０６は、制御部の一例として機能する。取得部６０１～出力部６０６は、具体的には、例えば、図３に示したメモリ３０２や記録媒体３０５などの記憶領域に記憶されたプログラムをＣＰＵ３０１に実行させることにより、または、ネットワークＩ／Ｆ３０３により、その機能を実現する。各機能部の処理結果は、例えば、図３に示したメモリ３０２や記録媒体３０５などの記憶領域に記憶される。

記憶部６００は、各機能部の処理において参照され、または更新される各種情報を記憶する。記憶部６００は、機械学習モデルを記憶する。機械学習モデルは、例えば、ＡＩモデルなどである。機械学習モデルは、例えば、パターンマッチングによって実現されることが考えられる。機械学習モデルは、例えば、ニューラルネットワーク、数式、または、木構造などによって実現されることが考えられる。

記憶部６００は、例えば、第１機械学習モデルを記憶する。第１機械学習モデルは、映像の入力に応じて、当該映像に映った人物が有する部位の位置を出力する機能を有する。部位は、例えば、首、頭、右肩、左肩、右肘、左肘、右手、左手、右膝、左膝、右足、または、左足などである。位置は、例えば、部位の骨格の位置である。位置は、具体的には、部位の骨格上の関節の位置である。位置は、例えば、部位のシルエットの位置であってもよい。第１機械学習モデルは、例えば、映像のフレームの入力に応じて、当該フレームにおける人物が有する部位の位置を出力する機能を有する。位置は、例えば、フレーム上のピクセル座標などによって表現される。ピクセル座標は、フレームの縦方向のピクセル単位の位置と、フレームの横方向のピクセル単位の位置とを示す。第１機械学習モデルは、例えば、ＡＩモデルなどである。第１機械学習モデルは、例えば、ニューラルネットワーク、数式、または、木構造などによって実現されることが考えられる。記憶部６００は、具体的には、第１機械学習モデルを規定するパラメータを記憶することにより、第１機械学習モデルを記憶する。第１機械学習モデルは、例えば、予め利用者によって設定される。第１機械学習モデルは、例えば、取得部６０１によって取得されてもよい。

記憶部６００は、例えば、第２機械学習モデルを記憶する。第２機械学習モデルは、人物が有する部位の位置の入力に応じて、当該人物の歩容に関する特徴情報を出力する機能を有する。特徴情報は、例えば、特徴ベクトルである。第２機械学習モデルは、例えば、１以上のフレームにおける人物が有する部位の位置の入力に応じて、当該人物の歩容に関する特徴情報を出力する機能を有する。第２機械学習モデルは、例えば、ＡＩモデルなどである。第２機械学習モデルは、例えば、ニューラルネットワーク、数式、または、木構造などによって実現されることが考えられる。位置は、例えば、映像上のピクセル座標などによって表現される。記憶部６００は、具体的には、第２機械学習モデルを規定するパラメータを記憶することにより、第２機械学習モデルを記憶する。第２機械学習モデルは、例えば、予め利用者によって設定される。第２機械学習モデルは、例えば、取得部６０１によって取得されてもよい。

記憶部６００は、例えば、第３機械学習モデルを記憶する。第３機械学習モデルは、例えば、映像の入力に応じて、当該映像に映った物体の位置を出力する機能を有する。物体は、例えば、人物とは異なる物体である。物体は、具体的には、人物が保持し得る物体である。物体は、具体的には、人物が手に持ち得る物体である。物体は、より具体的には、鞄、リュックサック、傘、上着、雑誌、書類束、工具、受話器、または、スマートフォンなどである。第３機械学習モデルは、例えば、映像のフレームの入力に応じて、当該フレームにおける物体の位置を出力する機能を有する。位置は、例えば、フレーム上のピクセル座標などによって表現される。ピクセル座標は、フレームの縦方向のピクセル単位の位置と、フレームの横方向のピクセル単位の位置とを示す。第３機械学習モデルは、例えば、ＡＩモデルなどである。第３機械学習モデルは、例えば、パターンマッチングによって実現されることが考えられる。第３機械学習モデルは、例えば、ニューラルネットワーク、数式、または、木構造などによって実現されることが考えられる。記憶部６００は、具体的には、第３機械学習モデルを規定するパラメータを記憶することにより、第３機械学習モデルを記憶する。第３機械学習モデルは、例えば、予め利用者によって設定される。第３機械学習モデルは、例えば、取得部６０１によって取得されてもよい。

記憶部６００は、照合処理を実施可能にする参考情報を記憶する。記憶部６００は、例えば、特定の人物に対応付けて、特定の人物の歩容に関する特徴を表す特徴情報を記憶する。特定の人物は、例えば、複数人存在していてもよい。特徴情報は、例えば、特徴ベクトルである。特徴情報は、例えば、第２機械学習モデルによって、特定の人物が映った参考の映像に基づいて生成される。参考の映像は、例えば、対象の人物の照合処理に用いられる標本の映像である。参考の映像は、例えば、特定の人物の歩容が映った映像である。参考の映像は、具体的には、通常の状態の特定の人物の歩容が映った映像である。通常の状態は、例えば、対象の人物が自然体の状態である。通常の状態は、例えば、対象の人物が無手の状態である。特徴情報は、例えば、取得部６０１によって取得される。特徴情報は、例えば、特定部６０４によって生成されてもよい。記憶部６００は、具体的には、図４に示した特徴情報管理テーブル４００を記憶する。

取得部６０１は、各機能部の処理に用いられる各種情報を取得する。取得部６０１は、取得した各種情報を、記憶部６００に記憶し、または、各機能部に出力する。また、取得部６０１は、記憶部６００に記憶しておいた各種情報を、各機能部に出力してもよい。取得部６０１は、例えば、利用者の操作入力に基づき、各種情報を取得する。取得部６０１は、例えば、情報処理装置１００とは異なる装置から、各種情報を受信してもよい。

取得部６０１は、例えば、機械学習モデルを取得する。取得部６０１は、具体的には、第１機械学習モデルを取得する。取得部６０１は、より具体的には、利用者の操作入力に基づき、第１機械学習モデルを規定するパラメータの入力を受け付けることにより、第１機械学習モデルを取得する。取得部６０１は、より具体的には、他のコンピュータから、第１機械学習モデルを規定するパラメータを受信することにより、第１機械学習モデルを取得してもよい。

取得部６０１は、具体的には、第２機械学習モデルを取得する。取得部６０１は、より具体的には、利用者の操作入力に基づき、第２機械学習モデルを規定するパラメータの入力を受け付けることにより、第２機械学習モデルを取得する。取得部６０１は、より具体的には、他のコンピュータから、第２機械学習モデルを規定するパラメータを受信することにより、第２機械学習モデルを取得してもよい。

取得部６０１は、具体的には、第３機械学習モデルを取得する。取得部６０１は、より具体的には、利用者の操作入力に基づき、第３機械学習モデルを規定するパラメータの入力を受け付けることにより、第３機械学習モデルを取得する。取得部６０１は、より具体的には、他のコンピュータから、第３機械学習モデルを規定するパラメータを受信することにより、第３機械学習モデルを取得してもよい。

取得部６０１は、例えば、人物が映った複数のフレームを含む映像を取得する。取得部６０１は、具体的には、対象の人物が映った複数のフレームを含む対象の映像を取得する。取得部６０１は、より具体的には、他のコンピュータから、対象の人物が映った複数のフレームを含む対象の映像を受信することにより、対象の人物が映った複数のフレームを含む対象の映像を取得する。取得部６０１は、より具体的には、利用者の操作入力に基づき、対象の人物が映った複数のフレームを含む対象の映像の入力を受け付けることにより、対象の人物が映った複数のフレームを含む対象の映像を取得してもよい。

取得部６０１は、具体的には、対象の人物となり得る複数の人物が映った複数のフレームを含む対象の映像を取得してもよい。取得部６０１は、より具体的には、他のコンピュータから、複数の人物が映った複数のフレームを含む対象の映像を受信することにより、複数の人物が映った複数のフレームを含む対象の映像を取得する。取得部６０１は、より具体的には、利用者の操作入力に基づき、複数の人物が映った複数のフレームを含む対象の映像の入力を受け付けることにより、複数の人物が映った複数のフレームを含む対象の映像を取得してもよい。

取得部６０１は、具体的には、複数の人物が映った複数のフレームを含む対象の映像を取得した後、当該対象の映像に映った複数の人物のうち対象の人物の指定を受け付けてもよい。取得部６０１は、より具体的には、他のコンピュータから、対象の映像に映った複数の人物のうち対象の人物を指定する情報を受信することにより、対象の人物の指定を受け付けてもよい。取得部６０１は、より具体的には、利用者の操作入力に基づき、対象の人物の指定を受け付けてもよい。

取得部６０１は、具体的には、特定の人物が映った複数のフレームを含む参考の映像を取得してもよい。取得部６０１は、具体的には、特定の人物の歩容に関する特徴を表す特徴情報を自装置で生成する場合、特徴情報を生成する際に用いられる特定の人物が映った複数のフレームを含む参考の映像を取得する。取得部６０１は、より具体的には、他のコンピュータから、特定の人物が映った複数のフレームを含む参考の映像を受信することにより、特定の人物が映った複数のフレームを含む参考の映像を取得してもよい。取得部６０１は、より具体的には、利用者の操作入力に基づき、特定の人物が映った複数のフレームを含む参考の映像の入力を受け付けることにより、特定の人物が映った複数のフレームを含む参考の映像を取得してもよい。

取得部６０１は、具体的には、特定の人物となり得る複数の人物が映った複数のフレームを含む参考の映像を取得してもよい。取得部６０１は、より具体的には、他のコンピュータから、複数の人物が映った複数のフレームを含む参考の映像を受信することにより、複数の人物が映った複数のフレームを含む参考の映像を取得してもよい。取得部６０１は、より具体的には、利用者の操作入力に基づき、複数の人物が映った複数のフレームを含む参考の映像の入力を受け付けることにより、複数の人物が映った複数のフレームを含む参考の映像を取得してもよい。

取得部６０１は、具体的には、複数の人物が映った複数のフレームを含む参考の映像を取得した後、当該参考の映像に映った複数の人物のうち特定の人物の指定を受け付けてもよい。取得部６０１は、より具体的には、他のコンピュータから、参考の映像に映った複数の人物のうち特定の人物を指定する情報を受信することにより、特定の人物の指定を受け付けてもよい。取得部６０１は、より具体的には、利用者の操作入力に基づき、特定の人物の指定を受け付けてもよい。

取得部６０１は、例えば、照合処理の際に、部位との位置関係を参照する物体の種類を取得してもよい。取得部６０１は、具体的には、利用者の操作入力に基づき、物体の種類の指定を受け付けることにより、物体の種類を取得してもよい。取得部６０１は、具体的には、他のコンピュータから、物体の種類を指定する情報を受信することにより、物体の種類を取得してもよい。

取得部６０１は、いずれかの機能部の処理を開始する開始トリガーを受け付けてもよい。開始トリガーは、例えば、利用者による所定の操作入力があったことである。開始トリガーは、例えば、他のコンピュータから、所定の情報を受信したことであってもよい。開始トリガーは、例えば、いずれかの機能部が所定の情報を出力したことであってもよい。取得部６０１は、例えば、対象の映像を取得したことを、第１検出部６０２と、第２検出部６０３と、特定部６０４と、照合部６０５との処理を開始する開始トリガーとして受け付けてもよい。

第１検出部６０２は、映像上の人物が有する部位の位置を検出する。第１検出部６０２は、例えば、取得部６０１で取得した対象の映像に基づいて、対象の映像上の対象の人物が有する複数の部位のそれぞれの部位の位置を検出する。第１検出部６０２は、例えば、取得部６０１で取得した対象の映像に基づいて、対象の映像の各フレームにおける対象の人物が有する複数の部位のそれぞれの部位の位置を検出する。第１検出部６０２は、具体的には、対象の映像の各フレームについて、第１機械学習モデルに、当該フレームを入力することにより、当該フレームにおける対象の人物が有する複数の部位のそれぞれの部位の位置を検出する。これにより、第１検出部６０２は、複数のフレームのうち、照合処理の際にノイズとなり得るフレームを特定する手掛かりとなる情報を得ることができる。また、第１検出部６０２は、対象の人物の歩容に関する特徴を解析可能にすることができ、照合処理を実施する際に参照する情報を生成可能にすることができる。

第１検出部６０２は、例えば、取得部６０１で取得した参考の映像に基づいて、参考の映像上の特定の人物が有する複数の部位のそれぞれの部位の位置を検出してもよい。第１検出部６０２は、例えば、取得部６０１で取得した参考の映像に基づいて、参考の映像の各フレームにおける特定の人物が有する複数の部位のそれぞれの部位の位置を検出してもよい。第１検出部６０２は、具体的には、参考の映像の各フレームについて、第１機械学習モデルに、当該フレームを入力することにより、当該フレームにおける特定の人物が有する複数の部位のそれぞれの部位の位置を検出する。これにより、第１検出部６０２は、特定の人物の歩容に関する特徴を解析可能にすることができ、照合処理を実施する際に参照する情報を生成可能にすることができる。

第２検出部６０３は、映像上の物体の位置を検出する。第２検出部６０３は、例えば、取得部６０１で取得した対象の映像に基づいて、対象の映像上の物体の位置を検出する。物体は、例えば、対象の人物とは異なる物体である。物体は、例えば、指定を受け付けた種類の物体である。物体は、例えば、予め設定された種類の物体である。第２検出部６０３は、例えば、取得部６０１で取得した対象の映像に基づいて、対象の映像の各フレームにおける物体の位置を検出する。第２検出部６０３は、具体的には、対象の映像の各フレームについて、第３機械学習モデルに、当該フレームを入力することにより、当該フレームにおける物体の位置を検出する。これにより、第２検出部６０３は、対象の人物の歩容に影響を与え得る物体を検出することができ、複数のフレームのうち、照合処理の際にノイズとなり得るフレームを特定する手掛かりとなる情報を得ることができる。

特定部６０４は、検出した物体の位置と、対象の映像上の対象の人物が有する複数の部位の少なくともいずれかの部位の位置との位置関係に基づいて、１以上のフレームを特定する。いずれかの部位は、例えば、手の部位である。いずれかの部位は、例えば、右手または左手の部位である。特定部６０４は、物体の位置と、いずれかの部位の位置との位置関係に基づいて、複数のフレームのうち、物体の動き方といずれかの部位の動き方とに相関関係が現れるフレームを含まない１以上のフレームを特定する。

特定部６０４は、例えば、各フレームにおける、検出した物体の位置と、いずれかの部位の位置との類似度に基づいて、物体の動き方といずれかの部位の動き方とに相関関係が現れるフレームを含まない１以上のフレームを特定する。類似度は、例えば、位置間の距離の逆数などである。特定部６０４は、具体的には、あるフレームにおける、検出した物体の位置と、いずれかの部位の位置との類似度が閾値以上であれば、当該フレームが、物体の動き方といずれかの部位の動き方とに相関関係が現れるフレームであると判定する。特定部６０４は、具体的には、あるフレームにおける、検出した物体の位置と、いずれかの部位の位置との類似度が閾値未満であれば、当該フレームが、物体の動き方といずれかの部位の動き方とに相関関係が現れるフレームではないと判定する。

特定部６０４は、より具体的には、あるフレームにおける、検出した物体の位置と、右手の部位の位置との類似度が閾値以上であれば、当該右手の部位が、当該物体と動き方に相関関係を有する部位であると判定する。このため、特定部６０４は、より具体的には、あるフレームにおける、検出した物体の位置と、右手の部位の位置との類似度が閾値以上であれば、当該フレームが、物体の動き方といずれかの部位の動き方とに相関関係が現れるフレームであると判定する。

特定部６０４は、より具体的には、あるフレームにおける、検出した物体の位置と、右手の部位の位置との類似度が閾値未満であれば、当該右手の部位が、当該物体と動き方に相関関係を有する部位ではないと判定する。このため、特定部６０４は、より具体的には、あるフレームにおける、検出した物体の位置と、右手の部位の位置との類似度が閾値未満であれば、当該フレームが、物体の動き方といずれかの部位の動き方とに相関関係が現れるフレームではないと判定する。

特定部６０４は、具体的には、複数のフレームのうち、物体の動き方といずれかの部位の動き方とに相関関係が現れるフレームを含まない１以上のフレームを特定する。特定部６０４は、具体的には、複数のフレームのうち、物体の動き方といずれかの部位の動き方とに相関関係が現れるフレームを含まない、連続する所定数のフレームを特定してもよい。所定数は、予め利用者によって設定される。所定数は、例えば、歩容の特徴を表す特徴情報を算出可能にする、または、歩容の特徴を表す特徴情報の生成精度を担保可能にするためのフレームの数である。これにより、特定部６０４は、複数のフレームのうち、照合処理の際にノイズとなり得るフレームを特定することができる。特定部６０４は、所定数のフレームを特定することにより、歩容の特徴を表す特徴情報の生成精度を担保し易くすることができる。

特定部６０４は、例えば、検出した物体の位置と、対象の映像上の手の部位の位置との位置関係に基づいて、複数のフレームのうち、物体の動き方と手の部位の動き方とに相関関係が現れるフレームを含まない１以上のフレームを特定する。換言すれば、特定部６０４は、例えば、検出した物体の位置と、対象の映像上の手の部位の位置との位置関係に基づいて、複数のフレームのうち、対象の人物が、当該物体を所持すると判断したフレームを含まない１以上のフレームを特定する。

特定部６０４は、具体的には、各フレームにおける、検出した物体の位置と、手の部位の位置との類似度に基づいて、対象の人物が、当該物体を所持するか否かを判断する。類似度は、例えば、位置間の距離の逆数などである。特定部６０４は、具体的には、あるフレームにおいて、対象の人物が、物体を所持すると判断した場合、当該フレームが、物体の動き方といずれかの部位の動き方とに相関関係が現れるフレームであると判定する。特定部６０４は、具体的には、あるフレームにおいて、対象の人物が、物体を所持しないと判断した場合、当該フレームが、物体の動き方といずれかの部位の動き方とに相関関係が現れるフレームではないと判定する。

特定部６０４は、より具体的には、あるフレームにおいて、検出した物体の位置と、手の部位の位置との類似度が閾値以上であれば、対象の人物が、当該物体を所持すると判断する。特定部６０４は、より具体的には、あるフレームにおいて、対象の人物が、当該物体を所持すると判断すれば、当該フレームが、物体の動き方といずれかの部位の動き方とに相関関係が現れるフレームであると判定する。

特定部６０４は、より具体的には、あるフレームにおいて、検出した物体の位置と、手の部位の位置との類似度が閾値未満であれば、対象の人物が、当該物体を所持しないと判断する。特定部６０４は、より具体的には、あるフレームにおいて、対象の人物が、当該物体を所持しないと判断すれば、当該フレームが、物体の動き方といずれかの部位の動き方とに相関関係が現れるフレームではないと判定する。

特定部６０４は、具体的には、複数のフレームのうち、物体の動き方といずれかの部位の動き方とに相関関係が現れるフレームを含まない１以上のフレームを特定する。特定部６０４は、具体的には、複数のフレームのうち、物体の動き方といずれかの部位の動き方とに相関関係が現れるフレームを含まない、連続する所定数のフレームを特定してもよい。これにより、特定部６０４は、あるフレームにおいて、物体に起因し、手の部位の位置が、対象の人物の通常の歩容における手の部位の位置とは異なることを検出することができ、当該フレームが、照合処理の際にノイズとなり得ることを検出することができる。このため、特定部６０４は、複数のフレームのうち、照合処理の際にノイズとなり得るフレームを特定することができる。

特定部６０４は、例えば、検出した物体の位置の時系列と、複数の部位の少なくともいずれかの部位の位置の時系列との位置関係に基づいて、複数のフレームのうち、１以上のフレームを特定する。特定部６０４は、例えば、物体の位置の時系列と、いずれかの部位の位置の時系列との位置関係に基づいて、複数のフレームのうち、物体の動き方といずれかの部位の動き方とに相関関係が現れるフレームを含まない１以上のフレームを特定する。

特定部６０４は、具体的には、検出した物体の位置の時系列の統計的な特徴と、いずれかの部位の位置の時系列の統計的な特徴との類似度を算出する。特定部６０４は、具体的には、算出した類似度に基づいて、複数のフレームのうち、物体の動き方といずれかの部位の動き方とに相関関係が現れるフレームを含まない１以上のフレームを特定する。類似度は、例えば、時系列を示す軌跡間の距離の逆数などである。類似度は、例えば、時系列に関する分散間の差分の逆数などである。

特定部６０４は、より具体的には、連続する２以上のフレームの組み合わせごとに、当該組み合わせにおける、検出した物体の位置の時系列の統計的な特徴と、いずれかの部位の位置の時系列の統計的な特徴との類似度を算出する。特定部６０４は、より具体的には、ある組み合わせについて、算出した類似度が閾値以上であれば、当該組み合わせの２以上のフレームが、物体の動き方といずれかの部位の動き方とに相関関係が現れるフレームであると判定する。特定部６０４は、より具体的には、ある組み合わせについて、算出した類似度が閾値未満であれば、当該組み合わせの２以上のフレームが、物体の動き方といずれかの部位の動き方とに相関関係が現れるフレームではないと判定する。

特定部６０４は、具体的には、複数のフレームのうち、物体の動き方といずれかの部位の動き方とに相関関係が現れるフレームを含まない１以上のフレームを特定する。特定部６０４は、具体的には、複数のフレームのうち、物体の動き方といずれかの部位の動き方とに相関関係が現れるフレームを含まない、連続する所定数のフレームを特定してもよい。これにより、特定部６０４は、いずれかの部位の位置の時系列と、物体の位置の時系列とを考慮し、当該いずれかの部位の位置が、対象の人物の通常の歩容における手の部位の位置とは異なることを精度よく検出し易くすることができる。このため、特定部６０４は、複数のフレームのうち、照合処理の際にノイズとなり得るフレームを精度よく特定し易くすることができる。

特定部６０４は、例えば、対象の映像上の基準の位置に対する、複数の部位の少なくともいずれかの部位の位置の相対的な座標の分散を算出してもよい。基準の位置は、例えば、対象の映像上の対象の人物が有する特定の部位の位置である。特定の部位は、例えば、腰または頭の部位などである。基準の位置は、例えば、対象の映像上の特定の物体の位置などであってもよい。分散は、例えば、ｘ軸方向の分散と、Ｙ軸方向の分散とである。ｘ軸は、映像上の一方の軸である。ｙ軸は、ｘ軸と交差する映像上の他方の軸である。分散は、例えば、標準偏差であってもよい。特定部６０４は、例えば、連続する２以上のフレームの組み合わせごとに、当該組み合わせにおける、基準の位置に対する、複数の部位の少なくともいずれかの部位の位置の相対的な座標の分散を算出してもよい。

特定部６０４は、例えば、検出した物体の位置と、いずれかの部位の位置との位置関係、および、算出した分散に基づいて、物体の動き方といずれかの部位の動き方とに相関関係が現れるフレームを含まない１以上のフレームを特定してもよい。特定部６０４は、具体的には、検出した物体の位置と、いずれかの部位の位置との類似度、および、算出した分散に基づいて、複数のフレームのうち、物体の動き方といずれかの部位の動き方とに相関関係が現れるフレームを含まない１以上のフレームを特定する。類似度は、例えば、位置間の距離の逆数などである。

特定部６０４は、より具体的には、連続する２以上のフレームの組み合わせごとに、当該組み合わせにおける、検出した物体の位置の時系列の統計的な特徴と、いずれかの部位の位置の時系列の統計的な特徴との類似度を算出する。特定部６０４は、より具体的には、ある組み合わせについて、算出した類似度が第１閾値以上であるか否かを判定する。特定部６０４は、より具体的には、ある組み合わせについて、算出した類似度が閾値未満であれば、当該組み合わせの２以上のフレームが、物体の動き方といずれかの部位の動き方とに相関関係が現れるフレームではないと判定する。

特定部６０４は、より具体的には、ある組み合わせについて、算出した類似度が第１閾値以上であれば、さらに、当該組み合わせについて、算出した分散が第２閾値以上であるか否かを判定する。特定部６０４は、より具体的には、ある組み合わせについて、類似度が第１閾値以上、かつ、分散が第２閾値未満であれば、当該組み合わせの２以上のフレームが、物体の動き方といずれかの部位の動き方とに相関関係が現れるフレームであると判定する。

特定部６０４は、より具体的には、各フレームにおける、検出した物体の位置と、対象の映像上の手の部位の位置との類似度を算出してもよい。特定部６０４は、より具体的には、各フレームにおける、検出した物体の位置と、対象の映像上の手の部位の位置との類似度が、第１閾値以上であるか否かを判定する。特定部６０４は、より具体的には、対象の映像全体について、算出した分散が、第２の閾値以上であるか否かを判定する。

特定部６０４は、より具体的には、あるフレームにおいて、類似度が第１閾値以上であり、かつ、分散が第２閾値未満である場合、当該フレームが、物体の動き方といずれかの部位の動き方とに相関関係が現れるフレームであると判定する。特定部６０４は、より具体的には、あるフレームにおいて、類似度が第１閾値未満、または、分散が第２閾値以上である場合、当該フレームが、物体の動き方といずれかの部位の動き方とに相関関係が現れるフレームではないと判定する。

特定部６０４は、具体的には、複数のフレームのうち、物体の動き方といずれかの部位の動き方とに相関関係が現れるフレームを含まない１以上のフレームを特定する。特定部６０４は、具体的には、複数のフレームのうち、物体の動き方といずれかの部位の動き方とに相関関係が現れるフレームを含まない、連続する所定数のフレームを特定してもよい。これにより、特定部６０４は、いずれかの部位の位置の分散を考慮し、当該いずれかの部位の位置が、対象の人物の通常の歩容における手の部位の位置とは異なることを精度よく検出し易くすることができる。このため、特定部６０４は、複数のフレームのうち、照合処理の際にノイズとなり得るフレームを精度よく特定し易くすることができる。

照合部６０５は、対象の人物の照合処理を実施する。照合処理は、例えば、対象の人物が、特定の人物と一致するか否かを判定することである。照合部６０５は、例えば、特定した１以上のフレームに基づいて、対象の人物の照合処理を実施する。照合部６０５は、具体的には、特定した１以上のフレームにおける、複数の部位の位置の時間変化に関する特徴に基づいて、対象の人物の照合処理を実施する。

照合部６０５は、より具体的には、第２機械学習モデルに、特定した１以上のフレーム上の対象の人物が有する複数の部位の位置を入力することにより、対象の人物の歩容に関する第１特徴情報を生成する。照合部６０５は、より具体的には、生成した第１特徴情報に基づいて、対象の人物の照合処理を実施する。

照合部６０５は、より具体的には、記憶部６００を参照して、特定の人物の歩容に関する第２特徴情報を読み出す。照合部６０５は、より具体的には、生成した第１特徴情報と、読み出した第２特徴情報との類似度に基づいて、対象の人物の照合処理を実施する。類似度は、特徴情報間の差分の大きさを示す指標値である。照合部６０５は、さらに具体的には、生成した第１特徴情報と、読み出した第２特徴情報との類似度が、閾値以上であれば、対象の人物が、特定の人物と一致すると判定する。照合部６０５は、さらに具体的には、生成した第１特徴情報と、読み出した第２特徴情報との類似度が、閾値未満であれば、対象の人物が、特定の人物と一致しないと判定する。これにより、照合部６０５は、照合処理を精度よく実施することができる。

照合部６０５は、特定した１以上のフレームにおける、対象の人物が有する複数の部位のシルエットに関する特徴に基づいて、対象の人物の照合処理を実施してもよい。部位のシルエットは、例えば、セグメンテーションと呼ばれる認識手法によって認識することができる。照合部６０５は、例えば、１以上のフレームにおける対象の人物が有する複数の部位のシルエットに関する第１周波数領域特徴と、特定の人物が有する複数の部位のシルエットに関する第２周波数領域特徴とを生成する。照合部６０５は、例えば、第１周波数領域特徴と、第２周波数領域特徴とを比較した結果に基づいて、対象の人物の照合処理を実施する。これにより、照合部６０５は、照合処理を精度よく実施することができる。

照合部６０５は、参考の映像上の特定の人物が有する複数の部位の位置に基づいて、特定の人物の歩容に関する特徴情報を生成する。照合部６０５は、例えば、第２機械学習モデルに、参考の映像の各フレームにおける特定の人物が有する複数の部位の位置を入力することにより、特定の人物の歩容に関する特徴情報を生成する。これにより、照合部６０５は、特定の人物の歩容に関する特徴を解析することができ、照合処理を実施する際に参照する情報を生成することができる。照合部６０５は、予め、照合処理を実施する際に参照する情報を生成し、記憶部６００に記憶しておくことができる。

出力部６０６は、少なくともいずれかの機能部の処理結果を出力する。出力形式は、例えば、ディスプレイへの表示、プリンタへの印刷出力、ネットワークＩ／Ｆ３０３による外部装置への送信、または、メモリ３０２や記録媒体３０５の記憶領域への記憶などである。これにより、出力部６０６は、少なくともいずれかの機能部の処理結果を利用者に通知可能にし、情報処理装置１００の利便性の向上を図ることができる。

出力部６０６は、照合処理の処理結果を出力する。出力部６０６は、例えば、照合処理の処理結果を、クライアント装置２０２に送信する。出力部６０６は、例えば、照合処理の処理結果を、利用者が参照可能に出力する。出力部６０６は、具体的には、照合処理の処理結果を、利用者が参照可能にディスプレイ３０６に表示する。これにより、出力部６０６は、照合処理の処理結果を利用可能にすることができる。

ここでは、情報処理装置１００が、取得部６０１と、第１検出部６０２と、第２検出部６０３と、特定部６０４と、照合部６０５と、出力部６０６とを含む場合について説明したが、これに限らない。例えば、情報処理装置１００が、いずれかの機能部を含まず、当該機能部を含む他のコンピュータと通信可能である場合があってもよい。

具体的には、情報処理装置１００が、第１検出部６０２を含まない場合が考えられる。この場合、取得部６０１が、第１検出部６０２を含む他のコンピュータから、映像の各フレームにおける人物が有する部位の位置を示す情報を受信することにより、当該映像の各フレームにおける当該人物が有する当該部位の位置を検出することが考えられる。

具体的には、情報処理装置１００が、第２検出部６０３を含まない場合が考えられる。この場合、取得部６０１が、第２検出部６０３を含む他のコンピュータから、映像の各フレームにおける物体の位置を示す情報を受信することにより、当該映像の各フレームにおける当該物体の位置を検出することが考えられる。

（情報処理装置１００の動作の流れ）
次に、図７を用いて、情報処理装置１００の動作の流れについて説明する。

図７は、情報処理装置１００の動作の流れを示す説明図である。図７において、（７－１）情報処理装置１００は、対象の人物が映った映像７００を取得する。映像７００は、例えば、対象の人物が映った複数のフレームを含む。映像７００は、例えば、複数の人物が映った全体の映像の各フレームから、対象の人物７０１が映った一定の大きさの領域を、新たなフレームとして切り出すことにより形成されていてもよい。映像７００は、具体的には、切り出された新たな複数のフレームを時系列順に含む。

（７－２）情報処理装置１００は、映像７００に基づいて、映像７００の各フレームにおける、対象の人物７０１が有する複数の部位のそれぞれの部位の位置を検出する。部位は、例えば、鼻、左目、右目、左耳、右耳、左肩、右肩、左肘、右肘、左手首、右手首、左腰、右腰、左膝、右膝、左足首、および、右足首などである。部位の位置は、例えば、ピクセル座標によって表現される。情報処理装置１００は、例えば、検出した位置に基づいて、映像７００の各フレームにおける、対象の人物７０１が有する複数の部位のそれぞれの部位の位置を示す骨格情報７１０を生成する。

（７－３）情報処理装置１００は、基準の位置に対する右手首の部位の位置の相対的な座標の分散を算出する。基準の位置は、例えば、対象の人物７０１が有する腰の部位の位置である。腰の部位の位置は、例えば、右腰の部位の位置である。腰の部位の位置は、例えば、左腰の部位の位置であってもよい。腰の部位の位置は、例えば、右腰および左腰の部位の位置の中心の位置であってもよい。情報処理装置１００は、例えば、映像７００全体における、基準の位置に対する右手首の部位の位置の相対的な座標の分散を算出する。

（７－４）情報処理装置１００は、映像７００に基づいて、映像７００の各フレームにおける、対象の人物７０１の所持品となり得る特定の物体７０２の位置を検出する。特定の物体７０２は、スマートフォンなどである。図７の例では、情報処理装置１００は、映像７００に基づいて、映像７００の各フレームにおける、スマートフォンの位置を検出する。

（７－５）情報処理装置１００は、算出した分散が第１閾値以上であるか否かを判定する。情報処理装置１００は、算出した分散が第１閾値以上であれば、映像７００上の対象の人物７０１の右手首の部位の位置に対する、特定の物体７０２に起因する影響が比較的小さいと判断する。このため、情報処理装置１００は、算出した分散が第１閾値以上であれば、映像７００の各フレームは、照合処理の際にノイズとなり得るフレームではないと判定する。

情報処理装置１００は、算出した分散が第１閾値未満であれば、映像７００の各フレームにおける、対象の人物７０１の右手首の部位の位置と、特定の物体７０２の位置との類似度を算出する。類似度は、例えば、映像７００の各フレームにおける、対象の人物７０１の右手首の部位の位置と、特定の物体７０２の位置との差分に基づいて算出される。類似度は、例えば、差分の逆数である。

情報処理装置１００は、映像７００の各フレームについて、算出した類似度が第２閾値以上であるか否かを判定する。情報処理装置１００は、あるフレームについて、算出した類似度が第２閾値未満であれば、映像７００上の対象の人物７０１の右手首の部位の位置に対する、特定の物体７０２に起因する影響が比較的小さいと判断する。このため、情報処理装置１００は、あるフレームについて、算出した類似度が第２閾値未満であれば、当該フレームが、照合処理の際にノイズとなり得るフレームではないと判定する。

情報処理装置１００は、あるフレームについて、算出した類似度が第２閾値以上であれば、対象の人物７０１が、特定の物体７０２を所持する確率が比較的高いと判断する。このため、情報処理装置１００は、あるフレームについて、算出した類似度が第２閾値以上であれば、映像７００上の対象の人物７０１の右手首の部位の位置に対する、特定の物体７０２に起因する影響が比較的大きいと判断する。従って、情報処理装置１００は、あるフレームについて、算出した類似度が第２閾値以上であれば、当該フレームが、照合処理の際にノイズとなり得るフレームであると判断し、除外対象に設定する。

（７－６）情報処理装置１００は、映像７００のうち、除外対象のフレームを除いた１以上のフレームを、照合処理の処理対象に設定する。情報処理装置１００は、例えば、映像７００のうち、除外対象のフレームを除いた連続する所定数のフレームを、照合処理の処理対象に設定してもよい。所定数は、例えば、予め利用者によって設定される。

（７－７）情報処理装置１００は、処理対象に設定した１以上のフレームに基づいて、対象の人物７０１の歩容に関する第１特徴情報を生成する。情報処理装置１００は、生成した対象の人物７０１の歩容に関する第１特徴情報と、特定の人物の歩容に関する第２特徴情報とを比較することにより、対象の人物７０１が、特定の人物に合致するか否かを判定する照合処理を実施する。これにより、情報処理装置１００は、照合処理を精度よく実施することができる。

ここでは、情報処理装置１００が、映像７００全体における、基準の位置に対する右手首の部位の位置の相対的な座標の分散を算出する場合について説明したが、これに限らない。例えば、情報処理装置１００が、映像７００の各フレームについて、当該フレームを含む連続した２以上のフレームにおける、基準の位置に対する右手首の部位の位置の相対的な座標の分散を算出する場合があってもよい。

具体的には、情報処理装置１００が、映像７００の各フレームについて、当該フレーム以降の連続する２以上のフレームにおける、基準の位置に対する右手首の部位の位置の相対的な座標の分散を算出することが考えられる。また、具体的には、情報処理装置１００が、映像７００の各フレームについて、当該フレーム以前の連続する２以上のフレームにおける、基準の位置に対する右手首の部位の位置の相対的な座標の分散を算出することが考えられる。また、具体的には、情報処理装置１００が、映像７００の各フレームについて、当該フレーム前後の連続する２以上のフレームにおける、基準の位置に対する右手首の部位の位置の相対的な座標の分散を算出することが考えられる。

この場合、情報処理装置１００は、映像７００の各フレームについて、当該フレームを含む連続した２以上のフレームにおける、対象の人物７０１の右手首の部位の位置と、特定の物体７０２の位置との類似度を算出してもよい。情報処理装置１００は、映像７００の各フレームについて、算出した分散が第１閾値以上であるか否か、および、算出した類似度が第２閾値以上であるか否かを判定する。これにより、情報処理装置１００は、映像７００の各フレームが、照合処理の際にノイズとなり得るフレームであるか否かを判定することができる。情報処理装置１００は、例えば、映像７００の各フレームについて個別に分散を算出するため、映像７００の各フレームが、照合処理の際にノイズとなり得るフレームであるか否かを精度よく判定し易くすることができる。

（情報処理装置１００の動作の一例）
次に、図８～図１５を用いて、情報処理装置１００の動作の一例について説明する。まず、図８～図１０を用いて、情報処理装置１００が、人物が有する複数の部位のそれぞれの部位の位置を示す骨格情報を取得し、骨格情報に基づいて、照合処理に用いられる機械学習モデルを学習する一例について説明する。機械学習モデルは、例えば、ＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）である。ＤＮＮは、例えば、ＧａｉｔＧｒａｐｈを適用することができる。

図８および図９は、骨格情報を取得する一例を示す説明図である。図８において、情報処理装置１００は、人物が映った参考の映像の各フレームにおける、人物が有する１７点の部位のそれぞれの部位の位置を示す骨格情報を取得する。１７点の部位と、部位間の接続関係は、グラフ８００に示される。

骨格情報は、例えば、映像の各フレームに対応付けて、当該フレームにおける人物が有する１７点の部位のそれぞれの部位の位置を示す座標情報管理テーブル８１０を含む。図８に示すように、座標情報管理テーブル８１０は、番号と、ｘと、ｙとのフィールドを有する。座標情報管理テーブル８１０は、部位ごとに各フィールドに情報を設定することにより、座標情報がレコードとして記憶される。

番号のフィールドには、人物の部位を識別する番号が設定される。ｘのフィールドには、フレーム上の上記人物の部位の位置を示す座標のｘ軸成分が設定される。ｘ軸成分の単位は、例えば、ピクセルである。ｙのフィールドには、フレーム上の上記人物の部位の位置を示す座標のｙ軸成分が設定される。ｙ軸成分の単位は、例えば、ピクセルである。次に、図９の説明に移行する。

図９に示すように、情報処理装置１００は、部位間の接続関係を示す表９００を記憶する。表９００は、例えば、異なるフレームに対して共通である。表９００は、例えば、異なる人物に対して共通であってもよい。表９００において、行番号および列番号は、部位の番号に対応する。行番号と列番号との組み合わせが、部位の組み合わせを示す。部位の組み合わせが接続されていれば、当該部位の組み合わせに対応する行番号と列番号との組み合わせに対応する要素に、フラグ情報＝１が設定される。部位の組み合わせが接続されていなければ、当該部位の組み合わせに対応する行番号と列番号との組み合わせに対応する要素に、フラグ情報＝０が設定される。次に、図１０の説明に移行する。

図１０は、機械学習モデルを学習する一例を示す説明図である。図１０において、情報処理装置１００は、取得した骨格情報１０００を用いて、全身骨格用ＤＮＮを学習する。全身骨格用ＤＮＮは、１以上のフレームにおける、人物が有する全身の１７点の部位の位置に応じて、当該人物の歩容に関する特徴ベクトルを出力する機能を有する。これにより、情報処理装置１００は、人物の歩容に関する特徴ベクトルを算出可能にすることができる。

次に、図１１を用いて、情報処理装置１００が、取得した映像に映った人物を検出する一例について説明する。人物は、照合処理の対象となり得る。

図１１は、人物を検出する一例を示す説明図である。図１１において、情報処理装置１００は、映像を取得する。情報処理装置１００は、取得した映像の各フレームに映った人物を検出する。人物の検出は、例えば、Ｙｏｌｏと呼ばれる検出技術、および、ＤｅｅｐＳＯＲＴと呼ばれる追跡技術などを適用することができる。情報処理装置１００は、例えば、服装などに基づいて同一の人物と認識した、取得した映像の各フレームに映った人物に、同一の人物ＩＤを割り振る。

情報処理装置１００は、検出したいずれかの人物１１０１を、対象の人物に設定する。情報処理装置１００は、例えば、人物ＩＤ０１の人物１１０１を、対象の人物に設定する。情報処理装置１００は、取得した映像の各フレームから、設定した対象の人物が映った一定の大きさの領域を切り出して新たなフレームとして採用し、採用した新たなフレームを時系列に並べたフレーム群１１００を生成する。これにより、情報処理装置１００は、映像に映ったいずれかの人物に着目して照合処理を実施可能にすることができる。

次に、図１２を用いて、情報処理装置１００が、フレーム群１１００の各フレームに映った所持品を検出する一例について説明する。

図１２は、所持品を検出する一例を示す説明図である。図１２において、情報処理装置１００は、フレーム群１１００の各フレームに映った所持品となり得る物体を検出し、当該物体の位置を検出する。物体の検出は、例えば、Ｙｏｌｏと呼ばれる検出技術、および、ＤｅｅｐＳＯＲＴと呼ばれる追跡技術などを適用することができる。情報処理装置１００は、検出した物体を、所持品の候補に設定する。図１２の例では、情報処理装置１００は、スマートフォン１２０１、および、バッグ１２０２を検出したとする。

これにより、情報処理装置１００は、対象の人物の歩容に影響を与え得る所持品の候補を検出することができる。情報処理装置１００は、対象の人物の部位の位置の動き方と、所持品の候補の位置の動き方とに相関関係があるか否かを判定可能にすることができる。このため、情報処理装置１００は、照合処理の際にノイズとなり得るフレームを特定可能にすることができる。

次に、図１３を用いて、情報処理装置１００が、除外対象とするフレームを特定する一例について説明する。

図１３は、除外対象とするフレームを特定する一例を示す説明図である。図１３において、情報処理装置１００は、フレーム群１１００の各フレームにおける、対象の人物が有する複数の部位のそれぞれの部位の位置を検出し、骨格情報１３００を生成する。情報処理装置１００は、例えば、フレーム群１１００の各フレームに映った対象の人物のサイズに応じて正規化した、複数の部位のそれぞれの部位の位置を検出し、骨格情報１３００を生成してもよい。

情報処理装置１００は、具体的には、フレームの入力に応じて、フレーム上の人物が有する複数の部位のそれぞれの部位の位置を出力する機械学習モデルを記憶する。情報処理装置１００は、具体的には、フレーム群１１００の各フレームを、機械学習モデルに入力することにより、フレーム群１１００の各フレームにおける、対象の人物が有する複数の部位のそれぞれの部位の位置を検出する。

情報処理装置１００は、骨格情報１３００に基づいて、フレーム群１１００の各フレームにおける、左腰および右腰の部位の中心の位置を特定し、腰の部位の位置に設定する。情報処理装置１００は、骨格情報１３００に基づいて、フレーム群１１００の各フレームについて、当該フレームを含む連続した２以上のフレームにおける、腰の部位の位置に対する左手首の部位の位置の相対的な座標に関するｘ標準偏差とｙ標準偏差とを算出する。ｘ標準偏差は、腰の部位の位置に対する左手首の部位の位置の相対的な座標の分布１３１０におけるｘ軸成分の標準偏差である。ｙ標準偏差は、腰の部位の位置に対する左手首の部位の位置の相対的な座標の分布１３１０におけるｙ軸成分の標準偏差である。

情報処理装置１００は、骨格情報１３００に基づいて、フレーム群１１００の各フレームについて、当該フレームを含む連続した２以上のフレームにおける、腰の部位の位置に対する右手首の部位の位置の相対的な座標に関するｘ標準偏差とｙ標準偏差とを算出する。ｘ標準偏差は、腰の部位の位置に対する右手首の部位の位置の相対的な座標の分布１３１０におけるｘ軸成分の標準偏差である。ｙ標準偏差は、腰の部位の位置に対する右手首の部位の位置の相対的な座標の分布１３１０におけるｙ軸成分の標準偏差である。

ここで、情報処理装置１００は、フレーム群１１００の各フレームについて、左手首の部位に関するｘ標準偏差およびｙ標準偏差が閾値以上であるか否かを判定する。閾値は、例えば、０．１である。図１３の例では、情報処理装置１００は、あるフレーム１３０１について、左手首の部位に関するｘ標準偏差が閾値以上であると判定したとする。情報処理装置１００は、あるフレーム１３０１について、左手首の部位に関するｘ標準偏差が閾値以上であれば、当該フレーム１３０１を含む２以上のフレーム１３０２において、物体が左手首の部位の動き方を拘束していないと判定する。換言すれば、情報処理装置１００は、あるフレーム１３０１について、左手首の部位に関するｘ標準偏差が閾値以上であれば、当該フレーム１３０１を含む２以上のフレーム１３０２において、物体と左手首の部位との動き方に相関関係がないと判定する。

また、情報処理装置１００は、フレーム群１１００の各フレームについて、右手首の部位に関するｘ標準偏差およびｙ標準偏差が閾値以上であるか否かを判定する。閾値は、例えば、０．１である。図１３の例では、情報処理装置１００は、あるフレーム１３０１について、右手首の部位に関するｘ標準偏差およびｙ標準偏差が閾値未満であると判定したとする。情報処理装置１００は、あるフレーム１３０１について、右手首の部位に関するｘ標準偏差およびｙ標準偏差が閾値未満であれば、検出した物体が右手首の部位の動き方を拘束するか否かをさらに判定することにする。

情報処理装置１００は、例えば、あるフレーム１３０１について、右手首の部位に関するｘ標準偏差およびｙ標準偏差が閾値未満であれば、さらに、検出した物体の位置が、右手首の部位の位置に比較的近いか否かを判定する。情報処理装置１００は、具体的には、フレーム１３０１を含む２以上のフレーム１３０２において、検出したバッグの位置と、右手首の部位の位置との距離の平均値を類似度として算出し、類似度が閾値以上であるか否かを判定する。閾値は、例えば、予め設定される。閾値は、例えば、１０ピクセル分の距離などである。

情報処理装置１００は、具体的には、類似度が閾値以上であれば、２以上のフレーム１３０２において、検出した物体の位置が、右手首の部位の位置に比較的近いと判定する。情報処理装置１００は、具体的には、類似度が閾値未満であれば、２以上のフレーム１３０２において、検出した物体の位置が、右手首の部位の位置から比較的遠いと判定する。情報処理装置１００は、例えば、検出した物体の位置が、右手首の部位の位置に比較的近いと判定した場合、検出した物体が、右手首の部位の動き方を拘束すると判定する。

図１３の例では、情報処理装置１００は、２以上のフレーム１３０２において、バッグに関する距離の平均値が閾値以上であるため、バッグが、右手首の部位の動き方を拘束しないと判定する。一方で、情報処理装置１００は、２以上のフレーム１３０２において、スマートフォンに関する距離の平均値が閾値未満であるため、スマートフォンが、右手首の部位の動き方を拘束すると判定する。このため、情報処理装置１００は、あるフレーム１３０１、または、２以上のフレーム１３０２において、スマートフォンと右手首の部位との動き方に相関関係があると判定する。情報処理装置１００は、スマートフォンと右手首の部位との動き方に相関関係があると判定した、あるフレーム１３０１、または、２以上のフレーム１３０２を、照合処理の際の除外対象に設定する。

これにより、情報処理装置１００は、あるフレーム１３０１、または、２以上のフレーム１３０２が、対象の人物の歩容の特徴を表すフレームとして採用することが難しいフレームであると判定することができる。このため、情報処理装置１００は、照合処理に用いるフレームを適切に特定可能にすることができる。

次に、図１４を用いて、情報処理装置１００が、処理対象とする１以上のフレームを特定する一例について説明する。

図１４は、処理対象とする１以上のフレームを特定する一例を示す説明図である。図１４において、情報処理装置１００は、フレーム群１１００のうち、除外対象に設定したフレームを除いた１以上のフレームを、照合処理の際の処理対象として特定する。図１４の例では、除外対象に設定したフレームを、点状ハッチを付して示す。

情報処理装置１００は、例えば、フレーム群１１００のうち、所定数のフレームを、照合処理の際の処理対象として特定する。所定数は、例えば、３０である。所定数は、例えば、歩容の特徴を表す特徴情報の生成精度を担保可能にするためのフレームの数である。図１４の例では、情報処理装置１００は、フレーム群１１００のうち、除外対象に設定したフレームを除いた連続する３０個のフレームを、照合処理の際の処理対象として特定する。

情報処理装置１００は、具体的には、フレーム群１１００のうち、先頭側に存在する３０個以上のフレームが存在する区間から、最新３０個のフレームを、照合処理の際の処理対象として特定する。情報処理装置１００は、具体的には、フレーム群１１００のうち、先頭側に存在する３０個以上のフレームが存在する区間から、最後３０個のフレームを、照合処理の際の処理対象として特定してもよい。情報処理装置１００は、具体的には、利用者の操作入力に基づき、フレーム群１１００のうち、先頭側に存在する３０個以上のフレームが存在する区間から、３０個のフレームの選択を受け付け、選択された３０個のフレームを、照合処理の際の処理対象として特定してもよい。情報処理装置１００は、具体的には、フレーム群１１００のうち、末尾側に存在する３０個以上のフレームが不足する区間のフレームは、照合処理の際の処理対象として特定しないことが好ましい。

次に、図１５を用いて、情報処理装置１００が、照合処理を実施する一例について説明する。

図１５は、照合処理を実施する一例を示す説明図である。図１５において、情報処理装置１００は、骨格情報１３００から、処理対象に設定した１以上のフレームにおける複数の部位の位置を示す情報を抽出し、抽出した複数の部位の位置を示す情報を含む骨格情報１５１０を生成する。情報処理装置１００は、骨格情報１５１０を、学習した全身骨格用ＤＮＮ１５００に入力することにより、対象の人物の歩容に関する特徴ベクトル１５１１を生成する。

情報処理装置１００は、対象の人物の候補となる特定の人物が有する複数の部位の位置を示す骨格情報１５２０を取得する。骨格情報１５２０は、特定の人物が映った映像に基づいて生成されていてもよい。情報処理装置１００は、骨格情報１５２０を、学習した全身骨格用ＤＮＮ１５００に入力することにより、特定の人物の歩容に関する特徴ベクトル１５２１を生成する。

情報処理装置１００は、特徴ベクトル１５１１と特徴ベクトル１５２１とのベクトル間距離を算出する。距離は、対象の人物の歩容と、特定の人物の歩容との類似度を表す。情報処理装置１００は、算出したベクトル間距離が閾値以上であるか否かを判定する。情報処理装置１００は、ベクトル間距離が閾値以上であれば、対象の人物の歩容と、特定の人物の歩容とが類似せず、対象の人物が、特定の人物に合致しないと判定する。情報処理装置１００は、ベクトル間距離が閾値未満であれば、対象の人物の歩容と、特定の人物の歩容とが類似せず、対象の人物が、特定の人物に合致しないと判定する。

これにより、情報処理装置１００は、照合処理を精度よく実施することができる。情報処理装置１００は、例えば、対象の人物が、特定の人物に合致するか否かを精度よく判定することができる。情報処理装置１００は、具体的には、フレーム群１１００のうち、対象の人物の歩容の特徴を精度よく表す１以上のフレームを適切に選択することができ、照合処理の精度向上を図ることができる。

情報処理装置１００は、例えば、物体と部位との位置関係に基づいて、１以上のフレームを特定するため、物体と関係なく特異な位置に部位が存在する状況の１以上のフレームを特定可能にすることができる。このため、情報処理装置１００は、対象の人物が、いずれかの部位を、物体と関係なく特異な位置に保持しつつ歩行する傾向がある場合にも適用することができる。従って、情報処理装置１００は、照合処理の精度向上を図ることができる。

情報処理装置１００は、例えば、対象の人物が、複数の特定の人物のいずれの特定の人物に合致するかを精度よく判定することができる。情報処理装置１００は、具体的には、複数の映像のそれぞれの映像に映った人物と、行方不明者、または、犯罪容疑者などの対象の人物とが合致するか否かを判定することができる。このため、情報処理装置１００は、具体的には、利用者が、複数の映像から、行方不明者、または、犯罪容疑者などの対象の人物が映った映像を見つけ出し易くすることができる。従って、情報処理装置１００は、警察官などの利用者が、行方不明者、または、犯罪容疑者などを捜索し易くすることができ、業務を支援することができる。

情報処理装置１００は、例えば、対象の人物が、建物または部屋などの場所に立ち入ることを許可された複数の特定の人物のいずれの特定の人物に合致するかを精度よく判定することができる。このため、情報処理装置１００は、具体的には、建物または部屋などの場所に立ち入ろうとする対象の人物を適切に認証し、対象の人物による建物または部屋などの場所への立ち入りを適切に制御することができる。

以上の説明では、情報処理装置１００が、物体が右手首または左手首の部位の動き方を拘束するか否か、物体と右手首または左手首の部位との動き方に相関関係があるか否かを判定し、除外対象とするフレームを特定する場合について説明したが、これに限らない。

例えば、情報処理装置１００が、物体と頭の部位の動き方に相関関係があるか否かを判定し、除外対象とするフレームを特定する場合があってもよい。この場合、情報処理装置１００は、例えば、帽子またはフードなどの物体が、頭の部位の位置の検出精度を悪化させているか否かを判定することができる。情報処理装置１００は、帽子またはフードなどの物体が、頭の部位の位置の検出精度を悪化させ得ることを考慮して、除外対象とするフレームを適切に特定することができる。情報処理装置１００は、例えば、帽子またはフードなどの物体が、頭の部位の位置の検出精度を悪化させる状況であるフレームを、除外対象として特定することができる。このため、情報処理装置１００は、照合処理の精度向上を図ることができる。

また、例えば、情報処理装置１００が、物体と腰の部位の動き方に相関関係があるか否かを判定する場合があってもよい。この場合、情報処理装置１００は、例えば、バッグなどの物体が、腰の部位の位置の検出精度を悪化させているか否かを判定することができる。情報処理装置１００は、バッグなどの物体が、腰の部位の位置の検出精度を悪化させ得ることを考慮して、除外対象とするフレームを適切に特定することができる。情報処理装置１００は、例えば、バッグなどの物体が、腰の部位の位置の検出精度を悪化させる状況であるフレームを、除外対象として特定することができる。このため、情報処理装置１００は、照合処理の精度向上を図ることができる。

（全体処理手順）
次に、図１６を用いて、情報処理装置１００が実行する、全体処理手順の一例について説明する。全体処理は、例えば、図３に示したＣＰＵ３０１と、メモリ３０２や記録媒体３０５などの記憶領域と、ネットワークＩ／Ｆ３０３とによって実現される。

図１６は、全体処理手順の一例を示すフローチャートである。図１６において、情報処理装置１００は、対象の映像を取得する（ステップＳ１６０１）。

次に、情報処理装置１００は、取得した対象の映像の各フレームに映った対象の人物を検出する（ステップＳ１６０２）。そして、情報処理装置１００は、取得した対象の映像の各フレームに映った対象の人物の骨格の姿勢を特定する（ステップＳ１６０３）。また、情報処理装置１００は、取得した対象の映像の各フレームに映った対象の物体を検出する（ステップＳ１６０４）。

次に、情報処理装置１００は、検出した対象の人物の骨格の姿勢に基づいて、対象の映像の各フレームにおける対象の人物が有する各部位の位置を検出する（ステップＳ１６０５）。また、情報処理装置１００は、検出した対象の物体に基づいて、対象の映像の各フレームにおける対象の物体の位置を検出する（ステップＳ１６０６）。そして、情報処理装置１００は、対象の人物の基準の部位の位置に対する右手および左手の部位の位置の相対的な位置を算出する（ステップＳ１６０７）。

次に、情報処理装置１００は、算出した相対的な位置に基づいて、映像の各フレームのうち、右手または左手の部位の動き方に、対象の物体の動き方と相関関係が現れるフレームが存在するか否かを判定する（ステップＳ１６０８）。ここで、右手または左手の部位の動き方に、対象の物体の動き方と相関関係が現れるフレームが存在する場合（ステップＳ１６０８：Ｙｅｓ）、情報処理装置１００は、ステップＳ１６０９の処理に移行する。一方で、右手または左手の部位の動き方に、対象の物体の動き方と相関関係が現れるフレームが存在しない場合（ステップＳ１６０８：Ｎｏ）、情報処理装置１００は、ステップＳ１６１０の処理に移行する。

ステップＳ１６０９では、情報処理装置１００は、映像の各フレームのうち、右手または左手の部位の動き方に、対象の物体の動き方と相関関係が現れるフレームを、除外対象に設定する（ステップＳ１６０９）。そして、情報処理装置１００は、ステップＳ１６１０の処理に移行する。

ステップＳ１６１０では、情報処理装置１００は、除外対象のフレームを除いた、１以上のフレームに基づいて、対象の人物の照合処理を実施する（ステップＳ１６１０）。そして、情報処理装置１００は、全体処理を終了する。これにより、情報処理装置１００は、照合処理を精度よく実施することができる。

以上説明したように、情報処理装置１００によれば、人物を含む映像を取得することができる。情報処理装置１００によれば、取得した映像を分析することで、映像の中に含まれる物体を検出することができる。情報処理装置１００によれば、検出した物体と人物が有する複数の部位のうちいずれかの部位との位置関係に基づいて、物体の動きといずれかの部位の動きとが相関関係を有するか否かを判定することができる。情報処理装置１００によれば、物体の動きといずれかの部位の動きとが相関関係を有すると判定されたときに、映像を構成する複数のフレームのうち、相関関係が現れる第一のフレームを特定することができる。情報処理装置１００によれば、複数のフレームの中から第一のフレームが除外された第二のフレームを用いて、人物の照合を実施することができる。これにより、情報処理装置１００は、対象の人物の照合処理を精度よく実施することができる。

情報処理装置１００によれば、取得した映像上の人物とは異なる物体の位置を検出することができる。情報処理装置１００によれば、検出した物体の位置と、取得した映像上の複数の部位のそれぞれの部位の位置との位置関係を特定することができる。情報処理装置１００によれば、第二のフレームに、複数のフレームのうち、物体の動きといずれかの部位の動きとに相関関係が現れる第一のフレームを含まない１以上のフレームを採用することができる。これにより、情報処理装置１００は、対象の人物の照合処理を精度よく実施することができる。

情報処理装置１００によれば、映像の入力に応じて当該映像に映った人物が有する部位の位置を出力する第一の機械学習モデルに、取得した映像を入力することにより、取得した映像上の複数の部位のそれぞれの部位の位置を検出することができる。情報処理装置１００によれば、検出した物体の位置と、検出した複数の部位の少なくともいずれかの部位の位置との位置関係を特定することができる。情報処理装置１００によれば、第二のフレームに、複数のフレームのうち、物体の動きといずれかの部位の動きとに相関関係が現れる第一のフレームを含まない１以上のフレームを採用することができる。これにより、情報処理装置１００は、自装置で、対象の映像上の複数の部位のそれぞれの部位の位置を検出することができ、単独で動作し易くすることができる。

情報処理装置１００によれば、映像を分析することで、人物の骨格情報を生成することができる。情報処理装置１００によれば、生成した人物の骨格情報を用いて、人物の骨格または関節の位置を特定することができる。情報処理装置１００によれば、人物が有する部位の位置に、当該部位の骨格または関節の位置を採用することができる。これにより、情報処理装置１００は、対象の人物が有する部位の位置を検出する際に、骨格の位置を検出する手法を適用することができる。情報処理装置１００は、照合処理に、骨格の位置を利用する手法を適用することができる。

情報処理装置１００によれば、人物が有する部位の位置に、当該部位のシルエットの位置を採用することができる。これにより、情報処理装置１００は、対象の人物が有する部位の位置を検出する際に、シルエットの位置を検出する手法を適用することができる。情報処理装置１００は、照合処理に、シルエットの位置を利用する手法を適用することができる。

情報処理装置１００によれば、検出した物体と、取得した映像上の手の部位との位置関係に基づいて、物体の動きと手の部位の動きとが相関関係を有するか否かを判定することができる。情報処理装置１００によれば、物体の動きと手の部位の動きとが相関関係を有すると判定されたときに、複数のフレームのうち、相関関係が現れる第一のフレームを特定し、複数のフレームのうち、特定した第一のフレームを含まない１以上のフレームを特定し、第二のフレームとして設定することができる。これにより、情報処理装置１００は、対象の人物が物体を所持するか否かを考慮して、照合処理の精度向上を図ることができる。

情報処理装置１００によれば、検出した物体の位置の時系列と、複数の部位の少なくともいずれかの部位の位置の時系列との位置関係に基づいて、物体の動きといずれかの部位の動きとが相関関係を有するか否かを判定することができる。情報処理装置１００によれば、物体の動きといずれかの部位の動きとが相関関係を有すると判定されたときに、複数のフレームのうち、相関関係が現れる第一のフレームを特定し、複数のフレームのうち、特定した第一のフレームを含まない１以上のフレームを特定し、第二のフレームとして設定することができる。これにより、情報処理装置１００は、物体の位置の時系列と、部位の位置の時系列とを考慮して、１以上のフレームを精度よく特定し易くすることができる。

情報処理装置１００によれば、第二のフレームにおける、複数の部位の位置の時間変化に関する特徴に基づいて、人物の照合を実施することができる。これにより、情報処理装置１００は、部位の位置の時間変化を考慮して、対象の人物の照合処理を精度よく実施し易くすることができる。

情報処理装置１００によれば、取得した映像上の基準の位置に対する、複数の部位の少なくともいずれかの部位の位置の相対的な座標の分散を算出することができる。情報処理装置１００によれば、検出した物体の位置と、いずれかの部位の位置との位置関係、および、算出した分散に基づいて、物体の動きといずれかの部位の動きとが相関関係を有するか否かを判定することができる。情報処理装置１００によれば、物体の動きといずれかの部位の動きとが相関関係を有すると判定されたときに、複数のフレームのうち、相関関係が現れる第一のフレームを特定し、複数のフレームのうち、特定した第一のフレームを含まない１以上のフレームを特定し、第二のフレームとして設定することができる。これにより、情報処理装置１００は、いずれかの部位の位置のばらつきを考慮して、当該いずれかの部位と、物体との動き方に相関関係があるか否かを精度よく判定し易くすることができる。

情報処理装置１００によれば、基準の位置に、取得した映像上の人物が有する腰の部位の位置を採用することができる。これにより、情報処理装置１００は、腰の部位の位置を基準として用いることができ、いずれかの部位と、物体との動き方に相関関係があるか否かを精度よく判定し易くすることができる。

情報処理装置１００によれば、人物が有する部位の位置の入力に応じて当該人物の歩容に関する特徴ベクトルを出力する第二の機械学習モデルに、第二のフレーム上の複数の部位の位置を入力することにより、人物の歩容に関する特徴ベクトルを生成することができる。情報処理装置１００によれば、生成した特徴ベクトルに基づいて、人物の照合を実施することができる。これにより、情報処理装置１００は、対象の人物の歩容の特徴を精度よく表す指標を得ることができ、照合処理を実施可能にすることができる。

情報処理装置１００によれば、第二の機械学習モデルに、特定の人物が有する複数の部位の位置を入力することにより生成された、特定の人物の歩容に関する特徴ベクトルを取得することができる。情報処理装置１００によれば、生成した人物の歩容に関する特徴ベクトルと、取得した特定の人物の歩容に関する特徴ベクトルとが類似すると判定した場合、人物が、特定の人物に合致すると判定することができる。これにより、情報処理装置１００は、対象の人物と、特定の人物とを照合することができる。

情報処理装置１００によれば、第二のフレームにおける、複数の部位のシルエットに関する特徴に基づいて、人物の照合を実施することができる。これにより、情報処理装置１００は、照合処理に、シルエットの位置を利用する手法を適用することができる。

情報処理装置１００によれば、物体の動きといずれかの部位の動きとが相関関係を有すると判定されたときに、映像を構成する複数のフレームのうち、相関関係が現れる第一のフレームを特定し、複数のフレームのうち、特定した第一のフレームを含まない、連続する所定数のフレームを特定し、第二のフレームとして設定することができる。これにより、情報処理装置１００は、照合処理に利用するフレームを所定数確保することができ、照合処理の実施精度を担保し易くすることができる。

なお、本実施の形態で説明した照合支援方法は、予め用意されたプログラムをＰＣやワークステーションなどのコンピュータで実行することにより実現することができる。本実施の形態で説明した照合支援プログラムは、コンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。記録媒体は、ハードディスク、フレキシブルディスク、ＣＤ（ＣｏｍｐａｃｔＤｉｓｃ）－ＲＯＭ、ＭＯ（ＭａｇｎｅｔｏＯｐｔｉｃａｌｄｉｓｃ）、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）などである。また、本実施の形態で説明した照合支援プログラムは、インターネットなどのネットワークを介して配布してもよい。

上述した実施の形態に関し、さらに以下の付記を開示する。

（付記１）人物を含む映像を取得し、
取得した前記映像を分析することで、前記映像の中に含まれる物体を検出し、
検出した前記物体と前記人物が有する複数の部位のうちいずれかの部位との位置関係に基づいて、前記物体の動きと前記いずれかの部位の動きとが相関関係を有するか否かを判定し、
前記物体の動きと前記いずれかの部位の動きとが相関関係を有すると判定されたときに、前記映像を構成する複数のフレームのうち、前記相関関係が現れる第一のフレームを特定し、
前記複数のフレームの中から前記第一のフレームが除外された第二のフレームを用いて、前記人物の照合を実施する、
処理をコンピュータに実行させることを特徴とする照合支援プログラム。

（付記２）取得した前記映像上の前記人物とは異なる物体の位置を検出し、
検出した前記物体の位置と、取得した前記映像上の前記複数の部位のそれぞれの部位の位置との位置関係を特定する、
処理を前記コンピュータに実行させ、
前記第二のフレームは、前記複数のフレームのうち、前記物体の動きと前記いずれかの部位の動きとに相関関係が現れる前記第一のフレームを含まない１以上のフレームである、ことを特徴とする付記１に記載の照合支援プログラム。

（付記３）映像の入力に応じて当該映像に映った人物が有する部位の位置を出力する第一の機械学習モデルに、取得した前記映像を入力することにより、取得した前記映像上の前記複数の部位のそれぞれの部位の位置を検出する、
処理を前記コンピュータに実行させ、
前記位置関係を特定する処理は、
検出した前記物体の位置と、検出した前記複数の部位の少なくともいずれかの部位の位置との位置関係を特定し、
前記第二のフレームは、前記複数のフレームのうち、前記物体の動きと前記いずれかの部位の動きとに相関関係が現れる前記第一のフレームを含まない１以上のフレームである、ことを特徴とする付記１に記載の照合支援プログラム。

（付記４）前記映像を分析することで、前記人物の骨格情報を生成し、
生成した前記人物の骨格情報を用いて、前記人物の骨格または関節の位置を特定する、
処理を前記コンピュータに実行させ、
前記人物が有する部位の位置は、当該部位の骨格または関節の位置である、ことを特徴とする付記３に記載の照合支援プログラム。

（付記５）前記人物が有する部位の位置は、当該部位のシルエットの位置である、ことを特徴とする付記３に記載の照合支援プログラム。

（付記６）前記複数の部位は、前記人物が有する手の部位を含み、
前記判定する処理は、
検出した前記物体と、取得した前記映像上の前記手の部位との位置関係に基づいて、前記物体の動きと前記手の部位の動きとが相関関係を有するか否かを判定し、
前記第一のフレームを特定する処理は、
前記物体の動きと前記手の部位の動きとが相関関係を有すると判定されたときに、前記複数のフレームのうち、前記相関関係が現れる前記第一のフレームを特定し、前記複数のフレームのうち、特定した前記第一のフレームを含まない１以上のフレームを特定し、前記第二のフレームとして設定する、ことを特徴とする付記１～３のいずれか一つに記載の照合支援プログラム。

（付記７）前記判定する処理は、
検出した前記物体の位置の時系列と、前記複数の部位の少なくともいずれかの部位の位置の時系列との位置関係に基づいて、前記物体の動きと前記いずれかの部位の動きとが相関関係を有するか否かを判定し、
前記第一のフレームを特定する処理は、
前記物体の動きと前記いずれかの部位の動きとが相関関係を有すると判定されたときに、前記複数のフレームのうち、前記相関関係が現れる前記第一のフレームを特定し、前記複数のフレームのうち、特定した前記第一のフレームを含まない１以上のフレームを特定し、前記第二のフレームとして設定する、ことを特徴とする付記１～３のいずれか一つに記載の照合支援プログラム。

（付記８）前記実施する処理は、
前記第二のフレームにおける、前記複数の部位の位置の時間変化に関する特徴に基づいて、前記人物の照合を実施する、ことを特徴とする付記１～３のいずれか一つに記載の照合支援プログラム。

（付記９）取得した前記映像上の基準の位置に対する、前記複数の部位の少なくともいずれかの部位の位置の相対的な座標の分散を算出する、
処理を前記コンピュータに実行させ、
前記判定する処理は、
検出した前記物体の位置と、前記いずれかの部位の位置との位置関係、および、算出した前記分散に基づいて、前記物体の動きと前記いずれかの部位の動きとが相関関係を有するか否かを判定し、
前記第一のフレームを特定する処理は、
前記物体の動きと前記いずれかの部位の動きとが相関関係を有すると判定されたときに、前記複数のフレームのうち、前記相関関係が現れる前記第一のフレームを特定し、前記複数のフレームのうち、特定した前記第一のフレームを含まない１以上のフレームを特定し、前記第二のフレームとして設定する、ことを特徴とする付記１～３のいずれか一つに記載の照合支援プログラム。

（付記１０）前記基準の位置は、取得した前記映像上の前記人物が有する腰の部位の位置である、ことを特徴とする付記９に記載の照合支援プログラム。

（付記１１）人物が有する部位の位置の入力に応じて当該人物の歩容に関する特徴ベクトルを出力する第二の機械学習モデルに、前記第二のフレーム上の前記複数の部位の位置を入力することにより、前記人物の歩容に関する特徴ベクトルを生成する、
処理を前記コンピュータに実行させ、
前記実施する処理は、
生成した前記特徴ベクトルに基づいて、前記人物の照合を実施する、ことを特徴とする付記１～３のいずれか一つに記載の照合支援プログラム。

（付記１２）前記第二の機械学習モデルに、特定の人物が有する複数の部位の位置を入力することにより生成された、前記特定の人物の歩容に関する特徴ベクトルを取得する、
処理を前記コンピュータに実行させ、
前記実施する処理は、
生成した前記人物の歩容に関する特徴ベクトルと、取得した前記特定の人物の歩容に関する特徴ベクトルとが類似すると判定した場合、前記人物が、前記特定の人物に合致すると判定する、ことを特徴とする付記１１に記載の照合支援プログラム。

（付記１３）前記実施する処理は、
前記第二のフレームにおける、前記複数の部位のシルエットに関する特徴に基づいて、前記人物の照合を実施する、ことを特徴とする付記１～３のいずれか一つに記載の照合支援プログラム。

（付記１４）前記第一のフレームを特定する処理は、
前記物体の動きと前記いずれかの部位の動きとが相関関係を有すると判定されたときに、前記映像を構成する複数のフレームのうち、前記相関関係が現れる第一のフレームを特定し、前記複数のフレームのうち、特定した前記第一のフレームを含まない、連続する所定数のフレームを特定し、前記第二のフレームとして設定する、ことを特徴とする付記１～３のいずれか一つに記載の照合支援プログラム。

（付記１５）人物を含む映像を取得し、
取得した前記映像を分析することで、前記映像の中に含まれる物体を検出し、
検出した前記物体と前記人物が有する複数の部位のうちいずれかの部位との位置関係に基づいて、前記物体の動きと前記いずれかの部位の動きとが相関関係を有するか否かを判定し、
前記物体の動きと前記いずれかの部位の動きとが相関関係を有すると判定されたときに、前記映像を構成する複数のフレームのうち、前記相関関係が現れる第一のフレームを特定し、
前記複数のフレームの中から前記第一のフレームが除外された第二のフレームを用いて、前記人物の照合を実施する、
処理をコンピュータが実行することを特徴とする照合支援方法。

（付記１６）人物を含む映像を取得し、
取得した前記映像を分析することで、前記映像の中に含まれる物体を検出し、
検出した前記物体と前記人物が有する複数の部位のうちいずれかの部位との位置関係に基づいて、前記物体の動きと前記いずれかの部位の動きとが相関関係を有するか否かを判定し、
前記物体の動きと前記いずれかの部位の動きとが相関関係を有すると判定されたときに、前記映像を構成する複数のフレームのうち、前記相関関係が現れる第一のフレームを特定し、
前記複数のフレームの中から前記第一のフレームが除外された第二のフレームを用いて、前記人物の照合を実施する、
制御部を有することを特徴とする情報処理装置。

１００情報処理装置
１１０，７００映像
１１１，７０１，１１０１人物
１１２，７０２物体
２００照合処理システム
２０１映像撮影装置
２０２クライアント装置
２１０ネットワーク
３００，５００バス
３０１，５０１ＣＰＵ
３０２，５０２メモリ
３０３，５０３ネットワークＩ／Ｆ
３０４，５０４記録媒体Ｉ／Ｆ
３０５，５０５記録媒体
３０６ディスプレイ
３０７入力装置
４００特徴情報管理テーブル
５０６カメラ
６００記憶部
６０１取得部
６０２第１検出部
６０３第２検出部
６０４特定部
６０５照合部
６０６出力部
７１０，１０００，１３００，１５１０，１５２０骨格情報
８００グラフ
８１０座標情報管理テーブル
９００表
１１００フレーム群
１２０１スマートフォン
１２０２バッグ
１３０１，１３０２フレーム
１３１０分布
１５００全身骨格用ＤＮＮ
１５１１，１５２１特徴ベクトル
３０３，５０３ネットワークＩ／Ｆ
３０４，５０４記録媒体Ｉ／Ｆ
１５００全身骨格用ＤＮＮ

Claims

人物を含む映像を取得し、
取得した前記映像を分析することで、前記映像の中に含まれる物体を検出し、
検出した前記物体と前記人物が有する複数の部位のうちいずれかの部位との位置関係に基づいて、前記物体の動きと前記いずれかの部位の動きとが相関関係を有するか否かを判定し、
前記物体の動きと前記いずれかの部位の動きとが相関関係を有すると判定されたときに、前記映像を構成する複数のフレームのうち、前記相関関係が現れる第一のフレームを特定し、
前記複数のフレームの中から前記第一のフレームが除外された第二のフレームを用いて、前記人物の照合を実施する、
処理をコンピュータに実行させることを特徴とする照合支援プログラム。
取得した前記映像上の前記人物とは異なる物体の位置を検出し、
検出した前記物体の位置と、取得した前記映像上の前記複数の部位のそれぞれの部位の位置との位置関係を特定する、
処理を前記コンピュータに実行させ、
前記第二のフレームは、前記複数のフレームのうち、前記物体の動きと前記いずれかの部位の動きとに相関関係が現れる前記第一のフレームを含まない１以上のフレームである、ことを特徴とする請求項１に記載の照合支援プログラム。
映像の入力に応じて当該映像に映った人物が有する部位の位置を出力する第一の機械学習モデルに、取得した前記映像を入力することにより、取得した前記映像上の前記複数の部位のそれぞれの部位の位置を検出する、
処理を前記コンピュータに実行させ、
前記位置関係を特定する処理は、
検出した前記物体の位置と、検出した前記複数の部位の少なくともいずれかの部位の位置との位置関係を特定し、
前記第二のフレームは、前記複数のフレームのうち、前記物体の動きと前記いずれかの部位の動きとに相関関係が現れる前記第一のフレームを含まない１以上のフレームである、ことを特徴とする請求項１に記載の照合支援プログラム。
前記映像を分析することで、前記人物の骨格情報を生成し、
生成した前記人物の骨格情報を用いて、前記人物の骨格または関節の位置を特定する、
処理を前記コンピュータに実行させ、
前記人物が有する部位の位置は、当該部位の骨格または関節の位置である、ことを特徴とする請求項３に記載の照合支援プログラム。
前記複数の部位は、前記人物が有する手の部位を含み、
前記判定する処理は、
検出した前記物体と、取得した前記映像上の前記手の部位との位置関係に基づいて、前記物体の動きと前記手の部位の動きとが相関関係を有するか否かを判定し、
前記第一のフレームを特定する処理は、
前記物体の動きと前記手の部位の動きとが相関関係を有すると判定されたときに、前記複数のフレームのうち、前記相関関係が現れる前記第一のフレームを特定し、前記複数のフレームのうち、特定した前記第一のフレームを含まない１以上のフレームを特定し、前記第二のフレームとして設定する、ことを特徴とする請求項１～３のいずれか一つに記載の照合支援プログラム。
前記判定する処理は、
検出した前記物体の位置の時系列と、前記複数の部位の少なくともいずれかの部位の位置の時系列との位置関係に基づいて、前記物体の動きと前記いずれかの部位の動きとが相関関係を有するか否かを判定し、
前記第一のフレームを特定する処理は、
前記物体の動きと前記いずれかの部位の動きとが相関関係を有すると判定されたときに、前記複数のフレームのうち、前記相関関係が現れる前記第一のフレームを特定し、前記複数のフレームのうち、特定した前記第一のフレームを含まない１以上のフレームを特定し、前記第二のフレームとして設定する、ことを特徴とする請求項１～３のいずれか一つに記載の照合支援プログラム。
前記実施する処理は、
前記第二のフレームにおける、前記複数の部位の位置の時間変化に関する特徴に基づいて、前記人物の照合を実施する、ことを特徴とする請求項１～３のいずれか一つに記載の照合支援プログラム。
取得した前記映像上の基準の位置に対する、前記複数の部位の少なくともいずれかの部位の位置の相対的な座標の分散を算出する、
処理を前記コンピュータに実行させ、
前記判定する処理は、
検出した前記物体の位置と、前記いずれかの部位の位置との位置関係、および、算出した前記分散に基づいて、前記物体の動きと前記いずれかの部位の動きとが相関関係を有するか否かを判定し、
前記第一のフレームを特定する処理は、
前記物体の動きと前記いずれかの部位の動きとが相関関係を有すると判定されたときに、前記複数のフレームのうち、前記相関関係が現れる前記第一のフレームを特定し、前記複数のフレームのうち、特定した前記第一のフレームを含まない１以上のフレームを特定し、前記第二のフレームとして設定する、ことを特徴とする請求項１～３のいずれか一つに記載の照合支援プログラム。
人物が有する部位の位置の入力に応じて当該人物の歩容に関する特徴ベクトルを出力する第二の機械学習モデルに、前記第二のフレーム上の前記複数の部位の位置を入力することにより、前記人物の歩容に関する特徴ベクトルを生成する、
処理を前記コンピュータに実行させ、
前記実施する処理は、
生成した前記特徴ベクトルに基づいて、前記人物の照合を実施する、ことを特徴とする請求項１～３のいずれか一つに記載の照合支援プログラム。
前記実施する処理は、
前記第二のフレームにおける、前記複数の部位のシルエットに関する特徴に基づいて、前記人物の照合を実施する、ことを特徴とする請求項１～３のいずれか一つに記載の照合支援プログラム。
前記第一のフレームを特定する処理は、
前記物体の動きと前記いずれかの部位の動きとが相関関係を有すると判定されたときに、前記映像を構成する複数のフレームのうち、前記相関関係が現れる第一のフレームを特定し、前記複数のフレームのうち、特定した前記第一のフレームを含まない、連続する所定数のフレームを特定し、前記第二のフレームとして設定する、ことを特徴とする請求項１～３のいずれか一つに記載の照合支援プログラム。
人物を含む映像を取得し、
取得した前記映像を分析することで、前記映像の中に含まれる物体を検出し、
検出した前記物体と前記人物が有する複数の部位のうちいずれかの部位との位置関係に基づいて、前記物体の動きと前記いずれかの部位の動きとが相関関係を有するか否かを判定し、
前記物体の動きと前記いずれかの部位の動きとが相関関係を有すると判定されたときに、前記映像を構成する複数のフレームのうち、前記相関関係が現れる第一のフレームを特定し、
前記複数のフレームの中から前記第一のフレームが除外された第二のフレームを用いて、前記人物の照合を実施する、
処理をコンピュータが実行することを特徴とする照合支援方法。
人物を含む映像を取得し、
取得した前記映像を分析することで、前記映像の中に含まれる物体を検出し、
検出した前記物体と前記人物が有する複数の部位のうちいずれかの部位との位置関係に基づいて、前記物体の動きと前記いずれかの部位の動きとが相関関係を有するか否かを判定し、
前記物体の動きと前記いずれかの部位の動きとが相関関係を有すると判定されたときに、前記映像を構成する複数のフレームのうち、前記相関関係が現れる第一のフレームを特定し、
前記複数のフレームの中から前記第一のフレームが除外された第二のフレームを用いて、前記人物の照合を実施する、
制御部を有することを特徴とする情報処理装置。