JP7310206B2

JP7310206B2 - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JP7310206B2
Application number: JP2019057921A
Authority: JP
Inventors: 大輔中山; 真貴斉藤; 雅登柿阪; 信弥石井; 寛之橋本
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-03-26
Filing date: 2019-03-26
Publication date: 2023-07-19
Anticipated expiration: 2039-03-26
Also published as: JP2020160658A

Description

本発明は、情報処理装置、情報処理方法、及びプログラムに関する。

生体認証技術に関連して、動画顔認証技術が知られている（例えば、非特許文献１を参照）。画像中の複数の人物の姿勢を検出する技術も知られている（例えば、非特許文献２を参照）。複数の関節を有する対象物上の複数のマーカをセンシングするセンサを用いる対象物認識方法も知られている（例えば、特許文献１を参照）。

特開２０１９－８７２６号公報

鈴木武志，"動画顔認証を中心とした生体認証技術：現状と，安全・安心な社会の実現に向けて"，情報管理２０１７年６０巻８号，ｐｐ．５６４－５７３，２０１７年 Z. Cao et al.,"Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields", Cornell University, arXiv:1611.08050v2 [cs.CV], April 2017

非特許文献１の技術によれば、動画像中から人物の顔が検出され、顔の中から目、鼻、口端等の特徴点が検出され、顔特徴量とデータベースに登録された特徴量とを比較することで、本人か否かが判定される。非特許文献２の技術によれば、画像中の身体部位を各人物と関連付けることで、画像中の複数の人物それぞれの姿勢を検出することができる。

動画像に対して非特許文献２の技術を適用した場合、各時刻のフレーム毎に複数の人物の姿勢が検出される。しかしながら、連続する２枚のフレームのうち一方のフレームから検出された人物の姿勢が、他方のフレームから検出されたどの人物に対応するかを特定することは困難である。

なお、かかる問題は、動画像に映っている人物の姿勢を検出する場合に限らず、動画像に映っている様々な物体の特徴点を検出する場合において生ずるものである。

１つの側面において、本発明は、時系列の２枚の画像に写っている物体の特徴点同士を関連付けることを目的とする。

１つの案では、情報処理装置は、記憶部、計算部、及び関連付け処理部を含む。記憶部は、時系列の複数の画像それぞれから検出された物体の所定部位を表す特徴点の位置情報を含む特徴点情報を記憶する。

計算部は、複数の画像のうち第１画像から検出された第１物体の所定部位を表す特徴点の位置情報と、第２画像から検出された第２物体の所定部位を表す特徴点の位置情報とに基づいて、第１物体の特徴点と第２物体の特徴点との間の距離を計算する。そして、計算部は、第１物体の特徴点と第２物体の特徴点との間の距離に基づいて、第１物体と第２物体との間の関連度を計算する。

関連付け処理部は、第１物体と第２物体との間の関連度に基づいて、第１物体の特徴点情報と第２物体の特徴点情報とを関連付ける。

１つの側面によれば、時系列の２枚の画像に写っている物体の特徴点同士を関連付けることができる。

情報処理装置の機能的構成図である。情報処理のフローチャートである。映像に含まれる画像を示す図である。人物の特徴点を示す図である。特徴点情報を示す図である。情報処理の具体例を示すフローチャートである。関連付け処理のフローチャートである。隠れ姿勢データ処理のフローチャートである。情報処理装置のハードウェア構成図である。

以下、図面を参照しながら、実施形態を詳細に説明する。
図１は、実施形態の情報処理装置（コンピュータ）の機能的構成例を示している。図１の情報処理装置１０１は、記憶部１１１、計算部１１２、及び関連付け処理部１１３を含む。記憶部１１１は、時系列の複数の画像それぞれから検出された物体の所定部位を表す特徴点の位置情報を含む特徴点情報を記憶する。

図２は、図１の情報処理装置１０１が行う情報処理の例を示すフローチャートである。まず、計算部１１２は、第１画像から検出された第１物体の所定部位を表す特徴点の位置情報と、第２画像から検出された第２物体の所定部位を表す特徴点の位置情報とに基づいて、第１物体の特徴点と第２物体の特徴点との間の距離を計算する（ステップ２０１）。そして、計算部１１２は、第１物体の特徴点と第２物体の特徴点との間の距離に基づいて、第１物体と第２物体との間の関連度を計算する（ステップ２０２）。

次に、関連付け処理部１１３は、第１物体と第２物体との間の関連度に基づいて、第１物体の特徴点情報と第２物体の特徴点情報とを関連付ける（ステップ２０３）。

図１の情報処理装置１０１によれば、時系列の２枚の画像に写っている物体の特徴点同士を関連付けることができる。

例えば、時系列の複数の画像は、撮像装置によって撮影された映像であり、複数の時刻それぞれにおける画像を含む。各時刻の画像は、フレームと呼ばれることもある。撮像装置としては、例えば、ＣＣＤ（Charged-Coupled Device）、ＣＭＯＳ（Complementary Metal-Oxide-Semiconductor）等の撮像素子を有するカメラが用いられる。各時刻の画像には、人物、動物、自動車、ロボット等の動く物体が写っていることがある。

情報処理装置１０１は、映像に映っている人物等の骨格を認識する画像処理において使用することができる。情報処理装置１０１は、オンプレミスのサーバであってもよく、クラウド上のサーバであってもよい。

図３は、撮像装置によって撮影された映像に含まれる画像の例を示している。図３（ａ）は、所定時刻のフレームの例を示しており、図３（ｂ）は、所定時刻の次の時刻のフレームの例を示している。この映像には、病院に入院している患者等の被介護者３０１と、被介護者３０１を介護する介護者３０２とが映っている。

図３（ａ）及び図３（ｂ）の各画像から、被介護者３０１及び介護者３０２それぞれの特徴点情報が生成される。生成される特徴点情報は、複数の身体部位それぞれを表す特徴点の位置を示す。被介護者３０１及び介護者３０２は、画像に写っている物体の一例であり、身体部位は、物体の所定部位の一例である。被介護者３０１及び介護者３０２の代わりに、工場、道路等で働く複数の作業者が映っている映像を、処理対象の映像として用いてもよい。

図４は、正面から見た人物の特徴点の例を示している。図４の人物は、特徴点４０１～特徴点４２５を含む。各特徴点は、以下のような身体部位を表す。
特徴点４０１右目
特徴点４０２左目
特徴点４０３鼻
特徴点４０４右耳
特徴点４０５左耳
特徴点４０６首
特徴点４０７右肩
特徴点４０８左肩
特徴点４０９右肘
特徴点４１０左肘
特徴点４１１右手
特徴点４１２左手
特徴点４１３腰中央
特徴点４１４右腰
特徴点４１５左腰
特徴点４１６右膝
特徴点４１７左膝
特徴点４１８右足首
特徴点４１９左足首
特徴点４２０右かかと
特徴点４２１左かかと
特徴点４２２右足親指
特徴点４２３左足親指
特徴点４２４右足小指
特徴点４２５左足小指

例えば、情報処理装置１０１は、非特許文献２の技術を用いて、映像に含まれる各フレームの画像認識を行うことで、フレーム毎に複数の人物それぞれの特徴点を検出することができる。そして、情報処理装置１０１は、図４に示した、各人物の２５個の特徴点の位置情報を含む特徴点情報を生成して、記憶部１１１に格納する。

図５は、特徴点情報の例を示している。図５（ａ）は、１人の人物の特徴点情報の例を示している。図５（ａ）の特徴点情報は、データラベル及び姿勢データを含む。データラベルは、特徴点情報の識別情報であり、その特徴点情報を有する人物を示している。姿勢データは、２５個の特徴点のデータの集合である。

図５（ｂ）は、図５（ａ）の姿勢データに含まれる１個の特徴点のデータの例を示している。図５（ｂ）の特徴点のデータは、ＩＤ、位置情報、及び信頼度を含む。ＩＤは、２５個の身体部位のいずれかを示す識別情報であり、位置情報は、その身体部位を表す特徴点の位置を示す座標である。位置情報は、フレーム内における特徴点の２次元座標（ｘ，ｙ）であってもよく、３次元空間内における特徴点の３次元座標（ｘ，ｙ，ｚ）であってもよい。

信頼度は、特徴点に対する画像認識の信頼度（認識確度）を表す。例えば、信頼度は、０．０～１．０の範囲の数値で表され、信頼度が大きいほど、より高い確度で特徴点が認識されたことを示す。

第２画像として、現在の処理対象フレーム（現在フレーム）を用い、第１画像として、現在フレームよりも１時刻前のフレーム（前フレーム）を用いた場合、前フレーム及び現在フレームそれぞれから複数の人物の特徴点情報が生成される。計算部１１２は、前フレームから検出された人物Ａの２５個の特徴点それぞれの位置情報と、現在フレームから検出された人物Ｂの２５個の特徴点それぞれの位置情報とを用いて、人物Ａの各特徴点と人物Ｂの各特徴点との間の距離を計算する。

人物Ａと人物Ｂとが同一人物である場合、現在フレームにおける人物Ｂの特徴点が、前フレームにおける人物Ａの同じ特徴点の位置から、大きく移動することは稀である。そこで、計算部１１２は、人物Ａの各特徴点と人物Ｂの各特徴点との間の距離が小さいほど大きくなる数値を、人物Ａと人物Ｂとの間の関連度Ｓ（Ａ，Ｂ）として求める。

例えば、計算部１１２は、人物Ａの２５個の特徴点それぞれと人物Ｂの２５個の特徴点それぞれとの間の距離と、人物Ｂの２５個の特徴点それぞれの信頼度とを用いて、次式により、関連度Ｓ（Ａ，Ｂ）を計算する。

式（１）のＤ（Ａ，Ｂ，ｉ）は、人物Ａのｉ番目（ｉ＝１～２５）の特徴点Ｐ（Ａ，ｉ）と、人物Ｂのｉ番目の特徴点Ｐ（Ｂ，ｉ）との間の距離を表す。Ｐ（Ａ，ｉ）とＰ（Ｂ，ｉ）は、同じＩＤを有し、同じ身体部位を表している。位置情報が２次元座標である場合、Ｄ（Ａ，Ｂ，ｉ）は、２次元ユークリッド距離であり、位置情報が３次元座標である場合、Ｄ（Ａ，Ｂ，ｉ）は、３次元ユークリッド距離である。

ＴＨ１は、Ｄ（Ａ，Ｂ，ｉ）に対する閾値を表し、フレームのサイズに応じて設定される。フレームのサイズは、フレームの垂直方向の画素数であってもよく、フレームの水平方向の画素数であってもよく、フレームに含まれる総画素数であってもよい。例えば、Ｄ（Ａ，Ｂ，ｉ）が画素数を単位とする２次元ユークリッド距離であり、フレームの解像度がＦＨＤ（Full High Definition）である場合、ＴＨ１は、５０～１５０（画素）の範囲の数値であってもよい。

ＭＡＸ（Ｖ１，Ｖ２）は、Ｖ１とＶ２のうち大きい方の値を返す関数である。したがって、Ｄ（Ａ，Ｂ，ｉ）が小さいほど、ＭＡＸ（０，ＴＨ１－Ｄ（Ａ，Ｂ，ｉ））は大きくなり、ＭＡＸ（０，ＴＨ１－Ｄ（Ａ，Ｂ，ｉ））が大きいほど、Ｓ（Ａ，Ｂ）も大きくなる。

Ｃ（Ｂ，ｉ）は、特徴点Ｐ（Ｂ，ｉ）の信頼度を表す。Ｄ（Ａ，Ｂ，ｉ）が同じ値であれば、Ｃ（Ｂ，ｉ）が大きいほど、Ｃ（Ｂ，ｉ）＊ＭＡＸ（０，ＴＨ１－Ｄ（Ａ，Ｂ，ｉ））は大きくなる。ＭＡＸ（０，ＴＨ１－Ｄ（Ａ，Ｂ，ｉ））にＣ（Ｂ，ｉ）を乗算することで、高い確度で認識された特徴点のＳ（Ａ，Ｂ）に対する寄与を、低い確度で認識された特徴点の寄与よりも増加させることができる。したがって、Ｃ（Ｂ，ｉ）を乗算しない場合よりも、Ｓ（Ａ，Ｂ）の精度が向上する。

なお、Ｐ（Ｂ，１）～Ｐ（Ｂ，２５）の信頼度が同程度である場合は、式（１）のＣ（Ｂ，ｉ）を省略しても構わない。

α（ｉ）は、各人物のｉ番目の特徴点に対する正の重み係数を表す。特徴点を区別する必要がない場合は、すべての特徴点に対してα（ｉ）＝１に設定される。特定の特徴点に対してα（ｉ）＝３に設定し、残りの特徴点に対してα（ｉ）＝１に設定することもできる。例えば、特定の特徴点としては、右肩、左肩、首、腰中央、右腰、左腰、右手、左手、右足首、及び左足首が用いられる。これにより、これらの特徴点のＳ（Ａ，Ｂ）に対する寄与を、顔の部位及び足指の部位の寄与よりも増加させて、配分調整を行うことができる。

式（１）により、複数の特徴点からの寄与の総和をＳ（Ａ，Ｂ）として求めることで、単一の特徴点からの寄与のみを用いた場合よりも、Ｓ（Ａ，Ｂ）の精度が向上する。

前フレーム及び現在フレームそれぞれに複数の人物が写っている場合、計算部１１２は、式（１）を用いて、前フレームから検出された複数の人物それぞれと、現在フレームから検出された複数の人物それぞれとの間の関連度を計算する。そして、関連付け処理部１１３は、人物Ａと人物Ｂとの間の関連度が、人物Ａと現在フレームから検出された複数の人物それぞれとの間の関連度の中で最も大きい場合、人物Ａの特徴点情報と人物Ｂの特徴点情報とを関連付ける。

このように、フレーム間で関連付けられていない骨格認識の姿勢データを、各特徴点の移動距離を基に評価することで、フレーム間で姿勢データを関連付けることができる。これにより、人物毎に整理された時系列の姿勢データを生成することが可能になる。

ところで、前フレームに写っているいずれかの人物が現在フレームに写っていない場合、現在フレームから検出された人物の総数が、前フレームから検出された人物の総数よりも減少することがある。

この場合、関連付け処理部１１３は、前フレーム及び現在フレームの両方から検出された人物の前フレームにおける特徴点情報と、現在フレームにおける特徴点情報とを関連付ける。そして、関連付け処理部１１３は、前フレームのみから検出された残りの人物の特徴点情報を、記憶部１１１に記録しておく。その後、現在フレームの次の時刻以降のフレームにおいて、残りの人物が検出された場合、関連付け処理部１１３は、記憶部１１１に記録されている特徴点情報と、次の時刻以降のフレームから検出された残りの人物の特徴点情報とを関連付ける。

これにより、映像から一時的に消滅した人物の姿勢データと、再び出現した同一人物の姿勢データとを関連付けることができ、複数のフレームにおける同一人物の姿勢データが互いに異なる人物の姿勢データとして記録されることを防止できる。

図６は、各フレームから生成された特徴点情報に対する情報処理の具体例を示すフローチャートである。関連付け処理部１１３は、記憶部１１１に記録されているフレーム毎の特徴点情報を、時刻順に処理対象として選択し、選択されたフレームの特徴点情報を現在フレームの特徴点情報として用いて、図６の情報処理を行う。

まず、関連付け処理部１１３は、現在フレームが最初のフレームであるか否かをチェックする（ステップ６０１）。現在フレームが最初のフレームである場合（ステップ６０１，ＹＥＳ）、関連付け処理部１１３は、現在フレームの特徴点情報に含まれる複数の人物それぞれの姿勢データに対して、互いに異なるデータラベルを付与する（ステップ６０２）。一方、現在フレームが２番目以降のフレームである場合（ステップ６０１，ＮＯ）、関連付け処理部１１３は、関連付け処理を行う（ステップ６０３）。

図７は、図６のステップ６０３における関連付け処理の例を示すフローチャートである。まず、関連付け処理部１１３は、前フレームの特徴点情報の中から、いずれかの人物の姿勢データを選択し（ステップ７０１）、現在フレームの特徴点情報の中から、いずれかの人物の姿勢データを選択する（ステップ７０２）。

次に、計算部１１２は、式（１）を用いて、前フレームの姿勢データと現在フレームの姿勢データとの間の関連度を計算する（ステップ７０３）。そして、関連付け処理部１１３は、現在フレームのすべての人物の姿勢データを選択したか否かをチェックする（ステップ７０４）。未選択の姿勢データが残っている場合（ステップ７０４，ＮＯ）、情報処理装置１０１は、ステップ７０２以降の処理を行う。

すべての人物の姿勢データを選択した場合（ステップ７０４，ＹＥＳ）、関連付け処理部１１３は、まだデータラベルが付与されていない、現在フレームの人物の姿勢データのうち、最大の関連度を有する姿勢データを選択する（ステップ７０５）。そして、関連付け処理部１１３は、選択された姿勢データに対して、前フレームの姿勢データと同じデータラベルを付与する。これにより、最大の関連度を有する前フレーム及び現在フレームの姿勢データ同士が関連付けられる。

ただし、既に現在フレームのすべての人物の姿勢データにデータラベルが付与されている場合、関連付け処理部１１３は、いずれの姿勢データに対してもデータラベルを付与することなく、ステップ７０６以降の処理を行う。

次に、関連付け処理部１１３は、前フレームのすべての人物の姿勢データを選択したか否かをチェックする（ステップ７０６）。未選択の姿勢データが残っている場合（ステップ７０６，ＮＯ）、情報処理装置１０１は、ステップ７０１以降の処理を行う。

すべての人物の姿勢データを選択した場合（ステップ７０６，ＹＥＳ）、関連付け処理部１１３は、現在フレームのすべての人物の姿勢データにデータラベルが付与されているか否かをチェックする（ステップ７０７）。

すべての人物の姿勢データにデータラベルが付与されている場合（ステップ７０７，ＹＥＳ）、関連付け処理部１１３は、現在フレームの姿勢データに関連付けられなかった前フレームの姿勢データを抽出する（ステップ７０８）。そして、関連付け処理部１１３は、抽出された姿勢データを、隠れ姿勢データとして記憶部１１１に記録する。

一方、データラベルが付与されていない現在フレームの姿勢データが存在する場合（ステップ７０７，ＮＯ）、関連付け処理部１１３は、隠れ姿勢データ処理を行う（ステップ７０９）。そして、関連付け処理部１１３は、ステップ７０８の処理を行う。

図８は、図７のステップ７０９における隠れ姿勢データ処理の例を示すフローチャートである。まず、関連付け処理部１１３は、記録されている隠れ姿勢データの中から、いずれかの隠れ姿勢データを選択し（ステップ８０１）、現在フレームの特徴点情報の中から、いずれかの人物の姿勢データを選択する（ステップ８０２）。

次に、計算部１１２は、式（１）を用いて、隠れ姿勢データと現在フレームの姿勢データとの間の関連度を計算する（ステップ８０３）。そして、関連付け処理部１１３は、現在フレームのすべての人物の姿勢データを選択したか否かをチェックする（ステップ８０４）。未選択の姿勢データが残っている場合（ステップ８０４，ＮＯ）、情報処理装置１０１は、ステップ８０２以降の処理を行う。

すべての人物の姿勢データを選択した場合（ステップ８０４，ＹＥＳ）、関連付け処理部１１３は、まだデータラベルが付与されていない、現在フレームの人物の姿勢データに対する関連度のうち、最大の関連度を選択する（ステップ８０５）。選択された関連度がＴＨ２よりも大きい場合、関連付け処理部１１３は、その関連度を有する姿勢データに対して、隠れ姿勢データと同じデータラベルを付与する。これにより、隠れ姿勢データと現在フレームの姿勢データとが関連付けられる。ＴＨ２は、関連度に対する閾値を表し、フレームのサイズに応じて設定される。

なお、選択された関連度がＴＨ２以下である場合、関連付け処理部１１３は、いずれの姿勢データに対してもデータラベルを付与することなく、ステップ８０６以降の処理を行う。

次に、関連付け処理部１１３は、記録されているすべての隠れ姿勢データを選択したか否かをチェックする（ステップ８０６）。未選択の隠れ姿勢データが残っている場合（ステップ８０６，ＮＯ）、情報処理装置１０１は、ステップ８０１以降の処理を行う。

すべての隠れ姿勢データを選択した場合（ステップ８０６，ＹＥＳ）、関連付け処理部１１３は、現在フレームのすべての人物の姿勢データにデータラベルが付与されているか否かをチェックする（ステップ８０７）。すべての人物の姿勢データにデータラベルが付与されている場合（ステップ８０７，ＹＥＳ）、情報処理装置１０１は、処理を終了する。

一方、データラベルが付与されていない現在フレームの姿勢データが存在する場合（ステップ８０７，ＮＯ）、関連付け処理部１１３は、データラベル発行処理を行う（ステップ８０８）。

データラベル発行処理において、現在フレームの姿勢データに対して発行済みのデータラベルの個数が所定数未満である場合、関連付け処理部１１３は、データラベルが付与されていない姿勢データに対して、新規のデータラベルを付与する。所定数は、１フレーム当たりのデータラベルの個数の上限値を表し、例えば、映像に含まれる各フレームから検出された人物の最大人数等に基づいて設定される。発行済みのデータラベルの個数が所定数に達している場合、関連付け処理部１１３は、エラー処理を行う。

図８の隠れ姿勢データ処理によれば、映像から一時的に消滅した人物の姿勢データと、再び出現した同一人物の姿勢データとを関連付けることができる。

図１の情報処理装置１０１の構成は一例に過ぎず、情報処理装置１０１の用途又は条件に応じて一部の構成要素を省略又は変更してもよい。例えば、情報処理装置１０１は、映像を撮影する撮像装置を含んでいてもよい。

図２及び図６～図８のフローチャートは一例に過ぎず、情報処理装置１０１の構成又は条件に応じて一部の処理を省略又は変更してもよい。例えば、図７の関連付け処理において、前フレームの姿勢データの数や現在フレームの姿勢データの数に応じて、ステップ７０１とステップ７０２の選択順序を交換して、関連度が最大の前フレームの姿勢データのデータラベルを付与してもよい。映像から一時的に消滅した人物の姿勢データと、再び出現した同一人物の姿勢データとを関連付ける必要がない場合は、ステップ７０７～７０９の処理を省略することができる。

図３の画像及び特徴点と図４の特徴点は一例に過ぎず、画像及び特徴点は、撮影対象の物体に応じて変化する。撮影対象の物体は人物に限られず、動物、自動車、ロボット等であってもよい。図５の特徴点情報は一例に過ぎず、別の形式の特徴点情報を用いてもよい。式（１）の関連度は一例に過ぎず、別の計算式を用いて関連度を計算してもよい。

図９は、図１の情報処理装置１０１のハードウェア構成例を示している。図９の情報処理装置は、ＣＰＵ（Central Processing Unit）９０１、メモリ９０２、入力装置９０３、出力装置９０４、補助記憶装置９０５、媒体駆動装置９０６、及びネットワーク接続装置９０７を含む。これらの構成要素はバス９０８により互いに接続されている。

メモリ９０２は、例えば、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、フラッシュメモリ等の半導体メモリであり、情報処理に用いられるプログラム及びデータを格納する。メモリ９０２は、図１の記憶部１１１として用いることができる。

ＣＰＵ９０１（プロセッサ）は、例えば、メモリ９０２を利用してプログラムを実行することにより、図１の計算部１１２及び関連付け処理部１１３として動作する。

入力装置９０３は、例えば、キーボード、ポインティングデバイス等であり、オペレータ又はユーザからの指示又は情報の入力に用いられる。出力装置９０４は、例えば、表示装置、プリンタ、スピーカ等であり、オペレータ又はユーザへの問い合わせ又は指示、及び処理結果の出力に用いられる。処理結果は、各フレームの人物毎にデータラベルが付与された特徴点情報であってもよい。

補助記憶装置９０５は、例えば、磁気ディスク装置、光ディスク装置、光磁気ディスク装置、テープ装置等である。補助記憶装置９０５は、ハードディスクドライブ又はフラッシュメモリであってもよい。情報処理装置は、補助記憶装置９０５にプログラム及びデータを格納しておき、それらをメモリ９０２にロードして使用することができる。補助記憶装置９０５は、図１の記憶部１１１として用いることができる。

媒体駆動装置９０６は、可搬型記録媒体９０９を駆動し、その記録内容にアクセスする。可搬型記録媒体９０９は、メモリデバイス、フレキシブルディスク、光ディスク、光磁気ディスク等である。可搬型記録媒体９０９は、ＣＤ－ＲＯＭ（Compact Disk Read Only Memory）、ＤＶＤ（Digital Versatile Disk）、ＵＳＢ（Universal Serial Bus）メモリ等であってもよい。オペレータ又はユーザは、この可搬型記録媒体９０９にプログラム及びデータを格納しておき、それらをメモリ９０２にロードして使用することができる。

このように、情報処理に用いられるプログラム及びデータを格納するコンピュータ読み取り可能な記録媒体は、メモリ９０２、補助記憶装置９０５、又は可搬型記録媒体９０９のような、物理的な（非一時的な）記録媒体である。

ネットワーク接続装置９０７は、ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）等の通信ネットワークに接続され、通信に伴うデータ変換を行う通信インタフェース回路である。情報処理装置は、プログラム及びデータを外部の装置からネットワーク接続装置９０７を介して受信し、それらをメモリ９０２にロードして使用することができる。

なお、情報処理装置が図９のすべての構成要素を含む必要はなく、用途又は条件に応じて一部の構成要素を省略することも可能である。例えば、オペレータ又はユーザとのインタフェースが不要な場合は、入力装置９０３及び出力装置９０４を省略してもよい。可搬型記録媒体９０９又は通信ネットワークを使用しない場合は、媒体駆動装置９０６又はネットワーク接続装置９０７を省略してもよい。

開示の実施形態とその利点について詳しく説明したが、当業者は、特許請求の範囲に明確に記載した本発明の範囲から逸脱することなく、様々な変更、追加、省略をすることができるであろう。

図１乃至図９を参照しながら説明した実施形態に関し、さらに以下の付記を開示する。
（付記１）
時系列の複数の画像それぞれから検出された物体の所定部位を表す特徴点の位置情報を含む特徴点情報を記憶する記憶部と、
前記複数の画像のうち第１画像から検出された第１物体の前記所定部位を表す特徴点の位置情報と、前記複数の画像のうち第２画像から検出された第２物体の前記所定部位を表す特徴点の位置情報とに基づいて、前記第１物体の特徴点と前記第２物体の特徴点との間の距離を計算し、前記第１物体の特徴点と前記第２物体の特徴点との間の距離に基づいて、前記第１物体と前記第２物体との間の関連度を計算する計算部と、
前記第１物体と前記第２物体との間の関連度に基づいて、前記第１物体の特徴点情報と前記第２物体の特徴点情報とを関連付ける関連付け処理部と、
を備えることを特徴とする情報処理装置。
（付記２）
前記検出された物体の特徴点情報は、前記検出された物体の前記所定部位を含む複数の部位それぞれを表す複数の特徴点の位置情報を含み、
前記計算部は、前記第１物体の複数の特徴点の位置情報と、前記第２物体の複数の特徴点の位置情報とに基づいて、前記第１物体の各特徴点と前記第２物体の各特徴点との間の距離を計算し、前記第１物体の複数の特徴点それぞれと前記第２物体の複数の特徴点それぞれとの間の距離に基づいて、前記第１物体と前記第２物体との間の関連度を計算することを特徴とする付記１記載の情報処理装置。
（付記３）
前記第２物体を含む複数の物体が前記第２画像から検出され、
前記計算部は、前記第１物体と前記複数の物体それぞれとの間の関連度を計算し、
前記関連付け処理部は、前記第１物体と前記第２物体との間の関連度が、前記第１物体と前記複数の物体それぞれとの間の関連度の中で最も大きい場合、前記第１物体の特徴点情報と前記第２物体の特徴点情報とを関連付けることを特徴とする付記２記載の情報処理装置。
（付記４）
前記検出された物体の複数の特徴点は、前記複数の画像それぞれに対する画像認識を行うことで検出され、
前記検出された物体の特徴点情報は、前記検出された物体の複数の特徴点それぞれの前記画像認識の信頼度をさらに含み、
前記計算部は、前記第１物体の各特徴点と前記複数の物体それぞれの各特徴点との間の距離と、前記複数の物体それぞれの各特徴点の信頼度とを用いて、前記第１物体と前記複数の物体それぞれとの間の関連度を計算することを特徴とする付記３記載の情報処理装置。
（付記５）
前記第１物体を含む複数の物体が前記第１画像から検出され、
前記関連付け処理部は、前記第１画像から検出された複数の物体のうち、特定の複数の物体それぞれの特徴点情報と、前記第２画像から検出された複数の物体のうち、特定の複数の物体それぞれの特徴点情報とを関連付け、前記第１画像から検出された複数の物体のうち、前記特定の複数の物体を除く残りの物体の特徴点情報と、前記複数の画像のうち第３画像から検出された第３物体の特徴点情報とを関連付けることを特徴とする付記３又は４記載の情報処理装置。
（付記６）
コンピュータによって実行される情報処理方法であって、
前記コンピュータが、
時系列の複数の画像のうち第１画像から検出された第１物体の特徴点情報に含まれる、前記第１物体の所定部位を表す特徴点の位置情報と、前記複数の画像のうち第２画像から検出された第２物体の特徴点情報に含まれる、前記第２物体の前記所定部位を表す特徴点の位置情報とに基づいて、前記第１物体の特徴点と前記第２物体の特徴点との間の距離を計算し、
前記第１物体の特徴点と前記第２物体の特徴点との間の距離に基づいて、前記第１物体と前記第２物体との間の関連度を計算し、
前記第１物体と前記第２物体との間の関連度に基づいて、前記第１物体の特徴点情報と前記第２物体の特徴点情報とを関連付ける、
ことを特徴とする情報処理方法。
（付記７）
前記第１物体の特徴点情報は、前記第１物体の前記所定部位を含む複数の部位それぞれを表す複数の特徴点の位置情報を含み、
前記第２物体の特徴点情報は、前記第２物体の前記複数の部位それぞれを表す複数の特徴点の位置情報を含み、
前記コンピュータは、前記第１物体の複数の特徴点の位置情報と、前記第２物体の複数の特徴点の位置情報とに基づいて、前記第１物体の各特徴点と前記第２物体の各特徴点との間の距離を計算し、前記第１物体の複数の特徴点それぞれと前記第２物体の複数の特徴点それぞれとの間の距離に基づいて、前記第１物体と前記第２物体との間の関連度を計算することを特徴とする付記６記載の情報処理方法。
（付記８）
前記第２物体を含む複数の物体が前記第２画像から検出され、
前記コンピュータは、前記第１物体と前記複数の物体それぞれとの間の関連度を計算し、前記第１物体と前記第２物体との間の関連度が、前記第１物体と前記複数の物体それぞれとの間の関連度の中で最も大きい場合、前記第１物体の特徴点情報と前記第２物体の特徴点情報とを関連付けることを特徴とする付記７記載の情報処理方法。
（付記９）
前記複数の物体各々の複数の特徴点は、前記第２画像に対する画像認識を行うことで検出され、
前記複数の物体各々の特徴点情報は、前記複数の物体各々の複数の特徴点それぞれの前記画像認識の信頼度をさらに含み、
前記コンピュータは、前記第１物体の各特徴点と前記複数の物体それぞれの各特徴点との間の距離と、前記複数の物体それぞれの各特徴点の信頼度とを用いて、前記第１物体と前記複数の物体それぞれとの間の関連度を計算することを特徴とする付記８記載の情報処理方法。
（付記１０）
前記第１物体を含む複数の物体が前記第１画像から検出され、
前記コンピュータは、前記第１画像から検出された複数の物体のうち、特定の複数の物体それぞれの特徴点情報と、前記第２画像から検出された複数の物体のうち、特定の複数の物体それぞれの特徴点情報とを関連付け、前記第１画像から検出された複数の物体のうち、前記特定の複数の物体を除く残りの物体の特徴点情報と、前記複数の画像のうち第３画像から検出された第３物体の特徴点情報とを関連付けることを特徴とする付記８又は９記載の情報処理方法。
（付記１１）
時系列の複数の画像のうち第１画像から検出された第１物体の特徴点情報に含まれる、前記第１物体の所定部位を表す特徴点の位置情報と、前記複数の画像のうち第２画像から検出された第２物体の特徴点情報に含まれる、前記第２物体の前記所定部位を表す特徴点の位置情報とに基づいて、前記第１物体の特徴点と前記第２物体の特徴点との間の距離を計算し、
前記第１物体の特徴点と前記第２物体の特徴点との間の距離に基づいて、前記第１物体と前記第２物体との間の関連度を計算し、
前記第１物体と前記第２物体との間の関連度に基づいて、前記第１物体の特徴点情報と前記第２物体の特徴点情報とを関連付ける、
処理をコンピュータに実行させるためのプログラム。
（付記１２）
前記第１物体の特徴点情報は、前記第１物体の前記所定部位を含む複数の部位それぞれを表す複数の特徴点の位置情報を含み、
前記第２物体の特徴点情報は、前記第２物体の前記複数の部位それぞれを表す複数の特徴点の位置情報を含み、
前記コンピュータは、前記第１物体の複数の特徴点の位置情報と、前記第２物体の複数の特徴点の位置情報とに基づいて、前記第１物体の各特徴点と前記第２物体の各特徴点との間の距離を計算し、前記第１物体の複数の特徴点それぞれと前記第２物体の複数の特徴点それぞれとの間の距離に基づいて、前記第１物体と前記第２物体との間の関連度を計算することを特徴とする付記１１記載のプログラム。
（付記１３）
前記第２物体を含む複数の物体が前記第２画像から検出され、
前記コンピュータは、前記第１物体と前記複数の物体それぞれとの間の関連度を計算し、前記第１物体と前記第２物体との間の関連度が、前記第１物体と前記複数の物体それぞれとの間の関連度の中で最も大きい場合、前記第１物体の特徴点情報と前記第２物体の特徴点情報とを関連付けることを特徴とする付記１２記載のプログラム。
（付記１４）
前記複数の物体各々の複数の特徴点は、前記第２画像に対する画像認識を行うことで検出され、
前記複数の物体各々の特徴点情報は、前記複数の物体各々の複数の特徴点それぞれの前記画像認識の信頼度をさらに含み、
前記コンピュータは、前記第１物体の各特徴点と前記複数の物体それぞれの各特徴点との間の距離と、前記複数の物体それぞれの各特徴点の信頼度とを用いて、前記第１物体と前記複数の物体それぞれとの間の関連度を計算することを特徴とする付記１３記載のプログラム。
（付記１５）
前記第１物体を含む複数の物体が前記第１画像から検出され、
前記コンピュータは、前記第１画像から検出された複数の物体のうち、特定の複数の物体それぞれの特徴点情報と、前記第２画像から検出された複数の物体のうち、特定の複数の物体それぞれの特徴点情報とを関連付け、前記第１画像から検出された複数の物体のうち、前記特定の複数の物体を除く残りの物体の特徴点情報と、前記複数の画像のうち第３画像から検出された第３物体の特徴点情報とを関連付けることを特徴とする付記１３又は１４記載のプログラム。

１０１情報処理装置
１１１記憶部
１１２計算部
１１３関連付け処理部
３０１被介護者
３０２介護者
４０１～４２５特徴点
９０１ＣＰＵ
９０２メモリ
９０３入力装置
９０４出力装置
９０５補助記憶装置
９０６媒体駆動装置
９０７ネットワーク接続装置
９０８バス
９０９可搬型記録媒体

Claims

時系列の複数の画像それぞれから検出された物体の所定部位を表す特徴点の位置情報を含む特徴点情報を記憶する記憶部と、
前記複数の画像のうち第１画像から検出された第１物体の前記所定部位を表す特徴点の位置情報と、前記複数の画像のうち第２画像から検出された第２物体の前記所定部位を表す特徴点の位置情報とに基づいて、前記第１物体の特徴点と前記第２物体の特徴点との間の距離を計算し、前記第１物体の特徴点と前記第２物体の特徴点との間の距離に基づいて、前記第１物体と前記第２物体との間の関連度を計算する計算部と、
前記第１物体と前記第２物体との間の関連度に基づいて、前記第１物体の特徴点情報と前記第２物体の特徴点情報とを関連付ける関連付け処理部と、
を備えることを特徴とする情報処理装置。
前記検出された物体の特徴点情報は、前記検出された物体の前記所定部位を含む複数の部位それぞれを表す複数の特徴点の位置情報を含み、
前記計算部は、前記第１物体の複数の特徴点の位置情報と、前記第２物体の複数の特徴点の位置情報とに基づいて、前記第１物体の各特徴点と前記第２物体の各特徴点との間の距離を計算し、前記第１物体の複数の特徴点それぞれと前記第２物体の複数の特徴点それぞれとの間の距離に基づいて、前記第１物体と前記第２物体との間の関連度を計算することを特徴とする請求項１記載の情報処理装置。
前記第２物体を含む複数の物体が前記第２画像から検出され、
前記計算部は、前記第１物体と前記複数の物体それぞれとの間の関連度を計算し、
前記関連付け処理部は、前記第１物体と前記第２物体との間の関連度が、前記第１物体と前記複数の物体それぞれとの間の関連度の中で最も大きい場合、前記第１物体の特徴点情報と前記第２物体の特徴点情報とを関連付けることを特徴とする請求項２記載の情報処理装置。
前記検出された物体の複数の特徴点は、前記複数の画像それぞれに対する画像認識を行うことで検出され、
前記検出された物体の特徴点情報は、前記検出された物体の複数の特徴点それぞれの前記画像認識の信頼度をさらに含み、
前記計算部は、前記第１物体の各特徴点と前記複数の物体それぞれの各特徴点との間の距離と、前記複数の物体それぞれの各特徴点の信頼度とを用いて、前記第１物体と前記複数の物体それぞれとの間の関連度を計算することを特徴とする請求項３記載の情報処理装置。
前記第１物体を含む複数の物体が前記第１画像から検出され、
前記関連付け処理部は、前記第１画像から検出された複数の物体のうち、特定の複数の物体それぞれの特徴点情報と、前記第２画像から検出された複数の物体のうち、特定の複数の物体それぞれの特徴点情報とを関連付け、前記第１画像から検出された複数の物体のうち、前記特定の複数の物体を除く残りの物体の特徴点情報と、前記複数の画像のうち第３画像から検出された第３物体の特徴点情報とを関連付けることを特徴とする請求項３又は４記載の情報処理装置。
コンピュータによって実行される情報処理方法であって、
前記コンピュータが、
時系列の複数の画像のうち第１画像から検出された第１物体の特徴点情報に含まれる、前記第１物体の所定部位を表す特徴点の位置情報と、前記複数の画像のうち第２画像から検出された第２物体の特徴点情報に含まれる、前記第２物体の前記所定部位を表す特徴点の位置情報とに基づいて、前記第１物体の特徴点と前記第２物体の特徴点との間の距離を計算し、
前記第１物体の特徴点と前記第２物体の特徴点との間の距離に基づいて、前記第１物体と前記第２物体との間の関連度を計算し、
前記第１物体と前記第２物体との間の関連度に基づいて、前記第１物体の特徴点情報と前記第２物体の特徴点情報とを関連付ける、
ことを特徴とする情報処理方法。
時系列の複数の画像のうち第１画像から検出された第１物体の特徴点情報に含まれる、前記第１物体の所定部位を表す特徴点の位置情報と、前記複数の画像のうち第２画像から検出された第２物体の特徴点情報に含まれる、前記第２物体の前記所定部位を表す特徴点の位置情報とに基づいて、前記第１物体の特徴点と前記第２物体の特徴点との間の距離を計算し、
前記第１物体の特徴点と前記第２物体の特徴点との間の距離に基づいて、前記第１物体と前記第２物体との間の関連度を計算し、
前記第１物体と前記第２物体との間の関連度に基づいて、前記第１物体の特徴点情報と前記第２物体の特徴点情報とを関連付ける、
処理をコンピュータに実行させるためのプログラム。