JP2018180894A

JP2018180894A - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: JP2018180894A
Application number: JP2017079026A
Authority: JP
Inventors: 貴之岩本; Takayuki Iwamoto; 康生片野; Yasuo Katano
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2017-04-12
Filing date: 2017-04-12
Publication date: 2018-11-15

Abstract

【課題】人物を撮影した複数の画像の中から、人物の姿勢の差異を効率よく観察できるような画像を選択可能にする情報処理装置、情報処理方法及びプログラムを提供する。【解決手段】姿勢推定部３５０は、人物を撮影した複数の参照画像と、特定の人物を撮影した基準画像とについて、人物の部位の位置関係の変化により変わる姿勢を推定する。部分類似度計算部３６０は、基準画像の中の人物の姿勢と、参照画像の中の人物の姿勢との間で、姿勢の部分的な差異を表す部分類似度を算出する。画像選択部３７０は、複数の参照画像の中から、部分類似度を基に参照画像を選択する。【選択図】図１

Description

本発明は、画像等のデータを処理する情報処理装置、情報処理方法及びプログラムに関する。

従来、例えば野球のピッチングフォームに関して、対象となる人物の現在のピッチングフォームの画像と過去のピッチングフォームの画像との違いを比較することにより、その人物の技能の上達を確認するようなことが行われている。このようなピッチングフォーム等の確認は、例えばピッチングを行っている際の人物の姿勢の変化を、過去と現在とで比較することにより行われる。
また例えば、特許文献１には、撮像画像に写っている人物等の被写体の姿勢を推定し、その推定された姿勢を、予め用意されたポーズに分類して、それら分類されたポーズに基づいて撮像画像の記録や検索を制御する技術が開示されている。

特開２０１１−２１１４３８号公報

ところで、前述のように対象となる人物のピッチングフォーム等の確認を行う場合、例えば人体の各部位のうち一部の部位のみに関して、過去と現在とでどのように姿勢が変化したかを確認したいことがある。この場合、その人物について過去に撮影した大量の画像の中から、その人物の人体全体としての姿勢は概ね同一であるが、一部の部位のみで姿勢が変化しているような画像を選び出す必要がある。一部の部位のみで姿勢が変化している画像を選択できれば、人物の姿勢の差異を効率よく観察できることになる。このような画像の選択処理に特許文献１の技術を適用することも考えられるが、特許文献１の技術では、一部の部位のみ姿勢が異なっているような場合の姿勢の差異を評価することができない。このため、特許文献１の技術を適用しても、人物の姿勢の差異を効率よく観察できる画像を選択することは困難である。

そこで、本発明は、人物を撮影した複数の画像の中から、人物の姿勢の差異を効率よく観察できるような画像を選択可能にすることを目的とする。

本発明は、人物を撮影した複数の参照画像と、対象となる人物を撮影した基準画像とについて、それぞれ前記人物の姿勢を検出する姿勢検出手段と、前記基準画像の中の前記対象となる人物の姿勢と、前記参照画像の中の人物の姿勢との間で、姿勢の部分的な差異を表す部分類似度を検出する類似度検出手段と、前記複数の参照画像の中から、前記部分類似度を基に参照画像を選択する画像選択手段と、を有することを特徴とする。

本発明によれば、人物を撮影した複数の画像の中から、人物の姿勢の差異を効率よく観察できるような画像を選択可能となる。

第１の実施形態の情報処理装置の構成例を示す図である。入力された基準画像例を示す図である。保存されている参照画像例を示す図である。第１の実施形態における画像選択処理のフローチャートである。第２の実施形態の情報処理装置の構成例を示す図である。保存されている動画データのフレームを表す模式図である。正規化後のフレームの説明図である。第２の実施形態における画像選択処理のフローチャートである。第３の実施形態における画像選択処理のフローチャートである。

以下、本発明の好ましい実施の形態を、添付の図面に基づいて詳細に説明する。
＜第１の実施形態＞
図１は第１の実施形態の情報処理装置３００の全体構成例を示す図である。
図１に示す情報処理装置３００において、基準画像取得部３１０は、基準画像のデータを取得する。基準画像データは、例えば図示しない撮影装置や画像記録装置、ネットワーク等を介して取得された画像データであるとする。

本実施形態において、基準画像取得部３１０は、対象となる人物を撮影した画像を、基準画像として取得する。ここで、人物の人体は、胴体に対する可動部位として、頭部、左右の腕、左右の脚等を有して構成され、また、これら部位のうち例えば腕は更に前腕、上腕、手等の部位により構成され、例えば脚は更に大腿、下腿、足等の部位により構成されている。そして、可動部位等の全ての部位を含む人体の外観形態、つまり人体の姿勢は、各部位の動作により各部位間の相対的な位置や角度が変わることにより変化する。また本実施形態において、姿勢の変化には、人体の全体としての姿勢の変化だけでなく、一部の部位のみの相対的な位置や角度が変わっている場合の部分的な姿勢の変化も含まれる。

また、本実施形態では、図２に示すように、姿勢の変化を観察する際の対象となる人物１１１が例えば野球のピッチング動作をしている様子を撮影した画像１１０が、基準画像取得部３１０により取得された例を挙げて説明する。図２の場合、画像１１０内の人物画像１２１が、野球のピッチング動作をしている人物１１１の画像である。

情報処理装置３００の参照画像保存部３２０には、様々な画像のデータが保存されており、本実施形態の場合、図２に人物画像１２１として写っている人物１１１が過去にピッチング動作をした際に撮影された複数の画像データが保存されているとする。なお、参照画像保存部３２０は、他の人物の画像が保存されていてもよい。図３は、図２の人物１１１が過去（例えば１週間前）にピッチング動作をした際に撮影されて参照画像保存部３２０に保存されている画像の一例として、画像２１０，２２０，２３０を挙げている。これら画像２１０，２２０，２３０には、人物１１１のピッチング動作の途中のそれぞれ異なった姿勢で撮影された人物画像２１１，２２１，２３１が写っているとする。また、図２の人物画像１２１の場合、人物１１１の姿勢は、例えば図３の画像２３０内に写っている人物画像２３１と概ね類似した姿勢であるとする。ただし、図２の人物画像１２１の脚のパーツ画像１２２と、図３の人物画像２３１の脚のパーツ画像２３２とでは、それぞれ曲がり具合が異なっている。つまり、図２の人物画像１２１ではパーツ画像１２２に示すように脚の膝が略々まっすぐに伸ばされているのに対し、図３の人物画像２３１ではパーツ画像２３２に示すように膝が曲がっているとする。本実施形態では、これら図２の画像１１０と図３の画像２３０が、人体の全体としての姿勢は概ね同一であるが、一部の部位のみで姿勢が変化しているような画像の一例であるとする。

本実施形態の情報処理装置３００は、基準画像取得部３１０にて取得された図２の画像１１０を基準画像とし、参照画像保存部３２０に保存されている複数の画像２１０，２２０，２３０を参照画像とする。なお、参照画像保存部３２０に保存されている参照画像には、画像２１０，２２０，２３０以外の他の画像も含まれるが、本実施形態では説明を判り易くするために、これら画像２１０，２２０，２３０のみを参照画像の例として挙げる。そして、情報処理装置３００は、参照画像保存部３２０内の複数の参照画像２１０，２２０，２３０の中から、基準画像１１０の人物画像１２１に対して全体としての姿勢は似ているが、部分的に姿勢が異なっている図３の画像２３０を選択する。すなわち、情報処理装置３００は、人物１１１のピッチング動作を撮影した現在の画像を基準画像１１０とし、過去に撮影された参照画像２１０，２２０，２３０の中から、ピッチング技能の上達等を比較するのに適した画像２３０を選択可能となされている。

以下、このような画像選択処理を実現する本実施形態の情報処理装置３００の詳細な構成と動作について説明する。
情報処理装置３００の画像入力部３３０は、前述した基準画像取得部３１０が取得した基準画像１１０のデータと、参照画像保存部３２０に保存されている複数の参照画像２１０，２２０，２３０のデータとを、それぞれ入力画像として人物検出部３４０に送る。

人物検出部３４０は、画像入力部３３０より供給された各入力画像から、人物が存在する画像領域を特定することで、人物画像を検出する。人物検出部３４０では、例えば下記の参考文献１に開示されているような物体検出器を用いることにより人物画像を検出する。図２と図３の例の場合、基準画像１１０からは人物画像１２１が検出され、各参照画像２１０，２２０，２３０からはそれぞれ人物画像２１１，２２１，２３１が検出される。人物検出部３４０により検出された各人物画像のデータは、基準画像１１０及び各参照画像２１０，２２０，２３０のデータと共に姿勢推定部３５０に送られる。

参考文献１：P. Felzenszwalb, R. Girshick, D. McAllester, Cascade Object Detection with Deformable Part Models, IEEE Conference on Computer Vision and Pattern Recognition, 2010．

姿勢推定部３５０は、人物検出部３４０によりそれぞれ検出された人物画像を用い、各画像中に写っている人物の姿勢検出を行う。本実施形態の場合、姿勢検出は、以下に説明するような姿勢パラメータを算出して、その姿勢パラメータを基に人物の姿勢を推定する姿勢推定手法を用いることにより行われる。ここで、姿勢パラメータは、人体の部位間の角度である。人体の各部位間の角度は、画像面上における角度すなわち２次元平面における２Ｄ関節角と、３次元空間における３Ｄ関節角の何れでもよい。例えば、以下の参考文献２に開示されている方法によって、画像中の人体の各部位の画像座標における位置姿勢を推定し、各部位間の角度の算出が可能である。さらに、各部位の画像座標における姿勢から、各部位の例えば関節点の画像座標における位置を算出し、参考文献３に記載の方法により、画像中の人体の３次元関節角Θ＝｛θ_i｝を推定することができる。姿勢推定部３５０により推定された姿勢パラメータ（人体の関節角を表す情報）は、基準画像１１０及び各参照画像２１０，２２０，２３０のデータと共に部分類似度計算部３６０に送られる。

参考文献２：Varun Ramakrishna, Daniel Munoz, Martial Hebert, J.A. Bagnell, Yaser Sheikh, PoseMachines: Articulated Pose Estimation via Inference Machines, European Conference on Computer Vision (ECCV), 2014.
参考文献３：Chunyu Wang, Yizhou Wang, Zhouchen Lin, Alan L. Yuille, Wen Gao; Robust Estimation of 3D Human Poses from a Single Image, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2014.

部分類似度計算部３６０は、基準画像１１０の人物画像１２１と各参照画像２１０，２２０，２３０の人物画像２１１，２２１，２３１との間の部分類似度を検出する類似度検出処理を行う。本実施形態の場合、部分類似度計算部３６０は、姿勢推定部３５０により算出された姿勢パラメータを用いて、部分類似度を算出する。ここで、例えば単純に２つの姿勢パラメータの差の値から類似性を判定すると、全体として姿勢が類似している一方で部分的に姿勢が異なる人物画像が、全体の姿勢が僅かずつ違う人物画像と同様に扱われてしまうことになる。このため、本実施形態の部分類似度計算部３６０では、以下に説明するように、姿勢パラメータ間における類似度のスパース性、つまり姿勢の非類似性を表す指標を算出する。

姿勢パラメータ間の類似度のスパース性（姿勢の非類似性）に関する指標は、例えば、以下のようにして算出される。基準画像１１０に写っている人物画像１２１における人体の姿勢パラメータをΘ^(q)＝｛θ_l ^(q)｝とし、参照画像２１０，２２０，２３０に写っている人物画像２１１，２２１，２３１における各姿勢パラメータをΘ^(r)＝｛θ_l ^(r)｝とする。ここで、θ_l ^(q)は、基準画像１１０に写る人物画像１２１における人体のｌ番目の姿勢パラメータであり、関節角の１自由度に対応する。同様に、θ_l ^(r)は、参照画像２１０，２２０，２３０に写っている人物画像２１１，２２１，２３１の人体のｌ番目の姿勢パラメータである。

そして、姿勢パラメータの部位ごとの差Θ^(q)−Θ^(r)＝ΔΘ＝｛Δθ_l｝を、式（１）のように定義する。
ΔΘ＝｛Δθ_l｝＝｛｜θ_l ^(q)−θ_l ^(r)｜｝式（１）

ここで、ΔΘの姿勢パラメータ要素ごとに予め定められた閾値をτ_lとし、τ＝｛τ_l｝を定義する。ΔΘの姿勢パラメータ要素のうちτ_lを超える要素の数を部分類似度として定義する。このようにして算出された部分類似度ｓは、式（２）により表すことができる。
ｓ＝＃｛ｌ｜Δθ_l−τ_l＞０｝式（２）

また、姿勢パラメータ間の類似度のスパース性に関する指標は、以下のようにしても算出することができる。式（１）のΔΘのＬ２ノルムが１になるように正規化したものをＰ_ΔΘとする。すなわち式（３）によりＰ_ΔΘが求められ、部分類似度ｓは式（３）の定義に従って式（４）により算出される。
Ｐ_ΔΘ＝｛ｐ_l｝＝｛Δθ_l／‖ΔΘ‖₂｝式（３）
ｓ＝Σ_lｐ_lｌｏｇ₂ｐ_l 式（４）

このようにして算出された部分類似度ｓは、Ｐ_ΔΘの負のエントロピーを計算していることに相当する。Ｐ_ΔΘの分布が均一になる場合に部分類似度ｓは最小の値をとり、分布の偏りが大きいほど部分類似度ｓは大きな値をとる。すなわち、全ての部位において誤差が大きいような場合には、部分類似度ｓは小さな値をとり、一部の部位のみ誤差が大きいような場合には、部分類似度ｓの値は大きくなる。前述のようにして部分類似度計算部３６０にて算出された部分類似度ｓは、基準画像１１０及び各参照画像２１０，２２０，２３０のデータと共に画像選択部３７０に送られる。

画像選択部３７０は、各参照画像２１０，２２０，２３０の中から、部分類似度ｓが予め決めた規定値ψを超える参照画像（例えば図３の参照画像２３０）を選択し、その選択した参照画像（２３０）と基準画像１１０のデータを画像表示部３８０に出力する。ここで、画像選択部３７０が選択する画像の枚数は予め決められた所定の枚数ｍ枚までとし、部分類似度ｓが規定値ψを超えている参照画像の枚数がｍ枚以上あった場合、部分類似度ｓの大きい順にｍ枚の参照画像を選択する。若しくは、画像選択部３７０は、部分類似度ｓが予め決められた規定値ψ₁とψ₂に対して、ψ₁＜ｓ＜ψ₂となるような参照画像を選択する。また、ψ₁＜ｓ＜ψ₂となるような参照画像がｍ枚以上ある場合、画像選択部３７０は、部分類似度ｓの値が（ψ₁＋ψ₂）／２に近いものから順に選択してもよい。一方、該当する参照画像が無い場合、画像選択部３７０は、選択不可能であったことを示す通知情報を生成して後段の画像表示部３８０に出力してその旨の通知を表示させる。

画像表示部３８０は、不図示の表示装置の画面に、基準画像１１０と画像選択部３７０により選択された参照画像（例えば図３の参照画像２３０）とを例えば並べて表示させる。これにより、例えば、人物１１１が野球のピッチング動作をした際に、その人物１１１の現在のピッチングフォームの画像と過去のピッチングフォームの画像との間の違いを比較することによるピッチング技能の変化の確認作業の効率を高めることができる。図２の画像１１０と図３の画像２３０の例の場合、ユーザは、例えば、過去のピッチング動作時には曲がっていた膝を、伸ばした状態にしてピッチングするようなピッチングフォームの改善が実現できているか否かを確認可能となる。また、基準画像１１０と画像選択部３７０により選択された参照画像（例えば図３の参照画像２３０）とを例えば並べて表示させるときに、差異があると判断した部位を他の部位と区別して表示するようにしてもよい。その具体的な方法としては、例えば、差異のある部位を矩形の枠で囲って表示する、差異のある部位の名前を表示する等である。

図４は、本実施形態の情報処理装置３００における画像選択処理の流れを示すフローチャートである。なお、図４のフローチャートでは、各処理ステップＳ４０１〜Ｓ４０７をそれぞれＳ４０１〜Ｓ４０７と略記する。図４のフローチャートの処理は、ハードウェア構成により行われてもよいし、本実施形態に係るプログラムをＣＰＵ（中央処理ユニット）が実行することにより実現されてもよい。また、図４のフローチャートの処理は、一部がソフトウェア構成で残りがハードウェア構成により実現されてもよい。これらのことは後述する他のフローチャートにおいても同様とする。例えば、図４のフローチャートの処理をＣＰＵがプログラムにより実行する場合、Ｓ４０２からＳ４０７までの処理は、本実施形態に係る画像選択処理のプログラムをＣＰＵが実行することにより実現される。なお、本実施形態に係るプログラムは、各種記録メディアやネットワークを介して供給され、ＲＡＭに展開されることによりＣＰＵにより実行可能となされる。

図４のフローチャートの処理は、本実施形態の情報処理装置３００において、例えばユーザにより画像選択処理の実行が指示されたことで開始する。
図４のＳ４０１において、画像入力部３３０は、基準画像取得部３１０により取得された基準画像１１０を入力画像として取り込む。
次のＳ４０２において、人物検出部３４０は、前述したように基準画像１１０の中から人物画像１２１の領域を検出し、その人物画像１２１の領域のバウンディングボックスを生成する。

次にＳ４０３において、姿勢推定部３５０は、Ｓ４０２において生成されたバウンディングボックス内に存在している人物画像１２１について前述したように３次元姿勢を推定し、その推定した姿勢を姿勢パラメータΘ^(q)とする。
次のＳ４０４では、Ｓ４０１、Ｓ４０２、Ｓ４０３と同様にして、参照画像２１０，２２０，２３０を入力し、さらに各参照画像内の人物画像について３次元姿勢を推定して姿勢パラメータΘ^(r)を算出する。以下、参照画像２１０，２２０，２３０の人物画像２１１，２２１，２３１についてそれぞれ求められた姿勢パラメータをΘ⁽²¹⁰⁾，Θ⁽²²⁰⁾，Θ⁽²³⁰⁾とする。

次のＳ４０５において、部分類似度計算部３６０は、前述した姿勢パラメータΘ^(q)と、姿勢パラメータをΘ⁽²¹⁰⁾，Θ⁽²²⁰⁾，Θ⁽²³⁰⁾とを基に、スパース性を評価する指標としての部分類似度ｓを算出する。
次のＳ４０６において、画像選択部３７０は、Ｓ４０５で算出された部分類似度ｓが、予め定めた前述の規定値ψを用いた条件を満たす（規定値ψを超える）参照画像を選択する。

その後、Ｓ４０７において、画像表示部３８０は、Ｓ４０６で選択された参照画像を、基準画像と並べて図示しない表示装置の画面上に表示させる。
そして、図４のフローチャートの処理は、本実施形態の情報処理装置３００において、例えばユーザにより画像選択処理の終了が指示されたことで終了する。

前述したように、第１の実施形態の情報処理装置３００においては、基準画像内の人物の姿勢と参照画像の中の人物の姿勢とを比較する際に、例えば全ての関節角が少しずつ異なる状態と一部の関節角だけ大きく異なる状態とを区別可能である。したがって、本実施形態によれば、複数の参照画像の中から、基準画像の人物画像の全体としての姿勢は類似する一方で、一部の部位における姿勢のみ異なっている人物画像が写っている参照画像を選択できる。すなわち、本実施形態によれば、例えば家庭用ビデオカメラ等で撮影された動作映像を基に、同様の動作を行った過去の映像から、一部の姿勢のみ異なる動作画像を自動的に探索することができる。これにより、本実施形態によれば、ユーザは、基準画像に写っている人物の姿勢と、選択された参照画像に写っている人物の姿勢との部分的な差異を、効率よく観察することが可能となる。

なお、前述の実施形態では、野球のピッチングフォームを確認する例を挙げたが、本発明はこれに限定されず、様々なスポーツの上達度や、リハビリの進呈度合いなどを確認する際、部分的な姿勢の差異を確認するために好適な画像を選択可能である。このことは後述する他の実施形態においても同様である。

＜第２の実施形態＞
以下、第２の実施形態に情報処理装置について説明する。
第２の実施形態の情報処理装置は、予め、人物の特定の動作に類似した動作の姿勢パラメータ等の姿勢データを保存しておき、それら姿勢データを基に各部位の関節角に対する重みを算出するような動作学習処理を行う。そして、第２の実施形態の情報処理装置は、動作学習処理により得られた重みに基づいて部分類似度を算出する。図５は、第２の実施形態の情報処理装置５００の構成例を示す図である。第２の実施形態の情報処理装置５００において、前述した第１の実施形態の情報処理装置３００と同様の構成についてはその説明を省略し、以下、第１の実施形態とは異なる部分について説明する。

第２の実施形態の情報処理装置５００において、動作データ保存部５１０は、例えばハードディスクドライブやソリッドステートドライブ等の記録装置を有し、それらに学習の対象となる複数の動作に対応した複数の動画像のデータを保存している。本実施形態の場合、動作データ保存部５１０には、例えば、前述した図２の画像１１０で被写体となっている人物１１１が、過去に同様のピッチング練習を行った際の様子を撮影した動画データが保存されているとする。ここで、過去に行われたピッチング練習の動画データとして、動作データ保存部５１０には、例えば図６に示すように、ｎ回分のピッチング練習時の動画Ｍ₁〜Ｍ_nのデータが保存されているとする。なお、動作データ保存部５１０に保存されている各動画Ｍ₁〜Ｍ_nに写っている被写体の人物は、前述した画像１１０の人物１１１とは別の人物であってもよい。図６に例示した動画Ｍ₁，Ｍ₂，・・・，Ｍ_nは、それぞれフレーム数がｆ₁，ｆ₂，・・・，ｆ_nであるとする。また、以下の説明において、ｋ番目のピッチング練習時の動画Ｍ_kのフレーム数はｆ_kとする。

第２の実施形態の場合、姿勢推定部３５０は、動画Ｍ₁〜Ｍ_nのそれぞれのフレームについて姿勢パラメータΘを算出する。例えば、ｋ番目の動画Ｍ_kからは、各フレームの姿勢パラメータ系列｛Θ^(k1)，Θ^(k2)，・・・，Θ^(kfk)｝が算出される。第２の実施形態の場合、姿勢推定部３５０にて算出された各フレームの姿勢パラメータ系列が、前述した基準画像と参照画像のデータと共にフレーム正規化部５２０に送られる。

フレーム正規化部５２０は、姿勢推定部３５０で算出された姿勢パラメータ系列をダイナミックタイムワーピング（Dynamic Time Warping）により、フレーム数ｆに正規化する。フレーム数ｆとしては、例えば動画Ｍ₁のフレーム数ｆ₁を用いてもよい。このフレーム正規化の処理により、ｋ番目の動画Ｍ_kについては、姿勢パラメータ系列｛Θ^(kj)｝（ｊ＝１，２，・・・，ｆ）が得られる。図７は、動画Ｍ₁〜Ｍ_nより得られた各姿勢パラメータ系列をフレーム数ｆに正規化したデータを模式的に示している。図７では動画Ｍ₁，Ｍ₂，・・・，Ｍ_nの各姿勢パラメータ系列が｛Θ⁽¹¹⁾，Θ⁽¹²⁾，・・・，Θ^(1f)｝，｛Θ⁽²¹⁾，Θ⁽²²⁾，・・・，Θ^(2f)｝，・・・，｛Θ⁽ⁿ¹⁾，Θ⁽ⁿ²⁾，・・・，Θ^(nf)｝で示されている。このようにしてフレーム正規化部５２０で得られた各動画Ｍ₁〜Ｍ_nの正規化された各姿勢パラメータ系列が、前述した基準画像と参照画像のデータと共に部分類似度計算部３６０に送られる。

動作学習部５３０は、動作データ保存部５１０に保存されている動画データを用いて、学習の対象となる人物の特定の動作における姿勢の変化に対する正常範囲を学習する。先ず、動作学習部５３０は、学習の対象となる動画の各フレームの画像データを人物検出部３４０に送って人物検出処理を行わせ、さらに、検出された人物画像を基に姿勢推定部３５０による姿勢の推定処理を行わせる。これにより、例えばｋ番目の動画Ｍ_kの場合、姿勢推定部３５０からは、その動画Ｍ_kの各フレームに対応した姿勢パラメータ系列｛Θ^(kj)｝（ｊ＝１，２，・・・，ｆ）が得られる。さらに、動作学習部５３０は、フレーム正規化部５２０によるフレーム数の正規化についても行わせる。そして、フレーム数が正規化された姿勢パラメータ系列は、姿勢データとして動作データ保存部５１０に保存される。

次に、動作学習部５３０は、動作データ保存部５１０に保存された、フレーム数が正規化された姿勢パラメータ系列より、各フレームにおける姿勢パラメータの平均（以下、平均姿勢とする。）と分散とを算出する。ここで、例えばｊ番目のフレームの平均姿勢μ_jは、以下の式（５）により求めることができる。

また、ｊ番目のフレームにおけるｌ番目の姿勢パラメータの分散σ² _jlは、以下の式（６）のように表される。本実施形態では、姿勢パラメータの分散が、各関節角の重みとして算出される。

部分類似度計算部３６０は、動作学習部５３０により姿勢データから算出された姿勢パラメータの平均姿勢と分散を用いて、前述した基準画像１１０と各参照画像２１０，２２０，２３０との間の部分類似度を算出する。先ず、部分類似度計算部３６０は、基準画像１１０から算出された姿勢パラメータΘ^(q)に最も近い姿勢平均μ_jとなるフレーム番号ｊを選ぶ。具体的には、部分類似度計算部３６０は、姿勢間の距離としてＬ２ノルムで表される距離を用い、姿勢パラメータΘ^(q)との距離が最小となる平均姿勢μ_jとなるフレーム番号ｊを選ぶ。そして、部分類似度計算部３６０は、フレーム番号ｊに対応する分散σ² _jの要素（σ² _jl）を各関節角の重みとして用いて、式（７）により部分類似度ｓを算出する。なお、式（７）のαは定数である。

ｓ＝＃｛ｌ｜Δθ_l−ασ_jl＞０｝式（７）

また、式（１）のΔΘの代わりに、下記の式（８）のように定義されたΔΘを用いて、式（３）、式（４）により部分類似度ｓを算出することもできる。
ΔΘ＝｛Δθ_l｝＝｛｜θ_l ^(q)−θ_l ^(r)｜／σ_jl｝式（８）

以下、第２の実施形態における処理を図８（ａ）と図８（ｂ）のフローチャートに沿って説明する。図８（ａ）は動画データを用いた学習により姿勢パラメータの平均姿勢と各関節角の分散を求める処理のフローチャートを示している。また、図８（ｂ）は平均姿勢と各関節角の分散を用いた第２の実施形態における画像選択処理のフローチャートである。

図８（ａ）のＳ８０１において、動作学習部５３０は、前述したように、動作データ保存部５１０に保存されている動画の各フレームについて、人物検出部３４０による人物検出処理、姿勢推定部３５０による姿勢パラメータ系列の算出処理を行わせる。さらに、動作学習部５３０は、フレーム正規化部５２０により動画のフレーム数を正規化させる。そして、動作学習部５３０は、このフレーム数が正規化された姿勢パラメータ系列を、姿勢データとして動作データ保存部５１０に保存させる。
次に、Ｓ８０２において、動作学習部５３０は、前述したように、Ｓ８０１の処理により算出されて動作データ保存部５１０に保存された姿勢データを基に、各フレームにおける姿勢パラメータの平均姿勢と各関節角の分散とを算出する。

図８（ｂ）のＳ８０３〜Ｓ８０６は、前述した図４のフローチャートのＳ４０１〜Ｓ４０４と同様の処理が行われるため、それらの説明は省略する。Ｓ８０６の後、情報処理装置５００の処理はＳ８０７に進む。
Ｓ８０７において、部分類似度計算部３６０は、基準画像の中に写っている人物の姿勢が、前述の学習時に用いられた各フレームのうち、何番目のフレームの平均姿勢に近いかを算出する。ここで、基準画像内に写っている人物の姿勢が、例えばｊ番目のフレームの平均姿勢μ_jと最も近いとする。この場合、そのｊ番目のフレームの平均姿勢μ_jに対応した分散はσ² _jである。

次に、Ｓ８０８において、部分類似度計算部３６０は、前述した式（７）に定義された部分類似度ｓ、若しくは式（８）のΔΘを用いて、前述の式（３）及び式（４）によって定義される部分類似度ｓを計算する。
次に、Ｓ８０９において、画像選択部３７０は、Ｓ８０８で算出された部分類似度ｓが、予め定められた規定値ψの条件を満たす（規定値ψを超える）ような参照画像を選択する。
その後、Ｓ８１０において、画像表示部３８０は、Ｓ８０９で選択された参照画像を、基準画像と並べて不図示の表示装置に表示させる。

第２の実施形態の情報処理装置５００においては、予め人物の特定の動作に類似した動作から得られる姿勢データを基に、各部位の関節角に対する重みを算出し、その関節角の重みを用いて算出した部分類似度に基づいて参照画像の選択を行う。したがって、第２の実施形態によれば、人物を撮影した複数の画像の中から人物の姿勢の差異を効率よく観察できるような画像を、第１の実施形態の場合よりも更に高い精度で選択可能となる。

＜第３の実施形態＞
以下、第３の実施形態の情報処理装置について説明する。
前述した第１，第２の実施形態の場合、基準画像は静止画像であったが、第３の実施形態では、基準画像として動画が入力され、その基準画像の動画の比較対象となる動画を、参照画像として保存されている複数の動画の中から選択する。なお、第３の実施形態では、基準画像として入力される動画を基準動画、参照画像として保存されている動画を参照動画と呼ぶことにする。第３の実施形態における情報処理装置の構成は、前述した第２の実施形態の情報処理装置５００と同じ構成であるため、前述した図５を流用して説明する。ただし、第３の実施形態において、動作データ保存部５１０と動作学習部５３０は必ずしも設けられていなくてもよい。以下、第３の実施形態において、第１の実施形態及び第２の実施形態とは異なる部分について説明する。また、第３の実施形態では、或る人物のリハビリ中の歩行動作の動画を用いた例を挙げる。

基準画像取得部３１０は、例えば或る人物のリハビリ中の歩行動作の動画を基準動画Ｍ_qとして取得したとする。また、参照画像保存部３２０には、その人物について過去に撮影されたｎ回分のリハビリ中の歩行動作の動画が参照動画Ｍ_r1〜Ｍ_rnとして保存されているとする。このため、画像入力部３３０には、基準動画Ｍ_qと参照動画Ｍ_r1〜Ｍ_rnが入力される。なお、参照画像保存部３２０に保存されている参照動画の被写体の人物は、基準動画内に写っている人物と同一人物でなくともよい。

フレーム正規化部５２０は、基準動画Ｍ_qのフレーム数に合わせて、参照画像保存部３２０の各参照動画Ｍ_r1〜Ｍ_rnのフレーム数をダイナミックタイムワーピングによって正規化する。なお、第３の実施形態の場合も第２の実施形態と同様に、フレーム正規化部５２０への入力は姿勢推定部３５０によって推定された姿勢パラメータ系列である。

部分類似度計算部３６０は、正規化されたそれぞれのフレームの画像について、基準のフレームと参照されるフレームの部分類似度ｓを計算する。基準のフレーム数がｆであった場合、部分類似度計算部３６０は、ｆフレーム分の部分類似度Ψ＝｛ｓ_i｝（ｉ＝１，２，・・・，ｆ）を算出する。なお、各フレームの部分類似度ｓ_iの定義は、第１の実施形態や第２の実施形態の場合と同様である。

画像選択部３７０は、部分類似度計算部３６０によって算出されたｆフレーム分の部分類似度Ψに基づいて、基準動画Ｍ_qの比較対象となる動画を参照動画Ｍ_r1〜Ｍ_rnの中から選択する。第３の実施形態の場合、画像選択部３７０は、例えば式（９）に示す部分類似度ΨのＬｐノルムが、予め定められた規定値を超えることを、動画選択の際の基準としてもよい。

ここで、Ｌｐノルムとして、Ｌ１ノルムを用いた場合は、各フレームの部分類似度ｓ_iの総和を求めていることになる。また、Ｌｐノルムとして、Ｌ-infinityノルムを用いた場合は、各フレームの部分類似度ｓ_iの中から類似度が最大となるフレームの値を代表値として選んでいることになる。また、画像選択部３７０は、各フレームの部分類似度ｓ_iのうち、規定の基準を満たしているものの数をカウントし、その数が一定の範囲内にあるような動画を選択してもよい。

図９は、第３の実施形態の画像選択処理のフローチャートである。
図９のＳ９０１において画像入力部３３０には基準動画Ｍ_qが入力される。次のＳ９０２において、人物検出部３４０は、入力された基準動画の各フレームから人物画像の領域を検出する。次のＳ９０３において、姿勢推定部３５０は、Ｓ９０２で検出された人物画像の姿勢パラメータ系列を算出する。また、Ｓ９０４では、Ｓ９０１、Ｓ９０２、Ｓ９０３と同様にして、参照動画Ｍ_r1〜Ｍ_rnが入力され、さらに各参照動画内の人物画像の検出と姿勢パラメータ系列の算出が行われる。これらＳ９０２〜Ｓ９０４における各処理は前述した第１，第２の実施形態における処理と概ね同様であるため詳細な説明は省略する。

次に、Ｓ９０５において、フレーム正規化部５２０は、Ｓ９０４までの処理で得られた姿勢パラメータ系列を用いて、参照動画のフレーム数を基準動画のフレーム数に正規化する。
次に、Ｓ９０６において、部分類似度計算部３６０は、前述したように基準動画と参照動画の各フレームの部分類似度を計算する。なお、部分類似度を第２の実施形態のように学習した姿勢データに基づいて計算する場合には、予め図８のＳ８０１とＳ８０２の処理を実行しておくようにする。

次に、Ｓ９０７において、画像選択部３７０は、前述したように、全フレーム分の部分類似度（Ψ）に基づいて、参照動画の中から基準動画の比較対象となる動画を選択する。
その後、Ｓ９０８において、画像表示部３８０は、Ｓ９０７にて選択された動画を、基準動画と共に不図示の表示装置に表示させる。

第３の実施形態の情報処理装置５００においては、基準画像と参照画像が共に動画である場合でも、人物を撮影した複数の動画の中から、人物の姿勢の差異を効率よく観察できるような動画を選択可能となる。

本発明は、前述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

前述の実施形態は、何れも本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。即ち、本発明は、その技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。

３００，５００：情報処理装置、３１０：基準画像取得部、３２０：参照画像保存部、３４０：人物検出部、３５０：姿勢推定部、３６０：部分類似度計算部、３７０：画像選択部、３８０：画像表示部、５１０：動作データ保存部、５２０：フレーム正規化部、５３０：動作学習部

Claims

人物を撮影した複数の参照画像と、対象となる人物を撮影した基準画像とについて、それぞれ前記人物の姿勢を検出する姿勢検出手段と、
前記基準画像の中の前記対象となる人物の姿勢と、前記参照画像の中の人物の姿勢との間で、姿勢の部分的な差異を表す部分類似度を検出する類似度検出手段と、
前記複数の参照画像の中から、前記部分類似度を基に参照画像を選択する画像選択手段と、
を有することを特徴とする情報処理装置。
前記画像選択手段は、前記複数の参照画像の中から、前記基準画像の中の前記人物の人体を構成する複数の部位のうち一部の部位による姿勢が異なった前記人物の画像を含んだ参照画像を、選択することを特徴とする請求項１に記載の情報処理装置。
前記基準画像と前記参照画像からそれぞれ前記人物の画像を検出する人物検出手段を有し、
前記姿勢検出手段は、前記基準画像と前記参照画像からそれぞれ検出された前記人物の画像を用いて、前記人物の姿勢を検出することを特徴とする請求項１又は２に記載の情報処理装置。
前記複数の参照画像を保存する画像保存手段を有し、
前記姿勢検出手段は、前記保存されている前記参照画像について前記人物の姿勢を検出することを特徴とする請求項１から３の何れか１項に記載の情報処理装置。
前記姿勢検出手段は、前記人物の人体を構成する部位間の角度を前記人物の姿勢を表す姿勢パラメータとして算出し、
前記類似度検出手段は、前記姿勢パラメータを基に、前記部分類似度を算出することを特徴とする請求項１から４の何れか１項に記載の情報処理装置。
前記類似度検出手段は、前記人物の人体を構成する各部位における姿勢パラメータ間の類似度のスパース性に関する指標を算出し、前記スパース性の指標に基づいて前記部分類似度を算出することを特徴とする請求項５に記載の情報処理装置。
前記類似度検出手段は、予め決めた非類似性の閾値よりも、姿勢の非類似性が大きい前記姿勢パラメータの要素の数に基づいて、前記スパース性の指標を算出することを特徴とする請求項６に記載の情報処理装置。
前記類似度検出手段は、前記人物の人体を構成する部位ごとの姿勢パラメータの差を正規化した値のエントロピーを基に、前記スパース性の指標を算出することを特徴とする請求項６に記載の情報処理装置。
前記画像選択手段は、前記複数の参照画像の中で、前記部分類似度が規定値を超える人物の画像を含む参照画像を選択することを特徴とする請求項１から８の何れか１項に記載の情報処理装置。
前記画像選択手段は、前記複数の参照画像から、前記部分類似度が大きい順の人物画像を含む参照画像の順に前記選択を行うことを特徴とする請求項１から９の何れか１項に記載の情報処理装置。
前記画像選択手段は、前記複数の参照画像の中から、所定の枚数の参照画像を選択することを特徴とする請求項１から１０の何れか１項に記載の情報処理装置。
学習により前記人物の特定の動作に関する前記姿勢のデータを算出し、前記算出した姿勢のデータに基づいて前記人物の人体を構成する部位間の角度の重みを算出する学習手段を有し、
前記類似度検出手段は、前記重みに基づいて前記部分類似度を算出することを特徴とする請求項１から１１の何れか１項に記載の情報処理装置。
前記学習手段は、
前記人物の特定の動作に対応した動画の各フレームから検出された人物の姿勢を表すデータの平均と分散を、前記学習による前記姿勢のデータとして算出してデータ保存手段に保存させ、
前記データ保存手段に保存した前記姿勢のデータを用いて前記重みを算出することを特徴とする請求項１２に記載の情報処理装置。
前記基準画像と前記選択された参照画像とを表示する表示手段を有することを特徴とする請求項１から１３の何れか１項に記載の情報処理装置。
前記表示手段は、前記基準画像と前記選択された参照画像とで、前記基準画像の中の前記人物の人体を構成する複数の部位のうち姿勢が異なる部位を他の部位と区別して表示することを特徴とする請求項１４に記載の情報処理装置。
前記基準画像と前記参照画像は動画であり、
前記姿勢検出手段は、人物を撮影した複数の参照動画と、対象となる人物を撮影した基準動画とについて、それぞれ前記人物の姿勢を検出し、
前記基準動画の中の前記対象となる人物の姿勢と、前記参照動画の中の人物の姿勢との間で、姿勢の部分的な差異を表す部分類似度を算出し、
前記選択手段は、前記複数の参照動画の中から、前記部分類似度を基に参照動画を選択することを特徴とする請求項１から１５の何れか１項に記載の情報処理装置。
人物を撮影した複数の参照画像と、対象となる人物を撮影した基準画像とについて、それぞれ前記人物の姿勢を検出する姿勢検出工程と、
前記基準画像の中の前記対象となる人物の姿勢と、前記参照画像の中の人物の姿勢との間で、姿勢の部分的な差異を表す部分類似度を検出する類似度検出工程と、
前記複数の参照画像の中から、前記部分類似度を基に参照画像を選択する画像選択工程と、
を有することを特徴とする情報処理装置の情報処理方法。
コンピュータを、請求項１から１６の何れか１項に記載の情報処理装置の各手段として機能させるためのプログラム。