JP2013206273A

JP2013206273A - 情報処理装置、情報処理方法、および情報処理システム

Info

Publication number: JP2013206273A
Application number: JP2012076221A
Authority: JP
Inventors: Keisuke Yamaoka; 啓介山岡; Toshinori Ihara; 利昇井原; Go Kobayashi; 剛也小林; Takuo Kawai; 拓郎川合
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2012-03-29
Filing date: 2012-03-29
Publication date: 2013-10-07
Also published as: US20150035827A1; US9852358B2; WO2013145654A1

Abstract

【課題】モデルとするジェスチャと動画像データの被写体のジェスチャの類似度をユーザに提示することができるようにする。
【解決手段】類似度計算部は、モデルとするジェスチャにおける時系列の姿勢を表す姿勢モデルと、動画像データの被写体の時系列の姿勢を表す姿勢データである対象姿勢データとに基づいて、姿勢モデルと対象姿勢データの類似度を計算する。表示制御部は、類似度計算部により計算された類似度に基づいて、画面を出力部に表示させる。本技術は、例えば、動画像データを処理する情報処理装置に適用することができる。
【選択図】図５

Description

本技術は、情報処理装置、情報処理方法、および情報処理システムに関し、特に、モデルとするジェスチャと動画像データの被写体のジェスチャの類似度をユーザに提示することができるようにした情報処理装置、情報処理方法、および情報処理システムに関する。

近年、各種の画像解析の技術が研究開発されている。例えば、画像内の視聴者の表情を解析し、視聴者の反応を示す反応情報を生成する技術が考案されている（特に、特許文献１参照）。

一方、近年、一般的なユーザが手軽に動画像データを作成できる環境が整ったため、大量の動画像データが作成されている。従って、ユーザに、動画像データを用いた有意義なアプリケーションを提供することが望まれている。

特開２０１２−９９５７号公報

しかしながら、モデルとするジェスチャと動画像データの被写体のジェスチャの類似度をユーザに提示することは考えられていなかった。

本技術は、このような状況に鑑みてなされたものであり、モデルとするジェスチャと動画像データの被写体のジェスチャの類似度をユーザに提示することができるようにするものである。

本技術の第１の側面の情報処理装置は、モデルとするジェスチャにおける時系列の姿勢を表す姿勢モデルと、動画像データの被写体の時系列の姿勢を表す姿勢データである対象姿勢データとに基づいて、前記姿勢モデルと前記対象姿勢データの類似度を計算する類似度計算部と、前記類似度計算部により計算された前記類似度に基づいて、画面を表示部に表示させる表示制御部とを備える情報処理装置である。

本技術の第１の側面の情報処理方法は、本技術の第１の側面の情報処理装置に対応する。

本技術の第１の側面においては、モデルとするジェスチャにおける時系列の姿勢を表す姿勢モデルと、動画像データの被写体の時系列の姿勢を表す姿勢データである対象姿勢データとに基づいて、前記姿勢モデルと前記対象姿勢データの類似度が計算され、前記類似度に基づいて、画面が表示部に表示される。

本技術の第２の側面の情報処理システムは、モデルとするジェスチャを行う被写体の動画像データから、そのジェスチャにおける時系列の姿勢を表す姿勢モデルを生成するモデル生成部と、前記姿勢モデルを送信する送信部とを有する第１の情報処理装置と、前記送信部により送信されてくる前記姿勢モデルを受信する受信部と、動画像データから被写体の時系列の姿勢を表す姿勢データを対象姿勢データとして生成する姿勢推定部と、前記受信部により受信された前記姿勢モデルと、前記姿勢推定部により生成された前記対象姿勢データとに基づいて、前記姿勢モデルと前記対象姿勢データの類似度を計算する類似度計算部と、前記類似度計算部により計算された前記類似度に基づいて、画面を表示部に表示させる表示制御部とを有する第２の情報処理装置とを備える情報処理システムである。

本技術の第２の側面においては、第１の情報処理装置が、モデルとするジェスチャを行う被写体の動画像データから、そのジェスチャにおける時系列の姿勢を表す姿勢モデルを生成し、前記姿勢モデルを送信し、第２の情報処理装置が、送信されてくる前記姿勢モデルを受信し、動画像データから被写体の時系列の姿勢を表す姿勢データを対象姿勢データとして生成し、受信された前記姿勢モデルと、生成された前記対象姿勢データとに基づいて、前記姿勢モデルと前記対象姿勢データの類似度を計算し、前記類似度に基づいて、画面を表示部に表示させる。

本技術の第３の側面の情報処理システムは、動画像データから被写体の時系列の姿勢を表す姿勢データを対象姿勢データとして生成する姿勢推定部と、前記姿勢推定部により生成された前記対象姿勢データを送信する送信部とを有する第１の情報処理装置と、前記送信部により送信されてくる前記対象姿勢データを受信する受信部と、モデルとするジェスチャを行う被写体の動画像データから、そのジェスチャにおける時系列の姿勢を表す姿勢モデルを生成するモデル生成部と、前記受信部により受信された対象姿勢データと、前記モデル生成部により生成された前記姿勢モデルとに基づいて、前記姿勢モデルと前記対象姿勢データの類似度を計算する類似度計算部と、前記類似度計算部により計算された前記類似度に基づいて、画面を表示部に表示させる表示制御部とを有する第２の情報処理装置とを備える情報処理システムである。

本技術の第３の側面においては、第１の情報処理装置が、動画像データから被写体の時系列の姿勢を表す姿勢データを対象姿勢データとして生成し、生成された前記対象姿勢データを送信し、第２の情報処理装置が、送信されてくる前記対象姿勢データを受信し、モデルとするジェスチャを行う被写体の動画像データから、そのジェスチャにおける時系列の姿勢を表す姿勢モデルを生成し、受信された対象姿勢データと、生成された前記姿勢モデルとに基づいて、前記姿勢モデルと前記対象姿勢データの類似度を計算し、前記類似度に基づいて、画面を表示部に表示させる。

なお、第１の側面の情報処理装置並びに第２および第３の側面の情報処理システムは、コンピュータにプログラムを実行させることにより実現することができる。

また、第１の側面の情報処理装置並びに第２および第３の側面の情報処理システムを実現するために、コンピュータに実行させるプログラムは、伝送媒体を介して伝送することにより、又は、記録媒体に記録して、提供することができる。

本技術によれば、モデルとするジェスチャと動画像データの被写体のジェスチャの類似度をユーザに提示することができる。

本技術を適用した情報処理装置の第１実施の形態のハードウエアの構成例を示すブロック図である。モデル生成処理部の構成例を示すブロック図である。姿勢モデルの生成を説明する図である。図２のモデル生成処理部のモデル生成処理を説明するフローチャートである。類似度計算処理部の構成例を示すブロック図である。処理対象の動画像データの数が１つである場合の画面の例を示す図である。処理対象の動画像データの数が１つである場合の画面の例を示す図である。処理対象の動画像データの数が複数である場合の画面の例を示す図である。処理対象の動画像データの数が複数である場合の画面の例を示す図である。図５の類似度計算処理部の類似度計算処理を説明するフローチャートである。本技術を適用した情報処理システムの第１実施の形態の構成例を示すブロック図である。本技術を適用した情報処理装置の第２実施の形態のハードウエアの構成例を示すブロック図である。検索処理部の構成例を示すブロック図である。図１３の表示制御部により表示される画面の例を示す図である。図１３の表示制御部により表示される画面の例を示す図である。図１３の表示制御部により表示される画面の例を示す図である。図１３の表示制御部により表示される画面の例を示す図である。図１３の検索処理部の検索処理を説明するフローチャートである。本技術を適用した情報処理システムの第２実施の形態の構成例を示すブロック図である。

＜第１実施の形態＞
［情報処理装置の第１実施の形態の構成例］
図１は、本技術を適用した情報処理装置の第１実施の形態のハードウエアの構成例を示すブロック図である。

図１の情報処理装置１０において、CPU（Central Processing Unit）１１，ROM（Read Only Memory）１２，RAM（Random Access Memory）１３は、バス１４により相互に接続されている。

バス１４には、さらに、入出力インタフェース１５が接続されている。入出力インタフェース１５には、入力部１６、出力部１７、記憶部１８、通信部１９、およびドライブ２０が接続されている。

入力部１６は、キーボード、マウス、マイクロフォンなどよりなる。出力部１７は、ディスプレイ、スピーカなどよりなる。記憶部１８は、ハードディスクや不揮発性のメモリなどよりなる。通信部１９は、ネットワークインタフェースなどよりなる。ドライブ２０は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブルメディア２１を駆動する。

以上のように構成される情報処理装置１０では、CPU１１が、例えば、記憶部１８に記憶されているプログラムを、入出力インタフェース１５およびバス１４を介して、RAM１３にロードして実行することにより、各種の処理が行われる。

例えば、情報処理装置１０では、モデルとするジェスチャにおける時系列の姿勢を表す姿勢モデルを生成するモデル生成処理が行われる。また、情報処理装置１０では、姿勢モデルと、処理対象の動画像データの被写体の時系列の姿勢を表す姿勢データである対象姿勢データの類似度を計算する類似度計算処理が行われる。即ち、CPU１１は、モデル生成処理を行うモデル生成処理部として機能したり、類似度計算処理を行う類似度計算処理部として機能したりする。

CPU１１が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア２１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

情報処理装置１０では、プログラムは、リムーバブルメディア２１をドライブ２０に装着することにより、入出力インタフェース１５を介して、記憶部１８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部１９で受信し、記憶部１８にインストールすることができる。その他、プログラムは、ROM１２や記憶部１８に、あらかじめインストールしておくことができる。

[モデル生成処理部の構成例]
図２は、モデル生成処理部の構成例を示すブロック図である。

図２のモデル生成処理部４０は、取得部４１、姿勢推定部４２、モデル生成部４３、および記憶制御部４４により構成される。

なお、以下では、モデル生成処理部４０が、１つの姿勢モデルを生成する場合について説明するが、複数の姿勢モデルを生成する場合には、モデルとするジェスチャごとに、１つの姿勢モデルを生成する場合と同様の処理が行われる。

モデル生成処理部４０の取得部４１は、モデルとするジェスチャを行う被写体の複数の動画像データ(以下、モデル動画像データという)を記憶部１８から読み出したり、通信部１９を介して外部のサーバ等から取得したりする。なお、モデルとするジェスチャは、予め決められていてもよいし、ユーザが入力部１６を操作することにより設定されるようにしてもよい。取得部４１は、複数のモデル動画像データを姿勢推定部４２に供給する。

姿勢推定部４２は、複数のモデル動画像データのそれぞれから、フレーム単位で被写体の姿勢の特徴量を抽出し、その特徴量を用いて姿勢データを生成する。

具体的には、姿勢推定部４２は、例えば、リッジ回帰を用いてSIFT特徴量と人体関節の３次元座標との間の写像を求める手法により、フレーム単位のモデル動画像データから上半身8関節の位置を特徴量として抽出する。この手法は、Ankur Agarwal,Bill Triggs,"A Local Basis Representation for Estimating Human Pose from Cluttered Images",ACCV（Asian Conference on Computer Vision）2006などに記載されている。

なお、姿勢推定部４２は、抽出された特徴量を、例えば首の座標を中心とした極座標系に変換することにより、撮影時のカメラアングルに不変な特徴量としてもよい。また、姿勢推定部４２は、抽出された特徴量をベクトル正規化し、被写体のサイズに不変な特徴量としてもよい。さらに、姿勢推定部４２は、抽出された特徴量を、例えば首の座標を中心とした極座標系に変換してベクトル正規化することにより、撮影時のカメラアングルと被写体のサイズに不変な特徴量としてもよい。姿勢推定部４２は、フレーム単位の特徴量の時系列データを姿勢データとする。

姿勢推定部４２は、複数のモデル動画像データそれぞれの姿勢データをモデル生成部４３に供給する。

モデル生成部４３は、姿勢推定部４２から供給される複数のモデル動画像データの姿勢データを用いて、HMM（Hidden Marcov Model）などにより、モデルとするジェスチャにおける時系列の姿勢をモデル化する。HMMは、複数のステートの組み合わせとして時系列データを確率的にモデル化する技術で、姿勢データのように、同一のモデルの時系列データであっても時間的な伸縮を有する時系列データのモデル化に好適である。モデル生成部４３は、モデル化により生成される姿勢モデルを記憶制御部４４に供給する。

記憶制御部４４は、モデル生成部４３から供給される姿勢モデルを、図１の記憶部１８に供給して記憶させる。

[姿勢モデルの生成の説明]
図３は、姿勢モデルの生成を説明する図である。

図３の例では、モデルとするジェスチャが所定の選手のバッティングフォームである。

図３に示すように、取得部４１は、例えば、インターネット上の検索サイトのデータベースやクラウドサーバ（オンラインストレージ）から、通信部１９を介して、所定の選手がバッティングする複数の動画像データを、モデル動画像データとして取得する。

姿勢推定部４２は、複数のモデル動画像データのそれぞれから姿勢データを生成し、モデル生成部４３は、その姿勢データを用いてHMMなどによりモデル化を行い、姿勢モデルを生成する。

[モデル生成処理部の処理の説明]
図４は、図２のモデル生成処理部４０のモデル生成処理を説明するフローチャートである。

図４のステップＳ１１において、モデル生成処理部４０の取得部４１は、複数のモデル動画像データを、記憶部１８から取得するか、または通信部１９を介して外部のサーバ等から取得する。取得部４１は、複数のモデル動画像データを姿勢推定部４２に供給する。

ステップＳ１２において、姿勢推定部４２は、複数のモデル動画像データのそれぞれから、フレーム単位で特徴量を抽出し、その特徴量を用いて姿勢データを生成する。姿勢推定部４２は、複数のモデル動画像データそれぞれの姿勢データをモデル生成部４３に供給する。

ステップＳ１３において、モデル生成部４３は、姿勢推定部４２から供給される複数のモデル動画像データの姿勢データを用いて、HMMなどにより、モデルとするジェスチャにおける時系列の姿勢をモデル化する。モデル生成部４３は、モデル化により生成される姿勢モデルを記憶制御部４４に供給する。

ステップＳ１４において、記憶制御部４４は、モデル生成部４３から供給される姿勢モデルを、記憶部１８に供給して記憶させ、処理を終了する。

[類似度計算処理部の構成例]
図５は、類似度計算処理部の構成例を示すブロック図である。

図５の類似度計算処理部６０は、画像取得部６１、モデル取得部６２、姿勢推定部６３、類似度計算部６４、および表示制御部６５により構成される。

類似度計算処理部６０の画像取得部６１は、ユーザの入力部１６に対する操作に応じた入力部１６からの指令に基づいて、記憶部１８から動画像データを読み出すか、または、通信部１９を介して、カメラやサーバ等の外部装置（図示せず）から動画像データを取得する。

具体的には、ユーザは、入力部１６を操作し、モデルとするジェスチャとの類似度を認識したいジェスチャを行う被写体の動画像データを、処理対象の動画像データとして指定する。入力部１６は、この操作に応じて、ユーザにより指定された処理対象の動画像データを取得する指令を画像取得部６１に供給する。画像取得部６１は、その指令に基づいて、処理対象の動画像データを記憶部１８または外部装置から取得する。画像取得部６１は、取得された処理対象の動画像データを姿勢推定部６３と表示制御部６５に供給する。

モデル取得部６２は、ユーザの入力部１６に対する操作に応じた入力部１６からの指令に基づいて、記憶部１８から姿勢モデルを読み出す。具体的には、ユーザは、入力部１６を操作し、記憶部１８に記憶されている姿勢モデルのうちの、モデルとしたいジェスチャの姿勢モデルを指定する。入力部１６は、この操作に応じて、ユーザにより指定された姿勢モデルを読み出す指令をモデル取得部６２に供給する。モデル取得部６２は、その指令に基づいて、姿勢モデルを記憶部１８から読み出す。モデル取得部６２は、読み出された姿勢モデルを姿勢推定部６３に供給する。

姿勢推定部６３は、図２の姿勢推定部４２と同様に、画像取得部６１から供給される動画像データから、フレーム単位で特徴量を抽出し、その特徴量を用いて姿勢データを生成する。姿勢推定部６３は、生成された姿勢データを対象姿勢データとして類似度計算部６４に供給する。

類似度計算部６４は、姿勢推定部６３から供給される対象姿勢データと、モデル取得部６２から供給される姿勢モデルとに基づいて、姿勢モデルと対象姿勢データの類似度を計算する。

具体的には、類似度計算部６４は、ビタビアルゴリズムによって、対象姿勢データに対して、各ステートの尤度が最大となる、姿勢モデルのステートの組み合わせを決定する。類似度計算部６４は、決定された各ステートの尤度に対して、平均値演算などの所定の演算を行うことにより、類似度を計算する。類似度計算部６４は、類似度を表示制御部６５に供給する。

表示制御部６５は、画像取得部６１から供給される処理対象の動画像データや、類似度計算部６４から供給される類似度などに基づいて、各種の画面を図１の出力部１７に表示させる。

なお、画像取得部６１により取得される処理対象の動画像データの数は、１つであっても、複数であってもよい。処理対象の動画像データの数が複数である場合には、処理対象の動画像データごとに類似度が求められる。

[画面の例]
図６および図７は、処理対象の動画像データの数が１つである場合の、表示制御部６５により表示される画面の例を示す図であり、図８と図９は、処理対象の動画像データの数が複数である場合の、表示制御部６５により表示される画面の例を示す図である。

図６乃至図９の例では、○×選手、○○選手、××選手、および×○選手のバッティングフォームの姿勢モデルが記憶部１８に記憶されている。

処理対象の動画像データの数が１つである場合、まず、ユーザが、入力部１６を操作することにより、処理対象の動画像データを指定すると、表示制御部６５は、図６に示すように、その動画像データに対応する画像７１と、記憶部１８に記憶されている姿勢モデルを選択するための選択欄７２を含む画面を出力部１７に表示させる。選択欄７２の右端には、姿勢モデルの選択候補を表示させるための表示ボタン７２Ａが設けられている。

このとき、ユーザは、まず、入力部１６を操作して表示ボタン７２Ａを操作することにより、図７に示すように、記憶部１８に記憶されている姿勢モデルの情報を、姿勢モデルの選択候補の情報として選択欄７２に表示させる。これにより、選択欄７２には、○×選手、○○選手、××選手、および×○選手のバッティングフォームの姿勢モデルそれぞれの情報として、「○×選手のバッティングフォーム」、「○○選手のバッティングフォーム」、「××選手のバッティングフォーム」、「×○選手のバッティングフォーム」が表示される。

次に、ユーザは、入力部１６を操作して、姿勢モデルの選択候補の情報の中から所望の姿勢モデルの情報（図７の例では、○×選手のバッティングフォーム）を選択することにより、その姿勢モデルを指定する。これにより、図７に示すように、選択欄７２内のユーザにより選択された姿勢モデルの情報が強調表示される。また、類似度計算部６４により、姿勢モデルと対象姿勢データの類似度が計算され、その類似度に基づいて、図７に示すように、類似度（図７の例では、８０％）が表示される。

これにより、ユーザは、モデルとするジェスチャと処理対象の動画像データの被写体のジェスチャとの類似度を容易に認識することができる。即ち、図６と図７の例では、ユーザは、モデルとする○×選手のバッティングフォームと、処理対象の動画像データのバッティングフォームとの類似度を容易に認識することができる。その結果、ユーザは、バッティングフォームの改善具合などを認識することができる。

一方、処理対象の動画像データの数が複数（図８および図９の例では６）である場合、まず、ユーザが、入力部１６を操作することにより、複数の処理対象の動画像データを指定すると、図８に示すように、表示制御部６５は、その動画像データに対応する複数の画像からなる画像群８１と選択欄７２を含む画面を出力部１７に表示させる。

このとき、ユーザは、図６の場合と同様に、入力部１６を操作して表示ボタン７２Ａを操作することにより、図９に示すように、選択欄７２に姿勢モデルの選択候補の情報を表示させる。

次に、ユーザは、入力部１６を操作して、その選択候補の情報の中から所望の姿勢モデルの情報（図９の例では、○×選手のバッティングフォーム）を選択することにより、その姿勢モデルを指定する。これにより、図９に示すように、選択欄７２内のユーザにより選択された姿勢モデルの情報が強調表示される。また、類似度計算部６４により、姿勢モデルと対象姿勢データの類似度が計算され、その類似度に基づいて、図９に示すように、最も高い類似度（図９の例では、８０％）と、その類似度に対応する処理対象の動画像データに基づく画像８２を含む画面を、出力部１７に表示させる。

これにより、ユーザは、モデルとするジェスチャと最も類似する処理対象の動画像データの被写体のジェスチャを容易に認識することができる。即ち、図８と図９の例では、ユーザは、モデルとする○×選手のバッティングフォームと最も類似する処理対象の動画像データのバッティングフォームを容易に認識することができる。その結果、ユーザは、どのバッティングフォームが最適なバッティングフォームであるかなどを認識することができる。

なお、図６乃至図９の画面に表示される、動画像データに対応する画像および動画像データに基づく画像は、静止画像であっても、動画像であっても、サムネイル画像であってもよい。

[類似度計算処理部の処理の説明]
図１０は、図５の類似度計算処理部６０の類似度計算処理を説明するフローチャートである。この類似度計算処理は、ユーザが入力部１６を操作することにより、処理対象の動画像データを指定したとき、開始される。

図１０のステップＳ３０において、類似度計算処理部６０の画像取得部６１は、入力部１６からのユーザにより指定された処理対象の動画像データを取得する指令に基づいて、記憶部１８から処理対象の動画像データを取得するか、または、通信部１９を介して、カメラやサーバ等の外部装置（図示せず）から処理対象の動画像データを取得する。画像取得部６１は、取得された処理対象の動画像データを姿勢推定部６３と表示制御部６５に供給する。

ステップＳ３１において、表示制御部６５は、画像取得部６１から供給される処理対象の動画像データに基づいて、その動画像データに対応する画像７１（または画像群８１）と選択欄７２を含む画面を、図１の出力部１７に表示させる。このとき、ユーザは、入力部１６を操作し、選択欄７２の右端の表示ボタン７２Ａを操作する。これにより、入力部１６は、表示ボタン７２Ａの操作を表す情報を表示制御部６５に供給する。

ステップＳ３２において、表示制御部６５は、ユーザにより表示ボタン７２Ａが操作されたかどうか、即ち入力部１６から表示ボタン７２Ａの操作を表す情報が供給されたかどうかを判定する。ステップＳ３２で表示ボタン７２Ａが操作されていないと判定された場合、表示ボタン７２Ａが操作されるまで待機する。

一方、ステップＳ３２で表示ボタン７２Ａが操作されたと判定された場合、ステップＳ３３において、表示制御部６５は、記憶部１８に記憶されている姿勢モデルの情報を、姿勢モデルの選択候補の情報として選択欄７２に表示させる。このとき、ユーザは、入力部１６を操作し、選択欄７２に表示される姿勢モデルの選択候補の情報のうちの、所望の姿勢モデルの情報を選択することにより、その姿勢モデルを指定する。これにより、入力部１６は、ユーザにより指定された姿勢モデルを読み出す指令をモデル取得部６２に供給する。

ステップＳ３４において、モデル取得部６２は、ユーザにより姿勢モデルが指定されたかどうか、即ち、入力部１６からユーザにより指定された姿勢モデルを読み出す指令が供給されたかどうかを判定する。ステップＳ３４で、まだユーザにより姿勢モデルが指定されていないと判定された場合、ユーザにより姿勢モデルが指定されるまで、待機する。

ステップＳ３４で、ユーザにより姿勢モデルが指定されたと判定された場合、ステップＳ３５において、モデル取得部６２は、記憶部１８から、ユーザにより指定された姿勢モデルを読み出す。モデル取得部６２は、読み出された姿勢モデルを類似度計算部６４に供給する。

ステップＳ３６において、姿勢推定部６３は、画像取得部６１から供給される動画像データのうちのまだ姿勢データが生成されていない動画像データから、図２の姿勢推定部４２と同様に、フレーム単位で特徴量を抽出し、その特徴量を用いて姿勢データを生成する。姿勢推定部６３は、生成された姿勢データを対象姿勢データとして類似度計算部６４に供給する。

ステップＳ３７において、類似度計算部６４は、姿勢推定部６３から供給される対象姿勢データと、モデル取得部６２から供給される姿勢モデルとに基づいて、姿勢モデルと対象姿勢データの類似度を計算する。姿勢推定部６３は、類似度を表示制御部６５に供給する。

ステップＳ３８において、姿勢推定部６３は、全ての処理対象の動画像データの類似度が計算されたかどうかを判定する。ステップＳ３８でまだ全ての処理対象の動画像データの類似度が計算されていないと判定された場合、処理はステップＳ３６に戻り、全ての処理対象の動画像データの類似度が計算されるまで、ステップＳ３６乃至Ｓ３８の処理が繰り返される。

ステップＳ３９において、表示制御部６５は、処理対象の動画像データの数が１つであるかどうかを判定する。ステップＳ３９で処理対象の動画像データの数が１つであると判定された場合、ステップＳ４０において、表示制御部６５は、姿勢推定部６３から供給される類似度を図１の出力部１７に表示させる。これにより、出力部１７には、図７の画面が表示される。

一方、ステップＳ３９で処理対象の動画像データの数が１つではないと判定された場合、即ち処理対象の動画像データの数が複数である場合、処理はステップＳ４１に進む。ステップＳ４１において、表示制御部６５は、画像取得部６１から供給される処理対象の動画像データのうち、類似度計算部６４から供給される類似度が最も大きい動画像データを選択する。

ステップＳ４２において、表示制御部６５は、ステップＳ４１で選択された動画像データに対応する画像と、対応する類似度を、図１の出力部１７に表示させる。これにより、出力部１７には、図９の画面が表示される。

以上のように、情報処理装置１０は、対象姿勢データと姿勢モデルの類似度を計算し、類似度に基づいて画面を表示させるので、モデルとするジェスチャと処理対象の動画像データの被写体のジェスチャの類似度をユーザに提示することができる。

これにより、例えば、各種のスポーツ、ダンス、車や飛行機等の運転機器の操作、クラフトワークなどの身体運動が、モデルとするジェスチャにどのくらい類似しているのかを認識し、その身体運動を修正することができる。

なお、第１実施の形態では、ユーザにより１つの姿勢モデルが指定されたが、複数の姿勢モデルが指定されるようにしてもよい。この場合、姿勢モデルごとに類似度が計算され、表示制御部６５は、類似度が最も大きい姿勢モデルの情報を、処理対象の動画像データに対応する画像と類似度の他に含める画面を表示させる。

また、第１実施の形態では、複数のモデル動画像データを用いて姿勢モデルが学習されたが、１つのモデル動画像データの姿勢データを用いて姿勢モデルが学習されるようにしてもよい。この場合、モデル動画像データの姿勢データがベクトル化され、姿勢モデルとされる。なお、複数のモデル動画像データを用いて姿勢モデルが学習される場合であっても、モデル動画像データの姿勢データをベクトル化し、その結果得られるベクトルを最適化（平均化など）して代表ベクトルを求めることにより、姿勢モデルを生成するようにしてもよい。

＜第２実施の形態＞
[情報処理システムの第１実施の形態の構成例]
図１１は、本技術を適用した情報処理システムの第１実施の形態の構成例を示すブロック図である。

図１１に示すように、情報処理システム９０は、クラウドサーバ９１と情報処理装置９２により構成される。情報処理システム９０では、情報処理装置９２ではなくクラウドサーバ９１が姿勢モデルを生成し、情報処理装置９２に送信する。

具体的には、クラウドサーバ９１は、情報処理装置１０と同様にモデル生成処理を行う。また、クラウドサーバ９１は、情報処理装置９２からの要求に応じて、記憶している所定の姿勢モデルを情報処理装置９２に送信する。

情報処理装置９２は、クラウドサーバ９１に、情報処理装置１０と同様にしてユーザにより指定された姿勢モデルの送信を要求する。情報処理装置９２は、その要求に応じてクラウドサーバ９１から送信されてくる姿勢モデルを受信する。情報処理装置９２は、受信された姿勢モデルを用いて、情報処理装置１０と同様に類似度計算処理を行う。

＜第３実施の形態＞
［情報処理装置の第２実施の形態の構成例］
図１２は、本技術を適用した情報処理装置の第２実施の形態のハードウエアの構成例を示すブロック図である。

図１２に示す構成のうち、図１の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。

図１２の情報処理装置１００の構成は、CPU１１の代わりにCPU１０１が設けられている点が図１の構成と異なる。情報処理装置１００は、ユーザが検索キーとして指定した動画像データの被写体のジェスチャを、モデルとするジェスチャとし、類似度が所定の範囲内である処理対象の動画像データを検索結果とする。

具体的には、情報処理装置１００のCPU１０１は、記憶部１８に記憶されているプログラムを、入出力インタフェース１５およびバス１４を介して、RAM１３にロードして実行することにより、各種の処理を行う。例えば、CPU１０１は、ユーザにより検索キーとして指定された動画像データの姿勢データを用いて姿勢モデルを生成するとともに、対象姿勢データを生成し、姿勢モデルと対象姿勢データの類似度が所定の範囲内である処理対象の動画像データを検索結果とする検索処理を行う。即ち、CPU１０１は、検索処理を行う検索処理部として機能する。

[検索処理部の構成例]
図１３は、検索処理部１２０の構成例を示すブロック図である。

図１３に示す構成のうち、図２や図５の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。

図１３の検索処理部１２０は、姿勢推定部４２、画像取得部６１、姿勢推定部６３、検索キー取得部１２１、モデル生成部１２２、類似度計算部１２３、および表示制御部１２４より構成される。

検索処理部１２０の検索キー取得部１２１は、ユーザの入力部１６に対する操作に応じた入力部１６からの指令に基づいて、記憶部１８から動画像データを読み出すか、または、通信部１９を介して、カメラやサーバ等の外部装置（図示せず）から動画像データを取得する。

具体的には、ユーザは、入力部１６を操作し、検索キーとするジェスチャを行う被写体の動画像データを、モデル動画像データとして指定する。入力部１６は、この操作に応じて、モデル動画像データを取得する指令を検索キー取得部１２１に供給する。検索キー取得部１２１は、その指令に基づいて、モデル動画像データを記憶部１８または外部装置から取得する。検索キー取得部１２１は、取得されたモデル動画像データを姿勢推定部４２に供給する。

モデル生成部１２２は、姿勢推定部４２から供給されるモデル動画像データの姿勢データを用いて、姿勢データをベクトル化する。モデル生成部１２２は、その結果得られる姿勢データのベクトルを姿勢モデルとして類似度計算部１２３に供給する。

類似度計算部１２３は、姿勢推定部６３から供給される対象姿勢データをベクトル化する。類似度計算部１２３は、その結果得られる対象姿勢データのベクトルと、モデル取得部６２から供給される姿勢モデルとの距離を算出し、その距離に基づいて姿勢モデルと対象姿勢データの類似度を計算する。類似度計算部１２３は、計算された類似度を表示制御部１２４に供給する。

表示制御部１２４は、画像取得部６１から供給される処理対象の動画像データや、類似度計算部１２３から供給される類似度などに基づいて、各種の画面を図１２の出力部１７に表示させる。例えば、表示制御部１２４は、処理対象の動画像データのうち、類似度が所定の範囲内である動画像データに対応する画像を検索結果として表示する画面を出力部１７に表示させる。

[画面の例]
図１４乃至図１７は、図１３の表示制御部１２４により表示される画面の例を示す図である。

まず、ユーザが、入力部１６を操作することにより、処理対象の動画像データを指定すると、図１４に示すように、表示制御部１２４は、その動画像データに対応する画像１４２−１乃至１４２−３と、検索キーとするジェスチャの動画像データのファイルを入力する入力欄１４１を表示させる。入力欄１４１の右端には、検索キーとするジェスチャの動画像データのファイルの入力を支援する参照ボタン１４１Ａが設けられている。

ユーザが、入力部１６を操作することにより、参照ボタン１４１Ａを操作すると、図１５に示すように、表示制御部１２４は、フォルダ選択欄１６１、ファイル表示部１６２、ファイル名入力欄１６３、開くボタン１６４、およびキャンセルボタン１６５を含む画面を表示させる。

フォルダ選択欄１６１には、最初に、所定のフォルダ名（図１５の例では、「写真」）が表示される。フォルダ選択欄１６１の右端には、選択候補のフォルダのフォルダ名を表示させるための表示ボタン１６１Ａが設けられている。

ユーザは、フォルダ選択欄１６１に表示されているフォルダ名のフォルダ以外のフォルダ内のファイルの動画像データを検索キーとしたい場合、入力部１６を操作して表示ボタン１６１Ａを操作することにより、フォルダ選択欄１６１に選択候補のフォルダのフォルダ名を表示させる。そして、ユーザは、入力部１６を操作して、そのフォルダ名の中から、検索キーとするジェスチャの動画像データのファイルを含むフォルダのフォルダ名を選択する。これにより、フォルダ選択欄１６１には、ユーザにより選択されたフォルダ名が表示される。

ファイル表示部１６２には、フォルダ選択欄１６１に表示されるフォルダ名のフォルダに含まれるファイルの動画像データを表す情報が表示される。図１５の例では、動画像データを表す情報として、動画像データのサムネイル画像が表示されている。このとき、ユーザは、入力部１６を操作して、ファイル表示部１６２に表示されている情報のうちの、検索キーとするジェスチャの動画像データのファイルの情報を選択する。これにより、図１５に示すように、選択された情報は、例えば、強調表示される。

ファイル名入力欄１６３には、ファイル表示部１６２においてユーザにより選択された情報に対応するファイルのファイル名が表示される。

開くボタン１６４は、ファイル名入力欄１６３に表示されているファイル名のファイルを、入力欄１４１に入力するとき操作されるボタンである。従って、ユーザが、入力部１６を操作して開くボタン１６４を操作すると、図１６に示すように、入力欄１４１にファイル名入力欄１６３に表示されているファイル名が表示され、入力欄１４１の右端に、参照ボタン１４１Ａの代わりに検索を開始するための検索ボタン１８１が表示される。

このとき、ユーザは入力部１６を操作して検索ボタン１８１を操作することにより、入力欄１４１に表示されているファイル名のファイルの動画像データを、モデル動画像データとして指定する。これにより、モデル動画像データと処理対象の動画像データの類似度が計算され、図１７に示すように、その類似度が所定の範囲内である処理対象の動画像データに対応する画像が、類似度が大きい順に検索結果として表示される。図１７の例では、画像１４２−１乃至１４２−３のうちの、画像１４２−２と画像１４２−３が、画像１４２−３、画像１４２−２の順に表示されている。

以上のように、ユーザは、所望のジェスチャを行う被写体の動画像データのファイルを、検索キーとするジェスチャの動画像データのファイルとして入力することにより、そのジェスチャと類似するジェスチャを行う被写体の動画像データを検索することができる。即ち、図１４乃至図１７の例では、ユーザは、所望の振り付けのダンスを行う被写体の動画像データのファイルを、検索キーとするジェスチャの動画像データのファイルとして入力しているため、そのダンスと類似するダンスを行う被写体の動画像データを検索することができる。

一方、図１５のキャンセルボタン１６５は、検索キーとするジェスチャの動画像データのファイルの入力を中断するとき操作されるボタンである。従って、ユーザが、入力部１６を操作してキャンセルボタン１６５を操作すると、図１４の画面が再度表示される。

[検索処理部の処理の説明]
図１８は、図１３の検索処理部１２０の検索処理を説明するフローチャートである。この検索処理は、ユーザが入力部１６を操作することにより、処理対象の動画像データを指定したとき、開始される。

ステップＳ５１において、検索処理部１２０の画像取得部６１は、入力部１６からのユーザにより指定された処理対象の動画像データを取得する指令に基づいて、記憶部１８から処理対象の動画像データを取得するか、または、通信部１９を介して、カメラやサーバ等の外部装置（図示せず）から動画像データを取得する。画像取得部６１は、取得された処理対象の動画像データを姿勢推定部６３と表示制御部１２４に供給する。

ステップＳ５２において、表示制御部１２４は、画像取得部６１から供給される処理対象の動画像データに基づいて、処理対象の動画像データに対応する画像１４２−１乃至１４２−３と入力欄１４１を含む図１４の画面を表示させる。

このとき、ユーザは、入力部１６を操作することにより、参照ボタン１４１Ａを操作し、フォルダ選択欄１６１、ファイル表示部１６２、ファイル名入力欄１６３、開くボタン１６４、およびキャンセルボタン１６５を含む図１５の画面を表示させる。そして、ユーザは、必要に応じて表示ボタン１６１Ａを操作することによりフォルダ選択欄１６１に表示されるフォルダ名を変更する。

また、ユーザは、入力部１６を操作することにより、ファイル表示部１６２に表示される動画像データを表す情報のうちの、検索キーとするジェスチャの動画像データのファイルの情報を選択する。そして、ユーザは、入力部１６を操作することにより、開くボタン１６４を操作し、検索キーとするジェスチャの動画像データのファイルを入力欄１４１に入力する。

これにより、表示制御部１２４は、図１６に示したように、ユーザにより入力された検索キーとするジェスチャの動画像データのファイルのファイル名を入力欄１４１に表示させるとともに、参照ボタン１４１Ａの代わりに検索ボタン１８１を表示させる。このとき、ユーザは、入力部１６を操作することにより、検索ボタン１８１を操作する。入力部１６は、この操作に応じて、ユーザにより入力されたファイルの動画像データをモデル動画像データとして取得する指令を検索キー取得部１２１に供給する。

ステップＳ５３において、検索キー取得部１２１は、検索ボタン１８１が操作されたかどうか、即ち入力部１６からモデル動画像データを取得する指令が供給されたかどうかを判定する。ステップＳ５３で検索ボタン１８１が操作されていないと判定された場合、検索ボタン１８１が操作されるまで待機する。

一方、ステップＳ５３で検索ボタン１８１が操作されたと判定された場合、処理はステップＳ５４に進む。ステップＳ５４において、検索キー取得部１２１は、ユーザにより入力されたファイルの動画像データを、モデル動画像データとして、記憶部１８から取得するか、または、通信部１９を介して、カメラやサーバ等の外部装置（図示せず）から取得する。検索キー取得部１２１は、取得されたモデル動画像データを姿勢推定部４２に供給する。

ステップＳ５５において、姿勢推定部４２は、検索キー取得部１２１から供給される動画像データから、フレーム単位で被写体の姿勢の特徴量を抽出し、その特徴量を用いて姿勢データを生成する。姿勢推定部４２は、モデル動画像データの姿勢データをモデル生成部１２２に供給する。

ステップＳ５６において、モデル生成部１２２は、姿勢推定部４２から供給されるモデル動画像データの姿勢データを用いて姿勢データをベクトル化し、その結果得られる姿勢データのベクトルを姿勢モデルとして学習する。モデル生成部１２２は、姿勢モデルを類似度計算部１２３に供給する。

ステップＳ５７において、姿勢推定部６３は、画像取得部６１から供給される処理対象の動画像データのうちの、まだ姿勢データが生成されていない動画像データから、姿勢推定部４２と同様に、対象姿勢データを生成する。姿勢推定部６３は、生成された対象姿勢データを類似度計算部１２３に供給する。

ステップＳ５８において、類似度計算部１２３は、対象姿勢データと姿勢モデルの類似度を計算する。具体的には、類似度計算部１２３は、姿勢推定部６３から供給される対象姿勢データをベクトル化し、その結果得られる対象姿勢データのベクトルと、モデル取得部６２から供給される姿勢モデルとの距離を算出する。そして、類似度計算部１２３は、その距離に基づいて姿勢モデルと対象姿勢データの類似度を計算する。類似度計算部１２３は、計算された類似度を表示制御部１２４に供給する。

ステップＳ５９において、類似度計算部１２３は、全ての処理対象の動画像データの類似度が計算されたかどうかを判定する。ステップＳ５９でまだ全ての処理対象の動画像データの類似度が計算されていないと判定された場合、処理はステップＳ５７に戻り、全ての処理対象の動画像データの類似度が計算されるまで、ステップＳ５７乃至Ｓ５９の処理が行われる。

ステップＳ５９で全ての処理対象の動画像データの類似度が計算されたと判定された場合、処理はステップＳ６０に進む。ステップＳ６０において、表示制御部１２４は、図１７に示すように、処理対象の動画像データのうちの、類似度が所定の範囲内である動画像データに対応する画像を、検索結果として、類似度の大きい順に表示させる。

以上のように、情報処理装置１００は、対象姿勢データと、検索キーとするジェスチャの動画像データをモデル動画像データとしたときの姿勢モデルの類似度を計算し、類似度に基づいて、類似度が所定の範囲内である動画像データに対応する画像を、検索結果として、類似度が大きい順に表示する。従って、ユーザは、所望のジェスチャを検索キーとした検索を行うことができる。その結果、例えば、ダンスの振り付け、映画の特定シーンにおける俳優の動き、子どもの仕草などの文章で表現することが難しいジェスチャを検索キーとした検索を行うことができる。

なお、第３実施の形態では、ユーザにより１つのモデル動画像データが指定されたが、複数のモデル動画像データが指定されるようにしてもよい。この場合、複数のモデル動画像データの姿勢データがベクトル化され、その結果得られる姿勢データのベクトルが最適化されることにより、姿勢モデルが生成される。なお、この場合、第１および第２実施の形態と同様に、HMMにより姿勢モデルが生成されるようにしてもよい。

＜第４実施の形態＞
[情報処理システムの第２実施の形態の構成例]
図１９は、本技術を適用した情報処理システムの第２実施の形態の構成例を示すブロック図である。

図１９に示すように、情報処理システム２００は、クラウドサーバ２０１と情報処理装置２０２により構成される。情報処理システム２００では、情報処理装置２０２ではなくクラウドサーバ２０１が対象姿勢データを生成し、情報処理装置２０２に送信する。

具体的には、クラウドサーバ２０１は、情報処理装置２０２からの要求に応じて、情報処理装置１００と同様にして処理対象の動画像データを取得し、対象姿勢データを生成する。そして、クラウドサーバ２０１は、対象姿勢データを情報処理装置２０２に送信する。

情報処理装置２０２は、情報処理装置１００と同様にしてユーザにより指定された処理対象の動画像データの姿勢データである対象姿勢データの送信を、クラウドサーバ２０１に要求する。情報処理装置２０２は、その要求に応じてクラウドサーバ２０１から送信されてくる対象姿勢データを受信する。情報処理装置２０２は、情報処理装置１００と同様に、姿勢モデルを生成して、受信された対象姿勢データと姿勢モデルの類似度を計算し、類似度に基づいて画面を表示する。

なお、第１乃至第４実施の形態では、対象姿勢データと姿勢モデルの類似度が計算されたが、対象姿勢データのうちの、特徴的なフレーム（例えば、関節の動きが大きいフレーム）の特徴量と姿勢モデルの類似度が計算されるようにしてもよい。

また、本明細書において、プログラム記録媒体に格納されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

さらに、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、情報処理システム９０において、クラウドサーバ９１が、類似度を計算するようにしてもよい。この場合、情報処理装置９２が、情報処理装置１０と同様にしてユーザにより指定された姿勢モデルをクラウドサーバ９１に通知し、情報処理装置１０と同様に対象姿勢データを生成してクラウドサーバ９１に送信する。クラウドサーバ９１は、情報処理装置１０と同様にモデル生成処理を行うことにより得られる姿勢モデルのうちの、ユーザにより指定された姿勢モデルと、情報処理装置９２から送信されてくる対象姿勢データとに基づいて類似度を計算し、情報処理装置９２に送信する。情報処理装置９２は、クラウドサーバ９１から送信されてきた類似度に基づいて、情報処理装置１０と同様に画面を表示させる。

また、情報処理システム２００においても、クラウドサーバ２０１が、類似度を計算するようにしてもよい。この場合、情報処理装置２０２が、情報処理装置１００と同様にしてユーザにより指定された処理対象の動画像データをクラウドサーバ２０１に通知し、情報処理装置１００と同様に姿勢モデルを生成してクラウドサーバ２０１に送信する。クラウドサーバ２０１は、情報処理装置１００と同様に、ユーザにより指定された処理対象の動画像データの姿勢データである対象姿勢データを生成する。そして、クラウドサーバ２０１は、生成された対象姿勢データと、情報処理装置２０２から送信されてくる姿勢モデルとに基づいて類似度を計算し、情報処理装置２０２に送信する。情報処理装置２０２は、クラウドサーバ２０１から送信されてきた類似度に基づいて、情報処理装置１００と同様に画面を表示させる。

さらに、本技術は、以下のような構成もとることができる。

（１）
モデルとするジェスチャにおける時系列の姿勢を表す姿勢モデルと、動画像データの被写体の時系列の姿勢を表す姿勢データである対象姿勢データとに基づいて、前記姿勢モデルと前記対象姿勢データの類似度を計算する類似度計算部と、
前記類似度計算部により計算された前記類似度に基づいて、画面を表示部に表示させる表示制御部と
を備える情報処理装置。
（２）
前記表示制御部は、前記類似度と前記動画像データに対応する画像を含む前記画面を表示部に表示させる
前記（１）に記載の情報処理装置。
（３）
前記類似度計算部は、前記姿勢モデルと、複数の前記動画像データの前記対象姿勢データとに基づいて、前記動画像データごとに前記類似度を計算し、
前記表示制御部は、前記複数の動画像データの前記類似度のうちの最も大きい類似度に対応する動画像データに基づく画像を含む前記画面を、前記表示部に表示させる
前記（１）に記載の情報処理装置。
（４）
前記類似度計算部は、前記姿勢モデルと、複数の前記動画像データの前記対象姿勢データとに基づいて、前記動画像データごとに前記類似度を計算し、
前記表示制御部は、前記類似度が所定の範囲である動画像データに対応する画像を含む前記画面を、前記表示部に表示させる
前記（１）に記載の情報処理装置。
（５）
前記モデルとするジェスチャを行う被写体の動画像データから、前記姿勢モデルを生成するモデル生成部
をさらに備え、
前記類似度計算部は、前記モデル生成部により生成された前記姿勢モデルと、前記対象姿勢データとに基づいて、前記類似度を計算する
前記（１）乃至（４）のいずれかに記載の情報処理装置。
（６）
前記モデル生成部は、前記モデルとするジェスチャを行う被写体の複数の動画像データの姿勢データを用いて、前記モデルとするジェスチャにおける時系列の姿勢をモデル化することにより、前記姿勢モデルを生成する
前記（５）に記載の情報処理装置。
（７）
前記モデル生成部は、前記モデルとするジェスチャを行う被写体の少なくとも１つの動画像データの姿勢データをベクトル化し、その結果得られる前記姿勢データのベクトルを最適化することにより、前記姿勢モデルを生成する
前記（５）に記載の情報処理装置。
（８）
前記動画像データから前記対象姿勢データを生成する姿勢推定部
をさらに備え、
前記類似度計算部は、前記姿勢モデルと、前記姿勢推定部により生成された前記対象姿勢データとに基づいて、前記類似度を計算する
前記（１）乃至（７）のいずれかに記載の情報処理装置。
（９）
情報処理装置が、
モデルとするジェスチャにおける時系列の姿勢を表す姿勢モデルと、動画像データの被写体の時系列の姿勢を表す姿勢データである対象姿勢データとに基づいて、前記姿勢モデルと前記対象姿勢データの類似度を計算する類似度計算ステップと、
前記類似度計算ステップの処理により計算された前記類似度に基づいて、画面を表示部に表示させる表示制御ステップと
を含む情報処理方法。
（１０）
モデルとするジェスチャを行う被写体の動画像データから、そのジェスチャにおける時系列の姿勢を表す姿勢モデルを生成するモデル生成部と、
前記姿勢モデルを送信する送信部と
を有する第１の情報処理装置と、
前記送信部により送信されてくる前記姿勢モデルを受信する受信部と、
動画像データから被写体の時系列の姿勢を表す姿勢データを対象姿勢データとして生成する姿勢推定部と、
前記受信部により受信された前記姿勢モデルと、前記姿勢推定部により生成された前記対象姿勢データとに基づいて、前記姿勢モデルと前記対象姿勢データの類似度を計算する類似度計算部と、
前記類似度計算部により計算された前記類似度に基づいて、画面を表示部に表示させる表示制御部と
を有する第２の情報処理装置と
を備える情報処理システム。
（１１）
動画像データから被写体の時系列の姿勢を表す姿勢データを対象姿勢データとして生成する姿勢推定部と、
前記姿勢推定部により生成された前記対象姿勢データを送信する送信部と
を有する第１の情報処理装置と、
前記送信部により送信されてくる前記対象姿勢データを受信する受信部と、
モデルとするジェスチャを行う被写体の動画像データから、そのジェスチャにおける時系列の姿勢を表す姿勢モデルを生成するモデル生成部と、
前記受信部により受信された対象姿勢データと、前記モデル生成部により生成された前記姿勢モデルとに基づいて、前記姿勢モデルと前記対象姿勢データの類似度を計算する類似度計算部と、
前記類似度計算部により計算された前記類似度に基づいて、画面を表示部に表示させる表示制御部と
を有する第２の情報処理装置と
を備える情報処理システム。
（１２）
モデルとするジェスチャを行う被写体の動画像データから、そのジェスチャにおける時系列の姿勢を表す姿勢モデルを生成するモデル生成部と、
動画像データから生成された被写体の時系列の姿勢を表す姿勢データを対象姿勢データとして受信する姿勢受信部と、
前記モデル生成部により生成された前記姿勢モデルと、前記姿勢受信部により受信された前記対象姿勢データとに基づいて、前記姿勢モデルと前記対象姿勢データの類似度を計算する類似度計算部と、
前記類似度計算部により計算された前記類似度を送信する類似度送信部と
を有する第１の情報処理装置と、
前記動画像データから前記対象姿勢データを生成する姿勢推定部と、
前記姿勢推定部により生成された前記対象姿勢データを送信する姿勢送信部と、
前記類似度送信部により送信されてくる前記類似度を受信する類似度受信部と、
前記類似度受信部により受信された前記類似度に基づいて、画面を表示部に表示させる表示制御部と
を有する第２の情報処理装置と
を備える情報処理システム。
（１３）
動画像データから被写体の時系列の姿勢を表す姿勢データを対象姿勢データとして生成する姿勢推定部と、
モデルとするジェスチャを行う被写体の動画像データから生成された、そのジェスチャにおける時系列の姿勢を表す姿勢モデルを受信するモデル受信部と、
前記姿勢推定部により生成された対象姿勢データと、前記モデル受信部により生成された前記姿勢モデルとに基づいて、前記姿勢モデルと前記対象姿勢データの類似度を計算する類似度計算部と、
前記類似度計算部により計算された前記類似度を送信する類似度送信部と
を有する第１の情報処理装置と、
前記モデルとするジェスチャを行う被写体の動画像データから前記姿勢モデルを生成するモデル生成部と、
前記モデル生成部により生成された前記姿勢モデルを送信するモデル送信部と、
前記類似度送信部により送信されてくる前記類似度を受信する類似度受信部と、
前記類似度受信部により受信された前記類似度に基づいて、画面を表示部に表示させる表示制御部と
を有する第２の情報処理装置と
を備える情報処理システム。

１０情報処理装置，１１ CPU，４３モデル生成部，６３姿勢推定部，６４類似度計算部，６５表示制御部，９０情報処理システム，９１クラウドサーバ，９２情報処理装置，１００情報処理装置，１０１ CPU，１２２モデル生成部，１２３類似度計算部，１２４表示制御部，２００情報処理システム，２０１クラウドサーバ，２０２情報処理装置

Claims

モデルとするジェスチャにおける時系列の姿勢を表す姿勢モデルと、動画像データの被写体の時系列の姿勢を表す姿勢データである対象姿勢データとに基づいて、前記姿勢モデルと前記対象姿勢データの類似度を計算する類似度計算部と、
前記類似度計算部により計算された前記類似度に基づいて、画面を表示部に表示させる表示制御部と
を備える情報処理装置。
前記表示制御部は、前記類似度と前記動画像データに対応する画像を含む前記画面を表示部に表示させる
請求項１に記載の情報処理装置。
前記類似度計算部は、前記姿勢モデルと、複数の前記動画像データの前記対象姿勢データとに基づいて、前記動画像データごとに前記類似度を計算し、
前記表示制御部は、前記複数の動画像データの前記類似度のうちの最も大きい類似度に対応する動画像データに基づく画像を含む前記画面を、前記表示部に表示させる
請求項１に記載の情報処理装置。
前記類似度計算部は、前記姿勢モデルと、複数の前記動画像データの前記対象姿勢データとに基づいて、前記動画像データごとに前記類似度を計算し、
前記表示制御部は、前記類似度が所定の範囲である動画像データに対応する画像を含む前記画面を、前記表示部に表示させる
請求項１に記載の情報処理装置。
前記モデルとするジェスチャを行う被写体の動画像データから、前記姿勢モデルを生成するモデル生成部
をさらに備え、
前記類似度計算部は、前記モデル生成部により生成された前記姿勢モデルと、前記対象姿勢データとに基づいて、前記類似度を計算する
請求項１に記載の情報処理装置。
前記モデル生成部は、前記モデルとするジェスチャを行う被写体の複数の動画像データの姿勢データを用いて、前記モデルとするジェスチャにおける時系列の姿勢をモデル化することにより、前記姿勢モデルを生成する
請求項５に記載の情報処理装置。
前記モデル生成部は、前記モデルとするジェスチャを行う被写体の少なくとも１つの動画像データの姿勢データをベクトル化し、その結果得られる前記姿勢データのベクトルを最適化することにより、前記姿勢モデルを生成する
請求項５に記載の情報処理装置。
前記動画像データから前記対象姿勢データを生成する姿勢推定部
をさらに備え、
前記類似度計算部は、前記姿勢モデルと、前記姿勢推定部により生成された前記対象姿勢データとに基づいて、前記類似度を計算する
請求項１に記載の情報処理装置。
情報処理装置が、
モデルとするジェスチャにおける時系列の姿勢を表す姿勢モデルと、動画像データの被写体の時系列の姿勢を表す姿勢データである対象姿勢データとに基づいて、前記姿勢モデルと前記対象姿勢データの類似度を計算する類似度計算ステップと、
前記類似度計算ステップの処理により計算された前記類似度に基づいて、画面を表示部に表示させる表示制御ステップと
を含む情報処理方法。
モデルとするジェスチャを行う被写体の動画像データから、そのジェスチャにおける時系列の姿勢を表す姿勢モデルを生成するモデル生成部と、
前記姿勢モデルを送信する送信部と
を有する第１の情報処理装置と、
前記送信部により送信されてくる前記姿勢モデルを受信する受信部と、
動画像データから被写体の時系列の姿勢を表す姿勢データを対象姿勢データとして生成する姿勢推定部と、
前記受信部により受信された前記姿勢モデルと、前記姿勢推定部により生成された前記対象姿勢データとに基づいて、前記姿勢モデルと前記対象姿勢データの類似度を計算する類似度計算部と、
前記類似度計算部により計算された前記類似度に基づいて、画面を表示部に表示させる表示制御部と
を有する第２の情報処理装置と
を備える情報処理システム。
動画像データから被写体の時系列の姿勢を表す姿勢データを対象姿勢データとして生成する姿勢推定部と、
前記姿勢推定部により生成された前記対象姿勢データを送信する送信部と
を有する第１の情報処理装置と、
前記送信部により送信されてくる前記対象姿勢データを受信する受信部と、
モデルとするジェスチャを行う被写体の動画像データから、そのジェスチャにおける時系列の姿勢を表す姿勢モデルを生成するモデル生成部と、
前記受信部により受信された対象姿勢データと、前記モデル生成部により生成された前記姿勢モデルとに基づいて、前記姿勢モデルと前記対象姿勢データの類似度を計算する類似度計算部と、
前記類似度計算部により計算された前記類似度に基づいて、画面を表示部に表示させる表示制御部と
を有する第２の情報処理装置と
を備える情報処理システム。
モデルとするジェスチャを行う被写体の動画像データから、そのジェスチャにおける時系列の姿勢を表す姿勢モデルを生成するモデル生成部と、
動画像データから生成された被写体の時系列の姿勢を表す姿勢データを対象姿勢データとして受信する姿勢受信部と、
前記モデル生成部により生成された前記姿勢モデルと、前記姿勢受信部により受信された前記対象姿勢データとに基づいて、前記姿勢モデルと前記対象姿勢データの類似度を計算する類似度計算部と、
前記類似度計算部により計算された前記類似度を送信する類似度送信部と
を有する第１の情報処理装置と、
前記動画像データから前記対象姿勢データを生成する姿勢推定部と、
前記姿勢推定部により生成された前記対象姿勢データを送信する姿勢送信部と、
前記類似度送信部により送信されてくる前記類似度を受信する類似度受信部と、
前記類似度受信部により受信された前記類似度に基づいて、画面を表示部に表示させる表示制御部と
を有する第２の情報処理装置と
を備える情報処理システム。
動画像データから被写体の時系列の姿勢を表す姿勢データを対象姿勢データとして生成する姿勢推定部と、
モデルとするジェスチャを行う被写体の動画像データから生成された、そのジェスチャにおける時系列の姿勢を表す姿勢モデルを受信するモデル受信部と、
前記姿勢推定部により生成された対象姿勢データと、前記モデル受信部により生成された前記姿勢モデルとに基づいて、前記姿勢モデルと前記対象姿勢データの類似度を計算する類似度計算部と、
前記類似度計算部により計算された前記類似度を送信する類似度送信部と
を有する第１の情報処理装置と、
前記モデルとするジェスチャを行う被写体の動画像データから前記姿勢モデルを生成するモデル生成部と、
前記モデル生成部により生成された前記姿勢モデルを送信するモデル送信部と、
前記類似度送信部により送信されてくる前記類似度を受信する類似度受信部と、
前記類似度受信部により受信された前記類似度に基づいて、画面を表示部に表示させる表示制御部と
を有する第２の情報処理装置と
を備える情報処理システム。