JP7843583B2

JP7843583B2 - 動き評価システム、動き評価方法

Info

Publication number: JP7843583B2
Application number: JP2025012177A
Authority: JP
Inventors: 勝彰上田; 一精藤本; 靖一郎三浦; サンドゥンサンパスヴィタラナ
Original assignee: Individual
Current assignee: Individual
Priority date: 2024-05-23
Filing date: 2025-01-28
Publication date: 2026-04-10
Anticipated expiration: 2045-01-28
Also published as: JP2025177220A; JP2025178093A; JP7654344B1

Description

本発明は、被写体の動き、特に二つの被写体間の動きの類似度を評価する動き評価システム、及び動き評価方法に関する。

全身運動を伴うダンスが、心肺機能の改善や筋力・バランス感覚の向上に寄与することが知られている。生活習慣にダンスを取り込むことで、例えば高齢者の転倒や怪我のリスクを減らすことが期待される。またダンスの新しいステップを習得することや音楽のリズムに合わせて体を動かすことで、発達障害のある子供や高齢者の空間認識力、記憶力、注意力等が高められることも期待される。

ダンスのレッスンにおいて、生徒は指導者のステップ等を模倣することで徐々に動きを習得していく。この過程において、指導者と生徒との動きの類似度（一致度）を評価し、指導に反映することで、生徒のダンスのパフォーマンスを向上させ、更に運動機能等の更なる改善を図ることが可能である。また、リハビリテーションにダンスを取り入れ、医師や理学療法士等と被介護者との動きの類似度を評価し、負荷の与え方といった介護計画等に反映することで、より効率的にリハビリテーションを進めることが可能だと考えられる。

画像に写った被写体の類似性を評価する技術として、例えば、少なくとも第１被写体を含む環境を捉えるデジタル画像を取得するステップと、第１被写体を写すデジタル画像の第１の部分を複数のスーパーピクセルにセグメント化するステップと、複数のスーパーピクセルのそれぞれについて、スーパーピクセルに意味ラベルを割り当てるステップと、スーパーピクセルの特徴を抽出するステップと、スーパーピクセルから抽出された特徴と、基準デジタル画像内で特定された基準スーパーピクセルから抽出された特徴との間の類似性の指標を決定するステップであって、基準スーパーピクセルに、スーパーピクセルに割り当てられた意味ラベルと合致する基準意味ラベルを与えるステップと、複数のスーパーピクセルに関連付けられた複数の類似性の指標に基づいて、第１被写体が基準画像内に写っていることを決定するステップとを含む方法が知られている。（特許文献１）

特許文献１によれば、複数のスーパーピクセルに関連付けられた複数の類似性の指標に基づいて、第１被写体が基準画像内に写っていることが決定され得るとしている。

特表第２０２１－５３１５３９号公報

しかしながら、特許文献１で開示された技術は、デジタル画像内の人物を識別することを対象とし、衣服、アクセサリ、髪、顔等の特徴を組み合わせてデジタル画像内の人物を識別することを可能としているが、音情報に合わせて変位する二つの被写体間の動きの類似度を評価することは示唆されていない。

本発明は、このような従来技術の課題を解決するべく案出されたものであり、その目的は、音情報に合わせて変位する二つの被写体間あるいは計測対象間の動きの類似度を簡易かつ精度よく評価することが可能な、動き評価システム及び動き評価方法を提供することにある。

前記課題を解決するためになされた本発明は、第１被写体と第２被写体とを撮影する撮像部と、制御部と、を備え、前記制御部は、前記撮像部の出力に基づいて、前記第１被写体と前記第２被写体とについて、それぞれの動きを代表する少なくとも一つの代表動き情報を時系列に算出し、更に、それぞれの前記代表動き情報を、時間軸を含まない座標空間に画素としてプロットした第１動き情報画像と第２動き情報画像とを生成し、前記第１動き情報画像と前記第２動き情報画像とに基づいて、前記第１被写体と前記第２被写体との動きの類似度を導出する動き評価システムである。これによって、各被写体の動きを代表する代表動き情報を画像として表現し、画像間の差異に基づき簡易に類似度を導出することが可能となる。

また、本発明は、第１計測対象と第２計測対象との動きを検出する動き検出部と、制御部と、を備え、前記制御部は、前記動き検出部の出力に基づいて、前記第１計測対象と前記第２計測対象とについて、それぞれの動きを代表する少なくとも一つの代表動き情報を時系列に算出し、更に、それぞれの前記代表動き情報を、時間軸を含まない座標空間に画素としてプロットした第１動き情報画像と第２動き情報画像とを生成し、前記第１動き情報画像と前記第２動き情報画像とに基づいて、前記第１計測対象と前記第２計測対象との動きの類似度を導出する動き評価システムである。これによって、各計測対象の動きを代表する代表動き情報を画像として表現し、画像間の差異に基づき簡易に類似度を導出することが可能となる。

また、本発明は、前記代表動き情報を、位置情報、速度情報、加速度情報のいずれかとしたものである。これによって、位置情報のみならず、速度情報、加速度情報を用いて、より詳細に第１被写体と第２被写体との動きの類似度を評価することが可能となる。

また、本発明は、前記第１動き情報画像と前記第２動き情報画像とにおいて、前記代表動き情報を、１画素サイズを超える所定のサイズのオブジェクトとして描画するものである。これによって、代表位置情報の個数が少ない場合であっても、類似度を適正に取得することが可能となる。

また、本発明は、前記制御部は、前記第１動き情報画像と前記第２動き情報画像とに基づき、前記類似度として構造的類似性（ＳＳＩＭ）指数を算出するものである。これによって、人間の視覚システムの特性を加味して類似度を導出することが可能となる。

また、本発明は、第１被写体と第２被写体とを撮影し、前記第１被写体と前記第２被写体とについて、それぞれの動きを代表する少なくとも一つの代表動き情報を時系列に算出し、更に、それぞれの前記代表動き情報を、時間軸を含まない座標空間に画素としてプロットした第１動き情報画像と第２動き情報画像とを生成し、前記第１動き情報画像と前記第２動き情報画像とに基づいて、前記第１被写体と前記第２被写体との動きの類似度を導出する動き評価方法である。これによって、各被写体の動きを代表する代表動き情報を画像として表現し、画像間の差異に基づき簡易に類似度を導出することが可能となる。

また、本発明は、第１計測対象と第２計測対象との動きを検出し、前記第１計測対象と前記第２計測対象とについて、それぞれの動きを代表する少なくとも一つの代表動き情報を時系列に算出し、更に、それぞれの前記代表動き情報を、時間軸を含まない座標空間に画素としてプロットした第１動き情報画像と第２動き情報画像とを生成し、前記第１動き情報画像と前記第２動き情報画像とに基づいて、前記第１計測対象と前記第２計測対象との動きの類似度を導出する動き評価方法である。これによって、各計測対象の動きを代表する代表動き情報を画像として表現し、画像間の差異に基づき簡易に類似度を導出することが可能となる。

また、本発明は、音情報を出力する音情報出力部と、前記音情報に基づいて変位する第１被写体と第２被写体とを撮影する撮像部と、制御部と、を備え、前記制御部は、前記音情報から抽出された所定のタイミングに基づいて、前記撮像部の出力から前記第１被写体と前記第２被写体とについて、それぞれの位置情報を代表する少なくとも一つの代表位置情報を算出し、前記第１被写体と前記第２被写体との前記代表位置情報の初期値を一致させるキャリブレーションを実行し、前記第１被写体と前記第２被写体との前記代表位置情報から抽出された動き情報の時系列の変化に基づき、前記第１被写体と前記第２被写体との動きの類似度を導出する動き評価システムである。これによって、第１被写体と第２被写体とでダンス（動作、動き）を開始する位置が異なっていても、あるいは画像内の位置が異なっていても、高精度に動きの評価を行うことが可能となる。

また、本発明は、前記制御部は、前記第１被写体と前記第２被写体とが同一の姿勢をとった際の、前記第１被写体と前記第２被写体との高さ方向または幅方向のサイズに基づき、前記第１被写体と前記第２被写体とのサイズを一致させる補正係数を予め算出し、前記補正係数を用いて前記第１被写体あるいは前記第２被写体の前記代表位置情報を補正するものである。これによって、第１被写体と第２被写体とのサイズが異なっていても、高精度に動きの評価を行うことが可能となる。

また、本発明は、前記制御部は、前記音情報に含まれるビートあるいはリズムを検出し、検出された前記ビートあるいは前記リズムに基づくタイミングに時間的に前後する前記代表位置情報のピーク値を、前記動き情報として抽出するものである。これによって、意図的にビートのタイミングを外すような被写体の動きに対しても、的確に動き情報を取得することが可能となる。

また、本発明は、前記音情報は音楽であって、前記制御部は、前記音情報の音圧の変化に基づいて、所定の前記タイミングを決定するものである。これによって、音楽に合わせてダンスを演じる第１被写体と第２被写体とで、動き情報を取得するタイミングを統一することが可能となる。

また、本発明は、前記制御部は、前記音情報の音圧が所定の値を越えた場合、あるいは前記音情報の音圧の変化が所定の値を越えた場合を所定の前記タイミングとするものである。これによって、簡易に動き情報を取得するタイミングを得ることができる。

また、本発明は、音情報に基づいて変位する第１被写体と第２被写体とを撮影し、前記音情報から抽出された所定のタイミングに基づいて、前記第１被写体と前記第２被写体とについて、それぞれの位置情報を代表する少なくとも一つの代表位置情報を算出し、前記第１被写体と前記第２被写体との前記代表位置情報の初期値を一致させるキャリブレーションを実行し、前記第１被写体と前記第２被写体との前記代表位置情報から抽出された動き情報の時系列の変化に基づき、前記第１被写体と前記第２被写体との動きの類似度を導出する動き評価方法である。これによって、第１被写体と第２被写体とでダンス（動作、動き）を開始する位置が異なっていても、あるいは画像内の位置が異なっていても、高精度に動きの評価を行うことが可能となる。

また、本発明は、前記第１被写体と前記第２被写体とが同一の姿勢をとった際の、前記第１被写体と前記第２被写体との高さ方向または幅方向のサイズに基づき、前記第１被写体と前記第２被写体とのサイズを一致させる補正係数を予め算出し、前記補正係数を用いて前記第１被写体あるいは前記第２被写体の前記代表位置情報を補正するようにしたものである。これによって、第１被写体と第２被写体とのサイズが異なっていても、高精度に動きの評価を行うことが可能となる。

このように本発明によれば、動きを伴う二つの被写体間あるいは二つの計測対象間の動きの類似度を精度よく評価することが可能となる。

本発明の第１実施形態に係る動き評価システムＳ１の構成を示すブロック図（Ａ）は、動き評価システムＳ１の利用態様を示す説明図、同（Ｂ）～（Ｄ）は、動き評価システムＳ１における前処理を説明する説明図ポーズ認識モデル４０の説明図（Ａ）は、被写体１を撮影した画像の例を示す説明図、同（Ｂ）は、被写体１を撮影した画像におけるキーポイント４１及び全身１ＡＬの重心ＣＧａを示す説明図（Ａ）は、第１被写体１ａのｘ方向の動きを表すグラフ、同（Ｂ）は、第２被写体１ｂのｘ方向の動きを表すグラフ、同（Ｃ）は、第１被写体１ａのｘ方向の動きを±１の範囲で正規化したグラフ（Ａ），（Ｂ）は、被写体１の動き情報を取得するタイミングを示す説明図（Ａ），（Ｂ）は、本発明の第２実施形態において、類似度を導出する過程を説明する説明図本発明の第３実施形態において、被写体１の動きを可視化する方法を説明する説明図本発明の第４実施形態に係る動き評価システムＳ１の構成を示すブロック図動き検出部３の構成を示すブロック図本発明の第５実施形態に係る動き評価システムＳ１の構成を示すブロック図本発明の第６実施形態に係る動き評価システムＳ１の構成を示すブロック図

（第１実施形態）
以下、本発明の第１実施形態について図面を参照して説明する。図１は、本発明の第１実施形態に係る動き評価システムＳ１の構成を示すブロック図である。動き評価システムＳ１は、制御部１０、表示部１５、撮像部１３、音情報出力部１６で構成される。音情報取得部１７は、後述するように必要に応じて設けられる。

制御部１０は、演算部１０ａ、記憶部１０ｂ、通信部１０ｃで構成される。演算部１０ａは、ＣＰＵ(Central Processing Unit)等で構成されている。記憶部１０ｂは、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random access memory）等で構成され、演算部１０ａは、記憶部１０ｂに記憶された制御プログラムに従って動作する。記憶部１０ｂには、不揮発性メモリ（ＥＥＰＲＯＭ（Electrically Erasable Programmable Read-Only Memory）等）が含まれる。不揮発性メモリには、音情報の生成に用いる音楽ファイルが記憶されている。記憶部１０ｂは、ＳＳＤ（Solid State Drive）やＨＤＤ（Hard Disk Drive）といった、いわゆるストレージ（大容量記憶装置）を含んでいてもよく、当該ストレージに制御プログラムや音楽ファイルが記憶されてもよい。演算部１０ａと他の構成要素とはバス２０等で接続されており、演算部１０ａはバス２０等を介して他の構成要素を制御する。

制御部１０を、例えばＰＣ（Personal Computer）あるいはサーバで構成してもよい。表示部１５は、制御部１０と別体であってもよく、タブレット型端末やノート型ＰＣ等のように制御部１０と一体に構成されていてもよい。通信部１０ｃは、例えばＬＴＥ、ＬＴＥ－Ｍ、４Ｇ、５Ｇといった無線通信規格に準拠する通信モジュール（図示せず）を備える。更に、通信部１０ｃは、例えばＢＬＥ（Bluetooth（登録商標） Low Energy）といった、近距離無線通信規格に準拠した通信モジュール（図示せず）を含んでいてもよい。通信部１０ｃは、撮像部１３、音情報出力部１６、音情報取得部１７との間で通信を確立し、制御部１０とこれらとの間で相互に情報を送受信可能とされている。もちろん、これらは有線で接続されてもよい。

撮像部１３は、ＣＭＯＳ（Complementary Metal Oxide Semiconductor）あるいはＣＣＤ（Charge Coupled Device）で構成されたイメージセンサを備える。撮像部１３として、例えばスマートフォンといった情報端末に備えられたカメラを用いてもよい。この場合、情報端末は、所定の無線通信規格に準拠した図示しない通信モジュールを備え、ネットワーク５０を経由して画像データを制御部１０に送信してもよい。撮像部１３を制御部１０と一体に構成してもよく、この場合、撮像部１３は、画像データを演算部１０ａにバス２０を介して送信する。

音情報出力部１６は、図示しない増幅器、スピーカ等を含んでいる。制御部１０は、記憶部１０ｂに記憶された音楽ファイルに基づいてアナログ音声信号を生成し、音情報出力部１６に出力する。音情報出力部１６は、アナログ音信号に基づいて音情報（音楽・楽曲）を再生する。音情報は、スピーカを介して被写体１がダンス等を行う室内で再生されてもよく、被写体１が装着するワイヤレスヘッドフォン等の機器で再生されてもよい。ここで、音情報とは、音楽ファイルを構成するデジタルデータ、当該デジタルデータをデコードしたアナログデータ、当該アナログデータに基づき音情報出力部１６から出力される音のいずれかである。

被写体１は音情報取得部１７を装着してもよい。音情報取得部１７は、マイクロフォン、ＡＤ変換器、近距離無線通信規格に準拠した通信モジュール（いずれも図示せず）を含む。この態様においては、音情報出力部１６で再生された音情報は音情報取得部１７で取得・デジタル化されて、近距離無線通信によって制御部１０に送信される。制御部１０は、受信した音情報を音楽ファイルとして記憶部１０ｂに記憶し、これを後述する動き検出や類似度の導出の際に用いてもよい。これによって、被写体１と音情報出力部１６とが大きく離隔していても、被写体１に音情報取得部１７を装着することで、音情報が被写体１に到達するまでの時間的遅延の影響を排除することができる。

ここで、被写体１は例えば人間である。被写体１は、音情報出力部１６から出力される音情報（音楽）に合わせて、所定の振り付けに従ってダンスを演じる。音情報の内容（コンテンツ）は任意に選定してよく、特にビート（拍子）あるいはリズム、テンポが明確な音楽を選択するのが好ましい。また、ダンスの振り付けも任意に選択してよく、特にビートが生じたタイミング（オンビート）で被写体１の動き（変位量）を大きくする振り付けが好ましい。なお、音情報は音楽・楽曲に限らず、例えばメトロノーム等の周期的な音を発する音源を利用してもよい。

撮像部１３はダンスを演じている被写体１を撮影する。制御部１０は、撮像部１３から受信した画像データを一旦記憶部１０ｂに記憶する。撮像部１３が画像データを可搬性記憶媒体に記憶する機能を有する場合、当該可搬性記憶媒体に記憶された画像データを制御部１０で読み取って、これを記憶部１０ｂに記憶してもよい。制御部１０は、記憶された画像データを用いて被写体１の動き情報を抽出する。ここで、被写体１は第１被写体１ａと第２被写体１ｂとを含む。制御部１０は、動き情報に基づいて第１被写体１ａと第２被写体１ｂとの動きの類似度を導出する。

図２（Ａ）は、動き評価システムＳ１の利用態様を示す説明図、同（Ｂ）～（Ｄ）は、動き評価システムＳ１における前処理を説明する説明図である。なお、以降の説明において、図２（Ｂ）に目視される被写体１の側を前、その逆方向を後、右腕の方向を右、左腕の方向を左、頭部１ＨＤの方向を上、その逆方向を下と称することがある。図２（Ａ）においては、音情報出力部１６はスピーカ（図示せず）を含み、音情報出力部１６と被写体１とは空間的に所定の距離だけ離隔している。もちろん音情報出力部１６の配置位置は任意に定めてよい。

また被写体１と撮像部１３との位置関係については、被写体１の正面から前方に伸ばした線と撮像部１３の光軸ＡｘＬとが成す角度θを、例えば１０°≦θ≦４５°［ｄｅｇ］の範囲とするのが好ましい。これによって、撮影の際にオクルージョン等が低減され、後述するポーズランドマークの多くを高信頼度で取得することができる。なお、被写体１と撮像部１３との距離Ｌ（あるいは画角）は任意に定めてよいが、被写体１が両方の腕部１Ａを上げた状態（図２（Ｂ））及び腕部１Ａを左右に広げた状態（図２（Ｃ））において被写体１の全身１ＡＬ（図３参照）が撮影され、更に被写体１がダンスで移動する範囲を考慮して決定するのが好ましい。

以降、図１を併用して説明を続ける。動き評価システムＳ１の前処理において、撮像部１３の画角等を調整した後、被写体１がダンスに合わせて動きを開始する前に、図２（Ｂ）～（Ｄ）の姿勢で被写体１を撮影する。制御部１０は、撮像部１３から受信した画像データに基づき、図２（Ｂ）に示す、被写体１（ここでは第１被写体１ａ）が両方の腕部１Ａを上げた姿勢（いわゆる、「万歳」の姿勢）における、手と足との間の距離（第１手足間距離Ｈ１ａ）を計測する。また、図２（Ｃ）に示す、第１被写体１ａが腕部１Ａを左右に広げた状態における両手の間の距離（第１両手間距離Ｗａ）を計測する。更に、図２（Ｄ）に示す、第１被写体１ａが直立した姿勢（いわゆる、「気を付け」の姿勢）における、頭部１ＨＤの頂点と足との間の距離（第１頭足間距離Ｈ２ａ）を計測する。なお、これらの距離情報の計測には、後述するポーズランドマークが利用できる。

第２被写体１ｂについても、第１被写体１ａと同様に、第２手足間距離Ｈ１ｂ（図２（Ｂ））、第２両手間距離Ｗｂ（図２（Ｃ））、第２頭足間距離Ｈ２ｂ（図２（Ｄ））が計測される。これらの距離情報は、いわゆる３Ｄ測距によって求められてもよく、人手によってメジャー等で計測され、その数値が図示しない入力部を介して制御部１０に入力されてもよい。制御部１０は、得られた距離情報に基づき、以下を算出する。
（ｉ）幅方向（ｘ方向）補正係数
ＳＦｘ＝第１両手間距離Ｗａ／第２両手間距離Ｗｂ
（ｉｉ）高さ方向（ｙ方向）補正係数
ＳＦｙ＝第１手足間距離Ｈ１ａ／第２手足間距離Ｈ１ｂ
（あるいはＳＦｙ２＝第１頭足間距離Ｈ２ａ／第２頭足間距離Ｈ２ｂ）
動きの評価にあたって、制御部１０は、これらの補正係数を用いて第１被写体１ａあるいは第２被写体１ｂに関する位置情報を補正する（詳細は後述する）。

図３は、ポーズ認識モデル４０の説明図である。第１実施形態では、ポーズ認識モデル４０としてオープンソースライブラリであるMediaPipe Poseを用いている。図３に示すように、人が撮影された画像（静止画あるいは動画）に対して、MediaPipe Poseは、0.nose～32.right_foot_index（合計３３箇所）のキーポイント４１（ポーズランドマーク（Pose Landmark））を認識し、認識されたキーポイント４１の位置情報（座標値（ｘ，ｙ座標））を出力する。

制御部１０は、得られた位置情報を用いて、全身１ＡＬ、頭部１ＨＤ、胴部１ＢＤ、脚部１Ｌのそれぞれに対し、被写体１の動きを代表する重心の座標を算出する。具体的には、各キーポイント４１の位置情報を用いて以下の重心を算出する。
・全身１ＡＬの重心ＣＧａ：0.nose～32.right_foot_indexの各座標値の平均値
・頭部１ＨＤの重心ＣＧｈ：0.nose～12.right_shoulderの各座標値の平均値
・胴部１ＢＤの重心ＣＧｂ：11.left_shoulder～24.right_hipの各座標値の平均値
・脚部１Ｌの重心ＣＧｌ：23.left_hip～32.right_foot_indexの各座標値の平均値

頭部１ＨＤの重心ＣＧｈと胴部１ＢＤの重心ＣＧｂとの算出においては、いずれも11.left_shouldeu、12.right_shouldeが参照され、また、胴部１ＢＤの重心ＣＧｂと脚部１Ｌの重心ＣＧｌとの算出においては、いずれも23.right_hip、24.left_hipが参照される。ただし、オクルージョン等によって取得されなかったり、信頼度の低いキーポイント４１の座標値は、各重心の算出において除外するのが好ましい。なお、以降の説明において、重心の位置情報を「代表位置情報」と称することがある。代表位置情報は、各被写体１の動きを代表する情報である。このように、第１実施形態では、代表位置情報として、上述した重心の位置情報を用いているが、代表位置情報は、ダンスの振り付けに応じて被写体１の動きがより大きく反映されるキーポイント４１に基づいて算出してもよい。また、代表位置情報に替えて(あるいは代表位置情報とともに)、上述した第１両手間距離Ｗａあるいは両足間距離（31.left foot indexと32.right foot indexとの離隔距離）を用いてもよい。

図４（Ａ）は、被写体１を撮影した画像の例を示す説明図、同（Ｂ）は、被写体１を撮影した画像におけるキーポイント４１及び全身１ＡＬの重心ＣＧａを示す説明図である。以下、被写体１の撮影から代表位置情報を取得するまでの過程について説明する。第１被写体１ａ（例えば、指導者）と第２被写体１ｂ（例えば、生徒）とは、音情報出力部１６から出力される同一の音楽に合わせて、予め定められた同一の振り付けでダンスを演じる。まず、図４（Ａ）に示すように、ダンスを演じる被写体１（第１被写体１ａあるいは第２被写体１ｂ）を撮像部１３で撮影する。

ここで、第１被写体１ａと第２被写体１ｂとの撮影は、それぞれ異なる撮像部１３を用いて、異なる場所、異なる時点に行ってもよく、同一の撮像部１３で同時に撮影してもよい。撮像部１３は、所定のフレームレート（例えば６０ｆｐｓ（frame per seconds））で時系列に被写体１を撮影し、画像データを制御部１０に送信する。

制御部１０は、受信した画像データに基づき動画ファイルを生成し、記憶部１０ｂに記憶する。その後、制御部１０は、記憶部１０ｂにアクセスして画像ファイルを取り出し、画像ファイルを構成する各フレーム画像（評価用画像）からキーポイント４１（及びその座標値）を取得し、代表位置情報（ここでは、全身１ＡＬの重心ＣＧａの座標値）を算出する。具体的には、制御部１０は、上述したMediaPipe PoseのＡＰＩ（Application Programming Interface）を用いて評価用画像を処理する。これによって、図４（Ｂ）に示すように、被写体１（ここでは第１被写体１ａ）に対して複数のキーポイント４１が認識され、各キーポイント４１のｘ，ｙ座標、及び代表位置情報が算出される。そして表示部１５には、被写体１、キーポイント４１、代表位置情報（重心ＣＧａ）が重畳して表示され、更に主要なキーポイント４１を結ぶ骨格や、キーポイント４１群を包含する外縁が線分として示される。第２被写体１ｂを撮影した評価用画像についても同様に処理が行われる。

図５（Ａ）は、第１被写体１ａのｘ方向の動きを表すグラフ、同（Ｂ）は、第２被写体１ｂのｘ方向の動きを表すグラフ、同（Ｃ）は、第１被写体１ａのｘ方向の動きを±１の範囲で正規化したグラフである。ここで、図５（Ａ）～（Ｃ）の縦軸（ｘ方向）は、図４（Ａ），（Ｂ）に示す被写体１の左右方向に対応しており、横軸は時間軸ｔである。上述したように各評価用画像は時系列に離散的（周期的）に得られることから、評価用画像に基づいて生成される代表位置情報も離散的に得られる。ただし、図５（Ａ）～（Ｃ）のグラフでは、各代表位置情報の間を補間し曲線として描いている（後述する図６も同様）。また代表位置情報は、上述した全身１ＡＬの重心ＣＧａのｘ座標値を用いている。

以下、被写体１の動き情報を取得する過程について説明する。まず制御部１０は、被写体１を撮影する際に、音情報出力部１６から音情報を出力するタイミングと、撮像部１３で撮影を開始するタイミングとを一致させる。音情報の再生に用いられる音楽ファイルは予め準備されていてもよい。もちろん、音情報出力部１６から出力した音情報を、音情報取得部１７を介して取得（録音）して音楽ファイルとしてもよく、この場合、制御部１０は、撮影を開始するタイミングと録音を開始するタイミングとが同一になるように制御する。

このようにして、音楽再生の開始と撮影の開始とが同期された、音楽ファイルと動画ファイルとが得られる。なお、音情報出力部１６から被写体１までの距離が大きく、動きの評価に影響を与える場合（例えば、音情報出力部１６から被写体１に音情報が到達する時間が、音楽のビートの周期の１／２を超える場合）、音楽ファイルあるいは画像ファイルのタイムスタンプを調整することで、時間軸ｔの原点を調整するのが好ましい。なお、図５（Ａ）～（Ｃ）では、被写体１が動きを開始した時点を時間軸ｔの原点（０）とし、この時点の音楽ファイルのタイムスタンプを０に調整している。

撮像部１３と第１被写体１ａ（第２被写体１ｂ）との位置関係は、撮影の度に異なるのが通常と考えられ、制御部１０は、第１被写体１ａと第２被写体１ｂとの初期位置（ここでは代表位置情報のｘ座標値）を一致させる処理を実行する。具体的には、第１被写体１ａの代表位置情報の初期位置が５４０であるとき（図５（Ａ））、第２被写体１ｂの代表位置情報にオフセットを付与して、その初期値を５４０に一致させる（図５（Ｂ）は、初期位置を一致させた後のグラフを示している）。このように、制御部１０は、第１被写体１ａと第２被写体１ｂとで代表位置情報の初期値を一致させるキャリブレーションを実行する。なお、代表位置情報のｙ座標値についても同様にキャリブレーションが実行される。

以下、第１被写体１ａの代表位置情報の時系列の変化（即ち、図５（Ａ））をＣＧａｘ（ｘ，ｔ）、第２被写体１ｂの代表位置情報の時系列の変化（即ち、図５（Ｂ））をＣＧａｘ'（ｘ'，ｔ'）と称することがある。ここで、代表位置情報として、全身１ＡＬの重心ＣＧａのｘ座標値を例示している。

制御部１０は、ＣＧａｘ（ｘ，ｔ）に基づき、第１被写体１ａについて、時系列における代表位置情報の平均値を求める。そして図５（Ｃ）に示すように、平均値を０として、各代表位置情報が±１の範囲に含まれるよう正規化する（以降、正規化後の代表位置情報を「正規化代表位置情報」と称することがある。）。以下、正規化後のＣＧａｘ（ｘ，ｔ）を、ＣＧａｘ＿ｆｉｎ（ｘ，τ）と称することがある。更に制御部１０は、第２被写体１ｂに関するＣＧａｘ'（ｘ'，ｔ'）についても同様に正規化する。以下、正規化後のＣＧａｘ'（ｘ'，ｔ'）をＣＧａｘ＿ｆｉｎ'（ｘ'，τ'）と称することがある（図６（Ｂ）参照）。

なお、正規化を実行する際に、上述した補正係数（ここではＳＦｘ）を用いて、正規化代表位置情報を補正してもよい。具体的には、上述したＳＦｘ＝第１両手間距離Ｗａ／第２両手間距離Ｗｂ＝０．９であれば、例えば第２被写体１ｂの正規化代表位置情報には０．９が乗じられる。もちろん、第１被写体１ａの正規化代表位置情報に１／０．９を乗じてもよい。これによって、各被写体１の体形・体格等の相違に基づく影響を排除することができる。なお、被写体１の上下方向（即ち、ｙ方向）の動きを評価する場合は、ＳＦｙあるいはＳＦｙ２を用いて正規化代表位置情報を補正すればよい。

図６（Ａ），（Ｂ）は、被写体１の動き情報を取得するタイミングを示す説明図である。ここで、図６（Ａ）は、音情報から抽出されたタイミング（τ１～τ１４）と、動き情報として採用された正規化代表位置情報（ｘ１～ｘ１４）と、動き情報を取得したタイミング（τ１ａ，τ２ａ等）とを、ＣＧａｘ＿ｆｉｎ（ｘ，τ）（図５（Ｃ）参照）に追加したものである。また、図６（Ｂ）は、ＣＧａｘ'（ｘ'，ｔ'）（図５（Ｂ）参照）の縦軸方向を±１に正規化し、これに、音情報から抽出されたタイミング（τ'１～τ'１４）と、動き情報として採用された正規化代表位置情報（ｘ'１～ｘ'１４）と、動き情報を取得したタイミング（τ'１ａ～τ'１４ａ）とを追加したものである。

以降、図１を併用して説明を続ける。制御部１０は、記憶部１０ｂに記憶されたデジタルオーディオ形式（ＷＡＶ，ＭＰ３等）の音楽ファイルを開き、デコードを実行する。デコードによって音楽データは、音圧を一定周期でサンプリングした時系列の音圧データに変換される。制御部１０は、音圧データから音楽を構成する規則的なビートと不規則なビートとを検出する。ここで規則的なビートは音楽のリズムに関連しており、この観点で、制御部１０は音楽のリズムに基づくテンポ（ＢＰＭ（Beats Per Minute））を検出するともいえる。ＢＰＭの検出には、例えばＦＦＴ（Fast Fourier Transform）等の手法を用いることができる。

制御部１０は、例えば、音圧データの変化が所定の閾値を越えた場合に、ビートが発生したと判断する。また、音圧データが所定の値を越えた場合にビートが発生したと判断してもよい。また、音圧データが所定の値を越え、かつ時系列における音圧データの変化が所定の閾値を越えた場合に、ビートが発生したと判断してもよい。即ち、制御部１０は、音情報の音圧が所定の値を越えた場合、あるいは音情報の音圧の変化が所定の値を越えた場合を所定のタイミングとして抽出する。これによって、簡易に動き情報を取得するタイミングを得ることができる。

なお、ビートの検出については、規則的に発生するビートと不規則なビートとを区別して検出してもよい。規則的なビートの検出は、例えば、Sound Energy Variationに基づくアルゴリズムを利用できる（https://mziccard.me/2015/05/28/beats-detection-algorithms-1/）。このアルゴリズムは、音楽の小節毎にエネルギーを分析し、これらのエネルギーピークから規則的なビートパターンを抽出する。一方、不規則なビートの検出は、例えば、多経路探索とクラスタ分析とに基づくアルゴリズム（Hindawi Complexity Volume 2021，"Music Rhythm Detection Algorithm Based on Multipath Search and Cluster Analysis"）を利用できる。このアルゴリズムは、短時間フーリエ変換（ＳＴＦＴ）によってサンプルデータを周波数領域に変換し、振幅のピーク及びフェーズの情報を取り出し、これらの情報からＰＣＭ（Pulse Code Modulation）特徴値を抽出する。

このように、第１実施形態の動き評価システムＳ１において、音情報は音楽であって、制御部１０は、音情報の音圧の変化に基づいて、所定のタイミング（動き情報を取得するタイミング）を決定する。これによって、音楽に合わせてダンスを演じる第１被写体１ａと第２被写体１ｂとで、動き情報を取得するタイミングを統一することが可能となる。

制御部１０は、ビートが検出されたタイミングに基づいて動き情報を取得する。図６（Ａ）では、τ１～τ１４、図６（Ｂ）では、τ'１～τ'１４がビートが検出されたタイミングに相当する。ここで、第１被写体１ａと第２被写体１ｂとが同一の楽曲に合わせてダンスを踊る状況においては、τ１とτ'１、τ２とτ'２．．．τ１４とτ'１４は同一のタイミングとなる。

上述のように評価用画像は、所定の周期で撮影されている。制御部１０は、ビートが検出されたタイミングを中心として、時間的に近接して撮影された複数の評価用画像を抽出し、評価用画像に基づき各被写体１の動き情報を取得する。この際、上述した正規化代表位置情報が参照される。制御部１０は、ビートを検出したタイミング（例えば図６（Ａ）に示すτ１）を中心として所定の期間内（例えば、ビートの周期の±１／３内）に撮影された評価用画像のそれぞれに対し正規化代表位置情報を取得し、所定の基準を満たす正規化代表位置情報を被写体１の動き情報として採用する。そして、当該動き情報が得られた際の時刻情報（τ１ａ等）と組合せて、ＣＧａｘ＿ｆｉｎ（ｘ，τ）から、ｘ方向第１データセット：（ｘ１，τ１ａ），（ｘ２，τ２ａ）．．．（ｘ１４，τ１４ａ）を得る。

正規化代表位置情報から被写体１の動き情報を抽出する基準としては、例えば以下が挙げられる。
（Ｃ１）ビートを検出したタイミングτの前後に、正規化代表位置情報のピークが複数個検出された場合：絶対値が最も大きい正規化代表位置情報を動き情報として採用する。

以下、当該基準（Ｃ１）を適用した例を説明する。図６（Ｂ）において、τ'１、τ'６、τ'８の前後には複数のピークが存在する。（Ｃ１）に従って処理することで、図示するＰ１、Ｐ２、Ｐ３は動き情報として採用されず、結果的に第２被写体１ｂについて、ＣＧａｘ＿ｆｉｎ'（ｘ'，τ'）からｘ方向第２データセット：（ｘ'１，τ'１ａ），（ｘ'２，τ'２ａ）．．．（ｘ'１４，τ'１４ａ）が得られる。

このように、第１実施形態の動き評価システムＳ１は、音情報を出力する音情報出力部１６と、音情報に基づいて変位する被写体１を撮影する撮像部１３と、制御部１０と、を備え、制御部１０は、音情報から抽出された所定のタイミングに基づいて、撮像部１３の出力から被写体１の動き情報を取得する。これは、制御部１０は、音情報に含まれるビートあるいはリズムに実質的に同期して動き情報を取得するともいえる。これによって、音情報に基づき変位する被写体１の動き情報を的確に取得することが可能となる。

また、制御部１０は、音情報に含まれるビートあるいはリズムを検出し、検出されたビートあるいはリズムに基づくタイミングに時間的に前後する代表位置情報のピーク値を、動き情報として抽出する。ダンスの熟練者は、体を大きく動かすタイミングをビートが打たれる瞬間から意図的に外して、表現力を高めることが知られている。逆に初心者は、音楽のリズムに追随できずに、体の動きがビートのタイミングから遅延することもある。本発明により、このような意図的に（あるいはスキル不足等によって）ビートのタイミングを外す（あるいは外れた）動きに対しても、的確に動き情報を取得することが可能となる。

なお、上述した基準（Ｃ１）の適用は任意であり、例えばビートを検出したタイミングτの前後の所定の期間内に、複数の正規化代表位置情報のピークが存在する場合は、これら全てを動き情報として採用してもよい。即ち、一つのビートに対して複数の動き情報を取得してもよい。同じ音楽に合わせてダンスを演じたとしても、第１被写体１ａと第２被写体１ｂとで検出されるピークの個数が異なることがあり、このピークの個数の相違を類似度の導出に反映してもよい。

制御部１０は、第１被写体１ａの動き情報であるｘ方向第１データセットを用いて、正領域でのピーク間平均時間Ｔｐｐ＿Ｐ＿ａｘｎ、負領域でのピーク間平均時間Ｔｐｐ＿Ｎ＿ａｘｎを求める。これらは、具体的には以下のように算出される。以下の式において、ｋａｘｐは正領域でのピークの数を、ｋａｘｎは負方向でのピークの数を意味する。
・Ｔｐｐ＿Ｐ＿ａｘｎ
＝｛（τ３ａ－τ１ａ）＋（τ６ａ－τ３ａ）＋（τ８ａ－τ６ａ）＋．．．＋（τ１４ａ－τ１２ａ）｝／ｋａｘｐ
＝（τ１２ａ－τ１ａ）／ｋａｘｐ
・Ｔｐｐ＿Ｎ＿ａｘｎ
＝｛（τ４ａ－τ２ａ）＋（τ５ａ－τ４ａ）＋（τ７ａ－τ５ａ）＋．．．＋（τ１３ａ－τ１１ａ）｝／ｋａｘｎ
＝（τ１１ａ－τ２ａ）／ｋａｘｎ

同様に、第２被写体１ｂの動き情報であるｘ方向第２データセットを用いて、正領域でのピーク間平均時間（Ｔｐｐ＿Ｐ＿ａｘｎ'）、負領域でのピーク間平均時間（Ｔｐｐ＿Ｎ＿ａｘｎ'）を求める。これらは、具体的には以下のように算出される。以下の式において、ｊａｘｐは正領域でのピークの数、ｊａｘｎは負領域でのピークの数である。
・Ｔｐｐ＿Ｐ＿ａｘｎ'
＝（τ'１４ａ－τ'３ａ）／ｊａｘｐ
・Ｔｐｐ＿Ｎ＿ａｘｎ'
＝（τ'１３ａ－τ'１ａ）／ｊａｘｎ

第１被写体１ａと第２被写体１ｂとの正領域／負領域でのピーク間平均値、ピークの数は、ビートと密接に関連しており、これらに差がある場合、例えば第２被写体１ｂ（生徒）がダンスの動きを間違えたと判断することができる。制御部１０は、評価関数として例えば、以下、Ｆ１を計算する。なお、Ｆ１におけるα、βは重み係数であり、適宜定めてよい。
・Ｆ１
＝α｛｜（Ｔｐｐ＿Ｐ＿ａｘｎ）－（Ｔｐｐ＿Ｐ＿ａｘｎ'）｜＋｜（Ｔｐｐ＿Ｎ＿ａｘｎ）－（Ｔｐｐ＿Ｎ＿ａｘｎ'）｝＋β（｜ｋａｘｐ－ｊａｘｐ｜＋｜ｋａｘｎ－ｊａｘｎ｜）

また、制御部１０は、第１被写体１ａについてのＣＧａｘ＿ｆｉｎ（ｘ，τ）の全要素の絶対値の総和と、第２被写体１ｂについてのＣＧａｘ＿ｆｉｎ'（ｘ'，τ'）の全要素の絶対値の総和との差分を算出してもよい（評価関数Ｆ２）。なお、δは重み係数であり、適宜定めてよい。
・Ｆ２
＝δ（Σ｜ＣＧａｘ＿ｆｉｎ（ｘ，τ）｜－Σ｜ＣＧａｘ＿ｆｉｎ'（ｘ'，τ'）｜）

Ｆ１、Ｆ２は、それぞれ類似度として用いることができる。これらは、第１被写体１ａと第２被写体１ｂとの動き情報の差異が小さいほど、即ち動きの類似度が高いほどゼロに近づく指標である。
もちろん、これらＦ１とＦ２とを用いて、以下の評価関数Ｆ３を定めてもよい。
・Ｆ３＝Ｆ１＋Ｆ２
Ｆ３も類似度として用いることができる。Ｆ３も両者の動きの類似度が高いほどゼロに近づく指標である。

このように、第１実施形態の動き評価システムＳ１は、被写体１は第１被写体１ａと第２被写体１ｂとを含み、制御部１０は、音情報から抽出された所定のタイミングに基づいて検出された、第１被写体１ａと第２被写体１ｂとの動き情報に基づき、第１被写体１ａと第２被写体１ｂとの動きの類似度を導出する。これによって、音情報に基づき変位する第１被写体１ａと第２被写体１ｂとの動きの類似度を的確に評価することが可能となる。

また、第１実施形態の動き評価システムＳ１は、制御部１０は、第１被写体１ａと第２被写体１ｂとについて、それぞれの位置情報を代表する少なくとも一つの代表位置情報を算出し、代表位置情報から抽出された動き情報の時系列の変化に基づき、類似度を導出する。これによって、大量の動き情報を処理することなく、高精度かつ高速に類似度を算出することが可能となる。

また、第１実施形態の動き評価システムＳ１は、音情報を出力する音情報出力部１６と、音情報に基づいて変位する第１被写体１ａと第２被写体１ｂとを撮影する撮像部１３と、制御部１０と、を備え、制御部１０は、音情報から抽出された所定のタイミングに基づいて、撮像部１３の出力から第１被写体１ａと第２被写体１ｂとについて、それぞれの位置情報を代表する少なくとも一つの代表位置情報を算出し、第１被写体１ａと第２被写体１ｂとの代表位置情報の初期値を一致させるキャリブレーションを実行し、第１被写体１ａと第２被写体１ｂとの代表位置情報から抽出された動き情報の時系列の変化に基づき、第１被写体１ａと１ｂ第２被写体との動きの類似度を導出する。キャリブレーションを実行することによって、第１被写体１ａと第２被写体１ｂとでダンス（動作、動き）を開始する位置が異なっていても、あるいは画像内の位置が異なっていても、高精度に動きの評価を行うことが可能となる。

また、第１実施形態の動き評価システムＳ１は、制御部１０は、第１被写体１ａと第２被写体１ｂとが同一の姿勢をとった際の、第１被写体１ａと第２被写体１ｂとの高さ方向または幅方向のサイズに基づき、第１被写体１ａと第２被写体１ｂとのサイズを一致させる補正係数を予め算出し、補正係数を用いて第１被写体１ａあるいは第２被写体１ｂの代表位置情報を補正する。これによって、第１被写体１ａと第２被写体１ｂとのサイズが異なっていても、高精度に動きの評価を行うことが可能となる。

以上、第１被写体１ａと第２被写体１ｂとについて、ｘ方向における全身１ＡＬの動き情報の正領域／負領域でのピーク間平均値、ピークの数に基づいて類似度を導出する例を示した。もちろん、同様に両被写体１のｙ方向（高さ方向）における動き情報に基づき類似度を導出してもよい。更に、頭部１ＨＤ、胴部１ＢＤ、脚部１Ｌのｘ，ｙそれぞれの方向における動き情報の正領域／負領域でのピーク間平均値、ピークの数に基づいて類似度を導出してもよく、これらの動き情報を統合して類似度を導出してもよい。なお、撮像部１３をステレオカメラで構成した場合、被写体１の前後方向（図２（Ａ）参照）の変位を計測することができる。この前後方向の変位量から動き情報を抽出して、類似度を導出してもよい。

（第２実施形態）
図７（Ａ），（Ｂ）は、本発明の第２実施形態において、類似度を導出する過程を説明する説明図である。ここで、図７（Ａ）は、時系列における第１被写体１ａの代表位置情報のｘ，ｙ方向の分布を示しており、第１被写体１ａのｘ方向の動き（図５（Ａ）に示すＣＧａｘ（ｘ，ｔ））、及びｙ方向の動き（図示せず）に基づいて生成される画像である。ここでは評価用画像が、例えば６０ｆｐｓで２４秒間撮影されたとすると、６０［ｆｐｓ］×２４［ｓ］＝１４４０個の代表位置情報（ｘ，ｙ座標値）が取得される。これらの代表位置情報がｘ，ｙ座標（即ち、時間軸を含まない座標空間）に画素としてプロットされる。図７（Ａ）では、プロットされた領域がＴｒａとして示されている。なお、ｘ，ｙ座標の範囲は例えば０～５１１の範囲に正規化されている。また代表位置情報は８ビットのモノクロ画像データとしてプロットされ、例えば画素値は２５５とされる。以下、図７（Ａ）に示す画像を「第１動き情報画像」と称する。

また、図７（Ｂ）は、時系列における第２被写体１ｂの代表位置情報のｘ，ｙ方向の分布を示しており、第２被写体１ｂのｘ方向の動き（図５（Ｂ）に示すＣＧａｘ'（ｘ'，ｔ'））、及びｙ方向の動き（図示せず）に基づいて、図７（Ａ）と同様に生成される。図７（Ｂ）では、プロットされた領域がＴｒｂとして示されている。以下、図７（Ｂ）に示す画像を「第２動き情報画像」と称する。

第２実施形態の動き評価システムＳ１の構成は、第１実施形態と同様である。以下、図１を併用して説明を続ける。制御部１０は、第１動き情報画像と第２動き情報画像とを生成し、各画像を構成する要素を以下［数１］に代入し、構造的類似性 (ＳＳＩＭ：Structural Similarity Index Measure) 指数を求める。

ＳＳＩＭは、画像の輝度、コントラスト、構造の３要素に基づき人間の視覚システムの特性を考慮した評価指標（画質評価指標）を提供する。［数１］においてｘとｙとは、それぞれ第１動き情報画像と第２動き情報画像とにおけるウィンドウ内（ここでは、５１２×５１２）の各画素を表すベクトルである。μはウィンドウ内の平均画素値、σ_ｘ，σ_ｙは同ウィンドウ内の画素値の標準偏差、σ_ｘｙはｘとｙとの共分散である。また、Ｃ_１，Ｃ_２は分母の値が非常に小さくなった時に評価値が不安定にならないようにする定数である。ここで、Ｃ_１＝（Ｋ_１Ｌ）^２、Ｃ_２＝（Ｋ_２Ｌ）^２で、Ｌは画素値のダイナミックレンジ(ここでは８ｂｉｔ：２５５)である。また、Ｋ_１，Ｋ_２は定数で、例えばＫ_１＝０．０１，Ｋ_２＝０．０３とされる。

このように、第２実施形態では、第１被写体１ａ、第２被写体１ｂについて全身１ＡＬ（図３参照）のｘ．ｙ方向の代表位置情報（全身１ＡＬの重心ＣＧａ）を用いてＳＳＩＭを求めている。第１動き情報画像と第２動き情報画像とが完全に一致するときＳＳＩＭ（ｘ，ｙ）＝１となり、類似度が低下するほどＳＳＩＭの値は０に近づく。制御部１０は、算出されたＳＳＩＭを類似度として表示部１５に表示する。もちろん頭部１ＨＤ、胴部１ＢＤ、脚部１Ｌの代表位置情報を用いてＳＳＩＭを求めてもよく、これら個別のＳＳＩＭの値を適宜組み合わせて類似度の指標としてもよい。

ＳＳＩＭ（ｘ，ｙ）の算出にあたっては、第１動き情報画像と第２動き情報画像とをそれぞれ小領域に分割し、小領域毎にＳＳＩＭを求め、これらを平均してＭＳＳＩＭ（Mean SSIM）を求めてもよい。なお、画像間で類似度を導出するにあたり、ＳＳＩＭ、ＭＳＳＩＭに替えて、あるいはＳＳＩＭ等とともに、例えばＳＮＲ（Signal to Noise Ratio）、ＰＳＮＲ（Peak Signal to Noise Ratio）を用いてもよい。このように第２実施形態では、第１動き情報画像と第２動き情報画像とを、いずれも画像データとして取り扱い、二つの画像データを比較することで類似度を導出する。

また、上述した例では、第１動き情報画像と第２動き情報画像とを、ｘ，ｙ座標空間に画素をプロットした二次元画像として説明したが、例えば、撮像部１３をステレオカメラで構成して、第１被写体１ａと第２被写体１ｂとについて深度情報（デプス情報）を得て、当該深度情報を追加した三次元情報に基づいて、類似度を導出してもよい。なお、ここで深度情報は、図４に示すｘ，ｙ軸の両方に直交する方向（ｚ軸）の動き情報を意味する。もちろん、得られた三次元情報からｘｙ面、ｙｚ面、ｚｘ面に対応する二次元の画像データを得て、それぞれの画像データに基づいて、第１被写体１ａ、第２被写体１ｂとの動きの類似度を導出してもよい。更に、第１動き情報画像と第２動き情報画像とは、例えばｘ座標（あるいはｙ座標、ｚ座標）にプロットされた一次元画像であっても構わない。

このように、第２実施形態の動き評価システムＳ１は、音情報を出力する音情報出力部１６と、第１被写体１ａ及び第２被写体１ｂを撮影する撮像部１３と、制御部１０と、を備え、第１被写体１ａと第２被写体１ｂとは、音情報出力部１６が出力する音情報に基づいて変位し、制御部１０は、第１被写体１ａと第２被写体１ｂとについて、それぞれの位置情報を代表する少なくとも一つの代表位置情報を時系列に算出し、更にそれぞれの代表位置情報を、時間軸を含まない座標空間（ここでは二次元空間）に画素としてプロットした第１動き情報画像と第２動き情報画像（画像データ）とを生成し、第１動き情報画像と第２動き情報画像とに基づいて類似度を導出する。これによって、被写体１を代表する位置の動き（軌跡）を二次元画像として表現し、画像間の差異に基づき（画像データを比較して）類似度を導出することが可能となる。

更に、第２実施形態の動き評価システムＳ１は、制御部１０は、第１動き情報画像と第２動き情報画像とに基づき、構造的類似性（ＳＳＩＭ）指数を算出する。これによって、被写体１の動きを画像に置き換え、人の視覚システムの特性を加味して類似度を導出することが可能となる。

以下、第２実施形態の変形例について説明する。制御部１０は、第１被写体１ａに関し、図６（Ａ）に示すＣＧａｘ＿ｆｉｎ（ｘ，τ）に基づいて取得したｘ方向第１データセット：（ｘ１，τ１ａ），（ｘ２，τ２ａ）．．．（ｘ１４，τ１４ａ）と、ｘ方向第１データセットと同様にして取得したｙ方向第１データセット：（ｙ１，τ１ａ），（ｙ２，τ２ａ）．．．（ｙ１４，τ１４ａ）に基づき、第１動き情報画像を生成する。

更に、第２被写体１ｂに関し、図６（Ｂ）に示すＣＧａｘ＿ｆｉｎ'（ｘ'，τ'）に基づいて取得したｘ方向第２データセット：（ｘ'１，τ'１ａ），（ｘ'２，τ'２ａ）．．．（ｘ'１４，τ'１４ａ）と、ｘ方向第２データセットと同様にして得たｙ方向第２データセット：（ｙ'１，τ'１ａ），（ｙ'２，τ'２ａ）．．．（ｙ'１４，τ'１４ａ）に基づき、第２動き情報画像を生成する。即ち、変形例におけるｘ方向第１データセット、ｙ方向第１データセット、ｘ方向第２データセット、ｙ方向第２データセットは、いずれも音情報に同期して得られた被写体１の動き情報を用いている。

変形例においても、制御部１０は、第１動き情報画像と第２動き情報画像とに基づき類似度を導出する。このように、変形例の動き評価システムＳ１は、制御部１０は、第１被写体１ａと第２被写体１ｂとのそれぞれに対し、動き情報の時系列の変化を表す第１動き情報画像と第２動き情報画像とを生成し、第１動き情報画像と第２動き情報画像とに基づき類似度を導出する。この際、第２実施形態と同様にＳＳＩＭを用いてもよい。これによって、被写体１を代表する位置の動きを二次元画像として表現し、画像間の差異に基づき類似度を導出することが可能となる。

ただし変形例では、動き情報画像を構成する点（画素）は、上述の例では１４個（図６（Ａ）に示す（ｘ１，τ１ａ）～（ｘ１４，τ１４ａ））と非常に少ない。画像を少数の画素（ドット）で構成すると、第１動き情報画像と第２動き情報画像との構造が大きく異なることで、ＳＳＩＭが非常に小さく算出され、類似度が適切に評価されない場合が考えられる。そこで、変形例では、第１動き情報画像と第２動き情報画像とを構成する画素を、１画素よりも大きい面積を有するオブジェクトに置き換える。具体的には、例えば１画素を当該画素のｘ，ｙ座標を中心に所定の半径ｒ（例えばｒ＝５画素）を有する円に置き換える。このとき、円の内部は所定の値（例えば２５５）で塗り潰してもよく、あるいは、円の中心から半径方向に向けて画素値を小さくしたグラデーションを設けてもよい。グラデーションを設けることで、エッジ構造に対する感度を減少させることができる。また複数の円が重なる領域については、各グラデーションの平均値で置き換えてもよく、これによってオブジェクトのエッジが抑制され、画像の構造に関する特徴を意図的に減ずることができる。

このように、変形例の動き評価システムＳ１は、第１動き情報画像と第２動き情報画像とにおいて、代表位置情報（後述する代表動き情報）を、１画素サイズを超える所定のサイズのオブジェクトとして描画する。これによって、代表位置情報の個数が少ない場合であっても、ＳＳＩＭを適正に取得することが可能となる。

なお、上述したように、第１被写体１ａと第２被写体１ｂとのそれぞれの代表位置情報は、例えば６０ｆｐｓの周期で時系列に取得されている。代表位置情報を時間で微分することで、速度情報（代表速度情報）を得ることが可能であり、更に代表速度情報を時間で微分することで、加速度情報（代表加速度情報）を算出することが可能である。代表位置情報、代表速度情報、代表加速度情報（以下、これらをまとめて、「代表動き情報」と称することがある。）はいずれも、各被写体１の動きを代表する情報である。即ち、代表動き情報は、位置情報、速度情報、加速度情報のいずれであってもよい。代表位置情報に代えて、代表速度情報、代表加速度情報を画素としてプロットし、第１動き情報画像、第２動き情報画像を生成してもよく、これらの画像間でＳＳＩＭ、ＭＳＳＩＭ、ＳＮＲ、ＰＳＮＲ等を演算して類似度を導出してもよい。これによって、位置情報のみならず、速度情報、加速度情報を用いて、より詳細に第１被写体１ａと第２被写体１ｂとの動きの類似度を評価することが可能となる。

（第３実施形態）
図８は、本発明の第３実施形態において、被写体１の動きを可視化する方法を説明する説明図である。図８は、図５（Ａ）に示すＣＧａｘ（ｘ，ｔ）と同（Ｂ）に示すＣＧａｘ'（ｘ'，ｔ'）とをレーダーチャート上に重ねて描画したものである。第１被写体１ａの動きは実線で（以下、「第１グラフ」と称する。）、第２被写体１ｂの動きは破線で（以下、「第２グラフ」と称する）示されている。ここでの「動き」の値は代表位置情報を意味する。レーダーチャートの半径方向は、被写体１のｘ方向の動き（変位量）であり、円周方向は時間経過を表す（ここでは、一周は２４秒）。被写体１は０°でダンスを開始し、３６０°でダンスを終了している。このように第１被写体１ａと第２被写体１ｂとの動きをレーダーチャートとして表現することで、両者の類似度が目視によって評価しやすくなる。

レーダーチャートの０°と３６０°とにおいて第１被写体１ａと第２被写体１ｂとの代表位置情報は同一とされ、第１グラフと第２グラフとは、いずれも閉曲線として描画される。レーダーチャートでは半径方向が被写体１の動きの大きさに対応することから、大きい動きであるほど、閉曲線で囲まれた領域の面積の増大に反映されやすくなる。このように第３実施形態では、第１グラフで囲まれた領域の面積と第２グラフで囲まれた領域の面積とを用いて、被写体１の動きのダイナミズムを評価することが可能となる。もちろん、例えば第１グラフの面積と第２グラフの面積との比を類似度として用いてもよい。

（第４実施形態）
図９は、本発明の第４実施形態に係る動き評価システムＳ１の構成を示すブロック図である。第１実施形態においては、撮像部１３（図１参照）で撮影した評価用画像に基づいて、被写体１の動き情報を抽出しているが、第４実施形態は、動き検出部３を用いて計測対象２の動き情報を抽出する。なお、第４実施形態の動き評価システムＳ１は、図１に示す撮像部１３を動き検出部３に、被写体１を計測対象２に置き換えたものである。即ち、計測対象２は例えば人間であり、第１計測対象２ａ（第１実施形態の第１被写体１ａに相当）と第２計測対象２ｂ（同第２被写体１ｂに相当）とが含まれる。第１実施形態と同様に第１計測対象２ａと第２計測対象２ｂとは、音情報出力部１６から出力される音情報に合わせて変位する。

計測対象２の左右の手首、左右の足首には、それぞれ例えばボックス形状の動き検出部３がリストバンド等を用いて装着される。腕部１Ａや脚部１Ｌ（図２参照）の動きを高精度に検出するためには、動き検出部３は、変位が大きい部位に装着されることが好ましい。この観点で、腕部１Ａの動きを検出する動き検出部３は手首に装着されるか、あるいは手掌部で把持されることが好ましい。また、脚部１Ｌに対応する動き検出部３は足首に装着されることが好ましい。なお、動き検出部３は、計測対象２の頭部１ＨＤや胴部１ＢＤ（図２参照）に設置されてもよい。

ここで、各動き検出部３とこれが装着される部位との対応関係は、予め定められているのが好ましい。例えば、各動き検出部３には、「腕（右）用」等のように装着すべき部位が明示され、計測対象２は、当該明示された部位に動き検出部３を装着する。

図１０は、動き検出部３の構成を示すブロック図である。図１０に示すように、動き検出部３は、第２制御部３ａ、第２記憶部３ｂ、第２通信部３ｃ、慣性センサ３ｄで構成される。第２制御部３ａは、ＣＰＵ等で構成され、ＲＯＭ、ＲＡＭ等で構成された第２記憶部３ｂに記憶された制御プログラムに従って動作する。第２制御部３ａと他の構成要素とはバス等で接続されており、制御部１０はバス等を介して他の構成要素を制御する。第２記憶部３ｂには、更に個々の動き検出部３を表す識別子（ＩＤ）が記憶されている。第２通信部３ｃは、例えばＢＬＥといった、近距離無線通信規格に準拠した通信モジュール（図示せず）を備える。第２制御部３ａは、第２記憶部３ｂに記憶されたＩＤと慣性センサ３ｄの出力とを取得し、第２通信部３ｃを介してこれらの情報を制御部１０（図９参照）に所定の周期（例えば１０ｍｓ周期）で送信する。

慣性センサ３ｄは、例えば三軸加速度センサ、または／及びジャイロセンサで構成される。ここで、三軸加速度センサは、計測対象２の各部位がどの方向にどの程度速度を変化させているか（加速度）をＸ，Ｙ，Ｚの三軸について出力する。またジャイロセンサは、計測対象２の各部位がどの方向にどの程度の速度で回転しているか（角速度）をＸ，Ｙ，Ｚの三軸について出力する。このように慣性センサ３ｄは、計測対象２の腕部１Ａ、脚部１Ｌの動きを検出し、これに基づく三軸加速度情報及び／または三軸角速度情報（以下、「三軸加速度情報等」と称することがある。）を制御部１０に出力する。この際、上述したＩＤが併せて出力される。

三軸加速度情報等及びＩＤを受信した制御部１０は、三軸加速度情報等に基づき、代表位置情報を算出する。ＩＤを参照することで、制御部１０は、慣性センサ３ｄの出力が、どの動き検出部３から出力されたものか判断する。制御部１０は、各慣性センサ３ｄの出力（三軸加速度情報）を積分し速度情報を得て、これを更に積分して位置情報を得る。そして各動き検出部３の位置情報を平均して、計測対象２の代表位置情報を時系列に算出する。なお、ＩＤを参照して、特定の慣性センサ３ｄを出力に基づいて代表位置情報を得てもよい。更に、制御部１０は、第１実施形態と同様に、音情報のビートやリズムに基づいて計測対象２の動き情報を取得する。この動き情報に基づき、制御部１０は、第１計測対象２ａと第２計測対象２ｂとの動きの類似度を導出する。

このように、第４実施形態の動き評価システムＳ１は、音情報を出力する音情報出力部１６と、音情報に基づいて変位する計測対象２の動きを検出する動き検出部３と、制御部１０と、を備え、制御部１０は、音情報から抽出された所定のタイミングに基づいて、計測対象２の動き情報を取得する。これによって、音情報に基づき変位する計測対象２の動き情報を的確に取得することが可能となる。

更に、第４実施形態の動き評価システムＳ１は、計測対象２は第１計測対象２ａと第２計測対象２ｂとを含み、制御部１０は、音情報から抽出された所定のタイミングに基づいて検出された、第１計測対象２ａと第２計測対象２ｂとの動き情報に基づき、第１計測対象２ａと第２計測対象２ｂとの動きの類似度を導出する。これによって、音情報に基づき変位する第１計測対象２ａと第２計測対象２ｂとの動きの類似度を的確に評価することが可能となる。

もちろん第４実施形態と第２実施形態を組合わせてもよい。即ち、第１計測対象２ａと第２計測対象２ｂとの代表位置情報（あるいは代表速度情報、代表加速度情報）に基づき、それぞれ第１動き情報画像と第２動き情報画像を生成し、これらの画像データに対してＳＳＩＭ、ＳＮＲ、ＰＳＮＲといった画質評価指標を適用して類似度を導出してもよい。

（第５実施形態）
図１１は、本発明の第５実施形態に係る動き評価システムＳ１の構成を示すブロック図である。動き評価システムＳ１は、制御部１０、表示部１５、撮像部１３で構成される。制御部１０、表示部１５、撮像部１３は、第１実施形態で説明したものと同等の構成を備えており、ここでの説明は省略する。ただし、第５実施形態では、動き評価システムＳ１の構成要素に音情報出力部１６、音情報取得部１７（図１参照）は含まれていなくてもよい。従って、記憶部１０ｂの不揮発性メモリには、音情報の生成に用いる音楽ファイル等は記憶されていなくてもよい。

第５実施形態においても、被写体１は例えば人間である。なお被写体１は動物であってもよく、モノ等の移動体・形態が変化する物品であってもよい。撮像部１３は、所定の動作（所定の動作の例については後述する。）を行っている被写体１を撮影する。制御部１０は、撮影された画像データを用いて被写体１の動き情報（代表位置情報）を抽出する。この際、第１実施形態と同様にポーズランドマークを認識して動き情報を抽出してもよい。なお被写体１に対し、例えばＳＩＦＴ（Scale-Invariant Feature Transform）を用いてキーポイントを抽出し、複数の特定のキーポイントについて動き情報を抽出してもよい。

ここで、被写体１は第１被写体１ａと第２被写体１ｂとを含む。制御部１０は、第１実施形態と同様に、各被写体１の動きを代表する代表位置情報を、例えば６０ｆｐｓの周期で時系列に算出する。ここで制御部１０は、第１被写体１ａと第２被写体１ｂとに関して、幅方向（ｘ方向）補正係数（ＳＦｘ）、高さ方向（ｙ方向）補正係数（ＳＦｙ）を求め、それぞれの被写体１に関する代表位置情報を補正してもよく、また第１被写体１ａと第２被写体１ｂとで代表位置情報の初期値を一致させるキャリブレーションを実行してもよい。

制御部１０は、算出された代表位置情報に基づいて第１被写体１ａと第２被写体１ｂとの動きの類似度を導出する。類似度の導出にあたっては、第２実施形態と同様に、第１被写体１ａと第２被写体１ｂとの代表位置情報を、時間軸を含まない座標空間に画素としてプロットした第１動き情報画像と、第２動き情報画像とが生成される。そして制御部１０は、第１動き情報画像と第２動き情報画像とを用いて、ＳＳＩＭ、ＭＳＳＩＭ、ＳＮＲ、ＰＳＮＲ等の評価値を算出、即ち類似度を導出する。もちろん、代表位置情報のみならず、上述した代表動き情報（即ち、代表位置情報、代表速度情報、代表加速度情報のいずれか）をプロットした第１動き情報画像と第２動き情報画像とに基づいて、類似度を導出してもよい。

このように、第５実施形態の動き評価システムＳ１は、第１被写体１ａと第２被写体１ｂとを撮影する撮像部１３と、制御部１０と、を備え、制御部１０は、撮像部１３の出力に基づいて、第１被写体１ａと第２被写体１ｂとについて、それぞれの動きを代表する少なくとも一つの代表動き情報を時系列に算出し、更に、それぞれの代表動き情報を、時間軸を含まない座標空間に画素としてプロットした第１動き情報画像と第２動き情報画像とを生成し、第１動き情報画像と第２動き情報画像とに基づいて、第１被写体１ａと第２被写体１ｂとの動きの類似度を導出する。これによって、各被写体１の動きを代表する代表動き情報を画像として表現し、画像間の差異に基づき簡易に類似度を導出することが可能となる。

さて、第５実施形態において、被写体１間の動きの類似度が評価されうる所定の動きとして、例えば以下が挙げられる。
・歌唱の際の振り付け
・ダンスを演じる際の動き
・楽器を演奏する際の動き
・車両、船舶、航空機、ロケット等を操縦する際の動き
・料理を行う際の動き
・手術を行う際の動き（指の動き、手の動き、特定の臓器に対する相対的な動き等）
・医師、整体師、鍼灸師、理学療法士等が施術する際の動き
・仕事等を行う際の動き（レジ打ち、スマートフォン操作、キーボード入力、接客姿勢等）
・工具を使用する際の動き
・スポーツを行う際の動き（野球やゴルフのスイング、卓球、バドミントン、テニス、フェンシング、剣道、柔道、レスリング、ボクシング、フィギュアスケート、スキー、スケートボード、ラグビー、サッカー、水泳、体操、ボウリング等）
・ペットを含む動物や昆虫の動き・挙動
・工場等における移動体の動き、製造設備・生産機器（工場における稼働部）の動き
・産業用ロボットを含むロボットの動き

なお、各被写体１が立つ床に、あるいは各被写体１の動きを評価する対象部位（例えば手や指）の近傍に、例えば所定の色票や所定の形状に構成された基準マーカを設置し、各被写体１は当該基準マーカの上に立ち、あるいは体の特定部位を当該基準マーカに触れ、これらの状態を初期位置として動きを開始するのが好ましい。これによって、実質的に被写体１間で初期位置のキャリブレーションが図られうる。

第５実施形態においては、類似度が導出される被写体１の動きは「音」あるいは「音楽」と連動・同期していなくてもよい（もちろん、連動・同期してもよい）。そして、各被写体１を撮影した画像には、同一の作業やスポーツの技等を繰り返し行う姿が含まれていてもよい。また、各被写体１を撮影する期間には特に制限はない。なお、手術やレジ打ちといった手や指の動きの類似度を評価する場合、上述したMediaPipeのMulti Hand Tracking等の追跡（トラッキング）ソフトウェアを利用することができる。またレスリング等の格闘技やサッカー等のチームスポーツにおいては、公知の画像認識技術を用いて動きを評価する対象（選手）をトレースし、当該選手以外をトリミングする等の前処理を行うのが好ましい。このように撮像部１３で撮影した画像に複数の被写体１が含まれる場合は、前処理によって特定の被写体１が抽出される。もちろん、各被写体１が同一の画像に含まれていてもよく、この場合は少なくとも二つの被写体１が一つの画像から抽出され、各被写体１間の動きの類似度が導出される。

（第６実施形態）
図１２は、本発明の第６実施形態に係る動き評価システムＳ１の構成を示すブロック図である。動き評価システムＳ１は、制御部１０、表示部１５、動き検出部３で構成される。制御部１０、表示部１５、動き検出部３は、第４実施形態（図９、図１０）で説明したものと同等の構成を備えており、ここでの説明は省略する。ただし、第６実施形態では、動き評価システムＳ１の構成要素に音情報出力部１６、音情報取得部１７（図９参照）は含まれていなくてもよい。従って、記憶部１０ｂの不揮発性メモリには、音情報の生成に用いる音楽ファイル等は記憶されていなくてもよい。

以下、図１０を併用して説明を続ける。第６実施形態において、制御部１０は、動き検出部３に含まれる各慣性センサ３ｄ（ここでは、三軸加速度センサ）の出力（即ち、加速度情報）を積分し速度情報を得て、これを更に積分して位置情報を得る。そして各動き検出部３の位置情報を平均して、計測対象２の動きを代表する代表位置情報を得る。もちろん、加速度情報を平均して代表加速度情報を得てもよく、速度情報を平均して代表速度情報を得てもよい。このように第６実施形態では、代表位置情報を取得する過程で、代表加速度情報、代表速度情報を含む代表動き情報が得られる。もちろん、慣性センサ３ｄの個数は任意である。必要に応じて例えば複数の指のそれぞれに慣性センサ３ｄが配置され、これらの出力に基づき平均化された代表動き情報が算出されてもよい。また慣性センサ３ｄ毎に（即ち、平均することなく、例えば個々の指の単位で）代表動き情報が取得されてもよい。この点は、上述した第５実施形態についても同様であって、例えば手あるいは指に対応するキーポイントの座標値に基づき代表動き情報が導出されてもよい。

制御部１０は、算出された代表位置情報（代表動き情報）に基づいて第１計測対象２ａと第２計測対象２ｂとの動きの類似度を導出する。類似度の導出にあたっては、第２実施形態と同様に、第１計測対象２ａと第２計測対象２ｂとの代表動き情報を、時間軸を含まない座標空間に画素としてプロットした第１動き情報画像と、第２動き情報画像とが生成される。そして制御部１０は、第１動き情報画像と第２動き情報画像とを用いて、ＳＳＩＭ、ＭＳＳＩＭ、ＳＮＲ、ＰＳＮＲ等の評価値を算出する。第６実施形態においても、類似度が導出される計測対象２の動きは、「音」あるいは「音楽」と連動・同期していなくてもよい（もちろん、「音」あるいは「音楽」と連動・同期してもよい）。

このように、第６実施形態の動き評価システムＳ１は、第１計測対象２ａと第２計測対象２ｂとの動きを検出する動き検出部３と、制御部１０と、を備え、制御部１０は、動き検出部３の出力に基づいて、第１計測対象２ａと第２計測対象２ｂとについて、それぞれの動きを代表する少なくとも一つの代表動き情報を時系列に算出し、更に、それぞれの代表動き情報を、時間軸を含まない座標空間に画素としてプロットした第１動き情報画像と第２動き情報画像とを生成し、第１動き情報画像と第２動き情報画像とに基づいて、第１計測対象２ａと第２計測対象２ｂとの動きの類似度を導出する。これによって、各計測対象２の動きを代表する代表動き情報を画像として表現し、画像間の差異に基づき簡易に類似度を導出することが可能となる。

以上、本発明に係る動き評価システムＳ１、動き評価方法について特定の実施形態に基づいて詳細に説明したが、これらの実施形態はあくまでも例示であって、本発明はこれらの実施形態によって限定されるものではない。例えば、第１被写体１ａと第２被写体１ｂ（あるいは第１計測対象２ａと第２計測対象２ｂ）とは同一人物であってもよい。同一の被写体１について異なる時点でダンスを演じる際の動画ファイルを取得し、その類似度を導出することで、同一人の訓練の成果を数値として表すことが可能となる。

また、被写体１あるいは計測対象２は人間でなくてもよい。具体的には、例えば第１被写体１ａあるいは第２被写体１ｂのうちいずれか一方はロボットであってもよい。この場合、ロボットは音情報に合わせて変位するようにプログラミングされる。そして類似度に基づき、例えばロボットの動きの滑らかさ、応答速度、変位量が評価されうる。もちろん、第１被写体１ａと第２被写体１ｂとの両方がロボットであってもよい。

また、第１実施形態～第３実施形態では、ポーズ認識モデル４０（図３参照）のキーポイント４１の座標値に基づき代表位置情報を算出しているが、代表位置情報の算出に際して、いわゆるモーションキャプチャの技術を用いてもよい。具体的には、被写体１に装着された複数の反射型マーカを撮像部１３で撮影し、検出された反射型マーカの座標に基づき代表位置情報が取得される。

また、第１実施形態では、検出されたビートあるいはリズムに基づくタイミングに時間的に前後する代表位置情報のピーク値を、動き情報として抽出しているが、ビートが検出されたタイミングに時系列に最も近接するフレーム画像（評価用画像）を選択し、この評価用画像から取得した代表位置情報を動き情報として採用してもよい。またビートが検出されたタイミングを中心として、前後の所定期間内に取得された複数の代表位置情報の平均値を動き情報として採用してもよい。

また、各実施形態においては、同一の楽曲に合わせて同一の振り付けでダンスを演じても、スキルや習熟度の差によって、二つの被写体１（計測対象２）の動きには差異が生じることから、主に第１被写体１ａをダンスの指導者、第２被写体１ｂをその生徒として説明した。他方、本発明は、医師等と高齢者等との間で行われるリハビリテーションに応用してもよく、また発達障害等を有する子供の指導・支援に応用してもよい。

本発明に係る動き評価システムＳ１、動き評価方法は、指導者と生徒との動きの類似度を評価し、指導に反映することで、ダンスのパフォーマンスを向上させ、更に発達障害のある子供や高齢者の運動機能や注意力等の更なる改善を図ることが可能であることから、ダンス教室、発達障害等を有する子供に対する支援現場、老健施設や在宅介護の現場等において広く利用することができる。更に、本発明に係る動き評価システムＳ１は、作業、機器の操作、スポーツ等の動作を行う被写体間あるいは計測対象間の動きの類似度を簡易に導出することが可能であるから、動作分析・作業分析に基づく製造現場の効率改善、技能研修・検定・伝承、技術指導、スポーツの指導、ペットのトイレの躾、工場稼働部の異常検出等においても広く利用することができる。

１被写体
１ａ第１被写体
１ｂ第２被写体
２計測対象
３動き検出部
１０制御部
１３撮像部
１６音情報出力部
４０ポーズ認識モデル
４１キーポイント
５０ネットワーク
Ｓ１動き評価システム

Claims

第１被写体と第２被写体とを撮影する撮像部と、
制御部と、
を備え、
前記制御部は、
前記撮像部の出力に基づいて、前記第１被写体と前記第２被写体とについて、それぞれの動きを代表する少なくとも一つの代表動き情報を時系列に算出し、
更に、それぞれの前記代表動き情報を、時間軸を含まない座標空間に画素としてプロットした第１動き情報画像と第２動き情報画像とを生成し、
前記第１被写体と前記第２被写体との動きの類似度として、前記第１動き情報画像と前記第２動き情報画像とを構成する複数の前記画素の画素値に基づく画像間の画質評価指標を導出することを特徴とする動き評価システム。
第１計測対象と第２計測対象との動きを検出する動き検出部と、
制御部と、
を備え、
前記制御部は、
前記動き検出部の出力に基づいて、前記第１計測対象と前記第２計測対象とについて、それぞれの動きを代表する少なくとも一つの代表動き情報を時系列に算出し、
更に、それぞれの前記代表動き情報を、時間軸を含まない座標空間に画素としてプロットした第１動き情報画像と第２動き情報画像とを生成し、
前記第１計測対象と前記第２計測対象との動きの類似度として、前記第１動き情報画像と前記第２動き情報画像とを構成する複数の前記画素の画素値に基づく画像間の画質評価指標を導出することを特徴とする動き評価システム。
前記代表動き情報は、位置情報、速度情報、加速度情報のいずれかであることを特徴とする請求項１または請求項２に記載の動き評価システム。
前記第１動き情報画像と前記第２動き情報画像とにおいて、前記代表動き情報を、１画素サイズを超える所定のサイズのオブジェクトとして描画することを特徴とする請求項１または請求項２に記載の動き評価システム。
前記制御部は、
前記第１動き情報画像と前記第２動き情報画像とに基づき、前記類似度として構造的類似性（ＳＳＩＭ）指数を算出することを特徴とする請求項１または請求項２に記載の動き評価システム。
第１被写体と第２被写体とを撮影し、
前記第１被写体と前記第２被写体とについて、それぞれの動きを代表する少なくとも一つの代表動き情報を時系列に算出し、
更に、それぞれの前記代表動き情報を、時間軸を含まない座標空間に画素としてプロットした第１動き情報画像と第２動き情報画像とを生成し、
前記第１被写体と前記第２被写体との動きの類似度として、前記第１動き情報画像と前記第２動き情報画像とを構成する複数の前記画素の画素値に基づく画像間の画質評価指標を導出することを特徴とする動き評価方法。
第１計測対象と第２計測対象との動きを検出し、
前記第１計測対象と前記第２計測対象とについて、それぞれの動きを代表する少なくとも一つの代表動き情報を時系列に算出し、
更に、それぞれの前記代表動き情報を、時間軸を含まない座標空間に画素としてプロットした第１動き情報画像と第２動き情報画像とを生成し、
前記第１計測対象と前記第２計測対象との動きの類似度として、前記第１動き情報画像と前記第２動き情報画像とを構成する複数の前記画素の画素値に基づく画像間の画質評価指標を導出することを特徴とする動き評価方法。