JP2024063331A - 動作解析装置 - Google Patents
動作解析装置 Download PDFInfo
- Publication number
- JP2024063331A JP2024063331A JP2022171176A JP2022171176A JP2024063331A JP 2024063331 A JP2024063331 A JP 2024063331A JP 2022171176 A JP2022171176 A JP 2022171176A JP 2022171176 A JP2022171176 A JP 2022171176A JP 2024063331 A JP2024063331 A JP 2024063331A
- Authority
- JP
- Japan
- Prior art keywords
- motion
- images
- depth
- neural network
- analysis device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000033001 locomotion Effects 0.000 title claims abstract description 273
- 238000004458 analytical method Methods 0.000 title claims abstract description 74
- 238000013528 artificial neural network Methods 0.000 claims abstract description 74
- 238000009795 derivation Methods 0.000 claims abstract description 21
- 238000000034 method Methods 0.000 claims description 30
- 238000012549 training Methods 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 5
- 210000000988 bone and bone Anatomy 0.000 description 17
- 238000010586 diagram Methods 0.000 description 17
- 238000004891 communication Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 7
- 238000010606 normalization Methods 0.000 description 7
- 230000003936 working memory Effects 0.000 description 6
- 230000000052 comparative effect Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 210000000707 wrist Anatomy 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 3
- 210000003423 ankle Anatomy 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 210000003127 knee Anatomy 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 210000001015 abdomen Anatomy 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- YYJNOYZRYGDPNH-MFKUBSTISA-N fenpyroximate Chemical compound C=1C=C(C(=O)OC(C)(C)C)C=CC=1CO/N=C/C=1C(C)=NN(C)C=1OC1=CC=CC=C1 YYJNOYZRYGDPNH-MFKUBSTISA-N 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000002366 time-of-flight method Methods 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
【課題】 物体の動作を定量的に表す動作値を、高い精度で導出することが可能な動作解析装置などを提供する。【解決手段】 物体の動作を解析するための動作解析装置などである。この動作解析装置は、物体の動作が距離画像センサによって撮影された複数の深度画像21を取得する取得部と、物体の動作を定量的に表す動作値を出力可能なニューラルネットワーク31に、複数の深度画像21を入力して、動作値を導出する導出部とを備える。【選択図】図7
Description
本発明は、動作解析装置などに関する。
下記特許文献1には、動作解析装置が記載されている。この装置は、物体の動作を距離画像センサにより撮影した深度画像を取得する取得部と、物体の動作を定量的に表す動作値を出力とするニューラルネットワークに、取得部により取得された深度画像を入力することにより、動作値を導出する導出部とを備えている。
近年、物体の動作を撮影した深度画像から、その物体の動作値を導出するにあたり、導出精度のさらなる向上が求められている。
本発明は、以上のような実状に鑑み案出されたもので、物体の動作を定量的に表す動作値を、高い精度で導出することが可能な動作解析装置を提供することを主たる目的としている。
本発明は、物体の動作を解析するための動作解析装置であって、前記物体の動作が距離画像センサによって撮影された複数の深度画像を取得する取得部と、前記物体の動作を定量的に表す動作値を出力可能なニューラルネットワークに、前記複数の深度画像を入力して、前記動作値を導出する導出部とを備える、動作解析装置である。
本発明の動作解析装置は、上記の構成を採用することにより、物体の動作を定量的に表す動作値を、高い精度で導出することが可能となる。
以下、本発明の実施形態が図面に基づき説明される。図面は、発明の内容の理解を助けるために、誇張表現や、実際の構造の寸法比とは異なる表現が含まれることが理解されなければならない。また、各実施形態を通して、同一又は共通する要素については同一の符号が付されており、重複する説明が省略される。さらに、実施形態及び図面に表された具体的な構成は、本発明の内容理解のためのものであって、本発明は、図示されている具体的な構成に限定されるものではない。
[動作解析システム]
本実施形態の動作解析装置(動作解析システム)は、物体の動作の解析に用いられる。図1は、本実施形態の動作解析装置2を含む動作解析システム1を概念的に示す構成図である。
本実施形態の動作解析装置(動作解析システム)は、物体の動作の解析に用いられる。図1は、本実施形態の動作解析装置2を含む動作解析システム1を概念的に示す構成図である。
物体3は、動作するものであれば、特に限定されない。本実施形態の物体3は、人体である場合が例示されるが、例えば、生体(人体を除く)、及び、機械等であってもよい。
動作は、物体3の動きであれば、特に限定されない。動作の一例には、スポーツ等をしている人体の動き等が挙げられる。スポーツの一例には、ゴルフ、テニス、バドミントン、卓球、野球、バレーボール及び剣道等が挙げられる。
本実施形態では、人体(物体3)がゴルフクラブを把持したゴルファ5であり、動作がゴルフスイング(例えば、ゴルフクラブを用いたボールの打撃等)である場合が例示される。したがって、本実施形態の動作解析装置2は、ゴルファ5によるゴルフスイングの解析に好適に用いられ得る。解析結果は、例えば、ゴルフクラブのフィッティング、ゴルフスイングの改善、及び、ゴルフ用品の開発等に利用され得る。
本実施形態の動作解析システム1は、動作解析装置2と、距離画像センサ6とを含んで構成される。動作解析システム1(動作解析装置2)は、後述の動作解析方法や、学習モデルの生成方法を実行するのに用いられる。
[距離画像センサ]
距離画像センサ6は、物体3(本例では、ゴルファ5)の動作を撮影するためのものである。本実施形態の距離画像センサ6は、物体3(ゴルファ5)の前方に設置されている。これにより、距離画像センサ6は、物体3の動作(ゴルファ5によるゴルフスイング)を正面側から撮影することができる。
距離画像センサ6は、物体3(本例では、ゴルファ5)の動作を撮影するためのものである。本実施形態の距離画像センサ6は、物体3(ゴルファ5)の前方に設置されている。これにより、距離画像センサ6は、物体3の動作(ゴルファ5によるゴルフスイング)を正面側から撮影することができる。
本実施形態の距離画像センサ6は、三次元計測カメラである。このような距離画像センサ6は、物体3が動作する様子を二次元画像として撮影し、物体3を含む被写体までの距離を測定する測距機能を有している。したがって、本実施形態の距離画像センサ6は、二次元画像と、深度画像とを出力することができる。
二次元画像とは、撮影空間の像をカメラの光軸に直交する平面内へ投影した画像である。深度画像とは、二次元画像と略同じ撮像範囲内の画素に、カメラの光軸方向の被写体の奥行きのデータ(深度データ)を割り当てた画像である。
本実施形態の距離画像センサ6では、二次元画像が、赤外線画像として撮影される。深度画像は、赤外線を用いたタイムオブフライト方式やドットパターン投影方式等により取得される。このような距離画像センサ6には、例えば、特許文献1の距離画像センサと同一のものが用いられうる。本実施形態の距離画像センサ6には、例えば、マイクロソフト社製のKinect(登録商標)が用いられうる。
本実施形態の距離画像センサ6は、通信線(有線又は無線)7を介して、動作解析装置2と通信可能に接続されている。これにより、距離画像センサ6で撮影された深度画像が、動作解析装置2に送信されうる。なお、画像の送信は、このような通信線7に限定されるわけではなく、例えば、通信ネットワーク(WAN(Wide Area Network)やLAN(Local Area Network)等)を介して、距離画像センサ6と、動作解析装置2とが接続されてもよい。また、距離画像センサ6と動作解析装置2とが接続されない場合には、例えば、フラッシュメモリ等の記憶メディア(図示省略)等を介して、距離画像センサ6で撮影された深度画像が、動作解析装置2に入力されてもよい。
[動作解析装置]
動作解析装置2は、例えば、コンピュータ8によって構成される。コンピュータ8の一例には、デスクトップ型コンピュータ、ノート型コンピュータ、タブレットコンピュータ、スマートフォン、及び、クラウドサーバ等が挙げられる。本実施形態のコンピュータ8には、デスクトップ型コンピュータが採用される。図2は、本実施形態の動作解析装置2を示すブロック図である。
動作解析装置2は、例えば、コンピュータ8によって構成される。コンピュータ8の一例には、デスクトップ型コンピュータ、ノート型コンピュータ、タブレットコンピュータ、スマートフォン、及び、クラウドサーバ等が挙げられる。本実施形態のコンピュータ8には、デスクトップ型コンピュータが採用される。図2は、本実施形態の動作解析装置2を示すブロック図である。
本実施形態の動作解析装置2は、例えば、入力装置11と、出力装置12と、通信装置13と、演算処理装置14とを含んで構成されている。
[入力装置・出力装置]
入力装置11には、例えば、図1に示したキーボード11aやマウス11b等が用いられる。出力装置12には、例えば、図1に示したディスプレイ12aやプリンタ(図示省略)等が用いられる。
入力装置11には、例えば、図1に示したキーボード11aやマウス11b等が用いられる。出力装置12には、例えば、図1に示したディスプレイ12aやプリンタ(図示省略)等が用いられる。
[通信装置]
本実施形態の通信装置13には、通信線7(図1に示す)が接続される。これにより、通信装置13(動作解析装置2)は、距離画像センサ6(図1に示す)によって撮影された深度画像を、通信線7を介して取得(受信)することが可能となる。また、本実施形態の通信装置13(動作解析装置2)は、例えば、距離画像センサ6を制御するための信号を、通信線7を介して距離画像センサ6に送信しうる。
本実施形態の通信装置13には、通信線7(図1に示す)が接続される。これにより、通信装置13(動作解析装置2)は、距離画像センサ6(図1に示す)によって撮影された深度画像を、通信線7を介して取得(受信)することが可能となる。また、本実施形態の通信装置13(動作解析装置2)は、例えば、距離画像センサ6を制御するための信号を、通信線7を介して距離画像センサ6に送信しうる。
[演算処理装置]
本実施形態の演算処理装置14は、例えば、各種の演算を行う演算部(CPU)15、データやプログラム等が記憶される記憶部16、及び、作業用メモリ17を含んで構成されている。
本実施形態の演算処理装置14は、例えば、各種の演算を行う演算部(CPU)15、データやプログラム等が記憶される記憶部16、及び、作業用メモリ17を含んで構成されている。
[記憶部]
記憶部16は、例えば、磁気ディスク、光ディスク又はSSD等からなる不揮発性の情報記憶装置である。本実施形態の記憶部16には、データ部18及びプログラム部19が含まれる。
記憶部16は、例えば、磁気ディスク、光ディスク又はSSD等からなる不揮発性の情報記憶装置である。本実施形態の記憶部16には、データ部18及びプログラム部19が含まれる。
[データ部]
データ部18は、物体の動作の解析に必要なデータ(情報)や、解析結果等を記憶するためのものである。本実施形態のデータ部18には、深度画像入力部18a、動作値入力部18b、教師データ入力部18c及びニューラルネットワーク入力部18dが含まれる。なお、データ部18は、このような態様に限定されるわけではなく、これらの一部が省略されてもよいし、その他のデータが記憶されるデータ部が含まれてもよい。これらのデータ部18に入力されるデータの詳細は、後述される。
データ部18は、物体の動作の解析に必要なデータ(情報)や、解析結果等を記憶するためのものである。本実施形態のデータ部18には、深度画像入力部18a、動作値入力部18b、教師データ入力部18c及びニューラルネットワーク入力部18dが含まれる。なお、データ部18は、このような態様に限定されるわけではなく、これらの一部が省略されてもよいし、その他のデータが記憶されるデータ部が含まれてもよい。これらのデータ部18に入力されるデータの詳細は、後述される。
[プログラム部]
プログラム部19は、物体の動作の解析に必要なプログラム(コンピュータプログラム)である。プログラム部(プログラム)19は、演算部15によって実行されることにより、コンピュータ8を、特定の手段として機能させることができる。
プログラム部19は、物体の動作の解析に必要なプログラム(コンピュータプログラム)である。プログラム部(プログラム)19は、演算部15によって実行されることにより、コンピュータ8を、特定の手段として機能させることができる。
本実施形態のプログラム部19には、取得部19a、導出部19b、出力部19c及び学習部19dが含まれる。なお、プログラム部19は、このような態様に限定されるわけではなく、これらの一部が省略されてもよいし、その他の機能を有するプログラム部が含まれてもよい。例えば、ニューラルネットワーク入力部18dに、既に学習済みのニューラルネットワークが入力されている場合には、学習部19dが省略されてもよい。これらのプログラム部19の機能の詳細は、後述される。
[動作解析方法]
次に、本実施形態の動作解析方法が説明される。本実施形態の動作解析方法では、図1に示した物体3の動作(本例では、ゴルファ5によるゴルフスイング)が解析される。図3は、本実施形態の動作解析方法の処理手順を示すフローチャートである。本実施形態の動作解析方法の各工程は、図1及び図2に示した動作解析装置2(コンピュータ8)によって実行される。
次に、本実施形態の動作解析方法が説明される。本実施形態の動作解析方法では、図1に示した物体3の動作(本例では、ゴルファ5によるゴルフスイング)が解析される。図3は、本実施形態の動作解析方法の処理手順を示すフローチャートである。本実施形態の動作解析方法の各工程は、図1及び図2に示した動作解析装置2(コンピュータ8)によって実行される。
[複数の深度画像を取得]
本実施形態の動作解析方法では、先ず、複数の深度画像が取得される(工程S1)。複数の深度画像は、図1に示した物体3の動作(ゴルファ5によるゴルフスイング)が、距離画像センサ6によって撮影される。
本実施形態の動作解析方法では、先ず、複数の深度画像が取得される(工程S1)。複数の深度画像は、図1に示した物体3の動作(ゴルファ5によるゴルフスイング)が、距離画像センサ6によって撮影される。
本実施形態の工程S1では、先ず、図2に示したプログラム部19に含まれる取得部19aが、作業用メモリ17に読み込まれる。取得部19aは、物体3の動作が距離画像センサによって撮影された複数の深度画像を取得するためのプログラムである。この取得部19aが、演算部15によって実行されることで、コンピュータ8を、複数の深度画像を取得する手段として機能させることができる。
本実施形態の工程S1では、先ず、図1に示されるように、物体3に動作(ゴルファ5にゴルフスイング)させて、その物体3の動作が、距離画像センサ6によって撮影される。撮影は、オペレータ等が行ってもよいし、動作解析装置2(コンピュータ8)が行ってもよい。
本実施形態では、物体3の動作が、動画として撮影される。これにより、物体3の動作が、時系列で連続的に撮影された複数の深度画像を含む深度画像群として取得されうる。図4は、複数の深度画像21を含む深度画像群22を示す図である。図4では、深度画像群22に含まれる複数の深度画像21のうち、一部の深度画像21のみが示されており、他の深度画像が省略(「…」で表示)されている。
本実施形態の深度画像群22には、物体3の動作の開始から終了までを、時系列で連続的に撮影された複数の深度画像21が含まれる。より具体的には、本実施形態の深度画像群22は、ゴルファ5のアドレスからインパクトを経てフィニッシュまでの動作が記録された複数の深度画像21を含む。これらの深度画像21は、予め定められた第1時間間隔T1で撮影される。第1時間間隔T1は、特に限定されるわけではなく、例えば、距離画像センサ6の仕様等に基づいて設定される。本実施形態の第1時間間隔T1は、33msである。
距離画像センサ6では、一般的なカメラとは異なり、物体3の動作が左右反転した状態で撮影(ミラー処理)される場合がある。この場合、複数の深度画像21に、左右を反転(再反転)させる画像処理がそれぞれ行われるのが好ましい。
複数の深度画像21は、それぞれ正規化されるのが好ましい。ここで、正規化とは、物体3(ゴルファ5)を含む被写体の深度に合わせて、深度フレームの階調のスケール変換を行う処理である。このような正規化は、上記特許文献1の段落「0053」~「0055」に記載の手順に基づいて行われる。正規化の一例として、図5(a)は、正規化される前の深度画像21を示し、図5(b)は、図5(a)の深度画像21を正規化した深度画像21を示す。
本実施形態では、図5(a)に示した深度画像21が正規化されることで、図5(b)に示されるように、主として物体3(ゴルファ5)以外を捉えた領域(背景領域)に、画素値「0」(黒色)が与えられる。これにより、解析対象の物体3が鮮明化され、物体3を容易に特定(抽出)することが可能となる。
正規化された複数の深度画像21において、物体3(ゴルファ5)の近傍が、それぞれトリミング(切り抜き)されるのが好ましい。本実施形態では、正規化された各深度画像21について、例えば、物体3が全て含まれるようにトリミングされる。より具体的には、物体3の代表点(例えば、物体3の重心)を中心として、飛球線方向、及び、高さ方向に予め定められた大きさの領域が切り取られる。これにより、物体3の近傍がトリミングされた深度画像21が取得される。図4には、トリミングされた複数の深度画像21が示されている。
本実施形態では、正規化された深度画像21がトリミングされることにより、深度画像21中の物体3が占める領域(割合)を大きくなる。このような深度画像21は、後述のニューラルネットワークに入力されることで、物体3の動作を定量的に表す動作値を、高い精度で導出するのに役立つ。なお、トリミングされる領域の大きさは、例えば、ニューラルネットワークの学習に用いられる教師データ(教師データに用いられる画像の大きさ)に基づいて設定されうる。本実施形態の領域の大きさは、例えば、300pixel×300pixelに設定される。図4に示した複数の深度画像21(深度画像群22)は、深度画像入力部18a(図2に示す)に記憶される。
[物体の動作を表す動作値の導出]
次に、本実施形態の動作解析方法は、物体3(図1に示す)の動作を定量的に表す動作値を出力可能なニューラルネットワークに、複数の深度画像21を入力して、動作値を導出する(工程S2)。
次に、本実施形態の動作解析方法は、物体3(図1に示す)の動作を定量的に表す動作値を出力可能なニューラルネットワークに、複数の深度画像21を入力して、動作値を導出する(工程S2)。
本実施形態の工程S2では、先ず、図2に示されるように、深度画像入力部18aに入力された複数の深度画像21(図4に示した深度画像群22)が、作業用メモリ17に読み込まれる。さらに、工程S2では、ニューラルネットワーク入力部18dに入力されているニューラルネットワーク、及び、プログラム部19に含まれる導出部19bが、作業用メモリ17に読み込まれる。導出部19bは、ニューラルネットワークに、複数の深度画像21を入力して、動作値を導出するためのプログラムである。この導出部19bが、演算部15によって実行されることで、コンピュータ8を、ニューラルネットワークに複数の深度画像21を入力して動作値を導出する手段として機能させることができる。
ニューラルネットワークに入力される複数の深度画像21は、図4に示した深度画像群22から、適宜設定されうる。本実施形態では、導出部19bに、深度画像群22のうち、時系列で連続的に撮影された複数の深度画像21のセット23が入力される。複数の深度画像21のセットは、2枚以上の深度画像21を含んでいれば良いが、好ましくは、少なくとも3枚(本例では、3枚)の深度画像21を含むセット23とされる。
本実施形態のセット23は、1枚の深度画像21aと、深度画像21aと時間軸の前後で隣接する2枚の深度画像21b、21cとを含む。このようなセット23は、例えば、深度画像群22の最初から1ないし3番目の深度画像21のセット、2ないし4番目の深度画像21のセット23というように複数のセットとして設定される。なお、深度画像群22には、1番目の深度画像24と時間軸の前で隣接する深度画像や、最後の深度画像(図示省略)と時間軸の後で隣接する深度画像が存在しない。したがって、最初の深度画像24及び最後の深度画像(図示省略)を深度画像21aとするセット23は設定されなくても良い。
動作値は、物体3(図1に示す)の動作を定量的に表すことができれば、特に限定されない。本実施形態の動作値には、人体(本例では、ゴルファ5)の任意に位置とされる。本実施形態では、好ましい動作値として、人体の動きをより詳細に把握するために、人体の少なくとも1つの関節の位置データが採用される。動作値として、関節の位置に代えて、又は、関節の位置とともに、人体の特定の部位の位置データが採用されてもよいし、さらに、関節の姿勢であってもよい。
図6は、人体の関節25の位置データを説明する図である。この図6では、複数の関節(ジョイント)25と、これらの関節を連結するボーン(骨)26とを含むボーンデータ27が示されている。本実施形態の関節25の位置データは、人体の関節25の位置を、三次元座標で表したものである。本実施形態の位置データは、図1に示した物体3の正面視において、奥行方向(X軸方向)、飛球線方向(Y軸方向)及び高さ方向(Z軸方向)の座標値で示される。本実施形態において、各方向(奥行方向、飛球線方向、及び、高さ方向)のゼロの位置(基準位置)には、例えば、図1に示したゴルフボール28の位置が設定される。
関節25及び部位等は、物体3(図1に示す)の動作に応じて、適宜設定される。本実施形態の関節25又は人体の位置は、頭25a、喉25b、腹25c、右腰25d、左腰25e、右膝25f、左膝25g、右足首25h、左足首25i、右足先25j、左足先25k、右踵25l、左踵25m、右肩25n及び左肩25oが含まれる。さらに、関節25は、右肘外側25p、左肘外側25q、右肘内側25r、左肘内側25s、右手首外側25t、左手首外側25u、右手首内側25v、左手首内側25w、右手25x、及び、左手25yが含まれる。なお、関節25は、このような態様に限定されるわけではなく、例えば、解析の目的に応じて、これらの一部が省略されてもよいし、他の関節がさらに含まれてもよい。
プログラム部19の導出部19bは、予め機械学習させた学習モデル30を含む。図7は、学習モデル30を説明するための概念図である。本実施形態の学習モデル30は、ニューラルネットワーク31を含む。ニューラルネットワーク31は、脳の神経回路網を模した数理モデルである。このようなニューラルネットワーク31に、人工知能(AI:Artificial Intelligence)を用いたディープラーニング(深層学習)をさせることで、学習モデル30が生成される。本実施形態のニューラルネットワーク31には、特許文献(特開2021-099666号公報)に記載のニューラルネットワークと同様に、畳み込みニューラルネットワークであるResNet50が採用される。なお、ニューラルネットワーク31は、このような態様に限定されるわけではなく、他のモデルが採用されても良い。
本実施形態の学習モデル30は、動作解析方法の実施に先立って生成される。本実施形態では、図4に示した複数の深度画像21(本例では、セット23)から、物体3の動作を定量的に表す動作値(図6に示した人体の関節等の位置データ)が導出可能なように生成される。本実施形態の学習モデル30は、後述の学習モデルの生成方法に基づいて、ニューラルネットワーク31(学習モデル30)が生成される。
本実施形態のニューラルネットワーク31は、畳み込み層32、バッチノーマライゼーション層33、及び、プーリング層34を経た後、3つの畳み込み層のセット35を16回繰り返す、計50層(バッチノーマライゼーション層を除く)の層構成を有している。図7において、各畳み込み層(セット35)に記載の「数値×数値」は、カーネルのサイズである。複数のユニットからなる結合層36は、出力層37(本例では、関節の個数(25個)と座標軸の個数(3個)とを乗じた75個)に結合され、最終的に、動作値として、図6に示した人体の関節等の位置データが出力される。
本実施形態の工程S2では、ニューラルネットワーク31に、複数の深度画像21のセット(本例では、図4に示した深度画像群22から特定された複数のセット23)がそれぞれ入力される。これにより、工程S2では、物体3の動作を定量的に表す動作値(本例では、各セット23の深度画像21aの動作値)がそれぞれ導出される。
本実施形態の動作値は、ニューラルネットワーク31に入力されたセット23について、時系列の両端(すなわち、前端及び後端)に位置する深度画像21b、21cを除いた1枚の深度画像21aの動作値が出力されうる。図8は、導出された動作値を示す図である。図8には、図7に示した深度画像21のセット23に含まれる時系列的に真ん中に位置する深度画像21aの動作値が示されている。本実施形態の動作値には、人体の関節25等の位置データが含まれる。
このように、本実施形態の動作解析装置2及び動作解析方法では、動作値の特定に、複数の深度画像21(深度画像21a~21cのセット23)からなる多くの入力変数が、図7に示したニューラルネットワーク31に入力される。これにより、本実施形態の動作解析装置2及び動作解析方法は、動作値を高い精度で導出することが可能となる。
さらに、本実施形態では、図4に示したセット23を構成する3枚の深度画像21a~21cのうち、時系列の両端に位置する深度画像21b、21cを除いた1枚の深度画像21aの動作値が導出される。これにより、動作値が導出される深度画像21aと、その深度画像21aの動作と関連性の高い前後の深度画像21b、21cとが、ニューラルネットワーク31への入力変数に用いられるため、高い精度で動作値を導出することができる。
本実施形態では、図4に示した深度画像群22から特定された全てのセット23について、時系列の両端に位置する深度画像21b、21cを除いた1枚の深度画像21aの動作値がそれぞれ導出される。これにより、本実施形態では、深度画像群22に含まれる複数の深度画像21のうち、最初の深度画像24及び最後の深度画像(図示省略)を除く全ての深度画像21の動作値を、時系列で取得することができる。そして、これらの導出された動作値は、動作値入力部18b(図2に示す)に記憶される。
なお、本実施形態の動作値として取得される人体の関節25等の位置データは、例えば、距離画像センサ(例えば、Kinect(登録商標))によって、簡易的に取得ないし推定することができる。しかしながら、例えば、ゴルフスイング中において、例えば、手首など体の一部が隠れた状態で撮影されると、その隠れた部分の関節25等の位置データが取得されないことがある。本実施形態では、このような課題に対処すべく、ニューラルネットワーク31として、図8に示した全ての動作値を含む教師データを用いて機械学習させたモデルを用いている。これにより、図4に示した複数の深度画像21の撮影時に隠れた部分が含まれていたとしても、全ての関節25の位置データを推論することができる。
[動作値の出力]
次に、本実施形態の動作解析方法では、ニューラルネットワーク31から導出された動作値が出力される(工程S3)。
次に、本実施形態の動作解析方法では、ニューラルネットワーク31から導出された動作値が出力される(工程S3)。
本実施形態の工程S3では、先ず、図2に示した動作値入力部18bに入力された複数の動作値、及び、プログラム部19に含まれる出力部19cが、作業用メモリ17に読み込まれる。出力部19cは、学習モデル30(ニューラルネットワーク31)から導出された動作値を出力するためのプログラムである。この出力部19cが、演算部15によって実行されることで、コンピュータ8を、動作値を出力するための手段として機能させることができる。
本実施形態の工程S3では、工程S2で導出された人体の関節25及び各部位の三次元座標値からなる位置データが、出力装置12に出力される。出力値は、数値データである。数値データは、図8に示されるようなボーンモデルとして加工されても良い。以上により、図1に示したゴルファ5によるゴルフスイングの動作が詳細に把握されうる。このような動作値は、例えば、ゴルフクラブのフィッティング、ゴルフスイングの改善、及び、ゴルフ用品の開発等に利用されうる。
動作値としての図8に示した関節25等の位置データは、時系列に出力されてもよい。これにより、動作中の関節25の位置の変化が、動画として出力されうる。
工程S3では、関節25等の位置データと、時間との関係を示すグラフが出力されてもよい。図9は、左手25y(図6に示す)の位置データと、時間との関係を示すグラフである。図9(a)は、奥行方向(X軸方向)の位置データを示している。図9(b)は、飛球線方向(Y軸方向)の位置データを示している。図9(c)は、高さ方向(Z軸方向)の位置データを示している。
関節25等の位置データは、例えば、移動平均等によって平滑化され、スプライン補間が行われるのが好ましい。本実施形態のスプライン補間では、図4に示した第1時間間隔T1(33ms)の位置データが、第1時間間隔T1よりも小さい時間間隔(例えば1ms)の位置データに変換されている。これにより、図9(a)~(c)に示されるように、平滑化及び補間された滑らかな時系列の位置データが取得されうる。このようなグラフは、全ての関節25等の位置データについて出力されてもよい。
[学習モデルの生成方法]
次に、本実施形態の学習モデルの生成方法(以下、単に「生成方法」ということがある。)が説明される。ここでも、図1に示したように、物体がゴルファ5であり、物体の動作がゴルフスイングである場合を例にとり説明する。すなわち、本実施形態の生成方法では、ゴルファ5のゴルフスイングを解析するための学習モデルが生成される。
次に、本実施形態の学習モデルの生成方法(以下、単に「生成方法」ということがある。)が説明される。ここでも、図1に示したように、物体がゴルファ5であり、物体の動作がゴルフスイングである場合を例にとり説明する。すなわち、本実施形態の生成方法では、ゴルファ5のゴルフスイングを解析するための学習モデルが生成される。
本実施形態の生成方法では、図2に示されるように、先ず、プログラム部19に含まれる学習部19dが、作業用メモリ17に読み込まれる。学習部19dは、後述の教師データに基づいて、ニューラルネットワーク31(図7に示す)を学習させるためのプログラムである。この学習部19dが、演算部15によって実行されることで、コンピュータ8を、ニューラルネットワーク31を学習させるための手段として機能させることができる。
ニューラルネットワーク31の生成には、図1に示したゴルフスイングをしている複数のゴルファ5の画像を含む教師データが用いられる。このような画像は、複数のゴルファ5のゴルフスイングをそれぞれ撮影した深度画像であってもよい。代替的に、前記複数の画像は、深度画像に代えて、又は、深度画像とともに、ゴルファ5の動作を擬似的に再現したコンピュータグラフィックス(CG)の画像が用いられてもよい。この場合、動作値をより精度よく導出するために、コンピュータグラフィックスは、図4及び図5(b)に示した複数の深度画像21と近似させるのが好ましい。
図10は、教師データの一例として、複数の第1画像41を示す。個々の第1画像41は、ゴルファのスイングの瞬間を模擬した画像データであり、例えば、コンピュータグラフィックス(CG)の画像である。
本実施形態の教師データには、時系列で連続的に再現された複数の第1画像41のセット43が用いられる。本実施形態のセット43は、後述の第1画像群42(図14に示す)から選択された3枚の第1画像41からなる。第1画像群42は、時系列かつ連続的に再現された複数の第1画像41からなり、例えば、ゴルフスイングのアドレスからインパクトを経てフィニッシュまでを、時系列で再現した複数の第1画像41を含む。
本実施形態のセット43は、ゴルファのスイングのある瞬間の第1画像41aと、この第1画像41aとは時間軸の前後において、第1時間間隔T1(33ms)で離れた2枚の第1画像41b及び41cとを含む。本実施形態では、教師データとして、複数のセット43が用いられる。
ニューラルネットワーク31を生成するための教師データは、さらに、ゴルファのゴルフスイングを定量的に表す動作値を含む。本実施形態の動作値は、図10に示した各セット43について、時系列の両端(前端及び後端)に位置する第1画像41b、41cを除いた1枚の第1画像41aの動作値である。この動作値は、図8に示したように、ゴルファの関節25等の位置データである。
このように、本実施形態の生成方法では、複数の第1画像41(図10に示す)と、複数の第1画像41のそれぞれの動作値(図8に示す)とを含む教師データに基づいて、ニューラルネットワーク31(図7に示す)を学習させる。図11は、本実施形態の学習モデル30の生成方法の処理手順の一例を示すフローチャートである。
[複数の第1画像を取得]
本実施形態の生成方法では、先ず、図1に示したゴルファ5の動作をコンピュータグラフィックスで再現した複数の第1画像41(図10に示す)が取得される(工程S4)。
本実施形態の生成方法では、先ず、図1に示したゴルファ5の動作をコンピュータグラフィックスで再現した複数の第1画像41(図10に示す)が取得される(工程S4)。
本実施形態の工程S4では、先ず、様々なゴルファ5のゴルフスイングが、モーションキャプチャシステム(図示省略)で撮影される。モーションキャプチャシステムには、例えば、特許文献(特開2021-099666号公報)に記載のものが用いられる。
本実施形態のように、物体3の動作が、ゴルファ5によるゴルフスイングである場合には、例えば、ハンディキャップ、年齢、性別及び/又は体型等が異なる複数のゴルファ5のゴルフスイングが撮影されるのが好ましい。また、各ゴルファ5について、ティーショットや、アプローチショットなどの様々なゴルフスイングが撮影されるのが好ましい。これにより、様々なゴルファ5や様々なゴルフスイングを再現した教師データが取得され、動作値を高い精度で導出可能な学習モデル30(ニューラルネットワーク31)の生成が可能となる。
ゴルファ5の人体には、特許文献(特開2021-099666号公報)と同様に、光反射性の球体のマーカー(図示省略)が、複数取り付けられるのが好ましい。複数のマーカーは、ゴルファ5の各関節等(例えば、図6に示した頭25a~左手25yに対応する関節等)にそれぞれ取り付けられる。マーカーが取り付けられたゴルファ5の動作がモーションキャプチャシステムで撮影されることにより、ゴルファ5の各関節25等の位置データ(三次元座標値)が、時系列で連続的に取得されうる。
本実施形態では、図1に示したように、ゴルファ5の動作として、アドレスからインパクトを経てフィニッシュまでの関節25等の時系列の位置データがそれぞれ取得される。これにより、ゴルファ5のゴルフスイングについて、関節25等の時系列の位置データを含む位置データ群46がそれぞれ取得される。図12には、位置データ群46がボーンデータ群47として示されている。図12では、第1時間間隔T1(例えば、33ms)で取得された一部の位置データ(ボーンデータ27)が代表して示されており、第1時間間隔T1内に取得された複数の位置データが省略(「…」で表示)されている。
本実施形態において、位置データ群46に含まれる複数の位置データは、図4に示した複数の深度画像21が取得された第1時間間隔T1(例えば、33ms)よりも小さい第2時間間隔(例えば、2ms)で、時系列に取得される。これにより、位置データ群46は、第1時間間隔T1内に、関節25等の位置データを複数含むことから、各関節25等の位置(動き)がより詳細に把握されうる。
次に、本実施形態の工程S4では、各物体3の動作について、位置データ群46に含まれる各関節25等の位置データから、ボーンデータ27がそれぞれ取得される。ボーンデータ27は、複数の関節(ジョイント)25と、これらの関節を連結するボーン(骨)26とを含んで構成される。これにより、複数のゴルファ5のゴルフスイングについて、時系列に取得された複数のボーンデータ27を含むボーンデータ群47がそれぞれ取得されうる。
次に、本実施形態の工程S4では、ゴルファ5のゴルフスイングについて、ボーンデータ群47に含まれる各ボーンデータ27から、図10に示した複数の第1画像41(すなわち、ゴルファ5のゴルフスイングをコンピュータグラフィックスで再現したもの)を含む第1画像群42(図14に示す)をそれぞれ取得する。複数の第1画像41は、物体3としてゴルファ5をモデリングした物体モデル48を含む。図13は、物体モデル48を示す図である。
本実施形態では、図13に示されるように、予め定められた体型を規定する体型データに基づいて、各ボーンデータ27が肉付けされる。肉付けは、特許文献(特開2021-099666号公報)と同様の手順によって行われる。これにより、ゴルファ5が再現された物体モデル48がそれぞれ作成される。これらの物体モデル48により、複数のゴルファ5のゴルフスイングを、時系列で連続的に再現した複数の第1画像41を含む第1画像群42(図14に示す)が、それぞれ取得されうる。
図14は、複数の第1画像41が第2時間間隔で取得された第1画像群42を示す図である。図14では、第1時間間隔T1(例えば、33ms)で一部の第1画像41が代表して示されており、それらの間の第1画像41が省略(「…」で表示)されている。
本実施形態では、一人のゴルファ5から取得されたボーンデータ27に対して、体型が異なる複数の物体モデル48が作成されるのが好ましい。体型としては、例えば、「普通体型」、「痩身体型」及び「肥満体型」などが挙げられる。図13及び図14には、普通体型の物体モデル48が示されている。これにより、一人のゴルファ5から、体型が異なる複数のゴルファ5を模擬した物体モデル48が作成される。これにより、第1画像群42(図14に示す)の種類数が増加する。これにより、少ない労力でより多くの教師データを用意することができる。これは、物体3の動作値を高い精度で導出しうる学習モデル30(図7に示す)の生成に役立つ。
本実施形態では、一人のゴルファ5から取得された物体モデル48について、奥行方向(X軸方向)の立ち位置が異なる複数の物体モデル48が作成されるのが好ましい。立ち位置は、例えば、基準位置を0cmとしたときに、そこから前後に+3cmや-3cmで変化させることができる。さらに、本実施形態では、飛球線方向(Y軸方向)の立ち位置(例えば、0cm、+10cm、-10cm)が異なる複数の物体モデル48が作成されるのが好ましい。これにより、1つの物体3(ゴルファ5)から、立ち位置が異なる複数の物体(仮想した物体)をモデリングした物体モデル48が作成されるため、第1画像群42の種類数がさらに増加する。これは、物体3の動作値を高い精度で導出しうる学習モデル30の生成に役立つ。
ところで、図14に示された本実施形態の第1画像群42は、図12に示したボーンデータ群47(位置データ群46)から取得されるため、時間軸の前後で隣接する第1画像41の時間間隔が、上述の第2時間間隔(例えば、2ms)に設定されている。一方、図4に示されるように、ニューラルネットワーク31に入力される複数の深度画像21は、第1時間間隔T1(例えば、33ms)で撮影されており、第2時間間隔と相違する。このような深度画像21に基づいて、動作値を高い精度で導出可能なニューラルネットワーク31(図7に示す)を生成するには、教師データとして、図14に示した第1画像群42から、第1時間間隔T1で抽出した第1画像41を用いるのが好ましい。
本実施形態では、図14に示した第1画像群42において、ゴルファのスイングのある瞬間の第1画像41aと、この第1画像41aとは時間軸の前後において、第1時間間隔T1(33ms)で離れた2枚の第1画像41b及び41cが抽出される。これにより、第1時間間隔T1で時系列に並んだ3枚の第1画像41を含むセット43(図10に示す)が設定される。さらに、先ほど抽出した第1画像41aの時間を、第1画像群42の時間軸の始端(すなわち、「0」)及び終端に向かって、第2時間間隔(例えば、2ms)でスライドさせたときの時間に位置する複数の第1画像(図示省略)をそれぞれ抽出し、これらの第1画像と第1時間間隔T1(例えば、33ms)で離れた2枚の第1画像がそれぞれ抽出される。これにより、複数のセット43(図示省略)が設定されうる。なお、複数種類の第1画像群(例えば、体型や立ち位置が異なる第1画像群)42が設定された場合には、これらの第1画像群42ごとに、複数のセット43がそれぞれ設定される。
工程S4では、第1画像群42から、第1画像41aと、この第1画像41aとは時間軸の前後において、第1時間間隔T1(例えば、33ms)とは異なる時間間隔で離れた2枚の第1画像(図示省略)とを含むセット43(図示省略)が設定されてもよい。
例えば、第3時間間隔(例えば、30ms)で第1画像41が抽出されたセット43(図示省略)や、第4時間間隔(例えば、36ms)で第1画像41が抽出されたセット43が含まれても良い。そして、これらのセット43は、時間軸の前後で隣接する第1画像41、41の時間間隔が、図10に示した第1時間間隔T1(例えば、33ms)であるものとして利用される。これにより、これらのセット43は、図14に示した第1画像群42と共通のリソースを利用しつつ、図10に示したセット43とは異なる速度でゴルフスイングしているとみなしうるセット(図示省略)を設定することができる。
第3時間間隔で抽出されたセット43(図示省略)では、第3時間間隔(例えば、30ms)が第1時間間隔(例えば、33ms)に引き伸ばされる。このようなセット43は、図10に示したセット43よりも遅いスイング速度を再現した複数の第1画像41を設定できる。第4時間間隔で抽出されたセット43(図示省略)では、第4時間間隔(例えば、36ms)が第1時間間隔(例えば、33ms)に縮められる。このようなセットでは、図10に示したセット43よりも速いスイング速度を再現した複数の第1画像41が設定される。
なお、これらの時間間隔(例えば、30ms、33ms、36ms)で第1画像41が抽出されたセット43(図示省略)に限定されるわけではなく、他の時間間隔で、第1画像41が抽出されたセット43が含まれてもよい。これらのセット43は、図7に示したニューラルネットワーク31の教師データとして利用される。
以上のような実施形態では、1つの物体3(ゴルファ5)の動作から、速度が異なる動作を再現した3枚の第1画像41を含むセット43が作成されるため、少ない労力で教師データを効果的に増やすことができる。これにより、より多くの教師データを用いて、図7に示したニューラルネットワーク31を学習させることができる。これは、図1に示した物体3の動作の速度に依存することなく、動作値(図8に示す)を高い精度で導出しうる学習モデル30の生成が可能となる。また、各セット43は、3枚の第1画像41が、第1時間間隔T1(例えば、33ms)であるものとして利用されるため、学習モデル30(ニューラルネットワーク31)に入力が予定されているセット23(図4に示す)の第1時間間隔T1に対応させることができる。複数の第1画像41(セット43)は、教師データ入力部18c(図2に示す)に記憶される。
[複数の第1画像の動作値の取得]
次に、本実施形態の生成方法では、複数の第1画像41のそれぞれの動作値が取得される(工程S5)。本実施形態では、各セット43(図10に示す)について、時系列の両端に位置する第1画像41b、41cを除いた1枚の第1画像41aの動作値がそれぞれ取得される。
次に、本実施形態の生成方法では、複数の第1画像41のそれぞれの動作値が取得される(工程S5)。本実施形態では、各セット43(図10に示す)について、時系列の両端に位置する第1画像41b、41cを除いた1枚の第1画像41aの動作値がそれぞれ取得される。
動作値は、図13に示した物体モデル48の作成に用いられたボーンデータ27に含まれる複数の関節(ジョイント)25の位置データに基づいて、容易に取得されうる。動作値は、教師データ入力部18c(図2に示す)に記憶される。
[ニューラルネットワークの学習]
次に、本実施形態の生成方法は、複数の第1画像41(図10に示す)と、複数の第1画像41のそれぞれの動作値(図8及び図13に示す)とを含む教師データに基づいて、ニューラルネットワーク31(図7に示す)を学習させる(工程S6)。
次に、本実施形態の生成方法は、複数の第1画像41(図10に示す)と、複数の第1画像41のそれぞれの動作値(図8及び図13に示す)とを含む教師データに基づいて、ニューラルネットワーク31(図7に示す)を学習させる(工程S6)。
本実施形態の工程S6では、教師データとして設定された複数の第1画像41のセット43(一例として、図10に示す)がニューラルネットワーク31(図7に示す)に入力され、それぞれ動作値が出力される。そして、各セット43から出力された動作値(導出値)と、教師データとして設定された各セット43の動作値(真値)との誤差を最小化するように、ニューラルネットワーク31のパラメータが更新される。これにより、ニューラルネットワーク31の学習(誤差逆伝搬法( Backpropagation ))が行われ、学習モデル30が生成される。ニューラルネットワーク31(学習モデル30)は、ニューラルネットワーク入力部18d(図2に示す)に記憶される。
本実施形態では、ニューラルネットワーク31(図7に示す)の学習に、第1画像41のセット43(第1画像41a~41c)を含む多くの入力変数が用いられるため、動作値の導出精度を向上させることができる。さらに、セット43には、出力層37の動作値が出力される第1画像41aと、その第1画像41aの動作と関連性の高い前後の第1画像41b、41cとが含まれるため、動作値を高い精度で導出可能な学習モデル30が生成されうる。
本実施形態の教師データには、図10に示した複数の第1画像41について、時間軸の前後で隣接する第1画像41の時間間隔を互いに異ならせた複数の第1画像41のセット43が含まれる。これにより、学習モデル30(ニューラルネットワーク31)は、物体3の動作の速度に依存することなく、様々な動作(ゴルフスイング)の動作値を、高い精度で導出することができる。
教師データには、複数の第1画像41(図10及び図14に示す)のそれぞれに対応する撮影された深度画像(図示省略)がさらに含まれてもよい。このような深度画像は、モーションキャプチャシステム(図示省略)を用いて各関節25の位置データ(図12に示す)を取得する際に、距離画像センサ6(図1に示す)を用いて、複数の物体3(ゴルファ5)の動作を撮影することで取得されうる。本実施形態では、複数のセット43(図10に示す)とともに、これらのセット43に含まれる複数の第1画像41に対応する深度画像(図示省略)が、教師データとして入力される。これにより、第1画像41に比べて、工程S2で入力される複数の深度画像21(図4に示した複数のセット23)に近似する教師データに基づいて、ニューラルネットワーク31の学習が行われるため、動作値をより高い精度で導出することが可能となる。
[学習モデルの精度の評価]
次に、本実施形態の生成方法では、図7に示した学習モデル30(ニューラルネットワーク31)から導出される動作値(図8及び図13に示す)の導出精度が評価される(工程S7)。導出精度の評価は、適宜実施することができ、例えば、公知のブラインドテストが実施されうる。この場合、例えば、深度画像21のセット23(図4に示す)や第1画像41のセット43(図10に示す)の教師データを含むテストデータに基づいて、学習モデル30から、テストデータの動作値が導出される。そして、導出されたテストデータの動作値と、実際の動作値(図示省略)との相関係数が許容範囲内である場合、導出精度が良好であると評価される。
次に、本実施形態の生成方法では、図7に示した学習モデル30(ニューラルネットワーク31)から導出される動作値(図8及び図13に示す)の導出精度が評価される(工程S7)。導出精度の評価は、適宜実施することができ、例えば、公知のブラインドテストが実施されうる。この場合、例えば、深度画像21のセット23(図4に示す)や第1画像41のセット43(図10に示す)の教師データを含むテストデータに基づいて、学習モデル30から、テストデータの動作値が導出される。そして、導出されたテストデータの動作値と、実際の動作値(図示省略)との相関係数が許容範囲内である場合、導出精度が良好であると評価される。
工程S7において、学習モデル30の導出精度が良好であると判断された場合(工程S7で「Yes」)、生成方法の一連の処理が終了する。一方、学習モデル30の導出精度が良好ではないと判断された場合(工程S7で「No」)、新たな教師データが追加され(工程S8)、工程S6及び工程S7が再度実施される。
本実施形態の生成方法では、学習モデル30の導出精度が良好となるまで、ニューラルネットワークを繰り返し学習させるため、動作値を高い精度で導出可能な学習モデル30(ニューラルネットワーク31)を確実に生成することができる。
以上、本発明の特に好ましい実施形態について詳述したが、本発明は図示の実施形態に限定されることなく、種々の態様に変形して実施しうる。
図1及び図2動作解析装置を用いて、物体の動作(ゴルファによるゴルフスイング)が解析された(実施例)。実施例では、先ず、図3に示した処理手順に基づいて、物体の動作が距離画像センサによって撮影され、複数の深度画像が取得された。そして、物体の動作を定量的に表す動作値を出力可能なニューラルネットワークに、複数の深度画像が入力され、動作値が導出された。
実施例では、複数の深度画像のうち、時系列で連続的に撮影された3枚の深度画像のセットが入力された。そして、セットのうち、時系列の両端に位置する深度画像を除いた1つの深度画像の動作値(25箇所の関節等の座標値)が導出された。
実施例で用いられたニューラルネットワークは、図11に示した処理手順に基づき、物体の動作をコンピュータグラフィックスで再現した複数の第1画像と、複数の第1画像のそれぞれの動作値とを含む教師データを用いて学習された。
複数の第1画像には、複数のゴルファの動作を撮影して得られた物体モデルに基づいて、奥行方向の立ち位置、飛球線方向の立ち位置、及び、体型の種類を異ならせた複数の物体モデルからなる複数の第1画像(第1画像群)が設定された。そして、第1画像群から時系列で連続する3枚の第1画像が選択されたセットと、そのセットのうち時系列の両端に位置する第1画像を除いた1枚の画像の動作値とを含む教師データが複数設定され、ニューラルネットワークの学習に用いられた。
比較のために、物体の動作を定量的に表す動作値を出力可能なニューラルネットワークに、1枚の深度画像が入力され、その深度画像の動作値(25箇所の関節の座標値)が導出された(比較例)。比較例では、実施例の第1画像群から選択された1枚の第1画像と、その第1画像の動作値とを含む教師データが複数設定された。そして、複数の教師データに基づいて、ニューラルネットワークが学習された。
そして、実施例及び比較例について、25箇所の関節の座標値の二乗平均平方根誤差(導出値と真値との差を二乗して、それらの総和を関節合計数で除した値について、平方根をとった値)が求められた。共通仕様は、次のとおりである。
第1画像群の個数:810個
動作が撮影されたゴルファ:30人
奥行方向の立ち位置の種類:3種類(0cm、+3cm、-3cm)
飛球線方向の立ち位置の種類:3種類(0cm、+10cm、-10cm)
体型の種類:3種類(普通体型、痩身体型及び肥満体型)
第1時間間隔:33ms
第1画像群の個数:810個
動作が撮影されたゴルファ:30人
奥行方向の立ち位置の種類:3種類(0cm、+3cm、-3cm)
飛球線方向の立ち位置の種類:3種類(0cm、+10cm、-10cm)
体型の種類:3種類(普通体型、痩身体型及び肥満体型)
第1時間間隔:33ms
テストの結果、比較例の二乗平均平方根誤差が4.6cmであったのに対し、実施例の二乗平均平方根誤差が4.2cmであった。したがって、実施例は、比較例に比べて誤差を小さくでき、物体の動作を定量的に表す動作値を、高い精度で導出することができた。
[付記]
本発明は以下の態様を含む。
本発明は以下の態様を含む。
[本発明1]
物体の動作を解析するための動作解析装置であって、
前記物体の動作が距離画像センサによって撮影された複数の深度画像を取得する取得部と、
前記物体の動作を定量的に表す動作値を出力可能なニューラルネットワークに、前記複数の深度画像を入力して、前記動作値を導出する導出部とを備える、
動作解析装置。
[本発明2]
前記物体は、ゴルフクラブを把持したゴルファである、本発明1に記載の動作解析装置。
[本発明3]
前記動作は、ゴルフスイングである、本発明2に記載の動作解析装置。
[本発明4]
前記取得部は、前記物体の動作が時系列で連続的に撮影された前記深度画像を取得する、本発明1ないし3のいずれかに記載の動作解析装置。
[本発明5]
前記導出部は、前記時系列で連続的に撮影された少なくとも3枚の深度画像のセットを入力する、本発明4に記載の動作解析装置。
[本発明6]
前記導出部は、前記セットのうち、前記時系列の両端に位置する深度画像を除いた1枚の深度画像の前記動作値を導出する、本発明5に記載の動作解析装置。
[本発明7]
前記物体は、人体であり、
前記動作値は、前記人体の関節の位置データを含む、本発明1ないし6のいずれかに記載の動作解析装置。
[本発明8]
前記ニューラルネットワークを学習させる学習部をさらに備え、
前記学習部は、前記物体の動作をコンピュータグラフィックスで再現した複数の第1画像と、前記複数の第1画像のそれぞれの動作値とを含む教師データに基づいて、前記ニューラルネットワークを学習させる、本発明1ないし7のいずれかに記載の動作解析装置。
[本発明9]
前記複数の第1画像は、前記物体の動作を時系列で連続的に再現したものであり、
前記教師データは、前記複数の第1画像について、時間軸の前後で隣接する第1画像の時間間隔を互いに異ならせた複数の第1画像のセットを含む、本発明8に記載の動作解析装置。
[本発明10]
物体の動作を解析するための学習モデルの生成方法であって、
前記物体の動作をコンピュータグラフィックスで再現した複数の第1画像と、前記複数の第1画像のそれぞれの動作値とを含む教師データに基づいて、ニューラルネットワークを学習させる、
学習モデルの生成方法。
[本発明11]
物体の動作を解析するための方法であって、
前記物体の動作が距離画像センサによって撮影された複数の深度画像を取得する工程と、
前記物体の動作を定量的に表す動作値を出力可能なニューラルネットワークに、前記複数の深度画像を入力して、前記動作値を導出する工程とを含む、
動作解析方法。
[本発明12]
物体の動作を解析するためのコンピュータプログラムであって、
コンピュータを、
前記物体の動作が距離画像センサによって撮影された複数の深度画像を取得する手段と、
前記物体の動作を定量的に表す動作値を出力可能なニューラルネットワークに、前記複数の深度画像を入力して、前記動作値を導出する手段として機能させる、
コンピュータプログラム。
物体の動作を解析するための動作解析装置であって、
前記物体の動作が距離画像センサによって撮影された複数の深度画像を取得する取得部と、
前記物体の動作を定量的に表す動作値を出力可能なニューラルネットワークに、前記複数の深度画像を入力して、前記動作値を導出する導出部とを備える、
動作解析装置。
[本発明2]
前記物体は、ゴルフクラブを把持したゴルファである、本発明1に記載の動作解析装置。
[本発明3]
前記動作は、ゴルフスイングである、本発明2に記載の動作解析装置。
[本発明4]
前記取得部は、前記物体の動作が時系列で連続的に撮影された前記深度画像を取得する、本発明1ないし3のいずれかに記載の動作解析装置。
[本発明5]
前記導出部は、前記時系列で連続的に撮影された少なくとも3枚の深度画像のセットを入力する、本発明4に記載の動作解析装置。
[本発明6]
前記導出部は、前記セットのうち、前記時系列の両端に位置する深度画像を除いた1枚の深度画像の前記動作値を導出する、本発明5に記載の動作解析装置。
[本発明7]
前記物体は、人体であり、
前記動作値は、前記人体の関節の位置データを含む、本発明1ないし6のいずれかに記載の動作解析装置。
[本発明8]
前記ニューラルネットワークを学習させる学習部をさらに備え、
前記学習部は、前記物体の動作をコンピュータグラフィックスで再現した複数の第1画像と、前記複数の第1画像のそれぞれの動作値とを含む教師データに基づいて、前記ニューラルネットワークを学習させる、本発明1ないし7のいずれかに記載の動作解析装置。
[本発明9]
前記複数の第1画像は、前記物体の動作を時系列で連続的に再現したものであり、
前記教師データは、前記複数の第1画像について、時間軸の前後で隣接する第1画像の時間間隔を互いに異ならせた複数の第1画像のセットを含む、本発明8に記載の動作解析装置。
[本発明10]
物体の動作を解析するための学習モデルの生成方法であって、
前記物体の動作をコンピュータグラフィックスで再現した複数の第1画像と、前記複数の第1画像のそれぞれの動作値とを含む教師データに基づいて、ニューラルネットワークを学習させる、
学習モデルの生成方法。
[本発明11]
物体の動作を解析するための方法であって、
前記物体の動作が距離画像センサによって撮影された複数の深度画像を取得する工程と、
前記物体の動作を定量的に表す動作値を出力可能なニューラルネットワークに、前記複数の深度画像を入力して、前記動作値を導出する工程とを含む、
動作解析方法。
[本発明12]
物体の動作を解析するためのコンピュータプログラムであって、
コンピュータを、
前記物体の動作が距離画像センサによって撮影された複数の深度画像を取得する手段と、
前記物体の動作を定量的に表す動作値を出力可能なニューラルネットワークに、前記複数の深度画像を入力して、前記動作値を導出する手段として機能させる、
コンピュータプログラム。
21 深度画像
31 ニューラルネットワーク
31 ニューラルネットワーク
Claims (12)
- 物体の動作を解析するための動作解析装置であって、
前記物体の動作が距離画像センサによって撮影された複数の深度画像を取得する取得部と、
前記物体の動作を定量的に表す動作値を出力可能なニューラルネットワークに、前記複数の深度画像を入力して、前記動作値を導出する導出部とを備える、
動作解析装置。 - 前記物体は、ゴルフクラブを把持したゴルファである、請求項1に記載の動作解析装置。
- 前記動作は、ゴルフスイングである、請求項2に記載の動作解析装置。
- 前記取得部は、前記物体の動作が時系列で連続的に撮影された前記深度画像を取得する、請求項1又は2に記載の動作解析装置。
- 前記導出部は、前記時系列で連続的に撮影された少なくとも3枚の深度画像のセットを入力する、請求項4に記載の動作解析装置。
- 前記導出部は、前記セットのうち、前記時系列の両端に位置する深度画像を除いた1枚の深度画像の前記動作値を導出する、請求項5に記載の動作解析装置。
- 前記物体は、人体であり、
前記動作値は、前記人体の関節の位置データを含む、請求項1又は2に記載の動作解析装置。 - 前記ニューラルネットワークを学習させる学習部をさらに備え、
前記学習部は、前記物体の動作をコンピュータグラフィックスで再現した複数の第1画像と、前記複数の第1画像のそれぞれの動作値とを含む教師データに基づいて、前記ニューラルネットワークを学習させる、請求項1又は2に記載の動作解析装置。 - 前記複数の第1画像は、前記物体の動作を時系列で連続的に再現したものであり、
前記教師データは、前記複数の第1画像について、時間軸の前後で隣接する第1画像の時間間隔を互いに異ならせた複数の第1画像のセットを含む、請求項8に記載の動作解析装置。 - 物体の動作を解析するための学習モデルの生成方法であって、
前記物体の動作をコンピュータグラフィックスで再現した複数の第1画像と、前記複数の第1画像のそれぞれの動作値とを含む教師データに基づいて、ニューラルネットワークを学習させる、
学習モデルの生成方法。 - 物体の動作を解析するための方法であって、
前記物体の動作が距離画像センサによって撮影された複数の深度画像を取得する工程と、
前記物体の動作を定量的に表す動作値を出力可能なニューラルネットワークに、前記複数の深度画像を入力して、前記動作値を導出する工程とを含む、
動作解析方法。 - 物体の動作を解析するためのコンピュータプログラムであって、
コンピュータを、
前記物体の動作が距離画像センサによって撮影された複数の深度画像を取得する手段と、
前記物体の動作を定量的に表す動作値を出力可能なニューラルネットワークに、前記複数の深度画像を入力して、前記動作値を導出する手段として機能させる、
コンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022171176A JP2024063331A (ja) | 2022-10-26 | 2022-10-26 | 動作解析装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022171176A JP2024063331A (ja) | 2022-10-26 | 2022-10-26 | 動作解析装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024063331A true JP2024063331A (ja) | 2024-05-13 |
Family
ID=91030537
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022171176A Pending JP2024063331A (ja) | 2022-10-26 | 2022-10-26 | 動作解析装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2024063331A (ja) |
-
2022
- 2022-10-26 JP JP2022171176A patent/JP2024063331A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109716444B (zh) | 运动表现的评估与指导 | |
US7404774B1 (en) | Rule based body mechanics calculation | |
US11640725B2 (en) | Quantitative, biomechanical-based analysis with outcomes and context | |
Elaoud et al. | Skeleton-based comparison of throwing motion for handball players | |
JP7235133B2 (ja) | 運動認識方法、運動認識プログラムおよび情報処理装置 | |
JP2011503685A (ja) | レンダリングされた像の表示設定を選択するための方法及びシステム | |
US12062123B2 (en) | 3D avatar generation using biomechanical analysis | |
Chun et al. | A sensor-aided self coaching model for uncocking improvement in golf swing | |
CN104732560B (zh) | 基于动作捕捉系统的虚拟摄像机拍摄方法 | |
Ohri et al. | On-device realtime pose estimation & correction | |
Ida et al. | A study of kinematic cues and anticipatory performance in tennis using computational manipulation and computer graphics | |
CN115862810B (zh) | 具有量化评估功能的vr康复训练方法及系统 | |
JP2024063331A (ja) | 動作解析装置 | |
Tannoury et al. | Human pose estimation for physiotherapy following a car accident using depth-wise separable convolutional neural networks. | |
KR20170140756A (ko) | 동작 교본 저작 장치, 동작 자가 학습 장치 및 방법 | |
US11908161B2 (en) | Method and electronic device for generating AR content based on intent and interaction of multiple-objects | |
JP2024063332A (ja) | 動作解析装置 | |
JP7482471B2 (ja) | 学習モデルの生成方法 | |
Sharma et al. | Digital Yoga Game with Enhanced Pose Grading Model | |
KR20230112636A (ko) | 정보 처리 장치, 정보 처리 방법 및 프로그램 | |
KR102342760B1 (ko) | 인공지능 기반의 골프 영상 학습장치, 그 방법 및 그 기록매체 | |
US20240355029A1 (en) | 3d avatar generation using biomechanical analysis | |
WO2023188217A1 (ja) | 情報処理プログラム、情報処理方法、および情報処理装置 | |
JP2020086511A (ja) | データ補正装置およびプログラム | |
WO2023062762A1 (ja) | 推定プログラム、推定方法および情報処理装置 |