JP7146247B2 - 動作認識方法及び装置 - Google Patents

動作認識方法及び装置 Download PDF

Info

Publication number
JP7146247B2
JP7146247B2 JP2018164554A JP2018164554A JP7146247B2 JP 7146247 B2 JP7146247 B2 JP 7146247B2 JP 2018164554 A JP2018164554 A JP 2018164554A JP 2018164554 A JP2018164554 A JP 2018164554A JP 7146247 B2 JP7146247 B2 JP 7146247B2
Authority
JP
Japan
Prior art keywords
motion
basic
target
score
segments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018164554A
Other languages
English (en)
Other versions
JP2020038440A5 (ja
JP2020038440A (ja
Inventor
仁彦 中村
渉 高野
洋介 池上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Tokyo NUC
Original Assignee
University of Tokyo NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Tokyo NUC filed Critical University of Tokyo NUC
Priority to JP2018164554A priority Critical patent/JP7146247B2/ja
Priority to US17/273,148 priority patent/US20240020853A1/en
Priority to PCT/JP2019/033662 priority patent/WO2020050111A1/ja
Publication of JP2020038440A publication Critical patent/JP2020038440A/ja
Publication of JP2020038440A5 publication Critical patent/JP2020038440A5/ja
Application granted granted Critical
Publication of JP7146247B2 publication Critical patent/JP7146247B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/215Motion-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N99/00Subject matter not provided for in other groups of this subclass
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/143Segmentation; Edge detection involving probabilistic approaches, e.g. Markov random field [MRF] modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/84Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
    • G06V10/85Markov-related models; Markov random fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30221Sports video; Sports image

Description

本発明は、動作認識方法及び装置に関するものである。
人間の動作を分節化して認識しようとする研究は存在する(非特許文献1、2)。運動学・動力学計算に代表されるロボティクスのアルゴリズムは統計的手法を利用した人間の全身運動の分節化・識別・予測技術へと展開されている。これら計算技術の応用先は、スポーツトレーニング、リハビリテーションなど多岐に渡る。
スポーツにおける動作認識について考えると、人間の動作のセンシング技術の向上、人工知能のための機械学習技術の発展、スポーツにおける動作や技能の複雑化、高度化及びそれに伴う人による判定の限界等の背景から、審判員によって採点が必要な競技における機械による自動採点技術の利用が課題となる。身体運動計測と高度情報処理技術は、このような課題に対して一つの解決法を与えると考えられる(非特許文献3)。
特許文献1には、対象の演技を評価する運動認識装置が開示されており、当運動認識装置は、分節部と、識別部と、評価部とを備えており、対象の演技データを分節化して演技の技および難度を評価するものである。
WO2018/070414
Wataru Takano, Yoshihiko Nakamura,"Real-time Unsupervised Segmentation of human whole-body motion and its application to humanoid robot acquisition of motion symbols,"Robotics and Autonomous Systems, Vol.75, PartB,pp.262-272,2016 Wataru Takano, Hirotaka Imagawa, Yoshihiko Nakamura, "Spatio-temporal structure of human motion primitives and its application to motion prediction,"Robotics and Autonomous Systems, Vol.75, PartB, pp.2288-2296,2016 J. Shin and S. Ozawa. A study on motion analysis of an artistic gymnastics by using dynamic image processing - for a development of automatic scoring system of horizontal bar -. In Proceedings of IEEE International Conference on Systems, Man and Cybernetics, pages 1037-1042,2008.
本発明は、対象の動作を分節化して得られた基本動作の連続を考慮して、動作の認識を最適化問題として扱うことによって、動作の発見と評価を自動で行うことを目的とするものである。
本発明は、人間の動作の識別とその説明を行うための技術に関するものであり、
人間の動作を分節化する計算、
切り取られたセグメントごとに基本動作と比較して識別する計算、及び、
基本動作の一連からなる動作を発見して、その動作が前後関係から適切な説明かどうかを評価して決定する計算、からなり、
基本動作の系列から動作、体操なのどの運動競技では「技」、を発見する問題を、動的計画法を適用して最適化問題の解として計算する。
本発明は、一般の人間の動作の解釈を自動的に行うシステムや、体操、フィギュアスケートなどの運動の技を認識して採点する自動採点システムにも応用できる。
本発明が採用した動作認識方法は、
対象の動作を規定する時系列データを複数のセグメントに分節し、
各セグメントを、当該セグメントの時系列データを用いて基本動作のクラスに分類し、
前記対象の動作を、連続する基本動作からなる上位記号の系列に変換するステップであり、上位記号と基本動作列の組からスコアを算出する関数が用意されており、動的計画法を用いた最適化計算により、前記対象の動作を上位記号の系列に変換する、
ことからなる。
本発明が採用した動作認識装置は、 動作の認識装置は、記憶部と処理部とを備え、
前記記憶部には、複数の基本動作のクラスが格納されており、
前記処理部は、
対象の動作を規定する時系列データを複数のセグメントに分節し、
各セグメントを、当該セグメントの時系列データを用いて、基本動作のクラスに分類し、
前記対象の動作を、連続する基本動作からなる上位記号の系列に変換する、
ように構成されており、
前記記憶部には、さらに、上位記号と基本動作列の組からスコアを算出する関数が規定されており、
前記処理部は、前記スコアを用いて、前記対象の動作を、動的計画法を用いた最適化計算により、上位記号列に変換する、
ように構成されている。
本発明は、また、コンピュータを、上記装置の記憶部、処理部として機能させるコンピュータプログラム、あるいは、当該コンピュータプログラムを記憶したコンピュータ可読媒体として提供される。
前記動的計画法を用いた最適化計算は、
以下の関数漸化式
Figure 0007146247000001
を用いるものであり、
ここで、
Nは、対象の動作を分節して得られたセグメントの数、
Figure 0007146247000002
は、時系列としての基本動作列
Figure 0007146247000003
から k個の上位記号を抽出した時に得られる最大スコアであり、
Figure 0007146247000004
は、
基本動作列
Figure 0007146247000005
を1つの上位記号として識別したときに得られるスコアである。
なお、上記漸化式と形式上異なる式であっても、当業者において等価であると考えられる式は、本発明の範囲に含まれる。
1つの態様では、上位記号に対応する1つあるいは複数の基本動作列及びスコアを備えたテーブルが用意されている。
1つの態様では、上位記号と基本動作列の組合せのスコアを確率値(尤度)として計算する関数を学習しておく。この関数として、上位記号と基本動作列を入力として、尤度を出力する統計モデルやニューラルネット等を用いることができる。動作認識装置の記憶部には、上記関数のパラメータが記憶されており、前記処理部は、前記パラメータを利用して上位記号と基本動作列の組合せのスコアを算出する。
1つの態様では、前記セグメントは、隠れマルコフモデル(HMM)を用いて、基本動作のクラスに分類される。
1つの態様では、前記上位記号は、運動競技における技である。
各技に対応するスコアを、実際の採点と整合させるように設定することで、対象の動作から技を同定すると同時に、自動採点に用いることができる技の難度に関連するスコア(例えば、体操競技におけるDスコア)を出力することができる。
1つの態様では、得られた上位記号をセグメントとして、前記対象の動作をさらに上位の動作を表す上位記号列に変換してもよい。
本発明は、対象の動作データを上位記号列に変換することによって、対象の動作を認識するものである。
本実施形態は、体操競技の技は得点が高くなるように切り出された基本動作の系列であることに着目して技を識別するものである。
動作の認識装置の全体図である。 動作の認識装置のハードウェア構成を示す概略図である。 動作の認識工程を示すフローチャートである。 動作における技の同定工程を示すフローチャートである。 セグメントを基本動作のクラスに分類する分類器の構成を示す図である。 対象の動作に対応する基本動作列を上位記号列に変換する工程を示す図である。 あん馬の動作における分節点の条件を説明する図である。 本実施形態に係る動作認識を示す概念図である。
[A]本実施形態に係る動作認識装置の概要
図1に示すように、本実施形態に係る動作認識装置は、処理部と記憶部を備えており、モーションキャプチャで取得された対象の動作データに基づいて、対象の動作の解釈を行う。動作認識装置は1つあるいは複数のコンピュータから構成される。図2に示すように、モーションキャプチャは、1つの態様では、対象の動作の動画データを取得するカメラと、動画データに基づいて対象の動作を表す時系列データを取得する1つあるいは複数のコンピュータから構成される。コンピュータは、入力部、処理部、記憶部(RAM、ROM)、出力部を備えている。1つの態様では、出力部はディスプレイを含んでもよい。
対象の動作は、モーションキャプチャによって取得された当該対象の姿勢の時系列データによって規定される。対象の姿勢は、対象の身体上の複数の特徴点(典型的には関節)によって特定され、各フレームにおいて、複数の特徴点の3次元座標値を取得することで、複数の特徴点の3次元座標値の時系列データから対象の動作を規定する。本実施形態に用いられるモーションキャプチャの種類は限定されず、特徴点を特定する光学式マーカを用いた光学式モーションキャプチャ、加速度センサやジャイロスコープ、地磁気センサなどのいわゆる慣性センサを対象の身体に装着して、対象のモーションデータを取得する方式、光学式マーカやセンサを装着しない、いわゆるマーカレスモーションキャプチャ等を例示することができる。対象の自然な動作を妨げないという観点からは、マーカレスモーションキャプチャが有利である。マーカレスモーションキャプチャとしては、カメラと深度センサを備えたシステム(Kinectに代表される)を用いたモーションキャプチャ、あるいは、深層学習を用い、1視点あるいは複数視点からのRGB画像を解析してモーションデータを取得するモーションキャプチャを例示することができる。
認識動作装置の処理部は、入力された対象の姿勢の時系列データを複数のセグメントに分節する分節部と、各セグメントを、当該セグメントの時系列データを用いて基本動作のクラスに分類する分類部と、対象の動作を、動的計画法を用いた最適化計算により、連続する基本動作である上位記号の時系列に変換する動作認識部と、を備えている。
セグメントは、対象の動作を規定する時系列データを分節することで得られる分節化された動作データであり、複数フレームの時系列データから構成される。全てのセグメントの系列が対象の動作を規定する時系列データである。セグメントは、いずれかの基本動作に対応するように動作データから切り出される。対象の動作の分節化によって得られたセグメントは、基本動作のいずれかのクラスに属するように分類され、いずれかの基本動作として識別される。全てのセグメントがいずれかのクラスに分類されることで、対象の動作を分節化したセグメント列は、基本動作列に変換される。
基本動作は、複数フレームの時系列データであり、時系列に連続することで対象の動作を構成する動作単位ないしエレメントである。連続する複数の基本動作(すなわち、基本動作列)を、ある纏まった動作として認識すること考え、この纏まった上位の動作を、上位記号と呼ぶ。上位記号は、典型的には、知られている基本動作の系列である。どのような動作を基本動作、上位記号として扱うかについては、対象動作、動作認識の目的、分節化手法等によって異なり得る。例えば、対象の動作から技を同定する場合には、上位記号として「技」があり、この「技」が連続する基本動作ないしエレメントによって構成されることになる。
連続する複数の基本運動からなる上位記号としては、技以外にも、例えば、「切る」「炒める」「盛る」の基本動作列を上位記号である「料理する」、「片付ける」「掃く」「拭く」の基本動作列を上記記号である「掃除する」、「部品Aをはめる」「ねじを回す」「部品Bを載せる」の基本動作列を上位記号である「(工場ラインなどでの)組み立てる」として言語的な抽象化に用いることができる。
認識動作装置の記憶部には、対象の動作を規定する対象の姿勢の時系列データ、分節点の条件、学習モデルを備えた基本動作のクラス、上位記号に対応する基本動作列及びスコアを格納したテーブル、が格納されている。1つの態様では、基本動作のクラスは、隠れマルコフモデル(以下、「HMM」という)によって特徴付けられている。また、上位記号と基本動作列の組からスコアを算出する関数が用意されていればよく、上記テーブルに代えて、あるは、加えて、上位記号と基本動作列の組合せのスコアを確率値(尤度)として計算する関数を学習しておき、記憶部に、上記関数のパラメータを記憶させてもよい。さらに、動作認識部によって取得された上位記号の系列が、対応する基本動作列と共に格納される。記憶部には、対象の動作を撮影した動画データを格納してもよい。
図3に示すように、本実施形態に係る動作認識方法は、対象の動作を規定する時系列データを受信すること、受信された時系列データを複数のセグメントに分節すること、セグメントを基本動作のクラスに分類して、対象の動作を基本動作の列に変換すること、前記対象の動作を、動的計画法を用いた最適化計算により、連続する基本動作からなる上位記号の系列に変換すること、からなり、変換された上位記号の列に基づいて動作認識ないし行動理解を行う。
[B]対象の動作の分節
対象の動作を複数のセグメントに分節する。各セグメントは、対象の姿勢を特定する複数フレームの時系列データである。1つの態様では、対象の特定の姿勢や対象と環境との位置関係等が、分節条件として予め決められており、フレームtにおける対象の姿勢や対象と環境との位置関係が分節条件に合致した時に、フレームtを分節点とする。この場合、例えば、フレームtが新しいセグメントの先頭フレームとなる。
例えば、あん馬を例にとると、あん馬の分節点については、審判員にどのように分節点を見つけているかをヒアリングし、それをヒントに以下のような条件を設定することができる(図7参照)。
(a)両手があん馬に接地する、
(b)上体が下向きである(体躯ベクトルのz軸成分が負である)、
(c)上体あん馬長手方向に対して平行もしくは垂直である、
の3つの条件を全て満たしている点を動作の分節点として検出する。
あん馬における分節点の詳細については、特許文献1を参照することができる。
対象があん馬を演技する時の対象の姿勢の時系列データ、あん馬の所定部位との接触条件、あん馬に対する向きから、上記条件を満たす姿勢のフレームを検出することで、分節点を決定する。これによって、あん馬を演技する対象の動作は、複数のセグメントに分節される。
あん馬以外の他の体操競技、また他の採点競技でも、審判員からのヒアリングやルールブックを参照することで、分節点を設定することが可能である。したがって、例えば鉄棒や平行棒等の他の体操競技、フィギャースケート等の他の採点競技においても、分節点を設定して、対象の動作を分節することができる。
上述のように、あん馬の場合は人手で分節点の条件を設定しているが、動作認識としての技識別を、一般の行動理解へ拡張する場合、分節点の設定には、あん馬と同様に、行動に対して分節点を人(教師)が教えて、運動と分節点の関係を機械学習する方法(教師あり学習)を採り得る。あるいは、動作データから運動パターンを自動で抽出する教師なし学習を行う方法、体の一部の速度が零となるストップモーションを検出する方法、運動の分布が大きく変化する点を検出する方法、運動の予測が難しくなる点を検出する方法等も採り得る。
対象の動作を分節するにあたり、対象自身の姿勢データに加えて、環境や物体との接触条件、位置関係等を付帯情報として分節化に用い得ることが当業者に理解される。人間の動作の多くは、環境や物体と関わる。例えば、料理をする動作であれば、対象の動作に加えて、対象と食材や調理器具等との接触状態、食材や調理器具等に対する対象の位置や向き等が重要な情報となり得る。掃除をする動作であれば、対象の動作に加えて、対象と掃除用具との接触状態、掃除用具に対する対象の位置や向き、環境に対する対象の位置や向き、掃除用具と環境の接触状態等が重要な情報になり得る。組立作業時の動作であれば、対象の動作に加えて、対象の動作に加えて、対象と工具や部品との接触状態、組立体に対する対象の位置や向き、部品と組立体との接触状態等が重要な情報になり得る。人間の運動において、動作自体だけでなく動作と環境や動作と物体の関係から、動作の分節の境目を発見して、動作を分節することができる。
[C]セグメントの分類・認識
動作認識装置の記憶部には、多様な基本動作が分類されたクラスないしカテゴリが用意されている。1つの態様では、各クラスは、学習モデル(例えば、HMM)によって特徴づけられている。動作認識装置の処理部は、学習モデル(例えば、HMM)を用いた分類器を構成しており、分類器は、セグメントの情報(時系列データ)と学習モデル(例えば、HMM)を用いて、入力されたセグメントが、どのクラスに属するかを決定する。
本実施形態では、動作データを分節して得られたセグメントをクラスタリングし、各クラスタに含まれる動作データをHMMを用いて学習する。HMMは基本動作のクラスを表現し、認識に当たっては分節化された動作データであるセグメントは、当該動作データが生成される確率が最大となるHMMとして分類される。
基本動作の学習においては、多数のセグメントの分類に教師あり分類を採用する。具体的には、各セグメント(姿勢の時系列データ)に、例えば体操では審判や専門家の判断によるラベルを貼り教師データとして使う。審査員による採点例のデータを教師データに含めることで、主観による審美的な評価の情報を取り入れることが可能となる。これによって専門家の視点や感性評価を扱うことが可能になるとともに、競技データの判定を実際の審査員による判定に近づけることができる。体操等の採点競技において、審判などが着目するキーフレームに着目して動作の分節点を検出することで、得られたセグメントは直感に合致した運動であり、基本動作ラベルを容易に付与することができる。基本動作ラベルを教師として動作データ(セグメント)をクラスタリングして、基本動作ごとに統計モデルを学習する。この統計モデルを用いて、運動(セグメント)を識別することによって統計モデルに紐付いた基本動作ラベルとして識別することができる。すなわち、同一の基本運動ラベルが貼られた分節データのみをクラスタとし、各クラスタ毎に統計モデルを学習することで基本動作を獲得する。本実施形態では、基本動作の獲得は、分類された各クラスタを教師データとして生成確率を最大にするように学習する隠れマルコフモデル(HMM)の計算を行う。
基本動作の学習についてより具体的に説明する。複数の対象の複数の演技から動作データを取得する。分節化により得られた多数のセグメント(分節化された動作データ)を、学習用の基本動作データ(すなわち、学習データ)として用いる。複数の基本動作のラベルを用意し、人手によって、いずれかの基本動作のラベルを学習データに貼り付ける。多数の学習データを、動的時間伸縮法(Dynamic time warping、DTW)を用いて、階層的に木構造のクラスタに分類し、同じラベルが付されたセグメントのみから構成されるクラスタを見つけ、そのクラスタを、各ラベルを代表するクラスタとする。各クラスタに含まれるセグメントをHMMに符号化して、各クラスタを基本動作のクラスとして扱う。Baum-Welchアルゴリズムを用いて、HMMのパラメータを最適化することで、学習データが生成される確率が最大となるようなHMMが形成される。HMMによる時系列データの分類器は当業者に知られており、対象の動作を認識する場合に、対象の動作データの分節化により得られた各セグメントは、各セグメントを規定する動作データが生成される確率が最大となるHMMとして分類・認識される。
身体運動データの扱いにおいては、身体差に応じてスケーリング行って、スケーリング後の変数を用いてもよい。運動の速度についても個人差を吸収するようにスケーリングを行ってもよい。具体的には、HMMの分類器を構成する処理、および観測データ(セグメント)がどの基本動作のクラスに属するかを決定する処理において、スケーリングを行う。標準体型の身長と対象の身長の比率を計算し、その比率に応じて対象の運動データを拡大・縮小する。セグメントが、決められた固定長のセグメントとなるように時間方向に伸縮するようなフレーム補間処理を施してもよい。スケーリングによって、競技選手の身体の大きさやそれによる運動速度の違いを補正することができる。
動作データのセグメント(姿勢の時系列データ)を分類・認識する手法は、HMMを用いて分節化されたデータを用いる分類手法に限定されるものではなく、当業者に既知の他の分類・認識手法(典型的には教師データを用いた手法)を用いることができ、例えば、ニューラルネットワークを用いてセグメントを分類してもよい。
[D]連続する基本動作からなる上位記号の認識
動作認識部は、基本動作の一連からなる動作(上位記号)を発見して、その上位記号が前後関係から適切な説明かどうかを評価して決定する。動作認識部は、基本動作の系列から上位記号、体操なのどの運動競技では「技」、を発見する問題を、動的計画法を適用して最適化問題の解として計算する。
動作認識を、競技の技の同定を例として説明する。対象の動作データは複数のセグメントに分節され、各セグメントを、HMMを用いて基本動作のクラスに分類することによって、対象の動作データは、基本動作の時系列(λ12,…,λN)へ変換される。技は複数の基本動作の連続であり、技として認識されることに適した基本動作列を抽出する。
基本動作列
Figure 0007146247000006
からk個の技を抽出した時に得られる最大スコアを、
Figure 0007146247000007
とおくと、
以下の関数漸化式
Figure 0007146247000008
を導くことができる。
ここで、
Figure 0007146247000009
は、基本動作列
Figure 0007146247000010
を1つの技として識別したときに得られるスコアである。
動作認識装置の記憶部には、基本動作列と技及びスコアの対応を規定したテーブルが格納されている。具体的には、人手によって連続する基本動作に対して技のラベルが貼り付けらており、連続する基本動作は、各基本動作を特徴づけるHMMの列によって規定される。技のID及び技ラベルに対して、基本動作列(HMMの列)がデータベースとして格納されている。
1つの態様では、
基本動作列
Figure 0007146247000011
がデータベース中にあれば、
Figure 0007146247000012
のスコアは1、なければ0を取るものとする。そして、上記基本動作列がデータベース中にある時には、基本動作列に対応する技として動作を識別する。
すなわち、各基本動作列(HMMの列)はスコア1が割り当てられており、基本動作列がデータベース中にあれば、評価関数gのスコアは1、なければ0を取るものとする。そして、漸化式を用いた評価関数fが最大となるように、基本動作列の纏まりを発見しながら、基本動作列をその纏まりに対応する技として識別する。
基本動作列と技及びスコアの対応を規定したテーブルを用いる場合について説明したが、上位記号と基本動作列の組からスコアを算出する関数が用意されていればよい。例えば、上位記号と基本動作列の組合せのスコアを確率値(尤度)として計算する関数を学習しておき、記憶部に、上記関数のパラメータを記憶させてもよい。そして、処理部が前記パラメータを利用して上位記号と基本動作列の組合せのスコアを算出してもよい。この関数としては、上位記号と基本動作列を入力として、尤度を出力する統計モデルやニューラルネット等を用いることができる。
上記漸化式は、基本動作λlからどこまでの連続する基本動作列を1つの技として識別するのが最適であるかを計算していることになり、この関数漸化式を、動的計画法を用いて解くことによって、最適な基本動作列の纏まりとその纏まりに相当する上位記号(上記例では技)を求めることができる。動作認識部は、人間の動作を説明するために、分節化後に認識された基本動作の系列から、上位記号(典型的には知られている基本動作の系列)を発見して動作を判別する。このとき、前後の関係などによって判別結果が変わり得るが、この判別問題を評価関数を最大化する最適化問題として扱う。なお、上位記号の種類や動作認識の目的等によっては、最大スコアの上位記号列だけではなく、高スコアの複数の上位記号列を出力してもよい。
[E]体操競技における技の認識
既述のように、本実施形態に係る動作認識装置及び方法は、体操競技における演技中の全身運動データからの技の認識ないし同定に適用することができる。演技は、基本動作の連続としての技から構成される。本実施形態は、演技中の全身運動データから基本動作を識別し、技として適した基本動作の連続を見つけることを動的計画問題に帰着させることを特徴とする。
具体的には、体操競技における技の認識処理は、
演技者の動作データ(演技者の姿勢の時系列データ)をセグメント(基本動作として認識されるように切り出される)に分節すること、
分節化された動作であるセグメントを基本動作のクラスに分類すること、具体的には、例えば、各セグメントを、HMMを用いて基本動作のクラスに分類することによって、動作データを基本動作の時系列へ変換すること、
技として適した基本動作の連続を動的計画法を用いて抽出することで、技を自動認識すること、
からなる。
図4、図8を参照しつつ説明すると、対象の演技を撮影した動画から対象の動作データを取得する。動作データは、審判員もしくはルールブックを参考に設定した分節点を用いて、複数のセグメントに分節され、動作データはセグメントの時系列として表される。
各セグメントは、例えばHMMによって、いずれかの基本動作(a,b,c,d,..は、基本動作ないしHMMのラベルである)として認識されて基本動作のクラスに分類される。各セグメントがいずれかの基本動作として認識されることで、対象の動作を、基本動作の時系列(クラスに対応するHMMの列bdcafafbdc)に変換する。
基本動作系列から技を識別し、対象の動作は、技の系列(BAAB…)に変換される。体操の場合では、「技」は基本動作が一連の順番を持つものとして定まっている。基本動作の系列を技として識別可能な組み合わせは一般には唯一ではない。体操では競技者の採点結果が最大になるように識別して技の識別を行い、それが採点され結果となる。採点結果が最大になるように動作を識別する方法を最適化問題として表し、さらに、基本動作の生成過程を動的システムとして表現することで、採点を動的計画法によって求める。
動作認識装置の記憶部には、基本動作列と技及びスコアの対応を規定したテーブルが格納されている。
上記漸化式において、関数
Figure 0007146247000013
は、評価値すなわちスコアを決定するいわば評価関数である。評価関数を用いたスコア算出について、簡単な例を示して説明する。
表1の例では、各技についてID及びラベルが付されており、技ラベルAに対応して複数の基本動作列abc,abd,abeが割り当てられている。全ての基本動作列abc,abd,abeのスコアは1である。動作データから変換された基本動作列において、基本動作列abc,abd,abeのいずれかが認識された場合には、評価関数はスコア1を出力する。
Figure 0007146247000014
表2の例では、各技についてID及びラベルが付されており、技ラベルAに対応して複数の基本動作列abc,abd,abeが割り当てられている。基本動作列abc,abd,abeのスコアはそれぞれ1、0.9、0.8と異なっており、動作データから変換された基本動作列において、基本動作列abc,abd,abeが認識された場合には、評価関数は、それぞれ、スコア1、0.9、0.8を出力する。スコアの設定手法は限定されず、例えば、大量の演技の動作データのサンプルから経験的に設定してもよく、あるいは、何らかの形で算出した尤度をスコアとして用いてもよい。
Figure 0007146247000015
表3の例では、各技についてID及びラベルが付されており、技ラベルAに対応して複数の基本動作列abc,abd,abeが割り当てられている。全ての基本動作列abc,abd,abeのスコアは1であり、動作データから変換された基本動作列において、基本動作列abc,abd,abeのいずれかが認識された場合には、評価関数はスコア1を出力する。技ラベルBに対応して複数の基本動作列ghij,ghikが割り当てられている。全ての基本動作列のスコアは3であり、動作データから変換された基本動作列において、基本動作列ghij,ghikのいずれかが認識された場合には、評価関数はスコア3を出力する。技ラベルAのスコアと技ラベルBのスコアの差は、技の難度を反映したものである。また、ここでの評価関数は、技ラベルA、技ラベルBに対応する全ての基本動作列にスコア1を設定し、技ラベルBに別途難度に依存した加算ポイントを設定することと等価である。
Figure 0007146247000016
上記説明では技ラベルについて簡略して説明したが、実際には、表4に例示するように、人手によって連続する基本動作に対して技のラベルが貼り付けられている。技のID及び技ラベルに対して、基本動作列(HMMの列)がデータベースとして格納されている(表4では省略)。
Figure 0007146247000017
本実施形態では、技と基本動作列の組からスコアを算出する関数が用意されており、この関数によって算出されたスコアを用いて動的計画法を用いた最適化計算が実行される。1つの態様では、前記関数は、技に対応する1つあるいは複数の基本動作列及びスコアを備えたテーブルを用いてスコアを算出する。1つの態様では、技と基本動作列の組合せのスコアを確率値(尤度)として計算する関数を学習しておき、上記関数のパラメータを利用して技と基本動作列の組合せのスコアを算出する。
要約すると、本実施形態に係る体操競技における技の認識装置は、
(1)全身運動の切れ目をみつける分節化、
(2)切り取られたセグメントを基本運動と比較して判別する計算、及び、
(3)連続した基本動作系列から技を識別する計算
を順に処理することによって運動競技における技を認識するシステムであり、
体操演技の分節化、基本動作の識別、その時系列から技を認識する計算論の基礎を提供する。
体操競技における演技の得点はDスコアとEスコアの合計によって算出される。Dスコアは演技内容の難しさ、すなわち技の難度、を表したもので、Eスコアは演技実施の完成度を表す。本実施形態において、技と基本動作列の組からスコアを算出する関数を実際のDスコアの算出方法に整合させる(例えば、テーブルに格納されるスコアを、採点規則をまとめたルールブック等を参考にして実際のDスコアの算出方法に整合させる)ことで、体操競技の自動採点システムに適用することができる。したがって、本実施形態に係る動作認識装置及び方法は、演技の自動採点システム、客観的評価をフィードバックする運動指導や育成プログラムに利用可能である。



Claims (15)

  1. コンピュータを用いて対象の動作を認識する動作認識方法であって、
    対象の動作を規定する時系列データを複数のセグメントに分節し、
    各セグメントを、当該セグメントの時系列データを用いて基本動作のクラスに分類し、
    前記対象の動作を、連続する基本動作からなる上位記号の系列に変換するステップであり、上位記号と基本動作列の組からスコアを算出する関数が用意されており、動的計画法を用いた最適化計算により、前記対象の動作を上位記号の系列に変換する、
    動作認識方法。
  2. 前記動的計画法を用いた最適化計算は、
    以下の関数漸化式
    Figure 0007146247000018
    を用いるものであり、
    ここで、
    Nは、対象の動作を分節して得られたセグメントの数、
    Figure 0007146247000019
    は、基本動作の時系列
    Figure 0007146247000020
    から k個の上位記号を抽出した時に得られる最大スコアであり、
    Figure 0007146247000021
    は、
    基本動作列
    Figure 0007146247000022
    を1つの上位記号として識別したときに得られるスコアである、
    請求項1に記載の動作の認識方法。
  3. 上位記号に対応する1つあるいは複数の基本動作列及びスコアを備えたテーブルが用意されている、
    請求項1、2いずれか1項に記載の動作の認識方法。
  4. 前記セグメントは、隠れマルコフモデル(HMM)を用いて、基本動作のクラスに分類される、
    請求項1~3いずれか1項に記載の動作の認識方法。
  5. 前記上位記号は、運動競技における技である、請求項1~4いずれか1項に記載の動作の認識方法。
  6. 前記スコアには、技の難度が反映されている、請求項5に記載の動作の認識方法。
  7. 得られた上位記号をセグメントとして、前記対象の動作をさらに上位の動作を表す上位記号列に変換することを含む、請求項1~4いずれか1項に記載の動作の認識方法。
  8. 動作の認識装置は、記憶部と処理部とを備え、
    前記記憶部には、複数の基本動作のクラスが格納されており、
    前記処理部は、
    対象の動作を規定する時系列データを複数のセグメントに分節し、
    各セグメントを、当該セグメントの時系列データを用いて、基本動作のクラスに分類し、
    前記対象の動作を、連続する基本動作からなる上位記号の系列に変換する、
    ように構成されており、
    前記記憶部には、さらに、上位記号と基本動作列の組からスコアを算出する関数が規定されており、
    前記処理部は、前記スコアを用いて、前記対象の動作を、動的計画法を用いた最適化計算により、上位記号列に変換する、
    ように構成されている、
    動作の認識装置。
  9. 前記処理部は、
    以下の関数漸化式
    Figure 0007146247000023
    を動的計画法によって最適化計算するものであり、
    ここで、
    Nは、対象の動作を分節して得られたセグメントの数、
    Figure 0007146247000024
    は、基本動作の時系列
    Figure 0007146247000025
    から k個の上位記号を抽出した時に得られる最大スコアであり、
    Figure 0007146247000026
    は、
    基本動作列
    Figure 0007146247000027
    を1つの上位記号として識別したときに得られるスコアである、
    請求項8に記載の動作の認識装置。
  10. 前記記憶部には、上位記号に対応する1つあるいは複数の基本動作列及びスコアを備えたテーブルが用意されている、
    請求項8、9いずれか1項に記載の動作の認識装置。
  11. 前記処理部は、隠れマルコフモデル(HMM)を用いて、セグメントを基本動作のクラスに分類する、
    請求項8~10いずれか1項に記載の動作の認識装置
  12. 前記上位記号は、運動競技における技である、請求項8~11いずれか1項に記載の動作の認識装置。
  13. 前記スコアには、技の難度が反映されている、請求項12に記載の動作の認識装置。
  14. 前記処理部は、得られた上位記号をセグメントとして、前記対象の動作をさらに上位の動作を表す上位記号列に変換するように構成されている、請求項8~11いずれか1項に記載の動作の認識装置。
  15. コンピュータを、請求項8~14に記載の記憶部、処理部として機能させるコンピュータプログラム。
JP2018164554A 2018-09-03 2018-09-03 動作認識方法及び装置 Active JP7146247B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018164554A JP7146247B2 (ja) 2018-09-03 2018-09-03 動作認識方法及び装置
US17/273,148 US20240020853A1 (en) 2018-09-03 2019-08-28 Motion recognition method and device
PCT/JP2019/033662 WO2020050111A1 (ja) 2018-09-03 2019-08-28 動作認識方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018164554A JP7146247B2 (ja) 2018-09-03 2018-09-03 動作認識方法及び装置

Publications (3)

Publication Number Publication Date
JP2020038440A JP2020038440A (ja) 2020-03-12
JP2020038440A5 JP2020038440A5 (ja) 2021-09-24
JP7146247B2 true JP7146247B2 (ja) 2022-10-04

Family

ID=69723178

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018164554A Active JP7146247B2 (ja) 2018-09-03 2018-09-03 動作認識方法及び装置

Country Status (3)

Country Link
US (1) US20240020853A1 (ja)
JP (1) JP7146247B2 (ja)
WO (1) WO2020050111A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021199392A1 (ja) * 2020-04-02 2021-10-07 日本電信電話株式会社 学習装置、学習方法及び学習プログラム、並びに、スコア推定装置、スコア推定方法及びスコア推定プログラム
WO2021210112A1 (ja) * 2020-04-15 2021-10-21 三菱電機株式会社 動作分析装置、動作分析方法、および、動作分析プログラム
JP2023546189A (ja) * 2020-10-29 2023-11-01 日本電気株式会社 分類装置、制御装置、分類方法、制御方法及びプログラム
JP7016936B1 (ja) * 2020-11-25 2022-02-07 日立建機株式会社 動作把握システム
EP4287078A4 (en) * 2021-01-27 2024-03-20 Fujitsu Ltd DEVICE FOR BUILDING A MODEL FOR ESTIMATING THE ACTION INTERVAL, METHOD FOR BUILDING A MODEL FOR ESTIMATING THE ACTION INTERVAL AND PROGRAM FOR BUILDING A MODEL FOR ESTIMATING THE ACTION INTERVAL
EP4258183A4 (en) * 2021-01-27 2024-01-24 Fujitsu Ltd PARTIAL ACTION INTERVAL ESTIMATION MODEL CONSTRUCTION DEVICE, PART ACTION INTERVAL ESTIMATION MODEL CONSTRUCTION METHOD, AND PART ACTION INTERVAL ESTIMATION MODEL CONSTRUCTION PROGRAM
JPWO2022162781A1 (ja) * 2021-01-27 2022-08-04
EP4316614A4 (en) 2021-04-01 2024-05-01 Fujitsu Ltd SKILL RECOGNITION METHOD, SKILL RECOGNITION APPARATUS AND GYMNASTICS SCORING SUPPORT SYSTEM
JPWO2022244135A1 (ja) * 2021-05-19 2022-11-24
WO2023105787A1 (ja) * 2021-12-10 2023-06-15 富士通株式会社 行動区間評価プログラム、装置、及び方法
WO2023105788A1 (ja) * 2021-12-10 2023-06-15 富士通株式会社 行動区間検出プログラム、装置、及び方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007138885A1 (ja) 2006-05-26 2007-12-06 The University Of Tokyo 運動データのデータベースの構造および設計法、データベースシステム
JP2010213782A (ja) 2009-03-13 2010-09-30 Oki Networks Co Ltd 行動認識方法、装置及びプログラム
WO2018070414A1 (ja) 2016-10-11 2018-04-19 富士通株式会社 運動認識装置、運動認識プログラムおよび運動認識方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10909691B2 (en) * 2016-03-18 2021-02-02 President And Fellows Of Harvard College Automatically classifying animal behavior
CN107945207A (zh) * 2017-11-20 2018-04-20 北京众绘虚拟现实技术研究院有限公司 一种基于视频帧间低秩关联信息一致性的实时物体追踪方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007138885A1 (ja) 2006-05-26 2007-12-06 The University Of Tokyo 運動データのデータベースの構造および設計法、データベースシステム
JP2010213782A (ja) 2009-03-13 2010-09-30 Oki Networks Co Ltd 行動認識方法、装置及びプログラム
WO2018070414A1 (ja) 2016-10-11 2018-04-19 富士通株式会社 運動認識装置、運動認識プログラムおよび運動認識方法

Also Published As

Publication number Publication date
WO2020050111A1 (ja) 2020-03-12
JP2020038440A (ja) 2020-03-12
US20240020853A1 (en) 2024-01-18

Similar Documents

Publication Publication Date Title
JP7146247B2 (ja) 動作認識方法及び装置
CN110147743B (zh) 一种复杂场景下的实时在线行人分析与计数系统及方法
JP6625220B2 (ja) シーン内のオブジェクトのアクションを検出する方法及びシステム
KR101549645B1 (ko) 표정 동작사전을 이용한 표정인식 방법 및 장치
Bouchard et al. Semantic segmentation of motion capture using laban movement analysis
Yamane et al. Human motion database with a binary tree and node transition graphs
JP2014137818A (ja) 手の平開閉動作識別方法と装置、マン・マシン・インタラクション方法と設備
Dutta et al. Predicting human actions taking into account object affordances
Vantigodi et al. Action recognition from motion capture data using meta-cognitive rbf network classifier
D'Sa et al. A survey on vision based activity recognition, its applications and challenges
Oh et al. Using binary decision tree and multiclass SVM for human gesture recognition
Singh et al. Recognizing and interpreting sign language gesture for human robot interaction
Abdullahi et al. IDF-Sign: addressing inconsistent depth features for dynamic sign word recognition
Nikpour et al. Deep reinforcement learning in human activity recognition: A survey
Davis Sequential reliable-inference for rapid detection of human actions
Kushwaha et al. Rule based human activity recognition for surveillance system
Miners et al. Dynamic facial expression recognition using fuzzy hidden Markov models
Axenbeck et al. Recognizing complex, parameterized gestures from monocular image sequences
Panduranga et al. Dynamic hand gesture recognition system: a short survey
Gutzeit Hierarchical segmentation of human manipulation movements
Tang et al. Extracting commands from gestures: Gesture spotting and recognition for real-time music performance
Farouk Principal component pyramids using image blurring for nonlinearity reduction in hand shape recognition
Ziaie et al. A novel approach to hand-gesture recognition in a human-robot dialog system
Uddin An Ada-Random Forests based grammatical facial expressions recognition approach
KR100924795B1 (ko) 입술움직임 영상 판별 방법 및 그 장치

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210816

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210817

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220712

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220825

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220830

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220913

R150 Certificate of patent or registration of utility model

Ref document number: 7146247

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150