JP7130155B2 - 動作モデル生成装置、動作モデル生成方法及び動作モデル生成プログラム - Google Patents

動作モデル生成装置、動作モデル生成方法及び動作モデル生成プログラム Download PDF

Info

Publication number
JP7130155B2
JP7130155B2 JP2021573162A JP2021573162A JP7130155B2 JP 7130155 B2 JP7130155 B2 JP 7130155B2 JP 2021573162 A JP2021573162 A JP 2021573162A JP 2021573162 A JP2021573162 A JP 2021573162A JP 7130155 B2 JP7130155 B2 JP 7130155B2
Authority
JP
Japan
Prior art keywords
basic
model
behavior
behavior model
movable body
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021573162A
Other languages
English (en)
Other versions
JPWO2021192062A1 (ja
Inventor
史記 長澤
士人 新井
亮史 服部
誠司 奥村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPWO2021192062A1 publication Critical patent/JPWO2021192062A1/ja
Application granted granted Critical
Publication of JP7130155B2 publication Critical patent/JP7130155B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Processing Or Creating Images (AREA)

Description

本開示は、可動体の動作を認識するための動作モデルの生成に関する。
特許文献1には、人物が映り込む映像データから行動を認識するようにコンピュータを機能させる行動認識プログラムが開示されている。より具体的には、特許文献1には、スケルトン情報抽出手段と、関節認識エンジンと、領域切出し手段と、動体認識エンジンと、スコア統合手段とが開示されている。
スケルトン情報抽出手段は、映像データから、人物の関節に基づくスケルトン情報を時系列に抽出する。関節認識エンジンは、映像データのスケルトン情報から、行動を認識する。領域切出し手段は、映像データから、スケルトン情報の囲み領域を抽出する。動体認識エンジンは、映像データの囲み領域から、行動を認識する。スコア統合手段は、行動ごとに、関節認識エンジン及び動体認識エンジンそれぞれのスコアを統合した統合スコアを出力する。
特開2019-144830号公報
特許文献1の技術では、例えば、「飲む」、「食べる」、「走る」、「畳む」といった比較的単純な動作を認識可能なモデルを用いて、これら動作を認識する。このような単純な動作の映像データはサンプル数が多いため、これらの動作の適切なモデルを生成することは難しくない。しかしながら、複雑な動作については映像データのサンプル数が少なく、適切なモデルを生成することが困難であるという課題がある。
本開示は、上記のような課題を解決することを主な目的の一つとしている。より具体的には、本開示は、複雑な動作についても適切なモデルを生成できるようにすることを主な目的とする。
本開示に係る動作モデル生成装置は、
可動体が基本動作を行う際の前記可動体の複数の部位の状態を部位ごとに解析して生成された、基本動作を認識するためのモデルである基本動作モデルを、複数の基本動作の各々について取得する基本動作モデル取得部と、
基本動作よりも複雑な動作である応用動作を認識するためのモデルである応用動作モデルを、複数の基本動作モデルのうちの2以上の基本動作モデルを組み合わせて生成する応用動作モデル生成部とを有する。
本開示によれば、複雑な動作についても適切なモデルを生成することができる。
実施の形態1に係る動作モデル生成装置のハードウェア構成例を示す図。 実施の形態1に係る動作モデル生成装置の機能構成例を示す図。 実施の形態1に係る動作モデル生成装置の動作例を示すフローチャート。 実施の形態1に係る基本動作モデルの生成例を示す図。 実施の形態1に係る基本動作モデルの例を示す図。 実施の形態1に係る基本動作モデルの生成例を示す図。 実施の形態1に係る基本動作モデルの例を示す図。 実施の形態1に係る暫定モデルの例を示す図。 実施の形態1に係る候補モデルの例を示す図。 実施の形態1に係る応用動作モデルの例を示す図。 実施の形態1に係る応用動作モデルの例を示す図。 実施の形態1に係る身体の一部が隠れている映像データの例を示す図。 実施の形態2に係る動作モデル生成装置の動作例を示すフローチャート。 実施の形態3に係る動作モデル生成装置の動作例を示すフローチャート。 実施の形態3に係る変更対象応用動作モデルと変更対象部分の例を示す図。 実施の形態3に係る変更用モデルと変更用部分の例を示す図。 実施の形態3に係る新たな応用動作モデルの例を示す図。
以下、実施の形態を図を用いて説明する。以下の実施の形態の説明及び図面において、同一の符号を付したものは、同一の部分又は相当する部分を示す。
実施の形態1.
***概要***
本実施の形態では、動作モデルを生成する動作モデル生成装置100を説明する。
本実施の形態に係る動作モデル生成装置100は、可動体の基本動作を認識するためのモデル(以下、「基本動作モデル」という)を2以上組み合わせて、応用動作を認識するためのモデル(以下、「応用動作モデル」という)を生成する。
可動体は、複数の部位をもち、複数の部位が動く物体である。可動体は、典型的には人物である。また、可動体には、人物の他、動物、ロボット、工作機械等も含まれる。以下では、可動体の例として主に人物を用いて説明を進める。
可動体の部位は、人物の場合は関節がある部位である。例えば、可動体の部位は、光学式モーションキャプチャ技術で反射マーカを取り付ける位置である。また、本実施の形態では、可動体が触れている要素も可動体の部位として扱う。例えば、可動体が人物の場合は、人物が触れているスマートフォン、缶入り飲料、キーボード、マウス、ペン等も人物の部位として扱う。
また、基本動作とは、基本となる単純な動作である。人物の場合は、基本動作は、例えば、「歩く」、「走る」、「座る」、「食べる」、「書く」、「スマートフォンを見る」、「キーボードを打鍵する」等である。例えば、動作モデル生成装置100のユーザがどのような動作を基本動作とするかを任意に決定することができる。
応用動作は、基本動作よりも複雑な動作である。応用動作の例として、歩きながらスマートフォンを見るという動作(以下、「歩きスマートフォン」という)がある。「歩きスマートフォン」では、「歩く」という動作と「スマートフォンを見る」という2つの動作が含まれており、複雑な動作である。以下では、応用動作の例として主に「歩きスマートフォン」を用いて説明を進める。
応用動作の映像データに対して基本動作モデルを適用しても、正確に応用動作を識別することはできない。具体的には、「歩きスマートフォン」の映像データに対して基本動作「歩く」の基本動作モデルを適用した場合は、「歩きスマートフォン」を「歩く」動作であると認識できる可能性はあるが、正確に「歩きスマートフォン」と認識することはできない。
また、応用動作は、複雑な動作であるため、映像データのサンプル数が少ない傾向にある。このため、映像データを用いた学習を行っても、映像データのサンプル数の少なさから、応用動作を正確に認識できるモデルを生成することは難しい。
このため、本実施の形態に係る動作モデル生成装置100は、応用動作「歩きスマートフォン」の応用動作モデルを基本動作「歩く」の基本動作モデルと基本動作「スマートフォンを見る」の基本動作モデルを組み合わせて生成する。
***構成の説明***
図1は、本実施の形態に係る動作モデル生成装置100のハードウェア構成例を示す。
本実施の形態に係る動作モデル生成装置100は、コンピュータである。動作モデル生成装置100の動作手順は、動作モデル生成方法に相当する。また、動作モデル生成装置100の動作を実現するプログラムは、動作モデル生成プログラムに相当する。
動作モデル生成装置100は、ハードウェアとして、プロセッサ151、主記憶装置152、補助記憶装置153及び入出力装置154を備える。
補助記憶装置153には、後述する基本動作モデル生成部101、基本動作モデル取得部103及び応用動作モデル生成部104の機能を実現するプログラムが記憶されている。
これらプログラムは、補助記憶装置153から主記憶装置152にロードされる。そして、プロセッサ151がこれらプログラムを実行して、後述する基本動作モデル生成部101、基本動作モデル取得部103及び応用動作モデル生成部104の動作を行う。
図1では、プロセッサ151が基本動作モデル生成部101、基本動作モデル取得部103及び応用動作モデル生成部104の機能を実現するプログラムを実行している状態を模式的に表している。
入出力装置154は、例えばマウス、キーボード及びディスプレイである。
図2は、本実施の形態に係る動作モデル生成装置100の機能構成例を示す。
動作モデル生成装置100は、基本動作モデル生成部101、基本動作モデル記憶部102、基本動作モデル取得部103、応用動作モデル生成部104及び応用動作モデル記憶部105により構成される。
基本動作モデル生成部101は、基本動作モデルを生成する。より具体的には、基本動作モデル生成部101は、例えば映像データを学習して、可動体が基本動作を行う際の複数の部位の状態を部位ごとに解析する。そして、基本動作モデル生成部101は、解析により得られた複数の部位の状態を用いて基本動作モデルを生成する。
基本動作モデル記憶部102は、基本動作モデル生成部101により生成された複数の基本動作モデルを記憶する。
基本動作モデル記憶部102は、例えば、主記憶装置152又は補助記憶装置153により実現される。
基本動作モデル取得部103は、動作モデル生成装置100のユーザからの要求に基づき、基本動作モデル記憶部102から、複数の基本動作に対応する複数の基本動作モデルを取得する。
なお、基本動作モデル取得部103により行われる処理は基本動作モデル取得処理に相当する。
応用動作モデル生成部104は、複数の基本動作モデルのうちの2以上の基本動作モデルを組み合わせて応用動作モデルを生成する。より具体的には、応用動作モデル生成部104は、可動体が応用動作を行う際の複数の部位の状態を部位ごとに解析する。そして、応用動作モデル生成部104は、解析により得られた複数の部位の状態を用いて、応用動作を認識するためのモデルを暫定モデルとして生成する。更に、応用動作モデル生成部104は、組み合わせた結果が暫定モデルに類似する2以上の基本動作モデルを用いて応用動作モデルを生成する。
応用動作モデル生成部104により行われる処理は応用動作モデル生成処理に相当する。
応用動作モデル記憶部105は、応用動作モデル生成部104により生成された応用動作モデルを記憶する。
応用動作モデル記憶部105は、例えば、主記憶装置152又は補助記憶装置153により実現される。
応用動作モデル記憶部105に格納された応用動作モデルは、映像データを解析する映像データ解析装置(不図示)での映像データの解析に使われる。
***動作の説明***
図3は、本実施の形態に係る動作モデル生成装置100の動作例を示す。ここでは、主に、動作モデル生成装置100が応用動作「歩きスマートフォン」の応用動作モデルを基本動作「歩く」の基本動作モデルと基本動作「スマートフォンを見る」の基本動作モデルを組み合わせて生成する例を説明する。
先ず、ステップS101において、基本動作モデル生成部101が基本動作モデルを生成する。
より具体的には、基本動作モデル生成部101は、基本動作が示される映像データを教師データとして用いた学習を行う。そして、基本動作モデル生成部101は、可動体の部位ごとの状態の遷移を解析し、可動体の部位ごとの状態の遷移が示される基本動作モデルを生成する。基本動作モデル生成部101は、複数の基本動作に対応させて複数の基本動作モデルを生成する。
そして、基本動作モデル生成部101は、生成した基本動作モデルを基本動作モデル記憶部102に格納する。
図4は、ステップS101において、基本動作モデル生成部101が「歩く」動作の基本動作モデルを生成する例を示す。
基本動作モデル生成部101は、例えば、図4の矢印の方向に、(a)~(f)の順に人物が歩く映像データ(動画データ)を学習する。このとき、基本動作モデル生成部101は、図4において符号401~424の白丸で表現している人物の身体部位ごとの状態(角度、位置等)を(a)~(f)の各段階で学習する。図4では、作図上の理由から、図4の(a)にのみ、身体部位を表す白丸を示しているが、図4の(b)~(f)でも、基本動作モデル生成部101は、図4の(a)と同じ身体部位の状態を学習する。
このようにして、基本動作モデル生成部101は、基本動作「歩く」における身体部位の状態の時間推移を学習することができる。
基本動作モデル生成部101は、「歩く」動作について複数の映像データを学習することで、身体部位ごとの動きが反映された、「歩く」動作が正確に反映された基本動作モデルを生成する。
例えば、基本動作モデル生成部101は、図5に示すように、部位ごとの状態の時間推移が示される「歩く」動作の基本動作モデルを生成する。図5では、図4の身体部位401~424の各々について、図4の段階(a)~(f)の各段階での座標値(x、y、z)が示される。
また、基本動作モデル生成部101は、基本動作の検知に対する影響度が小さい身体部位の情報を基本動作モデルから取り除いてもよい。例えば、「歩く」動作の基本動作モデルについては、頭の動きなどの「歩く」動作に直接関係のない身体部位の情報を基本動作モデルから取り除いてもよい。このときに使用する影響度はとして、基本動作モデル生成部101は、例えば、基本動作モデルの生成時に用いられた機械学習毎に算出されるスコア値を用いることができる。本実施の形態では、基本動作モデル生成部101は、影響度が小さい身体部位の情報を取り除かないものとする。
なお、学習対象の身体部位401~424は一例であり、基本動作モデル生成部101は、図4とは異なる身体部位を学習してもよい。また、基本動作モデルにおける各身体部位の値も座標値(x、y、z)でなくてもよい。
図6は、ステップS101において、基本動作モデル生成部101が「スマートフォンを見る」動作の基本動作モデルを生成する例を示す。
基本動作モデル生成部101は、例えば図6において符号601~616の白丸で表現している人物の身体部位ごとの状態(角度、位置等)を学習する。これにより、基本動作モデル生成部101は、基本動作「スマートフォンを見る」における身体部位の状態を学習することができる。
基本動作モデル生成部101は、「スマートフォンを見る」動作の複数の映像データを学習することで、身体部位ごとの状態が反映された、「スマートフォンを見る」動作の基本動作モデルを生成する。
基本動作モデル生成部101は、例えば、図7に示すような「スマートフォンを見る」動作の基本動作モデルを生成する。図7では、図6に示す身体部位601~616の各々の座標値(x、y、z)が示される。
なお、「スマートフォンを見る」動作は時刻ごとの各身体部位の状態の変化が少ないので、基本動作モデル生成部101は、動画データではなく静止画データを学習することでもよい。
なお、学習対象の身体部位601~616は一例であり、基本動作モデル生成部101は、図6とは異なる身体部位を学習してもよい。また、基本動作モデルにおける各身体部位の値も座標値(x、y、z)でなくてもよい。
図3に戻り、ステップS102において、基本動作モデル取得部103は、動作モデル生成装置100のユーザから応用動作モデルの生成が要求されたか否かを判定する。生成要求には、生成対象の応用動作モデルが指定されている。本実施の形態では、生成要求において「歩きスマートフォン」の応用動作モデルの生成が指定されているものとする。
なお、動作モデル生成装置100のユーザは、例えばマウス又はキーボードの操作により応用動作モデルの生成を要求する。
動作モデル生成装置100のユーザから応用動作モデルの生成が要求された場合は、処理がステップS103に進む。
ステップS103において、基本動作モデル取得部103は、基本動作モデル記憶部102から複数の基本動作モデルを取得する。
次に、ステップS104において、応用動作モデル生成部104が暫定モデルを生成する。
具体的には、応用動作モデル生成部104は、「歩きスマートフォン」の映像データを教師データとして用いた学習を行う。そして、応用動作モデル生成部104は、身体部位ごとの状態の遷移を解析し、身体部位ごとの状態の遷移が示される暫定モデルを生成する。暫定モデルの生成方法は、ステップS101の基本動作モデルの生成方法と同様である。
複雑な動作である「歩きスマートフォン」の映像データのサンプル数は少ない。このため、応用動作モデル生成部104は、「歩きスマートフォン」の動作が反映された精密なモデルは生成できないが、「歩きスマートフォン」の動作の最低限の特徴を捉えた暫定モデルは生成することができる。
次に、ステップS105において、応用動作モデル生成部104が基本動作モデル取得部103により取得された複数の基本動作モデルのうちの2以上の基本動作モデルを組み合わせて候補モデルを生成する。応用動作モデル生成部104は、基本的に、同一の身体部位についての情報を持たない基本動作モデルの組み合わせによって候補モデルを生成する。しかし、応用動作モデル生成部104は、同一の身体部位についての情報を持つ基本動作モデルを組み合わせて候補モデルを生成してもよい。この場合は、応用動作モデル生成部104は、対応する身体部位についての情報の平均をとるなどの方法で基本動作モデルを組み合わせる。
組み合わせる2以上の基本動作モデルの向きが違っている場合は、応用動作モデル生成部104は、向きの違いによる影響を小さくするための調整を行う。具体的には、応用動作モデル生成部104は、組み合わせる2以上の基本動作モデルの特定の身体部位が一定の方向を向くように調整を行う。応用動作モデル生成部104は、例えば、腰や首などの代表的な身体部位の向きが一致するように、2以上の基本動作モデルの少なくともいずれかを回転させる。
なお、応用動作モデル生成部104は、応用動作と根本的に異なる基本動作の基本動作モデルはステップS105の組合せから除外してもよい。応用動作「歩きスマートフォン」の例では、応用動作モデル生成部104は、例えば、基本動作「食べる」の基本動作モデル、基本動作「書く」の基本動作モデル等はステップS105の組合せから除外することができる。
次に、ステップS106において、応用動作モデル生成部104は、暫定モデルと候補モデルとの類似度を算出する。
応用動作モデル生成部104は、例えば、ハミング距離を用いた手法により暫定モデルと候補モデルとの類似度を算出する。また、応用動作モデル生成部104は、暫定モデルと候補モデルとの対応する身体部位各々の座標値(x、y、z)の差の絶対値の総和を用いて暫定モデルと候補モデルとの類似度を算出してもよい。例えば、応用動作モデル生成部104は、暫定モデルと候補モデルとの対応する身体部位各々の座標値(x、y、z)の差の絶対値の総和を距離として扱う。そして、応用動作モデル生成部104は、距離の逆数を類似度として算出してもよい。この場合に、暫定モデルと候補モデルの向きが違っている場合は、応用動作モデル生成部104は、前述したような向きの違いによる影響を小さくするための調整を行う。
そして、ステップS107において、応用動作モデル生成部104は、ステップS106で算出した類似度を既定の記憶領域に格納する。
次に、ステップS108において、応用動作モデル生成部104は、候補モデルの生成が完了しているか否かを判定する。
未生成の候補モデルがある場合は、処理がステップS105に戻る。一方、候補モデルの生成が完了している場合は、処理がステップS109に進む。
ステップS109では、応用動作モデル生成部104は、最も類似度が高い候補モデルを応用動作モデルに指定する。
以上により、2以上の基本動作モデルを組み合わせた応用動作モデルが得られた。
最後に、ステップS110において、応用動作モデル生成部104が、ステップS109で指定した応用動作モデルを応用動作モデル記憶部105に格納する。
図8は、ステップS104で生成される暫定モデルの例を示す。
応用動作モデル生成部104は、図4と同様に、矢印の方向に、(a)~(f)の順に人物が歩く映像データ(動画データ)を学習して、「歩きスマートフォン」の暫定モデルを生成する。
「歩きスマートフォン」の映像データの数が少ないため、例えば、図8に示すように脚部が鞄700で隠れてしまっている映像データしか得られない。図8の映像データからは、鞄700で隠れた脚部については正しい学習結果が得られないので、暫定モデルでは、脚部についての座標値(x、y、z)は不正確である。
図9及び図10は、ステップS105で生成される候補モデルの例を示す。
図9は、「歩く」の基本動作モデルと「缶入り飲料を飲む」の基本動作モデルを組み合わせて得られる候補モデルの例を示す。
図10は、「歩く」の基本動作モデルと「スマートフォンを見る」の基本動作モデルを組み合わせて得られる候補モデルの例である。
「歩きスマートフォン」の場合は、「歩く」の基本動作モデルと「スマートフォンを見る」の基本動作モデルを組み合わせることが適切であると容易に想起することができる。しかし、応用動作の態様によっては、いずれの基本動作を組み合わせればよいのかが明らかではない場合がある。このため、応用動作モデル生成部104は、2以上の基本動作モデルを総当たり的に組み合わせて候補モデルを複数生成する。
応用動作モデル生成部104は、「歩きスマートフォン」の暫定モデル(図8)と、候補モデル(図9及び図10)の各々との類似度を算出する。
そして、図8の暫定モデルでは脚部が鞄700で隠れてしまっているものの、応用動作モデル生成部104は、図10の候補モデルの方が類似度が高いと判定し、図10の候補モデルを応用動作モデルに指定する。
図10の応用動作モデルでは、例えば、図11に示すように、図6の人物部位601~616の状態と図4の人物部位413~424の状態とで構成される。
図10では、作図上の理由により全ての人物部位に符号をつけていないが、図6に示す人物部位601~616と、図4に示す人物部位413~424が含まれている。
***実施の形態の効果の説明***
本実施の形態によれば、映像データのサンプル数が少ない複雑な動作についても適切なモデルを生成することができる。
また、本実施の形態では、暫定モデルと候補モデルを生成し、暫定モデルとの類似度が最も高い候補モデルを応用動作モデルに指定する。このため、本実施の形態によれば、応用動作モデルに用いるべき基本動作モデルが明らかではない場合でも、適切な基本動作モデルを組み合わせて応用動作モデルを生成することができる。
また、本実施の形態では、可動体の部位ごとに部位の状態が示される基本動作モデルを組み合わせて応用動作モデルを生成する。このため、本実施の形態によれば、可動体の一部の部位が隠れている場合にも適切に応用動作を認識することができる。
例えば、図8に示すように鞄700で人物の身体の一部が隠れているような場合、また、図12に示すようにガードレール800で人物の身体の一部が隠れているような場合でも、「歩きスマートフォン」の応用動作を用いて、正確に「歩きスマートフォン」動作を検知することができる。
なお、本実施の形態では、動作モデル生成装置100内で基本動作モデル生成部101が基本動作モデルを生成する例を説明した。これに代えて、動作モデル生成装置100の外部の外部装置が基本動作モデルを生成するようにしてもよい。この場合の外部装置による基本動作モデルの生成方法は上述した基本動作モデル生成部101による基本動作モデルの生成方法と同じである。
動作モデル生成装置100では、基本動作モデル取得部103が外部装置から基本動作モデルを取得する。外部装置が基本動作モデルを生成する場合は、図2の構成から、基本動作モデル生成部101と基本動作モデル記憶部102を省略することができる。
実施の形態2.
本実施の形態では、主に実施の形態1との差異を説明する。
なお、以下で説明していない事項は、実施の形態1と同様である。
実施の形態1で示した図3のフローチャートでは、応用動作モデル生成部104が暫定モデルと候補モデルを生成し、暫定モデルとの類似度が最も高い候補モデルを応用動作モデルに指定する。これに代えて、図13に示すように、応用動作モデル生成部104は、動作モデル生成装置100のユーザの指定に従って応用動作モデルを生成するようにしてもよい。
以下、図13のフローを説明する。
ステップS101とステップS102は図3と同様であるため、説明を省略する。
次に、ステップS121において、応用動作モデル生成部104は、動作モデル生成装置100のユーザから応用動作モデルに用いる基本動作モデルが指定されているか否かを判定する。
「歩きスマートフォン」の応用動作モデルの生成を要求する場合は、動作モデル生成装置100のユーザは、例えば、「歩く」動作の基本動作モデルと「スマートフォンを見る」動作の基本動作モデルを指定する。
動作モデル生成装置100のユーザに基本動作モデルが指定されている場合は、処理がステップS122に進む。一方、基本動作モデルが指定されていない場合は図3のステップS103~S109が行われる。
ステップS122では、応用動作モデル生成部104は、ユーザに指定された基本動作モデルを組み合わせて応用動作モデルを生成する。
前述の例では、応用動作モデル生成部104は、ユーザにより指定された「歩く」動作の基本動作モデルと「スマートフォンを見る」動作の基本動作モデルを組み合わせて、「歩きスマートフォン」の応用動作モデルを生成する。
最後に、ステップS123において、応用動作モデル生成部104が、ステップS122で生成した応用動作モデルを応用動作モデル記憶部105に格納する。
以上、本実施の形態によっても、映像データのサンプル数が少ない複雑な動作についても適切なモデルを生成することができる。
実施の形態3.
本実施の形態では、主に実施の形態1との差異を説明する。
なお、以下で説明していない事項は、実施の形態1と同様である。
実施の形態1及び実施の形態2では、2以上の基本動作を組み合わせて応用動作モデルを生成する例を説明した。
本実施の形態では、動作モデル生成装置100が、生成済みの応用動作モデルの一部を基本動作モデルの少なくとも一部又は他の応用動作モデルの少なくとも一部と置き換えて新たな応用動作モデルを生成する例を説明する。
本実施の形態においても、動作モデル生成装置100のハードウェア構成例は図1に示す通りである。また、動作モデル生成装置100の機能構成例は図2に示す通りである。
図14は、本実施の形態に係る動作モデル生成装置100の動作例を示す。
先ず、ステップS131において、応用動作モデル生成部104は応用動作モデルの変更が要求されたか否かを判定する。
ここでは、動作モデル生成装置100のユーザは、一部が変更される応用動作モデル(以下、「変更対象応用動作モデル」という)と、変更対象応用動作モデルの変更に用いられる基本動作モデル又は他の応用動作モデル(以下、「変更用モデル」という)を指定する。更に、動作モデル生成装置100のユーザは、変更対象応用動作モデルのうちの変更の対象となる部分(以下、「変更対象部分」という)と、変更用モデルのうちの変更対象部分の変更に用いられる部分(以下、「変更用部分」)とを指定する。
ユーザにより要求動作モデルの変更が要求された場合は、処理がステップS132に進む。
ステップS132では、応用動作モデル生成部104は、変更対象応用動作モデルの変更対象部分を変更用モデルの変更用部分で置き換えて新たな応用動作モデルを生成する。
最後に、ステップS133において、応用動作モデル生成部104は、ステップS132で生成した新たな応用動作モデルを応用動作モデル記憶部105に格納する。
ここで、具体例を用いて、実施の形態3に係る動作モデル生成装置100の動作例を説明する。
図15は、動作モデル生成装置100のユーザにより指定された変更対象応用動作モデルと変更対象部分の例を示す。図15の例では、「歩きスマートフォン」の応用動作モデルが変更対象応用動作モデルとして指定されている。また、符号901の部分が変更対象部分として指定されている。
図16は、動作モデル生成装置100のユーザにより指定された変更用モデルと変更用部分の例を示す。図16の例では、「自転車の運転」の基本動作モデルが変更用モデルとして指定されている。また、符号902の部分が変更用部分として指定されている。
応用動作モデル生成部104は、図15の変更対象部分901を図16の変更用部分902に置き換えて、図17に示す「自転車運転中のスマートフォン」動作の応用動作モデルを新たに生成する。
このように、本実施の形態によれば、生成済みの応用動作モデルの一部を変更して新たな応用動作モデルを生成することができる。
従来は、例えば、図17に示す「自転車運転中のスマートフォン」動作のモデルを生成する場合は、「自転車運転中のスマートフォン」動作の映像データを用いた学習が必要であった。これに対して、本実施の形態では、更なる学習を行わずに、「自転車運転中のスマートフォン」動作に対応した新たな応用動作モデルを生成することができる。
この結果、「自転車運転中のスマートフォン」動作に対応する新たな応用動作モデルを用いて、自転車を運転しながらスマートフォンを見ている動作を検知することができる。
以上、実施の形態1~3を説明したが、これらの実施の形態のうち、2つ以上を組み合わせて実施しても構わない。
あるいは、これらの実施の形態のうち、1つを部分的に実施しても構わない。
あるいは、これらの実施の形態のうち、2つ以上を部分的に組み合わせて実施しても構わない。
また、これらの実施の形態に記載された構成及び手順を必要に応じて変更してもよい。
***ハードウェア構成の補足説明***
最後に、動作モデル生成装置100のハードウェア構成の補足説明を行う。
図1に示すプロセッサ151は、プロセッシングを行うIC(Integrated Circuit)である。
プロセッサ151は、CPU(Central Processing Unit)、DSP(Digital Signal Processor)等である。
図1に示す主記憶装置152は、RAM(Random Access Memory)である。
図1に示す補助記憶装置153は、ROM(Read Only Memory)、フラッシュメモリ、HDD(Hard Disk Drive)等である。
また、補助記憶装置153には、OS(Operating System)も記憶されている。
そして、OSの少なくとも一部がプロセッサ151により実行される。
プロセッサ151はOSの少なくとも一部を実行しながら、基本動作モデル生成部101、基本動作モデル取得部103及び応用動作モデル生成部104の機能を実現するプログラムを実行する。
プロセッサ151がOSを実行することで、タスク管理、メモリ管理、ファイル管理、通信制御等が行われる。
また、基本動作モデル生成部101、基本動作モデル取得部103及び応用動作モデル生成部104の処理の結果を示す情報、データ、信号値及び変数値の少なくともいずれかが、主記憶装置152、補助記憶装置153、プロセッサ151内のレジスタ及びキャッシュメモリの少なくともいずれかに記憶される。
また、基本動作モデル生成部101、基本動作モデル取得部103及び応用動作モデル生成部104の機能を実現するプログラムは、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ブルーレイ(登録商標)ディスク、DVD等の可搬記録媒体に格納されていてもよい。そして、基本動作モデル生成部101、基本動作モデル取得部103及び応用動作モデル生成部104の機能を実現するプログラムが格納された可搬記録媒体を流通させてもよい。
また、基本動作モデル生成部101、基本動作モデル取得部103及び応用動作モデル生成部104の「部」を、「回路」又は「工程」又は「手順」又は「処理」に読み替えてもよい。
また、動作モデル生成装置100は、処理回路により実現されてもよい。処理回路は、例えば、ロジックIC(Integrated Circuit)、GA(Gate Array)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)である。
なお、本明細書では、プロセッサと処理回路との上位概念を、「プロセッシングサーキットリー」という。
つまり、プロセッサと処理回路とは、それぞれ「プロセッシングサーキットリー」の具体例である。
100 動作モデル生成装置、101 基本動作モデル生成部、102 基本動作モデル記憶部、103 基本動作モデル取得部、104 応用動作モデル生成部、105 応用動作モデル記憶部、151 プロセッサ、152 主記憶装置、153 補助記憶装置、154 入出力装置。

Claims (8)

  1. 可動体の基本動作が示される映像データを教師データとして学習を行い、前記可動体の複数の部位の状態の遷移を部位ごとに解析して、前記可動体の部位ごとの状態の遷移が示された、前記基本動作を認識するためのモデルである基本動作モデルを生成する基本動作モデル生成部と、
    前記基本動作モデル生成部で生成された前記基本動作モデルを、複数の基本動作の各々について取得する基本動作モデル取得部と、
    前記基本動作よりも複雑な動作である応用動作が示される映像データを教師データとして学習を行い、前記可動体の複数の部位の状態の遷移を部位ごとに解析して、前記可動体の部位ごとの状態の遷移が示された、前記応用動作を認識するためのモデルを暫定モデルとして生成し、複数の前記基本動作モデルのうち、組み合わせた結果が前記暫定モデルに類似する2以上の前記基本動作モデルを組み合わせて前記応用動作を認識するためのモデルである応用動作モデルを生成する応用動作モデル生成部と
    を有する動作モデル生成装置。
  2. 前記応用動作モデル生成部は、
    前記複数の前記基本動作モデルのうちの2以上の基本動作モデルを組み合わせて前記応用動作モデルの候補である候補モデルを複数生成し、
    複数の候補モデルの各々と前記暫定モデルとの類似度を算出し、最も類似度が高い候補モデルを前記応用動作モデルに指定する請求項1に記載の動作モデル生成装置。
  3. 前記応用動作モデル生成部は、
    前記複数の前記基本動作モデルの中から指定された2以上の基本動作モデルを組み合わせて前記応用動作モデルを生成する請求項1に記載の動作モデル生成装置。
  4. 可動体の基本動作が示される映像データを教師データとして学習を行い、前記可動体の複数の部位の状態の遷移を部位ごとに解析して、前記可動体の部位ごとの状態の遷移が示された、前記基本動作を認識するためのモデルである基本動作モデルを生成する基本動作モデル生成部と、
    前記基本動作モデル生成部で生成された前記基本動作モデルを、複数の基本動作の各々について取得する基本動作モデル取得部と、
    前記基本動作よりも複雑な動作である応用動作を認識するためのモデルである応用動作モデルを、複数の前記基本動作モデルのうちの2以上の前記基本動作モデルを組み合わせて生成し、生成した応用動作モデルの一部を、前記基本動作モデルの少なくとも一部又は他の応用動作モデルの少なくとも一部で置換して新たな応用動作を認識するための新たな応用動作モデルを生成する応用動作モデル生成部と
    を有する動作モデル生成装置。
  5. コンピュータが、可動体の基本動作が示される映像データを教師データとして学習を行い、前記可動体の複数の部位の状態の遷移を部位ごとに解析して、前記可動体の部位ごとの状態の遷移が示された、前記基本動作を認識するためのモデルである基本動作モデルを生成し、
    生成された前記基本動作モデルを、前記コンピュータが、複数の基本動作の各々について取得し、
    前記コンピュータが、前記基本動作よりも複雑な動作である応用動作が示される映像データを教師データとして学習を行い、前記可動体の複数の部位の状態の遷移を部位ごとに解析して、前記可動体の部位ごとの状態の遷移が示された、前記応用動作を認識するためのモデルを暫定モデルとして生成し、複数の前記基本動作モデルのうち、組み合わせた結果が前記暫定モデルに類似する2以上の前記基本動作モデルを組み合わせて前記応用動作を認識するためのモデルである応用動作モデルを生成する動作モデル生成方法。
  6. コンピュータが、可動体の基本動作が示される映像データを教師データとして学習を行い、前記可動体の複数の部位の状態の遷移を部位ごとに解析して、前記可動体の部位ごとの状態の遷移が示された、前記基本動作を認識するためのモデルである基本動作モデルを生成し、
    生成された前記基本動作モデルを、前記コンピュータが、複数の基本動作の各々について取得し、
    前記コンピュータが、前記基本動作よりも複雑な動作である応用動作を認識するためのモデルである応用動作モデルを、複数の前記基本動作モデルのうちの2以上の前記基本動作モデルを組み合わせて生成し、生成した応用動作モデルの一部を、前記基本動作モデルの少なくとも一部又は他の応用動作モデルの少なくとも一部で置換して新たな応用動作を認識するための新たな応用動作モデルを生成する動作モデル生成方法。
  7. 可動体の基本動作が示される映像データを教師データとして学習を行い、前記可動体の複数の部位の状態の遷移を部位ごとに解析して、前記可動体の部位ごとの状態の遷移が示された、前記基本動作を認識するためのモデルである基本動作モデルを生成する基本動作モデル生成処理と、
    前記基本動作モデル生成処理で生成された前記基本動作モデルを、複数の基本動作の各々について取得する基本動作モデル取得処理と、
    前記基本動作よりも複雑な動作である応用動作が示される映像データを教師データとして学習を行い、前記可動体の複数の部位の状態の遷移を部位ごとに解析して、前記可動体の部位ごとの状態の遷移が示された、前記応用動作を認識するためのモデルを暫定モデルとして生成し、複数の前記基本動作モデルのうち、組み合わせた結果が前記暫定モデルに類似する2以上の前記基本動作モデルを組み合わせて前記応用動作を認識するためのモデルである応用動作モデルを生成する応用動作モデル生成処理と
    をコンピュータに実行させる動作モデル生成プログラム。
  8. 可動体の基本動作が示される映像データを教師データとして学習を行い、前記可動体の複数の部位の状態の遷移を部位ごとに解析して、前記可動体の部位ごとの状態の遷移が示された、前記基本動作を認識するためのモデルである基本動作モデルを生成する基本動作モデル生成処理と、
    前記基本動作モデル生成処理で生成された前記基本動作モデルを、複数の基本動作の各々について取得する基本動作モデル取得処理と、
    前記基本動作よりも複雑な動作である応用動作を認識するためのモデルである応用動作モデルを、複数の前記基本動作モデルのうちの2以上の前記基本動作モデルを組み合わせて生成し、生成した応用動作モデルの一部を、前記基本動作モデルの少なくとも一部又は他の応用動作モデルの少なくとも一部で置換して新たな応用動作を認識するための新たな応用動作モデルを生成する応用動作モデル生成処理と
    をコンピュータに実行させる動作モデル生成プログラム。
JP2021573162A 2020-03-24 2020-03-24 動作モデル生成装置、動作モデル生成方法及び動作モデル生成プログラム Active JP7130155B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/013149 WO2021192062A1 (ja) 2020-03-24 2020-03-24 動作モデル生成装置、動作モデル生成方法及び動作モデル生成プログラム

Publications (2)

Publication Number Publication Date
JPWO2021192062A1 JPWO2021192062A1 (ja) 2021-09-30
JP7130155B2 true JP7130155B2 (ja) 2022-09-02

Family

ID=77891210

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021573162A Active JP7130155B2 (ja) 2020-03-24 2020-03-24 動作モデル生成装置、動作モデル生成方法及び動作モデル生成プログラム

Country Status (3)

Country Link
US (1) US20220375267A1 (ja)
JP (1) JP7130155B2 (ja)
WO (1) WO2021192062A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005202653A (ja) 2004-01-15 2005-07-28 Canon Inc 動作認識装置及び方法、動物体認識装置及び方法、機器制御装置及び方法、並びにプログラム
JP2010207488A (ja) 2009-03-12 2010-09-24 Gifu Univ 行動解析装置及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005202653A (ja) 2004-01-15 2005-07-28 Canon Inc 動作認識装置及び方法、動物体認識装置及び方法、機器制御装置及び方法、並びにプログラム
JP2010207488A (ja) 2009-03-12 2010-09-24 Gifu Univ 行動解析装置及びプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
平松 尚子 NAOKO HIRAMATSU,身体動作の記述と表示のための実行制御環境の開発 System for the Description and Display of Human Body Movement,情報処理学会論文誌 第40巻 第3号 Transactions of Information Processing Society of Japan,日本,社団法人情報処理学会 Information Processing Society of Japan,1999年03月15日,第40巻,p.939-948
稲邑 哲也 Tetsunari Inamura,幾何学的シンボル操作による多様な動作パターンの認識・生成を実現する原始シンボル空間の構成法 Construction of the Proto-Symbol Space that Realizes Recognition and Generation of Various Motion Patterns based on Geometric Symbol Manipulation,日本ロボット学会誌 第27巻 第5号 Journal of the Robotics Society of Japan,日本,社団法人日本ロボット学会 The Robotics Society of Japan,2009年06月15日,第27巻,p.84-92

Also Published As

Publication number Publication date
WO2021192062A1 (ja) 2021-09-30
JPWO2021192062A1 (ja) 2021-09-30
US20220375267A1 (en) 2022-11-24

Similar Documents

Publication Publication Date Title
KR102292028B1 (ko) 제스처 인식 방법, 장치, 전자 기기 및 저장 매체
Pisharady et al. Recent methods and databases in vision-based hand gesture recognition: A review
Abid et al. Dynamic sign language recognition for smart home interactive application using stochastic linear formal grammar
Shi et al. React: Temporal action detection with relational queries
US10108270B2 (en) Real-time 3D gesture recognition and tracking system for mobile devices
Schneider et al. Gesture recognition in RGB videos using human body keypoints and dynamic time warping
JP7192143B2 (ja) オンライン学習を利用した物体追跡のための方法およびシステム
Wan et al. Chalearn looking at people: Isogd and congd large-scale rgb-d gesture recognition
CN102930270A (zh) 基于肤色检测与背景消除的手部识别方法及系统
Kim et al. Multiple-clothing detection and fashion landmark estimation using a single-stage detector
US11069086B2 (en) Non-transitory computer-readable storage medium for storing position detection program, position detection method, and position detection apparatus
Kan et al. Self-constrained inference optimization on structural groups for human pose estimation
De Coster et al. Towards the extraction of robust sign embeddings for low resource sign language recognition
JP7130155B2 (ja) 動作モデル生成装置、動作モデル生成方法及び動作モデル生成プログラム
Bao et al. Multi-residual module stacked hourglass networks for human pose estimation
Dede et al. Object aspect classification and 6dof pose estimation
Estrivero-Chavez et al. Toward a Mexican sign language system using human computer interface
Mallik et al. Virtual Keyboard: A Real-Time Hand Gesture Recognition-Based Character Input System Using LSTM and Mediapipe Holistic
Kourbane et al. Skeleton-aware multi-scale heatmap regression for 2D hand pose estimation
Gu et al. Sensor fusion based manipulative action recognition
Sen et al. HGR-FYOLO: a robust hand gesture recognition system for the normal and physically impaired person using frozen YOLOv5
Kerdvibulvech et al. Markerless guitarist fingertip detection using a bayesian classifier and a template matching for supporting guitarists
Skarga-Bandurova et al. Surgical Hand Gesture Prediction for the Operating Room.
van Wyk et al. A multimodal gesture-based virtual interactive piano system using computer vision and a motion controller
Zheng et al. So Many Heads, So Many Wits: Multimodal Graph Reasoning for Text-Based Visual Question Answering

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211209

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211209

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20211209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220322

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220519

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220726

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220823

R150 Certificate of patent or registration of utility model

Ref document number: 7130155

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150