JP4102318B2 - 道具動作認識装置および道具動作認識方法 - Google Patents

道具動作認識装置および道具動作認識方法 Download PDF

Info

Publication number
JP4102318B2
JP4102318B2 JP2004058301A JP2004058301A JP4102318B2 JP 4102318 B2 JP4102318 B2 JP 4102318B2 JP 2004058301 A JP2004058301 A JP 2004058301A JP 2004058301 A JP2004058301 A JP 2004058301A JP 4102318 B2 JP4102318 B2 JP 4102318B2
Authority
JP
Japan
Prior art keywords
tool
function
learning
motion
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004058301A
Other languages
English (en)
Other versions
JP2005250708A (ja
Inventor
英朋 境野
豊 柳沢
哲司 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004058301A priority Critical patent/JP4102318B2/ja
Publication of JP2005250708A publication Critical patent/JP2005250708A/ja
Application granted granted Critical
Publication of JP4102318B2 publication Critical patent/JP4102318B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

本発明は,道具動作認識技術に関し,特に,WEBカメラや一般のカメラから入力された時系列シーンにおいて,道具に関する形状知識を用いることなく,人がどのような道具を操作したかをパターン学習・認識する道具動作認識装置および道具動作認識方法に関するものである。
WEBやさまざまな観測源から得られる画像化されたカメラシーンからの人のジェスチャーや動作を認識する研究が活発に行われている。また,カメラによる遠隔地,多地点でのサーベイランス(監視)システム,ネットワークの構築が進んできており,複雑な環境下,複雑な動作まで認識できる技術が望まれる。しかし,制約条件のない自然な動作認識の研究については,従来ほとんど行われていない。従来のジェスチャー研究の例で言えば,予め動作と対応するコマンド体系を限定させていることから自然さに欠けている。
道具の知識を用いる場合,例えば身の回りには鉛筆,消しゴムがあり,書く,消すといったさまざまな動作が存在し,道具自体の多様性と動作方法で組み合わせ数は膨大なものとなってしまう。人間が遠方にいる人の動作を認識する場合,すべての組み合わせを学習して遠方の動作を認識しているとは考えにくい。また,基本動作には(材料を)切る,(部屋を)掃く,(机を)拭くなど,対象と道具に応じた多くの種類が存在するが,我々人間は,手や腕のオクルージョンにより,道具そのものが完全に見えなくても容易に認識できる。
しかし,例えばロボットの目からの認識は容易なことではない。これはロボットが実環境変化や照明変化のもとで動作を識別するには,オクルージョン,道具に対する学習,動作の学習を十分に行う必要があるためである。特に,ペンで字を書いているときと,ドライバーでネジを回しているときのように,類似した構図の場合,一層その認識が困難となる。このような認識技術が確立すれば,ロボットが視覚的な状況判断から人をサポートするなどのタスクを円滑に行えるようになるであろう。
また,遠隔監視によって人の動作を詳細に自動認識することで,不自然な動作認識や道具を使った犯罪の予見など,幅広い応用が考えられる。このような背景があるため,人の身振り,手振り,といったジェスチャーの認識や道具を用いた動作認識が重要なテーマとして盛んに研究されている。
Starner 等は,40種類のASLハンドジェスチャーを,カラーグローブあるいは肌色特徴量に基づいてHMM(Hidden Morkov Model )により認識することを提案している(非特許文献1参照)。
Fels等は,データグローブを使用し,そこからセンシングされる手の動き情報に基づいて,マルチレイヤーNN(Neural Network)で学習することを行った(非特許文献2参照)。
Siskind 等は,人の動作知覚では物体の認識ではなく,物体とは別に視覚的な軌跡によると仮定して実験を行った(非特許文献3参照)。実験には,カラーモデルとHMM(Hidden Markov Model )を,pick up ,put down,push,pull,drop,throw の6つの動きの解析に利用した。
Bobick等は,マグネティックセンサー付データグローブを使って手の軌跡の主曲率や手の固有画像に基づいて,DTW(Dynamic Time Warping)による認識を行った(非特許文献4参照)。彼等はHMMによる軌跡の学習と認識へ拡張した(非特許文献5参照)。
Lee 等は,手の肌色を用いて10種類のジェスチャーをHMMにより学習・認識する方法をstart ,first ,nextなどプレゼンテーションで用いる基本コマンドに応用した(非特許文献6参照)。
Yang等は,汎用性を高めるため,データグローブを使用せずに肌色,モーションセグメンテーションに基づいて抽出した手の軌跡を生成して,TDNN(Time Delayed Neural Network )で学習・認識する方法を提案した(非特許文献7参照)。40種類のASLジェスチャーで実験を行い,高い認識率を得ている。
以上述べた方法では,道具を持った場合の操作認識には,オクルージョン問題のために適用が困難であることと,背景差分による方法では実環境変化や照明変化には対応できないという問題がある。
照明変化問題に対してBobick等は,腕の振りなどの動画から差分画像の累積画像を作成し,動作認識する方法を提案した(非特許文献8参照)。エアロビクスのように姿勢が大きく変化する場合には,高速に認識できることが示されている。しかし,後述する本発明で扱うような一定範囲内での,ねじ回しとキリのような細かい動作では,類似度の高い画像となってしまうため,認識が困難となる。
Yamato等は,道具を持った場合の動作認識の例として,テニスプレー時の4つのフォーム(ボレーなど)の識別にHMMの適用を提案している(非特許文献9参照)。入力画像ごとに背景差分を計算し,シルエット画像生成,2値化,ベクトル量子化のあと,36シンボルパターンで学習している。認識には,プレーヤーの手足を含めた姿勢とラケットの位置などが寄与したことが考えられる。動き特徴量は用いられていない。この手法では,シルエット画像を生成しているため,太陽光や環境変化に対しての影響を受けやすい問題が残されている。最も重要な認識率を大きく左右する画像からシンボルへの対応づけについては,経験と代表パターン選択に多くの時間を必要とすることも問題である。
Duric 等は,大工道具を手で操作しているときの,カメラ視線からみた道具の機能解析を試みている(非特許文献10参照)。この非特許文献10に記載された手法では,手に持った4種類の大工道具(シャベル,モンキー,ナイフ,スパナー)を取り上げて,その輪郭線の動きフローから,単眼カメラから擬似3次元オプティカルフローを推定した。ノーマルフローからモーションパラメータを求めて,各道具の動きを解析した。同じ道具であっても,モンキーを本来のねじ回しの用途からトンカチとして叩いたり,包丁も前後に切るだけでなく,突っつくなど,そのパラメータは時系列的に異なった推移を示す。この非特許文献10では,各道具の機能性を明らかにし,分類しているが,手や腕の動きの影響まではモデルに考慮していなかった。また,時系列パターンの認識実験までは行っていなかった。
なお,本発明の実施の形態に関係するオプティカルフローに関する技術については,下記の非特許文献11〜非特許文献14に記載されている。
TE.Starner,J.Weaver,and A.Pentland,"Rea1-time american signlanguage recognition using desk and wearable computer based video",IEEE Trans. PAMI,vo1.20,no.12,pp.1371-1375,1998. S.S.Fels and G.E.Hinton,"Glove-talk:a neural network interface which maps gestures to parallel format speech synthesizer controls",IEEE Trans.Neural Network,vol.9,no.1,pp.205-212,1997. J.M.Siskind and Q.Morris,"A maximum-likelihood approach to visual event classification",Proc.Fourth European Conf.Computer Vision,pp.347-360,1996. A.F.Bobick and A.D.Wilson,"A state-based approach to the representation and recognition of gesture",IEEE Trans. PAMI,vol.19,no.12,pp.1325-1337,1997. A.D.Wilson and A.F Bobick,"Parametric Hidden Markov Models for gesture recognition",IEEE Trans. PAMI,vol.21,no.9,pp.884-900,1999. H.K.Lee and J.H.Kim,"An HMM-based threshold model approach for gesture recognition",IEEE Trans. PAMI, vol.21,no.10,pp,961-973,1999. M.H.Yang,N.Ahuja,and M.Tabb,"Extraction of 2D motion trajectories and its application to hand gesture recognition",IEEE Trans. PAMI,vol.24,no.8,pp.1061-1074,2002. A.F.Bobick and J.W.Davis,"The Recognition of Human Movement Using Temporal Templates",IEEE Trans. PAMI,vol.23,no.3,pp.257-267,2001. J.Yamato,J.Ohya,and K.Ishii,"Recognizing human action in time-sequential images using Hidden Markov Mode1",Proc.Computer Vision and Pattern Recognition,pp.379-385,1992. Z.Duric,J.A.Fayman,and E.Rivlin,"Function from motion",IEEE PAMI,vol.18,no.6,pp.579-591,1996. B.D.Lucas and T.Kanade,"An iterative image registration technique with an application in stereo vision",IJCAI-81,pp.674-679. A.Bab-Hadiashar and D.Suter,"Robust optic flow computation,International Journal of Computer Vision,29,1,pp.59-77,1998. E.P.Ong and M.Spann,"Robust optical flow computation based on least-median-of-squares regression",International Journal of Computer Vision,31,1,pp.51-82,1999. N.Cornelius and T.Kanade,"Adapting optical flow to measure object motion in reflectance and X-ray image sequences",ACM SIGGRAPH/SIGART Interdisciplinary Workshop on Motion; Representation and Perception,Toronto,Canada,1983.
上記非特許文献1〜10に記載された従来技術は,以下のような問題がある。
(1)道具を手に持たないジェスチャー研究が大半であり,データグローブの使用,指などにカラーマーキングする不自然さがある。
(2)ドライバーを手先で細かく操作するような場合の認識に関しては十分な研究がなされていない。即ち,手や腕による道具へのオクルージョンや不連続性問題での学習・認識の検討が不十分である。
(3)画像パターンを用いたHMMにおいては,入力シンボル数と出力シンボル数と認識率については十分にその性能評価がなされていない。
(4)画像パターンからの出力シンボル変換方法がほとんど研究されていない。
(5)動画からの動き推定では,ノイズや照明変動に耐性のあるオプティカルフロー法が適用されていない。
上記従来技術の問題点について,さらに具体的に説明する。図11は人が道具を手に持って操作しているときの画像を示している。図11(A)はドライバーを回す動作,図11(B)はキリを回す動作,図11(C)はトンカチを叩く動作,図11(D)はノコギリを引く動作を示す。
一見すると,4つそれぞれの道具による動作識別は容易に思われるが,実は形状の類似性と動きの類似性があるために問題は複雑化している。まず,道具の形状については,例えば,予め各道具の形状を記憶してそれを参照しようとしても,手や腕により道具が隠蔽されるためにマッチングによる識別が困難となる。
また,動きから理解しようとすると,ドライバーを回す動作では,同じ操作者であってもきれいな周期成分が出ることはほとんどなく,ばらついてしまうため,動きの対応がとりにくくなる。さらに,キリとドライバーは,回転運動を中心とした類似した動きを示す。トンカチとノコギリは,前後の動きと手首あるいは切断対象を支点とする回転運動が混在するなどの類似性がある。その他,各道具はエッジがはっきりとしているため,エッジ付近でのオプティカルフローが不連続となり,推定精度が低下してしまう。
以上述べたように,従来,各操作の細かい動き(オプティカルフロー)をオクルージョンと不連続性が存在する状況下で,高精度に推定する技術は確立されていなかった。また,実環境シーンではノイズや輝度変動などの環境変化がある。
本発明は,上記従来技術の問題点を解決し,人が各種道具を手で操作している動作シーンからどの道具を用いているかを,オクルージョンと不連続性が存在する状況下で高精度に認識する道具動作認識技術を提供することを目的とする。
本発明のうち,代表的なものの概要を以下に説明する。
(1)本発明は,WEBやさまざまな観測源から得られる時系列画像(シーン)から,人が各種道具を使用しているときの動作を学習し,その学習結果を利用して認識する道具動作認識システムにおいて,画像入力部でさまざまな画像情報の時系列画像を入力し,画像蓄積部で蓄積し,速度推定部でシーン中の動きを示す速度ベクトルをオプティカルフローで推定し,学習部で各種道具操作シーンでHMMモデルパラメータを計算し,新たなシーンを入力して認識部でどの道具操作を行っているかを分類,識別し,出力部で結果を提示する。
(2)また,本発明は,前記(1)の速度推定部において,オプティカルフローの枠組みで目的関数を設定し,速度成分,輝度変動成分を未知数として最小二乗法により推定する。
(3)また,本発明は,前記(2)の目的関数において,非線形なロバスト関数として,ローレンツ関数,バイ・ウエイト関数等を介して,非線形関数の最小化により,各未知数を推定する。
(4)また,本発明は,前記(3)非線型関数の最小化演算には,最急降下法,ニューラルネット,レーベンバーグ・マッカート法等を用いる。
(5)また,本発明は,前記(3)のローレンツ関数等に含まれる分散値は,最小化過程において,段階的に大きい値から小さい値へ可変させる。
(6)また,本発明は,前記(1)の学習部において,予め設定した速度ベクトル情報をシンボルへ変換する変換対応図を用いて,速度推定部で推定された速度ベクトルを,HMMモデルパラメータの計算に必要される入力シンボルに変換し,学習に用いる。
(7)また,本発明は,前記(6)の学習部において,変換対応図には同心円状パターンを用いる。
具体的には,本発明は,人が道具を使用しているときの動作をコンピュータによって認識する方法において,観測源から得られる時系列画像を入力し,この中の連続した動作シーンのフレームから速度ベクトルを推定することを目的として,オプティカルフローの枠組みで,速度成分および輝度変動成分を未知数とするローレンツ関数またはバイ・ウエイト関数に基づく非線形なロバスト関数を目的関数として設定し,設定した非線形なロバスト関数の最小化により前記未知数を推定することで速度ベクトルを推定し,各フレームの平均速度ベクトルを求める。この速度ベクトルを矩形状または同心状の変換対応図にあてはめて,前記推定された平均速度ベクトルをシンボルへ変換し,変換されたシンボルを用いて認識対象となる複数種類の道具の各道具操作に対するHMMモデルパラメータを計算して学習する。学習後に新たに未知のシーンを入力し,HMMで計算を行い,最も尤度が小さい動作を認識結果とする。
本発明によれば,人が各種道具を手で操作している動作シーンからどの道具を用いているかを,オクルージョンと不連続性が存在する状況下で高精度に認識することが可能となる。
以下,本発明の実施の形態について詳細に説明する。図1は,本発明の処理全体を示すシステム構成図である。道具動作認識装置1において,11は人が各種道具を手で操作している動作シーンの時系列画像(フレーム)を入力する画像入力部,12は入力されたフレームを蓄積する画像蓄積部,13は動作シーンから速度ベクトルを推定する速度推定部,14は速度ベクトルからシンボル時系列を生成するシンボル時系列生成部,15は生成されたシンボル時系列から道具ごとのHMMモデルパラメータを計算して学習する学習部,16は新たに入力された動作シーンについて,学習部15の学習結果に基づいて,どの道具操作を行っているかを認識する認識部,17は認識部16による認識結果を出力する出力部,100は各道具毎のHMMモデルパラメータが格納される動作データベース(DB),141は速度ベクトルをシンボルに変換する変換対応図の情報をテーブル化して記憶するシンボル変換テーブルである。
画像入力部11から,人の道具を手で持って動作しているときの,動作が既知な動作シーンを,WEBカメラや一般ビデオカメラからの情報源として入力し,入力した動作シーンの時系列画像を,画像蓄積部12で蓄積する。速度推定部13では,画像蓄積部12で蓄積した時系列画像の動作シーンから速度ベクトルを推定し,シンボル時系列生成部14で速度ベクトルをシンボル変換テーブル141を用いてシンボルに変換し,学習部15で変換後のシンボルからHMMモデルパラメータを計算して,HMMで学習する。以上のように,認識させたい道具ごとにHMMで学習を行って,道具の種類の数と同じHMMを作り,動作DB100に格納する。
認識部16で新たに入力された動作が未知のシーンについて,予め学習された動作DB100中のHMMにシンボル時系列を入力して,最も尤度が小さいHMMに対応する動作を,入力されたシーンの動作として認識し,出力部17で,どの動作かを結果として出力する。
前述したように,各操作の細かい動き(オプティカルフロー)をオクルージョンと不連続性が存在する状況下で,高精度に推定する必要があり,また,実環境シーンにおけるノイズや輝度変動などの環境変化に対応する必要がある。そこで,本発明では,速度ベクトルの推定のため,輝度変動モデルとロバスト推定法に基づいたオプティカルフロー法を導入する。
また,動作の認識方法については,各道具を使い続けていると,ネジの締め具合,切断する物の切れ具合,穴あけの抵抗などの状況が時々刻々と変化していくため,明瞭に周期的な動きとはならないのが特徴である。このことから,時間軸の伸縮性に耐性があることで音声の分野で実績の高いHMMによる時系列パターン識別方法を採用する。
オプティカルフローに関する導出方法について,以下に述べる。オプティカルフローについては,これまで多くの方法が提案されてきている。その中で領域法と呼ばれる,上記非特許文献11に記載されたLucas 等の方法が,その精度と安定性から広く適用されている。しかしながら,輝度変動一定モデルであるため,照明変化には応じていない。また,最小二乗法による解法をとっているために,外れ値や不連続成分の影響によって,精度が低下してしまう。
そのため,上記非特許文献12,非特許文献13に記載されているようにロバスト推定法が適用され精度が改善されている。しかし,これらの非特許文献12,非特許文献13に記載された方法は,ともに輝度変動一定モデルであるため,フレーム間での輝度変動が大きい場合には,ロバスト推定法だけでは効果が薄くなる。
そこで本発明では,Cornelius 等が上記非特許文献14で提案したフレーム間で輝度が線形に変化することを許容するモデルに基づいて,ロバスト推定法による解法をとることとした。ロバスト関数は,非線形なローレンツ型を選択した。そのため,未知数推定は非線形最小二乗法問題となる。
説明の簡単化のため,サンプリング時間を,1.0として,第nフレームにおける2次元の位置ベクトルをX,速度べクトルをU,強度値をI(X,n)とすると,線形輝度変化モデル式は,
I(X+U,n+1)=I(X,n)+b(X,n) (1)
と記述される。位置ベクトルXの成分を,X=(x,y),速度ベクトルUの成分を,U=(u,v)とする。
続いて,式(1)について,ベクトルX周りでテイラー展開近似を施すと,
Figure 0004102318
となる。
2つの速度成分,係数について離散化した格子点上で扱う。時間方向には,n分割し,空間的には,画像(窓)M×Nを分割幅,
x =1.0,hy =1.0,
で分割して計算する。ここで,i,jを整数として,0≦i≦M,0≦j≦Nとする。位置ベクトルは,
i,j n =(ihx ,jhy n
速度ベクトルは,
i,j n =(ui,j ,vi,j n
と離散表示される。各空間項や時間項などの1次微分項を求めるため,差分法により画素点上で離散化近似を次のように行う。画像強度,各係数bについても,時間n,位置(i,j)で各画素上で表されるものとする。
Figure 0004102318
式(2)の誤差を窓内で最小化するための目的関数を,
E=Σρ(err) (3)
と定義する。ここで非線形ロバスト関数をρとする。この式が最小値をもつための条件式として,3つの未知数についての1次微分がゼロとなればよい,即ち,
Figure 0004102318
となるように,解を求めればよい。
ここでは最急降下法を適用して,3つの未知数を数〜十数画素四方(サブブロック)から,1画素ごとに1組ずつ推定する。下記の式(5)を3つの未知数u,v,b(wと表す)について,反復計算すればよい。式(5)は,反復回数p,調整パラメータμとすれば,
Figure 0004102318
で表される。調整パラメータμは経験的に決定される。
式(5)で必要とされる3つの1次微分値については,chain-ruleに基づいて,
Figure 0004102318
である。ただし,非線形ロバスト関数が1次導関数をもつとすれば,
Figure 0004102318
とおくと,それぞれの1次微分は,
Figure 0004102318
となる。
図2は,平均速度ベクトルの導出を説明する図であり,2枚の連続動作の映像を入力し,動きベクトルを検出し,平均速度ベクトルを求める過程を示している。図2(A)に示すように,2枚の連続した動作シーンのフレームを入力し,図2(B)に示すように,オプティカルフロー法により動きベクトルを推定し,図2(C)に示すように,SVD(Singular Value Decomposition:特異値分解)により乱れのあるベクトルを除去することにより,図2(D)に示すような平均速度ベクトルを求める。
図3は,2状態25出力のHMMの例を示している。ここでは,広く用いられている,left-to-right 型のHMMを用いており,2状態17出力と25出力の2つのモデルを選択している。両者の性能の違いについては後述するように実験で示す。図3中,s1,s2は状態,aijは状態推移確率,bijはシンボル出力確率を表す。
図4は,平均速度ベクトルをシンボルに変換する変換対応図の例を示している。ここでは,矩形状と同心円状の2つの方式を示している。シンボル変換テーブル141は,この変換対応図に相当する平均速度ベクトルとシンボルとの対応情報を持つ。シンボル変換テーブル141を用いて,平均速度ベクトルをシンボルに変換し,操作時の動きパターンからシンボル時系列を生成し,HMMモデルパラメータ(例えば,非特許文献5参照)を道具ごとに計算し学習する。シンボル変換テーブル141は,認識のときにも同様に用いる。
平均速度ベクトルからのシンボル変換方法については,これまで幾つかの方法が提案されているものの,どのような特徴量を選択し,どのように変換するかについては十分に検討されていない。ここでは,次のように各フレームの2次元情報を1次元情報へ変換し,比較実験をした。
すなわち,本実施の形態では,各フレームから得られる平均速度ベクトルの大きさと方向に関して,図4のような変換対応図を用いることにした。変換対応図では,予備実験の結果から中央付近の密度を高くすることが望ましいことがわかった。各フレームは1つのシンボルに対応させるが,分割数と形状については,例えば,図4(A)に示すような矩形状の25出力シンボルや,図4(B)に示すような円状の17出力シンボルを用いるものを設計した。図4に示す2つの出力シンボルパターンの長所と短所については,認識実験により検証した。図4(A)では平均速度ベクトルにシンボル17が割り当てられ,図4(B)ではシンボル7が割り当てられている例を示している。
図5は,あるトンカチ操作の時系列画像からシンボル時系列を生成する例を示している。図5(A)に示すようなトンカチによる釘打ちの時系列画像から,図5(B)に示すオプティカルフローを経て得られた速度ベクトルを,図5(C)に示す変換対応図のシンボル変換テーブル141を用いて変換する。図5(C)に示されているように,トンカチが釘に達するまで,速度ベクトルの方向と大きさが変化した。この結果,出力シンボル列は,図5(D)に示すように(7,7,7,8,1,4)となった。
図6は,4種類の道具に対するHMMの学習の例を示す図である。例えば,ドライバー動作を学習し,図6(A)に示されるドライバーのシンボル時系列(14,14,12,7,6,6,6・・・)から,B−W(Baum-Welch)アルゴリズムにより,図6(B)に示すような推移確率行列Aと出力確率行列BからなるHMMモデルパラメータを算出する。このHMMモデルパラメータを,道具ごとに動作DB100に記録する。
このようなHMMの学習を4種類の道具それぞれについて行うことにより,図6(C)に示すように,動作DB100にドライバー,トンカチ,キリ,ノコギリの4種類(カテゴリー)のHMMが生成される。
図7は,シンボルの時系列パターンによる動作認識の流れを示す図である。例えば,図7(A)に示すような未知のシンボル時系列(14,2,4,12,7,2,12)が入力された場合,図7(B)に示すように,その対数尤度を動作DB100に格納された4種類のHMMで計算する。そして,算出された最も小さい対数尤度に対応する道具が,入力されたシンボル時系列パターンの動作シーンで操作されている道具であると認識する。この例では,対数尤度が 219.675661 から 819.264267 までの値が算出されたが,最も小さい対数尤度(219.675661)であったドライバーが,入力されたシンボル時系列パターンの動作シーンで操作されている道具であると認識されることになる。
図8は,操作者一人が4つそれぞれの道具操作をしたときの,B−Wアルゴリズムによる学習過程を示す図である。縦軸は対数尤度,横軸は反復回数を表している。いずれの場合にも反復回数が50回以上で,尤度が−330〜−430の範囲でほぼ収束した。キリの場合の対数尤度が最も小さい値に収束した。他の被験者でも同様の傾向であった。学習する時間は1人分,1つのカテゴリー当り,20〜30秒,認識する時間は,4つのカテゴリーで0.02秒であった。
図9は,3人(A,B,C)で学習したHMMを用いたときの,各人の動作の平均認識率を示す図である。3人で学習したHMMを用いて,各人の動作の認識率について実験を行い,1人で学習したHMMとの差異を調べた。図9では,出力シンボル数が17と25のそれぞれの場合についての実験結果の平均認識率を示している。図9中,括弧内は,1人で学習した場合での認識率からの改善率を示す。
出力シンボル数が17の場合には,ドライバーとトンカチで,10%以上改善し,出力シンボル数が25の場合には,ドライバー,トンカチ,キリで7%〜12%の改善が見られた。4つの道具の平均認識率は,出力シンボル数が17の方が約3%高くなった。
図10は,入力シンボル数を変化させた場合の認識率の変化を示す図である。図10に示すように,入力シンボル数が50から5へと少なくなると,どの道具についても認識率が低下した。これは時系列的な特徴量が減少するので,当然のことである。
上述したように,本発明により,実環境下で人が各種大工道具を手で操作している動画シーンからどの道具を用いているかを,オプティカルフローとHMMに基づいて高精度に認識できることが確認できた。
単眼カメラからの動作認識の問題は,操作者の指,甲,腕によるオクルージョンのため,道具形状の当てはめが困難であること,動きの周期性は弱いこと,操作の早さの相違などである。そこで本発明では,手と道具の一体の動きを分離することなく操作をモデル化し,その効果を検証する実験では,それらの動きから4つの道具をカテゴリーとした動作認識を行った。非線形ロバスト関数を介したオプティカルフロー法により不連続な動き成分による推定誤差を抑制し,時間軸の伸縮性に強いHMMを適用し学習と認識を実現している。シンボル時系列の生成は,オプティカルフローの平均速度ベクトルを,予め設計した変換対応図を用いて出力シンボル数にマッピングすることにより行った。
学習は1人から3人で行い,入力シンボル数や出力シンボル数の違いなどについて認識実験を行った。その結果,同一人物での学習と認識では,平均で最大100%の認識率が得られ,また,学習と認識で異なる人物が操作した場合でも,最大88.6%の認識率が得られた。認識が困難な入力シンボル数5(0.2秒分)の短いデータの場合でも,平均79.4%以上の高い認識率が得られたことから,本発明のロバスト性と有効性が示されている。
HMMの学習では,同一人物の認識では高い認識率を得た。0.2秒という極めて短いシンボル時系列に,4つのカテゴリーを識別できるだけの特徴が含まれることもわかった。異なる人物での学習と認識についても,一定水準以上の認識率を得ると同時に,複数人での学習では,全体の認識率の向上を確認できた。
このことから,入力シンボル数が少ない場合には,学習データ数(人物)を増やせばよく,一方,入力シンボル数が多い場合には,学習データ数(人物)は少なくてもよいことがわかる。実用性の観点から言えば,学習データ数を増やすと学習時間を要するが,入力シンボル数が少ないと,その分高速に認識計算(最尤度)が可能である。
本発明の処理全体を示すシステム構成図である。 平均速度ベクトルの導出を説明する図である。 2状態25出力のHMMの例を示す図である。 平均速度ベクトルをシンボルに変換する変換対応図の例を示す図である。 トンカチ操作からのシンボル時系列生成の例を示す図である。 4種類の道具に対するHMMの学習を示す図である。 シンボルの時系列パターンからの動作認識の流れまでを示す図である。 一操作者の学習過程の様子を示す図である。 3人で学習した場合での,1人で学習した場合からの認識率の向上を示す図である。 入力シンボル数を変化させた場合の認識率の変化を示す図である。 4種類の道具を操作している動作シーンの例を示す図である。
符号の説明
1 道具動作認識装置
11 画像入力部
12 画像蓄積部
13 速度推定部
14 シンボル時系列生成部
15 学習部
16 認識部
17 出力部
100 動作DB
141 シンボル変換テーブル

Claims (4)

  1. 時系列画像の動作シーンから,人が各種道具を使用しているときの動作を認識する装置であって,
    時系列画像を入力する画像入力手段と,
    入力された時系列画像を蓄積する画像蓄積手段と,
    前記時系列画像中の動作シーンの速度ベクトルを推定することを目的として,オプティカルフローの枠組みで,速度成分および輝度変動成分を未知数とするローレンツ関数またはバイ・ウエイト関数に基づく非線形なロバスト関数を目的関数として設定し,設定した非線形なロバスト関数の最小化により前記未知数を推定することで速度ベクトルを推定し,各フレームの平均速度ベクトルを求める速度推定手段と,
    平均速度ベクトルの大きさおよび方向に応じてシンボルの並びが矩形状パターンまたは同心円状パターンである予め定められた変換対応図を用いて,前記推定された平均速度ベクトルをシンボルへ変換し,変換されたシンボルを用いて認識対象となる複数種類の道具の各道具操作に対するHMMモデルパラメータを計算して学習する学習手段と,
    前記画像入力手段に新たに入力された時系列画像の未知の動作シーンについて,前記速度推定手段によって各フレームの平均速度ベクトルを推定し,前記学習手段による学習結果のHMMに基づいて,どの道具操作を行っているかを識別する認識手段と,
    道具操作の識別結果を出力する出力手段とを備える
    ことを特徴とする道具動作認識装置。
  2. 請求項に記載の道具動作認識装置において,
    前記速度推定手段は,
    前記非線形なロバスト関数の最小化演算に,最急降下法,ニューラルネットまたはレーベンバーグ・マッカート法を用いる
    ことを特徴とする道具動作認識装置。
  3. 請求項に記載の道具動作認識装置において,
    前記速度推定手段は,
    前記非線形なロバスト関数を最小化する際に,前記ローレンツ関数またはバイ・ウエイト関数に含まれる分散値を段階的に大きい値から小さい値へ可変させる
    ことを特徴とする道具動作認識装置。
  4. 道具動作認識装置が,時系列画像の動作シーンから,人が各種道具を使用しているときの動作を認識する方法であって,
    時系列画像を入力する画像入力ステップと,
    入力された時系列画像を蓄積する画像蓄積ステップと,
    前記時系列画像中の動作シーンの速度ベクトルを推定することを目的として,オプティカルフローの枠組みで,速度成分および輝度変動成分を未知数とするローレンツ関数またはバイ・ウエイト関数に基づく非線形なロバスト関数を目的関数として設定し,設定した非線形なロバスト関数の最小化により前記未知数を推定することで速度ベクトルを推定し,各フレームの平均速度ベクトルを求める速度推定ステップと,
    平均速度ベクトルの大きさおよび方向に応じてシンボルの並びが矩形状パターンまたは同心円状パターンである予め定められた変換対応図を用いて,前記推定された平均速度ベクトルをシンボルへ変換し,変換されたシンボルを用いて認識対象となる複数種類の道具の各道具操作に対するHMMモデルパラメータを計算して学習する学習ステップと,
    新たに入力された時系列画像の未知の動作シーンについて,前記速度推定ステップによって各フレームの平均速度ベクトルを推定し,前記学習ステップによる学習結果のHMMに基づいて,どの道具操作を行っているかを識別する認識ステップと,
    道具操作の種別結果を出力する出力ステップとを有する
    ことを特徴とする道具動作認識方法。
JP2004058301A 2004-03-03 2004-03-03 道具動作認識装置および道具動作認識方法 Expired - Fee Related JP4102318B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004058301A JP4102318B2 (ja) 2004-03-03 2004-03-03 道具動作認識装置および道具動作認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004058301A JP4102318B2 (ja) 2004-03-03 2004-03-03 道具動作認識装置および道具動作認識方法

Publications (2)

Publication Number Publication Date
JP2005250708A JP2005250708A (ja) 2005-09-15
JP4102318B2 true JP4102318B2 (ja) 2008-06-18

Family

ID=35031143

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004058301A Expired - Fee Related JP4102318B2 (ja) 2004-03-03 2004-03-03 道具動作認識装置および道具動作認識方法

Country Status (1)

Country Link
JP (1) JP4102318B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4568697B2 (ja) * 2006-05-30 2010-10-27 日本電信電話株式会社 映像配信システム
JP4527747B2 (ja) * 2007-04-17 2010-08-18 日本電信電話株式会社 水面波挙動検出装置、水面波挙動検出方法、及び、水面波挙動検出プログラム
JP4992618B2 (ja) * 2007-09-05 2012-08-08 カシオ計算機株式会社 ジェスチャー認識装置及びジェスチャー認識方法
JP4548542B1 (ja) 2009-06-30 2010-09-22 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
JP7036610B2 (ja) * 2017-03-16 2022-03-15 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 学習方法およびプログラム
JP6783713B2 (ja) * 2017-06-29 2020-11-11 株式会社 日立産業制御ソリューションズ 人行動推定システム

Also Published As

Publication number Publication date
JP2005250708A (ja) 2005-09-15

Similar Documents

Publication Publication Date Title
US8824802B2 (en) Method and system for gesture recognition
JP7146247B2 (ja) 動作認識方法及び装置
Amor et al. Action recognition using rate-invariant analysis of skeletal shape trajectories
US6256033B1 (en) Method and apparatus for real-time gesture recognition
Kale et al. Identification of humans using gait
CN110711374B (zh) 多模态舞蹈动作评价方法
Yang et al. Extraction of 2d motion trajectories and its application to hand gesture recognition
CN103577793B (zh) 手势识别方法及装置
US8428306B2 (en) Information processor and information processing method for performing process adapted to user motion
US6674877B1 (en) System and method for visually tracking occluded objects in real time
US7324110B2 (en) Method and system for cleaning motion capture data
Bouchard et al. Semantic segmentation of motion capture using laban movement analysis
JP2016099982A (ja) 行動認識装置、行動学習装置、方法、及びプログラム
Bhuyan et al. Trajectory guided recognition of hand gestures having only global motions
KR20140026629A (ko) 동적 제스처 인식 프로세스 및 저작 시스템
JP4102318B2 (ja) 道具動作認識装置および道具動作認識方法
CN107346207B (zh) 一种基于隐马尔科夫模型的动态手势切分识别方法
Rungsarityotin et al. Finding location using omnidirectional video on a wearable computing platform
Hassan et al. User-dependent sign language recognition using motion detection
Zhang et al. Intelligent sports performance scoring and analysis system based on deep learning network
Del Bue et al. Non-rigid structure from motion using non-parametric tracking and non-linear optimization
CN110163142B (zh) 实时手势识别方法及系统
Bhuyan et al. Key Video Object Plane Selection by MPEG-7 Visual Shape Descriptor for Summarization and Recognition of Hand Gestures.
KR100924795B1 (ko) 입술움직임 영상 판별 방법 및 그 장치
Kale et al. Gait-based human identification from a monocular video sequence

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071225

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080221

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080221

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080318

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080321

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110328

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110328

Year of fee payment: 3

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D02

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110328

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120328

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130328

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees