JP4102318B2

JP4102318B2 - 道具動作認識装置および道具動作認識方法

Info

Publication number: JP4102318B2
Application number: JP2004058301A
Authority: JP
Inventors: 英朋境野; 豊柳沢; 哲司佐藤
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2004-03-03
Filing date: 2004-03-03
Publication date: 2008-06-18
Anticipated expiration: 2024-03-03
Also published as: JP2005250708A

Description

本発明は，道具動作認識技術に関し，特に，ＷＥＢカメラや一般のカメラから入力された時系列シーンにおいて，道具に関する形状知識を用いることなく，人がどのような道具を操作したかをパターン学習・認識する道具動作認識装置および道具動作認識方法に関するものである。

ＷＥＢやさまざまな観測源から得られる画像化されたカメラシーンからの人のジェスチャーや動作を認識する研究が活発に行われている。また，カメラによる遠隔地，多地点でのサーベイランス（監視）システム，ネットワークの構築が進んできており，複雑な環境下，複雑な動作まで認識できる技術が望まれる。しかし，制約条件のない自然な動作認識の研究については，従来ほとんど行われていない。従来のジェスチャー研究の例で言えば，予め動作と対応するコマンド体系を限定させていることから自然さに欠けている。

道具の知識を用いる場合，例えば身の回りには鉛筆，消しゴムがあり，書く，消すといったさまざまな動作が存在し，道具自体の多様性と動作方法で組み合わせ数は膨大なものとなってしまう。人間が遠方にいる人の動作を認識する場合，すべての組み合わせを学習して遠方の動作を認識しているとは考えにくい。また，基本動作には（材料を）切る，（部屋を）掃く，（机を）拭くなど，対象と道具に応じた多くの種類が存在するが，我々人間は，手や腕のオクルージョンにより，道具そのものが完全に見えなくても容易に認識できる。

しかし，例えばロボットの目からの認識は容易なことではない。これはロボットが実環境変化や照明変化のもとで動作を識別するには，オクルージョン，道具に対する学習，動作の学習を十分に行う必要があるためである。特に，ペンで字を書いているときと，ドライバーでネジを回しているときのように，類似した構図の場合，一層その認識が困難となる。このような認識技術が確立すれば，ロボットが視覚的な状況判断から人をサポートするなどのタスクを円滑に行えるようになるであろう。

また，遠隔監視によって人の動作を詳細に自動認識することで，不自然な動作認識や道具を使った犯罪の予見など，幅広い応用が考えられる。このような背景があるため，人の身振り，手振り，といったジェスチャーの認識や道具を用いた動作認識が重要なテーマとして盛んに研究されている。

Starner 等は，４０種類のＡＳＬハンドジェスチャーを，カラーグローブあるいは肌色特徴量に基づいてＨＭＭ（Hidden Morkov Model ）により認識することを提案している（非特許文献１参照）。

Fels等は，データグローブを使用し，そこからセンシングされる手の動き情報に基づいて，マルチレイヤーＮＮ（Neural Network）で学習することを行った（非特許文献２参照）。

Siskind 等は，人の動作知覚では物体の認識ではなく，物体とは別に視覚的な軌跡によると仮定して実験を行った（非特許文献３参照）。実験には，カラーモデルとＨＭＭ（Hidden Markov Model ）を，pick up ，put down，push，pull，drop，throw の６つの動きの解析に利用した。

Bobick等は，マグネティックセンサー付データグローブを使って手の軌跡の主曲率や手の固有画像に基づいて，ＤＴＷ（Dynamic Time Warping）による認識を行った（非特許文献４参照）。彼等はＨＭＭによる軌跡の学習と認識へ拡張した（非特許文献５参照）。

Lee 等は，手の肌色を用いて１０種類のジェスチャーをＨＭＭにより学習・認識する方法をstart ，first ，nextなどプレゼンテーションで用いる基本コマンドに応用した（非特許文献６参照）。

Yang等は，汎用性を高めるため，データグローブを使用せずに肌色，モーションセグメンテーションに基づいて抽出した手の軌跡を生成して，ＴＤＮＮ（Time Delayed Neural Network ）で学習・認識する方法を提案した（非特許文献７参照）。４０種類のＡＳＬジェスチャーで実験を行い，高い認識率を得ている。

以上述べた方法では，道具を持った場合の操作認識には，オクルージョン問題のために適用が困難であることと，背景差分による方法では実環境変化や照明変化には対応できないという問題がある。

照明変化問題に対してBobick等は，腕の振りなどの動画から差分画像の累積画像を作成し，動作認識する方法を提案した（非特許文献８参照）。エアロビクスのように姿勢が大きく変化する場合には，高速に認識できることが示されている。しかし，後述する本発明で扱うような一定範囲内での，ねじ回しとキリのような細かい動作では，類似度の高い画像となってしまうため，認識が困難となる。

Yamato等は，道具を持った場合の動作認識の例として，テニスプレー時の４つのフォーム（ボレーなど）の識別にＨＭＭの適用を提案している（非特許文献９参照）。入力画像ごとに背景差分を計算し，シルエット画像生成，２値化，ベクトル量子化のあと，３６シンボルパターンで学習している。認識には，プレーヤーの手足を含めた姿勢とラケットの位置などが寄与したことが考えられる。動き特徴量は用いられていない。この手法では，シルエット画像を生成しているため，太陽光や環境変化に対しての影響を受けやすい問題が残されている。最も重要な認識率を大きく左右する画像からシンボルへの対応づけについては，経験と代表パターン選択に多くの時間を必要とすることも問題である。

Duric 等は，大工道具を手で操作しているときの，カメラ視線からみた道具の機能解析を試みている（非特許文献１０参照）。この非特許文献１０に記載された手法では，手に持った４種類の大工道具（シャベル，モンキー，ナイフ，スパナー）を取り上げて，その輪郭線の動きフローから，単眼カメラから擬似３次元オプティカルフローを推定した。ノーマルフローからモーションパラメータを求めて，各道具の動きを解析した。同じ道具であっても，モンキーを本来のねじ回しの用途からトンカチとして叩いたり，包丁も前後に切るだけでなく，突っつくなど，そのパラメータは時系列的に異なった推移を示す。この非特許文献１０では，各道具の機能性を明らかにし，分類しているが，手や腕の動きの影響まではモデルに考慮していなかった。また，時系列パターンの認識実験までは行っていなかった。

なお，本発明の実施の形態に関係するオプティカルフローに関する技術については，下記の非特許文献１１〜非特許文献１４に記載されている。
TE.Starner,J.Weaver,and A.Pentland,"Rea1-time american signlanguage recognition using desk and wearable computer based video",IEEE Trans. PAMI,vo1.20,no.12,pp.1371-1375,1998. S.S.Fels and G.E.Hinton,"Glove-talk:a neural network interface which maps gestures to parallel format speech synthesizer controls",IEEE Trans.Neural Network,vol.9,no.1,pp.205-212,1997. J.M.Siskind and Q.Morris,"A maximum-likelihood approach to visual event classification",Proc.Fourth European Conf.Computer Vision,pp.347-360,1996. A.F.Bobick and A.D.Wilson,"A state-based approach to the representation and recognition of gesture",IEEE Trans. PAMI,vol.19,no.12,pp.1325-1337,1997. A.D.Wilson and A.F Bobick,"Parametric Hidden Markov Models for gesture recognition",IEEE Trans. PAMI,vol.21,no.9,pp.884-900,1999. H.K.Lee and J.H.Kim,"An HMM-based threshold model approach for gesture recognition",IEEE Trans. PAMI, vol.21,no.10,pp,961-973,1999. M.H.Yang,N.Ahuja,and M.Tabb,"Extraction of 2D motion trajectories and its application to hand gesture recognition",IEEE Trans. PAMI,vol.24,no.8,pp.1061-1074,2002. A.F.Bobick and J.W.Davis,"The Recognition of Human Movement Using Temporal Templates",IEEE Trans. PAMI,vol.23,no.3,pp.257-267,2001. J.Yamato,J.Ohya,and K.Ishii,"Recognizing human action in time-sequential images using Hidden Markov Mode1",Proc.Computer Vision and Pattern Recognition,pp.379-385,1992. Z.Duric,J.A.Fayman,and E.Rivlin,"Function from motion",IEEE PAMI,vol.18,no.6,pp.579-591,1996. B.D.Lucas and T.Kanade,"An iterative image registration technique with an application in stereo vision",IJCAI-81,pp.674-679. A.Bab-Hadiashar and D.Suter,"Robust optic flow computation,International Journal of Computer Vision,29,1,pp.59-77,1998. E.P.Ong and M.Spann,"Robust optical flow computation based on least-median-of-squares regression",International Journal of Computer Vision,31,1,pp.51-82,1999. N.Cornelius and T.Kanade,"Adapting optical flow to measure object motion in reflectance and X-ray image sequences",ACM SIGGRAPH/SIGART Interdisciplinary Workshop on Motion; Representation and Perception,Toronto,Canada,1983.

上記非特許文献１〜１０に記載された従来技術は，以下のような問題がある。
（１）道具を手に持たないジェスチャー研究が大半であり，データグローブの使用，指などにカラーマーキングする不自然さがある。
（２）ドライバーを手先で細かく操作するような場合の認識に関しては十分な研究がなされていない。即ち，手や腕による道具へのオクルージョンや不連続性問題での学習・認識の検討が不十分である。
（３）画像パターンを用いたＨＭＭにおいては，入力シンボル数と出力シンボル数と認識率については十分にその性能評価がなされていない。
（４）画像パターンからの出力シンボル変換方法がほとんど研究されていない。
（５）動画からの動き推定では，ノイズや照明変動に耐性のあるオプティカルフロー法が適用されていない。

上記従来技術の問題点について，さらに具体的に説明する。図１１は人が道具を手に持って操作しているときの画像を示している。図１１（Ａ）はドライバーを回す動作，図１１（Ｂ）はキリを回す動作，図１１（Ｃ）はトンカチを叩く動作，図１１（Ｄ）はノコギリを引く動作を示す。

一見すると，４つそれぞれの道具による動作識別は容易に思われるが，実は形状の類似性と動きの類似性があるために問題は複雑化している。まず，道具の形状については，例えば，予め各道具の形状を記憶してそれを参照しようとしても，手や腕により道具が隠蔽されるためにマッチングによる識別が困難となる。

また，動きから理解しようとすると，ドライバーを回す動作では，同じ操作者であってもきれいな周期成分が出ることはほとんどなく，ばらついてしまうため，動きの対応がとりにくくなる。さらに，キリとドライバーは，回転運動を中心とした類似した動きを示す。トンカチとノコギリは，前後の動きと手首あるいは切断対象を支点とする回転運動が混在するなどの類似性がある。その他，各道具はエッジがはっきりとしているため，エッジ付近でのオプティカルフローが不連続となり，推定精度が低下してしまう。

以上述べたように，従来，各操作の細かい動き（オプティカルフロー）をオクルージョンと不連続性が存在する状況下で，高精度に推定する技術は確立されていなかった。また，実環境シーンではノイズや輝度変動などの環境変化がある。

本発明は，上記従来技術の問題点を解決し，人が各種道具を手で操作している動作シーンからどの道具を用いているかを，オクルージョンと不連続性が存在する状況下で高精度に認識する道具動作認識技術を提供することを目的とする。

本発明のうち，代表的なものの概要を以下に説明する。

（１）本発明は，ＷＥＢやさまざまな観測源から得られる時系列画像（シーン）から，人が各種道具を使用しているときの動作を学習し，その学習結果を利用して認識する道具動作認識システムにおいて，画像入力部でさまざまな画像情報の時系列画像を入力し，画像蓄積部で蓄積し，速度推定部でシーン中の動きを示す速度ベクトルをオプティカルフローで推定し，学習部で各種道具操作シーンでＨＭＭモデルパラメータを計算し，新たなシーンを入力して認識部でどの道具操作を行っているかを分類，識別し，出力部で結果を提示する。

（２）また，本発明は，前記（１）の速度推定部において，オプティカルフローの枠組みで目的関数を設定し，速度成分，輝度変動成分を未知数として最小二乗法により推定する。

（３）また，本発明は，前記（２）の目的関数において，非線形なロバスト関数として，ローレンツ関数，バイ・ウエイト関数等を介して，非線形関数の最小化により，各未知数を推定する。

（４）また，本発明は，前記（３）非線型関数の最小化演算には，最急降下法，ニューラルネット，レーベンバーグ・マッカート法等を用いる。

（５）また，本発明は，前記（３）のローレンツ関数等に含まれる分散値は，最小化過程において，段階的に大きい値から小さい値へ可変させる。

（６）また，本発明は，前記（１）の学習部において，予め設定した速度ベクトル情報をシンボルへ変換する変換対応図を用いて，速度推定部で推定された速度ベクトルを，ＨＭＭモデルパラメータの計算に必要される入力シンボルに変換し，学習に用いる。

（７）また，本発明は，前記（６）の学習部において，変換対応図には同心円状パターンを用いる。

具体的には，本発明は，人が道具を使用しているときの動作をコンピュータによって認識する方法において，観測源から得られる時系列画像を入力し，この中の連続した動作シーンのフレームから速度ベクトルを推定することを目的として，オプティカルフローの枠組みで，速度成分および輝度変動成分を未知数とするローレンツ関数またはバイ・ウエイト関数に基づく非線形なロバスト関数を目的関数として設定し，設定した非線形なロバスト関数の最小化により前記未知数を推定することで速度ベクトルを推定し，各フレームの平均速度ベクトルを求める。この速度ベクトルを矩形状または同心状の変換対応図にあてはめて，前記推定された平均速度ベクトルをシンボルへ変換し，変換されたシンボルを用いて認識対象となる複数種類の道具の各道具操作に対するＨＭＭモデルパラメータを計算して学習する。学習後に新たに未知のシーンを入力し，ＨＭＭで計算を行い，最も尤度が小さい動作を認識結果とする。

本発明によれば，人が各種道具を手で操作している動作シーンからどの道具を用いているかを，オクルージョンと不連続性が存在する状況下で高精度に認識することが可能となる。

以下，本発明の実施の形態について詳細に説明する。図１は，本発明の処理全体を示すシステム構成図である。道具動作認識装置１において，１１は人が各種道具を手で操作している動作シーンの時系列画像（フレーム）を入力する画像入力部，１２は入力されたフレームを蓄積する画像蓄積部，１３は動作シーンから速度ベクトルを推定する速度推定部，１４は速度ベクトルからシンボル時系列を生成するシンボル時系列生成部，１５は生成されたシンボル時系列から道具ごとのＨＭＭモデルパラメータを計算して学習する学習部，１６は新たに入力された動作シーンについて，学習部１５の学習結果に基づいて，どの道具操作を行っているかを認識する認識部，１７は認識部１６による認識結果を出力する出力部，１００は各道具毎のＨＭＭモデルパラメータが格納される動作データベース（ＤＢ），１４１は速度ベクトルをシンボルに変換する変換対応図の情報をテーブル化して記憶するシンボル変換テーブルである。

画像入力部１１から，人の道具を手で持って動作しているときの，動作が既知な動作シーンを，ＷＥＢカメラや一般ビデオカメラからの情報源として入力し，入力した動作シーンの時系列画像を，画像蓄積部１２で蓄積する。速度推定部１３では，画像蓄積部１２で蓄積した時系列画像の動作シーンから速度ベクトルを推定し，シンボル時系列生成部１４で速度ベクトルをシンボル変換テーブル１４１を用いてシンボルに変換し，学習部１５で変換後のシンボルからＨＭＭモデルパラメータを計算して，ＨＭＭで学習する。以上のように，認識させたい道具ごとにＨＭＭで学習を行って，道具の種類の数と同じＨＭＭを作り，動作ＤＢ１００に格納する。

認識部１６で新たに入力された動作が未知のシーンについて，予め学習された動作ＤＢ１００中のＨＭＭにシンボル時系列を入力して，最も尤度が小さいＨＭＭに対応する動作を，入力されたシーンの動作として認識し，出力部１７で，どの動作かを結果として出力する。

前述したように，各操作の細かい動き（オプティカルフロー）をオクルージョンと不連続性が存在する状況下で，高精度に推定する必要があり，また，実環境シーンにおけるノイズや輝度変動などの環境変化に対応する必要がある。そこで，本発明では，速度ベクトルの推定のため，輝度変動モデルとロバスト推定法に基づいたオプティカルフロー法を導入する。

また，動作の認識方法については，各道具を使い続けていると，ネジの締め具合，切断する物の切れ具合，穴あけの抵抗などの状況が時々刻々と変化していくため，明瞭に周期的な動きとはならないのが特徴である。このことから，時間軸の伸縮性に耐性があることで音声の分野で実績の高いＨＭＭによる時系列パターン識別方法を採用する。

オプティカルフローに関する導出方法について，以下に述べる。オプティカルフローについては，これまで多くの方法が提案されてきている。その中で領域法と呼ばれる，上記非特許文献１１に記載されたLucas 等の方法が，その精度と安定性から広く適用されている。しかしながら，輝度変動一定モデルであるため，照明変化には応じていない。また，最小二乗法による解法をとっているために，外れ値や不連続成分の影響によって，精度が低下してしまう。

そのため，上記非特許文献１２，非特許文献１３に記載されているようにロバスト推定法が適用され精度が改善されている。しかし，これらの非特許文献１２，非特許文献１３に記載された方法は，ともに輝度変動一定モデルであるため，フレーム間での輝度変動が大きい場合には，ロバスト推定法だけでは効果が薄くなる。

そこで本発明では，Cornelius 等が上記非特許文献１４で提案したフレーム間で輝度が線形に変化することを許容するモデルに基づいて，ロバスト推定法による解法をとることとした。ロバスト関数は，非線形なローレンツ型を選択した。そのため，未知数推定は非線形最小二乗法問題となる。

説明の簡単化のため，サンプリング時間を，１．０として，第ｎフレームにおける２次元の位置ベクトルをＸ，速度べクトルをＵ，強度値をＩ（Ｘ，ｎ）とすると，線形輝度変化モデル式は，
Ｉ（Ｘ＋Ｕ，ｎ＋１）＝Ｉ（Ｘ，ｎ）＋ｂ（Ｘ，ｎ）（１）
と記述される。位置ベクトルＸの成分を，Ｘ＝（ｘ，ｙ），速度ベクトルＵの成分を，Ｕ＝（ｕ，ｖ）とする。

続いて，式（１）について，ベクトルＸ周りでテイラー展開近似を施すと，

となる。

２つの速度成分，係数について離散化した格子点上で扱う。時間方向には，ｎ分割し，空間的には，画像（窓）Ｍ×Ｎを分割幅，
ｈ_x＝１．０，ｈ_y＝１．０，
で分割して計算する。ここで，ｉ，ｊを整数として，０≦i≦Ｍ，０≦j≦Ｎとする。位置ベクトルは，
Ｘ_i,j ⁿ＝（ｉｈ_x，ｊｈ_y）ⁿ，
速度ベクトルは，
Ｕ_i,j ⁿ＝（ｕ_i,j，ｖ_i,j）ⁿ，
と離散表示される。各空間項や時間項などの１次微分項を求めるため，差分法により画素点上で離散化近似を次のように行う。画像強度，各係数ｂについても，時間ｎ，位置（ｉ，ｊ）で各画素上で表されるものとする。

式（２）の誤差を窓内で最小化するための目的関数を，
Ｅ＝Σρ（ｅｒｒ）（３）
と定義する。ここで非線形ロバスト関数をρとする。この式が最小値をもつための条件式として，３つの未知数についての１次微分がゼロとなればよい，即ち，

となるように，解を求めればよい。

ここでは最急降下法を適用して，３つの未知数を数〜十数画素四方（サブブロック）から，１画素ごとに１組ずつ推定する。下記の式（５）を３つの未知数ｕ，ｖ，ｂ（ｗと表す）について，反復計算すればよい。式（５）は，反復回数ｐ，調整パラメータμとすれば，

で表される。調整パラメータμは経験的に決定される。

式（５）で必要とされる３つの１次微分値については，chain-ruleに基づいて，

である。ただし，非線形ロバスト関数が１次導関数をもつとすれば，

とおくと，それぞれの１次微分は，

となる。

図２は，平均速度ベクトルの導出を説明する図であり，２枚の連続動作の映像を入力し，動きベクトルを検出し，平均速度ベクトルを求める過程を示している。図２（Ａ）に示すように，２枚の連続した動作シーンのフレームを入力し，図２（Ｂ）に示すように，オプティカルフロー法により動きベクトルを推定し，図２（Ｃ）に示すように，ＳＶＤ（Singular Value Decomposition：特異値分解）により乱れのあるベクトルを除去することにより，図２（Ｄ）に示すような平均速度ベクトルを求める。

図３は，２状態２５出力のＨＭＭの例を示している。ここでは，広く用いられている，left-to-right 型のＨＭＭを用いており，２状態１７出力と２５出力の２つのモデルを選択している。両者の性能の違いについては後述するように実験で示す。図３中，ｓ１，ｓ２は状態，ａ_ijは状態推移確率，ｂ_ijはシンボル出力確率を表す。

図４は，平均速度ベクトルをシンボルに変換する変換対応図の例を示している。ここでは，矩形状と同心円状の２つの方式を示している。シンボル変換テーブル１４１は，この変換対応図に相当する平均速度ベクトルとシンボルとの対応情報を持つ。シンボル変換テーブル１４１を用いて，平均速度ベクトルをシンボルに変換し，操作時の動きパターンからシンボル時系列を生成し，ＨＭＭモデルパラメータ（例えば，非特許文献５参照）を道具ごとに計算し学習する。シンボル変換テーブル１４１は，認識のときにも同様に用いる。

平均速度ベクトルからのシンボル変換方法については，これまで幾つかの方法が提案されているものの，どのような特徴量を選択し，どのように変換するかについては十分に検討されていない。ここでは，次のように各フレームの２次元情報を１次元情報へ変換し，比較実験をした。

すなわち，本実施の形態では，各フレームから得られる平均速度ベクトルの大きさと方向に関して，図４のような変換対応図を用いることにした。変換対応図では，予備実験の結果から中央付近の密度を高くすることが望ましいことがわかった。各フレームは１つのシンボルに対応させるが，分割数と形状については，例えば，図４（Ａ）に示すような矩形状の２５出力シンボルや，図４（Ｂ）に示すような円状の１７出力シンボルを用いるものを設計した。図４に示す２つの出力シンボルパターンの長所と短所については，認識実験により検証した。図４（Ａ）では平均速度ベクトルにシンボル１７が割り当てられ，図４（Ｂ）ではシンボル７が割り当てられている例を示している。

図５は，あるトンカチ操作の時系列画像からシンボル時系列を生成する例を示している。図５（Ａ）に示すようなトンカチによる釘打ちの時系列画像から，図５（Ｂ）に示すオプティカルフローを経て得られた速度ベクトルを，図５（Ｃ）に示す変換対応図のシンボル変換テーブル１４１を用いて変換する。図５（Ｃ）に示されているように，トンカチが釘に達するまで，速度ベクトルの方向と大きさが変化した。この結果，出力シンボル列は，図５（Ｄ）に示すように（７，７，７，８，１，４）となった。

図６は，４種類の道具に対するＨＭＭの学習の例を示す図である。例えば，ドライバー動作を学習し，図６（Ａ）に示されるドライバーのシンボル時系列（１４，１４，１２，７，６，６，６・・・）から，Ｂ−Ｗ（Baum-Welch）アルゴリズムにより，図６（Ｂ）に示すような推移確率行列Ａと出力確率行列ＢからなるＨＭＭモデルパラメータを算出する。このＨＭＭモデルパラメータを，道具ごとに動作ＤＢ１００に記録する。

このようなＨＭＭの学習を４種類の道具それぞれについて行うことにより，図６（Ｃ）に示すように，動作ＤＢ１００にドライバー，トンカチ，キリ，ノコギリの４種類（カテゴリー）のＨＭＭが生成される。

図７は，シンボルの時系列パターンによる動作認識の流れを示す図である。例えば，図７（Ａ）に示すような未知のシンボル時系列（１４，２，４，１２，７，２，１２）が入力された場合，図７（Ｂ）に示すように，その対数尤度を動作ＤＢ１００に格納された４種類のＨＭＭで計算する。そして，算出された最も小さい対数尤度に対応する道具が，入力されたシンボル時系列パターンの動作シーンで操作されている道具であると認識する。この例では，対数尤度が 219.675661 から 819.264267 までの値が算出されたが，最も小さい対数尤度（219.675661）であったドライバーが，入力されたシンボル時系列パターンの動作シーンで操作されている道具であると認識されることになる。

図８は，操作者一人が４つそれぞれの道具操作をしたときの，Ｂ−Ｗアルゴリズムによる学習過程を示す図である。縦軸は対数尤度，横軸は反復回数を表している。いずれの場合にも反復回数が５０回以上で，尤度が−３３０〜−４３０の範囲でほぼ収束した。キリの場合の対数尤度が最も小さい値に収束した。他の被験者でも同様の傾向であった。学習する時間は１人分，１つのカテゴリー当り，２０〜３０秒，認識する時間は，４つのカテゴリーで０．０２秒であった。

図９は，３人（Ａ，Ｂ，Ｃ）で学習したＨＭＭを用いたときの，各人の動作の平均認識率を示す図である。３人で学習したＨＭＭを用いて，各人の動作の認識率について実験を行い，１人で学習したＨＭＭとの差異を調べた。図９では，出力シンボル数が１７と２５のそれぞれの場合についての実験結果の平均認識率を示している。図９中，括弧内は，１人で学習した場合での認識率からの改善率を示す。

出力シンボル数が１７の場合には，ドライバーとトンカチで，１０％以上改善し，出力シンボル数が２５の場合には，ドライバー，トンカチ，キリで７％〜１２％の改善が見られた。４つの道具の平均認識率は，出力シンボル数が１７の方が約３％高くなった。

図１０は，入力シンボル数を変化させた場合の認識率の変化を示す図である。図１０に示すように，入力シンボル数が５０から５へと少なくなると，どの道具についても認識率が低下した。これは時系列的な特徴量が減少するので，当然のことである。

上述したように，本発明により，実環境下で人が各種大工道具を手で操作している動画シーンからどの道具を用いているかを，オプティカルフローとＨＭＭに基づいて高精度に認識できることが確認できた。

単眼カメラからの動作認識の問題は，操作者の指，甲，腕によるオクルージョンのため，道具形状の当てはめが困難であること，動きの周期性は弱いこと，操作の早さの相違などである。そこで本発明では，手と道具の一体の動きを分離することなく操作をモデル化し，その効果を検証する実験では，それらの動きから４つの道具をカテゴリーとした動作認識を行った。非線形ロバスト関数を介したオプティカルフロー法により不連続な動き成分による推定誤差を抑制し，時間軸の伸縮性に強いＨＭＭを適用し学習と認識を実現している。シンボル時系列の生成は，オプティカルフローの平均速度ベクトルを，予め設計した変換対応図を用いて出力シンボル数にマッピングすることにより行った。

学習は１人から３人で行い，入力シンボル数や出力シンボル数の違いなどについて認識実験を行った。その結果，同一人物での学習と認識では，平均で最大１００％の認識率が得られ，また，学習と認識で異なる人物が操作した場合でも，最大８８．６％の認識率が得られた。認識が困難な入力シンボル数５（０．２秒分）の短いデータの場合でも，平均７９．４％以上の高い認識率が得られたことから，本発明のロバスト性と有効性が示されている。

ＨＭＭの学習では，同一人物の認識では高い認識率を得た。０．２秒という極めて短いシンボル時系列に，４つのカテゴリーを識別できるだけの特徴が含まれることもわかった。異なる人物での学習と認識についても，一定水準以上の認識率を得ると同時に，複数人での学習では，全体の認識率の向上を確認できた。

このことから，入力シンボル数が少ない場合には，学習データ数（人物）を増やせばよく，一方，入力シンボル数が多い場合には，学習データ数（人物）は少なくてもよいことがわかる。実用性の観点から言えば，学習データ数を増やすと学習時間を要するが，入力シンボル数が少ないと，その分高速に認識計算（最尤度）が可能である。

本発明の処理全体を示すシステム構成図である。平均速度ベクトルの導出を説明する図である。２状態２５出力のＨＭＭの例を示す図である。平均速度ベクトルをシンボルに変換する変換対応図の例を示す図である。トンカチ操作からのシンボル時系列生成の例を示す図である。４種類の道具に対するＨＭＭの学習を示す図である。シンボルの時系列パターンからの動作認識の流れまでを示す図である。一操作者の学習過程の様子を示す図である。３人で学習した場合での，１人で学習した場合からの認識率の向上を示す図である。入力シンボル数を変化させた場合の認識率の変化を示す図である。４種類の道具を操作している動作シーンの例を示す図である。

符号の説明

１道具動作認識装置
１１画像入力部
１２画像蓄積部
１３速度推定部
１４シンボル時系列生成部
１５学習部
１６認識部
１７出力部
１００動作ＤＢ
１４１シンボル変換テーブル

Claims

時系列画像の動作シーンから，人が各種道具を使用しているときの動作を認識する装置であって，
時系列画像を入力する画像入力手段と，
入力された時系列画像を蓄積する画像蓄積手段と，
前記時系列画像中の動作シーンの速度ベクトルを推定することを目的として，オプティカルフローの枠組みで，速度成分および輝度変動成分を未知数とするローレンツ関数またはバイ・ウエイト関数に基づく非線形なロバスト関数を目的関数として設定し，設定した非線形なロバスト関数の最小化により前記未知数を推定することで速度ベクトルを推定し，各フレームの平均速度ベクトルを求める速度推定手段と，
平均速度ベクトルの大きさおよび方向に応じてシンボルの並びが矩形状パターンまたは同心円状パターンである予め定められた変換対応図を用いて，前記推定された平均速度ベクトルをシンボルへ変換し，変換されたシンボルを用いて認識対象となる複数種類の道具の各道具操作に対するＨＭＭモデルパラメータを計算して学習する学習手段と，
前記画像入力手段に新たに入力された時系列画像の未知の動作シーンについて，前記速度推定手段によって各フレームの平均速度ベクトルを推定し，前記学習手段による学習結果のＨＭＭに基づいて，どの道具操作を行っているかを識別する認識手段と，
道具操作の識別結果を出力する出力手段とを備える
ことを特徴とする道具動作認識装置。
請求項１に記載の道具動作認識装置において，
前記速度推定手段は，
前記非線形なロバスト関数の最小化演算に，最急降下法，ニューラルネットまたはレーベンバーグ・マッカート法を用いる
ことを特徴とする道具動作認識装置。
請求項１に記載の道具動作認識装置において，
前記速度推定手段は，
前記非線形なロバスト関数を最小化する際に，前記ローレンツ関数またはバイ・ウエイト関数に含まれる分散値を段階的に大きい値から小さい値へ可変させる
ことを特徴とする道具動作認識装置。
道具動作認識装置が，時系列画像の動作シーンから，人が各種道具を使用しているときの動作を認識する方法であって，
時系列画像を入力する画像入力ステップと，
入力された時系列画像を蓄積する画像蓄積ステップと，
前記時系列画像中の動作シーンの速度ベクトルを推定することを目的として，オプティカルフローの枠組みで，速度成分および輝度変動成分を未知数とするローレンツ関数またはバイ・ウエイト関数に基づく非線形なロバスト関数を目的関数として設定し，設定した非線形なロバスト関数の最小化により前記未知数を推定することで速度ベクトルを推定し，各フレームの平均速度ベクトルを求める速度推定ステップと，
平均速度ベクトルの大きさおよび方向に応じてシンボルの並びが矩形状パターンまたは同心円状パターンである予め定められた変換対応図を用いて，前記推定された平均速度ベクトルをシンボルへ変換し，変換されたシンボルを用いて認識対象となる複数種類の道具の各道具操作に対するＨＭＭモデルパラメータを計算して学習する学習ステップと，
新たに入力された時系列画像の未知の動作シーンについて，前記速度推定ステップによって各フレームの平均速度ベクトルを推定し，前記学習ステップによる学習結果のＨＭＭに基づいて，どの道具操作を行っているかを識別する認識ステップと，
道具操作の種別結果を出力する出力ステップとを有する
ことを特徴とする道具動作認識方法。