JP3615008B2 - Sign language recognition device - Google Patents
Sign language recognition device Download PDFInfo
- Publication number
- JP3615008B2 JP3615008B2 JP01110397A JP1110397A JP3615008B2 JP 3615008 B2 JP3615008 B2 JP 3615008B2 JP 01110397 A JP01110397 A JP 01110397A JP 1110397 A JP1110397 A JP 1110397A JP 3615008 B2 JP3615008 B2 JP 3615008B2
- Authority
- JP
- Japan
- Prior art keywords
- motion
- sign language
- static
- sequential
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Landscapes
- Image Processing (AREA)
- Position Input By Displaying (AREA)
- Image Analysis (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、手話を入力して、その結果を音声または文字の形で正確に出力することにより、聴覚障害者と健聴者とのコミュニケーションを支援する手話認識装置に関するものである。
【0002】
【従来の技術】
従来より、手話を入力して、その入力結果を解析しその手話を認識する装置が種々提案されている。これら従来の認識方法としては、手話の動作データをパターン照合の技術(例えば、特願平5−125698号明細書および図面参照)や、ニューラルネットワークの技術を用いて認識を行う技術と、手話動作を構成する動作の基本単位に基づいて手話の認識を行う技術(例えば、特願平6−253457号明細書および図面参照)がある。
前者(特願平5−125698号)の手法では、全体としての手動作パターンを単語辞書に格納された標準手動作パターンと比較して、一致するか否かにより認識する方法であり、後者(特願平6−253457号)の手法では、手動作パターン自体を比較するのではなく、手動作パターンを先ず動作の基本単位毎(部分パターン)に認識し、次にその動作の基本単位の結果を統合して単語を認識するものである。このように、後者の技術では、先ず認識を行う手話を構成する動作の基本単位を全て認識する。その結果と、あらかじめ手話を動作の基本単位の組み合わせとして記憶してある手話テンプレート中の動作の基本単位の時間的な関係とを比較することにより認識を行うのである。この場合、手話テンプレート中の動作の基本単位の種類や属性は全て記号によって記述されていた。
【0003】
【発明が解決しようとする課題】
従来における動作の基本単位に基づく手話認識技術(前述した後者の技術)では、静的な動作の基本単位も動的な動作の基本単位も同時に認識を行い、認識された動作の基本単位を統合することにより手話を認識していた。このうち、静的な動作の基本単位とは、形状(手の形等)や方向(指の方向等)など、ある時間範囲においてパラメータが安定した状態を示す動作の特徴である。一方、動的な動作の基本単位は、直線運動や円運動などある時間範囲におけるパラメータの変化(移動等)を表す動作の特徴である。
静的な動作の基本単位を検出するためには、基準となるパラメータ(サンプルをとって、そこから抽出したパラメータ)と入力されたパラメータの差に対して閾値を設定し、その閾値以内の区間を検出することによって行えばよい。
しかしながら、静的な動作の基本単位のパラメータは変化しやすいため、認識したい時間範囲より大きい範囲で認識されたり、小さい範囲で検出されたりすることが多い。例えば、毎回同じような形で、かつ入力されたパラメータが閾値の境界のところで変動すると、閾値を往復してしまう結果、小間切れの区間として検出されてしまうことがある。逆に大きい区間として検出する場合も生じる。また、パラメータの変動の状態によっては、一つの動作の区間が二つ以上に分割されて認識される場合もある。
このため、静的な動作の基本単位と動的な基本単位を対等に扱っていた従来技術では、静的な動作の基本単位については正しい評価が行えないという問題があった。
また、従来の技術では、手話テンプレートを全て動作の基本単位を表す記号によって記述していたため、動作の基本単位の認識ではあらかじめ設定してある基準値に基づき認識を行い、その評価値も基準に基づいて計算を行っていた。
さらに、手話の認識結果も認識された動作の基本単位の評価値(基準値にどの程度近いかを表わす値で、近い程高い値)に基づいて計算を行っていた。このため、実際の動作におけるパラメータの範囲とあらかじめ決定していた基準値によって与えられるパラメータの範囲のずれにより、正しい評価値が得られないことが多く、認識精度が低いという問題があった。すなわち、パラメータの集中する場所は、基準値に近いとは限らず、基準値の中間位置に集中することがある。このような場合には、入力されたパラメータと基準値との差は大きくなり、評価値としては小さくなってしまう。
そこで、本発明の目的は、このような従来の課題を解決し、全ての動作の基本単位を正しく評価し、精度良く手話を認識する手話認識装置を提供することである。
【0004】
【課題を解決するための手段】
上記目的を達成するため、本発明の手話認識装置では、動的な動作の基本単位を検出し、それらにより構成される逐次的な動作の単位を認識した後、認識した逐次的な動作の単位の時間範囲内において静的な動作の基本単位の評価結果を統合する。静的な動作の基本単位のみによって構成される逐次的な動作の単位は、各時刻における動作全体の評価値を求め、評価値が極大になる時刻を求めることにより認識を行う。また、動作の基本単位を正しく評価するために、手話テンプレートに記述される動作の基本単位は、実際の手話データを用いて決定した属性値を連続量を用いて記述する。認識された動作の基本単位の評価値は、その連続量を用いて求める。
このように、動的な動作の基本単位の認識結果から決定される時間範囲に基づいて静的な動作の基本単位を評価するため、静的な動作の基本単位の認識範囲に関する問題がなくなる。
また、静的な動作の基本単位のみによって構成される逐次的な動作の単位についても、各時刻毎に逐次的な動作の単位全体の評価値を求め、評価値の極大値となる時刻を検出することにより認識を行うため、それぞれの動作の基本単位の検出時間に影響を受けることがなくなる。
さらに、動作の基本単位の特徴を表す属性値を実際の動作データから求めた連続量によって表現し、それに基づいて認識された動作の基本単位を評価するため、動作の基本単位の適切な評価値を求めることが可能となり、手話の認識精度を向上することができる。
【0005】
【発明の実施の形態】
以下、本発明の実施例を、図面により詳細に説明する。
図2は、本発明における動作要素に基づく手話動作モデルを示す図である。
本発明を説明するために、まず手話動作のモデルを説明する。手話動作は、動作の基本単位の組み合わせにより構成される。この手話における動作の基本単位を、以後動作要素と呼ぶことにする。手話の動作を構成する動作要素間には時間的な逐次性および同時性があるため、手話の認識を行うためには、それら動作要素間の時間的な関係も記述しておく必要がある。このために、図2に示すモデルを使用する。図2において、201は手話形態素の動作全体を表す。手話形態素は、手話における意味の単位である。手話形態素は、まず逐次的な動作単位である逐次要素202,203,204に分解される。横軸は左端を基準として時間の経過を表わしているので、逐次要素202,203,204の順序で動作が発生したことになる。逐次要素は必ず連続的に表現され、同時に表現されることはない動作の単位である。逐次要素は、さらに複数の同じ時間範囲に表現される単位である同時要素205,206,207に分解される。同時要素には、動作要素208,209が含まれる。同時要素には二種類あり、一つの動作要素のみから構成される同時要素と、二つ以上の動作要素のみから構成される同時要素がある。
二つ以上の動作要素から構成される同時要素は、その中に含まれる動作要素が逐次的に表現された場合に存在するとみなされる。ただし、一つの同時要素に含まれる動作要素は、必ず同じ種類の動作要素であるとする。なお動作要素とは、方向が同じで手の形態だけ異なる等の動作の要素である。
手話動作は、このように動作要素の逐次的構造と同時的構造の組み合わせによって構成される。
【0006】
図1は、本発明の一実施例を示す手話認識装置の概念ブロック図である。
図1において、手話入力部101(データグローブ)は手話における動作を電気信号に変換し、時系列データとして動的動作要素認識部102および静的動作要素認識部103に入力する。動的動作要素認識部102では、動作データから動的な動作要素を認識する。静的動作要素認識部103では、動作データの各時刻のデータに対して静的な動作要素の評価値を求める。動的逐次要素認識部104では、認識された動的な動作要素から構成される逐次要素を認識する。静的逐次要素認識部105では、静的な動作要素のみから構成される逐次要素の認識を行う。静的動作要素統合部106では、動的な動作要素から構成される逐次要素に静的な動作要素の認識結果を統合することにより、手話形態素の認識を行う。本発明は、この静的動作要素統合部106を設けたことに特徴がある。先にモデルの説明で述べたように、静的動作要素の認識範囲は基本単位のパラメータが変化し易いため、認識したい時間範囲より小さい範囲で検出されたり、大きい範囲で認識されたりするとともに、通常、静的動作要素は動的動作要素と一緒に現われるので、動的動作要素の逐次要素と静的動作要素の認識結果を統合し、評価するのである。つまり、動的動作要素は、直線運動や円運動で時間が明確に決められるので、認識した時間範囲内において静的動作要素を評価してやればよい。なお、図2のモデルと図1の関係では、図2の動作要素208,209の中に動的動作要素と静的動作要素とが含まれると考えればよい。
手話形態素の認識結果は、出力部108によりモニタ109およびスピーカ110へ出力される。手話形態素辞書111には、手話における意味の単位である手話形態素毎に、動作要素の組み合わせによって記述した手話テンプレートが格納されている。
【0007】
図3は、動的動作要素認識部の構造を示すブロック図であり、図4は、静的動作要素認識部の構造を示すブロック図である。
動的動作要素認識部102は、図3に示すように、独立したそれぞれの動作要素毎の認識部301,302,303から構成されている。各動作要素認識部には、それぞれの認識処理に必要な認識用パラメータ304,305,306が用意される。図3に示す動的動作要素認識部では、考えられる全ての動作要素を認識することになるが、手話形態素辞書中の動的動作要素のみを認識するようにしても良い。
静的動作要素認識部103も、図4に示すように、各動作要素毎の認識部401,402,403から構成されている。静的動作要素認識部103では、認識に必要なパラメータは全て手話形態素辞書に格納されているデータを用いる。
【0008】
図5は、図1における手話認識装置を実現するためのハードウェアの一構成例を示す図である。
図5において、手話入力装置501は手話における手動作を電気信号に変換する装置であり、手袋にセンサを設置し、手の形状や動きを電気信号に変換する装置として良く知られている装置(データグローブ)を利用することができる。手話入力装置501によって、手話の手動作は指の曲げ角度や手の位置などからなる多次元の時系列データに変換される。演算装置502は、動作要素の認識や手話形態素の認識を行う装置であり、メモリ504,506,507,508,509,511からプログラムを読み込み、それらのプログラムに従って認識処理を行う。出力装置503は、手話形態素の認識結果を出力する装置であり、文字による出力や音声合成を用いた音声による出力装置を利用することができる。メモリ504は、動的動作要素を認識するためのプログラムを記憶するための記憶装置、メモリ505は動的動作要素を認識するために必要なパラメータを記憶するための記憶装置、メモリ506は動的な動作要素から構成される逐次要素を認識するためのプログラムを記憶するための記憶装置、メモリ507は静的動作要素を認識するために必要なプログラムを記憶するための記憶装置、メモリ508は動的な動作要素から構成される逐次要素と静的な動作要素の認識結果を統合するためのプログラムを記憶するための記憶装置、509は静的な動作要素のみで構成される逐次要素を認識するためのプログラムを記憶するための記憶装置、メモリ510は手話形態素の動作データである手話形態素辞書を記憶するための記憶装置、メモリ511は手話形態素を認識するためのプログラムを記憶するための記憶装置である。図5のハードウェア構成では、全ての認識プログラムの実行を一つの演算装置だけで行う構成であるが、この他に、複数の演算装置を用いて認識プログラムの実行をそれぞれの演算装置に分散させる構成も可能である。
【0009】
図6は、図1の手話入力部により入力される動作データのフォーマット図である。
図6において、601は手の位置に関するデータであり、手の位置はさらにx軸のデータ602,y軸のデータ603,z軸のデータ604から構成されている。605は手の方向に関するデータであり、手の方向はさらにx軸回りの角度606,y軸回りの角度607,z軸回りの角度608から構成されている。
609は指の曲げに関するデータであり、指の曲げはさらに、親指の第2関節の曲げ角度610,親指の第3関節の曲げ角度611,人差し指の第1関節の曲げ角度612,人差し指の第2関節の曲げ角度613,中指の第1関節の曲げ角度614,中指の第2関節の曲げ角度615,薬指の第1関節の曲げ角度616,薬指の第2関節の曲げ角度617,小指の第1関節の曲げ角度618,小指の第2関節の曲げ角度619から構成されている。また、620,621,622は、それぞれ時刻t1,t2,tnにおける手の位置,方向,指の曲げのデータを表す。このように、手話における動作は、手の位置601,手の方向605,指の曲げ609からなる時系列データとして表される。
図7は、図5の動的動作要素認識用パラメータを格納するメモリ(505)に格納されるパラメータのフォーマット図である。
図7において、動作要素名701はそのパラメータを認識処理に使用する動作要素の名称,パラメータ数702はその動作要素の認識に使用するパラメータの数,703,704は各パラメータを表す。また、パラメータ種類705,707はそのパラメータの意味を表す名称,パラメータ706,708は実際に認識処理に利用されるパラメータの値を表す。
【0010】
図8は、図5の手話形態素辞書メモリに格納されるフォーマット図である。
図8において、手話形態素名801は、それ以下に記述される動作要素の組み合わせが表す手話形態素の名称を表す。繰り返し回数802は、それ以下に記述される動作が繰り返される回数を表す。逐次要素数803は、手話動作を構成する逐次要素の数を表す。逐次要素間重なり度804は、それぞれの逐次要素が実際の手話動作中に表現された場合に生じる重なり、あるいはギャップに対する許容範囲を表す。すなわち、実際に認識される場合には、要素相互が重なってしまったり、あるいは要素と要素の間が空いてしまう場合があるので、その度合を登録しておく。この場合には、離れていたとき+、重なっていたとき−となる。逐次要素間重なり度は、逐次要素数が2以上の場合に有効である。逐次要素805,806,807は、それぞれの逐次要素の記述を表す。同時要素数808は、逐次要素を構成する同時要素の数を表す。同時要素間重なり度809は、逐次要素を構成するそれぞれの同時要素が実際の手話動作中で表現された場合に生じる重なりに対する許容範囲を表す。同時要素間重なり度は、同時要素数が2以上の場合に有効である。繰り返し回数810,815は、それ以下に記述される動作要素の列が繰り返される回数を表す。動作要素状態数811,816は、それぞれの同時要素を構成する動作要素の数を表す。動作要素間重なり度812,817は、逐次的に表現される動作要素が実際の手話動作中で表現された場合に生じる重なりあるいはギャップに対する許容値を表す。動作要素間重なり度は、動作要素状態数が2以上の時に有効である。動作要素813,814,818,819は、それぞれの同時要素を構成する動作要素を表す。
【0011】
図9は、動作要素の記述フォーマット図であり、図10は、動作要素の種類およびそれぞれの属性値の種類を示す図であり、図11は、動作要素の属性値のフォーマット図である。
図9において、901は動作要素の種類を、902はその動作要素を表現するために使用される手の部位を、903,904,905はその動作要素を表すために必要な属性値を表す。動作要素の種類は、図10に示すように、14種類の動作要素から選択する。また、図10に示すように、動作要素の種類に応じて属性値の種類もあらかじめ決定されている。
図11の属性値フォーマットにおいて、1101,1102,1103は複数の動作データから学習した属性値の平均値,1104,1105,1106は複数の動作データから学習した属性値の分散である。ここで属性値の平均値とは、サンプルをとって、それらの平均値p1〜pnをとったものであり、また属性値の分散とは、平均値に対するばらつきであって、何回かとったパラメータがどのくらいばらついているかを同じデータから計算して、s1〜snとして表わしたものである。なお属性値の次元は、図10に示した属性値の種類に応じてあらかじめ決定されている。
【0012】
次に、本発明における認識処理について説明する。
図12は、動作要素状態数が2以上の同時要素に含まれる静的動作要素の認識処理を示すフローチャートである。
図1における動的動作要素認識部102では、振動や直線等の動的な動作要素および手話形態素辞書において、動作要素状態数が2以上の同時要素に含まれる形状や方法などの静的な動作要素の二種類の認識(動的動作要素および静的動作要素の認識)を行う。動的な動作要素認識の技術としては、既にある技術(例えば、特願平6―253457号明細書および図面『手話認識装置』参照)を使用することができる。動作要素状態数が2以上の同時要素に含まれる静的な動作要素の認識は、図12に示すフローチャートに従って行うことができる。
図12において、ステップ1201では、まず手話形態素辞書から動作要素状態数が2以上の同時要素に含まれる静的動作要素を抽出し、そのリストを作成する。リスト中の動作要素のフォーマットは、図9に示す動作要素のフォーマットと同じで良い。次に、ステップ1202において、手話入力部から1時刻分のデータを読み込む。ステップ1203において、動作データが最後であれば処理を終了する。最後でなければ、ステップ1204に移る。ステップ1204において、静的動作要素リストの全ての動作要素について、動作要素の属性値と読み込んだデータとからその時刻における評価値を求める。
【0013】
評価値は、静的動作要素の属性値の種類をn,i番目の属性値の次元数をm(i),静的動作要素の手話形態素辞書に記述されているi番目の属性値の平均を(P(i,1),P(i,2),・・・,P(i,m(i))),分散を(S(i,1),S(i,2),・・・,S(i,m(i)),入力された時刻をt、入力されたデータのi番目の属性値を(X(t,i,1),X(t,i,2),・・・X(t,i,m(i))として、各時刻の評価値E1(t)は下記(数1)の式によって求められる。
【数1】
次に、ステップ1205において、各動作要素毎にそれまでに求めた評価値と新しく求めた評価値からなる評価値の時系列が極大になる時間範囲を求める。評価値の時系列が、例えば図13に示す曲線1301のように求められた場合には、極大となる時刻1302から時刻1303の範囲が動作要素として検出される。
ステップ1206において、求めた時間範囲とそれに対応する動作要素,評価値を認識結果として出力する。ステップ1207において、求めた各動作要素毎の評価値を次の時刻での認識に使用するためにバッファに格納し、ステップ1202に戻る。
図14は、動的動作要素および図12のフローで検出された静的動作要素のフォーマット図である。
1401は動作要素の検出された時間範囲の開始時刻,1402は動作要素の検出された時間範囲の終了時刻,1403は検出された動作要素に対する評価値,1404は検出された動作要素の種類,1405はその動作要素を表現するために使用される手の部位,1406,1407は各動作要素に付属する属性値である。属性値は、動作要素が検出された範囲における動作データから求めた値である。
【0014】
次に、図1に示す動的逐次要素認識部104において、動的な動作要素を含む逐次要素を認識する方法について説明する。
図15は、動的逐次要素の認識処理のフローチャートである。
この処理では、大きく分けて同時要素の認識と逐次要素の認識の二段階の処理が行われる。ステップ1501では、手話形態素辞書から動的な動作要素によって構成される同時要素と、動作要素状態が2以上の静的な動作要素によって構成される同時要素を抽出し、同時要素リストを作成する。この場合の同時要素のフォーマットを図16に示す。図16において、1601は手話形態素辞書中の同時要素の通し番号,1602は動作要素間の重なり度,1603は動作要素状態数,1604,1605は同時要素に含まれる各動作要素である。動作要素のフォーマットは図9に示すフォーマットと同じであり、また動作要素のフォーマット中の属性値は図11のフォーマットと同じである。
ステップ1502では、手話形態素辞書から動的な動作要素によって構成される同時要素と、動作要素状態数が2以上の静的動作要素を含む同時要素を含む逐次要素を抽出し、動的な動作要素を含む同時要素および動作要素状態数が2以上の静的な動作要素を含む同時要素と逐次要素の対応リストを作成する。この同時要素と逐次要素の対応リスト中の逐次要素のフォーマットを図17に示す。
図17において、1701は手話形態素辞書中における逐次要素の通し番号,1702は同時要素間の重なり度,1703はその逐次要素に含まれる動的な動作要素含む同時要素および動作要素状態数が2以上の同時要素の数,1704,1705は動的な動作要素を含む同時要素および動作要素状態数が2以上の静的な動作要素を含む同時要素の手話形態素辞書中における通し番号である。
【0015】
ステップ1503では、動的動作要素認識部102からの認識結果を一つ読み込む。次にステップ1504において、認識結果が最後であれば処理を終了する。そうでなければ、ステップ1505に進む。ステップ1505では、読み込んだ動作要素によって構成される同時要素の認識を行う。
この処理は、図18に示すフローチャートに従って行われる。図18において、ステップ1801では、ステップ1503で読み込んだ動作要素を含む同時要素を同時要素リストから検索する。ステップ1802において、検索された同時要素の数をカウンタiに代入する。ステップ1803において、検索された同時要素のうちi番目の同時要素の動作要素状態数が1であればステップ1804に、そうでなければステップ1805に進む。ステップ1804では、i番目の同時要素中の動作要素の属性値と読み込んだ動作要素の属性値とから評価値を求める。
この場合の評価値E2は、i番目の同時要素の属性値の種類をn,i番目の同時要素のj番目の属性値の次元数をm(j),i番目の同時要素のj番目の属性値を(P(j,1),P(j,2),…,P(j,m(j))),分散を(S(j,1),S(j,2),…,S(j,m(j))),読み込んだ動作要素のj番目の属性値を(X(j,1),X(j,2),…,X(j,m(j)))として、下記(数2)の式によって求めることができる。
【数2】
【0016】
次にステップ1805では、読み込んだ動作要素とバッファ中の動作要素からi番目の同時要素を構成する動作要素列と同じ動作要素列を検索する。ステップ1806では、検索した動作要素列中の動作要素の属性値とi番目の同時要素中の動作要素の属性値から同時要素の評価値を求める。この場合の評価値E3は、i番目の同時要素の動作要素の数をn,i番目の同時要素のj番目の動作要素の属性値の種類をm(j), i番目の同時要素のj番目の動作要素のk番目の属性値の次元数をq(j,k),i番目の同時要素のj番目の動作要素のk番目の属性値を(P(j,k,1),P(j,k,2),…,P(j,k,q(j,k))),分散を(S(j,k,1),S(j,k,2),…,S(j,k,q(j,k))), i番目の同時要素のj番目の動作要素に対応する読み込んだ動作要素あるいはバッファ中の動作要素のk番目の属性値を(X(j,k,1),X(j,k,2),…,X(j,k,q(j,k))),j番目とj+1番目の動作要素間の重なりあるいはギャップをG(j)(重なりの場合正,ギャップの場合負),動作要素間の重なりあるいはギャップの平均値をA,分散をσとして,下記(数3)の式によって求めることができる。
【数3】
【0017】
ステップ1807では、求めた評価値とi番目の同時要素を同時要素の認識結果として、認識された同時要素のバッファに格納する。バッファに格納される同時要素のフォーマットを図19に示す。図19において、1901は認識された同時要素の時間範囲の開始時刻,1902は認識された同時要素の時間範囲の終了時刻,1903は手話形態素辞書中における同時要素の通し番号,1904は同時要素に対する評価値である。開始時刻1901および終了時刻1902は、その同時要素が認識されたと判定されるもととなった動作要素の時間範囲に基づいて計算される。
元に戻って、図15のステップ1506では、ステップ1505で認識された同時要素によって構成される逐次要素を認識する。
図20は、図15に示す逐次要素の認識処理のフローチャートである。
図20では、まずステップ2001において、認識された同時要素のバッファ中で新しく認識された同時要素を含む逐次要素を同時要素と逐次要素の対応リストから検索する。ステップ2002において、検索された逐次要素の数をカウンタiに代入する。ステップ2003において、検索された逐次要素のi番目の逐次要素を構成する同時要素を、同時要素のバッファから検索する。ステップ2004において、i番目の逐次要素を構成する同時要素が全て検索された場合には、ステップ2005に移る。必要な同時要素が全て見つからなかった場合には、ステップ2007に移る。
【0018】
ステップ2005では、検索された同時要素の評価値に基づき、i番目の逐次要素の評価値を求める。評価値は、i番目の逐次要素を構成する同時要素の数をn,j番目の同時要素の評価値をE4(j),同時要素間の重なり度をO,同時要素間の重なり度の平均をA,分散をσとして下記(数4)の式によって求めることができる。なお、式中のE4は、上記(数1)の式から容易に求められる。
【数4】
また、式中の同時要素間の重なり度Oは、j番目の同時要素の開始時刻をs(j),終了時刻をe(j)として下記(数5)の式によって求めることができる。
【数5】
ステップ2006において、求めた評価値とその逐次要素を認識結果として出力する。出力される逐次要素のフォーマットを、図21に示す。図21において、2101は逐次要素の時間範囲の開始時刻,2102は逐次要素の時間範囲の終了時刻,2103は手話形態素辞書中における逐次要素の通し番号,2104はその逐次要素の評価値である。逐次要素の時間範囲は、その逐次要素の認識に用いられた同時要素の時間範囲に基づいて求める。例えば、全ての同時要素の重なり部分の時間範囲を用いることができる。あるいは、同時要素の時間範囲の開始時刻,終了時刻それぞれの平均を用いても良い。
【0019】
図22は、図1に示す静的動作要素認識部の処理を表すフローチャートである。
図1における静的動作要素認識部103の認識処理では、静的な動作要素の評価値を各時刻毎に求める。図22のステップ2201において、手話形態素辞書から静的な動作要素を抽出し、静的動作要素のリストを作成する。この場合、動作要素状態が2以上の同時要素を構成する静的な動作要素は削除する。これは、前述の処理で終了しているためである。
動作要素リスト中の動作要素のフォーマットを図23に示す。
図23において、2301は、手話形態素辞書中における動作要素の通し番号、2302は動作要素の種類,2303はその動作要素を表現するために使用される手の部位,2304,2305はその動作要素に付属する属性値である。
図22のステップ2202において、手話入力部から1時刻分のデータを読み込む。次に、ステップ2203において、データが最後であれば、処理を終了する。そうでなければ、ステップ2204に移る。ステップ2204では、静的動作要素リスト中の全ての動作要素について、動作要素の属性値と読み込んだデータからその時刻における評価値を求める。評価値は、前記(数1)の式によって求めることができる。ステップ2205では、求めた評価値と動作要素を認識結果として出力する。また、静的動作要素統合部106で過去の静的動作要素の認識結果を使用するため、静的動作要素のバッファを設けて、そこに認識結果を格納する。
出力される動作要素のフォーマットを図24に示す。
図24において、2401は時刻,2402は手話形態素辞書中における動作要素の通し番号,2403は動作要素の評価値である。
【0020】
図25は、図1に示す静的逐次要素認識部における認識処理のフローチャートである。
図1の静的逐次要素認識部105の認識処理では、静的動作要素認識部103で認識された静的動作要素の評価値から、静的動作要素のみによって構成される逐次要素の認識を行う。図25のステップ2501において、手話形態素辞書から静的な動作要素のみによって構成される逐次要素を抽出し、逐次要素と静的動作要素の対応リストを作成する。
対応リスト中の逐次要素のフォーマットを、図26に示す。
図26において、2601は手話形態素辞書中における逐次要素の通し番号,2602は逐次要素を構成する静的動作要素の数,2603,2604は逐次要素を構成する静的動作要素の手話形態素辞書中における通し番号である。
図25のステップ2502では、静的動作要素認識部103から静的動作要素の認識結果を1時刻分読み込む。次にステップ2503では、認識結果が最後であれば処理を終了する。そうでなければ、ステップ2504に移る。ステップ2504では、各逐次要素について、必要な動作要素を読み込んだ静的動作要素の認識結果から選択し、その時刻における逐次要素の評価値を求める。時刻tにおける評価値E7(t)は、逐次要素を構成する静的動作要素の数をn,i番目の静的動作要素の時刻tにおける評価値をE6(t,i)として、下記(数6)の式によって求めることができる。なお、E6(t,i)は、前記(数1)の式により容易に求めることができる。
【数6】
ステップ2505では、各逐次要素について、求めた逐次要素の評価値と過去の逐次要素の評価値の履歴を記憶してあるバッファの内容から、評価値が極大になる時間範囲を検索し、その時間範囲と評価値を逐次要素の認識結果として出力する。なお、逐次要素の認識結果のフォーマットは、図21に示すフォーマットと同じである。
ステップ2506では、次の時刻での処理で使用するために、求めた逐次要素の評価値をバッファに格納する。
【0021】
図27は、図1に示す静的動作要素統合部における統合処理のフローチャートである。
静的動作要素統合部106では、動的な動作要素のみによって構成された逐次要素の評価結果に静的な動作要素の評価値を統合して、逐次要素全体の評価値を求める。図27では、まずステップ2701において、手話形態素辞書中から動的な動作要素を含む逐次要素および動作要素状態数が2以上の静的動作要素から構成される同時要素を含む逐次要素を抽出し、逐次要素と静的な動作要素の対応リストを作成する。対応リスト中の各逐次要素のフォーマットは、図26に示すフォーマットと同じである。
ステップ2702では、動的逐次要素認識部104から動的逐次要素の認識結果を一つ読み込む。ステップ2703において、動的逐次要素の認識結果が最後であれば処理を終了する。そうでなければ、ステップ2704に移る。ステップ2704では、読み込んだ動的逐次要素の時間範囲において、動的逐次要素に対応する静的動作要素の認識結果(評価値)を静的動作要素認識部103から読み込む。ステップ2705では、読み込んだ静的動作要素の評価値の平均を動的逐次要素に対応する静的動作要素の評価値として求める。ステップ2706では、動的逐次要素の評価値と静的動作要素の評価値とから、逐次要素全体の評価値を求める。この評価値の計算は、二種類の評価値の平均や相乗平均等を計算することにより求めることができる。また逐次要素を構成する動作要素の種類毎に評価値を保存しておき、それらの平均や相乗平均等を計算することにより求めることもできる。ステップ2707では、動的逐次要素の時間範囲と求めた評価値を統合結果として出力する。統合結果のフォーマットは、図21に示すフォーマットと同じである。
図27に示すフローチャートでは、静的動作要素の評価値は全ての時刻について求め、その中から必要な時間範囲の評価値のみを受け取ることになるが、動的な逐次要素認識部の認識結果から得られる時間範囲についてのみ、必要な静的動作要素の評価値を求めるように静的動作要素認識部103に指示を送り、その評価結果を受け取って静的動作要素の統合処理を行うようにすることもできる。
【0022】
図28は、図1に示す手話形態素認識部における認識処理のフローチャートである。
手話形態素認識部107は、逐次要素の認識結果から手話形態素を認識する。図28では、まずステップ2801において、手話形態素辞書から手話形態素とそれを構成する逐次要素の対応リストを作成する。対応リスト中の各手話形態素のフォーマットを図29に示す。図29において、2901は手話形態素名,2902は手話形態素を構成する逐次要素間の重なり度,2903は手話形態素を構成する逐次要素の数,2904,2905は手話形態素を構成する逐次要素の手話形態素辞書中における通し番号である。
ステップ2802において、逐次要素の認識結果を一つ読み込む。ステップ2803において、逐次要素の認識結果が最後であれば処理を終了する。そうでなければ、ステップ2804に移る。ステップ2804では、読み込んだ逐次要素と過去の逐次要素の履歴を格納してあるバッファ中の逐次要素から、構成される逐次要素列に対応する手話形態素を対応リストから検索する。ステップ2805では、検索された手話形態素について、逐次要素の評価値および逐次要素間の重なりあるいはギャップに基づいて評価値を求める。評価値E9は、手話形態素を構成する逐次要素の数をn,i番目の逐次要素の評価値をE8(i),i番目とi+1番目の逐次要素間の重なりあるいはギャップをG(i)(重なりの場合正,ギャップの場合負),逐次要素間の重なりあるいはギャップの平均をA,分散をσとして、下記(数7)の式によって求めることができる。なお、E8(i)は、前式(数1)により容易に求められる。
【数7】
【0023】
ステップ2806において、求めた評価値,手話形態素名および時間範囲を認識結果として出力する。手話形態素の時間範囲は、認識に使用された逐次要素の時間範囲に基づいて求める。例えば、最初の逐次要素の開始時刻から最後の逐次要素の終了時刻を、手話形態素の時間範囲とすることができる。
図30に、手話形態素の認識結果のフォーマットを示す。図30において、3001は手話形態素の時間範囲の開始時刻,3002は手話形態素の時間範囲の終了時刻,3003は手話形態素名,3004は手話形態素の評価値である。
なお、前式(数1),(数2),(数3),(数4),(数6),(数7)では、評価値の計算はそれぞれを構成要素の評価値の相乗平均を用いているが、単純な平均(構成要素の評価値を全て加算し、その数で割算する)を用いても良い。また、構成要素の評価値とギャップや重なりに対する評価値に対して重み付けをしても良い。
【0024】
【発明の効果】
以上説明したように、本発明によれば、動的な動作要素の認識結果から決定される時間範囲に基づいて静的な動作要素を評価するため、静的な動作要素の認識範囲による認識精度の低下がなくなる。また静的な動作要素のみによって構成される逐次要素についても、各時刻毎に逐次要素全体の評価値を求め、評価値の極大値となる時刻を検出することにより認識を行うため、それぞれの動作要素の検出時間のずれによる認識低下がなくなる。さらに動作要素の特徴を表す属性値を、実際の動作データから求めた連続量によって表現し、それに基づいて認識された動作要素を評価するため、動作要素の適切な評価値を求めることが可能となり、手話の認識精度を向上することができる。
【図面の簡単な説明】
【図1】本発明の一実施例を示す手話認識装置の概念ブロック図である。
【図2】本発明において、動作要素に基づく手話動作モデルを示す図である。
【図3】図1に示す動的動作要素認識部の構造を示すブロック図である。
【図4】図1に示す静的動作要素認識部の構造を示すブロック図である。
【図5】本発明の一実施例を実現するための手話認識装置のハードウェア構成図である。
【図6】図1の手話入力装置から入力されるデータのフォーマット図である。
【図7】動的動作要素認識のためのパラメータのフォーマット図である。
【図8】手話形態素辞書の記述フォーマットである。
【図9】動作要素の記述フォーマットである。
【図10】動作要素の種類およびそれぞれの属性値の種類を示す図である。
【図11】動作要素の属性値のフォーマットである。
【図12】動作要素状態数が2以上の同時要素に含まれる静的動作要素の認識処理を説明するためのフローチャートである。
【図13】静的動作要素の検出処理を説明するための図である。
【図14】図13において認識された動的動作要素のフォーマット図である。
【図15】図1に示す動的逐次要素認識部の認識処理を説明するためのフローチャートである。
【図16】同時要素と動作要素の対応リストにおける同時要素のフォーマット図である。
【図17】逐次要素と同時要素の対応リストにおける逐次要素のフォーマット図である。
【図18】図1に示す動的逐次要素認識部における同時要素の認識処理を説明するためのフローチャートである。
【図19】認識された同時要素のフォーマット図である。
【図20】図1に示す動的逐次要素認識部における逐次要素の認識処理を説明するためのフローチャートである。
【図21】図20で認識された逐次要素のフォーマット図である。
【図22】図1に示す静的動作要素認識部の認識処理を説明するためのフローチャートである。
【図23】静的動作要素リスト中の動作要素のフォーマット図である。
【図24】図22で認識された静的動作要素のフォーマット図である。
【図25】図1に示す静的逐次要素認識部の認識処理を説明するためのフローチャートである。
【図26】静的逐次要素リスト中の逐次要素のフォーマット図である。
【図27】図1に示す静的動作要素統合部の統合処理を説明するためのフローチャートである。
【図28】図1に示す手話形態素認識部の認識処理を説明するためのフローチャートである。
【図29】手話形態素と逐次要素の対応リスト中の手話形態素のフォーマット図である。
【図30】図28で認識された手話形態素のフォーマット図である。
【符号の説明】
101…手話入力部、102…動的動作要素認識部、108…出力部、
103…静的動作要素認識部、104…動的逐次要素認識部、
105…静的逐次要素認識部、106…動的動作要素統合部、
107…手話形態素認識部、109…モニタ、110…スピーカ、
111…手話形態素辞書、201…手話形態素、208,209…動作要素、
202,203,204…逐次要素、205,206,207…同時要素、
301,302,303…動的動作要素認識部、304〜306…パラメータ、
401,402,403…静的動作要素認識部、504〜511…メモリ、
601…手の位置、605…手の方向、609…指の曲げ、
701…動作要素名、705,707…パラメータ種類、
706,708…パラメータ、901…動作要素の種類、902…手の部位、
903〜905…属性値、1101〜1103…属性値の平均値、
1104〜1106…属性値の分散、1301…評価値の時系列、
1302…時間範囲の開始時刻、1303…時間範囲の終了時刻。[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a sign language recognition device that supports communication between a hearing impaired person and a normal hearing person by inputting sign language and outputting the result accurately in the form of speech or characters.
[0002]
[Prior art]
Conventionally, various apparatuses for inputting sign language, analyzing the input result, and recognizing the sign language have been proposed. As these conventional recognition methods, sign language motion data is recognized by using a pattern matching technology (see, for example, the specification of Japanese Patent Application No. 5-125698 and the drawings), a neural network technology, and a sign language motion. There is a technique for recognizing sign language based on the basic unit of the operation that constitutes (see, for example, Japanese Patent Application No. 6-253457 and drawings).
The former method (Japanese Patent Application No. 5-125698) is a method in which the entire hand movement pattern is compared with the standard hand movement pattern stored in the word dictionary and is recognized based on whether or not they match, and the latter ( In the method of Japanese Patent Application No. 6-253457), instead of comparing the hand movement patterns themselves, the hand movement patterns are first recognized for each basic unit (partial pattern) of the movement, and then the result of the basic unit of the movement is obtained. Is used to recognize words. As described above, in the latter technique, first, all the basic units of operations constituting the sign language for recognition are recognized. The recognition is performed by comparing the result with the temporal relationship of the basic unit of motion in the sign language template stored in advance as a combination of the basic unit of motion. In this case, the types and attributes of the basic units of actions in the sign language template are all described by symbols.
[0003]
[Problems to be solved by the invention]
Conventional sign language recognition technology based on the basic unit of motion (the latter technology described above) recognizes both the basic unit of static motion and the basic unit of dynamic motion simultaneously, and integrates the basic unit of recognized motion By recognizing sign language. Among these, the basic unit of the static motion is a feature of the motion in which the parameters are stable in a certain time range such as the shape (hand shape, etc.) and the direction (finger direction, etc.). On the other hand, the basic unit of dynamic motion is a feature of motion representing parameter change (movement, etc.) in a certain time range such as linear motion or circular motion.
In order to detect the basic unit of static operation, a threshold is set for the difference between the reference parameter (sampled and extracted from the parameter) and the input parameter, and the interval within that threshold May be performed by detecting.
However, since the basic unit parameter of static operation is easy to change, it is often recognized in a range larger than the time range to be recognized or detected in a smaller range. For example, if the input parameter fluctuates in the same form each time and changes at the threshold boundary, the threshold value may be reciprocated, resulting in detection as a short-cut section. On the other hand, there may be a case where a large section is detected. In addition, depending on the state of parameter fluctuation, one motion section may be divided into two or more and recognized.
For this reason, the conventional technique that treats the basic unit of static motion and the dynamic basic unit on an equal basis has a problem that the basic unit of static motion cannot be correctly evaluated.
In the conventional technology, all sign language templates are described with symbols representing the basic unit of motion. Therefore, the basic unit of motion is recognized based on a preset reference value, and the evaluation value is also used as a reference. Based on the calculation.
Furthermore, the recognition result of the sign language is also calculated based on the evaluation value of the recognized basic unit of the motion (a value representing how close to the reference value, the higher the closer the value is). For this reason, there is a problem that a correct evaluation value cannot often be obtained due to a difference between a parameter range in actual operation and a parameter range given by a predetermined reference value, and recognition accuracy is low. That is, the location where the parameters are concentrated is not necessarily close to the reference value, and may be concentrated at an intermediate position of the reference value. In such a case, the difference between the input parameter and the reference value becomes large and the evaluation value becomes small.
Therefore, an object of the present invention is to provide a sign language recognition device that solves such conventional problems, correctly evaluates basic units of all operations, and recognizes sign language with high accuracy.
[0004]
[Means for Solving the Problems]
In order to achieve the above object, in the sign language recognition apparatus of the present invention, a basic unit of dynamic motion is detected, a sequential motion unit constituted by them is recognized, and then a recognized sequential motion unit is recognized. Integrate the evaluation results of the basic unit of static motion within the time range of. A sequential motion unit constituted only by a basic unit of static motion is recognized by obtaining an evaluation value of the entire motion at each time and obtaining a time at which the evaluation value becomes maximum. Further, in order to correctly evaluate the basic unit of motion, the basic unit of motion described in the sign language template describes the attribute value determined using actual sign language data using a continuous amount. The evaluation value of the basic unit of the recognized motion is obtained using the continuous amount.
As described above, since the basic unit of the static motion is evaluated based on the time range determined from the recognition result of the basic unit of the dynamic motion, there is no problem regarding the recognition range of the basic unit of the static motion.
In addition, for sequential motion units consisting of only static motion basic units, the evaluation value for the entire sequential motion unit is obtained at each time, and the time at which the evaluation value becomes the maximum value is detected. Since the recognition is performed by this, the detection time of the basic unit of each operation is not affected.
Furthermore, since the attribute value representing the characteristics of the basic unit of motion is expressed by the continuous amount obtained from the actual motion data, and the basic unit of the recognized motion is evaluated based on it, an appropriate evaluation value of the basic unit of motion And the sign language recognition accuracy can be improved.
[0005]
DETAILED DESCRIPTION OF THE INVENTION
Embodiments of the present invention will be described below in detail with reference to the drawings.
FIG. 2 is a diagram showing a sign language motion model based on motion elements in the present invention.
In order to explain the present invention, first, a model of a sign language action will be described. A sign language action is composed of a combination of basic units of action. The basic unit of motion in sign language will be referred to as motion element hereinafter. Since there is temporal sequentiality and simultaneity between the motion elements that constitute the sign language motion, it is necessary to describe the temporal relationship between the motion elements in order to recognize the sign language. For this purpose, the model shown in FIG. 2 is used. In FIG. 2, 201 represents the overall operation of the sign language morpheme. A sign language morpheme is a unit of meaning in sign language. Sign language morphemes are first sequential Operation unit Are decomposed into
A simultaneous element composed of two or more operation elements is considered to exist when the operation elements included therein are sequentially expressed. However, it is assumed that the operation elements included in one simultaneous element are always the same type of operation element. The movement elements are movement elements such as the same direction but different hand forms.
The sign language motion is thus constituted by a combination of a sequential structure and a simultaneous structure of motion elements.
[0006]
FIG. 1 is a conceptual block diagram of a sign language recognition apparatus showing an embodiment of the present invention.
In FIG. 1, a sign language input unit 101 (data glove) converts an action in sign language into an electric signal, and inputs it into a dynamic motion
The recognition result of the sign language morpheme is output to the
[0007]
FIG. 3 is a block diagram showing the structure of the dynamic motion element recognition unit, and FIG. 4 is a block diagram showing the structure of the static motion element recognition unit.
As shown in FIG. 3, the dynamic motion
As shown in FIG. 4, the static motion
[0008]
FIG. 5 is a diagram illustrating a configuration example of hardware for realizing the sign language recognition apparatus in FIG. 1.
In FIG. 5, a sign
[0009]
FIG. 6 is a format diagram of operation data input by the sign language input unit of FIG.
In FIG. 6,
FIG. 7 is a format diagram of parameters stored in the memory (505) for storing the dynamic motion element recognition parameters of FIG.
In FIG. 7, an
[0010]
FIG. 8 is a format diagram stored in the sign language morpheme dictionary memory of FIG.
In FIG. 8, a sign
[0011]
FIG. 9 is a description format diagram of an operation element, FIG. 10 is a diagram illustrating the types of operation elements and the types of attribute values, and FIG. 11 is a format diagram of attribute values of the operation elements.
In FIG. 9, 901 represents the type of the motion element, 902 represents the part of the hand used to represent the motion element, and 903, 904, and 905 represent attribute values required to represent the motion element. The type of operation element is selected from 14 types of operation elements as shown in FIG. Also, as shown in FIG. 10, the type of attribute value is determined in advance according to the type of operation element.
In the attribute value format of FIG. 11, 1101, 1102 and 1103 are average values of attribute values learned from a plurality of motion data, and 1104, 1105 and 1106 are distributions of attribute values learned from a plurality of motion data. Here, the average value of attribute values is obtained by taking samples and taking the average values p1 to pn, and the dispersion of attribute values is a variation with respect to the average value, and has been taken several times. How much the parameter varies is calculated from the same data and expressed as s1 to sn. The dimension of the attribute value is determined in advance according to the type of attribute value shown in FIG.
[0012]
Next, the recognition process in the present invention will be described.
FIG. 12 is a flowchart showing a recognition process of a static motion element included in simultaneous elements having two or more motion element states.
In the dynamic motion
In FIG. 12, in
[0013]
The evaluation value is the average of the i-th attribute values described in the sign language morpheme dictionary of the static action element, n is the type of attribute value of the static action element, m (i) is the number of dimensions of the i-th attribute value (P (i, 1), P (i, 2),..., P (i, m (i))) and variance (S (i, 1), S (i, 2),... , S (i, m (i)), input time t, input data i-th attribute value (X (t, i, 1), X (t, i, 2), ... As X (t, i, m (i)), the evaluation value E1 (t) at each time is obtained by the following equation (Equation 1).
[Expression 1]
Next, in step 1205, a time range in which the time series of the evaluation values including the evaluation values obtained so far and the newly obtained evaluation values is maximized is obtained for each operation element. When the time series of evaluation values is obtained, for example, as shown by a
In step 1206, the obtained time range, the corresponding operation element, and the evaluation value are output as a recognition result. In step 1207, the obtained evaluation value for each motion element is stored in a buffer for use in recognition at the next time, and the process returns to step 1202.
FIG. Dynamic operating elements and Detected in the flow of FIG. Of static operating elements It is a format diagram.
1401 is the start time of the time range in which the motion element is detected, 1402 is the end time of the time range in which the motion element is detected, 1403 is the evaluation value for the detected motion element, 1404 is the type of the detected motion element, and 1405 Is the part of the hand used to represent the action element, and 1406 and 1407 are attribute values attached to each action element. The attribute value is a value obtained from motion data in a range where motion elements are detected.
[0014]
Next, a method for recognizing sequential elements including dynamic motion elements in the dynamic sequential
FIG. 15 is a flowchart of the dynamic sequential element recognition process.
This process is roughly divided into two stages of simultaneous element recognition and sequential element recognition. In
In step 1502, a sequential element including a simultaneous element composed of dynamic motion elements from a sign language morpheme dictionary and a simultaneous element including a static motion element whose number of motion element states is two or more is extracted. And a correspondence list of simultaneous elements and sequential elements including static operation elements having two or more operation element state numbers. FIG. 17 shows the format of the sequential element in the correspondence list of the simultaneous element and the sequential element.
In FIG. 17, 1701 is the serial number of the sequential element in the sign language morpheme dictionary, 1702 is the degree of overlap between the simultaneous elements, 1703 is the number of simultaneous elements and dynamic element states including dynamic motion elements included in the sequential elements, and two or more. The number of simultaneous elements, 1704 and 1705, are serial numbers in the sign language morpheme dictionary of simultaneous elements including dynamic operation elements and simultaneous elements including static operation elements having two or more operation element states.
[0015]
In
This process is performed according to the flowchart shown in FIG. In FIG. 18, in
In this case, the evaluation value E2 is such that the attribute value type of the i-th simultaneous element is n, the dimension number of the j-th attribute value of the i-th simultaneous element is m (j), and the j-th attribute value of the i-th simultaneous element is j-th. The attribute value is (P (j, 1), P (j, 2),..., P (j, m (j))), and the variance is (S (j, 1), S (j, 2),. S (j, m (j))), and the jth attribute value of the read operation element is (X (j, 1), X (j, 2),..., X (j, m (j))) The following equation (Equation 2) can be used.
[Expression 2]
[0016]
In
[Equation 3]
[0017]
In
Returning to FIG. 15, in
FIG. 20 is a flowchart of the sequential element recognition process shown in FIG.
In FIG. 20, first, in
[0018]
In
[Expression 4]
The degree of overlap O between the simultaneous elements in the equation can be obtained by the following equation (5), where the start time of the j-th simultaneous element is s (j) and the end time is e (j).
[Equation 5]
In
[0019]
FIG. 22 is a flowchart showing the process of the static motion element recognition unit shown in FIG.
In the recognition process of the static motion
The format of the operation element in the operation element list is shown in FIG.
In FIG. 23, 2301 is the serial number of the motion element in the sign language morpheme dictionary, 2302 is the type of motion element, 2303 is the part of the hand used to represent the motion element, and 2304 and 2305 are attached to the motion element. Attribute value to be
In step 2202 of FIG. 22, data for one time is read from the sign language input unit. Next, in
The format of the output operation element is shown in FIG.
24, 2401 is the time, 2402 is the serial number of the motion element in the sign language morpheme dictionary, and 2403 is the evaluation value of the motion element.
[0020]
FIG. 25 is a flowchart of recognition processing in the static sequential element recognition unit shown in FIG.
In the recognition processing of the static sequential
The format of the sequential element in the correspondence list is shown in FIG.
In FIG. 26, 2601 is the serial number of the sequential element in the sign language morpheme dictionary, 2602 is the number of static motion elements constituting the sequential element, and 2603 and 2604 are serial numbers in the sign language morpheme dictionary of the static motion element constituting the sequential element. It is.
In
[Formula 6]
In step 2505, for each sequential element, a time range in which the evaluation value is maximized is searched from the contents of the buffer storing the obtained sequential element evaluation value and the history of past sequential element evaluation values. The range and evaluation value are output as the recognition result of the sequential elements. Note that the format of the recognition result of the sequential elements is the same as the format shown in FIG.
In
[0021]
FIG. 27 is a flowchart of the integration process in the static motion element integration unit shown in FIG.
The static motion
In
In the flowchart shown in FIG. 27, the evaluation values of the static motion elements are obtained for all times, and only the evaluation values in the required time range are received from the evaluation values. From the recognition result of the dynamic sequential element recognition unit, Only in the obtained time range, an instruction is sent to the static motion
[0022]
FIG. 28 is a flowchart of the recognition process in the sign language morpheme recognition unit shown in FIG.
The sign language
In
[Expression 7]
[0023]
In
FIG. 30 shows the format of the sign language morpheme recognition result. In FIG. 30, 3001 is the start time of the time range of the sign language morpheme, 3002 is the end time of the time range of the sign language morpheme, 3003 is the name of the sign language morpheme, and 3004 is the evaluation value of the sign language morpheme.
In the previous formulas (Equation 1), (Equation 2), (Equation 3), (Equation 4), (Equation 6), and (Equation 7), the evaluation values are calculated by the geometric mean of the evaluation values of the constituent elements. However, a simple average (add all evaluation values of components and divide by the number) may be used. Also, the evaluation value of the component and the evaluation value for the gap or overlap may be weighted.
[0024]
【The invention's effect】
As described above, according to the present invention, since the static motion element is evaluated based on the time range determined from the recognition result of the dynamic motion element, the recognition accuracy based on the recognition range of the static motion element. The loss of In addition, for sequential elements that are composed of only static motion elements, the evaluation value of the entire sequential element is obtained at each time, and recognition is performed by detecting the time when the maximum value of the evaluation value is detected. The recognition degradation due to the shift of the element detection time is eliminated. In addition, attribute values that represent the characteristics of motion elements are expressed by continuous quantities obtained from actual motion data, and the motion elements recognized based on them are evaluated, so it is possible to determine appropriate evaluation values for motion elements. The sign language recognition accuracy can be improved.
[Brief description of the drawings]
FIG. 1 is a conceptual block diagram of a sign language recognition device according to an embodiment of the present invention.
FIG. 2 is a diagram illustrating a sign language motion model based on motion elements in the present invention.
FIG. 3 is a block diagram showing a structure of a dynamic motion element recognition unit shown in FIG.
4 is a block diagram showing a structure of a static motion element recognition unit shown in FIG. 1. FIG.
FIG. 5 is a hardware configuration diagram of a sign language recognition apparatus for realizing an embodiment of the present invention.
6 is a format diagram of data input from the sign language input device of FIG. 1; FIG.
FIG. 7 is a format diagram of parameters for dynamic motion element recognition.
FIG. 8 is a description format of a sign language morpheme dictionary.
FIG. 9 is a description format of an operation element.
FIG. 10 is a diagram illustrating types of motion elements and types of respective attribute values.
FIG. 11 is a format of an attribute value of an operation element.
FIG. 12 is a flowchart for explaining recognition processing of static motion elements included in simultaneous elements having two or more motion element states.
FIG. 13 is a diagram for explaining a detection process of a static operation element.
FIG. 14 is a format diagram of the dynamic motion element recognized in FIG. 13;
15 is a flowchart for explaining recognition processing of the dynamic sequential element recognition unit shown in FIG. 1;
FIG. 16 is a format diagram of simultaneous elements in a correspondence list of simultaneous elements and operation elements;
FIG. 17 is a format diagram of sequential elements in a correspondence list of sequential elements and simultaneous elements.
FIG. 18 is a flowchart for explaining simultaneous element recognition processing in the dynamic sequential element recognition unit shown in FIG. 1;
FIG. 19 is a format diagram of recognized simultaneous elements.
20 is a flowchart for explaining a sequential element recognition process in the dynamic sequential element recognition unit shown in FIG. 1; FIG.
FIG. 21 is a format diagram of sequential elements recognized in FIG. 20;
22 is a flowchart for explaining recognition processing of the static motion element recognition unit shown in FIG. 1; FIG.
FIG. 23 is a format diagram of operation elements in a static operation element list.
FIG. 24 is a format diagram of a static motion element recognized in FIG. 22;
FIG. 25 is a flowchart for explaining recognition processing of the static sequential element recognition unit shown in FIG. 1;
FIG. 26 is a format diagram of sequential elements in a static sequential element list.
FIG. 27 is a flowchart for explaining integration processing of the static operation element integration unit shown in FIG. 1;
FIG. 28 is a flowchart for explaining recognition processing of a sign language morpheme recognition unit shown in FIG. 1;
FIG. 29 is a format diagram of sign language morphemes in a correspondence list of sign language morphemes and sequential elements.
FIG. 30 is a format diagram of sign language morphemes recognized in FIG. 28;
[Explanation of symbols]
101 ... Sign language input unit, 102 ... Dynamic motion element recognition unit, 108 ... Output unit,
103 ... static motion element recognition unit, 104 ... dynamic sequential element recognition unit,
105 ... static sequential element recognition unit, 106 ... dynamic motion element integration unit,
107: Sign language morpheme recognition unit 109: Monitor 110: Speaker
111 ... Sign language morpheme dictionary, 201 ... Sign language morpheme, 208, 209 ... Action elements,
202, 203, 204 ... sequential elements, 205, 206, 207 ... simultaneous elements,
301, 302, 303 ... dynamic motion element recognition unit, 304-306 ... parameter,
401, 402, 403 ... static motion element recognition unit, 504 to 511 ... memory,
601 ... hand position, 605 ... hand direction, 609 ... bending of fingers,
701: Operation element name, 705, 707 ... Parameter type,
706, 708 ... parameter, 901 ... type of motion element, 902 ... hand part,
903 to 905 ... attribute values, 1101 to 1103 ... average values of attribute values,
1104 to 1106 ... dispersion of attribute values, 1301 ... time series of evaluation values,
1302 ... Time range start time, 1303 ... Time range end time.
Claims (7)
該手話入力手段から入力された時系列手話データから、動作の基本単位のうち動的な動作の基本単位、および複数の静的な動作の基本単位の時系列中に含まれる静的な動作の基本単位を認識する動的動作要素認識手段と、
該手話入力手段から入力された時系列手話データから、動作の基本単位のうち静的な動作の基本単位を認識する静的動作要素認識手段と、
上記動的動作要素認識手段から取り込まれた一つ以上の動的な動作の基本単位、あるいは複数の静的な動作の基本単位の時系列によって構成される逐次的な動作単位を認識する動的逐次要素認識手段と、
上記静的動作要素認識手段から取り込まれた一つ以上の静的な動作の基本単位によって構成される逐次的な動作単位を認識する静的逐次要素認識手段と、
上記動的逐次要素認識手段から取り込まれた動的な動作の基本単位によって構成される逐次的な動作単位と、上記静的動作要素認識手段から取り込まれた静的な動作の基本単位とを、動的な動作の基本単位によって構成される逐次的な動作単位の時間範囲に基づいて統合する静的動作要素統合手段と、
上記静的動作要素統合手段および上記静的動作要素認識手段から取り込まれた逐次要素の認識結果に対して、手話としての動作を認識する手話形態素認識手段と、
動作の基本単位の組み合わせによって表現した手話テンプレートを記憶し、上記各手段に参照される手話形態素辞書手段と、
上記手話形態素認識手段により認識した手話を、音声あるいは文字の形で出力する手段とを有することを特徴とする手話認識装置。Sign language input means for converting the shape and movement of the hand into an electrical signal and inputting it as time-series sign language data;
From the time series sign language data inputted from該手story input unit, the basic unit of the dynamic behavior of the basic unit of operation, and the static operation contained in the time series of a plurality of static basic unit of operation Dynamic motion element recognition means for recognizing basic units;
Static action element recognition means for recognizing a basic unit of static action among basic units of action from time-series sign language data input from the sign language input means;
Dynamically recognizing one or more basic units of dynamic motion captured from the dynamic motion element recognition means or a sequential motion unit composed of a plurality of static motion basic units in time series Sequential element recognition means;
Static sequential element recognition means for recognizing sequential motion units composed of one or more basic units of static motion captured from the static motion element recognition means;
And sequential operation unit constituted by the basic unit of the dynamic behavior taken from the dynamic sequential element recognition means, the basic unit of the static action taken from the static operating element recognition means Static motion element integration means for integrating based on a time range of sequential motion units composed of dynamic motion basic units ;
Sign language morpheme recognition means for recognizing a motion as a sign language with respect to a recognition result of sequential elements captured from the static motion element integration means and the static motion element recognition means;
Storing a sign language template expressed by a combination of basic units of motion, and sign language morpheme dictionary means referred to by each means;
A sign language recognition apparatus comprising: means for outputting the sign language recognized by the sign language morpheme recognition means in the form of speech or characters.
前記手話テンプレートを記憶する手話形態素辞書手段に記憶される動作の基本単位は、動作の種類を表す記号と連続量で表した動作の属性値の組み合わせによって表現されることを特徴とする手話認識装置。The sign language recognition device according to claim 1,
The sign language recognition device characterized in that the basic unit of motion stored in the sign language morpheme dictionary means for storing the sign language template is expressed by a combination of a symbol representing the type of motion and an attribute value of motion represented by a continuous amount. .
前記動的な動作の基本単位によって構成される逐次的な動作単位と、静的な動作の基本単位を統合する静的動作要素統合手段は、動的な動作の基本単位によって構成される逐次的な動作単位によって決定された時間範囲における静的な動作の基本単位の認識結果のみを選択することを特徴とする手話認識装置。The sign language recognition device according to claim 2,
The static motion element integration means for integrating the sequential motion unit composed of the dynamic motion basic unit and the static motion basic unit is a sequential motion composed of the dynamic motion basic unit. A sign language recognition apparatus that selects only a recognition result of a basic unit of static motion in a time range determined by a specific motion unit.
前記動的な動作の基本単位によって構成される逐次的な動作単位と、静的な動作の基本単位を統合する静的動作要素統合手段は、まず動的な動作の基本単位によって構成される逐次的な動作単位によって決定された時間範囲を、静的な動作の基本単位を認識する静的動作要素認識手段に送り、該静的動作要素認識手段は送られた時間範囲のみについて認識処理を行い、その結果を静的動作要素統合手段に送ることを特徴とする手話認識装置。The sign language recognition device according to claim 3.
The static motion element integrating means for integrating the sequential motion unit composed of the dynamic motion basic unit and the static motion basic unit is a sequential motion composed of the dynamic motion basic unit. The time range determined by a specific motion unit is sent to a static motion element recognition unit that recognizes a basic unit of static motion, and the static motion element recognition unit performs recognition processing only for the sent time range. sign language recognition device characterized by sending the result to the static operating element integration means.
前記動的な動作の基本単位によって構成される逐次的な動作単位を認識する動的逐次要素認識手段は、認識された動的な動作の基本単位の時間範囲の重なり度に基づいて認識を行うことを特徴とする手話認識装置。The sign language recognition device according to claim 1,
The dynamic sequential element recognizing means for recognizing a sequential motion unit constituted by the dynamic motion basic unit performs recognition based on a degree of overlap in a time range of the recognized dynamic motion basic unit. This is a sign language recognition device.
前記静的な動作の基本単位の認識を行う静的動作要素認識手段は、時系列手話データの各時刻におけるデータを、手話テンプレートを記憶する手話形態素辞書手段に記憶されている静的な動作の基本単位の属性値に基づいて評価することを特徴とする手話認識装置。The sign language recognition device according to claim 1,
The static motion element recognizing means for recognizing the basic unit of the static motion is the static motion stored in the sign language morpheme dictionary means for storing the sign language template data at each time of the time series sign language data. An apparatus for recognizing a sign language, wherein the evaluation is based on an attribute value of a basic unit.
前記静的な動作の基本単位によって構成される逐次的な動作の単位を認識する静的逐次要素認識手段は、各時刻における静的な動作の基本単位の評価結果を逐次的な動作の単位毎にまとめることにより、逐次的な動作の単位に対する評価値を求め、求めた評価値が極大値となる時間範囲を逐次的な動作の単位の認識結果とすることを特徴とする手話認識装置。The sign language recognition device according to claim 1,
The static sequential element recognizing means for recognizing a sequential motion unit configured by the static motion basic unit is configured to obtain an evaluation result of the static motion basic unit at each time for each sequential motion unit. A sign language recognition device characterized in that an evaluation value for a sequential motion unit is obtained by collecting the evaluation values, and a time range in which the calculated evaluation value is a maximum value is used as a recognition result of the sequential motion unit.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP01110397A JP3615008B2 (en) | 1997-01-24 | 1997-01-24 | Sign language recognition device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP01110397A JP3615008B2 (en) | 1997-01-24 | 1997-01-24 | Sign language recognition device |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH10208023A JPH10208023A (en) | 1998-08-07 |
JP3615008B2 true JP3615008B2 (en) | 2005-01-26 |
Family
ID=11768685
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP01110397A Expired - Lifetime JP3615008B2 (en) | 1997-01-24 | 1997-01-24 | Sign language recognition device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3615008B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3823604B2 (en) * | 1999-05-18 | 2006-09-20 | 株式会社日立製作所 | Sign language education apparatus, sign language education method, and recording medium on which sign language education method is recorded |
JP3906729B2 (en) * | 2002-04-05 | 2007-04-18 | 株式会社日立製作所 | Sign language education system and program for realizing the system |
KR101276203B1 (en) | 2009-12-10 | 2013-06-20 | 한국전자통신연구원 | Korean/English typewriter system and text input method using mediated interface device |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6234285A (en) * | 1985-08-07 | 1987-02-14 | Nippon Telegr & Teleph Corp <Ntt> | Method for recognizing animation |
JP3346799B2 (en) * | 1992-08-24 | 2002-11-18 | 株式会社日立製作所 | Sign language interpreter |
JPH06333022A (en) * | 1993-05-27 | 1994-12-02 | Hitachi Ltd | Continuous finger language recognizing device and input device |
JPH07282235A (en) * | 1994-04-15 | 1995-10-27 | Matsushita Electric Ind Co Ltd | Operation recognition device |
JPH08115408A (en) * | 1994-10-19 | 1996-05-07 | Hitachi Ltd | Finger language recognition device |
JP3440644B2 (en) * | 1995-01-31 | 2003-08-25 | 松下電器産業株式会社 | Hand motion recognition device |
-
1997
- 1997-01-24 JP JP01110397A patent/JP3615008B2/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH10208023A (en) | 1998-08-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108108426B (en) | Understanding method and device for natural language question and electronic equipment | |
CN111461168A (en) | Training sample expansion method and device, electronic equipment and storage medium | |
CN113724848A (en) | Medical resource recommendation method, device, server and medium based on artificial intelligence | |
CN110442515B (en) | Application testing method, device, equipment and readable storage medium | |
CN112528637A (en) | Text processing model training method and device, computer equipment and storage medium | |
CN104407695B (en) | A kind of equipment input method and device | |
CN113889074A (en) | Voice generation method, device, equipment and medium | |
CN115391670A (en) | Knowledge graph-based internet behavior analysis method and system | |
CN116956896A (en) | Text analysis method, system, electronic equipment and medium based on artificial intelligence | |
CN111460810A (en) | Crowd-sourced task spot check method and device, computer equipment and storage medium | |
CN111368051A (en) | Dialog generation method and device and computer equipment | |
JP3615008B2 (en) | Sign language recognition device | |
CN111796925A (en) | Method and device for screening algorithm model, storage medium and electronic equipment | |
CN113706322A (en) | Service distribution method, device, equipment and storage medium based on data analysis | |
JPH08115408A (en) | Finger language recognition device | |
CN116168403A (en) | Medical data classification model training method, classification method, device and related medium | |
CN115759085A (en) | Information prediction method and device based on prompt model, electronic equipment and medium | |
CN109597638B (en) | Method and device for solving data processing and equipment linkage based on real-time computing engine | |
JP3565387B2 (en) | Sign language word pattern dictionary creation system and method | |
CN109284354B (en) | Script searching method and device, computer equipment and storage medium | |
KR102446514B1 (en) | Meaning information network measurement server with sematic priming mechanism and operation method therof | |
JP2020194218A (en) | Correct answer data creation assisting system and correct answer data creation assisting method | |
CN117236315B (en) | Text data intelligent analysis method, device and equipment | |
CN111797077A (en) | Data cleaning method and device, storage medium and electronic equipment | |
JP3623394B2 (en) | Sign language recognition device and recording medium on which program for realizing the device is recorded |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040216 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040220 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040420 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040629 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040824 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20041015 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20041028 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071112 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081112 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081112 Year of fee payment: 4 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313114 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081112 Year of fee payment: 4 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081112 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091112 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101112 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101112 Year of fee payment: 6 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101112 Year of fee payment: 6 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |