JP3615008B2 - Sign language recognition device - Google Patents

Sign language recognition device Download PDF

Info

Publication number
JP3615008B2
JP3615008B2 JP01110397A JP1110397A JP3615008B2 JP 3615008 B2 JP3615008 B2 JP 3615008B2 JP 01110397 A JP01110397 A JP 01110397A JP 1110397 A JP1110397 A JP 1110397A JP 3615008 B2 JP3615008 B2 JP 3615008B2
Authority
JP
Japan
Prior art keywords
motion
sign language
static
sequential
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP01110397A
Other languages
Japanese (ja)
Other versions
JPH10208023A (en
Inventor
浩彦 佐川
勝 竹内
優 大木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP01110397A priority Critical patent/JP3615008B2/en
Publication of JPH10208023A publication Critical patent/JPH10208023A/en
Application granted granted Critical
Publication of JP3615008B2 publication Critical patent/JP3615008B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Image Processing (AREA)
  • Position Input By Displaying (AREA)
  • Image Analysis (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、手話を入力して、その結果を音声または文字の形で正確に出力することにより、聴覚障害者と健聴者とのコミュニケーションを支援する手話認識装置に関するものである。
【0002】
【従来の技術】
従来より、手話を入力して、その入力結果を解析しその手話を認識する装置が種々提案されている。これら従来の認識方法としては、手話の動作データをパターン照合の技術(例えば、特願平5−125698号明細書および図面参照)や、ニューラルネットワークの技術を用いて認識を行う技術と、手話動作を構成する動作の基本単位に基づいて手話の認識を行う技術(例えば、特願平6−253457号明細書および図面参照)がある。
前者(特願平5−125698号)の手法では、全体としての手動作パターンを単語辞書に格納された標準手動作パターンと比較して、一致するか否かにより認識する方法であり、後者(特願平6−253457号)の手法では、手動作パターン自体を比較するのではなく、手動作パターンを先ず動作の基本単位毎(部分パターン)に認識し、次にその動作の基本単位の結果を統合して単語を認識するものである。このように、後者の技術では、先ず認識を行う手話を構成する動作の基本単位を全て認識する。その結果と、あらかじめ手話を動作の基本単位の組み合わせとして記憶してある手話テンプレート中の動作の基本単位の時間的な関係とを比較することにより認識を行うのである。この場合、手話テンプレート中の動作の基本単位の種類や属性は全て記号によって記述されていた。
【0003】
【発明が解決しようとする課題】
従来における動作の基本単位に基づく手話認識技術(前述した後者の技術)では、静的な動作の基本単位も動的な動作の基本単位も同時に認識を行い、認識された動作の基本単位を統合することにより手話を認識していた。このうち、静的な動作の基本単位とは、形状(手の形等)や方向(指の方向等)など、ある時間範囲においてパラメータが安定した状態を示す動作の特徴である。一方、動的な動作の基本単位は、直線運動や円運動などある時間範囲におけるパラメータの変化(移動等)を表す動作の特徴である。
静的な動作の基本単位を検出するためには、基準となるパラメータ(サンプルをとって、そこから抽出したパラメータ)と入力されたパラメータの差に対して閾値を設定し、その閾値以内の区間を検出することによって行えばよい。
しかしながら、静的な動作の基本単位のパラメータは変化しやすいため、認識したい時間範囲より大きい範囲で認識されたり、小さい範囲で検出されたりすることが多い。例えば、毎回同じような形で、かつ入力されたパラメータが閾値の境界のところで変動すると、閾値を往復してしまう結果、小間切れの区間として検出されてしまうことがある。逆に大きい区間として検出する場合も生じる。また、パラメータの変動の状態によっては、一つの動作の区間が二つ以上に分割されて認識される場合もある。
このため、静的な動作の基本単位と動的な基本単位を対等に扱っていた従来技術では、静的な動作の基本単位については正しい評価が行えないという問題があった。
また、従来の技術では、手話テンプレートを全て動作の基本単位を表す記号によって記述していたため、動作の基本単位の認識ではあらかじめ設定してある基準値に基づき認識を行い、その評価値も基準に基づいて計算を行っていた。
さらに、手話の認識結果も認識された動作の基本単位の評価値(基準値にどの程度近いかを表わす値で、近い程高い値)に基づいて計算を行っていた。このため、実際の動作におけるパラメータの範囲とあらかじめ決定していた基準値によって与えられるパラメータの範囲のずれにより、正しい評価値が得られないことが多く、認識精度が低いという問題があった。すなわち、パラメータの集中する場所は、基準値に近いとは限らず、基準値の中間位置に集中することがある。このような場合には、入力されたパラメータと基準値との差は大きくなり、評価値としては小さくなってしまう。
そこで、本発明の目的は、このような従来の課題を解決し、全ての動作の基本単位を正しく評価し、精度良く手話を認識する手話認識装置を提供することである。
【0004】
【課題を解決するための手段】
上記目的を達成するため、本発明の手話認識装置では、動的な動作の基本単位を検出し、それらにより構成される逐次的な動作の単位を認識した後、認識した逐次的な動作の単位の時間範囲内において静的な動作の基本単位の評価結果を統合する。静的な動作の基本単位のみによって構成される逐次的な動作の単位は、各時刻における動作全体の評価値を求め、評価値が極大になる時刻を求めることにより認識を行う。また、動作の基本単位を正しく評価するために、手話テンプレートに記述される動作の基本単位は、実際の手話データを用いて決定した属性値を連続量を用いて記述する。認識された動作の基本単位の評価値は、その連続量を用いて求める。
このように、動的な動作の基本単位の認識結果から決定される時間範囲に基づいて静的な動作の基本単位を評価するため、静的な動作の基本単位の認識範囲に関する問題がなくなる。
また、静的な動作の基本単位のみによって構成される逐次的な動作の単位についても、各時刻毎に逐次的な動作の単位全体の評価値を求め、評価値の極大値となる時刻を検出することにより認識を行うため、それぞれの動作の基本単位の検出時間に影響を受けることがなくなる。
さらに、動作の基本単位の特徴を表す属性値を実際の動作データから求めた連続量によって表現し、それに基づいて認識された動作の基本単位を評価するため、動作の基本単位の適切な評価値を求めることが可能となり、手話の認識精度を向上することができる。
【0005】
【発明の実施の形態】
以下、本発明の実施例を、図面により詳細に説明する。
図2は、本発明における動作要素に基づく手話動作モデルを示す図である。
本発明を説明するために、まず手話動作のモデルを説明する。手話動作は、動作の基本単位の組み合わせにより構成される。この手話における動作の基本単位を、以後動作要素と呼ぶことにする。手話の動作を構成する動作要素間には時間的な逐次性および同時性があるため、手話の認識を行うためには、それら動作要素間の時間的な関係も記述しておく必要がある。このために、図2に示すモデルを使用する。図2において、201は手話形態素の動作全体を表す。手話形態素は、手話における意味の単位である。手話形態素は、まず逐次的な動作単位である逐次要素202,203,204に分解される。横軸は左端を基準として時間の経過を表わしているので、逐次要素202,203,204の順序で動作が発生したことになる。逐次要素は必ず連続的に表現され、同時に表現されることはない動作の単位である。逐次要素は、さらに複数の同じ時間範囲に表現される単位である同時要素205,206,207に分解される。同時要素には、動作要素208,209が含まれる。同時要素には二種類あり、一つの動作要素のみから構成される同時要素と、二つ以上の動作要素のみから構成される同時要素がある。
二つ以上の動作要素から構成される同時要素は、その中に含まれる動作要素が逐次的に表現された場合に存在するとみなされる。ただし、一つの同時要素に含まれる動作要素は、必ず同じ種類の動作要素であるとする。なお動作要素とは、方向が同じで手の形態だけ異なる等の動作の要素である。
手話動作は、このように動作要素の逐次的構造と同時的構造の組み合わせによって構成される。
【0006】
図1は、本発明の一実施例を示す手話認識装置の概念ブロック図である。
図1において、手話入力部101(データグローブ)は手話における動作を電気信号に変換し、時系列データとして動的動作要素認識部102および静的動作要素認識部103に入力する。動的動作要素認識部102では、動作データから動的な動作要素を認識する。静的動作要素認識部103では、動作データの各時刻のデータに対して静的な動作要素の評価値を求める。動的逐次要素認識部104では、認識された動的な動作要素から構成される逐次要素を認識する。静的逐次要素認識部105では、静的な動作要素のみから構成される逐次要素の認識を行う。静的動作要素統合部106では、動的な動作要素から構成される逐次要素に静的な動作要素の認識結果を統合することにより、手話形態素の認識を行う。本発明は、この静的動作要素統合部106を設けたことに特徴がある。先にモデルの説明で述べたように、静的動作要素の認識範囲は基本単位のパラメータが変化し易いため、認識したい時間範囲より小さい範囲で検出されたり、大きい範囲で認識されたりするとともに、通常、静的動作要素は動的動作要素と一緒に現われるので、動的動作要素の逐次要素と静的動作要素の認識結果を統合し、評価するのである。つまり、動的動作要素は、直線運動や円運動で時間が明確に決められるので、認識した時間範囲内において静的動作要素を評価してやればよい。なお、図2のモデルと図1の関係では、図2の動作要素208,209の中に動的動作要素と静的動作要素とが含まれると考えればよい。
手話形態素の認識結果は、出力部108によりモニタ109およびスピーカ110へ出力される。手話形態素辞書111には、手話における意味の単位である手話形態素毎に、動作要素の組み合わせによって記述した手話テンプレートが格納されている。
【0007】
図3は、動的動作要素認識部の構造を示すブロック図であり、図4は、静的動作要素認識部の構造を示すブロック図である。
動的動作要素認識部102は、図3に示すように、独立したそれぞれの動作要素毎の認識部301,302,303から構成されている。各動作要素認識部には、それぞれの認識処理に必要な認識用パラメータ304,305,306が用意される。図3に示す動的動作要素認識部では、考えられる全ての動作要素を認識することになるが、手話形態素辞書中の動的動作要素のみを認識するようにしても良い。
静的動作要素認識部103も、図4に示すように、各動作要素毎の認識部401,402,403から構成されている。静的動作要素認識部103では、認識に必要なパラメータは全て手話形態素辞書に格納されているデータを用いる。
【0008】
図5は、図1における手話認識装置を実現するためのハードウェアの一構成例を示す図である。
図5において、手話入力装置501は手話における手動作を電気信号に変換する装置であり、手袋にセンサを設置し、手の形状や動きを電気信号に変換する装置として良く知られている装置(データグローブ)を利用することができる。手話入力装置501によって、手話の手動作は指の曲げ角度や手の位置などからなる多次元の時系列データに変換される。演算装置502は、動作要素の認識や手話形態素の認識を行う装置であり、メモリ504,506,507,508,509,511からプログラムを読み込み、それらのプログラムに従って認識処理を行う。出力装置503は、手話形態素の認識結果を出力する装置であり、文字による出力や音声合成を用いた音声による出力装置を利用することができる。メモリ504は、動的動作要素を認識するためのプログラムを記憶するための記憶装置、メモリ505は動的動作要素を認識するために必要なパラメータを記憶するための記憶装置、メモリ506は動的な動作要素から構成される逐次要素を認識するためのプログラムを記憶するための記憶装置、メモリ507は静的動作要素を認識するために必要なプログラムを記憶するための記憶装置、メモリ508は動的な動作要素から構成される逐次要素と静的な動作要素の認識結果を統合するためのプログラムを記憶するための記憶装置、509は静的な動作要素のみで構成される逐次要素を認識するためのプログラムを記憶するための記憶装置、メモリ510は手話形態素の動作データである手話形態素辞書を記憶するための記憶装置、メモリ511は手話形態素を認識するためのプログラムを記憶するための記憶装置である。図5のハードウェア構成では、全ての認識プログラムの実行を一つの演算装置だけで行う構成であるが、この他に、複数の演算装置を用いて認識プログラムの実行をそれぞれの演算装置に分散させる構成も可能である。
【0009】
図6は、図1の手話入力部により入力される動作データのフォーマット図である。
図6において、601は手の位置に関するデータであり、手の位置はさらにx軸のデータ602,y軸のデータ603,z軸のデータ604から構成されている。605は手の方向に関するデータであり、手の方向はさらにx軸回りの角度606,y軸回りの角度607,z軸回りの角度608から構成されている。
609は指の曲げに関するデータであり、指の曲げはさらに、親指の第2関節の曲げ角度610,親指の第3関節の曲げ角度611,人差し指の第1関節の曲げ角度612,人差し指の第2関節の曲げ角度613,中指の第1関節の曲げ角度614,中指の第2関節の曲げ角度615,薬指の第1関節の曲げ角度616,薬指の第2関節の曲げ角度617,小指の第1関節の曲げ角度618,小指の第2関節の曲げ角度619から構成されている。また、620,621,622は、それぞれ時刻t1,t2,tnにおける手の位置,方向,指の曲げのデータを表す。このように、手話における動作は、手の位置601,手の方向605,指の曲げ609からなる時系列データとして表される。
図7は、図5の動的動作要素認識用パラメータを格納するメモリ(505)に格納されるパラメータのフォーマット図である。
図7において、動作要素名701はそのパラメータを認識処理に使用する動作要素の名称,パラメータ数702はその動作要素の認識に使用するパラメータの数,703,704は各パラメータを表す。また、パラメータ種類705,707はそのパラメータの意味を表す名称,パラメータ706,708は実際に認識処理に利用されるパラメータの値を表す。
【0010】
図8は、図5の手話形態素辞書メモリに格納されるフォーマット図である。
図8において、手話形態素名801は、それ以下に記述される動作要素の組み合わせが表す手話形態素の名称を表す。繰り返し回数802は、それ以下に記述される動作が繰り返される回数を表す。逐次要素数803は、手話動作を構成する逐次要素の数を表す。逐次要素間重なり度804は、それぞれの逐次要素が実際の手話動作中に表現された場合に生じる重なり、あるいはギャップに対する許容範囲を表す。すなわち、実際に認識される場合には、要素相互が重なってしまったり、あるいは要素と要素の間が空いてしまう場合があるので、その度合を登録しておく。この場合には、離れていたとき+、重なっていたとき−となる。逐次要素間重なり度は、逐次要素数が2以上の場合に有効である。逐次要素805,806,807は、それぞれの逐次要素の記述を表す。同時要素数808は、逐次要素を構成する同時要素の数を表す。同時要素間重なり度809は、逐次要素を構成するそれぞれの同時要素が実際の手話動作中で表現された場合に生じる重なりに対する許容範囲を表す。同時要素間重なり度は、同時要素数が2以上の場合に有効である。繰り返し回数810,815は、それ以下に記述される動作要素の列が繰り返される回数を表す。動作要素状態数811,816は、それぞれの同時要素を構成する動作要素の数を表す。動作要素間重なり度812,817は、逐次的に表現される動作要素が実際の手話動作中で表現された場合に生じる重なりあるいはギャップに対する許容値を表す。動作要素間重なり度は、動作要素状態数が2以上の時に有効である。動作要素813,814,818,819は、それぞれの同時要素を構成する動作要素を表す。
【0011】
図9は、動作要素の記述フォーマット図であり、図10は、動作要素の種類およびそれぞれの属性値の種類を示す図であり、図11は、動作要素の属性値のフォーマット図である。
図9において、901は動作要素の種類を、902はその動作要素を表現するために使用される手の部位を、903,904,905はその動作要素を表すために必要な属性値を表す。動作要素の種類は、図10に示すように、14種類の動作要素から選択する。また、図10に示すように、動作要素の種類に応じて属性値の種類もあらかじめ決定されている。
図11の属性値フォーマットにおいて、1101,1102,1103は複数の動作データから学習した属性値の平均値,1104,1105,1106は複数の動作データから学習した属性値の分散である。ここで属性値の平均値とは、サンプルをとって、それらの平均値p1〜pnをとったものであり、また属性値の分散とは、平均値に対するばらつきであって、何回かとったパラメータがどのくらいばらついているかを同じデータから計算して、s1〜snとして表わしたものである。なお属性値の次元は、図10に示した属性値の種類に応じてあらかじめ決定されている。
【0012】
次に、本発明における認識処理について説明する。
図12は、動作要素状態数が2以上の同時要素に含まれる静的動作要素の認識処理を示すフローチャートである。
図1における動的動作要素認識部102では、振動や直線等の動的な動作要素および手話形態素辞書において、動作要素状態数が2以上の同時要素に含まれる形状や方法などの静的な動作要素の二種類の認識(動的動作要素および静的動作要素の認識)を行う。動的な動作要素認識の技術としては、既にある技術(例えば、特願平6―253457号明細書および図面『手話認識装置』参照)を使用することができる。動作要素状態数が2以上の同時要素に含まれる静的な動作要素の認識は、図12に示すフローチャートに従って行うことができる。
図12において、ステップ1201では、まず手話形態素辞書から動作要素状態数が2以上の同時要素に含まれる静的動作要素を抽出し、そのリストを作成する。リスト中の動作要素のフォーマットは、図9に示す動作要素のフォーマットと同じで良い。次に、ステップ1202において、手話入力部から1時刻分のデータを読み込む。ステップ1203において、動作データが最後であれば処理を終了する。最後でなければ、ステップ1204に移る。ステップ1204において、静的動作要素リストの全ての動作要素について、動作要素の属性値と読み込んだデータとからその時刻における評価値を求める。
【0013】
評価値は、静的動作要素の属性値の種類をn,i番目の属性値の次元数をm(i),静的動作要素の手話形態素辞書に記述されているi番目の属性値の平均を(P(i,1),P(i,2),・・・,P(i,m(i))),分散を(S(i,1),S(i,2),・・・,S(i,m(i)),入力された時刻をt、入力されたデータのi番目の属性値を(X(t,i,1),X(t,i,2),・・・X(t,i,m(i))として、各時刻の評価値E1(t)は下記(数1)の式によって求められる。
【数1】

Figure 0003615008
次に、ステップ1205において、各動作要素毎にそれまでに求めた評価値と新しく求めた評価値からなる評価値の時系列が極大になる時間範囲を求める。評価値の時系列が、例えば図13に示す曲線1301のように求められた場合には、極大となる時刻1302から時刻1303の範囲が動作要素として検出される。
ステップ1206において、求めた時間範囲とそれに対応する動作要素,評価値を認識結果として出力する。ステップ1207において、求めた各動作要素毎の評価値を次の時刻での認識に使用するためにバッファに格納し、ステップ1202に戻る。
図14は、動的動作要素および図12のフローで検出された静的動作要素のフォーマット図である。
1401は動作要素の検出された時間範囲の開始時刻,1402は動作要素の検出された時間範囲の終了時刻,1403は検出された動作要素に対する評価値,1404は検出された動作要素の種類,1405はその動作要素を表現するために使用される手の部位,1406,1407は各動作要素に付属する属性値である。属性値は、動作要素が検出された範囲における動作データから求めた値である。
【0014】
次に、図1に示す動的逐次要素認識部104において、動的な動作要素を含む逐次要素を認識する方法について説明する。
図15は、動的逐次要素の認識処理のフローチャートである。
この処理では、大きく分けて同時要素の認識と逐次要素の認識の二段階の処理が行われる。ステップ1501では、手話形態素辞書から動的な動作要素によって構成される同時要素と、動作要素状態が2以上の静的な動作要素によって構成される同時要素を抽出し、同時要素リストを作成する。この場合の同時要素のフォーマットを図16に示す。図16において、1601は手話形態素辞書中の同時要素の通し番号,1602は動作要素間の重なり度,1603は動作要素状態数,1604,1605は同時要素に含まれる各動作要素である。動作要素のフォーマットは図9に示すフォーマットと同じであり、また動作要素のフォーマット中の属性値は図11のフォーマットと同じである。
ステップ1502では、手話形態素辞書から動的な動作要素によって構成される同時要素と、動作要素状態数が2以上の静的動作要素を含む同時要素を含む逐次要素を抽出し、動的な動作要素を含む同時要素および動作要素状態数が2以上の静的な動作要素を含む同時要素と逐次要素の対応リストを作成する。この同時要素と逐次要素の対応リスト中の逐次要素のフォーマットを図17に示す。
図17において、1701は手話形態素辞書中における逐次要素の通し番号,1702は同時要素間の重なり度,1703はその逐次要素に含まれる動的な動作要素含む同時要素および動作要素状態数が2以上の同時要素の数,1704,1705は動的な動作要素を含む同時要素および動作要素状態数が2以上の静的な動作要素を含む同時要素の手話形態素辞書中における通し番号である。
【0015】
ステップ1503では、動的動作要素認識部102からの認識結果を一つ読み込む。次にステップ1504において、認識結果が最後であれば処理を終了する。そうでなければ、ステップ1505に進む。ステップ1505では、読み込んだ動作要素によって構成される同時要素の認識を行う。
この処理は、図18に示すフローチャートに従って行われる。図18において、ステップ1801では、ステップ1503で読み込んだ動作要素を含む同時要素を同時要素リストから検索する。ステップ1802において、検索された同時要素の数をカウンタiに代入する。ステップ1803において、検索された同時要素のうちi番目の同時要素の動作要素状態数が1であればステップ1804に、そうでなければステップ1805に進む。ステップ1804では、i番目の同時要素中の動作要素の属性値と読み込んだ動作要素の属性値とから評価値を求める。
この場合の評価値E2は、i番目の同時要素の属性値の種類をn,i番目の同時要素のj番目の属性値の次元数をm(j),i番目の同時要素のj番目の属性値を(P(j,1),P(j,2),…,P(j,m(j))),分散を(S(j,1),S(j,2),…,S(j,m(j))),読み込んだ動作要素のj番目の属性値を(X(j,1),X(j,2),…,X(j,m(j)))として、下記(数2)の式によって求めることができる。
【数2】
Figure 0003615008
【0016】
次にステップ1805では、読み込んだ動作要素とバッファ中の動作要素からi番目の同時要素を構成する動作要素列と同じ動作要素列を検索する。ステップ1806では、検索した動作要素列中の動作要素の属性値とi番目の同時要素中の動作要素の属性値から同時要素の評価値を求める。この場合の評価値E3は、i番目の同時要素の動作要素の数をn,i番目の同時要素のj番目の動作要素の属性値の種類をm(j), i番目の同時要素のj番目の動作要素のk番目の属性値の次元数をq(j,k),i番目の同時要素のj番目の動作要素のk番目の属性値を(P(j,k,1),P(j,k,2),…,P(j,k,q(j,k))),分散を(S(j,k,1),S(j,k,2),…,S(j,k,q(j,k))), i番目の同時要素のj番目の動作要素に対応する読み込んだ動作要素あるいはバッファ中の動作要素のk番目の属性値を(X(j,k,1),X(j,k,2),…,X(j,k,q(j,k))),j番目とj+1番目の動作要素間の重なりあるいはギャップをG(j)(重なりの場合正,ギャップの場合負),動作要素間の重なりあるいはギャップの平均値をA,分散をσとして,下記(数3)の式によって求めることができる。
【数3】
Figure 0003615008
【0017】
ステップ1807では、求めた評価値とi番目の同時要素を同時要素の認識結果として、認識された同時要素のバッファに格納する。バッファに格納される同時要素のフォーマットを図19に示す。図19において、1901は認識された同時要素の時間範囲の開始時刻,1902は認識された同時要素の時間範囲の終了時刻,1903は手話形態素辞書中における同時要素の通し番号,1904は同時要素に対する評価値である。開始時刻1901および終了時刻1902は、その同時要素が認識されたと判定されるもととなった動作要素の時間範囲に基づいて計算される。
元に戻って、図15のステップ1506では、ステップ1505で認識された同時要素によって構成される逐次要素を認識する。
図20は、図15に示す逐次要素の認識処理のフローチャートである。
図20では、まずステップ2001において、認識された同時要素のバッファ中で新しく認識された同時要素を含む逐次要素を同時要素と逐次要素の対応リストから検索する。ステップ2002において、検索された逐次要素の数をカウンタiに代入する。ステップ2003において、検索された逐次要素のi番目の逐次要素を構成する同時要素を、同時要素のバッファから検索する。ステップ2004において、i番目の逐次要素を構成する同時要素が全て検索された場合には、ステップ2005に移る。必要な同時要素が全て見つからなかった場合には、ステップ2007に移る。
【0018】
ステップ2005では、検索された同時要素の評価値に基づき、i番目の逐次要素の評価値を求める。評価値は、i番目の逐次要素を構成する同時要素の数をn,j番目の同時要素の評価値をE4(j),同時要素間の重なり度をO,同時要素間の重なり度の平均をA,分散をσとして下記(数4)の式によって求めることができる。なお、式中のE4は、上記(数1)の式から容易に求められる。
【数4】
Figure 0003615008
また、式中の同時要素間の重なり度Oは、j番目の同時要素の開始時刻をs(j),終了時刻をe(j)として下記(数5)の式によって求めることができる。
【数5】
Figure 0003615008
ステップ2006において、求めた評価値とその逐次要素を認識結果として出力する。出力される逐次要素のフォーマットを、図21に示す。図21において、2101は逐次要素の時間範囲の開始時刻,2102は逐次要素の時間範囲の終了時刻,2103は手話形態素辞書中における逐次要素の通し番号,2104はその逐次要素の評価値である。逐次要素の時間範囲は、その逐次要素の認識に用いられた同時要素の時間範囲に基づいて求める。例えば、全ての同時要素の重なり部分の時間範囲を用いることができる。あるいは、同時要素の時間範囲の開始時刻,終了時刻それぞれの平均を用いても良い。
【0019】
図22は、図1に示す静的動作要素認識部の処理を表すフローチャートである。
図1における静的動作要素認識部103の認識処理では、静的な動作要素の評価値を各時刻毎に求める。図22のステップ2201において、手話形態素辞書から静的な動作要素を抽出し、静的動作要素のリストを作成する。この場合、動作要素状態が2以上の同時要素を構成する静的な動作要素は削除する。これは、前述の処理で終了しているためである。
動作要素リスト中の動作要素のフォーマットを図23に示す。
図23において、2301は、手話形態素辞書中における動作要素の通し番号、2302は動作要素の種類,2303はその動作要素を表現するために使用される手の部位,2304,2305はその動作要素に付属する属性値である。
図22のステップ2202において、手話入力部から1時刻分のデータを読み込む。次に、ステップ2203において、データが最後であれば、処理を終了する。そうでなければ、ステップ2204に移る。ステップ2204では、静的動作要素リスト中の全ての動作要素について、動作要素の属性値と読み込んだデータからその時刻における評価値を求める。評価値は、前記(数1)の式によって求めることができる。ステップ2205では、求めた評価値と動作要素を認識結果として出力する。また、静的動作要素統合部106で過去の静的動作要素の認識結果を使用するため、静的動作要素のバッファを設けて、そこに認識結果を格納する。
出力される動作要素のフォーマットを図24に示す。
図24において、2401は時刻,2402は手話形態素辞書中における動作要素の通し番号,2403は動作要素の評価値である。
【0020】
図25は、図1に示す静的逐次要素認識部における認識処理のフローチャートである。
図1の静的逐次要素認識部105の認識処理では、静的動作要素認識部103で認識された静的動作要素の評価値から、静的動作要素のみによって構成される逐次要素の認識を行う。図25のステップ2501において、手話形態素辞書から静的な動作要素のみによって構成される逐次要素を抽出し、逐次要素と静的動作要素の対応リストを作成する。
対応リスト中の逐次要素のフォーマットを、図26に示す。
図26において、2601は手話形態素辞書中における逐次要素の通し番号,2602は逐次要素を構成する静的動作要素の数,2603,2604は逐次要素を構成する静的動作要素の手話形態素辞書中における通し番号である。
図25のステップ2502では、静的動作要素認識部103から静的動作要素の認識結果を1時刻分読み込む。次にステップ2503では、認識結果が最後であれば処理を終了する。そうでなければ、ステップ2504に移る。ステップ2504では、各逐次要素について、必要な動作要素を読み込んだ静的動作要素の認識結果から選択し、その時刻における逐次要素の評価値を求める。時刻tにおける評価値E7(t)は、逐次要素を構成する静的動作要素の数をn,i番目の静的動作要素の時刻tにおける評価値をE6(t,i)として、下記(数6)の式によって求めることができる。なお、E6(t,i)は、前記(数1)の式により容易に求めることができる。
【数6】
Figure 0003615008
ステップ2505では、各逐次要素について、求めた逐次要素の評価値と過去の逐次要素の評価値の履歴を記憶してあるバッファの内容から、評価値が極大になる時間範囲を検索し、その時間範囲と評価値を逐次要素の認識結果として出力する。なお、逐次要素の認識結果のフォーマットは、図21に示すフォーマットと同じである。
ステップ2506では、次の時刻での処理で使用するために、求めた逐次要素の評価値をバッファに格納する。
【0021】
図27は、図1に示す静的動作要素統合部における統合処理のフローチャートである。
静的動作要素統合部106では、動的な動作要素のみによって構成された逐次要素の評価結果に静的な動作要素の評価値を統合して、逐次要素全体の評価値を求める。図27では、まずステップ2701において、手話形態素辞書中から動的な動作要素を含む逐次要素および動作要素状態数が2以上の静的動作要素から構成される同時要素を含む逐次要素を抽出し、逐次要素と静的な動作要素の対応リストを作成する。対応リスト中の各逐次要素のフォーマットは、図26に示すフォーマットと同じである。
ステップ2702では、動的逐次要素認識部104から動的逐次要素の認識結果を一つ読み込む。ステップ2703において、動的逐次要素の認識結果が最後であれば処理を終了する。そうでなければ、ステップ2704に移る。ステップ2704では、読み込んだ動的逐次要素の時間範囲において、動的逐次要素に対応する静的動作要素の認識結果(評価値)を静的動作要素認識部103から読み込む。ステップ2705では、読み込んだ静的動作要素の評価値の平均を動的逐次要素に対応する静的動作要素の評価値として求める。ステップ2706では、動的逐次要素の評価値と静的動作要素の評価値とから、逐次要素全体の評価値を求める。この評価値の計算は、二種類の評価値の平均や相乗平均等を計算することにより求めることができる。また逐次要素を構成する動作要素の種類毎に評価値を保存しておき、それらの平均や相乗平均等を計算することにより求めることもできる。ステップ2707では、動的逐次要素の時間範囲と求めた評価値を統合結果として出力する。統合結果のフォーマットは、図21に示すフォーマットと同じである。
図27に示すフローチャートでは、静的動作要素の評価値は全ての時刻について求め、その中から必要な時間範囲の評価値のみを受け取ることになるが、動的な逐次要素認識部の認識結果から得られる時間範囲についてのみ、必要な静的動作要素の評価値を求めるように静的動作要素認識部103に指示を送り、その評価結果を受け取って静的動作要素の統合処理を行うようにすることもできる。
【0022】
図28は、図1に示す手話形態素認識部における認識処理のフローチャートである。
手話形態素認識部107は、逐次要素の認識結果から手話形態素を認識する。図28では、まずステップ2801において、手話形態素辞書から手話形態素とそれを構成する逐次要素の対応リストを作成する。対応リスト中の各手話形態素のフォーマットを図29に示す。図29において、2901は手話形態素名,2902は手話形態素を構成する逐次要素間の重なり度,2903は手話形態素を構成する逐次要素の数,2904,2905は手話形態素を構成する逐次要素の手話形態素辞書中における通し番号である。
ステップ2802において、逐次要素の認識結果を一つ読み込む。ステップ2803において、逐次要素の認識結果が最後であれば処理を終了する。そうでなければ、ステップ2804に移る。ステップ2804では、読み込んだ逐次要素と過去の逐次要素の履歴を格納してあるバッファ中の逐次要素から、構成される逐次要素列に対応する手話形態素を対応リストから検索する。ステップ2805では、検索された手話形態素について、逐次要素の評価値および逐次要素間の重なりあるいはギャップに基づいて評価値を求める。評価値E9は、手話形態素を構成する逐次要素の数をn,i番目の逐次要素の評価値をE8(i),i番目とi+1番目の逐次要素間の重なりあるいはギャップをG(i)(重なりの場合正,ギャップの場合負),逐次要素間の重なりあるいはギャップの平均をA,分散をσとして、下記(数7)の式によって求めることができる。なお、E8(i)は、前式(数1)により容易に求められる。
【数7】
Figure 0003615008
【0023】
ステップ2806において、求めた評価値,手話形態素名および時間範囲を認識結果として出力する。手話形態素の時間範囲は、認識に使用された逐次要素の時間範囲に基づいて求める。例えば、最初の逐次要素の開始時刻から最後の逐次要素の終了時刻を、手話形態素の時間範囲とすることができる。
図30に、手話形態素の認識結果のフォーマットを示す。図30において、3001は手話形態素の時間範囲の開始時刻,3002は手話形態素の時間範囲の終了時刻,3003は手話形態素名,3004は手話形態素の評価値である。
なお、前式(数1),(数2),(数3),(数4),(数6),(数7)では、評価値の計算はそれぞれを構成要素の評価値の相乗平均を用いているが、単純な平均(構成要素の評価値を全て加算し、その数で割算する)を用いても良い。また、構成要素の評価値とギャップや重なりに対する評価値に対して重み付けをしても良い。
【0024】
【発明の効果】
以上説明したように、本発明によれば、動的な動作要素の認識結果から決定される時間範囲に基づいて静的な動作要素を評価するため、静的な動作要素の認識範囲による認識精度の低下がなくなる。また静的な動作要素のみによって構成される逐次要素についても、各時刻毎に逐次要素全体の評価値を求め、評価値の極大値となる時刻を検出することにより認識を行うため、それぞれの動作要素の検出時間のずれによる認識低下がなくなる。さらに動作要素の特徴を表す属性値を、実際の動作データから求めた連続量によって表現し、それに基づいて認識された動作要素を評価するため、動作要素の適切な評価値を求めることが可能となり、手話の認識精度を向上することができる。
【図面の簡単な説明】
【図1】本発明の一実施例を示す手話認識装置の概念ブロック図である。
【図2】本発明において、動作要素に基づく手話動作モデルを示す図である。
【図3】図1に示す動的動作要素認識部の構造を示すブロック図である。
【図4】図1に示す静的動作要素認識部の構造を示すブロック図である。
【図5】本発明の一実施例を実現するための手話認識装置のハードウェア構成図である。
【図6】図1の手話入力装置から入力されるデータのフォーマット図である。
【図7】動的動作要素認識のためのパラメータのフォーマット図である。
【図8】手話形態素辞書の記述フォーマットである。
【図9】動作要素の記述フォーマットである。
【図10】動作要素の種類およびそれぞれの属性値の種類を示す図である。
【図11】動作要素の属性値のフォーマットである。
【図12】動作要素状態数が2以上の同時要素に含まれる静的動作要素の認識処理を説明するためのフローチャートである。
【図13】静的動作要素の検出処理を説明するための図である。
【図14】図13において認識された動的動作要素のフォーマット図である。
【図15】図1に示す動的逐次要素認識部の認識処理を説明するためのフローチャートである。
【図16】同時要素と動作要素の対応リストにおける同時要素のフォーマット図である。
【図17】逐次要素と同時要素の対応リストにおける逐次要素のフォーマット図である。
【図18】図1に示す動的逐次要素認識部における同時要素の認識処理を説明するためのフローチャートである。
【図19】認識された同時要素のフォーマット図である。
【図20】図1に示す動的逐次要素認識部における逐次要素の認識処理を説明するためのフローチャートである。
【図21】図20で認識された逐次要素のフォーマット図である。
【図22】図1に示す静的動作要素認識部の認識処理を説明するためのフローチャートである。
【図23】静的動作要素リスト中の動作要素のフォーマット図である。
【図24】図22で認識された静的動作要素のフォーマット図である。
【図25】図1に示す静的逐次要素認識部の認識処理を説明するためのフローチャートである。
【図26】静的逐次要素リスト中の逐次要素のフォーマット図である。
【図27】図1に示す静的動作要素統合部の統合処理を説明するためのフローチャートである。
【図28】図1に示す手話形態素認識部の認識処理を説明するためのフローチャートである。
【図29】手話形態素と逐次要素の対応リスト中の手話形態素のフォーマット図である。
【図30】図28で認識された手話形態素のフォーマット図である。
【符号の説明】
101…手話入力部、102…動的動作要素認識部、108…出力部、
103…静的動作要素認識部、104…動的逐次要素認識部、
105…静的逐次要素認識部、106…動的動作要素統合部、
107…手話形態素認識部、109…モニタ、110…スピーカ、
111…手話形態素辞書、201…手話形態素、208,209…動作要素、
202,203,204…逐次要素、205,206,207…同時要素、
301,302,303…動的動作要素認識部、304〜306…パラメータ、
401,402,403…静的動作要素認識部、504〜511…メモリ、
601…手の位置、605…手の方向、609…指の曲げ、
701…動作要素名、705,707…パラメータ種類、
706,708…パラメータ、901…動作要素の種類、902…手の部位、
903〜905…属性値、1101〜1103…属性値の平均値、
1104〜1106…属性値の分散、1301…評価値の時系列、
1302…時間範囲の開始時刻、1303…時間範囲の終了時刻。[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a sign language recognition device that supports communication between a hearing impaired person and a normal hearing person by inputting sign language and outputting the result accurately in the form of speech or characters.
[0002]
[Prior art]
Conventionally, various apparatuses for inputting sign language, analyzing the input result, and recognizing the sign language have been proposed. As these conventional recognition methods, sign language motion data is recognized by using a pattern matching technology (see, for example, the specification of Japanese Patent Application No. 5-125698 and the drawings), a neural network technology, and a sign language motion. There is a technique for recognizing sign language based on the basic unit of the operation that constitutes (see, for example, Japanese Patent Application No. 6-253457 and drawings).
The former method (Japanese Patent Application No. 5-125698) is a method in which the entire hand movement pattern is compared with the standard hand movement pattern stored in the word dictionary and is recognized based on whether or not they match, and the latter ( In the method of Japanese Patent Application No. 6-253457), instead of comparing the hand movement patterns themselves, the hand movement patterns are first recognized for each basic unit (partial pattern) of the movement, and then the result of the basic unit of the movement is obtained. Is used to recognize words. As described above, in the latter technique, first, all the basic units of operations constituting the sign language for recognition are recognized. The recognition is performed by comparing the result with the temporal relationship of the basic unit of motion in the sign language template stored in advance as a combination of the basic unit of motion. In this case, the types and attributes of the basic units of actions in the sign language template are all described by symbols.
[0003]
[Problems to be solved by the invention]
Conventional sign language recognition technology based on the basic unit of motion (the latter technology described above) recognizes both the basic unit of static motion and the basic unit of dynamic motion simultaneously, and integrates the basic unit of recognized motion By recognizing sign language. Among these, the basic unit of the static motion is a feature of the motion in which the parameters are stable in a certain time range such as the shape (hand shape, etc.) and the direction (finger direction, etc.). On the other hand, the basic unit of dynamic motion is a feature of motion representing parameter change (movement, etc.) in a certain time range such as linear motion or circular motion.
In order to detect the basic unit of static operation, a threshold is set for the difference between the reference parameter (sampled and extracted from the parameter) and the input parameter, and the interval within that threshold May be performed by detecting.
However, since the basic unit parameter of static operation is easy to change, it is often recognized in a range larger than the time range to be recognized or detected in a smaller range. For example, if the input parameter fluctuates in the same form each time and changes at the threshold boundary, the threshold value may be reciprocated, resulting in detection as a short-cut section. On the other hand, there may be a case where a large section is detected. In addition, depending on the state of parameter fluctuation, one motion section may be divided into two or more and recognized.
For this reason, the conventional technique that treats the basic unit of static motion and the dynamic basic unit on an equal basis has a problem that the basic unit of static motion cannot be correctly evaluated.
In the conventional technology, all sign language templates are described with symbols representing the basic unit of motion. Therefore, the basic unit of motion is recognized based on a preset reference value, and the evaluation value is also used as a reference. Based on the calculation.
Furthermore, the recognition result of the sign language is also calculated based on the evaluation value of the recognized basic unit of the motion (a value representing how close to the reference value, the higher the closer the value is). For this reason, there is a problem that a correct evaluation value cannot often be obtained due to a difference between a parameter range in actual operation and a parameter range given by a predetermined reference value, and recognition accuracy is low. That is, the location where the parameters are concentrated is not necessarily close to the reference value, and may be concentrated at an intermediate position of the reference value. In such a case, the difference between the input parameter and the reference value becomes large and the evaluation value becomes small.
Therefore, an object of the present invention is to provide a sign language recognition device that solves such conventional problems, correctly evaluates basic units of all operations, and recognizes sign language with high accuracy.
[0004]
[Means for Solving the Problems]
In order to achieve the above object, in the sign language recognition apparatus of the present invention, a basic unit of dynamic motion is detected, a sequential motion unit constituted by them is recognized, and then a recognized sequential motion unit is recognized. Integrate the evaluation results of the basic unit of static motion within the time range of. A sequential motion unit constituted only by a basic unit of static motion is recognized by obtaining an evaluation value of the entire motion at each time and obtaining a time at which the evaluation value becomes maximum. Further, in order to correctly evaluate the basic unit of motion, the basic unit of motion described in the sign language template describes the attribute value determined using actual sign language data using a continuous amount. The evaluation value of the basic unit of the recognized motion is obtained using the continuous amount.
As described above, since the basic unit of the static motion is evaluated based on the time range determined from the recognition result of the basic unit of the dynamic motion, there is no problem regarding the recognition range of the basic unit of the static motion.
In addition, for sequential motion units consisting of only static motion basic units, the evaluation value for the entire sequential motion unit is obtained at each time, and the time at which the evaluation value becomes the maximum value is detected. Since the recognition is performed by this, the detection time of the basic unit of each operation is not affected.
Furthermore, since the attribute value representing the characteristics of the basic unit of motion is expressed by the continuous amount obtained from the actual motion data, and the basic unit of the recognized motion is evaluated based on it, an appropriate evaluation value of the basic unit of motion And the sign language recognition accuracy can be improved.
[0005]
DETAILED DESCRIPTION OF THE INVENTION
Embodiments of the present invention will be described below in detail with reference to the drawings.
FIG. 2 is a diagram showing a sign language motion model based on motion elements in the present invention.
In order to explain the present invention, first, a model of a sign language action will be described. A sign language action is composed of a combination of basic units of action. The basic unit of motion in sign language will be referred to as motion element hereinafter. Since there is temporal sequentiality and simultaneity between the motion elements that constitute the sign language motion, it is necessary to describe the temporal relationship between the motion elements in order to recognize the sign language. For this purpose, the model shown in FIG. 2 is used. In FIG. 2, 201 represents the overall operation of the sign language morpheme. A sign language morpheme is a unit of meaning in sign language. Sign language morphemes are first sequential Operation unit Are decomposed into sequential elements 202, 203, and 204. Since the horizontal axis represents the passage of time with the left end as a reference, the operations occur in the order of the sequential elements 202, 203, and 204. A sequential element is a unit of motion that is always expressed continuously and is not expressed simultaneously. The sequential elements are further decomposed into simultaneous elements 205, 206, and 207 which are units expressed in a plurality of the same time ranges. Simultaneous elements include operating elements 208 and 209. There are two types of simultaneous elements. There are simultaneous elements composed of only one operation element and simultaneous elements composed of only two or more operation elements.
A simultaneous element composed of two or more operation elements is considered to exist when the operation elements included therein are sequentially expressed. However, it is assumed that the operation elements included in one simultaneous element are always the same type of operation element. The movement elements are movement elements such as the same direction but different hand forms.
The sign language motion is thus constituted by a combination of a sequential structure and a simultaneous structure of motion elements.
[0006]
FIG. 1 is a conceptual block diagram of a sign language recognition apparatus showing an embodiment of the present invention.
In FIG. 1, a sign language input unit 101 (data glove) converts an action in sign language into an electric signal, and inputs it into a dynamic motion element recognition unit 102 and a static motion element recognition unit 103 as time series data. The dynamic motion element recognition unit 102 recognizes a dynamic motion element from the motion data. The static motion element recognition unit 103 obtains a static motion element evaluation value for each time of motion data. The dynamic sequential element recognition unit 104 recognizes sequential elements composed of recognized dynamic motion elements. The static sequential element recognition unit 105 recognizes sequential elements composed only of static motion elements. The static motion element integration unit 106 recognizes sign language morphemes by integrating the recognition results of static motion elements into sequential elements composed of dynamic motion elements. The present invention is characterized in that the static operation element integration unit 106 is provided. As described above in the description of the model, since the basic unit parameters are easily changed in the recognition range of the static motion element, it is detected in a range smaller than the time range to be recognized or recognized in a large range, Usually, since the static motion element appears together with the dynamic motion element, the recognition result of the sequential element of the dynamic motion element and the static motion element is integrated and evaluated. In other words, since the dynamic motion element is clearly determined by linear motion or circular motion, the static motion element may be evaluated within the recognized time range. In the relationship between the model in FIG. 2 and FIG. 1, it can be considered that the motion elements 208 and 209 in FIG. 2 include a dynamic motion element and a static motion element.
The recognition result of the sign language morpheme is output to the monitor 109 and the speaker 110 by the output unit 108. The sign language morpheme dictionary 111 stores a sign language template described by a combination of motion elements for each sign language morpheme which is a unit of meaning in sign language.
[0007]
FIG. 3 is a block diagram showing the structure of the dynamic motion element recognition unit, and FIG. 4 is a block diagram showing the structure of the static motion element recognition unit.
As shown in FIG. 3, the dynamic motion element recognition unit 102 includes recognition units 301, 302, and 303 for each independent motion element. Each motion element recognition unit is provided with recognition parameters 304, 305, and 306 necessary for each recognition process. The dynamic motion element recognition unit shown in FIG. 3 recognizes all possible motion elements, but may recognize only the dynamic motion elements in the sign language morpheme dictionary.
As shown in FIG. 4, the static motion element recognition unit 103 also includes recognition units 401, 402, and 403 for each motion element. The static motion element recognition unit 103 uses data stored in the sign language morpheme dictionary for all parameters necessary for recognition.
[0008]
FIG. 5 is a diagram illustrating a configuration example of hardware for realizing the sign language recognition apparatus in FIG. 1.
In FIG. 5, a sign language input device 501 is a device that converts a hand motion in sign language into an electrical signal, and is well known as a device that installs a sensor on a glove and converts the shape and movement of a hand into an electrical signal ( Data glove) can be used. The sign language input device 501 converts the hand movement of the sign language into multidimensional time series data including a finger bending angle and a hand position. The computing device 502 is a device that recognizes motion elements and sign language morphemes, reads programs from the memories 504, 506, 507, 508, 509, and 511, and performs recognition processing according to those programs. The output device 503 is a device that outputs a result of recognition of sign language morphemes, and an output device that uses speech or speech that uses speech synthesis can be used. The memory 504 is a storage device for storing a program for recognizing a dynamic operation element, the memory 505 is a storage device for storing a parameter necessary for recognizing the dynamic operation element, and the memory 506 is a dynamic A storage device for storing a program for recognizing sequential elements composed of various operation elements, a memory 507 is a storage device for storing a program necessary for recognizing a static operation element, and a memory 508 is an operation Storage device 509 for storing a program for integrating recognition results of sequential elements composed of static motion elements and static motion elements, 509 recognizes sequential elements composed only of static motion elements A memory device for storing a program for storing a sign language morpheme, a memory 510 for storing a sign language morpheme dictionary which is operation data of a sign language morpheme 1 is a storage device for storing a program for recognizing sign language morphemes. In the hardware configuration of FIG. 5, the execution of all recognition programs is performed by only one arithmetic device, but in addition to this, the execution of the recognition program is distributed to each arithmetic device using a plurality of arithmetic devices. Configuration is also possible.
[0009]
FIG. 6 is a format diagram of operation data input by the sign language input unit of FIG.
In FIG. 6, reference numeral 601 denotes data relating to the position of the hand, and the hand position further includes x-axis data 602, y-axis data 603, and z-axis data 604. Reference numeral 605 denotes data relating to the direction of the hand. The hand direction further includes an angle 606 around the x axis, an angle 607 around the y axis, and an angle 608 around the z axis.
Reference numeral 609 denotes data related to the bending of the finger. The bending of the finger is further performed by bending the second joint 610 of the thumb, the bending angle 611 of the third joint of the thumb, the bending angle 612 of the first joint of the index finger, and the second bending of the index finger. Bending angle 613 of the middle finger, bending angle 614 of the first joint of the middle finger, bending angle 615 of the second joint of the middle finger, bending angle 616 of the first joint of the ring finger, bending angle 617 of the second joint of the ring finger, first of the little finger It consists of a bending angle 618 of the joint and a bending angle 619 of the second joint of the little finger. Reference numerals 620, 621, and 622 denote data of hand position, direction, and finger bending at times t1, t2, and tn, respectively. As described above, the motion in the sign language is expressed as time series data including the hand position 601, the hand direction 605, and the finger bending 609.
FIG. 7 is a format diagram of parameters stored in the memory (505) for storing the dynamic motion element recognition parameters of FIG.
In FIG. 7, an operation element name 701 indicates the name of an operation element that uses the parameter for recognition processing, a parameter number 702 indicates the number of parameters used for recognition of the operation element, and 703 and 704 indicate each parameter. Parameter types 705 and 707 represent names indicating the meaning of the parameters, and parameters 706 and 708 represent parameter values actually used for recognition processing.
[0010]
FIG. 8 is a format diagram stored in the sign language morpheme dictionary memory of FIG.
In FIG. 8, a sign language morpheme name 801 represents a name of a sign language morpheme represented by a combination of motion elements described below. The number of repetitions 802 represents the number of times the operations described below are repeated. The number of sequential elements 803 represents the number of sequential elements constituting the sign language action. The overlap factor 804 between successive elements represents an allowable range for an overlap or a gap that occurs when each successive element is expressed during an actual sign language operation. That is, when the elements are actually recognized, the elements may overlap each other or the elements may be vacant, and the degree is registered. In this case, it is + when separated and-when overlapped. The degree of overlap between sequential elements is effective when the number of sequential elements is 2 or more. Sequential elements 805, 806, and 807 represent descriptions of the respective sequential elements. The simultaneous element number 808 represents the number of simultaneous elements constituting the sequential element. The overlapping degree 809 between the simultaneous elements represents an allowable range for overlapping that occurs when each of the simultaneous elements constituting the sequential element is expressed in an actual sign language operation. The overlapping degree between simultaneous elements is effective when the number of simultaneous elements is 2 or more. The number of repetitions 810 and 815 represents the number of repetitions of the operation element sequence described below. The operation element state numbers 811 and 816 represent the number of operation elements constituting each simultaneous element. The overlapping degree 812 and 817 between motion elements represents an allowable value for an overlap or a gap that occurs when motion elements expressed sequentially are expressed in an actual sign language motion. The degree of overlap between motion elements is effective when the number of motion element states is 2 or more. The operation elements 813, 814, 818, and 819 represent the operation elements constituting the respective simultaneous elements.
[0011]
FIG. 9 is a description format diagram of an operation element, FIG. 10 is a diagram illustrating the types of operation elements and the types of attribute values, and FIG. 11 is a format diagram of attribute values of the operation elements.
In FIG. 9, 901 represents the type of the motion element, 902 represents the part of the hand used to represent the motion element, and 903, 904, and 905 represent attribute values required to represent the motion element. The type of operation element is selected from 14 types of operation elements as shown in FIG. Also, as shown in FIG. 10, the type of attribute value is determined in advance according to the type of operation element.
In the attribute value format of FIG. 11, 1101, 1102 and 1103 are average values of attribute values learned from a plurality of motion data, and 1104, 1105 and 1106 are distributions of attribute values learned from a plurality of motion data. Here, the average value of attribute values is obtained by taking samples and taking the average values p1 to pn, and the dispersion of attribute values is a variation with respect to the average value, and has been taken several times. How much the parameter varies is calculated from the same data and expressed as s1 to sn. The dimension of the attribute value is determined in advance according to the type of attribute value shown in FIG.
[0012]
Next, the recognition process in the present invention will be described.
FIG. 12 is a flowchart showing a recognition process of a static motion element included in simultaneous elements having two or more motion element states.
In the dynamic motion element recognition unit 102 in FIG. 1, static motions such as shapes and methods included in simultaneous motion elements whose number of motion element states is two or more in the dynamic motion elements such as vibrations and straight lines and the sign language morpheme dictionary. Two types of recognition of elements (recognition of dynamic motion elements and static motion elements) are performed. As a technique for dynamic motion element recognition, an existing technique (see, for example, the specification of Japanese Patent Application No. 6-253457 and the drawing “Sign Language Recognition Device”) can be used. Recognition of static motion elements included in simultaneous elements having two or more motion element states can be performed according to the flowchart shown in FIG.
In FIG. 12, in Step 1201, first, static motion elements included in simultaneous elements having two or more motion element state numbers are extracted from the sign language morpheme dictionary, and a list thereof is created. The format of the operation element in the list may be the same as the format of the operation element shown in FIG. Next, in step 1202, data for one time is read from the sign language input unit. If the operation data is the last in step 1203, the process is terminated. If it is not the last, step 1204 is entered. In step 1204, for all the motion elements in the static motion element list, evaluation values at the time are obtained from the motion element attribute values and the read data.
[0013]
The evaluation value is the average of the i-th attribute values described in the sign language morpheme dictionary of the static action element, n is the type of attribute value of the static action element, m (i) is the number of dimensions of the i-th attribute value (P (i, 1), P (i, 2),..., P (i, m (i))) and variance (S (i, 1), S (i, 2),... , S (i, m (i)), input time t, input data i-th attribute value (X (t, i, 1), X (t, i, 2), ... As X (t, i, m (i)), the evaluation value E1 (t) at each time is obtained by the following equation (Equation 1).
[Expression 1]
Figure 0003615008
Next, in step 1205, a time range in which the time series of the evaluation values including the evaluation values obtained so far and the newly obtained evaluation values is maximized is obtained for each operation element. When the time series of evaluation values is obtained, for example, as shown by a curve 1301 shown in FIG. 13, a range from time 1302 to time 1303 where the maximum value is obtained is detected as an operating element.
In step 1206, the obtained time range, the corresponding operation element, and the evaluation value are output as a recognition result. In step 1207, the obtained evaluation value for each motion element is stored in a buffer for use in recognition at the next time, and the process returns to step 1202.
FIG. Dynamic operating elements and Detected in the flow of FIG. Of static operating elements It is a format diagram.
1401 is the start time of the time range in which the motion element is detected, 1402 is the end time of the time range in which the motion element is detected, 1403 is the evaluation value for the detected motion element, 1404 is the type of the detected motion element, and 1405 Is the part of the hand used to represent the action element, and 1406 and 1407 are attribute values attached to each action element. The attribute value is a value obtained from motion data in a range where motion elements are detected.
[0014]
Next, a method for recognizing sequential elements including dynamic motion elements in the dynamic sequential element recognition unit 104 shown in FIG. 1 will be described.
FIG. 15 is a flowchart of the dynamic sequential element recognition process.
This process is roughly divided into two stages of simultaneous element recognition and sequential element recognition. In step 1501, a simultaneous element composed of dynamic motion elements and a simultaneous element composed of static motion elements having two or more motion element states are extracted from the sign language morpheme dictionary, and a simultaneous element list is created. The format of the simultaneous element in this case is shown in FIG. In FIG. 16, 1601 is the serial number of the simultaneous elements in the sign language morpheme dictionary, 1602 is the degree of overlap between the motion elements, 1603 is the number of motion element states, and 1604 and 1605 are the motion elements included in the simultaneous elements. The format of the operation element is the same as the format shown in FIG. 9, and the attribute value in the format of the operation element is the same as the format of FIG.
In step 1502, a sequential element including a simultaneous element composed of dynamic motion elements from a sign language morpheme dictionary and a simultaneous element including a static motion element whose number of motion element states is two or more is extracted. And a correspondence list of simultaneous elements and sequential elements including static operation elements having two or more operation element state numbers. FIG. 17 shows the format of the sequential element in the correspondence list of the simultaneous element and the sequential element.
In FIG. 17, 1701 is the serial number of the sequential element in the sign language morpheme dictionary, 1702 is the degree of overlap between the simultaneous elements, 1703 is the number of simultaneous elements and dynamic element states including dynamic motion elements included in the sequential elements, and two or more. The number of simultaneous elements, 1704 and 1705, are serial numbers in the sign language morpheme dictionary of simultaneous elements including dynamic operation elements and simultaneous elements including static operation elements having two or more operation element states.
[0015]
In step 1503, one recognition result from the dynamic motion element recognition unit 102 is read. In step 1504, if the recognition result is the last, the process ends. Otherwise, go to step 1505. In step 1505, the simultaneous element constituted by the read operation element is recognized.
This process is performed according to the flowchart shown in FIG. In FIG. 18, in step 1801, a simultaneous element including the operation element read in step 1503 is searched from the simultaneous element list. In step 1802, the number of retrieved simultaneous elements is substituted into the counter i. In step 1803, if the number of motion element states of the i-th simultaneous element among the searched simultaneous elements is 1, the process proceeds to step 1804, and if not, the process proceeds to step 1805. In step 1804, an evaluation value is obtained from the attribute value of the motion element in the i-th simultaneous element and the attribute value of the read motion element.
In this case, the evaluation value E2 is such that the attribute value type of the i-th simultaneous element is n, the dimension number of the j-th attribute value of the i-th simultaneous element is m (j), and the j-th attribute value of the i-th simultaneous element is j-th. The attribute value is (P (j, 1), P (j, 2),..., P (j, m (j))), and the variance is (S (j, 1), S (j, 2),. S (j, m (j))), and the jth attribute value of the read operation element is (X (j, 1), X (j, 2),..., X (j, m (j))) The following equation (Equation 2) can be used.
[Expression 2]
Figure 0003615008
[0016]
In step 1805, the same operation element sequence as the operation element sequence constituting the i-th simultaneous element is searched from the read operation element and the operation element in the buffer. In step 1806, the evaluation value of the simultaneous element is obtained from the attribute value of the motion element in the searched motion element sequence and the attribute value of the motion element in the i-th simultaneous element. In this case, the evaluation value E3 is such that the number of operation elements of the i-th simultaneous element is n, the attribute value type of the j-th operation element of the i-th simultaneous element is m (j), and j of the i-th simultaneous element The dimension number of the kth attribute value of the ith operation element is q (j, k), the kth attribute value of the jth operation element of the ith simultaneous element is (P (j, k, 1), P (J, k, 2),..., P (j, k, q (j, k))), and variances (S (j, k, 1), S (j, k, 2),. j, k, q (j, k))), the kth attribute value of the read operation element or the operation element in the buffer corresponding to the jth operation element of the i-th simultaneous element (X (j, k , 1), X (j, k, 2),..., X (j, k, q (j, k))), the overlap or gap between the jth and j + 1th motion elements is G (j) (overlap In case of positive, If negative), the overlapping or the average value of the gap between the operating element A, as the variance sigma, can be determined by the following equation (Equation 3).
[Equation 3]
Figure 0003615008
[0017]
In step 1807, the obtained evaluation value and the i-th simultaneous element are stored in the recognized simultaneous element buffer as a simultaneous element recognition result. The format of the simultaneous element stored in the buffer is shown in FIG. In FIG. 19, 1901 is the start time of the recognized simultaneous element time range, 1902 is the end time of the recognized simultaneous element time range, 1903 is the serial number of the simultaneous element in the sign language morpheme dictionary, and 1904 is the evaluation for the simultaneous element. Value. The start time 1901 and the end time 1902 are calculated based on the time range of the motion element from which it is determined that the simultaneous element has been recognized.
Returning to FIG. 15, in step 1506 in FIG. 15, a sequential element constituted by the simultaneous elements recognized in step 1505 is recognized.
FIG. 20 is a flowchart of the sequential element recognition process shown in FIG.
In FIG. 20, first, in step 2001, a sequential element including a newly recognized simultaneous element in the buffer of the recognized simultaneous element is searched from the correspondence list of the simultaneous element and the sequential element. In step 2002, the number of retrieved sequential elements is substituted into the counter i. In step 2003, the simultaneous elements constituting the i-th sequential element of the retrieved sequential elements are searched from the buffer of the simultaneous elements. If all the simultaneous elements constituting the i-th sequential element are searched in step 2004, the process proceeds to step 2005. If all the necessary simultaneous elements are not found, the process proceeds to step 2007.
[0018]
In step 2005, the evaluation value of the i-th sequential element is obtained based on the searched evaluation value of the simultaneous element. The evaluation value is n for the number of simultaneous elements constituting the i-th sequential element, E4 (j) for the evaluation value for the j-th simultaneous element, O for the overlap between the simultaneous elements, and the average of the overlap between the simultaneous elements Is A and the variance is σ, and can be calculated by the following equation (4). In addition, E4 in a formula is easily calculated | required from the formula of said (Formula 1).
[Expression 4]
Figure 0003615008
The degree of overlap O between the simultaneous elements in the equation can be obtained by the following equation (5), where the start time of the j-th simultaneous element is s (j) and the end time is e (j).
[Equation 5]
Figure 0003615008
In step 2006, the obtained evaluation value and its sequential element are output as a recognition result. The format of the sequential element that is output is shown in FIG. In FIG. 21, 2101 is the start time of the sequential element time range, 2102 is the end time of the sequential element time range, 2103 is the serial number of the sequential element in the sign language morpheme dictionary, and 2104 is the evaluation value of the sequential element. The time range of the sequential element is obtained based on the time range of the simultaneous elements used for the recognition of the sequential element. For example, the time range of the overlapping portion of all simultaneous elements can be used. Alternatively, the average of the start time and end time of the time range of the simultaneous elements may be used.
[0019]
FIG. 22 is a flowchart showing the process of the static motion element recognition unit shown in FIG.
In the recognition process of the static motion element recognition unit 103 in FIG. 1, an evaluation value of a static motion element is obtained at each time. In step 2201 of FIG. 22, static motion elements are extracted from the sign language morpheme dictionary, and a list of static motion elements is created. In this case, static motion elements that constitute two or more simultaneous elements having motion element states are deleted. This is because the process has been completed.
The format of the operation element in the operation element list is shown in FIG.
In FIG. 23, 2301 is the serial number of the motion element in the sign language morpheme dictionary, 2302 is the type of motion element, 2303 is the part of the hand used to represent the motion element, and 2304 and 2305 are attached to the motion element. Attribute value to be
In step 2202 of FIG. 22, data for one time is read from the sign language input unit. Next, in step 2203, if the data is the last, the process ends. Otherwise, go to step 2204. In step 2204, for all motion elements in the static motion element list, evaluation values at the time are obtained from the attribute values of the motion elements and the read data. The evaluation value can be obtained by the equation (Equation 1). In step 2205, the obtained evaluation value and motion element are output as a recognition result. Further, since the static motion element integration unit 106 uses the recognition result of the past static motion element, a buffer for the static motion element is provided and the recognition result is stored therein.
The format of the output operation element is shown in FIG.
24, 2401 is the time, 2402 is the serial number of the motion element in the sign language morpheme dictionary, and 2403 is the evaluation value of the motion element.
[0020]
FIG. 25 is a flowchart of recognition processing in the static sequential element recognition unit shown in FIG.
In the recognition processing of the static sequential element recognition unit 105 in FIG. 1, sequential elements configured only by static motion elements are recognized from the evaluation values of the static motion elements recognized by the static motion element recognition unit 103. . In step 2501 of FIG. 25, sequential elements composed only of static motion elements are extracted from the sign language morpheme dictionary, and a correspondence list of sequential elements and static motion elements is created.
The format of the sequential element in the correspondence list is shown in FIG.
In FIG. 26, 2601 is the serial number of the sequential element in the sign language morpheme dictionary, 2602 is the number of static motion elements constituting the sequential element, and 2603 and 2604 are serial numbers in the sign language morpheme dictionary of the static motion element constituting the sequential element. It is.
In step 2502 of FIG. 25, the static motion element recognition result is read from the static motion element recognition unit 103 for one time. In step 2503, if the recognition result is the last, the process ends. Otherwise, go to step 2504. In step 2504, for each sequential element, a necessary motion element is selected from the recognition result of the static motion element read, and the evaluation value of the sequential element at that time is obtained. The evaluation value E7 (t) at time t is expressed as follows, where the number of static motion elements constituting the sequential element is n, and the evaluation value at time t of the i-th static motion element is E6 (t, i). 6). Note that E6 (t, i) can be easily obtained by the equation (Equation 1).
[Formula 6]
Figure 0003615008
In step 2505, for each sequential element, a time range in which the evaluation value is maximized is searched from the contents of the buffer storing the obtained sequential element evaluation value and the history of past sequential element evaluation values. The range and evaluation value are output as the recognition result of the sequential elements. Note that the format of the recognition result of the sequential elements is the same as the format shown in FIG.
In step 2506, the obtained evaluation value of the sequential element is stored in a buffer for use in processing at the next time.
[0021]
FIG. 27 is a flowchart of the integration process in the static motion element integration unit shown in FIG.
The static motion element integration unit 106 integrates the evaluation value of the static motion element into the evaluation result of the sequential element configured only by the dynamic motion element, and obtains the evaluation value of the entire sequential element. In FIG. 27, first, in step 2701, a sequential element including a dynamic element and a sequential element including a simultaneous element composed of two or more operation element states are extracted from the sign language morpheme dictionary, Create a correspondence list of sequential elements and static action elements. The format of each sequential element in the correspondence list is the same as the format shown in FIG.
In step 2702, one dynamic sequential element recognition result is read from the dynamic sequential element recognition unit 104. If the recognition result of the dynamic sequential element is the last in step 2703, the process is terminated. Otherwise, go to Step 2704. In step 2704, the recognition result (evaluation value) of the static motion element corresponding to the dynamic sequential element is read from the static motion element recognition unit 103 in the time range of the read dynamic sequential element. In step 2705, the average of the read evaluation values of the static motion elements is obtained as the evaluation value of the static motion elements corresponding to the dynamic sequential elements. In step 2706, the evaluation value of the entire sequential element is obtained from the evaluation value of the dynamic sequential element and the evaluation value of the static motion element. The calculation of the evaluation value can be obtained by calculating the average of two kinds of evaluation values, the geometric average, or the like. It is also possible to obtain an evaluation value for each type of operation element that constitutes a sequential element and calculate an average or a geometric average of them. In step 2707, the time range of the dynamic sequential element and the obtained evaluation value are output as an integration result. The format of the integration result is the same as the format shown in FIG.
In the flowchart shown in FIG. 27, the evaluation values of the static motion elements are obtained for all times, and only the evaluation values in the required time range are received from the evaluation values. From the recognition result of the dynamic sequential element recognition unit, Only in the obtained time range, an instruction is sent to the static motion element recognition unit 103 so as to obtain the evaluation value of the required static motion element, and the evaluation result is received and the static motion element is integrated. You can also.
[0022]
FIG. 28 is a flowchart of the recognition process in the sign language morpheme recognition unit shown in FIG.
The sign language morpheme recognition unit 107 recognizes a sign language morpheme from the recognition result of the sequential elements. In FIG. 28, first, in step 2801, a correspondence list of sign language morphemes and sequential elements constituting them is created from a sign language morpheme dictionary. The format of each sign language morpheme in the correspondence list is shown in FIG. In FIG. 29, 2901 is the sign language morpheme name, 2902 is the degree of overlap between the sequential elements constituting the sign language morpheme, 2903 is the number of sequential elements constituting the sign language morpheme, and 2904 and 2905 are the sign language morpheme of the sequential elements constituting the sign language morpheme. It is a serial number in the dictionary.
In Step 2802, one sequential element recognition result is read. In step 2803, if the sequential element recognition result is the last, the process ends. Otherwise, go to Step 2804. In step 2804, a sign language morpheme corresponding to the constructed sequential element string is searched from the correspondence list from the sequential elements in the buffer storing the read sequential elements and the history of past sequential elements. In step 2805, for the retrieved sign language morpheme, an evaluation value is obtained based on the evaluation value of the sequential elements and the overlap or gap between the sequential elements. The evaluation value E9 is the number of sequential elements constituting the sign language morpheme is n, the evaluation value of the i-th sequential element is E8 (i), and the overlap or gap between the i-th and i + 1-th sequential elements is G (i) ( It can be obtained by the following equation (7), where A is the average of the overlap or gap between successive elements, and σ is the variance. Note that E8 (i) can be easily obtained from the previous equation (Equation 1).
[Expression 7]
Figure 0003615008
[0023]
In step 2806, the obtained evaluation value, sign language morpheme name, and time range are output as a recognition result. The time range of the sign language morpheme is obtained based on the time range of the sequential elements used for recognition. For example, the time range of the sign language morpheme can be from the start time of the first sequential element to the end time of the last sequential element.
FIG. 30 shows the format of the sign language morpheme recognition result. In FIG. 30, 3001 is the start time of the time range of the sign language morpheme, 3002 is the end time of the time range of the sign language morpheme, 3003 is the name of the sign language morpheme, and 3004 is the evaluation value of the sign language morpheme.
In the previous formulas (Equation 1), (Equation 2), (Equation 3), (Equation 4), (Equation 6), and (Equation 7), the evaluation values are calculated by the geometric mean of the evaluation values of the constituent elements. However, a simple average (add all evaluation values of components and divide by the number) may be used. Also, the evaluation value of the component and the evaluation value for the gap or overlap may be weighted.
[0024]
【The invention's effect】
As described above, according to the present invention, since the static motion element is evaluated based on the time range determined from the recognition result of the dynamic motion element, the recognition accuracy based on the recognition range of the static motion element. The loss of In addition, for sequential elements that are composed of only static motion elements, the evaluation value of the entire sequential element is obtained at each time, and recognition is performed by detecting the time when the maximum value of the evaluation value is detected. The recognition degradation due to the shift of the element detection time is eliminated. In addition, attribute values that represent the characteristics of motion elements are expressed by continuous quantities obtained from actual motion data, and the motion elements recognized based on them are evaluated, so it is possible to determine appropriate evaluation values for motion elements. The sign language recognition accuracy can be improved.
[Brief description of the drawings]
FIG. 1 is a conceptual block diagram of a sign language recognition device according to an embodiment of the present invention.
FIG. 2 is a diagram illustrating a sign language motion model based on motion elements in the present invention.
FIG. 3 is a block diagram showing a structure of a dynamic motion element recognition unit shown in FIG.
4 is a block diagram showing a structure of a static motion element recognition unit shown in FIG. 1. FIG.
FIG. 5 is a hardware configuration diagram of a sign language recognition apparatus for realizing an embodiment of the present invention.
6 is a format diagram of data input from the sign language input device of FIG. 1; FIG.
FIG. 7 is a format diagram of parameters for dynamic motion element recognition.
FIG. 8 is a description format of a sign language morpheme dictionary.
FIG. 9 is a description format of an operation element.
FIG. 10 is a diagram illustrating types of motion elements and types of respective attribute values.
FIG. 11 is a format of an attribute value of an operation element.
FIG. 12 is a flowchart for explaining recognition processing of static motion elements included in simultaneous elements having two or more motion element states.
FIG. 13 is a diagram for explaining a detection process of a static operation element.
FIG. 14 is a format diagram of the dynamic motion element recognized in FIG. 13;
15 is a flowchart for explaining recognition processing of the dynamic sequential element recognition unit shown in FIG. 1;
FIG. 16 is a format diagram of simultaneous elements in a correspondence list of simultaneous elements and operation elements;
FIG. 17 is a format diagram of sequential elements in a correspondence list of sequential elements and simultaneous elements.
FIG. 18 is a flowchart for explaining simultaneous element recognition processing in the dynamic sequential element recognition unit shown in FIG. 1;
FIG. 19 is a format diagram of recognized simultaneous elements.
20 is a flowchart for explaining a sequential element recognition process in the dynamic sequential element recognition unit shown in FIG. 1; FIG.
FIG. 21 is a format diagram of sequential elements recognized in FIG. 20;
22 is a flowchart for explaining recognition processing of the static motion element recognition unit shown in FIG. 1; FIG.
FIG. 23 is a format diagram of operation elements in a static operation element list.
FIG. 24 is a format diagram of a static motion element recognized in FIG. 22;
FIG. 25 is a flowchart for explaining recognition processing of the static sequential element recognition unit shown in FIG. 1;
FIG. 26 is a format diagram of sequential elements in a static sequential element list.
FIG. 27 is a flowchart for explaining integration processing of the static operation element integration unit shown in FIG. 1;
FIG. 28 is a flowchart for explaining recognition processing of a sign language morpheme recognition unit shown in FIG. 1;
FIG. 29 is a format diagram of sign language morphemes in a correspondence list of sign language morphemes and sequential elements.
FIG. 30 is a format diagram of sign language morphemes recognized in FIG. 28;
[Explanation of symbols]
101 ... Sign language input unit, 102 ... Dynamic motion element recognition unit, 108 ... Output unit,
103 ... static motion element recognition unit, 104 ... dynamic sequential element recognition unit,
105 ... static sequential element recognition unit, 106 ... dynamic motion element integration unit,
107: Sign language morpheme recognition unit 109: Monitor 110: Speaker
111 ... Sign language morpheme dictionary, 201 ... Sign language morpheme, 208, 209 ... Action elements,
202, 203, 204 ... sequential elements, 205, 206, 207 ... simultaneous elements,
301, 302, 303 ... dynamic motion element recognition unit, 304-306 ... parameter,
401, 402, 403 ... static motion element recognition unit, 504 to 511 ... memory,
601 ... hand position, 605 ... hand direction, 609 ... bending of fingers,
701: Operation element name, 705, 707 ... Parameter type,
706, 708 ... parameter, 901 ... type of motion element, 902 ... hand part,
903 to 905 ... attribute values, 1101 to 1103 ... average values of attribute values,
1104 to 1106 ... dispersion of attribute values, 1301 ... time series of evaluation values,
1302 ... Time range start time, 1303 ... Time range end time.

Claims (7)

手の形状や動きを電気信号に変換して、時系列手話データとして入力する手話入力手段と、
該手話入力手段から入力された時系列手話データから、動作の基本単位のうち動的な動作の基本単位、および複数の静的な動作の基本単位の時系列中に含まれる静的な動作の基本単位を認識する動的動作要素認識手段と、
該手話入力手段から入力された時系列手話データから、動作の基本単位のうち静的な動作の基本単位を認識する静的動作要素認識手段と、
上記動的動作要素認識手段から取り込まれた一つ以上の動的な動作の基本単位、あるいは複数の静的な動作の基本単位の時系列によって構成される逐次的な動作単位を認識する動的逐次要素認識手段と、
上記静的動作要素認識手段から取り込まれた一つ以上の静的な動作の基本単位によって構成される逐次的な動作単位を認識する静的逐次要素認識手段と、
上記動的逐次要素認識手段から取り込まれた動的な動作の基本単位によって構成される逐次的な動作単位と、上記静的動作要素認識手段から取り込まれた静的な動作の基本単位とを、動的な動作の基本単位によって構成される逐次的な動作単位の時間範囲に基づいて統合する静的動作要素統合手段と、
上記静的動作要素統合手段および上記静的動作要素認識手段から取り込まれた逐次要素の認識結果に対して、手話としての動作を認識する手話形態素認識手段と、
動作の基本単位の組み合わせによって表現した手話テンプレートを記憶し、上記各手段に参照される手話形態素辞書手段と、
上記手話形態素認識手段により認識した手話を、音声あるいは文字の形で出力する手段とを有することを特徴とする手話認識装置。
Sign language input means for converting the shape and movement of the hand into an electrical signal and inputting it as time-series sign language data;
From the time series sign language data inputted from該手story input unit, the basic unit of the dynamic behavior of the basic unit of operation, and the static operation contained in the time series of a plurality of static basic unit of operation Dynamic motion element recognition means for recognizing basic units;
Static action element recognition means for recognizing a basic unit of static action among basic units of action from time-series sign language data input from the sign language input means;
Dynamically recognizing one or more basic units of dynamic motion captured from the dynamic motion element recognition means or a sequential motion unit composed of a plurality of static motion basic units in time series Sequential element recognition means;
Static sequential element recognition means for recognizing sequential motion units composed of one or more basic units of static motion captured from the static motion element recognition means;
And sequential operation unit constituted by the basic unit of the dynamic behavior taken from the dynamic sequential element recognition means, the basic unit of the static action taken from the static operating element recognition means Static motion element integration means for integrating based on a time range of sequential motion units composed of dynamic motion basic units ;
Sign language morpheme recognition means for recognizing a motion as a sign language with respect to a recognition result of sequential elements captured from the static motion element integration means and the static motion element recognition means;
Storing a sign language template expressed by a combination of basic units of motion, and sign language morpheme dictionary means referred to by each means;
A sign language recognition apparatus comprising: means for outputting the sign language recognized by the sign language morpheme recognition means in the form of speech or characters.
請求項1に記載の手話認識装置において、
前記手話テンプレートを記憶する手話形態素辞書手段に記憶される動作の基本単位は、動作の種類を表す記号と連続量で表した動作の属性値の組み合わせによって表現されることを特徴とする手話認識装置。
The sign language recognition device according to claim 1,
The sign language recognition device characterized in that the basic unit of motion stored in the sign language morpheme dictionary means for storing the sign language template is expressed by a combination of a symbol representing the type of motion and an attribute value of motion represented by a continuous amount. .
請求項2に記載の手話認識装置において、
前記動的な動作の基本単位によって構成される逐次的な動作単位と、静的な動作の基本単位を統合する静的動作要素統合手段は、動的な動作の基本単位によって構成される逐次的な動作単位によって決定された時間範囲における静的な動作の基本単位の認識結果のみを選択することを特徴とする手話認識装置。
The sign language recognition device according to claim 2,
The static motion element integration means for integrating the sequential motion unit composed of the dynamic motion basic unit and the static motion basic unit is a sequential motion composed of the dynamic motion basic unit. A sign language recognition apparatus that selects only a recognition result of a basic unit of static motion in a time range determined by a specific motion unit.
請求項3に記載の手話認識装置において、
前記動的な動作の基本単位によって構成される逐次的な動作単位と、静的な動作の基本単位を統合する静的動作要素統合手段は、まず動的な動作の基本単位によって構成される逐次的な動作単位によって決定された時間範囲を、静的な動作の基本単位を認識する静的動作要素認識手段に送り、該静的動作要素認識手段は送られた時間範囲のみについて認識処理を行い、その結果を静的動作要素統合手段に送ることを特徴とする手話認識装置。
The sign language recognition device according to claim 3.
The static motion element integrating means for integrating the sequential motion unit composed of the dynamic motion basic unit and the static motion basic unit is a sequential motion composed of the dynamic motion basic unit. The time range determined by a specific motion unit is sent to a static motion element recognition unit that recognizes a basic unit of static motion, and the static motion element recognition unit performs recognition processing only for the sent time range. sign language recognition device characterized by sending the result to the static operating element integration means.
請求項1に記載の手話認識装置において、
前記動的な動作の基本単位によって構成される逐次的な動作単位を認識する動的逐次要素認識手段は、認識された動的な動作の基本単位の時間範囲の重なり度に基づいて認識を行うことを特徴とする手話認識装置。
The sign language recognition device according to claim 1,
The dynamic sequential element recognizing means for recognizing a sequential motion unit constituted by the dynamic motion basic unit performs recognition based on a degree of overlap in a time range of the recognized dynamic motion basic unit. This is a sign language recognition device.
請求項1に記載の手話認識装置において、
前記静的な動作の基本単位の認識を行う静的動作要素認識手段は、時系列手話データの各時刻におけるデータを、手話テンプレートを記憶する手話形態素辞書手段に記憶されている静的な動作の基本単位の属性値に基づいて評価することを特徴とする手話認識装置。
The sign language recognition device according to claim 1,
The static motion element recognizing means for recognizing the basic unit of the static motion is the static motion stored in the sign language morpheme dictionary means for storing the sign language template data at each time of the time series sign language data. An apparatus for recognizing a sign language, wherein the evaluation is based on an attribute value of a basic unit.
請求項1に記載の手話認識装置において、
前記静的な動作の基本単位によって構成される逐次的な動作の単位を認識する静的逐次要素認識手段は、各時刻における静的な動作の基本単位の評価結果を逐次的な動作の単位毎にまとめることにより、逐次的な動作の単位に対する評価値を求め、求めた評価値が極大値となる時間範囲を逐次的な動作の単位の認識結果とすることを特徴とする手話認識装置。
The sign language recognition device according to claim 1,
The static sequential element recognizing means for recognizing a sequential motion unit configured by the static motion basic unit is configured to obtain an evaluation result of the static motion basic unit at each time for each sequential motion unit. A sign language recognition device characterized in that an evaluation value for a sequential motion unit is obtained by collecting the evaluation values, and a time range in which the calculated evaluation value is a maximum value is used as a recognition result of the sequential motion unit.
JP01110397A 1997-01-24 1997-01-24 Sign language recognition device Expired - Lifetime JP3615008B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP01110397A JP3615008B2 (en) 1997-01-24 1997-01-24 Sign language recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP01110397A JP3615008B2 (en) 1997-01-24 1997-01-24 Sign language recognition device

Publications (2)

Publication Number Publication Date
JPH10208023A JPH10208023A (en) 1998-08-07
JP3615008B2 true JP3615008B2 (en) 2005-01-26

Family

ID=11768685

Family Applications (1)

Application Number Title Priority Date Filing Date
JP01110397A Expired - Lifetime JP3615008B2 (en) 1997-01-24 1997-01-24 Sign language recognition device

Country Status (1)

Country Link
JP (1) JP3615008B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3823604B2 (en) * 1999-05-18 2006-09-20 株式会社日立製作所 Sign language education apparatus, sign language education method, and recording medium on which sign language education method is recorded
JP3906729B2 (en) * 2002-04-05 2007-04-18 株式会社日立製作所 Sign language education system and program for realizing the system
KR101276203B1 (en) 2009-12-10 2013-06-20 한국전자통신연구원 Korean/English typewriter system and text input method using mediated interface device

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6234285A (en) * 1985-08-07 1987-02-14 Nippon Telegr & Teleph Corp <Ntt> Method for recognizing animation
JP3346799B2 (en) * 1992-08-24 2002-11-18 株式会社日立製作所 Sign language interpreter
JPH06333022A (en) * 1993-05-27 1994-12-02 Hitachi Ltd Continuous finger language recognizing device and input device
JPH07282235A (en) * 1994-04-15 1995-10-27 Matsushita Electric Ind Co Ltd Operation recognition device
JPH08115408A (en) * 1994-10-19 1996-05-07 Hitachi Ltd Finger language recognition device
JP3440644B2 (en) * 1995-01-31 2003-08-25 松下電器産業株式会社 Hand motion recognition device

Also Published As

Publication number Publication date
JPH10208023A (en) 1998-08-07

Similar Documents

Publication Publication Date Title
CN108108426B (en) Understanding method and device for natural language question and electronic equipment
CN111461168A (en) Training sample expansion method and device, electronic equipment and storage medium
CN113724848A (en) Medical resource recommendation method, device, server and medium based on artificial intelligence
CN110442515B (en) Application testing method, device, equipment and readable storage medium
CN112528637A (en) Text processing model training method and device, computer equipment and storage medium
CN104407695B (en) A kind of equipment input method and device
CN113889074A (en) Voice generation method, device, equipment and medium
CN115391670A (en) Knowledge graph-based internet behavior analysis method and system
CN116956896A (en) Text analysis method, system, electronic equipment and medium based on artificial intelligence
CN111460810A (en) Crowd-sourced task spot check method and device, computer equipment and storage medium
CN111368051A (en) Dialog generation method and device and computer equipment
JP3615008B2 (en) Sign language recognition device
CN111796925A (en) Method and device for screening algorithm model, storage medium and electronic equipment
CN113706322A (en) Service distribution method, device, equipment and storage medium based on data analysis
JPH08115408A (en) Finger language recognition device
CN116168403A (en) Medical data classification model training method, classification method, device and related medium
CN115759085A (en) Information prediction method and device based on prompt model, electronic equipment and medium
CN109597638B (en) Method and device for solving data processing and equipment linkage based on real-time computing engine
JP3565387B2 (en) Sign language word pattern dictionary creation system and method
CN109284354B (en) Script searching method and device, computer equipment and storage medium
KR102446514B1 (en) Meaning information network measurement server with sematic priming mechanism and operation method therof
JP2020194218A (en) Correct answer data creation assisting system and correct answer data creation assisting method
CN117236315B (en) Text data intelligent analysis method, device and equipment
CN111797077A (en) Data cleaning method and device, storage medium and electronic equipment
JP3623394B2 (en) Sign language recognition device and recording medium on which program for realizing the device is recorded

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040420

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040629

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040824

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20041015

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20041028

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071112

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081112

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081112

Year of fee payment: 4

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081112

Year of fee payment: 4

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081112

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091112

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101112

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101112

Year of fee payment: 6

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101112

Year of fee payment: 6

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term