JPH01259414A

JPH01259414A - 視聴覚発話認識装置

Info

Publication number: JPH01259414A
Application number: JP63084947A
Authority: JP
Inventors: L Beadles Robert; ロバート・エル・ビードルス
Original assignee: Research Triangle Institute
Current assignee: Research Triangle Institute
Priority date: 1988-04-06
Filing date: 1988-04-06
Publication date: 1989-10-17

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［産業上の利用分野］この発明は少なくとも幾つかの音素連鎖を表示する出力
を生成する視聴覚発話認識装置及びその方法に関する。

［従来の技術と発明が解決しようとする課題１人々が通
信することによる初歩の方法は会話である。会話と聴取
による人々の間の通信は、書物の通信以上の大きな利益
を有する。同じことを伝えるのに、できるだけ早く書い
ても、その間に少なくとも１０回は人は話すことができ
るし、通常のタイピストができるだけ早く打っても、そ
の間に少なくとも４回は人は話すことができる。多くの
利益と無数の発話の使用の故に、発話を認識するだめの
能力を備えた装置は、極めて望ましい科学技術の到達点
として、長い間認められ一部きた。

例えば、適正なコストで限定された語零発話認識器は、
人とデジタルコンピュータ間のインターフェースとして
現存する入力に取って替わることができる。このような
装置は、音声入力からタイプされたコピーを提供するこ
とによって、現代のオフィス業務に大改革を起こすであ
ろう、多くの軍用の適用は、命令、制御、理解力、及び
非常に貴重であると判明されるこのような装置の電子通
信に於いて存在する。

このような装置のもう１つの大きな必要性は、聴覚が損
われた人または耳の間こえない人と、耳の聞こえる人と
の援助された通信に於いてである。

このような通信に於ける困難は、彼等の共同生活体の中
の十分な統合に於いて、及び彼等が別の方法で達成され
る教育、雇用、及び社会的促進の同レベルの達成に於い
て、長い間ハンディキャップを付けられてきた０手信号
の使用は、発話より遅いにもかかわらず、記号を学ため
に十分に誘導されるものであり、それらの聴覚が損われ
た人の間で使用し得るが、−ｆｆｉ社会の通信のモード
としては実際的ではないものである。また、話者の唇の
動きの観察により、聴覚が損われた、或いは耳の聞こえ
ない人々は、音素と称されて限定された幾つかの可能な
発話の１つである各々の音を識別することができる。不
幸にして、全く耳の聞こえない人のための読唇術は、読
唇術のみ使用する大部分の人々によって有効に理解する
うえで、その曖昧さがあまりに大きいものである。

発話の解析によって音素を認識するための前述した意図
は、耳の聞こえない人の通信に効果的な助力となるべく
、十分に正確な表示の生成は成功していない、現在まで
のコンピュータ発話認識装置は、音素の発音に於いて特
に訓練された話者及び適度の認識された語禽を要求して
いた。それと共に、新しい話者の音声の特有の表現法に
対するシステムの訓練を要求していた。すなわち、個々
の話者のために適合すると、代表的に女性と子供の音声
はあまり良好に認識されない、限定された語粟を除いて
、各々の言語の認識は、即時の言語認識を除き、前記言
語を話す間は更に多くの時間を要求していた。これらの
限定は、耳の聞こえない人の共同生活体に対する極めて
限定された使用及び一般的な目的の装置として、不十分
な言語認識装置を作成してきた。

ますます精巧な技術が、特定の音素の認識を解析すると
共に決定するために開発されてきている一方で、このよ
うな技術は、実際に多数の非常に類似した音の音素を区
別することに成功していなかった。聞き手によるこれら
の音素の認識の解決は、視覚による確認、文脈及び話者
の熟知を基にして行われるものであり、それらの認識は
従来の機械装置では困難なものであった。実際に、幾つ
かの実際の視覚による情報は、通常の発話知覚に於ける
聴覚の情報よりも、頭脳による比重が大きいものである
。

音素の音から区別するなめに非常に困難なものとなるそ
れらの曖昧さは、幸いにも、唇と口蓋の様子によってし
ばしば区別することができる。これは、前記耳の聞こえ
ない人の通信が実際的な読唇術を作成するうえで、十分
な曖昧さを除去するために有効な手による合図を促進さ
せるもので、マニュアルキューイングと称される技術で
認識されるに至った。

この発明に於いて、音素連鎖に於ける十分な数の音素は
、効果的な、且つ特定の通信を提供するために認識する
ことができる。これは、発話を構成する各言語音が、ど
のグループに属するかを決定する音素解析と、発話を構
成する各言語音が発生される際の発話者の口唇の形状を
決定する光学的走査とを組合わせることによって達成さ
れる。

前記音素及び光学走査によって生成された信号の関連付
けは、実用となるべく発話の十分な表示を生成する。認
識された音素の大部分は、光学的及び音の解析、話者の
表現の確かさに依存されるもので、すなわち不正確な音
声は何れか与えられた適用に於いて現われる。この発明
は、それが多くの異なった適用に可能なものであると共
に、所望の正確さに依存する精巧さの異なったレベルで
実行し得るものに於いて、特に有効なものである。

この発明は、前記のような点に鑑みてなされたもので、
耳の間こえない人の通信に於いて、聞き手側が話者を熟
知していなくともよく、読唇術による曖昧さを除去して
幾つかの音素連鎖を表示する出力を生成するこのとでき
る視聴覚発話認識装置及びその方法を提供することを目
的とする。

［課題を解決するための手段］すなわちこの発明は、音を検出すると共に前記音を電気
信号に変換する手段と、前記検出された音素連鎖の少な
くとも一部の連鎖を構成する各音素を表示するために、
少なくとも１つの音素を有するグループから成る複数の
音素グループの中で、検出された音素を含むグループを
表示する電気的聴覚出力信号を生成すると共に前記音素
を検出するために前記信号を解析する手段と、発話者の
顔を光学的に走査すると共に音素連鎖の少なくとも一部
の連鎖を視覚的に捕えるために、予め各々が少なくとも
１つの音素に関連付けられている複数の口唇形状の中の
１つの形状を表示する電気的口唇形状信号を連続的に生
成する手段と、前記電気的口唇形状信号出力及び前記電
気的聴覚出力信号を受取り、両者を相互に関連付ける手
段とを具備し、発話から得られる音素連鎖の少なくとも
幾つかの連鎖を表示する出力を生成することを特徴とす
る。

またこの発明は、音を検出すると共に前記音を電気信号
に変換する工程と、前記検出された音素連鎖の少なくと
も一部の連鎖を構成する各音素を表示するために、少な
くとも１つの音素を有するグループから成る複数の音素
グループの中で、検出された音素を含むグループを表示
する電気的聴覚出力信号を生成すると共に前記音素を検
出するために前記信号を解析する工程と、発話者の顔を
光学的に走査すると共に音素連鎖の少なくとも一部の連
鎖を視覚的に捕えるために、予め各々が少なくとも１つ
の音素に関連付けられている複数の口唇形状の中の１つ
の形状を表示する電気的口唇形状信号を連続的に生成す
る工程と、前記電気的口唇形状信号出力及び前記電気的
聴覚出力信号を受取り、両者を相互に関連付ける工程と
から成り、発話から得られる音素連鎖の少なくとも幾つ
かの連鎖を表示する出力を生成することを特徴とする。

［作用］この発明の作用について説明すると、この装置及びその
方法は、検出された音の音素連鎖の少なくとも幾つかを
表示するものである。そして、その音素が属する音素の
グループを決定するために解析されるものであり、口唇
の形状が検出された音素を表示するために、コンピュー
タによって光学的に検出されると共に、それぞれの信号
が関連付けられるようになっている。

［実施例］以下、図面を参照してこの発明の一実施例を説明する。

第１図は、この発明に於いて使用するだめの適切な音の
グループと口唇の形状のグループの、１つの実行し得る
選択を示すチャートである。

第１図に示される音素は英国言語を示しているが、他の
言語に関しても同様に分類することができる。

第１図に於いて、前記音素の音は、母音、鼻音、わたり
と半母音、閉鎖音、及び摩擦音の５つのグループに分け
られる。これらは、周知の音素の分類である。有声音は
スラッシュの下に示され、無声音は上に示される４口唇
の形状は光学走査によって生成される信号の解析により
、容易に区別することができる３つの形に分類される。

前記口唇の形状は、口唇の形状を非円、円、開口に分類
される。これらの口唇の形状は、従来の光学走査を使用
して容易に区別することができるし、更に細分化した口
唇の形状や顔または口蓋の位置をも利用することができ
る。

音の幾つかのグループは、前記口唇の形、例えば音素／
　ｗ　／を参照することによって完全に明らかにするこ
とができる一方、他の音は幾つかの音の曖昧さを除いて
決定されることができる。これらの選択の決定は、前後
の音素、すなわち前記曖昧さが正常に聞こえた解析され
る発話の記憶によって決定されることと同じように、曖
昧さを決定するための観察者を認めるため、視覚的にま
たは別の方法で表示し得るシンボルによって、時には作
成することができる。

第２図は、この発明のブロック図を示すものである。同
図に於いて、聴覚プリプロセッサ２０は、話者によって
生成される音を検出するもので、それらの音が在来的な
マイクロホン２２等の装置によって電気信号に変換され
る。故に生成された電気信号は、スペクトル形状増幅及
び自動レベル制御回路２４に供給される。前記回路２４
の出力は、ローパスフィルタ２６及びハイパスフィルタ
２８の両者に供給される。前記両方のフィルタの出力は
、ゼロクロッシングカウンタ３０及び３２とピークトウ
ビーク検出器３４及び３６に、それぞれ供給される。加
えて、前記ローパスフィルタの出力は、有声及び無声音
間の差異を検出するための回路３８にも供給される。こ
れらの回路は当業者によって周知なものであり、且つ１
９８０年１０月１７日に登録されたＨＥＴＨＯＤＡＮＤ
　ＡＰＰＡＲＡＴｔｌＳ　ＦＯＲＡＵＴＯＨＡＴＩＣＣ
ｕ１ＮＧ、　５ＥＲＩＡＬＮｔｌＨＢＥＲ１９８，２１
１ト称された願書、及びＲ，ＬＳｃｈａｆｅｒによる記
事″Ｄｉｇｉｔａｌ　ＳｉａｎａｌＰｒｏｃｅｓｓｉｎ
ｇ　　ａｎｄ　　５ｐｅｅｃｈ　　Ａｎａｌｙｓｉｓ　
　ａｎｄＳｙｎｔｈｅｓｉｓ　”　、　Ｐｒｏｃｅｅｄ
ｉｎ　ｓ　ｏｒ　ｔｈｅ　ＩＥＥＥ　ＦａｌｌＥｌｅｃ
ｔｒｏｎｉｃｓ　　Ｃｏｎｆｅｒｅｎｃｅ　　、Ｃｈｉ
ｃａｇｏ　　、ｌ１ｌｉｎｏｉｓ。

１９７１年１０月、２９〜３０頁に、更に説明される。

これにより、この記事の開示及び前述の特許出願は、引
例によって本出願中に具体化される。線形予測及び短時
間スペクトル解析のような聴覚解析の他の方法は、アナ
ログ、デジタルまたは結合形状の何れかで択一的に使用
することができる。

視覚プリプロセッサ４０は、在来のオプティカルスキャ
ナ４２、例えばテレビカメラを含み、それは受けた光の
明暗度を複数の別々の位置で表示する電気信号の連続を
生成する。スキャナ４２の入力以前の選択的な光学Ｐ波
は、他の特徴に関連した種々の口の特徴の対比を高める
。光レベルが検出されると共に、そのための補正を実行
する。スキャナ４２は、話者の顔、特に唇を見るなめに
位置が定められるもので、携帯用或いは常置の装置の形
態に於いてなされることができる。デジタル信号等の連
続の性質を帯びて、前記スキャナの電気出力は、基準に
対して画像の大きさを実際に拡大または縮小する話者間
隔正規化回路４４に供給される。

１つの正規化技術は、走査画像で記憶された型を比較す
ると共に、基準の顔の型をデジタルまたはアナログメモ
リに記憶するためのものである。電気的に制御されたズ
ームレンズは、話者間に対する前記スキャナを正規化す
るために動作される。

前記標準の走査画像は、開いた口の大きさを決定するた
めに日周辺部抽出回路４６によって、例えば唇の長さと
輪郭及びその全体を決定することによって、次に解析さ
れる。前記唇の長さと輪郭は、唇の長さ／輪郭抽出回路
４８によって決められる。

オプティカル画像の区別のような、オプティカル画像ラ
イン増進のための標準の技術は、唇の長さと口を含むそ
の周辺部の両者の抽出を促進するために使用することが
できる。これらの周知の技術は１９６５年にＨＩＴ　Ｐ
ｒｅｓｓによって発表されたＯ　ｔｉｃａｌ　ａｎｄ　
Ｅｌｅｃｔｒｉｃ−Ｏｔｉｃａｌ　Ｉｎｆｏｒｎａｔｉ
ｏｎ−シ１夏螢玉力」−に、より詳細に説明される。

舌と歯の位置は、舌／歯検出器４９によって、また検出
されるもので、例えば舌及び歯が認識されると決定され
る。前記歯は、前記唇と舌に関連したそれらの特有の形
状及び反射力により検出することができる。回路４６．
４８及び舌／歯検出器４９によって実行される機能は、
アナログまたはデジタル技術、或いはそれらの適切な組
合わせによって実行することができるということが、当
業者によって認識される。

プリプロセッサ２０及び４０からの出力信号は、マルチ
プレクサ５０に、そしてデジタル出力用のデジタルコン
ピュータ５２に直接、及びアナログ出力用のアナログ−
デジタル変換器５４を経て供給される。

コンピュータ５２は、聴覚及び視覚信号間の時間整列さ
れた相互の関連付けを実行すると共に、例えば発話され
た個々の音素の少なくとも幾っがを表示する視覚の、ま
たはタイプ打ちされた形状に於ける出力を生成する。

この発明は、前述した実施例に限られるものではなく、
発明の要旨から逸脱することのない範囲に於いて、種々
の変化及び変形が可能なことは勿論である。

［発明の効果］以上のように、この発明によれば、耳の聞こえない人の
通信に於いて、聞き子側が話者を熟知していなくともよ
く、読唇術による曖昧さを除去して幾つかの音素連鎖を
表示する出力を生成するこのとできる視聴覚発話認識装
置及びその方法を提供することができる。

【図面の簡単な説明】

第１図はこの発明の一実施例を示す口唇の形状と音のグ
ループに分けられた音素のチャートを示すものであり、
第２図は本発明の構成を示すブロック図である。２０・・・聴覚プリプロセッサ、４０・・・視覚プリプ
ロセッサ、４２・・・オプティカルスキャナ、４４・・
・話者間隔正規化回路、４６・・・日周辺部抽出回路、
４８・・・唇の−長さ／Ｖａ郭抽出回路、４９・・・舌
／歯検出器。出願人代理人　弁理士　鈴　江　武　彦ＦＩＧ、／

Claims

【特許請求の範囲】

（１）音を検出すると共に前記音を電気信号に変換する
手段と、前記検出された音素連鎖の少なくとも一部の連鎖を構成
する各音素を表示するために、少なくとも１つの音素を
有するグループから成る複数の音素グループの中で、検
出された音素を含むグループを表示する電気的聴覚出力
信号を生成すると共に前記音素を検出するために前記信
号を解析する手段と、発話者の顔を光学的に走査すると共に音素連鎖の少なく
とも一部の連鎖を視覚的に捕えるために、予め各々が少
なくとも１つの音素に関連付けられている複数の口唇形
状の中の１つの形状を表示する電気的口唇形状信号を連
続的に生成する手段と、前記電気的口唇形状信号出力及
び前記電気的聴覚出力信号を受取り、両者を相互に関連
付ける手段とを具備し、発話から得られる音素連鎖の少なくとも幾つかの連鎖を
表示する出力を生成することを特徴とする視聴覚発話認
識装置。
（２）前記受取り及び関連付ける手段は前記走査及び解
析手段からの信号を受取るマルチプレクサと、前記マル
チプレクサの前記出力端に接続されたアナログ−デジタ
ル変換器と、前記変換器の出力端に接続されたデジタル
コンピュータを含むことを特徴とする特許請求の範囲第
１項記載の視聴覚発話認識装置。
（３）前記走査手段はオプティカルスキャナと、前記ス
キャナと前記話者の唇との間隔を正常化する手段と、口
を含む周辺部を抜出す手段と、前記口の輪郭を抽出する
手段と、歯と舌の位置を検出する手段とを含むことを特
徴とする特許請求の範囲第１項若しくは第２項記載の視
聴覚発話認識装置。
（４）前記解析手段はローパスフィルタと、前記ローパ
スフィルタの出力を解析する手段と、ハイパスフィルタ
と、前記ハイパスフィルタの出力を解析する手段とを含
むことを特徴とする特許請求の範囲第１項若しくは第２
項記載の視聴覚発話認識装置。
（５）音を検出すると共に前記音を電気信号に変換する
工程と、前記検出された音素連鎖の少なくとも一部の連鎖を構成
する各音素を表示するために、少なくとも１つの音素を
有するグループから成る複数の音素グループの中で、検
出された音素を含むグループを表示する電気的聴覚出力
信号を生成すると共に前記音素を検出するために前記信
号を解析する工程と、発話者の顔を光学的に走査すると共に音素連鎖の少なく
とも一部の連鎖を視覚的に捕えるために、予め各々が少
なくとも１つの音素に関連付けられている複数の口唇形
状の中の１つの形状を表示する電気的口唇形状信号を連
続的に生成する工程と、前記電気的口唇形状信号出力及
び前記電気的聴覚出力信号を受取り、両者を相互に関連
付ける工程とから成り、発話から得られる音素連鎖の少なくとも幾つかの連鎖を
表示する出力を生成することを特徴とする方法。