JPH01259414A - 視聴覚発話認識装置 - Google Patents

視聴覚発話認識装置

Info

Publication number
JPH01259414A
JPH01259414A JP63084947A JP8494788A JPH01259414A JP H01259414 A JPH01259414 A JP H01259414A JP 63084947 A JP63084947 A JP 63084947A JP 8494788 A JP8494788 A JP 8494788A JP H01259414 A JPH01259414 A JP H01259414A
Authority
JP
Japan
Prior art keywords
phoneme
electrical
output
signal
lip
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63084947A
Other languages
English (en)
Inventor
L Beadles Robert
ロバート・エル・ビードルス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Research Triangle Institute
Original Assignee
Research Triangle Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Research Triangle Institute filed Critical Research Triangle Institute
Priority to JP63084947A priority Critical patent/JPH01259414A/ja
Publication of JPH01259414A publication Critical patent/JPH01259414A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野] この発明は少なくとも幾つかの音素連鎖を表示する出力
を生成する視聴覚発話認識装置及びその方法に関する。
[従来の技術と発明が解決しようとする課題1人々が通
信することによる初歩の方法は会話である。会話と聴取
による人々の間の通信は、書物の通信以上の大きな利益
を有する。同じことを伝えるのに、できるだけ早く書い
ても、その間に少なくとも10回は人は話すことができ
るし、通常のタイピストができるだけ早く打っても、そ
の間に少なくとも4回は人は話すことができる。多くの
利益と無数の発話の使用の故に、発話を認識するだめの
能力を備えた装置は、極めて望ましい科学技術の到達点
として、長い間認められ一部きた。
例えば、適正なコストで限定された語零発話認識器は、
人とデジタルコンピュータ間のインターフェースとして
現存する入力に取って替わることができる。このような
装置は、音声入力からタイプされたコピーを提供するこ
とによって、現代のオフィス業務に大改革を起こすであ
ろう、多くの軍用の適用は、命令、制御、理解力、及び
非常に貴重であると判明されるこのような装置の電子通
信に於いて存在する。
このような装置のもう1つの大きな必要性は、聴覚が損
われた人または耳の間こえない人と、耳の聞こえる人と
の援助された通信に於いてである。
このような通信に於ける困難は、彼等の共同生活体の中
の十分な統合に於いて、及び彼等が別の方法で達成され
る教育、雇用、及び社会的促進の同レベルの達成に於い
て、長い間ハンディキャップを付けられてきた0手信号
の使用は、発話より遅いにもかかわらず、記号を学ため
に十分に誘導されるものであり、それらの聴覚が損われ
た人の間で使用し得るが、−ffi社会の通信のモード
としては実際的ではないものである。また、話者の唇の
動きの観察により、聴覚が損われた、或いは耳の聞こえ
ない人々は、音素と称されて限定された幾つかの可能な
発話の1つである各々の音を識別することができる。不
幸にして、全く耳の聞こえない人のための読唇術は、読
唇術のみ使用する大部分の人々によって有効に理解する
うえで、その曖昧さがあまりに大きいものである。
発話の解析によって音素を認識するための前述した意図
は、耳の聞こえない人の通信に効果的な助力となるべく
、十分に正確な表示の生成は成功していない、現在まで
のコンピュータ発話認識装置は、音素の発音に於いて特
に訓練された話者及び適度の認識された語禽を要求して
いた。それと共に、新しい話者の音声の特有の表現法に
対するシステムの訓練を要求していた。すなわち、個々
の話者のために適合すると、代表的に女性と子供の音声
はあまり良好に認識されない、限定された語粟を除いて
、各々の言語の認識は、即時の言語認識を除き、前記言
語を話す間は更に多くの時間を要求していた。これらの
限定は、耳の聞こえない人の共同生活体に対する極めて
限定された使用及び一般的な目的の装置として、不十分
な言語認識装置を作成してきた。
ますます精巧な技術が、特定の音素の認識を解析すると
共に決定するために開発されてきている一方で、このよ
うな技術は、実際に多数の非常に類似した音の音素を区
別することに成功していなかった。聞き手によるこれら
の音素の認識の解決は、視覚による確認、文脈及び話者
の熟知を基にして行われるものであり、それらの認識は
従来の機械装置では困難なものであった。実際に、幾つ
かの実際の視覚による情報は、通常の発話知覚に於ける
聴覚の情報よりも、頭脳による比重が大きいものである
音素の音から区別するなめに非常に困難なものとなるそ
れらの曖昧さは、幸いにも、唇と口蓋の様子によってし
ばしば区別することができる。これは、前記耳の聞こえ
ない人の通信が実際的な読唇術を作成するうえで、十分
な曖昧さを除去するために有効な手による合図を促進さ
せるもので、マニュアルキューイングと称される技術で
認識されるに至った。
この発明に於いて、音素連鎖に於ける十分な数の音素は
、効果的な、且つ特定の通信を提供するために認識する
ことができる。これは、発話を構成する各言語音が、ど
のグループに属するかを決定する音素解析と、発話を構
成する各言語音が発生される際の発話者の口唇の形状を
決定する光学的走査とを組合わせることによって達成さ
れる。
前記音素及び光学走査によって生成された信号の関連付
けは、実用となるべく発話の十分な表示を生成する。認
識された音素の大部分は、光学的及び音の解析、話者の
表現の確かさに依存されるもので、すなわち不正確な音
声は何れか与えられた適用に於いて現われる。この発明
は、それが多くの異なった適用に可能なものであると共
に、所望の正確さに依存する精巧さの異なったレベルで
実行し得るものに於いて、特に有効なものである。
この発明は、前記のような点に鑑みてなされたもので、
耳の間こえない人の通信に於いて、聞き手側が話者を熟
知していなくともよく、読唇術による曖昧さを除去して
幾つかの音素連鎖を表示する出力を生成するこのとでき
る視聴覚発話認識装置及びその方法を提供することを目
的とする。
[課題を解決するための手段] すなわちこの発明は、音を検出すると共に前記音を電気
信号に変換する手段と、前記検出された音素連鎖の少な
くとも一部の連鎖を構成する各音素を表示するために、
少なくとも1つの音素を有するグループから成る複数の
音素グループの中で、検出された音素を含むグループを
表示する電気的聴覚出力信号を生成すると共に前記音素
を検出するために前記信号を解析する手段と、発話者の
顔を光学的に走査すると共に音素連鎖の少なくとも一部
の連鎖を視覚的に捕えるために、予め各々が少なくとも
1つの音素に関連付けられている複数の口唇形状の中の
1つの形状を表示する電気的口唇形状信号を連続的に生
成する手段と、前記電気的口唇形状信号出力及び前記電
気的聴覚出力信号を受取り、両者を相互に関連付ける手
段とを具備し、発話から得られる音素連鎖の少なくとも
幾つかの連鎖を表示する出力を生成することを特徴とす
る。
またこの発明は、音を検出すると共に前記音を電気信号
に変換する工程と、前記検出された音素連鎖の少なくと
も一部の連鎖を構成する各音素を表示するために、少な
くとも1つの音素を有するグループから成る複数の音素
グループの中で、検出された音素を含むグループを表示
する電気的聴覚出力信号を生成すると共に前記音素を検
出するために前記信号を解析する工程と、発話者の顔を
光学的に走査すると共に音素連鎖の少なくとも一部の連
鎖を視覚的に捕えるために、予め各々が少なくとも1つ
の音素に関連付けられている複数の口唇形状の中の1つ
の形状を表示する電気的口唇形状信号を連続的に生成す
る工程と、前記電気的口唇形状信号出力及び前記電気的
聴覚出力信号を受取り、両者を相互に関連付ける工程と
から成り、発話から得られる音素連鎖の少なくとも幾つ
かの連鎖を表示する出力を生成することを特徴とする。
[作用] この発明の作用について説明すると、この装置及びその
方法は、検出された音の音素連鎖の少なくとも幾つかを
表示するものである。そして、その音素が属する音素の
グループを決定するために解析されるものであり、口唇
の形状が検出された音素を表示するために、コンピュー
タによって光学的に検出されると共に、それぞれの信号
が関連付けられるようになっている。
[実施例] 以下、図面を参照してこの発明の一実施例を説明する。
第1図は、この発明に於いて使用するだめの適切な音の
グループと口唇の形状のグループの、1つの実行し得る
選択を示すチャートである。
第1図に示される音素は英国言語を示しているが、他の
言語に関しても同様に分類することができる。
第1図に於いて、前記音素の音は、母音、鼻音、わたり
と半母音、閉鎖音、及び摩擦音の5つのグループに分け
られる。これらは、周知の音素の分類である。有声音は
スラッシュの下に示され、無声音は上に示される4口唇
の形状は光学走査によって生成される信号の解析により
、容易に区別することができる3つの形に分類される。
前記口唇の形状は、口唇の形状を非円、円、開口に分類
される。これらの口唇の形状は、従来の光学走査を使用
して容易に区別することができるし、更に細分化した口
唇の形状や顔または口蓋の位置をも利用することができ
る。
音の幾つかのグループは、前記口唇の形、例えば音素/
 w /を参照することによって完全に明らかにするこ
とができる一方、他の音は幾つかの音の曖昧さを除いて
決定されることができる。これらの選択の決定は、前後
の音素、すなわち前記曖昧さが正常に聞こえた解析され
る発話の記憶によって決定されることと同じように、曖
昧さを決定するための観察者を認めるため、視覚的にま
たは別の方法で表示し得るシンボルによって、時には作
成することができる。
第2図は、この発明のブロック図を示すものである。同
図に於いて、聴覚プリプロセッサ20は、話者によって
生成される音を検出するもので、それらの音が在来的な
マイクロホン22等の装置によって電気信号に変換され
る。故に生成された電気信号は、スペクトル形状増幅及
び自動レベル制御回路24に供給される。前記回路24
の出力は、ローパスフィルタ26及びハイパスフィルタ
28の両者に供給される。前記両方のフィルタの出力は
、ゼロクロッシングカウンタ30及び32とピークトウ
ビーク検出器34及び36に、それぞれ供給される。加
えて、前記ローパスフィルタの出力は、有声及び無声音
間の差異を検出するための回路38にも供給される。こ
れらの回路は当業者によって周知なものであり、且つ1
980年10月17日に登録されたHETHODAND
 APPARATtlS FORAUTOHATICC
u1NG、 5ERIALNtlHBER198,21
1ト称された願書、及びR,LSchaferによる記
事″Digital SianalProcessin
g  and  5peech  Analysis 
 andSynthesis ” 、 Proceed
in s or the IEEE FallElec
tronics  Conference  、Chi
cago  、l1linois。
1971年10月、29〜30頁に、更に説明される。
これにより、この記事の開示及び前述の特許出願は、引
例によって本出願中に具体化される。線形予測及び短時
間スペクトル解析のような聴覚解析の他の方法は、アナ
ログ、デジタルまたは結合形状の何れかで択一的に使用
することができる。
視覚プリプロセッサ40は、在来のオプティカルスキャ
ナ42、例えばテレビカメラを含み、それは受けた光の
明暗度を複数の別々の位置で表示する電気信号の連続を
生成する。スキャナ42の入力以前の選択的な光学P波
は、他の特徴に関連した種々の口の特徴の対比を高める
。光レベルが検出されると共に、そのための補正を実行
する。スキャナ42は、話者の顔、特に唇を見るなめに
位置が定められるもので、携帯用或いは常置の装置の形
態に於いてなされることができる。デジタル信号等の連
続の性質を帯びて、前記スキャナの電気出力は、基準に
対して画像の大きさを実際に拡大または縮小する話者間
隔正規化回路44に供給される。
1つの正規化技術は、走査画像で記憶された型を比較す
ると共に、基準の顔の型をデジタルまたはアナログメモ
リに記憶するためのものである。電気的に制御されたズ
ームレンズは、話者間に対する前記スキャナを正規化す
るために動作される。
前記標準の走査画像は、開いた口の大きさを決定するた
めに日周辺部抽出回路46によって、例えば唇の長さと
輪郭及びその全体を決定することによって、次に解析さ
れる。前記唇の長さと輪郭は、唇の長さ/輪郭抽出回路
48によって決められる。
オプティカル画像の区別のような、オプティカル画像ラ
イン増進のための標準の技術は、唇の長さと口を含むそ
の周辺部の両者の抽出を促進するために使用することが
できる。これらの周知の技術は1965年にHIT P
ressによって発表されたO tical and 
Electric−Otical Infornati
on−シ1夏螢玉力」−に、より詳細に説明される。
舌と歯の位置は、舌/歯検出器49によって、また検出
されるもので、例えば舌及び歯が認識されると決定され
る。前記歯は、前記唇と舌に関連したそれらの特有の形
状及び反射力により検出することができる。回路46.
48及び舌/歯検出器49によって実行される機能は、
アナログまたはデジタル技術、或いはそれらの適切な組
合わせによって実行することができるということが、当
業者によって認識される。
プリプロセッサ20及び40からの出力信号は、マルチ
プレクサ50に、そしてデジタル出力用のデジタルコン
ピュータ52に直接、及びアナログ出力用のアナログ−
デジタル変換器54を経て供給される。
コンピュータ52は、聴覚及び視覚信号間の時間整列さ
れた相互の関連付けを実行すると共に、例えば発話され
た個々の音素の少なくとも幾っがを表示する視覚の、ま
たはタイプ打ちされた形状に於ける出力を生成する。
この発明は、前述した実施例に限られるものではなく、
発明の要旨から逸脱することのない範囲に於いて、種々
の変化及び変形が可能なことは勿論である。
[発明の効果] 以上のように、この発明によれば、耳の聞こえない人の
通信に於いて、聞き子側が話者を熟知していなくともよ
く、読唇術による曖昧さを除去して幾つかの音素連鎖を
表示する出力を生成するこのとできる視聴覚発話認識装
置及びその方法を提供することができる。
【図面の簡単な説明】
第1図はこの発明の一実施例を示す口唇の形状と音のグ
ループに分けられた音素のチャートを示すものであり、
第2図は本発明の構成を示すブロック図である。 20・・・聴覚プリプロセッサ、40・・・視覚プリプ
ロセッサ、42・・・オプティカルスキャナ、44・・
・話者間隔正規化回路、46・・・日周辺部抽出回路、
48・・・唇の−長さ/Va郭抽出回路、49・・・舌
/歯検出器。 出願人代理人 弁理士 鈴 江 武 彦FIG、/

Claims (5)

    【特許請求の範囲】
  1. (1)音を検出すると共に前記音を電気信号に変換する
    手段と、 前記検出された音素連鎖の少なくとも一部の連鎖を構成
    する各音素を表示するために、少なくとも1つの音素を
    有するグループから成る複数の音素グループの中で、検
    出された音素を含むグループを表示する電気的聴覚出力
    信号を生成すると共に前記音素を検出するために前記信
    号を解析する手段と、 発話者の顔を光学的に走査すると共に音素連鎖の少なく
    とも一部の連鎖を視覚的に捕えるために、予め各々が少
    なくとも1つの音素に関連付けられている複数の口唇形
    状の中の1つの形状を表示する電気的口唇形状信号を連
    続的に生成する手段と、前記電気的口唇形状信号出力及
    び前記電気的聴覚出力信号を受取り、両者を相互に関連
    付ける手段とを具備し、 発話から得られる音素連鎖の少なくとも幾つかの連鎖を
    表示する出力を生成することを特徴とする視聴覚発話認
    識装置。
  2. (2)前記受取り及び関連付ける手段は前記走査及び解
    析手段からの信号を受取るマルチプレクサと、前記マル
    チプレクサの前記出力端に接続されたアナログ−デジタ
    ル変換器と、前記変換器の出力端に接続されたデジタル
    コンピュータを含むことを特徴とする特許請求の範囲第
    1項記載の視聴覚発話認識装置。
  3. (3)前記走査手段はオプティカルスキャナと、前記ス
    キャナと前記話者の唇との間隔を正常化する手段と、口
    を含む周辺部を抜出す手段と、前記口の輪郭を抽出する
    手段と、歯と舌の位置を検出する手段とを含むことを特
    徴とする特許請求の範囲第1項若しくは第2項記載の視
    聴覚発話認識装置。
  4. (4)前記解析手段はローパスフィルタと、前記ローパ
    スフィルタの出力を解析する手段と、ハイパスフィルタ
    と、前記ハイパスフィルタの出力を解析する手段とを含
    むことを特徴とする特許請求の範囲第1項若しくは第2
    項記載の視聴覚発話認識装置。
  5. (5)音を検出すると共に前記音を電気信号に変換する
    工程と、 前記検出された音素連鎖の少なくとも一部の連鎖を構成
    する各音素を表示するために、少なくとも1つの音素を
    有するグループから成る複数の音素グループの中で、検
    出された音素を含むグループを表示する電気的聴覚出力
    信号を生成すると共に前記音素を検出するために前記信
    号を解析する工程と、 発話者の顔を光学的に走査すると共に音素連鎖の少なく
    とも一部の連鎖を視覚的に捕えるために、予め各々が少
    なくとも1つの音素に関連付けられている複数の口唇形
    状の中の1つの形状を表示する電気的口唇形状信号を連
    続的に生成する工程と、前記電気的口唇形状信号出力及
    び前記電気的聴覚出力信号を受取り、両者を相互に関連
    付ける工程とから成り、 発話から得られる音素連鎖の少なくとも幾つかの連鎖を
    表示する出力を生成することを特徴とする方法。
JP63084947A 1988-04-06 1988-04-06 視聴覚発話認識装置 Pending JPH01259414A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63084947A JPH01259414A (ja) 1988-04-06 1988-04-06 視聴覚発話認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63084947A JPH01259414A (ja) 1988-04-06 1988-04-06 視聴覚発話認識装置

Publications (1)

Publication Number Publication Date
JPH01259414A true JPH01259414A (ja) 1989-10-17

Family

ID=13844837

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63084947A Pending JPH01259414A (ja) 1988-04-06 1988-04-06 視聴覚発話認識装置

Country Status (1)

Country Link
JP (1) JPH01259414A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11272293A (ja) * 1998-03-24 1999-10-08 Sanyo Electric Co Ltd 遠隔制御装置
JP2016031534A (ja) * 2014-07-28 2016-03-07 リウ チン フォンChing−Feng LIU 発話認識システム、発話認識装置、および発話認識方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11272293A (ja) * 1998-03-24 1999-10-08 Sanyo Electric Co Ltd 遠隔制御装置
JP2016031534A (ja) * 2014-07-28 2016-03-07 リウ チン フォンChing−Feng LIU 発話認識システム、発話認識装置、および発話認識方法

Similar Documents

Publication Publication Date Title
US4757541A (en) Audio visual speech recognition
US7676372B1 (en) Prosthetic hearing device that transforms a detected speech into a speech of a speech form assistive in understanding the semantic meaning in the detected speech
Rosenblum et al. An audiovisual test of kinematic primitives for visual speech perception.
US5806036A (en) Speechreading using facial feature parameters from a non-direct frontal view of the speaker
Jiang et al. On the relationship between face movements, tongue movements, and speech acoustics
US5839109A (en) Speech recognition apparatus capable of recognizing signals of sounds other than spoken words and displaying the same for viewing
Krull Acoustic properties as predictors of perceptual responses: A study of Swedish voiced stops
Fernandez-Lopez et al. Towards estimating the upper bound of visual-speech recognition: The visual lip-reading feasibility database
CN107112026A (zh) 用于智能语音识别和处理的系统、方法和装置
Finn et al. Automatic optically-based recognition of speech
Freitas et al. An introduction to silent speech interfaces
Lachs et al. Specification of cross-modal source information in isolated kinematic displays of speech
Kalikow et al. Experiments with computer-controlled displays in second-language learning
Azar et al. Sound visualization for the hearing impaired
Mak et al. Lip-motion analysis for speech segmentation in noise
Patel et al. Teachable interfaces for individuals with dysarthric speech and severe physical disabilities
EP0336032A1 (en) Audio visual speech recognition
JPH01259414A (ja) 視聴覚発話認識装置
Adjoudani et al. A multimedia platform for audio-visual speech processing
Boston Synthetic facial communication
EP0983575B1 (en) Improvements in, or relating to, visual speech synthesis
AU613904B2 (en) Audio visual speech recognition
Tsiaras et al. Video and audio based detection of filled hesitation pauses in classroom lectures
JP2007018006A (ja) 音声合成システム、音声合成方法、音声合成プログラム
Goecke A stereo vision lip tracking algorithm and subsequent statistical analyses of the audio-video correlation in Australian English