JPS60188998A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPS60188998A JPS60188998A JP59043419A JP4341984A JPS60188998A JP S60188998 A JPS60188998 A JP S60188998A JP 59043419 A JP59043419 A JP 59043419A JP 4341984 A JP4341984 A JP 4341984A JP S60188998 A JPS60188998 A JP S60188998A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- speech recognition
- voice
- input section
- lips
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
産業上の利用分野
本発明は、人が発声する言葉を自動認識する音声認識装
置に関するものである。
置に関するものである。
従来例の構成とその問題点
近年、情報化、自動化の進展で、人間と機械とのコミュ
ニケーションに音声を使いたいという要望が高まり、音
声認識装置に対する需要も高まっている。
ニケーションに音声を使いたいという要望が高まり、音
声認識装置に対する需要も高まっている。
以下、従来の音声認識装置について、図面を参照しなが
ら説明する。第1図は従来の音声認識装置の要部ブロッ
ク構成図であり、1は音声入力部、2は音声認識部であ
る。
ら説明する。第1図は従来の音声認識装置の要部ブロッ
ク構成図であり、1は音声入力部、2は音声認識部であ
る。
以上の様に構成された”音声認識装置の動作は、話者の
発声した音響的な音声波をマイクロフォン等で構成され
た音声入力部1で電気信号に変換し、この情報を使用し
て音声認識部2で話者の発声した音声を認識するもので
ある。ところが、上記のような構成においては、現在ま
だ、認識率が低く、これをカバーするために、使用条件
に多くの制限がある。例えば、認識する単語数の限定、
認識する話者の特定、音声を会話の様に連続して発声す
るのではなく、単語ごとに、あるい全車音節ととに区切
って発声するなどの制限がある。また、認識率の高い音
声認識装置では、音声入力部で入力された音声波に対し
て非常に複雑な処理が必要で、高価なものとなっている
。
発声した音響的な音声波をマイクロフォン等で構成され
た音声入力部1で電気信号に変換し、この情報を使用し
て音声認識部2で話者の発声した音声を認識するもので
ある。ところが、上記のような構成においては、現在ま
だ、認識率が低く、これをカバーするために、使用条件
に多くの制限がある。例えば、認識する単語数の限定、
認識する話者の特定、音声を会話の様に連続して発声す
るのではなく、単語ごとに、あるい全車音節ととに区切
って発声するなどの制限がある。また、認識率の高い音
声認識装置では、音声入力部で入力された音声波に対し
て非常に複雑な処理が必要で、高価なものとなっている
。
発明の目的
本発明の目的は、音声波に関する情報に加えて、話者が
発声している時の口唇の形に関する視覚的情報を処理す
ることによシ、認識率の高い音−認識装置を提供するこ
とである。
発声している時の口唇の形に関する視覚的情報を処理す
ることによシ、認識率の高い音−認識装置を提供するこ
とである。
発明の構成
本発明の音声認識装置は、音響的な音声波を入力する音
声入力部と、話者の口唇の形に関する視覚的情報を入力
する画像入力部と、前記音声入力部および画像入力部で
入力した情報によシ音声を認識する音声認識部とを具備
して構成したものであり、これにより、認識率の高い音
声認識装置が実現できる。
声入力部と、話者の口唇の形に関する視覚的情報を入力
する画像入力部と、前記音声入力部および画像入力部で
入力した情報によシ音声を認識する音声認識部とを具備
して構成したものであり、これにより、認識率の高い音
声認識装置が実現できる。
実施例の説明
以下、本発す」の実施例について、図面を参照しながら
説明する。
説明する。
第2図は本発明の一実施例に係る音声認識装置の要部ブ
ロック構成図を示すものである。第2図において、1は
音声入力部、2は音声認識部、3は画像入力部である。
ロック構成図を示すものである。第2図において、1は
音声入力部、2は音声認識部、3は画像入力部である。
以上のように構成された本実施例の音声認識装置につい
て以下その動作を説明する。まず、音声入力部1は、従
来例と同じく、マイクロフォン等で構成し、話者の発声
した音響的な音声波を電気2に入力するものである。画
像入力部3は、撮像管や固体イメージセンサ等で構成し
、話者が発声する時の口唇の形に関する視覚的情報を電
気信号−として音声認識部2に入力すΣものである。音
声認識部2では、以上の2つの人力部からの音声波と、
発明中の口唇の形に関する情報を使用して音声の認識を
行なう。ここで、発声中の口唇の形に関する情報が音声
認識を行なう時に非常に有効な情報であるということは
、聾者が話者のくちびるの動きを見てなんと言おうとし
ているかを判断できる読唇法から明らかである。
て以下その動作を説明する。まず、音声入力部1は、従
来例と同じく、マイクロフォン等で構成し、話者の発声
した音響的な音声波を電気2に入力するものである。画
像入力部3は、撮像管や固体イメージセンサ等で構成し
、話者が発声する時の口唇の形に関する視覚的情報を電
気信号−として音声認識部2に入力すΣものである。音
声認識部2では、以上の2つの人力部からの音声波と、
発明中の口唇の形に関する情報を使用して音声の認識を
行なう。ここで、発声中の口唇の形に関する情報が音声
認識を行なう時に非常に有効な情報であるということは
、聾者が話者のくちびるの動きを見てなんと言おうとし
ているかを判断できる読唇法から明らかである。
以下に本実施例の音声認識装置のさらに具体的な動作例
を示す。例として話者が「た」、「ば」を発声したとす
る。「ば」は破裂音を含んでおり、破裂音の特徴として
音声波は時間的に非常に短い変化しか観測できない。よ
って音響的な音声波に関する情報だけから話者がUたJ
と発声したのか「ば」と発声したのかを認識するのは非
常に袂雑な処理が必友となる。この結果、音響的な音声
波に関す情報だけを使用する従来の音声認識装置は認識
率が悪いか、極めて高価となっている。ところが、「た
」と「ば」を発声した時の口唇の形について観察してみ
ると、「た」は口唇をあらかじめ少し開いてから次に大
きく開くのに対し、1ば」は口唇をあらかじめ閉じてか
ら次に大きく開く。
を示す。例として話者が「た」、「ば」を発声したとす
る。「ば」は破裂音を含んでおり、破裂音の特徴として
音声波は時間的に非常に短い変化しか観測できない。よ
って音響的な音声波に関する情報だけから話者がUたJ
と発声したのか「ば」と発声したのかを認識するのは非
常に袂雑な処理が必友となる。この結果、音響的な音声
波に関す情報だけを使用する従来の音声認識装置は認識
率が悪いか、極めて高価となっている。ところが、「た
」と「ば」を発声した時の口唇の形について観察してみ
ると、「た」は口唇をあらかじめ少し開いてから次に大
きく開くのに対し、1ば」は口唇をあらかじめ閉じてか
ら次に大きく開く。
この口唇の動きを画像として入力し、簡単な処理を行な
えば、「た」か「ば」の認識は容易に行なえる。つまり
、音響的な音声波に関する情報と話者の口唇の形に関す
る視覚的情報を並用することにより、認識率の高い音声
認識装置が実現できる。
えば、「た」か「ば」の認識は容易に行なえる。つまり
、音響的な音声波に関する情報と話者の口唇の形に関す
る視覚的情報を並用することにより、認識率の高い音声
認識装置が実現できる。
なお、以上の例では、口唇の形を情報として説明したが
、この他に、舌や歯さらに頬の動きに関する情報を用い
ても同様の効果が得られる。
、この他に、舌や歯さらに頬の動きに関する情報を用い
ても同様の効果が得られる。
発明の効果
以上の説明から明らかなように、本発明は、音響的な音
声波を入力する音声入力部と、話者の口唇の形に関する
視覚的情報を入力する画像入力部と、前記2つの入力部
で入力した情報によシ音声を構成しているので、認識率
の高い、しかも低価格の音声認識装置が実現できるとい
う侵れた効果が得られる。
声波を入力する音声入力部と、話者の口唇の形に関する
視覚的情報を入力する画像入力部と、前記2つの入力部
で入力した情報によシ音声を構成しているので、認識率
の高い、しかも低価格の音声認識装置が実現できるとい
う侵れた効果が得られる。
第1図は従来の音声認識装置の要部ブロック構成図、第
2図は本発明の一実施例に係る音声認識装置の要部ブO
ツク構成図である。 1・・・・・・音声入力部、2・・・・・・音声認識部
、3・・・・・・画像入力部口
2図は本発明の一実施例に係る音声認識装置の要部ブO
ツク構成図である。 1・・・・・・音声入力部、2・・・・・・音声認識部
、3・・・・・・画像入力部口
Claims (1)
- 音響的な音声波を入力する音声入力部と、話者の口唇の
形に関する視覚的情報を入力する画像入力部と、前記音
声入力部および画像入力部で入力した情報によシ音声を
認識する音声認識部とを具備してなる音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP59043419A JPS60188998A (ja) | 1984-03-07 | 1984-03-07 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP59043419A JPS60188998A (ja) | 1984-03-07 | 1984-03-07 | 音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS60188998A true JPS60188998A (ja) | 1985-09-26 |
Family
ID=12663183
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP59043419A Pending JPS60188998A (ja) | 1984-03-07 | 1984-03-07 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS60188998A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5687280A (en) * | 1992-11-02 | 1997-11-11 | Matsushita Electric Industrial Co., Ltd. | Speech input device including display of spatial displacement of lip position relative to predetermined position |
-
1984
- 1984-03-07 JP JP59043419A patent/JPS60188998A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5687280A (en) * | 1992-11-02 | 1997-11-11 | Matsushita Electric Industrial Co., Ltd. | Speech input device including display of spatial displacement of lip position relative to predetermined position |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9916842B2 (en) | Systems, methods and devices for intelligent speech recognition and processing | |
US7676372B1 (en) | Prosthetic hearing device that transforms a detected speech into a speech of a speech form assistive in understanding the semantic meaning in the detected speech | |
JP4085924B2 (ja) | 音声処理装置 | |
US20080103769A1 (en) | Methods and apparatuses for myoelectric-based speech processing | |
US20160314781A1 (en) | Computer-implemented method, computer system and computer program product for automatic transformation of myoelectric signals into audible speech | |
CN114328851A (zh) | 用于私密对话的耳语转换 | |
JPS60247697A (ja) | 音声対話装置 | |
JPS62115199A (ja) | 音声応答装置 | |
CN112908336A (zh) | 一种用于语音处理装置的角色分离方法及其语音处理装置 | |
US7043427B1 (en) | Apparatus and method for speech recognition | |
JPS60188998A (ja) | 音声認識装置 | |
JPS597998A (ja) | 連続音声認識装置 | |
JP2007018006A (ja) | 音声合成システム、音声合成方法、音声合成プログラム | |
JPS59137999A (ja) | 音声認識装置 | |
JPH0580796A (ja) | 話速制御型補聴方法および装置 | |
Plante-Hébert et al. | Effects of nasality and utterance length on the recognition of familiar speakers. | |
Hasegawa et al. | Oral image to voice converter-image input microphone | |
TWM560746U (zh) | 可優化外部的語音信號裝置 | |
Beskow et al. | Hearing at home-communication support in home environments for hearing impaired persons. | |
AU2021107566A4 (en) | Mobile device with whisper function | |
JP7296214B2 (ja) | 音声認識システム | |
TWI664627B (zh) | 可優化外部的語音信號裝置 | |
JPH0194398A (ja) | 音声標準パターンの作成方法 | |
JPS6367400B2 (ja) | ||
JPS6126678B2 (ja) |