JPS60188998A

JPS60188998A - 音声認識装置

Info

Publication number: JPS60188998A
Application number: JP59043419A
Authority: JP
Inventors: 杉田　卓也; 弼一三木
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1984-03-07
Filing date: 1984-03-07
Publication date: 1985-09-26

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は、人が発声する言葉を自動認識する音声認識装
置に関するものである。

従来例の構成とその問題点近年、情報化、自動化の進展で、人間と機械とのコミュ
ニケーションに音声を使いたいという要望が高まり、音
声認識装置に対する需要も高まっている。

以下、従来の音声認識装置について、図面を参照しなが
ら説明する。第１図は従来の音声認識装置の要部ブロッ
ク構成図であり、１は音声入力部、２は音声認識部であ
る。

以上の様に構成された”音声認識装置の動作は、話者の
発声した音響的な音声波をマイクロフォン等で構成され
た音声入力部１で電気信号に変換し、この情報を使用し
て音声認識部２で話者の発声した音声を認識するもので
ある。ところが、上記のような構成においては、現在ま
だ、認識率が低く、これをカバーするために、使用条件
に多くの制限がある。例えば、認識する単語数の限定、
認識する話者の特定、音声を会話の様に連続して発声す
るのではなく、単語ごとに、あるい全車音節ととに区切
って発声するなどの制限がある。また、認識率の高い音
声認識装置では、音声入力部で入力された音声波に対し
て非常に複雑な処理が必要で、高価なものとなっている
。

発明の目的本発明の目的は、音声波に関する情報に加えて、話者が
発声している時の口唇の形に関する視覚的情報を処理す
ることによシ、認識率の高い音−認識装置を提供するこ
とである。

発明の構成本発明の音声認識装置は、音響的な音声波を入力する音
声入力部と、話者の口唇の形に関する視覚的情報を入力
する画像入力部と、前記音声入力部および画像入力部で
入力した情報によシ音声を認識する音声認識部とを具備
して構成したものであり、これにより、認識率の高い音
声認識装置が実現できる。

実施例の説明以下、本発す」の実施例について、図面を参照しながら
説明する。

第２図は本発明の一実施例に係る音声認識装置の要部ブ
ロック構成図を示すものである。第２図において、１は
音声入力部、２は音声認識部、３は画像入力部である。

以上のように構成された本実施例の音声認識装置につい
て以下その動作を説明する。まず、音声入力部１は、従
来例と同じく、マイクロフォン等で構成し、話者の発声
した音響的な音声波を電気２に入力するものである。画
像入力部３は、撮像管や固体イメージセンサ等で構成し
、話者が発声する時の口唇の形に関する視覚的情報を電
気信号−として音声認識部２に入力すΣものである。音
声認識部２では、以上の２つの人力部からの音声波と、
発明中の口唇の形に関する情報を使用して音声の認識を
行なう。ここで、発声中の口唇の形に関する情報が音声
認識を行なう時に非常に有効な情報であるということは
、聾者が話者のくちびるの動きを見てなんと言おうとし
ているかを判断できる読唇法から明らかである。

以下に本実施例の音声認識装置のさらに具体的な動作例
を示す。例として話者が「た」、「ば」を発声したとす
る。「ば」は破裂音を含んでおり、破裂音の特徴として
音声波は時間的に非常に短い変化しか観測できない。よ
って音響的な音声波に関する情報だけから話者がＵたＪ
と発声したのか「ば」と発声したのかを認識するのは非
常に袂雑な処理が必友となる。この結果、音響的な音声
波に関す情報だけを使用する従来の音声認識装置は認識
率が悪いか、極めて高価となっている。ところが、「た
」と「ば」を発声した時の口唇の形について観察してみ
ると、「た」は口唇をあらかじめ少し開いてから次に大
きく開くのに対し、１ば」は口唇をあらかじめ閉じてか
ら次に大きく開く。

この口唇の動きを画像として入力し、簡単な処理を行な
えば、「た」か「ば」の認識は容易に行なえる。つまり
、音響的な音声波に関する情報と話者の口唇の形に関す
る視覚的情報を並用することにより、認識率の高い音声
認識装置が実現できる。

なお、以上の例では、口唇の形を情報として説明したが
、この他に、舌や歯さらに頬の動きに関する情報を用い
ても同様の効果が得られる。

発明の効果以上の説明から明らかなように、本発明は、音響的な音
声波を入力する音声入力部と、話者の口唇の形に関する
視覚的情報を入力する画像入力部と、前記２つの入力部
で入力した情報によシ音声を構成しているので、認識率
の高い、しかも低価格の音声認識装置が実現できるとい
う侵れた効果が得られる。

【図面の簡単な説明】

第１図は従来の音声認識装置の要部ブロック構成図、第
２図は本発明の一実施例に係る音声認識装置の要部ブＯ
ツク構成図である。１・・・・・・音声入力部、２・・・・・・音声認識部
、３・・・・・・画像入力部口

Claims

【特許請求の範囲】

音響的な音声波を入力する音声入力部と、話者の口唇の
形に関する視覚的情報を入力する画像入力部と、前記音
声入力部および画像入力部で入力した情報によシ音声を
認識する音声認識部とを具備してなる音声認識装置。