JPH0340177A

JPH0340177A - 音声認識装置

Info

Publication number: JPH0340177A
Application number: JP1176276A
Authority: JP
Inventors: Shunji Handa; 伴田　俊二
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 1989-07-07
Filing date: 1989-07-07
Publication date: 1991-02-20

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用用が〕本発明は音声入力、音声通信等に用いられる音声認識装
置に関する。

〔発明の概要〕

本発明は入力音声の処理のみならず、発生音と唇の動き
との相関による情報を画像処理手法を用いて（−１加す
ることにより認識を行う音声認識装置である。

〔従来の技術〕

一般に音声理解システムは、音声の物理的な特徴である
音響情報と言語情報に代表される高次情報とを用いて、
発話の構文あるいは意味的な制約情報を付加して音声の
認識を行っている。

システムの流れとしては、入力音声を受けてからの音響
処理部、文節候補生成部及び言語処理部等から構成され
るが、音響処理部においては音韻の位置と種類とを知識
工学の手法を用いてシュミレートし、音韻単位の認識を
行う。もう少し詳しく述べると、入力音声は音響処理部
の特徴抽出部で分析及び特徴抽出され、記号化されたデ
ータは知識データベースを持つ音響処理部の認識処理部
へ送られ、ルール表現された知識を適用することにより
音韻境界と音韻の認識が行われる。

音響処理により得られた文節単位の音韻列は、文節候補
生成部において文節内の構文規則を考慮した」二で単語
辞書とのマツチングが行われ、該当する文節候補が生成
される。

言語処理部では、文節候補生成部において生成された文
節候補列を人力として、構文、意味及び文脈等の知識を
用いて正しい文節列を同定する。

〔発明が解決しようとする課題〕

しかし、従来の認識手法においては音声のみによる特徴
抽出、認識処理のため、不特定話者の音声に対しては認
識が困難であり、従って膨大な知識としてのデータベー
スを抱える必要があった。

さらには、膨大なデータベースを用いたとしても、不特
定話者の音韻特徴は非常に異なっており、単純な母音と
子音とを組み合わせた程度の短音認識が具現化されてい
る程度である。さらには膨大なデータベースを検索する
ための時間を要し、リアルタイムで処理することも困難
であった。

そこで本発明では、認識手法の一部として音声以外の情
報を付加することによって、認識率の向上と高速化を図
ることを目的とする。

〔課題を解決するための手段〕

本発明の音声認識装置は、（１）音声処理に加え、発生音と唇の動きとの相関によ
る情報を画像処理手法を用いて付加することにより認識
を行うことを特徴とする。

（２）唇形状データ及び音声特徴の記号化データの両方
を用いて認識処理部で＠韻認識処理する。

（３）唇形状の知識データベース、発声音と唇の動きと
の相関データベース及び言語処理データベースとを含む
ことを特徴とする。

〔実施例〕

第１図は本発明の実施例の処理フローを示すブロック図
である。

入力音声（２）、特徴抽出部（７）、認識処理部（８）
、文節候補生成部（９）、データベース（１０）、単語
辞＠（１１）、　　言語処理部（■２）及びデータベー
ス（１３）等の流れは、従来の音声理解システムの一つ
の例と同じであり、従来の技術の所で概要を述べである
。本発明ではさらなる付加処理として、顔画像をカメラ
等で取り込み（入力顔画像（１））、唇画像分煎（５）
によりカメラから取り込まれた画像のうち唇部分だけを
分離・抽出し、画像処理部（６）で、例えばワイヤーフ
レーム法（領域を３角形等の要素に分割し、それぞれの
交点の情報を、数点の基準点からの変化の情報として得
、画像の動きを検出する。）等の方法で唇の形状変化を
解析した後、ワイヤーフレーム法に基づく唇形状の情報
をデータとして持っているデータベース（４）の内容を
′検索することにより、得られた唇形状データ列を認識
処理部（８）に送る。認識処理部（８〉においては、音
声データベースとともに発声音と唇の動きとの相関デー
タを持っているデータベース（１０）の内容を検索する
ことにより、特徴抽出部（７）から得られた音声特徴の
記号化データとともに音韻の認識を行い、確定音韻列と
して文節候補生成部（９）に送る。文節候補生成部（９
）では、文節内の構文規則を考慮した上で単語辞書との
マツチングが行われ、該当する文節候補が生成される。

タイミング発生回路（３）は、人力音声と唇の動きどの
同１１Ｉｌデータを、唇形状データ列と音声特徴の記弓
化データとの取り込み部である認識処理部に送るための
ものであり、本図面では省略しであるが、唇の動きと発
声音とのタイミングについては全て中央処理装置のコン
トロール下に置かれる。文節候補生成部（９）からの文
節候補列は言語処理部（１２）に送られ、言語処理部（
１２）は言語処理データベース（１３）の内容を検索す
ることにより、構文、意味及び文脈等の知識を用いて正
しい文節列を同定し出力する。

〔発明の効果〕

以上本発明によれば、唇の動きは話者には余り依存しな
いため、一つあるいは数種のＡＮＤをとった典型的な発
声音と唇の動きとのデータベースを持てばよく、膨大な
知識としてのデータベースを抱える必要がない。さらに
は同じ様な理由から、認識列象者が非常に独特な音声特
徴を持つ不特定話者であっても、唇の動きによる認識フ
ローのイづ加により音韻境界と音ｌ′ｉ貝とを認識する
ことは容易であり、データベース量の少ないより身軽な
システムにおいても、短音のみならず連続発声音の認識
が可能になる。さらには、データベース量の少ない分だ
け検索に要する時間が少なくなり、よりリアルタイムな
音声理解システムが得られる。

従って、本発明はコンピューターの入力装置、自動翻訳
装置等の音声通信機器、音声人力のワードプロセサー、
等のよりコンバク１−性が必要とされるシステムに応用
できる。

【図面の簡単な説明】

第１図は本発明の実施例の処理フローを示すブロック図
。以上

Claims

【特許請求の範囲】

（１）音声処理に加え、発生音と唇の動きとの相関によ
る情報を画像処理手法を用いて付加することにより認識
を行うことを特徴とする音声認識装置。
（２）唇形状データ及び音声特徴の記号化データの両方
を用いて認識処理部で音韻認識処理することを特徴とす
る請求項１記載の音声認識装置。
（３）唇形状の知識データベース、発声音と唇の動きと
の相関データベース及び言語処理データベースとを含む
ことを特徴とする請求項１、または請求項２記載の音声
認識装置。