JPH1185190A

JPH1185190A - 音声認識装置及び音声認識方法

Info

Publication number: JPH1185190A
Application number: JP9256201A
Authority: JP
Inventors: Hiroshi Furuyama; 浩志古山; Ikuo Inoue; 郁夫井上
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1997-09-05
Filing date: 1997-09-05
Publication date: 1999-03-30
Anticipated expiration: 2017-09-05
Also published as: JP3798530B2

Abstract

(57)【要約】【課題】騒音環境下で高い認識率を有する音声認識装
置を提供する。【解決手段】口唇の映像が入力する映像入力手段１
と、音声が入力する音声入力手段３と、口唇の映像標準
データと入力映像との類似度を算出し、映像標準データ
の各単音節ごとの類似度を出力する映像処理手段２と、
音声標準データと入力音声との類似度を算出し、音声標
準データの各単音節ごとの類似度を出力する音声処理手
段４と、映像処理手段から出力される映像標準データの
各単音節に対する正答率データを保持する映像標準デー
タ正答率保持手段６と、音声処理手段から出力される音
声標準データの各単音節に対する正答率データを保持す
る音声標準データ正答率保持手段７と、各類似度及び正
答率を組合せて総合的類似度を求める音声認識手段５と
を設ける。音声認識手段は、総合的類似度が最も大きい
単音節を認識結果として識別する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、話者の口唇を含む
映像信号と音声信号とを用いて音声認識を行なう音声認
識装置と、その音声認識方法に関し、特に、認識率の向
上を図るものである。

【０００２】

【従来の技術】音声認識を行なう場合に、音声信号だけ
でなく、話者の口唇を含む映像を併せて用いる音声認識
装置が、Sintani等によって報告された“An Isolated W
ord Speech Recognition Using Fusion of Auditory an
d Visual Information"(IEICETrans. Fundamentals, Vo
l. E79-A, No. 6, p777-783(1996))に記載されている。
音声信号だけを用いる音声認識では、雑音が混入する
と、認識精度が急激に低下するが、口唇の映像を併用す
る場合には、認識精度の低下の程度を和らげることがで
きる。

【０００３】図６は、この従来の音声認識装置の概略構
成を示している。この装置は、話者の口唇部分を含む映
像を入力するビデオカメラ等の映像入力部１と、話者が
発声する音声を入力するマイク等の音声入力部３と、各
種単語を発声する口唇部分の映像標準データと入力した
口唇部分の映像との類似度を求め、映像標準データに含
まれる各単語に対する類似度を出力する映像処理部２
と、各種単語の音声標準データと入力した音声との類似
度を求め、音声標準データに含まれる各単語に対する類
似度を出力する音声処理部４と、映像処理部２及び音声
処理部４より入力する類似度から最も類似度の高い単語
を算出し、それを認識結果として出力する音声認識部５
とを備えている。

【０００４】この装置の映像処理部２は、入力映像から
例えば口唇部分の上下方向及び左右方向の長さ、並びに
上下及び左右の長さの比を特徴量として抽出する。そし
て、類似度の算出のために予め用意された複数の単語の
映像標準データのうちで、ｉ番目の単語に対応する特徴
量と、入力映像から抽出した特徴量との間の類似度（Ｒ
_i,_Image）を、パターン認識の手法として良く知られ
た、隠れマルコフモデル（以下、ＨＭＭと略す）により
算出して出力する。

【０００５】また、音声処理部４は、入力音声からケプ
ストラム分析により特徴量を抽出し、予め用意された複
数の単語の音声標準データのうちで、ｉ番目の単語に対
応する特徴量と、入力音声から抽出した特徴量との類似
度（Ｒ_i,_Sound）をＨＭＭにより算出して出力する。

【０００６】また、音声認識部５は、映像処理部２の出
力（Ｒ_i,_Image）及び音声処理部４の出力（Ｒ_i,_Sound）
から、ｉ番目の単語に対して映像及び音声を総合した類
似度（Ｒ_i,_Total）を次式（１）により算出する。Ｒ_i,_Total＝α・Ｒ_i,_Image＋（１−α）・Ｒ_i,_Sound ………（式１）ここで、α（０≦α≦１）は、係数決定用に（類似度算
出用とは別に）サンプルした映像と音声データとを用い
て、認識率が最大となるように予め設定した係数であ
る。

【０００７】音声認識部５は、映像標準データ及び音声
標準データに含まれる全ての単語に対して類似度Ｒ_i,
_Totalを求め、この類似度Ｒ_i,_Totalが最大となる単語を
認識結果として出力する。

【０００８】このように、この音声認識装置は、音声信
号とともに、口唇情報を含む映像信号を併せて用いてい
るため、雑音が存在する場合でも、認識率の急激な低下
を免れることができ、音声認識装置の応用分野を騒音環
境下で使用される装置にまで広げることができる。

【０００９】

【発明が解決しようとする課題】音声認識装置をカーナ
ビゲーション装置に応用して、装置への指令を音声で与
えることが検討されているが、しかし、こうした騒音環
境下で使用される装置に組み込むためには、音声認識装
置の騒音下での認識率をさらに高めることが必要であ
る。

【００１０】本発明は、こうした要請に応えるものであ
り、騒音環境下の音声認識において、高い認識率を実現
することができる音声認識装置を提供し、また、その音
声認識方法を提供することを目的としている。

【００１１】

【課題を解決するための手段】そこで、本発明の音声認
識装置では、口唇を含む話者の映像データが入力する映
像入力手段と、話者の音声データが入力する音声入力手
段と、各単音節を発声する口唇の映像標準データと入力
映像データとの間の類似度を算出し、映像標準データの
各単音節とそれに対する類似度とを出力する映像処理手
段と、各単音節を発声する音声の音声標準データと入力
音声データとの間の類似度を算出し、音声標準データの
各単音節とそれに対する類似度とを出力する音声処理手
段と、映像処理手段及び音声処理手段から出力された類
似度を用いて、総合的な類似度が最も大きい単音節を識
別する音声認識手段とを設けるとともに、映像処理手段
から出力される映像標準データの各単音節に対する正答
率のデータを保持する映像標準データ正答率保持手段
と、音声処理手段から出力される音声標準データの各単
音節に対する正答率のデータを保持する音声標準データ
正答率保持手段とを設け、音声認識手段が、映像処理手
段及び音声処理手段から出力される類似度と、映像標準
データ正答率保持手段及び音声標準データ正答率保持手
段から読み出した正答率のデータとを組み合わせて、各
単音節に対する総合的な類似度を求めるようにしてい
る。

【００１２】この装置では、識別対象の単音節が、口唇
の映像を基に識別した方が高精度に識別できる種類の単
音節である場合には、映像による識別結果が最終判断に
大きく寄与し、また、識別対象の単音節が、音声を基に
識別した方が高精度に識別できる単音節である場合に
は、音声による識別結果が最終判断に大きく寄与するこ
とになる。そのため、騒音環境下でも信頼性の高い音声
認識が可能となる。

【００１３】また、本発明の音声認識方法では、映像デ
ータと各単音節を発声する口唇の映像標準データとの間
の類似度を映像標準データの各単音節ごとに求めるとと
もに、その単音節が映像データに基づいて識別される場
合の信頼度を表す正答率を、この類似度に乗算し、ま
た、音声データと各単音節を発声する音声の音声標準デ
ータとの間の類似度を音声標準データの各単音節ごとに
求めるとともに、その単音節が音声データに基づいて識
別される場合の信頼度を表す正答率を、この類似度に乗
算し、これらの類似度と正答率とを乗算した値を用い
て、各単音節に対する総合的な類似度を求め、総合的な
類似度が最も大きい単音節を識別するようにしている。

【００１４】この方法では、映像または音声による識別
手法の内、識別対象の単音節を高精度に識別できる手法
に対して、より多くの重みを付けて音声を識別すること
ができるため、騒音環境下でも、より確実な判定を行な
うことが可能となる。

【００１５】

【発明の実施の形態】本発明の請求項１に記載の発明
は、口唇を含む話者の映像データが入力する映像入力手
段と、話者の音声データが入力する音声入力手段と、各
単音節を発声する口唇の映像標準データと入力映像デー
タとの間の類似度を算出し、映像標準データの各単音節
とそれに対する類似度とを出力する映像処理手段と、各
単音節を発声する音声の音声標準データと入力音声デー
タとの間の類似度を算出し、音声標準データの各単音節
とそれに対する類似度とを出力する音声処理手段と、映
像処理手段及び音声処理手段から出力された類似度を用
いて、総合的な類似度が最も大きい単音節を識別する音
声認識手段とを備える音声認識装置において、映像処理
手段から出力される映像標準データの各単音節に対する
正答率のデータを保持する映像標準データ正答率保持手
段と、音声処理手段から出力される音声標準データの各
単音節に対する正答率のデータを保持する音声標準デー
タ正答率保持手段とを設け、音声認識手段が、映像処理
手段及び音声処理手段から出力される類似度と、映像標
準データ正答率保持手段及び音声標準データ正答率保持
手段から読み出した正答率のデータとを組み合わせて、
各単音節に対する総合的な類似度を求めるようにしたも
のであり、識別対象の単音節が、口唇の形状や動きを基
に識別した方が高精度に識別できる種類の単音節である
場合には、映像による識別の寄与率を大きくし、また、
識別対象の単音節が、音声を基に識別した方が高精度に
識別できる単音節である場合には、音声による識別の寄
与率を大きくすることにより、騒音環境下でも信頼性の
高い音声認識が可能となる。

【００１６】請求項２に記載の発明は、映像入力手段に
各種の単音節に関する映像データを入力し、各入力映像
データに対応して映像処理手段から出力される類似度が
最大の映像標準データの単音節を候補単音節として集計
し、映像処理手段から出力された同一の候補単音節の総
数の内で、入力映像データの単音節と一致する候補単音
節の数の割合を、映像標準データのその単音節に対する
正答率として設定するものであり、予め用意した映像デ
ータのサンプルを用いてこの操作が行なわれ、映像標準
データの単音節に対する正答率が設定される。

【００１７】請求項３に記載の発明は、音声入力手段に
各種の単音節の音声データを入力し、各入力音声データ
に対応して音声処理手段から出力される類似度が最大の
音声標準データの単音節を候補単音節として集計し、音
声処理手段から出力された同一の候補単音節の総数の内
で、入力音声データの単音節と一致する候補単音節の数
の割合を、音声標準データのその単音節に対する正答率
として設定するものであり、予め用意した音声データの
サンプルを用いてこの操作が行なわれ、音声標準データ
の単音節に対する正答率が設定される。

【００１８】請求項４に記載の発明は、映像処理手段か
ら出力される映像標準データの単音節ｉに対する類似度
をＲ_i,_Image、音声処理手段から出力される音声標準デ
ータの単音節ｉに対する類似度をＲ_i,_Sound、映像標準
データ正答率保持手段から読み出される映像標準データ
の単音節ｉに対する正答率のデータをＳ_i,_Image、ま
た、音声標準データ正答率保持手段から読み出される音
声標準データの単音節ｉに対する正答率のデータをＳ_i,
_Soundとするとき、音声認識手段が、Ｒ_i,_Total＝Ｓ_i,_Image・Ｒ_i,_Image＋Ｓ_i,_Sound・Ｒ_i,
_Sound により単音節ｉに対する総合的な類似度Ｒ_i,_Totalを算
出し、映像標準データ及び音声標準データに含まれる全
ての単音節ｉの内で、総合的な類似度Ｒ_i,_Totalが最大
となる単音節を認識結果として出力するようにしたもの
であり、最終的な判断基準となる総合的な類似度を、こ
の式から求めることにより、音声または映像に基づく類
似度の内で、正答率が高い方の類似度の寄与が増大す
る。

【００１９】請求項５に記載の発明は、映像処理手段か
ら出力される映像標準データの単音節ｉに対する類似度
をＲ_i,_Image、音声処理手段から出力される音声標準デ
ータの単音節ｉに対する類似度をＲ_i,_Sound、映像標準
データ正答率保持手段から読み出される映像標準データ
の単音節ｉに対する正答率のデータをＳ_i,_Image、ま
た、音声標準データ正答率保持手段から読み出される音
声標準データの単音節ｉに対する正答率のデータをＳ_i,
_Soundとするとき、音声認識手段が、Ｓ_i,_Image・Ｒ_i,
_Image＞Ｓ_i,_Sound・Ｒ_i,_Soundである場合には、Ｒ_i,_Total＝Ｓ_i,_Image・Ｒ_i,_Image により単音節ｉに対する総合的な類似度Ｒ_i,_Totalを算
出し、また、Ｓ_i,_Image・Ｒ_i,_Image≦Ｓ_i,_Sound・Ｒ_i,
_Soundである場合には、Ｒ_i,_Total＝Ｓ_i,_Sound・Ｒ_i,_Sound により単音節ｉに対する総合的な類似度Ｒ_i,_Totalを算
出し、映像標準データ及び音声標準データに含まれる全
ての単音節ｉの内で、総合的な類似度Ｒ_i,_Totalが最大
となる単音節を認識結果として出力するようにしたもの
であり、請求項４の場合に比べて、音声識別のための演
算処理を簡略化することができる。

【００２０】請求項６に記載の発明は、音声標準データ
正答率保持手段が、正答率のデータとして、信号対雑音
比に対応する複数種類の正答率のデータを保持し、音声
認識手段が、各単音節に対する総合的な類似度を求める
際に、音声標準データ正答率保持手段から、入力音声デ
ータの信号対雑音比に応じた正答率のデータを読み出す
ようにしたものであり、音声信号を用いた識別の信頼性
が、入力音声信号の信号対雑音比により変動する点を改
善できる。

【００２１】請求項７に記載の発明は、映像処理手段
が、入力映像データから口唇部分の動きを抽出して発声
区間と非発声区間とを検出し、この発声区間の音圧レベ
ルを信号レベル、非発声区間の音圧レベルを雑音レベル
として入力音声データの信号対雑音比を算出するように
したものであり、口唇部分が動いているときは音声信号
が入力しており、口唇が動いていないときは雑音だけが
入力していると見て、入力音声データの信号対雑音比が
求められる。

【００２２】請求項８に記載の発明は、映像処理手段
が、一定時間ごとにサンプルした入力映像データから口
唇部分を抽出し、その抽出した口唇部分の特徴量の時間
ごとの変化量が設定した閾値を超えている場合は発声区
間、閾値を超えない場合は非発声区間として検出するよ
うにしたものであり、口唇部分の映像データを一定時間
間隔でチェックすることにより、発声区間と非発声区間
とを検出することができる。

【００２３】請求項９に記載の発明は、映像入力手段
が、それぞれ異なる方向から口唇を映した映像データが
入力する複数の映像入力手段で構成され、映像処理手段
が、映像入力手段の各々から入力する映像データとこの
映像データの撮影方向から映した映像標準データとの間
の類似度を算出し、映像標準データの各単音節とそれに
対する類似度とを出力する複数の映像処理手段で構成さ
れ、映像標準データ正答率保持手段が、映像処理手段の
各々から出力される映像標準データの各単音節に対する
正答率のデータを保持する複数の映像標準データ正答率
保持手段で構成されるものであり、口唇の形状を種々の
方向から映した映像データが用いられるため、映像によ
る音声識別精度が向上する。

【００２４】請求項１０に記載の発明は、口唇を含む話
者の映像データが入力する映像入力手段と、話者の音声
データが入力する音声入力手段と、単音節を発声する口
唇の映像標準データが複数個含まれるグループと入力映
像データとの間の類似度を算出し、グループとそれに対
する類似度とを出力する映像処理手段と、単音節を発声
する音声の音声標準データが複数個含まれるグループと
入力音声データとの間の類似度を算出し、グループとそ
れに対する類似度とを出力する音声処理手段と、映像処
理手段及び音声処理手段から出力された類似度を用い
て、総合的な類似度が最も大きいグループを識別する音
声認識手段とを備える音声認識装置において、映像処理
手段から出力されるグループに対する正答率のデータを
保持する映像標準データ正答率保持手段と、音声処理手
段から出力されるグループに対する正答率のデータを保
持する音声標準データ正答率保持手段とを設け、音声認
識手段が、映像処理手段及び音声処理手段から出力され
る類似度と、映像標準データ正答率保持手段及び音声標
準データ正答率保持手段から読み出した正答率のデータ
とを組み合わせて、各グループに対する総合的な類似度
を求めるようにしたものであり、認識対象の音声が属し
ているグループを高精度に特定することができ、音声識
別処理を効率化することができる。

【００２５】請求項１１に記載の発明は、請求項１０の
音声認識装置において、映像処理手段から出力されるグ
ループに対する正答率及び音声処理手段から出力される
グループに対する正答率が、それぞれ高くなるように、
各グループに含まれる複数の映像標準データ及び音声標
準データの単音節を設定するようにしたものであり、こ
うすることにより、グループを細分化して、認識対象の
音声を狭い範囲に絞り込むことができる。

【００２６】請求項１２に記載の発明は、請求項１０の
音声認識装置において、映像処理手段及び音声処理手段
が、入力映像データまたは入力音声データとグループに
含まれるすべての映像標準データまたは音声標準データ
との間の類似度を算出し、その中の最大の類似度をグル
ープに対する類似度とするようにしたものであり、こう
してグループに対する類似度を求めることができる。

【００２７】請求項１３に記載の発明は、請求項１０の
音声認識装置において、映像処理手段及び音声処理手段
が、入力映像データまたは入力音声データの特徴量とグ
ループに含まれるすべての映像標準データまたは音声標
準データに共通する特徴量との間の類似度を、グループ
に対する類似度として算出するようにしたものであり、
こうしたやり方で、グループに対する類似度を求めるこ
ともできる。

【００２８】請求項１４に記載の発明は、口唇を含む話
者の映像データと話者の音声データとを用いて話者の音
声を識別する音声認識方法において、映像データと各単
音節を発声する口唇の映像標準データとの間の類似度を
映像標準データの各単音節ごとに求めるとともに、その
単音節が映像データに基づいて識別される場合の信頼度
を表す映像正答率を、この類似度に乗算し、また、音声
データと各単音節を発声する音声の音声標準データとの
間の類似度を音声標準データの各単音節ごとに求めると
ともに、その単音節が音声データに基づいて識別される
場合の信頼度を表す音声正答率を、この類似度に乗算
し、これらの類似度と正答率とを乗算した値を用いて、
各単音節に対する総合的な類似度を求め、総合的な類似
度が最も大きい単音節を識別するようにしたものであ
り、この方法では、映像または音声による識別手法の
内、識別対象の単音節を高精度に識別できる手法に対し
て、より多くの重みを付けて音声を識別することができ
る。

【００２９】請求項１５に記載の発明は、各種の単音節
を発声する口唇の映像データと映像標準データとの間の
類似度を求め、各映像データに対応して類似度が最大と
なる映像標準データの単音節を候補単音節として集計
し、同一の候補単音節の総数の内で、映像データの単音
節が候補単音節と一致するときの候補単音節数の割合
を、その単音節に対する映像正答率とするものであり、
こうした方法で、単音節が映像データに基づいて識別さ
れる場合の信頼度を表す映像正答率を求めることができ
る。

【００３０】請求項１６に記載の発明は、各種の単音節
を発声する音声データと音声標準データとの間の類似度
を求め、各音声データに対応して類似度が最大となる音
声標準データの単音節を候補単音節として集計し、同一
の候補単音節の総数の内で、音声データの単音節が候補
単音節と一致するときの候補単音節数の割合を、その単
音節に対する音声正答率とするものであり、こうした方
法で、単音節が音声データに基づいて識別される場合の
信頼度を表す音声正答率を求めることができる。

【００３１】請求項１７に記載の発明は、映像標準デー
タの単音節ｉに対する類似度をＲ_i,_Image、音声標準デ
ータの単音節ｉに対する類似度をＲ_i,_Sound、映像標準
データの単音節ｉに対する映像正答率のデータをＳ_i,
_Image、また、音声標準データの単音節ｉに対する音声
正答率のデータをＳ_i,_Soundとするとき、単音節ｉに対
する総合的な類似度Ｒ_i,_TotalをＲ_i,_Total＝Ｓ_i,_Image・Ｒ_i,_Image＋Ｓ_i,_Sound・Ｒ_i,
_Sound により算出し、映像標準データ及び音声標準データに含
まれる全ての単音節ｉの内で、総合的な類似度Ｒ_i,
_Totalが最大となる単音節を認識結果として識別するも
のであり、この方法では、映像データ及び音声データに
よる識別結果に対して、正答率による重み付けを行な
い、最終的な判断基準である総合的な類似度を求めてい
る。

【００３２】請求項１８に記載の発明は、映像標準デー
タの単音節ｉに対する類似度をＲ_i,_Image、音声標準デ
ータの単音節ｉに対する類似度をＲ_i,_Sound、映像標準
データの単音節ｉに対する映像正答率のデータをＳ_i,
_Image、また、音声標準データの単音節ｉに対する音声
正答率のデータをＳ_i,_Soundとするとき、Ｓ_i,_Image・Ｒ
_i, _Image＞Ｓ_i,_Sound・Ｒ_i,_Soundであれば、単音節ｉに
対する総合的な類似度Ｒ_i,_TotalをＲ_i,_Total＝Ｓ_i,_Image・Ｒ_i,_Image により算出し、また、Ｓ_i,_Image・Ｒ_i,_Image≦Ｓ_i,
_Sound・Ｒ_i,_Soundであれば、単音節ｉに対する総合的な
類似度Ｒ_i,_TotalをＲ_i,_Total＝Ｓ_i,_Sound・Ｒ_i,_Sound により算出し、映像標準データ及び音声標準データに含
まれる全ての単音節ｉの内で、総合的な類似度Ｒ_i,
_Totalが最大となる単音節を認識結果として識別するも
のであり、この方法では、映像データまたは音声データ
による識別結果の内、信頼性が高い識別結果だけを最終
判断に用いることにより、音声認識に伴う演算処理を効
率化することができる。

【００３３】請求項１９に記載の発明は、請求項１４の
音声認識方法において、音声正答率のデータとして、信
号対雑音比に対応する複数種類のデータを用意し、音声
データの信号対雑音比に応じて、この音声正答率のデー
タを使い分けるようにしたものであり、音声データの信
号対雑音比が変化した場合でも、高精度の音声識別が可
能となる。

【００３４】請求項２０に記載の発明は、請求項１４の
音声認識方法において、映像データとして、複数の異な
る方向から話者の口唇を映した映像データを用いるよう
にしたものであり、映像データによる識別結果の精度を
高めることができる。

【００３５】請求項２１に記載の発明は、口唇を含む話
者の映像データと話者の音声データとを用いて話者の音
声を識別する音声認識方法において、映像データと、単
音節を発声する口唇の映像標準データが複数個含まれる
グループとの間の類似度を各グループごとに求めるとと
もに、そのグループが映像データに基づいて識別される
場合の信頼度を表す映像正答率を、この類似度に乗算
し、また、音声データと、単音節を発声する音声の音声
標準データが複数個含まれるグループとの間の類似度を
各グループごとに求めるとともに、そのグループが音声
データに基づいて識別される場合の信頼度を表す音声正
答率を、この類似度に乗算し、これらの類似度と正答率
とを乗算した値を用いて、各グループに対する総合的な
類似度を求め、総合的な類似度が最も大きいグループを
識別するようにしたものであり、認識対象の単音節が属
しているグループを特定して、その単音節を絞り込むこ
とにより、音声認識処理を効率化することができる。

【００３６】請求項２２に記載の発明は、請求項２１の
音声認識方法において、映像データまたは音声データと
グループとの間の類似度を求めるために、映像データま
たは音声データとグループに含まれるすべての映像標準
データまたは音声標準データとの間の類似度を算出し、
その中の最大の類似度を、グループに対する類似度とす
るものであり、こうした方法により、グループに対する
類似度を求めることができる。

【００３７】請求項２３に記載の発明は、請求項２１の
音声認識方法において、映像データまたは音声データと
グループとの間の類似度を求めるために、映像データま
たは音声データの特徴量とグループに含まれるすべての
映像標準データまたは音声標準データに共通する特徴量
との間の類似度を算出するものであり、こうした方法で
も、グループに対する類似度を求めることができる。

【００３８】以下、本発明の実施の形態について図面を
用いて説明する。

【００３９】（第１の実施の形態）第１の実施形態の音
声認識装置は、図１に示すように、話者の口唇部分を含
む映像が入力するビデオカメラ等の映像入力部１と、話
者の発声する音声が入力するマイク等の音声入力部３
と、各種単音節を発声する口唇部分の映像標準データと
入力した口唇部分の映像との類似度を求め、映像標準デ
ータに含まれる各単音節に対する類似度を出力する映像
処理部２と、各種単音節の音声標準データと入力した音
声との類似度を求め、音声標準データに含まれる各単音
節に対する類似度を出力する音声処理部４と、口唇部分
の映像に基づいて音声認識された各単音節の正答率デー
タ（即ち、その単音節が正解である確率を表わすデー
タ）を保持する映像処理部正答率データ保持部６と、音
声に基づいて音声認識された各単音節の正答率データを
保持する音声処理部正答率データ保持部７と、映像処理
部２及び音声処理部４より入力する類似度、並びに映像
処理部正答率データ保持部６及び音声処理部正答率デー
タ保持部７より読み出した正答率データに基づいて総合
の類似度を求め、その類似度が最も高い単音節を認識結
果として出力する音声認識部５とを備えている。

【００４０】図２は、本発明における正答率を説明する
ための図面である。この図は、例えば、音声処理部４に
単音節が入力したとき（ここでは、簡単のため、入力単
音節を「あ」、「い」、「う」、「え」、「お」の５つ
とした）、音声処理部４より「類似度が最大の単音節」
（これを候補単音節という）として、どの単音節が、ど
の程度の割合で出力されたかを示している。

【００４１】この候補単音節の出現度数のデータは、類
似度を算出するための標準音声データとは別に、単音節
の音声をサンプルとして用意し、これを音声処理部４に
入力して、実際の値を求めている。

【００４２】例えば、音声処理部４に単音節の「あ」を
１００回入力したとき、「あ」が候補単音節となる場合
が９７回有り、「う」が候補単音節となる場合が１回有
り、「お」が候補単音節となる場合が１回有った（残り
の１回は候補単音節を特定できなかった）。

【００４３】こうして求めた候補単音節の出現度数のデ
ータから、ある特定の単音節が出力された場合の、その
単音節が正解である割合、即ち、その単音節の出力数
と、出力数の内で入力単音節に一致する出力の数との
比、を正答率として算出する。

【００４４】例えば、音声処理部が「あ」を出力した数
１０５に対して、入力単音節が「あ」である数は９７で
あるから、図２の例では候補単音節「あ」の正答率は
０．９２４となる。

【００４５】このようにして、音声処理部４に、認識を
行なうすべての単音節の音声データを入力し、これらの
単音節に対する正答率を算出し、正答率データ（Ｓ_i,
_Sound）として音声処理部正答率データ保持部７に格納
する。また、映像に関しても同じように、映像処理部２
に、認識を行なうすべての単音節を発声する話者の口唇
部分を含む映像データを入力し、これらの単音節に対す
る正答率データ（Ｓ_i,_Image）を算出して、映像処理部
正答率データ保持部６に格納する。

【００４６】なお、この正答率データの算出に用いる映
像データ及び音声データは、音声認識の対象者がデータ
を提供すること、あるいは複数の話者がデータ提供者に
なることが望ましく、また、各単音節の入力データ数に
ばらつきが少ないことが望ましい。

【００４７】この装置の映像処理部２は、映像入力部１
より入力する映像から例えば口唇部分の上下方向及び左
右方向の長さ、並びに上下及び左右の長さの比を特徴量
として抽出する。そして、類似度の算出のために予め用
意された複数の単音節の映像標準データのうちで、ｉ番
目の単音節に対応する特徴量と、入力映像から抽出した
特徴量との間の類似度（Ｒ_i,_Image）をＨＭＭにより算
出し、その結果を出力する。

【００４８】また、音声処理部４は、音声入力部３より
入力する音声からケプストラム分析により特徴量を抽出
し、予め用意された複数の単音節の音声標準データのう
ちで、ｉ番目の単音節に対応する特徴量と、入力音声か
ら抽出した特徴量との類似度（Ｒ_i,_Sound）をＨＭＭに
より算出し、その結果を出力する。

【００４９】音声認識部５は、映像処理部２の出力（Ｒ
_i,_Image）及び音声処理部４の出力（Ｒ_i,_Sound）と、映
像処理部正答率データ保持部６に保持された正答率デー
タ（Ｓ_i,_Image）及び音声処理部正答率データ保持部７
に保持された正答率データ（Ｓ_i,_Sound）とから、ｉ番
目の単音節に対する映像及び音声の総合類似度（Ｒ_i,
_Total）を次式（２）により算出する。Ｒ_i,_Total＝Ｓ_i,_Image・Ｒ_i,_Image＋Ｓ_i,_Sound・Ｒ_i,_Sound ……（式２）音声認識部５は、映像標準データ及び音声標準データに
含まれる全ての単音節に対して類似度Ｒ_i,_Totalを求
め、この類似度Ｒ_i,_Totalが最大となる単音節を認識結
果として出力する。

【００５０】このように、この実施形態の音声認識装置
は、映像及び音声の類似度と正答率とを組み合わせて音
声認識を行なっている。この正答率を組み合わせること
は、単音節を識別する場合に、音声または映像を用いる
識別方法の内で、その単音節を効果的に識別できる方法
に対して、より多くの重み付けを行なうことであり、そ
うすることにより、騒音環境下においても高精度の音声
認識を実現することができる。

【００５１】なお、映像処理部２及び音声処理部４にお
ける類似度の算出には、ＨＭＭ以外に、ニューラルネッ
トワーク等、音声認識に一般に用いられている他の手法
を用いても良い。

【００５２】（第２の実施の形態）第２の実施形態の音
声認識装置は、第１の実施形態（図１）と同一構成を備
え、ただ、音声認識部５での総合類似度（Ｒ_i,_Total）
の算出動作だけが違っている。

【００５３】この装置の音声認識部５は、Ｓ_i,_Image・
Ｒ_i,_Image＞Ｓ_i,_Sound・Ｒ_i,_Soundであるときには、Ｒ_i,_Total＝Ｓ_i,_Image・Ｒ_i,_Image ………（式３）の値を算出し、一方、Ｓ_i,_Image・Ｒ_i,_Image≦Ｓ_i,
_Sound・Ｒ_i,_Soundであるときには、Ｒ_i,_Total＝Ｓ_i,_Sound・Ｒ_i,_Sound ………（式４）の値を算出する。そして、Ｒ_i,_Totalが最大となる単音
節を認識結果として出力する。

【００５４】このように、この実施形態の装置では、映
像データまたは音声データによる識別結果の内、信頼性
が高い方を選択して識別に用いている。こうすることに
より、高い認識精度を保ちながら、音声認識における演
算処理を簡略化することができる。

【００５５】（第３の実施の形態）第３の実施形態の音
声認識装置は、入力音声のＳ／Ｎが変動する場合でも、
高精度の音声認識が可能である。音声を用いた音声認識
は、その正答率が入力音声のＳ／Ｎとともに変化する。
この装置では、こうした変化に対応できるように構成し
ている。

【００５６】この装置は、図３に示すように、映像処理
部２により抽出された口唇の映像から、発声している区
間（発声区間）と発声していない区間（非発声区間）と
を検出する発声区間検出部８と、発声区間の音圧レベル
と非発声区間の音圧レベルとから信号対雑音比（Ｓ／
Ｎ）を算出する音圧レベル検出部９と、音声に基づいて
音声認識された単音節の正答率データ（Ｓ_i,_Sound）と
して、入力音声信号のＳ／Ｎに応じた複数種類のデータ
を保持する音声処理部正答率データ保持部７とを備えて
おり、音声処理部正答率データ保持部７が保持している
正答率データ（Ｓ_i,_Sound）の内、音圧レベル検出部９
で検出されたＳ／Ｎに対応する正答率データが音声認識
部５に出力される。その他の構成は第１の実施形態（図
１）と変わりがない。

【００５７】この装置では、映像処理部２が、入力する
映像から口唇部分の特徴量を抽出し、その特徴量と各単
音節の映像標準データにおける特徴量との類似度（Ｒ_i,
_Image）を算出して、音声認識部５に出力する。

【００５８】発声区間検出部８は、映像処理部２で抽出
された口唇の上下方向及び左右方向の長さ、あるいはそ
れらの比などの特徴量を一定時間毎にサンプルし、その
特徴量の時間毎の変化量が、設定した閾値を超えている
場合には発声区間、閾値を超えない場合には非発声区間
と識別し、識別結果を音声処理部４に出力する。

【００５９】音声処理部４は、音声入力部３より入力す
る音声信号を発声区間と非発声区間とに区分して音圧レ
ベル検出部９に出力し、また、入力音声信号から特徴量
を抽出して、各単音節の音声標準データにおける特徴量
との類似度（Ｒ_i,_Sound）を算出して、音声認識部５に
出力する。

【００６０】音圧レベル検出部９は、発声区間及び非発
声区間のそれぞれの時間区間における平均音圧レベルを
検出し、発声区間の音圧レベルを信号レベル、非発声区
間の音圧レベルを雑音レベルとして信号対雑音比（Ｓ／
Ｎ）を算出し、音声処理部正答率データ保持部７に出力
する。

【００６１】音声処理部正答率データ保持部７には、音
声に基づいて認識された単音節の正答率データ（Ｓ_i,
_Sound）として、入力音声信号の複数のＳ／Ｎに対応す
る複数種類のデータが保持されている。そして、音声処
理部正答率データ保持部７は、音圧レベル検出部９から
Ｓ／Ｎが入力すると、そのＳ／Ｎに対応する種類の正答
率データ（Ｓ_i,_Sound）を出力用のデータとして用意す
る。

【００６２】音声認識部５は、映像処理部２及び音声処
理部４の各出力（Ｒ_i,_Image）、（Ｒ_i,_Sound）と、映像
処理部正答率データ保持部６から読み出した正答率デー
タ（Ｓ_i,_Image）と、音声処理部正答率データ保持部７
から選択した、Ｓ／Ｎに対応する正答率データ（Ｓ_i,
_Sound）とを用いて、ｉ番目の単音節に対する映像及び
音声の総合類似度（Ｒ_i,_Total）を式（２）により算出
し、Ｒ_i,_Totalが最大となる単音節を認識結果として出
力する。

【００６３】このように、この実施形態の音声認識装置
では、音声に基づく音声認識結果の正答率データ（Ｓ_i,
_Sound）としてＳ／Ｎに応じた値を用いているため、Ｓ
／Ｎが異なる入力音声信号に対しても、より確実に音声
認識処理を行なうことが可能となる。

【００６４】（第４の実施の形態）第４の実施形態の音
声認識装置は、種々の方向から撮影した話者の映像を音
声認識処理に利用する。

【００６５】この装置は、図４に示すように、話者を正
面から撮影した映像が入力する映像入力部１と、話者を
側面から撮影した映像が入力する映像入力部10と、映像
入力部１から入力する正面映像の口唇部分における特徴
量を抽出し、その特徴量と、各単音節を話す口唇部分の
正面映像より成る映像標準データの特徴量との類似度を
求める映像処理部２と、映像入力部10から入力する側面
映像の口唇部分における特徴量を抽出し、その特徴量
と、各単音節を話す口唇部分の側面映像より成る映像標
準データの特徴量との類似度を求める映像処理部11と、
正面映像に対する正答率データ（Ｓ_i,_Image1）を保持す
る映像処理部正答率データ保持部６と、側面映像に対す
る正答率データ（Ｓ_i,_Image2）を保持する映像処理部正
答率データ保持部12とを備えている。その他の構成は、
第１の実施形態（図１）と変わりがない。

【００６６】この装置では、映像入力部１に、話者を正
面から撮影した映像の映像信号が入力し、映像入力部10
に、話者を側面から撮影した映像の映像信号が入力す
る。

【００６７】映像処理部２は、映像入力部１より入力す
る正面映像から口唇部分の特徴量を抽出し、その特徴量
と、各単音節を発声する口唇部分の正面映像より成る映
像標準データの特徴量との類似度（Ｒ_i,_Image1）を算出
して、音声認識部５に出力し、また、映像処理部11は、
映像入力部10より入力する側面映像から口唇部分の特徴
量を抽出し、その特徴量と、各単音節を発声する口唇部
分の側面映像より成る映像標準データの特徴量との類似
度（Ｒ_i,_Image1）を算出して、音声認識部５に出力す
る。

【００６８】また、映像処理部正答率データ保持部６に
は、口唇部分の正面映像に基づいて音声認識された各単
音節の正答率データ（Ｓ_i,_Image1）が保持され、映像処
理部正答率データ12には、口唇部分の側面映像に基づい
て音声認識された各単音節の正答率データ
（Ｓ_i,_Image2）が保持されている。

【００６９】音声認識部５は、映像処理部２の出力（Ｒ
_i,_Image1）、映像処理部11の出力（Ｒ_i,_Image2）、及び
音声処理部４の出力（Ｒ_i,_Image）、並びに映像処理部
正答率データ保持部６から読み出した正答率データ（Ｓ
_i,_Image1）、映像処理部正答率データ保持部12から読み
出した正答率データ（Ｓ_i,_Image2）、及び音声処理部正
答率データ保持部７から読み出した正答率データ（Ｓ_i,
_Sound）を用いて、ｉ番目の単音節に対する映像及び音
声の総合類似度（Ｒ_i,_Total）を式（５）により算出す
る。Ｒ_i,_Total＝Ｓ_i,_Image1・Ｒ_i,_Image1＋Ｓ_i,_Image2・Ｒ_i,_Image2 ＋Ｓ_i,_Sound・Ｒ_i,_Sound ………（式５）そして、Ｒ_i,_Totalが最大となる単音節を認識結果とし
て出力する。

【００７０】このように、この実施形態の装置では、複
数の方向から撮影した話者の映像を用いることにより、
より確かな音声認識を行なうことが可能となる。

【００７１】なお、この実施形態では、話者の正面及び
側面の映像を用いる場合について説明したが、正面及び
側面以外に斜め方向からの映像など、より多くの映像を
用いることにより、より確かな音声認識が可能となる。

【００７２】（第５の実施の形態）第５の実施形態で
は、発声された音声の単音節が属しているグループを特
定する音声認識装置について説明する。

【００７３】例えば、「あ行」のグループに属する単音
節（「あ」「い」「う」「え」「お」）に共通する特徴
があり、また、同一の子音を含む「か行」、「さ行」、
‥の各グループに属する単音節に共通する特徴があるも
のとすると、入力音声の単音節の特徴と各グループの特
徴との類似度を比較することにより、入力音声の単音節
がどのグループに属しているかを特定することができ
る。

【００７４】音声認識の手法には、例えば「モグラ」と
いう単語が発声された時、「モ」「グ」「ラ」の各々に
対応する単音節の候補としてそれぞれ複数の単音節を選
び出し、次に、「モ」「グ」「ラ」の各候補の組み合わ
せを順番に当たり、その組み合わせが単語としての意味
を持つか否か、などから、最終的に発声された単語を識
別する方法が知られている。

【００７５】このような場合に、例えば、先頭の単音節
が属しているグループを特定することができれば、検討
すべき各候補の組み合わせの数が大幅に減少し、音声認
識処理を効率化することができる。

【００７６】第５の実施形態の音声認識装置は、音声デ
ータと映像データとを併用することにより、単音節が属
しているグループを高精度に特定することができる。

【００７７】この装置は、第１の実施形態（図１）と同
じように、映像入力部１、映像処理部２、音声入力部
３、音声処理部４、映像処理部正答率データ保持部６、
音声処理部正答率データ保持部７及び音声認識部５を備
えている。

【００７８】但し、映像処理部２は、話者の口唇部分の
入力映像から抽出した特徴を、個々の単音節を発声する
口唇部分の映像標準データと比較するのでは無く、複数
の単音節より成る各グループの特徴と比較して、それぞ
れのグループに対する類似度を出力する。

【００７９】また、音声処理部４は、入力音声から抽出
した特徴を、個々の単音節の音声標準データと比較する
のでは無く、複数の単音節より成る各グループの特徴と
比較して、それぞれのグループに対する類似度を出力す
る。

【００８０】この各グループとの類似度を求めるため、
映像処理部２及び音声処理部４は、例えば、入力単音節
の特徴量と、グループに含まれるすべての単音節の特徴
量との類似度を算出し、類似度が最大となる単音節の類
似度を、そのグループの類似度とする。あるいは、グル
ープに含まれるすべての単音節に共通する特徴量のパタ
ーンをそのグループの特徴量として、入力単音節の特徴
量との間の類似度を算出する。

【００８１】また、映像処理部正答率データ保持部６及
び音声処理部正答率データ保持部７には、映像処理部２
または音声処理部４から出力されるグループの正答率が
保持されている。この正答率を得るために、図５に例示
するように、映像入力部１または音声入力部３から、単
音節の映像または音声（「か」「き」「く」）のサンプ
ルを入力して、映像処理部２または音声処理部４からど
のグループ（「あ行」「か行」‥「わ行」）が出力され
るかを実測し、それぞれのグループの出力総数に対し
て、そのグループが正解であった数（入力した単音節が
そのグループに含まれていた出力数）の割合を算出す
る。

【００８２】音声認識部５は、映像処理部２及び音声処
理部４からの出力と、映像処理部正答率データ保持部６
及び音声処理部正答率データ保持部７に保持された正答
率データとから、ｉ番目のグループに対する総合類似度
（Ｒ_i,_Total）を前記（式２）により算出する。そし
て、Ｒ_i,_Totalが最大となるグループを認識結果として
出力する。

【００８３】こうして、この装置は、発声された音声の
単音節が属しているグループを高精度に特定することが
できる。

【００８４】また、グループ分けの例としては、唇音
（/ｂ/、/ｍ/、/ｐ/）を含む単音節グループ、拗音（/
ｙ/）を含む単音節グループ、唇音及び拗音を含まない
グループの３つに分けることもできる。

【００８５】この場合、唇音は口唇の形に特徴が現れる
ため、唇音を含むグループの正答率は、映像処理部２の
正答率の方が高く、音声処理部４の正答率の方が低い傾
向がある。逆に、拗音は発声音に特徴が現れるため、拗
音を含むグループの正答率は、音声処理部４の正答率の
方が高く、映像処理部２の正答率の方が低い傾向があ
る。そのため、各グループに対する総合類似度を（式
２）により算出すると、唇音を対象とするものについて
は、映像処理部２から出力された類似度の寄与が高くな
り、拗音を対象とするものについては、音声処理部４か
ら出力された類似度の寄与が高くなる。

【００８６】従って、映像と音声とを併用して音声識別
を行なうことにより、入力した単音節が唇音を含むか含
まないか、あるいは、拗音を含むか含まないかを、より
確かに認識することができる。

【００８７】このように、認識する単音節をグループ化
する場合に、映像処理部２の出力の正答率が高いグルー
プと音声処理部４の出力の正答率が高いグループとをそ
れぞれ選択することにより、音声のみ、あるいは映像の
みによりグループを識別する場合に比べて、より細分化
されたグループの認識が可能となる。

【００８８】

【発明の効果】以上の説明から明らかなように、本発明
の音声認識装置は、入力する音声データや映像データと
標準データとの類似度、及びそれらの正答率を組み合わ
て音声認識を行なっているため、雑音が存在する環境下
でも、より確実な音声認識を実現することができる。

【００８９】また、本発明の音声認識方法は、映像また
は音声を用いる識別の内、識別対象の単音節を高精度に
識別できる方の識別結果に対して、より多くの重みを付
けて音声認識しているため、騒音環境下においても、信
頼性の高い判定を行なうことができる。

【図面の簡単な説明】

【図１】本発明の第１の実施形態における音声認識装置
の概略構成図、

【図２】第１の実施形態における正答率データの算出方
法を説明する図、

【図３】本発明の第３の実施形態における音声認識装置
の概略構成図、

【図４】本発明の第４の実施形態における音声認識装置
の概略構成図、

【図５】本発明の第５の実施形態における単音節のグル
ープの分類を説明する図、

【図６】従来の音声認識装置の概略構成図である。

【符号の説明】

１映像入力部２映像処理部３音声入力部４音声処理部５音声認識部６映像処理部正答率データ保持部７音声処理部正答率データ保持部８発声区間検出部９音声レベル検出部 10 第二の映像入力部 11 第二の映像処理部 12 第二の映像処理部正答率データ保持部

Claims

【特許請求の範囲】

【請求項１】口唇を含む話者の映像データが入力する
映像入力手段と、話者の音声データが入力する音声入力
手段と、各単音節を発声する口唇の映像標準データと入
力映像データとの間の類似度を算出し、映像標準データ
の各単音節とそれに対する類似度とを出力する映像処理
手段と、各単音節を発声する音声の音声標準データと入
力音声データとの間の類似度を算出し、音声標準データ
の各単音節とそれに対する類似度とを出力する音声処理
手段と、前記映像処理手段及び音声処理手段から出力さ
れた類似度を用いて、総合的な類似度が最も大きい単音
節を識別する音声認識手段とを備える音声認識装置にお
いて、前記映像処理手段から出力される映像標準データの各単
音節に対する正答率のデータを保持する映像標準データ
正答率保持手段と、前記音声処理手段から出力される音声標準データの各単
音節に対する正答率のデータを保持する音声標準データ
正答率保持手段とを具備し、前記音声認識手段が、前記
映像処理手段及び音声処理手段から出力される類似度
と、前記映像標準データ正答率保持手段及び音声標準デ
ータ正答率保持手段から読み出した正答率のデータとを
組み合わせて、各単音節に対する総合的な類似度を求め
ることを特徴とする音声認識装置。
【請求項２】前記映像入力手段に各種の単音節に関す
る前記映像データを入力し、各入力映像データに対応し
て前記映像処理手段から出力される類似度が最大の映像
標準データの単音節を候補単音節として集計し、前記映
像処理手段から出力された同一の候補単音節の総数の内
で、入力映像データの単音節と一致する候補単音節の数
の割合を、映像標準データのその単音節に対する正答率
として設定することを特徴とする請求項１に記載の音声
認識装置。
【請求項３】前記音声入力手段に各種の単音節の音声
データを入力し、各入力音声データに対応して前記音声
処理手段から出力される類似度が最大の音声標準データ
の単音節を候補単音節として集計し、前記音声処理手段
から出力された同一の候補単音節の総数の内で、入力音
声データの単音節と一致する候補単音節の数の割合を、
音声標準データのその単音節に対する正答率として設定
することを特徴とする請求項１に記載の音声認識装置。
【請求項４】前記映像処理手段から出力される映像標
準データの単音節ｉに対する前記類似度をＲ_i,_Image、
前記音声処理手段から出力される音声標準データの単音
節ｉに対する前記類似度をＲ_i,_Sound、前記映像標準デ
ータ正答率保持手段から読み出される映像標準データの
単音節ｉに対する正答率のデータをＳ_i,_Image、また、
前記音声標準データ正答率保持手段から読み出される音
声標準データの単音節ｉに対する正答率のデータをＳ_i,
_Soundとするとき、前記音声認識手段がＲ_i,_Total＝Ｓ_i,_Image・Ｒ_i,_Image＋Ｓ_i,_Sound・Ｒ_i,
_Sound により単音節ｉに対する総合的な類似度Ｒ_i,_Totalを算
出し、映像標準データ及び音声標準データに含まれる全
ての単音節ｉの内で、前記総合的な類似度Ｒ_i,_Totalが
最大となる単音節を認識結果として出力することを特徴
とする請求項１に記載の音声認識装置。
【請求項５】前記映像処理手段から出力される映像標
準データの単音節ｉに対する前記類似度をＲ_i,_Image、
前記音声処理手段から出力される音声標準データの単音
節ｉに対する前記類似度をＲ_i,_Sound、前記映像標準デ
ータ正答率保持手段から読み出される映像標準データの
単音節ｉに対する正答率のデータをＳ_i,_Image、また、
前記音声標準データ正答率保持手段から読み出される音
声標準データの単音節ｉに対する正答率のデータをＳ_i,
_Soundとするとき、前記音声認識手段が、Ｓ_i,_Image・Ｒ
_i,_Image＞Ｓ_i,_Sound・Ｒ_i,_Soundである場合には、Ｒ_i,_Total＝Ｓ_i,_Image・Ｒ_i,_Image により単音節ｉに対する総合的な類似度Ｒ_i,_Totalを算
出し、また、Ｓ_i,_Image・Ｒ_i,_Image≦Ｓ_i,_Sound・Ｒ_i,
_Soundである場合には、Ｒ_i,_Total＝Ｓ_i,_Sound・Ｒ_i,_Sound により単音節ｉに対する総合的な類似度Ｒ_i,_Totalを算
出し、映像標準データ及び音声標準データに含まれる全
ての単音節ｉの内で、前記総合的な類似度Ｒ_i,_Totalが
最大となる単音節を認識結果として出力することを特徴
とする請求項１に記載の音声認識装置。
【請求項６】前記音声標準データ正答率保持手段が、
前記正答率のデータとして、信号対雑音比に対応する複
数種類の正答率のデータを保持し、前記音声認識手段
が、各単音節に対する総合的な類似度を求める際に、前
記音声標準データ正答率保持手段から、入力音声データ
の信号対雑音比に応じた前記正答率のデータを読み出す
ことを特徴とする請求項１に記載の音声認識装置。
【請求項７】前記映像処理手段が、入力映像データか
ら口唇部分の動きを抽出して発声区間と非発声区間とを
検出し、前記発声区間の音圧レベルを信号レベル、前記
非発声区間の音圧レベルを雑音レベルとして、前記入力
音声データの信号対雑音比が算出されることを特徴とす
る請求項６に記載の音声認識装置。
【請求項８】前記映像処理手段が、一定時間ごとにサ
ンプルした入力映像データから口唇部分を抽出し、その
抽出した口唇部分の特徴量の時間毎の変化量が設定した
閾値を超えている場合は発声区間、閾値を超えない場合
は非発声区間として検出することを特徴とする請求項７
に記載の音声認識装置。
【請求項９】前記映像入力手段が、それぞれ異なる方
向から映した前記映像データが入力する複数の映像入力
手段から成り、前記映像処理手段が、前記映像入力手段
の各々から入力する映像データと該映像データの撮影方
向から映した前記映像標準データとの間の類似度を算出
し、映像標準データの各単音節とそれに対する類似度と
を出力する複数の映像処理手段から成り、前記映像標準
データ正答率保持手段が、前記映像処理手段の各々から
出力される映像標準データの各単音節に対する正答率の
データを保持する複数の映像標準データ正答率保持手段
から成ることを特徴とする請求項１に記載の音声認識装
置。
【請求項１０】口唇を含む話者の映像データが入力す
る映像入力手段と、話者の音声データが入力する音声入
力手段と、単音節を発声する口唇の映像標準データが複
数個含まれるグループと入力映像データとの間の類似度
を算出し、前記グループとそれに対する類似度とを出力
する映像処理手段と、前記単音節を発声する音声の音声
標準データが複数個含まれるグループと入力音声データ
との間の類似度を算出し、前記グループとそれに対する
類似度とを出力する音声処理手段と、前記映像処理手段
及び音声処理手段から出力された類似度を用いて、総合
的な類似度が最も大きいグループを識別する音声認識手
段とを備える音声認識装置において、前記映像処理手段から出力されるグループに対する正答
率のデータを保持する映像標準データ正答率保持手段
と、前記音声処理手段から出力されるグループに対する正答
率のデータを保持する音声標準データ正答率保持手段と
を具備し、前記音声認識手段が、前記映像処理手段及び
音声処理手段から出力される類似度と、前記映像標準デ
ータ正答率保持手段及び音声標準データ正答率保持手段
から読み出した正答率のデータとを組み合わせて、各グ
ループに対する総合的な類似度を求めることを特徴とす
る音声認識装置。
【請求項１１】前記映像処理手段から出力されるグル
ープに対する正答率及び前記音声処理手段から出力され
るグループに対する正答率が、それぞれ高くなるよう
に、前記グループに含まれる複数の映像標準データ及び
音声標準データの単音節を設定することを特徴とする請
求項１０に記載の音声認識装置。
【請求項１２】前記映像処理手段及び音声処理手段
が、入力映像データまたは入力音声データと前記グルー
プに含まれるすべての映像標準データまたは音声標準デ
ータとの間の類似度を算出し、その中の最大の類似度を
前記グループに対する類似度とすることを特徴とする請
求項１０に記載の音声認識装置。
【請求項１３】前記映像処理手段及び音声処理手段
が、入力映像データまたは入力音声データの特徴量と前
記グループに含まれるすべての映像標準データまたは音
声標準データに共通する特徴量との間の類似度を、前記
グループに対する類似度として算出することを特徴とす
る請求項１０に記載の音声認識装置。
【請求項１４】口唇を含む話者の映像データと話者の
音声データとを用いて話者の音声を識別する音声認識方
法において、前記映像データと各単音節を発声する口唇の映像標準デ
ータとの間の類似度を前記映像標準データの各単音節ご
とに求めるとともに、その単音節が映像データに基づい
て識別される場合の信頼度を表す映像正答率を、前記類
似度に乗算し、また、前記音声データと各単音節を発声
する音声の音声標準データとの間の類似度を前記音声標
準データの各単音節ごとに求めるとともに、その単音節
が音声データに基づいて識別される場合の信頼度を表す
音声正答率を、前記類似度に乗算し、これらの類似度と
正答率とを乗算した値を用いて、各単音節に対する総合
的な類似度を求め、前記総合的な類似度が最も大きい単
音節を識別することを特徴とする音声認識方法。
【請求項１５】各種の単音節を発声する口唇の前記映
像データと前記映像標準データとの間の類似度を求め、
各映像データに対応して前記類似度が最大となる映像標
準データの単音節を候補単音節として集計し、同一の候
補単音節の総数の内で、前記映像データの単音節が候補
単音節と一致するときの候補単音節数の割合を、その単
音節に対する映像正答率とすることを特徴とする請求項
１４に記載の音声認識方法。
【請求項１６】各種の単音節を発声する前記音声デー
タと前記音声標準データとの間の類似度を求め、各音声
データに対応して前記類似度が最大となる音声標準デー
タの単音節を候補単音節として集計し、同一の候補単音
節の総数の内で、前記音声データの単音節が候補単音節
と一致するときの候補単音節数の割合を、その単音節に
対する音声正答率とすることを特徴とする請求項１４に
記載の音声認識方法。
【請求項１７】前記映像標準データの単音節ｉに対す
る類似度をＲ_i,_Image、前記音声標準データの単音節ｉ
に対する類似度をＲ_i,_Sound、前記映像標準データの単
音節ｉに対する映像正答率のデータをＳ_i,_Image、ま
た、前記音声標準データの単音節ｉに対する音声正答率
のデータをＳ_i,_Soundとするとき、単音節ｉに対する総
合的な類似度Ｒ_i,_TotalをＲ_i,_Total＝Ｓ_i,_Image・Ｒ_i,_Image＋Ｓ_i,_Sound・Ｒ_i,
_Sound により算出し、映像標準データ及び音声標準データに含
まれる全ての単音節ｉの内で、前記総合的な類似度Ｒ_i,
_Totalが最大となる単音節を認識結果として識別するこ
とを特徴とする請求項１４に記載の音声認識方法。
【請求項１８】前記映像標準データの単音節ｉに対す
る類似度をＲ_i,_Image、前記音声標準データの単音節ｉ
に対する類似度をＲ_i,_Sound、前記映像標準データの単
音節ｉに対する映像正答率のデータをＳ_i,_Image、ま
た、前記音声標準データの単音節ｉに対する音声正答率
のデータをＳ_i,_Soundとするとき、Ｓ_i,_Image・Ｒ_i,
_Image＞Ｓ_i,_Sound・Ｒ_i,_Soundであれば、単音節ｉに対
する総合的な類似度Ｒ_i,_TotalをＲ_i,_Total＝Ｓ_i,_Image・Ｒ_i,_Image により算出し、また、Ｓ_i,_Image・Ｒ_i,_Image≦Ｓ_i,
_Sound・Ｒ_i,_Soundであれば、単音節ｉに対する総合的な
類似度Ｒ_i,_TotalをＲ_i,_Total＝Ｓ_i,_Sound・Ｒ_i,_Sound により算出し、映像標準データ及び音声標準データに含
まれる全ての単音節ｉの内で、前記総合的な類似度Ｒ_i,
_Totalが最大となる単音節を認識結果として識別するこ
とを特徴とする請求項１４に記載の音声認識方法。
【請求項１９】前記音声正答率のデータとして、信号
対雑音比に対応する複数種類のデータを用意し、前記音
声データの信号対雑音比に応じて、前記音声正答率のデ
ータを使い分けることを特徴とする請求項１４に記載の
音声認識方法。
【請求項２０】前記映像データとして、複数の異なる
方向から話者の口唇を映した映像データを用いることを
特徴とする請求項１４に記載の音声認識方法。
【請求項２１】口唇を含む話者の映像データと話者の
音声データとを用いて話者の音声を識別する音声認識方
法において、前記映像データと、単音節を発声する口唇の映像標準デ
ータが複数個含まれるグループとの間の類似度を各グル
ープごとに求めるとともに、そのグループが映像データ
に基づいて識別される場合の信頼度を表す映像正答率
を、前記類似度に乗算し、また、前記音声データと、単音節を発声する音声の音声
標準データが複数個含まれるグループとの間の類似度を
各グループごとに求めるとともに、そのグループが音声
データに基づいて識別される場合の信頼度を表す音声正
答率を、前記類似度に乗算し、これらの類似度と正答率とを乗算した値を用いて、各グ
ループに対する総合的な類似度を求め、前記総合的な類
似度が最も大きいグループを識別することを特徴とする
音声認識方法。
【請求項２２】前記映像データまたは音声データと前
記グループとの間の類似度を求めるために、前記映像デ
ータまたは音声データと前記グループに含まれるすべて
の映像標準データまたは音声標準データとの間の類似度
を算出し、その中の最大の類似度を前記グループに対す
る類似度とすることを特徴とする請求項２１に記載の音
声認識方法。
【請求項２３】前記映像データまたは音声データと前
記グループとの間の類似度を求めるために、前記映像デ
ータまたは音声データの特徴量と前記グループに含まれ
るすべての映像標準データまたは音声標準データに共通
する特徴量との間の類似度を算出することを特徴とする
請求項２１に記載の音声認識方法。