JPH1185190A - 音声認識装置及び音声認識方法 - Google Patents

音声認識装置及び音声認識方法

Info

Publication number
JPH1185190A
JPH1185190A JP9256201A JP25620197A JPH1185190A JP H1185190 A JPH1185190 A JP H1185190A JP 9256201 A JP9256201 A JP 9256201A JP 25620197 A JP25620197 A JP 25620197A JP H1185190 A JPH1185190 A JP H1185190A
Authority
JP
Japan
Prior art keywords
data
video
similarity
voice
standard data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9256201A
Other languages
English (en)
Other versions
JP3798530B2 (ja
Inventor
Hiroshi Furuyama
浩志 古山
Ikuo Inoue
郁夫 井上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP25620197A priority Critical patent/JP3798530B2/ja
Publication of JPH1185190A publication Critical patent/JPH1185190A/ja
Application granted granted Critical
Publication of JP3798530B2 publication Critical patent/JP3798530B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Image Processing (AREA)

Abstract

(57)【要約】 【課題】 騒音環境下で高い認識率を有する音声認識装
置を提供する。 【解決手段】 口唇の映像が入力する映像入力手段1
と、音声が入力する音声入力手段3と、口唇の映像標準
データと入力映像との類似度を算出し、映像標準データ
の各単音節ごとの類似度を出力する映像処理手段2と、
音声標準データと入力音声との類似度を算出し、音声標
準データの各単音節ごとの類似度を出力する音声処理手
段4と、映像処理手段から出力される映像標準データの
各単音節に対する正答率データを保持する映像標準デー
タ正答率保持手段6と、音声処理手段から出力される音
声標準データの各単音節に対する正答率データを保持す
る音声標準データ正答率保持手段7と、各類似度及び正
答率を組合せて総合的類似度を求める音声認識手段5と
を設ける。音声認識手段は、総合的類似度が最も大きい
単音節を認識結果として識別する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、話者の口唇を含む
映像信号と音声信号とを用いて音声認識を行なう音声認
識装置と、その音声認識方法に関し、特に、認識率の向
上を図るものである。
【0002】
【従来の技術】音声認識を行なう場合に、音声信号だけ
でなく、話者の口唇を含む映像を併せて用いる音声認識
装置が、Sintani等によって報告された“An Isolated W
ord Speech Recognition Using Fusion of Auditory an
d Visual Information"(IEICETrans. Fundamentals, Vo
l. E79-A, No. 6, p777-783(1996))に記載されている。
音声信号だけを用いる音声認識では、雑音が混入する
と、認識精度が急激に低下するが、口唇の映像を併用す
る場合には、認識精度の低下の程度を和らげることがで
きる。
【0003】図6は、この従来の音声認識装置の概略構
成を示している。この装置は、話者の口唇部分を含む映
像を入力するビデオカメラ等の映像入力部1と、話者が
発声する音声を入力するマイク等の音声入力部3と、各
種単語を発声する口唇部分の映像標準データと入力した
口唇部分の映像との類似度を求め、映像標準データに含
まれる各単語に対する類似度を出力する映像処理部2
と、各種単語の音声標準データと入力した音声との類似
度を求め、音声標準データに含まれる各単語に対する類
似度を出力する音声処理部4と、映像処理部2及び音声
処理部4より入力する類似度から最も類似度の高い単語
を算出し、それを認識結果として出力する音声認識部5
とを備えている。
【0004】この装置の映像処理部2は、入力映像から
例えば口唇部分の上下方向及び左右方向の長さ、並びに
上下及び左右の長さの比を特徴量として抽出する。そし
て、類似度の算出のために予め用意された複数の単語の
映像標準データのうちで、i番目の単語に対応する特徴
量と、入力映像から抽出した特徴量との間の類似度(R
i,Image)を、パターン認識の手法として良く知られ
た、隠れマルコフモデル(以下、HMMと略す)により
算出して出力する。
【0005】また、音声処理部4は、入力音声からケプ
ストラム分析により特徴量を抽出し、予め用意された複
数の単語の音声標準データのうちで、i番目の単語に対
応する特徴量と、入力音声から抽出した特徴量との類似
度(Ri,Sound)をHMMにより算出して出力する。
【0006】また、音声認識部5は、映像処理部2の出
力(Ri,Image)及び音声処理部4の出力(Ri,Sound
から、i番目の単語に対して映像及び音声を総合した類
似度(Ri,Total)を次式(1)により算出する。 Ri,Total=α・Ri,Image+(1−α)・Ri,Sound ………(式1) ここで、α(0≦α≦1)は、係数決定用に(類似度算
出用とは別に)サンプルした映像と音声データとを用い
て、認識率が最大となるように予め設定した係数であ
る。
【0007】音声認識部5は、映像標準データ及び音声
標準データに含まれる全ての単語に対して類似度Ri,
Totalを求め、この類似度Ri,Totalが最大となる単語を
認識結果として出力する。
【0008】このように、この音声認識装置は、音声信
号とともに、口唇情報を含む映像信号を併せて用いてい
るため、雑音が存在する場合でも、認識率の急激な低下
を免れることができ、音声認識装置の応用分野を騒音環
境下で使用される装置にまで広げることができる。
【0009】
【発明が解決しようとする課題】音声認識装置をカーナ
ビゲーション装置に応用して、装置への指令を音声で与
えることが検討されているが、しかし、こうした騒音環
境下で使用される装置に組み込むためには、音声認識装
置の騒音下での認識率をさらに高めることが必要であ
る。
【0010】本発明は、こうした要請に応えるものであ
り、騒音環境下の音声認識において、高い認識率を実現
することができる音声認識装置を提供し、また、その音
声認識方法を提供することを目的としている。
【0011】
【課題を解決するための手段】そこで、本発明の音声認
識装置では、口唇を含む話者の映像データが入力する映
像入力手段と、話者の音声データが入力する音声入力手
段と、各単音節を発声する口唇の映像標準データと入力
映像データとの間の類似度を算出し、映像標準データの
各単音節とそれに対する類似度とを出力する映像処理手
段と、各単音節を発声する音声の音声標準データと入力
音声データとの間の類似度を算出し、音声標準データの
各単音節とそれに対する類似度とを出力する音声処理手
段と、映像処理手段及び音声処理手段から出力された類
似度を用いて、総合的な類似度が最も大きい単音節を識
別する音声認識手段とを設けるとともに、映像処理手段
から出力される映像標準データの各単音節に対する正答
率のデータを保持する映像標準データ正答率保持手段
と、音声処理手段から出力される音声標準データの各単
音節に対する正答率のデータを保持する音声標準データ
正答率保持手段とを設け、音声認識手段が、映像処理手
段及び音声処理手段から出力される類似度と、映像標準
データ正答率保持手段及び音声標準データ正答率保持手
段から読み出した正答率のデータとを組み合わせて、各
単音節に対する総合的な類似度を求めるようにしてい
る。
【0012】この装置では、識別対象の単音節が、口唇
の映像を基に識別した方が高精度に識別できる種類の単
音節である場合には、映像による識別結果が最終判断に
大きく寄与し、また、識別対象の単音節が、音声を基に
識別した方が高精度に識別できる単音節である場合に
は、音声による識別結果が最終判断に大きく寄与するこ
とになる。そのため、騒音環境下でも信頼性の高い音声
認識が可能となる。
【0013】また、本発明の音声認識方法では、映像デ
ータと各単音節を発声する口唇の映像標準データとの間
の類似度を映像標準データの各単音節ごとに求めるとと
もに、その単音節が映像データに基づいて識別される場
合の信頼度を表す正答率を、この類似度に乗算し、ま
た、音声データと各単音節を発声する音声の音声標準デ
ータとの間の類似度を音声標準データの各単音節ごとに
求めるとともに、その単音節が音声データに基づいて識
別される場合の信頼度を表す正答率を、この類似度に乗
算し、これらの類似度と正答率とを乗算した値を用い
て、各単音節に対する総合的な類似度を求め、総合的な
類似度が最も大きい単音節を識別するようにしている。
【0014】この方法では、映像または音声による識別
手法の内、識別対象の単音節を高精度に識別できる手法
に対して、より多くの重みを付けて音声を識別すること
ができるため、騒音環境下でも、より確実な判定を行な
うことが可能となる。
【0015】
【発明の実施の形態】本発明の請求項1に記載の発明
は、口唇を含む話者の映像データが入力する映像入力手
段と、話者の音声データが入力する音声入力手段と、各
単音節を発声する口唇の映像標準データと入力映像デー
タとの間の類似度を算出し、映像標準データの各単音節
とそれに対する類似度とを出力する映像処理手段と、各
単音節を発声する音声の音声標準データと入力音声デー
タとの間の類似度を算出し、音声標準データの各単音節
とそれに対する類似度とを出力する音声処理手段と、映
像処理手段及び音声処理手段から出力された類似度を用
いて、総合的な類似度が最も大きい単音節を識別する音
声認識手段とを備える音声認識装置において、映像処理
手段から出力される映像標準データの各単音節に対する
正答率のデータを保持する映像標準データ正答率保持手
段と、音声処理手段から出力される音声標準データの各
単音節に対する正答率のデータを保持する音声標準デー
タ正答率保持手段とを設け、音声認識手段が、映像処理
手段及び音声処理手段から出力される類似度と、映像標
準データ正答率保持手段及び音声標準データ正答率保持
手段から読み出した正答率のデータとを組み合わせて、
各単音節に対する総合的な類似度を求めるようにしたも
のであり、識別対象の単音節が、口唇の形状や動きを基
に識別した方が高精度に識別できる種類の単音節である
場合には、映像による識別の寄与率を大きくし、また、
識別対象の単音節が、音声を基に識別した方が高精度に
識別できる単音節である場合には、音声による識別の寄
与率を大きくすることにより、騒音環境下でも信頼性の
高い音声認識が可能となる。
【0016】請求項2に記載の発明は、映像入力手段に
各種の単音節に関する映像データを入力し、各入力映像
データに対応して映像処理手段から出力される類似度が
最大の映像標準データの単音節を候補単音節として集計
し、映像処理手段から出力された同一の候補単音節の総
数の内で、入力映像データの単音節と一致する候補単音
節の数の割合を、映像標準データのその単音節に対する
正答率として設定するものであり、予め用意した映像デ
ータのサンプルを用いてこの操作が行なわれ、映像標準
データの単音節に対する正答率が設定される。
【0017】請求項3に記載の発明は、音声入力手段に
各種の単音節の音声データを入力し、各入力音声データ
に対応して音声処理手段から出力される類似度が最大の
音声標準データの単音節を候補単音節として集計し、音
声処理手段から出力された同一の候補単音節の総数の内
で、入力音声データの単音節と一致する候補単音節の数
の割合を、音声標準データのその単音節に対する正答率
として設定するものであり、予め用意した音声データの
サンプルを用いてこの操作が行なわれ、音声標準データ
の単音節に対する正答率が設定される。
【0018】請求項4に記載の発明は、映像処理手段か
ら出力される映像標準データの単音節iに対する類似度
をRi,Image、音声処理手段から出力される音声標準デ
ータの単音節iに対する類似度をRi,Sound、映像標準
データ正答率保持手段から読み出される映像標準データ
の単音節iに対する正答率のデータをSi,Image、ま
た、音声標準データ正答率保持手段から読み出される音
声標準データの単音節iに対する正答率のデータをSi,
Soundとするとき、音声認識手段が、 Ri,Total=Si,Image・Ri,Image+Si,Sound・Ri,
Sound により単音節iに対する総合的な類似度Ri,Totalを算
出し、映像標準データ及び音声標準データに含まれる全
ての単音節iの内で、総合的な類似度Ri,Totalが最大
となる単音節を認識結果として出力するようにしたもの
であり、最終的な判断基準となる総合的な類似度を、こ
の式から求めることにより、音声または映像に基づく類
似度の内で、正答率が高い方の類似度の寄与が増大す
る。
【0019】請求項5に記載の発明は、映像処理手段か
ら出力される映像標準データの単音節iに対する類似度
をRi,Image、音声処理手段から出力される音声標準デ
ータの単音節iに対する類似度をRi,Sound、映像標準
データ正答率保持手段から読み出される映像標準データ
の単音節iに対する正答率のデータをSi,Image、ま
た、音声標準データ正答率保持手段から読み出される音
声標準データの単音節iに対する正答率のデータをSi,
Soundとするとき、音声認識手段が、Si,Image・Ri,
Image>Si,Sound・Ri,Soundである場合には、 Ri,Total=Si,Image・Ri,Image により単音節iに対する総合的な類似度Ri,Totalを算
出し、また、Si,Image・Ri,Image≦Si,Sound・Ri,
Soundである場合には、 Ri,Total=Si,Sound・Ri,Sound により単音節iに対する総合的な類似度Ri,Totalを算
出し、映像標準データ及び音声標準データに含まれる全
ての単音節iの内で、総合的な類似度Ri,Totalが最大
となる単音節を認識結果として出力するようにしたもの
であり、請求項4の場合に比べて、音声識別のための演
算処理を簡略化することができる。
【0020】請求項6に記載の発明は、音声標準データ
正答率保持手段が、正答率のデータとして、信号対雑音
比に対応する複数種類の正答率のデータを保持し、音声
認識手段が、各単音節に対する総合的な類似度を求める
際に、音声標準データ正答率保持手段から、入力音声デ
ータの信号対雑音比に応じた正答率のデータを読み出す
ようにしたものであり、音声信号を用いた識別の信頼性
が、入力音声信号の信号対雑音比により変動する点を改
善できる。
【0021】請求項7に記載の発明は、映像処理手段
が、入力映像データから口唇部分の動きを抽出して発声
区間と非発声区間とを検出し、この発声区間の音圧レベ
ルを信号レベル、非発声区間の音圧レベルを雑音レベル
として入力音声データの信号対雑音比を算出するように
したものであり、口唇部分が動いているときは音声信号
が入力しており、口唇が動いていないときは雑音だけが
入力していると見て、入力音声データの信号対雑音比が
求められる。
【0022】請求項8に記載の発明は、映像処理手段
が、一定時間ごとにサンプルした入力映像データから口
唇部分を抽出し、その抽出した口唇部分の特徴量の時間
ごとの変化量が設定した閾値を超えている場合は発声区
間、閾値を超えない場合は非発声区間として検出するよ
うにしたものであり、口唇部分の映像データを一定時間
間隔でチェックすることにより、発声区間と非発声区間
とを検出することができる。
【0023】請求項9に記載の発明は、映像入力手段
が、それぞれ異なる方向から口唇を映した映像データが
入力する複数の映像入力手段で構成され、映像処理手段
が、映像入力手段の各々から入力する映像データとこの
映像データの撮影方向から映した映像標準データとの間
の類似度を算出し、映像標準データの各単音節とそれに
対する類似度とを出力する複数の映像処理手段で構成さ
れ、映像標準データ正答率保持手段が、映像処理手段の
各々から出力される映像標準データの各単音節に対する
正答率のデータを保持する複数の映像標準データ正答率
保持手段で構成されるものであり、口唇の形状を種々の
方向から映した映像データが用いられるため、映像によ
る音声識別精度が向上する。
【0024】請求項10に記載の発明は、口唇を含む話
者の映像データが入力する映像入力手段と、話者の音声
データが入力する音声入力手段と、単音節を発声する口
唇の映像標準データが複数個含まれるグループと入力映
像データとの間の類似度を算出し、グループとそれに対
する類似度とを出力する映像処理手段と、単音節を発声
する音声の音声標準データが複数個含まれるグループと
入力音声データとの間の類似度を算出し、グループとそ
れに対する類似度とを出力する音声処理手段と、映像処
理手段及び音声処理手段から出力された類似度を用い
て、総合的な類似度が最も大きいグループを識別する音
声認識手段とを備える音声認識装置において、映像処理
手段から出力されるグループに対する正答率のデータを
保持する映像標準データ正答率保持手段と、音声処理手
段から出力されるグループに対する正答率のデータを保
持する音声標準データ正答率保持手段とを設け、音声認
識手段が、映像処理手段及び音声処理手段から出力され
る類似度と、映像標準データ正答率保持手段及び音声標
準データ正答率保持手段から読み出した正答率のデータ
とを組み合わせて、各グループに対する総合的な類似度
を求めるようにしたものであり、認識対象の音声が属し
ているグループを高精度に特定することができ、音声識
別処理を効率化することができる。
【0025】請求項11に記載の発明は、請求項10の
音声認識装置において、映像処理手段から出力されるグ
ループに対する正答率及び音声処理手段から出力される
グループに対する正答率が、それぞれ高くなるように、
各グループに含まれる複数の映像標準データ及び音声標
準データの単音節を設定するようにしたものであり、こ
うすることにより、グループを細分化して、認識対象の
音声を狭い範囲に絞り込むことができる。
【0026】請求項12に記載の発明は、請求項10の
音声認識装置において、映像処理手段及び音声処理手段
が、入力映像データまたは入力音声データとグループに
含まれるすべての映像標準データまたは音声標準データ
との間の類似度を算出し、その中の最大の類似度をグル
ープに対する類似度とするようにしたものであり、こう
してグループに対する類似度を求めることができる。
【0027】請求項13に記載の発明は、請求項10の
音声認識装置において、映像処理手段及び音声処理手段
が、入力映像データまたは入力音声データの特徴量とグ
ループに含まれるすべての映像標準データまたは音声標
準データに共通する特徴量との間の類似度を、グループ
に対する類似度として算出するようにしたものであり、
こうしたやり方で、グループに対する類似度を求めるこ
ともできる。
【0028】請求項14に記載の発明は、口唇を含む話
者の映像データと話者の音声データとを用いて話者の音
声を識別する音声認識方法において、映像データと各単
音節を発声する口唇の映像標準データとの間の類似度を
映像標準データの各単音節ごとに求めるとともに、その
単音節が映像データに基づいて識別される場合の信頼度
を表す映像正答率を、この類似度に乗算し、また、音声
データと各単音節を発声する音声の音声標準データとの
間の類似度を音声標準データの各単音節ごとに求めると
ともに、その単音節が音声データに基づいて識別される
場合の信頼度を表す音声正答率を、この類似度に乗算
し、これらの類似度と正答率とを乗算した値を用いて、
各単音節に対する総合的な類似度を求め、総合的な類似
度が最も大きい単音節を識別するようにしたものであ
り、この方法では、映像または音声による識別手法の
内、識別対象の単音節を高精度に識別できる手法に対し
て、より多くの重みを付けて音声を識別することができ
る。
【0029】請求項15に記載の発明は、各種の単音節
を発声する口唇の映像データと映像標準データとの間の
類似度を求め、各映像データに対応して類似度が最大と
なる映像標準データの単音節を候補単音節として集計
し、同一の候補単音節の総数の内で、映像データの単音
節が候補単音節と一致するときの候補単音節数の割合
を、その単音節に対する映像正答率とするものであり、
こうした方法で、単音節が映像データに基づいて識別さ
れる場合の信頼度を表す映像正答率を求めることができ
る。
【0030】請求項16に記載の発明は、各種の単音節
を発声する音声データと音声標準データとの間の類似度
を求め、各音声データに対応して類似度が最大となる音
声標準データの単音節を候補単音節として集計し、同一
の候補単音節の総数の内で、音声データの単音節が候補
単音節と一致するときの候補単音節数の割合を、その単
音節に対する音声正答率とするものであり、こうした方
法で、単音節が音声データに基づいて識別される場合の
信頼度を表す音声正答率を求めることができる。
【0031】請求項17に記載の発明は、映像標準デー
タの単音節iに対する類似度をRi,Image、音声標準デ
ータの単音節iに対する類似度をRi,Sound、映像標準
データの単音節iに対する映像正答率のデータをSi,
Image、また、音声標準データの単音節iに対する音声
正答率のデータをSi,Soundとするとき、単音節iに対
する総合的な類似度Ri,Totalを Ri,Total=Si,Image・Ri,Image+Si,Sound・Ri,
Sound により算出し、映像標準データ及び音声標準データに含
まれる全ての単音節iの内で、総合的な類似度Ri,
Totalが最大となる単音節を認識結果として識別するも
のであり、この方法では、映像データ及び音声データに
よる識別結果に対して、正答率による重み付けを行な
い、最終的な判断基準である総合的な類似度を求めてい
る。
【0032】請求項18に記載の発明は、映像標準デー
タの単音節iに対する類似度をRi,Image、音声標準デ
ータの単音節iに対する類似度をRi,Sound、映像標準
データの単音節iに対する映像正答率のデータをSi,
Image、また、音声標準データの単音節iに対する音声
正答率のデータをSi,Soundとするとき、Si,Image・R
i, Image>Si,Sound・Ri,Soundであれば、単音節iに
対する総合的な類似度Ri,Totalを Ri,Total=Si,Image・Ri,Image により算出し、また、Si,Image・Ri,Image≦Si,
Sound・Ri,Soundであれば、単音節iに対する総合的な
類似度Ri,Totalを Ri,Total=Si,Sound・Ri,Sound により算出し、映像標準データ及び音声標準データに含
まれる全ての単音節iの内で、総合的な類似度Ri,
Totalが最大となる単音節を認識結果として識別するも
のであり、この方法では、映像データまたは音声データ
による識別結果の内、信頼性が高い識別結果だけを最終
判断に用いることにより、音声認識に伴う演算処理を効
率化することができる。
【0033】請求項19に記載の発明は、請求項14の
音声認識方法において、音声正答率のデータとして、信
号対雑音比に対応する複数種類のデータを用意し、音声
データの信号対雑音比に応じて、この音声正答率のデー
タを使い分けるようにしたものであり、音声データの信
号対雑音比が変化した場合でも、高精度の音声識別が可
能となる。
【0034】請求項20に記載の発明は、請求項14の
音声認識方法において、映像データとして、複数の異な
る方向から話者の口唇を映した映像データを用いるよう
にしたものであり、映像データによる識別結果の精度を
高めることができる。
【0035】請求項21に記載の発明は、口唇を含む話
者の映像データと話者の音声データとを用いて話者の音
声を識別する音声認識方法において、映像データと、単
音節を発声する口唇の映像標準データが複数個含まれる
グループとの間の類似度を各グループごとに求めるとと
もに、そのグループが映像データに基づいて識別される
場合の信頼度を表す映像正答率を、この類似度に乗算
し、また、音声データと、単音節を発声する音声の音声
標準データが複数個含まれるグループとの間の類似度を
各グループごとに求めるとともに、そのグループが音声
データに基づいて識別される場合の信頼度を表す音声正
答率を、この類似度に乗算し、これらの類似度と正答率
とを乗算した値を用いて、各グループに対する総合的な
類似度を求め、総合的な類似度が最も大きいグループを
識別するようにしたものであり、認識対象の単音節が属
しているグループを特定して、その単音節を絞り込むこ
とにより、音声認識処理を効率化することができる。
【0036】請求項22に記載の発明は、請求項21の
音声認識方法において、映像データまたは音声データと
グループとの間の類似度を求めるために、映像データま
たは音声データとグループに含まれるすべての映像標準
データまたは音声標準データとの間の類似度を算出し、
その中の最大の類似度を、グループに対する類似度とす
るものであり、こうした方法により、グループに対する
類似度を求めることができる。
【0037】請求項23に記載の発明は、請求項21の
音声認識方法において、映像データまたは音声データと
グループとの間の類似度を求めるために、映像データま
たは音声データの特徴量とグループに含まれるすべての
映像標準データまたは音声標準データに共通する特徴量
との間の類似度を算出するものであり、こうした方法で
も、グループに対する類似度を求めることができる。
【0038】以下、本発明の実施の形態について図面を
用いて説明する。
【0039】(第1の実施の形態)第1の実施形態の音
声認識装置は、図1に示すように、話者の口唇部分を含
む映像が入力するビデオカメラ等の映像入力部1と、話
者の発声する音声が入力するマイク等の音声入力部3
と、各種単音節を発声する口唇部分の映像標準データと
入力した口唇部分の映像との類似度を求め、映像標準デ
ータに含まれる各単音節に対する類似度を出力する映像
処理部2と、各種単音節の音声標準データと入力した音
声との類似度を求め、音声標準データに含まれる各単音
節に対する類似度を出力する音声処理部4と、口唇部分
の映像に基づいて音声認識された各単音節の正答率デー
タ(即ち、その単音節が正解である確率を表わすデー
タ)を保持する映像処理部正答率データ保持部6と、音
声に基づいて音声認識された各単音節の正答率データを
保持する音声処理部正答率データ保持部7と、映像処理
部2及び音声処理部4より入力する類似度、並びに映像
処理部正答率データ保持部6及び音声処理部正答率デー
タ保持部7より読み出した正答率データに基づいて総合
の類似度を求め、その類似度が最も高い単音節を認識結
果として出力する音声認識部5とを備えている。
【0040】図2は、本発明における正答率を説明する
ための図面である。この図は、例えば、音声処理部4に
単音節が入力したとき(ここでは、簡単のため、入力単
音節を「あ」、「い」、「う」、「え」、「お」の5つ
とした)、音声処理部4より「類似度が最大の単音節」
(これを候補単音節という)として、どの単音節が、ど
の程度の割合で出力されたかを示している。
【0041】この候補単音節の出現度数のデータは、類
似度を算出するための標準音声データとは別に、単音節
の音声をサンプルとして用意し、これを音声処理部4に
入力して、実際の値を求めている。
【0042】例えば、音声処理部4に単音節の「あ」を
100回入力したとき、「あ」が候補単音節となる場合
が97回有り、「う」が候補単音節となる場合が1回有
り、「お」が候補単音節となる場合が1回有った(残り
の1回は候補単音節を特定できなかった)。
【0043】こうして求めた候補単音節の出現度数のデ
ータから、ある特定の単音節が出力された場合の、その
単音節が正解である割合、即ち、その単音節の出力数
と、出力数の内で入力単音節に一致する出力の数との
比、を正答率として算出する。
【0044】例えば、音声処理部が「あ」を出力した数
105に対して、入力単音節が「あ」である数は97で
あるから、図2の例では候補単音節「あ」の正答率は
0.924となる。
【0045】このようにして、音声処理部4に、認識を
行なうすべての単音節の音声データを入力し、これらの
単音節に対する正答率を算出し、正答率データ(Si,
Sound)として音声処理部正答率データ保持部7に格納
する。また、映像に関しても同じように、映像処理部2
に、認識を行なうすべての単音節を発声する話者の口唇
部分を含む映像データを入力し、これらの単音節に対す
る正答率データ(Si,Image)を算出して、映像処理部
正答率データ保持部6に格納する。
【0046】なお、この正答率データの算出に用いる映
像データ及び音声データは、音声認識の対象者がデータ
を提供すること、あるいは複数の話者がデータ提供者に
なることが望ましく、また、各単音節の入力データ数に
ばらつきが少ないことが望ましい。
【0047】この装置の映像処理部2は、映像入力部1
より入力する映像から例えば口唇部分の上下方向及び左
右方向の長さ、並びに上下及び左右の長さの比を特徴量
として抽出する。そして、類似度の算出のために予め用
意された複数の単音節の映像標準データのうちで、i番
目の単音節に対応する特徴量と、入力映像から抽出した
特徴量との間の類似度(Ri,Image)をHMMにより算
出し、その結果を出力する。
【0048】また、音声処理部4は、音声入力部3より
入力する音声からケプストラム分析により特徴量を抽出
し、予め用意された複数の単音節の音声標準データのう
ちで、i番目の単音節に対応する特徴量と、入力音声か
ら抽出した特徴量との類似度(Ri,Sound)をHMMに
より算出し、その結果を出力する。
【0049】音声認識部5は、映像処理部2の出力(R
i,Image)及び音声処理部4の出力(Ri,Sound)と、映
像処理部正答率データ保持部6に保持された正答率デー
タ(Si,Image)及び音声処理部正答率データ保持部7
に保持された正答率データ(Si,Sound)とから、i番
目の単音節に対する映像及び音声の総合類似度(Ri,
Total)を次式(2)により算出する。 Ri,Total=Si,Image・Ri,Image+Si,Sound・Ri,Sound ……(式2) 音声認識部5は、映像標準データ及び音声標準データに
含まれる全ての単音節に対して類似度Ri,Totalを求
め、この類似度Ri,Totalが最大となる単音節を認識結
果として出力する。
【0050】このように、この実施形態の音声認識装置
は、映像及び音声の類似度と正答率とを組み合わせて音
声認識を行なっている。この正答率を組み合わせること
は、単音節を識別する場合に、音声または映像を用いる
識別方法の内で、その単音節を効果的に識別できる方法
に対して、より多くの重み付けを行なうことであり、そ
うすることにより、騒音環境下においても高精度の音声
認識を実現することができる。
【0051】なお、映像処理部2及び音声処理部4にお
ける類似度の算出には、HMM以外に、ニューラルネッ
トワーク等、音声認識に一般に用いられている他の手法
を用いても良い。
【0052】(第2の実施の形態)第2の実施形態の音
声認識装置は、第1の実施形態(図1)と同一構成を備
え、ただ、音声認識部5での総合類似度(Ri,Total
の算出動作だけが違っている。
【0053】この装置の音声認識部5は、Si,Image
i,Image>Si,Sound・Ri,Soundであるときには、 Ri,Total=Si,Image・Ri,Image ………(式3) の値を算出し、一方、Si,Image・Ri,Image≦Si,
Sound・Ri,Soundであるときには、 Ri,Total=Si,Sound・Ri,Sound ………(式4) の値を算出する。そして、Ri,Totalが最大となる単音
節を認識結果として出力する。
【0054】このように、この実施形態の装置では、映
像データまたは音声データによる識別結果の内、信頼性
が高い方を選択して識別に用いている。こうすることに
より、高い認識精度を保ちながら、音声認識における演
算処理を簡略化することができる。
【0055】(第3の実施の形態)第3の実施形態の音
声認識装置は、入力音声のS/Nが変動する場合でも、
高精度の音声認識が可能である。音声を用いた音声認識
は、その正答率が入力音声のS/Nとともに変化する。
この装置では、こうした変化に対応できるように構成し
ている。
【0056】この装置は、図3に示すように、映像処理
部2により抽出された口唇の映像から、発声している区
間(発声区間)と発声していない区間(非発声区間)と
を検出する発声区間検出部8と、発声区間の音圧レベル
と非発声区間の音圧レベルとから信号対雑音比(S/
N)を算出する音圧レベル検出部9と、音声に基づいて
音声認識された単音節の正答率データ(Si,Sound)と
して、入力音声信号のS/Nに応じた複数種類のデータ
を保持する音声処理部正答率データ保持部7とを備えて
おり、音声処理部正答率データ保持部7が保持している
正答率データ(Si,Sound)の内、音圧レベル検出部9
で検出されたS/Nに対応する正答率データが音声認識
部5に出力される。その他の構成は第1の実施形態(図
1)と変わりがない。
【0057】この装置では、映像処理部2が、入力する
映像から口唇部分の特徴量を抽出し、その特徴量と各単
音節の映像標準データにおける特徴量との類似度(Ri,
Image)を算出して、音声認識部5に出力する。
【0058】発声区間検出部8は、映像処理部2で抽出
された口唇の上下方向及び左右方向の長さ、あるいはそ
れらの比などの特徴量を一定時間毎にサンプルし、その
特徴量の時間毎の変化量が、設定した閾値を超えている
場合には発声区間、閾値を超えない場合には非発声区間
と識別し、識別結果を音声処理部4に出力する。
【0059】音声処理部4は、音声入力部3より入力す
る音声信号を発声区間と非発声区間とに区分して音圧レ
ベル検出部9に出力し、また、入力音声信号から特徴量
を抽出して、各単音節の音声標準データにおける特徴量
との類似度(Ri,Sound)を算出して、音声認識部5に
出力する。
【0060】音圧レベル検出部9は、発声区間及び非発
声区間のそれぞれの時間区間における平均音圧レベルを
検出し、発声区間の音圧レベルを信号レベル、非発声区
間の音圧レベルを雑音レベルとして信号対雑音比(S/
N)を算出し、音声処理部正答率データ保持部7に出力
する。
【0061】音声処理部正答率データ保持部7には、音
声に基づいて認識された単音節の正答率データ(Si,
Sound)として、入力音声信号の複数のS/Nに対応す
る複数種類のデータが保持されている。そして、音声処
理部正答率データ保持部7は、音圧レベル検出部9から
S/Nが入力すると、そのS/Nに対応する種類の正答
率データ(Si,Sound)を出力用のデータとして用意す
る。
【0062】音声認識部5は、映像処理部2及び音声処
理部4の各出力(Ri,Image)、(Ri,Sound)と、映像
処理部正答率データ保持部6から読み出した正答率デー
タ(Si,Image)と、音声処理部正答率データ保持部7
から選択した、S/Nに対応する正答率データ(Si,
Sound)とを用いて、i番目の単音節に対する映像及び
音声の総合類似度(Ri,Total)を式(2)により算出
し、Ri,Totalが最大となる単音節を認識結果として出
力する。
【0063】このように、この実施形態の音声認識装置
では、音声に基づく音声認識結果の正答率データ(Si,
Sound)としてS/Nに応じた値を用いているため、S
/Nが異なる入力音声信号に対しても、より確実に音声
認識処理を行なうことが可能となる。
【0064】(第4の実施の形態)第4の実施形態の音
声認識装置は、種々の方向から撮影した話者の映像を音
声認識処理に利用する。
【0065】この装置は、図4に示すように、話者を正
面から撮影した映像が入力する映像入力部1と、話者を
側面から撮影した映像が入力する映像入力部10と、映像
入力部1から入力する正面映像の口唇部分における特徴
量を抽出し、その特徴量と、各単音節を話す口唇部分の
正面映像より成る映像標準データの特徴量との類似度を
求める映像処理部2と、映像入力部10から入力する側面
映像の口唇部分における特徴量を抽出し、その特徴量
と、各単音節を話す口唇部分の側面映像より成る映像標
準データの特徴量との類似度を求める映像処理部11と、
正面映像に対する正答率データ(Si,Image1)を保持す
る映像処理部正答率データ保持部6と、側面映像に対す
る正答率データ(Si,Image2)を保持する映像処理部正
答率データ保持部12とを備えている。その他の構成は、
第1の実施形態(図1)と変わりがない。
【0066】この装置では、映像入力部1に、話者を正
面から撮影した映像の映像信号が入力し、映像入力部10
に、話者を側面から撮影した映像の映像信号が入力す
る。
【0067】映像処理部2は、映像入力部1より入力す
る正面映像から口唇部分の特徴量を抽出し、その特徴量
と、各単音節を発声する口唇部分の正面映像より成る映
像標準データの特徴量との類似度(Ri,Image1)を算出
して、音声認識部5に出力し、また、映像処理部11は、
映像入力部10より入力する側面映像から口唇部分の特徴
量を抽出し、その特徴量と、各単音節を発声する口唇部
分の側面映像より成る映像標準データの特徴量との類似
度(Ri,Image1)を算出して、音声認識部5に出力す
る。
【0068】また、映像処理部正答率データ保持部6に
は、口唇部分の正面映像に基づいて音声認識された各単
音節の正答率データ(Si,Image1)が保持され、映像処
理部正答率データ12には、口唇部分の側面映像に基づい
て音声認識された各単音節の正答率データ
(Si,Image2)が保持されている。
【0069】音声認識部5は、映像処理部2の出力(R
i,Image1)、映像処理部11の出力(Ri,Image2)、及び
音声処理部4の出力(Ri,Image)、並びに映像処理部
正答率データ保持部6から読み出した正答率データ(S
i,Image1)、映像処理部正答率データ保持部12から読み
出した正答率データ(Si,Image2)、及び音声処理部正
答率データ保持部7から読み出した正答率データ(Si,
Sound)を用いて、i番目の単音節に対する映像及び音
声の総合類似度(Ri,Total)を式(5)により算出す
る。 Ri,Total=Si,Image1・Ri,Image1+Si,Image2・Ri,Image2 +Si,Sound・Ri,Sound ………(式5) そして、Ri,Totalが最大となる単音節を認識結果とし
て出力する。
【0070】このように、この実施形態の装置では、複
数の方向から撮影した話者の映像を用いることにより、
より確かな音声認識を行なうことが可能となる。
【0071】なお、この実施形態では、話者の正面及び
側面の映像を用いる場合について説明したが、正面及び
側面以外に斜め方向からの映像など、より多くの映像を
用いることにより、より確かな音声認識が可能となる。
【0072】(第5の実施の形態)第5の実施形態で
は、発声された音声の単音節が属しているグループを特
定する音声認識装置について説明する。
【0073】例えば、「あ行」のグループに属する単音
節(「あ」「い」「う」「え」「お」)に共通する特徴
があり、また、同一の子音を含む「か行」、「さ行」、
‥の各グループに属する単音節に共通する特徴があるも
のとすると、入力音声の単音節の特徴と各グループの特
徴との類似度を比較することにより、入力音声の単音節
がどのグループに属しているかを特定することができ
る。
【0074】音声認識の手法には、例えば「モグラ」と
いう単語が発声された時、「モ」「グ」「ラ」の各々に
対応する単音節の候補としてそれぞれ複数の単音節を選
び出し、次に、「モ」「グ」「ラ」の各候補の組み合わ
せを順番に当たり、その組み合わせが単語としての意味
を持つか否か、などから、最終的に発声された単語を識
別する方法が知られている。
【0075】このような場合に、例えば、先頭の単音節
が属しているグループを特定することができれば、検討
すべき各候補の組み合わせの数が大幅に減少し、音声認
識処理を効率化することができる。
【0076】第5の実施形態の音声認識装置は、音声デ
ータと映像データとを併用することにより、単音節が属
しているグループを高精度に特定することができる。
【0077】この装置は、第1の実施形態(図1)と同
じように、映像入力部1、映像処理部2、音声入力部
3、音声処理部4、映像処理部正答率データ保持部6、
音声処理部正答率データ保持部7及び音声認識部5を備
えている。
【0078】但し、映像処理部2は、話者の口唇部分の
入力映像から抽出した特徴を、個々の単音節を発声する
口唇部分の映像標準データと比較するのでは無く、複数
の単音節より成る各グループの特徴と比較して、それぞ
れのグループに対する類似度を出力する。
【0079】また、音声処理部4は、入力音声から抽出
した特徴を、個々の単音節の音声標準データと比較する
のでは無く、複数の単音節より成る各グループの特徴と
比較して、それぞれのグループに対する類似度を出力す
る。
【0080】この各グループとの類似度を求めるため、
映像処理部2及び音声処理部4は、例えば、入力単音節
の特徴量と、グループに含まれるすべての単音節の特徴
量との類似度を算出し、類似度が最大となる単音節の類
似度を、そのグループの類似度とする。あるいは、グル
ープに含まれるすべての単音節に共通する特徴量のパタ
ーンをそのグループの特徴量として、入力単音節の特徴
量との間の類似度を算出する。
【0081】また、映像処理部正答率データ保持部6及
び音声処理部正答率データ保持部7には、映像処理部2
または音声処理部4から出力されるグループの正答率が
保持されている。この正答率を得るために、図5に例示
するように、映像入力部1または音声入力部3から、単
音節の映像または音声(「か」「き」「く」)のサンプ
ルを入力して、映像処理部2または音声処理部4からど
のグループ(「あ行」「か行」‥「わ行」)が出力され
るかを実測し、それぞれのグループの出力総数に対し
て、そのグループが正解であった数(入力した単音節が
そのグループに含まれていた出力数)の割合を算出す
る。
【0082】音声認識部5は、映像処理部2及び音声処
理部4からの出力と、映像処理部正答率データ保持部6
及び音声処理部正答率データ保持部7に保持された正答
率データとから、i番目のグループに対する総合類似度
(Ri,Total)を前記(式2)により算出する。そし
て、Ri,Totalが最大となるグループを認識結果として
出力する。
【0083】こうして、この装置は、発声された音声の
単音節が属しているグループを高精度に特定することが
できる。
【0084】また、グループ分けの例としては、唇音
(/b/、/m/、/p/)を含む単音節グループ、拗音(/
y/)を含む単音節グループ、唇音及び拗音を含まない
グループの3つに分けることもできる。
【0085】この場合、唇音は口唇の形に特徴が現れる
ため、唇音を含むグループの正答率は、映像処理部2の
正答率の方が高く、音声処理部4の正答率の方が低い傾
向がある。逆に、拗音は発声音に特徴が現れるため、拗
音を含むグループの正答率は、音声処理部4の正答率の
方が高く、映像処理部2の正答率の方が低い傾向があ
る。そのため、各グループに対する総合類似度を(式
2)により算出すると、唇音を対象とするものについて
は、映像処理部2から出力された類似度の寄与が高くな
り、拗音を対象とするものについては、音声処理部4か
ら出力された類似度の寄与が高くなる。
【0086】従って、映像と音声とを併用して音声識別
を行なうことにより、入力した単音節が唇音を含むか含
まないか、あるいは、拗音を含むか含まないかを、より
確かに認識することができる。
【0087】このように、認識する単音節をグループ化
する場合に、映像処理部2の出力の正答率が高いグルー
プと音声処理部4の出力の正答率が高いグループとをそ
れぞれ選択することにより、音声のみ、あるいは映像の
みによりグループを識別する場合に比べて、より細分化
されたグループの認識が可能となる。
【0088】
【発明の効果】以上の説明から明らかなように、本発明
の音声認識装置は、入力する音声データや映像データと
標準データとの類似度、及びそれらの正答率を組み合わ
て音声認識を行なっているため、雑音が存在する環境下
でも、より確実な音声認識を実現することができる。
【0089】また、本発明の音声認識方法は、映像また
は音声を用いる識別の内、識別対象の単音節を高精度に
識別できる方の識別結果に対して、より多くの重みを付
けて音声認識しているため、騒音環境下においても、信
頼性の高い判定を行なうことができる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態における音声認識装置
の概略構成図、
【図2】第1の実施形態における正答率データの算出方
法を説明する図、
【図3】本発明の第3の実施形態における音声認識装置
の概略構成図、
【図4】本発明の第4の実施形態における音声認識装置
の概略構成図、
【図5】本発明の第5の実施形態における単音節のグル
ープの分類を説明する図、
【図6】従来の音声認識装置の概略構成図である。
【符号の説明】
1 映像入力部 2 映像処理部 3 音声入力部 4 音声処理部 5 音声認識部 6 映像処理部正答率データ保持部 7 音声処理部正答率データ保持部 8 発声区間検出部 9 音声レベル検出部 10 第二の映像入力部 11 第二の映像処理部 12 第二の映像処理部正答率データ保持部

Claims (23)

    【特許請求の範囲】
  1. 【請求項1】 口唇を含む話者の映像データが入力する
    映像入力手段と、話者の音声データが入力する音声入力
    手段と、各単音節を発声する口唇の映像標準データと入
    力映像データとの間の類似度を算出し、映像標準データ
    の各単音節とそれに対する類似度とを出力する映像処理
    手段と、各単音節を発声する音声の音声標準データと入
    力音声データとの間の類似度を算出し、音声標準データ
    の各単音節とそれに対する類似度とを出力する音声処理
    手段と、前記映像処理手段及び音声処理手段から出力さ
    れた類似度を用いて、総合的な類似度が最も大きい単音
    節を識別する音声認識手段とを備える音声認識装置にお
    いて、 前記映像処理手段から出力される映像標準データの各単
    音節に対する正答率のデータを保持する映像標準データ
    正答率保持手段と、 前記音声処理手段から出力される音声標準データの各単
    音節に対する正答率のデータを保持する音声標準データ
    正答率保持手段とを具備し、前記音声認識手段が、前記
    映像処理手段及び音声処理手段から出力される類似度
    と、前記映像標準データ正答率保持手段及び音声標準デ
    ータ正答率保持手段から読み出した正答率のデータとを
    組み合わせて、各単音節に対する総合的な類似度を求め
    ることを特徴とする音声認識装置。
  2. 【請求項2】 前記映像入力手段に各種の単音節に関す
    る前記映像データを入力し、各入力映像データに対応し
    て前記映像処理手段から出力される類似度が最大の映像
    標準データの単音節を候補単音節として集計し、前記映
    像処理手段から出力された同一の候補単音節の総数の内
    で、入力映像データの単音節と一致する候補単音節の数
    の割合を、映像標準データのその単音節に対する正答率
    として設定することを特徴とする請求項1に記載の音声
    認識装置。
  3. 【請求項3】 前記音声入力手段に各種の単音節の音声
    データを入力し、各入力音声データに対応して前記音声
    処理手段から出力される類似度が最大の音声標準データ
    の単音節を候補単音節として集計し、前記音声処理手段
    から出力された同一の候補単音節の総数の内で、入力音
    声データの単音節と一致する候補単音節の数の割合を、
    音声標準データのその単音節に対する正答率として設定
    することを特徴とする請求項1に記載の音声認識装置。
  4. 【請求項4】 前記映像処理手段から出力される映像標
    準データの単音節iに対する前記類似度をRi,Image
    前記音声処理手段から出力される音声標準データの単音
    節iに対する前記類似度をRi,Sound、前記映像標準デ
    ータ正答率保持手段から読み出される映像標準データの
    単音節iに対する正答率のデータをSi,Image、また、
    前記音声標準データ正答率保持手段から読み出される音
    声標準データの単音節iに対する正答率のデータをSi,
    Soundとするとき、前記音声認識手段が Ri,Total=Si,Image・Ri,Image+Si,Sound・Ri,
    Sound により単音節iに対する総合的な類似度Ri,Totalを算
    出し、映像標準データ及び音声標準データに含まれる全
    ての単音節iの内で、前記総合的な類似度Ri,Total
    最大となる単音節を認識結果として出力することを特徴
    とする請求項1に記載の音声認識装置。
  5. 【請求項5】 前記映像処理手段から出力される映像標
    準データの単音節iに対する前記類似度をRi,Image
    前記音声処理手段から出力される音声標準データの単音
    節iに対する前記類似度をRi,Sound、前記映像標準デ
    ータ正答率保持手段から読み出される映像標準データの
    単音節iに対する正答率のデータをSi,Image、また、
    前記音声標準データ正答率保持手段から読み出される音
    声標準データの単音節iに対する正答率のデータをSi,
    Soundとするとき、前記音声認識手段が、Si,Image・R
    i,Image>Si,Sound・Ri,Soundである場合には、 Ri,Total=Si,Image・Ri,Image により単音節iに対する総合的な類似度Ri,Totalを算
    出し、また、Si,Image・Ri,Image≦Si,Sound・Ri,
    Soundである場合には、 Ri,Total=Si,Sound・Ri,Sound により単音節iに対する総合的な類似度Ri,Totalを算
    出し、映像標準データ及び音声標準データに含まれる全
    ての単音節iの内で、前記総合的な類似度Ri,Total
    最大となる単音節を認識結果として出力することを特徴
    とする請求項1に記載の音声認識装置。
  6. 【請求項6】 前記音声標準データ正答率保持手段が、
    前記正答率のデータとして、信号対雑音比に対応する複
    数種類の正答率のデータを保持し、前記音声認識手段
    が、各単音節に対する総合的な類似度を求める際に、前
    記音声標準データ正答率保持手段から、入力音声データ
    の信号対雑音比に応じた前記正答率のデータを読み出す
    ことを特徴とする請求項1に記載の音声認識装置。
  7. 【請求項7】 前記映像処理手段が、入力映像データか
    ら口唇部分の動きを抽出して発声区間と非発声区間とを
    検出し、前記発声区間の音圧レベルを信号レベル、前記
    非発声区間の音圧レベルを雑音レベルとして、前記入力
    音声データの信号対雑音比が算出されることを特徴とす
    る請求項6に記載の音声認識装置。
  8. 【請求項8】 前記映像処理手段が、一定時間ごとにサ
    ンプルした入力映像データから口唇部分を抽出し、その
    抽出した口唇部分の特徴量の時間毎の変化量が設定した
    閾値を超えている場合は発声区間、閾値を超えない場合
    は非発声区間として検出することを特徴とする請求項7
    に記載の音声認識装置。
  9. 【請求項9】 前記映像入力手段が、それぞれ異なる方
    向から映した前記映像データが入力する複数の映像入力
    手段から成り、前記映像処理手段が、前記映像入力手段
    の各々から入力する映像データと該映像データの撮影方
    向から映した前記映像標準データとの間の類似度を算出
    し、映像標準データの各単音節とそれに対する類似度と
    を出力する複数の映像処理手段から成り、前記映像標準
    データ正答率保持手段が、前記映像処理手段の各々から
    出力される映像標準データの各単音節に対する正答率の
    データを保持する複数の映像標準データ正答率保持手段
    から成ることを特徴とする請求項1に記載の音声認識装
    置。
  10. 【請求項10】 口唇を含む話者の映像データが入力す
    る映像入力手段と、話者の音声データが入力する音声入
    力手段と、単音節を発声する口唇の映像標準データが複
    数個含まれるグループと入力映像データとの間の類似度
    を算出し、前記グループとそれに対する類似度とを出力
    する映像処理手段と、前記単音節を発声する音声の音声
    標準データが複数個含まれるグループと入力音声データ
    との間の類似度を算出し、前記グループとそれに対する
    類似度とを出力する音声処理手段と、前記映像処理手段
    及び音声処理手段から出力された類似度を用いて、総合
    的な類似度が最も大きいグループを識別する音声認識手
    段とを備える音声認識装置において、 前記映像処理手段から出力されるグループに対する正答
    率のデータを保持する映像標準データ正答率保持手段
    と、 前記音声処理手段から出力されるグループに対する正答
    率のデータを保持する音声標準データ正答率保持手段と
    を具備し、前記音声認識手段が、前記映像処理手段及び
    音声処理手段から出力される類似度と、前記映像標準デ
    ータ正答率保持手段及び音声標準データ正答率保持手段
    から読み出した正答率のデータとを組み合わせて、各グ
    ループに対する総合的な類似度を求めることを特徴とす
    る音声認識装置。
  11. 【請求項11】 前記映像処理手段から出力されるグル
    ープに対する正答率及び前記音声処理手段から出力され
    るグループに対する正答率が、それぞれ高くなるよう
    に、前記グループに含まれる複数の映像標準データ及び
    音声標準データの単音節を設定することを特徴とする請
    求項10に記載の音声認識装置。
  12. 【請求項12】 前記映像処理手段及び音声処理手段
    が、入力映像データまたは入力音声データと前記グルー
    プに含まれるすべての映像標準データまたは音声標準デ
    ータとの間の類似度を算出し、その中の最大の類似度を
    前記グループに対する類似度とすることを特徴とする請
    求項10に記載の音声認識装置。
  13. 【請求項13】 前記映像処理手段及び音声処理手段
    が、入力映像データまたは入力音声データの特徴量と前
    記グループに含まれるすべての映像標準データまたは音
    声標準データに共通する特徴量との間の類似度を、前記
    グループに対する類似度として算出することを特徴とす
    る請求項10に記載の音声認識装置。
  14. 【請求項14】 口唇を含む話者の映像データと話者の
    音声データとを用いて話者の音声を識別する音声認識方
    法において、 前記映像データと各単音節を発声する口唇の映像標準デ
    ータとの間の類似度を前記映像標準データの各単音節ご
    とに求めるとともに、その単音節が映像データに基づい
    て識別される場合の信頼度を表す映像正答率を、前記類
    似度に乗算し、また、前記音声データと各単音節を発声
    する音声の音声標準データとの間の類似度を前記音声標
    準データの各単音節ごとに求めるとともに、その単音節
    が音声データに基づいて識別される場合の信頼度を表す
    音声正答率を、前記類似度に乗算し、これらの類似度と
    正答率とを乗算した値を用いて、各単音節に対する総合
    的な類似度を求め、前記総合的な類似度が最も大きい単
    音節を識別することを特徴とする音声認識方法。
  15. 【請求項15】 各種の単音節を発声する口唇の前記映
    像データと前記映像標準データとの間の類似度を求め、
    各映像データに対応して前記類似度が最大となる映像標
    準データの単音節を候補単音節として集計し、同一の候
    補単音節の総数の内で、前記映像データの単音節が候補
    単音節と一致するときの候補単音節数の割合を、その単
    音節に対する映像正答率とすることを特徴とする請求項
    14に記載の音声認識方法。
  16. 【請求項16】 各種の単音節を発声する前記音声デー
    タと前記音声標準データとの間の類似度を求め、各音声
    データに対応して前記類似度が最大となる音声標準デー
    タの単音節を候補単音節として集計し、同一の候補単音
    節の総数の内で、前記音声データの単音節が候補単音節
    と一致するときの候補単音節数の割合を、その単音節に
    対する音声正答率とすることを特徴とする請求項14に
    記載の音声認識方法。
  17. 【請求項17】 前記映像標準データの単音節iに対す
    る類似度をRi,Image、前記音声標準データの単音節i
    に対する類似度をRi,Sound、前記映像標準データの単
    音節iに対する映像正答率のデータをSi,Image、ま
    た、前記音声標準データの単音節iに対する音声正答率
    のデータをSi,Soundとするとき、単音節iに対する総
    合的な類似度Ri,Totalを Ri,Total=Si,Image・Ri,Image+Si,Sound・Ri,
    Sound により算出し、映像標準データ及び音声標準データに含
    まれる全ての単音節iの内で、前記総合的な類似度Ri,
    Totalが最大となる単音節を認識結果として識別するこ
    とを特徴とする請求項14に記載の音声認識方法。
  18. 【請求項18】 前記映像標準データの単音節iに対す
    る類似度をRi,Image、前記音声標準データの単音節i
    に対する類似度をRi,Sound、前記映像標準データの単
    音節iに対する映像正答率のデータをSi,Image、ま
    た、前記音声標準データの単音節iに対する音声正答率
    のデータをSi,Soundとするとき、Si,Image・Ri,
    Image>Si,Sound・Ri,Soundであれば、単音節iに対
    する総合的な類似度Ri,Totalを Ri,Total=Si,Image・Ri,Image により算出し、また、Si,Image・Ri,Image≦Si,
    Sound・Ri,Soundであれば、単音節iに対する総合的な
    類似度Ri,Totalを Ri,Total=Si,Sound・Ri,Sound により算出し、映像標準データ及び音声標準データに含
    まれる全ての単音節iの内で、前記総合的な類似度Ri,
    Totalが最大となる単音節を認識結果として識別するこ
    とを特徴とする請求項14に記載の音声認識方法。
  19. 【請求項19】 前記音声正答率のデータとして、信号
    対雑音比に対応する複数種類のデータを用意し、前記音
    声データの信号対雑音比に応じて、前記音声正答率のデ
    ータを使い分けることを特徴とする請求項14に記載の
    音声認識方法。
  20. 【請求項20】 前記映像データとして、複数の異なる
    方向から話者の口唇を映した映像データを用いることを
    特徴とする請求項14に記載の音声認識方法。
  21. 【請求項21】 口唇を含む話者の映像データと話者の
    音声データとを用いて話者の音声を識別する音声認識方
    法において、 前記映像データと、単音節を発声する口唇の映像標準デ
    ータが複数個含まれるグループとの間の類似度を各グル
    ープごとに求めるとともに、そのグループが映像データ
    に基づいて識別される場合の信頼度を表す映像正答率
    を、前記類似度に乗算し、 また、前記音声データと、単音節を発声する音声の音声
    標準データが複数個含まれるグループとの間の類似度を
    各グループごとに求めるとともに、そのグループが音声
    データに基づいて識別される場合の信頼度を表す音声正
    答率を、前記類似度に乗算し、 これらの類似度と正答率とを乗算した値を用いて、各グ
    ループに対する総合的な類似度を求め、前記総合的な類
    似度が最も大きいグループを識別することを特徴とする
    音声認識方法。
  22. 【請求項22】 前記映像データまたは音声データと前
    記グループとの間の類似度を求めるために、前記映像デ
    ータまたは音声データと前記グループに含まれるすべて
    の映像標準データまたは音声標準データとの間の類似度
    を算出し、その中の最大の類似度を前記グループに対す
    る類似度とすることを特徴とする請求項21に記載の音
    声認識方法。
  23. 【請求項23】 前記映像データまたは音声データと前
    記グループとの間の類似度を求めるために、前記映像デ
    ータまたは音声データの特徴量と前記グループに含まれ
    るすべての映像標準データまたは音声標準データに共通
    する特徴量との間の類似度を算出することを特徴とする
    請求項21に記載の音声認識方法。
JP25620197A 1997-09-05 1997-09-05 音声認識装置及び音声認識方法 Expired - Fee Related JP3798530B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP25620197A JP3798530B2 (ja) 1997-09-05 1997-09-05 音声認識装置及び音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP25620197A JP3798530B2 (ja) 1997-09-05 1997-09-05 音声認識装置及び音声認識方法

Publications (2)

Publication Number Publication Date
JPH1185190A true JPH1185190A (ja) 1999-03-30
JP3798530B2 JP3798530B2 (ja) 2006-07-19

Family

ID=17289328

Family Applications (1)

Application Number Title Priority Date Filing Date
JP25620197A Expired - Fee Related JP3798530B2 (ja) 1997-09-05 1997-09-05 音声認識装置及び音声認識方法

Country Status (1)

Country Link
JP (1) JP3798530B2 (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020057046A (ko) * 2000-12-30 2002-07-11 구자홍 무선 단말기의 음성인식 방법
JP2006079456A (ja) * 2004-09-10 2006-03-23 Nippon Signal Co Ltd:The 発話識別方法及びこれを用いたパスワード照合装置
WO2006080161A1 (ja) * 2005-01-28 2006-08-03 Kyocera Corporation 発声内容認識装置及び発声内容認識方法
JP2007528031A (ja) * 2004-03-30 2007-10-04 インテル・コーポレーション 音声および映像ソースデータを分離および評価する技術
WO2007114346A1 (ja) * 2006-03-30 2007-10-11 Honda Moter Co., Ltd. 音声認識装置
JP2010176103A (ja) * 2009-02-02 2010-08-12 Nippon Hoso Kyokai <Nhk> 発音辞書修正装置、音声認識装置、およびコンピュータプログラム
JP2010185975A (ja) * 2009-02-10 2010-08-26 Denso Corp 車載音声認識装置
US20120169899A1 (en) * 2010-12-30 2012-07-05 Samsung Electronics Co., Ltd. Electronic device and method for searching for object
JP2016520879A (ja) * 2013-12-19 2016-07-14 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 地方なまりを区別する音声データ認識方法、装置及びサーバ
CN106033669A (zh) * 2015-03-18 2016-10-19 展讯通信(上海)有限公司 语音识别方法及装置

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020057046A (ko) * 2000-12-30 2002-07-11 구자홍 무선 단말기의 음성인식 방법
JP2007528031A (ja) * 2004-03-30 2007-10-04 インテル・コーポレーション 音声および映像ソースデータを分離および評価する技術
JP2006079456A (ja) * 2004-09-10 2006-03-23 Nippon Signal Co Ltd:The 発話識別方法及びこれを用いたパスワード照合装置
JP4553667B2 (ja) * 2004-09-10 2010-09-29 日本信号株式会社 発話識別方法及びこれを用いたパスワード照合装置
US7979276B2 (en) 2005-01-28 2011-07-12 Kyocera Corporation Speech recognition apparatus and speech recognition method
JP2006208751A (ja) * 2005-01-28 2006-08-10 Kyocera Corp 発声内容認識装置
WO2006080161A1 (ja) * 2005-01-28 2006-08-03 Kyocera Corporation 発声内容認識装置及び発声内容認識方法
WO2007114346A1 (ja) * 2006-03-30 2007-10-11 Honda Moter Co., Ltd. 音声認識装置
JP5257680B2 (ja) * 2006-03-30 2013-08-07 本田技研工業株式会社 音声認識装置
JP2010176103A (ja) * 2009-02-02 2010-08-12 Nippon Hoso Kyokai <Nhk> 発音辞書修正装置、音声認識装置、およびコンピュータプログラム
JP2010185975A (ja) * 2009-02-10 2010-08-26 Denso Corp 車載音声認識装置
US20120169899A1 (en) * 2010-12-30 2012-07-05 Samsung Electronics Co., Ltd. Electronic device and method for searching for object
JP2016520879A (ja) * 2013-12-19 2016-07-14 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 地方なまりを区別する音声データ認識方法、装置及びサーバ
CN106033669A (zh) * 2015-03-18 2016-10-19 展讯通信(上海)有限公司 语音识别方法及装置

Also Published As

Publication number Publication date
JP3798530B2 (ja) 2006-07-19

Similar Documents

Publication Publication Date Title
US5167004A (en) Temporal decorrelation method for robust speaker verification
US6535850B1 (en) Smart training and smart scoring in SD speech recognition system with user defined vocabulary
JP4568371B2 (ja) 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム
Zhou et al. Efficient audio stream segmentation via the combined T/sup 2/statistic and Bayesian information criterion
JP4355322B2 (ja) フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置
US5199077A (en) Wordspotting for voice editing and indexing
JP3337233B2 (ja) 音声符号化方法及び装置
EP1083542A2 (en) A method and apparatus for speech detection
US20140046662A1 (en) Method and system for acoustic data selection for training the parameters of an acoustic model
JPH0990974A (ja) 信号処理方法
EP1675102A2 (en) Method for extracting feature vectors for speech recognition
KR20010102549A (ko) 화자 인식 방법 및 장치
JP5385876B2 (ja) 音声区間検出方法、音声認識方法、音声区間検出装置、音声認識装置、そのプログラム及び記録媒体
JP3798530B2 (ja) 音声認識装置及び音声認識方法
JP4353202B2 (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
JP2007240589A (ja) 音声認識信頼度推定装置、その方法、およびプログラム
Yavuz et al. A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model.
JP3428058B2 (ja) 音声認識装置
JP2002189487A (ja) 音声認識装置および音声認識方法
US7454337B1 (en) Method of modeling single data class from multi-class data
JP2002516419A (ja) 発声言語における少なくとも1つのキーワードを計算器により認識する方法および認識装置
JPH11202895A (ja) 音声認識システムと方法およびそのプログラムを記録した記録媒体
JP3075250B2 (ja) 話者認識方法及び装置
JP3036509B2 (ja) 話者照合における閾値決定方法及び装置
JP3100180B2 (ja) 音声認識方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050913

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060418

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060420

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090428

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090428

Year of fee payment: 3

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090428

Year of fee payment: 3

R370 Written measure of declining of transfer procedure

Free format text: JAPANESE INTERMEDIATE CODE: R370

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090428

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090428

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees