JP2002041079A - 音声認識装置および音声認識方法、並びに、プログラム記録媒体 - Google Patents

音声認識装置および音声認識方法、並びに、プログラム記録媒体

Info

Publication number
JP2002041079A
JP2002041079A JP2000231229A JP2000231229A JP2002041079A JP 2002041079 A JP2002041079 A JP 2002041079A JP 2000231229 A JP2000231229 A JP 2000231229A JP 2000231229 A JP2000231229 A JP 2000231229A JP 2002041079 A JP2002041079 A JP 2002041079A
Authority
JP
Japan
Prior art keywords
likelihood
acoustic model
acoustic
unit
detailed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000231229A
Other languages
English (en)
Inventor
Koichi Yamaguchi
耕市 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2000231229A priority Critical patent/JP2002041079A/ja
Publication of JP2002041079A publication Critical patent/JP2002041079A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 発話者の顔の位置ずれによる周波数特性の変
化に対応する。 【解決手段】 音響モデル格納部14の第1音響モデル
格納部14a,…,第n音響モデル格納部14nに、発話者
の顔の典型的な位置に対応した代表的な周波数特性を模
倣するフィルタを学習データに掛けて周波数特性を補正
した後、学習を行って得たn組の音響モデルを用意す
る。尤度演算部13は、入力音声の音響パラメータベク
トルに対して上記n組の音響モデルの夫々を作用させて
各音韻の状態毎に尤度を算出する。照合部17は、辞書
格納部20の辞書との照合を行なって上位のスコアを呈
する語彙を認識候補(認識結果)として出力する。こうし
て、ユーザが様々な位置で発声しても、その位置に近い
周波数特性を有する音響モデルが常に適用されて認識処
理が行われ、顔の位置に因らずに高い認識率が維持され
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、ロバスト性向上
とコンパクト化とが図られた隠れマルコフモデル(Hidde
n Markov Model:以下、HMMと言う)を用いた音声認
識装置および音声認識方法、並びに、音声認識処理プロ
グラムを記録したプログラム記録媒体に関する。
【0002】
【従来の技術】近年、上記HMMを用いた音声認識方法
の開発が盛んに行われている。このHMMは、大量の音
声データから得られる音声の統計的特徴を確率的にモデ
ル化したものであり、このHMMを用いた音声認識方法
の詳細は、中川聖一著「確率モデルによる音声認識」
(電子情報通信学会)に詳しい。
【0003】図5は、従来のHMMを用いる音声認識装
置のブロック図である。音声入力部1は、マイクから入
力されたアナログ音声をディジタル波形に変換する。音
響分析部2は、ディジタル波形を短い時間間隔(フレー
ム)毎に周波数分析し、スペクトルを表す音響パラメー
タのベクトル系列に変換する。尤度(音韻類似度)演算部
3は、上記入力音声の音響パラメータベクトルに対し
て、音響モデル格納部4に格納された音韻毎の音響モデ
ル(HMM)の夫々を作用させて、各音韻の状態毎に尤度
を算出する。照合部5は、尤度演算部3からの尤度(音
韻類似度)系列に対して、辞書6に登録されている総て
の語彙(単語)との照合を行ない、各語彙のスコアを算出
する。そして、上位のスコアを呈する語彙を認識候補
(認識結果)として出力部7から出力する。
【0004】上記音声認識装置の実際の使用に際して
は、種々の騒音下で発声されたり、様々なマイクロホン
が使用されたりする。また、種々の声の話者が存在す
る。したがって、入力音声は種々の要因で変動し、その
変動要因は大きく次の3つに分類することができる。 (1)空間伝送系(騒音,残響,マイクロホンの位置等) (2)電気的伝送系(マイクロホンの特性,伝送路歪,電
気的雑音等) (3)話者(個人差,発話様式,ロンバード効果等)
【0005】通常、上記HMM等の音響モデルの学習用
データは、クリーンな環境でフラットなマイクを用いて
収録されている。言わば、理想的な条件で作成されてい
る。これに対して、実使用時においては、上述のように
種々の要因が変動するため、入力データと音響モデルと
の特性の違い(これをミスマッチと言う)が生じる。そし
て、このミスマッチが、認識率の劣化の原因となってい
るのである。本願においては、上述した実使用時におけ
る変動要因のうち、主として(1)のマイクロホンの位置
による周波数特性の違いを扱い、その他の変動要因につ
いては取り扱わないものとする。
【0006】ところで、発話者の顔の位置や向きがずれ
るなどして音声信号のマイクロホンヘの入射角が異なる
と、周波数特性に影響を及ぼす。一般にマイクロホンの
正面から入射した場合にはフラットな周波数特性を有す
るが、斜めや横から入射した場合にはスペクトルに幾つ
か谷が生ずることが知られている。そして、上記谷の周
波数,大きさおよび個数は、上記入射角の他に、搭載機
器の形状等にも依存するので、理論的に算出するのは非
常に困難である。また、話者の口とマイクロホンとの距
離も上記周波数特性に影響を及ぼす。一般に、マイクロ
ホンと口との距離が大きくなると、口の放射特性によっ
て低域のパワーが小さくなる。例えば、内蔵マイクが本
体の左奥に位置しているノートパソコンの場合、パソコ
ンの正面位置で画面に向かって発声すると500Hzと
2.0kHzとに谷が生じ、上記内蔵マイクの真上で発声
すると1.3kHzに谷が生ずる。
【0007】音声認識におけるロバスト性の向上は重要
な課題であり、これまでに以下の例に示すように活発な
研究がなされている。先ず、音声信号における周波数特
性の違いを補償する方法として、入力音声を正規化させ
るケプストラム平均正規化法(CMN;Cepstrum Mean N
ormalization)が提案されている。この方法は、マイク
ロホンや回線特性に由来する伝送特性の歪みのように、
系に固有な歪みを対象としている。
【0008】また、特開2000‐75889号公報に
おいては、騒音の種類やレベルの異なる複数組の音響モ
デルを用意し、各々の組の音響モデルを独立して用いて
音声認識処理を行なう。そして、総ての音響モデルに対
して最も大きいスコアを出力した単語を認識結果とする
ようにしている。種々の騒音に対応した複数組の音響モ
デルを独立して用いて認識処理させることによって、騒
音環境が様々に変化してもそれに追従して、常に良好な
認識性能を得ることができるとしている。
【0009】また、特開平10‐63293号公報にお
いては、電話回線の違いに由来する周波数特性の差を補
償すべく、周波数特性の異なる複数組の音響モデルを用
意しておく。そして、回線接続情報等から何れの電話回
線を経由したかを検知して、経由した回線特性に対応し
た組の音響モデルに切り換え、当該音響モデルを用いて
認識処理を行うのである。こうすることによって、回線
の状況に影響を受けることなく高い認識性能を維持でき
るとしている。
【0010】一方において、上記HMMの尤度演算や辞
書照合には膨大な計算量を必要とするため高速化が大き
な課題となっており、高速演算手法についても活発な研
究がなされている。例えば、尤度演算については、パラ
メータの種類別にクラスタリングすることによって高速
に尤度演算を行う方法が提案されている。また、照合に
ついては、状態を縮退させたHMMを用いると共に、時
間軸を圧縮することによって、高速に予備選択してサー
チの演算量を削減する方法が提案されている。
【0011】
【発明が解決しようとする課題】しかしながら、上記従
来の音声認識におけるロバスト性の向上方法や高速尤度
演算・辞書照合方法には、以下のような問題がある。
【0012】先ず、上記CMN法においては、主として
系に固有な歪みを対象としている。したがって、話者特
性や観測した音声データの音韻の出現頻度に依存するこ
とになり、正確な補正はできないと言う問題がある。さ
らに、長時間に亘る平均スペクトルを求めなければなら
ないため、観測にはある程度の時間の音声データが必要
になる。したがって1単語のみの発声に対しては適応し
きれないという実用上の問題もある。
【0013】次に、特開2000‐75889号公報に
おいては、複数組用意する音響モデルのバリエーション
を騒音に限定している。したがって、マイクロホンの位
置による周波数特性の違いに対しては適用できないと言
う問題がある。また、尤度演算や照合等の音声認識処理
は従来通り行なわれるので、上記音響モデルの組数に比
例して、尤度計算量や尤度演算結果を格納するメモリ領
域が増加すると言う問題もある。
【0014】次に、特開平10‐63293号公報にお
いては、回線接続情報に基づいて周波数特性を検知可能
と仮定し、複数組用意する音響モデルのバリエーション
を電話回線の違いに由来する周波数特性に限定してい
る。したがって、マイクロホンの位置による周波数特性
の違いに対しては適用できないと言う問題がある。
【0015】一方、上記高速尤度演算・辞書照合方法に
おいては、音響モデルが1組であることを仮定している
ために、複数組の音響モデルを用意する場合には音響モ
デルの組数に比例した演算量が必要となる。例えば、H
MMを音素環境依存型で混合連続分布の出力確率密度関
数を有するHMMとした場合、音響モデル1組に関する
総ての状態に亘る出力確率密度分布の総数を1500と
すると、N組の音響モデルを用いる場合には、1500
×N回の尤度演算が必要になる。さらに、尤度演算の結
果は、通常、音響モデルの各状態に関してフレーム毎に
格納される。これを尤度テーブルと呼び、例えば音響モ
デルが500状態を有して1状態を2B(バイト)で表現
すると、100フレーム分の演算結果を格納するには1
00KBのメモリが必要となる。組込み用途のようにメ
モリ(RAM:ランダム・アクセス・メモリ)容量が限られ
ている場合は、尤度テーブル用メモリの容量削減が重要
な課題となる。取り分け、音響モデルを複数組用いる場
合には尤度テーブルも音響モデルの組数分だけ必要とな
り、メモリ量の増加を招くことになるのである。
【0016】以上のごとく、上記従来の音声認識におけ
るロバスト性の向上方法や高速尤度演算・辞書照合方法
においては、上述のような発話者の顔の位置がずれるこ
とで周波数特性が変わり、その結果入力音声と音響モデ
ルとのミスマッチが生じ、認識率の劣化を招くという問
題に対しては、有効な対策が提案されていないのが実情
である。
【0017】そこで、この発明の目的は、発話者の顔の
位置ずれによる周波数特性の変化に対応でき、且つ、高
速尤度演算・高速辞書照合を少ないメモリ容量で実現で
きる音声認識装置および音声認識方法、並びに、音声認
識処理プログラムを記録したプログラム記録媒体を提供
することにある。
【0018】
【課題を解決するための手段】上記目的を達成するた
め、第1の発明は、音響モデルを用いて入力音声の認識
を行なう音声認識装置であって、上記音響モデルとし
て,話者の顔の典型的な位置に応じた周波数特性を反映
させた複数組の音響モデルを格納した音響モデル格納部
と、入力音声を音響分析して音響パラメータベクトルの
時系列を得る音響分析部と、上記入力音声の音響パラメ
ータベクトルを用いて上記音響モデルの各音韻の状態の
尤度を演算する尤度演算部と、認識用語彙が登録された
辞書と、上記各音韻の状態の尤度と上記辞書の登録語彙
との照合を行って全登録語彙のスコアを算出し,上位の
スコアを呈する登録語彙を認識結果として出力する照合
部を備えたことを特徴としている。
【0019】上記構成によれば、話者の顔の典型的な位
置に応じた周波数特性を反映させた複数組の音響モデル
を用意し、入力音声の音響パラメータベクトルを用いて
上記音響モデルの各音韻の状態の尤度が演算され、この
音韻の状態の尤度と辞書の登録語彙との照合が行われて
入力音声が認識される。したがって、ユーザが様々な位
置で発声しても、その位置に近い周波数特性を有する音
響モデルが常に適用されて認識処理が行われ、顔の位置
に因らずに高い認識率が維持される。
【0020】また、上記第1の発明の音声認識装置は、
上記音響モデル格納部に格納された総ての音響モデル
を,各状態の出力確率密度関数を多次元正規分布で表現
したHMMとし、上記尤度演算部を、上記全音響モデル
を対象として作成された予備選択用の上記分布の集合を
表す一つの予備選択用分布集合と、上記入力音声の音響
パラメータベクトルを用いて上記予備選択用分布集合に
おける各分布の尤度を計算し,この尤度を用いて上記全
音響モデルにおける上記各分布の近似的な尤度を求める
近似尤度計算手段と、上記近似尤度計算部による計算結
果に基づいて詳細に尤度を計算する必要のある分布を選
択する選択手段と、上記各音響モデル別に用意された詳
細演算用の上記分布の集合を表す詳細分布集合と、上記
入力音声の音響パラメータベクトルを用いて上記詳細分
布集合における上記選択分布の詳細尤度を計算する詳細
尤度計算手段を備えた詳細照合用尤度演算部を有するよ
うに成すことが望ましい。
【0021】上記構成によれば、上記尤度演算部の詳細
照合用尤度演算部によって、入力音声の音響パラメータ
ベクトルに、全音響モデルを対象として作成された一つ
の予備選択用分布集合を作用させて、上記予備選択用分
布集合における各分布の尤度が計算され、この尤度を用
いて上記全音響モデルにおける上記各分布の近似的な尤
度が求められる。したがって、入力音声の音響パラメー
タベクトルに夫々の音響モデルを作用させて全音響モデ
ルにおける上記各分布の尤度を求める場合に比して、尤
度の計算量が約1/28に削減される。あるいは、上記
予備選択用分布集合を夫々の音響モデル毎に作成する場
合に比して、尤度の計算量が約1/2に削減される。
【0022】その際に、上記近似尤度の計算結果に基づ
いて詳細に尤度を計算する必要のある分布が選択され、
入力音声の音響パラメータベクトルに上記各音響モデル
別に用意された詳細分布集合が作用されて、上記選択分
布の詳細尤度が計算されるので、尤度計算量の削減と高
認識率の維持とが両立される。
【0023】また、上記第1の発明の音声認識装置は、
上記尤度演算部を,上記各音韻毎の高速照合用尤度を算
出する高速照合用尤度演算部を有するように成し、上記
高速照合用尤度演算部からの高速照合用尤度系列と高速
照合用辞書とを照合して,認識候補の予備選択を行なう
高速照合部と、上記高速照合部による予備選択の結果得
られた認識候補のうち,同じカテゴリに属するスコアの
小さい認識候補を除外し,残った認識候補に関して,上記
詳細照合用尤度演算部からの詳細照合用尤度系列と詳細
照合用辞書との照合を行って認識結果を得る詳細照合部
を備えることが望ましい。
【0024】上記構成によれば、上記尤度演算部の高速
照合用尤度演算部によって上記各音韻毎の高速照合用尤
度が算出され、高速照合部によって高速照合用辞書と照
合されて認識候補の予備選択が行われる。そして、詳細
照合部によって、1カテゴリ1認識候補に関して、詳細
照合用辞書との詳細照合が行われて最終的な認識結果が
得られる。したがって、上記詳細照合用辞書に登録され
た総ての認識語彙に関して、詳細照合を行う場合に比し
て、辞書照合が高速に行われる。
【0025】また、上記第1の発明の音声認識装置は、
上記近似尤度計算手段によって計算された状態毎の尤度
を全音響モデルで共有化して保持する第1尤度保持手段
と、上記詳細尤度計算手段によって計算された状態毎の
尤度を各音響モデル別に保持する第2尤度保持手段を備
えることが望ましい。
【0026】上記構成によれば、上記近似尤度計算手段
によって計算された状態毎の近似的な尤度は、第1尤度
保持手段によって全音響モデルで共有化して保持され
る。したがって、尤度値の保持容量が、各音響モデル別
に保持する場合に比して40%に抑えられる。
【0027】また、上記第1の発明の音声認識装置は、
上記各音響モデルにおける各音韻を1つの状態で表した
1状態混合連続分布型音響モデルと、上記入力音声の音
響パラメータベクトルを用いて上記各1状態混合連続分
布型音響モデルの尤度を求め,最も高い尤度を呈する1
状態混合連続分布型音響モデルに対応する音響モデルを
選択する音響モデル選択部と、上記音響モデル格納部か
ら上記選択された音響モデルを切換え選択して上記尤度
演算部に送出する切換え部を備えることが望ましい。
【0028】上記構成によれば、上記尤度演算部による
尤度の演算は、音響モデル選択部によって、入力音声の
音響パラメータベクトルと各1状態混合連続分布型音響
モデルとによる尤度演算結果に基づいて選択された1つ
の音響モデルを用いて行われる。したがって、総ての組
の音響モデルを用いて上記尤度演算をおこなう場合に比
して、尤度の計算量が低減される。
【0029】また、上記第1の発明の音声認識装置は、
話者の顔の位置を撮影する撮像手段と、上記撮像手段か
らの画像信号に基づいて上記話者の顔の位置を求め,得
られた顔の位置に対応する音響モデルを選択する音響モ
デル選択部と、上記音響モデル格納部から上記選択され
た音響モデルを切換え選択して上記尤度演算部に送出す
る切換え部を備えることが望ましい。
【0030】上記構成によれば、音響モデル選択部によ
って、撮像手段からの話者の顔の位置に関する画像信号
に基づいて、上記各1状態混合連続分布型音響モデルに
よる尤度演算結果に因らずに音響モデルが選択される。
したがって、尤度の計算量の更なる低減化が図られる。
【0031】また、第2の発明は、音響モデルを用いて
入力音声の認識を行なう音声認識方法であって、上記音
響モデルとして,話者の顔の典型的な位置に応じた周波
数特性を反映させた複数組の音響モデルを用意し、入力
音声を音響分析して音響パラメータベクトルの時系列を
得、上記入力音声の音響パラメータベクトルを用いて上
記音響モデルの各音韻の状態の尤度を演算し、上記各音
韻の状態の尤度と認識用語彙が登録された辞書の登録語
彙との照合を行って全登録語彙のスコアを算出し,上位
のスコアを呈する登録語彙を認識結果として出力するこ
とを特徴としている。
【0032】上記構成によれば、話者の顔の典型的な位
置に応じた周波数特性を反映させた複数組の音響モデル
を用意し、入力音声の音響パラメータベクトルを用いて
上記音響モデルの各音韻の状態の尤度が演算され、この
音韻の状態の尤度と辞書の登録語彙との照合が行われて
入力音声が認識される。したがって、ユーザが様々な位
置で発声しても、その位置に近い周波数特性を有する音
響モデルが常に適用されて認識処理が行われ、顔の位置
に因らずに高い認識率が維持される。
【0033】また、第3の発明のプログラム記録媒体
は、コンピュータを、請求項1における音響モデル格納
部,音響分析部,尤度演算部,辞書および照合部として機
能させる音声認識処理プログラムが記録されていること
を特徴としている。
【0034】上記構成によれば、上記第1の発明の場合
と同様に、入力音声の音響パラメータベクトルを用い
て、話者の顔の典型的な位置に応じた周波数特性を反映
させた複数組の音響モデルの各音韻の状態の尤度が演算
され、この音韻の状態の尤度と辞書の登録語彙との照合
が行われて入力音声が認識される。したがって、ユーザ
が様々な位置で発声しても、その位置に近い周波数特性
を有する音響モデルが常に適用されて認識処理が行わ
れ、顔の位置に因らずに高い認識率が維持される。
【0035】
【発明の実施の形態】以下、この発明を図示の実施の形
態により詳細に説明する。図1は、本実施の形態におけ
る音声認識装置のブロック図である。本実施の形態にお
ける音声認識装置は、図5に示す従来の音声認識装置に
比して、音響モデルが複数組の音響モデルから構成され
ている点、尤度演算部と照合部とが夫々全音響モデルを
一括して高速化の対象にしている点において異なる。以
下、本実施の形態における音声認識装置について説明す
る。
【0036】音声入力部11は、マイクから入力された
音声のアナログ波形をディジタル波形に変換して、音響
分析部12に送出する。音響分析部12は、入力された
ディジタル波形を短い時間間隔(フレーム)毎に周波数分
析し、スペクトルを表す音響パラメータのベクトル系列
に変換する。尚、周波数分析には、MFCC(メルスケ
ールFFT(高速フーリエ変換)ケプストラム係数)やL
PC(線形予測分析)メルケプストラムと呼ばれるスペク
トルの効率よい表現方法が用いられる。尤度(音韻類似
度)演算部13は、入力音声の音響パラメータベクトル
に対して、音響モデル格納部14に格納された音響モデ
ル(本実施の形態ではHMMを採用)の夫々を作用させて
各音韻の状態毎に尤度を算出する。
【0037】ここで、本実施の形態における音響モデル
格納部14は、第1音響モデル格納部14a,第2音響モ
デル格納部14b,…,第n音響モデル格納部14nのn個
の音響モデル格納部で構成され、夫々の音響モデル格納
部には、第1HMM,第2HMM,…,第nHMMのn組
のHMMが格納されている。以下、上記音響モデル格納
部14に格納される音響モデルの作成方法について、内
蔵型のマイクが本体の左奥に位置しているノートパソコ
ンの場合を例に上げて説明する。その場合は、ターゲッ
ト(ノートパソコン)の伝送特性は既知であり且つ固定と
なる。
【0038】すなわち、上記パソコンの正面位置で画面
に向かって発声すると、500Hzと2.0kHzに谷が
生じ、マイクの真上付近で発声すると1.3kHzに谷が
生じる。また、マイクの正面位置で画面に向かって発声
すると略平坦な特性となる。先ず、第1音響モデル格納
部14aに格納される第1HMMを作成する際には、正
面位置で画面に向かって発声する場合に500Hzと2.
0kHzとに生じる谷を模倣するバンドリジェクトフィ
ルタを学習データに掛けて周波数特性を補正した上で、
学習を行う。次に、第2音響モデル格納部14bに格納
される第2HMMを作成する際には、マイクの真上付近
で発声する場合に生じる1.3kHzの谷を模倣するバン
ドリジェクトフィルタを学習データに掛けて周波数特性
を補正した上で、学習を行う。次に、第n音響モデル格
納部14nに格納される第nHMMを作成する際には、
マイクの正面位置で画面に向かって発声した場合の平坦
な特性を模倣するため、学習データに補正フィルタを掛
けずに学習を行う。尚、上記学習データの学習について
は、この発明とは直接関係がないので説明は省略する。
【0039】このように、典型的な発声ポジションに対
応した代表的な周波数特性の数だけ音響モデルを用意す
る。以上は、ノートパソコンの内蔵マイクに対する位置
関係の場合の例であるが、搭載する装置やマイクロホン
素子の空間形状によっては、谷ではなくピークが生じる
場合もある。また、スペクトルが全体的に傾いたり、帯
域が制限されたりする場合もある。このような場合は、
夫々の周波数特性を模倣するフィルタを学習データに掛
ければよい。
【0040】そうすると、上記尤度演算部13は、上述
のような音響モデルを用いて、上述したように各音韻の
状態毎に尤度を算出することになる。本実施の形態にお
いては、尤度演算部13を、詳細照合用の詳細尤度系列
を生成する詳細照合用高速尤度演算部15と、高速照合
用の簡易尤度系列を生成する高速照合用尤度演算部16
とで構成している。
【0041】ここで、日本語の音韻は26種類程度であ
るが、本音声認識装置では、高精度化のために前後環境
や話者による声質の差、音韻内の時間変化を考慮してい
る。そして、同じ音韻「あ」でも、数十種類のスペクトル
の分布(ここで、分布とは音韻の類似度を算出するため
の出力確率密度関数のことである)と、それらの分布か
ら構成される状態を有している。上記HMMには様々な
タイプがあるが、本実施の形態においては、音素環境依
存型で混合連続分布の出力確率密度関数を有するHMM
を採用しており、一つの状態は複数個の分布から構成さ
れる。本実施の形態では、総分布数は1500であり、
総状態数は500であるとする。したがって、500個
の状態に関して1500個の分布について尤度を算出す
る必要がある。
【0042】図2は、尤度演算部13の詳細照合用高速
尤度演算部15による尤度演算処理のフローチャートで
ある。また、図3は、データの流れを示す。以下、図2
および図3に従って詳細照合用尤度演算処理動作につい
て詳細に説明する。入力音声の音響パラメータベクトル
と音響モデルとに基づく尤度演算は、音声認識装置の中
で最も大きな処理量となる。本実施の形態のごとく音響
モデルを複数組用いる場合は、夫々の組の音響モデル毎
に尤度演算を行なうと、より一層計算量の増加を招くこ
とになる。そこで、本実施の形態の詳細照合用の尤度演
算においては、音声認識結果に直接影響する出力確率関
数の分布に関しては各音響モデル毎に精密に演算し、そ
れ以外は全音響モデルを対象とする特徴空間別クラスタ
リングを行って粗い近似計算で済ませるのである。
【0043】入力音声の音響パラメータベクトル(入力
ベクトル)31は、スペクトル,スペクトル変化量,パワ
ー及びパワー変化量の合計4種類の特徴空間から構成さ
れ、26次元からなるベクトルとして表現される。音響
パラメータを上記特徴空間別にクラスタリングすること
によって、全次元を一括してクラスタリングする場合よ
りも効率良く要素数を圧縮できることが実験を通じて検
証されている。以下、総分布数が1500の音響モデル
を3組(図1において第n音響モデル格納部14nの第n
HMM → 第3音響モデル格納部14cの第3HMM)用
いた場合の尤度演算処理動作について述べる。尚、図2
には、詳細尤度を計算する分布の候補を選択する詳細尤
度演算候補選択方法の違いから2通りのフローチャート
を示している。
【0044】先ず、上記尤度演算部13の詳細照合用高
速尤度演算部15の動作について、図2(a)に従って説
明する。ステップS1で、予め総ての音響モデル(第1H
MM〜第3HMM)を対象として、特徴空間別にクラス
タリングを行ってクラスタ代表分布でなる予備選択用分
布集合(例えば、100分布)32が作成される。そし
て、入力ベクトル31の特徴パラメータを代入して予備
選択用分布の尤度が計算され、100個の尤度値を要素
とする部分空間別尤度テーブル(図示せず)が作成され
る。
【0045】ステップS2で、上記部分空間別尤度テー
ブルにおける各分布(各音響モデルにおける各クラスタ
の代表分布)の尤度値が、第1〜第3インデックステー
ブル33〜34に従って、第1〜第3音響モデル37〜
38における該当するクラスタに族する全分布に展開さ
れて、各音響モデルの各分布の近似尤度が求められる。
【0046】ステップS3で、上記各音響モデルの近似
尤度値が、各音響モデル別に、上記特徴空間に関して、
同一分布毎に集計されて第1近似尤度35〜第3近似尤
度36が得られる。そして、こうして得られた第1〜第
3近似尤度35〜36に基づいて、各音響モデル別に、
集計値が上位であるT個の分布が求められ、尤度を詳細
に計算する必要がある分布が選択される。通常、各音響
モデル毎に20(T=20)個程度が選択される。
【0047】ステップS4で、上記選択結果に基づく上
位T個(T=20)の選択分布の詳細尤度が、第1音響モ
デル37〜第3音響モデル38内に用意されて詳細演算
用の上記分布の集合を表す詳細分布集合における上記選
択分布に入力ベクトル31の特徴パラメータが代入され
て、各音響モデル別に求められる。そして、得られた選
択分布の詳細尤度値と、第1〜第3近似尤度35〜36
における上記選択分布以外の分布の尤度値(コピー値)と
を要素とする第1〜第3詳細尤度39〜40が求められ
る。こうして得られた第1〜第3詳細尤度39〜40が
詳細尤度系列として照合部17の詳細照合部19に送出
される。そうした後、尤度演算処理動作を終了する。
【0048】次に、図2(b)について簡単に説明する。
ステップS11及びステップS12で、上記図2(a)のフロ
ーチャートにおけるステップS1およびステップS2と同
様にして、100分布を有する予備選択用分布集合32
の作成と、入力ベクトル31による予備選択用分布の尤
度計算と、部分空間別尤度テーブルを用いた全音響モデ
ルの近似尤度の取得が行われる。
【0049】ステップS13で、上記部分空間別尤度テー
ブルの各特徴空間別に最大尤度から基準尤度が求めら
れ、この各基準尤度よりも近似尤度が大きい分布(例え
ば20個程度)が求められる。ステップS14で、上記各
基準尤度よりも近似尤度が大きい分布の詳細尤度が、各
音響モデル別に求められる。そして、得られた詳細尤度
値と上記近似尤度とを要素とする第1〜第3詳細尤度3
9〜40が求められる。こうして得られた第1〜第3詳
細尤度39〜40が詳細尤度系列として照合部17の詳
細照合部19に送出される。そうした後、尤度演算処理
動作を終了する。
【0050】上述のごとく総分布数が1500の音響モ
デルを3組用いる場合には、直接全分布の尤度を計算す
る従来の尤度演算方法の場合には4500回(=150
0分布×3組)の尤度演算が必要となる。また、音響モ
デル毎に尤度演算を高速化演算する場合、つまり100
分布を有する予備選択用分布集合を第1音響モデル37
〜第3音響モデル38別に持つ場合には360回(=1
00分布×3組+20分布×3組)の尤度演算が必要と
なる。
【0051】これに対して、本実施の形態の尤度演算方
法によれば、100分布を有する予備選択用分布集合を
1つ持てばよく、160回(=100分布×1組+20
分布×3組)の尤度演算で済ませることができる。した
がって、上記直接全分布の尤度を計算する従来の尤度演
算方法に比べて計算量を約1/28に削減でき、上記音
響モデル毎に尤度演算を高速演算する方法に比べて計算
量を約1/2(44%)に削減できるのである。
【0052】尤度演算の高速化方法としては、上述した
方法の他に、出力確率値をテーブル参照する方法や一度
計算した結果を再利用する方法がある。本実施の形態と
同様に、全音響モデルを一括して高速化の対象とする方
法をこれらの方法に適用しても差し支えない。もちろ
ん、全音響モデルを一括して高速化対象とはせず、音響
モデル別に更なる尤度演算の高速化を行なってもよい。
【0053】ところで、上記尤度演算の結果は、通常、
音響モデルの各状態に関してフレーム毎に格納される。
これを尤度テーブルと呼び、例えば音響モデルが500
状態を有して1状態を2Bで表現するとすると、100
フレーム分の演算結果を格納するには100KBのメモ
リが必要となる。そして、上述のごとく音響モデルを3
組用いる場合には、上記尤度テーブルの容量も音響モデ
ルの組数分の300KBが必要となる。
【0054】本実施の形態においては、上記予備選択用
分布集合32を用いて算出した状熊の近似尤度は全音響
モデルで共有化して保持しておく。例えば、音響モデル
が500状態であり1状態を2Bで表現すると、100
フレーム分の近似尤度を格納するには100KBが必要
となる。次に、第1〜第3詳細尤度39〜40に関し
て、第1音響モデル37〜第3音響モデル38の上記選
択分布を用いて算出した詳細尤度が含まれる状態の尤度
は保持し、それ以外の状態は上記共有化して保持された
状態の近似尤度を参照して求めることにする。したがっ
て、上記共有化して保持された近似尤度以外に保持すべ
き尤度は次のようになる。すなわち、上記選択分布の数
は各音響モデル毎に20個であるから、上記選択分布の
尤度が含まれる状態は高々20個となる。ここで、同じ
状態に属する分布が選択分布となる場合が多いので状態
数としては更に少なくなり、本例においては平均15個
とする。さらに、何れの状態に属する分布の尤度を第1
音響モデル37〜第3音響モデル38(詳細分布集合)か
ら求めたのかを記憶するインデックス情報が別途必要と
なる。このインデックス情報の保持に1状態につき2B
使用するものとする。以上の結果、各尤度を保持するた
めに必要なメモリ容量は、近似尤度の100KB(50
0状態×100フレーム×2B)、1つの音響モデルに
関する詳細尤度の3KB(15状態×100フレーム×
2B)、1つの音響モデルに関する上記インデックス情
報の3KB(l5状態×100フレーム×2B)となる。
したがって、本実施の形態の場合のように音響モデルを
3組有する場合のメモリ容量は、118KB(100K
B+3KB×3+3KB×3)となり、従来の尤度算出
方法の場合の300KB(100KB×3)に比べて、尤
度テーブル格納用メモリ容量を40%に削減できるので
ある。
【0055】一方、上記尤度演算部13の高速照合用尤
度演算部16は、次のように動作する。すなわち、詳細
照合用高速尤度演算部15から受け取った第1〜第3音
響モデル37〜38の状態を、音韻クラス間の誤り傾向
を考慮した上で縮退させて、各音響モデルを音素環境独
立型に変形する。そして、音響分析部12からの音響パ
ラメータ系列をフレーム単位で非線形に間引き、音素環
境独立型に変形された各音響モデルに作用させて、高速
照合用の簡易尤度時系列を出力するのである。
【0056】以後、上記照合部17による辞書照合に移
行する。照合部17においては、上記高速照合用尤度演
算部16からの簡易尤度系列および詳細照合用高速尤度
演算部15からの詳細尤度系列に対して、辞書にある項
目(単語)との照合を行なって各単語のスコアを算出す
る。そして、上位のスコア値を呈する単語を認識候補あ
るいは認識結果とし、上記認識結果を出力部23から出
力する。
【0057】本実施の形態においては、上記音響モデル
としてHMMを用いているので、照合アルゴリズムには
HMMに則ったビタビ・サーチが用いられる。ここで、
ビタビ・サーチ処理の処理量も大きいため、辞書にある
総ての単語について逐一ビタビ・サーチを行なうと応答
時間が遅くなってしまう。そこで、本実施の形態におい
ては、以下のように、照合部17による辞書照合を、フ
ァストマッチ部18による予備選択と詳細照合部19に
よるビタビ・サーチとの2段階に分けて行い、照合処理
の高速化を図っているのである。
【0058】尚、本実施の形態においては、上述のごと
く複数組の音響モデルを用いているために、照合部17
による処理は以下のような処理となる。 (1)上記ファストマッチ部18 上述のようにして、上記高速照合用尤度演算部16によ
って、非線形に間引かれた音響パラメータ系列に基づい
て音素環境独立型の各音響モデルから算出された簡易尤
度系列と、高速照合用辞書21に登録された語彙とを、
ビタビ・サーチによって照合することによって予備選択
を行なう。ここで、高速照合用辞書21には、各語彙に
対応付けて、1音素を1状態として表現した状態番号系
列を登録しておく。そして、高速照合用辞書21に登録
された各語彙の音素系列に上記算出された簡易尤度を適
用して各語彙の高速照合(簡易)スコアを算出し、全音響
モデルを通して上位の高速照合スコアを呈する所定数の
語彙を認識候補として詳細照合部19に送出するのであ
る。尚、上記高速照合用辞書21は、詳細照合用辞書2
2に基づいて作成されたものを予め用意しておく。
【0059】このように、上記辞書に登録された総ての
認識語彙とのビタビ・サーチは1音素を1状態で表現し
た高速照合用辞書21を用いて高速に行い、照合時間の
短縮を図るのである。
【0060】(2)上記詳細照合部19 上記ファストマッチ18で選出された認識候補のうち、
同じカテゴリに属する認識候補が複数存在する場合に
は、その複数の認識候補のうち上記高速照合スコアが小
さい認識候補を除外してカテゴリ当りの認識候補を一つ
にすることで候補数を更に削減する。こうして残った認
識候補に関して、詳細照合用高速尤度演算部15におい
て各音響モデルから算出された詳細尤度系列と、詳細照
合用辞書22に登録された語彙とを、ビタビ・サーチに
よって照合することによって上位のスコアを呈する所定
数の認識候補を認識結果として出力部23に送出するの
である。
【0061】このように、1音素を複数の状態で表現し
た詳細照合用辞書22を用いたビタビ・サーチはファス
トマッチ18で選出された認識候補に関してのみ行っ
て、照合時間の短縮を図るのである。
【0062】上記ファストマッチ部18による予備選択
は全音響モデルを対象にして行っている。もちろん、各
音響モデル別に予備選択処理および詳細照合処理を行な
い、各音響モデル別に最も高いスコアを呈する語彙を認
識結果としてもよい。この場合、ファストマッチ部18
によって選択される上位認識候補の数を平均20個とす
ると、詳細照合部19による詳細照合を60回(=20
回×3)行なう必要がある。これに対して、本実施の形
態のごとく、予備選択を全音響モデルを対象にして行っ
た場合には、詳細照合は20回でよい。
【0063】以上のごとく、本実施の形態においては、
上記音響モデル格納部14の第1音響モデル格納部14
a,…,第n音響モデル格納部14nには、発話者の顔の典
型的な位置に対応した代表的な周波数特性を模倣するフ
ィルタを学習データに掛けて周波数特性を補正した後、
学習を行って得たn組の音響モデルを用意する。そし
て、尤度演算部13によって、入力音声の音響パラメー
タベクトルに対して上記n組の音響モデルの夫々を作用
させて各音韻の状態毎に尤度を算出し、照合部17によ
って、辞書格納部20の辞書との照合を行なって上位の
スコアを呈する語彙を認識候補(認識結果)として出力す
るようにしている。したがって、ユーザが様々な位置で
発声しても、その位置に近い周波数特性を有する音響モ
デルが常に適用されて認識処理が行われ、顔の位置に因
らずに高い認識率を維持することができる。すなわち、
本実施の形態を適用することによって、ユーザはマイク
の位置を意識せずに発声することができ、使い勝手を向
上することができる。
【0064】その際に、入力音声の音響パラメータベク
トルに対して各音響モデルの夫々を作用させて各音韻の
状態毎に尤度を算出する尤度演算部13を、詳細照合用
の詳細尤度系列を生成する詳細照合用高速尤度演算部1
5と、高速照合用の簡易尤度系列を生成する高速照合用
尤度演算部16とで構成している。
【0065】そして、上記詳細照合用高速尤度演算部1
5では、全音響モデル37〜38を対象として特徴空間
別にクラスタリングを行ってクラスタ代表分布でなる予
備選択用分布集合(100分布)32を作成し、入力ベク
トル31の特徴パラメータに適用させて各分布の尤度を
計算し、100個の尤度値を要素とする部分空間別尤度
テーブルを作成する。さらに、上記部分空間別尤度テー
ブルの各分布(各音響モデルにおける各クラスタの代表
分布)の尤度値を第1〜第3音響モデル37〜38にお
ける該当するクラスタに属する全分布に展開して、各音
響モデルの各分布の近似尤度を求める。そして、各音響
モデル別に各特徴空間に関して同じ分布の尤度を集計し
て得た第1近似尤度35〜第3近似尤度36に基づい
て、各音響モデル別に集計値が上位のT(=20)個の分
布を、尤度を詳細に計算する必要がある分布として選択
する。次に、第1音響モデル37〜第3音響モデル38
(詳細集合分布)における上記選択分布に入力ベクトル3
1の特徴パラメータを適用させて求めた上記選択分布の
詳細尤度値と、第1〜第3近似尤度35〜36における
上記選択分布以外の分布の近似尤度値(コピー値)とを要
素とする第1〜第3詳細尤度39〜40を求める。そし
て、得られた第1〜第3詳細尤度39〜40を詳細尤度
系列として照合部17の詳細照合部19に送出するよう
にしている。
【0066】こうして、複数組の音響モデルを用いるに
際して、音声認識結果に直接影響するような出力確率関
数分布に関する尤度演算は各音響モデル毎に精密に演算
し、それ以外の分布に関する尤度演算は全音響モデルを
対象とする特徴空間別クラスタリングを行って粗い近似
計算で済ませることによって、総分布数が1500の音
響モデルを3組用いる場合の尤度演算回数を160回に
抑えることができる。その結果、直接1500の全分布
の尤度を計算する場合の尤度演算回数4500回の約1
/28に、上記音響モデル毎に尤度演算を高速演算する
場合の尤度演算回数360回の約1/2に、尤度演算量
を削減できるのである。
【0067】さらに、上記各音響モデルの各状態の尤度
をフレーム毎に格納して尤度テーブルを作成する際に、
上記近似尤度は全音響モデルで共有化して保持し、それ
以外の詳細尤度は各音響モデル別にインデックスと共に
保持するようにしている。したがって、上記尤度テーブ
ルの容量は、例えば音響モデルが500状態を有して1
状態を2Bで表現し、音響モデルを3組用いるとする
と、118KBに抑えることができる。その結果、直接
1500の全分布の尤度を計算する場合のメモリ容量3
00KBに比して、上記尤度テーブル格納用メモリ容量
を40%に削減することができる。すなわち、本実施の
形態によれば、高速尤度演算を少ないメモリ容量で実現
できるのである。
【0068】尚、本実施の形態においては、上記尤度演
算部13の高速照合用尤度演算部16による簡易尤度の
高速演算とファストマッチ部18による高速照合とは、
状態を縮退させた音素環境独立型音響モデル、あるい
は、1音素を1状態で表現した高速照合用辞書21を用
いて行っている。しかしながら、この発明における高速
尤度演算及び高速照合は、上述の方法に限定されるもの
ではない。また、本実施の形態においては、離散単語音
声認識システムの場合を例に上げて説明したが、連続音
声認識システムにおいても同様の手法を適用することが
できる。
【0069】また、上記実施の形態においては、複数組
み存在する音響モデルの総てを用いて各音韻毎の尤度を
算出するようにしている。しかしながら、次の実施の形
態で説明するように、複数組み存在する音響モデルの何
れか1組を選択し、選択した組の音響モデルを用いて音
声認識を行うことも可能である。図4に、本実施の形態
における音声認識装置のブロック図を示す。
【0070】図4において、音声入力部41,音響分析
部42,尤度演算部43,音響モデル格納部44,照合部
47,辞書格納部50および出力部53は、図1におけ
る音声入力部11,音響分析部12,尤度演算部13,音
響モデル格納部14,照合部17,辞書格納部20および
出力部23と同様である。すなわち、音響モデル格納部
44における第1音響モデル格納部44a,…,第n音響
モデル格納部44nには、発話者の顔の典型的な位置に
対応した代表的な周波数特性を模倣するフィルタを学習
データに掛けて周波数特性を補正した後、学習を行って
得たn組の音響モデルが用意されている。
【0071】音響モデル選択部54は、上記第1音響モ
デル格納部44a,…,第n音響モデル格納部44nに登録
された第1HMM,…,第nHMMの夫々に対して、全音
素を1状態で表した混合連続分布型音響モデル(以下、
GMM(ガウシアン混合モデル)と呼ぶ)を有している。
そして、音響分析部42からの入力音声の音響パラメー
タベクトルに各GMMを作用させて、最も高い尤度を呈
するGMMの情報を切換え部55に送出する。そうする
と、切換え部55は、音響モデル選択部54からの情報
に応じた音響モデル(HMM)を選択して詳細照合用高速
尤度演算部45に送出する。以後は、上記実施の形態の
場合と同様にして、詳細照合用高速尤度演算部45によ
る詳細照合用の尤度演算と高速照合用尤度演算部46に
よる高速照合用の尤度演算とが、上記選択された1つの
音響モデルを用いて更に少ない尤度演算量で行われるの
である。
【0072】また、本音声認識装置が、ノートパソコン
等のビデオカメラを備えている機器である場合には、上
記音響モデル選択部は、上記GMMを用いて音響モデル
を選択する代わりに、ビデオカメラによって写し出され
たユーザに関する画像情報を用いることも可能である。
すなわち、上記音響モデル選択部は、上記ビデオカメラ
(図示せず)からの画像情報に基づく画像認識処理を行っ
て、マイクに対するユーザの顔の位置や向きを識別し、
識別結果を切換え部55に送出するのである。そして、
切換え部55によって、上記画像認識処理の結果得られ
た顔の位置や向き情報に最も合致する音響モデルを選択
して詳細照合用高速尤度演算部45に送出するのであ
る。
【0073】ところで、上記各実施の形態における上記
音響モデル格納部,音響分析部,尤度演算部,辞書格納部
および照合部としての機能は、プログラム記録媒体に記
録された音声認識処理プログラムによって実現される。
上記実施の形態における上記プログラム記録媒体は、R
OM(リード・オンリ・メモリ)でなるプログラムメディア
である。あるいは、外部補助記憶装置に装着されて読み
出されるプログラムメディアであってもよい。尚、何れ
の場合においても、上記プログラムメディアから音声認
識処理プログラムを読み出すプログラム読み出し手段
は、上記プログラムメディアに直接アクセスして読み出
す構成を有していてもよいし、RAM(ランダム・アクセ
ス・メモリ)に設けられたプログラム記憶エリア(図示せ
ず)にダウンロードし、上記プログラム記憶エリアにア
クセスして読み出す構成を有していてもよい。尚、上記
プログラムメディアからRAMの上記プログラム記憶エ
リアにダウンロードするためのダウンロードプログラム
は、予め本体装置に格納されているものとする。
【0074】ここで、上記プログラムメディアとは、本
体側と分離可能に構成され、磁気テープやカセットテー
プ等のテープ系、フロッピー(登録商標)ディスク,ハ
ードディスク等の磁気ディスクやCD(コンパクトディ
スク)‐ROM,MO(光磁気)ディスク,MD(ミニディス
ク),DVD(ディジタルビデオディスク)等の光ディスク
のディスク系、IC(集積回路)カードや光カード等のカ
ード系、マスクROM,EPROM(紫外線消去型RO
M),EEPROM(電気的消去型ROM),フラッシュR
OM等の半導体メモリ系を含めた、固定的にプログラム
を坦持する媒体である。
【0075】また、上記各実施の形態における音声認識
装置は、モデムを備えてインターネットを含む通信ネッ
トワークと接続可能な構成を有していれば、上記プログ
ラムメディアは、通信ネットワークからのダウンロード
等によって流動的にプログラムを坦持する媒体であって
も差し支えない。尚、その場合における上記通信ネット
ワークからダウンロードするためのダウンロードプログ
ラムは、予め本体装置に格納されているものとする。あ
るいは、別の記録媒体からインストールされるものとす
る。
【0076】尚、上記記録媒体に記録されるものはプロ
グラムのみに限定されるものではなく、データも記録す
ることが可能である。
【0077】
【発明の効果】以上より明らかなように、第1の発明の
音声認識装置は、話者の顔の典型的な位置に応じた周波
数特性を反映させた複数組の音響モデルを音響モデル格
納部に用意し、尤度演算部によって、入力音声の音響パ
ラメータベクトルを用いて上記音響モデルの各音韻の状
態の尤度を演算し、照合部によって、上記音韻の状態の
尤度と辞書の登録語彙との照合を行って入力音声を認識
するので、ユーザが様々な位置で発声しても、その位置
に近い周波数特性を有する音響モデルを常に適用して認
識処理を行うことができる。したがって、ユーザの顔の
位置ずれによる周波数の変化に対応して、高い認識率を
維持することができる。
【0078】すなわち、この発明によれば、ユーザはマ
イクの位置を意識せずに発声することができ、本音声認
識装置を搭載した機器の使い勝手を向上できる。
【0079】また、上記第1の発明の音声認識装置は、
上記音響モデルをHMMとし、上記尤度演算部を、上記
全音響モデルを対象として作成された一つの予備選択用
分布集合と、上記予備選択用分布集合を用いて上記全音
響モデルの上記各分布の近似的な尤度を求める近似尤度
計算手段と、上記近似尤度計算部による計算結果に基づ
いて詳細尤度計算の必要がある分布を選択する選択手段
と、上記各音響モデル別に用意された詳細演算用の上記
分布の集合を表す詳細分布集合と、上記詳細分布集合に
おける上記選択分布の詳細尤度を計算する詳細尤度計算
手段を備えた詳細照合用尤度演算部を有するように成せ
ば、一つの予備選択用分布集合に基づいて各音響モデル
の近似的な尤度を算出することによって、入力音声の音
響パラメータベクトルに全音響モデルを作用させて各音
響モデルの尤度を求める場合に比して、尤度の計算量を
約1/28に削減できる。あるいは、上記予備選択用分
布集合を夫々の音響モデル毎に作成する場合に比して、
尤度の計算量を約1/2に削減できる。
【0080】その際に、上記選択手段によって、近似尤
度の計算結果に基づいて詳細に尤度を計算する必要のあ
る分布を選択し、詳細尤度計算手段によって、上記選択
分布の詳細尤度を計算することによって、尤度計算量の
削減と高認識率の維持とを両立させることができる。
【0081】また、上記第1の発明の音声認識装置は、
上記尤度演算部を上記各音韻毎の高速照合用尤度を算出
する高速照合用尤度演算部を有するように成し、高速照
合部によって、上記高速照合用尤度演算部からの高速照
合用尤度系列と高速照合用辞書とを照合して認識候補の
予備選択を行ない、詳細照合部によって、1カテゴリ1
認識候補に関して、上記詳細照合用尤度演算部からの詳
細照合用尤度系列と詳細照合用辞書との照合を行って認
識結果を得るように成せば、上記詳細照合用辞書に登録
された総ての認識語彙に関して、詳細照合を行う場合に
比して、辞書照合を高速に行うことができる。
【0082】また、上記第1の発明の音声認識装置は、
上記近似尤度計算手段によって計算された状態毎の尤度
を全音響モデルで共有化して保持する第1尤度保持手段
と、上記詳細尤度計算手段によって計算された状態毎の
尤度を各音響モデル別に保持する第2尤度保持手段を備
えれば、上記計算された状態毎の尤度を各音響モデル毎
に保持する場合に比して、尤度値の保持容量を40%に
抑えることができる。したがって、尤度演算の高速化お
よび辞書照合の高速化を少ないメモリ容量で実現でき
る。
【0083】また、上記第1の発明の音声認識装置は、
上記各音響モデルにおける各音韻を1つの状態で表した
1状態混合連続分布型音響モデルと、上記各1状態混合
連続分布型音響モデルの尤度を求めて最も高い尤度を呈
する1状態混合連続分布型音響モデルに対応する音響モ
デルを選択する音響モデル選択部と、上記音響モデル格
納部から上記選択された音響モデルを切換え選択して上
記尤度演算部に送出する切換え部を備えれば、上記尤度
演算部による尤度の演算を上記選択された1つの音響モ
デルを用いて行うことができる。したがって、総ての組
の音響モデルを用いて上記尤度演算をおこなう場合に比
して、尤度の計算量を低減することができる。
【0084】また、上記第1の発明の音声認識装置は、
話者の顔の位置を撮影する撮像手段と、上記撮像手段か
らの画像信号に基づいて上記話者の顔の位置に対応する
音響モデルを選択する音響モデル選択部と、上記音響モ
デル格納部から上記選択された音響モデルを切換え選択
して上記尤度演算部に送出する切換え部を備えれば、上
記各1状態混合連続分布型音響モデルによる尤度演算結
果に因らずに音響モデルを選択することができる。した
がって、尤度の計算量の更なる低減化を図ることができ
る。
【0085】また、第2の発明の音声認識方法は、話者
の顔の典型的な位置に応じた周波数特性を反映させた複
数組の音響モデルを用意し、入力音声を音響分析して音
響パラメータベクトルの時系列を得、上記入力音声の音
響パラメータベクトルを用いて上記音響モデルの各音韻
の状態の尤度を演算し、上記各音韻の状態の尤度と認識
用語彙が登録された辞書の登録語彙との照合を行って全
登録語彙のスコアを算出し、上位のスコアを呈する登録
語彙を認識結果として出力するので、ユーザが様々な位
置で発声しても、その位置に近い周波数特性を有する音
響モデルを常に適用して認識処理を行うことができる。
したがって、ユーザの顔の位置ずれによる周波数の変化
に対応して、高い認識率を維持することができる。
【0086】また、第3の発明のプログラム記録媒体
は、コンピュータを、上記第1の発明における音響モデ
ル格納部,音響分析部,尤度演算部,辞書および照合部と
して機能させる音声認識処理プログラムが記録されてい
るので、上記第1の発明の場合と同様に、ユーザが様々
な位置で発声しても、その位置に近い周波数特性を有す
る音響モデルを常に適用して認識処理を行うことができ
る。したがって、ユーザの顔の位置ずれによる周波数の
変化に対応して、高い認識率を維持することができる。
【図面の簡単な説明】
【図1】 この発明の音声認識装置のブロック図であ
る。
【図2】 図1における詳細照合用高速尤度演算部によ
る尤度演算処理動作のフローチャートである。
【図3】 図2に示す尤度演算処理動作時におけるデー
タの流れを示す図である。
【図4】 図1とは異なる音声認識装置のブロック図で
ある。
【図5】 従来のHMMを用いる音声認識装置のブロッ
ク図である。
【符号の説明】
11,41…音声入力部、 12,42…音響分析部、 13,43…尤度演算部、 14,44…音響モデル格納部、 14a,44a…第1音響モデル格納部、 14b,44b…第2音響モデル格納部、 14n,44n…第n音響モデル格納部、 15,45…詳細照合用高速尤度演算部、 16,46…高速照合用尤度演算部、 17,47…照合部 18,48…ファストマッチ部、 19,49…詳細照合部、 20,50…辞書格納部、 21,51…高速照合用辞書、 22,52…詳細照合用辞書、 23,53…出力部、 31…入力ベクトル、 32…予備選択用分布集合、 33〜34…第1〜第3インデックステーブル、 35〜36第1〜第3近似尤度、 37〜38…第1〜第3音響モデル、 39〜40…第1〜第3詳細尤度、 54…音響モデル選択部、 55…切換え部。

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 音響モデルを用いて入力音声の認識を行
    なう音声認識装置であって、 上記音響モデルとして、話者の顔の典型的な位置に応じ
    た周波数特性を反映させた複数組の音響モデルを格納し
    た音響モデル格納部と、 入力音声を音響分析して、音響パラメータベクトルの時
    系列を得る音響分析部と、 上記入力音声の音響パラメータベクトルを用いて、上記
    音響モデルの各音韻の状態の尤度を演算する尤度演算部
    と、 認識用語彙が登録された辞書と、 上記各音韻の状態の尤度と上記辞書の登録語彙との照合
    を行って全登録語彙のスコアを算出し、上位のスコアを
    呈する登録語彙を認識結果として出力する照合部を備え
    たことを特徴とする音声認識装置。
  2. 【請求項2】 請求項1に記載の音声認識装置におい
    て、 上記音響モデル格納部に格納された総ての音響モデル
    は、各状態の出力確率密度関数を多次元正規分布で表現
    した隠れマルコフモデルであって、 上記尤度演算部は、 上記全音響モデルを対象として作成された予備選択用の
    上記分布の集合を表す一つの予備選択用分布集合と、 上記入力音声の音響パラメータベクトルを用いて上記予
    備選択用分布集合における各分布の尤度を計算し、この
    尤度を用いて上記全音響モデルにおける上記各分布の近
    似的な尤度を求める近似尤度計算手段と、 上記近似尤度計算部による計算結果に基づいて、詳細に
    尤度を計算する必要のある分布を選択する選択手段と、 上記各音響モデル別に用意された詳細演算用の上記分布
    の集合を表す詳細分布集合と、 上記入力音声の音響パラメータベクトルを用いて上記詳
    細分布集合における上記選択分布の詳細尤度を計算する
    詳細尤度計算手段を備えた詳細照合用尤度演算部を有す
    ることを特徴とする音声認識装置。
  3. 【請求項3】 請求項1に記載の音声認識装置におい
    て、 上記尤度演算部は、上記各音韻毎の高速照合用尤度を算
    出する高速照合用尤度演算部を有すると共に、 上記高速照合用尤度演算部からの高速照合用尤度系列と
    高速照合用辞書とを照合して、認識候補の予備選択を行
    なう高速照合部と、 上記高速照合部による予備選択の結果得られた認識候補
    のうち、同じカテゴリに属するスコアの小さい認識候補
    を除外し、残った認識候補に関して、上記詳細照合用尤
    度演算部からの詳細照合用尤度系列と詳細照合用辞書と
    の照合を行って認識結果を得る詳細照合部を備えたこと
    を特徴とする音声認識装置。
  4. 【請求項4】 請求項2あるいは請求項3に記載の音声
    認識装置において、 上記近似尤度計算手段によって計算された状態毎の尤度
    を全音響モデルで共有化して保持する第1尤度保持手段
    と、 上記詳細尤度計算手段によって計算された状態毎の尤度
    を各音響モデル別に保持する第2尤度保持手段を備えた
    ことを特徴とする音声認識装置。
  5. 【請求項5】 請求項1乃至請求項4の何れか1つに記
    載の音声認識装置において、 上記各音響モデルにおける各音韻を1つの状態で表した
    1状態混合連続分布型音響モデルと、 上記入力音声の音響パラメータベクトルを用いて上記各
    1状態混合連続分布型音響モデルの尤度を求め、最も高
    い尤度を呈する1状態混合連続分布型音響モデルに対応
    する音響モデルを選択する音響モデル選択部と、 上記音響モデル格納部から上記選択された音響モデルを
    切換え選択して上記尤度演算部に送出する切換え部を備
    えたことを特徴とする音声認識装置。
  6. 【請求項6】 請求項1乃至請求項4の何れか1つに記
    載の音声認識装置において、 話者の顔の位置を撮影する撮像手段と、 上記撮像手段からの画像信号に基づいて上記話者の顔の
    位置を求め、得られた顔の位置に対応する音響モデルを
    選択する音響モデル選択部と、 上記音響モデル格納部から上記選択された音響モデルを
    切換え選択して上記尤度演算部に送出する切換え部を備
    えたことを特徴とする音声認識装置。
  7. 【請求項7】 音響モデルを用いて入力音声の認識を行
    なう音声認識方法であって、 上記音響モデルとして、話者の顔の典型的な位置に応じ
    た周波数特性を反映させた複数組の音響モデルを用意
    し、 入力音声を音響分析して音響パラメータベクトルの時系
    列を得、 上記入力音声の音響パラメータベクトルを用いて、上記
    音響モデルの各音韻の状態の尤度を演算し、 上記各音韻の状態の尤度と認識用語彙が登録された辞書
    の登録語彙との照合を行って全登録語彙のスコアを算出
    し、上位のスコアを呈する登録語彙を認識結果として出
    力することを特徴とする音声認識方法。
  8. 【請求項8】 コンピュータを、 請求項1における音響モデル格納部,音響分析部,尤度演
    算部,辞書および照合部として機能させる音声認識処理
    プログラムが記録されたことを特徴とするコンピュータ
    読出し可能なプログラム記録媒体。
JP2000231229A 2000-07-31 2000-07-31 音声認識装置および音声認識方法、並びに、プログラム記録媒体 Pending JP2002041079A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000231229A JP2002041079A (ja) 2000-07-31 2000-07-31 音声認識装置および音声認識方法、並びに、プログラム記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000231229A JP2002041079A (ja) 2000-07-31 2000-07-31 音声認識装置および音声認識方法、並びに、プログラム記録媒体

Publications (1)

Publication Number Publication Date
JP2002041079A true JP2002041079A (ja) 2002-02-08

Family

ID=18724095

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000231229A Pending JP2002041079A (ja) 2000-07-31 2000-07-31 音声認識装置および音声認識方法、並びに、プログラム記録媒体

Country Status (1)

Country Link
JP (1) JP2002041079A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005048239A1 (ja) * 2003-11-12 2005-05-26 Honda Motor Co., Ltd. 音声認識装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005048239A1 (ja) * 2003-11-12 2005-05-26 Honda Motor Co., Ltd. 音声認識装置
JPWO2005048239A1 (ja) * 2003-11-12 2007-11-29 本田技研工業株式会社 音声認識装置
JP4516527B2 (ja) * 2003-11-12 2010-08-04 本田技研工業株式会社 音声認識装置

Similar Documents

Publication Publication Date Title
Karpagavalli et al. A review on automatic speech recognition architecture and approaches
O’Shaughnessy Automatic speech recognition: History, methods and challenges
Reynolds et al. Robust text-independent speaker identification using Gaussian mixture speaker models
US5167004A (en) Temporal decorrelation method for robust speaker verification
US6029124A (en) Sequential, nonparametric speech recognition and speaker identification
US5960397A (en) System and method of recognizing an acoustic environment to adapt a set of based recognition models to the current acoustic environment for subsequent speech recognition
US7054810B2 (en) Feature vector-based apparatus and method for robust pattern recognition
Stolcke et al. Speaker recognition with session variability normalization based on MLLR adaptation transforms
EP1355296B1 (en) Keyword detection in a speech signal
EP1355295B1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
US20080201139A1 (en) Generic framework for large-margin MCE training in speech recognition
US6931374B2 (en) Method of speech recognition using variational inference with switching state space models
WO2001022400A1 (en) Iterative speech recognition from multiple feature vectors
Beigi Speaker recognition: Advancements and challenges
US5943647A (en) Speech recognition based on HMMs
Herbig et al. Self-learning speaker identification: a system for enhanced speech recognition
Steinbiss et al. The Philips research system for continuous-speech recognition
JP7107377B2 (ja) 音声処理装置、音声処理方法、およびプログラム
US20090043566A1 (en) Speech processing apparatus and method
JP2002041079A (ja) 音声認識装置および音声認識方法、並びに、プログラム記録媒体
NOVOTNÝ Improving Robustness of Speaker Recognition using Discriminative Techniques
JP3868798B2 (ja) 音声認識装置
Ney et al. Acoustic-phonetic modeling in the SPICOS system
Martín-Iglesias et al. A speech recognizer based on multiclass SVMs with HMM-guided segmentation
Borský Robust recognition of strongly distorted speech