JP3571821B2

JP3571821B2 - 音声認識装置および単語構成要素の辞書並びに隠れマルコフモデルの学習方法

Info

Publication number: JP3571821B2
Application number: JP23541895A
Authority: JP
Inventors: 博史金澤
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1995-09-13
Filing date: 1995-09-13
Publication date: 2004-09-29
Anticipated expiration: 2015-09-13
Also published as: JPH0981177A

Description

【０００１】
【発明の属する技術分野】
本発明は、単語構成要素の辞書並びに隠れマルコフモデルを用いて音声認識を行う音声認識装置および単語構成要素の辞書並びに隠れマルコフモデルの学習方法に関する。
【０００２】
【従来の技術】
従来より、騒音環境下における音声認識の基本手法は、入力された音声信号に重畳した雑音信号をノイズ・サブトラクション法（文献：Ｓ．Ｆ．Ｂｏｌｌ：”Ｓｕｐｐｒｅｓｓｉｏｎｏｆａｃｏｕｓｔｉｃｎｏｉｓｅｉｎｓｐｅｅｃｈｕｓｉｎｇｓｐｅｃｔｒａｌｓｕｂｔｒａｃｔｉｏｎ”，ＩＥＥＥＴｒａｎｓ．Ａｃｏｕｓｔ．，Ｓｐｅｅｃｈ＆ＳｉｇｎａｌＰｒｏｃｅｓｓ．，ＡＳＳＰ−２７，２，ｐｐ．１１３−１２０（Ａｐｒｉｌ．１９７９）等の手法により除去し、音声信号のみを抽出した後に、音声の始終端検出を行い、次いで、始終端間の音声特徴パラメータと音声認識辞書とを照合することにより行われていた。
【０００３】
しかし、ノイズ・サブトラクション法は、背景雑音の各周波数帯域の平均パワーレベルを入力音声信号から差し引くだけであるため、白色雑音等のような定常的な雑音が付加し、かつＳΝ比が高い音声についてはある程度有効であるが、非定常な雑音やＳＮ比の低い音声についてはあまり効果がなく、音声認識装置の実用上大きな問題となっていた。
【０００４】
このため、雑音の重畳した入力音声から、雑音成分を除去するのではなく、認識辞書に雑音によるパターン変形を持たせる手法もいくつか提案されている。その中の一つとして、雑音免疫学習法がある。
【０００５】
この手法は、あらかじめクリーンな音声のデータベースと、雑音のデータベースを別個に用意し、ＳＮ比を徐々に低減させながら、雑音の重畳した学習用音声データを人工的に生成し、音声の始終端の検出を行わずに、始終端非固定の連続照合により、学習用パターンを抽出し、認識辞書の学習を行うものである（文献：竹林、金澤：”ワードスポッティングによる音声認織における雑音免疫学習”，電子情報通信学会論文誌（Ｄ−ＩＩ），Ｖｏｌ．Ｊ７４−Ｄ−ＩＩ，Ｎｏ．２，ｐｐ．１２１−１２９（１９９１．Ｆｅｂ），および特開平２−２３８４９５号公報を参照）。
【０００６】
このように雑音環境下での音声認識においては、入力された雑音重畳音声から雑音成分を取り除いた後に認識処理を行うか、入力音声には処理を行わずに、認識辞書に雑音によるパターン変形成分を持たせ、認識処理を行うか、あるいは両者を混合した方法がこれまで行われてきた。
【０００７】
一方、大語彙単語音声認識においては、語彙数が数千から数万と大規模になるため、単語単位の認識手法ではなく、単語を構成する要素（音節、音韻等）を単位とする認識手法が一般的である。これは、単語を単位とする場合には、認識対象単語の音声データを逐一収集して単語辞書を作成する必要があり、その労力が極めて膨大となるのに対して、音韻や音節を単位とする場合には日本語で約１００種類程度の辞書を用意することにより、任意の単語を認識対象単語とすることができ、語彙の拡張が容易となるからである。
【０００８】
【発明が解決しようとする課題】
音韻や音節など単語構成要索を単位とする単語音声認識の場合に、現在主流となっている認識方式として、隠れマルコフモデル（ＨＭＭ：ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）を用いる方式がある。本方式では、数百種類の標準パターン（符号帳）をあらかじめ用意しておき、各フレーム毎に最も近い符号をつけ、その符号系列および各符号の出現確率と状態の遷移確率を持った隠れマルコフモデルとから単語毎にその尤度を求め、認識を行う。
【０００９】
このような手法では、耐雑音対策として雑音の重畳した音声パターンを用いて符号帳を作成したり、上述したノイズ・サブトラクション法を用いたり、雑音ＨＭＭを別個に設けて音韻ＨＭＭと併用する方法などが提案されているが、標準パターンの単位として１フレーム分のスペクトルパターンなどを用いており、雑音重畳音声を用いて符号帳を作成しても冗長性がなく雑音によるパ夕ーンの変勤を十分に吸収しきれなかった。また、ノィズ・サブトラクション法や雑音ＨＭＭなどによっても定常的な雑音成分をスペクトルパターンから差し引いたり、雑音の発生を確率的なモデルとして扱うため、定常的な雑音に対してはある程度対処できても、非定常な雑音に対してはあまり効果がなかった。
【００１０】
そこで、本発明はパターン変形が著しい雑音環境下でも高い認識性能を保持し、かつ語彙の拡張も容易な音声認識装置を提供することを目的とする。
また本発明は、パターン変形が著しい雑音環境下でも高い認識性能を保持し、かつ語彙の拡張も容易な音声認識装置の実現が図れる単語構成要素の辞書並びに隠れマルコフモデルの学習方法を提供することにある。
【００１１】
【課題を解決するための手段】
上記課題を解決するため、本発明の音声認識装置は、音声データを入力する音声入力手段と、この入力された音声データを分折して特徴パラメータの時系列を求める音声分析手段と、この求められた特徴パラメータの時系列と単語構成要素の辞書との照合を行って類似度の時系列を求める類似度計算手段と、この求められた類似度の時系列と単語構成要素のＨＭＭ（隠れマルコフモデル）とを用いて音声認識を行う単語照合手段と、雑音のないクリーンな第１の音声データと雑音データとから第１の雑音重畳音声を生成し、当該第１の雑音重畳音声を用いて上記単語構成要素の辞書の学習を行う第１の学習手段と、上記第１の音声データとは別の雑音のないクリーンな第２の音声データと雑音データとから第２の雑音重畳音声を生成し、当該第２の雑音重畳音声を上記音声分析手段に与えることで得られる当該第２の雑音重畳音声の特徴パラメータの時系列と上記第１の学習手段により学習された単語構成要素の辞書との照合を上記類似度計算手段にて行わせて類似度の時系列を求め、この類似度の時系列を用いて上記単語構成要素のＨＭＭの学習を行う第２の学習手段とを備えたことを特徴とする。
【００１２】
また、本発明の単語構成要素の辞書並びに隠れマルコフモデルの学習方法は、雑音のないクリーンな第１の音声データと雑音データとから第１の雑音重畳音声を生成し、当該第１の雑音重畳音声を用いて単語構成要素の辞書の学習を行う一方、上記第１の音声データとは別の雑音のないクリーンな第２の音声データと雑音データとから第２の雑音重畳音声を生成し、当該第２の雑音重畳音声を分析することで得られる特徴パラメータの時系列と上記第１の雑音重畳音声を用いて学習された単語構成要素の辞書との照合を行って類似度の時系列を求め、この類似度の時系列を用いて上記単語構成要素のＨＭＭ（隠れマルコフモデル）の学習を行うことを特徴とする。
【００１３】
本発明においては、（雑音のないクリーンな第１の音声データと雑音データとから生成される）第１の雑音重畳音声を用いて前述の雑音免疫学習法による単語構成要素の辞書（単語構成要素が音韻の例では、音韻辞書）の学習が行われ、さらに（第１の音声データとは別の雑音のないクリーンな第２の音声データと雑音データとから生成される）第２の雑音重畳音声の特徴パラメータの時系列と学習済みの単語構成要素の辞書（即ち、第１の雑音重畳音声を用いて学習された単語構成要素の辞書）とを用いて求められる類似度時系列に基づき、単語構成要素のＨＭＭ（単語構成要素が音韻の例では、音韻ＨＭＭ）の学習が行われる。これにより、単語構成要素の辞書と単語構成要素のＨＭＭの両方で雑音によるパターン変形に対処できるようになり、音声認識装置の使用環境の雑音によるパターン変形に対して、安定に動作する高性能の音声認識を実現するとともに、語彙の拡張を容易にすることが可能となる。
【００１４】
特に、単語構成要素辞書の学習に、上記第１の雑音重畳音声の単語構成要素の区間情報を利用することで、雑音による変動を含んだ単語構成要素データを得ることが可能となる。但し、雑音の影響の程度によっては、第１の雑音重畳音声の単語構成要素の区間情報を用いた場合に、誤った単語構成要素区間が設定される可能性がある。
【００１５】
そこで、雑音のないクリーンな第１の音声データの単語構成要素の区間情報により示される区間（クリーンな音声の単語構成要素区間）を基準として、第１の雑音重畳音声の単語構成要素の区間情報により示される区間（雑音重畳音声の単語構成要素区間）があらかじめ定められたしきい値以上ずれている場合には、単語構成要素辞書の学習に、第１の音声データの単語構成要素の区間情報を利用することで、雑音による影響で誤った単語構成要素区間が設定されるのを防止することも可能である。特に、上記のしきい値をカテゴリ毎に設定することにより、単語構成要素区間決定の信頼性を高くすることが可能となる。
【００１６】
【発明の実施の形態】
以下、本発明の実施の形態につき図面を参照して説明する。
図１は、本発明の一実施形態に係る音声認識装置の構成を示すブロック図である。この装置は、入力音声の認識を司る認識部１と、認識部１における音声認識で使用する単語構成要素の辞書（ここでは、音韻辞書）並びに単語構成要素のＨＭＭ（ここでは、音韻ＨＭＭ）の学習を司る学習部２と、装置全体を制御する制御部３の３つの部分に大別され、音声認識モードと学習モードの両モードで動作する。認識部１は、音声入力部１１、音声分析部１２、音韻類似度計算部１３、単語照合部１４、類似度計算用音韻辞書記憶部１５、音韻ＨＭＭ記憶部１６および認識語彙リスト記憶部１７から構成される。学習部２は、音韻辞書学習部２１、音韻ＨＭＭ学習部２２、学習用音声データベース２３，２４および雑音データベース２５から構成される。なお、本実施形態では単語構成要素として音韻について記述するが、音節でもよいし、ＣＶＣ、ＶＣＶ（Ｖ：母音、Ｃ：子音）であってもよい。
【００１７】
次に、図１の音声認識装置における音声認識モードでの処理について説明する。
音声認識モードの場合、入力音声は音声入力部１１に設けられたマイクロフォンを通して当該入力部１１内のＡ／Ｄ（アナログ／ディジタル）変換器（いずれも図示せず）に送られ、所定のサンプリング周波数で量子化される。
【００１８】
音声入力部１１（内のＡ／Ｄ変換器）により量子化された入力音声は音声分析部１２に与えられる。音声分析部１２は、この量子化された入力音声を対象に、ＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｌａｔｉｏｎ）、フィルタ分析、ＬＰＣ（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇ）分折などの処理を行い、音声パターン（特徴パラメータの時系列）を抽出する。例えば、８ｍｓ毎の１６次元のフィルタ出力について考えると、抽出された音声パターンは８ｍｓのフレーム周期毎に音韻類似度計算部１３に送られる。
【００１９】
音韻類似度計算部１３では、この音声パターンを時間的に連続して１フレームずつシフトさせながら、特徴ベクトル（時間周波数パターン）を抽出し、類似度計算用音韻辞書記憶部１５に格納されている各音韻辞書との類似度演算を行う。
【００２０】
具体的には、例えば、各音韻辞書の次元数を周波数軸１６、時間軸５の１６×５＝８０次元とすると、音韻類似度計算部１３は、順次時間軸に沿つて１フレームずつ移勤しながら類似度演算に供する８０次元の特徴ベクトルを抽出して類似度演算を行い、各音韻毎の類似度を求めることになる。ここで、例えば５０種類の音韻辞書を持つとすると、上述した処理により各フレーム毎に５０次元の類似度ベクトル（類似度時系列）が得られるわけである。
【００２１】
さて、パターン照合の際に用いる類似度として、複合類似度や、マハラノビス距離尺度などが知られている。複合類似度の場合には、例えば８０次元の音韻特徴ベクトルＸと音韻ｃとの類似度値Ｓ（ｃ）は、
Ｓ（ｃ）＝Σα_ｍ ^（ｃ）（Ｘ，φ_ｍ ^（ｃ））
となる。ここで、α_ｍ ^（ｃ）は固有値、φ_ｍ ^（ｃ）は固有ベクトル、ｍは軸数、ｃはカテゴリ番号、Σα_ｍ ^（ｃ）（Ｘ，φ_ｍ ^（ｃ））は、α_ｍ ^（ｃ）（Ｘ，φ_ｍ ^（ｃ））のｍ＝１からｍ＝Ｍまでの総和を示す。
【００２２】
単語照合部１４は、音韻類似度計算部１３にて求められた類似度時系列と、音韻ＨＭＭ記憶部１６に格納されている音韻ＨＭＭおよび認識語彙リスト記憶部１７に格納されている（テキスト形式の）認識語彙リストとから、認識対象単語毎の尤度を例えばビタビ（Ｖｉｔｅｒｂｉ）アルゴリズム（中川著：”確率モデルによる音声認識”，ｐｐ．４４，電子情報通信学会編を参照）などを用いて計算する。そして単語照合部１４は、尤度が最大になる単語を認識結果として出力する。
【００２３】
次に、本発明の特徴である学習モードでの処理について、（１）類似度計算用の音韻辞書の学習と、（２）音韻ＨＭＭの学習とに分けて順に説明する。
（１）類似度計算用の音韻辞書の学習
本実施形態において類似度計算用の音韻辞書の学習は、制御部３の制御のもとで、主として学習部２内の音韻辞書学習部２１により行われる。この音韻辞書学習部２１は、図２に示すように、雑音重畳音声作成部２１１、音韻区間決定部２１２、学習用音韻データ抽出部２１３および音韻辞書更新部２１４から構成されている。
【００２４】
以下、類似度計算用の音韻辞書の学習につき、図１および図２を適宜参照しながら、図３のフローチャートを用いて説明する。
まず、学習用音声データベース２３には、雑音のないクリーンな学習用音声データ（単語音声データ）が大量の単語について格納され、雑音データベース２５には雑音データが格納されている。
【００２５】
音韻辞書学習部２１内の雑音重畳音声作成部２１１は、類似度計算用の音韻辞書の学習に際し、学習用音声データベース２３中のクリーンな学習用単語音声データと雑音データベース２５中の雑音データを用いて、予め指定したＳＮ比（Ｓ／Ｎ）になるように雑音重畳音声（雑音重畳単語音声）を人工的に生成する（ステップＳ１１）。
【００２６】
雑音重畳音声作成部２１１によって生成された雑音重畳音声は音声分析部１２へ送られて、音声認識モードの場合における入力音声と同様に音声分析に供される（ステップＳ１２）。この音声分析部１２での音声分析処理により抽出された雑音重畳音声の音声パターン（特徴パラメータの時系列）は音韻類似度計算部１３に送られる。これにより音韻類似度計算部１３では、類似度計算用音韻辞書記憶部１５内の各音韻辞書との照合を行って類似度の時系列を求める類似度演算が音声認識モードの場合と同様に行われる（ステップＳ１３）。
【００２７】
そして単語照合部１４では、音韻類似度計算部１３にて求められた類似度時系列と、音韻ＨＭＭ記憶部１６に格納されている音韻ＨＭＭとの単語照合が行われる。ここで、学習用単語データの発声内容は既知であることから、単語照合部１４は単語照合を該当単語のみについて行えばよい。このとき単語照合部１４は、Ｖｉｔｅｒｂｉアルゴリズム等による照合パスをバックトレースして単語内の各音韻の区間情報を得る（ステップＳ１４）。この単語照合部１４での動作は、単語照合が該当単語のみについて行われる点を除けば、音声認識モードの場合と同様に行われる。
【００２８】
制御部３は、認識部１および学習部２を制御して、以上に述べた雑音重畳音声（雑音重畳音声単語音声）に対するのと同様の処理を、同じ単語についての雑音の重畳していないクリーンな音声に対しても行わせる。これにより、同じ単語についての雑音重畳音声に対する区間情報に対応する、クリーンな音声に対する音韻区間情報が、単語照合部１４にて得られる。
【００２９】
単語照合部１４にて得られた雑音重畳音声に対する音韻区間情報と、クリーンな音声に対する音韻区間情報とは、音韻辞書学習部２１内の音韻区間決定部２１２に与えられる。これを受けて音韻区間決定部２１２は、クリーンな音声に対する音韻区間情報と雑音重畳音声に対する音韻区間情報とから学習用音韻データを抽出するための区間を決定する。ここでは雑音重畳音声作成部２１１は、例えばクリーンな音声に対する音韻区間情報の示す音韻区間を基準にして、雑音重畳音声の音韻区間がその基準より予め定めたしきい値以上ずれた場合には、クリーンな音声の音韻区間を正しい音韻区間と決め、しきい値未満の場合には雑音重畳音声の音韻区間を正しい音韻区間と決めるようにしている。このように雑音重畳音声作成部２１１は、両音韻区間を総合的に検証して、正しい音韻区間を設定する。
【００３０】
これは、第１に、両音韻区間のずれが比較的少ない通常状態では、雑音重畳音声の音韻区間を正しい音韻区間とすることで、雑音による変動を含んだ音韻データ（学習用音韻データ）の抽出を可能とするためである。第２に、雑音の影響が著しく大きいために両音韻区間のずれがしきい値以上となった状態では、雑音重畳音声の音韻区間は雑音による影響で誤っている確率が極めて高いことから、雑音重畳音声の音韻区間に代えてクリーンな音声の音韻区間を用いることで、雑音重畳音声の音韻区間を用いた際に切り出される誤パターンの混入を防ぐためである。
【００３１】
さて、上述したしきい値はカテゴリ毎に設定することにより、音韻区間決定の信頼性を一層高めることができる。例えば、母音のような比較的特徴が安定し、パワーの大きな音韻の場合にはずれの許容範囲は小さく設定し、摩擦音のような時間的に変化し、パワーの小さな音韻の場合にはずれの幅をある程度大きくするなどして雑音による変動を含んだ尤もらしい音韻データの抽出を行うことにより、信頼性の高い学習用音韻データを得ることができる。
【００３２】
音韻区間決定部２１２により決定された音韻区間の情報は、同じ音韻辞書学習部２１内の学習用音韻データ抽出部２１３に与えられる。この学習用音韻データ抽出部２１３には、音声分析部１２での音声分析により抽出された雑音重畳音声の特徴パラメータの時系列（音声パターン）が与えられる。
【００３３】
学習用音韻データ抽出部２１３は、この雑音重畳音声の特徴パラメータの時系列から、音韻区間決定部２１２により決定された音韻区間に基づいて学習用音韻データの抽出を行う（ステップＳ１５）。次に学習用音韻データ抽出部２１３は、雑音重畳音声の特徴パラメータの時系列から抽出した音韻データ（音韻パターン）を用いて、類似度計算用音韻辞書記憶部１５内の各音韻辞書との類似度の時系列を求める類似度演算を行い、その類似度の値に基づき上記抽出した音韻データの認識を行う（ステップＳ１５）。
【００３４】
音韻辞書学習部２１内の音韻辞書更新部２１４は、学習用音韻データ抽出部２１３の音韻データ認識結果に従って、類似度計算用の音韻辞書の学習（更新）を行う（ステップＳ１６）。即ち音韻辞書更新部２１４は、例えば複合類似度法の場合であれば、以下の式に示すように、各音韻毎の共分散行列を更新し、しかる後にＫＬ展開（主成分分析）して、固有値、固有ベクトルを求め、これを新しい音韻辞書として、類似度計算用音韻辞書記憶部１５へ格納し、以降の類似度演算に利用できるようにする。
【００３５】
Ｋ_１＝Ｋ_０＋αΣＸＸ^ｔ
ここで、Ｋ_０は更新前の共分散行列、Ｋ_１は更新後の共分散行列、Ｘは学習用音韻パターン、αは更新係数、ｔは転置を示す。
【００３６】
制御部３は、音韻辞書学習部２１を中心とする以上の学習処理を、大量の単語データに対して、学習の進展に伴い、ＳＮ比を徐々に低減させながら、かつ雑音データベース２５から様々な時刻、種類の雑音データを選択して用いさせ、学習終了条件を満たすまで（ステップＳ１７）繰り返し行わせる。学習終了条件には、例えば繰り返し回数または認識率が利用可能である。即ち、所定回数の学習処理が繰り返されたことをもって一連の学習処理を終了させるとか、学習が進につれて認識率が上がっていくことから、各単語について所定レベルの認識率が得られたことをもって一連の学習処理を終了させることが可能である。
（２）音韻ＨＭＭの学習
本実施形態における音韻ＨＭＭの学習は、制御部３の制御のもとで、主として学習部２内の音韻ＨＭＭ学習部２２により行われる。この音韻ＨＭＭ学習部２２は、図４に示すように、雑音重畳音声作成部２２１、音韻ＨＭＭパラメータ推定部２２２および音韻ＨＭＭパラメータ更新部２２３から構成されている。
【００３７】
以下、音韻ＨＭＭの学習につき、図１および図４を適宜参照しながら、図５のフローチャートを用いて説明する。
まず本実施形態では、前述した類似度計算用の音韻辞書の学習に用いたのとは別のクリーンな学習用単語音声データが格納された学習用音声データベース２４が用意されている。
【００３８】
音韻ＨＭＭ学習部２２内の雑音重畳音声作成部２２１は、音韻ＨＭＭの学習に際し、学習用音声データベース２４中のクリーンな学習用単語音声データと雑音データベース２５中の雑音データを用いて、予め指定したＳＮ比（Ｓ／Ｎ）になるように雑音重畳音声（雑音重畳単語音声）を人工的に生成する（ステップＳ２１）。
【００３９】
雑音重畳音声作成部２１１によって生成された雑音重畳音声は音声分析部１２へ送られて、音声認識モードの場合における入力音声と同様に音声分析に供される（ステップＳ２２）。この音声分析部１２での音声分析処理により抽出された雑音重畳音声の音声パターン（特徴パラメータの時系列）は音韻類似度計算部１３に送られる。これにより音韻類似度計算部１３では、前述した方法で学習した類似度計算用音韻辞書記憶部１５内の各音韻辞書を用いて時間連続的に類似度演算を行い、類似度の時系列を求める（ステップＳ２３）。
【００４０】
音韻類似度計算部１３により求められた類似度時系列は、音韻ＨＭＭ学習部２２内の音韻ＨＭＭパラメータ推定部２２２に送られる。音韻ＨＭＭパラメータ推定部２２２は、この類似度の時系列と音韻ＨＭＭ記憶部１６内の各音韻ＨＭＭとから例えばＦｏｒｗａｒｄ−Ｂａｃｋｗａｒｄアルゴリズムなどを用いて、音韻ＨＭＭのパラメータ（例えば、ある音韻の出現確率やモデルの状態の遷移確率など）の再推定を行い（中川著：”確率モデルによる音声認識”，ｐｐ．５５−５９，電子情報通信学会編参照）、当該音韻ＨＭＭのパラメータを更新する（ステップＳ２４）。
【００４１】
ここで、クリーンな音声に対し、その類似度時系列と音韻ＨＭＭとから、前述した類似度計算用の音韻辞書の学習時の場合と同様にして、Ｖｉｔｅｒｂｉアルゴリズムなどにより求めた音韻区間を、パラメータ推定の際の制約条件として用いることも可能である。例えば、クリーンな音声の音韻区間とのずれ幅を各音韻毎にに設定し、その範囲内での音韻照合を行い、パラメータの再推定を行うことにより、雑音の重畳に起因する誤った音韻区間でのＨＭＭパラメー夕推定を防ぐことができる。また、本方法は、単語を構成する各音韻のＨＭＭを連結して単語ＨＭＭを作り、単語音声を学習データとして、単語を構成する音韻ＨＭＭをまとめて学習する連結学習（丸山他：”ＨＭＭ音韻連結学習を用いた英単語音声の認識”，電子情報通信学会音声研究会，ＳＰ８８−１１９，ｐｐ．２３−２９（１９８８）参照）にも適用可能である。
【００４２】
音韻ＨＭＭパラメータ推定部２２２は、上述した音韻ＨＭＭのパラメータ推定を収束条件（例えばＦｏｒｗａｒｄ−Ｂａｃｋｗａｒｄアルゴリズムの収束条件）を満たすまで（ステップＳ２５）繰り返す。収束した場合は、制御部３は、ＳΝ比、雑音の時刻、雑音の種類を様々に変化させて別の雑音重畳音声を生成させ、再度音韻ＨＭＭの学習に供する。このとき、ＳΝ比は学習の進展に伴い徐々に低減させる。以上の音韻ＨＭＭの学習は、音韻辞書の学習の場合と同様に学習終了条件を満たすまで（ステップＳ２６）繰り返される。
【００４３】
このように本実施形態においては、スペクトルパターンなどの物理的なパターンの類似性の尺度となる類似度計算用の音韻辞書の学習を雑音免疫学習法を用いて行い、ここで学習した音韻辞書を用いて求めた類似度時系列に基づき統計確率的な識別尺度を得るための音韻ＨＭＭを学習するようにしたので、音韻辞書および音韻ＨＭＭの両方で、雑音によるパターン変形を吸収することができ、耐雑音性を飛躍的に向上させることができる。また、クリーンな音声と雑音データとから人工的に雑音重畳音声データを作成することにより、音韻辞書および音韻ＨＭＭの学習が自動化できるため、その効果は極めて大きい。さらに、音韻を単位とするので、語彙の変更も容易であり、語彙変更の際には認識対象単語の文字列を与えるだけでよい。
【００４４】
なお、音韻辞書の学習と音韻ＨＭＭの学習とは、図３のフローチャートに従う一連の音韻辞書学習処理を全て終了した後、図５のフローチャートに従う音韻ＨＭＭ学習処理を行うようにしても、あるＳＮ比までの雑音重畳音声を用いた音韻辞書の学習が終了する毎に、そのＳＮ比までの別の雑音重畳音声を用いた音韻ＨＭＭの学習を行うようにしても構わない。いずれにしても、あるＳＮ比の雑音重畳音声の特徴パラメータとの照合により類似度の時系列を求めて音韻ＨＭＭを学習する際には、そのＳＮ比までの別の雑音重畳音声を用いた音韻辞書の学習が済んでいればよい。
【００４５】
また、以上の実施形態では、音声認識装置内に学習部２を設け、当該音声認識装置が有する音声分析部１２、音韻類似度計算部１３および単語照合部１４を利用して、学習部２が類似度計算用の音韻辞書および音韻ＨＭＭを学習するものとして説明したが、これに限るものではない。例えば、前記実施形態で述べたのと同等の学習機能を備えた学習システムを音声認識装置から独立に用意し、当該学習システムにおいて前記実施形態と同様にして音韻辞書および音韻ＨＭＭの学習を行い、その学習後の音韻辞書を音声認識装置の類似度計算用音韻辞書記憶部１５に、同じく学習後の音韻ＨＭＭを音声認識装置の音韻ＨＭＭ記憶部１６に保存するようにしても構わない。
【００４６】
また、本発明は、音韻辞書および音韻ＨＭＭの学習に限らず、音韻以外の単語構成要素、例えば音節、あるいはＣＶＣ、ＶＣＶ（Ｖ：母音、Ｃ：子音）の辞書およびＨＭＭの学習にも応用可能である。
この他、本発明は前記実施形態に限定されるものではなく、その要旨を逸脱しない範囲で、種々変形して実施することができる。
【００４７】
【発明の効果】
以上詳述したように本発明によれば、単語構成要素の辞書の学習を雑音免疫学習法を用いて行い、ここで学習した単語構成要素の辞書を用いて求めた類似度時系列に基づき単語構成要素のＨＭＭを学習するようにしたので、単語構成要素の辞書および単語構成要素のＨＭＭの両方で、雑音によるパターン変形を吸収することができる。したがって、このような単語構成要素の辞書および単語構成要素のＨＭＭを音声認識装置に適用することで、パターン変形が著しい雑音環境下でも高い認識率が得られると共に、語彙変更の容易な認識装置を実現できる。
【図面の簡単な説明】
【図１】本発明の一実施形態に係る音声認識装置の構成を示すブロック図。
【図２】図１中の音韻辞書学習部２１の詳紬構成を示すブロック図。
【図３】同実施形態における音韻辞書学習処理を説明するためのフローチャート。
【図４】図１中の音韻ＨＭＭ学習部２２の詳紬構成を示すブロック図。
【図５】同実施形態における音韻ＨＭＭ学習処理を説明するためのフローチャート。
【符号の説明】
１…認識部、
２…学習部、
３…制御部、
１１…音声入力部、
１２…音声分析部、
１３…音韻類似度計算部、
１４…単語照合部、
１５…類似度計算用音韻辞書記憶部、
１６…音韻ＨＭＭ記憶部、
１７…認識語彙リスト記憶部、
２１…音韻辞書学習部（第１の学習手段）、
２２…音韻ＨＭＭ学習部（第２の学習手段）、
２３，２４…学習用音声データベース、
２５…雑音データベース、
２１１，２２１…雑音重畳音声作成部、
２１２…音韻区間決定部、
２１３…学習用音韻データ抽出部、
２１４…音韻辞書更新部、
２２２…音韻ＨＭＭパラメータ推定部、
２２３…音韻ＨＭＭパラメータ更新部。

Claims

音声データを入力する音声入力手段と、
前記音声入力手段により入力された音声データを分折して特徴パラメータの時系列を求める音声分析手段と、
前記音声分析手段により求められた特徴パラメータの時系列と単語構成要素の辞書との照合を行って類似度の時系列を求める類似度計算手段と、
前記類似度計算手段により求められた類似度の時系列と単語構成要素の隠れマルコフモデルとを用いて音声認識を行う単語照合手段と、
雑音のないクリーンな第１の音声データと雑音データとから第１の雑音重畳音声を生成し、当該第１の雑音重畳音声を用いて前記単語構成要素の辞書の学習を行う第１の学習手段と、
前記第１の音声データとは別の雑音のないクリーンな第２の音声データと雑音データとから第２の雑音重畳音声を生成し、当該第２の雑音重畳音声を前記音声分析手段に与えることで得られる当該第２の雑音重畳音声の特徴パラメータの時系列と前記第１の学習手段により学習された前記単語構成要素の辞書との照合を前記類似度計算手段にて行わせて類似度の時系列を求め、この類似度の時系列を用いて前記単語構成要素の隠れマルコフモデルの学習を行う第２の学習手段とを具備することを特徴とする音声認識装置。
前記第１の学習手段は、前記単語構成要素辞書の学習に、前記第１の雑音重畳音声の単語構成要素の区間情報を利用することを特徴とする請求項１記載の音声認識装置。
前記第１の学習手段は、前記第１の雑音重畳音声の単語構成要素の区間情報の示す区間が前記第１の音声データの単語構成要素の区間情報の示す区間に対してあらかじめ定められたしきい値以上ずれている場合には、前記単語構成要素辞書の学習に、前記第１の音声データの単語構成要素の区間情報を前記第１の雑音重畳音声の単語構成要素の区間情報に代えて利用することを特徴とする請求項２記載の音声認識装置。
前記しきい値がカテゴリ毎に設定されていることを特徴とする請求項３記載の音声認識装置。
音声認識に用いられる単語構成要素の辞書並びに隠れマルコフモデルを学習する単語構成要素の辞書並びに隠れマルコフモデルの学習方法であって、
雑音のないクリーンな第１の音声データと雑音データとから第１の雑音重畳音声を生成し、当該第１の雑音重畳音声を用いて前記単語構成要素の辞書の学習を行う一方、
前記第１の音声データとは別の雑音のないクリーンな第２の音声データと雑音データとから第２の雑音重畳音声を生成し、当該第２の雑音重畳音声を分析することで得られる特徴パラメータの時系列と前記第１の雑音重畳音声を用いて学習された単語構成要素の辞書との照合を行って類似度の時系列を求め、この類似度の時系列を用いて前記単語構成要素の隠れマルコフモデルの学習を行うことを特徴とする単語構成要素の辞書並びに隠れマルコフモデルの学習方法。
前記単語構成要素辞書の学習には、前記第１の雑音重畳音声の単語構成要素の区間情報を利用することを特徴とする請求項５記載の単語構成要素の辞書並びに隠れマルコフモデルの学習方法。
前記第１の雑音重畳音声の単語構成要素の区間情報の示す区間が前記第１の音声データの単語構成要素の区間情報の示す区間に対してあらかじめ定められたしきい値以上ずれている場合には、前記単語構成要素辞書の学習に、前記第１の音声データの単語構成要素の区間情報を前記第１の雑音重畳音声の単語構成要素の区間情報に代えて利用することを特徴とする請求項６記載の単語構成要素の辞書並びに隠れマルコフモデルの学習方法。
前記しきい値がカテゴリ毎に設定されていることを特徴とする請求項７記載の単語構成要素の辞書並びに隠れマルコフモデルの学習方法。