JP3571821B2 - 音声認識装置および単語構成要素の辞書並びに隠れマルコフモデルの学習方法 - Google Patents

音声認識装置および単語構成要素の辞書並びに隠れマルコフモデルの学習方法 Download PDF

Info

Publication number
JP3571821B2
JP3571821B2 JP23541895A JP23541895A JP3571821B2 JP 3571821 B2 JP3571821 B2 JP 3571821B2 JP 23541895 A JP23541895 A JP 23541895A JP 23541895 A JP23541895 A JP 23541895A JP 3571821 B2 JP3571821 B2 JP 3571821B2
Authority
JP
Japan
Prior art keywords
noise
speech
learning
word
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP23541895A
Other languages
English (en)
Other versions
JPH0981177A (ja
Inventor
博史 金澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP23541895A priority Critical patent/JP3571821B2/ja
Publication of JPH0981177A publication Critical patent/JPH0981177A/ja
Application granted granted Critical
Publication of JP3571821B2 publication Critical patent/JP3571821B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、単語構成要素の辞書並びに隠れマルコフモデルを用いて音声認識を行う音声認識装置および単語構成要素の辞書並びに隠れマルコフモデルの学習方法に関する。
【0002】
【従来の技術】
従来より、騒音環境下における音声認識の基本手法は、入力された音声信号に重畳した雑音信号をノイズ・サブトラクション法(文献:S.F.Boll:”Suppression of acoustic noise in speech using spectral subtraction”,IEEE Trans. Acoust., Speech & Signal Process., ASSP−27,2,pp.113−120(April.1979) 等の手法により除去し、音声信号のみを抽出した後に、音声の始終端検出を行い、次いで、始終端間の音声特徴パラメータと音声認識辞書とを照合することにより行われていた。
【0003】
しかし、ノイズ・サブトラクション法は、背景雑音の各周波数帯域の平均パワーレベルを入力音声信号から差し引くだけであるため、白色雑音等のような定常的な雑音が付加し、かつSΝ比が高い音声についてはある程度有効であるが、非定常な雑音やSN比の低い音声についてはあまり効果がなく、音声認識装置の実用上大きな問題となっていた。
【0004】
このため、雑音の重畳した入力音声から、雑音成分を除去するのではなく、認識辞書に雑音によるパターン変形を持たせる手法もいくつか提案されている。その中の一つとして、雑音免疫学習法がある。
【0005】
この手法は、あらかじめクリーンな音声のデータベースと、雑音のデータベースを別個に用意し、SN比を徐々に低減させながら、雑音の重畳した学習用音声データを人工的に生成し、音声の始終端の検出を行わずに、始終端非固定の連続照合により、学習用パターンを抽出し、認識辞書の学習を行うものである(文献:竹林、金澤:”ワードスポッティングによる音声認織における雑音免疫学習”,電子情報通信学会論文誌(D−II),Vol.J74−D−II,No.2,pp.121−129 (1991.Feb),および特開平2−238495号公報を参照)。
【0006】
このように雑音環境下での音声認識においては、入力された雑音重畳音声から雑音成分を取り除いた後に認識処理を行うか、入力音声には処理を行わずに、認識辞書に雑音によるパターン変形成分を持たせ、認識処理を行うか、あるいは両者を混合した方法がこれまで行われてきた。
【0007】
一方、大語彙単語音声認識においては、語彙数が数千から数万と大規模になるため、単語単位の認識手法ではなく、単語を構成する要素(音節、音韻等)を単位とする認識手法が一般的である。これは、単語を単位とする場合には、認識対象単語の音声データを逐一収集して単語辞書を作成する必要があり、その労力が極めて膨大となるのに対して、音韻や音節を単位とする場合には日本語で約100種類程度の辞書を用意することにより、任意の単語を認識対象単語とすることができ、語彙の拡張が容易となるからである。
【0008】
【発明が解決しようとする課題】
音韻や音節など単語構成要索を単位とする単語音声認識の場合に、現在主流となっている認識方式として、隠れマルコフモデル(HMM:Hidden Markov Model )を用いる方式がある。本方式では、数百種類の標準パターン(符号帳)をあらかじめ用意しておき、各フレーム毎に最も近い符号をつけ、その符号系列および各符号の出現確率と状態の遷移確率を持った隠れマルコフモデルとから単語毎にその尤度を求め、認識を行う。
【0009】
このような手法では、耐雑音対策として雑音の重畳した音声パターンを用いて符号帳を作成したり、上述したノイズ・サブトラクション法を用いたり、雑音HMMを別個に設けて音韻HMMと併用する方法などが提案されているが、標準パターンの単位として1フレーム分のスペクトルパターンなどを用いており、雑音重畳音声を用いて符号帳を作成しても冗長性がなく雑音によるパ夕ーンの変勤を十分に吸収しきれなかった。また、ノィズ・サブトラクション法や雑音HMMなどによっても定常的な雑音成分をスペクトルパターンから差し引いたり、雑音の発生を確率的なモデルとして扱うため、定常的な雑音に対してはある程度対処できても、非定常な雑音に対してはあまり効果がなかった。
【0010】
そこで、本発明はパターン変形が著しい雑音環境下でも高い認識性能を保持し、かつ語彙の拡張も容易な音声認識装置を提供することを目的とする。
また本発明は、パターン変形が著しい雑音環境下でも高い認識性能を保持し、かつ語彙の拡張も容易な音声認識装置の実現が図れる単語構成要素の辞書並びに隠れマルコフモデルの学習方法を提供することにある。
【0011】
【課題を解決するための手段】
上記課題を解決するため、本発明の音声認識装置は、音声データを入力する音声入力手段と、この入力された音声データを分折して特徴パラメータの時系列を求める音声分析手段と、この求められた特徴パラメータの時系列と単語構成要素の辞書との照合を行って類似度の時系列を求める類似度計算手段と、この求められた類似度の時系列と単語構成要素のHMM(隠れマルコフモデル)とを用いて音声認識を行う単語照合手段と、雑音のないクリーンな第1の音声データと雑音データとから第1の雑音重畳音声を生成し、当該第1の雑音重畳音声を用いて上記単語構成要素の辞書の学習を行う第1の学習手段と、上記第1の音声データとは別の雑音のないクリーンな第2の音声データと雑音データとから第2の雑音重畳音声を生成し、当該第2の雑音重畳音声を上記音声分析手段に与えることで得られる当該第2の雑音重畳音声の特徴パラメータの時系列と上記第1の学習手段により学習された単語構成要素の辞書との照合を上記類似度計算手段にて行わせて類似度の時系列を求め、この類似度の時系列を用いて上記単語構成要素のHMMの学習を行う第2の学習手段とを備えたことを特徴とする。
【0012】
また、本発明の単語構成要素の辞書並びに隠れマルコフモデルの学習方法は、雑音のないクリーンな第1の音声データと雑音データとから第1の雑音重畳音声を生成し、当該第1の雑音重畳音声を用いて単語構成要素の辞書の学習を行う一方、上記第1の音声データとは別の雑音のないクリーンな第2の音声データと雑音データとから第2の雑音重畳音声を生成し、当該第2の雑音重畳音声を分析することで得られる特徴パラメータの時系列と上記第1の雑音重畳音声を用いて学習された単語構成要素の辞書との照合を行って類似度の時系列を求め、この類似度の時系列を用いて上記単語構成要素のHMM(隠れマルコフモデル)の学習を行うことを特徴とする。
【0013】
本発明においては、(雑音のないクリーンな第1の音声データと雑音データとから生成される)第1の雑音重畳音声を用いて前述の雑音免疫学習法による単語構成要素の辞書(単語構成要素が音韻の例では、音韻辞書)の学習が行われ、さらに(第1の音声データとは別の雑音のないクリーンな第2の音声データと雑音データとから生成される)第2の雑音重畳音声の特徴パラメータの時系列と学習済みの単語構成要素の辞書(即ち、第1の雑音重畳音声を用いて学習された単語構成要素の辞書)とを用いて求められる類似度時系列に基づき、単語構成要素のHMM(単語構成要素が音韻の例では、音韻HMM)の学習が行われる。これにより、単語構成要素の辞書と単語構成要素のHMMの両方で雑音によるパターン変形に対処できるようになり、音声認識装置の使用環境の雑音によるパターン変形に対して、安定に動作する高性能の音声認識を実現するとともに、語彙の拡張を容易にすることが可能となる。
【0014】
特に、単語構成要素辞書の学習に、上記第1の雑音重畳音声の単語構成要素の区間情報を利用することで、雑音による変動を含んだ単語構成要素データを得ることが可能となる。但し、雑音の影響の程度によっては、第1の雑音重畳音声の単語構成要素の区間情報を用いた場合に、誤った単語構成要素区間が設定される可能性がある。
【0015】
そこで、雑音のないクリーンな第1の音声データの単語構成要素の区間情報により示される区間(クリーンな音声の単語構成要素区間)を基準として、第1の雑音重畳音声の単語構成要素の区間情報により示される区間(雑音重畳音声の単語構成要素区間)があらかじめ定められたしきい値以上ずれている場合には、単語構成要素辞書の学習に、第1の音声データの単語構成要素の区間情報を利用することで、雑音による影響で誤った単語構成要素区間が設定されるのを防止することも可能である。特に、上記のしきい値をカテゴリ毎に設定することにより、単語構成要素区間決定の信頼性を高くすることが可能となる。
【0016】
【発明の実施の形態】
以下、本発明の実施の形態につき図面を参照して説明する。
図1は、本発明の一実施形態に係る音声認識装置の構成を示すブロック図である。この装置は、入力音声の認識を司る認識部1と、認識部1における音声認識で使用する単語構成要素の辞書(ここでは、音韻辞書)並びに単語構成要素のHMM(ここでは、音韻HMM)の学習を司る学習部2と、装置全体を制御する制御部3の3つの部分に大別され、音声認識モードと学習モードの両モードで動作する。認識部1は、音声入力部11、音声分析部12、音韻類似度計算部13、単語照合部14、類似度計算用音韻辞書記憶部15、音韻HMM記憶部16および認識語彙リスト記憶部17から構成される。学習部2は、音韻辞書学習部21、音韻HMM学習部22、学習用音声データベース23,24および雑音データベース25から構成される。なお、本実施形態では単語構成要素として音韻について記述するが、音節でもよいし、CVC、VCV(V:母音、C:子音)であってもよい。
【0017】
次に、図1の音声認識装置における音声認識モードでの処理について説明する。
音声認識モードの場合、入力音声は音声入力部11に設けられたマイクロフォンを通して当該入力部11内のA/D(アナログ/ディジタル)変換器(いずれも図示せず)に送られ、所定のサンプリング周波数で量子化される。
【0018】
音声入力部11(内のA/D変換器)により量子化された入力音声は音声分析部12に与えられる。音声分析部12は、この量子化された入力音声を対象に、FFT(Fast Fourier Translation)、フィルタ分析、LPC(Linear Predictive Coding)分折などの処理を行い、音声パターン(特徴パラメータの時系列)を抽出する。例えば、8ms毎の16次元のフィルタ出力について考えると、抽出された音声パターンは8msのフレーム周期毎に音韻類似度計算部13に送られる。
【0019】
音韻類似度計算部13では、この音声パターンを時間的に連続して1フレームずつシフトさせながら、特徴ベクトル(時間周波数パターン)を抽出し、類似度計算用音韻辞書記憶部15に格納されている各音韻辞書との類似度演算を行う。
【0020】
具体的には、例えば、各音韻辞書の次元数を周波数軸16、時間軸5の16×5=80次元とすると、音韻類似度計算部13は、順次時間軸に沿つて1フレームずつ移勤しながら類似度演算に供する80次元の特徴ベクトルを抽出して類似度演算を行い、各音韻毎の類似度を求めることになる。ここで、例えば50種類の音韻辞書を持つとすると、上述した処理により各フレーム毎に50次元の類似度ベクトル(類似度時系列)が得られるわけである。
【0021】
さて、パターン照合の際に用いる類似度として、複合類似度や、マハラノビス距離尺度などが知られている。複合類似度の場合には、例えば80次元の音韻特徴ベクトルXと音韻cとの類似度値S(c)は、
S(c)=Σα (c) (X,φ (c)
となる。ここで、α (c) は固有値、φ (c) は固有ベクトル、mは軸数、cはカテゴリ番号、Σα (c) (X,φ (c) )は、α (c) (X,φ (c) )のm=1からm=Mまでの総和を示す。
【0022】
単語照合部14は、音韻類似度計算部13にて求められた類似度時系列と、音韻HMM記憶部16に格納されている音韻HMMおよび認識語彙リスト記憶部17に格納されている(テキスト形式の)認識語彙リストとから、認識対象単語毎の尤度を例えばビタビ(Viterbi )アルゴリズム(中川著:”確率モデルによる音声認識”,pp.44 ,電子情報通信学会編を参照)などを用いて計算する。そして単語照合部14は、尤度が最大になる単語を認識結果として出力する。
【0023】
次に、本発明の特徴である学習モードでの処理について、(1)類似度計算用の音韻辞書の学習と、(2)音韻HMMの学習とに分けて順に説明する。
(1)類似度計算用の音韻辞書の学習
本実施形態において類似度計算用の音韻辞書の学習は、制御部3の制御のもとで、主として学習部2内の音韻辞書学習部21により行われる。この音韻辞書学習部21は、図2に示すように、雑音重畳音声作成部211、音韻区間決定部212、学習用音韻データ抽出部213および音韻辞書更新部214から構成されている。
【0024】
以下、類似度計算用の音韻辞書の学習につき、図1および図2を適宜参照しながら、図3のフローチャートを用いて説明する。
まず、学習用音声データベース23には、雑音のないクリーンな学習用音声データ(単語音声データ)が大量の単語について格納され、雑音データベース25には雑音データが格納されている。
【0025】
音韻辞書学習部21内の雑音重畳音声作成部211は、類似度計算用の音韻辞書の学習に際し、学習用音声データベース23中のクリーンな学習用単語音声データと雑音データベース25中の雑音データを用いて、予め指定したSN比(S/N)になるように雑音重畳音声(雑音重畳単語音声)を人工的に生成する(ステップS11)。
【0026】
雑音重畳音声作成部211によって生成された雑音重畳音声は音声分析部12へ送られて、音声認識モードの場合における入力音声と同様に音声分析に供される(ステップS12)。この音声分析部12での音声分析処理により抽出された雑音重畳音声の音声パターン(特徴パラメータの時系列)は音韻類似度計算部13に送られる。これにより音韻類似度計算部13では、類似度計算用音韻辞書記憶部15内の各音韻辞書との照合を行って類似度の時系列を求める類似度演算が音声認識モードの場合と同様に行われる(ステップS13)。
【0027】
そして単語照合部14では、音韻類似度計算部13にて求められた類似度時系列と、音韻HMM記憶部16に格納されている音韻HMMとの単語照合が行われる。ここで、学習用単語データの発声内容は既知であることから、単語照合部14は単語照合を該当単語のみについて行えばよい。このとき単語照合部14は、Viterbi アルゴリズム等による照合パスをバックトレースして単語内の各音韻の区間情報を得る(ステップS14)。この単語照合部14での動作は、単語照合が該当単語のみについて行われる点を除けば、音声認識モードの場合と同様に行われる。
【0028】
制御部3は、認識部1および学習部2を制御して、以上に述べた雑音重畳音声(雑音重畳音声単語音声)に対するのと同様の処理を、同じ単語についての雑音の重畳していないクリーンな音声に対しても行わせる。これにより、同じ単語についての雑音重畳音声に対する区間情報に対応する、クリーンな音声に対する音韻区間情報が、単語照合部14にて得られる。
【0029】
単語照合部14にて得られた雑音重畳音声に対する音韻区間情報と、クリーンな音声に対する音韻区間情報とは、音韻辞書学習部21内の音韻区間決定部212に与えられる。これを受けて音韻区間決定部212は、クリーンな音声に対する音韻区間情報と雑音重畳音声に対する音韻区間情報とから学習用音韻データを抽出するための区間を決定する。ここでは雑音重畳音声作成部211は、例えばクリーンな音声に対する音韻区間情報の示す音韻区間を基準にして、雑音重畳音声の音韻区間がその基準より予め定めたしきい値以上ずれた場合には、クリーンな音声の音韻区間を正しい音韻区間と決め、しきい値未満の場合には雑音重畳音声の音韻区間を正しい音韻区間と決めるようにしている。このように雑音重畳音声作成部211は、両音韻区間を総合的に検証して、正しい音韻区間を設定する。
【0030】
これは、第1に、両音韻区間のずれが比較的少ない通常状態では、雑音重畳音声の音韻区間を正しい音韻区間とすることで、雑音による変動を含んだ音韻データ(学習用音韻データ)の抽出を可能とするためである。第2に、雑音の影響が著しく大きいために両音韻区間のずれがしきい値以上となった状態では、雑音重畳音声の音韻区間は雑音による影響で誤っている確率が極めて高いことから、雑音重畳音声の音韻区間に代えてクリーンな音声の音韻区間を用いることで、雑音重畳音声の音韻区間を用いた際に切り出される誤パターンの混入を防ぐためである。
【0031】
さて、上述したしきい値はカテゴリ毎に設定することにより、音韻区間決定の信頼性を一層高めることができる。例えば、母音のような比較的特徴が安定し、パワーの大きな音韻の場合にはずれの許容範囲は小さく設定し、摩擦音のような時間的に変化し、パワーの小さな音韻の場合にはずれの幅をある程度大きくするなどして雑音による変動を含んだ尤もらしい音韻データの抽出を行うことにより、信頼性の高い学習用音韻データを得ることができる。
【0032】
音韻区間決定部212により決定された音韻区間の情報は、同じ音韻辞書学習部21内の学習用音韻データ抽出部213に与えられる。この学習用音韻データ抽出部213には、音声分析部12での音声分析により抽出された雑音重畳音声の特徴パラメータの時系列(音声パターン)が与えられる。
【0033】
学習用音韻データ抽出部213は、この雑音重畳音声の特徴パラメータの時系列から、音韻区間決定部212により決定された音韻区間に基づいて学習用音韻データの抽出を行う(ステップS15)。次に学習用音韻データ抽出部213は、雑音重畳音声の特徴パラメータの時系列から抽出した音韻データ(音韻パターン)を用いて、類似度計算用音韻辞書記憶部15内の各音韻辞書との類似度の時系列を求める類似度演算を行い、その類似度の値に基づき上記抽出した音韻データの認識を行う(ステップS15)。
【0034】
音韻辞書学習部21内の音韻辞書更新部214は、学習用音韻データ抽出部213の音韻データ認識結果に従って、類似度計算用の音韻辞書の学習(更新)を行う(ステップS16)。即ち音韻辞書更新部214は、例えば複合類似度法の場合であれば、以下の式に示すように、各音韻毎の共分散行列を更新し、しかる後にKL展開(主成分分析)して、固有値、固有ベクトルを求め、これを新しい音韻辞書として、類似度計算用音韻辞書記憶部15へ格納し、以降の類似度演算に利用できるようにする。
【0035】
=K +αΣXX
ここで、K は更新前の共分散行列、K は更新後の共分散行列、Xは学習用音韻パターン、αは更新係数、tは転置を示す。
【0036】
制御部3は、音韻辞書学習部21を中心とする以上の学習処理を、大量の単語データに対して、学習の進展に伴い、SN比を徐々に低減させながら、かつ雑音データベース25から様々な時刻、種類の雑音データを選択して用いさせ、学習終了条件を満たすまで(ステップS17)繰り返し行わせる。学習終了条件には、例えば繰り返し回数または認識率が利用可能である。即ち、所定回数の学習処理が繰り返されたことをもって一連の学習処理を終了させるとか、学習が進につれて認識率が上がっていくことから、各単語について所定レベルの認識率が得られたことをもって一連の学習処理を終了させることが可能である。
(2)音韻HMMの学習
本実施形態における音韻HMMの学習は、制御部3の制御のもとで、主として学習部2内の音韻HMM学習部22により行われる。この音韻HMM学習部22は、図4に示すように、雑音重畳音声作成部221、音韻HMMパラメータ推定部222および音韻HMMパラメータ更新部223から構成されている。
【0037】
以下、音韻HMMの学習につき、図1および図4を適宜参照しながら、図5のフローチャートを用いて説明する。
まず本実施形態では、前述した類似度計算用の音韻辞書の学習に用いたのとは別のクリーンな学習用単語音声データが格納された学習用音声データベース24が用意されている。
【0038】
音韻HMM学習部22内の雑音重畳音声作成部221は、音韻HMMの学習に際し、学習用音声データベース24中のクリーンな学習用単語音声データと雑音データベース25中の雑音データを用いて、予め指定したSN比(S/N)になるように雑音重畳音声(雑音重畳単語音声)を人工的に生成する(ステップS21)。
【0039】
雑音重畳音声作成部211によって生成された雑音重畳音声は音声分析部12へ送られて、音声認識モードの場合における入力音声と同様に音声分析に供される(ステップS22)。この音声分析部12での音声分析処理により抽出された雑音重畳音声の音声パターン(特徴パラメータの時系列)は音韻類似度計算部13に送られる。これにより音韻類似度計算部13では、前述した方法で学習した類似度計算用音韻辞書記憶部15内の各音韻辞書を用いて時間連続的に類似度演算を行い、類似度の時系列を求める(ステップS23)。
【0040】
音韻類似度計算部13により求められた類似度時系列は、音韻HMM学習部22内の音韻HMMパラメータ推定部222に送られる。音韻HMMパラメータ推定部222は、この類似度の時系列と音韻HMM記憶部16内の各音韻HMMとから例えばForward−Backwardアルゴリズムなどを用いて、音韻HMMのパラメータ(例えば、ある音韻の出現確率やモデルの状態の遷移確率など)の再推定を行い(中川著:”確率モデルによる音声認識”,pp.55−59,電子情報通信学会編参照)、当該音韻HMMのパラメータを更新する(ステップS24)。
【0041】
ここで、クリーンな音声に対し、その類似度時系列と音韻HMMとから、前述した類似度計算用の音韻辞書の学習時の場合と同様にして、Viterbi アルゴリズムなどにより求めた音韻区間を、パラメータ推定の際の制約条件として用いることも可能である。例えば、クリーンな音声の音韻区間とのずれ幅を各音韻毎にに設定し、その範囲内での音韻照合を行い、パラメータの再推定を行うことにより、雑音の重畳に起因する誤った音韻区間でのHMMパラメー夕推定を防ぐことができる。また、本方法は、単語を構成する各音韻のHMMを連結して単語HMMを作り、単語音声を学習データとして、単語を構成する音韻HMMをまとめて学習する連結学習(丸山他:”HMM音韻連結学習を用いた英単語音声の認識”,電子情報通信学会 音声研究会,SP88−119,pp.23−29 (1988) 参照)にも適用可能である。
【0042】
音韻HMMパラメータ推定部222は、上述した音韻HMMのパラメータ推定を収束条件(例えばForward−Backwardアルゴリズムの収束条件)を満たすまで(ステップS25)繰り返す。収束した場合は、制御部3は、SΝ比、雑音の時刻、雑音の種類を様々に変化させて別の雑音重畳音声を生成させ、再度音韻HMMの学習に供する。このとき、SΝ比は学習の進展に伴い徐々に低減させる。以上の音韻HMMの学習は、音韻辞書の学習の場合と同様に学習終了条件を満たすまで(ステップS26)繰り返される。
【0043】
このように本実施形態においては、スペクトルパターンなどの物理的なパターンの類似性の尺度となる類似度計算用の音韻辞書の学習を雑音免疫学習法を用いて行い、ここで学習した音韻辞書を用いて求めた類似度時系列に基づき統計確率的な識別尺度を得るための音韻HMMを学習するようにしたので、音韻辞書および音韻HMMの両方で、雑音によるパターン変形を吸収することができ、耐雑音性を飛躍的に向上させることができる。また、クリーンな音声と雑音データとから人工的に雑音重畳音声データを作成することにより、音韻辞書および音韻HMMの学習が自動化できるため、その効果は極めて大きい。さらに、音韻を単位とするので、語彙の変更も容易であり、語彙変更の際には認識対象単語の文字列を与えるだけでよい。
【0044】
なお、音韻辞書の学習と音韻HMMの学習とは、図3のフローチャートに従う一連の音韻辞書学習処理を全て終了した後、図5のフローチャートに従う音韻HMM学習処理を行うようにしても、あるSN比までの雑音重畳音声を用いた音韻辞書の学習が終了する毎に、そのSN比までの別の雑音重畳音声を用いた音韻HMMの学習を行うようにしても構わない。いずれにしても、あるSN比の雑音重畳音声の特徴パラメータとの照合により類似度の時系列を求めて音韻HMMを学習する際には、そのSN比までの別の雑音重畳音声を用いた音韻辞書の学習が済んでいればよい。
【0045】
また、以上の実施形態では、音声認識装置内に学習部2を設け、当該音声認識装置が有する音声分析部12、音韻類似度計算部13および単語照合部14を利用して、学習部2が類似度計算用の音韻辞書および音韻HMMを学習するものとして説明したが、これに限るものではない。例えば、前記実施形態で述べたのと同等の学習機能を備えた学習システムを音声認識装置から独立に用意し、当該学習システムにおいて前記実施形態と同様にして音韻辞書および音韻HMMの学習を行い、その学習後の音韻辞書を音声認識装置の類似度計算用音韻辞書記憶部15に、同じく学習後の音韻HMMを音声認識装置の音韻HMM記憶部16に保存するようにしても構わない。
【0046】
また、本発明は、音韻辞書および音韻HMMの学習に限らず、音韻以外の単語構成要素、例えば音節、あるいはCVC、VCV(V:母音、C:子音)の辞書およびHMMの学習にも応用可能である。
この他、本発明は前記実施形態に限定されるものではなく、その要旨を逸脱しない範囲で、種々変形して実施することができる。
【0047】
【発明の効果】
以上詳述したように本発明によれば、単語構成要素の辞書の学習を雑音免疫学習法を用いて行い、ここで学習した単語構成要素の辞書を用いて求めた類似度時系列に基づき単語構成要素のHMMを学習するようにしたので、単語構成要素の辞書および単語構成要素のHMMの両方で、雑音によるパターン変形を吸収することができる。したがって、このような単語構成要素の辞書および単語構成要素のHMMを音声認識装置に適用することで、パターン変形が著しい雑音環境下でも高い認識率が得られると共に、語彙変更の容易な認識装置を実現できる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る音声認識装置の構成を示すブロック図。
【図2】図1中の音韻辞書学習部21の詳紬構成を示すブロック図。
【図3】同実施形態における音韻辞書学習処理を説明するためのフローチャート。
【図4】図1中の音韻HMM学習部22の詳紬構成を示すブロック図。
【図5】同実施形態における音韻HMM学習処理を説明するためのフローチャート。
【符号の説明】
1…認識部、
2…学習部、
3…制御部、
11…音声入力部、
12…音声分析部、
13…音韻類似度計算部、
14…単語照合部、
15…類似度計算用音韻辞書記憶部、
16…音韻HMM記憶部、
17…認識語彙リスト記憶部、
21…音韻辞書学習部(第1の学習手段)、
22…音韻HMM学習部(第2の学習手段)、
23,24…学習用音声データベース、
25…雑音データベース、
211,221…雑音重畳音声作成部、
212…音韻区間決定部、
213…学習用音韻データ抽出部、
214…音韻辞書更新部、
222…音韻HMMパラメータ推定部、
223…音韻HMMパラメータ更新部。

Claims (8)

  1. 音声データを入力する音声入力手段と、
    前記音声入力手段により入力された音声データを分折して特徴パラメータの時系列を求める音声分析手段と、
    前記音声分析手段により求められた特徴パラメータの時系列と単語構成要素の辞書との照合を行って類似度の時系列を求める類似度計算手段と、
    前記類似度計算手段により求められた類似度の時系列と単語構成要素の隠れマルコフモデルとを用いて音声認識を行う単語照合手段と、
    雑音のないクリーンな第1の音声データと雑音データとから第1の雑音重畳音声を生成し、当該第1の雑音重畳音声を用いて前記単語構成要素の辞書の学習を行う第1の学習手段と、
    前記第1の音声データとは別の雑音のないクリーンな第2の音声データと雑音データとから第2の雑音重畳音声を生成し、当該第2の雑音重畳音声を前記音声分析手段に与えることで得られる当該第2の雑音重畳音声の特徴パラメータの時系列と前記第1の学習手段により学習された前記単語構成要素の辞書との照合を前記類似度計算手段にて行わせて類似度の時系列を求め、この類似度の時系列を用いて前記単語構成要素の隠れマルコフモデルの学習を行う第2の学習手段とを具備することを特徴とする音声認識装置。
  2. 前記第1の学習手段は、前記単語構成要素辞書の学習に、前記第1の雑音重畳音声の単語構成要素の区間情報を利用することを特徴とする請求項1記載の音声認識装置。
  3. 前記第1の学習手段は、前記第1の雑音重畳音声の単語構成要素の区間情報の示す区間が前記第1の音声データの単語構成要素の区間情報の示す区間に対してあらかじめ定められたしきい値以上ずれている場合には、前記単語構成要素辞書の学習に、前記第1の音声データの単語構成要素の区間情報を前記第1の雑音重畳音声の単語構成要素の区間情報に代えて利用することを特徴とする請求項2記載の音声認識装置。
  4. 前記しきい値がカテゴリ毎に設定されていることを特徴とする請求項3記載の音声認識装置。
  5. 音声認識に用いられる単語構成要素の辞書並びに隠れマルコフモデルを学習する単語構成要素の辞書並びに隠れマルコフモデルの学習方法であって、
    雑音のないクリーンな第1の音声データと雑音データとから第1の雑音重畳音声を生成し、当該第1の雑音重畳音声を用いて前記単語構成要素の辞書の学習を行う一方、
    前記第1の音声データとは別の雑音のないクリーンな第2の音声データと雑音データとから第2の雑音重畳音声を生成し、当該第2の雑音重畳音声を分析することで得られる特徴パラメータの時系列と前記第1の雑音重畳音声を用いて学習された単語構成要素の辞書との照合を行って類似度の時系列を求め、この類似度の時系列を用いて前記単語構成要素の隠れマルコフモデルの学習を行うことを特徴とする単語構成要素の辞書並びに隠れマルコフモデルの学習方法。
  6. 前記単語構成要素辞書の学習には、前記第1の雑音重畳音声の単語構成要素の区間情報を利用することを特徴とする請求項5記載の単語構成要素の辞書並びに隠れマルコフモデルの学習方法。
  7. 前記第1の雑音重畳音声の単語構成要素の区間情報の示す区間が前記第1の音声データの単語構成要素の区間情報の示す区間に対してあらかじめ定められたしきい値以上ずれている場合には、前記単語構成要素辞書の学習に、前記第1の音声データの単語構成要素の区間情報を前記第1の雑音重畳音声の単語構成要素の区間情報に代えて利用することを特徴とする請求項6記載の単語構成要素の辞書並びに隠れマルコフモデルの学習方法。
  8. 前記しきい値がカテゴリ毎に設定されていることを特徴とする請求項7記載の単語構成要素の辞書並びに隠れマルコフモデルの学習方法。
JP23541895A 1995-09-13 1995-09-13 音声認識装置および単語構成要素の辞書並びに隠れマルコフモデルの学習方法 Expired - Lifetime JP3571821B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP23541895A JP3571821B2 (ja) 1995-09-13 1995-09-13 音声認識装置および単語構成要素の辞書並びに隠れマルコフモデルの学習方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP23541895A JP3571821B2 (ja) 1995-09-13 1995-09-13 音声認識装置および単語構成要素の辞書並びに隠れマルコフモデルの学習方法

Publications (2)

Publication Number Publication Date
JPH0981177A JPH0981177A (ja) 1997-03-28
JP3571821B2 true JP3571821B2 (ja) 2004-09-29

Family

ID=16985813

Family Applications (1)

Application Number Title Priority Date Filing Date
JP23541895A Expired - Lifetime JP3571821B2 (ja) 1995-09-13 1995-09-13 音声認識装置および単語構成要素の辞書並びに隠れマルコフモデルの学習方法

Country Status (1)

Country Link
JP (1) JP3571821B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10013975B2 (en) 2014-02-27 2018-07-03 Qualcomm Incorporated Systems and methods for speaker dictionary based speech modeling
CN108564948A (zh) * 2018-03-30 2018-09-21 联想(北京)有限公司 一种语音识别方法及电子设备

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113470629B (zh) * 2021-07-16 2024-01-09 腾讯音乐娱乐科技(深圳)有限公司 音频识别模型训练方法,音色相似度检测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10013975B2 (en) 2014-02-27 2018-07-03 Qualcomm Incorporated Systems and methods for speaker dictionary based speech modeling
CN108564948A (zh) * 2018-03-30 2018-09-21 联想(北京)有限公司 一种语音识别方法及电子设备

Also Published As

Publication number Publication date
JPH0981177A (ja) 1997-03-28

Similar Documents

Publication Publication Date Title
Ghai et al. Literature review on automatic speech recognition
US5793891A (en) Adaptive training method for pattern recognition
Livescu et al. Subword modeling for automatic speech recognition: Past, present, and emerging approaches
JP2002500779A (ja) 識別訓練されたモデルを用いる音声認識システム
Zen et al. An introduction of trajectory model into HMM-based speech synthesis
JPH01291298A (ja) 適応型音声認識装置
JPH0372999B2 (ja)
US6148284A (en) Method and apparatus for automatic speech recognition using Markov processes on curves
WO2002029616A1 (en) Method, apparatus, and system for bottom-up tone integration to chinese continuous speech recognition system
CN117043857A (zh) 用于英语发音评估的方法、设备和计算机程序产品
Paliwal Lexicon-building methods for an acoustic sub-word based speech recognizer
Pruthi et al. Swaranjali: Isolated word recognition for Hindi language using VQ and HMM
Furui Vector-quantization-based speech recognition and speaker recognition techniques
Thalengala et al. Study of sub-word acoustical models for Kannada isolated word recognition system
Akila et al. Isolated Tamil word speech recognition system using HTK
EP1074019A1 (en) Adaptation of a speech recognizer for dialectal and linguistic domain variations
Sangjamraschaikun et al. Isarn digit speech recognition using HMM
Tang et al. Discriminative pronunciation modeling: A large-margin, feature-rich approach
Huang et al. Improved hidden Markov modeling for speaker-independent continuous speech recognition
GB2240203A (en) Automated speech recognition system
JP3571821B2 (ja) 音声認識装置および単語構成要素の辞書並びに隠れマルコフモデルの学習方法
JP2000075886A (ja) 統計的言語モデル生成装置及び音声認識装置
JP4779239B2 (ja) 音響モデル学習装置、音響モデル学習方法、およびそのプログラム
Li et al. Partially speaker-dependent automatic speech recognition using deep neural networks
JP3029803B2 (ja) 音声認識のための単語モデル生成装置及び音声認識装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040622

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040625

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080702

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090702

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090702

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100702

Year of fee payment: 6