JPH0981177A - 音声認識装置および単語構成要素の辞書並びに隠れマルコフモデルの学習方法 - Google Patents

音声認識装置および単語構成要素の辞書並びに隠れマルコフモデルの学習方法

Info

Publication number
JPH0981177A
JPH0981177A JP7235418A JP23541895A JPH0981177A JP H0981177 A JPH0981177 A JP H0981177A JP 7235418 A JP7235418 A JP 7235418A JP 23541895 A JP23541895 A JP 23541895A JP H0981177 A JPH0981177 A JP H0981177A
Authority
JP
Japan
Prior art keywords
noise
word
speech
learning
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7235418A
Other languages
English (en)
Other versions
JP3571821B2 (ja
Inventor
Hiroshi Kanazawa
博史 金澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP23541895A priority Critical patent/JP3571821B2/ja
Publication of JPH0981177A publication Critical patent/JPH0981177A/ja
Application granted granted Critical
Publication of JP3571821B2 publication Critical patent/JP3571821B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】パターン変形が著しい雑音環境下でも高い認識
性能が実現でき、かつ語彙の拡張も容易にする。 【解決手段】音韻辞書学習部21では、学習用音声デー
タベース23中のクリーンな音声データと雑音データベ
ース25中の雑音データとから雑音重畳音声を生成し、
この音声を用いて音韻辞書記憶部15中の各音韻辞書の
学習を行う。一方、音韻HMM学習部22では、別の学
習用音声データベース24中のクリーンな音声データと
雑音データベース25中の雑音データとから雑音重畳音
声を生成し、この音声を音声分析部12に与えることで
得られる当該音声の特徴パラメータの時系列と音韻辞書
学習部21により学習された韻辞書記憶部15中の音韻
辞書との照合を音韻類似度計算部13にて行わせて類似
度の時系列を求め、この類似度の時系列を用いて音韻H
MM記憶部16中の音韻HMMの学習を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、単語構成要素の辞
書並びに隠れマルコフモデルを用いて音声認識を行う音
声認識装置および単語構成要素の辞書並びに隠れマルコ
フモデルの学習方法に関する。
【0002】
【従来の技術】従来より、騒音環境下における音声認識
の基本手法は、入力された音声信号に重畳した雑音信号
をノイズ・サブトラクション法(文献:S.F.Boll:"Supp
ression of acoustic noise in speech using spectral
subtraction",IEEE Trans. Acoust., Speech & Signal
Process., ASSP-27,2,pp.113-120(April.1979) 等の手
法により除去し、音声信号のみを抽出した後に、音声の
始終端検出を行い、次いで、始終端間の音声特徴パラメ
ータと音声認識辞書とを照合することにより行われてい
た。
【0003】しかし、ノイズ・サブトラクション法は、
背景雑音の各周波数帯域の平均パワーレベルを入力音声
信号から差し引くだけであるため、白色雑音等のような
定常的な雑音が付加し、かつSΝ比が高い音声について
はある程度有効であるが、非定常な雑音やSN比の低い
音声についてはあまり効果がなく、音声認識装置の実用
上大きな問題となっていた。
【0004】このため、雑音の重畳した入力音声から、
雑音成分を除去するのではなく、認識辞書に雑音による
パターン変形を持たせる手法もいくつか提案されてい
る。その中の一つとして、雑音免疫学習法がある。
【0005】この手法は、あらかじめクリーンな音声の
データベースと、雑音のデータベースを別個に用意し、
SN比を徐々に低減させながら、雑音の重畳した学習用
音声データを人工的に生成し、音声の始終端の検出を行
わずに、始終端非固定の連続照合により、学習用パター
ンを抽出し、認識辞書の学習を行うものである(文献:
竹林、金澤:”ワードスポッティングによる音声認織に
おける雑音免疫学習”,電子情報通信学会論文誌(D-I
I),Vol.J74−D−II,No.2,pp.12
1−129 (1991.Feb),および特開平2−
238495号公報を参照)。
【0006】このように雑音環境下での音声認識におい
ては、人力された雑音重畳音声から雑音成分を取り除い
た後に認識処理を行うか、人力音声には処理を行わず
に、認識辞書に雑音によるパターン変形成分を持たせ、
認識処理を行うか、あるいは両者を混合した方法がこれ
まで行われてきた。
【0007】一方、大語彙単語音声認識においては、語
彙数が数千から数万と大規模になるため、単語単位の認
識手法ではなく、単語を構成する要素(音節、音韻等)
を単位とする認識手法が一般的である。これは、単語を
単位とする場合には、認識対象単語の音声データを逐一
収集して単語辞書を作成する必要があり、その労力が極
めて膨大となるのに対して、音韻や音節を単位とする場
合には日本語で約100種類程度の辞書を用意すること
により、任意の単語を認識対象単語とすることができ、
語彙の拡張が容易となるからである。
【0008】
【発明が解決しようとする課題】音韻や音節など単語構
成要索を単位とする単語音声認識の場合に、現在主流と
なっている認識方式として、隠れマルコフモデル(HM
M:Hidden Markov Model )を用
いる方式がある。本方式では、数百種類の標準パターン
(符号帳)をあらかじめ用意しておき、各フレーム毎に
最も近い符号をつけ、その符号系列および各符号の出現
確率と状態の遷移確率を持った隠れマルコフモデルとか
ら単語毎にその尤度を求め、認識を行う。
【0009】このような手法では、耐雑音対策として雑
音の重畳した音声パターンを用いて符号帳を作成した
り、上述したノイズ・サブトラクション法を用いたり、
雑音HMMを別個に設けて音韻HMMと併用する方法な
どが提案されているが、標準パターンの単位として1フ
レーム分のスペクトルパターンなどを用いており、雑音
重畳音声を用いて符号帳を作成しても冗長性がなく雑音
によるパ夕ーンの変勤を十分に吸収しきれなかった。ま
た、ノィズ・サブトラクション法や雑音HMMなどによ
っても定常的な雑音成分をスペクトルパターンから差し
引いたり、雑音の発生を確率的なモデルとして扱うた
め、定常的な雑音に対してはある程度対処できても、非
定常な雑音に対してはあまり効果がなかった。
【0010】そこで、本発明はパターン変形が著しい雑
音環境下でも高い認識性能を保持し、かつ語彙の拡張も
容易な音声認識装置を提供することを目的とする。また
本発明は、パターン変形が著しい雑音環境下でも高い認
識性能を保持し、かつ語彙の拡張も容易な音声認識装置
の実現が図れる単語構成要素の辞書並びに隠れマルコフ
モデルの学習方法を提供することにある。
【0011】
【課題を解決するための手段】上記課題を解決するた
め、本発明の音声認識装置は、音声データを人力する音
声入力手段と、この入力された音声データを分折して特
徴パラメータの時系列を求める音声分析手段と、この求
められた特徴パラメータの時系列と単語構成要素の辞書
との照合を行って類似度の時系列を求める類似度計算手
段と、この求められた類似度の時系列と単語構成要素の
HMM(隠れマルコフモデル)とを用いて音声認識を行
う単語照合手段と、雑音のないクリーンな第1の音声デ
ータと雑音データとから第1の雑音重畳音声を生成し、
当該第1の雑音重畳音声を用いて上記単語構成要素の辞
書の学習を行う第1の学習手段と、上記第1の音声デー
タとは別の雑音のないクリーンな第2の音声データと雑
音データとから第2の雑音重畳音声を生成し、当該第2
の雑音重畳音声を上記音声分析手段に与えることで得ら
れる当該第2の雑音重畳音声の特徴パラメータの時系列
と上記第1の学習手段により学習された単語構成要素の
辞書との照合を上記類似度計算手段にて行わせて類似度
の時系列を求め、この類似度の時系列を用いて上記単語
構成要素のHMMの学習を行う第2の学習手段とを備え
たことを特徴とする。
【0012】また、本発明の単語構成要素の辞書並びに
隠れマルコフモデルの学習方法は、雑音のないクリーン
な第1の音声データと雑音データとから第1の雑音重畳
音声を生成し、当該第1の雑音重畳音声を用いて単語構
成要素の辞書の学習を行う一方、上記第1の音声データ
とは別の雑音のないクリーンな第2の音声データと雑音
データとから第2の雑音重畳音声を生成し、当該第2の
雑音重畳音声を分析することで得られる特徴パラメータ
の時系列と上記第1の雑音重畳音声を用いて学習された
単語構成要素の辞書との照合を行って類似度の時系列を
求め、この類似度の時系列を用いて上記単語構成要素の
HMM(隠れマルコフモデル)の学習を行うことを特徴
とする。
【0013】本発明においては、(雑音のないクリーン
な第1の音声データと雑音データとから生成される)第
1の雑音重畳音声を用いて前述の雑音免疫学習法による
単語構成要素の辞書(単語構成要素が音韻の例では、音
韻辞書)の学習が行われ、さらに(第1の音声データと
は別の雑音のないクリーンな第2の音声データと雑音デ
ータとから生成される)第2の雑音重畳音声の特徴パラ
メータの時系列と学習済みの単語構成要素の辞書(即
ち、第1の雑音重畳音声を用いて学習された単語構成要
素の辞書)とを用いて求められる類似度時系列に基づ
き、単語構成要素のHMM(単語構成要素が音韻の例で
は、音韻HMM)の学習が行われる。これにより、単語
構成要素の辞書と単語構成要素のHMMの両方で雑音に
よるパターン変形に対処できるようになり、音声認識装
置の使用環境の雑音によるパターン変形に対して、安定
に動作する高性能の音声認識を実現するとともに、語彙
の拡張を容易にすることが可能となる。
【0014】特に、単語構成要素辞書の学習に、上記第
1の雑音重畳音声の単語構成要素の区間情報を利用する
ことで、雑音による変動を含んだ単語構成要素データを
得ることが可能となる。但し、雑音の影響の程度によっ
ては、第1の雑音重畳音声の単語構成要素の区間情報を
用いた場合に、誤った単語構成要素区間が設定される可
能性がある。
【0015】そこで、雑音のないクリーンな第1の音声
データの単語構成要素の区間情報により示される区間
(クリーンな音声の単語構成要素区間)を基準として、
第1の雑音重畳音声の単語構成要素の区間情報により示
される区間(雑音重畳音声の単語構成要素区間)があら
かじめ定められたしきい値以上ずれている場合には、単
語構成要素辞書の学習に、第1の音声データの単語構成
要素の区間情報を利用することで、雑音による影響で誤
った単語構成要素区間が設定されるのを防止することも
可能である。特に、上記のしきい値をカテゴリ毎に設定
することにより、単語構成要素区間決定の信頼性を高く
することが可能となる。
【0016】
【発明の実施の形態】以下、本発明の実施の形態につき
図面を参照して説明する。図1は、本発明の一実施形態
に係る音声認識装置の構成を示すブロック図である。こ
の装置は、入力音声の認識を司る認識部1と、認識部1
における音声認識で使用する単語構成要素の辞書(ここ
では、音韻辞書)並びに単語構成要素のHMM(ここで
は、音韻HMM)の学習を司る学習部2と、装置全体を
制御する制御部3の3つの部分に大別され、音声認識モ
ードと学習モードの両モードで動作する。認識部1は、
音声入力部11、音声分析部12、音韻類似度計算部1
3、単語照合部14、類似度計算用音韻辞書記憶部1
5、音韻HMM記憶部16および認識語彙リスト記憶部
17から構成される。学習部2は、音韻辞書学習部2
1、音韻HMM学習部22、学習用音声データベース2
3,24および雑音データベース25から構成される。
なお、本実施形態では単語構成要素として音韻について
記述するが、音節でもよいし、CVC、VCV(V:母
音、C:子音)であってもよい。
【0017】次に、図1の音声認識装置における音声認
識モードでの処理について説明する。音声認識モードの
場合、入力音声は音声入力部11に設けられたマイクロ
フォンを通して当該入力部11内のA/D(アナログ/
ディジタル)変換器(いずれも図示せず)に送られ、所
定のサンプリング周波数で量子化される。
【0018】音声入力部11(内のA/D変換器)によ
り量子化された入力音声は音声分析部12に与えられ
る。音声分析部12は、この量子化された入力音声を対
象に、FFT(Fast Fourier Translation)、フィルタ
分析、LPC(Linear Predictive Coding)分折などの
処理を行い、音声パターン(特徴パラメータの時系列)
を抽出する。例えば、8ms毎の16次元のフィルタ出力
について考えると、抽出された音声パターンは8msのフ
レーム周期毎に音韻類似度計算部13に送られる。
【0019】音韻類似度計算部13では、この音声パタ
ーンを時間的に連続して1フレームずつシフトさせなが
ら、特徴ベクトル(時間周波数パターン)を抽出し、類
似度計算用音韻辞書記憶部15に格納されている各音韻
辞書との類似度演算を行う。
【0020】具体的には、例えば、各音韻辞書の次元数
を周波数軸16、時間軸5の16×5=80次元とする
と、音韻類似度計算部13は、順次時間軸に沿つて1フ
レームずつ移勤しながら類似度演算に供する80次元の
特徴ベクトルを抽出して類似度演算を行い、各音韻毎の
類似度を求めることになる。ここで、例えば50種類の
音韻辞書を持つとすると、上述した処理により各フレー
ム毎に50次元の類似度ベクトル(類似度時系列)が得
られるわけである。
【0021】さて、パターン照合の際に用いる類似度と
して、複合類似度や、マハラノビス距離尺度などが知ら
れている。複合類似度の場合には、例えば80次元の音
韻特徴ベクトルXと音韻cとの類似度値S(c)は、 S(c)=Σαm (c) (X,φm (c) ) となる。ここで、αm (c) は固有値、φm (c) は固有ベ
クトル、mは軸数、cはカテゴリ番号、Σαm (c)
(X,φm (c) )は、αm (c) (X,φm (c) )のm=
1からm=Mまでの総和を示す。
【0022】単語照合部14は、音韻類似度計算部13
にて求められた類似度時系列と、音韻HMM記憶部16
に格納されている音韻HMMおよび認識語彙リスト記憶
部17に格納されている(テキスト形式の)認識語彙リ
ストとから、認識対象単語毎の尤度を例えばビタビ(Vi
terbi )アルゴリズム(中川著:”確率モデルによる音
声認識”,pp.44 ,電子情報通信学会編を参照)などを
用いて計算する。そして単語照合部14は、尤度が最大
になる単語を認識結果として出力する。
【0023】次に、本発明の特徴である学習モードでの
処理について、(1)類似度計算用の音韻辞書の学習
と、(2)音韻HMMの学習とに分けて順に説明する。 (1)類似度計算用の音韻辞書の学習 本実施形態において類似度計算用の音韻辞書の学習は、
制御部3の制御のもとで、主として学習部2内の音韻辞
書学習部21により行われる。この音韻辞書学習部21
は、図2に示すように、雑音重畳音声作成部211、音
韻区間決定部212、学習用音韻データ抽出部213お
よび音韻辞書更新部214から構成されている。
【0024】以下、類似度計算用の音韻辞書の学習につ
き、図1および図2を適宜参照しながら、図3のフロー
チャートを用いて説明する。まず、学習用音声データベ
ース23には、雑音のないクリーンな学習用音声データ
(単語音声データ)が大量の単語について格納され、雑
音データベース25には雑音データが格納されている。
【0025】音韻辞書学習部21内の雑音重畳音声作成
部211は、類似度計算用の音韻辞書の学習に際し、学
習用音声データベース23中のクリーンな学習用単語音
声データと雑音データベース25中の雑音データを用い
て、予め指定したSN比(S/N)になるように雑音重
畳音声(雑音重畳単語音声)を人工的に生成する(ステ
ップS11)。
【0026】雑音重畳音声作成部211によって生成さ
れた雑音重畳音声は音声分析部12へ送られて、音声認
識モードの場合における入力音声と同様に音声分析に供
される(ステップS12)。この音声分析部12での音
声分析処理により抽出された雑音重畳音声の音声パター
ン(特徴パラメータの時系列)は音韻類似度計算部13
に送られる。これにより音韻類似度計算部13では、類
似度計算用音韻辞書記憶部15内の各音韻辞書との照合
を行って類似度の時系列を求める類似度演算が音声認識
モードの場合と同様に行われる(ステップS13)。
【0027】そして単語照合部14では、音韻類似度計
算部13にて求められた類似度時系列と、音韻HMM記
憶部16に格納されている音韻HMMとの単語照合が行
われる。ここで、学習用単語データの発声内容は既知で
あることから、単語照合部14は単語照合を該当単語の
みについて行えばよい。このとき単語照合部14は、Vi
terbi アルゴリズム等による照合パスをバックトレース
して単語内の各音韻の区間情報を得る(ステップS1
4)。この単語照合部14での動作は、単語照合が該当
単語のみについて行われる点を除けば、音声認識モード
の場合と同様に行われる。
【0028】制御部3は、認識部1および学習部2を制
御して、以上に述べた雑音重畳音声(雑音重畳音声単語
音声)に対するのと同様の処理を、同じ単語についての
雑音の重畳していないクリーンな音声に対しても行わせ
る。これにより、同じ単語についての雑音重畳音声に対
する区間情報に対応する、クリーンな音声に対する音韻
区間情報が、単語照合部14にて得られる。
【0029】単語照合部14にて得られた雑音重畳音声
に対する音韻区間情報と、クリーンな音声に対する音韻
区間情報とは、音韻辞書学習部21内の音韻区間決定部
212に与えられる。これを受けて音韻区間決定部21
2は、クリーンな音声に対する音韻区間情報と雑音重畳
音声に対する音韻区間情報とから学習用音韻データを抽
出するための区間を決定する。ここでは雑音重畳音声作
成部211は、例えばクリーンな音声に対する音韻区間
情報の示す音韻区間を基準にして、雑音重畳音声の音韻
区間がその基準より予め定めたしきい値以上ずれた場合
には、クリーンな音声の音韻区間を正しい音韻区間と決
め、しきい値未満の場合には雑音重畳音声の音韻区間を
正しい音韻区間と決めるようにしている。このように雑
音重畳音声作成部211は、両音韻区間を総合的に検証
して、正しい音韻区間を設定する。
【0030】これは、第1に、両音韻区間のずれが比較
的少ない通常状態では、雑音重畳音声の音韻区間を正し
い音韻区間とすることで、雑音による変動を含んだ音韻
データ(学習用音韻データ)の抽出を可能とするためで
ある。第2に、雑音の影響が著しく大きいために両音韻
区間のずれがしきい値以上となった状態では、雑音重畳
音声の音韻区間は雑音による影響で誤っている確率が極
めて高いことから、雑音重畳音声の音韻区間に代えてク
リーンな音声の音韻区間を用いることで、雑音重畳音声
の音韻区間を用いた際に切り出される誤パターンの混入
を防ぐためである。
【0031】さて、上述したしきい値はカテゴリ毎に設
定することにより、音韻区間決定の信頼性を一層高める
ことができる。例えば、母音のような比較的特徴が安定
し、パワーの大きな音韻の場合にはずれの許容範囲は小
さく設定し、摩擦音のような時間的に変化し、パワーの
小さな音韻の場合にはずれの幅をある程度大きくするな
どして雑音による変動を含んだ尤もらしい音韻データの
抽出を行うことにより、信頼性の高い学習用音韻データ
を得ることができる。
【0032】音韻区間決定部212により決定された音
韻区間の情報は、同じ音韻辞書学習部21内の学習用音
韻データ抽出部213に与えられる。この学習用音韻デ
ータ抽出部213には、音声分析部12での音声分析に
より抽出された雑音重畳音声の特徴パラメータの時系列
(音声パターン)が与えられる。
【0033】学習用音韻データ抽出部213は、この雑
音重畳音声の特徴パラメータの時系列から、音韻区間決
定部212により決定された音韻区間に基づいて学習用
音韻データの抽出を行う(ステップS15)。次に学習
用音韻データ抽出部213は、雑音重畳音声の特徴パラ
メータの時系列から抽出した音韻データ(音韻パター
ン)を用いて、類似度計算用音韻辞書記憶部15内の各
音韻辞書との類似度の時系列を求める類似度演算を行
い、その類似度の値に基づき上記抽出した音韻データの
認識を行う(ステップS15)。
【0034】音韻辞書学習部21内の音韻辞書更新部2
14は、学習用音韻データ抽出部213の音韻データ認
識結果に従って、類似度計算用の音韻辞書の学習(更
新)を行う(ステップS16)。即ち音韻辞書更新部2
14は、例えば複合類似度法の場合であれば、以下の式
に示すように、各音韻毎の共分散行列を更新し、しかる
後にKL展開(主成分分析)して、固有値、固有ベクト
ルを求め、これを新しい音韻辞書として、類似度計算用
音韻辞書記憶部15へ格納し、以降の類似度演算に利用
できるようにする。
【0035】K1 =K0 +αΣXXt ここで、K0 は更新前の共分散行列、K1 は更新後の共
分散行列、Xは学習用音韻パターン、αは更新係数、t
は転置を示す。
【0036】制御部3は、音韻辞書学習部21を中心と
する以上の学習処理を、大量の単語データに対して、学
習の進展に伴い、SN比を徐々に低減させながら、かつ
雑音データベース25から様々な時刻、種類の雑音デー
タを選択して用いさせ、学習終了条件を満たすまで(ス
テップS17)繰り返し行わせる。学習終了条件には、
例えば繰り返し回数または認識率が利用可能である。即
ち、所定回数の学習処理が繰り返されたことをもって一
連の学習処理を終了させるとか、学習が進につれて認識
率が上がっていくことから、各単語について所定レベル
の認識率が得られたことをもって一連の学習処理を終了
させることが可能である。 (2)音韻HMMの学習 本実施形態における音韻HMMの学習は、制御部3の制
御のもとで、主として学習部2内の音韻HMM学習部2
2により行われる。この音韻HMM学習部22は、図4
に示すように、雑音重畳音声作成部221、音韻HMM
パラメータ推定部222および音韻HMMパラメータ更
新部223から構成されている。
【0037】以下、音韻HMMの学習につき、図1およ
び図4を適宜参照しながら、図5のフローチャートを用
いて説明する。まず本実施形態では、前述した類似度計
算用の音韻辞書の学習に用いたのとは別のクリーンな学
習用単語音声データが格納された学習用音声データベー
ス24が用意されている。
【0038】音韻HMM学習部22内の雑音重畳音声作
成部221は、音韻HMMの学習に際し、学習用音声デ
ータベース24中のクリーンな学習用単語音声データと
雑音データベース25中の雑音データを用いて、予め指
定したSN比(S/N)になるように雑音重畳音声(雑
音重畳単語音声)を人工的に生成する(ステップS2
1)。
【0039】雑音重畳音声作成部211によって生成さ
れた雑音重畳音声は音声分析部12へ送られて、音声認
識モードの場合における入力音声と同様に音声分析に供
される(ステップS22)。この音声分析部12での音
声分析処理により抽出された雑音重畳音声の音声パター
ン(特徴パラメータの時系列)は音韻類似度計算部13
に送られる。これにより音韻類似度計算部13では、前
述した方法で学習した類似度計算用音韻辞書記憶部15
内の各音韻辞書を用いて時間連続的に類似度演算を行
い、類似度の時系列を求める(ステップS23)。
【0040】音韻類似度計算部13により求められた類
似度時系列は、音韻HMM学習部22内の音韻HMMパ
ラメータ推定部222に送られる。音韻HMMパラメー
タ推定部222は、この類似度の時系列と音韻HMM記
憶部16内の各音韻HMMとから例えばForward-Backwa
rdアルゴリズムなどを用いて、音韻HMMのパラメータ
(例えば、ある音韻の出現確率やモデルの状態の遷移確
率など)の再推定を行い(中川著:”確率モデルによる
音声認識”,pp.55-59,電子情報通信学会編参照)、当
該音韻HMMのパラメータを更新する(ステップS2
4)。
【0041】ここで、クリーンな音声に対し、その類似
度時系列と音韻HMMとから、前述した類似度計算用の
音韻辞書の学習時の場合と同様にして、Viterbi アルゴ
リズムなどにより求めた音韻区間を、パラメータ推定の
際の制約条件として用いることも可能である。例えば、
クリーンな音声の音韻区間とのずれ幅を各音韻毎にに設
定し、その範囲内での音韻照合を行い、パラメータの再
推定を行うことにより、雑音の重畳に起因する誤った音
韻区間でのHMMパラメー夕推定を防ぐことができる。
また、本方法は、単語を構成する各音韻のHMMを連結
して単語HMMを作り、単語音声を学習データとして、
単語を構成する音韻HMMをまとめて学習する連結学習
(丸山他:”HMM音韻連結学習を用いた英単語音声の
認識”,電子情報通信学会 音声研究会,SP88-119,p
p.23-29 (1988) 参照)にも適用可能である。
【0042】音韻HMMパラメータ推定部222は、上
述した音韻HMMのパラメータ推定を収束条件(例えば
Forward-Backwardアルゴリズムの収束条件)を満たすま
で(ステップS25)繰り返す。収束した場合は、制御
部3は、SΝ比、雑音の時刻、雑音の種類を様々に変化
させて別の雑音重畳音声を生成させ、再度音韻HMMの
学習に供する。このとき、SΝ比は学習の進展に伴い徐
々に低減させる。以上の音韻HMMの学習は、音韻辞書
の学習の場合と同様に学習終了条件を満たすまで(ステ
ップS26)繰り返される。
【0043】このように本実施形態においては、スペク
トルパターンなどの物理的なパターンの類似性の尺度と
なる類似度計算用の音韻辞書の学習を雑音免疫学習法を
用いて行い、ここで学習した音韻辞書を用いて求めた類
似度時系列に基づき統計確率的な識別尺度を得るための
音韻HMMを学習するようにしたので、音韻辞書および
音韻HMMの両方で、雑音によるパターン変形を吸収す
ることができ、耐雑音性を飛躍的に向上させることがで
きる。また、クリーンな音声と雑音データとから人工的
に雑音重畳音声データを作成することにより、音韻辞書
および音韻HMMの学習が自動化できるため、その効果
は極めて大きい。さらに、音韻を単位とするので、語彙
の変更も容易であり、語彙変更の際には認識対象単語の
文字列を与えるだけでよい。
【0044】なお、音韻辞書の学習と音韻HMMの学習
とは、図3のフローチャートに従う一連の音韻辞書学習
処理を全て終了した後、図5のフローチャートに従う音
韻HMM学習処理を行うようにしても、あるSN比まで
の雑音重畳音声を用いた音韻辞書の学習が終了する毎
に、そのSN比までの別の雑音重畳音声を用いた音韻H
MMの学習を行うようにしても構わない。いずれにして
も、あるSN比の雑音重畳音声の特徴パラメータとの照
合により類似度の時系列を求めて音韻HMMを学習する
際には、そのSN比までの別の雑音重畳音声を用いた音
韻辞書の学習が済んでいればよい。
【0045】また、以上の実施形態では、音声認識装置
内に学習部2を設け、当該音声認識装置が有する音声分
析部12、音韻類似度計算部13および単語照合部14
を利用して、学習部2が類似度計算用の音韻辞書および
音韻HMMを学習するものとして説明したが、これに限
るものではない。例えば、前記実施形態で述べたのと同
等の学習機能を備えた学習システムを音声認識装置から
独立に用意し、当該学習システムにおいて前記実施形態
と同様にして音韻辞書および音韻HMMの学習を行い、
その学習後の音韻辞書を音声認識装置の類似度計算用音
韻辞書記憶部15に、同じく学習後の音韻HMMを音声
認識装置の音韻HMM記憶部16に保存するようにして
も構わない。
【0046】また、本発明は、音韻辞書および音韻HM
Mの学習に限らず、音韻以外の単語構成要素、例えば音
節、あるいはCVC、VCV(V:母音、C:子音)の
辞書およびHMMの学習にも応用可能である。この他、
本発明は前記実施形態に限定されるものではなく、その
要旨を逸脱しない範囲で、種々変形して実施することが
できる。
【0047】
【発明の効果】以上詳述したように本発明によれば、単
語構成要素の辞書の学習を雑音免疫学習法を用いて行
い、ここで学習した単語構成要素の辞書を用いて求めた
類似度時系列に基づき単語構成要素のHMMを学習する
ようにしたので、単語構成要素の辞書および単語構成要
素のHMMの両方で、雑音によるパターン変形を吸収す
ることができる。したがって、このような単語構成要素
の辞書および単語構成要素のHMMを音声認識装置に適
用することで、パターン変形が著しい雑音環境下でも高
い認識率が得られると共に、語彙変更の容易な認識装置
を実現できる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る音声認識装置の構成
を示すブロック図。
【図2】図1中の音韻辞書学習部21の詳紬構成を示す
ブロック図。
【図3】同実施形態における音韻辞書学習処理を説明す
るためのフローチャート。
【図4】図1中の音韻HMM学習部22の詳紬構成を示
すブロック図。
【図5】同実施形態における音韻HMM学習処理を説明
するためのフローチャート。
【符号の説明】
1…認識部、 2…学習部、 3…制御部、 11…音声入力部、 12…音声分析部、 13…音韻類似度計算部、 14…単語照合部、 15…類似度計算用音韻辞書記憶部、 16…音韻HMM記憶部、 17…認識語彙リスト記憶部、 21…音韻辞書学習部(第1の学習手段)、 22…音韻HMM学習部(第2の学習手段)、 23,24…学習用音声データベース、 25…雑音データベース、 211,221…雑音重畳音声作成部、 212…音韻区間決定部、 213…学習用音韻データ抽出部、 214…音韻辞書更新部、 222…音韻HMMパラメータ推定部、 223…音韻HMMパラメータ更新部。

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 音声データを人力する音声入力手段と、 前記音声入力手段により入力された音声データを分折し
    て特徴パラメータの時系列を求める音声分析手段と、 前記音声分析手段により求められた特徴パラメータの時
    系列と単語構成要素の辞書との照合を行って類似度の時
    系列を求める類似度計算手段と、 前記類似度計算手段により求められた類似度の時系列と
    単語構成要素の隠れマルコフモデルとを用いて音声認識
    を行う単語照合手段と、 雑音のないクリーンな第1の音声データと雑音データと
    から第1の雑音重畳音声を生成し、当該第1の雑音重畳
    音声を用いて前記単語構成要素の辞書の学習を行う第1
    の学習手段と、 前記第1の音声データとは別の雑音のないクリーンな第
    2の音声データと雑音データとから第2の雑音重畳音声
    を生成し、当該第2の雑音重畳音声を前記音声分析手段
    に与えることで得られる当該第2の雑音重畳音声の特徴
    パラメータの時系列と前記第1の学習手段により学習さ
    れた前記単語構成要素の辞書との照合を前記類似度計算
    手段にて行わせて類似度の時系列を求め、この類似度の
    時系列を用いて前記単語構成要素の隠れマルコフモデル
    の学習を行う第2の学習手段とを具備することを特徴と
    する音声認識装置。
  2. 【請求項2】 前記第1の学習手段は、前記単語構成要
    素辞書の学習に、前記第1の雑音重畳音声の単語構成要
    素の区間情報を利用することを特徴とする請求項1記載
    の音声認識装置。
  3. 【請求項3】 前記第1の学習手段は、前記第1の雑音
    重畳音声の単語構成要素の区間情報の示す区間が前記第
    1の音声データの単語構成要素の区間情報の示す区間に
    対してあらかじめ定められたしきい値以上ずれている場
    合には、前記単語構成要素辞書の学習に、前記第1の音
    声データの単語構成要素の区間情報を前記第1の雑音重
    畳音声の単語構成要素の区間情報に代えて利用すること
    を特徴とする請求項2記載の音声認識装置。
  4. 【請求項4】 前記しきい値がカテゴリ毎に設定されて
    いることを特徴とする請求項3記載の音声認識装置。
  5. 【請求項5】 音声認識に用いられる単語構成要素の辞
    書並びに隠れマルコフモデルを学習する単語構成要素の
    辞書並びに隠れマルコフモデルの学習方法であって、 雑音のないクリーンな第1の音声データと雑音データと
    から第1の雑音重畳音声を生成し、当該第1の雑音重畳
    音声を用いて前記単語構成要素の辞書の学習を行う一
    方、 前記第1の音声データとは別の雑音のないクリーンな第
    2の音声データと雑音データとから第2の雑音重畳音声
    を生成し、当該第2の雑音重畳音声を分析することで得
    られる特徴パラメータの時系列と前記第1の雑音重畳音
    声を用いて学習された単語構成要素の辞書との照合を行
    って類似度の時系列を求め、この類似度の時系列を用い
    て前記単語構成要素の隠れマルコフモデルの学習を行う
    ことを特徴とする単語構成要素の辞書並びに隠れマルコ
    フモデルの学習方法。
  6. 【請求項6】 前記単語構成要素辞書の学習には、前記
    第1の雑音重畳音声の単語構成要素の区間情報を利用す
    ることを特徴とする請求項5記載の単語構成要素の辞書
    並びに隠れマルコフモデルの学習方法。
  7. 【請求項7】 前記第1の雑音重畳音声の単語構成要素
    の区間情報の示す区間が前記第1の音声データの単語構
    成要素の区間情報の示す区間に対してあらかじめ定めら
    れたしきい値以上ずれている場合には、前記単語構成要
    素辞書の学習に、前記第1の音声データの単語構成要素
    の区間情報を前記第1の雑音重畳音声の単語構成要素の
    区間情報に代えて利用することを特徴とする請求項6記
    載の単語構成要素の辞書並びに隠れマルコフモデルの学
    習方法。
  8. 【請求項8】 前記しきい値がカテゴリ毎に設定されて
    いることを特徴とする請求項7記載の単語構成要素の辞
    書並びに隠れマルコフモデルの学習方法。
JP23541895A 1995-09-13 1995-09-13 音声認識装置および単語構成要素の辞書並びに隠れマルコフモデルの学習方法 Expired - Lifetime JP3571821B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP23541895A JP3571821B2 (ja) 1995-09-13 1995-09-13 音声認識装置および単語構成要素の辞書並びに隠れマルコフモデルの学習方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP23541895A JP3571821B2 (ja) 1995-09-13 1995-09-13 音声認識装置および単語構成要素の辞書並びに隠れマルコフモデルの学習方法

Publications (2)

Publication Number Publication Date
JPH0981177A true JPH0981177A (ja) 1997-03-28
JP3571821B2 JP3571821B2 (ja) 2004-09-29

Family

ID=16985813

Family Applications (1)

Application Number Title Priority Date Filing Date
JP23541895A Expired - Lifetime JP3571821B2 (ja) 1995-09-13 1995-09-13 音声認識装置および単語構成要素の辞書並びに隠れマルコフモデルの学習方法

Country Status (1)

Country Link
JP (1) JP3571821B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113470629A (zh) * 2021-07-16 2021-10-01 腾讯音乐娱乐科技(深圳)有限公司 音频识别模型训练方法,音色相似度检测方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10013975B2 (en) 2014-02-27 2018-07-03 Qualcomm Incorporated Systems and methods for speaker dictionary based speech modeling
CN108564948B (zh) * 2018-03-30 2021-01-15 联想(北京)有限公司 一种语音识别方法及电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113470629A (zh) * 2021-07-16 2021-10-01 腾讯音乐娱乐科技(深圳)有限公司 音频识别模型训练方法,音色相似度检测方法
CN113470629B (zh) * 2021-07-16 2024-01-09 腾讯音乐娱乐科技(深圳)有限公司 音频识别模型训练方法,音色相似度检测方法

Also Published As

Publication number Publication date
JP3571821B2 (ja) 2004-09-29

Similar Documents

Publication Publication Date Title
US5995928A (en) Method and apparatus for continuous spelling speech recognition with early identification
US6163768A (en) Non-interactive enrollment in speech recognition
US5937384A (en) Method and system for speech recognition using continuous density hidden Markov models
US20050159949A1 (en) Automatic speech recognition learning using user corrections
EP1139332A9 (en) Spelling speech recognition apparatus
US20010053974A1 (en) Speech recognition apparatus, speech recognition method, and recording medium
EP0867857A2 (en) Enrolment in speech recognition
US7181391B1 (en) Method, apparatus, and system for bottom-up tone integration to Chinese continuous speech recognition system
JP2003316386A (ja) 音声認識方法および音声認識装置および音声認識プログラム
JP2002500779A (ja) 識別訓練されたモデルを用いる音声認識システム
US7653541B2 (en) Speech processing device and method, and program for recognition of out-of-vocabulary words in continuous speech
CN112750445B (zh) 语音转换方法、装置和系统及存储介质
Ranjan et al. Isolated word recognition using HMM for Maithili dialect
Nakagawa A survey on automatic speech recognition
JP2955297B2 (ja) 音声認識システム
Park et al. Conformer-based on-device streaming speech recognition with KD compression and two-pass architecture
Fosler et al. Automatic learning of word pronunciation from data
US20040006469A1 (en) Apparatus and method for updating lexicon
EP1213706B1 (en) Method for online adaptation of pronunciation dictionaries
Syfullah et al. Efficient vector code-book generation using K-means and Linde-Buzo-Gray (LBG) algorithm for Bengali voice recognition
Sangjamraschaikun et al. Isarn digit speech recognition using HMM
Thalengala et al. Study of sub-word acoustical models for Kannada isolated word recognition system
Fu et al. A survey on Chinese speech recognition
Das et al. Issues in practical large vocabulary isolated word recognition: The IBM Tangora system
JP3571821B2 (ja) 音声認識装置および単語構成要素の辞書並びに隠れマルコフモデルの学習方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040622

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040625

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080702

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090702

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090702

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100702

Year of fee payment: 6