JP2005338358A - Acoustic model noise adapting method and device implementing same method - Google Patents
Acoustic model noise adapting method and device implementing same method Download PDFInfo
- Publication number
- JP2005338358A JP2005338358A JP2004156037A JP2004156037A JP2005338358A JP 2005338358 A JP2005338358 A JP 2005338358A JP 2004156037 A JP2004156037 A JP 2004156037A JP 2004156037 A JP2004156037 A JP 2004156037A JP 2005338358 A JP2005338358 A JP 2005338358A
- Authority
- JP
- Japan
- Prior art keywords
- acoustic model
- noise
- clean
- state
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
この発明は、音響モデル雑音適応化方法およびこの方法を実施する装置に関し、特に、既存の音響モデル雑音適応化結果に基づいて別の音響モデルの雑音適応化を低コストかつ高速に実行する音響モデル雑音適応化方法およびこの方法を実施する装置に関する。 The present invention relates to an acoustic model noise adaptation method and an apparatus for performing the method, and in particular, an acoustic model that performs noise adaptation of another acoustic model at low cost and at high speed based on an existing acoustic model noise adaptation result. The present invention relates to a noise adaptation method and an apparatus for implementing the method.
先ず、図を参照して、音声認識装置について説明しておく。
図6において、入力音声601は、音声分析部602において特徴ベクトル603の時系列に変換され、探索処理部605に入力される。探索処理部605においては、音響モデル604を用いて、文法606で表現される単語或いは単語列と特徴ベクトル603の時系列との間の照合、即ち、探索処理が行われ、最も尤度が高い単語或いは単語列が認識結果607として出力される。
音声分析部602における音声分析方法としてよく用いられるのは、ケプストラム分析であり、特徴量としては、MFCC(Mel Frequency Cepstral Coefficient)、△MFCC、△△MFCC、対数パワー、△対数パワーその他があり、それらが、10〜100次元程度の特徴量ベクトルを構成する。分析フレーム幅30ms程度、分析フレームシフト幅10ms程度で分析が実行される。音響モデル604は、先のMFCCその他の音声特徴量を適切なカテゴリで標準パターンとして保持したものであり、入力音声の或る区間の特徴量に対して、各標準パターンとの音響的な近さを尤度として計算し、それがどのカテゴリに属するかを推定する。現在、音響モデル604としては、確率・統計理論に基づいてモデル化された隠れマルコフモデル(Hidden Markov Model、略して、HMM)が汎用されている。通常、HMMは音素カテゴリ単位で作成され、音素HMMの集合として一つの音響モデルが構築される。
First, the speech recognition apparatus will be described with reference to the drawings.
In FIG. 6, an
A cepstrum analysis is often used as a speech analysis method in the
音素HMMの種類としては、当該音素に先行および後続する音素の両方を音素環境として考慮しないmonophone−HMM(例えば、*−a−*は、音素aのmonophone−HMMと言う。*は任意の音素を表す)、当該音素に先行する音素のみ音素環境として考慮する先行音素環境依存biphone−HMM(例えば、p−a−*は、先行音素がpである音素aの先行音素環境依存biphone−HMM、と言う)、当該音素に後続する音素のみ音素環境として考慮する後続音素環境依存biphone−HMM(例えば、*−a−tは、後続音素がtである音素aの後続音素環境依存biphone−HMMと言う)、当該音素に先行および後続する音素の両方を音素環境として考慮するtriphone−HMM(例えば、p−a−tは、先行音素がp、後続音素がtである音素aのtriphone−HMM)が最もよく用いられる。 As a type of phoneme HMM, a monophone-HMM that does not consider both phonemes preceding and following the phoneme as a phoneme environment (for example, * -a- * is a monophone-HMM of phoneme a. * Is an arbitrary phoneme. A phoneme environment-dependent biphone-HMM in which only the phoneme preceding the phoneme is considered as the phoneme environment (for example, pa- * is the phoneme environment-dependent biphone-HMM of the phoneme a whose preceding phoneme is p, The subsequent phoneme environment dependent biphone-HMM in which only the phoneme following the phoneme is considered as the phoneme environment (for example, * -at is the subsequent phoneme environment dependent biphone-HMM of the phoneme a whose subsequent phoneme is t) Triphone-HMM that considers both phonemes preceding and following the phoneme as the phoneme environment (e.g., p-a-t is a triphone-HM of phoneme a having a preceding phoneme of p and a subsequent phoneme of t) ) It is most often used.
また、音素HMMが表現する音素カテゴリの種類については、音響モデルの学習データに依存するが、例えば、t−t−tの如く日本語の音素連鎖としてあり得ないものは含まれないので、一般的には、数千〜数万種類程度になる。
音響モデル604の構造を図7を参照して説明する。
先ず、図7に示される如く、状態Sが混合確率分布Mとして表現される。混合確率分布の各要素分布としては、離散確率分布と連続確率分布があるが、現在、最もよく用いられているのは、連続確率分布の一つである多次元正規(ガウス)分布であり、その内でも次元間の相関がない(共分散行列の対角成分が0である)多次元無相関正規分布が最もよく用いられている。多次元正規分布の各次元は、先の特徴量ベクトルの各次元に対応する。図7においては、状態Sが4つの多次元正規分布を要素分布とする多次元混合正規分布Mとして表現されている。図7においては、特徴量ベクトルの或る次元iについて示しているが、特徴量ベクトルの各次元について同様に表現される。図7に示される状態の数個〜十数個程度の確率連鎖によって、音素HMMが構築される。音素HMMが、幾つの状態の如何なる確率連鎖によって構築されるかに関しては、様々なバリエーションがある。また、音素HMM毎に異なる構造をとることもある。現在、最も一般的に用いられている構造は、例えば、図8に示す音素HMMの如き3状態のleft−to−right型HMMと呼ばれるもので、3つの状態S1 (第1状態)、S2 (第2状態)、S3 (第3状態)を左から右に並べたものであり、状態の確率連鎖(状態遷移)としては、自分自身への遷移(自己遷移)S1 →S1 、S2 →S2 、S3 →S3 と、次状態への遷移S1 →S2 、S2 →S3 から成る。音響モデル中の全ての音素HMMがこの3状態left−to−right型HMMの構造をとることが多い。
In addition, although the type of phoneme category expressed by the phoneme HMM depends on the learning data of the acoustic model, it does not include, for example, a phoneme chain that cannot be a Japanese phoneme chain such as ttt. Actually, it is about several thousand to several tens of thousands.
The structure of the
First, as shown in FIG. 7, the state S is expressed as a mixed probability distribution M. Each component distribution of the mixed probability distribution includes a discrete probability distribution and a continuous probability distribution. Currently, the most commonly used is a multidimensional normal (Gaussian) distribution, which is one of the continuous probability distributions. Among them, a multidimensional uncorrelated normal distribution having no correlation between dimensions (the diagonal component of the covariance matrix is 0) is most often used. Each dimension of the multidimensional normal distribution corresponds to each dimension of the previous feature vector. In FIG. 7, the state S is represented as a multidimensional mixed normal distribution M having four multidimensional normal distributions as element distributions. In FIG. 7, a certain dimension i of the feature quantity vector is shown, but each dimension of the feature quantity vector is similarly expressed. A phoneme HMM is constructed by a probability chain of several to about a dozen states in the state shown in FIG. There are various variations on how many phonetic HMMs are built by what probability chain. Also, the phoneme HMM may have a different structure. At present, the most commonly used structure is called a three-state left-to-right type HMM such as the phoneme HMM shown in FIG. 8, and has three states S 1 (first state), S 2 (second state) and S 3 (third state) are arranged from left to right, and the state probability chain (state transition) is transition to itself (self-transition) S 1 → S 1 , S 2 → S 2 , S 3 → S 3 and transition to the next state S 1 → S 2 , S 2 → S 3 . All phoneme HMMs in an acoustic model often take the structure of this three-state left-to-right type HMM.
図8を参照して音素HMMを用いた尤度計算について説明する。
図8の音素HMMに、或る特徴ベクトルの時系列が入力されたときの尤度計算について解説する。例えば、6フレーム分の特徴量ベクトルの時系列X=X1 、X2 、X3 、X4 、X5 、X6 が、音素HMMの或る一つの状態遷移系列S=S1 →S1 →S2 →S2 →S3 →S3 から出力される確率(尤度)P(X|S、HMM)は、以下の通りに計算される。
P(X|S、HMM)=b1(X1)a11b1(X2)a12b2(X3)a22b2(X4)a23b3(X5)a33b3(X6)・・・・・式(1)
ここで、ajkは、状態Sjから状態Skへの遷移確率である。また、bj(Xt)は、時刻t(t番目のフレーム)における特徴ベクトルXtが状態Sjを表現する混合正規分布Mjから出力される確率であり、混合正規分布Mjを構成するm番目の正規分布の出力確率Pjm(Xt)を用いて以下の通りに計算される。
The likelihood calculation using the phoneme HMM will be described with reference to FIG.
The likelihood calculation when a time series of a certain feature vector is input to the phoneme HMM in FIG. 8 will be described. For example, the time series X = X 1 , X 2 , X 3 , X 4 , X 5 , X 6 of feature quantity vectors for 6 frames is one state transition sequence S = S 1 → S 1 of the phoneme HMM. The probability (likelihood) P (X | S, HMM) output from S 2 → S 2 → S 3 → S 3 is calculated as follows.
P (X | S, HMM) = b 1 (X 1 ) a 11 b 1 (X 2 ) a 12 b 2 (X 3 ) a 22 b 2 (X 4 ) a 23 b 3 (X 5 ) a 33 b 3 (X 6 ) ... Formula (1)
Here, a jk is a transition probability from the state S j to the state S k . B j (X t ) is a probability that the feature vector X t at time t (t-th frame) is output from the mixed normal distribution M j representing the state S j , and constitutes the mixed normal distribution M j . The output probability P jm (Xt) of the mth normal distribution is calculated as follows.
以上の尤度計算は、或る一つの状態遷移系列Sに対するものであるが、このような状態遷移系列は他にもあげることができる。このような状態遷移系列全てに対して、特徴ベクトルの時系列Xを出力する確率を計算し、それらを加算したものを音素HMMに特徴ベクトルの時系列Xが入力されたときの尤度とする方法はトレリス(trellis)アルゴリズムと呼ばれる。一方、全ての状態遷移系列のなかで最も高い尤度を与える状態遷移系列を特徴ベクトルの時系列によりフレーム単位で逐次的に求め、最終フレームに到達したときの尤度を音素HMMに特徴ベクトルの時系列Xが入力されたときの尤度とする方法をビタービ(Viterbi)アルゴリズムという。一般的には、トレリスアルゴリズムと比較して計算量を大幅に削減することができるビタービアルゴリズムが用いられることが多い。
The above likelihood calculation is for a certain state transition sequence S, but other state transition sequences can be mentioned. For all such state transition sequences, the probability of outputting the feature vector time series X is calculated, and the sum of these is used as the likelihood when the feature vector time series X is input to the phoneme HMM. The method is called the trellis algorithm. On the other hand, the state transition sequence that gives the highest likelihood among all the state transition sequences is sequentially obtained in units of frames by the time series of feature vectors, and the likelihood when the final frame is reached is stored in the phoneme HMM. A method of setting the likelihood when the time series X is input is called a Viterbi algorithm. In general, a Viterbi algorithm that can significantly reduce the amount of calculation compared to the trellis algorithm is often used.
また、以上の尤度計算は、或る一つの音素HMMに対するものであるが、実際には、探索処理部605において、探索処理を行う前に、音素HMMを連結して文法606で表現される単語或いは単語列のHMMのネットワーク(探索ネットワーク)が作成され、そして、入力音声の特徴ベクトル603の時系列と探索ネットワークで表現される単語或いは単語列との照合が行われ(探索処理)、最も尤度が高い単語或いは単語列が認識結果607として出力される。
また、以上の尤度計算では、確率値をそのまま扱ったが、実際には、アンダーフローを防ぐために、確率値の対数をとって計算を行う。
Further, the above likelihood calculation is for a certain phoneme HMM, but actually, the
Further, in the above likelihood calculation, the probability value is handled as it is, but actually, in order to prevent underflow, the calculation is performed by taking the logarithm of the probability value.
また、音響モデル604の各種パラメータ(状態遷移確率ajk、分布重みWjm、正規分布の各次元の平均μjmiおよび分散σjmi 2)の推定アルゴリズムとしては、バウムーウェルチ(Baum−Welch)アルゴリズムが最もよく用いられる。また、一つの音響モデルの学習(パラメータ推定)には、数十〜数千時間という大量の音声データとその発声内容ラベルデータが用いられる(非特許文献1 参照)。
ところで、以上の音声認識装置の従来例が実際に使用される環境には様々な種類の雑音が存在しており、これが音声認識精度の低下を招く要因となっている。雑音は大きく分けて二種類に分類することができる。一つは、音声に畳み込みの関係で影響を及ぽす乗算性歪みと呼ばれるもので、例えば、話者の口からマイクまでの空間の伝達特性、電話回線の伝達特性である。もう一つは、伝達特性の影響を受けた音声に加算の関係で影響を及ぼす加算性雑音と呼ばれるもので、例えば、オフィスにおいては、計算機が出す雑音、紙をめくる音の如き雑音であり、自動車内においてはエンジンの回転音を挙げることができる。時刻tにおける雑音のない、クリーンな音声をs(t)、乗法性歪み(伝達特性)をh(t)、加算性雑音をn(t)とすると、雑音のある音声のy(t)は以下の式で与えられる。以下で、※は畳み込みを表す。
In addition, as an estimation algorithm for various parameters (state transition probability a jk , distribution weight W jm , average μ jmi and variance σ jmi 2 ) of each dimension of the
By the way, there are various types of noise in an environment where the above-described conventional example of the speech recognition apparatus is actually used, which causes a decrease in speech recognition accuracy. Noise can be broadly classified into two types. One is called multiplicative distortion, which affects speech due to convolution, and includes, for example, the transmission characteristics of the space from the speaker's mouth to the microphone and the transmission characteristics of the telephone line. The other is called additive noise, which affects the sound affected by the transfer characteristics due to the addition. For example, in the office, it is noise generated by a computer, noise such as paper turning, In the automobile, an engine rotation sound can be mentioned. When s (t) is a clean voice without noise at time t, h (t) is multiplicative distortion (transfer characteristic), and n (t) is additive noise, y (t) of the noisy voice is It is given by the following formula. In the following, * indicates convolution.
y(t)=s(t)※h(t)+n(t)・・・・・式(5)
近年、音声認識装置の雑音対策として、音響モデルのマルチコンディション(マルチスタイル)学習が研究されており、非常に単純でありながら、様々な雑音への耐性の高い雑音適応音響モデルが得られる学習方法として注目されている。
音響モデルのマルチコンディション学習について図を参照して解説する。
図9は音響モデルのマルチコンディション学習の流れを図示したものである。先ず、雑音のないクリーン音声データ908とその発声内容ラベルデータ909を用いて音響モデル学習部910によりクリーン音響モデル904を作成しておく。また、音声認識装置の使用環境に存在する雑音の情報として、乗算性歪みを表す伝達特性データ911と加算性雑音データを表す雑音データ912をそれぞれ想定される分だけ組み合わせで準備しておく。ここにおいては、N個の伝達特性データ911−1〜911−Nと雑音データ912−1〜912−Nの組み合わせがあるものとする。そして、クリーン音声データ908に対して、伝達特性畳み込み部913において伝達特性データ911を畳み込み、その後、雑音加算部914において雑音データ912を加算する。この操作をN個の伝達特性データ911と雑音データ912の組み合わせ全てに対して行い、それらの集合としてマルチコンディション音声データ915が作成される。元のクリーン音声データ908もマルチコンディション音声データ915に含める場合があり、ここにおいてはその様にしている。次に、音響モデル追加学習部916において、マルチコンディション音声データ915と発声内容ラベルデータ909を用いて、クリーン音響モデル904に対して、追加学習により音響モデルの学習を行い、その結果として雑音適応音響モデル918が作成される。クリーン音響モデル904に対する追加学習ではなく、マルチコンディション音声データ915を用いて最初から雑音適応音響モデル918を学習する方法も考えられるが、ここにおいては、追加学習を行うものとする。なお、追加学習であるため、クリーン音響モデル904と雑音適応音響モデル918の状態連鎖構造、状態における確率分布数を含む構造は等しい。
y (t) = s (t) * h (t) + n (t) (5)
In recent years, multi-condition (multi-style) learning of acoustic models has been studied as a noise countermeasure for speech recognition devices, and a learning method that can obtain a noise adaptive acoustic model that is very simple but highly resistant to various noises. It is attracting attention as.
The acoustic model multi-condition learning is explained with reference to the figure.
FIG. 9 illustrates the flow of multi-condition learning of an acoustic model. First, a clean
上述の通りにして作成された雑音適応音響モデル918を用いることにより、想定した全ての雑音環境下で高い認識精度を得ることがでぎる。マルチコンディション学習に関する従来の実験報告としては、乗算性歪みはない状態で、地下鉄、自動車内、レストランなど加算性雑音のみを想定したもの(非特許文献2 参照)、自動車内の雑音環境で、マイクをサンバイザーまたは前方室内ランプの位置に設置するため、乗算性歪みは話者の口からサンバイザーまたは前方室内ランプまでの空間伝達特性の2種類、加算性雑音として、アイドリング時、一般道路走行時、高速道路走行時などいくっかの雑音を想定したもの(非特許文献3 参照)、電話音声の認識において、様々な電話機の周波数特性による乗算性歪みと、幾つかのSN比の展示会場騒音を想定したもの(非特許文献4 参照)その他がある。
上述した通り、音響モデルのマルチコンディション学習は非常に単純な方法でありながら、様々な雑音への耐性の高い雑音適応音響モデルが得られる学習方法である、しかし、図9に示した通り、その学習の過程において、想定する雑音の種類に応じて音声データを準備して使用するので、データ記憶容量と計算時間が大幅に増大する。例えば、想定する雑音の種類がN種類であれば、クリーン音声のみでクリーン音響モデルを学習する場合と比較してN倍のデータ記憶容量と計算時間が必要となる。元々、音響モデルの学習はデータ記憶容量および計算時間に関してコストの高い作業であるが、マルチコンディション学習ではそのコストが更に大幅に高くなり、これは望ましいことではない。 As described above, multi-condition learning of an acoustic model is a very simple method, but is a learning method capable of obtaining a noise adaptive acoustic model having high resistance to various noises. However, as shown in FIG. In the learning process, voice data is prepared and used according to the type of noise assumed, so that the data storage capacity and the calculation time are significantly increased. For example, if N types of noises are assumed, N times as much data storage capacity and calculation time are required as compared with the case of learning a clean acoustic model using only clean speech. Originally, learning an acoustic model is a costly task in terms of data storage capacity and computation time, but multi-condition learning is much more expensive, which is undesirable.
この発明は、マルチコンディション学習にあるコストが高くなるという問題点に鑑みてなされたものであり、既存の雑音適応化の結果を用いて、マルチコンディション音声データなどの雑音を付加された音声データを新たに準備することなく、音響モデルの雑音適応を行うことができる音響モデル雑音適応化方法およびこの方法を実施する装置を提供することをその目的としている。 The present invention has been made in view of the problem that the cost for multi-condition learning becomes high, and using existing noise adaptation results, noise data such as multi-condition audio data is added. An object of the present invention is to provide an acoustic model noise adaptation method capable of performing noise adaptation of an acoustic model without newly preparing, and an apparatus for implementing the method.
請求項1:雑音のない音声データで学習されたクリーン音響モデルA:104−Aと当該クリーン音響モデルA:104Aを元に雑音適応化された雑音適応音響モデルB:118−Bとを準備し、クリーン音響モデルA:104−Aから雑音適応音響モデルB:118−Bへの雑音適応化による各パラメータの変化量を計算し、雑音のない音声データで学習された別のクリーン音響モデルC:104−Cの各状態および各分布によりクリーン音響モデルAを参照してその各状態および各分布を決定し、別のクリーン音響モデルCとクリーン音響モデルAの各状態および各分布の参照関係と、クリーン音響モデルAから雑音適応音響モデルBへの雑音適応化による各パラメータの変化量とを基に別のクリーン音響モデルCの各パラメータを調整して、新規の雑音適応化された音響モデルD:118−Dを作成する音響モデル雑音適応化方法を構成した。 Claim 1: A clean acoustic model A: 104-A learned from noise-free speech data and a noise adaptive acoustic model B: 118-B adapted to noise based on the clean acoustic model A: 104A are prepared. The clean acoustic model A: 104-A to the noise adaptive acoustic model B: 118-B, the amount of change in each parameter due to noise adaptation is calculated, and another clean acoustic model C learned from noiseless speech data: Each state and each distribution of 104-C is referred to the clean acoustic model A to determine each state and each distribution, and a reference relationship between each state and each distribution of another clean acoustic model C and clean acoustic model A. Adjust each parameter of another clean acoustic model C based on the amount of change of each parameter by noise adaptation from clean acoustic model A to noise adaptive acoustic model B Te, acoustic model D is noise adaptation of new: constituted acoustic model noise adaptation method of creating a 118-D.
請求項2:雑音のない音声データで学習されたクリーン音響モデルA:104−Aを具備し、クリーン音響モデルA:104−Aを入力してこれを雑音適応化する雑音適応化部117を具備し、クリーン音響モデルA:104−Aを元に雑音適応化された雑音適応音響モデルB:118−Bを具備し、クリーン音響モデルA:104−Aと雑音適応音響モデルB:118−Bとを入力して、クリーン音響モデルA:104−Aの雑音適応化による各パラメータの変化量を計算する音響モデルパラメータ変化量計算部119を具備し、雑音のない音声データで学習された別のクリーン音響モデルC:104−Cおよびクリーン音響モデルA:104−Aとを入力し、別のクリーン音響モデルC:104−Cの各パラメータが参照するクリーン音響モデルA:104−Aの各パラメータを決定する音響モデル構造参照関係決定部120を具備し、音響モデルパラメータ変化量計算部119において計算されたクリーン音響モデルA:104−Aの雑音適応化による各パラメータの変化量と音響モデル構造参照関係決定部120において決定されたクリーン音響モデルA:l04−Aと別のクリーン音響モデルC:104−Cとの間の参照関係とを入力し、別のクリーン音響モデルC:104−Cの各パラメータを調整して新規の雑音適応音響モデルD:118−Dを作成する音響モデルパラメータ調整部121を具備する音響モデル雑音適応化装置を構成した。
Claim 2: A clean acoustic model A: 104-A learned from noise-free speech data is provided, and a
請求項3:請求項2に記載される音響モデル雑音適応化装置において、音響モデルパラメータ変化量計算部は、クリーン音響モデルAから雑音適応音響モデルBへの雑音適応化による各パラメータの変化量を計算するに際して、クリーン音響モデルAの各状態において、分布重みが最も大きい分布のパラメータの変化量を、状態における全ての分布のパラメータ変化量とする音響モデル雑音適応化装置を構成した。
請求項4:請求項2に記載される音響モデル雑音適応化装置において、音響モデルパラメータ変化量計算部は、クリーン音響モデルAから雑音適応音響モデルBへの雑音適応化による各パラメータの変化量を計算するに際して、クリーン音響モデルAの各状態と対応する雑音適応音響モデルBの各状態において、状態における全ての分布を統合した分布を作成し、その統合分布のパラメータ変化量を、状態における全ての分布のパラメータ変化量とする音響モデル雑音適応化装置を構成した。
(3) In the acoustic model noise adaptation device according to (2), the acoustic model parameter variation calculation unit calculates the variation of each parameter due to noise adaptation from the clean acoustic model A to the noise adaptive acoustic model B. In the calculation, an acoustic model noise adaptation apparatus was configured in which the change amount of the distribution parameter having the largest distribution weight in each state of the clean acoustic model A is set as the parameter change amount of all distributions in the state.
(4) In the acoustic model noise adaptation device according to (2), the acoustic model parameter variation calculation unit calculates the variation of each parameter due to noise adaptation from the clean acoustic model A to the noise adaptive acoustic model B. In the calculation, in each state of the noise adaptive acoustic model B corresponding to each state of the clean acoustic model A, a distribution in which all the distributions in the state are integrated is created, and the parameter change amount of the integrated distribution is calculated for all the states in the state. An acoustic model noise adaptation device with the distribution parameter variation is constructed.
請求項5:請求項2ないし請求項4の内の何れかに記載される音響モデル雑音適応化装置において、音響モデル構造参照関係決定部は、別のクリーン音響モデルCの各状態および各分布が参照するクリーン音響モデルAの各状態および各分布を決定するに際して、別のクリーン音響モデルCの各状態と対応するクリーン音響モデルAの各状態における分布同士の対応を、分布間距離の近さを基準として決定する音響モデル雑音適応化装置を構成した。
請求項6:請求項2ないし請求項5の内の何れかに記載される音響モデル雑音適応化装置において、分布間距離尺度として、Kullback−Leiblerダイバージェンスを用いる音響モデル雑音適応化装置を構成した。
Claim 5: In the acoustic model noise adaptation device according to any one of
Claim 6: In the acoustic model noise adaptation apparatus according to any one of
請求項7:請求項2ないし請求項5の内の何れかに記載される音響モデル雑音適応化装置において、分布間距離尺度として、バタチャリヤ距離を用いる音響モデル雑音適応化装置を構成した。
請求項8:請求項2ないし請求項5の内の何れかに記載される音響モデル雑音適応化装置において、分布間距離尺度として、分布統合前後の尤度差分を用いる音響モデル雑音適応化装置を構成した。
請求項9:請求項2ないし請求項5の内の何れかに記載される音響モデル雑音適応化装置において、分布間距離尺度として、分布統合前後の変分ペイズ法に基づく評価関数値の差分を用いる音響モデル雑音適応化装置を構成した。
[7] The acoustic model noise adaptation apparatus according to any one of [2] to [5], wherein an acoustic model noise adaptation apparatus using a batch rear distance as a distribution distance measure is configured.
[8] The acoustic model noise adaptation apparatus according to any one of [2] to [5], wherein the acoustic model noise adaptation apparatus uses a likelihood difference before and after distribution integration as a distance measure between distributions. Configured.
Claim 9: In the acoustic model noise adaptation apparatus according to any one of
この発明によれば、既存の雑音適応化の結果を用いて、マルチコンディション音声データなどの雑音を付加された音声データを新たに準備することなく、瞬時に音響モデルの雑音適応を行うことができる。即ち、一例として、多数の女性の雑音のない音声データを用いて学習された入力される別のクリーン音響モデルである、クリーン女声音響モデルの雑音適応化を実施する様な場合、多数の男性の雑音のない音声データを用いて学習されたクリーン男声音響モデルと、それをマルチコンディション学習により雑音適応化した雑音適応男声音響モデルがあれば、新たに雑音が付加された女声音声データを準備してマルチコンディション学習する必要はなく、男声音響モデルの雑音適応化結果をそのまま用いて瞬時に雑音適応を行うことができる。 According to the present invention, noise adaptation of an acoustic model can be performed instantaneously without preparing new voice data to which noise such as multi-condition voice data is added, using the result of existing noise adaptation. . That is, as an example, in the case of performing noise adaptation of a clean female voice acoustic model, which is another clean acoustic model that is input by using a large number of female noiseless voice data, If there is a clean male voice model trained using noise-free voice data and a noise-adapted male voice model modeled with noise adaptation using multi-condition learning, prepare female voice data with newly added noise. There is no need to perform multi-condition learning, and noise adaptation can be performed instantaneously using the noise adaptation result of the male acoustic model as it is.
この発明による音響モデル雑音適応化は、雑音のない音声データで学習されたクリーン音響モデルAと、クリーン音響モデルAを元に雑音適応化された雑音適応音響モデルBを備え、音響モデルパラメータ変化量計算部において、クリーン音響モデルAから雑音適応音響モデルBへの雑音適応化による各パラメータの変化量を計算しておき、雑音のない音声データで学習された別のクリーン音響モデルCが入力された場合に、音響モデル構造参照関係決定部において、別のクリーン音響モデルCの各状態および各分布が参照するクリーン音響モデルAの各状態および各分布を決定し、音響モデルパラメータ調整部において、別のクリーン音響モデルCとクリーン音響モデルAの各状態および各分布の参照関係と、クリーン音響モデルAから雑音適応音響モデルBへの雑音適応化による各パラメータの変化量を基に、別のクリーン音響モデルCの各パラメータを調整し、雑音適応化された音響モデルDを新たに作成する。この発明による音響モデル雑音適応化装置は、音響モデルパラメータ変化量計算部において、クリーン音響モデルAから雑音適応音響モデルBへの雑音適応化による各パラメータの変化量を計算するに際して、クリーン音響モデルAの各状態において、分布重みが最も大きい分布のパラメータの変化量を、状態における全ての分布のパラメータ変化量とする。この発明による音響モデル雑音適応化装置は、音響モデルパラメータ変化量計算部において、クリーン音響モデルAから雑音適応音響モデルBへの雑音適応化による各パラメータの変化量を計算するに際して、クリーン音響モデルAの各状態と対応する雑音適応音響モデルBの各状態において、状態における全ての分布を統合した分布を作成し、その統合分布のパラメータ変化量を、状態における全ての分布のパラメータ変化量とする。この発明による音響モデル雑音適応化装置は、音響モデル構造参照関係決定部において、入力される音響モデルCの各状態および各分布が参照するクリーン音響モデルAの各状態および各分布を決定するに際して、別のクリーン音響モデルCの各状態と対応するクリーン音響モデルAの各状態における分布同士の対応を、分布間距離の近さを基準として決定する。この発明による音響モデル雑音適応化装置は、分布間距離尺度として、Kullback−Leiblerダイバージェンスを用いる。この発明による音響モデル雑音適応化装置は、分布間距離尺度として、バタチャリヤ距離を用いる。この発明による音響モデル雑音適応化装置は、分布間距離尺度として、分布統合前後の尤度差分を用いる。この発明による音響モデル雑音適応化装置は、分布間距離尺度として、分布統合前後の変分ベイズ法に基づく評価関数値の差分を用いる。 The acoustic model noise adaptation according to the present invention includes a clean acoustic model A learned from noise-free speech data, and a noise adaptive acoustic model B that is noise-adapted based on the clean acoustic model A. In the calculation unit, the amount of change in each parameter due to noise adaptation from the clean acoustic model A to the noise adaptive acoustic model B is calculated, and another clean acoustic model C learned from speech data without noise is input. In this case, the acoustic model structure reference relationship determining unit determines each state and each distribution of the clean acoustic model A to which each state and distribution of another clean acoustic model C refers, and the acoustic model parameter adjusting unit The reference relationship between the states and distributions of the clean acoustic model C and the clean acoustic model A and the clean acoustic model A Based on the amount of change in each parameter due to noise adaptation to the adaptive acoustic model B, by adjusting the parameters of another clean acoustic model C, and create a new noise adaptation acoustic model D. In the acoustic model noise adaptation device according to the present invention, the acoustic model parameter variation calculation unit calculates the variation of each parameter by noise adaptation from the clean acoustic model A to the noise adaptive acoustic model B. In each state, the change amount of the parameter of the distribution having the largest distribution weight is set as the parameter change amount of all the distributions in the state. In the acoustic model noise adaptation device according to the present invention, the acoustic model parameter variation calculation unit calculates the variation of each parameter by noise adaptation from the clean acoustic model A to the noise adaptive acoustic model B. In each state of the noise adaptive acoustic model B corresponding to each state, a distribution in which all distributions in the state are integrated is created, and a parameter change amount of the integrated distribution is set as a parameter change amount in all distributions in the state. In the acoustic model noise adaptation device according to the present invention, the acoustic model structure reference relationship determining unit determines each state and each distribution of the clean acoustic model A to which each state and each distribution of the input acoustic model C refers. The correspondence between the distributions in each state of the clean acoustic model A corresponding to each state of another clean acoustic model C is determined based on the proximity of the distance between the distributions. The acoustic model noise adaptation apparatus according to the present invention uses Kullback-Leibler divergence as a distance measure between distributions. The acoustic model noise adaptation apparatus according to the present invention uses the batcha rear distance as the inter-distribution distance measure. The acoustic model noise adaptation apparatus according to the present invention uses likelihood differences before and after distribution integration as a distance measure between distributions. The acoustic model noise adaptation apparatus according to the present invention uses a difference between evaluation function values based on the variational Bayes method before and after distribution integration as a distance measure between distributions.
以下、発明を実施するための最良の形態を図を参照して具体的に説明する。
図1はこの発明による音響モデル雑音適応化装置の実施例の概要を説明する図である。ここにおいては、入力される別のクリーン音響モデルC:104−Cの雑音適応化を行い、新規の雑音適応音響モデルD:118−Dを得ることを目的としている。
先ず、クリーン音響モデルA:104−Aの雑音適応化が雑音適応化部117において行われ、雑音適応音響モデルB:118−Bが予め得られているものとする。なお、雑音適応化部117は、図9を参照して先に説明された点線内の雑音適応化部917に相当する。ここにおいては、クリーン音響モデルA:104Aと雑音適応音響モデルB:118−Bの状態連鎖構造、状態における確率分布数を含む構造は等しいものとするが、構造が異なる場合でも容易に拡張することができる。このクリーン音響モデルA:104−Aと雑音適応音響モデルB:118−Bを入力として、音響モデルパラメータ変化量計算部119において、雑音適応化によるクリーン音響モデルA:104−Aの各パラメータ、状態遷移確率、要素確率分布の平均・分散・分布重み、の変化量を計算する。一方、音響モデル構造参照関係決定部120において、別のクリーン音響モデルC:104−Cの各パラメータが参照するクリーン音響モデルA:104−Aの各パラメータを決定する。次に、音響モデルパラメータ調整部121において、雑音適応化によるクリーン音響モデルA:104−Aの各パラメータの変化量と、別のクリーン音響モデルC:104−Cとクリーン音響モデルA:l04−Aの参照関係を基に、別のクリーン音響モデルC:104−Cの各パラメータを調整し、雑音適応音響モデルD:118−Dを作成する。
Hereinafter, the best mode for carrying out the invention will be specifically described with reference to the drawings.
FIG. 1 is a diagram for explaining the outline of an embodiment of an acoustic model noise adaptation apparatus according to the present invention. Here, the objective is to obtain a new noise adaptive acoustic model D: 118-D by performing noise adaptation of another input clean acoustic model C: 104-C.
First, it is assumed that noise adaptation of the clean acoustic model A: 104-A is performed in the
図2は図1における4つの音響モデルを音素HMMのレベルで示した図である。この図2を参照して、この発明による音響モデル雑音適応化装置において、別のクリーン音響モデルC:204−Cの状態遷移確率が調整される仕組みについて説明する。なお、ここにおける説明は、音素HMMの構造が上述した3状態のleft−to−right型であるものとするが、他の構造の場合でも容易に拡張することができる。
先ず、音響モデルパラメータ変化量計算部219において、クリーン音響モデルA:204−Aと雑音適応音響モデルB:218−Bの対応する状態の遷移確率(クリーン音響モデルA:204Aと雑音適応音響モデルB:218−Bは構造が同じであるので、状態遷移確率の対応は1対1にとることができる)より、雑音適応化によるクリーン音響モデルA:204−Aの状態遷移確率の変化率を計算する。次に、音響モデル構造参照決定部220における処理を説明するが、ここにおいては、別のクリーン音響モデルC:204−Cに含まれる音素HMMとして、音素p−a−t(triphone)を例に挙げて説明する。音響モデル構造参照決定部220おける、別のクリーン音響モデルC:204−Cの音素p−a−t(triphone)が参照するクリーン音響モデルA:204−Aの音素HMMの検索方法には、幾つかのバリエーションが考えられるが、最も一般的な方法としては、前後の音素環境依存性を段階的に無視して行く方法である。この方法は、先ず、クリーン音響モデルA:204−Aに音素p−a−t(triphone)が存在するか否かを検索し、存在すれば、別のクリーン音響モデルC:204−Cの音素p−a−t(tripbone)が参照するクリーン音響モデルA:204−Aの音素HMMを音素p−a−t(triphone)とする。クリーン音響モデルA:204−Aに音素p−a−t(triphone)が存在しない場合は、音素p−a−t(triphone)に近い音素HMMとして、音素p−a−*(先行音素環境依存biphone)を検索する。クリーン音響モデルA:204−Aに音素p−a−*(先行音素環境依存biphone)が存在すれば、別のクリーン音響モデルC:204−Cの音素p−a−t(triphone)が参照するクリーン音響モデルA:204−Aの音素HMMを音素p−a−*(先行音素環境依存biphone)とする。クリーン音響モデルA:204−Aに音素p−a−*(先行音素環境依存biphone)が存在しない場合は、音素p−a−*(先行音素環境依存biphone)の次に音素p−a−t(triphone)に近い音素HMMとして、音素*−a−t(後続音素環境依存biphone)を検索する。先行音素環境依存biphoneと後続音素環境依存biphoneの何れを優先させるかというバリエーションも考えられる。クリーン音響モデルA:204−Aに音素*−a−t(後続音素環境依存biphone)が存在すれば、別のクリーン音響モデルC:204−Cの音素p−a−t(triphone)が参照するクリーン音響モデルA:204−Aの音素HMMを音素*−a−t(後続音素環境依存biphone)とする。クリーン音響モデルA:204−Aに音素*−a−t(後続音素環境依存biphone)が存在しない場合は、音素*−a−t(後続音素環境依存biphone)の次に音素p−a−t(triphone)に近い音素HMMとして、音素*−a−*(monophone)を検索する。通常、各音素のmonophone−HMMは音響モデルに含まれるので、音素*−a−*(monophone)は必ず見つかると考えてよい。この様に、最終的には、別のクリーン音響モデルC:204−Cの音素p−a−t(triphone)が参照するクリーン音響モデルA:204−Aの音素HMMが音素*−a−*(monophone)となる。以上は、前後の音素環境依存性を段階的に無視して行く方法であるが、例えば、別のクリーン音響モデルC:204−Cの音素p−a−t(triphone)が参照するクリーン音響モデルA:204−Aの音素HMMとして、初めから音素*−a−*(monophone)を選択する方法も考えられる。図2の場合は、前後の音素環境依存性を段階的に無視していく方法で、クリーン音響モデルA:204−Aに音素p−a−t(triphone)は存在しなかったが、音素p−a−*(先行音素環境依存biphone)が存在したため、別のクリーン音響モデルC:204−Cの音素p−a−t(triphone)が参照するクリーン音響モデルA:204−Aの音素HMMは音素p−a−*(先行音素環境依存biphone)となっている。この様にして、別のクリーン音響モデルC:204−Cの音素p−a−t(triphone)とクリーン音響モデルA:204−Aの音素HMMは、音素p−a−*(先行音素環境依存biphone)の対応が取れれば、両音素HMMは、3状態のleft−to−right型の構造をとるので、両音素HMMの状態同士の対応もとれる。最後に、音響モデルパラメータ調整部221において、音響モデルパラメータ変化量計算部219で計算された雑音適応化によるクリーン音響モデルA:204−Aの状態遷移確率の変化率と、音響モデル構造参照関係決定部220において決定された別のクリーン音響モデルC:204−Cの各状態とクリーン音響モデルA:204−Aの各状態の対応関係を基に、別のクリーン音響モデルC:204−Cの各状態遷移確率を調整し、雑音適応音響モデルD:218−Dの各状態遷移確率とする。
FIG. 2 is a diagram showing the four acoustic models in FIG. 1 at the level of the phoneme HMM. With reference to this FIG. 2, the mechanism by which the state transition probability of another clean acoustic model C: 204-C is adjusted in the acoustic model noise adaptation apparatus by this invention is demonstrated. In the description here, the structure of the phoneme HMM is assumed to be the above-described three-state left-to-right type, but the structure can be easily expanded even in the case of other structures.
First, in the acoustic model parameter change
図3は図1における4つの音響モデルを状態のレベルで示した図である。図3を参照して、図2において例とした別のクリーン音響モデルC:204−Cの音素p−a−tの状態SC1に含まれる要素確率分布のパラメータが調整される仕組みの一例について説明する。なお、この説明は、各状態に含まれる要素確率分布の数は4、かつ各要素確率分布は多次元無相関正規分布であり、その次元iについて図示されているものとするが、これ以外の条件であっても容易に拡張することができる。
先ず、音響モデルパラメータ変化量計算部319において、クリーン音響モデルA:304−Aの状態SA1と対応する雑音適応音響モデルB:318−Bの状態SB1から状態SA1の各要素正規分布NA1、NA2、NA3、NA4のパラメータ(平均、分散、分布重み)の変化量を求めるが、この例は、状態SA1の最も分布重みの大きい要素正規分布NA3のパラメータ変化量をもって状態SA1における全ての要素正規分布NA1、NA2、NA3、NA4のパラメータ変化量(平均、分散)とする。これは状態SA1に付随するパラメータ変化量と見ることができる。一方、音響モデル構造参照関係決定部320においては、別のクリーン音響モデルC:304−Cの状態SC1とクリーン音響モデルA:304−Aの状態SA1の対応がとれており、この例の場合は、要素正規分布同士の対応は取る必要はない。そして、音響モデルパラメータ調整部321において、音響モデルパラメータ変化量計算部319において計算された状態SA1の最も分布重みの大きい要素正規分布NA3 のパラメータ変化量と、音響モデル構造参照関係決定部320において決定された状態SC1と状態SA1の対応を基に、状態SC1の各要素正規分布のパラメータ(平均、分散)の調整を行い、雑音適応音響モデルD:318−Dの状態SD1の各要素正規分布のパラメータ(平均、分散)とする。この例は、分布重みの調整は行わない。
FIG. 3 is a diagram showing the four acoustic models in FIG. 1 at the state level. Referring to FIG. 3, an example of a mechanism in which the parameter of the element probability distribution included in the state S C1 of the phoneme p-at of another clean acoustic model C: 204-C exemplified in FIG. 2 is adjusted. explain. In this description, the number of element probability distributions included in each state is four, and each element probability distribution is a multidimensional uncorrelated normal distribution, and the dimension i is illustrated. Even conditions can be easily extended.
First, in the acoustic model parameter change
図4は、図1における4つの音響モデルを状態のレベルで示した図である。図4を参照して、図2において例とした別のクリーン音響モデルC:204−Cの音素p−a−tの状態SClに含まれる要素確率分布のパラメータが調整される仕組みについて、図3とは異なった一例を説明する。なお、この説明は、各状態に含まれる要素確率分布の数は4、かつ各要素確率分布は多次元無相関正規分布であり、その次元iについて図示されているものとするが、これ以外の条件であっても容易に拡張することができる。
先ず、音響モデルパラメータ変化量計算部419において、クリーン音響モデルA:404−Aの状態SA1と対応する雑音適応音響モデルB:418−Bの状態SB1から状態SA1の各要素正規分布のパラメータ(平均、分散、分布重み)の変化量を求めるが、この例は、状態SA1における各要素正規分布NA1、NA2、NA3、NA4を統合して一つの統合分布NA を作成すると共に、状態SBlにおける各要素正規分布NB1、NB2、NB3、NB4を統合して一つの統合分布NB を作成し、統合分布NA から統合分布NB へのパラメータ変化量をもって状態SA1における全ての要素正規分布NA1、NA2、NA3、NA4のパラメータ変化量(平均、分散)とする。これは、状態SA1に付随するパラメータ変化量と見ることができる。統合分布NA の次元iの平均μAi、分散σ2 Aiおよび分布重みWAは、各要素正規分布NA1、NA2、NA3、NA4の次元iの平均μA1i、μA2i、μA3i、μA4i、分散σ2 A1i、σ2 A2i、σ2 A3i、σ2 A4i;、および分布重みWA1、WA2、WA3、WA4を用いて以下の式で得られる。
FIG. 4 is a diagram showing the four acoustic models in FIG. 1 at the state level. Referring to FIG. 4, a diagram illustrating a mechanism in which the parameter of the element probability distribution included in the state S Cl of the phoneme p-at of another clean acoustic model C: 204-C exemplified in FIG. 2 is adjusted. An example different from 3 will be described. In this description, the number of element probability distributions included in each state is four, and each element probability distribution is a multidimensional uncorrelated normal distribution, and the dimension i is illustrated. Even conditions can be easily extended.
First, in the acoustic model parameter change
図5は図1における4つの音響モデルを状態のレベルで示した図である。図5を参照して、図2において例とした別のクリーン音響モデルC:204−Cの音素p−a−tの状態SClに含まれる要素確率分布のパラメータが調整される仕組みについて、図3および図4とは異なった一例を説明する。なお、この説明は、各状態に含まれる要素確率分布の数は4、かつ各要素確率分布は多次元無相関正規分布であり、その次元iについて図示されているものとするが、これ以外の条件であっても容易に拡張することができる。
先ず、音響モデルパラメータ変化量計算部519−Aにおいて、クリーン音響モデルA:504−Aの状態SA1と対応する雑音適応音響モデルB:518−Bの状態SB1から状態SA1の各要素正規分布のパラメータ(平均、分散、分布重み)の変化量を求めるが、この例は、状態SA1における各要素正規分布NA1、NA2、NA3、NA4と状態SB1における各要素正規分布NB1、NB2、NB3、NB4の対応から、状態SA1における各要素正規分布NA1、NA2、NA3、NA4のパラメ一タ変化量(平均、分散、分布重み)を個別に計算しておく。一方、音響モデル構造参照関係決定部520においては、別のクリーン音響モデルC:504−Cの状態SC1とクリーン音響モデルA:404−Aの状態SA1の対応がとれており、更に、状態SC1の各要素正規分布NC1、NC2、NC3、NC4がそれぞれ参照する状態SA1における要素正規分布を決めるが、この参照関係を、分布間距離を基準に決める。ここにおいては、NC1との分布間距離が最も近い状態SA1の要素正規分布としてNA1が選ばれており、以下、同様に、NC2に対してNA2、NC3に対してNA4、NC4に対してNA4が選ばれている。この様に、状態SC1と状態SA1の要素正規分布数が同じであったとしても、必ずしも要素正規分布同士の対応は1対1になるとは限らない。そして、音響モデルパラメータ調整部521において、音響モデルパラメータ変化量計算部519において計算された状態SA1の各要素正規分布NA1、NA2、NA3、NA4のパラメータ変化量と、音響モデル構造参照関係決定部520において決定された状態SC1における各要素正規分布NC1、NC2、NC3、NC4とそれが参照する状態SA1における各要素正規分布NA1、NA2、NA4を基に、状態SC1の各要素正規分布NC1、NC2、NC3、NC4のパラメータ(平均、分散、分布重み)の調整を行い、雑音適応音響モデルD:518−Dの状態SD1の各要素正規分布ND1、ND2、ND3、ND4のパラメータ(平均、分散、分布重み)とする。
FIG. 5 is a diagram showing the four acoustic models in FIG. 1 at the state level. Referring to FIG. 5, a diagram illustrating a mechanism in which parameters of the element probability distribution included in the state S Cl of the phoneme p-at of another clean acoustic model C: 204-C illustrated in FIG. 2 is adjusted. An example different from FIGS. 3 and 4 will be described. In this description, the number of element probability distributions included in each state is four, and each element probability distribution is a multidimensional uncorrelated normal distribution, and the dimension i is illustrated. Even conditions can be easily extended.
First, in the acoustic model parameter change amount calculation unit 519-A, each element normalization from the state S B1 to the state S A1 of the noise adaptive acoustic model B: 518-B corresponding to the state S A1 of the clean acoustic model A: 504-A is performed. distribution parameters (average, variance, distribution weights) is obtaining the amount of change, this example, each element Gaussian distribution in each component normal distribution N A1, N A2, N A3 , N A4 and the state S B1 in the state S A1 From the correspondence of N B1 , N B2 , N B3 , N B4 , the parameter variation (mean, variance, distribution weight) of each element normal distribution N A1 , N A2 , N A3 , N A4 in state S A1 is individually Calculate in advance. On the other hand, in the acoustic model structure reference
図5の例における分布間距離尺度としては、Kullback−Leiblerダイバージェンスを用いることができる。多次元無相関正規分布N1、N2の次元iにおける平均、分散および分布重みをそれぞれ、(μ1i、σ2 1i)、(μ2i、σ2 2i)とすると、N1 、N2 間のKullback−LeiblerダイバージェンスK(N1 、N2 )は、以下の通りに計算することができる。以下、Iは次元数である。 As the distribution distance measure in the example of FIG. 5, Kullback-Leibler divergence can be used. If the mean, variance, and distribution weight in the dimension i of the multidimensional uncorrelated normal distribution N1, N2 are (μ 1i , σ 2 1i ), (μ 2i , σ 2 2i ), respectively, a Kullback between N 1 and N 2 -Leibler divergence K (N 1 , N 2 ) can be calculated as follows: Hereinafter, I is the number of dimensions.
△P(N1、N2→N)=P1+P2−P ・・・・・式(12)
また、図5の例における他の分布間距離尺度としては、分布統合前後の変分ベイズ法に基づく評価関数値の差分を用いることができる。変分ベイズ法に基づく評価関数値については、参考文献(渡部晋治、南泰浩、中村篤、上田修功、“ベイズ的基準を用いた状態共有型HMM構造の選択”、電子情報通信学会論文誌、D-II,Vol.J86-D-II, No.6, pp.776-786, 2003年6月)に開示されている。
ΔP (N 1 , N 2 → N) = P 1 + P 2 −P (12)
In addition, as another inter-distribution distance measure in the example of FIG. 5, a difference between evaluation function values based on the variational Bayes method before and after distribution integration can be used. For evaluation function values based on the variational Bayesian method, refer to the references (Yuji Watanabe, Yasuhiro Minami, Atsushi Nakamura, Nobuo Ueda, “Selection of state-sharing HMM structure using Bayesian criteria”, IEICE Transactions, D-II, Vol. J86-D-II, No. 6, pp. 776-786, June 2003).
以上の通りであって、図1から図5までを参照して説明してきた音響モデル雑音適応化装置を用いれば、既存の雑音適応化の結果を用いて、マルチコンディション音声データなどの雑音を付加された音声データを新たに準備することなく、瞬時に音響モデルの雑音適応を行うことができる。即ち、一例として、多数の女性の雑音のない音声データを用いて学習されたクリーン女声音響モデルの雑音適応化を実施しようとする場合、多数の男性の雑音のない音声データを用いて学習されたクリーン男声音響モデルと、それをマルチコンディション学習により雑音適応化した雑音適応男声音響モデルがあれば、新たに雑音が付加された女声音声データを準備してマルチコンディション学習する必要はなく、男声音響モデルの雑音適応化結果をそのまま用いて瞬時に雑音適応を行うことができる。 As described above, if the acoustic model noise adaptation apparatus described with reference to FIGS. 1 to 5 is used, noise such as multi-condition speech data is added using the result of existing noise adaptation. The noise adaptation of the acoustic model can be performed instantaneously without preparing newly prepared speech data. That is, as an example, when trying to perform noise adaptation of a clean female voice model trained using a large number of female voice-free voice data, it was learned using a large number of male voice-free voice data. If there is a clean male voice acoustic model and a noise-adapted male voice acoustic model that is noise-adapted by multi-condition learning, there is no need to prepare female voice data with newly added noise and perform multi-condition learning. Noise adaptation can be performed instantaneously using the noise adaptation result of the above.
また、雑音適応化によるパラメータの変化量が、話者の個別の音声の特徴などによらないと仮定すれば、図1から図5までのクリーン音響モデルAとしては、多数の話者の大量の音声データを用いて学習した音響モデルでなくとも、例えば、一人の話者の少量の音声データを用いて学習した音響モデルでも差し支えない。この様な少量の音声データで学習された音響モデルであれば、マルチコンディション学習に必要なデータ記憶容量も計算時間も少なく抑えることができ、雑音適応化も容易である。更に簡単化するのであれば、音素HMMとしてmonophone−HMMのみで構成される様なクリーン音響モデルAを用いることもできる。 If it is assumed that the amount of parameter change due to noise adaptation does not depend on the characteristics of the individual speech of the speaker, the clean acoustic model A shown in FIGS. For example, an acoustic model learned using a small amount of speech data of a single speaker may be used instead of the acoustic model learned using speech data. With such an acoustic model learned from a small amount of speech data, the data storage capacity and calculation time required for multi-condition learning can be reduced, and noise adaptation is easy. For further simplification, a clean acoustic model A composed only of a monophone-HMM can be used as the phoneme HMM.
104−A クリーン音響モデルA
104−C 別のクリーン音響モデルC
117 雑音適応化部
118−B 雑音適応音響モデルB
118−D 新規の雑音適応音響モデルD
119 音響モデルパラメータ変化量計算部
120 音響モデル構造参照関係決定部
121 音響モデルパラメータ調整部
104-A Clean acoustic model A
104-C Another clean acoustic model C
117 Noise Adaptation Unit 118-B Noise Adaptive Acoustic Model B
118-D New noise adaptive acoustic model D
119 Acoustic model parameter change
Claims (9)
クリーン音響モデルAから雑音適応音響モデルBへの雑音適応化による各パラメータの変化量を計算し、
雑音のない音声データで学習された別のクリーン音響モデルCの各状態および各分布によりクリーン音響モデルAを参照してその各状態および各分布を決定し、
別のクリーン音響モデルCとクリーン音響モデルAの各状態および各分布の参照関係と、クリーン音響モデルAから雑音適応音響モデルBへの雑音適応化による各パラメータの変化量とを基に別のクリーン音響モデルCの各パラメータを調整して、新規の雑音適応化された音響モデルDを作成することを特徴とする音響モデル雑音適応化方法。 Preparing a clean acoustic model A learned from speech data without noise and a noise adaptive acoustic model B adapted to noise based on the clean acoustic model A;
Calculate the amount of change of each parameter due to noise adaptation from clean acoustic model A to noise adaptive acoustic model B,
With reference to the clean acoustic model A by each state and each distribution of another clean acoustic model C trained with noise-free speech data, each state and each distribution is determined.
Based on the reference relationship between each state and each distribution of another clean acoustic model C and clean acoustic model A and the amount of change in each parameter due to noise adaptation from clean acoustic model A to noise adaptive acoustic model B An acoustic model noise adaptation method characterized by adjusting each parameter of the acoustic model C to create a new noise-adapted acoustic model D.
クリーン音響モデルAを入力してこれを雑音適応化する雑音適応化部を具備し、
クリーン音響モデルAを元に雑音適応化された雑音適応音響モデルBを具備し、
クリーン音響モデルAと雑音適応音響モデルBとを入力して、クリーン音響モデルAの雑音適応化による各パラメータの変化量を計算する音響モデルパラメータ変化量計算部を具備し、
雑音のない音声データで学習された別のクリーン音響モデルCおよびクリーン音響モデルAとを入力し、別のクリーン音響モデルCの各パラメータが参照するクリーン音響モデルAの各パラメータを決定する音響モデル構造参照関係決定部を具備し、
音響モデルパラメータ変化量計算部において計算されたクリーン音響モデルAの雑音適応化による各パラメータの変化量と音響モデル構造参照関係決定部において決定されたクリーン音響モデルAと別のクリーン音響モデルCとの間の参照関係とを入力し、別のクリーン音響モデルCの各パラメータを調整して新規の雑音適応音響モデルDを作成する音響モデルパラメータ調整部を具備することを特徴とする音響モデル雑音適応化装置。 A clean acoustic model A trained with noise-free speech data;
A clean sound model A is input and a noise adapting unit for adapting the noise is provided,
A noise adaptive acoustic model B that is noise-adapted based on the clean acoustic model A is provided,
An acoustic model parameter variation calculation unit that inputs the clean acoustic model A and the noise adaptive acoustic model B and calculates the variation of each parameter due to noise adaptation of the clean acoustic model A,
An acoustic model structure that inputs another clean acoustic model C and clean acoustic model A learned from noise-free speech data and determines each parameter of the clean acoustic model A referenced by each parameter of the other clean acoustic model C A reference relationship determination unit;
The amount of change of each parameter due to noise adaptation of the clean acoustic model A calculated by the acoustic model parameter variation calculation unit and the clean acoustic model A determined by the acoustic model structure reference relationship determination unit and another clean acoustic model C Acoustic model noise adaptation, comprising: an acoustic model parameter adjustment unit that inputs a reference relationship between the parameters and adjusts each parameter of another clean acoustic model C to create a new noise adaptive acoustic model D apparatus.
音響モデルパラメータ変化量計算部は、クリーン音響モデルAから雑音適応音響モデルBへの雑音適応化による各パラメータの変化量を計算するに際して、クリーン音響モデルAの各状態において、分布重みが最も大きい分布のパラメータの変化量を、状態における全ての分布のパラメータ変化量とすることを特徴とする音響モデル雑音適応化装置。 In the acoustic model noise adaptation apparatus according to claim 2,
The acoustic model parameter change amount calculation unit calculates the change amount of each parameter due to noise adaptation from the clean acoustic model A to the noise adaptive acoustic model B, and the distribution having the largest distribution weight in each state of the clean acoustic model A The acoustic model noise adaptation apparatus characterized in that the amount of parameter change is the amount of parameter change of all distributions in the state.
音響モデルパラメータ変化量計算部は、クリーン音響モデルAから雑音適応音響モデルBへの雑音適応化による各パラメータの変化量を計算するに際して、クリーン音響モデルAの各状態と対応する雑音適応音響モデルBの各状態において、状態における全ての分布を統合した分布を作成し、その統合分布のパラメータ変化量を、状態における全ての分布のパラメータ変化量とすることを特徴とする音響モデル雑音適応化装置。 In the acoustic model noise adaptation apparatus according to claim 2,
The acoustic model parameter change amount calculation unit calculates a change amount of each parameter due to noise adaptation from the clean acoustic model A to the noise adaptive acoustic model B, and the noise adaptive acoustic model B corresponding to each state of the clean acoustic model A In each of the states, an acoustic model noise adaptation device that creates a distribution in which all the distributions in the state are integrated and sets the parameter change amount of the integrated distribution as the parameter change amount of all the distributions in the state.
音響モデル構造参照関係決定部は、別のクリーン音響モデルCの各状態および各分布が参照するクリーン音響モデルAの各状態および各分布を決定するに際して、別のクリーン音響モデルCの各状態と対応するクリーン音響モデルAの各状態における分布同士の対応を、分布間距離の近さを基準として決定することを特徴とする音響モデル雑音適応化装置。 In the acoustic model noise adaptation apparatus according to any one of claims 2 to 4,
The acoustic model structure reference relationship determining unit corresponds to each state of another clean acoustic model C when determining each state and each distribution of the clean acoustic model A that each state and distribution of another clean acoustic model C refers to. An acoustic model noise adaptation device, wherein correspondence between distributions in each state of a clean acoustic model A is determined based on the proximity of the distance between the distributions.
分布間距離尺度として、Kullback−Leiblerダイバージェンスを用いることを特徴とする音響モデル雑音適応化装置。 In the acoustic model noise adaptation apparatus according to any one of claims 2 to 5,
An acoustic model noise adaptation device using Kullback-Leibler divergence as a distance measure between distributions.
分布間距離尺度として、バタチャリヤ距離を用いることを特徴とする音響モデル雑音適応化装置。 In the acoustic model noise adaptation apparatus according to any one of claims 2 to 5,
An acoustic model noise adapting device characterized by using a batcha rear distance as a distance measure between distributions.
分布間距離尺度として、分布統合前後の尤度差分を用いることを特徴とする音響モデル雑音適応化装置。 In the acoustic model noise adaptation apparatus according to any one of claims 2 to 5,
An acoustic model noise adaptation apparatus using a likelihood difference between before and after distribution integration as a distance measure between distributions.
分布間距離尺度として、分布統合前後の変分ペイズ法に基づく評価関数値の差分を用いることを特徴とする音響モデル雑音適応化装置。
In the acoustic model noise adaptation apparatus according to any one of claims 2 to 5,
An acoustic model noise adaptation device using a difference between evaluation function values based on a variational Pais method before and after distribution integration as a distance measure between distributions.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004156037A JP4510517B2 (en) | 2004-05-26 | 2004-05-26 | Acoustic model noise adaptation method and apparatus for implementing the method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004156037A JP4510517B2 (en) | 2004-05-26 | 2004-05-26 | Acoustic model noise adaptation method and apparatus for implementing the method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005338358A true JP2005338358A (en) | 2005-12-08 |
JP4510517B2 JP4510517B2 (en) | 2010-07-28 |
Family
ID=35492021
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004156037A Expired - Fee Related JP4510517B2 (en) | 2004-05-26 | 2004-05-26 | Acoustic model noise adaptation method and apparatus for implementing the method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4510517B2 (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007248742A (en) * | 2006-03-15 | 2007-09-27 | Nippon Telegr & Teleph Corp <Ntt> | Sound model adaptation apparatus, sound model adaptation method, sound model adaptation program and its recording medium |
JP2008122927A (en) * | 2006-09-13 | 2008-05-29 | Honda Motor Co Ltd | Speech recognition method for robot under motor noise thereof |
US8107735B2 (en) | 2007-04-10 | 2012-01-31 | Denso Corporation | Three dimensional shape reconstitution device and estimation device |
CN117706376A (en) * | 2024-02-04 | 2024-03-15 | 深圳海辰储能科技有限公司 | Battery capacity prediction method and device, electronic equipment and storage medium |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020241923A1 (en) * | 2019-05-29 | 2020-12-03 | 엘지전자 주식회사 | Artificial intelligence device for predicting performance of speech recognition model in user environment, and method therefor |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0822296A (en) * | 1994-07-07 | 1996-01-23 | Nippon Telegr & Teleph Corp <Ntt> | Pattern recognition method |
JPH08248976A (en) * | 1995-03-10 | 1996-09-27 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | Speaker adaptation device and speech recognizer |
JPH0990981A (en) * | 1995-09-22 | 1997-04-04 | Nippon Telegr & Teleph Corp <Ntt> | Model learning method for pattern recognition |
JPH09114483A (en) * | 1995-10-23 | 1997-05-02 | Sanyo Electric Co Ltd | Learning device for hmm |
JPH10149191A (en) * | 1996-09-20 | 1998-06-02 | Nippon Telegr & Teleph Corp <Ntt> | Method and device for adapting model and its storage medium |
JPH10161692A (en) * | 1996-12-03 | 1998-06-19 | Canon Inc | Voice recognition device, and method of recognizing voice |
JP2000010582A (en) * | 1998-06-19 | 2000-01-14 | Nec Corp | Speech recognizing device |
JP2002268675A (en) * | 2001-03-13 | 2002-09-20 | Nec Corp | Voice recognition device |
JP2003263186A (en) * | 2002-03-08 | 2003-09-19 | Ricoh Co Ltd | Voice recognition device, voice recognition method, and recording medium with the voice recognition program recorded thereon |
JP2004109464A (en) * | 2002-09-18 | 2004-04-08 | Pioneer Electronic Corp | Device and method for speech recognition |
-
2004
- 2004-05-26 JP JP2004156037A patent/JP4510517B2/en not_active Expired - Fee Related
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0822296A (en) * | 1994-07-07 | 1996-01-23 | Nippon Telegr & Teleph Corp <Ntt> | Pattern recognition method |
JPH08248976A (en) * | 1995-03-10 | 1996-09-27 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | Speaker adaptation device and speech recognizer |
JPH0990981A (en) * | 1995-09-22 | 1997-04-04 | Nippon Telegr & Teleph Corp <Ntt> | Model learning method for pattern recognition |
JPH09114483A (en) * | 1995-10-23 | 1997-05-02 | Sanyo Electric Co Ltd | Learning device for hmm |
JPH10149191A (en) * | 1996-09-20 | 1998-06-02 | Nippon Telegr & Teleph Corp <Ntt> | Method and device for adapting model and its storage medium |
JPH10161692A (en) * | 1996-12-03 | 1998-06-19 | Canon Inc | Voice recognition device, and method of recognizing voice |
JP2000010582A (en) * | 1998-06-19 | 2000-01-14 | Nec Corp | Speech recognizing device |
JP2002268675A (en) * | 2001-03-13 | 2002-09-20 | Nec Corp | Voice recognition device |
JP2003263186A (en) * | 2002-03-08 | 2003-09-19 | Ricoh Co Ltd | Voice recognition device, voice recognition method, and recording medium with the voice recognition program recorded thereon |
JP2004109464A (en) * | 2002-09-18 | 2004-04-08 | Pioneer Electronic Corp | Device and method for speech recognition |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007248742A (en) * | 2006-03-15 | 2007-09-27 | Nippon Telegr & Teleph Corp <Ntt> | Sound model adaptation apparatus, sound model adaptation method, sound model adaptation program and its recording medium |
JP4571921B2 (en) * | 2006-03-15 | 2010-10-27 | 日本電信電話株式会社 | Acoustic model adaptation apparatus, acoustic model adaptation method, acoustic model adaptation program, and recording medium thereof |
JP2008122927A (en) * | 2006-09-13 | 2008-05-29 | Honda Motor Co Ltd | Speech recognition method for robot under motor noise thereof |
US8107735B2 (en) | 2007-04-10 | 2012-01-31 | Denso Corporation | Three dimensional shape reconstitution device and estimation device |
CN117706376A (en) * | 2024-02-04 | 2024-03-15 | 深圳海辰储能科技有限公司 | Battery capacity prediction method and device, electronic equipment and storage medium |
CN117706376B (en) * | 2024-02-04 | 2024-05-24 | 深圳海辰储能科技有限公司 | Battery capacity prediction method and device, electronic equipment and storage medium |
Also Published As
Publication number | Publication date |
---|---|
JP4510517B2 (en) | 2010-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5418223B2 (en) | Speech classification device, speech classification method, and speech classification program | |
Gales | Model-based techniques for noise robust speech recognition | |
US7065488B2 (en) | Speech recognition system with an adaptive acoustic model | |
JP2006215564A (en) | Method and apparatus for predicting word accuracy in automatic speech recognition systems | |
US6327565B1 (en) | Speaker and environment adaptation based on eigenvoices | |
WO2010128560A1 (en) | Voice recognition device, voice recognition method, and voice recognition program | |
Gales et al. | Model-based approaches to handling additive noise in reverberant environments | |
JP5713818B2 (en) | Noise suppression device, method and program | |
JP2751856B2 (en) | Pattern adaptation method using tree structure | |
JP4510517B2 (en) | Acoustic model noise adaptation method and apparatus for implementing the method | |
JP5740362B2 (en) | Noise suppression apparatus, method, and program | |
CN102237082B (en) | Self-adaption method of speech recognition system | |
Kurian | A review on technological development of automatic speech recognition | |
KR20020020237A (en) | Method for recognizing speech | |
JP2007078943A (en) | Acoustic score calculating program | |
GB2480084A (en) | An adaptive speech processing system | |
JP5104732B2 (en) | Extended recognition dictionary learning device, speech recognition system using the same, method and program thereof | |
JPH08110792A (en) | Speaker adaptation device and speech recognition device | |
JP6612796B2 (en) | Acoustic model learning device, speech recognition device, acoustic model learning method, speech recognition method, acoustic model learning program, and speech recognition program | |
JP2000259198A (en) | Device and method for recognizing pattern and providing medium | |
JP4004368B2 (en) | Speech recognition system | |
JP2005321660A (en) | Statistical model creating method and device, pattern recognition method and device, their programs and recording medium | |
Chaurasiya et al. | Ambience inhaling: Speech noise inhaler in mobile robots using deep learning | |
JP4571921B2 (en) | Acoustic model adaptation apparatus, acoustic model adaptation method, acoustic model adaptation program, and recording medium thereof | |
JP3251005B2 (en) | Standard pattern creation method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060725 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20060725 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090202 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090519 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090715 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100420 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100430 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130514 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140514 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |