JP2005338358A - Acoustic model noise adapting method and device implementing same method - Google Patents

Acoustic model noise adapting method and device implementing same method Download PDF

Info

Publication number
JP2005338358A
JP2005338358A JP2004156037A JP2004156037A JP2005338358A JP 2005338358 A JP2005338358 A JP 2005338358A JP 2004156037 A JP2004156037 A JP 2004156037A JP 2004156037 A JP2004156037 A JP 2004156037A JP 2005338358 A JP2005338358 A JP 2005338358A
Authority
JP
Japan
Prior art keywords
acoustic model
noise
clean
state
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004156037A
Other languages
Japanese (ja)
Other versions
JP4510517B2 (en
Inventor
Atsunori Ogawa
厚徳 小川
Satoru Kobashigawa
哲 小橋川
Satoshi Takahashi
敏 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004156037A priority Critical patent/JP4510517B2/en
Publication of JP2005338358A publication Critical patent/JP2005338358A/en
Application granted granted Critical
Publication of JP4510517B2 publication Critical patent/JP4510517B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a method and device for acoustic model noise adaptation that perform noise adaptation of a different acoustic model based upon an existent acoustic model noise adaptation result. <P>SOLUTION: Disclosed are the method and device for acoustic model noise adaptation such that: a clean acoustic model A and a noise-adapted acoustic model B obtained through noise adaptation based upon the clean acoustic model A are prepared; variation quantities of respective parameters due to noise adaptation from the clean acoustic model A to noise-adapted acoustic model B are calculated; respective states and respective distributions of the clean acoustic model A are determined by referring to the clean acoustic model A with respective states and respective distributions of another clean acoustic model C; and respective parameters of the clean acoustic model C are adjusted based upon the variation quantities of the parameters due to the noise adaptation from the clean acoustic model A to the noise-adapted acoustic model B to generate a new noise-adapted acoustic model D. <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

この発明は、音響モデル雑音適応化方法およびこの方法を実施する装置に関し、特に、既存の音響モデル雑音適応化結果に基づいて別の音響モデルの雑音適応化を低コストかつ高速に実行する音響モデル雑音適応化方法およびこの方法を実施する装置に関する。   The present invention relates to an acoustic model noise adaptation method and an apparatus for performing the method, and in particular, an acoustic model that performs noise adaptation of another acoustic model at low cost and at high speed based on an existing acoustic model noise adaptation result. The present invention relates to a noise adaptation method and an apparatus for implementing the method.

先ず、図を参照して、音声認識装置について説明しておく。
図6において、入力音声601は、音声分析部602において特徴ベクトル603の時系列に変換され、探索処理部605に入力される。探索処理部605においては、音響モデル604を用いて、文法606で表現される単語或いは単語列と特徴ベクトル603の時系列との間の照合、即ち、探索処理が行われ、最も尤度が高い単語或いは単語列が認識結果607として出力される。
音声分析部602における音声分析方法としてよく用いられるのは、ケプストラム分析であり、特徴量としては、MFCC(Mel Frequency Cepstral Coefficient)、△MFCC、△△MFCC、対数パワー、△対数パワーその他があり、それらが、10〜100次元程度の特徴量ベクトルを構成する。分析フレーム幅30ms程度、分析フレームシフト幅10ms程度で分析が実行される。音響モデル604は、先のMFCCその他の音声特徴量を適切なカテゴリで標準パターンとして保持したものであり、入力音声の或る区間の特徴量に対して、各標準パターンとの音響的な近さを尤度として計算し、それがどのカテゴリに属するかを推定する。現在、音響モデル604としては、確率・統計理論に基づいてモデル化された隠れマルコフモデル(Hidden Markov Model、略して、HMM)が汎用されている。通常、HMMは音素カテゴリ単位で作成され、音素HMMの集合として一つの音響モデルが構築される。
First, the speech recognition apparatus will be described with reference to the drawings.
In FIG. 6, an input speech 601 is converted into a time series of feature vectors 603 by the speech analysis unit 602 and input to the search processing unit 605. The search processing unit 605 uses the acoustic model 604 to perform collation between a word or a word string expressed in the grammar 606 and the time series of the feature vector 603, that is, search processing is performed, and has the highest likelihood. A word or a word string is output as the recognition result 607.
A cepstrum analysis is often used as a speech analysis method in the speech analysis unit 602. As feature amounts, there are MFCC (Mel Frequency Cepstral Coefficient), ΔMFCC, ΔΔMFCC, logarithmic power, Δlogarithmic power, and the like. They constitute a feature vector of about 10 to 100 dimensions. The analysis is executed with an analysis frame width of about 30 ms and an analysis frame shift width of about 10 ms. The acoustic model 604 holds the previous MFCC and other speech feature quantities as standard patterns in appropriate categories, and the acoustic proximity of each standard pattern to the feature quantities in a certain section of the input speech. Is estimated as a likelihood and to which category it belongs. At present, as the acoustic model 604, a hidden Markov model (HMM for short) modeled on the basis of probability / statistical theory is widely used. Usually, an HMM is created for each phoneme category, and one acoustic model is constructed as a set of phoneme HMMs.

音素HMMの種類としては、当該音素に先行および後続する音素の両方を音素環境として考慮しないmonophone−HMM(例えば、*−a−*は、音素aのmonophone−HMMと言う。*は任意の音素を表す)、当該音素に先行する音素のみ音素環境として考慮する先行音素環境依存biphone−HMM(例えば、p−a−*は、先行音素がpである音素aの先行音素環境依存biphone−HMM、と言う)、当該音素に後続する音素のみ音素環境として考慮する後続音素環境依存biphone−HMM(例えば、*−a−tは、後続音素がtである音素aの後続音素環境依存biphone−HMMと言う)、当該音素に先行および後続する音素の両方を音素環境として考慮するtriphone−HMM(例えば、p−a−tは、先行音素がp、後続音素がtである音素aのtriphone−HMM)が最もよく用いられる。   As a type of phoneme HMM, a monophone-HMM that does not consider both phonemes preceding and following the phoneme as a phoneme environment (for example, * -a- * is a monophone-HMM of phoneme a. * Is an arbitrary phoneme. A phoneme environment-dependent biphone-HMM in which only the phoneme preceding the phoneme is considered as the phoneme environment (for example, pa- * is the phoneme environment-dependent biphone-HMM of the phoneme a whose preceding phoneme is p, The subsequent phoneme environment dependent biphone-HMM in which only the phoneme following the phoneme is considered as the phoneme environment (for example, * -at is the subsequent phoneme environment dependent biphone-HMM of the phoneme a whose subsequent phoneme is t) Triphone-HMM that considers both phonemes preceding and following the phoneme as the phoneme environment (e.g., p-a-t is a triphone-HM of phoneme a having a preceding phoneme of p and a subsequent phoneme of t) ) It is most often used.

また、音素HMMが表現する音素カテゴリの種類については、音響モデルの学習データに依存するが、例えば、t−t−tの如く日本語の音素連鎖としてあり得ないものは含まれないので、一般的には、数千〜数万種類程度になる。
音響モデル604の構造を図7を参照して説明する。
先ず、図7に示される如く、状態Sが混合確率分布Mとして表現される。混合確率分布の各要素分布としては、離散確率分布と連続確率分布があるが、現在、最もよく用いられているのは、連続確率分布の一つである多次元正規(ガウス)分布であり、その内でも次元間の相関がない(共分散行列の対角成分が0である)多次元無相関正規分布が最もよく用いられている。多次元正規分布の各次元は、先の特徴量ベクトルの各次元に対応する。図7においては、状態Sが4つの多次元正規分布を要素分布とする多次元混合正規分布Mとして表現されている。図7においては、特徴量ベクトルの或る次元iについて示しているが、特徴量ベクトルの各次元について同様に表現される。図7に示される状態の数個〜十数個程度の確率連鎖によって、音素HMMが構築される。音素HMMが、幾つの状態の如何なる確率連鎖によって構築されるかに関しては、様々なバリエーションがある。また、音素HMM毎に異なる構造をとることもある。現在、最も一般的に用いられている構造は、例えば、図8に示す音素HMMの如き3状態のleft−to−right型HMMと呼ばれるもので、3つの状態S1 (第1状態)、S2 (第2状態)、S3 (第3状態)を左から右に並べたものであり、状態の確率連鎖(状態遷移)としては、自分自身への遷移(自己遷移)S1 →S1 、S2 →S2 、S3 →S3 と、次状態への遷移S1 →S2 、S2 →S3 から成る。音響モデル中の全ての音素HMMがこの3状態left−to−right型HMMの構造をとることが多い。
In addition, although the type of phoneme category expressed by the phoneme HMM depends on the learning data of the acoustic model, it does not include, for example, a phoneme chain that cannot be a Japanese phoneme chain such as ttt. Actually, it is about several thousand to several tens of thousands.
The structure of the acoustic model 604 will be described with reference to FIG.
First, as shown in FIG. 7, the state S is expressed as a mixed probability distribution M. Each component distribution of the mixed probability distribution includes a discrete probability distribution and a continuous probability distribution. Currently, the most commonly used is a multidimensional normal (Gaussian) distribution, which is one of the continuous probability distributions. Among them, a multidimensional uncorrelated normal distribution having no correlation between dimensions (the diagonal component of the covariance matrix is 0) is most often used. Each dimension of the multidimensional normal distribution corresponds to each dimension of the previous feature vector. In FIG. 7, the state S is represented as a multidimensional mixed normal distribution M having four multidimensional normal distributions as element distributions. In FIG. 7, a certain dimension i of the feature quantity vector is shown, but each dimension of the feature quantity vector is similarly expressed. A phoneme HMM is constructed by a probability chain of several to about a dozen states in the state shown in FIG. There are various variations on how many phonetic HMMs are built by what probability chain. Also, the phoneme HMM may have a different structure. At present, the most commonly used structure is called a three-state left-to-right type HMM such as the phoneme HMM shown in FIG. 8, and has three states S 1 (first state), S 2 (second state) and S 3 (third state) are arranged from left to right, and the state probability chain (state transition) is transition to itself (self-transition) S 1 → S 1 , S 2 → S 2 , S 3 → S 3 and transition to the next state S 1 → S 2 , S 2 → S 3 . All phoneme HMMs in an acoustic model often take the structure of this three-state left-to-right type HMM.

図8を参照して音素HMMを用いた尤度計算について説明する。
図8の音素HMMに、或る特徴ベクトルの時系列が入力されたときの尤度計算について解説する。例えば、6フレーム分の特徴量ベクトルの時系列X=X1 、X2 、X3 、X4 、X5 、X6 が、音素HMMの或る一つの状態遷移系列S=S1 →S1 →S2 →S2 →S3 →S3 から出力される確率(尤度)P(X|S、HMM)は、以下の通りに計算される。
P(X|S、HMM)=b1(X1)a111(X2)a122(X3)a222(X4)a233(X5)a333(X6)・・・・・式(1)
ここで、ajkは、状態Sjから状態Skへの遷移確率である。また、bj(Xt)は、時刻t(t番目のフレーム)における特徴ベクトルXtが状態Sjを表現する混合正規分布Mjから出力される確率であり、混合正規分布Mjを構成するm番目の正規分布の出力確率Pjm(Xt)を用いて以下の通りに計算される。
The likelihood calculation using the phoneme HMM will be described with reference to FIG.
The likelihood calculation when a time series of a certain feature vector is input to the phoneme HMM in FIG. 8 will be described. For example, the time series X = X 1 , X 2 , X 3 , X 4 , X 5 , X 6 of feature quantity vectors for 6 frames is one state transition sequence S = S 1 → S 1 of the phoneme HMM. The probability (likelihood) P (X | S, HMM) output from S 2 → S 2 → S 3 → S 3 is calculated as follows.
P (X | S, HMM) = b 1 (X 1 ) a 11 b 1 (X 2 ) a 12 b 2 (X 3 ) a 22 b 2 (X 4 ) a 23 b 3 (X 5 ) a 33 b 3 (X 6 ) ... Formula (1)
Here, a jk is a transition probability from the state S j to the state S k . B j (X t ) is a probability that the feature vector X t at time t (t-th frame) is output from the mixed normal distribution M j representing the state S j , and constitutes the mixed normal distribution M j . The output probability P jm (Xt) of the mth normal distribution is calculated as follows.

Figure 2005338358
ここで、Mjは混合正規分布Mjを構成する正規分布の数(混合数)、Wjmは混合正規分布Mjを構成するm番目の正規分布の分布重みである。Wjmについては以下の式を満足する。
Figure 2005338358
Here, M j is the number of normal distributions constituting the mixed normal distribution M j (number of mixtures), and W jm is the distribution weight of the mth normal distribution constituting the mixed normal distribution M j . For W jm , the following equation is satisfied.

Figure 2005338358
また、混合正規分布Mjを構成する正規分布が多次元無相関正規分布の場合、Pjm(Xt)は以下の通りに計算される。
Figure 2005338358
When the normal distribution constituting the mixed normal distribution M j is a multidimensional uncorrelated normal distribution, P jm (X t ) is calculated as follows.

Figure 2005338358
ここで、μjmi、σ2 jmiは混合正規分布Mj を構成するm番目の多次元無相関正規分布の次元iにおける平均値、分散である。Xtiは、特徴ベクトルXtの次元iの値である。Iは特徴ベクトル(多次元無相関正規分布)の次元数である。
以上の尤度計算は、或る一つの状態遷移系列Sに対するものであるが、このような状態遷移系列は他にもあげることができる。このような状態遷移系列全てに対して、特徴ベクトルの時系列Xを出力する確率を計算し、それらを加算したものを音素HMMに特徴ベクトルの時系列Xが入力されたときの尤度とする方法はトレリス(trellis)アルゴリズムと呼ばれる。一方、全ての状態遷移系列のなかで最も高い尤度を与える状態遷移系列を特徴ベクトルの時系列によりフレーム単位で逐次的に求め、最終フレームに到達したときの尤度を音素HMMに特徴ベクトルの時系列Xが入力されたときの尤度とする方法をビタービ(Viterbi)アルゴリズムという。一般的には、トレリスアルゴリズムと比較して計算量を大幅に削減することができるビタービアルゴリズムが用いられることが多い。
Figure 2005338358
Here, μ jmi and σ 2 jmi are the average value and variance in the dimension i of the m-th multidimensional uncorrelated normal distribution constituting the mixed normal distribution M j . X ti is the value of dimension i of feature vector X t . I is the number of dimensions of the feature vector (multidimensional uncorrelated normal distribution).
The above likelihood calculation is for a certain state transition sequence S, but other state transition sequences can be mentioned. For all such state transition sequences, the probability of outputting the feature vector time series X is calculated, and the sum of these is used as the likelihood when the feature vector time series X is input to the phoneme HMM. The method is called the trellis algorithm. On the other hand, the state transition sequence that gives the highest likelihood among all the state transition sequences is sequentially obtained in units of frames by the time series of feature vectors, and the likelihood when the final frame is reached is stored in the phoneme HMM. A method of setting the likelihood when the time series X is input is called a Viterbi algorithm. In general, a Viterbi algorithm that can significantly reduce the amount of calculation compared to the trellis algorithm is often used.

また、以上の尤度計算は、或る一つの音素HMMに対するものであるが、実際には、探索処理部605において、探索処理を行う前に、音素HMMを連結して文法606で表現される単語或いは単語列のHMMのネットワーク(探索ネットワーク)が作成され、そして、入力音声の特徴ベクトル603の時系列と探索ネットワークで表現される単語或いは単語列との照合が行われ(探索処理)、最も尤度が高い単語或いは単語列が認識結果607として出力される。
また、以上の尤度計算では、確率値をそのまま扱ったが、実際には、アンダーフローを防ぐために、確率値の対数をとって計算を行う。
Further, the above likelihood calculation is for a certain phoneme HMM, but actually, the search processing unit 605 connects the phoneme HMMs and expresses them in the grammar 606 before performing the search process. An HMM network (search network) of words or word strings is created, and the time series of the feature vector 603 of the input speech is compared with the words or word strings expressed in the search network (search process). A word or word string having a high likelihood is output as the recognition result 607.
Further, in the above likelihood calculation, the probability value is handled as it is, but actually, in order to prevent underflow, the calculation is performed by taking the logarithm of the probability value.

また、音響モデル604の各種パラメータ(状態遷移確率ajk、分布重みWjm、正規分布の各次元の平均μjmiおよび分散σjmi 2)の推定アルゴリズムとしては、バウムーウェルチ(Baum−Welch)アルゴリズムが最もよく用いられる。また、一つの音響モデルの学習(パラメータ推定)には、数十〜数千時間という大量の音声データとその発声内容ラベルデータが用いられる(非特許文献1 参照)。
ところで、以上の音声認識装置の従来例が実際に使用される環境には様々な種類の雑音が存在しており、これが音声認識精度の低下を招く要因となっている。雑音は大きく分けて二種類に分類することができる。一つは、音声に畳み込みの関係で影響を及ぽす乗算性歪みと呼ばれるもので、例えば、話者の口からマイクまでの空間の伝達特性、電話回線の伝達特性である。もう一つは、伝達特性の影響を受けた音声に加算の関係で影響を及ぼす加算性雑音と呼ばれるもので、例えば、オフィスにおいては、計算機が出す雑音、紙をめくる音の如き雑音であり、自動車内においてはエンジンの回転音を挙げることができる。時刻tにおける雑音のない、クリーンな音声をs(t)、乗法性歪み(伝達特性)をh(t)、加算性雑音をn(t)とすると、雑音のある音声のy(t)は以下の式で与えられる。以下で、※は畳み込みを表す。
In addition, as an estimation algorithm for various parameters (state transition probability a jk , distribution weight W jm , average μ jmi and variance σ jmi 2 ) of each dimension of the acoustic model 604, a Baum-Welch algorithm is used. Is most often used. In addition, a large amount of speech data of several tens to thousands of hours and utterance content label data are used for learning (parameter estimation) of one acoustic model (see Non-Patent Document 1).
By the way, there are various types of noise in an environment where the above-described conventional example of the speech recognition apparatus is actually used, which causes a decrease in speech recognition accuracy. Noise can be broadly classified into two types. One is called multiplicative distortion, which affects speech due to convolution, and includes, for example, the transmission characteristics of the space from the speaker's mouth to the microphone and the transmission characteristics of the telephone line. The other is called additive noise, which affects the sound affected by the transfer characteristics due to the addition. For example, in the office, it is noise generated by a computer, noise such as paper turning, In the automobile, an engine rotation sound can be mentioned. When s (t) is a clean voice without noise at time t, h (t) is multiplicative distortion (transfer characteristic), and n (t) is additive noise, y (t) of the noisy voice is It is given by the following formula. In the following, * indicates convolution.

y(t)=s(t)※h(t)+n(t)・・・・・式(5)
近年、音声認識装置の雑音対策として、音響モデルのマルチコンディション(マルチスタイル)学習が研究されており、非常に単純でありながら、様々な雑音への耐性の高い雑音適応音響モデルが得られる学習方法として注目されている。
音響モデルのマルチコンディション学習について図を参照して解説する。
図9は音響モデルのマルチコンディション学習の流れを図示したものである。先ず、雑音のないクリーン音声データ908とその発声内容ラベルデータ909を用いて音響モデル学習部910によりクリーン音響モデル904を作成しておく。また、音声認識装置の使用環境に存在する雑音の情報として、乗算性歪みを表す伝達特性データ911と加算性雑音データを表す雑音データ912をそれぞれ想定される分だけ組み合わせで準備しておく。ここにおいては、N個の伝達特性データ911−1〜911−Nと雑音データ912−1〜912−Nの組み合わせがあるものとする。そして、クリーン音声データ908に対して、伝達特性畳み込み部913において伝達特性データ911を畳み込み、その後、雑音加算部914において雑音データ912を加算する。この操作をN個の伝達特性データ911と雑音データ912の組み合わせ全てに対して行い、それらの集合としてマルチコンディション音声データ915が作成される。元のクリーン音声データ908もマルチコンディション音声データ915に含める場合があり、ここにおいてはその様にしている。次に、音響モデル追加学習部916において、マルチコンディション音声データ915と発声内容ラベルデータ909を用いて、クリーン音響モデル904に対して、追加学習により音響モデルの学習を行い、その結果として雑音適応音響モデル918が作成される。クリーン音響モデル904に対する追加学習ではなく、マルチコンディション音声データ915を用いて最初から雑音適応音響モデル918を学習する方法も考えられるが、ここにおいては、追加学習を行うものとする。なお、追加学習であるため、クリーン音響モデル904と雑音適応音響モデル918の状態連鎖構造、状態における確率分布数を含む構造は等しい。
y (t) = s (t) * h (t) + n (t) (5)
In recent years, multi-condition (multi-style) learning of acoustic models has been studied as a noise countermeasure for speech recognition devices, and a learning method that can obtain a noise adaptive acoustic model that is very simple but highly resistant to various noises. It is attracting attention as.
The acoustic model multi-condition learning is explained with reference to the figure.
FIG. 9 illustrates the flow of multi-condition learning of an acoustic model. First, a clean acoustic model 904 is created by the acoustic model learning unit 910 using clean speech data 908 without noise and utterance content label data 909. Also, as information on noise existing in the environment in which the speech recognition apparatus is used, transfer characteristic data 911 representing multiplicative distortion and noise data 912 representing additive noise data are prepared in combinations as much as possible. Here, it is assumed that there are combinations of N pieces of transfer characteristic data 911-1 to 911-N and noise data 912-1 to 912-N. Then, the transfer characteristic convolution unit 913 convolves the clean sound data 908 with the transfer characteristic data 911, and then the noise addition unit 914 adds the noise data 912. This operation is performed on all combinations of N pieces of transfer characteristic data 911 and noise data 912, and multi-condition audio data 915 is created as a set of them. The original clean audio data 908 may also be included in the multi-condition audio data 915, which is the case here. Next, in the acoustic model additional learning unit 916, the acoustic model is learned by additional learning for the clean acoustic model 904 using the multi-condition audio data 915 and the utterance content label data 909, and as a result, noise adaptive acoustics are obtained. A model 918 is created. A method for learning the noise adaptive acoustic model 918 from the beginning using the multi-condition audio data 915 instead of the additional learning for the clean acoustic model 904 is also conceivable, but here, additional learning is performed. In addition, since it is additional learning, the structure including the state chain structure and the probability distribution number in the state of the clean acoustic model 904 and the noise adaptive acoustic model 918 are equal.

上述の通りにして作成された雑音適応音響モデル918を用いることにより、想定した全ての雑音環境下で高い認識精度を得ることがでぎる。マルチコンディション学習に関する従来の実験報告としては、乗算性歪みはない状態で、地下鉄、自動車内、レストランなど加算性雑音のみを想定したもの(非特許文献2 参照)、自動車内の雑音環境で、マイクをサンバイザーまたは前方室内ランプの位置に設置するため、乗算性歪みは話者の口からサンバイザーまたは前方室内ランプまでの空間伝達特性の2種類、加算性雑音として、アイドリング時、一般道路走行時、高速道路走行時などいくっかの雑音を想定したもの(非特許文献3 参照)、電話音声の認識において、様々な電話機の周波数特性による乗算性歪みと、幾つかのSN比の展示会場騒音を想定したもの(非特許文献4 参照)その他がある。
財団法人 電子情報通信学会編、中川 聖一 著 『確率モデルによる音声認識』 J.C.Segura,A.de la Torre,M.C.Benitez,A.M.Peinado,“Model-based compensation of the additivenoise for continuous speech recognition.Experiments using the AURORA II database and tasks”,Proc. EUROSPEECH' 2001, vol.1, pp.221-24, Scandinavia,2001 滝口哲也、西村雅史、“車内音声認識におけるマルチスタイル学習法の効果について”、日本音響学会2001年秋季研究発表会講演論文集、1−Q−8、pp.155−156 國枝伸行、木村達也、石田明、“Multi-Style学習で作成した電話音声認識向け音響モデルの評価−SN比と電話機特性に対する効果−”
By using the noise adaptive acoustic model 918 created as described above, high recognition accuracy can be obtained under all assumed noise environments. As a conventional experimental report on multi-condition learning, there is no multiplicative distortion, assuming only additive noise such as in a subway, in a car, or a restaurant (see Non-Patent Document 2). Is installed at the position of the sun visor or the front room lamp, so the multiplicative distortion has two types of spatial transfer characteristics from the speaker's mouth to the sun visor or the front room lamp. Assuming some noise when driving on an expressway (see Non-Patent Document 3), in the recognition of telephone speech, multiplicative distortion due to the frequency characteristics of various telephones and noise in the exhibition hall with several signal-to-noise ratios (See Non-Patent Document 4) and others.
Seiichi Nakagawa, “The Speech Recognition by Stochastic Model”, edited by The Institute of Electronics, Information and Communication Engineers JCSegura, A. de la Torre, MCBenitez, AM Peinado, “Model-based compensation of the additivenoise for continuous speech recognition. Experiences using the AURORA II database and tasks”, Proc. EUROSPEECH '2001, vol.1, pp.221-24 , Scandinavia, 2001 Tetsuya Takiguchi, Masafumi Nishimura, “Effects of multi-style learning method on in-car speech recognition”, Proceedings of the Acoustical Society of Japan 2001 Autumn Meeting, 1-Q-8, pp. 155-156 Nobuyuki Kunieda, Tatsuya Kimura, Akira Ishida, “Evaluation of an acoustic model for telephone speech recognition created by Multi-Style learning: effect on SN ratio and telephone characteristics”

上述した通り、音響モデルのマルチコンディション学習は非常に単純な方法でありながら、様々な雑音への耐性の高い雑音適応音響モデルが得られる学習方法である、しかし、図9に示した通り、その学習の過程において、想定する雑音の種類に応じて音声データを準備して使用するので、データ記憶容量と計算時間が大幅に増大する。例えば、想定する雑音の種類がN種類であれば、クリーン音声のみでクリーン音響モデルを学習する場合と比較してN倍のデータ記憶容量と計算時間が必要となる。元々、音響モデルの学習はデータ記憶容量および計算時間に関してコストの高い作業であるが、マルチコンディション学習ではそのコストが更に大幅に高くなり、これは望ましいことではない。   As described above, multi-condition learning of an acoustic model is a very simple method, but is a learning method capable of obtaining a noise adaptive acoustic model having high resistance to various noises. However, as shown in FIG. In the learning process, voice data is prepared and used according to the type of noise assumed, so that the data storage capacity and the calculation time are significantly increased. For example, if N types of noises are assumed, N times as much data storage capacity and calculation time are required as compared with the case of learning a clean acoustic model using only clean speech. Originally, learning an acoustic model is a costly task in terms of data storage capacity and computation time, but multi-condition learning is much more expensive, which is undesirable.

この発明は、マルチコンディション学習にあるコストが高くなるという問題点に鑑みてなされたものであり、既存の雑音適応化の結果を用いて、マルチコンディション音声データなどの雑音を付加された音声データを新たに準備することなく、音響モデルの雑音適応を行うことができる音響モデル雑音適応化方法およびこの方法を実施する装置を提供することをその目的としている。   The present invention has been made in view of the problem that the cost for multi-condition learning becomes high, and using existing noise adaptation results, noise data such as multi-condition audio data is added. An object of the present invention is to provide an acoustic model noise adaptation method capable of performing noise adaptation of an acoustic model without newly preparing, and an apparatus for implementing the method.

請求項1:雑音のない音声データで学習されたクリーン音響モデルA:104−Aと当該クリーン音響モデルA:104Aを元に雑音適応化された雑音適応音響モデルB:118−Bとを準備し、クリーン音響モデルA:104−Aから雑音適応音響モデルB:118−Bへの雑音適応化による各パラメータの変化量を計算し、雑音のない音声データで学習された別のクリーン音響モデルC:104−Cの各状態および各分布によりクリーン音響モデルAを参照してその各状態および各分布を決定し、別のクリーン音響モデルCとクリーン音響モデルAの各状態および各分布の参照関係と、クリーン音響モデルAから雑音適応音響モデルBへの雑音適応化による各パラメータの変化量とを基に別のクリーン音響モデルCの各パラメータを調整して、新規の雑音適応化された音響モデルD:118−Dを作成する音響モデル雑音適応化方法を構成した。   Claim 1: A clean acoustic model A: 104-A learned from noise-free speech data and a noise adaptive acoustic model B: 118-B adapted to noise based on the clean acoustic model A: 104A are prepared. The clean acoustic model A: 104-A to the noise adaptive acoustic model B: 118-B, the amount of change in each parameter due to noise adaptation is calculated, and another clean acoustic model C learned from noiseless speech data: Each state and each distribution of 104-C is referred to the clean acoustic model A to determine each state and each distribution, and a reference relationship between each state and each distribution of another clean acoustic model C and clean acoustic model A. Adjust each parameter of another clean acoustic model C based on the amount of change of each parameter by noise adaptation from clean acoustic model A to noise adaptive acoustic model B Te, acoustic model D is noise adaptation of new: constituted acoustic model noise adaptation method of creating a 118-D.

請求項2:雑音のない音声データで学習されたクリーン音響モデルA:104−Aを具備し、クリーン音響モデルA:104−Aを入力してこれを雑音適応化する雑音適応化部117を具備し、クリーン音響モデルA:104−Aを元に雑音適応化された雑音適応音響モデルB:118−Bを具備し、クリーン音響モデルA:104−Aと雑音適応音響モデルB:118−Bとを入力して、クリーン音響モデルA:104−Aの雑音適応化による各パラメータの変化量を計算する音響モデルパラメータ変化量計算部119を具備し、雑音のない音声データで学習された別のクリーン音響モデルC:104−Cおよびクリーン音響モデルA:104−Aとを入力し、別のクリーン音響モデルC:104−Cの各パラメータが参照するクリーン音響モデルA:104−Aの各パラメータを決定する音響モデル構造参照関係決定部120を具備し、音響モデルパラメータ変化量計算部119において計算されたクリーン音響モデルA:104−Aの雑音適応化による各パラメータの変化量と音響モデル構造参照関係決定部120において決定されたクリーン音響モデルA:l04−Aと別のクリーン音響モデルC:104−Cとの間の参照関係とを入力し、別のクリーン音響モデルC:104−Cの各パラメータを調整して新規の雑音適応音響モデルD:118−Dを作成する音響モデルパラメータ調整部121を具備する音響モデル雑音適応化装置を構成した。   Claim 2: A clean acoustic model A: 104-A learned from noise-free speech data is provided, and a noise adaptation unit 117 for inputting the clean acoustic model A: 104-A and adapting it to noise is provided. The noise adaptive acoustic model B: 118-B, which is noise-adapted based on the clean acoustic model A: 104-A, is provided. The clean acoustic model A: 104-A and the noise adaptive acoustic model B: 118-B , And an acoustic model parameter change amount calculation unit 119 for calculating the change amount of each parameter due to the noise adaptation of the clean acoustic model A: 104-A, and another clean train learned from noise-free speech data The acoustic model C: 104-C and the clean acoustic model A: 104-A are input, and the clean sound referred to by each parameter of another clean acoustic model C: 104-C The acoustic model structure reference relationship determining unit 120 that determines each parameter of the model A: 104-A is provided, and each of the acoustic model parameter change amount calculation unit 119 calculated by the noise adaptation of the clean acoustic model A: 104-A is included. The parameter change amount and the reference relationship between the clean acoustic model A: 104-A determined by the acoustic model structure reference relationship determining unit 120 and another clean acoustic model C: 104-C are input, and another clean The acoustic model noise adaptation apparatus including the acoustic model parameter adjustment unit 121 that creates the new noise adaptive acoustic model D: 118-D by adjusting the parameters of the acoustic model C: 104-C is configured.

請求項3:請求項2に記載される音響モデル雑音適応化装置において、音響モデルパラメータ変化量計算部は、クリーン音響モデルAから雑音適応音響モデルBへの雑音適応化による各パラメータの変化量を計算するに際して、クリーン音響モデルAの各状態において、分布重みが最も大きい分布のパラメータの変化量を、状態における全ての分布のパラメータ変化量とする音響モデル雑音適応化装置を構成した。
請求項4:請求項2に記載される音響モデル雑音適応化装置において、音響モデルパラメータ変化量計算部は、クリーン音響モデルAから雑音適応音響モデルBへの雑音適応化による各パラメータの変化量を計算するに際して、クリーン音響モデルAの各状態と対応する雑音適応音響モデルBの各状態において、状態における全ての分布を統合した分布を作成し、その統合分布のパラメータ変化量を、状態における全ての分布のパラメータ変化量とする音響モデル雑音適応化装置を構成した。
(3) In the acoustic model noise adaptation device according to (2), the acoustic model parameter variation calculation unit calculates the variation of each parameter due to noise adaptation from the clean acoustic model A to the noise adaptive acoustic model B. In the calculation, an acoustic model noise adaptation apparatus was configured in which the change amount of the distribution parameter having the largest distribution weight in each state of the clean acoustic model A is set as the parameter change amount of all distributions in the state.
(4) In the acoustic model noise adaptation device according to (2), the acoustic model parameter variation calculation unit calculates the variation of each parameter due to noise adaptation from the clean acoustic model A to the noise adaptive acoustic model B. In the calculation, in each state of the noise adaptive acoustic model B corresponding to each state of the clean acoustic model A, a distribution in which all the distributions in the state are integrated is created, and the parameter change amount of the integrated distribution is calculated for all the states in the state. An acoustic model noise adaptation device with the distribution parameter variation is constructed.

請求項5:請求項2ないし請求項4の内の何れかに記載される音響モデル雑音適応化装置において、音響モデル構造参照関係決定部は、別のクリーン音響モデルCの各状態および各分布が参照するクリーン音響モデルAの各状態および各分布を決定するに際して、別のクリーン音響モデルCの各状態と対応するクリーン音響モデルAの各状態における分布同士の対応を、分布間距離の近さを基準として決定する音響モデル雑音適応化装置を構成した。
請求項6:請求項2ないし請求項5の内の何れかに記載される音響モデル雑音適応化装置において、分布間距離尺度として、Kullback−Leiblerダイバージェンスを用いる音響モデル雑音適応化装置を構成した。
Claim 5: In the acoustic model noise adaptation device according to any one of claims 2 to 4, the acoustic model structure reference relationship determining unit is configured so that each state and each distribution of another clean acoustic model C is When determining each state and each distribution of the reference clean acoustic model A, the correspondence between the distributions in each state of the clean acoustic model A corresponding to each state of another clean acoustic model C is determined by the proximity of the distance between the distributions. An acoustic model noise adaptation device to determine as a reference is constructed.
Claim 6: In the acoustic model noise adaptation apparatus according to any one of claims 2 to 5, an acoustic model noise adaptation apparatus using Kullback-Leibler divergence as an inter-distribution distance measure is configured.

請求項7:請求項2ないし請求項5の内の何れかに記載される音響モデル雑音適応化装置において、分布間距離尺度として、バタチャリヤ距離を用いる音響モデル雑音適応化装置を構成した。
請求項8:請求項2ないし請求項5の内の何れかに記載される音響モデル雑音適応化装置において、分布間距離尺度として、分布統合前後の尤度差分を用いる音響モデル雑音適応化装置を構成した。
請求項9:請求項2ないし請求項5の内の何れかに記載される音響モデル雑音適応化装置において、分布間距離尺度として、分布統合前後の変分ペイズ法に基づく評価関数値の差分を用いる音響モデル雑音適応化装置を構成した。
[7] The acoustic model noise adaptation apparatus according to any one of [2] to [5], wherein an acoustic model noise adaptation apparatus using a batch rear distance as a distribution distance measure is configured.
[8] The acoustic model noise adaptation apparatus according to any one of [2] to [5], wherein the acoustic model noise adaptation apparatus uses a likelihood difference before and after distribution integration as a distance measure between distributions. Configured.
Claim 9: In the acoustic model noise adaptation apparatus according to any one of claims 2 to 5, the difference between evaluation function values based on the variational Pais method before and after distribution integration is used as a distance measure between distributions. The acoustic model noise adaptation device used is constructed.

この発明によれば、既存の雑音適応化の結果を用いて、マルチコンディション音声データなどの雑音を付加された音声データを新たに準備することなく、瞬時に音響モデルの雑音適応を行うことができる。即ち、一例として、多数の女性の雑音のない音声データを用いて学習された入力される別のクリーン音響モデルである、クリーン女声音響モデルの雑音適応化を実施する様な場合、多数の男性の雑音のない音声データを用いて学習されたクリーン男声音響モデルと、それをマルチコンディション学習により雑音適応化した雑音適応男声音響モデルがあれば、新たに雑音が付加された女声音声データを準備してマルチコンディション学習する必要はなく、男声音響モデルの雑音適応化結果をそのまま用いて瞬時に雑音適応を行うことができる。   According to the present invention, noise adaptation of an acoustic model can be performed instantaneously without preparing new voice data to which noise such as multi-condition voice data is added, using the result of existing noise adaptation. . That is, as an example, in the case of performing noise adaptation of a clean female voice acoustic model, which is another clean acoustic model that is input by using a large number of female noiseless voice data, If there is a clean male voice model trained using noise-free voice data and a noise-adapted male voice model modeled with noise adaptation using multi-condition learning, prepare female voice data with newly added noise. There is no need to perform multi-condition learning, and noise adaptation can be performed instantaneously using the noise adaptation result of the male acoustic model as it is.

この発明による音響モデル雑音適応化は、雑音のない音声データで学習されたクリーン音響モデルAと、クリーン音響モデルAを元に雑音適応化された雑音適応音響モデルBを備え、音響モデルパラメータ変化量計算部において、クリーン音響モデルAから雑音適応音響モデルBへの雑音適応化による各パラメータの変化量を計算しておき、雑音のない音声データで学習された別のクリーン音響モデルCが入力された場合に、音響モデル構造参照関係決定部において、別のクリーン音響モデルCの各状態および各分布が参照するクリーン音響モデルAの各状態および各分布を決定し、音響モデルパラメータ調整部において、別のクリーン音響モデルCとクリーン音響モデルAの各状態および各分布の参照関係と、クリーン音響モデルAから雑音適応音響モデルBへの雑音適応化による各パラメータの変化量を基に、別のクリーン音響モデルCの各パラメータを調整し、雑音適応化された音響モデルDを新たに作成する。この発明による音響モデル雑音適応化装置は、音響モデルパラメータ変化量計算部において、クリーン音響モデルAから雑音適応音響モデルBへの雑音適応化による各パラメータの変化量を計算するに際して、クリーン音響モデルAの各状態において、分布重みが最も大きい分布のパラメータの変化量を、状態における全ての分布のパラメータ変化量とする。この発明による音響モデル雑音適応化装置は、音響モデルパラメータ変化量計算部において、クリーン音響モデルAから雑音適応音響モデルBへの雑音適応化による各パラメータの変化量を計算するに際して、クリーン音響モデルAの各状態と対応する雑音適応音響モデルBの各状態において、状態における全ての分布を統合した分布を作成し、その統合分布のパラメータ変化量を、状態における全ての分布のパラメータ変化量とする。この発明による音響モデル雑音適応化装置は、音響モデル構造参照関係決定部において、入力される音響モデルCの各状態および各分布が参照するクリーン音響モデルAの各状態および各分布を決定するに際して、別のクリーン音響モデルCの各状態と対応するクリーン音響モデルAの各状態における分布同士の対応を、分布間距離の近さを基準として決定する。この発明による音響モデル雑音適応化装置は、分布間距離尺度として、Kullback−Leiblerダイバージェンスを用いる。この発明による音響モデル雑音適応化装置は、分布間距離尺度として、バタチャリヤ距離を用いる。この発明による音響モデル雑音適応化装置は、分布間距離尺度として、分布統合前後の尤度差分を用いる。この発明による音響モデル雑音適応化装置は、分布間距離尺度として、分布統合前後の変分ベイズ法に基づく評価関数値の差分を用いる。   The acoustic model noise adaptation according to the present invention includes a clean acoustic model A learned from noise-free speech data, and a noise adaptive acoustic model B that is noise-adapted based on the clean acoustic model A. In the calculation unit, the amount of change in each parameter due to noise adaptation from the clean acoustic model A to the noise adaptive acoustic model B is calculated, and another clean acoustic model C learned from speech data without noise is input. In this case, the acoustic model structure reference relationship determining unit determines each state and each distribution of the clean acoustic model A to which each state and distribution of another clean acoustic model C refers, and the acoustic model parameter adjusting unit The reference relationship between the states and distributions of the clean acoustic model C and the clean acoustic model A and the clean acoustic model A Based on the amount of change in each parameter due to noise adaptation to the adaptive acoustic model B, by adjusting the parameters of another clean acoustic model C, and create a new noise adaptation acoustic model D. In the acoustic model noise adaptation device according to the present invention, the acoustic model parameter variation calculation unit calculates the variation of each parameter by noise adaptation from the clean acoustic model A to the noise adaptive acoustic model B. In each state, the change amount of the parameter of the distribution having the largest distribution weight is set as the parameter change amount of all the distributions in the state. In the acoustic model noise adaptation device according to the present invention, the acoustic model parameter variation calculation unit calculates the variation of each parameter by noise adaptation from the clean acoustic model A to the noise adaptive acoustic model B. In each state of the noise adaptive acoustic model B corresponding to each state, a distribution in which all distributions in the state are integrated is created, and a parameter change amount of the integrated distribution is set as a parameter change amount in all distributions in the state. In the acoustic model noise adaptation device according to the present invention, the acoustic model structure reference relationship determining unit determines each state and each distribution of the clean acoustic model A to which each state and each distribution of the input acoustic model C refers. The correspondence between the distributions in each state of the clean acoustic model A corresponding to each state of another clean acoustic model C is determined based on the proximity of the distance between the distributions. The acoustic model noise adaptation apparatus according to the present invention uses Kullback-Leibler divergence as a distance measure between distributions. The acoustic model noise adaptation apparatus according to the present invention uses the batcha rear distance as the inter-distribution distance measure. The acoustic model noise adaptation apparatus according to the present invention uses likelihood differences before and after distribution integration as a distance measure between distributions. The acoustic model noise adaptation apparatus according to the present invention uses a difference between evaluation function values based on the variational Bayes method before and after distribution integration as a distance measure between distributions.

以下、発明を実施するための最良の形態を図を参照して具体的に説明する。
図1はこの発明による音響モデル雑音適応化装置の実施例の概要を説明する図である。ここにおいては、入力される別のクリーン音響モデルC:104−Cの雑音適応化を行い、新規の雑音適応音響モデルD:118−Dを得ることを目的としている。
先ず、クリーン音響モデルA:104−Aの雑音適応化が雑音適応化部117において行われ、雑音適応音響モデルB:118−Bが予め得られているものとする。なお、雑音適応化部117は、図9を参照して先に説明された点線内の雑音適応化部917に相当する。ここにおいては、クリーン音響モデルA:104Aと雑音適応音響モデルB:118−Bの状態連鎖構造、状態における確率分布数を含む構造は等しいものとするが、構造が異なる場合でも容易に拡張することができる。このクリーン音響モデルA:104−Aと雑音適応音響モデルB:118−Bを入力として、音響モデルパラメータ変化量計算部119において、雑音適応化によるクリーン音響モデルA:104−Aの各パラメータ、状態遷移確率、要素確率分布の平均・分散・分布重み、の変化量を計算する。一方、音響モデル構造参照関係決定部120において、別のクリーン音響モデルC:104−Cの各パラメータが参照するクリーン音響モデルA:104−Aの各パラメータを決定する。次に、音響モデルパラメータ調整部121において、雑音適応化によるクリーン音響モデルA:104−Aの各パラメータの変化量と、別のクリーン音響モデルC:104−Cとクリーン音響モデルA:l04−Aの参照関係を基に、別のクリーン音響モデルC:104−Cの各パラメータを調整し、雑音適応音響モデルD:118−Dを作成する。
Hereinafter, the best mode for carrying out the invention will be specifically described with reference to the drawings.
FIG. 1 is a diagram for explaining the outline of an embodiment of an acoustic model noise adaptation apparatus according to the present invention. Here, the objective is to obtain a new noise adaptive acoustic model D: 118-D by performing noise adaptation of another input clean acoustic model C: 104-C.
First, it is assumed that noise adaptation of the clean acoustic model A: 104-A is performed in the noise adaptation unit 117, and the noise adaptive acoustic model B: 118-B is obtained in advance. Note that the noise adaptation unit 117 corresponds to the noise adaptation unit 917 in the dotted line described above with reference to FIG. Here, the state chain structure of the clean acoustic model A: 104A and the noise adaptive acoustic model B: 118-B and the structure including the number of probability distributions in the state are assumed to be equal, but they can be easily expanded even when the structures are different. Can do. With this clean acoustic model A: 104-A and noise adaptive acoustic model B: 118-B as inputs, the acoustic model parameter change amount calculation unit 119 uses the parameters and states of the clean acoustic model A: 104-A by noise adaptation. The change amount of the transition probability, the average / variance / distribution weight of the element probability distribution is calculated. On the other hand, in the acoustic model structure reference relationship determining unit 120, each parameter of the clean acoustic model A: 104-A referred to by each parameter of another clean acoustic model C: 104-C is determined. Next, in the acoustic model parameter adjustment unit 121, the amount of change in each parameter of the clean acoustic model A: 104-A by noise adaptation, another clean acoustic model C: 104-C, and the clean acoustic model A: 104-A. Based on the reference relationship, each parameter of another clean acoustic model C: 104-C is adjusted to create a noise adaptive acoustic model D: 118-D.

図2は図1における4つの音響モデルを音素HMMのレベルで示した図である。この図2を参照して、この発明による音響モデル雑音適応化装置において、別のクリーン音響モデルC:204−Cの状態遷移確率が調整される仕組みについて説明する。なお、ここにおける説明は、音素HMMの構造が上述した3状態のleft−to−right型であるものとするが、他の構造の場合でも容易に拡張することができる。
先ず、音響モデルパラメータ変化量計算部219において、クリーン音響モデルA:204−Aと雑音適応音響モデルB:218−Bの対応する状態の遷移確率(クリーン音響モデルA:204Aと雑音適応音響モデルB:218−Bは構造が同じであるので、状態遷移確率の対応は1対1にとることができる)より、雑音適応化によるクリーン音響モデルA:204−Aの状態遷移確率の変化率を計算する。次に、音響モデル構造参照決定部220における処理を説明するが、ここにおいては、別のクリーン音響モデルC:204−Cに含まれる音素HMMとして、音素p−a−t(triphone)を例に挙げて説明する。音響モデル構造参照決定部220おける、別のクリーン音響モデルC:204−Cの音素p−a−t(triphone)が参照するクリーン音響モデルA:204−Aの音素HMMの検索方法には、幾つかのバリエーションが考えられるが、最も一般的な方法としては、前後の音素環境依存性を段階的に無視して行く方法である。この方法は、先ず、クリーン音響モデルA:204−Aに音素p−a−t(triphone)が存在するか否かを検索し、存在すれば、別のクリーン音響モデルC:204−Cの音素p−a−t(tripbone)が参照するクリーン音響モデルA:204−Aの音素HMMを音素p−a−t(triphone)とする。クリーン音響モデルA:204−Aに音素p−a−t(triphone)が存在しない場合は、音素p−a−t(triphone)に近い音素HMMとして、音素p−a−*(先行音素環境依存biphone)を検索する。クリーン音響モデルA:204−Aに音素p−a−*(先行音素環境依存biphone)が存在すれば、別のクリーン音響モデルC:204−Cの音素p−a−t(triphone)が参照するクリーン音響モデルA:204−Aの音素HMMを音素p−a−*(先行音素環境依存biphone)とする。クリーン音響モデルA:204−Aに音素p−a−*(先行音素環境依存biphone)が存在しない場合は、音素p−a−*(先行音素環境依存biphone)の次に音素p−a−t(triphone)に近い音素HMMとして、音素*−a−t(後続音素環境依存biphone)を検索する。先行音素環境依存biphoneと後続音素環境依存biphoneの何れを優先させるかというバリエーションも考えられる。クリーン音響モデルA:204−Aに音素*−a−t(後続音素環境依存biphone)が存在すれば、別のクリーン音響モデルC:204−Cの音素p−a−t(triphone)が参照するクリーン音響モデルA:204−Aの音素HMMを音素*−a−t(後続音素環境依存biphone)とする。クリーン音響モデルA:204−Aに音素*−a−t(後続音素環境依存biphone)が存在しない場合は、音素*−a−t(後続音素環境依存biphone)の次に音素p−a−t(triphone)に近い音素HMMとして、音素*−a−*(monophone)を検索する。通常、各音素のmonophone−HMMは音響モデルに含まれるので、音素*−a−*(monophone)は必ず見つかると考えてよい。この様に、最終的には、別のクリーン音響モデルC:204−Cの音素p−a−t(triphone)が参照するクリーン音響モデルA:204−Aの音素HMMが音素*−a−*(monophone)となる。以上は、前後の音素環境依存性を段階的に無視して行く方法であるが、例えば、別のクリーン音響モデルC:204−Cの音素p−a−t(triphone)が参照するクリーン音響モデルA:204−Aの音素HMMとして、初めから音素*−a−*(monophone)を選択する方法も考えられる。図2の場合は、前後の音素環境依存性を段階的に無視していく方法で、クリーン音響モデルA:204−Aに音素p−a−t(triphone)は存在しなかったが、音素p−a−*(先行音素環境依存biphone)が存在したため、別のクリーン音響モデルC:204−Cの音素p−a−t(triphone)が参照するクリーン音響モデルA:204−Aの音素HMMは音素p−a−*(先行音素環境依存biphone)となっている。この様にして、別のクリーン音響モデルC:204−Cの音素p−a−t(triphone)とクリーン音響モデルA:204−Aの音素HMMは、音素p−a−*(先行音素環境依存biphone)の対応が取れれば、両音素HMMは、3状態のleft−to−right型の構造をとるので、両音素HMMの状態同士の対応もとれる。最後に、音響モデルパラメータ調整部221において、音響モデルパラメータ変化量計算部219で計算された雑音適応化によるクリーン音響モデルA:204−Aの状態遷移確率の変化率と、音響モデル構造参照関係決定部220において決定された別のクリーン音響モデルC:204−Cの各状態とクリーン音響モデルA:204−Aの各状態の対応関係を基に、別のクリーン音響モデルC:204−Cの各状態遷移確率を調整し、雑音適応音響モデルD:218−Dの各状態遷移確率とする。
FIG. 2 is a diagram showing the four acoustic models in FIG. 1 at the level of the phoneme HMM. With reference to this FIG. 2, the mechanism by which the state transition probability of another clean acoustic model C: 204-C is adjusted in the acoustic model noise adaptation apparatus by this invention is demonstrated. In the description here, the structure of the phoneme HMM is assumed to be the above-described three-state left-to-right type, but the structure can be easily expanded even in the case of other structures.
First, in the acoustic model parameter change amount calculation unit 219, transition probabilities of the corresponding states of the clean acoustic model A: 204-A and the noise adaptive acoustic model B: 218-B (clean acoustic model A: 204A and noise adaptive acoustic model B). : Since the structure of 218-B is the same, the correspondence of the state transition probabilities can be one-to-one). Therefore, the change rate of the state transition probability of the clean acoustic model A: 204-A by noise adaptation is calculated. To do. Next, processing in the acoustic model structure reference determination unit 220 will be described. Here, a phoneme p-at (triphone) is taken as an example as a phoneme HMM included in another clean acoustic model C: 204-C. I will give you a description. In the acoustic model structure reference determination unit 220, there are several search methods for the phoneme HMM of the clean acoustic model A 204-A that is referred to by the phoneme p-at (triphone) of another clean acoustic model C 204-C. The most common method is to gradually ignore the phoneme environment dependence before and after. In this method, first, it is searched whether or not the phoneme p-at (triphone) exists in the clean acoustic model A: 204-A, and if it exists, the phoneme of another clean acoustic model C: 204-C is found. The phoneme HMM of the clean acoustic model A: 204-A referred to by p-at (tripbone) is defined as a phoneme p-at (triphone). When the phoneme p-at (triphone) does not exist in the clean acoustic model A 204-A, the phoneme p-a- * (depending on the preceding phoneme environment) is used as the phoneme HMM close to the phoneme p-at (triphone). biphone). If the phoneme p-a- * (preceding phoneme environment dependent biphone) exists in the clean acoustic model A: 204-A, the phoneme p-at (triphone) of another clean acoustic model C: 204-C refers to it. The phoneme HMM of the clean acoustic model A: 204-A is defined as a phoneme pa-a- * (preceding phoneme environment dependent biphone). When the phoneme p-a- * (preceding phoneme environment-dependent biphone) does not exist in the clean acoustic model A: 204-A, the phoneme p-a-t follows the phoneme pa-a- * (preceding phoneme environment-dependent biphone). The phoneme * -at (subsequent phoneme environment dependent biphone) is searched as a phoneme HMM close to (triphone). A variation of whether to give priority to the preceding phoneme environment-dependent biphone or the subsequent phoneme environment-dependent biphone is also conceivable. If the phoneme * -at (subsequent phoneme environment dependent biphone) exists in the clean acoustic model A: 204-A, the phoneme p-at (triphone) of another clean acoustic model C: 204-C refers to The phoneme HMM of the clean acoustic model A: 204-A is defined as a phoneme * -at (subsequent phoneme environment dependent biphone). When the phoneme * -at (subsequent phoneme environment dependent biphone) does not exist in the clean acoustic model A: 204-A, the phoneme p-at is next to the phoneme * -at (subsequent phoneme environment dependent biphone). Search phonemes * -a- * (monophone) as phoneme HMMs close to (triphone). Usually, since the monophone-HMM of each phoneme is included in the acoustic model, it may be considered that the phoneme * -a- * (monophone) is always found. Thus, finally, the phoneme HMM of the clean acoustic model A 204-A that is referred to by the phoneme p-at (triphone) of another clean acoustic model C 204-C is the phoneme * -a- *. (Monophone). The above is a method of ignoring the front and back phoneme environment dependency step by step. For example, a clean acoustic model referred to by another clean acoustic model C: 204-C phoneme p-at (triphone). A: A method of selecting phonemes * -a- * (monophone) from the beginning as a phoneme HMM of 204-A is also conceivable. In the case of FIG. 2, the phoneme p-at (triphone) does not exist in the clean acoustic model A: 204-A by the method of ignoring the dependence of the phoneme environment before and after in stages, but the phoneme p -A- * (preceding phoneme environment dependent biphone) exists, so the phoneme HMM of clean acoustic model A: 204-A referred to by another clean acoustic model C: 204-C phoneme pat (triphone) is Phoneme pa-a- * (preceding phoneme environment dependent biphone). In this way, the phoneme p-at (triphone) of another clean acoustic model C: 204-C and the phoneme HMM of the clean acoustic model A: 204-A are phoneme p-a- * (depending on the preceding phoneme environment). biphone), the two-phoneme HMM has a three-state left-to-right structure, so that the states of the two-phoneme HMMs can be matched. Finally, in the acoustic model parameter adjustment unit 221, the change rate of the state transition probability of the clean acoustic model A: 204-A by noise adaptation calculated by the acoustic model parameter change amount calculation unit 219 and the acoustic model structure reference relation determination are determined. Based on the correspondence between each state of another clean acoustic model C: 204-C determined by the unit 220 and each state of the clean acoustic model A: 204-A, each of the other clean acoustic models C: 204-C The state transition probability is adjusted to be each state transition probability of the noise adaptive acoustic model D: 218-D.

図3は図1における4つの音響モデルを状態のレベルで示した図である。図3を参照して、図2において例とした別のクリーン音響モデルC:204−Cの音素p−a−tの状態SC1に含まれる要素確率分布のパラメータが調整される仕組みの一例について説明する。なお、この説明は、各状態に含まれる要素確率分布の数は4、かつ各要素確率分布は多次元無相関正規分布であり、その次元iについて図示されているものとするが、これ以外の条件であっても容易に拡張することができる。
先ず、音響モデルパラメータ変化量計算部319において、クリーン音響モデルA:304−Aの状態SA1と対応する雑音適応音響モデルB:318−Bの状態SB1から状態SA1の各要素正規分布NA1、NA2、NA3、NA4のパラメータ(平均、分散、分布重み)の変化量を求めるが、この例は、状態SA1の最も分布重みの大きい要素正規分布NA3のパラメータ変化量をもって状態SA1における全ての要素正規分布NA1、NA2、NA3、NA4のパラメータ変化量(平均、分散)とする。これは状態SA1に付随するパラメータ変化量と見ることができる。一方、音響モデル構造参照関係決定部320においては、別のクリーン音響モデルC:304−Cの状態SC1とクリーン音響モデルA:304−Aの状態SA1の対応がとれており、この例の場合は、要素正規分布同士の対応は取る必要はない。そして、音響モデルパラメータ調整部321において、音響モデルパラメータ変化量計算部319において計算された状態SA1の最も分布重みの大きい要素正規分布NA3 のパラメータ変化量と、音響モデル構造参照関係決定部320において決定された状態SC1と状態SA1の対応を基に、状態SC1の各要素正規分布のパラメータ(平均、分散)の調整を行い、雑音適応音響モデルD:318−Dの状態SD1の各要素正規分布のパラメータ(平均、分散)とする。この例は、分布重みの調整は行わない。
FIG. 3 is a diagram showing the four acoustic models in FIG. 1 at the state level. Referring to FIG. 3, an example of a mechanism in which the parameter of the element probability distribution included in the state S C1 of the phoneme p-at of another clean acoustic model C: 204-C exemplified in FIG. 2 is adjusted. explain. In this description, the number of element probability distributions included in each state is four, and each element probability distribution is a multidimensional uncorrelated normal distribution, and the dimension i is illustrated. Even conditions can be easily extended.
First, in the acoustic model parameter change amount calculation unit 319, each element normal distribution N from the state S B1 to the state S A1 of the noise adaptive acoustic model B: 318-B corresponding to the state S A1 of the clean acoustic model A: 304-A. The amount of change in parameters A1 , N A2 , N A3 , and N A4 (average, variance, distribution weight) is obtained. In this example, the parameter variation of the element normal distribution N A3 having the largest distribution weight in the state S A1 is obtained. The parameter change amounts (average and variance) of all element normal distributions N A1 , N A2 , N A3 , and N A4 in the state S A1 are used. This can be regarded as a parameter change amount accompanying the state S A1 . On the other hand, in the acoustic model structure reference relationship determination unit 320, the correspondence between the state S C1 of another clean acoustic model C: 304-C and the state S A1 of the clean acoustic model A: 304-A is taken. In this case, it is not necessary to take correspondence between element normal distributions. Then, in the acoustic model parameter adjustment unit 321, the parameter variation of the element normal distribution N A3 having the largest distribution weight in the state S A1 calculated by the acoustic model parameter variation calculation unit 319 and the acoustic model structure reference relationship determination unit 320 On the basis of the correspondence between the state S C1 and the state S A1 determined in step S1, the parameters (average and variance) of each element normal distribution in the state S C1 are adjusted, and the state S D1 of the noise adaptive acoustic model D: 318-D Parameter of each element normal distribution (mean, variance). In this example, the distribution weight is not adjusted.

図4は、図1における4つの音響モデルを状態のレベルで示した図である。図4を参照して、図2において例とした別のクリーン音響モデルC:204−Cの音素p−a−tの状態SClに含まれる要素確率分布のパラメータが調整される仕組みについて、図3とは異なった一例を説明する。なお、この説明は、各状態に含まれる要素確率分布の数は4、かつ各要素確率分布は多次元無相関正規分布であり、その次元iについて図示されているものとするが、これ以外の条件であっても容易に拡張することができる。
先ず、音響モデルパラメータ変化量計算部419において、クリーン音響モデルA:404−Aの状態SA1と対応する雑音適応音響モデルB:418−Bの状態SB1から状態SA1の各要素正規分布のパラメータ(平均、分散、分布重み)の変化量を求めるが、この例は、状態SA1における各要素正規分布NA1、NA2、NA3、NA4を統合して一つの統合分布NA を作成すると共に、状態SBlにおける各要素正規分布NB1、NB2、NB3、NB4を統合して一つの統合分布NB を作成し、統合分布NA から統合分布NB へのパラメータ変化量をもって状態SA1における全ての要素正規分布NA1、NA2、NA3、NA4のパラメータ変化量(平均、分散)とする。これは、状態SA1に付随するパラメータ変化量と見ることができる。統合分布NA の次元iの平均μAi、分散σ2 Aiおよび分布重みWAは、各要素正規分布NA1、NA2、NA3、NA4の次元iの平均μA1i、μA2i、μA3i、μA4i、分散σ2 A1i、σ2 A2i、σ2 A3i、σ2 A4i;、および分布重みWA1、WA2、WA3、WA4を用いて以下の式で得られる。
FIG. 4 is a diagram showing the four acoustic models in FIG. 1 at the state level. Referring to FIG. 4, a diagram illustrating a mechanism in which the parameter of the element probability distribution included in the state S Cl of the phoneme p-at of another clean acoustic model C: 204-C exemplified in FIG. 2 is adjusted. An example different from 3 will be described. In this description, the number of element probability distributions included in each state is four, and each element probability distribution is a multidimensional uncorrelated normal distribution, and the dimension i is illustrated. Even conditions can be easily extended.
First, in the acoustic model parameter change amount calculation unit 419, each element normal distribution from the state S B1 to the state S A1 of the noise adaptive acoustic model B: 418-B corresponding to the state S A1 of the clean acoustic model A: 404-A is obtained. The amount of change in the parameters (mean, variance, distribution weight) is obtained. In this example, each element normal distribution N A1 , N A2 , N A3 , N A4 in the state S A1 is integrated to form one integrated distribution N A. together to create the parameters change in creating a single integrated distribution N B by integrating the status elements normal distribution in S Bl N B1, N B2, N B3, N B4, from the integrated distribution N a to the integrated distribution N B Let the amount be the parameter variation (average, variance) of all element normal distributions N A1 , N A2 , N A3 , N A4 in the state S A1 . This can be regarded as a parameter change amount accompanying the state S A1 . Mean mu Ai dimension i of integrated distribution N A, variance sigma 2 Ai and distribution weights W A, the average mu A1i of each element Gaussian distribution N A1, N A2, N A3 , dimensional N A4 i, mu A2i, mu A3i, μ A4i, variance σ 2 A1i, σ 2 A2i, σ 2 A3i, σ 2 A4i;, and with the distribution weights W A1, W A2, W A3 , W A4 obtained by the following equation.

Figure 2005338358
統合分布NB についても同様の式で得られる。一方、音響モデル構造参照関係決定部420においては、別のクリーン音響モデルC:404−Cの状態SC1とクリーン音響モデルA:404−Aの状態SA1の対応がとれており、この例の場合は、要素正規分布同士の対応は取る必要はない。そして、音響モデルパラメータ調整部421において、音響モデルパラメータ変化量計算部419において計算された状態SA1の統合分布NA のパラメータ変化量と、音響モデル構造参照関係決定部420において決定された状態SC1と状態SA1の対応を基に、状態SC1の各要素正規分布のパラメータ(平均、分散)の調整を行い、雑音適応音響モデルD:418−Dの状態SD1の各要素正規分布のパラメータ(平均、分散)とする。この例は、分布重みの調整は行わない。
Figure 2005338358
Obtained in the same formula applies to the integrated distribution N B. On the other hand, in the acoustic model structure reference relationship determining unit 420, the state S C1 of another clean acoustic model C: 404-C and the state S A1 of the clean acoustic model A: 404-A are taken. In this case, it is not necessary to take correspondence between element normal distributions. Then, in the acoustic model parameter adjustment unit 421, the parameter change amount of the integrated distribution N A of the state S A1 calculated by the acoustic model parameter change amount calculation unit 419 and the state S determined by the acoustic model structure reference relationship determination unit 420. Based on the correspondence between C1 and state S A1 , the parameters (average and variance) of each element normal distribution in state S C1 are adjusted, and each element normal distribution in state S D1 in noise adaptive acoustic model D: 418-D is adjusted. Parameters (average, variance). In this example, the distribution weight is not adjusted.

図5は図1における4つの音響モデルを状態のレベルで示した図である。図5を参照して、図2において例とした別のクリーン音響モデルC:204−Cの音素p−a−tの状態SClに含まれる要素確率分布のパラメータが調整される仕組みについて、図3および図4とは異なった一例を説明する。なお、この説明は、各状態に含まれる要素確率分布の数は4、かつ各要素確率分布は多次元無相関正規分布であり、その次元iについて図示されているものとするが、これ以外の条件であっても容易に拡張することができる。
先ず、音響モデルパラメータ変化量計算部519−Aにおいて、クリーン音響モデルA:504−Aの状態SA1と対応する雑音適応音響モデルB:518−Bの状態SB1から状態SA1の各要素正規分布のパラメータ(平均、分散、分布重み)の変化量を求めるが、この例は、状態SA1における各要素正規分布NA1、NA2、NA3、NA4と状態SB1における各要素正規分布NB1、NB2、NB3、NB4の対応から、状態SA1における各要素正規分布NA1、NA2、NA3、NA4のパラメ一タ変化量(平均、分散、分布重み)を個別に計算しておく。一方、音響モデル構造参照関係決定部520においては、別のクリーン音響モデルC:504−Cの状態SC1とクリーン音響モデルA:404−Aの状態SA1の対応がとれており、更に、状態SC1の各要素正規分布NC1、NC2、NC3、NC4がそれぞれ参照する状態SA1における要素正規分布を決めるが、この参照関係を、分布間距離を基準に決める。ここにおいては、NC1との分布間距離が最も近い状態SA1の要素正規分布としてNA1が選ばれており、以下、同様に、NC2に対してNA2、NC3に対してNA4、NC4に対してNA4が選ばれている。この様に、状態SC1と状態SA1の要素正規分布数が同じであったとしても、必ずしも要素正規分布同士の対応は1対1になるとは限らない。そして、音響モデルパラメータ調整部521において、音響モデルパラメータ変化量計算部519において計算された状態SA1の各要素正規分布NA1、NA2、NA3、NA4のパラメータ変化量と、音響モデル構造参照関係決定部520において決定された状態SC1における各要素正規分布NC1、NC2、NC3、NC4とそれが参照する状態SA1における各要素正規分布NA1、NA2、NA4を基に、状態SC1の各要素正規分布NC1、NC2、NC3、NC4のパラメータ(平均、分散、分布重み)の調整を行い、雑音適応音響モデルD:518−Dの状態SD1の各要素正規分布ND1、ND2、ND3、ND4のパラメータ(平均、分散、分布重み)とする。
FIG. 5 is a diagram showing the four acoustic models in FIG. 1 at the state level. Referring to FIG. 5, a diagram illustrating a mechanism in which parameters of the element probability distribution included in the state S Cl of the phoneme p-at of another clean acoustic model C: 204-C illustrated in FIG. 2 is adjusted. An example different from FIGS. 3 and 4 will be described. In this description, the number of element probability distributions included in each state is four, and each element probability distribution is a multidimensional uncorrelated normal distribution, and the dimension i is illustrated. Even conditions can be easily extended.
First, in the acoustic model parameter change amount calculation unit 519-A, each element normalization from the state S B1 to the state S A1 of the noise adaptive acoustic model B: 518-B corresponding to the state S A1 of the clean acoustic model A: 504-A is performed. distribution parameters (average, variance, distribution weights) is obtaining the amount of change, this example, each element Gaussian distribution in each component normal distribution N A1, N A2, N A3 , N A4 and the state S B1 in the state S A1 From the correspondence of N B1 , N B2 , N B3 , N B4 , the parameter variation (mean, variance, distribution weight) of each element normal distribution N A1 , N A2 , N A3 , N A4 in state S A1 is individually Calculate in advance. On the other hand, in the acoustic model structure reference relationship determining unit 520, the state S C1 of another clean acoustic model C: 504-C and the state S A1 of the clean acoustic model A: 404-A are taken, and the state The element normal distribution in the state S A1 to which each element normal distribution N C1 , N C2 , N C3 , and N C4 of S C1 refers is determined. This reference relation is determined based on the distance between the distributions. Here, N A1 is selected as the element normal distribution in the state S A1 where the distance between distributions with N C1 is the shortest, and similarly, N A2 for N C2 and N A4 for N C3 in the same manner. , N A4 is selected for N C4 . Thus, even if the number of element normal distributions in the state S C1 and the state S A1 is the same, the correspondence between the element normal distributions is not necessarily one-to-one. Then, in the acoustic model parameter adjustment unit 521, the parameter variation of each element normal distribution N A1 , N A2 , N A3 , N A4 of the state S A1 calculated by the acoustic model parameter variation calculation unit 519 and the acoustic model structure Each element normal distribution N C1 , N C2 , N C3 , N C4 in the state S C1 determined by the reference relationship determining unit 520 and each element normal distribution N A1 , N A2 , N A4 in the state S A1 to which it refers Based on this, the parameters (average, variance, distribution weight) of each element normal distribution N C1 , N C2 , N C3 , N C4 of the state S C1 are adjusted, and the state S D1 of the noise adaptive acoustic model D: 518-D Are the parameters (average, variance, distribution weight) of each element normal distribution N D1 , N D2 , N D3 , N D4 .

図5の例における分布間距離尺度としては、Kullback−Leiblerダイバージェンスを用いることができる。多次元無相関正規分布N1、N2の次元iにおける平均、分散および分布重みをそれぞれ、(μ1i、σ2 1i)、(μ2i、σ2 2i)とすると、N1 、N2 間のKullback−LeiblerダイバージェンスK(N1 、N2 )は、以下の通りに計算することができる。以下、Iは次元数である。 As the distribution distance measure in the example of FIG. 5, Kullback-Leibler divergence can be used. If the mean, variance, and distribution weight in the dimension i of the multidimensional uncorrelated normal distribution N1, N2 are (μ 1i , σ 2 1i ), (μ 2i , σ 2 2i ), respectively, a Kullback between N 1 and N 2 -Leibler divergence K (N 1 , N 2 ) can be calculated as follows: Hereinafter, I is the number of dimensions.

Figure 2005338358
また、図5の例における他の分布間距離尺度としては、バタチャリヤ距離を用いることができる。多次元無相関正規分布N1、N2間のバタチャリヤ距離B(N1、N2)は、以下の通りに計算することができる。
Figure 2005338358
Further, as another inter-distribution distance measure in the example of FIG. 5, a batcha rear distance can be used. The virtual distance B (N1, N2) between the multidimensional uncorrelated normal distributions N1, N2 can be calculated as follows.

Figure 2005338358
また、図5の例における他の分布間距離尺度としては、分布を統合してみたときの前後の尤度差分を用いることができる。多次元無相関正規分布Nk の次元iにおける平均、分散および学習データフレーム数をそれぞれ(μki、σ2 ki、Γk)とすると、Nk の尤度(期待値)は、以下の通りに計算することができる。
Figure 2005338358
As another inter-distribution distance measure in the example of FIG. 5, the likelihood difference before and after the distributions can be integrated can be used. If the mean, variance, and number of training data frames in dimension i of multidimensional uncorrelated normal distribution N k are (μ ki , σ 2 ki , Γ k ), respectively, the likelihood (expected value) of N k is as follows: Can be calculated.

Figure 2005338358
統合前の多次元無相関正規分布N1 、N2 の尤度をそれぞれP1 、P2 とし、統合後の多次元無相関正規分布Nの尤度をPとすると、統合前後の尤度差分△P(N1 、N2 →N)は、以下の通りに計算することができる。
△P(N1、N2→N)=P1+P2−P ・・・・・式(12)
また、図5の例における他の分布間距離尺度としては、分布統合前後の変分ベイズ法に基づく評価関数値の差分を用いることができる。変分ベイズ法に基づく評価関数値については、参考文献(渡部晋治、南泰浩、中村篤、上田修功、“ベイズ的基準を用いた状態共有型HMM構造の選択”、電子情報通信学会論文誌、D-II,Vol.J86-D-II, No.6, pp.776-786, 2003年6月)に開示されている。
Figure 2005338358
When the likelihoods of the multidimensional uncorrelated normal distributions N 1 and N 2 before integration are P 1 and P 2 , respectively, and the likelihood of the multidimensional uncorrelated normal distribution N after integration is P, the likelihood difference before and after the integration ΔP (N 1 , N 2 → N) can be calculated as follows.
ΔP (N 1 , N 2 → N) = P 1 + P 2 −P (12)
In addition, as another inter-distribution distance measure in the example of FIG. 5, a difference between evaluation function values based on the variational Bayes method before and after distribution integration can be used. For evaluation function values based on the variational Bayesian method, refer to the references (Yuji Watanabe, Yasuhiro Minami, Atsushi Nakamura, Nobuo Ueda, “Selection of state-sharing HMM structure using Bayesian criteria”, IEICE Transactions, D-II, Vol. J86-D-II, No. 6, pp. 776-786, June 2003).

以上の通りであって、図1から図5までを参照して説明してきた音響モデル雑音適応化装置を用いれば、既存の雑音適応化の結果を用いて、マルチコンディション音声データなどの雑音を付加された音声データを新たに準備することなく、瞬時に音響モデルの雑音適応を行うことができる。即ち、一例として、多数の女性の雑音のない音声データを用いて学習されたクリーン女声音響モデルの雑音適応化を実施しようとする場合、多数の男性の雑音のない音声データを用いて学習されたクリーン男声音響モデルと、それをマルチコンディション学習により雑音適応化した雑音適応男声音響モデルがあれば、新たに雑音が付加された女声音声データを準備してマルチコンディション学習する必要はなく、男声音響モデルの雑音適応化結果をそのまま用いて瞬時に雑音適応を行うことができる。   As described above, if the acoustic model noise adaptation apparatus described with reference to FIGS. 1 to 5 is used, noise such as multi-condition speech data is added using the result of existing noise adaptation. The noise adaptation of the acoustic model can be performed instantaneously without preparing newly prepared speech data. That is, as an example, when trying to perform noise adaptation of a clean female voice model trained using a large number of female voice-free voice data, it was learned using a large number of male voice-free voice data. If there is a clean male voice acoustic model and a noise-adapted male voice acoustic model that is noise-adapted by multi-condition learning, there is no need to prepare female voice data with newly added noise and perform multi-condition learning. Noise adaptation can be performed instantaneously using the noise adaptation result of the above.

また、雑音適応化によるパラメータの変化量が、話者の個別の音声の特徴などによらないと仮定すれば、図1から図5までのクリーン音響モデルAとしては、多数の話者の大量の音声データを用いて学習した音響モデルでなくとも、例えば、一人の話者の少量の音声データを用いて学習した音響モデルでも差し支えない。この様な少量の音声データで学習された音響モデルであれば、マルチコンディション学習に必要なデータ記憶容量も計算時間も少なく抑えることができ、雑音適応化も容易である。更に簡単化するのであれば、音素HMMとしてmonophone−HMMのみで構成される様なクリーン音響モデルAを用いることもできる。   If it is assumed that the amount of parameter change due to noise adaptation does not depend on the characteristics of the individual speech of the speaker, the clean acoustic model A shown in FIGS. For example, an acoustic model learned using a small amount of speech data of a single speaker may be used instead of the acoustic model learned using speech data. With such an acoustic model learned from a small amount of speech data, the data storage capacity and calculation time required for multi-condition learning can be reduced, and noise adaptation is easy. For further simplification, a clean acoustic model A composed only of a monophone-HMM can be used as the phoneme HMM.

実施例を説明する図。The figure explaining an Example. 実施例において状態遷移確率の調整をする仕方を説明する図。The figure explaining how to adjust a state transition probability in an Example. 実施例において最も分布重みの大きい要素分布のパラメータ変化量を基に分布パラメータを調整する仕方を説明する図。The figure explaining how to adjust a distribution parameter based on the parameter variation | change_quantity of element distribution with the largest distribution weight in an Example. 実施例において統合分布のパラメータ変化量を基に分布パラメータを調整する仕方を説明する図。The figure explaining how to adjust a distribution parameter based on the parameter variation | change_quantity of integrated distribution in an Example. 実施例において各要素分布のパラメータ変化量を基に分布パラメータを調整する仕方を説明する図。The figure explaining the method of adjusting a distribution parameter based on the parameter variation | change_quantity of each element distribution in an Example. 音声認識装置の従来例を説明する図。The figure explaining the prior art example of a speech recognition apparatus. 音響モデルにおける状態の構造の一例を説明する図。The figure explaining an example of the structure of the state in an acoustic model. 音響モデルにおける音素HMMの構造の一例を説明する図。The figure explaining an example of the structure of the phoneme HMM in an acoustic model. マルチコンディション学習を説明する図。The figure explaining multi-condition learning.

符号の説明Explanation of symbols

104−A クリーン音響モデルA
104−C 別のクリーン音響モデルC
117 雑音適応化部
118−B 雑音適応音響モデルB
118−D 新規の雑音適応音響モデルD
119 音響モデルパラメータ変化量計算部
120 音響モデル構造参照関係決定部
121 音響モデルパラメータ調整部
104-A Clean acoustic model A
104-C Another clean acoustic model C
117 Noise Adaptation Unit 118-B Noise Adaptive Acoustic Model B
118-D New noise adaptive acoustic model D
119 Acoustic model parameter change amount calculation unit 120 Acoustic model structure reference relationship determination unit 121 Acoustic model parameter adjustment unit

Claims (9)

雑音のない音声データで学習されたクリーン音響モデルAと当該クリーン音響モデルAを元に雑音適応化された雑音適応音響モデルBとを準備し、
クリーン音響モデルAから雑音適応音響モデルBへの雑音適応化による各パラメータの変化量を計算し、
雑音のない音声データで学習された別のクリーン音響モデルCの各状態および各分布によりクリーン音響モデルAを参照してその各状態および各分布を決定し、
別のクリーン音響モデルCとクリーン音響モデルAの各状態および各分布の参照関係と、クリーン音響モデルAから雑音適応音響モデルBへの雑音適応化による各パラメータの変化量とを基に別のクリーン音響モデルCの各パラメータを調整して、新規の雑音適応化された音響モデルDを作成することを特徴とする音響モデル雑音適応化方法。
Preparing a clean acoustic model A learned from speech data without noise and a noise adaptive acoustic model B adapted to noise based on the clean acoustic model A;
Calculate the amount of change of each parameter due to noise adaptation from clean acoustic model A to noise adaptive acoustic model B,
With reference to the clean acoustic model A by each state and each distribution of another clean acoustic model C trained with noise-free speech data, each state and each distribution is determined.
Based on the reference relationship between each state and each distribution of another clean acoustic model C and clean acoustic model A and the amount of change in each parameter due to noise adaptation from clean acoustic model A to noise adaptive acoustic model B An acoustic model noise adaptation method characterized by adjusting each parameter of the acoustic model C to create a new noise-adapted acoustic model D.
雑音のない音声データで学習されたクリーン音響モデルAを具備し、
クリーン音響モデルAを入力してこれを雑音適応化する雑音適応化部を具備し、
クリーン音響モデルAを元に雑音適応化された雑音適応音響モデルBを具備し、
クリーン音響モデルAと雑音適応音響モデルBとを入力して、クリーン音響モデルAの雑音適応化による各パラメータの変化量を計算する音響モデルパラメータ変化量計算部を具備し、
雑音のない音声データで学習された別のクリーン音響モデルCおよびクリーン音響モデルAとを入力し、別のクリーン音響モデルCの各パラメータが参照するクリーン音響モデルAの各パラメータを決定する音響モデル構造参照関係決定部を具備し、
音響モデルパラメータ変化量計算部において計算されたクリーン音響モデルAの雑音適応化による各パラメータの変化量と音響モデル構造参照関係決定部において決定されたクリーン音響モデルAと別のクリーン音響モデルCとの間の参照関係とを入力し、別のクリーン音響モデルCの各パラメータを調整して新規の雑音適応音響モデルDを作成する音響モデルパラメータ調整部を具備することを特徴とする音響モデル雑音適応化装置。
A clean acoustic model A trained with noise-free speech data;
A clean sound model A is input and a noise adapting unit for adapting the noise is provided,
A noise adaptive acoustic model B that is noise-adapted based on the clean acoustic model A is provided,
An acoustic model parameter variation calculation unit that inputs the clean acoustic model A and the noise adaptive acoustic model B and calculates the variation of each parameter due to noise adaptation of the clean acoustic model A,
An acoustic model structure that inputs another clean acoustic model C and clean acoustic model A learned from noise-free speech data and determines each parameter of the clean acoustic model A referenced by each parameter of the other clean acoustic model C A reference relationship determination unit;
The amount of change of each parameter due to noise adaptation of the clean acoustic model A calculated by the acoustic model parameter variation calculation unit and the clean acoustic model A determined by the acoustic model structure reference relationship determination unit and another clean acoustic model C Acoustic model noise adaptation, comprising: an acoustic model parameter adjustment unit that inputs a reference relationship between the parameters and adjusts each parameter of another clean acoustic model C to create a new noise adaptive acoustic model D apparatus.
請求項2に記載される音響モデル雑音適応化装置において、
音響モデルパラメータ変化量計算部は、クリーン音響モデルAから雑音適応音響モデルBへの雑音適応化による各パラメータの変化量を計算するに際して、クリーン音響モデルAの各状態において、分布重みが最も大きい分布のパラメータの変化量を、状態における全ての分布のパラメータ変化量とすることを特徴とする音響モデル雑音適応化装置。
In the acoustic model noise adaptation apparatus according to claim 2,
The acoustic model parameter change amount calculation unit calculates the change amount of each parameter due to noise adaptation from the clean acoustic model A to the noise adaptive acoustic model B, and the distribution having the largest distribution weight in each state of the clean acoustic model A The acoustic model noise adaptation apparatus characterized in that the amount of parameter change is the amount of parameter change of all distributions in the state.
請求項2に記載される音響モデル雑音適応化装置において、
音響モデルパラメータ変化量計算部は、クリーン音響モデルAから雑音適応音響モデルBへの雑音適応化による各パラメータの変化量を計算するに際して、クリーン音響モデルAの各状態と対応する雑音適応音響モデルBの各状態において、状態における全ての分布を統合した分布を作成し、その統合分布のパラメータ変化量を、状態における全ての分布のパラメータ変化量とすることを特徴とする音響モデル雑音適応化装置。
In the acoustic model noise adaptation apparatus according to claim 2,
The acoustic model parameter change amount calculation unit calculates a change amount of each parameter due to noise adaptation from the clean acoustic model A to the noise adaptive acoustic model B, and the noise adaptive acoustic model B corresponding to each state of the clean acoustic model A In each of the states, an acoustic model noise adaptation device that creates a distribution in which all the distributions in the state are integrated and sets the parameter change amount of the integrated distribution as the parameter change amount of all the distributions in the state.
請求項2ないし請求項4の内の何れかに記載される音響モデル雑音適応化装置において、
音響モデル構造参照関係決定部は、別のクリーン音響モデルCの各状態および各分布が参照するクリーン音響モデルAの各状態および各分布を決定するに際して、別のクリーン音響モデルCの各状態と対応するクリーン音響モデルAの各状態における分布同士の対応を、分布間距離の近さを基準として決定することを特徴とする音響モデル雑音適応化装置。
In the acoustic model noise adaptation apparatus according to any one of claims 2 to 4,
The acoustic model structure reference relationship determining unit corresponds to each state of another clean acoustic model C when determining each state and each distribution of the clean acoustic model A that each state and distribution of another clean acoustic model C refers to. An acoustic model noise adaptation device, wherein correspondence between distributions in each state of a clean acoustic model A is determined based on the proximity of the distance between the distributions.
請求項2ないし請求項5の内の何れかに記載される音響モデル雑音適応化装置において、
分布間距離尺度として、Kullback−Leiblerダイバージェンスを用いることを特徴とする音響モデル雑音適応化装置。
In the acoustic model noise adaptation apparatus according to any one of claims 2 to 5,
An acoustic model noise adaptation device using Kullback-Leibler divergence as a distance measure between distributions.
請求項2ないし請求項5の内の何れかに記載される音響モデル雑音適応化装置において、
分布間距離尺度として、バタチャリヤ距離を用いることを特徴とする音響モデル雑音適応化装置。
In the acoustic model noise adaptation apparatus according to any one of claims 2 to 5,
An acoustic model noise adapting device characterized by using a batcha rear distance as a distance measure between distributions.
請求項2ないし請求項5の内の何れかに記載される音響モデル雑音適応化装置において、
分布間距離尺度として、分布統合前後の尤度差分を用いることを特徴とする音響モデル雑音適応化装置。
In the acoustic model noise adaptation apparatus according to any one of claims 2 to 5,
An acoustic model noise adaptation apparatus using a likelihood difference between before and after distribution integration as a distance measure between distributions.
請求項2ないし請求項5の内の何れかに記載される音響モデル雑音適応化装置において、
分布間距離尺度として、分布統合前後の変分ペイズ法に基づく評価関数値の差分を用いることを特徴とする音響モデル雑音適応化装置。


In the acoustic model noise adaptation apparatus according to any one of claims 2 to 5,
An acoustic model noise adaptation device using a difference between evaluation function values based on a variational Pais method before and after distribution integration as a distance measure between distributions.


JP2004156037A 2004-05-26 2004-05-26 Acoustic model noise adaptation method and apparatus for implementing the method Expired - Fee Related JP4510517B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004156037A JP4510517B2 (en) 2004-05-26 2004-05-26 Acoustic model noise adaptation method and apparatus for implementing the method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004156037A JP4510517B2 (en) 2004-05-26 2004-05-26 Acoustic model noise adaptation method and apparatus for implementing the method

Publications (2)

Publication Number Publication Date
JP2005338358A true JP2005338358A (en) 2005-12-08
JP4510517B2 JP4510517B2 (en) 2010-07-28

Family

ID=35492021

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004156037A Expired - Fee Related JP4510517B2 (en) 2004-05-26 2004-05-26 Acoustic model noise adaptation method and apparatus for implementing the method

Country Status (1)

Country Link
JP (1) JP4510517B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007248742A (en) * 2006-03-15 2007-09-27 Nippon Telegr & Teleph Corp <Ntt> Sound model adaptation apparatus, sound model adaptation method, sound model adaptation program and its recording medium
JP2008122927A (en) * 2006-09-13 2008-05-29 Honda Motor Co Ltd Speech recognition method for robot under motor noise thereof
US8107735B2 (en) 2007-04-10 2012-01-31 Denso Corporation Three dimensional shape reconstitution device and estimation device
CN117706376A (en) * 2024-02-04 2024-03-15 深圳海辰储能科技有限公司 Battery capacity prediction method and device, electronic equipment and storage medium

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020241923A1 (en) * 2019-05-29 2020-12-03 엘지전자 주식회사 Artificial intelligence device for predicting performance of speech recognition model in user environment, and method therefor

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0822296A (en) * 1994-07-07 1996-01-23 Nippon Telegr & Teleph Corp <Ntt> Pattern recognition method
JPH08248976A (en) * 1995-03-10 1996-09-27 Atr Onsei Honyaku Tsushin Kenkyusho:Kk Speaker adaptation device and speech recognizer
JPH0990981A (en) * 1995-09-22 1997-04-04 Nippon Telegr & Teleph Corp <Ntt> Model learning method for pattern recognition
JPH09114483A (en) * 1995-10-23 1997-05-02 Sanyo Electric Co Ltd Learning device for hmm
JPH10149191A (en) * 1996-09-20 1998-06-02 Nippon Telegr & Teleph Corp <Ntt> Method and device for adapting model and its storage medium
JPH10161692A (en) * 1996-12-03 1998-06-19 Canon Inc Voice recognition device, and method of recognizing voice
JP2000010582A (en) * 1998-06-19 2000-01-14 Nec Corp Speech recognizing device
JP2002268675A (en) * 2001-03-13 2002-09-20 Nec Corp Voice recognition device
JP2003263186A (en) * 2002-03-08 2003-09-19 Ricoh Co Ltd Voice recognition device, voice recognition method, and recording medium with the voice recognition program recorded thereon
JP2004109464A (en) * 2002-09-18 2004-04-08 Pioneer Electronic Corp Device and method for speech recognition

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0822296A (en) * 1994-07-07 1996-01-23 Nippon Telegr & Teleph Corp <Ntt> Pattern recognition method
JPH08248976A (en) * 1995-03-10 1996-09-27 Atr Onsei Honyaku Tsushin Kenkyusho:Kk Speaker adaptation device and speech recognizer
JPH0990981A (en) * 1995-09-22 1997-04-04 Nippon Telegr & Teleph Corp <Ntt> Model learning method for pattern recognition
JPH09114483A (en) * 1995-10-23 1997-05-02 Sanyo Electric Co Ltd Learning device for hmm
JPH10149191A (en) * 1996-09-20 1998-06-02 Nippon Telegr & Teleph Corp <Ntt> Method and device for adapting model and its storage medium
JPH10161692A (en) * 1996-12-03 1998-06-19 Canon Inc Voice recognition device, and method of recognizing voice
JP2000010582A (en) * 1998-06-19 2000-01-14 Nec Corp Speech recognizing device
JP2002268675A (en) * 2001-03-13 2002-09-20 Nec Corp Voice recognition device
JP2003263186A (en) * 2002-03-08 2003-09-19 Ricoh Co Ltd Voice recognition device, voice recognition method, and recording medium with the voice recognition program recorded thereon
JP2004109464A (en) * 2002-09-18 2004-04-08 Pioneer Electronic Corp Device and method for speech recognition

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007248742A (en) * 2006-03-15 2007-09-27 Nippon Telegr & Teleph Corp <Ntt> Sound model adaptation apparatus, sound model adaptation method, sound model adaptation program and its recording medium
JP4571921B2 (en) * 2006-03-15 2010-10-27 日本電信電話株式会社 Acoustic model adaptation apparatus, acoustic model adaptation method, acoustic model adaptation program, and recording medium thereof
JP2008122927A (en) * 2006-09-13 2008-05-29 Honda Motor Co Ltd Speech recognition method for robot under motor noise thereof
US8107735B2 (en) 2007-04-10 2012-01-31 Denso Corporation Three dimensional shape reconstitution device and estimation device
CN117706376A (en) * 2024-02-04 2024-03-15 深圳海辰储能科技有限公司 Battery capacity prediction method and device, electronic equipment and storage medium
CN117706376B (en) * 2024-02-04 2024-05-24 深圳海辰储能科技有限公司 Battery capacity prediction method and device, electronic equipment and storage medium

Also Published As

Publication number Publication date
JP4510517B2 (en) 2010-07-28

Similar Documents

Publication Publication Date Title
JP5418223B2 (en) Speech classification device, speech classification method, and speech classification program
Gales Model-based techniques for noise robust speech recognition
US7065488B2 (en) Speech recognition system with an adaptive acoustic model
JP2006215564A (en) Method and apparatus for predicting word accuracy in automatic speech recognition systems
US6327565B1 (en) Speaker and environment adaptation based on eigenvoices
WO2010128560A1 (en) Voice recognition device, voice recognition method, and voice recognition program
Gales et al. Model-based approaches to handling additive noise in reverberant environments
JP5713818B2 (en) Noise suppression device, method and program
JP2751856B2 (en) Pattern adaptation method using tree structure
JP4510517B2 (en) Acoustic model noise adaptation method and apparatus for implementing the method
JP5740362B2 (en) Noise suppression apparatus, method, and program
CN102237082B (en) Self-adaption method of speech recognition system
Kurian A review on technological development of automatic speech recognition
KR20020020237A (en) Method for recognizing speech
JP2007078943A (en) Acoustic score calculating program
GB2480084A (en) An adaptive speech processing system
JP5104732B2 (en) Extended recognition dictionary learning device, speech recognition system using the same, method and program thereof
JPH08110792A (en) Speaker adaptation device and speech recognition device
JP6612796B2 (en) Acoustic model learning device, speech recognition device, acoustic model learning method, speech recognition method, acoustic model learning program, and speech recognition program
JP2000259198A (en) Device and method for recognizing pattern and providing medium
JP4004368B2 (en) Speech recognition system
JP2005321660A (en) Statistical model creating method and device, pattern recognition method and device, their programs and recording medium
Chaurasiya et al. Ambience inhaling: Speech noise inhaler in mobile robots using deep learning
JP4571921B2 (en) Acoustic model adaptation apparatus, acoustic model adaptation method, acoustic model adaptation program, and recording medium thereof
JP3251005B2 (en) Standard pattern creation method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060725

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20060725

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090519

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090715

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100420

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100430

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130514

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140514

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees