JP2014013324A - Sound model adaptation device, sound model adaptation method, and sound model adaptation program - Google Patents

Sound model adaptation device, sound model adaptation method, and sound model adaptation program Download PDF

Info

Publication number
JP2014013324A
JP2014013324A JP2012150743A JP2012150743A JP2014013324A JP 2014013324 A JP2014013324 A JP 2014013324A JP 2012150743 A JP2012150743 A JP 2012150743A JP 2012150743 A JP2012150743 A JP 2012150743A JP 2014013324 A JP2014013324 A JP 2014013324A
Authority
JP
Japan
Prior art keywords
noise
adaptation
acoustic model
unit
gaussian distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012150743A
Other languages
Japanese (ja)
Other versions
JP5966689B2 (en
Inventor
Hideji Komeichi
秀治 古明地
Takayuki Arakawa
隆行 荒川
Takafumi Koshinaka
孝文 越仲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2012150743A priority Critical patent/JP5966689B2/en
Publication of JP2014013324A publication Critical patent/JP2014013324A/en
Application granted granted Critical
Publication of JP5966689B2 publication Critical patent/JP5966689B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a sound model adaptation device, a sound model adaptation method, and a sound model adaptation program capable of performing noise adaptation of a sound model in lower computations amount without degrading adaptation accuracy.SOLUTION: A first noise adaptation part 20-1 increases sound model, which is adapted for noise, and performs noise adaptation. A second noise adaptation part 20-2 performs noise adaptation using linear approximation. An adaptation system selection part 10 selects the first noise adaptation part 20-1 or the second noise adaptation part 20-2 based on statistics value of noise, which is adapted to a sound model and the sound model.

Description

本発明は、音響モデルを雑音に適応させるための音響モデル適応装置、音響モデル適応方法および音響モデル適応プログラムに関する。   The present invention relates to an acoustic model adaptation apparatus, an acoustic model adaptation method, and an acoustic model adaptation program for adapting an acoustic model to noise.

音声認識装置の性能は、実運用における雑音の影響によって著しく劣化するため、耐雑音手法が必要となる。性能劣化の原因は、音響モデル学習時に用いられた音声信号(以下、学習データと記す。)と、実運用で認識対象となる音声信号(以下、テストデータと記す。)とが異なることにより生じる、音響モデルとテストデータとの間の不一致である。このような不一致を抑制することを目的とした音声認識向けの耐雑音手法として、モデル適応法がある。   Since the performance of the speech recognition apparatus is significantly deteriorated due to the influence of noise in actual operation, a noise resistance method is required. The cause of performance degradation is caused by the difference between the audio signal used during acoustic model learning (hereinafter referred to as learning data) and the audio signal that is to be recognized in actual operation (hereinafter referred to as test data). There is a discrepancy between the acoustic model and the test data. There is a model adaptation method as a noise proofing method for speech recognition aimed at suppressing such inconsistency.

モデル適応法は、テストデータが含む雑音の統計量(以下、雑音統計量という。)を音響モデルに反映させることで、音響モデルを構成する混合ガウス分布を、テストデータが作る分布に近づける。雑音の統計量は、例えば、雑音の特徴量の平均や分散である。モデル適応法として、例えば、VTS(Vector Taylor Series)適応法がある(例えば、非特許文献1参照。)。VTS適応法は、MFCC(Mel−Frequency Cepstral Coefficient)のような音響特徴量空間における、音声と雑音、雑音付加音声との関係を規定する非線形関数を1次テイラー近似し、クリーン音響モデル(学習データにクリーンな音声を使用して学習した音響モデル)を雑音に適応する。これにより、VTS適応法は、非線形関数から生じる複雑さを排除し、線形演算のみの低演算な雑音適応を行う。   In the model adaptation method, the noise statistic (hereinafter referred to as noise statistic) included in the test data is reflected in the acoustic model, thereby bringing the mixed Gaussian distribution constituting the acoustic model closer to the distribution created by the test data. The noise statistic is, for example, the average or variance of the noise feature. As a model adaptation method, for example, there is a VTS (Vector Taylor Series) adaptation method (see, for example, Non-Patent Document 1). The VTS adaptation method performs first-order Taylor approximation of a nonlinear function that defines the relationship between speech, noise, and noise-added speech in an acoustic feature space such as the MFCC (Mel-Frequency Cepstial Coefficient), and provides a clean acoustic model (learning data). The acoustic model learned using clean speech is adapted to noise. As a result, the VTS adaptation method eliminates the complexity resulting from the non-linear function and performs low-computation noise adaptation using only linear computation.

しかし、VTS適応法では、分散が大きい、または、非線形性の影響が大きい領域に平均を持つガウス分布の雑音適応に際して、テイラー近似の誤差が大きくなり、適応精度を劣化させる。そこで、予め、適応する音響モデルのガウス分布の個数を認識時に必要とする個数よりも増やして学習しておく。これにより、各々のガウス分布の分散が小さくなり、線形近似による誤差を小さくすることができる。しかし、ガウス分布の個数を増やした音響モデルを予め用意することにより、計算量が増加してしまうことが短所となる。   However, in the VTS adaptation method, the error of Taylor approximation becomes large and the adaptation accuracy is deteriorated in noise adaptation of a Gaussian distribution having an average in a region where the variance is large or the influence of nonlinearity is large. Therefore, learning is performed in advance by increasing the number of Gaussian distributions of the acoustic model to be adapted to the number necessary for recognition. Thereby, the variance of each Gaussian distribution becomes small, and the error by linear approximation can be made small. However, the disadvantage is that the amount of calculation increases by preparing in advance an acoustic model with an increased number of Gaussian distributions.

ガウス分布の個数を増やした音響モデルを用意出来ない場合に、適応精度の劣化を抑える方法として、UT(Unscented Transform)適応法がある(例えば、特許文献1参照。)。UT適応法では、ガウス分布毎に「シグマポイント」と呼ばれるサンプルの集合を生成し、サンプル点毎に雑音適応し、雑音適応ガウス分布を生成する。サンプル点の生成は、ガウス分布の個数を増やす処理に準ずる。これにより、UT適応法は、ガウス分布の個数を増やした音響モデルが用意できない場合において、VTS適応法よりも高い精度で、音響モデルを雑音適応できる。   As a method for suppressing degradation of adaptation accuracy when an acoustic model with an increased number of Gaussian distributions cannot be prepared, there is a UT (Unsented Transform) adaptation method (see, for example, Patent Document 1). In the UT adaptation method, a set of samples called “sigma points” is generated for each Gaussian distribution, noise is applied to each sample point, and a noise adaptive Gaussian distribution is generated. The generation of sample points follows the process of increasing the number of Gaussian distributions. As a result, the UT adaptation method can apply noise to the acoustic model with higher accuracy than the VTS adaptation method when an acoustic model with an increased number of Gaussian distributions cannot be prepared.

特開2010−078650号公報JP 2010-077865 A

A. Acero, L. Deng, T. Kristjansson, and J. Zhang, “HMM Adaptation using Vector Taylor Series for Noisy Speech Recognition”, in Proc.ICSLP, Vol.3, pp. 869−872, 2000.A. Acero, L.M. Deng, T.A. Kristjansson, and J.M. Zhang, “HMM Adaptation using Vector Taylor Series for Noise Speech Recognition”, in Proc. ICSLP, Vol. 3, pp. 869-872, 2000.

しかし、クリーン音響モデルを構成するガウス分布の中には、線形近似を用いた雑音適応をしても適応誤差が小さいものが存在する。このため、クリーン音響モデルの全てのガウス分布に対して、ガウス分布を増やしてVTS適応法を実施する方法や、シグマポイントを生成するUT適応法といった、高精度だが高演算量を必要とする方法を適用することは計算量の無駄である。   However, some of the Gaussian distributions constituting the clean acoustic model have a small adaptation error even if noise adaptation using linear approximation is performed. For this reason, for all Gaussian distributions of the clean acoustic model, a method that increases the Gaussian distribution and implements the VTS adaptation method or a UT adaptation method that generates sigma points requires a high accuracy but requires a large amount of computation. Applying is wasteful of computational complexity.

そこで、本発明は、適応精度を劣化させることなく、より低演算量で音響モデルを雑音適応することができる音響モデル適応装置および音響モデル適応方法および音響モデル適応プログラムを提供することを目的とする。   Accordingly, an object of the present invention is to provide an acoustic model adaptation device, an acoustic model adaptation method, and an acoustic model adaptation program that can noise-adapt an acoustic model with a lower amount of computation without deteriorating adaptation accuracy. .

本発明による音響モデル適応装置は、音響モデルを雑音に適応して雑音音響モデルを生成する音響モデル適応装置であって、雑音に適応する音響モデルを増やして雑音適応する第一の雑音適応部と、線形近似を用いて雑音適応する第二の雑音適応部と、音響モデルと当該音響モデルを適応する雑音の統計量とに基づいて、第一の雑音適応部または第二の雑音適応部を選択する適応方式選択部とを備えたことを特徴とする。   An acoustic model adaptation apparatus according to the present invention is an acoustic model adaptation apparatus that generates a noise acoustic model by adapting an acoustic model to noise, and includes a first noise adaptation unit that performs noise adaptation by increasing the number of acoustic models adapted to noise. Select the first noise adaptor or the second noise adaptor based on the second noise adaptor that adapts to noise using linear approximation and the acoustic model and the noise statistic that adapts the acoustic model And an adaptive method selection unit.

本発明による音響モデル適応方法は、音響モデルを雑音に適応して雑音音響モデルを生成する音響モデル適応方法であって、音響モデルと当該音響モデルを適応する雑音の統計量とに基づいて、雑音に適応する音響モデルを増やして雑音適応を行うか、または、線形近似を用いて雑音適応を行うかを選択し、選択に基づいて雑音適応を行うことを特徴とする。   An acoustic model adaptation method according to the present invention is an acoustic model adaptation method for generating a noise acoustic model by adapting an acoustic model to noise, and based on the acoustic model and a noise statistic for adapting the acoustic model. It is characterized in that it is selected whether to perform noise adaptation by increasing the number of acoustic models adapted to, or to perform noise adaptation using linear approximation, and to perform noise adaptation based on the selection.

本発明による音響モデル適応プログラムは、音響モデルを雑音に適応して雑音音響モデルを生成する音響モデル適応装置における音響モデル適応プログラムであって、コンピュータに、音響モデルと当該音響モデルを適応する雑音の統計量とに基づいて、雑音に適応する音響モデルを増やして雑音適応を行うか、または、線形近似を用いて雑音適応を行うかを選択し、選択に基づいて雑音適応を行う処理を実行させることを特徴とする。   An acoustic model adaptation program according to the present invention is an acoustic model adaptation program in an acoustic model adaptation apparatus that generates a noise acoustic model by adapting an acoustic model to noise. Based on the statistics, select whether to perform noise adaptation by increasing the number of acoustic models that adapt to noise, or to perform noise adaptation using linear approximation, and execute the process of performing noise adaptation based on the selection It is characterized by that.

本発明によれば、高演算かつ高精度な方法と比較して同程度の適応精度で、つまり、適応精度を劣化させることなく、より低演算量で音響モデルを雑音適応することができる。   According to the present invention, an acoustic model can be noise-adapted with the same degree of adaptation accuracy as compared with a high-calculation and high-accuracy method, that is, without lowering the adaptation accuracy.

本発明による音響モデル適応装置の第1の実施形態における構成を示すブロック図である。It is a block diagram which shows the structure in 1st Embodiment of the acoustic model adaptation apparatus by this invention. 第1の実施形態における音響モデル適応装置の動作の一例を示すフローチャートである。It is a flowchart which shows an example of operation | movement of the acoustic model adaptation apparatus in 1st Embodiment. 本発明による音響モデル適応装置の第2の実施形態における構成を示すブロック図である。It is a block diagram which shows the structure in 2nd Embodiment of the acoustic model adaptation apparatus by this invention. 第2の実施形態における第一の雑音適応部の動作の一例を示すフローチャートである。It is a flowchart which shows an example of operation | movement of the 1st noise adaptation part in 2nd Embodiment. 認識に用いるガウス分布集合と第一の雑音適応部で用いるガウス分布集合との関係を示す木構造の音響モデルの構成の一例を示す説明図である。It is explanatory drawing which shows an example of a structure of the acoustic model of a tree structure which shows the relationship between the Gaussian distribution set used for recognition, and the Gaussian distribution set used in the 1st noise adaptation part. 本発明による音響モデル適応装置の第3の実施形態における構成を示すブロック図である。It is a block diagram which shows the structure in 3rd Embodiment of the acoustic model adaptation apparatus by this invention. 第3の実施形態における適応方式選択部303の動作の一例を示すフローチャートである。It is a flowchart which shows an example of operation | movement of the adaptive system selection part 303 in 3rd Embodiment. 本発明による音響モデル適応装置の最小構成を示すブロック図である。It is a block diagram which shows the minimum structure of the acoustic model adaptation apparatus by this invention. 本発明による音響モデル適応装置の他の最小構成を示すブロック図である。It is a block diagram which shows the other minimum structure of the acoustic model adaptation apparatus by this invention.

実施形態1.
以下、本発明の第1の実施形態を図面を参照して説明する。
Embodiment 1. FIG.
A first embodiment of the present invention will be described below with reference to the drawings.

図1は、本発明による音響モデル適応装置の第1の実施形態における構成を示すブロック図である。図1に示すように、音響モデル適応装置100は、雑音統計量取得部101と、ガウス分布取得部102と、適応方式選択部103と、第一の雑音適応部104と、第二の雑音適応部105と、ガウス分布格納部106とを備える。   FIG. 1 is a block diagram showing the configuration of the acoustic model adaptation apparatus according to the first embodiment of the present invention. As shown in FIG. 1, the acoustic model adaptation apparatus 100 includes a noise statistic acquisition unit 101, a Gaussian distribution acquisition unit 102, an adaptation method selection unit 103, a first noise adaptation unit 104, and a second noise adaptation. Unit 105 and a Gaussian distribution storage unit 106.

また、図1に示すように、音響モデル適応装置100は、音響モデル適応装置100が入力する情報を記憶するクリーン音響モデル記憶装置1および雑音統計量記憶装置2と接続される。また、音響モデル適応装置100は、音響モデル適応装置100が出力する情報を記憶する雑音適応音響モデル記憶装置3と接続される。   As shown in FIG. 1, the acoustic model adaptation device 100 is connected to a clean acoustic model storage device 1 and a noise statistic storage device 2 that store information input by the acoustic model adaptation device 100. The acoustic model adaptation device 100 is connected to a noise adaptive acoustic model storage device 3 that stores information output from the acoustic model adaptation device 100.

なお、雑音統計量取得部101、ガウス分布取得部102、適応方式選択部103、第一の雑音適応部104、第二の雑音適応部105およびガウス分布格納部106は、音響モデル適応装置100が備えるCPU等によって実現される。   The noise statistic acquisition unit 101, the Gaussian distribution acquisition unit 102, the adaptation method selection unit 103, the first noise adaptation unit 104, the second noise adaptation unit 105, and the Gaussian distribution storage unit 106 are included in the acoustic model adaptation apparatus 100. This is realized by a CPU or the like provided.

図2は、第1の実施形態における音響モデル適応装置100の動作の一例を示すフローチャートである。   FIG. 2 is a flowchart illustrating an example of the operation of the acoustic model adaptation device 100 according to the first embodiment.

図2に示すように、雑音統計量取得部101が、雑音統計量記憶装置2から雑音統計量を取得する(ステップS101)。ガウス分布取得部102が、クリーン音響モデル記憶装置1からクリーン音響モデルを構成するガウス分布パラメータを一つずつ取得する(ステップS102)。適応方式選択部103が、ステップS101において取得された雑音統計量と、ステップS102において取得されたガウス分布パラメータとを基に、適応方式に第一の雑音適応部104の方式を用いるか、第二の雑音適応部105の方式を用いるか、を選択する(ステップS103)。つまり、第一の雑音適応部104と第二の雑音適応部105のどちらに雑音適応を実行させるか、を選択する。   As shown in FIG. 2, the noise statistic acquisition unit 101 acquires a noise statistic from the noise statistic storage device 2 (step S101). The Gaussian distribution acquisition unit 102 acquires the Gaussian distribution parameters constituting the clean acoustic model one by one from the clean acoustic model storage device 1 (step S102). Based on the noise statistic acquired in step S101 and the Gaussian distribution parameter acquired in step S102, the adaptive scheme selection unit 103 uses the scheme of the first noise adaptation unit 104 as the adaptation scheme, or second It is selected whether to use the method of the noise adaptation unit 105 (step S103). That is, it is selected which of the first noise adaptation unit 104 and the second noise adaptation unit 105 is to perform noise adaptation.

適応方式選択部103が第一の雑音適応部104の方式を選択した場合は(ステップS103におけるYes)、第一の雑音適応部104が、ガウス分布パラメータを雑音適応する(ステップS104)。適応方式選択部103が第二の雑音適応部105の方式を選択した場合は(ステップS103におけるNo)、第二の雑音適応部105が、ガウス分布パラメータを雑音適応する(ステップS105)。   When the adaptation scheme selection unit 103 selects the scheme of the first noise adaptation unit 104 (Yes in step S103), the first noise adaptation unit 104 performs noise adaptation on the Gaussian distribution parameter (step S104). When the adaptation scheme selection unit 103 selects the scheme of the second noise adaptation unit 105 (No in step S103), the second noise adaptation unit 105 performs noise adaptation on the Gaussian distribution parameter (step S105).

ガウス分布格納部106は、雑音適応したガウス分布パラメータ(以下、雑音適応音響モデルという。)を、雑音適応音響モデル記憶装置3に格納する(ステップS106)。   The Gaussian distribution storage unit 106 stores the noise-adapted Gaussian distribution parameter (hereinafter referred to as a noise adaptive acoustic model) in the noise adaptive acoustic model storage device 3 (step S106).

次に、本実施形態における音響モデル適応装置100が備える各構成要素の詳細について説明する。   Next, the detail of each component with which the acoustic model adaptation apparatus 100 in this embodiment is provided is demonstrated.

まず、音響モデル適応装置100が入力する情報を記憶するクリーン音響モデル記憶装置1および雑音統計量記憶装置2、音響モデル適応装置100が出力する情報を記憶する雑音適応音響モデル記憶装置3の詳細を説明する。次に、音響モデル適応装置100の構成要素である、雑音統計量取得部101、ガウス分布取得部102、適応方式選択部103、第一の雑音適応部104、第二の雑音適応部105、ガウス分布格納部105の詳細を説明する。   First, the details of the clean acoustic model storage device 1 and the noise statistic storage device 2 for storing information input by the acoustic model adaptation device 100 and the noise adaptive acoustic model storage device 3 for storing information output by the acoustic model adaptation device 100 will be described. explain. Next, the noise statistic acquisition unit 101, the Gaussian distribution acquisition unit 102, the adaptation method selection unit 103, the first noise adaptation unit 104, the second noise adaptation unit 105, and the Gauss, which are components of the acoustic model adaptation device 100. Details of the distribution storage unit 105 will be described.

クリーン音響モデル記憶装置1は、学習データにクリーンな音声を使用して学習したクリーン音響モデルを記憶する。以下、学習及び認識に用いる特徴量を、パワーに相当するC0特徴量を含むMFCC13次元とする。C0特徴量は、MFCC13次元の0次の要素である。なお、MFCC13次元、その一次動的成分(13次元)及び二次動的成分(13次元)で構成される計39次元のベクトルとしてもよい。なお、パワーに相当する特徴量を含めば、例示したものに限らずあらゆる特徴量を使用することができる。以下の説明で、クリーン音響モデルのガウス分布における平均と分散をそれぞれ次のように表す。   The clean acoustic model storage device 1 stores a clean acoustic model learned using clean speech as learning data. Hereinafter, the feature quantity used for learning and recognition is the MFCC 13 dimension including the C0 feature quantity corresponding to power. The C0 feature amount is an MFCC 13-dimensional zeroth-order element. Note that a vector of 39 dimensions in total composed of MFCC 13 dimensions, its primary dynamic components (13 dimensions), and secondary dynamic components (13 dimensions) may be used. In addition, if the feature-value corresponding to power is included, not only what was illustrated but all the feature-values can be used. In the following description, the mean and variance in the Gaussian distribution of the clean acoustic model are expressed as follows.

μx,i,Σx,i(i=1,…,N) μ x, i , Σ x, i (i = 1,..., N)

ここで、添え字xはクリーン音響モデルのパラメータであることを示す。添え字iはガウス分布の分布ID番号を示す。Nはクリーン音響モデルに含まれるガウス分布の総数を示す。   Here, the subscript x indicates a parameter of the clean acoustic model. The subscript i indicates the distribution ID number of the Gaussian distribution. N indicates the total number of Gaussian distributions included in the clean acoustic model.

雑音統計量記憶装置2は、適応に用いる雑音の統計量を記憶する。本実施形態では、雑音統計量記憶装置2は、認識で用いるものと同じ特徴量領域における雑音の平均、分散を、雑音の統計量として記憶する。特徴量領域は、ある処理によって作られた特徴量の集合または空間をいう。以下の説明では、雑音の平均、分散をそれぞれ次のように表す。   The noise statistics storage device 2 stores noise statistics used for adaptation. In the present embodiment, the noise statistic storage device 2 stores the average and variance of noise in the same feature quantity region as that used for recognition as noise statistic. The feature amount area refers to a set or space of feature amounts created by a certain process. In the following description, the mean and variance of noise are expressed as follows.

μ,Σ μ n , Σ n

雑音適応音響モデル記憶装置3は、音響モデル適応装置100によって適応された雑音適応音響モデルを記憶する。以下の説明では、音響モデルの各ガウス分布パラメータである平均と分散とを次のように表す。   The noise adaptive acoustic model storage device 3 stores the noise adaptive acoustic model adapted by the acoustic model adaptation device 100. In the following description, the mean and variance, which are each Gaussian distribution parameter of the acoustic model, are expressed as follows.

μy ̄,i,Σy ̄,i(i=1,…,N) μ y ̄, i , Σ y ̄, i (i = 1,..., N)

ここで、添え字y ̄( ̄は、yの上に付く。以下同じ。)は雑音適応音響モデルのパラメータであることを示す。添え字iはガウス分布の分布ID番号を示す。   Here, the subscript y ̄ ( ̄ is on y. The same applies hereinafter) indicates that it is a parameter of the noise adaptive acoustic model. The subscript i indicates the distribution ID number of the Gaussian distribution.

雑音統計量取得部101は、雑音統計量記憶装置2に格納されている雑音統計量μ,Σを取得し、適応方式選択部103と、第一の雑音適応部104と、第二の雑音適応部105とに渡す。 The noise statistic acquisition unit 101 acquires the noise statistic μ n and Σ n stored in the noise statistic storage device 2, and the adaptive method selection unit 103, the first noise adaptation unit 104, and the second It passes to the noise adaptation unit 105.

ガウス分布取得部102は、クリーン音響モデル記憶装置1に格納されているクリーン音響モデルのN個のガウス分布パラメータμx,i,Σx,i(i=1,…,N)を一つずつ取得し適応方式選択部103に渡す。 The Gaussian distribution acquisition unit 102 stores N pieces of Gaussian distribution parameters μ x, i , Σ x, i (i = 1,..., N) of the clean acoustic model stored in the clean acoustic model storage device 1 one by one. Obtained and passed to the adaptive method selection unit 103.

適応方式選択部103は、ガウス分布取得部102と雑音統計量取得部101とからそれぞれ渡された、クリーン音響モデルのガウス分布パラメータ{μx,i,Σx,i}と雑音統計量{μ,Σ}とを比較する。適応方式選択部103は、比較の結果に応じて、ガウス分布パラメータ{μx,i,Σx,i}を、第一の雑音適応部104で雑音適応するべきか、第二の雑音適応部105で雑音適応するべきかを選択する。以下に示すように、当該比較は、スカラー関数Comp(μx,i,Σx,i,μ,Σ)を導入し、これが閾値Th以上の値か、閾値Th未満の値かを調べることで行う。 The adaptive scheme selection unit 103 receives the clean acoustic model Gaussian distribution parameters {μ x, i , Σ x, i } and the noise statistics {μ, respectively passed from the Gaussian distribution acquisition unit 102 and the noise statistics acquisition unit 101. Compare n , Σ n }. The adaptation method selection unit 103 determines whether the first noise adaptation unit 104 should perform noise adaptation on the Gaussian distribution parameters {μ x, i , Σ x, i } according to the comparison result, or determines whether the second noise adaptation unit 104 In 105, it is selected whether noise adaptation should be performed. As shown below, the comparison introduces a scalar function Comp (μ x, i , Σ x, i , μ n , Σ n ), and checks whether this is a value greater than or equal to a threshold Th. Do that.

Figure 2014013324
Figure 2014013324

式1を満たすとき、適応方式選択部103は、ガウス分布パラメータ{μx,i,Σx,i}を第二の雑音適応部105に渡す。 When Expression 1 is satisfied, the adaptation method selection unit 103 passes the Gaussian distribution parameter {μ x, i , Σ x, i } to the second noise adaptation unit 105.

Figure 2014013324
Figure 2014013324

式2を満たすとき、適応方式選択部103は、ガウス分布パラメータ{μx,i,Σx,i}を第一の雑音適応部104に渡す。 When Expression 2 is satisfied, the adaptive method selection unit 103 passes the Gaussian distribution parameters {μ x, i , Σ x, i } to the first noise adaptation unit 104.

次に、Comp(μx,i,Σx,i,μ,Σ)の具体的な例を説明する。 Next, a specific example of Comp (μ x, i , Σ x, i , μ n , Σ n ) will be described.

適応方式を選択する場合、例えば、ガウス分布の平均μx,iと雑音の平均μとのC0特徴量の差分を調べればよい。このとき、ガウス分布の平均μx,iのC0特徴量、雑音の平均μのC0特徴量をそれぞれ、(μx,i、(μとすれば、比較関数は式3のようになる。 When the adaptive method is selected, for example, a difference in C0 feature value between the average μ x, i of the Gaussian distribution and the average μ n of the noise may be examined. At this time, if the C0 feature quantity of the average μ x, i of the Gaussian distribution and the C0 feature quantity of the average μ n of the noise are (μ x, i ) 0 and (μ n ) 0 respectively, the comparison function is expressed by the following equation (3). become that way.

Figure 2014013324
Figure 2014013324

これは、C0特徴量はパワーに関する特徴量であることと、音声と雑音のパワーの差の大きさは雑音付加音声を示す非線形関数の非線形の度合いに影響を与えることとを利用している。   This utilizes the fact that the C0 feature amount is a feature amount related to power, and that the magnitude of the difference between the power of speech and noise affects the degree of nonlinearity of the nonlinear function indicating the noise-added speech.

また、適応方式を選択する場合に、ガウス分布の分散のC0特徴量を用いてもよい。これは、線形近似による適応誤差は適応するガウス分布の分散の大きさにも依存するためである。ここで、(f(x,n))を、雑音付加音声のC0特徴量を示す非線形関数とする(x,nは、それぞれ、音声、雑音の特徴量とする。)。なお、f(x,n)は、具体的には、式4のように示される。式4において、DはDCT行列を示し、D−1はDCT逆行列を示す。 Further, when an adaptive method is selected, a C0 feature value of Gaussian distribution variance may be used. This is because the adaptation error due to linear approximation also depends on the magnitude of the variance of the Gaussian distribution to be adapted. Here, (f (x, n)) 0 is a non-linear function indicating the C0 feature amount of noise-added speech (x and n are speech and noise feature amounts, respectively). Note that f (x, n) is specifically expressed as in Expression 4. In Equation 4, D represents a DCT matrix, and D −1 represents a DCT inverse matrix.

Figure 2014013324
Figure 2014013324

(f(x,n))のx=μx,i、n=μにおけるテイラー近似式のC0特徴量を、(f ̄μx,i,μ(x、n))と表す( ̄は、fの上に付く。μx,i,μはfの添え字を表す。以下同じ。)。ここで、f ̄μx,i,μは式5のように示される。 (F (x, n)) 0 of x = μ x, i, the C0 feature quantity Taylor approximation formula in n = μ n, expressed as (f¯μ x, i, μ n (x, n)) 0 ( ̄ is placed on f. Μ x, i and μ n represent subscripts of f. The same shall apply hereinafter.) Here, f ̄μ x, i , μ n is expressed as in Equation 5.

Figure 2014013324
Figure 2014013324

式5におけるFは、f(x、n)のxに関する、x=μx,i、n=μにおけるヤコビアンを示す。ガウス分布の分散Σx,iから導出される、C0特徴量に関する2個のシグマポイントを、σ1,0=+√(Σx,i、σ2,0=−√(Σx,iとする。すると、比較関数は、式6のように示される。なお、(Σx,iは、0列目のベクトルとする。 F i in Equation 5 represents the Jacobian at x = μ x, i and n = μ n with respect to x of f (x, n). Two sigma points related to the C0 feature amount derived from the variance Σ x, i of the Gaussian distribution are expressed as σ 1,0 = + √ (Σ x, i ) 0 , σ 2,0 = −√ (Σ x, i ) Set to 0 . Then, the comparison function is expressed as shown in Equation 6. Note that (Σ x, i ) 0 is a vector in the 0th column.

Figure 2014013324
Figure 2014013324

なお、式3、式6のComp(μx,i,Σx,i,μ,Σ)を、それぞれComp(μx,i,Σx,i,μ,Σ)、Comp(μx,i,Σx,i,μ,Σ)として、それぞれの線形和を比較関数としてもよい。式7は、そのときの比較関数を示す。w、wは重みを表す。 It should be noted that Comp (μ x, i , Σ x, i , μ n , Σ n ) of Equation 3 and Equation 6 is expressed as Comp 1x, i , Σ x, i , μ n , Σ n ), Comp, respectively. 2x, i , Σ x, i , μ n , Σ n ), and the respective linear sums may be used as comparison functions. Equation 7 shows the comparison function at that time. w 1 and w 2 represent weights.

Figure 2014013324
Figure 2014013324

また、式6に関して、C0特徴量以外の特徴量を用いてもよい。例えば、全ての特徴量を使うとすると、式8のように表すことができる。   In addition, regarding Equation 6, a feature amount other than the C0 feature amount may be used. For example, if all the feature values are used, it can be expressed as Equation 8.

Figure 2014013324
Figure 2014013324

ここで、Jは特徴量の次元数を示し、σ1,j=+√(Σx,i、σ2,j=−√(Σx,iである。なお、(Σx,iは、行列Σx,iのj列目の列ベクトルを示す。なお、式1、2における最適な閾値Thや、式7における組み合わせ時の重みは、実験的に求めたものを使用してもよい。 Here, J represents the number of dimensions of the feature quantity, and is σ 1, j = + √ (Σ x, i ) j , σ 2, j = −√ (Σ x, i ) j . Note that (Σ x, i ) j represents a column vector of the j-th column of the matrix Σ x, i . Note that the optimum threshold Th in Equations 1 and 2 and the weight in combination in Equation 7 may be experimentally obtained.

第二の雑音適応部105は、VTS適応法を用いて、μy ̄,i,Σy ̄,iを出力する。特徴量をパワーに相当するC0特徴量を含むMFCC13次元としたときのVTS適応法による変換式は、以下のように表される。 Second noise adaptation unit 105 uses the VTS adaptive method, μ y¯, i, Σ y¯ , and outputs the i. A conversion formula according to the VTS adaptive method when the feature amount is the MFCC 13-dimensional including the C0 feature amount corresponding to the power is expressed as follows.

Figure 2014013324
Figure 2014013324

Figure 2014013324
Figure 2014013324

第二の雑音適応部105は、{μy ̄,i,Σy ̄,i}を、ガウス分布格納部106に渡す。なお、一次動的特徴量に関するパラメータ{Δμx,i,ΔΣx,i}や二次動的特徴量{ΔΔμx,i,ΔΔΣx,i}に関するパラメータのVTS適応法による変換式は、以下のように表される。 The second noise adaptation unit 105 passesy  ̄, i , Σ y  ̄, i } to the Gaussian distribution storage unit 106. In addition, the conversion formula by the VTS adaptive method of the parameter {Δμ x, i , ΔΣ x, i } relating to the primary dynamic feature quantity and the parameter relating to the secondary dynamic feature quantity {ΔΔμ x, i , ΔΔΣ x, i } is as follows: It is expressed as

Figure 2014013324
Figure 2014013324

Figure 2014013324
Figure 2014013324

Figure 2014013324
Figure 2014013324

Figure 2014013324
Figure 2014013324

ここで、ΔΣ,ΔΔΣは雑音の一次動的特徴量及び二次動的特徴量の分散を示す。 Here, ΔΣ n and ΔΔΣ n indicate the variance of the primary dynamic feature value and the secondary dynamic feature value of noise.

第一の雑音適応部104は、UT適応法を用いて、μy ̄,i,Σy ̄,iを出力する。特徴量をパワーに相当するC0特徴量を含むMFCC13次元としたときのUT適応法による変換式は、以下のように表される。 The first noise adaptation unit 104 outputs μ y  ̄, i , Σ y  ̄, i using the UT adaptation method. A conversion equation based on the UT adaptation method when the feature amount is the MFCC 13-dimensional including the C0 feature amount corresponding to the power is expressed as follows.

Figure 2014013324
Figure 2014013324

Figure 2014013324
Figure 2014013324

ここで、Sはシグマポイントを示し、式17のように表される。 Here, S k represents a sigma point and is expressed as in Expression 17.

Figure 2014013324
Figure 2014013324

μs,i,Σs,iは式18のように表される。 μ s, i , Σ s, i are expressed as in Equation 18.

Figure 2014013324
Figure 2014013324

ここで、D=13である。また、(√Σ)は行列Σのk列目のベクトルを示す。そして、w=1/4Dである。そして、{μy ̄,i,Σy ̄,i}を、ガウス分布格納部106に渡す。なお、一次動的特徴量に関するパラメータ{Δμx,i,ΔΣx,i}や二次動的特徴量{ΔΔμx,i,ΔΔΣx,i}に関するパラメータのUT適応法による変換式は、以下のように表される。 Here, D = 13. Further, (√Σ) k represents a vector in the k-th column of the matrix Σ. And w k = 1 / 4D. Then, {μ y ̄, i , Σ y, i } is passed to the Gaussian distribution storage unit 106. In addition, the conversion formula by the UT adaptive method of the parameter {Δμ x, i , ΔΣ x, i } relating to the primary dynamic feature quantity and the parameter relating to the secondary dynamic feature quantity {ΔΔμ x, i , ΔΔΣ x, i } is as follows: It is expressed as

Figure 2014013324
Figure 2014013324

Figure 2014013324
Figure 2014013324

Figure 2014013324
Figure 2014013324

Figure 2014013324
Figure 2014013324

F´は、式15におけるμy ̄,iのμx,iに関するヤコビアンを示す。 F ′ i indicates a Jacobian of μ y ̄, i in Expression 15 regarding μ x, i .

ガウス分布格納部106は、雑音適応したガウス分布パラメータ{μy ̄,i,Σy ̄,i}を雑音適応音響モデル記憶装置3に格納する。 The Gaussian distribution storage unit 106 stores noise-adapted Gaussian distribution parameters {μ y  ̄, i , Σ y  ̄, i } in the noise adaptive acoustic model storage device 3.

以上に説明したように、本実施形態では、ガウス分布の平均のC0特徴量と、雑音の平均のC0特徴量との差分が一定値以上である場合に、UT適応法を適用するようにしている。従って、本実施形態によれば、全ガウス分布にUT適応法を用いる場合と比較して、同程度の適応精度で、かつ、より低演算量で音響モデルを雑音適応できる。   As described above, in the present embodiment, the UT adaptation method is applied when the difference between the average C0 feature value of the Gaussian distribution and the average C0 feature value of the noise is a certain value or more. Yes. Therefore, according to the present embodiment, the acoustic model can be noise-adapted with the same degree of adaptation accuracy and with a lower amount of computation than when the UT adaptation method is used for the total Gaussian distribution.

実施形態2.
以下、本発明の第2の実施形態を図面を参照して説明する。
Embodiment 2. FIG.
Hereinafter, a second embodiment of the present invention will be described with reference to the drawings.

図3は、本発明による音響モデル適応装置の第2の実施形態における構成を示すブロック図である。   FIG. 3 is a block diagram showing the configuration of the acoustic model adaptation apparatus according to the second embodiment of the present invention.

音響モデル適応装置200の構成は、第1の実施形態における音響モデル適応装置100の構成と同様である。ただし、図3に示すように、音響モデル適応装置200は、詳細ガウス分布取得部207を備える。   The configuration of the acoustic model adaptation device 200 is the same as the configuration of the acoustic model adaptation device 100 in the first embodiment. However, as illustrated in FIG. 3, the acoustic model adaptation device 200 includes a detailed Gaussian distribution acquisition unit 207.

また、音響モデル適応装置200は、適応方式選択部103、第一の雑音適応部104の代わりに、適応方式選択部203、第一の雑音適応部204を備える。   The acoustic model adaptation apparatus 200 includes an adaptation method selection unit 203 and a first noise adaptation unit 204 instead of the adaptation method selection unit 103 and the first noise adaptation unit 104.

また、音響モデル適応装置200は、クリーン音響モデル記憶装置1および雑音統計量記憶装置2の他に、音響モデル適応装置200が入力する情報を記憶する詳細クリーン音響モデル記憶装置7と接続される。   In addition to the clean acoustic model storage device 1 and the noise statistic storage device 2, the acoustic model adaptation device 200 is connected to a detailed clean acoustic model storage device 7 that stores information input by the acoustic model adaptation device 200.

なお、適応方式選択部203、第一の雑音適応部204および詳細ガウス分布取得部207は、音響モデル適応装置200が備えるCPU等によって実現される。   The adaptation method selection unit 203, the first noise adaptation unit 204, and the detailed Gaussian distribution acquisition unit 207 are realized by a CPU or the like included in the acoustic model adaptation device 200.

なお、本実施形態における音響モデル適応装置200の動作の概要は、図2に示す音響モデル適応装置100の動作の概要と同様であるため、説明を省略する。   In addition, since the outline | summary of operation | movement of the acoustic model adaptation apparatus 200 in this embodiment is the same as the outline | summary of operation | movement of the acoustic model adaptation apparatus 100 shown in FIG. 2, description is abbreviate | omitted.

次に、本実施形態における音響モデル適応装置200が備える各構成要素の詳細について説明する。   Next, the detail of each component with which the acoustic model adaptation apparatus 200 in this embodiment is provided is demonstrated.

詳細クリーン音響モデル記憶装置7は、クリーン音響モデル記憶装置1が記憶するクリーン音響モデルのパラメータをさらに増加して学習した詳細クリーン音響モデルを格納する。以下の説明では、詳細クリーン音響モデルのガウス分布における平均と分散を、それぞれ次のように表す。   The detailed clean acoustic model storage device 7 stores the detailed clean acoustic model learned by further increasing the parameters of the clean acoustic model stored in the clean acoustic model storage device 1. In the following description, the mean and variance in the Gaussian distribution of the detailed clean acoustic model are respectively expressed as follows.

μx,ij,Σx,ij(i=1,…,N、j=1,…,N) μ x, ij , Σ x, ij (i = 1,..., N, j = 1,..., N)

ここで、μx,ij,Σx,ijは、クリーン音響モデルにおける分布IDをiとするガウス分布から派生したj番目のガウス分布パラメータである。 Here, μ x, ij , Σ x, ij are j-th Gaussian distribution parameters derived from a Gaussian distribution with a distribution ID i in the clean acoustic model.

適応方式選択部203は、ガウス分布取得部102と雑音統計量取得部101とからそれぞれ渡された、クリーン音響モデルのガウス分布パラメータ{μx,i,Σx,i}と雑音統計量{μ,Σ}とを比較する。当該比較は、第1の実施形態における適応方式選択部103と同じ方法であってもよい。適応方式選択部203は、比較の結果に応じて、ガウス分布パラメータ{μx,i,Σx,i}を、第一の雑音適応部204で雑音適応するべきか、第二の雑音適応部105で雑音適応するべきかを選択する。適応方式選択部203は、雑音適応に第一の雑音適応部204を選択した場合、詳細ガウス分布取得部207にクリーン音響モデルのガウス分布パラメータ{μx,i,Σx,i}を渡す。 The adaptive scheme selection unit 203 receives the clean acoustic model Gaussian distribution parameters {μ x, i , Σ x, i } and the noise statistics {μ, respectively passed from the Gaussian distribution acquisition unit 102 and the noise statistics acquisition unit 101. Compare n , Σ n }. The comparison may be the same method as the adaptive method selection unit 103 in the first embodiment. The adaptation method selection unit 203 determines whether the first noise adaptation unit 204 should perform noise adaptation on the Gaussian distribution parameters {μ x, i , Σ x, i } according to the comparison result, or the second noise adaptation unit. In 105, it is selected whether noise adaptation should be performed. When the first noise adaptation unit 204 is selected for noise adaptation, the adaptation method selection unit 203 passes the Gaussian distribution parameters {μ x, i , Σ x, i } of the clean acoustic model to the detailed Gaussian distribution acquisition unit 207.

詳細ガウス分布取得部207は、適応方式選択部203から受けるガウス分布パラメータ{μx,i,Σx,i}のID番号iに基づく、N個のガウス分布パラメータ{μx,ij,Σx,ij}(j=1,…,N)を詳細クリーン音響モデル記憶装置7から取得する。そして、詳細ガウス分布取得部207は、N個のガウス分布パラメータ{μx,ij,Σx,ij}(j=1,…,N)を第一の雑音適応部204に渡す。 The detailed Gaussian distribution acquisition unit 207 receives N i Gaussian distribution parameters {μ x, ij , Σ based on the ID number i of the Gaussian distribution parameters {μ x, i , Σ x, i } received from the adaptive method selection unit 203. x, ij } (j = 1,..., N i ) is acquired from the detailed clean acoustic model storage device 7. The detailed Gaussian distribution acquisition unit 207 then passes the N i Gaussian distribution parameters {μ x, ij , Σ x, ij } (j = 1,..., N i ) to the first noise adaptation unit 204.

第一の雑音適応部204は、N個のガウス分布パラメータ{μx,ij,Σx,ij}(j=1,…,N)を雑音適応する。第一の雑音適応部204は、雑音適応したガウス分布パラメータμy ̄,i,Σy ̄,iを出力する。 The first noise adaptation unit 204 performs noise adaptation on N i Gaussian distribution parameters {μ x, ij , Σ x, ij } (j = 1,..., N i ). The first noise adaptation unit 204 outputs Gaussian distribution parameters μ y  ̄, i , Σ y  ̄, i that are noise-adapted.

図4は、第2の実施形態における第一の雑音適応部204の動作の一例を示すフローチャートである。   FIG. 4 is a flowchart illustrating an example of the operation of the first noise adaptation unit 204 in the second embodiment.

図4に示すように、第一の雑音適応部204は、適応方式選択部203から受けるガウス分布パラメータ{μx,i,Σx,i}のID番号iに基づく、N個のガウス分布パラメータ{μx,ij,Σx,ij}(j=1,…,N)を取得する(ステップS2041)。 As shown in FIG. 4, the first noise adaptation unit 204 includes N i Gaussian distributions based on the ID numbers i of the Gaussian distribution parameters {μ x, i , Σ x, i } received from the adaptation method selection unit 203. Parameters {μ x, ij , Σ x, ij } (j = 1,..., N i ) are acquired (step S2041).

図5は、認識に用いるガウス分布集合と第一の雑音適応部204で用いるガウス分布集合との関係を示す木構造の音響モデル(木構造音響モデル)の構成の一例を示す説明図である。   FIG. 5 is an explanatory diagram showing an example of the configuration of a tree-structured acoustic model (tree-structured acoustic model) showing the relationship between the Gaussian distribution set used for recognition and the Gaussian distribution set used in the first noise adaptation unit 204.

第一の雑音適応部204は、それぞれのガウス分布に対して、式9、式10に示すVTS適応法を用いて、雑音特徴量{μ,Σ}に適応したN個のガウス分布パラメータ{μy ̄,ij,Σy ̄,ij}(j=1,…,N)を取得する(ステップS2042)。 First noise adaptation unit 204, for each Gaussian distribution formula 9, using the VTS adaptive method shown in Equation 10, the noise feature quantity {μ n, Σ n} N i number of Gaussian distribution adapted to Parameters {μ y  ̄, ij , Σ y  ̄, ij } (j = 1,..., N i ) are acquired (step S2042).

第一の雑音適応部204は、N個の雑音適応したガウス分布パラメータ{μy ̄,ij,Σy ̄,ij}(j=1,…,N)を一つのガウス分布パラメータに統合し、一つの雑音適応したガウス分布パラメータ{μy ̄,i,Σy ̄,i}を取得する(ステップS2042)。 The first noise adaptation unit 204 integrates N i noise-adapted Gaussian distribution parameters {μ y  ̄, ij , Σ y  ̄, ij } (j = 1,..., N i ) into one Gaussian distribution parameter. Then, one noise-adapted Gaussian distribution parameter {μ y  ̄, i , Σ y  ̄, i } is acquired (step S2042).

Figure 2014013324
Figure 2014013324

Figure 2014013324
Figure 2014013324

ここで、w´は混合重みで、Σj=1 Ni(w´)=1である。Σj=1 Niは、j=1からj=Nまでの総和を示す。混合重みは、実験的に定めてもよいし、等確率すなわち1/Nとしてもよい。そして、{μy ̄,i,Σy ̄,i}を、ガウス分布格納部106に渡す。 Here, w ′ j is a mixing weight, and Σ j = 1 Ni (w ′ j ) = 1. Σ j = 1 Ni indicates the total sum from j = 1 to j = N i . The mixing weight may be determined experimentally, or may be equal probability, that is, 1 / N i . Then, {μ y ̄, i , Σ y, i } is passed to the Gaussian distribution storage unit 106.

以上に説明したように、本実施形態では、ガウス分布の平均のC0特徴量と、雑音の平均のC0特徴量との差分が一定値以上である場合に、ガウス分布の混合数を増やしてVTS適応するようにしている。従って、本実施形態によれば、全ガウス分布の適応における計算量の増加を防止することができる。つまり、より低演算量で音響モデルを雑音適応できる。また、適応精度を劣化させることがない。   As described above, in this embodiment, when the difference between the average C0 feature value of the Gaussian distribution and the average C0 feature value of the noise is equal to or greater than a certain value, the number of Gaussian distributions is increased to increase the VTS. I try to adapt. Therefore, according to the present embodiment, it is possible to prevent an increase in the amount of calculation in adaptation of the total Gaussian distribution. That is, the acoustic model can be noise-adapted with a lower amount of computation. Further, the adaptation accuracy is not deteriorated.

実施形態3.
以下、本発明の第3の実施形態を図面を参照して説明する。
Embodiment 3. FIG.
Hereinafter, a third embodiment of the present invention will be described with reference to the drawings.

図6は、本発明による音響モデル適応装置の第3の実施形態における構成を示すブロック図である。   FIG. 6 is a block diagram showing the configuration of the acoustic model adaptation apparatus according to the third embodiment of the present invention.

音響モデル適応装置300の構成は、第1の実施形態における音響モデル適応装置100の構成と同様である。   The configuration of the acoustic model adaptation device 300 is the same as the configuration of the acoustic model adaptation device 100 in the first embodiment.

ただし、図6に示すように、音響モデル適応装置300は、適応方式選択部103の代わりに、適応方式選択部303を備える。また、音響モデル適応装置300は、第一の雑音適応部104と第二の雑音適応部105の代わりに、第一の雑音適応部3041と、第二の雑音適応部3042と、第三の雑音適応部3043(図示せず)と、第四の雑音適応部3044とを備える。   However, as illustrated in FIG. 6, the acoustic model adaptation device 300 includes an adaptation method selection unit 303 instead of the adaptation method selection unit 103. In addition, the acoustic model adaptation apparatus 300 includes a first noise adaptation unit 3041, a second noise adaptation unit 3042, and a third noise instead of the first noise adaptation unit 104 and the second noise adaptation unit 105. An adaptation unit 3043 (not shown) and a fourth noise adaptation unit 3044 are provided.

なお、本実施形態における音響モデル適応装置300の動作の概要は、図2に示す音響モデル適応装置100の動作の概要と同様である。ただし、図2に示すステップS104、S105に相当する分岐が雑音適応部の数に応じて増える。   The outline of the operation of the acoustic model adaptation apparatus 300 in the present embodiment is the same as the outline of the operation of the acoustic model adaptation apparatus 100 shown in FIG. However, branches corresponding to steps S104 and S105 shown in FIG. 2 increase according to the number of noise adaptation units.

なお、適応方式選択部303、第一の雑音適応部3041、第二の雑音適応部3042、第三の雑音適応部3043および第四の雑音適応部3044は、音響モデル適応装置300が備えるCPU等によって実現される。   Note that the adaptation method selection unit 303, the first noise adaptation unit 3041, the second noise adaptation unit 3042, the third noise adaptation unit 3043, and the fourth noise adaptation unit 3044 are a CPU or the like provided in the acoustic model adaptation device 300. It is realized by.

次に、本実施形態における音響モデル適応装置300が備える各構成要素の詳細について説明する。   Next, the detail of each component with which the acoustic model adaptation apparatus 300 in this embodiment is provided is demonstrated.

適応方式選択部303は、クリーン音響モデルのガウス分布パラメータ{μx,i,Σx,i}と雑音統計量{μ,Σ}とを比較する。適応方式選択部303は、比較の結果に応じて、ガウス分布パラメータ{μx,i,Σx,i}を第一の雑音適応部から第四の雑音適応部のうちのどの雑音適応部で雑音適応するべきか、を決定する。決定の際、適応方式選択部303は、第1の実施形態で記載したスカラー関数Comp(μx,i,Σx,i,μ,Σ)を用いる。また、適応方式選択部303は、二つの閾値Th、Th(ただし、Th<Th)を用いる。なお、Th、Thは実験的に求めたものを使用してもよい。 The adaptive scheme selection unit 303 compares the Gaussian distribution parameter {μ x, i , Σ x, i } of the clean acoustic model with the noise statistic {μ n , Σ n }. The adaptation scheme selection unit 303 sets the Gaussian distribution parameter {μ x, i , Σx , i } to which noise adaptation unit from the first noise adaptation unit to the fourth noise adaptation unit according to the comparison result. Determine whether noise should be adapted. At the time of determination, the adaptive method selection unit 303 uses the scalar function Comp (μ x, i , Σ x, i , μ n , Σ n ) described in the first embodiment. In addition, the adaptive scheme selection unit 303 uses two threshold values Th 1 and Th 2 (where Th 1 <Th 2 ). Th 1 and Th 2 may be experimentally obtained.

図7は、第3の実施形態における適応方式選択部303の動作の一例を示すフローチャートである。   FIG. 7 is a flowchart illustrating an example of the operation of the adaptive method selection unit 303 according to the third embodiment.

図7に示すように、適応方式選択部303は、ガウス分布取得部102からクリーン音響モデルのガウス分布パラメータ{μx,i,Σx,i}を取得し(ステップS3031)、雑音統計量取得部101から{μ,Σ}を取得する(ステップS3032)。 As shown in FIG. 7, the adaptive scheme selection unit 303 acquires the Gaussian distribution parameters {μ x, i , Σ x, i } of the clean acoustic model from the Gaussian distribution acquisition unit 102 (step S3031), and acquires noise statistics. {Μ n , Σ n } is acquired from the unit 101 (step S3032).

まず、適応方式選択部303は、一つ目の閾値ThとComp(μx,i,Σx,i,μ,Σ)との比較を行う(ステップS3033)。 First, the adaptive method selection unit 303 compares the first threshold Th 1 with Comp (μ x, i , Σ x, i , μ n , Σ n ) (step S3033).

Figure 2014013324
Figure 2014013324

式25を満たす場合は(ステップS3033におけるYes)、適応方式選択部303は、ガウス分布パラメータ{μx,i,Σx,i}を第一の雑音適応部3041に渡す(ステップS3036)。そして、第一の雑音適応部3041が、ガウス分布パラメータ{μx,i,Σx,i}の雑音適応を行う。 When Expression 25 is satisfied (Yes in Step S3033), the adaptive method selection unit 303 passes the Gaussian distribution parameters {μ x, i , Σ x, i } to the first noise adaptation unit 3041 (Step S3036). Then, the first noise adaptation unit 3041 performs noise adaptation of the Gaussian distribution parameters {μ x, i , Σ x, i }.

そうでない場合は(ステップS3033におけるNo)、適応方式選択部303は、二つ目の閾値ThとComp(μx,i,Σx,i,μ,Σ)との比較を行う(ステップS3034)。 Otherwise (No in step S3033), the adaptive method selection unit 303 compares the second threshold Th 2 with Comp (μ x, i , Σ x, i , μ n , Σ n ) ( Step S3034).

Figure 2014013324
Figure 2014013324

式26を満たす場合は(ステップS3034におけるYes)、適応方式選択部303は、ガウス分布パラメータ{μx,i,Σx,i}を第二の雑音適応部3042に渡す(ステップS3037)。そして、第二の雑音適応部3042が、ガウス分布パラメータ{μx,i,Σx,i}の雑音適応を行う。 When Expression 26 is satisfied (Yes in Step S3034), the adaptive method selection unit 303 passes the Gaussian distribution parameters {μ x, i , Σ x, i } to the second noise adaptation unit 3042 (Step S3037). Then, the second noise adaptation unit 3042 performs noise adaptation of the Gaussian distribution parameters {μ x, i , Σ x, i }.

そうでない場合は(ステップS3034におけるNo)、クリーン音響モデルのパラメータと雑音の統計量とのパワー差が大きいことが考えられる。具体的には、雑音が大きい場合およびクリーン音響モデルのパラメータが大きい場合の二通りが考えられる。この二通りを区別するために、(μx、iと(μとを比較する(ステップS3035)。 If not (No in step S3034), it is considered that the power difference between the clean acoustic model parameter and the noise statistic is large. Specifically, there are two cases where the noise is large and the parameters of the clean acoustic model are large. In order to distinguish these two ways, (μ x, i ) 0 and (μ n ) 0 are compared (step S3035).

Figure 2014013324
Figure 2014013324

式27を満たす場合は(ステップS3035におけるYes)、適応方式選択部303は、ガウス分布パラメータ{μx,i,Σx,i}を第三の雑音適応部3043に渡す(ステップS3038)。そして、第三の雑音適応部3043が、ガウス分布パラメータ{μx,i,Σx,i}の雑音適応を行う。 When Expression 27 is satisfied (Yes in Step S3035), the adaptive method selection unit 303 passes the Gaussian distribution parameters {μ x, i , Σ x, i } to the third noise adaptation unit 3043 (Step S3038). Then, the third noise adaptation unit 3043 performs noise adaptation of the Gaussian distribution parameters {μ x, i , Σ x, i }.

そうでない場合は(ステップS3035におけるNo)、適応方式選択部303は、ガウス分布パラメータ{μx,i,Σx,i}を第四の雑音適応部3044に渡す(ステップS3039)。そして、第四の雑音適応部3044が、ガウス分布パラメータ{μx,i,Σx,i}の雑音適応を行う。 Otherwise (No in step S3035), the adaptation method selection unit 303 passes the Gaussian distribution parameters {μ x, i , Σ x, i } to the fourth noise adaptation unit 3044 (step S3039). Then, the fourth noise adaptation unit 3044 performs noise adaptation of the Gaussian distribution parameters {μ x, i , Σ x, i }.

第一の雑音適応部3041は、式15、式16に示されるUT適応法を適用し、{μy ̄,i,Σy ̄,i}を出力する。 The first noise adaptation unit 3041 applies the UT adaptation method shown in Equations 15 and 16, and outputs {μ y  ̄, i , Σ y  ̄, i }.

第二の雑音適応部3042は、式9、式10に示されるVTS適応法を適用し、{μy ̄,i,Σy ̄,i}を出力する。 The second noise adaptation unit 3042 applies the VTS adaptation method shown in Equations 9 and 10, and outputs {μ y  ̄, i , Σ y ̄, i }.

第三の雑音適応部3043は、{μx,i,Σx,i}を、{μy ̄,i,Σy ̄,i}として出力する。 The third noise adaptation unit 3043 outputs {μ x, i , Σ x, i } as {μ y  ̄, i , Σ y  ̄, i }.

Figure 2014013324
Figure 2014013324

第三の雑音適応部3044は、{μ,Σ}を、{μy ̄,i,Σy ̄,i}として出力する。 The third noise adaptation unit 3044 outputs {μ n , Σ n } as {μ y  ̄, i , Σ y  ̄, i }.

Figure 2014013324
Figure 2014013324

各雑音適応部から出力された{μy ̄,i,Σy ̄,i}は、ガウス分布格納部106に格納される。 y ̄, i , Σ yΣ, i } output from each noise adaptation unit is stored in the Gaussian distribution storage unit 106.

以上に説明したように、本実施形態によれば、VTS適応法よりも低演算の第三の雑音適応部と第四の雑音適応部とを備えることにより、第一の実施の形態における音響モデル適応装置100よりも、精度を保ちつつ、計算量を減らすことができる。   As described above, according to the present embodiment, the acoustic model according to the first embodiment is provided by including the third noise adaptation unit and the fourth noise adaptation unit that are lower in computation than the VTS adaptation method. Compared to the adaptive device 100, the amount of calculation can be reduced while maintaining accuracy.

なお、本実施形態では、4つの雑音適応部を備えるモデル適応装置を例にしたが、雑音適応部の数は4つに限定されない。つまり、モデル適応装置300は、演算量と適応精度とがそれぞれ異なる雑音適応部をいくつ備えていてもよい。例えば、適応の近似粒度に応じた数の雑音適応部を備えていてもよい。   In the present embodiment, the model adaptation apparatus including four noise adaptation units is taken as an example, but the number of noise adaptation units is not limited to four. That is, the model adaptation apparatus 300 may include any number of noise adaptation units having different calculation amounts and adaptation accuracy. For example, a number of noise adaptation units corresponding to the approximate granularity of adaptation may be provided.

図8は、本発明による音響モデル適応装置の最小構成を示すブロック図である。図9は、本発明による音響モデル適応装置の他の最小構成を示すブロック図である。   FIG. 8 is a block diagram showing the minimum configuration of the acoustic model adaptation apparatus according to the present invention. FIG. 9 is a block diagram showing another minimum configuration of the acoustic model adaptation apparatus according to the present invention.

図8に示すように、音響モデル適応装置(図1に示す音響モデル適応装置100に相当。)は、音響モデルを雑音に適応して雑音音響モデルを生成する音響モデル適応装置であって、雑音に適応する音響モデルを増やして雑音適応する第一の雑音適応部20−1(図1に示す音響モデル適応装置100における第一の雑音適応部104に相当。)と、線形近似を用いて雑音適応する第二の雑音適応部20−2(図1に示す音響モデル適応装置100における第二の雑音適応部105に相当。)と、音響モデルと当該音響モデルを適応する雑音の統計量とに基づいて、第一の雑音適応部20−1または第二の雑音適応部20−2を選択する適応方式選択部10(図1に示す音響モデル適応装置100における適応方式選択部103に相当。)とを備える。   As shown in FIG. 8, the acoustic model adaptation device (corresponding to the acoustic model adaptation device 100 shown in FIG. 1) is an acoustic model adaptation device that generates a noise acoustic model by adapting an acoustic model to noise. The first noise adapting unit 20-1 (corresponding to the first noise adapting unit 104 in the acoustic model adapting apparatus 100 shown in FIG. 1) that increases the number of acoustic models adapted to noise and adapts to noise, and noise using linear approximation The adaptive second noise adaptation unit 20-2 (corresponding to the second noise adaptation unit 105 in the acoustic model adaptation apparatus 100 shown in FIG. 1), the acoustic model, and the noise statistic for adapting the acoustic model. Based on this, the adaptive scheme selection unit 10 that selects the first noise adaptation unit 20-1 or the second noise adaptation unit 20-2 (corresponding to the adaptation scheme selection unit 103 in the acoustic model adaptation apparatus 100 shown in FIG. 1). When Provided.

上記の実施形態には、以下のような音響モデル適応装置も開示されている。   In the above-described embodiment, the following acoustic model adaptation device is also disclosed.

(1)適応方式選択部10は、音響モデルと当該音響モデルを適応する雑音の統計量とに基づいて、音響モデルの学習時に用いられた音声と雑音とのパワーの差を判定し、パワーの差が予め定められた閾値より大きい場合は第一の雑音適応部20−1を選択し、閾値以下である場合は第二の雑音適応部20−2を選択する音響モデル適応装置。 (1) The adaptation method selection unit 10 determines the power difference between the speech and noise used when learning the acoustic model based on the acoustic model and the statistical amount of noise to which the acoustic model is adapted, The acoustic model adaptation apparatus that selects the first noise adaptation unit 20-1 when the difference is larger than a predetermined threshold value, and selects the second noise adaptation unit 20-2 when the difference is less than the threshold value.

そのような構成によれば、非線形性の影響が大きい領域に平均を持つガウス分布を正確に認識することができる。それは、音声と雑音のパワーの差の大きさは、雑音付加音声を示す非線形関数の非線形の度合いに影響を与えるからである。   According to such a configuration, a Gaussian distribution having an average in a region where the influence of nonlinearity is large can be accurately recognized. This is because the magnitude of the difference between the power of speech and noise affects the degree of nonlinearity of the nonlinear function indicating the noise-added speech.

(2)音響モデルはガウス分布を含み、第一の雑音適応部20−1は、ガウス分布ごとに複数のシグマポイントを生成し、複数のシグマポイントごとに雑音適応を行う音響モデル適応装置。 (2) The acoustic model includes a Gaussian distribution, and the first noise adaptation unit 20-1 generates a plurality of sigma points for each Gaussian distribution and performs noise adaptation for each of the plurality of sigma points.

そのような構成によれば、適応するガウス分布に応じて、UT適応法を適用することができる。例えば、非線形性の影響が大きい領域に平均を持つガウス分布を雑音適応する場合はUT適応法を適用し、それ以外の場合は計算量が少ないVTS適応方法を適用することができる。従って、全ガウス分布の適応における計算量の増加を防止することができる。   According to such a configuration, the UT adaptation method can be applied according to the Gaussian distribution to be adapted. For example, the UT adaptation method can be applied when noise-adapting a Gaussian distribution having an average in a region where the influence of nonlinearity is large, and the VTS adaptation method with a small calculation amount can be applied in other cases. Therefore, it is possible to prevent an increase in the amount of calculation in the adaptation of the total Gaussian distribution.

(3)音響モデルはガウス分布を含み、第一の雑音適応部20−1(図2に示す音響モデル適応装置200における第一の雑音適応部204に相当。)は、ガウス分布から派生させた複数のガウス分布を雑音に適応する音響モデル適応装置。 (3) The acoustic model includes a Gaussian distribution, and the first noise adaptation unit 20-1 (corresponding to the first noise adaptation unit 204 in the acoustic model adaptation apparatus 200 shown in FIG. 2) is derived from the Gaussian distribution. An acoustic model adaptation device that adapts multiple Gaussian distributions to noise.

そのような構成によれば、適応するガウス分布に応じて、ガウス分布パラメータを増加させることができる。従って、全ガウス分布の適応における計算量の増加を防止することができる。   According to such a configuration, the Gaussian distribution parameter can be increased according to the adaptive Gaussian distribution. Therefore, it is possible to prevent an increase in the amount of calculation in the adaptation of the total Gaussian distribution.

(4)図9に示すように、音響モデルを雑音音響モデルとして出力する第三の雑音適応部20−3(図6に示す音響モデル適応装置300における第三の雑音適応部3043(図示せず)に相当。)と、雑音の統計量を雑音音響モデルとして出力する第四の雑音適応部20−4(図6に示す音響モデル適応装置300における第四の雑音適応部3044に相当。)とを備え、適応方式選択部10(図6に示す音響モデル適応装置300における適応方式選択部303に相当。)は、音響モデルの学習時に用いられた音声と雑音とのパワーの差が予め定められた第二の閾値(閾値Thに相当)以上である場合に、音声のパワーの方が大きいときは第三の雑音適応部20−3を選択し、小さいときは第四の雑音適応部20−4を選択する音響モデル適応装置。 (4) As shown in FIG. 9, the third noise adaptation unit 20-3 (third noise adaptation unit 3043 (not shown) in the acoustic model adaptation apparatus 300 shown in FIG. 6) outputs the acoustic model as a noise acoustic model. ), And a fourth noise adaptation unit 20-4 (corresponding to the fourth noise adaptation unit 3044 in the acoustic model adaptation apparatus 300 shown in FIG. 6) that outputs a noise statistic as a noise acoustic model. The adaptive method selection unit 10 (corresponding to the adaptive method selection unit 303 in the acoustic model adaptation apparatus 300 shown in FIG. 6) has a predetermined power difference between speech and noise used when learning the acoustic model. If the voice power is greater than the second threshold (corresponding to the threshold Th 2 ), the third noise adaptation unit 20-3 is selected, and if it is smaller, the fourth noise adaptation unit 20 is selected. -4 to select the acoustic mode Dell adaptive device.

そのような構成によれば、全ガウス分布の適応における計算量の増加を防止することができる。それは、クリーン音響モデルのパラメータと雑音の統計量とのパワー差が大きい場合に、より低演算量で雑音適応を行うことができるからである。   According to such a configuration, it is possible to prevent an increase in the amount of calculation in adaptation of the entire Gaussian distribution. This is because, when the power difference between the clean acoustic model parameter and the noise statistic is large, noise adaptation can be performed with a smaller amount of computation.

(5)音響モデルを雑音に適応して雑音音響モデルを生成する音響モデル適応装置であって、演算量と適応精度とがそれぞれ異なる複数の雑音適応部(例えば、図6に示すモデル適応装置300第一の雑音適応部3041、第二の雑音適応部3042、第三の雑音適応部3043および第四の雑音適応部3044に相当。)と、音響モデルおよび音響モデルに適応する雑音の統計量に基づいて、複数の雑音適応部のうちのいずれか一つを選択する適応方式選択部とを備える音響モデル適応装置。 (5) An acoustic model adaptation device that generates a noise acoustic model by adapting an acoustic model to noise, and has a plurality of noise adaptation units (for example, the model adaptation device 300 shown in FIG. Equivalent to the first noise adaptation unit 3041, the second noise adaptation unit 3042, the third noise adaptation unit 3043, and the fourth noise adaptation unit 3044), and the noise statistic adapted to the acoustic model. An acoustic model adaptation apparatus comprising: an adaptation scheme selection unit that selects any one of a plurality of noise adaptation units based on the above.

そのような構成によれば、高演算かつ高精度な方法と比較して、適応精度を劣化させることなく、より低演算量で音響モデルを雑音適応することができる。   According to such a configuration, the noise model can be noise-adapted with a smaller amount of computation without degrading the adaptation accuracy as compared with a method with high computation and high accuracy.

1 クリーン音響モデル記憶装置
2 雑音統計量記憶装置
3 雑音適応音響モデル記憶装置
7 詳細クリーン音響モデル記憶装置
10、103、203、303 適応方式選択部
20−1、104、204、3041 第一の雑音適応部
20−2、105、3042 第二の雑音適応部
20−3 第三の雑音適応部
20−4、3044 第四の雑音適応部
100、200、300 モデル適応装置
101 雑音統計量取得部
102 ガウス分布取得部
106 ガウス分布格納部
207 詳細ガウス分布取得部
DESCRIPTION OF SYMBOLS 1 Clean acoustic model memory | storage device 2 Noise statistic memory | storage device 3 Noise adaptive acoustic model memory | storage device 7 Detailed clean acoustic model memory | storage device 10, 103, 203, 303 Adaptive system selection part 20-1, 104, 204, 3041 1st noise Adaptation unit 20-2, 105, 3042 Second noise adaptation unit 20-3 Third noise adaptation unit 20-4, 3044 Fourth noise adaptation unit 100, 200, 300 Model adaptation device 101 Noise statistics acquisition unit 102 Gaussian distribution acquisition unit 106 Gaussian distribution storage unit 207 Detailed Gaussian distribution acquisition unit

Claims (8)

音響モデルを雑音に適応して雑音音響モデルを生成する音響モデル適応装置であって、
雑音に適応する音響モデルを増やして雑音適応する第一の雑音適応部と、
線形近似を用いて雑音適応する第二の雑音適応部と、
音響モデルと当該音響モデルを適応する雑音の統計量とに基づいて、前記第一の雑音適応部または前記第二の雑音適応部を選択する適応方式選択部とを備えた
ことを特徴とする音響モデル適応装置。
An acoustic model adaptation device for generating a noise acoustic model by adapting an acoustic model to noise,
A first noise adaptation unit that adapts noise by increasing the number of acoustic models adapted to noise;
A second noise adaptation unit for noise adaptation using linear approximation;
An acoustic system comprising: an acoustic model and an adaptive method selection unit that selects the first noise adaptation unit or the second noise adaptation unit based on a statistical amount of noise to which the acoustic model is adapted. Model adaptation device.
適応方式選択部は、音響モデルと当該音響モデルを適応する雑音の統計量とに基づいて、前記音響モデルの学習時に用いられた音声と前記雑音とのパワーの差を判定し、前記パワーの差が予め定められた閾値より大きい場合は第一の雑音適応部を選択し、閾値以下である場合は第二の雑音適応部を選択する
請求項1に記載の音響モデル適応装置。
The adaptation method selection unit determines a power difference between the speech and the noise used when learning the acoustic model based on the acoustic model and a noise statistic for adapting the acoustic model, and determines the power difference. The acoustic model adaptation apparatus according to claim 1, wherein when the value is larger than a predetermined threshold, the first noise adaptation unit is selected, and when the value is equal to or less than the threshold, the second noise adaptation unit is selected.
音響モデルはガウス分布を含み、
第一の雑音適応部は、前記ガウス分布ごとに複数のシグマポイントを生成し、前記複数のシグマポイントごとに雑音適応を行う
請求項1または請求項2に記載の音響モデル適応装置。
The acoustic model includes a Gaussian distribution,
The acoustic model adaptation device according to claim 1, wherein the first noise adaptation unit generates a plurality of sigma points for each of the Gaussian distributions and performs noise adaptation for each of the plurality of sigma points.
音響モデルはガウス分布を含み、
第一の雑音適応部は、前記ガウス分布から派生させた複数のガウス分布を雑音に適応する
請求項1または請求項2に記載の音響モデル適応装置。
The acoustic model includes a Gaussian distribution,
The acoustic model adaptation device according to claim 1, wherein the first noise adaptation unit adapts a plurality of Gaussian distributions derived from the Gaussian distribution to noise.
音響モデルを雑音音響モデルとして出力する第三の雑音適応部と、
雑音の統計量を雑音音響モデルとして出力する第四の雑音適応部とを備え、
適応方式選択部は、前記音響モデルの学習時に用いられた音声と前記雑音とのパワーの差が予め定められた第二の閾値以上である場合に、前記音声のパワーの方が大きいときは第三の雑音適応部を選択し、小さいときは第四の雑音適応部を選択する
請求項1から請求項4のうちのいずれか1項に記載の音響モデル適応装置。
A third noise adaptation unit that outputs the acoustic model as a noise acoustic model;
A fourth noise adaptation unit that outputs noise statistics as a noise acoustic model,
The adaptive method selection unit determines whether the power of the voice is larger when the difference in power between the voice used when learning the acoustic model and the noise is equal to or greater than a predetermined second threshold. The acoustic model adaptation device according to any one of claims 1 to 4, wherein a third noise adaptation unit is selected, and if it is small, a fourth noise adaptation unit is selected.
音響モデルを雑音に適応して雑音音響モデルを生成する音響モデル適応装置であって、
演算量と適応精度とがそれぞれ異なる複数の雑音適応部と、
音響モデルおよび音響モデルに適応する雑音の統計量に基づいて、前記複数の雑音適応部のうちのいずれか一つを選択する適応方式選択部とを備える
ことを特徴とする音響モデル適応装置。
An acoustic model adaptation device for generating a noise acoustic model by adapting an acoustic model to noise,
A plurality of noise adaptation units each having different computational complexity and adaptation accuracy;
An acoustic model adaptation apparatus comprising: an acoustic model and an adaptation method selection unit that selects any one of the plurality of noise adaptation units based on a noise statistic adapted to the acoustic model.
音響モデルを雑音に適応して雑音音響モデルを生成する音響モデル適応方法であって、
音響モデルと当該音響モデルを適応する雑音の統計量とに基づいて、雑音に適応する音響モデルを増やして雑音適応を行うか、または、線形近似を用いて雑音適応を行うかを選択し、前記選択に基づいて雑音適応を行う
ことを特徴とする音響モデル適応方法。
An acoustic model adaptation method for generating a noise acoustic model by adapting an acoustic model to noise,
Based on the acoustic model and the noise statistic to which the acoustic model is adapted, it is selected whether noise adaptation is performed by increasing the number of acoustic models adapted to noise, or noise adaptation is performed using linear approximation. An acoustic model adaptation method characterized by performing noise adaptation based on selection.
音響モデルを雑音に適応して雑音音響モデルを生成する音響モデル適応装置における音響モデル適応プログラムであって、
コンピュータに、
音響モデルと当該音響モデルを適応する雑音の統計量とに基づいて、雑音に適応する音響モデルを増やして雑音適応を行うか、または、線形近似を用いて雑音適応を行うかを選択し、前記選択に基づいて雑音適応を行う処理を実行させる
ための音響モデル適応プログラム。
An acoustic model adaptation program in an acoustic model adaptation apparatus for generating a noise acoustic model by adapting an acoustic model to noise,
On the computer,
Based on the acoustic model and the noise statistic to which the acoustic model is adapted, it is selected whether noise adaptation is performed by increasing the number of acoustic models adapted to noise, or noise adaptation is performed using linear approximation. An acoustic model adaptation program for executing a noise adaptation process based on the selection.
JP2012150743A 2012-07-04 2012-07-04 Acoustic model adaptation apparatus, acoustic model adaptation method, and acoustic model adaptation program Active JP5966689B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012150743A JP5966689B2 (en) 2012-07-04 2012-07-04 Acoustic model adaptation apparatus, acoustic model adaptation method, and acoustic model adaptation program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012150743A JP5966689B2 (en) 2012-07-04 2012-07-04 Acoustic model adaptation apparatus, acoustic model adaptation method, and acoustic model adaptation program

Publications (2)

Publication Number Publication Date
JP2014013324A true JP2014013324A (en) 2014-01-23
JP5966689B2 JP5966689B2 (en) 2016-08-10

Family

ID=50109035

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012150743A Active JP5966689B2 (en) 2012-07-04 2012-07-04 Acoustic model adaptation apparatus, acoustic model adaptation method, and acoustic model adaptation program

Country Status (1)

Country Link
JP (1) JP5966689B2 (en)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6529872B1 (en) * 2000-04-18 2003-03-04 Matsushita Electric Industrial Co., Ltd. Method for noise adaptation in automatic speech recognition using transformed matrices
JP2004117624A (en) * 2002-09-25 2004-04-15 Ntt Docomo Inc Noise adaptation system of voice model, noise adaptation method, and noise adaptation program of voice recognition
JP2005326672A (en) * 2004-05-14 2005-11-24 Nippon Telegr & Teleph Corp <Ntt> Voice recognition method, its device, program and its recording medium
US20060173684A1 (en) * 2002-12-20 2006-08-03 International Business Machines Corporation Sensor based speech recognizer selection, adaptation and combination
JP2008122927A (en) * 2006-09-13 2008-05-29 Honda Motor Co Ltd Speech recognition method for robot under motor noise thereof
US7505905B1 (en) * 1999-05-13 2009-03-17 Nuance Communications, Inc. In-the-field adaptation of a large vocabulary automatic speech recognizer (ASR)
JP2010078650A (en) * 2008-09-24 2010-04-08 Toshiba Corp Speech recognizer and method thereof

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7505905B1 (en) * 1999-05-13 2009-03-17 Nuance Communications, Inc. In-the-field adaptation of a large vocabulary automatic speech recognizer (ASR)
US6529872B1 (en) * 2000-04-18 2003-03-04 Matsushita Electric Industrial Co., Ltd. Method for noise adaptation in automatic speech recognition using transformed matrices
JP2004117624A (en) * 2002-09-25 2004-04-15 Ntt Docomo Inc Noise adaptation system of voice model, noise adaptation method, and noise adaptation program of voice recognition
US20060173684A1 (en) * 2002-12-20 2006-08-03 International Business Machines Corporation Sensor based speech recognizer selection, adaptation and combination
JP2005326672A (en) * 2004-05-14 2005-11-24 Nippon Telegr & Teleph Corp <Ntt> Voice recognition method, its device, program and its recording medium
JP2008122927A (en) * 2006-09-13 2008-05-29 Honda Motor Co Ltd Speech recognition method for robot under motor noise thereof
JP2010078650A (en) * 2008-09-24 2010-04-08 Toshiba Corp Speech recognizer and method thereof

Also Published As

Publication number Publication date
JP5966689B2 (en) 2016-08-10

Similar Documents

Publication Publication Date Title
US10217456B2 (en) Method, apparatus, and program for generating training speech data for target domain
US8566093B2 (en) Intersession variability compensation for automatic extraction of information from voice
US20140114650A1 (en) Method for Transforming Non-Stationary Signals Using a Dynamic Model
JP5242782B2 (en) Speech recognition method
JP5150542B2 (en) Pattern recognition apparatus, pattern recognition method, and program
US20190164557A1 (en) System and method for efficient processing of universal background models for speaker recognition
JP2010078650A (en) Speech recognizer and method thereof
CN110428848B (en) Speech enhancement method based on public space speech model prediction
JP5974901B2 (en) Sound segment classification device, sound segment classification method, and sound segment classification program
JP5994639B2 (en) Sound section detection device, sound section detection method, and sound section detection program
JP5881454B2 (en) Apparatus and method for estimating spectral shape feature quantity of signal for each sound source, apparatus, method and program for estimating spectral feature quantity of target signal
JP5068228B2 (en) Non-negative matrix decomposition numerical calculation method, non-negative matrix decomposition numerical calculation apparatus, program, and storage medium
KR20170088165A (en) Method and apparatus for speech recognition using deep neural network
JP5966689B2 (en) Acoustic model adaptation apparatus, acoustic model adaptation method, and acoustic model adaptation program
JP7020331B2 (en) Clustering equipment, methods, and programs
JP6827004B2 (en) Speech conversion model learning device, speech converter, method, and program
US20190198025A1 (en) Method for reduced computation of t-matrix training for speaker recognition
JP5738778B2 (en) Optimal model estimation apparatus, method, and program
JP5172536B2 (en) Reverberation removal apparatus, dereverberation method, computer program, and recording medium
CN112488319B (en) Parameter adjusting method and system with self-adaptive configuration generator
WO2020054402A1 (en) Neural network processing device, computer program, neural network manufacturing method, neural network data manufacturing method, neural network use device, and neural network downscaling method
JP2017134321A (en) Signal processing method, signal processing device, and signal processing program
JP6376486B2 (en) Acoustic model generation apparatus, acoustic model generation method, and program
JP6067760B2 (en) Parameter determining apparatus, parameter determining method, and program
JP6000094B2 (en) Speaker adaptation device, speaker adaptation method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150608

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160526

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160607

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160620

R150 Certificate of patent or registration of utility model

Ref document number: 5966689

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150