JPH11143486A - Device and method adaptable for speaker - Google Patents

Device and method adaptable for speaker

Info

Publication number
JPH11143486A
JPH11143486A JP9306887A JP30688797A JPH11143486A JP H11143486 A JPH11143486 A JP H11143486A JP 9306887 A JP9306887 A JP 9306887A JP 30688797 A JP30688797 A JP 30688797A JP H11143486 A JPH11143486 A JP H11143486A
Authority
JP
Japan
Prior art keywords
speaker
model
adaptation
models
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9306887A
Other languages
Japanese (ja)
Inventor
Kazuhiko Sumiya
和彦 住谷
Nobuyuki Saito
伸行 斎藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP9306887A priority Critical patent/JPH11143486A/en
Publication of JPH11143486A publication Critical patent/JPH11143486A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To realize the speaker-adaptable capacity excellent in accuracy in the speaker adaptation using the maximum posterior probability estimating method. SOLUTION: A set 17 of a large number of speaker models independent from an adaptable speaker is prepared using an acoustic analyzing means equivalent to an acoustic analysis part 10. Then, the sound of the adaptable speaker is inputted, and analyzed by the acoustic analysis part 10, the distribution of the feature parameter vector of the adaptable speaker is obtained, and preserved as the sample data 16 for adaptation. An datable model preparation part 15 measures the distance between the adaptable speaker model preserved as the sample data 16 for adaptation and a large number (N-pieces) of speaker models preserved as the set 17 of the speaker model, and the speaker models of M pieces are selected in the order of smaller distance to the adaptable speaker model. The weighted addition of the selected speaker models of M pieces is achieved to determine the initial model.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、適応対象話者が発
声した音声を学習用データとして、初期の音声モデルを
修正し、話者に適応させた音声モデルを作成する、話者
適応技術に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speaker adaptation technique for correcting an initial speech model using a speech uttered by a speaker to be adapted as learning data and creating a speech model adapted to the speaker. .

【0002】[0002]

【従来技術】隠れマルコフモデル(Hidden Ma
rkov Model、以降HMMと略する)は、音声
のスペクトル的、時間的な変動に対処しやすく、高い認
識精度を実現できることから、音声認識において広く用
いられている。HMMは、状態間の遷移確率、状態遷移
に伴うシンボルの出力確率を持った状態遷移モデルであ
り、音声信号のような時間とともに連続的に変化する信
号をモデル化するには、左から右に状態が遷移する、所
謂left−to−right型モデルが適当である。
図1に状態数4の場合のleft−to−right型
のHMMの例を示す。ここで、1,2,3,4は状態を
表し、aij(i,j=1,…4)は、状態iから状態j
に遷移する確率を示している。また、bj(o)は、状
態遷移に伴って状態jにおいてシンボルoが観測される
確率を示している。音声認識の場合、このシンボルとし
ては、通常、特徴パラメータ・ベクトルが使われる。
2. Description of the Related Art A hidden Markov model (Hidden Ma)
rkov Model (hereinafter abbreviated as HMM) is widely used in speech recognition because it can easily deal with spectral and temporal fluctuations of speech and can realize high recognition accuracy. The HMM is a state transition model having transition probabilities between states and output probabilities of symbols associated with state transitions. To model a signal that changes continuously with time, such as a speech signal, it is necessary to model from left to right. A so-called left-to-right type model in which the state transitions is appropriate.
FIG. 1 shows an example of a left-to-right type HMM in the case of four states. Here, 1, 2, 3, and 4 represent states, and a ij (i, j = 1,..., 4) represents states i to j
Indicates the probability of transition to. B j (o) indicates the probability that the symbol o is observed in the state j with the state transition. In the case of speech recognition, a feature parameter vector is usually used as this symbol.

【0003】HMMを使った音声認識では、認識の対象
となる音声の単位(例えば、音素、音韻、音節、単語)
ごとに、HMMによる音声モデルを用意し、事前に訓練
用の音声データを用いて、状態遷移確率aij、特徴パラ
メータベクトルの出力確率bj(o)といったモデル・
パラメータを決定しておく。そして、認識時には、入力
された音声を分析し、特徴パラメータベクトルの系列に
変換し、そのパラメータベクトルの系列を観測する可能
性が最も高くなるモデルに対応する音声単位の列を決定
し、それを認識結果とする。
In speech recognition using an HMM, a unit of speech to be recognized (eg, phonemes, phonemes, syllables, words)
In each case, a speech model using an HMM is prepared, and a model such as a state transition probability a ij and a feature parameter vector output probability b j (o) is prepared using speech data for training in advance.
Determine parameters. At the time of recognition, the input speech is analyzed, converted into a sequence of feature parameter vectors, and a sequence of speech units corresponding to a model that is most likely to observe the sequence of parameter vectors is determined. The result is the recognition result.

【0004】HMMのような統計モデルでは、一般に、
学習用のデータを増やすことにより、モデルの精度を高
めることができる。そこで、対象となる話者が発声した
大量のデータを用いることによって、その話者のための
精度の高いモデルを作成することができる。しかし、そ
のためには、使用に先立って大量の音声データを収集す
る必要があり、そのために話者に大量の発声を要求する
ことになり、実用上の障害になっていた。
In a statistical model such as an HMM, generally,
By increasing the data for learning, the accuracy of the model can be improved. Therefore, by using a large amount of data uttered by the target speaker, a highly accurate model for the speaker can be created. However, for this purpose, it is necessary to collect a large amount of voice data before use, which requires a large amount of utterance from the speaker, which has been a practical obstacle.

【0005】一方、事前に不特定多数の話者の音声デー
タを収集し、それに基づいて、話者に依存しない標準的
な話者モデルを作ることが考えられる。この不特定話者
を対象としたモデルを用いれば、使用者が使用に先立っ
て話者モデルを訓練するために大量の発声を行う必要が
なく、すぐに使用を開始できるという利点がある。しか
し、話者ごとに適合させたモデルではないので、認識精
度が十分ではない。一般に、音声認識では、個人に即し
た音声モデルを用意することにより、認識の精度を高め
ることができるが、その音声モデルを作成するためには
多数の発話を事前に用意する必要があり、認識精度と手
間がトレードオフの関係になっている。
On the other hand, it is conceivable to collect speech data of a large number of unspecified speakers in advance and create a standard speaker model independent of the speakers based on the collected speech data. The use of the model for unspecified speakers has the advantage that the user does not need to make a large amount of utterances to train the speaker model prior to use, and can immediately start using the model. However, since the model is not adapted for each speaker, recognition accuracy is not sufficient. In general, in speech recognition, the accuracy of recognition can be improved by preparing a speech model that suits the individual, but in order to create that speech model, it is necessary to prepare a large number of utterances in advance. Accuracy and labor are in a trade-off relationship.

【0006】こうしたことから、少量の話者固有の発声
データだけで、使用を開始することができ、さらに話者
固有の発声データを追加することによって逐次的に認識
精度を向上させる事を狙った「話者適応」が、音声認識
を応用するある局面では注目されている。例えばディク
テーションのような、ある程度個人的に使用されるもの
では、簡単な手続きで使用することができ、また、使用
につれて、逐次、認識の精度が向上していくことが望ま
しく、この話者適応が有効であろう。
[0006] From the above, it is possible to start using only a small amount of speaker-specific utterance data, and to improve recognition accuracy sequentially by adding speaker-specific utterance data. "Speaker adaptation" has attracted attention in some aspects of applying speech recognition. For something that is used personally to some extent, such as dictation, it can be used with a simple procedure, and it is desirable that the accuracy of recognition be improved as it is used. Will be valid.

【0007】「話者適応」の手法の一つとして、予め求
めておいた初期の音声モデルを、実際の話者や使用環境
の特徴を取り込んで、修正することによって実現する手
法があり、その中でも、ベイズ推定に基づいた音声モデ
ルのパラメータの再推定が試みられ、効果をあげてい
る。ベイズ推定は、ベイズの定理に基づいて、パラメー
タを決定するものであり、以下の考え方による。
As one of the methods of "speaker adaptation", there is a method of realizing an initial speech model obtained in advance by taking in the characteristics of an actual speaker and a use environment and modifying it. Above all, attempts have been made to re-estimate the parameters of the speech model based on Bayesian estimation, which has been effective. Bayesian estimation determines parameters based on Bayes' theorem, and is based on the following concept.

【0008】ある事象Aという結果を生じさせた原因H
iの可能性P(Hi|A)は、ベイズの定理により、原因
の確率P(Hi)に、その原因からある事象が発生する
確率P(A|Hi)をかけたものによって計算される。
この時、P(Hi)は事前確率とよばれ、P(Hi|A)
は事後確率と呼ばれる。つまり、事前に予測した事前確
率P(Hi)とサンプルの確率P(A|Hi)によって事
後確率が決定すると考える。
The cause H that caused the event A
i possibility P (H i | A) is the Bayes' theorem, the cause of the probability P (H i), events from the cause probability generated P | calculated by multiplied by (A H i) Is done.
At this time, P (H i ) is called prior probability, and P (H i | A)
Is called the posterior probability. That is, it is assumed that the posterior probability is determined by the prior probability P (H i ) predicted in advance and the sample probability P (A | H i ).

【0009】原因として分布のパラメータをとり、結果
としてサンプルされるデータをとる。そうすると、分布
のパラメータの事後確率は、分布のパラメータの予測値
である事前確率とサンプルデータから得られる結果の確
率から得られることになる。そこで、モデルのパラメー
タについての正しい予測があれば、事後確率の決定にそ
れを効果的に取り込むことができる。
The distribution parameters are taken as the cause, and the resulting sampled data is taken. Then, the posterior probabilities of the parameters of the distribution are obtained from the prior probabilities that are the predicted values of the parameters of the distribution and the probabilities of the results obtained from the sample data. Thus, if there is a correct prediction for the parameters of the model, it can be effectively incorporated into the determination of the posterior probability.

【0010】一般に、結果の確率に対して、事前確率と
事後確率が同一の分布族に属していれば、サンプルは分
布族内の変換を起こすだけであり、数学的な取り扱いが
容易になる。このときの事前確率と事後確率の分布族
は、自然な共役分布と呼ばれるが、ガウス分布N(θ,
σ2)の平均のパラメータθについて、ガウス分布N
(λ,τ2)は自然な共役分布であることが知られてい
る。
In general, if the prior probability and the posterior probability belong to the same distribution family with respect to the probability of the result, the sample only causes a transformation within the distribution family, which facilitates mathematical treatment. The distribution family of the prior and posterior probabilities at this time is called a natural conjugate distribution, but has a Gaussian distribution N (θ,
σ 2 ) mean Gaussian distribution N
(Λ, τ 2 ) is known to be a natural conjugate distribution.

【0011】ベイズの定理に基づく枠組みの中で、パラ
メータを推定し話者適応を行う方法が、最大事後確率推
定法として、例えば、Chin−Hui Lee,Ch
ih−Heng Lin and Biing−Hwa
ng Juang,”A Study on Spea
ker Adaptation of the Par
ameters of Continuous Den
sity Hidden Markov Model
s”,IEEE Transactions on S
ignal Processing,Vol.39,N
o.4,April,1991(以後文献1とする)
で、開示されている。これによれば、平均値パラメータ
μが事前確率Po(μ)に従い、その分散σ2が既知で固
定とすると、μの共役な事前分布は、平均値ν、分散τ
2を持ったガウス分布であり、これを使うと、パラメー
タの最大事後確率推定値は、
In a framework based on Bayes' theorem, a method of estimating parameters and performing speaker adaptation is a method of estimating a maximum posterior probability, for example, Chin-Hui Lee, Ch
ih-Heng Lin and Biing-Hwa
ng Jung, "A Study on Spaa
ker Adaptation of the Par
meters of Continous Den
site Hidden Markov Model
s ", IEEE Transactions on S
signal Processing, Vol. 39, N
o. 4, April, 1991 (hereinafter referred to as Reference 1)
And is disclosed. According to this, if the average parameter μ follows the prior probability P o (μ) and its variance σ 2 is known and fixed, the conjugate prior distribution of μ has an average value ν and a variance τ
It is a Gaussian distribution with 2 , using which the maximum posterior probability estimate of the parameter is

【0012】[0012]

【数1】 で与えられる。ここで、nは対応するHMMの状態にお
いて観測される訓練用サンプルの個数、はサンプルの
平均である。つまり、平均値の最大事後確率推定法によ
る推定値は、事前分布の平均値νとサンプルの平均
重み付き平均で与えられる。(1)から明らかに、nが
0のとき、つまりサンプルが全くない場合には、推定値
は事前分布の平均値νのままである。また、nが十分大
きいとき、つまり、サンプル数が十分多いときは、推定
値はサンプルの平均oに近づく。このように、最大事後
確率推定法では、事前に予測した分布を取り込んで、サ
ンプルデータの個数に応じてモデルのパラメータを訓練
用サンプルの特性に漸近的に近づけることができるの
で、使用に応じて逐次話者モデルの精度向上を図ること
ができ、理想的な話者適応を実現できる。
(Equation 1) Given by Here, n is the number of training samples observed in the corresponding HMM state, and o is the average of the samples. That is, the estimated value of the average value by the maximum posterior probability estimation method is given by a weighted average of the average value ν of the prior distribution and the average o of the samples. As is apparent from (1), when n is 0, that is, when there are no samples, the estimated value remains the mean value ν of the prior distribution. When n is sufficiently large, that is, when the number of samples is sufficiently large, the estimated value approaches the average o of the samples. In this way, the maximum a posteriori probability estimation method takes in the distribution predicted in advance and can asymptotically approximate the model parameters to the characteristics of the training sample according to the number of sample data. The accuracy of the successive speaker model can be improved, and ideal speaker adaptation can be realized.

【0013】文献1では、ベイズ推定による他のパラメ
ータに対する話者適応例として、分散の場合と平均と分
散双方の場合についても述べられているが、平均値の話
者適応が認識性能に対して効果が高いことが示されてい
る。
[0013] Document 1 describes a case of variance and a case of both average and variance as examples of speaker adaptation to other parameters based on Bayesian estimation. It is shown to be highly effective.

【0014】[0014]

【発明が解決しようとする課題】この最大事後確率推定
法によるパラメータ推定を使った話者適応方式が、これ
までに開示されている。特開平8−95592号公報で
開示されている従来例1では、標準的音素モデルを用い
て、ある特定の話者に音素モデルを合わせ込む話者適応
を行っているが、標準的な初期音声モデルとしては、老
若男女いろいろな話者が発声した音声データを用いて予
め学習しておいた、不特定多数の話者の音声を認識対象
とした不特定話者モデルを用いるとしている。この従来
例1で示している不特定話者モデルを用いた適応方式で
は、事前分布として用いる標準的な初期音声モデルの分
布が広がっており、少量の学習データで、それを十分に
補償し、適応対象の話者に適応するようパラメータを補
正することは困難である。
A speaker adaptation method using parameter estimation by the maximum posterior probability estimation method has been disclosed. In the prior art 1 disclosed in Japanese Patent Application Laid-Open No. 8-95592, speaker adaptation for matching a phoneme model to a specific speaker using a standard phoneme model is performed. As the model, an unspecified speaker model that has been trained in advance using voice data uttered by various speakers of various ages, and that recognizes the voices of an unspecified number of speakers is used. In the adaptation method using the unspecified speaker model shown in the conventional example 1, the distribution of the standard initial speech model used as the prior distribution is widened, and it is sufficiently compensated with a small amount of training data. It is difficult to correct parameters to adapt to the speaker to be adapted.

【0015】また、特開平8−110792号公報で開
示されている従来例2では、木構造クラスタリングモデ
ルにより作成した話者クラスタを用いて初期話者モデル
を作成するとしている。この方法では、初期話者モデル
の分布をある程度絞る事ができるが、クラスタの中心が
適応対象となる話者モデルのベクトルの中から、大きく
ずれている場合には、補正の効果が小さく、十分な適応
ができない恐れがある。
Further, in the conventional example 2 disclosed in JP-A-8-110792, an initial speaker model is created using a speaker cluster created by a tree structure clustering model. With this method, the distribution of the initial speaker model can be narrowed down to some extent. However, if the center of the cluster deviates greatly from the vector of the speaker model to be adapted, the effect of the correction is small, and May not be able to adapt.

【0016】最大事後確率推定法は、前述したように、
話者の発声サンプルデータを用いて、初期話者モデルの
パラメータを修正し、話者に適応させていくもので、サ
ンプルデータの数に応じて漸次モデルの精度を向上させ
ることができるが、この初期の話者モデルをどう選ぶか
が、適応の能力に大きく影響する。本発明は、こうした
点に鑑みなされたもので、最大事後確率推定法を用いた
話者適応において、精度の高い話者適応の能力を実現す
るための手段を与えるものである。本発明は、最適な初
期の話者モデルを選択することにより、適応対象の特定
の話者からの少量の発声データを用いて、その話者に対
する精度の高い音声モデルを作成する話者適応装置を実
現することを目的とするものであり、その話者適応装置
を用いることにより、精度の高い話者適応の能力を持っ
た音声認識装置を実現することができる。
The maximum posterior probability estimation method is, as described above,
Using the speaker's utterance sample data, the parameters of the initial speaker model are modified and adapted to the speaker, and the accuracy of the model can be gradually improved according to the number of sample data. The choice of the early speaker model has a significant effect on the ability to adapt. The present invention has been made in view of such a point, and provides means for realizing a speaker adaptation capability with high accuracy in speaker adaptation using a maximum posterior probability estimation method. The present invention provides a speaker adaptation apparatus that creates an accurate speech model for a particular speaker by selecting an optimal initial speaker model using a small amount of utterance data from a specific speaker to be adapted. It is an object of the present invention to realize a speech recognition device having a speaker adaptation capability with high accuracy by using the speaker adaptation device.

【0017】[0017]

【課題を解決するための手段】本発明は、初期話者モデ
ルと適応学習用データを用いて、最大事後確率推定法に
よって話者モデルのパラメータを再推定し、話者適応を
行う装置において、多数の話者から作成した多数(N
個)の話者モデルを事前に用意し、それらの多数の話者
モデルの中から、適応対象の話者に距離的に近いM個の
話者モデルを選択し、そうして選択されたM個の話者モ
デルを混合して初期の話者モデルを構成することを特徴
とする。また、そのとき、個数M(M<<N)を適応対
象話者と事前に用意されたN個の個々の話者モデルとの
距離の関係に基づいて決定する。これにより、分布に応
じた精度の高い初期モデルを決定することができるとと
もに、不必要なパラメータの増加を押さえることができ
る。
According to the present invention, there is provided an apparatus for re-estimating parameters of a speaker model by a maximum posterior probability estimation method using an initial speaker model and data for adaptive learning, and performing speaker adaptation. Many (N) created from many speakers
Speaker models are prepared in advance, and among these many speaker models, M speaker models which are close in distance to the speaker to be adapted are selected, and the selected M It is characterized in that an initial speaker model is formed by mixing individual speaker models. Further, at this time, the number M (M << N) is determined based on the distance relationship between the adaptation target speakers and N individual speaker models prepared in advance. This makes it possible to determine an initial model with high accuracy according to the distribution, and to suppress an unnecessary increase in parameters.

【0018】この構成においては、混合するN個の話者
モデルは、適応対象話者の特徴ベクトルとの距離に応じ
て、重み付けされるようにしてもよい。
In this configuration, the N speaker models to be mixed may be weighted according to the distance from the feature vector of the speaker to be adapted.

【0019】また、適応対象の話者と距離的に最も近い
話者モデルとの距離を基底距離とするとき、適応対象の
話者との距離が前記基底距離と比較して一定範囲以内で
ある話者モデルを選択することにより、混合する話者モ
デルの個数Nを可変とするようにしてもよい。
When the distance between the speaker to be adapted and the speaker model closest to the distance is set as the base distance, the distance between the speaker to be adapted and the base distance is within a certain range as compared with the base distance. By selecting a speaker model, the number N of speaker models to be mixed may be made variable.

【0020】また、本発明は方法としても実現でき、ま
た少なくともその一部をコンピュータプログラム製品と
しても実現できる。
The present invention can also be realized as a method, and at least a part thereof can be realized as a computer program product.

【0021】[0021]

【発明の実施の態様】以下、本発明の実施例について説
明する。
Embodiments of the present invention will be described below.

【0022】図2は、本発明による話者適応装置とそれ
を用いた音声認識システムの実施例をブロック図で示し
たものである。音声認識システムは、入力された音声を
音響解析部10で分析し、特徴パラメータ・ベクトルの
系列を抽出する。抽出した特徴パラメータ・ベクトルの
系列を、音韻照合部11において、言語モデル14から
の粗い情報を参照しながら、音声モデル13と照合し、
複数の音韻系列の候補を作成する。こうしてできた複数
の音韻系列の候補を、言語認識部12で言語モデル14
からの細かい情報を使って再評価し、最終的な認識結果
を確定する。上記の話者に適応した音声モデル13を作
る手段が本発明による話者適応化装置であり、その方法
と構成を以下に述べる。
FIG. 2 is a block diagram showing an embodiment of a speaker adaptation apparatus and a speech recognition system using the same according to the present invention. In the speech recognition system, the input speech is analyzed by the acoustic analysis unit 10, and a sequence of feature parameter vectors is extracted. The extracted feature parameter / vector sequence is compared with the speech model 13 in the phoneme matching unit 11 while referring to coarse information from the language model 14.
Create multiple phoneme sequence candidates. The plurality of phoneme sequence candidates thus generated are input to the language recognition unit 12 by the language model 14.
Re-evaluate using the detailed information from to determine the final recognition result. The means for generating the above-mentioned speaker-adapted speech model 13 is the speaker adaptation apparatus according to the present invention, and the method and configuration thereof will be described below.

【0023】この実施例では、まず、事前に多数の話者
の音声を収集し、図示していない、音響解析部10と同
等の音響解析手段を使って、適応対象話者と独立した多
数の話者モデルの集合17を用意しておく。つまり、N
人の話者の音声を収集することにより、N個の分布を予
め計算して用意しておく。図3は、これらの多数の話者
モデルの特徴パラメータベクトルの出力確率分布を模式
的に破線で示したものである。説明の都合上、特徴パラ
メータベクトルを2次元として表示しているが、この特
徴パラメータベクトルは、実際には30次元程度の多次
元ベクトルとするのが普通である。各話者モデルは、図
3に示すように、相互に重なり合いながら、多次元空間
内に分布している。次に、話者適応のために、適応対象
の話者の音声を入力し、音響解析部10で分析して適応
対象話者の特徴パラメータベクトルの分布を求め、適応
用サンプル・データ16として保存する。図4は、この
適応用サンプル・データから得られた適応対象話者の特
徴パラメータベクトルの出力確率の分布の様子の例を実
線で示したもので、先に求めた多数の特定話者モデルの
分布との関係を示したものである。以上のようにして適
応対象の話者モデルと多数(N個)の話者モデルとを決
定しておき、適応モデル作成部15において、適応化し
た音声モデル13を作成する。それは次の手順で行う。
適応モデル作成部15では、まず適応用サンプル・デー
タ16として保存されている適応対象の話者モデルと話
者モデルの集合17として保存されている多数(N個)
の話者モデルとの間の距離を測定する。話者モデルとし
て、多変量のガウス分布を仮定すると、この距離として
は、適応対象の話者モデルの中心ベクトルと特定話者モ
デルとのマハラノビス距離を用いることができる。この
距離を使って、適応対象の話者モデルとの距離が近い順
にM個の話者モデルを選ぶ。図4は、Mを3とした場合
について、適応対象の話者モデルの最近傍にある、n番
目、n+1番目とn+2番目のモデルが選ばれる様子を
説明している。こうして、M個の話者モデルが選択でき
ると、それらの重み付き加算値として初期のモデルを決
定する。
In this embodiment, first, the voices of a large number of speakers are collected in advance, and a large number of voices independent of the adaptation target speaker are collected using acoustic analysis means (not shown) equivalent to the acoustic analysis unit 10. A set 17 of speaker models is prepared. That is, N
By collecting voices of human speakers, N distributions are calculated and prepared in advance. FIG. 3 schematically shows output probability distributions of feature parameter vectors of these many speaker models by broken lines. For convenience of explanation, the feature parameter vector is displayed as two-dimensional. However, this feature parameter vector is usually a multidimensional vector of about 30 dimensions. As shown in FIG. 3, the speaker models are distributed in a multidimensional space while overlapping each other. Next, for speaker adaptation, the speech of the speaker to be adapted is input and analyzed by the acoustic analysis unit 10 to obtain the distribution of the characteristic parameter vector of the speaker to be adapted, and stored as the sample data 16 for adaptation. I do. FIG. 4 is a solid line showing an example of the distribution of the output probabilities of the feature parameter vectors of the adaptation target speaker obtained from the adaptation sample data. It shows the relationship with the distribution. As described above, the speaker model to be adapted and a large number (N) of speaker models are determined, and the adaptive model creation unit 15 creates the adapted speech model 13. It is done in the following steps.
The adaptation model creating unit 15 first stores a large number (N) of speaker models to be adapted stored as adaptation sample data 16 and a set 17 of speaker models.
Measure the distance between the speaker model. Assuming a multivariate Gaussian distribution as the speaker model, the Mahalanobis distance between the center vector of the speaker model to be adapted and the specific speaker model can be used as this distance. Using this distance, M speaker models are selected in order of decreasing distance from the speaker model to be adapted. FIG. 4 illustrates how the nth, n + 1th, and n + 2th models, which are closest to the speaker model to be adapted, are selected when M is 3. In this way, when M speaker models can be selected, an initial model is determined as a weighted addition value.

【0024】なお、この時の重みをこれらの距離に基づ
いて決定することができる。
The weight at this time can be determined based on these distances.

【0025】また、混合するモデルの個数Mを固定値と
せず、分布に応じて変化させるようにしてもよい。初期
モデルの候補として選択するモデルが不確かな場合は、
混合するモデルの個数Mを多くし、確かな場合は混合す
るモデルの個数Mを少なくする。そのために、適応対象
の話者モデルの中心ベクトルとN個の特定話者モデルと
のマハラノビス距離を測定し、その距離が、全モデルに
対する距離の中で最も短いものと比べてある一定範囲内
であるモデルを選ぶ。そうして選ばれたモデルの個数を
M 個であるとき、先の例と同様にしてM 個のモデル
の重み付き加算による混合で初期のモデルを作成する。
このときも、先の例と同様に、重みはこれらの距離に基
づいて決定することができる。こうすることによって、
曖昧性が強い、不確かな初期モデルの候補に関しては、
混合数を多くして細かいモデルを作成し、逆に、曖昧性
が低く、確度の高い初期モデルの候補に関しては、混合
数を少なくして計算量を削減したモデルを作ることがで
きる。上記の一定範囲内としては、適応対象の話者モデ
ルの中心ベクトルと全モデルに対する距離の中で最も短
いものをDminとするとき、その距離とDminの比が一定
値以下のもの、或いは、その距離とDminの差が一定値
以下のものを選べばよい。
Further, the number M of the models to be mixed may not be a fixed value but may be changed according to the distribution. If you are unsure which model to select as an initial model candidate,
The number M of models to be mixed is increased, and if it is certain, the number M of models to be mixed is reduced. For this purpose, the Mahalanobis distance between the center vector of the speaker model to be adapted and the N specific speaker models is measured, and the distance is within a certain range compared to the shortest distance among all models. Choose a model. When the number of selected models is M, an initial model is created by mixing the M models by weighted addition in the same manner as in the previous example.
At this time, as in the previous example, the weight can be determined based on these distances. By doing this,
For ambiguous, uncertain initial model candidates,
A fine model can be created by increasing the number of mixtures, and conversely, with respect to initial model candidates with low ambiguity and high accuracy, it is possible to create a model in which the number of mixtures is reduced to reduce the amount of calculation. The within a range of above, when the shortest in distance to the center vector and all models of the adaptive target speaker model and D min, those ratios of the distance and D min is equal to or less than a predetermined value, or , The difference between the distance and D min may be smaller than a certain value.

【0026】以下に具体例について詳しく述べる。Hereinafter, specific examples will be described in detail.

【0027】[具体例1]ここでは、連続音声認識に対
応した話者適応方式を例として示す。連続音声認識のた
めには、認識の単位となる音声の単位を音素レベルとす
るのが適当である。そこで、ここでは、音素毎にHMM
を作成する。HMMの作成は、音声データを使ってHM
Mのパラメータを決定する訓練と呼ばれる手続きを実行
することにより行われる。連続的に発声された発声デー
タを用いて音素レベルのHMMを訓練するには、発声さ
れた音素列に関して、先行する音素のHMMの最終状態
を後続する音素のHMMの初期状態につなげて訓練を行
う。
[Specific Example 1] Here, a speaker adaptation method corresponding to continuous speech recognition will be described as an example. For continuous speech recognition, it is appropriate that the unit of speech as the unit of recognition be a phoneme level. Therefore, here, HMM
Create HMM is created using voice data
This is done by performing a procedure called training to determine the parameters of M. To train the HMM at the phoneme level using continuously uttered utterance data, the training is performed by connecting the final state of the HMM of the preceding phoneme to the initial state of the HMM of the succeeding phoneme for the uttered phoneme sequence. Do.

【0028】本発明を実施するためには、事前に多数の
話者からの発声データを収集し、認識単位となる音声単
位毎にHMMを作成する必要がある。音声信号のような
時間とともに連続的に変化する信号をモデル化するに
は、前述したように、左から右に状態が遷移する、所謂
left−to−right型のHMMが適当であるの
で、図1のような、例えば4状態のHMMを使用する。
図1において、1,2,3,4は状態を表し、a
ij(i,j=1,…4)は、状態iから状態jに遷移す
る確率を示している。状態jにおいて、モデルから観測
される事象をbj(o)であらわす。この観測事象の対
象である音声の特徴パラメータベクトルは、連続信号で
あるので、bj(o)は以下のような連続確率密度関数
で表すことができる。
In order to implement the present invention, it is necessary to collect utterance data from a large number of speakers in advance and create an HMM for each speech unit that is a recognition unit. To model a signal that changes continuously with time, such as an audio signal, as described above, a so-called left-to-right type HMM in which the state transitions from left to right is appropriate. For example, a 4-state HMM such as 1 is used.
In FIG. 1, 1, 2, 3, and 4 represent states, and a
ij (i, j = 1,..., 4) indicates the probability of transition from state i to state j. In state j, an event observed from the model is represented by b j (o). Since the feature parameter vector of the speech that is the target of this observation event is a continuous signal, b j (o) can be represented by the following continuous probability density function.

【0029】[0029]

【数2】 ここで、oは観測ベクトル、N[…]は、平均値ベクト
ルμj、分散・共分散行列Σjのガウス分布関数である。
(Equation 2) Here, o is an observation vector, and N [...] is a Gaussian distribution function of the mean vector μ j and the variance / covariance matrix Σ j .

【0030】個々のモデルにおけるパラメータ、a
ij(i,j=1,…4)やbj(o)(j=1,…4)
は、公知のBaum−Welch法を使った繰り返し計
算により求めることができる。このBaum−Welc
h法による再推定については、例えば、文献、Lawr
ence Rabiner,Biing−Hwang
Juang,”Fundamentals of Sp
eech Recognition”,Prentic
e Hall PTR93で詳しく述べられている。そ
の概要を示すと以下の通りである。Baum−Welc
h法では、
Parameters in the individual models, a
ij (i, j = 1,... 4) and b j (o) (j = 1,.
Can be determined by iterative calculation using the known Baum-Welch method. This Baum-Welc
For re-estimation by the h method, see, for example,
ence Rabiner, Biing-Hwang
Juang, "Fundamentals of Sp.
tech Recognition ”, Prentic
e Hall PTR93. The outline is as follows. Baum-Welc
In the h method,

【0031】[0031]

【数3】 として、パラメータを再推定し、推定されたパラメータ
を入れ替えて推定の計算を繰り返しすることにより、o
が観測される確率が極大となるようなモデルを作成する
ことができる。
(Equation 3) By re-estimating the parameters, replacing the estimated parameters and repeating the calculation of the estimation,
Can be created such that the probability of observing is maximized.

【0032】このとき、bj(o)として、式(2)の
ようなガウス分布を仮定すると、μj、Σjに対する再推
定の式は、
At this time, assuming a Gaussian distribution as in equation (2) as b j (o), the re-estimation equation for μ j and Σ j is as follows:

【0033】[0033]

【数4】 となる。ここで、γt(j)は、観測系列oとモデルが
与えられたとき、時刻tにおいて状態jに存在する確率
である。以上のようにして、事前に作成しておく、複数
の話者のモデルが決定する。
(Equation 4) Becomes Here, γ t (j) is the probability of being in state j at time t given observation series o and model. As described above, a plurality of speaker models created in advance are determined.

【0034】適応は、以下のステップで行う。まず、適
応対象話者から適応学習用の音声データを収集する。そ
して、これらの適応用学習データに含まれる各音素のH
MMについて、上述した方法に従い、パラメータを決定
する。そのとき、ビタビ・セグメンテーションにより、
音素のHMMの各状態に対応するフレームが決まってい
るので、それによって、適応学習用データのサンプル数
が求められる。
The adaptation is performed in the following steps. First, speech data for adaptation learning is collected from adaptation target speakers. Then, the H of each phoneme included in the learning data for adaptation is calculated.
For MM, parameters are determined according to the method described above. At that time, with Viterbi segmentation,
Since the frame corresponding to each state of the phonetic HMM is determined, the number of samples of the adaptive learning data is obtained.

【0035】次に、学習データから得られた、適応対象
話者のモデルと、事前に得られている多数の話者モデル
との距離を計算する。この距離としては、平均値ベクト
ルと話者モデルとのマハラノビス距離を使う。
Next, the distance between the model of the speaker to be adapted obtained from the training data and a number of speaker models obtained in advance is calculated. The Mahalanobis distance between the average value vector and the speaker model is used as this distance.

【0036】あるk番目の話者モデルのj番目の状態の
分布の平均値ベクトルがμkj、分散・共分散行列がΣkj
であるとし、適応対象話者のj番目の状態の平均値ベク
トルμjとこのk番目のモデルのマハラノビス距離をD
kjとするとき、Dkjの二乗は
The mean vector of the distribution of the j-th state of a certain k-th speaker model is μ kj , and the variance / covariance matrix is Σ kj
, And the average value vector μ j of the j-th state of the speaker to be adapted and the Mahalanobis distance of this k-th model are D
kj , the square of D kj is

【0037】[0037]

【数5】 で求められる。ここで、Σkj -1は、分散・共分散行列
Σkjの逆行列、(μkj−μjtはベクトル(μkj
μj)の転置ベクトルである。
(Equation 5) Is required. Here, Σ kj -1 is the inverse matrix of the variance / covariance matrix Σ kj , and (μ kj −μ j ) t is the vector (μ kj
μ j ).

【0038】すべての話者モデルに対してマハラノビス
距離Dkjを計算し、距離の近い方からM個の話者のモデ
ルを選択する。図4は、これを説明するために、Mが3
のときの様子を示したもので、距離の近い方から3つの
モデル、n、n+1、n+2が選ばれている。但し、状
態に関する添字は省略している。
The Mahalanobis distance D kj is calculated for all speaker models, and M speaker models are selected from the closest one. FIG. 4 shows that M is 3
In this case, three models, n, n + 1, and n + 2, are selected from the closest one. However, suffixes relating to the state are omitted.

【0039】さて、この選択されたM個の話者モデルの
中の、m(1≦m≦M)番目の話者モデルの特徴ベクト
ルを考える。そしてその特徴ベクトルのある要素の平均
をμmj、その分散をτmj 2とする。 今、特徴ベクト
ルの要素の平均μjが、事前分布P0(μ)を持ち、その
分散σj 2が既知の固定値であるとする。そうすると、
μjに対する共役な事前分布は、ガウス分布となる。そ
こで、m(1≦m≦M)番目の話者モデルを平均に対す
る共役事前分布とすると、最大事後確率推定法により、
平均の推定値μmj MAPは、
Now, consider the feature vector of the mth (1 ≦ m ≦ M) th speaker model among the selected M speaker models. The average of a certain element of the feature vector is μ mj , and the variance is τ mj 2 . Now, it is assumed that the average μ j of the elements of the feature vector has a prior distribution P 0 (μ), and the variance σ j 2 is a known fixed value. Then,
The conjugate prior to μ j is a Gaussian distribution. Thus, if the m-th (1 ≦ m ≦ M) speaker model is a conjugate prior distribution with respect to the average, the maximum posterior probability estimation method
The average estimate μ mj MAP is

【0040】[0040]

【数6】 で与えられる。ここで、nはサンプルの個数である。(Equation 6) Given by Here, n is the number of samples.

【0041】つまり、m(1≦m≦M)番目の話者モデ
ルを初期モデルとした、特徴ベクトルのある要素の平均
の推定値はμmj MAP、事前分布の平均値μmjと、適応
学習において観測されたサンプルの平均omの重み付き
平均となる。
That is, using the m-th (1 ≦ m ≦ M) speaker model as an initial model, the estimated value of the average of an element having a feature vector is μ mj MAP , the average value of a prior distribution μ mj , and adaptive learning. the weighted average of the average o m of the observed samples in.

【0042】そこで、m番目の話者モデルに対して得ら
れた推定値を用いて、適応対象話者に対するモデルは、
次の形で与えられる。
Then, using the estimated values obtained for the m-th speaker model, the model for the speaker to be adapted is:
Given in the form:

【0043】[0043]

【数7】 ここで、cmjは、話者モデルのj番目の状態における、
m番目の話者に対する重みの係数で、これは、前記の過
程の中で計算されている距離に基づいて決定することが
できる。つまり、
(Equation 7) Here, cmj is the j-th state of the speaker model,
A weighting factor for the mth speaker, which can be determined based on the distance calculated in the above process. That is,

【0044】[0044]

【数8】 とすればよい。このとき、あきらかに(Equation 8) And it is sufficient. At this time, clearly

【0045】[0045]

【数9】 であり、(9)のは統計的制約を満足するように決定さ
れている。
(Equation 9) And (9) is determined to satisfy the statistical constraints.

【0046】[具体例2]具体例1では、モデルの混合
数Mを固定したが、このMの値をモデルの分布に応じて
変化させることにより、計算コストに対して適応能力が
高い、効率的なモデルを作成する事ができる。つまり、
適応対象の話者モデルの中心ベクトルと事前に用意され
ている多数の特定話者モデルとの距離の分布が、状態ご
とに違い、一様ではないときには、その確からしさに応
じて、Mの値を変化させるのである。例えば、適応対象
の話者モデルの中心ベクトルと事前に用意されている多
数の話者モデルとの距離が、それぞれの話者モデル間で
大きく異なり、少数の話者モデルのみに近いときには、
それらのモデルのみを混合する分布として利用すれば十
分であり、そうすることにより、無駄なパラメータの増
加を防ぐことができるからである。
[Specific Example 2] In the specific example 1, the number M of mixtures of the model is fixed. However, by changing the value of M according to the distribution of the model, the adaptability to the calculation cost is high, and the efficiency is high. Model can be created. That is,
The distribution of distances between the center vector of the speaker model to be adapted and a number of specific speaker models prepared in advance differs for each state, and when the distribution is not uniform, the value of M depends on the likelihood. It changes. For example, when the distance between the center vector of the speaker model to be adapted and a large number of speaker models prepared in advance is significantly different between the respective speaker models and is close to only a small number of speaker models,
It is sufficient to use only those models as a distribution for mixing, and by doing so, it is possible to prevent an increase in useless parameters.

【0047】具体例2では、適応対象話者のモデルと事
前に得られている多数の話者モデルとのマハラノビス距
離Dkをとり、それに基づいて混合数を決定する。本発
明を実施するためには、まず、具体例1と同様にして、
事前に多数の話者からの発声データを収集し、認識単位
となる音声単位毎に多数の話者のHMMを作成する。次
に、適応対象話者から適応用学習用の音声データを収集
し、適応用学習データに含まれる各音素のHMMについ
て、モデルのパラメータを決定する。そうして、こうし
て得られた適応対象話者のモデルと、多数の話者モデル
との距離を計算する。距離としては、マハラノビス距離
を使う。この具体例2では、適応対象話者のモデルと、
多数の話者モデルとの距離のうち最少のものを
In the specific example 2, the Mahalanobis distance D k between the model of the speaker to be adapted and a large number of speaker models obtained in advance is determined, and the number of mixtures is determined based on the Mahalanobis distance D k . In order to carry out the present invention, first, in the same manner as in Example 1,
Speech data from a large number of speakers is collected in advance, and HMMs for a large number of speakers are created for each voice unit as a recognition unit. Next, speech data for learning for adaptation is collected from the adaptation target speaker, and model parameters are determined for the HMM of each phoneme included in the training data for adaptation. Then, the distance between the model of the speaker to be adapted thus obtained and a number of speaker models is calculated. The Mahalanobis distance is used as the distance. In this specific example 2, the model of the speaker to be adapted is
The least distance between many speaker models

【0048】[0048]

【数10】 とするとき、Dminと比較して規定の範囲の距離Dkをも
つモデルkのみを混合する要素として選択する。
(Equation 10) In this case, only the model k having a distance D k within a specified range as compared with D min is selected as an element to be mixed.

【0049】この様子を図で説明すると以下のようにな
る。例えば、図5のように、モデルnに対する距離Dn
が最少であり、モデルn+1、モデルn+2に対する距
離Dn+1、Dn+2がその最少距離と比較してある範囲以内
であれば、モデルn、モデルn+1、モデルn+2の3
つのモデルが、混合するモデルとして選ばれる。また、
例えば、図6のように、モデルnに対する距離が最少で
あり、モデルn+1に対する距離はと比較してある範囲
以内あるが、その次に近いモデルn+2に対する距離が
と比較してある範囲以内になければ、モデルnとモデル
n+1の2つのモデルのみが混合するモデルとして選択
される。
This situation will be described below with reference to the drawings. For example, as shown in FIG. 5, the distance to the model n D n
Is the minimum, and if the distances D n + 1 and D n + 2 to the model n + 1 and the model n + 2 are within a certain range as compared with the minimum distance, 3 of the model n, the model n + 1 and the model n + 2
One model is chosen as the model to mix. Also,
For example, as shown in FIG. 6, the distance to the model n is the minimum, and the distance to the model n + 1 is within a certain range as compared with, but the distance to the next closest model n + 2 must be within a certain range as compared to. For example, only two models, model n and model n + 1, are selected as a mixed model.

【0050】この最少距離と比較してある範囲を決定す
る方法としては、モデルkとの距離Dkと最少距離Dmin
との比が、一定値δ以下である、つまり
As a method of determining a certain range in comparison with the minimum distance, the distance D k to the model k and the minimum distance D min
Is less than or equal to a certain value δ, that is,

【0051】[0051]

【数11】 なるk番目のモデルを選択するのが一つの方法である。[Equation 11] One way is to select the k-th model.

【0052】また、モデルkとの距離Dkと最少距離D
minとの差が一定値δ’以下である、つまり
The distance D k from the model k and the minimum distance D
The difference from min is less than or equal to the fixed value δ ', that is,

【0053】[0053]

【数12】 なるk番目のモデルを選択する事もできる。(Equation 12) The k-th model can be selected.

【0054】いずれかの方法で、選択されたモデルの個
数をM’とするとき、それらの選択された話者モデルに
対して得られた推定値を用いて、適応対象話者に対する
モデルは、具体例1の場合と同様にして次の形で与えら
れる。
When the number of selected models is M ′ in any of the methods, using the estimated values obtained for the selected speaker models, the model for the speaker to be adapted is: It is given in the following form as in the case of the specific example 1.

【0055】[0055]

【数13】 ここで、cmjは、話者モデルのj番目の状態における、
番目の話者に対する重みの係数で、これは、前記の過程
の中で計算されている距離に基づいて決定することがで
きる。つまり、
(Equation 13) Here, cmj is the j-th state of the speaker model,
The weighting factor for the second speaker, which can be determined based on the distances calculated in the above process. That is,

【0056】[0056]

【数14】 とすればよい。[Equation 14] And it is sufficient.

【0057】[0057]

【発明の効果】本発明は、事前に仮定した初期話者モデ
ルと適応学習用データを用いて、最大事後確率推定法に
よって話者モデルのパラメータを再推定し、話者適応を
行う装置において、初期話者モデルとして適応対象の話
者の特性にできるだけ近いと考えられる予測分布を仮定
しようとするものである。初期話者モデルに適応対象の
話者の特性にできるだけ近い予測分布を用いることによ
り、少量の適応学習用データで精度の高いモデルのパラ
メータ推定が行われ、良好な話者適応が実現する。本発
明では、事前に得られている多数の特定話者モデルと適
応対象話者の距離を測定し、距離的に近いN個のモデル
を選択的に用いることによりこの作用を効果的に発現さ
せる方法を開示しており、これにより高い適応性を実現
する事ができる。
According to the present invention, there is provided an apparatus for re-estimating parameters of a speaker model by a maximum posterior probability estimation method using an initial speaker model assumed in advance and adaptive learning data, and performing speaker adaptation. As an initial speaker model, an attempt is made to assume a predicted distribution that is considered as close as possible to the characteristics of the speaker to be adapted. By using a prediction distribution as close as possible to the characteristics of the speaker to be adapted to the initial speaker model, highly accurate model parameter estimation is performed with a small amount of adaptive learning data, and good speaker adaptation is realized. In the present invention, the distance between a large number of specific speaker models obtained in advance and the speaker to be adapted is measured, and this function is effectively exhibited by selectively using N models close in distance. A method is disclosed by which high adaptability can be achieved.

【0058】また、本発明では、距離的に近いM個のモ
デルを選択するときに、モデルとの距離の相対的な関係
により、選択するモデルの個数Mを変化させる方法を開
示している。これは、仮定する予測分布の分布に応じて
最適な混合モデルを選択するもので、これにより、最良
の適応能力が発揮されるとともに、計算処理量も減少す
るという効果もある。
Further, the present invention discloses a method of changing the number M of models to be selected according to the relative relationship of the distance to the models when selecting M models close in distance. This is to select the optimal mixture model according to the distribution of the assumed distribution to be assumed. This has the effect of exhibiting the best adaptability and reducing the amount of calculation processing.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 HMMの例を示す模式図である。FIG. 1 is a schematic diagram illustrating an example of an HMM.

【図2】 本発明の実施例を示すブロック図である。FIG. 2 is a block diagram showing an embodiment of the present invention.

【図3】 多数の特定話者モデルの分布の例を示す図で
ある。
FIG. 3 is a diagram illustrating an example of distribution of a number of specific speaker models.

【図4】 学習データから得られる適応対象話者の分布
の例を示す図である。
FIG. 4 is a diagram illustrating an example of a distribution of adaptation target speakers obtained from learning data.

【図5】 適応対象話者モデルの最近傍にある特定話者
モデルの分布の例を示す図である。
FIG. 5 is a diagram illustrating an example of a distribution of a specific speaker model located closest to an adaptation target speaker model;

【図6】 適応対象話者モデルの最近傍にある特定話者
モデルの分布の他の例を示す図である。
FIG. 6 is a diagram illustrating another example of the distribution of a specific speaker model that is closest to an adaptation target speaker model;

【符号の説明】[Explanation of symbols]

1〜4 HMMの状態 10 音響解析部 11 音韻照合部 12 言語認識部 13 音声モデル 14 言語モデル 15 適応モデル作成部 16 適応用サンプル・データ 17 特定話者モデルの集合 20 多数の話者の特徴ベクトルの分布 21 適応対象話者の特徴ベクトルの分布 1-4 HMM state 10 Acoustic analysis unit 11 Phoneme matching unit 12 Language recognition unit 13 Speech model 14 Language model 15 Adaptation model creation unit 16 Adaptation sample data 17 Set of specific speaker models 20 Feature vectors of many speakers 21 Distribution of feature vector of speaker to be adapted

Claims (4)

【特許請求の範囲】[Claims] 【請求項1】 初期話者モデルと適応学習用データとを
用いて、最大事後確率推定法によって話者モデルのパラ
メータを再推定し、話者適応を行う話者適応装置におい
て、事前に、多数の話者から多数の初期話者モデルを作
成し、適応対象の話者が発声した適応用学習データか
ら、その適応対象話者の特徴を抽出し、前記多数の初期
話者モデルの中から、前記適応対象話者の特徴に距離的
に最も近い方からN個の話者モデルを選択し、選択され
たN個の話者モデルの各々を事前に仮定された分布とし
て、適応用学習データを使って話者モデルのパラメータ
を推定し、その推定されたパラメータを持つN個の話者
モデルを混合加算することにより適応対象話者の音声モ
デルを作成することを特徴とする話者適応装置。
1. A speaker adaptation apparatus for re-estimating parameters of a speaker model by a maximum a posteriori probability estimation method using an initial speaker model and data for adaptive learning and performing speaker adaptation. A number of initial speaker models are created from the speakers, and the adaptation learning data uttered by the adaptation target speaker is extracted, and the features of the adaptation target speaker are extracted. The N speaker models are selected from the one closest to the feature of the speaker to be adapted in terms of distance, and each of the selected N speaker models is assumed to be a distribution assumed in advance, and the learning data for adaptation is used. A speaker adaptation apparatus comprising: estimating parameters of a speaker model using the parameters; and adding and adding N speaker models having the estimated parameters to generate a speech model of a speaker to be adapted.
【請求項2】 混合するN個の話者モデルは、適応対象
話者の特徴ベクトルとの距離に応じて、重み付けされる
ことを特徴とする請求項1記載の話者適応装置。
2. The speaker adaptation apparatus according to claim 1, wherein the N speaker models to be mixed are weighted according to a distance from a feature vector of the adaptation target speaker.
【請求項3】 適応対象の話者と距離的に最も近い話者
モデルとの距離を基底距離とするとき、適応対象の話者
との距離が前記基底距離と比較して一定範囲以内である
話者モデルを選択することにより、混合する話者モデル
の個数Nを可変とすることを特徴とする請求項1または
2記載の話者適応装置。
3. When the distance between the speaker to be adapted and the speaker model closest in distance is the base distance, the distance between the speaker to be adapted and the base distance is within a certain range as compared with the base distance. 3. The speaker adaptation apparatus according to claim 1, wherein the number N of speaker models to be mixed is made variable by selecting a speaker model.
【請求項4】 初期話者モデルと適応学習用データとを
用いて、最大事後確率推定法によって話者モデルのパラ
メータを再推定し、話者適応を行う話者適応方法におい
て、事前に、多数の話者から多数の初期話者モデルを作
成し、適応対象の話者が発声した適応用学習データか
ら、その適応対象話者の特徴を抽出し、前記多数の初期
話者モデルの中から、前記適応対象話者の特徴に距離的
に最も近い方からN個の話者モデルを選択し、選択され
たN個の話者モデルの各々を事前に仮定された分布とし
て、適応用学習データを使って話者モデルのパラメータ
を推定し、その推定されたパラメータを持つN個の話者
モデルを混合加算することにより適応対象話者の音声モ
デルを作成することを特徴とする話者適応方法。
4. A speaker adaptation method in which parameters of a speaker model are re-estimated by a maximum posterior probability estimation method using an initial speaker model and data for adaptive learning to perform speaker adaptation. A number of initial speaker models are created from the speakers, and the adaptation learning data uttered by the adaptation target speaker is extracted, and the features of the adaptation target speaker are extracted. The N speaker models are selected from the one closest to the feature of the speaker to be adapted in terms of distance, and each of the selected N speaker models is assumed to be a distribution assumed in advance, and the learning data for adaptation is used. A speaker adaptation method comprising: estimating a parameter of a speaker model using the parameters; and adding and adding N speaker models having the estimated parameters to generate a speech model of a speaker to be adapted.
JP9306887A 1997-11-10 1997-11-10 Device and method adaptable for speaker Pending JPH11143486A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9306887A JPH11143486A (en) 1997-11-10 1997-11-10 Device and method adaptable for speaker

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9306887A JPH11143486A (en) 1997-11-10 1997-11-10 Device and method adaptable for speaker

Publications (1)

Publication Number Publication Date
JPH11143486A true JPH11143486A (en) 1999-05-28

Family

ID=17962457

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9306887A Pending JPH11143486A (en) 1997-11-10 1997-11-10 Device and method adaptable for speaker

Country Status (1)

Country Link
JP (1) JPH11143486A (en)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004047076A1 (en) * 2002-11-21 2004-06-03 Matsushita Electric Industrial Co., Ltd. Standard model creating device and standard model creating method
JP2004317845A (en) * 2003-04-17 2004-11-11 Nagoya Industrial Science Research Inst Model data generation device, model data generation method, and method therefor
WO2005048239A1 (en) * 2003-11-12 2005-05-26 Honda Motor Co., Ltd. Speech recognition device
JP2006031716A (en) * 2004-07-21 2006-02-02 Microsoft Corp Adaptation of exponential model
US7437288B2 (en) 2001-03-13 2008-10-14 Nec Corporation Speech recognition apparatus
WO2009057739A1 (en) * 2007-10-31 2009-05-07 Nec Corporation Speaker selection apparatus, speaker adoptive model making-out apparatus, speaker selection method and speaker selection program
JP2009300716A (en) * 2008-06-13 2009-12-24 Nippon Telegr & Teleph Corp <Ntt> Speech recognition device and its method, and program and its recording medium
JP2011048163A (en) * 2009-08-27 2011-03-10 National Institute Of Information & Communication Technology Speaker adaptation device of acoustic model, and computer program for the same
JP2014517602A (en) * 2011-05-16 2014-07-17 タッチタイプ リミテッド User input prediction
CN111243574A (en) * 2020-01-13 2020-06-05 苏州奇梦者网络科技有限公司 Voice model adaptive training method, system, device and storage medium

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7437288B2 (en) 2001-03-13 2008-10-14 Nec Corporation Speech recognition apparatus
US7603276B2 (en) 2002-11-21 2009-10-13 Panasonic Corporation Standard-model generation for speech recognition using a reference model
WO2004047076A1 (en) * 2002-11-21 2004-06-03 Matsushita Electric Industrial Co., Ltd. Standard model creating device and standard model creating method
JP2004317845A (en) * 2003-04-17 2004-11-11 Nagoya Industrial Science Research Inst Model data generation device, model data generation method, and method therefor
WO2005048239A1 (en) * 2003-11-12 2005-05-26 Honda Motor Co., Ltd. Speech recognition device
JPWO2005048239A1 (en) * 2003-11-12 2007-11-29 本田技研工業株式会社 Voice recognition device
JP4516527B2 (en) * 2003-11-12 2010-08-04 本田技研工業株式会社 Voice recognition device
JP2006031716A (en) * 2004-07-21 2006-02-02 Microsoft Corp Adaptation of exponential model
JP5626558B2 (en) * 2007-10-31 2014-11-19 日本電気株式会社 Speaker selection device, speaker adaptive model creation device, speaker selection method, and speaker selection program
WO2009057739A1 (en) * 2007-10-31 2009-05-07 Nec Corporation Speaker selection apparatus, speaker adoptive model making-out apparatus, speaker selection method and speaker selection program
JPWO2009057739A1 (en) * 2007-10-31 2011-03-10 日本電気株式会社 Speaker selection device, speaker adaptive model creation device, speaker selection method, and speaker selection program
JP2009300716A (en) * 2008-06-13 2009-12-24 Nippon Telegr & Teleph Corp <Ntt> Speech recognition device and its method, and program and its recording medium
JP4729078B2 (en) * 2008-06-13 2011-07-20 日本電信電話株式会社 Voice recognition apparatus and method, program, and recording medium
JP2011048163A (en) * 2009-08-27 2011-03-10 National Institute Of Information & Communication Technology Speaker adaptation device of acoustic model, and computer program for the same
JP2014517602A (en) * 2011-05-16 2014-07-17 タッチタイプ リミテッド User input prediction
US9639266B2 (en) 2011-05-16 2017-05-02 Touchtype Limited User input prediction
US10416885B2 (en) 2011-05-16 2019-09-17 Touchtype Limited User input prediction
CN111243574A (en) * 2020-01-13 2020-06-05 苏州奇梦者网络科技有限公司 Voice model adaptive training method, system, device and storage medium
CN111243574B (en) * 2020-01-13 2023-01-03 苏州奇梦者网络科技有限公司 Voice model adaptive training method, system, device and storage medium

Similar Documents

Publication Publication Date Title
US6697778B1 (en) Speaker verification and speaker identification based on a priori knowledge
KR100612840B1 (en) Speaker clustering method and speaker adaptation method based on model transformation, and apparatus using the same
JP2871561B2 (en) Unspecified speaker model generation device and speech recognition device
US6493667B1 (en) Enhanced likelihood computation using regression in a speech recognition system
JP4109063B2 (en) Speech recognition apparatus and speech recognition method
JP4141495B2 (en) Method and apparatus for speech recognition using optimized partial probability mixture sharing
Huo et al. On-line adaptive learning of the correlated continuous density hidden Markov models for speech recognition
EP0706171A1 (en) Speech recognition method and apparatus
JP2002500779A (en) Speech recognition system using discriminatively trained model
US5956676A (en) Pattern adapting apparatus using minimum description length criterion in pattern recognition processing and speech recognition system
Diakoloukas et al. Maximum-likelihood stochastic-transformation adaptation of hidden Markov models
Hazen A comparison of novel techniques for rapid speaker adaptation
WO1993013519A1 (en) Composite expert
EP0862162A2 (en) Speech recognition using nonparametric speech models
US20040122672A1 (en) Gaussian model-based dynamic time warping system and method for speech processing
JPH11143486A (en) Device and method adaptable for speaker
JP2751856B2 (en) Pattern adaptation method using tree structure
EP1178467B1 (en) Speaker verification and identification
JP3525082B2 (en) Statistical model creation method
Hochberg et al. Connectionist model combination for large vocabulary speech recognition
Ming et al. A Bayesian approach for building triphone models for continuous speech recognition
JP2003271185A (en) Device and method for preparing information for voice recognition, device and method for recognizing voice, information preparation program for voice recognition, recording medium recorded with the program, voice recognition program and recording medium recorded with the program
Takahashi et al. Tied-structure HMM based on parameter correlation for efficient model training
JP2000259169A (en) Voice recognition device and its recording medium
JP3105708B2 (en) Voice recognition device