JP3316355B2 - HMM learning device - Google Patents

HMM learning device

Info

Publication number
JP3316355B2
JP3316355B2 JP27422595A JP27422595A JP3316355B2 JP 3316355 B2 JP3316355 B2 JP 3316355B2 JP 27422595 A JP27422595 A JP 27422595A JP 27422595 A JP27422595 A JP 27422595A JP 3316355 B2 JP3316355 B2 JP 3316355B2
Authority
JP
Japan
Prior art keywords
speaker
subspace
movement vector
representative
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP27422595A
Other languages
Japanese (ja)
Other versions
JPH09114483A (en
Inventor
計美 大倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP27422595A priority Critical patent/JP3316355B2/en
Publication of JPH09114483A publication Critical patent/JPH09114483A/en
Application granted granted Critical
Publication of JP3316355B2 publication Critical patent/JP3316355B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、音声の統計的特徴
をガウス分布等の分布により近似的に表現する確率モデ
ルであるHidden Markov Model(以
下、「HMM」という。)の学習装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a learning apparatus for a Hidden Markov Model (hereinafter, referred to as "HMM"), which is a probabilistic model that approximately represents a statistical feature of speech by a distribution such as a Gaussian distribution.

【0002】[0002]

【従来の技術】近年、HMMを用いた音声認識装置の開
発が盛んに行われている。このHMMは大量の音声デー
タから得られる音声の統計的特徴をモデル化したもので
あり、このモデルは、(1)発声の揺らぎを分布という
形で統計的に処理できる、(2)話者による発声時間長
の違いを吸収できる、といった利点を備えている。
2. Description of the Related Art In recent years, a speech recognition apparatus using an HMM has been actively developed. This HMM is a model of a statistical feature of speech obtained from a large amount of speech data. This model can (1) statistically process fluctuations of utterance in the form of a distribution, It has the advantage of being able to absorb differences in utterance time length.

【0003】これらの利点を備えた音素HMMを用いて
単語の音声認識を行なう場合を例に挙げて説明する。
A case will be described as an example where speech recognition of a word is performed using a phoneme HMM having these advantages.

【0004】一般的に、単語はそれより小さい単位、例
えば音素が繋ぎ合わさって成立しているように、音素単
位でHMMを作成しておくと、その音素HMMの連結に
より任意の単語に対する単語認識を行なうことができ
る。
In general, when an HMM is created in phoneme units so that a word is formed by connecting smaller phonemes, for example, phonemes, word recognition for an arbitrary word is performed by linking the phoneme HMMs. Can be performed.

【0005】例えば、辞書に登録されている認識対象が
「うちけす(U/CH/I/K/E/S/U)」、「う
ちあわせ(U/CH/I/A/W/A/S/E)」及び
「うる(U/R/U)」の3単語である場合、作成する
必要がある音素HMMは辞書中に出現する「U/CH/
I/K/E/S/A/W/R」の9種類のみでよい。
For example, recognition targets registered in the dictionary are “Uchisuke (U / CH / I / K / E / S / U)” and “Uchicho (U / CH / I / A / W / A / S / E) and “Uru (U / R / U)”, the phoneme HMM that needs to be created is “U / CH /
I / K / E / S / A / W / R ".

【0006】したがって、単語認識に際しては、音素H
MMを連結することにより辞書内に存在する単語に対応
する単語HMMを作成し、入力音声(単語)と近いもの
を確率的尤度(確からしさ)として得ることができるよ
うな構成をとる。
Therefore, in word recognition, the phoneme H
The word HMM corresponding to the word existing in the dictionary is created by connecting the MMs, and a word HMM close to the input speech (word) can be obtained as a probabilistic likelihood (probability).

【0007】このように、予め話者の音声情報を学習し
て音素HMMを作成しておくことによって、入力音声が
単語の場合であっても認識することが可能である。
In this way, by learning the speaker's voice information in advance and creating a phoneme HMM, it is possible to recognize even if the input voice is a word.

【0008】ところで、斯かる音素HMMは、一般的に
数百語の学習用単語等を用いて作成される。しかし、使
用者に数百語もの単語を発声させるのは、使用者の負担
を考えると現実的ではない。かかる点を回避するために
少数の学習単語を用いて音素HMMを使用者の音声特徴
にチューニングする方法として話者適応法があり、本発
明者は日本音響学会平成6年度秋季研究発表会講演論文
集Ipp.81〜82に於いて話者適応法を発表してい
る。
By the way, such a phoneme HMM is generally created using hundreds of learning words and the like. However, it is not realistic to make a user utter a few hundred words in consideration of the burden on the user. In order to avoid such a point, there is a speaker adaptation method as a method of tuning a phoneme HMM to a user's speech characteristics using a small number of learning words. Shu Ipp. 81-82 have announced speaker adaptation methods.

【0009】一般的にHMMでは、音声の特徴をガウス
分布のような確率密度関数で表現するものである。例え
ば、16チャネルの帯域フィルタ等で音声を分析した場
合は、各々のチャネルに対応して1つのガウス分布が求
められる。ここで、斯かる16個のガウス分布を1つの
コンポーネントと見做すことにより、このコンポーネン
トに含まれる16個の各々のガウス分布の平均値をベク
トルとして表現でき、以下斯かるベクトルを平均ベクト
ルという。
In general, in the HMM, speech features are represented by a probability density function such as a Gaussian distribution. For example, when speech is analyzed using a band filter of 16 channels, one Gaussian distribution is obtained for each channel. Here, by regarding the 16 Gaussian distributions as one component, the average value of each of the 16 Gaussian distributions included in this component can be expressed as a vector. Hereinafter, such a vector is referred to as an average vector. .

【0010】ところで、図6は本発明者が上記日本音響
学会平成6年度秋季研究発表会講演論文集Ipp.81
〜82に於いて発表したHMMの話者適応に基づくHM
Mの学習装置の概略構成図である。
FIG. 6 shows that the present inventor has collected the above-mentioned papers of the Annual Meeting of the Acoustical Society of Japan, Autumn Research Conference, 1994, Ipp. 81
HM based on speaker adaptation of HMM announced at ~ 82
It is a schematic structure figure of the learning device of M.

【0011】図6において、1は入力音声の特徴を周波
数帯域毎に分析する音声分析部、2は学習することによ
りHMMの初期モデルを記憶する初期モデル記憶部であ
り、斯かる初期モデルは特定の話者の音声を用いて作成
した特定話者のHMMでも良いし、多数の話者の音声を
用いて学習した不特定話者のHMMでも良い。具体的な
学習方法としては、周知のフォワードバックワードアル
ゴリズムやビタビアライメントに基づく学習則等を用い
ればよい。
In FIG. 6, reference numeral 1 denotes a voice analysis unit for analyzing characteristics of an input voice for each frequency band, and 2 denotes an initial model storage unit for storing an initial model of an HMM by learning. HMM of a specific speaker created by using the voices of speakers of the same speaker, or HMM of an unspecified speaker learned by using the voices of many speakers. As a specific learning method, a well-known forward backward algorithm, a learning rule based on Viterbi alignment, or the like may be used.

【0012】3は、上述の初期モデルを入力音声を用い
て再学習する学習部であり、この学習部3では、HMM
を表すパラメータの内、平均ベクトルのみを学習するも
のとする。
Reference numeral 3 denotes a learning unit for re-learning the above-described initial model using input speech.
It is assumed that only the average vector is learned from the parameters representing.

【0013】4は学習部3において再学習したHMMを
より高精度なモデルにするための話者適応部である。
Reference numeral 4 denotes a speaker adaptation unit for making the HMM re-learned in the learning unit 3 into a more accurate model.

【0014】5は話者適応部4にて用いる代表話者の話
者部分空間移動ベクトルを計算するための代表話者の話
者部分空間移動ベクトル計算部である。
Reference numeral 5 denotes a speaker subspace movement vector calculation unit of the representative speaker for calculating the speaker subspace movement vector of the representative speaker used in the speaker adaptation unit 4.

【0015】6は代表話者の話者部分空間移動ベクトル
計算部5に於いて計算された値を記憶しておく代表話者
の話者部分空間移動ベクトル記憶部である。
Reference numeral 6 denotes a representative speaker's speaker subspace movement vector storage unit which stores the value calculated by the representative speaker's speaker subspace movement vector calculation unit 5.

【0016】7は話者適応を行ったHMMのパラメータ
とその他のパラメータから適応後モデルを作成する適応
後モデル作成部である。
Reference numeral 7 denotes a post-adaptive model generation unit that generates a post-adaptive model from the parameters of the HMM that has undergone speaker adaptation and other parameters.

【0017】8は話者適応部4にて適応化を行った後の
HMMを記憶しておく適応後モデル記憶部である。
Reference numeral 8 denotes a post-adaptive model storage unit that stores the HMM after the adaptation by the speaker adaptation unit 4.

【0018】上述が従来のHMMの学習装置の構成であ
り、以下に各部の処理について説明する。
The above is the configuration of the conventional HMM learning apparatus, and the processing of each unit will be described below.

【0019】代表話者の話者部分空間移動ベクトル計算
部5は、複数の代表話者の話者部分空間移動ベクトルを
求める機能を有する。ここで、話者部分空間移動ベクト
ルとは、初期モデルと斯かる初期モデルを再学習した後
のHMMのガウス分布の平均ベクトルの差分を用いて求
められるものであり、以下のステップで話者部分空間移
動ベクトルを求めることができる。
The speaker subspace movement vector calculation section 5 of the representative speaker has a function of obtaining speaker subspace movement vectors of a plurality of representative speakers. Here, the speaker subspace movement vector is obtained by using the difference between the initial model and the average vector of the Gaussian distribution of the HMM after re-learning the initial model. A spatial movement vector can be determined.

【0020】ステップ1;初期モデル記憶部2に記憶さ
れている初期モデル(λ)を各代表話者の音素HMMの
初期モデルとする。
Step 1: The initial model (λ) stored in the initial model storage unit 2 is used as the initial model of the phoneme HMM of each representative speaker.

【0021】λ={λ1,・・・,λi,・・・,λI} ここで、Iは音素HMMの番号を示している。たとえば
39個の音素HMMを用いている場合、I=39であ
る。また、λiはi番目の音素HMMを示している。
Λ = {λ 1 ,..., Λ i ,..., Λ I } where I indicates the number of the phoneme HMM. For example, when 39 phoneme HMMs are used, I = 39. Λ i indicates the i-th phoneme HMM.

【0022】また、λiはλi={wism,ais1
s2,μism,σism 2}で表される。
[0022] In addition, λ i is λ i = {w i, s , m, a i, s1,
s2, μ i, s, m , σ i, s, represented by m 2}.

【0023】尚、wism、μism、及びσis
m 2はi番目の音素HMMの第s状態のm番目のガウス分
布に関する重み、平均ベクトル、分散値のベクトルを夫
々表している。ais1s2はi番目の音素HMMの第
s1状態から第s2状態への遷移確率を示しており、た
とえば特徴量として33次元ベクトルを用いる場合、μ
ism、σism 2は33次元のベクトルとなる。
Note that w i , s , m , μ i , s , m , and σ i , s ,
m 2 is weight for the m-th Gaussian distribution of the s state of i-th phoneme HMM, mean vector, and a represents each vector of variance. a i, s1, s2 from the s1 state of i-th phoneme HMM represents the transition probability to the s2 state, for example when using a 33-dimensional vector as a feature quantity, mu
i , s , m , σ i , s , and m 2 are 33-dimensional vectors.

【0024】ここで、初期モデルとしては、特定話者モ
デルや不特定話者モデルを用いる。
Here, a specific speaker model or an unspecified speaker model is used as the initial model.

【0025】ステップ2;代表話者の入力音声の音素系
列に対応するように代表話者のHMMを連結し学習を行
なう。学習はwism及びμismのみ行ないn番目
の代表話者モデルとしてλi n={wi nsm
is1s2,μi nsm,σism 2}を得る。ここ
で、nは代表話者の番号を表し、n=1,2,・・・・・,
Nであり、たとえば10名の代表話者を用いた場合はN
=10となる。
Step 2: Learning is performed by connecting the HMMs of the representative speakers so as to correspond to the phoneme sequence of the input speech of the representative speakers. Learning w i, s, m and μ i, s, as the n-th representative speaker model performs m only λ i n = {w i n , s, m,
a i, s1, s2, μ i n, s, m, σ i, s, obtaining m 2}. Here, n represents the number of the representative speaker, and n = 1, 2,.
N, for example, N when 10 representative speakers are used.
= 10.

【0026】ステップ3;各代表話者について、平均値
の差分tism nを求める。
[0026] Step 3: For each representative speaker, the difference t i of the average value, s, the m n seek.

【0027】∀ism∈Ω tism n = μis
m n−μism (n=1,2,・・・・・,N) ここで、Ωはλに含まれる平均ベクトルμismの添
ismの組を表す。
[0027] ∀ i, s, m ∈Ω t i, s, m n = μ i, s,
m n −μ i , s , m (n = 1, 2,..., N) where Ω is a set of subscripts i , s , m of the average vector μ i , s , m included in λ. Represents

【0028】ステップ4;数1に従い、代表話者の話者
部分空間移動ベクトルvism nを求める。ここでは、
μismの距離的に近くにあるK個の平均ベクトルを
用いて、部分空間毎に話者部分空間移動ベクトルを求め
るものとする。
[0028] Step 4: As the number 1, obtaining representative speaker speaker subspace movement vector v i, s, a m n. here,
It is assumed that a speaker subspace movement vector is obtained for each subspace by using K average vectors that are close in distance to μ i , s , and m .

【0029】[0029]

【数1】 (Equation 1)

【0030】ここで、Kismはμismの近傍にあ
るK個の平均ベクトルに関する添字の組である。また、
D(a,b)はベクトルa,b間の距離を表す。fはフ
ァジネスと呼ばれるファジイ級関数の値を制御する変数
である。また、ファジイ級関数以外に三角窓や矩形窓、
ガウス分布等の関数等を用いることも可能である。
Here, K i , s , m is a set of subscripts related to K average vectors near μ i , s , m . Also,
D (a, b) represents the distance between vectors a and b. f is a variable that controls the value of a fuzzy class function called fuzziness. In addition to fuzzy class functions, triangular windows, rectangular windows,
It is also possible to use a function such as a Gaussian distribution.

【0031】一方、tism nを代表話者の話者部分空
間移動ベクトルとしてもよい。
[0031] On the other hand, t i, s, the m n may be used as the speaker subspace movement vector of the representative speaker.

【0032】また、学習は{wism,ais1s2
μism,σism 2}のうち、少なくともμism
を含むように学習すれば良い。当然、{wism
is 1s2,μism,σism 2}の全てを学習し
ても良い。
[0032] In addition, learning {w i, s, m, a i, s1, s2,
μ i , s , m , σ i , s , m 2 }, at least μ i , s , m
It is sufficient to learn to include. Of course, {w i, s, m ,
a i, s 1, s2, μ i, s, m, σ i, s, may be learned every m 2}.

【0033】上述のステップに従い計算した複数の代表
話者の話者部分空間移動ベクトルv ism nを代表話
者の話者部分空間移動ベクトル記憶部6に記憶する。
A plurality of representatives calculated according to the above steps
Speaker subspace movement vector v i,s,m nThe representative story
Speaker subspace movement vector storage unit 6.

【0034】次に、入力話者の適応後モデルの作成方法
を図7に従い説明する。
Next, a method of creating an adapted model of the input speaker will be described with reference to FIG.

【0035】入力話者のモデル学習用音声は、音声分析
部1により分析される。該分析結果を用いて学習部3に
より初期モデルの学習を行う。
The voice for model learning of the input speaker is analyzed by the voice analysis unit 1. Using the analysis result, the learning unit 3 learns the initial model.

【0036】初期モデルの学習;初期モデル記憶部2に
記憶されている初期モデル(λ)を入力話者の音素HM
Mの初期モデルとする。
Learning of the initial model: The initial model (λ) stored in the initial model storage unit 2 is stored in the phoneme HM of the input speaker.
Let M be the initial model.

【0037】λ={λ1,・・・,λi,・・・,λI} また、λiはλi={wism,ais1s2,μis
m,σism 2}で表される。
[0037] λ = {λ 1, ···, λ i, ···, λ I} Moreover, lambda i is λ i = {w i, s , m, a i, s1, s2, μ i, s ,
m , σ i , s , m 2 }.

【0038】次に入力話者の入力音声の音素系列に対応
するように入力話者のHMMを連結し学習を行なう。学
習はμismのみ行ない学習後のモデルとしてλi inp
={wism,ais1s2,μi inpsm,σis
m 2}を得る。
Next, learning is performed by connecting the HMMs of the input speakers so as to correspond to the phoneme sequences of the input speech of the input speakers. Learning is performed only on μ i , s , and m and λ i inp
= {W i, s, m , a i, s1, s2, μ i inp, s, m, σ i, s,
m 2 }.

【0039】次に学習部3により学習されたモデルに基
づいて、入力話者の話者部分空間移動ベクトルvis
m inpを以下のステップで求める。尚、ここで、inpは
入力話者を表している。
[0039] Next, based on the learning model by the learning unit 3, the input speaker of the speaker subspace movement vector v i, s,
The m inp obtained by the following steps. Here, inp represents the input speaker.

【0040】ステップ1;平均値の差分tism inp
算出する。
[0040] Step 1: calculate the difference t i of the average value, s, a m inp.

【0041】[0041]

【数2】 (Equation 2)

【0042】ステップ2;数3に従い、入力話者部分空
間移動ベクトルvism inpを求める。
Step 2: An input speaker subspace movement vector v i , s , m inp is obtained according to Equation 3 .

【0043】[0043]

【数3】 (Equation 3)

【0044】ここで、Eは学習音声資料中に現れた音素
に対応した音素HMMの平均ベクトルの添字の組を表
す。
Here, E represents a set of subscripts of the average vector of the phoneme HMM corresponding to the phoneme appearing in the learning speech material.

【0045】入力話者の話者部分空間移動ベクトル記憶
部4bは入力話者の話者部分空間移動ベクトル計算部4
aで算出した入力話者部分空間移動ベクトルvism
inpを記憶する。
The speaker subspace movement vector storage unit 4b of the input speaker is a speaker subspace movement vector calculation unit 4 of the input speaker.
input speaker subspace movement vector calculated in a v i, s, m
Remember inp .

【0046】音素HMMの各コンポーネントの分岐確率
を考慮して、入力話者部分空間移動ベクトルvism
inpと距離的に近い代表話者の部分空間移動ベクトル
is m nをもつ代表話者の番号(spno)、及びこ
の代表話者の番号(spno)を有する代表話者の部分
空間移動ベクトルvism spnoを数4に従い、代表話
者選択部4cにて選択する。
Branch probability of each component of phoneme HMM
And the input speaker subspace movement vector vi,s,m
inpSubspace movement vector of the representative speaker close to the distance
vi,s, m nNumber of the representative speaker (spno) with
Part of the representative speaker having the representative speaker number (spno) of
Spatial movement vector vi,s,m spnoAccording to Equation 4
Is selected by the user selection section 4c.

【0047】[0047]

【数4】 (Equation 4)

【0048】話者適応後モデル構築部4dでは、代表話
者選択部4cにて得られた代表話者の話者部分空間移動
ベクトルvism spno、入力話者の話者部分空間移動
ベクトルvism inp、及び初期モデルの平均ベクトル
μismを用いて、数5に従い、話者適応後の平均ベ
クトルμism adaptを求める。
[0048] In the speaker adaptation after the model construction unit 4d, a representative of the representative speaker obtained in the speaker selection unit 4c speaker subspace movement vector v i, s, m spno, of the input speaker speaker subspace movement vector v i, with s, m inp, and mean vector mu i, s of the initial model, the m, as the number 5, the mean vector mu i, s after the speaker adaptation, seek m adapt.

【0049】[0049]

【数5】 (Equation 5)

【0050】適応後モデル作成部7では、話者適応後モ
デル構築部4dで構築された話者適応後の平均ベクトル
μism inp、並びに初期モデル記憶部2に記憶されて
いる初期モデルのガウス分布に関する重みwism
遷移確率ais1s2及び分散値ベクトルσism 2
は入力話者のガウス分布に関する重みwism inp、遷
移確率ais1s2 inp及び分散値ベクトルσism inp
又は代表話者の話者空間移動ベクトル記憶部6に記憶さ
れているガウス分布に関する重みwism spno、遷移
確率ais1s2 spno及び分散値ベクトル(σism
spno)2を用いて、適応後のモデルを作成する。
The initial stored in adapted after model creation part 7, the mean vector mu i, s after been Speaker Adaptation built in speaker adaptation after model construction unit 4d, m inp, as well as the initial model storage unit 2 The weights w i , s , m , for the Gaussian distribution of the model,
Transition probability a i, s1, s2 and variance vector σ i, s, a weight w i for Gaussian distribution of m 2 or input speaker, s, m inp, transition probability a i, s1, s2 inp and variance vector sigma i, s, m inp
Or representative speaker speaker space moving weight for a Gaussian distribution stored in the vector storage unit 6 w i, s, m spno , transition probability a i, s1, s2 spno and variance vector (σ i, s, m
Use spno 2 to create a model after adaptation.

【0051】最後に、適応後モデル作成部7で作成され
た適応後モデルを適応後モデル記憶部8に記憶する。
Finally, the post-adaptation model created by the post-adaptation model creation section 7 is stored in the post-adaptation model storage section 8.

【0052】[0052]

【発明が解決しようとする課題】然し乍ら、上述の如
く、従来のHMMの作成においては、以下に示す課題が
あった。
However, as described above, the following problems have been encountered in the preparation of a conventional HMM.

【0053】従来のHMMの作成においては、代表話者
の話者部分空間移動ベクトル記憶部6に記憶されている
代表話者から最も入力話者の話者部分空間移動ベクトル
に近い代表話者の話者部分空間移動ベクトルをモデル学
習のために使用しており、不特定多数の入力話者の音声
特徴をカバーする為には、多数の代表話者の話者部分空
間移動ベクトルを代表話者の話者部分空間移動ベクトル
記憶部6に記憶しておかなければならなかった。
In the conventional HMM creation, the representative speaker closest to the input speaker's speaker subspace movement vector from the representative speakers stored in the speaker's speaker subspace movement vector storage section 6 is The speaker subspace movement vector is used for model learning, and in order to cover the speech characteristics of an unspecified number of input speakers, the speaker subspace movement vector of a number of representative speakers is used as the representative speaker. Has to be stored in the speaker subspace movement vector storage unit 6.

【0054】つまり、多数の代表話者の話者部分空間移
動ベクトルを用いることは、記憶容量の増加を招き、更
には、多数の代表話者の話者部分空間移動ベクトルを計
算するために、多数の人の音声を収集しなければならな
いという問題点がある。
In other words, the use of the speaker subspace movement vectors of a large number of representative speakers causes an increase in storage capacity, and further, in order to calculate the speaker subspace movement vectors of a large number of representative speakers, There is a problem that it is necessary to collect voices of many people.

【0055】また、代表話者の話者部分空間移動ベクト
ルは、認識モデルが十分に学習できるだけの音声を用い
て学習するため、偏りの少ないベクトルであるが、これ
に対して、少数のモデル学習用音声から得られた入力話
者の話者部分空間移動ベクトルは、モデル学習用音声の
特徴に依存したものである。例えば、学習用音声が”ア
カイ”という言葉だけであった場合、”アカイ”という
学習用発声に含まれる特徴のみが学習されることにな
る。
Also, the speaker subspace movement vector of the representative speaker is a vector with a small bias because learning is performed using speech that the recognition model can sufficiently learn. The speaker subspace movement vector of the input speaker obtained from the training voice depends on the features of the model learning voice. For example, if the learning voice is only the word “Akai”, only the features included in the learning utterance “Akai” will be learned.

【0056】つまり、”ウ”や”エ”といった”アカ
イ”という学習用発声に含まれない音声の特徴が存在せ
ず、学習単語の内容に偏った話者部分空間移動ベクトル
となる。
That is, there is no speech feature that is not included in the learning utterance “Akai” such as “U” or “E”, and the speaker subspace movement vector is biased to the content of the learning word.

【0057】このような十分な音声を用いて学習された
偏りの少ない代表話者の話者部分空間移動ベクトルと、
学習用音声の特徴に依存した入力話者の話者部分空間移
動ベクトルの間の類似性に基づく従来の代表話者選択法
では、高精度な話者選択を行うことは難しかった。
The speaker subspace movement vector of the representative speaker with less bias learned using such sufficient speech,
With the conventional representative speaker selection method based on the similarity between the input speaker's speaker subspace movement vectors depending on the characteristics of the training speech, it was difficult to perform highly accurate speaker selection.

【0058】[0058]

【課題を解決するための手段】そこで、本発明は上述の
問題点に鑑み為されたものであり、複数の代表話者の話
者部分空間移動ベクトルvism nのあらゆる組み合わ
せに対応して計算される内挿話者の話者部分空間移動ベ
クトルvism inter(p)の中から、入力話者の話者部
分空間移動ベクトルvism inpと最も類似性が高い話
者部分空間移動ベクトルを選択し、該話者部分空間移動
ベクトルvism inter(spno)と入力話者の話者部分空
間移動ベクトルvism inpおよび入力話者のHMMの
平均ベクトルμism inpを用いることによりHMMを
学習することを特徴とする。
Therefore SUMMARY OF THE INVENTION The present invention has been made in view of the problems described above, a plurality of representative speakers of the speaker subspace movement vector v i, s, any combination of the m n most similar inner episode's speaker subspace movement vector v i, which is calculated to correspond, s, among the m inter (p), speaker subspace movement vector v i of the input speaker, s, and m inp sexual selects high speaker subspaces movement vector,該話's subspace movement vector v i, s, m inter ( spno) and the input speaker of the speaker subspace movement vector v i, s, m inp and input mean vector mu i, s of speaker HMM, characterized by learning HMM by using the m inp.

【0059】更に、本発明は入力音声の特徴を分析する
音声分析部(1)と、HMMの初期モデルを記憶する初期
モデル記憶部(2)と、上記音声分析部(1)において入力話
者の音声を分析した結果を用いて初期モデル記憶部(2)
に記憶されたHMMを学習する学習部(3)と、該学習部
(3)において学習された入力話者のHMMの平均ベクト
ルμism inpと初期モデル記憶部(2)に記憶されてい
るHMMの平均ベクトルμismの差分から求められ
る差分ベクトルを用いて計算される入力話者の話者部分
空間移動ベクトルvism inpを計算する入力話者の話
者部分空間移動ベクトル計算部(4a)と、該入力話者の話
者部分空間移動ベクトル計算部(4a)にて求められた入力
話者の話者部分空間移動ベクトルvism inpを記憶す
る入力話者の話者部分空間移動ベクトル記憶部(4b)と、
代表話者の話者部分空間移動ベクトルvism nを記憶
する代表話者の話者部分空間移動ベクトル記憶部(6)
と、該代表話者の話者部分空間移動ベクトル記憶部(6)
に記憶されたN名(Nは1以上の整数)の代表話者の話
者部分空間移動ベクトルvism nから話者内挿のため
にP名のあらゆる組み合わせをもとめる内挿話者候補選
択部(9a)と、内挿話者候補選択部(9a)で選択された組み
合わせに基づいて話者を内挿し、内挿話者の話者部分空
間移動ベクトルvism inter(p)を計算する内挿話者
の話者部分空間移動ベクトル計算部(9b)と、計算した内
挿話者の話者部分空間移動ベクトルを記憶する内挿話者
の話者部分空間移動ベクトル記憶部(9c)と、入力話者の
話者部分空間移動ベクトル記憶部(4b)に記憶された入力
話者の話者部分空間移動ベクトルv ism inpと類似性
の高い内挿話者の話者部分空間移動ベクトル記憶部(9c)
に記憶された内挿話者の話者部分空間移動ベクトル
ism inter(spno)を選択する代表話者選択部(4c)
と、該代表話者選択部(4c)にて得られた内挿話者の話者
部分空間移動ベクトルvism inter(spno)、入力話者
の話者部分空間移動ベクトルvism inp、及び初期モ
デルの平均ベクトルμismを用いて、話者適応後の
平均ベクトルμism adaptを求める話者適応後モデル
構築部(4d)と、を具備することを特徴とする。
Further, the present invention analyzes characteristics of an input voice.
Speech analysis unit (1) and initial memory for storing initial model of HMM
In the model storage unit (2) and the speech analysis unit (1),
Model storage unit using the results of analyzing the voice of the elderly (2)
A learning unit (3) for learning the HMM stored in the learning unit;
Average vector of HMM of input speaker trained in (3)
Le μi,s,m inpIs stored in the initial model storage unit (2).
HMM mean vector μi,s,mFrom the difference
Part of the input speaker calculated using the difference vector
Spatial movement vector vi,s,m inpTalking input speaker to calculate
Speaker subspace movement vector calculation unit (4a), and the story of the input speaker
Input obtained by the user subspace movement vector calculator (4a)
Speaker subspace movement vector vi,s,m inpMemorize
A speaker subspace movement vector storage unit (4b) for the input speaker,
Speaker subspace movement vector v of the representative speakeri,s,m nRemember
Speaker subspace movement vector storage unit for representative speaker (6)
And a speaker subspace movement vector storage unit for the representative speaker (6)
Story of N representative speakers (N is an integer of 1 or more) stored in
Subspace movement vector vi,s,m nFor speaker interpolation from
Interpolator selection for all combinations of P names
Selection section (9a) and the combination selected by the interpolated speaker candidate selection section (9a).
The speaker is interpolated based on the matching, and the speaker part of the interpolated speaker is empty.
Inter-movement vector vi,s,m inter (p)Interpolator to calculate
Speaker subspace movement vector calculator (9b)
An interpolator that stores the speaker's speaker subspace movement vector
Speaker subspace movement vector storage unit (9c) and the input speaker
Input stored in speaker subspace movement vector storage unit (4b)
Speaker subspace movement vector v i,s,m inpAnd similarity
Speaker subspace movement vector storage unit for high-interpolation speaker (9c)
Speaker subspace movement vector of the interpolated speaker stored in
vi,s,m inter (spno)Representative speaker selection section (4c)
And the speaker of the interpolated speaker obtained by the representative speaker selection unit (4c).
Subspace movement vector vi,s,m inter (spno), Input speaker
Speaker subspace movement vector vi,s,m inp, And the initial mode
Dell mean vector μi,s,mIs used to adjust the speaker
Mean vector μi,s,m adaptModel after speaker adaptation
And a construction unit (4d).

【0060】本発明はN名の代表話者の話者部分空間移
動ベクトルvism nから、入力話者の話者部分空間移
動ベクトルvism inpと類似性の高い上位N’名
(N’≦N)の該代表話者の話者部分空間移動ベクトル
ism nを選択し、選択された代表話者の話者部分空
間移動ベクトルvism nの組み合わせに対応して計算
される内挿話者の話者部分空間移動ベクトルvism
inter(p)の中から、入力話者の話者部分空間移動ベクト
ルvism inpと最も類似性が高い話者部分空間移動ベ
クトルを選択し、該話者部分空間移動ベクトルvis
m inter(spno)と入力話者の話者部分空間移動ベクトルv
ism inpおよび入力話者のHMMの平均ベクトル
μism inpを用いることによりHMMを学習すること
を特徴とする。
[0060] The present invention is representative speaker of the speaker subspace movement vector v i of N name, s, from m n, high affinity speaker subspace movement vector v i of the input speaker, s, and m inp Top n 'name (n' ≦ n) surrogate table speaker speaker subspace movement vector v i of, s, select m n, selected representative speaker speaker subspace movement vector v i, s speaker subspace motion vector inner episode who is calculated to correspond to a combination of m n v i, s, m
from the inter (p), speaker subspace movement vector v i of the input speaker, s, most similarity with m inp selects high speaker subspaces movement vector,該話's subspace movement vector v i , S ,
m inter (spno) and the speaker subspace movement vector v of the input speaker
i, s, m inp and the average vector of the input speaker HMM mu i, s, characterized by learning HMM by using the m inp.

【0061】本発明は入力音声の特徴を分析する音声分
析部(1)と、HMMの初期モデルを記憶する初期モデル
記憶部(2)と、上記音声分析部(1)において入力話者の音
声を分析した結果を用いて初期モデル記憶部(2)に記憶
されたHMMを学習する学習部(3)と、該学習部(3)にお
いて学習された入力話者のHMMの平均ベクトル
μism inpと初期モデル記憶部(2)に記憶されている
HMMの平均ベクトルμismの差分から求められる
差分ベクトルを用いて計算される入力話者の話者部分空
間移動ベクトルvism inpを計算する入力話者の話者
部分空間移動ベクトル計算部(4a)と、該入力話者の話者
部分空間移動ベクトル計算部(4a)にて求められた入力話
者の話者部分空間移動ベクトルvism inpを記憶する
入力話者の話者部分空間移動ベクトル記憶部(4b)と、代
表話者の話者部分空間移動ベクトルvism nを記憶す
る代表話者の話者部分空間移動ベクトル記憶部(6)と、
上記入力話者の話者部分空間移動ベクトル記憶部(4b)に
記憶された入力話者の話者部分空間移動ベクトル
ism inpと代表話者の話者部分空間移動ベクトルv
ism n間の類似性を計算する類似性計算部(9d-1)と、
類似性計算部(9d-1)により算出された値に基づき類似性
の高いものから順に並べ記憶する上位内挿話者候補作成
部(9d-2)と、上位内挿話者候補作成部(9d-2)に記憶され
た順序に従って上位N’名(N’は1以上の整数)の代
表話者の話者部分空間移動ベクトルvism nから話者
を内挿し、内挿話者の話者部分空間移動ベクトル
ism inter(p)を計算する内挿話者の話者部分空間
移動ベクトル計算部(9b)と、計算した内挿話者の話者部
分空間移動ベクトルを記憶する内挿話者の話者部分空間
移動ベクトル記憶部(9c)と、入力話者の話者部分空間移
動ベクトル記憶部(4b)に記憶された入力話者の話者部分
空間移動ベクトルvism inpと類似性の高い内挿話者
の話者部分空間移動ベクトル記憶部(9c)に記憶された内
挿話者の話者部分空間移動ベクトルv ism
inter(spno)を選択する代表話者選択部(4c)と、該代表
話者選択部(4c)にて得られた内挿話者の話者部分空間移
動ベクトルvism inter(spno)、入力話者の話者部分
空間移動ベクトルvism inp、及び初期モデルの平均
ベクトルμ ismを用いて、話者適応後の平均ベクト
ルμism adaptを求める話者適応後モデル構築部(4d)
と、を具備することを特徴とする。
The present invention provides an audio component for analyzing the characteristics of an input audio.
Analyzer (1) and an initial model that stores the initial model of the HMM
The memory of the input speaker is stored in the storage unit (2) and the voice analysis unit (1).
Stored in the initial model storage unit (2) using the results of voice analysis
Learning unit (3) for learning the obtained HMM, and the learning unit (3)
Vector of HMM of input speaker trained by learning
μi,s,m inpAnd stored in the initial model storage unit (2)
HMM mean vector μi,s,mCalculated from the difference
Speaker partial sky of input speaker calculated using difference vector
Inter-movement vector vi,s,m inpCalculate the input speaker's speaker
A subspace movement vector calculation unit (4a) and a speaker of the input speaker
Input story obtained by the subspace movement vector calculator (4a)
Speaker's subspace movement vector vi,s,m inpMemorize
The storage unit (4b) for the speaker subspace movement vector of the input speaker
Speaker's speaker subspace movement vector vi,s,m nMemorize
A speaker subspace movement vector storage unit (6) for the representative speaker,
The above-mentioned input speaker's speaker subspace movement vector storage unit (4b)
Speaker subspace movement vector of stored input speaker
vi,s,m inpAnd the representative speaker's speaker subspace movement vector v
i,s,m nA similarity calculation unit (9d-1) that calculates the similarity between,
Similarity based on the value calculated by the similarity calculator (9d-1)
Of upper interpolated speaker candidates that are sorted and stored in descending order
(9d-2) and the upper interpolated speaker candidate creation unit (9d-2).
N 'names (N' is an integer of 1 or more)
Speaker's speaker subspace movement vector vi,s,m nSpeaker from
And the interpolated speaker's subspace movement vector
vi,s,m inter (p)Speaker subspace of the interpolator that computes
The motion vector calculator (9b) and the calculated speaker unit of the interpolated speaker
The speaker subspace of the interpolator that stores the spatial motion vector
The motion vector storage unit (9c) and the speaker subspace
The speaker part of the input speaker stored in the motion vector storage unit (4b)
Spatial movement vector vi,s,m inpInterpolator with high similarity to
Of the speaker subspace movement vector storage unit (9c)
Interpolator speaker subspace movement vector v i,s,m
inter (spno)A representative speaker selection unit (4c) for selecting
The speaker subspace shift of the interpolated speaker obtained by the speaker selection unit (4c)
Motion vector vi,s,m inter (spno)The speaker part of the input speaker
Spatial movement vector vi,s,m inp, And the average of the initial model
Vector μ i,s,m, The average vector after speaker adaptation
Le μi,s,m adaptModel builder after speaker adaptation (4d)
And characterized in that:

【0062】更に、本発明は上位内挿話者候補作成部(9
d-2)に記憶された順序に従って上位N’名(N’は1以
上の整数)の代表話者の話者部分空間移動ベクトル
is m nから話者を内挿し、内挿話者の話者部分空間
移動ベクトルvism inter(p)を計算する場合におい
て、上位N’名の代表話者のあらゆる組み合わせから話
者を内挿することを特徴とする。
Further, according to the present invention, the upper interpolated speaker candidate creating section (9
d-2), the upper N 'names (where N' is 1 or more)
Speaker subspace movement vector of the representative speaker of the above integer)
vi,s, m nFrom the speaker and the speaker subspace of the interpolated speaker
Movement vector vi,s,m inter (p)When calculating
Talk from all combinations of the top N 'representative speakers
It interpolates the person.

【0063】本発明は上位内挿話者候補作成部(9d-2)に
記憶された順序に従って上位N’名(N’は1以上の整
数)の代表話者の話者部分空間移動ベクトルvism n
から話者を内挿し、内挿話者の話者部分空間移動ベクト
ルvism inter(p)を計算する場合において、N’名
から第P位までの代表話者を順次用いて話者を内挿する
ことを特徴とする。
[0063] The present invention is higher N 'name (N' in accordance with the stored order to the upper inside episode candidate creating unit (9d-2) is an integer of 1 or more) representatives speaker speaker subspace movement vector v i of , s, m n
Interpolating the speaker from the speaker subspace movement vector v i of the inner episode's, s, in the case of calculating the m inter (p), talk sequentially with representative speakers from N 'name until the P-position It interpolates the person.

【0064】本発明は入力話者の話者部分空間移動ベク
トルvism inpを計算するために用いた入力話者の音
声と同一内容の発声を用いて計算した代表話者の学習語
依存話者部分空間移動ベクトルζism nと、該入力話
者の話者部分空間移動ベクトルvism inpとの類似性
に基づいて、代表話者選択を行うことを特徴とする。
[0064] The present invention is learning representative speakers calculated using the utterance having the same content as the input talker speech that was used to calculate the input speaker of the speaker subspace movement vector v i, s, m inp based the word dependent speaker subspace motion vector ζ i, s, m n, speaker subspaces of the input speaker movement vector v i, s, a similarity to m inp, by performing a representative speaker selection It is characterized by.

【0065】本発明は入力話者の話者部分空間移動ベク
トルvism inpを計算するために用いた入力話者の音
声と同一内容の発声を用いて計算した代表話者の学習語
依存話者部分空間移動ベクトルζism nと、該入力話
者の話者部分空間移動ベクトルvism inpとの類似性
に基づいて代表話者選択を行い、該選択された代表話者
の番号に対応した代表話者の話者部分空間移動ベクトル
ism spnoと入力話者の話者部分空間移動ベクトル
ism inp、及び初期モデルの平均ベクトルμis
mとを用いることによりHMMを学習することを特徴と
する。
[0065] The present invention is learning representative speakers calculated using the utterance having the same content as the input talker speech that was used to calculate the input speaker of the speaker subspace movement vector v i, s, m inp perform word dependent speaker subspace motion vector ζ i, s, and m n, input speaker speaker subspace movement vector v i, s, a representative speaker selection on the basis of similarity to m inp, the selected representative speaker corresponding to the number of the representative speaker speaker subspace movement vector v i, s, m spno an input speaker of the speaker subspace movement vector v i, s, m inp, and initial model Mean vector μ i , s ,
The feature is that the HMM is learned by using m .

【0066】更に、本発明は入力話者の話者部分空間移
動ベクトルvism inpを計算するために用いた入力話
者の音声と同一内容の発声を用いて計算した代表話者の
学習語依存話者部分空間移動ベクトルζism nと、該
入力話者の話者部分空間移動ベクトルvism inpとの
類似性に基づいて代表話者選択を行い、該選択された代
表話者の番号に対応した代表話者の話者部分空間移動ベ
クトルvism spnoと学習語依存話者部分空間移動ベ
クトルζism spnoと、入力話者の話者部分空間移動
ベクトルvism inpと、初期モデルの平均ベクトルμ
ismとを用いることによりHMMを学習することを
特徴とする。
[0066] Further, the present invention was calculated using the utterance of the same content and audio input speakers used to calculate the speaker subspace of the input speaker movement vector v i, s, m inp representative speaker make learning language dependent speaker subspace movement vector ζ i, s, and m n, the input speaker of the speaker subspace movement vector v i, s, a representative speaker selected based on the similarity of the m inp , the selected representative speaker representative speaker corresponding to the number of the speaker subspace movement vector v i, s, m spno learning language dependent speaker subspace motion vector zeta i, s, and m SPNO, input The speaker's speaker subspace movement vector v i , s , m inp and the average vector μ of the initial model
HMM learning is performed by using i , s , and m .

【0067】また、本発明は代表話者の話者部分空間移
動ベクトルvism spnoと学習語依存話者部分空間移
動ベクトルζism spnoの差分と、入力話者の話者部
分空間移動ベクトルvism inpと、初期モデルの平均
ベクトルμismから、話者適応後の平均ベクトル
μism adaptを求めることを特徴とする。
Also, the present invention provides a method of calculating the difference between the speaker subspace movement vector v i , s , m spno of the representative speaker and the learning word dependent speaker subspace movement vector ζ i , s , m spno , and the input speaker. The method is characterized in that an average vector μ i , s , m adapt after speaker adaptation is obtained from a speaker subspace movement vector v i , s , m inp and an average vector μ i , s , m of the initial model.

【0068】本発明は入力音声の特徴を分析する音声分
析部(1)と、HMMの初期モデルを記憶する初期モデル
記憶部(2)と、上記音声分析部(1)において入力話者の音
声を分析した結果を用いて初期モデル記憶部(2)に記憶
されたHMMを学習する学習部(3)と、該学習部(3)にお
いて学習された入力話者のHMMの平均ベクトル
μism inpと初期モデル記憶部(2)に記憶されている
HMMの平均ベクトルμismの差分から求められる
差分ベクトルを用いて計算される入力話者の話者部分空
間移動ベクトルvism inpを計算する入力話者の話者
部分空間移動ベクトル計算部(4a)と、該入力話者の話者
部分空間移動ベクトル計算部(4a)にて求められた入力話
者の話者部分空間移動ベクトルvism inpを記憶する
入力話者の話者部分空間移動ベクトル記憶部(4b)と、代
表話者の話者部分空間移動ベクトルvism nを記憶す
る代表話者の話者部分空間移動ベクトル記憶部(6)と、
入力話者の話者部分空間移動ベクトルvism inpを計
算した入力話者の音声と同一内容の代表話者の音声を用
いて作成した代表話者の学習語依存話者部分空間移動ベ
クトルζism nを記憶する代表話者の学習語依存話者
部分空間移動ベクトル記憶部(11)と、上記入力話者の話
者部分空間移動ベクトル記憶部(4b)に記憶された入力話
者の話者部分空間移動ベクトルvism inpと最も類似
性の高い学習語依存話者部分空間移動ベクトルζis
m nをもつ代表話者の番号(spno)を選択する代表話
者選択部(4c)と、該選択された代表話者の番号に対応し
た代表話者の話者部分空間移動ベクトルvism spno
と入力話者の話者部分空間移動ベクトルvism inp
及び初期モデルの平均ベクトルμismを用いて、話
者適応後の平均ベクトルμism adaptを求める話者適
応後モデル構築部(4d)と、を具備することを特徴とす
る。
According to the present invention, a speech analysis unit (1) for analyzing the characteristics of an input speech, an initial model storage unit (2) for storing an initial model of an HMM, and a speech of an input speaker in the speech analysis unit (1). A learning unit (3) that learns the HMM stored in the initial model storage unit (2) using the result of the analysis, and an average vector μ i of the HMM of the input speaker trained in the learning unit (3). The speaker subspace movement vector of the input speaker calculated using the difference vector obtained from the difference between s , m inp and the HMM average vector μ i , s , m stored in the initial model storage unit (2) v i, s, speaker subspace movement vector calculating unit input speaker calculating the m inp and (4a), the input spoken obtained by speaker subspace moving vector calculation unit of the input speaker (4a) 's speaker subspace movement vector v i, s, speaker subspaces mobile base input speaker for storing m inp Torr storage unit and (4b), representative speaker speaker subspace movement vector v i, s, speaker subspace motion vector storage unit of the representative speaker for storing m n and (6),
Speaker subspace movement vector v i of the input speaker, s, learning language dependent speaker subspace of representatives speaker that was created by using the voice of the representative speaker of the same content and audio input speaker of calculation of the m inp movement vector zeta i, s, learning language dependent speaker subspace motion vector storage unit of the representative speaker for storing m n (11), stored in the input speaker of the speaker subspace motion vector storage unit (4b) by speaker subspace movement vector of the input speaker v i, s, m inp highest similarity learning language dependent speaker subspace motion vector ζ i, s,
m Representative speaker selection section that selects a representative speaker number (SPNO) with n and (4c), said selected representative speaker corresponding to the number of the representative speaker speaker subspace movement vector v i, s , m spno
And the input speaker's speaker subspace movement vector v i , s , m inp ,
And a speaker-adaptive model constructing unit (4d) for obtaining the speaker-adapted average vector μ i , s , m adapt using the initial model average vector μ i , s , m. And

【0069】本発明は入力音声の特徴を分析する音声分
析部(1)と、HMMの初期モデルを記憶する初期モデル
記憶部(2)と、上記音声分析部(1)において入力話者の音
声を分析した結果を用いて初期モデル記憶部(2)に記憶
されたHMMを学習する学習部(3)と、該学習部(3)にお
いて学習された入力話者のHMMの平均ベクトル
μism inpと初期モデル記憶部(2)に記憶されている
HMMの平均ベクトルμismの差分から求められる
差分ベクトルを用いて計算される入力話者の話者部分空
間移動ベクトルvism inpを計算する入力話者の話者
部分空間移動ベクトル計算部(4a)と、該入力話者の話者
部分空間移動ベクトル計算部(4a)にて求められた入力話
者の話者部分空間移動ベクトルvism inpを記憶する
入力話者の話者部分空間移動ベクトル記憶部(4b)と、代
表話者の話者部分空間移動ベクトルvism nを記憶す
る代表話者の話者部分空間移動ベクトル記憶部(6)と、
入力話者の話者部分空間移動ベクトルvism inpを計
算した入力話者の音声と同一内容の代表話者の音声を用
いて作成した代表話者の学習語依存話者部分空間移動ベ
クトルζism nを記憶する代表話者の学習語依存話者
部分空間移動ベクトル記憶部(11)と、上記入力話者の話
者部分空間移動ベクトル記憶部(4b)に記憶された入力話
者の話者部分空間移動ベクトルvism inpと最も類似
性の高い学習語依存話者部分空間移動ベクトルζis
m nをもつ代表話者の番号(spno)を選択する代表話
者選択部(4c)と、該選択された代表話者の番号に対応し
た代表話者の話者部分空間移動ベクトルvism spno
と学習語依存話者部分空間移動ベクトルζism spno
と、入力話者の話者部分空間移動ベクトルvism inp
と、初期モデルの平均ベクトルμismを用いて、話
者適応後の平均ベクトルμism adaptを求める第二話
者適応後モデル構築部(4e)と、を具備することを特徴と
する。
According to the present invention, a speech analysis unit (1) for analyzing the characteristics of an input speech, an initial model storage unit (2) for storing an initial model of an HMM, and a speech of an input speaker in the speech analysis unit (1). A learning unit (3) that learns the HMM stored in the initial model storage unit (2) using the result of the analysis, and an average vector μ i of the HMM of the input speaker trained in the learning unit (3). The speaker subspace movement vector of the input speaker calculated using the difference vector obtained from the difference between s , m inp and the HMM average vector μ i , s , m stored in the initial model storage unit (2) v i, s, speaker subspace movement vector calculating unit input speaker calculating the m inp and (4a), the input spoken obtained by speaker subspace moving vector calculation unit of the input speaker (4a) 's speaker subspace movement vector v i, s, speaker subspaces mobile base input speaker for storing m inp Torr storage unit and (4b), representative speaker speaker subspace movement vector v i, s, speaker subspace motion vector storage unit of the representative speaker for storing m n and (6),
Speaker subspace movement vector v i of the input speaker, s, learning language dependent speaker subspace of representatives speaker that was created by using the voice of the representative speaker of the same content and audio input speaker of calculation of the m inp movement vector zeta i, s, learning language dependent speaker subspace motion vector storage unit of the representative speaker for storing m n (11), stored in the input speaker of the speaker subspace motion vector storage unit (4b) by speaker subspace movement vector of the input speaker v i, s, m inp highest similarity learning language dependent speaker subspace motion vector ζ i, s,
m Representative speaker selection section that selects a representative speaker number (SPNO) with n and (4c), said selected representative speaker corresponding to the number of the representative speaker speaker subspace movement vector v i, s , m spno
And learning word dependent speaker subspace movement vector ζ i , s , m spno
And the speaker subspace movement vector v i , s , m inp of the input speaker
And a second speaker-adapted model construction unit (4e) for obtaining the speaker-adapted average vector μ i , s , m adapt using the initial model average vector μ i , s , m It is characterized by the following.

【0070】本発明は第二話者適応後モデル構築部(4e)
に於て、代表話者の話者部分空間移動ベクトルvis
m spnoと学習語依存話者部分空間移動ベクトルζism
spnoの差分と、入力話者の話者部分空間移動ベクトルv
ism inpと、初期モデルの平均ベクトルμism
ら、話者適応後の平均ベクトルμism adaptを求める
ことを特徴とする。
The present invention provides a second speaker-adapted model construction unit (4e).
, The speaker subspace movement vectors v i , s ,
m spno and learning word dependent speaker subspace movement vector ζ i , s , m
The difference between spno and the speaker subspace movement vector v of the input speaker
The feature is that an average vector μ i , s , m adapt after speaker adaptation is obtained from i , s , m inp and an average vector μ i , s , m of the initial model.

【0071】[0071]

【発明の実施の形態】本発明の実施の形態の例を図1乃
至図5に基づいて説明する。
DESCRIPTION OF THE PREFERRED EMBODIMENTS An embodiment of the present invention will be described with reference to FIGS.

【0072】図1乃至図5の構成図では、従来のHMM
学習装置と同一構成については同一番号を付している。
In the configuration diagrams of FIGS. 1 to 5, the conventional HMM
The same components as those of the learning device are denoted by the same reference numerals.

【0073】図1は本発明の第一の実施形態の概略構成
図である。
FIG. 1 is a schematic configuration diagram of the first embodiment of the present invention.

【0074】本発明の第一の実施形態のHMMの学習装
置の構成が従来のそれと異なる第一の点は、代表話者の
話者部分空間移動ベクトル記憶部6に接続する内挿話者
の話者部分空間移動ベクトル作成部9を設けたことであ
る。
The first point of the configuration of the HMM learning apparatus according to the first embodiment of the present invention which is different from that of the prior art is that the speaker of the interpolation speaker connected to the speaker subspace movement vector storage unit 6 of the representative speaker is used. That is, a user partial space movement vector creating unit 9 is provided.

【0075】後述(図2参照)するように、該内挿話者
の話者部分空間移動ベクトル作成部9は、内挿話者候補
選択部9a、内挿話者の話者部分空間移動ベクトル計算
部9b、及び内挿話者の話者部分空間移動ベクトル記憶
部9cから構成されている。
As will be described later (see FIG. 2), the interpolated speaker's speaker subspace movement vector creating section 9 includes an interpolated speaker candidate selecting section 9a, and an interpolated speaker's speaker subspace movement vector calculating section 9b. , And an interpolated speaker subspace movement vector storage unit 9c.

【0076】本発明の第一の実施形態のHMMの学習装
置の構成が従来のそれと異なる第二の点は、代表話者の
話者部分空間移動ベクトル記憶部6と話者適応部4及び
適応後モデル作成部7の接続に代えて、内挿話者の話者
部分空間移動ベクトル作成部9と話者適応部4及び適応
後モデル作成部7の接続を設けたことである。
The second difference of the configuration of the HMM learning apparatus of the first embodiment of the present invention from the conventional one is that the speaker subspace movement vector storage unit 6 of the representative speaker, the speaker adaptation unit 4 and the adaptation unit The connection of the interpolated speaker's speaker subspace movement vector creation unit 9, the speaker adaptation unit 4, and the post-adaptation model creation unit 7 is provided instead of the connection of the post-model creation unit 7.

【0077】図2は本発明の第一の実施形態のHMMの
学習装置の構成図である。
FIG. 2 is a block diagram of the HMM learning apparatus according to the first embodiment of the present invention.

【0078】以下に、本発明の第一の実施形態における
代表的な構成要件である、内挿話者の話者部分空間移動
ベクトル作成部9の機能について詳述する。
Hereinafter, the function of the speaker subspace movement vector creating unit 9 of the interpolated speaker, which is a typical configuration requirement in the first embodiment of the present invention, will be described in detail.

【0079】内挿話者候補選択部9aは、代表話者の話
者部分空間移動ベクトル記憶部6に記憶されているN名
の代表話者の話者部分空間移動ベクトルから、P名のあ
らゆる組み合わせを作り、これに対応する代表話者の話
者部分空間移動ベクトルvism n、重みwism n
平均ベクトルμism n、遷移確率ais1s2 n、及び
分散ベクトル(σism 2nを内挿話者の話者部分空
間移動ベクトル計算部9bに送出する。内挿話者の話者
部分空間移動ベクトル計算部9bでは送られてきた代表
話者の話者部分空間移動ベクトルvism nを用いて内
挿話者の話者部分空間移動ベクトルvism inter(p)
を計算する。
The interpolated speaker candidate selection unit 9a calculates all combinations of P names from the speaker subspace movement vectors of N representative speakers stored in the speaker subspace movement vector storage unit 6 of the representative speaker. the making, representative speaker of the speaker subspace motion vector v i corresponding to this, s, m n, the weights w i, s, m n,
It sends mean vector μ i, s, m n, the transition probability a i, s1, s2 n, and dispersion vector (σ i, s, m 2 ) to n of the inner episode's speaker subspace movement vector calculating unit 9b . Inner episode's speaker subspace movement vector calculating unit 9b in sent becoming a representative speaker speaker subspace movement vector v i, s, speaker subspace motion vector inner episodic's using m n v i , S , m inter (p)
Is calculated.

【0080】代表話者が(a,b,c,d,e)の5名
(N=5)である場合について詳細に上記の処理を説明
する。
The above processing will be described in detail for a case where five representative speakers are (a, b, c, d, e) (N = 5).

【0081】まず、内挿話者候補選択部9aは、P=1
の場合として(a)、(b)、(c)、(d)、及び
(e)を順次内挿話者の話者部分空間移動ベクトル計算
部9bに送る。
First, the interpolated speaker candidate selecting section 9a sets P = 1
In the case of (a), (a), (b), (c), (d), and (e) are sequentially sent to the speaker subspace movement vector calculation unit 9b of the interpolation speaker.

【0082】次に、P=2の場合として5名から2名を
選ぶ10通りの代表話者の組み合わせを順次内挿話者の
話者部分空間移動ベクトル計算部9bに送る。ここで1
0通りとは、(a,b)、(a,c)、(a,d)、
(a,e)、(b,c)、(b,d)、(b,d)、
(c,d)(c,e)、及び(d,e)である。
Next, assuming that P = 2, ten combinations of representative speakers selecting two out of five are sequentially sent to the speaker subspace movement vector calculator 9b of the interpolated speaker. Where 1
The 0 ways are (a, b), (a, c), (a, d),
(A, e), (b, c), (b, d), (b, d),
(C, d) (c, e) and (d, e).

【0083】次に、P=3の組み合わせである10通
り、次にP=4の場合の5通り、次にP=5の場合の1
通りの代表話者の組み合わせを順次内挿話者の話者部分
空間移動ベクトル計算部9bに送る。
Next, 10 combinations of P = 3, 5 combinations of P = 4, and 1 combinations of P = 5
The combinations of the representative speakers are sequentially sent to the speaker subspace movement vector calculator 9b of the interpolation speaker.

【0084】本例の場合、31通り(5+10+10+
5+1)の組み合わせに対応した代表話者の話者部分空
間移動ベクトルvism nが順次内挿話者の話者部分空
間移動ベクトル計算部9bに送られる。
In the case of this example, 31 ways (5 + 10 + 10 +
5 + 1) representative speaker speaker subspace movement vector v i corresponding to a combination of, s, m n is sent to the speaker subspace movement vector calculating portion 9b of sequential internal episode's.

【0085】内挿話者の話者部分空間移動ベクトル計算
部9bでは、内挿話者候補選択部9aから順次送られて
くる代表話者の話者部分空間移動ベクトルvism n
重み付き平均として数6に従い内挿話者の話者部分空間
移動ベクトルvism inter (p)を計算する。
[0085] the episode's speaker subspace movement vector calculating unit 9b in inner episode candidate speaker subspace of sequentially sent the incoming representative speaker from the selection unit 9a movement vector v i, s, the weight of the m n A speaker subspace movement vector v i , s , m inter (p) of the interpolated speaker is calculated according to Equation 6 as a weighted average.

【0086】また、同時に内挿話者の話者部分空間移動
ベクトル計算部9bは、内挿話者の分散ベクトル
(σism inter(p))、重みwism inter(p)、遷
移確率ai s1s2 inter(p)を数7に従い計算する。
At the same time, the speaker's subspace movement of the interpolated speaker
The vector calculator 9b calculates the variance vector of the interpolator
i,s,m inter (p)), Weight wi,s,m inter (p), Trans
Transfer probability ai, s1,s2 inter (p)Is calculated according to Equation 7.

【0087】本例の場合31通りの内挿話者の話者部分
空間移動ベクトルvism inter(p )が計算される。
In the case of this example, the speaker subspace movement vectors v i , s , and m inter (p ) of the 31 interpolated speakers are calculated.

【0088】[0088]

【数6】 (Equation 6)

【0089】[0089]

【数7】 (Equation 7)

【0090】ここで、Φは本例における31通りの組み
合わせ中の要素である。また、WGHT(n)は代表話
者の話者部分空間移動ベクトルvism nに関する重み
である。
Here, Φ is an element in the 31 combinations in this example. Further, WGHT (n) is the weight for a representative speaker speaker subspace movement vector v i, s, m n.

【0091】計算された内挿話者の話者部分空間移動ベ
クトルvism inter(p)は内挿話者の話者部分空間移
動ベクトル記憶部9cに記憶される。
The calculated interpolated speaker's speaker subspace movement vector v i , s , m inter (p) is stored in the interpolated speaker's speaker subspace movement vector storage unit 9c.

【0092】内挿話者の話者部分空間移動ベクトル記憶
部9cに記憶される内挿話者の話者部分空間移動ベクト
ルvism inter(p)は、代表話者の話者部分空間移動
ベクトルvism nと同質のものであり、代表話者数を
内挿により増加させた場合に対応するため、以降の処理
は従来例と同様の処理を行うことにより、適応後モデル
が作成できる。
The interpolated speaker's speaker subspace movement vector v i , s , m inter (p) stored in the interpolated speaker's speaker subspace movement vector storage section 9c is the speaker subspace of the representative speaker. movement vector v i, s, is of m n the same quality, in order to correspond to the case of increasing the interpolation number representative speaker, by the subsequent process of performing the same processing as the conventional example, after adaptation A model can be created.

【0093】本例の場合、5名の代表話者から31名の
擬似的な代表話者(上記の内挿話者)を作成できる。
In the case of this example, 31 pseudo representative speakers (the above interpolated speakers) can be created from five representative speakers.

【0094】例えば、代表話者選択部4cは、内挿話者
の話者部分空間移動ベクトルvism inter(p)と入力
話者の話者部分空間移動ベクトルvism inpとの距離
を計算し、入力話者部分空間移動ベクトルvism inp
と距離的に近い内挿話者の部分空間移動ベクトル
ism inter(p)をもつ内挿話者の番号(spn
o)、及び該内挿話者の番号(spno)を有する内挿
話者の話者部分空間移動ベクトルvism inter(spno)
を話者適応後モデル構築部4dへ送出し、話者適応後の
平均ベクトルμism adaptを求める。
For example, the representative speaker selecting section 4c calculates the speaker subspace movement vector v i , s , m inter (p) of the interpolation speaker and the speaker subspace movement vector v i , s , m of the input speaker. the distance between the inp calculated, input speaker subspace movement vector v i, s, m inp
The distance to move subspace of the inner episode's close vector v i, s, m episode's number among with inter (p) (spn
o), and an inner episode's speaker subspace movement vector v i having inner episode's number (spno), s, m inter (spno)
Is sent to the model adaptation unit 4d after the speaker adaptation, and the average vectors μ i , s and m adapt after the speaker adaptation are obtained.

【0095】適応後モデル作成部7は、話者適応後の平
均ベクトルμism adapt、spno番の内挿話者の分
散ベクトル(σism inter(spno))、重みwism
inter (spno)、遷移確率ais1s2 inter(spno)に基づ
き適応後のモデルを作成する。
The post-adaptation model creation unit 7 calculates the average vector μ i , s , m adapt after speaker adaptation, the variance vector (σ i , s , m inter (spno) ) of the spno-number interpolated speaker , and the weight w i , s , m
A model after adaptation is created based on inter (spno) and transition probabilities a i , s1 and s2 inter (spno) .

【0096】図3は本発明の第二のHMMの学習装置の
実施形態の構成図である。
FIG. 3 is a block diagram of an embodiment of the second HMM learning apparatus of the present invention.

【0097】本発明の第二の実施形態のHMMの学習装
置の構成が従来のそれと異なる第一の点は、代表話者の
話者部分空間移動ベクトル記憶部6に接続する内挿話者
の話者部分空間移動ベクトル作成部9を設けたことであ
る。
The first difference of the configuration of the HMM learning apparatus according to the second embodiment of the present invention from the conventional one is that the speaker of the interpolation speaker connected to the speaker subspace movement vector storage unit 6 of the representative speaker is used. That is, a user partial space movement vector creating unit 9 is provided.

【0098】該内挿話者の話者部分空間移動ベクトル作
成部9は、第二内挿話者候補選択部9d、内挿話の話者
部分空間移動ベクトル計算部9b、及び内挿話者の話者
部分空間移動ベクトの記憶部9cから構成されている。
The interpolated speaker's speaker subspace movement vector creating section 9 includes a second interpolated speaker candidate selecting section 9d, an interpolated speaker's speaker subspace movement vector calculating section 9b, and an interpolated speaker's speaker section. It comprises a space movement vector storage unit 9c.

【0099】また、第二内挿話者候補選択部9dは、類
似性計算部9d−1及び上位内挿話者候補作成部9d−
2から構成される。
The second interpolated speaker candidate selecting section 9d includes a similarity calculating section 9d-1 and an upper interpolated speaker candidate creating section 9d-.
2

【0100】本発明の第二の実施形態のHMMの学習装
置の構成が従来のそれと異なる第二の点は、代表話者の
話者部分空間移動ベクトル記憶部6と代表話者選択部4
c及び適応後モデル作成部7の接続に代えて、内挿話者
の話者部分空間移動ベクトル作成部9と代表話者選択部
4c及び適応後モデル作成部7の接続を設けたことであ
る。
The second point of the configuration of the HMM learning apparatus according to the second embodiment of the present invention, which is different from the conventional one, is that the representative subspace movement vector storage unit 6 and the representative speaker selection unit 4 of the representative speaker are provided.
In place of the connection between c and the adapted model creating unit 7, a connection between the interpolated speaker's speaker subspace movement vector creating unit 9, the representative speaker selecting unit 4c and the adapted model creating unit 7 is provided.

【0101】本発明の第二の実施形態のHMMの学習装
置の構成が従来のそれと異なる第三の点は、入力話者の
話者部分空間移動ベクトル記憶部4bと内挿話者候補選
択部9dとの接続を設けたことである。
The third point of the HMM learning apparatus according to the second embodiment of the present invention, which is different from the conventional HMM learning apparatus, is that the speaker subspace movement vector storage unit 4b of the input speaker and the interpolated speaker candidate selection unit 9d. Is provided.

【0102】本発明の第二の実施形態のHMMの学習装
置の構成が、第一の実施形態のそれと異なる点は、内挿
話者候補選択部9aに代えて第二内挿話者候補選択部9
dを設けたことである。
The structure of the HMM learning apparatus according to the second embodiment of the present invention is different from that of the first embodiment in that the interpolated speaker candidate selecting section 9a is replaced with the second interpolated speaker candidate selecting section 9a.
d is provided.

【0103】以下に、本発明の第二の実施形態のHMM
の学習装置の代表的な構成要件である、内挿話者の話者
部分空間移動ベクトル作成部9の機能について詳述す
る。
Hereinafter, the HMM according to the second embodiment of the present invention will be described.
The function of the speaker subspace movement vector creating unit 9 of the interpolated speaker, which is a typical configuration requirement of the learning device of the first embodiment, will be described in detail.

【0104】類似性計算部9d−1では、代表話者の話
者部分空間移動ベクトル記憶部6に記憶された代表話者
の話者部分空間移動ベクトルvism nと入力話者の話
者部分空間移動ベクトル記憶部4bに記憶された入力話
者の話者部分空間移動ベクトルvism inpとの間の距
離を計算する。
[0104] In similarity calculator 9d-1, a representative speaker speaker subspace stored in the motion vector storage unit 6 representatives speaker speaker subspace movement vector v i, s, m n as input speaker speaker subspaces motion vector storage unit 4b in the stored input speaker of the speaker subspace movement vector v i, s, calculates the distance between the m inp.

【0105】上位内挿話者候補作成部9d−2は類似性
計算部9d−1で得られた距離のうち距離値が小さい上
位N’名(N’≦N)選択し、N’名を対象に第一の実
施形態と同様にP名のあらゆる組み合わせを作り、これ
に対応する代表話者の話者部分空間移動ベクトル
ism n、重みwism n、平均ベクトル
μism n、遷移確率ais1s2 n、及び分散ベクトル
(σism 2nを内挿話者の話者部分空間移動ベクト
ル計算部9bに送出する。
The upper interpolated speaker candidate creating section 9d-2 selects the upper N ′ names (N ′ ≦ N) having a smaller distance value among the distances obtained by the similarity calculator 9d-1, and targets the N ′ names. the similar to the one embodiment make any combination of P name, representative speaker speaker subspace movement vector v i corresponding thereto, s, m n, the weights w i, s, m n, the average vector μ i, s, m n, and sends the transition probability a i, s1, s2 n, and dispersion vector (σ i, s, m 2 ) to n of the inner episode's speaker subspace movement vector calculating unit 9b.

【0106】例えばN’=5である場合は、第一の実施
例と同様に31通りの組み合わせに対応した代表話者の
話者部分空間移動ベクトルvism nが順次内挿話者の
話者部分空間移動ベクトル計算部9bに送られ、内挿話
者の話者部分空間移動ベクトル計算部9bは、各々の組
み合わせについて内挿話者の話者部分空間移動ベクトル
ism inter(p)を計算する。
[0106] For example N '= If it is 5, the first embodiment as well as representatives speaker corresponding to a combination of 31 kinds speaker subspace movement vector v i, s, m n are sequentially inner episode's sent to the speaker subspace movement vector calculating unit 9b, speaker subspace movement vector calculating portion 9b of the inner episode who, speaker subspace motion vector inner episode's for each combination v i, s, m inter Calculate (p) .

【0107】また、同時に内挿話者の話者部分空間移動
ベクトル計算部9bは、内挿話者の分散ベクトル
(σism inter(p))、重みwism inter(p)、及
び遷移確率ais1s2 inter(p)を数7に従い計算す
る。
At the same time, the interpolated speaker's speaker subspace movement vector calculation section 9b calculates the interpolated speaker's variance vector (σ i , s , m inter (p) ) and weights w i , s , m inter (p ), and calculates in accordance with transition probability a i, s1, s2 inter several 7 (p).

【0108】N名からN’名を選択することにより、内
挿話者の話者部分空間移動ベクトルvism inter(p)
の処理量の削減ができるという効果が得られる。
By selecting N ′ names from N names, the speaker subspace movement vectors v i , s , and m inter (p) of the interpolated speaker are selected.
This has the effect of reducing the amount of processing.

【0109】また、上位内挿話者候補作成部9d−2
は、N’名から上位P位までの候補を順次内挿話者の話
者部分空間移動ベクトル計算部9bに送出するような構
成としてもよい。
The upper interpolated speaker candidate creating section 9d-2
May be configured to sequentially send candidates from the N ′ name to the top P order to the speaker subspace movement vector calculation unit 9b of the interpolated speaker.

【0110】ここで、上位P位までの候補を順次送ると
は、以下の処理を示す。
Here, to sequentially send the candidates up to the top P means the following processing.

【0111】N’=5及びP=5の場合の例を以下に説
明する。
An example in the case where N '= 5 and P = 5 will be described below.

【0112】上位5名の候補が(a,b,c,d,e)
の順であった場合、まず、(a)の話者部分空間移動ベ
クトルを内挿話者の話者部分空間移動ベクトル計算部9
bに送る。次に(a,b)、次に(a,b,c)、次に
(a,b,c,d)、次に(a,b,c,d,e)の話
者部分空間移動ベクトルの組を内挿話者の話者部分空間
移動ベクトル計算部9bに順次送出する。
The top five candidates are (a, b, c, d, e)
, The speaker subspace movement vector of (a) is first calculated by the speaker subspace movement vector calculation unit 9 of the interpolation speaker.
Send to b. Next, (a, b), then (a, b, c), then (a, b, c, d), and then (a, b, c, d, e) speaker subspace motion vector Are sequentially transmitted to the interpolator's speaker subspace movement vector calculation unit 9b.

【0113】本例の場合、内挿話者の話者部分空間移動
ベクトル計算部9bは、順次送られてくる、代表話者の
話者部分空間移動ベクトルvism nに関する5通りの
組み合わせに各々対応した5通りの内挿話者の話者部分
空間移動ベクトルvism i nter(p)を計算する。
[0113] In this example, speaker subspace movement vector calculating portion 9b of the inner episode who is sequentially sent, the representative speaker speaker subspace movement vector v i, s, of five different related m n each speaker subspace of the inner episode's five types corresponding motion vector to the combination v i, s, calculating the m i nter (p).

【0114】また、同時に内挿話者の話者部分空間移動
ベクトル計算部9bは、内挿話者の分散ベクトル
(σism inter(p))、重みwism inter(p)、及
び遷移確率ais1s2 inter(p)を数7に従い計算す
る。
At the same time, the interpolated speaker's speaker subspace movement vector calculator 9b calculates the interpolated speaker's variance vector (σ i , s , m inter (p) ) and weights w i , s , m inter (p ), and calculates in accordance with transition probability a i, s1, s2 inter several 7 (p).

【0115】計算された内挿話者の話者部分空間移動ベ
クトルvism inter(p)は内挿話者の話者部分空間移
動ベクトル記憶部9cに記憶される。
The calculated speaker subspace movement vector v i , s , m inter (p) of the interpolation speaker is stored in the interpolation speaker's speaker subspace movement vector storage section 9c.

【0116】代表話者選択部4cは、内挿話者の話者部
分空間移動ベクトルvism inter (p)と入力話者の話
者部分空間移動ベクトルvism inpとの距離を計算
し、入力話者部分空間移動ベクトルvism inpと距離
的に近い内挿話者の部分空間移動ベクトルvism
inter(p)をもつ内挿話者の番号(spno)、及び該内
挿話者の番号(spno)を有する内挿話者の話者部分
空間移動ベクトルvis m inter(spno)を話者適応後モ
デル構築部4dへ送出し、話者適応後の平均ベクトルμ
ism adaptを求める。
The representative speaker selecting section 4c is a speaker section of the interpolated speaker.
Spatial motion vector vi,s,m inter (p)And the story of the input speaker
Subspace movement vector vi,s,m inpCalculate distance with
And the input speaker subspace movement vector vi,s,m inpAnd distance
Subspace movement vector vi,s,m
inter (p)And the number of the interpolator (spno) with
The speaker part of the interpolator with the number of the interrogator (spno)
Spatial movement vector vi,s, m inter (spno)After speaker adaptation
The average vector μ after transmission to the Dell construction unit 4d and speaker adaptation
i,s,m adaptAsk for.

【0117】適応後モデル作成部7は、話者適応後の平
均ベクトルμism adapt、spno番の内挿話者の分
散ベクトル(σism inter(spno))、重みwism
inter (spno)、遷移確率ais1s2 inter(spno)に基づ
き適応後のモデルを作成する。
The post-adaptive model creation unit 7 calculates the average vector μ i , s , m adapt after speaker adaptation, the variance vector (σ i , s , m inter (spno) ) of the spno-number interpolated speaker , and the weight w. i , s , m
A model after adaptation is created based on inter (spno) and transition probabilities a i , s1 and s2 inter (spno) .

【0118】図4は本発明の第三のHMMの学習装置の
実施形態の構成図である。
FIG. 4 is a block diagram of an embodiment of the third HMM learning apparatus of the present invention.

【0119】本発明の第三の実施形態のHMMの学習装
置の構成が従来のそれと異なる第一の点は、代表話者選
択部4cに接続して代表話者の学習語依存話者部分空間
移動ベクトル記憶部11およびこれに接続する代表話者
の学習語依存話者部分空間移動ベクトル計算部10を設
けたことである。
The first difference of the configuration of the HMM learning apparatus of the third embodiment of the present invention from the conventional one is that it is connected to the representative speaker selection section 4c and the learning word dependent speaker subspace of the representative speaker. The difference is that a movement vector storage unit 11 and a learning word dependent speaker subspace movement vector calculation unit 10 of a representative speaker connected thereto are provided.

【0120】本発明の第三の実施形態のHMMの学習装
置の構成が従来のそれと異なる第二の点は、代表話者選
択部4cにおいて選択された代表話者の番号(spn
o)を代表話者の話者部分空間移動ベクトル記憶部6に
送出するようにしたことである。
The second difference of the configuration of the HMM learning device of the third embodiment of the present invention from the conventional one is that the representative speaker number (spn) selected by the representative speaker selector 4c is used.
o) is sent to the speaker subspace movement vector storage unit 6 of the representative speaker.

【0121】以下に、本発明の第三の実施形態の代表的
な構成要件である、代表話者の学習語依存の話者部分空
間移動ベクトル計算部10および代表話者の学習語依存
話者部分空間移動ベクトル記憶部11を中心に本実施例
について詳述する。
Hereinafter, the speaker subspace movement vector calculating unit 10 which depends on the representative speaker's learning word and the representative speaker's learning word dependent speaker, which are representative components of the third embodiment of the present invention, will be described. This embodiment will be described in detail focusing on the subspace movement vector storage unit 11.

【0122】代表話者の学習語依存話者部分空間移動ベ
クトル計算部10の機能は、入力話者の学習語依存話者
部分空間移動ベクトル計算部4aと基本的に同一の機能
を有する。違いは、入力話者の適応語依存の話者部分空
間移動ベクトル計算部4aでは音声分析部1により分析
された入力話者の音声を用いて入力話者の話者部分空間
移動ベクトルvism inpを計算することに対して、代
表話者の学習語依存話者部分空間移動ベクトル計算部1
0では各代表話者の音声を分析した結果を用いてn番目
の代表話者について代表話者の学習語依存話者部分空間
移動ベクトルζ ism nを計算するものである。ただ
し、代表話者の学習語依存話者部分空間移動ベクトルζ
ism nを計算するために使用する代表話者の音声は、
入力話者の音声と同一内容であるものとする。
A learning word dependent speaker subspace movement pattern of a representative speaker
The function of the vector calculator 10 is that the input speaker is a learning word dependent speaker.
Basically the same function as the subspace movement vector calculation unit 4a
Having. The difference is that the speaker part of the input speaker depends on the adaptive word.
In the inter-movement vector calculation unit 4a, analysis is performed by the voice analysis unit 1.
Speaker subspace using input speaker's speech
Movement vector vi,s,m inpTo calculate
Speaker's learning word dependent speaker subspace movement vector calculation unit 1
In the case of 0, the result of analyzing the voice of each representative speaker is used for the nth
Representative speaker's learning word dependent speaker subspace
Movement vector i,s,m nIs calculated. However
And the learning word dependent speaker subspace movement vector of the representative speaker ζ
i,s,m nThe voice of the representative speaker used to calculate
It is assumed that the content is the same as the voice of the input speaker.

【0123】代表話者の学習語依存話者部分空間移動ベ
クトル記憶部11は、代表話者の学習語依存話者部分空
間移動ベクトル計算部10に於て計算した代表話者の学
習語依存話者部分空間移動ベクトルζism nを記憶す
る。
The representative-speaker learning-word dependent speaker subspace movement vector storage unit 11 stores the representative-speaker learning-word dependent speech calculated by the representative-speaker learning-word dependent speaker subspace movement vector calculator 10. 's subspace motion vector ζ i, s, stores the m n.

【0124】代表話者選択部4cでは、入力話者部分空
間移動ベクトルvism inpと距離的に近い代表話者の
学習語依存話者部分空間移動ベクトルζism nをもつ
代表話者の番号(spno)を選択し、かかる代表話者
の番号(spno)を代表話者の話者部分空間移動ベク
トル記憶部6に送出する。代表話者の話者部分空間移動
ベクトル記憶部6では選択された代表話者の番号に対応
した代表話者の話者部分空間移動ベクトルvism
spnoを話者適応後モデル4dに送出する。
[0124] In the representative speaker selection unit 4c, input speaker subspace movement vector v i, s, m inp and distance to close representative speaker of learning language dependent speaker subspace movement vector ζ i, s, m n Is selected and the representative speaker number (spno) is sent to the speaker subspace movement vector storage unit 6 of the representative speaker. Representative speaker of the speaker subspace motion vector storage unit of the representative speaker corresponding to 6 in a selected number of the representative speaker speaker subspace movement vector v i, s, m
The spno is transmitted to the speaker-adapted model 4d.

【0125】話者適応後モデル構築部4dでは、代表話
者選択部4cにて選択された代表話者の話者部分空間移
動ベクトルvism spno、入力話者の話者部分空間移
動ベクトルvism inp、及び初期モデルの平均ベクト
ルμismを用いて、話者適応後の平均ベクトルμi
sm adaptを求める。以降の処理は従来例と同一である
ので説明を割愛する。
[0125] In the speaker adaptation after the model construction unit 4d, a representative of the speaker has been selected by the selection unit 4c representative speaker speaker subspace movement vector v i, s, m spno, of the input speaker speaker subspace Using the motion vectors v i , s , m inp and the average vector μ i , s , m of the initial model, the average vector μ i ,
Find s and m adapt . Subsequent processing is the same as that of the conventional example, and a description thereof will be omitted.

【0126】図5は本発明の第四の実施形態のHMMの
学習装置の構成図である。
FIG. 5 is a configuration diagram of an HMM learning apparatus according to a fourth embodiment of the present invention.

【0127】本発明の第四の実施形態のHMMの学習装
置の構成が従来のそれと異なる第一および第二の点は、
本発明の第三の実施形態と同一である。
The first and second points in which the configuration of the HMM learning apparatus according to the fourth embodiment of the present invention is different from the conventional one are as follows.
This is the same as the third embodiment of the present invention.

【0128】本発明の第四の実施形態のHMMの学習装
置が第三の実施形態のそれと大きく異なる点は、話者適
応後モデル構築部4dに代えて、第二話者適応後モデル
構築部4eを設けた事である。
The HMM learning apparatus according to the fourth embodiment of the present invention is significantly different from that of the third embodiment in that the post-speaker adaptation model constructing unit 4d is replaced by the second speaker adaptation model constructing unit. 4e.

【0129】本第四の実施形態においては、代表話者選
択部4cにおいて入力話者部分空間移動ベクトル
ism inpと距離的に近い代表話者の学習語依存話者
部分空間移動ベクトルζism nをもつ代表話者の番号
(spno)を選択する処理までは第三の実施形態と同
一である。
[0129] The present In a fourth embodiment, the representative speaker selection section 4c input speaker subspace movement vector v i in, s, learning language dependent speaker subspaces movement of m inp and distance to close the representative speaker until the process of selecting a vector ζ i, s, representatives speaker numbers with m n (SPNO) is identical to the third embodiment.

【0130】ただし、代表話者選択部4cは、代表話者
の番号(spno)を代表話者の話者部分空間移動ベク
トル記憶部6に送出するとともに第二話者適応後モデル
構築部4eに代表話者の学習語依存話者部分空間移動ベ
クトルζism spnoを送出する。
However, the representative speaker selection unit 4c sends the representative speaker number (spno) to the representative speaker's speaker subspace movement vector storage unit 6 and sends it to the second speaker adaptation model building unit 4e. The learning word dependent speaker subspace movement vector ζ i , s , m spno of the representative speaker is transmitted.

【0131】第二話者適応後モデル構築部4dでは、代
表話者選択部4cにて選択された代表話者の話者部分空
間移動ベクトルvism spno、代表話者の学習語依存
話者部分空間移動ベクトルζism spno、入力話者の
話者部分空間移動ベクトルvism inp、及び初期モデ
ルの平均ベクトルμismを用いて、数8に従い、話
者適応後の平均ベクトルμism adaptを求める。
[0131] In the second speaker adaptation after the model construction unit 4d, a representative speaker selection unit 4c speaker subspace movement vector of the selected representative speaker at v i, s, m spno, representative speaker of learning language Using the dependent speaker subspace movement vector ζ i , s , m spno , the input speaker's speaker subspace movement vector v i , s , m inp , and the initial model average vector μ i , s , m , According to 8, the average vector μ i , s , m adapt after speaker adaptation is obtained.

【0132】[0132]

【数8】 (Equation 8)

【0133】以降の処理は従来例と同一であるので説明
を割愛する。
The subsequent processing is the same as that of the conventional example, and the description is omitted.

【0134】[0134]

【発明の効果】以上の説明から明らかなように本発明
は、代表話者の話者部分空間移動ベクトル記憶部6に記
憶されているN名の代表話者の話者部分空間移動ベクト
ルvism nから内挿話者の話者部分空間移動ベクトル
ism inter(p)を作成することにより、擬似的に代
表話者数を増やすという作用があり、代表話者の話者部
分空間移動ベクトル記憶部6に記憶しておく代表話者数
が少なくてすみ、記憶容量が削減できるという効果を奏
する。
As apparent from the above description the present invention is representative speaker speaker representative speaker speaker subspace movement vector subspace motion vector storage unit 6 N names stored in the v i , s, speaker subspace motion vector inner episode's from m n v i, s, by creating a m inter (p), there is effect that artificially increasing the number of representative speakers, representatives speaker The number of representative speakers stored in the speaker subspace movement vector storage unit 6 can be reduced, and the storage capacity can be reduced.

【0135】更には、代表話者数が少なくてすむことよ
り、代表話者の話者部分空間移動ベクトルを計算するた
めの人数が少なくてすみ、代表話者の話者部分空間移動
ベクトルを作成するために必要となる音声の収集量が少
なくてすむという効果を奏する。
Further, since the number of representative speakers is small, the number of people for calculating the speaker subspace movement vector of the representative speaker is small, and the speaker subspace movement vector of the representative speaker is created. This has the effect of reducing the amount of voice collection required to perform the operation.

【0136】また、入力話者の学習用音声と同一内容の
代表話者の音声から計算することにより得られた入力話
者の話者部分空間移動ベクトルvism inpと同じ偏り
をもつ代表話者の学習語依存話者部分空間移動ベクトル
ζism nと、入力話者の話者部分空間移動ベクトルv
ism inpとの類似性により代表話者選択を行うため、
学習用音声に固有の特徴による偏りを考慮した高精度な
話者選択が可能となる。
[0136] The input speaker of the speaker subspace movement vector v i obtained by calculating from the representative speaker's voice having the same content as the training speech input speaker, s, the same bias as m inp representative speaker of learning language dependent speaker subspace motion vector ζ i have, s, m n and, of input speaker speaker subspace movement vector v
order to carry out i, s, a representative speaker selected by the similarity with the m inp,
Highly accurate speaker selection can be performed in consideration of bias due to characteristics unique to the learning voice.

【0137】また、代表話者の話者部分空間移動ベクト
ル記憶部6に記憶されているN名の代表話者の話者部分
空間移動ベクトルvism nから内挿話者の話者部分空
間移動ベクトルvism inter(p)を作成することによ
り、擬似的に代表話者数を増やし、学習用音声に固有の
特徴による偏りを考慮した高精度な話者選択を行うこと
により、高精度のHMMの学習が可能となる。
[0137] The representative speaker speaker subspaces motion vector storage unit 6 in the speaker subspace movement vector v i representative speaker N names stored, s, speaker inner episode's from m n By creating the subspace movement vectors v i , s , and m inter (p) , the number of representative speakers is increased in a pseudo manner, and highly accurate speaker selection is performed in consideration of the bias due to characteristics unique to the learning speech. As a result, highly accurate HMM learning becomes possible.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明に係るHMMの学習装置の概略構成図で
ある。
FIG. 1 is a schematic configuration diagram of an HMM learning device according to the present invention.

【図2】本発明における第一の実施形態のHMMの学習
装置の構成図である。
FIG. 2 is a configuration diagram of an HMM learning device according to the first embodiment of the present invention.

【図3】本発明における第二の実施形態のHMMの学習
装置の構成図である。
FIG. 3 is a configuration diagram of an HMM learning device according to a second embodiment of the present invention.

【図4】本発明における第三の実施形態のHMMの学習
装置の構成図である。
FIG. 4 is a configuration diagram of an HMM learning device according to a third embodiment of the present invention.

【図5】本発明における第四の実施形態のHMMの学習
装置の構成図である。
FIG. 5 is a configuration diagram of an HMM learning device according to a fourth embodiment of the present invention.

【図6】従来のHMMの話者適応に基づくHMMの学習
装置である。
FIG. 6 is a conventional HMM learning device based on HMM speaker adaptation.

【図7】従来のHMMの話者適応に基づくHMMの学習
装置の詳細構成図である。
FIG. 7 is a detailed configuration diagram of a conventional HMM learning device based on HMM speaker adaptation.

【符号の説明】[Explanation of symbols]

1・・・・・・・・・・音声分析部 2・・・・・・・・・・初期モデル記憶部 3・・・・・・・・・・学習部 4・・・・・・・・・・話者適応部 4a・・・・・・・・入力話者の話者部分空間移動ベクトル計算
部 4b・・・・・・・・入力話者の話者部分空間移動ベクトル記憶
部 4c・・・・・・・・代表話者選択部 4d・・・・・・・・話者適応後モデル構築部 4e・・・・・・・・第二話者適応後モデル構築部 5・・・・・・・・・・代表話者の話者部分空間移動ベクトル計算
部 6・・・・・・・・・・代表話者の話者部分空間移動ベクトル記憶
部 7・・・・・・・・・・適応後モデル作成部 8・・・・・・・・・・適応後モデル記憶部 9・・・・・・・・・・内挿話者の話者部分空間移動ベクトル作成
部 9a・・・・・・・・内挿話者候補選択部 9b・・・・・・・・内挿話者の話者部分空間移動ベクトル計算
部 9c・・・・・・・・内挿話者の話者部分空間移動ベクトル記憶
部 9d・・・・・・・・第二内挿話者候補選択部 9d−1・・・・類似性計算部 9d−2・・・・上位内挿話者候補作成部 10・・・・・・・・代表話者の学習語依存話者部分空間移動ベ
クトル計算部 11・・・・・・・・代表話者の学習語依存話者部分空間移動ベ
クトル記憶部
1. Voice analysis unit 2. Initial model storage unit 3. Learning unit 4. ... Speaker adaptation unit 4a ... Speaker subspace movement vector calculation unit of input speaker 4b ... Speaker subspace movement vector storage unit of input speaker 4c ········· Representative speaker selection unit 4d ·············································································· ······················································································································································ 記憶····· Adapted model creating unit 8 ········ Adapted model storage unit 9 ··················································································································· ... Interpolated speaker candidate selection unit 9b... Interpolated speaker subspace movement vector calculation unit 9c... Interpolated speaker subspace movement vector storage unit 9d ······· Second interpolated speaker candidate selection unit 9d-1 ····· Similarity calculation unit 9d-2 ····· Higher interpolated speaker candidate creation unit 10 ··········· Speaker learning word dependent speaker subspace movement vector calculation unit 11.... Representative speaker learning word dependent speaker subspace movement vector storage unit

Claims (2)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 複数の代表話者の話者部分空間移動ベク
トルvism nのあらゆる組み合わせに対応して計算さ
れる内挿話者の話者部分空間移動ベクトルvism
inter(p)の中から、入力話者の話者部分空間移動ベクト
ルvism inpと最も類似性が高い話者部分空間移動ベ
クトルを選択し、該話者部分空間移動ベクトルvis
m inter(spno)と入力話者の話者部分空間移動ベクトルv
ism inpおよび入力話者のHMMの平均ベクトル
μism inpを用いることによりHMMを学習すること
を特徴とするHMMの学習装置。
1. A plurality of representative speakers of the speaker subspace movement vector v i, s, m n speaker subspace movement vector v i of the inner episode who is calculated to correspond to any combination of, s, m
from the inter (p), speaker subspace movement vector v i of the input speaker, s, most similarity with m inp selects high speaker subspaces movement vector,該話's subspace movement vector v i , S ,
m inter (spno) and the speaker subspace movement vector v of the input speaker
i, s, m inp and mean vector mu i, s of the input speaker HMM, HMM learning device characterized by learning the HMM by using m inp.
【請求項2】 N名の代表話者の話者部分空間移動ベク
トルvism nから、入力話者の話者部分空間移動ベク
トルvism inpと類似性の高い上位N'名(N'≦N)
の該代表話者の話者部分空間移動ベクトルvism n
選択し、選択された代表話者の話者部分空間移動ベクト
ルvism nの組み合わせに対応して計算される内挿話
者の話者部分空間移動ベクトルvism inter(p)の中
から、入力話者の話者部分空間移動ベクトルvism
inpと最も類似性が高い話者部分空間移動ベクトルを選
択し、該話者部分空間移動ベクトルvism
inter(spno)と入力話者の話者部分空間移動ベクトル
ism inpおよび入力話者のHMMの平均ベクトルμ
ism inpを用いることによりHMMを学習することを
特徴とするHMMの学習装置。
2. A high representative speaker speaker subspace movement vector v i of N name, s, the m n, speaker subspace movement vector v i of the input speaker, s, and m inp similarity higher N 'name (N' ≦ N)
The surrogate table speaker speaker subspace movement vector v i, s, select m n, speaker subspace movement vector v i of the selected representative speaker, s, calculated to correspond to a combination of m n Of the interpolated speaker's speaker subspace movement vectors v i , s , m inter (p) , the input speaker's speaker subspace movement vectors v i , s , m
Select the most high similarity speaker subspace movement vector and inp,該話's subspace movement vector v i, s, m
inter (spno) and the input speaker of the speaker subspace movement vector v i, s, m inp and the average vector of the input speaker of HMM μ
i, s, HMM learning device characterized by learning the HMM by using m inp.
JP27422595A 1995-10-23 1995-10-23 HMM learning device Expired - Fee Related JP3316355B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP27422595A JP3316355B2 (en) 1995-10-23 1995-10-23 HMM learning device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP27422595A JP3316355B2 (en) 1995-10-23 1995-10-23 HMM learning device

Publications (2)

Publication Number Publication Date
JPH09114483A JPH09114483A (en) 1997-05-02
JP3316355B2 true JP3316355B2 (en) 2002-08-19

Family

ID=17538769

Family Applications (1)

Application Number Title Priority Date Filing Date
JP27422595A Expired - Fee Related JP3316355B2 (en) 1995-10-23 1995-10-23 HMM learning device

Country Status (1)

Country Link
JP (1) JP3316355B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006112198A1 (en) * 2005-03-30 2006-10-26 Pioneer Corporation Voice recognition device, voice recognition method, voice recognition program, and recording medium

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4510517B2 (en) * 2004-05-26 2010-07-28 日本電信電話株式会社 Acoustic model noise adaptation method and apparatus for implementing the method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006112198A1 (en) * 2005-03-30 2006-10-26 Pioneer Corporation Voice recognition device, voice recognition method, voice recognition program, and recording medium

Also Published As

Publication number Publication date
JPH09114483A (en) 1997-05-02

Similar Documents

Publication Publication Date Title
US5440662A (en) Keyword/non-keyword classification in isolated word speech recognition
JP2871561B2 (en) Unspecified speaker model generation device and speech recognition device
JP2733955B2 (en) Adaptive speech recognition device
JP5177561B2 (en) Recognizer weight learning device, speech recognition device, and system
JPH10512686A (en) Method and apparatus for speech recognition adapted to individual speakers
JP2002366187A (en) Device and method for recognizing voice, program and recording medium
EP1859437A2 (en) An automatic donor ranking and selection system and method for voice conversion
JP2000099080A (en) Voice recognizing method using evaluation of reliability scale
JPH0962291A (en) Pattern adaptive method using describing length minimum reference
JP2751856B2 (en) Pattern adaptation method using tree structure
CN116090474A (en) Dialogue emotion analysis method, dialogue emotion analysis device and computer-readable storage medium
JP3316355B2 (en) HMM learning device
JPH1185186A (en) Nonspecific speaker acoustic model forming apparatus and speech recognition apparatus
JPH11143486A (en) Device and method adaptable for speaker
Lee et al. Isolated word recognition using modular recurrent neural networks
JP2003005785A (en) Separating method and separating device for sound source
Lanchantin et al. Dynamic model selection for spectral voice conversion.
JP2852210B2 (en) Unspecified speaker model creation device and speech recognition device
JPH10254473A (en) Method and device for voice conversion
JPH08110792A (en) Speaker adaptation device and speech recognition device
Takahashi et al. Tied-structure HMM based on parameter correlation for efficient model training
JPH0895592A (en) Pattern recognition method
JP3448371B2 (en) HMM learning device
JPH0822296A (en) Pattern recognition method
JP2002169586A (en) Composite model generating device for voice and image, environment adapting device for composite model of voice and image, and voice recognizing device

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees