JPH0981179A - Speaker adaptive device and voice recognition device - Google Patents

Speaker adaptive device and voice recognition device

Info

Publication number
JPH0981179A
JPH0981179A JP7239819A JP23981995A JPH0981179A JP H0981179 A JPH0981179 A JP H0981179A JP 7239819 A JP7239819 A JP 7239819A JP 23981995 A JP23981995 A JP 23981995A JP H0981179 A JPH0981179 A JP H0981179A
Authority
JP
Japan
Prior art keywords
speaker
vector
speaker adaptation
smoothing
vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7239819A
Other languages
Japanese (ja)
Other versions
JP2888781B2 (en
Inventor
Jun Ishii
純 石井
Masahiro Tonomura
政啓 外村
Shoichi Matsunaga
昭一 松永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
ATR Interpreting Telecommunications Research Laboratories
Original Assignee
ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
ATR Interpreting Telecommunications Research Laboratories
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK, ATR Interpreting Telecommunications Research Laboratories filed Critical ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
Priority to JP7239819A priority Critical patent/JP2888781B2/en
Publication of JPH0981179A publication Critical patent/JPH0981179A/en
Application granted granted Critical
Publication of JP2888781B2 publication Critical patent/JP2888781B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To improve the precision in estimating movement vectors and to enhance the voice recognition rate by selecting prescribed higher-order plural vectors in which the value of the distance between an object vector that it to be processed and a vicinity vector is small. SOLUTION: A speaker adaptive control section 31 adaptively learns an initial speaker model 30 which includes speaker's cluster models using speaker adaptive learning data 32, which are the sentence uttering text data, for example, converts the model into an unspecified speaker phoneme model of the phoneme HMM, stores the model in the memory of a hidden Markov network (an HM network) and performs voice recognition based on the network 11. Specifically, the section 31 successively executes the computational process of the movement vectors, the interpolation process of the movement vectors, the smoothing process of the movement vectors and the learning process, in which speaker-adapting is conducted, employing the processed movement vectors. During the interpolation and flattering/smoothing processes of the movement vectors, the selection of vicinity vectors is conducted using the tree construction of the state dividing process by a known sequential state dividing method.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、初期話者モデルを
話者適応用学習データを用いて話者適応化を行って隠れ
マルコフモデル(以下、HMMという。)を作成する話
者適応化装置、及びそのHMMを用いて音声認識する音
声認識装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speaker adaptation device for preparing a hidden Markov model (hereinafter referred to as HMM) by performing speaker adaptation on an initial speaker model using learning data for speaker adaptation. , And a voice recognition device for recognizing a voice using the HMM.

【0002】[0002]

【従来の技術】従来、HMMを用いた音声認識装置に対
して少量の学習資料によって話者適応を行なう場合、安
定した適応効果を得るにはその情報不足を補うことが不
可欠である。このため、不特定話者モデル等の初期話者
モデルに含まれる情報を事前知識として使用する話者適
応法が種々研究されている(例えば、従来文献1「大倉
計美ほか,“混合連続分布HMMを用いた移動ベクトル
場平滑化話者適応方式”,音響学会講演論文集,2−Q
−17,pp.191−192,1992年3月」参
照。)。
2. Description of the Related Art Conventionally, in the case of performing speaker adaptation with a small amount of learning material for a speech recognition apparatus using an HMM, it is essential to compensate for the lack of information in order to obtain a stable adaptation effect. For this reason, various speaker adaptation methods that use information included in an initial speaker model such as an unspecified speaker model as prior knowledge have been studied (for example, in conventional document 1, “Kemi Okura et al.,“ Mixed continuous distribution ”). Moving vector field smoothing speaker adaptation method using HMM ", Proceedings of the Acoustical Society of Japan, 2-Q
-17, pp. 191-192, March 1992 ”. ).

【0003】例えば、従来文献1に開示されている従来
例の移動ベクトル場平滑化話者適応方式(以下、VFS
方式という。)では、各モデル・パラメータに対して話
者適応用学習データを用いた推定値と初期値の差分を移
動ベクトルと定義している。そして、各移動ベクトルを
音響的に近傍にある移動ベクトルの情報を用いて平滑化
することにより推定誤差を低減したり、対応する学習デ
ータがないことによる未学習モデル・パラメータの補間
を行なって話者適応化を行っている。
For example, a conventional moving vector field smoothing speaker adaptation method (hereinafter referred to as VFS) disclosed in the prior art reference 1.
It is called a method. ), The difference between the estimated value using the speaker adaptation learning data and the initial value for each model parameter is defined as a movement vector. Then, the estimation error is reduced by smoothing each movement vector using the information of the movement vector that is acoustically nearby, and the unlearned model parameters are interpolated by the lack of corresponding learning data. Person adaptation.

【0004】[0004]

【発明が解決しようとする課題】従来例のVFS方式
は、話者適応用学習データが少量であることで生じるパ
ラメータの推定誤差を、パラメータの補間、平滑化によ
って軽減する方式であるが、従来例のVFS方式におい
て、この補間、平滑化を行なう際に使用する近傍のベク
トルは、話者適応用学習データによって学習されたベク
トルの中でユークリッド距離が近いものであり、音素環
境という概念は含まれていない。距離の基準では、異な
る音素環境のベクトルによって補間処理及び平滑化処理
が行なわれる場合があり、このために、音素環境によっ
て移動ベクトルが各々固有の性質を有していることが反
映されなくなってしまい、移動ベクトルの推定精度にお
いて劣化が生じるという問題点があった。
The VFS method of the conventional example is a method of reducing parameter estimation error caused by a small amount of learning data for speaker adaptation by parameter interpolation and smoothing. In the VFS method of the example, the neighboring vector used when performing this interpolation and smoothing is one having a short Euclidean distance among the vectors learned by the speaker adaptation learning data, and the concept of the phoneme environment is included. It is not. On the basis of the distance, the interpolation process and the smoothing process may be performed by the vectors of different phoneme environments, so that it is not reflected that the movement vectors have unique properties depending on the phoneme environment. However, there is a problem that the estimation accuracy of the movement vector deteriorates.

【0005】本発明の目的は以上の問題点を解決し、従
来例に比較して移動ベクトルの推定精度を改善すること
ができ、音声認識率を向上することができる話者適応化
装置、及びそのHMMを用いて音声認識する音声認識装
置を提供することにある。
An object of the present invention is to solve the above-mentioned problems, improve the estimation accuracy of the moving vector as compared with the conventional example, and improve the speech recognition rate, and a speaker adaptation device, and It is to provide a voice recognition device for recognizing a voice using the HMM.

【0006】[0006]

【課題を解決するための手段】本発明に係る請求項1記
載の話者適応化装置は、話者適応前後の隠れマルコフモ
デルの特徴ベクトルの関係を示す移動ベクトルを用い
て、話者適応用学習データに基づいて初期話者モデルを
話者適応して学習することにより音声認識のための隠れ
マルコフモデルの話者モデルを計算するための話者適応
化装置において、上記話者適応用学習データが存在して
話者適応用学習データに基づいて話者適応された後の隠
れマルコフモデルの第1の特徴ベクトルを、当該第1の
特徴ベクトルと、その近傍にある話者適応された後の隠
れマルコフモデルの複数の第2の特徴ベクトルとを用い
て平滑化処理を実行する平滑化手段と、上記話者適応化
用学習データが存在せず上記平滑化手段によって計算さ
れなかった話者適応後の隠れマルコフモデルのガウス分
布の平均ベクトルを、当該平均ベクトルに対応する話者
適応前の隠れマルコフモデルのガウス分布の平均ベクト
ルの近傍にある上記話者適応用学習データが存在して上
記平滑化手段によって計算された話者適応後の隠れマル
コフモデルのガウス分布の平均ベクトルの移動ベクトル
を用いて補間する補間手段とを備え、上記平滑化手段と
上記補間手段は、逐次状態分割法による状態分割過程の
木構造を用いて、当該木構造内のあるノードからより下
層内のベクトルのうち処理すべき対象ベクトルと近傍ベ
クトルとの距離の値が小さい所定の上位複数個のベクト
ルを選択する選択手段を備えたことを特徴とする。
A speaker adaptation apparatus according to a first aspect of the present invention is adapted for speaker adaptation by using a movement vector indicating a relationship between feature vectors of hidden Markov models before and after speaker adaptation. A speaker adaptation apparatus for calculating a speaker model of a hidden Markov model for speech recognition by learning by adapting an initial speaker model based on learning data, the learning data for speaker adaptation Exists and the first feature vector of the Hidden Markov Model after the speaker adaptation based on the speaker adaptation learning data is set to the first feature vector and a speaker adaptation in the vicinity thereof after the speaker adaptation. Smoothing means for performing a smoothing process using a plurality of second feature vectors of the hidden Markov model, and speaker adaptation not calculated by the smoothing means because the learning data for speaker adaptation does not exist. The average vector of the Gaussian distribution of the hidden Markov model of the above is smoothed by the learning data for speaker adaptation existing near the average vector of the Gaussian distribution of the hidden Markov model before speaker adaptation corresponding to the average vector. Interpolating means using the moving vector of the mean vector of the Gaussian distribution of the Hidden Markov Model after speaker adaptation calculated by the means, the smoothing means and the interpolating means, Selecting means for selecting a plurality of predetermined high-order vectors having a small distance value between a target vector to be processed and a neighboring vector among vectors in a lower layer from a node in the tree structure using the tree structure of the process It is characterized by having.

【0007】また、請求項2記載の話者適応化装置は、
請求項1記載の話者適応化装置において、上記選択手段
は、上記対象ベクトルが属する状態が対応する最下層の
ノードを抽出し、上記抽出された最下層のノードから、
当該最下層のノードよりも高い層に有るあるノード以下
の状態内の話者適応学習済みベクトル数が上記所定の複
数個以上になるまで上記木構造をさかのぼり、上記ある
ノードを最上位ノードとし、上記最上位ノード以下の状
態内のベクトルにおいて、上記対象ベクトルと近傍ベク
トルとの距離の値が小さい所定の上位複数個のベクトル
を上記補間処理及び平滑化処理のための選択ベクトルと
して選択することを特徴とする。
Further, the speaker adaptation apparatus according to claim 2,
2. The speaker adaptation device according to claim 1, wherein the selection means extracts a node in the lowest layer to which the state to which the target vector belongs corresponds, and from the extracted node in the lowest layer,
The tree structure is traced back until the number of speaker adaptive learned vectors in a state below a certain node in a layer higher than the node of the lowest layer is equal to or more than the predetermined number, and the certain node is set as the top node, In the vector in the state below the top node, selecting a predetermined plurality of vectors having a small distance value between the target vector and the neighboring vector as a selection vector for the interpolation processing and the smoothing processing. Characterize.

【0008】さらに、請求項3記載の話者適応化装置
は、請求項1又は2記載の話者適応化装置において、上
記平滑化手段は、上記話者適応用学習データが存在して
上記平滑化手段によって計算された話者適応後の隠れマ
ルコフモデルのガウス分布の平均ベクトルを、当該平均
ベクトルと、その近傍にある上記話者適応用学習データ
が存在して上記平滑化手段によって計算された話者適応
後の隠れマルコフモデルのガウス分布の平均ベクトルの
移動ベクトルとを用いてかつ移動ベクトルの連続性の拘
束条件に基づいて、上記ガウス分布の話者適応用学習デ
ータのデータ量の増加に対して平滑化の強度が小さくな
るように予め決定された平滑化の強度を示す平滑化係数
を用いて平滑化することを特徴とする。
Further, the speaker adaptation apparatus according to claim 3 is the speaker adaptation apparatus according to claim 1 or 2, wherein the smoothing means includes the learning data for speaker adaptation and the smoothing. The mean vector of the Gaussian distribution of the hidden Markov model after speaker adaptation calculated by the smoothing means is calculated by the smoothing means with the mean vector and the speaker adaptation learning data in the vicinity thereof. Using the moving vector of the mean vector of the Gaussian distribution of the Hidden Markov Model after speaker adaptation and the constraint of the continuity of the moving vector On the other hand, smoothing is performed using a smoothing coefficient that indicates a predetermined smoothing strength so that the smoothing strength becomes smaller.

【0009】本発明に係る請求項4記載の音声認識装置
は、請求項1乃至3のうちの1つに記載の話者適応化装
置と、入力された発声音声文の音声信号に基づいて、上
記話者適応化装置によって話者適応された隠れマルコフ
モデルの話者モデルを用いて音声認識して音声認識結果
を出力する音声認識手段とを備えたことを特徴とする。
A speech recognition apparatus according to a fourth aspect of the present invention is based on the speaker adaptation apparatus according to any one of the first to third aspects and the input speech signal of the uttered voice sentence. And a voice recognition means for performing voice recognition using a hidden Markov model speaker model adapted by the speaker adaptation device and outputting a voice recognition result.

【0010】[0010]

【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。図1は、本発明に係る一
実施形態である音声認識装置のブロック図である。本実
施形態の音声認識装置は、話者クラスタモデルを含む初
期話者モデル30を、例えば文発話テキストデータであ
る話者適応用学習データ32を用いて、適応化学習して
音素HMMの不特定話者音素モデルに変換して隠れマル
コフ網(以下、HM網という。)11のメモリに格納す
る話者適応化制御部31を備え、当該HM網11に基づ
いて音声認識を行うことを特徴とする。特に、上記話者
適応化制御部31は、図3に示すように、移動ベクトル
の計算処理(ステップS1)と、移動ベクトルの補間処
理(ステップS2)と、移動ベクトルの平滑化処理(ス
テップS3)と、処理後の移動ベクトルを用いて話者適
応化する学習処理(ステップS4)とを順次実行し、こ
こで、上記移動ベクトルの補間処理及び平滑化処理にお
いて、公知の逐次状態分割法(SSS)による状態分割
過程の木構造を用いて近傍ベクトルの選択を行うことを
特徴とする。
DETAILED DESCRIPTION OF THE INVENTION Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 is a block diagram of a voice recognition device according to an embodiment of the present invention. The speech recognition apparatus of the present embodiment adaptively learns an initial speaker model 30 including a speaker cluster model by using speaker adaptation learning data 32 that is, for example, sentence utterance text data, and unidentifies a phoneme HMM. A speaker adaptation control unit 31 for converting into a speaker phoneme model and storing it in a memory of a hidden Markov network (hereinafter referred to as HM network) 11 is provided, and speech recognition is performed based on the HM network 11. To do. In particular, as shown in FIG. 3, the speaker adaptation control unit 31 calculates the movement vector (step S1), interpolates the movement vector (step S2), and smooths the movement vector (step S3). ) And a learning process (step S4) for adapting the speaker using the processed moving vector are sequentially executed. Here, in the interpolation process and the smoothing process of the moving vector, a known sequential state division method ( It is characterized in that the neighborhood vector is selected using a tree structure of the state division process by SSS).

【0011】まず、VFS方式の補間処理及び平滑化処
理におけるベクトルの選択について説明する。従来例の
VFS方式は話者適応の問題を少数の学習資料(すなわ
ち、話者適応用学習データ)によるHMMの再学習問題
として捉え、(1)移動ベクトルの計算処理、(2)移
動ベクトルの補間処理、(3)移動ベクトルの平滑化処
理の3ステップの処理によって行なわれる方式である。
ここで、移動ベクトルとは、初期モデルと適応モデルの
各々対応するガウス分布の平均ベクトルの差分である。
(2)移動ベクトルの補間処理及び(3)移動ベクトル
の平滑化処理は、補間、平滑化の対象であるベクトルの
K個の近傍ベクトルを用いて行なわれる。移動ベクトル
の補間処理は、話者適応用学習データによって未学習で
あったベクトルpについて行なわれ、まずベクトルpと
話者適応用学習データによって学習されたベクトルkと
の距離dp,kを基準として、この距離の値が小さいベク
トルから順にK個のベクトルを選択する。そして、これ
らの移動ベクトルを用いて内挿及び外挿によって移動ベ
クトルを推定する。また、移動ベクトルの平滑化も同様
に、平滑化対象のベクトルpからの距離dp,kが小さい
K個のベクトルによって処理を行なう。しかしながら、
これは単純にベクトル空間での距離によるベクトルの選
択であり、音素環境は考慮されていない。音素環境が同
一、または類似性が高いベクトルの間では、移動ベクト
ルの性質の類似性も高いと考えられる。従って、異なっ
た音素でもベクトル空間上で距離が近ければ、補間処理
及び平滑化処理にはそれを用いることになる従来例のV
FS方式では、推定された移動ベクトルの誤差は大きい
と考えられる。そこで、本発明では、以下に詳述するよ
うに、VFS方式の補間処理及び平滑化処理に用いる近
傍ベクトルを音素環境の類似度によって選択する方法を
用い、選択するときに、従来文献2「鷹見淳一ほか,
“音素コンテキストと時間に関する逐次状態分割による
隠れマルコフ網の自動生成”,電子情報通信学会技術報
告,SP91−88,1991年12月」において開示
されている公知の逐次状態分割法(SSS)による状態
分割過程の木構造を用いてベクトルの選択を行う。
First, the selection of a vector in the VFS interpolation processing and smoothing processing will be described. The VFS method of the conventional example regards the problem of speaker adaptation as a re-learning problem of the HMM with a small number of learning materials (that is, learning data for speaker adaptation), and (1) moving vector calculation processing, (2) moving vector This method is performed by three steps of interpolation processing and (3) movement vector smoothing processing.
Here, the movement vector is the difference between the average vectors of the Gaussian distributions corresponding to the initial model and the adaptive model.
(2) Movement vector interpolation processing and (3) movement vector smoothing processing are performed using K neighboring vectors of the vector to be interpolated and smoothed. The movement vector interpolation process is performed on the vector p that has not been learned by the speaker adaptation learning data, and first, the distance d p, k between the vector p and the vector k learned by the speaker adaptation learning data is used as a reference. , K vectors are selected in order from the vector having the smallest distance value. Then, the movement vector is estimated by interpolation and extrapolation using these movement vectors. Similarly, the smoothing of the moving vector is performed by K vectors having a small distance d p, k from the vector p to be smoothed. However,
This is simply the selection of vectors by distance in vector space, and the phoneme environment is not considered. It is considered that movement vectors have high similarity between vectors having the same phoneme environment or high similarity. Therefore, even if different phonemes are close to each other in the vector space, they are used for interpolation processing and smoothing processing in the conventional example.
In the FS method, it is considered that the error of the estimated movement vector is large. Therefore, in the present invention, as will be described in detail below, a method of selecting a neighborhood vector used for VFS interpolation processing and smoothing processing according to the similarity of the phoneme environment is used. Junichi and others,
State by known sequential state division method (SSS) disclosed in "Automatic Generation of Hidden Markov Network by Sequential State Division with respect to Phoneme Context and Time", IEICE Technical Report, SP91-88, December 1991. Vector selection is performed using the tree structure of the division process.

【0012】逐次状態分割法(SSS)は、複数の状態
の連結によって表現されコンテキスト依存の音素の集合
をすべて同時に求める隠れマルコフ網(以下、HM網と
いう。)を生成するために考案されたアルゴリズムであ
る。初期状態を1つの状態でモデル化したものから出発
し、最も分布が大きい状態を音素環境方向あるいは時間
方向に分割することを繰り返し、ネットワークを構成す
る。
The sequential state division method (SSS) is an algorithm devised to generate a hidden Markov network (hereinafter referred to as an HM network) that simultaneously obtains a set of context-dependent phonemes expressed by connecting a plurality of states. Is. Starting from a model of the initial state with one state, the state with the largest distribution is repeatedly divided into the phoneme environment direction or the time direction to form a network.

【0013】逐次状態分割法(SSS)の原理について
述べる。逐次状態分割法(SSS)の基本的な原理は、
音素の特徴空間上に割り当てられた確率的定常信号源
(状態)の間の確率的な遷移により音声の特徴パラメー
タの時間的な推移を表現した確率モデルに対して、尤度
最大化の基準に基づいて個々の状態をコンテキスト方向
または時間方向へ分割するといった操作を繰り返すこと
によって、モデルの精密化を逐次的に行おうというもの
である。これにより、モデルの単位決定とそのモデルの
構造決定、および各状態のパラメータ推定を、共通の評
価基準の下で同時に実現することができる。当該逐次状
態分割法(SSS)における処理の流れを図6に示し、
この図6に従って逐次状態分割法(SSS)の原理を説
明する。
The principle of the sequential state division method (SSS) will be described. The basic principle of Sequential State Division (SSS) is
For the stochastic model that expresses the temporal transition of the speech feature parameters by the stochastic transition between the stochastic stationary signal sources (states) assigned in the phoneme feature space Based on this, by repeating operations such as dividing individual states in the context direction or the time direction, the model is refined sequentially. Thereby, the unit determination of the model, the structure determination of the model, and the parameter estimation of each state can be simultaneously realized under a common evaluation criterion. A flow of processing in the sequential state division method (SSS) is shown in FIG.
The principle of the sequential state division method (SSS) will be described with reference to FIG.

【0014】まず初期モデルとして、ただ1つの状態
と、その状態を始端から終端まで結ぶ1本のパスから成
るモデルをすべての音声サンプルから形成し、この状態
を分割することから始める。ある時点における状態の分
割は、パスの分割を伴うコンテキスト方向、あるいはパ
スの分割を伴わない時間方向のうちのいずれか一方に関
して行われる。特にコンテキスト方向への分割時には、
パスの分割に伴ってそれぞれのパスに割り当てられるコ
ンテキストクラスも同時に分割される。実際の分割方法
としては、コンテキストクラスの分割方法も含めてその
時点で可能な全ての分割方法の中から、音声サンプルに
適用した場合の尤度の総和が最も大きくなるものを採用
する。このような状態分割を繰り返すことによって少な
い状態数で高い尤度を達成することのできる効率の良い
モデルが生成される。
First, as an initial model, a model consisting of only one state and one path connecting the state from the start end to the end is formed from all voice samples, and this state is divided. The division of the state at a certain time point is performed either in the context direction with the division of the path or in the time direction without the division of the path. Especially when splitting in the context direction,
As the paths are divided, the context class assigned to each path is also divided at the same time. As the actual division method, the one that gives the largest sum of likelihoods when applied to a voice sample is adopted from all possible division methods at that time, including the context class division method. By repeating such state division, an efficient model that can achieve high likelihood with a small number of states is generated.

【0015】逐次状態分割法(SSS)による状態の分
割過程を追従すると、図8のように木構造が構成でき
る。図8において、(a)から(b)では、状態S0を
状態S0と状態S1とに2分割すると、元のノードN0
から分岐したノードN1から状態S0と状態S1へ対等
関係で並列に分岐される。次いで、(b)から(c)で
は、状態S1を状態S1と状態S2とに2分割すると、
ノードN1から分岐したノードN2から状態S1と状態S
2へ対等関係で並列に分岐される。さらに、(c)から
(d)では、状態S0を状態S0と状態S3とに2分割
すると、ノードN 1から分岐したノードN3から状態S0
と状態S3へ対等関係で並列に分岐される。またさら
に、(d)から(e)では、状態S2を状態S2と状態
S4とに2分割すると、ノードN2から分岐したノード
4から状態S2と状態S4へ対等関係で並列に分岐さ
れる。以下同様に、1つのノードから2分岐されるよう
に状態が分割されて木構造が構成される。
State distribution by the sequential state division method (SSS)
Following the splitting process, a tree structure can be constructed as shown in Fig. 8.
You. In FIG. 8, the state S0 is changed from (a) to (b).
When the state S0 and the state S1 are divided into two, the original node N0
Node N branched from1From state S0 to state S1
It branches in parallel because of the relationship. Then, from (b) to (c)
Divides the state S1 into the state S1 and the state S2,
Node N1Node N branched from2To state S1 and state S
It is parallelly branched to 2. Furthermore, from (c)
In (d), the state S0 is divided into two states S0 and S3.
Then, node N 1Node N branched fromThreeTo state S0
To the state S3 in parallel with each other. Again
In addition, in (d) to (e), the state S2 is changed to the state S2.
If S2 and S4 are divided into two, node N2A node branched from
NFourFrom state S2 to state S4 in parallel in a parallel relationship.
It is. In the same way, from one node to two branches
The state is divided into and the tree structure is constructed.

【0016】このように構成した逐次状態分割法(SS
S)の状態分割過程による木構造において、任意のノー
ド以下の状態は、ある段階では1状態であったことから
音素環境の類似性が高いと考えられる。そして、その類
似性は下層のノードの方がより高いと考えられる。本発
明の方法は、この逐次状態分割法(SSS)の状態分割
過程による木構造を用い、音素環境の類似性によってV
FS方式の近傍ベクトルの選択を行なうことにより、音
素環境固有の移動ベクトルの性質を加味し、移動ベクト
ルの推定精度の向上を図るものである。
The sequential state division method (SS
In the tree structure according to the state division process of S), the states below an arbitrary node are considered to have a high similarity in the phoneme environment, since the states at one stage were one state at a certain stage. Then, the similarity is considered to be higher in the lower layer node. The method of the present invention uses a tree structure according to the state division process of this sequential state division method (SSS), and V
By selecting the neighborhood vector of the FS method, the property of the movement vector peculiar to the phoneme environment is added to improve the estimation accuracy of the movement vector.

【0017】次いで、本発明に係る、上記補間処理及び
平滑化処理に用いる近傍ベクトルの選択方法を以下に説
明する。VFS方式の補間処理及び平滑化処理の対象ベ
クトルpについて近傍ベクトルkの選択は、以下の手順
で行う。 (1)対象ベクトルpが属する状態が対応する最下層の
ノードを抽出する。 (2)上記抽出された最下層のノードから、当該最下層
のノードよりも高い層に有るあるノード以下の状態内の
話者適応学習済みベクトル数がK個以上になるまで上記
木構造をさかのぼり、上記あるノードを最上位ノードと
する。 (3)上記最上位ノード以下の状態内のベクトルにおい
て、対象ベクトルpと近傍ベクトルkとの距離dp,k
値が小さい上位K個のベクトルを上記補間処理及び平滑
化処理のための選択ベクトルとする。 すなわち、本実施形態においては、逐次状態分割法(S
SS)の状態分割過程によって構成した木構造を用い
て、当該木構造内のあるノードからより下層内のベクト
ルのうち対象ベクトルpと近傍ベクトルkとの距離d
p,kの値が小さい上位K個のベクトルを選択することを
特徴とする。
Next, a method of selecting a neighborhood vector used for the above interpolation processing and smoothing processing according to the present invention will be described below. The selection of the neighboring vector k for the target vector p for the VFS method interpolation processing and smoothing processing is performed in the following procedure. (1) Extract the lowest node corresponding to the state to which the target vector p belongs. (2) The tree structure is traced back from the extracted lowermost layer node until the number of speaker adaptive learned vectors in a state below a certain node in a layer higher than the lowermost layer node becomes K or more. , The node above is the top node. (3) Among the vectors in the state below the top node, the upper K vectors having a smaller value of the distance d p, k between the target vector p and the neighboring vector k are selected for the interpolation processing and smoothing processing. Vector. That is, in this embodiment, the sequential state division method (S
(SS) using a tree structure formed by the state division process, a distance d between a target vector p and a neighboring vector k among vectors in a lower layer from a node in the tree structure.
It is characterized in that the upper K vectors having small values of p, k are selected.

【0018】図9は、状態j内のベクトルに対して近傍
ベクトルを選択する場合の、木構造のノードとベクトル
の選択範囲の例を示したものである。状態jが対応して
いる最下層のノードNj0から木構造のノードをNj1,N
j2,Nj3,...とさかのぼるに従って、これらのノー
ドにおいてのベクトルの選択範囲は、それぞれ、次のグ
ループが存在し、これらの選択範囲で近傍ベクトルを選
択する。 (a)ノードNj0の状態Sjを含むグループG0、
(b)ノードNj1から最下層に向う木構造に含まれる状
態Sj,Sk,Slを含むグループG1、(c)ノード
j2から最下層に向う木構造に含まれる状態Sj,S
k,Sl,Smを含むグループG2、(d)ノードNj3
から最下層に向う木構造に含まれる状態Sj,Sk,S
l,Sm,Sn,Soを含むグループG3、...。
FIG. 9 shows an example of the selection range of nodes and vectors in the tree structure when selecting a neighborhood vector for a vector in state j. From the node N j0 in the lowest layer to which the state j corresponds to the nodes N j1 and N in the tree structure.
j2 , N j3 ,. . . As we go back, the selection ranges of the vectors at these nodes have the following groups respectively, and the neighborhood vectors are selected in these selection ranges. (A) A group G0 including the state Sj of the node N j0 ,
(B) A group G1 including states Sj, Sk, and Sl included in the tree structure from the node N j1 to the bottom layer, and (c) States Sj and S included in the tree structure from the node N j2 to the bottom layer.
Group G2 including k, Sl and Sm, (d) Node N j3
States Sj, Sk, S included in the tree structure from the bottom to the bottom
The group G3, which includes l, Sm, Sn, So. . . .

【0019】逐次状態分割法(SSS)により自動生成
され、音素照合部4に接続されるHM網(図6の最も下
側のもの)11は複数の状態のネットワークとして表す
ことができる。個々の状態は、音声空間上の1つの確率
的定常信号源と見なすことができ、それぞれ以下の情報
を保有している。 (a)状態番号、(b)受理可能なコンテキストクラ
ス、(c)先行する状態および後続する状態のリスト、
(d)音声の特徴空間上に割り当てられた確率分布のパ
ラメータ、(e)自己遷移確率および後続状態への遷移
確率。 HM網11では、入力データとそのコンテキスト情報が
与えられた場合、そのコンテキストを受理することがで
きる状態を先行および後続状態リストの制約内で連結す
ることによって、入力データに対するモデルを一意に決
定することができる。このモデルは図7に示すような、
複数の状態が縦続に連結され各状態において自己ループ
を有するHMMと等価であるため、通常のHMMと同様
に、尤度計算のための前向きパスアルゴリズムやパラメ
ータ推定のためのバーム・ウエルチ(Baum−Wel
ch)のアルゴリズムをそのまま使用することができ
る。ここで、出力確率密度関数は34次元の対角共分散
行列をもつ混合ガウス分布(以下、ガウス分布とい
う。)であり、各ガウス分布は、初期話者モデル30を
用いて話者適応化制御部31によって学習される。
The HM network (the lowest one in FIG. 6) 11 which is automatically generated by the sequential state division method (SSS) and is connected to the phoneme collation unit 4 can be represented as a network of a plurality of states. Each state can be regarded as one stochastic stationary signal source in the voice space, and each holds the following information. (A) state number, (b) acceptable context class, (c) list of preceding and succeeding states,
(D) Parameters of the probability distribution assigned on the feature space of the speech, (e) self-transition probabilities and transition probabilities to subsequent states. In the HM network 11, when input data and its context information are given, a model for the input data is uniquely determined by linking states that can accept the context within the constraints of the preceding and succeeding state lists. be able to. This model is as shown in Figure 7,
Since a plurality of states are connected in cascade and each state is equivalent to an HMM having a self-loop, a forward path algorithm for likelihood calculation and a Baum-Welch (Baum- Wel
The algorithm of ch) can be used as it is. Here, the output probability density function is a mixed Gaussian distribution (hereinafter referred to as Gaussian distribution) having a 34-dimensional diagonal covariance matrix, and each Gaussian distribution is controlled by the speaker adaptation control using the initial speaker model 30. Learned by the unit 31.

【0020】一般に連続分布型HMMによるモデルに対
して少量の適応データにより話者適応を行なう場合、ガ
ウス分布の平均値の適応は他のパラメータの適応に比べ
て効果が大きいことが知られている(例えば、従来文献
1参照。)。本実施形態においては、各ガウス分布の平
均値のみの適応を行ない、分散値、状態遷移確率及び、
混合ガウス分布の重み係数の適応は行なわない。
It is generally known that when speaker adaptation is performed on a continuous distribution HMM model with a small amount of adaptation data, adaptation of the average value of the Gaussian distribution is more effective than adaptation of other parameters. (For example, refer to the conventional document 1.). In the present embodiment, only the mean value of each Gaussian distribution is adapted, the variance value, the state transition probability, and
The weighting coefficient of the Gaussian mixture distribution is not adapted.

【0021】本実施形態において、バッファメモリ3
と、HM網11と、LRテーブル13と、文脈自由文法
データベース20と、初期話者モデル30と、話者適応
用学習データ32とは、例えばハードディスクメモリな
どの記憶装置に格納される。
In the present embodiment, the buffer memory 3
The HM network 11, the LR table 13, the context-free grammar database 20, the initial speaker model 30, and the speaker adaptation learning data 32 are stored in a storage device such as a hard disk memory.

【0022】話者適応化制御部31における具体的な話
者適応化処理を、図2及び図3を参照して以下に説明す
る。この話者適応化処理では、まず、初期音素HMMで
ある初期話者モデル30を、例えば文発話テキストデー
タを含む話者適応用学習データ(以下、学習データとい
う。)32を用いて学習する。ここでは、文発話テキス
トデータに対応する音素ラベル系列に従って音素HMM
を連結して文HMMを作成し、この文HMMを上記話者
適応用学習データである文発話データを用いて学習した
後、再び音素HMMの単位に切り離すことにより、音素
HMMからなるHM網11の学習を行う。
A specific speaker adaptation process in the speaker adaptation control unit 31 will be described below with reference to FIGS. 2 and 3. In this speaker adaptation processing, first, an initial speaker model 30 which is an initial phoneme HMM is learned by using speaker adaptation learning data (hereinafter, referred to as learning data) 32 including sentence utterance text data. Here, the phoneme HMM is generated according to the phoneme label series corresponding to the sentence utterance text data.
Are connected to create a sentence HMM, the sentence HMM is learned by using the sentence utterance data that is the speaker adaptation learning data, and then the sentence HMM is separated again into units of the phoneme HMM. Learn.

【0023】すなわち、この話者適応化処理では、未知
話者の音声に含まれる音素に関して、標準話者の音素H
MMの平均値を再学習する。まず、標準話者の音素HM
Mを未知話者の音素HMMの初期話者モデルとする。そ
して、未知話者の入力音声の音素系列に対応するように
未知話者のHMMを連結し、HMMの遷移確率、出現確
率の平均と分散、及び分岐確率のうち平均のみを連結学
習する。具体的には、連結学習前後のHMMの平均ベク
トルの差分を移動ベクトルとみなし、学習されなかった
HMMの平均ベクトルの移動ベクトルを補間し平均ベク
トルを移動するものである。
That is, in this speaker adaptation processing, with respect to the phonemes included in the voice of the unknown speaker, the phoneme H of the standard speaker is obtained.
Re-learn the average value of MM. First, the phoneme HM of the standard speaker
Let M be the initial speaker model of the phoneme HMM of an unknown speaker. Then, the HMMs of the unknown speaker are connected so as to correspond to the phoneme sequence of the input voice of the unknown speaker, and only the average of the transition probability of the HMM, the average and variance of the appearance probabilities, and the branch probability is connected and learned. Specifically, the difference between the average vectors of the HMMs before and after the connected learning is regarded as the moving vector, and the moving vector of the unlearned HMM average vector is interpolated to move the average vector.

【0024】まず、ステップS1において、以下のよう
に移動ベクトルの計算を行う。初期話者モデル内の未知
話者の全音素HMMのガウス分布の平均ベクトルの組
(CI=c1 I,…,cK I),ここで、Kは全てのガウス
分布の個数である。)のうち学習されたk番目の平均ベ
クトルck I(k∈K1,K1:学習音声中に存在した音素
のHMMの平均ベクトルの番号の集合)と、話者適応用
学習データ内の標準話者のガウス分布の平均ベクトルの
組CR中で対応するck Rより、平均ベクトルの差分ベク
トルvkを計算し、これを話者空間の移動ベクトルとす
る。
First, in step S1, the movement vector is calculated as follows. A set of average vectors (C I = c 1 I , ..., C K I ) of a Gaussian distribution of all phoneme HMMs of an unknown speaker in the initial speaker model, where K is the number of all Gaussian distributions. ), The k-th average vector c k I (k ∈ K 1 , K 1 : a set of numbers of average vectors of HMMs of phonemes existing in the learning speech) and the learning data for speaker adaptation The difference vector vk of the mean vector is calculated from the corresponding c k R in the set of mean vectors CR of the Gaussian distribution of the standard speaker, and this is used as the movement vector in the speaker space.

【0025】[0025]

【数1】vk=cI k−cR k,k∈K1 ## EQU1 ## v k = c I k −c R k , k ∈ K 1

【0026】ここで、K1は各ガウス分布のうち学習デ
ータの存在したものの集合である。これを図示すると図
3のようになる。図3に示すように、適応学習前の初期
話者モデルの音響空間AS1において例えば3個のガウ
ス分布が存在する一方、適応学習後の話者モデルの音響
空間AS2において例えば3個のガウス分布が存在する
とき、適応学習前のガウス分布の平均ベクトルck Rが適
応学習後のガウス分布の平均ベクトルck Iに適応化学習
されることになる。
Here, K 1 is a set of Gaussian distributions having learning data. This is shown in FIG. As shown in FIG. 3, for example, three Gaussian distributions exist in the acoustic space AS1 of the initial speaker model before adaptive learning, while three Gaussian distributions exist in the acoustic space AS2 of the speaker model after adaptive learning. When it exists, the average vector c k R of the Gaussian distribution before adaptive learning is adaptively learned to the average vector c k I of the Gaussian distribution after adaptive learning.

【0027】次いで、図2のステップS2においては、
以下の通り、移動ベクトルの補間処理を実行する。すな
わち、未知話者の全音素HMMのガウス分布の平均ベク
トルの組CIのうち、話者適応用学習データが存在しな
かった音素に対する未学習のHMMに属するガウス分布
の平均ベクトルcn I(ここで、n∈K2であり、K2は各
ガウス分布のうち話者適応用学習データの存在しなかっ
たものの集合である。)を、学習されたk番目(k∈K
1)の移動ベクトルvkと、平均ベクトルcn Rと平均ベク
トルcn k間のファジイ級関数μn,kから求めた移動ベク
トルvnを用いてcn Iに移動する。ここで、k番目(k
∈K1)の移動ベクトルvkとは、上述のように、逐次状
態分割法(SSS)による状態分割過程の木構造を用い
て選択された移動ベクトルである。
Then, in step S2 of FIG.
The movement vector interpolation processing is executed as follows. That is, of the set C I of average vectors of Gaussian distribution of all phoneme HMM of unknown speaker, average vector c n I of Gaussian distribution belonging to unlearned HMM for phonemes for which speaker adaptation learning data did not exist. Here, n ∈ K 2 , and K 2 is a set of Gaussian distributions in which learning data for speaker adaptation did not exist.
Move to c n I by using the movement vector v k 1), the motion vector v n obtained from the fuzzy grade function mu n, k between the mean vectors c n R mean vectors c n k. Where the kth (k
The movement vector v k of εK 1 ) is the movement vector selected using the tree structure of the state division process by the sequential state division method (SSS) as described above.

【0028】[0028]

【数2】 [Equation 2]

【数3】cn I=cn R+vn## EQU3 ## c n I = c n R + vn

【数4】 (Equation 4)

【0029】ここで、dn,kは、平均ベクトルcn Rと平
均ベクトルck Rの距離を表す。上記の移動ベクトルの計
算処理と補間処理を図4を用いて説明する。図4(a)
及び(b)は、すべてのHMMに含まれるガウス分布の
合計が4個である場合について示してある。連結学習に
より平均ベクトルc1 R,c2 R,c3 Rがそれぞれ、平均ベ
クトルc1 I,c2 I,c3 Iにそれぞれ移動し、平均ベクト
ルcn Rは学習されなかった場合を示している。この場合
の平均ベクトルcn Iは、c1 R,c2 R,c3 Rと移動ベクト
ルv1,v2,v3及びファジイ級関数μn,1,μn,2,μ
n,3を用いて計算される。
Here, d n, k represents the distance between the average vector c n R and the average vector c k R. The above-described movement vector calculation processing and interpolation processing will be described with reference to FIG. Figure 4 (a)
And (b) show the case where the total number of Gaussian distributions included in all HMMs is four. The case where the average vectors c 1 R , c 2 R , and c 3 R are respectively moved to the average vectors c 1 I , c 2 I , and c 3 I by the connection learning and the average vector c n R is not learned is shown. ing. The average vector c n I in this case is c 1 R , c 2 R , c 3 R and movement vectors v 1 , v 2 , v 3 and fuzzy class functions μ n, 1 , μ n, 2 , μ.
Calculated using n, 3 .

【0030】図4の(a)に示すように、話者適応用学
習データが存在しなかった未学習のガウス分布の平均ベ
クトルcn Rの近傍に3個の平均ベクトルc1 R,c2 R,c
3 Rが存在する。そして、図4の(b)に示すように、こ
れらの移動ベクトルvn(n=1,2,3)に基づい
て、数3を用いて平均ベクトルcn Rの移動ベクトルvn
を求めて、移動ベクトルの補間処理を行い、未学習のガ
ウス分布の平均ベクトルcn Iを求めている。
As shown in FIG. 4A, three mean vectors c 1 R and c 2 are present in the vicinity of the mean vector c n R of the unlearned Gaussian distribution for which the learning data for speaker adaptation did not exist. R , c
3 R exists. Then, as shown in (b) of FIG. 4, based on these movement vectors v n (n = 1, 2, 3), the movement vector v n of the average vector c n R is calculated using Equation 3.
Then, the moving vector is interpolated to obtain the average vector c n I of the unlearned Gaussian distribution.

【0031】上述のステップで得られたモデルは、十分
な適応語数が得られていない場合に推定誤差を含んでい
る。このような推定誤差を含むものから求められた移動
ベクトルの方向は、非連続的な動きをしていると考えら
れる。そこで、話者空間を移動するための移動ベクトル
に連続性の拘束条件を入れ、移動ベクトルの方向性を揃
える、すなわち平滑化を行うことにより推定誤差の吸収
を行う。
The model obtained in the above steps contains an estimation error when a sufficient number of adaptive words are not obtained. It is considered that the direction of the movement vector obtained from the one including such an estimation error has a discontinuous movement. Therefore, a constraint condition of continuity is put in the movement vector for moving in the speaker space, and the directionality of the movement vector is made uniform, that is, smoothing is performed to absorb the estimation error.

【0032】さらに、ステップS3の平滑化処理におい
ては、平均ベクトルck Iとその近傍にあるm番目の平均
ベクトルcm Iとcm Rの差分ベクトルvmを求める。次
に、ファジイ級関数μk,mを用いて、差分ベクトルvm
平滑化処理を行い、次の数5を用いて平滑化移動ベクト
ルvk sを求める。
Further, in the smoothing process of step S3, the difference vector v m between the average vector c k I and the m-th average vectors c m I and c m R in the vicinity thereof is obtained. Next, the fuzzy class function μ k, m is used to perform the smoothing process on the difference vector v m, and the smoothing movement vector v k s is obtained using the following equation 5.

【0033】[0033]

【数5】 (Equation 5)

【0034】ここで、N(k)は平均ベクトルck Rのk
−近傍にある平均ベクトルの番号であり、αmはvmの信
頼度を与える定数であり、k=mの場合、μk,m=1と
する。ここで、平均ベクトルck Rのk−近傍にある平均
ベクトルとは、上述のように、逐次状態分割法(SS
S)による状態分割過程の木構造を用いて選択された平
均ベクトルである。
Here, N (k) is k of the average vector c k R.
-The number of the average vector in the neighborhood, α m is a constant giving the reliability of v m , and when k = m, μ k, m = 1. Here, the average vector in the k -neighborhood of the average vector c k R means the sequential state division method (SS
It is the average vector selected using the tree structure of the state division process according to S).

【0035】最後に、ステップS4においては、処理後
の移動ベクトルvk Sと平均ベクトルck Rを用いて、次の
数6に示すように、平均ベクトルck Rを初期話者モデル
の未知話者へ話者適応する。すなわち計算された移動ベ
クトルvk Sを用いて、初期話者モデル30を話者適応す
ることにより学習し、これによって、音素HMMの話者
モデルを計算してHM網11のメモリに格納する。
[0035] Finally, in step S4, by using the movement vector v k S after treatment the mean vector c k R, as shown in the following equation 6, the unknown mean vector c k R of the initial speaker model Adapt the speaker to the speaker. That is, by using the calculated movement vector v k S , the initial speaker model 30 is learned by adapting the speaker, and the speaker model of the phoneme HMM is calculated and stored in the memory of the HM network 11.

【0036】[0036]

【数6】cS k=ck R+vk S (6) c S k = c k R + v k S

【0037】ここで、cS kは、平滑化を行って得られた
話者適応後の音素HMMのガウス分布の平均ベクトルで
ある。本実施形態においては、αm=1(m∈K1)、α
m=0(m∈K2)とした。また、ファジイ級関数
μk,m:(k≠m)は、m∈K1である平均ベクトルcm
R全てを用いて求めた。
Here, c S k is the average vector of the Gaussian distribution of the speaker-adapted phoneme HMM obtained by smoothing. In the present embodiment, α m = 1 (mεK 1 ), α
It was set to m = 0 (mεK 2 ). Also, fuzzy grade function μ k, m: (k ≠ m) , the average vector c m is m∈K1
R was calculated using all.

【0038】上記の処理を図5を用いて説明する。図5
は、全てのHMMに含まれるガウス分布の合計が4個で
ある場合について示してある。ステップS3乃至S5に
よる処理により、平均ベクトルc1 R,c2 R,c3 R,ck R
がc1 I,c2 I,c3 I,ck Iにそれぞれ移動したとする。
いま、ck Iに対応する移動ベクトルvkを考える。移動
ベクトルvkは、v1,v2,v3,vkとそれぞれに対応
するファジイ級関数と各移動ベクトルに対する信頼性の
重み係数αmにより平滑化されvk Sが計算される。
The above processing will be described with reference to FIG. FIG.
Shows the case where the total number of Gaussian distributions included in all HMMs is four. The average vectors c 1 R , c 2 R , c 3 R , and c k R are processed by the processing in steps S3 to S5.
Are moved to c 1 I , c 2 I , c 3 I and c k I , respectively.
Now consider the movement vector v k corresponding to c k I. Movement vector vk is, v 1, v 2, v 3, v k and smoothed by the weight coefficient αm of reliability for fuzzy grade function and the motion vector corresponding to v k S is calculated.

【0039】次いで、上述の本実施形態の話者適応化方
法を用いた、SSS−LR(left-to-right rightmost
型)不特定話者連続音声認識装置について説明する。こ
の装置は、HM網11のメモリに格納された音素環境依
存型の効率のよいHMMの表現形式を用いている。ま
た、上記SSSにおいては、音素の特徴空間上に割り当
てられた確率的定常信号源(状態)の間の確率的な遷移
により音声パラメータの時間的な推移を表現した確率モ
デルに対して、尤度最大化の基準に基づいて個々の状態
をコンテキスト方向又は時間方向へ分割するという操作
を繰り返すことによって、モデルの精密化を逐次的に実
行する。
Next, SSS-LR (left-to-right rightmost) using the speaker adaptation method of the present embodiment described above.
(Type) An unspecified speaker continuous speech recognition device will be described. This device uses a phoneme environment-dependent efficient HMM representation format stored in the memory of the HM network 11. Further, in the above SSS, the likelihood is compared with the stochastic model in which the temporal transition of the speech parameter is expressed by the stochastic transition between the stochastic stationary signal sources (states) assigned in the phoneme feature space. The model refinement is performed sequentially by repeating the operation of dividing each state in the context direction or the time direction based on the maximization criterion.

【0040】図1において、話者適応制御部31は、話
者クラスモデルを含む初期話者モデル30を、例えば文
発話テキストデータである話者適応用学習データ32を
用いて図2に示す話者適応化処理により移動ベクトルを
計算し、計算した移動ベクトルを用いて適応化学習して
HMMの不特定話者音素モデルに変換してHM網11の
メモリに格納する。一方、話者の発声音声はマイクロホ
ン1に入力されて音声信号に変換された後、特徴抽出部
2に入力される。特徴抽出部2は、入力された音声信号
をA/D変換した後、例えばLPC分析を実行し、対数
パワー、16次ケプストラム係数、Δ対数パワー及び1
6次Δケプストラム係数を含む34次元の特徴パラメー
タを抽出する。抽出された特徴パラメータの時系列はバ
ッファメモリ3を介して音素照合部4に入力される。
In FIG. 1, the speaker adaptation control unit 31 uses an initial speaker model 30 including a speaker class model as shown in FIG. 2 by using speaker adaptation learning data 32 which is, for example, sentence utterance text data. The moving vector is calculated by the person adaptation process, and adaptive learning is performed using the calculated moving vector to convert it into an unspecified speaker phoneme model of the HMM and store it in the memory of the HM network 11. On the other hand, the uttered voice of the speaker is input to the microphone 1 and converted into a voice signal, and then input to the feature extraction unit 2. The feature extracting unit 2 performs, for example, LPC analysis after A / D conversion of the input voice signal, and performs logarithmic power, 16th-order cepstrum coefficient, Δlogarithmic power, and 1
A 34-dimensional feature parameter including a 6th-order Δ cepstrum coefficient is extracted. The time series of the extracted characteristic parameters is input to the phoneme matching unit 4 via the buffer memory 3.

【0041】音素照合部4は、音素コンテキスト依存型
LRパーザ5からの音素照合要求に応じて音素照合処理
を実行する。そして、HM網11のメモリに格納された
音素HMMの話者モデルを用いて音素照合区間内のデー
タに対する尤度が計算され、この尤度の値が音素照合ス
コアとしてLRパーザ5に返される。このとき、前向き
パスアルゴリズムを使用する。
The phoneme matching unit 4 executes a phoneme matching process in response to a phoneme matching request from the phoneme context dependent LR parser 5. Then, the likelihood of the data in the phoneme matching section is calculated using the speaker model of the phoneme HMM stored in the memory of the HM network 11, and the value of this likelihood is returned to the LR parser 5 as the phoneme matching score. At this time, the forward pass algorithm is used.

【0042】一方、文脈自由文法データベース20内の
所定の文脈自由文法(CFG)を公知の通り自動的に変
換してLRテーブルを作成してLRテーブル13のメモ
リに格納される。LRパーザ5は、上記LRテーブル1
3を参照して、入力された音素予測データについて左か
ら右方向に、後戻りなしに処理する。構文的にあいまい
さがある場合は、スタックを分割してすべての候補の解
析が平行して処理される。LRパーザ5は、上記LRテ
ーブル13から次にくる音素を予測して音素予測データ
を音素照合部4に出力する。これに応答して、音素照合
部4は、その音素に対応するHM網11内の情報を参照
して照合し、その尤度を音声認識スコアとしてLRパー
ザ5に戻し、順次音素を連接していくことにより、連続
音声の認識を行う。上記連続音声の認識において、複数
の音素が予測された場合は、これらすべての存在をチェ
ックし、ビームサーチの方法により、部分的な音声認識
の尤度の高い部分木を残すという枝刈りを行って高速処
理を実現する。
On the other hand, a predetermined context-free grammar (CFG) in the context-free grammar database 20 is automatically converted, as is known, to create an LR table and stored in the memory of the LR table 13. The LR parser 5 is the LR table 1 described above.
3, the input phoneme prediction data is processed from left to right without backtracking. In the case of syntactic ambiguity, the stack is split and parsing of all candidates is processed in parallel. The LR parser 5 predicts the next phoneme from the LR table 13 and outputs the phoneme prediction data to the phoneme matching unit 4. In response to this, the phoneme collation unit 4 collates by referring to the information in the HM network 11 corresponding to the phoneme, returns the likelihood to the LR parser 5 as a speech recognition score, and sequentially connects the phonemes. By going through, recognition of continuous voice is performed. When a plurality of phonemes are predicted in the continuous speech recognition, the existence of all of them is checked, and a pruning is performed by using a beam search method to leave a partial tree having a high likelihood of partial speech recognition. To achieve high-speed processing.

【0043】以上の実施形態において、各移動ベクトル
に対する信頼性の重み係数αmを用いているが、本発明
はこれに限らず、この重み係数αmを重み係数λa,bとし
て以下に詳述するように制御してもよい。本実施形態に
おいて、近傍数Kは6とし、重み係数λa,bは次の数7
によって計算されるガウス窓を用いることができる。
In the above embodiment, the reliability weighting coefficient α m for each movement vector is used, but the present invention is not limited to this, and the weighting coefficient α m will be described in detail below as the weighting coefficient λ a, b. It may be controlled to do so. In the present embodiment, the number of neighbors K is 6, and the weighting factor λ a, b is
A Gaussian window calculated by can be used.

【0044】[0044]

【数7】λa,b=exp(−da,b/fp)[Formula 7] λ a, b = exp (-d a, b / fp)

【0045】ここで、da,bは平均ベクトルca Iと平均
ベクトルcb Iとの間の距離であり、fpは予め決められ
る正の数の重み制御パラメータであり平滑化の強度を示
す平滑化係数であり、次の数8で表される。
Here, d a, b is the distance between the average vector c a I and the average vector c b I , and fp is a predetermined positive number of weight control parameters, which indicates the strength of smoothing. It is a smoothing coefficient and is expressed by the following equation 8.

【0046】[0046]

【数8】fp=(f・α)/(np+α)[Expression 8] fp = (f · α) / (n p + α)

【0047】ここで、fは全てのパラメータに対して共
通に与えられる平滑化係数fpの所定の初期値であり、
pはp番めのガウス分布の適応用学習データのデータ
量を表している。
Here, f is a predetermined initial value of the smoothing coefficient fp commonly given to all parameters,
n p represents the data amount of the p-th Gaussian distribution learning data for adaptation.

【0048】すなわち、本実施形態においては、平滑化
係数fpの制御においては適応用学習データの内容によ
って各パラメータに対する適応用学習データのデータ量
に偏りがあることを考慮し、また状態数や混合数等のモ
デルの構造に依存しない基準で制御を行なうために、各
パラメータすなわち、ガウス分布の平均値毎に独立に行
う。上記数8の式を用いることにより、各パラメータに
対する平滑化の強さは適応用学習データ量の増加に従っ
て弱められていき、データ量npが無限大となるとき、
平滑化を行なわない場合と同様の状態に収束することが
わかる。また、このときの収束の速さは係数αによって
決定されるが、本実施形態においては、係数αは実験的
に求めた値を使用した。
That is, in the present embodiment, in controlling the smoothing coefficient fp, it is considered that the data amount of the adaptive learning data for each parameter is biased depending on the content of the adaptive learning data, and the number of states and the mixture are mixed. In order to perform control on the basis that does not depend on the structure of the model such as the number, each parameter, that is, the average value of the Gaussian distribution is independently controlled. By using the equation (8), the smoothing strength for each parameter is weakened as the adaptive learning data amount increases, and when the data amount n p becomes infinite,
It can be seen that the state converges to the same state as when smoothing is not performed. Further, the convergence speed at this time is determined by the coefficient α, but in the present embodiment, the coefficient α uses a value obtained experimentally.

【0049】最後に、ステップS4において、ステップ
S2又はS3で処理されて計算された移動ベクトルを用
いて、メモリ30に格納された初期話者モデルを話者適
応することにより学習し、これによって、HM網の話者
モデルを計算してHM網11のメモリに格納する。
Finally, in step S4, the movement vector calculated and processed in step S2 or S3 is used to learn by speaker adaptation of the initial speaker model stored in the memory 30, whereby The speaker model of the HM network is calculated and stored in the memory of the HM network 11.

【0050】本実施形態においては、数8で表される平
滑化係数fpを用いているが、本発明はこれに限らず、
少なくとも、ガウス分布の話者適応用学習データのデー
タ量の増加に対して平滑化の強度が小さくなるように予
め決定された平滑化の強度を示す平滑化係数fpを用い
ればよい。例えば、この平滑化係数fpに代えて次の数
9乃至数12に示す平滑化係数fp1乃至fp4を用い
てもよい。
In the present embodiment, the smoothing coefficient fp represented by the equation 8 is used, but the present invention is not limited to this, and
At least, the smoothing coefficient fp indicating the smoothing strength determined in advance so that the smoothing strength becomes smaller with the increase in the data amount of the speaker adaptation learning data having the Gaussian distribution may be used. For example, the smoothing coefficients fp1 to fp4 shown in the following Expressions 9 to 12 may be used instead of the smoothing coefficient fp.

【0051】[0051]

【数9】 fp1=f{1−(ni/α)},ni<αのとき fp1=0,ni≧αのときEquation 9] fp1 = f {1- (n i / α)}, when fp1 = 0, n i ≧ α when n i <alpha

【数10】 fp2=f{1−(ni/α)}2,ni<αのとき fp2=0,ni≧αのときEquation 10] fp2 = f {1- (n i / α)} 2, n i < When alpha fp2 = 0, when n i ≧ alpha of

【数11】fp3=f・exp(−ni/α)[Mathematical formula-see original document] fp3 = f * exp (-n i / α)

【数12】fp4=f・exp(−ni/α)2 Mathematical Expression 12 fp4 = f · exp (−n i / α) 2

【0052】以上の実施形態において、話者適応化制御
部31と、音素照合部4と、LRパーザ5とは、例えば
デジタル電子計算機によって構成される。以上の実施形
態においては、音素HMMがネットワークで表されたH
M網11を用いているが、本発明はこれに限らず、HM
網11に代えて音素HMMを用いてもよい。
In the above embodiment, the speaker adaptation control unit 31, the phoneme matching unit 4, and the LR parser 5 are constituted by, for example, a digital electronic computer. In the above embodiment, the phoneme HMM is a H represented by a network.
Although the M network 11 is used, the present invention is not limited to this, and the HM
A phoneme HMM may be used instead of the network 11.

【0053】[0053]

【実施例】本発明者は、本実施形態の音声認識装置の評
価を行うために、以下のように実験を行った。この実験
には200状態のHM網を使用した。話者適応前の初期
状態の初期話者モデルとしては、不特定話者モデル(小
坂ほか,“クラスタリング手法を用いた不特定話者モデ
ル作成法”,日本音響学会論文集,1−R−12,19
94年11月参照。)(285人分の不特定話者モデル
から合成することによって作成したモデル)を使用し、
各状態の混合数は5とした。また、従来例のVFS方式
を行なう場合に用いる近傍ベクトル数は6とした。分析
条件、使用パラメータ、適応データ/認識データを表1
に示す。実験では各適応文節数に対して選択文節を変え
た評価をそれぞれ3回繰り返し、平均の音素認識率を求
めた。
EXAMPLE The present inventor conducted the following experiment in order to evaluate the speech recognition apparatus of this embodiment. A 200-state HM network was used for this experiment. As an initial speaker model in an initial state before speaker adaptation, an unspecified speaker model (Kosaka et al., “Method for creating unspecified speaker model using clustering method”, Acoustical Society of Japan, 1-R-12 , 19
See November 1994. ) (A model created by synthesizing from 285 unspecified speaker models),
The number of mixtures in each state was 5. Further, the number of neighboring vectors used when performing the VFS method of the conventional example is set to 6. Table 1 shows analysis conditions, parameters used, and adaptive / recognition data.
Shown in In the experiment, the evaluation with different selection phrases was repeated three times for each number of adaptive phrases, and the average phoneme recognition rate was obtained.

【0054】[0054]

【表1】 実験条件 ─────────────────────────────────── 分析条件 サンプリング周波数=12KHz ハミング窓=20ms フレーム周期=5ms ─────────────────────────────────── 使用パラメータ 16次LPCケプストラム+16次Δケプストラム +対数パワー+Δ対数パワー ─────────────────────────────────── 学習データ 男性146名+女性139名(各話者50文章) ─────────────────────────────────── 適応/認識データ ─────────────────────────────────── (a)話者 男性4名(MAU,MMY,MSH,MTM) (b)適応データ 598文節(本特許出願人が所有のSB1,SB2, SB4タスク)から ランダムに取り出したn個の文節 (c)認識データ 279文節(本特許出願人が所有のSB3タスク) ───────────────────────────────────[Table 1] Experimental conditions ─────────────────────────────────── Analysis conditions Sampling frequency = 12 KHz Hamming window = 20 ms frame period = 5 ms ─────────────────────────────────── Working parameter 16th LPC cepstrum + 16th Δ cepstrum + Logarithmic power + Δ logarithmic power ─────────────────────────────────── Learning data 146 men + 139 women (50 sentences for each speaker) ─────────────────────────────────── Adaptation / recognition data ──── ──────────────────────────────── (a) Four speakers (MAU, MMY, MSH, MTM) ( ) Adaptive data n clauses randomly picked from 598 clauses (SB1, SB2, SB4 task owned by the applicant of the present patent) (c) Recognition data 279 clauses (SB3 task owned by the applicant of the present patent) ─── ────────────────────────────────

【0055】男性4名で音素認識実験を行なった結果を
表2に示す。比較として距離dp,kによって移動ベクト
ルの補間処理及び平滑化処理に用いる近傍ベクトルの選
択を行う従来例のVFS方式の結果も示す。
Table 2 shows the results of the phoneme recognition experiment conducted by four men. For comparison, the result of the conventional VFS method in which the neighborhood vector used for the interpolation process and the smoothing process of the moving vector is selected by the distance d p, k is also shown.

【0056】[0056]

【表2】 話者適応結果−音素認識誤り率(%) 上段:従来例のVFS方式 下段:本実施形態の方法 ─────────────────────────────────── 適応文節数 話者名 適応前 10 20 30 40 50 ─────────────────────────────────── MAU 19.1 17.4 14.8 13.4 12.7 11.9 17.3 14.2 13.3 12.7 12.1 ─────────────────────────────────── MMY 20.8 17.5 16.1 15.3 14.5 14.3 18.6 16.3 15.1 14.4 14.0 ─────────────────────────────────── MSH 26.9 19.4 17.5 17.2 16.8 16.5 20.2 17.8 16.8 15.9 15.6 ─────────────────────────────────── MTM 18.7 14.2 12.2 10.8 10.7 10.5 15.1 12.1 10.6 9.8 10.1 ─────────────────────────────────── 平均値 21.4 17.1 15.2 14.2 13.6 13.3 17.8 15.1 13.9 13.2 13.0 ───────────────────────────────────[Table 2] Speaker adaptation result-phoneme recognition error rate (%) Upper row: VFS method of conventional example Lower row: method of this embodiment ──────────────────── ─────────────── Number of adaptive phrases Speaker name Before adaptation 10 20 30 40 50 ─────────────────────── ───────────── MAU 19.1 17.4 14.8 13.4 12.7 11.9 17.3 14.2 13.3 12.7 12.1 ───────────────────────── ────────── MMY 20.8 17.5 16.1 15.3 14.5 14.3 18.6 16.3 15.1 14.4 14.0 ──────────────────────────── ─────── MSH 26.9 19.4 17.5 17.2 16.8 16.5 20.2 17.8 16.8 15.9 15.6 ──────────────────────────────── ──── MTM 18.7 14.2 12.2 10.8 10.7 10.5 15.1 12.1 10.6 9.8 10.1 ─ ───────────────────────────────── Average 21.4 17.1 15.2 14.2 13.6 13.3 17.8 15.1 13.9 13.2 13.0 ──── ───────────────────────────────

【0057】表2から明らかなように、適応文節数が少
ない場合には、従来例のVFS方式の方が逐次状態分割
法(SSS)による状態分割過程の木構造を用いた本発
明に係る本実施形態の方式よりも高い認識率を示してい
る(適応文節数が、10の場合参照。)。しかしなが
ら、適応文節数が多い場合には、本発明に係る本実施形
態の方式が若干ではあるが高い認識率を示している(適
応文節数が、20,30,40,50の場合参照。)。
適応文節数が少ない場合において、本発明に係る本実施
形態の方式の認識率が劣っている原因としては、適応学
習されたベクトル数が少ないために、木構造を上位層の
ノードまでさかのぼってしまい、音素環境の類似度が低
いベクトルを選択していることが考えられる。適応文節
数が多い場合には、逐次状態分割法(SSS)による状
態分割過程の木構造の下層のノード以下の状態内におい
てベクトルの選択が行なわれており、従来例のVFS方
式より高い認識率を示している。従って、本発明に係る
逐次状態分割法(SSS)の状態分割過程の木構造の下
層部分のノード以下に属する状態内のベクトルを用いて
移動ベクトルの補間処理及び平滑化処理を行なうこと
は、音素環境が考慮されたものとなり、ベクトル間の距
離の選択よりも有効であることが分かる。
As is clear from Table 2, when the number of adaptive clauses is small, the conventional VFS method uses the tree structure of the state division process by the sequential state division method (SSS) according to the present invention. The recognition rate is higher than that of the method of the embodiment (see the case where the number of adaptive clauses is 10). However, when the number of adaptive phrases is large, the method of the present embodiment according to the present invention shows a small but high recognition rate (see when the number of adaptive phrases is 20, 30, 40, 50). .
When the number of adaptive clauses is small, the reason why the recognition rate of the method of the present embodiment according to the present invention is inferior is that since the number of adaptively learned vectors is small, the tree structure is traced back to the upper layer node. It is conceivable that a vector with a low phoneme environment similarity is selected. When the number of adaptive clauses is large, vectors are selected within the state below the node in the tree structure of the state division process by the sequential state division method (SSS), and the recognition rate is higher than that of the conventional VFS method. Is shown. Therefore, it is not necessary to perform movement vector interpolation processing and smoothing processing using vectors in states belonging to nodes under the tree structure in the lower layer of the state division process of the sequential state division method (SSS) according to the present invention. It turns out that the environment is taken into consideration and is more effective than the selection of the distance between the vectors.

【0058】以上の実験においては、従来例のVFS方
式の平滑化係数を制御することは行なっていないが、上
述の実施形態の最後に示した変形例に示すように、音素
環境の類似度によって平滑化係数制御を行なうことによ
り、音声認識率をさらに向上させることができると考え
られる。
In the above experiment, the smoothing coefficient of the VFS method of the conventional example is not controlled, but as shown in the modified example at the end of the above-mentioned embodiment, it depends on the similarity of the phoneme environment. It is considered that the voice recognition rate can be further improved by performing the smoothing coefficient control.

【0059】以上説明したように、従来例のVFS方式
の補間処理及び平滑化処理を行なう際に用いる近傍ベク
トルを、逐次状態分割法(SSS)の状態分割過程によ
って構成した木構造を用いて選択するようにしたので、
上記補間処理及び平滑化処理において、音素環境の類似
性を取り入れられた処理となり、従来例に比較して移動
ベクトルの推定精度を改善することができ、音声認識率
を向上することができる。
As described above, the neighborhood vector used when performing the interpolation process and the smoothing process of the conventional VFS method is selected by using the tree structure formed by the state division process of the sequential state division method (SSS). I decided to do so,
In the above-described interpolation processing and smoothing processing, the similarity of the phoneme environment is taken into account, the accuracy of estimating the motion vector can be improved, and the speech recognition rate can be improved, as compared with the conventional example.

【0060】[0060]

【発明の効果】以上詳述したように本発明に係る請求項
1記載の話者適応化装置によれば、話者適応前後の隠れ
マルコフモデルの特徴ベクトルの関係を示す移動ベクト
ルを用いて、話者適応用学習データに基づいて初期話者
モデルを話者適応して学習することにより音声認識のた
めの隠れマルコフモデルの話者モデルを計算するための
話者適応化装置において、上記話者適応用学習データが
存在して話者適応用学習データに基づいて話者適応され
た後の隠れマルコフモデルの第1の特徴ベクトルを、当
該第1の特徴ベクトルと、その近傍にある話者適応され
た後の隠れマルコフモデルの複数の第2の特徴ベクトル
とを用いて平滑化処理を実行する平滑化手段と、上記話
者適応化用学習データが存在せず上記平滑化手段によっ
て計算されなかった話者適応後の隠れマルコフモデルの
ガウス分布の平均ベクトルを、当該平均ベクトルに対応
する話者適応前の隠れマルコフモデルのガウス分布の平
均ベクトルの近傍にある上記話者適応用学習データが存
在して上記平滑化手段によって計算された話者適応後の
隠れマルコフモデルのガウス分布の平均ベクトルの移動
ベクトルを用いて補間する補間手段とを備え、上記平滑
化手段と上記補間手段は、逐次状態分割法による状態分
割過程の木構造を用いて、当該木構造内のあるノードか
らより下層内のベクトルのうち処理すべき対象ベクトル
と近傍ベクトルとの距離の値が小さい所定の上位複数個
のベクトルを選択する選択手段を備える。従って、上記
補間処理及び平滑化処理において、音素環境の類似性を
取り入れられた処理となり、従来例に比較して移動ベク
トルの推定精度を改善することができ、音声認識率を向
上することができる。
As described above in detail, according to the speaker adaptation apparatus of claim 1 of the present invention, the movement vector indicating the relationship between the feature vectors of the hidden Markov model before and after the speaker adaptation is used, A speaker adaptation apparatus for calculating a speaker model of a hidden Markov model for speech recognition by learning by speaker adaptation of an initial speaker model based on learning data for speaker adaptation, wherein the speaker The first feature vector of the hidden Markov model after the adaptation learning data is present and is speaker-adapted based on the speaker adaptation learning data is the first feature vector and the speaker adaptation in the vicinity thereof. Smoothing means for performing a smoothing process using the plurality of second feature vectors of the hidden Markov model after being processed, and the speaker adaptation learning data does not exist and is not calculated by the smoothing means. The mean vector of the Gaussian distribution of the hidden Markov model after speaker adaptation, the learning data for speaker adaptation that exists near the mean vector of the Gaussian distribution of the hidden Markov model before speaker adaptation that corresponds to the mean vector exists. And interpolating means for interpolating using a moving vector of the average vector of the Gaussian distribution of the Hidden Markov Model after speaker adaptation calculated by the smoothing means. By using the tree structure of the state division process by the method, a plurality of predetermined upper vectors with a small distance value between the target vector to be processed and the neighboring vector among the vectors in the lower layer from a node in the tree structure A selection means for selecting is provided. Therefore, in the above-mentioned interpolation processing and smoothing processing, the processing takes into account the similarity of the phoneme environment, the estimation accuracy of the movement vector can be improved compared to the conventional example, and the speech recognition rate can be improved. .

【0061】また、上記話者適応化装置において、上記
選択手段は、上記対象ベクトルが属する状態が対応する
最下層のノードを抽出し、上記抽出された最下層のノー
ドから、当該最下層のノードよりも高い層に有るあるノ
ード以下の状態内の話者適応学習済みベクトル数が上記
所定の複数個以上になるまで上記木構造をさかのぼり、
上記あるノードを最上位ノードとし、上記最上位ノード
以下の状態内のベクトルにおいて、上記対象ベクトルと
近傍ベクトルとの距離の値が小さい所定の上位複数個の
ベクトルを上記補間処理及び平滑化処理のための選択ベ
クトルとして選択する。これにより、上記補間処理及び
平滑化処理において、音素環境の類似性を取り入れられ
た処理となり、従来例に比較して移動ベクトルの推定精
度を改善することができ、音声認識率を向上することが
できる。
In the speaker adaptation device, the selecting means extracts a node in the lowest layer to which the state to which the target vector belongs corresponds, and the node in the lowest layer is extracted from the extracted nodes in the lowest layer. The tree structure is traced back until the number of speaker adaptive learned vectors in a state below a certain node in a higher layer becomes equal to or more than the predetermined plurality.
In the vector in the state below the top node, the certain node is set as the top node, and a plurality of predetermined upper vectors having a small value of the distance between the target vector and the neighboring vector are set in the interpolation process and the smoothing process. As a selection vector for As a result, in the above-mentioned interpolation processing and smoothing processing, the similarity of the phoneme environment is introduced, the estimation accuracy of the moving vector can be improved compared to the conventional example, and the speech recognition rate can be improved. it can.

【0062】さらに、上記話者適応化装置において、上
記平滑化手段は、上記話者適応用学習データが存在して
上記平滑化手段によって計算された話者適応後の隠れマ
ルコフモデルのガウス分布の平均ベクトルを、当該平均
ベクトルと、その近傍にある上記話者適応用学習データ
が存在して上記平滑化手段によって計算された話者適応
後の隠れマルコフモデルのガウス分布の平均ベクトルの
移動ベクトルとを用いてかつ移動ベクトルの連続性の拘
束条件に基づいて、上記ガウス分布の話者適応用学習デ
ータのデータ量の増加に対して平滑化の強度が小さくな
るように予め決定された平滑化の強度を示す平滑化係数
を用いて平滑化する。従って、当該学習データが少ない
移動ベクトルに対しては平滑化により推定誤差を効果的
に吸収し、多くの学習データにより学習された推定誤差
の少ないパラメータに対しては平滑化を弱くすることに
より、性能が低下するのを防止することができる。これ
により、広い範囲の適応用学習データのデータ量に対し
て常に良い適応性能を得ることができる。また、各移動
ベクトル毎に個別に平滑化の強さを制御するために、適
応用学習データに含まれる音素にかたよりがある場合に
も、そのかたよりを考慮した平滑化の制御を行うことが
できる。従って、上記計算されかつ平滑化された移動ベ
クトルを用いて話者適応された話者モデルを用いて音声
認識することにより、従来例に比較して、しかも、請求
項1又は2記載の装置に比較して高い音声認識率を得る
ことができる。
Further, in the speaker adaptation device, the smoothing means calculates the Gaussian distribution of the Hidden Markov Model after speaker adaptation calculated by the smoothing means in the presence of the speaker adaptation learning data. An average vector is the average vector and a moving vector of the average vector of the Gaussian distribution of the hidden Markov model after speaker adaptation, which is calculated by the smoothing means with the speaker adaptation learning data existing in the vicinity thereof. Based on the constraint condition of the continuity of the movement vector, the smoothing strength determined in advance so that the strength of the smoothing becomes smaller as the data amount of the speaker adaptation learning data of the Gaussian distribution increases. Smoothing is performed using a smoothing coefficient indicating strength. Therefore, by effectively smoothing the estimation error by smoothing for the movement vector with a small amount of the learning data, and weakening the smoothing for the parameter with a small estimation error learned by a large amount of learning data, It is possible to prevent the performance from decreasing. As a result, it is possible to always obtain good adaptation performance for a large amount of adaptation learning data. Also, in order to control the smoothing strength individually for each movement vector, even if there is a bias in the phonemes included in the learning data for adaptation, smoothing control that considers that bias should be performed. You can Therefore, by performing voice recognition using the speaker model adapted to the speaker using the calculated and smoothed movement vector, the apparatus according to claim 1 or 2 is compared with the conventional example. By comparison, a high voice recognition rate can be obtained.

【0063】さらに、本発明に係る請求項4記載の音声
認識装置によれば、上記話者適応化装置と、入力された
発声音声文の音声信号に基づいて、上記話者適応化装置
によって話者適応された隠れマルコフモデルの話者モデ
ルを用いて音声認識して音声認識結果を出力する音声認
識手段とを備える。従って、従来例に比較して高い音声
認識率を得ることができる。
Further, according to the speech recognition apparatus of the fourth aspect of the present invention, the speaker adaptation apparatus and the speaker adaptation apparatus speaks based on the inputted voice signal of the uttered voice sentence. And a voice recognition unit that outputs voice recognition results by performing voice recognition using a speaker model of a hidden Markov model that is personally adapted. Therefore, a higher voice recognition rate can be obtained as compared with the conventional example.

【図面の簡単な説明】[Brief description of drawings]

【図1】 本発明に係る一実施形態である音声認識装置
のブロック図である。
FIG. 1 is a block diagram of a voice recognition device according to an embodiment of the present invention.

【図2】 図1の話者適応制御部31によって実行され
る話者適応化処理を示すフローチャートである。
FIG. 2 is a flowchart showing a speaker adaptation process executed by a speaker adaptation control unit 31 of FIG.

【図3】 移動ベクトルを用いて図2の話者適応化処理
を実行する場合における、適応学習前の初期話者モデル
の音響空間AS1から適応学習後の話者モデルの音響空
間AS2への変換を示す概念図である。
FIG. 3 is a diagram illustrating conversion of an acoustic space AS1 of an initial speaker model before adaptive learning into an acoustic space AS2 of a speaker model after adaptive learning when the speaker adaptation process of FIG. 2 is executed using a movement vector. It is a conceptual diagram which shows.

【図4】 (a)は、図2のステップS1で実行される
移動ベクトルの計算処理を示す概念図であり、(b)
は、図2のステップS2で実行される移動ベクトルの補
間処理を示す概念図である。
4 (a) is a conceptual diagram showing a movement vector calculation process executed in step S1 of FIG. 2, and FIG.
FIG. 3 is a conceptual diagram showing a movement vector interpolation process executed in step S2 of FIG.

【図5】 図2のステップS3で実行される移動ベクト
ルの平滑化処理を示す概念図である。
FIG. 5 is a conceptual diagram showing a movement vector smoothing process executed in step S3 of FIG.

【図6】 図1の話者適応制御部31によって実行され
る逐次状態分割法(SSS)の原理を示す図である。
6 is a diagram showing the principle of the sequential state division method (SSS) executed by the speaker adaptive control unit 31 of FIG.

【図7】 図1の音声認識装置において用いるHM網の
個々のモデル構造を示す状態遷移図である。
7 is a state transition diagram showing an individual model structure of an HM network used in the speech recognition apparatus of FIG.

【図8】 図1の話者適応制御部31によって実行され
る逐次状態分割法(SSS)による状態分割過程の木構
造を示す概念図である。
8 is a conceptual diagram showing a tree structure of a state division process by a sequential state division method (SSS) executed by the speaker adaptive control unit 31 of FIG.

【図9】 図1の話者適応制御部31における処理にお
いて選択される近傍ベクトルの選択範囲を示す概念図で
ある。
9 is a conceptual diagram showing a selection range of neighboring vectors selected in the processing in the speaker adaptive control unit 31 of FIG.

【符号の説明】[Explanation of symbols]

1…マイクロホン、 2…特徴抽出部、 3…バッファメモリ、 4…音素照合部、 5…LRパーザ、 11…隠れマルコフ網(HM網)、 13…LRテーブル、 20…文脈自由文法データベース、 30…初期話者モデル、 31…話者適応化制御部、 32…話者適応用学習データ、 S1…移動ベクトルの計算処理、 S2…移動ベクトルの補間処理、 S3…移動ベクトルの平滑化処理、 S4…処理後の移動ベクトルを用いて話者適応化する処
理。
DESCRIPTION OF SYMBOLS 1 ... Microphone, 2 ... Feature extraction part, 3 ... Buffer memory, 4 ... Phoneme matching part, 5 ... LR parser, 11 ... Hidden Markov network (HM network), 13 ... LR table, 20 ... Context-free grammar database, 30 ... Initial speaker model, 31 ... Speaker adaptation control unit, 32 ... Learning data for speaker adaptation, S1 ... Movement vector calculation processing, S2 ... Movement vector interpolation processing, S3 ... Movement vector smoothing processing, S4 ... The process of speaker adaptation using the processed motion vector.

───────────────────────────────────────────────────── フロントページの続き (72)発明者 外村 政啓 京都府相楽郡精華町大字乾谷小字三平谷5 番地 株式会社エイ・ティ・アール音声翻 訳通信研究所内 (72)発明者 松永 昭一 京都府相楽郡精華町大字乾谷小字三平谷5 番地 株式会社エイ・ティ・アール音声翻 訳通信研究所内 ─────────────────────────────────────────────────── ─── Continuation of the front page (72) Masahiro Tonomura Inoue Masahiro, Soka-cho, Kyoto Prefecture No. 5 Mihiradani, Osamu Osamu, Kyoto, Japan (72) Inventor Shoichi Matsunaga Kyoto 5 Seiraya-cho, Seiji-cho, Seika-cho, Oita Prefecture San-tani Valley, Inc.

Claims (4)

【特許請求の範囲】[Claims] 【請求項1】 話者適応前後の隠れマルコフモデルの特
徴ベクトルの関係を示す移動ベクトルを用いて、話者適
応用学習データに基づいて初期話者モデルを話者適応し
て学習することにより音声認識のための隠れマルコフモ
デルの話者モデルを計算するための話者適応化装置にお
いて、 上記話者適応用学習データが存在して話者適応用学習デ
ータに基づいて話者適応された後の隠れマルコフモデル
の第1の特徴ベクトルを、当該第1の特徴ベクトルと、
その近傍にある話者適応された後の隠れマルコフモデル
の複数の第2の特徴ベクトルとを用いて平滑化処理を実
行する平滑化手段と、 上記話者適応化用学習データが存在せず上記平滑化手段
によって計算されなかった話者適応後の隠れマルコフモ
デルのガウス分布の平均ベクトルを、当該平均ベクトル
に対応する話者適応前の隠れマルコフモデルのガウス分
布の平均ベクトルの近傍にある上記話者適応用学習デー
タが存在して上記平滑化手段によって計算された話者適
応後の隠れマルコフモデルのガウス分布の平均ベクトル
の移動ベクトルを用いて補間する補間手段とを備え、 上記平滑化手段と上記補間手段は、逐次状態分割法によ
る状態分割過程の木構造を用いて、当該木構造内のある
ノードからより下層内のベクトルのうち処理すべき対象
ベクトルと近傍ベクトルとの距離の値が小さい所定の上
位複数個のベクトルを選択する選択手段を備えたことを
特徴とする話者適応化装置。
1. A voice is obtained by speaker-adaptive learning of an initial speaker model based on speaker adaptation learning data using a movement vector indicating a relationship between feature vectors of a hidden Markov model before and after speaker adaptation. In the speaker adaptation device for calculating the speaker model of the hidden Markov model for recognition, after the speaker adaptation learning data exists and the speaker adaptation is performed based on the speaker adaptation learning data, The first feature vector of the hidden Markov model is the first feature vector,
Smoothing means for performing a smoothing process using a plurality of second feature vectors of the Hidden Markov Model after speaker adaptation in the vicinity thereof, and the learning data for speaker adaptation does not exist, and The average vector of the Gaussian distribution of the hidden Markov model after speaker adaptation that has not been calculated by the smoothing means is in the vicinity of the average vector of the Gaussian distribution of the hidden Markov model before speaker adaptation that corresponds to the average vector. Person learning data exists and interpolation means for interpolating using the moving vector of the average vector of the Gaussian distribution of the hidden Markov model after speaker adaptation calculated by the smoothing means is provided, and the smoothing means The interpolating means uses a tree structure of a state division process by the sequential state division method to process a vector in a lower layer from a node in the tree structure. Speaker adaptation apparatus characterized by comprising a selection means for selecting the upper plurality of vectors predetermined value is less of the distance between the elephant vector and neighboring vectors.
【請求項2】 上記選択手段は、上記対象ベクトルが属
する状態が対応する最下層のノードを抽出し、上記抽出
された最下層のノードから、当該最下層のノードよりも
高い層に有るあるノード以下の状態内の話者適応学習済
みベクトル数が上記所定の複数個以上になるまで上記木
構造をさかのぼり、上記あるノードを最上位ノードと
し、上記最上位ノード以下の状態内のベクトルにおい
て、上記対象ベクトルと近傍ベクトルとの距離の値が小
さい所定の上位複数個のベクトルを上記補間処理及び平
滑化処理のための選択ベクトルとして選択することを特
徴とする請求項1記載の話者適応化装置。
2. The selecting means extracts a node in the lowest layer to which the state to which the target vector belongs corresponds, and a node in a layer higher than the node in the lowest layer from the extracted node in the lowest layer. The tree structure is traced back until the number of speaker adaptive learned vectors in the following states is equal to or more than the predetermined number, the certain node is set as the top node, and the vector in the state below the top node is 2. The speaker adaptation apparatus according to claim 1, wherein a plurality of predetermined upper vectors having a small distance value between the target vector and the neighborhood vector are selected as selection vectors for the interpolation processing and the smoothing processing. .
【請求項3】 上記平滑化手段は、上記話者適応用学習
データが存在して上記平滑化手段によって計算された話
者適応後の隠れマルコフモデルのガウス分布の平均ベク
トルを、当該平均ベクトルと、その近傍にある上記話者
適応用学習データが存在して上記平滑化手段によって計
算された話者適応後の隠れマルコフモデルのガウス分布
の平均ベクトルの移動ベクトルとを用いてかつ移動ベク
トルの連続性の拘束条件に基づいて、上記ガウス分布の
話者適応用学習データのデータ量の増加に対して平滑化
の強度が小さくなるように予め決定された平滑化の強度
を示す平滑化係数を用いて平滑化することを特徴とする
請求項1又は2記載の話者適応化装置。
3. The smoothing means sets the average vector of the Gaussian distribution of the Hidden Markov Model after speaker adaptation calculated by the smoothing means when the learning data for speaker adaptation exists to the average vector. , The movement vector of the mean vector of the Gaussian distribution of the hidden Markov model after the speaker adaptation, which has the learning data for speaker adaptation in its vicinity, and is calculated by the smoothing means, and the continuation of the movement vector Based on the constraint of sex, a smoothing coefficient is used that indicates a predetermined smoothing strength so that the smoothing strength decreases as the data amount of the speaker adaptation learning data of the Gaussian distribution increases. 3. The speaker adaptation apparatus according to claim 1, wherein the speaker adaptation apparatus is characterized by smoothing.
【請求項4】 請求項1乃至3のうちの1つに記載の話
者適応化装置と、 入力された発声音声文の音声信号に基づいて、上記話者
適応化装置によって話者適応された隠れマルコフモデル
の話者モデルを用いて音声認識して音声認識結果を出力
する音声認識手段とを備えたことを特徴とする音声認識
装置。
4. The speaker adaptation device according to claim 1, wherein the speaker adaptation device adapts the speaker based on a voice signal of an input uttered voice sentence. A voice recognition device, comprising: a voice recognition means for performing voice recognition using a hidden Markov model speaker model and outputting a voice recognition result.
JP7239819A 1995-09-19 1995-09-19 Speaker adaptation device and speech recognition device Expired - Fee Related JP2888781B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7239819A JP2888781B2 (en) 1995-09-19 1995-09-19 Speaker adaptation device and speech recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7239819A JP2888781B2 (en) 1995-09-19 1995-09-19 Speaker adaptation device and speech recognition device

Publications (2)

Publication Number Publication Date
JPH0981179A true JPH0981179A (en) 1997-03-28
JP2888781B2 JP2888781B2 (en) 1999-05-10

Family

ID=17050326

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7239819A Expired - Fee Related JP2888781B2 (en) 1995-09-19 1995-09-19 Speaker adaptation device and speech recognition device

Country Status (1)

Country Link
JP (1) JP2888781B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100560916B1 (en) * 2001-06-30 2006-03-14 주식회사 케이티 Speech recognition method using posterior distance
US20120123672A1 (en) * 2010-11-15 2012-05-17 Aisin Aw Co., Ltd. Travel guidance device, travel guidance method, and computer program

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107564513B (en) * 2016-06-30 2020-09-08 阿里巴巴集团控股有限公司 Voice recognition method and device

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2751856B2 (en) 1995-02-03 1998-05-18 日本電気株式会社 Pattern adaptation method using tree structure

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100560916B1 (en) * 2001-06-30 2006-03-14 주식회사 케이티 Speech recognition method using posterior distance
US20120123672A1 (en) * 2010-11-15 2012-05-17 Aisin Aw Co., Ltd. Travel guidance device, travel guidance method, and computer program
US9562787B2 (en) * 2010-11-15 2017-02-07 Aisin Aw Co., Ltd. Travel guidance device, travel guidance method, and computer program

Also Published As

Publication number Publication date
JP2888781B2 (en) 1999-05-10

Similar Documents

Publication Publication Date Title
US5812975A (en) State transition model design method and voice recognition method and apparatus using same
EP1515305B1 (en) Noise adaption for speech recognition
US5884259A (en) Method and apparatus for a time-synchronous tree-based search strategy
EP0664535A2 (en) Large vocabulary connected speech recognition system and method of language representation using evolutional grammar to represent context free grammars
JPH11175090A (en) Speaker clustering processor and voice recognition device
US20050228666A1 (en) Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (lvcsr) system
CN112509560A (en) Voice recognition self-adaption method and system based on cache language model
JP3088357B2 (en) Unspecified speaker acoustic model generation device and speech recognition device
JP3176210B2 (en) Voice recognition method and voice recognition device
JP2852210B2 (en) Unspecified speaker model creation device and speech recognition device
JP3589044B2 (en) Speaker adaptation device
JPH08110792A (en) Speaker adaptation device and speech recognition device
JP2888781B2 (en) Speaker adaptation device and speech recognition device
JPH09134192A (en) Statistical language model forming device and speech recognition device
JP2905674B2 (en) Unspecified speaker continuous speech recognition method
KR20160000218A (en) Languange model clustering based speech recognition apparatus and method
JP3029803B2 (en) Word model generation device for speech recognition and speech recognition device
JP2875179B2 (en) Speaker adaptation device and speech recognition device
JP3035239B2 (en) Speaker normalization device, speaker adaptation device, and speech recognition device
JPH08123468A (en) Unspecified speaker model generating device and speech recognition device
JP3873418B2 (en) Voice spotting device
JP2005091504A (en) Voice recognition device
JP2968792B1 (en) Statistical language model generation device and speech recognition device
JPH0822296A (en) Pattern recognition method
Tachibana et al. Frame-level AnyBoost for LVCSR with the MMI criterion

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090219

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100219

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees