JP2545960B2 - Learning method for adaptive speech recognition - Google Patents

Learning method for adaptive speech recognition

Info

Publication number
JP2545960B2
JP2545960B2 JP1001847A JP184789A JP2545960B2 JP 2545960 B2 JP2545960 B2 JP 2545960B2 JP 1001847 A JP1001847 A JP 1001847A JP 184789 A JP184789 A JP 184789A JP 2545960 B2 JP2545960 B2 JP 2545960B2
Authority
JP
Japan
Prior art keywords
pattern
neural network
environment
learning
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP1001847A
Other languages
Japanese (ja)
Other versions
JPH02181798A (en
Inventor
隆夫 渡辺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP1001847A priority Critical patent/JP2545960B2/en
Publication of JPH02181798A publication Critical patent/JPH02181798A/en
Application granted granted Critical
Publication of JP2545960B2 publication Critical patent/JP2545960B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、音声を認識する音声認識装置において、異
なる話者や異なる発声雑音環境における発声に適応でき
る適応型認識装置の学習に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to learning of a speech recognition apparatus for recognizing speech, which is adaptable to different speakers and utterances in different utterance noise environments.

(従来の技術) 従来、入力された音声をあらかじめ保持されている標
準パタンを用いて認識を行う方法があった。(共立出版
株式会社「音声認識」(文献1)p.101-113参照)この
方法では、標準パタン作成に用いた話者以外の話者の音
声を認識すると、話者にる音声パタンの違いにより十分
な認識率が得られない。また、話者が同じでも周囲雑音
などの発声環境が標準パタン作成時と大きく異なると認
識率の低下が起こる。
(Prior Art) Conventionally, there has been a method of recognizing an input voice by using a standard pattern that is held in advance. (See Kyoritsu Shuppan Co., Ltd., “Voice Recognition” (Reference 1) p.101-113) In this method, when a voice of a speaker other than the speaker used to create the standard pattern is recognized, the difference in the voice pattern of the speaker Therefore, a sufficient recognition rate cannot be obtained. In addition, even if the speaker is the same, if the utterance environment such as ambient noise is significantly different from that when the standard pattern is created, the recognition rate will decrease.

通常、特定の話者の音声を認識する場合、認識対象語
をすべて発声し登録することが必要である。しかし、語
彙が多い場合には多くの労力を必要とするという欠点が
あった。これ対し、小量の音声により標準パタンを特定
話者に対応化する法が提案されている。例として、IEEE
ICASSP-86,49.5p.2643“Speaker Adaptation through V
ector Quantization"(文献2)にはベクトル量子化に
よる話者適応化法が述べられている。また、この方法に
おけるベクトル量子化による量子化誤差の影響による性
能の低下を改善するものとして、特願昭63-122559号に
は、ニューラルネットワークによる話者適応化法が述べ
られている。これらの方法では、話者1と話者2が同一
単語(文節や文でもよい)を発声したパタンをDPマッチ
ングにより最適に時間的に対応つけた上で、対応する特
徴ベクトルの対のセットから、適応化即ち変換器を求め
ている。
Usually, when recognizing the voice of a specific speaker, it is necessary to utter all the recognition target words and register them. However, it has a drawback that it requires a lot of labor when the vocabulary is large. On the other hand, a method of adapting a standard pattern to a specific speaker with a small amount of voice has been proposed. As an example, IEEE
ICASSP-86,49.5p.2643 “Speaker Adaptation through V
The speaker adaptation method by vector quantization is described in "ector Quantization" (Reference 2). In addition, as a method for improving the performance deterioration due to the influence of the quantization error due to the vector quantization in this method, a patent application is proposed. A speaker adaptation method using a neural network is described in Sho 63-122559. In these methods, a pattern in which speaker 1 and speaker 2 utter the same word (a phrase or a sentence may be used) is DP. The matching is performed for optimum temporal correspondence, and then the adaptation, that is, the converter is obtained from the set of corresponding feature vector pairs.

(発明が解決しようとする問題点) 上記の方法では異なった話者の音声パタンをそのまま
マッチングしているが、DPマッチングによる時間軸対応
つけは必ずしも正確ではない。例えば、話者1のある要
素は話者2では別の音素に類似しているなどが起こる
と、正しくない対応付けが起こる可能性がある。このよ
うな誤りは、適応化の性能を低下させ、認識性能を低下
させる原因となる。本発明は、このような話者の違いに
よる時間軸対応つけの誤りを取り除き高精度の話者適応
や発声雑音適応を実現することを目的としている。
(Problems to be Solved by the Invention) In the above method, voice patterns of different speakers are matched as they are, but the time axis correspondence by DP matching is not always accurate. For example, if one element of speaker 1 resembles another phoneme of speaker 2 or the like, incorrect correspondence may occur. Such an error reduces the performance of adaptation and the recognition performance. An object of the present invention is to eliminate such errors in time axis correspondence due to speaker differences and realize highly accurate speaker adaptation and vocal noise adaptation.

(問題を解決するための手段) 本発明による適応型音声認識用学習方式は、環境1と
環境2の同一発声パタンから学習される環境適応化用の
ニューラルネットにより、環境1の標準パタンを環境2
用に変換したパタンを用いて認識を行う方式において、
環境1の学習パタンをニューラルネットにより変換した
パタンAと環境2の学習パタンBとの最適時間軸対応つ
けにより得られるパタン間ご誤差パタンを用いてニュー
ラルネットの荷重係数を修正する過程の反復によりニュ
ーラルネットを学習する手段を有することを特徴とす
る。
(Means for Solving the Problem) In the learning method for adaptive speech recognition according to the present invention, a standard pattern of environment 1 is converted into an environment by a neural network for environment adaptation learned from the same utterance pattern of environment 1 and environment 2. Two
In the method of recognizing using the pattern converted for
By repeating the process of correcting the weighting factor of the neural network by using the error pattern between patterns obtained by associating the pattern A obtained by converting the learning pattern of environment 1 with the neural network and the learning pattern B of environment 2 by the optimum time axis correspondence. It is characterized by having a means for learning a neural network.

(作用) 話者適応化を例として、本発明の作用を説明する。発
声内容の同じ2つの話者1のパタンA、話者2のパタン
Bがあり、パタンAからパタンBへの変換を行うニュー
ラルネットを学習するものとする。パタンA,Bをベクト
ルの時系列 A={a(i),i=1,I} B={b(j),j=1,J} であらわし、学習の反復ステップをkであらわす。ニュ
ーラルネットはパタンAのベクトルとパタンBのベクト
ル間の変換を実現するものであり、入力、出力ともにベ
クトルである。パタンAの各時刻のベクトルをステップ
kのニューラルネットにより変換してパタンB* kを得
る。
(Operation) The operation of the present invention will be described by taking speaker adaptation as an example. It is assumed that there is a pattern A of two speakers 1 and a pattern B of a speaker 2 having the same utterance content, and a neural network for converting pattern A to pattern B is learned. The patterns A and B are represented by a vector time series A = {a (i), i = 1, I} B = {b (j), j = 1, J}, and the iteration step of learning is represented by k. The neural network realizes conversion between the vector of pattern A and the vector of pattern B, and both input and output are vectors. The vector at each time of the pattern A is converted by the neural network of step k to obtain the pattern B * k .

B* k={b* k(i),i=1,…,I} 入力パタンの変換パタンB* kと教師パタンBとの間でDP
マッチングを行う。DPマッチングでは、次の最小化問題
を解く。なお、DPマッチングの詳細は、文献1に述べら
れている。
B * k = {b * k (i), i = 1, ..., I} DP between input pattern conversion pattern B * k and teacher pattern B
Match. DP matching solves the following minimization problem. Details of DP matching are described in Reference 1.

このとき、最適なJ(i)も求めておく。パタンB* k
時間軸に整合されたパタンBをBkとする。
At this time, the optimum J (i) is also obtained. The pattern B * pattern matched to the time axis of k B to B k.

Bk={bk(i),i=1,…,I} パタンB* kとのBkとの間の誤差ベクトルの時系列パタン
をdk誤差関数をDkとする。
B k = {b k (i ), i = 1, ..., I} the d k error function time series pattern of the error vector between the B k of the pattern B * k and D k.

誤差ベクトル時系列パタンdkを用いてバックプロパゲー
ション学習を行い、ニューラルネットの荷重を修正す
る。バックプロパゲーション学習の詳細は、電子情報通
信学会「確率モデルによる音声」、p.164-167に述べら
れている。
Backpropagation learning is performed using the error vector time series pattern d k to correct the weight of the neural network. The details of backpropagation learning are described in the Institute of Electronics, Information and Communication Engineers, "Speech by Stochastic Model," p.164-167.

I個の誤差ベクトルを用いた修正を行うことになる
が、修正の方法として、単純に1個の誤差ベクトルに対
して求められた荷重修正量による修正を繰り返す方法、
あるいは、文献2に述べられているようなI個の誤差ベ
クトルについて荷重修正量を求めたのちこれらを平均し
て荷重を修正する方法を用いる。このようにしてステッ
プk+1のニューラルネットが求められる。バックプロ
パゲーション学習の収束性から、教師パタンBkに固定し
た条件では、ステップk+1のニューラルネットの誤差
関数は、ステップkのニューラルネットの誤差関数より
小さい。
Although the correction will be performed using I error vectors, as a correction method, a method of simply repeating the correction with the load correction amount obtained for one error vector,
Alternatively, as described in Reference 2, a method of calculating the load correction amount for I error vectors and then averaging them to correct the load is used. In this way, the neural network of step k + 1 is obtained. Due to the convergence of the back propagation learning, the error function of the neural network at step k + 1 is smaller than the error function of the neural network at step k + 1 under the condition fixed to the teacher pattern B k .

すなわち、 が成り立つ。一方、DPマッチングは、すべての可能な時
間軸対応つけの中で誤差関数の最小となる対応つけを実
行するから、ステップk+1でのDPマッチングの結果得
られる誤差関数Dk+1について が成り立つ。(1),(2)式より Dk+1≦Dk が成立つので、上記の反復処理は収束し、上記の反復処
理によりニューラルネットの学習を行うことができる。
That is, Holds. On the other hand, since the DP matching executes the matching that minimizes the error function among all possible time axis matching, the error function D k + 1 obtained as a result of the DP matching in step k + 1 is Holds. Since D k + 1 ≦ D k is established from the equations (1) and (2), the above iterative processing converges, and the neural network can be learned by the above iterative processing.

学習におけるニューラルネットの荷重係数の初期値と
して、ランダムな値を与えることも可能であるが、特願
昭63-122559号に述べられている方法によりパタンA,Bを
直接DPマッチングにより時間軸対応つけした結果から、
ニューラルネットの学習を行い、得られた結果を、初期
値とすることもできる。
It is possible to give a random value as the initial value of the weighting factor of the neural network in learning, but the pattern A and B are directly DP matched to the time axis by the method described in Japanese Patent Application No. 63-122559. From the result of attaching
It is also possible to perform learning of the neural network and use the obtained result as the initial value.

パタンA,Bとしては、単語、文、あるいは複数の単語
セット、文セットなど発声内容が同じ任意のものを用い
ることができる。
As the patterns A and B, words, sentences, or a plurality of word sets, sentence sets, or the like having the same utterance content can be used.

また、パタンA,Bとして、環境雑音の異なる同一話者
の発声パタンを用いることにより、発声環境雑音の適応
を行うこともできる。
Further, by using the utterance patterns of the same speaker having different environmental noises as the patterns A and B, it is possible to adapt the utterance environmental noises.

(実施例) 第1図は、本発明による実施例を示す図である。図に
おいて、記憶部1,2はそれぞれパタンA,Bを保持し、学習
制御部3は、学習ステップを表す制御信号kを発生す
る。まず、記憶部1に保持されたパタンAはニューラル
ネット部4に入力され、パタンB* kに変換される。つい
で記憶部2に保持されたパタンBと、前記パタンB* kがD
Pマッチング部5へ入力される。DPマッチング部5は、
入力された2つのパタンB,B* kの間でDPマッチングを実
行し、パタンBをパタンB* kに整合されたパタンBkを出
力する。誤差パタン算出部6は、DPマッチング部5から
出力されたパタンBkと、ニューラルネット部4から出力
されたパタンB* kとの間の誤差パタンdkを算出する。誤
差パタンdkは、ニューラルネット修正部7へ送られると
ともに、誤差関数算出部8へ送られる。ニューラルネッ
ト修正部7は、バックプロパゲーション学習により、ニ
ューラルネット部4の内容(荷重係数)を修正する。学
習制御部3は、誤差関数算出部8により算出された誤差
関数Dkがある程度以下になるか、ステップkがあらかじ
め定められた値以上になるまで、以上の一連の動作を反
復する制御を行う。
(Example) FIG. 1 is a diagram showing an example according to the present invention. In the figure, storage units 1 and 2 hold patterns A and B, respectively, and a learning control unit 3 generates a control signal k representing a learning step. First, the pattern A held in the storage unit 1 is input to the neural network unit 4 and converted into the pattern B * k . Then, the pattern B held in the storage unit 2 and the pattern B * k are D
It is input to the P matching unit 5. The DP matching unit 5
Two patterns B input, executes the DP matching between the B * k, and outputs the pattern B k which are matched pattern B to pattern B * k. The error pattern calculation unit 6 calculates an error pattern d k between the pattern B k output from the DP matching unit 5 and the pattern B * k output from the neural network unit 4. The error pattern d k is sent to the neural network correction unit 7 and the error function calculation unit 8. The neural network correction unit 7 corrects the content (weighting factor) of the neural network unit 4 by back propagation learning. The learning control unit 3 performs control to repeat the above series of operations until the error function D k calculated by the error function calculation unit 8 becomes a certain value or less or step k becomes a predetermined value or more. .

(発明の効果) 本発明によれば、新しい話者や発声雑音環境に効果的
に適応できるニューラルネットを学習することができ、
高性能や適応型音声認識装置を実現できる。
(Effects of the Invention) According to the present invention, it is possible to learn a neural network that can effectively adapt to a new speaker or a vocal noise environment,
A high-performance and adaptive voice recognition device can be realized.

【図面の簡単な説明】[Brief description of drawings]

第1図は、本発明による実施例を示す図であり、図にお
いて、1,2はパタン記憶部、3は学習制御部、4はニュ
ーラルネット部、5はDPマッチング部、6は誤差パタン
算出部、7はニューラルネット修正部、8は誤差関数算
出部である。
FIG. 1 is a diagram showing an embodiment according to the present invention, in which 1 and 2 are a pattern storage unit, 3 is a learning control unit, 4 is a neural network unit, 5 is a DP matching unit, and 6 is an error pattern calculation. Reference numeral 7 is a neural network correction unit, and 8 is an error function calculation unit.

Claims (1)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】環境1と環境2の同一音声パタンから学習
される環境適応化用のニューラルネットにより、環境1
の標準パタンを環境2用に変換したパタンを用いて認識
を行う音声認識用学習方式において、環境1の学習パタ
ンをニューラルネットにより変換したパタンAと環境2
の学習パタンBとの最適時間軸対応つけにより得られる
パタン間の誤差パタンを用いてニューラルネットの荷重
係数を修正する過程の反復によりニューラルネットを学
習する手段を有することを特徴とする適応型音声認識用
学習方式。
1. An environment 1 is created by a neural network for environment adaptation that is learned from the same speech patterns of environment 1 and environment 2.
In the speech recognition learning method for recognizing using the pattern obtained by converting the standard pattern of the environment 2 into the environment 2, the learning pattern of the environment 1 is converted into the pattern A and the environment 2 by the neural network.
The adaptive speech having means for learning the neural network by repeating the process of correcting the weighting factor of the neural network using the error pattern between the patterns obtained by associating the learning pattern B with the optimal time axis. A learning method for recognition.
JP1001847A 1989-01-06 1989-01-06 Learning method for adaptive speech recognition Expired - Lifetime JP2545960B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1001847A JP2545960B2 (en) 1989-01-06 1989-01-06 Learning method for adaptive speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1001847A JP2545960B2 (en) 1989-01-06 1989-01-06 Learning method for adaptive speech recognition

Publications (2)

Publication Number Publication Date
JPH02181798A JPH02181798A (en) 1990-07-16
JP2545960B2 true JP2545960B2 (en) 1996-10-23

Family

ID=11512942

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1001847A Expired - Lifetime JP2545960B2 (en) 1989-01-06 1989-01-06 Learning method for adaptive speech recognition

Country Status (1)

Country Link
JP (1) JP2545960B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109754784B (en) 2017-11-02 2021-01-29 华为技术有限公司 Method for training filtering model and method for speech recognition

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
日本音響学会講演論文集,平成元年3月,2−P−▲○27▼,P.283〜284
電子情報通信学会技術研究報告,昭和62年12月,SP87−101,P.25〜30

Also Published As

Publication number Publication date
JPH02181798A (en) 1990-07-16

Similar Documents

Publication Publication Date Title
JP2733955B2 (en) Adaptive speech recognition device
US6421640B1 (en) Speech recognition method using confidence measure evaluation
JPH10254483A (en) Phoneme symbol after-the-fact probability computing device and speech recognizer
JPH08110793A (en) Method and system for improvement of voice recognition by front-end normalization of characteristic vector
JP2001517325A (en) Recognition system
US5890113A (en) Speech adaptation system and speech recognizer
JPH08234788A (en) Method and equipment for bias equalization of speech recognition
US5734793A (en) System for recognizing spoken sounds from continuous speech and method of using same
US5461696A (en) Decision directed adaptive neural network
US7346497B2 (en) High-order entropy error functions for neural classifiers
US20230070000A1 (en) Speech recognition method and apparatus, device, storage medium, and program product
JPH0962291A (en) Pattern adaptive method using describing length minimum reference
JP2797949B2 (en) Voice recognition device
US20050192806A1 (en) Probability density function compensation method for hidden markov model and speech recognition method and apparatus using the same
JP2545960B2 (en) Learning method for adaptive speech recognition
JP2852298B2 (en) Standard pattern adaptation method
Moon et al. Noisy speech recognition using robust inversion of hidden Markov models
JP2013182261A (en) Adaptation device, voice recognition device and program
JPH01204099A (en) Speech recognition device
JP2000122689A (en) Speaker adopting device, and speech reconizer
JP2561553B2 (en) Standard speaker selection device
JP2545961B2 (en) Learning method for voice recognition
KR100322730B1 (en) Speaker adapting method
JP3256979B2 (en) A method for finding the likelihood of an acoustic model for input speech
JPH04298797A (en) Voice recognition device