JP5749187B2 - Parameter estimation device, parameter estimation method, speech recognition device, speech recognition method and program - Google Patents

Parameter estimation device, parameter estimation method, speech recognition device, speech recognition method and program Download PDF

Info

Publication number
JP5749187B2
JP5749187B2 JP2012024307A JP2012024307A JP5749187B2 JP 5749187 B2 JP5749187 B2 JP 5749187B2 JP 2012024307 A JP2012024307 A JP 2012024307A JP 2012024307 A JP2012024307 A JP 2012024307A JP 5749187 B2 JP5749187 B2 JP 5749187B2
Authority
JP
Japan
Prior art keywords
state transition
lattice
correct
parameter estimation
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012024307A
Other languages
Japanese (ja)
Other versions
JP2013160998A (en
Inventor
陽太郎 久保
陽太郎 久保
堀 貴明
貴明 堀
中村 篤
篤 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012024307A priority Critical patent/JP5749187B2/en
Publication of JP2013160998A publication Critical patent/JP2013160998A/en
Application granted granted Critical
Publication of JP5749187B2 publication Critical patent/JP5749187B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声認識において用いるパラメタを含む確率有限状態モデルを調整するためのパラメタを推定するパラメタ推定装置及びパラメタ推定方法、推定されたパラメタを用いて音声データに対する音声認識結果を求める音声認識装置及び音声認識方法並びにプログラムに関する。   The present invention relates to a parameter estimation device and parameter estimation method for estimating a parameter for adjusting a probabilistic finite state model including parameters used in speech recognition, and a speech recognition device for obtaining a speech recognition result for speech data using the estimated parameter. And a speech recognition method and program.

以下の説明において、テキスト中で使用する記号「^」、「」、「」等は、本来直前の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直後に記載する。式中においてはこれらの記号は本来の位置に記述している。また、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。 In the following description, the symbols “^”, “ ”, “ ˜ ”, etc. used in the text should be written directly above the previous character. Immediately after. In the formula, these symbols are written in their original positions. Also, in the drawings used for the following description, the same reference numerals are given to components having the same functions and steps for performing the same processing, and redundant description is omitted.

音声認識装置は一般的に確率的有限状態モデルによって表現される。有限状態モデルは離散値を持つ状態変数が、入力、すなわち音声の一部分(以降「フレーム」と呼ぶ)を受け取ることによって、対応する状態に遷移するものである。確率的有限状態モデルは有限状態モデルを確率の概念を用いて拡張したもので、フレームを受け取った際、どの状態に遷移するかが、確率的にしか与えられていないものを指す。確率的有限状態モデルに基づく音声認識装置では、フレーム系列を全て受け取った後で、最も確率の高い状態遷移を推定し、その状態遷移に対応する単語列を出力する。   A speech recognizer is generally represented by a probabilistic finite state model. In the finite state model, a state variable having a discrete value transitions to a corresponding state by receiving an input, that is, a part of speech (hereinafter referred to as “frame”). The probabilistic finite state model is an extension of the finite state model using the concept of probability, and indicates a state in which a transition to a state is only given probabilistically when a frame is received. In the speech recognition apparatus based on the probabilistic finite state model, after receiving all the frame sequences, the state transition with the highest probability is estimated, and a word string corresponding to the state transition is output.

確率的有限状態モデルを用いた音声認識装置として近年広く用いられているWFST(Weighted Finite State Transducer、重み付き有限状態トランスデューサ)に基づく音声認識装置では、例えば、単語の確率的遷移を表現した有限状態モデル、単語からその発音(音素列)への確率的変換を定義したWFST、音素から前後の音素との調音結合を考慮したコンテキスト依存音素への変換を定義したWFST、各コンテキスト依存音素に応じて予め作成した隠れマルコフモデル(Hidden Markov Model、以下「HMM」ともいう)といったような、音声認識に必要な各モジュールをWFSTの合成演算を用いて合成することによって、最終的な確率的有限状態モデルを得る。各モジュールのパラメタは予め人手によって定義しておくか、学習データから学習しておくのが一般的である。   In a speech recognition device based on WFST (Weighted Finite State Transducer), which has been widely used in recent years as a speech recognition device using a probabilistic finite state model, for example, a finite state expressing a probabilistic transition of a word Model, WFST that defines probabilistic conversion from a word to its pronunciation (phoneme sequence), WFST that defines conversion from phoneme to context-dependent phoneme considering the articulation of previous and next phonemes, depending on each context-dependent phoneme A final probabilistic finite state model is created by synthesizing each module necessary for speech recognition, such as a previously created hidden Markov model (hereinafter also referred to as “HMM”), using a WFST synthesis operation. Get. Generally, the parameters of each module are previously defined manually or learned from learning data.

しかし、このようにして得られた音声認識装置は仮に各モジュールがそれぞれの学習において最適であっても、合成した確率的有限状態モデルが最適であるとは限らない。例えば、予測される音声認識エラー率を下げるための「識別学習基準」と呼ばれる種類の学習基準において全体の最適性を考えると、各モジュールに分解した形での学習では必ずしも最適解が求まらないことが知られている(非特許文献1参照)。   However, in the speech recognition apparatus obtained in this way, even if each module is optimal in each learning, the synthesized stochastic finite state model is not always optimal. For example, when considering the overall optimality of a kind of learning criterion called “discriminative learning criterion” for reducing the predicted speech recognition error rate, the optimal solution is not always found in learning in the form of decomposition into modules. It is known that there is no (see Non-Patent Document 1).

図1は、確率的有限状態モデルに基づく音声認識装置91の機能ブロック図を示す。確率的有限状態モデルに基づく音声認識装置では、音声認識装置を遷移コスト関数π(X,s,s’,t,t’)と出力シンボルo(s,s’)で表現する。ここでXは入力系列であり、入力される音声データから抽出される特徴ベクトルxを時系列に並べたものであり、X={x ,x ,…,x }のように表わされる。ただし、Tは入力される音声データの大きさ(フレーム総数)を表す。なお、入力系列Xは音声認識装置91への入力として予め特徴ベクトル系列算出部7で算出されていることが一般的である。遷移コスト関数πは、ある状態sのときに、入力系列Xの時刻tから時刻t’までを入力された場合(ただし、1≦t<t’≦T)、次状態s’に遷移する事象の起こりにくさを定義したものであり、遷移コスト関数πの値が大きいほど状態sから状態s’に遷移しづらいことを表す。出力シンボルo(s,s’)は状態がsから状態s’に遷移した場合に音声認識の結果として得られる単語を示したもので、出力シンボルとしては例えば単語が考えられる。また、音声認識の結果を生成しない状態遷移もあり、その場合便宜的に、イプシロンシンボルεを出力すると考える。 FIG. 1 shows a functional block diagram of a speech recognition apparatus 91 based on a probabilistic finite state model. In a speech recognition device based on a probabilistic finite state model, the speech recognition device is expressed by a transition cost function π (X , s, s ′, t, t ′) and an output symbol o (s, s ′). Wherein X - is an input series, a feature vector x is extracted from the audio data input - are those arranged in time series, X - = {x - 1 , x - 2, ..., x - T }. Here, T represents the size (total number of frames) of input audio data. Note that the input sequence X is generally calculated in advance by the feature vector sequence calculation unit 7 as an input to the speech recognition device 91. The transition cost function [pi, when certain conditions s, input sequence X - 'if it is entered until (where, 1 ≦ t <t' from the time t time t ≦ T), the transition to the next state s' The difficulty of the event is defined, and the larger the value of the transition cost function π, the more difficult the transition from the state s to the state s ′. The output symbol o (s, s ′) indicates a word obtained as a result of speech recognition when the state transitions from s to state s ′. As the output symbol, for example, a word is conceivable. In addition, there is a state transition that does not generate a result of speech recognition. In this case, for convenience, it is considered that an epsilon symbol ε is output.

この遷移コスト関数πと状態系列s:={s,s,…,s}、セグメント時刻t:={t,t,…,t}(ただしt=1,t=T)を用いて以下の系列コスト関数Πを定義する。 This transition cost function π and state sequence s : = {s 1 , s 2 ,..., S M }, segment time t : = {t 1 , t 2 ,..., T M } (where t 1 = 1, The following sequence cost function Π is defined using t M = T).

Figure 0005749187
Figure 0005749187

この系列コスト関数Πは、時刻tから時刻tm+1の間に状態sから状態sm+1への状態遷移(以下「状態遷移s→s’」ともいう)が起こる遷移コスト関数πの、m=1からm=M−1までの和になっており、入力系列X全体を入力され、セグメント時刻tが決まった際に、状態系列sがどの程度のコストで起こるかを表わしたものである。なお、以下において、遷移コスト関数π及び系列コスト関数Πの出力を単にコストとも呼ぶ。 This series cost function Π is, (hereinafter also referred to as "state transition s → s'") state transition between from time t m of time t m + 1 from the state s m to the state s m + 1 is the transition cost function π that occurs, m = 1 to m = M−1 and represents the cost of the state sequence s when the entire input sequence X is input and the segment time t is determined. Is. In the following, the outputs of the transition cost function π and the sequence cost function Π are also simply referred to as costs.

音声認識装置91の最短経路探索部911は、入力系列Xを入力した際の最適状態系列sを、この系列コスト関数Πを用いて、以下の最短経路問題の解として出力する。 The shortest path search unit 911 of the speech recognition apparatus 91 outputs the optimum state series s ˜ when the input series X is input as a solution of the following shortest path problem using this series cost function Π.

Figure 0005749187
Figure 0005749187

最終的な認識結果となる単語列は、この最適状態系列s={s ,s ,…}中の各状態遷移s →s m+1に対応する出力シンボルo(s ,s m+1)を、εを除いて、列挙したもので表わすことができる。出力シンボル抽出部8は、この最適状態系列sから最適単語列を抽出する。 Word string serving as the final recognition result, the optimal state sequence s ~ = {s ~ 1, s ~ 2, ...} output symbol o (s ~ corresponding to each state transition s ~ m → s ~ m + 1 in m , s ˜ m + 1 ) can be represented by the enumeration except for ε. Output symbol extracting section 8 extracts the estimated word string from the optimal state sequence s ~.

従来よく用いられてきたHMMと言語モデル(N−gram言語モデル/ネットワーク文法)に基づく音声認識装置では、各遷移コスト関数πを以下の形で表わす。   In a speech recognition apparatus based on an HMM and a language model (N-gram language model / network grammar) that has been frequently used in the past, each transition cost function π is expressed in the following form.

Figure 0005749187
Figure 0005749187

ただし、ω(s,s’)は状態遷移s→s’に対する重みパラメタであり、入力系列Xと独立に設計される状態遷移コストである。ω(s,s’)は、人手で与えてもよいし、WFSTに基づく音声認識では予め複数のWFSTを合成することによって得られた各状態遷移のコストを用いてもよい。またI[s,s’]は状態遷移s→s’に関連付けられた出力分布のインデックスであり、HMMの学習装置等によって得られる。出力分布P(x τ|I[s,s’])は、各I[s,s’]毎に例えば混合ガウス分布などを用いてモデル化する。これらの遷移コスト関数πに関する状態遷移コストω(s,s’)及びlogP(x τ|I[s,s’])は有限状態モデル格納部912に格納され、上述の最短経路探索部911によって利用される。 However, ω (s, s ') is the state transition s → s' is a weight parameter for the input sequence X - is a state transition costs are designed independently. ω (s, s ′) may be given manually, or in speech recognition based on WFST, the cost of each state transition obtained by combining a plurality of WFSTs in advance may be used. I [s, s ′] is an index of the output distribution associated with the state transition s → s ′, and is obtained by an HMM learning device or the like. The output distribution P (x τ | I [s, s ′]) is modeled using, for example, a mixed Gaussian distribution for each I [s, s ′]. The state transition costs ω (s, s ′) and logP (x τ | I [s, s ′]) related to these transition cost functions π are stored in the finite state model storage unit 912, and the shortest path search unit 911 described above. Used by.

しかし、式(3)のような遷移コスト関数πの定義では、状態遷移と入力系列の関係は隠れマルコフモデルの学習によって得られる出力分布を通してのみ表現されてきた。すなわち、従来の音声認識装置91は入力系列Xに含まれる特徴ベクトルx τに関する部分であるP(x τ|I[s,s’])と、それ以外の部分であるω(s,s’)が個別に学習され、全ての取り得る状態遷移と入力フレームの関係を陽に定義してこなかった。特許文献1では、この遷移コスト関数πを状態遷移s→s’毎の調整パラメタベクトルα h(s,s’)及び入力系列Xを含む素性ベクトルφ(X,t,t’)を用いて以下のように拡張することにより、より高度な表現と、その同時最適化を実現する。 However, in the definition of the transition cost function π as shown in Equation (3), the relationship between the state transition and the input sequence has been expressed only through the output distribution obtained by learning the hidden Markov model. That is, the conventional speech recognition apparatus 91 input sequence X - wherein included in the vector x - a part related to τ P (x - τ | I [s, s']) and a portion other than omega (s , S ′) are individually learned, and the relationship between all possible state transitions and input frames has not been explicitly defined. In Patent Document 1, this transition cost function π is converted to a feature vector φ (X , t, t ′ ) including an adjustment parameter vector α h (s, s ′) and an input sequence X for each state transition s → s ′. ) To be expanded as follows to realize more advanced expressions and their simultaneous optimization.

Figure 0005749187
Figure 0005749187

ただし、「」は転置を表す。図2は、式(4)で表現される音声認識装置92の機能ブロック図を示す。h(s,s’)は状態遷移s→s’を表す。この表現の場合、h(s,s’)を適切にデザインすれば、全ての状態遷移s→s’に対し異なる調整パラメタベクトルα h(s,s’)が導入され、その調整パラメタベクトルα h(s,s’)と素性ベクトルφ(X,t,t’)の内積が遷移コスト関数πに反映される。素性ベクトルφ(X,t,t’)として特許文献1では、以下の形を例示している。 However, “ T ” represents transposition. FIG. 2 shows a functional block diagram of the speech recognition apparatus 92 expressed by Expression (4). h (s, s ′) represents the state transition s → s ′. In the case of this expression, if h (s, s ′) is appropriately designed, a different adjustment parameter vector α h (s, s ′) is introduced for all state transitions s → s ′, and the adjustment parameter vector α - h (s, s ' ) and the feature vector φ - (X -, t, t') inner product of is reflected in the transition cost function [pi. Patent Literature 1 exemplifies the following form as the feature vector φ (X , t, t ′).

Figure 0005749187
Figure 0005749187

この表現を用い、調整パラメタベクトルα h(s,s’)を適切に学習することにより、従来の音声認識装置に追加で全体を考慮した学習に基づくコストを導入できる。ここで、特許文献1では調整パラメタベクトルα h(s,s’)の決定にPerceptron法を用いている。 By using this expression and appropriately learning the adjustment parameter vector α - h (s, s ′) , it is possible to introduce a cost based on learning that takes the whole into consideration in addition to the conventional speech recognition apparatus. Here, in Patent Document 1, the Perceptron method is used to determine the adjustment parameter vector α h (s, s ′) .

最短経路探索部921は、入力系列Xを受け取り、有限状態モデル調整パラメタ格納部923に格納されている調整パラメタベクトルα h(s,s’)と、有限状態モデル格納部912に格納されている状態遷移コストω(s,s’)及びlogP(x τ|I[s,s’])とを取り出し、式(1)、(2)、(4)に基づき、最適状態系列sを求め、出力シンボル抽出部8に出力する。 The shortest path search unit 921 receives the input sequence X and stores the adjustment parameter vector α h (s, s ′) stored in the finite state model adjustment parameter storage unit 923 and the finite state model storage unit 912. State transition costs ω (s, s ′) and logP (x τ | I [s, s ′]) are taken out, and the optimum state sequence s is obtained based on the equations (1), (2), and (4). Are obtained and output to the output symbol extraction unit 8.

特開特開2011−164336号公報JP, 2011-164336, A

Jen-Tzung Chien, Chuang-Hua Chueh, "Joint acoustic and language modeling for speech recognition", Speech Communication, March 2010, Volume 52, Issue 3, p.223-235Jen-Tzung Chien, Chuang-Hua Chueh, "Joint acoustic and language modeling for speech recognition", Speech Communication, March 2010, Volume 52, Issue 3, p.223-235

一般に、音声認識のエラーを完全に削減することは困難であるため、音声認識装置の精度は単語エラー率といった指標で測られるが、特許文献1のPerceptron法や、maximum mutual information(以下「MMI」とも呼ぶ)法(参考文献1参照)といった従来手法は、正解単語列以外の全ての単語列を不正解とみなして学習を行う方法である。
(参考文献1)S. Kapadia, V. Valtchev, S.J. Young, "MMI training for continuous phoneme recognition on the TIMIT database", Proc. ICASSP, 1993, Vol. 2, pp. 491-494
In general, since it is difficult to completely reduce speech recognition errors, the accuracy of a speech recognition device is measured by an index such as a word error rate. However, the Perceptron method of Patent Document 1 and maximum mutual information (hereinafter “MMI”) are used. A conventional method such as a method (referred to as reference 1) is a method in which all word strings other than the correct word string are regarded as incorrect answers and learning is performed.
(Reference 1) S. Kapadia, V. Valtchev, SJ Young, "MMI training for continuous phoneme recognition on the TIMIT database", Proc. ICASSP, 1993, Vol. 2, pp. 491-494

経験的に、エラーの尺度を測る際は細かいエラーを用いたほうが良いと言われている。正解単語列以外の全ての単語列を不正解とみなして学習を行なう方法では、エラーの単位が大きいため、そのパラメタ推定の精度は十分とは言えない。   Empirically, it is said that it is better to use fine errors when measuring the error scale. In the method in which learning is performed by regarding all word strings other than the correct word string as incorrect answers, the accuracy of parameter estimation is not sufficient because the unit of error is large.

本発明は、細粒度エラー基準に基づき、より小さな単位でエラーを求め、不正解の中でも「不正解の度合い」を細かく考慮することによって、より頑健なパラメタ推定を可能にするパラメタ推定技術を提供することを目的とする。   The present invention provides a parameter estimation technique that enables more robust parameter estimation by obtaining an error in a smaller unit based on a fine-grained error criterion and finely considering the “degree of incorrect answer” among incorrect answers. The purpose is to do.

上記の課題を解決するために、本発明の第一の態様によれば、パラメタ推定装置は、音声認識において用いるパラメタを含む確率有限状態モデルと、学習データと、学習データの正しい音声認識結果に対応する状態遷移の系列である正解状態遷移系列と、確率有限状態モデルを調整するためのパラメタである調整パラメタとを格納する記録部と、確率有限状態モデルを用いて学習データに対して音声認識を行った結果得られる音声認識結果に対応する状態遷移の系列である認識状態遷移系列を生成する認識部と、正解状態遷移系列と認識状態遷移系列との差異に基づき、エラー尺度を算出する細粒度エラー尺度算出部と、エラー尺度に応じて調整パラメタを修正するパラメタ推定部とを含む。   In order to solve the above-described problem, according to the first aspect of the present invention, the parameter estimation device generates a probability finite state model including parameters used in speech recognition, learning data, and a correct speech recognition result of the learning data. A recording unit that stores correct state transition sequences that are corresponding state transition sequences and adjustment parameters that are parameters for adjusting the stochastic finite state model, and speech recognition for learning data using the stochastic finite state model And a recognition unit that generates a recognition state transition sequence that is a sequence of state transitions corresponding to the speech recognition result obtained as a result of performing and a detailed calculation that calculates an error measure based on the difference between the correct state transition sequence and the recognized state transition sequence. A granularity error scale calculation unit and a parameter estimation unit that corrects the adjustment parameter according to the error scale are included.

上記の課題を解決するために、本発明の第二の態様によれば、パラメタ推定方法は、音声認識において用いるパラメタを含む確率有限状態モデルを用いて、学習データに対して音声認識を行った結果得られる音声認識結果に対応する状態遷移の系列である認識状態遷移系列を生成する認識ステップと、学習データの正しい音声認識結果に対応する状態遷移の系列である正解状態遷移系列と認識状態遷移系列との差異に基づき、エラー尺度を算出する細粒度エラー尺度算出ステップと、エラー尺度に応じて、確率有限状態モデルを調整するためのパラメタである調整パラメタを修正するパラメタ推定ステップとを含む。   In order to solve the above problems, according to the second aspect of the present invention, the parameter estimation method performs speech recognition on learning data using a stochastic finite state model including parameters used in speech recognition. A recognition step for generating a recognition state transition sequence corresponding to a speech recognition result obtained as a result, a correct state transition sequence corresponding to a correct speech recognition result of learning data, and a recognition state transition A fine-grained error measure calculating step for calculating an error measure based on a difference from the series, and a parameter estimating step for correcting an adjustment parameter that is a parameter for adjusting the probability finite state model according to the error measure.

本発明によれば、パラメタ推定の精度向上という効果を奏する。   According to the present invention, there is an effect of improving the accuracy of parameter estimation.

従来の音声認識装置の機能ブロック図。The functional block diagram of the conventional speech recognition apparatus. 特許文献1の音声認識装置の機能ブロック図。The functional block diagram of the speech recognition apparatus of patent document 1. FIG. 第一実施形態に係るパラメタ推定装置の機能ブロック図。The functional block diagram of the parameter estimation apparatus which concerns on 1st embodiment. 第一実施形態に係るパラメタ推定装置の処理フローを示す図。The figure which shows the processing flow of the parameter estimation apparatus which concerns on 1st embodiment. 図5Aは正解ラティスを、図5Bは認識ラティスを示す図。5A is a correct lattice, and FIG. 5B is a recognition lattice. 配列cτを生成するための処理フローを説明するための図。The figure for demonstrating the processing flow for producing | generating array c ( tau) . 配列cτを説明するための図。The figure for demonstrating arrangement | sequence . パラメタ推定部の機能ブロック図。The functional block diagram of a parameter estimation part. パラメタ推定部の処理フローを示す図。The figure which shows the processing flow of a parameter estimation part. 音声認識のシミュレーション結果を示す図。The figure which shows the simulation result of speech recognition.

まず、本発明のポイントを説明する。   First, the points of the present invention will be described.

[発明のポイント]
特許文献1で用いられてきたPerceptron法より高精度な学習方法のために、本発明では細粒度エラー基準を導入する。細粒度エラー基準は、これまで隠れマルコフモデル(式(3)及び式(4)のlogP(x τ| I[s,s’]))及び状態遷移コストω(s,s’ )を学習する際に用いられてきた(参考文献2〜4参照)。
(参考文献2) D. Povey, P.C. Woodland, "Minimum phone error and I-smoothing for improved discriminative training", Proc. ICASSP, 2002, Vol. 1, pp. 105-108
(参考文献3) D. Povey, D. Kanevsky, B. Kingsbury, B. Ramabhadran, G. Saon, K. Visweswariah, "Boosted MMI for model and feature-space discriminative training", 2008, Proc. ICASSP, pp. 4057-4060
(参考文献4) E. McDermott, S. Watanabe, A. Nakamura, "Discriminative training based on an integrated view of MPE and MMI in margin and error space", Proc. ICASSP, 2010, pp. 4894-4897
[Points of Invention]
For a learning method with higher accuracy than the Perceptron method used in Patent Document 1, the present invention introduces a fine-grained error criterion. The fine-grained error criterion has so far learned the hidden Markov model (logP (x τ | I [s, s ′]) in Equations (3) and (4)) and the state transition cost ω (s, s ′) Have been used (see references 2-4).
(Reference 2) D. Povey, PC Woodland, "Minimum phone error and I-smoothing for improved discriminative training", Proc. ICASSP, 2002, Vol. 1, pp. 105-108
(Reference 3) D. Povey, D. Kanevsky, B. Kingsbury, B. Ramabhadran, G. Saon, K. Visweswariah, "Boosted MMI for model and feature-space discriminative training", 2008, Proc. ICASSP, pp. 4057-4060
(Reference 4) E. McDermott, S. Watanabe, A. Nakamura, "Discriminative training based on an integrated view of MPE and MMI in margin and error space", Proc. ICASSP, 2010, pp. 4894-4897

細粒度エラー基準に基づくminimum phone error(以下「MPE」とも呼ぶ)法(参考文献2参照)、boosted MMI(以下「bMMI」とも呼ぶ)法(参考文献3参照)及びdifferenced MMI(以下「dMMI」とも呼ぶ)法(参考文献4参照)は、不正解の中でも「不正解の度合い」を細かく考慮することによって、より頑健なパラメタ推定を可能にする技術である。経験的に、エラーの尺度を測る際は細かいエラーを用いたほうが良いと言われており、そういった観点から学習時には音素エラーを最小にするような学習が行われることが多い。   Minimum phone error (hereinafter also referred to as “MPE”) method (refer to Reference 2), boosted MMI (hereinafter also referred to as “bMMI”) method (refer to Reference 3) and differenced MMI (hereinafter referred to as “dMMI”) (Referred to as reference 4) is a technique that enables more robust parameter estimation by carefully considering the “degree of incorrect answer” among incorrect answers. Empirically, it is said that it is better to use fine errors when measuring the error scale. From such a viewpoint, learning that minimizes phoneme errors is often performed during learning.

(1)別々に学習した各モジュールを合成した音声認識装置のさらなる精度向上のためには、特許文献1と同様に、合成した後での調整パラメタの学習が必須である。(2)また、既存技術では学習の基準として、認識結果が与えられた正解と完全に一致するかどうかを考慮していたが、実際の音声認識では音声認識の単語エラー率を削減することが重要である。(3)さらに、隠れマルコフモデル学習手法における関連手法(参考文献3及び4参照)では音素エラーが細粒度のエラー尺度として用いられてきたが、有限状態モデルに基づく音声認識装置の最も細かいエラーは状態遷移誤りであり、より細かいエラー尺度を利用することは重要だと考えられる。   (1) In order to further improve the accuracy of the speech recognition apparatus that synthesizes the separately learned modules, it is essential to learn the adjustment parameters after synthesis, as in Patent Document 1. (2) In addition, the existing technology considers whether or not the recognition result completely matches the given correct answer as a learning criterion. However, in actual speech recognition, the word error rate of speech recognition can be reduced. is important. (3) Furthermore, in related techniques in the hidden Markov model learning technique (see References 3 and 4), phoneme errors have been used as a fine-grained error measure, but the finest error of a speech recognition device based on a finite state model is It is a state transition error, and it seems important to use a finer error scale.

よって、本発明では、合成した後で調整パラメタの学習を行い推定し、その際、音声認識装置の状態遷移毎に定義されたパラメタベクトルの学習にMPE法に代表されるような細粒度エラー基準を用いる。例えば、状態遷移を何回間違えるかを基準とした細粒度エラー基準を用いたパラメタ学習を行う。   Therefore, in the present invention, adjustment parameters are learned and estimated after synthesis, and at that time, fine-grained error criteria such as the MPE method are used to learn parameter vectors defined for each state transition of the speech recognition apparatus. Is used. For example, parameter learning is performed using a fine-grained error criterion based on how many times the state transition is mistaken.

以下、本発明の実施形態について説明する。なお、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。   Hereinafter, embodiments of the present invention will be described. It should be noted that processing performed in units of elements of vectors and matrices is applied to all elements of the vectors and matrices unless otherwise specified.

<第一実施形態>
図3は第一実施形態に係るパラメタ推定装置100の機能ブロック図を、図4はその処理フローを示す。パラメタ推定装置100は、有限状態モデル格納部101、学習データ格納部103、認識部105、細粒度エラー尺度算出部107、正解経路格納部109、パラメタ推定部111及び有限状態モデル調整パラメタ格納部113を含む。
<First embodiment>
FIG. 3 is a functional block diagram of the parameter estimation apparatus 100 according to the first embodiment, and FIG. 4 shows the processing flow. The parameter estimation device 100 includes a finite state model storage unit 101, a learning data storage unit 103, a recognition unit 105, a fine-grained error scale calculation unit 107, a correct path storage unit 109, a parameter estimation unit 111, and a finite state model adjustment parameter storage unit 113. including.

パラメタ推定装置100は、学習用の入力系列X−(1),X−(2),…,X−(N)を用いて、調整パラメタベクトルα h(s,s’)を最適化する。本発明の実現方法として、様々な方法が考えられるが、本実施形態ではラティスによるデータ構造とbMMIまたはdMMIを応用した学習基準を用いた方法を説明する。また、パラメタ推定装置100によって学習された調整パラメタベクトルα h(s,s’)を利用して音声認識を行う音声認識装置12の機能ブロック図は先述の図2と同様の構成を有する。ただし、有限状態モデル調整パラメタ格納部123に記憶されている調整パラメタベクトルα h(s,s’)の生成方法が、特許文献1とは異なる。 The parameter estimation apparatus 100 optimizes the adjustment parameter vector α h (s, s ′) using the learning input sequences X − (1) , X − (2) ,..., X− (N). . Various methods are conceivable as a method for realizing the present invention. In this embodiment, a method using a lattice based data structure and a learning criterion applying bMMI or dMMI will be described. The functional block diagram of the speech recognition device 12 that performs speech recognition using the adjustment parameter vector α h (s, s ′) learned by the parameter estimation device 100 has the same configuration as that of FIG. However, the method of generating the adjustment parameter vector α h (s, s ′) stored in the finite state model adjustment parameter storage unit 123 is different from that of Patent Document 1.

有限状態モデル格納部101には、音声認識において用いる状態遷移コストω(s,s’)及びlogP(x τ|I[s,s’])を含む確率有限状態モデルが格納されている。なお、調整パラメタベクトルα h(s,s’)の推定に先立ち、状態遷移コストω(s,s’)及びlogP(x τ|I[s,s’])に関しては学習が終了している状況を考える。例えば、有限状態モデル構築部65が、HMM格納部61及び言語モデル格納部63から、従来の音声認識装置の学習手法で得られるHMMや言語モデルを取り出し、状態遷移コストω(s,s’)及びlogP(x τ|I[s,s’])を算出し、有限状態モデル格納部101に格納する。 The finite state model storage unit 101 stores a stochastic finite state model including a state transition cost ω (s, s ′) and logP (x τ | I [s, s ′]) used in speech recognition. Prior to the estimation of the adjustment parameter vector α h (s, s ′ ), the learning is finished for the state transition cost ω (s, s ′) and logP (x τ | I [s, s ′]). Think about the situation. For example, the finite state model construction unit 65 takes out the HMM and language model obtained by the learning method of the conventional speech recognition apparatus from the HMM storage unit 61 and the language model storage unit 63, and the state transition cost ω (s, s ′). And logP (x τ | I [s, s ′]) are calculated and stored in the finite state model storage unit 101.

学習データ格納部103には、学習データである入力系列X−(1),X−(2),…,X−(N)が格納されている。 The learning data storage unit 103 stores learning data input sequences X- (1) , X- (2) ,..., X- (N) .

正解経路格納部109には、学習データである入力系列X−(1),X−(2),…,X−(N)の正しい音声認識結果にそれぞれ対応する状態遷移の系列(以下「正解状態遷移系列」という)s^(1),s^(2),…,s^(N)とセグメント時刻t^(1),t^(2),…,t^(N)とが格納されている。正解状態遷移系列とセグメント時刻とは、人手により入力系列に対して正しい音声認識結果となる単語列を与えることで、既存の音声認識装置を用いて簡単に得ることができる。 The correct path storage unit 109, a learning data input sequence X - (1), X - (2), ..., X - respectively the correct speech recognition result of the (N) corresponding state transition sequence (hereinafter "correct S ^ (1) , s ^ (2) , ..., s ^ (N) and segment times t ^ (1) , t ^ (2) , ..., t ^ (N) are stored. Has been. The correct state transition sequence and the segment time can be easily obtained using an existing speech recognition apparatus by manually giving a word string that is a correct speech recognition result to the input sequence.

<認識部105>
認識部105は、確率有限状態モデルの状態遷移コストω(s,s’)及びlogP(x τ|I[s,s’])を有限状態モデル格納部101から取り出し、これらの値を用いて、学習データである入力系列X−(1),X−(2),…,X−(N)に対して音声認識を行った結果得られる音声認識結果に対応する状態遷移の系列(以下「認識状態遷移系列」という)を生成し(s1)、細粒度エラー尺度算出部107及びパラメタ推定部111に出力する。
<Recognition unit 105>
The recognition unit 105 extracts the state transition cost ω (s, s ′) and logP (x τ | I [s, s ′]) of the stochastic finite state model from the finite state model storage unit 101, and uses these values. , X- (N) , which is the learning data, is a sequence of state transitions corresponding to a speech recognition result obtained as a result of performing speech recognition on the input sequence X- (1) , X- (2) ,. (Referred to as “recognition state transition series”) (s 1) and output to the fine-grained error scale calculation unit 107 and the parameter estimation unit 111.

一つの入力系列X−(n)(ただし、n=1,2,…,N)に対して、考えられうる全ての状態遷移の系列を認識状態遷移系列として生成してもよいし、式(1)及び(3)に基づき系列コスト関数Πを求め、系列コスト関数Πの小さいもの上位R個に対応する状態遷移系列を認識状態遷移系列として生成してもよい。ただし、Rは1以上の整数である。そのため、認識状態遷移系列には、間違いやすい状態遷移系列のみが含まれ、正解状態遷移系列が含まれていない場合もある。 For one input sequence X- (n) (where n = 1, 2,..., N), all possible state transition sequences may be generated as recognition state transition sequences, A sequence cost function Π may be obtained based on 1) and (3), and a state transition sequence corresponding to the top R items having a smaller sequence cost function Π may be generated as a recognized state transition sequence. However, R is an integer of 1 or more. Therefore, the recognized state transition sequence includes only a state transition sequence that is easy to be mistaken, and may not include a correct state transition sequence.

本実施形態では、状態遷移誤りを最小にする学習を行うため、準備として、正解状態遷移系列及びセグメント情報に対応するラティスと、実際に学習データである入力系列X−(1),X−(2),…,X−(N)に対して音声認識処理を行い、認識結果として得られる認識状態遷移系列を記録したラティスを用意する。なお、ラティスとは、各状態のつながり(以下「アーク」ともいう)をグラフとして表現したものである。 In this embodiment, in order to perform learning that minimizes a state transition error, as preparation, a lattice corresponding to a correct state transition sequence and segment information, and input sequences X − (1) and X − ( 2) ,..., X- (N) are subjected to speech recognition processing, and a lattice recording a recognition state transition sequence obtained as a recognition result is prepared. Note that the lattice is a graph representing a connection between states (hereinafter also referred to as “arc”).

正解状態遷移系列に対応するラティスを正解ラティスと呼び、L^(n)で表わす。また、認識状態遷移系列に対応するラティスを認識ラティスと呼び、L(n)で表わす。図5Aは正解ラティスの例を、図5Bに認識ラティスの例を示す。正解ラティスはs^(n)とt^(n)から一意に生成可能であり、図5Aの場合、s^(n)={1,13,9,14,15,1}、t^(n)={1,3,13,17,20,25}からそれらを列挙することによって生成したものと考えることができる。ただし、正解ラティスL^(n)は、正解単語列と音声認識装置を用いて予め算出してあるものとする。 The lattice corresponding to the correct state transition sequence is called a correct lattice and is represented by L ^ (n) . The lattice corresponding to the recognition state transition sequence is called a recognition lattice and is represented by L (n) . FIG. 5A shows an example of a correct answer lattice, and FIG. 5B shows an example of a recognition lattice. The correct lattice can be uniquely generated from s (n) and t (n) . In the case of FIG. 5A, s (n) = {1, 13, 9, 14, 15, 1}, t ( n) can be considered to be generated by enumerating them from {1, 3, 13, 17, 20, 25}. However, the correct lattice L ^ (n) is calculated in advance using a correct word string and a speech recognition device.

本実施形態では、認識部105は、認識状態遷移系列として、この認識ラティスを生成し、出力する。   In the present embodiment, the recognition unit 105 generates and outputs this recognition lattice as a recognition state transition sequence.

各ラティスは数学的にはアーク系列の集合として捉えることが可能であり、以降の説明でも、この考えを用いる。この考えではラティス変数Lは始端から終端に至るまで通過しなければならないアークを列挙した系列を、取り得る全ての場合について列挙したもの(集合)として考えることができる。例えば、図5Aの正解ラティスは一つのアーク系列{a^,a^,a^,a^,a^}の集合、図5Bの認識ラティスは以下に示す六つのアーク系列e〜eの集合と捉えることができる。
={a,a,a,a,a
={a,a,a10,a11,a
={a,a,a10,a12,a13
={a,a,a,a,a
={a,a,a10,a11,a
={a,a,a10,a12,a13}。
なお、図5Bの場合、各アーク系列に含まれるアークの数が同じであるが、アーク系列毎に異なる個数のアークが含まれる場合もある。各アークaには、遷移前状態、遷移後状態、遷移前時刻及び遷移後時刻の情報が関連付いており、それぞれs(a)、s’(a)、t(a)及びt’(a)、と表す。例えば、図5Bのアークaには、s(a)=13、s’(a)=9、t(a)=3及びt’(a)=13が関連付いている。また、ラティスにはさらに認識結果に対応する出力シンボルo(s,s’)や、認識時に算出したコスト等の情報も付与されてもよい。また、状態sから状態s’への状態遷移を(s(a),s’(a))と表す。
Each lattice can be mathematically understood as a set of arc sequences, and this idea will be used in the following description. In this view, the lattice variable L can be considered as a set (set) of all possible cases that enumerates a series of arcs that must pass from the beginning to the end. For example, the correct answer lattice in FIG. 5A is a set of one arc sequence {a ^ 1 , a ^ 2 , a ^ 3 , a ^ 4 , a ^ 5 }, and the recognition lattice in FIG. 5B is the six arc sequences e shown below. it can be regarded as a set of 1 ~e 6.
e 1 = {a 1 , a 2 , a 3 , a 4 , a 5 }
e 2 = {a 1 , a 7 , a 10 , a 11 , a 5 }
e 3 = {a 1 , a 7 , a 10 , a 12 , a 13 }
e 4 = {a 6 , a 9 , a 3 , a 4 , a 5 }
e 5 = {a 6 , a 8 , a 10 , a 11 , a 5 }
e 6 = {a 6 , a 8 , a 10 , a 12 , a 13 }.
In the case of FIG. 5B, the number of arcs included in each arc series is the same, but a different number of arcs may be included for each arc series. Each arc a i is associated with pre-transition state, post-transition state, pre-transition time and post-transition time information, and s (a i ), s ′ (a i ), t (a i ) and t ′ (a i ). For example, arc a 2 in FIG. 5B is associated with s (a 2 ) = 13, s ′ (a 2 ) = 9, t (a 2 ) = 3, and t ′ (a 2 ) = 13. Further, the lattice may be given information such as an output symbol o (s, s ′) corresponding to the recognition result and a cost calculated at the time of recognition. Further, the state transition from the state s to the state s ′ is represented as (s (a i ), s ′ (a i )).

[パラメタ推定の原理]
パラメタ推定部111及び細粒度エラー尺度算出部107の処理を説明する前に、パラメタ推定の原理を説明する。本実施形態が対象とするのは式(4)における調整パラメタベクトルα h(s、s’)であり、この調整パラメタベクトルα h(s、s’)の集合をA:={α |∀i}と表す。ただし、iはh(s,s’)によって得られるインデックスであり、α のd次元目をαi,dと表す。なお、全てのs、s’についてh(s,s’)が異なる自然数を取るように設計すれば、全ての状態遷移に対応することが可能である。また、h(s,s’)の設計を変更することで、メモリ使用量や計算量を節約してもよい。
[Principle of parameter estimation]
Before describing the processing of the parameter estimation unit 111 and the fine grain error scale calculation unit 107, the principle of parameter estimation will be described. The target of this embodiment is the adjustment parameter vector α h (s, s ′) in Expression (4), and this set of adjustment parameter vectors α h (s, s ′) is represented by A: = {α I | ∀i}. Where, i is the index obtained by h (s, s'), α - the d-th dimension of the i expressed as alpha i, d. If all s and s ′ are designed so that h (s, s ′) takes different natural numbers, all state transitions can be handled. Further, by changing the design of h (s, s ′), the memory usage and the calculation amount may be saved.

(1)MMI法
細粒度エラー尺度を導入する前に、集合Aの学習に既存手法であるMMI法(参考文献1参照)を適用することを考える。音響モデル学習のために提案されたMMI法と同様の式を状態系列に関して行なうこと考えると、以下のような最適化問題の解として集合Aを得る手法が導出される。
(1) MMI method Before introducing the fine-grained error scale, consider applying the MMI method (see Reference 1), which is an existing method, to learning the set A. Considering that an equation similar to the MMI method proposed for acoustic model learning is performed on the state series, a method for obtaining the set A as a solution of the following optimization problem is derived.

Figure 0005749187
Figure 0005749187

式(6)は、与えられたセグメント時刻tに従って状態遷移sが起こる確率をexp(−Π|(s^(n),t^(n),X−(n)))に比例すると仮定し、入力系列Xを観測した上での正解状態遷移確率の事後確率を最大化するような学習であると言える。この最適化を実行することにより、不正解に比べて正解が起こりやすくなるように集合Aが調整されるが、この目的関数では正解以外の全ての状態遷移パターンについて同等に扱っており、その状態遷移パターンが正解からどれだけ離れているかという尺度は考慮されていない。 Equation (6) shows that the probability that the state transition s occurs according to a given segment time t is proportional to exp (−Π | (s ^ (n) , t ^ (n) , X − (n) )). assuming the input sequence X - can be said to be learning that maximizes the posterior probability of the correct state transition probability after having observed the. By executing this optimization, the set A is adjusted so that correct answers are more likely to occur than incorrect answers. This objective function treats all state transition patterns other than correct answers equally, and A measure of how far the transition pattern is from the correct answer is not considered.

分母にある総和記号Σs−,t−(ただし、下付添字s−,t−は、それぞれs,tを表す)は、全ての取り得る状態遷移及び全ての取り得るセグメント時刻についての総和であるが、一般にこの総和を取るには大きな計算量が必要であると言われている。そこで、例えば上記の目的関数を、認識ラティスを用いて以下のように近似する。 Sum symbol sigma s-in the denominator, t-(where subscript s-, t-each s -, t - represents a) is for all possible state transitions and all possible segments Time Although it is a sum, it is generally said that a large amount of calculation is required to obtain this sum. Therefore, for example, the above objective function is approximated as follows using a recognition lattice.

Figure 0005749187
Figure 0005749187

ここで総和Σa−∈L(n)(ただし、下付添字a−∈L(n)は、a∈L(n)を表す)は認識ラティスL(n)中で取り得る全てのアーク系列(または系列コスト関数Πの小さい上位R個のアーク系列)についての総和であり、総和Σ(ただし、aはアーク系列aのj番目のアークを示す)はアーク系列aに含まれるアークaについての総和である。同様にMMI分子も正解ラティスにより表現にする。 Here summation Σ a-∈L (n) (where the subscripts a-∈L (n) is, a - represents a ∈L (n)) are all arcs may take in recognition lattice L (n) is the sum of the sequence (or sequences cost function smaller upper the R arc series of [pi), the sum sigma j (However, a j is the arc line a - shows the j-th arc) is the arc line a - a contained Is the sum of arc a j . Similarly, the MMI molecule is expressed by a correct lattice.

Figure 0005749187
Figure 0005749187

ここで、総和Σ(ただし、a^は正解ラティスのアーク系列のj番目のアークを示す)は正解ラティスのアーク系列に含まれるアークa^についての総和である。一般的に正解状態遷移s^に対応するラティスは正確なものを利用することができるため、分子の項は近似ではない。 Here, the sum Σ j (where a ^ j represents the j-th arc of the arc sequence of the correct lattice) is the sum of the arcs a ^ j included in the arc sequence of the correct lattice. In general, an accurate lattice corresponding to the correct state transition ^ can be used, so the numerator term is not an approximation.

図5に示される通り、各アークa(ただし、j=1,2,…,J)には遷移前状態s(a)、遷移後状態s’(a)、遷移前時刻t(a)、遷移後時刻t’(a)が記録されておりアークの遷移を辿っていけば、分母の効率の良い近似ができるように設計されている。このような認識ラティスは従来の音声認識装置を用いて得ることができる。この目的関数は連続であり、目的関数の導関数も連続なので、最適化は最急勾配法を用いて行うことができる。パラメタ推定部111では、認識ラティスを用いて目的関数を近似することで、計算量を削減し、高速に調整パラメタベクトルの最適化を行うことができる。 As shown in FIG. 5, each arc a j (where j = 1, 2,..., J) has a pre-transition state s (a j ), a post-transition state s ′ (a j ), and a pre-transition time t ( a j ) and the time t ′ (a j ) after the transition are recorded, and it is designed so that the denominator can be efficiently approximated by following the arc transition. Such a recognition lattice can be obtained using a conventional speech recognition apparatus. Since the objective function is continuous and the derivative of the objective function is also continuous, optimization can be performed using the steepest gradient method. The parameter estimation unit 111 can reduce the amount of calculation and optimize the adjustment parameter vector at high speed by approximating the objective function using the recognition lattice.

(2)bMMI法
細粒度エラー尺度を導入するために、bMMI法(参考文献3参照)を導入する。bMMI法では、単に正解系列の事後確率を最大化するのではなく、エラー尺度の大きい系列が出易いように確率分布を修正した上で、正解系列の事後確率を最大化するように試みる。この修正によって、エラー尺度の大きい系列がより出にくくなるようにパラメタが調整される。
(2) bMMI method In order to introduce the fine-grained error scale, the bMMI method (see Reference 3) is introduced. In the bMMI method, instead of simply maximizing the posterior probability of the correct sequence, the probability distribution is corrected so that a sequence with a large error measure is likely to appear, and then the posterior probability of the correct sequence is attempted to be maximized. By this modification, the parameters are adjusted so that a series with a large error measure is less likely to appear.

具体的には、エラー尺度E(s,t;s^(n),t^(n))が大きいものほど系列コスト関数が小さくなったとみなす、以下の修正目的関数を用いる。 Specifically, the following modified objective function is used, which considers that the larger the error measure E (s , t ; s ^ (n) , t ^ (n) ) is, the smaller the sequence cost function is.

Figure 0005749187
Figure 0005749187

ただし、σは調整可能なパラメタで、一般にチューニング用のデータセットを用いて調整する。この目的関数を用いることで、エラー尺度E(s,t;s^(n),t^(n))が大きい誤りを起こしにくいパラメタが得られることが知られている(参考文献3参照)。 However, σ is an adjustable parameter and is generally adjusted using a tuning data set. By using this objective function, it is known that a parameter with a large error scale E (s , t ; s (n) , t (n) ) is less likely to cause an error (reference document 3). reference).

エラー尺度Eとして状態遷移誤りを用いた場合、認識ラティスによる近似を行った後でも、各認識ラティスのアーク毎に状態遷移エラーの発生回数を状態遷移のエラー尺度Eとして求めることができる。 When the state transition error is used as the error measure E, the number of occurrences of the state transition error can be obtained as the state transition error measure E 1 for each arc of each recognition lattice even after approximation by the recognition lattice.

Figure 0005749187
Figure 0005749187

また、bMMI分子に関してはMMI分子と同様にラティスによる表現が可能である。   In addition, bMMI molecules can be expressed in a lattice as with MMI molecules.

細粒度エラー尺度は、出力シンボル系列全体が正解とどのくらい離れているかを、従来技術より細かく表現するために必要な尺度である。具体的には、実際に出てくる出力シンボルと正解の出力シンボルの編集距離を用いたり、出力シンボルを音素まで分解した上で実際に出てくる音素列と正解の音素列の編集距離を用いたりすることができる。何れの場合も正解の通りに音声認識動作した場合の動作パターンと、実際の動作パターンがどれくらい異なるかを示す尺度である。出力シンボルのエラーより、音素のエラーといったように、なるべく細かい粒度のエラー尺度を使うことが有効であることが経験的に明かになっている(参考文献2〜4参照)。本実施形態では、例として、有限状態遷移モデルに基づく音声認識で最も細粒度な動作である状態遷移において、正解の状態遷移パターンと、実際の状態遷移パターンがどれだけ異なるかを、異なる状態遷移を行なった回数をカウントすることで表現することを考える。   The fine granularity error measure is a measure necessary for expressing how far the entire output symbol sequence is from the correct answer more finely than in the prior art. Specifically, use the edit distance between the actual output symbol and the correct output symbol, or use the edit distance between the actual phoneme sequence and the correct phoneme sequence after decomposing the output symbol into phonemes. Can be. In any case, it is a scale indicating how much the actual motion pattern differs from the motion pattern when the speech recognition operation is performed as correct. It has been empirically revealed that it is effective to use an error scale with as fine a granularity as possible, such as a phoneme error rather than an output symbol error (see References 2 to 4). In the present embodiment, as an example, in the state transition which is the finest granularity operation in speech recognition based on the finite state transition model, how different the correct state transition pattern and the actual state transition pattern are are different. Consider expressing it by counting the number of times it was performed.

本実施形態ではラティス表現を用いるため、認識ラティスの各アークにおいて、何回状態遷移誤りを起こしたかというアーク毎の状態遷移エラー尺度(上式におけるE(a))が必要になる。アーク毎の状態遷移のエラー尺度E(a)は、正解ラティスの配列表現c(n)を用いて計算を行う。まず、正解ラティスの配列表現c(n)の各要素c(n) τは各時刻における遷移前状態と遷移後状態のペアを表現し、図6に示すようなアルゴリズムで得ることができる。 In this embodiment, since lattice representation is used, a state transition error scale (E to (a j ) in the above equation) for each arc indicating how many state transition errors have occurred in each arc of the recognition lattice is required. The error measure E ~ (a j ) of the state transition for each arc is calculated using the array representation c (n) of the correct lattice. First, each element c (n) τ in the array representation c (n) of the correct lattice represents a pair of a pre-transition state and a post-transition state at each time, and can be obtained by an algorithm as shown in FIG.

このアルゴリズムでは、入力系列のフレーム数と同じ要素数を持つ配列c(n)のτ要素目c(n) τに、そのフレーム(τ番目のフレーム)を処理した時に起こった状態遷移(s(a^),s’(a^))を格納していく(s107−3)という操作を行う。状態遷移(s(a^),s’(a^))が起こっているフレーム全てに対してs107の処理を行う(s107−2、s107−4、s107−5)。さらに全ての状態遷移(s(a^),s’(a^))に対してs107−2〜s107−5の処理を行う(s107−1、s107−6、s107−7)。これによって、フレーム番号tとそれに対応する正解状態遷移系列についての簡易な表現を得ることができる。図5Aの正解ラティスについて上述の処理を行った場合の配列表現c(n)を図7に示す。 In this algorithm, a state transition (s () (s ()) that occurs when the frame (τ-th frame) is processed in the τ-element c (n) τ of the array c (n) having the same number of elements as the number of frames of the input sequence. a ^ j ), s' (a ^ j )) is stored (s107-3). The processing of s107 is performed on all frames in which state transitions (s (a ^ j ), s' (a ^ j )) have occurred (s107-2, s107-4, s107-5). Further, the processing of s107-2 to s107-5 is performed for all state transitions (s (a ^ j ), s' (a ^ j )) (s107-1, s107-6, s107-7). This makes it possible to obtain a simple expression about the frame number t and the corresponding correct state transition sequence. FIG. 7 shows an array representation c (n) when the above processing is performed on the correct lattice in FIG. 5A.

この配列表現を用いて、アーク毎の状態遷移のエラー尺度E(a)は以下のように表現できる。 Using this array representation, the error scale E ~ (a j ) of state transition for each arc can be expressed as follows.

Figure 0005749187
Figure 0005749187

ただし、δ(a,b)は、クロネッカのデルタ関数と呼ばれている関数でa=bなら1、そうでなければ0を取る。 However, δ (a, b) is a function called a Kronecker delta function, and takes 1 if a = b, and 0 otherwise.

この計算式は各アークaと、それに対応する状態遷移(s(a),s’(a))が上で求めた正解状態遷移と、何フレーム分異なるかを計算する。具体的には各アークの開始時刻(t(a))から終了時刻(t’(a)−1)に関して、そのアークが表現する状態遷移(s(a),s’(a))と、正解状態遷移の配列表現c(n)が何フレーム分異なるかをデルタ関数と総和によって計算する。よって、異なる状態遷移を行った回数を計数していると言ってもよいし、異なる状態遷移を行った時間((異なる状態遷移を行った回数)×(1フレームに対する時間))を算出していると言ってもよい。 This calculation formula calculates how many frames each arc a j and the corresponding state transitions (s (a j ), s ′ (a j )) differ from the correct state transition obtained above. Specifically, regarding the start time (t (a j )) to the end time (t ′ (a j ) −1) of each arc, the state transitions (s (a j ), s ′ (a j ) represented by the arc )) And the frame representation c (n) of the correct state transition are calculated by the delta function and the sum. Therefore, it can be said that the number of times of performing different state transitions is counted, and the time ((number of times of performing different state transitions) × (time for one frame)) of performing different state transitions is calculated. It can be said that there is.

(3)dMMI法
dMMI法(参考文献4参照)ではエラー尺度を直接的に削減するため、以下の目的関数を最大化することを試みる。
(3) dMMI Method The dMMI method (see Reference 4) attempts to maximize the following objective function in order to directly reduce the error measure.

Figure 0005749187
Figure 0005749187

ただし、分母にある総和Σs’−,t’−(ただし、下付添字s’−,t’−は、それぞれs’,t’を表す)は、全ての取り得る状態遷移及び全ての取り得るセグメント時刻についての総和である。式(12)の分数部分は、全ての取り得る状態遷移及び全ての取り得るセグメント時刻についての、s,tの起こりえる確率P(s,t)を表している。この目的関数は負のエラー尺度E(s,t;s^(n),t^(n))の確率P(s,t)に関する期待値となっており、これを最大化することはエラー尺度を直接小さくするようにパラメタを調整していることに相当する。参考文献4によると、この目的関数の有効な近似として、bMMIの目的関数を用いた以下の形を使用可能であることがわかっている。 However, the sum Σ s′−, t′− in the denominator (where subscripts s′− and t′− represent s ′ and t ′ respectively) represents all possible state transitions and all This is the sum of the segment times that can be taken. The fractional part of Equation (12), for all possible state transitions and all possible segments time, s -, t - it occurs may probability P (s -, t -) of the represent. This objective function is the expected value for the probability P (s , t ) of the negative error measure E (s , t ; s ^ (n) , t ^ (n) ), which is maximized Doing this is equivalent to adjusting the parameters to directly reduce the error measure. According to Reference 4, it is known that the following form using the bMMI objective function can be used as an effective approximation of the objective function.

Figure 0005749187
Figure 0005749187

ここでσ及びσは調整可能なパラメタであり、σ≠σである。なお、原理上は上の最適化を直接近似なしに解くことも可能である。 Here, σ 1 and σ 2 are adjustable parameters, and σ 1 ≠ σ 2 . In principle, the above optimization can be solved without direct approximation.

<細粒度エラー尺度算出部107>
細粒度エラー尺度算出部107は、正解状態遷移系列と認識状態遷移系列との差異に基づき、エラー尺度を算出し(図4のs3)、パラメタ推定部111に出力する。本実施形態では、正解状態遷移系列と認識状態遷移系列との間において、異なる状態遷移を行った回数を計数し、その回数(または、その回数に対応する時間)をエラー尺度として算出する。例えば、細粒度エラー尺度算出部107は、正解経路格納部109から正解状態遷移系列s^(n)と、s^(n)に対応するセグメント時刻t^(n)を取り出し、正解ラティスL^(n)を生成する。また、認識部105から認識ラティスL(n)を受け取る。正解ラティスL^(n)を用いて配列c(n)を生成し、式(11)によりエラー尺度Eを算出し、パラメタ推定部111に出力する。なお、生成した正解ラティスは、素性ベクトル生成部111cに出力する。
<Fine Grain Error Scale Calculation Unit 107>
The fine-grained error measure calculation unit 107 calculates an error measure based on the difference between the correct state transition sequence and the recognized state transition sequence (s3 in FIG. 4), and outputs the error measure to the parameter estimation unit 111. In the present embodiment, the number of times of different state transitions between the correct state transition sequence and the recognized state transition sequence is counted, and the number of times (or time corresponding to the number of times) is calculated as an error scale. For example, fine grained error measure calculator 107, the correct state transition sequence from correct path storage unit 109 s ^ (n), s ^ (n) corresponding to the segment time t ^ (n) is taken out, correct lattice L ^ (N) is generated. Also, the recognition lattice L (n) is received from the recognition unit 105. An array c (n) is generated by using the correct lattice L ^ (n) , an error measure E 1 is calculated by Expression (11), and is output to the parameter estimation unit 111. The generated correct lattice is output to the feature vector generation unit 111c.

<パラメタ推定部111>
図8はパラメタ推定部111の機能ブロック図を、図9はその処理フローを示す。
<Parameter estimation unit 111>
FIG. 8 shows a functional block diagram of the parameter estimation unit 111, and FIG. 9 shows a processing flow thereof.

パラメタ推定部111は、エラー尺度Eに応じて調整パラメタベクトルα h(s、s’)を修正する(図4のs5)。 The parameter estimation unit 111 corrects the adjustment parameter vector α h (s, s ′) according to the error measure E˜ (s5 in FIG. 4).

パラメタ推定部111は、調整パラメタ初期化部111a、勾配ベクトル初期化部111b、素性ベクトル生成部111c、アーク重み算出部111d、偏微分係数更新部111e、調整パラメタ更新部111f及び収束判定部111gを含む。
(調整パラメタ初期化部111a)
調整パラメタ初期化部111aは、調整パラメタベクトルの集合A:={α |∀i}の調整パラメタベクトルα の各要素αi,d(調整パラメタベクトルα のd番目の要素)の初期化を行い(s111−1)、全ての調整パラメタベクトルα の全ての要素αi,dを初期化した集合Aを有限状態モデル調整パラメタ格納部113に格納する。なお、本実施形態では単に0を代入することで初期化する。他にもガウス分布からの等価変換に基づく初期化や、データセットの統計量に基づく初期化などが考えられる。
The parameter estimation unit 111 includes an adjustment parameter initialization unit 111a, a gradient vector initialization unit 111b, a feature vector generation unit 111c, an arc weight calculation unit 111d, a partial differential coefficient update unit 111e, an adjustment parameter update unit 111f, and a convergence determination unit 111g. Including.
(Adjustment parameter initialization unit 111a)
Adjustment parameter initialization unit 111a, a set of adjustment parameters vector A: = - | adjustment parameter vector of {α i ∀i} α - each element alpha i, d (adjustment parameter vector of i α - i d th element of ) Is initialized (s111-1), and the set A in which all the elements α i, d of all the adjustment parameter vectors α - i are initialized is stored in the finite state model adjustment parameter storage unit 113. In this embodiment, initialization is performed simply by substituting 0. In addition, initialization based on the equivalent transformation from Gaussian distribution, initialization based on the statistics of the data set, and the like can be considered.

(勾配ベクトル初期化部111b)
勾配ベクトル初期化部111bは、調整パラメタベクトルα のd番目の要素αi,dに対応する偏微分係数Δi,dを初期化し(s111−2)、偏微分係数更新部111eに出力する。ここでは各データから算出される勾配の総和を取るため、最初に勾配ベクトルの全要素を0で初期化する。
(Gradient vector initialization unit 111b)
The gradient vector initialization unit 111b initializes the partial differential coefficient Δ i, d corresponding to the d-th element α i, d of the adjustment parameter vector α - i (s111-2) and outputs it to the partial differential coefficient update unit 111e. To do. Here, in order to take the sum of the gradients calculated from each data, first, all elements of the gradient vector are initialized with zero.

(素性ベクトル生成部111c)
素性ベクトル生成部111cは、細粒度エラー尺度算出部107から正解ラティスL^(n)を受け取る。さらに素性ベクトル生成部111cは、学習データ格納部103から学習データX−(n)を取り出し、正解ラティスL^(n)と認識ラティスL(n)の各アークに対応する素性ベクトルを計算し(s111−4)、偏微分係数更新部111eに出力する。φ^n,j,dはn番目の正解ラティスのj番目のアークに対応する素性ベクトルのd次元目の要素であり、φ n,j,dはn番目の認識ラティスのj番目のアークに対応する素性ベクトルのd次元目の要素である。計算は、どのような素性ベクトルを用いるかによって異なるが、例えば式(5)の素性ベクトルを用いるならば、式(5)にアークの時刻情報を代入したベクトルφ(X−(n),t(a),t’(a))のd番目の要素を利用すれば良い。
(Feature Vector Generation Unit 111c)
The feature vector generation unit 111c receives the correct lattice L ^ (n) from the fine granularity error scale calculation unit 107. Furthermore, the feature vector generation unit 111c extracts the learning data X- (n) from the learning data storage unit 103, and calculates a feature vector corresponding to each arc of the correct lattice L ^ (n) and the recognition lattice L (n) ( s111-4), and outputs it to the partial differential coefficient updating unit 111e. φ ^ n, j, d is the d- th element of the feature vector corresponding to the jth arc of the nth correct lattice, and φ n, j, d is the jth arc of the nth recognition lattice. Is the d-th element of the feature vector corresponding to. The calculation differs depending on what kind of feature vector is used. For example, if the feature vector of Expression (5) is used, a vector φ (X − (n) , The d-th element of t (a j ), t ′ (a j )) may be used.

(アーク重み算出部111d)
アーク重み算出部111dは、有限状態モデル格納部101から状態遷移コストω(s,s’)及びlogP(x τ|I[s,s’])を取り出し、学習データ格納部103から学習データX−(n)を取り出し、認識部105から認識ラティスL(n)を受け取り、有限状態モデル調整パラメタ格納部113から調整パラメタベクトルα を取り出し、細粒度エラー尺度算出部107からエラー尺度Eを受け取り、学習基準(bMMIかdMMIか)に応じて対応するアーク重みγn,i,jを算出し(s111−5)、偏微分係数更新部111eに出力する。
(Arc weight calculator 111d)
The arc weight calculation unit 111 d extracts the state transition cost ω (s, s ′) and logP (x τ | I [s, s ′]) from the finite state model storage unit 101, and learns data from the learning data storage unit 103. X- (n) is extracted, the recognition lattice L (n) is received from the recognition unit 105, the adjustment parameter vector α - i is extracted from the finite state model adjustment parameter storage unit 113, and the error measure E is output from the fine-grained error measure calculation unit 107. receiving ~ the learning reference to calculate the corresponding arc weights gamma n, i, j in accordance with (BMMI or dMMI or) (s111-5), and outputs the partial differential coefficient update unit 111e.

bMMIのアーク重みγn,i,jはForward-Backwardアルゴリズムを用いて求める。まず、各アークaの前向きコストαを以下の再帰式によって求める。 The bMMI arc weights γ n, i, j are obtained using the Forward-Backward algorithm. First, the forward cost alpha j of each arc a j according to the following recursion formula.

Figure 0005749187
Figure 0005749187

ここでPre(j)はj番目のアークaに先行して接続しているアークのインデックス集合であり、すなわちPre(j)={j’|s’(aj’)=s(a)}であり、認識ラティスL(n)に基づき求めることができる。またkはラティススムーシング係数とも呼ばれる数値であり、ラティスによる近似を用いた手法の精度向上のために調整可能な係数である。遷移コスト関数πは、状態遷移コストω(s,s’)及びlogP(x τ|I[s,s’])、学習データX−(n)、調整パラメタベクトルα を用いて式(4)に基づき求める。同様に後ろ向きコストβを以下の再帰式によって求める。 Here, Pre (j) is an index set of arcs connected prior to the j-th arc a j , that is, Pre (j) = {j ′ | s ′ (a j ′ ) = s (a j )}, Which can be obtained based on the recognition lattice L (n) . K is a numerical value called a lattice smoothing coefficient, and is a coefficient that can be adjusted to improve the accuracy of a technique using approximation by lattice. The transition cost function π is expressed by using the state transition cost ω (s, s ′) and logP (x τ | I [s, s ′]), learning data X− (n) , and the adjustment parameter vector α i. Calculate based on (4). Similarly, the backward cost β j is obtained by the following recursive formula.

Figure 0005749187
Figure 0005749187

ここでFol(j)はj番目のアークaに後続して接続しているアークのインデックスの集合であり、すなわちFol(j)={j’|s(aj’)=s’(a)}である。αとβ及び最初のアークにおける後ろ向きコストB=βを用いて、γn,jは以下のように表わされる。 Here, Fol (j) is a set of arc indices connected after the j-th arc a j , that is, Fol (j) = {j ′ | s (a j ′ ) = s ′ (a j )}. Using α j and β j and the backward cost B = β 1 at the first arc, γ n, j is expressed as:

Figure 0005749187
Figure 0005749187

dMMIのアーク重みγn,jは、bMMIのγn,jをσの関数としてγ n,j(σ)と置いた時、異なるσ≠σに対して二回上述の計算(式(14)、(15))を繰り返すことによって、以下のように得られる。 Arc weight gamma n, j of dMMI is, γ n, j and gamma ~ n as a function of the sigma of BMMI, when placed with j (sigma), different σ 2 ≠ σ 1 with respect to twice the above calculation (formula By repeating (14) and (15)), the following is obtained.

Figure 0005749187
Figure 0005749187

(偏微分係数更新部111e)
偏微分係数更新部111eは、素性ベクトル生成部111cから正解ラティスL^(n)、素性ベクトルφ^n,j,d及びφ n,j,dを受け取り、認識部105から認識ラティスL(n)を受け取り、アーク重み算出部111dからアーク重みγn,jを受け取り、入力nに対応する勾配係数を全アークに対して加算し、偏微分係数Δi,dを更新し(s111−6)、調整パラメタ更新部111fに出力する。
(Partial differential coefficient update unit 111e)
Partial differential coefficient update unit 111e is correct from feature vector generating unit 111c lattice L ^ (n), feature vector phi ^ n, j, d and phi - receiving n, j, and d, recognition from the recognition unit 105 lattice L ( n) , the arc weight γ n, j is received from the arc weight calculator 111d , the gradient coefficient corresponding to the input n is added to all arcs, and the partial differential coefficient Δ i, d is updated (s111-6). ) And output to the adjustment parameter update unit 111f.

Figure 0005749187
Figure 0005749187

上述の処理(s111−4〜s111−6)を全ての学習データに対して行う(s111−3、s111−7、s111−8)。   The above processing (s111-4 to s111-6) is performed on all the learning data (s111-3, s111-7, s111-8).

(調整パラメタ更新部111f)
調整パラメタ更新部111fは、偏微分係数Δi,dを受け取り、このΔi,dを用いて、調整パラメタベクトルαi,dの更新を行い(s111−9)、有限状態モデル調整パラメタ格納部113に格納する。例えば、トレーニング法として最急勾配法を利用した場合、以下の式によって更新を行う。
(Adjustment parameter update unit 111f)
The adjustment parameter update unit 111f receives the partial differential coefficient Δ i, d and updates the adjustment parameter vector α i, d using this Δ i, d (s111-9), and the finite state model adjustment parameter storage unit 113 is stored. For example, when the steepest gradient method is used as a training method, updating is performed according to the following formula.

Figure 0005749187
Figure 0005749187

ここでηは学習率と呼ばれる変数であり、適切に設定する必要がある。なお、この更新ルールは用いた最適化法によって異なる。 Here, η is a variable called a learning rate and needs to be set appropriately. This update rule differs depending on the optimization method used.

(収束判定部111g)
収束判定部111gは、有限状態モデル調整パラメタ格納部113から調整パラメタベクトルαi,dを取り出し、収束判定を行い(s111−10)、収束していた場合は学習プログラムを終了する。収束していなかった場合は、s111−2〜s111−9の処理を繰り返すように各部に対し制御信号を送信する。判定の方法としては、単に何回ループしたかをカウントする方法や、バリデーションデータを用いて音声認識率が向上し続ける限り続ける方法、目的関数の値を評価して変動が閾値より小さくなった時点で打ち切る方法などがある。
(Convergence determination unit 111g)
The convergence determination unit 111g extracts the adjustment parameter vector α i, d from the finite state model adjustment parameter storage unit 113, performs the convergence determination (s111-10), and ends the learning program if it has converged. If not converged, a control signal is transmitted to each unit so as to repeat the processing of s111-2 to s111-9. Judgment methods include simply counting the number of loops, continuing as long as the speech recognition rate continues to improve using validation data, and when the objective function value is evaluated and the fluctuation becomes smaller than the threshold. There is a method to stop by.

図2の音声認識装置12は、有限状態モデル調整パラメタ格納部123に格納されている、パラメタ推定装置100において生成された調整パラメタベクトルαi,dを用いて、音声認識を行うことでその精度を向上させることができる。なお、有限状態モデル調整パラメタ格納部123(図2参照)には、最終的に有限状態モデル調整パラメタ格納部113(図3参照)に格納されている調整パラメタベクトルαi,dと同一の情報が格納されている。 The speech recognition apparatus 12 in FIG. 2 performs speech recognition using the adjustment parameter vector α i, d generated in the parameter estimation apparatus 100 stored in the finite state model adjustment parameter storage unit 123, thereby improving its accuracy. Can be improved. The finite state model adjustment parameter storage unit 123 (see FIG. 2) stores the same information as the adjustment parameter vector α i, d finally stored in the finite state model adjustment parameter storage unit 113 (see FIG. 3). Is stored.

<実験結果>
本実施形態の有効性を確認するため、大語彙音声認識実験を行った。この実験では、収束判定部111gにおいてバリデーションデータに基づく手法を用いた。特徴ベクトル系列抽出部7としては音声信号を12次元Mel-frequency cepstral coefficients(MFCC)と、対数パワーに変換し、その上でそれら13次元変数の時間微分値、及び時間二階微分値を結合することで、39次元入力ベクトルへと変換する装置を用いた。データセットは、英語の講義音声データを用いた。学習データセットには、講義音声データから101時間分のデータを利用した。学習データセットに含まれる系列数は60392、単語数は1,076,647単語である。エラー率算出のためのデータセットには講義音声データから7.8時間分のデータを利用した。評価データセットに含まれる系列数は6989、単語数は74823単語である。結果を図10に示す。表中の”+”はdMMI法で個別学習された音声認識装置91に追加で調整パラメタを導入したものを指す。音声認識装置91の最高スコア(dMMI法,28.2%)よりも、本実施形態の調整パラメタベクトルαを用いて音声認識を行う音声認識装置12の最高スコアは27.1%であり(bMMI法、σ2.0の場合)、従来技術に比べ1%以上の精度向上を達成できた。加えて、特許文献1の音声認識装置92と比べても、さらに0.7%の精度向上を確認できた。以上の結果より、本実施形態のパラメタ推定装置が有効に機能しているといえる。
<Experimental result>
In order to confirm the effectiveness of this embodiment, a large vocabulary speech recognition experiment was conducted. In this experiment, a method based on validation data was used in the convergence determination unit 111g. The feature vector series extraction unit 7 converts the speech signal into 12-dimensional Mel-frequency cepstral coefficients (MFCC) and logarithmic power, and then combines the time differential value and the time second-order differential value of these 13-dimensional variables. Thus, a device for converting into a 39-dimensional input vector was used. The data set was English lecture audio data. The learning data set used 101 hours of data from lecture audio data. The number of series included in the learning data set is 60392, and the number of words is 1,076,647 words. The data set for calculating the error rate was 7.8 hours of data from lecture audio data. The number of series included in the evaluation data set is 6989, and the number of words is 74823 words. The results are shown in FIG. “+” In the table indicates that an adjustment parameter is additionally introduced to the speech recognition apparatus 91 individually learned by the dMMI method. The highest score of the speech recognition device 12 that performs speech recognition using the adjustment parameter vector α of this embodiment is 27.1%, compared to the highest score of the speech recognition device 91 (dMMI method, 28.2%) ( In the case of bMMI method, σ2.0), it was possible to achieve an accuracy improvement of 1% or more compared to the prior art. In addition, even when compared with the speech recognition device 92 of Patent Document 1, an accuracy improvement of 0.7% was confirmed. From the above results, it can be said that the parameter estimation apparatus of the present embodiment functions effectively.

<効果>
このような構成によりパラメタ推定の精度を向上させることができる。本実施形態は、このような各モジュールの個別学習によって構築された音声認識装置において、構築済みの状態遷移コストω(s,s’)及びlogP(x τ|I[s,s’])を全体を考慮しながら、再学習することにより、より精度の高いパラメタを推定している。同様の試みは、特許文献1でも行われており、本実施形態の音声認識装置は特許文献1記載のものと同じであるが、その内部で使われている調整パラメタの取得方法が特許文献1とは異なる。本実施形態により推定された調整パラメタを用いることでより音声認識の精度を向上させることができる。
<Effect>
With such a configuration, the accuracy of parameter estimation can be improved. In this embodiment, in the speech recognition apparatus constructed by such individual learning of each module, the constructed state transition cost ω (s, s ′) and logP (x τ | I [s, s ′]) By re-learning while taking the whole into consideration, a more accurate parameter is estimated. A similar attempt is made in Patent Document 1, and the speech recognition apparatus of the present embodiment is the same as that described in Patent Document 1, but the adjustment parameter acquisition method used therein is disclosed in Patent Document 1. Is different. The accuracy of speech recognition can be further improved by using the adjustment parameter estimated according to the present embodiment.

<その他の変形例>
なお、本実施形態では、正解ラティスL^(n)を細粒度エラー尺度算出部107で求めているが、正解単語列と音声認識装置を用いて、図示しない正解ラティス生成部において予め求め、図示しない記憶部に格納しておいてもよい。
<Other variations>
In the present embodiment, the correct lattice L ^ (n) is obtained by the fine-grained error scale calculating unit 107. However, using the correct word string and the speech recognition apparatus, the correct lattice L ^ (n) is obtained in advance by the correct lattice generating unit (not shown). You may store in the memory | storage part which does not.

なお、本実施形態では、一つの正解ラティスに対してアーク系列が一つ存在する場合について述べたが、一つの正解ラティスに対して一つ以上のアーク系列が存在する構成としてもよい。その場合、式(8)に代えて以下の式によりMMI分子を表す。   In this embodiment, the case where one arc sequence exists for one correct lattice has been described. However, a configuration in which one or more arc sequences exist for one correct lattice may be used. In that case, the MMI molecule is represented by the following formula instead of the formula (8).

Figure 0005749187
Figure 0005749187

ここで総和Σa〜∈L^(n)(ただし、下付添字a〜∈L^(n)は、a∈L^(n)を表す)は正解ラティスL^(n)に含まれるアーク系列についての総和であり、総和Σ(ただし、a^jはアーク系列aのj番目のアークを示す)はアーク系列aに含まれるアークa^についての総和である。 Here the sum Σ a~∈L ^ (n) (where subscripts a~∈L ^ (n) represents the a ~ ∈L ^ (n)) are included in the correct lattice L ^ (n) is the sum of the arc sequence, the sum sigma j (However, a ^ j represents the j-th arc-arc sequence a) is the sum of the arc a ^ j contained in the arc sequence a ~.

本実施形態では、アーク重みγn,jとして認識ラティスに対応するもののみ計算しているが、正解ラティスに対応するアーク重みγ^n,jを計算してもよい。その場合、アーク重み算出部111dは、素性ベクトル生成部111cから正解ラティスを受け取り、式(14)〜(16)に代えて、以下の式を用いて、bMMIのアーク重みγ^n,jを算出する。 In the present embodiment, only the arc weight γ n, j corresponding to the recognition lattice is calculated, but the arc weight γ ^ n, j corresponding to the correct lattice may be calculated. In this case, the arc weight calculation unit 111d receives the correct answer lattice from the feature vector generation unit 111c, and uses the following formula instead of the formulas (14) to (16) to calculate the arc weight γ ^ n, j of the bMMI. calculate.

Figure 0005749187
Figure 0005749187

Figure 0005749187
Figure 0005749187

この場合もエラー尺度Eは本実施形態と同様、一つの正解のみを含む正解ラティスを用いて計算する必要がある。 As with this case error measure E ~ this embodiment, it is necessary to calculate using the correct lattice that contains only one correct answer.

Figure 0005749187
Figure 0005749187

dMMIのアーク重みγn,jは、式(17)に代えて以下の式で求める。 The arc weight γ n, j of dMMI is obtained by the following equation instead of equation (17).

Figure 0005749187
Figure 0005749187

この場合、偏微分係数更新部111eは式(18)に代えて以下の式で偏微分係数Δi,dを計算する。 In this case, the partial differential coefficient updating unit 111e calculates the partial differential coefficient Δ i, d using the following expression instead of the expression (18).

Figure 0005749187
Figure 0005749187

なお、素性ベクトルφ^、φの形は特許文献1と同様、式(5)で表現される形には限定されない。 Note that the shape of the feature vectors φ ^ and φ is not limited to the form expressed by the equation (5), as in the case of Patent Document 1.

音声認識のための確率的有限状態モデルの構築法は様々な種類があるが、本発明は、「確率的有限状態モデルに基づく音声認識装置」に対し適用できるものであり、どのように構築した確率的有限状態モデルにも適用できるものである。言い換えると、従来様々な方法で実現されてきた音声認識装置を、確率的有限状態モデルに基づく音声認識装置という抽象的な形に変形することで、本発明を適用することができる。従来の音声認識装置はほぼ全て、従来技術の音声認識装置91、92の形に抽象化することが可能であり、本発明はこの形に抽象化できる音声認識装置の高精度化に適用可能である。よって、現在主流となっている音声認識装置のほとんどが本発明によって拡張可能である。   There are various types of methods for constructing a stochastic finite state model for speech recognition, but the present invention can be applied to a "speech recognition device based on a stochastic finite state model". It can also be applied to a stochastic finite state model. In other words, the present invention can be applied by transforming a speech recognition apparatus that has been realized by various methods into an abstract form of a speech recognition apparatus based on a probabilistic finite state model. Almost all conventional speech recognition devices can be abstracted in the form of speech recognition devices 91 and 92 of the prior art, and the present invention can be applied to increase the accuracy of speech recognition devices that can be abstracted in this shape. is there. Therefore, most of the speech recognition devices that are currently mainstream can be expanded by the present invention.

本実施形態では、収束判定部111gにおいて、収束判定を行い、収束していなかった場合は、s111−2〜s111−9の処理を繰り返すが(図9参照)、このときに認識処理(図4のs1)以降の処理を繰り返す構成としてもよい。この場合、認識部105は、更新された調整パラメタベクトルα h(s,s’)を有限状態モデル調整パラメタ格納部113から取り出し(図3中、破線で示す)、式(4)に基づき認識ラティスL(n)を生成する。このとき、二回目以降の繰返しにおいては、調整パラメタの初期化処理(図8のs111−1)を省略する。 In the present embodiment, the convergence determination unit 111g performs convergence determination, and when the convergence is not achieved, the processing of s111-2 to s111-9 is repeated (see FIG. 9). At this time, the recognition processing (FIG. 4) is performed. It is good also as a structure which repeats the process after s1). In this case, the recognizing unit 105 extracts the updated adjustment parameter vector α h (s, s ′) from the finite state model adjustment parameter storage unit 113 (indicated by a broken line in FIG. 3), and based on Expression (4). A recognition lattice L (n) is generated. At this time, the adjustment parameter initialization process (s111-1 in FIG. 8) is omitted in the second and subsequent iterations.

本実施形態では簡単のため、エラー尺度として状態遷移の誤り回数を用いたが、他のエラー尺度を用いてもよく、本発明は単に正解と不正解を単に分けるのではなく、その間の距離を細かく利用する手法全てに対して適用できる。   In the present embodiment, the number of state transition errors is used as an error measure for the sake of simplicity. However, other error measures may be used, and the present invention does not simply separate the correct answer from the incorrect answer, but determines the distance between them. It can be applied to all methods that are used in detail.

本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。   The present invention is not limited to the above-described embodiments and modifications. For example, the various processes described above are not only executed in time series according to the description, but may also be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes. In addition, it can change suitably in the range which does not deviate from the meaning of this invention.

<プログラム及び記録媒体>
上述したパラメタ推定装置及び音声認識装置は、コンピュータにより機能させることもできる。この場合はコンピュータに、目的とする装置(各種実施形態で図に示した機能構成をもつ装置)として機能させるためのプログラム、またはその処理手順(各実施形態で示したもの)の各過程をコンピュータに実行させるためのプログラムを、CD−ROM、磁気ディスク、半導体記憶装置などの記録媒体から、あるいは通信回線を介してそのコンピュータ内にダウンロードし、そのプログラムを実行させればよい。
<Program and recording medium>
The parameter estimation device and the speech recognition device described above can be functioned by a computer. In this case, each process of a program for causing a computer to function as a target device (a device having the functional configuration shown in the drawings in various embodiments) or a process procedure (shown in each embodiment) is processed by the computer. A program to be executed by the computer may be downloaded from a recording medium such as a CD-ROM, a magnetic disk, or a semiconductor storage device or via a communication line into the computer, and the program may be executed.

12 音声認識装置
100 パラメタ推定装置
101 有限状態モデル格納部
103 学習データ格納部
105 認識部
107 細粒度エラー尺度算出部
107 細粒度エラー尺度算出部
109 正解経路格納部
111 パラメタ推定部
111a 調整パラメタ初期化部
111b 勾配ベクトル初期化部
111c 素性ベクトル生成部
111d 算出部
111e 偏微分係数更新部
111f 調整パラメタ更新部
111g 収束判定部
113 有限状態モデル調整パラメタ格納部
DESCRIPTION OF SYMBOLS 12 Speech recognition apparatus 100 Parameter estimation apparatus 101 Finite state model storage part 103 Learning data storage part 105 Recognition part 107 Fine granularity error scale calculation part 107 Fine granularity error scale calculation part 109 Correct answer path storage part 111 Parameter estimation part 111a Adjustment parameter initialization Unit 111b gradient vector initialization unit 111c feature vector generation unit 111d calculation unit 111e partial differential coefficient update unit 111f adjustment parameter update unit 111g convergence determination unit 113 finite state model adjustment parameter storage unit

Claims (11)

音声認識において用いるパラメタを含む確率有限状態モデルと、学習データと、前記学習データの正しい音声認識結果に対応する状態遷移の系列である正解状態遷移系列と、前記確率有限状態モデルを調整するためのパラメタである調整パラメタとを格納する記録部と、
前記確率有限状態モデルを用いて前記学習データに対して音声認識を行った結果得られる音声認識結果に対応する状態遷移の系列である認識状態遷移系列を生成する認識部と、
前記正解状態遷移系列と前記認識状態遷移系列との差異に基づき、状態遷移誤りの単位でエラー尺度を算出する細粒度エラー尺度算出部と、
前記エラー尺度に応じて前記調整パラメタを修正するパラメタ推定部とを含む、
パラメタ推定装置。
A stochastic finite state model including parameters used in speech recognition, learning data, a correct state transition sequence that is a sequence of state transitions corresponding to a correct speech recognition result of the learning data, and for adjusting the stochastic finite state model A recording unit for storing adjustment parameters as parameters;
A recognition unit that generates a recognition state transition sequence that is a sequence of state transitions corresponding to a speech recognition result obtained as a result of performing speech recognition on the learning data using the stochastic finite state model;
Based on the difference between the correct state transition series and the recognized state transition series, a fine-grained error scale calculator that calculates an error scale in units of state transition errors ;
Including a parameter estimation unit that corrects the adjustment parameter according to the error scale,
Parameter estimation device.
請求項1記載のパラメタ推定装置であって、
前記細粒度エラー尺度算出部は、前記正解状態遷移系列と前記認識状態遷移系列との間において、異なる状態遷移を行った回数を計数し、その回数、または、その回数に対応する時間を前記エラー尺度として算出する、
パラメタ推定装置。
The parameter estimation device according to claim 1,
The fine-grained error scale calculation unit counts the number of times different state transitions are performed between the correct state transition sequence and the recognized state transition sequence, and the number of times or a time corresponding to the number of times is the error As a measure,
Parameter estimation device.
請求項2記載のパラメタ推定装置であって、  The parameter estimation device according to claim 2,
前記正解状態遷移系列及び前記認識状態遷移系列を、各状態のつながりを表現するラティスにより表現し、ラティスの各アークをa  The correct state transition sequence and the recognized state transition sequence are expressed by a lattice that represents a connection between the states, and each arc of the lattice is represented by a jj とし、アークaAnd arc a j の遷移前状態、遷移後状態、遷移前時刻及び遷移後時刻をそれぞれs(aThe state before transition, the state after transition, the time before transition, and the time after transition of s (a j )、s’(a), S '(a j )、t(a), T (a j )及びt’(a) And t '(a j )とし、アークa) And arc a j に対応する状態遷移を(s(aState transition corresponding to (s (a j ),s’(a), S '(a j ))とし、前記正解状態遷移系列に対応するラティスの配列表現の各要素をc)), And each element of the lattice array expression corresponding to the correct state transition sequence is c (n)(N) ττ とし、クロネッカのデルタ関数をδとし、アークaAnd the delta function of Kronecker is δ and the arc a j に対応するエラー尺度をE~(aE ~ (a j )とし、前記細粒度エラー尺度算出部は、), And the fine-grained error scale calculation unit
Figure 0005749187
Figure 0005749187
により前記エラー尺度を算出する、To calculate the error measure,
パラメタ推定装置。  Parameter estimation device.
請求項1から3の何れかに記載のパラメタ推定装置であって、
前記正解状態遷移系列及び前記認識状態遷移系列を、各状態のつながりを表現するラティスにより表現し、
前記認識部は、認識状態遷移系列を示す認識ラティスを生成し、
前記細粒度エラー尺度算出部は、前記正解状態遷移系列に対応する正解ラティスと前記認識ラティスとの差異に基づき、エラー尺度を算出し、
前記パラメタ推定部は、前記正解ラティスと前記認識ラティスとを用いて、前記エラー尺度に応じて前記調整パラメタを修正する、
パラメタ推定装置。
The parameter estimation device according to any one of claims 1 to 3 ,
The correct state transition series and the recognized state transition series are represented by a lattice that represents a connection between the states,
The recognition unit generates a recognition lattice indicating a recognition state transition sequence,
The fine-grained error scale calculation unit calculates an error scale based on a difference between the correct lattice corresponding to the correct state transition series and the recognition lattice,
The parameter estimation unit corrects the adjustment parameter according to the error scale using the correct lattice and the recognition lattice.
Parameter estimation device.
請求項1からの何れかに記載のパラメタ推定装置によって推定された前記調整パラメタを用いて、音声データに対する音声認識結果を求める音声認識装置。 Using the adjustment parameter estimated by the parameter estimation apparatus according to any one of claims 1 to 4, the speech recognition device for determining the speech recognition result for the speech data. 音声認識において用いるパラメタを含む確率有限状態モデルを用いて、学習データに対して音声認識を行った結果得られる音声認識結果に対応する状態遷移の系列である認識状態遷移系列を生成する認識ステップと、
前記学習データの正しい音声認識結果に対応する状態遷移の系列である正解状態遷移系列と前記認識状態遷移系列との差異に基づき、状態遷移誤りの単位でエラー尺度を算出する細粒度エラー尺度算出ステップと、
前記エラー尺度に応じて、前記確率有限状態モデルを調整するためのパラメタである調整パラメタを修正するパラメタ推定ステップとを含む、
パラメタ推定方法。
A recognition step for generating a recognition state transition sequence that is a sequence of state transitions corresponding to a speech recognition result obtained as a result of performing speech recognition on learning data using a stochastic finite state model including parameters used in speech recognition; and ,
A fine-grained error scale calculation step for calculating an error scale in units of state transition errors based on a difference between a correct state transition series that is a state transition series corresponding to a correct speech recognition result of the learning data and the recognized state transition series When,
A parameter estimation step of correcting an adjustment parameter that is a parameter for adjusting the stochastic finite state model according to the error measure,
Parameter estimation method.
請求項記載のパラメタ推定方法であって、
前記細粒度エラー尺度算出ステップにおいて、前記正解状態遷移系列と前記認識状態遷移系列との間において、異なる状態遷移を行った回数を計数し、その回数、または、その回数に対応する時間を前記エラー尺度として算出する、
パラメタ推定方法。
The parameter estimation method according to claim 6 , wherein
In the fine-grained error scale calculation step, the number of times of performing different state transitions between the correct state transition sequence and the recognized state transition sequence is counted, and the number of times, or the time corresponding to the number of times is the error As a measure,
Parameter estimation method.
請求項7記載のパラメタ推定方法であって、  The parameter estimation method according to claim 7, comprising:
前記正解状態遷移系列及び前記認識状態遷移系列を、各状態のつながりを表現するラティスにより表現し、ラティスの各アークをa  The correct state transition sequence and the recognized state transition sequence are expressed by a lattice that represents a connection between the states, and each arc of the lattice is represented by a jj とし、アークaAnd arc a j の遷移前状態、遷移後状態、遷移前時刻及び遷移後時刻をそれぞれs(aThe state before transition, the state after transition, the time before transition, and the time after transition of s (a j )、s’(a), S '(a j )、t(a), T (a j )及びt’(a) And t '(a j )とし、アークa) And arc a j に対応する状態遷移を(s(aState transition corresponding to (s (a j ),s’(a), S '(a j ))とし、前記正解状態遷移系列に対応するラティスの配列表現の各要素をc)), And each element of the lattice array expression corresponding to the correct state transition sequence is c (n)(N) ττ とし、クロネッカのデルタ関数をδとし、アークaAnd the delta function of Kronecker is δ and the arc a j に対応するエラー尺度をE~(aE ~ (a j )とし、前記細粒度エラー尺度算出ステップは、), And the fine-grained error scale calculation step includes
Figure 0005749187
Figure 0005749187
により前記エラー尺度を算出する、To calculate the error measure,
パラメタ推定方法。  Parameter estimation method.
請求項6から8の何れかに記載のパラメタ推定方法であって、
前記正解状態遷移系列及び前記認識状態遷移系列を、各状態のつながりを表現するラティスにより表現し、
前記認識ステップにおいて、認識状態遷移系列を示す認識ラティスを生成し、
前記細粒度エラー尺度算出ステップにおいて、前記正解状態遷移系列に対応する正解ラティスと前記認識ラティスとの差異に基づき、エラー尺度を算出し、
前記パラメタ推定ステップにおいて、前記正解ラティスと前記認識ラティスとを用いて、前記エラー尺度に応じて前記調整パラメタを修正する、
パラメタ推定方法。
The parameter estimation method according to any one of claims 6 to 8 ,
The correct state transition series and the recognized state transition series are represented by a lattice that represents a connection between the states,
In the recognition step, a recognition lattice indicating a recognition state transition sequence is generated,
In the fine-grain error scale calculation step, an error scale is calculated based on the difference between the correct lattice corresponding to the correct state transition sequence and the recognition lattice,
In the parameter estimation step, using the correct answer lattice and the recognition lattice, the adjustment parameter is corrected according to the error measure.
Parameter estimation method.
請求項からの何れかに記載のパラメタ推定方法によって推定された前記調整パラメタを用いて、音声データに対する音声認識結果を求める音声認識方法。 Using the adjustment parameter estimated by the parameter estimating method according to any of claims 6 9, the speech recognition method for obtaining the speech recognition result for the speech data. 請求項1からの何れかに記載のパラメタ推定装置、または、請求項記載の音声認識装置としてコンピュータを機能させるためのプログラム。 Parameter estimation apparatus according to any one of claims 1 to 4, or a program for causing a computer to function as a speech recognition apparatus according to claim 5, wherein.
JP2012024307A 2012-02-07 2012-02-07 Parameter estimation device, parameter estimation method, speech recognition device, speech recognition method and program Active JP5749187B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012024307A JP5749187B2 (en) 2012-02-07 2012-02-07 Parameter estimation device, parameter estimation method, speech recognition device, speech recognition method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012024307A JP5749187B2 (en) 2012-02-07 2012-02-07 Parameter estimation device, parameter estimation method, speech recognition device, speech recognition method and program

Publications (2)

Publication Number Publication Date
JP2013160998A JP2013160998A (en) 2013-08-19
JP5749187B2 true JP5749187B2 (en) 2015-07-15

Family

ID=49173261

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012024307A Active JP5749187B2 (en) 2012-02-07 2012-02-07 Parameter estimation device, parameter estimation method, speech recognition device, speech recognition method and program

Country Status (1)

Country Link
JP (1) JP5749187B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3099933A1 (en) * 2018-05-18 2019-11-21 Greeneden U.S. Holdings Ii, Llc System and method for a multiclass approach for confidence modeling in automatic speech recognition systems

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4103639B2 (en) * 2003-03-14 2008-06-18 セイコーエプソン株式会社 Acoustic model creation method, acoustic model creation device, and speech recognition device
US9020816B2 (en) * 2008-08-14 2015-04-28 21Ct, Inc. Hidden markov model for speech processing with training method
JP5113797B2 (en) * 2009-04-17 2013-01-09 日本電信電話株式会社 Dissimilarity utilization type discriminative learning apparatus and method, and program thereof
JP5249967B2 (en) * 2010-02-09 2013-07-31 日本電信電話株式会社 Speech recognition device, weight vector learning device, speech recognition method, weight vector learning method, program

Also Published As

Publication number Publication date
JP2013160998A (en) 2013-08-19

Similar Documents

Publication Publication Date Title
US11264044B2 (en) Acoustic model training method, speech recognition method, acoustic model training apparatus, speech recognition apparatus, acoustic model training program, and speech recognition program
US20200066253A1 (en) Parallel neural text-to-speech
Bourlard et al. Connectionist speech recognition: a hybrid approach
Hifny et al. Speech recognition using augmented conditional random fields
US9099082B2 (en) Apparatus for correcting error in speech recognition
JP6506074B2 (en) Acoustic model learning device, speech recognition device, acoustic model learning method, speech recognition method and program
CN107615376B (en) Voice recognition device and computer program recording medium
Shinoda Speaker adaptation techniques for automatic speech recognition
JP2019159654A (en) Time-series information learning system, method, and neural network model
WO2012001458A1 (en) Voice-tag method and apparatus based on confidence score
Saon et al. Bayesian sensing hidden Markov models
JP5249967B2 (en) Speech recognition device, weight vector learning device, speech recognition method, weight vector learning method, program
US20110276332A1 (en) Speech processing method and apparatus
Kubo et al. Integrating Deep Neural Networks into Structural Classification Approach based on Weighted Finite-State Transducers.
Fan et al. Sequence generation error (SGE) minimization based deep neural networks training for text-to-speech synthesis
JP6027754B2 (en) Adaptation device, speech recognition device, and program thereof
JP5749187B2 (en) Parameter estimation device, parameter estimation method, speech recognition device, speech recognition method and program
Shinoda Acoustic model adaptation for speech recognition
JP5738216B2 (en) Feature amount correction parameter estimation device, speech recognition system, feature amount correction parameter estimation method, speech recognition method, and program
JP4950600B2 (en) Acoustic model creation apparatus, speech recognition apparatus using the apparatus, these methods, these programs, and these recording media
Zhang et al. Sparse inverse covariance matrices for low resource speech recognition
Qian et al. On Mispronunciation Lexicon Generation Using Joint-Sequence Multigrams in Computer-Aided Pronunciation Training (CAPT).
JP6499095B2 (en) Signal processing method, signal processing apparatus, and signal processing program
Yu et al. Unsupervised adaptation with discriminative mapping transforms
JP5694976B2 (en) Distributed correction parameter estimation device, speech recognition system, dispersion correction parameter estimation method, speech recognition method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140922

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141021

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150513

R150 Certificate of patent (=grant) or registration of utility model

Ref document number: 5749187

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150