JP2011164124A - Acoustic model parameter learning method based on linear classification model and device, method and device for creating finite state converter with phoneme weighting, and program therefor - Google Patents
Acoustic model parameter learning method based on linear classification model and device, method and device for creating finite state converter with phoneme weighting, and program therefor Download PDFInfo
- Publication number
- JP2011164124A JP2011164124A JP2010023141A JP2010023141A JP2011164124A JP 2011164124 A JP2011164124 A JP 2011164124A JP 2010023141 A JP2010023141 A JP 2010023141A JP 2010023141 A JP2010023141 A JP 2010023141A JP 2011164124 A JP2011164124 A JP 2011164124A
- Authority
- JP
- Japan
- Prior art keywords
- model parameter
- phoneme
- score
- model
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
この発明は、HMM(Hidden Markov Model)に比べて簡素な構造を持ち、N−gram言語モデルを表現可能な線形分類モデルにより音響モデルを作成する方法とその装置と、その方法で作成した音響モデルを利用し、音声信号と音素を対応付けるための音素重み付き有限状態変換器生成方法とその装置と、それらのプログラムに関する。 The present invention has a simple structure compared to HMM (Hidden Markov Model), a method and apparatus for generating an acoustic model by a linear classification model capable of expressing an N-gram language model, and an acoustic model created by the method The present invention relates to a phoneme-weighted finite state transducer generation method and apparatus for associating a speech signal with a phoneme, and a program thereof.
標準的な音声認識システムを構成する要素のうち、主要な要素は音響モデルと言語モデルである。音響モデルとは、音声信号と音素を対応付けるモデルである。一般に音響モデルにはHMMやそれを基にしたモデルが広く利用されている。時間伸縮を考慮したモデルであり、音声信号のように伸び縮みが存在する物理現象をモデル化するために広く用いられて来た。 Of the elements constituting a standard speech recognition system, the main elements are an acoustic model and a language model. An acoustic model is a model that associates a speech signal with a phoneme. In general, HMMs and models based on them are widely used as acoustic models. It is a model that considers time expansion and contraction, and has been widely used to model physical phenomena with expansion and contraction such as audio signals.
言語モデルには、N−gram言語モデルが広く利用されている。このモデルは音響モデルとは異なる表現形式となっている。図9に、音響モデル(HMM)と言語モデルによって単語列の探索空間が構成された例を示す(参考文献1)。この図に示すように、音声認識における探索空間は、言語モデルで決められた音素の並びに音響モデルが埋め込まれたネットワークで表現される。 As the language model, the N-gram language model is widely used. This model has a different form of expression from the acoustic model. FIG. 9 shows an example in which a search space for word strings is configured by an acoustic model (HMM) and a language model (reference document 1). As shown in this figure, a search space in speech recognition is represented by a network in which a phoneme determined by a language model and an acoustic model are embedded.
音響モデルと言語モデルは、それぞれ独立に学習されるのが一般的であるが、近年、全体最適化のための幾つかの試みが行われている。しかし、HMM自体の複雑さに加え、異なる形式で表現された言語モデルのモデルパラメータも同時に調整しなければならないため、音声認識システムが複雑なものとなっている。 In general, the acoustic model and the language model are learned independently, but in recent years, several attempts have been made for global optimization. However, in addition to the complexity of the HMM itself, the model parameters of the language model expressed in different formats must be adjusted at the same time, which complicates the speech recognition system.
そこで、音響モデルと言語モデルが同一のモデルで表現されれば全体を最適化し易く、また、そのプロセスも単純化が図れるものと期待できる。しかし、従来の線形分類モデルは、時系列に入力される特徴量に従ったスコアを、時系列に出力するようには形成されていなかった。そのため、音響モデルを線形分類モデルで表現することを考えたときに連続音声認識に利用できない問題があった。 Therefore, if the acoustic model and the language model are expressed by the same model, the whole model can be easily optimized, and the process can be expected to be simplified. However, the conventional linear classification model is not formed so as to output a score according to the feature amount input in time series in time series. For this reason, there is a problem that cannot be used for continuous speech recognition when the acoustic model is expressed by a linear classification model.
この発明は、このような問題点に鑑みてなされたものであり、音響モデルと言語モデルを統一的な枠組みで表現可能な音響モデルの学習方法とその装置と、その方法で作成した音響モデルを利用し、音声信号と音素を対応付けるための音素重み付き有限状態変換器生成方法とその装置と、それらのプログラムを提供することを目的とする。 The present invention has been made in view of such problems, and an acoustic model learning method and apparatus capable of expressing an acoustic model and a language model in a unified framework, and an acoustic model created by the method. An object of the present invention is to provide a phoneme-weighted finite state transducer generation method and apparatus for associating a speech signal with a phoneme, and a program thereof.
この発明の音響モデルパラメータ学習方法は、モデルパラメータ初期化過程とモデルパラメータ更新過程を含む。モデルパラメータ初期化過程は、認識スコアを求めるための各音素に対応する所定フレーム数から成る部分モデルパラメータを初期化する。モデルパラメータ更新過程は、特徴量ベクトルを入力としてその特徴量ベクトルと部分モデルパラメータの内積値の累積に基づく目的関数が外部から与えられ、その目的関数を最大化するモデルパラメータを、上記初期化されたモデルパラメータを更新して求め、各音素に対応する部分モデルパラメータを出力する。 The acoustic model parameter learning method of the present invention includes a model parameter initialization process and a model parameter update process. In the model parameter initialization process, a partial model parameter consisting of a predetermined number of frames corresponding to each phoneme for obtaining a recognition score is initialized. In the model parameter update process, an objective function based on the accumulation of the inner product value of the feature vector and the partial model parameter is given from the outside with the feature vector as input, and the model parameter that maximizes the objective function is initialized as described above. The model parameter is updated to obtain a partial model parameter corresponding to each phoneme.
また、この発明の音素重み付き有限状態変換器生成方法は、初期状態設定過程と中間状態設定配列過程と最後状態設定過程とを含む。初期状態設定過程は、音素に対応する部分モデルパラメータを入力とし、当該音素と最初のフレームに対応するスコアを出力する初期状態を設定する。中間状態設定配列過程は、部分モデルパラメータを構成するモデルパラメータWp,iと入力特徴量ベクトルの内積として定義される関数をスコアとし、かつ、入力無しでスコア0を出力する状態遷移を持つ中間状態を設定して配列する。最後状態設定過程は、スコア0を出力する自己遷移状態とし、入力無しでスコア0を出力して終了状態に遷移する最後状態を設定する。
The phoneme-weighted finite state transducer generation method of the present invention includes an initial state setting process, an intermediate state setting array process, and a final state setting process. In the initial state setting process, a partial model parameter corresponding to a phoneme is input, and an initial state in which a score corresponding to the phoneme and the first frame is output is set. In the intermediate state setting array process, a function defined as an inner product of model parameters W p, i constituting partial model parameters and an input feature vector is used as a score, and an intermediate having a state transition that outputs a
この発明の音響モデルパラメータ学習方法によれば、音響モデルを言語モデルと同一の表現形式で表すことができるので、音声認識システム全体の最適化を容易にする。また、この発明の音素重み付き有限状態変換器生成方法によれば、その音響モデルパラメータ学習方法で作成した音響モデルを、重み付き有限状態変換器の形式で記述する。その音響モデルは、高速かつ高精度な音声認識を可能にする。 According to the acoustic model parameter learning method of the present invention, since the acoustic model can be expressed in the same expression format as the language model, it is easy to optimize the entire speech recognition system. Also, according to the phoneme weighted finite state transducer generating method of the present invention, the acoustic model created by the acoustic model parameter learning method is described in the form of a weighted finite state transducer. The acoustic model enables high-speed and highly accurate speech recognition.
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。実施例の説明の前に、この発明の音響モデルと言語モデルの全体最適化について説明する。 Embodiments of the present invention will be described below with reference to the drawings. The same reference numerals are given to the same components in a plurality of drawings, and the description will not be repeated. Prior to the description of the embodiments, the overall optimization of the acoustic model and the language model of the present invention will be described.
〔音響モデルと言語モデルの全体最適化〕
音響モデルと言語モデルをそれぞれC,Lとおく。そしてこれらモデルパラメータそれぞれが支配する関数をMC,NLとおく。MCは音響スコアを返す関数、NLは言語スコアを返す関数である。
[Overall optimization of acoustic model and language model]
Let C and L be an acoustic model and a language model, respectively. The functions governed by these model parameters are M C and N L. M C is a function that returns the acoustic score and N L is a function that returns a language score.
音響モデルと言語モデルの全体最適化を行う場合、事前に用意された目的関数O(MC,NL)を最大化するC,Lを求めることになる。例えば、勾配法などにより目的関数の傾きを考慮しながら最適なモデルパラメータを探索するものとすると、式(1)と式(2)を計算する必要がある。 When performing the overall optimization of the acoustic model and the language model, C and L that maximize the objective function O (M C , N L ) prepared in advance are obtained. For example, if the optimum model parameter is searched while considering the gradient of the objective function by the gradient method or the like, it is necessary to calculate the equations (1) and (2).
MC,NLが全く異なる関数であるとすると、2種類のモデルを学習する必要がある。これが従来の音響モデルを統一的に扱えない原因である。 If M C and N L are completely different functions, it is necessary to learn two types of models. This is the reason why conventional acoustic models cannot be handled uniformly.
これに対し、もし、音響モデルと言語モデルとが線形分類モデルであるとすると、音声認識を行う過程で音響スコアと言語スコアを算出する関数は式(3)と式(4)で表せる。 On the other hand, if the acoustic model and the language model are linear classification models, the functions for calculating the acoustic score and the language score in the process of performing speech recognition can be expressed by Expressions (3) and (4).
ここでTは転置記号、A′は音響モデル学習に用いる特徴量ベクトル、A″は言語モデル学習に用いる特徴量ベクトルである。特徴量ベクトルA′とA″を並べた特徴量ベクトルをAと表記すると音声認識スコアはWTAである。WはCとLを並べたものに一致。 Here, T is a transposed symbol, A ′ is a feature vector used for acoustic model learning, A ″ is a feature vector used for language model learning. A feature vector obtained by arranging feature vectors A ′ and A ″ is A. When written, the voice recognition score is W T A. W matches C and L side by side.
よって、音響モデルと言語モデルを統一した目的関数はO(WTA)と書けるので、モデルパラメータの学習装置を1個に集約することができる。 Therefore, since the objective function that unifies the acoustic model and the language model can be written as O (W T A), the model parameter learning device can be integrated into one.
この発明は、本来複数の時間フレームにまたがって算出される特徴量ベクトルAを、フフレームごとに分割し、分割された特徴量ベクトルとモデルパラメータの内積値をフレームごとに累積する形にすることで、時系列に入力される特徴量ベクトルに対応したスコアを時系列に生成できるようにしたものである。 According to the present invention, a feature quantity vector A originally calculated over a plurality of time frames is divided for each frame, and the inner product value of the divided feature quantity vector and model parameter is accumulated for each frame. Thus, a score corresponding to a feature vector input in time series can be generated in time series.
図1にこの発明の音響モデルパラメータ学習装置100の機能構成例を示す。図2にその動作フローを示す。音響モデルパラメータ学習装置100は、モデルパラメータ初期化部12と、モデルパラメータ更新部14と、を具備する。その各部の機能は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
FIG. 1 shows an example of the functional configuration of an acoustic model parameter learning apparatus 100 according to the present invention. FIG. 2 shows the operation flow. The acoustic model parameter learning device 100 includes a model parameter initialization unit 12 and a model
モデルパラメータ初期化部12は、認識スコアを求めるモデルパラメータを初期化する(ステップS12)。モデルパラメータ更新部14は、特徴量ベクトルXt+n t+1を入力として目的関数OWを最大化するモデルパラメータを、モデルパラメータ初期化部12で初期化されたモデルパラメータを更新して求め、各音素pに対応する所定フレーム数から成る部分モデルパラメータを出力する(ステップS14)。Xt+n t+1の表記は、図中(図1)の表記が正しい。また、Xt+n t+1はt+1からt+nの各時間フレームで得られる特徴量ベクトルから構成される。これに対し、ある時刻tのフレームで得られる特徴量ベクトルはXtと表記する。
The model parameter initialization unit 12 initializes model parameters for obtaining a recognition score (step S12). Model
特徴量ベクトルXt+n t+1は、正解音素pの特徴量ベクトルXt+n t+1を記憶した正解データベース10から入力される。目的関数OWは、特徴ベクトルXt+n t+1とモデルパラメータの内積値の累積に基づく関数であり外部から与えられる。この構成によって、音響モデルパラメータ学習装置100は、言語モデルと同一の表現形式の音響モデルを生成する。
Feature vector X t + n t + 1 is input from the
〔線形分類モデル〕
線形分類モデルとは、式(5)に示す制約を満たす要素関数GWに基づく分類モデルである。
(Linear classification model)
The linear classification model is a classification model based on element function G W that satisfies the constraints shown in equation (5).
要素関数GWは、例えば式(6)や式(7)などが考えられる。 Element function G W is, for example Formula (6) or expression (7) can be considered like.
モデルパラメータ更新部14に与えられる目的関数OWは、要素関数GWを累積した形のものである。線形分類モデルの意味するところは、認識は式(5)の右辺に示す式で表される方法で行い、モデルの学習は目的関数OWを用いて行うことである。目的関数OWは、モデルパラメータWに対して非線形な関数を用いることができるので、線形な内積値WT pAを用いて学習を行うより高精度なモデルの生成が期待できる。
Objective function O W applied to the model
この発明では、特徴量ベクトルとモデルパラメータの内積値の累積(式(8))を計算し、これを音素pのスコアとする。 In the present invention, the accumulation of the inner product values of the feature quantity vector and the model parameter (equation (8)) is calculated, and this is used as the score of the phoneme p.
ここでnは、考慮すべき時間フレームを意味する。入力音素信号の時間フレーム数がt+nを超える場合は、t+n以降を無視することになる。よって、所定数nは十分に長く設定する。例えば、学習用データの最大値とする。式(8)では、入力音声信号の時間フレーム数がt+nを下回る場合は、入力長以降の特徴量ベクトルXt+n t+m+1をゼロベクトルと考えるものとする。t+m(<(t+n))は入力信号の最後のフレームに対応する。 Here, n means a time frame to be considered. When the number of time frames of the input phoneme signal exceeds t + n, the period after t + n is ignored. Therefore, the predetermined number n is set sufficiently long. For example, the maximum value of the learning data is set. In Expression (8), when the number of time frames of the input audio signal is less than t + n, the feature amount vector X t + n t + m + 1 after the input length is considered as a zero vector. t + m (<(t + n)) corresponds to the last frame of the input signal.
学習により推定すべきモデルパラメータ全体は、式(9)で表せる。 The entire model parameter to be estimated by learning can be expressed by equation (9).
所定数nは例えば20といった値に設定される。 The predetermined number n is set to a value such as 20, for example.
図3にモデルパラメータ更新部14のより具体的な機能構成例を示し更に詳しくその動作を説明する。図4にその動作フローを示す。傾き算出手段140と、傾き評価手段142と、パラメータ更新手段144を備える。傾き算出手段140は、外部から与えられる偏微分関数に、特徴量ベクトルXt+n t+1と、パラメータ更新手段144で更新されるモデルパラメータを与えて目的関数OWの傾きを計算する(ステップS140)。
FIG. 3 shows a more specific functional configuration example of the model
傾き評価手段142は、目的関数OWの傾きが単調増加して極値になるまで、パラメータの更新をパラメータ更新手段144に指示すると共に、現在のパラメータで計算した目的関数OWの傾きを求め、目的関数OWが収束したと判定されるまで、その動作を繰り返す(ステップS142〜S145のNoの繰り返しループ)。パラメータ更新手段144は、傾き評価手段142からの制御信号に基づいてパラメータを更新する(ステップS144)。傾きが極値になると(収束したと判定された場合を意味する)その時のパラメータを、モデルパラメータとして出力する(ステップS146)。
偏微分関数には、例えば式(10)に示す目的関数OWをWの各要素で偏微分した関数が用いられる。 The partial differential function, for example function obtained by partially differentiating the objective function O W shown in Equation (10) in each element of W is used.
〔音素重み付き有限状態変換器生成装置〕
図5に、この発明の音素重み付き有限状態変換器生成装置200の機能構成例を示す。その動作フローを図6に示す。音素重み付き有限状態変換器生成装置200は、初期状態設定部20と、中間状態設定配列部22と、最後状態設定部24と、制御部26とを備える。
[Phoneme-weighted finite state transducer generator]
FIG. 5 shows a functional configuration example of the phoneme-weighted finite state transducer generation apparatus 200 of the present invention. The operation flow is shown in FIG. The phoneme weighted finite state transducer generating apparatus 200 includes an initial
重み付き有限状態変換器とは、状態遷移機械のモデルとして広く知られる有限オートマトン(Finite Automaton)を入出力系列の変換用に拡張したものである。具体例は後述する。音素重み付き有限状態変換器生成装置200は、音響モデルパラメータ学習装置100が出力するモデルパラメータのうち、ある音素pに対応する部分モデルパラメータ{Wp,i|1≦i≦n}(以降、{Wp,i}と略記)を入力として、その音素pの音素重み付き有限常態変換器を生成する。 A weighted finite state converter is an extension of a finite automaton (Finite Automaton) widely known as a model of a state transition machine for conversion of input / output sequences. Specific examples will be described later. The phoneme-weighted finite state transducer generating apparatus 200 includes partial model parameters {W p, i | 1 ≦ i ≦ n} corresponding to a certain phoneme p among model parameters output from the acoustic model parameter learning apparatus 100 (hereinafter, (Abbreviated as {W p, i }), and generates a phoneme weighted finite normal converter of the phoneme p.
制御部26は、入力された部分モデルパラメータ{Wp,i}を図示しないメモリなどに記憶する。そして、繰り返し変数iなどを初期化(i=1)する(ステップS260)。
The
初期化設定部20は、特徴量ベクトルを入力したときに、部分モデルパラメータ{Wp,i}の最初のモデルパラメータWp,1と入力特徴量ベクトルの内積として定義される関数を出力重みとし、音素pを出力記号とする状態遷移を設定する(ステップS20)。制御部26はiを更新する(ステップS261)。
When the feature value vector is input, the
中間状態設定配列部22は、iに対応させて、部分モデルパラメータ{Wp,i}を構成するモデルパラメータWp,iと入力特徴量ベクトルの内積として定義される関数を出力重みとし、かつ、出力信号を持たない(何も出力しないことを表す記号εを出力記号)とする状態遷移を設定する。前者は次状態に後者は終了状態に遷移する。この処理は、iが所定数n+1になるまで繰り返される(ステップS22〜S262のNoの繰り返しループ)。つまり、初期状態の後に、初期状態を含めてn個のモデルパラメータWp,iに対応する状態が配列される。
The intermediate state
最後状態設定部24は、所定数n+1個目の状態に、特徴量ベクトルを入力したときに0を重み出力とし、出力信号を持たない自己状態遷移を設定する(ステップS24)。
The last
図7に、上記した過程を経て生成された重み付き有限状態変換器の一例を示す。図中の○は状態を表し、1が初期状態であり、二重丸で表された状態は終了を意味する。κは変換器の入力として特徴量ベクトルが与えられたときに状態を遷移させる、μは必ず遷移させる、εは何も出力しないことを意味する記号である。 FIG. 7 shows an example of a weighted finite state transducer generated through the above-described process. In the figure, ◯ represents a state, 1 is an initial state, and a state represented by a double circle means completion. κ is a symbol that means that a state transition is made when a feature vector is given as an input of the converter, μ always makes a transition, and ε means nothing is output.
この重み付き状態遷移変換器で、特徴量ベクトルの各要素と対応するモデルパラメータとの内積演算を通してフレーム毎のスコアが算出される。 In this weighted state transition converter, a score for each frame is calculated through an inner product operation between each element of the feature vector and the corresponding model parameter.
音素重み付き有限状態変換器生成装置200が生成した重み付き有限状態変換器を用いることで音声認識装置を構成することができる。図8に、重み付き有限状態を用いた音声認識装置300の簡単な機能構成例を示す。 The speech recognition apparatus can be configured by using the weighted finite state transducer generated by the phoneme weighted finite state transducer generating apparatus 200. FIG. 8 shows a simple functional configuration example of the speech recognition apparatus 300 using the weighted finite state.
音声認識装置300は、WFSTデータベース32と、音声認識部30を備える。WFSTデータベース32は、複数の音素の重み付き有限状態変換器を記憶する。音声認識部30は、特徴量ベクトルXt〜Xt+nを入力として、それを重み付き有限状態と演算してスコアを求め音声認識処理を実行する。
The voice recognition device 300 includes a
〔確認実験〕
この発明による線形分類モデルに基づく音響モデルの有用性を確認する目的で、従来のHMM音響モデルと性能比較を行った。実験は孤立音素認識で行った。孤立音素認識とは、音素の境界が与えられた下で、音素のラベルのみを判定する問題である。
[Confirmation experiment]
For the purpose of confirming the usefulness of the acoustic model based on the linear classification model according to the present invention, the performance was compared with the conventional HMM acoustic model. The experiment was performed with isolated phoneme recognition. Isolated phoneme recognition is a problem in which only phoneme labels are determined under a phoneme boundary.
学習データには、日本語話し言葉コーパス(CSJ)の学会講演150を用いた。この発明の音響モデルのモデルパラメータの推定のために高速なオンラインマージン最大化学習手法であるPAアルゴリズム(Passive Aggressive)を用いた。評価データは学会10講演分である。特徴量ベクトルには一般的なMFCC12次元+対数パワー+Δ+ΔΔ全39次元を用いた。 As the learning data, a lecture 150 of the Japanese Spoken Language Corpus (CSJ) was used. A PA algorithm (Passive Aggressive), which is a high-speed online margin maximization learning technique, was used to estimate the model parameters of the acoustic model of the present invention. The evaluation data is for 10 lectures at the conference. As the feature vector, general MFCC 12 dimensions + logarithmic power + Δ + ΔΔ all 39 dimensions were used.
その結果は、従来のHMM音響モデルの正解率が60.1%に対して、この発明による音響モデルを用いた場合の正解率が59.9%と、ほぼ同等の正解精度を得ることができた。この結果から、この発明による音響モデルが従来のHMM音響モデルに取って代わる能力を備えていることが確認できた。 As a result, the accuracy rate of the conventional HMM acoustic model is 60.1%, and the accuracy rate when the acoustic model according to the present invention is used is 59.9%. It was. From this result, it was confirmed that the acoustic model according to the present invention has the ability to replace the conventional HMM acoustic model.
なお、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。 When the processing means in the above apparatus is realized by a computer, the processing contents of functions that each apparatus should have are described by a program. Then, by executing this program on the computer, the processing means in each apparatus is realized on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。 The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used. Specifically, for example, as a magnetic recording device, a hard disk device, a flexible disk, a magnetic tape or the like, and as an optical disk, a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only). Memory), CD-R (Recordable) / RW (ReWritable), etc., magneto-optical recording medium, MO (Magneto Optical disc), etc., semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory), etc. Can be used.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Further, the program may be distributed by storing the program in a recording device of a server computer and transferring the program from the server computer to another computer via a network.
また、各装置の機能構成部は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしても良い。 In addition, the functional configuration unit of each device may be configured by causing a predetermined program to be executed on a computer, or at least a part of these processing contents may be realized in hardware.
Claims (7)
音素の特徴量ベクトルを入力としてその特徴量ベクトルとモデルパラメータの内積値の累積に基づく目的関数が外部から与えられ、その目的関数を最大化するモデルパラメータを、上記初期化されたモデルパラメータを更新して求め、各音素に対応する部分モデルパラメータを出力するモデルパラメータ更新過程と、
を含む音響モデルパラメータ学習方法。 A model parameter initialization unit that initializes a partial model parameter composed of a predetermined number of frames corresponding to each phoneme for obtaining a recognition score; and
An objective function based on the accumulation of the inner product value of the feature vector and model parameter is input from the phoneme feature vector as input, and the model parameter that maximizes the objective function is updated to the initialized model parameter. A model parameter update process for outputting partial model parameters corresponding to each phoneme,
Acoustic model parameter learning method including
上記モデルパラメータ更新過程は、
目的関数の偏微分関数が外部から与えられ、特徴量ベクトルと、更新されるモデルパラメータとに基づく上記目的関数の傾きを算出する傾き算出ステップと、
上記目的関数の傾きが単調増加して極値となるまで上記目的関数の傾きを評価して各音素に対応する所定フレーム数から成る部分モデルパラメータを出力する傾き評価ステップと、
上記傾き評価ステップの評価結果を基に上記モデルパラメータを更新するパラメータ更新ステップと、
を含むことを特徴とする音響モデルパラメータ学習方法。 The acoustic model parameter learning method according to claim 1,
The model parameter update process
A slope calculation step for calculating a slope of the objective function based on a feature vector and a model parameter to be updated;
A slope evaluation step for evaluating the slope of the objective function until the slope of the objective function monotonically increases to an extreme value and outputting a partial model parameter consisting of a predetermined number of frames corresponding to each phoneme;
A parameter update step for updating the model parameter based on the evaluation result of the inclination evaluation step;
An acoustic model parameter learning method comprising:
中間状態設定配列部が、上記部分モデルパラメータを構成するモデルパラメータWp,iと入力特徴量ベクトルの内積として定義される関数をスコアとし、かつ、入力無しでスコア0を出力する状態遷移を持つ中間状態を設定して配列する中間状態設定配列過程と、
最後状態設定部が、スコア0を出力する自己遷移状態とし、入力無しでスコア0を出力して終了状態に遷移する最後状態設定過程と、
を含む音素重み付き有限状態変換器生成方法。 An initial state setting process in which an initial state setting unit sets a partial model parameter including a predetermined number of frames corresponding to a phoneme and sets an initial state for outputting a score corresponding to the phoneme and the first frame;
The intermediate state setting array unit has a state transition in which a function defined as the inner product of the model parameters W p, i constituting the partial model parameters and the input feature quantity vector is used as a score and score 0 is output without input. An intermediate state setting sequence process for setting and arranging intermediate states;
A final state setting process in which the final state setting unit sets a self-transition state that outputs a score of 0, outputs a score of 0 without input, and transitions to an end state;
A phoneme-weighted finite state transducer generation method including:
音素の特徴量ベクトルを入力とし、その特徴量ベクトルとモデルパラメータの内積値の累積に基づく目的関数が外部から与えられ、その目的関数を最大化するモデルパラメータを、上記初期化されたモデルパラメータを更新して求め、各音素に対応する部分モデルパラメータを出力するモデルパラメータ更新部と、
を具備する音響モデルパラメータ学習装置。 A model parameter initialization unit that initializes partial model parameters composed of a predetermined number of frames corresponding to each phoneme for obtaining a recognition score;
A phoneme feature vector is input, an objective function based on the accumulation of the inner product value of the feature vector and the model parameter is given from the outside, and the model parameter that maximizes the objective function A model parameter update unit that calculates and outputs partial model parameters corresponding to each phoneme;
An acoustic model parameter learning device comprising:
上記モデルパラメータ更新部は、
目的関数の偏微分関数が外部から与えられ、特徴量ベクトルと、更新されるモデルパラメータとに基づく上記目的関数の傾きを算出する傾き算出手段と、
上記目的関数の傾きが単調増加して極値となるまで上記目的関数の傾きを評価して各音素に対応する所定フレーム数から成る部分モデルパラメータを出力する傾き評価手段と、
上記傾き評価ステップの評価結果を基に上記モデルパラメータを更新するパラメータ更新手段と、
を備えることを特徴とする音響モデルパラメータ学習装置。 The acoustic model parameter learning device according to claim 4,
The model parameter update unit
An inclination calculating means for calculating an inclination of the objective function based on a feature vector and a model parameter to be updated;
A slope evaluation means for evaluating the slope of the objective function until the slope of the objective function monotonically increases to an extreme value and outputting a partial model parameter consisting of a predetermined number of frames corresponding to each phoneme;
Parameter updating means for updating the model parameter based on the evaluation result of the inclination evaluation step;
An acoustic model parameter learning device comprising:
当該音素と最初のフレームに対応するスコアを出力する初期状態を設定する初期状態設定部と、
上記部分モデルパラメータを構成するモデルパラメータWp,iと入力特徴量ベクトルの内積として定義される関数をスコアとし、かつ、入力無しでスコア0を出力する状態遷移を持つ中間状態を設定して配列する中間状態設定配列部と、
スコア0を出力する自己遷移状態とし、入力無しでスコア0を出力して終了状態に遷移する最後状態設定部と、
を具備する音素重み付き有限状態変換器生成装置。 Input a partial model parameter consisting of a predetermined number of frames corresponding to phonemes,
An initial state setting unit for setting an initial state for outputting a score corresponding to the phoneme and the first frame;
A function defined as the inner product of the model parameters Wp, i and the input feature vector constituting the partial model parameters is set as a score, and an intermediate state having a state transition that outputs a score of 0 without input is set and arranged An intermediate state setting array unit,
A final state setting unit that outputs a score 0 and outputs a score 0 without any input and transitions to an end state;
A phoneme-weighted finite state transducer generator comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010023141A JP5385810B2 (en) | 2010-02-04 | 2010-02-04 | Acoustic model parameter learning method and apparatus based on linear classification model, phoneme-weighted finite state transducer generation method and apparatus, and program thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010023141A JP5385810B2 (en) | 2010-02-04 | 2010-02-04 | Acoustic model parameter learning method and apparatus based on linear classification model, phoneme-weighted finite state transducer generation method and apparatus, and program thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011164124A true JP2011164124A (en) | 2011-08-25 |
JP5385810B2 JP5385810B2 (en) | 2014-01-08 |
Family
ID=44594933
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010023141A Expired - Fee Related JP5385810B2 (en) | 2010-02-04 | 2010-02-04 | Acoustic model parameter learning method and apparatus based on linear classification model, phoneme-weighted finite state transducer generation method and apparatus, and program thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5385810B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110060665A (en) * | 2019-03-15 | 2019-07-26 | 上海拍拍贷金融信息服务有限公司 | Word speed detection method and device, readable storage medium storing program for executing |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108039168B (en) * | 2017-12-12 | 2020-09-11 | 科大讯飞股份有限公司 | Acoustic model optimization method and device |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001312294A (en) * | 2000-05-02 | 2001-11-09 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | Learning method of transducer transducing input symbol series into output symbol series, and computer-readable recording medium with stored learning program of transducer |
JP2002091467A (en) * | 2000-09-12 | 2002-03-27 | Pioneer Electronic Corp | Voice recognition system |
JP2005257910A (en) * | 2004-03-10 | 2005-09-22 | Nippon Telegr & Teleph Corp <Ntt> | Symbol string transduction method and voice recognition method using the symbol string transduction method, and symbol string transduction device and voice recognition device using the symbol string transduction device |
JP2006031403A (en) * | 2004-07-15 | 2006-02-02 | Nippon Telegr & Teleph Corp <Ntt> | Transducer processor, machine translation model preparation apparatus, voice recognition model preparation apparatus, transducer processing method, transducer processing program, and recording medium |
-
2010
- 2010-02-04 JP JP2010023141A patent/JP5385810B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001312294A (en) * | 2000-05-02 | 2001-11-09 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | Learning method of transducer transducing input symbol series into output symbol series, and computer-readable recording medium with stored learning program of transducer |
JP2002091467A (en) * | 2000-09-12 | 2002-03-27 | Pioneer Electronic Corp | Voice recognition system |
JP2005257910A (en) * | 2004-03-10 | 2005-09-22 | Nippon Telegr & Teleph Corp <Ntt> | Symbol string transduction method and voice recognition method using the symbol string transduction method, and symbol string transduction device and voice recognition device using the symbol string transduction device |
JP2006031403A (en) * | 2004-07-15 | 2006-02-02 | Nippon Telegr & Teleph Corp <Ntt> | Transducer processor, machine translation model preparation apparatus, voice recognition model preparation apparatus, transducer processing method, transducer processing program, and recording medium |
Non-Patent Citations (2)
Title |
---|
CSNG200500858003; 堀 貴明 Takaaki HORI: '音声情報処理技術の最先端 State-of-the-art Technology of Speech Information Processing' 情報処理 第45巻 第10号 IPSJ MAGAZINE , 20041015, p.1020-1026, 社団法人情報処理学会 Information Processing Socie * |
JPN6012068149; 堀 貴明 Takaaki HORI: '音声情報処理技術の最先端 State-of-the-art Technology of Speech Information Processing' 情報処理 第45巻 第10号 IPSJ MAGAZINE , 20041015, p.1020-1026, 社団法人情報処理学会 Information Processing Socie * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110060665A (en) * | 2019-03-15 | 2019-07-26 | 上海拍拍贷金融信息服务有限公司 | Word speed detection method and device, readable storage medium storing program for executing |
Also Published As
Publication number | Publication date |
---|---|
JP5385810B2 (en) | 2014-01-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6727607B2 (en) | Speech recognition device and computer program | |
US9767790B2 (en) | Voice retrieval apparatus, voice retrieval method, and non-transitory recording medium | |
JP5982297B2 (en) | Speech recognition device, acoustic model learning device, method and program thereof | |
JP5294086B2 (en) | Weight coefficient learning system and speech recognition system | |
JP2004264856A (en) | Method for composing classification neural network of optimum section and automatic labelling method and device using classification neural network of optimum section | |
JP6884946B2 (en) | Acoustic model learning device and computer program for it | |
JP2019144402A (en) | Voice conversion learning device, voice conversion device, method and program | |
US10762417B2 (en) | Efficient connectionist temporal classification for binary classification | |
JP2019159654A (en) | Time-series information learning system, method, and neural network model | |
JP5249967B2 (en) | Speech recognition device, weight vector learning device, speech recognition method, weight vector learning method, program | |
Bacchiani et al. | Context dependent state tying for speech recognition using deep neural network acoustic models | |
WO2019138897A1 (en) | Learning device and method, and program | |
JP6631883B2 (en) | Model learning device for cross-lingual speech synthesis, model learning method for cross-lingual speech synthesis, program | |
JP6244297B2 (en) | Acoustic score calculation apparatus, method and program thereof | |
JP5385810B2 (en) | Acoustic model parameter learning method and apparatus based on linear classification model, phoneme-weighted finite state transducer generation method and apparatus, and program thereof | |
JP6027754B2 (en) | Adaptation device, speech recognition device, and program thereof | |
JP5512597B2 (en) | Speech synthesis apparatus, method and program thereof | |
JP4950600B2 (en) | Acoustic model creation apparatus, speech recognition apparatus using the apparatus, these methods, these programs, and these recording media | |
JP6142401B2 (en) | Speech synthesis model learning apparatus, method, and program | |
JP4537970B2 (en) | Language model creation device, language model creation method, program thereof, and recording medium thereof | |
JP5308102B2 (en) | Identification score / posterior probability calculation method by number of errors, error number weighted identification learning device using the method, method thereof, speech recognition device using the device, program, and recording medium | |
JP2021184217A (en) | Model generation program, model generation device, and model generation method | |
JP2015203766A (en) | Utterance rhythm conversion matrix generation device, utterance rhythm conversion device, utterance rhythm conversion matrix generation method, and program for the same | |
JP2008129318A (en) | Device and program for creating language model, and device and program for speech recognition | |
JP4230254B2 (en) | Speech generation model speaker adaptation method, apparatus thereof, program thereof and recording medium thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110624 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120307 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121210 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130108 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130304 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130924 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131004 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5385810 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |