JP6300394B2 - Error correction model learning device and program - Google Patents
Error correction model learning device and program Download PDFInfo
- Publication number
- JP6300394B2 JP6300394B2 JP2013103291A JP2013103291A JP6300394B2 JP 6300394 B2 JP6300394 B2 JP 6300394B2 JP 2013103291 A JP2013103291 A JP 2013103291A JP 2013103291 A JP2013103291 A JP 2013103291A JP 6300394 B2 JP6300394 B2 JP 6300394B2
- Authority
- JP
- Japan
- Prior art keywords
- error correction
- speech recognition
- correction model
- word
- error
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明は、誤り修正モデル学習装置、及びプログラムに関する。 The present invention relates to an error correction model learning device and a program.
音声認識の誤り修正については、音声とその書き起こし(正解文)から、言語的な特徴を用いて音声認識の誤り傾向を統計的に学習し、学習の結果得られた統計的な誤り修正モデルを用いて音声認識の性能改善を図る技術がある(例えば、非特許文献1参照)。この従来技術では、音声データと、その音声認識結果および正解単語列を用いて誤り修正モデルのモデルパラメータを学習する。 For error correction in speech recognition, statistical error correction models obtained as a result of learning by statistically learning the tendency of speech recognition errors using linguistic features from speech and transcriptions (correct sentences) There is a technology for improving the performance of speech recognition by using (see, for example, Non-Patent Document 1). In this prior art, model parameters of an error correction model are learned using speech data, the speech recognition result and a correct word string.
字幕制作システムなどのアプリケーションシステムでは、入力となる音声を逐次的かつリアルタイムに処理する必要がある。しかしながら、従来技術による誤り修正モデルの学習は計算量が多いため、逐次性とリアルタイム性の観点から上記のアプリケーションの利用では問題がある。
例えば、従来技術では、正解単語列を構成する各単語の発話時刻を求めるために、入力音声に対する整列を行う必要がある。整列の際には、各単語の発話時刻に合わせて、その音響スコア(統計的音響モデルによる対数尤度に基づくスコア)を計算する。これは、従来技術の誤り修正モデルにおいては、音響スコアが必要となることが理由である。整列処理は、誤り修正モデルの学習において、厳密なモデルパラメータの推定を行う上で重要ではあるものの、計算量の観点からは好ましいものではない。逐次的に誤り修正モデルを学習することができたとしても、モデルの適用に遅延が生じるため、放送音声のような話題の移り変わりの激しいタスクでは、誤り修正モデルの有効性が大きく損なわれると考えられる。
In an application system such as a caption production system, it is necessary to process input audio sequentially and in real time. However, the learning of the error correction model according to the prior art has a large amount of calculation, so that there is a problem in using the above application from the viewpoint of sequentiality and real-time property.
For example, in the prior art, it is necessary to align input speech in order to obtain the utterance time of each word constituting a correct word string. At the time of alignment, the acoustic score (score based on log likelihood based on a statistical acoustic model) is calculated in accordance with the utterance time of each word. This is because an acoustic score is required in the error correction model of the prior art. Although the alignment process is important for accurate model parameter estimation in error correction model learning, it is not preferable from the viewpoint of computational complexity. Even if the error correction model can be learned sequentially, the application of the model will be delayed, so it is considered that the effectiveness of the error correction model will be greatly impaired in tasks where the topic changes rapidly, such as broadcast audio. It is done.
本発明は、このような事情を考慮してなされたもので、簡便に誤り修正モデルを逐次学習することができる誤り修正モデル学習装置、及びプログラムを提供する。 The present invention has been made in view of such circumstances, and provides an error correction model learning apparatus and program that can easily learn error correction models sequentially.
[1] 本発明の一態様は、入力された指示に従って音声認識結果を修正する音声認識結果修正部と、前記音声認識結果に含まれる言語的な特徴と、前記音声認識結果修正部による修正結果に含まれる言語的な特徴との差分から単語の誤り傾向を学習し、音声認識において単語の誤り傾向を修正するための誤り修正モデルを、学習した前記単語の誤りの傾向に応じて更新する誤り修正モデル更新部と、を備えることを特徴とする誤り修正モデル学習装置である。
この発明によれば、誤り修正モデル学習装置は、音声認識結果と、音声認識結果を人手により修正した修正結果とのそれぞれに含まれる言語的な特徴の差分に基づいて単語の誤り傾向を学習し、学習した誤り傾向に応じて誤り修正モデルを更新する。
これにより、誤り修正モデル学習装置は、逐次入力される音声の音声認識結果と、その音声認識結果を人手により修正した修正結果のみを用いて、少ない計算量により単語の誤り傾向を学習し、誤り修正モデルを更新することができる。従って、誤り修正モデル学習装置は、誤り修正モデルを逐次的かつ低遅延で更新することが可能となる。
なお、上記の「入力された指示」は、人手による修正作業を指すものとしてよい。
[1] According to one aspect of the present invention, a speech recognition result correcting unit that corrects a speech recognition result according to an input instruction, a linguistic feature included in the speech recognition result, and a correction result by the speech recognition result correcting unit An error that learns an error tendency of a word from a difference from a linguistic feature included in an error and updates an error correction model for correcting the error tendency of the word in speech recognition according to the learned error tendency of the word An error correction model learning device comprising: a correction model update unit.
According to the present invention, the error correction model learning device learns an error tendency of a word based on a difference in linguistic features included in each of a speech recognition result and a correction result obtained by manually correcting the speech recognition result. The error correction model is updated according to the learned error tendency.
As a result, the error correction model learning device learns the error tendency of the word with a small amount of calculation using only the speech recognition result of the sequentially input speech and the correction result obtained by manually correcting the speech recognition result. The modified model can be updated. Therefore, the error correction model learning device can update the error correction model sequentially and with low delay.
Note that the “input instruction” may refer to manual correction work.
[2] 本発明の一態様は、上述する誤り修正モデル学習装置であって、前記誤り修正モデル更新部は、前記音声認識結果に含まれる単語または単語の品詞の共起の頻度と、前記修正結果に含まれる単語または単語の品詞の共起の頻度とを用いて単語誤りの傾向を学習する、ことを特徴とする。
この発明によれば、誤り修正モデル学習装置は、音声認識結果と、音声認識結果を人手により修正した修正結果とのそれぞれに含まれる単語または単語の品詞の共起の頻度を用いて単語の誤り傾向を学習し、誤り修正モデルを更新する。
これにより、誤り修正モデル学習装置は、音声認識結果と修正結果について単語または単語の品詞の共起の頻度を計数することで、音声認識における単語の誤り傾向を効率的に学習し、学習結果から誤り修正モデルを更新することができる。
[2] One aspect of the present invention is the error correction model learning device described above, wherein the error correction model update unit includes the frequency of co-occurrence of words or parts of speech included in the speech recognition result, and the correction. The tendency of word errors is learned using the frequency of words or part-of-speech co-occurrence included in the results.
According to this invention, the error correction model learning device uses the frequency of co-occurrence of words or word parts of speech included in each of the speech recognition result and the correction result obtained by manually correcting the speech recognition result. Learn trends and update error correction models.
Thereby, the error correction model learning device efficiently learns the error tendency of words in speech recognition by counting the frequency of co-occurrence of words or parts of speech of speech recognition results and correction results, and from the learning results. The error correction model can be updated.
[3] 本発明の一態様は、上述する誤り修正モデル学習装置であって、前記言語的な特徴は、連続する単語列、または、連続する単語の品詞列の頻度であり、前記誤り修正モデルは、前記言語的な特徴に基づく素性関数と、前記素性関数の素性重みとを用いて音声認識のスコアを修正する算出式であり、前記誤り修正モデル更新部は、前記誤り修正モデルの前記素性重みを、学習した前記単語の誤りの傾向に応じて更新する、ことを特徴とする。
この発明によれば、誤り修正モデル学習装置は、音声認識結果及び修正結果のそれぞれに含まれる連続する単語列の頻度、連続する単語の品詞列の頻度などの言語的な特徴の差分から単語の誤り傾向を学習する。誤り修正モデルは、言語的な特徴を表わす素性関数と素性関数の素性重みとにより音声認識のスコアを修正する算出式であり、誤り修正モデル学習装置は、学習した単語誤りの傾向に応じて誤り修正モデルの素性重みを更新する。
これにより、誤り修正モデル学習装置は、音声認識の認識誤り傾向を効率的に学習し、誤り修正モデルにおける素性重みを更新することができる。
[3] One aspect of the present invention is the error correction model learning apparatus described above, wherein the linguistic feature is a frequency of a continuous word string or a continuous word part-of-speech string, and the error correction model. Is a calculation formula for correcting a score of speech recognition using a feature function based on the linguistic feature and a feature weight of the feature function, and the error correction model update unit is configured to calculate the feature of the error correction model. The weight is updated according to the tendency of the learned error of the word.
According to the present invention, the error correction model learning device can detect a word from a difference in linguistic features such as the frequency of consecutive word strings and the frequency of part of speech strings of consecutive words included in each of the speech recognition result and the correction result. Learn error tendency. An error correction model is a calculation formula that corrects a speech recognition score based on a feature function that represents a linguistic feature and a feature weight of the feature function. The error correction model learning device performs an error according to the tendency of a learned word error. Update the feature weight of the modified model.
Thereby, the error correction model learning device can efficiently learn the recognition error tendency of speech recognition and can update the feature weight in the error correction model.
[4] 本発明の一態様は、上述する誤り修正モデル学習装置であって、入力音声を音声認識し、前記誤り修正モデル更新部により更新された前記誤り修正モデルを用いて、前記入力音声から得られた音声認識結果の選択における誤りを修正して出力する音声認識部をさらに備える、ことを特徴とする。
この発明によれば、誤り修正モデル学習装置は、入力音声を音声認識することにより得られた正解候補の中から、逐次更新される誤り修正モデルを用いて音声認識結果を選択する。
これにより、誤り修正モデル学習装置は、話題が移り変わっていく場合でも、その話題に応じて逐次的かつ学習による遅延時間の小さい誤り修正モデルを用いて、認識率のよい音声認識結果を得ることができる。
[4] One aspect of the present invention is the error correction model learning apparatus described above, which recognizes an input speech and uses the error correction model updated by the error correction model update unit, from the input speech. It further comprises a speech recognition unit that corrects and outputs an error in selection of the obtained speech recognition result.
According to the present invention, the error correction model learning device selects a speech recognition result using an error correction model that is sequentially updated from among correct answer candidates obtained by speech recognition of input speech.
Thereby, even when a topic changes, the error correction model learning device can obtain a speech recognition result with a high recognition rate by using an error correction model that is sequential and has a small delay time due to learning according to the topic. it can.
[5] 本発明の一態様は、コンピュータを、入力された指示に従って音声認識結果を修正する音声認識結果修正手段と、前記音声認識結果に含まれる言語的な特徴と、前記音声認識結果修正手段による修正結果に含まれる言語的な特徴との差分から単語の誤り傾向を学習し、音声認識において単語の誤り傾向を修正するための誤り修正モデルを、学習した前記単語の誤りの傾向に応じて更新する誤り修正モデル更新手段と、を具備する誤り修正モデル学習装置として機能させるためのプログラムである。 [5] According to one aspect of the present invention, a computer recognizes a speech recognition result correcting unit that corrects a speech recognition result according to an input instruction, a linguistic feature included in the speech recognition result, and the speech recognition result correcting unit. Learns the error tendency of the word from the difference from the linguistic feature included in the correction result by, and an error correction model for correcting the error tendency of the word in speech recognition according to the learned error tendency of the word An error correction model update unit for updating is a program for causing an error correction model learning device to function.
本発明によれば、簡便に誤り修正モデルを逐次学習することができる。 According to the present invention, an error correction model can be sequentially learned easily.
以下、図面を参照しながら本発明の実施形態を詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
[1. 本実施形態の概要]
音声認識の誤り傾向を反映した識別学習に基づく誤り修正モデルがすでに考案されている。従来の誤り修正モデルの学習では、与えられた音声とその音声に該当する正解単語列に対して、単語列を構成する各単語の発話開始時刻と終了時刻を整列するための手続きが必要である。その手続きは次の通りである。
[1. Overview of this embodiment]
An error correction model based on discriminative learning that reflects the error tendency of speech recognition has already been devised. In conventional error correction model learning, a procedure for aligning the utterance start time and end time of each word constituting a word string is necessary for a given voice and a correct word string corresponding to the voice. . The procedure is as follows.
(1)音声データと正解単語列を整列する。この際、正解単語列を構成する各単語の音響スコアと言語スコア(統計的言語モデルによる単語列の生成確率に基づくスコア)を計算する。
(2)音声認識結果および(1)で整列済みの正解単語列を基に、入力音声データに対する期待誤り数(平均的な音声認識の単語誤り数)を計算する。
(3)期待誤り数を評価関数として、誤り修正モデルのモデルパラメータの推定を行う。
(1) Align voice data and correct word strings. At this time, an acoustic score and a language score (score based on a word string generation probability based on a statistical language model) of each word constituting the correct word string are calculated.
(2) The expected number of errors (average number of word errors in speech recognition) for the input speech data is calculated on the basis of the speech recognition result and the correct word strings already aligned in (1).
(3) The model parameters of the error correction model are estimated using the expected number of errors as an evaluation function.
上述した従来技術では、すべての音声データが所与のもとで誤り修正モデルのモデルパラメータを推定している。音声データが得られるたびに上記手続きを繰り返し行うようにすれば、従来技術においても逐次処理に適用可能であるが、(1)と(2)の処理は誤り修正モデルのパラメータ推定のための計算時間を押し上げる要因となっている。そのため、推定したモデルパラメータを即時音声認識に適用するような、リアルタイム性が求められるアプリケーションには向いていない。そこで、整列手続きを行うことなく簡便にモデルを学習することが望まれる。 In the prior art described above, the model parameters of the error correction model are estimated with all audio data given. If the above procedure is repeated every time voice data is obtained, the conventional technique can be applied to sequential processing, but the processes (1) and (2) are calculations for parameter estimation of an error correction model. It is a factor that pushes up time. Therefore, it is not suitable for an application that requires real-time performance, such as applying the estimated model parameter to immediate speech recognition. Therefore, it is desirable to learn a model easily without performing an alignment procedure.
本実施形態の誤り修正モデル学習装置は、字幕制作システムなどにより、入力音声の認識誤りを修正した正解単語列が所与であるという音声認識アプリケーションに適用される誤り修正モデルを、正解単語列の整列手続きを踏まえることなく、音声認識結果と修正結果から逐次的かつ簡便に学習する。 The error correction model learning apparatus according to the present embodiment uses an error correction model applied to a speech recognition application in which a correct word string in which an input speech recognition error is corrected is given by a caption production system or the like as a correct word string. Learning sequentially and simply from the speech recognition results and the correction results without considering the alignment procedure.
[2. 誤り修正モデルの学習アルゴリズム]
本実施形態の誤り修正モデル学習装置は、従来法の課題を解決するために、リアルタイム性に優れる逐次処理に基づいて誤り修正モデルを学習する。本実施形態の学習アルゴリズムでは、字幕制作システムのように正解単語列が逐次的に得られるアプリケーションに適用される誤り修正モデルを学習の対象とする。
[2. Error correction model learning algorithm]
The error correction model learning apparatus according to the present embodiment learns an error correction model based on sequential processing with excellent real-time characteristics in order to solve the problem of the conventional method. In the learning algorithm of this embodiment, an error correction model applied to an application in which correct word strings are sequentially obtained as in a caption production system is targeted for learning.
図1は、音声認識結果から修正結果を得る修正プロセスを示す図である。一般的な修正プロセスにおいては、前段となる音声認識装置により、音声認識結果が逐次与えられる。従来の逐次確定型の音声認識装置(例えば、特開2001−092496号公報参照。)の場合、認識結果は、入力発話に該当する単語がまとめて送られてくるのではなく、音声認識装置において確定した(最も正解らしいと判定された)一部分の単語列が送られてくる。このプロセスは、本実施形態においても適用される。 FIG. 1 is a diagram illustrating a correction process for obtaining a correction result from a voice recognition result. In a general correction process, a speech recognition result is sequentially given by the speech recognition device at the previous stage. In the case of a conventional sequential confirmation type speech recognition apparatus (for example, see Japanese Patent Application Laid-Open No. 2001-092496), the recognition result is not sent in a word corresponding to the input utterance, but in the speech recognition apparatus. A partial word string that has been confirmed (determined to be the most correct answer) is sent. This process is also applied in this embodiment.
その後、人手による作業により音声認識結果が修正され、修正結果が正解単語列として後段の処理に送られる。修正プロセスでは、通常、修正後の単語列を逐次後段に送るのではなく、入力発話の該当する単語すべてを後段に送る。したがって、修正プロセスにおける修正の一単位(修正ブロック)は、発話を単位とするブロックとなる。
後段の処理は、例えば、字幕制作システムであれば、正解単語列を字幕のフォーマットに変換し、放送波に重畳するといった処理を指す。
Thereafter, the speech recognition result is corrected by manual work, and the correction result is sent to the subsequent processing as a correct word string. In the correction process, normally, the corrected word string is not sequentially sent to the subsequent stage, but all the corresponding words of the input utterance are sent to the subsequent stage. Accordingly, one unit of correction (correction block) in the correction process is a block with utterance as a unit.
For example, in the case of a caption production system, the subsequent process refers to a process of converting a correct word string into a caption format and superimposing it on a broadcast wave.
修正作業は、音声認識結果の各単語に対する次の3つの作業を指す。
(1)音声認識結果に含まれる単語を削除する。これは、「挿入誤り」とよばれる認識誤りの修正に該当する。
(2)音声認識結果に含まれる単語を置き換える。これは、「置換誤り」とよばれる認識誤りの修正に該当する。
(3)音声認識結果にはない単語を挿入する。これは、「削除誤り」とよばれる認識誤りの修正に該当する。
The correction work refers to the following three works for each word of the speech recognition result.
(1) Delete words included in the speech recognition result. This corresponds to correction of a recognition error called “insertion error”.
(2) Replace words included in the speech recognition result. This corresponds to correction of a recognition error called “replacement error”.
(3) Insert a word that is not in the speech recognition result. This corresponds to correction of a recognition error called “deletion error”.
図2は、本実施形態による誤り修正モデルの逐次更新プロセスを示す図である。本実施形態では、誤り修正モデルを逐次的に学習して音声認識に適用するため、同図に示すように、複数の修正ブロックを一つの逐次更新ブロックと定めて誤り修正モデルの更新タイミングを調整する。そして、この逐次更新ブロックに含まれる音声認識結果と修正結果の単語列のみを用いて、逐次的に誤り修正モデルを更新していく。 FIG. 2 is a diagram showing a sequential update process of the error correction model according to the present embodiment. In this embodiment, the error correction model is sequentially learned and applied to speech recognition. Therefore, as shown in the figure, multiple correction blocks are defined as one sequential update block, and the update timing of the error correction model is adjusted. To do. Then, the error correction model is sequentially updated using only the speech recognition result and the word string of the correction result included in the sequential update block.
[2.1 従来法の誤り修正モデル]
ベイズの定理によれば、音声入力xが与えられたとき、この音声入力xに対して最も尤もらしい単語列w^(「^」は、「ハット」を表す。)は、以下の式(1)により求めることができる。
[2.1 Error correction model of conventional method]
According to Bayes' theorem, when speech input x is given, the most likely word sequence w ^ (“^” represents “hat”) for this speech input x is expressed by the following equation (1). ).
音声入力x及び単語列wは、例えば、発話の単位に対応し、P(w|x)は、音声入力xが与えられたときに単語列(文仮説)wが得られる事後確率である。
また、P(x|w)は、単語列wに対する音響的な尤もらしさを示す尤度であり、そのスコア(音響スコア)は隠れマルコフモデル(Hidden Markov Model、HMM)及び混合ガウス分布(Gaussian Mixture Model、GMM)に代表される統計的音響モデル(以下、「音響モデル」と記載する。)に基づいて計算される。言い換えれば、音響特徴量が与えられたとき、複数の正解候補の単語それぞれに対する尤もらしさを表すスコアが音響スコアである。
The voice input x and the word string w correspond to, for example, the unit of speech, and P (w | x) is a posterior probability that a word string (sentence hypothesis) w is obtained when the voice input x is given.
P (x | w) is a likelihood indicating acoustic likelihood for the word string w, and the score (acoustic score) is a hidden Markov model (HMM) and a mixed Gaussian distribution (Gaussian Mixture). It is calculated based on a statistical acoustic model (hereinafter referred to as “acoustic model”) typified by Model, GMM). In other words, when an acoustic feature amount is given, a score representing the likelihood of each of a plurality of correct candidate words is an acoustic score.
一方、P(w)は、単語列wに対する言語的な生成確率であり、そのスコア(言語スコア)は、単語n−gramモデル等の統計的言語モデル(以下、「言語モデル」と記載する。)により計算される。言い換えれば、音声認識対象の単語の前または後の単語列、あるいは前後両方の単語列が与えられたとき、複数の正解候補の単語列それぞれに対する尤もらしさを表すスコアが言語スコアである。なお、単語n−gramモデルは、N単語連鎖(Nは、例えば1、2、または3である。)の統計に基づいて、(N−1)単語の履歴から次の単語の生起確率を与えるモデルである。
以下の説明では、音響モデルにHMM−GMMを用い、言語モデルにn−gramを用いる。
On the other hand, P (w) is a linguistic generation probability for the word string w, and the score (language score) is described as a statistical language model (hereinafter, “language model”) such as a word n-gram model. ). In other words, when a word string before or after a speech recognition target word, or both word strings before and after the given word string, a score representing the likelihood of each of a plurality of correct answer word strings is a language score. The word n-gram model gives the occurrence probability of the next word from the history of the word (N-1) based on the statistics of N word chains (N is 1, 2, or 3, for example). It is a model.
In the following description, HMM-GMM is used for the acoustic model and n-gram is used for the language model.
式(1)のP(x|w)P(w)が最大の場合は、その対数も最大である。そこで、音声認識では、上記の式(1)のベイズの定理に基づいて、音声入力xが与えられたときの文仮説(正解候補)である単語列wの評価関数S(w|x)を以下の式(2)のように定める。 When P (x | w) P (w) in Equation (1) is maximum, the logarithm is also maximum. Therefore, in speech recognition, the evaluation function S (w | x) of the word string w, which is a sentence hypothesis (correct answer candidate) when the speech input x is given, based on the Bayes' theorem of the above equation (1). It is defined as the following formula (2).
式(2)において、fam(x|w)は、音響モデルによる単語列wの対数音響スコア、flm(w)は、言語モデルによる単語列wの対数言語スコア、λlmは、音響スコアに対する言語スコアの重みである。 In formula (2), f am (x | w) is a logarithmic acoustic score of the word sequence w according to the acoustic model, f lm (w) is a logarithmic language score of the word sequence w according to the language model, and λ lm is an acoustic score Is the weight of the language score for.
式(2)が定められたとき、以下の式(3)に示すように、音声入力xに対する正解候補の単語列wの集合の中から、式(2)が示す評価関数S(w|x)の結果が最大である単語列w^が、音声入力xの音声認識結果として選択される。 When the formula (2) is determined, as shown in the following formula (3), the evaluation function S (w | x shown by the formula (2) is selected from the set of correct candidate word strings w for the speech input x. ) Is selected as the speech recognition result of speech input x.
非特許文献1などの従来法における誤り修正モデルでは、仮説(正解候補の単語列w)の評価関数を以下の式(4)として、最尤仮説である単語列w^を以下の式(5)により求める。 In the error correction model in the conventional method such as Non-Patent Document 1, the evaluation function of the hypothesis (correct candidate word string w) is set as the following expression (4), and the word string w ^ that is the maximum likelihood hypothesis is expressed as the following expression (5 )
式(4)の右辺が誤り修正モデルである。式(4)におけるΣiλifi(w)は、単語列wの誤り傾向を反映したスコアであり、単語列wに対するペナルティもしくは報償として働く。また、fi(w)(i=1,...,)はi番目の素性関数であり、モデルパラメータΛ={λ1,...}の要素λiは素性関数fi(w)の重み(素性重み)である。素性関数は、与えられた単語列(ここでは、単語列w)で言語的ルールが成立すればその数となり、成立しなければ0となるような関数として定められる。これらルールは、例えば、同一の発話内における連続する単語、連続しない2単語以上の単語の共起関係、単語の構文的な情報または意味的な情報、などの言語的特徴である。従来法における具体的な素性関数fiのルールの例として、以下があげられる。 The right side of Equation (4) is an error correction model. Equation (4) in Σ i λ i f i (w ) is a score reflecting the error tendency of the word sequence w, act as a penalty or reward for the word sequence w. Also, f i (w) (i = 1,...) Is the i-th feature function, and the element λ i of the model parameter Λ = {λ 1 ,...} Is the feature function f i (w). Weight (feature weight). The feature function is defined as a function that becomes the number if a linguistic rule is established in a given word string (here, word string w), and is 0 if not established. These rules are, for example, linguistic features such as consecutive words in the same utterance, co-occurrence relationship of two or more words that are not consecutive, syntactic information or semantic information of words. Examples of rules specific feature function f i in the conventional method, and the like below.
例えば、単語の共起関係に基づく素性関数として、以下の(1)、(2)がある。 For example, there are the following (1) and (2) as feature functions based on the co-occurrence relationship of words.
(1)単語列wに連続する単語2つ組(u,v)が含まれる場合、その数を返す関数
(2)単語列wに連続しない単語2つ組(u,v)が含まれる場合、その数を返す関数
(1) A function that returns the number of consecutive words (u, v) when the word string w includes a continuous word pair (u, v) (2) A case where the word string w includes a non-continuous word pair (u, v) , A function that returns the number
また、単語列wを構成する各単語を名詞や動詞といった品詞カテゴリ(構文情報)に置き換えた上で得られる、構文情報に基づく素性関数として、例えば以下の(3)、(4)がある。なお、c(・)は、単語を品詞にマッピングする関数である。 For example, the following (3) and (4) are feature functions based on syntax information obtained by replacing each word constituting the word string w with a part-of-speech category (syntax information) such as a noun or a verb. Note that c (•) is a function that maps words to parts of speech.
(3)単語列wに連続する品詞2つ組(c(u),c(v))が含まれる場合、その数を返す関数
(4)単語列wに連続しない品詞2つ組(c(u),c(v))が含まれる場合、その数を返す関数
(3) A function that returns the number of pairs of parts of speech (c (u), c (v)) that are consecutive in the word string w (4) A pair of parts of speech that are not consecutive in the word string w (c ( u), c (v)), a function that returns the number if it is included
あるいは、単語列wを構成する各単語を、意味情報を表すカテゴリ(意味カテゴリ)に置き換えた上で得られる、意味的な情報に基づく素性関数として、例えば以下の(5)、(6)がある。意味カテゴリは、本実施形態の誤り修正モデル学習装置が外部または内部に備えるデータベースに記憶されるシソーラスなどを用いて得ることができる。なお、s(・)は単語を意味カテゴリにマッピングする関数である。 Alternatively, for example, the following (5) and (6) are feature functions based on semantic information obtained by replacing each word constituting the word string w with a category (semantic category) representing semantic information. is there. The semantic category can be obtained by using a thesaurus stored in a database provided externally or internally in the error correction model learning apparatus of the present embodiment. Note that s (•) is a function that maps words to semantic categories.
(5)単語列wに連続する意味カテゴリ2つ組(s(u),s(v))が含まれる場合、その数を返す関数
(6)単語列wに連続しない意味カテゴリ2つ組(s(u),s(v))が含まれる場合、その数を返す関数
(5) A function that returns the number of consecutive semantic categories (s (u), s (v)) in the word string w (6) A pair of semantic categories that are not consecutive in the word string w ( a function that returns the number of s (u), s (v))
非特許文献1の手法では、式(4)における仮説のスコアの計算を、修正済みの正解単語列について行っているが、この計算は時間がかかるため、誤り修正モデルの適用からリアルタイム性が失われてしまう。
そこで、逐次更新処理ブロックにおける誤り修正モデルのモデルパラメータΛの更新方法として、以下のアルゴリズムを用いる。
In the method of Non-Patent Document 1, the calculation of the hypothesis score in Equation (4) is performed for the corrected correct word string. However, since this calculation takes time, the real-time property is lost due to the application of the error correction model. It will be broken.
Therefore, the following algorithm is used as a method for updating the model parameter Λ of the error correction model in the sequential update processing block.
[2.2 本実施形態に適用される誤り修正モデルの学習アルゴリズム]
いま、着目している逐次更新処理ブロック内の音声認識結果をwとし、その修正結果である正解単語列をwrefとする。モデルパラメータΛを用いた式(4)により算出した音声認識結果wのスコアをS^(w|x;Λ)、正解単語列wrefのスコアをS^(wref|x;Λ)としたとき、以下の式(6)に示すそれらスコアの差分L1(Λ)を考える。
[2.2 Learning algorithm of error correction model applied to this embodiment]
Now, let w be the speech recognition result in the sequential update processing block of interest, and let w ref be the correct word string that is the correction result. The score of the speech recognition result w calculated by the equation (4) using the model parameter Λ is S ^ (w | x; Λ), and the score of the correct word string w ref is S ^ (w ref | x; Λ). Then, consider the difference L 1 (Λ) of the scores shown in the following equation (6).
正解単語列wrefに対するスコアが大きければ、式(6)において正解単語列が選ばれる見込みが高くなる。一方、誤りを含む音声認識結果wに対するスコアが小さければ、そのような単語列が選ばれる見込みが小さくなる。したがって、L1(Λ)が大きいほど、正解単語列が選ばれる見込みが高くなる。
つまり、L1(Λ)を大きくするようにモデルパラメータΛを推定することにより、音声認識結果の誤り傾向を反映した誤り修正モデルが得られる。そこで、L1(Λ)を最大化するために、その重みλiに関する勾配を求めると、以下の式(7)となる。
If the score for the correct word string w ref is large, the probability that the correct word string will be selected in equation (6) increases. On the other hand, if the score for the speech recognition result w containing an error is small, the probability that such a word string is selected becomes small. Therefore, the larger L 1 (Λ) is, the higher the probability that the correct word string will be selected.
That is, by estimating the model parameter Λ so as to increase L 1 (Λ), an error correction model reflecting the error tendency of the speech recognition result can be obtained. Therefore, when the gradient related to the weight λ i is obtained in order to maximize L 1 (Λ), the following equation (7) is obtained.
今、逐次更新ブロックbm(m=1,...,)内に修正ブロックがnm個含まれていたとすると、逐次更新ブロックbmにおけるスコアの差分L1(Λ)は、以下の式(8)のように書き換えられる。なお、入力音声xnに対応した修正ブロックn(n=1,...,nm)における音声認識結果をwnとし、その修正結果である正解単語列をwn refとする。 Assuming that n m correction blocks are included in the sequential update block b m (m = 1,...), The score difference L 1 (Λ) in the sequential update block b m is expressed by the following equation: It is rewritten as (8). The input speech x n modified corresponding to the block n (n = 1, ..., n m) the speech recognition result in the w n, the correct word sequence which is a modification result as w n ref.
したがって、逐次更新ブロックbmにおける式(8)に示す関数の勾配Δλi mは、以下の式(9)となる。 Thus, the gradient [Delta] [lambda] i m of the function shown in equation (8) in the sequential update block b m, and becomes the following equation (9).
素性関数fiの値は、その定義より、音声認識結果および正解単語列で生起する言語的ルールの個数である。従って、修正済みの正解単語列に対して式(4)によるスコアを計算することなく、逐次処理更新ブロック内の素性を数え上げるだけの簡単な処理によりスコアの差分L1(Λ)を最大化でき、そのときのモデルパラメータΛから結果として誤り修正モデルを学習できる。 The value of the feature function f i is the number of linguistic rules that occur in the speech recognition result and the correct word string based on the definition. Accordingly, the score difference L 1 (Λ) can be maximized by a simple process of counting up the features in the sequential processing update block without calculating the score according to the formula (4) for the corrected correct word string. As a result, an error correction model can be learned from the model parameter Λ at that time.
逐次処理更新ブロックに対する繰り返し更新によりモデルパラメータΛの推定を行うとすれば、m−1番目の逐次更新ブロックbm−1で重みλi m−1が得られたとして、現在のブロックmにおける重みλi mは、以下の式(10)となる。 If it is assumed that the model parameter Λ is estimated by iterative updating for the sequential update block, the weight λ i m−1 is obtained in the m−1th sequential update block b m−1 , and the weight in the current block m. λ i m is expressed by the following equation (10).
式(10)において、ηは、事前に定めた係数とする。
あるいは、過去に得られたK個の逐次更新ブロックに対して重み付け加算を行うことにより、以下の式(11)とすることもできる。
In equation (10), η is a predetermined coefficient.
Alternatively, the following equation (11) can be obtained by performing weighted addition on K sequential update blocks obtained in the past.
式(11)において、ρkは、事前に定めた重みであり、Σρk=1(k=0,...,K−1)とする。 In equation (11), ρ k is a predetermined weight, and Σρ k = 1 (k = 0,..., K−1).
一方、音声認識では、最尤系列を音声認識結果として一意に求めるのではなくて、最尤系列の導出の際に複数の正解候補となる系列をL個同時に生成することが多い。いま、音声xnに対する第l番目(l=1,...,)の正解候補文(正解候補となる系列)をwn l、式(4)により算出した正解候補文wn lのスコアをS^(wn l|x;Λ)とすると、正解候補文wn lが生成される事後確率p(wn l|xn)は、以下の式(12)で与えられる。なお、正解候補文wn l’は、音声xnの正解候補文wn l以外の正解候補文である。 On the other hand, in speech recognition, instead of uniquely obtaining the maximum likelihood sequence as a speech recognition result, L sequences that are a plurality of correct candidate candidates are often generated simultaneously when the maximum likelihood sequence is derived. Now, the score of the correct candidate sentence w n l calculated by Expression (4) is w n l for the l-th (l = 1,...) Correct answer sentence (sequence that is a correct candidate) for the speech x n . Is S (w n l | x; Λ), the posterior probability p (w n l | x n ) that the correct candidate sentence w n l is generated is given by the following equation (12). It should be noted that the correct candidate sentence w n l 'is the correct candidate sentence other than the correct candidate sentence w n l of voice x n.
ここで、音声xnの正解単語列wn refのスコアとL個の正解候補文wn lの平均スコアとの差分L2(Λ)を以下の式(13)のように定める。 Here, the difference L 2 (Λ) between the score of the correct word string w n ref of the speech x n and the average score of the L correct candidate sentences w n l is determined as in the following equation (13).
式(13)に示す関数を最大化するために勾配を求めると、以下の式(14)となる。 When the gradient is obtained in order to maximize the function shown in Expression (13), the following Expression (14) is obtained.
したがって、逐次更新ブロックbmにおける勾配Δλi mは、以下の式(15)となる。 Thus, sequential gradient [Delta] [lambda] i m in the update block b m is given by the following expression (15).
モデルパラメータΛの最終更新式は、上述した式(10)または式(11)となる。 The final update formula of the model parameter Λ is the above-described formula (10) or formula (11).
[3. 誤り修正モデル学習装置の構成]
図4は、本発明の一実施形態による誤り修正モデル学習装置1の構成を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみ抽出して示してある。誤り修正モデル学習装置1は、コンピュータ装置により実現され、同図に示すように、音声認識部2、発音辞書記憶部3、言語モデル記憶部4、音響モデル記憶部5、誤り修正モデル記憶部6、音声認識結果修正部7、形態素解析部8、形態素解析辞書データベース(DB)記憶部9、誤り修正モデル更新部10、言語モデル更新部12、及び発音辞書データベース(DB)記憶部14を備えて構成される。
[3. Configuration of error correction model learning device]
FIG. 4 is a functional block diagram showing the configuration of the error correction model learning device 1 according to an embodiment of the present invention, and only functional blocks related to the present embodiment are extracted and shown. The error correction model learning device 1 is realized by a computer device, and, as shown in the figure, a
発音辞書記憶部3は、単語と発音の組を示す発音辞書を記憶する。言語モデル記憶部4は、言語モデルを記憶する。音響モデル記憶部5は、音響モデルを記憶する。誤り修正モデル記憶部6は、誤り修正モデルを記憶する。音声認識部2には、従来技術の音声認識装置を用いることができ、発音辞書記憶部3に記憶されている発音辞書、言語モデル記憶部4に記憶されている言語モデル、音響モデル記憶部5に記憶されている音響モデル、及び誤り修正モデル記憶部6に記憶されている誤り修正モデルを用いて、逐次入力される入力音声D1の音声認識結果を得る。なお、誤り修正モデル記憶部6に記憶されている誤り修正モデルは誤り修正モデル更新部10により逐次更新されるため、音声認識部2は、更新された誤り修正モデルを音声認識に用いる。また、発音辞書記憶部3に記憶されている発音辞書、及び言語モデル記憶部4に記憶されている言語モデルは言語モデル更新部12により更新されるため、音声認識部2は、更新された発音辞書及び言語モデルを音声認識に用いる。音声認識部2は、音声認識結果を音声認識結果修正部7に出力する。
The pronunciation
音声認識結果修正部7は、人手により音声認識結果を正解単語列に修正し、音声認識結果及びその修正結果である正解単語列を形態素解析部8に出力する。音声認識結果修正部7には、例えば、従来の字幕制作システムなどを用いることができる。形態素解析部8は、正解単語列に含まれる修正文字列を形態素解析する。形態素解析部8は、音声認識結果及びその正解単語列と、形態素解析結果とを誤り修正モデル更新部10に出力する。誤り修正モデル更新部10は、音声認識部2により得られた音声認識結果と、音声認識結果修正部7で修正され、形態素解析部8により形態素解析された結果の正解単語列を用いて、誤り修正モデルのモデルパラメータΛを推定する。誤り修正モデル更新部10は、逐次更新ブロック分の音声認識結果と修正結果の正解単語列が得られるたびにモデルパラメータΛを逐次推定し、推定したモデルパラメータΛにより誤り修正モデル記憶部6に記憶されている誤り修正モデルを逐次更新する。誤り修正モデル更新部10が備える記憶部11は、誤り修正モデルの更新に用いる音声認識結果及び修正結果の正解単語列を記憶する。
The speech recognition
発音辞書データベース記憶部14は、発音辞書のデータベースを記憶する。発音辞書記憶部3が記憶する発音辞書は、発音辞書データベース記憶部14に記憶されている発音辞書のデータベースの中から音声認識に使用されるものを抽出した一部である。言語モデル更新部12は、正解単語列に基づいて言語モデル記憶部4に記憶されている言語モデルを更新する。さらに、言語モデル更新部12は、正解単語列に含まれる単語の発音が、発音辞書記憶部3に記憶されている発音辞書に登録されていない場合、発音辞書データベース記憶部14に記憶されている発音辞書データベースからその単語の発音を読み出して登録する。言語モデル更新部12が備える記憶部13は、言語モデルの更新に用いる正解単語列を記憶する。
The pronunciation dictionary
[4. 誤り修正モデル学習装置の処理手順]
図5は、誤り修正モデル学習装置1の全体処理を示すフローチャートである。誤り修正モデル学習装置1は、音声が入力されると逐次的に同図に示す処理を行う。以下、同図に示す各ステップの処理について説明する。
[4. Processing procedure of error correction model learning device]
FIG. 5 is a flowchart showing the overall processing of the error correction model learning device 1. The error correction model learning device 1 sequentially performs the processing shown in FIG. Hereinafter, processing of each step shown in FIG.
[4.1 ステップS1]
音声認識部2は、音発音辞書記憶部3に記憶されている発音辞書、言語モデル記憶部4に記憶されている言語モデル、音響モデル記憶部5に記憶されている音響モデル、及び誤り修正モデル記憶部6に記憶されている誤り修正モデルを用いて、入力音声D1を音声認識する。この音声認識結果は、誤り修正モデルにより、入力音声から得られた音声認識結果の選択における誤りを修正したものである。音声認識部2は、入力音声の音声認識結果である単語列を出力する。本実施形態では、音声認識部2は、特開2001−092496号公報に示す技術と同様に、入力音声を逐次音声認識し、確定した認識結果を示す音声認識結果データD2を、単語を単位として次々に後段の音声認識結果修正部7に出力する。また、音声認識部2は、入力音声が発話の終了点(無音区間で定められる発話境界)に達した際に、発話終了記号を示す発話終了記号データを音声認識結果修正部7に出力する。発話終了記号は、音声認識結果修正部7において、修正ブロックの境界を定めるために必要となる。なお、本実施形態において音声認識結果データD2が示す音声認識結果は、逐次確定した最尤系列の単語列だけでもよく、複数の正解候補単語列(最尤系列の単語列と1以上の他の正解候補単語列)から構成されていても良い。音声認識結果が複数の正解候補単語列から構成される場合、各正解候補単語列の音声認識のスコアも音声認識結果データD2に付加される。
[4.1 Step S1]
The
[4.2 ステップS2]
音声認識結果修正部7は、前段の音声認識部2から音声認識結果データD2が送られてくると、音声認識結果データD2が示す音声認識結果を構成する各単語の誤りを、図示しない入力手段により人が入力した指示に従って修正した修正結果を生成する。ただし、音声認識結果が複数の正解候補単語列から構成される場合、修正対象となるのは最尤系列とする。認識結果を構成する単語は、音声認識部2から音声認識結果データD2により逐次送られてくるが、人手による修正を行う際の単位(修正ブロック)は、発話の始端から終端までとする。音声認識結果修正部7は、修正ブロックの境界を音声認識部2から出力される発話終了記号データにより定める。
修正ブロックの各単語の認識誤りを人手により修正した後、図示しない入力手段により送出操作が行われた場合、音声認識結果修正部7は、後段の形態素解析部8に、音声認識結果データD2と修正結果を示す修正結果データD3とのペアを修正ブロック単位で出力する。
[4.2 Step S2]
When the speech recognition result data D2 is sent from the preceding
When a recognition operation of each word in the correction block is corrected manually and then a sending operation is performed by an input unit (not shown), the speech recognition
[4.3 ステップS3]
形態素解析部8は、前段の音声認識結果修正部7から入力された修正結果データD3が示す修正結果の単語列を形態素解析する。音声認識結果は単語列であるが、修正作業では単語の分割を考慮せずに文字入力を行うため、修正が行われた箇所の単語境界は不明である。そこで、形態素解析部8は、修正結果に含まれる単語を順次チェックし、単語分割されていない語を形態素解析により単語に分解する。
図6は、形態素解析部8の処理を示すフローチャートである。
[4.3 Step S3]
The
FIG. 6 is a flowchart showing the processing of the
(ステップS31:修正結果単語選択処理)
形態素解析部8は、修正結果データD3が示す修正結果を、音声認識結果データD2が示す最尤系列と比較し、不一致箇所を修正文字列として特定する。形態素解析部8は、特定されたm=1,...,番目の修正文字列からまだ処理対象となっていない先頭(m=1)の修正文字列を選択する。
(Step S31: Correction Result Word Selection Process)
The
(ステップS32:未登録単語判定処理)
形態素解析部8は、m番目の修正文字列が、複数の単語から構成されているか否かを、当該修正文字列が形態素解析辞書データベース記憶部9に記憶されている形態素解析辞書に含まれているかどうかにより判断する。形態素解析部8は、修正文字列が形態素解析辞書に含まれている場合、m番目の修正文字列が1つの単語であると判断し、ステップS34の処理を行う。一方、m番目の修正文字列が形態素解析辞書に含まれていない場合、形態素解析部8は、当該修正文字列が複数の単語列から構成されているとみなし、ステップS33の処理を行う。
(Step S32: Unregistered word determination process)
The
(ステップS33:形態素解析処理)
形態素解析部8は、修正文字列を形態素解析して形態素解析辞書に含まれる既知の単語の組み合わせを探索する。例えば、修正文字列cが、修正結果の第k番目の単語であったとすると、当該修正文字列cから形態素解析により得られる単語列w^は、以下の式(16)により求めることができる。
(Step S33: Morphological analysis process)
The
ここで、単語列wk−1、単語列wk+1はそれぞれ、修正結果における修正文字列cの前後の単語である。これは、統計的な形態素解析にみられる従来の手法と同一の手法である。形態素解析部8は、修正結果におけるm番目の修正文字列cを、形態素解析の結果得られた単語列w^に置き換える。
Here, the word string w k−1 and the word string w k + 1 are words before and after the corrected character string c in the correction result, respectively. This is the same technique as the conventional technique found in statistical morphological analysis. The
(ステップS34:次の修正単語選択処理)
形態素解析部8は、現在のmの値に1を加算して、ステップS32からの処理を繰り返す。そして、形態素解析部8は、修正結果に含まれるすべての修正単語列についてステップS32〜S33の処理を行うと、図6の処理フローを終了する。形態素解析部8は、音声認識結果データD2と、修正結果データD3が示す修正結果に含まれる修正文字列を形態素解析の結果得られた単語列に置き換えた修正結果を示す修正結果データD4を、後段の誤り修正モデル更新部10に出力する。
(Step S34: Next Correction Word Selection Process)
The
[4.4 ステップS4]
誤り修正モデル更新部10は、前段の形態素解析部8から音声認識結果データD2と、形態素解析が行われた修正結果を示す修正結果データD4を入力として受け取ると、音声認識結果データD2及び修正結果データD4を内部に備える記憶部11に書き込む。誤り修正モデル更新部10は、記憶部11に記憶されている音声認識結果データD2が示す音声認識結果と修正結果データD4が示す修正結果とに基づいてモデルパラメータΛを更新し、更新したモデルパラメータΛにより、誤り修正モデル記憶部6に記憶されている誤り修正モデルを更新する。
図7は、誤り修正モデル更新部10の処理を示すフローチャートである。
[4.4 Step S4]
When the error correction
FIG. 7 is a flowchart showing the processing of the error correction
(ステップS41:更新判定処理)
誤り修正モデル更新部10は、誤り修正モデルのモデルパラメータΛの更新を行うかどうかを判定する。この判定は、モデルの更新頻度を調整するために行う。誤り修正モデル更新部10は、まだ後段の処理に使用していない音声認識結果の単語数をN、修正結果の単語数をMとしたときに、音声認識結果の単語数Nまたは修正結果の単語数Mのどちらか小さい方が、あらかじめ定めた閾値以上の場合に、後段の処理を行うと判定する。なお、誤り修正モデル更新部10は、音声認識結果の単語数N、修正結果の単語数Mを、記憶部11に記憶され、まだ後段の処理に使用していない音声認識結果データD2、修正結果データD4から取得する。ただし、音声認識結果が複数の正解候補単語列から構成される場合は、音声認識結果の単語数Nの値を、最尤系列に含まれる単語数とする。
(Step S41: Update determination process)
The error correction
音声認識結果の単語数Nまたは修正結果の単語数Mのどちらか小さい方が閾値よりも小さな場合、誤り修正モデル更新部10は、後段の処理を行わないと判定し、図7の処理を終了する。記憶部11に書き込まれた音声認識結果データD2及び修正結果データD4は、次の更新機会に利用される。
一方、音声認識結果の単語数Nまたは修正結果の単語数Mのどちらか小さい方が閾値以上の場合、誤り修正モデル更新部10は、ステップS42からの処理を行うと判定する。記憶部11に記憶され、まだステップS42以降の処理に使用していない音声認識結果データD2及び修正結果データD4を逐次更新ブロックbmとする。
When the smaller number of words N of the speech recognition result or the number of words M of the correction result is smaller than the threshold value, the error correction
On the other hand, if the smaller one of the number of words N of the speech recognition result or the number of words M of the correction result is equal to or greater than the threshold, the error correction
(ステップS42:素性計算処理)
誤り修正モデル更新部10は、逐次更新ブロックbmについて素性計算処理を行う。具体的には、誤り修正モデル更新部10は、逐次更新ブロックbmの音声認識結果データD2が示す音声認識結果と、修正結果データD4が示す修正結果のそれぞれについて、以下の素性関数の値(素性が生起する個数)を計算する。
(Step S42: feature calculation process)
The error correction
(1)連続する単語2つ組(u,v)が含まれる場合、その数を返す関数
(2)連続する品詞2つ組(c(u),c(v))が含まれる場合、その数を返す関数
(3)連続する意味カテゴリ2つ組(s(u),s(v))が含まれる場合、その数を返す関数
(1) When a continuous word pair (u, v) is included, a function that returns the number (2) When a continuous part-of-speech pair (c (u), c (v)) is included, A function that returns a number (3) A function that returns a number when a series of consecutive semantic categories (s (u), s (v)) is included
これにより、修正結果が示す正解単語列wn refから、fi(wn ref)が得られる。また、音声認識結果が最尤系列の場合、最尤系列の音声認識結果wnからfi(wn)が得られ、音声認識結果が複数の正解候補単語列(正解候補文)wn lの場合、fi(wn l)が得られる。 As a result, f i (w n ref ) is obtained from the correct word string w n ref indicated by the correction result. Also, if the speech recognition result of the maximum likelihood sequence, the speech recognition result of the maximum likelihood sequence w n from f i (w n) is obtained, the speech recognition result is more correct candidate word sequence (correct candidate sentence) w n l In this case, f i (w n l ) is obtained.
(ステップS43:勾配計算処理)
誤り修正モデル更新部10は、ステップS42において求めた素性関数の値を用いて、勾配の値(素性関数の値の差分)を、式(9)または式(15)に従って計算する勾配計算処理を行う。
具体的には、音声認識結果が最尤系列を示す場合、誤り修正モデル更新部10は、ステップS42において求めたfi(wn ref)及びfi(wn)を式(9)に代入して勾配Δλi mを算出する。
一方、音声認識結果が複数正解候補単語列を示す場合、誤り修正モデル更新部10は、音声認識結果データD2から各正解候補単語列wn lのスコアS^(wn l|xn)を読み出し、式(12)により各正解候補単語列wn lの事後確率p(wn l|xn)を算出する。続いて、誤り修正モデル更新部10は、ステップS42において求めたfi(wn ref)及びfi(wn l)と、算出した各正解候補単語列wn lの事後確率p(wn l|xn)を式(15)に代入して勾配Δλi mを算出する。
(Step S43: gradient calculation process)
The error correction
Specifically, when the speech recognition result indicates the maximum likelihood sequence, the error correction
On the other hand, when the speech recognition result indicates a plurality of correct candidate word strings, the error correction
(ステップS44:パラメータ更新処理)
誤り修正モデル更新部10は、逐次更新ブロックbm−1について算出した重みλi m−1を誤り修正モデル記憶部6に記憶されている誤り修正モデルから取得し、ステップS43において求めた勾配Δλi mと、読み出した重みλi m−1とを用いて、式(10)により重みλi mを算出する。なお、重みλi m−1を記憶部11から読み出してもよい。
あるいは、誤り修正モデル更新部10は、逐次更新ブロックbm−1〜bm−(K−1)について算出した重みλi m−1〜λi m−(K−1)を記憶部11から読み出す。誤り修正モデル更新部10は、ステップS43において求めた勾配Δλi mと、読み出した重みλi m−1〜λi m−(K−1)とを用いて、式(11)により重みλi mを算出する。なお、誤り修正モデル記憶部6に現在の誤り修正モデルより前に使用していた誤り修正モデルも記憶されている場合、重みλi m−1〜λi m−(K−1)をこれらの誤り修正モデルから取得してもよい。
誤り修正モデル更新部10は、算出した重みλi mからなるモデルパラメータΛを記憶部11に書き込む。
(Step S44: Parameter update process)
The error correction
Alternatively, error correction
The error correction
(ステップS45:モデル更新処理)
誤り修正モデル更新部10は、音声認識部2が入力音声の発話終了(引き続く発話の開始前)を検出したタイミングに応じて、誤り修正モデル記憶部6に記憶され、音声認識部2が参照している誤り修正モデルのモデルパラメータを、記憶部11に保持しておいたモデルパラメータΛにより置き換える。誤り修正モデル更新部10は、図7の処理を終了する。
(Step S45: Model update process)
The error correction
[4.5 ステップS5]
言語モデル更新部12は、修正結果を利用して言語モデル記憶部4に記憶されている言語モデルを更新する。本実施形態では、誤り修正モデルと同様に、逐次処理により言語モデルを更新する。また、更新手法は、従来法であるn−gramモデルの線形補間に基づく。ただし、言語モデル更新部12では、言語モデルの更新だけではなく、発音辞書記憶部3に記憶され、音声認識部2が参照する発音辞書も更新する。これは、現在使用している発音辞書に含まれていない単語を音声認識できるようにするための処理であり、誤り修正モデルにおいても、その効果を改善する上で必要となる。
[4.5 Step S5]
The language
図3は、言語モデル更新プロセスを示す図である。n−gramモデルでは、モデルの統計的な精度を保証するために、可能な限り大量のテキストデータから学習する必要がある。そこで、同図に示すように、言語モデルの更新処理は、誤り修正モデルの逐次更新ブロックを複数組み合わせ、十分な数の単語が得られるブロックを更新の1単位とする。この言語モデルの更新の単位となるブロックを、言語モデル更新ブロックとする。 FIG. 3 is a diagram illustrating a language model update process. In the n-gram model, it is necessary to learn from as much text data as possible in order to guarantee the statistical accuracy of the model. Therefore, as shown in the figure, in the update process of the language model, a plurality of sequential update blocks of the error correction model are combined, and a block from which a sufficient number of words are obtained is regarded as one unit of update. A block that is a unit for updating the language model is a language model update block.
図8は、言語モデル更新部12の処理を示すフローチャートである。言語モデル更新部12は、形態素解析部8から送られた修正結果データD4の入力を受けると、修正結果データD4を内部に備える記憶部13に書き込む。
FIG. 8 is a flowchart showing the processing of the language
(ステップS51:更新判定処理)
言語モデル更新部12は、言語モデルの更新を行うかどうかを判定する。この判定は、修正結果から十分な単語数を得た上で言語モデルを推定することを目的に行う。言語モデル更新部12は、修正結果の単語数Mがあらかじめ定めた閾値以上の場合に、後段の処理を行うと判定する。なお、言語モデル更新部12は、修正結果の単語数Mを、記憶部13に記憶され、まだ後段の処理に使用していない修正結果データD4から取得する。修正結果の単語数Mが閾値よりも小さな場合、言語モデル更新部12は、後段の処理を行わないと判定し、図8の処理を終了する。記憶部13に書き込まれた修正結果データD4は、次の更新機会に利用される。
一方、修正結果の単語数Mが閾値以上の場合、言語モデル更新部12は、後段の処理を行うと判定し、ステップS52の処理を行う。言語モデル更新部12は、記憶部13に記憶され、まだステップS52以降の処理に使用していない修正結果データD4を処理対象の言語モデル更新ブロックとする。
(Step S51: Update determination process)
The language
On the other hand, when the number M of corrected words is equal to or greater than the threshold, the language
(ステップS52:発音辞書更新処理)
言語モデル更新部12は、記憶部13から処理対象の言語モデル更新ブロックに含まれる修正結果データD4を読み出す。言語モデル更新部12は、修正結果データD4が示す修正結果に含まれる単語に対して、発音辞書データベース記憶部14に記憶されている発音辞書のデータベースから発音を読み出して付与する。発音辞書記憶部3に記憶されている発音辞書は、音声認識部2により参照されるが、更新対象となるのは発音辞書記憶部3に含まれない単語と発音の組となる。そこで、例えば、言語モデル更新部12は、修正結果に含まれる単語と、その発音の組が登録されているか否かを発音辞書記憶部3に問い合わせ、登録されていない単語と発音の組を選択する。なお、発音辞書のデータベースを参照した結果、該当する発音が存在しない場合、言語モデル更新部12は、その単語が後段において推定するn−gramに用いられないように、修正結果における当該単語を、未知語を表すシンボルで置換しておく。
(Step S52: Pronunciation dictionary update processing)
The language
(ステップS53:n−gram計算処理)
言語モデル更新部12は、修正結果に含まれる単語からn−gramを推定する。n−gramとして、例えばtrigramを考えると、その推定式は、以下の式(17)となる。
(Step S53: n-gram calculation process)
The language
ここで、C(u,v)は、修正結果における単語2つ組(u,v)の頻度、C(u,v,w)は、単語3つ組(u,v,w)の頻度である。P(w|u,v)は、trigramであり、単語2つ組(u,v)に引き続き単語wが生起する条件付き確率である。言語モデル更新部12は、修正結果の先頭から単語3つ組を1単語ずつ順に後ろにずらしていき、修正結果のすべての単語3つ組から上記の計算を行う。
Here, C (u, v) is the frequency of the word pair (u, v) in the correction result, and C (u, v, w) is the frequency of the word triplet (u, v, w). is there. P (w | u, v) is a trigram, and is a conditional probability that the word w occurs following the word duplication (u, v). The language
次に、言語モデル更新部12は、以下の式(18)のように、言語モデル記憶部4に現在記憶され、音声認識部2で参照しているtrigramと、上記において求めたtrigramを線形補間により結合する。
In the following, the language
ここで、Pnew(w|u,v)は、更新されたtrigram、Pold(w|u,v)は、言語モデル記憶部4に現在記憶されている言語モデルのtrigramである。また、νは、線形補間の重みであり、事前に定めておく。
Here, P new (w | u, v) is an updated trigram, and P old (w | u, v) is a trigram of the language model currently stored in the language
(ステップS54:モデル更新処理)
言語モデル更新部12は、ステップS52において選択した単語と発音の組を、発音辞書記憶部3に記憶されている発音辞書に追加する。さらに、言語モデル更新部12は、ステップS53において得られたtrigramにより、言語モデル記憶部4に現在記憶されている言語モデルを置き換える。
なお、誤り修正モデル更新部10における誤り修正モデルの更新と言語モデル更新部12における言語モデルの更新は、互いに独立して動作するため、どちらも任意の発話終了タイミングでモデル更新を行うことができる。
(Step S54 : model update process)
The language
Note that the update of the error correction model in the error correction
[5. 効果]
本実施形態によれば、誤り修正モデルを少量の計算で推定可能となるため、誤り修正モデル学習装置1は、音声認識に用いられる誤り修正モデルを低遅延で逐次更新することができる。この逐次更新された誤り修正モデルを用いて音声認識を行うことにより、音声認識部2は、従来よりもリアルタイム性を反映して音声認識の誤りを削減することが可能となる。
[5. effect]
According to the present embodiment, since the error correction model can be estimated with a small amount of calculation, the error correction model learning device 1 can sequentially update the error correction model used for speech recognition with low delay. By performing speech recognition using the error correction model that is sequentially updated, the
[6. その他]
なお、上述の誤り修正モデル学習装置1は、内部にコンピュータシステムを有している。そして、誤り修正モデル学習装置1の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。
[6. Others]
Note that the error correction model learning device 1 described above has a computer system therein. The process of operation of the error correction model learning device 1 is stored in a computer-readable recording medium in the form of a program, and the above-described processing is performed by the computer system reading and executing this program. The computer system here includes a CPU, various memories, an OS, and hardware such as peripheral devices.
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
Further, the “computer system” includes a homepage providing environment (or display environment) if a WWW system is used.
The “computer-readable recording medium” refers to a storage device such as a flexible medium, a magneto-optical disk, a portable medium such as a ROM and a CD-ROM, and a hard disk incorporated in a computer system. Furthermore, the “computer-readable recording medium” dynamically holds a program for a short time like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. In this case, a volatile memory in a computer system serving as a server or a client in that case, and a program that holds a program for a certain period of time are also included. The program may be a program for realizing a part of the functions described above, and may be a program capable of realizing the functions described above in combination with a program already recorded in a computer system.
1 誤り修正モデル学習装置
2 音声認識部
3 発音辞書記憶部
4 言語モデル記憶部
5 音響モデル記憶部
6 誤り修正モデル記憶部
7 音声認識結果修正部
8 形態素解析部
9 形態素解析辞書データベース記憶部
10 誤り修正モデル更新部
11 記憶部
12 言語モデル更新部
13 記憶部
14 発音辞書データベース記憶部
1 error correction
Claims (5)
前記音声認識結果に含まれる言語的な特徴と、前記音声認識結果修正部による修正結果に含まれる言語的な特徴との差分から単語の誤り傾向を学習し、音声認識において単語の誤りを正解単語に修正するための誤り修正モデルを、学習した前記単語の誤りの傾向に応じて更新する誤り修正モデル更新部と、
を備え、
前記言語的な特徴は、連続する単語列、または、連続する単語の品詞列の頻度であり、
前記誤り修正モデルは、前記言語的な特徴に基づく素性関数と、前記素性関数の素性重みとを用いて音声認識のスコアを修正する算出式であり、
前記誤り修正モデル更新部は、前記誤り修正モデルの前記素性重みを、学習した前記単語の誤りの傾向に応じて更新する、
ことを特徴とする誤り修正モデル学習装置。 A voice recognition result correction unit for correcting the voice recognition result according to the input instruction;
Learning a word error tendency from a difference between a linguistic feature included in the speech recognition result and a linguistic feature included in the correction result by the speech recognition result correcting unit, and correct the word error in the speech recognition an error correction model update unit error correction model for correcting, updating according to a tendency of error in the words learned,
Equipped with a,
The linguistic characteristic is a frequency of a continuous word string or a part of speech string of continuous words;
The error correction model is a calculation formula for correcting a score of speech recognition using a feature function based on the linguistic feature and a feature weight of the feature function,
The error correction model update unit updates the feature weight of the error correction model according to a tendency of the learned error of the word;
An error correction model learning device characterized by the above.
ことを特徴とする請求項1に記載の誤り修正モデル学習装置。 The error correction model update unit uses the frequency of co-occurrence of words or word parts of speech included in the speech recognition result and the frequency of co-occurrence of words or word parts of speech included in the correction result. Learn trends,
The error correction model learning device according to claim 1.
前記誤り修正モデル更新部は、前記ブロックごとに逐次、前記ブロックにおける前記音声認識結果に含まれる言語的な特徴と、前記ブロックにおける前記修正結果に含まれる言語的な特徴との差分から単語の誤り傾向を学習し、学習した前記単語の誤りの傾向に応じて前記ブロックにおける前記素性重みを算出し、算出した前記ブロックにおける前記素性重みと前記ブロックより前のブロックにおいて算出された前記素性重みとの重み付け加算に基づいて、前記誤り修正モデルの前記素性重みを更新する処理を行う、 The error correction model update unit sequentially corrects a word error based on a difference between a linguistic feature included in the speech recognition result in the block and a linguistic feature included in the correction result in the block. The tendency is learned, the feature weight in the block is calculated according to the learned error tendency of the word, and the feature weight in the calculated block and the feature weight calculated in the block before the block are calculated. Based on weighted addition, a process of updating the feature weight of the error correction model is performed.
ことを特徴とする請求項1または請求項2のいずれか1項に記載の誤り修正モデル学習装置。 The error correction model learning apparatus according to claim 1, wherein the error correction model learning apparatus is a learning apparatus.
ことを特徴とする請求項1から請求項3のいずれか1項に記載の誤り修正モデル学習装置。 A speech recognition unit for recognizing input speech and correcting and outputting an error in selection of a speech recognition result obtained from the input speech using the error correction model updated by the error correction model update unit; Prepare
The error correction model learning device according to any one of claims 1 to 3, wherein
入力された指示に従って音声認識結果を修正する音声認識結果修正手段と、
前記音声認識結果に含まれる言語的な特徴と、前記音声認識結果修正手段による修正結果に含まれる言語的な特徴との差分から単語の誤り傾向を学習し、音声認識において単語の誤りを正解単語に修正するための誤り修正モデルを、学習した前記単語の誤りの傾向に応じて更新する誤り修正モデル更新手段と、
を具備し、
前記言語的な特徴は、連続する単語列、または、連続する単語の品詞列の頻度であり、
前記誤り修正モデルは、前記言語的な特徴に基づく素性関数と、前記素性関数の素性重みとを用いて音声認識のスコアを修正する算出式であり、
前記誤り修正モデル更新手段は、前記誤り修正モデルの前記素性重みを、学習した前記単語の誤りの傾向に応じて更新する、
誤り修正モデル学習装置として機能させるためのプログラム。 Computer
Speech recognition result correcting means for correcting the speech recognition result in accordance with the input instruction;
Learning the error tendency of a word from the difference between the linguistic feature included in the speech recognition result and the linguistic feature included in the correction result by the speech recognition result correcting means, and correct the word error in the speech recognition an error correction model updating means for error correction model for correcting, updating according to a tendency of error in the words learned,
Equipped with,
The linguistic characteristic is a frequency of a continuous word string or a part of speech string of continuous words;
The error correction model is a calculation formula for correcting a score of speech recognition using a feature function based on the linguistic feature and a feature weight of the feature function,
The error correction model update means updates the feature weight of the error correction model according to the tendency of the learned error of the word,
A program for functioning as an error correction model learning device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013103291A JP6300394B2 (en) | 2013-05-15 | 2013-05-15 | Error correction model learning device and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013103291A JP6300394B2 (en) | 2013-05-15 | 2013-05-15 | Error correction model learning device and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014224860A JP2014224860A (en) | 2014-12-04 |
JP6300394B2 true JP6300394B2 (en) | 2018-03-28 |
Family
ID=52123585
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013103291A Active JP6300394B2 (en) | 2013-05-15 | 2013-05-15 | Error correction model learning device and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6300394B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11620981B2 (en) | 2020-03-04 | 2023-04-04 | Kabushiki Kaisha Toshiba | Speech recognition error correction apparatus |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10825445B2 (en) * | 2017-03-23 | 2020-11-03 | Samsung Electronics Co., Ltd. | Method and apparatus for training acoustic model |
JP7070653B2 (en) * | 2018-02-21 | 2022-05-18 | 日本電信電話株式会社 | Learning devices, speech recognition ranking estimators, their methods, and programs |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4758758B2 (en) * | 2005-12-26 | 2011-08-31 | 日本放送協会 | Dictionary creation device and dictionary creation program |
JP5044783B2 (en) * | 2007-01-23 | 2012-10-10 | 国立大学法人九州工業大学 | Automatic answering apparatus and method |
JP4852448B2 (en) * | 2007-02-28 | 2012-01-11 | 日本放送協会 | Error tendency learning speech recognition apparatus and computer program |
JP5437204B2 (en) * | 2010-09-03 | 2014-03-12 | 日本放送協会 | Language model processing device, speech recognition device, and program |
-
2013
- 2013-05-15 JP JP2013103291A patent/JP6300394B2/en active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11620981B2 (en) | 2020-03-04 | 2023-04-04 | Kabushiki Kaisha Toshiba | Speech recognition error correction apparatus |
Also Published As
Publication number | Publication date |
---|---|
JP2014224860A (en) | 2014-12-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6222821B2 (en) | Error correction model learning device and program | |
KR101183344B1 (en) | Automatic speech recognition learning using user corrections | |
US7693715B2 (en) | Generating large units of graphonemes with mutual information criterion for letter to sound conversion | |
JP6047364B2 (en) | Speech recognition apparatus, error correction model learning method, and program | |
CN108899013B (en) | Voice search method and device and voice recognition system | |
JP5932869B2 (en) | N-gram language model unsupervised learning method, learning apparatus, and learning program | |
JP6051004B2 (en) | Speech recognition apparatus, error correction model learning method, and program | |
US8494847B2 (en) | Weighting factor learning system and audio recognition system | |
Kadyan et al. | Refinement of HMM model parameters for punjabi automatic speech recognition (PASR) system | |
JP6031316B2 (en) | Speech recognition apparatus, error correction model learning method, and program | |
CN115293138B (en) | Text error correction method and computer equipment | |
CN111462751A (en) | Method, apparatus, computer device and storage medium for decoding voice data | |
JP5265445B2 (en) | Topic boundary detection device and computer program | |
JP5180800B2 (en) | Recording medium for storing statistical pronunciation variation model, automatic speech recognition system, and computer program | |
JP2011164175A (en) | Language model generating device, program thereof, and speech recognition system | |
JP6300394B2 (en) | Error correction model learning device and program | |
JP6183988B2 (en) | Speech recognition apparatus, error correction model learning method, and program | |
JP6366166B2 (en) | Speech recognition apparatus and program | |
JP2013117683A (en) | Voice recognizer, error tendency learning method and program | |
Dufraux et al. | Lead2Gold: Towards exploiting the full potential of noisy transcriptions for speech recognition | |
JP6027754B2 (en) | Adaptation device, speech recognition device, and program thereof | |
JP2008241970A (en) | Speaker adaptation device, speaker adaptation method and speaker adaptation program | |
JP6086714B2 (en) | Speech recognition apparatus, error correction model learning method, and program | |
JP4362054B2 (en) | Speech recognition apparatus and speech recognition program | |
JP2004101963A (en) | Method for correcting speech recognition result and computer program for correcting speech recognition result |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160328 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170526 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170613 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170809 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180130 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180226 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6300394 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |