JP4852448B2 - Error tendency learning speech recognition apparatus and computer program - Google Patents
Error tendency learning speech recognition apparatus and computer program Download PDFInfo
- Publication number
- JP4852448B2 JP4852448B2 JP2007050175A JP2007050175A JP4852448B2 JP 4852448 B2 JP4852448 B2 JP 4852448B2 JP 2007050175 A JP2007050175 A JP 2007050175A JP 2007050175 A JP2007050175 A JP 2007050175A JP 4852448 B2 JP4852448 B2 JP 4852448B2
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- correct answer
- correct
- error
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004590 computer program Methods 0.000 title claims description 5
- 238000012937 correction Methods 0.000 claims description 60
- 230000006870 function Effects 0.000 claims description 26
- 238000000034 method Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 10
- 238000003780 insertion Methods 0.000 description 4
- 230000037431 insertion Effects 0.000 description 4
- 238000002945 steepest descent method Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Description
本発明は、誤り傾向学習音声認識装置及びコンピュータプログラムに関する。 The present invention relates to an error tendency learning speech recognition apparatus and a computer program.
音声認識装置が出力する認識結果の言語的な尤もらしさは、統計的言語モデルによって評価される。統計的言語モデルの多くは、音声認識装置において、ある時点で得られた単語の履歴(単語列)から、履歴に接続する単語の確率を求める単語n-gramモデルを用いることが多い。この統計的言語モデルに関しては、たとえば、非特許文献1に記載されている。
統計的言語モデルは、正例のみから構成されたデータ、すなわち日本語として正しく記されたテキストから学習されるため、音声認識における言語的な誤りを排除できない。したがって、ある発話内容に誤認識が含まれているのであれば、類似した発話内容を誤って認識する可能性が高い。
The linguistic likelihood of the recognition result output by the speech recognition apparatus is evaluated by a statistical language model. Many of the statistical language models often use a word n-gram model for obtaining a probability of a word connected to a history from a word history (word string) obtained at a certain point in a speech recognition apparatus. This statistical language model is described in Non-Patent Document 1, for example.
Since the statistical language model is learned from data composed only of positive examples, that is, text correctly written as Japanese, linguistic errors in speech recognition cannot be eliminated. Therefore, if erroneous recognition is included in a certain utterance content, there is a high possibility that a similar utterance content is erroneously recognized.
そこで、従来、音声認識を行おうとしている発話内容について、時間的に近い、あるいは関連した話題のテキストを集め、統計的言語モデルを適応化する方法を取ることにより、音声認識の誤りを削減することが行われてきた。非特許文献2には、『過去に出現した単語は再び使われやすい』という情報に基づいて、認識結果に含まれる単語の出現確率を増大させることにより認識率の向上を図る手法について記載されている。また、非特許文献3には、事後確率に基づいて認識結果を選択し、統計的言語モデルの学習に用いる手法について記載されている。
非特許文献2に基づく手法では、認識結果の中には必ずしも正解の単語が含まれているとはかぎらないため、認識結果に含まれる誤り単語の出現確率を増大させる可能性がある。したがって、認識率の改善は限定的である。また、非特許文献3に基づく手法では、人手により正解を与えて言語モデルを学習することは可能だが、音声認識装置の誤り傾向を学習することができない。
In the method based on Non-Patent
一方、実用的なリアルタイム音声認識装置では、多くの場合、音声認識装置の出力結果を人手により修正している。入力音声に対する正解は必ず得られるため、音声認識装置の出力する認識結果と正解とを比較することにより、認識結果の誤り傾向を得ることが可能である。すなわち、音声認識装置の出力する認識結果の単語あるいは単語列の誤りを同定することができる。類似した発話内容を持つ音声が入力された場合、誤り傾向を学習しておけば、再度誤る可能性は少なくなる。
つまり、正解および認識結果から音声認識装置の誤り傾向をとらえ、この情報を音声認識装置にフィードバックすることにより、音声認識誤りを削減できるとともに、修正オペレータの負荷の軽減も期待できる。
On the other hand, in practical real-time speech recognition apparatuses, in many cases, the output result of the speech recognition apparatus is manually corrected. Since a correct answer for the input speech is always obtained, an error tendency of the recognition result can be obtained by comparing the recognition result output from the speech recognition apparatus with the correct answer. That is, it is possible to identify an error in a word or a word string as a recognition result output from the speech recognition apparatus. When voices having similar utterance contents are input, if the error tendency is learned, the possibility of mistakes is reduced.
In other words, by detecting the error tendency of the speech recognition apparatus from the correct answer and the recognition result and feeding back this information to the speech recognition apparatus, it is possible to reduce speech recognition errors and reduce the load on the correction operator.
本発明は、このような事情を考慮してなされたもので、その目的は、音声認識装置による認識結果と、それを修正した正解を用いて認識結果の誤り傾向を統計的に学習し、将来における音声認識の認識誤りを削減することができる誤り傾向学習音声認識装置及びコンピュータプログラムを提供することにある。 The present invention has been made in consideration of such circumstances, and its purpose is to statistically learn the error tendency of the recognition result by using the recognition result by the speech recognition apparatus and the correct answer corrected by the recognition result. It is an object to provide an error tendency learning speech recognition apparatus and a computer program capable of reducing recognition errors in speech recognition.
この発明は、上記の課題を解決すべくなされたもので、入力音声を音声認識して正解候補を複数出力し、出力した正解候補の中から音声認識結果を選択する音声認識手段と、前記音声認識手段により選択された音声認識結果に対する修正の入力を受け、当該音声認識結果を修正して前記入力音声に対する正解を出力する修正手段と、前記音声認識手段により出力された複数の正解候補と、前記修正手段により出力された正解とから統計的に認識誤りの傾向を分析する誤り傾向学習手段とを備え、前記音声認識手段は、前記誤り傾向学習手段により分析された認識誤りの傾向を修正するための誤り修正モデルを用いて、音声認識結果の選択における誤りを修正する、ことを特徴とする誤り傾向学習音声認識装置である。 The present invention has been made to solve the above problem, and recognizes an input speech, outputs a plurality of correct answer candidates, selects a speech recognition result from the output correct candidates, and the speech Receiving a correction input for the voice recognition result selected by the recognition means, correcting the voice recognition result and outputting a correct answer to the input voice; a plurality of correct answer candidates output by the voice recognition means; Error tendency learning means for statistically analyzing the tendency of recognition errors from correct answers output by the correction means, and the speech recognition means corrects the tendency of recognition errors analyzed by the error tendency learning means. The error tendency learning speech recognition apparatus is characterized in that an error in selecting a speech recognition result is corrected using an error correction model.
また、本発明は、上述する誤り傾向学習音声認識装置であって、前記誤り修正モデルは、前記音声認識の正解候補及び正解の中に含まれる単語、当該単語の品詞または意味情報、前後の単語列、あるいは、係り受けのうち1以上の情報に基づいて、音声認識結果から正解が選択される確率が最大となるように統計的に算出されることを特徴とする。 Further, the present invention is the error tendency learning speech recognition apparatus described above, wherein the error correction model includes the speech recognition correct candidate and the word included in the correct answer, the part of speech or semantic information of the word, the preceding and following words. It is statistically calculated so as to maximize the probability that the correct answer is selected from the speech recognition result based on one or more pieces of information in the column or the dependency.
また、本発明は、上述する誤り傾向学習音声認識装置であって、前記誤り傾向学習手段は、新たな入力音声に対して前記音声認識手段により出力された複数の正解候補と、前記修正手段により出力された当該入力音声の認識結果の正解とから統計的に認識誤りの傾向を分析して前記誤り修正モデルを更新し、前記音声認識手段は、前記誤り傾向学習手段により更新された誤り修正モデルを用いて、音声認識結果の選択における誤りを修正する、ことを特徴とする。 Further, the present invention is the error tendency learning speech recognition apparatus described above, wherein the error tendency learning means includes a plurality of correct answer candidates output by the speech recognition means for new input speech, and the correction means. The error correction model is updated by statistically analyzing the tendency of recognition errors from the correct recognition result of the input speech that is output, and the speech recognition means is updated by the error tendency learning means. Is used to correct an error in selecting a speech recognition result.
また、本発明は、上述する誤り傾向学習音声認識装置であって、前記音声認識手段は、実時間で入力音声の音声認識結果を出力することを特徴とする。 Further, the present invention is the error tendency learning speech recognition apparatus described above, wherein the speech recognition means outputs a speech recognition result of the input speech in real time.
また、本発明は、誤り傾向学習音声認識装置として用いられるコンピュータに、入力音声を音声認識して正解候補を複数出力し、出力した正解候補の中から音声認識結果を選択する音声認識ステップと、前記音声認識ステップにより選択された音声認識結果に対する修正の入力を受け、当該音声認識結果を修正して前記入力音声に対する正解を出力する修正ステップと、前記音声認識ステップにより出力された複数の正解候補と、前記修正ステップにより出力された正解とから統計的に認識誤りの傾向を分析する誤り傾向学習ステップとを実行させ、前記音声認識ステップにおいては、前記誤り傾向学習ステップにより分析された認識誤りの傾向を修正するための誤り修正モデルを用いて、音声認識結果の選択における誤りを修正する処理をコンピュータに実行させる、ことを特徴とするコンピュータプログラムである。 Further, the present invention provides a computer used as an error tendency learning speech recognition device, speech recognition step for speech recognition of input speech and outputting a plurality of correct answer candidates, and selecting speech recognition results from the output correct answer candidates; Receiving a correction input for the voice recognition result selected in the voice recognition step, correcting the voice recognition result and outputting a correct answer to the input voice; and a plurality of correct answer candidates output in the voice recognition step And an error tendency learning step that statistically analyzes the tendency of recognition errors from the correct answer output in the correction step. In the speech recognition step, the recognition error analyzed in the error tendency learning step is analyzed. A process for correcting errors in selecting speech recognition results using an error correction model for correcting trends To be executed by the computer, a computer program, characterized in that.
本発明によれば、音声認識を行った結果出力される正解候補および正解から音声認識の誤りの傾向を統計的に学習し、学習の結果得られた統計的モデルを用いて音声認識における認識誤りを排除することによって認識率の向上を図ることが可能となり、修正オペレータの負荷を軽減することも可能となる。 According to the present invention, the correct candidate and the correct answer output as a result of speech recognition are statistically learned from the tendency of speech recognition errors, and the recognition error in speech recognition is performed using the statistical model obtained as a result of learning. It is possible to improve the recognition rate by eliminating the above, and it is possible to reduce the load on the correction operator.
以下、図面を参照して本発明の一実施の形態を説明する。
図1は、本実施の一実施の形態による誤り傾向学習音声認識装置の概要を説明するための図である。
誤り傾向学習音声認識装置の備える音声認識装置において、ある入力音声に対して、正解の候補がN個得られたとする。これらN個の正解候補は、音声認識装置の出力のうち、尤もらしいとされた順にN個並べたものであり、同図に示おいて、正解候補は、尤もらしいとされる順に、正解候補1「家族/の/再開/の/日程」、正解候補2「家族/の/最下位/の/日程」、…である。また、N個のうち、第1番目の正解候補(正解候補1)に基づいて、人手により挿入、置換、脱落の誤りが修正された正解が得られているものとする。ここでは、得られた正解は、「家族/の/再会/の/日程」である。
Hereinafter, an embodiment of the present invention will be described with reference to the drawings.
FIG. 1 is a diagram for explaining an outline of an error tendency learning speech recognition apparatus according to an embodiment of the present invention.
Assume that N correct answer candidates are obtained for a certain input speech in the speech recognition device provided in the error tendency learning speech recognition device. These N correct answer candidates are arranged in the order in which they are considered to be likely from among the outputs of the speech recognition apparatus, and the correct answer candidates are shown in FIG. 1 “family / of / resume / of / schedule”,
図1の点線で囲まれた部分(符号A)に着目すると、正解は『再会』であるのに対し、正解候補1では『再開』、正解候補2では『最下位』となっているが、これらはいずれも誤りである。音声認識結果が出力する誤りの傾向とは、『家族/の』という文脈が与えられた場合に、音声認識システムが『再会』を選択せずに『再開』や『最下位』を選択してしまうことを意味する。
誤り傾向の学習とは、該当する文脈が与えられたときに音声認識システムが『再開』『最下位』を選択しないようにすることであり、統計的に『再開』『最下位』を出現しにくくする、または『再会』を出現しやすくすることである。誤り傾向は、正解候補の『正解らしさ』によって評価され、統計的な手段により与えられる。
以下に、本発明の一実施の形態による誤り傾向学習音声認識装置の構成図と、その動作を説明する。
Focusing on the portion surrounded by the dotted line in FIG. 1 (symbol A), the correct answer is “reunion”, while the correct answer candidate 1 is “restart” and the
Error tendency learning is to prevent the speech recognition system from selecting “Resume” or “Lowest” when the relevant context is given. Statistically, “Resume” or “Lowest” appears. It is to make it harder or to make “reunion” more likely to appear. The error tendency is evaluated based on the “correctness” of the correct answer candidates, and is given by statistical means.
Below, the block diagram and operation | movement of the error tendency learning speech recognition apparatus by one embodiment of this invention are demonstrated.
図2は、本発明の一実施の形態による誤り傾向学習音声認識装置1の全体構成を示す図である。音声認識装置10は、入力音声40を入力とし、N個の正解候補を示すデータである正解候補リスト60を出力する。一般にNは200から300程度である。音声認識装置10は、音響モデル記憶部21内に記憶される音響モデルデータである音響モデル20、言語モデル記憶部31内に記憶される言語モデルデータである言語モデル30、誤り修正モデル記憶部91内に記憶される誤り修正モデルデータである誤り修正モデル90を用い、各正解候補について尤もらしさを判断するためのスコアを算出し、この算出したスコアに基づいて、入力音声40に対して尤もらしい正解候補を決定する。すなわち、音声認識装置10は、音響モデル20、言語モデル30および誤り修正モデル90を用いて各モデルのスコアの和が最も高くなるような単語列を探索し、スコアの上位N個の正解候補を正解候補リスト60として出力する。音響モデル20、言語モデル30には、既存の任意のモデルを使用することができる。
FIG. 2 is a diagram showing an overall configuration of the error tendency learning speech recognition apparatus 1 according to the embodiment of the present invention. The
ここで、正解候補の1つをwとすると、音声認識装置10は、そのスコアg(w)を以下の(式1)のように計算する。
Here, assuming that one of the correct answer candidates is w, the
上記において、f0(w)は音響モデルのスコア、f1(w)は言語モデルのスコアである。入力音声をxとすると、音響スコアは、統計的音響モデルから得られる確率P(x|w)を対数に変換したスコアである。また、言語スコアは、統計的言語モデルにより得られる確率P(w)を対数に変換したスコアである。これは、以下に基づく。つまり、ベイズの定理より、入力音声xが発生したときに正解候補wが得られる事後確率P(w|x)=P(x|w)・P(w)/P(x)となる。P(x)は確率1であるので、両辺の対数をとると、右辺はlogP(x|w)+logP(w)となり、これらの項のそれぞれ重み付けがλ0、λ1である。
(式1)のλ0、λ1は定数であり、事前に決めておく。(式1)におけるgec(w)が誤り修正モデルのスコアとなり、g(w)スコアが高いほど尤もらしいと判断される。
In the above, f 0 (w) is the score of the acoustic model, and f 1 (w) is the score of the language model. When the input speech is x, the acoustic score is a score obtained by converting the probability P (x | w) obtained from the statistical acoustic model into a logarithm. The language score is a score obtained by converting the probability P (w) obtained by the statistical language model into a logarithm. This is based on the following. That is, from the Bayes' theorem, the posterior probability P (w | x) = P (x | w) · P (w) / P (x) that the correct candidate w is obtained when the input speech x is generated. Since P (x) has a probability of 1, if the logarithm of both sides is taken, the right side is logP (x | w) + logP (w), and the weights of these terms are λ 0 and λ 1 , respectively.
Λ 0 and λ 1 in (Equation 1) are constants and are determined in advance. G ec (w) in (Equation 1) is the score of the error correction model, and it is determined that the higher the g (w) score, the more likely it is.
修正装置50では、音声認識装置10から出力される正解候補リスト60で示されるN個の正解候補の中の第1位の認識結果に対して、入力手段(図示せず)を用いた人手による修正の入力を受け、この修正に基づいて生成した正解の音声認識結果を示す正解データ70を出力する。
誤り傾向学習装置80では、正解候補リスト60の示すN個の正解候補、および、正解データ70の示す正解から、音声認識装置10における誤り傾向を学習する。誤り傾向学習装置80における誤り修正モデルの作成方法について、図3を用いて説明する。
In the
The error
図3は、誤り傾向学習装置80の動作フローを示す図である。誤り傾向学習装置80における誤り修正モデルの作成は、重み初期化ステップ(S100)および重み更新ステップ(S110)の2つの手順から構成される。重み初期化ステップ(S100)は、あらかじめ蓄積された大量の正解候補と正解から誤り修正モデルの重みを推定することを目的とする。重み更新ステップ(S110)は、重み初期化ステップ(S100)により得られた誤り修正モデルを、新たに音声認識装置10から入力された正解候補および正解を用いて更新することを目的とする。
FIG. 3 is a diagram illustrating an operation flow of the error
重み初期化ステップ(S100)について、図4を用いて説明する。
図4は、重み初期化ステップにて動作する誤り傾向学習装置80内の機能ブロック図である。
誤り修正モデルのスコアは、(式1)において、gec(w)として与えられているが、これを、以下の(式2)のように定める。
The weight initialization step (S100) will be described with reference to FIG.
FIG. 4 is a functional block diagram in the error
The score of the error correction model is given as g ec (w) in (Equation 1), which is defined as in (Equation 2) below.
誤り修正モデルは、上式における関数fi(w)(i=2,3,…,I)の線形和として定義される。ここでfi(w)(i=2,3,…,I)は素性関数とよばれ、認識結果(正解候補)wにおける誤り傾向を表現するためのルールであり、あらかじめ誤り傾向学習装置80内に保持される。素性関数は、ある事象(ここでは、正解候補w)がその傾向(特徴)を持つときに0以外の実数を返すものであり、一例としては、その傾向(特徴)の観測数を表す。これらルールは、正解候補内の単語および該当する品詞や意味情報、単語列(文脈)、係り受けなどの文法情報に基づいて定められる。λiは素性関数に関する重みであり、fiがどれだけ重要であるかを示すものである。λiは、後述の学習手順により求められる。
素性関数に用いられる規則には、例えば、次のようなものがある。
The error correction model is defined as a linear sum of the functions f i (w) (i = 2, 3,..., I) in the above equation. Here, f i (w) (i = 2, 3,..., I) is called a feature function, and is a rule for expressing an error tendency in the recognition result (correct answer candidate) w. Held in. The feature function returns a real number other than 0 when a certain event (here, the correct answer candidate w) has the tendency (feature). As an example, the feature function represents the number of observations of the tendency (feature). These rules are determined based on grammatical information such as a word in a correct answer candidate, corresponding part of speech and semantic information, a word string (context), and dependency. λ i is a weight related to the feature function, and indicates how important f i is. λ i is obtained by a learning procedure described later.
Examples of rules used for feature functions include the following.
規則1:wに含まれる『家族/の/再会』という単語列の個数(f2とおく)
規則2:wの文節係り受けで、『家族』を含む文節が『再会』を含む文節への係り受けである個数(f3とおく)
Rule 1: Number of word strings “family / no / reunion” included in w (denoted as f 2 )
Rule 2: Number of clauses in w that are clauses that include “Family” are clauses that contain “Reunion” (set as f 3 )
規則1の素性関数は、正解候補wにおける文脈『家族/の/再会』の出現頻度を表す。また、規則2の素性関数は、正解候補wについて、規則2が成立するのであれば、その個数を返し、それ以外では0を返す。
素性抽出部130では、正解候補・正解120、すなわち、あらかじめ音声認識装置10から出力された正解候補リスト60で示される大量の正解候補および修正装置50により出力された正解を用いて、上記のルールに合致する素性を抽出する。
そして、初期重み学習部140では、抽出された素性関数に基づいて、その重みを決定する。重みを決定するためには、例えば、次の(式3)のような目的関数を考える。
The feature function of rule 1 represents the appearance frequency of the context “family / of / reunion” in the correct answer candidate w. The feature function of
The
Then, the initial
ここで、wm,0は第m番目の入力音声40に対する正解文を指し、wm,nは第m番目の入力音声40に対する音声認識のn番目の正解候補を表す。上の目的関数は、入力音声xmに対する正解文の条件付き確率q(w|x)を以下の(式4)のように定めたときの対数尤度の和に基づく。
Here, w m, 0 indicates the correct sentence for the m-
ただし、上式のZ(xm)は正規化項であり、以下の(式5)のように示される。 However, Z (x m ) in the above equation is a normalization term, and is expressed as in the following (Equation 5).
つまり、(式3)においては、正解候補1、2、…、Nの各スコアg(w)を合計した全体の中で、正解候補のスコアg(w)がどれくらいを占めているのかの割合((式4)に示す条件付き確率)を、それぞれの入力音声xm(m=1〜M)について算出して対数をとり(対数尤度)、M個の入力音声xm全てについて加算して損失関数としている。なお、expの部分は、対数を落とすためのものである。logの真数である条件付き確率は全体に占める割合のため1以下であり、logの値は負となるため、全体に負の符号をつけて正の値に戻している。割合が1に近くなるほどlogの値は0に近くなるため、Llogが最も小さくなるようにすれば、全体において正解の占める割合が大きくなる。
That is, in (Equation 3), the ratio of how much the score g (w) of the correct answer occupies in the total of the scores g (w) of the
また、別の目的関数として、第m番目の文章に対する単語正解精度の期待値に基づく関数Laccを以下の(式6)のように定めてもよい。 Further, as another objective function, a function L acc based on the expected value of the word correct accuracy for the m-th sentence may be defined as in the following (formula 6).
上式において、Acc(wm,n)は正解候補wm,nに対する単語正解精度を表す。単語正解精度は(正解単語数−挿入誤単語数)/(総単語数)×100により求められる。
挿入誤単語数は、挿入あるいは置き換えを行った単語の数である。例えば、図1に示す例の場合、単語数は5であり、正解の場合は、単語正解精度100%となる。また、認識結果1、2は、1単語「再開」あるいは「最下位」を「再会」に置き換えるため、挿入誤単語数は「1」であり、単語精度は(5−1)/5=80%となる。また、例えば、正解を「家族との再会の日程」であった場合、認識結果1に「と」を挿入し、「再開」を「再会」に置き換えるため挿入誤単語数は2となり、認識結果1の単語精度は(5−2)/5=60%となる。
In the above equation, A cc (w m, n ) represents the word correct accuracy for the correct answer candidate w m, n . The correct word accuracy is obtained by (number of correct words−number of erroneous insertion words) / (total number of words) × 100.
The number of erroneous insertion words is the number of words that have been inserted or replaced. For example, in the example shown in FIG. 1, the number of words is 5, and in the case of a correct answer, the word accuracy is 100%. In addition, since the recognition results 1 and 2 replace one word “restart” or “lowest” with “reunion”, the number of erroneous insertion words is “1”, and the word accuracy is (5-1) / 5 = 80. %. Also, for example, when the correct answer is “Reunion schedule with family”, “to” is inserted into recognition result 1 and “resumption” is replaced with “reunion”, so the number of erroneous words inserted becomes 2, and the recognition result The word accuracy of 1 is (5-2) / 5 = 60%.
つまり、(式6)では、各入力音声xm(m=1〜M)について、正解の条件付確率の期待値を算出して対数をとり、それらを学習データとしてのM個の入力音声xm全てについて加算し、損失関数としている。logの真数は1以下となり、全体に負の符号をつけて正の値に戻しているが、正解が現れる確率が1に近くなるほどlogの値は0に近くなる。したがって、Laccが最も小さくなるようにすれば、全体において正解が現れる期待値が大きくなる。 In other words, in (Equation 6), for each input speech x m (m = 1 to M), the expected value of the correct conditional probability is calculated and a logarithm is taken, and these M input speech x as learning data are used. All m values are added to obtain a loss function. The log's true number is less than or equal to 1 and is returned to a positive value by adding a negative sign to the whole. However, as the probability that a correct answer appears is closer to 1, the value of log becomes closer to 0. Therefore, if L acc is minimized , the expected value at which the correct answer appears as a whole increases.
上述するように、誤り傾向を反映した誤り修正モデルは、上式の目的関数LlogまたはLaccを最小化するような重みを持つものである。上の目的関数を最小化する重みを求めるためには、例えば準ニュートン法などを用いる。準ニュートン法は、適当な初期値を与えて解に近い次の値を生成し、その値からまた次の解に近い値を生成することを繰り返し、最終的に最適解に収束させるものである。準ニュートン法の詳細については、文献「W.H. Press et al.,“Numerical Recipes in C”,(訳)丹慶他,pp.313-314,1993.」を参照のこと。
初期重み学習部140は、上記手順により求められた重みλiを持つ初期誤り修正モデル150を出力する。この初期誤り修正モデル150は、誤り修正モデル90の初期値として誤り修正モデル記憶部91に書き込まれる。
As described above, the error correction model reflecting the error tendency has a weight that minimizes the objective function L log or L acc in the above equation. In order to obtain a weight that minimizes the above objective function, for example, a quasi-Newton method is used. In the quasi-Newton method, an appropriate initial value is given to generate the next value close to the solution, and the value close to the next solution is repeatedly generated from that value, and finally converges to the optimal solution. . For details of the quasi-Newton method, see the document “WH Press et al.,“ Numerical Recipes in C ”, (Translation) Tankei et al., Pp.313-314, 1993.”
The initial
次に、図3の重み更新ステップ(S110)について、図5を用いて説明する。
図5は、重み更新ステップにて動作する誤り傾向学習装置80の構成を示すブロック図である。
ニュースなどを対象とした音声認識では、音声認識結果が時々刻々と得られ、蓄積されていくことが特徴である。そのため、新たに得られた正解候補や正解を用いて初期誤り修正モデルを更新していくことが必要である。
Next, the weight update step (S110) in FIG. 3 will be described with reference to FIG.
FIG. 5 is a block diagram showing the configuration of the error
A feature of speech recognition for news and the like is that speech recognition results are obtained and accumulated every moment. Therefore, it is necessary to update the initial error correction model using newly obtained correct answer candidates and correct answers.
重み更新部170は、前回の重み初期化ステップ(S100)を実行した後に新たに音声認識装置10の出力として得られた正解候補および正解160と、前回の重み初期化ステップ(S100)により新たに得られた初期誤り修正モデル150を入力とし、現在の初期誤り修正モデル150における重みλiを更新する。
新たな重みは、最急降下法に基づいて求められる。最急降下法とは、関数の1階微分(傾き)から関数の最小値を探索する方法である。最急降下法の詳細については、文献「R. O. Duda,P. E. Hart and D. G. Stork,“Pattern Classification (2nd edition)”,pp.223-227,2001.」を参照のこと。
最急降下法による重みλiの更新式は次のとおりとなる。
The
The new weight is obtained based on the steepest descent method. The steepest descent method is a method of searching for the minimum value of a function from the first-order derivative (slope) of the function. For details of the steepest descent method, refer to the document “RO Duda, PE Hart and DG Stork,“ Pattern Classification (2nd edition) ”, pp.223-227, 2001.
The update formula of the weight λ i by the steepest descent method is as follows.
ここで、ηは定数であり、事前に定めた値を用いる。また、目的関数L(Λ)は、(式3)または(式6)に基づいて、新たに得られた正解候補と正解170、すなわち、新たに音声認識装置10から出力された正解候補および修正装置50により出力されたその正解を用いて算出されたLlogまたはLaccである。
重み更新部170は、求めたλi’を元のλiに置き換え、誤り修正モデル90を更新する。音声認識装置10は、音響モデル20、言語モデル30、誤り修正モデル90を用いて正解候補の中から正解文を選択する。
Here, η is a constant, and a predetermined value is used. Further, the objective function L (Λ) is based on (Equation 3) or (Equation 6), the newly obtained correct answer candidate and the
The
正解文を選択する手順を、図6を元に説明する。図6は正解文の選択時に動作する音声認識装置10の構成を示すブロック図である。
音声認識装置10では、入力音声40から、N個の正解候補180を生成する。スコア計算部190は、音響モデル20、言語モデル30、誤り修正モデル90を用いて、各正解候補180に対して(式1)にしたがって、スコアを計算する。
続いて、正解候補ソート部200では、スコア計算部190で求めたスコアにしたがって、スコアの大きい順に正解候補180を並べ替える。正解候補ソート部200での並べ替えの結果、第1位となった正解候補180を音声認識結果210とし、音声認識システム10の出力とする。
なお、通常の一般的なパーソナルコンピュータ等を用いることにより、音声認識装置10は、上記に示した入力音声40の入力から音声認識結果210の出力までの処理を実時間で行うことができる。
The procedure for selecting the correct sentence will be described with reference to FIG. FIG. 6 is a block diagram showing the configuration of the
The
Subsequently, the correct answer
Note that, by using a normal general personal computer or the like, the
以下に、過去に放映されたニュース(1,298文)について上記の実施形態に基づいて音声認識を行い、単語正解精度を求めた。
従来法としてtrigram言語モデルによるリスコアリングを行ったものと比較した結果を表1に示す。
Below, speech recognition was performed on news (1,298 sentences) broadcasted in the past based on the above embodiment, and word accuracy was obtained.
Table 1 shows the result of comparison with the conventional method of re-scoring using the trigram language model.
上述した実施の形態によれば、以下の効果がある。
(a)類似する認識誤りを削減し、リアルタイム音声認識システムのようなアプリケーションにおける修正オペレータの負荷を削減する。
(b)誤り傾向モデルは逐次学習回を繰り返して精度を上げていくため、時間経過とともに音声認識システムの認識率が向上していく。
The embodiment described above has the following effects.
(A) Reducing similar recognition errors and reducing the burden on corrective operators in applications such as real-time speech recognition systems.
(B) Since the error tendency model increases the accuracy by repeating the sequential learning times, the recognition rate of the speech recognition system improves with time.
なお、上記においては、音響モデルのスコアの係数λ0、音声認識モデルのスコアの係数λ1とも変化させているが、これらを変化させず、素性関数の係数λi(i=2〜I)のみを変化させるようにしてもよい。 In the above description, both the coefficient λ 0 of the score of the acoustic model and the coefficient λ 1 of the score of the speech recognition model are changed, but these are not changed, and the coefficient λ i (i = 2 to I) of the feature function is not changed. Only the change may be made.
なお、上述の誤り傾向学習音声認識装置1は内部にコンピュータシステムを有している。そして、誤り傾向学習音声認識装置1の各装置の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。 The error tendency learning speech recognition apparatus 1 described above has a computer system inside. The process of operation of each device of the error tendency learning speech recognition device 1 is stored in a computer-readable recording medium in the form of a program, and the computer system reads and executes this program, whereby the above processing is performed. Done. The computer system here includes a CPU, various memories, an OS, and hardware such as peripheral devices.
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
Further, the “computer system” includes a homepage providing environment (or display environment) if a WWW system is used.
The “computer-readable recording medium” refers to a storage device such as a flexible medium, a magneto-optical disk, a portable medium such as a ROM and a CD-ROM, and a hard disk incorporated in a computer system. Furthermore, the “computer-readable recording medium” dynamically holds a program for a short time like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. In this case, a volatile memory in a computer system serving as a server or a client in that case, and a program that holds a program for a certain period of time are also included. The program may be a program for realizing a part of the functions described above, and may be a program capable of realizing the functions described above in combination with a program already recorded in a computer system.
1…誤り傾向学習音声認識装置
10…音声認識装置(音声認識手段)
20…音響モデル
30…言語モデル
50…修正装置(修正手段)
80…誤り傾向学習装置(誤り傾向学習手段)
90…誤り修正モデル
130…素性抽出部
140…初期重み学習部
170…重み更新部
190…スコア計算部
200…正解候補ソート部
DESCRIPTION OF SYMBOLS 1 ... Error tendency learning
20 ...
80 ... Error tendency learning device (error tendency learning means)
DESCRIPTION OF
Claims (4)
前記音声認識手段により選択された音声認識結果に対する修正の入力を受け、当該音声認識結果を修正して前記入力音声に対する正解を出力する修正手段と、
正解候補の誤り傾向を表す素性関数とその重みとにより定義される誤り修正モデルを記憶する記憶手段と、
前記音声認識手段により出力された複数の正解候補と前記修正手段により出力された正解とに基づいて、前記重みを決定することにより前記誤り修正モデルを作成して前記記憶手段に記憶させる誤り傾向学習手段とを備え、
前記音声認識手段は、音響モデルと言語モデルと前記誤り修正モデルとに基づいて、正解候補の中から音声認識結果を選択し、
前記誤り傾向学習手段は、前記各モデルに基づき計算される前記正解のスコアが前記正解候補のうち該正解以外の各候補のスコアより大きくなるように、前記重みを決定する
ことを特徴とする誤り傾向学習音声認識装置。 Speech recognition means for speech recognition of input speech, outputting a plurality of correct answer candidates, and selecting speech recognition results from the output correct answer candidates;
Correction means for receiving a correction input to the voice recognition result selected by the voice recognition means, correcting the voice recognition result, and outputting a correct answer to the input voice;
Storage means for storing an error correction model defined by a feature function representing an error tendency of a correct candidate and its weight;
Error tendency learning that creates the error correction model by determining the weight based on a plurality of correct answer candidates output by the speech recognition means and the correct answer output by the correction means, and stores the error correction model in the storage means Means and
The speech recognition means selects a speech recognition result from correct candidates based on an acoustic model, a language model, and the error correction model ,
The error tendency learning means determines the weight so that a correct score calculated based on each model is larger than a score of each candidate other than the correct answer among the correct candidates. Trend learning speech recognition device.
前記音声認識手段により選択された音声認識結果に対する修正の入力を受け、当該音声認識結果を修正して前記入力音声に対する正解を出力する修正手段と、
正解候補の誤り傾向を表す素性関数とその重みとにより定義される誤り修正モデルを記憶する記憶手段と、
前記音声認識手段により出力された複数の正解候補と前記修正手段により出力された正解とに基づいて、前記重みを決定することにより前記誤り修正モデルを作成して前記記憶手段に記憶させる誤り傾向学習手段とを備え、
前記音声認識手段は、音響モデルと言語モデルと前記誤り修正モデルとに基づいて、正解候補の中から音声認識結果を選択し、
前記誤り傾向学習手段は、前記音声認識結果が前記正解と一致する確率が最大となるように、前記重みを決定する
ことを特徴とする誤り傾向学習音声認識装置。 Speech recognition means for speech recognition of input speech, outputting a plurality of correct answer candidates, and selecting speech recognition results from the output correct answer candidates;
Correction means for receiving a correction input to the voice recognition result selected by the voice recognition means, correcting the voice recognition result, and outputting a correct answer to the input voice;
Storage means for storing an error correction model defined by a feature function representing an error tendency of a correct candidate and its weight;
Error tendency learning that creates the error correction model by determining the weight based on a plurality of correct answer candidates output by the speech recognition means and the correct answer output by the correction means, and stores the error correction model in the storage means Means and
The speech recognition means selects a speech recognition result from correct candidates based on an acoustic model, a language model, and the error correction model,
The error tendency means such that said probability of speech recognition result coincides with the correct answer is maximized, tend training speech recognition apparatus Ri erroneous you characterized by determining the weight.
入力音声を音声認識して正解候補を複数出力し、出力した正解候補の中から音声認識結果を選択する音声認識ステップと、
前記音声認識ステップにより選択された音声認識結果に対する修正の入力を受け、当該音声認識結果を修正して前記入力音声に対する正解を出力する修正ステップと、
前記音声認識ステップにより出力された複数の正解候補と前記修正ステップにより出力された正解とに基づいて、正解候補の誤り傾向を表す素性関数とその重みとにより定義される誤り修正モデルを、前記重みを決定することにより作成する誤り傾向学習ステップとを実行させ、
前記音声認識ステップにおいては、音響モデルと言語モデルと前記誤り修正モデルとに基づいて、正解候補の中から音声認識結果を選択する処理をコンピュータに実行させ、
前記誤り傾向学習ステップにおいては、前記各モデルに基づき計算される前記正解のスコアが前記正解候補のうち該正解以外の各候補のスコアより大きくなるように、前記重みを決定する処理をコンピュータに実行させる
ことを特徴とするコンピュータプログラム。 In a computer used as an error tendency learning speech recognition device,
A speech recognition step for recognizing input speech to output a plurality of correct answer candidates and selecting a speech recognition result from the output correct answer candidates;
A correction step of receiving correction input for the voice recognition result selected in the voice recognition step, correcting the voice recognition result and outputting a correct answer to the input voice;
Based on the plurality of correct answer candidates output by the speech recognition step and the correct answer output by the correction step, an error correction model defined by a feature function representing an error tendency of the correct answer candidate and its weight is selected as the weight. And an error tendency learning step created by determining
In the voice recognition step, based on the acoustic model, the language model, and the error correction model, let the computer execute a process of selecting a voice recognition result from the correct answer candidates ,
In the error tendency learning step, the computer executes the process of determining the weight so that the correct score calculated based on each model is greater than the score of each candidate other than the correct answer among the correct candidates. A computer program characterized by causing
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007050175A JP4852448B2 (en) | 2007-02-28 | 2007-02-28 | Error tendency learning speech recognition apparatus and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007050175A JP4852448B2 (en) | 2007-02-28 | 2007-02-28 | Error tendency learning speech recognition apparatus and computer program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008216341A JP2008216341A (en) | 2008-09-18 |
JP4852448B2 true JP4852448B2 (en) | 2012-01-11 |
Family
ID=39836499
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007050175A Active JP4852448B2 (en) | 2007-02-28 | 2007-02-28 | Error tendency learning speech recognition apparatus and computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4852448B2 (en) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5054711B2 (en) * | 2009-01-29 | 2012-10-24 | 日本放送協会 | Speech recognition apparatus and speech recognition program |
US8798983B2 (en) * | 2009-03-30 | 2014-08-05 | Microsoft Corporation | Adaptation for statistical language model |
JP5437204B2 (en) * | 2010-09-03 | 2014-03-12 | 日本放送協会 | Language model processing device, speech recognition device, and program |
JP2013117683A (en) * | 2011-12-05 | 2013-06-13 | Nippon Hoso Kyokai <Nhk> | Voice recognizer, error tendency learning method and program |
JP6031316B2 (en) * | 2012-10-02 | 2016-11-24 | 日本放送協会 | Speech recognition apparatus, error correction model learning method, and program |
JP6047364B2 (en) * | 2012-10-10 | 2016-12-21 | 日本放送協会 | Speech recognition apparatus, error correction model learning method, and program |
JP6051004B2 (en) * | 2012-10-10 | 2016-12-21 | 日本放送協会 | Speech recognition apparatus, error correction model learning method, and program |
JP6183988B2 (en) * | 2012-12-11 | 2017-08-23 | 日本放送協会 | Speech recognition apparatus, error correction model learning method, and program |
JP6086714B2 (en) * | 2012-12-14 | 2017-03-01 | 日本放送協会 | Speech recognition apparatus, error correction model learning method, and program |
KR101892734B1 (en) * | 2013-01-04 | 2018-08-28 | 한국전자통신연구원 | Method and apparatus for correcting error of recognition in speech recognition system |
JP6300394B2 (en) * | 2013-05-15 | 2018-03-28 | 日本放送協会 | Error correction model learning device and program |
KR102191425B1 (en) * | 2013-07-29 | 2020-12-15 | 한국전자통신연구원 | Apparatus and method for learning foreign language based on interactive character |
JP6366166B2 (en) * | 2014-01-27 | 2018-08-01 | 日本放送協会 | Speech recognition apparatus and program |
JP6718182B1 (en) * | 2019-05-08 | 2020-07-08 | 株式会社インタラクティブソリューションズ | Wrong conversion dictionary creation system |
KR102499299B1 (en) * | 2020-12-22 | 2023-02-10 | 주식회사 카카오 | Voice recognition device and its learning control method |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2975542B2 (en) * | 1994-12-20 | 1999-11-10 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | Voice recognition device |
JP3104659B2 (en) * | 1997-10-31 | 2000-10-30 | 日本電気株式会社 | Speech input device and machine-readable recording medium recording program |
-
2007
- 2007-02-28 JP JP2007050175A patent/JP4852448B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2008216341A (en) | 2008-09-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4852448B2 (en) | Error tendency learning speech recognition apparatus and computer program | |
JP6678710B2 (en) | Dialogue system with self-learning natural language understanding | |
US10311146B2 (en) | Machine translation method for performing translation between languages | |
US20190087403A1 (en) | Online spelling correction/phrase completion system | |
JP6222821B2 (en) | Error correction model learning device and program | |
Rosenfeld | Adaptive statistical language modeling: A maximum entropy approach | |
US11551010B2 (en) | Generating replacement sentences for a particular sentiment | |
US7016827B1 (en) | Method and system for ensuring robustness in natural language understanding | |
JP5932869B2 (en) | N-gram language model unsupervised learning method, learning apparatus, and learning program | |
JP6047364B2 (en) | Speech recognition apparatus, error correction model learning method, and program | |
JP5809381B1 (en) | Natural language processing system, natural language processing method, and natural language processing program | |
KR20180062003A (en) | Method of correcting speech recognition errors | |
JP4755478B2 (en) | Response sentence generation device, response sentence generation method, program thereof, and storage medium | |
JP6031316B2 (en) | Speech recognition apparatus, error correction model learning method, and program | |
JP5437204B2 (en) | Language model processing device, speech recognition device, and program | |
JP7279099B2 (en) | Dialogue management | |
JP6366166B2 (en) | Speech recognition apparatus and program | |
US11232786B2 (en) | System and method to improve performance of a speech recognition system by measuring amount of confusion between words | |
JP6478382B2 (en) | Translation device | |
JP6086714B2 (en) | Speech recognition apparatus, error correction model learning method, and program | |
JP2011243087A (en) | Automatic word mapping device, method and program therefor | |
JP2004101963A (en) | Method for correcting speech recognition result and computer program for correcting speech recognition result | |
Chatterjee | A Trie based model for SMS text normalization | |
Snow | Automatic Detection and Correction of Errors in Video Tutorial Transcripts | |
Donaj et al. | Application Oriented Language Modeling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090319 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110207 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110301 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110427 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110628 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110810 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110927 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111024 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4852448 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141028 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |