JP2015075706A - Error correction model learning device and program - Google Patents
Error correction model learning device and program Download PDFInfo
- Publication number
- JP2015075706A JP2015075706A JP2013213106A JP2013213106A JP2015075706A JP 2015075706 A JP2015075706 A JP 2015075706A JP 2013213106 A JP2013213106 A JP 2013213106A JP 2013213106 A JP2013213106 A JP 2013213106A JP 2015075706 A JP2015075706 A JP 2015075706A
- Authority
- JP
- Japan
- Prior art keywords
- word
- error correction
- correction model
- speech recognition
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012937 correction Methods 0.000 title claims abstract description 200
- 238000013528 artificial neural network Methods 0.000 claims abstract description 91
- 230000006870 function Effects 0.000 claims description 55
- 238000000034 method Methods 0.000 claims description 40
- 238000011156 evaluation Methods 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000006835 compression Effects 0.000 claims description 5
- 238000007906 compression Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 3
- 230000003068 static effect Effects 0.000 abstract description 7
- 239000011159 matrix material Substances 0.000 description 60
- 238000012545 processing Methods 0.000 description 48
- 239000013598 vector Substances 0.000 description 30
- 238000010586 diagram Methods 0.000 description 12
- 238000007796 conventional method Methods 0.000 description 5
- 230000001419 dependent effect Effects 0.000 description 4
- 230000015654 memory Effects 0.000 description 4
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
本発明は、誤り修正モデル学習装置、及びプログラムに関する。 The present invention relates to an error correction model learning device and a program.
音声認識の誤り修正については、音声とその書き起こし(正解文)から、言語的な特徴を用いて音声認識の誤り傾向を統計的に学習し、学習の結果得られた統計的な誤り修正モデルを用いて音声認識の性能改善を図る技術がある(例えば、非特許文献1参照)。 For error correction in speech recognition, statistical error correction models obtained as a result of learning by statistically learning the tendency of speech recognition errors using linguistic features from speech and transcriptions (correct sentences) There is a technology for improving the performance of speech recognition by using (see, for example, Non-Patent Document 1).
音声認識で用いられる誤り修正モデルでは、音声認識の誤り傾向を学習するために、比較的短い文脈(2単語あるいは3単語連鎖)を特徴として用いる。また、誤り修正モデルのモデルパラメータの学習には、ニュース原稿やウェブテキストなどの静的なテキストではなく、音声とその書き起こしおよび音声認識結果が用いられる。このため、学習データを大量に収集することが困難であり、長い文脈を利用することは、モデルの統計的頑健性の観点から困難である。 In an error correction model used in speech recognition, a relatively short context (two words or three word chain) is used as a feature in order to learn an error tendency of speech recognition. In addition, for learning the model parameters of the error correction model, not the static text such as the news manuscript or the web text but the voice, its transcription, and the voice recognition result are used. For this reason, it is difficult to collect a large amount of learning data, and it is difficult to use a long context from the viewpoint of the statistical robustness of the model.
しかし、音声言語を含む自然言語では、単語の出現は直前の単語から構成される文脈に依存するだけではなく、より長い文脈や話題などの要因にも影響される。音声認識誤りの訂正能力が高い誤り修正モデルを学習するには、これまでのように単純な文脈を利用するだけではなく、より多数の単語から構成される文脈や、話題などの情報を利用する必要がある。 However, in a natural language including a spoken language, the appearance of a word is not only dependent on the context composed of the immediately preceding word, but also influenced by factors such as a longer context and topic. To learn an error correction model with high speech recognition error correction capability, not only the simple context as before, but also the context composed of a larger number of words and information such as topics are used. There is a need.
本発明は、このような事情を考慮してなされたもので、長い文脈や話題といった特徴を利用して誤り修正モデルのモデルパラメータを識別的かつ頑健に学習する誤り修正モデル学習装置、及びプログラムを提供する。 The present invention has been made in view of such circumstances, and an error correction model learning apparatus and program for learning model parameters of an error correction model in a distinguishing and robust manner using features such as long contexts and topics. provide.
[1] 本発明の一態様は、文書のテキストデータを記憶する言語資源記憶部と、再帰的ニューラルネットワークの入力に、前記言語資源記憶部に記憶されている前記テキストデータにおける文章中の単語と、前記テキストデータにおける前記文章よりも前の文章から抽出した話題特徴量と、前記単語の前の単語について算出した前記再帰的ニューラルネットワークの隠れ層の出力とを用いて前記単語に後続する単語の接続確率を算出する言語モデルを学習する言語モデル学習部と、音声データと正解単語列とを対応付けて記憶する音声資源記憶部と、前記音声資源記憶部に記憶される前記音声データに対して前記正解単語列を整列し、整列した前記正解単語列を構成する各単語を、前記言語モデル学習部が学習した前記言語モデルの入力としたときの前記再帰的ニューラルネットワークの隠れ層の出力を算出する整列部と、前記音声資源記憶部に記憶されている前記音声データを音声認識し、音声認識により得られた音声認識結果を構成する各単語を、前記言語モデル学習部が学習した前記言語モデルの入力としたときの前記再帰的ニューラルネットワークの隠れ層の出力を算出する音声認識部と、整列された前記正解単語列に含まれる単語と前記音声認識結果に含まれる単語とから言語的な特徴を抽出する素性定義部と、隠れ層の出力及びモデルパラメータにより重み付けした言語的な特徴を用いて音声認識のスコアを修正するための誤り修正モデルを、整列された前記正解単語列を構成する各単語について算出された前記隠れ層の出力により重み付けした当該単語の前記言語的な特徴と、前記音声認識結果を構成する各単語について算出された前記隠れ層の出力により重み付けした当該単語の前記言語的な特徴とに基づいて学習する誤り修正モデル学習部と、を備えることを特徴とする誤り修正モデル学習装置である。
この発明によれば、誤り修正モデル学習装置は、静的なテキストにおける文章中の単語と、この文章よりも前の文章から抽出した話題特徴量と、前の単語について算出した隠れ層の出力とを入力として後続する単語の接続確率を再帰的ニューラルネットワークにより算出する言語モデルを学習する。誤り修正モデル学習装置は、学習データとして用意された音声データ及び正解単語列を音声資源記憶部から読み出すと、音声データに対して正解単語列を整列し、学習した言語モデルを用いて、正解単語列を構成する各単語を入力としたときの再帰的ニューラルネットワークの隠れ層の出力を算出する。さらに、誤り修正モデル学習装置は、学習データの音声データを音声認識し、学習した言語モデルを用いて、音声認識結果を構成する各単語を入力としたときの再帰的ニューラルネットワークの隠れ層の出力を算出する。誤り修正モデル学習装置は、隠れ層の出力及びモデルパラメータにより重み付けした言語的な特徴を用いて音声認識のスコアを修正するための誤り修正モデルを、整列された正解単語列を構成する各単語について算出された隠れ層の出力により重み付けした当該単語の言語的な特徴と、音声認識結果を構成する各単語について算出された隠れ層の出力により重み付けした当該単語の言語的な特徴とに基づいて学習する。
これにより、誤り修正モデル学習装置は、発話に含まれる単語に加えて、1つ前の単語の隠れ層の出力と、前の発話から得られた話題特徴量を入力に用いる再帰的ニューラルネットワークを学習に利用するため、従来よりも長い文脈および話題を考慮した誤り修正モデルを学習することができる。また、誤り修正モデル学習装置は、大量に入手しやすいテキストデータを誤り修正モデルの学習の一部に用いているため、統計的に頑健な誤り修正モデルを学習することができる。
[1] According to one aspect of the present invention, a language resource storage unit that stores text data of a document, a word in a sentence in the text data stored in the language resource storage unit at an input of a recursive neural network, , The topic feature extracted from the sentence before the sentence in the text data, and the output of the hidden layer of the recursive neural network calculated for the word before the word, A language model learning unit that learns a language model for calculating a connection probability, a speech resource storage unit that stores speech data and a correct word string in association with each other, and the speech data stored in the speech resource storage unit The correct word strings are aligned, and the words constituting the aligned correct word strings are input to the language model learned by the language model learning unit. A speech recognizing result obtained by speech recognition by recognizing the speech data stored in the speech resource storage unit and an alignment unit that calculates the output of the hidden layer of the recursive neural network at the time A speech recognition unit that calculates an output of a hidden layer of the recursive neural network when each word is input to the language model learned by the language model learning unit, and a word included in the aligned correct word string And a feature definition unit that extracts linguistic features from the words included in the speech recognition result, and an error for correcting the speech recognition score using linguistic features weighted by the output of hidden layers and model parameters The linguistic value of the word weighted by the output of the hidden layer calculated for each word constituting the aligned correct word string An error correction model learning unit that learns based on the features and the linguistic features of the words weighted by the output of the hidden layer calculated for each word constituting the speech recognition result. Is an error correction model learning device.
According to this invention, the error correction model learning device includes a word in a sentence in a static text, a topic feature amount extracted from a sentence before the sentence, an output of a hidden layer calculated for the previous word, Is used as an input to learn a language model that calculates the connection probability of the following word using a recursive neural network. When the error correction model learning device reads the speech data and the correct word string prepared as learning data from the speech resource storage unit, the correct word string is aligned with the speech data, and the correct word is used using the learned language model. The output of the hidden layer of the recursive neural network when each word constituting the column is input is calculated. Further, the error correction model learning device recognizes speech data of learning data and outputs a hidden layer of a recursive neural network when each word constituting a speech recognition result is input using a learned language model. Is calculated. The error correction model learning device is configured to generate an error correction model for correcting a speech recognition score using a linguistic feature weighted by an output of a hidden layer and a model parameter for each word constituting an aligned correct word string. Learning based on the linguistic characteristics of the word weighted by the calculated hidden layer output and the linguistic characteristics of the word weighted by the hidden layer output calculated for each word constituting the speech recognition result To do.
Thus, the error correction model learning device uses a recursive neural network that uses the output of the hidden layer of the previous word in addition to the word included in the utterance and the topic feature value obtained from the previous utterance as inputs. Since it is used for learning, it is possible to learn an error correction model considering a longer context and topic than before. In addition, since the error correction model learning device uses a large amount of easily available text data as part of the error correction model learning, it is possible to learn a statistically robust error correction model.
[2] 本発明の一態様は、上述する誤り修正モデル学習装置であって、前記誤り修正モデル学習部は、前記音声データが与えられたときの前記正解単語列の事後確率と前記音声認識結果の事後確率との差分により定められる評価関数が最大となるように前記モデルパラメータを統計的に算出する、ことを特徴とする。
この発明によれば、誤り修正モデル学習装置は、音声データが与えられたときの正解単語列の事後確率と音声認識結果の事後確率との差分として定められる評価関数に基づいて、誤り修正モデルのモデルパラメータを統計的に算出する。
これにより、誤り修正モデル学習装置は、正解単語列の事後確率が高くなるように認識誤りの傾向を効率的に学習し、誤り修正モデルを生成することができる。
[2] One aspect of the present invention is the error correction model learning device described above, wherein the error correction model learning unit includes the posterior probability of the correct word string and the speech recognition result when the speech data is given. The model parameter is statistically calculated so that an evaluation function defined by a difference from the posterior probability of the maximum is maximized.
According to the present invention, the error correction model learning device is based on the evaluation function defined as the difference between the posterior probability of the correct word string and the posterior probability of the speech recognition result when speech data is given. Statistically calculate model parameters.
As a result, the error correction model learning device can efficiently learn the tendency of recognition errors so as to increase the posterior probability of the correct word string and generate an error correction model.
[3] 本発明の一態様は、上述する誤り修正モデル学習装置であって、前記再帰的ニューラルネットワークに単語とともに入力される前記話題特徴量は、当該単語が含まれる発話または文章よりも前の発話または文章に含まれる各単語の出現頻度から統計的な次元圧縮手法により抽出される、ことを特徴とする。
この発明によれば、誤り修正モデル学習装置は、話題特徴量を、再帰的ニューラルネットワークに入力される単語が含まれる発話または文章よりも前の発話または文章に含まれる各単語の出現頻度から統計的な次元圧縮手法により抽出する。
これにより、誤り修正モデル学習装置は、再帰的ニューラルネットワークに入力される単語が含まれる発話または文章より前の発話または文章から得られる単語行列を低次元の因子に圧縮した表現により話題特徴量を抽出するため、データスパースネスに対して頑健な言語モデルを学習することができる。
[3] One aspect of the present invention is the error correction model learning device described above, wherein the topic feature amount input together with the word to the recursive neural network is before the utterance or sentence including the word. It is characterized in that it is extracted from the appearance frequency of each word contained in an utterance or sentence by a statistical dimension compression method.
According to the present invention, the error correction model learning device calculates the topic feature amount from the appearance frequency of each word included in the utterance or sentence before the utterance or sentence including the word input to the recursive neural network. Extracted by a typical dimensional compression method.
As a result, the error correction model learning device calculates the topic feature amount by the expression obtained by compressing the word matrix obtained from the utterance or sentence before the utterance or sentence including the word input to the recursive neural network into a low-dimensional factor. Because it is extracted, it is possible to learn a language model that is robust against data sparseness.
[4] 本発明の一態様は、上述する誤り修正モデル学習装置であって、前記言語資源記憶部が記憶するテキストデータは、ニュース原稿のテキストデータ、または、ウェブ上のテキストデータである、ことを特徴とする。
この発明によれば、誤り修正モデル学習装置は、ニュース原稿のテキストデータ、または、ウェブ上のテキストデータから言語モデルを学習する。
これにより、誤り修正モデル学習装置は、比較的大量に入手可能なテキストを誤り修正モデルの学習の一部に用いるため、誤り修正モデルの頑健性が向上することに加え、データスパースネスの問題も回避することができる。
[4] One aspect of the present invention is the error correction model learning apparatus described above, wherein the text data stored in the language resource storage unit is text data of a news manuscript or text data on the web. It is characterized by.
According to the present invention, the error correction model learning device learns a language model from text data of a news manuscript or text data on the web.
As a result, the error correction model learning device uses a relatively large amount of available text as part of the learning of the error correction model, so that the robustness of the error correction model is improved and the problem of data sparseness also occurs. It can be avoided.
[5] 本発明の一態様は、上述する誤り修正モデル学習装置であって、前記言語的な特徴は、単語あるいは単語の品詞であり、前記誤り修正モデルは、前記言語的な特徴に基づく素性関数の値を、前記再帰的ニューラルネットワークの隠れ層の出力及び前記素性関数のモデルパラメータにより重み付けして得られたスコアにより音声認識のスコアを修正する算出式である、ことを特徴とする。
この発明によれば、誤り修正モデル学習装置は、単語あるいは単語の品詞を言語的な特徴として抽出する。誤り修正モデル学習装置は、言語的な特徴に基づく素性関数の値と、再帰的ニューラルネットワークの隠れ層の出力及び素性関数のモデルパラメータとを用いて音声認識のスコアを修正する算出式である誤り修正モデルを、整列された正解単語列の素性関数の値を当該正解単語列について算出された隠れ層の出力により重み付けした値と、音声認識結果の素性関数の値を当該音声認識結果について算出された隠れ層の出力により重み付けした値とに基づいて学習する。
これにより、誤り修正モデル学習装置は、単語あるいは単語の品詞に基づいて認識誤り傾向を効率的に学習し、認識誤りを精度よく修正する誤り修正モデルを生成することができる。
[5] One aspect of the present invention is the error correction model learning device described above, wherein the linguistic feature is a word or a part of speech of the word, and the error correction model is a feature based on the linguistic feature. It is a calculation formula for correcting a speech recognition score by a score obtained by weighting a function value by an output of a hidden layer of the recursive neural network and a model parameter of the feature function.
According to this invention, the error correction model learning device extracts a word or a part of speech of a word as a linguistic feature. The error correction model learning device is an error that is a calculation formula that corrects a speech recognition score using a feature function value based on a linguistic feature, an output of a hidden layer of a recursive neural network, and a model parameter of the feature function. A value obtained by weighting the feature function of the aligned correct word string by the output of the hidden layer calculated for the correct word string and the value of the feature function of the speech recognition result are calculated for the speech recognition result. Learning based on the value weighted by the output of the hidden layer.
Thereby, the error correction model learning device can efficiently learn the recognition error tendency based on the word or the part of speech of the word, and can generate an error correction model that corrects the recognition error with high accuracy.
[6] 本発明の一態様は、上述する誤り修正モデル学習装置であって、入力された音声データを、音響モデルと前記言語モデル学習部により学習された前記言語モデルとを用いて音声認識し、前記誤り修正モデル学習部により学習された前記誤り修正モデルにより、入力された前記音声データから得られた音声認識結果の選択における誤りを修正して出力する入力音声認識部をさらに備える、ことを特徴とする。
この発明によれば、誤り修正モデル学習装置は、音声データを音声認識することにより得られた正解候補の中から、誤り修正モデルを用いて音声認識結果を選択する。
これにより、誤り修正モデル学習装置は、入力された音声データに対して、認識率のよい音声認識結果を得ることができる。
[6] One aspect of the present invention is the error correction model learning device described above, which recognizes input speech data using an acoustic model and the language model learned by the language model learning unit. An input speech recognition unit that corrects and outputs an error in selection of a speech recognition result obtained from the input speech data by the error correction model learned by the error correction model learning unit; Features.
According to the present invention, the error correction model learning device selects a speech recognition result using an error correction model from among correct answer candidates obtained by speech recognition of speech data.
Thereby, the error correction model learning device can obtain a speech recognition result with a good recognition rate for the input speech data.
[7] 本発明の一態様は、コンピュータを、再帰的ニューラルネットワークの入力に、言語資源記憶手段に記憶されているテキストデータにおける文章中の単語と、前記テキストデータにおける前記文章よりも前の文章から抽出した話題特徴量と、前記単語の前の単語について算出した前記再帰的ニューラルネットワークの隠れ層の出力とを用いて前記単語に後続する単語の接続確率を算出する言語モデルを学習する言語モデル学習手段と、音声資源記憶手段に音声データと対応付けて記憶される正解単語列を、前記音声データに対して整列し、整列した前記正解単語列を構成する各単語を、前記言語モデル学習手段が学習した前記言語モデルの入力としたときの前記再帰的ニューラルネットワークの隠れ層の出力を算出する整列手段と、前記音声資源記憶手段に記憶されている前記音声データを音声認識し、音声認識により得られた音声認識結果を構成する各単語を、前記言語モデル学習手段が学習した前記言語モデルの入力としたときの前記再帰的ニューラルネットワークの隠れ層の出力を算出する音声認識手段と、整列された前記正解単語列に含まれる単語と前記音声認識結果に含まれる単語とから言語的な特徴を抽出する特徴量抽出手段と、隠れ層の出力及びモデルパラメータにより重み付けした言語的な特徴を用いて音声認識のスコアを修正するための誤り修正モデルを、整列された前記正解単語列を構成する各単語について算出された前記隠れ層の出力により重み付けした当該単語の前記言語的な特徴と、前記音声認識結果を構成する各単語について算出された前記隠れ層の出力により重み付けした当該単語の前記言語的な特徴とに基づいて学習する誤り修正モデル学習手段と、を具備する誤り修正モデル学習装置として機能させるためのプログラムである。 [7] In one embodiment of the present invention, a computer uses a word in a sentence in text data stored in a language resource storage unit as input to a recursive neural network, and a sentence before the sentence in the text data. A language model for learning a language model for calculating a connection probability of a word following the word using the topic feature extracted from the word and the output of the hidden layer of the recursive neural network calculated for the word before the word The correct word string stored in association with the voice data in the voice resource storage means and the learning means are aligned with the voice data, and each word constituting the aligned correct word string is replaced with the language model learning means. Alignment means for calculating the output of the hidden layer of the recursive neural network when the input is the language model learned by When the speech data stored in the speech resource storage means is speech-recognized, and each word constituting the speech recognition result obtained by speech recognition is input to the language model learned by the language model learning means A speech recognition means for calculating the output of the hidden layer of the recursive neural network, and a feature amount for extracting linguistic features from the words included in the aligned correct word strings and the words included in the speech recognition results An error correction model for correcting the speech recognition score using the extraction means and the linguistic feature weighted by the output of the hidden layer and the model parameter is calculated for each word constituting the aligned correct word string. The linguistic features of the word weighted by the output of the hidden layer and the hidden feature calculated for each word constituting the speech recognition result. A program for functioning as an error correction model learning device comprising error correction model learning means for learning based on the linguistic features of the word weighted by the output of the layer.
本発明によれば、長い文脈や話題といった特徴を利用して誤り修正モデルのモデルパラメータを識別的かつ頑健に学習することが可能となる。 According to the present invention, it is possible to discriminately and robustly learn model parameters of an error correction model using features such as a long context and a topic.
[1. 本実施形態の概要]
音声認識の誤り傾向を反映した、いわゆる誤り修正モデルがすでに提案されている。誤り修正モデルのモデルパラメータは、音声認識結果と正解単語列とからなる学習データに基づいて推定される。しかし、実際の音声認識では、学習データと音声認識の対象が、それらの話題性において完全に適合することは多くない。このような話題性が完全に一致しない学習データに基づいて学習した誤り修正モデルを利用して音声認識を行っても、その音声認識の性能は、音声認識の対象となる発話の内容に対して必ずしも最適とはいえない。また、誤り修正モデルでは、通常2〜3単語連鎖程度の比較的短い単語列(文脈)に基づく特徴を利用しているが、音声言語を含む自然言語では、文中の単語の依存関係は、より長い文脈に基づいていると考えられる。
[1. Overview of this embodiment]
A so-called error correction model that reflects the error tendency of speech recognition has already been proposed. The model parameters of the error correction model are estimated based on learning data including a speech recognition result and a correct word string. However, in actual speech recognition, the learning data and speech recognition target do not often match perfectly in their topicality. Even if speech recognition is performed using an error correction model that has been learned based on such learning data whose topicality does not completely match, the performance of the speech recognition is not as good as the content of the speech that is subject to speech recognition. Not necessarily optimal. In addition, the error correction model normally uses features based on a relatively short word string (context) of about 2 to 3 word chain, but in natural languages including spoken languages, the dependency of words in a sentence is more It is thought to be based on a long context.
高い音声認識性能を目指すには、話題に合致し、かつ3単語連鎖以上の長い文脈依存性を考慮した誤り修正モデルを学習する必要がある。しかし、誤り修正モデルの学習では、大量の音声データとその書き起こしである正解単語列が必要となるため、長距離文脈や話題を利用したモデルを頑健に推定することは、データ収集のコストの面から困難であった。 In order to achieve high speech recognition performance, it is necessary to learn an error correction model that matches the topic and takes into account a long context dependency of three word chains or more. However, learning an error correction model requires a large amount of speech data and a correct word string that is a transcript, so robust estimation of a model using a long-distance context or topic is a costly part of data collection. It was difficult from the aspect.
そこで、本実施形態では、話題と長距離文脈の両者を利用した誤り修正モデルを実現する。本実施形態の特徴は、第1に、誤り修正モデルのモデルパラメータの推定の一部を、ニュース原稿やウェブテキストなどの静的なテキストから行う点であり、第2に、話題と長距離文脈の特徴を反映した誤り修正モデルを学習するという点である。比較的大量に入手可能なテキストを、誤り修正モデルのモデルパラメータの推定の一部に用いることにより、モデルの頑健性が向上することに加え、データスパースネスの問題も回避することが期待できる。さらには、本実施形態では、話題と長距離文脈を利用した誤り修正モデルの音声認識への適用手法についても説明する。 Therefore, in this embodiment, an error correction model using both the topic and the long distance context is realized. The feature of this embodiment is that, firstly, a part of estimation of the model parameters of the error correction model is performed from static text such as a news manuscript or web text, and secondly, a topic and a long distance context. It is a point of learning an error correction model reflecting the characteristics of. By using a relatively large amount of available text as part of the estimation of the model parameters of the error correction model, in addition to improving the robustness of the model, it can be expected to avoid the problem of data sparseness. Furthermore, in this embodiment, an application method for speech recognition of an error correction model using a topic and a long distance context will be described.
[2. 誤り修正モデルの学習アルゴリズム]
本実施形態の誤り修正モデル学習装置は、音声認識の誤りを修正する統計的な誤り修正モデルのパラメータを、長い文脈や話題といった特徴を利用して識別的かつ頑健に学習し、音声認識に適用する。これにより、誤り修正モデルを発話内容に適合させ、音声認識性能を改善する。以下、本実施形態の誤り修正モデル学習装置に適用する誤り修正モデルの学習アルゴリズムについて説明する。
[2. Error correction model learning algorithm]
The error correction model learning device of the present embodiment learns the parameters of a statistical error correction model that corrects errors in speech recognition by using features such as long contexts and topics, and applies them to speech recognition. To do. As a result, the error correction model is adapted to the utterance content, and the speech recognition performance is improved. The error correction model learning algorithm applied to the error correction model learning device of this embodiment will be described below.
[2.1 従来法の誤り修正モデル]
ベイズの定理によれば、音声入力xが与えられたとき、この音声入力xに対して最も尤もらしい単語列w^(「^」は、「ハット」を表す。)は、以下の式(1)により求めることができる。
[2.1 Error correction model of conventional method]
According to Bayes' theorem, when speech input x is given, the most likely word sequence w ^ (“^” represents “hat”) for this speech input x is expressed by the following equation (1). ).
音声入力x及び単語列wは、例えば、発話の単位に対応し、P(w|x)は、音声入力xが与えられたときに単語列(文仮説)wが得られる事後確率である。
また、P(x|w)は、単語列wに対する音響的な尤もらしさを示す尤度であり、対数尤度として定義される音響スコアは隠れマルコフモデル(Hidden Markov Model、HMM)及び混合ガウス分布(Gaussian Mixture Model、GMM)に代表される統計的音響モデル(以下、「音響モデル」と記載する。)に基づいて計算される。言い換えれば、このスコアは、音響特徴量が与えられたとき、複数の正解候補の単語それぞれに対する尤もらしさを表す。
The voice input x and the word string w correspond to, for example, the unit of speech, and P (w | x) is a posterior probability that a word string (sentence hypothesis) w is obtained when the voice input x is given.
P (x | w) is a likelihood indicating acoustic likelihood for the word string w, and an acoustic score defined as a logarithmic likelihood is a hidden Markov model (HMM) and a mixed Gaussian distribution. It is calculated based on a statistical acoustic model (hereinafter referred to as “acoustic model”) represented by (Gaussian Mixture Model, GMM). In other words, this score represents the likelihood of each of a plurality of correct candidate words when an acoustic feature amount is given.
一方、P(w)は、単語列wに対する言語的な生成確率であり、対数生成確率として定義される言語スコアは、単語n−gramモデル等の統計的言語モデル(以下、「言語モデル」と記載する。)により計算される。言い換えれば、このスコアは、音声認識対象の単語の前または後の単語列、あるいは前後両方の単語列が与えられたとき、複数の正解候補の単語列それぞれに対する言語的な尤もらしさを表す。なお、単語n−gramモデルは、N単語連鎖(Nは、例えば1、2、または3である。)の統計に基づいて、(N−1)単語の履歴から次の単語の生起確率を与えるモデルである。 On the other hand, P (w) is a linguistic generation probability for the word string w, and a language score defined as a logarithmic generation probability is a statistical language model such as a word n-gram model (hereinafter referred to as “language model”). To be calculated). In other words, this score represents the linguistic likelihood of each of a plurality of correct candidate word strings when a word string before or after a word for speech recognition, or both word strings before and after the word string are given. The word n-gram model gives the occurrence probability of the next word from the history of the word (N-1) based on the statistics of N word chains (N is 1, 2, or 3, for example). It is a model.
式(1)のP(x|w)P(w)が最大の場合は、その対数も最大である。そこで、音声認識では、上記の式(1)のベイズの定理に基づいて、音声入力xが与えられたときの文仮説(正解候補)である単語列wの評価関数D(w|x)を以下の式(2)のように定める。 When P (x | w) P (w) in Equation (1) is maximum, the logarithm is also maximum. Therefore, in speech recognition, the evaluation function D (w | x) of the word string w, which is a sentence hypothesis (correct answer candidate) when the speech input x is given, is obtained based on the Bayes' theorem of the above equation (1). It is defined as the following formula (2).
式(2)が定められたとき、以下の式(3)に示すように、音声入力xに対する正解候補の単語列wの集合の中から、式(2)が示す評価関数D(w|x)の結果が最大である単語列w^が、音声入力xの音声認識結果として選択される。ここで、κは、音響スコアに対する言語スコアの重みである。 When the formula (2) is determined, as shown in the following formula (3), the evaluation function D (w | x shown by the formula (2) is selected from the set of correct candidate word strings w for the speech input x. ) Is selected as the speech recognition result of speech input x. Here, κ is the weight of the language score with respect to the acoustic score.
従来法における誤り修正モデルでは、式(1)を以下の式(4)のように変更する。 In the error correction model in the conventional method, equation (1) is changed to the following equation (4).
式(4)においてexpΣiλigi(w)は、単語列wの誤り傾向を反映したスコアであり、単語列wに対するペナルティもしくは報償として働く。また、gi(w)(i=1,...,)はi番目の素性関数であり、モデルパラメータΛ={λ1,...}の要素λiは素性関数gi(w)に対する重み(素性重み)である。素性関数は、与えられた単語列(ここでは、単語列w)で言語的ルールが成立すればその数となり、成立しなければ0となるような関数として定められる。これら素性関数giの例として、以下などがあげられる。 Equation (4) in expΣ i λ i g i (w ) is a score reflecting the error tendency of the word sequence w, act as a penalty or reward for the word sequence w. Further, g i (w) (i = 1, ...,) is the i-th feature functions, the model parameters Λ = {λ 1, ...} elements lambda i of feature function g i (w) Is a weight (feature weight) for. The feature function is defined as a function that becomes the number if a linguistic rule is established in a given word string (here, word string w), and is 0 if not established. Examples of these feature functions g i, and the like below.
(1)単語列wに連続する単語2項組(u,v)が含まれる場合、その数を返す関数
(2)単語列wに連続しない単語2項組(u,v)が含まれる場合、その数を返す関数
(1) When the word string w includes a continuous word binary set (u, v), a function that returns the number (2) When the word string w includes a non-continuous word binary set (u, v) , A function that returns the number
音声認識の誤り傾向は、素性関数と素性重みにより言語的な特徴に対するペナルティとして表現され、学習データの単語誤りを最小化する評価関数に基づいて推定される。モデルパラメータΛは、正解単語列および音声認識結果の集合を用いて推定されるが、通常、正解単語列が与えられた学習データを大量に収集することは、特にコストの面から困難である。そのため、従来法の誤り修正モデルでは、連続する単語2項組、3項組などの比較的短い文脈を素性として採用している。これは、より長い単語連鎖を素性としても、学習データのスパースネスが原因で統計的に頑健なモデルを学習できないことによる。 The error tendency of speech recognition is expressed as a penalty for linguistic features by a feature function and feature weight, and is estimated based on an evaluation function that minimizes word errors in the learning data. Although the model parameter Λ is estimated using a set of correct word strings and speech recognition results, it is usually difficult to collect a large amount of learning data to which the correct word strings are given, particularly in terms of cost. For this reason, the error correction model of the conventional method employs a relatively short context such as a continuous word binary set or triplet as a feature. This is because even if a longer word chain is used as a feature, a statistically robust model cannot be learned due to the sparseness of the learning data.
[2.2 本実施形態に適用される誤り修正モデルの学習アルゴリズム]
本実施形態では、従来法の課題を解決するために、再帰的ニューラルネットワークに基づいて、文脈および話題に関する特徴量を抽出し、誤り修正モデルのモデルパラメータを推定する。再帰的ニューラルネットワークでは、特徴量の次元圧縮が可能であるものの、ネットワークの層間を結ぶ多数のパラメータの推定には大量の学習データが必要となる。本実施形態では、パラメータの一部をニュース原稿などの静的なテキストから推定することにより、データスパースネスの問題を解決する。
[2.2 Learning algorithm of error correction model applied to this embodiment]
In the present embodiment, in order to solve the problem of the conventional method, based on a recursive neural network, feature quantities related to context and topic are extracted, and model parameters of an error correction model are estimated. In a recursive neural network, dimensional compression of features can be performed, but a large amount of learning data is required to estimate a large number of parameters connecting the layers of the network. In the present embodiment, the data sparseness problem is solved by estimating some of the parameters from static text such as a news manuscript.
図7は、ニューラルネットワークを示す図である。同図では、いわゆるElman型の再帰的ニューラルネットワーク(recurrent neural network)を示している。同図に示すニューラルネットワークは、入力層、隠れ層、及び出力層の3層から構成され、統計的言語モデルのケースでは、入力として単語を与えると、その単語に後続する単語の出現確率(接続確率)が出力される。ニューラルネットワークを用いた言語モデルの場合、語彙サイズをNとすると、入力層はN個の素子からなる層であり、入力される単語は、その単語に該当するインデックスの素子(要素)のみに1が設定され、それ以外のインデックスの素子には0が設定された離散ベクトルとして定められる。隠れ層は、任意の数の素子により構成される層である。また、出力層はN個の素子からなる層であり、入力の単語に後続する単語の出現確率となる。ニューラルネットワークの隠れ層は、シグモイド関数により非線形変換されて出力層への入力となり、出力層は、確率の条件を満たすために、各素子の値の総和が1となるようにソフトマックス関数により正規化される。 FIG. 7 is a diagram illustrating a neural network. In the figure, a so-called Elman-type recurrent neural network is shown. The neural network shown in the figure is composed of three layers: an input layer, a hidden layer, and an output layer. In the case of a statistical language model, when a word is given as an input, the probability of occurrence of a word following that word (connection) Probability) is output. In the case of a language model using a neural network, if the vocabulary size is N, the input layer is a layer composed of N elements, and the input word is 1 only in the element (element) of the index corresponding to the word. Is set as a discrete vector in which elements other than the index are set to 0. The hidden layer is a layer composed of an arbitrary number of elements. The output layer is a layer made up of N elements, and represents the appearance probability of a word following the input word. The hidden layer of the neural network is nonlinearly transformed by a sigmoid function to be input to the output layer, and the output layer is normalized by a softmax function so that the sum of the values of each element becomes 1 in order to satisfy the probability condition It becomes.
従来のfeed-forward型のニューラルネットワークとは異なり、再帰的ニューラルネットワークでは、隠れ層の出力が入力層にフィードバックされる。フィードバックにより、再帰的ニューラルネットワークの出力は過去の隠れ層の系列に依存する。言語モデルであれば、出力である単語の確率分布は、過去の入力単語に依存することを意味する。つまり、再帰的に算出される隠れ層を入力に用いることで、長い文脈が考慮された単語の確率分布が出力される。 Unlike a conventional feed-forward neural network, the recursive neural network feeds back the output of the hidden layer to the input layer. With feedback, the output of the recursive neural network depends on the past hidden layer sequence. In the case of a language model, it means that the probability distribution of words as output depends on past input words. In other words, by using a recursively calculated hidden layer as an input, a probability distribution of words in consideration of a long context is output.
文献「T. Mikolov and G. Zweig, Context Dependent Recurrent Neural Network Language Model.Technical Report, NSR-TR-2012-92, Microsoft, 2012.」に記載の再帰的ニューラルネットワークの定義では、時刻tにおける入力層xt、隠れ層ht、及び出力層otはそれぞれ、以下の式(5)〜式(7)のようになる。 In the recursive neural network definition described in the document “T. Mikolov and G. Zweig, Context Dependent Recurrent Neural Network Language Model.Technical Report, NSR-TR-2012-92, Microsoft, 2012.”, the input layer at time t x t , the hidden layer h t , and the output layer o t are expressed by the following equations (5) to (7), respectively.
式(5)において、入力層xtは、時刻tの単語ベクトルwtおよび1時刻前(t−1)の隠れ層の出力ht−1からなるベクトルである。単語ベクトルwtのN個の要素は各単語に対応しており、該当する要素のみに1が設定され、それ以外の要素には0が設定される。単語ベクトルwtが表す単語を単語wtとも記載する。式(6)において、Mhは、入力層に対する重み係数行列であり、sigmoid(・)はベクトルの要素に対するシグモイド関数である。なお、隠れ層の要素(素子)数は任意であり、通常、入力層の要素数よりも小さい。式(7)において、Moは、隠れ層に対する重み係数(パラメータ)行列であり、softmax(・)は、出力層に対するソフトマックス関数である。出力層otは、単語ベクトルwtが表す単語に後続する単語の確率分布を表す。出力層otのN個の要素(素子)は、各単語に対応しており、その要素に対応する単語の事後確率を表す。 In Expression (5), the input layer x t is a vector composed of the word vector w t at time t and the output h t−1 of the hidden layer one time before (t−1). N elements of the word vector w t correspond to each word, and 1 is set only for the corresponding element, and 0 is set for the other elements. A word represented by the word vector w t is also referred to as a word w t . In Equation (6), M h is a weight coefficient matrix for the input layer, and sigmoid (·) is a sigmoid function for the vector elements. The number of elements (elements) in the hidden layer is arbitrary and is usually smaller than the number of elements in the input layer. In Equation (7), M o is a weight coefficient (parameter) matrix for the hidden layer, and softmax (·) is a softmax function for the output layer. The output layer o t represents a probability distribution of words following the word represented by the word vector w t . N elements of the output layer o t (element) corresponds to each word represents the posterior probability of a word corresponding to that element.
上述の再帰的ニューラルネットワークに基づく統計的言語モデルの学習では、話題に関する特徴を入力するために拡張的な手法が行われている。
図8は、拡張した再帰的ニューラルネットワークを示す図である。通常、統計的言語モデルにおける再帰的ニューラルネットワークでは、単語および1時刻前の隠れ層の出力を入力とする。この入力に、現在着目している発話の直近の発話から得られた話題に関する情報をさらに利用することで、より長い範囲の文脈(話題)をニューラルネットワークに反映できる。つまり、同図に示す拡張した再帰的ニューラルネットワークにおいては、単語ベクトルwtおよび1時刻前(t−1)の隠れ層の出力ht−1に加え、話題に関する特徴量である話題特徴量ベクトルvをさらに入力としている。
In the learning of a statistical language model based on the recursive neural network described above, an extended method is used to input features relating to topics.
FIG. 8 is a diagram showing an extended recursive neural network. Usually, in a recursive neural network in a statistical language model, a word and an output of a hidden layer one time before are input. By further using information related to the topic obtained from the latest utterance of the utterance currently focused on for this input, a longer range of context (topic) can be reflected in the neural network. That is, in the expanded recursive neural network shown in the figure, in addition to the word vector w t and the output h t−1 of the hidden layer one time before (t−1), the topic feature amount vector which is a feature amount related to the topic. v is further input.
図9は、拡張した再帰的ニューラルネットワークにおける特徴量の関係を示す図である。同図においては、現在着目している発話snにおける単語(単語wt)に後続する予測単語(出力層ot)を、話題に依存した特徴(話題特徴量ベクトルv)と、発話snにおける単語wtより前の単語列に基づく特徴(隠れ層の出力ht−1)とを用いて得る。話題に依存した特徴は、発話snより前の発話sn−m,...,sn−1から抽出される。 FIG. 9 is a diagram showing the relationship of feature amounts in the expanded recursive neural network. In the figure, the predicted word (output layer o t ) following the word (word w t ) in the utterance s n that is currently focused on is characterized by a topic-dependent feature (topic feature vector v) and the utterance s n. And the feature based on the word string before the word w t (the output h t−1 of the hidden layer). Features that depend on topic, the speech s n from the previous utterance s n-m, ..., are extracted from the s n-1.
拡張した再帰的ニューラルネットワークの入力層xtは、以下の式(8)となる。ただし、隠れ層ht、及び出力層otは、上記の式(6)、式(7)と同様である。 The input layer xt of the expanded recursive neural network is expressed by the following equation (8). However, the hidden layer h t and the output layer o t are the same as the above formulas (6) and (7).
上述した再帰的ニューラルネットワークは、話題に関する特徴量の有無にかかわらず、n−gram言語モデルの条件付き確率を推定するために用いられることがほとんどであり、誤り修正モデルで利用されることはない。 The recursive neural network described above is mostly used to estimate the conditional probability of the n-gram language model regardless of the presence or absence of feature values related to the topic, and is not used in the error correction model. .
ニューラルネットワークでは、入力層、隠れ層、出力層の各素子間をつなぐ重み係数(結合重み)がパラメータとなるが、一般に素子間の重み係数パラメータは数が多いため、統計的に頑健な学習を行うには大量の学習データを必要とする。しかしながら、誤り修正モデルでは、音声に対する正解単語列を人手により用意しなければならないため、ニューラルネットワークの学習に十分なデータを用意することが困難である。この課題を解決するために、本実施形態の誤り修正モデル学習装置では、図1に示すニューラルネットワークを採用する。 In a neural network, the weighting coefficient (coupling weight) that connects each element in the input layer, hidden layer, and output layer is a parameter. Generally, there are many weighting coefficient parameters between elements, so statistically robust learning is possible. To do it requires a lot of learning data. However, in the error correction model, it is difficult to prepare data sufficient for learning of a neural network because a correct word string for speech must be prepared manually. In order to solve this problem, the neural network shown in FIG. 1 is employed in the error correction model learning device of the present embodiment.
図1は、本実施形態で採用するニューラルネットワークを示す図である。同図に示すニューラルネットワークでは、図8に示す再帰的ニューラルネットワークに、誤り修正モデルのための出力層2が追加されている。なお、同図においては、図8に示す再帰的ニューラルネットワークの出力層を、出力層1としている。出力層2は、誤り修正モデルに用いられる素性関数の値をベクトル表現したものであり、再帰的ニューラルネットワークにより得られる隠れ層htに、重み係数行列Mo’を乗算した値o’tが出力される。本実施形態の誤り修正モデル学習装置は、出力層2を構成する素性関数を定義した上で、重み係数行列Mo’を学習する。
FIG. 1 is a diagram showing a neural network employed in the present embodiment. In the neural network shown in the figure, an
本実施形態による誤り修正モデル学習装置の特徴は、図1に示すニューラルネットワークのうち、従来型の再帰的ニューラルネットワークの部分を、比較的大量に収集可能な静的テキスト(ニュース原稿やウェブテキストなど)に基づいて学習することである。つまり、本実施形態による誤り修正モデル学習装置は、静的テキストから入力層〜隠れ層の結合重みである重み係数行列Mhを得た上で、誤り修正モデルの学習のための結合重みである重み係数行列Mo’のみを改めて学習することにある。この手続きにより、本実施形態による誤り修正モデル学習装置は、音声認識結果と正解単語列とからなる学習データから、再帰的ニューラルネットワークの最下層(入力層〜隠れ層)の結合重みを学習することなく、隠れ層〜出力層の間の結合重みのみを学習することにより誤り修正モデルを学習できる。また、本実施形態による誤り修正モデル学習装置は、再帰的ニューラルネットワークを採用することにより、従来法よりも長い文脈や話題といった情報を考慮した誤り修正モデルを得られることも特徴である。つまり、本実施形態による誤り修正モデル学習装置は、1時刻前の隠れ層の出力ht−1を入力に用いて現在の時刻の隠れ層htを求めることを繰り返すことで長い文脈を考慮し、現在の発話snより前の発話群から得られた話題に関する特徴量である話題特徴量ベクトルvを入力に用いる話題を考慮している。 The error correction model learning apparatus according to this embodiment is characterized in that static text (news manuscript, web text, etc.) that can collect a relatively large amount of the conventional recursive neural network portion of the neural network shown in FIG. ) To learn based on. That is, the error correction model learning device according to the present embodiment is a connection weight for learning an error correction model after obtaining a weight coefficient matrix M h that is a connection weight between an input layer and a hidden layer from a static text. The purpose is to learn only the weighting coefficient matrix M o ′. By this procedure, the error correction model learning device according to the present embodiment learns the connection weights of the lowest layer (input layer to hidden layer) of the recursive neural network from the learning data composed of the speech recognition result and the correct word string. The error correction model can be learned by learning only the connection weight between the hidden layer and the output layer. In addition, the error correction model learning apparatus according to the present embodiment is characterized in that an error correction model can be obtained in consideration of information such as context and topic that is longer than the conventional method by employing a recursive neural network. That is, the error correction model learning device according to the present embodiment considers a long context by repeatedly obtaining the hidden layer h t at the current time using the output h t-1 of the hidden layer one time before as an input. into account the topics using the input topic feature vector v is a feature quantity relating to topics obtained from speech group prior to the current speech s n.
[3. 誤り修正モデル学習装置の構成]
図2は、本発明の一実施形態による誤り修正モデル学習装置10の構成を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみ抽出して示してある。誤り修正モデル学習装置10は、コンピュータ装置により実現され、同図に示すように、言語モデル学習処理部20、誤り修正モデル学習処理部30、及び音声認識処理部40を備えて構成される。
[3. Configuration of error correction model learning device]
FIG. 2 is a functional block diagram showing the configuration of the error correction
言語モデル学習処理部20は、ニュース原稿やウェブ上のテキストデータを学習データとして、図1に示す再帰的ニューラルネットワークに基づく言語モデルを学習する。言語モデルは、ニューラルネットワークにおける重み係数行列Mh、Moに相当する。言語モデル学習処理部20は、言語資源記憶部21、話題モデル学習部22、及び言語モデル学習部23を備えて構成される。
The language model
言語資源記憶部21は、ニュース原稿のテキストデータやウェブから収集したテキストデータなどを学習テキストとして記憶する。話題モデル学習部22は、統計的な次元圧縮手法により話題に関する特徴量(以下、「話題特徴量」と記載する。)を抽出するために用いる話題モデルを、言語資源記憶部21に記憶されている学習テキストに基づいて学習する。話題モデル学習部22は、学習した話題モデルを設定した話題モデルデータD1を出力する。言語モデル学習部23は、言語資源記憶部21に記憶されている学習テキストが示す文章と、話題モデルデータD1に設定されている話題モデルを用いて当該文章よりも前の文章から抽出した話題特徴量とを用いて、ニューラルネットワークにおける重み係数行列Mh、Moを言語モデルとして学習する。言語モデル学習部23は、学習した言語モデルを設定した言語モデルデータD2を出力する。
The language
誤り修正モデル学習処理部30は、図1に示す再帰的ニューラルネットワークに基づき、言語モデル学習処理部20が得た言語モデルを拡張した誤り修正モデルを、音声認識結果を学習データに用いて学習する。誤り修正モデル学習処理部30は、音声資源記憶部31、整列部32、音声認識部33、素性定義部34、及び誤り修正モデル学習部35を備えて構成される。
The error correction model
音声資源記憶部31は、発話の音声データと、その音声データの正解単語列とからなる学習データを記憶する。整列部32は、音声資源記憶部31に記憶されている音声データに対応する正解単語列の整列を行う。整列部32は、整列した正解単語列を設定した正解単語列データD3を出力する。音声認識部33は、正解単語列の整列に用いられた音声データを、音響モデル記憶部41に記憶されている音響モデルと、言語モデルデータD2に設定されている言語モデルとを用いて音声認識する。音声認識部33は、音声認識結果を設定した音声認識結果データD4を出力する。素性定義部34は、正解単語列データD3に設定されている正解単語列に含まれる単語と、音声認識結果データD4に設定されている音声認識結果に含まれる単語に基づいて素性関数を定義する。誤り修正モデル学習部35は、正解単語列データD3に設定されている正解単語列と、音声認識結果データD4に設定されている音声認識結果と、正解単語列及び音声認識結果それぞれをニューラルネットワークに入力したときの隠れ層の出力値とを用いて、素性定義部34が定義した素性関数を用いた誤り修正モデルのモデルパラメータである重み係数行列Mo’を学習する。誤り修正モデル学習部35は、学習したモデルパラメータを用いた誤り修正モデルを誤り修正モデルデータD5に設定して音声認識処理部40へ出力する。
The voice
音声認識処理部40は、音響モデル、言語モデル学習処理部20が学習した言語モデル、及び誤り修正モデル学習処理部30が学習した誤り修正モデルを用いて音声認識を行い、認識結果を出力する。音声認識処理部40は、音響モデル記憶部41、言語モデル記憶部42、誤り修正モデル記憶部43、及び入力音声認識部44を備えて構成される。
The speech
音響モデル記憶部41は、音響モデルを記憶する。言語モデル記憶部42は言語モデル学習処理部20において学習した言語モデルを設定した言語モデルデータD2を記憶する。誤り修正モデル記憶部43は、誤り修正モデル学習処理部30において学習した誤り修正モデルを設定した誤り修正モデルデータD5を記憶する。入力音声認識部44は、音響モデル記憶部41に記憶されている音響モデル、言語モデル記憶部42から読み出した言語モデル、及び誤り修正モデル記憶部43から読み出した誤り修正モデルを用いて入力音声データD6を音声認識し、音声認識結果を設定した入力音声認識結果データD7を出力する。
The acoustic
なお、言語資源記憶部21に記憶されている音声データ、及び入力音声データD6は、発話の音声波形を短時間スペクトル分析して得られた特徴量を示す。
Note that the speech data stored in the language
[4. 誤り修正モデル学習装置の処理手順]
図3は、図2に示す誤り修正モデル学習装置10の全体処理フローを示す図である。以下、同図に示す各ステップの処理について説明する。
[4. Processing procedure of error correction model learning device]
FIG. 3 is a diagram showing an overall processing flow of the error correction
[4.1 言語モデル学習処理部20の処理手順]
言語モデル学習処理部20は、図1に示す再帰的ニューラルネットワークに基づく言語モデルを学習する。言語資源記憶部21には、放送局内のニュース原稿を示すテキストデータや、ウェブ上のテキストデータなどが学習テキストとして集積されている。言語資源記憶部21は、学習テキストを記事ごとに分類し、各記事を文書データとして記憶する。
[4.1 Processing Procedure of Language Model Learning Processing Unit 20]
The language model
[4.1.1 ステップS1:話題特徴量抽出処理]
再帰的ニューラルネットワークの学習では、話題特徴量を入力として必要とする。このため、再帰的ニューラルネットワークに基づく言語モデルを学習する前に、話題モデル学習部22において、話題特徴量の抽出に用いる話題モデルを学習する。本実施形態では、話題特徴量として非負値行列因子分解(Non-negative Matrix Factorization)による特徴ベクトルを用いる。話題モデル学習部22は、言語資源記憶部21に記憶されている学習データから各記事の文書データを読み出し、読み出した文書データに非負値行列因子分解を適用することで話題特徴量を抽出する。非負値行列因子分解については、例えば、文献「D. D. Lee and H. S. Seung, Algorithm for Non-negative Matrix Factorization, In Advances in Neural Information Processing Systems, pp. 556-562, 2001.」に記載されている。
[4.1.1 Step S1: Topic Feature Extraction Process]
In recursive neural network learning, topic feature quantities are required as input. Therefore, before learning a language model based on a recursive neural network, the topic model learning unit 22 learns a topic model used for extracting topic feature values. In the present embodiment, feature vectors based on non-negative matrix factorization are used as topic feature quantities. The topic model learning unit 22 reads the document data of each article from the learning data stored in the language
言語資源記憶部21に記憶されている学習テキストに対してベクトル空間モデルを使えば、m個の単語を含んだn個の記事からなる学習テキストの記事集合Dは、m行n列の単語−文書行列として表現できる。単語−文書行列の要素は、例えばその要素の列に対応した記事において、その要素の行に対応した単語が出現する相対頻度に基づいて定めることができる。
If a vector space model is used for the learning text stored in the language
非負値行列因子分解では、学習テキストがm×nの文書−単語行列として表現されるときに、以下の式(9)を考える。 In non-negative matrix factorization, the following equation (9) is considered when the learning text is expressed as an m × n document-word matrix.
そして、記事集合Dをなるべく近似できるような上記の式(9)の行列W、行列Vとして、m×rの非負行列W’、およびr×nの非負行列V’を求める。ただし、行列Eは誤差からなる行列である。式(9)に示す因子分解では、記事をr個の因子(潜在トピック)で表現することに相当する。つまり、非負行列W’には、記事集合Dに頻出する単語の出現パターンがr個の列それぞれに潜在トピックを表す基底として現れる。そして、非負行列V’の各列は、その列に対応する記事に対してr個の潜在トピックそれぞれが寄与している度合いを表す。m>>rであれば、非負行列V’は、元の記事の単語行列を低次元の因子に圧縮した表現となるため、データスパースネスに対し頑健となる。 Then, an m × r non-negative matrix W ′ and an r × n non-negative matrix V ′ are obtained as the matrix W and the matrix V of the above equation (9) that can approximate the article set D as much as possible. However, the matrix E is a matrix composed of errors. The factorization shown in Expression (9) corresponds to expressing an article with r factors (latent topics). That is, in the non-negative matrix W ′, the appearance pattern of words frequently appearing in the article set D appears as a basis representing a latent topic in each of r columns. Each column of the non-negative matrix V ′ represents the degree to which r potential topics contribute to the article corresponding to the column. If m >> r, the non-negative matrix V ′ is an expression in which the word matrix of the original article is compressed to a low-dimensional factor, and is robust against data sparseness.
未知の文書の単語ベクトルdに対する話題特徴量ベクトルvは、式(10)のように当該文書を非負行列W’により因子分解して得られる。単語ベクトルdの各要素は単語に対応しており、文書における各単語の出現頻度が設定される。また、話題特徴量ベクトルvは、非負行列W’に表れるr個の潜在トピックそれぞれが文書に寄与している度合いを表す。この次元圧縮されたr次元の話題特徴量ベクトルvは、統計的言語モデルの話題特徴量として扱われる。 The topic feature vector v for the word vector d of an unknown document is obtained by factorizing the document with a non-negative matrix W ′ as shown in Equation (10). Each element of the word vector d corresponds to a word, and the appearance frequency of each word in the document is set. The topic feature vector v represents the degree to which each of r potential topics appearing in the non-negative matrix W ′ contributes to the document. This dimension-compressed r-dimensional topic feature vector v is treated as a topic feature of a statistical language model.
話題モデル学習部22は、言語資源記憶部21に学習データとして記憶されているn個の文書データを読み出し、読み出した文書データが示す記事それぞれについてm個の各単語の出現頻度をカウントする。話題モデル学習部22は、カウントした各記事の単語の出現頻度を要素とする記事集合Dを生成する。記事集合Dの各要素には、列に対応する記事における、行に対応する単語の出現頻度が設定される。話題モデル学習部22は、生成した記事集合Dに非負値行列因子分解を適用して、非負行列W’、および非負行列V’を算出すると、算出した非負行列W’を話題モデルとして設定した話題モデルデータD1を出力する。
The topic model learning unit 22 reads n pieces of document data stored as learning data in the language
[4.1.2 ステップS2:言語モデル学習処理]
言語モデル学習部23は、ステップS1において得られた話題モデルを用いて、言語資源記憶部21に記憶されている学習テキストから再帰的ニューラルネットワークに基づく言語モデルを学習する。同様のモデルの学習は、例えば、文献「T. Mikolov and G. Zweig, Context Dependent Recurrent Neural Network Language Model, Microsoft Research Technical Report MSR-TR-2012-92, Microsoft, 2012.」に記載されているが、その概略は以下の通りである。
[4.1.2 Step S2: Language Model Learning Process]
The language
まず、図1に示す再帰的ネットワークに含まれる、図8に示す再帰的ネットワークの部分を図10に示すように展開し、通常のフィードフォワード型ニューラルネットワークで近似する。
図10は、図8に示す再帰的ネットワークのフィードフォワード型ニューラルネットワークへの展開を示す図である。展開する深さは任意であるが、本実施形態では、深さを3とした例を示す。展開したフィードフォワード型ニューラルネットワークでは、誤差逆伝播法などのアルゴリズムを用いて、ニューラルネットワークの各層の重み係数行列を学習できる。誤差逆伝播法については、例えば、文献「R. Rojas, Neural Networks - A Systematic Introduction, pp.151-184, Springer-Verlag, 1996.」に記載されている。
First, the portion of the recursive network shown in FIG. 8 included in the recursive network shown in FIG. 1 is expanded as shown in FIG. 10 and approximated by a normal feedforward neural network.
FIG. 10 is a diagram showing the development of the recursive network shown in FIG. 8 into a feedforward neural network. The developing depth is arbitrary, but in the present embodiment, an example in which the depth is 3 is shown. In the developed feedforward neural network, the weighting coefficient matrix of each layer of the neural network can be learned using an algorithm such as an error back propagation method. The back propagation method is described in, for example, the document “R. Rojas, Neural Networks-A Systematic Introduction, pp. 151-184, Springer-Verlag, 1996.”.
言語モデル学習部23は、言語資源記憶部21の学習テキストを逐次的に処理することで重み係数行列を学習する。この学習には、例えば、文献「P. J. Werbos, Backpropagation Through Time: What It Does and How to Do It, Proceedings of The IEEE, vol. 78, no. 10, pp.1550-1560, 1990.」に記載のBackpropagation Through Time アルゴリズムを用いることができる。学習の手順を以下に示す。
The language
(手順1) 言語モデル学習部23は、学習テキスト中の記事における文章sn{n=1,...,N}の直前のm個の文章{sn−m,sn−m+1,...,sn−1}を1つの文章とみなして各単語の出現頻度をカウントする。言語モデル学習部23は、カウントした各単語の出現頻度を表す単語ベクトルdを、話題モデルデータD1に設定されている非負行列W’を用いて式(10)により次元圧縮された基底ベクトルの表現に変換し、話題特徴量ベクトルvnを算出する。
(Procedure 1) The language
(手順2) 学習テキスト中の文章snを構成する単語{w1,w2,...,wt,...,wnT}に対して、展開した再帰的ニューラルネットワークにおけるt番目の入出力を(wt,wt+1,wt+2,vn,ht−1,ot−1)とする。ここで、t番目の入出力における単語wt,wt+1,wt+2は、語彙サイズを次元数とし、該当する単語を示すインデックスの要素のみを1とし、他の要素を0とするベクトルである。言語モデル学習部23は、誤差逆伝播法に基づき、入出力(wt,wt+1,wt+2,vn,ht−1,ot−1)を用いて、重み係数行列Mh t、Mh t+1、Mh t+2、Moを推定する。
(Procedure 2) For the words {w 1 , w 2 ,..., W t ,..., W nT } constituting the sentence s n in the learning text, the t th The input / output is assumed to be (w t , w t + 1 , w t + 2 , v n , h t−1 , o t−1 ). Here, the words w t , w t + 1 , and w t + 2 in the t-th input / output are vectors in which the vocabulary size is the number of dimensions, only the index element indicating the corresponding word is 1, and the other elements are 0. . The language
(手順3) 言語モデル学習部23は、手順2において推定した重み係数行列Mh t、Mh t+1、Mh t+2の平均をとり、再帰的ニューラルネットワークの重み係数行列Mhをこの平均した行列により更新する。さらに、言語モデル学習部23は、重み係数行列Mh t、Mh t+1、Mh t+2それぞれを、平均した行列と差し替える。
(Procedure 3) The language
(手順4) 言語モデル学習部23は、(手順1)〜(手順3)までの処理を、学習テキストすべてについて繰り返す。
(Procedure 4) The language
(手順5) 言語モデル学習部23は、(手順1)〜(手順4)までの処理を、重み係数行列Mhが収束するまで繰り返す。
(Procedure 5) The language
言語モデル学習部23は、上記の処理によって求めた重み係数行列Mhと重み係数行列Moを言語モデルとして設定した言語モデルデータD2を出力する。
Language
[4.2 誤り修正モデル学習処理部の処理]
[4.2.1 誤り修正モデルの学習方法]
誤り修正モデル学習処理部30は、ステップS1において求められた話題モデルと、ステップS2において求められた再帰的ニューラルネットワークによる言語モデルとを利用して、誤り修正モデルを学習する。
[4.2 Processing of error correction model learning processing unit]
[4.2.1 Learning method of error correction model]
The error correction model
本実施形態では、誤り修正モデルの素性関数は、単語wの関数として定める。例えば、素性関数を以下とする。 In the present embodiment, the feature function of the error correction model is determined as a function of the word w. For example, the feature function is as follows.
(1) 単語wが、u∈Vに等しいときに1を返す関数
(2) 単語wの品詞がc∈Cに等しいときに1を返す関数
(1) A function that returns 1 when the word w is equal to u∈V (2) A function that returns 1 when the part of speech of the word w is equal to c∈C
ここで、Vは語彙、uはVに含まれる単語、Cは品詞の集合、cはCに含まれる品詞とする。 Here, V is a vocabulary, u is a word included in V, C is a set of parts of speech, and c is a part of speech included in C.
いま、K個の素性関数をgk(k=1,...,K)として、音声入力xと話題特徴量ベクトルvが与えられたときに単語列wが得られる事後確率P(w|x,v)を以下の式(11)とする。 Now, assuming that K feature functions are g k (k = 1,..., K), and a speech input x and a topic feature vector v are given, a posterior probability P (w | Let x, v) be the following equation (11).
ここで、Nは、単語列wを構成する単語wiの数、単語wi−1 0は、単語wiに対する履歴(直近の単語列)、P(wi|wi−1 0,v)は、再帰的ニューラルネットワークに基づく言語モデルの出力確率(出力層1からの出力)である。つまり、式(11)では、単語列wを構成する各単語wiのnグラムの積を算出している。expより後ろは誤り修正モデルの確率の一部となり、再帰的ニューラルネットワークにおける出力層2からの出力の和である。hj(i)は、単語wiを入力として再帰的ニューラルネットワークを伝播させたときの隠れ層h(i)のj番目の素子の値であり、Mjk o’は、隠れ層と出力層2の間の重み係数行列Mo’におけるj行k列目の要素(jk成分)である。
Here, N is the number of word w i that make up a word string w, word w i-1 0 is, history for the word w i (the most recent word string), P (w i | w i-1 0, v ) Is the output probability (output from the output layer 1) of the language model based on the recursive neural network. That is, calculated in Equation (11), the product of n-grams of each word w i constituting the word string w. After exp, it becomes part of the probability of the error correction model and is the sum of the outputs from the
誤り修正モデル学習処理部30は、誤り修正モデル学習処理において、重み係数行列Mo’を求める。本実施形態では、マージン最大化による誤り修正モデルの学習を行うこととする。
マージン最大化では、音声入力(音声データ)xに対して、以下の2つのペアが必要となる。
(1)正解単語列wr(音声データに対して整列済み)
(2)音声認識結果wd(音声データに対して整列済み)
The error correction model
In the margin maximization, the following two pairs are required for the voice input (voice data) x.
(1) Correct word string wr (already aligned with speech data)
(2) Speech recognition result w d (already aligned with speech data)
式(11)の対数を取った対数事後確率から、誤り修正モデルによる音声入力xに対する単語列wのスコアS(w|x)を、以下の式(12)のように定める。 From the logarithmic posterior probability obtained by taking the logarithm of Equation (11), the score S (w | x) of the word string w with respect to the speech input x by the error correction model is determined as in the following Equation (12).
式(12)は、本実施形態で用いる誤り修正モデルである。ここで、fam(w|x)は、音響モデル(前述のHMM−GMM)による対数スコア(音響スコア)である。μlmは、音響スコアに対する言語スコアの重みである。flm(wi|wi−1 0,v)は、再帰的ニューラルネットワークに基づく言語モデルによる単語wiの対数スコア(言語スコア)であり、出力層otに相当する。また、ΣiΣkgk(wi)Σjhj(i)Mjk o’は、単語列wの誤り傾向を反映したスコアである。このように、誤り修正モデルは、隠れ層の出力及びモデルパラメータにより重み付けした言語的な特徴を用いて音声認識のスコアを修正する式である。 Equation (12) is an error correction model used in this embodiment. Here, f am (w | x) is a logarithmic score (acoustic score) based on the acoustic model (the above-described HMM-GMM). μ lm is the weight of the language score with respect to the acoustic score. f lm (w i | w i -1 0, v) is the logarithm score of the word w i by the language model based on recursive neural network (language score), equivalent to the output layer o t. Further, Σ i Σ k g k (w i ) Σ j h j (i) M jk o ′ is a score reflecting the error tendency of the word string w. Thus, the error correction model is an expression for correcting the speech recognition score using linguistic features weighted by the output of the hidden layer and the model parameters.
式(12)を用いた正解単語列wrのスコアをS(wr|x)、音声認識結果wdのスコアをS(wd|x)としたときに、その差分(マージン)により定められる評価関数を以下の式(13)に示すDmとし、重み係数行列Mo’に関する最大化を図る。 Determined when the | (x w d), by the difference (margin) | Score correct word sequence w r using equation (12) S (w r x ), the score of speech recognition result w d S The evaluation function to be obtained is set to Dm shown in the following formula (13), and the weighting coefficient matrix M o ′ is maximized.
差分Dmについての重み係数行列Mo’のjk成分Mjk o’に関する勾配を求めると、以下の式(14)となる。 When the gradient related to the jk component M jk o ′ of the weighting coefficient matrix M o ′ for the difference Dm is obtained, the following equation (14) is obtained.
この勾配は、正解単語列wrを構成する各単語wi rの素性関数の値gk(wi r)を当該単語について算出された隠れ層のj番目の素子の値hj r(i)により重み付けした値の合計と、音声認識結果wdを構成する各単語wi’ dの素性関数の値gk(wi’ d)を当該単語について算出された隠れ層のj番目の素子の値hj d(i’)により重み付けした値の合計との差分に比例する。
確率的勾配降下法にしたがえば、重み係数行列Mo’の更新式は以下の式(15)のようになる。
This gradient is obtained by converting the value g k (w i r ) of the feature function of each word w i r constituting the correct word string w r to the value h j r (i of the hidden layer calculated for the word). ) And the value g k (w i ′ d ) of the feature function of each word w i ′ d constituting the speech recognition result w d and the j-th element of the hidden layer calculated for the word Is proportional to the difference from the sum of the values weighted by the value h j d (i ′).
According to the stochastic gradient descent method, the update formula of the weighting coefficient matrix M o ′ is as shown in the following formula (15).
ここで、ηは定数とする。
誤り修正モデル学習処理部30は、上記の手法を学習データ全体に対して適用し、誤り修正モデルを学習する。つまり、誤り修正モデル学習処理部30は、音声データが与えられたときの誤り修正モデルを用いた正解単語列の生成確率(対数事後確率)と音声認識結果の生成確率(対数事後確率)とを用いて定められる評価関数である差分Dmが最大になるように、誤り修正モデルのモデルパラメータであるMo’の各要素を統計的に算出する。
以下、誤り修正モデル学習処理部30において誤り修正モデルを得るための処理を説明する。
Here, η is a constant.
The error correction model
Hereinafter, processing for obtaining an error correction model in the error correction model
[4.2.2 ステップS3:整列済み正解単語列取得処理]
整列部32は、音声資源記憶部31に学習データとして記憶されている音声データに対して、該当する正解単語の整列を行う。この整列は、音声資源記憶部31の各学習データに対して順序を考慮して行われる。これは、話題特徴量ベクトルの計算を行うために学習データの順序を保持しておく必要があるためである。また、整列部32は、各単語に、再帰的ニューラルネットワークに基づく言語モデルにより単語予測を行った際の隠れ層の出力を記録しておく。
[4.2.2 Step S3: Process for Obtaining Arranged Correct Word Sequence]
The sorting
具体的には、整列部32は、既存の技術により、正解単語列を構成する各単語に音声データにおける発話開始時刻を対応付け、正解単語列を発話された時刻順に整列する。整列部32は、整列を行う際、音響モデル記憶部41に記憶されている音響モデルと、言語モデル学習処理部20で学習した言語モデル及び話題モデルとを用い、正解単語列を構成する各単語にその音響スコア及び言語スコアを付与する。整列部32は、式(8)、式(6)、及び式(7)を用いて、正解単語列wrを構成する単語wiの言語スコアflm(wi|wi−1 0,v)を算出するが、重み係数行列Mh、Moには言語モデルデータD2に設定されている言語モデルを用いる。このとき、式(8)におけるwtは、単語wiを表す単語ベクトルであり、ht−1は、ひとつ前の単語wi−1について言語スコアを算出した際に式(6)により求めた隠れ層の出力である。また、整列部32は、話題特徴量ベクトルvを、話題モデルデータD1から取得した話題モデル(非負行列W’)と、正解単語列wrよりも前の正解単語列群から取得した単語頻度を表す単語ベクトルdとを用いて、式(10)により算出する。整列部32は、各単語の音響スコア、言語スコア、及び、隠れ層の出力を付加した整列済みの正解単語列wrを正解単語列データD3に設定し、出力する。単語wiに付加する隠れ層の出力は、言語スコアflm(wi|wi−1 0,v)を算出した際の式(6)の隠れ層htの値である。
Specifically, the aligning
[4.2.3 ステップS4:学習データの音声認識処理]
一方、音声認識部33は、音声資源記憶部31に学習データとして記憶されている音声データを、言語モデルデータD2が示す言語モデルおよび話題モデルデータD1が示す話題モデルを用いて音声認識を実行し、音声認識結果wdを得る。音声認識部33は、ステップS3と同様の処理により、正解単語列データD3が示す正解単語列wrと同様に、音声認識結果wdにも、単語列を構成する各単語に音響スコアと言語スコアを付与し、さらに、再帰的ニューラルネットワークで単語予測を行った際の隠れ層の出力を記録する。つまり、音声認識部33は、音声認識結果wdを構成する単語wiの言語スコアflm(wi|wi−1 0,v)を式(8)、式(6)、及び式(7)により算出する。この際、音声認識部33は、言語モデルデータD2に設定されている言語モデル(重み係数行列Mh、Mo)と話題モデルデータD1から取得した話題モデル(非負行列W’)とを用いる。音声認識部33は、各単語の音響スコア、言語スコア、及び、隠れ層の出力を付加した音声認識結果wdを音声認識結果データD4に設定し、出力する。
[4.2.3 Step S4: Speech Recognition Processing of Learning Data]
On the other hand, the
[4.2.4 ステップS5:素性関数定義処理]
素性定義部34は、正解単語列データD3が示す正解単語列wrに含まれる単語、および、音声認識結果データD4が示す音声認識結果wdに含まれる単語から言語的な特徴を抽出し、抽出された言語的な特徴で定義される素性関数を得る。素性関数の定義は、前述の通り以下とする。
[4.2.4 Step S5: Feature Function Definition Process]
(1) 単語wが、u∈Vに等しいときに1を返す関数
(2) 単語wの品詞がc∈Cに等しいときに1を返す関数
(1) A function that returns 1 when the word w is equal to u∈V (2) A function that returns 1 when the part of speech of the word w is equal to c∈C
素性定義部34は、例えば、正解単語列wr及び音声認識結果wdから上記のルールに従った素性関数を全て抽出し、抽出した素性関数が出現する頻度をカウントする。素性定義部34は、は、カウントした出現頻度が予め定めた閾値以上である素性関数を、誤り修正モデルの学習で用いる素性関数gkとして決定する。これにより、素性定義部34が得た素性関数をK個とする。素性定義部34は、正解単語列データD3及び音声認識結果データD4と、得られた素性関数gkとを誤り修正モデル学習部35に出力する。
[4.2.5 ステップS6:誤り修正モデル学習処理]
図4は、誤り修正モデル学習部35が実行する誤り修正モデル学習処理の処理フローを示す。
誤り修正モデル学習部35は、nに初期値1を設定し(ステップS11)、kに初期値1を設定し(ステップS12)、jに初期値1を設定する(ステップS13)。
誤り修正モデル学習部35は、音声資源記憶部31に記憶されている学習データの第n番目の音声データxnに対応する正解単語列wr nおよび音声認識結果wd nを得る。誤り修正モデル学習部35は、正解単語列wr nを正解単語列データD3から読み出し、音声認識結果wd nを音声認識結果データD4から読み出す。誤り修正モデル学習部35は、第k番目の素性関数について、式(14)の右辺である以下の式(16)を計算する(ステップS14)。
[4.2.5 Step S6: Error Correction Model Learning Process]
FIG. 4 shows a processing flow of the error correction model learning process executed by the error correction
The error correction
Error correction
なお、誤り修正モデル学習部35は、正解単語列wr nを構成する各単語wi rに付加されている隠れ層の出力からj番目の素子の値hj r(i)を取得し、音声認識結果wd nを構成する各単語wi rに付加されている隠れ層の出力からj番目の素子の値hj d(i’)を取得する。
The error correction
誤り修正モデル学習部35は、上述した式(15)にしたがって、以下の式(17)により、重み係数行列Mo’のjk成分Mjk o’を計算する(ステップS15)。
The error correction
式(17)において、(∂D/∂Mjk o’)は、式(16)の算出結果である。本実施形態では、誤り修正モデル学習部35は、平均化確率的勾配降下法に基づき、以下の式(18)、式(19)に示すように重み係数行列Mo’のjk成分の更新を行う(ステップS16)。式(18)の左辺のM〜 jk o’は、更新後の重み係数行列Mo’のjk成分である。式(19)は、1〜n回目のループ処理のそれぞれにおいて算出された重み係数行列Mo’のjk成分の平均であり、式(18)の右辺のM〜 jk o’である。
In Expression (17), (∂D / ∂M jk o ') is a calculation result of Expression (16). In the present embodiment, the error correction
誤り修正モデル学習部35は、jが重み係数行列Mo’の行数(隠れ層の素子数)に達するまで、現在のjの値に1を加算してステップS14からの処理を繰り返す(ステップS17)。
誤り修正モデル学習部35は、kが素性関数の個数K(重み係数行列Mo’の列数)に達するまで、現在のkの値に1を加算してステップS13からの処理を繰り返す(ステップS18)。
誤り修正モデル学習部35は、学習データの全ての音声データxnについて処理を終了するまで、現在のnの値に1を加算してステップS12からの処理を繰り返す(ステップS19)。
The error correction
The error correction
The error correction
誤り修正モデル学習部35は、学習データの全ての音声データxnについて処理を終了した場合、前回の収束判定時からの重み係数行列Mo’の変化が、所定の範囲内であるか否かにより収束したか否かを判断する(ステップS20)。誤り修正モデル学習部35は、収束していないと判断した場合(ステップS20:NO)、ステップS11からの処理を繰り返し、収束したと判断した場合(ステップS20:YES)、図4の処理を終了する。誤り修正モデル学習部35は、式(12)に更新が収束したときの重み係数行列Mo’を用いた誤り修正モデルを生成し、生成した誤り修正モデルを設定した誤り修正モデルデータD5を音声認識処理部40に出力する。
When the error correction
[4.3 音声認識処理部の処理]
音声認識アルゴリズムでは、通常Viterbi探索に基づき、音声入力が得られるたびに単語仮説をグラフのノード(頂点)として展開していく。
図5は、音声認識における単語仮説の展開を示す図である。各ノードには、音声入力の始点に向かって逆向きにトレースを行えるよう、音声認識結果を構成する単語仮説の情報を、音声認識スコアとともに保存する。
[4.3 Processing of voice recognition processing unit]
In the speech recognition algorithm, a word hypothesis is developed as a node (vertex) of a graph every time a speech input is obtained based on a normal Viterbi search.
FIG. 5 is a diagram showing development of word hypotheses in speech recognition. Each node stores information on word hypotheses constituting the speech recognition result together with the speech recognition score so that tracing can be performed in the reverse direction toward the start point of speech input.
図11は、従来の音声認識におけるノードデータのデータ構造体を示す図である。各ノードのノードデータは、同図に示すようなデータをもつ構造体として定義される。つまり、各ノードのデータ構造体は、当該ノードに対応した単語仮説を特定するためのインデックスである「int word」と、この単語仮説の音響モデル・言語モデル・誤り修正モデルによるスコアを設定する「float score」と、当該ノードの1つ前のノードを示す「node* backptr」とを有する。 FIG. 11 is a diagram showing a data structure of node data in conventional speech recognition. The node data of each node is defined as a structure having data as shown in FIG. That is, the data structure of each node sets “int word” which is an index for specifying a word hypothesis corresponding to the node and a score based on the acoustic model / language model / error correction model of this word hypothesis. "float score" and "node * backptr" indicating the node immediately before the node.
しかし、再帰的ニューラルネットワークでは、ニューラルネットワークの隠れ層の出力が入力単語列に依存して変わるため、これを仮説の展開時にノードに記録する必要がある。したがって、本実施形態では、上述のノードの構造体は、図6に示すように拡張される。
図6は、拡張されたノードデータのデータ構造体を示す図である。同図に示すように、図11に示すデータ構造体に、隠れ層の出力を設定するための「layer hidden_layer」が追加されている。
However, in the recursive neural network, the output of the hidden layer of the neural network changes depending on the input word string, and this must be recorded in the node when the hypothesis is developed. Therefore, in the present embodiment, the above-described node structure is expanded as shown in FIG.
FIG. 6 is a diagram illustrating a data structure of expanded node data. As shown in the figure, “layer hidden_layer” for setting the output of the hidden layer is added to the data structure shown in FIG.
一方、1つのノードに1つの隠れ層の出力をもたせるには、着目しているノードに接続する複数のノードのいずれか1つを選択する必要がある。例えば、図5のノードn4に対しては、ノードn1からノードn3までのノードが接続しており、隠れ層の出力hn1,hn2,hn3のいずれかを入力とした隠れ層の出力をノードn4に記録する必要がある。本実施形態では、ノードn4が参照するノードn1からノードn3のうち、スコアが最大となる経路のノードの隠れ層の出力を、再帰的ニューラルネットワークにおけるノードn4の入力となる隠れ層の出力ht−1とする。 On the other hand, in order to give one node the output of one hidden layer, it is necessary to select one of a plurality of nodes connected to the focused node. For example, the node n 4 in FIG. 5 is connected to nodes from the node n 1 to the node n 3 and has one of the hidden layer outputs h n1 , h n2 , and h n3 as an input. it is necessary to record the output of the node n 4. In the present embodiment, among the nodes n 1 to node n 4 refers node n 3, the output of the hidden layer nodes of the path score is maximum, the hidden layer as an input node n 4 in the recursive neural network Output ht-1 .
入力音声認識部44は、音響モデル記憶部41に記憶されている音響モデル、言語モデル記憶部42に記憶されている言語モデルデータD2が示す言語モデル、誤り修正モデル記憶部43に記憶されている誤り修正モデルデータD5が示す誤り修正モデルを用いて入力音声データD6を認識する。入力音声認識部44は、図6に示すデータ構造のノードデータに設定されている誤り修正モデルのスコアに基づいて最もスコアがよい文仮説を選択し、選択した文仮説を音声認識結果として設定した入力音声認識結果データD7を出力する。これは、誤り修正モデル学習処理部30の音声認識部33の処理と同様であるが、音声認識結果データD4には、図6に示すノードデータの隠れ層の出力値を単語ごとに付加して出力する点が異なる。
The input
[4.3.1 ステップS7:入力音声の音声認識処理]
入力音声認識部44は、音声認識対象の音声データとして入力音声データD6が入力されると、言語モデル記憶部42に記憶されている言語モデル、及び音響モデル記憶部41に記憶されている音響モデルとを用いて、入力音声データD6の正解候補の単語列を得る。入力音声認識部44は、音声認識により得られた正解候補の単語列を構成する各単語(単語仮説)に対応したノードについて図6に示すデータ構造のノードデータを生成し、当該ノードの単語インデックスと、前ノード参照用ポインタを設定する。
[4.3.1 Step S7: Speech Recognition Processing of Input Speech]
When the input speech data D6 is input as speech recognition target speech data, the input
入力音声認識部44は、正解候補の単語列を構成する各単語について、音響モデルを用いて音響スコアを算出するとともに、言語モデル(重み係数行列Mh、Mo)を用いて式(8)、式(6)、及び式(7)により言語スコアを算出する。入力音声認識部44は、言語スコアを算出する際、式(8)の隠れ層の出力ht−1に、1つ前のノードのノードデータに設定されている隠れ層の出力を用いるが、1つ前のノードが複数ある場合には、スコアが最もよくなる経路となるノードの隠れ層の出力を用いる。また、入力音声認識部44は、式(8)の話題特徴量ベクトルvを、話題モデルデータD1から取得した話題モデル(非負行列W’)と、現在の入力音声データD6よりも前の入力音声データの音声認識結果から取得した単語頻度を表す単語ベクトルdとを用いて、式(10)により算出する。
The input
入力音声認識部44は、誤り修正モデル記憶部43から読み出した誤り修正モデルに従って、正解候補の単語列を構成する各単語について、音響スコア及び言語スコアと、言語スコアの算出において式(6)により算出された隠れ層の出力とを用いて、誤り修正モデルのスコアを算出する。入力音声認識部44は、ノードデータに音響スコア、言語スコア、及び誤り修正モデルのスコアと、隠れ層の出力とを設定する。入力音声認識部44は、誤り修正モデルのスコアが最もよくなる経路の正解候補の単語列を正解単語列として選択し、入力音声認識結果データD7に設定してリアルタイムに出力する。誤り修正モデルを用いることにより、入力音声認識部44は、入力音声データD6から得られた音声認識結果の選択における誤りを修正する。
In accordance with the error correction model read from the error correction
[5. 効果]
以上説明した本実施形態の誤り修正モデル学習装置10によれば、従来よりも長い文脈および話題を考慮した誤り修正モデルが構成可能となる。入力音声認識部44は、この誤り修正モデルを用いて音声認識を行うことにより、認識誤りが削減される。また、本実施形態の誤り修正モデル学習装置10は、大量に入手しやすいテキストデータを誤り修正モデルのモデルパラメータの学習の一部に用いているため、統計的に頑健なモデルとなり、認識誤りが削減される。
[5. effect]
According to the error correction
[6. その他]
なお、上述の誤り修正モデル学習装置10は、内部にコンピュータシステムを有している。そして、誤り修正モデル学習装置10の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。
[6. Others]
Note that the error correction
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
Further, the “computer system” includes a homepage providing environment (or display environment) if a WWW system is used.
The “computer-readable recording medium” refers to a storage device such as a flexible medium, a magneto-optical disk, a portable medium such as a ROM and a CD-ROM, and a hard disk incorporated in a computer system. Furthermore, the “computer-readable recording medium” dynamically holds a program for a short time like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. In this case, a volatile memory in a computer system serving as a server or a client in that case, and a program that holds a program for a certain period of time are also included. The program may be a program for realizing a part of the functions described above, and may be a program capable of realizing the functions described above in combination with a program already recorded in a computer system.
10 誤り修正モデル学習装置
20 言語モデル学習処理部
21 言語資源記憶部
22 話題モデル学習部
23 言語モデル学習部
30 誤り修正モデル学習処理部
31 音声資源記憶部
32 整列部
33 音声認識部
34 素性定義部
35 誤り修正モデル学習部
40 音声認識処理部
41 音響モデル記憶部
42 言語モデル記憶部
43 誤り修正モデル記憶部
44 入力音声認識部
DESCRIPTION OF
Claims (7)
再帰的ニューラルネットワークの入力に、前記言語資源記憶部に記憶されている前記テキストデータにおける文章中の単語と、前記テキストデータにおける前記文章よりも前の文章から抽出した話題特徴量と、前記単語の前の単語について算出した前記再帰的ニューラルネットワークの隠れ層の出力とを用いて前記単語に後続する単語の接続確率を算出する言語モデルを学習する言語モデル学習部と、
音声データと正解単語列とを対応付けて記憶する音声資源記憶部と、
前記音声資源記憶部に記憶される前記音声データに対して前記正解単語列を整列し、整列した前記正解単語列を構成する各単語を、前記言語モデル学習部が学習した前記言語モデルの入力としたときの前記再帰的ニューラルネットワークの隠れ層の出力を算出する整列部と、
前記音声資源記憶部に記憶されている前記音声データを音声認識し、音声認識により得られた音声認識結果を構成する各単語を、前記言語モデル学習部が学習した前記言語モデルの入力としたときの前記再帰的ニューラルネットワークの隠れ層の出力を算出する音声認識部と、
整列された前記正解単語列に含まれる単語と前記音声認識結果に含まれる単語とから言語的な特徴を抽出する素性定義部と、
隠れ層の出力及びモデルパラメータにより重み付けした言語的な特徴を用いて音声認識のスコアを修正するための誤り修正モデルを、整列された前記正解単語列を構成する各単語について算出された前記隠れ層の出力により重み付けした当該単語の前記言語的な特徴と、前記音声認識結果を構成する各単語について算出された前記隠れ層の出力により重み付けした当該単語の前記言語的な特徴とに基づいて学習する誤り修正モデル学習部と、
を備えることを特徴とする誤り修正モデル学習装置。 A language resource storage unit for storing text data of the document;
Input to a recursive neural network is a word in a sentence in the text data stored in the language resource storage unit, a topic feature amount extracted from a sentence before the sentence in the text data, and the word A language model learning unit that learns a language model that calculates a connection probability of a word following the word using an output of a hidden layer of the recursive neural network calculated for a previous word;
A voice resource storage unit that stores voice data and correct word strings in association with each other;
The correct word string is aligned with the sound data stored in the sound resource storage unit, and each word constituting the aligned correct word string is input to the language model learned by the language model learning unit. An alignment unit that calculates the output of the hidden layer of the recursive neural network when
When the speech data stored in the speech resource storage unit is speech-recognized, and each word constituting the speech recognition result obtained by speech recognition is used as the input of the language model learned by the language model learning unit A speech recognition unit that calculates an output of a hidden layer of the recursive neural network of
A feature defining unit that extracts linguistic features from the words included in the aligned correct word strings and the words included in the speech recognition result;
An error correction model for correcting a speech recognition score using a linguistic feature weighted by an output of a hidden layer and model parameters, and the hidden layer calculated for each word constituting the aligned correct word string Learning based on the linguistic feature of the word weighted by the output of the word and the linguistic feature of the word weighted by the output of the hidden layer calculated for each word constituting the speech recognition result An error correction model learning unit;
An error correction model learning device comprising:
ことを特徴とする請求項1に記載の誤り修正モデル学習装置。 The error correction model learning unit sets the model parameter so that an evaluation function determined by a difference between a posterior probability of the correct word string and a posterior probability of the speech recognition result when the speech data is given is maximized. Statistically calculated,
The error correction model learning device according to claim 1.
ことを特徴とする請求項1または請求項2に記載の誤り修正モデル学習装置。 The topic feature amount input together with the word to the recursive neural network is extracted by a statistical dimension compression method from the appearance frequency of each word included in the utterance or sentence before the utterance or sentence including the word. The
The error correction model learning device according to claim 1 or 2, wherein
ことを特徴とする請求項1から請求項3のいずれか1項に記載の誤り修正モデル学習装置。 The text data stored in the language resource storage unit is text data of a news manuscript or text data on the web.
The error correction model learning device according to any one of claims 1 to 3, wherein
前記誤り修正モデルは、前記言語的な特徴に基づく素性関数の値を、前記再帰的ニューラルネットワークの隠れ層の出力及び前記素性関数のモデルパラメータにより重み付けして得られたスコアにより音声認識のスコアを修正する算出式である、
ことを特徴とする請求項1から請求項4のいずれか1項に記載の誤り修正モデル学習装置。 The linguistic feature is a word or a part of speech of the word;
The error correction model has a speech recognition score based on a score obtained by weighting a value of a feature function based on the linguistic feature with an output of a hidden layer of the recursive neural network and a model parameter of the feature function. The calculation formula to be corrected,
The error correction model learning device according to claim 1, wherein the error correction model learning device is one of the following.
ことを特徴とする請求項1から請求項5のいずれか1項に記載の誤り修正モデル学習装置。 The input speech data is speech-recognized using an acoustic model and the language model learned by the language model learning unit, and the error correction model learned by the error correction model learning unit is inputted by the error correction model. An input speech recognition unit for correcting and outputting an error in selection of a speech recognition result obtained from speech data;
The error correction model learning device according to claim 1, wherein
再帰的ニューラルネットワークの入力に、言語資源記憶手段に記憶されているテキストデータにおける文章中の単語と、前記テキストデータにおける前記文章よりも前の文章から抽出した話題特徴量と、前記単語の前の単語について算出した前記再帰的ニューラルネットワークの隠れ層の出力とを用いて前記単語に後続する単語の接続確率を算出する言語モデルを学習する言語モデル学習手段と、
音声資源記憶手段に音声データと対応付けて記憶される正解単語列を、前記音声データに対して整列し、整列した前記正解単語列を構成する各単語を、前記言語モデル学習手段が学習した前記言語モデルの入力としたときの前記再帰的ニューラルネットワークの隠れ層の出力を算出する整列手段と、
前記音声資源記憶手段に記憶されている前記音声データを音声認識し、音声認識により得られた音声認識結果を構成する各単語を、前記言語モデル学習手段が学習した前記言語モデルの入力としたときの前記再帰的ニューラルネットワークの隠れ層の出力を算出する音声認識手段と、
整列された前記正解単語列に含まれる単語と前記音声認識結果に含まれる単語とから言語的な特徴を抽出する特徴量抽出手段と、
隠れ層の出力及びモデルパラメータにより重み付けした言語的な特徴を用いて音声認識のスコアを修正するための誤り修正モデルを、整列された前記正解単語列を構成する各単語について算出された前記隠れ層の出力により重み付けした当該単語の前記言語的な特徴と、前記音声認識結果を構成する各単語について算出された前記隠れ層の出力により重み付けした当該単語の前記言語的な特徴とに基づいて学習する誤り修正モデル学習手段と、
を具備する誤り修正モデル学習装置として機能させるためのプログラム。 Computer
The input in the recursive neural network includes a word in the text in the text data stored in the language resource storage means, a topic feature amount extracted from the text before the text in the text data, and a word before the word Language model learning means for learning a language model for calculating a connection probability of a word following the word using an output of a hidden layer of the recursive neural network calculated for the word;
The correct word string stored in association with the voice data in the voice resource storage means is aligned with the voice data, and the language model learning means has learned each word constituting the aligned correct word string. Alignment means for calculating the output of the hidden layer of the recursive neural network as input of the language model;
When the speech data stored in the speech resource storage means is speech-recognized, and each word constituting the speech recognition result obtained by speech recognition is used as the input of the language model learned by the language model learning means Speech recognition means for calculating the output of the hidden layer of the recursive neural network of
Feature quantity extraction means for extracting linguistic features from the words included in the aligned correct word strings and the words included in the speech recognition results;
An error correction model for correcting a speech recognition score using a linguistic feature weighted by an output of a hidden layer and model parameters, and the hidden layer calculated for each word constituting the aligned correct word string Learning based on the linguistic feature of the word weighted by the output of the word and the linguistic feature of the word weighted by the output of the hidden layer calculated for each word constituting the speech recognition result An error correction model learning means;
A program for functioning as an error correction model learning device comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013213106A JP6222821B2 (en) | 2013-10-10 | 2013-10-10 | Error correction model learning device and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013213106A JP6222821B2 (en) | 2013-10-10 | 2013-10-10 | Error correction model learning device and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015075706A true JP2015075706A (en) | 2015-04-20 |
JP6222821B2 JP6222821B2 (en) | 2017-11-01 |
Family
ID=53000588
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013213106A Expired - Fee Related JP6222821B2 (en) | 2013-10-10 | 2013-10-10 | Error correction model learning device and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6222821B2 (en) |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015152661A (en) * | 2014-02-12 | 2015-08-24 | 日本電信電話株式会社 | Weighted finite state automaton creation device, symbol string conversion device, voice recognition device, methods thereof and programs |
CN106373561A (en) * | 2015-07-24 | 2017-02-01 | 三星电子株式会社 | Apparatus and method of acoustic score calculation and speech recognition |
JP2017111190A (en) * | 2015-12-14 | 2017-06-22 | 株式会社日立製作所 | Interactive text summarization apparatus and method |
JP2017117045A (en) * | 2015-12-22 | 2017-06-29 | 日本電信電話株式会社 | Method, device, and program for language probability calculation |
JP2018021949A (en) * | 2016-08-01 | 2018-02-08 | 日本電信電話株式会社 | Word prediction device and program |
JP2018028872A (en) * | 2016-08-19 | 2018-02-22 | ヤフー株式会社 | Learning device, method for learning, program parameter, and learning program |
JP2018084627A (en) * | 2016-11-22 | 2018-05-31 | 日本放送協会 | Language model learning device and program thereof |
CN108630198A (en) * | 2017-03-23 | 2018-10-09 | 三星电子株式会社 | Method and apparatus for training acoustic model |
JP2019046188A (en) * | 2017-09-01 | 2019-03-22 | 日本電信電話株式会社 | Sentence generation device, sentence generation learning device, sentence generation method, and program |
JP2019091172A (en) * | 2017-11-13 | 2019-06-13 | 日本電信電話株式会社 | Phrase structure learning device, phrase structure analysis device and method, and program |
US10410624B2 (en) | 2016-03-17 | 2019-09-10 | Kabushiki Kaisha Toshiba | Training apparatus, training method, and computer program product |
WO2020035998A1 (en) * | 2018-08-17 | 2020-02-20 | 日本電信電話株式会社 | Language-model-score calculation device, learning device, method for calculating language model score, learning method, and program |
JP2020030367A (en) * | 2018-08-24 | 2020-02-27 | 日本放送協会 | Voice recognition result formatted model learning device and its program |
JP2020034704A (en) * | 2018-08-29 | 2020-03-05 | 富士通株式会社 | Text generation device, text generation program and text generation method |
US10679612B2 (en) | 2017-01-04 | 2020-06-09 | Samsung Electronics Co., Ltd. | Speech recognizing method and apparatus |
CN111382297A (en) * | 2018-12-29 | 2020-07-07 | 杭州海康存储科技有限公司 | Method and device for reporting user data of user side |
CN111435408A (en) * | 2018-12-26 | 2020-07-21 | 阿里巴巴集团控股有限公司 | Dialog error correction method and device and electronic equipment |
WO2020189235A1 (en) * | 2019-03-20 | 2020-09-24 | 国立大学法人大阪大学 | Trained model, control device, friction stir welding system, neural network system, and method for generating trained model |
WO2020196021A1 (en) * | 2019-03-28 | 2020-10-01 | ソニー株式会社 | Information processing device, information processing method, and program |
CN111737980A (en) * | 2020-06-22 | 2020-10-02 | 桂林电子科技大学 | Method for correcting English text word use errors |
CN111833845A (en) * | 2020-07-31 | 2020-10-27 | 平安科技(深圳)有限公司 | Multi-language speech recognition model training method, device, equipment and storage medium |
CN112287670A (en) * | 2020-11-18 | 2021-01-29 | 北京明略软件系统有限公司 | Text error correction method, system, computer device and readable storage medium |
WO2021029643A1 (en) * | 2019-08-13 | 2021-02-18 | Samsung Electronics Co., Ltd. | System and method for modifying speech recognition result |
CN112435671A (en) * | 2020-11-11 | 2021-03-02 | 深圳市小顺智控科技有限公司 | Intelligent voice control method and system for accurately recognizing Chinese |
US10964313B2 (en) | 2016-03-17 | 2021-03-30 | Kabushiki Kaisha Toshiba | Word score calculation device, word score calculation method, and computer program product |
JPWO2021166129A1 (en) * | 2020-02-19 | 2021-08-26 | ||
US11514916B2 (en) | 2019-08-13 | 2022-11-29 | Samsung Electronics Co., Ltd. | Server that supports speech recognition of device, and operation method of the server |
US11532310B2 (en) | 2019-08-13 | 2022-12-20 | Samsung Electronics Co., Ltd. | System and method for recognizing user's speech |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210044559A (en) | 2019-10-15 | 2021-04-23 | 삼성전자주식회사 | Method and device for determining output token |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005284209A (en) * | 2004-03-31 | 2005-10-13 | Kddi Corp | Speech recognition system |
JP2013117683A (en) * | 2011-12-05 | 2013-06-13 | Nippon Hoso Kyokai <Nhk> | Voice recognizer, error tendency learning method and program |
-
2013
- 2013-10-10 JP JP2013213106A patent/JP6222821B2/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005284209A (en) * | 2004-03-31 | 2005-10-13 | Kddi Corp | Speech recognition system |
JP2013117683A (en) * | 2011-12-05 | 2013-06-13 | Nippon Hoso Kyokai <Nhk> | Voice recognizer, error tendency learning method and program |
Non-Patent Citations (1)
Title |
---|
内山 徹: "リカレントニューラルネットワーク予測モデルを用いた不特定話者単語音声認識", 電子情報通信学会論文誌(J83−D−II) 第2号, vol. p.776-783, JPN6017033301, 25 February 2000 (2000-02-25), JP, ISSN: 0003631934 * |
Cited By (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015152661A (en) * | 2014-02-12 | 2015-08-24 | 日本電信電話株式会社 | Weighted finite state automaton creation device, symbol string conversion device, voice recognition device, methods thereof and programs |
CN106373561A (en) * | 2015-07-24 | 2017-02-01 | 三星电子株式会社 | Apparatus and method of acoustic score calculation and speech recognition |
CN106373561B (en) * | 2015-07-24 | 2021-11-30 | 三星电子株式会社 | Apparatus and method for acoustic score calculation and speech recognition |
JP2017111190A (en) * | 2015-12-14 | 2017-06-22 | 株式会社日立製作所 | Interactive text summarization apparatus and method |
JP2017117045A (en) * | 2015-12-22 | 2017-06-29 | 日本電信電話株式会社 | Method, device, and program for language probability calculation |
US10410624B2 (en) | 2016-03-17 | 2019-09-10 | Kabushiki Kaisha Toshiba | Training apparatus, training method, and computer program product |
US10964313B2 (en) | 2016-03-17 | 2021-03-30 | Kabushiki Kaisha Toshiba | Word score calculation device, word score calculation method, and computer program product |
JP2018021949A (en) * | 2016-08-01 | 2018-02-08 | 日本電信電話株式会社 | Word prediction device and program |
JP2018028872A (en) * | 2016-08-19 | 2018-02-22 | ヤフー株式会社 | Learning device, method for learning, program parameter, and learning program |
JP2018084627A (en) * | 2016-11-22 | 2018-05-31 | 日本放送協会 | Language model learning device and program thereof |
US10679612B2 (en) | 2017-01-04 | 2020-06-09 | Samsung Electronics Co., Ltd. | Speech recognizing method and apparatus |
CN108630198A (en) * | 2017-03-23 | 2018-10-09 | 三星电子株式会社 | Method and apparatus for training acoustic model |
CN108630198B (en) * | 2017-03-23 | 2024-04-02 | 三星电子株式会社 | Method and apparatus for training an acoustic model |
JP2019046188A (en) * | 2017-09-01 | 2019-03-22 | 日本電信電話株式会社 | Sentence generation device, sentence generation learning device, sentence generation method, and program |
JP2019091172A (en) * | 2017-11-13 | 2019-06-13 | 日本電信電話株式会社 | Phrase structure learning device, phrase structure analysis device and method, and program |
JP2020027224A (en) * | 2018-08-17 | 2020-02-20 | 日本電信電話株式会社 | Apparatus for calculating language model score, learning apparatus, method for calculating language model score, learning method, and program |
WO2020035998A1 (en) * | 2018-08-17 | 2020-02-20 | 日本電信電話株式会社 | Language-model-score calculation device, learning device, method for calculating language model score, learning method, and program |
JP2020030367A (en) * | 2018-08-24 | 2020-02-27 | 日本放送協会 | Voice recognition result formatted model learning device and its program |
JP7190283B2 (en) | 2018-08-24 | 2022-12-15 | 日本放送協会 | Speech recognition result shaping model learning device and its program |
JP2020034704A (en) * | 2018-08-29 | 2020-03-05 | 富士通株式会社 | Text generation device, text generation program and text generation method |
US10984247B2 (en) | 2018-08-29 | 2021-04-20 | Fujitsu Limited | Accurate correction of errors in text data based on learning via a neural network |
JP7210938B2 (en) | 2018-08-29 | 2023-01-24 | 富士通株式会社 | Text generation device, text generation program and text generation method |
CN111435408B (en) * | 2018-12-26 | 2023-04-18 | 阿里巴巴集团控股有限公司 | Dialog error correction method and device and electronic equipment |
CN111435408A (en) * | 2018-12-26 | 2020-07-21 | 阿里巴巴集团控股有限公司 | Dialog error correction method and device and electronic equipment |
CN111382297B (en) * | 2018-12-29 | 2024-05-17 | 杭州海康存储科技有限公司 | User side user data reporting method and device |
CN111382297A (en) * | 2018-12-29 | 2020-07-07 | 杭州海康存储科技有限公司 | Method and device for reporting user data of user side |
WO2020189235A1 (en) * | 2019-03-20 | 2020-09-24 | 国立大学法人大阪大学 | Trained model, control device, friction stir welding system, neural network system, and method for generating trained model |
WO2020196021A1 (en) * | 2019-03-28 | 2020-10-01 | ソニー株式会社 | Information processing device, information processing method, and program |
WO2021029643A1 (en) * | 2019-08-13 | 2021-02-18 | Samsung Electronics Co., Ltd. | System and method for modifying speech recognition result |
US11514916B2 (en) | 2019-08-13 | 2022-11-29 | Samsung Electronics Co., Ltd. | Server that supports speech recognition of device, and operation method of the server |
US11521619B2 (en) | 2019-08-13 | 2022-12-06 | Samsung Electronics Co., Ltd. | System and method for modifying speech recognition result |
US11532310B2 (en) | 2019-08-13 | 2022-12-20 | Samsung Electronics Co., Ltd. | System and method for recognizing user's speech |
WO2021166129A1 (en) * | 2020-02-19 | 2021-08-26 | 日本電気株式会社 | Speech recognition device, control method, and program |
JPWO2021166129A1 (en) * | 2020-02-19 | 2021-08-26 | ||
CN111737980A (en) * | 2020-06-22 | 2020-10-02 | 桂林电子科技大学 | Method for correcting English text word use errors |
CN111737980B (en) * | 2020-06-22 | 2023-05-16 | 桂林电子科技大学 | Correction method for use errors of English text words |
CN111833845B (en) * | 2020-07-31 | 2023-11-24 | 平安科技(深圳)有限公司 | Multilingual speech recognition model training method, device, equipment and storage medium |
CN111833845A (en) * | 2020-07-31 | 2020-10-27 | 平安科技(深圳)有限公司 | Multi-language speech recognition model training method, device, equipment and storage medium |
CN112435671A (en) * | 2020-11-11 | 2021-03-02 | 深圳市小顺智控科技有限公司 | Intelligent voice control method and system for accurately recognizing Chinese |
CN112435671B (en) * | 2020-11-11 | 2021-06-29 | 深圳市小顺智控科技有限公司 | Intelligent voice control method and system for accurately recognizing Chinese |
CN112287670A (en) * | 2020-11-18 | 2021-01-29 | 北京明略软件系统有限公司 | Text error correction method, system, computer device and readable storage medium |
Also Published As
Publication number | Publication date |
---|---|
JP6222821B2 (en) | 2017-11-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6222821B2 (en) | Error correction model learning device and program | |
US11238845B2 (en) | Multi-dialect and multilingual speech recognition | |
US11586930B2 (en) | Conditional teacher-student learning for model training | |
US11264044B2 (en) | Acoustic model training method, speech recognition method, acoustic model training apparatus, speech recognition apparatus, acoustic model training program, and speech recognition program | |
US11580145B1 (en) | Query rephrasing using encoder neural network and decoder neural network | |
KR101780760B1 (en) | Speech recognition using variable-length context | |
US20200082808A1 (en) | Speech recognition error correction method and apparatus | |
US8494847B2 (en) | Weighting factor learning system and audio recognition system | |
JP5932869B2 (en) | N-gram language model unsupervised learning method, learning apparatus, and learning program | |
JP6047364B2 (en) | Speech recognition apparatus, error correction model learning method, and program | |
Masumura et al. | Large context end-to-end automatic speech recognition via extension of hierarchical recurrent encoder-decoder models | |
WO2016167779A1 (en) | Speech recognition device and rescoring device | |
CN111462751A (en) | Method, apparatus, computer device and storage medium for decoding voice data | |
JP6810580B2 (en) | Language model learning device and its program | |
JP6031316B2 (en) | Speech recognition apparatus, error correction model learning method, and program | |
JP2014077882A (en) | Speech recognition device, error correction model learning method and program | |
CN112669845A (en) | Method and device for correcting voice recognition result, electronic equipment and storage medium | |
CN112767921A (en) | Voice recognition self-adaption method and system based on cache language model | |
US12094453B2 (en) | Fast emit low-latency streaming ASR with sequence-level emission regularization utilizing forward and backward probabilities between nodes of an alignment lattice | |
US20210049324A1 (en) | Apparatus, method, and program for utilizing language model | |
JP6366166B2 (en) | Speech recognition apparatus and program | |
JP6300394B2 (en) | Error correction model learning device and program | |
Song et al. | Exploiting different word clusterings for class-based RNN language modeling in speech recognition | |
JP2013117683A (en) | Voice recognizer, error tendency learning method and program | |
JP2018031812A (en) | Sound data processor, method for processing sound data, and sound data processing program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160829 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170818 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170905 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171002 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6222821 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |