JP2014119559A - Speech recognition device, error correction model learning method, and program - Google Patents
Speech recognition device, error correction model learning method, and program Download PDFInfo
- Publication number
- JP2014119559A JP2014119559A JP2012273707A JP2012273707A JP2014119559A JP 2014119559 A JP2014119559 A JP 2014119559A JP 2012273707 A JP2012273707 A JP 2012273707A JP 2012273707 A JP2012273707 A JP 2012273707A JP 2014119559 A JP2014119559 A JP 2014119559A
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- speech
- error
- feature
- tendency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012937 correction Methods 0.000 title claims abstract description 84
- 238000000034 method Methods 0.000 title claims description 32
- 230000006870 function Effects 0.000 claims description 94
- 238000011156 evaluation Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000014509 gene expression Effects 0.000 description 13
- 238000007796 conventional method Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 238000013518 transcription Methods 0.000 description 4
- 230000035897 transcription Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 235000002566 Capsicum Nutrition 0.000 description 2
- 239000006002 Pepper Substances 0.000 description 2
- 241000722363 Piper Species 0.000 description 2
- 235000016761 Piper aduncum Nutrition 0.000 description 2
- 235000017804 Piper guineense Nutrition 0.000 description 2
- 235000008184 Piper nigrum Nutrition 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010411 cooking Methods 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 150000003839 salts Chemical class 0.000 description 2
- 238000010183 spectrum analysis Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 235000012041 food component Nutrition 0.000 description 1
- 239000005417 food ingredient Substances 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 235000015277 pork Nutrition 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
本発明は、音声認識装置、誤り修正モデル学習方法、及びプログラムに関する。 The present invention relates to a speech recognition device, an error correction model learning method, and a program.
音声認識の誤り修正については、音声とその書き起こし(正解文)から、言語的な特徴を用いて音声認識の誤り傾向を統計的に学習し、学習の結果得られた統計的な誤り修正モデルを用いて音声認識の性能改善を図る技術がある(例えば、非特許文献1参照)。また、正解単語列のない学習データから誤り修正モデルを学習し、音声認識性能の改善を図る技術がある(例えば、非特許文献2参照)。 For error correction in speech recognition, statistical error correction models obtained as a result of learning by statistically learning the tendency of speech recognition errors using linguistic features from speech and transcriptions (correct sentences) There is a technology for improving the performance of speech recognition by using (see, for example, Non-Patent Document 1). In addition, there is a technique for learning an error correction model from learning data without a correct word string and improving speech recognition performance (for example, see Non-Patent Document 2).
放送番組などの音声認識では、連続した複数の発話を逐次音声認識するが、音声認識が処理している発話の内容は、すでに音声認識の終わった直前の発話内容と関連することが多い。例えば、料理番組では、食材の紹介についての発話があれば、その後は料理方法に関する発話が続くと期待される。つまり、食材に関する単語とその料理方法に関する単語は、隣接する発話において共起する可能性が高い。例えば、「豚ヒレをたたきます」という発話の後に、「次に塩こしょうします」という発話が続くのであれば、「豚ヒレ」と「塩こしょう」の間に関係があり、これらが共起しやすいということになる。
しかし、非特許文献1、2に示す従来の誤り修正モデルのモデルパラメータ学習では、発話の順序に関係した発話間の単語の共起などの情報は考慮されていないため、発話内容を正しく予測する上で最適なモデルとはなっていない。
また、非特許文献1では、従来の誤り修正モデルの学習に際して、大量の音声データとその音声データの書き起こしである正解単語列が必要となる。統計的に頑健なモデルを推定するには、大量の学習データが必要となるが、書き起こしを作成するためのコストは高くつくという欠点がある。
In speech recognition for broadcast programs and the like, a plurality of continuous utterances are successively recognized, but the content of the utterance being processed by the speech recognition is often related to the utterance content immediately before speech recognition is finished. For example, in a cooking program, if there is an utterance about the introduction of ingredients, it is expected that the utterance about the cooking method will continue thereafter. That is, there is a high possibility that words related to food ingredients and words related to the cooking method co-occur in adjacent utterances. For example, if the utterance of “pick a pork fin” is followed by the utterance of “next salt and pepper”, there is a relationship between “pig fin” and “salt pepper”, and these are co-occurring It will be easy to do.
However, in the conventional error correction model model parameter learning shown in Non-Patent Documents 1 and 2, information such as word co-occurrence between utterances related to the utterance order is not taken into account, so the utterance content is correctly predicted. It is not the optimal model above.
In Non-Patent Document 1, when learning a conventional error correction model, a large amount of speech data and a correct word string that is a transcription of the speech data are required. Estimating a statistically robust model requires a large amount of learning data, but has the disadvantage that the cost of creating a transcript is high.
本発明は、このような事情を考慮してなされたもので、時間的に異なる発話の音声認識結果から引き出した発話間の関係性を利用し、コストを抑えながら誤り修正モデルを最適化する音声認識装置、誤り修正モデル学習方法、及びプログラムを提供する。 The present invention has been made in consideration of such circumstances, and uses the relationship between utterances derived from speech recognition results of utterances that differ in time, and optimizes the error correction model while reducing costs. A recognition device, an error correction model learning method, and a program are provided.
[1] 本発明の一態様は、発話の音声データを音声認識して得られた音声認識結果を、発話の順序を保持して格納する音声言語資源格納部と、前記音声認識結果に含まれる単語と当該音声認識結果よりも過去の発話の前記音声認識結果に含まれる単語とから発話の順序に応じた言語的な特徴を取得し、取得した前記言語的な特徴を前記過去の発話の前記音声認識結果の事後確率に応じて重み付けし、重み付けした前記言語的な特徴に基づいて単語の認識誤りの傾向を統計的に学習し、学習した前記認識誤りの傾向を修正するための誤り修正モデルを生成する誤り傾向学習部と、を備えることを特徴とする音声認識装置である。
この発明によれば、音声認識装置は、発話の音声データを音声認識し、得られた音声認識結果に含まれる単語と、その音声認識結果よりも過去の発話の音声認識結果に含まれる単語とから、発話の順序に応じた言語的な特徴を抽出する。過去の発話の音声認識結果として、例えば、時間的に隣接した直近の過去の発話の音声認識結果を用いる。音声認識装置は、抽出した言語的な特徴を、その言語的な特徴が得られた過去の発話の音声認識結果の事後確率に応じて重み付けし、重み付けした言語的な特徴に基づいて単語の認識誤りの傾向を統計的に学習し、学習した認識誤りの傾向を修正するための誤り修正モデルを生成する。
これにより、時間的に異なる発話の音声認識結果から引き出した発話間の関係性を利用し、発話内容を正しく予測する上で好適な誤り修正モデルを生成することができるとともに、音声データの書き起こしにかかるコストを低減することができる。
[1] One aspect of the present invention is included in a speech language resource storage unit that stores speech recognition results obtained by speech recognition of speech speech data while retaining the order of speech, and the speech recognition results. A linguistic feature corresponding to the order of utterances is acquired from a word and a word included in the speech recognition result of a past utterance than the speech recognition result, and the acquired linguistic feature is used as the utterance of the past utterance. An error correction model for weighting according to the posterior probability of a speech recognition result, statistically learning a tendency of recognition error of a word based on the weighted linguistic feature, and correcting the tendency of the learned recognition error An error tendency learning unit for generating a speech recognition device.
According to the present invention, the speech recognition apparatus recognizes speech speech data, and includes words included in the obtained speech recognition result, and words included in speech recognition results of past utterances than the speech recognition result. Then, linguistic features corresponding to the order of utterances are extracted. As the speech recognition result of the past utterance, for example, the speech recognition result of the latest past utterance adjacent in time is used. The speech recognition device weights the extracted linguistic features according to the posterior probabilities of speech recognition results of past utterances from which the linguistic features were obtained, and recognizes words based on the weighted linguistic features. The error tendency is statistically learned, and an error correction model for correcting the learned recognition error tendency is generated.
This makes it possible to generate an error correction model suitable for correctly predicting the utterance content using the relationship between utterances derived from the speech recognition results of utterances that differ in time, and to transcribe speech data. Can reduce the cost.
[2] 本発明の一態様は、上述する音声認識装置であって、前記誤り傾向学習部は、重み付けした前記発話の順序に応じた言語的な特徴と、前記音声認識結果から得られる同一発話内の言語的な特徴とに基づいて単語の認識誤りの傾向を統計的に学習し、学習した認識誤りの傾向を修正するための誤り修正モデルを生成する、ことを特徴とする。
この発明によれば、音声認識装置は、時間的に異なる発話の音声認識結果から発話の順序に応じた言語的な特徴を抽出するとともに、各音声認識結果から同一発話内の言語的な特徴を抽出する。音声認識装置は、抽出したこれらの言語的な特徴に基づいて単語の認識誤りの傾向を統計的に学習し、学習した認識誤りの傾向を修正するための誤り修正モデルを生成する。
これにより、音声認識装置は、音声認識の対象となっている発話よりも過去の発話の内容から引き出した情報に加えて、同一の発話内の言語的特徴を利用して、認識誤りを精度よく修正する誤り修正モデルを生成することができる。
[2] One aspect of the present invention is the speech recognition apparatus described above, wherein the error tendency learning unit includes the same utterance obtained from the linguistic features according to the weighted utterance order and the speech recognition result. The tendency is to statistically learn the tendency of recognition errors of words based on the linguistic features, and to generate an error correction model for correcting the tendency of learned recognition errors.
According to this invention, the speech recognition device extracts linguistic features corresponding to the order of utterances from speech recognition results of utterances that differ in time, and linguistic features in the same utterance are extracted from each speech recognition result. Extract. The speech recognition apparatus statistically learns the tendency of recognition errors of words based on these extracted linguistic features, and generates an error correction model for correcting the tendency of learned recognition errors.
As a result, the speech recognition apparatus uses the linguistic features in the same utterance in addition to the information extracted from the content of the utterances past than the utterance that is the target of speech recognition, to accurately recognize the recognition error. An error correction model to be corrected can be generated.
[3] 本発明の一態様は、上述する音声認識装置であって、前記発話の順序に応じた言語的な特徴は、前記音声認識結果に含まれる単語と前記過去の発話の前記音声認識結果に含まれる単語との共起関係であり、前記同一発話内の言語的な特徴は、前記音声認識結果から得られる同一発話内の連続する複数の単語の共起関係、連続しない複数の単語の共起関係、単語の構文的な情報、または単語の意味的な情報のうち1以上である、ことを特徴とする。
この発明によれば、音声認識装置は、時間的に異なる発話の音声認識結果から得られる単語間の共起関係と、各音声認識結果から得られる同一発話内における単語の共起関係や構文的、意味的な情報とに基づいて単語の誤り傾向を統計的に学習し、学習した認識誤りの傾向を修正するための誤り修正モデルを生成する。
これにより、音声認識装置は、認識誤りを精度良く修正する誤り修正モデルを生成することができる。
[3] One aspect of the present invention is the speech recognition apparatus described above, wherein the linguistic feature according to the order of the utterances includes the words included in the speech recognition results and the speech recognition results of the past utterances. The linguistic features in the same utterance are co-occurrence relationships of a plurality of consecutive words in the same utterance obtained from the speech recognition result, It is one or more of co-occurrence relation, syntactic information of words, or semantic information of words.
According to this invention, the speech recognition apparatus is capable of co-occurrence relationships between words obtained from speech recognition results of utterances that differ in time, and word co-occurrence relationships and syntactical relationships in the same utterance obtained from each speech recognition result. Then, the error tendency of the word is statistically learned based on the semantic information, and an error correction model for correcting the tendency of the recognized recognition error is generated.
Thereby, the speech recognition apparatus can generate an error correction model that corrects a recognition error with high accuracy.
[4] 本発明の一態様は、上述する音声認識装置であって、前記誤り修正モデルは、前記過去の発話の前記音声認識結果の事後確率によって重み付けされた、前記発話の順序に応じた言語的な特徴に基づく第1の素性関数と、前記同一発話内の言語的な特徴に基づく第2の素性関数と、前記第1の素性関数及び前記第2の素性関数それぞれの素性重みとを用いて音声認識のスコアを修正する算出式であり、前記誤り傾向学習部は、前記音声認識結果及び前記過去の発話の前記音声認識結果から得られた前記第1の素性関数の値と、前記音声認識結果から得られた前記第2の素性関数の値と、同一の前記音声データから得られた複数の前記音声認識結果を比較して得られる単語誤りの数を前記音声認識結果の事後確率で重み付けした値とを用いて定められる評価関数により算出した評価値に基づいて前記素性重みを統計的に算出し、算出した前記素性重みを用いて前記誤り修正モデルを生成する、ことを特徴とする。
この発明によれば、誤り修正モデルは、過去の発話の音声認識結果の事後確率によって重み付けされた、発話の順序に応じた言語的な特徴を表わす素性関数と、同一発話内の言語的な特徴を表す素性関数と、それら素性関数の素性重みとにより、音声認識のスコアを修正する算出式である。音声認識装置は、時間的に異なる発話の音声認識結果や同一の発話の音声認識結果から得られた素性関数の値と、同一の発話の複数の音声認識結果を比較して得られる単語誤りの数を、その音声認識結果の事後確率で重み付けした値とを用いて定められる評価関数により算出した評価値が、最も認識誤りが少ないことを示す評価値となるように素性重みを決定し、誤り修正モデルを生成する。
これにより、音声認識装置は、認識誤り傾向を効率的に学習し、誤り修正モデルを生成することができる。
[4] One aspect of the present invention is the speech recognition device described above, wherein the error correction model is a language according to the order of the utterances weighted by the posterior probabilities of the speech recognition results of the past utterances. A first feature function based on a characteristic feature, a second feature function based on a linguistic feature in the same utterance, and a feature weight of each of the first feature function and the second feature function. A calculation formula for correcting a score of speech recognition, wherein the error tendency learning unit includes the speech recognition result and the value of the first feature function obtained from the speech recognition result of the past utterance, and the speech The number of word errors obtained by comparing the value of the second feature function obtained from the recognition result with a plurality of the speech recognition results obtained from the same speech data is expressed as the posterior probability of the speech recognition result. With weighted values The feature weight is statistically calculated on the basis of an evaluation value calculated by an evaluation function determined in such a manner, and the error correction model is generated using the calculated feature weight.
According to the present invention, the error correction model includes a feature function representing a linguistic feature according to the order of utterances weighted by a posteriori probability of a speech recognition result of a past utterance, and a linguistic feature within the same utterance. Is a calculation formula for correcting the score of speech recognition based on a feature function representing, and feature weights of these feature functions. The speech recognition apparatus detects a word error obtained by comparing the value of a feature function obtained from speech recognition results of different utterances or the same speech with a plurality of speech recognition results of the same utterance. The feature weight is determined so that the evaluation value calculated by the evaluation function determined using the value weighted by the posterior probability of the speech recognition result is the evaluation value indicating that there is the least recognition error. Generate a modified model.
Thereby, the speech recognition apparatus can learn the recognition error tendency efficiently and generate an error correction model.
[5] 本発明の一態様は、上述する音声認識装置であって、入力された音声データを音声認識し、前記誤り傾向学習部により生成された前記誤り修正モデルを用いて、前記入力された音声データから得られた音声認識結果の選択における誤りを修正する音声認識部をさらに備える、ことを特徴とする。
この発明によれば、音声認識装置は、音声データを音声認識することにより得られた正解候補の中から、誤り修正モデルを用いて音声認識結果を選択する。
これにより、音声認識装置は、認識率のよい音声認識結果を得ることができる。
[5] One aspect of the present invention is the speech recognition device described above, wherein the input speech data is speech-recognized, and the input is performed using the error correction model generated by the error tendency learning unit. It further comprises a speech recognition unit that corrects an error in selecting a speech recognition result obtained from speech data.
According to this invention, the speech recognition apparatus selects a speech recognition result using an error correction model from among correct answer candidates obtained by speech recognition of speech data.
Thereby, the speech recognition apparatus can obtain a speech recognition result with a good recognition rate.
[6] 本発明の一態様は、発話の音声データを音声認識して得られた音声認識結果を、発話の順序を保持して格納する音声言語資源格納過程と、前記音声認識結果に含まれる単語と当該音声認識結果よりも過去の発話の前記音声認識結果に含まれる単語とから発話の順序に応じた言語的な特徴を取得し、取得した前記言語的な特徴を前記過去の発話の前記音声認識結果の事後確率に応じて重み付けし、重み付けした前記言語的な特徴に基づいて単語の認識誤りの傾向を統計的に学習し、学習した前記認識誤りの傾向を修正するための誤り修正モデルを生成する誤り傾向学習過程と、を有することを特徴とする誤り修正モデル学習方法である。 [6] One aspect of the present invention is included in a speech language resource storage process of storing speech recognition results obtained by speech recognition of speech speech data while maintaining the order of speech, and the speech recognition results. A linguistic feature corresponding to the order of utterances is acquired from a word and a word included in the speech recognition result of a past utterance than the speech recognition result, and the acquired linguistic feature is used as the utterance of the past utterance. An error correction model for weighting according to the posterior probability of a speech recognition result, statistically learning a tendency of recognition error of a word based on the weighted linguistic feature, and correcting the tendency of the learned recognition error And an error tendency learning process for generating an error correction model learning method.
[7] 本発明の一態様は、コンピュータを、発話の音声データを音声認識して得られた音声認識結果を、発話の順序を保持して格納する音声言語資源格納手段と、前記音声認識結果に含まれる単語と当該音声認識結果よりも過去の発話の前記音声認識結果に含まれる単語とから発話の順序に応じた言語的な特徴を取得し、取得した前記言語的な特徴を前記過去の発話の前記音声認識結果の事後確率に応じて重み付けし、重み付けした前記言語的な特徴に基づいて単語の認識誤りの傾向を統計的に学習し、学習した前記認識誤りの傾向を修正するための誤り修正モデルを生成する誤り傾向学習手段と、を具備する音声認識装置として機能させるためのプログラムである。 [7] In one aspect of the present invention, a speech language resource storage unit that stores a speech recognition result obtained by speech recognition of speech speech data stored in a computer while maintaining a speech order, and the speech recognition result Linguistic features corresponding to the order of utterances are acquired from the words included in the speech recognition result and the words included in the speech recognition result of the past utterance than the speech recognition result, and the acquired linguistic feature is Weighting according to the posterior probability of the speech recognition result of utterance, statistically learning the tendency of recognition errors of words based on the weighted linguistic features, and correcting the tendency of the learned recognition errors An error tendency learning means for generating an error correction model is a program for functioning as a speech recognition apparatus.
本発明によれば、時間的に異なる発話の音声認識結果から引き出した発話間の関係性を利用し、音声データの書き起こしにかかるコストを低減しながら誤り修正モデルを最適化することが可能となる。 According to the present invention, it is possible to optimize an error correction model while reducing the cost of transcription of speech data by utilizing the relationship between speeches derived from speech recognition results of speeches that differ in time. Become.
以下、図面を参照しながら本発明の実施形態を詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
[1. 本実施形態の概要]
音声認識の誤り傾向を反映した誤り修正モデルはすでに考案されているが、この誤り修正モデルは、連続して発声される発話に対して、時間的に隣接する発話内容との関係性に基づく情報を利用したものではない。連続した発話では、直前の発話で使われた単語と関連する単語が含まれることが多い。従って、このような近接した発話間の単語のつながりを誤り修正モデルで利用すれば、音声認識の性能改善が期待される。
[1. Overview of this embodiment]
An error correction model that reflects the error tendency of speech recognition has already been devised, but this error correction model is information based on the relationship between utterances that are continuously uttered and temporally adjacent utterance contents. It is not something that uses. Consecutive utterances often include words related to the word used in the previous utterance. Therefore, if such a word connection between adjacent utterances is used in an error correction model, improvement in speech recognition performance is expected.
一方、誤り修正モデルを生成する際には一般に、音声とその書き起こしテキストである正解単語列を用いて音声認識の誤り傾向を学習する。書き起こしテキストは、人手により作成されるが、統計的モデルの頑健性を得るには大量の学習データが必要となるため、書き起こしの作成コストが高くつくという欠点がある。また、音声に対応する正解単語列が得られない場合、着目している発話の直前の発話の内容に関する情報は、認識誤りを含む複数の音声認識結果から獲得しなければならない。
そこで本実施形態の音声認識装置は、直近の発話内容についての複数の音声認識結果に含まれる言語的な特徴を利用して、音声認識性能を発話内容に適合させた誤り修正モデルを正解単語列なしに学習し、音声認識へ適用する。
On the other hand, when generating an error correction model, generally, an error tendency of speech recognition is learned using a correct word string which is a speech and a transcription text thereof. Transcripted text is created manually, but a large amount of learning data is required to obtain the robustness of the statistical model, so there is a drawback that the cost of creating the transcript is high. Further, when a correct word string corresponding to speech cannot be obtained, information on the content of the speech immediately before the speech of interest must be acquired from a plurality of speech recognition results including recognition errors.
Therefore, the speech recognition apparatus according to the present embodiment uses a linguistic feature included in a plurality of speech recognition results for the latest utterance content, and corrects an error correction model in which speech recognition performance is adapted to the utterance content as a correct word string. Learn without and apply it to speech recognition.
[2. 誤り修正モデルの学習アルゴリズム]
続いて、本発明の一実施形態による音声認識装置に適用される誤り修正モデルの学習アルゴリズムを説明する。
上述したように、本実施形態の音声認識装置は、従来の課題を解決するために、学習に用いる音声データに発話の順序関係を導入し、隣接する発話間の関係性を誤り修正モデルに取り入れ、正解単語列なしに誤り修正モデルを学習する。本実施形態と従来法の違いは、誤り修正モデルを学習する際のデータの扱い方である。
[2. Error correction model learning algorithm]
Subsequently, an error correction model learning algorithm applied to the speech recognition apparatus according to the embodiment of the present invention will be described.
As described above, in order to solve the conventional problem, the speech recognition apparatus according to the present embodiment introduces an utterance order relationship into speech data used for learning, and incorporates a relationship between adjacent utterances into an error correction model. The error correction model is learned without the correct word string. The difference between this embodiment and the conventional method is how to handle data when learning an error correction model.
図6は、従来法による誤り修正モデルの学習方法を示す図である。同図に示すように、従来法では、複数の発話から構成される学習データは、その順序関係を保存していない。加えて、従来法では、発話の正解単語列が学習データに含まれている。このように、音声認識の誤り傾向は、正解単語列を含み、かつ、順序関係が保持されていない学習データから学習される。 FIG. 6 is a diagram illustrating an error correction model learning method according to a conventional method. As shown in the figure, in the conventional method, the learning data composed of a plurality of utterances does not preserve the order relationship. In addition, in the conventional method, the correct word string of the utterance is included in the learning data. As described above, the error tendency of speech recognition is learned from learning data that includes a correct word string and does not maintain the order relation.
図1は、本実施形態による誤り修正モデルの学習方法を示す図である。同図に示すように、本実施形態では、音声認識結果のみを学習データとして用い、学習データの中の各発話の順序関係を考慮して時間的に隣接する発話間の関係を言語的な特徴として抽出し、誤り修正モデルの学習に利用する。これにより、隣接する発話間の関係が反映された誤り修正モデルが得られるため、従来法よりも音声認識性能を改善することが可能となる。また、正解単語列を必要としないため、従来法よりも誤り修正モデルの学習コストを抑えることができる。
このように、本実施形態の音声認識装置は、発話内容を正しく予測するための誤り修正モデルを、正解単語列のない音声認識結果と、直前の発話の音声認識結果とを用いて学習する。
FIG. 1 is a diagram illustrating an error correction model learning method according to the present embodiment. As shown in the figure, in this embodiment, only the speech recognition result is used as learning data, and the relationship between temporally adjacent utterances is considered in terms of linguistic features in consideration of the order relationship of each utterance in the learning data. And used for learning error correction models. As a result, an error correction model reflecting the relationship between adjacent utterances can be obtained, so that speech recognition performance can be improved as compared with the conventional method. In addition, since a correct word string is not required, the learning cost of the error correction model can be reduced as compared with the conventional method.
As described above, the speech recognition apparatus according to the present embodiment learns an error correction model for correctly predicting the utterance content by using the speech recognition result without the correct word string and the speech recognition result of the immediately preceding utterance.
[2.1 従来法の誤り修正モデル]
ベイズの定理によれば、音声入力xが与えられたとき、この音声入力xに対して最も尤もらしい単語列w^(「^」は、「ハット」を表す。)は、以下の式(1)により求めることができる。
[2.1 Error correction model of conventional method]
According to Bayes' theorem, when speech input x is given, the most likely word sequence w ^ (“^” represents “hat”) for this speech input x is expressed by the following equation (1). ).
音声入力x及び単語列wは、例えば、発話の単位に対応し、P(w|x)は、音声入力xが与えられたときに単語列(文仮説)wが得られる事後確率である。
また、P(x|w)は、単語列wに対する音響的な尤もらしさを示す尤度であり、そのスコア(音響スコア)は隠れマルコフモデル(Hidden Markov Model、HMM)及びガウス混合分布(Gaussian Mixture Model,GMM)に代表される統計的音響モデル(以下、「音響モデル」と記載する。)に基づいて計算される。言い換えれば、音響特徴量が与えられたとき、複数の正解候補の単語それぞれに対する尤もらしさを表すスコアが音響スコアである。
The voice input x and the word string w correspond to, for example, the unit of speech, and P (w | x) is a posterior probability that a word string (sentence hypothesis) w is obtained when the voice input x is given.
P (x | w) is a likelihood indicating acoustic likelihood for the word string w, and the score (acoustic score) is a hidden Markov model (HMM) and a Gaussian mixture distribution (Gaussian Mixture). It is calculated based on a statistical acoustic model (hereinafter referred to as “acoustic model”) typified by Model, GMM). In other words, when an acoustic feature amount is given, a score representing the likelihood of each of a plurality of correct candidate words is an acoustic score.
一方、P(w)は、単語列wに対する言語的な生成確率であり、そのスコア(言語スコア)は、単語n−gramモデル等の統計的言語モデル(以下、「言語モデル」と記載する。)により計算される。言い換えれば、音声認識対象の単語の前または後の単語列、あるいは前後両方の単語列が与えられたとき、複数の正解候補の単語列それぞれに対する尤もらしさを表すスコアが言語スコアである。なお、単語n−gramモデルは、N単語連鎖(Nは、例えば1、2、または3である。)の統計に基づいて、(N−1)単語の履歴から次の単語の生起確率を与えるモデルである。 On the other hand, P (w) is a linguistic generation probability for the word string w, and the score (language score) is described as a statistical language model (hereinafter, “language model”) such as a word n-gram model. ). In other words, when a word string before or after a speech recognition target word, or both word strings before and after the given word string, a score representing the likelihood of each of a plurality of correct answer word strings is a language score. The word n-gram model gives the occurrence probability of the next word from the history of the word (N-1) based on the statistics of N word chains (N is 1, 2, or 3, for example). It is a model.
以下の説明では、音響モデルにHMM−GMMを用い、言語モデルにn−gramを用いる。 In the following description, HMM-GMM is used for the acoustic model and n-gram is used for the language model.
式(1)のP(x|w)P(w)が最大の場合は、その対数も最大である。そこで、音声認識では、上記の式(1)のベイズの定理に基づいて、音声入力xが与えられたときの文仮説(正解候補)である単語列wの評価関数q(w|x)を以下の式(2)のように定める。 When P (x | w) P (w) in Equation (1) is maximum, the logarithm is also maximum. Therefore, in speech recognition, an evaluation function q (w | x) of a word string w, which is a sentence hypothesis (correct answer candidate) when a speech input x is given, based on the Bayes' theorem of the above equation (1). It is defined as the following formula (2).
式(2)において、fam(x|w)は、音響モデルによる単語列wの対数音響スコア、flm(w)は、言語モデルによる単語列wの対数言語スコア、λlmは、音響スコアに対する言語スコアの重みである。 In formula (2), f am (x | w) is a logarithmic acoustic score of the word sequence w according to the acoustic model, f lm (w) is a logarithmic language score of the word sequence w according to the language model, and λ lm is an acoustic score Is the weight of the language score for.
式(2)が定められたとき、以下の式(3)に示すように、音声入力xに対する正解候補の単語列wの集合の中から、式(2)が示す評価関数q(w|x)の結果が最大である単語列w^が、音声入力xの音声認識結果として選択される。 When the formula (2) is determined, as shown in the following formula (3), the evaluation function q (w | x) represented by the formula (2) is selected from the set of correct candidate word strings w for the speech input x. ) Is selected as the speech recognition result of speech input x.
従来法における誤り修正モデルでは、最尤仮説を以下の式(4)により求める。 In the error correction model in the conventional method, the maximum likelihood hypothesis is obtained by the following equation (4).
式(4)におけるΣiλifi(w)は、単語列wの誤り傾向を反映したスコアであり、単語列wに対するペナルティもしくは報償として働く。また、fi(w)(i=1,...,)はi番目の素性関数、λiは素性関数fi(w)の重み(素性重み)である。素性関数は、与えられた単語列(ここでは、単語列w)で言語的ルールが成立すればその数となり、成立しなければ0となるような関数として定められる。これらルールは、例えば、同一の発話内における連続する単語、連続しない2単語以上の単語の共起関係、単語の構文的な情報または意味的な情報、などの言語的特徴である。従来法における具体的な素性関数fiのルールの例として、以下があげられる。 Equation (4) in Σ i λ i f i (w ) is a score reflecting the error tendency of the word sequence w, act as a penalty or reward for the word sequence w. Further, f i (w) (i = 1,...) Is an i-th feature function, and λ i is a weight (feature weight) of the feature function f i (w). The feature function is defined as a function that becomes the number if a linguistic rule is established in a given word string (here, word string w), and is 0 if not established. These rules are, for example, linguistic features such as consecutive words in the same utterance, co-occurrence relationship of two or more words that are not consecutive, syntactic information or semantic information of words. Examples of rules specific feature function f i in the conventional method, and the like below.
例えば、単語の共起関係に基づく素性関数として、以下の(1)、(2)がある。 For example, there are the following (1) and (2) as feature functions based on the co-occurrence relationship of words.
(1)単語列wに連続する単語2項組(u,v)が含まれる場合、その数を返す関数
(2)単語列wに連続しない単語2項組(u,v)が含まれる場合、その数を返す関数
(1) When the word string w includes a continuous word binary set (u, v), a function that returns the number (2) When the word string w includes a non-continuous word binary set (u, v) , A function that returns the number
また、単語列wを構成する各単語を名詞や動詞といった品詞カテゴリ(構文情報)に置き換えた上で得られる、構文情報に基づく素性関数として、例えば以下の(3)、(4)がある。なお、c(・)は、単語を品詞にマッピングする関数である。 For example, the following (3) and (4) are feature functions based on syntax information obtained by replacing each word constituting the word string w with a part-of-speech category (syntax information) such as a noun or a verb. Note that c (•) is a function that maps words to parts of speech.
(3)単語列wに連続する品詞2項組(c(u),c(v))が含まれる場合、その数を返す関数
(4)単語列wに連続しない品詞2項組(c(u),c(v))が含まれる場合、その数を返す関数
(3) A function that returns the number of part-of-speech binaries (c (u), c (v)) that are consecutive in the word string w (4) A part-of-speech binary pair that is not consecutive in the word string w u), c (v)), a function that returns the number if it is included
あるいは、単語列wを構成する各単語を、意味情報を表すカテゴリ(意味カテゴリ)に置き換えた上で得られる、意味的な情報に基づく素性関数として、例えば以下の(5)、(6)がある。意味カテゴリは、本実施形態の音声認識装置が外部または内部に備えるデータベースに記憶されるシソーラスなどを用いて得ることができる。なお、s(・)は単語を意味カテゴリにマッピングする関数である。 Alternatively, for example, the following (5) and (6) are feature functions based on semantic information obtained by replacing each word constituting the word string w with a category (semantic category) representing semantic information. is there. The semantic category can be obtained by using a thesaurus stored in a database provided outside or inside the speech recognition apparatus of the present embodiment. Note that s (•) is a function that maps words to semantic categories.
(5)単語列wに連続する意味カテゴリ2項組(s(u),s(v))が含まれる場合、その数を返す関数
(6)単語列wに連続しない意味カテゴリ2項組(s(u),s(v))が含まれる場合、その数を返す関数
(5) A function that returns the number of semantic category binary groups (s (u), s (v)) that are consecutive in the word string w (6) A semantic category binary group that is not consecutive in the word string w ( a function that returns the number of s (u), s (v))
上記のように、音声認識の誤り傾向は、素性関数とその重みにより言語的な特徴に対するペナルティとして表現され、学習データの単語誤りを最小化する評価関数に基づいて推定される。つまり、従来の誤り傾向の学習とは、学習データを用いて式(4)の重みλiを求めることである。 As described above, an error tendency of speech recognition is expressed as a penalty for a linguistic feature by a feature function and its weight, and is estimated based on an evaluation function that minimizes a word error in learning data. That is, the conventional learning of error tendency is to obtain the weight λ i of Equation (4) using the learning data.
[2.2 本実施形態に適用される誤り修正モデルの学習アルゴリズム]
いま、着目している音声入力(発話)xmの音声認識結果の1つを単語列(文仮説)wm,kとする。また、その音声入力xmの直近の音声入力xm−1から、時間的に隣接する発話の音声認識結果として得られた単語列の集合をGm−1とする。この場合、音声入力xm、単語列の集合Gm−1が与えられたときの単語列wm,kの条件付き確率P(wm,k|xm,Gm−1)は、以下の式(5)のようになる。
[2.2 Learning algorithm of error correction model applied to this embodiment]
Now, paying attention to that voice input (speech) x m word column one of the speech recognition result of (Bunkasetsu) w m, and k. Further, to the nearest voice input x m-1 of the audio inputs x m, a set of word strings obtained as the speech recognition result of the speech temporally adjacent to G m-1. In this case, the conditional probability P (w m, k | x m , G m-1 ) of the word string w m, k when the speech input x m and the word string set G m-1 are given is as follows: Equation (5) is obtained.
ただし、式(5)の導出では、ベイズの定理と、集合Gm−1と音声入力xmが条件付き独立であることを利用している。また、式(5)において、単語列wm,lは、音声入力xmの音声認識結果として得られた複数の単語列である。
ここで、音声入力xmと、隣接する発話の音声認識結果として得られた単語列の集合Gm−1とが与えられたとき、入力に対して最も尤もらしい単語列w^は以下の式(6)となり、式(1)が変更されることに注意する。
However, the derivation of Equation (5) uses the Bayes' theorem and the fact that the set G m−1 and the speech input x m are conditionally independent. Further, in the expression (5), the word string w m, l is a plurality of word strings obtained as a voice recognition result of the voice input x m .
Here, when a speech input x m and a set of word sequences G m−1 obtained as speech recognition results of adjacent utterances are given, the most likely word sequence w ^ for the input is Note that Equation (1) is changed to (6).
ここで、直近の入力音声により単語列wが得られた下での単語列の集合Gm−1の条件付き確率P(Gm−1|w)を、式(7)のように仮定する。 Here, the conditional probability P (G m−1 | w) of the set of word strings G m−1 under the word string w obtained from the latest input speech is assumed as shown in Expression (7). .
この仮定から、式(6)は以下の式(8)となる。 From this assumption, equation (6) becomes the following equation (8).
なお、γj(w,Gm−1)(j=1,...,)は、単語列wと単語列の集合Gm−1によって定められる言語的な特徴を表す素性関数であり、時間的に異なる複数の発話間の情報を用いて表現される。また、φjは、γjに対応した重み(素性重み)である。 Γ j (w, G m−1 ) (j = 1,...) Is a feature function representing a linguistic feature defined by the word string w and the set of word strings G m−1 . It is expressed using information between multiple utterances that differ in time. Φ j is a weight (feature weight) corresponding to γ j .
図2は、このような時間的に異なる複数の発話間で成立する言語的な特徴の素性関数γjの例を説明するための図である。同図においては、着目している現在の発話の音声認識結果を文仮説w1、w2、w3の集合とし、直近の発話の音声認識結果を文仮説u1、…、u4の集合とている。
時間的に異なる複数の発話間で成立する言語的な特徴として、以下に示すような、直近の発話の文仮説と現在の発話の文仮説との間の単語(同図における単語vとz)の共起がある。
FIG. 2 is a diagram for explaining an example of a feature function γ j of a linguistic feature established between a plurality of utterances that are different in time. In the figure, the speech recognition result of the current utterance of interest is a set of sentence hypotheses w 1 , w 2 , w 3 , and the speech recognition result of the latest utterance is a set of sentence hypotheses u 1 ,..., U 4 . It is.
As a linguistic feature established between a plurality of temporally different utterances, the word between the sentence hypothesis of the latest utterance and the sentence hypothesis of the current utterance (words v and z in the figure) as shown below There is co-occurrence.
(例)先行する発話の文仮説に単語zが含まれおり、かつ着目している発話の文仮説に単語vが含まれるときの単語vの数 (Example) The number of words v when the word z is included in the sentence hypothesis of the preceding utterance and the word v is included in the sentence hypothesis of the utterance of interest
上記の例のような発話間の言語的な特徴を得る関数をhj(・,・)と表す。例えば、着目している現在の文仮説が図2に示す文仮説w1であれば、文仮説w1には単語vが1つ含まれており、単語zが1つ含まれる文仮説u1との間で、hj(w1,u1)=1となる。一方、着目している現在の文仮説を文仮説w3とすれば、文仮説w3には単語vが2つ含まれており、単語zが1つ含まれる文仮説u4との間で、hj(w3,u4)=2となる。 A function for obtaining a linguistic feature between utterances as in the above example is represented as h j (•, •). For example, if the current sentence hypotheses of interest is a sentence hypotheses w 1 shown in FIG. 2, the word v in Bunkasetsu w 1 includes a single, sentence hypothesis u 1 word z is contained one , H j (w 1 , u 1 ) = 1. On the other hand, if the current sentence hypotheses of interest with sentence hypotheses w 3, the word v in Bunkasetsu w 3 contains two, between the sentence hypothesis u 4 word z is contained one , H j (w 3 , u 4 ) = 2.
この関数hjを用いて、素性関数γj(・,・)を以下の式(9)のように定める。 Using this function h j , the feature function γ j (•, •) is defined as in the following equation (9).
式(9)のp(wm−1,n)は、直前の入力音声の発話についての第n番目の音声認識結果である文仮説wm−1,nの事後確率である。このように、本実施形態の特徴は、過去の発話の音声認識結果に対する正解単語列が与えられない場合でも、過去の発話の音声認識結果の集合に含まれる文仮説がその事後確率に応じて正解単語列に相当するとみなし、各文仮説から得られた素性関数の値を事後確率で重み付けして足し合わせる点にある。
従来の識別的言語モデルの素性関数を考慮すれば、入力音声xmから得られた文仮説wの事後確率は、直前の入力音声xm−1に対する音声認識結果として文仮説の集合Gm−1が得られた場合、以下の式(10)となる。
In Equation (9), p (w m−1, n ) is the posterior probability of the sentence hypothesis w m−1, n that is the nth speech recognition result for the utterance of the immediately preceding input speech. As described above, the feature of this embodiment is that the sentence hypothesis included in the set of speech recognition results of past utterances depends on the posterior probability even when correct word strings for the speech recognition results of past utterances are not given. It is considered that it corresponds to a correct word string, and the value of the feature function obtained from each sentence hypothesis is weighted by the posterior probability and added.
Considering the feature functions of conventional identification language model, the posterior probability of the input speech x m sentence hypotheses w obtained from a set of sentence hypotheses resulting speech recognition for the input speech x m-1 of the immediately preceding G m- When 1 is obtained, the following equation (10) is obtained.
式(10)のモデルパラメータΛは、(λ1,λ2,…)であり、モデルパラメータΦは、(φ1,φ2,…)である。また、式(10)における、Z(Λ,Φ)は、確率の条件を満たすための正規化定数であり、以下の式(11)とする。式(11)における単語列w’は、音声入力xmから音声認識により得られた複数の音声認識結果の文仮説である。 The model parameter Λ in equation (10) is (λ 1 , λ 2 ,...), And the model parameter Φ is (φ 1 , φ 2 ,...). Further, Z (Λ, Φ) in the equation (10) is a normalization constant for satisfying the probability condition, and is represented by the following equation (11). Equation (11) word sequence w in 'is a sentence hypotheses of the plurality of speech recognition result obtained by speech recognition from the speech input x m.
本実施形態の音声認識装置による誤り修正モデルの学習とは、式(10)における右辺の指数関数expの指数部分として示される誤り修正モデルのモデルパラメータΛ及びΦを学習データから推定することである。このように、本実施形態の誤り修正モデルは、発話の順序に応じた言語的な特徴に基づく素性関数の値と、同一発話内の言語的な特徴に基づく素性関数の値と、これら素性関数の素性重みとを用いて、音声認識のスコアを修正する算出式である。 The learning of the error correction model by the speech recognition apparatus according to the present embodiment is to estimate the model parameters Λ and Φ of the error correction model shown as the exponent part of the exponent function exp on the right side in Equation (10) from the learning data. . As described above, the error correction model of the present embodiment includes a value of a feature function based on a linguistic feature corresponding to an utterance order, a value of a feature function based on a linguistic feature in the same utterance, and these feature functions. It is a calculation formula which corrects the score of voice recognition using the feature weight of.
ここで、正解単語列が付与されていないM個の発話からなる学習データが与えられたとき、モデルパラメータ推定のための目的関数L(Λ,Φ)を以下の式(12)とする。 Here, when learning data consisting of M utterances to which a correct word string is not given is given, an objective function L (Λ, Φ) for model parameter estimation is expressed by the following equation (12).
mは発話の順序を示し、Nmは、m番目の学習データである音声入力xmに対して音声認識により生成された文仮説wm,1、wm,2、…の総数である。また、Χ(wm,n)は、以下の式(13)とする。 m indicates the order of utterances, and N m is the total number of sentence hypotheses w m, 1 , w m, 2 ,... generated by speech recognition for the speech input x m that is the m-th learning data. Also, Χ (w m, n ) is expressed by the following formula (13).
式(13)におけるR(・,・)は2つの単語列の編集距離を返す関数であり、文仮説wm,kは音声入力xmから得られた文仮説m,n以外の全ての文仮説である。2つの単語列の編集距離は、動的計画法により効率的に求めることができる。編集距離は、正解単語列に対する音声認識結果の誤り単語数と等価(置換、挿入、脱落誤りの操作)であるため、式(12)の目的関数L(Λ,Φ)は、期待される単語誤りの数を表している。この目的関数L(Λ,Φ)を最小化するようにモデルパラメータΛとモデルパラメータΦを推定すれば、期待される単語誤りの数が最小となる誤り修正モデルが得られるため、音声認識の性能の向上が期待できる。これは、目的関数L(Λ,Φ)を最小化するようにモデルパラメータΛ及びΦを推定すれば、正解候補の単語列に期待される認識誤りが最小となり、学習データとは異なる未知の入力音声に対する音声認識においても、モデルパラメータΛ及びΦによって認識誤りの最小化が同様に行われるからである。つまり、式(12)の目的関数は、正解候補の単語列に期待される認識誤りが最小となり、モデルパラメータΛ及びΦが適切であるかの評価値を算出する評価関数として用いられる。 In Expression (13), R (•, •) is a function that returns the edit distance between two word strings, and the sentence hypothesis w m, k is all sentences other than the sentence hypothesis m, n obtained from the speech input x m. It is a hypothesis. The edit distance between two word strings can be efficiently obtained by dynamic programming. Since the edit distance is equivalent to the number of error words in the speech recognition result for the correct word string (operation of substitution, insertion, omission error), the objective function L (Λ, Φ) in Expression (12) is the expected word. It represents the number of errors. If the model parameter Λ and the model parameter Φ are estimated so as to minimize the objective function L (Λ, Φ), an error correction model that minimizes the number of expected word errors can be obtained. Improvement can be expected. This is because if the model parameters Λ and Φ are estimated so as to minimize the objective function L (Λ, Φ), the recognition error expected for the correct candidate word string is minimized, and the unknown input is different from the learning data. This is because also in speech recognition for speech, recognition errors are similarly minimized by the model parameters Λ and Φ. That is, the objective function of Expression (12) is used as an evaluation function for calculating an evaluation value as to whether or not the model parameters Λ and Φ are appropriate because the recognition error expected for the correct candidate word string is minimized.
なお、式(13)におけるP(wm,k|xm)は、以下の式(14)のように算出される。 Note that P (w m, k | x m ) in the equation (13) is calculated as the following equation (14).
式(14)におけるg^は、式(10)から以下の式(15)となる。 In the equation (14), g ^ becomes the following equation (15) from the equation (10).
モデルパラメータを推定するため、目的関数のモデルパラメータΛ、Φに関する勾配ΔΛ、ΔΦを求めると、以下の式(16)、式(17)のようになる。 If the gradients ΔΛ and ΔΦ related to the model parameters Λ and Φ of the objective function are obtained in order to estimate the model parameters, the following equations (16) and (17) are obtained.
勾配ΔΛは、(∂L(Λ,Φ)/∂λ1,∂L(Λ,Φ)/∂λ2,∂L(Λ,Φ)/∂λ3,…)であり、勾配ΔΦは、(∂L(Λ,Φ)/∂φ1,∂L(Λ,Φ)/∂φ2,∂L(Λ,Φ)/∂φ3,…)である。また、Χ(・,・)は、モデルパラメータΛ、Φに関して定数とみなした。 The gradient ΔΛ is (∂L (Λ, Φ) / ∂λ 1 , ∂L (Λ, Φ) / ∂λ 2 , ∂L (Λ, Φ) / ∂λ 3 ,...), And the gradient ΔΦ is (∂L (Λ, Φ) / ∂φ 1 , ∂L (Λ, Φ) / ∂φ 2 , ∂L (Λ, Φ) / ∂φ 3 ,...). Also, Χ (·, ·) was regarded as a constant with respect to the model parameters Λ and Φ.
t回の繰り返し更新によりモデルパラメータΛt、Φtの学習を行うとすれば、t−1回目の繰り返しの後にモデルパラメータΛt−1、Φt−1が得られたとすると、以下の式(18)、式(19)がパラメータ更新式となる。 Assuming that model parameters Λ t and Φ t are learned by t repeated updating, if model parameters Λ t−1 and Φ t−1 are obtained after the t− 1th iteration , the following formula ( 18) and Expression (19) are parameter update expressions.
ここで、ηΛ、ηΦはそれぞれ、式(16)、式(17)で得られた勾配ΔΛ、勾配ΔΦの係数である。
また、隣接する発話の音声認識結果の集合が複数(Gm−1,Gm−2,…)与えられた場合も、同様の手続きを行えば、モデルパラメータΛ、Φの学習が可能である。
Here, η Λ and η Φ are coefficients of the gradient ΔΛ and the gradient ΔΦ obtained by the equations (16) and (17), respectively.
Further, even when a plurality of sets (G m−1 , G m−2 ,...) Of speech recognition result sets of adjacent utterances are given, the model parameters Λ and Φ can be learned by performing the same procedure. .
[3. 音声認識装置の構成]
図3は、本発明の一実施形態による音声認識装置1の構成を示す機能ブロック図であり、発明と関係する機能ブロックのみ抽出して示してある。
音声認識装置1は、コンピュータ装置により実現され、同図に示すように、音声認識部11、特徴量抽出部12、誤り傾向学習部13、音声認識部14、音声言語資源格納部21、音響モデル格納部22、言語モデル格納部23、及び誤り修正モデル格納部24を備えて構成される。
[3. Configuration of voice recognition device]
FIG. 3 is a functional block diagram showing the configuration of the speech recognition apparatus 1 according to an embodiment of the present invention, and only functional blocks related to the invention are extracted and shown.
The speech recognition apparatus 1 is realized by a computer device, and as shown in the figure, a speech recognition unit 11, a feature
音声言語資源格納部21は、学習データを格納する。音響モデル格納部22は、音響モデルを格納する。言語モデル格納部23は、言語モデルを格納する。誤り修正モデル格納部24は、誤り修正モデルを格納する。
The spoken language
音声認識部11は、学習データを生成するために発話の音声データD1を音声認識する。音声データD1は、発話の音声波形を短時間スペクトル分析して得られた特徴量を示す。本実施形態では、音声データを放送信号から取得する。音声認識部11は、音声データD1と、この音声データD1を音声認識して得られた音声認識結果データD2とを対応付けて学習データとして音声言語資源格納部21に書き込む。このとき、音声認識部11は、音声認識を行った際の発話の順番も合わせて音声言語資源格納部21に保持しておく。
The speech recognition unit 11 recognizes speech speech data D1 to generate learning data. The voice data D1 indicates a feature value obtained by performing a short-time spectrum analysis on a voice waveform of an utterance. In this embodiment, audio data is acquired from a broadcast signal. The voice recognition unit 11 associates the voice data D1 with the voice recognition result data D2 obtained by voice recognition of the voice data D1, and writes it in the spoken language
特徴量抽出部12は、学習データが示す発話の順番に整列された音声認識結果データD2から、同一発話内における言語的な特徴と発話の順序に応じた言語的な特徴を抽出する。特徴量抽出部12は、得られた言語的な特徴をルールとする素性関数fi,γjを示す素性関数データD3を出力する。
The feature
誤り傾向学習部13は、特徴量抽出部12が出力した素性関数データD3と、音声言語資源格納部21が記憶する学習データとを入力として、誤り修正モデルのモデルパラメータΛ、Φを統計的手段により学習する。誤り傾向学習部13は、学習したこれらのモデルパラメータΛ、Φを用いた誤り修正モデルを誤り修正モデル格納部24に書き込む。
The error
音声認識部14は、音響モデル格納部22に記憶されている音響モデル、及び言語モデル格納部23に記憶されている言語モデルを参照し、誤り修正モデル格納部24に記憶されている誤り修正モデルを用いて入力音声データD4の音声認識を行い、その結果を示す音声認識結果データD5を出力する。入力音声データD4は、発話の音声波形を短時間スペクトル分析して得られた特徴量を示す。
The
[4. 音声認識装置の処理手順]
図4は、本実施形態による音声認識装置1の全体処理フローを示す図である。以下、同図に示す各ステップの処理について説明する。
[4. Processing procedure of voice recognition device]
FIG. 4 is a diagram showing an overall processing flow of the speech recognition apparatus 1 according to the present embodiment. Hereinafter, processing of each step shown in FIG.
[4.1 ステップS1]
まず、音声認識部11は、放送信号から番組の音声データD1を取得し、音声認識する。音声認識部11は、各発話の音声データD1と、その音声認識結果を示す音声認識結果データD2とを対応付けた学習データを音声言語資源格納部21に格納する。このとき、音声認識部11は、音声認識を行った際の発話の順序を保持して格納する。音声認識結果データD2が示すm番目(m=1,2,…)の学習データには、m番目の音声データD1である音声入力xmと、音声入力xmを音声認識して得られた文仮説wm,n(n=1,2,…)が含まれる。
[4.1 Step S1]
First, the voice recognition unit 11 acquires the voice data D1 of the program from the broadcast signal and recognizes the voice. The speech recognition unit 11 stores learning data in which the speech data D1 of each utterance is associated with the speech recognition result data D2 indicating the speech recognition result in the speech language
[4.2 ステップS2]
誤り傾向学習部13は、音声言語資源格納部21に記憶されている学習データから、誤り傾向学習のために用いる言語的特徴に基づく素性関数を抽出する。
[4.2 Step S2]
The error
まず、誤り傾向学習部13は、学習データに含まれる音声認識結果データD2から、連続する単語2項組(u,v)の数を返す関数や、連続しない単語2項組(u,v)の数を返す関数など、連続する単語、連続しない2単語以上の単語、単語の構文的な情報または意味的な情報、などの先に記載したような同一発話内の言語的特徴に基づく素性関数を全て抽出する。
さらに、誤り傾向学習部13は、音声認識結果データD2が示す正解候補の文仮説wm,nと、先行する発話の文仮説wm−1,nとの全ての組み合わせを参照し、式(9)に示すような、発話の順序に応じた言語的特徴に基づく素性関数を全て抽出する。
誤り傾向学習部13は、抽出したこれらの素性関数が出現する頻度をカウントする。誤り傾向学習部13は、カウントした出現頻度が予め定めた閾値以上である同一発話内の言語的特徴に基づく素性関数、発話の順序に応じた言語的特徴に基づく素性関数をそれぞれ、ステップS3の誤り傾向学習処理においてモデルパラメータの学習に用いる素性関数fi、素性関数γjとして決定する。誤り傾向学習部13は、決定した素性関数fi、γjを設定した素性関数データD3を誤り傾向学習部13に出力する。
First, the error
Further, the error
The error
[4.3 ステップS3]
続いて誤り傾向学習部13は、誤り修正モデルのモデルパラメータΛ、Φを学習する。
図5は、ステップS3において誤り傾向学習部13が実行する誤り修正モデル更新処理の処理フローを示す図である。
[4.3 Step S3]
Subsequently, the error
FIG. 5 is a diagram illustrating a processing flow of the error correction model update process executed by the error
(ステップS31:モデルパラメータ初期化処理)
誤り傾向学習部13は、モデルパラメータΛ、Φに対して適当な初期値を設定する。本実施形態では、初期値をΛ=Φ=0とし、すべてのパラメータをゼロとおく。
(Step S31: Model parameter initialization process)
The error
(ステップS32:編集距離計算処理)
式(12)の目的関数を計算するためには、同じ発話から得られた音声認識結果同士の編集距離を計算する必要がある。そこで、誤り傾向学習部13は、音声言語資源格納部21に記憶されている学習データを読み出し、学習データが示す音声認識結果データD2から、同じ入力音声xmを音声認識して得られた文仮説wm,nと他の文仮説wm,kを取得して、編集距離R(wm,n,wm,k)を計算する。これらの編集距離は、誤り修正モデルの学習では定数扱いとなることに注意する。
(Step S32: Edit distance calculation process)
In order to calculate the objective function of Expression (12), it is necessary to calculate the edit distance between the speech recognition results obtained from the same utterance. Therefore, sentence
(ステップS33:素性関数更新処理)
誤り傾向学習部13は、発話間の言語的な特徴に基づく素性関数γj(・,・)の値を更新する。これは、式(9)から明らかなように、素性関数γjが、直前の発話の文仮説wm−1,nの事後確率p(wm−1,n)に依存するためである。なお、事後確率p(wm−1,n)は、現在のモデルパラメータΛ、Φの値により、式(10)の式を用いて算出する。つまり、誤り傾向学習部13は、式(10)におけるxm、w、Gm−1をそれぞれ、学習データが示す直前の発話の音声入力xm−1、音声入力xm−1から得られた文仮説wm−1,n、音声入力xm−2から音声認識結果として得られた単語列の集合Gm−2として算出する。このとき、誤り傾向学習部13は、文仮説wm−1,nの音響モデルのスコアfam(xm−1|wm−1,n)を、音響モデル格納部22に記憶されている音響モデルと、m−1番目の学習データが示す音声データである入力音声xm−1とを用いて得る。また、誤り傾向学習部13は、文仮説wm−1,nの言語モデルのスコアfam(wm−1,n)を、言語モデル格納部23に記憶されている言語モデルを用いて得る。なお、誤り傾向学習部13は、素性関数γjを素性関数データD3から得る。
(Step S33: Feature Function Update Process)
The error
(ステップS34:目的関数計算処理)
誤り傾向学習部13は、式(12)に従って目的関数L(Λ,Φ)の値を計算する。誤り傾向学習部13は、式(12)におけるΧ(wm,n)を式(13)により算出するが、この算出には、ステップS32において求めた編集距離R(wm,n,wm,k)と、式(14)により算出した事後確率P(wm,k|xm)を用いる。誤り傾向学習部13は、式(14)の算出に用いるg^(wm,k|xm)を、音響モデルのスコアfam(xm|wm,k)、言語モデルのスコアflm(wm,k)、及び現在のモデルパラメータΛ、Φから式(15)を用いて計算する。また、誤り傾向学習部13は、式(12)における条件付き確率P(wm,n|xm,Gm―1)を、音響モデルのスコアfam(xm|wm,n)、言語モデルのスコアflm(wm,n)、及び現在のモデルパラメータΛ、Φから式(10)を用いて計算する。
各文仮説wm,n、wm,kを文仮説wとした場合、誤り傾向学習部13は、音響モデルのスコアfam(xm|w)を、音響モデル格納部22に記憶されている音響モデルと、m番目の学習データが示す音声データである入力音声xmとを用いて得る。また、誤り傾向学習部13は、文仮説wの言語モデルのスコアflm(w)を、言語モデル格納部23に記憶されている言語モデルを用いて得る。さらに、誤り傾向学習部13は、素性関数fi(w)の値を文仮説wから算出し、素性関数γi(w,Gm−1)の値にステップS33において算出した値を用いる。なお、誤り傾向学習部13は、素性関数fiを素性関数データD3から得る。
(Step S34: Objective function calculation process)
The error
When each sentence hypothesis w m, n , w m, k is a sentence hypothesis w, the error
(ステップS35:勾配計算処理)
誤り傾向学習部13は、現在のモデルパラメータΛ、Φの値を用いて、式(16)及び式(17)により、式(12)のモデルパラメータΛ、Φに関する勾配ΔΛ、ΔΦを求める。誤り傾向学習部13は、式(16)及び式(17)におけるΧ(wm,n)、及び事後確率P(wm,n|xm,Gm−1)、P(wm,n’|xm,Gm−1)に、ステップS34において目的関数L(Λ,Φ)を算出したときの値を用いる。また、誤り傾向学習部13は、式(16)における素性関数γj(wm,n,Gm−1)、γj(wm,n’,Gm−1)に、ステップS33において算出した値を用いる。また、誤り傾向学習部13は、式(17)における素性関数fi(wm,n)、fi(wm,n’)に、ステップS34において算出した値を用いる。
(Step S35: gradient calculation process)
The error
誤り傾向学習部13は、求めた勾配ΔΛ、ΔΦを用いて、式(18)及び式(19)により、モデルパラメータΛ、Φを更新する。なお、式(18)及び式(19)における係数ηΛ、ηΦは、予め定めた値を用いる。
The error
(ステップS36:終了判定処理)
誤り傾向学習部13は、ステップS35の勾配計算処理により得られた目的関数の値と、更新前の目的関数の値とを比較し、値の変化が所定以上であれば、ステップS33からの処理を繰り返し、所定よりも小さければ更新が収束したとみなしてモデルパラメータΛ、Φの更新を打ち切り、ステップS37の処理を実行する。
(Step S36: End determination process)
The error
(ステップS37:誤り修正モデル出力処理)
誤り傾向学習部13は、更新が収束したときのモデルパラメータΛ=(λ1,λ2,…)、及びΦ=(φ1,φ2,…)を用いた誤り修正モデルを誤り修正モデル格納部24に書き込む。
(Step S37: Error correction model output process)
The error
[4.4 ステップS4]
音声認識部14は、音声認識対象の音声データとして入力音声データD4が入力されると、誤り修正モデル格納部24に記憶されている誤り修正モデルと、音響モデル格納部22に記憶されている音響モデル、及び、言語モデル格納部23に記憶されている言語モデルとを用いて、入力音声データD4の正解候補の単語列を得、それらのスコアを算出する。音声認識部14は、スコアが最もよい正解候補の単語列を正解単語列として設定した音声認識結果データD5をリアルタイムで出力する。この誤り修正モデルを用いることにより、音声認識部14は、入力音声データD4から得られた音声認識結果の選択における誤りを修正する。
[4.4 Step S4]
When the input speech data D4 is input as speech recognition target speech data, the
[5. 効果]
本実施形態によれば、音声認識装置1は、直前の発話内容を反映した誤り修正モデルを正解単語列なしに構成することが可能となり、従来の音声認識よりも認識誤りが削減される。
[5. effect]
According to the present embodiment, the speech recognition apparatus 1 can configure an error correction model reflecting the content of the immediately preceding utterance without a correct word string, and recognition errors can be reduced compared to conventional speech recognition.
[6. その他]
なお、上述の音声認識装置1は、内部にコンピュータシステムを有している。そして、音声認識装置1の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。
[6. Others]
The voice recognition device 1 described above has a computer system inside. The operation process of the speech recognition apparatus 1 is stored in a computer-readable recording medium in the form of a program, and the above processing is performed by the computer system reading and executing this program. The computer system here includes a CPU, various memories, an OS, and hardware such as peripheral devices.
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
Further, the “computer system” includes a homepage providing environment (or display environment) if a WWW system is used.
The “computer-readable recording medium” refers to a storage device such as a flexible medium, a magneto-optical disk, a portable medium such as a ROM and a CD-ROM, and a hard disk incorporated in a computer system. Furthermore, the “computer-readable recording medium” dynamically holds a program for a short time like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. In this case, a volatile memory in a computer system serving as a server or a client in that case, and a program that holds a program for a certain period of time are also included. The program may be a program for realizing a part of the functions described above, and may be a program capable of realizing the functions described above in combination with a program already recorded in a computer system.
1 音声認識装置
11 音声認識部
12 特徴量抽出部
13 誤り傾向学習部
14 音声認識部
21 音声言語資源格納部
22 音響モデル格納部
23 言語モデル格納部
24 誤り修正モデル格納部
DESCRIPTION OF SYMBOLS 1 Speech recognition apparatus 11
Claims (7)
前記音声認識結果に含まれる単語と当該音声認識結果よりも過去の発話の前記音声認識結果に含まれる単語とから発話の順序に応じた言語的な特徴を取得し、取得した前記言語的な特徴を前記過去の発話の前記音声認識結果の事後確率に応じて重み付けし、重み付けした前記言語的な特徴に基づいて単語の認識誤りの傾向を統計的に学習し、学習した前記認識誤りの傾向を修正するための誤り修正モデルを生成する誤り傾向学習部と、
を備えることを特徴とする音声認識装置。 A speech language resource storage unit that stores speech recognition results obtained by speech recognition of speech data of speech, while retaining the order of speech;
Acquire linguistic features according to the order of utterances from words included in the speech recognition results and words included in the speech recognition results of utterances earlier than the speech recognition results, and the acquired linguistic features Are weighted according to the posterior probabilities of the speech recognition results of the past utterances, the tendency of recognition errors of words is statistically learned based on the weighted linguistic features, and the tendency of the learned recognition errors is An error tendency learning unit that generates an error correction model for correction;
A speech recognition apparatus comprising:
ことを特徴とする請求項1に記載の音声認識装置。 The error tendency learning unit statistically calculates a tendency of recognition error of a word based on a linguistic feature corresponding to the weighted utterance order and a linguistic feature in the same utterance obtained from the speech recognition result. And generate an error correction model to correct the tendency of learned recognition errors.
The speech recognition apparatus according to claim 1.
前記同一発話内の言語的な特徴は、前記音声認識結果から得られる同一発話内の連続する複数の単語の共起関係、連続しない複数の単語の共起関係、単語の構文的な情報、または単語の意味的な情報のうち1以上である、
ことを特徴とする請求項2に記載の音声認識装置。 The linguistic feature according to the utterance order is a co-occurrence relationship between a word included in the speech recognition result and a word included in the speech recognition result of the past utterance,
The linguistic features in the same utterance are a co-occurrence relationship of a plurality of consecutive words in the same utterance obtained from the speech recognition result, a co-occurrence relationship of a plurality of non-consecutive words, syntactic information of words One or more of the semantic information of the word,
The speech recognition apparatus according to claim 2.
前記誤り傾向学習部は、前記音声認識結果及び前記過去の発話の前記音声認識結果から得られた前記第1の素性関数の値と、前記音声認識結果から得られた前記第2の素性関数の値と、同一の前記音声データから得られた複数の前記音声認識結果を比較して得られる単語誤りの数を前記音声認識結果の事後確率で重み付けした値とを用いて定められる評価関数により算出した評価値に基づいて前記素性重みを統計的に算出し、算出した前記素性重みを用いて前記誤り修正モデルを生成する、
ことを特徴とする請求項2または請求項3に記載の音声認識装置。 The error correction model includes a first feature function based on a linguistic feature according to the order of the utterances, weighted by a posterior probability of the speech recognition result of the past utterance, and a linguistic feature in the same utterance. A calculation formula for correcting a score of speech recognition using a second feature function based on a unique feature and feature weights of each of the first feature function and the second feature function,
The error tendency learning unit includes a value of the first feature function obtained from the speech recognition result and the speech recognition result of the past utterance, and the second feature function obtained from the speech recognition result. Calculated by an evaluation function determined using a value and a value obtained by weighting the number of word errors obtained by comparing a plurality of the speech recognition results obtained from the same speech data with the posterior probability of the speech recognition results Statistically calculating the feature weight based on the evaluated value, and generating the error correction model using the calculated feature weight;
The voice recognition apparatus according to claim 2 or claim 3, wherein
ことを特徴とする請求項1から請求項4のいずれか1項に記載の音声認識装置。 A speech recognition unit that recognizes input speech data and corrects an error in selecting a speech recognition result obtained from the input speech data using the error correction model generated by the error tendency learning unit Further comprising
The voice recognition device according to claim 1, wherein the voice recognition device is a voice recognition device.
前記音声認識結果に含まれる単語と当該音声認識結果よりも過去の発話の前記音声認識結果に含まれる単語とから発話の順序に応じた言語的な特徴を取得し、取得した前記言語的な特徴を前記過去の発話の前記音声認識結果の事後確率に応じて重み付けし、重み付けした前記言語的な特徴に基づいて単語の認識誤りの傾向を統計的に学習し、学習した前記認識誤りの傾向を修正するための誤り修正モデルを生成する誤り傾向学習過程と、
を有することを特徴とする誤り修正モデル学習方法。 Spoken language resource storage process for storing speech recognition results obtained by speech recognition of speech data, while maintaining the order of speech,
Acquire linguistic features according to the order of utterances from words included in the speech recognition results and words included in the speech recognition results of utterances earlier than the speech recognition results, and the acquired linguistic features Are weighted according to the posterior probabilities of the speech recognition results of the past utterances, the tendency of recognition errors of words is statistically learned based on the weighted linguistic features, and the tendency of the learned recognition errors is An error tendency learning process to generate an error correction model for correction;
An error correction model learning method characterized by comprising:
発話の音声データを音声認識して得られた音声認識結果を、発話の順序を保持して格納する音声言語資源格納手段と、
前記音声認識結果に含まれる単語と当該音声認識結果よりも過去の発話の前記音声認識結果に含まれる単語とから発話の順序に応じた言語的な特徴を取得し、取得した前記言語的な特徴を前記過去の発話の前記音声認識結果の事後確率に応じて重み付けし、重み付けした前記言語的な特徴に基づいて単語の認識誤りの傾向を統計的に学習し、学習した前記認識誤りの傾向を修正するための誤り修正モデルを生成する誤り傾向学習手段と、
を具備する音声認識装置として機能させるためのプログラム。 Computer
A speech language resource storage means for storing speech recognition results obtained by speech recognition of speech data of speech, while retaining the order of speech;
Acquire linguistic features according to the order of utterances from words included in the speech recognition results and words included in the speech recognition results of utterances earlier than the speech recognition results, and the acquired linguistic features Are weighted according to the posterior probabilities of the speech recognition results of the past utterances, the tendency of recognition errors of words is statistically learned based on the weighted linguistic features, and the tendency of the learned recognition errors is An error tendency learning means for generating an error correction model for correction;
A program for causing a voice recognition apparatus to function.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012273707A JP6086714B2 (en) | 2012-12-14 | 2012-12-14 | Speech recognition apparatus, error correction model learning method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012273707A JP6086714B2 (en) | 2012-12-14 | 2012-12-14 | Speech recognition apparatus, error correction model learning method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014119559A true JP2014119559A (en) | 2014-06-30 |
JP6086714B2 JP6086714B2 (en) | 2017-03-01 |
Family
ID=51174454
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012273707A Expired - Fee Related JP6086714B2 (en) | 2012-12-14 | 2012-12-14 | Speech recognition apparatus, error correction model learning method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6086714B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108198552A (en) * | 2018-01-18 | 2018-06-22 | 深圳市大疆创新科技有限公司 | A kind of sound control method and video glass |
CN115410556A (en) * | 2022-08-15 | 2022-11-29 | 中国人民解放军战略支援部队信息工程大学 | Method for improving multi-language pre-training and low-resource voice recognition through meta-countermeasure learning |
US11620981B2 (en) * | 2020-03-04 | 2023-04-04 | Kabushiki Kaisha Toshiba | Speech recognition error correction apparatus |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008216341A (en) * | 2007-02-28 | 2008-09-18 | Nippon Hoso Kyokai <Nhk> | Error-trend learning speech recognition device and computer program |
JP2010535377A (en) * | 2007-08-01 | 2010-11-18 | ジンジャー ソフトウェア、インコーポレイティッド | Automatic correction and improvement of context-sensitive languages using an Internet corpus |
JP2012053403A (en) * | 2010-09-03 | 2012-03-15 | Nippon Hoso Kyokai <Nhk> | Language model processing device and voice recognition device, and program |
JP2014077865A (en) * | 2012-10-10 | 2014-05-01 | Nippon Hoso Kyokai <Nhk> | Speech recognition device, error correction model learning method and program |
-
2012
- 2012-12-14 JP JP2012273707A patent/JP6086714B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008216341A (en) * | 2007-02-28 | 2008-09-18 | Nippon Hoso Kyokai <Nhk> | Error-trend learning speech recognition device and computer program |
JP2010535377A (en) * | 2007-08-01 | 2010-11-18 | ジンジャー ソフトウェア、インコーポレイティッド | Automatic correction and improvement of context-sensitive languages using an Internet corpus |
JP2012053403A (en) * | 2010-09-03 | 2012-03-15 | Nippon Hoso Kyokai <Nhk> | Language model processing device and voice recognition device, and program |
JP2014077865A (en) * | 2012-10-10 | 2014-05-01 | Nippon Hoso Kyokai <Nhk> | Speech recognition device, error correction model learning method and program |
Non-Patent Citations (2)
Title |
---|
JPN6016049320; 小林彰夫 他: '"ラベルなしデータを用いた識別的言語モデルの検討"' 日本音響学会2010年秋季研究発表会講演論文集CD-ROM , 20100907, pp.145-146 * |
JPN6016049322; 小林彰夫 他: '"単語誤り最小化に基づく識別的スコアリングによるニュース音声認識"' 電子情報通信学会論文誌D Vol.J93-D,No.5, 20100501, pp.598-609 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108198552A (en) * | 2018-01-18 | 2018-06-22 | 深圳市大疆创新科技有限公司 | A kind of sound control method and video glass |
CN108198552B (en) * | 2018-01-18 | 2021-02-02 | 深圳市大疆创新科技有限公司 | Voice control method and video glasses |
US11620981B2 (en) * | 2020-03-04 | 2023-04-04 | Kabushiki Kaisha Toshiba | Speech recognition error correction apparatus |
CN115410556A (en) * | 2022-08-15 | 2022-11-29 | 中国人民解放军战略支援部队信息工程大学 | Method for improving multi-language pre-training and low-resource voice recognition through meta-countermeasure learning |
Also Published As
Publication number | Publication date |
---|---|
JP6086714B2 (en) | 2017-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6047364B2 (en) | Speech recognition apparatus, error correction model learning method, and program | |
JP6222821B2 (en) | Error correction model learning device and program | |
JP5530729B2 (en) | Speech understanding device | |
JP3768205B2 (en) | Morphological analyzer, morphological analysis method, and morphological analysis program | |
JP6051004B2 (en) | Speech recognition apparatus, error correction model learning method, and program | |
JP5932869B2 (en) | N-gram language model unsupervised learning method, learning apparatus, and learning program | |
EP1557822A1 (en) | Automatic speech recognition adaptation using user corrections | |
US8494847B2 (en) | Weighting factor learning system and audio recognition system | |
JP6031316B2 (en) | Speech recognition apparatus, error correction model learning method, and program | |
JP6183988B2 (en) | Speech recognition apparatus, error correction model learning method, and program | |
JP6366166B2 (en) | Speech recognition apparatus and program | |
JP6086714B2 (en) | Speech recognition apparatus, error correction model learning method, and program | |
JP2010139745A (en) | Recording medium storing statistical pronunciation variation model, automatic voice recognition system, and computer program | |
JP6300394B2 (en) | Error correction model learning device and program | |
JP2013117683A (en) | Voice recognizer, error tendency learning method and program | |
Chen et al. | Acoustic data-driven pronunciation lexicon generation for logographic languages | |
JP6027754B2 (en) | Adaptation device, speech recognition device, and program thereof | |
JP2006107353A (en) | Information processor, information processing method, recording medium and program | |
JP4674609B2 (en) | Information processing apparatus and method, program, and recording medium | |
Heigold et al. | Investigations on convex optimization using log-linear HMMs for digit string recognition | |
JP2005091518A (en) | Speech recognition device and speech recognition program | |
Mansikkaniemi | Continuous unsupervised topic adaptation for morph-based speech recognition | |
Liu et al. | Discriminative language model adaptation for Mandarin broadcast speech transcription and translation | |
Donaj et al. | Application Oriented Language Modeling | |
JP2000250581A (en) | Language model generating device and voice recognition device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20151102 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20161214 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170104 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170131 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6086714 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |