JP5276610B2 - Language model generation apparatus, program thereof, and speech recognition system - Google Patents
Language model generation apparatus, program thereof, and speech recognition system Download PDFInfo
- Publication number
- JP5276610B2 JP5276610B2 JP2010023969A JP2010023969A JP5276610B2 JP 5276610 B2 JP5276610 B2 JP 5276610B2 JP 2010023969 A JP2010023969 A JP 2010023969A JP 2010023969 A JP2010023969 A JP 2010023969A JP 5276610 B2 JP5276610 B2 JP 5276610B2
- Authority
- JP
- Japan
- Prior art keywords
- language model
- word
- synonym
- chain
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Abstract
Description
本発明は、確率的言語モデルによって言語モデルを生成する技術、および、この言語モデルを用いて音声認識を行う技術に関する。 The present invention relates to a technique for generating a language model using a probabilistic language model, and a technique for performing speech recognition using the language model.
例えば、音声による機械操作(カーナビゲーション装置)、自動音声案内システム、または、放送番組におけるリアルタイム字幕生成では、言語モデルを用いた音声認識が不可欠である。このように、言語モデルは、音声認識の精度を左右する重要なものであるため、この言語モデルに関する従来技術が幾つか提案されている。 For example, speech recognition using a language model is indispensable in mechanical operation by voice (car navigation device), automatic voice guidance system, or real-time caption generation in a broadcast program. As described above, since the language model is important for determining the accuracy of speech recognition, several conventional techniques related to this language model have been proposed.
現在、音声認識で利用されている一般的な言語モデルは、単語Nグラムモデルと呼ばれるものである(例えば、非特許文献1参照)。また、この単語Nグラムモデルを拡張した言語モデルとして、単語クラスという概念を用いた、クラスNグラムモデルがある。このクラスNグラムモデルは、品詞や概念によって単語を分類したクラスとして扱うNグラムモデルであり、学習テキストが少ないために、単語Nグラムモデルで学習を十分に行うことができない場合に有効である。 A general language model currently used in speech recognition is called a word N-gram model (see Non-Patent Document 1, for example). Moreover, there is a class N gram model using the concept of word class as a language model that is an extension of this word N gram model. This class N-gram model is an N-gram model handled as a class in which words are classified according to parts of speech and concepts, and is effective when learning cannot be sufficiently performed with the word N-gram model because there are few learning texts.
また、Nグラムモデル以外の言語モデルに関する技術として、特許文献1に記載の発明が提案されている。この特許文献1に記載の発明は、正式名称の単語リストと、この言い換え単語リストとを用いて、言い換えのパターン(規則)を確率的に推定(モデル化)する。そして、この特許文献1に記載の発明は、正式名称に加えて、その辞書に言い換えのパターンを辞書(言語モデル)に追加する。さらに、この特許文献1に記載の発明は、短い入力音声(例えば、施設名、地名等の固有名詞)が、この辞書に登録された単語の波形にどれだけ近いものであるかを計算して認識結果を出力する。つまり、特許文献1に記載の発明は、1つ単語が含まれる入力音声を音声認識する孤立単語認識を行うものである。 Further, as a technique related to a language model other than the N-gram model, the invention described in Patent Document 1 has been proposed. In the invention described in Patent Document 1, a paraphrase pattern (rule) is probabilistically estimated (modeled) using a word list of official names and the paraphrase word list. The invention described in Patent Document 1 adds a paraphrase pattern to the dictionary (language model) in addition to the official name. Furthermore, the invention described in Patent Document 1 calculates how close a short input speech (for example, proper nouns such as facility names and place names) is to the waveform of a word registered in this dictionary. Output the recognition result. That is, the invention described in Patent Document 1 performs isolated word recognition that recognizes an input speech including one word.
しかし、Nグラムモデルでは、以下に述べるような問題がある。
主に話し言葉で見られるくだけた日本語には、同一の表現に対応するさまざまな表記や読みが存在する。例えば、「という」は、「っていう」または「っちゅう」等の表現になることが多い。一方、書き言葉では、これら全てが「という」に統一される。
また、話し言葉を書き起こした学習テキストを用いる場合、「という」が、例えば、「っていう」または「っちゅう」に置き換えられることがある。
これらの結果、言語モデルにおいて、一例として、「という」の統計量が分散して学習テキストの量が不十分となり、信頼できる確率値を算出できないことがある。
However, the N-gram model has the following problems.
There are various notations and readings corresponding to the same expression in Japanese that can be seen mainly in spoken language. For example, “to” often becomes an expression such as “to” or “tchu”. On the other hand, in the written language, all of these are unified as “to”.
In addition, when using a learning text in which a spoken word is transcribed, “to” may be replaced with “to” or “chu”, for example.
As a result, in the language model, for example, the statistic “NO” is dispersed, the amount of learning text becomes insufficient, and a reliable probability value may not be calculated.
また、学習テキストには、例えば、「取り引きする」は、「取引する」とも記述できるように、表記のゆらぎが含まれる場合がある。この場合、この表現のゆらぎが原因で、「取り引きする」の確率値が、小さな値で算出されることがある。 In addition, the learning text may include notation fluctuations so that, for example, “dealing” can be described as “dealing”. In this case, the probability value of “dealing” may be calculated as a small value due to the fluctuation of the expression.
以上をまとめると、Nグラムモデルは、話し言葉や書き言葉、および、表記のゆらぎのように、同一の意味で表記または読みが異なる単語または連鎖語が存在する場合、これら単語または連鎖語の統計量が分散する。このため、Nグラムモデルは、相対的に学習テキスト量が不足することになり、生成された言語モデルにおいて、確率値の信頼性が低くなるという問題がある。 To summarize the above, the N-gram model is such that when there are words or chain words that have the same meaning or different readings, such as spoken words, written words, and fluctuations in notation, the statistics of these words or chain words are calculated. scatter. For this reason, the learning amount of the N-gram model is relatively short, and there is a problem that the reliability of the probability value becomes low in the generated language model.
また、特許文献1に記載の発明は、孤立単語認識を行うことから、文脈を考慮して辞書を生成していない。このため、特許文献1に記載の発明は、文脈が非常に重要となる大語彙連続音声認識(複数の単語が含まれる入力音声の音声認識)に対応することができない。 Further, since the invention described in Patent Document 1 performs isolated word recognition, a dictionary is not generated in consideration of the context. For this reason, the invention described in Patent Document 1 cannot cope with large vocabulary continuous speech recognition (speech recognition of input speech including a plurality of words) in which context is very important.
そこで、本発明は、前記した問題を解決し、認識誤りが少ない音声認識を可能とする言語モデルを生成する言語モデル生成装置およびそのプログラムを提供することを課題とする。
さらに、本発明は、前記した問題を解決し、認識誤りが少ない音声認識を可能とする音声認識システムを提供することも課題とする。
Accordingly, an object of the present invention is to provide a language model generation apparatus and program for generating a language model that solves the above-described problems and enables speech recognition with few recognition errors.
Furthermore, another object of the present invention is to provide a speech recognition system that solves the above-described problems and enables speech recognition with few recognition errors.
前記した課題を解決するため、本願第1発明に係る言語モデル生成装置は、同一の意味で表記または読みが異なる単語または連鎖語からなる同意語を含む学習テキストを用いて、言語モデルを生成する言語モデル生成装置であって、言語モデル生成部と、連鎖語抽出手段と、編集距離算出手段と、最小編集距離選択手段と、同意単語・連鎖語リスト生成手段と、言語モデル変換部とを備えることを特徴とする。 In order to solve the above-described problem, the language model generation device according to the first invention of the present application generates a language model by using learning text including synonyms composed of words or chain words having the same meaning or different notation or reading. A language model generation device, comprising a language model generation unit, a chain word extraction unit, an edit distance calculation unit, a minimum edit distance selection unit, a consent word / chain word list generation unit, and a language model conversion unit It is characterized by that.
かかる構成によれば、言語モデル生成装置は、言語モデル生成部で、前記学習テキストによって学習を行うことで、前記学習テキストに含まれる単語または連鎖語の少なくとも一方の出現確率を示す言語モデル(例えば、Nグラムモデル)を生成する。つまり、言語モデル生成部は、文脈を考慮した確率的言語モデルを生成する。 According to this configuration, the language model generation device performs learning with the learning text in the language model generation unit, thereby indicating a language model (for example, an appearance probability of at least one of words or chain words included in the learning text) , N-gram model). That is, the language model generation unit generates a probabilistic language model considering the context.
ここで、前記したように、確率的言語モデルとして生成された言語モデルは、学習テキストに同意語が存在する場合、これら同意語の統計量が分散してしまい、これら同意語の出現確率が低くなる。そこで、言語モデル生成装置は、連鎖語抽出手段によって、前記学習テキストの1単語あたりのエントロピーを最も削減する順序で、前記学習テキストに予め設定された頻度以上出現する単語対を前記連鎖語として抽出する。さらに、言語モデル生成装置は、編集距離算出手段によって、前記連鎖語抽出手段が抽出した連鎖語の編集距離をDPマッチングによって算出する。さらに、言語モデル生成装置は、最小編集距離選択手段によって、前記編集距離算出手段によって算出された編集距離が最小となる連鎖語を同意語候補として選択する。さらに、言語モデル生成装置は、同意単語・連鎖語リスト生成手段によって、前記同意語候補から予め選択された連鎖語が含まれる選択指示が入力され、前記選択指示に基づいて、同一の意味を有する前記同意語が予め対応付けられた同意語リストを生成する。さらに、言語モデル生成装置は、言語モデル変換部によって、前記同意語リストを参照して、前記言語モデルにおいて前記同一の意味を有する同意語の出現確率に基づいて確率値を算出し、前記言語モデルに含まれる前記同意語の出現確率を前記確率値で更新する。つまり、言語モデル変換部は、学習テキストに同意語が存在することによって低い値で算出された同意語の出現確率を補正する。 Here, as described above, in the language model generated as a probabilistic language model, when there are synonyms in the learning text, the statistics of these synonyms are dispersed, and the occurrence probability of these synonyms is low. Become. Therefore, the language model generation device extracts word pairs that appear more than a preset frequency in the learning text as the chain words in the order in which the entropy per word of the learning text is most reduced by the chain word extraction unit. To do. Further, the language model generation apparatus calculates the edit distance of the chain word extracted by the chain word extraction means by DP matching by the edit distance calculation means. Furthermore, the language model generation apparatus selects, as a synonym candidate, a chain word that has the minimum edit distance calculated by the edit distance calculation unit by the minimum edit distance selection unit. Further, the language model generation device receives a selection instruction including a chain word selected in advance from the synonym word candidates by the synonym word / chain word list generation unit, and has the same meaning based on the selection instruction A synonym list in which the synonyms are associated in advance is generated. Furthermore, the language model generating device, the language model conversion unit, said with reference to the agreed word list, to calculate a probability value based on the probability of occurrence of synonyms having the same meaning in the language model, the language The appearance probability of the synonym included in the model is updated with the probability value. That is, the language model conversion unit corrects the appearance probability of the synonym calculated with a low value due to the presence of the synonym in the learning text.
これによって、言語モデル生成装置は、利用者が同意語リストの同意語候補を参照して、連鎖語についての同意語を選択することが可能となる。 Thus, the language model generation device allows the user to select synonyms for the chain words by referring to the synonym candidates in the synonym list.
また、本願第2発明に係る言語モデル生成装置は、前記言語モデル変換部が、前記出現確率が最大となる前記同意語の基本型以外である前記同意語の同意型を、前記言語モデル変換部が更新した後の言語モデルから削除する言語モデル削除手段、を備えることを特徴とする。
かかる構成によれば、言語モデル生成装置は、言語モデルのデータサイズを縮小することができる。
Moreover, in the language model generation device according to the second invention of the present application, the language model conversion unit converts the synonym synonym type other than the basic type of the synonym with the highest occurrence probability into the language model conversion unit. Language model deleting means for deleting from the updated language model.
According to such a configuration, the language model generation device can reduce the data size of the language model.
本願第3発明に係る言語モデル生成装置は、少なくとも前記同意語の表記と当該同意語の発音とを予め対応付けた発音辞書を記憶する発音辞書記憶部と、前記発音辞書を、前記同意語リストを参照して、前記同意語の基本型の表記と、当該基本型に対応する同意語の同意型の表記と、当該同意語の同意型の発音とを少なくとも含む変換後発音辞書に変換する発音辞書変換部とをさらに備えることを特徴とする。
かかる構成によれば、言語モデル生成装置は、発音辞書を、基本型の表記と同意型の表記および発音とを対応付けた変換後発音辞書に変換する。
A language model generation device according to a third invention of the present application includes a pronunciation dictionary storage unit that stores a pronunciation dictionary in which at least the synonym notation and the pronunciation of the synonym are associated in advance, the pronunciation dictionary, the synonym list The phonetic to be converted into a converted pronunciation dictionary including at least a synonym notation of the synonym, a synonym notation of the synonym corresponding to the basic type, and a synonym pronunciation of the synonym And a dictionary conversion unit.
According to such a configuration, the language model generation device converts the pronunciation dictionary into a converted pronunciation dictionary in which basic type notation, consent type notation and pronunciation are associated with each other.
また、前記した課題を解決するため、本願第4発明に係る言語モデル生成プログラムは、コンピュータを、本願第1発明に係る言語モデル生成装置として機能させることを特徴とする。 In order to solve the problems described above, the language model generating program according to the present fourth invention, the computer, characterized in that to function as a language model generating apparatus according to the first aspect of the present invention.
また、前記した課題を解決するため、本願第5発明に係る音声認識システムは、本願第3発明に係る言語モデル生成装置と、当該言語モデル生成装置が生成した言語モデルを用いて音声認識を行う音声認識装置とを備える音声認識システムであって、前記音声認識装置は、音声データを学習することで予め生成した音響モデルを記憶する音響モデル記憶部と、音声分析部と、探索部を備えることを特徴とする。 In order to solve the above-described problem, the speech recognition system according to the fifth invention of the present application performs speech recognition using the language model generation device according to the third invention of the present application and the language model generated by the language model generation device. A speech recognition system including a speech recognition device, wherein the speech recognition device includes an acoustic model storage unit that stores an acoustic model generated in advance by learning speech data, a speech analysis unit, and a search unit. It is characterized by.
かかる構成によれば、音声認識装置は、音声分析部によって、入力される入力音声を音声分析して当該入力音声の特徴ベクトルを算出する。そして、音声認識装置は、探索部によって、前記音声分析部が算出した特徴ベクトルと前記音響モデルとのマッチングにより音響スコアを算出すると共に、前記言語モデルを参照して、音声認識結果の候補となる単語候補の出現確率に第1の定数を乗算した値に第2の定数を加算した言語スコアを算出すると共に、前記言語スコアと前記音響スコアとが最大になる単語候補の列を、前記変換後発音辞書を参照して前記音声認識の結果として出力する。つまり、音声認識装置は、変換後発音辞書を参照することで、基本型に対応する同意型の表記と発音とを出力することができる。 According to this configuration, the speech recognition apparatus performs speech analysis on the input speech input by the speech analysis unit, and calculates a feature vector of the input speech. In the speech recognition apparatus, the search unit calculates an acoustic score by matching the feature vector calculated by the speech analysis unit with the acoustic model, and becomes a speech recognition result candidate with reference to the language model. A language score is calculated by adding a second constant to a value obtained by multiplying the appearance probability of the word candidate by the first constant, and a column of word candidates that maximizes the language score and the acoustic score is calculated after the conversion. The phonetic dictionary is referenced and output as a result of the speech recognition. That is, the speech recognition apparatus can output the consent type notation and pronunciation corresponding to the basic type by referring to the converted pronunciation dictionary.
本発明によれば、以下のような優れた効果を奏する。
本願第1,4発明によれば、文脈を考慮した確率的言語モデルを生成するため、大語彙連続音声認識に対応することができる。そして、本願第1発明によれば、学習テキストに同意語が存在することによって分散して、低い値で算出された同意語の出現確率を補正するので、学習テキストが少量の場合でも、認識誤りが少ない音声認識を可能とする言語モデルを生成できる。
According to the present invention, the following excellent effects can be obtained.
According to the first and fourth inventions of the present application, since the probabilistic language model considering the context is generated, it is possible to cope with large vocabulary continuous speech recognition. According to the first invention of this application, since the synonym is dispersed due to the presence of the synonym in the learning text and the appearance probability of the synonym calculated with a low value is corrected, even if the learning text is small, a recognition error occurs. It is possible to generate a language model that enables voice recognition with less.
本願第1,4発明によれば、利用者が同意語リストの同意語候補を参照して、連鎖語についての同意語を選択できるため、同意語リストが提示されない場合に比べて、利用者が同意語を選択する手間を大きく低減することができる。 According to the first and fourth inventions of the present application, since the user can select synonyms for the chain words by referring to the synonym candidates in the synonym list, the user can compare with the case where the synonym list is not presented. The trouble of selecting synonyms can be greatly reduced.
本願第2発明によれば、言語モデルのデータサイズを縮小することができるため、この言語モデルを用いる音声認識装置のメモリ容量を節約することができる。
本願第3発明によれば、変換後発音辞書に基本型の表記と同意型の表記および発音とが対応付けられているので、変換後発音辞書を参照することで、基本型に対応する同意型の表記と発音とを容易に出力することができる。
According to the second aspect of the present invention, since the data size of the language model can be reduced, the memory capacity of the speech recognition apparatus using the language model can be saved.
According to the third invention of the present application, the converted pronunciation dictionary is associated with the basic type notation, the consent type notation, and the pronunciation, so by referring to the converted pronunciation dictionary, the consent type corresponding to the basic type Can be easily output.
本願第5発明によれば、文脈を考慮した確率的言語モデルを生成するため、大語彙連続音声認識に対応することができる。そして、本願第5発明によれば、学習テキストに同意語が存在することによって分散して、低い値で算出された同意語の出現確率を補正するので、学習テキストが少量の場合でも、認識誤りが少ない音声認識を可能とする。さらに、本願第5発明によれば、変換後発音辞書を参照することで、基本型に対応する同意型の表記と発音とを容易に出力することができ、音声認識システムの利便性を向上させることができる。 According to the fifth aspect of the present invention, since the probabilistic language model considering the context is generated, it is possible to cope with large vocabulary continuous speech recognition. According to the fifth aspect of the present invention, since the synonym is dispersed due to the presence of the synonym in the learning text and the appearance probability of the synonym calculated with a low value is corrected, even if the learning text is small, a recognition error is caused. Enables voice recognition with less. Furthermore, according to the fifth invention of the present application, by referring to the converted pronunciation dictionary, it is possible to easily output the consent type notation and pronunciation corresponding to the basic type, thereby improving the convenience of the speech recognition system. be able to.
以下、本発明の実施形態について、適宜図面を参照しながら詳細に説明する。なお、各実施形態において、同一の機能を有する手段には同一の符号を付し、説明を省略した。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings as appropriate. In each embodiment, means having the same function are denoted by the same reference numerals and description thereof is omitted.
[音声認識システムの概略]
図1を参照して、本発明の実施形態に係る音声認識システムの概略について説明する。
図1に示すように、音声認識システム100は、言語モデル生成装置1と、音声認識装置3とを備える。
言語モデル生成装置1は、同一の意味で表記または読みが異なる単語または連鎖語からなる同意語を含む学習テキストを用いて、音声認識に用いる言語モデルを生成する。
音声認識装置3は、言語モデル生成装置1が生成した言語モデルを用いて、入力音声を音声認識する。
[Outline of speech recognition system]
An outline of a speech recognition system according to an embodiment of the present invention will be described with reference to FIG.
As shown in FIG. 1, the speech recognition system 100 includes a language model generation device 1 and a speech recognition device 3.
The language model generation device 1 generates a language model used for speech recognition using learning text including synonyms consisting of words or chain words that have the same meaning and different notation or reading.
The speech recognition device 3 recognizes the input speech using the language model generated by the language model generation device 1.
なお、連鎖語(単語連鎖)とは、複数の単語からなる頻出表現であり、1つの単語連鎖中の各単語を結合して1単語として扱うものである。例えば、連鎖語としては、単語「と」および単語「いう」とを連結した「と_いう」がある。ここで、”_“は、単語同士の連結を示す。 Note that a chain word (word chain) is a frequent expression composed of a plurality of words, and combines words in one word chain and handles them as one word. For example, as a chain word, there is “to_” which is a concatenation of the word “to” and the word “to”. Here, “_” indicates connection between words.
[言語モデル生成装置の構成]
以下、言語モデル生成装置1の構成を詳細に説明する。
図1に示すように、言語モデル生成装置1は、学習テキスト記憶部11と、連鎖語リスト記憶部12と、編集距離付与連鎖語関係リスト記憶部13と、編集距離最小連鎖語関係リスト記憶部14と、同意単語・連鎖語リスト記憶部15と、言語モデル記憶部16と、発音辞書記憶部17と、変換後発音辞書記憶部18と、同意単語・連鎖語選択部(同意語選択部)21と、言語モデル生成部22と、言語モデル変換部23と、発音辞書変換部24とを備える。
[Configuration of language model generator]
Hereinafter, the configuration of the language model generation device 1 will be described in detail.
As shown in FIG. 1, the language model generation device 1 includes a learning
[各記憶部]
学習テキスト記憶部11は、言語モデルを生成する際に必要となる学習テキスト(学習データ)を記憶するメモリ、ハードディスク等の記憶手段である。この学習テキストは、例えば、音声認識システムの利用者により、学習テキスト記憶部11に予め記憶される。
[Each storage unit]
The learning
連鎖語リスト記憶部12は、連鎖語リストを記憶するメモリ、ハードディスク等の記憶手段である。
編集距離付与連鎖語関係リスト記憶部13は、編集距離付与連鎖語関係リストを記憶するメモリ、ハードディスク等の記憶手段である。
編集距離最小連鎖語関係リスト記憶部14は、編集距離最小連鎖語関係リストを記憶するメモリ、ハードディスク等の記憶手段である。
同意単語・連鎖語リスト記憶部15は、同意単語・連鎖語リスト(同意語リスト)を記憶するメモリ、ハードディスク等の記憶手段である。
なお、連鎖語リスト、編集距離付与連鎖語関係リスト、編集距離最小連鎖語関係リストおよび同意単語・連鎖語リストの詳細は、同意単語・連鎖語選択部21とあわせて説明する。
The chain word
The edit distance assignment chain word relation
The edit distance minimum chain word relationship
The consent word / chain word
The details of the chain word list, the edit distance imparted chain word relation list, the edit distance minimum chain word relation list, and the consent word / chain word list will be described together with the consent word / chain
言語モデル記憶部16は、言語モデルを記憶するメモリ、ハードディスク等の記憶手段である。この言語モデルは、学習テキストに含まれる単語または連鎖語の少なくとも一方の出現確率を示すものであり、後記する言語モデル生成部22によって生成される。
The language
発音辞書記憶部17は、発音辞書を予め記憶するメモリ、ハードディスク等の記憶手段である。この発音辞書は、単語または連鎖語の表記とその発音とを対応付けた辞書である。
変換後発音辞書記憶部18は、変換後発音辞書を記憶するメモリ、ハードディスク等の記憶手段である。この変換後発音辞書は、後記する発音辞書変換部24によって発音辞書が変換されたものであり、音声認識装置3が音声認識を行う際に参照される。
なお、発音辞書および変換後発音辞書の詳細は、発音辞書変換部24とあわせて説明する。
The pronunciation
The post-conversion pronunciation
Details of the pronunciation dictionary and the converted pronunciation dictionary will be described together with the pronunciation
[同意単語・連鎖語選択部]
以下、図2を参照し、同意単語・連鎖語選択部21を詳細に説明する。
同意単語・連鎖語選択部21は、学習テキストを参照し、利用者から入力された選択指示に基づいて、同意単語・連鎖語リストを生成する。ここで、図2に示すように、同意単語・連鎖語選択部21は、連鎖語抽出手段211と、編集距離算出手段212と、最小編集距離選択手段(連鎖語候補選択手段)213と、同意単語・連鎖語リスト生成手段214とを備える。
[Consent word / chain word selection part]
Hereinafter, the consent word / chain
The consent word / chain
連鎖語抽出手段211は、学習テキストの文頭から順に、連続する2個の単語の出現確率を計算するバイグラムを行う。例えば、学習テキストが「きょう_は_温かい_朝_だった」の場合、単語対は、「きょう_は」、「は_温かい」および「朝_だった」になる。この場合、連鎖語抽出手段211は、「きょう_は」、「は_温かい」および「朝_だった」という単語対が1回ずつ出現するため、これら単語対の出現確率「1」をそれぞれ算出する。そして、連鎖語抽出手段211は、予め設定された頻度(閾値)以上であり、かつ、学習テキストの1単語あたりのエントロピーを最も削減する順序でこの学習テキストに出現する単語対を連鎖語として抽出する。その後、連鎖語抽出手段211は、抽出した連鎖語を格納した連鎖語リストを生成し、連鎖語リスト記憶部12に記憶する。
なお、連鎖語の抽出手法の詳細は、例えば、文献「対談音声のための連鎖語とクラスを利用した言語モデル、日本音饗学会講演論文集、pp.71−72、2006年3月」に記載されている。
The chain
Details of the method for extracting chain words can be found in, for example, the document “Language model using chain words and classes for conversational speech, Proceedings of the Society of Musical Engineers of Japan, pp. 71-72, March 2006”. Have been described.
ここで、図3を参照し、連鎖語リストの一例を説明する。
図3の連鎖語リストは、連鎖語抽出手段211によって学習テキストから抽出された連鎖語(例えば、「あり_ます」、「い_ない」、「い_ました」)が、それぞれ格納されている。
Here, an example of a chain word list will be described with reference to FIG.
In the chain word list of FIG. 3, chain words extracted from the learning text by the chain word extraction means 211 (for example, “Yes_Is”, “I_No”, “I_I” ”) are respectively stored. Yes.
図2に戻り、同意単語・連鎖語選択部21の説明を続ける。
編集距離算出手段212は、連鎖語リストを参照し、この連鎖語リストに含まれる連鎖語の編集距離をDPマッチングによって算出する。具体的には、編集距離算出手段212は、各連鎖語に対して、その連鎖語を除くN−1個の連鎖語と、その連鎖語を構成する単語単位とでDPマッチングを行って、連鎖語の編集距離を算出する。そして、編集距離算出手段212は、各連鎖語、および、各連鎖語の編集距離を格納した編集距離付与連鎖語関係リストを生成して、編集距離付与連鎖語関係リスト記憶部13に記憶する。
なお、DPマッチングの詳細は、例えば、文献「パターン認識と学習のアルゴリズム、文一総合出版、pp.91−108」に記載されている。
Returning to FIG. 2, the explanation of the consent word / chain
The edit distance calculation means 212 refers to the chain word list, and calculates the edit distance of the chain word included in the chain word list by DP matching. Specifically, the edit distance calculation means 212 performs DP matching for each chain word on the N-1 chain words excluding the chain word and the word unit constituting the chain word, and creates a chain. Calculate the edit distance of the word. Then, the edit distance calculation means 212 generates an edit distance-added chain word relationship list storing each chain word and the edit distance of each chain word, and stores it in the edit distance-added chain word relationship
The details of DP matching are described in, for example, the document “Pattern Recognition and Learning Algorithm, Sentence 1 General Publishing, pp. 91-108”.
最小編集距離選択手段213は、編集距離付与連鎖語関係リストを参照し、この編集距離付与連鎖語関係リストに含まれる編集距離が最小となる連鎖語を同意語候補として選択(リストアップ)する。そして、最小編集距離選択手段213は、選択した同意語候補(連鎖語)を格納した編集距離最小連鎖語関係リストを生成して、編集距離最小連鎖語関係リスト記憶部14に記憶する。
The minimum edit distance selection means 213 refers to the edit distance assignment chain word relation list, and selects (lists up) as a synonym candidate the link word having the shortest edit distance included in the edit distance assignment chain word relation list. Then, the minimum edit distance selection means 213 generates an edit distance minimum chain word relationship list storing the selected synonym candidates (chain words), and stores it in the edit distance minimum chain word relationship
ここで、図4を参照し、編集距離最小連鎖語関係リストの一例を説明する(適宜図2参照)。
図4に示すように、最小編集距離選択手段213は、編集距離最小連鎖語関係リストを、例えば、基本型を示す識別子「基本型」で始まる行と、同意型を示す識別子「同意型」で始まる行とが交互に現れるフォーマットとする。このとき、最小編集距離選択手段213は、編集距離最小連鎖語関係リストに、「基本型」で始まる行には1個の連鎖語を含め、「同意型」で始まる行には1個以上の連鎖語を含めるようにする。さらに、最小編集距離選択手段213は、編集距離最小連鎖語関係リストにおいて、「同意型」で始まる行の各連鎖語が、その1行上の「基本型」で始まる行の連鎖語に対して、編集距離が最小となる関係とする。例えば、図4の編集距離最小連鎖語関係リストは、「同意型」で始まる行の2つの連鎖語「なきゃ_いけ_ない」および「なければ_なら_ない」が、その1行上の「基本型」で始まる行の連鎖語「なければ_いけ_ない」に対して、編集距離が最小であることを示している。
Here, an example of the edit distance minimum chain word relation list will be described with reference to FIG. 4 (see FIG. 2 as appropriate).
As shown in FIG. 4, the minimum edit distance selection means 213 displays the edit distance minimum chain word relationship list with, for example, a line beginning with an identifier “basic type” indicating a basic type and an identifier “consent type” indicating a consensus type. A format in which the starting line appears alternately. At this time, the minimum edit distance selection means 213 includes one chain word in the line starting with “basic type” and one or more in the line starting with “consent type” in the edit distance minimum chain word relation list. Include chain words. Further, the minimum edit distance selection means 213 selects each chain word of the line starting with “consent type” in the edit distance minimum chain word relation list with respect to the chain word of the line starting with “basic type” on the one line. , The editing distance is minimized. For example, in the edit distance minimum chain word relation list in FIG. 4, two chain words “Ne____________” and “Must___________________________________________________ This indicates that the edit distance is the minimum for the chain word “must_do_no” in the line starting with “basic type”.
ここで、編集距離最小連鎖語関係リストは、「同意型」で始まる行の連鎖語の中に、「基本型」で始まる行の連鎖語に対して同意語と言えないものを含んでいる可能性がある。このため、利用者は、編集距離最小連鎖語関係リストをチェックし、「同意型」で始まる行の連鎖語の中から、同意語として問題ない連鎖語だけを選択することが好ましい。そして、利用者は、編集距離最小連鎖語関係リストに基づいて利用者が選択した連鎖語を、選択指示として同意単語・連鎖語リスト生成手段214に入力する。
Here, it is possible that the edit distance minimum chain word relation list includes a word that cannot be said to be a synonym for a chain word of a line starting with “basic type” in a chain word of a line starting with “consent type”. There is sex. For this reason, it is preferable that the user checks the edit distance minimum chain word relation list and selects only a chain word having no problem as a synonym from among the chain words of the line starting with “consent type”. Then, the user inputs the chain word selected by the user based on the edit distance minimum chain word relation list to the consent word / chain word
この選択指示は、同意語として選択した単語および連鎖語の少なくとも一方を示すものである。つまり、選択指示は、連鎖語以外に、利用者が予め選択した単語を含めても良い。さらに、選択指示は、同意語として連鎖語および単語の何れか一方だけを用いる場合、当該一方だけを含めても良い。 This selection instruction indicates at least one of a word selected as a synonym and a chain word. That is, the selection instruction may include a word previously selected by the user in addition to the chain word. Further, when only one of a chain word and a word is used as a synonym, the selection instruction may include only the one.
以下、図2に戻り、同意単語・連鎖語選択部21の説明を続ける。
同意単語・連鎖語リスト生成手段214は、利用者から選択指示が入力され、この選択指示に基づいて同意単語・連鎖語リストを生成する。つまり、同意単語・連鎖語リスト生成手段214は、この選択指示に含まれる同意語を格納して同意単語・連鎖語リストを生成する。そして、同意単語・連鎖語リスト生成手段214は、生成した同意単語・連鎖語リストを同意単語・連鎖語リスト記憶部15に記憶する。
Hereinafter, returning to FIG. 2, the explanation of the consent word / chain
The consent word / chain word list generation means 214 receives a selection instruction from the user, and generates a consent word / chain word list based on the selection instruction. That is, the consent word / chain word
ここで、図5を参照し、同意単語・連鎖語リストの一例を説明する。
図5の同意単語・連鎖語リストは、図4の編集距離最小連鎖語関係リストから、同意語として選択された連鎖語が含まれる。また、この同意単語・連鎖語リストは、図4の編集距離最小連鎖語関係リストと同様に、「基本型」および「同意型」という識別子を行頭に挿入することで、同意語(同一の意味の単語および同一の意味の連鎖語)を対応付けている。つまり、同意単語・連鎖語リストは、「基本型」で始まる行の連鎖語と、その1行下の「同意型」で始まる行の連鎖語とが同意語であることを示す。例えば、図5の同意単語・連鎖語リストは、「基本型」で始まる行の連鎖語「なければ_いけ_ない」と、その一行下の「同意型」で始まる行の連鎖語「なきゃ_いけ_ない」とが同意語であることを示している。その一方、図4に図示した連鎖語「なければ_なら_ない」は、連鎖語「なければ_いけ_ない」の同意語でないと利用者によって判断されたため、同意単語・連鎖語リストに含まれない。
なお、図5では省略したが、同意単語・連鎖語リストは、連鎖語と同様、同意語として、同一の意味となる単語を対応付けても良いことは言うまでもない。
Here, an example of the consent word / chain word list will be described with reference to FIG.
The synonym word / chain word list in FIG. 5 includes a chain word selected as a synonym from the edit distance minimum chain word relation list in FIG. Also, this synonym word / chain word list is similar to the edit distance minimum chain word relation list in FIG. 4 by inserting identifiers of “basic type” and “consent type” at the beginning of the line, and synonyms (same meaning). And a chain word having the same meaning). That is, the synonym word / chain word list indicates that the chain word of the line starting with “basic type” and the chain word of the line starting with “consent type” one line below are synonyms. For example, the consensus word / chain word list of FIG. 5 includes a chain word “must_do_no” in a line starting with “basic type” and a chain word “naki_” in a line starting with “consent type” one line below. "I don't have" is a synonym. 4 is included in the synonym word / chain word list because it is determined by the user that it is not a synonym for the chain word “must_must_must”. I can't.
Although omitted in FIG. 5, it goes without saying that the synonym word / chain word list may be associated with words having the same meaning as synonyms, similarly to the chain words.
以上をまとめると、同意単語・連鎖語選択部21は、学習テキストの中で出現頻度が大きい単語対を選択し、これら単語対の中で学習テキストのエントロピーを最も大きく削減するものを連鎖語(同意語候補)とする。そして、同意単語・連鎖語選択部21は、この処理を必要に応じて繰り返し、M個の連鎖語(同意語候補)を得て同意単語・連鎖語リストを生成する。これによって、利用者は、例えば、同意単語・連鎖語リストの同意語候補を参照して、連鎖語についての同意語を選択できるため、利用者が同意語を選択する手間を大きく低減することができる。仮に、同意単語・連鎖語リストを利用者が参照できない場合、利用者は、連鎖語について同意語を学習テキストから直接選択するという困難な作業を行う必要があり、負担が極めて大きくなる。ここで、Mの値は、音声認識の精度が高くなるように予め設定しておく。
なお、単語については、連鎖語に比べ、利用者が同意語を選択する手間が少ないため、編集距離最小連鎖語関係リストに相当するリストを生成していない。
In summary, the consent word / chain
For words, a list corresponding to the minimum edit distance chain word relation list is not generated because the user has less time to select synonyms than the chain words.
[言語モデル生成部]
図1に戻り、言語モデル生成装置1の説明を続ける。
言語モデル生成部22は、学習テキストを確率的言語モデルによって学習(機械学習)することで、言語モデルを生成して言語モデル記憶部16に記憶する。ここで、言語モデル生成部22は、確率的言語モデルとして、単語Nグラムモデルを用いる。この単語Nグラムモデルは、学習テキストに含まれる単語列w1 n=w1,・・・,wnに対して、単語wnの出現確率を、直前のN−1単語から予測する確率的言語モデルであり、下記の式(1)で表すことができる。
[Language model generator]
Returning to FIG. 1, the description of the language model generation apparatus 1 will be continued.
The language
この単語Nグラムモデルは、N=1とした場合には、ユニグラム(unigram)と呼ばれ、N=2とした場合には、バイグラム(bigram)と呼ばれ、N=3とした場合には、トライグラム(trigram)と呼ばれる。また、直前のN−1単語(w1 n-1)は、履歴(history)と呼ばれる。 This word N-gram model is called a unigram when N = 1, called a bigram when N = 2, and when N = 3, It is called a trigram. Also, the immediately preceding N-1 word (w 1 n-1 ) is called a history.
ここで、図7を参照し、言語モデルの一例を説明する(適宜図1参照)。
図7の言語モデルは、左列がNグラム確率値(出現確率)であり、中央列がパラメータ名(単語または連鎖語)であり、右列がバックオフ係数である。
Here, an example of a language model will be described with reference to FIG. 7 (see FIG. 1 as appropriate).
In the language model of FIG. 7, the left column is an N-gram probability value (appearance probability), the center column is a parameter name (word or chain word), and the right column is a back-off coefficient.
Nグラム確率値は、パラメータ名に記載の単語または連鎖語の出現確率を示し、図7では、その値を対数表記している。
パラメータ名は、単語または連鎖語を示している。また、パラメータ名の<s>は文頭記号であり、</s>は文末記号である。つまり、この言語モデルでは、文頭記号と文末記号とを単語として扱っている。
バックオフ係数は、学習テキストの中に出現確率がゼロとなるNグラム確率値を、低次の単語Nグラムモデル(例えば、ユニグラム)から推定するときに用いる係数である。
なお、バックオフ係数の詳細は、後記するバックオフ係数処理手段234とあわせて説明する。
The N-gram probability value indicates the appearance probability of the word or chain word described in the parameter name, and in FIG. 7, the value is expressed in logarithm.
The parameter name indicates a word or a chain word. In addition, <s> in the parameter name is a sentence head symbol, and </ s> is a sentence end symbol. That is, in this language model, the beginning symbol and the end symbol are handled as words.
The back-off coefficient is a coefficient that is used when an N-gram probability value that has an appearance probability of zero in the learning text is estimated from a low-order word N-gram model (for example, a unigram).
The details of the back-off coefficient will be described together with back-off coefficient processing means 234 described later.
[言語モデル変換部]
以下、図6に戻り、言語モデル変換部23を詳細に説明する。
言語モデル変換部23は、同意単語・連鎖語リストを参照し、言語モデルの変換(補正)を行う。ここで、図6に示すように、言語モデル変換部23は、パラメータ抽出手段231と、確率値算出手段232と、履歴処理手段233と、バックオフ係数処理手段234と、言語モデル更新手段235とを備える。
[Language model converter]
Hereinafter, returning to FIG. 6, the language
The language
パラメータ抽出手段231は、同意単語・連鎖語リストを参照して、この同意単語・連鎖語リストに含まれる同意語のNグラムパラメータを、言語モデルから抽出する。そして、パラメータ抽出手段231は、抽出したNグラムパラメータを確率値算出手段232に出力する。以下の説明において、Nグラムパラメータは、言語モデルのNグラム確率値、パラメータ名およびバックオフ係数のことを指す。
The
確率値算出手段232は、パラメータ抽出手段231からNグラムパラメータが入力される。また、確率値算出手段232は、同意単語・連鎖語リストを参照して、この同意単語・連鎖語リストで対応付けられた同一の意味を有する同意語を取得する。そして、確率値算出手段232は、この同一の意味を有する同意語について、入力されたNグラムパラメータの出現確率に基づいて確率値を算出する。ここで、確率値算出手段232は、入力されたNグラムパラメータの出現確率について、加算値等を求める四則演算を行って確率値を算出することができる。また、確率値算出手段232は、入力されたNグラムパラメータの出現確率について、平均値、最大値等を求める統計演算を行って確率値を算出することもできる。さらに、確率値算出手段232は、入力されたNグラムパラメータの出現確率について、加算値(手法1)、平均値(手法2)又は最大値(手法3)の何れかを確率値として算出することが好ましい。以下、確率値を算出する6つの具体例を順に説明する。
The probability value calculation means 232 receives the N-gram parameter from the parameter extraction means 231. Further, the probability value calculation means 232 refers to the synonym word / chain word list and acquires synonyms having the same meaning associated with the synonym word / chain word list. Then, the probability
<第1例:トライグラムで手法1>
まず、第1例〜第3例として、連鎖語列wi,wjの次に連鎖語wkが出現するトライグラムに手法1〜手法3を適用したときの具体例を説明する。
同一の意味の連鎖語毎にクラスタリングした結果、N個の連鎖語クラス{C1,・・・,CN}が得られ、あるクラスCnにおいて(但し、1≦n≦N)、Kn+1個の同一の意味の連鎖語が存在するとする。この場合、Kn+1個の連鎖語のうち、出現確率が最大のものを基本型とし、これ以外を同意型とする(単語も基本型と同意型とを有する)。つまり、Kn+1個の連鎖語は、下記の式(2)で表される。
<First example: Trigram technique 1>
First, as a first example to a third example, a specific example will be described when Method 1 to Method 3 are applied to a trigram in which the chain word w k appears next to the chain word strings w i and w j .
As a result of clustering for each chain word having the same meaning, N chain word classes {C 1 ,..., C N } are obtained, and in a certain class C n (where 1 ≦ n ≦ N), K n Suppose that there are +1 chain words with the same meaning. In this case, of the K n +1 chain words, the one with the highest appearance probability is set as the basic type, and the other is set as the consensus type (the word also has the basic type and the consensus type). That is, K n +1 chain words are represented by the following formula (2).
この第1例では、同一の意味を表す連鎖語が、基本型と同意型とに分散して出現すると解釈する。従って、確率値算出手段232は、下記の式(3)を用いて、連鎖語の出現確率の加算値を確率値として算出する。
なお、式(3)において、Sn(κ)は、クラスCnにおけるκ番目の連鎖語を示す
In this first example, it is interpreted that chain words representing the same meaning appear in a distributed manner in a basic type and a consent type. Therefore, the probability value calculation means 232 calculates the addition value of the appearance probability of a chain word as a probability value using the following formula (3).
In Equation (3), S n (κ) represents the κ-th chain word in class C n .
<第2例:トライグラムで手法2>
この第2例では、基本型と同意型とが均等の確率で出現すると解釈する。従って、確率値算出手段232は、下記の式(4)を用いて、連鎖語の出現確率の平均値を確率値として算出する。
<Second example: Trigram method 2>
In this second example, it is interpreted that the basic type and the consent type appear with an equal probability. Therefore, the probability value calculating means 232 calculates the average value of the appearance probability of the chain word as a probability value using the following formula (4).
<第3例:トライグラムで手法3>
この第3例では、確率値算出手段232は、手法1および手法2を簡略し、下記の式(5)を用いて、連鎖語の出現確率の最大値を確率値として算出する。つまり、確率値算出手段232は、同意型の出現確率を、基本型の出現確率で置き換える。
<Third example: Trigram technique 3>
In this third example, the probability value calculating means 232 simplifies the methods 1 and 2 and calculates the maximum value of the appearance probability of a chain word as a probability value using the following equation (5). That is, the probability value calculation means 232 replaces the consent type appearance probability with the basic type appearance probability.
<第4例:ユニグラムで手法1>
続いて、第4例〜第6例として、ユニグラムに手法1〜手法3を適用したときの具体例を説明する。この第4例〜第6例では、同意語とその出現確率とが以下の関係であるとする。また、この第4例〜第6例では、同意語「んです_けれど」を基本型とし、それ以外の同意語「んです_けれども」、「んです_けど」および「んです_が」を同意型とする。
<Fourth Example: Method 1 with Unigram>
Subsequently, as a fourth example to a sixth example, specific examples when the methods 1 to 3 are applied to a unigram will be described. In the fourth to sixth examples, it is assumed that the synonyms and their appearance probabilities have the following relationship. Also, in these 4th to 6th examples, the synonym “n is _ but is” is the basic type, and other synonyms are “n is _ but”, “n is _ but” and “n is _”. Is the consent type.
<<第4例〜第6例における同意語とその出現確率>>
同意語 出現確率
んです_けれど 0.4
んです_けれども 0.3
んです_けど 0.2
んです_が 0.1
<< Synonyms and their appearance probabilities in the fourth to sixth examples >>
Synonym occurrence probability is _ but 0.4
It is __ but 0.3
But it is 0.2
Is it __
この第4例では、確率値算出手段232は、第1例と同様、同意語の出現確率を加算した値を確率値とする。つまり、確率値算出手段232は、「0.4+0.3+0.2+0.1=1.0」という計算を行う。従って、各同意語の確率値は、以下のようになる。 In this fourth example, the probability value calculating means 232 sets the value obtained by adding the appearance probabilities of synonyms as the probability value, as in the first example. That is, the probability value calculation means 232 performs a calculation “0.4 + 0.3 + 0.2 + 0.1 = 1.0”. Therefore, the probability value of each synonym is as follows.
<<第4例で算出した確率値>>
同意語 確率値
んです_けれど 1.0
んです_けれども 1.0
んです_けど 1.0
んです_が 1.0
<< Probability value calculated in the fourth example >>
Synonym is the probability value__ but 1.0
It is _ but 1.0
I'm 1.0
It is __
<第5例:ユニグラムで手法2>
この第5例では、確率値算出手段232は、第2例と同様、同意語の出現確率を平均した値を確率値とする。つまり、確率値算出手段232は、「(0.4+0.3+0.2+0.1)/4=0.25」という計算を行う。従って、各同意語の確率値は、以下のようになる。
<Fifth example: Unigram method 2>
In the fifth example, the probability value calculating means 232 sets the probability value to a value obtained by averaging the appearance probabilities of synonyms as in the second example. That is, the probability value calculation means 232 performs a calculation of “(0.4 + 0.3 + 0.2 + 0.1) /4=0.25”. Therefore, the probability value of each synonym is as follows.
<<第5例で算出した確率値>>
同意語 確率値
んです_けれど 0.25
んです_けれども 0.25
んです_けど 0.25
んです_が 0.25
<< Probability value calculated in the fifth example >>
Synonym Probability Value _ but 0.25
_ But 0.25
_ But 0.25
It is _ 0.25
<第6例:ユニグラムで手法3>
この第6例では、確率値算出手段232は、第3例と同様、同意語の中で出現確率の最大値「0.4」を求める。従って、各同意語の確率値は、以下のようになる。
<Sixth example: Method 3 with unigram>
In the sixth example, the probability value calculating means 232 calculates the maximum value “0.4” of the appearance probability in the synonym as in the third example. Therefore, the probability value of each synonym is as follows.
<<第6例で算出した確率値>>
同意語 確率値
んです_けれど 0.4
んです_けれども 0.4
んです_けど 0.4
んです_が 0.4
<< Probability value calculated in the sixth example >>
Synonym Probability value _ but 0.4
But it is 0.4
But it is 0.4
It is 0.4
その後、確率値算出手段232は、パラメータ抽出手段231から入力されたNグラムパラメータに含まれる出現確率を、算出した確率値で更新する。そして、確率値算出手段232は、確率値で更新されたNグラムパラメータを履歴処理手段233に出力する。
After that, the probability
なお、確率値算出手段232は、どの手法で確率値しても良く、例えば、どの手法で確率値を算出するか予め設定しても良い。また、確率値算出手段232は、連鎖語と同様、単語についても確率値を算出することができる。 Note that the probability value calculation means 232 may use any method to set the probability value, and for example, may set in advance which method is used to calculate the probability value. Further, the probability value calculation means 232 can calculate the probability value for the word as well as the chain word.
履歴処理手段233は、確率値算出手段232からNグラムパラメータが入力されると共に、同意型が存在する単語が履歴中に存在する場合、履歴処理を行う。ここで、履歴処理の説明を簡略化するため、同意型のパターン数K=1、すなわち、基本型に対して1つの同意型が存在すると仮定する。また、このとき、言語モデルは、バイグラムであるとする。 The history processing means 233 performs history processing when an N-gram parameter is input from the probability value calculation means 232 and a word having a consent type exists in the history. Here, in order to simplify the description of the history processing, it is assumed that the number of consent type patterns K = 1, that is, one consent type exists for the basic type. At this time, the language model is assumed to be a bigram.
学習テキスト中の単語wn-1の次に単語wnが出現する確率は、下記の式(6)で表すことができる。
なお、式(6)において、C(・)は、学習テキスト中の出現確率を示す。
The probability that the word w n appears in the next word w n-1 in the training text, can be represented by the following formula (6).
In Equation (6), C (•) indicates the appearance probability in the learning text.
また、同様に、単語wn-1の同意語w´n-1の次に単語wnが出現する確率は、下記の式(7)で表すことができる。 Similarly, the probability that the word w n-1 of the next word w n of synonyms w'n-1 appears, can be represented by the following formula (7).
これらより、履歴中の基本型と同意型とを統合して得られる出現確率は、下記の式(8)で表すことができる。
なお、式(8)において、Nは、学習テキストの全単語について、ユニグラムでの出現確率の和を表す。
From these, the appearance probability obtained by integrating the basic type and the consent type in the history can be expressed by the following equation (8).
In Expression (8), N represents the sum of appearance probabilities in the unigram for all words in the learning text.
そして、履歴処理手段233は、下記の式(9)を用いて、確率値算出手段232から入力されたNグラムパラメータの出現確率を更新する。その後、履歴処理手段233は、出現確率を更新したNグラムパラメータをバックオフ係数処理手段234に出力する。
Then, the
つまり、前記した式(8)および式(9)によれば、学習テキストにおいて、基本型および同意型について、どちらか一方の出現確率がゼロの場合には、出現確率がゼロとなっている一方のNグラムパラメータを新たに生成する。そして、この新たなNグラムパラメータにおいて、その出現確率は、出現確率がゼロでない他方の出現確率となる。 That is, according to the above equations (8) and (9), in the learning text, when one of the occurrence probabilities is zero for the basic type and the consent type, the appearance probability is zero. N-gram parameters are newly generated. In this new N-gram parameter, the appearance probability is the other appearance probability whose appearance probability is not zero.
ところで、単語Nグラムモデルの次数が大きくなると、前記した式(8)が複雑になるため、実用上、近似することが好ましい。この近似手法としては、例えば、以下の手法Aまたは手法Bが考えられる。
なお、履歴処理手段233は、単語と同様、連鎖語についても履歴処理を行うことができる。
By the way, when the degree of the word N-gram model is increased, the above-described equation (8) becomes complicated, and thus it is preferable to approximate it practically. As this approximation method, for example, the following method A or method B can be considered.
The history processing means 233 can perform history processing on chain words as well as words.
手法A:出現確率がゼロのNグラムパラメータだけを新たに生成し、他のNグラムパラメータに関する計算を省略する。
手法B:同意型を履歴とするNグラムパラメータに、基本型を履歴とするNグラムパラメータの値を代用する。
Method A: Only an N-gram parameter with an appearance probability of zero is newly generated, and calculations for other N-gram parameters are omitted.
Method B: The value of the N-gram parameter whose history is the basic type is substituted for the N-gram parameter whose history is the consent type.
バックオフ係数処理手段234は、履歴処理手段233からNグラムパラメータが入力されると共に、バックオフ係数を更新するバックオフ係数処理を行う。ここで、バックオフ係数処理の説明を簡略化するため、履歴処理と同様、同意型のパターン数K=1(基本型wに対して同意語w´が存在する)とし、言語モデルがバイグラムであるとする。 The back-off coefficient processing means 234 receives the N-gram parameter from the history processing means 233 and performs back-off coefficient processing for updating the back-off coefficient. Here, in order to simplify the description of the back-off coefficient processing, as in the history processing, the number of synonymous patterns K = 1 (the synonym w ′ exists for the basic type w), and the language model is bigram. Suppose there is.
バックオフ・スムージングは、学習テキストの出現確率C(wn-1wn)=0の場合、出現確率P(wn|wn-1)を出現確率P(wn)から推定する手法である。ここで、バックオフ・スムージングの一つであるカッツの手法では、下記の式(10)および式(11)を用いる。このとき、学習テキスト中の低頻度語(出現確率がゼロの単語を含む)の出現確率は、グッド・チューリングの推定法を利用して、予め補正しておくことが好ましい(例えば、「確率的言語モデル、東京大学出版会、pp.67−68」参照)。
なお、式(10)および式(11)において、バックオフ係数はαである。
Backoff smoothing is a method of estimating the appearance probability P (w n | w n−1 ) from the appearance probability P (w n ) when the appearance probability C (w n−1 w n ) = 0 of the learning text. is there. Here, in the Katz method, which is one of backoff smoothing, the following equations (10) and (11) are used. At this time, it is preferable that the appearance probability of low-frequency words (including words with an appearance probability of zero) in the learning text is corrected in advance using a good Turing estimation method (for example, “probabilistic” Language model, University of Tokyo Press, pp. 67-68 ”).
Note that the back-off coefficient is α in the equations (10) and (11).
ここで、基本型wn-1と同意型w´n-1とを統合する場合、バックオフ係数αは、下記の式(12)で表すことができる(これに式(8)に代入すればさらに展開可能)。 Here, when integrating the basic type w n-1 and the consent form w 'n-1, the back-off factor alpha, Substituting in can be expressed by the following equation (12) (which in the formula (8) Can be further expanded).
そして、バックオフ係数処理手段234は、下記の式(13)を用いて、履歴処理手段233から入力されたNグラムパラメータのバックオフ係数を更新する。その後、バックオフ係数処理手段234は、バックオフ係数を更新したNグラムパラメータを言語モデル更新手段235に出力する。
Then, the back-off
ところで、単語Nグラムモデルの次数が大きくなると、前記した式(12)が複雑になるため、実用上、近似することが好ましい。この近似手法としては、例えば、履歴処理と同様に、計算の省略(手法A)、または、基本型のNグラムパラメータの代用(手法B)が考えられる。
なお、バックオフ係数処理手段234は、単語と同様、連鎖語についてもバックオフ係数処理を行うことができる。
By the way, when the degree of the word N-gram model is increased, the above-described equation (12) becomes complicated, and therefore, it is preferable to approximate in practice. As this approximation method, for example, similarly to the history processing, calculation omission (method A) or substitution of a basic N-gram parameter (method B) can be considered.
Note that the back-off coefficient processing means 234 can perform back-off coefficient processing for chain words as well as words.
言語モデル更新手段235は、バックオフ係数処理手段234からNグラムパラメータが入力されると共に、このNグラムパラメータを用いて、言語モデル記憶部16に記憶された言語モデルを更新する。つまり、言語モデル更新手段235は、言語モデル記憶部16の言語モデルに含まれる出現確率をこのNグラムパラメータに含まれる出現確率で更新し、言語モデル記憶部16の言語モデルに含まれるバックオフ係数をこのNグラムパラメータに含まれるバックオフ係数で更新する。
The language
ここで、言語モデル更新手段235は、図6に示すように、言語モデル削除手段236を備える。この言語モデル削除手段236は、言語モデル更新手段235が言語モデルを更新した後、この言語モデルから同意型のNグラムパラメータを削除する。このように、言語モデルのデータサイズが縮小されるため、この言語モデルを参照する音声認識装置3は、音声認識の際、そのメモリ容量を節約することができる。
Here, the language
[発音辞書変換部]
以下、図8および図9を参照し、発音辞書変換部24の詳細を説明する(適宜図1参照)。
発音辞書変換部24は、同意単語・連鎖語リストを参照して、発音辞書のフォーマット変換を行う。図8に示すように、発音辞書は、左列が連鎖語または単語の表記であり、右列がその連鎖語または単語の発音である。この発音辞書では、発音をローマ字で表しており、“:”はその直前の母音を伸ばして発音することを表している。例えば、この発音辞書には、連鎖語「と_いう」は、「toiu sp」および「toyou:sp」という2つの発音が登録されている。
[Pronunciation dictionary converter]
The details of the pronunciation
The pronunciation
ここで、同意単語・連鎖語リストから、同意語の関係となる単語および連鎖語と、それら同意語のうちの基本型および同意型とを判別できる。例えば、同意単語・連鎖語リストに、基本型「と_いう」、および、その同意型「って_いう」が設定されていたとする。この場合、図8の発音辞書には、基本型「と_いう」の発音が2つ登録されているので、発音辞書変換部24は、図9の変換後発話辞書に基本型の表記「と_いう」と、基本型の2つの発音「toiu sp」および「toyou:sp」をそれぞれ登録する。つまり、図9に示すように、発音辞書変換部24は、左列および中央列に基本型の表記「と_いう」と、右列にその1つ目の発音「toiu sp」とを登録する。また、発音辞書変換部24は、左列および中央列に基本型の表記「と_いう」と、右列にその1つ目の発音「toyou:sp」とを登録する(図8,図9の符号α参照)。
Here, from the synonym word / chain word list, it is possible to discriminate between the synonym word and chain word, and the basic type and the synonym type among the synonyms. For example, it is assumed that the basic type “to_say” and the consent type “te_say” are set in the consent word / chain word list. In this case, since the pronunciation dictionary of FIG. 8 has two pronunciations of the basic type “to_say”, the pronunciation
また、図8の発音辞書には、同意型「って_いう」の発音が3つ登録されているので、発音辞書変換部24は、図9の変換後発話辞書に基本型の表記「と_いう」と、同意型の表記「って_いう」と、同意型の発音「Qteiu sp」、「Qteyu:sp」および「Qtu:sp」をそれぞれ登録する。つまり、図9に示すように、発音辞書変換部24は、左列に基本型の表記「と_いう」と、中央列に同意型の表記「って_いう」と、右列にその同意型の1つ目の発音「Qteiu sp」とを登録する。また、発音辞書変換部24は、左列に基本型の表記「と_いう」と、中央列に同意型の表記「って_いう」と、右列にその同意型の2つ目の発音「Qteyu:sp」とを登録する。さらに、発音辞書変換部24は、左列に基本型の表記「と_いう」と、中央列に同意型の表記「って_いう」と、右列にその同意型の2つ目の発音「Qtu:sp」とを登録する(図8,図9の符号β参照)。
Further, since the pronunciation dictionary of FIG. 8 has three pronunciations of the consensus type “te_say” registered, the pronunciation
つまり、発音辞書変換部24は、図8の発音辞書を、基本型の表記と、同意型の表記と、同意型の発音とを有する変換後発音辞書に変換する。従って、図9の変換後発音辞書は、左列と中央列の表記が異なる場合には、中央列が左列の同意型となる。
That is, the pronunciation
[言語モデル生成装置の動作]
<同意単語・連鎖語選択部>
以下、図10を参照して、図2の同意単語・連鎖語選択部21の動作を説明する(適宜図2参照)。
まず、言語モデル生成装置1は、連鎖語抽出手段211によって、学習テキストより連鎖語を抽出する(ステップS1)。また、言語モデル生成装置1は、編集距離算出手段212によって、抽出した連鎖語の編集距離をDPマッチングによって算出する(ステップS2)。
[Operation of language model generator]
<Consent word / chain word selection part>
Hereinafter, the operation of the consent word / chain
First, the language model generation device 1 extracts chain words from the learning text by the chain word extraction unit 211 (step S1). In addition, the language model generation device 1 calculates the edit distance of the extracted chain word by DP matching by the edit distance calculation means 212 (step S2).
また、言語モデル生成装置1は、最小編集距離選択手段213によって、編集距離が最小となる連鎖語を同意語候補として選択し、編集距離最小連鎖語関係リストを生成する(ステップS3)。そして、言語モデル生成装置1は、同意単語・連鎖語リスト生成手段214によって、入力された選択指示に基づいて同意単語・連鎖語リストを生成する(ステップS4)。
In addition, the language model generation device 1 selects a chain word having the minimum edit distance as a synonym candidate by the minimum edit
<言語モデル変換部>
以下、図11を参照して、図6の言語モデル変換部23の動作を説明する(適宜図6参照)。
まず、言語モデル生成装置1は、言語モデル生成部22によって、言語モデルを生成する(ステップS11)。また、言語モデル生成装置1は、パラメータ抽出手段231によって、同意語のNグラムパラメータを言語モデルから抽出する(ステップS12)。
<Language model conversion unit>
The operation of the language
First, the language model generation device 1 generates a language model by using the language model generation unit 22 (step S11). In addition, the language model generation device 1 extracts the N-gram parameter of the synonym from the language model by the parameter extraction unit 231 (step S12).
また、言語モデル生成装置1は、確率値算出手段232によって、出現確率に基づいて確率値を算出する(ステップS13)。そして、言語モデル生成装置1は、履歴処理手段233によって、履歴処理を行う(ステップS14)。 Moreover, the language model generation apparatus 1 calculates a probability value based on the appearance probability by the probability value calculation unit 232 (step S13). Then, the language model generation device 1 performs history processing by the history processing unit 233 (step S14).
また、言語モデル生成装置1は、バックオフ係数処理手段234によって、バックオフ係数処理を行う(ステップS15)。そして、言語モデル生成装置1は、言語モデル更新手段235によって、確率値およびバックオフ係数を算出したNグラムパラメータで言語モデルを更新する(ステップS16)。 Further, the language model generation device 1 performs back-off coefficient processing by the back-off coefficient processing means 234 (step S15). Then, the language model generation device 1 updates the language model with the N-gram parameter for which the probability value and the back-off coefficient are calculated by the language model update unit 235 (step S16).
以上のように、本発明の実施形態に係る言語モデル生成装置1は、言語モデル生成部22によって、文脈を考慮した単語Nグラムモデルを生成するため、大語彙連続音声認識に対応することができる。そして、言語モデル生成装置1は、言語モデル変換部23によって、学習テキストに同意語が存在することによって分散して、低い値で算出された同意語の出現確率を補正するので、学習テキストが少量の場合でも、認識誤りが少ない音声認識を可能とする言語モデルを生成できる。
As described above, the language model generation device 1 according to the embodiment of the present invention generates a word N-gram model in consideration of the context by the language
なお、言語モデル生成装置1は、表記のゆらぎ(例:「取引する」「取り引きする」)の問題を解消するために、言語モデルを更新した後、予め定めた推奨表記を含むNグラムパラメータだけを残し、それ以外のNグラムパラメータを削除することが好ましい。 Note that the language model generation device 1 updates only the N-gram parameter including the recommended notation determined in advance after updating the language model in order to solve the problem of notation fluctuation (eg, “trade” and “deal”). And the other N-gram parameters are preferably deleted.
なお、言語モデル生成装置1は、基本型を示す識別子「基本型」、および、同意型を示す識別子「同意型」を用いる例で説明したが、これに限定されない。例えば、言語モデル生成装置1は、基本型を示す識別子として「ref」、および、同意型を示す識別子として「hyp」を用いてもよい。 The language model generation device 1 has been described with an example using the identifier “basic type” indicating the basic type and the identifier “consent type” indicating the consent type, but is not limited thereto. For example, the language model generation device 1 may use “ref” as the identifier indicating the basic type and “hyp” as the identifier indicating the consent type.
なお、実施形態では、本発明に係る言語モデル生成装置を独立した装置として説明したが、本発明では、一般的なコンピュータを、前記した各手段として機能させるプログラムによっても実現することができる。このプログラムは、通信回線を介して配布しても良く、CD−ROMやフラッシュメモリ等の記録媒体に書き込んで配布しても良い。 In the embodiment, the language model generation apparatus according to the present invention has been described as an independent apparatus. However, in the present invention, a general computer can be realized by a program that functions as each of the above-described units. This program may be distributed via a communication line, or may be distributed by writing in a recording medium such as a CD-ROM or a flash memory.
[音声認識装置の構成]
図1に戻り、音声認識装置3の構成を説明する。
図1に示すように、音声認識装置3は、音響モデル記憶部31と、音声分析部33と、探索部35とを備える。
[Configuration of voice recognition device]
Returning to FIG. 1, the configuration of the speech recognition apparatus 3 will be described.
As shown in FIG. 1, the speech recognition device 3 includes an acoustic
音響モデル記憶部31は、音響モデルを予め記憶するメモリ、ハードディスク等の記憶手段である。この音響モデルは、大量の音声データを学習(機械学習)することによって予め生成した確率モデルである。
The acoustic
音声分析部33は、入力音声(音声信号)が入力されると共に、入力音声を音声分析して入力音声の特徴ベクトルを算出し、探索部35に出力する。具体的には、音声分析部33は、入力音声をハミング窓で切り出して、線形予測分析(LPG)やメルケプストラム分析を行って、入力音声の特徴ベクトル(MFCC特徴量)を求める。
The
探索部35は、音声分析部33から入力音声の特徴ベクトルが入力されると共に、この入力音声の特徴ベクトルから、言語モデルと音響モデルと変換後発音辞書とを用いて、音声認識の結果を出力する。具体的には、探索部35は、入力音声の特徴ベクトルと音響モデルとのマッチングを行って確率値(尤度)を求め、この確率値の対数(log)をとった値を音響スコアとして算出する。また、探索部35は、音声認識の実行中、音声認識結果の候補となった単語候補について、言語モデルから出現確率(Nグラム確率)を求める。このとき、探索部35は、基本型のパラメータ(出現確率およびバックオフ係数)を使って正解語探索を行うことが好ましい。そして、探索部35は、この出現確率の対数をとり、言語重みと呼ばれる第1の定数を乗じ、挿入ペナルティーと呼ばれる第2の定数を加えた値を言語スコアとする。その後、探索部35は、図9の変換後発音辞書を参照して、言語スコアと音響スコアとが最大になる単語候補の列を音声認識の結果(図1では認識結果)として出力する。
The
以上のように、本発明の実施形態に係る音声認識装置3は、探索部35によって、正解語探索中に選ばれた単語候補(基本型)に対応する発音系列を参照できるため、図9の変換後発音辞書を利用して、中央列に記載された同意型の表記を出力することができる。すなわち、音声認識装置3は、基本型に対応する同意型の表記と発音とを出力することができ、音声認識システム100の利便性を向上させることができる。
As described above, the speech recognition apparatus 3 according to the embodiment of the present invention can refer to the pronunciation sequence corresponding to the word candidate (basic type) selected during the correct word search by the
以下、実施例として、本発明の効果について説明する。
ここでは、図1の言語モデル生成装置1によって、手法1〜手法3を用いて言語モデルを生成した。そして、各言語モデルを用いて、図1の音声認識装置3によって、報道情報番組(大語彙連続音声認識)を入力音声として、音声認識を行った。また、比較の対象として、従来の手法で生成した言語モデルを用いて、同一の報道情報番組を音声認識し、単語誤り率を求めた。下記の表1に、単語誤り率の結果を示す。
The effects of the present invention will be described below as examples.
Here, the language model is generated using the method 1 to the method 3 by the language model generation device 1 of FIG. Then, using each language model, the speech recognition apparatus 3 in FIG. 1 performed speech recognition using the news report program (large vocabulary continuous speech recognition) as input speech. In addition, as a comparison target, the same news report program was voice-recognized using a language model generated by a conventional method, and a word error rate was obtained. Table 1 below shows the results of word error rate.
表1に示すように、手法1〜手法3の言語モデルは、比較例1,2の言語モデルより単語誤り率(認識誤り)が低いことがわかる。つまり、言語モデル生成装置1は、従来技術に比べて、認識誤りが少ない音声認識を可能とする言語モデルを生成することができる。 As shown in Table 1, it can be seen that the language models of Method 1 to Method 3 have a lower word error rate (recognition error) than the language models of Comparative Examples 1 and 2. That is, the language model generation device 1 can generate a language model that enables speech recognition with fewer recognition errors than in the related art.
また、図9の変換後発音辞書を利用するために、言語モデル削除手段236によって、同意型のNグラムパラメータを削除した言語モデル(実施例4)と、従来の手法で生成した言語モデルとのデータサイズを比較した。
なお、比較例3の手法は、言語モデルに基本型のNグラムパラメータが存在して同意型のNグラムパラメータが存在しない場合、又は、その逆の場合で存在しない方のNグラムパラメータを追加するものである。
Further, in order to use the post-conversion pronunciation dictionary of FIG. 9, the language
The method of Comparative Example 3 adds the non-existing N-gram parameter when the basic N-gram parameter exists in the language model and the consent-type N-gram parameter does not exist, or vice versa. Is.
表2に示すように、実施例4の言語モデルは、比較例1,3の言語モデルに比べて、データサイズが小さくなる。つまり、言語モデル生成装置1は、従来技術に比べて言語モデルのデータサイズを縮小することができる。 As shown in Table 2, the language model of Example 4 has a smaller data size than the language models of Comparative Examples 1 and 3. That is, the language model generation device 1 can reduce the data size of the language model as compared with the prior art.
1 言語モデル生成装置
11 学習テキスト記憶部
12 連鎖語リスト記憶部
13 編集距離付与連鎖語関係リスト記憶部
14 編集距離最小連鎖語関係リスト記憶部
15 同意単語・連鎖語リスト記憶部
16 言語モデル記憶部
17 発音辞書記憶部
18 変換後発音辞書記憶部
21 同意単語・連鎖語選択部(同意語選択部)
211 連鎖語抽出手段
212 編集距離算出手段
213 最小編集距離選択手段(連鎖語候補選択手段)
214 同意単語・連鎖語リスト生成手段
22 言語モデル生成部
23 言語モデル変換部
231 パラメータ抽出手段
232 確率値算出手段
233 履歴処理手段
234 バックオフ係数処理手段
235 言語モデル更新手段
236 言語モデル削除手段
24 発音辞書変換部
3 音声認識装置
31 音響モデル記憶部
33 音声分析部
35 探索部
100 音声認識システム
DESCRIPTION OF SYMBOLS 1 Language model production |
211 Chain word extraction means 212 Edit distance calculation means 213 Minimum edit distance selection means (chain word candidate selection means)
214 Consent word / linked word list generation means 22 Language
Claims (5)
前記学習テキストを確率的言語モデルによって学習することで、前記学習テキストに含まれる単語または連鎖語の少なくとも一方の出現確率を示す言語モデルを生成する言語モデル生成部と、
前記学習テキストの1単語あたりのエントロピーを最も削減する順序で、前記学習テキストに予め設定された頻度以上出現する単語対を前記連鎖語として抽出する連鎖語抽出手段と、
前記連鎖語抽出手段が抽出した連鎖語の編集距離をDPマッチングによって算出する編集距離算出手段と、
前記編集距離算出手段によって算出された編集距離が最小となる連鎖語を同意語候補として選択する最小編集距離選択手段と、
前記同意語候補から予め選択された連鎖語が含まれる選択指示が入力され、前記選択指示に基づいて、同一の意味を有する前記同意語が予め対応付けられた同意語リストを生成する同意単語・連鎖語リスト生成手段と、
前記同意語リストを参照して、前記言語モデルにおいて前記同一の意味を有する同意語の出現確率に基づいて確率値を算出し、前記言語モデルに含まれる前記同意語の出現確率を前記確率値で更新する言語モデル変換部と、
を備えることを特徴とする言語モデル生成装置。 A language model generation device that generates a language model using learning text including synonyms consisting of words or chain words that have the same meaning or different notation or reading,
A language model generation unit that generates a language model indicating the appearance probability of at least one of words or chain words included in the learning text by learning the learning text using a probabilistic language model;
Chain word extraction means for extracting, as the chain word, word pairs that appear more frequently than a preset frequency in the learning text in an order that most reduces entropy per word of the learning text;
Editing distance calculation means for calculating the editing distance of the chain words extracted by the chain word extraction means by DP matching;
Minimum edit distance selection means for selecting as a synonym candidate a chain word that minimizes the edit distance calculated by the edit distance calculation means;
A selection instruction including a chain word preselected from the synonym candidates is input, and based on the selection instruction, a synonym word for generating a synonym list in which the synonyms having the same meaning are associated in advance A chain word list generating means;
With reference to the synonym list, to calculate a probability value based on the probability of occurrence of synonyms having the same meaning in the language model, the probability of occurrence of the synonyms included in the language model with the probability value A language model conversion unit to be updated;
A language model generation apparatus comprising:
前記出現確率が最大となる前記同意語の基本型以外である前記同意語の同意型を、前記言語モデル変換部が更新した後の言語モデルから削除する言語モデル削除手段、
を備えることを特徴とする請求項1に記載の言語モデル生成装置。 The language model conversion unit includes:
Language model deletion means for deleting the synonym synonym type other than the basic type of the synonym having the maximum appearance probability from the language model after the language model conversion unit is updated,
The language model generation apparatus according to claim 1, further comprising:
前記発音辞書を、前記同意語リストを参照して、前記同意語の基本型の表記と、当該基本型に対応する同意語の同意型の表記と、当該同意語の同意型の発音とを少なくとも含む変換後発音辞書に変換する発音辞書変換部と、
をさらに備えることを特徴とする請求項1又は請求項2に記載の言語モデル生成装置。 A pronunciation dictionary storage unit that stores a pronunciation dictionary that associates at least the notation of the synonym and the pronunciation of the synonym in advance;
With reference to the synonym list, the phonetic dictionary includes at least a synonym representation of the synonym, a synonym representation of the synonym corresponding to the basic type, and a synonym pronunciation of the synonym A pronunciation dictionary converter for converting to a converted pronunciation dictionary including:
Language model generating apparatus according to claim 1 or claim 2, further comprising a.
前記音声認識装置は、
音声データを学習することで予め生成した確率モデルである音響モデルを記憶する音響モデル記憶部と、
入力される入力音声を音声分析して当該入力音声の特徴ベクトルを算出する音声分析部と、
前記音声分析部が算出した特徴ベクトルと前記音響モデルとのマッチングにより音響スコアを算出すると共に、前記言語モデルを参照して、音声認識結果の候補となる単語候補の出現確率に第1の定数を乗算した値に第2の定数を加算した言語スコアを算出すると共に、前記言語スコアと前記音響スコアとが最大になる単語候補の列を、前記変換後発音辞書を参照して前記音声認識の結果として出力する探索部と、
を備えることを特徴とする音声認識システム。 A speech recognition system comprising: the language model generation device according to claim 3; and a speech recognition device that performs speech recognition using a language model generated by the language model generation device,
The speech recognition device
An acoustic model storage unit that stores an acoustic model that is a probability model generated in advance by learning speech data;
A voice analysis unit that performs voice analysis on the input voice and calculates a feature vector of the input voice;
An acoustic score is calculated by matching the feature vector calculated by the speech analysis unit and the acoustic model, and a first constant is set for the appearance probability of a word candidate as a speech recognition result candidate with reference to the language model. A language score obtained by adding a second constant to the multiplied value is calculated, and a sequence of word candidates that maximizes the language score and the acoustic score is obtained as a result of the speech recognition with reference to the converted pronunciation dictionary. A search unit that outputs as
A speech recognition system comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010023969A JP5276610B2 (en) | 2010-02-05 | 2010-02-05 | Language model generation apparatus, program thereof, and speech recognition system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010023969A JP5276610B2 (en) | 2010-02-05 | 2010-02-05 | Language model generation apparatus, program thereof, and speech recognition system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011164175A JP2011164175A (en) | 2011-08-25 |
JP5276610B2 true JP5276610B2 (en) | 2013-08-28 |
Family
ID=44594966
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010023969A Expired - Fee Related JP5276610B2 (en) | 2010-02-05 | 2010-02-05 | Language model generation apparatus, program thereof, and speech recognition system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5276610B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105845133A (en) * | 2016-03-30 | 2016-08-10 | 乐视控股(北京)有限公司 | Voice signal processing method and apparatus |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6276516B2 (en) * | 2013-05-08 | 2018-02-07 | 日本放送協会 | Dictionary creation apparatus and dictionary creation program |
JP6485941B2 (en) * | 2014-07-18 | 2019-03-20 | 日本放送協会 | LANGUAGE MODEL GENERATION DEVICE, ITS PROGRAM, AND VOICE RECOGNIZING DEVICE |
WO2017061027A1 (en) | 2015-10-09 | 2017-04-13 | 三菱電機株式会社 | Language model generation device, language model generation method and program therefor, voice recognition device, and voice recognition method and program therefor |
WO2019079957A1 (en) * | 2017-10-24 | 2019-05-02 | Beijing Didi Infinity Technology And Development Co., Ltd. | System and method for key phrase spotting |
CN112673421A (en) * | 2018-11-28 | 2021-04-16 | 谷歌有限责任公司 | Training and/or using language selection models to automatically determine a language for voice recognition of spoken utterances |
JP6811811B1 (en) * | 2019-07-04 | 2021-01-13 | Jcc株式会社 | Metadata generation system, video content management system and programs |
CN112652311B (en) * | 2020-12-01 | 2021-09-03 | 北京百度网讯科技有限公司 | Chinese and English mixed speech recognition method and device, electronic equipment and storage medium |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6126095A (en) * | 1984-07-16 | 1986-02-05 | 富士通株式会社 | Automatic calculation of word-to-word distance |
JP2001195087A (en) * | 2000-01-06 | 2001-07-19 | Mitsubishi Electric Corp | Voice recognition system |
JP3961780B2 (en) * | 2001-05-15 | 2007-08-22 | 三菱電機株式会社 | Language model learning apparatus and speech recognition apparatus using the same |
JP2005031255A (en) * | 2003-07-09 | 2005-02-03 | Mitsubishi Electric Corp | Dictionary creating device and speech recognizing device |
JP5459214B2 (en) * | 2008-08-20 | 2014-04-02 | 日本電気株式会社 | Language model creation device, language model creation method, speech recognition device, speech recognition method, program, and recording medium |
JP5413622B2 (en) * | 2009-04-30 | 2014-02-12 | 日本電気株式会社 | Language model creation device, language model creation method, and program |
-
2010
- 2010-02-05 JP JP2010023969A patent/JP5276610B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105845133A (en) * | 2016-03-30 | 2016-08-10 | 乐视控股(北京)有限公司 | Voice signal processing method and apparatus |
Also Published As
Publication number | Publication date |
---|---|
JP2011164175A (en) | 2011-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5276610B2 (en) | Language model generation apparatus, program thereof, and speech recognition system | |
JP6493866B2 (en) | Information processing apparatus, information processing method, and program | |
CN110675855B (en) | Voice recognition method, electronic equipment and computer readable storage medium | |
JP4769223B2 (en) | Text phonetic symbol conversion dictionary creation device, recognition vocabulary dictionary creation device, and speech recognition device | |
JP6245846B2 (en) | System, method and program for improving reading accuracy in speech recognition | |
JP5310563B2 (en) | Speech recognition system, speech recognition method, and speech recognition program | |
JP2005258439A (en) | Generating large unit of graphoneme with mutual information criterion for character-to-sound conversion | |
JP5752060B2 (en) | Information processing apparatus, large vocabulary continuous speech recognition method and program | |
CN108074562B (en) | Speech recognition apparatus, speech recognition method, and storage medium | |
JP5326169B2 (en) | Speech data retrieval system and speech data retrieval method | |
JP2007047412A (en) | Apparatus and method for generating recognition grammar model and voice recognition apparatus | |
KR20120038198A (en) | Apparatus and method for recognizing speech | |
CN111105787B (en) | Text matching method and device and computer readable storage medium | |
JP5180800B2 (en) | Recording medium for storing statistical pronunciation variation model, automatic speech recognition system, and computer program | |
JP2010078877A (en) | Speech recognition device, speech recognition method, and speech recognition program | |
WO2009139230A1 (en) | Language model score lookahead value imparting device and method for the same, and program recording medium | |
JP2013125144A (en) | Speech recognition device and program thereof | |
KR20080014680A (en) | Speech recognition by statistical language using square-root discounting | |
JP5590549B2 (en) | Voice search apparatus and voice search method | |
JP2007017911A (en) | Voice recognition device and speech recognition program | |
JP4741452B2 (en) | Language model creation device, language model creation program, speech recognition device, and speech recognition program | |
JP3950957B2 (en) | Language processing apparatus and method | |
JP2008026721A (en) | Speech recognizer, speech recognition method, and program for speech recognition | |
JP4733436B2 (en) | Word / semantic expression group database creation method, speech understanding method, word / semantic expression group database creation device, speech understanding device, program, and storage medium | |
JP2012255867A (en) | Voice recognition device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120321 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130215 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130226 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130402 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130423 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130517 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |