JP6518142B2 - Language model generation device and program thereof - Google Patents
Language model generation device and program thereof Download PDFInfo
- Publication number
- JP6518142B2 JP6518142B2 JP2015122789A JP2015122789A JP6518142B2 JP 6518142 B2 JP6518142 B2 JP 6518142B2 JP 2015122789 A JP2015122789 A JP 2015122789A JP 2015122789 A JP2015122789 A JP 2015122789A JP 6518142 B2 JP6518142 B2 JP 6518142B2
- Authority
- JP
- Japan
- Prior art keywords
- language model
- evaluation
- weight
- mixed
- global
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000011156 evaluation Methods 0.000 claims description 199
- 239000000203 mixture Substances 0.000 claims description 53
- 230000001419 dependent effect Effects 0.000 claims description 42
- 230000006870 function Effects 0.000 claims description 4
- 238000007476 Maximum Likelihood Methods 0.000 claims description 3
- 238000013518 transcription Methods 0.000 description 22
- 230000035897 transcription Effects 0.000 description 22
- 238000000034 method Methods 0.000 description 13
- 238000007796 conventional method Methods 0.000 description 10
- 238000004519 manufacturing process Methods 0.000 description 6
- 101100345673 Xenopus laevis mix-b gene Proteins 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000013210 evaluation model Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Description
本発明は、複数の言語モデルを混合して新たな言語モデルを生成する言語モデル生成装置およびそのプログラムに関する。 The present invention relates to a language model generation device that mixes a plurality of language models to generate a new language model, and its program.
従来、独立した学習コーパスから生成された複数の言語モデル(統計的言語モデル)を、音声の認識精度を高めるために混合する手法が存在する(例えば、特許文献1参照)。
この手法は、音声認識対象(発話内容等)と類似した評価用文章を用いて、評価用文章の生成確率が最大となるように線形補間係数(混合重み)を求め、あるいは、線形補間係数をベイズ学習法により求めて、各言語モデルを線形和補間するものである。
Conventionally, there is a method of mixing a plurality of language models (statistical language models) generated from an independent learning corpus in order to improve speech recognition accuracy (see, for example, Patent Document 1).
In this method, a linear interpolation coefficient (mixing weight) is determined using the evaluation text similar to the speech recognition target (speech content etc.) so that the generation probability of the evaluation text is maximized, or the linear interpolation coefficient is calculated. It is obtained by the Bayesian learning method, and linear sum interpolation of each language model is performed.
ここで、図6を参照して、従来の一般的な言語モデルの混合手法について説明する。
図6に示すように、ここでは、2つの言語モデル(グローバル言語モデル20、話題依存言語モデル40)を混合することとする。なお、グローバル言語モデル20は、大規模学習データ(大規模コーパス200)から予め学習し生成したものである。また、話題依存言語モデル40は、音声認識対象の話題(トピック)に依存した小規模学習データ(話題依存小規模コーパス400)から予め学習し生成したものである。
Here, referring to FIG. 6, a conventional general language model mixing method will be described.
As shown in FIG. 6, here, two language models (
例えば、特許文献1の背景技術として記載されている従来手法(第1従来手法)によれば、音声認識対象の話題と類似した評価用文章Hを用いて、評価用文章Hの生成確率が最大となる最尤学習により、グローバル言語モデル20と話題依存言語モデル40との混合重みλを計算する。そして、第1従来手法は、線形和補間手段Mによって、計算で求めた混合重みλを用いて、グローバル言語モデル20と話題依存言語モデル40とを重み付け加算(線形和補間)して混合言語モデル80を生成する。
For example, according to the conventional method (the first conventional method) described as the background art of Patent Document 1, the generation probability of the evaluation sentence H is maximized using the evaluation sentence H similar to the topic of the speech recognition target The mixed weight λ of the
また、特許文献1に記載の発明に係る他の手法(第2従来手法)によれば、前記した第1従来手法よりも少ない評価用文章Hを用いて、ベイズ学習により、線形補間係数を求め、線形和補間して混合言語モデル80を生成する。
このように生成された混合言語モデル80を用いて、音声認識装置100が音声認識を行うことで、グローバル言語モデル20のみを用いる場合に比べ、特定の話題に対する音声認識精度を高めることができる。
Further, according to another method (second conventional method) according to the invention described in Patent Document 1, linear interpolation coefficients are obtained by Bayesian learning using evaluation sentences H smaller than the above-described first conventional method. , Linear sum interpolation to generate a
The speech recognition performed by the
なお、第1従来手法では、評価用文章Hを極力コーパス(大規模コーパス200、話題依存小規模コーパス400)とは異なるように選定することで、過学習を抑えるようにしている。また、第2従来手法では、ベイズ学習を用いて、第1従来手法よりも評価用文章Hの数を減らすことで、さらに、過学習を抑えるようにしている。
ここで、過学習とは、コーパス内に評価用文章が存在していた場合に、その文章(学習データ)に強く言語モデルの出現確率が依存し、他の文章(未知データ)において期待される出現確率が得られない状態となることをいう。
In the first conventional method, over-learning is suppressed by selecting the evaluation text H as different as possible from the corpus (large-
Here, when the text for evaluation exists in the corpus, the overlearning strongly depends on the text (learning data) and the appearance probability of the language model is expected in other texts (unknown data). It means that it will be in the state where the appearance probability can not be obtained.
前記した第1,第2従来手法は、評価用文章を極力コーパスとは異なるように選定したり、ベイズ学習を用いることで少数の評価用文章を選定したりすることで、過学習を抑えるようにしている。
しかし、コーパスが大規模であればあるほど、コーパス内に存在している文章を除いて、評価用文章を選定することは現実的に困難である。すなわち、従来手法では、評価用文章としてコーパス内の文章を用いる場合があり、評価用文章により過学習が発生してしまうという問題がある。
In the first and second conventional methods described above, over-learning can be suppressed by selecting sentences for evaluation as different as possible from the corpus as much as possible, or selecting a small number of sentences for evaluation by using Bayesian learning. I have to.
However, as the corpus is larger, it is practically difficult to select evaluation sentences except for sentences existing in the corpus. That is, in the conventional method, the sentences in the corpus may be used as the sentences for evaluation, and there is a problem that over-learning occurs due to the sentences for evaluation.
本発明は、このような問題に鑑みてなされたものであり、評価用文章に用いる各文章が評価用文章として適切か否かを予め評価し、適切な評価用文章を用いることで、過学習を抑えて、言語モデルを混合することが可能な言語モデル生成装置およびそのプログラムを提供することを課題とする。 The present invention has been made in view of such a problem, and it is evaluated in advance whether each sentence used for evaluation sentences is appropriate as an evaluation sentence and by using an appropriate evaluation sentence, overlearning It is an object of the present invention to provide a language model generation device capable of mixing language models while suppressing the
前記課題を解決するため、本発明に係る言語モデル生成装置は、音声認識対象の話題に関連する学習コーパスから予め学習した話題依存言語モデルと、前記学習コーパスよりもデータ量の多い学習コーパスで予め学習したグローバル言語モデルとを混合し、音声認識対象の混合言語モデルを生成する言語モデル生成装置であって、評価重み生成手段と、第1混合重み生成手段と、第1線形和補間手段と、第2混合重み生成手段と、第2線形和補間手段と、を備える構成とした。 In order to solve the above problem, the language model generation device according to the present invention comprises a topic-dependent language model learned in advance from a learning corpus related to a speech recognition target topic, and a learning corpus having a larger amount of data than the learning corpus. A language model generation device that mixes a learned global language model and generates a mixed language model of a speech recognition target, the evaluation weight generation unit, the first mixture weight generation unit, and the first linear sum interpolation unit. The second mixture weight generation means and the second linear sum interpolation means are provided.
かかる構成において、言語モデル生成装置は、評価重み生成手段によって、グローバル言語モデルに対して、音声認識対象の話題に関連する予め選定された評価用文章の全体を用いて、言語モデルを評価するための評価値(例えば、パープレキシティ)を全体評価値として算出する。
さらに、言語モデル生成装置は、評価重み生成手段によって、グローバル言語モデルに対して、評価用文章を予め定めた分類により区分した区分文章を用いて、区分文章ごとの評価値を個別評価値として算出する。
In such a configuration, the language model generation device evaluates the language model by using the evaluation weight generation means, with respect to the global language model, using the whole of the evaluation sentences selected in advance related to the topic of the speech recognition target. An evaluation value of (for example, perplexity) is calculated as an overall evaluation value.
Furthermore, the language model generation apparatus calculates the evaluation value for each divided sentence as an individual evaluation value using the divided sentences obtained by dividing the evaluation sentences according to the predetermined classification with respect to the global language model by the evaluation weight generation means. Do.
そして、言語モデル生成装置は、評価重み生成手段によって、区分文章ごとに評価用文章としての適否の度合いを評価重みとして生成する。すなわち、評価重み生成手段は、区分文章を用いた方が評価用文章全体を用いた場合よりもグローバル言語モデルの評価が低ければ、区分文章の評価重みを大きく、評価が高ければ、区分文章の評価重みを小さくして評価重みを生成する。これは、区分文章を用いた方がグローバル言語モデルの評価が高ければ、区分文章がすでにグローバル言語モデルを学習するために用いた学習コーパスに含まれている可能性が高く、過学習となることを防止するためである。
このように、区分単位で評価用文章を評価することで、言語モデル生成装置は、評価用文章の区分単位ごとに過学習の度合いを評価することが可能になる。
Then, the language model generation apparatus generates, as an evaluation weight, the degree of suitability as an evaluation sentence for each divided sentence by the evaluation weight generation means. That is, the evaluation weight generation means increases the evaluation weight of the divided sentence if the evaluation of the global language model is lower when the divided sentence is used than when the entire evaluation sentence is used, and if the evaluation is high, The evaluation weight is generated by reducing the evaluation weight. This means that if the evaluation of the global language model is higher when the divided sentences are used, it is highly likely that the divided sentences are already included in the learning corpus used to learn the global language model, resulting in over-learning. To prevent
As described above, by evaluating the evaluation sentences in division units, the language model generation device can evaluate the degree of overlearning for each classification unit of evaluation sentences.
そして、言語モデル生成装置は、第1混合重み生成手段によって、グローバル言語モデルを学習するために用いた学習コーパスを構成する複数の個別学習コーパスから予め学習した複数の個別言語モデルを、区分文章ごとに評価重みの割合で線形和補間したときの対数尤度が最大となる混合重みを生成する。
このように、第1混合重み生成手段は、言語モデルを線形和補間する割合として評価重みを加味することで、過学習の発生を抑えるとともに、評価用文章における区分文章の生成確率を高める方向に作用する混合重みを生成することができる。
Then, the language model generation device generates, by the first mixture weight generation means, the plurality of individual language models previously learned from the plurality of individual learning corpuses constituting the learning corpus used for learning the global language model, To generate a mixture weight that maximizes the log likelihood when performing linear sum interpolation at the rate of evaluation weight.
As described above, the first mixed weight generation unit suppresses the occurrence of overlearning by adding the evaluation weight as a ratio of performing linear sum interpolation on the language model, and increases the generation probability of the divided sentences in the evaluation sentence. Working mixing weights can be generated.
そして、言語モデル生成装置は、第1線形和補間手段によって、第1混合重み生成手段で生成された混合重みの割合で、複数の個別言語モデルを線形和補間して混合グローバル言語モデルを生成する。すなわち、この混合グローバル言語モデルは、グローバル言語モデルよりも、音声認識対象の話題に対する単語の接続確率を高めた言語モデルとなる。 Then, the language model generation apparatus generates a mixed global language model by performing linear sum interpolation on a plurality of individual language models at a ratio of the mixed weight generated by the first mixed weight generation unit by the first linear sum interpolation unit. . That is, this mixed global language model is a language model in which the connection probability of the word to the speech recognition target topic is higher than that of the global language model.
また、言語モデル生成装置は、第2混合重み生成手段によって、区分文章ごとに評価重みの割合で混合グローバル言語モデルと話題依存言語モデルとを線形和補間したときの対数尤度が最大となる混合重みを生成する。
このように、第2混合重み生成手段は、言語モデルを線形和補間する割合として評価重みを加味することで、過学習の発生を抑えるとともに、評価用文章における区分文章の生成確率を高める方向に作用する混合重みを生成することができる。
Also, the language model generation device is a mixture that maximizes the log likelihood when performing linear sum interpolation between the mixed global language model and the topic dependent language model at the rate of the evaluation weight for each divided sentence by the second mixture weight generation means. Generate weights.
As described above, the second mixed weight generation unit suppresses the occurrence of overlearning by adding the evaluation weight as a ratio of linear sum interpolation of the language model, and increases the generation probability of the divided sentences in the evaluation sentence. Working mixing weights can be generated.
そして、言語モデル生成装置は、第2線形和補間手段によって、第2混合重み生成手段で生成された混合重みの割合で、混合グローバル言語モデルおよび話題依存言語モデルを線形和補間することで音声認識対象の混合言語モデルを生成する。 Then, the language model generation device performs speech recognition by performing linear sum interpolation on the mixed global language model and the topic dependent language model at the ratio of the mixed weight generated by the second mixed weight generation means by the second linear sum interpolation means. Generate a mixed language model of the object.
また、前記課題を解決するため、本発明に係る言語モデル生成装置は、音声認識対象の話題に関連する学習コーパスから予め学習した話題依存言語モデルと、前記学習コーパスよりもデータ量の多い学習コーパスで予め学習したグローバル言語モデルとを混合し、前記音声認識対象の混合言語モデルを生成する言語モデル生成装置であって、評価重み生成手段と、混合重み生成手段と、線形和補間手段と、を備える構成とした。 Further, in order to solve the above problem, the language model generation device according to the present invention includes a topic-dependent language model learned in advance from a learning corpus related to a speech recognition target topic, and a learning corpus having a larger amount of data than the learning corpus. A language model generation apparatus for generating a mixed language model of the speech recognition target by mixing the global language model learned in advance with the evaluation model, the evaluation weight generation means, the mixture weight generation means, and the linear sum interpolation means It had composition.
かかる構成において、言語モデル生成装置は、評価重み生成手段によって、グローバル言語モデルに対して、音声認識対象の話題に関連する予め選定された評価用文章の全体を用いて、言語モデルを評価するための評価値(例えば、パープレキシティ)を全体評価値として算出する。
さらに、言語モデル生成装置は、評価重み生成手段によって、グローバル言語モデルに対して、評価用文章を予め定めた分類により区分した区分文章を用いて、区分文章ごとの評価値を個別評価値として算出する。
In such a configuration, the language model generation device evaluates the language model by using the evaluation weight generation means, with respect to the global language model, using the whole of the evaluation sentences selected in advance related to the topic of the speech recognition target. An evaluation value of (for example, perplexity) is calculated as an overall evaluation value.
Furthermore, the language model generation apparatus calculates the evaluation value for each divided sentence as an individual evaluation value using the divided sentences obtained by dividing the evaluation sentences according to the predetermined classification with respect to the global language model by the evaluation weight generation means. Do.
そして、言語モデル生成装置は、評価重み生成手段によって、区分文章ごとに評価用文章としての適否の度合いを評価重みとして生成する。すなわち、評価重み生成手段は、区分文章を用いた方が評価用文章全体を用いた場合よりもグローバル言語モデルの評価が低ければ、区分文章の評価重みを大きく、評価が高ければ、区分文章の評価重みを小さくして評価重みを生成する。
このように、区分単位で評価用文章を評価することで、言語モデル生成装置は、評価用文章の区分単位ごとに過学習の度合いを評価することが可能になる。
Then, the language model generation apparatus generates, as an evaluation weight, the degree of suitability as an evaluation sentence for each divided sentence by the evaluation weight generation means. That is, the evaluation weight generation means increases the evaluation weight of the divided sentence if the evaluation of the global language model is lower when the divided sentence is used than when the entire evaluation sentence is used, and if the evaluation is high, The evaluation weight is generated by reducing the evaluation weight.
As described above, by evaluating the evaluation sentences in division units, the language model generation device can evaluate the degree of overlearning for each classification unit of evaluation sentences.
そして、言語モデル生成装置は、混合重み生成手段によって、区分文章ごとに評価重みの割合でグローバル言語モデルと前題依存言語モデルとを線形和補間したときの対数尤度が最大となる混合重みを生成する。
このように、混合重み生成手段は、言語モデルを線形和補間する割合として評価重みを加味することで、過学習の発生を抑えるとともに、評価用文章における区分文章の生成確率を高める方向に作用する混合重みを生成することができる。
Then, the language model generation device uses the mixture weight generation means to obtain the mixture weight that maximizes the log likelihood when performing linear sum interpolation between the global language model and the proposition dependent language model at the rate of the evaluation weight for each divided sentence. Generate
As described above, the mixing weight generation means suppresses the occurrence of overlearning and acts in a direction to increase the generation probability of the divided sentences in the evaluation sentence by adding the evaluation weight as a ratio of performing linear sum interpolation on the language model. Mixed weights can be generated.
そして、言語モデル生成装置は、線形和補間手段によって、混合重み生成手段で生成された混合重みの割合で、グローバル言語モデルおよび話題依存言語モデルを線形和補間し、音声認識対象の混合言語モデルを生成する。
これによって、言語モデル生成装置は、既存のグローバル言語モデルと、音声認識対象の小規模の話題依存言語モデルとを混合する際に、過学習を抑えて音声認識対象に適した言語モデルを生成することができる。
なお、言語モデル生成装置は、コンピュータを、前記した各手段として機能させるための言語モデル生成プログラムで動作させることができる。
Then, the language model generation device performs linear sum interpolation on the global language model and the topic dependent language model at a ratio of the mixture weight generated by the mixture weight generation means by the linear sum interpolation means, and generates a mixed language model as a speech recognition target. Generate
Thus, the language model generation device suppresses overlearning and generates a language model suitable for a speech recognition target when mixing an existing global language model and a small-scale topic-dependent language model targeted for speech recognition. be able to.
The language model generation device can be operated by a language model generation program for causing a computer to function as each of the above-described means.
本発明は、以下に示す優れた効果を奏するものである。
本発明によれば、混合する言語モデルにおいて、評価用文章の予め区分した文章ごとに、過学習となるか否かを評価して評価重みを生成し、その評価重みを用いて、言語モデルを混合するための混合重みを計算する。そのため、本発明は、過学習を抑えて言語モデルを生成することができる。また、本発明により生成された過学習が抑えられた言語モデルを音声認識に用いることで、従来よりも認識精度の高い音声認識を行うことが可能になる。
The present invention exhibits the following excellent effects.
According to the present invention, in the language model to be mixed, it is evaluated whether or not overlearning is obtained for each of the sentences classified in advance for the evaluation sentences to generate an evaluation weight, and the language model is generated using the evaluation weight. Calculate mixing weights for mixing. Therefore, the present invention can generate language models while suppressing overlearning. Further, by using the language model in which overlearning is suppressed according to the present invention for speech recognition, speech recognition with higher recognition accuracy than before can be performed.
以下、本発明の実施形態(第1,第2実施形態)について図面を参照して説明する。
第1実施形態は、大規模コーパスを構成する元の素材ごとに学習した複数の言語モデルを音声認識対象の言語に適するように混合し、さらに、小規模コーパスから学習した音声認識対象の話題(トピック)に依存した言語モデルを混合する形態である。
第2実施形態は、第1実施形態を簡略化し、大規模コーパスから学習した1つの言語モデルと、小規模コーパスとなる音声認識対象の話題(トピック)に依存した言語モデルとを混合する形態である。
Hereinafter, embodiments (first and second embodiments) of the present invention will be described with reference to the drawings.
In the first embodiment, a plurality of language models learned for each of the original materials constituting the large-scale corpus are mixed to be suitable for the language of the speech recognition target, and a topic of the speech recognition target learned from the small-scale corpus ( It is a form that mixes language models depending on the topic).
In the second embodiment, the first embodiment is simplified, and one language model learned from a large corpus is mixed with a language model dependent on a topic for speech recognition to be a small corpus. is there.
ここで、言語モデルとは、任意の文字列において、それが文である確率を付与する確率モデル(統計的言語モデル)である。この言語モデルは、例えば、Nグラム言語モデルであって、以下の式(1)に示すように、単語列w1w2…wi−1の後に単語wiが出現する条件付き確率(Nグラム確率)で与えるモデルである。 Here, the language model is a probability model (statistical language model) which gives the probability that it is a sentence in an arbitrary character string. The language model, for example, N grams a language model, as shown in the following equation (1), a word string w 1 w 2 ... w conditional probability of a word w i after the i-1 appears (N It is a model given by gram probability).
なお、図1等では、式(1)を簡略化して、P(w|h)と表記している。すなわち、hは、単語wの直前に出現する単語列である。 In addition, in FIG. 1 etc., Formula (1) is simplified and it describes with P (w | h). That is, h is a word string appearing immediately before the word w.
≪第1実施形態≫
〔言語モデル生成装置の構成〕
まず、図1を参照して、本発明の第1実施形態に係る言語モデル生成装置1の構成について説明する。
First Embodiment
[Configuration of Language Model Generation Device]
First, the configuration of the language model generation device 1 according to the first embodiment of the present invention will be described with reference to FIG.
言語モデル生成装置1は、音声認識対象の話題に関連する学習コーパスから予め学習した話題依存言語モデル40と、当該学習コーパスよりもデータ量の多い学習コーパス(大規模コーパス)を構成する独立した複数の学習コーパスからそれぞれ予め学習した複数の個別言語モデル(ここでは、一例として、原稿言語モデル30、字幕言語モデル31、書き起こし言語モデル32)とを混合し、音声認識対象の言語モデル(混合言語モデル50)を生成するものである。
The language model generation device 1 includes a plurality of topic
なお、図1中、グローバル言語モデル20は、原稿言語モデル30、字幕言語モデル31および書き起こし言語モデル32を生成したそれぞれの学習コーパスを1つの学習コーパス(大規模コーパス)として学習した言語モデルである。
また、図1中、混合グローバル言語モデル21は、言語モデル生成装置1が、原稿言語モデル30と、字幕言語モデル31と、書き起こし言語モデル32とを混合して生成する途中段階の言語モデルである。
なお、言語モデルの学習とは、学習コーパスから前記式(1)の確率を、最尤推定法等の一般的な手法によって求めるものであり、ここでは、詳細な説明を省略する。
In FIG. 1, the
Further, in FIG. 1, the mixed
The learning of the language model is to obtain the probability of the equation (1) from the learning corpus by a general method such as the maximum likelihood estimation method, and the detailed description is omitted here.
ここで、図2を参照して、言語モデル生成装置1が混合する言語モデルの関係について説明しておく。
図2(a)に示すように、グローバル言語モデル20は、大規模コーパス200に含まれる「原稿」、「字幕」、「書き起こし」のそれぞれの学習データ(個別学習コーパス)から予め学習された言語モデルである。「原稿」は、例えば、ニュース等の放送番組の原稿データである。また、「字幕」は、放送番組に付与した字幕データである。また、「書き起こし」は、放送番組が実際に放送された音声を人手で書き起こした書き起こしデータである。この大規模コーパス200は、これらのデータ(学習データ)を、例えば、数年分蓄積したデータである。
また、図2(a)に示すように、原稿言語モデル30は、大規模コーパス200に含まれる「原稿」から予め学習された言語モデルである。字幕言語モデル31は、大規模コーパス200に含まれる「字幕」から予め学習された言語モデルである。書き起こし言語モデル32は、大規模コーパス200に含まれる「書き起こし」から予め学習された言語モデルである。
Here, with reference to FIG. 2, the relationship of the language model which the language model production | generation apparatus 1 mixes is demonstrated.
As shown in FIG. 2A, the
Further, as shown in FIG. 2A, the
また、図2(b)に示すように、話題依存言語モデル40は、話題依存小規模コーパス400から予め学習された言語モデルである。この話題依存小規模コーパス400は、音声認識対象のトピック(話題)に類似した学習データである。例えば、音声認識の対象をスポーツ番組の音声とした場合、話題依存小規模コーパス400は、過去に放送されたスポーツ番組から書き起こした学習データ等である。
図1に戻って、言語モデル生成装置1の構成について詳細に説明する。
Also, as shown in FIG. 2 (b), the topic
Referring back to FIG. 1, the configuration of the language model generation device 1 will be described in detail.
図1に示すように、言語モデル生成装置1は、評価重み生成手段10と、混合重み生成手段(第1混合重み生成手段11A、第2混合重み生成手段11B)と、線形和補間手段(第1線形和補間手段12A、第2線形和補間手段12B)と、を備える。
As shown in FIG. 1, the language model generation device 1 includes an evaluation
評価重み生成手段10は、評価用文章Hを構成する各文章(単語列)を用いて、グローバル言語モデル20を評価し、評価用文章Hの各文章が評価用文章として適切か否かを評価重みとして生成するものである。
ここで、評価用文章Hは、音声認識対象のトピック(話題)に関連(類似)した内容の文章として選定された文章である。例えば、音声認識対象を、ある情報を提供する放送番組(情報番組)とした場合、評価用文章Hとして、過去の同じ情報番組の書き起こしを用いればよい。ここでは、評価重み生成手段10に入力される評価用文章をH={h1,…,hc,…}とし、各hcは、1以上の文章で構成されるものとする。例えば、各hcを、情報番組の番組内の各コーナーの書き起こしとすればよい。すなわち、評価用文章Hは、予め定めた単位、例えば、1文章ごと、あるいは、予め定めた分類で区分された1以上の文章(区分文章)ごとに分類されているものとする。
The evaluation weight generation means 10 evaluates the
Here, the evaluation sentence H is a sentence selected as a sentence of content related (similar) to a topic (topic) to be subjected to speech recognition. For example, when the speech recognition target is a broadcast program (information program) providing certain information, a transcript of the same information program in the past may be used as the evaluation sentence H. Here, it is assumed that the evaluation sentences input to the evaluation weight generation means 10 are H = {h 1 ,..., H c ,...}, And each h c is composed of one or more sentences. For example, each h c may be a transcription of each corner in the program of the information program. That is, it is assumed that the evaluation sentences H are classified in predetermined units, for example, one sentence or one sentence or more (sorted sentences) classified in a predetermined classification.
この評価重み生成手段10は、評価用文章Hを用いて、パープレキシティ(平均分岐数)により、グローバル言語モデル20を評価する。このパープレキシティは、ある単語に対して次につながる単語の平均個数を示し、その値が小さいほど、言語モデルの精度が高いという評価を与えることができる評価値である。
The evaluation
具体的には、評価重み生成手段10は、以下の式(2)により、評価用文章Hの文章全体{h1,…,hc,…}を用いてパープレキシティPP(全体評価値、全体パープレキシティPPall)と、評価用文章Hの個別の文章(区分文章){hc}ごとにパープレキシティPP(個別評価値、個別パープレキシティPPc)とを計算する。 Specifically, the evaluation weight generation means 10 uses perplexity PP (whole evaluation value, using the whole sentence {h 1 ,..., H c ,. Overall perplexity PP all ) and perplexity PP (individual evaluation value, individual perplexity PP c ) are calculated for each individual sentence (segmented sentence) {h c } of evaluation text H.
この式(2)において、Pglobal(wi|wi−N+1…wi−1)は、グローバル言語モデル20の条件付き確率(Nグラム確率)を示す。また、nは、全体パープレキシティPPallを計算する場合、評価用文章Hの文章全体の単語数であり、個別パープレキシティPPcを計算する場合、評価用文章Hの個別の区分文章{hc}の単語数である。
In this equation (2), P global (w i | w i −N + 1 ... W i−1 ) represents the conditional probability (N-gram probability) of the
そして、評価重み生成手段10は、全体パープレキシティPPallと、個別パープレキシティPPcとを比較する。ここで、個別パープレキシティPPcの方が大きければ、すなわち、区分文章を用いた方が評価用文章H全体を用いた場合よりもグローバル言語モデル20の評価が低ければ、評価重み生成手段10は、対応する個別の区分文章{hc}の評価用文章としての重みを大きくする。一方、区分文章を用いた方が評価用文章H全体を用いた場合よりもグローバル言語モデル20の評価が高ければ、評価重み生成手段10は、個別の区分文章{hc}の評価用文章としての重みを小さくする。
例えば、評価重み生成手段10は、以下の式(3)に示すように、PPC>PPallであれば、文章{hc}に対する評価重みαcを“1”、PPC≦PPallであれば、区分文章{hc}に対する評価重みαcを“0”とする。
Then, the evaluation weight generation means 10 compares the overall perplexity PP all with the individual perplexity PP c . Here, if the individual perplexity PP c is larger, that is, if the evaluation of the
For example, evaluation
この評価重み生成手段10は、評価用文章Hの区分文章ごとに評価重みを対応付け、重み付き評価用文章として、第1混合重み生成手段11Aおよび第2混合重み生成手段11Bに出力する。 The evaluation weight generation means 10 associates the evaluation weight with each of the divided sentences of the evaluation sentence H, and outputs it as a weighted evaluation sentence to the first mixed weight generation means 11A and the second mixed weight generation means 11B.
第1混合重み生成手段11Aは、評価重み生成手段10で生成された重み付き評価用文章(評価用文章、評価重み)を用いて、複数の言語モデル(原稿言語モデル30、字幕言語モデル31および書き起こし言語モデル32)を混合する重み係数(混合重み)を生成するものである。この第1混合重み生成手段11Aは、重み付き評価用文章の対数尤度が最大となるように各言語モデルの混合重みを算出する。
The first mixed
具体的には、第1混合重み生成手段11Aは、以下の式(4)の対数尤度Lを最大化する原稿言語モデル30の混合重みλgenko、字幕言語モデル31の混合重みλjimaku、書き起こし言語モデル32の混合重みλkakiokoshiを算出する。
Specifically, first mixing
この式(4)において、cは、評価用文章H={h1,…,hc,…}の区分文章hcを指し示す指標であり、Cはその文章総数を示す。また、Pgenko(wi c|wi−N+1 c…wi−1 c)は、文章hcに対する原稿言語モデル30の条件付き確率(Nグラム確率)を示す。また、Pjimaku(wi c|wi−N+1 c…wi−1 c)は、区分文章hcに対する字幕言語モデル31の条件付き確率(Nグラム確率)を示す。また、Pkakiokoshi(wi c|wi−N+1 c…wi−1 c)は、区分文章hcに対する書き起こし言語モデル32の条件付き確率(Nグラム確率)を示す。また、ncは区分文章hcの単語数、wcは区分文章hcの単語を示す。
この第1混合重み生成手段11Aは、前記式(4)を最大化する混合重みλ(λgenko,λjimaku,λkakiokoshi)を、EMアルゴリズム等により生成(算出)することができる。
この第1混合重み生成手段11Aは、生成した混合重みλ(λgenko,λjimaku,λkakiokoshi)を、第1線形和補間手段12Aに出力する。
In the formula (4), c is the evaluation sentence H = {h 1, ..., h c, ...} is an index pointing to segment text h c of, C is indicative of the sentence total. In addition, P genko (w i c | w i-N + 1 c ... w i-1 c) shows the conditional probability of the
The first mixing weight generation means 11A can generate (calculate) the mixing weights λ (λ genko , λ jimaku , λ kakiokoshi ) maximizing the equation (4) by the EM algorithm or the like.
The first mixing weight generation means 11A outputs the generated mixing weights λ (λ genko , λ jimaku , λ kakiokoshi ) to the first linear sum interpolation means 12A.
第1線形和補間手段12Aは、第1混合重み生成手段11Aで生成された混合重みλを用いて、複数の言語モデル(原稿言語モデル30、字幕言語モデル31および書き起こし言語モデル32)を混合するものである。
The first linear
具体的には、第1線形和補間手段12Aは、以下の式(5)に示すように、混合する言語モデル間で、同じ単語wiごとに、混合重みλ(λgenko,λjimaku,λkakiokoshi)を用いてNグラム確率を重み付き加算(線形和補間)することで、混合グローバル言語モデル21を生成する。ここで、Pmix(wi|wi−N+1…wi−1)は、生成される混合グローバル言語モデル21のNグラム確率を示す。
Specifically, the first linear sum interpolation means 12A, as shown in the following equation (5), between the language model be mixed, each same word w i, mixture weight λ (λ genko, λ jimaku, λ A mixed
このように生成された混合グローバル言語モデル21は、グローバル言語モデル20よりも、音声認識対象の表現に対する条件付き確率を高めた言語モデルとなる。
この第1線形和補間手段12Aは、生成した混合グローバル言語モデル21を、図示を省略した記憶手段に書き込み記憶する。また、この混合グローバル言語モデル21は、後記する第2混合重み生成手段11Bおよび第2線形和補間手段12Bによって参照される。
The mixed
The first linear sum interpolation means 12A writes and stores the generated mixed
第2混合重み生成手段11Bは、評価重み生成手段10で生成された重み付き評価用文章(評価用文章、評価重み)を用いて、複数の言語モデル(混合グローバル言語モデル21および話題依存言語モデル40)を混合する重み係数(混合重み)を生成するものである。この第2混合重み生成手段11Bは、重み付き評価用文章の対数尤度が最大となるように各言語モデルの混合重みを算出する。
この第2混合重み生成手段11Bにおける混合重みの生成手法は、混合する言語モデルが異なるだけで、第1混合重み生成手段11Aと同じである。
The second mixed
The method of generating mixture weights in the second mixture weight generation means 11B is the same as the first mixture weight generation means 11A except that the language model to be mixed is different.
具体的には、第2混合重み生成手段11Bは、以下の式(6)の対数尤度Lを最大化する混合グローバル言語モデル21の混合重みλmix、話題依存言語モデル40の混合重みλwadaiを算出する。
Specifically, the second mixture weight generation means 11 B mixes the mixture weights λ mix of the mixed
この式(6)において、Pmix(wi c|wi−N+1 c…wi−1 c)は、文章hcに対する混合グローバル言語モデル21の条件付き確率(Nグラム確率)を示す。また、Pwadai(wi c|wi−N+1 c…wi−1 c)は、文章hcに対する話題依存言語モデル40の条件付き確率(Nグラム確率)を示す。他の変数は、前記式(4)と同じである。
この第2混合重み生成手段11Bは、生成した混合重みλ(λmix,λwadai)を、第2線形和補間手段12Bに出力する。
In the formula (6), P mix (w i c | w i-N + 1 c ... w i-1 c) illustrates a conditional probability of mixing for sentence h c global language model 21 (N-gram probability). In addition, P wadai (w i c | w i-N + 1 c ... w i-1 c) shows the conditional probability of topic
The second mixing weight generation means 11B outputs the generated mixing weights λ (λ mix , λ wadai ) to the second linear sum interpolation means 12B.
第2線形和補間手段12Bは、第2混合重み生成手段11Bで生成された混合重みλを用いて、複数の言語モデル(混合グローバル言語モデル21および話題依存言語モデル40)を混合するものである。
この第2線形和補間手段12Bにおける混合手法は、混合する言語モデルが異なるだけで、第1線形和補間手段12Aと同じである。
The second linear
The mixing method in the second linear sum interpolation means 12B is the same as the first linear sum interpolation means 12A except for the language model to be mixed.
具体的には、第2線形和補間手段12Bは、以下の式(7)に示すように、混合する言語モデル間で、同じ単語wiごとに、混合重みλ(λmix,λwadai)を用いてNグラム確率を重み付き加算(線形和補間)することで、混合言語モデル50を生成する。ここで、Pmix2(wi|wi−N+1…wi−1)は、生成される混合言語モデル50のNグラム確率を示す。
Specifically, the second linear
これによって、混合言語モデル50は、音声認識対象の表現に対する条件付き確率を高めた混合グローバル言語モデル21に対して、さらに、音声認識対象のトピック(話題)についての条件付き確率を高めた言語モデルとなる。
なお、言語モデル生成装置1が生成する混合言語モデル50は、一般的な音声認識装置において使用することができる。その場合、例えば、図3に示すように、音声認識装置100は、言語モデル生成装置1が生成する混合言語モデル50と、既存の発音辞書60および音響モデル70とにより、音声を音声認識し認識結果を出力する。
As a result, the
The
以上説明したように言語モデル生成装置1を構成することで、言語モデル生成装置1は、複数の言語モデルを混合する際に、使用する評価用文章Hに対して評価重みを設け、混合重みを算出して混合するため、過学習を抑えることができる。
また、言語モデル生成装置1は、混合グローバル言語モデル21において、音声認識対象の表現に対する条件付き確率が高められているため、後記する第2実施形態(図5)のように、グローバル言語モデル20に話題依存言語モデル40を直接混合する場合に比べ、音声認識対象の表現に対する条件付き確率をさらに高めることができる。
By configuring the language model generation device 1 as described above, the language model generation device 1 provides an evaluation weight to the evaluation sentence H to be used when mixing a plurality of language models, and mixes the mixed weights. Since it calculates and mixes, over-learning can be suppressed.
Further, in the language model generation device 1, since the conditional probability with respect to the expression of the speech recognition target is enhanced in the mixed
なお、言語モデル生成装置1は、図示を省略したコンピュータを、評価重み生成手段10、第1混合重み生成手段11A、第1線形和補間手段12A、第2混合重み生成手段11B、第2線形和補間手段12Bとして機能させるプログラム(言語モデル生成プログラム)で動作させることができる。 The language model generation device 1 is a computer whose illustration is omitted, evaluation weight generation means 10, first mixed weight generation means 11A, first linear sum interpolation means 12A, second mixed weight generation means 11B, second linear sum It can be operated by a program (language model generation program) to function as the interpolation means 12B.
〔言語モデル生成装置の動作〕
次に、図4を参照(構成については適宜図1参照)して、本発明の第1実施形態に係る言語モデル生成装置1の動作について説明する。
まず、言語モデル生成装置1は、評価重み生成手段10によって、大規模コーパスを用いて学習したグローバル言語モデル20から、評価用文章Hの評価重みを生成する(ステップS1)。
具体的には、評価重み生成手段10は、評価用文章Hの文章全体{h1,…,hc,…}を用いてパープレキシティPP(全体パープレキシティPPall)を計算し、評価用文章Hの個別の文章{hc}ごとにパープレキシティPP(個別パープレキシティPPc)を計算する(前記式(2)参照)。そして、評価重み生成手段10は、全体パープレキシティPPallよりも個別パープレキシティPPcの方が大きければ、対応する個別の文章{hc}の評価用文章としての重みを大きくし、それ以外であれば、個別の文章{hc}の評価用文章としての重みを小さくするように、評価重みを生成する(前記式(3)参照)。
[Operation of language model generation device]
Next, the operation of the language model generation device 1 according to the first embodiment of the present invention will be described with reference to FIG. 4 (refer to FIG. 1 for the configuration as appropriate).
First, the language model generation device 1 generates the evaluation weight of the evaluation sentence H from the
Specifically, the evaluation weight generation means 10 calculates perplexity PP (overall perplexity PP all ) using the whole sentence {h 1 ,..., H c ,. Perplexity PP (individual perplexity PP c ) is calculated for each individual sentence {h c } of sentence H (see equation (2) above). Then, if the individual perplexity PP c is larger than the whole perplexity PP all , the evaluation weight generation means 10 increases the weight of the corresponding individual sentence {h c } as an evaluation sentence, Otherwise, an evaluation weight is generated so as to reduce the weight of the individual sentence {h c } as an evaluation sentence (see the equation (3)).
そして、言語モデル生成装置1は、第1混合重み生成手段11Aによって、ステップS1で生成された評価重みを用いて、大規模コーパスに含まれる原稿、字幕、書き起こしの各学習データから学習した原稿言語モデル30、字幕言語モデル31および書き起こし言語モデル32を混合する混合重みλ(λgenko,λjimaku,λkakiokoshi)を生成する(ステップS2)。
具体的には、第1混合重み生成手段11Aは、評価用文章の対数尤度が最大となるように原稿言語モデル30、字幕言語モデル31および書き起こし言語モデル32の混合重みを算出する(前記式(4)参照)。
Then, the language model generation device 1 uses the evaluation weight generated in step S1 by the first mixed
Specifically, the first mixing
そして、言語モデル生成装置1は、第1線形和補間手段12Aによって、ステップS2で算出された混合重みを用いて、原稿言語モデル30、字幕言語モデル31および書き起こし言語モデル32を混合し、混合グローバル言語モデル21を生成する(ステップS3)。
具体的には、第1線形和補間手段12Aは、ステップS2で算出された原稿言語モデル30、字幕言語モデル31および書き起こし言語モデル32の混合重みλ(λgenko,λjimaku,λkakiokoshi)を用いて、Nグラム確率を重み付き加算(線形和補間)することで、混合グローバル言語モデル21を生成する(前記式(5)参照)。
Then, the language model generation device 1 mixes the
Specifically, the first linear
そして、言語モデル生成装置1は、第2混合重み生成手段11Bによって、ステップS1で生成された評価重みを用いて、ステップS3で生成された混合グローバル言語モデル21と、話題依存小規模コーパスから学習した話題依存言語モデル40とを混合する混合重みλ(λmix,λwadai)を生成する(ステップS4)。
具体的には、第2混合重み生成手段11Bは、評価用文章の対数尤度が最大となるように混合グローバル言語モデル21および話題依存言語モデル40の混合重みを算出する(前記式(6)参照)。
Then, the language model generation device 1 learns from the mixed
Specifically, the second mixed
そして、言語モデル生成装置1は、第2線形和補間手段12Bによって、ステップS4で算出された混合重みを用いて、混合グローバル言語モデル21および話題依存言語モデル40を混合し、混合言語モデル50を生成する(ステップS5)。
具体的には、第2線形和補間手段12Bは、ステップS4で算出された混合グローバル言語モデル21および話題依存言語モデル40の混合重みλ(λmix,λwadai)を用いて、Nグラム確率を重み付き加算(線形和補間)することで、混合言語モデル50を生成する(前記式(7)参照)。
以上の動作によって、言語モデル生成装置1は、過学習を抑え、音声認識対象の認識精度を高めた言語モデルを生成することができる。
Then, the language model generation device 1 mixes the mixed
Specifically, the second linear
By the above operation, the language model generation device 1 can generate a language model in which overlearning is suppressed and the recognition accuracy of the speech recognition target is enhanced.
〔性能評価〕
次に、言語モデル生成装置1を評価した評価結果について説明する。
この評価に用いた大規模コーパス200(図2参照)を構成するコーパス(原稿、字幕、書き起こし)、および、話題依存小規模コーパス400は、過去の放送番組で用いられたデータであって、以下の〔表1〕で示したコーパスサイズである。
[Performance evaluation]
Next, an evaluation result of evaluating the language model generation device 1 will be described.
Corpus (script, subtitles, transcription) constituting the large-scale corpus 200 (see FIG. 2) used for this evaluation, and the topic-dependent small-
言語モデル生成装置1において、〔表1〕で示したコーパスを用いて学習した原稿言語モデル30、字幕言語モデル31、書き起こし言語モデル32および話題依存言語モデル40を混合する。
In the language model generation device 1, the
まず、言語モデル生成装置1が、評価重み生成手段10で生成した評価重みを用いて、言語モデル(ここでは、原稿言語モデル30、字幕言語モデル31および書き起こし言語モデル32)を混合する効果について説明する。
以下の〔表2〕には、大規模コーパスを単純に学習して生成したグローバル言語モデル20(Pglobal(w|h))と、評価重みを用いず、前記式(4)で評価重みαcを常に“1”にして生成した言語モデル(Pmixtest(w|h))と、本発明の評価重みを用いて生成した混合グローバル言語モデル21(Pmix(w|h))とのそれぞれのパープレキシティの値を示している。
First, about the effect that the language model generation device 1 mixes language models (here, the
In the following [Table 2], the global language model 20 (P global (w | h)) generated by simply learning a large scale corpus and the evaluation weight are not used, and the evaluation weight α in the above equation (4) A language model (P mixtest (w | h)) generated with c being always “1” and a mixed global language model 21 (P mix (w | h)) generated using the evaluation weights of the present invention Shows the perplexity value of.
この〔表2〕に示すように、本発明に係る言語モデル生成装置1において、評価用文章Hの評価重みを生成して混合した混合グローバル言語モデル21(Pmix(w|h)は、他の言語モデル(Pglobal(w|h)、Pmixtest(w|h))に比べて、パープレキシティの値が小さくなり、精度の高い言語モデルが生成されたことを示している。 As shown in [Table 2], in the language model generation device 1 according to the present invention, the mixed global language model 21 (P mix (w | h) generated by mixing the evaluation weights of the evaluation sentences H is Compared to the language models (P global (w | h) and P mixtest (w | h)), the perplexity value is smaller, which indicates that a language model with high accuracy is generated.
次に、言語モデル生成装置1が生成した言語モデル(混合言語モデル50)を用いた、音声認識の精度について説明する。
以下の〔表3〕には、本発明の評価重みを用いて生成した混合言語モデル50(Pmix2(w|h))を用いて音声認識したときの単語誤り率と、評価重みを用いず、前記式(4)で評価重みαcを常に“1”にして生成した言語モデル(Pmix2test(w|h))を用いて音声認識したときの単語誤り率とを示している。
Next, the accuracy of speech recognition using the language model (mixed language model 50) generated by the language model generation device 1 will be described.
In the following [Table 3], the word error rate when speech recognition is performed using the mixed language model 50 (P mix2 (w | h)) generated using the evaluation weight of the present invention, and without using the evaluation weight (4) shows the word error rate when speech recognition is performed using the language model (P mix2test (w | h)) generated with the evaluation weight α c always set to “1” in the equation (4).
この〔表3〕に示すように、本発明に係る言語モデル生成装置1において、評価用文章Hの評価重みを生成して混合した混合言語モデル50(Pmix2(w|h)は、評価重みを用いないで生成した言語モデル(Pmix2test(w|h))に比べて、単語誤り率が小さく、音声認識の精度を高めることができる。 As shown in [Table 3], in the language model generation device 1 according to the present invention, the mixed language model 50 (P mix2 (w | h) generated and mixed with the evaluation weight of the text for evaluation H is an evaluation weight. As compared with the language model (P mix2test (w | h)) generated without using, the word error rate is smaller, and the accuracy of speech recognition can be improved.
≪第2実施形態≫
次に、図5を参照して、本発明の第2実施形態に係る言語モデル生成装置1Bの構成について説明する。
Second Embodiment
Next, the configuration of the language
言語モデル生成装置1Bは、言語モデル生成装置1(図1参照)と同様に、大規模言語モデル(グローバル言語モデル20)に、音声認識対象の小規模の言語モデル(話題依存言語モデル40)とを重み付け加算して混合するものである。この言語モデル生成装置1Bは、言語モデル生成装置1(図1参照)に比べ、大規模コーパスで予め独立して学習した複数の言語モデル(原稿言語モデル30、字幕言語モデル31および書き起こし言語モデル32〔図1参照〕)を混合しない点が異なる。
Similar to the language model generation device 1 (see FIG. 1), the language
図5に示すように、言語モデル生成装置1Bは、評価重み生成手段10と、混合重み生成手段11、線形和補間手段12と、を備える。評価重み生成手段10は、図1で説明した言語モデル生成装置1の構成と同じものであるため、説明を省略する。
As shown in FIG. 5, the language
混合重み生成手段11は、評価重み生成手段10で生成された重み付き評価用文章(評価用文章、評価重み)を用いて、複数の言語モデル(グローバル言語モデル20および話題依存言語モデル40)を混合する重み係数(混合重み)を生成するものである。この混合重み生成手段11は、重み付き評価用文章の対数尤度が最大となるように各言語モデルの混合重みを算出する。
なお、対数尤度により混合重みを算出する手法は、図1で説明した第1混合重み生成手段11Aや第2混合重み生成手段11Bの手法と同様であるため、ここでは説明を省略する。
この混合重み生成手段11は、生成した混合重みλ(λglobal,λwadai)を、線形和補間手段12に出力する。
The mixed
The method of calculating the mixture weight based on the log likelihood is the same as the method of the first mixture weight generation means 11A and the second mixture weight generation means 11B described with reference to FIG.
The mixing weight generation means 11 outputs the generated mixing weights λ (λ global , λ wadai ) to the linear sum interpolation means 12.
線形和補間手段12は、混合重み生成手段11で生成された混合重みλを用いて、複数の言語モデル(グローバル言語モデル20および話題依存言語モデル40)を混合するものである。この線形和補間手段12は、生成した混合言語モデル50Bを外部に出力する。
なお、この混合重みを用いて言語モデルを混合する手法は、図1で説明した第1線形和補間手段12Aや第2線形和補間手段12Bの手法と同様であるため、ここでは説明を省略する。
The linear sum interpolation means 12 mixes a plurality of language models (the
The method of mixing language models using the mixing weights is the same as the method of the first linear sum interpolation means 12A and the second linear sum interpolation means 12B described in FIG. .
このように、言語モデル生成装置1Bは、既存の大規模コーパスで生成されたグローバル言語モデル20に対して、音声認識対象のトピックをコーパスとして生成された話題依存言語モデル40を混合することで、対象音声の認識精度を高めることができる。また、このとき、言語モデル生成装置1Bは、評価用文章Hの各文章で、混合重みを計算する際に、評価に適している文章の重みを大きくすることで、すでにコーパス内に含まれ学習されている文章の過学習を抑えることができる。
As described above, the language
なお、言語モデル生成装置1Bは、図示を省略したコンピュータを、評価重み生成手段10、混合重み生成手段11、線形和補間手段12として機能させるプログラム(言語モデル生成プログラム)で動作させることができる。
The language
以上、本発明の実施形態(第1,第2実施形態)について説明したが、本発明は、これらの実施形態に限定されるものではなく、以下のように種々変形することができる。
≪その他の変形例≫
ここでは、評価重み生成手段10が生成する評価重みαcを、前記式(3)に示すように、2値(“0”,“1”)とした。
しかし、評価重み生成手段10は、評価重みαcを、評価用文章Hの文章全体の全体パープレキシティPPallと、各文章の個別パープレキシティPPcとの差等を基に、“0”以上“1”以下の範囲の値としてもよい。例えば、文章全体の全体パープレキシティPPallから、各文章の個別パープレキシティPPcを減算した差が最大となる文章に対する評価重みを“1”、最小となる文章に対する評価重みを“0”とし、他の文章に対する評価重みについては、その差の大きさの割合に応じて値を付与すればよい。
As mentioned above, although embodiment (1st, 2nd embodiment) of this invention was described, this invention is not limited to these embodiment, It can deform | transform variously as follows.
«Other modifications»
Here, the evaluation weight α c generated by the evaluation weight generation means 10 is binary (“0”, “1”) as shown in the equation (3).
However, the evaluation weight generation means 10 sets the evaluation weight α c on the basis of the difference between the entire perplexity PP all of the whole sentence of the evaluation sentence H and the individual perplexity PP c of each sentence, etc. The value may be in the range of “more than“ 1 ”or less. For example, the entire whole sentences perplexity PP all, the evaluation weights for sentences difference obtained by subtracting the individual perplexity PP c of each sentence is maximum "1", the evaluation weights for sentences having the smallest "0" For the evaluation weights for other sentences, values may be assigned according to the ratio of the magnitude of the difference.
また、ここでは、評価重み生成手段10は、言語モデルを評価する指標としてパープレキシティを用いた。
しかし、評価重み生成手段10は、言語モデルを数値評価できる指標であれば、必ずしもパープレキシティを用いる必要はない。例えば、エントロピー(前記式(2)のE)、対数尤度(前記式(2)のΣ以降)を用いても構わない。
Also, here, the evaluation
However, the evaluation weight generation means 10 does not necessarily have to use perplexity as long as it is an index that can evaluate the language model numerically. For example, entropy (E in the above equation (2)) and log likelihood (from Σ in the above equation (2)) may be used.
また、ここでは、複数の言語モデルを例示(例えば、原稿言語モデル30、字幕言語モデル31、書き起こし言語モデル32等)して説明したが、混合する言語モデルは、これらに限定されるものではない。例えば、原稿言語モデル30は、放送番組の原稿以外にも、数年分の新聞の原稿であっても構わない。
In addition, although a plurality of language models are illustrated (for example, the
1,1B 言語モデル生成装置
10 評価重み生成手段
11 混合重み生成手段
11A 第1混合重み生成手段
11B 第2混合重み生成手段
12 線形和補間手段
12A 第1線形和補間手段
12B 第2線形和補間手段
20 グローバル言語モデル
21 混合グローバル言語モデル
30 原稿言語モデル(個別言語モデル)
31 字幕言語モデル(個別言語モデル)
32 書き起こし言語モデル(個別言語モデル)
40 話題依存言語モデル
50,50B 混合言語モデル
1, 1 B language
31 Subtitle Language Model (Individual Language Model)
32 Transcript language model (individual language model)
40 Topic-
Claims (5)
前記話題に関連する予め選定された評価用文章の全体を用いて前記グローバル言語モデルを評価した全体評価値と、前記評価用文章を予め定めた分類により区分した区分文章を用いて前記グローバル言語モデルを評価した前記区分文章ごとの個別評価値とを算出し、前記区分文章ごとに前記評価用文章としての適否の度合いを評価重みとして生成する評価重み生成手段と、
前記グローバル言語モデルを学習するために用いた学習コーパスを構成する複数の個別学習コーパスから予め学習した複数の個別言語モデルを、前記区分文章ごとに前記評価重みの割合で線形和補間したときの対数尤度が最大となる混合重みを生成する第1混合重み生成手段と、
この第1混合重み生成手段で生成された混合重みの割合で、前記複数の個別言語モデルを線形和補間して混合グローバル言語モデルを生成する第1線形和補間手段と、
前記区分文章ごとに前記評価重みの割合で前記混合グローバル言語モデルと前記話題依存言語モデルとを線形和補間したときの対数尤度が最大となる混合重みを生成する第2混合重み生成手段と、
この第2混合重み生成手段で生成された混合重みの割合で、前記混合グローバル言語モデルおよび前記話題依存言語モデルを線形和補間し、前記音声認識対象の混合言語モデルを生成する第2線形和補間手段と、
を備えることを特徴とする言語モデル生成装置。 A mixed language of speech recognition target by mixing a topic dependent language model learned in advance from a learning corpus related to a speech recognition target topic and a global language model learned in advance in a learning corpus having a larger data volume than the learning corpus A language model generation device for generating a model,
The global language model using the overall evaluation value obtained by evaluating the global language model using the whole of the evaluation sentences associated with the topic in advance and the divided sentences obtained by classifying the evaluation sentences according to predetermined classifications Evaluation weight generation means for calculating an individual evaluation value for each of the divided sentences obtained by evaluating the above, and generating a degree of appropriateness as the evaluation sentence as an evaluation weight for each of the divided sentences;
Logarithm of linear sum interpolation of a plurality of individual language models learned in advance from a plurality of individual learning corpuses constituting a learning corpus used to learn the global language model, for each of the divided sentences at the ratio of the evaluation weight First mixing weight generation means for generating mixing weights with maximum likelihood;
First linear sum interpolation means for generating a mixed global language model by performing linear sum interpolation on the plurality of individual language models at a ratio of the mixture weights generated by the first mixture weight generation means;
A second mixture weight generation unit configured to generate mixture weights that maximize the log likelihood when performing linear sum interpolation on the mixture global language model and the topic dependent language model at the ratio of the evaluation weight for each of the divided sentences;
A second linear sum interpolation that generates a mixed language model of the speech recognition target by performing linear sum interpolation on the mixed global language model and the topic dependent language model at a ratio of the mixed weight generated by the second mixed weight generation unit. Means,
A language model generation apparatus comprising:
前記話題に関連する予め選定された評価用文章の全体を用いて前記グローバル言語モデルを評価した全体評価値と、前記評価用文章を予め定めた分類により区分した区分文章を用いて前記グローバル言語モデルを評価した前記区分文章ごとの個別評価値とを算出し、前記区分文章ごとに前記評価用文章としての適否の度合いを評価重みとして生成する評価重み生成手段と、
前記区分文章ごとに前記評価重みの割合で前記グローバル言語モデルと前記話題依存言語モデルとを線形和補間したときの対数尤度が最大となる混合重みを生成する混合重み生成手段と、
前記混合重みの割合で、前記グローバル言語モデルおよび前記話題依存言語モデルを線形和補間し、前記音声認識対象の混合言語モデルを生成する線形和補間手段と、
を備えることを特徴とする言語モデル生成装置。 A mixed language of speech recognition target by mixing a topic dependent language model learned in advance from a learning corpus related to a speech recognition target topic and a global language model learned in advance in a learning corpus having a larger data volume than the learning corpus A language model generation device for generating a model,
The global language model using the overall evaluation value obtained by evaluating the global language model using the whole of the evaluation sentences associated with the topic in advance and the divided sentences obtained by classifying the evaluation sentences according to predetermined classifications Evaluation weight generation means for calculating an individual evaluation value for each of the divided sentences obtained by evaluating the above, and generating a degree of appropriateness as the evaluation sentence as an evaluation weight for each of the divided sentences;
Mixing weight generation means for generating a mixture weight that maximizes the log likelihood when performing linear sum interpolation between the global language model and the topic dependent language model at a rate of the evaluation weight for each of the divided sentences;
Linear sum interpolation means for performing linear sum interpolation on the global language model and the topic dependent language model at a ratio of the mixture weight to generate a mixed language model of the speech recognition target;
A language model generation apparatus comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015122789A JP6518142B2 (en) | 2015-06-18 | 2015-06-18 | Language model generation device and program thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015122789A JP6518142B2 (en) | 2015-06-18 | 2015-06-18 | Language model generation device and program thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017009691A JP2017009691A (en) | 2017-01-12 |
JP6518142B2 true JP6518142B2 (en) | 2019-05-22 |
Family
ID=57761502
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015122789A Active JP6518142B2 (en) | 2015-06-18 | 2015-06-18 | Language model generation device and program thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6518142B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107945792B (en) * | 2017-11-06 | 2021-05-28 | 百度在线网络技术(北京)有限公司 | Voice processing method and device |
KR20200059703A (en) * | 2018-11-21 | 2020-05-29 | 삼성전자주식회사 | Voice recognizing method and voice recognizing appratus |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4263060B2 (en) * | 2003-09-05 | 2009-05-13 | 日本電信電話株式会社 | Language model creation method and apparatus |
US9626960B2 (en) * | 2013-04-25 | 2017-04-18 | Nuance Communications, Inc. | Systems and methods for providing metadata-dependent language models |
-
2015
- 2015-06-18 JP JP2015122789A patent/JP6518142B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017009691A (en) | 2017-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kannan et al. | Large-scale multilingual speech recognition with a streaming end-to-end model | |
JP6222821B2 (en) | Error correction model learning device and program | |
US11055497B2 (en) | Natural language generation of sentence sequences from textual data with paragraph generation model | |
JP5413622B2 (en) | Language model creation device, language model creation method, and program | |
JP2022531414A (en) | End-to-end automatic speech recognition of digit strings | |
CN115516552A (en) | Speech recognition using synthesis of unexplained text and speech | |
US8019594B2 (en) | Method and apparatus for progressively selecting features from a large feature space in statistical modeling | |
JP7051919B2 (en) | Speech recognition and decoding methods based on streaming attention models, devices, equipment and computer readable storage media | |
US8019593B2 (en) | Method and apparatus for generating features through logical and functional operations | |
JP2015187684A (en) | Unsupervised training method, training apparatus, and training program for n-gram language model | |
King et al. | Evaluating approaches to personalizing language models | |
WO2019167296A1 (en) | Device, method, and program for natural language processing | |
JP6810580B2 (en) | Language model learning device and its program | |
CN117099157A (en) | Multitasking learning for end-to-end automatic speech recognition confidence and erasure estimation | |
EP4367663A1 (en) | Improving speech recognition with speech synthesis-based model adaption | |
JP6518142B2 (en) | Language model generation device and program thereof | |
JP6082657B2 (en) | Pose assignment model selection device, pose assignment device, method and program thereof | |
US20220122586A1 (en) | Fast Emit Low-latency Streaming ASR with Sequence-level Emission Regularization | |
KR20230156425A (en) | Streaming ASR model delay reduction through self-alignment | |
KR20230156427A (en) | Concatenated and reduced RNN-T | |
Sethy et al. | Joint training of interpolated exponential n-gram models | |
Seki et al. | Diversity-based core-set selection for text-to-speech with linguistic and acoustic features | |
US20240013777A1 (en) | Unsupervised Data Selection via Discrete Speech Representation for Automatic Speech Recognition | |
US20230107695A1 (en) | Fusion of Acoustic and Text Representations in RNN-T | |
JP2005091518A (en) | Speech recognition device and speech recognition program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180502 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190228 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190326 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190419 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6518142 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |