JP6518142B2 - Language model generation device and program thereof - Google Patents

Language model generation device and program thereof Download PDF

Info

Publication number
JP6518142B2
JP6518142B2 JP2015122789A JP2015122789A JP6518142B2 JP 6518142 B2 JP6518142 B2 JP 6518142B2 JP 2015122789 A JP2015122789 A JP 2015122789A JP 2015122789 A JP2015122789 A JP 2015122789A JP 6518142 B2 JP6518142 B2 JP 6518142B2
Authority
JP
Japan
Prior art keywords
language model
evaluation
weight
mixed
global
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015122789A
Other languages
Japanese (ja)
Other versions
JP2017009691A (en
Inventor
和穂 尾上
和穂 尾上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2015122789A priority Critical patent/JP6518142B2/en
Publication of JP2017009691A publication Critical patent/JP2017009691A/en
Application granted granted Critical
Publication of JP6518142B2 publication Critical patent/JP6518142B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、複数の言語モデルを混合して新たな言語モデルを生成する言語モデル生成装置およびそのプログラムに関する。   The present invention relates to a language model generation device that mixes a plurality of language models to generate a new language model, and its program.

従来、独立した学習コーパスから生成された複数の言語モデル(統計的言語モデル)を、音声の認識精度を高めるために混合する手法が存在する(例えば、特許文献1参照)。
この手法は、音声認識対象(発話内容等)と類似した評価用文章を用いて、評価用文章の生成確率が最大となるように線形補間係数(混合重み)を求め、あるいは、線形補間係数をベイズ学習法により求めて、各言語モデルを線形和補間するものである。
Conventionally, there is a method of mixing a plurality of language models (statistical language models) generated from an independent learning corpus in order to improve speech recognition accuracy (see, for example, Patent Document 1).
In this method, a linear interpolation coefficient (mixing weight) is determined using the evaluation text similar to the speech recognition target (speech content etc.) so that the generation probability of the evaluation text is maximized, or the linear interpolation coefficient is calculated. It is obtained by the Bayesian learning method, and linear sum interpolation of each language model is performed.

ここで、図6を参照して、従来の一般的な言語モデルの混合手法について説明する。
図6に示すように、ここでは、2つの言語モデル(グローバル言語モデル20、話題依存言語モデル40)を混合することとする。なお、グローバル言語モデル20は、大規模学習データ(大規模コーパス200)から予め学習し生成したものである。また、話題依存言語モデル40は、音声認識対象の話題(トピック)に依存した小規模学習データ(話題依存小規模コーパス400)から予め学習し生成したものである。
Here, referring to FIG. 6, a conventional general language model mixing method will be described.
As shown in FIG. 6, here, two language models (global language model 20, topic-dependent language model 40) are mixed. The global language model 20 is generated by learning in advance from large-scale learning data (large-scale corpus 200). The topic-dependent language model 40 is generated by learning in advance from small-scale learning data (topic-dependent small corpus 400) depending on the topic (topic) of the speech recognition target.

例えば、特許文献1の背景技術として記載されている従来手法(第1従来手法)によれば、音声認識対象の話題と類似した評価用文章Hを用いて、評価用文章Hの生成確率が最大となる最尤学習により、グローバル言語モデル20と話題依存言語モデル40との混合重みλを計算する。そして、第1従来手法は、線形和補間手段Mによって、計算で求めた混合重みλを用いて、グローバル言語モデル20と話題依存言語モデル40とを重み付け加算(線形和補間)して混合言語モデル80を生成する。   For example, according to the conventional method (the first conventional method) described as the background art of Patent Document 1, the generation probability of the evaluation sentence H is maximized using the evaluation sentence H similar to the topic of the speech recognition target The mixed weight λ of the global language model 20 and the topic dependent language model 40 is calculated by maximum likelihood learning. Then, in the first conventional method, a mixed language model is obtained by performing weighted addition (linear sum interpolation) of the global language model 20 and the topic-dependent language model 40 using the mixing weight λ calculated by the linear sum interpolation means M. Generate 80.

また、特許文献1に記載の発明に係る他の手法(第2従来手法)によれば、前記した第1従来手法よりも少ない評価用文章Hを用いて、ベイズ学習により、線形補間係数を求め、線形和補間して混合言語モデル80を生成する。
このように生成された混合言語モデル80を用いて、音声認識装置100が音声認識を行うことで、グローバル言語モデル20のみを用いる場合に比べ、特定の話題に対する音声認識精度を高めることができる。
Further, according to another method (second conventional method) according to the invention described in Patent Document 1, linear interpolation coefficients are obtained by Bayesian learning using evaluation sentences H smaller than the above-described first conventional method. , Linear sum interpolation to generate a mixed language model 80.
The speech recognition performed by the speech recognition apparatus 100 using the mixed language model 80 generated in this manner can improve the speech recognition accuracy for a specific topic as compared to the case where only the global language model 20 is used.

なお、第1従来手法では、評価用文章Hを極力コーパス(大規模コーパス200、話題依存小規模コーパス400)とは異なるように選定することで、過学習を抑えるようにしている。また、第2従来手法では、ベイズ学習を用いて、第1従来手法よりも評価用文章Hの数を減らすことで、さらに、過学習を抑えるようにしている。
ここで、過学習とは、コーパス内に評価用文章が存在していた場合に、その文章(学習データ)に強く言語モデルの出現確率が依存し、他の文章(未知データ)において期待される出現確率が得られない状態となることをいう。
In the first conventional method, over-learning is suppressed by selecting the evaluation text H as different as possible from the corpus (large-scale corpus 200, topic-dependent small-scale corpus 400). Further, in the second conventional method, over learning is further suppressed by using Bayesian learning to reduce the number of evaluation sentences H more than the first conventional method.
Here, when the text for evaluation exists in the corpus, the overlearning strongly depends on the text (learning data) and the appearance probability of the language model is expected in other texts (unknown data). It means that it will be in the state where the appearance probability can not be obtained.

特開2005−84179号公報JP 2005-84179 A

前記した第1,第2従来手法は、評価用文章を極力コーパスとは異なるように選定したり、ベイズ学習を用いることで少数の評価用文章を選定したりすることで、過学習を抑えるようにしている。
しかし、コーパスが大規模であればあるほど、コーパス内に存在している文章を除いて、評価用文章を選定することは現実的に困難である。すなわち、従来手法では、評価用文章としてコーパス内の文章を用いる場合があり、評価用文章により過学習が発生してしまうという問題がある。
In the first and second conventional methods described above, over-learning can be suppressed by selecting sentences for evaluation as different as possible from the corpus as much as possible, or selecting a small number of sentences for evaluation by using Bayesian learning. I have to.
However, as the corpus is larger, it is practically difficult to select evaluation sentences except for sentences existing in the corpus. That is, in the conventional method, the sentences in the corpus may be used as the sentences for evaluation, and there is a problem that over-learning occurs due to the sentences for evaluation.

本発明は、このような問題に鑑みてなされたものであり、評価用文章に用いる各文章が評価用文章として適切か否かを予め評価し、適切な評価用文章を用いることで、過学習を抑えて、言語モデルを混合することが可能な言語モデル生成装置およびそのプログラムを提供することを課題とする。   The present invention has been made in view of such a problem, and it is evaluated in advance whether each sentence used for evaluation sentences is appropriate as an evaluation sentence and by using an appropriate evaluation sentence, overlearning It is an object of the present invention to provide a language model generation device capable of mixing language models while suppressing the

前記課題を解決するため、本発明に係る言語モデル生成装置は、音声認識対象の話題に関連する学習コーパスから予め学習した話題依存言語モデルと、前記学習コーパスよりもデータ量の多い学習コーパスで予め学習したグローバル言語モデルとを混合し、音声認識対象の混合言語モデルを生成する言語モデル生成装置であって、評価重み生成手段と、第1混合重み生成手段と、第1線形和補間手段と、第2混合重み生成手段と、第2線形和補間手段と、を備える構成とした。   In order to solve the above problem, the language model generation device according to the present invention comprises a topic-dependent language model learned in advance from a learning corpus related to a speech recognition target topic, and a learning corpus having a larger amount of data than the learning corpus. A language model generation device that mixes a learned global language model and generates a mixed language model of a speech recognition target, the evaluation weight generation unit, the first mixture weight generation unit, and the first linear sum interpolation unit. The second mixture weight generation means and the second linear sum interpolation means are provided.

かかる構成において、言語モデル生成装置は、評価重み生成手段によって、グローバル言語モデルに対して、音声認識対象の話題に関連する予め選定された評価用文章の全体を用いて、言語モデルを評価するための評価値(例えば、パープレキシティ)を全体評価値として算出する。
さらに、言語モデル生成装置は、評価重み生成手段によって、グローバル言語モデルに対して、評価用文章を予め定めた分類により区分した区分文章を用いて、区分文章ごとの評価値を個別評価値として算出する。
In such a configuration, the language model generation device evaluates the language model by using the evaluation weight generation means, with respect to the global language model, using the whole of the evaluation sentences selected in advance related to the topic of the speech recognition target. An evaluation value of (for example, perplexity) is calculated as an overall evaluation value.
Furthermore, the language model generation apparatus calculates the evaluation value for each divided sentence as an individual evaluation value using the divided sentences obtained by dividing the evaluation sentences according to the predetermined classification with respect to the global language model by the evaluation weight generation means. Do.

そして、言語モデル生成装置は、評価重み生成手段によって、区分文章ごとに評価用文章としての適否の度合いを評価重みとして生成する。すなわち、評価重み生成手段は、区分文章を用いた方が評価用文章全体を用いた場合よりもグローバル言語モデルの評価が低ければ、区分文章の評価重みを大きく、評価が高ければ、区分文章の評価重みを小さくして評価重みを生成する。これは、区分文章を用いた方がグローバル言語モデルの評価が高ければ、区分文章がすでにグローバル言語モデルを学習するために用いた学習コーパスに含まれている可能性が高く、過学習となることを防止するためである。
このように、区分単位で評価用文章を評価することで、言語モデル生成装置は、評価用文章の区分単位ごとに過学習の度合いを評価することが可能になる。
Then, the language model generation apparatus generates, as an evaluation weight, the degree of suitability as an evaluation sentence for each divided sentence by the evaluation weight generation means. That is, the evaluation weight generation means increases the evaluation weight of the divided sentence if the evaluation of the global language model is lower when the divided sentence is used than when the entire evaluation sentence is used, and if the evaluation is high, The evaluation weight is generated by reducing the evaluation weight. This means that if the evaluation of the global language model is higher when the divided sentences are used, it is highly likely that the divided sentences are already included in the learning corpus used to learn the global language model, resulting in over-learning. To prevent
As described above, by evaluating the evaluation sentences in division units, the language model generation device can evaluate the degree of overlearning for each classification unit of evaluation sentences.

そして、言語モデル生成装置は、第1混合重み生成手段によって、グローバル言語モデルを学習するために用いた学習コーパスを構成する複数の個別学習コーパスから予め学習した複数の個別言語モデルを、区分文章ごとに評価重みの割合で線形和補間したときの対数尤度が最大となる混合重みを生成する。
このように、第1混合重み生成手段は、言語モデルを線形和補間する割合として評価重みを加味することで、過学習の発生を抑えるとともに、評価用文章における区分文章の生成確率を高める方向に作用する混合重みを生成することができる。
Then, the language model generation device generates, by the first mixture weight generation means, the plurality of individual language models previously learned from the plurality of individual learning corpuses constituting the learning corpus used for learning the global language model, To generate a mixture weight that maximizes the log likelihood when performing linear sum interpolation at the rate of evaluation weight.
As described above, the first mixed weight generation unit suppresses the occurrence of overlearning by adding the evaluation weight as a ratio of performing linear sum interpolation on the language model, and increases the generation probability of the divided sentences in the evaluation sentence. Working mixing weights can be generated.

そして、言語モデル生成装置は、第1線形和補間手段によって、第1混合重み生成手段で生成された混合重みの割合で、複数の個別言語モデルを線形和補間して混合グローバル言語モデルを生成する。すなわち、この混合グローバル言語モデルは、グローバル言語モデルよりも、音声認識対象の話題に対する単語の接続確率を高めた言語モデルとなる。   Then, the language model generation apparatus generates a mixed global language model by performing linear sum interpolation on a plurality of individual language models at a ratio of the mixed weight generated by the first mixed weight generation unit by the first linear sum interpolation unit. . That is, this mixed global language model is a language model in which the connection probability of the word to the speech recognition target topic is higher than that of the global language model.

また、言語モデル生成装置は、第2混合重み生成手段によって、区分文章ごとに評価重みの割合で混合グローバル言語モデルと話題依存言語モデルとを線形和補間したときの対数尤度が最大となる混合重みを生成する。
このように、第2混合重み生成手段は、言語モデルを線形和補間する割合として評価重みを加味することで、過学習の発生を抑えるとともに、評価用文章における区分文章の生成確率を高める方向に作用する混合重みを生成することができる。
Also, the language model generation device is a mixture that maximizes the log likelihood when performing linear sum interpolation between the mixed global language model and the topic dependent language model at the rate of the evaluation weight for each divided sentence by the second mixture weight generation means. Generate weights.
As described above, the second mixed weight generation unit suppresses the occurrence of overlearning by adding the evaluation weight as a ratio of linear sum interpolation of the language model, and increases the generation probability of the divided sentences in the evaluation sentence. Working mixing weights can be generated.

そして、言語モデル生成装置は、第2線形和補間手段によって、第2混合重み生成手段で生成された混合重みの割合で、混合グローバル言語モデルおよび話題依存言語モデルを線形和補間することで音声認識対象の混合言語モデルを生成する。   Then, the language model generation device performs speech recognition by performing linear sum interpolation on the mixed global language model and the topic dependent language model at the ratio of the mixed weight generated by the second mixed weight generation means by the second linear sum interpolation means. Generate a mixed language model of the object.

また、前記課題を解決するため、本発明に係る言語モデル生成装置は、音声認識対象の話題に関連する学習コーパスから予め学習した話題依存言語モデルと、前記学習コーパスよりもデータ量の多い学習コーパスで予め学習したグローバル言語モデルとを混合し、前記音声認識対象の混合言語モデルを生成する言語モデル生成装置であって、評価重み生成手段と、混合重み生成手段と、線形和補間手段と、を備える構成とした。   Further, in order to solve the above problem, the language model generation device according to the present invention includes a topic-dependent language model learned in advance from a learning corpus related to a speech recognition target topic, and a learning corpus having a larger amount of data than the learning corpus. A language model generation apparatus for generating a mixed language model of the speech recognition target by mixing the global language model learned in advance with the evaluation model, the evaluation weight generation means, the mixture weight generation means, and the linear sum interpolation means It had composition.

かかる構成において、言語モデル生成装置は、評価重み生成手段によって、グローバル言語モデルに対して、音声認識対象の話題に関連する予め選定された評価用文章の全体を用いて、言語モデルを評価するための評価値(例えば、パープレキシティ)を全体評価値として算出する。
さらに、言語モデル生成装置は、評価重み生成手段によって、グローバル言語モデルに対して、評価用文章を予め定めた分類により区分した区分文章を用いて、区分文章ごとの評価値を個別評価値として算出する。
In such a configuration, the language model generation device evaluates the language model by using the evaluation weight generation means, with respect to the global language model, using the whole of the evaluation sentences selected in advance related to the topic of the speech recognition target. An evaluation value of (for example, perplexity) is calculated as an overall evaluation value.
Furthermore, the language model generation apparatus calculates the evaluation value for each divided sentence as an individual evaluation value using the divided sentences obtained by dividing the evaluation sentences according to the predetermined classification with respect to the global language model by the evaluation weight generation means. Do.

そして、言語モデル生成装置は、評価重み生成手段によって、区分文章ごとに評価用文章としての適否の度合いを評価重みとして生成する。すなわち、評価重み生成手段は、区分文章を用いた方が評価用文章全体を用いた場合よりもグローバル言語モデルの評価が低ければ、区分文章の評価重みを大きく、評価が高ければ、区分文章の評価重みを小さくして評価重みを生成する。
このように、区分単位で評価用文章を評価することで、言語モデル生成装置は、評価用文章の区分単位ごとに過学習の度合いを評価することが可能になる。
Then, the language model generation apparatus generates, as an evaluation weight, the degree of suitability as an evaluation sentence for each divided sentence by the evaluation weight generation means. That is, the evaluation weight generation means increases the evaluation weight of the divided sentence if the evaluation of the global language model is lower when the divided sentence is used than when the entire evaluation sentence is used, and if the evaluation is high, The evaluation weight is generated by reducing the evaluation weight.
As described above, by evaluating the evaluation sentences in division units, the language model generation device can evaluate the degree of overlearning for each classification unit of evaluation sentences.

そして、言語モデル生成装置は、混合重み生成手段によって、区分文章ごとに評価重みの割合でグローバル言語モデルと前題依存言語モデルとを線形和補間したときの対数尤度が最大となる混合重みを生成する。
このように、混合重み生成手段は、言語モデルを線形和補間する割合として評価重みを加味することで、過学習の発生を抑えるとともに、評価用文章における区分文章の生成確率を高める方向に作用する混合重みを生成することができる。
Then, the language model generation device uses the mixture weight generation means to obtain the mixture weight that maximizes the log likelihood when performing linear sum interpolation between the global language model and the proposition dependent language model at the rate of the evaluation weight for each divided sentence. Generate
As described above, the mixing weight generation means suppresses the occurrence of overlearning and acts in a direction to increase the generation probability of the divided sentences in the evaluation sentence by adding the evaluation weight as a ratio of performing linear sum interpolation on the language model. Mixed weights can be generated.

そして、言語モデル生成装置は、線形和補間手段によって、混合重み生成手段で生成された混合重みの割合で、グローバル言語モデルおよび話題依存言語モデルを線形和補間し、音声認識対象の混合言語モデルを生成する。
これによって、言語モデル生成装置は、既存のグローバル言語モデルと、音声認識対象の小規模の話題依存言語モデルとを混合する際に、過学習を抑えて音声認識対象に適した言語モデルを生成することができる。
なお、言語モデル生成装置は、コンピュータを、前記した各手段として機能させるための言語モデル生成プログラムで動作させることができる。
Then, the language model generation device performs linear sum interpolation on the global language model and the topic dependent language model at a ratio of the mixture weight generated by the mixture weight generation means by the linear sum interpolation means, and generates a mixed language model as a speech recognition target. Generate
Thus, the language model generation device suppresses overlearning and generates a language model suitable for a speech recognition target when mixing an existing global language model and a small-scale topic-dependent language model targeted for speech recognition. be able to.
The language model generation device can be operated by a language model generation program for causing a computer to function as each of the above-described means.

本発明は、以下に示す優れた効果を奏するものである。
本発明によれば、混合する言語モデルにおいて、評価用文章の予め区分した文章ごとに、過学習となるか否かを評価して評価重みを生成し、その評価重みを用いて、言語モデルを混合するための混合重みを計算する。そのため、本発明は、過学習を抑えて言語モデルを生成することができる。また、本発明により生成された過学習が抑えられた言語モデルを音声認識に用いることで、従来よりも認識精度の高い音声認識を行うことが可能になる。
The present invention exhibits the following excellent effects.
According to the present invention, in the language model to be mixed, it is evaluated whether or not overlearning is obtained for each of the sentences classified in advance for the evaluation sentences to generate an evaluation weight, and the language model is generated using the evaluation weight. Calculate mixing weights for mixing. Therefore, the present invention can generate language models while suppressing overlearning. Further, by using the language model in which overlearning is suppressed according to the present invention for speech recognition, speech recognition with higher recognition accuracy than before can be performed.

本発明の第1実施形態に係る言語モデル生成装置の構成を示すブロック構成図である。BRIEF DESCRIPTION OF THE DRAWINGS It is a block block diagram which shows the structure of the language model production | generation apparatus which concerns on 1st Embodiment of this invention. 本発明の第1実施形態に係る言語モデル生成装置で使用する言語モデルの概要を説明するための説明図であって、(a)は大規模コーパスから学習された言語モデル、(b)は話題依存小規模コーパスから学習された言語モデルを示す。It is explanatory drawing for demonstrating the outline | summary of the language model used with the language model production | generation apparatus which concerns on 1st Embodiment of this invention, Comprising: (a) is a language model learned from a large scale corpus, (b) is a topic We show a language model learned from a dependent small corpus. 本発明の第1実施形態に係る言語モデル生成装置で生成された言語モデルを用いて、音声認識を行う音声認識システムの構成を示す構成図である。It is a block diagram which shows the structure of the speech recognition system which performs speech recognition using the language model produced | generated by the language model production | generation apparatus which concerns on 1st Embodiment of this invention. 本発明の第1実施形態に係る言語モデル生成装置の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the language model production | generation apparatus which concerns on 1st Embodiment of this invention. 本発明の第2実施形態に係る言語モデル生成装置の構成を示すブロック構成図である。It is a block block diagram which shows the structure of the language model production | generation apparatus which concerns on 2nd Embodiment of this invention. 従来の言語モデルの混合手法を説明するための説明図である。It is explanatory drawing for demonstrating the mixing method of the conventional language model.

以下、本発明の実施形態(第1,第2実施形態)について図面を参照して説明する。
第1実施形態は、大規模コーパスを構成する元の素材ごとに学習した複数の言語モデルを音声認識対象の言語に適するように混合し、さらに、小規模コーパスから学習した音声認識対象の話題(トピック)に依存した言語モデルを混合する形態である。
第2実施形態は、第1実施形態を簡略化し、大規模コーパスから学習した1つの言語モデルと、小規模コーパスとなる音声認識対象の話題(トピック)に依存した言語モデルとを混合する形態である。
Hereinafter, embodiments (first and second embodiments) of the present invention will be described with reference to the drawings.
In the first embodiment, a plurality of language models learned for each of the original materials constituting the large-scale corpus are mixed to be suitable for the language of the speech recognition target, and a topic of the speech recognition target learned from the small-scale corpus ( It is a form that mixes language models depending on the topic).
In the second embodiment, the first embodiment is simplified, and one language model learned from a large corpus is mixed with a language model dependent on a topic for speech recognition to be a small corpus. is there.

ここで、言語モデルとは、任意の文字列において、それが文である確率を付与する確率モデル(統計的言語モデル)である。この言語モデルは、例えば、Nグラム言語モデルであって、以下の式(1)に示すように、単語列w…wi−1の後に単語wが出現する条件付き確率(Nグラム確率)で与えるモデルである。 Here, the language model is a probability model (statistical language model) which gives the probability that it is a sentence in an arbitrary character string. The language model, for example, N grams a language model, as shown in the following equation (1), a word string w 1 w 2 ... w conditional probability of a word w i after the i-1 appears (N It is a model given by gram probability).

Figure 0006518142
Figure 0006518142

なお、図1等では、式(1)を簡略化して、P(w|h)と表記している。すなわち、hは、単語wの直前に出現する単語列である。   In addition, in FIG. 1 etc., Formula (1) is simplified and it describes with P (w | h). That is, h is a word string appearing immediately before the word w.

≪第1実施形態≫
〔言語モデル生成装置の構成〕
まず、図1を参照して、本発明の第1実施形態に係る言語モデル生成装置1の構成について説明する。
First Embodiment
[Configuration of Language Model Generation Device]
First, the configuration of the language model generation device 1 according to the first embodiment of the present invention will be described with reference to FIG.

言語モデル生成装置1は、音声認識対象の話題に関連する学習コーパスから予め学習した話題依存言語モデル40と、当該学習コーパスよりもデータ量の多い学習コーパス(大規模コーパス)を構成する独立した複数の学習コーパスからそれぞれ予め学習した複数の個別言語モデル(ここでは、一例として、原稿言語モデル30、字幕言語モデル31、書き起こし言語モデル32)とを混合し、音声認識対象の言語モデル(混合言語モデル50)を生成するものである。   The language model generation device 1 includes a plurality of topic dependent language models 40 learned in advance from a learning corpus related to a topic of speech recognition target, and a plurality of independent learning corpuses (large scale corpus) having a larger data volume than the learning corpus. Mixed with a plurality of individual language models (here, as an example, a manuscript language model 30, a subtitle language model 31, and a transcription language model 32) previously learned from each learning corpus, and a language model (mixed language) for speech recognition Model 50) is generated.

なお、図1中、グローバル言語モデル20は、原稿言語モデル30、字幕言語モデル31および書き起こし言語モデル32を生成したそれぞれの学習コーパスを1つの学習コーパス(大規模コーパス)として学習した言語モデルである。
また、図1中、混合グローバル言語モデル21は、言語モデル生成装置1が、原稿言語モデル30と、字幕言語モデル31と、書き起こし言語モデル32とを混合して生成する途中段階の言語モデルである。
なお、言語モデルの学習とは、学習コーパスから前記式(1)の確率を、最尤推定法等の一般的な手法によって求めるものであり、ここでは、詳細な説明を省略する。
In FIG. 1, the global language model 20 is a language model in which each learning corpus generated as a manuscript language model 30, a subtitle language model 31, and a transcription language model 32 is learned as one learning corpus (large scale corpus). is there.
Further, in FIG. 1, the mixed global language model 21 is a language model in the middle stage in which the language model generation device 1 generates the original language model 30, the subtitle language model 31, and the transcription language model 32 by mixing. is there.
The learning of the language model is to obtain the probability of the equation (1) from the learning corpus by a general method such as the maximum likelihood estimation method, and the detailed description is omitted here.

ここで、図2を参照して、言語モデル生成装置1が混合する言語モデルの関係について説明しておく。
図2(a)に示すように、グローバル言語モデル20は、大規模コーパス200に含まれる「原稿」、「字幕」、「書き起こし」のそれぞれの学習データ(個別学習コーパス)から予め学習された言語モデルである。「原稿」は、例えば、ニュース等の放送番組の原稿データである。また、「字幕」は、放送番組に付与した字幕データである。また、「書き起こし」は、放送番組が実際に放送された音声を人手で書き起こした書き起こしデータである。この大規模コーパス200は、これらのデータ(学習データ)を、例えば、数年分蓄積したデータである。
また、図2(a)に示すように、原稿言語モデル30は、大規模コーパス200に含まれる「原稿」から予め学習された言語モデルである。字幕言語モデル31は、大規模コーパス200に含まれる「字幕」から予め学習された言語モデルである。書き起こし言語モデル32は、大規模コーパス200に含まれる「書き起こし」から予め学習された言語モデルである。
Here, with reference to FIG. 2, the relationship of the language model which the language model production | generation apparatus 1 mixes is demonstrated.
As shown in FIG. 2A, the global language model 20 has been learned in advance from learning data (individual learning corpus) for each of the "document", "caption" and "transcription" included in the large-scale corpus 200. It is a language model. The "original" is, for example, original data of a broadcast program such as news. Also, "subtitle" is subtitle data attached to a broadcast program. Also, "transcription" is transcription data in which the sound of a broadcast program is actually transcribed by hand. This large-scale corpus 200 is data obtained by accumulating these data (learning data) for several years, for example.
Further, as shown in FIG. 2A, the manuscript language model 30 is a language model learned in advance from the “manuscript” included in the large-scale corpus 200. The subtitle language model 31 is a language model learned in advance from “subtitles” included in the large-scale corpus 200. The transcription language model 32 is a language model learned in advance from “transcription” included in the large-scale corpus 200.

また、図2(b)に示すように、話題依存言語モデル40は、話題依存小規模コーパス400から予め学習された言語モデルである。この話題依存小規模コーパス400は、音声認識対象のトピック(話題)に類似した学習データである。例えば、音声認識の対象をスポーツ番組の音声とした場合、話題依存小規模コーパス400は、過去に放送されたスポーツ番組から書き起こした学習データ等である。
図1に戻って、言語モデル生成装置1の構成について詳細に説明する。
Also, as shown in FIG. 2 (b), the topic dependent language model 40 is a language model learned in advance from the topic dependent small corpus 400. This topic-dependent small-scale corpus 400 is learning data similar to a topic (topic) to be subjected to speech recognition. For example, when the target of speech recognition is speech of a sports program, the topic-dependent small corpus 400 is learning data or the like transcribed from a sports program broadcasted in the past.
Referring back to FIG. 1, the configuration of the language model generation device 1 will be described in detail.

図1に示すように、言語モデル生成装置1は、評価重み生成手段10と、混合重み生成手段(第1混合重み生成手段11A、第2混合重み生成手段11B)と、線形和補間手段(第1線形和補間手段12A、第2線形和補間手段12B)と、を備える。   As shown in FIG. 1, the language model generation device 1 includes an evaluation weight generation unit 10, a mixture weight generation unit (first mixture weight generation unit 11A, a second mixture weight generation unit 11B), and a linear sum interpolation unit (first 1) linear sum interpolation means 12A, second linear sum interpolation means 12B).

評価重み生成手段10は、評価用文章Hを構成する各文章(単語列)を用いて、グローバル言語モデル20を評価し、評価用文章Hの各文章が評価用文章として適切か否かを評価重みとして生成するものである。
ここで、評価用文章Hは、音声認識対象のトピック(話題)に関連(類似)した内容の文章として選定された文章である。例えば、音声認識対象を、ある情報を提供する放送番組(情報番組)とした場合、評価用文章Hとして、過去の同じ情報番組の書き起こしを用いればよい。ここでは、評価重み生成手段10に入力される評価用文章をH={h,…,h,…}とし、各hは、1以上の文章で構成されるものとする。例えば、各hを、情報番組の番組内の各コーナーの書き起こしとすればよい。すなわち、評価用文章Hは、予め定めた単位、例えば、1文章ごと、あるいは、予め定めた分類で区分された1以上の文章(区分文章)ごとに分類されているものとする。
The evaluation weight generation means 10 evaluates the global language model 20 using each sentence (word string) constituting the evaluation sentence H, and evaluates whether each sentence of the evaluation sentence H is appropriate as an evaluation sentence or not. It is generated as a weight.
Here, the evaluation sentence H is a sentence selected as a sentence of content related (similar) to a topic (topic) to be subjected to speech recognition. For example, when the speech recognition target is a broadcast program (information program) providing certain information, a transcript of the same information program in the past may be used as the evaluation sentence H. Here, it is assumed that the evaluation sentences input to the evaluation weight generation means 10 are H = {h 1 ,..., H c ,...}, And each h c is composed of one or more sentences. For example, each h c may be a transcription of each corner in the program of the information program. That is, it is assumed that the evaluation sentences H are classified in predetermined units, for example, one sentence or one sentence or more (sorted sentences) classified in a predetermined classification.

この評価重み生成手段10は、評価用文章Hを用いて、パープレキシティ(平均分岐数)により、グローバル言語モデル20を評価する。このパープレキシティは、ある単語に対して次につながる単語の平均個数を示し、その値が小さいほど、言語モデルの精度が高いという評価を与えることができる評価値である。   The evaluation weight generation unit 10 evaluates the global language model 20 by perplexity (average number of branches) using the evaluation sentence H. The perplexity is an evaluation value that can indicate an average number of words connected next to a certain word, and the smaller the value is, the higher the accuracy of the language model is.

具体的には、評価重み生成手段10は、以下の式(2)により、評価用文章Hの文章全体{h,…,h,…}を用いてパープレキシティPP(全体評価値、全体パープレキシティPPall)と、評価用文章Hの個別の文章(区分文章){h}ごとにパープレキシティPP(個別評価値、個別パープレキシティPP)とを計算する。 Specifically, the evaluation weight generation means 10 uses perplexity PP (whole evaluation value, using the whole sentence {h 1 ,..., H c ,. Overall perplexity PP all ) and perplexity PP (individual evaluation value, individual perplexity PP c ) are calculated for each individual sentence (segmented sentence) {h c } of evaluation text H.

Figure 0006518142
Figure 0006518142

この式(2)において、Pglobal(w|wi−N+1…wi−1)は、グローバル言語モデル20の条件付き確率(Nグラム確率)を示す。また、nは、全体パープレキシティPPallを計算する場合、評価用文章Hの文章全体の単語数であり、個別パープレキシティPPを計算する場合、評価用文章Hの個別の区分文章{h}の単語数である。 In this equation (2), P global (w i | w i −N + 1 ... W i−1 ) represents the conditional probability (N-gram probability) of the global language model 20. Further, n is the number of words of the whole sentence of the evaluation sentence H when calculating the whole perplexity PP all, and when calculating the individual perplexity PP c , the individual divided sentences of the evaluation sentence H { h c } is the number of words.

そして、評価重み生成手段10は、全体パープレキシティPPallと、個別パープレキシティPPとを比較する。ここで、個別パープレキシティPPの方が大きければ、すなわち、区分文章を用いた方が評価用文章H全体を用いた場合よりもグローバル言語モデル20の評価が低ければ、評価重み生成手段10は、対応する個別の区分文章{h}の評価用文章としての重みを大きくする。一方、区分文章を用いた方が評価用文章H全体を用いた場合よりもグローバル言語モデル20の評価が高ければ、評価重み生成手段10は、個別の区分文章{h}の評価用文章としての重みを小さくする。
例えば、評価重み生成手段10は、以下の式(3)に示すように、PP>PPallであれば、文章{h}に対する評価重みαを“1”、PP≦PPallであれば、区分文章{h}に対する評価重みαを“0”とする。
Then, the evaluation weight generation means 10 compares the overall perplexity PP all with the individual perplexity PP c . Here, if the individual perplexity PP c is larger, that is, if the evaluation of the global language model 20 is lower when the divided sentences are used than when the entire evaluation sentence H is used, the evaluation weight generation unit 10 Increases the weight as the evaluation text of the corresponding individual divided text {h c }. On the other hand, if the evaluation of the global language model 20 is higher when the divided sentences are used than when the entire evaluation sentence H is used, the evaluation weight generation unit 10 uses the divided sentences {h c } as evaluation sentences. Reduce the weight of
For example, evaluation weight generating unit 10, as shown in the following equation (3), if the PP C> PP all, the evaluation weight alpha c for sentences {h c} "1", with PP C ≦ PP all If there is, the evaluation weight α c for the divided sentence {h c } is set to “0”.

Figure 0006518142
Figure 0006518142

この評価重み生成手段10は、評価用文章Hの区分文章ごとに評価重みを対応付け、重み付き評価用文章として、第1混合重み生成手段11Aおよび第2混合重み生成手段11Bに出力する。   The evaluation weight generation means 10 associates the evaluation weight with each of the divided sentences of the evaluation sentence H, and outputs it as a weighted evaluation sentence to the first mixed weight generation means 11A and the second mixed weight generation means 11B.

第1混合重み生成手段11Aは、評価重み生成手段10で生成された重み付き評価用文章(評価用文章、評価重み)を用いて、複数の言語モデル(原稿言語モデル30、字幕言語モデル31および書き起こし言語モデル32)を混合する重み係数(混合重み)を生成するものである。この第1混合重み生成手段11Aは、重み付き評価用文章の対数尤度が最大となるように各言語モデルの混合重みを算出する。   The first mixed weight generation unit 11A uses the weighted evaluation sentences (evaluation sentences, evaluation weights) generated by the evaluation weight generation unit 10 to generate a plurality of language models (the manuscript language model 30, the subtitle language model 31 and the like). A weighting factor (mixing weight) is generated to mix the transcription language model 32). The first mixed weight generation unit 11A calculates the mixed weight of each language model so that the log likelihood of the weighted evaluation text is maximized.

具体的には、第1混合重み生成手段11Aは、以下の式(4)の対数尤度Lを最大化する原稿言語モデル30の混合重みλgenko、字幕言語モデル31の混合重みλjimaku、書き起こし言語モデル32の混合重みλkakiokoshiを算出する。 Specifically, first mixing weight generating unit 11A has the following formula mixture weight lambda Genko document language model 30 to maximize the log likelihood L (4), the mixture weight lambda Jimaku subtitle language model 31, write The mixture weight λ kakiokoshi of the translation language model 32 is calculated.

Figure 0006518142
Figure 0006518142

この式(4)において、cは、評価用文章H={h,…,h,…}の区分文章hを指し示す指標であり、Cはその文章総数を示す。また、Pgenko(w |wi−N+1 …wi−1 )は、文章hに対する原稿言語モデル30の条件付き確率(Nグラム確率)を示す。また、Pjimaku(w |wi−N+1 …wi−1 )は、区分文章hに対する字幕言語モデル31の条件付き確率(Nグラム確率)を示す。また、Pkakiokoshi(w |wi−N+1 …wi−1 )は、区分文章hに対する書き起こし言語モデル32の条件付き確率(Nグラム確率)を示す。また、nは区分文章hの単語数、wは区分文章hの単語を示す。
この第1混合重み生成手段11Aは、前記式(4)を最大化する混合重みλ(λgenko,λjimaku,λkakiokoshi)を、EMアルゴリズム等により生成(算出)することができる。
この第1混合重み生成手段11Aは、生成した混合重みλ(λgenko,λjimaku,λkakiokoshi)を、第1線形和補間手段12Aに出力する。
In the formula (4), c is the evaluation sentence H = {h 1, ..., h c, ...} is an index pointing to segment text h c of, C is indicative of the sentence total. In addition, P genko (w i c | w i-N + 1 c ... w i-1 c) shows the conditional probability of the original language model 30 with respect to the sentence h c (N-gram probability). In addition, P jimaku (w i c | w i-N + 1 c ... w i-1 c) shows the conditional probability of subtitle language model 31 with respect to the division sentence h c a (N-gram probability). In addition, P kakiokoshi (w i c | w i-N + 1 c ... w i-1 c) shows the conditional probability of the language model 32 transcriptions for the division sentence h c (N-gram probability). Also, n c indicates the number of words of the divided sentence h c , and w c indicates the word of the divided sentence h c .
The first mixing weight generation means 11A can generate (calculate) the mixing weights λ (λ genko , λ jimaku , λ kakiokoshi ) maximizing the equation (4) by the EM algorithm or the like.
The first mixing weight generation means 11A outputs the generated mixing weights λ (λ genko , λ jimaku , λ kakiokoshi ) to the first linear sum interpolation means 12A.

第1線形和補間手段12Aは、第1混合重み生成手段11Aで生成された混合重みλを用いて、複数の言語モデル(原稿言語モデル30、字幕言語モデル31および書き起こし言語モデル32)を混合するものである。   The first linear sum interpolation unit 12A mixes a plurality of language models (a manuscript language model 30, a subtitle language model 31, and a transcription language model 32) using the mixing weights λ generated by the first mixing weight generation unit 11A. It is

具体的には、第1線形和補間手段12Aは、以下の式(5)に示すように、混合する言語モデル間で、同じ単語wごとに、混合重みλ(λgenko,λjimaku,λkakiokoshi)を用いてNグラム確率を重み付き加算(線形和補間)することで、混合グローバル言語モデル21を生成する。ここで、Pmix(w|wi−N+1…wi−1)は、生成される混合グローバル言語モデル21のNグラム確率を示す。 Specifically, the first linear sum interpolation means 12A, as shown in the following equation (5), between the language model be mixed, each same word w i, mixture weight λ (λ genko, λ jimaku, λ A mixed global language model 21 is generated by performing weighted addition (linear sum interpolation) of N-gram probabilities using kakiokoshi ). Here, P mix (w i | w i−N + 1 ... W i−1 ) indicates the N-gram probability of the mixed global language model 21 to be generated.

Figure 0006518142
Figure 0006518142

このように生成された混合グローバル言語モデル21は、グローバル言語モデル20よりも、音声認識対象の表現に対する条件付き確率を高めた言語モデルとなる。
この第1線形和補間手段12Aは、生成した混合グローバル言語モデル21を、図示を省略した記憶手段に書き込み記憶する。また、この混合グローバル言語モデル21は、後記する第2混合重み生成手段11Bおよび第2線形和補間手段12Bによって参照される。
The mixed global language model 21 generated in this manner is a language model in which the conditional probability for the expression of the speech recognition target is higher than that of the global language model 20.
The first linear sum interpolation means 12A writes and stores the generated mixed global language model 21 in storage means (not shown). Further, this mixed global language model 21 is referred to by the second mixed weight generation means 11B and the second linear sum interpolation means 12B described later.

第2混合重み生成手段11Bは、評価重み生成手段10で生成された重み付き評価用文章(評価用文章、評価重み)を用いて、複数の言語モデル(混合グローバル言語モデル21および話題依存言語モデル40)を混合する重み係数(混合重み)を生成するものである。この第2混合重み生成手段11Bは、重み付き評価用文章の対数尤度が最大となるように各言語モデルの混合重みを算出する。
この第2混合重み生成手段11Bにおける混合重みの生成手法は、混合する言語モデルが異なるだけで、第1混合重み生成手段11Aと同じである。
The second mixed weight generation unit 11B uses the weighted evaluation sentences (evaluation sentences, evaluation weights) generated by the evaluation weight generation unit 10 to generate a plurality of language models (mixed global language model 21 and topic dependent language model). 40) to generate a weighting factor (mixing weight). The second mixed weight generation unit 11B calculates the mixed weight of each language model so that the log likelihood of the weighted evaluation text is maximized.
The method of generating mixture weights in the second mixture weight generation means 11B is the same as the first mixture weight generation means 11A except that the language model to be mixed is different.

具体的には、第2混合重み生成手段11Bは、以下の式(6)の対数尤度Lを最大化する混合グローバル言語モデル21の混合重みλmix、話題依存言語モデル40の混合重みλwadaiを算出する。 Specifically, the second mixture weight generation means 11 B mixes the mixture weights λ mix of the mixed global language model 21 which maximizes the log likelihood L of the following equation (6), and mixes the mixture weights λ wadai of the topic dependent language model 40. Calculate

Figure 0006518142
Figure 0006518142

この式(6)において、Pmix(w |wi−N+1 …wi−1 )は、文章hに対する混合グローバル言語モデル21の条件付き確率(Nグラム確率)を示す。また、Pwadai(w |wi−N+1 …wi−1 )は、文章hに対する話題依存言語モデル40の条件付き確率(Nグラム確率)を示す。他の変数は、前記式(4)と同じである。
この第2混合重み生成手段11Bは、生成した混合重みλ(λmix,λwadai)を、第2線形和補間手段12Bに出力する。
In the formula (6), P mix (w i c | w i-N + 1 c ... w i-1 c) illustrates a conditional probability of mixing for sentence h c global language model 21 (N-gram probability). In addition, P wadai (w i c | w i-N + 1 c ... w i-1 c) shows the conditional probability of topic dependent language model 40 with respect to the sentence h c (N-gram probability). Other variables are the same as in the equation (4).
The second mixing weight generation means 11B outputs the generated mixing weights λ (λ mix , λ wadai ) to the second linear sum interpolation means 12B.

第2線形和補間手段12Bは、第2混合重み生成手段11Bで生成された混合重みλを用いて、複数の言語モデル(混合グローバル言語モデル21および話題依存言語モデル40)を混合するものである。
この第2線形和補間手段12Bにおける混合手法は、混合する言語モデルが異なるだけで、第1線形和補間手段12Aと同じである。
The second linear sum interpolation unit 12B mixes a plurality of language models (a mixed global language model 21 and a topic dependent language model 40) using the mixture weights λ generated by the second mixture weight generation unit 11B. .
The mixing method in the second linear sum interpolation means 12B is the same as the first linear sum interpolation means 12A except for the language model to be mixed.

具体的には、第2線形和補間手段12Bは、以下の式(7)に示すように、混合する言語モデル間で、同じ単語wごとに、混合重みλ(λmix,λwadai)を用いてNグラム確率を重み付き加算(線形和補間)することで、混合言語モデル50を生成する。ここで、Pmix2(w|wi−N+1…wi−1)は、生成される混合言語モデル50のNグラム確率を示す。 Specifically, the second linear sum interpolation unit 12B mixes the mixing weights λ (λ mix , λ wadai ) for each word w i among the language models to be mixed, as shown in the following equation (7). A mixed language model 50 is generated by using weighted addition (linear sum interpolation) of N-gram probabilities. Here, P mix2 (w i | w i−N + 1 ... W i−1 ) indicates the N-gram probability of the mixed language model 50 to be generated.

Figure 0006518142
Figure 0006518142

これによって、混合言語モデル50は、音声認識対象の表現に対する条件付き確率を高めた混合グローバル言語モデル21に対して、さらに、音声認識対象のトピック(話題)についての条件付き確率を高めた言語モデルとなる。
なお、言語モデル生成装置1が生成する混合言語モデル50は、一般的な音声認識装置において使用することができる。その場合、例えば、図3に示すように、音声認識装置100は、言語モデル生成装置1が生成する混合言語モデル50と、既存の発音辞書60および音響モデル70とにより、音声を音声認識し認識結果を出力する。
As a result, the mixed language model 50 is a language model in which the conditional probability of the speech recognition target topic is raised with respect to the mixed global language model 21 in which the conditional probability for the expression of the speech recognition target is increased. It becomes.
The mixed language model 50 generated by the language model generation device 1 can be used in a general speech recognition device. In that case, for example, as shown in FIG. 3, the speech recognition apparatus 100 recognizes and recognizes speech using the mixed language model 50 generated by the language model generation apparatus 1 and the existing pronunciation dictionary 60 and the acoustic model 70. Output the result.

以上説明したように言語モデル生成装置1を構成することで、言語モデル生成装置1は、複数の言語モデルを混合する際に、使用する評価用文章Hに対して評価重みを設け、混合重みを算出して混合するため、過学習を抑えることができる。
また、言語モデル生成装置1は、混合グローバル言語モデル21において、音声認識対象の表現に対する条件付き確率が高められているため、後記する第2実施形態(図5)のように、グローバル言語モデル20に話題依存言語モデル40を直接混合する場合に比べ、音声認識対象の表現に対する条件付き確率をさらに高めることができる。
By configuring the language model generation device 1 as described above, the language model generation device 1 provides an evaluation weight to the evaluation sentence H to be used when mixing a plurality of language models, and mixes the mixed weights. Since it calculates and mixes, over-learning can be suppressed.
Further, in the language model generation device 1, since the conditional probability with respect to the expression of the speech recognition target is enhanced in the mixed global language model 21, as in the second embodiment (FIG. 5) described later, the global language model 20 As compared with the case where the topic dependent language model 40 is directly mixed, the conditional probability for the expression of the speech recognition target can be further enhanced.

なお、言語モデル生成装置1は、図示を省略したコンピュータを、評価重み生成手段10、第1混合重み生成手段11A、第1線形和補間手段12A、第2混合重み生成手段11B、第2線形和補間手段12Bとして機能させるプログラム(言語モデル生成プログラム)で動作させることができる。   The language model generation device 1 is a computer whose illustration is omitted, evaluation weight generation means 10, first mixed weight generation means 11A, first linear sum interpolation means 12A, second mixed weight generation means 11B, second linear sum It can be operated by a program (language model generation program) to function as the interpolation means 12B.

〔言語モデル生成装置の動作〕
次に、図4を参照(構成については適宜図1参照)して、本発明の第1実施形態に係る言語モデル生成装置1の動作について説明する。
まず、言語モデル生成装置1は、評価重み生成手段10によって、大規模コーパスを用いて学習したグローバル言語モデル20から、評価用文章Hの評価重みを生成する(ステップS1)。
具体的には、評価重み生成手段10は、評価用文章Hの文章全体{h,…,h,…}を用いてパープレキシティPP(全体パープレキシティPPall)を計算し、評価用文章Hの個別の文章{h}ごとにパープレキシティPP(個別パープレキシティPP)を計算する(前記式(2)参照)。そして、評価重み生成手段10は、全体パープレキシティPPallよりも個別パープレキシティPPの方が大きければ、対応する個別の文章{h}の評価用文章としての重みを大きくし、それ以外であれば、個別の文章{h}の評価用文章としての重みを小さくするように、評価重みを生成する(前記式(3)参照)。
[Operation of language model generation device]
Next, the operation of the language model generation device 1 according to the first embodiment of the present invention will be described with reference to FIG. 4 (refer to FIG. 1 for the configuration as appropriate).
First, the language model generation device 1 generates the evaluation weight of the evaluation sentence H from the global language model 20 learned using the large scale corpus by the evaluation weight generation means 10 (step S1).
Specifically, the evaluation weight generation means 10 calculates perplexity PP (overall perplexity PP all ) using the whole sentence {h 1 ,..., H c ,. Perplexity PP (individual perplexity PP c ) is calculated for each individual sentence {h c } of sentence H (see equation (2) above). Then, if the individual perplexity PP c is larger than the whole perplexity PP all , the evaluation weight generation means 10 increases the weight of the corresponding individual sentence {h c } as an evaluation sentence, Otherwise, an evaluation weight is generated so as to reduce the weight of the individual sentence {h c } as an evaluation sentence (see the equation (3)).

そして、言語モデル生成装置1は、第1混合重み生成手段11Aによって、ステップS1で生成された評価重みを用いて、大規模コーパスに含まれる原稿、字幕、書き起こしの各学習データから学習した原稿言語モデル30、字幕言語モデル31および書き起こし言語モデル32を混合する混合重みλ(λgenko,λjimaku,λkakiokoshi)を生成する(ステップS2)。
具体的には、第1混合重み生成手段11Aは、評価用文章の対数尤度が最大となるように原稿言語モデル30、字幕言語モデル31および書き起こし言語モデル32の混合重みを算出する(前記式(4)参照)。
Then, the language model generation device 1 uses the evaluation weight generated in step S1 by the first mixed weight generation unit 11A to read the original, the subtitle, and the original learned from the respective learning data of the transcription and transcription. A mixed weight λ (λ genko , λ jimaku , λ kakiokoshi ) for mixing the language model 30, the subtitle language model 31, and the transcribed language model 32 is generated (step S2).
Specifically, the first mixing weight generation unit 11A calculates the mixing weight of the document language model 30, the subtitle language model 31, and the transcription language model 32 such that the log likelihood of the evaluation text is maximized (described above. Formula (4) reference).

そして、言語モデル生成装置1は、第1線形和補間手段12Aによって、ステップS2で算出された混合重みを用いて、原稿言語モデル30、字幕言語モデル31および書き起こし言語モデル32を混合し、混合グローバル言語モデル21を生成する(ステップS3)。
具体的には、第1線形和補間手段12Aは、ステップS2で算出された原稿言語モデル30、字幕言語モデル31および書き起こし言語モデル32の混合重みλ(λgenko,λjimaku,λkakiokoshi)を用いて、Nグラム確率を重み付き加算(線形和補間)することで、混合グローバル言語モデル21を生成する(前記式(5)参照)。
Then, the language model generation device 1 mixes the original language model 30, the subtitle language model 31, and the transcription language model 32 by the first linear sum interpolation means 12A using the mixing weights calculated in step S2, and mixes them. A global language model 21 is generated (step S3).
Specifically, the first linear sum interpolation unit 12A calculates the mixture weights λ (λ genko , λ jimaku , λ kakiokoshi ) of the original language model 30, the subtitle language model 31, and the transcription language model 32 calculated in step S2. The mixed global language model 21 is generated by performing weighted addition (linear sum interpolation) of N-gram probabilities using the above (see the above-mentioned equation (5)).

そして、言語モデル生成装置1は、第2混合重み生成手段11Bによって、ステップS1で生成された評価重みを用いて、ステップS3で生成された混合グローバル言語モデル21と、話題依存小規模コーパスから学習した話題依存言語モデル40とを混合する混合重みλ(λmix,λwadai)を生成する(ステップS4)。
具体的には、第2混合重み生成手段11Bは、評価用文章の対数尤度が最大となるように混合グローバル言語モデル21および話題依存言語モデル40の混合重みを算出する(前記式(6)参照)。
Then, the language model generation device 1 learns from the mixed global language model 21 generated in step S3 and the topic-dependent small-scale corpus, using the evaluation weight generated in step S1 by the second mixture weight generation unit 11B. A mixed weight λ (λ mix , λ wadai ) is generated to be mixed with the topic dependent language model 40 (step S4).
Specifically, the second mixed weight generation unit 11B calculates the mixed weight of the mixed global language model 21 and the topic-dependent language model 40 such that the log likelihood of the evaluation text is maximized (the above-mentioned equation (6)). reference).

そして、言語モデル生成装置1は、第2線形和補間手段12Bによって、ステップS4で算出された混合重みを用いて、混合グローバル言語モデル21および話題依存言語モデル40を混合し、混合言語モデル50を生成する(ステップS5)。
具体的には、第2線形和補間手段12Bは、ステップS4で算出された混合グローバル言語モデル21および話題依存言語モデル40の混合重みλ(λmix,λwadai)を用いて、Nグラム確率を重み付き加算(線形和補間)することで、混合言語モデル50を生成する(前記式(7)参照)。
以上の動作によって、言語モデル生成装置1は、過学習を抑え、音声認識対象の認識精度を高めた言語モデルを生成することができる。
Then, the language model generation device 1 mixes the mixed global language model 21 and the topic dependent language model 40 by the second linear sum interpolation means 12 B using the mixing weights calculated in step S 4, and sets the mixed language model 50. Generate (step S5).
Specifically, the second linear sum interpolation unit 12B uses the mixed weights λ (λ mix , λ wadai ) of the mixed global language model 21 and the topic dependent language model 40 calculated in step S4 to calculate the N-gram probability. The mixed language model 50 is generated by performing weighted addition (linear sum interpolation) (see the above equation (7)).
By the above operation, the language model generation device 1 can generate a language model in which overlearning is suppressed and the recognition accuracy of the speech recognition target is enhanced.

〔性能評価〕
次に、言語モデル生成装置1を評価した評価結果について説明する。
この評価に用いた大規模コーパス200(図2参照)を構成するコーパス(原稿、字幕、書き起こし)、および、話題依存小規模コーパス400は、過去の放送番組で用いられたデータであって、以下の〔表1〕で示したコーパスサイズである。
[Performance evaluation]
Next, an evaluation result of evaluating the language model generation device 1 will be described.
Corpus (script, subtitles, transcription) constituting the large-scale corpus 200 (see FIG. 2) used for this evaluation, and the topic-dependent small-scale corpus 400 are data used in a past broadcast program, The corpus size is shown in [Table 1] below.

Figure 0006518142
Figure 0006518142

言語モデル生成装置1において、〔表1〕で示したコーパスを用いて学習した原稿言語モデル30、字幕言語モデル31、書き起こし言語モデル32および話題依存言語モデル40を混合する。   In the language model generation device 1, the manuscript language model 30, the subtitle language model 31, the transcription language model 32, and the topic dependent language model 40 which are learned using the corpus shown in [Table 1] are mixed.

まず、言語モデル生成装置1が、評価重み生成手段10で生成した評価重みを用いて、言語モデル(ここでは、原稿言語モデル30、字幕言語モデル31および書き起こし言語モデル32)を混合する効果について説明する。
以下の〔表2〕には、大規模コーパスを単純に学習して生成したグローバル言語モデル20(Pglobal(w|h))と、評価重みを用いず、前記式(4)で評価重みαを常に“1”にして生成した言語モデル(Pmixtest(w|h))と、本発明の評価重みを用いて生成した混合グローバル言語モデル21(Pmix(w|h))とのそれぞれのパープレキシティの値を示している。
First, about the effect that the language model generation device 1 mixes language models (here, the original language model 30, the subtitle language model 31, and the transcription language model 32) using the evaluation weights generated by the evaluation weight generation unit 10. explain.
In the following [Table 2], the global language model 20 (P global (w | h)) generated by simply learning a large scale corpus and the evaluation weight are not used, and the evaluation weight α in the above equation (4) A language model (P mixtest (w | h)) generated with c being always “1” and a mixed global language model 21 (P mix (w | h)) generated using the evaluation weights of the present invention Shows the perplexity value of.

Figure 0006518142
Figure 0006518142

この〔表2〕に示すように、本発明に係る言語モデル生成装置1において、評価用文章Hの評価重みを生成して混合した混合グローバル言語モデル21(Pmix(w|h)は、他の言語モデル(Pglobal(w|h)、Pmixtest(w|h))に比べて、パープレキシティの値が小さくなり、精度の高い言語モデルが生成されたことを示している。 As shown in [Table 2], in the language model generation device 1 according to the present invention, the mixed global language model 21 (P mix (w | h) generated by mixing the evaluation weights of the evaluation sentences H is Compared to the language models (P global (w | h) and P mixtest (w | h)), the perplexity value is smaller, which indicates that a language model with high accuracy is generated.

次に、言語モデル生成装置1が生成した言語モデル(混合言語モデル50)を用いた、音声認識の精度について説明する。
以下の〔表3〕には、本発明の評価重みを用いて生成した混合言語モデル50(Pmix2(w|h))を用いて音声認識したときの単語誤り率と、評価重みを用いず、前記式(4)で評価重みαを常に“1”にして生成した言語モデル(Pmix2test(w|h))を用いて音声認識したときの単語誤り率とを示している。
Next, the accuracy of speech recognition using the language model (mixed language model 50) generated by the language model generation device 1 will be described.
In the following [Table 3], the word error rate when speech recognition is performed using the mixed language model 50 (P mix2 (w | h)) generated using the evaluation weight of the present invention, and without using the evaluation weight (4) shows the word error rate when speech recognition is performed using the language model (P mix2test (w | h)) generated with the evaluation weight α c always set to “1” in the equation (4).

Figure 0006518142
Figure 0006518142

この〔表3〕に示すように、本発明に係る言語モデル生成装置1において、評価用文章Hの評価重みを生成して混合した混合言語モデル50(Pmix2(w|h)は、評価重みを用いないで生成した言語モデル(Pmix2test(w|h))に比べて、単語誤り率が小さく、音声認識の精度を高めることができる。 As shown in [Table 3], in the language model generation device 1 according to the present invention, the mixed language model 50 (P mix2 (w | h) generated and mixed with the evaluation weight of the text for evaluation H is an evaluation weight. As compared with the language model (P mix2test (w | h)) generated without using, the word error rate is smaller, and the accuracy of speech recognition can be improved.

≪第2実施形態≫
次に、図5を参照して、本発明の第2実施形態に係る言語モデル生成装置1Bの構成について説明する。
Second Embodiment
Next, the configuration of the language model generation device 1B according to the second embodiment of the present invention will be described with reference to FIG.

言語モデル生成装置1Bは、言語モデル生成装置1(図1参照)と同様に、大規模言語モデル(グローバル言語モデル20)に、音声認識対象の小規模の言語モデル(話題依存言語モデル40)とを重み付け加算して混合するものである。この言語モデル生成装置1Bは、言語モデル生成装置1(図1参照)に比べ、大規模コーパスで予め独立して学習した複数の言語モデル(原稿言語モデル30、字幕言語モデル31および書き起こし言語モデル32〔図1参照〕)を混合しない点が異なる。   Similar to the language model generation device 1 (see FIG. 1), the language model generation device 1B adds a small scale language model (topic dependent language model 40) for speech recognition to a large scale language model (global language model 20). Are weighted and added. The language model generation device 1B is different from the language model generation device 1 (see FIG. 1) in that a plurality of language models (a manuscript language model 30, a subtitle language model 31, and a transcription language model) are learned in advance independently in a large scale corpus. 32 [see FIG. 1]) is not mixed.

図5に示すように、言語モデル生成装置1Bは、評価重み生成手段10と、混合重み生成手段11、線形和補間手段12と、を備える。評価重み生成手段10は、図1で説明した言語モデル生成装置1の構成と同じものであるため、説明を省略する。   As shown in FIG. 5, the language model generation device 1B includes an evaluation weight generation unit 10, a mixture weight generation unit 11, and a linear sum interpolation unit 12. The evaluation weight generation unit 10 is the same as the configuration of the language model generation apparatus 1 described with reference to FIG.

混合重み生成手段11は、評価重み生成手段10で生成された重み付き評価用文章(評価用文章、評価重み)を用いて、複数の言語モデル(グローバル言語モデル20および話題依存言語モデル40)を混合する重み係数(混合重み)を生成するものである。この混合重み生成手段11は、重み付き評価用文章の対数尤度が最大となるように各言語モデルの混合重みを算出する。
なお、対数尤度により混合重みを算出する手法は、図1で説明した第1混合重み生成手段11Aや第2混合重み生成手段11Bの手法と同様であるため、ここでは説明を省略する。
この混合重み生成手段11は、生成した混合重みλ(λglobal,λwadai)を、線形和補間手段12に出力する。
The mixed weight generation unit 11 uses the weighted evaluation sentences (evaluation sentences, evaluation weights) generated by the evaluation weight generation unit 10 to generate a plurality of language models (global language model 20 and topic dependent language model 40). It generates weighting factors (mixing weights) to be mixed. The mixing weight generation unit 11 calculates the mixing weight of each language model so as to maximize the log likelihood of the weighted evaluation sentence.
The method of calculating the mixture weight based on the log likelihood is the same as the method of the first mixture weight generation means 11A and the second mixture weight generation means 11B described with reference to FIG.
The mixing weight generation means 11 outputs the generated mixing weights λ (λ global , λ wadai ) to the linear sum interpolation means 12.

線形和補間手段12は、混合重み生成手段11で生成された混合重みλを用いて、複数の言語モデル(グローバル言語モデル20および話題依存言語モデル40)を混合するものである。この線形和補間手段12は、生成した混合言語モデル50Bを外部に出力する。
なお、この混合重みを用いて言語モデルを混合する手法は、図1で説明した第1線形和補間手段12Aや第2線形和補間手段12Bの手法と同様であるため、ここでは説明を省略する。
The linear sum interpolation means 12 mixes a plurality of language models (the global language model 20 and the topic dependent language model 40) using the mixing weight λ generated by the mixing weight generation means 11. The linear sum interpolation means 12 outputs the generated mixed language model 50B to the outside.
The method of mixing language models using the mixing weights is the same as the method of the first linear sum interpolation means 12A and the second linear sum interpolation means 12B described in FIG. .

このように、言語モデル生成装置1Bは、既存の大規模コーパスで生成されたグローバル言語モデル20に対して、音声認識対象のトピックをコーパスとして生成された話題依存言語モデル40を混合することで、対象音声の認識精度を高めることができる。また、このとき、言語モデル生成装置1Bは、評価用文章Hの各文章で、混合重みを計算する際に、評価に適している文章の重みを大きくすることで、すでにコーパス内に含まれ学習されている文章の過学習を抑えることができる。   As described above, the language model generation device 1 B mixes the topic dependent language model 40 generated as a corpus of the speech recognition target topic with the global language model 20 generated by the existing large-scale corpus, The recognition accuracy of the target speech can be improved. In addition, at this time, the language model generation device 1B is already included in the corpus and learned by increasing the weight of the sentence suitable for evaluation when calculating the mixture weight in each sentence of the evaluation sentence H. Over-learning can be suppressed.

なお、言語モデル生成装置1Bは、図示を省略したコンピュータを、評価重み生成手段10、混合重み生成手段11、線形和補間手段12として機能させるプログラム(言語モデル生成プログラム)で動作させることができる。   The language model generation device 1B can operate a computer (not shown) with a program (language model generation program) that functions as the evaluation weight generation means 10, the mixing weight generation means 11, and the linear sum interpolation means 12.

以上、本発明の実施形態(第1,第2実施形態)について説明したが、本発明は、これらの実施形態に限定されるものではなく、以下のように種々変形することができる。
≪その他の変形例≫
ここでは、評価重み生成手段10が生成する評価重みαを、前記式(3)に示すように、2値(“0”,“1”)とした。
しかし、評価重み生成手段10は、評価重みαを、評価用文章Hの文章全体の全体パープレキシティPPallと、各文章の個別パープレキシティPPとの差等を基に、“0”以上“1”以下の範囲の値としてもよい。例えば、文章全体の全体パープレキシティPPallから、各文章の個別パープレキシティPPを減算した差が最大となる文章に対する評価重みを“1”、最小となる文章に対する評価重みを“0”とし、他の文章に対する評価重みについては、その差の大きさの割合に応じて値を付与すればよい。
As mentioned above, although embodiment (1st, 2nd embodiment) of this invention was described, this invention is not limited to these embodiment, It can deform | transform variously as follows.
«Other modifications»
Here, the evaluation weight α c generated by the evaluation weight generation means 10 is binary (“0”, “1”) as shown in the equation (3).
However, the evaluation weight generation means 10 sets the evaluation weight α c on the basis of the difference between the entire perplexity PP all of the whole sentence of the evaluation sentence H and the individual perplexity PP c of each sentence, etc. The value may be in the range of “more than“ 1 ”or less. For example, the entire whole sentences perplexity PP all, the evaluation weights for sentences difference obtained by subtracting the individual perplexity PP c of each sentence is maximum "1", the evaluation weights for sentences having the smallest "0" For the evaluation weights for other sentences, values may be assigned according to the ratio of the magnitude of the difference.

また、ここでは、評価重み生成手段10は、言語モデルを評価する指標としてパープレキシティを用いた。
しかし、評価重み生成手段10は、言語モデルを数値評価できる指標であれば、必ずしもパープレキシティを用いる必要はない。例えば、エントロピー(前記式(2)のE)、対数尤度(前記式(2)のΣ以降)を用いても構わない。
Also, here, the evaluation weight generation unit 10 uses perplexity as an index for evaluating a language model.
However, the evaluation weight generation means 10 does not necessarily have to use perplexity as long as it is an index that can evaluate the language model numerically. For example, entropy (E in the above equation (2)) and log likelihood (from Σ in the above equation (2)) may be used.

また、ここでは、複数の言語モデルを例示(例えば、原稿言語モデル30、字幕言語モデル31、書き起こし言語モデル32等)して説明したが、混合する言語モデルは、これらに限定されるものではない。例えば、原稿言語モデル30は、放送番組の原稿以外にも、数年分の新聞の原稿であっても構わない。   In addition, although a plurality of language models are illustrated (for example, the manuscript language model 30, the subtitle language model 31, the transcription language model 32, etc.) here, the language models to be mixed are limited to these. Absent. For example, the manuscript language model 30 may be a newspaper manuscript for several years in addition to a broadcast program manuscript.

1,1B 言語モデル生成装置
10 評価重み生成手段
11 混合重み生成手段
11A 第1混合重み生成手段
11B 第2混合重み生成手段
12 線形和補間手段
12A 第1線形和補間手段
12B 第2線形和補間手段
20 グローバル言語モデル
21 混合グローバル言語モデル
30 原稿言語モデル(個別言語モデル)
31 字幕言語モデル(個別言語モデル)
32 書き起こし言語モデル(個別言語モデル)
40 話題依存言語モデル
50,50B 混合言語モデル
1, 1 B language model generation device 10 evaluation weight generation means 11 mixture weight generation means 11 A first mixture weight generation means 11 B second mixture weight generation means 12 linear sum interpolation means 12 A first linear sum interpolation means 12 B second linear sum interpolation means 20 Global Language Model 21 Mixed Global Language Model 30 Manuscript Language Model (Individual Language Model)
31 Subtitle Language Model (Individual Language Model)
32 Transcript language model (individual language model)
40 Topic-Dependent Language Model 50, 50B Mixed Language Model

Claims (5)

音声認識対象の話題に関連する学習コーパスから予め学習した話題依存言語モデルと、前記学習コーパスよりもデータ量の多い学習コーパスで予め学習したグローバル言語モデルとを混合し、前記音声認識対象の混合言語モデルを生成する言語モデル生成装置であって、
前記話題に関連する予め選定された評価用文章の全体を用いて前記グローバル言語モデルを評価した全体評価値と、前記評価用文章を予め定めた分類により区分した区分文章を用いて前記グローバル言語モデルを評価した前記区分文章ごとの個別評価値とを算出し、前記区分文章ごとに前記評価用文章としての適否の度合いを評価重みとして生成する評価重み生成手段と、
前記グローバル言語モデルを学習するために用いた学習コーパスを構成する複数の個別学習コーパスから予め学習した複数の個別言語モデルを、前記区分文章ごとに前記評価重みの割合で線形和補間したときの対数尤度が最大となる混合重みを生成する第1混合重み生成手段と、
この第1混合重み生成手段で生成された混合重みの割合で、前記複数の個別言語モデルを線形和補間して混合グローバル言語モデルを生成する第1線形和補間手段と、
前記区分文章ごとに前記評価重みの割合で前記混合グローバル言語モデルと前記話題依存言語モデルとを線形和補間したときの対数尤度が最大となる混合重みを生成する第2混合重み生成手段と、
この第2混合重み生成手段で生成された混合重みの割合で、前記混合グローバル言語モデルおよび前記話題依存言語モデルを線形和補間し、前記音声認識対象の混合言語モデルを生成する第2線形和補間手段と、
を備えることを特徴とする言語モデル生成装置。
A mixed language of speech recognition target by mixing a topic dependent language model learned in advance from a learning corpus related to a speech recognition target topic and a global language model learned in advance in a learning corpus having a larger data volume than the learning corpus A language model generation device for generating a model,
The global language model using the overall evaluation value obtained by evaluating the global language model using the whole of the evaluation sentences associated with the topic in advance and the divided sentences obtained by classifying the evaluation sentences according to predetermined classifications Evaluation weight generation means for calculating an individual evaluation value for each of the divided sentences obtained by evaluating the above, and generating a degree of appropriateness as the evaluation sentence as an evaluation weight for each of the divided sentences;
Logarithm of linear sum interpolation of a plurality of individual language models learned in advance from a plurality of individual learning corpuses constituting a learning corpus used to learn the global language model, for each of the divided sentences at the ratio of the evaluation weight First mixing weight generation means for generating mixing weights with maximum likelihood;
First linear sum interpolation means for generating a mixed global language model by performing linear sum interpolation on the plurality of individual language models at a ratio of the mixture weights generated by the first mixture weight generation means;
A second mixture weight generation unit configured to generate mixture weights that maximize the log likelihood when performing linear sum interpolation on the mixture global language model and the topic dependent language model at the ratio of the evaluation weight for each of the divided sentences;
A second linear sum interpolation that generates a mixed language model of the speech recognition target by performing linear sum interpolation on the mixed global language model and the topic dependent language model at a ratio of the mixed weight generated by the second mixed weight generation unit. Means,
A language model generation apparatus comprising:
音声認識対象の話題に関連する学習コーパスから予め学習した話題依存言語モデルと、前記学習コーパスよりもデータ量の多い学習コーパスで予め学習したグローバル言語モデルとを混合し、前記音声認識対象の混合言語モデルを生成する言語モデル生成装置であって、
前記話題に関連する予め選定された評価用文章の全体を用いて前記グローバル言語モデルを評価した全体評価値と、前記評価用文章を予め定めた分類により区分した区分文章を用いて前記グローバル言語モデルを評価した前記区分文章ごとの個別評価値とを算出し、前記区分文章ごとに前記評価用文章としての適否の度合いを評価重みとして生成する評価重み生成手段と、
前記区分文章ごとに前記評価重みの割合で前記グローバル言語モデルと前記話題依存言語モデルとを線形和補間したときの対数尤度が最大となる混合重みを生成する混合重み生成手段と、
前記混合重みの割合で、前記グローバル言語モデルおよび前記話題依存言語モデルを線形和補間し、前記音声認識対象の混合言語モデルを生成する線形和補間手段と、
を備えることを特徴とする言語モデル生成装置。
A mixed language of speech recognition target by mixing a topic dependent language model learned in advance from a learning corpus related to a speech recognition target topic and a global language model learned in advance in a learning corpus having a larger data volume than the learning corpus A language model generation device for generating a model,
The global language model using the overall evaluation value obtained by evaluating the global language model using the whole of the evaluation sentences associated with the topic in advance and the divided sentences obtained by classifying the evaluation sentences according to predetermined classifications Evaluation weight generation means for calculating an individual evaluation value for each of the divided sentences obtained by evaluating the above, and generating a degree of appropriateness as the evaluation sentence as an evaluation weight for each of the divided sentences;
Mixing weight generation means for generating a mixture weight that maximizes the log likelihood when performing linear sum interpolation between the global language model and the topic dependent language model at a rate of the evaluation weight for each of the divided sentences;
Linear sum interpolation means for performing linear sum interpolation on the global language model and the topic dependent language model at a ratio of the mixture weight to generate a mixed language model of the speech recognition target;
A language model generation apparatus comprising:
前記評価重み生成手段は、前記全体評価値および前記個別評価値として、前記グローバル言語モデルのパープレキシティを計算し、前記全体評価値よりも前記個別評価値の方が大きい前記区分文章に対して、前記評価重みを大きく設定することを特徴とする請求項1または請求項2に記載の言語モデル生成装置。   The evaluation weight generation means calculates a perplexity of the global language model as the overall evaluation value and the individual evaluation value, and for the divided sentence in which the individual evaluation value is larger than the overall evaluation value. The language model generation device according to claim 1, wherein the evaluation weight is set large. 前記評価重み生成手段は、前記全体評価値および前記個別評価値として、前記グローバル言語モデルのパープレキシティを計算し、前記全体評価値よりも前記個別評価値の方が大きい前記区分文章に対して、前記評価重みを“1”、それ以外の区分文章に対して、前記評価重みを“0”に設定することを特徴とする請求項1または請求項2に記載の言語モデル生成装置。   The evaluation weight generation means calculates a perplexity of the global language model as the overall evaluation value and the individual evaluation value, and for the divided sentence in which the individual evaluation value is larger than the overall evaluation value. 3. The language model generation device according to claim 1, wherein the evaluation weight is set to “0” for the divided sentences other than the evaluation weight “1”. コンピュータを、請求項1から請求項4のいずれか一項に記載の言語モデル生成装置として機能させるための言語モデル生成プログラム。   A language model generation program for causing a computer to function as the language model generation device according to any one of claims 1 to 4.
JP2015122789A 2015-06-18 2015-06-18 Language model generation device and program thereof Active JP6518142B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015122789A JP6518142B2 (en) 2015-06-18 2015-06-18 Language model generation device and program thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015122789A JP6518142B2 (en) 2015-06-18 2015-06-18 Language model generation device and program thereof

Publications (2)

Publication Number Publication Date
JP2017009691A JP2017009691A (en) 2017-01-12
JP6518142B2 true JP6518142B2 (en) 2019-05-22

Family

ID=57761502

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015122789A Active JP6518142B2 (en) 2015-06-18 2015-06-18 Language model generation device and program thereof

Country Status (1)

Country Link
JP (1) JP6518142B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107945792B (en) * 2017-11-06 2021-05-28 百度在线网络技术(北京)有限公司 Voice processing method and device
KR20200059703A (en) * 2018-11-21 2020-05-29 삼성전자주식회사 Voice recognizing method and voice recognizing appratus

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4263060B2 (en) * 2003-09-05 2009-05-13 日本電信電話株式会社 Language model creation method and apparatus
US9626960B2 (en) * 2013-04-25 2017-04-18 Nuance Communications, Inc. Systems and methods for providing metadata-dependent language models

Also Published As

Publication number Publication date
JP2017009691A (en) 2017-01-12

Similar Documents

Publication Publication Date Title
Kannan et al. Large-scale multilingual speech recognition with a streaming end-to-end model
JP6222821B2 (en) Error correction model learning device and program
US11055497B2 (en) Natural language generation of sentence sequences from textual data with paragraph generation model
JP5413622B2 (en) Language model creation device, language model creation method, and program
JP2022531414A (en) End-to-end automatic speech recognition of digit strings
CN115516552A (en) Speech recognition using synthesis of unexplained text and speech
US8019594B2 (en) Method and apparatus for progressively selecting features from a large feature space in statistical modeling
JP7051919B2 (en) Speech recognition and decoding methods based on streaming attention models, devices, equipment and computer readable storage media
US8019593B2 (en) Method and apparatus for generating features through logical and functional operations
JP2015187684A (en) Unsupervised training method, training apparatus, and training program for n-gram language model
King et al. Evaluating approaches to personalizing language models
WO2019167296A1 (en) Device, method, and program for natural language processing
JP6810580B2 (en) Language model learning device and its program
CN117099157A (en) Multitasking learning for end-to-end automatic speech recognition confidence and erasure estimation
EP4367663A1 (en) Improving speech recognition with speech synthesis-based model adaption
JP6518142B2 (en) Language model generation device and program thereof
JP6082657B2 (en) Pose assignment model selection device, pose assignment device, method and program thereof
US20220122586A1 (en) Fast Emit Low-latency Streaming ASR with Sequence-level Emission Regularization
KR20230156425A (en) Streaming ASR model delay reduction through self-alignment
KR20230156427A (en) Concatenated and reduced RNN-T
Sethy et al. Joint training of interpolated exponential n-gram models
Seki et al. Diversity-based core-set selection for text-to-speech with linguistic and acoustic features
US20240013777A1 (en) Unsupervised Data Selection via Discrete Speech Representation for Automatic Speech Recognition
US20230107695A1 (en) Fusion of Acoustic and Text Representations in RNN-T
JP2005091518A (en) Speech recognition device and speech recognition program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180502

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190326

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190419

R150 Certificate of patent or registration of utility model

Ref document number: 6518142

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250