JP2017016384A - Mixed coefficient parameter learning device, mixed occurrence probability calculation device, and programs thereof - Google Patents

Mixed coefficient parameter learning device, mixed occurrence probability calculation device, and programs thereof Download PDF

Info

Publication number
JP2017016384A
JP2017016384A JP2015132347A JP2015132347A JP2017016384A JP 2017016384 A JP2017016384 A JP 2017016384A JP 2015132347 A JP2015132347 A JP 2015132347A JP 2015132347 A JP2015132347 A JP 2015132347A JP 2017016384 A JP2017016384 A JP 2017016384A
Authority
JP
Japan
Prior art keywords
occurrence probability
probability
vector
neural network
mixed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015132347A
Other languages
Japanese (ja)
Inventor
正 熊野
Tadashi Kumano
正 熊野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK filed Critical Nippon Hoso Kyokai NHK
Priority to JP2015132347A priority Critical patent/JP2017016384A/en
Publication of JP2017016384A publication Critical patent/JP2017016384A/en
Pending legal-status Critical Current

Links

Images

Abstract

PROBLEM TO BE SOLVED: To provide a mixed coefficient parameter learning device for improving the accuracy of a mixed occurrence probability.SOLUTION: A mixed coefficient parameter learning device 30 includes: first occurrence probability request means 312 for requesting a hidden layer vector and an occurrence probability from a neural network language model calculation device 10; second occurrence probability input means 313 for requesting an occurrence probability from an other language model calculation device 20; first mixed coefficient calculation means 314 for calculating a mixed coefficient from the hidden layer vector; mapping vector update means 315 for updating a mapping vector by a probabilistic gradient descent method; update rate reduction means 317 for reducing an update rate; and termination condition determination means 316 for causing the mapping vector update means 315 to update the mapping vector until satisfying a termination condition.SELECTED DRAWING: Figure 2

Description

本願発明は、混合係数の算出に必要なパラメータを学習する混合係数パラメータ学習装置、ニューラルネットワーク確率モデルと他の確率モデルとの混合生起確率を算出する混合生起確率算出装置、及び、これらのプログラムに関する。   The present invention relates to a mixing coefficient parameter learning device that learns parameters necessary for calculating a mixing coefficient, a mixed occurrence probability calculation device that calculates a mixed occurrence probability between a neural network probability model and another probability model, and a program thereof. .

統計的言語モデル(以後、「言語モデル」)とは、ある言語又はドメインにおいて、単語系列w…wが生起する確率p(w…w)を計算する手段、及び、その手段によって計算するのに必要な各種統計量の一覧として定義される。言語モデルによって言語の生起を確率モデル化することは、統計的自然言語処理の最も基本的な技術の一つであり、音声認識、機械翻訳をはじめとする各種自然言語処理技術に用いられている。 Statistical language model (hereinafter, "language model") and comprises means for calculating in a language or domain, the probability word sequence w 1 w 2 ... w n are occurring p (w 1 w 2 ... w n), and , Defined as a list of various statistics necessary for calculation by the means. Probabilistic modeling of language occurrence by language model is one of the most basic techniques of statistical natural language processing, and is used in various natural language processing techniques such as speech recognition and machine translation. .

なお、言語モデルとは、ある言語、又は、その言語の特定分野における表現(単語系列)生起の確率モデルのことであり、一般的には予め与えられた当該言語又はその言語の当該分野のコーパスから学習する。
また、コーパスとは、ある言語又はその言語の特定分野で観測された単語系列の実例である。
また、w,w,wは、単語を表す。
The language model is a probability model of occurrence of an expression (word sequence) in a specific language or a specific field of the language, and is generally a predetermined language or a corpus of the language in the field. To learn from.
A corpus is an example of a word sequence observed in a certain language or a specific field of the language.
In addition, w 1, w 2, w n represents the word.

単語系列の生起確率p(w…w)は、一般的には、系列の各単語がそれ以前の単語系を前文脈として生起する確率の積、すなわち、p(w)×p(w|w)×p(w|w)×…×p(w|w…wn−1)としてモデル化される。つまり、言語モデルは、前文脈が与えられた条件下での次単語生起の予測モデルであると言える。 The occurrence probability p (w 1 w 2 ... W n ) of a word sequence is generally the product of the probabilities that each word of the sequence occurs with the previous word system as the previous context, that is, p (w 1 ) × It is modeled as p (w 2 | w 1 ) × p (w 3 | w 1 w 2 ) ×... × p (w n | w 1 w 2 ... w n−1 ). That is, it can be said that the language model is a prediction model for occurrence of the next word under the condition given the previous context.

言語モデルの最も一般的な実現手法は、n−gram言語モデルである。このn−gram言語モデルは、前記条件となる前文脈を直近のn−1単語に制限し(但し、nは1以上の整数)、学習コーパスから、n−1単語の列である前文脈の異なり毎に次単語生起頻度を収集した結果に基づき、各前文脈条件下の次単語生起確率を推定するものである。   The most common implementation method of the language model is an n-gram language model. This n-gram language model restricts the preceding context as the condition to the nearest n-1 words (where n is an integer equal to or greater than 1), and from the learning corpus, the previous context is a string of n-1 words. The next word occurrence probability under each previous context condition is estimated based on the result of collecting the next word occurrence frequency for each difference.

n−gram言語モデルでは、精度よく次単語の生起確率を推定するために長い前文脈を参照する(大きな値のnを用いる)必要がある。また、n−gram言語モデルでは、各前文脈に対して十分な実例を集める必要があるが、長い前文脈を用いるほど前文脈の異なりが増加するため、正確性を向上させるために非常に大きな学習コーパスを用意する必要がある。   In the n-gram language model, it is necessary to refer to a long previous context (using a large value of n) in order to accurately estimate the occurrence probability of the next word. Also, in the n-gram language model, it is necessary to collect sufficient examples for each previous context, but the longer the previous context, the more the difference in the previous context increases, so it is very large to improve accuracy. A learning corpus needs to be prepared.

近年、このn−gram言語モデルに対して、ニューラルネットワークを用いた言語モデル実現手法が提案されている。この手法は、ニューラルネットワークを用いて、各単語を表すものとして、固定次元で各次元が実数値である単語表現ベクトルへの写像を学習し、前文脈として単語列の各単語に対応する単語表現ベクトルの組み合わせを用いるものである。   In recent years, a language model realization method using a neural network has been proposed for this n-gram language model. This method uses a neural network to learn a mapping to a word expression vector with a fixed dimension and each dimension as a real value as representing each word, and the word expression corresponding to each word in the word sequence as the previous context A combination of vectors is used.

例えば、非特許文献1に記載のNNLM(Neural Network Language Model)は、図5のようなニューラルネットワークを構築する。以後、言語モデルについて、有限個|V|種類の単語のみを扱うものとし、各単語は1〜|V|の数値として表すことにする。このとき、|V|種類の単語の中には、必ず文頭を表す特殊な単語を含むものとする。ここで、各単語wに対応する予め定めた固定次元数mの単語表現ベクトルをC(w)とする。また、単語系列w…wの生起に関して、単語wのn−1個の前文脈を表すn−1個の単語表現ベクトルを連結したn×m次元の入力ベクトルx(t)=[C(wt−n+1),…,C(wt−2),C(wt−1)]から予め定めた固有次元数hのベクトルへの線形写像をHx(t)とする。
なお、前文脈の長さがn−1未満である(すなわちt<nである)場合には、単語wの前にn−t個の文頭を表す単語を補うことで入力ベクトルx(t)を作成するものとする。
For example, NNLM (Neural Network Language Model) described in Non-Patent Document 1 constructs a neural network as shown in FIG. Hereinafter, regarding the language model, only a limited number of | V | types of words are handled, and each word is expressed as a numerical value of 1 to | V |. At this time, it is assumed that a special word representing the beginning of a sentence is included in the | V | type words. Here, it is assumed that a word expression vector having a predetermined fixed dimension number m corresponding to each word w is C (w). Also, regarding the occurrence of the word sequence w 1 w 2 ... W t , an n × m-dimensional input vector x (t) obtained by concatenating n−1 word expression vectors representing n−1 previous contexts of the word w t. = [C (w t−n + 1 ),..., C (w t−2 ), C (w t−1 )] to Hx (t) is a linear mapping from a vector having a predetermined eigendimension number h.
If the length of the previous context is less than n−1 (ie, t <n), the input vector x (t (t) is obtained by supplementing the word w 1 with the word representing the beginning of the sentence before the word w 1. ).

また、線形写像Hx(t)の各次元を非線形関数f(例えば、双曲線正接関数tanh)で変換した隠れ層ベクトルz(t)から|V|次元ベクトルy(t)への線形写像をUz(t)とする。
また、y(t)の各次元を式(1)に示す関数で変換した|V|次元ベクトルを出力ベクトルp(t)とする。この場合、次単語がwである確率を以下の式(1)〜式(3)のように定義する(但し、yはyのi次元の値)。
また、入力ベクトルx(t)の(t)は、前文脈w…wt−1に後続する次単語wの生起確率に関わる入力ベクトルxを意味する(他のベクトルも同様)。
また、図5の‘○’はベクトルの要素を表す。
Further, a linear mapping from a hidden layer vector z (t) obtained by converting each dimension of the linear mapping Hx (t) with a nonlinear function f (for example, a hyperbolic tangent function tanh) to a | V | -dimensional vector y (t) is expressed as Uz ( t).
Also, a | V | -dimensional vector obtained by converting each dimension of y (t) with the function shown in Expression (1) is set as an output vector p (t). In this case, the probability that the next word is w t is defined as in the following equations (1) to (3) (where y i is the i-dimensional value of y).
Further, (t) of the input vector x (t) means the input vector x related to the occurrence probability of the next word w t following the previous context w 1 w 2 ... W t−1 (the same applies to other vectors). .
Further, “◯” in FIG. 5 represents a vector element.

Figure 2017016384
Figure 2017016384

Figure 2017016384
Figure 2017016384

Figure 2017016384
Figure 2017016384

n,m,hを予め設定し、学習コーパスの各単語wに対して、前文脈wt−n+1,…,wt−2,wt−1をニューラルネットワークに入力して次単語生起の確率分布を出力(順方向伝搬)し、出力ベクトルと正解ベクトルとの交差エントロピー誤差をニューラルネットワークに逆方向伝搬させながら、以下の式(4)〜式(6)のように単語表現ベクトルC、入力層から隠れ層への重みH、隠れ層から出力層への重みUを確率的勾配降下法により更新する(但し、εは更新率)。これを学習コーパス全体で何回か繰り返すことによって学習を実現する。
なお、正解ベクトルとは、単語wの生起確率を1とし、それ以外の単語の生起確率を0としたベクトルである。
n, m, h are set in advance, and for each word w t in the learning corpus, the previous contexts w t−n + 1 ,..., w t−2 , w t−1 are input to the neural network to generate the next word occurrence. While outputting the probability distribution (forward propagation) and propagating the cross-entropy error between the output vector and the correct vector to the neural network in the backward direction, the word expression vector C as shown in the following equations (4) to (6): The weight H from the input layer to the hidden layer and the weight U from the hidden layer to the output layer are updated by the stochastic gradient descent method (where ε is the update rate). Learning is realized by repeating this several times in the entire learning corpus.
The correct vector is a vector in which the occurrence probability of the word w t is 1, and the occurrence probabilities of other words are 0.

Figure 2017016384
Figure 2017016384

Figure 2017016384
Figure 2017016384

Figure 2017016384
Figure 2017016384

単語表現ベクトルCの学習の結果、類似した単語が近い単語表現ベクトルに写像され、Hの学習の結果、類似した単語が近い隠れ層ベクトルに写像されるので、小規模な学習コーパスから学習した場合でも高い正確性を得ることができる。   As a result of learning the word expression vector C, similar words are mapped to the nearest word expression vector, and as a result of learning H, similar words are mapped to the nearest hidden layer vector, so when learning from a small learning corpus But you can get high accuracy.

また、NNLMとは異なる手法として、非特許文献2に記載のRNNLM(Recurrent Neural Network Language Model)が提案されている。前記したように、NNLMでは、単語wに対して予め定めたn−1個の単語wt−n+1,…,wt−2,wt−1から前文脈を表す隠れ層ベクトルz(t)を計算する。一方、このRNNLMは、図6のように、隠れ層ベクトルz(t)を、1つ前の単語wt−1及びこの単語wt−1に対する前文脈を表す隠れ層ベクトルz(t−1)から計算する。これにより、RNNLMは、明示的な前文脈長nを与えることなく、長い前文脈を反映した次単語生起の予測を行うことを可能にする。 Further, as a method different from NNLM, RNNLM (Recurrent Neural Network Language Model) described in Non-Patent Document 2 has been proposed. As described above, in NNLM, word predetermined (n-1) for the word w t w t-n + 1 , ..., w t-2, w hiding from t-1 represents a previous context layer vector z (t ). On the other hand, this RNNLM, as in FIG. 6, a hidden layer vector z (t), 1 previous word w t-1 and the hidden layer vector z representing the previous context for this word w t-1 (t-1 ) This allows RNNLM to predict the occurrence of the next word reflecting a long previous context without giving an explicit previous context length n.

一般的には、これらニューラルネットワーク言語モデルは、他の言語モデル(例えば、n−gram言語モデル)と組み合わせて用いられる。具体的には、ニューラルネットワーク言語モデルによる生起確率をp、他の言語モデルによる生起確率をp、混合比率をλとする。この場合、以下の式(7)のように、λ:1−λの比率で両言語モデルの生起確率p,pを混合したものを混合生起確率pとして算出する。 Generally, these neural network language models are used in combination with other language models (for example, n-gram language models). Specifically, the occurrence probability by the neural network language model is p N , the occurrence probability by another language model is p O , and the mixing ratio is λ. In this case, as shown in the following formula (7), a mixture of the occurrence probabilities p N and p O of the two language models at a ratio of λ: 1−λ is calculated as the mixed occurrence probability p.

Figure 2017016384
Figure 2017016384

なお、式(7)では、λが混合係数を表す。通常、混合係数λは、学習済みの両言語モデルを用意した上で、別途用意したテストコーパスに対して最も正確性が高くなる値を決定し、決定した値を固定的に用いる。   In Equation (7), λ represents a mixing coefficient. In general, the mixed coefficient λ is prepared by preparing a learned bilingual model, determining a value with the highest accuracy with respect to a separately prepared test corpus, and using the determined value in a fixed manner.

このように生起確率を混合するには、以下のような理由がある。
1)ニューラルネットワーク言語モデルでは学習コーパスに表れなかった単語(未知語)の生起確率を推定する一般的手法がないが、n−gram言語モデルでは未知語に適切な生起確率を割り当てることができる。
2)ニューラルネットワーク言語モデルは学習のための計算量がn−gram言語モデルと比較して非常に大きいため、ニューラルネットワーク言語モデルで小規模のドメインに特化した学習コーパスを用いて学習し、より広範囲の大規模な学習コーパスから学習したn−gram言語モデルと組み合わせることが現実的である。
There are the following reasons for mixing the occurrence probabilities in this way.
1) Although there is no general method for estimating the occurrence probability of a word (unknown word) that did not appear in the learning corpus in the neural network language model, an appropriate occurrence probability can be assigned to the unknown word in the n-gram language model.
2) Since the neural network language model has a very large amount of calculation for learning compared to the n-gram language model, the neural network language model learns using a learning corpus specialized for small domains in the neural network language model. It is realistic to combine with an n-gram language model learned from a wide range of large-scale learning corpora.

A Neural Probabilistic Language Model,Yoshua Bengio et.al,Journal of Machine Learning Research 3,(2003),1137-1155A Neural Probabilistic Language Model, Yoshua Bengio et.al, Journal of Machine Learning Research 3, (2003), 1137-1155 Static Language Model based on Neural Network,Tomas MikolovStatic Language Model based on Neural Network, Tomas Mikolov

しかし、ニューラルネットワーク言語モデルでは、前文脈に関係なく固定的な混合係数を用いているため、混合生起確率の正確性が低くなるという問題がある。例えば、前文脈「私は」の次に表れる単語を正確に予測するためには巨大な学習コーパスで学習する必要がある。一方、前文脈「私は山にいきまし」の次に表れる単語は「た」「て」くらいしかあり得ず、小規模な学習コーパスで学習しても正確に予測可能である。すなわち、ニューラルネットワーク言語モデルでは、前文脈に応じて異なる混合係数を用いることで、混合生起確率の正確性を向上させることができる。   However, since the neural network language model uses a fixed mixing coefficient regardless of the previous context, there is a problem that the accuracy of the mixed occurrence probability is lowered. For example, in order to accurately predict the word appearing next to the previous context “I am”, it is necessary to learn with a huge learning corpus. On the other hand, the word that appears next to the previous context “I went to the mountain” can only be about “ta” and “te”, and can be accurately predicted even by learning with a small learning corpus. In other words, the neural network language model can improve the accuracy of the mixed occurrence probability by using different mixing coefficients depending on the previous context.

本願発明は、前記した課題に鑑みて、混合生起確率の正確性を向上させる混合係数パラメータ学習装置、混合生起確率算出装置、及び、これらのプログラムを提供することを課題とする。   This invention makes it a subject to provide the mixing coefficient parameter learning apparatus, the mixing occurrence probability calculation apparatus, and these programs which improve the precision of mixing occurrence probability in view of an above described subject.

前記した課題に鑑みて、本願発明に係る混合係数パラメータ学習装置は、ニューラルネットワーク確率モデルと前記ニューラルネットワーク確率モデル以外の他の確率モデルとのそれぞれで求めた前要素系列に対する次要素の生起確率を混合するときの混合係数の算出に必要なパラメータを学習する混合係数パラメータ学習装置であって、第1生起確率入力手段と、第2生起確率入力手段と、第1混合係数算出手段と、写像ベクトル更新手段と、更新率減少手段と、終了条件判定手段とを備える構成とした。   In view of the problems described above, the mixing coefficient parameter learning device according to the present invention determines the occurrence probability of the next element with respect to the previous element sequence obtained by each of the neural network probability model and the other probability models other than the neural network probability model. A mixing coefficient parameter learning device for learning parameters necessary for calculating a mixing coefficient when mixing, a first occurrence probability input means, a second occurrence probability input means, a first mixing coefficient calculation means, a mapping vector The update unit, the update rate reduction unit, and the end condition determination unit are provided.

かかる構成によれば、混合係数パラメータ学習装置は、第1生起確率入力手段によって、前記ニューラルネットワーク確率モデルの隠れ層ベクトルと、前記ニューラルネットワーク確率モデルで求めた生起確率とが入力される。   According to such a configuration, the mixed coefficient parameter learning apparatus receives the hidden layer vector of the neural network probability model and the occurrence probability obtained by the neural network probability model by the first occurrence probability input means.

すなわち、学習済みのニューラルネットワーク確率モデルに前要素系列を入力すると、ニューラルネットワーク確率モデルの隠れ層ベクトルとして、汎化された前要素の表現が得られる。従って、学習済みのニューラルネットワーク確率モデルの隠れ層ベクトルから混合係数への写像ベクトルを学習すれば、前要素系列に応じた混合係数を求めることが可能となる。   That is, when a previous element sequence is input to a learned neural network probability model, a generalized expression of the previous element is obtained as a hidden layer vector of the neural network probability model. Therefore, if a mapping vector from a hidden layer vector of a learned neural network probability model to a mixture coefficient is learned, a mixture coefficient corresponding to the previous element sequence can be obtained.

混合係数パラメータ学習装置は、第2生起確率入力手段によって、前記他の確率モデルで求めた生起確率が入力される。
混合係数パラメータ学習装置は、第1混合係数算出手段によって、予め設定された写像ベクトルにより前記隠れ層ベクトルを実数値のスカラに線形写像し、前記実数値のスカラをシグモイド関数で非線形変換することで、前記混合係数を算出する。
In the mixing coefficient parameter learning device, the occurrence probability obtained by the other probability model is input by the second occurrence probability input means.
The mixing coefficient parameter learning device linearly maps the hidden layer vector to a real-valued scalar according to a preset mapping vector by the first mixing coefficient calculation means, and nonlinearly converts the real-valued scalar by a sigmoid function. And calculating the mixing coefficient.

混合係数パラメータ学習装置は、写像ベクトル更新手段によって、前記ニューラルネットワーク確率モデルと前記他の確率モデルとのそれぞれで求めた生起確率、前記混合係数、及び、予め設定された更新率を用いた確率的勾配降下法により、前記パラメータとしての前記写像ベクトルを更新する。   The mixing coefficient parameter learning device uses the mapping vector update means to generate the probabilities of occurrence of the neural network probability model and the other probability models, the mixing coefficient, and a probabilistic value using a preset update rate. The mapping vector as the parameter is updated by a gradient descent method.

混合係数パラメータ学習装置は、更新率減少手段によって、予め設定された更新率減少規則に従って前記更新率を減少させる。
混合係数パラメータ学習装置は、終了条件判定手段によって、予め設定された終了条件を満たすか否かを判定し、前記終了条件を満たすまで、減少させた前記更新率で前記写像ベクトル更新手段に前記写像ベクトルを更新させる。例えば、この終了条件は、更新率を減少させても、生起確率が変化しないという条件である。
The mixing coefficient parameter learning device decreases the update rate according to a preset update rate decrease rule by the update rate decrease means.
The mixing coefficient parameter learning device determines whether or not a predetermined end condition is satisfied by an end condition determining unit, and the mapping vector updating unit reduces the update rate to the mapping vector update unit until the end condition is satisfied. Update the vector. For example, the termination condition is a condition that the occurrence probability does not change even if the update rate is decreased.

また、前記した課題に鑑みて、本願発明に係る混合生起確率算出装置は、ニューラルネットワーク確率モデルと前記ニューラルネットワーク確率モデル以外の他の確率モデルとのそれぞれで求めた前要素系列に対する次要素の生起確率を混合した混合生起確率を算出する混合生起確率算出装置であって、第3生起確率入力手段と、第4生起確率入力手段と、第2混合係数算出手段と、混合生起確率算出手段とを備える構成とした。   Further, in view of the above-described problems, the mixed occurrence probability calculation device according to the present invention provides the occurrence of the next element with respect to the previous element sequence obtained by each of the neural network probability model and another probability model other than the neural network probability model. A mixed occurrence probability calculating device for calculating a mixed occurrence probability in which probabilities are mixed, comprising: a third occurrence probability input means; a fourth occurrence probability input means; a second mixing coefficient calculation means; and a mixed occurrence probability calculation means. It was set as the structure provided.

かかる構成によれば、混合生起確率算出装置は、第3生起確率入力手段によって、前記ニューラルネットワークの隠れ層ベクトルと、前記ニューラルネットワーク確率モデルで求めた生起確率とが入力される。
混合生起確率算出装置は、第4生起確率入力手段によって、前記他の確率モデルで求めた生起確率が入力される。
According to such a configuration, the mixed occurrence probability calculation device receives the hidden layer vector of the neural network and the occurrence probability obtained by the neural network probability model by the third occurrence probability input unit.
In the mixed occurrence probability calculation device, the occurrence probability obtained by the other probability model is input by the fourth occurrence probability input means.

混合生起確率算出装置は、第2混合係数算出手段によって、本願発明に係る混合係数パラメータ学習装置が学習した写像ベクトルで前記隠れ層ベクトルを実数値のスカラに線形写像し、前記実数値のスカラをシグモイド関数で非線形変換することで、前要素系列に応じた混合係数を算出する。   The mixed occurrence probability calculating device linearly maps the hidden layer vector to a real-valued scalar with the mapping vector learned by the mixed-coefficient parameter learning device according to the present invention by the second mixing coefficient calculating means, and converts the real-valued scalar into the real-valued scalar. By performing non-linear transformation with a sigmoid function, a mixing coefficient corresponding to the previous element series is calculated.

混合生起確率算出装置は、混合生起確率算出手段によって、前要素系列に応じた前記混合係数を用いて、前記ニューラルネットワーク確率モデルと前記他の確率モデルとで求めた前記次要素の生起確率を混合することで、前記混合生起確率を算出する。   The mixed occurrence probability calculating device mixes the occurrence probabilities of the next element obtained by the neural network probability model and the other probability models by using the mixing coefficient corresponding to the previous element series by the mixed occurrence probability calculating means. Thus, the mixed occurrence probability is calculated.

本願発明は、以下のような優れた効果を奏する。
本願発明によれば、学習済みのニューラルネットワーク確率モデルの隠れ層ベクトルから混合係数への写像ベクトルを学習する。これにより、前要素系列に応じた混合係数が求められるので、混合生起確率の正確性を向上させることができる。
The present invention has the following excellent effects.
According to the present invention, a mapping vector from a hidden layer vector of a learned neural network probability model to a mixture coefficient is learned. Thereby, since the mixing coefficient according to the previous element series is obtained, the accuracy of the mixing occurrence probability can be improved.

本願発明における写像ベクトルの学習手順を説明する説明図である。It is explanatory drawing explaining the learning procedure of the mapping vector in this invention. 本願発明の実施形態に係る混合生起確率算出システムの構成を示すブロック図である。It is a block diagram which shows the structure of the mixed occurrence probability calculation system which concerns on embodiment of this invention. 図2の混合係数パラメータ算出装置の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the mixing coefficient parameter calculation apparatus of FIG. 図2の混合生起確率算出装置の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the mixed occurrence probability calculation apparatus of FIG. 従来のNNLMの処理概要を説明する説明図である。It is explanatory drawing explaining the process outline | summary of the conventional NNLM. 従来のRNNLMの処理概要を説明する説明図である。It is explanatory drawing explaining the process outline | summary of the conventional RNNLM.

以下、本願発明の実施形態に係る混合生起確率算出システム1について説明する。
最初に、図1を参照し、写像ベクトルの学習手順と、混合生起確率の算出手順とを説明する。その後、混合生起確率算出システム1の構成について説明する。
Hereinafter, the mixed occurrence probability calculation system 1 according to the embodiment of the present invention will be described.
First, the mapping vector learning procedure and the mixed occurrence probability calculation procedure will be described with reference to FIG. Thereafter, the configuration of the mixed occurrence probability calculation system 1 will be described.

ここで、前文脈(前要素系列)を表現したh次元の隠れ層ベクトルを持ち、この隠れ層ベクトルからの写像として次単語の生起確率を演算するニューラルネットワーク言語モデル演算装置10があることとする。このニューラルネットワーク言語モデル演算装置10は、生起確率の計算に必要な各統計量が学習コーパス等により学習済みであることとする。   Here, it is assumed that there is a neural network language model calculation apparatus 10 that has an h-dimensional hidden layer vector representing the previous context (previous element series) and calculates the occurrence probability of the next word as a mapping from the hidden layer vector. . The neural network language model computing device 10 assumes that each statistic necessary for calculating the occurrence probability has been learned by a learning corpus or the like.

また、n−gram言語モデル等の他の言語モデルで次単語の生起確率を推定する他言語モデル演算装置20(図2)があることとする。この他言語モデル演算装置20では、生起確率の計算に必要な各統計量が学習コーパス等により学習済みであることとする。
なお、他言語モデル演算装置20の各統計量を学習するために用いる学習コーパス等は、前記のニューラルネットワーク言語モデル演算装置10の各統計量を学習するために用いた学習コーパスと同一である必要はない。
Further, it is assumed that there is another language model calculation device 20 (FIG. 2) that estimates the occurrence probability of the next word using another language model such as an n-gram language model. In this other language model calculation device 20, it is assumed that each statistic necessary for calculating the occurrence probability has been learned by a learning corpus or the like.
The learning corpus used for learning each statistic of the other language model calculation device 20 needs to be the same as the learning corpus used for learning each statistic of the neural network language model calculation device 10. There is no.

<写像ベクトルの学習手順>
ニューラルネットワーク言語モデル演算装置10に前文脈を入力すると、隠れ層ベクトルとして、汎化された前文脈の表現が得られる。そこで、本願発明は、図1のように、ニューラルネットワーク言語モデル演算装置10に、隠れ層ベクトルzから混合係数λへの写像を行う処理を追加し、この写像ベクトルSを学習することとする。
<Mapping vector learning procedure>
When the previous context is input to the neural network language model calculation device 10, a generalized expression of the previous context is obtained as a hidden layer vector. Therefore, in the present invention, as shown in FIG. 1, a process for mapping from the hidden layer vector z to the mixing coefficient λ is added to the neural network language model calculation apparatus 10 and the mapping vector S is learned.

具体的には、ニューラルネットワーク言語モデルによる処理に以下の式(8)及び式(9)の処理を加えることで、前文脈…wt−1が与えられたときの次単語wの生起確率の算出に必要な混合係数λ(t)を計算するようにする。 Specifically, by adding the processing of the following equations (8) and (9) to the processing by the neural network language model, the occurrence probability of the next word w t when the previous context... W t−1 is given. The mixing coefficient λ (t) necessary for calculating is calculated.

Figure 2017016384
Figure 2017016384

Figure 2017016384
Figure 2017016384

なお、式(8)は、実数値のスカラs(t)から混合係数λ(t)へのシグモイド関数による非線形変換を表している。
また、式(9)は、隠れ層ベクトルz(t)から実数値のスカラs(t)への線形写像Sz(t)を表している。また、式(9)では、bがバイアス値を表している。
Equation (8) represents a nonlinear conversion by a sigmoid function from a real-valued scalar s (t) to a mixing coefficient λ (t).
Equation (9) represents a linear mapping Sz (t) from a hidden layer vector z (t) to a real-valued scalar s (t). In Expression (9), b represents the bias value.

写像ベクトルS及びバイアス値bの学習は、何らかの学習コーパス中の各単語wについて、生起確率p(w|…wt−1)と生起確率p(w|…wt−1)とを式(8)で定義される混合係数λ(t)を用いて、以下の式(10)に従って混合した混合生起確率p(w|…wt−1)が最大となるように、以下の手順1〜手順3で行う。 Learning of the mapping vector S and the bias value b, for each word w t in some learning corpus, the occurrence probability p N (w t | ... w t-1) and the occurrence probability p O (w t | ... w t-1 ) And the mixing coefficient λ (t) defined by the equation (8) so that the mixed occurrence probability p (w t |... W t−1 ) is maximized according to the following equation (10). The following steps 1 to 3 are performed.

Figure 2017016384
Figure 2017016384

なお、学習コーパスは、ニューラルネットワーク言語モデルや別の言語モデルの学習に用いたコーパスと同じもの、又は、そのコーパスと異なるものでもよい。
また、生起確率p(w|…wt−1)は、前文脈…wt−1をニューラルネットワーク言語モデルに与えて得られる次単語wの生起確率である。
また、生起確率p(w|…wt−1)は、前文脈…wt−1を他の言語モデルに与えて得られる次単語wの生起確率である。
Note that the learning corpus may be the same as or different from the corpus used to learn the neural network language model or another language model.
The occurrence probability p N (w t |... W t-1 ) is the occurrence probability of the next word w t obtained by giving the previous context... W t-1 to the neural network language model.
The occurrence probability p O (w t |... W t-1 ) is the occurrence probability of the next word w t obtained by giving the previous context ... w t-1 to another language model.

手順1.更新率εを予め設定する。
手順2.学習コーパス中の各単語wに対して以下の(a)〜(c)の処理を実行する。
(a)ニューラルネットワーク言語モデル演算装置10に適宜(NNMLのように前文脈が固定されている場合、その長さで区切った)前文脈…wt−1を入力して順方向伝搬を行うことで、隠れ層ベクトルz(t)及び次単語wの生起確率p(w|…wt−1)を求める。同様に、他の言語モデルの生起確率p(w|…wt−1)を求める。
Procedure 1. An update rate ε is set in advance.
Procedure 2. The following processes (a) to (c) are executed for each word w t in the learning corpus.
(A) The forward context is input to the neural network language model arithmetic unit 10 as appropriate (when the previous context is fixed as in NNML, divided by its length) ... w t-1 to perform forward propagation. Thus, the occurrence probability p N (w t |... W t−1 ) of the hidden layer vector z (t) and the next word w t is obtained. Similarly, occurrence probabilities p O (w t |... W t−1 ) of other language models are obtained.

(b)隠れ層から順方向伝搬を行うことで、混合係数λ(t)を求める。すなわち、式(8)及び式(9)を用いて、混合係数λ(t)を求める。 (B) The mixing coefficient λ (t) is obtained by performing forward propagation from the hidden layer. That is, the mixing coefficient λ (t) is obtained using the equations (8) and (9).

(c)確率的勾配降下法により写像ベクトルSを更新する。すなわち、h次元の写像ベクトルSの各次元Sを、以下の式(11)及び式(12)のように混合係数λ(t)が反映された確率的勾配降下法により更新する。 (C) Update the mapping vector S by the stochastic gradient descent method. That is, each dimension S i of the h-dimensional mapping vector S is updated by a probabilistic gradient descent method in which the mixing coefficient λ (t) is reflected as in the following expressions (11) and (12).

Figure 2017016384
Figure 2017016384

Figure 2017016384
Figure 2017016384

さらに、式(9)のバイアス値bも学習の対象となる。このため、以下の式(13)及び式(14)のようにバイアス値bも更新する。   Further, the bias value b in the equation (9) is also a learning target. For this reason, the bias value b is also updated as in the following equations (13) and (14).

Figure 2017016384
Figure 2017016384

Figure 2017016384
Figure 2017016384

手順2(c)において、写像ベクトルSを更新する際、ニューラルネットワーク言語モデルによる過学習を防止するため、一例として式(15)のように、正則化を行ってもよい。さらに、バイアス値bについても、写像ベクトルSと同様、正則化を行ってもよい。
なお、式(15)では、βが正則化係数を表す。例えば、正則化係数βは、更新率εより小さな値とする。
In the procedure 2 (c), when the mapping vector S is updated, regularization may be performed as shown in Expression (15) as an example in order to prevent over-learning by the neural network language model. Further, the bias value b may be regularized as with the mapping vector S.
In equation (15), β represents a regularization coefficient. For example, the regularization coefficient β is set to a value smaller than the update rate ε.

Figure 2017016384
Figure 2017016384

手順3.所定の終了条件に合致するまで、手順2に戻って処理を繰り返す。このとき、所定の更新率減少規則に従って、更新率εを減少させる。
なお、終了条件及び更新率減少規則の詳細は、後記する。
Procedure 3. The process returns to step 2 and repeats until a predetermined end condition is met. At this time, the update rate ε is decreased according to a predetermined update rate decrease rule.
Details of the termination condition and the update rate reduction rule will be described later.

<混合生起確率の算出手順>
次単語wの生起確率の計算は、前記した学習結果を用いて、以下の手順4〜手順6で行う。
<Procedure for calculating mixed occurrence probability>
The occurrence probability of the next word w t is calculated by the following procedure 4 to procedure 6 using the learning result described above.

手順4.ニューラルネットワーク言語モデル演算装置に適宜(NNMLのように前文脈が固定されている場合、その長さで区切った)前文脈…wt−1を入力して順方向伝搬を行うことで、隠れ層ベクトルz(t)及び次単語wの生起確率p(w|…wt−1)を求める。同様に、他の言語モデルの生起確率p(w|…wt−1)を求める。
なお、この手順4は、写像ベクトルSの学習手順2(a)と同じ処理である。
Procedure 4. Hidden layer by inputting forward context ... w t-1 to the neural network language model arithmetic unit as appropriate (when the previous context is fixed like NNML, divided by its length) and performing forward propagation The occurrence probability p N (w t |... W t−1 ) of the vector z (t) and the next word w t is obtained. Similarly, occurrence probabilities p O (w t |... W t−1 ) of other language models are obtained.
This procedure 4 is the same process as the learning procedure 2 (a) of the mapping vector S.

手順5.隠れ層から順方向伝搬を行うことで、混合係数λ(t)を求める。すなわち、学習した写像ベクトルS及びバイアス値bを式(9)に代入して、混合係数λ(t)を求める。なお、この手順5は、写像ベクトルSの学習手順2(b)と同じ処理である。
手順6.式(16)を用いて、混合生起確率p(w|…wt−1)を求める。
Procedure 5. By performing forward propagation from the hidden layer, the mixing coefficient λ (t) is obtained. That is, the learned mapping vector S and the bias value b are substituted into equation (9) to obtain the mixing coefficient λ (t). This procedure 5 is the same process as the learning procedure 2 (b) of the mapping vector S.
Procedure 6. The mixed occurrence probability p (w t |... W t−1 ) is obtained using Expression (16).

Figure 2017016384
Figure 2017016384

図2を参照し、本願発明の実施形態に係る混合生起確率算出システム1の構成について説明する。   With reference to FIG. 2, the structure of the mixed occurrence probability calculation system 1 according to the embodiment of the present invention will be described.

混合生起確率算出システム1は、ニューラルネットワーク言語モデルで求めた生起確率pと、他の言語モデルで求めた生起確率pとを混合した混合生起確率Pを算出するものである。図2のように、混合生起確率算出システム1は、ニューラルネットワーク言語モデル演算装置10と、他言語モデル演算装置20と、混合係数パラメータ学習装置30と、混合生起確率算出装置40とを備える。 Mixed occurrence probability calculation system 1 is for calculating the occurrence probability p N calculated in the neural network language model, the mixing probability P obtained by mixing the occurrence probability p O obtained in other language models. As shown in FIG. 2, the mixed occurrence probability calculation system 1 includes a neural network language model calculation device 10, another language model calculation device 20, a mixing coefficient parameter learning device 30, and a mixed occurrence probability calculation device 40.

[ニューラルネットワーク言語モデル演算装置の構成]
ニューラルネットワーク言語モデル演算装置10は、ニューラルネットワーク言語モデルにより、生起確率pを演算するものである。例えば、ニューラルネットワーク言語モデル演算装置10は、隠れ層を用いるニューラルネットワーク(例えば、NNLM、RNNLM)を用いることができる。
[Configuration of Neural Network Language Model Calculation Device]
The neural network language model computing device 10 computes the occurrence probability p N using a neural network language model. For example, the neural network language model calculation apparatus 10 can use a neural network using a hidden layer (for example, NNLM, RNNLM).

具体的には、ニューラルネットワーク言語モデル演算装置10は、前文脈w,w,…,wt−1が入力されると、当該前文脈に後続する単語wの生起確率p(w|…wt−1)を演算する。また、ニューラルネットワーク言語モデル演算装置10は、ニューラルネットワークの出力層ベクトルp(t)を演算する際、ニューラルネットワークの入力層ベクトルx(t)から算出した隠れ層ベクトルz(t)を記憶し、記憶した隠れ層ベクトルz(t)を混合係数パラメータ学習装置30又は混合生起確率算出装置40に出力する。 Specifically, when the previous context w 1 , w 2 ,..., W t−1 is input, the neural network language model calculation apparatus 10 receives the occurrence probability p N (w of the word w t following the previous context. t |... w t−1 ) is calculated. The neural network language model calculation device 10 stores the hidden layer vector z (t) calculated from the input layer vector x (t) of the neural network when calculating the output layer vector p (t) of the neural network, The stored hidden layer vector z (t) is output to the mixture coefficient parameter learning device 30 or the mixture occurrence probability calculation device 40.

NNLMの場合、ニューラルネットワーク言語モデル演算装置10は、参照可能な前文脈の長さが、前文脈の末尾から所定の単語数n−1までに限定される(nは1以上の整数)。
例えば、前文脈がw,w,…,wt−1の場合、参照可能な前文脈がwt−n+1,wt-n+1,…,wt−1となる。
ニューラルネットワーク言語モデル演算装置10は、入力された前文脈の各単語に対応した単語表現ベクトルC(w)を記憶し、長さn−1の前文脈wt−n+1,wt-n+1,…,wt−1が入力されると、その各単語に応じた単語表現ベクトルC(w)を連結してニューラルネットワークの入力層ベクトルx(t)に設定する。そして、ニューラルネットワーク言語モデル演算装置10は、順方向伝搬を行い、ニューラルネットワークの隠れ層ベクトルz(t)及び出力層ベクトルp(t)を算出する。
出力層ベクトルp(t)は、単語の異なり数の次元を持つベクトルであり、ベクトルの各次元の値がその次元に対応した単語の生起確率を表す。なお、隠れ層ベクトルz(t)を「前文脈w,w,…,wt−1の隠れ層表現」と呼ぶ。
In the case of NNLM, the neural network language model calculation apparatus 10 limits the length of the previous context that can be referred to from the end of the previous context to a predetermined number of words n−1 (n is an integer of 1 or more).
For example, prior context w 1, w 2, ..., when the w t-1, referable prior context w t-n + 1, w t-n + 1, ..., a w t-1.
The neural network language model calculation apparatus 10 stores the word expression vector C (w) corresponding to each word of the input previous context, and the previous contexts w t−n + 1 , w t−n + 1 ,. , W t−1 are input, the word expression vectors C (w) corresponding to the respective words are connected and set to the input layer vector x (t) of the neural network. Then, the neural network language model calculation device 10 performs forward propagation and calculates the hidden layer vector z (t) and the output layer vector p (t) of the neural network.
The output layer vector p (t) is a vector having a number of different dimensions of the word, and the value of each dimension of the vector represents the occurrence probability of the word corresponding to that dimension. It should be noted that the hidden layer vector z (t) is referred to as a "pre-context w 1, w 2, ..., hidden layer representation of w t-1".

RNNLMの場合、ニューラルネットワーク言語モデル演算装置10は、内部にこれまで順に入力された単語系列w,w,…を前文脈とする隠れ層ベクトルzを記憶している。初期状態において、隠れ層ベクトルzは、ニューラルネットワーク言語モデル演算装置10に固有の初期値に設定される。
ニューラルネットワーク言語モデル演算装置10は、i番目の単語wを入力すると、当該単語wに対応した次元のみが1で、他のすべての次元が0であるベクトルを入力層x(i)に設定する。そして、ニューラルネットワーク言語モデル演算装置10は、入力層x(i)及び記憶している前入力の隠れ層ベクトルz(i)から順方向伝搬を行い、ニューラルネットワークの隠れ層ベクトルz(i+1)及び出力層ベクトルp(i+1)を算出する。単語w,w,…,wt−1までの入力及び順方向伝搬が終了したとき、隠れ層ベクトルz(t)は、前記したNNLMを用いた場合の「前文脈w,w,…,wt−1の隠れ層表現」と同様のものになる。すなわち、ニューラルネットワーク言語モデル演算装置10は、隠れ層ベクトルz(t)を用いた順方向伝搬により出力層ベクトルp(t)を算出し、次単語の生起確率pを求める。
In the case of RNNLM, the neural network language model calculation apparatus 10 stores a hidden layer vector z having the word series w 1 , w 2 ,. In the initial state, the hidden layer vector z is set to an initial value unique to the neural network language model arithmetic unit 10.
When the i-th word w i is input, the neural network language model calculation device 10 inputs a vector in which only the dimension corresponding to the word w i is 1 and all other dimensions are 0 to the input layer x (i). Set. Then, the neural network language model calculation device 10 performs forward propagation from the input layer x (i) and the stored hidden layer vector z (i) of the previous input, and the neural network hidden layer vector z (i + 1) and An output layer vector p (i + 1) is calculated. When the input to the words w 1 , w 2 ,..., W t−1 and the forward propagation are finished, the hidden layer vector z (t) is “previous context w 1 , w 2 when using the NNLM”. ,..., Hidden layer representation of w t−1 ”. In other words, neural network language model calculating unit 10 calculates the output layer vector p (t) by forward propagating Using Hidden layer vector z (t), obtaining the occurrence probability p N of the next word.

なお、ニューラルネットワーク言語モデル演算装置10は、学習済みであり(学習データにより順方向伝搬のための写像行列が適切な値に設定済みであり)、その学習結果が記憶されていることとする。
また、ニューラルネットワーク言語モデル演算装置10は、一般的な構成のため、これ以上の説明を省略する。
It is assumed that the neural network language model calculation device 10 has already been learned (the mapping matrix for forward propagation has been set to an appropriate value by the learning data), and the learning result is stored.
Further, since the neural network language model calculation device 10 has a general configuration, further description thereof is omitted.

[他言語モデル演算装置の構成]
他言語モデル演算装置20は、ニューラルネットワーク言語モデル以外の他の言語モデル(例えば、n−gram言語モデル)により、生起確率pを演算するものである。具体的には、他言語モデル演算装置20は、前文脈w,w,…,wt−1が入力されると、当該前文脈に後続する任意の単語wの生起確率p(w|…wt−1)を演算して出力する。
[Configuration of other language model arithmetic unit]
The other language model calculation device 20 calculates the occurrence probability p O using a language model other than the neural network language model (for example, an n-gram language model). Specifically, when the previous context w 1 , w 2 ,..., W t−1 is input, the other language model calculation apparatus 20 receives the occurrence probability p O (arbitrary word w t following the previous context. w t |... w t−1 ) is calculated and output.

なお、他言語モデル演算装置20は、確率値の計算に必要な各種パラメータが予め設定されていることとする。
また、他言語モデル演算装置20は、一般的な構成のため、これ以上の説明を省略する。
In the other language model calculation device 20, various parameters necessary for calculating the probability value are set in advance.
Further, since the other language model calculation device 20 has a general configuration, further description is omitted.

[混合係数パラメータ学習装置の構成]
混合係数パラメータ学習装置30は、ニューラルネットワーク言語モデルと他の言語モデルとのそれぞれで求めた生起確率p,pを混合するときの混合係数λの算出に必要なパラメータを学習するものである。
[Configuration of mixing coefficient parameter learning device]
The mixing coefficient parameter learning device 30 learns parameters necessary for calculating the mixing coefficient λ when the occurrence probabilities p N and p O obtained in the neural network language model and other language models are mixed. .

図2のように、混合係数パラメータ学習装置30は、混合係数パラメータ記憶手段301と、学習パラメータ記憶手段302と、学習データ記憶手段303と、混合係数記憶手段304と、初期化手段311と、第1生起確率要求手段(第1生起確率入力手段)312と、第2生起確率要求手段(第2生起確率入力手段)313と、第1混合係数算出手段314と、写像ベクトル更新手段315と、終了条件判定手段316と、更新率減少手段317とを備える。   As shown in FIG. 2, the mixing coefficient parameter learning apparatus 30 includes a mixing coefficient parameter storage unit 301, a learning parameter storage unit 302, a learning data storage unit 303, a mixing coefficient storage unit 304, an initialization unit 311, 1 occurrence probability request means (first occurrence probability input means) 312, second occurrence probability request means (second occurrence probability input means) 313, first mixing coefficient calculation means 314, mapping vector update means 315, and end Condition determining means 316 and update rate reducing means 317 are provided.

混合係数パラメータ記憶手段301は、混合係数λの算出に必要な混合係数パラメータを記憶するメモリ、ハードディスク等の記憶手段である。具体的には、混合係数パラメータ記憶手段301は、写像ベクトルS、バイアス値b等の混合係数パラメータを記憶する。この写像ベクトルSは、ニューラルネットワークの隠れ層ベクトルzの次元数hと同一次元数である。   The mixing coefficient parameter storage unit 301 is a storage unit such as a memory or a hard disk that stores a mixing coefficient parameter necessary for calculating the mixing coefficient λ. Specifically, the mixing coefficient parameter storage unit 301 stores mixing coefficient parameters such as the mapping vector S and the bias value b. This mapping vector S has the same dimensionality as the dimensionality h of the hidden layer vector z of the neural network.

学習パラメータ記憶手段302は、写像ベクトルSの学習に必要なパラメータを記憶するメモリ、ハードディスク等の記憶手段である。具体的には、学習パラメータ記憶手段302は、更新率ε、正則化係数β等の学習パラメータを記憶する。   The learning parameter storage unit 302 is a storage unit such as a memory or a hard disk that stores parameters necessary for learning the mapping vector S. Specifically, the learning parameter storage unit 302 stores learning parameters such as the update rate ε and the regularization coefficient β.

学習データ記憶手段303は、写像ベクトルSの学習に必要な学習データである単語列を記憶するメモリ、ハードディスク等の記憶手段である。この学習データは、ニューラルネットワーク言語モデル演算装置10及び他言語モデル演算装置20で学習に用いたものと同一でなくともよい。
混合係数記憶手段304は、混合係数λを記憶するメモリ、ハードディスク等の記憶手段である。
The learning data storage unit 303 is a storage unit such as a memory or a hard disk that stores a word string that is learning data necessary for learning the mapping vector S. This learning data may not be the same as that used for learning in the neural network language model calculation device 10 and the other language model calculation device 20.
The mixing coefficient storage unit 304 is a storage unit such as a memory or a hard disk that stores the mixing coefficient λ.

初期化手段311は、混合係数パラメータ及び学習パラメータの初期化を行うものである。具体的には、初期化手段311は、混合係数パラメータ記憶手段301の写像ベクトルSの各次元の値、および、バイアス値bを乱数で初期化する。また、初期化手段311は、学習パラメータ記憶手段302の更新率ε及び正則化係数βを予め設定した値で初期化する。   The initialization unit 311 initializes the mixing coefficient parameter and the learning parameter. Specifically, the initialization unit 311 initializes the value of each dimension of the mapping vector S of the mixing coefficient parameter storage unit 301 and the bias value b with random numbers. The initialization unit 311 initializes the update rate ε and the regularization coefficient β in the learning parameter storage unit 302 with preset values.

第1生起確率要求手段312は、学習データ記憶手段303の前文脈をニューラルネットワーク言語モデル演算装置10に出力することで、隠れ層ベクトルz及び生起確率pを要求するものである。この要求に応じて、第1生起確率要求手段312は、ニューラルネットワーク言語モデル演算装置10から、隠れ層ベクトルz及び生起確率pが入力される。そして、第1生起確率要求手段312は、入力された隠れ層ベクトルz及び生起確率pを第1混合係数算出手段314及び写像ベクトル更新手段315に出力する。 The first probability requesting means 312, by outputting the previous context of learning data storage unit 303 to the neural network language model calculating unit 10, and requests the hidden layer vector z and probability p N. In response to this request, the first occurrence probability requesting unit 312 receives the hidden layer vector z and the occurrence probability p N from the neural network language model calculation device 10. The first probability request means 312 outputs the input hidden layers vector z and probability p N to the first mixing coefficient calculation means 314 and the mapping vector updating means 315.

第2生起確率要求手段313は、学習データ記憶手段303の前文脈を他言語モデル演算装置20に出力することで、生起確率pを要求するものである。ここで、第2生起確率要求手段313は、第1生起確率要求手段312と同一の前文脈を他言語モデル演算装置20に出力する。この要求に応じて、第2生起確率要求手段313は、他言語モデル演算装置20から、生起確率pが入力される。そして、第2生起確率要求手段313は、入力された生起確率pを写像ベクトル更新手段315に出力する。 The second occurrence probability requesting unit 313 requests the occurrence probability p O by outputting the previous context of the learning data storage unit 303 to the other language model calculation device 20. Here, the second occurrence probability requesting unit 313 outputs the same previous context as that of the first occurrence probability requesting unit 312 to the other language model calculation device 20. In response to this request, the second occurrence probability request means 313 receives the occurrence probability p O from the other language model calculation device 20. Then, the second occurrence probability request unit 313 outputs the input occurrence probability p O to the mapping vector update unit 315.

第1混合係数算出手段314は、式(9)を用いて、混合係数パラメータ記憶手段301の写像ベクトルSにより、第1生起確率要求手段312から入力された隠れ層ベクトルzを実数値のスカラsに線形写像するものである。また、第1混合係数算出手段314は、式(8)を用いて、実数値のスカラsをシグモイド関数で非線形変換することで、混合係数λを算出する。そして、第1混合係数算出手段314は、算出した混合係数λを混合係数記憶手段304に記憶する。   The first mixing coefficient calculating unit 314 uses the expression (9) to convert the hidden layer vector z input from the first occurrence probability requesting unit 312 into a real-valued scalar s by using the mapping vector S of the mixing coefficient parameter storage unit 301. Is a linear mapping. The first mixing coefficient calculation unit 314 calculates the mixing coefficient λ by nonlinearly converting the real-valued scalar s using a sigmoid function using Equation (8). Then, the first mixing coefficient calculation unit 314 stores the calculated mixing coefficient λ in the mixing coefficient storage unit 304.

写像ベクトル更新手段315は、第1生起確率要求手段312からの生起確率p、第2生起確率要求手段313からの生起確率p、混合係数記憶手段304の混合係数λ、及び、学習パラメータ記憶手段302の更新率εを用いた確率的勾配降下法により、混合係数記憶手段304の写像ベクトルSを更新するものである。つまり、写像ベクトル更新手段315は、式(11)及び式(12)で表される確率的勾配降下法を用いて、写像ベクトルSを更新する。 The mapping vector update unit 315 includes an occurrence probability p N from the first occurrence probability request unit 312, an occurrence probability p O from the second occurrence probability request unit 313, a mixing coefficient λ of the mixing coefficient storage unit 304, and a learning parameter storage. The mapping vector S of the mixing coefficient storage unit 304 is updated by a probabilistic gradient descent method using the update rate ε of the unit 302. That is, the mapping vector update unit 315 updates the mapping vector S using the stochastic gradient descent method expressed by the equations (11) and (12).

終了条件判定手段316は、予め設定された終了条件を満たすか否かを判定し、この終了条件を満たすまで、後記する更新率減少手段317が減少させた更新率εで写像ベクトル更新手段315に写像ベクトルSを更新させるものである。例えば、終了条件判定手段316は、予め設定した回数だけ更新率εを減少させて混合生起確率pの値が変化しなかった場合、終了条件を満たすと判定する。   The end condition determining unit 316 determines whether or not a preset end condition is satisfied, and the map vector updating unit 315 is updated with an update rate ε decreased by an update rate decreasing unit 317 described later until the end condition is satisfied. The mapping vector S is updated. For example, the end condition determination unit 316 determines that the end condition is satisfied when the update rate ε is decreased by a preset number of times and the value of the mixed occurrence probability p does not change.

ここで、終了条件を満たしていない場合、終了条件判定手段316は、更新率減少手段317に更新率εの減少を指令する。その後、終了条件判定手段316は、第1生起確率要求手段312、第2生起確率要求手段313、第1混合係数算出手段314、及び、写像ベクトル更新手段315に処理の再実行を指令する。
一方、終了条件を満たしている場合、終了条件判定手段316は、処理を終了する。
なお、図2では、終了条件判定手段316からの指令信号を破線で図示した。
Here, when the end condition is not satisfied, the end condition determining unit 316 instructs the update rate reducing unit 317 to decrease the update rate ε. Thereafter, the end condition determination unit 316 instructs the first occurrence probability request unit 312, the second occurrence probability request unit 313, the first mixing coefficient calculation unit 314, and the mapping vector update unit 315 to re-execute processing.
On the other hand, when the end condition is satisfied, the end condition determining unit 316 ends the process.
In FIG. 2, the command signal from the end condition determination unit 316 is illustrated by a broken line.

更新率減少手段317は、予め設定された更新率減少規則に従って、必要に応じて学習パラメータ記憶手段302の更新率εを減少させるものである。例えば、更新率減少規則としては、更新率εの値から予め設定した値を減算するという規則があげられる。   The update rate reduction means 317 reduces the update rate ε of the learning parameter storage means 302 as necessary according to a preset update rate reduction rule. For example, the update rate reduction rule includes a rule of subtracting a preset value from the value of the update rate ε.

[混合生起確率算出装置の構成]
混合生起確率算出装置40は、ニューラルネットワーク言語モデルと他の確率モデルとのそれぞれで求めた生起確率p,pを混合した混合生起確率pを算出するものである。図2のように、混合生起確率算出装置40は、対象データ記憶手段401と、混合生起確率記憶手段402と、第3生起確率要求手段(第3生起確率入力手段)411と、第4生起確率要求手段(第4生起確率入力手段)412と、第2混合係数算出手段413と、混合生起確率算出手段414とを備える。
[Configuration of mixed occurrence probability calculation device]
The mixed occurrence probability calculation device 40 calculates a mixed occurrence probability p obtained by mixing the occurrence probabilities p N and p O obtained in the neural network language model and other probability models, respectively. As shown in FIG. 2, the mixed occurrence probability calculating device 40 includes a target data storage unit 401, a mixed occurrence probability storage unit 402, a third occurrence probability requesting unit (third occurrence probability input unit) 411, and a fourth occurrence probability. Request means (fourth occurrence probability input means) 412, second mixing coefficient calculation means 413, and mixed occurrence probability calculation means 414 are provided.

対象データ記憶手段401は、混合生起確率pの算出対象となる前文脈及び次単語を表す単語列を記憶するメモリ、ハードディスク等の記憶手段である。この対象データ記憶手段401の単語列は、学習データ記憶手段303の単語列と異なるものである。
混合生起確率記憶手段402は、混合生起確率pを記憶するメモリ、ハードディスク等の記憶手段である。
The target data storage unit 401 is a storage unit such as a memory or a hard disk that stores a word string representing a previous context and a next word that are targets of calculation of the mixed occurrence probability p. The word string in the target data storage unit 401 is different from the word string in the learning data storage unit 303.
The mixed occurrence probability storage unit 402 is a storage unit such as a memory or a hard disk that stores the mixed occurrence probability p.

第3生起確率要求手段411は、対象データ記憶手段401の前文脈をニューラルネットワーク言語モデル演算装置10に出力することで、隠れ層ベクトルz及び生起確率pを要求するものである。この要求に応じて、第3生起確率要求手段411は、ニューラルネットワーク言語モデル演算装置10から、隠れ層ベクトルz及び生起確率pが入力される。そして、第3生起確率要求手段411は、入力された隠れ層ベクトルz及び生起確率pを第2混合係数算出手段413及び混合生起確率算出手段414に出力する。 Third probability requesting unit 411, by outputting the previous context object data storage means 401 in the neural network language model calculating unit 10, and requests the hidden layer vector z and probability p N. In response to this request, the third occurrence probability requesting means 411 receives the hidden layer vector z and the occurrence probability p N from the neural network language model calculation device 10. The third probability requesting unit 411 outputs the input hidden layers vector z and probability p N to the second mixing coefficient calculation means 413, and mixtures occurrence probability calculating unit 414.

第4生起確率要求手段412は、対象データ記憶手段401の前文脈を他言語モデル演算装置20に出力することで、生起確率pを要求するものである。ここで、第4生起確率要求手段412は、第3生起確率要求手段411と同一の前文脈を他言語モデル演算装置20に出力する。この要求に応じて、第4生起確率要求手段412は、他言語モデル演算装置20から、生起確率pが入力される。そして、第4生起確率要求手段412は、入力された生起確率pを混合生起確率算出手段414に出力する。 The fourth occurrence probability requesting unit 412 requests the occurrence probability p O by outputting the previous context of the target data storage unit 401 to the other language model calculation device 20. Here, the fourth occurrence probability requesting unit 412 outputs the same previous context as that of the third occurrence probability requesting unit 411 to the other language model calculation device 20. In response to this request, the fourth occurrence probability request means 412 receives the occurrence probability p O from the other language model calculation device 20. Then, the fourth occurrence probability requesting means 412 outputs the input occurrence probability p O to the mixed occurrence probability calculating means 414.

第2混合係数算出手段413は、式(9)を用いて、混合係数パラメータ記憶手段301の写像ベクトルSにより、第3生起確率要求手段411から入力された隠れ層ベクトルzを実数値のスカラsに線形写像するものである。また、第2混合係数算出手段413は、式(8)を用いて、実数値のスカラsをシグモイド関数で非線形変換することで、混合係数λを算出する。そして、第2混合係数算出手段413は、算出した混合係数を混合係数記憶手段304に記憶する。   The second mixing coefficient calculation unit 413 uses the expression (9) to calculate the hidden layer vector z input from the third occurrence probability requesting unit 411 using the mapping vector S of the mixing coefficient parameter storage unit 301 as a real-valued scalar s. Is a linear mapping. Further, the second mixing coefficient calculation unit 413 calculates the mixing coefficient λ by nonlinearly transforming the real-valued scalar s with a sigmoid function using Expression (8). Then, the second mixing coefficient calculation unit 413 stores the calculated mixing coefficient in the mixing coefficient storage unit 304.

混合生起確率算出手段414は、混合係数記憶手段304の混合係数λを用いて、第3生起確率要求手段411から入力された生起確率pと、第4生起確率要求手段412から入力された生起確率pとを混合することで、混合生起確率pを算出するものである。そして、混合生起確率算出手段414は、算出した混合生起確率pを混合生起確率記憶手段402に記憶する。 The mixed occurrence probability calculation means 414 uses the mixing coefficient λ of the mixing coefficient storage means 304 and the occurrence probability p N input from the third occurrence probability request means 411 and the occurrence input input from the fourth occurrence probability request means 412. By mixing the probability p O , the mixed occurrence probability p is calculated. Then, the mixed occurrence probability calculating unit 414 stores the calculated mixed occurrence probability p in the mixed occurrence probability storage unit 402.

[混合係数パラメータ学習装置の動作]
図3を参照し、混合係数パラメータ学習装置30の動作について説明する(適宜図2参照)。
[Operation of mixing coefficient parameter learning device]
The operation of the mixing coefficient parameter learning device 30 will be described with reference to FIG. 3 (see FIG. 2 as appropriate).

混合係数パラメータ学習装置30は、初期化手段311によって、写像ベクトルS、バイアス値b等の混合係数パラメータを初期化する(ステップS1)。
混合係数パラメータ学習装置30は、初期化手段311によって、更新率ε、正則化係数β等の学習パラメータを初期化する(ステップS2)。
混合係数パラメータ学習装置30は、カウンタiの値を1に初期化する(ステップS3)。
The mixing coefficient parameter learning device 30 initializes the mixing coefficient parameters such as the mapping vector S and the bias value b by the initialization unit 311 (step S1).
The mixing coefficient parameter learning device 30 initializes learning parameters such as the update rate ε and the regularization coefficient β by the initialization unit 311 (step S2).
The mixing coefficient parameter learning device 30 initializes the value of the counter i to 1 (step S3).

混合係数パラメータ学習装置30は、第1生起確率要求手段312によって、学習データ記憶手段303の単語列w,w,…,wのうち、先頭からi−1個の単語列w,w,…,wi−1を前文脈としてニューラルネットワーク言語モデル演算装置10に出力する。
混合係数パラメータ学習装置30は、第1生起確率要求手段312によって、ニューラルネットワーク言語モデル演算装置10から、隠れ層ベクトルz(i)及び次単語wの生起確率p(w|w…wi−1)が入力される(ステップS4)。
Mixing coefficient parameter learning unit 30, the first probability requesting means 312, a word string w 1 of the learning data storage unit 303, w 2, ..., w of N, i-1 or word string w 1 from the head, w 2 ,..., w i−1 are output to the neural network language model arithmetic unit 10 as the previous context.
The mixing coefficient parameter learning device 30 uses the first occurrence probability requesting unit 312 to generate the occurrence probability p N (w i | w 1 w of the hidden layer vector z (i) and the next word w i from the neural network language model calculation device 10. 2 ... W i-1 ) is input (step S4).

混合係数パラメータ学習装置30は、第2生起確率要求手段313によって、ステップS4と同一の前文脈w,w,…,wi−1を他言語モデル演算装置20に出力する。
混合係数パラメータ学習装置30は、第2生起確率要求手段313によって、他言語モデル演算装置20から、次単語wの生起確率p(w|w…wi−1)が入力される(ステップS5)。
The mixed coefficient parameter learning device 30 outputs the same previous contexts w 1 , w 2 ,..., W i−1 as in step S 4 to the other language model calculation device 20 by the second occurrence probability requesting unit 313.
The mixed coefficient parameter learning device 30 receives the occurrence probability p O (w i | w 1 w 2 ... W i-1 ) of the next word w i from the other language model calculation device 20 by the second occurrence probability requesting unit 313. (Step S5).

混合係数パラメータ学習装置30は、第1混合係数算出手段314によって、ステップS4で入力された隠れ層のベクトルz(i)及び写像ベクトルSを用いて、式(8)及び式(9)に従って混合係数λ(i)を算出する(ステップS6)   The mixing coefficient parameter learning device 30 performs mixing according to the equations (8) and (9) using the hidden layer vector z (i) and the mapping vector S input by the first mixing coefficient calculation unit 314 in step S4. The coefficient λ (i) is calculated (step S6).

混合係数パラメータ学習装置30は、写像ベクトル更新手段315によって、ステップS4で入力された生起確率p(w|w…wi−1)と、ステップS5で入力された生起確率p(w|w…wi−1)と、ステップS6で算出した混合係数λ(i)と、更新率εとを用いて、式(11)及び式(12)で写像ベクトルSを更新する(ステップS7)。 The mixing coefficient parameter learning device 30 uses the mapping vector update unit 315 to generate the occurrence probability p N (w i | w 1 w 2 ... W i−1 ) input in step S4 and the occurrence probability p input in step S5. Using O (w i | w 1 w 2 ... W i−1 ), the mixing coefficient λ (i) calculated in step S6, and the update rate ε, the mapping vector is expressed by equation (11) and equation (12). S is updated (step S7).

混合係数パラメータ学習装置30は、カウンタiをインクリメントする(ステップS8)。
混合係数パラメータ学習装置30は、カウンタiが単語最大数N以下であるか否かを判定する(ステップS9)。
カウンタiが単語最大数N以下の場合(ステップS9でYes)、混合係数パラメータ学習装置30は、ステップS4の処理に戻る。
The mixing coefficient parameter learning device 30 increments the counter i (step S8).
The mixing coefficient parameter learning device 30 determines whether or not the counter i is equal to or less than the maximum number N of words (step S9).
When the counter i is equal to or less than the maximum number N of words (Yes in step S9), the mixing coefficient parameter learning device 30 returns to the process of step S4.

カウンタiが単語最大数N以下でない場合(ステップS9でNo)、混合係数パラメータ学習装置30は、終了条件判定手段316によって、終了条件を満たすか否かを判定する(ステップS10)。
終了条件を満たす場合(ステップS10でYes)、混合係数パラメータ学習装置30は、処理を終了する。
If the counter i is not equal to or less than the maximum number N of words (No in step S9), the mixture coefficient parameter learning device 30 determines whether or not the end condition is satisfied by the end condition determining unit 316 (step S10).
If the end condition is satisfied (Yes in step S10), the mixing coefficient parameter learning device 30 ends the process.

終了条件を満たさない場合(ステップS10でNo)、混合係数パラメータ学習装置30は、更新率減少手段317によって、更新率減少規則に従って、必要に応じて更新率εを減少させ(ステップS11)、ステップS3の処理に戻る。   When the termination condition is not satisfied (No in step S10), the mixing coefficient parameter learning device 30 decreases the update rate ε as necessary according to the update rate decrease rule by the update rate decreasing unit 317 (step S11), and step The process returns to S3.

[混合生起確率算出装置の動作]
図4を参照し、混合生起確率算出装置40の動作について説明する(適宜図1参照)。
[Operation of mixed occurrence probability calculation device]
The operation of the mixed occurrence probability calculation device 40 will be described with reference to FIG. 4 (see FIG. 1 as appropriate).

混合生起確率算出装置40は、第3生起確率要求手段411によって、対象データ記憶手段401の単語列w,w,…,wt−1を前文脈としてニューラルネットワーク言語モデル演算装置10に出力する。
混合生起確率算出装置40は、第3生起確率要求手段411によって、ニューラルネットワーク言語モデル演算装置10から、隠れ層ベクトルz及び次単語wの生起確率p(w|w…wt−1)が入力される(ステップS21)。
The mixed occurrence probability calculation device 40 outputs the word string w 1 , w 2 ,..., W t−1 of the target data storage unit 401 to the neural network language model calculation device 10 as the previous context by the third occurrence probability request unit 411. To do.
The mixed occurrence probability calculation device 40 receives the occurrence probability p N (w t | w 1 w 2 ... W of the hidden layer vector z and the next word w t from the neural network language model calculation device 10 by the third occurrence probability request means 411. t-1 ) is input (step S21).

混合生起確率算出装置40は、第4生起確率要求手段412によって、ステップS21と同一の前文脈w,w,…,wt−1を他言語モデル演算装置20に出力する。
混合生起確率算出装置40は、第4生起確率要求手段412によって、他言語モデル演算装置20から、次単語wの生起確率p(w|w…wt−1)が入力される(ステップS22)。
The mixed occurrence probability calculation device 40 outputs the same previous contexts w 1 , w 2 ,..., W t−1 as in step S 21 to the other language model calculation device 20 by the fourth occurrence probability requesting means 412.
The occurrence probability p O (w t | w 1 w 2 ... W t−1 ) of the next word w i is input to the mixed occurrence probability calculation device 40 from the other language model calculation device 20 by the fourth occurrence probability request unit 412. (Step S22).

混合生起確率算出装置40は、第2混合係数算出手段413によって、ステップS21で入力された隠れ層のベクトルz及び写像ベクトルSを用いて、式(8)及び式(9)に従って混合係数λ(t)を算出する(ステップS23)   The mixed occurrence probability calculating device 40 uses the hidden layer vector z and the mapping vector S input in step S21 by the second mixing coefficient calculating unit 413, according to the equations (8) and (9). t) is calculated (step S23).

混合生起確率算出装置40は、混合生起確率算出手段414によって、ステップ21で入力された生起確率p(w|w…wt−1)とステップ22で入力された生起確率p(w|w,w,…,wt−1)との混合生起確率p(w|w…wt−1)を、式(16)で算出する(ステップS24)。 The mixed occurrence probability calculation device 40 uses the occurrence probability p N (w t | w 1 w 2 ... W t−1 ) input in step 21 and the occurrence probability p input in step 22 by the mixed occurrence probability calculation means 414. The mixed occurrence probability p (w t | w 1 w 2 ... W t−1 ) with O (w t | w 1 , w 2 ,..., W t−1 ) is calculated by Expression (16) (step S24). ).

[作用・効果]
以上のように、混合生起確率算出システム1は、ニューラルネットワーク言語モデルにより写像ベクトルSを学習し、学習した写像ベクトルSにより前文脈に応じた混合係数を求めている。これにより、混合生起確率算出システム1は、n−gram言語モデル等の他の言語モデルと混合して混合生起確率pを算出する際、従来よりも混合生起確率pの正確性を向上させることができる。
[Action / Effect]
As described above, the mixed occurrence probability calculation system 1 learns the mapping vector S using the neural network language model, and obtains the mixing coefficient corresponding to the previous context using the learned mapping vector S. As a result, when the mixed occurrence probability calculation system 1 calculates the mixed occurrence probability p by mixing with another language model such as an n-gram language model, the accuracy of the mixed occurrence probability p can be improved as compared with the conventional case. it can.

(変形例)
以上、本願発明の各実施形態を詳述してきたが、本願発明は前記した実施形態に限られるものではなく、本願発明の要旨を逸脱しない範囲の設計変更等も含まれる。
(Modification)
As mentioned above, although each embodiment of this invention was explained in full detail, this invention is not limited to above-described embodiment, The design change etc. of the range which does not deviate from the summary of this invention are also included.

前記した実施形態では、混合係数パラメータ学習装置が混合係数パラメータ記憶手段及び混合係数記憶手段を備えることとして説明したが、本願発明は、これに限定されない。つまり、混合生起確率算出装置が混合係数パラメータ記憶手段及び混合係数記憶手段を備えてもよい。   In the embodiment described above, the mixing coefficient parameter learning device has been described as including the mixing coefficient parameter storage unit and the mixing coefficient storage unit, but the present invention is not limited to this. That is, the mixture occurrence probability calculation device may include a mixture coefficient parameter storage unit and a mixture coefficient storage unit.

前記した実施形態では、本願発明を言語モデルに適用する例を説明したが、本願発明が適用可能な確率モデルはこれに限定されず、何らかの記号系列に後続して生起する記号の生起確率モデル一般に適用することができる。   In the embodiment described above, an example in which the present invention is applied to a language model has been described. However, the probability model to which the present invention can be applied is not limited to this, and the occurrence probability model of a symbol that occurs following any symbol sequence in general. Can be applied.

前記した実施形態では、正則化を行うこととして説明したが、本願発明は、正則化を行わなくともよい。
前記した実施形態では、バイアス値bを用いることとして説明したが、本願発明は、バイアス値bを用いなくともよい。この場合、前記した式(9)の代わりに以下の式(17)を用いることになる。
In the above-described embodiment, it has been described that regularization is performed. However, the present invention may not be regularized.
In the above-described embodiment, the bias value b is used. However, the present invention may not use the bias value b. In this case, the following formula (17) is used instead of the above formula (9).

Figure 2017016384
Figure 2017016384

前記した実施形態では、混合係数パラメータ学習装置を独立したハードウェアとして説明したが、本願発明は、これに限定されない。例えば、混合係数パラメータ学習装置は、コンピュータが備えるCPU、メモリ、ハードディスク等のハードウェア資源を協調動作させる混合係数パラメータ学習プログラムで実現することもできる。このプログラムは、通信回線を介して配布してもよく、CD−ROMやフラッシュメモリ等の記録媒体に書き込んで配布してもよい。
また、混合生起確率算出装置は、混合係数パラメータ学習装置と同様、混合生起確率算出プログラムで実現することもできる。
In the above-described embodiment, the mixing coefficient parameter learning device has been described as independent hardware, but the present invention is not limited to this. For example, the mixing coefficient parameter learning device can also be realized by a mixing coefficient parameter learning program for cooperatively operating hardware resources such as a CPU, a memory, and a hard disk included in a computer. This program may be distributed through a communication line, or may be distributed by writing in a recording medium such as a CD-ROM or a flash memory.
Further, the mixed occurrence probability calculation device can also be realized by a mixed occurrence probability calculation program in the same manner as the mixing coefficient parameter learning device.

1 混合生起確率算出システム
10 ニューラルネットワーク言語モデル演算装置
20 他言語モデル演算装置
30 混合係数パラメータ学習装置
301 混合係数パラメータ記憶手段
302 学習パラメータ記憶手段
303 学習データ記憶手段
304 混合係数記憶手段
311 初期化手段
312 第1生起確率要求手段(第1生起確率入力手段)
313 第2生起確率要求手段(第2生起確率入力手段)
314 第1混合係数算出手段
315 写像ベクトル更新手段
316 終了条件判定手段
317 更新率減少手段
40 混合生起確率算出装置
401 対象データ記憶手段
402 混合生起確率記憶手段
411 第3生起確率要求手段(第3生起確率入力手段)
412 第4生起確率要求手段(第4生起確率入力手段)
413 第2混合係数算出手段
414 混合生起確率算出手段
DESCRIPTION OF SYMBOLS 1 Mixed occurrence probability calculation system 10 Neural network language model calculating apparatus 20 Other language model calculating apparatus 30 Mixed coefficient parameter learning apparatus 301 Mixed coefficient parameter storage means 302 Learning parameter storage means 303 Learning data storage means 304 Mixed coefficient storage means 311 Initialization means 312 First occurrence probability request means (first occurrence probability input means)
313 Second occurrence probability request means (second occurrence probability input means)
314 First mixture coefficient calculation means 315 Mapping vector update means 316 End condition determination means 317 Update rate reduction means 40 Mixed occurrence probability calculation device 401 Target data storage means 402 Mixed occurrence probability storage means 411 Third occurrence probability request means (third occurrence) Probability input means)
412 Fourth occurrence probability request means (fourth occurrence probability input means)
413 Second mixing coefficient calculating means 414 Mixed occurrence probability calculating means

Claims (5)

ニューラルネットワーク確率モデルと前記ニューラルネットワーク確率モデル以外の他の確率モデルとのそれぞれで求めた前要素系列に対する次要素の生起確率を混合するときの混合係数の算出に必要なパラメータを学習する混合係数パラメータ学習装置であって、
前記ニューラルネットワーク確率モデルの隠れ層ベクトルと、前記ニューラルネットワーク確率モデルで求めた生起確率とが入力される第1生起確率入力手段と、
前記他の確率モデルで求めた生起確率が入力される第2生起確率入力手段と、
予め設定された写像ベクトルにより前記隠れ層ベクトルを実数値のスカラに線形写像し、前記実数値のスカラをシグモイド関数で非線形変換することで、前記混合係数を算出する第1混合係数算出手段と、
前記ニューラルネットワーク確率モデルと前記他の確率モデルとのそれぞれで求めた生起確率、前記混合係数、及び、予め設定された更新率を用いた確率的勾配降下法により、前記パラメータとしての前記写像ベクトルを更新する写像ベクトル更新手段と、
予め設定された更新率減少規則に従って前記更新率を減少させる更新率減少手段と、
予め設定された終了条件を満たすか否かを判定し、前記終了条件を満たすまで、減少させた前記更新率で前記写像ベクトル更新手段に前記写像ベクトルを更新させる終了条件判定手段と、
を備えることを特徴とする混合係数パラメータ学習装置。
A mixing coefficient parameter for learning parameters necessary for calculating the mixing coefficient when mixing the occurrence probabilities of the next element with respect to the previous element sequence obtained by the neural network probability model and other probability models other than the neural network probability model. A learning device,
First occurrence probability input means for inputting a hidden layer vector of the neural network probability model and an occurrence probability obtained by the neural network probability model;
A second occurrence probability input means for inputting the occurrence probability obtained by the other probability model;
A first mixing coefficient calculating means for calculating the mixing coefficient by linearly mapping the hidden layer vector to a real-valued scalar according to a preset mapping vector, and nonlinearly transforming the real-valued scalar with a sigmoid function;
The mapping vector as the parameter is obtained by a stochastic gradient descent method using an occurrence probability obtained by each of the neural network probability model and the other probability model, the mixing coefficient, and a preset update rate. Map vector updating means for updating;
Update rate reduction means for reducing the update rate according to a preset update rate reduction rule;
Determining whether or not a preset end condition is satisfied, and until the end condition is satisfied, an end condition determining unit that causes the map vector updating unit to update the mapping vector at the reduced update rate;
A mixing coefficient parameter learning apparatus comprising:
前記写像ベクトル更新手段は、前記写像ベクトルを更新するときに正則化を行うことを特徴とする請求項1に記載の混合係数パラメータ学習装置。   2. The mixed coefficient parameter learning apparatus according to claim 1, wherein the map vector update unit performs regularization when the map vector is updated. ニューラルネットワーク確率モデルと前記ニューラルネットワーク確率モデル以外の他の確率モデルとのそれぞれで求めた前要素系列に対する次要素の生起確率を混合した混合生起確率を算出する混合生起確率算出装置であって、
前記ニューラルネットワークの隠れ層ベクトルと、前記ニューラルネットワーク確率モデルで求めた生起確率とが入力される第3生起確率入力手段と、
前記他の確率モデルで求めた生起確率が入力される第4生起確率入力手段と、
請求項1に記載の混合係数パラメータ学習装置が学習した写像ベクトルで前記隠れ層ベクトルを実数値のスカラに線形写像し、前記実数値のスカラをシグモイド関数で非線形変換することで、混合係数を算出する第2混合係数算出手段と、
前記混合係数を用いて、前記ニューラルネットワーク確率モデルと前記他の確率モデルとで求めた前記次要素の生起確率を混合することで、前記混合生起確率を算出する混合生起確率算出手段と、
を備えることを特徴とする混合生起確率算出装置。
A mixed occurrence probability calculation device for calculating a mixed occurrence probability obtained by mixing the occurrence probabilities of the next element with respect to the previous element series obtained by the neural network probability model and other probability models other than the neural network probability model,
A third occurrence probability input means for inputting the hidden layer vector of the neural network and the occurrence probability obtained by the neural network probability model;
A fourth occurrence probability input means for inputting the occurrence probability obtained by the other probability model;
The mixture coefficient is calculated by linearly mapping the hidden layer vector to a real-valued scalar using the mapping vector learned by the mixing coefficient parameter learning apparatus according to claim 1 and performing nonlinear conversion on the real-valued scalar using a sigmoid function. Second mixing coefficient calculating means for
A mixed occurrence probability calculating means for calculating the mixed occurrence probability by mixing the occurrence probabilities of the next element obtained by the neural network probability model and the other probability model using the mixing coefficient;
A mixed occurrence probability calculation device comprising:
コンピュータを、請求項1又は請求項2に記載の混合係数パラメータ学習装置として機能させるための混合係数パラメータ学習プログラム。   A mixing coefficient parameter learning program for causing a computer to function as the mixing coefficient parameter learning apparatus according to claim 1. コンピュータを、請求項3に記載の混合生起確率算出装置として機能させるための混合生起確率算出プログラム。   A mixed occurrence probability calculation program for causing a computer to function as the mixed occurrence probability calculation device according to claim 3.
JP2015132347A 2015-07-01 2015-07-01 Mixed coefficient parameter learning device, mixed occurrence probability calculation device, and programs thereof Pending JP2017016384A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015132347A JP2017016384A (en) 2015-07-01 2015-07-01 Mixed coefficient parameter learning device, mixed occurrence probability calculation device, and programs thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015132347A JP2017016384A (en) 2015-07-01 2015-07-01 Mixed coefficient parameter learning device, mixed occurrence probability calculation device, and programs thereof

Publications (1)

Publication Number Publication Date
JP2017016384A true JP2017016384A (en) 2017-01-19

Family

ID=57829182

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015132347A Pending JP2017016384A (en) 2015-07-01 2015-07-01 Mixed coefficient parameter learning device, mixed occurrence probability calculation device, and programs thereof

Country Status (1)

Country Link
JP (1) JP2017016384A (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018055670A (en) * 2016-09-27 2018-04-05 パナソニックIpマネジメント株式会社 Similar sentence generation method, similar sentence generation program, similar sentence generation apparatus, and similar sentence generation system
JP2019046188A (en) * 2017-09-01 2019-03-22 日本電信電話株式会社 Sentence generation device, sentence generation learning device, sentence generation method, and program
JP2019139629A (en) * 2018-02-14 2019-08-22 株式会社Nttドコモ Machine translation device, translation learned model and determination learned model
WO2019171925A1 (en) * 2018-03-08 2019-09-12 日本電信電話株式会社 Device, method and program using language model
CN112771523A (en) * 2018-08-14 2021-05-07 北京嘀嘀无限科技发展有限公司 System and method for detecting a generated domain
CN114731171A (en) * 2019-11-13 2022-07-08 美光科技公司 Blending coefficient data for processing mode selection

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018055670A (en) * 2016-09-27 2018-04-05 パナソニックIpマネジメント株式会社 Similar sentence generation method, similar sentence generation program, similar sentence generation apparatus, and similar sentence generation system
JP2019046188A (en) * 2017-09-01 2019-03-22 日本電信電話株式会社 Sentence generation device, sentence generation learning device, sentence generation method, and program
JP2019139629A (en) * 2018-02-14 2019-08-22 株式会社Nttドコモ Machine translation device, translation learned model and determination learned model
JP7122835B2 (en) 2018-02-14 2022-08-22 株式会社Nttドコモ Machine translation device, translation trained model and judgment trained model
WO2019171925A1 (en) * 2018-03-08 2019-09-12 日本電信電話株式会社 Device, method and program using language model
JP2019159464A (en) * 2018-03-08 2019-09-19 日本電信電話株式会社 Device, method and program utilizing language model
CN112771523A (en) * 2018-08-14 2021-05-07 北京嘀嘀无限科技发展有限公司 System and method for detecting a generated domain
CN114731171A (en) * 2019-11-13 2022-07-08 美光科技公司 Blending coefficient data for processing mode selection

Similar Documents

Publication Publication Date Title
EP3504666B1 (en) Asychronous training of machine learning model
JP2017016384A (en) Mixed coefficient parameter learning device, mixed occurrence probability calculation device, and programs thereof
US11081105B2 (en) Model learning device, method and recording medium for learning neural network model
BR112019014822B1 (en) System, non-transient computer storage medium and attention-based sequence transduction neural network method
KR20220005416A (en) Method for training multivariate relationship generation model, electronic device and medium
US11693854B2 (en) Question responding apparatus, question responding method and program
JP7179835B2 (en) MODEL GENERATING DEVICE, MODEL GENERATING METHOD, AND PROGRAM
US11380301B2 (en) Learning apparatus, speech recognition rank estimating apparatus, methods thereof, and program
US20180314978A1 (en) Learning apparatus and method for learning a model corresponding to a function changing in time series
CN112084301B (en) Training method and device for text correction model, text correction method and device
Wang et al. Learning trans-dimensional random fields with applications to language modeling
de Bézenac et al. Optimal unsupervised domain translation
CN115345169A (en) Knowledge enhancement-based text generation model and training method thereof
CN109858031B (en) Neural network model training and context prediction method and device
WO2019208564A1 (en) Neural network learning device, neural network learning method, and program
CN108475346A (en) Neural random access machine
JP7109071B2 (en) Learning device, learning method, speech synthesizer, speech synthesis method and program
WO2023061107A1 (en) Language translation method and apparatus based on layer prediction, and device and medium
Zhu et al. A hybrid model for nonlinear regression with missing data using quasilinear kernel
JP7349811B2 (en) Training device, generation device, and graph generation method
JP7425755B2 (en) Conversion method, training device and inference device
JP2019075003A (en) Approximate calculation device, approximate calculation method, and program
CN113536567A (en) Method for multi-target vector fitting
WO2023105596A1 (en) Language processing device, image processing method, and program
WO2022244216A1 (en) Learning device, inference device, learning method, inference method, and program