JP6320966B2 - 言語モデル生成装置、方法及びプログラム - Google Patents

言語モデル生成装置、方法及びプログラム Download PDF

Info

Publication number
JP6320966B2
JP6320966B2 JP2015097985A JP2015097985A JP6320966B2 JP 6320966 B2 JP6320966 B2 JP 6320966B2 JP 2015097985 A JP2015097985 A JP 2015097985A JP 2015097985 A JP2015097985 A JP 2015097985A JP 6320966 B2 JP6320966 B2 JP 6320966B2
Authority
JP
Japan
Prior art keywords
lwlm
latent
language model
word
probability distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015097985A
Other languages
English (en)
Other versions
JP2016212773A (ja
Inventor
亮 増村
亮 増村
浩和 政瀧
浩和 政瀧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015097985A priority Critical patent/JP6320966B2/ja
Publication of JP2016212773A publication Critical patent/JP2016212773A/ja
Application granted granted Critical
Publication of JP6320966B2 publication Critical patent/JP6320966B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

この発明は、言語モデルを構築するための技術に関する。特に、階層潜在語言語モデルと呼ぶ新たな言語モデルを構築するための技術に関する。
音声認識や機械翻訳では、言語的な予測のために言語モデルが必要である。言語モデルは、言語らしさを計測可能なものであり、その性能が音声認識や機械翻訳の性能を左右するものである。これまで、様々な種類の言語モデルが提案されてきている。
この言語モデルとしてN-gram言語モデルが一般的に利用される。N-gram言語モデルの学習方法は、公知の技術であるためここでは省略する(例えば、非特許文献1参照。)N-gram言語モデルは学習テキストがあれば容易に学習することが可能であり、その学習方法はこれまで様々に提案されている(例えば、非特許文献2参照。)。N-gram言語モデルは、基本的に学習データの単語系列をダイレクトにモデル化することができ、直前の単語N-1単語wi-N+1,…,wi-1から現在の単語wiの予測確率P(wi|wi-N+1,…,wi-1N-gram)を構成する。なお、θN-gramは、N-gram言語モデルのモデルパラメータを表す。
N-gram言語モデルでは、学習テキスト内に”りんごを食べる”が存在して”みかんを食べる”が存在しない場合、その学習テキストで構築したN-gram言語モデルを用いて”みかんを食べる”の確率を求めるとすると、”を食べる”という情報しか基本的には使わない。しかしながら、”みかん”と”りんご”は明らかに類似した単語であり、”りんごを食べる”の確率は、”みかんを食べる”の情報を使うことができるはずである。
上記の観点でN-gramモデルを拡張したモデルとして、潜在語言語モデル(Latent Words Language Model)という言語モデルがある(例えば、非特許文献3参照。)。潜在語言語モデルにより、”りんご”と”みかん”は類似単語ということを考慮して確率モデルを構築することができる。潜在語言語モデルは、潜在語と呼ばれる観測できる単語の裏に隠れた単語を考慮することができ、モデル構造としては潜在語の系列をモデル化する遷移確率モデルと、潜在語ごとの単語の出力確率モデルに分けられる。遷移確率モデルは、潜在語についてのN-gramモデルとして表され、直前のN-1個の潜在語hi-N+1,…,hi-1から現在の潜在語hiの予測確率P(hi|hi-N+1,…,hi-1LWLM)を構成する。出力確率モデルは、各潜在語ごとの観測単語に対する1-gramモデルとして表され、潜在語hiの観測単語wiについての予測確率P(wi|hiLWLM)を構成する。なお、θLWLMは、潜在語言語モデルのモデルパラメータを表す。潜在語言語モデルのN-gram言語モデルに対する優位点は、潜在語を考慮することによるロバストネスである。潜在語を考慮することで、少ない学習データからでも性能の高い確率予測が可能であることがわかっている。
北健二,"言語と計算-4 確率的言語モデル",東京大学出版界, pp.57-62. S. F. Chen, and J. Goodman, " An Empirical Study of Smoothing techniques for language modeling ",Computer Speech & Language, vol.13, no.4, pp.359-383, 1999. K. Deschacht, J. D. Belder, and M-F. Moens, " The latent words language model",Computer Speech and Language, vol.26, pp.384-409, 2012.
前述の潜在語言語モデルの課題に焦点を当ててみる。潜在語言語モデルでは潜在語を考慮することで、ロバストネスを高めているが、1階層の潜在語空間のみでは、モデル構造の柔軟性が低くなってしまう。本来、単語の裏に隠れた構造は階層構造を持つことが考えられる。例えば、「りんご」という単語であれば、「果物」という潜在語があり、さらに潜在語の潜在語として「食べ物」、そして「もの」といった構造が考えられる。
具体的にこのように階層構造を考えず単一の潜在語空間を持つモデル化では、学習データが少ない際のロバストネスが低くなる可能性がある。つまり、言語モデルとしての確率予測の性能が低下してしまう可能性がある。
この発明の目的は、従来よりも確率予測の性能が高い言語モデルを生成する言語モデル生成装置、方法及びプログラムを提供することである。
この発明の一態様による言語モデル生成装置は、N,Kを所定の正の整数とし、w1,w2,…,wLを入力されるテキストデータを構成する各単語とし、h1 0,h2 0,…,hL 0をw1,w2,…,wLとし、k=1,2,…,Kとし、h1 k,h2 k,…,hL kをh1 k-1,h2 k-1,…,hL k-1に対して潜在語言語モデル学習を行うことにより得られる潜在語系列とし、θLWLM kを潜在語系列h1 k-1,h2 k-1,…,hL k-1に対して潜在語言語モデル学習を行うことにより得られる潜在語言語モデルのモデルパラメータとして、h1 k-1,h2 k-1,…,hL k-1をテキストデータとして潜在語言語モデルの学習を行い、潜在語系列h1 k,h2 k,…,hL kと、確率分布P(hi k|hi-N+1 k,…,hi-1 kLWLM k),P(wi k|hi kLWLM k)とを生成する処理を順次k=1,2,…,Kのそれぞれについて行うことにより、潜在語系列h1,h2,…,hL, h1 2,h2 2,…,hL 2,…,h1 K,h2 K,…,hL Kと、確率分布P(hi|hi-N+1,…,hi-1LWLM),P(wi|hiLWLM),P(hi 2|hi-N+1 2,…,hi-1 2LWLM 2),P(hi|hi 2LWLM 2),…,P(hi K|hi-N+1 K,…,hi-1 KLWLM K),P(hi K-1|hi KLWLM K)とを生成する階層潜在語言語モデル初期化部と、確率分布P(hi|hi-N+1,…,hi-1LWLM),P(wi|hiLWLM),P(hi 2|hi-N+1 2,…,hi-1 2LWLM 2),P(hi|hi 2LWLM 2),…,P(hi K|hi-N+1 K,…,hi-1 KLWLM K),P(hi K-1|hi KLWLM K)を用いて、潜在語系列h1,h2,…,hL, h1 2,h2 2,…,hL 2,…,h1 K,h2 K,…,hL Kを更新し、更新された潜在語系列h1,h2,…,hL, h1 2,h2 2,…,hL 2,…,h1 K,h2 K,…,hL Kに従うように、確率分布P(hi|hi-N+1,…,hi-1LWLM),P(wi|hiLWLM),P(hi 2|hi-N+1 2,…,hi-1 2LWLM 2),P(hi|hi 2LWLM 2),…,P(hi K|hi-N+1 K,…,hi-1 KLWLM K),P(hi K-1|hi KLWLM K)を変更することにより調整された確率分布P(hi|hi-N+1,…,hi-1LWLM),P(wi|hiLWLM),P(hi 2|hi-N+1 2,…,hi-1 2LWLM 2),P(hi|hi 2LWLM 2),…,P(hi K|hi-N+1 K,…,hi-1 KLWLM K),P(hi K-1|hi KLWLM K)を生成する階層潜在語言語モデル調整部と、をを備えている。
従来よりも確率予測の性能が高い言語モデルを生成することができる。
言語モデル生成装置の例を説明するためのブロック図。 言語モデル生成方法の例を説明するための流れ図。
[全体の流れ]
潜在語言語モデルの潜在語空間に階層構造を持たせた階層潜在語言語モデルを新たに提案する。通常の潜在語言語モデルは観測語空間に対して単一の潜在語空間であるが、提案する階層潜在語言語モデルでは、さらに潜在語空間に対する2段目の潜在語空間、2段目の潜在語空間に対する3段目の潜在語空間、といった階層構造を持たせる。
まず、階層潜在語言語モデルを作成する全体の流れについて説明する。
階層潜在語言語モデルを生成する言語モデル生成装置は、図1に示すように、階層潜在語言語モデル初期化部1及び階層潜在語言語モデル調整部2を例えば備えている。言語モデル生成装置の各部が、図2に例示する各ステップの処理を行うことにより言語モデル生成方法が実現される。
<階層潜在語言語モデル初期化部1>
入力:単語区切りがわかるテキストデータ、潜在語空間の数K
出力:初期化された階層潜在語言語モデル、各階層の潜在語系列
階層潜在語言語モデル初期化部1では、単語区切りが分かるテキストデータを入力して、K個の潜在語空間を持つ階層潜在語言語モデルの型を作る。具体的には、最初に単一潜在語空間を持つ潜在語言語モデルを構成し、その際に推定できる潜在語系列を保持し、その潜在語系列に対してさらに通常の潜在語言語モデルを推定する。これをK個の潜在語空間ができるまで繰り返す。つまり、K段目まで潜在語言語モデルを推定する。Kは予め定められた正の整数である。例えば、Kはユーザにより指定されてもよい。
単語区切りがわかるテキストデータは、任意の形態素解析器を利用することで、単語区切りなしのテキストファイルから作成することが可能である。
<階層潜在語言語モデル調整部2>
入力:初期化された階層潜在語言語モデル、単語区切りが分かるテキストデータ、各階層の潜在語系列
出力:調整された階層潜在語言語モデル
階層潜在語言語モデル調整部2は、階層潜在語言語モデル初期化部1において初期化した階層潜在語言語モデルを調整し、最終的な階層潜在語言語モデルとする。具体的には、初期化の時点では潜在語空間を1段ずつ積み上げていっただけで、全体に対する最適化が行われていなかったが、階層潜在語言語モデル調整部2では全体最適化を実施する。
[各部の詳細]
階層潜在語言語モデル初期化部1は、1段目潜在語言語モデル作成部11、2段目潜在語言語モデル作成部12、k段目潜在語言語モデル作成部1k及び階層潜在語言語モデル構成部10を例えば備えている。
<1段目潜在語言語モデル作成部11>
入力:単語区切りがわかるテキストデータ
出力:1段目潜在語言語モデル、学習データの潜在語系列
1段目潜在語言語モデル作成部11は、入力された単語区切りがわかるテキストデータを学習データとして、潜在語言語モデルを学習する(ステップS11)。具体的な学習方法については、例えば非特許文献3に記載された既存の潜在語言語モデルの学習方法を用いればよい。
潜在語言語モデルは、P(hi|hi-N+1,…,hi-1LWLM)をという確率分布と、P(wi|hiLWLM)という確率分布の2個の確率分布を持っている。ここで、hiは潜在語、wiは観測語と呼ばれる。潜在語hiは潜在語言語モデルにおける潜在変数にあたり、観測語wiは実際にテキスト中に出現する単語を表す。P(hi|hi-N+1,…,hi-1LWLM)は一般的な単語N-gram言語モデルの形、P(wi|hiLWLM)はunigram言語モデルとなっている。なお、θLWLMは、潜在語言語モデルのモデルパラメータを表す。
潜在語言語モデルの学習は、入力する学習テキストの各単語に対して、潜在語の割り当てを推定する問題である。つまり、「w1・w2・…・wL」(学習テキストに含まれる総単語数:L)という学習テキスト(観測語の系列)があれば、「w1」「w2」…「wL」の各観測語の潜在語「h1」「h2」…「hL」を推定する問題と言える。この割り当てを推定できれば、潜在語系列「h1・h2・…・hL」に対してN-gram言語モデルを学習すればP(hi|hi-N+1,…,hi-1LWLM)を構築でき、「h1→w1」「h2→w2」…「hL→wL」に対して、unigram言語モデルを学習すればP(wi|hiLWLM)を構築できる。具体的な潜在語の割り当ての推定は、ギブスサンプリングという方法により推定できる。ギブスサンプリングについては公知の技術であるため、ここではその説明を省略する。
最終的な出力は潜在語言語モデル(具体的には、潜在語言語モデルのパラメータの実体である2個の確率分布P(hi|hi-N+1,…,hi-1LWLM),P(wi|hiLWLM)と、そのモデル化の際に推定した入力された学習データの潜在語系列h1・h2・…・hLである。
<2段目潜在語言語モデル作成部12>
入力:学習データの潜在語系列
出力:2段目潜在語言語モデル、2段目の潜在語系列
2段目潜在語言語モデル作成部12は、1段目潜在語言語モデル作成部11の出力として得られた、学習データの潜在語系列からさらに潜在語言語モデルを学習する(ステップS12)。学習データの潜在語系列は、単語区切りがわかるテキストデータと同様の形式で表されるため、2段目の潜在語言語モデルの学習方法は例えば非特許文献3に記載された通常の潜在語言語モデルの学習方法と変わらない。ここでは、潜在語系列「h1・h2・…・hL」の潜在語系列「h1 2・h2 2・…・hL 2」を推定する問題と言える。2段目潜在語言語モデルは、P(hi 2|hi-N+1 2,…,hi-1 2LWLM 2)及びP(hi|hi 2LWLM 2)として表される。また、2段目の潜在語系列h1 2・h2 2・…・hL 2も出力として得られる。K=2の場合は、これで階層潜在語言語モデル初期化部1の処理は終了となる。
<k段目潜在語言語モデル作成部1k>
入力:k−1段目潜在語系列
出力:k段目潜在語言語モデル、k段目の潜在語系列
k段目潜在語言語モデル作成部1kは、Kが2より大きい場合は、さらに繰り返し潜在語言語モデルを推定する(ステップS1k)。つまり、K−1段目の潜在語系列から潜在語言語モデルを学習する。なお、k段目の潜在語言語モデルは、P(hi k|hi-N+1 k,…,hi-1 kLWLM k)及びP(hi|hi kLWLM k)として与えられる。
2段目の潜在語言語モデルの学習方法は例えば非特許文献3に記載された通常の潜在語言語モデルの学習方法と変わらない。
<階層潜在語言語モデル構成部10>
入力:1からK段目のすべての潜在語言語モデル
出力:初期化した潜在語言語モデル
ここまでで作成した1段目からK段目までのすべての潜在語言語モデルを統合することで、階層潜在語言語モデルとして初期化を行う(ステップS10)。具体的に初期化した階層潜在語言語モデルは、P(hi|hi-N+1,…,hi-1LWLM),P(wi|hiLWLM),P(hi 2|hi-N+1 2,…,hi-1 2LWLM 2),P(hi|hi 2LWLM 2),…,P(hi K|hi-N+1 K,…,hi-1 KLWLM K),P(hi K-1|hi KLWLM K)をパラメータとして備えている。
このようにして、階層潜在語言語モデル初期化部1は、N,Kを所定の正の整数とし、w1,w2,…,wLを入力されるテキストデータを構成する各単語とし、h1 0,h2 0,…,hL 0をw1,w2,…,wLとし、k=1,2,…,Kとし、h1 k,h2 k,…,hL kをh1 k-1,h2 k-1,…,hL k-1に対して潜在語言語モデル学習を行うことにより得られる潜在語系列とし、θLWLM kを潜在語系列h1 k-1,h2 k-1,…,hL k-1に対して潜在語言語モデル学習を行うことにより得られる潜在語言語モデルのモデルパラメータとして、h1 k-1,h2 k-1,…,hL k-1をテキストデータとして潜在語言語モデルの学習を行い、潜在語系列h1 k,h2 k,…,hL kと、確率分布P(hi k|hi-N+1 k,…,hi-1 kLWLM k),P(wi k|hi kLWLM k)とを生成する処理を順次k=1,2,…,Kのそれぞれについて行うことにより、潜在語系列h1,h2,…,hL, h1 2,h2 2,…,hL 2,…,h1 K,h2 K,…,hL Kと、確率分布P(hi|hi-N+1,…,hi-1LWLM),P(wi|hiLWLM),P(hi 2|hi-N+1 2,…,hi-1 2LWLM 2),P(hi|hi 2LWLM 2),…,P(hi K|hi-N+1 K,…,hi-1 KLWLM K),P(hi K-1|hi KLWLM K)とを生成する(ステップS1)。
確率分布P(hi|hi-N+1,…,hi-1LWLM),P(wi|hiLWLM),P(hi 2|hi-N+1 2,…,hi-1 2LWLM 2),P(hi|hi 2LWLM 2),…,P(hi K|hi-N+1 K,…,hi-1 KLWLM K),P(hi K-1|hi KLWLM K)が、初期化された階層潜在語言語モデルである。
<階層潜在語言語モデル調整部2>
階層潜在語言語モデル調整部2は、初期化した階層潜在語言語モデルの調整を行う。具体的には、学習データに対する1段目からK段目の潜在語系列をさらに最適化していく。つまり、潜在語系列「h1・h2・…・hL」、「h1 2・h2 2・…・hL 2」、…、「h1 K・h2 K・…・hL K」を更新していくことで、階層潜在語モデルのパラメータを調整する。これは、ギブスサンプリングによって実現できる。ギブスサンプリングでは、公知の技術であるため詳細は述べないが、ある潜在語について確率分布を得て、その分布に基づきランダムサンプリングを行うことで、更新を行う。ここでは、その際の確率分布をどのように定義するかを述べる。ここでは、N=3の場合について述べる。まず1段目の潜在語の確率分布は次式に従う。
P(hi)〜P(hi|hi-2,hi-1)P(hi+1|hi-1,hi)P(hi+2|hi,hi+1)P(wi|hi)P(hi|hi 2)
次にK段目を除く2段目以降の潜在語の確率分布(k段目とする)は次式に従う。
P(hi k)〜P(hi k|hi-2 k,hi-1 k)P(hi+1 k|hi-1 k,hi k)P(hi+2 k|hi k,hi+1 k)P(hi k-1|hi k)P(hi k|hi k+1)
最後にK段目の潜在語の確率分布は次式に従う。
P(hi K)〜P(hi K|hi-2 K,hi-1 K)P(hi+1 K|hi-1 K,hi K)P(hi+2 K|hi K,hi+1 K)P(hi K-1|hi K)
確率分布が得られた場合のランダムサンプリングは、SampleOneアルゴリズムに従う。SampleOneアルゴリズムについては、後述する。
この流れで、すべての全ての潜在語系列を更新する。更新は収束するまで繰り返すが、1つの潜在語につき、例えば500回行えばよい。更新の順番の決まりは特にないが、例えば1段目の潜在語系列の1番目からL番目までを最初に行い、次に2段目の潜在語系列の1番目からL番目、その後引き続きK段目まで行う。これを1回の更新手続きとみなし、この行為を収束するまで(上の例では500回)行えばよい。
各潜在語系列の更新が終了した後、その潜在語系列に従うように各パラメータP(hi|hi-N+1,…,hi-1LWLM),P(wi|hiLWLM),P(hi 2|hi-N+1 2,…,hi-1 2LWLM 2),P(hi|hi 2LWLM 2),…,P(hi K|hi-N+1 K,…,hi-1 KLWLM K),P(hi|hi KLWLM K)を変更することで、調整した階層潜在語言語モデルは得られる。
このようにして、階層潜在語言語モデル調整部2は、確率分布P(hi|hi-N+1,…,hi-1LWLM),P(wi|hiLWLM),P(hi 2|hi-N+1 2,…,hi-1 2LWLM 2),P(hi|hi 2LWLM 2),…,P(hi K|hi-N+1 K,…,hi-1 KLWLM K),P(hi K-1|hi KLWLM K)を用いて、潜在語系列h1,h2,…,hL, h1 2,h2 2,…,hL 2,…,h1 K,h2 K,…,hL Kを更新し、更新された潜在語系列h1,h2,…,hL, h1 2,h2 2,…,hL 2,…,h1 K,h2 K,…,hL Kに従うように、確率分布P(hi|hi-N+1,…,hi-1LWLM),P(wi|hiLWLM),P(hi 2|hi-N+1 2,…,hi-1 2LWLM 2),P(hi|hi 2LWLM 2),…,P(hi K|hi-N+1 K,…,hi-1 KLWLM K),P(hi K-1|hi KLWLM K)を変更することにより調整された確率分布P(hi|hi-N+1,…,hi-1LWLM),P(wi|hiLWLM),P(hi 2|hi-N+1 2,…,hi-1 2LWLM 2),P(hi|hi 2LWLM 2),…,P(hi K|hi-N+1 K,…,hi-1 KLWLM K),P(hi K-1|hi KLWLM K)を生成する(ステップS2)。
調整された確率分布P(hi|hi-N+1,…,hi-1LWLM),P(wi|hiLWLM),P(hi 2|hi-N+1 2,…,hi-1 2LWLM 2),P(hi|hi 2LWLM 2),…,P(hi K|hi-N+1 K,…,hi-1 KLWLM K),P(hi K-1|hi KLWLM K)が、調整された階層潜在語言語モデルである。
階層潜在語言語モデルは、階層構造を有するため、通常の潜在語言語モデルと比較して高い言語予測性能を持つ。この階層潜在語言語モデルを音声認識で用いることで高い認識性能が得られ、また機械翻訳に用いることで、高い翻訳性能が得られる。
[変形例]
階層潜在語言語モデルをN-gram言語モデルに近似により生成してもよい。これにより、音声認識や機械翻訳で利用しやすいモデルの形にすることができる。N-gram言語モデルの形は、音声認識や機械翻訳で高速に動作させる形態が整っており、実用に優れる。
そのために、言語モデル生成装置は、例えば疑似学習テキスト生成部4及びN-gram言語モデル生成部5を更に備えていてもよい。
<疑似学習テキスト生成部4>
入力:調整された階層潜在語言語モデル
出力:疑似学習テキスト
疑似学習テキスト生成部4は、階層潜在語言語モデルから疑似学習テキストを生成する。ここでは、疑似学習テキスト「w1・w2・…・wM」というM個の単語を生成することを目的とする。基本的には、K段目の潜在語系列「h1 K・h2 K・…・hM K」を最初に生成し、順番にK−1段目、K−2段目、…、2段目、1段目の潜在語系列「h1・h2・…・hM」を順番に生成し、最後に「w1・w2・…・wM」を生成することになる。生成には、各潜在語、および単語の確率分布を得て、その分布に従いランダムサンプリングを行うことで実現できる。ここでは、各確率分布の定義の仕方について述べる。
K段目は次の確率分布に従う。
P(hi K)〜P(hi K|hi-2 K,hi-1 K)
K−1段目から1段目は次の確率分布(k段目)に従う。
P(hi k)〜P(hi k|hi-2 k,hi-1 k)P(hi k|hi k+1)
観測単語は次の確率分布に従う。
P(wi)〜P(wi|hi)
ランダムサンプリングはSampleOneアルゴリズムに従う。なお、Mの値は例えば人手で決定する。この値が大きいほど階層潜在語言語モデルの性質を良く表す疑似学習テキストとできる。この値は最初の学習テキストに含まれる単語数Lと同等またはそれより大きい値を使うべきである。小さすぎると性能は出ない。
以下、SampleOneアルゴリズムについて説明する。
入力:確率分布(多項分布)
出力:確率分布の実現値
SampleOneアルゴリズムは、確率分布からランダムに1個の値を決定するためのアルゴリズムである。具体的に説明するために、前述の例であるP(h1)が入力である場合を扱う。
P(h1)は多項分布と呼ばれる確率分布の形となっている。h1の具体的な実現値の集合をJとする。Jは、確率分布が与えられれば自動的に決まるものである。具体的にhが、P(h1)という確率分布は、P(h1=t1), P(h1=t2),…, P(h1=tH)となっている。ここで、t1,t2,…,tHが具体的な実現値であり、この集合がJである。このとき、P(h1)は次の性質を持つ。
Figure 0006320966
このとき、h1のSampleOneは乱数に基づく。ここでは、乱数値をrandとおく。P(h1=t1), P(h1=t2),…, P(h1=tH)は具体的な数値を持っている。rand-P(h1=t1), rand-P(h1=t1)-P(h1=t2), rand-P(h1=t1)-P(h1=t2)-P(h1=t3),…と順番に値を算出し、その値が0より小さくなった場合の値を出力する。例えば、
rand-P(h1=t1)>0
rand-P(h1=t1)-P(h1=t2)<0
であれば、t2を出力する。SampleOneアルゴリズムは、任意の多項分布からのデータサンプルアルゴリズムと言える。
<N-gram言語モデル生成部5>
入力:疑似学習テキスト
出力:階層潜在語言語モデル的N-gram言語モデル
N-gram言語モデル生成部5は、学習テキスト中の全てのN個組みの単語の組み合わせの頻度を数え、N-gram言語モデルとし、階層潜在語言語モデル的N-gram言語モデルを構成する。
音声認識の場合は、一般的にN=3をとることが多い。N-gram言語モデルの学習方法は、例えば非特許文献1に記載された公知の技術であるためここでは省略する。これにより、階層潜在語言語モデルの性質を引き継いだN-gram言語モデルを構成でき、音声認識や機械翻訳で簡単に利用できる。
[プログラム及び記録媒体]
言語モデル生成装置及び方法において説明した処理は、記載の順にしたがって時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
また、言語モデル生成装置における各処理をコンピュータによって実現する場合、言語モデル生成装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、その各処理がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、各処理手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
1 階層潜在語言語モデル初期化部
11 1段目潜在語言語モデル作成部
12 2段目潜在語言語モデル作成部
1k k段目潜在語言語モデル作成部
10 階層潜在語言語モデル構成部
2 階層潜在語言語モデル調整部
4 疑似学習テキスト生成部
5 言語モデル生成部

Claims (3)

  1. N,Kを所定の正の整数とし、w1,w2,…,wLを入力されるテキストデータを構成する各単語とし、h1 0,h2 0,…,hL 0をw1,w2,…,wLとし、k=1,2,…,Kとし、h1 k,h2 k,…,hL kをh1 k-1,h2 k-1,…,hL k-1に対して潜在語言語モデル学習を行うことにより得られる潜在語系列とし、θLWLM kを潜在語系列h1 k-1,h2 k-1,…,hL k-1に対して潜在語言語モデル学習を行うことにより得られる潜在語言語モデルのモデルパラメータとして、h1 k-1,h2 k-1,…,hL k-1をテキストデータとして潜在語言語モデルの学習を行い、潜在語系列h1 k,h2 k,…,hL kと、確率分布P(hi k|hi-N+1 k,…,hi-1 kLWLM k),P(wi k|hi kLWLM k)とを生成する処理を順次k=1,2,…,Kのそれぞれについて行うことにより、潜在語系列h1,h2,…,hL, h1 2,h2 2,…,hL 2,…,h1 K,h2 K,…,hL Kと、確率分布P(hi|hi-N+1,…,hi-1LWLM),P(wi|hiLWLM),P(hi 2|hi-N+1 2,…,hi-1 2LWLM 2),P(hi|hi 2LWLM 2),…,P(hi K|hi-N+1 K,…,hi-1 KLWLM K),P(hi K-1|hi KLWLM K)とを生成する階層潜在語言語モデル初期化部と、
    確率分布P(hi|hi-N+1,…,hi-1LWLM),P(wi|hiLWLM),P(hi 2|hi-N+1 2,…,hi-1 2LWLM 2),P(hi|hi 2LWLM 2),…,P(hi K|hi-N+1 K,…,hi-1 KLWLM K),P(hi K-1|hi KLWLM K)を用いて、上記潜在語系列h1,h2,…,hL, h1 2,h2 2,…,hL 2,…,h1 K,h2 K,…,hL Kを更新し、更新された潜在語系列h1,h2,…,hL, h1 2,h2 2,…,hL 2,…,h1 K,h2 K,…,hL Kに従うように、上記確率分布P(hi|hi-N+1,…,hi-1LWLM),P(wi|hiLWLM),P(hi 2|hi-N+1 2,…,hi-1 2LWLM 2),P(hi|hi 2LWLM 2),…,P(hi K|hi-N+1 K,…,hi-1 KLWLM K),P(hi K-1|hi KLWLM K)を変更することにより調整された確率分布P(hi|hi-N+1,…,hi-1LWLM),P(wi|hiLWLM),P(hi 2|hi-N+1 2,…,hi-1 2LWLM 2),P(hi|hi 2LWLM 2),…,P(hi K|hi-N+1 K,…,hi-1 KLWLM K),P(hi K-1|hi KLWLM K)を生成する階層潜在語言語モデル調整部と、
    を含む言語モデル生成装置。
  2. 階層潜在語言語モデル初期化部が、N,Kを所定の正の整数とし、w1,w2,…,wLを入力されるテキストデータを構成する各単語とし、h1 0,h2 0,…,hL 0をw1,w2,…,wLとし、k=1,2,…,Kとし、h1 k,h2 k,…,hL kをh1 k-1,h2 k-1,…,hL k-1に対して潜在語言語モデル学習を行うことにより得られる潜在語系列とし、θLWLM kを潜在語系列h1 k-1,h2 k-1,…,hL k-1に対して潜在語言語モデル学習を行うことにより得られる潜在語言語モデルのモデルパラメータとして、h1 k-1,h2 k-1,…,hL k-1をテキストデータとして潜在語言語モデルの学習を行い、潜在語系列h1 k,h2 k,…,hL kと、確率分布P(hi k|hi-N+1 k,…,hi-1 kLWLM k),P(wi k|hi kLWLM k)とを生成する処理を順次k=1,2,…,Kのそれぞれについて行うことにより、潜在語系列h1,h2,…,hL, h1 2,h2 2,…,hL 2,…,h1 K,h2 K,…,hL Kと、確率分布P(hi|hi-N+1,…,hi-1LWLM),P(wi|hiLWLM),P(hi 2|hi-N+1 2,…,hi-1 2LWLM 2),P(hi|hi 2LWLM 2),…,P(hi K|hi-N+1 K,…,hi-1 KLWLM K),P(hi K-1|hi KLWLM K)とを生成する階層潜在語言語モデル初期化ステップと、
    階層潜在語言語モデル調整部が、確率分布P(hi|hi-N+1,…,hi-1LWLM),P(wi|hiLWLM),P(hi 2|hi-N+1 2,…,hi-1 2LWLM 2),P(hi|hi 2LWLM 2),…,P(hi K|hi-N+1 K,…,hi-1 KLWLM K),P(hi K-1|hi KLWLM K)を用いて、上記潜在語系列h1,h2,…,hL, h1 2,h2 2,…,hL 2,…,h1 K,h2 K,…,hL Kを更新し、更新された潜在語系列h1,h2,…,hL, h1 2,h2 2,…,hL 2,…,h1 K,h2 K,…,hL Kに従うように、上記確率分布P(hi|hi-N+1,…,hi-1LWLM),P(wi|hiLWLM),P(hi 2|hi-N+1 2,…,hi-1 2LWLM 2),P(hi|hi 2LWLM 2),…,P(hi K|hi-N+1 K,…,hi-1 KLWLM K),P(hi K-1|hi KLWLM K)を変更することにより調整された確率分布P(hi|hi-N+1,…,hi-1LWLM),P(wi|hiLWLM),P(hi 2|hi-N+1 2,…,hi-1 2LWLM 2),P(hi|hi 2LWLM 2),…,P(hi K|hi-N+1 K,…,hi-1 KLWLM K),P(hi K-1|hi KLWLM K)を生成する階層潜在語言語モデル調整ステップと、
    を含む言語モデル生成方法。
  3. 請求項1の言語モデル生成装置の各部としてコンピュータを機能させるためのプログラム。
JP2015097985A 2015-05-13 2015-05-13 言語モデル生成装置、方法及びプログラム Active JP6320966B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015097985A JP6320966B2 (ja) 2015-05-13 2015-05-13 言語モデル生成装置、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015097985A JP6320966B2 (ja) 2015-05-13 2015-05-13 言語モデル生成装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2016212773A JP2016212773A (ja) 2016-12-15
JP6320966B2 true JP6320966B2 (ja) 2018-05-09

Family

ID=57549862

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015097985A Active JP6320966B2 (ja) 2015-05-13 2015-05-13 言語モデル生成装置、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6320966B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12017526B2 (en) 2018-06-19 2024-06-25 Kubota Corporation Work machine

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102083938B1 (ko) * 2017-12-08 2020-04-29 주식회사 엘솔루 음성인식 시스템 및 이의 전사데이터 생성 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5860424B2 (ja) * 2013-02-20 2016-02-16 日本電信電話株式会社 言語モデル作成装置とその方法とプログラム
JP5975938B2 (ja) * 2013-06-18 2016-08-23 日本電信電話株式会社 音声認識装置、音声認識方法及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12017526B2 (en) 2018-06-19 2024-06-25 Kubota Corporation Work machine

Also Published As

Publication number Publication date
JP2016212773A (ja) 2016-12-15

Similar Documents

Publication Publication Date Title
JP6611053B2 (ja) 主題推定システム、主題推定方法およびプログラム
KR102399535B1 (ko) 음성 인식을 위한 학습 방법 및 장치
CN109891434A (zh) 使用神经网络生成音频
EP3593290A1 (en) Feedforward generative neural networks
CN108630198B (zh) 用于训练声学模型的方法和设备
US10909451B2 (en) Apparatus and method for learning a model corresponding to time-series input data
US10163454B2 (en) Training deep neural network for acoustic modeling in speech recognition
US10832129B2 (en) Transfer of an acoustic knowledge to a neural network
US10878201B1 (en) Apparatus and method for an adaptive neural machine translation system
JP6312467B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6172317B2 (ja) 混合モデル選択の方法及び装置
KR20200089588A (ko) 전자 장치 및 이의 제어 방법
KR20210078133A (ko) 간투어 검출 모델을 훈련시키기 위한 훈련 데이터 생성 방법 및 장치
JP6320966B2 (ja) 言語モデル生成装置、方法及びプログラム
US20190228310A1 (en) Generation of neural network containing middle layer background
Lee et al. NAS-TasNet: Neural architecture search for time-domain speech separation
CN113673235A (zh) 基于能量的语言模型
JP2015001695A (ja) 音声認識装置、音声認識方法及びプログラム
KR101826921B1 (ko) 기술정의문 생성장치 및 그 동작 방법
JP5860424B2 (ja) 言語モデル作成装置とその方法とプログラム
JP2015038709A (ja) モデルパラメータ推定方法、装置、及びプログラム
JP7521617B2 (ja) 事前学習方法、事前学習装置及び事前学習プログラム
JP6343582B2 (ja) 言語モデル生成装置、方法及びプログラム
JP6588933B2 (ja) 言語モデル構築装置、その方法、及びプログラム
JP6210928B2 (ja) 確率モデル生成装置、方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170508

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180323

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180403

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180404

R150 Certificate of patent or registration of utility model

Ref document number: 6320966

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150