JP2014002257A - 言語モデル生成装置、その方法及びプログラム - Google Patents

言語モデル生成装置、その方法及びプログラム Download PDF

Info

Publication number
JP2014002257A
JP2014002257A JP2012137187A JP2012137187A JP2014002257A JP 2014002257 A JP2014002257 A JP 2014002257A JP 2012137187 A JP2012137187 A JP 2012137187A JP 2012137187 A JP2012137187 A JP 2012137187A JP 2014002257 A JP2014002257 A JP 2014002257A
Authority
JP
Japan
Prior art keywords
speech
text
pseudo
language model
gram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012137187A
Other languages
English (en)
Other versions
JP5766152B2 (ja
Inventor
Narichika Nomoto
済央 野本
Hirokazu Masataki
浩和 政瀧
Satoshi Takahashi
敏 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012137187A priority Critical patent/JP5766152B2/ja
Publication of JP2014002257A publication Critical patent/JP2014002257A/ja
Application granted granted Critical
Publication of JP5766152B2 publication Critical patent/JP5766152B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】少量のテキストコーパスから、従来技術と比べて、精度の高い言語モデルを生成する技術を提供する。
【解決手段】言語モデル生成装置は、形態素単位に分かち書きされ、文節の係り受け関係が付加されたオリジナルテキストを用いて、係り受け先が同じである複数の文節を並び替えて、疑似テキストを生成する疑似テキスト生成部と、オリジナルテキストにおけるn−gramパタンの出現頻度及び疑似テキストにおけるn−gramパタンの出現頻度を用いてn−gram確率を求め、言語モデルを生成する言語モデル生成部とを含む。
【選択図】図2

Description

本発明は、テキストコーパスから言語モデルを生成する技術に関する。
現在、音声認識や自動翻訳など様々な分野で確率的言語モデル(以下、単に「言語モデル」ともいう)が使われている。言語モデルとは単語列、文字列に対して、それらが起こる確率を与えるモデルである。言語モデルとしてn−gramモデルが最も一般的である(非特許文献1参照)。n−gramモデルは単語の生起確率が直近の(n−1)単語にのみ依存するという仮定に基づいたモデルである。例えば、「私はりんごを____」という文を考えると、下線部分に入る単語は「食べる」や「買う」「かじる」等であろうと推測される。これは下線部分の前に表れる「りんご」「を」という単語の並びから推測される。このように、ある時点での単語の生起確率を推定するには直前にある数個の単語の出現情報を用いることが有効である。
一般的に、直前の一単語の情報のみを用いる場合をbigram、直前の二単語の情報を用いる場合をtrigramと呼ぶ。例えば、上記の例において下線部分に入る単語を考える場合、bigramでは「を」のみを考慮し、trigramでは「りんご」「を」を考慮する。
例えば、上記の例で下線部分に「食べる」が入る条件付き確率Pは、単語列Wの出現頻度をC(W)と表すとすると、bigramモデル、trigramモデルではそれぞれ以下のように計算される。
bigram:P(食べる|を)=C(を-食べる)/C(を)
trigram:P(食べる|りんご-を)=C(りんご-を-食べる)/C(りんご-を)
通常、音声認識の分野ではn=2(bigram)やn=3(trigram)が用いられることが多い。
一般的に、bigramよりtrigramのほうが推定精度は高い。例えば、単語「を」の後に続く単語を推定する問題よりも、単語列「りんご」「を」の後に続く単語を推定する問題のほうが容易である。よって、理想の言語モデルとは、あらゆるtrigramモデルで計算される条件付き確率(以下「trigram確率」ともいう)が実際の出現分布と等しい状態にある場合となる。
このようなbigramモデルで計算される条件付き確率(以下「bigram確率」ともいう)やtrigram確率は、通常、大量の学習コーパスから学習されることが望ましい。なお、コーパスとは、自然言語に基づき生成されたテキストデータからなるデータベースである。学習コーパスのサイズが大きければ大きいほど、多くのn−gramパタン(n個の単語からなる単語列のパタン)を学習することが可能となり、さらにそのn−gramモデルで計算される条件付き確率(以下「n−gram確率」ともいう)は統計的に信頼度が高い値となる。つまり、言語モデルの精度が高くなる。逆に学習コーパスサイズが小さい場合には、十分なn−gramパタンを網羅することができず、またそのn−gram確率は統計的に信頼度が低い。つまり、言語モデルの精度が低い。このように言語モデルの精度を向上させるためには、大量の学習コーパスが必要となる。
また学習コーパスは実際のタスクと同じものが望ましい。例えば、音声認識に言語モデルを用いる場合では、音声認識対象となるタスクと同等な単語の出現頻度分布を持つ学習コーパスであることが望ましい。例えば、野球中継で用いられる単語の出現傾向とコールセンタ等の電話応対で用いられる単語の出現傾向とは異なる。そのため、音声認識を用いて野球中継の字幕作成を行おうとした場合、野球中継内容を書き起こしたテキストデータを学習コーパスとして生成された言語モデルを用いたほうが、電話応対内容を書き起こしたテキストを学習コーパスとして生成された言語モデルを用いた場合に比べ、その認識精度は高くなる。
北研二、「言語と計算 4 確率的言語モデル」、1999年、東京大学出版会、p57−62
しかしながら、前述の通り、精度の高い言語モデルを生成するためには、大量の学習コーパスを必要とし、少量の学習コーパスしか用意できない場合には精度の高い言語モデルを生成することができない。特に、特定のタスク用の学習コーパスを用意しようとすると、大量の学習コーパスを用意することができない場合が多い。
また、音声認識において利用される言語モデルを生成する場合、音声から書き起こしたテキストデータを学習コーパスとしたほうが、認識精度が高くなる。このとき、音声を書き起こして大量の学習コーパスを作成するためには、大量の音声を人手により書き起こす作業が必要となり、その作業には大きなコスト(時間及び人件費等)がかかる。さらに、タスク毎に大量の学習コーパスを用意しようとすると、そのコストはさらに大きなものとなる。このコストを削減するために、少量の学習コーパスから言語モデルを生成すると、その精度は低くなる。
本発明は、少量のテキストコーパスから、従来技術と比べて、精度の高い言語モデルを生成する技術を提供することを目的とする。
上記の課題を解決するために、本発明の第一の態様によれば、言語モデル生成装置は、形態素単位に分かち書きされ、文節の係り受け関係が付加されたオリジナルテキストを用いて、係り受け先が同じである複数の文節を並び替えて、疑似テキストを生成する疑似テキスト生成部と、オリジナルテキストにおけるn−gramパタンの出現頻度及び疑似テキストにおけるn−gramパタンの出現頻度を用いてn−gram確率を求め、言語モデルを生成する言語モデル生成部とを含む。
上記の課題を解決するために、本発明の第二の態様によれば、言語モデル生成方法は、形態素単位に分かち書きされ、文節の係り受け関係が付加されたオリジナルテキストを用いて、係り受け先が同じである複数の文節を並び替えて、疑似テキストを生成する疑似テキスト生成ステップと、オリジナルテキストにおけるn−gramパタンの出現頻度及び疑似テキストにおけるn−gramパタンの出現頻度を用いてn−gram確率を求め、言語モデルを生成する言語モデル生成ステップとを含む。
本発明によれば、一文から獲得されるn−gramパタンを増加させることで、少量のテキストコーパスから、従来技術と比べて、精度の高い言語モデルを生成できるという効果を奏する。
図1Aは文節の係り受け関係を説明するための図、図1Bは構文解析結果を説明するための図。 第一実施形態に係る言語モデル生成装置の機能ブロック図。 第一実施形態に係る言語モデル生成装置の処理フローを示す図。 係り受け先が同じ文節である複数の文節を並び替える方法を説明するための図。 第二実施形態に係る言語モデル生成装置の機能ブロック図。 第二実施形態に係る言語モデル生成装置の処理フローを示す図。 第二実施形態の第一判定方法に係る疑似テキスト選択部の機能ブロック図。 第二実施形態の第一判定方法に係る疑似テキスト選択部の処理フローを示す図。 第二実施形態の第二判定方法に係る疑似テキスト選択部の機能ブロック図。 第二実施形態の第二判定方法に係る疑似テキスト選択部の処理フローを示す図。 第三実施形態に係る言語モデル生成装置の機能ブロック図。 第三実施形態に係る言語モデル生成装置の処理フローを示す図。
<第一実施形態のポイント>
「私はあのりんごを今日友達と食べる(私/は/あの/りんご/を/今日/友達/と/食べる)」という一文からは以下の七つのtrigramパタンが学習される。ただし、括弧内は形態素単位に分割した結果である。
1.私−は−あの
2.は−あの−りんご
3.あの−りんご−を
4.りんご−を−今日
5.を−今日−友達
6.今日−友達−と
7.友達−と−食べる
本実施形態では、ある一文から得られるn−gramパタン(例えばtrigramパタン)を増やしたい。
そこで、本実施形態は日本語の「語順変動」特性に着目する。日本語は、特に口語では、語順変動が生じやすい言語である。例えば、「私はあのりんごを今日友達と食べる」という文は「今日あのりんごを友達と私は食べる」や「私は今日あのりんごを友達と食べる」と話されても日本語の並びとして間違いでない。このように、日本語は語順を一意に決定することは難しい。そして様々な語順変化を少量の学習コーパスによって網羅することは難しい。そこで、ある学習コーパス中の各テキストに対し、語順を変動させたテキストを作成し、それらも学習コーパスとして用いることで、学習するn−gramパタン数を増やす。なお、元々ある学習コーパスをオリジナルテキストコーパスと呼び、オリジナルテキストコーパス中のテキストデータをオリジナルテキストと呼ぶ。オリジナルテキストの語順を変動させたテキストを疑似テキストと呼び、疑似テキストからなるコーパスを疑似コーパスと呼ぶ。オリジナルテキストコーパスと疑似コーパスとを併せて学習コーパスとして利用する。
例えば「私はあのりんごを今日友達と食べる」は以下のような語順で表現されても日本語の並びとして不自然でない。
オリジナルテキスト:私はあのりんごを今日友達と食べる
疑似テキスト(1):今日私は友達とあのりんごを食べる
疑似テキスト(2):私は今日あのりんごを友達と食べる
疑似テキスト(3):私は今日友達とあのりんごを食べる
疑似テキスト(4):私は友達と今日あのりんごを食べる
疑似テキスト(5):私は友達とあのりんごを今日食べる
疑似テキスト(6):今日あのりんごを私は友達と食べる

上記のような並び替えにより、元々の文には含まれなかった「今日−あの−りんご」「友達−と−今日」「今日−私−は」等のtrigramパタンも学習することが可能になる。例えば、疑似テキスト(1)「今日私は友達とあのりんごを食べる」からは以下の7つのtrigramパタン(1)1〜(1)7が学習される。(1)1〜(1)5及び(1)7が疑似テキスト(1)により新しく獲得されたtrigramパタンである。
(1)1.今日−私−は
(1)2.私−は−友達
(1)3.は−友達−と
(1)4.友達−と−あの
(1)5.と−あの−りんご
(1)6.あの−りんご−を
(1)7.りんご−を−食べる
このように並び替えによりオリジナルテキストから疑似テキストを生成することで、オリジナルテキストからは得られなかった新たなn−gramパタンを抽出することが可能となる。
本実施形態では語順変動を実現するために、「係り受け関係」を用いる。日本語における「係り受け関係」とは、文節と文節がある意味的なつながり(修飾するものと修飾されるもの)を持って関係していることを指す。「文節」とは、文を細かく分割していった際に、最も小さい意味のまとまりのことである。一般的に、文節は名詞や動詞などの「自立語」と「接語」から構成される。「接語」は無い場合や省略される場合がある。例えば、「私はあのりんごを今日友達と食べる」は以下のような文節に区切ることができる。
オリジナルテキスト:私はあのりんごを今日友達と食べる
文節:私は/あの/りんごを/今日/友達と/食べる
このような区切られた文節において、それぞれの文節は、図1Aのような係り受け関係を抽出できる。図1Aの例の場合、「私は→食べる」「あの→りんごを」「りんごを→食べる」「今日→食べる」「友達と→食べる」の計5個の係り受け関係が抽出される。係り受け関係にある文節間は、修飾するものから修飾されるものに対して直接の接続関係が成り立つ。また、係り受け関係が同じ深さにある各文節は互いに独立の関係にある。
「私は」「(あの)りんごを」「今日」「友達と」は「食べる」に係っている。「食べる」に係る4つの文節を並び替えても日本語の語順として誤りではない。上記のような並び替えにより、オリジナルテキストには含まれなかった「今日−あの−りんご」「友達−と−今日」「今日−わたし−は」等のようなtrigramパタンも学習することが可能になる。このように係り受け関係を用いることで一文からより多くの自然なn−gramパタンが抽出可能となる。
以下、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。
<第一実施形態>
図2は言語モデル生成装置100の機能ブロック図を、図3はその処理フローを示す。
言語モデル生成装置100は、形態素解析部110、構文解析部120、疑似テキスト生成部130及び言語モデル生成部140を含む。
言語モデル生成装置100は、オリジナルテキストコーパス中のT個のオリジナルテキストtexを受け取り、このオリジナルテキストtexを用いて言語モデルを生成し、出力する。ただし、t=1,2,…,Tである。以下、各部の詳細を説明する。なお、本実施形態では、オリジナルテキストコーパスには、オリジナルテキストからなるテキストデータのみが含まれていればよく、品詞情報等は必ずしも必要ではない。
<形態素解析部110>
・入力:オリジナルテキストtex
・出力:形態素解析結果(形態素単位に分かち書きされたオリジナルテキスト)mor
・処理内容:オリジナルテキストtexを形態素解析して(s110)、オリジナルテキストを形態素単位に分割し、形態素解析結果(形態素単位に分かち書きされたオリジナルテキスト)morを出力する。なお、形態素とは、言語的に意味を持つ最小単位のことである。形態素解析技術としては、従来技術を用いる。例えば「私はあのりんごを今日友達と食べる」というリジナルテキストを形態素解析すると、以下のように、単語が「/」で区切られた形式の形態素解析結果morが得られる。
⇒私/は/あの/りんご/を/今日/友達/と/食べる
<構文解析部120>
・入力:形態素解析結果(形態素単位に分かち書きされたオリジナルテキスト)mor
・出力:構文解析結果(形態素解析結果と文節の係り受け関係を示す情報)syn
・処理内容:形態素解析結果morを構文解析して(s120)、形態素解析結果morを文節に分割し、分割された複数の文節間の係り受け関係を解析し、構文解析結果(形態素解析結果と文節の係り受け関係を示す情報)synを出力する。なお、本実施形態において構文解析とは、文節の係り受け関係を解析することを意味する。構文解析技術としては、従来技術を用いる。例えば「私/は/あの/りんご/を/今日/友達/と/食べる」という形態素解析結果に対して構文解析を行うと図1Bのような構文解析結果synが得られる。なお、図1Bのような係り受け関係を本明細書では便宜上「私/は(6)あの(3)りんご/を(6)今日(6)友達/と(6)食べる」と記す。括弧中の数字は、直前の文節が、係っている文節の番号を意味する。例えば第一文節「私/は」は第六文節「食べる」に係っている。
<疑似テキスト生成部130>
・入力:構文解析結果(形態素解析結果と文節の係り受け関係を示す情報)syn
・出力:疑似テキストtext,u
・処理内容:構文解析結果synを用いて、各文節を並び替えてU個の疑似テキストtext,uを生成する(s130)。ただし、u=1,2,…,Uである。並び替えは、係り受け先が同じ文節である複数の文節を並び替えることによって行う。例えば、「私/は(6)あの(3)りんご/を(6)今日(6)友達/と(6)食べる」を受け取った場合、第六文節「食べる」を係り受け先とする第一文節「私/は」、第三文節「(あの)/りんごを」、第四文節「今日」及び第五文節「友達/と」の四つの文節を並び替える。この四つの文節を順列組合せに従って並び替えることで疑似テキストtext,uを生成する。よって、(4!−1=4×3×2×1−1=23通り)の疑似テキストtext,uが生成される(図4参照)。なお、「−1」はオリジナルテキストtexに相当する。なお、ある構文解析結果synに対して、係り受け先が同じとなる文節が存在しない場合、U=0であり、疑似テキストtext,uを生成しない。
<言語モデル生成部140>
・入力:オリジナルテキストtex、疑似テキストtext,u
・出力:言語モデル(n−gramモデル)
・処理内容:T個のオリジナルテキストtexにおけるn−gramパタンの出現頻度Countと(U+U+…+U)個の疑似テキストtext,uにおけるn−gramパタンの出現頻度Countとからn−gram確率を求め、言語モデルを生成する(s140)。なお、n−gram確率を求める際に、T個のオリジナルテキストtexから得られるn−gramパタンの出現頻度Count及び(U+U+…+U)個の疑似テキストtext,uから得られるn−gramパタンの出現頻度Countに対して重み付けに行ってもよい。例えば、重みWで重み付け混合をしたbigram確率は次式によって計算される。
Figure 2014002257
なお、重みWで重み付け混合をしたtrigram確率は次式によって計算される。
Figure 2014002257
ただし、重みWは、0より大きい値とし、重みWが1であればオリジナルテキストtexと疑似テキストtext,uとを同等の重み付けで集計することを意味する。通常、オリジナルテキストtexのほうが疑似テキストtext,uよりも、語順的に確からしいと考えられるため、Wを1以下に設定することが望ましい。例えば、重みWは、開発セットの認識精度が最大になるような言語モデルを生成する値で決定する。
<効果>
このような構成により、一文(オリジナルテキストtex)から獲得されるn−gramパタンを増加させることができ、従来技術と比べて、少量のテキストコーパスから、精度の高い言語モデルを生成できる。
<変形例>
言語モデル生成装置100は、形態素解析部110や構文解析部120を備えずに、例えば他の装置により予め求められた形態素解析結果morや構文解析結果synを入力としてもよい。
また、n−gramモデルを生成する際に周知のスムージングまたは平滑化と呼ばれる方法を用いてもよい(非特許文献1参照)。
<第二実施形態>
第一実施形態と異なる部分についてのみ説明する。
構文解析部120における構文解析に誤りがある場合、その誤りにより本来正しくない文型の疑似テキストが生成されてしまう可能性がある。それにより後段で生成される言語モデルの性能が劣化する可能性がある。そこで、第二実施形態では、疑似テキストが語順として確からしいか否かを判定する処理部を追加する。
図5は言語モデル生成装置200の機能ブロック図を、図6はその処理フローを示す。
言語モデル生成装置200は、形態素解析部210、構文解析部120、疑似テキスト生成部130、言語モデル生成部140を含み、さらに、疑似テキスト選択部250を含む。
<形態素解析部210>
・入力:オリジナルテキストtex
・出力:形態素解析結果(形態素単位に分かち書きされ、品詞情報が付加されたオリジナルテキスト)mor’
・処理内容:オリジナルテキストtexを形態素解析して(s210)、オリジナルテキストを形態素単位に分割し、分割した各形態素に品詞を付与して、形態素解析結果(形態素単位に分かち書きされ、品詞情報が付加されたたオリジナルテキスト)mor’を出力する。形態素解析技術としては、従来技術を用いる。例えば「私はあのりんごを今日友達と食べる」というリジナルテキストを形態素解析すると、以下のように、単語が「/」で区切られ、品詞を付加された形式の形態素解析結果mor’が得られる。
⇒私(名詞:代名詞)/は(連用助詞)/あの(連体詞)/りんご(名詞)/を(格助詞:連用)/今日(名詞:日時:連用)/友達(名詞)/と(格助詞:連用)/食べる(動詞)
<疑似テキスト選択部250>
・入力:(品詞情報が付加された形態素解析結果mor’と文節の係り受け関係を示す情報とからなる構文解析結果syn’を用いて生成されるため、品詞情報が付加されている)疑似テキストtex’t,u、形態素解析結果(形態素単位に分かち書きされ、品詞情報が付加されたオリジナルテキスト)mor’
・出力:選択疑似テキストtex’t,y
・処理内容:オリジナルテキストtexの言葉の並びを用いて、疑似テキストtex’t,uの言葉の並びが正しいか否かを判定し、正しいと判定された疑似テキストtex’t,uを選択し(s250)、言語モデル生成部140に出力し、言語モデルの学習に用いる。正しくないと判定された場合にはその疑似テキストtex’t,uを選択せず言語モデル学習に用いない。本実施形態では、言葉の並びが正しいか否かを判定する際に品詞の語順を利用し、オリジナルテキストtexの品詞の語順と疑似テキストtex’t,uの品詞の語順とを比較して、確からしい品詞の語順を持つ疑似テキストtex’t,uを選択する。疑似テキストtex’t,uの品詞の語順が正しいか否かを判定する方法を以下に二つ説明する。
(1)第一判定方法
図7及び図8を用いて、第一判定方法について説明する。疑似テキスト選択部250は、第一品詞情報取得部251、出現品詞列集合記憶部253、第二品詞情報取得部255及び判定部257を含む。まず、第一品詞情報取得部251は、形態素解析結果mor’からオリジナルテキストtexに付加された品詞情報を取り出し(s251)、T個のオリジナルテキストtexの品詞の語順の集合を、出現品詞列集合として、出現品詞列集合記憶部253に格納する(s253)。次に、第二品詞情報取得部255は、疑似テキストtex’t,uに付加された品詞情報から、疑似テキストtex’t,uの品詞の語順を取り出し(s255)、判定部257に出力する。判定部257は、疑似テキストtex’t,uの品詞の語順を受け取り、出現品詞列集合記憶部253内の出現品詞列集合に同様の品詞の語順が存在するか否かを判定し(s257)、存在する場合には、その品詞の語順は確からしいと判断し、その品詞の語順に対応する疑似テキストtex’t,uを選択し(s258)、選択疑似テキストtex’t,yとして言語モデル生成部140に出力する。ただし、y=1,2,…,Yであり、Yはあるオリジナルテキストtexから得られるU個の疑似テキストtex’t,uから選択される選択疑似テキストtex’t,yの個数である。存在しない場合には、その疑似テキストtex’t,uは本来正しくない文型であると判断し、選択しない。
なお、疑似テキストtex’t,uの品詞の語順と、出現品詞列集合記憶部253内の出現品詞列集合に含まれる品詞の語順とは、必ずしも全て同じである必要はなく、所定の割合(例えば、90%)以上、同じである場合に、疑似テキストtex’t,uを選択してもよい。言い換えると、疑似テキストtex’t,uの品詞の語順と出現品詞列集合に含まれる何れかの品詞の語順とが所定の割合以上一致する場合に、その疑似テキストtex’t,uを選択してもよい。どの程度の語順が同じである場合に、疑似テキストtex’t,uを選択するかは、認識精度がよくなるように実験的に定める。例えば、疑似テキストの品詞の語順が、10個の品詞の語順からなるとき、出現品詞列集合から10個の品詞の語順からなるものを取り出し、比較し、9個または10個の品詞の語順を一致する場合に、その疑似テキストを選択する。なお、他の方法により一致の割合を求めてもよい。
オリジナルテキストコーパスのコーパスサイズが十分に大きくない場合に、疑似テキストの品詞の語順が出現品詞列集合に同様の品詞の語順が存在する(言い換えると、所定の割合が100%である)ことを選択の条件にすると、出現品詞列集合に含まれる品詞の語順の種類が少ないため、多くの疑似テキストは選択されない。そうすると、疑似コーパス及び学習コーパスのコーパスサイズが小さくなるため、結果として言語モデルの精度が低くなる可能性がある。そのような場合に、一致の割合を低くすることで、疑似コーパス及び学習コーパスのコーパスサイズを大きくし、結果として言語モデルの精度を向上させることができる。
(2)第二判定方法
図9及び図10を用いて、第二判定方法について説明する。疑似テキスト選択部250は、第一品詞情報取得部251、出現品詞列集合記憶部253、第二品詞情報取得部255及び判定部257に加えて、品詞n−gram確率計算部258及び品詞n−gram確率記憶部259をさらに含む。第一品詞情報取得部251、出現品詞列集合記憶部253、第二品詞情報取得部255における処理は第一判定方法と同様である。
品詞n−gram確率計算部258は、出現品詞列集合記憶部253内の出現品詞列集合を取り出し、出現品詞列集合内に含まれる品詞n−gramパタンについての品詞n−gram確率を計算し(s258)、品詞n−gram確率記憶部259に格納する(s259、ただし図10では品詞n−gram確率として品詞trigram確率を用いた場合を例示している)。例えば、出現品詞列集合内における品詞列Wの出現頻度をC(W)と表すとすると、品詞bigram確率、品詞trigram確率はそれぞれ以下のように計算される。ただし、次式において、A,B,Cはそれぞれ品詞を表し、「−」は品詞の繋がりを表し、例えば、B−Aは品詞Bの後に品詞Aが出現することを表す。
品詞bigram確率:P(A|B)=C(B-A)/C(B)
品詞trigram確率:P(A|B-C)=C(B-C-A)/C(B-C)
判定部257は、疑似テキストtex’t,uの品詞の語順を受け取り、疑似テキストtex’t,uの品詞の語順から得られる品詞n−gramパタンに対応する品詞n−gram確率を品詞n−gram確率記憶部259から取り出す(s257a)。例えば、疑似テキストtex’t,uの品詞の語順として、(連体詞)(名詞:代名詞)(連用助詞)(名詞)(格助詞:連用)(名詞)(格助詞:連用)(名詞:日時:連用)(動詞)を受け取った場合、以下の七つの品詞trigramパタンに対応する品詞trigram確率を品詞n−gram確率記憶部259から取り出す。
1.(連体詞)−(名詞:代名詞)−(連用助詞)
2.(名詞:代名詞)−(連用助詞)−(名詞)
3.(連用助詞)−(名詞)−(格助詞:連用)
4.(名詞)−(格助詞:連用)−(名詞)
5.(格助詞:連用)−(名詞)−(格助詞:連用)
6.(名詞)−(格助詞:連用)−(名詞:日時:連用)
7.(格助詞:連用)−(名詞:日時:連用)−(動詞)
取り出した品詞n−gram確率と事前に定めた閾値と比較し(s257b)、閾値以上の場合、その品詞の語順は確からしいと判断し、その品詞の語順に対応する疑似テキストtex’t,uを選択し(s258)、選択疑似テキストtex’t,yとして言語モデル生成部140に出力する。閾値未満の場合には、その疑似テキストtex’t,uは本来正しくない文型であると判断し、選択しない。
閾値と比較する方法としては以下のような方法が考えられる。
(i)取り出した品詞n−gram確率の平均値を求め、平均値と閾値とを比較する。平均値が閾値以上の場合、その品詞の語順は確からしいと判断する。
(ii)取り出した品詞n−gram確率のそれぞれと閾値とを比較し、Mt,u個の品詞n−gram確率が閾値以上の場合、その品詞の語順は確からしいと判断する。ただし、疑似テキストtex’t,uに含まれる品詞n−gramパタンの個数をNt,u個とすると、Mt,u≦[VNt,u]であり、0<V≦1とし、[・]は・以下の最大の整数を表す。なお、Vは認識精度がよくなるように実験的に定める。
<言語モデル生成部140>
言語モデル生成部140は、入力として、疑似テキスト生成部130で生成された(U+U+…+U)個の疑似テキストtex’t,u全てではなく、その中から疑似テキスト選択部250で選択された(Y+Y+…+Y)個の選択疑似テキストtex’t,yのみを用いて、言語モデルを生成する(s140)。言語モデルを生成方法は第一実施形態と同様である。
<効果>
このような構成により、第一実施形態と同様の効果を得ることができる。さらに、本来正しくない文型の疑似テキストtex’t,uを用いて言語モデルを生成することを防ぎ、言語モデルの性能劣化を防止することができる。
<第三実施形態>
第二実施形態と異なる部分についてのみ説明する。
第三実施形態では、言語モデル生成部140において、オリジナルテキストtexと疑似テキストtext,uの重みW(式(1)や式(2)参照)を疑似テキストtext,u毎に変える。生成される疑似テキストtext,uにおいて、「確からしさ」の観点から、T個のオリジナルテキストtexと同等の頻度を与えてよさそうな語順や、間違いではないがあまり使われない語順であるといったことも考えられる。そこで第三実施形態では、重みWを疑似テキストtext,u毎に算出する処理を加える。
図11は言語モデル生成装置300の機能ブロック図を、図12はその処理フローを示す。
言語モデル生成装置300は、形態素解析部210、構文解析部120、疑似テキスト生成部130、言語モデル生成部140、疑似テキスト選択部250を含み、さらに疑似テキスト重み算出部370を含む。
<疑似テキスト重み算出部370>
・入力:(品詞情報が付加されている)選択疑似テキストtex’t,y、形態素解析結果(形態素単位に分かち書きされ、品詞情報が付加されたオリジナルテキスト)mor’
・出力:選択疑似テキストtex’t,y毎の重みWt,y
・処理内容:T個のオリジナルテキストtexの品詞の語順と同じ品詞の語順を多く持つ選択疑似テキストtex’t,yほど、大きな重みWt,yを算出し(s370)、選択疑似テキストtex’t,yとともに言語モデル生成部140に出力する。重みWt,yの算出方法としては、例えば以下の方法がある。
第二実施形態で用いた出現品詞列集合及び品詞n−gram確率を用いて、重みWt,yを算出する。ただし、品詞n−gram確率は、0から1の値をとる。なお、品詞n−gram確率が大きければ「語順的に確からしい」ことを意味し、品詞n−gram確率が小さければ「語順的に誤りらしい」ことを意味する。
疑似テキスト重み算出部370は、品詞情報が付加されている選択疑似テキストtex’t,yから、品詞の語順を取り出す。以下に、重みWt,yを決定する方法を三つ説明する。
(1)第一決定方法
疑似テキスト重み算出部370は、出現品詞列集合記憶部253内の出現品詞列集合に含まれる何れかの品詞の語順と疑似テキストtex’t,uの品詞の語順とが所定の割合(例えば、95%)以上一致するか否かを判定し、一致する場合には、その疑似テキストtex’t,uの品詞の語順は確からしいと判断し、重みWt,yの値を大きな値Aとする。一致しない場合には、その疑似テキストtex’t,yは本来正しくない文型であると判断し、重みWt,yの値を小さな値Aとする。
以下の第二決定方法及び第三決定方法の場合、疑似テキスト重み算出部370は、さらに、疑似テキストtex’t,yの品詞の語順から得られる品詞n−gramパタンに対応する品詞n−gram確率を疑似テキスト選択部250内の品詞n−gram確率記憶部259から取り出す。
(2)第二決定方法
取り出した品詞n−gram確率と事前に定めた閾値Xとを比較し、閾値X以上の場合、その品詞の語順は確からしいと判断し、重みWt,yの値を大きな値Aとする。閾値X未満の場合には、その疑似テキストtex’t,yは本来正しくない文型であると判断し、重みWt,yの値を小さな値Aとする。ただし、A>Aである。X、A、Aは事前に開発セットの認識精度が最大になるように定めておく。例えば、X、A、Aは、様々な値の組合せを用意して、言語モデルとしての認識精度がよくなるように実験的に定める。なお、Xは、0に近づけると全ての品詞の語順が許容されることになるため、品詞の語順による重み付けの意味がなくなる。また、この例では、閾値X以上、または、閾値X未満の二つのパタンに分類したが、N個の閾値Xを設け(ただし、Nは2以上の整数であり、n=1,2,…,Nであり、X<X<…<X)、(N+1)個のパタンに分類しても問題ない。閾値の個数が増えることで、重みWt,yの表現能力が向上し、言語モデルの性能が向上すると考えられる。一方で事前に決めるパラメータ数(閾値X,X,…,Xや、(N+1)個のパタンに対応する(N+1)個の値A、A,…,AN+1)が増えるため計算コストが増大する。
なお、閾値と比較する方法としては、疑似テキスト選択部250と同様の方法を用いることができる。つまり、以下のように比較する。
(i)取り出した品詞n−gram確率の平均値を求め、平均値と閾値Xとを比較する。平均値が閾値X以上の場合、その品詞の語順は確からしいと判断する。
(ii)取り出した品詞n−gram確率のそれぞれと閾値Xとを比較し、M個の品詞n−gram確率が閾値X以上の場合、その品詞の語順は確からしいと判断する。
(3)第三決定方法
そもそも品詞n−gram確率が大きければ、「語順的に確からしい」ことを意味し、品詞n−gram確率が小さければ「語順的に誤りらしい」ことを意味するので、取り出した品詞n−gram確率の平均値を求め、その平均値(または平均値に所定の値を乗じた値)を重みとして利用する。
<言語モデル生成部140>
言語モデル生成部140は、オリジナルテキストtex、選択疑似テキストtex’t,y及び重みWt,yを受け取り、式(1)または(2)等により、n−gram確率を計算し、言語モデルを生成する(s140)。言語モデルを生成方法は第二実施形態と同様である。ただし、式(1)または(2)等において、選択疑似テキストtex’t,y毎に、重みWに代えて、重みWt,yを用いて計算する。
<効果>
このような構成により、第二実施形態と同様の効果を得ることができる。さらに、より確からしい語順を持つ選択疑似テキストtex’t,yに対して、大きな重みWt,yを与え、言語モデルの精度を向上させることができる。
<変形例>
第二実施形態の言語モデル生成装置200に疑似テキスト重み算出部370を加えた構成となっているが、第一実施形態の言語モデル生成装置100に加えてもよい。この場合、疑似テキスト重み算出部370や言語モデル生成部140では、選択疑似テキストtex’t,yに代えて、品詞情報が付加されている疑似テキストtex’t,uを用いる。よって、第一実施形態の形態素解析部110に代えて、第二実施形態の形態素解析部210を用い、オリジナルテキストtexを形態素単位に分割し、分割した各形態素に品詞を付与して、形態素解析結果mor’を出力する。また、この場合、疑似テキスト重み算出部370において、品詞n−gram確率を求め、図示しない記憶部に格納する。
<その他の変形例>
また、本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
上述した言語モデル生成装置は、コンピュータにより機能させることもできる。この場合はコンピュータに、目的とする装置(各種実施形態で図に示した機能構成をもつ装置)として機能させるためのプログラム、またはその処理手順(各実施形態で示したもの)の各過程をコンピュータに実行させるためのプログラムを、CD−ROM、磁気ディスク、半導体記憶装置などの記録媒体から、あるいは通信回線を介してそのコンピュータ内にダウンロードし、そのプログラムを実行させればよい。
100,200,300 言語モデル生成装置
110,210 形態素解析部
120 構文解析部
130 疑似テキスト生成部
140 言語モデル生成部
250 疑似テキスト選択部
251 第一品詞情報取得部
253 出現品詞列集合記憶部
255 第二品詞情報取得部
257 判定部
258 確率計算部
259 確率記憶部
370 疑似テキスト重み算出部

Claims (7)

  1. 形態素単位に分かち書きされ、文節の係り受け関係が付加されたオリジナルテキストを用いて、係り受け先が同じである複数の文節を並び替えて、疑似テキストを生成する疑似テキスト生成部と、
    前記オリジナルテキストにおけるn−gramパタンの出現頻度及び前記疑似テキストにおけるn−gramパタンの出現頻度を用いてn−gram確率を求め、言語モデルを生成する言語モデル生成部とを含む、
    言語モデル生成装置。
  2. 請求項1記載の言語モデル生成装置であって、
    前記オリジナルテキストには、さらに各形態素に対して品詞情報が付加されているものとし、
    前記オリジナルテキストの品詞の語順と前記疑似テキストの品詞の語順とを比較して、確からしい品詞の語順を持つ疑似テキストを選択する疑似テキストを選択する疑似テキスト選択部とをさらに含み、
    前記言語モデル生成部は、前記オリジナルテキストにおけるn−gramパタンの出現頻度及び前記疑似テキスト選択部において選択された前記疑似テキストにおけるn−gramパタンの出現頻度を用いてn−gram確率を求め、言語モデルを生成する、
    言語モデル生成装置。
  3. 請求項2記載の言語モデル生成装置であって、
    前記疑似テキスト選択部は、
    前記オリジナルテキストに付加されている品詞情報を取り出す第一品詞情報取得部と、
    前記オリジナルテキストの品詞の語順の集合である出現品詞列集合を記憶する出現品詞列集合記憶部と、
    前記疑似テキストに付加された品詞情報から、前記疑似テキストの品詞の語順を取り出す第二品詞情報取得部と、
    前記疑似テキストの品詞の語順と前記出現品詞列集合に含まれる何れかの品詞の語順とが所定の割合以上一致する場合に、その疑似テキストを選択する判定部と、を含む、
    言語モデル生成装置。
  4. 請求項2記載の言語モデル生成装置であって、
    前記疑似テキスト選択部は、
    前記オリジナルテキストに付加されている品詞情報を取り出す第一品詞情報取得部と、
    前記オリジナルテキストの品詞の語順の集合である出現品詞列集合を記憶する出現品詞列集合記憶部と、
    前記疑似テキストに付加された品詞情報から、前記疑似テキストの品詞の語順を取り出す第二品詞情報取得部と、
    前記出現品詞列集合に含まれる品詞n−gramパタンについての品詞n−gram確率を計算する品詞n−gram確率計算部と、
    前記品詞n−gram確率を記憶する品詞n−gram確率記憶部と、
    前記疑似テキストの品詞の語順から得られる品詞n−gramパタンに対応する品詞n−gram確率を前記品詞n−gram確率記憶部から取り出し、取り出した品詞n−gram確率と事前に定めた閾値とを比較し、閾値以上の場合、その品詞の語順に対応する疑似テキストを選択する判定部と、を含む、
    言語モデル生成装置。
  5. 請求項1から請求項4の何れかに記載の言語モデル生成装置であって、
    前記オリジナルテキストには、さらに各形態素に対して品詞情報が付加されているものとし、
    前記オリジナルテキストの品詞の語順と同じ品詞の語順を多く持つ疑似テキストほど、大きな重みを算出する言語モデル重み算出部をさらに含み、
    前記言語モデル生成部は、前記オリジナルテキストにおけるn−gramパタンの出現頻度及び前記疑似テキストにおけるn−gramパタンの出現頻度に対して前記重みにより重み付けを行い、n−gram確率を求め、言語モデルを生成する、
    言語モデル生成装置。
  6. 形態素単位に分かち書きされ、文節の係り受け関係が付加されたオリジナルテキストを用いて、係り受け先が同じである複数の文節を並び替えて、疑似テキストを生成する疑似テキスト生成ステップと、
    前記オリジナルテキストにおけるn−gramパタンの出現頻度及び前記疑似テキストにおけるn−gramパタンの出現頻度を用いてn−gram確率を求め、言語モデルを生成する言語モデル生成ステップとを含む、
    言語モデル生成方法。
  7. 請求項1から請求項5の何れかに記載の言語モデル生成装置としてコンピュータを機能させるためのプログラム。
JP2012137187A 2012-06-18 2012-06-18 言語モデル生成装置、その方法及びプログラム Expired - Fee Related JP5766152B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012137187A JP5766152B2 (ja) 2012-06-18 2012-06-18 言語モデル生成装置、その方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012137187A JP5766152B2 (ja) 2012-06-18 2012-06-18 言語モデル生成装置、その方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2014002257A true JP2014002257A (ja) 2014-01-09
JP5766152B2 JP5766152B2 (ja) 2015-08-19

Family

ID=50035480

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012137187A Expired - Fee Related JP5766152B2 (ja) 2012-06-18 2012-06-18 言語モデル生成装置、その方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5766152B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016180849A (ja) * 2015-03-24 2016-10-13 日本電信電話株式会社 学習データ生成装置、言語モデル学習装置、学習データ生成方法、プログラム
CN109800421A (zh) * 2018-12-19 2019-05-24 武汉西山艺创文化有限公司 一种游戏剧本生成方法及其装置、设备、存储介质
CN112466292A (zh) * 2020-10-27 2021-03-09 北京百度网讯科技有限公司 语言模型的训练方法、装置和电子设备
JP2022110098A (ja) * 2018-11-30 2022-07-28 グーグル エルエルシー 音声処理
WO2023073886A1 (ja) * 2021-10-28 2023-05-04 日本電気株式会社 情報処理システム、情報処理装置、情報処理方法、及び記録媒体

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0785042A (ja) * 1993-09-16 1995-03-31 Canon Inc 文章処理装置
JP2002091967A (ja) * 2000-09-14 2002-03-29 Nippon Hoso Kyokai <Nhk> 言語モデル作成装置および言語モデル作成プログラムを記録した記録媒体
JP2002279354A (ja) * 2001-03-16 2002-09-27 Ricoh Co Ltd 文字認識装置、文字認識方法および記録媒体
JP2004271615A (ja) * 2003-03-05 2004-09-30 Canon Inc 情報処理装置
JP2009151630A (ja) * 2007-12-21 2009-07-09 National Institute Of Information & Communication Technology 情報処理装置、情報処理方法、及びプログラム
JP2012078647A (ja) * 2010-10-04 2012-04-19 National Institute Of Information & Communication Technology 言語モデル学習装置及びコンピュータプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0785042A (ja) * 1993-09-16 1995-03-31 Canon Inc 文章処理装置
JP2002091967A (ja) * 2000-09-14 2002-03-29 Nippon Hoso Kyokai <Nhk> 言語モデル作成装置および言語モデル作成プログラムを記録した記録媒体
JP2002279354A (ja) * 2001-03-16 2002-09-27 Ricoh Co Ltd 文字認識装置、文字認識方法および記録媒体
JP2004271615A (ja) * 2003-03-05 2004-09-30 Canon Inc 情報処理装置
JP2009151630A (ja) * 2007-12-21 2009-07-09 National Institute Of Information & Communication Technology 情報処理装置、情報処理方法、及びプログラム
JP2012078647A (ja) * 2010-10-04 2012-04-19 National Institute Of Information & Communication Technology 言語モデル学習装置及びコンピュータプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6014014727; 清水信哉他: '"用法の違いを考慮した類似単語の置換による学習データ生成とそれを用いた主題の違いに頑健な言語モデルの' 情報処理学会研究報告2010June[CD-ROM] No.196, 201006, pp.1-6 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016180849A (ja) * 2015-03-24 2016-10-13 日本電信電話株式会社 学習データ生成装置、言語モデル学習装置、学習データ生成方法、プログラム
JP2022110098A (ja) * 2018-11-30 2022-07-28 グーグル エルエルシー 音声処理
CN109800421A (zh) * 2018-12-19 2019-05-24 武汉西山艺创文化有限公司 一种游戏剧本生成方法及其装置、设备、存储介质
CN112466292A (zh) * 2020-10-27 2021-03-09 北京百度网讯科技有限公司 语言模型的训练方法、装置和电子设备
CN112466292B (zh) * 2020-10-27 2023-08-04 北京百度网讯科技有限公司 语言模型的训练方法、装置和电子设备
US11900918B2 (en) 2020-10-27 2024-02-13 Beijing Baidu Netcom Science Technology Co., Ltd. Method for training a linguistic model and electronic device
WO2023073886A1 (ja) * 2021-10-28 2023-05-04 日本電気株式会社 情報処理システム、情報処理装置、情報処理方法、及び記録媒体

Also Published As

Publication number Publication date
JP5766152B2 (ja) 2015-08-19

Similar Documents

Publication Publication Date Title
US10997370B2 (en) Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time
CN104854654B (zh) 用于使用搜索查询信息的言语识别处理的方法和系统
CN109657054B (zh) 摘要生成方法、装置、服务器及存储介质
JP6493866B2 (ja) 情報処理装置、情報処理方法、およびプログラム
EP2157570B1 (en) Automatic conversation system and conversation scenario editing device
US11675975B2 (en) Word classification based on phonetic features
JP4968036B2 (ja) 韻律語グルーピング方法及び装置
US20030046078A1 (en) Supervised automatic text generation based on word classes for language modeling
EP1580667A2 (en) Representation of a deleted interpolation N-gram language model in ARPA standard format
CN107797984A (zh) 智能交互方法、设备及存储介质
KR101326354B1 (ko) 문자 변환 처리 장치, 기록 매체 및 방법
JP5766152B2 (ja) 言語モデル生成装置、その方法及びプログラム
JP2004070959A (ja) 適応型文脈依存解析
Kumar Answer-level calibration for free-form multiple choice question answering
JP2018084627A (ja) 言語モデル学習装置およびそのプログラム
JP2004342104A (ja) テキストを圧縮するシステム、方法及びコンピュータ可読記憶媒体
CN110020429A (zh) 语义识别方法及设备
JP2014044363A (ja) 識別的音声認識精度推定装置、識別的音声認識精度推定方法、プログラム
JP6605997B2 (ja) 学習装置、学習方法及びプログラム
CN105632500B (zh) 语音识别装置及其控制方法
JP2013134753A (ja) 誤り文修正装置、誤り文修正方法およびプログラム
CN114398875A (zh) 一种纠错模型的训练方法、检索词纠错方法、设备及介质
JP6486789B2 (ja) 音声認識装置、音声認識方法、プログラム
JP2004046775A (ja) 固有表現抽出装置及び方法並びに固有表現抽出プログラム
JP5225219B2 (ja) 述語項構造解析方法、その装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140710

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150304

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150331

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150518

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150609

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150616

R150 Certificate of patent or registration of utility model

Ref document number: 5766152

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees