JP5377889B2

JP5377889B2 - 言語処理装置およびプログラム

Info

Publication number: JP5377889B2
Application number: JP2008148047A
Authority: JP
Inventors: 彰夫小林
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2008-06-05
Filing date: 2008-06-05
Publication date: 2013-12-25
Anticipated expiration: 2028-06-05
Also published as: JP2009294913A

Description

本発明は、自然言語処理に関する。特に、与えられたテキスト（例えば、日本語の漢字仮名混じり文）を基に単語分割および読み仮名付与の処理を行なう言語処理装置およびコンピュータプログラムに関する。

従来技術では、音声認識装置で用いられる単語辞書や統計的言語モデルを作成するために、漢字仮名まじりの日本語テキストを品詞・単語Ｎグラム（ｎ−ｇｒａｍ）に基づく形態素解析器を用いて単語に分割する処理が行なわれてきた。

非特許文献１に基づく従来法（１）は、日本語テキストの分割を単語Ｎグラムを用いて行う手法である。また、非特許文献２に基づく従来法（２）は、従来法（１）と同様に、日本語テキストの読み仮名をＮグラムに基づいて行う手法である.
Ｎグラム等の統計的言語モデルに関しては、たとえば、非特許文献３にも記載されている。
M. Nagata，"A Stochastic Japanese Morphological Analyzer Using a Forward-DP Backward-A* N-Best Search Algorithm"，International Conference on Computational Linguistics，pp.201-207，１９９４．長野，森，西村，「確率モデルを用いた読みおよびアクセント推定」，情報処理学会研究報告，vol. 2005，no.69，pp.81-86，２００５年．北研二，「言語と計算４確率的言語モデル」，東京大学出版会，ｐｐ．５７−６２，１９９９年

非特許文献１または非特許文献２に基づく従来法では、単語の分割が単語または品詞のＮグラムに基づく確率により行われるため、単語分割誤りが最小になるように単語分割が行われるとは限らない。従って、単語を分割する際に特定の誤りが頻繁に起こった場合には、正しい単語に対するＮグラム確率が与えられないという問題が生じる。また、同じ理由により、分割誤りの起こった箇所に正しい読み仮名が付与されないという問題も生じる。これらの問題があるため、従来技術の方法では、日本語漢字仮名まじり文を基に高精度な統計的言語モデルを作成できず、従って、そのような統計的言語モデルを用いた音声認識装置においては高い認識率が得られないという問題につながる。

図１０は、従来技術の方法による単語分割処理の例を示す概略図である。この図に示すように、日本語テキストとして「十時十分に来る」という文が入力として与えられた場合、幾通りかの単語分割および読み仮名付与のしかたがあり得る。この図に示すグラフの中には、少なくとも２つの正解候補が存在し、それらを正解候補１および正解候補２として示している。正解候補１のパスに沿ってノードをたどると、「文頭」−「十，じゅう，数詞，確率１．０」−「時，じ，接尾辞，確率１．０」−「十，じゅっ，名詞，確率０．５」−「分，ぷん，接尾辞，確率０．５」−「に，に，助詞，確率１．０」−「来る，くる，動詞，確率１．０」−「文末，確率１．０」となる。また、正解候補２のパスに沿ってノードをたどると、「文頭」−「十，じゅう，数詞，確率１．０」−「時，じ，接尾辞，確率１．０」−「十分に，じゅうぶんに，形容動詞，確率０．３」−「来る，くる，動詞，確率１．０」−「文末，確率１．０」となる。なおここで、各ノードに付された確率は、それぞれのパスにおいて直前のノードの単語から当該ノードの単語が生成される条件付確率である。言い換えればこれは、バイグラム（bigram）の確率である。

これら２つの正解候補についての生成確率は次の通りである。正解候補１が生成される確率Ｓ_１は、上述したパスのバイグラムの確率の積として、次の式（１）で計算される。

一方で、正解候補２が生成される確率Ｓ_２は、同様に、次の式（２）で計算される。

つまり、Ｓ_１＝０．２５，Ｓ_２＝０．３であり、Ｓ_１＜Ｓ_２であるから、生成確率が高いほうの正解候補２が選択されてしまう。つまり、「十分に，じゅうぶんに，形容動詞」の部分のＮグラム（バイグラム）の確率が、「十，じゅっ，名詞」−「分，ぷん，接尾辞」−「に，に，助詞」のＮグラムの確率よりも大きいため、「十／分／に」が選択されず、誤った単語分割が選択されてしまうという問題がある。
そして、誤って選択された単語分割に基づいて統計的言語モデルが作成されると、その統計的言語モデルは、「じゅうじじゅっぷんにくる」という音声入力に対して正しい認識結果が得られなくなる方向に作用する。
このような問題は、従来技術による方法が、パス中の確率の積をスコアとして、このスコアが最も大きな候補を正解とみなしていることによるものである。

本発明は、上記のような問題の認識に基づいてなされたものであり、単に確率の積によるスコアを用いて正解候補を選択するのではなく、誤りがなるべく少なくなるような単語分割および読み仮名付与を行なえる言語処理装置およびそのコンピュータプログラムを提供することを目的とする。

［１］上記の課題を解決するため、本発明の一態様による言語処理装置は、単語分割と品詞と読み仮名とを含んだ正解候補の、単語列に基づく関数と、品詞列に基づく関数と、読み仮名に基づく関数と、前記関数ごとの重み値を記憶する単語分割モデル記憶部と、テキストデータを読み込み、読み込んだ前記テキストデータを基に単語分割と前記単語分割に対応する品詞列および読み仮名とからなる正解候補を展開し、前記正解候補ごとに、前記単語分割モデル記憶部から読み出した単語列に基づく前記関数と品詞列に基づく前記関数と読み仮名に基づく前記関数とを適用して、前記関数のそれぞれに対応する前記値を算出するとともに前記関数ごとの前記重み値による重み付けを用いて前記単語分割と前記品詞と前記読み仮名とについてのスコアを算出し、算出した前記スコアが最良の前記正解候補を選択し、選択された前記正解候補の単語分割を出力する単語分割処理部とを具備することを特徴とする。
この構成によれば、正解数の期待値のスコアを算出し、そのスコアに基づいて正解候補が算出されるため、最も誤りの少ない（つまり精度の高い）単語分割を得ることができる。
また、この構成により、単に単語分割の正解だけでなく読み仮名の正解も利用した単語分割を行なうため、単語分割の精度がより高くなる。
なお、単語分割の正解候補を展開することは、あり得るすべての正解候補を列挙することと同じである。言い換えれば、単語分割の正解候補を展開して得られる情報は、あり得るすべての正解候補を列挙して得られる情報と等価である。但し、正解候補に含まれる単語をノードとして単語分割点をアークとしたグラフ（このグラフは、正解候補に含まれる単語をアークとして単語分割点をノードとしたグラフと等価である)の形に正解候補の展開を行い、正解候補間で共通するパス（与えられた文のうちの一部であり、単語および単語分割点を含むパス）を共通のノードおよびアークとするグラフで表現することにより、正解候補をコンパクトなデータとして表現できるとともに、このグラフの構造（ノードとアークの）に基づいたスコアの算出を行なえる。
ここで、関数とは、単語列に基づく値を算出して返すための関数や、品詞列に基づく値を算出して返すための関数や、読み仮名に基づく値を算出して返すための関数や、文の係り受け構造に基づく値を算出して返すための関数などを適宜用いる。この関数値と関数ごとの重み値との積を取り、得られた積の値のすべての関数についての総和をとってスコアとすることができる。
また、スコアは、例えば、対象の文のテキストの文頭から文末の方向に向かって単語分割点ごとに算出する。そして、ある単語分割点においては、前の単語分割点（前記のグラフ構造において、この「前の単語分割点」は複数ある）までの正解候補数の期待値に前の単語分割点から当該単語分割点までの間の単語の正解数を加えたもの（これをＡとする）に、前の単語分割点における前向き確率（これをＢとする）を乗じ、さらに当該単語に関数を適用して重み値を乗じたものの全ての関数についての総和（これをＣとする）を乗じ、得られたＡ×Ｂ×Ｃをすべての「前の単語分割点」について総和を取ったもの（これをＤとする）を算出し、また、すべての「前の単語分割点」についての前向き確率の総和（これをＥとする）と、前の単語分割点から当該単語分割点までの間の単語にルールを適用して重み値を乗じたものの全ての関数についての総和（これをＦとする）とを乗じて得られるＥ×Ｆ（これをＧとする）を算出し、そして、Ｄ／Ｇで与えられる値が当該単語分割点における正解単語数の期待値である。そして、文頭から文末に向かって計算した結果得られる文末での正解単語数の期待値が、その文の正解単語数の期待値である。なお、このスコアの算出方法は、実施形態において式（７）を用いて説明している。

［２］また、本発明の一態様は、上記の言語処理装置において、単語分割と前記単語分割に対応する品詞および読み仮名との正解が既知である正解付きテキストデータを読み込み、正解である単語分割と品詞と読み仮名とについての前記スコアが、他の正解候補の単語分割と品詞と読み仮名とについての前記スコアよりも良いスコアとなるように、前記重み値を算出する学習処理を行ない、この学習処理の結果得られた前記重み値を、前記単語分割モデル記憶部に書き込む重み学習処理部をさらに具備することを特徴とする。
この構成により、単語分割処理部が使用するための最適な重み値が得られる。
なお、正解が既知である正解付きテキストデータを基に、正解である単語分割についてのスコアが、他の正解候補の単語分割についてのスコアよりも良いスコアとなるように、重み値を算出する処理は、多変数の非線形目的関数を制約なしで最適化する問題に還元され、例えば、目的関数の勾配を利用する準ニュートン法を用いて、最適な重み値のセットを求めることが可能である。

［３］また、本発明の一態様は、上記の言語処理装置において、前記単語分割処理部は、選択された前記正解候補の単語分割および読み仮名を出力することを特徴とする。
この構成により、出力として、単語分割だけでなく、読み仮名をも得られる。

［４］また、本発明の一態様は、単語分割と品詞と読み仮名とを含んだ正解候補の、単語列に基づく関数と、品詞列に基づく関数と、読み仮名に基づく関数と、前記関数ごとの重み値を記憶する単語分割モデル記憶部を具備するコンピュータに、テキストデータを読み込み、読み込んだ前記テキストデータを基に単語分割と前記単語分割に対応する品詞列および読み仮名とからなる正解候補を展開し、前記正解候補ごとに、前記単語分割モデル記憶部から読み出した単語列に基づく前記関数と品詞列に基づく前記関数と読み仮名に基づく前記関数とを適用して、前記関数のそれぞれに対応する前記値を算出するとともに前記関数ごとの前記重み値による重み付けを用いて前記単語分割と前記品詞と前記読み仮名とについてのスコアを算出し、算出した前記スコアが最良の前記正解候補を選択し、選択された前記正解候補の単語分割を出力する単語分割処理過程の処理を実行させるプログラムである。

本発明によれば、高い精度で単語の分割と読み仮名の付与とを行なうことができるようになる。

また、本発明の言語処理装置を用いることにより、与えられた日本語漢字仮名まじり文を、単語を単位として高い精度で分割し、かつ適切な読み仮名を付与することができるようになる。このように高い精度で分割された単語と該当する読み仮名を用いて音声認識装置に必要な統計的な言語モデルを構築することができる。その結果、そのような統計的言語モデルを用いて音声認識処理を行なうことにより、認識率の向上をはかることができる。

また、与えられた漢字仮名混じり文に対して、読み仮名を付与できるため、単語の表記のみだけでなく、読み仮名などの情報を用いて日本語文の検索を行うことができるため、情報検索の目的にも有用である。

以下、図面を参照しながら、本発明の実施形態について説明する。
図１は、本実施形態による言語処理装置全体の機能構成を示すブロック図である。図示するように、言語処理装置１は、正解付き日本語テキストデータ記憶部１０と、重み学習処理部２０と、単語分割モデル記憶部３０と、日本語テキストデータ記憶部４０と、単語分割処理部５０と、分割テキストデータ記憶部６０と、統計的言語モデル作成処理部７０と、音声認識処理部８０と、認識結果記憶部９０と、統計的言語モデル記憶部１００と、入力音声データ記憶部１１０と、統計的音響モデル記憶部１２０とを含んで構成される。

正解付き日本語テキストデータ記憶部１０は、日本語テキストデータ（漢字仮名混じり文）、およびその日本語テキストデータに関する単語分割の正解のデータと読み仮名の正解のデータとを記憶する。
重み学習処理部２０は、正解付き日本語テキストデータ記憶部１０から、単語分割の正解が既知である正解付きテキストデータを読み込み、正解である単語分割についてのスコアが、他の正解候補の単語分割についてのスコアよりも良いスコアとなるように、スコアを算出する際のルールについての重み値を算出する学習処理を行ない、この学習処理の結果得られた重み値を、単語分割モデル記憶部３０に書き込む。なお、スコアは、単語分割だけではなく、単語分割と読み仮名についてのスコアを用いることもできる。
単語分割モデル記憶部３０は、単語分割に関する複数のルール（関数）、および各々のルールに関する重み値を、単語分割モデルとして記憶する。なお、ルールとしては、単語分割だけではなく、読み仮名についてのルールを記憶することもできる。
日本語テキストデータ記憶部４０は、単語分割および読み仮名付与の対象となるプレインなテキストデータを記憶する。
単語分割処理部５０は、日本語テキストデータ記憶部４０からテキストデータを読み込み、読み込んだテキストデータを基に単語分割の正解候補を展開し、各々の正解候補に対して単語分割の正解単語数の期待値のスコアを算出し、算出したスコアが最良の正解候補を選択し、選択された正解候補の単語分割を出力する。なお、単語分割処理部５０は、正解候補ごとに、単語分割モデル記憶部３０から読み出したルールを適用するとともにルールごとの重み値による重み付けを用いて、前記のスコアを算出する。また、単語分割処理部５０が、単語分割だけでなく、単語分割と読み仮名の両方の正解単語数の期待値のスコアを算出し、このスコアによって正解候補を選択し、選択された正解候補の単語分割および読み仮名を出力することもできる。単語分割処理部５０は、得られた単語分割および読み仮名を分割テキストデータ記憶部６０に書き込む。
分割テキストデータ記憶部６０は、単語分割処理部５０によって単語分割および読み仮名付与されたテキストデータを記憶する。
統計的言語モデル作成処理部７０は、分割テキストデータ記憶部６０から読み出したデータにより、統計的言語モデルを作成し、統計的言語モデル記憶部１００に書き込む処理を行なう。
音声認識処理部８０は、統計的言語モデル記憶部１００から読み出した統計的言語モデルと、統計的音響モデル記憶部１２０から読み出した統計的音響モデルとに基づき、入力音声データ記憶部１１０から読み出した音声の認識処理を行い、その結果を認識結果記憶部９０に書き込む。
上記の各処理部は、電子回路等によって実現される。また、上記の各記憶部は、ハードディスク装置や半導体メモリなどを用いて実現される。

上記の言語処理装置１の処理の流れの概略は次の通りである。
単語分割と、分割された各単語の読み仮名に関する正解データが付随する日本語テキストデータが、正解付き日本語テキストデータ記憶部１０に記憶されている。この正解付き日本語テキストデータは、予め、与えられるものである。単語分割モデル記憶部３０には、単語分割モデルが記憶されている。単語分割モデルには、単語分割のためのルールと、各ルールに対応する重み値（ｉ番目のルールに対しては重み値λ_ｉが含まれる）。重み学習の処理の前には、重み値の初期値が単語分割モデル記憶部３０に記憶されている。重み学習処理部２０は、正解付き日本語テキストデータ記憶部１０からテキストデータを読み出し、単語分割モデルを用いて、読み出したテキストデータの正解候補の展開を行ない、これら正解候補と予め与えられて既知となっている正解（真の正解）とから目的関数値および導関数値を計算する。その計算結果に基づき、単語分割モデル記憶部３０上の重み値を更新する。重み学習処理部２０がこの処理を適宜繰り返し行ない、収束した段階で処理を終了する。つまり、この学習処理の結果として、学習済みの重み値を含んだ単語分割モデルが、単語分割モデル記憶部３０上に書き込まれた状態となる。この学習処理は、次の単語分割処理の前に予め行なっておく。

与えられた日本語テキストデータが、日本語テキストデータ記憶部４０に記憶されている。この日本語テキストデータは、分かち書きされていない。単語分割処理部５０は、日本語テキストデータ記憶部４０からテキストデータを読み出し、そのテキストに含まれる単語の分割を行なうとともに読み仮名を付与し、その結果得られる分割テキストデータを分割テキストデータ記憶部６０に書き込む。そして、統計的言語モデル作成処理部７０が、得られた分割テキストデータを分割テキストデータ記憶部６０から読み出し、これに基づいて統計的言語モデルを作成し、統計的言語モデル記憶部１００に書き込む。統計的言語モデルには、Ｎグラム言語モデルと単語辞書とが含まれる。

そして、音声認識処理部８０は、統計的言語モデル記憶部１００から読み出した統計的言語モデルと統計的音響モデル記憶部１２０から読み出した統計的音響モデルとを用いて、入力音声データ記憶部１１０に格納されている音声の認識処理を行い、認識結果として得られる単語列を認識結果記憶部９０に書き込む。

次に、言語処理装置１が用いるデータの構成について説明する。
図２は、正解付き日本語テキストデータ記憶部１０に記憶されているデータの構成およびデータ例を示す概略図である。図示するように、本実施形態では、正解付き日本語テキストデータを、表形式のデータベースに格納している。
図２（ａ）に示すデータは、文番号とテキストの項目を有する表形式のデータである。文番号の項目は、日本語テキストデータの文ごとに付与されたシリアル番号である。テキストの項目は、その文番号に対応する文のテキストを格納するためのものである。なお、ここでは、文とは、句点または改行記号で区切られたテキストの単位である。
図２（ｂ）に示すデータは、文番号と単語番号と単語と読み仮名と品詞の項目を有する表形式のデータである。このデータは、図２（ａ）に示した日本語テキストについての、単語分割および読み仮名の正解の情報を保持する。文番号の項目は、上と同様である。単語番号の項目は、単一の文を単語分割した後の単語列における当該文内での単語のシリアル番号である。単語番号は、文頭から順に、１，２，３，・・・と付与される。単語の項目は、当該単語番号に対応する単語である。この項目に格納されるデータは、元のテキストの漢字仮名混じり文を分割した状態のそのままの単語の表記の通りである。読み仮名の項目は、当該単語の読み仮名の正解を表わすデータである。品詞の項目は、単語分割の結果において同定される当該単語の品詞を表わすデータである。例えば、この図に示すある一行のデータについては、文番号が「１０８」で、単語番号が「１２」で、単語が「十」で、読み仮名が「じゅう」で、品詞が「数詞」である。

なお、図２（ａ）の表を省略して図２（ｂ）の表のみを記憶部に保持するようにしても情報量としては同じである。ある文番号について、図２（ｂ）に格納されている単語を先頭から単語番号順に順次連結させれば、図２（ａ）のテキストと同じ情報が得られるからである。

なお、分割テキストデータ記憶部６０に記憶される分割テキストデータも、図２に示したデータと同じ構造を有している。

次に、図３は、単語分割モデル３０に記憶される単語分割モデルのデータ構成およびデータ例を示す概略図である。図示するように、単語分割モデルは、表形式のデータとして格納されており、ルール番号と、ルールと、重み値（λ_ｉ）の各項目を有する。ルール番号の項目は、この単語分割モデルに格納されるルールのシリアル番号である。ルールの項目は、ルール番号に対応するルールを格納するためのものである。この図では便宜的に日本語で表現しているが、実際には、与えられたテキスト（正解候補）に基づいて値を算出するための関数を、ルールとして格納する。単語分割モデルに格納するルールとは、より具体的には、その関数の値を計算するための手順を含む実行可能なプログラムコードや、その関数の値を計算するための数式等を表わした疑似コードや、外部の関数モジュールを参照するための関数参照情報（名前による参照を行なうための関数名や、関数モジュールが存在するアドレスを表わすポインタ情報）などである。重み値（λ_ｉ）の項目は、対応するルールのための重みである。重み値の項目は、後述するように、重み学習処理の中で更新される。例えば、この図に示すある一行のデータについては、ルール番号が「１」で、ルールが「テキスト（正解候補）に含まれる単語列の個数」というルールを表わし、重み値としては学習処理の前の初期値である「０」が格納されている。

単語分割モデルのデータの使い方については後で詳しく述べるが、ルールは、ある与えられた単語列Ｗに対して所定の値を返す関数である。また、重み値は、その関数値を重み付けるための値である。
例えば、「十時十分に」という日本語テキストデータＷが与えられるとき、
ルール１：Ｗに含まれる『十／時／十』という単語列の個数
ルール２：Ｗに含まれる『数詞（十）／接尾辞（時）／数詞（十）』という品詞列の個数
ルール３：Ｗに含まれる『十/時/十（じゅっ）』という単語列の個数
ルール４：Ｗに含まれる『十/時/十/分/に』という単語列（文節）が『来る』に係れば１を返し、係らなければ０を返す
などといったルールが、単語分割モデルの一部として格納されている。ルールが返す値は、単語列に基づくもの（例えば上記のルール１）や、品詞列に基づくもの（例えば上記のルール２）や、読み仮名に基づくもの（例えば上記のルール３）や、係り受け構造に基づくもの（例えば上記のルール４）などがある。
なお、上記のルール４を適用する際には、既存技術を用いた自然言語の係り受け解析器による解析結果のデータを利用する。

次に、図４は、統計的言語モデル記憶部１００が記憶する統計的言語モデルのデータ構成およびデータ例を示す概略図である。
図４（ａ）は、統計的単語モデルのうちの単語辞書のデータである。図示するように、このデータは表形式で格納されており、単語と、読み仮名と、品詞の各項目を有している。このデータの各行が、単語辞書の各エントリーに相当する。図示するデータ例の一つは、単語が「十」で、読み仮名が「じゅう」で、品詞が「数詞」というエントリーである。
また、図４（ｂ）は、統計的単語モデルのうちのＮグラム言語モデルのデータである。具体的には、ここで図示しているのはトライグラム（trigram）のデータである。図示するように、トライグラムのデータは表形式で格納されており、単語１と、単語２と、単語３と、生成確率の各項目を有している。このデータのある行において、単語１の項目の単語と単語２の項目の単語と単語３の項目の単語が、この順で出現するトライグラムを表わしている。そして、そのトライグラムに対応する生成確率の項目の数値は、単語１と単語２の列を前提としたときに単語３が生成される条件付確率の値である。図示するデータ例の一つは、単語１〜３によるトライグラムが「十」−「時」−「十」であり、対応する生成確率が「０．０１４５」である。

＜１．単語分割処理＞
次に、言語処理装置１による単語分割処理の詳細について説明する。先に述べた従来技術の方法では、Ｎグラムの確率の積をスコアとしたために、適切な正解候補を選択できない場合があった。本実施形態の言語処理装置１は、正解単語数の多い（つまり、誤りの少ない）正解候補を選択するような方法の処理を行なう。

図５は、言語処理装置１による単語分割処理において、正解候補の選択のしかたの概略を示す概略図である。この図は、それらの単語分割および読み仮名付与のしかたの可能性をすべて列挙し、グラフとして表わしている。このグラフにおいてノードは分割された単語候補であり、各ノードは、漢字仮名混じり文に対応する表記と、読み仮名と、品詞との情報を備えている。但し、特殊なノードとして、文頭ノードと文末ノードが存在し、これらは単語には対応していない。また、ノード間を直接結ぶアークが、それら両ノードの単語からなるバイグラムに対応する。また、文頭ノード以外のノードには条件付き確率の数値が付与されている（但し、本図では、一部のノードにおいて省略）。この条件付確率は、アークで結ばれた直前（直左）のノードの単語の次に当該ノードの単語が生成される（出現する）確率である。

この図では、「十時十分に来る」という入力があったときの正解候補が示されており、その中には正解候補１と正解候補２を含んでいる。正解候補１は文頭−「十，じゅう」−「時，じ」−「十，じゅっ」−「分，ぷん」−「に，に」−「来る，くる」−文末のパスであり、正解候補２は文頭−「十，じゅう」−「時，じ」−「十分，じゅうぶん」−「に，に」−「来る，くる」−文末のパスである。真の正解である正解候補１が選ばれるためには、この候補のスコアが他の全てのスコアよりも高くなる必要がある。そのためには、正解候補１のパス上にある正解単語「十，じゅっ」と「分，ぷん」に関するバイグラムのスコアが高くなる一方で、正解候補２のパス上にある誤り単語「十分に，じゅうぶんに」に関するバイグラムのスコアが低くなるような、処理を行なえば良い。

図示しているグラフでは、バイグラム｛「時，じ」−「十，じゅっ」｝の生成確率Ｐ（十｜時）を０．５から０．８に上げ、バイグラム｛「十，じゅっ」−「分，ぷん」｝の生成確率Ｐ（分｜十）を０．５から０．８に上げる一方で、バイグラム｛「時，じ」−「十分に，じゅうぶんに」｝の生成確率Ｐ（十分に｜時）を０．３から０．２に下げている。そして、このようなスコアの増減を行なった場合に、正解候補１と２それぞれの生成確率Ｓ_１およびＳ_２は、それぞれ、次の式（３）および式（４）で計算される。

上記の計算結果により、Ｓ_１＞Ｓ_２であるため、正解候補２ではなく正解候補１が選択されることとなる。

上記のように、単なるＮグラムの確率の積ではなく、単語分割や読み仮名に対する正しさ（正解／不正解）に応じてスコアを定めることにより、任意の漢字仮名まじり文について、誤りのない単語分割や読み仮名が得られる。但し、上の例では正解の単語分割と読み仮名が既知であるという前提で得点の増減を行った。正解のわからない未知文に対して正しい単語分割や読み仮名を得るために、本実施形態による装置では、予め正しい単語分割と読み仮名の与えられた複数の漢字仮名まじり文を用いてスコアを求めておき、その結果得られるルールごとの重み値を用いて、単語分割と読み仮名付与の処理を行なう。

次に、単語分割処理および読み仮名付与処理の具体的な手順について説明する。
図６は、単語分割処理部５０による単語分割処理および読み仮名付与処理の手順を示すフローチャートである。

まずステップＳ２００において、単語分割処理部５０は、日本語テキストデータ記憶部４０から、処理対象の日本語テキストデータの一文を読み込む。日本語テキストデータは、単語分割されていないプレインなテキストであり、漢字仮名混じり文のテキストである。ここで読み込む一文とは、テキスト中において句点または改行記号で区切られる単位である。

次に、ステップＳ２１０において、単語分割処理部５０は、単語分割モデル記憶部３０から読み出した単語分割モデルを用いて、図５に示したような正解候補の単語のネットワークの形に、上で読み込んだ入力テキストを展開する。展開された結果は、例えば、一時的に半導体メモリに書き込まれ、後の処理で必要に応じて参照される。この正解候補の展開処理自体は既存技術によるものであり、単語分割モデルを基に探索を行い、可能性のある全てのパスを洗い出すことにより行なうことができる。

次に、ステップＳ２２０において、単語分割処理部５０は、上で展開された全ての正解候補に対して、各々のスコアを計算する。単語分割処理の対象として与えられた入力文に対する正解候補の１つである単語列をＷとするとき、その正解候補に対するスコアｇ（Ｗ）は、次の式（５）によって算出される。

単語列Ｗが真の正解単語列に近いほど、式（５）によって算出されるスコアｇ（Ｗ）の値は大きくなる。式（５）において、ｆ_ｉ（Ｗ）はｉ番目のルールに対応し、当該ルールが成立するときに、そのルールによって定義された数値を返す関数である（ｉ＝１，２，・・・・・・）。これらの関数ｆ_ｉ（Ｗ）を、以後、素性関数と呼ぶ。また、λ_ｉは素性関数ｆ_ｉに対する重みであり、素性関数ｆ_ｉに重みλ_ｉを乗じた値の、全ての素性関数に関する総和により、スコアを算出する。なお、重みλ_ｉの値は、単語分割モデルの一部として単語分割モデル記憶部３０に記憶されており、単語分割処理部５０はそれらの重み値を読み出してスコアの計算に使用する。
また、重み値λ_ｉは、重み学習処理部２０によって事前に求められているものであるが、この求め方については後述する。

次に、ステップＳ２３０において、単語分割処理部５０は、ステップＳ２１０で展開された全ての正解候補の中から、ステップＳ２２０で算出されたスコアの最も大きい正解候補を選択する。

次に、ステップＳ２４０において、単語分割処理部５０は、ステップＳ２３０で選択された最大スコアの正解候補と、その単語列に含まれる単語それぞれの読み仮名とを、分割テキストデータとして、分割テキストデータ記憶部６０に書き込む。また、単語分割処理部５０はこのとき、分割された単語の品詞情報も、分割テキストデータ記憶部６０に書き込む。さらに、単語分割処理部５０が、上で算出されたスコアの情報を併せて分割テキストデータ記憶部６０に書き込むようにしても良い。

そして、ステップＳ２５０において、単語分割処理部５０は、日本語テキストデータ記憶部４０内の処理対象の日本語テキストの全文を処理し終えたかどうかを判断する。すべての文についての単語分割処理を終了した場合（ステップＳ２５０：ＹＥＳ）には、このフローチャート全体の処理を終了する。未処理の文がまだ残っている場合（ステップＳ２５０：ＮＯ）には、ステップＳ２００に戻って、次の文の処理を行なう。つまり、全ての文の処理を終えるまで、各文についてステップＳ２００からＳ２４０までの処理を繰り返し行なう。

＜２．重み学習処理＞
次に、素性関数の重み（λ_ｉ）の定め方について説明する。単語分割モデル記憶部３０に記憶されている単語分割モデルにおける素性関数の重みは、単語分割の誤りや読み仮名付与の誤りの量が最小になるように定める。そのために、言語処理装置１では、正解付き日本語テキストデータ記憶部１０に記憶された正解付きの日本語テキストデータを用いて、重み学習処理部２０の処理により、重み値を求める。以下では、まず本実施形態における重み学習法の概略について述べ、その後で重み学習処理部２０による処理の手順を説明する。

正解付き日本語テキストデータは、複数の漢字仮名混じり文を含み、また各文の単語分割および分割された各単語の読み仮名の正解データを含んでいる。つまり、この処理において与えられるテキストの正解は既知である。ここで、Ｍ個の正解付き日本語テキストデータが与えられたときに、単語分割の誤りと読み仮名付与の誤りの量を最小にするような素性関数の重みを求めるために、式（６）によって定義される目的関数Ｌを定める。この目的関数Ｌは、単語正解精度の期待値に基づくものである。

式（６）において、Ｗ_ｍ，ｋは、正解付き日本語データに含まれるｍ番目のテキストデータ（文）Ｌ_ｍのｋ番目の正解候補である。また、Ａｃｃ（Ｗ_ｍ，ｋ）は、正解候補Ｗ_ｍ，ｋの単語分割に含まれる単語の正解数（正解単語数）を表す関数である。

正解候補の数が多いときには、正解候補Ｗ_ｍ，ｋに対するＡｃｃ（Ｗ_ｍ，ｋ）を直接求めることが困難である。そこで、ここでは、正解候補の単語列についての単語分割点での正解単語数の期待値を用いる。単語分割点とは、図５に示したグラフおけるノードとノードの間の点（つまりアークに対応する点）である。ｔ番目の単語分割点における正解単語数の期待値として、式（７）に示す関数ξ（ｔ）を定める。

但し、

図７は、単語分割点における単語正解数の期待値の計算例を示す概略図である。この図において角括弧付きで表わしている数字は、単語分割点である。また、各ノードの単語の下に示す数値は、その単語のスコアである。単語ｗのスコアは、

によって算出され、例えば、図における文頭の直後の「十，じゅう，数詞」のスコアは１．０であり、その次の「時，じ，接尾辞」のスコアは１．０であり、その次の「十，じゅっ，数詞」のスコアは０．５であり、以下同様である。今、正解は既知であるため、その正解のパスである、文頭−「十，じゅう」−［時，じ］−「十，じゅっ」−「分，ぷん」−「に，に」−文末の上の各ノード（図においてハッチングのないノード）での正解数は１である。正解のパス上にない、単語分割点［３］の後の「十，じゅう」や、単語分割点［６］の後の「分，ふん」や、単語分割点［４］の後の「十分に，じゅうぶんに」の各ノード（図においてハッチング付きのノード）での正解数は０である。但し、文頭ノードおよび文末ノードは、正解数０として計算する。

この図に示している単語分割点［１］から［９］までにおける正解数の期待値を、式（７）を用いて計算すると次の通りである。
即ち、単語分割点［１］について、ξ（１）は、式（８）の通り算出される。

つまり、式（８）の分子については、前の単語分割点（文頭と「十，じゅう」の間の点）までの正解単語数期待値は０であり、前の単語分割点と当該単語分割点（［１］）とを結ぶ単語「十，じゅう」の正解数は１であり、前の単語分割点における前向き確率は１であり、前の単語分割点と当該単語分割点（［１］）とを結ぶ単語「十，じゅう」のスコアの総和は１．０である。また、式（８）の分母については、前の単語分割点は１つだけであるのでそこにおける前向き確率の総和は１．０であり、前の単語分割点と当該単語分割点（［１］）とを結ぶ単語「十，じゅう」のスコアの総和は１．０である。

単語分割点［２］と［３］と［４］について、ξ（２），ξ（３），ξ（４）は、前の単語分割点［１］におけるξ（１）も用いて、式（９）の通り算出される。

単語分割点［５］について、ξ（５）は、前の単語分割点［２］におけるξ（２）も用いて、式（１０）の通り算出される。

単語分割点［６］について、ξ（６）は、前の単語分割点［３］におけるξ（３）も用いて、式（１１）の通り算出される。

単語分割点［７］について、ξ（７）は、前の単語分割点［５］と［６］における、それぞれξ（５）とξ（６）も用いて、式（１２）の通り算出される。

単語分割点［８］について、ξ（８）は、前の単語分割点［７］と［４］における、それぞれξ（７）とξ（４）も用いて、式（１３）の通り算出される。

単語分割点［９］について、ξ（９）は、前の単語分割点［８］における、ξ（８）も用いて、式（１４）の通り算出される。

つまり、図示する例において、テキストデータから期待される正解単語の数は４．０個（＝ξ（９））となる。

このように、期待値として算出される正解候補Ｗ_ｍ，ｋの正解単語数を用いて、式（６）に示した目的関数Ｌを算出することができる。そして、素性関数に対する最適な重みは、上の目的関数Ｌを最大化（Ｌの最大化は、期待される正解数の最大化と等価）するような値を待つものである。上の目的関数Ｌを最大化する重みを求めるためには、例えば準ニュートン法（quasi-Newton method）などを用いる。準ニュートン法については、次の文献に記載されている。
文献：W.H. Press，外，「Numerical Recipes in C ニューメリカルレシピ・イン・シー日本語版Ｃ言語による数値計算のレシピ」，技術評論社，ｐｐ．３１３−３１４，１９９３年．

図８は、重み学習処理の手順を示すフローチャートである。以下では、このフローチャートに沿って、重み学習処理部２０による処理の手順について説明する。

まずステップＳ３００において、重み学習処理部２０は、正解付き日本語テキストデータ記憶部１０から、処理対象の日本語テキストデータの一文を読み込む。ここで読み込む一文とは、テキスト中において句点または改行記号で区切られる単位である。このテキストデータには正解のデータが付随している。つまり、重み学習処理部２０は、読み込んだ一文の正しい単語分割と各単語の読み仮名の情報をも同時に読み込む。

単語分割モデル記憶部３０に格納されている単語分割モデルには、前述したように、単語分割ルールおよびルールに応じた重み値を含んでいる。但し、重み学習処理の前には重み値が定められていないので、すべてのルールの重み値の初期値をゼロとしておく。
ステップＳ３１０において、重み学習処理部２０は、単語分割モデル記憶部３０から読み出した単語分割モデルを参照しながら、上で入力された文について、可能な単語分割および読み仮名による正解候補をグラフとして展開する処理を行なう。但し、対象となる文には正解が与えられているため、展開したグラフの中における正解の単語分割の経路は既知である。

次に、ステップＳ３２０において、重み学習処理部２０は、上で展開した正解候補について、次の式（１５）によって目的関数ｌの値を計算する。

なお、Ａｃｃ（Ｗ_ｋ）は、正解候補Ｗ_ｋにおける正解数である。
次に、ステップＳ３３０において、重み学習処理部２０は、導関数の計算を行なう。ここでの導関数計算では、式（１５）に基づいて、下の差分方程式(１６)により導関数の値を計算する。

ここで、λ_jは正解候補のネットワークに含まれる素性の一つである。また、Δλ_jは事前に決めた小さな正値である。上の式（１６）によれば、ｌをλ_jの関数として、λ_jの導関数を計算できる。

そして、ステップＳ３４０において、重み学習処理部２０は、正解付き日本語テキストデータ記憶部１０内の処理対象の日本語テキストの全文を処理し終えたかどうかを判断する。すべての文についての処理を終了した場合（ステップＳ３４０：ＹＥＳ）には、次のステップＳ３５０へ進む。未処理の文がまだ残っている場合（ステップＳ３４０：ＮＯ）には、ステップＳ３００に戻って、次の文の処理を行なう。つまり、全ての文の処理を終えるまで、各文についてステップＳ３００からＳ３３０までの処理を繰り返し行なう。

ステップＳ３５０において、重み学習処理部２０は、各文について目的関数値、および各素性に対する導関数値を利用して準ニュートン法等の方法により、新たな重み値λ_ｉ（ｉ＝１，２，３，・・・）を得る。そして、重み学習処理部２０は、得られた新たな重み値を用いて単語分割モデル記憶部３０に格納されている単語分割モデルを更新する。

そして、ステップＳ３６０において、重み学習処理部２０は、収束条件を満たしているか否かを判断する。収束条件を満たしているか否かは、例えば、式（６）に示した目的関数の値の前回からの変化が予め定めた所定の閾値以下であるかどうかにより判断する。あるいは、例えば、重みの更新回数が、予め定めた所定の繰り返し回数に達したかどうかにより判断する。収束条件を満たす場合（ステップＳ３６０：ＹＥＳ）には、本フローチャート全体の処理を終了する。収束条件を満たさない場合（ステップＳ３６０：ＮＯ）には、ステップＳ３７０において正解付き日本語テキストデータの読み込み位置を初期化した（最初の文から読むように制御する）上で、次回の重みの計算を行なうために、ステップＳ３００の処理に戻る。

なお、準ニュートン法を用いる場合、重み学習処理部２０は、上述したステップＳ３００からＳ３７０までの処理を反復ことによって重み値λ_ｊの値を更新しながら、式（１５）で示した目的関数の勾配の変化（式（１６）で算出した導関数値の変化）に基づいて、目的関数を最適化していく。

＜３．統計的言語モデル作成処理＞
次に、単語分割処理部５０による処理の結果を利用して統計的言語モデルを作成する処理について説明する。統計的言語モデル作成処理部７０は、単語分割処理部５０によって単語分割されるとともに読み仮名が付与された分割テキストデータを用いて統計的言語モデルを作成し、これを統計的言語モデル記憶部１００に書き込む。統計的言語モデル作成処理部７０が作成する統計的言語モデルには、Ｎグラム言語モデルと単語辞書とが含まれる。

図９は、統計的言語モデル作成処理部７０による処理の手順を示すフローチャートである。以下、このフローチャートに沿って説明する。

まずステップＳ４００において、統計的言語モデル作成処理部７０は、入力処理を行なう。具体的には、統計的言語モデル作成処理部７０はここで、分割テキストデータ記憶部６０から分割テキストデータを読み出し、単語と読み仮名の組のリストを作成する。また、統計的言語モデル作成処理部７０は、読み出した分割テキストデータを基に、単語列を作成する。

そしてステップＳ４１０において、統計的言語モデル作成処理部７０は、ステップＳ４００で作成した単語と読み仮名の組のリストを基にして、各組の中の読み仮名を音声認識処理用の内部表現に置き換えて単語辞書を生成する。内部表現とは例えば音素列による表現である。そのようにして単語と音素列との組が大量に得られるが、これらの組の集合が単語辞書である。

そしてステップＳ４２０において、統計的言語モデル作成処理部７０は、ステップＳ４００で得られた単語列を基に、Ｎグラム言語モデルを作成する。Ｎグラムとしては、例えば、バイグラムあるいはトライグラムなどを作成する。
例えばバイグラムを作成する場合、統計的言語モデル作成処理部７０は、得られたすべての単語列を統計的に処理することにより、１番目の単語および２番目の単語の組と、１番目の単語を前提としたときに２番目の単語が出現する条件付き確率の値を算出し、これらをセットにしたデータを作成する。
例えばトライグラムを作成する場合、統計的言語モデル作成処理部７０は、同様の統計的処理をすることにより、１番目、２番目、そして３番目の単語の組と、１番目および２番目の単語列を前提としたときに３番目の単語が出現する条件付き確率の値を算出し、これらをセットにしたデータを作成する。

そしてステップＳ４３０において、統計的言語モデル作成処理部７０は、上で作成した単語辞書およびＮグラム言語モデルを所定の書式に変換し、統計的言語モデル記憶部１００に書き込む。

このように作成された統計的言語モデルと、予め用意された統計的音響モデルとを用いて、音声認識処理部８０が、入力音声データ記憶部１１０から読み出した音声の認識処理を行い、その結果を認識結果記憶部９０に書き込む。

なお、上述した実施形態における言語装置の一部または全部の機能をコンピュータで実現するようにしても良い。その場合、上述した各処理の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

例えば、上記実施形態では、単語分割処理部５０が、単語分割と読み仮名付与の両方を行なうようにしたが、単語分割処理のみを行なうようにしても良い。
また、上記実施形態では、言語処理装置１が、重み学習処理部２０と、単語分割処理部５０と、統計的言語モデル作成処理部７０と、音声認識処理部８０の全てを具備する構成としたが、言語処理装置が各処理部のうちの一部のみを備えるようにしても良い。また、各処理部の機能を複数の装置に分散させる場合には、それらの装置間の通信によって必要なデータの受け渡しを行なえるようにすることもできる。
また、上記実施形態では、各記憶部のデータが２次元の表形式のデータで表現されるように構成したが、表形式のデータに限らず、例えば、オブジェクト指向データベースやＸＭＬデータベースなどを用いて等価なデータを保持するようにしても良い。

また、上記実施形態では、日本語のテキストを処理の対象としたが、日本語に限らず、他の言語によるテキストを処理対象とすることもできる。例えば、中国語など、一般に分かち書きせずに表記されるテキストについて単語分割する場合には、本発明が特に有効である。

本発明は、自然言語の形態素解析処理に広く利用可能である。また、本発明による形態素解析処理を用いて、実際のテキストデータを基に、単語辞書あるいは統計的言語モデルの自動生成が可能であり、このように作成された単語辞書データや統計的言語モデルデータは、音声認識処理等で利用可能である。また、漢字仮名混じり文に対して、適切な読み仮名を与えられるため、読み仮名による情報検索にも応用することができる。

本発明の実施形態による言語処理装置の機能構成を示すブロック図である。同実施形態による正解付き日本語テキストデータ（符号１０）および分割テキストデータ（符号６０）の構成およびデータ例を示す概略図である。同実施形態による単語分割モデル（符号３０）のデータの構成およびデータ例を示した概略図である。同実施形態による統計的言語モデル（符号１００）のデータの構成およびデータ例を示す概略図である。同実施形態による単語分割処理において正解候補の選択のしかたの概略を示す概略図であり、正解候補のグラフ（ネットワーク）の形で表わしている。同実施形態による単語分割処理および読み仮名付与処理の手順を示すフローチャートである。同実施形態による単語分割処理の中での、単語分割点における単語正解数の期待値を計算する例を示す概略図である。同実施形態による重み学習処理の手順を示すフローチャートである。同実施形態による統計的言語モデル作成処理の手順を示すフローチャートである。従来技術の方法による単語分割処理の例を示す概略図である。

符号の説明

１言語処理装置
１０正解付き日本語テキストデータ記憶部
２０重み学習処理部
３０単語分割モデル記憶部
４０日本語テキストデータ記憶部
５０単語分割処理部
６０分割テキストデータ記憶部
７０統計的言語モデル作成処理部
８０音声認識処理部
９０認識結果記憶部
１００統計的言語モデル記憶部
１１０入力音声データ記憶部
１２０統計的音響モデル記憶部

Claims

単語分割と品詞と読み仮名とを含んだ正解候補の、単語列に基づく関数と、品詞列に基づく関数と、読み仮名に基づく関数と、前記関数ごとの重み値を記憶する単語分割モデル記憶部と、
テキストデータを読み込み、読み込んだ前記テキストデータを基に単語分割と前記単語分割に対応する品詞列および読み仮名とからなる正解候補を展開し、前記正解候補ごとに、前記単語分割モデル記憶部から読み出した単語列に基づく前記関数と品詞列に基づく前記関数と読み仮名に基づく前記関数とを適用して、前記関数のそれぞれに対応する前記値を算出するとともに前記関数ごとの前記重み値による重み付けを用いて前記単語分割と前記品詞と前記読み仮名とについてのスコアを算出し、算出した前記スコアが最良の前記正解候補を選択し、選択された前記正解候補の単語分割を出力する単語分割処理部と、
を具備することを特徴とする言語処理装置。
請求項１に記載の言語処理装置において、
単語分割と前記単語分割に対応する品詞および読み仮名との正解が既知である正解付きテキストデータを読み込み、正解である単語分割と品詞と読み仮名とについての前記スコアが、他の正解候補の単語分割と品詞と読み仮名とについての前記スコアよりも良いスコアとなるように、前記重み値を算出する学習処理を行ない、この学習処理の結果得られた前記重み値を、前記単語分割モデル記憶部に書き込む重み学習処理部、
をさらに具備することを特徴とする言語処理装置。
請求項１又は請求項２に記載の言語処理装置において、
前記単語分割処理部は、選択された前記正解候補の単語分割および読み仮名を出力する、
ことを特徴とする言語処理装置。
単語分割と品詞と読み仮名とを含んだ正解候補の、単語列に基づく関数と、品詞列に基づく関数と、読み仮名に基づく関数と、前記関数ごとの重み値を記憶する単語分割モデル記憶部を具備するコンピュータに、
テキストデータを読み込み、読み込んだ前記テキストデータを基に単語分割と前記単語分割に対応する品詞列および読み仮名とからなる正解候補を展開し、前記正解候補ごとに、前記単語分割モデル記憶部から読み出した単語列に基づく前記関数と品詞列に基づく前記関数と読み仮名に基づく前記関数とを適用して、前記関数のそれぞれに対応する前記値を算出するとともに前記関数ごとの前記重み値による重み付けを用いて前記単語分割と前記品詞と前記読み仮名とについてのスコアを算出し、算出した前記スコアが最良の前記正解候補を選択し、選択された前記正解候補の単語分割を出力する単語分割処理過程、
の処理を実行させるプログラム。