JP6062816B2

JP6062816B2 - 形態素解析器生成装置、形態素解析器生成方法、及び、プログラム

Info

Publication number: JP6062816B2
Application number: JP2013148399A
Authority: JP
Inventors: 慶内海
Original assignee: Denso IT Laboratory Inc
Current assignee: Denso IT Laboratory Inc
Priority date: 2013-07-17
Filing date: 2013-07-17
Publication date: 2017-01-18
Anticipated expiration: 2033-07-17
Also published as: JP2015022398A

Description

本発明は、自然言語処理において用いられる形態素解析器を生成する技術に関し、特に教師なしで形態素解析器を生成する手法に関する。

形態素解析は、計算機を用いた自然言語処理の基礎技術であり、自然言語処理技術を用いた様々な応用タスクの前処理として利用される。形態素解析手法には規則によるものと確率モデルとに基づくものがある。確率モデルに基づく手法はさらに、パラメータの学習にアノテーション済みのコーパスを用いる教師あり学習手法と、テキストのみから分かち書きを行う教師なし学習に基づくものとに分けられる。

規則に基づく手法の代表には、京都大学黒橋研究室が公開するJumanがある。教師あり学習に基づく手法では、HMM(Hidden Markov Model)を用いた形態素解析を行うChaSenや、ＣＲＦ(Conditional Random Fields)を用いた形態素解析を行うMeCabがある。教師なし学習に基づく手法には、最小記述原理に基づいた日本語話し言葉の単語分割手法（松原ら）や、ノンパラメトリックベイズモデルに基づく手法（特許文献１）が提案されている。また、ノンパラメトリックベイズモデルとＣＲＦによる学習とを組み合わせた半教師あり学習手法も提案されている（特許文献２）。

特開２０１０−１７０２５２特開２０１２−１４６２６３

近年増加し続けているウェブテキストでは、これまで自然言語処理が対象としてきた書き言葉以外にも、話し言葉等の表現が頻繁に出現する。教師あり学習の手法では、分かち書きの学習に教師データとしてアノテーション済みのコーパスが必要となる。しかし、人手でのアノテーションはコストが大きく、急速に増加し変化し続ける話し言葉の表現には対応が難しい。一方、教師なし学習ではある評価尺度が最良となるようにパラメータを更新することで教師データなしで分かち書きが行える。しかし、これまでの教師なし学習に基づく形態素解析手法では分かち書きのみに注力しており、品詞推定まで含めて行える手法は提案されていない。

また、これまで提案されてきた手法では、教師なし学習は計算機が決めた分かち書きが人間の直観から外れたとしても修正が効かず、半教師あり学習は最初の学習を全くの教師データなしで行うことはできなかった。そのため、教師データを効率的に作成するためには、教師なし学習により形態素解析器を実装した上で、その処理結果を修正して半教師あり学習手法を行うという作業をすることになり、実装コストが大きくなる。

上記背景に鑑み、本発明は、教師なし学習によって品詞推定まで行うことが可能な形態素解析器生成方法を提供することを目的とする。本発明は、言語モデル（ＮＰＹＬＭ）のみを生成するものではなく、ＣＲＦのパラメータも同時に学習を行うことで、未知の文に対しても適切な形態素解析を行えるようにする形態素解析器を生成するものである。

本発明の形態素解析器生成方法は、学習用のデータとして複数の文の入力を受け付けて、前記複数の文を学習データ記憶部に記憶するステップと、前記学習データ記憶部に記憶された複数の文を用いて、ある部分文字列を条件として後続の部分文字列が出現する確率を示すＮＰＹＬＭ（Nested Pitman-Yor Language Model）を生成し、ＮＰＹＬＭ記憶部に記憶するステップと、前記学習データ記憶部から文を読み出し、各部分文字列の品詞を表す潜在変数と前記ＮＰＹＬＭで計算した部分文字列の出現確率を引数とする素性関数を導入したＣＲＦを用いて、前記文が与えられた時に最も確率の高い分かち書きを推定し、当該文の文末から文頭に向かって単語列をサンプリングするBlocked Gibbsサンプリングを行って当該文の分かち書きを求め、求めた分かち書きを教師データとして前記ＣＲＦのパラメータを更新し、前記更新された分かち書きに基づいて前記ＮＰＹＬＭを更新する処理を、所定の収束条件を満たすまで繰り返し行うステップとを備え、ＣＲＦの分かち書きとパラメータの更新が行われた文を再び読み出したときには、前回求めた分かち書きを構成する部分文字列とその連接情報を、前記ＮＰＹＬＭから削除した後に、再度の学習を行う。

このように文が与えられたときにある分かち書きが得られる確率を表すＣＲＦに対して、各部分文字列の品詞を表す潜在変数を導入することにより、品詞の出現確率をも考慮してＣＲＦの分かち書き及びパラメータを更新することができる。本発明の方法によれば、Blocked Gibbsサンプリングで求めた分かち書きを教師データとしてＣＲＦの分かち書き及びパラメータを更新し、更新された分かち書き及びパラメータによってＮＰＹＬＭを更新する。すなわち、ＮＰＹＬＭとＣＲＦとが互いに学習結果を教え合うことにより、分かち書き及び品詞特定の精度を高めることができる。従来の方法では、ＣＲＦの学習には教師データを用いることが前提であり、教師データがない場合には十分な精度が得られなかったが、品詞を表す潜在変数を導入した本発明の方法によると、教師データがない場合であっても分かち書き及び品詞の特定に関して、十分な精度が得られた。これは、品詞を潜在変数として用いて分かち書きと品詞の推定を同時に行うことにより、品詞の推定が分かち書きに好ましい影響を与えるためではないかと考えられる。なお、１文ずつ分かち書きを行いパラメータを更新するＣＲＦの学習は、「オンライン学習」という手法であり、これにより、ＮＰＹＬＭの協調学習を行いやすくしている。

また、本発明では、前回求めた分かち書きを構成する部分文字列とその連接情報とをＮＰＹＬＭから削除することにより、学習対象の文自体の分かち書きがＮＰＹＬＭに与えた影響を除くことができる。学習対象の文自体の分かち書きの影響がＮＰＹＬＭに残っているといつも同じ分かち書きが得られるという結果になるおそれがあるが、本発明の構成により、適切な分かち書きを求めることができる。

本発明の形態素解析器生成方法において、前記ＣＲＦは、Ｘを入力文字列、Ｓを分かち書きを構成する部分文字列、Ｈを潜在変数の系列として、

で表されてもよい。

本発明の形態素解析器生成方法において、前記ＣＲＦは、さらに、素性関数の引数として、部分文字列または部分文字列の外に含まれる文字情報を用いてもよい。これにより、潜在クラスをうまく分類することが可能となる。

なお、特許請求の範囲に記載したとおり、上述した形態素解析器生成方法を実現する装置及びプログラムも本発明の範囲に含まれる。

本発明によれば、教師データを用いることなく、分かち書き及び品詞の特定を精度よく行うことができる。

実施の形態の形態素解析器生成装置の構成を示す図である。実施の形態の形態素解析器生成装置の動作を示す図である。学習データの例を示す図である。ＮＰＹＬＭの例を示す図である。品詞を表す潜在変数を引数とする素性関数を概念的に示す図である。

以下、本発明の実施の形態に係る形態素解析器生成装置について、図面を参照しながら説明する。

図１は、実施の形態の形態素解析器生成装置１の構成を示す図である。形態素解析器生成装置１は、入力部１０と、演算処理部１１と、出力部１５と、記憶部１６とを有する。入力部１０は、学習データである複数の文の入力を受け付ける機能を有している。演算処理部１１は、学習データに基づいてＮＰＹＬＭおよびＣＲＦを生成する機能を有している。演算処理部１１は、ＮＰＹＬＭ生成部１２と、ＣＲＦ生成部１３と、学習部１４とを有している。これらの各機能の詳細は、形態素解析器生成装置１の動作説明において詳しく述べる。出力部１５は、生成したＮＰＹＬＭおよびＣＲＦを外部に出力する機能を有している。記憶部１６は、学習データを記憶する学習データ記憶部１７と、生成されたＮＰＹＬＭを記憶するＮＰＹＬＭ記憶部１８と、生成されたＣＲＦを記憶するＣＲＦ記憶部１９とを有している。これらのＮＰＹＬＭおよびＣＲＦを用いることにより、未知の文の形態素解析を行うことができる。

図１に示す形態素解析器生成装置１は、ＣＰＵ、ＲＡＭ、ＲＯＭ、ＨＤＤ等を備えたコンピュータにより実現される。ＣＰＵがＲＯＭに記憶されたプログラムを読み出して実行することにより、演算処理部１１の機能が実現される。このような形態素解析器生成装置１を実現するためのプログラムも本発明の範囲に含まれる。

図２は、形態素解析器生成装置１の動作を示すフローチャートである。形態素解析器生成装置１は、まず、言語モデルの生成に用いられる学習データの入力を受け付け、入力された学習データを学習データ記憶部１７に記憶する（Ｓ１０）。ここで入力されるデータは、例えば、新聞記事でもよいし、ウェブ上の個人のブログなどでもよい。

図３は、学習データの例を示す図である。図３では、わずかな例しか示していないが、実際には、何千〜何十万という文を学習データとして用いる。図３に示すとおり、学習データには、正解となる分かち書きや品詞などの情報は与えられていない。このように、本実施の形態では、教師データなしの文を学習データとして用いる。

形態素解析器生成装置１は、ＮＰＹＬＭ生成部１２にて、入力された学習データからＮＰＹＬＭを生成し、ＮＹＰＬＭ記憶部１６に記憶する（Ｓ１１）。ＮＰＹＬＭの生成方法については、例えば、特許文献１、特許文献２や、持橋ら「条件付確率場とベイズ階層言語モデルの統合による半教師あり形態素解析」等に詳しく説明されているので、本書では、概要を説明するにとどめる。

図４は、「今日は晴れ」という文のＮＰＹＬＭを生成する例を示している。図４において「ＢＯＳ」はBeginning Of Sentenceを表し、「ＥＯＳ」はEnd Of Sentenceを表す。「今日は晴れ」という文は、図４に示すように、１〜４文字からなる部分文字列に分割することができ、部分文字列が分かち書きの候補となる。「今日は晴れ」という文だけからは、どこが部分文字列の切れ目になるかを求めることはできないが、他の多数の学習データについても同様の解析を行うことにより、例えば、「今」の後に「日」が出現する頻度が高いことや、「晴」の後に「れ」が出現する頻度が高いことが分かる。「今日は晴れ」という文を部分文字列に分割した図４のようなモデルにおいて、ある部分文字列を条件として後続の部分文字列が出現する確率を求めることができる。これがＮＰＹＬＭである。

形態素解析器生成装置１は、ＮＰＹＬＭを生成すると、次に、学習データから１文を読み出し（Ｓ１２）、読み出した１文についてＣＲＦの学習を行う。形態素解析器生成装置１は、読み出した１文が初めて読み出されたものか、あるいは、過去に読み出されてすでにＣＲＦの学習を行ったものかを判定する（Ｓ１３）。読み出した１文が初めて読み出されたものである場合には、ＣＲＦ生成部１３は、読み出した文について、各部分文字列の品詞を表す潜在変数とＮＰＹＬＭで計算した部分文字列の出現確率を引数とする素性関数を導入し、その文が与えられたときにある分かち書きが得られる確率を表すＣＲＦを生成し、ＣＲＦ記憶部１９に記憶する（Ｓ１５）。

図５は、品詞を表す潜在変数を引数とする素性関数を概念的に示す図である。品詞を表す潜在変数を導入しない場合には、ある部分文字列が出現したときの条件付き確率によってＣＲＦが表されるが、品詞を表す潜在変数を導入することにより、ある品詞の部分文字列が出現したときの条件付き確率によってＣＲＦが表される。つまり、名詞の「今」が出現したときに名詞の「日」が出現する確率、名詞の「今」が出現したときに動詞の「日」が出現する確率というように、品詞を表す潜在変数を導入することにより、品詞の違いを踏まえてきめ細かく学習を行うことができる。日本語では、同じ文字列でも品詞によって後に続く部分文字列が異なる場合があるが、本実施の形態の構成により、品詞の違いを考慮して精度の高い分かち書きを行えると同時に品詞の推定まで行える。

また、本実施の形態では、さらに、素性関数の引数として、部分文字列または部分文字列の外に含まれる文字情報も用いている。この文字情報としては、例えば、セグメントの１つ前がＢＯＳ（Beginning Of Sentence）か、セグメントの１つ後ろの文字が「は」であるか、セグメントに含まれる文字種はカタカナであるか等である。これにより、潜在クラスをうまく分類することが可能となる。

続いて、形態素解析器生成装置１は、生成されたＣＲＦの分かち書き及びパラメータの更新を行う。まず、学習部１４は、生成されたＣＲＦを用いて、文末から文頭に向かってＧｉｂｂｓサンプリングを行って当該文の分かち書きを求める（Ｓ１６）。この方法は、特許文献１において説明されている確率的Backwardパス実行ステップの手順と基本的に同じである。ただし、特許文献１では、ＮＰＹＬＭのみを用いているのに対し、本実施の形態では、潜在変数とＮＰＹＬＭで計算した部分文字列の出現確率を引数とする素性関数を用いている点が異なる。

学習部１４は、上記の方法によって求めた分かち書きを正解データであるとし、当該正解データを教師データとしてＣＲＦの分かち書きとパラメータを更新する（Ｓ１７）。つまり、Blocked Gibbsサンプリングで求めた分かち書きが最大確率となるようにＣＲＦのパラメータを調整する。学習部１４は、パラメータが調整されたＣＲＦをＣＲＦ記憶部１９に記憶する。続いて、学習部１４は、分かち書きをＮＰＹＬＭへ追加して、ＮＰＹＬＭの更新を行い、更新したＮＰＹＬＭをＮＰＹＬＭ記憶部１８に記憶する（Ｓ１８）。

次に、学習データ記憶部１７から読み出した文が過去にＣＲＦの更新を行った文であった場合（Ｓ１３でＮＯ）の動作について説明する。この場合には、形態素解析器生成装置１は、その文の分かち書きにかかる部分文字列とその連接情報をＮＰＹＬＭから減算する（Ｓ１４）。これは自分自身の分かち書きの影響で、同じ分かち書きがされることを防止するためである。

例えば、「今日は晴れ」という文が、前回のＣＲＦの分かち書きの更新により、「今日」「は」「晴れ」というように分かち書きされたとすると、このように分かち書きされたという情報に基づいてＮＰＹＬＭが更新される。すなわち、ＮＰＹＬＭは、「今日」という部分文字列の後に「は」の部分文字列が出現した回数をカウントアップし、「は」という部分文字列の後に「晴れ」の部分文字列が出現した回数をカウントアップする。そして、部分文字列が連接して現れた回数に基づいて、部分文字列が連接する確率を求め、ＮＰＹＬＭを更新する。したがって、ＮＰＹＬＭには、「今日は晴れ」という文の分かち書きの情報が含まれている。

「今日は晴れ」という文を分かち書きするにあたって、「今日は晴れ」についての前回の分かち書きの影響があると、毎回同じ分かち書きがなされてしまう可能性があるので、これを防止するために、前回のＣＲＦの分かち書きに係る部分文字列とその連接情報の頻度を減算する。

形態素解析器生成装置１は、以上のステップＳ１２〜ステップＳ１８までの処理を、収束条件を満たすまで繰り返し行う（Ｓ１９）。収束条件としては、例えば、パラメータの更新幅が所定値を下回ったことや、所定値を下回ることが所定回数連続したことなどを条件とすることができる。

以上、本実施の形態の形態素解析器生成装置１によりＮＰＹＬＭ及びＣＲＦの学習を行う動作の概要について説明した。

次に、品詞を表す潜在変数を導入したＣＲＦのパラメータ推定について説明する。ＣＲＦでは、入力文字列Ｘが与えられたときに分かち書きＳが得られる確率を、潜在変数の系列Ｈとして、以下の式で定義する。

なお、Z₁、Z₂はそれぞれ、Σ_SP(S|H)=1、Σ_HP(H|X)=1を保証するための分配関数を表す。パラメータの推定は、以下の損失関数を最大化することで行う。

H(S|H)は条件付きエントロピーを表す。上記損失関数を最大化することで、エントロピーの最小化が行われ、各セグメントとは特徴的な潜在クラスのみが共起するようにパラメータが学習される。パラメータの更新式を以下に示す。

ここで、各符号の意味は以下のとおりである。

各条件付き確率は、Forward-Backwardアルゴリズムで効率的に計算ができる。分かち書きのサンプリングは、条件付き確率に従って、後ろ向きに文の先頭まで、順番にセグメントをサンプリングすることで行う。

学習したモデルを用いた形態素解析を行うには、以下の条件付き確率が最大となるセグメンテーションを行えばよい。

これは、Semi-Markovモデルのラティス上でのViterbiアルゴリズムを用いることで効率的に計算を行うことができる。

話し言葉の表現が頻出するウェブ上の個人のブログから1819487文字の文章を取得し、そのうちの1682468文字の文章を学習データとして用い、残りの文章を評価用データとして用いた。本発明の手法と従来手法（MeCab）のそれぞれの学習により単語を生成した。（正解した単語）／（生成した単語）によって、単語生成の精度を比較すると、従来手法が４２％だったのに対し、本発明では５３％となり、本発明の効果が確認された。

本発明は、教師データを用いることなく、分かち書き及び品詞の特定を精度よく行うことができ、形態素解析に用いる形態素解析器を生成するのに有用である。

１形態素解析器生成装置
１０入力部
１１演算処理部
１２ＮＰＹＬＭ生成部
１３ＣＲＦ生成部
１４学習部
１５出力部
１６記憶部
１７学習データ記憶部
１８ＮＰＹＬＭ記憶部
１９ＣＲＦ記憶部

Claims

学習用のデータとして複数の文の入力を受け付けて、前記複数の文を学習データ記憶部に記憶するステップと、
前記学習データ記憶部に記憶された複数の文を用いて、ある部分文字列を条件として後続の部分文字列が出現する確率を示すＮＰＹＬＭ（Nested Pitman-Yor Language Model）を生成し、ＮＰＹＬＭ記憶部に記憶するステップと、
前記学習データ記憶部から文を読み出し、各部分文字列の品詞を表す潜在変数と前記ＮＰＹＬＭで計算した部分文字列の出現確率を引数とする素性関数を導入したＣＲＦを用いて、前記文が与えられた時に最も確率の高い分かち書きを推定し、当該文の文末から文頭に向かって単語列をサンプリングするBlocked Gibbsサンプリングを行って当該文の分かち書きを求め、求めた分かち書きを教師データとして前記ＣＲＦのパラメータを更新し、前記更新された分かち書きに基づいて前記ＮＰＹＬＭを更新する処理を、所定の収束条件を満たすまで繰り返し行うステップと、
を備え、
前記ＣＲＦの分かち書きとパラメータの更新が行われた文を再び読み出したときには、前回求めた分かち書きを構成する部分文字列とその連接情報を、前記ＮＰＹＬＭから削除した後に、再度の学習を行う形態素解析器生成方法。
前記ＣＲＦは、Ｘを入力文字列、Ｓを分かち書きを構成する部分文字列、Ｈを潜在変数の系列として、

で表される請求項１に記載の形態素解析器生成方法。
前記ＣＲＦは、さらに、素性関数の引数として、部分文字列または部分文字列の外に含まれる文字情報を用いる請求項１または２に記載の形態素解析器生成方法。
学習用のデータとして複数の文を記憶した学習データ記憶部と、
前記学習データ記憶部に記憶された複数の文を用いて、ある部分文字列を条件として後続の部分文字列が出現する確率を示すＮＰＹＬＭ（Nested Pitman-Yor Language Model）を生成し、ＮＰＹＬＭ記憶部に記憶するＮＰＹＬＭ生成部と、
前記学習データ記憶部から文を読み出し、各部分文字列の品詞を表す潜在変数と前記ＮＰＹＬＭで計算した部分文字列の出現確率を引数とする素性関数を導入したＣＲＦを用いて、前記文が与えられた時に最も確率の高い分かち書きを推定し、当該文の文末から文頭に向かって単語列をサンプリングするBlocked Gibbsサンプリングを行って当該文の分かち書きを求め、求めた分かち書きを教師データとして前記ＣＲＦのパラメータを更新し、前記更新された分かち書きに基づいて前記ＮＰＹＬＭを更新する処理を、所定の収束条件を満たすまで繰り返し行う学習部と、
を備え、
前記学習部は、前記ＣＲＦの分かち書きとパラメータの更新が行われた文を再び読み出したときには、前回求めた分かち書きを構成する部分文字列とその連接情報を、前記ＮＰＹＬＭから削除した後に、再度の学習を行う形態素解析器生成装置。
前記ＣＲＦは、Ｘを入力文字列、Ｓを分かち書きを構成する部分文字列、Ｈを潜在変数の系列として、

で表される請求項４に記載の形態素解析器生成装置。
前記ＣＲＦは、さらに、素性関数の引数として、部分文字列または部分文字列の外に含まれる文字情報を用いる請求項４または５に記載の形態素解析器生成装置。
学習用のデータに基づいて形態素解析器を生成するためのプログラムであって、コンピュータに、
学習用のデータとして複数の文の入力を受け付けて、前記複数の文を学習データ記憶部に記憶するステップと、
前記学習データ記憶部に記憶された複数の文を用いて、ある部分文字列を条件として後続の部分文字列が出現する確率を示すＮＰＹＬＭ（Nested Pitman-Yor Language Model）を生成し、ＮＰＹＬＭ記憶部に記憶するステップと、
前記学習データ記憶部から文を読み出し、各部分文字列の品詞を表す潜在変数と前記ＮＰＹＬＭで計算した部分文字列の出現確率を引数とする素性関数を導入したＣＲＦを用いて、前記文が与えられた時に最も確率の高い分かち書きを推定し、当該文の文末から文頭に向かって単語列をサンプリングするBlocked Gibbsサンプリングを行って当該文の分かち書きを求め、求めた分かち書きを教師データとして前記ＣＲＦのパラメータを更新し、前記更新された分かち書きに基づいて前記ＮＰＹＬＭを更新する処理を、所定の収束条件を満たすまで繰り返し行うステップと、
を実行させ、
前記ＣＲＦの分かち書きとパラメータの更新が行われた文を再び読み出したときには、前回求めた分かち書きを構成する部分文字列とその連接情報を、前記ＮＰＹＬＭから削除した後に、再度の学習を行うプログラム。
前記ＣＲＦは、Ｘを入力文字列、Ｓを分かち書きを構成する部分文字列、Ｈを潜在変数の系列として、

で表される請求項７に記載のプログラム。
前記ＣＲＦは、さらに、素性関数の引数として、部分文字列または部分文字列の外に含まれる文字情報を用いる請求項７または８に記載のプログラム。