JP2016224483A

JP2016224483A - モデル学習装置、方法、及びプログラム

Info

Publication number: JP2016224483A
Application number: JP2015106872A
Authority: JP
Inventors: いつみ斉藤; Itsumi Saito; 九月貞光; Kugatsu Sadamitsu; 久子浅野; Hisako Asano; 義博松尾; Yoshihiro Matsuo
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2015-05-26
Filing date: 2015-05-26
Publication date: 2016-12-28

Abstract

【課題】表記正規化と形態素解析とを行うためのモデルを学習することができる。
【解決手段】ラティス生成部３０で、ラティスを生成し、モデル学習部３２で、生成されたラティスにおける、単語分割候補の各々に対する、当該単語分割候補と、当該単語分割候補に付与された正規化表記候補である正規表記語及び品詞とに基づく素性ベクトルであって、単語分割候補である崩れ表記語と正規化表記候補との間の意味類似度を素性として含む素性ベクトルと、形態素解析結果の正解データとに基づいて、テキストに含まれる崩れ表記語に対する正規化表記である正規表記語を求めるモデルを学習し、学習したモデルを用いたコーパス解析部３４の解析結果に基づいて、意味類似度計算部３６で、意味類似度を計算し、素性ベクトルに含まれる、計算された意味ベクトルを用いて、モデルを学習することを繰り返す。
【選択図】図１

Description

本発明は、モデル学習装置、方法、及びプログラムに係り、特に、表記正規化と形態素解析を行うためのモデルを学習するモデル学習装置、方法、及びプログラムに関する。

従来より、正規表記語に対して揺らいだ表記である崩れ表記語を獲得するためのモデルを学習する手法が提案されている。教師データを用いた手法としては、非特許文献１及び非特許文献２に記載されている識別学習に基づく表記正規化と形態素解析を用いた手法が挙げられる。

教師データを用いない手法としては、非特許文献３に記載されている識別学習に基づく表記正規化と形態素解析を用いた手法が挙げられる。

Nobuhiro Kaji and Masaru Kitsuregawa. Accurate word segmentation and pos tagging for japanese microblogs: Corpus annotation and joint modeling with lexical normalization. In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), pp. 99{109,Doha, Qatar, October 2014 Association for Computational Linguistics. Itsumi Saito, Kugatsu Sadamitsu, Hisako Asano,and Yoshihiro Matsuo. Morphological analysis for japanese noisy text based on character-level and word-level normalization. In Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics: Technical Papers, pp.1773{1782, Dublin, Ireland, August 2014. Dublin City University and Association for Computational Linguistics. 工藤拓, 市川宙, David Talbot, 賀沢秀人. web 上のひらがな交じり文に頑健な形態素解析. 自然言語処理会年次大会講演集, 2012

しかし、新たなドメインにおける形態素を用いた正解データは作成コストの制約があり、十分な量の正解データを用意することができず、正解データのみを用いた学習では、膨大な崩れ表記語候補に対して、適切なコストを付与することが難しいという課題がある。

また、正解なしデータのみを用いて崩れ表記語を大量に追加しモデル学習する場合、真の分布から大きくずれた分布が学習されてしまう場合がある。

本発明は、上記問題点を解決するために成されたものであり、正解データが少ない場合であっても、精度よく、形態素解析と表記正規化を行うためのモデルを学習することができるモデル学習装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、第１の発明に係るモデル学習装置は、正規表記語に対する揺らいだ表記である崩れ表記語に対する正規化表記である正規表記語を含む形態素解析結果の正解データが付与されたテキストに対して、正規表記語、又は正規表記語に対する揺らいだ表記である崩れ表記語である単語分割候補であって、前記崩れ表記語に対する正規化表記候補である正規表記語及び品詞が付与された単語分割候補の各々に対応するノード及び連結される単語分割候補に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するラティス生成部と、前記ラティス生成部により生成された前記ラティスにおける、前記単語分割候補の各々に対する、前記単語分割候補と、前記単語分割候補に付与された正規化表記候補である正規表記語及び品詞とに基づく素性ベクトルであって、前記単語分割候補である崩れ表記語と前記正規化表記候補との間の意味類似度を素性として含む素性ベクトルと、前記形態素解析結果の正解データとに基づいて、テキストに対する形態素解析を行うためのモデルであって、かつ、前記テキストに含まれる崩れ表記語に対する正規化表記である正規表記語を求めるためのモデルを学習するモデル学習部と、を含んで構成されている。

また、第１の発明に係るモデル学習装置において、前記モデル学習部により学習された前記モデルに基づいて、テキスト集合に含まれるテキストの各々に対する形態素解析を行うと共に、前記テキストに含まれる崩れ表記語に対する正規化表記である正規表記語を求めるコーパス解析部と、前記コーパス解析部による解析結果に基づいて、崩れ表記語と正規表記語とのペアの各々について、前記意味類似度を計算する意味類似度計算部と、予め定めた繰り返し終了条件を満たすまで、前記モデル学習部による学習、前記コーパス解析部による解析、及び前記意味類似度計算部による計算を繰り返す繰り返し判定部と、を更に含み前記モデル学習部は、前記素性ベクトルに含まれる、前記単語分割候補である崩れ表記語と前記正規化表記候補との間の意味類似度として、前記意味類似度計算部によって計算された前記意味類似度を用いて、前記モデルを学習するようにしてもよい。

第２の発明に係るモデル学習方法は、ラティス生成部が、正規表記語に対する揺らいだ表記である崩れ表記語に対する正規化表記である正規表記語を含む形態素解析結果の正解データが付与されたテキストに対して、正規表記語、又は正規表記語に対する揺らいだ表記である崩れ表記語である単語分割候補であって、前記崩れ表記語に対する正規化表記候補である正規表記語及び品詞が付与された単語分割候補の各々に対応するノード及び連結される単語分割候補に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するステップと、モデル学習部が、前記ラティス生成部により生成された前記ラティスにおける、前記単語分割候補の各々に対する、前記単語分割候補と、前記単語分割候補に付与された正規化表記候補である正規表記語及び品詞とに基づく素性ベクトルであって、前記単語分割候補である崩れ表記語と前記正規化表記候補との間の意味類似度を素性として含む素性ベクトルと、前記形態素解析結果の正解データとに基づいて、テキストに対する形態素解析を行うためのモデルであって、かつ、前記テキストに含まれる崩れ表記語に対する正規化表記である正規表記語を求めるためのモデルを学習するステップと、を含んで実行することを特徴とする。

また、第２の発明に係るモデル学習方法において、コーパス解析部が、前記モデル学習部により学習された前記モデルに基づいて、テキスト集合に含まれるテキストの各々に対する形態素解析を行うと共に、前記テキストに含まれる崩れ表記語に対する正規化表記である正規表記語を求めるステップと、意味類似度計算部が、前記コーパス解析部による解析結果に基づいて、崩れ表記語と正規表記語とのペアの各々について、前記意味類似度を計算するステップと、繰り返し判定部が、予め定めた繰り返し終了条件を満たすまで、前記モデル学習部による学習、前記コーパス解析部による解析、及び前記意味類似度計算部による計算を繰り返すステップと、を更に含み前記モデル学習部が学習するステップは、前記素性ベクトルに含まれる、前記単語分割候補である崩れ表記語と前記正規化表記候補との間の意味類似度として、前記意味類似度計算部によって計算された前記意味類似度を用いて、前記モデルを学習するようにしてもよい。

第３の発明に係るプログラムは、コンピュータを、上記第１の発明に係るモデル学習装置の各部として機能させるためのプログラムである。

本発明のモデル学習装置、方法、及びプログラムによれば、形態素解析結果の正解データが付与されたテキストに対して、崩れ表記語に対する正規化表記候補である正規表記語及び品詞が付与された単語分割候補の各々に対応するノード及びノードを結んだエッジからなるグラフ構造であるラティスを生成し、生成されたラティスにおける、単語分割候補の各々に対する、単語分割候補と、単語分割候補に付与された正規化表記候補である正規表記語及び品詞とに基づく素性ベクトルであって、単語分割候補である崩れ表記語と正規化表記候補との間の意味類似度を素性として含む素性ベクトルと、形態素解析結果の正解データとに基づいて、テキストに対する形態素解析を行うためのモデルであって、かつ、テキストに含まれる崩れ表記語に対する正規化表記である正規表記語を求めるモデルを学習することにより、精度よく、表記正規化と形態素解析とを行うためのモデルを学習することができる、という効果が得られる。

本発明の実施の形態に係るモデル学習装置の構成を示すブロック図である。生成されるラティスの一例を示す図である。学習したモデルを用いた解析結果の一例を示す図である。単語分割候補と正規表記語とのペアに対する意味類似度の計算結果の例を示す図である。計算した意味類似度をラティスにおける素性ベクトルに反映した場合の一例を示す図である。本発明の実施の形態に係るモデル学習装置におけるモデル学習処理ルーチンを示すフローチャートである。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜本発明の実施の形態に係るモデル学習装置の構成＞

次に、本発明の実施の形態に係るモデル学習装置の構成について説明する。図１に示すように、本発明の実施の形態に係るモデル学習装置１００は、ＣＰＵと、ＲＡＭと、後述するモデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。このモデル学習装置１００は、機能的には図１に示すように入力部１０と、演算部２０と、出力部５０とを備えている。モデル学習装置１００により学習したモデルは、形態素解析装置に適用し、任意のテキストに対して形態素解析を行うと共に正規化表記語を求めるために用いることができる。

入力部１０は、正規表記語に対する揺らいだ表記である崩れ表記語に対する正規化表記である正規表記語を含む形態素解析結果の正解データが付与されたテキストからなるテキスト集合と、正解データが付与されていないテキストからなる大規模平文コーパスとを受け付ける。ここでは、テキスト集合のテキストに、任意のモデルで解析した形態素解析結果を正解データとして付与する。

演算部２０は、辞書データベース２８と、ラティス生成部３０と、モデル学習部３２と、コーパス解析部３４と、意味類似度計算部３６と、繰り返し判定部４０とを含んで構成されている。

辞書データベース２８には、辞書引きを行うために必要な辞書（読み、表記、品詞）が記憶されている。また、予め作成された正規表記語と崩れ表記語とのペアのリストが格納されている。

ラティス生成部３０は、入力部１０で受け付けたテキスト集合に含まれる、正解データが付与されたテキストに対して、正規表記語、又は崩れ表記語である単語分割候補であって、崩れ表記語に対する正規化表記候補である正規表記語及び品詞が付与された単語分割候補の各々に対応するノード及び連結される単語分割候補に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成する。ラティス生成部３０においてラティスを生成する手法としては、通常の辞書引きの他、崩れ表記語の列挙に関しては、予め用意した辞書データベース２８に格納された正規表記語と崩れ表記語とのペアのリストを参照する方法（上記非特許文献１参照）や、文字列展開に基づく方法（上記非特許文献２参照）などの方法を用いることができる。図２にラティス生成部３０で生成されるラティスの一例を示す。

モデル学習部３２は、ラティス生成部３０により生成されたラティスにおける、単語分割候補の各々に対する、当該単語分割候補と、当該単語分割候補に付与された正規化表記候補である正規表記語及び品詞とに基づく素性ベクトルであって、単語分割候補である崩れ表記語と正規化表記候補との間の意味類似度を素性として含む素性ベクトルｆ（ｗ，ｖ，ｔ）と、形態素解析結果の正解データとに基づいて、テキストに対する形態素解析を行うためのモデルであって、かつ、テキストに含まれる崩れ表記語に対する正規化表記である正規表記語を求めるためのモデルを学習する。また、モデル学習部３２は、素性ベクトルに含まれる素性として、単語分割候補である崩れ表記語と正規化表記候補との間の意味類似度であって、後述する意味類似度計算部３６によって計算された意味類似度を用いる。

モデル学習部３２は、具体的には、以下（１）式で定義されるモデルの重みＷを、後述する意味類似度計算部３６により計算した意味類似度を素性として含む素性ベクトルと、形態素解析結果の正解データとに基づいて学習する。

ここで、（＾ｗ，＾ｖ，＾ｔ）は単語分割候補である表出表記（正規表記語又は崩れ表記語）ｗ、正規表記語ｖ、及び品詞ｔの最適系列を表し、Ｌ（ｓ）は入力されたテキストｓに対するラティスを表す。なお、１回目の学習においては、初期値として、任意のモデルで解析した結果から計算される意味類似度を用いる。

コーパス解析部３４は、モデル学習部３２により学習されたモデルに基づいて、大規模平文コーパスに含まれるテキストの各々に対する形態素解析を行うと共に、当該テキストに含まれる崩れ表記語に対する正規化表記である正規表記語を求める。そして、解析結果により得られた単語分割候補である崩れ表記語と、単語分割候補に対する正規化候補の正規表記語とのペアを得る。ここで解析するテキスト集合は、予め用意したものを用いても、インターネット上から取得してきたものを用いてもよい。図３に解析結果の一例を示す。なお、コーパス解析部３４による解析結果として、ｎ−ｂｅｓｔ解などの複数の候補のうちの何れかを、その確率に従って出力するようにしてもよい。

意味類似度計算部３６は、コーパス解析部３４による解析結果に基づいて、崩れ表記語と正規表記語とのペアの各々について、意味類似度を計算する。

意味類似度計算部３６は、具体的には、まずコーパス解析部３４で解析された、大規模平文コーパスに含まれるテキストから得られた単語分割候補の各々について、非特許文献４に記載のｗｏｒｄ２ｖｅｃの手法を用いて、単語の意味ベクトルを計算する。

［非特許文献４］：Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient Estimation of Word Representations in Vector Space. In Proceedings of Workshop at ICLR, 2013.

次に、意味類似度計算部３６は、コーパス解析部３４により得られた崩れ表記語と正規表記語とのペアの各々について、単語分割候補の各々について計算した意味ベクトルに基づいて、単語分割候補である崩れ表記語ｗと正規化表記候補である正規表記語ｖとの間の意味類似度を計算する。意味類似度は、単語分割候補ごとに求められた意味ベクトルのコサイン類似度により計算する。ここでは、学習されたモデルを用いて大規模平文コーパスに対して形態素解析を行って得られる単語分割候補の分割結果は、繰り返しごとに異なる。そのため、繰り返しごとに意味類似度を計算し直すことになり、前回計算した意味類似度とは異なる結果が算出される。図４に、崩れ表記語と正規表記語（さむい）とのペアに対する意味類似度の計算結果の例を示す。また、図５に、計算した意味類似度をラティスにおける単語分割候補の素性に反映した場合の例を示す。

繰り返し判定部４０は、繰り返し終了条件を満たすまで、モデル学習部３２による学習、コーパス解析部３４による解析、及び意味類似度計算部３６による計算を繰り返す。繰り返し終了条件としては、繰り返しの回数などを用いることができ、所定の回数の更新を繰り返す。

そして、モデル学習装置１００は、モデル学習部３２により最終的に得られたモデルを出力部５０に出力する。

＜本発明の実施の形態に係るモデル学習装置の作用＞

次に、本発明の実施の形態に係るモデル学習装置１００の作用について説明する。入力部１０において正解データが付与されたテキストからなるテキスト集合、及び正解データが付与されていないテキストからなる大規模平文コーパスを受け付けると、モデル学習装置１００は、図６に示すモデル学習処理ルーチンを実行する。

まず、ステップＳ１００では、入力部１０で受け付けたテキスト集合に含まれる、正解データが付与されたテキストに対して、正規表記語及び品詞が付与された単語分割候補の各々に対応するノード及び連結される単語分割候補に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成する。

ステップＳ１０６では、ステップＳ１００で生成されたラティスにおける単語分割候補の各々に対する素性ベクトルと、入力部１０で受け付けたテキスト集合に付与された形態素解析結果の正解データとに基づいて、モデルを学習する。

ステップＳ１０８では、ステップＳ１０６又はステップＳ１１４で学習されたモデルに基づいて、大規模平文コーパスに含まれるテキストの各々に対する形態素解析を行うと共に、当該テキストに含まれる崩れ表記語に対する正規化表記である正規表記語を求める。

ステップＳ１１０では、ステップＳ１０８の解析結果に基づいて、解析結果の単語分割候補の各々について、単語の意味ベクトルを計算する。

ステップＳ１１２では、ステップＳ１１０で単語分割候補の各々について計算された意味ベクトルに基づいて、崩れ表記語と正規表記語とのペアの各々について、意味類似度を計算する。

ステップＳ１１４では、ラティスにおける単語分割候補の各々に対する素性ベクトルと、形態素解析結果の正解データとに基づいて、モデルを学習する。このとき、ラティスにおける単語分割候補の各々に対する素性ベクトルに含まれる、単語分割候補である崩れ表記語と正規化表記候補との間の意味類似度として、ステップＳ１１２で計算された意味類似度を用いる。

ステップＳ１１６では、繰り返し終了条件を満たしているかを判定し、満たしていないと判定される場合はステップＳ１０８〜ステップＳ１１４の処理を繰り返し、満たしていると判定される場合はステップＳ１１８へ移行する。

ステップＳ１１８では、ステップＳ１０６又はステップＳ１１４で学習されたモデルを出力部５０により出力し処理を終了する。

以上説明したように、本発明の実施の形態に係るモデル学習装置によれば、ラティスを生成し、生成されたラティスにおける、単語分割候補の各々に対する、単語分割候補と、単語分割候補に付与された正規化表記候補である正規表記語及び品詞とに基づく素性ベクトルであって、単語分割候補である崩れ表記語と正規化表記候補との間の意味類似度を素性として含む素性ベクトルと、形態素解析結果の正解データとに基づいて、テキストに対する形態素解析を行うためのモデルであって、かつ、テキストに含まれる崩れ表記語に対する正規化表記である正規表記語を求めるモデルを学習し、学習したモデルを用いた解析結果に基づいて、意味類似度を計算し、素性ベクトルに含まれる、計算された意味ベクトルを用いて、モデルを学習することを繰り返すことにより、精度よく、表記正規化と形態素解析とを行うためのモデルを学習することができる。

また、正解データが付与されたテキストの小規模コーパスを用いて学習したモデルに対して、局所的な文脈からは考慮できない意味的な類似度を外部知識として導入することにより、多量の崩れ表記語候補を追加しても頑健に解析することが可能になる。

また、正解データが付与されたテキストと、正解データが付与されていないテキストからなる大規模平文コーパスにおける分布の両方を反映することにより、どちらか一方を用いた学習に比べ高精度な解析が可能になる。

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、上述した実施の形態では、モデル学習部３２による学習、コーパス解析部３４による解析、及び意味類似度計算部３６による計算を繰り返す場合を例に説明したが、これに限定されるものではなく、繰り返しを行わずに、任意のモデルで解析した結果から計算される意味類似度を用いて、モデル学習部３２による学習を１回だけ行うようにしてもよい。

１０入力部
２０演算部
２８辞書データベース
３０ラティス生成部
３２上記モデル学習部
３２モデル学習部
３４コーパス解析部
３６意味類似度計算部
４０判定部
５０出力部
１００モデル学習装置

Claims

正規表記語に対する揺らいだ表記である崩れ表記語に対する正規化表記である正規表記語を含む形態素解析結果の正解データが付与されたテキストに対して、正規表記語、又は正規表記語に対する揺らいだ表記である崩れ表記語である単語分割候補であって、前記崩れ表記語に対する正規化表記候補である正規表記語及び品詞が付与された単語分割候補の各々に対応するノード及び連結される単語分割候補に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するラティス生成部と、
前記ラティス生成部により生成された前記ラティスにおける、前記単語分割候補の各々に対する、前記単語分割候補と、前記単語分割候補に付与された正規化表記候補である正規表記語及び品詞とに基づく素性ベクトルであって、前記単語分割候補である崩れ表記語と前記正規化表記候補との間の意味類似度を素性として含む素性ベクトルと、前記形態素解析結果の正解データとに基づいて、テキストに対する形態素解析を行うためのモデルであって、かつ、前記テキストに含まれる崩れ表記語に対する正規化表記である正規表記語を求めるためのモデルを学習するモデル学習部と、
を含むモデル学習装置。
前記モデル学習部により学習された前記モデルに基づいて、テキスト集合に含まれるテキストの各々に対する形態素解析を行うと共に、前記テキストに含まれる崩れ表記語に対する正規化表記である正規表記語を求めるコーパス解析部と、
前記コーパス解析部による解析結果に基づいて、崩れ表記語と正規表記語とのペアの各々について、前記意味類似度を計算する意味類似度計算部と、
予め定めた繰り返し終了条件を満たすまで、前記モデル学習部による学習、前記コーパス解析部による解析、及び前記意味類似度計算部による計算を繰り返す繰り返し判定部と、を更に含み
前記モデル学習部は、前記素性ベクトルに含まれる、前記単語分割候補である崩れ表記語と前記正規化表記候補との間の意味類似度として、前記意味類似度計算部によって計算された前記意味類似度を用いて、前記モデルを学習する請求項１に記載のモデル学習装置。
ラティス生成部が、正規表記語に対する揺らいだ表記である崩れ表記語に対する正規化表記である正規表記語を含む形態素解析結果の正解データが付与されたテキストに対して、正規表記語、又は正規表記語に対する揺らいだ表記である崩れ表記語である単語分割候補であって、前記崩れ表記語に対する正規化表記候補である正規表記語及び品詞が付与された単語分割候補の各々に対応するノード及び連結される単語分割候補に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するステップと、
モデル学習部が、前記ラティス生成部により生成された前記ラティスにおける、前記単語分割候補の各々に対する、前記単語分割候補と、前記単語分割候補に付与された正規化表記候補である正規表記語及び品詞とに基づく素性ベクトルであって、前記単語分割候補である崩れ表記語と前記正規化表記候補との間の意味類似度を素性として含む素性ベクトルと、前記形態素解析結果の正解データとに基づいて、テキストに対する形態素解析を行うためのモデルであって、かつ、前記テキストに含まれる崩れ表記語に対する正規化表記である正規表記語を求めるためのモデルを学習するステップと、
を含むモデル学習方法。
コーパス解析部が、前記モデル学習部により学習された前記モデルに基づいて、テキスト集合に含まれるテキストの各々に対する形態素解析を行うと共に、前記テキストに含まれる崩れ表記語に対する正規化表記である正規表記語を求めるステップと、
意味類似度計算部が、前記コーパス解析部による解析結果に基づいて、崩れ表記語と正規表記語とのペアの各々について、前記意味類似度を計算するステップと、
繰り返し判定部が、予め定めた繰り返し終了条件を満たすまで、前記モデル学習部による学習、前記コーパス解析部による解析、及び前記意味類似度計算部による計算を繰り返すステップと、を更に含み
前記モデル学習部が学習するステップは、前記素性ベクトルに含まれる、前記単語分割候補である崩れ表記語と前記正規化表記候補との間の意味類似度として、前記意味類似度計算部によって計算された前記意味類似度を用いて、前記モデルを学習する請求項３に記載のモデル学習方法。
コンピュータを、請求項１又は請求項２に記載のモデル学習装置の各部として機能させるためのプログラム。