JP2015087952A

JP2015087952A - モデル学習装置、形態素解析装置、及びプログラム

Info

Publication number: JP2015087952A
Application number: JP2013225853A
Authority: JP
Inventors: いつみ斉藤; Itsumi Saito; 九月貞光; Kugatsu Sadamitsu; 久子浅野; Hisako Asano; 松尾　義博; Yoshihiro Matsuo; 義博松尾
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2013-10-30
Filing date: 2013-10-30
Publication date: 2015-05-07
Anticipated expiration: 2033-10-30
Also published as: JP6145027B2

Abstract

【課題】揺らいだ表記である崩れ語を含む文字列に対しても形態素解析を精度よく行うことができる。
【解決手段】フレーズアライメント部３１により、入力された正規化された表現である正規語と、正規語に対して揺らいだ表記である崩れ語との複数のペアに基づいて、複数のペアの各々について、正規語を文字列の区切り位置で区切った部分文字列である正規フレーズの各々と、崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズの各々との最適な対応関係を、動的計画法に従って求め、変換確率算出部３２により、正規語と崩れ語とのペアの各々についての対応関係に基づいて、正規フレーズ及び崩れフレーズの各ペアについて、正規フレーズが崩れフレーズに変換される変換確率を算出する。
【選択図】図３

Description

本発明は、モデル学習装置、形態素解析装置、及びプログラムに係り、特に、口語調などの正書法では現れない表記である崩れた表記を頑健に解析するためのモデル学習装置、形態素解析装置、及びプログラムに関する。

従来の日本語形態素解析器は、図２４に示すように、形態素の連接確率（コスト）と生起確率（コスト）を用いて、入力文の分かち書き（単語分割）と品詞付与を同時に行っている（総コストが最小の組み合わせを選択する。）。

また、異なる文字種間での文字変換の対応関係や、漢字−読みの対応関係を推定する際に用いられる手法として、トランスリタレーションという手法がある。トランスリタレーションとは、図２５に示す様に、２つの文字列間の対応関係を求める手法であり、例えば、動的計画法を用いて、各文字の対応を推定する等、様々な拡張手法が提案されている（非特許文献１）。

また、従来、崩れた表記に対応するために、図２６に示す様な、人手で文字列の変換ルールを作成し、形態素解析に組み込むことで対応している。ここで「崩れた表記」とは、図２７に示すように、口語超やｗeｂ特有の書き言葉など、新聞などの正書法では現れない表記を指す。具体的には、小文字化（あ→ぁ、い→ぃ）、長音化（あ→−、う→−）など、特徴的なパターンに関して人手整備を行い、形態素解析において、入力文の書き換えや辞書引き拡張を行う（非特許文献２、非特許文献３）。

辞書引きの拡張とは、入力文字列が別の文字列に変化した場合も考慮して辞書引きを行うことである。例えば、「軽−く」という入力文に対し、通常は「軽く」という形容詞は文字列が一致しないので列挙されないが、”「−」を削除”というルールを考慮した場合、「軽−く」と「軽く」という両方の文字列を辞書引きして一つのラティスにする。この場合は、「軽く」という形態素も列挙されるため、図２８のようなラティスが生成される。ここで、ラティスとは、入力文字列に対し、辞書引きを行った結果入力文字列に「マッチした形態素集合をグラフ構造にしたもの」である。図２９に例を示す。

齋藤邦子、篠原章夫、永田昌明、小原永，「音声制御ブラウザのVCWeb の英日シームレス化」，（2002），人工知能学会論文誌，pp.343-347 勝木健太、笹野遼平、河原大輔、黒橋禎夫，「web上の多彩な言語バリエーションに対応した頑健な形態素解析」，（2011），言語処理学会，第17回年次大会発表論文集岡照晃、小町守、小木曽智信、松本裕治，「表記のバリエーションを考慮した近代日本語の形態素解析」，（2013），第27回人工知能学会発表論文集

従来の日本語形態素解析器においては、辞書引きをベースとして解析を行うため、辞書に存在しない語が出現した場合に解析失敗を起こす確率が高いという点が問題となる。

また、上記の従来の崩れた表記に対応する手法においては、崩れパターンが多岐にわたるため、人手整備では網羅しきれず、再現率が低いという問題がある。また、崩れ確率は現象によって異なるものであるが、従来の手法においては、全ての崩れパターンに対して、同一のコストが与えられているという問題がある。

本発明では、上記問題点を解決するために成されたものであり、揺らいだ表記である崩れ語を含む文字列に対しても形態素解析を精度よく行うことができる形態素解析装置、及びプログラムを提供することを目的とする。

また、揺らいだ表記である崩れ語を含む文字列に対しても形態素解析を精度よく行うことができるモデルを学習することができるモデル学習装置、及びプログラムを提供することができる。

上記目的を達成するために、第１の発明に係るモデル学習装置は、入力された正規化された表現である正規語と、前記正規語に対して揺らいだ表記である崩れ語との複数のペアに基づいて、前記複数のペアの各々について、前記正規語を文字列の区切り位置で区切った部分文字列である正規フレーズの各々と、前記崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズの各々との最適な対応関係を、動的計画法に従って求めるフレーズアライメント部と、前記フレーズアライメント部により求められた前記複数のペアの各々についての前記対応関係に基づいて、前記正規フレーズ及び前記崩れフレーズの各ペアについて、前記正規フレーズが前記崩れフレーズに変換される変換確率を算出する変換確率算出部と、を含んで構成されている。

また、第１の発明に係るモデル学習装置において、前記入力された前記複数のペアに基づいて、前記正規フレーズ及び前記崩れフレーズの各ペアについて前記変換確率を格納した変換確率テーブルを初期化する初期設定部と、予め定められた反復終了条件が満たされるまで、前記フレーズアライメント部による処理及び前記変換確率算出部による算出を繰り返し、前記変換確率テーブルを正規崩れフレーズモデルとして出力する反復判定部とを更に含み、前記フレーズアライメント部は、前記変換確率テーブルに基づいて、前記複数のペアの各々についての最適な対応関係を、動的計画法に従って求め、前記変換確率算出部は、前記正規フレーズ及び前記崩れフレーズの各ペアについて、前記変換確率を算出し、前記変換確率テーブルを更新してもよい。

第２の発明に係るモデル学習装置は、入力された複数のコーパスに基づいて、ｎ個の文字からなる文字ｎ−ｇｒａｍ及びｎ個の単語からなる単語表層ｎ−ｇｒａｍの少なくとも一方の各々について、統計量を算出する統計量算出部と、入力された正規化された表現である正規語と前記正規語に対して揺らいだ表記である崩れ語との複数のペア、及び前記崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズを、前記正規語を文字列の区切り位置で区切った部分文字列である正規フレーズに変換するための予め求められた正規崩れフレーズモデルに基づいて、前記複数のペアの各々について、前記ペアの前記崩れ語に含まれる前記崩れフレーズを前記正規フレーズに変換し、前記変換された正規フレーズと前記ペアの前記正規語との比較結果に基づいて、前記崩れフレーズに対応する文字ｎ−ｇｒａｍ及び単語表層ｎ−ｇｒａｍの少なくとも一方について算出された統計量と、前記正規フレーズに対応する文字ｎ−ｇｒａｍ及び単語表層ｎ−ｇｒａｍの少なくとも一方について算出された統計量とを含む、正例データ及び負例データの何れか一方である学習データを生成するデータ生成部と、前記データ生成部によって前記複数のペアの各々について生成された学習データに基づいて、前記崩れフレーズを前記正規フレーズへ変換することの尤もらしさを判断するためのフレーズフィルタモデルを学習する学習部と、を含んで構成されている。

第３の発明に係る形態素解析装置は、正規化された表現である正規語を文字列の区切り位置で区切った部分文字列である正規フレーズを、前記正規語に対して揺らいだ表記である崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズに変換するための予め求められた正規崩れフレーズモデルに基づいて、入力された文字列について、前記崩れフレーズに一致する部分文字列を、対応する前記正規フレーズに置き換えた文字列を解析候補として生成する解析候補生成部と、前記入力された文字列及び前記解析候補生成部によって生成された前記解析候補の文字列の各々に対して辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するラティス生成部と、前記ラティス生成部において生成されたラティスに基づいて、動的計画法に従って、前記ノードを結んだ最適な経路を選択し、解析結果として出力する選択部と、を含んで構成されている。

第４の発明に係る形態素解析装置は、正規化された表現である正規語を文字列の区切り位置で区切った部分文字列である正規フレーズを、前記正規語に対して揺らいだ表記である崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズに変換するための予め求められた正規崩れフレーズモデルに基づいて、入力された文字列について、前記崩れフレーズに一致する部分文字列を、対応する前記正規フレーズに置き換えた文字列を解析候補として生成する解析候補生成部と、前記解析候補生成部によって生成された前記解析候補の各々について、前記崩れフレーズを前記正規フレーズへ変換することの尤もらしさを判断するための予め求められたフレーズフィルタモデルに基づいて、前記解析候補の尤もらしさを算出する算出部と、前記解析候補生成部によって生成された前記解析候補から、前記算出部によって算出された前記解析候補の尤もらしさと、予め定められた閾値とに基づいて、尤もらしい前記解析候補を抽出する解析候補抽出部と、前記入力された文字列及び前記解析候補抽出部によって抽出された前記解析候補の文字列の各々に対して辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するラティス生成部と、前記ラティス生成部において生成されたラティスに基づいて、動的計画法に従って、前記ノードを結んだ最適な経路を選択し、解析結果として出力する選択部と、を含んで構成されている。

また、本発明のプログラムは、コンピュータを、上記のモデル学習装置及び形態素解析装置を構成する各部として機能させるためのプログラムである。

以上説明したように、本発明の形態素解析装置、及びプログラムによれば、揺らいだ表記である崩れ語を含む文字列に対しても、形態素解析を精度よく行うことができることができる。

また、本発明のモデル学習装置、及びプログラムによれば、揺らいだ表記である崩れ語を含む文字列に対しても形態素解析を精度よく行うことができるモデルを学習することができる。

崩れ語と正規語の例を示す図である。正規フレーズと崩れフレーズの例を示す図である。本発明の第１の実施の形態に係るモデル学習装置の機能的構成を示すブロック図である。正規語崩れ語ペアの例を示す図である。動的計画法に基づいて最小コストの経路を探索する際に用いられる表の例を示す図である。コスト関数の例を示す図である。正規崩れフレーズモデルの例を示す図である。本発明の第１の実施の形態に係る形態素解析装置の機能的構成を示すブロック図である。解析候補文を作成する例を示す図である。ラティスの例を示す図である。本発明の第１の実施の形態に係るモデル学習装置における正規崩れフレーズモデル学習処理ルーチンを示すフローチャートである。本発明の第１の実施の形態に係るモデル学習装置におけるフレーズフィルタモデル学習処理ルーチンを示すフローチャートである。本発明の第１の実施の形態に係る形態素解析装置における形態素解析処理ルーチンを示すフローチャートである。本発明の第１の実施の形態に係る形態素解析装置を用いた結果の例を示す図である。本発明の第１の実施の形態に係る形態素解析装置を用いた結果の例を示す図である。本発明の第２の実施の形態に係るモデル学習装置の機能的構成を示すブロック図である。本発明の第２の実施の形態に係る形態素解析装置の機能的構成を示すブロック図である。本発明の第２の実施の形態に係るモデル学習装置におけるフレーズフィルタモデル学習処理ルーチンを示すフローチャートである。本発明の第２の実施の形態に係る形態素解析装置における形態素解析処理ルーチンを示すフローチャートである。本発明の第３の実施の形態に係るモデル学習装置の機能的構成を示すブロック図である。本発明の第３の実施の形態に係る形態素解析装置の機能的構成を示すブロック図である。本発明の第４の実施の形態に係るモデル学習装置の機能的構成を示すブロック図である。本発明の第４の実施の形態に係る形態素解析装置の機能的構成を示すブロック図である。従来の日本語形態素解析器の例を示す図である。トランスリタレーションの例を示す図である。人手で文字列の変換ルールを作成した例である。崩れた表記の例を示す図である。ラティスの例を示す図である。マッチした形態素集合をグラフ構造にしたものの例を示す図である。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜発明の原理＞
本実施の形態において、「崩れフレーズ・正規フレーズ」と「崩れ語・正規語」という言葉を用いる。図１に示すように、「崩れ語・正規語」を、崩れモデルを推定する際に、人手アノテーションによって抽出された正規文字列と崩れ文字列の単位と定義する。また、図２に示すように、「崩れフレーズ・正規フレーズ」を、崩れ語・正規語のペア（正解データ）を用いて、フレーズアライメントにより抽出した崩れ語・正規語中の部分文字列の単位と定義する。

基本的な解決方針として、下記（１）式に示すように、従来の形態素解析の目的関数に、正規フレーズが崩れフレーズに変換される確率をかけることにより、正規表記の品詞と正しい単語区切りを同時に推定する。

ただし、Ｐ（Ｖ｜Ｗ）は、正規語Ｖが観測語Ｗに変換される単語変換確率であり、正規フレーズが崩れフレーズに変換される確率と等しい。また、Ｐ（Ｔ）は、正規表記の品詞の列Ｔの接続確率であり、Ｐ（Ｗ｜Ｔ）が、正規表記の品詞の列Ｔが与えられたときの観測語Ｗの正規確率である。

また、単語変換確率を文字列（フレーズ）ごとに分解し、下記（２）式に示すように、フレーズ変換確率の積で単語変換確率を近似し、フレーズ確率をトランスリタレーションモデルで求める。

＜第１の実施の形態に係るモデル学習装置の構成＞
次に、本発明の第１の実施の形態に係るモデル学習装置の構成について説明する。図３に示すように、本発明の第１の実施の形態に係るモデル学習装置１００は、ＣＰＵと、ＲＡＭと、後述する正規崩れフレーズモデル学習処理ルーチン及びフレーズフィルタモデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。このモデル学習装置１００は、機能的には図３に示すように入力部１０と、演算部２０と、出力部５０とを備えている。

入力部１０は、図４に示すような、Ｔｗｉｔｔｅｒ（登録商標）やブログなど、崩れ表記が含まれる文から、人手で抽出された崩れ語に対し、対応する正規語が付与されたフレーズ推定用の正解データである正規語崩れ語ペアデータを受け付ける。また、入力部１０は、ｗｅｂ上の複数分野の大量の文書群を受け付け、複数分野のコーパスとする。

演算部２０は、初期設定部３０と、フレーズアライメント部３１と、変換確率算出部３２と、反復判定部３４と、正規崩れフレーズモデル記憶部３６と、統計量算出部４２と、モデル学習部４４と、フレーズフィルタモデル記憶部４６とを含んで構成されている。

初期設定部３０は、入力部１０において受け付けた正規語崩れ語ペアデータに基づいて、正規フレーズｆｖと崩れフレーズｆｗの全てのペアを求め、各ペアについて変換確率Ｐ（ｆｗ｜ｆｖ）をランダムに設定し、正規フレーズと崩れフレーズのペアの変換確率を格納した変換確率テーブルを生成しメモリ（図示省略）に記憶する。なお、正規フレーズｆｖと崩れフレーズｆｗの各ペアの変換確率Ｐ（ｆｗ｜ｆｖ）をヒューリスティックに設定してもよい。

フレーズアライメント部３１は、正規語崩れ語ペアデータに含まれるペアの各々について、初期設定部３０において生成された又は変換確率算出部３２において更新された変換確率テーブルに基づいて、動的計画法により最適な対応関係である最適アライメントを求める。具体的には、動的計画法に基づいて、図５に示すような表を用いて最小コストの経路を探索し、文字間の対応関係を求める。経路の総コストは、経路上における文字列の対応コストの和で表される。コスト関数としては、例えば、図６のような確率値の対数をとった値が用いられる。この場合、最小コストの経路が経路１であるとすると、出力アライメントは、（か，か），（な，な），（ぁー，ｎｕｌｌ），（り，り）となる。ただし、（ｎｕｌｌ，ｘ）はｘの挿入、（ｙ，ｎｕｌｌ）はｙの削除を表す。

変換確率算出部３２は、フレーズアライメント部３１においてｔ回目に求められた正規語崩れ語ペアデータに含まれるペアの各々の最適アライメントに基づいて、下記（３）式に従って、ｔ回目の計算におけるＰ（ｆｗ｜ｆｖ）の期待値Ｐ_ｔ（ｆｗ｜ｆｖ）を求め、メモリに記憶する。そして、求められた期待値Ｐ_ｔ（ｆｗ｜ｆｖ）の値により変換確率テーブルを更新メモリに記憶する。ただし、Ｎ（ｆｗ，ｆｖ）は、正規語崩れ語ペアデータの最適アライメントにおいて正規フレーズｆｖが崩れフレーズｆｗに変換された回数を表す。

反復判定部３４は、変換確率算出部３２において算出されたＰ_ｔ（ｆｗ｜ｆｖ）に基づく尤度関数と、メモリに記憶されている前回算出されたＰ_ｔ−１（ｆｗ｜ｆｖ）に基づく尤度関数との差分が予め定められた閾値ε（例えばε＝０．０５）以下か否か判定する。差分が閾値ε以下である場合には、反復終了条件が満たされたと判定し、図７に示すような、現在の変換確率テーブルを、正規崩れフレーズモデルとして記憶部３６に記憶すると共に、出力部５０に出力する。また、差分が閾値εよりも大きい場合には、反復終了条件が満たされていないと判定し、フレーズアライメント部３１の処理と、変換確率算出部３２の処理とを繰り返す。なお、尤度関数は、下記（４）式により表される。また、繰り返し回数が上限回数に達したことを反復終了条件としてもよい。

正規崩れフレーズモデル記憶部３６には、正規崩れフレーズモデルが記憶されている。

統計量算出部４２は、入力部１０において受け付けた複数分野のコーパスに基づいて、全ての文字ｎ‐ｇｒａｍについて、文字ｎ‐ｇｒａｍ統計量を算出する。例えば、対象文書として「そんなんやってらんねーよ」があった場合、文字２グラム統計量として、Ｐ（ん｜そ）、Ｐ（な｜ん）等を算出し、文字３グラム統計量として、Ｐ（な｜そ，ん）、Ｐ（ん｜ん，な）等を算出する。なお、形態素解析処理済みの複数分野のコーパスに基づいて、全ての単語表層ｎ‐ｇｒａｍについて、単語表層ｎ‐ｇｒａｍ統計量を算出してもよい。

データ生成部４３は、入力部１０において受け付けた正規語崩れ語ペアデータに含まれるペアの各々について、正規崩れフレーズモデル記憶部３６に記憶されている正規崩れフレーズモデルに基づいて、崩れ語の部分文字列のうち、崩れフレーズに該当する部分文字列を、当該崩れフレーズに対応する正規フレーズの部分文字列に変換する。そして、変換後の正規フレーズが当該崩れ語に対応する正規語に含まれるか否か判定し、含まれる場合には当該正規フレーズに対応する文字ｎ‐ｇｒａｍ統計量、及び当該崩れフレーズに対応する文字ｎ‐ｇｒａｍ統計量を含む学習データを正例データとして生成し、含まれない場合には当該正規フレーズに対応する文字ｎ‐ｇｒａｍ統計量及び崩れフレーズに対応する文字ｎ‐ｇｒａｍ統計量を含む学習データを、負例データとして生成する。

モデル学習部４４は、データ生成部４３において生成された正例データ及び負例データからなる学習データに基づいて、サポートベクタマシン等を用いて識別学習を行い、崩れフレーズを正規フレーズへ変換することの尤もらしさを判断するためのフレーズフィルタモデルを学習し、フレーズフィルタモデル記憶部４６に記憶すると共に、出力部５０に出力する。

フレーズフィルタモデル記憶部４６には、モデル学習部４４において学習されたフレーズフィルタモデル、及び統計量算出部４２により算出された文字ｎ‐ｇｒａｍ統計量が記憶されている。

＜第１の実施の形態に係る形態素解析装置の構成＞
次に、本発明の第１の実施の形態に係る形態素解析装置の構成について説明する。図８に示すように、本発明の第１の実施の形態に係る形態素解析装置２００は、ＣＰＵと、ＲＡＭと、後述する形態素解析処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この形態素解析装置２００は、機能的には図８に示すように入力部２１０と、演算部２２０と、出力部２５０とを備えている。

入力部２１０は、入力文を受け付ける。

演算部２２０は、解析候補生成部２３０と、正規崩れフレーズモデル記憶部２３２と、辞書データベース２３３と、算出部２３５と、フレーズフィルタモデル記憶部２３６と、解析対象抽出部２３８と、ラティス生成部２３９と、選択部２４０とを含んで構成されている。

解析候補生成部２３０は、正規崩れフレーズモデル記憶部２３２に記憶されている正規崩れフレーズモデルに基づいて、入力部１０において受け付けた入力文から解析候補文を各々生成する。具体的には、入力部２１０において受け付けた入力文に、正規崩れフレーズモデルに含まれる崩れフレーズに一致する部分文字列がある場合には、部分文字列を当該崩れフレーズに対応する正規フレーズに変換することにより解析候補文を生成する。なお、解析候補文は、入力文に含まれる崩れフレーズのうち１か所のみ変更したものとし、崩れフレーズが複数ある場合には、崩れフレーズ毎に解析候補文が生成される。図９に具体例を示す。また、崩れフレーズに対応する正規フレーズが複数ある場合には、正規フレーズ毎に解析候補文が生成される。

正規崩れフレーズモデル記憶部２３２には、モデル学習装置１００において学習された正規崩れフレーズモデルと同一の正規崩れフレーズモデルが記憶されている。

辞書データベース記憶部２３３には、形態素解析を行うために必要な辞書（読み、表記、品詞、コスト（生起確率））及び品詞ペアの各々の接続確率が記憶されている。

フレーズフィルタモデル記憶部２３６には、モデル学習装置１００において学習されたフレーズフィルタモデル及び文字ｎ‐ｇｒａｍ統計量と同一のフレーズフィルタモデル及び文字ｎ‐ｇｒａｍ統計量が記憶されている。

解析対象抽出部２３８は、解析候補生成部２３０において生成された解析候補文の各々について、入力文と、フレーズフィルタモデル記憶部２３６に記憶されているフレーズフィルタモデル及び文字ｎ‐ｇｒａｍ統計量とに基づいて、崩れフレーズが正規フレーズへ正しく変換された解析候補文であるか否かを判定し、正しく変換された解析候補文であると判定された場合に、解析対象文として抽出し、正しく変換された解析候補文でないと判定された場合に、当該解析候補文を削除する。

例えば、入力文の崩れフレーズを変換した正規フレーズの文字ｎ‐ｇｒａｍ統計量と、入力文の崩れフレーズの文字ｎ‐ｇｒａｍ統計量と、フレーズフィルタモデル記憶部２３６に記憶されているフレーズフィルタモデルとに基づいて、当該崩れフレーズを当該正規フレーズへ変換した変換の尤もらしさを示すスコアを算出し、算出されたスコアが閾値以上であれば、正しく変換された解析対象文であると判定する。

ラティス生成部２３９は、入力部２１０において受け付けた入力文と、解析対象抽出部２３８において抽出された解析対象文の各々とに対して、辞書データベース記憶部２３３に記憶されている辞書を用いて辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成する。作成したラティスの例を図１０に示す。

選択部２４０は、ラティス生成部２３９において生成したラティスと、正規崩れフレーズモデル記憶部２３２に記憶されている正規崩れフレーズモデルの変換確率と、辞書データベース記憶部２３３に記憶されている辞書のコスト及び品詞ペアの接続確率とに基づいて、動的計画法に従って、上記（１）式の目的関数を最大化する、当該ラティスのノードを結んだ最適な経路を選択し、選択された経路が表す正規表記の品詞と単語区切りを、形態素解析結果として出力する。

＜第１の実施の形態に係るモデル学習装置の作用＞
次に、本発明の第１の実施の形態に係るモデル学習装置１００の作用について説明する。入力部１０において正規語崩れ語ペアデータを受け付けると、モデル学習装置１００は、図１１に示す正規崩れフレーズモデル学習処理ルーチンを実行する。

まず、ステップＳ１００では、入力部１０において受け付けた正規語崩れ語ペアデータに基づいて、正規フレーズｆｖと崩れフレーズｆｗの全てのペアを求め、各ペアについて変換確率Ｐ（ｆｗ｜ｆｖ）をランダムに設定し、各ペアの変換確率を格納した変換確率テーブルを生成し、メモリに記憶する。

次に、ステップＳ１０４では、正規語崩れ語ペアデータに含まれるペアの各々について、ステップＳ１００において生成した、又はステップＳ１０６において前回更新した変換確率テーブルに基づいて、動的計画法に従って、文字間の対応関係である最適アライメントを求める。

次に、ステップＳ１０６では、ステップＳ１０４において正規語崩れ語ペアデータに含まれるペアの各々の最適アライメントに基づいて、Ｐ（ｆｗ｜ｆｖ）の期待値Ｐ_ｔ（ｆｗ｜ｆｖ）を求め、メモリに記憶し、求められた期待値Ｐ_ｔ（ｆｗ｜ｆｖ）の値により変換確率テーブルを更新する。

次に、ステップＳ１０８では、ステップＳ１０６において取得した正規フレーズと崩れフレーズペアの各々のＰ（ｆｗ｜ｆｖ）の期待値Ｐ_ｔ（ｆｗ｜ｆｖ）に基づいて、上記（４）式に従って、尤度関数を算出する。

次に、ステップＳ１１０では、ステップＳ１０８において取得した尤度関数の値と、前回のステップＳ１０８において取得した尤度関数の値の差分が、予め定められた閾値ε以下か否かを判定する。差分が閾値ε以下である場合には反復終了条件が満たされたと判定し、ステップＳ１１０へ移行し、差分が閾値εよりも大きい場合には反復終了条件が満たされていないと判定し、ステップＳ１０４へ移行し、ステップＳ１０４〜ステップＳ１１０の処理を繰り返す。

次に、ステップＳ１１２では、ステップＳ１０６において最終的に更新された変換確率テーブルを、正規崩れフレーズモデルとして正規崩れフレーズモデル記憶部３６に記憶する。

次に、ステップＳ１１４では、ステップＳ１１２において取得した正規崩れフレーズモデルを出力部５０により出力して、処理を終了する。

次に、本発明の第１の実施の形態に係るモデル学習装置１００の作用について説明する。入力部１０において正規語崩れ語ペアデータ及び複数分野のコーパスを受け付けると、モデル学習装置１００は、図１２に示すフレーズフィルタモデル学習処理ルーチンを実行する。

まず、ステップＳ２０１では、正規崩れフレーズモデル記憶部３６に記憶されている正規崩れフレーズモデルを読み込む。

次に、ステップＳ２０３では、入力部１０において受け付けた複数分野のコーパスに基づいて、全ての文字ｎ‐ｇｒａｍについて、文字ｎ‐ｇｒａｍ統計量を算出する。

次に、ステップＳ２０４では、入力部１０において受け付けた正規語崩れ語ペアデータに含まれるペアの各々について、ステップＳ２０１において取得した正規崩れフレーズモデルに基づいて、崩れ語の部分文字列のうち、崩れフレーズに該当する部分文字列を、当該崩れフレーズに対応する正規フレーズの部分文字列に変換する。

次に、ステップＳ２０５では、入力部１０において受け付けた正規語崩れ語ペアデータの処理対象のペアについて、ステップＳ２０４において変換した正規フレーズの各々について、処理対象のペアの正規語に含まれるか否か判定し、含まれる場合には、ステップＳ２０３において取得した当該正規フレーズと当該崩れフレーズとの各々に対応する文字ｎ‐ｇｒａｍ統計量を含む学習データを正例データとして作成し、含まれない場合には、ステップＳ２０３において取得した当該正規フレーズと当該崩れフレーズとの各々に対応する文字ｎ‐ｇｒａｍ統計量を含む学習データを負例データとして作成する。

ステップ２０６では、正規語崩れ語ペアデータの全てのペアについて、上記ステップＳ２０４、Ｓ２０５の処理を実行したか否かを判定し、上記ステップＳ２０４、Ｓ２０５の処理を実行していないペアが存在する場合には、上記ステップＳ２０４へ戻り、当該ペアを、処理対象とする。一方、全てのペアについて、上記ステップＳ２０４、Ｓ２０５の処理を実行した場合には、ステップＳ２０７へ進む。

次に、ステップＳ２０７では、ステップＳ２０５において取得した正例データ及び負例データからなる学習データに基づいて、サポートベクタマシン等を用いて識別学習を行い、崩れフレーズを正規フレーズへ変換することの尤もらしさを判断するためのフレーズフィルタモデルを学習し、フレーズフィルタモデル記憶部４６に記憶する。また、上記ステップＳ２０３で算出された文字ｎ‐ｇｒａｍ統計量を、フレーズフィルタモデル記憶部４６に記憶する。

次に、ステップＳ２０８では、ステップＳ２０７において学習したフレーズフィルタモデル、及び上記ステップＳ２０３で算出された文字ｎ‐ｇｒａｍ統計量を出力部５０により出力し、フレーズフィルタモデル学習処理ルーチンの処理を終了する。

＜第１の実施の形態に係る形態素解析装置の作用＞
次に、本発明の第１の実施の形態に係る形態素解析装置２００の作用について説明する。まず、モデル学習装置１００により出力された正規崩れフレーズモデルが、形態素解析装置２００に入力され、正規崩れフレーズモデル記憶部２３２に記憶される。また、モデル学習装置１００により出力されたフレーズフィルタモデル及び文字ｎ‐ｇｒａｍ統計量が、形態素解析装置２００に入力され、フレーズフィルタモデル記憶部２３６に記憶される。そして、入力部２１０において入力文を受け付けると、形態素解析装置２００は、図１３に示す形態素解析処理ルーチンを実行する。

まず、ステップＳ３００では、正規崩れフレーズモデル記憶部２３２に記憶されている正規崩れフレーズモデルを読み込む。

次に、ステップＳ３０１では、辞書データベース記憶部２３３に記憶されている辞書を読み込む。

次に、ステップＳ３０２では、フレーズフィルタモデル記憶部２３６に記憶されているフレーズフィルタモデル及び文字ｎ‐ｇｒａｍ統計量を読み込む。

次に、ステップＳ３０４では、入力部２１０において受け付けた入力文について、ステップＳ３００において取得した正規崩れフレーズモデルに基づいて、解析候補文の各々を生成する。

次に、ステップＳ３０８では、ステップＳ３０４において取得した解析候補文の各々について、入力部２１０において受け付けた入力文と、ステップＳ３０２において取得したフレーズフィルタモデル及び文字ｎ‐ｇｒａｍ統計量とに基づいて、崩れフレーズが正規フレーズへ正しく変換された解析候補文であるか否かを判定し、正しく変換された解析候補文であると判定された場合に、解析対象文として抽出し、正しく変換された解析候補文でないと判定された場合に、当該解析候補文を削除する。

次に、ステップＳ３１０では、ステップＳ３０８において抽出された解析対象文の各々と、入力部２１０において受け付けた入力文とに対して、ステップＳ３０１において取得した辞書を用いて辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成する。

次に、ステップＳ３１２では、ステップＳ３１０において取得したラティスと、ステップＳ３００において取得した正規崩れフレーズモデルの変換確率と、ステップＳ３０１において取得した辞書のコスト及び品詞ペアの接続確率とに基づいて、動的計画法に従って、上記（１）式の目的関数を最大化する、当該ラティスのノードを結んだ最適な経路を選択する。

次に、ステップＳ３１４では、ステップＳ３１２において選択された経路が表わす正規表記の品詞と単語区切りを、形態素解析結果として出力部２５０により出力して形態素解析処理ルーチンを終了する。

上記の形態素解析処理ルーチンを実行することにより、例えば、入力文「そんなんやってらんねーよ」が入力された場合には、図１４（Ｂ）に示すような、形態素解析結果が出力される。なお、比較例として、従来の形態素解析器を用いた場合の形態素解析結果を、図１４（Ａ）に示す。

また、入力文「次の日にはすーぐ生きてーｗ」が入力された場合御には、図１５（Ｂ）に示すような、形態素解析結果が出力される。一方、従来の形態素解析器を用いた場合には、図１５（Ａ）に示す形態素解析結果となる。

以上説明したように、本発明の第１の実施の形態に係る形態素解析装置によれば、正規崩れフレーズモデル及びフレーズフィルタモデルを用いることにより、揺らいだ表記である崩れ語を含む文字列に対しても、形態素解析を精度よく行うことができることができる。

また、本発明の第１の実施の形態に係るモデル学習装置によれば、揺らいだ表記である崩れ語を含む文字列に対しても形態素解析を精度よく行うことができる正規崩れフレーズモデル及びフレーズフィルタモデルを学習することができる。

また、文字列レベルの揺らぎモデルを正解データから自動構築し、形態素解析に組み込むことにより、崩れた表記にも頑健な形態素解析器の枠組みを提供できる。

また、正規表記と崩れ表記の正解ペアデータを用いてトランスリタレーションによるフレーズ変換モデルを導入することにより、ルールとルールごとのコスト設定を自動で行うことができる。

また、崩れフレーズであるとして正規フレーズに変換された箇所が、正しく変換された否かを判別するフレーズフィルタモデルを導入することにより、解析対象となる候補を削減することができ、解析時における計算コストを削減することが出来る。

また、トランスリタレーションモデルにより、正規フレーズ及び崩れフレーズのペア対と変換確率とを自動で獲得し、動的計画法との組み合わせにより処理速度と処理精度との向上を図ることができる。

次に、第２の実施の形態について説明する。なお、第１の実施の形態と同様の構成及び作用となる部分については、同一符号を付して説明を省略する。

第２の実施の形態では、文字ｎ‐ｇｒａｍ統計量をフレーズフィルタモデルとする点が第１の実施の形態と異なっている。

＜第２の実施の形態に係るモデル学習装置の構成＞
次に、第２の実施の形態に係るモデル学習装置３００の構成について説明する。

本発明の第２の実施の形態に係るモデル学習装置３００は、図１６に示すように、入力部１０と、演算部３２０と、出力部５０とを備えている。

演算部３２０は、初期設定部３０と、フレーズアライメント部３１と、変換確率算出部３２と、反復判定部３４と、正規崩れフレーズモデル記憶部３６と、統計量算出部３４２と、フレーズフィルタモデル記憶部３４６とを含んで構成されている。

統計量算出部３４２は、入力部１０において受け付けた複数分野のコーパスに基づいて、全ての文字ｎ‐ｇｒａｍについて、文字ｎ−ｇｒａｍ統計量を算出し、算出された文字ｎ‐ｇｒａｍ統計量の集合をフレーズフィルタモデルとしてフレーズフィルタモデル記憶部３４６に記憶する。

フレーズフィルタモデル記憶部３４６には、統計量算出部３４２において生成されたフレーズフィルタモデルが記憶されている。

＜第２の実施の形態に係る形態素解析装置の構成＞
次に、第２の実施の形態に係る形態素解析装置４００の構成について説明する。

本発明の第２の実施の形態に係る形態素解析装置４００は、図１７に示すように、入力部２１０と、演算部４２０と、出力部５０とを備えている。

演算部４２０は、解析候補生成部２３０と、正規崩れフレーズモデル記憶部２３２と、辞書データベース記憶部２３３と、算出部４２５と、フレーズフィルタモデル記憶部４３６と、解析対象抽出部４３８と、ラティス生成部２３９と、選択部２４０とを含んで構成されている。

算出部４３５は、解析候補生成部２３０により生成された解析候補文の各々について、入力文と、フレーズフィルタモデル記憶部４３６に記憶されている文字ｎ‐ｇｒａｍ統計量の集合であるフレーズフィルタモデルとに基づいて、入力文中の崩れフレーズに対応する文字ｎ‐ｇｒａｍ統計量Ｐ（変換前）と、当該解析候補文中の正規フレーズに対応する文字ｎ‐ｇｒａｍ統計量Ｐ（変換後）を用いて、フレーズ変換の尤もらしさを示す値として、Ｐ（変換後）／Ｐ（変換前）を算出する。例えば、入力文「やってらんねーよ」と解析候補文「やってらんないよ」が有る場合、入力文中の変換部分の変換文字列と周辺の文字列とからなる部分文字列に対応する文字ｎ‐ｇｒａｍ統計量、Ｐ（よ｜ん，ね，ー）と、解析候補文中の変換文の返還文字列と周辺の文字列とからなる部分文字列に対応する文字ｎ‐ｇｒａｍ統計量、Ｐ（よ｜ん，な，い）を用いて、Ｐ（よ｜ん，な，い）／Ｐ（よ｜ん，ね，ー）の値を算出する。

解析対象抽出部４３８は、解析候補文の各々について、算出部４３５において当該解析候補文について算出された、フレーズ変換の尤もらしさを示す値が閾値Ｔよりも大きいか否か判定する。閾値Ｔよりもフレーズ変換の尤もらしさを示す値が大きい場合、当該解析候補文を解析対象文として抽出し、算出されたフレーズ変換の尤もらしさを示す値が閾値Ｔ以下である場合、当該解析候補文を削除する。

＜第２の実施の形態に係るモデル学習装置の作用＞
次に、本発明の第２の実施の形態に係るモデル学習装置３００の作用について説明する。入力部１０において複数分野のコーパスを受け付けると、モデル学習装置３００は、図１８に示すフレーズフィルタモデル学習処理ルーチンを実行する。

ステップＳ４００では、ステップＳ２０３において取得した文字ｎ‐ｇｒａｍ統計量の集合をフレーズフィルタモデルとしてフレーズフィルタモデル記憶部３４６に記憶する。

＜第２の実施の形態に係る形態素解析装置の作用＞
次に、本発明の第２の実施の形態に係る形態素解析装置４００の作用について説明する。入力部２１０において入力文を受け付けると、形態素解析装置４００は、図１９に示す形態素解析処理ルーチンを実行する。

ステップＳ５００では、入力部２１０において受け付けた入力文と、ステップＳ３０４において取得した解析候補文の各々と、ステップＳ３０２において取得したフレーズフィルタモデルとに基づいて、解析候補文の各々について、フレーズ変換の尤もらしさを示す値を算出する。

ステップＳ５０２では、ステップＳ５００において算出した、フレーズ変換の尤もらしさを示す値が閾値Ｔよりも大きい値である解析候補文の各々を、解析対象文として抽出する。

以上説明したように、本発明の第２の実施の形態に係る形態素装置によれば、正規崩れフレーズモデル及び文字ｎ‐ｇｒａｍ統計量の集合からなるフレーズフィルタモデルを用いて、揺らいだ表記である崩れ語を含む文字列に対しても、形態素解析を精度よく行うことができることができる。

また、本発明の第２の実施の形態に係るモデル学習装置によれば、揺らいだ表記である崩れ語を含む文字列に対しても形態素解析を精度よく行うことができる正規崩れフレーズモデル及び文字ｎ‐ｇｒａｍ統計量の集合からなるフレーズフィルタモデルを学習することができる。

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

第２の実施の形態においては、フレーズ変換の尤もらしさを示す値を、Ｐ（変換後）／Ｐ（変換前）として算出し、当該値が閾値Ｔよりも大きい解析候補文を解析対象文として抽出する場合について説明したがこの限りでない。例えば、Ｐ（変換後）−Ｐ（変換前）の値が予め定められた閾値以上である解析候補文を解析対象文として抽出しても良い。

次に、第３の実施の形態について説明する。なお、第１の実施の形態と同様の構成及び作用となる部分については、同一符号を付して説明を省略する。

第３の実施の形態では、正規崩れフレーズモデルのみを用いる点が第１の実施の形態と異なっている。

＜第３の実施の形態に係るモデル学習装置の構成＞
次に、第３の実施の形態に係るモデル学習装置５００の構成について説明する。

本発明の第３の実施の形態に係るモデル学習装置５００は、図２０に示すように、入力部１０と、演算部５２０と、出力部５０とを備えている。

演算部５２０は、初期設定部３０と、フレーズアライメント部３１と、変換確率算出部３２と、反復判定部３４と、正規崩れフレーズモデル記憶部３６とを含んで構成されている。

＜第３の実施の形態に係る形態素解析装置の構成＞
次に、第３の実施の形態に係る形態素解析装置６００の構成について説明する。

本発明の第３の実施の形態に係る形態素解析装置６００は、図２１に示すように、入力部１０と、演算部６２０と、出力部５０とを備えている。

演算部６２０は、解析候補生成部２３０と、正規崩れフレーズモデル記憶部２３２と、辞書データベース記憶部２３３と、ラティス生成部６３９と、選択部２４０とを含んで構成されている。

ラティス生成部６３９は、入力部２１０において受け付けた入力文と、解析候補生成部２３０において生成した解析候補文の各々とに対して辞書データベース記憶部２３３に記憶されている辞書を用いて辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成する。

以上説明したように、本発明の第３の実施の形態に係る形態素装置によれば、正規崩れフレーズモデルを用いて、揺らいだ表記である崩れ語を含む文字列に対しても、形態素解析を精度よく行うことができることができる。

また、本発明の第３の実施の形態に係るモデル学習装置によれば、揺らいだ表記である崩れ語を含む文字列に対しても形態素解析を精度よく行うことができる正規崩れフレーズモデルを学習することができる。

次に、第４の実施の形態について説明する。なお、第１の実施の形態と同様の構成及び作用となる部分については、同一符号を付して説明を省略する。

第４の実施の形態では、正規崩れフレーズモデルの代わりに、予め人手で作成した正規崩れフレーズルールを用いる点が第１の実施の形態と異なっている。

＜第４の実施の形態に係るモデル学習装置の構成＞
次に、第４の実施の形態に係るモデル学習装置７００の構成について説明する。

本発明の第４の実施の形態に係るモデル学習装置７００は、図２２に示すように、入力部１０と、演算部７２０と、出力部５０とを備えている。

演算部７２０は、正規崩れフレーズルール記憶部７３６と、統計量算出部４２と、データ生成部７４３と、モデル学習部４４と、フレーズフィルタモデル記憶部４６とを含んで構成されている。

正規崩れフレーズルール記憶部７３６には、崩れフレーズと、当該崩れフレーズに対する正規フレーズとの複数のペアが、正規崩れフレーズルールとして予め記憶されている。

データ生成部７４３は、入力部１０において受け付けた正規語崩れ語ペアデータに含まれるペアの各々について、正規崩れフレーズルール記憶部７３６に記憶されている正規崩れフレーズルールに基づいて、当該ペアの崩れ語の部分文字列のうち、崩れフレーズに該当する部分文字列を、当該崩れフレーズを対応する正規フレーズの部分文字列に変換する。そして、変換後の正規フレーズが当該ペアの正規語に含まれるか否か判定し、含まれる場合には当該正規フレーズに対応する文字ｎ‐ｇｒａｍ統計量、及び当該崩れフレーズに対応する文字ｎ‐ｇｒａｍ統計量を含む学習データを正例データとして生成し、含まれない場合には当該正規フレーズに対応する文字ｎ‐ｇｒａｍ統計量、及び崩れフレーズに対応する文字ｎ‐ｇｒａｍ統計量を含む学習データを負例データとして生成する。

＜第４の実施の形態に係る形態素解析装置の構成＞
次に、第４の実施の形態に係る形態素解析装置８００の構成について説明する。

本発明の第４の実施の形態に係る形態素解析装置８００は、図２３に示すように、入力部２１０と、演算部８２０と、出力部５０とを備えている。

演算部８２０は、解析候補生成部８３０と、正規崩れフレーズルール記憶部８３２と、辞書データベース記憶部２３３と、フレーズフィルタモデル記憶部２３６と、解析対象抽出部２３８と、ラティス生成部２３９と、選択部８４０とを含んで構成されている。

解析候補生成部８３０は、正規崩れフレーズルール記憶部８３２に記憶されている正規崩れフレーズルールに基づいて、入力部２１０において受け付けた入力文から解析候補文を各々生成する。

フレーズルール記憶部８３２には、モデル学習装置７００のフレーズルール記憶部７３６に記憶されている正規崩れフレーズルールと同一の正規崩れフレーズルールが記憶されている。

選択部８４０は、ラティス生成部２３９において生成したラティスと、辞書データベース記憶部２３３に記憶されている辞書のコスト及び品詞ペアの接続確率とに基づいて、動的計画法に従って、上記（１）式の目的関数を最大化する、当該ラティスのノードを結んだ最適な経路を選択し、選択された経路が表す正規表記の品詞と単語区切りを、形態素解析結果として出力する。なお、上記（１）式において、各変換確率として一定値を用いればよい。

以上説明したように、本発明の第４の実施の形態に係る形態素装置によれば、正規崩れフレーズルール及びフレーズフィルタモデルを用いて、揺らいだ表記である崩れ語を含む文字列に対しても、形態素解析を精度よく行うことができることができる。

また、本発明の第４の実施の形態に係るモデル学習装置によれば、揺らいだ表記である崩れ語を含む文字列に対しても形態素解析を精度よく行うことができるフレーズフィルタモデルを学習することができる。

例えば、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。

１０入力部
２０演算部
３０初期設定部
３１フレーズアライメント部
３２変換確率算出部
３４反復判定部
３６正規崩れフレーズモデル記憶部
４２統計量算出部
４３データ生成部
４４モデル学習部
４６フレーズフィルタモデル記憶部
５０出力部
１００モデル学習装置
２００形態素解析装置
２１０入力部
２２０演算部
２３０解析候補生成部
２３２正規崩れフレーズモデル記憶部
２３３辞書データベース記憶部
２３５算出部
２３６フレーズフィルタモデル記憶部
２３８解析対象抽出部
２３９ラティス生成部
２４０選択部
２５０出力部
３００モデル学習装置
３２０演算部
３４２統計量算出部
３４６フレーズフィルタモデル記憶部
４００形態素解析装置
４２０演算部
４２５算出部
４３５算出部
４３６フレーズフィルタモデル記憶部
４３８解析対象抽出部
５００モデル学習装置
５２０演算部
６００形態素解析装置
６２０演算部
６３９ラティス生成部
７００モデル学習装置
７２０演算部
７３６正規崩れフレーズルール記憶部
７４３データ生成部
８００形態素解析装置
８２０演算部
８３０解析候補生成部
８３２正規崩れフレーズルール記憶部
８４０選択部

Claims

入力された正規化された表現である正規語と、前記正規語に対して揺らいだ表記である崩れ語との複数のペアに基づいて、前記複数のペアの各々について、前記正規語を文字列の区切り位置で区切った部分文字列である正規フレーズの各々と、前記崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズの各々との最適な対応関係を、動的計画法に従って求めるフレーズアライメント部と、
前記フレーズアライメント部により求められた前記複数のペアの各々についての前記対応関係に基づいて、前記正規フレーズ及び前記崩れフレーズの各ペアについて、前記正規フレーズが前記崩れフレーズに変換される変換確率を算出する変換確率算出部と、
を含む、モデル学習装置。
前記入力された前記複数のペアに基づいて、前記正規フレーズ及び前記崩れフレーズの各ペアについて前記変換確率を格納した変換確率テーブルを初期化する初期設定部と、
予め定められた反復終了条件が満たされるまで、前記フレーズアライメント部による処理及び前記変換確率算出部による算出を繰り返し、前記変換確率テーブルを正規崩れフレーズモデルとして出力する反復判定部とを更に含み、
前記フレーズアライメント部は、前記変換確率テーブルに基づいて、前記複数のペアの各々についての最適な対応関係を、動的計画法に従って求め、
前記変換確率算出部は、前記正規フレーズ及び前記崩れフレーズの各ペアについて、前記変換確率を算出し、前記変換確率テーブルを更新する請求項１記載のモデル学習装置。
入力された複数のコーパスに基づいて、ｎ個の文字からなる文字ｎ−ｇｒａｍ及びｎ個の単語からなる単語表層ｎ−ｇｒａｍの少なくとも一方の各々について、統計量を算出する統計量算出部と、
入力された正規化された表現である正規語と前記正規語に対して揺らいだ表記である崩れ語との複数のペア、及び前記崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズを、前記正規語を文字列の区切り位置で区切った部分文字列である正規フレーズに変換するための予め求められた正規崩れフレーズモデルに基づいて、前記複数のペアの各々について、前記ペアの前記崩れ語に含まれる前記崩れフレーズを前記正規フレーズに変換し、前記変換された正規フレーズと前記ペアの前記正規語との比較結果に基づいて、前記崩れフレーズに対応する文字ｎ−ｇｒａｍ及び単語表層ｎ−ｇｒａｍの少なくとも一方について算出された統計量と、前記正規フレーズに対応する文字ｎ−ｇｒａｍ及び単語表層ｎ−ｇｒａｍの少なくとも一方について算出された統計量とを含む、正例データ及び負例データの何れか一方である学習データを生成するデータ生成部と、
前記データ生成部によって前記複数のペアの各々について生成された学習データに基づいて、前記崩れフレーズを前記正規フレーズへ変換することの尤もらしさを判断するためのフレーズフィルタモデルを学習する学習部と、
を含む、モデル学習装置。
正規化された表現である正規語を文字列の区切り位置で区切った部分文字列である正規フレーズを、前記正規語に対して揺らいだ表記である崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズに変換するための予め求められた正規崩れフレーズモデルに基づいて、入力された文字列について、前記崩れフレーズに一致する部分文字列を、対応する前記正規フレーズに置き換えた文字列を解析候補として生成する解析候補生成部と、
前記入力された文字列及び前記解析候補生成部によって生成された前記解析候補の文字列の各々に対して辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するラティス生成部と、
前記ラティス生成部において生成されたラティスに基づいて、動的計画法に従って、前記ノードを結んだ最適な経路を選択し、解析結果として出力する選択部と、
を含む、形態素解析装置。
正規化された表現である正規語を文字列の区切り位置で区切った部分文字列である正規フレーズを、前記正規語に対して揺らいだ表記である崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズに変換するための予め求められた正規崩れフレーズモデルに基づいて、入力された文字列について、前記崩れフレーズに一致する部分文字列を、対応する前記正規フレーズに置き換えた文字列を解析候補として生成する解析候補生成部と、
前記解析候補生成部によって生成された前記解析候補の各々について、前記崩れフレーズを前記正規フレーズへ変換することの尤もらしさを判断するための予め求められたフレーズフィルタモデルに基づいて、前記解析候補の尤もらしさを算出する算出部と、
前記解析候補生成部によって生成された前記解析候補から、前記算出部によって算出された前記解析候補の尤もらしさと、予め定められた閾値とに基づいて、尤もらしい前記解析候補を抽出する解析候補抽出部と、
前記入力された文字列及び前記解析候補抽出部によって抽出された前記解析候補の文字列の各々に対して辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するラティス生成部と、
前記ラティス生成部において生成されたラティスに基づいて、動的計画法に従って、前記ノードを結んだ最適な経路を選択し、解析結果として出力する選択部と、
を含む、形態素解析装置。
コンピュータを、請求項１記載のモデル学習装置を構成する各部として機能させるためのプログラム。
コンピュータを、請求項３記載のモデル学習装置を構成する各部として機能させるためのプログラム。
コンピュータを、請求項４又は５記載の形態素解析装置を構成する各部として機能させるためのプログラム。