JP6145059B2

JP6145059B2 - モデル学習装置、形態素解析装置、及び方法

Info

Publication number: JP6145059B2
Application number: JP2014041951A
Authority: JP
Inventors: いつみ斉藤; 九月貞光; 久子浅野; 松尾　義博; 義博松尾
Original assignee: Nippon Telegraph and Telephone Corp; NTT Inc USA
Current assignee: NTT Inc; NTT Inc USA
Priority date: 2014-03-04
Filing date: 2014-03-04
Publication date: 2017-06-07
Anticipated expiration: 2034-03-04
Also published as: JP2015169947A

Description

本発明は、モデル学習装置、形態素解析装置、及び方法に係り、特に、口語調などの正書法では現れない表記である崩れた表記を頑健に解析するためのモデル学習装置、形態素解析装置、及び方法に関する。

従来の日本語形態素解析器は、図３８に示すように、形態素の連接確率（コスト）と生起確率（コスト）を用いて、入力文の分かち書き（単語分割）と品詞付与を同時に行っている（総コストが最小の組み合わせを選択する。）。

また、異なる文字種間での文字変換の対応関係や、漢字−読みの対応関係を推定する際に用いられる手法として、トランスリタレーションという手法がある。トランスリタレーションとは、図３９に示す様に、２つの文字列間の対応関係を求める手法であり、例えば、動的計画法を用いて、各文字の対応を推定する等、様々な拡張手法が提案されている（非特許文献１）。

また、従来、崩れた表記に対応するために、図４０に示す様な、人手で文字列の変換ルールを作成し、形態素解析に組み込むことで対応している。ここで「崩れた表記」とは、図４１に示すように、口語超やｗeｂ特有の書き言葉など、新聞などの正書法では現れない表記を指す。具体的には、小文字化（あ→ぁ、い→ぃ）、長音化（あ→−、う→−）など、特徴的なパターンに関して人手整備を行い、形態素解析において、入力文の書き換えや辞書引き拡張を行う（非特許文献２、非特許文献３）。

辞書引きの拡張とは、入力文字列が別の文字列に変化した場合も考慮して辞書引きを行うことである。例えば、「軽−く」という入力文に対し、通常は「軽く」という形容詞は文字列が一致しないので列挙されないが、”「−」を削除”というルールを考慮した場合、「軽−く」と「軽く」という両方の文字列を辞書引きして一つのラティスにする。この場合は、「軽く」という形態素も列挙されるため、図４２のようなラティスが生成される。ここで、ラティスとは、入力文字列に対し、辞書引きを行った結果入力文字列に「マッチした形態素集合をグラフ構造にしたもの」である。図４３に例を示す。

齋藤邦子、篠原章夫、永田昌明、小原永，「音声制御ブラウザのVCWeb の英日シームレス化」，（2002），人工知能学会論文誌，pp.343-347 勝木健太、笹野遼平、河原大輔、黒橋禎夫，「web上の多彩な言語バリエーションに対応した頑健な形態素解析」，（2011），言語処理学会，第17回年次大会発表論文集岡照晃、小町守、小木曽智信、松本裕治，「表記のバリエーションを考慮した近代日本語の形態素解析」，（2013），第27回人工知能学会発表論文集

従来の日本語形態素解析器においては、辞書引きをベースとして解析を行うため、辞書に存在しない語が出現した場合に解析失敗を起こす確率が高いという点が問題となる。

また、上記の従来の崩れた表記に対応する手法においては、崩れパターンが多岐にわたるため、人手整備では網羅しきれず、再現率が低いという問題がある。また、崩れ確率は現象によって異なるものであるが、従来の手法においては、全ての崩れパターンに対して、同一のコストが与えられているという問題がある。

本発明では、上記問題点を解決するために成されたものであり、揺らいだ表記である崩れ語を含む文字列に対しても形態素解析を精度よく行うことができる形態素解析装置、及び方法を提供することを目的とする。

また、揺らいだ表記である崩れ語を含む文字列に対しても形態素解析を精度よく行うことができるモデルを学習することができるモデル学習装置、及び方法を提供することができる。

上記目的を達成するために、第１の発明に係るモデル学習装置は、入力された、正規化された表現である正規語に対して揺らいだ表記である崩れ語を含む崩れ文と、前記崩れ文に含まれる前記崩れ語を、前記正規語に置き換えた正規文に対する形態素解析結果とを受け付ける入力部と、崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズを、正規語を文字列の区切り位置で区切った部分文字列である正規フレーズに変換するための予め求められた正規崩れフレーズモデルに基づいて、前記入力された前記崩れ文について、前記崩れフレーズに一致する部分文字列を、対応する前記正規フレーズに置き換えた文字列を解析候補として生成する解析候補生成部と、前記入力された前記崩れ文及び前記解析候補生成部によって生成された前記解析候補の文字列の各々に対して辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するラティス生成部と、前記ラティス生成部によって生成されたラティスにおける前記ノードを結んだ各経路について、前記経路が表す品詞列に対する品詞連接コストを示す第１素性、前記経路が表す単語列に対する単語コストを示す第２素性、及び前記経路が表す単語列に対する単語表層ｎ−ｇｒａｍに基づくコストを示す第３素性を含む複数の素性を抽出する素性抽出部と、前記ラティス生成部によって生成されたラティスにおける前記ノードを結んだ各経路のうち、前記素性抽出部によって抽出された前記複数の素性を重み付け加算した値が最小となる経路が表す形態素解析結果と、前記入力された正規文の形態素解析結果との差分が最小になるように、前記複数の素性の各々に対する重みを学習する学習部と、を含んで構成されている。

また、第１の発明に係るモデル学習装置において、前記ラティス生成部は、前記入力された前記崩れ文及び前記解析候補生成部によって生成された前記解析候補の文字列の各々に対して辞書引きを行うと共に、前記解析候補生成部によって生成された前記解析候補の文字列の各々に対し、同一の読みであって、かつ、文字種が異なる複数の部分文字列の組み合わせを複数組格納した文字種変換辞書に基づいて、前記解析候補の文字列に含まれる前記正規フレーズについて、前記文字種変換辞書に格納されている組み合わせの部分文字列と一致する前記正規フレーズを、前記組み合わせの他の部分文字列に展開し、前記展開した部分文字列に対して辞書引きを行い、前記ラティスを生成し、前記素性抽出部は、前記ラティス生成部によって生成されたラティスにおける前記ノードを結んだ各経路について、前記経路が表す文字列が、前記崩れフレーズを置き換えた前記正規フレーズを含む場合に、前記崩れフレーズを前記正規フレーズに変換することについての文字列変換コストを示す第４素性を更に抽出し、前記経路が表す文字列が、前記文字種変換辞書に基づいて展開された部分文字列を含む場合に、文字種変換コストを示す第５素性を更に抽出してもよい。

第１の発明に係るモデル学習方法は、入力部が、入力された正規化された表現である正規語に対して揺らいだ表記である崩れ語を含む崩れ文と、前記崩れ文に含まれる前記崩れ語を、前記正規語に置き換えた正規文に対する形態素解析結果とを受け付けるステップと、解析候補生成部が、崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズを、正規語を文字列の区切り位置で区切った部分文字列である正規フレーズに変換するための予め求められた正規崩れフレーズモデルに基づいて、前記入力された前記崩れ文について、前記崩れフレーズに一致する部分文字列を、対応する前記正規フレーズに置き換えた文字列を解析候補として生成するステップと、ラティス生成部が、前記入力された前記崩れ文及び前記解析候補生成部によって生成された前記解析候補の文字列の各々に対して辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するステップと、素性抽出部が、前記ラティス生成部によって生成されたラティスにおける前記ノードを結んだ各経路について、前記経路が表す品詞列に対する品詞連接コストを示す第１素性、前記経路が表す単語列に対する単語コストを示す第２素性、及び前記経路が表す単語列に対する単語表層ｎ−ｇｒａｍに基づくコストを示す第３素性を含む複数の素性を抽出するステップと、学習部が、前記ラティス生成部によって生成されたラティスにおける前記ノードを結んだ各経路のうち、前記素性抽出部によって抽出された前記複数の素性を重み付け加算した値が最小となる経路が表す形態素解析結果と、前記入力された正規文の形態素解析結果との差分が最小になるように、前記複数の素性の各々に対する重みを学習するステップと、を含んで実行することを特徴とする。

第２の発明に係るモデル学習装置は、入力された複数のコーパスに基づいて、ｎ個の文字からなる文字ｎ−ｇｒａｍ及びｎ個の単語からなる単語表層ｎ−ｇｒａｍの少なくとも一方の各々について、統計量を算出する統計量算出部と、入力された正規化された表現である正規語と前記正規語に対して揺らいだ表記である崩れ語との複数のペア、及び前記崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズを、前記正規語を文字列の区切り位置で区切った部分文字列である正規フレーズに変換するための予め求められた正規崩れフレーズモデルに基づいて、前記入力された複数のペアの各々について、前記ペアの前記崩れ語に含まれる前記崩れフレーズを前記正規フレーズに変換し、前記変換された正規フレーズに対して辞書引きを行い、形態素情報を付与する形態素情報付与部と、前記変換された正規フレーズと前記ペアの前記正規語との比較結果に基づいて、前記正規フレーズに付与された形態素情報と、前記崩れフレーズに対応する文字ｎ−ｇｒａｍ及び単語表層ｎ−ｇｒａｍの少なくとも一方について算出された統計量と、前記正規フレーズに対応する文字ｎ−ｇｒａｍ及び単語表層ｎ−ｇｒａｍの少なくとも一方について算出された統計量とを含む、正例データ及び負例データの何れか一方である学習データを生成するデータ生成部と、前記データ生成部によって前記複数のペアの各々について生成された学習データに基づいて、前記崩れフレーズを前記正規フレーズへ変換することの尤もらしさを判断するためのフレーズフィルタモデルを学習する学習部と、を含んで構成されている。

第２の発明に係るモデル学習方法は、統計量算出部が、入力された複数のコーパスに基づいて、ｎ個の文字からなる文字ｎ−ｇｒａｍ及びｎ個の単語からなる単語表層ｎ−ｇｒａｍの少なくとも一方の各々について、統計量を算出するステップと、形態素情報付与部が、入力された正規化された表現である正規語と前記正規語に対して揺らいだ表記である崩れ語との複数のペア、及び前記崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズを、前記正規語を文字列の区切り位置で区切った部分文字列である正規フレーズに変換するための予め求められた正規崩れフレーズモデルに基づいて、前記入力された複数のペアの各々について、前記ペアの前記崩れ語に含まれる前記崩れフレーズから前記正規フレーズに変換し、前記変換された正規フレーズに対して辞書引きを行い、形態素情報を付与するステップと、データ生成部が、前記変換された正規フレーズと前記ペアの前記正規語との比較結果に基づいて、前記正規フレーズに付与された形態素情報と、前記崩れフレーズに対応する文字ｎグラム及び単語表層ｎ−ｇｒａｍの少なくとも一方について算出された統計量と、前記正規フレーズに対応する文字ｎ−ｇｒａｍ及び単語表層ｎ−ｇｒａｍの少なくとも一方について算出された統計量とを含む、正例データ及び負例データの何れか一方である学習データを生成するステップと、学習部が、前記データ生成部によって前記複数のペアの各々について生成された学習データに基づいて、前記崩れフレーズを前記正規フレーズへ変換することの尤もらしさを判断するためのフレーズフィルタモデルを学習するステップと、を含んで実行することを特徴とする。

第３の発明に係る形態素解析装置は、崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズを、正規語を文字列の区切り位置で区切った部分文字列である正規フレーズに変換するための予め求められた正規崩れフレーズモデルに基づいて、入力された文字列について、前記崩れフレーズに一致する部分文字列を、対応する前記正規フレーズに置き換えた文字列を解析候補として生成する解析候補生成部と、前記入力された文字列及び前記解析候補生成部によって生成された前記解析候補の文字列の各々に対して辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するラティス生成部と、前記ラティス生成部によって生成されたラティスにおける前記ノードを結んだ各経路について、前記経路が表す品詞列に対する品詞連接コストを示す第１素性、前記経路が表す単語列に対する単語コストを示す第２素性、及び前記経路が表す単語列に対する単語表層ｎ−ｇｒａｍに基づくコストを示す第３素性を含む複数の素性を抽出する素性抽出部と、予め求められた前記複数の素性の各々に対する重みに基づいて、動的計画法に従って、前記ラティス生成部によって生成されたラティスにおける前記ノードを結んだ各経路のうち、前記素性抽出部によって抽出された前記複数の素性を重み付け加算した値が最小となる経路を選択し、選択した経路が表す形態素解析結果を出力する選択部と、を含んで構成されている。

また、第３の発明に係る形態素解析装置において、前記ラティス生成部によって生成されたラティスにおける前記ノードのうち、前記正規フレーズに対応するノードの各々について、前記崩れフレーズを前記正規フレーズへ変換することの尤もらしさを判断するための予め求められたフレーズフィルタモデルと、前記ノードに付与された品詞を含む形態素情報とに基づいて、前記ノードに対応する前記正規フレーズへ変換することの尤もらしさを算出する算出部と、前記ラティス生成部によって生成されたラティスのうち、前記正規フレーズに対応するノードから、前記算出部によって算出された前記ノードに対応する前記正規フレーズへ変換することの尤もらしさと、予め定められた閾値とに基づいて、尤もらしい前記ノードを抽出するノード抽出部とを更に含み、前記素性抽出部は、前記ラティス生成部によって生成されたラティスのうちの、前記ノード抽出部によって抽出された前記ノードを含む各経路について、前記複数の素性を抽出し、前記選択部は、予め求められた前記複数の素性の各々に対する重みに基づいて、動的計画法に従って、前記ラティス生成部によって生成されたラティスのうちの、前記ノード抽出部によって抽出された前記ノードを含む各経路のうち、前記素性抽出部によって抽出された前記複数の素性を重み付け加算した値が最小となる経路を選択し、選択した経路が表す形態素解析結果を出力してもよい。

第３の発明に係る形態素解析方法は、解析候補生成部が、崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズを、正規語を文字列の区切り位置で区切った部分文字列である正規フレーズに変換するための予め求められた正規崩れフレーズモデルに基づいて、入力された文字列について、前記崩れフレーズに一致する部分文字列を、対応する前記正規フレーズに置き換えた文字列を解析候補として生成するステップと、ラティス生成部が、前記入力された文字列及び前記解析候補生成部によって生成された前記解析候補の文字列の各々に対して辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するステップと、素性抽出部が、前記ラティス生成部によって生成されたラティスにおける前記ノードを結んだ各経路について、前記経路が表す品詞列に対する品詞連接コストを示す第１素性、前記経路が表す単語列に対する単語コストを示す第２素性、及び前記経路が表す単語列に対する単語表層ｎ−ｇｒａｍに基づくコストを示す第３素性を含む複数の素性を抽出するステップと、選択部が、予め求められた前記複数の素性の各々に対する重みに基づいて、動的計画法に従って、前記ラティス生成部によって生成されたラティスにおける前記ノードを結んだ各経路のうち、前記素性抽出部によって抽出された前記複数の素性を重み付け加算した値が最小となる経路を選択し、選択した経路が表す形態素解析結果を出力するステップと、を含んで実行することを特徴とする。

本発明の形態素解析装置、及び方法によれば、揺らいだ表記である崩れ語を含む文字列に対しても、形態素解析を精度よく行うことができる。

また、本発明のモデル学習装置、及び方法によれば、揺らいだ表記である崩れ語を含む文字列に対しても形態素解析を精度よく行うことができるモデルを学習することができる。

崩れ語と正規語の例を示す図である。正規フレーズと崩れフレーズの例を示す図である。第１の参考例に係るモデル学習装置の機能的構成を示すブロック図である。正規語崩れ語ペアの例を示す図である。動的計画法に基づいて最小コストの経路を探索する際に用いられる表の例を示す図である。コスト関数の例を示す図である。正規崩れフレーズモデルの例を示す図である。第１の参考例に係る形態素解析装置の機能的構成を示すブロック図である。解析候補文を作成する例を示す図である。ラティスの例を示す図である。第１の参考例に係るモデル学習装置における正規崩れフレーズモデル学習処理ルーチンを示すフローチャートである。第１の参考例に係るモデル学習装置におけるフレーズフィルタモデル学習処理ルーチンを示すフローチャートである。第１の参考例に係る形態素解析装置における形態素解析処理ルーチンを示すフローチャートである。第１の参考例に係る形態素解析装置を用いた結果の例を示す図である。第１の参考例に係る形態素解析装置を用いた結果の例を示す図である。第２の参考例に係るモデル学習装置の機能的構成を示すブロック図である。第２の参考例に係る形態素解析装置の機能的構成を示すブロック図である。第２の参考例に係るモデル学習装置におけるフレーズフィルタモデル学習処理ルーチンを示すフローチャートである。第２の参考例に係る形態素解析装置における形態素解析処理ルーチンを示すフローチャートである。第３の参考例に係るモデル学習装置の機能的構成を示すブロック図である。第３の参考例に係る形態素解析装置の機能的構成を示すブロック図である。第４の参考例に係るモデル学習装置の機能的構成を示すブロック図である。第４の参考例に係る形態素解析装置の機能的構成を示すブロック図である。第１の実施の形態に係るモデル学習装置の機能的構成を示すブロック図である。第１の実施の形態に係る形態素解析装置の機能的構成を示すブロック図である。第２の実施の形態に係るモデル学習装置の機能的構成を示すブロック図である。部分文字列と形態素情報のペアの例を示す図である。第２の実施の形態に係る形態素解析装置の機能的構成を示すブロック図である。値を算出した部分文字列と形態素情報のペアの例を示す図である。第２の実施の形態に係るモデル学習装置におけるフレーズフィルタモデル学習処理ルーチンを示すフローチャートである。第２の実施の形態に係る形態素解析装置における形態素解析処理ルーチンを示すフローチャートである。第３の実施の形態に係るモデル学習装置の機能的構成を示すブロック図である。第３の実施の形態に係る形態素解析装置の機能的構成を示すブロック図である。第３の実施の形態に係るモデル学習装置における解析用識別モデル学習処理ルーチンを示すフローチャートである。第３の実施の形態に係る形態素解析装置における形態素解析処理ルーチンを示すフローチャートである。ラティスの経路における識別の例を示す図である。第３の実施の形態に係る形態素解析装置を用いた結果の例を示す図である。従来の日本語形態素解析器の例を示す図である。トランスリタレーションの例を示す図である。人手で文字列の変換ルールを作成した例である。崩れた表記の例を示す図である。ラティスの例を示す図である。マッチした形態素集合をグラフ構造にしたものの例を示す図である。

以下、図面を参照して本発明の実施の形態に必要とされる参考例を詳細に説明する。

＜参考例の原理＞

本参考例において、「崩れフレーズ・正規フレーズ」と「崩れ語・正規語」という言葉を用いる。図１に示すように、「崩れ語・正規語」を、崩れモデルを推定する際に、人手アノテーションによって抽出された正規文字列と崩れ文字列の単位と定義する。また、図２に示すように、「崩れフレーズ・正規フレーズ」を、崩れ語・正規語のペア（正解データ）を用いて、フレーズアライメントにより抽出した崩れ語・正規語中の部分文字列の単位と定義する。

基本的な解決方針として、下記（１）式に示すように、従来の形態素解析の目的関数に、正規フレーズが崩れフレーズに変換される確率をかけることにより、正規表記の品詞と正しい単語区切りを同時に推定する。

ただし、Ｐ（Ｗ|Ｖ）は、正規語Ｖが観測語Ｗに変換される単語変換確率であり、正規フレーズが崩れフレーズに変換される確率と等しい。また、Ｐ（Ｔ）は、正規表記の品詞の列Ｔの接続確率であり、Ｐ（Ｖ｜Ｔ）が、正規表記の品詞の列Ｔが与えられたときの正規語Ｖの生起確率である。

また、単語変換確率を文字列（フレーズ）ごとに分解し、下記（２）式に示すように、フレーズ変換確率の積で単語変換確率を近似し、フレーズ確率をトランスリタレーションモデルで求める。

＜第１の参考例に係るモデル学習装置の構成＞

次に、第１の参考例に係るモデル学習装置の構成について説明する。図３に示すように、第１の参考例に係るモデル学習装置１００は、ＣＰＵと、ＲＡＭと、後述する正規崩れフレーズモデル学習処理ルーチン及びフレーズフィルタモデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。このモデル学習装置１００は、機能的には図３に示すように入力部１０と、演算部２０と、出力部５０とを備えている。

入力部１０は、図４に示すような、Ｔｗｉｔｔｅｒ（登録商標）やブログなど、崩れ表記が含まれる文から、人手で抽出された崩れ語に対し、対応する正規語が付与されたフレーズ推定用の正解データである正規語崩れ語ペアデータを受け付ける。また、入力部１０は、ｗｅｂ上の複数分野の大量の文書群を受け付け、複数分野のコーパスとする。

演算部２０は、初期設定部３０と、フレーズアライメント部３１と、変換確率算出部３２と、反復判定部３４と、正規崩れフレーズモデル記憶部３６と、統計量算出部４２と、データ生成部４３と、モデル学習部４４と、フレーズフィルタモデル記憶部４６とを含んで構成されている。

初期設定部３０は、入力部１０において受け付けた正規語崩れ語ペアデータに基づいて、正規フレーズｆｖと崩れフレーズｆｗの全てのペアを求め、各ペアについて変換確率Ｐ（ｆｗ｜ｆｖ）をランダムに設定し、正規フレーズと崩れフレーズのペアの変換確率を格納した変換確率テーブルを生成しメモリ（図示省略）に記憶する。なお、正規フレーズｆｖと崩れフレーズｆｗの各ペアの変換確率Ｐ（ｆｗ｜ｆｖ）をヒューリスティックに設定してもよい。

フレーズアライメント部３１は、正規語崩れ語ペアデータに含まれるペアの各々について、初期設定部３０において生成された又は変換確率算出部３２において更新された変換確率テーブルに基づいて、動的計画法により最適な対応関係である最適アライメントを求める。具体的には、動的計画法に基づいて、図５に示すような表を用いて最小コストの経路を探索し、文字間の対応関係を求める。経路の総コストは、経路上における文字列の対応コストの和で表される。コスト関数としては、例えば、図６のような確率値の対数をとった値が用いられる。この場合、最小コストの経路が経路１であるとすると、出力アライメントは、（か，か），（な，な），（ぁー，ｎｕｌｌ），（り，り）となる。ただし、（ｎｕｌｌ，ｘ）はｘの挿入、（ｙ，ｎｕｌｌ）はｙの削除を表す。

変換確率算出部３２は、フレーズアライメント部３１においてｔ回目に求められた正規語崩れ語ペアデータに含まれるペアの各々の最適アライメントに基づいて、下記（３）式に従って、ｔ回目の計算におけるＰ（ｆｗ｜ｆｖ）の期待値Ｐ_ｔ（ｆｗ｜ｆｖ）を求め、メモリに記憶する。そして、求められた期待値Ｐ_ｔ（ｆｗ｜ｆｖ）の値により変換確率テーブルを更新メモリに記憶する。ただし、Ｎ（ｆｗ，ｆｖ）は、正規語崩れ語ペアデータの最適アライメントにおいて正規フレーズｆｖが崩れフレーズｆｗに変換された回数を表す。

反復判定部３４は、変換確率算出部３２において算出されたＰ_ｔ（ｆｗ｜ｆｖ）に基づく尤度関数と、メモリに記憶されている前回算出されたＰ_ｔ−１（ｆｗ｜ｆｖ）に基づく尤度関数との差分が予め定められた閾値ε（例えばε＝０．０５）以下か否か判定する。差分が閾値ε以下である場合には、反復終了条件が満たされたと判定し、図７に示すような、現在の変換確率テーブルを、正規崩れフレーズモデルとして正規崩れフレーズモデル記憶部３６に記憶すると共に、出力部５０に出力する。また、差分が閾値εよりも大きい場合には、反復終了条件が満たされていないと判定し、フレーズアライメント部３１の処理と、変換確率算出部３２の処理とを繰り返す。なお、尤度関数は、下記（４）式により表される。また、繰り返し回数が上限回数に達したことを反復終了条件としてもよい。

正規崩れフレーズモデル記憶部３６には、正規崩れフレーズモデルが記憶されている。

統計量算出部４２は、入力部１０において受け付けた複数分野のコーパスに基づいて、全ての文字ｎ‐ｇｒａｍについて、文字ｎ‐ｇｒａｍ統計量を算出する。例えば、対象文書として「そんなんやってらんねーよ」があった場合、文字２グラム統計量として、Ｐ（ん｜そ）、Ｐ（な｜ん）等を算出し、文字３グラム統計量として、Ｐ（な｜そ，ん）、Ｐ（ん｜ん，な）等を算出する。なお、形態素解析処理済みの複数分野のコーパスに基づいて、全ての単語表層ｎ‐ｇｒａｍについて、単語表層ｎ‐ｇｒａｍ統計量を算出してもよい。

データ生成部４３は、入力部１０において受け付けた正規語崩れ語ペアデータに含まれるペアの各々について、正規崩れフレーズモデル記憶部３６に記憶されている正規崩れフレーズモデルに基づいて、崩れ語の部分文字列のうち、崩れフレーズに該当する部分文字列を、当該崩れフレーズに対応する正規フレーズの部分文字列に変換する。そして、変換後の正規フレーズが当該崩れ語に対応する正規語に含まれるか否か判定し、含まれる場合には当該正規フレーズに対応する文字ｎ‐ｇｒａｍ統計量、及び当該崩れフレーズに対応する文字ｎ‐ｇｒａｍ統計量を含む学習データを正例データとして生成し、含まれない場合には当該正規フレーズに対応する文字ｎ‐ｇｒａｍ統計量及び崩れフレーズに対応する文字ｎ‐ｇｒａｍ統計量を含む学習データを、負例データとして生成する。

モデル学習部４４は、データ生成部４３において生成された正例データ及び負例データからなる学習データに基づいて、サポートベクタマシン等を用いて識別学習を行い、崩れフレーズを正規フレーズへ変換することの尤もらしさを判断するためのフレーズフィルタモデルを学習し、フレーズフィルタモデル記憶部４６に記憶すると共に、出力部５０に出力する。

フレーズフィルタモデル記憶部４６には、モデル学習部４４において学習されたフレーズフィルタモデル、及び統計量算出部４２により算出された文字ｎ‐ｇｒａｍ統計量が記憶されている。

＜第１の参考例に係る形態素解析装置の構成＞

次に、第１の参考例に係る形態素解析装置の構成について説明する。図８に示すように、第１の参考例に係る形態素解析装置２００は、ＣＰＵと、ＲＡＭと、後述する形態素解析処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この形態素解析装置２００は、機能的には図８に示すように入力部２１０と、演算部２２０と、出力部２５０とを備えている。

入力部２１０は、入力文を受け付ける。

演算部２２０は、解析候補生成部２３０と、正規崩れフレーズモデル記憶部２３２と、辞書データベース記憶部２３３と、算出部２３５と、フレーズフィルタモデル記憶部２３６と、解析対象抽出部２３８と、ラティス生成部２３９と、選択部２４０とを含んで構成されている。

解析候補生成部２３０は、正規崩れフレーズモデル記憶部２３２に記憶されている正規崩れフレーズモデルに基づいて、入力部１０において受け付けた入力文から解析候補文を各々生成する。具体的には、入力部２１０において受け付けた入力文に、正規崩れフレーズモデルに含まれる崩れフレーズに一致する部分文字列がある場合には、部分文字列を当該崩れフレーズに対応する正規フレーズに変換することにより解析候補文を生成する。なお、解析候補文は、入力文に含まれる崩れフレーズのうち１か所のみ変更したものとし、崩れフレーズが複数ある場合には、崩れフレーズ毎に解析候補文が生成される。図９に具体例を示す。また、崩れフレーズに対応する正規フレーズが複数ある場合には、正規フレーズ毎に解析候補文が生成される。

正規崩れフレーズモデル記憶部２３２には、モデル学習装置１００において学習された正規崩れフレーズモデルと同一の正規崩れフレーズモデルが記憶されている。

辞書データベース記憶部２３３には、形態素解析を行うために必要な辞書（読み、表記、品詞、コスト（生起確率））及び品詞ペアの各々の接続確率が記憶されている。

フレーズフィルタモデル記憶部２３６には、モデル学習装置１００において学習されたフレーズフィルタモデル及び文字ｎ‐ｇｒａｍ統計量と同一のフレーズフィルタモデル及び文字ｎ‐ｇｒａｍ統計量が記憶されている。

解析対象抽出部２３８は、解析候補生成部２３０において生成された解析候補文の各々について、入力文と、フレーズフィルタモデル記憶部２３６に記憶されているフレーズフィルタモデル及び文字ｎ‐ｇｒａｍ統計量とに基づいて、崩れフレーズが正規フレーズへ正しく変換された解析候補文であるか否かを判定し、正しく変換された解析候補文であると判定された場合に、解析対象文として抽出し、正しく変換された解析候補文でないと判定された場合に、当該解析候補文を削除する。

例えば、入力文の崩れフレーズを変換した正規フレーズの文字ｎ‐ｇｒａｍ統計量と、入力文の崩れフレーズの文字ｎ‐ｇｒａｍ統計量と、フレーズフィルタモデル記憶部２３６に記憶されているフレーズフィルタモデルとに基づいて、当該崩れフレーズを当該正規フレーズへ変換した変換の尤もらしさを示すスコアを算出し、算出されたスコアが閾値以上であれば、正しく変換された解析対象文であると判定する。

ラティス生成部２３９は、入力部２１０において受け付けた入力文と、解析対象抽出部２３８において抽出された解析対象文の各々とに対して、辞書データベース記憶部２３３に記憶されている辞書を用いて辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成する。作成したラティスの例を図１０に示す。

選択部２４０は、ラティス生成部２３９において生成したラティスと、正規崩れフレーズモデル記憶部２３２に記憶されている正規崩れフレーズモデルの変換確率と、辞書データベース記憶部２３３に記憶されている辞書のコスト及び品詞ペアの接続確率とに基づいて、動的計画法に従って、上記（１）式の目的関数を最大化する、当該ラティスのノードを結んだ最適な経路を選択し、選択された経路が表す正規表記の品詞と単語区切りを、形態素解析結果として出力する。

＜第１の参考例に係るモデル学習装置の作用＞

次に、第１の参考例に係るモデル学習装置１００の作用について説明する。入力部１０において正規語崩れ語ペアデータを受け付けると、モデル学習装置１００は、図１１に示す正規崩れフレーズモデル学習処理ルーチンを実行する。

まず、ステップＳ１００では、入力部１０において受け付けた正規語崩れ語ペアデータに基づいて、正規フレーズｆｖと崩れフレーズｆｗの全てのペアを求め、各ペアについて変換確率Ｐ（ｆｗ｜ｆｖ）をランダムに設定し、各ペアの変換確率を格納した変換確率テーブルを生成し、メモリに記憶する。

次に、ステップＳ１０４では、正規語崩れ語ペアデータに含まれるペアの各々について、ステップＳ１００において生成した、又はステップＳ１０６において前回更新した変換確率テーブルに基づいて、動的計画法に従って、文字間の対応関係である最適アライメントを求める。

次に、ステップＳ１０６では、ステップＳ１０４において正規語崩れ語ペアデータに含まれるペアの各々の最適アライメントに基づいて、Ｐ（ｆｗ｜ｆｖ）の期待値Ｐ_ｔ（ｆｗ｜ｆｖ）を求め、メモリに記憶し、求められた期待値Ｐ_ｔ（ｆｗ｜ｆｖ）の値により変換確率テーブルを更新する。

次に、ステップＳ１０８では、ステップＳ１０６において取得した正規フレーズと崩れフレーズペアの各々のＰ（ｆｗ｜ｆｖ）の期待値Ｐ_ｔ（ｆｗ｜ｆｖ）に基づいて、上記（４）式に従って、尤度関数を算出する。

次に、ステップＳ１１０では、ステップＳ１０８において取得した尤度関数の値と、前回のステップＳ１０８において取得した尤度関数の値の差分が、予め定められた閾値ε以下か否かを判定する。差分が閾値ε以下である場合には反復終了条件が満たされたと判定し、ステップＳ１１０へ移行し、差分が閾値εよりも大きい場合には反復終了条件が満たされていないと判定し、ステップＳ１０４へ移行し、ステップＳ１０４〜ステップＳ１１０の処理を繰り返す。

次に、ステップＳ１１２では、ステップＳ１０６において最終的に更新された変換確率テーブルを、正規崩れフレーズモデルとして正規崩れフレーズモデル記憶部３６に記憶する。

次に、ステップＳ１１４では、ステップＳ１１２において取得した正規崩れフレーズモデルを出力部５０により出力して、処理を終了する。

次に、第１の参考例に係るモデル学習装置１００の作用について説明する。入力部１０において正規語崩れ語ペアデータ及び複数分野のコーパスを受け付けると、モデル学習装置１００は、図１２に示すフレーズフィルタモデル学習処理ルーチンを実行する。

まず、ステップＳ２０１では、正規崩れフレーズモデル記憶部３６に記憶されている正規崩れフレーズモデルを読み込む。

次に、ステップＳ２０３では、入力部１０において受け付けた複数分野のコーパスに基づいて、全ての文字ｎ‐ｇｒａｍについて、文字ｎ‐ｇｒａｍ統計量を算出する。

次に、ステップＳ２０４では、入力部１０において受け付けた正規語崩れ語ペアデータの処理対象のペアについて、ステップＳ２０１において取得した正規崩れフレーズモデルに基づいて、崩れ語の部分文字列のうち、崩れフレーズに該当する部分文字列を、当該崩れフレーズに対応する正規フレーズの部分文字列に変換する。

次に、ステップＳ２０５では、入力部１０において受け付けた正規語崩れ語ペアデータの処理対象のペアについて、ステップＳ２０４において変換した正規フレーズの各々について、処理対象のペアの正規語に含まれるか否か判定し、含まれる場合には、ステップＳ２０３において取得した当該正規フレーズと当該崩れフレーズとの各々に対応する文字ｎ‐ｇｒａｍ統計量を含む学習データを正例データとして作成し、含まれない場合には、ステップＳ２０３において取得した当該正規フレーズと当該崩れフレーズとの各々に対応する文字ｎ‐ｇｒａｍ統計量を含む学習データを負例データとして作成する。

ステップ２０６では、正規語崩れ語ペアデータの全てのペアについて、上記ステップＳ２０４、Ｓ２０５の処理を実行したか否かを判定し、上記ステップＳ２０４、Ｓ２０５の処理を実行していないペアが存在する場合には、上記ステップＳ２０４へ戻り、当該ペアを、処理対象とする。一方、全てのペアについて、上記ステップＳ２０４、Ｓ２０５の処理を実行した場合には、ステップＳ２０７へ進む。

次に、ステップＳ２０７では、ステップＳ２０５において取得した正例データ及び負例データからなる学習データに基づいて、サポートベクタマシン等を用いて識別学習を行い、崩れフレーズを正規フレーズへ変換することの尤もらしさを判断するためのフレーズフィルタモデルを学習し、フレーズフィルタモデル記憶部４６に記憶する。また、上記ステップＳ２０３で算出された文字ｎ‐ｇｒａｍ統計量を、フレーズフィルタモデル記憶部４６に記憶する。

次に、ステップＳ２０８では、ステップＳ２０７において学習したフレーズフィルタモデル、及び上記ステップＳ２０３で算出された文字ｎ‐ｇｒａｍ統計量を出力部５０により出力し、フレーズフィルタモデル学習処理ルーチンの処理を終了する。

＜第１の参考例に係る形態素解析装置の作用＞

次に、第１の参考例に係る形態素解析装置２００の作用について説明する。まず、モデル学習装置１００により出力された正規崩れフレーズモデルが、形態素解析装置２００に入力され、正規崩れフレーズモデル記憶部２３２に記憶される。また、モデル学習装置１００により出力されたフレーズフィルタモデル及び文字ｎ‐ｇｒａｍ統計量が、形態素解析装置２００に入力され、フレーズフィルタモデル記憶部２３６に記憶される。そして、入力部２１０において入力文を受け付けると、形態素解析装置２００は、図１３に示す形態素解析処理ルーチンを実行する。

まず、ステップＳ３００では、正規崩れフレーズモデル記憶部２３２に記憶されている正規崩れフレーズモデルを読み込む。

次に、ステップＳ３０１では、辞書データベース記憶部２３３に記憶されている辞書を読み込む。

次に、ステップＳ３０２では、フレーズフィルタモデル記憶部２３６に記憶されているフレーズフィルタモデル及び文字ｎ‐ｇｒａｍ統計量を読み込む。

次に、ステップＳ３０４では、入力部２１０において受け付けた入力文について、ステップＳ３００において取得した正規崩れフレーズモデルに基づいて、解析候補文の各々を生成する。

次に、ステップＳ３０８では、ステップＳ３０４において取得した解析候補文の各々について、入力部２１０において受け付けた入力文と、ステップＳ３０２において取得したフレーズフィルタモデル及び文字ｎ‐ｇｒａｍ統計量とに基づいて、崩れフレーズが正規フレーズへ正しく変換された解析候補文であるか否かを判定し、正しく変換された解析候補文であると判定された場合に、解析対象文として抽出し、正しく変換された解析候補文でないと判定された場合に、当該解析候補文を削除する。

次に、ステップＳ３１０では、ステップＳ３０８において抽出された解析対象文の各々と、入力部２１０において受け付けた入力文とに対して、ステップＳ３０１において取得した辞書を用いて辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成する。

次に、ステップＳ３１２では、ステップＳ３１０において取得したラティスと、ステップＳ３００において取得した正規崩れフレーズモデルの変換確率と、ステップＳ３０１において取得した辞書のコスト及び品詞ペアの接続確率とに基づいて、動的計画法に従って、上記（１）式の目的関数を最大化する、当該ラティスのノードを結んだ最適な経路を選択する。

次に、ステップＳ３１４では、ステップＳ３１２において選択された経路が表わす正規表記の品詞と単語区切りを、形態素解析結果として出力部２５０により出力して形態素解析処理ルーチンを終了する。

上記の形態素解析処理ルーチンを実行することにより、例えば、入力文「そんなんやってらんねーよ」が入力された場合には、図１４（Ｂ）に示すような、形態素解析結果が出力される。なお、比較例として、従来の形態素解析器を用いた場合の形態素解析結果を、図１４（Ａ）に示す。

また、入力文「次の日にはすーぐ行きてーｗ」が入力された場合には、図１５（Ｂ）に示すような、形態素解析結果が出力される。一方、従来の形態素解析器を用いた場合には、図１５（Ａ）に示す形態素解析結果となる。

以上説明したように、第１の参考例に係る形態素解析装置によれば、正規崩れフレーズモデル及びフレーズフィルタモデルを用いることにより、揺らいだ表記である崩れ語を含む文字列に対しても、形態素解析を精度よく行うことができる。

また、第１の参考例に係るモデル学習装置によれば、揺らいだ表記である崩れ語を含む文字列に対しても形態素解析を精度よく行うことができる正規崩れフレーズモデル及びフレーズフィルタモデルを学習することができる。

また、文字列レベルの揺らぎモデルを正解データから自動構築し、形態素解析に組み込むことにより、崩れた表記にも頑健な形態素解析器の枠組みを提供できる。

また、正規表記と崩れ表記の正解ペアデータを用いてトランスリタレーションによるフレーズ変換モデルを導入することにより、ルールとルールごとのコスト設定を自動で行うことができる。

また、崩れフレーズであるとして正規フレーズに変換された箇所が、正しく変換された否かを判別するフレーズフィルタモデルを導入することにより、解析対象となる候補を削減することができ、解析時における計算コストを削減することが出来る。

また、トランスリタレーションモデルにより、正規フレーズ及び崩れフレーズのペア対と変換確率とを自動で獲得し、動的計画法との組み合わせにより処理速度と処理精度との向上を図ることができる。

次に、第２の参考例について説明する。なお、第１の参考例と同様の構成及び作用となる部分については、同一符号を付して説明を省略する。

第２の参考例では、文字ｎ‐ｇｒａｍ統計量をフレーズフィルタモデルとする点が第１の参考例と異なっている。

＜第２の参考例に係るモデル学習装置の構成＞

次に、第２の参考例に係るモデル学習装置３００の構成について説明する。

第２の参考例に係るモデル学習装置３００は、図１６に示すように、入力部１０と、演算部３２０と、出力部５０とを備えている。

演算部３２０は、初期設定部３０と、フレーズアライメント部３１と、変換確率算出部３２と、反復判定部３４と、正規崩れフレーズモデル記憶部３６と、統計量算出部３４２と、フレーズフィルタモデル記憶部３４６とを含んで構成されている。

統計量算出部３４２は、入力部１０において受け付けた複数分野のコーパスに基づいて、全ての文字ｎ‐ｇｒａｍについて、文字ｎ−ｇｒａｍ統計量を算出し、算出された文字ｎ‐ｇｒａｍ統計量の集合をフレーズフィルタモデルとしてフレーズフィルタモデル記憶部３４６に記憶する。

フレーズフィルタモデル記憶部３４６には、統計量算出部３４２において生成されたフレーズフィルタモデルが記憶されている。

＜第２の参考例に係る形態素解析装置の構成＞

次に、第２の参考例に係る形態素解析装置４００の構成について説明する。

第２の参考例に係る形態素解析装置４００は、図１７に示すように、入力部２１０と、演算部４２０と、出力部５０とを備えている。

演算部４２０は、解析候補生成部２３０と、正規崩れフレーズモデル記憶部２３２と、辞書データベース記憶部２３３と、算出部４３５と、フレーズフィルタモデル記憶部４３６と、解析対象抽出部４３８と、ラティス生成部２３９と、選択部２４０とを含んで構成されている。

算出部４３５は、解析候補生成部２３０により生成された解析候補文の各々について、入力文と、フレーズフィルタモデル記憶部４３６に記憶されている文字ｎ‐ｇｒａｍ統計量の集合であるフレーズフィルタモデルとに基づいて、入力文中の崩れフレーズに対応する文字ｎ‐ｇｒａｍ統計量Ｐ（変換前）と、当該解析候補文中の正規フレーズに対応する文字ｎ‐ｇｒａｍ統計量Ｐ（変換後）を用いて、フレーズ変換の尤もらしさを示す値として、Ｐ（変換後）／Ｐ（変換前）を算出する。例えば、入力文「やってらんねーよ」と解析候補文「やってらんないよ」が有る場合、入力文中の変換部分の変換文字列と周辺の文字列とからなる部分文字列に対応する文字ｎ‐ｇｒａｍ統計量、Ｐ（よ｜ん，ね，ー）と、解析候補文中の変換文の返還文字列と周辺の文字列とからなる部分文字列に対応する文字ｎ‐ｇｒａｍ統計量、Ｐ（よ｜ん，な，い）を用いて、Ｐ（よ｜ん，な，い）／Ｐ（よ｜ん，ね，ー）の値を算出する。

解析対象抽出部４３８は、解析候補文の各々について、算出部４３５において当該解析候補文について算出された、フレーズ変換の尤もらしさを示す値が閾値Ｔよりも大きいか否か判定する。閾値Ｔよりもフレーズ変換の尤もらしさを示す値が大きい場合、当該解析候補文を解析対象文として抽出し、算出されたフレーズ変換の尤もらしさを示す値が閾値Ｔ以下である場合、当該解析候補文を削除する。

＜第２の参考例に係るモデル学習装置の作用＞

次に、第２の参考例に係るモデル学習装置３００の作用について説明する。入力部１０において複数分野のコーパスを受け付けると、モデル学習装置３００は、図１８に示すフレーズフィルタモデル学習処理ルーチンを実行する。

ステップＳ４００では、ステップＳ２０３において取得した文字ｎ‐ｇｒａｍ統計量の集合をフレーズフィルタモデルとしてフレーズフィルタモデル記憶部３４６に記憶する。

＜第２の参考例に係る形態素解析装置の作用＞

次に、第２の参考例に係る形態素解析装置４００の作用について説明する。入力部２１０において入力文を受け付けると、形態素解析装置４００は、図１９に示す形態素解析処理ルーチンを実行する。

ステップＳ５００では、入力部２１０において受け付けた入力文と、ステップＳ３０４において取得した解析候補文の各々と、ステップＳ３０２において取得したフレーズフィルタモデルとに基づいて、解析候補文の各々について、フレーズ変換の尤もらしさを示す値を算出する。

ステップＳ５０２では、ステップＳ５００において算出した、フレーズ変換の尤もらしさを示す値が閾値Ｔよりも大きい値である解析候補文の各々を、解析対象文として抽出する。

以上説明したように、第２の参考例に係る形態素装置によれば、正規崩れフレーズモデル及び文字ｎ‐ｇｒａｍ統計量の集合からなるフレーズフィルタモデルを用いて、揺らいだ表記である崩れ語を含む文字列に対しても、形態素解析を精度よく行うことができる。

また、第２の参考例に係るモデル学習装置によれば、揺らいだ表記である崩れ語を含む文字列に対しても形態素解析を精度よく行うことができる正規崩れフレーズモデル及び文字ｎ‐ｇｒａｍ統計量の集合からなるフレーズフィルタモデルを学習することができる。

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

第２の参考例においては、フレーズ変換の尤もらしさを示す値を、Ｐ（変換後）／Ｐ（変換前）として算出し、当該値が閾値Ｔよりも大きい解析候補文を解析対象文として抽出する場合について説明したがこの限りでない。例えば、Ｐ（変換後）−Ｐ（変換前）の値が予め定められた閾値以上である解析候補文を解析対象文として抽出しても良い。

次に、第３の参考例について説明する。なお、第１の参考例と同様の構成及び作用となる部分については、同一符号を付して説明を省略する。

第３の参考例では、正規崩れフレーズモデルのみを用いる点が第１の参考例と異なっている。

＜第３の参考例に係るモデル学習装置の構成＞

次に、第３の参考例に係るモデル学習装置５００の構成について説明する。

第３の参考例に係るモデル学習装置５００は、図２０に示すように、入力部１０と、演算部５２０と、出力部５０とを備えている。

演算部５２０は、初期設定部３０と、フレーズアライメント部３１と、変換確率算出部３２と、反復判定部３４と、正規崩れフレーズモデル記憶部３６とを含んで構成されている。

＜第３の参考例に係る形態素解析装置の構成＞

次に、第３の参考例に係る形態素解析装置６００の構成について説明する。

第３の参考例に係る形態素解析装置６００は、図２１に示すように、入力部１０と、演算部６２０と、出力部５０とを備えている。

演算部６２０は、解析候補生成部２３０と、正規崩れフレーズモデル記憶部２３２と、辞書データベース記憶部２３３と、ラティス生成部６３９と、選択部２４０とを含んで構成されている。

ラティス生成部６３９は、入力部２１０において受け付けた入力文と、解析候補生成部２３０において生成した解析候補文の各々とに対して辞書データベース記憶部２３３に記憶されている辞書を用いて辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成する。

以上説明したように、第３の参考例に係る形態素装置によれば、正規崩れフレーズモデルを用いて、揺らいだ表記である崩れ語を含む文字列に対しても、形態素解析を精度よく行うことができる。

また、第３の参考例に係るモデル学習装置によれば、揺らいだ表記である崩れ語を含む文字列に対しても形態素解析を精度よく行うことができる正規崩れフレーズモデルを学習することができる。

次に、第４の参考例について説明する。なお、第１の参考例と同様の構成及び作用となる部分については、同一符号を付して説明を省略する。

第４の参考例では、正規崩れフレーズモデルの代わりに、予め人手で作成した正規崩れフレーズルールを用いる点が第１の参考例と異なっている。

＜第４の参考例に係るモデル学習装置の構成＞

次に、第４の参考例に係るモデル学習装置７００の構成について説明する。

第４の参考例に係るモデル学習装置７００は、図２２に示すように、入力部１０と、演算部７２０と、出力部５０とを備えている。

演算部７２０は、正規崩れフレーズルール記憶部７３６と、統計量算出部４２と、データ生成部７４３と、モデル学習部４４と、フレーズフィルタモデル記憶部４６とを含んで構成されている。

正規崩れフレーズルール記憶部７３６には、崩れフレーズと、当該崩れフレーズに対する正規フレーズとの複数のペアが、正規崩れフレーズルールとして予め記憶されている。

データ生成部７４３は、入力部１０において受け付けた正規語崩れ語ペアデータに含まれるペアの各々について、正規崩れフレーズルール記憶部７３６に記憶されている正規崩れフレーズルールに基づいて、当該ペアの崩れ語の部分文字列のうち、崩れフレーズに該当する部分文字列を、当該崩れフレーズを対応する正規フレーズの部分文字列に変換する。そして、変換後の正規フレーズが当該ペアの正規語に含まれるか否か判定し、含まれる場合には当該正規フレーズに対応する文字ｎ‐ｇｒａｍ統計量、及び当該崩れフレーズに対応する文字ｎ‐ｇｒａｍ統計量を含む学習データを正例データとして生成し、含まれない場合には当該正規フレーズに対応する文字ｎ‐ｇｒａｍ統計量、及び崩れフレーズに対応する文字ｎ‐ｇｒａｍ統計量を含む学習データを負例データとして生成する。

＜第４の参考例に係る形態素解析装置の構成＞

次に、第４の参考例に係る形態素解析装置８００の構成について説明する。

第４の参考例に係る形態素解析装置８００は、図２３に示すように、入力部２１０と、演算部８２０と、出力部５０とを備えている。

演算部８２０は、解析候補生成部８３０と、正規崩れフレーズルール記憶部８３２と、辞書データベース記憶部２３３と、フレーズフィルタモデル記憶部２３６と、解析対象抽出部２３８と、ラティス生成部２３９と、選択部８４０とを含んで構成されている。

解析候補生成部８３０は、正規崩れフレーズルール記憶部８３２に記憶されている正規崩れフレーズルールに基づいて、入力部２１０において受け付けた入力文から解析候補文を各々生成する。

フレーズルール記憶部８３２には、モデル学習装置７００のフレーズルール記憶部７３６に記憶されている正規崩れフレーズルールと同一の正規崩れフレーズルールが記憶されている。

選択部８４０は、ラティス生成部２３９において生成したラティスと、辞書データベース記憶部２３３に記憶されている辞書のコスト及び品詞ペアの接続確率とに基づいて、動的計画法に従って、上記（１）式の目的関数を最大化する、当該ラティスのノードを結んだ最適な経路を選択し、選択された経路が表す正規表記の品詞と単語区切りを、形態素解析結果として出力する。なお、上記（１）式において、各変換確率として一定値を用いればよい。

以上説明したように、第４の参考例に係る形態素装置によれば、正規崩れフレーズルール及びフレーズフィルタモデルを用いて、揺らいだ表記である崩れ語を含む文字列に対しても、形態素解析を精度よく行うことができる。

また、第４の参考例に係るモデル学習装置によれば、揺らいだ表記である崩れ語を含む文字列に対しても形態素解析を精度よく行うことができるフレーズフィルタモデルを学習することができる。

＜第１の実施の形態＞

次に、本発明の第１の実施の形態について説明する。なお、第１の参考例と同様の構成及び作用となる部分については、同一符号を付して説明を省略する。

＜概要＞

例えば、入力文「一人でかぅんたーなう」に含まれる「ぅ」を「う」に変換した場合、辞書に「かうんたー」という文字列が存在しないため、正しい候補である「カウンター」を列挙できないという課題がある。

そこで、第１の実施の形態では、辞書の「読み」を利用して文字種の展開を行うことで、文字種が異なっていても辞書引きができるように、文字種変換辞書を用いる。

また、例えば、入力文「ぁりがとぅー」に対して、「ありがとぅー」（ぁ→あ）及び「ぁりがとうー」（ぅ→う）のように各崩れフレーズの箇所ごとに変換を行った解析候補文が生成される。しかし、これらの解析候補文は、正しく変換された解析候補文であるか否かの判定の際に、いずれかが負例と判定される場合がある。そして、いずれかが負例と判定された場合には、正しい形態素解析結果「ありがとうー」が得られない、という課題がある。

そこで、第１の実施の形態では、複数の崩れフレーズの箇所を変換した解析候補文に対しても、正しく変換された解析候補文であるか否かの判定を行う。具体的には、入力文「ぁりがとぅー」に対して、「ありがとうー」（ぁ→あ、ぅ→う）と複数箇所を変換した解析候補文を生成し、正しく変換された解析候補文であるか否かの判定を行う。なお、文の変換確率を素性として用いる場合には、複数の崩れフレーズの箇所を変換した文の変換確率を用いるものとする。フレーズ変換確率を素性として用いる場合には、各フレーズの箇所ごとのフレーズ変換確率をかけ合わせた値を用いる。

＜第１の実施の形態に係るモデル学習装置の構成＞

次に、第１の実施の形態に係るモデル学習装置１０００の構成について説明する。

本発明の第１の実施の形態に係るモデル学習装置１０００は、図２４に示すように、入力部１０と、演算部１０２０と、出力部５０とを備えている。

演算部１０２０は、初期設定部３０と、フレーズアライメント部３１と、変換確率算出部３２と、反復判定部３４と、正規崩れフレーズモデル記憶部３６と、統計量算出部４２と、データ生成部１０４３と、モデル学習部４４と、フレーズフィルタモデル記憶部４６とを含んで構成されている。

データ生成部１０４３は、入力部１０において受け付けた正規語崩れ語ペアデータに含まれるペアの各々について、正規崩れフレーズモデル記憶部３６に記憶されている正規崩れフレーズモデルに基づいて、崩れ語の部分文字列のうち、崩れフレーズに該当する部分文字列を、当該崩れフレーズに対応する正規フレーズの部分文字列に変換する。また、崩れ語において崩れフレーズに該当する部分文字列が複数箇所ある場合には、複数箇所の部分文字列の各々について、当該崩れフレーズに対応する正規フレーズの部分文字列に変換する。そして、変換後の正規フレーズが当該崩れ語に対応する正規語に含まれるか否か判定し、含まれる場合には当該正規フレーズに対応する文字ｎ‐ｇｒａｍ統計量、及び当該崩れフレーズに対応する文字ｎ‐ｇｒａｍ統計量を含む学習データを正例データとして生成し、含まれない場合には当該正規フレーズに対応する文字ｎ‐ｇｒａｍ統計量及び崩れフレーズに対応する文字ｎ‐ｇｒａｍ統計量を含む学習データを、負例データとして生成する。

＜第１の実施の形態に係る形態素解析装置の構成＞

次に、第１の実施の形態に係る形態素解析装置１１００の構成について説明する。

本発明の第１の実施の形態に係る形態素解析装置１１００は、図２５に示すように、入力部２１０と、演算部１１２０と、出力部２５０とを備えている。

演算部１１２０は、解析候補生成部１１３０と、正規崩れフレーズモデル記憶部２３２と、辞書データベース記憶部２３３と、文字種変換辞書データベース記憶部９３４と、フレーズフィルタモデル記憶部２３６と、解析対象抽出部２３８と、ラティス生成部１１３９と、選択部２４０とを含んで構成されている。

文字種変換辞書データベース記憶部９３４は、文字列の文字種を展開するために必要な「漢字」「ひらがな」「カタカナ」の相互に対応する文字列の組み合わせであって、同一の読みとなる文字列の組み合わせが複数組格納された文字種変換辞書が記憶されている。

解析候補生成部１１３０は、正規崩れフレーズモデル記憶部２３２に記憶されている正規崩れフレーズモデルに基づいて、入力部２１０において受け付けた入力文から解析候補文を各々生成する。具体的には、入力部２１０において受け付けた入力文に、正規崩れフレーズモデルに含まれる崩れフレーズに一致する部分文字列がある場合には、部分文字列を当該崩れフレーズに対応する正規フレーズに変換することにより解析候補文を生成する。なお、解析候補文は、入力文において、崩れフレーズに該当する部分文字列が複数箇所ある場合には、解析候補生成部１１３０は、複数箇所の部分文字列の各々について、当該部分文字列のみを崩れフレーズに対応する正規フレーズに変換した解析候補文を生成すると共に、複数箇所の部分文字列を、崩れフレーズに対応する正規フレーズに変換した解析候補文を生成する。

ラティス生成部１１３９は、第１の参考例の形態素解析装置に係るラティス生成部２３９と同様に、入力部２１０において受け付けた入力文と、解析対象抽出部２３８において抽出された解析対象文の各々とに対して、辞書データベース記憶部２３３に記憶されている辞書を用いて辞書引きを行う。また、正規フレーズに変換したノードに対応する部分文字列について、文字種変換辞書を用いて、部分文字列の読みに基づいて展開を行う。「漢字」表記又は「カタカナ」表記から「ひらがな」表記を展開する。同様に、「漢字」表記又は「ひらがな」表記から「カタカナ」表記を展開する。例えば前者であれば「教科書→きょうかしょ」「バイト→ばいと」と展開し、後者であれば「先生→センセイ」「ありがとう→アリガトウ」と展開する。また、入力文が「一人でかぅんたーなう」である場合の一例として、崩れフレーズに対応する部分文字列である「ぅ」が正規フレーズ「う」に変換されることにより生成された解析候補文「一人でかうんたーなう」について、部分文字列の「かうんたー」を「カウンター」と展開する。

そして、ラティス生成部１１３９は、第１の参考例の形態素解析装置に係るラティス生成部２３９と同様に、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成する。

なお、第１の実施の形態に係る形態素解析装置１１００及びモデル学習装置１０００の他の構成及び作用については、第１の参考例と同様であるため、説明を省略する。

以上説明したように、本発明の第１の実施の形態に係る形態素解析装置によれば、入正規崩れフレーズモデルに基づいて変換した正規フレーズについて、異なる文字種の部分文字列に展開して、ラティスを構築するため、形態素解析を精度よく行うことができる。また、文字列レベルの揺らぎモデルに加え、文字種変換候補展開を組み合わせることで、正規化解析可能な崩れ表記を拡大することができる。

また、第１の実施の形態に係る形態素解析装置によれば、崩れフレーズが複数箇所含まれる場合を考慮しているため、崩れフレーズを複数個所含む崩れ語を含む文字列に対しても形態素解析を精度よく行うことができる。

また、第１の実施の形態に係るモデル学習装置によれば、崩れフレーズが複数箇所含まれる場合を考慮しているため、崩れフレーズを複数個所含む崩れ語を含む文字列に対しても形態素解析を精度よく行うことができるフレーズフィルタモデルを学習することができる。

＜第２の実施の形態＞

次に、本発明の第２の実施の形態について説明する。なお、第１の参考例及び第１の実施の形態と同様の構成及び作用となる部分については、同一符号を付して説明を省略する。

＜概要＞

例えば、崩れフレーズを正規フレーズに変換する際、同じ「お→う」と変換する場合であっても、（おいしい→ういしい）という変換の起こりやすさと、（いこお→いこう）という変換の起こりやすさは異なっている。そのため、文字列の変換確率や文字ｎ−ｇｒａｍ確率のみに基づいて、正しく変換された解析候補文であるか否かを判定する場合には、形態素の文字位置情報や品詞情報などが欠落しているため正確に判定ができない、という課題がある。

そこで、第２の実施の形態では、崩れフレーズを正規フレーズに変換した部分文字列の形態素情報に基づいてノードに対応する部分文字列が正しく変換されているか否かを判定し、解析対象文の抽出を行う。具体的には、崩れフレーズを正規フレーズに変換した部分文字列ごとに辞書引きして得られた形態素の文字長さ、品詞、変換文字列の形態素内での位置等に基づいて、正しく変換された解析候補文であるか否かの判定を行い、解析対象文の抽出を行う。

＜第２の実施の形態に係るモデル学習装置の構成＞

次に、第２の実施の形態に係るモデル学習装置１２００の構成について説明する。

本発明の第２の実施の形態に係るモデル学習装置１２００は、図２６に示すように、入力部１０と、演算部１２２０と、出力部５０とを備えている。

演算部１２２０は、初期設定部３０と、フレーズアライメント部３１と、変換確率算出部３２と、反復判定部３４と、正規崩れフレーズモデル記憶部３６と、統計量算出部４２と、形態素情報付与部１２３０と、データ生成部１２３４と、モデル学習部４４と、フレーズフィルタモデル記憶部４６とを含んで構成されている。

形態素情報付与部１２３０は、入力部１０において受け付けた正規語崩れ語ペアデータに含まれるペアの各々について、正規崩れフレーズモデル記憶部３６に記憶されている正規崩れフレーズモデルに基づいて、崩れ語の部分文字列のうち、崩れフレーズに該当する部分文字列を、当該崩れフレーズに対応する正規フレーズの部分文字列に変換する。そして、正規フレーズに変換された各部分文字列に対して辞書引きして、形態素情報を付与する。なお、形態素情報は形態素の文字長さ、品詞、変換文字列の形態素内での位置等を含むものとする。

データ生成部１２３４は、変換後の正規フレーズが当該崩れ語に対応する正規語に含まれるか否か判定し、含まれる場合には当該正規フレーズの形態素に対応する文字ｎ‐ｇｒａｍ統計量、当該崩れフレーズの形態素に対応する文字ｎ‐ｇｒａｍ統計量、及び形態素情報を含む学習データを正例データとして生成し、含まれない場合には当該正規フレーズに対応する文字ｎ‐ｇｒａｍ統計量、崩れフレーズに対応する文字ｎ‐ｇｒａｍ統計量、及び形態素情報を含む学習データを、負例データとして生成する。例えば、解析対象文が「ぁりがとぅー」である場合の学習データの一例として、図２７、２９に示すように、各部分文字列と部分文字列の形態素のペアにラベルとして正解である正例データには１を付与し、正解ではない負例データには０を付与して学習データを作成することができる。

＜第２の実施の形態に係る形態素解析装置の構成＞

次に、第２の実施の形態に係る形態素解析装置１３００の構成について説明する。

本発明の第２の実施の形態に係る形態素解析装置１３００は、図２８に示すように、入力部２１０と、演算部１３２０と、出力部５０とを備えている。

演算部１３２０は、解析候補生成部１１３０と、正規崩れフレーズモデル記憶部２３２と、辞書データベース記憶部２３３と、文字種変換辞書データベース記憶部９３４と、フレーズフィルタモデル記憶部２３６と、ラティス生成部１３３４と、算出部１３３６と、ノード抽出部１３３８と、選択部２４０とを含んで構成されている。

ラティス生成部１３３４は、第１の参考例の形態素解析装置に係るラティス生成部２３９と同様の処理を行って、入力部２１０において受け付けた入力文と、解析候補生成部１１３０によって生成された解析候補文の各々とに対して、辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成する。また、ラティス生成部１３３４は、第１の実施の形態の形態素解析装置１１００に係るラティス生成部１１３９と同様に正規フレーズに変換した部分文字列について文字種の展開を行い、変換された部分文字列について辞書引きを行って、品詞が付与されたノードを追加する。

算出部１３３６は、ラティス生成部１３３４によって生成されたノードのうち正規フレーズに変換された部分文字列に対応するノードの各々及び文字種の展開により追加されたノードの各々について、ノードに対応する部分文字列の正規フレーズに対し、フレーズフィルタモデル記憶部４３６に記憶されているフレーズフィルタモデル、及びラティス生成の際にノードに付与された品詞を含む形態素情報とに基づいて、当該ノードに対応する正規フレーズへ変換した変換の尤もらしさを示すスコアを算出する。

ノード抽出部１３３８は、ラティス生成部１３３４によって生成されたノードのうち正規フレーズに変換された部分文字列に対応するノードの各々について、算出部１３３６において当該ノードについて算出された、尤もらしさを示すスコアが閾値よりも大きいか否か判定する。閾値よりも尤もらしさを示すスコアが大きい場合、当該ノードを解析対象として抽出し、算出された尤もらしさを示すスコアが閾値以下である場合、当該ノードを削除する。そして、削除されたノードを除いて、抽出されたノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを再構成する。

＜第２の実施の形態に係るモデル学習装置の作用＞

次に、第２の実施の形態に係るモデル学習装置１２００の作用について説明する。まず、入力部１０において正規語崩れ語ペアデータを受け付けると、モデル学習装置１２００は、上記図１１に示す正規崩れフレーズモデル学習処理ルーチンと同様の処理ルーチンを実行する。また、入力部１０において複数分野のコーパスを受け付けると、モデル学習装置１２００は、図３０に示すフレーズフィルタモデル学習処理ルーチンを実行する。

ステップＳ６００では、辞書データベース記憶部２３３に記憶されている辞書を読み込む。

ステップＳ６０２では、入力部１０において受け付けた正規語崩れ語ペアデータの処理対象のペアについて、ステップＳ２０４において変換した正規フレーズの各々に対して、ステップＳ６００で読み込んだ辞書を用いて辞書引きを行い、品詞を含む形態素情報を付与する。

次に、ステップＳ６０４では、入力部１０において受け付けた正規語崩れ語ペアデータの処理対象のペアについて、ステップＳ２０４において変換した正規フレーズの各々について、処理対象のペアの正規語に含まれるか否か判定し、含まれる場合には、ステップＳ２０３において取得した当該正規フレーズと当該崩れフレーズとの各々に対応する文字ｎ‐ｇｒａｍ統計量とステップＳ６０２において付与した形態素情報とを含む学習データを正例データとして作成し、含まれない場合には、ステップＳ２０３において取得した当該正規フレーズと当該崩れフレーズとの各々に対応する文字ｎ‐ｇｒａｍ統計量とステップＳ６０２において付与した形態素情報とを含む学習データを負例データとして作成する。

＜第２の実施の形態に係る形態素解析装置の作用＞

次に、第２の実施の形態に係る形態素解析装置１３００の作用について説明する。入力部２１０において入力文を受け付けると、形態素解析装置１３００は、図３１に示す形態素解析処理ルーチンを実行する。

ステップＳ７００では、文字種変換辞書データベース記憶部９３４に記憶されている文字種変換辞書を読み込む。

ステップＳ７０２では、入力部２１０において受け付けた入力文について、ステップＳ３００において取得した正規崩れフレーズモデルに基づいて、崩れフレーズに該当する部分文字列を、正規フレーズに変換した解析候補文の各々を生成する。

ステップＳ７０８では、ステップＳ７０２において生成された解析候補文の各々と、入力部２１０において受け付けた入力文とに対して、ステップＳ３０１において取得した辞書を用いて辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成する。また、ラティスの生成にあたって、ステップＳ７００において取得した、文字種変換辞書を用いて、ステップＳ７０２で正規フレーズに変換された部分文字列に対応する各ノードについて、読みが同一の異なる文字種の部分文字列に展開し、展開した部分文字列について辞書引きを行って、品詞が付与されたノードを追加する。

ステップＳ７１０では、ステップＳ７０８において生成したラティスのうち、正規フレーズに変換された部分文字列に対応する各ノード及び異なる文字種の部分文字列に展開されて追加された各ノードについて、入力部２１０において受け付けた入力文と、ステップＳ３０２において取得したフレーズフィルタモデル、文字ｎ‐ｇｒａｍ統計量及び形態素情報とに基づいて、崩れフレーズを正規フレーズへ変換した変換の尤もらしさを示すスコアを算出する。

ステップＳ７１２では、ステップＳ７１０において算出したスコアに基づいて、フレーズ変換の尤もらしさを示すスコアが閾値よりも大きい値であるノードの各々を抽出すると共に、フレーズ変換の尤もらしさを示すスコアが閾値以下の値であるノードの各々を削除して、ラティスを再構成する。

ステップＳ７１４では、ステップＳ７１２において再構成されたラティスと、ステップＳ３００において取得した正規崩れフレーズモデルの変換確率と、ステップＳ３０１において取得した辞書のコスト及び品詞ペアの接続確率とに基づいて、動的計画法に従って、次の（５）式の目的関数を最小化する、当該ラティスのノードを結んだ最適な経路を選択する。

ただし、＾ｗは最適単語及び最適品詞の列であり、Ｗは単語及び品詞の列を示す。また、λ_ｋはｋ番目の素性の重みであり、φ_ｋ(ｗ)はｋ番目の素性を示す。各素性としては、後述する第３の実施の形態で説明する複数の素性を用いればよい。

なお、第２の実施の形態に係る形態素解析装置１３００及びモデル学習装置１２００の他の構成及び作用については、第１の参考例と同様であるため、説明を省略する。

以上説明したように、本発明の第２の実施の形態に係る形態素解析装置によれば、生成したラティスにおける、崩れフレーズを正規フレーズに変換した部分文字列に対応するノードについて、当該部分文字列の形態素情報を考慮して、当該ノードに対応する正規フレーズへ変換した変換の尤もらしさを示すスコアを算出し、スコアが閾値以下のノードを削除することにより、精度よく形態素解析を行うことができる。

＜第３の実施の形態＞

次に、本発明の第３の実施の形態について説明する。なお、第１の参考例及び第１及び第２の実施の形態と同様の構成及び作用となる部分については、同一符号を付して説明を省略する。

＜概要＞

例えば、動的計画法に従って、ラティスのノードを結んだ最適な経路を選択しようとする場合、品詞連接コスト（各形態素の連接のしやすさを表す指標）と単語コスト（各形態素の生起のしやすさを表す指標）の和を用いて形態素列の尤もらしさを評価すると、文字列を変換して生成した解析候補文に対しても、変換前の解析候補文と同様のコストが与えられる。そのため、誤った候補が選択されやすくなってしまう、という課題がある。

また、文字種や部分文字列を変換することで展開されるノードの数が多くなる場合、適切なコスト付けの問題は重要な課題となる。

そこで、第３の実施の形態では、正規文の尤もらしさを判断するための複数の素性に関する重みを用いて最適な候補の選択を行う。最適な候補の選択は、上記（５）式に示すように素性関数と重みを掛け合わせた総コストの値を最小化するように行う。また、最適な重みを学習する。最適な重みの学習では、

ＭＥＲＴを用いて、以下（６）、（７）式に示すように正規文とシステム解析文との形態素解析結果の異なり数を最小化することで最適な重みを学習する。ＭＥＲＴによる学習は、非特許文献４（Machery W, Och F J, and Thayer I Uszkoreit J.Lattice-based minimum error rate training for statistical machine translation. In Proc. of EMNLP, Vol. 1,pp. 725-734, 2008.）に記載されているものと同様の手法を用いる。

ただし、Ｅは正規文の形態素解析結果を示す。Ｎは正規文の文数を表す。

本実施の形態においては、素性関数として、生成されたラティスにおけるノードを結んだ各経路についてのコストを算出するための素性関数において、複数の素性を用いる。具体的には、経路が表す品詞列に対して、品詞同士が連接する確率に関する品詞連接コストを示す第１素性φ１、経路が表す単語列に対して、単語が生起する確率に関する単語コストを示す第２素性φ２、経路が表す単語列に対して、ｎ個の単語が生起したときに単語が生起する確率に関する単語表層ｎ−ｇｒａｍに基づくコスト（本実施の形態では単語ｂｉ−ｇｒａｍを用いる）を示す第３素性φ３、崩れフレーズを正規フレーズに変換することについての変換確率及び崩れフレーズを正規フレーズへ変換した変換の尤もらしさを示すスコアを含む文字列変換コストを示す第４素性（φ４、φ５）、文字列が、文字種変換辞書に基づいて置き換えた部分文字列を含む場合における文字種変換コストを示す第５素性（φ６、φ７）を用いる。ここで、単語表層ｎ−ｇｒａｍに基づくコストを示す第３素性φ３は、−ｌｏｇ（単語ｂｉ−ｇｒａｍ確率）の値である。また、文字列変換コストを示す第４素性は、−ｌｏｇ（正規崩れフレーズモデルの変換確率）の値である素性φ４と、フレーズフィルタモデルに基づく崩れフレーズを正規フレーズへ変換した変換の尤もらしさを示すスコアである素性φ５とを含む。また、文字種変換コストを示す第５素性は、文字種がひらがなに変換された文字列に対して（１×単語コスト）となる値である素性φ６と、文字種がカタカナに変換された文字列に対して（１×単語コスト）となる値である素性φ７とを含む。

＜第３の実施の形態に係るモデル学習装置の構成＞

次に、第３の実施の形態に係るモデル学習装置１５００の構成について説明する。

本発明の第３の実施の形態に係るモデル学習装置１５００は、図３２に示すように、入力部１０と、演算部１５２０と、出力部５０とを備えている。

演算部１５２０は、初期設定部３０と、フレーズアライメント部３１と、変換確率算出部３２と、反復判定部３４と、正規崩れフレーズモデル記憶部３６と、統計量算出部４２と、解析候補生成部１５３０と、辞書データベース記憶部２３３と、文字種変換辞書データベース記憶部９３４と、形態素情報付与部１２３０と、データ生成部１２３４と、モデル学習部４４と、フレーズフィルタモデル記憶部４６と、解析候補生成部１５３０と、ラティス生成部１５３２と、算出部１５３３と、ノード抽出部１５３４と、素性抽出部１５３６と、モデル推定部１５３８と、解析用識別モデル記憶部１５４２とを含んで構成されている。

入力部１０は、正規語崩れ語ペアデータを受け付けると共に、ｗｅｂ上の複数分野の大量の文書群を受け付け、複数分野のコーパスとする。また、入力部１０は、崩れ文と対応する正規文に対する形態素解析結果とのペアである正規文崩れ文ペアの各々を受け付ける。

解析候補生成部１５３０は、入力部１０によって受け付けた正規文崩れ文ペアの各々について、正規崩れフレーズモデル記憶部３６に記憶されている正規崩れフレーズモデルに基づいて、上記の第２の実施の形態で説明した解析候補生成部１１３０と同様に、当該正規文崩れ文ペアの崩れ文に含まれる部分文字列のうち、崩れフレーズに該当する部分文字列を、当該崩れフレーズに対応する正規フレーズの部分文字列に変換することにより解析候補文を各々生成する。

ラティス生成部１５３２は、第１の参考例の形態素解析装置に係るラティス生成部２３９と同様の処理を行って、解析候補生成部１５３０によって生成された解析候補文に対して、辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成する。また、第１の実施の形態の形態素解析装置１１００に係るラティス生成部１１３９と同様に正規フレーズに変換した部分文字列について文字種の展開を行い、変換された部分文字列について辞書引きを行って、品詞が付与されたノードを追加する。なお、このとき文字種の展開履歴をメモリに記憶する。

算出部１５３３は、第２の実施の形態の形態素解析装置に係る算出部１３３６と同様の処理を行って、ノードに対応する正規フレーズへ変換した変換の尤もらしさを示すスコアを算出する。

ノード抽出部１５３４は、第２の実施の形態の形態素解析装置に係るノード抽出部１３３８と同様の処理を行って、ラティス生成部１５３２によって生成されたノードのうち正規フレーズに変換された部分文字列に対応するノードの各々について、算出部１５３３において当該ノードについて算出された、尤もらしさを示すスコアが閾値よりも大きいか否か判定する。閾値よりも尤もらしさを示すスコアが大きい場合、当該ノードを解析対象として抽出し、算出された尤もらしさを示すスコアが閾値以下である場合、当該ノードを削除する。そして、削除されたノードを除いて、抽出されたノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを再構成する。

素性抽出部１５３６は、ノード抽出部１５３４で再構成したラティスについてのノードを結んだ各経路について、素性関数において用いられる複数の素性を抽出する。具体的には、ラティスの経路について、既存の構築した辞書に記憶された推定値に基づいて、品詞連接コストを示す第１素性、単語コストを示す第２素性、単語ｂｉ−ｇｒａｍ確率を示す第３素性を抽出する。また、ラティスの経路について、正規崩れフレーズモデル及びフレーズフィルタモデルに基づいて、文字列変換コストを示す第４素性を抽出する。また、ラティスの経路について、ラティス生成部１５３２において文字種を展開した際にメモリに記憶した文字種の展開履歴に基づいて、文字種変換コストを示す第５素性を抽出する。なお、ノード抽出部１５３４によるノードの抽出を行わず、ラティス生成部１５３２によって生成されたラティスにおけるノードを結んだ各経路について、複数の素性の抽出を行ってもよい。

なお、文字列変換コストを示す第４素性は、解析候補生成部１５３０によって崩れフレーズを正規フレーズへ変換することで生成した部分文字列を含む経路についてのみ抽出し、文字種変換コストを示す第５素性は、ラティス生成部１５３２において文字種を変換した部分文字列を含む経路についてのみ抽出する。

上記の解析候補生成部１５３０、ラティス生成部１５３２、算出部１５３３、ノード抽出部１５３４、及び素性抽出部１５３６の各処理を、入力部１０によって受け付けた正規文崩れ文ペアの各々について行う。

モデル推定部１５３８は、入力部１０によって受け付けた正規文崩れ文ペアの各々における正規文に対する形態素解析結果と、正規文崩れ文ペアの各々に対し、素性抽出部１５３６によって各経路について抽出した複数の素性とに基づいて、ＭＥＲＴによる識別学習により、複数の素性を重み付け加算した値が最小となる経路が表す形態素解析結果と、入力された正規文の形態素解析結果との差分が最小になるように、複数の素性に対する重みの各々を学習し、正規文の尤もらしさを判断するための解析用識別モデルとして、解析用識別モデル記憶部１５４２に記憶すると共に、出力部５０に出力する。なお、学習手法として構造化パーセプトロンを用いてもよい。

＜第３の実施の形態に係る形態素解析装置の構成＞

次に、第３の実施の形態に係る形態素解析装置１６００の構成について説明する。

本発明の第３の実施の形態に係る形態素解析装置１６００は、図３３に示すように、入力部２１０と、演算部１６２０と、出力部５０とを備えている。

演算部１６２０は、解析候補生成部１１３０と、正規崩れフレーズモデル記憶部２３２と、辞書データベース記憶部２３３と、文字種変換辞書データベース記憶部９３４と、フレーズフィルタモデル記憶部２３６と、ラティス生成部１３３４と、算出部１３３６と、ノード抽出部１３３８と、素性抽出部１６４０と、選択部１６４１と、解析用識別モデル記憶部１６４２とを含んで構成されている。

素性抽出部１６４０は、ノード抽出部１３３８によって再構成されたラティスについてのノードを結んだ各経路について、複数の素性を抽出する。なお、モデル学習装置１５００に係る素性抽出部１５３６と同様の素性を抽出する。

選択部１６４１は、図３６において示すように、ラティス生成部１３３４において生成したラティスと、解析用識別モデル記憶部１６４２に記憶されている複数の素性の重みと、素性抽出部１６４０によりラティスの各経路から抽出した複数の素性とに基づいて、入力された文について、動的計画法に従って、上記（５）式の損失関数を最小化する、当該ラティスのノードを結んだ最適な経路を選択し、選択された経路が表す正規表記の品詞と単語区切りを、形態素解析結果として出力する。

＜第３の実施の形態に係るモデル学習装置の作用＞

次に、第３の実施の形態に係るモデル学習装置１５００の作用について説明する。まず、入力部１０において正規語崩れ語ペアデータを受け付けると、モデル学習装置１５００は、上記図１１に示す正規崩れフレーズモデル学習処理ルーチンと同様の処理ルーチンを実行する。また、入力部１０において複数分野のコーパスを受け付けると、モデル学習装置１５００は、上記図３０に示すフレーズフィルタモデル学習処理ルーチンと同様の処理ルーチンを実行する。

また、入力部１０において複数の正規文崩れ文ペアを受け付けると、モデル学習装置１５００は、図３４に示す解析用識別モデル学習処理ルーチンを実行する。

まず、ステップＳ８００では、正規崩れフレーズモデル記憶部３６に記憶されている正規崩れフレーズモデルを読み込む。

次に、ステップＳ８０２では、辞書データベース記憶部２３３に記憶されている辞書を読み込む。

ステップＳ８０４では、文字種変換辞書データベース記憶部９３４に記憶されている辞書を読み込む。

ステップＳ８０６では、フレーズフィルタモデル記憶部４６に記憶されているフレーズフィルタモデルを読み込む。

ステップＳ８０８では、入力部１０において受け付けた正規文崩れ文ペアのうちの処理対象のペアについて、ステップＳ８００において取得した正規崩れフレーズモデルに基づいて、当該ペアの崩れ文に含まれる部分文字列のうち、崩れフレーズに該当する部分文字列を、当該崩れフレーズに対応する正規フレーズの部分文字列に変換し、解析候補文を生成する。

ステップＳ８１０では、ステップＳ８０８において生成された解析候補文の各々と、入力部１０において受け付けた正規文崩れ文ペアのうちの処理対象のペアの崩れ文とに対して、ステップＳ８０２において取得した辞書を用いて辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成する。また、ラティスの生成にあたって、ステップＳ８０４において取得した、文字種変換辞書を用いて、ステップＳ８０８で正規フレーズに変換された部分文字列に対応する各ノードについて、読みが同一の異なる文字種の部分文字列に展開し、展開した部分文字列について辞書引きを行って、品詞が付与されたノードを追加する。また、文字種の展開履歴をメモリに記憶する。

ステップＳ８１１では、ステップＳ８１０において生成したラティスのうち、正規フレーズに変換された部分文字列に対応する各ノード及び異なる文字種の部分文字列に展開されて追加された各ノードについて、入力部１０において受け付けた入力文と、ステップＳ８０６において取得したフレーズフィルタモデル、文字ｎ‐ｇｒａｍ統計量及び形態素情報とに基づいて、崩れフレーズを正規フレーズへ変換した変換の尤もらしさを示すスコアを算出する。

ステップＳ８１２では、ステップＳ８１１において算出したスコアに基づいて、フレーズ変換の尤もらしさを示すスコアが閾値よりも大きい値であるノードの各々を抽出すると共に、フレーズ変換の尤もらしさを示すスコアが閾値以下の値であるノードの各々を削除して、ラティスを再構成する。

ステップＳ８１４では、ステップＳ８０２において取得した辞書と、ステップＳ８０６において取得したフレーズフィルタモデルと、ステップＳ８１０において記憶した文字種の展開履歴とに基づいて、ステップＳ８１２において再構成されたラティスの各経路について、素性関数において用いられる複数の素性を抽出する。

ステップＳ８１６では、正規文崩れ文ペアの全てについて、上記ステップＳ８０８からＳ８１４の処理を実行したか否かを判定し、上記ステップＳ８０８からＳ８１４の処理を実行していないペアが存在する場合には、上記ステップＳ８０８へ戻り、当該ペアを、処理対象とする。一方、全てのペアについて、上記ステップＳ８０８からＳ８１４の処理を実行した場合には、ステップＳ８１８へ進む。

次に、ステップＳ８１８では、入力部１０によって受け付けた正規文崩れ文ペアの各々における正規文に対する形態素解析結果と、ステップＳ８１４において正規文崩れ文ペアの各々に対して抽出した、各経路における複数の素性とに基づいて、ＭＥＲＴを用いた識別学習により、複数の素性を重み付け加算した値が作用となる経路が表す形態素解析結果と、入力された正規文の形態素解析結果との差分が最小になるように、複数の素性に対する重みの各々を学習し、解析用識別モデル記憶部１５４２に記憶する。

次に、ステップＳ８２０では、ステップＳ８１８において学習した重みを解析用識別モデルとして出力部５０により出力し、解析用識別モデル学習処理ルーチンの処理を終了する。

＜第３の実施の形態に係る形態素解析装置の作用＞

次に、第３の実施の形態に係る形態素解析装置１６００の作用について説明する。入力部２１０において入力文を受け付けると、形態素解析装置１６００は、図３５に示す形態素解析処理ルーチンを実行する。

ステップＳ９００では、解析用識別モデル記憶部１６４２に記憶されているモデルを読み込む。

ステップＳ９０１では、入力部２１０において受け付けた入力文について、ステップＳ３００において取得した正規崩れフレーズモデルに基づいて、解析候補文の各々を生成する。また、崩れフレーズが複数ある場合には複数箇所を変換した解析候補文を生成する。

ステップＳ７０８では、ステップＳ９０１において生成された解析候補文の各々と、入力部２１０において受け付けた入力文とに対して、ステップＳ３０１において取得した辞書を用いて辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成する。また、ラティスの生成にあたって、ステップＳ７００において取得した、文字種変換辞書を用いて、ステップＳ９０１で正規フレーズに変換された部分文字列に対応する各ノードについて、読みが同一の異なる文字種の部分文字列に展開し、展開した部分文字列について辞書引きを行って、品詞が付与されたノードを追加する。

次に、ステップＳ９０２では、ステップＳ７１２において再構成されたラティスの各経路について複数の素性を抽出する。

ステップＳ９０４では、ステップＳ９００において取得した解析用識別モデルに記憶された素性の重みと、ステップＳ７１２において再構成されたラティスと、ステップＳ９０２において抽出したラティスの各経路における複数の素性とに基づいて、動的計画法に従って、上記（５）式の損失関数を最小化する、当該ラティスのノードを結んだ最適な経路を選択する。

上記の形態素解析処理ルーチンを実行することにより、例えば、入力文「そんなれべるにそまるのをなんとか避けなければ」が入力された場合には、図３７（Ｂ）に示すような、形態素解析結果が出力される。なお、比較例として、従来の形態素解析器を用いた場合の形態素解析結果を、図３７（Ａ）に示す。

以上説明したように、本発明の第３の実施の形態に係るモデル学習装置によれば、崩れ文と、正規文に対する形態素解析結果とのペアを入力とし、ラティスにおける各経路うち、経路について抽出される複数の素性を重み付き加算した値が最小となるように経路が表す形態素解析結果と、入力された正規文の形態素解析結果との差分が最小になるように、各素性の重みを学習することにより、崩れ表記があっても精度よく形態素解析をするためのモデルを学習することができる。

また、本発明の第３の実施の形態に係る形態素解析装置によれば、ラティスにおけるノードを結んだ各経路についての複数の素性を用いて予め学習した解析用識別モデルの重みを用いて、揺らいだ表記である崩れ語を含む文字列に対しても、形態素解析を精度よく行うことができる。また、文字種変換候補展開を組み合わせて正規化解析の対象候補が増えたことに対して、ラティスの各経路から適切な素性を抽出することで、誤りの増加を抑えつつ解析可能な範囲を拡大することを可能とした。

例えば、上記の第３の実施の形態では、生成したラティスのノードについて、崩れフレーズを正規フレーズへ変換した変換の尤もらしさを示すスコアを算出し、スコアが閾値以下のノードを削除し、ラティスを再構成する場合を例に説明したが、これに限定されるものではない。例えば、上記の第３の実施の形態と同様に、ラティスを生成する前に、フレーズフィルタモデル、文字ｎ‐ｇｒａｍ統計量及び形態素情報とに基づいて、崩れフレーズを正規フレーズへ変換した変換の尤もらしさを示すスコアを算出し、尤もらしい解析候補文を抽出してから、ラティスを生成するようにしてもよい。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。

１０、２１０入力部
２０、２２０、３２０、４２０、５２０、６２０、７２０、８２０、１０２０、１１２０、１２２０、１３２０、１５２０、１６２０演算部
３０初期設定部
３１フレーズアライメント部
３２変換確率算出部
３４反復判定部
３６、２３２正規崩れフレーズモデル記憶部
４２統計量算出部
４３、７４３、１０４３、１２３４データ生成部
４４モデル学習部
４６、２３６、３４６、４３６フレーズフィルタモデル記憶部
５０、２５０出力部
１００、３００、５００、７００、１０００、１２００、１５００モデル学習装置
２００、４００、６００、８００、１１００、１３００、１６００形態素解析装置
２３０、８３０、１１３０、１５３０解析候補生成部
２３３辞書データベース記憶部
２３５、４３５、１３３６、１５３３算出部
２３８、４３８解析対象抽出部
２３９、６３９、１１３９、１３３４、１５３２、１６３８ラティス生成部
２４０、８４０、１６４１選択部
３４２統計量算出部
７３６、８３２正規崩れフレーズルール記憶部
９３４文字種変換辞書データベース記憶部
１２３０形態素情報付与部
１３３８、１５３４ノード抽出部
１５３６、１６４０素性抽出部
１５３８モデル推定部
１５４２、１６４２解析用識別モデル記憶部

Claims

入力された、正規化された表現である正規語に対して揺らいだ表記である崩れ語を含む崩れ文と、前記崩れ文に含まれる前記崩れ語を、前記正規語に置き換えた正規文に対する形態素解析結果とを受け付ける入力部と、
崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズを、正規語を文字列の区切り位置で区切った部分文字列である正規フレーズに変換するための予め求められた正規崩れフレーズモデルに基づいて、前記入力された前記崩れ文について、前記崩れフレーズに一致する部分文字列を、対応する前記正規フレーズに置き換えた文字列を解析候補として生成する解析候補生成部と、
前記入力された前記崩れ文及び前記解析候補生成部によって生成された前記解析候補の文字列の各々に対して辞書引きを行うと共に、前記解析候補生成部によって生成された前記解析候補の文字列の各々に対し、同一の読みであって、かつ、文字種が異なる複数の部分文字列の組み合わせを複数組格納した文字種変換辞書に基づいて、前記解析候補の文字列に含まれる前記正規フレーズについて、前記文字種変換辞書に格納されている組み合わせの部分文字列と一致する前記正規フレーズを、前記組み合わせの他の部分文字列に展開し、前記展開した部分文字列に対して辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するラティス生成部と、
前記ラティス生成部によって生成されたラティスにおける前記ノードを結んだ各経路について、前記経路が表す品詞列に対する品詞連接コストを示す第１素性、前記経路が表す単語列に対する単語コストを示す第２素性、前記経路が表す単語列に対する単語表層ｎ−ｇｒａｍに基づくコストを示す第３素性、前記経路が表す文字列が、前記崩れフレーズを置き換えた前記正規フレーズを含む場合に、前記崩れフレーズを前記正規フレーズに変換することについての文字列変換コストを示す第４素性、及び前記経路が表す文字列が、前記文字種変換辞書に基づいて展開された部分文字列を含む場合に、文字種変換コストを示す第５素性を含む複数の素性を抽出する素性抽出部と、
前記ラティス生成部によって生成されたラティスにおける前記ノードを結んだ各経路のうち、前記素性抽出部によって抽出された前記複数の素性を重み付け加算した値が最小となる経路が表す形態素解析結果と、前記入力された正規文の形態素解析結果との差分が最小になるように、前記複数の素性の各々に対する重みを学習する学習部と、
を含む、モデル学習装置。
入力された複数のコーパスに基づいて、ｎ個の文字からなる文字ｎ−ｇｒａｍ及びｎ個の単語からなる単語表層ｎ−ｇｒａｍの少なくとも一方の各々について、統計量を算出する統計量算出部と、
入力された正規化された表現である正規語と前記正規語に対して揺らいだ表記である崩れ語との複数のペア、及び前記崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズを、前記正規語を文字列の区切り位置で区切った部分文字列である正規フレーズに変換するための予め求められた正規崩れフレーズモデルに基づいて、前記入力された複数のペアの各々について、前記ペアの前記崩れ語に含まれる前記崩れフレーズを前記正規フレーズに変換し、前記変換された正規フレーズに対して辞書引きを行い、形態素情報を付与する形態素情報付与部と、
前記変換された正規フレーズと前記ペアの前記正規語との比較結果に基づいて、前記正規フレーズに付与された形態素情報と、前記崩れフレーズに対応する文字ｎ−ｇｒａｍ及び単語表層ｎ−ｇｒａｍの少なくとも一方について算出された統計量と、前記正規フレーズに対応する文字ｎ−ｇｒａｍ及び単語表層ｎ−ｇｒａｍの少なくとも一方について算出された統計量とを含む、正例データ及び負例データの何れか一方である学習データを生成するデータ生成部と、
前記データ生成部によって前記複数のペアの各々について生成された学習データに基づいて、前記崩れフレーズを前記正規フレーズへ変換することの尤もらしさを判断するためのフレーズフィルタモデルを学習する学習部と、
を含む、モデル学習装置。
崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズを、正規語を文字列の区切り位置で区切った部分文字列である正規フレーズに変換するための予め求められた正規崩れフレーズモデルに基づいて、入力された文字列について、前記崩れフレーズに一致する部分文字列を、対応する前記正規フレーズに置き換えた文字列を解析候補として生成する解析候補生成部と、
前記入力された文字列及び前記解析候補生成部によって生成された前記解析候補の文字列の各々に対して辞書引きを行うと共に、前記解析候補生成部によって生成された前記解析候補の文字列の各々に対し、同一の読みであって、かつ、文字種が異なる複数の部分文字列の組み合わせを複数組格納した文字種変換辞書に基づいて、前記解析候補の文字列に含まれる前記正規フレーズについて、前記文字種変換辞書に格納されている組み合わせの部分文字列と一致する前記正規フレーズを、前記組み合わせの他の部分文字列に展開し、前記展開した部分文字列に対して辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するラティス生成部と、
前記ラティス生成部によって生成されたラティスにおける前記ノードを結んだ各経路について、前記経路が表す品詞列に対する品詞連接コストを示す第１素性、前記経路が表す単語列に対する単語コストを示す第２素性、前記経路が表す単語列に対する単語表層ｎ−ｇｒａｍに基づくコストを示す第３素性、前記経路が表す文字列が、前記崩れフレーズを置き換えた前記正規フレーズを含む場合に、前記崩れフレーズを前記正規フレーズに変換することについての文字列変換コストを示す第４素性、及び前記経路が表す文字列が、前記文字種変換辞書に基づいて展開された部分文字列を含む場合に、文字種変換コストを示す第５素性を含む複数の素性を抽出する素性抽出部と、
予め求められた前記複数の素性の各々に対する重みに基づいて、動的計画法に従って、前記ラティス生成部によって生成されたラティスにおける前記ノードを結んだ各経路のうち、前記素性抽出部によって抽出された前記複数の素性を重み付け加算した値が最小となる経路を選択し、選択した経路が表す形態素解析結果を出力する選択部と、
を含む、形態素解析装置。
前記ラティス生成部によって生成されたラティスにおける前記ノードのうち、前記正規フレーズに対応するノードの各々について、前記崩れフレーズを前記正規フレーズへ変換することの尤もらしさを判断するための予め求められたフレーズフィルタモデルと、前記ノードに付与された品詞を含む形態素情報とに基づいて、前記ノードに対応する前記正規フレーズへ変換することの尤もらしさを算出する算出部と、
前記ラティス生成部によって生成されたラティスのうち、前記正規フレーズに対応するノードから、前記算出部によって算出された前記ノードに対応する前記正規フレーズへ変換することの尤もらしさと、予め定められた閾値とに基づいて、尤もらしい前記ノードを抽出するノード抽出部とを更に含み、
前記素性抽出部は、前記ラティス生成部によって生成されたラティスのうちの、前記ノード抽出部によって抽出された前記ノードを含む各経路について、前記複数の素性を抽出し、
前記選択部は、予め求められた前記複数の素性の各々に対する重みに基づいて、動的計画法に従って、前記ラティス生成部によって生成されたラティスのうちの、前記ノード抽出部によって抽出された前記ノードを含む各経路のうち、前記素性抽出部によって抽出された前記複数の素性を重み付け加算した値が最小となる経路を選択し、選択した経路が表す形態素解析結果を出力する請求項３記載の形態素解析装置。
入力部が、入力された正規化された表現である正規語に対して揺らいだ表記である崩れ語を含む崩れ文と、前記崩れ文に含まれる前記崩れ語を、前記正規語に置き換えた正規文に対する形態素解析結果とを受け付けるステップと、
解析候補生成部が、崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズを、正規語を文字列の区切り位置で区切った部分文字列である正規フレーズに変換するための予め求められた正規崩れフレーズモデルに基づいて、前記入力された前記崩れ文について、前記崩れフレーズに一致する部分文字列を、対応する前記正規フレーズに置き換えた文字列を解析候補として生成するステップと、
ラティス生成部が、前記入力された前記崩れ文及び前記解析候補生成部によって生成された前記解析候補の文字列の各々に対して辞書引きを行うと共に、前記解析候補生成部によって生成された前記解析候補の文字列の各々に対し、同一の読みであって、かつ、文字種が異なる複数の部分文字列の組み合わせを複数組格納した文字種変換辞書に基づいて、前記解析候補の文字列に含まれる前記正規フレーズについて、前記文字種変換辞書に格納されている組み合わせの部分文字列と一致する前記正規フレーズを、前記組み合わせの他の部分文字列に展開し、前記展開した部分文字列に対して辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するステップと、
素性抽出部が、前記ラティス生成部によって生成されたラティスにおける前記ノードを結んだ各経路について、前記経路が表す品詞列に対する品詞連接コストを示す第１素性、前記経路が表す単語列に対する単語コストを示す第２素性、前記経路が表す単語列に対する単語表層ｎ−ｇｒａｍに基づくコストを示す第３素性、前記経路が表す文字列が、前記崩れフレーズを置き換えた前記正規フレーズを含む場合に、前記崩れフレーズを前記正規フレーズに変換することについての文字列変換コストを示す第４素性、及び前記経路が表す文字列が、前記文字種変換辞書に基づいて展開された部分文字列を含む場合に、文字種変換コストを示す第５素性を含む複数の素性を抽出するステップと、
学習部が、前記ラティス生成部によって生成されたラティスにおける前記ノードを結んだ各経路のうち、前記素性抽出部によって抽出された前記複数の素性を重み付け加算した値が最小となる経路が表す形態素解析結果と、前記入力された正規文の形態素解析結果との差分が最小になるように、前記複数の素性の各々に対する重みを学習するステップと、
を含むモデル学習方法。
統計量算出部が、入力された複数のコーパスに基づいて、ｎ個の文字からなる文字ｎ−ｇｒａｍ及びｎ個の単語からなる単語表層ｎ−ｇｒａｍの少なくとも一方の各々について、統計量を算出するステップと、
形態素情報付与部が、入力された正規化された表現である正規語と前記正規語に対して揺らいだ表記である崩れ語との複数のペア、及び前記崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズを、前記正規語を文字列の区切り位置で区切った部分文字列である正規フレーズに変換するための予め求められた正規崩れフレーズモデルに基づいて、前記入力された複数のペアの各々について、前記ペアの前記崩れ語に含まれる前記崩れフレーズから前記正規フレーズに変換し、前記変換された正規フレーズに対して辞書引きを行い、形態素情報を付与するステップと、
データ生成部が、前記変換された正規フレーズと前記ペアの前記正規語との比較結果に基づいて、前記正規フレーズに付与された形態素情報と、前記崩れフレーズに対応する文字ｎグラム及び単語表層ｎ−ｇｒａｍの少なくとも一方について算出された統計量と、前記正規フレーズに対応する文字ｎ−ｇｒａｍ及び単語表層ｎ−ｇｒａｍの少なくとも一方について算出された統計量とを含む、正例データ及び負例データの何れか一方である学習データを生成するステップと、
学習部が、前記データ生成部によって前記複数のペアの各々について生成された学習データに基づいて、前記崩れフレーズを前記正規フレーズへ変換することの尤もらしさを判断するためのフレーズフィルタモデルを学習するステップと、
を含む、モデル学習方法。
解析候補生成部が、崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズを、正規語を文字列の区切り位置で区切った部分文字列である正規フレーズに変換するための予め求められた正規崩れフレーズモデルに基づいて、入力された文字列について、前記崩れフレーズに一致する部分文字列を、対応する前記正規フレーズに置き換えた文字列を解析候補として生成するステップと、
ラティス生成部が、前記入力された文字列及び前記解析候補生成部によって生成された前記解析候補の文字列の各々に対して辞書引きを行うと共に、前記解析候補生成部によって生成された前記解析候補の文字列の各々に対し、同一の読みであって、かつ、文字種が異なる複数の部分文字列の組み合わせを複数組格納した文字種変換辞書に基づいて、前記解析候補の文字列に含まれる前記正規フレーズについて、前記文字種変換辞書に格納されている組み合わせの部分文字列と一致する前記正規フレーズを、前記組み合わせの他の部分文字列に展開し、前記展開した部分文字列に対して辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するステップと、
素性抽出部が、前記ラティス生成部によって生成されたラティスにおける前記ノードを結んだ各経路について、前記経路が表す品詞列に対する品詞連接コストを示す第１素性、前記経路が表す単語列に対する単語コストを示す第２素性、前記経路が表す単語列に対する単語表層ｎ−ｇｒａｍに基づくコストを示す第３素性、前記経路が表す文字列が、前記崩れフレーズを置き換えた前記正規フレーズを含む場合に、前記崩れフレーズを前記正規フレーズに変換することについての文字列変換コストを示す第４素性、及び前記経路が表す文字列が、前記文字種変換辞書に基づいて展開された部分文字列を含む場合に、文字種変換コストを示す第５素性を含む複数の素性を抽出するステップと、
選択部が、予め求められた前記複数の素性の各々に対する重みに基づいて、動的計画法に従って、前記ラティス生成部によって生成されたラティスにおける前記ノードを結んだ各経路のうち、前記素性抽出部によって抽出された前記複数の素性を重み付け加算した値が最小となる経路を選択し、選択した経路が表す形態素解析結果を出力するステップと、
を含む、形態素解析方法。
入力された、正規化された表現である正規語に対して揺らいだ表記である崩れ語を含む崩れ文と、前記崩れ文に含まれる前記崩れ語を、前記正規語に置き換えた正規文に対する形態素解析結果とを受け付ける入力部と、
崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズを、正規語を文字列の区切り位置で区切った部分文字列である正規フレーズに変換するための予め求められた正規崩れフレーズモデルに基づいて、前記入力された前記崩れ文について、前記崩れフレーズに一致する部分文字列を、対応する前記正規フレーズに置き換えた文字列を解析候補として生成する解析候補生成部と、
前記入力された前記崩れ文及び前記解析候補生成部によって生成された前記解析候補の文字列の各々に対して辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するラティス生成部と、
前記ラティス生成部によって生成されたラティスにおける前記ノードを結んだ各経路について、前記経路が表す品詞列に対する品詞連接コストを示す第１素性、前記経路が表す単語列に対する単語コストを示す第２素性、前記経路が表す単語列に対する単語表層ｎ−ｇｒａｍに基づくコストを示す第３素性、及び前記経路が表す文字列が、前記崩れフレーズを置き換えた前記正規フレーズを含む場合に、前記崩れフレーズを前記正規フレーズに変換することについての文字列変換コストを示す第４素性を含む複数の素性を抽出する素性抽出部と、
前記ラティス生成部によって生成されたラティスにおける前記ノードを結んだ各経路のうち、前記素性抽出部によって抽出された前記複数の素性を重み付け加算した値が最小となる経路が表す形態素解析結果と、前記入力された正規文の形態素解析結果との差分が最小になるように、前記複数の素性の各々に対する重みを学習する学習部と、
を含む、モデル学習装置。
崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズを、正規語を文字列の区切り位置で区切った部分文字列である正規フレーズに変換するための予め求められた正規崩れフレーズモデルに基づいて、入力された文字列について、前記崩れフレーズに一致する部分文字列を、対応する前記正規フレーズに置き換えた文字列を解析候補として生成する解析候補生成部と、
前記入力された文字列及び前記解析候補生成部によって生成された前記解析候補の文字列の各々に対して辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するラティス生成部と、
前記ラティス生成部によって生成されたラティスにおける前記ノードを結んだ各経路について、前記経路が表す品詞列に対する品詞連接コストを示す第１素性、前記経路が表す単語列に対する単語コストを示す第２素性、前記経路が表す単語列に対する単語表層ｎ−ｇｒａｍに基づくコストを示す第３素性、及び前記経路が表す文字列が、前記崩れフレーズを置き換えた前記正規フレーズを含む場合に、前記崩れフレーズを前記正規フレーズに変換することについての文字列変換コストを示す第４素性を含む複数の素性を抽出する素性抽出部と、
予め求められた前記複数の素性の各々に対する重みに基づいて、動的計画法に従って、前記ラティス生成部によって生成されたラティスにおける前記ノードを結んだ各経路のうち、前記素性抽出部によって抽出された前記複数の素性を重み付け加算した値が最小となる経路を選択し、選択した経路が表す形態素解析結果を出力する選択部と、
を含む、形態素解析装置。
入力部が、入力された正規化された表現である正規語に対して揺らいだ表記である崩れ語を含む崩れ文と、前記崩れ文に含まれる前記崩れ語を、前記正規語に置き換えた正規文に対する形態素解析結果とを受け付けるステップと、
解析候補生成部が、崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズを、正規語を文字列の区切り位置で区切った部分文字列である正規フレーズに変換するための予め求められた正規崩れフレーズモデルに基づいて、前記入力された前記崩れ文について、前記崩れフレーズに一致する部分文字列を、対応する前記正規フレーズに置き換えた文字列を解析候補として生成するステップと、
ラティス生成部が、前記入力された前記崩れ文及び前記解析候補生成部によって生成された前記解析候補の文字列の各々に対して辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するステップと、
素性抽出部が、前記ラティス生成部によって生成されたラティスにおける前記ノードを結んだ各経路について、前記経路が表す品詞列に対する品詞連接コストを示す第１素性、前記経路が表す単語列に対する単語コストを示す第２素性、前記経路が表す単語列に対する単語表層ｎ−ｇｒａｍに基づくコストを示す第３素性、及び前記経路が表す文字列が、前記崩れフレーズを置き換えた前記正規フレーズを含む場合に、前記崩れフレーズを前記正規フレーズに変換することについての文字列変換コストを示す第４素性を含む複数の素性を抽出するステップと、
学習部が、前記ラティス生成部によって生成されたラティスにおける前記ノードを結んだ各経路のうち、前記素性抽出部によって抽出された前記複数の素性を重み付け加算した値が最小となる経路が表す形態素解析結果と、前記入力された正規文の形態素解析結果との差分が最小になるように、前記複数の素性の各々に対する重みを学習するステップと、
を含むモデル学習方法。
解析候補生成部が、崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズを、正規語を文字列の区切り位置で区切った部分文字列である正規フレーズに変換するための予め求められた正規崩れフレーズモデルに基づいて、入力された文字列について、前記崩れフレーズに一致する部分文字列を、対応する前記正規フレーズに置き換えた文字列を解析候補として生成するステップと、
ラティス生成部が、前記入力された文字列及び前記解析候補生成部によって生成された前記解析候補の文字列の各々に対して辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するステップと、
素性抽出部が、前記ラティス生成部によって生成されたラティスにおける前記ノードを結んだ各経路について、前記経路が表す品詞列に対する品詞連接コストを示す第１素性、前記経路が表す単語列に対する単語コストを示す第２素性、前記経路が表す単語列に対する単語表層ｎ−ｇｒａｍに基づくコストを示す第３素性、及び前記経路が表す文字列が、前記崩れフレーズを置き換えた前記正規フレーズを含む場合に、前記崩れフレーズを前記正規フレーズに変換することについての文字列変換コストを示す第４素性を含む複数の素性を抽出するステップと、
選択部が、予め求められた前記複数の素性の各々に対する重みに基づいて、動的計画法に従って、前記ラティス生成部によって生成されたラティスにおける前記ノードを結んだ各経路のうち、前記素性抽出部によって抽出された前記複数の素性を重み付け加算した値が最小となる経路を選択し、選択した経路が表す形態素解析結果を出力するステップと、
を含む、形態素解析方法。