JP6145059B2 - モデル学習装置、形態素解析装置、及び方法 - Google Patents

モデル学習装置、形態素解析装置、及び方法 Download PDF

Info

Publication number
JP6145059B2
JP6145059B2 JP2014041951A JP2014041951A JP6145059B2 JP 6145059 B2 JP6145059 B2 JP 6145059B2 JP 2014041951 A JP2014041951 A JP 2014041951A JP 2014041951 A JP2014041951 A JP 2014041951A JP 6145059 B2 JP6145059 B2 JP 6145059B2
Authority
JP
Japan
Prior art keywords
phrase
character string
regular
word
lattice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014041951A
Other languages
English (en)
Other versions
JP2015169947A (ja
Inventor
いつみ 斉藤
いつみ 斉藤
九月 貞光
九月 貞光
久子 浅野
久子 浅野
松尾 義博
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014041951A priority Critical patent/JP6145059B2/ja
Publication of JP2015169947A publication Critical patent/JP2015169947A/ja
Application granted granted Critical
Publication of JP6145059B2 publication Critical patent/JP6145059B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Description

本発明は、モデル学習装置、形態素解析装置、及び方法に係り、特に、口語調などの正書法では現れない表記である崩れた表記を頑健に解析するためのモデル学習装置、形態素解析装置、及び方法に関する。
従来の日本語形態素解析器は、図38に示すように、形態素の連接確率(コスト)と生起確率(コスト)を用いて、入力文の分かち書き(単語分割)と品詞付与を同時に行っている(総コストが最小の組み合わせを選択する。)。
また、異なる文字種間での文字変換の対応関係や、漢字−読みの対応関係を推定する際に用いられる手法として、トランスリタレーションという手法がある。トランスリタレーションとは、図39に示す様に、2つの文字列間の対応関係を求める手法であり、例えば、動的計画法を用いて、各文字の対応を推定する等、様々な拡張手法が提案されている(非特許文献1)。
また、従来、崩れた表記に対応するために、図40に示す様な、人手で文字列の変換ルールを作成し、形態素解析に組み込むことで対応している。ここで「崩れた表記」とは、図41に示すように、口語超やweb特有の書き言葉など、新聞などの正書法では現れない表記を指す。具体的には、小文字化(あ→ぁ、い→ぃ)、長音化(あ→−、う→−)など、特徴的なパターンに関して人手整備を行い、形態素解析において、入力文の書き換えや辞書引き拡張を行う(非特許文献2、非特許文献3)。
辞書引きの拡張とは、入力文字列が別の文字列に変化した場合も考慮して辞書引きを行うことである。例えば、「軽−く」という入力文に対し、通常は「軽く」という形容詞は文字列が一致しないので列挙されないが、”「−」を削除”というルールを考慮した場合、「軽−く」と「軽く」という両方の文字列を辞書引きして一つのラティスにする。この場合は、「軽く」という形態素も列挙されるため、図42のようなラティスが生成される。ここで、ラティスとは、入力文字列に対し、辞書引きを行った結果入力文字列に「マッチした形態素集合をグラフ構造にしたもの」である。図43に例を示す。
齋藤邦子、篠原章夫、永田昌明、小原永,「音声制御ブラウザのVCWeb の英日シームレス化」,(2002),人工知能学会論文誌,pp.343-347 勝木健太、笹野遼平、河原大輔、黒橋禎夫,「web上の多彩な言語バリエーションに対応した頑健な形態素解析」,(2011),言語処理学会,第17回年次大会発表論文集 岡照晃、小町守、小木曽智信、松本裕治,「表記のバリエーションを考慮した近代日本語の形態素解析」,(2013),第27回人工知能学会発表論文集
従来の日本語形態素解析器においては、辞書引きをベースとして解析を行うため、辞書に存在しない語が出現した場合に解析失敗を起こす確率が高いという点が問題となる。
また、上記の従来の崩れた表記に対応する手法においては、崩れパターンが多岐にわたるため、人手整備では網羅しきれず、再現率が低いという問題がある。また、崩れ確率は現象によって異なるものであるが、従来の手法においては、全ての崩れパターンに対して、同一のコストが与えられているという問題がある。
本発明では、上記問題点を解決するために成されたものであり、揺らいだ表記である崩れ語を含む文字列に対しても形態素解析を精度よく行うことができる形態素解析装置、及び方法を提供することを目的とする。
また、揺らいだ表記である崩れ語を含む文字列に対しても形態素解析を精度よく行うことができるモデルを学習することができるモデル学習装置、及び方法を提供することができる。
上記目的を達成するために、第1の発明に係るモデル学習装置は、入力された、正規化された表現である正規語に対して揺らいだ表記である崩れ語を含む崩れ文と、前記崩れ文に含まれる前記崩れ語を、前記正規語に置き換えた正規文に対する形態素解析結果とを受け付ける入力部と、崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズを、正規語を文字列の区切り位置で区切った部分文字列である正規フレーズに変換するための予め求められた正規崩れフレーズモデルに基づいて、前記入力された前記崩れ文について、前記崩れフレーズに一致する部分文字列を、対応する前記正規フレーズに置き換えた文字列を解析候補として生成する解析候補生成部と、前記入力された前記崩れ文及び前記解析候補生成部によって生成された前記解析候補の文字列の各々に対して辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するラティス生成部と、前記ラティス生成部によって生成されたラティスにおける前記ノードを結んだ各経路について、前記経路が表す品詞列に対する品詞連接コストを示す第1素性、前記経路が表す単語列に対する単語コストを示す第2素性、及び前記経路が表す単語列に対する単語表層n−gramに基づくコストを示す第3素性を含む複数の素性を抽出する素性抽出部と、前記ラティス生成部によって生成されたラティスにおける前記ノードを結んだ各経路のうち、前記素性抽出部によって抽出された前記複数の素性を重み付け加算した値が最小となる経路が表す形態素解析結果と、前記入力された正規文の形態素解析結果との差分が最小になるように、前記複数の素性の各々に対する重みを学習する学習部と、を含んで構成されている。
また、第1の発明に係るモデル学習装置において、前記ラティス生成部は、前記入力された前記崩れ文及び前記解析候補生成部によって生成された前記解析候補の文字列の各々に対して辞書引きを行うと共に、前記解析候補生成部によって生成された前記解析候補の文字列の各々に対し、同一の読みであって、かつ、文字種が異なる複数の部分文字列の組み合わせを複数組格納した文字種変換辞書に基づいて、前記解析候補の文字列に含まれる前記正規フレーズについて、前記文字種変換辞書に格納されている組み合わせの部分文字列と一致する前記正規フレーズを、前記組み合わせの他の部分文字列に展開し、前記展開した部分文字列に対して辞書引きを行い、前記ラティスを生成し、前記素性抽出部は、前記ラティス生成部によって生成されたラティスにおける前記ノードを結んだ各経路について、前記経路が表す文字列が、前記崩れフレーズを置き換えた前記正規フレーズを含む場合に、前記崩れフレーズを前記正規フレーズに変換することについての文字列変換コストを示す第4素性を更に抽出し、前記経路が表す文字列が、前記文字種変換辞書に基づいて展開された部分文字列を含む場合に、文字種変換コストを示す第5素性を更に抽出してもよい。
第1の発明に係るモデル学習方法は、入力部が、入力された正規化された表現である正規語に対して揺らいだ表記である崩れ語を含む崩れ文と、前記崩れ文に含まれる前記崩れ語を、前記正規語に置き換えた正規文に対する形態素解析結果とを受け付けるステップと、解析候補生成部が、崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズを、正規語を文字列の区切り位置で区切った部分文字列である正規フレーズに変換するための予め求められた正規崩れフレーズモデルに基づいて、前記入力された前記崩れ文について、前記崩れフレーズに一致する部分文字列を、対応する前記正規フレーズに置き換えた文字列を解析候補として生成するステップと、ラティス生成部が、前記入力された前記崩れ文及び前記解析候補生成部によって生成された前記解析候補の文字列の各々に対して辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するステップと、素性抽出部が、前記ラティス生成部によって生成されたラティスにおける前記ノードを結んだ各経路について、前記経路が表す品詞列に対する品詞連接コストを示す第1素性、前記経路が表す単語列に対する単語コストを示す第2素性、及び前記経路が表す単語列に対する単語表層n−gramに基づくコストを示す第3素性を含む複数の素性を抽出するステップと、学習部が、前記ラティス生成部によって生成されたラティスにおける前記ノードを結んだ各経路のうち、前記素性抽出部によって抽出された前記複数の素性を重み付け加算した値が最小となる経路が表す形態素解析結果と、前記入力された正規文の形態素解析結果との差分が最小になるように、前記複数の素性の各々に対する重みを学習するステップと、を含んで実行することを特徴とする。
第2の発明に係るモデル学習装置は、入力された複数のコーパスに基づいて、n個の文字からなる文字n−gram及びn個の単語からなる単語表層n−gramの少なくとも一方の各々について、統計量を算出する統計量算出部と、入力された正規化された表現である正規語と前記正規語に対して揺らいだ表記である崩れ語との複数のペア、及び前記崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズを、前記正規語を文字列の区切り位置で区切った部分文字列である正規フレーズに変換するための予め求められた正規崩れフレーズモデルに基づいて、前記入力された複数のペアの各々について、前記ペアの前記崩れ語に含まれる前記崩れフレーズを前記正規フレーズに変換し、前記変換された正規フレーズに対して辞書引きを行い、形態素情報を付与する形態素情報付与部と、前記変換された正規フレーズと前記ペアの前記正規語との比較結果に基づいて、前記正規フレーズに付与された形態素情報と、前記崩れフレーズに対応する文字n−gram及び単語表層n−gramの少なくとも一方について算出された統計量と、前記正規フレーズに対応する文字n−gram及び単語表層n−gramの少なくとも一方について算出された統計量とを含む、正例データ及び負例データの何れか一方である学習データを生成するデータ生成部と、前記データ生成部によって前記複数のペアの各々について生成された学習データに基づいて、前記崩れフレーズを前記正規フレーズへ変換することの尤もらしさを判断するためのフレーズフィルタモデルを学習する学習部と、を含んで構成されている。
第2の発明に係るモデル学習方法は、統計量算出部が、入力された複数のコーパスに基づいて、n個の文字からなる文字n−gram及びn個の単語からなる単語表層n−gramの少なくとも一方の各々について、統計量を算出するステップと、形態素情報付与部が、入力された正規化された表現である正規語と前記正規語に対して揺らいだ表記である崩れ語との複数のペア、及び前記崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズを、前記正規語を文字列の区切り位置で区切った部分文字列である正規フレーズに変換するための予め求められた正規崩れフレーズモデルに基づいて、前記入力された複数のペアの各々について、前記ペアの前記崩れ語に含まれる前記崩れフレーズから前記正規フレーズに変換し、前記変換された正規フレーズに対して辞書引きを行い、形態素情報を付与するステップと、データ生成部が、前記変換された正規フレーズと前記ペアの前記正規語との比較結果に基づいて、前記正規フレーズに付与された形態素情報と、前記崩れフレーズに対応する文字nグラム及び単語表層n−gramの少なくとも一方について算出された統計量と、前記正規フレーズに対応する文字n−gram及び単語表層n−gramの少なくとも一方について算出された統計量とを含む、正例データ及び負例データの何れか一方である学習データを生成するステップと、学習部が、前記データ生成部によって前記複数のペアの各々について生成された学習データに基づいて、前記崩れフレーズを前記正規フレーズへ変換することの尤もらしさを判断するためのフレーズフィルタモデルを学習するステップと、を含んで実行することを特徴とする。
第3の発明に係る形態素解析装置は、崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズを、正規語を文字列の区切り位置で区切った部分文字列である正規フレーズに変換するための予め求められた正規崩れフレーズモデルに基づいて、入力された文字列について、前記崩れフレーズに一致する部分文字列を、対応する前記正規フレーズに置き換えた文字列を解析候補として生成する解析候補生成部と、前記入力された文字列及び前記解析候補生成部によって生成された前記解析候補の文字列の各々に対して辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するラティス生成部と、前記ラティス生成部によって生成されたラティスにおける前記ノードを結んだ各経路について、前記経路が表す品詞列に対する品詞連接コストを示す第1素性、前記経路が表す単語列に対する単語コストを示す第2素性、及び前記経路が表す単語列に対する単語表層n−gramに基づくコストを示す第3素性を含む複数の素性を抽出する素性抽出部と、予め求められた前記複数の素性の各々に対する重みに基づいて、動的計画法に従って、前記ラティス生成部によって生成されたラティスにおける前記ノードを結んだ各経路のうち、前記素性抽出部によって抽出された前記複数の素性を重み付け加算した値が最小となる経路を選択し、選択した経路が表す形態素解析結果を出力する選択部と、を含んで構成されている。
また、第3の発明に係る形態素解析装置において、前記ラティス生成部によって生成されたラティスにおける前記ノードのうち、前記正規フレーズに対応するノードの各々について、前記崩れフレーズを前記正規フレーズへ変換することの尤もらしさを判断するための予め求められたフレーズフィルタモデルと、前記ノードに付与された品詞を含む形態素情報とに基づいて、前記ノードに対応する前記正規フレーズへ変換することの尤もらしさを算出する算出部と、前記ラティス生成部によって生成されたラティスのうち、前記正規フレーズに対応するノードから、前記算出部によって算出された前記ノードに対応する前記正規フレーズへ変換することの尤もらしさと、予め定められた閾値とに基づいて、尤もらしい前記ノードを抽出するノード抽出部とを更に含み、前記素性抽出部は、前記ラティス生成部によって生成されたラティスのうちの、前記ノード抽出部によって抽出された前記ノードを含む各経路について、前記複数の素性を抽出し、前記選択部は、予め求められた前記複数の素性の各々に対する重みに基づいて、動的計画法に従って、前記ラティス生成部によって生成されたラティスのうちの、前記ノード抽出部によって抽出された前記ノードを含む各経路のうち、前記素性抽出部によって抽出された前記複数の素性を重み付け加算した値が最小となる経路を選択し、選択した経路が表す形態素解析結果を出力してもよい。
第3の発明に係る形態素解析方法は、解析候補生成部が、崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズを、正規語を文字列の区切り位置で区切った部分文字列である正規フレーズに変換するための予め求められた正規崩れフレーズモデルに基づいて、入力された文字列について、前記崩れフレーズに一致する部分文字列を、対応する前記正規フレーズに置き換えた文字列を解析候補として生成するステップと、ラティス生成部が、前記入力された文字列及び前記解析候補生成部によって生成された前記解析候補の文字列の各々に対して辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するステップと、素性抽出部が、前記ラティス生成部によって生成されたラティスにおける前記ノードを結んだ各経路について、前記経路が表す品詞列に対する品詞連接コストを示す第1素性、前記経路が表す単語列に対する単語コストを示す第2素性、及び前記経路が表す単語列に対する単語表層n−gramに基づくコストを示す第3素性を含む複数の素性を抽出するステップと、選択部が、予め求められた前記複数の素性の各々に対する重みに基づいて、動的計画法に従って、前記ラティス生成部によって生成されたラティスにおける前記ノードを結んだ各経路のうち、前記素性抽出部によって抽出された前記複数の素性を重み付け加算した値が最小となる経路を選択し、選択した経路が表す形態素解析結果を出力するステップと、を含んで実行することを特徴とする。
本発明の形態素解析装置、及び方法によれば、揺らいだ表記である崩れ語を含む文字列に対しても、形態素解析を精度よく行うことができる。
また、本発明のモデル学習装置、及び方法によれば、揺らいだ表記である崩れ語を含む文字列に対しても形態素解析を精度よく行うことができるモデルを学習することができる。
崩れ語と正規語の例を示す図である。 正規フレーズと崩れフレーズの例を示す図である。 第1の参考例に係るモデル学習装置の機能的構成を示すブロック図である。 正規語崩れ語ペアの例を示す図である。 動的計画法に基づいて最小コストの経路を探索する際に用いられる表の例を示す図である。 コスト関数の例を示す図である。 正規崩れフレーズモデルの例を示す図である。 第1の参考例に係る形態素解析装置の機能的構成を示すブロック図である。 解析候補文を作成する例を示す図である。 ラティスの例を示す図である。 第1の参考例に係るモデル学習装置における正規崩れフレーズモデル学習処理ルーチンを示すフローチャートである。 第1の参考例に係るモデル学習装置におけるフレーズフィルタモデル学習処理ルーチンを示すフローチャートである。 第1の参考例に係る形態素解析装置における形態素解析処理ルーチンを示すフローチャートである。 第1の参考例に係る形態素解析装置を用いた結果の例を示す図である。 第1の参考例に係る形態素解析装置を用いた結果の例を示す図である。 第2の参考例に係るモデル学習装置の機能的構成を示すブロック図である。 第2の参考例に係る形態素解析装置の機能的構成を示すブロック図である。 第2の参考例に係るモデル学習装置におけるフレーズフィルタモデル学習処理ルーチンを示すフローチャートである。 第2の参考例に係る形態素解析装置における形態素解析処理ルーチンを示すフローチャートである。 第3の参考例に係るモデル学習装置の機能的構成を示すブロック図である。 第3の参考例に係る形態素解析装置の機能的構成を示すブロック図である。 第4の参考例に係るモデル学習装置の機能的構成を示すブロック図である。 第4の参考例に係る形態素解析装置の機能的構成を示すブロック図である。 第1の実施の形態に係るモデル学習装置の機能的構成を示すブロック図である。 第1の実施の形態に係る形態素解析装置の機能的構成を示すブロック図である。 第2の実施の形態に係るモデル学習装置の機能的構成を示すブロック図である。 部分文字列と形態素情報のペアの例を示す図である。 第2の実施の形態に係る形態素解析装置の機能的構成を示すブロック図である。 値を算出した部分文字列と形態素情報のペアの例を示す図である。 第2の実施の形態に係るモデル学習装置におけるフレーズフィルタモデル学習処理ルーチンを示すフローチャートである。 第2の実施の形態に係る形態素解析装置における形態素解析処理ルーチンを示すフローチャートである。 第3の実施の形態に係るモデル学習装置の機能的構成を示すブロック図である。 第3の実施の形態に係る形態素解析装置の機能的構成を示すブロック図である。 第3の実施の形態に係るモデル学習装置における解析用識別モデル学習処理ルーチンを示すフローチャートである。 第3の実施の形態に係る形態素解析装置における形態素解析処理ルーチンを示すフローチャートである。 ラティスの経路における識別の例を示す図である。 第3の実施の形態に係る形態素解析装置を用いた結果の例を示す図である。 従来の日本語形態素解析器の例を示す図である。 トランスリタレーションの例を示す図である。 人手で文字列の変換ルールを作成した例である。 崩れた表記の例を示す図である。 ラティスの例を示す図である。 マッチした形態素集合をグラフ構造にしたものの例を示す図である。
以下、図面を参照して本発明の実施の形態に必要とされる参考例を詳細に説明する。
<参考例の原理>
本参考例において、「崩れフレーズ・正規フレーズ」と「崩れ語・正規語」という言葉を用いる。図1に示すように、「崩れ語・正規語」を、崩れモデルを推定する際に、人手アノテーションによって抽出された正規文字列と崩れ文字列の単位と定義する。また、図2に示すように、「崩れフレーズ・正規フレーズ」を、崩れ語・正規語のペア(正解データ)を用いて、フレーズアライメントにより抽出した崩れ語・正規語中の部分文字列の単位と定義する。
基本的な解決方針として、下記(1)式に示すように、従来の形態素解析の目的関数に、正規フレーズが崩れフレーズに変換される確率をかけることにより、正規表記の品詞と正しい単語区切りを同時に推定する。
ただし、P(W|V)は、正規語Vが観測語Wに変換される単語変換確率であり、正規フレーズが崩れフレーズに変換される確率と等しい。また、P(T)は、正規表記の品詞の列Tの接続確率であり、P(V|T)が、正規表記の品詞の列Tが与えられたときの正規語Vの生起確率である。
また、単語変換確率を文字列(フレーズ)ごとに分解し、下記(2)式に示すように、フレーズ変換確率の積で単語変換確率を近似し、フレーズ確率をトランスリタレーションモデルで求める。
<第1の参考例に係るモデル学習装置の構成>
次に、第1の参考例に係るモデル学習装置の構成について説明する。図3に示すように、第1の参考例に係るモデル学習装置100は、CPUと、RAMと、後述する正規崩れフレーズモデル学習処理ルーチン及びフレーズフィルタモデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このモデル学習装置100は、機能的には図3に示すように入力部10と、演算部20と、出力部50とを備えている。
入力部10は、図4に示すような、Twitter(登録商標)やブログなど、崩れ表記が含まれる文から、人手で抽出された崩れ語に対し、対応する正規語が付与されたフレーズ推定用の正解データである正規語崩れ語ペアデータを受け付ける。また、入力部10は、web上の複数分野の大量の文書群を受け付け、複数分野のコーパスとする。
演算部20は、初期設定部30と、フレーズアライメント部31と、変換確率算出部32と、反復判定部34と、正規崩れフレーズモデル記憶部36と、統計量算出部42と、データ生成部43と、モデル学習部44と、フレーズフィルタモデル記憶部46とを含んで構成されている。
初期設定部30は、入力部10において受け付けた正規語崩れ語ペアデータに基づいて、正規フレーズfvと崩れフレーズfwの全てのペアを求め、各ペアについて変換確率P(fw|fv)をランダムに設定し、正規フレーズと崩れフレーズのペアの変換確率を格納した変換確率テーブルを生成しメモリ(図示省略)に記憶する。なお、正規フレーズfvと崩れフレーズfwの各ペアの変換確率P(fw|fv)をヒューリスティックに設定してもよい。
フレーズアライメント部31は、正規語崩れ語ペアデータに含まれるペアの各々について、初期設定部30において生成された又は変換確率算出部32において更新された変換確率テーブルに基づいて、動的計画法により最適な対応関係である最適アライメントを求める。具体的には、動的計画法に基づいて、図5に示すような表を用いて最小コストの経路を探索し、文字間の対応関係を求める。経路の総コストは、経路上における文字列の対応コストの和で表される。コスト関数としては、例えば、図6のような確率値の対数をとった値が用いられる。この場合、最小コストの経路が経路1であるとすると、出力アライメントは、(か,か),(な,な),(ぁー,null),(り,り)となる。ただし、(null,x)はxの挿入、(y,null)はyの削除を表す。
変換確率算出部32は、フレーズアライメント部31においてt回目に求められた正規語崩れ語ペアデータに含まれるペアの各々の最適アライメントに基づいて、下記(3)式に従って、t回目の計算におけるP(fw|fv)の期待値P(fw|fv)を求め、メモリに記憶する。そして、求められた期待値P(fw|fv)の値により変換確率テーブルを更新メモリに記憶する。ただし、N(fw,fv)は、正規語崩れ語ペアデータの最適アライメントにおいて正規フレーズfvが崩れフレーズfwに変換された回数を表す。
反復判定部34は、変換確率算出部32において算出されたP(fw|fv)に基づく尤度関数と、メモリに記憶されている前回算出されたPt−1(fw|fv)に基づく尤度関数との差分が予め定められた閾値ε(例えばε=0.05)以下か否か判定する。差分が閾値ε以下である場合には、反復終了条件が満たされたと判定し、図7に示すような、現在の変換確率テーブルを、正規崩れフレーズモデルとして正規崩れフレーズモデル記憶部36に記憶すると共に、出力部50に出力する。また、差分が閾値εよりも大きい場合には、反復終了条件が満たされていないと判定し、フレーズアライメント部31の処理と、変換確率算出部32の処理とを繰り返す。なお、尤度関数は、下記(4)式により表される。また、繰り返し回数が上限回数に達したことを反復終了条件としてもよい。
正規崩れフレーズモデル記憶部36には、正規崩れフレーズモデルが記憶されている。
統計量算出部42は、入力部10において受け付けた複数分野のコーパスに基づいて、全ての文字n‐gramについて、文字n‐gram統計量を算出する。例えば、対象文書として「そんなんやってらんねーよ」があった場合、文字2グラム統計量として、P(ん|そ)、P(な|ん)等を算出し、文字3グラム統計量として、P(な|そ,ん)、P(ん|ん,な)等を算出する。なお、形態素解析処理済みの複数分野のコーパスに基づいて、全ての単語表層n‐gramについて、単語表層n‐gram統計量を算出してもよい。
データ生成部43は、入力部10において受け付けた正規語崩れ語ペアデータに含まれるペアの各々について、正規崩れフレーズモデル記憶部36に記憶されている正規崩れフレーズモデルに基づいて、崩れ語の部分文字列のうち、崩れフレーズに該当する部分文字列を、当該崩れフレーズに対応する正規フレーズの部分文字列に変換する。そして、変換後の正規フレーズが当該崩れ語に対応する正規語に含まれるか否か判定し、含まれる場合には当該正規フレーズに対応する文字n‐gram統計量、及び当該崩れフレーズに対応する文字n‐gram統計量を含む学習データを正例データとして生成し、含まれない場合には当該正規フレーズに対応する文字n‐gram統計量及び崩れフレーズに対応する文字n‐gram統計量を含む学習データを、負例データとして生成する。
モデル学習部44は、データ生成部43において生成された正例データ及び負例データからなる学習データに基づいて、サポートベクタマシン等を用いて識別学習を行い、崩れフレーズを正規フレーズへ変換することの尤もらしさを判断するためのフレーズフィルタモデルを学習し、フレーズフィルタモデル記憶部46に記憶すると共に、出力部50に出力する。
フレーズフィルタモデル記憶部46には、モデル学習部44において学習されたフレーズフィルタモデル、及び統計量算出部42により算出された文字n‐gram統計量が記憶されている。
<第1の参考例に係る形態素解析装置の構成>
次に、第1の参考例に係る形態素解析装置の構成について説明する。図8に示すように、第1の参考例に係る形態素解析装置200は、CPUと、RAMと、後述する形態素解析処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この形態素解析装置200は、機能的には図8に示すように入力部210と、演算部220と、出力部250とを備えている。
入力部210は、入力文を受け付ける。
演算部220は、解析候補生成部230と、正規崩れフレーズモデル記憶部232と、辞書データベース記憶部233と、算出部235と、フレーズフィルタモデル記憶部236と、解析対象抽出部238と、ラティス生成部239と、選択部240とを含んで構成されている。
解析候補生成部230は、正規崩れフレーズモデル記憶部232に記憶されている正規崩れフレーズモデルに基づいて、入力部10において受け付けた入力文から解析候補文を各々生成する。具体的には、入力部210において受け付けた入力文に、正規崩れフレーズモデルに含まれる崩れフレーズに一致する部分文字列がある場合には、部分文字列を当該崩れフレーズに対応する正規フレーズに変換することにより解析候補文を生成する。なお、解析候補文は、入力文に含まれる崩れフレーズのうち1か所のみ変更したものとし、崩れフレーズが複数ある場合には、崩れフレーズ毎に解析候補文が生成される。図9に具体例を示す。また、崩れフレーズに対応する正規フレーズが複数ある場合には、正規フレーズ毎に解析候補文が生成される。
正規崩れフレーズモデル記憶部232には、モデル学習装置100において学習された正規崩れフレーズモデルと同一の正規崩れフレーズモデルが記憶されている。
辞書データベース記憶部233には、形態素解析を行うために必要な辞書(読み、表記、品詞、コスト(生起確率))及び品詞ペアの各々の接続確率が記憶されている。
フレーズフィルタモデル記憶部236には、モデル学習装置100において学習されたフレーズフィルタモデル及び文字n‐gram統計量と同一のフレーズフィルタモデル及び文字n‐gram統計量が記憶されている。
解析対象抽出部238は、解析候補生成部230において生成された解析候補文の各々について、入力文と、フレーズフィルタモデル記憶部236に記憶されているフレーズフィルタモデル及び文字n‐gram統計量とに基づいて、崩れフレーズが正規フレーズへ正しく変換された解析候補文であるか否かを判定し、正しく変換された解析候補文であると判定された場合に、解析対象文として抽出し、正しく変換された解析候補文でないと判定された場合に、当該解析候補文を削除する。
例えば、入力文の崩れフレーズを変換した正規フレーズの文字n‐gram統計量と、入力文の崩れフレーズの文字n‐gram統計量と、フレーズフィルタモデル記憶部236に記憶されているフレーズフィルタモデルとに基づいて、当該崩れフレーズを当該正規フレーズへ変換した変換の尤もらしさを示すスコアを算出し、算出されたスコアが閾値以上であれば、正しく変換された解析対象文であると判定する。
ラティス生成部239は、入力部210において受け付けた入力文と、解析対象抽出部238において抽出された解析対象文の各々とに対して、辞書データベース記憶部233に記憶されている辞書を用いて辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成する。作成したラティスの例を図10に示す。
選択部240は、ラティス生成部239において生成したラティスと、正規崩れフレーズモデル記憶部232に記憶されている正規崩れフレーズモデルの変換確率と、辞書データベース記憶部233に記憶されている辞書のコスト及び品詞ペアの接続確率とに基づいて、動的計画法に従って、上記(1)式の目的関数を最大化する、当該ラティスのノードを結んだ最適な経路を選択し、選択された経路が表す正規表記の品詞と単語区切りを、形態素解析結果として出力する。
<第1の参考例に係るモデル学習装置の作用>
次に、第1の参考例に係るモデル学習装置100の作用について説明する。入力部10において正規語崩れ語ペアデータを受け付けると、モデル学習装置100は、図11に示す正規崩れフレーズモデル学習処理ルーチンを実行する。
まず、ステップS100では、入力部10において受け付けた正規語崩れ語ペアデータに基づいて、正規フレーズfvと崩れフレーズfwの全てのペアを求め、各ペアについて変換確率P(fw|fv)をランダムに設定し、各ペアの変換確率を格納した変換確率テーブルを生成し、メモリに記憶する。
次に、ステップS104では、正規語崩れ語ペアデータに含まれるペアの各々について、ステップS100において生成した、又はステップS106において前回更新した変換確率テーブルに基づいて、動的計画法に従って、文字間の対応関係である最適アライメントを求める。
次に、ステップS106では、ステップS104において正規語崩れ語ペアデータに含まれるペアの各々の最適アライメントに基づいて、P(fw|fv)の期待値P(fw|fv)を求め、メモリに記憶し、求められた期待値P(fw|fv)の値により変換確率テーブルを更新する。
次に、ステップS108では、ステップS106において取得した正規フレーズと崩れフレーズペアの各々のP(fw|fv)の期待値P(fw|fv)に基づいて、上記(4)式に従って、尤度関数を算出する。
次に、ステップS110では、ステップS108において取得した尤度関数の値と、前回のステップS108において取得した尤度関数の値の差分が、予め定められた閾値ε以下か否かを判定する。差分が閾値ε以下である場合には反復終了条件が満たされたと判定し、ステップS110へ移行し、差分が閾値εよりも大きい場合には反復終了条件が満たされていないと判定し、ステップS104へ移行し、ステップS104〜ステップS110の処理を繰り返す。
次に、ステップS112では、ステップS106において最終的に更新された変換確率テーブルを、正規崩れフレーズモデルとして正規崩れフレーズモデル記憶部36に記憶する。
次に、ステップS114では、ステップS112において取得した正規崩れフレーズモデルを出力部50により出力して、処理を終了する。
次に、第1の参考例に係るモデル学習装置100の作用について説明する。入力部10において正規語崩れ語ペアデータ及び複数分野のコーパスを受け付けると、モデル学習装置100は、図12に示すフレーズフィルタモデル学習処理ルーチンを実行する。
まず、ステップS201では、正規崩れフレーズモデル記憶部36に記憶されている正規崩れフレーズモデルを読み込む。
次に、ステップS203では、入力部10において受け付けた複数分野のコーパスに基づいて、全ての文字n‐gramについて、文字n‐gram統計量を算出する。
次に、ステップS204では、入力部10において受け付けた正規語崩れ語ペアデータの処理対象のペアについて、ステップS201において取得した正規崩れフレーズモデルに基づいて、崩れ語の部分文字列のうち、崩れフレーズに該当する部分文字列を、当該崩れフレーズに対応する正規フレーズの部分文字列に変換する。
次に、ステップS205では、入力部10において受け付けた正規語崩れ語ペアデータの処理対象のペアについて、ステップS204において変換した正規フレーズの各々について、処理対象のペアの正規語に含まれるか否か判定し、含まれる場合には、ステップS203において取得した当該正規フレーズと当該崩れフレーズとの各々に対応する文字n‐gram統計量を含む学習データを正例データとして作成し、含まれない場合には、ステップS203において取得した当該正規フレーズと当該崩れフレーズとの各々に対応する文字n‐gram統計量を含む学習データを負例データとして作成する。
ステップ206では、正規語崩れ語ペアデータの全てのペアについて、上記ステップS204、S205の処理を実行したか否かを判定し、上記ステップS204、S205の処理を実行していないペアが存在する場合には、上記ステップS204へ戻り、当該ペアを、処理対象とする。一方、全てのペアについて、上記ステップS204、S205の処理を実行した場合には、ステップS207へ進む。
次に、ステップS207では、ステップS205において取得した正例データ及び負例データからなる学習データに基づいて、サポートベクタマシン等を用いて識別学習を行い、崩れフレーズを正規フレーズへ変換することの尤もらしさを判断するためのフレーズフィルタモデルを学習し、フレーズフィルタモデル記憶部46に記憶する。また、上記ステップS203で算出された文字n‐gram統計量を、フレーズフィルタモデル記憶部46に記憶する。
次に、ステップS208では、ステップS207において学習したフレーズフィルタモデル、及び上記ステップS203で算出された文字n‐gram統計量を出力部50により出力し、フレーズフィルタモデル学習処理ルーチンの処理を終了する。
<第1の参考例に係る形態素解析装置の作用>
次に、第1の参考例に係る形態素解析装置200の作用について説明する。まず、モデル学習装置100により出力された正規崩れフレーズモデルが、形態素解析装置200に入力され、正規崩れフレーズモデル記憶部232に記憶される。また、モデル学習装置100により出力されたフレーズフィルタモデル及び文字n‐gram統計量が、形態素解析装置200に入力され、フレーズフィルタモデル記憶部236に記憶される。そして、入力部210において入力文を受け付けると、形態素解析装置200は、図13に示す形態素解析処理ルーチンを実行する。
まず、ステップS300では、正規崩れフレーズモデル記憶部232に記憶されている正規崩れフレーズモデルを読み込む。
次に、ステップS301では、辞書データベース記憶部233に記憶されている辞書を読み込む。
次に、ステップS302では、フレーズフィルタモデル記憶部236に記憶されているフレーズフィルタモデル及び文字n‐gram統計量を読み込む。
次に、ステップS304では、入力部210において受け付けた入力文について、ステップS300において取得した正規崩れフレーズモデルに基づいて、解析候補文の各々を生成する。
次に、ステップS308では、ステップS304において取得した解析候補文の各々について、入力部210において受け付けた入力文と、ステップS302において取得したフレーズフィルタモデル及び文字n‐gram統計量とに基づいて、崩れフレーズが正規フレーズへ正しく変換された解析候補文であるか否かを判定し、正しく変換された解析候補文であると判定された場合に、解析対象文として抽出し、正しく変換された解析候補文でないと判定された場合に、当該解析候補文を削除する。
次に、ステップS310では、ステップS308において抽出された解析対象文の各々と、入力部210において受け付けた入力文とに対して、ステップS301において取得した辞書を用いて辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成する。
次に、ステップS312では、ステップS310において取得したラティスと、ステップS300において取得した正規崩れフレーズモデルの変換確率と、ステップS301において取得した辞書のコスト及び品詞ペアの接続確率とに基づいて、動的計画法に従って、上記(1)式の目的関数を最大化する、当該ラティスのノードを結んだ最適な経路を選択する。
次に、ステップS314では、ステップS312において選択された経路が表わす正規表記の品詞と単語区切りを、形態素解析結果として出力部250により出力して形態素解析処理ルーチンを終了する。
上記の形態素解析処理ルーチンを実行することにより、例えば、入力文「そんなんやってらんねーよ」が入力された場合には、図14(B)に示すような、形態素解析結果が出力される。なお、比較例として、従来の形態素解析器を用いた場合の形態素解析結果を、図14(A)に示す。
また、入力文「次の日にはすーぐ行きてーw」が入力された場合には、図15(B)に示すような、形態素解析結果が出力される。一方、従来の形態素解析器を用いた場合には、図15(A)に示す形態素解析結果となる。
以上説明したように、第1の参考例に係る形態素解析装置によれば、正規崩れフレーズモデル及びフレーズフィルタモデルを用いることにより、揺らいだ表記である崩れ語を含む文字列に対しても、形態素解析を精度よく行うことができる。
また、第1の参考例に係るモデル学習装置によれば、揺らいだ表記である崩れ語を含む文字列に対しても形態素解析を精度よく行うことができる正規崩れフレーズモデル及びフレーズフィルタモデルを学習することができる。
また、文字列レベルの揺らぎモデルを正解データから自動構築し、形態素解析に組み込むことにより、崩れた表記にも頑健な形態素解析器の枠組みを提供できる。
また、正規表記と崩れ表記の正解ペアデータを用いてトランスリタレーションによるフレーズ変換モデルを導入することにより、ルールとルールごとのコスト設定を自動で行うことができる。
また、崩れフレーズであるとして正規フレーズに変換された箇所が、正しく変換された否かを判別するフレーズフィルタモデルを導入することにより、解析対象となる候補を削減することができ、解析時における計算コストを削減することが出来る。
また、トランスリタレーションモデルにより、正規フレーズ及び崩れフレーズのペア対と変換確率とを自動で獲得し、動的計画法との組み合わせにより処理速度と処理精度との向上を図ることができる。
次に、第2の参考例について説明する。なお、第1の参考例と同様の構成及び作用となる部分については、同一符号を付して説明を省略する。
第2の参考例では、文字n‐gram統計量をフレーズフィルタモデルとする点が第1の参考例と異なっている。
<第2の参考例に係るモデル学習装置の構成>
次に、第2の参考例に係るモデル学習装置300の構成について説明する。
第2の参考例に係るモデル学習装置300は、図16に示すように、入力部10と、演算部320と、出力部50とを備えている。
演算部320は、初期設定部30と、フレーズアライメント部31と、変換確率算出部32と、反復判定部34と、正規崩れフレーズモデル記憶部36と、統計量算出部342と、フレーズフィルタモデル記憶部346とを含んで構成されている。
統計量算出部342は、入力部10において受け付けた複数分野のコーパスに基づいて、全ての文字n‐gramについて、文字n−gram統計量を算出し、算出された文字n‐gram統計量の集合をフレーズフィルタモデルとしてフレーズフィルタモデル記憶部346に記憶する。
フレーズフィルタモデル記憶部346には、統計量算出部342において生成されたフレーズフィルタモデルが記憶されている。
<第2の参考例に係る形態素解析装置の構成>
次に、第2の参考例に係る形態素解析装置400の構成について説明する。
第2の参考例に係る形態素解析装置400は、図17に示すように、入力部210と、演算部420と、出力部50とを備えている。
演算部420は、解析候補生成部230と、正規崩れフレーズモデル記憶部232と、辞書データベース記憶部233と、算出部435と、フレーズフィルタモデル記憶部436と、解析対象抽出部438と、ラティス生成部239と、選択部240とを含んで構成されている。
算出部435は、解析候補生成部230により生成された解析候補文の各々について、入力文と、フレーズフィルタモデル記憶部436に記憶されている文字n‐gram統計量の集合であるフレーズフィルタモデルとに基づいて、入力文中の崩れフレーズに対応する文字n‐gram統計量P(変換前)と、当該解析候補文中の正規フレーズに対応する文字n‐gram統計量P(変換後)を用いて、フレーズ変換の尤もらしさを示す値として、P(変換後)/P(変換前)を算出する。例えば、入力文「やってらんねーよ」と解析候補文「やってらんないよ」が有る場合、入力文中の変換部分の変換文字列と周辺の文字列とからなる部分文字列に対応する文字n‐gram統計量、P(よ|ん,ね,ー)と、解析候補文中の変換文の返還文字列と周辺の文字列とからなる部分文字列に対応する文字n‐gram統計量、P(よ|ん,な,い)を用いて、P(よ|ん,な,い)/P(よ|ん,ね,ー)の値を算出する。
解析対象抽出部438は、解析候補文の各々について、算出部435において当該解析候補文について算出された、フレーズ変換の尤もらしさを示す値が閾値Tよりも大きいか否か判定する。閾値Tよりもフレーズ変換の尤もらしさを示す値が大きい場合、当該解析候補文を解析対象文として抽出し、算出されたフレーズ変換の尤もらしさを示す値が閾値T以下である場合、当該解析候補文を削除する。
<第2の参考例に係るモデル学習装置の作用>
次に、第2の参考例に係るモデル学習装置300の作用について説明する。入力部10において複数分野のコーパスを受け付けると、モデル学習装置300は、図18に示すフレーズフィルタモデル学習処理ルーチンを実行する。
ステップS400では、ステップS203において取得した文字n‐gram統計量の集合をフレーズフィルタモデルとしてフレーズフィルタモデル記憶部346に記憶する。
<第2の参考例に係る形態素解析装置の作用>
次に、第2の参考例に係る形態素解析装置400の作用について説明する。入力部210において入力文を受け付けると、形態素解析装置400は、図19に示す形態素解析処理ルーチンを実行する。
ステップS500では、入力部210において受け付けた入力文と、ステップS304において取得した解析候補文の各々と、ステップS302において取得したフレーズフィルタモデルとに基づいて、解析候補文の各々について、フレーズ変換の尤もらしさを示す値を算出する。
ステップS502では、ステップS500において算出した、フレーズ変換の尤もらしさを示す値が閾値Tよりも大きい値である解析候補文の各々を、解析対象文として抽出する。
以上説明したように、第2の参考例に係る形態素装置によれば、正規崩れフレーズモデル及び文字n‐gram統計量の集合からなるフレーズフィルタモデルを用いて、揺らいだ表記である崩れ語を含む文字列に対しても、形態素解析を精度よく行うことができる。
また、第2の参考例に係るモデル学習装置によれば、揺らいだ表記である崩れ語を含む文字列に対しても形態素解析を精度よく行うことができる正規崩れフレーズモデル及び文字n‐gram統計量の集合からなるフレーズフィルタモデルを学習することができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
第2の参考例においては、フレーズ変換の尤もらしさを示す値を、P(変換後)/P(変換前)として算出し、当該値が閾値Tよりも大きい解析候補文を解析対象文として抽出する場合について説明したがこの限りでない。例えば、P(変換後)−P(変換前)の値が予め定められた閾値以上である解析候補文を解析対象文として抽出しても良い。
次に、第3の参考例について説明する。なお、第1の参考例と同様の構成及び作用となる部分については、同一符号を付して説明を省略する。
第3の参考例では、正規崩れフレーズモデルのみを用いる点が第1の参考例と異なっている。
<第3の参考例に係るモデル学習装置の構成>
次に、第3の参考例に係るモデル学習装置500の構成について説明する。
第3の参考例に係るモデル学習装置500は、図20に示すように、入力部10と、演算部520と、出力部50とを備えている。
演算部520は、初期設定部30と、フレーズアライメント部31と、変換確率算出部32と、反復判定部34と、正規崩れフレーズモデル記憶部36とを含んで構成されている。
<第3の参考例に係る形態素解析装置の構成>
次に、第3の参考例に係る形態素解析装置600の構成について説明する。
第3の参考例に係る形態素解析装置600は、図21に示すように、入力部10と、演算部620と、出力部50とを備えている。
演算部620は、解析候補生成部230と、正規崩れフレーズモデル記憶部232と、辞書データベース記憶部233と、ラティス生成部639と、選択部240とを含んで構成されている。
ラティス生成部639は、入力部210において受け付けた入力文と、解析候補生成部230において生成した解析候補文の各々とに対して辞書データベース記憶部233に記憶されている辞書を用いて辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成する。
以上説明したように、第3の参考例に係る形態素装置によれば、正規崩れフレーズモデルを用いて、揺らいだ表記である崩れ語を含む文字列に対しても、形態素解析を精度よく行うことができる。
また、第3の参考例に係るモデル学習装置によれば、揺らいだ表記である崩れ語を含む文字列に対しても形態素解析を精度よく行うことができる正規崩れフレーズモデルを学習することができる。
次に、第4の参考例について説明する。なお、第1の参考例と同様の構成及び作用となる部分については、同一符号を付して説明を省略する。
第4の参考例では、正規崩れフレーズモデルの代わりに、予め人手で作成した正規崩れフレーズルールを用いる点が第1の参考例と異なっている。
<第4の参考例に係るモデル学習装置の構成>
次に、第4の参考例に係るモデル学習装置700の構成について説明する。
第4の参考例に係るモデル学習装置700は、図22に示すように、入力部10と、演算部720と、出力部50とを備えている。
演算部720は、正規崩れフレーズルール記憶部736と、統計量算出部42と、データ生成部743と、モデル学習部44と、フレーズフィルタモデル記憶部46とを含んで構成されている。
正規崩れフレーズルール記憶部736には、崩れフレーズと、当該崩れフレーズに対する正規フレーズとの複数のペアが、正規崩れフレーズルールとして予め記憶されている。
データ生成部743は、入力部10において受け付けた正規語崩れ語ペアデータに含まれるペアの各々について、正規崩れフレーズルール記憶部736に記憶されている正規崩れフレーズルールに基づいて、当該ペアの崩れ語の部分文字列のうち、崩れフレーズに該当する部分文字列を、当該崩れフレーズを対応する正規フレーズの部分文字列に変換する。そして、変換後の正規フレーズが当該ペアの正規語に含まれるか否か判定し、含まれる場合には当該正規フレーズに対応する文字n‐gram統計量、及び当該崩れフレーズに対応する文字n‐gram統計量を含む学習データを正例データとして生成し、含まれない場合には当該正規フレーズに対応する文字n‐gram統計量、及び崩れフレーズに対応する文字n‐gram統計量を含む学習データを負例データとして生成する。
<第4の参考例に係る形態素解析装置の構成>
次に、第4の参考例に係る形態素解析装置800の構成について説明する。
第4の参考例に係る形態素解析装置800は、図23に示すように、入力部210と、演算部820と、出力部50とを備えている。
演算部820は、解析候補生成部830と、正規崩れフレーズルール記憶部832と、辞書データベース記憶部233と、フレーズフィルタモデル記憶部236と、解析対象抽出部238と、ラティス生成部239と、選択部840とを含んで構成されている。
解析候補生成部830は、正規崩れフレーズルール記憶部832に記憶されている正規崩れフレーズルールに基づいて、入力部210において受け付けた入力文から解析候補文を各々生成する。
フレーズルール記憶部832には、モデル学習装置700のフレーズルール記憶部736に記憶されている正規崩れフレーズルールと同一の正規崩れフレーズルールが記憶されている。
選択部840は、ラティス生成部239において生成したラティスと、辞書データベース記憶部233に記憶されている辞書のコスト及び品詞ペアの接続確率とに基づいて、動的計画法に従って、上記(1)式の目的関数を最大化する、当該ラティスのノードを結んだ最適な経路を選択し、選択された経路が表す正規表記の品詞と単語区切りを、形態素解析結果として出力する。なお、上記(1)式において、各変換確率として一定値を用いればよい。
以上説明したように、第4の参考例に係る形態素装置によれば、正規崩れフレーズルール及びフレーズフィルタモデルを用いて、揺らいだ表記である崩れ語を含む文字列に対しても、形態素解析を精度よく行うことができる。
また、第4の参考例に係るモデル学習装置によれば、揺らいだ表記である崩れ語を含む文字列に対しても形態素解析を精度よく行うことができるフレーズフィルタモデルを学習することができる。
<第1の実施の形態>
次に、本発明の第1の実施の形態について説明する。なお、第1の参考例と同様の構成及び作用となる部分については、同一符号を付して説明を省略する。
<概要>
例えば、入力文「一人でかぅんたーなう」に含まれる「ぅ」を「う」に変換した場合、辞書に「かうんたー」という文字列が存在しないため、正しい候補である「カウンター」を列挙できないという課題がある。
そこで、第1の実施の形態では、辞書の「読み」を利用して文字種の展開を行うことで、文字種が異なっていても辞書引きができるように、文字種変換辞書を用いる。
また、例えば、入力文「ぁりがとぅー」に対して、「ありがとぅー」(ぁ→あ)及び「ぁりがとうー」(ぅ→う)のように各崩れフレーズの箇所ごとに変換を行った解析候補文が生成される。しかし、これらの解析候補文は、正しく変換された解析候補文であるか否かの判定の際に、いずれかが負例と判定される場合がある。そして、いずれかが負例と判定された場合には、正しい形態素解析結果「ありがとうー」が得られない、という課題がある。
そこで、第1の実施の形態では、複数の崩れフレーズの箇所を変換した解析候補文に対しても、正しく変換された解析候補文であるか否かの判定を行う。具体的には、入力文「ぁりがとぅー」に対して、「ありがとうー」(ぁ→あ、ぅ→う)と複数箇所を変換した解析候補文を生成し、正しく変換された解析候補文であるか否かの判定を行う。なお、文の変換確率を素性として用いる場合には、複数の崩れフレーズの箇所を変換した文の変換確率を用いるものとする。フレーズ変換確率を素性として用いる場合には、各フレーズの箇所ごとのフレーズ変換確率をかけ合わせた値を用いる。
<第1の実施の形態に係るモデル学習装置の構成>
次に、第1の実施の形態に係るモデル学習装置1000の構成について説明する。
本発明の第1の実施の形態に係るモデル学習装置1000は、図24に示すように、入力部10と、演算部1020と、出力部50とを備えている。
演算部1020は、初期設定部30と、フレーズアライメント部31と、変換確率算出部32と、反復判定部34と、正規崩れフレーズモデル記憶部36と、統計量算出部42と、データ生成部1043と、モデル学習部44と、フレーズフィルタモデル記憶部46とを含んで構成されている。
データ生成部1043は、入力部10において受け付けた正規語崩れ語ペアデータに含まれるペアの各々について、正規崩れフレーズモデル記憶部36に記憶されている正規崩れフレーズモデルに基づいて、崩れ語の部分文字列のうち、崩れフレーズに該当する部分文字列を、当該崩れフレーズに対応する正規フレーズの部分文字列に変換する。また、崩れ語において崩れフレーズに該当する部分文字列が複数箇所ある場合には、複数箇所の部分文字列の各々について、当該崩れフレーズに対応する正規フレーズの部分文字列に変換する。そして、変換後の正規フレーズが当該崩れ語に対応する正規語に含まれるか否か判定し、含まれる場合には当該正規フレーズに対応する文字n‐gram統計量、及び当該崩れフレーズに対応する文字n‐gram統計量を含む学習データを正例データとして生成し、含まれない場合には当該正規フレーズに対応する文字n‐gram統計量及び崩れフレーズに対応する文字n‐gram統計量を含む学習データを、負例データとして生成する。
<第1の実施の形態に係る形態素解析装置の構成>
次に、第1の実施の形態に係る形態素解析装置1100の構成について説明する。
本発明の第1の実施の形態に係る形態素解析装置1100は、図25に示すように、入力部210と、演算部1120と、出力部250とを備えている。
演算部1120は、解析候補生成部1130と、正規崩れフレーズモデル記憶部232と、辞書データベース記憶部233と、文字種変換辞書データベース記憶部934と、フレーズフィルタモデル記憶部236と、解析対象抽出部238と、ラティス生成部1139と、選択部240とを含んで構成されている。
文字種変換辞書データベース記憶部934は、文字列の文字種を展開するために必要な「漢字」「ひらがな」「カタカナ」の相互に対応する文字列の組み合わせであって、同一の読みとなる文字列の組み合わせが複数組格納された文字種変換辞書が記憶されている。
解析候補生成部1130は、正規崩れフレーズモデル記憶部232に記憶されている正規崩れフレーズモデルに基づいて、入力部210において受け付けた入力文から解析候補文を各々生成する。具体的には、入力部210において受け付けた入力文に、正規崩れフレーズモデルに含まれる崩れフレーズに一致する部分文字列がある場合には、部分文字列を当該崩れフレーズに対応する正規フレーズに変換することにより解析候補文を生成する。なお、解析候補文は、入力文において、崩れフレーズに該当する部分文字列が複数箇所ある場合には、解析候補生成部1130は、複数箇所の部分文字列の各々について、当該部分文字列のみを崩れフレーズに対応する正規フレーズに変換した解析候補文を生成すると共に、複数箇所の部分文字列を、崩れフレーズに対応する正規フレーズに変換した解析候補文を生成する。
ラティス生成部1139は、第1の参考例の形態素解析装置に係るラティス生成部239と同様に、入力部210において受け付けた入力文と、解析対象抽出部238において抽出された解析対象文の各々とに対して、辞書データベース記憶部233に記憶されている辞書を用いて辞書引きを行う。また、正規フレーズに変換したノードに対応する部分文字列について、文字種変換辞書を用いて、部分文字列の読みに基づいて展開を行う。「漢字」表記又は「カタカナ」表記から「ひらがな」表記を展開する。同様に、「漢字」表記又は「ひらがな」表記から「カタカナ」表記を展開する。例えば前者であれば「教科書→きょうかしょ」「バイト→ばいと」と展開し、後者であれば「先生→センセイ」「ありがとう→アリガトウ」と展開する。また、入力文が「一人でかぅんたーなう」である場合の一例として、崩れフレーズに対応する部分文字列である「ぅ」が正規フレーズ「う」に変換されることにより生成された解析候補文「一人でかうんたーなう」について、部分文字列の「かうんたー」を「カウンター」と展開する。
そして、ラティス生成部1139は、第1の参考例の形態素解析装置に係るラティス生成部239と同様に、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成する。
なお、第1の実施の形態に係る形態素解析装置1100及びモデル学習装置1000の他の構成及び作用については、第1の参考例と同様であるため、説明を省略する。
以上説明したように、本発明の第1の実施の形態に係る形態素解析装置によれば、入正規崩れフレーズモデルに基づいて変換した正規フレーズについて、異なる文字種の部分文字列に展開して、ラティスを構築するため、形態素解析を精度よく行うことができる。また、文字列レベルの揺らぎモデルに加え、文字種変換候補展開を組み合わせることで、正規化解析可能な崩れ表記を拡大することができる。
また、第1の実施の形態に係る形態素解析装置によれば、崩れフレーズが複数箇所含まれる場合を考慮しているため、崩れフレーズを複数個所含む崩れ語を含む文字列に対しても形態素解析を精度よく行うことができる。
また、第1の実施の形態に係るモデル学習装置によれば、崩れフレーズが複数箇所含まれる場合を考慮しているため、崩れフレーズを複数個所含む崩れ語を含む文字列に対しても形態素解析を精度よく行うことができるフレーズフィルタモデルを学習することができる。
<第2の実施の形態>
次に、本発明の第2の実施の形態について説明する。なお、第1の参考例及び第1の実施の形態と同様の構成及び作用となる部分については、同一符号を付して説明を省略する。
<概要>
例えば、崩れフレーズを正規フレーズに変換する際、同じ「お→う」と変換する場合であっても、(おいしい→ういしい)という変換の起こりやすさと、(いこお→いこう)という変換の起こりやすさは異なっている。そのため、文字列の変換確率や文字n−gram確率のみに基づいて、正しく変換された解析候補文であるか否かを判定する場合には、形態素の文字位置情報や品詞情報などが欠落しているため正確に判定ができない、という課題がある。
そこで、第2の実施の形態では、崩れフレーズを正規フレーズに変換した部分文字列の形態素情報に基づいてノードに対応する部分文字列が正しく変換されているか否かを判定し、解析対象文の抽出を行う。具体的には、崩れフレーズを正規フレーズに変換した部分文字列ごとに辞書引きして得られた形態素の文字長さ、品詞、変換文字列の形態素内での位置等に基づいて、正しく変換された解析候補文であるか否かの判定を行い、解析対象文の抽出を行う。
<第2の実施の形態に係るモデル学習装置の構成>
次に、第2の実施の形態に係るモデル学習装置1200の構成について説明する。
本発明の第2の実施の形態に係るモデル学習装置1200は、図26に示すように、入力部10と、演算部1220と、出力部50とを備えている。
演算部1220は、初期設定部30と、フレーズアライメント部31と、変換確率算出部32と、反復判定部34と、正規崩れフレーズモデル記憶部36と、統計量算出部42と、形態素情報付与部1230と、データ生成部1234と、モデル学習部44と、フレーズフィルタモデル記憶部46とを含んで構成されている。
形態素情報付与部1230は、入力部10において受け付けた正規語崩れ語ペアデータに含まれるペアの各々について、正規崩れフレーズモデル記憶部36に記憶されている正規崩れフレーズモデルに基づいて、崩れ語の部分文字列のうち、崩れフレーズに該当する部分文字列を、当該崩れフレーズに対応する正規フレーズの部分文字列に変換する。そして、正規フレーズに変換された各部分文字列に対して辞書引きして、形態素情報を付与する。なお、形態素情報は形態素の文字長さ、品詞、変換文字列の形態素内での位置等を含むものとする。
データ生成部1234は、変換後の正規フレーズが当該崩れ語に対応する正規語に含まれるか否か判定し、含まれる場合には当該正規フレーズの形態素に対応する文字n‐gram統計量、当該崩れフレーズの形態素に対応する文字n‐gram統計量、及び形態素情報を含む学習データを正例データとして生成し、含まれない場合には当該正規フレーズに対応する文字n‐gram統計量、崩れフレーズに対応する文字n‐gram統計量、及び形態素情報を含む学習データを、負例データとして生成する。例えば、解析対象文が「ぁりがとぅー」である場合の学習データの一例として、図27、29に示すように、各部分文字列と部分文字列の形態素のペアにラベルとして正解である正例データには1を付与し、正解ではない負例データには0を付与して学習データを作成することができる。
<第2の実施の形態に係る形態素解析装置の構成>
次に、第2の実施の形態に係る形態素解析装置1300の構成について説明する。
本発明の第2の実施の形態に係る形態素解析装置1300は、図28に示すように、入力部210と、演算部1320と、出力部50とを備えている。
演算部1320は、解析候補生成部1130と、正規崩れフレーズモデル記憶部232と、辞書データベース記憶部233と、文字種変換辞書データベース記憶部934と、フレーズフィルタモデル記憶部236と、ラティス生成部1334と、算出部1336と、ノード抽出部1338と、選択部240とを含んで構成されている。
ラティス生成部1334は、第1の参考例の形態素解析装置に係るラティス生成部239と同様の処理を行って、入力部210において受け付けた入力文と、解析候補生成部1130によって生成された解析候補文の各々とに対して、辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成する。また、ラティス生成部1334は、第1の実施の形態の形態素解析装置1100に係るラティス生成部1139と同様に正規フレーズに変換した部分文字列について文字種の展開を行い、変換された部分文字列について辞書引きを行って、品詞が付与されたノードを追加する。
算出部1336は、ラティス生成部1334によって生成されたノードのうち正規フレーズに変換された部分文字列に対応するノードの各々及び文字種の展開により追加されたノードの各々について、ノードに対応する部分文字列の正規フレーズに対し、フレーズフィルタモデル記憶部436に記憶されているフレーズフィルタモデル、及びラティス生成の際にノードに付与された品詞を含む形態素情報とに基づいて、当該ノードに対応する正規フレーズへ変換した変換の尤もらしさを示すスコアを算出する。
ノード抽出部1338は、ラティス生成部1334によって生成されたノードのうち正規フレーズに変換された部分文字列に対応するノードの各々について、算出部1336において当該ノードについて算出された、尤もらしさを示すスコアが閾値よりも大きいか否か判定する。閾値よりも尤もらしさを示すスコアが大きい場合、当該ノードを解析対象として抽出し、算出された尤もらしさを示すスコアが閾値以下である場合、当該ノードを削除する。そして、削除されたノードを除いて、抽出されたノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを再構成する。
<第2の実施の形態に係るモデル学習装置の作用>
次に、第2の実施の形態に係るモデル学習装置1200の作用について説明する。まず、入力部10において正規語崩れ語ペアデータを受け付けると、モデル学習装置1200は、上記図11に示す正規崩れフレーズモデル学習処理ルーチンと同様の処理ルーチンを実行する。また、入力部10において複数分野のコーパスを受け付けると、モデル学習装置1200は、図30に示すフレーズフィルタモデル学習処理ルーチンを実行する。
ステップS600では、辞書データベース記憶部233に記憶されている辞書を読み込む。
ステップS602では、入力部10において受け付けた正規語崩れ語ペアデータの処理対象のペアについて、ステップS204において変換した正規フレーズの各々に対して、ステップS600で読み込んだ辞書を用いて辞書引きを行い、品詞を含む形態素情報を付与する。
次に、ステップS604では、入力部10において受け付けた正規語崩れ語ペアデータの処理対象のペアについて、ステップS204において変換した正規フレーズの各々について、処理対象のペアの正規語に含まれるか否か判定し、含まれる場合には、ステップS203において取得した当該正規フレーズと当該崩れフレーズとの各々に対応する文字n‐gram統計量とステップS602において付与した形態素情報とを含む学習データを正例データとして作成し、含まれない場合には、ステップS203において取得した当該正規フレーズと当該崩れフレーズとの各々に対応する文字n‐gram統計量とステップS602において付与した形態素情報とを含む学習データを負例データとして作成する。
<第2の実施の形態に係る形態素解析装置の作用>
次に、第2の実施の形態に係る形態素解析装置1300の作用について説明する。入力部210において入力文を受け付けると、形態素解析装置1300は、図31に示す形態素解析処理ルーチンを実行する。
ステップS700では、文字種変換辞書データベース記憶部934に記憶されている文字種変換辞書を読み込む。
ステップS702では、入力部210において受け付けた入力文について、ステップS300において取得した正規崩れフレーズモデルに基づいて、崩れフレーズに該当する部分文字列を、正規フレーズに変換した解析候補文の各々を生成する。
ステップS708では、ステップS702において生成された解析候補文の各々と、入力部210において受け付けた入力文とに対して、ステップS301において取得した辞書を用いて辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成する。また、ラティスの生成にあたって、ステップS700において取得した、文字種変換辞書を用いて、ステップS702で正規フレーズに変換された部分文字列に対応する各ノードについて、読みが同一の異なる文字種の部分文字列に展開し、展開した部分文字列について辞書引きを行って、品詞が付与されたノードを追加する。
ステップS710では、ステップS708において生成したラティスのうち、正規フレーズに変換された部分文字列に対応する各ノード及び異なる文字種の部分文字列に展開されて追加された各ノードについて、入力部210において受け付けた入力文と、ステップS302において取得したフレーズフィルタモデル、文字n‐gram統計量及び形態素情報とに基づいて、崩れフレーズを正規フレーズへ変換した変換の尤もらしさを示すスコアを算出する。
ステップS712では、ステップS710において算出したスコアに基づいて、フレーズ変換の尤もらしさを示すスコアが閾値よりも大きい値であるノードの各々を抽出すると共に、フレーズ変換の尤もらしさを示すスコアが閾値以下の値であるノードの各々を削除して、ラティスを再構成する。
ステップS714では、ステップS712において再構成されたラティスと、ステップS300において取得した正規崩れフレーズモデルの変換確率と、ステップS301において取得した辞書のコスト及び品詞ペアの接続確率とに基づいて、動的計画法に従って、次の(5)式の目的関数を最小化する、当該ラティスのノードを結んだ最適な経路を選択する。
ただし、^wは最適単語及び最適品詞の列であり、Wは単語及び品詞の列を示す。また、λはk番目の素性の重みであり、φ(w)はk番目の素性を示す。各素性としては、後述する第3の実施の形態で説明する複数の素性を用いればよい。
なお、第2の実施の形態に係る形態素解析装置1300及びモデル学習装置1200の他の構成及び作用については、第1の参考例と同様であるため、説明を省略する。
以上説明したように、本発明の第2の実施の形態に係る形態素解析装置によれば、生成したラティスにおける、崩れフレーズを正規フレーズに変換した部分文字列に対応するノードについて、当該部分文字列の形態素情報を考慮して、当該ノードに対応する正規フレーズへ変換した変換の尤もらしさを示すスコアを算出し、スコアが閾値以下のノードを削除することにより、精度よく形態素解析を行うことができる。
<第3の実施の形態>
次に、本発明の第3の実施の形態について説明する。なお、第1の参考例及び第1及び第2の実施の形態と同様の構成及び作用となる部分については、同一符号を付して説明を省略する。
<概要>
例えば、動的計画法に従って、ラティスのノードを結んだ最適な経路を選択しようとする場合、品詞連接コスト(各形態素の連接のしやすさを表す指標)と単語コスト(各形態素の生起のしやすさを表す指標)の和を用いて形態素列の尤もらしさを評価すると、文字列を変換して生成した解析候補文に対しても、変換前の解析候補文と同様のコストが与えられる。そのため、誤った候補が選択されやすくなってしまう、という課題がある。
また、文字種や部分文字列を変換することで展開されるノードの数が多くなる場合、適切なコスト付けの問題は重要な課題となる。
そこで、第3の実施の形態では、正規文の尤もらしさを判断するための複数の素性に関する重みを用いて最適な候補の選択を行う。最適な候補の選択は、上記(5)式に示すように素性関数と重みを掛け合わせた総コストの値を最小化するように行う。また、最適な重みを学習する。最適な重みの学習では、
MERTを用いて、以下(6)、(7)式に示すように正規文とシステム解析文との形態素解析結果の異なり数を最小化することで最適な重みを学習する。MERTによる学習は、非特許文献4(Machery W, Och F J, and Thayer I Uszkoreit J.Lattice-based minimum error rate training for statistical machine translation. In Proc. of EMNLP, Vol. 1,pp. 725-734, 2008.)に記載されているものと同様の手法を用いる。
ただし、Eは正規文の形態素解析結果を示す。Nは正規文の文数を表す。
本実施の形態においては、素性関数として、生成されたラティスにおけるノードを結んだ各経路についてのコストを算出するための素性関数において、複数の素性を用いる。具体的には、経路が表す品詞列に対して、品詞同士が連接する確率に関する品詞連接コストを示す第1素性φ1、経路が表す単語列に対して、単語が生起する確率に関する単語コストを示す第2素性φ2、経路が表す単語列に対して、n個の単語が生起したときに単語が生起する確率に関する単語表層n−gramに基づくコスト(本実施の形態では単語bi−gramを用いる)を示す第3素性φ3、崩れフレーズを正規フレーズに変換することについての変換確率及び崩れフレーズを正規フレーズへ変換した変換の尤もらしさを示すスコアを含む文字列変換コストを示す第4素性(φ4、φ5)、文字列が、文字種変換辞書に基づいて置き換えた部分文字列を含む場合における文字種変換コストを示す第5素性(φ6、φ7)を用いる。ここで、単語表層n−gramに基づくコストを示す第3素性φ3は、−log(単語bi−gram確率)の値である。また、文字列変換コストを示す第4素性は、−log(正規崩れフレーズモデルの変換確率)の値である素性φ4と、フレーズフィルタモデルに基づく崩れフレーズを正規フレーズへ変換した変換の尤もらしさを示すスコアである素性φ5とを含む。また、文字種変換コストを示す第5素性は、文字種がひらがなに変換された文字列に対して(1×単語コスト)となる値である素性φ6と、文字種がカタカナに変換された文字列に対して(1×単語コスト)となる値である素性φ7とを含む。
<第3の実施の形態に係るモデル学習装置の構成>
次に、第3の実施の形態に係るモデル学習装置1500の構成について説明する。
本発明の第3の実施の形態に係るモデル学習装置1500は、図32に示すように、入力部10と、演算部1520と、出力部50とを備えている。
演算部1520は、初期設定部30と、フレーズアライメント部31と、変換確率算出部32と、反復判定部34と、正規崩れフレーズモデル記憶部36と、統計量算出部42と、解析候補生成部1530と、辞書データベース記憶部233と、文字種変換辞書データベース記憶部934と、形態素情報付与部1230と、データ生成部1234と、モデル学習部44と、フレーズフィルタモデル記憶部46と、解析候補生成部1530と、ラティス生成部1532と、算出部1533と、ノード抽出部1534と、素性抽出部1536と、モデル推定部1538と、解析用識別モデル記憶部1542とを含んで構成されている。
入力部10は、正規語崩れ語ペアデータを受け付けると共に、web上の複数分野の大量の文書群を受け付け、複数分野のコーパスとする。また、入力部10は、崩れ文と対応する正規文に対する形態素解析結果とのペアである正規文崩れ文ペアの各々を受け付ける。
解析候補生成部1530は、入力部10によって受け付けた正規文崩れ文ペアの各々について、正規崩れフレーズモデル記憶部36に記憶されている正規崩れフレーズモデルに基づいて、上記の第2の実施の形態で説明した解析候補生成部1130と同様に、当該正規文崩れ文ペアの崩れ文に含まれる部分文字列のうち、崩れフレーズに該当する部分文字列を、当該崩れフレーズに対応する正規フレーズの部分文字列に変換することにより解析候補文を各々生成する。
ラティス生成部1532は、第1の参考例の形態素解析装置に係るラティス生成部239と同様の処理を行って、解析候補生成部1530によって生成された解析候補文に対して、辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成する。また、第1の実施の形態の形態素解析装置1100に係るラティス生成部1139と同様に正規フレーズに変換した部分文字列について文字種の展開を行い、変換された部分文字列について辞書引きを行って、品詞が付与されたノードを追加する。なお、このとき文字種の展開履歴をメモリに記憶する。
算出部1533は、第2の実施の形態の形態素解析装置に係る算出部1336と同様の処理を行って、ノードに対応する正規フレーズへ変換した変換の尤もらしさを示すスコアを算出する。
ノード抽出部1534は、第2の実施の形態の形態素解析装置に係るノード抽出部1338と同様の処理を行って、ラティス生成部1532によって生成されたノードのうち正規フレーズに変換された部分文字列に対応するノードの各々について、算出部1533において当該ノードについて算出された、尤もらしさを示すスコアが閾値よりも大きいか否か判定する。閾値よりも尤もらしさを示すスコアが大きい場合、当該ノードを解析対象として抽出し、算出された尤もらしさを示すスコアが閾値以下である場合、当該ノードを削除する。そして、削除されたノードを除いて、抽出されたノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを再構成する。
素性抽出部1536は、ノード抽出部1534で再構成したラティスについてのノードを結んだ各経路について、素性関数において用いられる複数の素性を抽出する。具体的には、ラティスの経路について、既存の構築した辞書に記憶された推定値に基づいて、品詞連接コストを示す第1素性、単語コストを示す第2素性、単語bi−gram確率を示す第3素性を抽出する。また、ラティスの経路について、正規崩れフレーズモデル及びフレーズフィルタモデルに基づいて、文字列変換コストを示す第4素性を抽出する。また、ラティスの経路について、ラティス生成部1532において文字種を展開した際にメモリに記憶した文字種の展開履歴に基づいて、文字種変換コストを示す第5素性を抽出する。なお、ノード抽出部1534によるノードの抽出を行わず、ラティス生成部1532によって生成されたラティスにおけるノードを結んだ各経路について、複数の素性の抽出を行ってもよい。
なお、文字列変換コストを示す第4素性は、解析候補生成部1530によって崩れフレーズを正規フレーズへ変換することで生成した部分文字列を含む経路についてのみ抽出し、文字種変換コストを示す第5素性は、ラティス生成部1532において文字種を変換した部分文字列を含む経路についてのみ抽出する。
上記の解析候補生成部1530、ラティス生成部1532、算出部1533、ノード抽出部1534、及び素性抽出部1536の各処理を、入力部10によって受け付けた正規文崩れ文ペアの各々について行う。
モデル推定部1538は、入力部10によって受け付けた正規文崩れ文ペアの各々における正規文に対する形態素解析結果と、正規文崩れ文ペアの各々に対し、素性抽出部1536によって各経路について抽出した複数の素性とに基づいて、MERTによる識別学習により、複数の素性を重み付け加算した値が最小となる経路が表す形態素解析結果と、入力された正規文の形態素解析結果との差分が最小になるように、複数の素性に対する重みの各々を学習し、正規文の尤もらしさを判断するための解析用識別モデルとして、解析用識別モデル記憶部1542に記憶すると共に、出力部50に出力する。なお、学習手法として構造化パーセプトロンを用いてもよい。
<第3の実施の形態に係る形態素解析装置の構成>
次に、第3の実施の形態に係る形態素解析装置1600の構成について説明する。
本発明の第3の実施の形態に係る形態素解析装置1600は、図33に示すように、入力部210と、演算部1620と、出力部50とを備えている。
演算部1620は、解析候補生成部1130と、正規崩れフレーズモデル記憶部232と、辞書データベース記憶部233と、文字種変換辞書データベース記憶部934と、フレーズフィルタモデル記憶部236と、ラティス生成部1334と、算出部1336と、ノード抽出部1338と、素性抽出部1640と、選択部1641と、解析用識別モデル記憶部1642とを含んで構成されている。
素性抽出部1640は、ノード抽出部1338によって再構成されたラティスについてのノードを結んだ各経路について、複数の素性を抽出する。なお、モデル学習装置1500に係る素性抽出部1536と同様の素性を抽出する。
選択部1641は、図36において示すように、ラティス生成部1334において生成したラティスと、解析用識別モデル記憶部1642に記憶されている複数の素性の重みと、素性抽出部1640によりラティスの各経路から抽出した複数の素性とに基づいて、入力された文について、動的計画法に従って、上記(5)式の損失関数を最小化する、当該ラティスのノードを結んだ最適な経路を選択し、選択された経路が表す正規表記の品詞と単語区切りを、形態素解析結果として出力する。
<第3の実施の形態に係るモデル学習装置の作用>
次に、第3の実施の形態に係るモデル学習装置1500の作用について説明する。まず、入力部10において正規語崩れ語ペアデータを受け付けると、モデル学習装置1500は、上記図11に示す正規崩れフレーズモデル学習処理ルーチンと同様の処理ルーチンを実行する。また、入力部10において複数分野のコーパスを受け付けると、モデル学習装置1500は、上記図30に示すフレーズフィルタモデル学習処理ルーチンと同様の処理ルーチンを実行する。
また、入力部10において複数の正規文崩れ文ペアを受け付けると、モデル学習装置1500は、図34に示す解析用識別モデル学習処理ルーチンを実行する。
まず、ステップS800では、正規崩れフレーズモデル記憶部36に記憶されている正規崩れフレーズモデルを読み込む。
次に、ステップS802では、辞書データベース記憶部233に記憶されている辞書を読み込む。
ステップS804では、文字種変換辞書データベース記憶部934に記憶されている辞書を読み込む。
ステップS806では、フレーズフィルタモデル記憶部46に記憶されているフレーズフィルタモデルを読み込む。
ステップS808では、入力部10において受け付けた正規文崩れ文ペアのうちの処理対象のペアについて、ステップS800において取得した正規崩れフレーズモデルに基づいて、当該ペアの崩れ文に含まれる部分文字列のうち、崩れフレーズに該当する部分文字列を、当該崩れフレーズに対応する正規フレーズの部分文字列に変換し、解析候補文を生成する。
ステップS810では、ステップS808において生成された解析候補文の各々と、入力部10において受け付けた正規文崩れ文ペアのうちの処理対象のペアの崩れ文とに対して、ステップS802において取得した辞書を用いて辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成する。また、ラティスの生成にあたって、ステップS804において取得した、文字種変換辞書を用いて、ステップS808で正規フレーズに変換された部分文字列に対応する各ノードについて、読みが同一の異なる文字種の部分文字列に展開し、展開した部分文字列について辞書引きを行って、品詞が付与されたノードを追加する。また、文字種の展開履歴をメモリに記憶する。
ステップS811では、ステップS810において生成したラティスのうち、正規フレーズに変換された部分文字列に対応する各ノード及び異なる文字種の部分文字列に展開されて追加された各ノードについて、入力部10において受け付けた入力文と、ステップS806において取得したフレーズフィルタモデル、文字n‐gram統計量及び形態素情報とに基づいて、崩れフレーズを正規フレーズへ変換した変換の尤もらしさを示すスコアを算出する。
ステップS812では、ステップS811において算出したスコアに基づいて、フレーズ変換の尤もらしさを示すスコアが閾値よりも大きい値であるノードの各々を抽出すると共に、フレーズ変換の尤もらしさを示すスコアが閾値以下の値であるノードの各々を削除して、ラティスを再構成する。
ステップS814では、ステップS802において取得した辞書と、ステップS806において取得したフレーズフィルタモデルと、ステップS810において記憶した文字種の展開履歴とに基づいて、ステップS812において再構成されたラティスの各経路について、素性関数において用いられる複数の素性を抽出する。
ステップS816では、正規文崩れ文ペアの全てについて、上記ステップS808からS814の処理を実行したか否かを判定し、上記ステップS808からS814の処理を実行していないペアが存在する場合には、上記ステップS808へ戻り、当該ペアを、処理対象とする。一方、全てのペアについて、上記ステップS808からS814の処理を実行した場合には、ステップS818へ進む。
次に、ステップS818では、入力部10によって受け付けた正規文崩れ文ペアの各々における正規文に対する形態素解析結果と、ステップS814において正規文崩れ文ペアの各々に対して抽出した、各経路における複数の素性とに基づいて、MERTを用いた識別学習により、複数の素性を重み付け加算した値が作用となる経路が表す形態素解析結果と、入力された正規文の形態素解析結果との差分が最小になるように、複数の素性に対する重みの各々を学習し、解析用識別モデル記憶部1542に記憶する。
次に、ステップS820では、ステップS818において学習した重みを解析用識別モデルとして出力部50により出力し、解析用識別モデル学習処理ルーチンの処理を終了する。
<第3の実施の形態に係る形態素解析装置の作用>
次に、第3の実施の形態に係る形態素解析装置1600の作用について説明する。入力部210において入力文を受け付けると、形態素解析装置1600は、図35に示す形態素解析処理ルーチンを実行する。
ステップS900では、解析用識別モデル記憶部1642に記憶されているモデルを読み込む。
ステップS901では、入力部210において受け付けた入力文について、ステップS300において取得した正規崩れフレーズモデルに基づいて、解析候補文の各々を生成する。また、崩れフレーズが複数ある場合には複数箇所を変換した解析候補文を生成する。
ステップS708では、ステップS901において生成された解析候補文の各々と、入力部210において受け付けた入力文とに対して、ステップS301において取得した辞書を用いて辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成する。また、ラティスの生成にあたって、ステップS700において取得した、文字種変換辞書を用いて、ステップS901で正規フレーズに変換された部分文字列に対応する各ノードについて、読みが同一の異なる文字種の部分文字列に展開し、展開した部分文字列について辞書引きを行って、品詞が付与されたノードを追加する。
ステップS710では、ステップS708において生成したラティスのうち、正規フレーズに変換された部分文字列に対応する各ノード及び異なる文字種の部分文字列に展開されて追加された各ノードについて、入力部210において受け付けた入力文と、ステップS302において取得したフレーズフィルタモデル、文字n‐gram統計量及び形態素情報とに基づいて、崩れフレーズを正規フレーズへ変換した変換の尤もらしさを示すスコアを算出する。
ステップS712では、ステップS710において算出したスコアに基づいて、フレーズ変換の尤もらしさを示すスコアが閾値よりも大きい値であるノードの各々を抽出すると共に、フレーズ変換の尤もらしさを示すスコアが閾値以下の値であるノードの各々を削除して、ラティスを再構成する。
次に、ステップS902では、ステップS712において再構成されたラティスの各経路について複数の素性を抽出する。
ステップS904では、ステップS900において取得した解析用識別モデルに記憶された素性の重みと、ステップS712において再構成されたラティスと、ステップS902において抽出したラティスの各経路における複数の素性とに基づいて、動的計画法に従って、上記(5)式の損失関数を最小化する、当該ラティスのノードを結んだ最適な経路を選択する。
上記の形態素解析処理ルーチンを実行することにより、例えば、入力文「そんなれべるにそまるのをなんとか避けなければ」が入力された場合には、図37(B)に示すような、形態素解析結果が出力される。なお、比較例として、従来の形態素解析器を用いた場合の形態素解析結果を、図37(A)に示す。
以上説明したように、本発明の第3の実施の形態に係るモデル学習装置によれば、崩れ文と、正規文に対する形態素解析結果とのペアを入力とし、ラティスにおける各経路うち、経路について抽出される複数の素性を重み付き加算した値が最小となるように経路が表す形態素解析結果と、入力された正規文の形態素解析結果との差分が最小になるように、各素性の重みを学習することにより、崩れ表記があっても精度よく形態素解析をするためのモデルを学習することができる。
また、本発明の第3の実施の形態に係る形態素解析装置によれば、ラティスにおけるノードを結んだ各経路についての複数の素性を用いて予め学習した解析用識別モデルの重みを用いて、揺らいだ表記である崩れ語を含む文字列に対しても、形態素解析を精度よく行うことができる。また、文字種変換候補展開を組み合わせて正規化解析の対象候補が増えたことに対して、ラティスの各経路から適切な素性を抽出することで、誤りの増加を抑えつつ解析可能な範囲を拡大することを可能とした。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上記の第3の実施の形態では、生成したラティスのノードについて、崩れフレーズを正規フレーズへ変換した変換の尤もらしさを示すスコアを算出し、スコアが閾値以下のノードを削除し、ラティスを再構成する場合を例に説明したが、これに限定されるものではない。例えば、上記の第3の実施の形態と同様に、ラティスを生成する前に、フレーズフィルタモデル、文字n‐gram統計量及び形態素情報とに基づいて、崩れフレーズを正規フレーズへ変換した変換の尤もらしさを示すスコアを算出し、尤もらしい解析候補文を抽出してから、ラティスを生成するようにしてもよい。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。
10、210 入力部
20、220、320、420、520、620、720、820、1020、1120、1220、1320、1520、1620 演算部
30 初期設定部
31 フレーズアライメント部
32 変換確率算出部
34 反復判定部
36、232 正規崩れフレーズモデル記憶部
42 統計量算出部
43、743、1043、1234 データ生成部
44 モデル学習部
46、236、346、436 フレーズフィルタモデル記憶部
50、250 出力部
100、300、500、700、1000、1200、1500 モデル学習装置
200、400、600、800、1100、1300、1600 形態素解析装置
230、830、1130、1530 解析候補生成部
233 辞書データベース記憶部
235、435、1336、1533 算出部
238、438 解析対象抽出部
239、639、1139、1334、1532、1638 ラティス生成部
240、840、1641 選択部
342 統計量算出部
736、832 正規崩れフレーズルール記憶部
934 文字種変換辞書データベース記憶部
1230 形態素情報付与部
1338、1534 ノード抽出部
1536、1640 素性抽出部
1538 モデル推定部
1542、1642 解析用識別モデル記憶部

Claims (11)

  1. 入力された、正規化された表現である正規語に対して揺らいだ表記である崩れ語を含む崩れ文と、前記崩れ文に含まれる前記崩れ語を、前記正規語に置き換えた正規文に対する形態素解析結果とを受け付ける入力部と、
    崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズを、正規語を文字列の区切り位置で区切った部分文字列である正規フレーズに変換するための予め求められた正規崩れフレーズモデルに基づいて、前記入力された前記崩れ文について、前記崩れフレーズに一致する部分文字列を、対応する前記正規フレーズに置き換えた文字列を解析候補として生成する解析候補生成部と、
    前記入力された前記崩れ文及び前記解析候補生成部によって生成された前記解析候補の文字列の各々に対して辞書引きを行うと共に、前記解析候補生成部によって生成された前記解析候補の文字列の各々に対し、同一の読みであって、かつ、文字種が異なる複数の部分文字列の組み合わせを複数組格納した文字種変換辞書に基づいて、前記解析候補の文字列に含まれる前記正規フレーズについて、前記文字種変換辞書に格納されている組み合わせの部分文字列と一致する前記正規フレーズを、前記組み合わせの他の部分文字列に展開し、前記展開した部分文字列に対して辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するラティス生成部と、
    前記ラティス生成部によって生成されたラティスにおける前記ノードを結んだ各経路について、前記経路が表す品詞列に対する品詞連接コストを示す第1素性、前記経路が表す単語列に対する単語コストを示す第2素性、前記経路が表す単語列に対する単語表層n−gramに基づくコストを示す第3素性、前記経路が表す文字列が、前記崩れフレーズを置き換えた前記正規フレーズを含む場合に、前記崩れフレーズを前記正規フレーズに変換することについての文字列変換コストを示す第4素性、及び前記経路が表す文字列が、前記文字種変換辞書に基づいて展開された部分文字列を含む場合に、文字種変換コストを示す第5素性を含む複数の素性を抽出する素性抽出部と、
    前記ラティス生成部によって生成されたラティスにおける前記ノードを結んだ各経路のうち、前記素性抽出部によって抽出された前記複数の素性を重み付け加算した値が最小となる経路が表す形態素解析結果と、前記入力された正規文の形態素解析結果との差分が最小になるように、前記複数の素性の各々に対する重みを学習する学習部と、
    を含む、モデル学習装置。
  2. 入力された複数のコーパスに基づいて、n個の文字からなる文字n−gram及びn個の単語からなる単語表層n−gramの少なくとも一方の各々について、統計量を算出する統計量算出部と、
    入力された正規化された表現である正規語と前記正規語に対して揺らいだ表記である崩れ語との複数のペア、及び前記崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズを、前記正規語を文字列の区切り位置で区切った部分文字列である正規フレーズに変換するための予め求められた正規崩れフレーズモデルに基づいて、前記入力された複数のペアの各々について、前記ペアの前記崩れ語に含まれる前記崩れフレーズを前記正規フレーズに変換し、前記変換された正規フレーズに対して辞書引きを行い、形態素情報を付与する形態素情報付与部と、
    前記変換された正規フレーズと前記ペアの前記正規語との比較結果に基づいて、前記正規フレーズに付与された形態素情報と、前記崩れフレーズに対応する文字n−gram及び単語表層n−gramの少なくとも一方について算出された統計量と、前記正規フレーズに対応する文字n−gram及び単語表層n−gramの少なくとも一方について算出された統計量とを含む、正例データ及び負例データの何れか一方である学習データを生成するデータ生成部と、
    前記データ生成部によって前記複数のペアの各々について生成された学習データに基づいて、前記崩れフレーズを前記正規フレーズへ変換することの尤もらしさを判断するためのフレーズフィルタモデルを学習する学習部と、
    を含む、モデル学習装置。
  3. 崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズを、正規語を文字列の区切り位置で区切った部分文字列である正規フレーズに変換するための予め求められた正規崩れフレーズモデルに基づいて、入力された文字列について、前記崩れフレーズに一致する部分文字列を、対応する前記正規フレーズに置き換えた文字列を解析候補として生成する解析候補生成部と、
    前記入力された文字列及び前記解析候補生成部によって生成された前記解析候補の文字列の各々に対して辞書引きを行うと共に、前記解析候補生成部によって生成された前記解析候補の文字列の各々に対し、同一の読みであって、かつ、文字種が異なる複数の部分文字列の組み合わせを複数組格納した文字種変換辞書に基づいて、前記解析候補の文字列に含まれる前記正規フレーズについて、前記文字種変換辞書に格納されている組み合わせの部分文字列と一致する前記正規フレーズを、前記組み合わせの他の部分文字列に展開し、前記展開した部分文字列に対して辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するラティス生成部と、
    前記ラティス生成部によって生成されたラティスにおける前記ノードを結んだ各経路について、前記経路が表す品詞列に対する品詞連接コストを示す第1素性、前記経路が表す単語列に対する単語コストを示す第2素性、前記経路が表す単語列に対する単語表層n−gramに基づくコストを示す第3素性、前記経路が表す文字列が、前記崩れフレーズを置き換えた前記正規フレーズを含む場合に、前記崩れフレーズを前記正規フレーズに変換することについての文字列変換コストを示す第4素性、及び前記経路が表す文字列が、前記文字種変換辞書に基づいて展開された部分文字列を含む場合に、文字種変換コストを示す第5素性を含む複数の素性を抽出する素性抽出部と、
    予め求められた前記複数の素性の各々に対する重みに基づいて、動的計画法に従って、前記ラティス生成部によって生成されたラティスにおける前記ノードを結んだ各経路のうち、前記素性抽出部によって抽出された前記複数の素性を重み付け加算した値が最小となる経路を選択し、選択した経路が表す形態素解析結果を出力する選択部と、
    を含む、形態素解析装置。
  4. 前記ラティス生成部によって生成されたラティスにおける前記ノードのうち、前記正規フレーズに対応するノードの各々について、前記崩れフレーズを前記正規フレーズへ変換することの尤もらしさを判断するための予め求められたフレーズフィルタモデルと、前記ノードに付与された品詞を含む形態素情報とに基づいて、前記ノードに対応する前記正規フレーズへ変換することの尤もらしさを算出する算出部と、
    前記ラティス生成部によって生成されたラティスのうち、前記正規フレーズに対応するノードから、前記算出部によって算出された前記ノードに対応する前記正規フレーズへ変換することの尤もらしさと、予め定められた閾値とに基づいて、尤もらしい前記ノードを抽出するノード抽出部とを更に含み、
    前記素性抽出部は、前記ラティス生成部によって生成されたラティスのうちの、前記ノード抽出部によって抽出された前記ノードを含む各経路について、前記複数の素性を抽出し、
    前記選択部は、予め求められた前記複数の素性の各々に対する重みに基づいて、動的計画法に従って、前記ラティス生成部によって生成されたラティスのうちの、前記ノード抽出部によって抽出された前記ノードを含む各経路のうち、前記素性抽出部によって抽出された前記複数の素性を重み付け加算した値が最小となる経路を選択し、選択した経路が表す形態素解析結果を出力する請求項記載の形態素解析装置。
  5. 入力部が、入力された正規化された表現である正規語に対して揺らいだ表記である崩れ語を含む崩れ文と、前記崩れ文に含まれる前記崩れ語を、前記正規語に置き換えた正規文に対する形態素解析結果とを受け付けるステップと、
    解析候補生成部が、崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズを、正規語を文字列の区切り位置で区切った部分文字列である正規フレーズに変換するための予め求められた正規崩れフレーズモデルに基づいて、前記入力された前記崩れ文について、前記崩れフレーズに一致する部分文字列を、対応する前記正規フレーズに置き換えた文字列を解析候補として生成するステップと、
    ラティス生成部が、前記入力された前記崩れ文及び前記解析候補生成部によって生成された前記解析候補の文字列の各々に対して辞書引きを行うと共に、前記解析候補生成部によって生成された前記解析候補の文字列の各々に対し、同一の読みであって、かつ、文字種が異なる複数の部分文字列の組み合わせを複数組格納した文字種変換辞書に基づいて、前記解析候補の文字列に含まれる前記正規フレーズについて、前記文字種変換辞書に格納されている組み合わせの部分文字列と一致する前記正規フレーズを、前記組み合わせの他の部分文字列に展開し、前記展開した部分文字列に対して辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するステップと、
    素性抽出部が、前記ラティス生成部によって生成されたラティスにおける前記ノードを結んだ各経路について、前記経路が表す品詞列に対する品詞連接コストを示す第1素性、前記経路が表す単語列に対する単語コストを示す第2素性、前記経路が表す単語列に対する単語表層n−gramに基づくコストを示す第3素性、前記経路が表す文字列が、前記崩れフレーズを置き換えた前記正規フレーズを含む場合に、前記崩れフレーズを前記正規フレーズに変換することについての文字列変換コストを示す第4素性、及び前記経路が表す文字列が、前記文字種変換辞書に基づいて展開された部分文字列を含む場合に、文字種変換コストを示す第5素性を含む複数の素性を抽出するステップと、
    学習部が、前記ラティス生成部によって生成されたラティスにおける前記ノードを結んだ各経路のうち、前記素性抽出部によって抽出された前記複数の素性を重み付け加算した値が最小となる経路が表す形態素解析結果と、前記入力された正規文の形態素解析結果との差分が最小になるように、前記複数の素性の各々に対する重みを学習するステップと、
    を含むモデル学習方法。
  6. 統計量算出部が、入力された複数のコーパスに基づいて、n個の文字からなる文字n−gram及びn個の単語からなる単語表層n−gramの少なくとも一方の各々について、統計量を算出するステップと、
    形態素情報付与部が、入力された正規化された表現である正規語と前記正規語に対して揺らいだ表記である崩れ語との複数のペア、及び前記崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズを、前記正規語を文字列の区切り位置で区切った部分文字列である正規フレーズに変換するための予め求められた正規崩れフレーズモデルに基づいて、前記入力された複数のペアの各々について、前記ペアの前記崩れ語に含まれる前記崩れフレーズから前記正規フレーズに変換し、前記変換された正規フレーズに対して辞書引きを行い、形態素情報を付与するステップと、
    データ生成部が、前記変換された正規フレーズと前記ペアの前記正規語との比較結果に基づいて、前記正規フレーズに付与された形態素情報と、前記崩れフレーズに対応する文字nグラム及び単語表層n−gramの少なくとも一方について算出された統計量と、前記正規フレーズに対応する文字n−gram及び単語表層n−gramの少なくとも一方について算出された統計量とを含む、正例データ及び負例データの何れか一方である学習データを生成するステップと、
    学習部が、前記データ生成部によって前記複数のペアの各々について生成された学習データに基づいて、前記崩れフレーズを前記正規フレーズへ変換することの尤もらしさを判断するためのフレーズフィルタモデルを学習するステップと、
    を含む、モデル学習方法。
  7. 解析候補生成部が、崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズを、正規語を文字列の区切り位置で区切った部分文字列である正規フレーズに変換するための予め求められた正規崩れフレーズモデルに基づいて、入力された文字列について、前記崩れフレーズに一致する部分文字列を、対応する前記正規フレーズに置き換えた文字列を解析候補として生成するステップと、
    ラティス生成部が、前記入力された文字列及び前記解析候補生成部によって生成された前記解析候補の文字列の各々に対して辞書引きを行うと共に、前記解析候補生成部によって生成された前記解析候補の文字列の各々に対し、同一の読みであって、かつ、文字種が異なる複数の部分文字列の組み合わせを複数組格納した文字種変換辞書に基づいて、前記解析候補の文字列に含まれる前記正規フレーズについて、前記文字種変換辞書に格納されている組み合わせの部分文字列と一致する前記正規フレーズを、前記組み合わせの他の部分文字列に展開し、前記展開した部分文字列に対して辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するステップと、
    素性抽出部が、前記ラティス生成部によって生成されたラティスにおける前記ノードを結んだ各経路について、前記経路が表す品詞列に対する品詞連接コストを示す第1素性、前記経路が表す単語列に対する単語コストを示す第2素性、前記経路が表す単語列に対する単語表層n−gramに基づくコストを示す第3素性、前記経路が表す文字列が、前記崩れフレーズを置き換えた前記正規フレーズを含む場合に、前記崩れフレーズを前記正規フレーズに変換することについての文字列変換コストを示す第4素性、及び前記経路が表す文字列が、前記文字種変換辞書に基づいて展開された部分文字列を含む場合に、文字種変換コストを示す第5素性を含む複数の素性を抽出するステップと、
    選択部が、予め求められた前記複数の素性の各々に対する重みに基づいて、動的計画法に従って、前記ラティス生成部によって生成されたラティスにおける前記ノードを結んだ各経路のうち、前記素性抽出部によって抽出された前記複数の素性を重み付け加算した値が最小となる経路を選択し、選択した経路が表す形態素解析結果を出力するステップと、
    を含む、形態素解析方法。
  8. 入力された、正規化された表現である正規語に対して揺らいだ表記である崩れ語を含む崩れ文と、前記崩れ文に含まれる前記崩れ語を、前記正規語に置き換えた正規文に対する形態素解析結果とを受け付ける入力部と、
    崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズを、正規語を文字列の区切り位置で区切った部分文字列である正規フレーズに変換するための予め求められた正規崩れフレーズモデルに基づいて、前記入力された前記崩れ文について、前記崩れフレーズに一致する部分文字列を、対応する前記正規フレーズに置き換えた文字列を解析候補として生成する解析候補生成部と、
    前記入力された前記崩れ文及び前記解析候補生成部によって生成された前記解析候補の文字列の各々に対して辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するラティス生成部と、
    前記ラティス生成部によって生成されたラティスにおける前記ノードを結んだ各経路について、前記経路が表す品詞列に対する品詞連接コストを示す第1素性、前記経路が表す単語列に対する単語コストを示す第2素性、前記経路が表す単語列に対する単語表層n−gramに基づくコストを示す第3素性、及び前記経路が表す文字列が、前記崩れフレーズを置き換えた前記正規フレーズを含む場合に、前記崩れフレーズを前記正規フレーズに変換することについての文字列変換コストを示す第4素性を含む複数の素性を抽出する素性抽出部と、
    前記ラティス生成部によって生成されたラティスにおける前記ノードを結んだ各経路のうち、前記素性抽出部によって抽出された前記複数の素性を重み付け加算した値が最小となる経路が表す形態素解析結果と、前記入力された正規文の形態素解析結果との差分が最小になるように、前記複数の素性の各々に対する重みを学習する学習部と、
    を含む、モデル学習装置。
  9. 崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズを、正規語を文字列の区切り位置で区切った部分文字列である正規フレーズに変換するための予め求められた正規崩れフレーズモデルに基づいて、入力された文字列について、前記崩れフレーズに一致する部分文字列を、対応する前記正規フレーズに置き換えた文字列を解析候補として生成する解析候補生成部と、
    前記入力された文字列及び前記解析候補生成部によって生成された前記解析候補の文字列の各々に対して辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するラティス生成部と、
    前記ラティス生成部によって生成されたラティスにおける前記ノードを結んだ各経路について、前記経路が表す品詞列に対する品詞連接コストを示す第1素性、前記経路が表す単語列に対する単語コストを示す第2素性、前記経路が表す単語列に対する単語表層n−gramに基づくコストを示す第3素性、及び前記経路が表す文字列が、前記崩れフレーズを置き換えた前記正規フレーズを含む場合に、前記崩れフレーズを前記正規フレーズに変換することについての文字列変換コストを示す第4素性を含む複数の素性を抽出する素性抽出部と、
    予め求められた前記複数の素性の各々に対する重みに基づいて、動的計画法に従って、前記ラティス生成部によって生成されたラティスにおける前記ノードを結んだ各経路のうち、前記素性抽出部によって抽出された前記複数の素性を重み付け加算した値が最小となる経路を選択し、選択した経路が表す形態素解析結果を出力する選択部と、
    を含む、形態素解析装置。
  10. 入力部が、入力された正規化された表現である正規語に対して揺らいだ表記である崩れ語を含む崩れ文と、前記崩れ文に含まれる前記崩れ語を、前記正規語に置き換えた正規文に対する形態素解析結果とを受け付けるステップと、
    解析候補生成部が、崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズを、正規語を文字列の区切り位置で区切った部分文字列である正規フレーズに変換するための予め求められた正規崩れフレーズモデルに基づいて、前記入力された前記崩れ文について、前記崩れフレーズに一致する部分文字列を、対応する前記正規フレーズに置き換えた文字列を解析候補として生成するステップと、
    ラティス生成部が、前記入力された前記崩れ文及び前記解析候補生成部によって生成された前記解析候補の文字列の各々に対して辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するステップと、
    素性抽出部が、前記ラティス生成部によって生成されたラティスにおける前記ノードを結んだ各経路について、前記経路が表す品詞列に対する品詞連接コストを示す第1素性、前記経路が表す単語列に対する単語コストを示す第2素性、前記経路が表す単語列に対する単語表層n−gramに基づくコストを示す第3素性、及び前記経路が表す文字列が、前記崩れフレーズを置き換えた前記正規フレーズを含む場合に、前記崩れフレーズを前記正規フレーズに変換することについての文字列変換コストを示す第4素性を含む複数の素性を抽出するステップと、
    学習部が、前記ラティス生成部によって生成されたラティスにおける前記ノードを結んだ各経路のうち、前記素性抽出部によって抽出された前記複数の素性を重み付け加算した値が最小となる経路が表す形態素解析結果と、前記入力された正規文の形態素解析結果との差分が最小になるように、前記複数の素性の各々に対する重みを学習するステップと、
    を含むモデル学習方法。
  11. 解析候補生成部が、崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズを、正規語を文字列の区切り位置で区切った部分文字列である正規フレーズに変換するための予め求められた正規崩れフレーズモデルに基づいて、入力された文字列について、前記崩れフレーズに一致する部分文字列を、対応する前記正規フレーズに置き換えた文字列を解析候補として生成するステップと、
    ラティス生成部が、前記入力された文字列及び前記解析候補生成部によって生成された前記解析候補の文字列の各々に対して辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するステップと、
    素性抽出部が、前記ラティス生成部によって生成されたラティスにおける前記ノードを結んだ各経路について、前記経路が表す品詞列に対する品詞連接コストを示す第1素性、前記経路が表す単語列に対する単語コストを示す第2素性、前記経路が表す単語列に対する単語表層n−gramに基づくコストを示す第3素性、及び前記経路が表す文字列が、前記崩れフレーズを置き換えた前記正規フレーズを含む場合に、前記崩れフレーズを前記正規フレーズに変換することについての文字列変換コストを示す第4素性を含む複数の素性を抽出するステップと、
    選択部が、予め求められた前記複数の素性の各々に対する重みに基づいて、動的計画法に従って、前記ラティス生成部によって生成されたラティスにおける前記ノードを結んだ各経路のうち、前記素性抽出部によって抽出された前記複数の素性を重み付け加算した値が最小となる経路を選択し、選択した経路が表す形態素解析結果を出力するステップと、
    を含む、形態素解析方法。
JP2014041951A 2014-03-04 2014-03-04 モデル学習装置、形態素解析装置、及び方法 Expired - Fee Related JP6145059B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014041951A JP6145059B2 (ja) 2014-03-04 2014-03-04 モデル学習装置、形態素解析装置、及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014041951A JP6145059B2 (ja) 2014-03-04 2014-03-04 モデル学習装置、形態素解析装置、及び方法

Publications (2)

Publication Number Publication Date
JP2015169947A JP2015169947A (ja) 2015-09-28
JP6145059B2 true JP6145059B2 (ja) 2017-06-07

Family

ID=54202680

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014041951A Expired - Fee Related JP6145059B2 (ja) 2014-03-04 2014-03-04 モデル学習装置、形態素解析装置、及び方法

Country Status (1)

Country Link
JP (1) JP6145059B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6558856B2 (ja) * 2016-03-31 2019-08-14 日本電信電話株式会社 形態素解析装置、モデル学習装置、及びプログラム
JP6684693B2 (ja) * 2016-11-09 2020-04-22 日本電信電話株式会社 文字列変換装置、モデル学習装置、方法、及びプログラム
KR102313721B1 (ko) * 2019-12-05 2021-10-15 울산대학교 산학협력단 자연어 표상 방법 및 이를 수행하기 위해 매체에 저장된 컴퓨터 프로그램
JP7332486B2 (ja) * 2020-01-08 2023-08-23 株式会社東芝 記号列変換装置および記号列変換方法
CN112101030B (zh) * 2020-08-24 2024-01-26 沈阳东软智能医疗科技研究院有限公司 建立术语映射模型、实现标准词映射的方法、装置及设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3998668B2 (ja) * 2004-07-14 2007-10-31 沖電気工業株式会社 形態素解析装置、方法及びプログラム
JP3986531B2 (ja) * 2005-09-21 2007-10-03 沖電気工業株式会社 形態素解析装置及び形態素解析プログラム
JP5625827B2 (ja) * 2010-11-30 2014-11-19 富士通株式会社 形態素解析装置、音声合成装置、形態素解析方法及び形態素解析プログラム

Also Published As

Publication number Publication date
JP2015169947A (ja) 2015-09-28

Similar Documents

Publication Publication Date Title
US7983903B2 (en) Mining bilingual dictionaries from monolingual web pages
CN107870901B (zh) 从翻译源原文生成相似文的方法、记录介质、装置以及系统
JP6145059B2 (ja) モデル学習装置、形態素解析装置、及び方法
CN111859921A (zh) 文本纠错方法、装置、计算机设备和存储介质
JP5809381B1 (ja) 自然言語処理システム、自然言語処理方法、および自然言語処理プログラム
JP6778655B2 (ja) 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム
KR20230009564A (ko) 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치
JP5441937B2 (ja) 言語モデル学習装置、言語モデル学習方法、言語解析装置、及びプログラム
CN109815497B (zh) 基于句法依存的人物属性抽取方法
Uthayamoorthy et al. Ddspell-a data driven spell checker and suggestion generator for the tamil language
JP2016224483A (ja) モデル学習装置、方法、及びプログラム
WO2019163642A1 (ja) 要約評価装置、方法、プログラム、及び記憶媒体
JP7040155B2 (ja) 情報処理装置、情報処理方法及びプログラム
KR102531114B1 (ko) 마스크 언어 모형을 이용한 문맥의존 철자오류 교정 장치 및 방법
KR102517971B1 (ko) 자동회귀 언어 모형을 이용한 문맥의존 철자오류 교정 장치 및 방법
Anik et al. An approach towards multilingual translation by semantic-based verb identification and root word analysis
JP6558856B2 (ja) 形態素解析装置、モデル学習装置、及びプログラム
Mathew et al. Paraphrase identification of Malayalam sentences-an experience
JP6145027B2 (ja) モデル学習装置、形態素解析装置、及びプログラム
JP2016189154A (ja) 翻訳方法、装置、及びプログラム
JP6220761B2 (ja) モデル学習装置、文字列変換装置、方法、及びプログラム
JP2014215970A (ja) 誤り検出装置、方法、及びプログラム
Debnath et al. A Hybrid Approach to Design Automatic Spelling Corrector and Converter for Transliterated Bangla Words
JP6303508B2 (ja) 文書分析装置、文書分析システム、文書分析方法およびプログラム
KR101288900B1 (ko) 단어의 중의성 해소 방법, 중의성 해소 시스템, 및 이를 이용한 수화 시스템

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160215

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161110

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170203

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170509

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170512

R150 Certificate of patent or registration of utility model

Ref document number: 6145059

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees