JP5795302B2

JP5795302B2 - 形態素解析装置、方法、及びプログラム

Info

Publication number: JP5795302B2
Application number: JP2012267425A
Authority: JP
Inventors: 齋藤　邦子; 邦子齋藤; 朋子泉; 松尾　義博; 義博松尾
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-12-06
Filing date: 2012-12-06
Publication date: 2015-10-14
Anticipated expiration: 2032-12-06
Also published as: JP2014115718A

Description

本発明は、形態素解析装置、方法、プログラムに係り、特に、入力文について形態素解析を行う形態素解析装置、方法、プログラムに関する。

日本語で記載された文は、英語のように単語の境界が自明ではないため、まず入力文から単語を認識し、その単語の品詞が何であるかを判定する形態素解析処理が基本的かつ重要な言語解析技術の一つであるといえる。

形態素解析では単語辞書を予め準備しておき、入力文に含まれる単語を辞書検索して全て列挙し、最終的にもっとも日本語として尤もらしい単語列を出力する仕組みとなっている。

日本語としての尤もらしさを測る指標としては、単語列の出現確率を統計的に確率モデルで評価するものや、予め単語の連接規則を人手で設定しておくものなど、幾つかの手法が提案されており、それぞれに成果を挙げている。標準的な形態素解析技術として、ＣｈａＳｅｎ、ＭｅＣａｂ、ＪＴＡＧなどがある（非特許文献１）。これらの形態素解析技術は、整った日本語を想定して辞書が整備されており、新聞などの正しい日本語に対しては高精度に解析できる。

また、誤字脱字や表記ゆれなど、単語辞書にはない表記であっても正しく解析することを目的とした技術が提案されている（特許文献１）。これは、近似辞書照合を形態素解析と組み合わせることにより、辞書との完全一致だけではなく、挿入・削除・置換を考慮した単語の照合が可能となるため、辞書登録後から多少外れた表現であっても辞書照合でき、結果、正しい解析結果を得られる効果がある。

特開２０１１−６５３８４号公報

Takeshi Fuchi, Shinichiro Takagi:Japanese morphological analyzer using word co-occurrence:JTAG,Proc of the 36th ACL and 17th COLING, pp.409-413 (1998).

しかしながら、日本人が記載する口語調のくだけた文章、例えば、掲示板やブログ、ツイッター（登録商標）などでよくみられる文章では、略語や造語、母音、促音、長音を多用した口語的表現（すっごーい等）が頻出し、単語辞書に収録されている表記とはずれた表現が文章中に多く存在するために、非特許文献１の手法においては、結果として多くが未知語となって解析誤りの原因となるという問題がある。

また、未知語の全てについて単語辞書を整備するという手法を選択することは、幅広いバリエーションを有する表記ゆれすべてに対応するということになり、コストが高いという問題がある。

また、特許文献１の手法においては、１文字だけ異なる単語が機械的にすべて単語候補として列挙されるため、単語候補数が膨大になり最終的に１組の最尤単語列となる組み合わせを求めるための探索コストがかかるという問題がある。

本発明では、上記問題点を解決するために成されたものであり、表記ゆれを含む文であっても、高精度に形態素解析を行う形態素解析装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、本発明の形態素解析装置は、連続する長音、又は促音に対して、前記長音、又は促音を１つ残して全て削除する変換規則、及び表記を変換する対象となる少なくとも１つの文字又は記号のパターンを表す正規表現に対して、文字又は記号の削除、挿入、又は置換を行うことにより前記少なくとも１つの文字又は記号の表記を変換する変換規則を記憶する記憶手段と、前記長音、又は促音を１つ残して全て削除する変換規則に基づいて、入力文の連続する長音、又は促音に対して、前記長音、又は促音を１つ残して全て削除した後に、前記少なくとも１つの文字又は記号の表記を変換する変換規則の正規表現と一致する入力文の部分における少なくとも１つの文字又は記号の表記を、前記変換規則に基づいて変換する変換手段と、前記変換手段により文字又は記号の表記を変換した前記入力文について形態素解析を行う形態素解析手段と、を含んで構成されている。

本発明の形態素解析方法は、連続する長音、又は促音に対して、前記長音、又は促音を１つ残して全て削除する変換規則、及び表記を変換する対象となる少なくとも１つの文字又は記号のパターンを表す正規表現に対して、文字又は記号の削除、挿入、又は置換を行うことにより前記少なくとも１つの文字又は記号の表記を変換する変換規則を記憶する記憶手段と、変換手段と、形態素解析手段とを含む、形態素解析装置における形態素解析方法であって、前記変換手段により、前記長音、又は促音を１つ残して全て削除する変換規則に基づいて、入力文の連続する長音、又は促音に対して、前記長音、又は促音を１つ残して全て削除した後に、前記少なくとも１つの文字又は記号の表記を変換する変換規則の正規表現と一致する入力文の部分における少なくとも１つの文字又は記号の表記を、前記変換規則に基づいて変換し、前記形態素解析手段により、前記変換手段により文字又は記号の表記を変換した前記入力文について形態素解析を行う。

本発明によれば、入力された文について、複数の変換規則の各々について、入力文の正規表現と一致する部分における少なくとも１つの文字又は記号の表記を、変換規則に基づいて変換する。

そして、少なくとも１つの文字又は記号の表記を変換した文について形態素解析を行う。

このように、表記を変換する対象となる少なくとも１つの文字又は記号のパターンを表す正規表現に対して、文字又は記号の削除、挿入、又は置換を行うことにより文字又は記号の表記を変換する変換規則を用いて、正規表現と一致する部分における文字又は記号の表記を、変換規則に基づいて変換し、文字又は記号の表記を変換した文について形態素解析を行うことにより、表記ゆれを含む文であっても、高精度に形態素解析を行うことができる。

また、本発明のプログラムは、連続する長音、又は促音に対して、前記長音、又は促音を１つ残して全て削除する変換規則、及び表記を変換する対象となる少なくとも１つの文字又は記号のパターンを表す正規表現に対して、文字又は記号の削除、挿入、又は置換を行うことにより前記少なくとも１つの文字又は記号の表記を変換する変換規則を記憶する記憶手段を有するコンピュータを、本発明の形態素解析装置の各手段として機能させるためのプログラムである。

以上説明したように、本発明の形態素解析装置、方法、及びプログラムによれば、表記を変換する対象となる少なくとも１つの文字又は記号のパターンを表す正規表現に対して、文字又は記号の削除、挿入、又は置換を行うことにより文字又は記号の表記を変換する変換規則を用いて、正規表現と一致する部分における文字又は記号の表記を、変換規則に基づいて変換し、文字又は記号の表記を変換した文について形態素解析を行うことにより、表記ゆれを含む文であっても、高精度に形態素解析を行うことができる。

本発明の実施の形態の形態素解析装置の機能的構成を示すブロック図である。入力文の例を示す図である。本発明の実施の形態の形態素解析装置における前処理部の機能的構成を示すブロック図である。変換規則をperlで記載した場合の正規表現記述例を示す図である。ｄｉｆｆの結果を示す図である。ｄｉｆｆの結果を示す図である。表記を変換した後の入力文の例を示す図である。形態素解析結果の例を示す図である。表記の変換前後文字位置対応データの例を示す図である。出力結果の例を示す図である。本発明の実施の形態の形態素解析装置における形態素解析処理ルーチンの内容を示すフローチャートである。

以下、発明の原理について詳細に説明する。

＜発明の原理＞
近年、メール、ブログ、ツイッター（登録商標）など、一般の人が自由な文体で記述するテキストメディアが急速に発達してきている。このようなメディアは、新聞などのプロの記者が一定の基準で書く整った文章と比べると、文体は話言葉に近く、また感情表現の意味も込めて「すっっっごい」「すご〜〜〜〜い」のように促音や長音を多用したり、「ぉはよぅ」「かわぃぃ」のように小書き文字を敢えて使用したりする事例が頻出する。

また、「保活」「ふぁぼる」など時代の流れと共に発生する新しい語が次々と登場したり、通常は「エヌティーティー（登録商標）」や「ＮＴＴ（登録商標）」とカタカナやアルファベットで書かれる語を「えぬてぃーてぃー」と文字種を変えて書くこともよくある。

いずれにしても、単語辞書に無い文字列が入力文に存在すると、その部分は未知語となるため正しい単語候補が得られず、結果として誤った解析結果となる。例えば、「ぉはようと言った」という入力文の場合、本来は「ぉはよう／と／言った」という結果になることが期待されるが、「ぉはよう」の単語候補が辞書に存在しない場合、部分的に別の単語と認定されて「ぉ／はよう／と／言った」となり、「はよう」が誤って単語となることもある。

このように単語が本来想定される表記通りに記述されない文を対象として形態素解析処理を実行する場合、あらゆる表記ゆれを全て辞書に登録していくのはコストがかかり、非効率である。そのため多くの表記ゆれは辞書未登録のままで処理されることとなり、解析誤りの原因となるという課題があった。

一方、多様なバリエーションで表記ゆれが出現する文に対して、従来の形態素解析で行われていたような辞書登録を進めるという解決策のほか、特許文献１のようなアプローチで辞書未登録語でも解析する手法も考えられる。

しかし、特許文献１にあるような辞書未登録語対策の場合、機械的にあらゆる１文字違いの候補を列挙するため、候補数が爆発することが課題となる。

ここで、現実に文を眺めてみると、長音・促音・小書き文字といった特定の文字に着目し、且つ、それらを一定の基準で整形することで本来の辞書登録後に直ることが分かる。

例えば、「すっっっごい」「すご〜〜〜〜い」などは連続する促音や長音を事前に１つにまとめ、小書き文字は大文字に変換する等のいくつかの着替え規則を事前に設計し、入力文を変換してから解析させることができれば、近似辞書照合に基づく解決法のように単語候補を爆発させることなく、元々の単語辞書にある候補を検索することが可能となる。

本発明は、本来の単語から外れている表記ゆれであり、通常の形態素解析では未知語となるものであっても、正しく形態素解析する技術であり、以下（１）から（４）の構成で実現する。

（１）入力文に対して予め準備した規則により表記を変換（挿入・置換・削除）する。
（２）変換前と変換後の入力文に対して変化が発生した文字位置の対応をとる。
（３）変換後の入力文に対して通常の形態素解析を実行する。
（４）変換後の形態素解析結果（（３）の出力）に対して、変換前後の文字位置対応情報（（２）の出力）から、表記を変換前のものに復元する。

ここで、上記（３）の形態素解析は既存の形態素解析技術を用いる任意の形態素解析技術を導入でき、その前後に上記（１）、（２）、（４）の処理を追加することで、簡単に表記ゆれに頑健な形態素解析技術が構成できる。

この手段では、あらかじめ入力文の表記を変換しておくことで辞書照合ができるようにしておくことを狙っており、変換規則の設計により、効率よく候補を列挙することが実現できる。また、上記（２）、（４）の処理を組み合わせることにより、元の表記に戻すため、利用者から見ればあたかも表記ゆれ単語を単語辞書に事前に収録しておいたかのような正しい解析結果を得ることができる。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜形態素解析装置の構成＞
本発明の実施の形態に係る形態素解析装置について説明する。図１に示すように、本発明の実施の形態に係る形態素解析装置１００は、入力部１０と、後述する形態素解析処理ルーチンを実行する演算部２０と、出力部３０と、を備えている。

入力部１０は、キーボードなどの入力装置から、図２に示すような表記ゆれを含む文を受け付ける。なお、入力部１０は、ネットワーク等を介して外部から入力されたものを受け付けるようにしてもよい。

演算部２０は、ＣＰＵ（Central Processing Unit）と、ＲＡＭ（Random Access Memory）と、後述する形態素解析処理ルーチンを実行するためのプログラムを記憶したＲＯＭ（Read Only Memory）とを備えたコンピュータで構成されている。このコンピュータは、機能的には、図１に示すように、前処理部２２と、形態素解析部２４と、復元処理部２６とを含んだ構成で表すことができる。

前処理部２２は、入力部１０において受け付けた表記ゆれを含む文を、形態素解析処理において辞書照合しやすくするために、表記ゆれを含まない文に変換する。本実施の形態では、前処理部２２において、入力文変換処理と、変換前後文字位置対応処理との２つが行われる。また、前処理部２２は、図３に示す通り、入力文変換部２２０、正規表現規則記憶部２２２、及び文字位置対応部２２４により構成される。

図３の入力文変換部２２０は、入力文変換処理を行い、入力部１０において受け付けた表記ゆれを含む文を、表記ゆれを含まない文に変換し、形態素解析部２４及び文字位置対応部２２４に出力する。この処理は、入力文の表記を変換するものであり、表記の変換のために、正規表現規則記憶部２２２に記憶されている後述する複数の変換規則を参照し、予め定めた順番通りに複数の変更規則を入力文に対して適用し処理を実行する。

正規表現規則記憶部２２２には、図４に示すような、表記ゆれを含む文の表記を変換するための変換規則であって、表記を変換する対象となる少なくとも１つの文字又は記号のパターンを表す正規表現に対して、文字又は記号の削除、挿入、又は置換を行うことにより文字又は記号の表記を変換する変換規則が複数記憶されている。なお、変換規則の設計では、あらかじめ大量の入力対象となる文から、文字又は記号の連接出現情報を集めておき、どのような出現が多いのか、現象を把握した上で、処理対象としたい入力文の表記揺らぎをある程度検討・想定し、変換のための規則を設計しておく。

ここで、変換規則とは、例えば、長音記号「〜」や促音記号「っ」の連続表現は１つを残して全て削除する、小書き文字「ぁ」「ぃ」「ぅ」「ぇ」「ぉ」は大きな文字に変換する、といった変換を、正規表現を用いて記述しているものである。

変換規則では、変換したい文字又は記号単独で規則を記述することも可能であるが、前後に連接する文字又は記号の状況を細かく指定することも可能である。例えば、図４に示すように、おやすみなさい、の「さい」の部分は、さい、さぁぃ、さ〜い、さぁーぃ、さあ〜ぃ等、多様に表現がゆれる。これらを複数まとめ、「さ」＋（「ぁ」又は「あ」又は「〜」又は「ー」又は「ぁ〜」又は「あ〜」又は「ぁー」又は「あー」）＋（「ぃ」又は「い」）の表現は全て「さい」に変換するようなルールが表現可能である。

同様に、図４に示すように、「なあい」「なーい」等を「ない」、「たぁい」、「た〜い」等を「たい」、「でぇす」、「でーす」等を「です」、「まーす」等を「ます」といった形で一律に変換処理を実行することができる。

また、複数の変換規則の適用順序は、入力文を効果的に変換することを考慮して、設定される。例えば、連続した長音記号「ー」「〜」を長音記号ひとつだけを残して全て削除する変換規則を最初に適用するように設定し、そのあとで上記「さい」に関する変換規則を適用するように適用順序を設定する。この場合、「さ〜〜〜い」、「さぁ〜〜い」、「さあーーい」など長音が重複するような表記ゆれであっても、まず最初の変換規則で「さ〜い」、「さぁ〜い」、「さあーい」と変換されたうえで、さらに「さい」へ変換する変換規則が照合されるため、これらも期待通りに変換処理が可能となる。

このように、入力文変換部２２０は、正規表現規則記憶部２２２に記憶されている複数の変換規則の各々を適用順序に従って適用し、当該変換規則の正規表現と一致する入力部１０において受け付けた入力文の部分における少なくとも１つの文字又は記号の表記を、当該変換規則に基づいて変換する。

文字位置対応部２２４は、入力部１０において受け付けた表記ゆれを含む文と、入力文変換部２２０から入力された表記を変換された文とに基づいて、表記の変換前と変換後の文字位置の対応データをとり、復元処理部２６へ出力する。

例えば、入力部１０において受け付けた文が「ぉはよぅ」であり、入力文変換部２２０において変換された文が「おはよう」である場合、「ぉ」→「お」、「は」→「は」、「よ」→「よ」、「ぅ」→「う」であることを認識するものである。

また、例えば入力部１０において受け付けた文が「おやすみなさぁ〜〜ぃ」であり、入力文変換部２２０において変換された文が「おやすみなさい」の場合は、「おやすみな」まではそれぞれ「おやすみな」と１文字ずつ対応し、「さ」は「さぁ〜〜」、「ぃ」は「い」であると対応づけられる。この場合、削除された文字又は記号については、その直前の文字又は記号とまとめて対応づける。例えば、「ぁ〜〜」は削除された文字又は記号に相当するが、これらは直前の「さ」に含めて対応づけるものとする。

表記の変換前と変換後の文字位置の対応データは文字位置で管理され、「変換前文字位置：変換後文字位置」で表現することとし、文字位置は変換前後ともに、最初の文字を１として数える。多くの場合は、１：１の対応であるが、ｎ：ｍ（ｎ、ｍともに１以上の整数）の対応もあり得る。複数の文字で対応する場合は、「,」で該当文字位置をつなげて表現する。

例えば、「ぉはよぅ」→「おはよう」の場合は、順次、１：１、２：２、３：３、４：４のように対応し、「おやすみなさぁ〜〜ぃ」→「おやすみなさい」の場合には、１：１、２：２、３：３、４：４、５：５、６,７,８,９：６、１０：７のように対応する。

実際に表記の変換前と変換後の文字位置の対応データを得るために、二つのデータの差分をとる既存の技術を利用する。本実施の形態においては、Ｌｉｎｕｘ（登録商標）のｄｉｆｆコマンドを実行して差分をとる。例えば、「ぉはよぅ」、「おはよう」をそれぞれ１行１文字となるように各文字の直後に改行をして２つの別のファイルに保存した上で、ｄｉｆｆコマンドを実行して差分をとると、図５のような情報が得られる。これは１文字目、４文字目にそれぞれ差があることを意味している。この場合、表記が異なっているだけであり、文字位置としては同じであると解釈できる。

一方、「おやすみなさぁ〜〜い」と「おやすみなさい」の場合には、図６のような表記の変換前と変換後の文字位置の対応データが得られる。これは、変換前の７〜９文字目が変換後の６文字目の直後では削除されていることを意味している。

このようにｄｉｆｆの情報を活用することにより、どの位置からどの位置に差が発生しているのかがわかるため、これをもとにして表記の変換前と変換後の文字位置の対応データをとる。

図１の形態素解析部２４は、前処理部２２から入力された表記を変換した文について形態素解析処理を実行し、形態素解析結果を復元処理部２６に出力する。本実施例では、形態素解析処理は市販の任意の形態素技術を利用する。なお、以下一例として、入力部において図２に示すような「ぉはよぅと言った」、「すっっっごくきれぃ」の文を受け付けた場合について説明する。

ここで、形態素解析処理とは、入力文である文字列を単語に分割し、品詞などの辞書情報を付与するものである。入力文を長さｍ字の文字列Ｓ＝ｃ１ｃ２…ｃｍとすると、この入力文をｎ個の表記列（部分文字列）Ｆ＝ｆ１ｆ２…ｆｎに分割し、各表記列に付与される品詞が品詞列Ｔ＝ｔ１ｔ２…ｔｎであった時、形態素解析は、表記列と品詞列の同時確率Ｐ（Ｆ,Ｔ）を最大化するような単語分割および品詞付与を実行する。すなわち、下記（１）式をみたすような（Ｆ,Ｔ）の組を求める問題となる。

その際、別途参照する単語辞書を利用して、入力文中に存在するあらゆる単語候補を検出し、その前後の連接として適切かつ最尤な単語列を最終出力とする。単語辞書には、単語を構成する表記と、その表記に対応する辞書情報が収録されている。辞書情報の代表的なものは品詞であり、例えば「ＮＴＴ（登録商標）」という表記には「名詞」という品詞が収録される。

同じ表記でも複数の品詞が収録されることはよくあり、例えば、「市」には「名詞接尾辞」と「名詞」が収録される場合である。これらは、「市／名詞接尾辞」「市／名詞」の２つの異なる単語として認識される。「横須賀市」という入力文を形態素解析すると「市／名詞接尾辞」と解析され、「市で買った」という入力文では「市／名詞」と解析される。

このように単語の多義を解消して１つの最適な単語列を出力するのが形態素解析処理であり、形態素解析では、表記と品詞の組み合わせ「表記／品詞」を単語と呼ぶ。

形態素解析部２４は、入力部１０において「ぉはよぅと言った」、「すっっっごくきれぃ」の文を受け付けた場合、前処理部２２において表記を変換された文は図７に示すように、小書き文字や促音に由来する表記ゆれが吸収され、辞書照合ができるようになっているため、当該文について形態素解析処理を実行することにより、図８に示すような正しい形態素解析結果を得ることができる。具体的には、従来の形態素解析では、「ぉはよぅ」や「すっっっごく」は、単語辞書に登録しない限り正しく解析されないが、ここでは、あらかじめ表記を変換して「おはよう」、「すっごく」となっており、辞書照合が可能となって図８に示すように正しく解析される。

なお、「すっごく」は「すごく」から派生する表記ゆれの１種である。本来、単語辞書には基本語彙として「すごく」のみの収録が想定されるが、基本的な表記ゆれとして促音が１つだけ挿入された「すっごく」も単語辞書に登録しておくことはごく現実的な対策である。これを登録しておくと、本実施の形態により、任意の数の促音が挿入される「すっっっごく」に対しても正しく辞書照合可能となる。

復元処理部２６は、図９に示すような前処理部２２から入力される表記の変換前後文字位置対応データと、図６に示すような形態素解析部２４から入力される表記変換後の文の形態素解析結果とを入力とし、形態素解析結果での各単語の表記、すなわち、変換後の各単語の表記が、元の入力ではどのような表記であったのかを復元する。

表記の変換前後文字位置対応データでは、変換前後の表記の文字位置を対応付けてあるため、その文字位置情報を利用し、形態素解析結果の各単語の表記が何文字目から何文字目のものであるかを取得した後、表記の変換前後文字位置対応データより、各単語の表記の変換前の入力での文字位置範囲に換算する。その上で、形態素解析結果の各単語について、表記の変換前の入力文から、当該文字位置範囲を利用して変換前の表記を切り出す。

例えば、単語「おはよう／独立詞」は表記の変換後の文の入力の１〜４文字までであり、表記の変換前後文字位置対応データでは、表記の変換後１文字目は表記の変換前1文字目、表記の変換後４文字目は表記の変換前４文字目であるため、表記の変換前も１〜４文字目であると判断する。

そのため、この単語の復元表記はもとの入力の１〜４文字目であり「ぉはよぅ」となり、復元表記も含めた最終的な出力では図１０に示すように「ぉはよぅ／おはよう／独立詞」となる。

また、単語「すっごく／形容詞」は表記の変換後入力の１〜４文字までであり、表記の変換前後文字位置対応データでは、表記の変換後１文字目は表記の変換前１文字目、表記の変換後４文字目は表記の変換前６文字目であるため、表記の変換前は１〜６文字目であると判断する。

そのため、この単語の復元表記はもとの入力の１〜６文字目であり「すっっっごく」となり、最終的な出力として、図１０に示すように、元々の入力文での出現表記（復元表記）、及び形態素解析時に辞書照合した変換後の表記（辞書見出し表記）も含めた出力「すっっっごく／すっごく／形容詞」を出力する。

＜形態素解析装置の作用＞

次に、本発明の実施の形態に係る形態素解析装置１００の作用について説明する。まず、入力部１０により、形態素解析対象の文が入力されると、形態素解析装置１００のＲＯＭに記憶されたプログラムを、ＣＰＵが実行することにより、図１１に示す形態素解析処理ルーチンが実行される。

まず、ステップＳ１００において、形態素解析対象となる入力文を受け付ける。

次に、ステップＳ１０１において、正規表現規則記憶部２２２に記憶されている複数の変換規則を読み込む。

次に、ステップＳ１０２において、ステップＳ１０１において取得した複数の変換規則の各々を適用順序に従って適用し、当該変換規則の正規表現と一致する入力文の部分における少なくとも１つの文字又は記号の表記を、当該変換規則に基づいて変換する。

次に、ステップＳ１０４において、ステップＳ１００において取得した入力文と、ステップＳ１０２において取得した表記の変換後の文とに基づいて、表記の変換前と変換後の文字位置の対応データを取得する。

次に、ステップＳ１０６において、ステップＳ１０２において取得した表記の変換後の文について形態素解析を行う。

次に、ステップＳ１０８において、ステップＳ１０４において取得した表記の変換前と表記の変換後の文字位置の対応データに基づいて、ステップＳ１０６による形態素解析結果における各単語の表記を、変換前の出現表記に復元する。

次に、ステップＳ１１０において、ステップＳ１０６において得られた形態素解析結果を、ステップＳ１０８において取得した各単語の出現表記（復元表記）と合わせて出力部３０より出力して、処理を終了する。

以上、説明したように、本発明の実施の形態に係る形態素解析装置によれば、表記を変換する対象となる少なくとも１つの文字又は記号のパターンを表す正規表現に対して、文字又は記号の削除、挿入、又は置換を行うことにより文字又は記号の表記を変換する変換規則を用いて、正規表現と一致する部分における文字又は記号の表記を、変換規則に基づいて変換し、文字又は記号の表記を変換した文について形態素解析を行うことにより、表記ゆれを含む文であっても、高精度に形態素解析を行うことができる。

また、本実施の形態では、予め入力文に含まれる表記ゆれを変換することで、正しく形態素解析できるようになる。変換には、正規表現に基づく規則を準備しておき、その規則の順番も考慮することで効果的に表記ゆれを吸収することが出来る。

また、表記の変換前後の文字位置対応をとり、変換前の表記と変換後の表記が文字位置で対応できるようにしておき、最終的には、表記の変換前後の文字位置対応データと、表記の変換後の形態素解析結果を利用して、もともとの入力でどのような表記だったのかを復元した状態での形態素解析結果が得られる。その結果には、もともとの出現表記、形態素解析時の変換後の表記、辞書情報が含まれており、例えば、「すっっっごく／すっごく／形容詞」、「きれぃ／きれい／形容詞」のように、もともと「すっっっごく」である文字列が辞書表記としては「すっごく」であり、品詞は「形容詞」という情報が得られる。形態素解析情報をどういう目的で利用するかに応じて、もともとの出現表記と品詞情報を組み合わせたり、変換後の表記と品詞情報を組み合わせたり、全てを組み合わせたり、と適切に結果を活用することが出来る。

また、もともとの表記を利用することで、あたかもその表記が辞書に登録されているのと同じような効果が得られる。また、変換後の表記を利用することで、表記ゆれを辞書の表記に正規化するのと同じ効果が得られる。つまり、すっごく、すっっごく、すっっっごく、も一様に、すっごく、となるため、複数の表記ゆれバリエーションを一つの表記に正規化しているのと同じ効果をもつ。これは、正しく解析できる効果に加えて、表記の纏め上げとしても効果が高い。

また、表記ゆれに由来する解析誤りが発生するような入力であっても、あらかじめ入力文を変換し、後処理で表記を復元することにより、正しく形態素解析を実行することができ、且つ、あたかも辞書に登録してあるかのような効果が得られる。これにより、検索、キーワード検出、情報抽出、意味理解など、さまざまな言語処理において必要となる単語認定、単語抽出が、従来技術よりも頑健に行うことができる。

なお、本発明は、上記の実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

上記の実施の形態では、変換規則の適用順序を、効果的に変換することを考慮して設定しているが、これに限定されるものではなく、任意の適用順序により複数の変換規則を適用するようにしてもよい。

また、上述の形態素解析装置１００は内部にコンピュータシステムを有しているが、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）を含むものとする。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。また、本実施の形態の形態素解析装置１００の各部をハードウエアにより構成してもよい。また、変換規則が記憶されるデータベースとしては、ハードディスク装置やファイルサーバ等に例示される記憶手段によって実現可能であり、形態素解析装置１００内部にデータベースを設けてもよいし、外部装置に設けてもよい。

１０入力部
２０演算部
２２前処理部
２４形態素解析部
２６復元処理部
３０出力部
１００形態素解析装置
２２０入力文変換部
２２２正規表現規則記憶部
２２４文字位置対応部

Claims

連続する長音、又は促音に対して、前記長音、又は促音を１つ残して全て削除する変換規則、及び表記を変換する対象となる少なくとも１つの文字又は記号のパターンを表す正規表現に対して、文字又は記号の削除、挿入、又は置換を行うことにより前記少なくとも１つの文字又は記号の表記を変換する変換規則を記憶する記憶手段と、
前記長音、又は促音を１つ残して全て削除する変換規則に基づいて、入力文の連続する長音、又は促音に対して、前記長音、又は促音を１つ残して全て削除した後に、前記少なくとも１つの文字又は記号の表記を変換する変換規則の正規表現と一致する入力文の部分における少なくとも１つの文字又は記号の表記を、前記変換規則に基づいて変換する変換手段と、
前記変換手段により文字又は記号の表記を変換した前記入力文について形態素解析を行う形態素解析手段と、
を含む形態素解析装置。
前記入力文と、前記変換手段により文字又は記号の表記を変換した前記入力文とに基づいて、前記入力文に含まれる文字又は記号の表記の各々と、前記変換した入力文に含まれる文字又は記号の表記の各々との対応付けを取得する文字位置対応手段と、
前記文字位置対応手段により取得した前記入力文と前記変換した入力文との対応付けに基づいて、前記形態素解析手段により取得した前記変換した入力文の形態素解析結果において、前記変換手段による変換前の文字又は記号の表記を復元する復元処理手段と、を更に含む請求項１記載の形態素解析装置。
連続する長音、又は促音に対して、前記長音、又は促音を１つ残して全て削除する変換規則、及び表記を変換する対象となる少なくとも１つの文字又は記号のパターンを表す正規表現に対して、文字又は記号の削除、挿入、又は置換を行うことにより前記少なくとも１つの文字又は記号の表記を変換する変換規則を記憶する記憶手段と、変換手段と、形態素解析手段とを含む、形態素解析装置における形態素解析方法であって、
前記変換手段により、前記長音、又は促音を１つ残して全て削除する変換規則に基づいて、入力文の連続する長音、又は促音に対して、前記長音、又は促音を１つ残して全て削除した後に、前記少なくとも１つの文字又は記号の表記を変換する変換規則の正規表現と一致する入力文の部分における少なくとも１つの文字又は記号の表記を、前記変換規則に基づいて変換し、
前記形態素解析手段により、前記変換手段により文字又は記号の表記を変換した前記入力文について形態素解析を行う
形態素解析方法。
連続する長音、又は促音に対して、前記長音、又は促音を１つ残して全て削除する変換規則、及び表記を変換する対象となる少なくとも１つの文字又は記号のパターンを表す正規表現に対して、文字又は記号の削除、挿入、又は置換を行うことにより前記少なくとも１つの文字又は記号の表記を変換する変換規則を記憶する記憶手段を有するコンピュータを、請求項１又は請求項２記載の形態素解析装置の各手段として機能させるためのプログラム。