JP5795302B2 - 形態素解析装置、方法、及びプログラム - Google Patents

形態素解析装置、方法、及びプログラム Download PDF

Info

Publication number
JP5795302B2
JP5795302B2 JP2012267425A JP2012267425A JP5795302B2 JP 5795302 B2 JP5795302 B2 JP 5795302B2 JP 2012267425 A JP2012267425 A JP 2012267425A JP 2012267425 A JP2012267425 A JP 2012267425A JP 5795302 B2 JP5795302 B2 JP 5795302B2
Authority
JP
Japan
Prior art keywords
notation
character
conversion
symbol
input sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012267425A
Other languages
English (en)
Other versions
JP2014115718A (ja
Inventor
齋藤 邦子
邦子 齋藤
朋子 泉
朋子 泉
松尾 義博
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012267425A priority Critical patent/JP5795302B2/ja
Publication of JP2014115718A publication Critical patent/JP2014115718A/ja
Application granted granted Critical
Publication of JP5795302B2 publication Critical patent/JP5795302B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、形態素解析装置、方法、プログラムに係り、特に、入力文について形態素解析を行う形態素解析装置、方法、プログラムに関する。
日本語で記載された文は、英語のように単語の境界が自明ではないため、まず入力文から単語を認識し、その単語の品詞が何であるかを判定する形態素解析処理が基本的かつ重要な言語解析技術の一つであるといえる。
形態素解析では単語辞書を予め準備しておき、入力文に含まれる単語を辞書検索して全て列挙し、最終的にもっとも日本語として尤もらしい単語列を出力する仕組みとなっている。
日本語としての尤もらしさを測る指標としては、単語列の出現確率を統計的に確率モデルで評価するものや、予め単語の連接規則を人手で設定しておくものなど、幾つかの手法が提案されており、それぞれに成果を挙げている。標準的な形態素解析技術として、ChaSen、MeCab、JTAGなどがある(非特許文献1)。これらの形態素解析技術は、整った日本語を想定して辞書が整備されており、新聞などの正しい日本語に対しては高精度に解析できる。
また、誤字脱字や表記ゆれなど、単語辞書にはない表記であっても正しく解析することを目的とした技術が提案されている(特許文献1)。これは、近似辞書照合を形態素解析と組み合わせることにより、辞書との完全一致だけではなく、挿入・削除・置換を考慮した単語の照合が可能となるため、辞書登録後から多少外れた表現であっても辞書照合でき、結果、正しい解析結果を得られる効果がある。
特開2011−65384号公報
Takeshi Fuchi, Shinichiro Takagi:Japanese morphological analyzer using word co-occurrence:JTAG,Proc of the 36th ACL and 17th COLING, pp.409-413 (1998).
かしながら、日本人が記載する口語調のくだけた文章、例えば、掲示板やブログ、ツイッター(登録商標)などでよくみられる文章では、略語や造語、母音、促音、長音を多用した口語的表現(すっごーい等)が頻出し、単語辞書に収録されている表記とはずれた表現が文章中に多く存在するために、非特許文献1の手法においては、結果として多くが未知語となって解析誤りの原因となるという問題がある。
また、未知語の全てについて単語辞書を整備するという手法を選択することは、幅広いバリエーションを有する表記ゆれすべてに対応するということになり、コストが高いという問題がある。
また、特許文献1の手法においては、1文字だけ異なる単語が機械的にすべて単語候補として列挙されるため、単語候補数が膨大になり最終的に1組の最尤単語列となる組み合わせを求めるための探索コストがかかるという問題がある。
本発明では、上記問題点を解決するために成されたものであり、表記ゆれを含む文であっても、高精度に形態素解析を行う形態素解析装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明の形態素解析装置は、連続する長音、又は促音対して、前記長音、又は音を1つ残して全て削除する変換規則、及び表記を変換する対象となる少なくとも1つの文字又は記号のパターンを表す正規表現に対して、文字又は記号の削除、挿入、又は置換を行うことにより前記少なくとも1つの文字又は記号の表記を変換する変換規則を記憶する記憶手段と、前記長音、又は音を1つ残して全て削除する変換規則に基づいて、入力文の連続する長音、又は音に対して、前記長音、又は音を1つ残して全て削除した後に、前記少なくとも1つの文字又は記号の表記を変換する変換規則の正規表現と一致する入力文の部分における少なくとも1つの文字又は記号の表記を、前記変換規則に基づいて変換する変換手段と、前記変換手段により文字又は記号の表記を変換した前記入力文について形態素解析を行う形態素解析手段と、を含んで構成されている。
本発明の形態素解析方法は、連続する長音、又は促音対して、前記長音、又は音を1つ残して全て削除する変換規則、及び表記を変換する対象となる少なくとも1つの文字又は記号のパターンを表す正規表現に対して、文字又は記号の削除、挿入、又は置換を行うことにより前記少なくとも1つの文字又は記号の表記を変換する変換規則を記憶する記憶手段と、変換手段と、形態素解析手段とを含む、形態素解析装置における形態素解析方法であって、前記変換手段により、前記長音、又は音を1つ残して全て削除する変換規則に基づいて、入力文の連続する長音、又は音に対して、前記長音、又は音を1つ残して全て削除した後に、前記少なくとも1つの文字又は記号の表記を変換する変換規則の正規表現と一致する入力文の部分における少なくとも1つの文字又は記号の表記を、前記変換規則に基づいて変換し、前記形態素解析手段により、前記変換手段により文字又は記号の表記を変換した前記入力文について形態素解析を行う。
本発明によれば、入力された文について、複数の変換規則の各々について、入力文の正規表現と一致する部分における少なくとも1つの文字又は記号の表記を、変換規則に基づいて変換する。
そして、少なくとも1つの文字又は記号の表記を変換した文について形態素解析を行う。
このように、表記を変換する対象となる少なくとも1つの文字又は記号のパターンを表す正規表現に対して、文字又は記号の削除、挿入、又は置換を行うことにより文字又は記号の表記を変換する変換規則を用いて、正規表現と一致する部分における文字又は記号の表記を、変換規則に基づいて変換し、文字又は記号の表記を変換した文について形態素解析を行うことにより、表記ゆれを含む文であっても、高精度に形態素解析を行うことができる。
また、本発明のプログラムは、連続する長音、又は促音に対して、前記長音、又は促音を1つ残して全て削除する変換規則、及び表記を変換する対象となる少なくとも1つの文字又は記号のパターンを表す正規表現に対して、文字又は記号の削除、挿入、又は置換を行うことにより前記少なくとも1つの文字又は記号の表記を変換する変換規則を記憶する記憶手段を有するコンピュータを、本発明の形態素解析装置の各手段として機能させるためのプログラムである。
以上説明したように、本発明の形態素解析装置、方法、及びプログラムによれば、表記を変換する対象となる少なくとも1つの文字又は記号のパターンを表す正規表現に対して、文字又は記号の削除、挿入、又は置換を行うことにより文字又は記号の表記を変換する変換規則を用いて、正規表現と一致する部分における文字又は記号の表記を、変換規則に基づいて変換し、文字又は記号の表記を変換した文について形態素解析を行うことにより、表記ゆれを含む文であっても、高精度に形態素解析を行うことができる。
本発明の実施の形態の形態素解析装置の機能的構成を示すブロック図である。 入力文の例を示す図である。 本発明の実施の形態の形態素解析装置における前処理部の機能的構成を示すブロック図である。 変換規則をperlで記載した場合の正規表現記述例を示す図である。 diffの結果を示す図である。 diffの結果を示す図である。 表記を変換した後の入力文の例を示す図である。 形態素解析結果の例を示す図である。 表記の変換前後文字位置対応データの例を示す図である。 出力結果の例を示す図である。 本発明の実施の形態の形態素解析装置における形態素解析処理ルーチンの内容を示すフローチャートである。
以下、発明の原理について詳細に説明する。
<発明の原理>
近年、メール、ブログ、ツイッター(登録商標)など、一般の人が自由な文体で記述するテキストメディアが急速に発達してきている。このようなメディアは、新聞などのプロの記者が一定の基準で書く整った文章と比べると、文体は話言葉に近く、また感情表現の意味も込めて「すっっっごい」「すご〜〜〜〜い」のように促音や長音を多用したり、「ぉはよぅ」「かわぃぃ」のように小書き文字を敢えて使用したりする事例が頻出する。
また、「保活」「ふぁぼる」など時代の流れと共に発生する新しい語が次々と登場したり、通常は「エヌティーティー(登録商標)」や「NTT(登録商標)」とカタカナやアルファベットで書かれる語を「えぬてぃーてぃー」と文字種を変えて書くこともよくある。
いずれにしても、単語辞書に無い文字列が入力文に存在すると、その部分は未知語となるため正しい単語候補が得られず、結果として誤った解析結果となる。例えば、「ぉはようと言った」という入力文の場合、本来は「ぉはよう/と/言った」という結果になることが期待されるが、「ぉはよう」の単語候補が辞書に存在しない場合、部分的に別の単語と認定されて「ぉ/はよう/と/言った」となり、「はよう」が誤って単語となることもある。
このように単語が本来想定される表記通りに記述されない文を対象として形態素解析処理を実行する場合、あらゆる表記ゆれを全て辞書に登録していくのはコストがかかり、非効率である。そのため多くの表記ゆれは辞書未登録のままで処理されることとなり、解析誤りの原因となるという課題があった。
一方、多様なバリエーションで表記ゆれが出現する文に対して、従来の形態素解析で行われていたような辞書登録を進めるという解決策のほか、特許文献1のようなアプローチで辞書未登録語でも解析する手法も考えられる。
しかし、特許文献1にあるような辞書未登録語対策の場合、機械的にあらゆる1文字違いの候補を列挙するため、候補数が爆発することが課題となる。
ここで、現実に文を眺めてみると、長音・促音・小書き文字といった特定の文字に着目し、且つ、それらを一定の基準で整形することで本来の辞書登録後に直ることが分かる。
例えば、「すっっっごい」「すご〜〜〜〜い」などは連続する促音や長音を事前に1つにまとめ、小書き文字は大文字に変換する等のいくつかの着替え規則を事前に設計し、入力文を変換してから解析させることができれば、近似辞書照合に基づく解決法のように単語候補を爆発させることなく、元々の単語辞書にある候補を検索することが可能となる。
本発明は、本来の単語から外れている表記ゆれであり、通常の形態素解析では未知語となるものであっても、正しく形態素解析する技術であり、以下(1)から(4)の構成で実現する。
(1)入力文に対して予め準備した規則により表記を変換(挿入・置換・削除)する。
(2)変換前と変換後の入力文に対して変化が発生した文字位置の対応をとる。
(3)変換後の入力文に対して通常の形態素解析を実行する。
(4)変換後の形態素解析結果((3)の出力)に対して、変換前後の文字位置対応情報((2)の出力)から、表記を変換前のものに復元する。
ここで、上記(3)の形態素解析は既存の形態素解析技術を用いる任意の形態素解析技術を導入でき、その前後に上記(1)、(2)、(4)の処理を追加することで、簡単に表記ゆれに頑健な形態素解析技術が構成できる。
この手段では、あらかじめ入力文の表記を変換しておくことで辞書照合ができるようにしておくことを狙っており、変換規則の設計により、効率よく候補を列挙することが実現できる。また、上記(2)、(4)の処理を組み合わせることにより、元の表記に戻すため、利用者から見ればあたかも表記ゆれ単語を単語辞書に事前に収録しておいたかのような正しい解析結果を得ることができる。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<形態素解析装置の構成>
本発明の実施の形態に係る形態素解析装置について説明する。図1に示すように、本発明の実施の形態に係る形態素解析装置100は、入力部10と、後述する形態素解析処理ルーチンを実行する演算部20と、出力部30と、を備えている。
入力部10は、キーボードなどの入力装置から、図2に示すような表記ゆれを含む文を受け付ける。なお、入力部10は、ネットワーク等を介して外部から入力されたものを受け付けるようにしてもよい。
演算部20は、CPU(Central Processing Unit)と、RAM(Random Access Memory)と、後述する形態素解析処理ルーチンを実行するためのプログラムを記憶したROM(Read Only Memory)とを備えたコンピュータで構成されている。このコンピュータは、機能的には、図1に示すように、前処理部22と、形態素解析部24と、復元処理部26とを含んだ構成で表すことができる。
前処理部22は、入力部10において受け付けた表記ゆれを含む文を、形態素解析処理において辞書照合しやすくするために、表記ゆれを含まない文に変換する。本実施の形態では、前処理部22において、入力文変換処理と、変換前後文字位置対応処理との2つが行われる。また、前処理部22は、図3に示す通り、入力文変換部220、正規表現規則記憶部222、及び文字位置対応部224により構成される。
図3の入力文変換部220は、入力文変換処理を行い、入力部10において受け付けた表記ゆれを含む文を、表記ゆれを含まない文に変換し、形態素解析部24及び文字位置対応部224に出力する。この処理は、入力文の表記を変換するものであり、表記の変換のために、正規表現規則記憶部222に記憶されている後述する複数の変換規則を参照し、予め定めた順番通りに複数の変更規則を入力文に対して適用し処理を実行する。
正規表現規則記憶部222には、図4に示すような、表記ゆれを含む文の表記を変換するための変換規則であって、表記を変換する対象となる少なくとも1つの文字又は記号のパターンを表す正規表現に対して、文字又は記号の削除、挿入、又は置換を行うことにより文字又は記号の表記を変換する変換規則が複数記憶されている。なお、変換規則の設計では、あらかじめ大量の入力対象となる文から、文字又は記号の連接出現情報を集めておき、どのような出現が多いのか、現象を把握した上で、処理対象としたい入力文の表記揺らぎをある程度検討・想定し、変換のための規則を設計しておく。
ここで、変換規則とは、例えば、長音記号「〜」や促音記号「っ」の連続表現は1つを残して全て削除する、小書き文字「ぁ」「ぃ」「ぅ」「ぇ」「ぉ」は大きな文字に変換する、といった変換を、正規表現を用いて記述しているものである。
変換規則では、変換したい文字又は記号単独で規則を記述することも可能であるが、前後に連接する文字又は記号の状況を細かく指定することも可能である。例えば、図4に示すように、おやすみなさい、の「さい」の部分は、さい、さぁぃ、さ〜い、さぁーぃ、さあ〜ぃ等、多様に表現がゆれる。これらを複数まとめ、「さ」+(「ぁ」又は「あ」又は「〜」又は「ー」又は「ぁ〜」又は「あ〜」又は「ぁー」又は「あー」)+(「ぃ」又は「い」)の表現は全て「さい」に変換するようなルールが表現可能である。
同様に、図4に示すように、「なあい」「なーい」等を「ない」、「たぁい」、「た〜い」等を「たい」、「でぇす」、「でーす」等を「です」、「まーす」等を「ます」といった形で一律に変換処理を実行することができる。
また、複数の変換規則の適用順序は、入力文を効果的に変換することを考慮して、設定される。例えば、連続した長音記号「ー」「〜」を長音記号ひとつだけを残して全て削除する変換規則を最初に適用するように設定し、そのあとで上記「さい」に関する変換規則を適用するように適用順序を設定する。この場合、「さ〜〜〜い」、「さぁ〜〜い」、「さあーーい」など長音が重複するような表記ゆれであっても、まず最初の変換規則で「さ〜い」、「さぁ〜い」、「さあーい」と変換されたうえで、さらに「さい」へ変換する変換規則が照合されるため、これらも期待通りに変換処理が可能となる。
このように、入力文変換部220は、正規表現規則記憶部222に記憶されている複数の変換規則の各々を適用順序に従って適用し、当該変換規則の正規表現と一致する入力部10において受け付けた入力文の部分における少なくとも1つの文字又は記号の表記を、当該変換規則に基づいて変換する。
文字位置対応部224は、入力部10において受け付けた表記ゆれを含む文と、入力文変換部220から入力された表記を変換された文とに基づいて、表記の変換前と変換後の文字位置の対応データをとり、復元処理部26へ出力する。
例えば、入力部10において受け付けた文が「ぉはよぅ」であり、入力文変換部220において変換された文が「おはよう」である場合、「ぉ」→「お」、「は」→「は」、「よ」→「よ」、「ぅ」→「う」であることを認識するものである。
また、例えば入力部10において受け付けた文が「おやすみなさぁ〜〜ぃ」であり、入力文変換部220において変換された文が「おやすみなさい」の場合は、「おやすみな」まではそれぞれ「おやすみな」と1文字ずつ対応し、「さ」は「さぁ〜〜」、「ぃ」は「い」であると対応づけられる。この場合、削除された文字又は記号については、その直前の文字又は記号とまとめて対応づける。例えば、「ぁ〜〜」は削除された文字又は記号に相当するが、これらは直前の「さ」に含めて対応づけるものとする。
表記の変換前と変換後の文字位置の対応データは文字位置で管理され、「変換前文字位置:変換後文字位置」で表現することとし、文字位置は変換前後ともに、最初の文字を1として数える。多くの場合は、1:1の対応であるが、n:m(n、mともに1以上の整数)の対応もあり得る。複数の文字で対応する場合は、「,」で該当文字位置をつなげて表現する。
例えば、「ぉはよぅ」→「おはよう」の場合は、順次、1:1、2:2、3:3、4:4のように対応し、「おやすみなさぁ〜〜ぃ」→「おやすみなさい」の場合には、1:1、2:2、3:3、4:4、5:5、6,7,8,9:6、10:7のように対応する。
実際に表記の変換前と変換後の文字位置の対応データを得るために、二つのデータの差分をとる既存の技術を利用する。本実施の形態においては、Linux(登録商標)のdiffコマンドを実行して差分をとる。例えば、「ぉはよぅ」、「おはよう」をそれぞれ1行1文字となるように各文字の直後に改行をして2つの別のファイルに保存した上で、diffコマンドを実行して差分をとると、図5のような情報が得られる。これは1文字目、4文字目にそれぞれ差があることを意味している。この場合、表記が異なっているだけであり、文字位置としては同じであると解釈できる。
一方、「おやすみなさぁ〜〜い」と「おやすみなさい」の場合には、図6のような表記の変換前と変換後の文字位置の対応データが得られる。これは、変換前の7〜9文字目が変換後の6文字目の直後では削除されていることを意味している。
このようにdiffの情報を活用することにより、どの位置からどの位置に差が発生しているのかがわかるため、これをもとにして表記の変換前と変換後の文字位置の対応データをとる。
図1の形態素解析部24は、前処理部22から入力された表記を変換した文について形態素解析処理を実行し、形態素解析結果を復元処理部26に出力する。本実施例では、形態素解析処理は市販の任意の形態素技術を利用する。なお、以下一例として、入力部において図2に示すような「ぉはよぅと言った」、「すっっっごくきれぃ」の文を受け付けた場合について説明する。
ここで、形態素解析処理とは、入力文である文字列を単語に分割し、品詞などの辞書情報を付与するものである。入力文を長さm字の文字列S=c1c2…cmとすると、この入力文をn個の表記列(部分文字列)F=f1f2…fnに分割し、各表記列に付与される品詞が品詞列T=t1t2…tnであった時、形態素解析は、表記列と品詞列の同時確率P(F,T)を最大化するような単語分割および品詞付与を実行する。すなわち、下記(1)式をみたすような(F,T)の組を求める問題となる。
Figure 0005795302

その際、別途参照する単語辞書を利用して、入力文中に存在するあらゆる単語候補を検出し、その前後の連接として適切かつ最尤な単語列を最終出力とする。単語辞書には、単語を構成する表記と、その表記に対応する辞書情報が収録されている。辞書情報の代表的なものは品詞であり、例えば「NTT(登録商標)」という表記には「名詞」という品詞が収録される。
同じ表記でも複数の品詞が収録されることはよくあり、例えば、「市」には「名詞接尾辞」と「名詞」が収録される場合である。これらは、「市/名詞接尾辞」「市/名詞」の2つの異なる単語として認識される。「横須賀市」という入力文を形態素解析すると「市/名詞接尾辞」と解析され、「市で買った」という入力文では「市/名詞」と解析される。
このように単語の多義を解消して1つの最適な単語列を出力するのが形態素解析処理であり、形態素解析では、表記と品詞の組み合わせ「表記/品詞」を単語と呼ぶ。
形態素解析部24は、入力部10において「ぉはよぅと言った」、「すっっっごくきれぃ」の文を受け付けた場合、前処理部22において表記を変換された文は図7に示すように、小書き文字や促音に由来する表記ゆれが吸収され、辞書照合ができるようになっているため、当該文について形態素解析処理を実行することにより、図8に示すような正しい形態素解析結果を得ることができる。具体的には、従来の形態素解析では、「ぉはよぅ」や「すっっっごく」は、単語辞書に登録しない限り正しく解析されないが、ここでは、あらかじめ表記を変換して「おはよう」、「すっごく」となっており、辞書照合が可能となって図8に示すように正しく解析される。
なお、「すっごく」は「すごく」から派生する表記ゆれの1種である。本来、単語辞書には基本語彙として「すごく」のみの収録が想定されるが、基本的な表記ゆれとして促音が1つだけ挿入された「すっごく」も単語辞書に登録しておくことはごく現実的な対策である。これを登録しておくと、本実施の形態により、任意の数の促音が挿入される「すっっっごく」に対しても正しく辞書照合可能となる。
復元処理部26は、図9に示すような前処理部22から入力される表記の変換前後文字位置対応データと、図6に示すような形態素解析部24から入力される表記変換後の文の形態素解析結果とを入力とし、形態素解析結果での各単語の表記、すなわち、変換後の各単語の表記が、元の入力ではどのような表記であったのかを復元する。
表記の変換前後文字位置対応データでは、変換前後の表記の文字位置を対応付けてあるため、その文字位置情報を利用し、形態素解析結果の各単語の表記が何文字目から何文字目のものであるかを取得した後、表記の変換前後文字位置対応データより、各単語の表記の変換前の入力での文字位置範囲に換算する。その上で、形態素解析結果の各単語について、表記の変換前の入力文から、当該文字位置範囲を利用して変換前の表記を切り出す。
例えば、単語「おはよう/独立詞」は表記の変換後の文の入力の1〜4文字までであり、表記の変換前後文字位置対応データでは、表記の変換後1文字目は表記の変換前1文字目、表記の変換後4文字目は表記の変換前4文字目であるため、表記の変換前も1〜4文字目であると判断する。
そのため、この単語の復元表記はもとの入力の1〜4文字目であり「ぉはよぅ」となり、復元表記も含めた最終的な出力では図10に示すように「ぉはよぅ/おはよう/独立詞」となる。
また、単語「すっごく/形容詞」は表記の変換後入力の1〜4文字までであり、表記の変換前後文字位置対応データでは、表記の変換後1文字目は表記の変換前1文字目、表記の変換後4文字目は表記の変換前6文字目であるため、表記の変換前は1〜6文字目であると判断する。
そのため、この単語の復元表記はもとの入力の1〜6文字目であり「すっっっごく」となり、最終的な出力として、図10に示すように、元々の入力文での出現表記(復元表記)、及び形態素解析時に辞書照合した変換後の表記(辞書見出し表記)も含めた出力「すっっっごく/すっごく/形容詞」を出力する。
<形態素解析装置の作用>
次に、本発明の実施の形態に係る形態素解析装置100の作用について説明する。まず、入力部10により、形態素解析対象の文が入力されると、形態素解析装置100のROMに記憶されたプログラムを、CPUが実行することにより、図11に示す形態素解析処理ルーチンが実行される。
まず、ステップS100において、形態素解析対象となる入力文を受け付ける。
次に、ステップS101において、正規表現規則記憶部222に記憶されている複数の変換規則を読み込む。
次に、ステップS102において、ステップS101において取得した複数の変換規則の各々を適用順序に従って適用し、当該変換規則の正規表現と一致する入力文の部分における少なくとも1つの文字又は記号の表記を、当該変換規則に基づいて変換する。
次に、ステップS104において、ステップS100において取得した入力文と、ステップS102において取得した表記の変換後の文とに基づいて、表記の変換前と変換後の文字位置の対応データを取得する。
次に、ステップS106において、ステップS102において取得した表記の変換後の文について形態素解析を行う。
次に、ステップS108において、ステップS104において取得した表記の変換前と表記の変換後の文字位置の対応データに基づいて、ステップS106による形態素解析結果における各単語の表記を、変換前の出現表記に復元する。
次に、ステップS110において、ステップS106において得られた形態素解析結果を、ステップS108において取得した各単語の出現表記(復元表記)と合わせて出力部30より出力して、処理を終了する。
以上、説明したように、本発明の実施の形態に係る形態素解析装置によれば、表記を変換する対象となる少なくとも1つの文字又は記号のパターンを表す正規表現に対して、文字又は記号の削除、挿入、又は置換を行うことにより文字又は記号の表記を変換する変換規則を用いて、正規表現と一致する部分における文字又は記号の表記を、変換規則に基づいて変換し、文字又は記号の表記を変換した文について形態素解析を行うことにより、表記ゆれを含む文であっても、高精度に形態素解析を行うことができる。
また、本実施の形態では、予め入力文に含まれる表記ゆれを変換することで、正しく形態素解析できるようになる。変換には、正規表現に基づく規則を準備しておき、その規則の順番も考慮することで効果的に表記ゆれを吸収することが出来る。
また、表記の変換前後の文字位置対応をとり、変換前の表記と変換後の表記が文字位置で対応できるようにしておき、最終的には、表記の変換前後の文字位置対応データと、表記の変換後の形態素解析結果を利用して、もともとの入力でどのような表記だったのかを復元した状態での形態素解析結果が得られる。その結果には、もともとの出現表記、形態素解析時の変換後の表記、辞書情報が含まれており、例えば、「すっっっごく/すっごく/形容詞」、「きれぃ/きれい/形容詞」のように、もともと「すっっっごく」である文字列が辞書表記としては「すっごく」であり、品詞は「形容詞」という情報が得られる。形態素解析情報をどういう目的で利用するかに応じて、もともとの出現表記と品詞情報を組み合わせたり、変換後の表記と品詞情報を組み合わせたり、全てを組み合わせたり、と適切に結果を活用することが出来る。
また、もともとの表記を利用することで、あたかもその表記が辞書に登録されているのと同じような効果が得られる。また、変換後の表記を利用することで、表記ゆれを辞書の表記に正規化するのと同じ効果が得られる。つまり、すっごく、すっっごく、すっっっごく、も一様に、すっごく、となるため、複数の表記ゆれバリエーションを一つの表記に正規化しているのと同じ効果をもつ。これは、正しく解析できる効果に加えて、表記の纏め上げとしても効果が高い。
また、表記ゆれに由来する解析誤りが発生するような入力であっても、あらかじめ入力文を変換し、後処理で表記を復元することにより、正しく形態素解析を実行することができ、且つ、あたかも辞書に登録してあるかのような効果が得られる。これにより、検索、キーワード検出、情報抽出、意味理解など、さまざまな言語処理において必要となる単語認定、単語抽出が、従来技術よりも頑健に行うことができる。
なお、本発明は、上記の実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
上記の実施の形態では、変換規則の適用順序を、効果的に変換することを考慮して設定しているが、これに限定されるものではなく、任意の適用順序により複数の変換規則を適用するようにしてもよい。
また、上述の形態素解析装置100は内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)を含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。また、本実施の形態の形態素解析装置100の各部をハードウエアにより構成してもよい。また、変換規則が記憶されるデータベースとしては、ハードディスク装置やファイルサーバ等に例示される記憶手段によって実現可能であり、形態素解析装置100内部にデータベースを設けてもよいし、外部装置に設けてもよい。
10 入力部
20 演算部
22 前処理部
24 形態素解析部
26 復元処理部
30 出力部
100 形態素解析装置
220 入力文変換部
222 正規表現規則記憶部
224 文字位置対応部

Claims (4)

  1. 連続する長音、又は促音対して、前記長音、又は音を1つ残して全て削除する変換規則、及び表記を変換する対象となる少なくとも1つの文字又は記号のパターンを表す正規表現に対して、文字又は記号の削除、挿入、又は置換を行うことにより前記少なくとも1つの文字又は記号の表記を変換する変換規則を記憶する記憶手段と、
    前記長音、又は音を1つ残して全て削除する変換規則に基づいて、入力文の連続する長音、又は音に対して、前記長音、又は音を1つ残して全て削除した後に、前記少なくとも1つの文字又は記号の表記を変換する変換規則の正規表現と一致する入力文の部分における少なくとも1つの文字又は記号の表記を、前記変換規則に基づいて変換する変換手段と、
    前記変換手段により文字又は記号の表記を変換した前記入力文について形態素解析を行う形態素解析手段と、
    を含む形態素解析装置。
  2. 前記入力文と、前記変換手段により文字又は記号の表記を変換した前記入力文とに基づいて、前記入力文に含まれる文字又は記号の表記の各々と、前記変換した入力文に含まれる文字又は記号の表記の各々との対応付けを取得する文字位置対応手段と、
    前記文字位置対応手段により取得した前記入力文と前記変換した入力文との対応付けに基づいて、前記形態素解析手段により取得した前記変換した入力文の形態素解析結果において、前記変換手段による変換前の文字又は記号の表記を復元する復元処理手段と、を更に含む請求項1記載の形態素解析装置。
  3. 連続する長音、又は促音対して、前記長音、又は音を1つ残して全て削除する変換規則、及び表記を変換する対象となる少なくとも1つの文字又は記号のパターンを表す正規表現に対して、文字又は記号の削除、挿入、又は置換を行うことにより前記少なくとも1つの文字又は記号の表記を変換する変換規則を記憶する記憶手段と、変換手段と、形態素解析手段とを含む、形態素解析装置における形態素解析方法であって、
    前記変換手段により、前記長音、又は音を1つ残して全て削除する変換規則に基づいて、入力文の連続する長音、又は音に対して、前記長音、又は音を1つ残して全て削除した後に、前記少なくとも1つの文字又は記号の表記を変換する変換規則の正規表現と一致する入力文の部分における少なくとも1つの文字又は記号の表記を、前記変換規則に基づいて変換し、
    前記形態素解析手段により、前記変換手段により文字又は記号の表記を変換した前記入力文について形態素解析を行う
    形態素解析方法。
  4. 連続する長音、又は促音対して、前記長音、又は音を1つ残して全て削除する変換規則、及び表記を変換する対象となる少なくとも1つの文字又は記号のパターンを表す正規表現に対して、文字又は記号の削除、挿入、又は置換を行うことにより前記少なくとも1つの文字又は記号の表記を変換する変換規則を記憶する記憶手段を有するコンピュータを、請求項1又は請求項2記載の形態素解析装置の各手段として機能させるためのプログラム。
JP2012267425A 2012-12-06 2012-12-06 形態素解析装置、方法、及びプログラム Active JP5795302B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012267425A JP5795302B2 (ja) 2012-12-06 2012-12-06 形態素解析装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012267425A JP5795302B2 (ja) 2012-12-06 2012-12-06 形態素解析装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2014115718A JP2014115718A (ja) 2014-06-26
JP5795302B2 true JP5795302B2 (ja) 2015-10-14

Family

ID=51171678

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012267425A Active JP5795302B2 (ja) 2012-12-06 2012-12-06 形態素解析装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5795302B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7040227B2 (ja) * 2018-03-30 2022-03-23 富士通株式会社 情報処理プログラム、情報処理方法、および情報処理装置
KR102528401B1 (ko) * 2021-06-07 2023-05-03 삼육대학교산학협력단 대화형 형태소 분석을 제공하기 위한 시스템

Also Published As

Publication number Publication date
JP2014115718A (ja) 2014-06-26

Similar Documents

Publication Publication Date Title
JP5997217B2 (ja) 言語変換において複数の読み方の曖昧性を除去する方法
Nelken et al. Arabic diacritization using weighted finite-state transducers
Azmi et al. A survey of automatic Arabic diacritization techniques
Roark et al. Processing South Asian languages written in the Latin script: the Dakshina dataset
JP5599662B2 (ja) 統計的な方法を用いて漢字を自国語の発音列に変換するシステムおよび方法
Sawalha et al. SALMA: standard Arabic language morphological analysis
Ekbal et al. Maximum entropy based bengali part of speech tagging
Mosavi Miangah FarsiSpell: A spell-checking system for Persian using a large monolingual corpus
JP2002117027A (ja) 感情情報抽出方法および感情情報抽出プログラムの記録媒体
US10120843B2 (en) Generation of parsable data for deep parsing
Chennoufi et al. Impact of morphological analysis and a large training corpus on the performances of Arabic diacritization
JP5795302B2 (ja) 形態素解析装置、方法、及びプログラム
Yusof et al. Qur'anic words stemming
JP5979650B2 (ja) 用語を適切な粒度で分割する方法、並びに、用語を適切な粒度で分割するためのコンピュータ及びそのコンピュータ・プログラム
Elbarougy et al. A proposed natural language processing preprocessing procedures for enhancing arabic text summarization
KR20160086255A (ko) 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치 및 그 방법
Lee et al. Syllable-based Malay word stemmer
JP3952964B2 (ja) 読み情報決定方法及び装置及びプログラム
JP4088171B2 (ja) テキスト解析装置、方法、プログラム及びそのプログラムを記録した記録媒体
Kumar et al. Learning agglutinative morphology of Indian languages with linguistically motivated adaptor grammars
Baldwin et al. Restoring punctuation and casing in English text
JP2014215970A (ja) 誤り検出装置、方法、及びプログラム
AlGahtani et al. Joint Arabic segmentation and part-of-speech tagging
Mars Toward a robust spell checker for Arabic text
JP4941495B2 (ja) ユーザ辞書作成システム、方法、及び、プログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140902

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141030

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150310

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150420

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150714

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150812

R150 Certificate of patent or registration of utility model

Ref document number: 5795302

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150