JP2011186765A - 形態素解析装置及び形態素解析方法 - Google Patents

形態素解析装置及び形態素解析方法 Download PDF

Info

Publication number
JP2011186765A
JP2011186765A JP2010051112A JP2010051112A JP2011186765A JP 2011186765 A JP2011186765 A JP 2011186765A JP 2010051112 A JP2010051112 A JP 2010051112A JP 2010051112 A JP2010051112 A JP 2010051112A JP 2011186765 A JP2011186765 A JP 2011186765A
Authority
JP
Japan
Prior art keywords
analysis
candidate
reading
morpheme
notation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010051112A
Other languages
English (en)
Other versions
JP5258819B2 (ja
Inventor
Masato Yajima
真人 矢島
Noriko Yamanaka
紀子 山中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2010051112A priority Critical patent/JP5258819B2/ja
Publication of JP2011186765A publication Critical patent/JP2011186765A/ja
Application granted granted Critical
Publication of JP5258819B2 publication Critical patent/JP5258819B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】日本語テキストの形態素解析を精度良く行なうことが可能な、形態素解析装置及び形態素解析方法を提供する。
【解決手段】形態素解析部は、入力された日本語テキストの形態素解析を行ない複数の解析候補を作成する。格納部は、一の読みと、一の読みに対して複数の表記を持つ同音同義の形態素単位の単語の組とを対応付け、組の中で、代表となる表記の代表表記を設定した同音同義語テーブルを格納する。判定部は、形態素解析により、複数の解析候補の同一部分の文字列に、形態素候補が複数存在する場合には、同音同義語テーブルを検索し、形態素候補ごとに、文字列に含まれる単語の表記が代表表記であるか否かの判定を行なう。選択部は、判定の結果に基づいて、複数の候補の中から一の候補を選択する。
【選択図】図1

Description

本発明は、日本語の形態素解析装置及び形態素解析方法に関する。
日本語により入力されたテキストを形態素解析してテキストの読みを決定し、その結果を音声により出力する音声出力装置がある。このような、音声出力装置では、形態素解析により、複数の読みの候補を持つ単語が現れる場合がある。例えば、「市場」には、「いちば」もしくは「しじょう」という2つの読みの候補が現れる。
複数の読みの候補から一の候補を区別する方法として、特許文献1記載の形態素解析装置では、複数の読みの候補を持つ単語が含まれる文中に、各々の候補に対する共起単語が存在するか否かを判定する。共起単語とは、一の文書内で、ある単語と共に出現する可能性が高い単語をいう。例えば、「市場(いちば)」に対する共起単語として「魚」や「野菜」があり、「市場(しじょう)」に対する共起単語として「株」や「為替」等がある。該装置は、共起単語が存在する方の読みの候補を一の候補に決定し、音声として出力する。
特開平6−119144号公報
上述した形態素解析装置では、共起単語から一の候補を決定することができない場合がある。例えば、「過去に行った(いった)セミナー」と「過去に行った(おこなった)セミナー」という2つのテキストにおいて、「セミナー」という単語は、「行った(いった)」に対する共起単語でもあり、「行った(おこなった)」に対する共起単語でもある。
そのため、共起単語から一の候補を決定することができないテキストについては、形態素解析を精度良く行なうことができない。
本発明は、日本語テキストの形態素解析を精度良く行なうことが可能な、形態素解析装置及び形態素解析方法を提供することを目的とする。
上記課題を解決するために、本発明の一側面に係る形態素解析装置は、入力された日本語テキストの形態素解析を行ない複数の解析候補を作成する形態素解析部と、一の読みと、前記一の読みに対して複数の表記を持つ同音同義の形態素単位の単語の組とを対応付け、前記組の中で、代表となる表記の代表表記を設定した同音同義語テーブルを格納する格納部と、前記形態素解析により、複数の前記解析候補の同一部分の文字列に、形態素候補が複数存在する場合には、前記同音同義語テーブルを検索し、前記形態素候補ごとに前記文字列に含まれる単語の表記が前記代表表記であるか否かの判定を行なう判定部と、前記判定の結果に基づいて、複数の前記解析候補の中から一の前記解析候補を選択する選択部とを備え、前記形態素解析部は、各々の前記解析候補に優先度を表す評価点を付け、前記判定部は、前記判定の結果、前記単語の表記が前記代表表記か否かに応じて、前記形態素候補の文字列を含む前記解析候補の前記評価点を調整し、前記選択部は、前記評価点の最も高い前記解析候補を選択することを特徴とする。
本発明の他の側面に係る形態素解析方法は、入入力された日本語テキストの形態素解析を行ない複数の解析候補を作成し、一の読みと、前記一の読みに対して複数の表記を持つ同音同義の形態素単位の単語の組とを対応付け、前記組の中で、代表となる表記の代表表記を設定した同音同義語テーブルを格納し、前記形態素解析により、複数の前記解析候補の同一部分の文字列に、形態素候補が複数存在する場合には、前記同音同義語テーブルを検索し、前記形態素候補ごとに前記文字列に含まれる単語の表記が前記代表表記であるか否かの判定を行ない、前記判定の結果に基づいて、複数の前記解析候補の中から一の前記解析候補の選択を行ない、前記形態素解析では、各々の前記解析候補に優先度を表す評価点を付け、前記判定では、前記判定の結果、前記単語の表記が前記代表表記か否かに応じて、前記形態素候補の文字列を含む前記解析候補の前記評価点を調整し、前記選択では、前記評価点の最も高い前記解析候補を選択することを特徴とする。
本発明により、日本語テキストの形態素解析を精度良く行なうことができる。
第1の実施の形態に係る形態素解析装置1を表すブロック図。 形態素解析について説明する図。 形態素解析装置1の処理を表すフローチャート。 形態素解析の結果の例を表す図。 一の読みと同音同義語の単語の組とを対応付けたテーブルを表す図。 形態素解析の結果の例を表す図。 第2の実施の形態に係る形態素解析装置の処理を表すフローチャート。 第3の実施の形態に係る形態素解析装置の処理を表すフローチャート。 形態素解析の結果の例を表す図。 一の読みと同音同義語の単語の組とを対応付けたテーブルを表す図。 第4の実施の形態に係る形態素解析装置4を表すブロック図。 変更部400による代表表記を変更する処理を表すフローチャート。 一の読みと同音同義語の単語の組とを対応付けたテーブルを表す図。
以下、本発明の実施の形態について図面を参照して説明する。
本願明細書と各図において、既出の図に関して前述したものと同様の要素には同一の符号を付して詳細な説明は適宜省略する。
(第1の実施の形態)
第1の実施の形態に係る形態素解析装置1は、日本語テキストの形態素解析を行なう。
本実施の形態では、ユーザから入力された日本語テキストの形態素解析を行ない、複数の解析候補を編目状で表わした単語ネットワークを作成する。この際、各々の解析候補に優先順位となる評価点を付ける。
形態素解析装置1は、調整後の評価点が最も高い一の解析候補を選択して出力する。形態素解析装置1は、例えばパーソナルコンピュータなどの情報処理装置により実現される。
図1は、形態素解析装置1の構成を表すブロック図である。形態素解析装置1は、入力部101と、形態素解析部102と、判定部103と、格納部104と、選択部105と、出力部106とを備える。
入力部101は、日本語テキストを形態素解析部102に提供する。入力部101として、キーボードやタブレット、光学式文字読み取り装置(OCR)、テキストを格納したメディアやHDD等がある。
形態素解析部102は、入力部101から提供された日本語テキストを形態素解析して、複数の解析候補を含む単語ネットワークを作成する。形態素解析部102は、単語ネットワークを判定部103に渡す。その際、形態素解析部102は、各々の解析候補に評価点を付ける。
格納部104は、一の読みと、該読みに対して複数の表記を持つ同音同義の単語の組とを対応付けた同音同義語テーブルを予め格納している。さらに同音同義語テーブルは、読みごとに、該単語の組の中で、代表となる表記の代表表記を設定している。
判定部103は、形態素解析部102から受け取った単語ネットワークの解析候補の中に、競合系列組が存在するか否かを判定する。競合系列組が存在する場合は、部分系列にある単語について格納部104のテーブルを検索し、該単語の表記が代表表記であるか否かを判定する。代表表記の場合には、該部分系列を含む解析候補の評価点を維持する。代表表記でない場合には、該部分系列を含む解析候補の評価点を下げる。
選択部105は、最も評価点の高い一の解析候補を最適解析候補とする。選択部105は、最適解析候補を出力部106に渡す。
出力部106は、最適解析候補を出力する。出力部106は、最適解析候補の読みを表示したり、音声合成で読み上げたりする。出力部106は、例えばCRTや液晶表示装置、あるいは音声合成器等であってよい。
なお、形態素解析部102、判定部103、格納部104、選択部105は、各々固有の処理ルーチン、及び該処理ルーチンを実行するCPUにより実現される。
図2は、形態素解析について説明する図である。形態素解析装置1には、日本語テキストが入力される。例えば、「昨日市場に行った」という日本語テキストが入力される。形態素解析装置1は、日本語テキストの形態素解析を行ない、複数の解析候補を編目状で表わした単語ネットワークを作成する。
例えば、図2に示したように、形態素解析装置1は、「昨日市場に行った」の形態素解析を行ない、「昨日(名詞)−市場(名詞,読み:いちば)−に(助詞)−行っ(ワ行五段動詞連用形,読み:おこなっ)―た(助動詞)」(第1解析候補)と、「昨日(名詞)−市場(名詞,読み:いちば)−に(助詞)−行っ(カ行五段動詞連用形,読み:いっ)―た(助動詞)」(第2解析候補)と、「昨日(名詞)−市場(名詞,読み:しじょう)−に(助詞)−行っ(ワ行五段動詞連用形,読み:おこなっ)―た(助動詞)」(第3解析候補)と、「昨日(名詞)−市場(名詞,読み:しじょう)−に(助詞)−行っ(カ行五段動詞連用形,読み:いっ)―た(助動詞)」(第4解析候補)という4つの解析候補が得られる。
各解析候補は、入力テキストに含まれる形態素を複数並べたものである。そのうちの一の解析候補内にある一または連続する形態素の文字列を部分系列という。
2つの解析候補を比較した場合に、同じ部分系列がある場合には、それらを競合系列と呼ぶ。本例の場合には、市場(名詞,読み:いちば)と、市場(名詞,読み:しじょう)、もしくは行っ(ワ行五段動詞連用形,読み:おこなっ)と行っ(カ行五段動詞連用形,読み:いっ)、が競合系列となっている。
単語ネットワークは、複数の解析候補を表すもので、この場合、これらに含まれる競合系列を除いた共通する部分系列をできるだけ共通表現するようして、網目状に表現したものである。
形態素解析装置1は、各々の解析候補に優先順位となる評価点を付ける。そして、単語ネットワークの中で、競合系列組が存在する場合には、予め、一の読みに対して複数の表記を持つ単語の中から代表となる表記の代表表記(例えば、「いっ(た)」であれば「行っ(た)」、「おこなっ(た)」であれば「行なっ(た)」)を設定した同音同義語テーブルを用いて、解析候補の評価点を代表表記であるか否かに応じて調整する。例えば、代表表記の単語の場合には評価点をそのままとし、代表表記ではない単語の場合には評価点を下げる。同音同義語テーブルには代表表記のフラグをしておく。
図2では、「市場」と「行っ」の2箇所に競合系列組が存在する。すなわち、「市場」には、「市場(名詞,読み:いちば)」と「市場(名詞,読み:しじょう)」という2つの部分系列が存在する。「行っ」には、「行っ(ワ行五段動詞連用形,読み:おこなっ)」と「行っ(カ行五段動詞連用形,読み:いっ)」という2つの部分系列が存在する。
図3は、第1の実施の形態の処理を表すフローチャートである。
入力部101から、一又は複数の文からなる日本語テキストが入力されると、形態素解析部102は、テキストの入力が終了したか否かを判定する(S201)。入力が終了していないと判定した場合は、入力の終了を待つ。入力が終了したと判定した場合、形態素解析部102は、該テキストに対して、一文ごとに形態素解析を行ない、形態素単位の単語ごと、品詞と活用と読みとを決定する(S202)。
形態素解析部102は、複数の形態素単位の単語を組み合わせた、複数の解析候補を含む単語ネットワークを作成する。例えば、「過去に行ったセミナー」という一文のテキストが入力されたとすると、形態素解析部102は、「過去(名詞)」、「に(助詞)」、「行っ(ワ行五段動詞連用形,読み:おこなっ)」、「行っ(カ行五段動詞連用形,読み:いっ)」、「た(助動詞)」、「セミナー(名詞)」のように、テキストを形態素単位の単語に分割する。形態素解析部102は、これらの複数の形態素単位の単語を組み合わせた複数の解析候補を含む単語ネットワークを作成する。
図4は、形態素解析の結果を表す図であり、単語ネットワークを表している。この単語ネットワークは、「過去(名詞)‐に(助詞)‐行っ(ワ行五段動詞連用形)‐た(助動詞)‐セミナー(名詞)」という解析候補(第1解析候補)と、「過去(名詞)‐に(助詞)‐行っ(カ行五段動詞連用形)‐た(助動詞)‐セミナー(名詞)」という解析候補(第2解析候補)が解析候補として存在することを表している。
図4における競合系列組は、始点となる文字(「に」)と終点となる文字(「た」)に挟まれた文字列の、「行っ(ワ行五段動詞連用形,読み:おこなっ)」と「行っ(カ行五段動詞連用形,読み:いっ)」である。すなわち、部分系列は、「行っ(ワ行五段動詞連用形,読み:おこなっ)」と「行っ(カ行五段動詞連用形,読み:いっ)」の各々が部分系列である。
形態素解析部102は、各々の解析候補に評価点を付ける。例えば、形態素解析部102は、解析候補が得られた順に予め定めた、第1解析候補に評価点として100点を付け、第2解析候補に評価点として50点を付ける。評価点は、例えば、解析候補に含まれる形態素単位の単語の数に応じて付けてもよい。例えば、品詞の並び順が日本語として適当か否かによって付けてもよい。形態素解析部102は、解析結果である単語ネットワークと解析候補の評価点を判定部103に渡す。
判定部103は、単語ネットワークに含まれる競合系列の組数Nに応じて、識別番号n(n=1,2,・・・,N)を付ける。図4の例の場合、競合系列組は、「行っ(ワ行五段動詞連用形,読み:おこなっ)」と「行っ(カ行五段動詞連用形,読み:いっ)」の1組(n=1のみ)である。判定部103は、nの初期値を1とする(S203)。
判定部103は、n組目の競合系列組があるか否かを判定する(S204)。n組目の競合系列組がある場合には、判定部103は、1組の競合系列組の中で、各々の部分系列に対し、0から順番に識別番号i(i=0,1,2,・・・)を付ける。図4の例では、判定部103は「行っ(ワ行五段動詞連用形,読み:おこなっ)」に「i=0」を付け、「行っ(カ行五段動詞連用形,読み:いっ)」に「i=1」を付ける。判定部103は、iの初期値を0とする(S205)。判定部103は、i番目の部分系列が存在するか否かを判定する(S206)。
i番目の部分系列が存在すると判定した場合、判定部103は該部分系列の中に含まれる形態素単位の単語に識別番号k(k=0,1,2,・・・)を付ける。図4の例では、「i=0」の部分系列に含まれる形態素単位の単語は「行っ(ワ行五段動詞連用形,読み:おこなっ)」のみであるので、判定部103は「行っ(ワ行五段動詞連用形)」に「k=0」を付ける。判定部103は、kの初期値を0とする(S207)。判定部103は、k番目の単語が存在するか否かを判定する(S208)。
図5は、格納部104に格納されている同音同義語テーブルを表す図である。同音同義語テーブルでは、一の読みと、該読みに対して複数の表記を持つ同音同義の単語の組とを対応付けられている。該単語は形態素単位である。例えば、グループ番号「1」の組には、「ほう」という読みに対して、「ほう」と「方」という複数の表記を持つ同音同義の単語の組が登録されている。グループ番号「2」の組には、「おこなっ」という読みに対して、「おこなっ」と「行なっ」と「行っ」という複数の表記を持つ同音同義の単語の組が登録されている。そして、同音同義語テーブルには、読みごとに、該単語の組の中で、優先する表記の代表表記が設定される。例えば、グループ番号「1」では平仮名表記の「ほう」が代表表記として登録されている。グループ番号「2」では「行なっ」が代表表記として登録されている。なお、代表表記は、複数設定されていてもよい。また、代表表記が設定されていなくてもよい。
k番目の単語が存在すると判定した場合、判定部103は、格納部104を検索し、該単語を判定対象の単語として、判定対象の単語が同音同義語テーブルに存在するか否かを判定する(S209)。
すなわち、判定部103は、判定対象の単語について、表記と品詞と読みの情報を用いて、格納部104の同音同義語テーブル内に、判定対象の単語と一致する単語があるか否かを判定する。同音同義語テーブル内に、判定対象の単語と一致する単語がない場合、判定部103はkに1を足し(S212)、ステップS208に遷移する。
同音同義語テーブル内に、判定対象の単語と一致する単語がある場合、判定部103は、判定対象の単語が代表表記であるか否かを判定する(S210)。
例えば、判定部103は、「k=0」である「行っ(ワ行五段動詞連用形,読み:おこなっ)」について、格納部104の同音同義語テーブルに、表記と品詞と読みが同じ単語(「行っ(ワ行五段動詞連用形,読み:おこなっ)」)があるか否かを検索する。この場合、同音同義語テーブルに、「行っ(ワ行五段動詞連用形,読み:おこなっ)」が存在するが、代表表記に設定されてはいない。
判定対象の単語が代表表記でない場合、判定部103は、判定対象の単語が含まれる解析候補の評価点を下げる(S211)。例えば、行っ(ワ行五段動詞連用形,読み:おこなっ)」は代表表記ではないため、判定部103は、行っ(ワ行五段動詞連用形,読み:おこなっ)」の評価点を下げる。評価点の下げ方は、予め設定されていてもよく、任意に変更できてもよい。例えば、代表表記でない場合は60点を引くと設定されていれば、判定部103は、図4における第1解析候補の評価点を100点から40点に下げる。判定部103は、kに1を足し(S212)、ステップS208に遷移する。
判定対象の単語が代表表記である場合、判定部103は何も行わず、ステップS212に遷移する。
ステップS208において、k番目の単語が存在しないと判定した場合、判定部103は、iに1を足し(S213)、ステップS206に遷移する。すなわち、判定部103は次の部分系列の判定に移る。
図4の例では、「i=0」の部分系列に含まれる形態素単位の単語は、「k=0」の「行っ(ワ行五段動詞連用形,読み:おこなっ)」のみなので、「k=1」の単語は存在しない。すなわち、「k=1」のときステップS208の判定はNOとなる。判定部103は、ステップS214において「i=1」とし、「行っ(カ行五段動詞連用形,読み:いっ)」について同様に、ステップS206から処理を繰り返す。
図4の例では、「行っ(カ行五段動詞連用形,読み:いっ)」(i=1)が存在するため、ステップS206における判定はYESとなり、「行っ(カ行五段動詞連用形,読み:いっ)」について、ステップS207から同様の処理が行われる。図5において、格納部104の同音同義語テーブルでは、「行っ(カ行五段動詞連用形,読み:いっ)」は代表表記であるため、ステップS210での判定はYESとなり、ステップS211における評価点の減点は行なわれない。すなわち、図4における第2解析候補の評価点は50点のままとなる。
ステップS206において、判定結果がNOとなった場合、判定部103は、nに1を足し(S214)、ステップS205に遷移する。図4の例では、iは0と1のみなので、ステップS213により「i=2」となった段階で、ステップS206における判定はNOとなる。判定部はステップS214において「n=2」とし、ステップS204に遷移する。
ステップS204において、n組目の競合系列組がない場合、判定部103は、評価点を変えた後の単語ネットワークを選択部105に渡す。選択部105は、単語ネットワークのうち、評価点が最も解析候補を一の解析候補(最適解析候補)として選択し、出力部106に渡す(S215)。出力部106は、最適解析候補を出力する(S216)
図4における例では、判定部103により、第1解析候補の評価点は100点から40点となり、第2解析候補の評価点は50点のままとなる。よって選択部105は、評価点の高い第2解析候補を最適解析候補に選択し、出力部106に出力する。出力部106は、最適解析候補とした第2解析候補「過去に行ったセミナー(かこにいったせみなー)」を音声として出力したり、表示したりする。
以上述べたとおり、本実施の形態により、日本語テキストの形態素解析を精度良く行なうことができる。
なお、本実施の形態では、「行っ(ワ行五段動詞連用形,読み:おこなっ)」と「行っ(カ行五段動詞連用形,読み:いっ)」という品詞と読みとが異なるものについて、形態素解析装置1が行う処理について説明したが、この例に限られない。
図6は、形態素解析の結果の他の例を表す図である。図6に示したように、「住民(名詞)‐の(助詞)‐方(名詞,読み:ほう)‐に(助詞)」(第1解析候補)と「住民(名詞)‐の(助詞)‐方(名詞,読み:かた)‐に(助詞)」(第2解析候補)いうような、品詞は同じで、読みが異なるものであっても、形態素解析装置1は同様の処理を行うことができる。この場合、図5の同音同義語テーブルでは、判定部103は、「方(名詞,読み:かた)」は代表表記であるが、「方(名詞,読み:ほう)」は代表表記でない。よって判定部103は、第1解析候補の評価点を下げる。
(第2の実施の形態)
第2の実施の形態に係る形態素解析装置(不図示)は、第1の実施の形態に係る形態素解析装置1と比較して、判定部103の行う処理が異なる。
本実施の形態に係る形態素解析装置(不図示)は、判定部103が、一の競合系列組内の、全ての解析候補の評価点を下げた場合は、全ての解析候補の評価点を該組の判定前の評価点にまで戻す処理を行う。
図7は、第2の実施の形態に係る形態素解析装置(不図示)の処理を表すフローチャートである。本実施形態において、判定部103が行なう処理には、図3に示した第1の実施の形態のフローチャートに、ステップS601とステップS602とステップS603が加わる。以下説明する。なお、他のステップS201〜S216については、第1の実施の形態の場合と同様である。
ステップS209において、同音同義語テーブル内に、判定対象の単語と一致する単語がない場合、ステップS211において、解析候補の評価点を下げる処理は行なわれない。ステップS601では、判定部103は、評価点を下げなかった回数をカウントして記憶する(S601)。そしてステップS212へと遷移する。
ステップS602では、判定部103は、評価点を下げなかった回数が0であるか否かを判定する(S602)。評価点を下げなかった回数が1以上である場合、判定部103は何もせず、ステップS214に遷移する。
評価点を下げなかった回数が0である場合、判定部103は、全ての解析候補の評価点を(n−1)組目の競合系列の組の判定終了時の評価点にまで戻す(S603)。例えば、競合系列組が1つの場合(n=1のみ)、判定部103は、全ての解析候補の評価点を形態素解析部102から受け取った解析結果の評価点にまで戻す処理を行なう。
これにより、判定部103の判定よりも、形態素解析部102の解析結果の評価点を優先させることができる。
(第3の実施の形態)
第3の実施の形態に係る形態素解析装置(不図示)は、第1の実施の形態及び第2の実施の形態に係る形態素解析装置と比較して、判定部103の行う処理が異なる。本実施の形態に係る形態素解析装置(不図示)は、判定対象の単語が代表表記でない場合は、該単語が含まれる部分系列を削除対象とし、削除対象としなかった部分系列を残す。
図8は、第3の実施の形態に係る形態素解析装置(不図示)の処理を表すフローチャートである。本実施形態において、判定部103が行なう処理には、第2の実施の形態のフローチャート(図7)の、ステップS211がステップS701に代わる。ステップS601がステップS702に代わる。ステップS602がステップS703に代わる。ステップS603がステップS704に代わる。そして、ステップS705が加わる。以下説明する。なお、他のステップS201〜S216については、第1の実施の形態及び第2の実施の形態の場合と同様である。
ステップS210において判定対象の単語が代表表記でないと判定された場合、ステップ701で判定部103は、該単語が属する部分系列を削除対象とする(S701)。ステップS702で、判定部103は、削除対象としなかった部分系列の個数を記憶する(S702)。ステップS703では、判定部103は、削除対象としなかった部分系列の個数が0であるか否かを判定する(S703)。削除対象としなかった部分系列の個数が0である場合、判定部103は、削除対象を取り消す(S704)。削除対象としなかった部分系列の個数が1以上である場合、判定部103は、削除対象とした部分系列を削除する(S705)。
例を挙げて説明する。図9は、第3の実施の形態に係る形態素解析の例を表す。入力部101には、「原稿用紙の行って、」と入力されたとする(S201)。形態素解析部102は、該テキストの形態素解析を行ない、「原稿用紙(名詞)‐の(助詞)‐行っ(ワ行五段動詞連用形,読み:おこなっ)‐て(助詞)‐、(読点)」(第1解析候補)と、「原稿用紙(名詞)‐の(助詞)‐行っ(カ行五段動詞連用形,読み:いっ)‐て(助詞)‐、(読点)」(第2解析候補)と、「原稿用紙(名詞)‐の(助詞)‐行(名詞,読み:ぎょう)‐って(助詞)‐、(読点)」(第3解析候補)という3つの解析候補からなる単語ネットワークを各々の解析候補に評価点を付した上で判定部103に渡す(S202)。
この例の場合、競合系列組は、「行っ(ワ行五段動詞連用形,読み:おこなっ)て(助詞)」(i=0)と「行っ(カ行五段動詞連用形,読み:いっ)て(助詞)」(i=1)と「行(名詞,読み:ぎょう)って(助詞)」(i=2)の一組(n=1)である。判定部103は、ステップS203からステップS210まで、第1の実施の形態及び第2の実施の形態の場合と同様の処理を行なう。図10は、第3の実施の形態に係る形態素解析装置(不図示)の格納部104に格納される同音同義語テーブルである。
格納部104には、「行っ(ワ行五段動詞連用形,読み:おこなっ)」と「行っ(カ行五段動詞連用形,読み:いっ)」のみの同音同義語テーブルが存在するとする。この場合、ステップS209において、YESとなるのは、「行っ(ワ行五段動詞連用形,読み:おこなっ)」(n=1,i=0,k=0)と、「行っ(カ行五段動詞連用形,読み:いっ)」(n=1,i=1,k=0)である。それ以外の、「て(助詞)」(n=1,i=0,k=1)と「て(助詞)」(n=1,i=1,k=1)と「行(名詞,読み:ぎょう)」(n=1,i=2,k=0)と「って(助詞)」の4つの単語については、ステップS209においてNOとなる。
判定部103は、「行っ(ワ行五段動詞連用形,読み:おこなっ)」(n=1,i=0,k=0)と、「行っ(カ行五段動詞連用形,読み:いっ)」(n=1,i=1,k=0)について、同音同義語テーブルを検索し、各々の単語が代表表記であるか否かを判定する(S210)。図10において、「行っ(ワ行五段動詞連用形,読み:おこなっ)」と「行っ(カ行五段動詞連用形,読み:いっ)」はいずれも代表表記ではない。その場合、判定部103は、「行っ(ワ行五段動詞連用形,読み:おこなっ)」(n=1,i=0,k=0)が属する「行っ(ワ行五段動詞連用形,読み:おこなっ)て(助詞)」の部分系列と、「行っ(カ行五段動詞連用形,読み:いっ)」(n=1,i=1,k=0)が属する「行っ(カ行五段動詞連用形,読み:いっ)て(助詞)」の部分系列を削除対象とする。
ステップS702では、削除対象としなかった部分系列の個数をカウントする。すなわち、「行(名詞,読み:ぎょう)って(助詞)」(i=2)の部分系列については、各々の単語(「行(名詞,読み:ぎょう)」と「って(助詞)」)によって部分系列を削除対象としないので、この競合系列組(n=1)の処理が終了するときにおいて、削除対象としなかった部分系列の個数は4回となる。
よってステップS703における判定は、NOとなる。そして、ステップS705において、判定部103は、削除対象とした「行っ(ワ行五段動詞連用形,読み:おこなっ)て(助詞)」(i=0)の部分系列と「行っ(カ行五段動詞連用形,読み:いっ)て」(i=1)の部分系列を削除する。よって、この競合系列組内に残るのは「行(名詞,読み:ぎょう)って(助詞)」のみとなる。そして、ステップS215において、選択部105は、「原稿用紙(名詞)‐の(助詞)‐行(名詞,読み:ぎょう)‐って(助詞)‐、(読点)」(第3解析候補)を最適解析候補とする。
これにより、形態素解析部102から受け取った解析結果の中に、明らかに最適解析候補に含まれない部分系列を、判定部103による判定の段階で取り除くことができる。
(第4の実施の形態)
第4の実施の形態に係る形態素解析装置4は、選択部105が選択した最適解析候補に基づいて、格納部104に格納される同音同義語テーブルの代表表記を変更する機能を備える。図11は、形態素解析装置4の構成を表すブロック図である。形態素解析装置4は、第1の実施の形態に係る形態素解析装置1と比較して、変更部400を備える点が異なる。また、格納部104に格納される同音同義語テーブルに各々の単語の出現回数を示す項目が追加されている点が異なる。
選択部105は、最適解析候補を出力部106と、変更部400に渡す。変更部400は、選択部105が選択した最適解析候補に含まれる形態素単位の単語の出現回数に基づいて、格納部104に格納される同音同義語テーブルの代表表記を変更する。
図12は、変更部400の処理を表すフローチャートである。変更部400は、最適解析候補に含まれる形態素単位の単語に識別番号j(j=0,1,2,・・・)を付ける。識別番号jは最適解析候補の初めの単語から順に付けてもよい。変更部400は、jを初期化する(S1101)。変更部400は、j番目の単語があるか否かを判定する(S1102)。j番目の単語(判定対象の単語)があると判定した場合、変更部400は、格納部104を検索し、同音同義語テーブル内に、判定対象の単語と、表記と品詞と読みについて一致する単語があるか否かを判定する(S1103)。
図13は、本実施の形態における格納部104に格納される同音同義語テーブルを表す図である。同音同義語テーブルには、変更部400が現在までに判定対象とした単語の出現回数をカウントした「出現回数」の項目が設けられる。
ステップS1103において、判定対象の単語と一致する単語があると判定した場合、変更部400は、判定対象の単語と一致する単語の出現回数に1を足す(S1104)。変更部400は、jに1を足し(S1105)、ステップ1102に遷移する。
ステップS1102において、j番目の単語がないと判定した場合、変更部400は、各々の単語の出現回数に基づいて、同音同義語テーブルの代表表記の設定を変更し(S1106)、処理を終了する。例えば、最も出現回数の多い単語の表記を代表表記に設定する。
最適解析候補が「講演(名詞)‐を(助詞)‐行っ(ワ行五段動詞連用形,読み:おこなっ)‐た(助動詞)」である場合を例にして説明する。また、同音同義語テーブルには、図13に示したように、「おこなった」に関する同音同義の単語の組のみ存在するとする。
そして、「おこなっ」の出現回数が「2」、「行なっ」の出現回数が「5」、「行っ」の出現回数が「4」であるとする(図13中、上のテーブル)。
変更部400は、「講演(名詞)」にj=0、「を(助詞)」にj=1、「行っ(ワ行五段動詞連用形,読み:おこなっ)」にj=2、「た(助動詞)」にj=3を付ける。ステップS1101で、変更部400は、j=0に初期化する。ステップ1102における判定は、j=3までYESとなる。ステップS1103における判定では、「行っ(ワ行五段動詞連用形,読み:おこなっ)」(j=2)のみYESとなり、他の単語についてはNOとなる。ステップS1104において、変更部400は、行っ(ワ行五段動詞連用形,読み:おこなっ)」と一致する「行っ」の出現回数に1を足し、「5」とする。
ステップS1105においてj=4となったとき、ステップ1102における判定はNOとなり、ステップ1106に遷移する。ステップ1106で、変更部400は、出現回数変更後の同音同義語テーブル(図13中、下のテーブル)において、出現回数の最も高い、「行なっ」と「行っ」を代表表記に再設定する。
なお、図13のように、出現回数が最も高い代表表記が複数ある場合、例えば、変更部400が直前に変更した方の優先表記を優先させて、優先表記を1つにしてもよい。また、文字数の少ない表記を優先表記として、優先表記を1つとしてもよい。
これにより、ユーザに合わせた利便性の高い形態素解析装置を提供することができる。
1,4 形態素解析装置
101 入力部
102 形態素解析部
103 判定部
104 格納部
105 選択部
106 出力部
400 変更部

Claims (5)

  1. 入力された日本語テキストの形態素解析を行ない複数の解析候補を作成する形態素解析部と、
    一の読みと、前記一の読みに対して複数の表記を持つ同音同義の形態素単位の単語の組とを対応付け、前記組の中で、代表となる表記の代表表記を設定した同音同義語テーブルを格納する格納部と、
    前記形態素解析により、複数の前記解析候補の同一部分の文字列に、形態素候補が複数存在する場合には、前記同音同義語テーブルを検索し、前記形態素候補ごとに前記文字列に含まれる単語の表記が前記代表表記であるか否かの判定を行なう判定部と、
    前記判定の結果に基づいて、複数の前記解析候補の中から一の前記解析候補を選択する選択部と
    を備え、
    前記形態素解析部は、
    各々の前記解析候補に優先度を表す評価点を付け、
    前記判定部は、
    前記判定の結果、前記単語の表記が前記代表表記か否かに応じて、前記形態素候補の文字列を含む前記解析候補の前記評価点を調整し、
    前記選択部は、
    前記評価点の最も高い前記解析候補を選択すること
    を特徴とする形態素解析装置。
  2. 前記判定の結果、全ての前記文字列の前記評価点を下げた場合、前記判定部は、全ての前記文字列の評価点を前記判定前に戻すこと
    を特徴とする、請求項1記載の形態素解析装置。
  3. 前記判定部は、前記判定により前記評価点を下げた前記解析候補を削除する
    ことを特徴とする、請求項1記載の形態素解析装置。
  4. 前記選択部が選択した一の前記解析候補を用いて、
    前記同音同義語テーブルにおける前記代表表記の設定を変更する変更部を
    さらに備えることを特徴とする、請求項1乃至3記載の形態素解析装置。
  5. 入力された日本語テキストの形態素解析を行ない複数の解析候補を作成し、
    一の読みと、前記一の読みに対して複数の表記を持つ同音同義の形態素単位の単語の組とを対応付け、前記組の中で、代表となる表記の代表表記を設定した同音同義語テーブルを格納し、
    前記形態素解析により、複数の前記解析候補の同一部分の文字列に、形態素候補が複数存在する場合には、前記同音同義語テーブルを検索し、前記形態素候補ごとに前記文字列に含まれる単語の表記が前記代表表記であるか否かの判定を行ない、
    前記判定の結果に基づいて、複数の前記解析候補の中から一の前記解析候補の選択を行ない、
    前記形態素解析では、
    各々の前記解析候補に優先度を表す評価点を付け、
    前記判定では、
    前記判定の結果、前記単語の表記が前記代表表記か否かに応じて、前記形態素候補の文字列を含む前記解析候補の前記評価点を調整し、
    前記選択では、
    前記評価点の最も高い前記解析候補を選択すること
    を特徴とする形態素解析方法。
JP2010051112A 2010-03-08 2010-03-08 形態素解析装置及び形態素解析方法 Active JP5258819B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010051112A JP5258819B2 (ja) 2010-03-08 2010-03-08 形態素解析装置及び形態素解析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010051112A JP5258819B2 (ja) 2010-03-08 2010-03-08 形態素解析装置及び形態素解析方法

Publications (2)

Publication Number Publication Date
JP2011186765A true JP2011186765A (ja) 2011-09-22
JP5258819B2 JP5258819B2 (ja) 2013-08-07

Family

ID=44792954

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010051112A Active JP5258819B2 (ja) 2010-03-08 2010-03-08 形態素解析装置及び形態素解析方法

Country Status (1)

Country Link
JP (1) JP5258819B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101767625B1 (ko) 2016-08-05 2017-08-14 주식회사 코난테크놀로지 동적 계획법 기반 일본어 문장 최소 분할 탐색 장치 및 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06119144A (ja) * 1992-10-02 1994-04-28 Toshiba Corp 文書読み上げ装置
JPH096780A (ja) * 1995-06-15 1997-01-10 Canon Inc 自然言語解析方法及びその装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06119144A (ja) * 1992-10-02 1994-04-28 Toshiba Corp 文書読み上げ装置
JPH096780A (ja) * 1995-06-15 1997-01-10 Canon Inc 自然言語解析方法及びその装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101767625B1 (ko) 2016-08-05 2017-08-14 주식회사 코난테크놀로지 동적 계획법 기반 일본어 문장 최소 분할 탐색 장치 및 방법

Also Published As

Publication number Publication date
JP5258819B2 (ja) 2013-08-07

Similar Documents

Publication Publication Date Title
JP5011751B2 (ja) 訳語情報出力処理プログラム,処理方法および処理装置
JP2003248676A (ja) 解データ編集処理装置、解データ編集処理方法、自動要約処理装置、および自動要約処理方法
JP2005157524A (ja) 質問応答システムおよび質問応答処理方法
JP2007004633A (ja) 言語モデル作成装置およびそれにより作成された言語モデルを使用する言語処理装置
KR20070072723A (ko) 발음 기호를 이용한 문자열 매칭 방법 및 시스템과 그방법을 기록한 컴퓨터 판독 가능한 기록매체
KR20070119076A (ko) 이름을 생성하고 선택하기 위한 시스템
JP5524138B2 (ja) 同義語辞書生成装置、その方法、及びプログラム
JP4738847B2 (ja) データ検索装置および方法
US8244732B2 (en) Named entity marking apparatus, named entity marking method, and computer readable medium thereof
JP5853595B2 (ja) 形態素解析装置、方法、プログラム、音声合成装置、方法、プログラム
KR100542757B1 (ko) 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법및 그 장치
JP5642037B2 (ja) 検索装置、検索方法およびプログラム
JP5258819B2 (ja) 形態素解析装置及び形態素解析方法
JP4845523B2 (ja) 文字処理装置、方法、プログラムおよび記録媒体
KR101351555B1 (ko) 대용량 데이터의 텍스트마이닝을 위한 의미기반 분류 추출시스템
JP2012185654A (ja) 翻訳装置、翻訳プログラムおよび翻訳方法
JP2006318509A (ja) 解データ編集処理装置および処理方法
JP2009265736A (ja) 電子機器、その制御方法およびコンピュータプログラム
JP6871642B2 (ja) 辞書構築装置、マップ作成装置、検索装置、辞書構築方法、マップ作成方法、検索方法、およびプログラム
JP5533853B2 (ja) 読み方判断装置、方法、プログラム、及び音声合成装置
KR101777141B1 (ko) 한글 입력 키보드를 이용한 훈민정음 기반 중국어 및 외국어 입력 장치 및 방법
JPS60254367A (ja) 文章分析装置
US20240037129A1 (en) Search device, search method, and recording medium
JP2006139717A (ja) 話題語抽出方法及び装置及びプログラム及びプログラムを格納した記憶媒体
KR101247346B1 (ko) 사전 검색 서비스 시스템 및 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110916

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20111125

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20111205

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130111

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130311

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130329

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130423

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160502

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 5258819

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350