JP2897191B2 - 日本語形態素解析システム及び形態素解析方式 - Google Patents

日本語形態素解析システム及び形態素解析方式

Info

Publication number
JP2897191B2
JP2897191B2 JP4152721A JP15272192A JP2897191B2 JP 2897191 B2 JP2897191 B2 JP 2897191B2 JP 4152721 A JP4152721 A JP 4152721A JP 15272192 A JP15272192 A JP 15272192A JP 2897191 B2 JP2897191 B2 JP 2897191B2
Authority
JP
Japan
Prior art keywords
morpheme
information
speech
concatenation
ending
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP4152721A
Other languages
English (en)
Other versions
JPH05324705A (ja
Inventor
秀憲 青沢
朗 高木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHII ESU KEI KK
Original Assignee
SHII ESU KEI KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHII ESU KEI KK filed Critical SHII ESU KEI KK
Priority to JP4152721A priority Critical patent/JP2897191B2/ja
Publication of JPH05324705A publication Critical patent/JPH05324705A/ja
Application granted granted Critical
Publication of JP2897191B2 publication Critical patent/JP2897191B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、機械翻訳システムやパ
−ザなどの処理の一環としてなされる形態素解析処理を
行なう形態素解析システム及びその形態素解析方式に関
し、特に日本語文の形態素解析処理において、隣合せと
なる2つの形態素の間の連接可否の判定時及び判定手段
に特徴を有する日本語形態素解析システム及び形態素解
析方式に関する。
【0002】
【従来の技術】機械翻訳システムやパ−ザなどでは、ま
ず入力文を形態素(単語)に分割し各形態素に構文情報
や意味情報を付加する形態素解析処理を行なうことが必
要不可欠である。通常、日本語を他の言語に翻訳する機
械翻訳システムや、日本語文に対するパ−ザなどに用い
られる形態素解析システムは、入力した日本語文を、辞
書情報を参照しながら最適な分割パターンを決定して形
態素(単語)に分割し、各形態素に構文情報や意味情報
を付加し、構文解析システムなどに解析した形態素情報
を渡す。
【0003】従来、このような形態素解析システムは、
日本語の形態素(単語)についての構文情報や意味情報
を格納した辞書と、該上記辞書を検索する辞書検索部
と、入力した日本語文から文字列を切り出す見出し切り
出し部と、上記辞書を検索して得られた辞書情報に基づ
いて上記切り出された文字列に対応する形態素間の隣接
可能性を判定し最適な分割パターンを決定する連接判定
部とを備えていた。そして上記辞書検索部は、辞書検索
方式として、検索する文字列の先頭文字で該当形態素を
検索する方式を採るのが一般的であった。また上記辞書
は、形態素の登録方式として、形態素の語幹と活用語尾
とを分離して登録する方式を採ることが多かった。また
上記連接判定部は、上記辞書の登録方式に伴って、特別
なル−ルやテ−ブルを用意して判定を行なっていた。
【0004】
【発明が解決しようとする課題】しかしながら、上述し
た従来の形態素解析システムは、必ずしも安定的かつ効
率の良いものではなく、ユーザにとって使いやすいもの
であるとは言えなかった。これは、主として以下に示す
ような、辞書検索部の辞書検索方式、辞書の辞書登録方
式、連接判定部の連接判定情報及び判定方式における問
題に起因する。
【0005】1)辞書検索方式における問題 上記従来の辞書検索部による形態素の先頭文字で検索す
る方式の場合、次のような欠点があった。第1に、辞書
登録語数の多い実用的な辞書では、先頭文字が同じ語は
必然的に多くなる。従って、一度の先頭文字の指定の検
索によって、出力される語(形態素)の検索情報が膨大
な数になることがあり、この場合、大きな検索時間を要
することがあった。例えば、入力文が「ABCDEF
G」として正解の形態素が「ABCD」であるとする。
このとき、この方式では「A」で始まる語でありさえす
れば「AFG」や「AF」などであっても検索してい
た。このため、検索する無駄ばかりでなく、マッチング
の無駄にもなっていた。また、検索情報が多くなればな
るほど、システムで使用する主記憶領域が不足し、この
ために解析速度が遅くなったり、動作不能になったりす
るおそれもあった。
【0006】第2に、一般的な文字列の切り出し手法で
ある最長一致法を採用する形態素解析システムでは、切
り出された文字列より短い形態素も検索されてしまう
為、検索の無駄が多かった。上記の例で言えば、
「A」、「AB」、「ABC」が登録されていれば、そ
れらを検索していた。
【0007】第3に、最長一致法を採用する形態素解析
システムでは、正しい文字列の切り出しがされるまでに
必要以上に長い形態素も検索されてしまう為、検索の無
駄が多かった。上記の例で言えば、「ABCDFGD」
のように「ABCD」より長い見出しを検索していた。
特にこの場合は、入力文が「ABCD、FG」であって
「D」の次に区切り文字や文末(句点等)があるような
場合も、同様に「ABCDFGD」のような必要以上に
長い形態素を検索してしまうという問題点があった。
【0008】第4に、この方式では、文字列に対応する
形態素を検索してからマッチングするので、一見効率が
よさそうであるが、辞書登録語数の多い実用的な辞書で
は検索される形態素の数も多くなるため、余分なマッチ
ング処理が膨大になり、解析効率が悪くなるおそれがあ
った。
【0009】さらに、以上の欠点は、平仮名の見出しが
多い辞書や登録語数が多い辞書で特に顕著であった。
【0010】ところで、上述した欠点は、形態素の先頭
文字により検索を行なうことに起因するのだから、形態
素の見出しをフルスペル(あるいは先頭文字以外の情報
も指定して)で指定して検索する方式を採れば、上記の
ような欠点は全て解消される。
【0011】しかし、この検索方式では、上記語尾活用
された文字列について毎回辞書検索をするため、検索の
回数が多く、辞書検索には物理的に一定の時間が必要で
あることから、解析に膨大な時間がかかるおそれがあっ
た。
【0012】この欠点は、本検索方式が、上述した先頭
文字による辞書検索方式に比して辞書検索の回数が多い
ことに起因する。このため従来の形態素解析システムで
は、先頭文字による辞書検索方式を採用し、マッチング
の手順やル−ルを工夫して解析効率の向上を図ろうとす
るのが一般的となっていた。そこで、上記の欠点を解決
するため、形態素をフルスペルで指定して辞書を検索す
る方式を採るとともに、辞書の検索回数を削減する手段
を実現する事が第1の課題となる。
【0013】2)辞書登録方式における問題 上記従来の辞書による辞書登録方式の場合、新規に形態
素を登録するときは、登録する形態素は語幹と活用語尾
とに分離する必要があり、ユーザが登録しにくいという
欠点があった。また、検索する形態素を細かく分割しす
ぎて、かえって意味不明となったり、無意味に検索回数
が増えること(例えば、「かもしれない」という形態素
を「か」、「も」、「しれ」、「ない」に分割した場合
など)を防止するため、複数の単語を1形態素として登
録できるようにすることが望ましいが、この場合、語幹
と活用語尾とを分離して登録する従来の登録方式では、
活用語尾をとるものについては無理があった。すなわ
ち、1つの形態素単位があいまいになってしまい、全て
の単語に対して複数の単語を1形態素として登録する一
貫性を持たせられなかった。そこで、上記の欠点を解決
するため、語幹と活用語尾とを合わせて1見出しとして
登録する方式を実現することが第2の課題となる。
【0014】3)連接判定情報及び判定方式における問
題 従来は、連接判定情報として品詞情報のみを用いること
が多かった。この場合、連接判定条件が緩いため、通常
ありえない形態素の並びを許してしまい、誤った形態素
分割を行ったり、形態素の絞り込みが不十分なまま構文
解析等に多数の形態素を渡してしまうという欠点があっ
た。
【0015】この欠点を回避するため、形態素の品詞情
報以外に、活用情報、その他の形態的な情報(例えば見
出し等)を連接判定情報に付加し、特別なルールやテー
ブル(マトリックス)等を設定して連接判定を行なうこ
とも考えられているが、この場合も、通常は、品詞、活
用、見出しなどの多種類の情報のうちの任意の情報の組
み合わせに対して1つの連接判定コード(例えば連接判
定マトリックスのインデックス)が付与されていること
が多かった。
【0016】従って、同一の連接判定マトリックスを参
照する場合であっても、例えば、ある形態素の場合は品
詞のみ、またある形態素の場合は品詞と活用型、またあ
る形態素の場合は品詞と見出しなどの組み合わせに対し
て個別的に設定されている1つの連接判定コードによっ
て連接判定マトリックスを参照していた。
【0017】従って、ルールやテーブルの設定の仕方に
よっては連接判定コードを付与し難く、ユーザが使いに
くいものとなるという欠点があった。また、1つの任意
の組み合わせに対して1つの連接判定コードを付与する
という仕組みになっている為、全ての組み合わせに対応
するには限界があり、新しい文体が出現すると、絶えず
新しい連接判定コードを設定し続けなければならず、保
守上手間がかかるという欠点もあった。
【0018】そこで、上記の欠点を解決するため、品
詞、活用型、活用形を切り離して連接判定情報を独立し
た3次元情報とし、前の形態素の品詞、活用型、活用形
に対して、後の形態素の品詞、活用型が連接できるかど
うかを判定する語尾活用情報レベルで規定される連接テ
ーブルを設定することが望ましく、これが第3の課題と
なる。また、上記第3の課題は、上記第1、第2の課題
を考慮して、語尾活用で見出しを変形した際に推定され
た語尾活用情報を何等変形することなく連接判定情報と
して用い、かつ、辞書においても形態素に連接判定情報
を2つ持たせることを実現することが必要である。
【0019】
【課題を解決するための手段】上記の目的を達成するた
め、本発明の日本語形態素解析システムは、日本語形態
素についての所定の情報を格納してなる辞書を備え、入
力された日本語文の文字列を文頭側から順に切り出し、
必要に応じて上記辞書を検索して、上記切り出した文字
列に対応する形態素を同定し、所定の情報が付与された
形態素列を出力する日本語形態素解析システムにおい
て、上記辞書として、格納した各形態素について、該形
態素を構成する右端の単語と左端の単語のそれぞれの語
尾活用情報からなる2つの連接判定情報を格納してなる
辞書を備えるとともに、上記切り出した文字列を語尾活
用させ、辞書登録形式の見出しに変形させ、該変形の際
に語尾活用テーブルまたは助詞テーブルを参照すること
によって推定される語尾活用情報を取得する語尾活用部
と、上記切り出した文字列に対応する着目中の同定すべ
き形態素が直前に同定された形態素に連接できるかどう
かを、上記語尾活用部による文字列の語尾活用の際に推
定された語尾活用情報を利用し、語尾活用情報を何等変
形することなく用いてなる連接判定情報を格納した、語
尾活用情報レベルで規定される連接テーブルを参照して
判定する連接判定部とを備えたことを特徴とする。
【0020】または、上記連接判定部の代わりに、上記
切り出した文字列に対応する着目中の同定すべき形態素
が直前に同定された形態素に連接できるかどうかを、品
詞間の連接の可否についての情報を格納した品詞情報レ
ベルで規定される連接テーブルを参照して判定し、連接
可能と判定した場合に、さらに上記語尾活用部による文
字列の語尾活用の際に推定された語尾活用情報を利用
し、語尾活用情報を何等変形することなく用いてなる連
接判定情報を格納した、語尾活用情報レベルで規定され
る連接テーブルを参照して判定する連接判定部を備えた
ことを特徴とする。
【0021】上記の各発明において、辞書は、格納した
形態素について、該形態素の右端の単語と左端の単語の
それぞれの語尾活用情報からなる2つの連接判定情報を
格納してなることとする。また、語尾活用情報レベルで
規定される連接テ−ブルに格納された語尾活用情報を何
等変形することなく用いてなる連接判定情報は、少なく
とも単語の活用型、活用形を含むこととする。
【0022】また、連接判定部は、切り出した文字列に
対応する形態素候補の品詞類と直前に同定された形態素
の品詞、活用型、活用形との連接の可否について判定を
行なう検索前連接判定部と、上記形態素候補について辞
書を検索して得られた形態素の品詞、活用型と直前に同
定された形態素の品詞、活用型、活用形との連接の可否
の判定を行なう検索後連接判定部とからなることとす
る。
【0023】さらに、検索前連接判定部で参照する品詞
情報レベルで規定される連接テ−ブル(品詞−品詞類連
接テ−ブル)は、検索後連接判定部で参照する品詞情報
レベルで規定されるテ−ブル(品詞−品詞連接テ−ブ
ル)に所定の変換処理を施した連接テ−ブルであり、検
索前連接判定部で参照する語尾活用情報レベルで規定さ
れるテ−ブル(活用−品詞類連接テ−ブル)は、検索後
連接判定部で参照する語尾活用情報レベルで規定される
テ−ブル(活用−活用連接テ−ブル)に所定の変換処理
を施した連接テ−ブルであることとする。
【0024】また、上記の課題を解決するため、上記の
ような日本語形態素解析システムの形態素解析方式にお
いて、上記切り出した文字列を語尾活用させて辞書登録
の形式に変形し、上記語尾活用の際に語尾活用テーブル
または助詞テーブルを参照することによって推定された
語尾活用情報を利用して、上記切り出した文字列に対応
する着目中の同定すべき形態素の品詞類と直前に同定さ
れた形態素の品詞、活用型、活用形との連接の可否につ
いて判定し、上記着目中の同定すべき形態素と直前に同
定された形態素とが連接可能と判定した場合に、上記切
り出した文字列に対応する形態素候補について、必要に
応じて上記辞書を検索し、上記形態素候補について辞書
を検索して得られた形態素の品詞、活用型と直前に同定
された形態素の品詞、活用型、活用形との連接の可否に
ついて判定することによって、上記切り出した文字列に
対応する形態素を同定することを特徴とする。
【0025】
【実施例】以下、本発明の実施例について図面を参照し
て説明する。図1は本発明の一実施例に係る形態素解析
システムの構成を示すブロック図である。
【0026】図示のように、本実施例の形態素解析シス
テムは、形態素を該形態素についての種々の情報ととも
に登録し格納してなる辞書10を備えるとともに、入力
した日本語文から文字列を切り出す見出し切り出し部2
と、見出し切り出し部2で切り出した文字列を語尾活用
させて辞書10に登録した形式の見出しに変形する語尾
活用部3と、語尾活用部3によって変形された文字列に
対応する形態素候補と直前の形態素との連接の可否を辞
書10検索前に判定し連接可能性のある形態素候補のみ
に絞り込む検索前連接判定部4と、上記形態素候補につ
いて辞書10を検索する辞書検索部5と、辞書検索部5
による検索によって同定された形態素と直前の形態素と
の連接の可否を判定する検索後連接判定部6と、所定の
場合に例外的な処理を行なうための例外処理部7と、こ
れらの各部を制御する制御部1とを備えてなる。また、
語尾活用部3の処理において参照する判定テーブルとし
て語尾活用テーブル31及び助詞テーブル32と、検索
前連接判定部4の処理において参照する判定テーブルと
して品詞−品詞類連接テーブル41及び活用−品詞類連
接テーブル42と、検索後連接判定部6の処理において
参照する判定テーブルとして品詞−品詞連接テーブル6
1及び活用−活用連接テーブル62とを備えてなる。な
お本実施例において、「切り出した文字列に対応する形
態素」とは、切り出した文字列に対応すべき形態素が既
に同定されている場合に、辞書から実際に検索して同定
した見出し及び語尾活用情報などを含む情報をいい、
「切り出した文字列に対応する形態素候補」とは、切り
出した文字列に対応すべき形態素が未だ形態素として同
定されていない場合に、語尾活用部3における語尾活用
の際に推定された見出し候補文字列及び語尾活用情報の
2つの情報をまとめたものをいう。
【0027】上記辞書10は、登録した形態素につい
て、形態素の見出し、品詞、連接判定情報などの形態素
解析で用いる情報のほか、構文情報や意味情報などを格
納してある。語尾活用のある形態素では、辞書10に登
録された形態素の見出しはその形態素の終止形である。
また連接判定情報は、後述する語尾活用情報を何等変形
することなく用いてなるもので、少なくともその形態素
の活用型を格納してある。一方、語尾活用しない形態素
の場合は、そのまま見出しとし、連接判定情報としての
活用型は無活用型としてある。
【0028】また辞書10には、1つの形態素について
語幹と活用語尾とを分離することなく登録してある。さ
らに辞書10は、複数の単語を結合して構成された形態
素を1形態素として登録することを認める。そして、各
形態素について、その最左端の単語と最右端の単語の二
つの単語の語尾活用情報を連接判定情報として格納して
ある。そのため、「かもしれない」、「にちがいな
い」、「だろう」や、複合名詞などを1形態素として登
録しておけば、不必要な(意味のない)形態素分割を行
なって、かえって誤処理を生じたりすることがなく、ま
た機械翻訳技術などに用いる場合に翻訳を容易にするこ
とができる。
【0029】上記制御部1は、入力された日本語文を文
頭側の文字から順に着目していき、見出し切り出し部2
乃至例外処理部7の一連の処理によって同定した形態素
を、形態素列スタック(図示せず)に格納していく。以
後、形態素列スタックに格納された形態素は、検索前連
接判定部4や検索後連接判定部6などの処理において自
由に参照することができる。また、制御部1は、バック
トラック処理部、未知語確定部、形態素確定部を含む
(いずれも図示せず)。
【0030】ここで制御部1は、直前の形態素が確定し
た場合、及び入力文に対する一番最初の処理の場合に
は、確定した範囲の次の新しい文字に着目し、見出し切
り出し部2にその着目中の文字以降の文字列と着目中の
文字の位置を渡す。そして、着目中の文字に対して形態
素が確定できなかった場合のうち、1)検索前連接判定
部4において形態素候補が1つも連接できなかった場
合、2)辞書検索部5において形態素候補に対応する形
態素が1つも検索できなかった場合、3)検索後連接判
定部6において形態素が1つも連接できなかった場合、
4)例外処理部7において適当な形態素が1つも特定で
きなかった場合なら、見出し切り出し部2にその着目中
以降の文字列と着目中の文字の位置を再び渡す。一方、
見出し切り出し部2において切り出し不可とした場合な
ら、バックトラック処理を起動する。そして、バックト
ラック成功ならバックトラック処理で同定された範囲の
次の文字に着目の文字を移動する。バックトラック失敗
なら未知語処理を起動し、その後、未知語処理で同定さ
れた範囲の次の文字に着目中の文字を移動する。
【0031】上記見出し切り出し部2は、制御部1か
ら、入力文における着目中の文字以降の文字列と、入力
文における着目中の文字の位置を渡される。
【0032】見出し切り出し部2は、文字列及び着目中
の文字の位置を渡されると、着目中の文字を形態素候補
の見出しの先頭文字と仮定し、その形態素候補の見出し
として考えられる所定の範囲の文字列を、制御部1から
渡された文字列(着目中の文字以降の文字列)から切り
出す。
【0033】ここで見出し切り出し部2は、一般的に用
いられている「最長一致法」(最も長い形態素を優先す
る)を原則的に用いるものであるため、新たに着目され
た文字以降の文字列が制御部1から渡された場合には、
まず、着目中の文字以降の文字で考えられる所定の範囲
内(例えば、区切りを表わす文字を越えない範囲内と
か、辞書に登録されている形態素の最大見出し長を越え
ない範囲内など)での最も長い範囲の文字列を形態素候
補の見出しとして仮定し、その範囲の文字列を切り出
す。
【0034】但し、後の処理によって、この切り出した
文字列に該当する適当な形態素が見つからなかった場合
には、着目される文字が不変のまま、再び、着目された
文字以降の文字列が制御部1から渡されることになり、
(上記2)〜4)参照)この場合には、この切り出した
文字列の末尾側の文字を1つ(必要なら任意個)削除し
たものをより短い新たな形態素候補の見出しとして再び
切り出していく。
【0035】なお、見出し切り出し部2は、切り出した
文字列の範囲に関する情報、即ち、入力文における着目
中の文字、着目中の位置、切り出した文字列の長さ、等
を保存しておく。この情報によって、直前に切り出した
文字列と、着目される文字が不変のまま同じ文字列が制
御部1から渡されたかどうかを判定できることになり、
不変である場合には、直前に切り出した文字列より短い
文字列を切り出すこととなる。もちろん、直前に切り出
した文字列と着目される文字、すなわち着目している位
置が異なる場合には、このような制限はない。
【0036】見出し切り出し部2は、制御部1より渡さ
れた文字列から1文字以上の文字列を切り出すことがで
きたときは、その切り出した文字列を語尾活用部3に渡
す。1文字以上の文字列を切り出すことができなかった
ときは、切り出し不可として、制御部1に戻る。以上の
見出し切り出し方の具体例を図2に簡単に示す。
【0037】語尾活用部3は、見出し切り出し部2から
形態素候補の見出しとして切り出された文字列(形態素
見出し候補文字列)を受け取る。そして、形態素見出し
候補文字列の末尾の形態から語尾活用の有無を判定す
る。
【0038】形態素見出し候補文字列が語尾活用すると
判定した場合、語尾活用部3は、この形態素見出し候補
文字列を辞書10登録形式の見出し(終止形見出し)の
活用した見出しと仮定して、逆にその形態素見出し候補
文字列を終止形見出しに変形する。また、これととも
に、その変形に付随して推定される活用型や活用形など
の語尾活用情報等を取り込む。もちろん、語尾活用がな
いと判定した場合、その形態素候補の見出しは変形せ
ず、その無変形に対応する語尾活用情報等が取り込まれ
ることとなる。
【0039】語尾活用部3は、図3のような語尾活用テ
ーブル31を有しており、形態素見出し候補文字列の末
尾の1〜4文字の平仮名部分についてテーブルを参照
し、それによって推定される1)終止形見出し、2)品
詞類、3)語尾活用型(右端の単語の語尾活用型)、
4)語尾活用型における活用形といった、形態素候補に
関する情報(形態素候補情報)を作成する。
【0040】なお、この形態素候補情報は語尾活用する
品詞類に対応しており、すなわち動詞類、形容詞類、形
容動詞類、助動詞類のいずれかとなっている。一方、通
常は形態素見出し候補文字列が語尾活用しない形態素と
しての見出しである場合が考えられる。そこで語尾活用
部3は、これらの語尾活用しない形態素候補の品詞類を
無活用類とし、語尾活用型を無活用型として上記1〜4
の情報と同様な形式で無活用の形態素候補情報も作成し
ておく。ここで、品詞類とは、実際の形態素の品詞を大
まかにグル−プ分けしたもので、形態素候補について未
だ辞書検索がされていないことから、この品詞類を用い
ている。
【0041】また、語尾活用しない形態素とは、名詞
類、副詞類、助詞類などの形態素を指し、述語以外の全
ての品詞類の形態素が該当する。ただし、このうち助詞
類は隣り合う形態素と密接な連接関係を持つことが多
い。そのため本実施例の語尾活用部3では、語尾活用し
ない形態素候補の情報について、さらに助詞類に対応す
る形態素候補情報とその他の語尾活用しない形態素候補
情報とに区別している。
【0042】すなわち、語尾活用部3は、図4に示すよ
うな助詞テ−ブル32を有しており、形態素見出し候補
文字列の先頭の1〜4文字を助詞テ−ブル32に順次照
合し、それによって推定される助詞類に対応する形態素
情報を取り込む。助詞テ−ブル32に照合した結果、助
詞類としての情報があったときは、無活用類としての形
態素候補情報ばかりではなく助詞類としての形態素候補
情報も得られることとなる。なお、ここでいう助詞類と
は、格助詞類、接続助詞類、終助詞類、副助詞類であ
り、実際の助詞に対応する品詞を大まかにグル−プ分け
したものである。
【0043】以上の処理の後、語尾活用部3は、得られ
た任意個の形態素候補情報を1つのリスト(形態素候補
群)としてまとめる。図5に形態素候補群の例を示す。
【0044】そして、語尾活用部3は、語尾活用によっ
て得られた形態素候補情報のリスト(形態素候補群)
を、検索前連接判定部4に渡す。
【0045】上記検索前連接判定部4は、着目中の形態
素候補群のそれぞれの形態素候補が、直前に同定されて
いる文頭側に隣り合わせの形態素群のそれぞれの形態素
に連接できるかどうかを1つ1つ判定し、語尾活用部3
から受け取った形態素候補情報のうち、連接可能性のあ
る形態素候補の情報のみを選択して残りを排除する。
【0046】検索前連接判定部4は、図6に示すような
品詞−品詞類連接テーブル41を有しており、直前の形
態素の品詞と形態素候補の品詞類が連接できるかどうか
を判定するため、まず、形態素列スタックを参照して直
前の形態素群から1つの形態素を取り出し、形態素候補
群から1つの形態素候補を取り出して、形態素の品詞と
形態素候補の品詞類の組み合わせで品詞−品詞類連接テ
ーブル41に照合し、該当する位置にあるデ−タを取り
込む。以上の処理は、直前の形態素群と着目中の形態素
候補群のすべての形態素と形態素候補の組み合わせに対
して行なう。図6における品詞−品詞類連接テーブル4
1のデータは、連接不可を示す“0”、連接可能を示す
“1”、連接不定(品詞情報レベルでは連接可能である
が、語尾活用情報レベルでは連接不定)を示す“2”の
いずれかの数値である。
【0047】なお、後述するように、検索後連接判定部
6の品詞−品詞連接テーブル61では実際の品詞間の連
接可否についてのデ−タが得られるのに対し、品詞−品
詞類連接テ−ブル41における後のデータは品詞類であ
るため、両テ−ブルは若干異なっている。この品詞−品
詞類連接テーブル41は、品詞−品詞連接テーブル61
における後の形態素に該当する部分を品詞から品詞類の
ブロックに対応づける表(図示せず)を参照し、該当す
る品詞のデータを求めて作成する。すなわち、品詞−品
詞類連接テ−ブル41では、品詞類に該当する品詞のう
ち1つでも連接不定である場合には、その品詞類のデ−
タは連接不定、すなわち“2”となる。また、品詞類に
該当する品詞のうち連接不定が1つもなく、かつ1つで
も連接可能である場合には、その品詞類のデータは連接
可能、すなわち“1”となる。
【0048】さらに検索前連接判定部4は、図7及び図
8に示すような活用−品詞類連接テーブル42を有して
おり、連接判定中の形態素の品詞及び形態素候補の品詞
類に対応する品詞−品詞類連接テーブル41のデータが
“2(連接不定)”に該当する場合、この活用−品詞類
連接テーブル42に照合する。この場合、該当する直前
の形態素の品詞、活用型、活用形と、着目中の形態素候
補の品詞類によって活用−品詞類連接テーブル42のデ
ータが参照される。なお、ここでいう直前の形態素の活
用型と活用形とは、直前の形態素が持つ2つの連接情報
(語尾活用型)のうちの右端の単語についてのものであ
る。図7及び図8における活用−品詞類連接テーブル4
2のデータは、連接不可を示す“0”、連接可能を示す
“1”のいずれかの数値である。
【0049】したがって、例えば直前の形態素が下記の
表1に示すような情報を持つとき、着目中の形態素候補
が無活用類であるなら、図7及び図8に示したようにデ
−タは連接不可(“0”)であり、この形態素と形態素
候補とは連接できない。
【0050】
【表1】
【0051】ここで、上記表1中、左活用型とあるのは
形態素を構成する最左端の単語の活用型を、右活用型と
あるのは最右端の単語の活用型を示す。表1の例では、
形態素が「買う」であり、単一の単語で構成されている
ため、両活用型は同じになっている。また、「未然形
1」の1は、同じ未然形でも、例えば五段活用型での場
合「買わ」のような一段目のものと「買お」のような五
段目のものとがあり、それぞれ連接の可否が異なるた
め、それらを区別するために細分化したものである。他
の活用形についてもこれと同様に扱う。また、活用一品
詞類連接テーブル42のデータを参照する際、引数の1
つとして、直前の形態素の「品詞」が渡されるが、連接
テーブルのデータは「品詞類」で共通になっており、渡
された「品詞」に対応する「品詞類」のデータが参照さ
れることとなる。
【0052】なお、検索後連接判定部6の活用−活用連
接テーブル62では直前の形態素の品詞、活用型、活用
形と、形態素候補の品詞、活用型の間で連接可否につい
てのデ−タが得られるのに対し、活用−品詞類連接テ−
ブル42における後のデータは品詞類のみであるため、
両テ−ブルは若干異なっている。この活用−品詞類連接
テーブル42も、品詞−品詞類連接テーブル41を品詞
−品詞連接テ−ブル61から作成したのと同様の方法
で、活用−活用連接テーブル62から作成する。
【0053】以上によって、検索前連接判定部4は、渡
された形態素候補群の形態素候補のうち直前の形態素群
のいずれかの形態素に連接可能な形態素候補のみに絞り
込んだ新たな形態素候補群を作成する。これによって、
辞書検索を行なう形態素候補を減らすことができる。
【0054】以上の処理の後、検索前連接判定部4は、
形態素候補群の形態素候補のうち直前の形態素に連接で
きるものが1つ以上存在するときは、その直前の形態素
に連接できる形態素候補の情報を新たな形態素候補群と
して辞書検索部5に渡す。一方、形態素候補群の形態素
候補のうち1つも直前の形態素に連接できなかったとき
は、適当な形態素候補がないとみなし、制御部を経由し
て見出し切り出し部2に進む。
【0055】上記辞書検索部5は、検索前連接判定部4
から渡された形態素候補群の全ての形態素候補に対し
て、まず、語尾活用部3によって変形された見出しで辞
書10を検索し、登録されているなら、その形態素情報
を取り込む。そして、辞書検索して得られた形態素情報
と語尾活用部3の処理によって得られた形態素候補情報
とが一致するものだけを形態素として取り込み、残りを
排除する。ここでは、入力文の同じ切り口に対して、多
義、多品詞を認めているので、複数の形態素が同じカラ
ムの情報として取り込まれる。また、辞書検索して得ら
れた形態素情報には、検索した形態素候補の活用形が格
納されていないので、形態素情報と形態素候補情報とが
一致した場合には形態素候補情報にある活用形を形態素
情報に格納して出力情報とする。例えば、下記の表2に
おいて、入力文の文字列が「買わ」であって、形態素候
補情報の見出しが「買わ」、「買う」の場合、辞書検索
の結果「買う」についてのみ辞書登録されていることか
ら、表2に示した出力情報を得る。
【0056】
【表2】
【0057】なお、形態素候補情報に、同じ見出しの形
態素候補が複数存在することがあるが、本実施例の辞書
検索部5は、同じ見出しでは1度しか検索しないように
工夫してある。例えば、上記表2において、入力文の文
字列が「かもしれなかっ」であって、形態素候補情報の
見出しが「かもしれなかっ」、「かもしれない」の場
合、見出し「かもしれない」が2つあるが、その見出し
に対して1度だけ辞書検索されて表に示した出力情報
を得る。
【0058】以上の処理の後、辞書検索部5は、形態素
情報が検索されて形態素候補情報と一致するものが1つ
以上見つかった場合には、その形態素情報リスト(形態
素群)を検索後連接判定部6に渡す。また、形態素情報
が1つも検索できなかった場合、もしくは、形態素情報
が検索されたものの形態素候補情報と一致するものがな
かった場合には、適当な形態素がないとみなし、制御部
1を経由して見出し切り出し部2に進む。
【0059】上記検索後連接判定部6は、辞書検索部5
によって辞書検索された着目中の形態素が直前に同定さ
れた形態素と連接できるかどうか、すなわち、構文的に
隣り合わせの形態素として文中に位置することができる
かどうかを判定する。
【0060】検索後連接判定部6は、図9に示すような
品詞−品詞連接テーブル61を有しており、直前の形態
素の品詞と検索された形態素の品詞が連接できるかどう
かを判定するため、まず、形態素列スタックを参照して
直前の形態素群から1つの形態素を取り出し、着目中の
形態素群から1つの形態素を取り出して、取り出した形
態素の品詞の組み合わせで、品詞−品詞連接テーブル6
1に照合し、該当する位置にあるデータを取り込む。以
上の処理は、直前の形態素群のすべての形態素と辞書検
索された着目中の形態素群のすべての形態素との組み合
わせに対して行なう。図9における品詞−品詞連接テ−
ブル61のデ−タは、連接不可を示す“0”、連接可能
を示す“1”、連接不定(品詞情報レベルでは連接可能
であるが、語尾活用情報レベルでは連接不定)を示す
“2”のいずれかの数値である。例えば、下記の表3の
ようになる。
【0061】
【表3】
【0062】さらに検索後連接判定部6は、図10及び
図11に示すような活用−活用連接テーブル62を有し
ており、連接判定中の形態素の品詞に対応する品詞−品
詞連接テーブル61のデータが“2(連接不定)”に該
当する場合、各形態素の形態素情報のうち直前の形態素
の品詞、活用型及び活用形と、検索された形態素の品詞
及び活用型とを活用−活用連接テーブル62に照合す
る。なお、ここでいう直前の形態素の活用型は、形態素
の右端の単語の活用型であり、辞書検索された形態素の
活用型は、形態素の左端の単語の活用型である。また、
活用−活用連接テーブル62のデータを参照する際の引
数には2つの「品詞」が含まれているが、連接テーブル
のデータは「品詞類」で共通になっており、渡された
「品詞」に対応する「品詞類」のデータが参照されるこ
ととなる。
【0063】図10及び図11における活用−活用連接
テーブル62のデータは、連接不可を示す“0”、連接
可能を示す“1”のいずれかの数値である。但し、図に
おいては、説明の都合上、一部の組み合わせのデータの
みを記述してある。また、直前の形態素の特定の品詞
類、活用型、活用形に対して、連接可能である着目中の
形態素の特定の品詞(類)のデータのみを記述してい
る。例えば図10(A)は、動詞類、ワ行五段活用型、
未然形1〜3に連接可能な助動詞類のみを示したもので
あり、ここにない助動詞類はすべて連接不可となる。同
様にして、図10(B)は、助動詞類、助動詞ない活用
型、連用形1〜3に連接可能な助詞類のみを示したもの
であり、ここにない助詞類はすべて連接不可となる。図
10(C)は、助動詞類、助動詞ない活用型、連用形1
〜3に連接可能な助動詞類のみを示したものであり、こ
こにない助動詞類はすべて連接不可となる。図11
(D)は、動詞類、下一段活用型、未然形1〜3に連接
可能な助動詞類のみを示したものであり、ここにない助
動詞類はすべて連接不可となる。図11(E)は、動詞
類、下一段活用型、連用形1〜3に連接可能な助動詞類
のみを示したものであり、ここにない助動詞類はすべて
連接不可となる。さらに、図11(F)は、動詞類、下
一段活用型、命令形1〜2に連接可能な助動詞類はない
ことを示したものである。
【0064】したがって、例えば形態素「買う」と「に
違いない」との連接可否を判定する場合、「買う」に対
応する形態素群及び「に違いない」に対応する形態素群
が下記の表4のように同定されたとする。これを活用−
活用連接テ−ブル62に照合すると、下記の表5のよう
になり、「買う」の連体形1にのみ「に違いない」が連
接でき、終止形1には連接できないことがわかる。よっ
て、「買う」の終止形1が削除され、活用形は連体形1
と同定することができる。
【0065】
【表4】
【0066】
【表5】
【0067】上述した活用−活用連接テーブル62は、
純粋な文法、すなわち形態素の語尾活用型によってきま
るデータで照合するようになっており、特別なシステム
内部のデータを設定する必要はない。また語尾活用しな
い形態素でも、助詞のようにその連接に一定の規則があ
るものは、同様に扱うことができる。
【0068】以上の処理を直前の形態素群の全ての形態
素と着目中の形態素群の全ての形態素との間で行ない、
最終的に直前の形態素群のいずれか1つ以上の形態素に
連接可能と判定された着目中の形態素の集合を新たな着
目中の形態素群とする。
【0069】この後、検索後連接判定部6は、着目中の
形態素群の要素として形態素が1つ以上残った場合に
は、それら着目中の形態素を入力文における所定の範囲
の文字列に対応する形態素として同定し、その着目中の
形態素群を例外処理部を経由して制御部1に渡す。ま
た、形態素群の形態素のうちの1つも直前の形態素に連
接できなかった場合には、制御部1を経由して見出し切
り出し部2に進む。
【0070】上記例外処理部7は、最長一致法による弊
害を取り除いたり、辞書登録を容易にするため必要に応
じて個別的な手続き型ル−ルを起動し処理を行なう。
【0071】制御部1は、着目中の文字を先頭とする形
態素の切り出しに失敗した場合はバックトラック処理を
起動する。すなわち、着目中の文字以降に、その着目中
の文字を先頭とする形態素が見つからなかった場合、あ
るいは連接できる形態素がなかった場合に既に仮に確定
している形態素を分割し直す。
【0072】最終的に、着目中の文字を見出しとして含
む形態素が見つかった場合は、その新しい切り出し方と
その形態素情報のリストを制御部1に渡す。着目中の文
字を見出しとして含む形態素が見つからなかった場合
は、その着目中の文字を含む所定の範囲の文字列に対応
する部分を辞書未登録語とし、検索前に推定した形態素
候補情報等を参考にして品詞等を推定して、1つの形態
素として同定し、その情報を制御部1に渡す。
【0073】上述したように、制御部1は、以上のよう
にして同定された形態素を形態素列スタックに順次格納
していく。但し、直前の形態素も辞書未登録語である場
合には、その直前の形態素の見出しの範囲に、着目中の
文字を吸収して格納する。
【0074】次に、具体的な例文の形態素解析処理例を
示し、本実施例の作用を詳細に説明する。
【0075】図12乃至図16に、本実施例により「買
わなかったかもしれない。」という文を形態素解析処理
した場合の処理例を示す。なお本解析例では、辞書10
に「かもしれない」という語が1形態素として登録され
ているものとする。
【0076】上記日本語文は、最長一致法に基づく制御
部1乃至例外処理部7の一連の処理により、順次図12
及び図13に示すように文字列を切り出され、形態素の
同定が行なわれる。ここでは、最終的に文字列「買わ」
が切り出され、見出しを「買う」とする動詞(左活用
型:ワ行五段活用型、右活用型:ワ行五段活用型、活用
形:未然形1)として同定される。図示のように、形態
素「買わ」が同定されるまでに42種類の形態素見出し
候補文字列について処理がされ、そのうち4種類の形態
素見出し候補文字列について検索前連接判定部4の処理
によって連接不可と判定され、辞書検索が省略される。
【0077】同様にして、図14に示すように、「なか
ったかもしれない」について解析処理が行なわれ、見出
しを「ない」とする助動詞(左活用型:助動詞ない活用
型、右活用型:助動詞ない活用型、活用形:連用形3)
という形態素が同定される。図示のように、形態素「な
い」が同定されるまでに34種類の形態素見出し候補文
字列について処理がされ、そのうち26種類の形態素見
出し候補文字列について検索前連接判定部4の処理によ
って連接不可と判定され、辞書検索が省略される。
【0078】また図15に示すように、「たかもしれな
い」について解析処理が行なわれ、見出しを「た」とす
る助動詞(左活用型:助動詞た過活用型、右活用型:助
動詞た過活用型、活用形:終止形1または連体形1)と
いう形態素が同定される。図示のように、形態素「た」
が同定されるまでに28種類の形態素見出し候補文字列
について処理がされ、そのうち21種類の形態素見出し
候補文字列について検索前連接判定部4の処理によって
連接不可と判定され、辞書検索が省略される。
【0079】最後に、図16に示すように、「かもしれ
ない」について解析処理が行なわれ、見出しを「かもし
れない」とする助動詞(左活用型:終助詞1活用型、右
活用型:助動詞ない活用型、活用形:連体形1)という
形態素が同定されると共に、上記助動詞「た」の活用形
が終止形1と同定される。ここでは、全ての形態素見出
し候補文字列について辞書検索がされる。
【0080】以上説明したように、従来ではそのすべて
の種類の形態素見出し候補文字列について辞書検索を行
っていたものが、本実施例では、検索前連接判定部4で
連接不可と判定された文字列については辞書検索を行な
わないため、全部あわせて110種類の形態素見出し候
補文字列のうち、約半分の51種類の形態素見出し候補
文字列だけを辞書検索すればよく、解析処理全体にかか
る時間が大幅に短縮されることとなる。
【0081】次に、本実施例により「調べよう」という
文を形態素解析処理した場合の処理例を示す。なお本処
理例では、特に検索後連接判定部6による処理について
説明し、他の処理については説明を省略する。上記日本
語文は、最長一致法に基づく制御部1乃至例外処理部7
の一連の処理により、「調べよ」と「う」とに分割され
る。ここで実際には、検索前連接判定部4において活用
−品詞類連接テ−ブル42に照合すると、図7及び図8
に示したように「調べよ」(動詞類、下一段活用型)の
命令形にはいかなる助動詞も連接できないため、「調べ
よ」と「う」は辞書検索部5の処理以前に棄却されるこ
ととなる。しかしながら、ここでは仮に連接可能である
ものとして、検索後連接判定部6に進む場合についても
説明しておく。その場合辞書検索部5の処理により下記
の表6のように形態素情報が得られる。
【0082】
【表6】
【0083】検索後連接判定部6は、上記表6の形態素
情報を、まず品詞−品詞連接テ−ブル61に照合する。
ここでは動詞と助動詞の組み合わせのため連接不定と判
定する。次に表6の形態素情報を、活用−活用連接テ−
ブル62に照合すると下記の表7のようになる。
【0084】
【表7】
【0085】ここでは、下一段活用型の命令形2には助
動詞が連接できないため連接不可と判定する。そのた
め、直前に同定した「調べよ」に対応する形態素群が棄
却され、バックトラックが行なわれて「調べ」と「よ
う」とに分割される。そして、辞書検索部5の処理によ
り下記の表8のように形態素情報が得られる。
【0086】
【表8】
【0087】検索後連接判定部6は、上記表8の形態素
情報を、まず品詞−品詞連接テ−ブル61に照合する。
ここでは動詞と助動詞の組み合わせのため連接不定と判
定する。次に表8の形態素情報を、活用−活用連接テ−
ブル62に照合すると下記の表9のようになる。
【0088】
【表9】
【0089】ここでは、下一段活用型の未然形2に助動
詞よう活用型が連接でき、下一段活用型の連用形1に助
動詞よう活用型が連接できないため、「調べ」に対応す
る形態素群のうち連用形1の形態素を棄却し、未然形2
の形態素を同定する。以上の処理において、語尾活用情
報を利用しない場合には連接可能と判定されてしまうよ
うな誤った分割パタ−ンを棄却し、正確な分割パタ−ン
を得ることができる。
【0090】
【発明の効果】以上説明したように、本発明の日本語形
態素解析システム及び形態素解析方式は、辞書において
連続する複数の単語を合せて1見出しとして辞書登録す
ることを認めるとともに、切り出した文字列を語尾活用
させて辞書登録の形式に変形し、上記語尾活用の際に推
定された語尾活用情報を利用して、上記切り出した文字
列に対応する着目中の同定すべき形態素の品詞類と直前
に同定された形態素の品詞、活用型、活用形との連接の
可否について判定し、上記着目中の同定すべき形態素と
直前に同定された形態素とが連接可能と判定した場合
に、上記切り出した文字列に対応する形態素候補につい
て、必要に応じて上記辞書を検索し、上記形態素候補に
ついて辞書を検索して得られた形態素の品詞、活用型と
直前に同定された形態素の品詞、活用型、活用形との連
接の可否について判定することによって、上記切り出し
た文字列に対応する形態素を同定することとしたため、
辞書検索の回数を大幅に減らし、解析効率を向上させる
ことができるという効果がある。
【0091】また、連続する複数の単語を合せて1見出
しとして辞書登録することを認める辞書を用いた形態素
解析処理を実現できるという効果がある。
【0092】さらに、語尾活用情報レベルの連接判定デ
−タを一般的な文法に添った形で定義したため、連接テ
−ブルの設定が容易に行なえるという効果がある。
【図面の簡単な説明】
【図1】本発明の日本語形態素解析システムの構成を示
すブロック図である。
【図2】本実施例による形態素見出し候補文字列の切り
出し処理例を示す図である。
【図3】本実施例に用いる語尾活用テ−ブルを示す図で
ある。
【図4】本実施例に用いる助詞テ−ブルを示す図であ
る。
【図5】語尾活用部の処理によって得られた形態素候補
群の例を示す図である。
【図6】本実施例に用いる品詞−品詞類連接テ−ブルを
示す図である。
【図7】本実施例に用いる活用−品詞類連接テ−ブルを
示す図である。
【図8】同上の活用−品詞類連接テ−ブルを示す図であ
る。
【図9】本実施例に用いる品詞−品詞連接テ−ブルを示
す図である。
【図10】本実施例に用いる活用−活用連接テ−ブルを
示す図である。
【図11】同上の活用−活用連接テ−ブルを示す図であ
る。
【図12】本実施例による解析処理例を示す図である。
【図13】本実施例による解析処理例を示す図である。
【図14】本実施例による解析処理例を示す図である。
【図15】本実施例による解析処理例を示す図である。
【図16】本実施例による解析処理例を示す図である。
【符号の説明】
1 制御部 2 見出し切り出し部 3 語尾活用部 4 検索前連接判定部 5 辞書検索部 6 検索後連接判定部 7 例外処理部 10 辞書 31 語尾活用テ−ブル 32 助詞テ−ブル 41 品詞−品詞類連接テ−ブル(品詞情報レベルで規
定される連接テ−ブル) 42 活用−品詞類連接テ−ブル(語尾活用情報レベル
で規定される連接テ−ブル) 61 品詞−品詞連接テ−ブル(品詞情報レベルで規定
される連接テ−ブル) 62 活用−活用連接テ−ブル(語尾活用情報レベルで
規定される連接テ−ブル)

Claims (9)

    (57)【特許請求の範囲】
  1. 【請求項1】 日本語形態素についての所定の情報を格
    納してなる辞書を備え、 入力された日本語文の文字列を文頭側から順に切り出
    し、必要に応じて上記辞書を検索して、上記切り出した
    文字列に対応する形態素を同定し、所定の情報が付与さ
    れた形態素列を出力する日本語形態素解析システムにお
    いて、 上記辞書として、格納した各形態素について、該形態素
    を構成する右端の単語と左端の単語のそれぞれの語尾活
    用情報からなる2つの連接判定情報を格納してなる辞書
    を備えるとともに、 上記切り出した文字列を語尾活用させ、辞書登録形式の
    見出しに変形させ、該変形の際に語尾活用テーブルまた
    は助詞テーブルを参照することによって推定される語尾
    活用情報を取得する語尾活用部と、 上記切り出した文字列に対応する着目中の同定すべき形
    態素が直前に同定された形態素に連接できるかどうか
    を、上記語尾活用部による文字列の語尾活用の際に推定
    された語尾活用情報を利用し、語尾活用情報を何等変形
    することなく用いてなる連接判定情報を格納した、語尾
    活用情報レベルで規定される連接テーブルを参照して判
    定する連接判定部とを備えたことを特徴とする日本語解
    析システム。
  2. 【請求項2】 語尾活用情報レベルで規定された連接テ
    ーブルに格納された語尾活用情報を何等変形することな
    く用いてなる連接判定情報が、少なくとも単語の活用
    型、活用形を含むことを特徴とする請求項1に記載の日
    本語形態素解析システム。
  3. 【請求項3】 連接判定部が、切り出した文字列に対応
    する形態素候補の品詞類と直前に同定された形態素の品
    詞、活用型、活用形との連接の可否について判定を行な
    う検索前連接判定部と、上記形態素候補について辞書を
    検索して得られた形態素の品詞、活用型と直前に同定さ
    れた形態素の品詞、活用型、活用形との連接の可否の判
    定を行なう検索後連接判定部とからなることを特徴とす
    る請求項1または2に記載の日本語形態素解析システ
    ム。
  4. 【請求項4】 検索前連接判定部で参照する語尾活用情
    報レベルで規定される連接テーブルが、検索後連接判定
    部で参照する語尾活用情報レベルで規定される連接テー
    ブルに所定の変換処理を施した連接テーブルであること
    を特徴とする請求項3に記載の日本語形態素解析システ
    ム。
  5. 【請求項5】 日本語形態素についての所定の情報を格
    納してなる辞書を備え、 入力された日本語文の文字列を文頭側から順に切り出
    し、必要に応じて上記辞書を検索して、上記切り出した
    文字列中の形態素を同定し、所定の情報が付与された形
    態素列を出力する日本語形態素解析システムにおいて、 上記辞書として、格納した各形態素について、該形態素
    を構成する右端の単語と左端の単語のそれぞれの語尾活
    用情報からなる2つの連接判定情報を格納してなる辞書
    を備えるとともに、 上記切り出した文字列を語尾活用させ、辞書登録形式の
    見出しに変形させ、該変形の際に語尾活用テーブルまた
    は助詞テーブルを参照することによって推定される語尾
    活用情報を取得する語尾活用部を備えると共に、 上記切り出した文字列に対応する着目中の同定すべき形
    態素が直前に同定された形態素に連接できるかどうか
    を、品詞間の連接の可否についての情報を格納した品詞
    情報レベルで規定される連接テーブルを参照して判定
    し、連接可能と判定した場合に、さらに上記語尾活用部
    による文字列の語尾活用の際に推定された語尾活用情報
    を利用し、語尾活用情報を何等変形することなく用いて
    なる連接判定情報を格納した、語尾活用情報レベルで規
    定される連接テーブルを参照して判定する連接判定部を
    備えたことを特徴とする日本語形態素解析システム。
  6. 【請求項6】 語尾活用情報レベルで規定される連接テ
    ーブルに格納された語尾活用情報を何等変形することな
    く用いてなる連接判定情報が、少なくとも単語の活用
    型、活用形を含むことを特徴とする請求項5に記載の日
    本語形態素解析システム。
  7. 【請求項7】 連接判定部が、切り出した文字列に対応
    する形態素候補の品詞類と直前に同定された形態素の品
    詞、活用型、活用形との連接の可否について判定を行な
    う検索前連接判定部と、上記形態素候補について辞書を
    検索して得られた形態素の品詞、活用型と直前に同定さ
    れた形態素の品詞、活用型、活用形との連接の可否の判
    定を行なう検索後連接判定部とからなることを特徴とす
    る請求項5または6に記載の日本語形態素解析システ
    ム。
  8. 【請求項8】 検索前連接判定部で参照する品詞情報レ
    ベルで規定される連接テーブルが、検索後連接判定部で
    参照する品詞情報レベルで規定される連接テーブルに所
    定の変換処理を施した連接テーブルであり、上記検索前
    連接判定部で参照する語尾活用情報レベルで規定される
    連接テーブルが、検索後連接判定部で参照する語尾活用
    情報レベルで規定される連接テーブルに所定の変換処理
    を施した連接テーブルであることを特徴とする請求項7
    に記載の日本語形態素解析システム。
  9. 【請求項9】 日本語形態素についての所定の情報を格
    納してなる辞書を備え、 入力された日本語文の文字列を文頭側から順に切り出
    し、上記切り出した文字列中の形態素を同定し、所定の
    情報が付与された形態素列を出力する日本語形態素解析
    システムの形態素解析方式において、 上記切り出した文字列を語尾活用させて辞書登録形式の
    見出しに変形し、 上記語尾活用の際に語尾活用テーブルまたは助詞テーブ
    ルを参照することによって推定される語尾活用情報を利
    用して、上記切り出した文字列に対応する着目中の同定
    すべき形態素の品詞類と直前に同定された形態素の品
    詞、活用型、活用形との連接の可否について判定し、 上記形態素候補と直前に同定された形態素とが連接可能
    と判定した場合に、上記切り出した文字列に対応する着
    目中の同定すべき形態素について、必要に応じて上記辞
    書を検索し、 上記形態素候補について辞書を検索して得られた形態素
    の品詞、活用型と直前に同定された形態素の品詞、活用
    型、活用形との連接の可否について判定することによっ
    て、上記切り出した文字列に対応する形態素を同定する
    ことを特徴とする形態素解析方式。
JP4152721A 1992-05-20 1992-05-20 日本語形態素解析システム及び形態素解析方式 Expired - Fee Related JP2897191B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4152721A JP2897191B2 (ja) 1992-05-20 1992-05-20 日本語形態素解析システム及び形態素解析方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4152721A JP2897191B2 (ja) 1992-05-20 1992-05-20 日本語形態素解析システム及び形態素解析方式

Publications (2)

Publication Number Publication Date
JPH05324705A JPH05324705A (ja) 1993-12-07
JP2897191B2 true JP2897191B2 (ja) 1999-05-31

Family

ID=15546702

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4152721A Expired - Fee Related JP2897191B2 (ja) 1992-05-20 1992-05-20 日本語形態素解析システム及び形態素解析方式

Country Status (1)

Country Link
JP (1) JP2897191B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7421386B2 (en) * 2003-10-23 2008-09-02 Microsoft Corporation Full-form lexicon with tagged data and methods of constructing and using the same

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62203276A (ja) * 1986-03-03 1987-09-07 Nec Corp 形態素解析装置
JP2959769B2 (ja) * 1988-04-08 1999-10-06 株式会社日立製作所 日本語文字列の形態素解析方法及び装置

Also Published As

Publication number Publication date
JPH05324705A (ja) 1993-12-07

Similar Documents

Publication Publication Date Title
US4868750A (en) Collocational grammar system
US5369577A (en) Text searching system
US5752051A (en) Language-independent method of generating index terms
US5708829A (en) Text indexing system
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
US6101492A (en) Methods and apparatus for information indexing and retrieval as well as query expansion using morpho-syntactic analysis
US5323316A (en) Morphological analyzer
JP4544674B2 (ja) 選択文字列に関連する情報を提供するシステム
US5029084A (en) Japanese language sentence dividing method and apparatus
US5579224A (en) Dictionary creation supporting system
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JPH1153384A (ja) キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体
JPH0724055B2 (ja) 単語分割処理方法
JPH0567144A (ja) 前編集支援方法およびその装置
JP2897191B2 (ja) 日本語形態素解析システム及び形態素解析方式
JP2897942B2 (ja) 日本語形態素解析システム及び形態素解析方式
KR20020054254A (ko) 사전구조를 이용한 한국어 형태소 분석방법
JPS61248160A (ja) 文書情報登録方式
JP4183767B2 (ja) 文字列検索装置およびその検索方法
JP3508312B2 (ja) キーワード抽出装置
JP4262529B2 (ja) 全文検索装置、方法、プログラム及び記録媒体
JP2899184B2 (ja) 日本語形態素解析システム及び見出し切り出し方法
JPH07141381A (ja) 電子辞書表示装置
JPH09237277A (ja) 複合名詞解析方法
JPS63192130A (ja) キ−ワ−ド自動抽出装置

Legal Events

Date Code Title Description
S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090312

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100312

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100312

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110312

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110312

Year of fee payment: 12

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110312

Year of fee payment: 12

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110312

Year of fee payment: 12

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110312

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120312

Year of fee payment: 13

LAPS Cancellation because of no payment of annual fees