JPH0635957A - 日本語形態素解析システム及び形態素解析方式 - Google Patents

日本語形態素解析システム及び形態素解析方式

Info

Publication number
JPH0635957A
JPH0635957A JP4214523A JP21452392A JPH0635957A JP H0635957 A JPH0635957 A JP H0635957A JP 4214523 A JP4214523 A JP 4214523A JP 21452392 A JP21452392 A JP 21452392A JP H0635957 A JPH0635957 A JP H0635957A
Authority
JP
Japan
Prior art keywords
morpheme
speech
candidate
information
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP4214523A
Other languages
English (en)
Other versions
JP2897942B2 (ja
Inventor
Hidenori Aosawa
秀憲 青沢
Akira Takagi
朗 高木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CSK Corp
Original Assignee
CSK Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CSK Corp filed Critical CSK Corp
Priority to JP4214523A priority Critical patent/JP2897942B2/ja
Publication of JPH0635957A publication Critical patent/JPH0635957A/ja
Application granted granted Critical
Publication of JP2897942B2 publication Critical patent/JP2897942B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 本発明は、辞書検索の回数を減らし解析効率
を向上させるとともに、語尾活用情報を利用し解析精度
を向上させた日本語構文解析システムを提供することを
目的とする。 【構成】 本発明の日本語構文解析システムは、上記切
り出した文字列を語尾活用させて辞書登録形式の見出し
に変形する語尾活用部3と、上記辞書検索前に、上記語
尾活用部3による文字列の語尾活用の際に推定された語
尾活用情報を利用して、上記切り出した文字列に対応す
る着目中の同定すべき形態素と直前に同定された形態素
よの連接の可否を判定し、連接不可と判定した上記着目
中の形態素を棄却する連接判定部4とを備えてなる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、機械翻訳システムやパ
−ザなどの処理の一環としてなされる形態素解析処理を
行なう形態素解析システム及びその形態素解析方式に関
し、特に日本語文の形態素解析処理において、隣合せと
なる2つの形態素の間の連接可否の判定時及び判定手段
に特徴を有する日本語形態素解析システム及び形態素解
析方式に関する。
【0002】
【従来の技術】機械翻訳システムやパ−ザなどでは、ま
ず入力文を形態素(単語)に分割し各形態素に構文情報
や意味情報を付加する形態素解析処理を行なうことが必
要不可欠である。通常、日本語を他の言語に翻訳する機
械翻訳システムや、日本語文に対するパ−ザなどに用い
られる形態素解析システムは、入力した日本語文を、辞
書情報を参照しながら最適な分割パターンを決定して形
態素に分割し、各形態素に構文情報や意味情報を付加
し、構文解析システムなどに解析した形態素情報を渡
す。
【0003】従来、このような形態素解析システムは、
日本語の形態素についての構文情報や意味情報を格納し
た辞書と、該上記辞書を検索する辞書検索部と、入力し
た日本語文から文字列を切り出す見出し切り出し部と、
上記辞書を検索して得られた辞書情報に基づいて上記切
り出された文字列に対応する形態素間の隣接可能性を判
定し最適な分割パターンを決定する連接判定部とを備え
ていた。そして上記辞書検索部は、辞書検索方式とし
て、検索する文字列の先頭文字で該当形態素を検索する
方式を採るのが一般的であった。また上記辞書は、形態
素の登録方式として、形態素の語幹と活用語尾とを分離
して登録する方式を採ることが多かった。また上記連接
判定部は、上記辞書の登録方式に伴って、特別なル−ル
やテ−ブルを用意して判定を行なっていた。
【0004】
【発明が解決しようとする課題】しかしながら、上述し
た従来の形態素解析システムは、必ずしも安定的かつ効
率の良いものではなく、ユーザにとって使いやすいもの
であるとは言えなかった。これは、主として以下に示す
ような、辞書検索部の辞書検索方式、連接判定部の連接
判定情報及び判定方式における問題に起因する。
【0005】1)辞書検索方式における問題 上記従来の辞書検索部による形態素の先頭文字で検索す
る方式の場合、次のような欠点があった。第1に、辞書
登録語数の多い実用的な辞書では、先頭文字が同じ語は
必然的に多くなる。従って、一度の先頭文字の指定の検
索によって、出力される語(形態素)の検索情報が膨大
な数になることがあり、この場合、検索に長時間を要す
ることがあった。例えば、入力文が「ABCDEFG」
として正解の形態素が「ABCD」であるとする。この
とき、この方式では「A」で始まる語でありさえすれば
「AFG」や「AF」などであっても検索していた。こ
のため、検索する無駄ばかりでなく、マッチングの無駄
にもなっていた。また、検索情報が多くなればなるほ
ど、システムで使用する主記憶領域が不足したり、解析
速度が遅くなったりするおそれもあった。
【0006】第2に、一般的な文字列の切り出し手法で
ある最長一致法を採用する形態素解析システムでは、切
り出された文字列より短い形態素も検索されてしまう
為、検索の無駄が多かった。上記の例で言えば、
「A」、「AB」、「ABC」が登録されていれば、そ
れらを検索していた。
【0007】第3に、最長一致法を採用する形態素解析
システムでは、正しい文字列の切り出しがされるまでに
必要以上に長い形態素も検索されてしまう為、検索の無
駄が多かった。上記の例で言えば、「ABCDFGD」
のように「ABCD」より長い見出しを検索していた。
特にこの場合は、入力文が「ABCD、FG」であって
「D」の次に区切り文字や文末(句点等)があるような
場合も、同様に「ABCDFGD」のような必要以上に
長い形態素を検索してしまうという問題点があった。
【0008】第4に、この方式では、文字列に対応する
形態素を検索してからマッチングするので、一見効率が
よさそうであるが、辞書登録語数の多い実用的な辞書で
は検索される形態素の数も多くなるため、余分なマッチ
ング処理が膨大になり、解析効率が悪くなるおそれがあ
った。
【0009】さらに、以上の欠点は、平仮名の見出しが
多い辞書や登録語数が多い辞書で特に顕著であった。
【0010】ところで、上述した欠点は、形態素の先頭
文字により検索を行なうことに起因するのだから、形態
素の見出しをフルスペルで指定して検索する方式を採れ
ば、上記のような欠点は全て解消される。
【0011】しかし、この検索方式では、先頭文字が同
じでもそれ以外の文字が異なるような見出しについてそ
れぞれ辞書検索をするため、検索の回数が多く、辞書検
索には物理的に一定の時間が必要であることから、解析
に膨大な時間がかかるおそれがあった。
【0012】この欠点は、本検索方式が、上述した先頭
文字による辞書検索方式に比して辞書検索の回数が多い
ことに起因する。このため従来の形態素解析システムで
は、先頭文字による辞書検索方式を採用し、マッチング
の手順やル−ルを工夫して解析効率の向上を図ろうとす
るのが一般的となっていた。
【0013】そこで、上記の欠点を解決するため、形態
素をフルスペルの見出しで指定して辞書を検索する方式
を採ったうえで、辞書の検索回数を削減する手段を実現
する事が第1の課題となる。
【0014】2)連接判定情報及び判定方式における問
題 従来は、連接判定情報として品詞情報のみを用いること
が多かった。この場合、連接判定条件が緩いため、通常
ありえない形態素の並びを許してしまい、誤った形態素
分割を行ったり、形態素の絞り込みが不十分なまま構文
解析等に多数の形態素を渡してしまうという欠点があっ
た。
【0015】この欠点を回避するため、形態素の品詞情
報以外に、活用情報、その他の形態的な情報(例えば見
出し等)を連接判定情報に付加し、特別なルールやテー
ブル(マトリックス)等を設定して連接判定を行なうこ
とも考えられているが、この場合も、通常は、品詞、活
用、見出しなどの多種類の情報のうちの任意の情報の組
み合わせに対して1つの固定的な連接判定コード(例え
ば連接判定マトリックスのインデックス)が付与されて
いることが多かった。
【0016】従って、同一の連接判定マトリックスを参
照する場合であっても、例えば、ある形態素の場合は品
詞のみ、またある形態素の場合は品詞と活用型、またあ
る形態素の場合は品詞と見出しなどの組み合わせに対し
て個別的に設定されている1つの連接判定コードによっ
て連接判定マトリックスを参照していた。
【0017】このため、ルールやテーブルの設定の仕方
によっては連接判定コードを付与し難く、ユーザが使い
にくいものとなるという欠点があった。また、1つの任
意の組み合わせに対して1つの連接判定コードを付与す
るという仕組みになっている為、全ての組み合わせに対
応するには限界があり、新しい文体が出現すると、絶え
ず新しい連接判定コードを設定し続けなければならず、
保守上手間がかかるという欠点もあった。
【0018】そこで、上記の欠点を解決するため、連接
判定に用いる情報を品詞、活用型、活用形とし、更にそ
れらを切り離して独立した3次元情報とし、前の形態素
の品詞、活用型、活用形に対して、後の形態素の品詞、
活用型が連接できるかどうかを判定する語尾活用レベル
の情報で規定される連接テーブルを設定することが望ま
しく、これが第2の課題となる。
【0019】
【課題を解決するための手段】上記の課題を解決するた
め、本発明の日本語形態素解析システムは、日本語形態
素について、少なくとも形態素の見出し、品詞、語尾活
用型の情報を格納してなる辞書を備え、入力された日本
語文における所定の範囲の文字列を文頭側から順に切り
出し、必要に応じて上記辞書を検索して、上記切り出し
た文字列に対応する形態素を同定していく日本語形態素
解析システムにおいて、上記切り出した文字列を語尾変
形させて、少なくともそれに付随して推定される辞書登
録形式の見出し、品詞類、語尾活用型、活用形を、上記
切り出した文字列に対応する形態素候補の情報として出
力する語尾活用部と、辞書検索前に、上記形態素候補の
少なくとも品詞類、語尾活用型の情報と、直前に同定さ
れた形態素の少なくとも品詞、語尾活用型、活用形の情
報とを用いて上記形態素候補と直前に同定された形態素
との連接可否を判定し、連接不可と判定した場合に上記
形態素候補を棄却する検索前連接判定部とを備えたこと
を特徴とする。
【0020】上記検索前連接判定部は、形態素候補の品
詞類の情報と直前に同定された形態素の品詞の情報とを
用いて品詞レベルでの連接可否を判定する連接テーブル
と、形態素候補の品詞類、語尾活用型の情報と直前に同
定された形態素の品詞、語尾活用型、活用形の情報とを
用いて語尾活用レベルでの連接可否を判定する連接テー
ブルとを備え、形態素候補と直前に同定された形態素と
の連接可否を、上記各連接テーブルを参照して判定する
ことを特徴とする。
【0021】また上記発明において、辞書を検索して得
られた形態素候補に対応する形態素について、上記形態
素候補に対応する形態素の品詞の情報と直前に同定され
た形態素の品詞の情報とを用いて、上記形態素候補に対
応する形態素と直前に同定された形態素との連接可否を
判定する検索後連接判定部を備えたことを特徴とする。
【0022】そして、上記検索後連接判定部が、辞書を
検索して得られた形態素候補に対応する形態素の品詞の
情報と直前に同定された形態素の品詞の情報とを用いて
品詞レベルでの連接可否を判定する連接テーブルを備え
てなることを特徴とする。
【0023】また、上記の課題を解決するため、上記の
ような日本語形態素解析システムにおける本発明の形態
素解析方式は、上記切り出した文字列を語尾変形させ
て、少なくともそれに付随して推定される辞書登録形式
の見出し、品詞類、語尾活用型、活用形を、上記切り出
した文字列に対応する形態素候補の情報として出力し、
辞書検索前に、上記形態素候補の少なくとも品詞類、語
尾活用型の情報と、直前に同定された形態素の少なくと
も品詞、語尾活用型、活用形の情報とを用いて上記形態
素候補と直前に同定された形態素との連接可否を判定
し、上記形態素候補と直前に同定された形態素とが連接
する可能性がないと判定した場合に、上記形態素候補を
棄却し、上記形態素候補と直前に同定された形態素とが
連接する可能性があると判定した場合に、上記形態素候
補について上記辞書を検索し、辞書を検索して得られた
上記形態素候補に対応する形態素の品詞の情報と直前に
同定された形態素の品詞の情報とを用いて、上記形態素
候補に対応する形態素と直前に同定された形態素との連
接可否を判定し、上記判定結果によって、上記切り出し
た文字列に対応する形態素を同定していくことを特徴と
する。
【0024】
【実施例】以下、本発明の実施例について図面を参照し
て説明する。図1は本発明の一実施例に係る形態素解析
システムの構成を示すブロック図である。
【0025】図示のように、本実施例の形態素解析シス
テムは、形態素を該形態素についての種々の情報ととも
に登録し格納してなる辞書10を備えるとともに、入力
した日本語文から文字列を切り出す見出し切り出し部2
と、見出し切り出し部2で切り出した文字列を語尾活用
させて辞書10に登録した形式の見出しに変形する語尾
活用部3と、語尾活用部3によって変形された文字列に
対応する形態素候補と直前の形態素との連接の可否を辞
書検索前に判定し連接可能性のある形態素候補のみに絞
り込む検索前連接判定部4と、上記形態素候補について
辞書10を検索する辞書検索部5と、辞書検索部5によ
る検索によって同定された形態素と直前の形態素との連
接の可否を判定する検索後連接判定部6と、所定の場合
に例外的な処理を行なうための例外処理部7と、これら
の各部を制御する制御部1とを備えてなる。
【0026】また、語尾活用部3の処理において参照す
る判定テーブルとして語尾活用テーブル31及び助詞テ
−ブル32と、検索前連接判定部4の処理において参照
する判定テーブルとして品詞−品詞類連接テーブル41
及び活用−活用連接テーブル42と、検索後連接判定部
6の処理において参照する判定テーブルとして品詞−品
詞連接テーブル61とを備えてなる。なお本実施例で
は、上記のように、辞書検索前における見出し切り出し
部2で切り出した文字列に対応すべき形態素を、未だ形
態素として同定されていないことから「形態素候補」と
称す。
【0027】上記辞書10は、登録した形態素につい
て、形態素の見出し、品詞、活用型といった形態素解析
で用いる語尾活用情報のほか、構文情報や意味情報など
を格納してある。語尾活用のある形態素の場合は、辞書
10に登録された形態素の見出しはその形態素の終止形
である。また語尾活用情報として少なくともその形態素
の品詞、活用型を格納してある。一方、語尾活用のない
形態素の場合は、そのままの見出しとし、語尾活用情報
としての活用型は無活用型としてある。語尾活用情報
は、後述するように、後に付加される活用形と共に、何
等変形することなくそのまま連接判定情報として用いる
ことができる。
【0028】また辞書10には、1つの形態素について
語幹と活用語尾とを分離することなく登録してある。
【0029】上記制御部1は、入力された日本語文を文
頭側の文字から順に着目していき、見出し切り出し部2
乃至例外処理部7の一連の処理によって同定した形態素
を、形態素列スタック(図示せず)に格納していく。以
後、形態素列スタックに格納された形態素は、検索前連
接判定部4や検索後連接判定部6などの処理において自
由に参照することができる。また、制御部1は、バック
トラック処理部、未知語確定部、形態素確定部を含む
(いずれも図示せず)。
【0030】ここで制御部1は、直前の形態素が確定し
た場合、及び入力文に対する一番最初の処理の場合に
は、確定した範囲の次の新しい文字に着目し、見出し切
り出し部2にその着目中の文字以降の文字列と着目中の
文字の位置を渡す。そして、着目中の文字に対して形態
素が確定できなかった場合のうち、1)検索前連接判定
部4において形態素候補が1つも連接できなかった場
合、2)辞書検索部5において形態素候補に対応する形
態素が1つも検索できなかった場合、あるいは1つもマ
ッチできなかった場合、3)検索後連接判定部6におい
て形態素が1つも連接できなかった場合、4)例外処理
部7において適当な形態素が1つも特定できなかった場
合なら、見出し切り出し部2にその着目中以降の文字列
と着目中の文字の位置を再び渡す。
【0031】一方、見出し切り出し部2において切り出
し不可とした場合なら、バックトラック処理を起動す
る。そして、バックトラック成功ならバックトラック処
理で同定された範囲の次の文字に着目の文字を移動す
る。バックトラック失敗なら未知語処理を起動し、その
後、未知語処理で同定された範囲の次の文字に着目中の
文字を移動する。上記見出し切り出し部2は、制御部1
から、入力文における着目中の文字以降の文字列と、入
力文における着目中の文字の位置を渡される。
【0032】見出し切り出し部2は、文字列及び着目中
の文字の位置を渡されると、着目中の文字を形態素候補
の見出しの先頭文字と仮定し、その形態素候補の見出し
として考えられる所定の範囲の文字列を、制御部1から
渡された文字列(着目中の文字以降の文字列)から切り
出す。
【0033】ここで見出し切り出し部2は、一般的に用
いられている「最長一致法」(最も長い形態素を優先す
る)を原則的に用いるものであるため、新たに着目され
た文字以降の文字列が制御部1から渡された場合には、
まず、着目中の文字以降の文字で考えられる所定の範囲
内(例えば、区切りを表わす文字を越えない範囲内と
か、辞書に登録されている形態素の最大見出し長を越え
ない範囲内など)での最も長い範囲の文字列を形態素候
補の見出しとして仮定し、その範囲の文字列を切り出
す。
【0034】但し、後の処理によって、この切り出した
文字列に該当する適当な形態素が見つからなかった場合
には、着目される文字が不変のまま、再び、着目された
文字以降の文字列が制御部1から渡されることになり
(上記2)〜4)参照)、この場合には、この切り出し
た文字列の末尾側の文字を1つ(必要なら任意個)削除
したものをより短い新たな形態素候補の見出しとして再
び切り出していく。
【0035】なお、見出し切り出し部2は、切り出した
文字列の範囲に関する情報、即ち、入力文における着目
中の文字、着目中の位置、切り出した文字列の長さ、等
を判定できる情報を保存しておく。この情報によって、
直前に切り出した文字列と、着目される文字が不変のま
ま同じ文字列が制御部1から渡されたかどうかを判定で
きることになり、不変である場合には、直前に切り出し
た文字列より短い文字列を切り出すこととなる。もちろ
ん、直前に切り出した文字列と着目される文字、すなわ
ち着目している位置が異なる場合には、このような制限
はない。
【0036】見出し切り出し部2は、制御部1より渡さ
れた文字列から1文字以上の文字列を切り出すことがで
きたときは、その切り出した文字列(形態素見出し候補
文字列)を語尾活用部3に渡す。1文字以上の文字列を
切り出すことができなかったときは、切り出し不可とし
て、制御部1に戻る。以上の見出し切り出し方の具体例
を図2に簡単に示す。
【0037】語尾活用部3は、見出し切り出し部2から
形態素見出し候補文字列を受け取る。そして、形態素見
出し候補文字列の末尾の形態から語尾活用の有無を判定
する。
【0038】形態素見出し候補文字列が語尾活用すると
判定した場合、語尾活用部3は、この形態素見出し候補
文字列を辞書登録形式の見出し(終止形の見出し)の活
用した見出しと仮定して、その形態素見出し候補文字列
を終止形の見出しに変形する。また、これとともに、そ
の変形に付随して推定される品詞類、語尾活用型や活用
形などの語尾活用情報等を取り込む。もちろん、語尾活
用がないと判定した場合、形態素見出し候補文字列を変
形せず、そのまま辞書登録形式の見出しと仮定して、そ
の無変形に対応する語尾活用情報等が取り込まれること
となる。尚、語尾活用部3において形態素見出し候補文
字列から変形あるいは無変形によって作成された形態素
の見出し候補を以下では「語尾活用見出し」と表現する
こととする。
【0039】語尾活用部3は、図3のような語尾活用テ
ーブル31を有しており、形態素見出し候補文字列の末
尾の1〜4文字の平仮名部分についてテーブルを参照
し、それによって推定される1)語尾活用見出し、2)
品詞類、3)語尾活用型、4)活用形といった情報を含
んだ当該形態素候補に関する情報(形態素候補情報)を
作成する。
【0040】なお、この形態素候補情報は語尾活用する
品詞類に対応しており、すなわち動詞類、形容詞類、形
容動詞類、助動詞類のいずれかに対するものとなってい
る。一方、通常は形態素見出し候補文字列が語尾活用し
ない形態素としての見出しである場合が考えられる。そ
こで語尾活用部3は、これらの語尾活用しない形態素候
補の品詞類を無活用類とし、語尾活用型を無活用型、活
用形を無活用形として上記1〜4の情報と同様な形式で
無活用の形態素候補の形態素候補情報も作成しておく。
ここで、品詞類とは、実際の形態素の品詞を大まかにグ
ル−プ分けしたもので、形態素候補について未だ辞書検
索がされていないことから、この品詞類を用いている。
【0041】また、語尾活用しない形態素とは、名詞
類、副詞類、助詞類などの形態素を指し、述語以外の全
ての品詞類の形態素が該当する。ただし、このうち助詞
類は隣り合う形態素と密接な連接関係を持つことが多
い。そのため本実施例の語尾活用部3では、語尾活用し
ない形態素候補の情報について、さらに助詞類に対応す
る形態素候補情報とその他の語尾活用しない形態素候補
情報とに区別している。
【0042】すなわち、語尾活用部3は、図4に示すよ
うな助詞テ−ブル32を有しており、形態素見出し候補
文字列を助詞テ−ブル32に順次照合し、それによって
推定される助詞類に対応する形態素候補情報を取り込
む。助詞テ−ブル32に照合した結果、助詞類としての
情報があったときは、無活用類としての形態素候補情報
ばかりではなく助詞類としての形態素候補情報も得られ
ることとなる。なお、ここでいう助詞類とは、格助詞
類、接続助詞類、終助詞類、副助詞類であり、実際の助
詞に対応する品詞を大まかにグル−プ分けしたものであ
る。
【0043】以上の処理の後、語尾活用部3は、得られ
た任意個の形態素候補情報を1つのリスト(形態素候補
群)としてまとめる。図5に形態素候補群の例を示す。
【0044】そして、語尾活用部3は、語尾活用によっ
て得られた形態素候補群を、検索前連接判定部4に渡
す。
【0045】上記検索前連接判定部4は、着目中の形態
素候補群のそれぞれの形態素候補が、直前に同定されて
いる文頭側に隣り合わせの形態素群のそれぞれの形態素
に連接できるかどうかを1つ1つ判定し、語尾活用部3
から受け取った形態素候補のうち、連接できる可能性の
ある形態素候補のみを選択して残りを排除する。
【0046】検索前連接判定部4は、図6に示すような
品詞−品詞類連接テーブル41を有しており、直前の形
態素の品詞と形態素候補の品詞類が連接できるかどうか
を判定するため、まず、既に同定した形態素を格納して
ある形態素列スタックを参照して直前の形態素群から1
つの形態素を取り出し、形態素候補群から1つの形態素
候補を取り出して、形態素の品詞(図6中の〈前〉)と
形態素候補の品詞類(図6中の〈後〉)の組み合わせで
品詞−品詞類連接テーブル41に照合し、該当する位置
にあるデータを取り込む。
【0047】以上の処理は、直前の形態素群と着目中の
形態素候補群のすべての形態素と形態素候補の組み合わ
せに対して行なう。図6における品詞−品詞類連接テー
ブル41のデータは、連接不可を示す“0”、連接可能
を示す“1”、連接不定(品詞レベルでは連接可能であ
るが、語尾活用レベルでは連接不定)を示す“2”のい
ずれかの数値である。
【0048】さらに検索前連接判定部4は、図7及び図
8に示すような活用−活用連接テーブル42を有してお
り、連接判定中の形態素の品詞及び形態素候補の品詞類
に対応する品詞−品詞類連接テーブル41のデータが
“2(連接不定)”に該当する場合、この活用−活用連
接テーブル42に照合する。この場合、該当する直前の
形態素の品詞(類)、活用型、活用形と、着目中の形態
素候補の品詞類、活用型によって活用−活用連接テーブ
ル42のデータが参照される。
【0049】ここで、「未然形1」の1は、同じ未然形
でも、例えば五段活用型の動詞「買う」の場合、「買
わ」のような一段目のものと「買お」のような五段目の
ものとがあり、それぞれ連接の可否が異なるため、それ
らを区別するために細分化したものである。他の活用形
についてもこれと同様に扱う。また、活用−活用連接テ
ーブル42のデータを参照する際、引数の1つとして直
前の形態素の「品詞」が渡されるが、連接テーブルのデ
ータは「品詞類」で共通になっており、渡された「品
詞」に対応する「品詞類」のデータが参照されることと
なる。同様に、形態素の活用型として、例えば、「バ行
下一段活用型」が渡されるが、連接テーブルのデータは
「下一段活用型」で共通になっており、そのデータが参
照される場合もある。
【0050】図7及び図8における活用−活用連接テー
ブル42のデータは、連接不可を示す“0”、連接可能
を示す“1”のいずれかの数値であるが、判りやすくす
るため、“連接可能”のように示してある。なお、図に
おいては、説明の都合上、一部の組み合わせのデータの
みを抜粋して記述してある。また、直前の形態素の特定
の品詞類、活用型、活用形に対して、連接可能である着
目中の形態素候補の特定の品詞類に対するデータのみを
記述してある。例えば図7(A)は、動詞類、ワ行五段
活用型、未然形1〜3に連接可能な助動詞類のみを示し
たものであり、ここにない助動詞類はすべて連接不可と
なる。
【0051】同様にして、図7(B)は、助動詞類、助
動詞ない活用型、連用形1〜3に連接可能な助詞類のみ
を示したものであり、ここにない助詞類はすべて連接不
可となる。図7(C)は、助動詞類、助動詞ない活用
型、連用形1〜3に連接可能な助動詞類のみを示したも
のであり、ここにない助動詞類はすべて連接不可とな
る。図8(D)は、動詞類、下一段活用型、未然形1〜
3に連接可能な助動詞類のみを示したものであり、ここ
にない助動詞類はすべて連接不可となる。図8(E)
は、動詞類、下一段活用型、連用形1〜3に連接可能な
助動詞類のみを示したものであり、ここにない助動詞類
はすべて連接不可となる。さらに、図8(F)は、動詞
類、下一段活用型、命令形1〜2に連接可能な助動詞類
はないことを示したものである。
【0052】したがって、例えば直前の形態素が下記の
表1に示すような情報を持つとき、着目中の形態素候補
が助動詞類であっても、その語尾活用型が「助動詞せる
活用型」、「助動詞れる活用型」、「助動詞ない活用
型」、「助動詞ぬ活用型」以外の場合には、図7(A)
に示したようにデータは連接不可(“0”)であり、こ
の形態素と形態素候補とは連接できないこととなる。こ
の場合、「買う」は「未然形1」であるので、「未然形
3」に連接できる「助動詞う活用型」は無関係である。
なお、図7及び図8においては示していないが、動詞類
の未然形1〜3に接続できる品詞類は助動詞類しかな
い。したがって、表1に示した形態素に対しては、当然
ながら助動詞類以外の品詞類は連接できないこととな
る。
【0053】
【表1】
【0054】さらに、例えば形態素「調べる(動詞の命
令形『調べよ』)」と形態素候補「う(助動詞うの終止
形『う』)」との連接可否を判定する場合、「調べる」
に対応する形態素の情報及び「う」に対応する形態素候
補の情報が下記の表2のように得られたとする。これを
活用−活用連接テーブル42に照合すると、下記の表3
のようになり、これらは連接できないと判定する。した
がって、辞書検索前に「う」に対応する形態素候補を棄
却でき、辞書検索を行なう必要がなくなる。
【0055】
【表2】
【0056】
【表3】
【0057】上述した活用−活用連接テーブル42は、
純粋な文法、すなわち形態素の品詞類、語尾活用型、活
用形といった独立した3種類の一般的な情報によってき
まるデータで照合するようになっており、システム内部
の固有データを設定する必要はない。また語尾活用しな
い形態素でも、助詞のようにその連接に一定の規則があ
るものは、同様に扱うことができる。
【0058】以上によって、検索前連接判定部4は、渡
された形態素候補群の形態素候補のうち直前の形態素群
のいずれかの形態素に連接可能な形態素候補のみに絞り
込んだ新たな形態素候補群を作成する。これによって、
形態素候補の数を辞書検索前に大幅に減らすことが可能
となり、辞書検索回数を減らすことができる。なお、検
索前連接判定部4において、語尾活用レベルの情報を用
いた連接判定を行なっているので、「動詞と助動詞」と
いった品詞レベルのみの情報を用いた連接判定では棄却
できなかったものまで棄却できる場合が多く、解析精度
の向上を図ることができる。
【0059】以上の処理の後、検索前連接判定部4は、
形態素候補群の形態素候補のうち直前の形態素に連接で
きるものが1つ以上存在するときは、その直前の形態素
に連接できる形態素候補の情報を新たな形態素候補群と
して辞書検索部5に渡す。一方、形態素候補群の形態素
候補のうち1つも直前の形態素に連接できなかったとき
は、適当な形態素候補がないとみなし、制御部1を経由
して見出し切り出し部2に進む。
【0060】上記辞書検索部5は、検索前連接判定部4
から渡された形態素候補群の全ての形態素候補に対し
て、まず、語尾活用部3によって変形されたフルスペル
の見出し(語尾活用見出し)で辞書10を検索し、登録
されているなら、その形態素についての情報(形態素情
報)を取り込む。そして、辞書検索して得られた形態素
情報と語尾活用部3の処理によって得られた形態素候補
情報とが一致するものだけを形態素として取り込み、残
りを排除する。
【0061】ここでは、入力文の同じ切り口に対して、
多義、多品詞を認めているので、複数の形態素が同じカ
ラムの情報として取り込まれる。また、辞書検索して得
られた形態素情報には、活用形が格納されていないの
で、形態素情報と形態素候補情報とが一致した場合には
形態素候補情報にある活用形を形態素情報に格納して出
力情報とする。例えば、下記の表4において、入力文の
文字列が「買わ」であって、形態素候補情報の語尾活用
見出しが「買わ」、「買う」の場合、辞書検索の結果
「買う」についてのみ辞書登録されている(形態素情報
)ことから、表4に示した出力情報を得る。
【0062】
【表4】
【0063】なお、形態素候補情報に、同じ語尾活用見
出しの形態素候補が複数存在することがあるが、本実施
例の辞書検索部5は、同じ語尾活用見出しでは1度しか
検索しないように工夫してある。例えば、上記表4にお
いて、入力文の文字列が「なかっ」であって、形態素候
補情報の語尾活用見出しが「ない」の場合、語尾活用見
出し「ない」が2つあるが、その語尾活用見出しに対し
て1度だけ辞書検索されて(形態素情報)表に示した
出力情報を得る。なお、ここでは入力文の文字列の最
後が「っ」であるため、「なかっ」に対する無活用類と
しての形態素候補の情報を出力しないように工夫してあ
る。
【0064】以上の処理の後、辞書検索部5は、形態素
情報が検索されて形態素候補情報と一致するものが1つ
以上見つかった場合には、その形態素情報のリスト(形
態素群)を検索後連接判定部6に渡す。また、形態素情
報が1つも検索できなかった場合、もしくは、形態素情
報が検索されたものの形態素候補情報と一致するものが
なかった場合には、適当な形態素がないとみなし、制御
部1を経由して見出し切り出し部2に進む。
【0065】上記検索後連接判定部6は、辞書検索部5
によって辞書検索された着目中の形態素が直前に同定さ
れた形態素と連接できるかどうか、すなわち、構文的に
隣り合わせの形態素として文中に位置することができる
かどうかを判定する。
【0066】検索後連接判定部6は、図9に示すような
品詞−品詞連接テーブル61を有しており、直前の形態
素の品詞(品詞類ではない)と検索された形態素の品詞
(品詞類ではない)が連接できるかどうかを判定するた
め、まず、形態素列スタックを参照して直前の形態素群
から1つの形態素を取り出し、着目中の形態素群から1
つの形態素を取り出して、直前の形態素の品詞(図9中
の〈前〉)と着目中の形態素の品詞(図9中の〈後〉)
の組み合わせで、品詞−品詞連接テーブル61に照合
し、該当する位置にあるデータを取り込む。なお、ここ
でいう品詞とは、品詞類とは異なり、品詞類をより細分
化したものであり、品詞−品詞連接テーブル61におけ
るデータは、同じ品詞類に属する品詞であっても別々に
設定される。したがって、検索前連接判定部4で用いた
品詞−品詞類連接テーブル41より厳密な連接判定を行
なうことができる。
【0067】以上の処理は、直前の形態素群のすべての
形態素と辞書検索された着目中の形態素群のすべての形
態素との組み合わせに対して行なう。図9における品詞
−品詞連接テーブル61のデータは、連接不可を示す
“0”、連接可能を示す“1”のいずれかの数値であ
り、例えば、下記の表5のようになる。
【0068】
【表5】
【0069】以上の処理によって、最終的に直前の形態
素群のいずれか1つ以上の形態素に連接可能と判定され
た着目中の形態素の集合を新たな着目中の形態素群とす
る。
【0070】この後、検索後連接判定部6は、着目中の
形態素群の要素として形態素が1つ以上残った場合に
は、それら着目中の形態素を入力文における所定の範囲
の文字列に対応する形態素として同定し、その着目中の
形態素群を例外処理部7を経由して制御部1に渡す。ま
た、辞書検索された形態素のうちの1つも直前の形態素
に連接できなかった場合には、例外処理部7に進むこと
なく、制御部1を経由して見出し切り出し部2に進む。
【0071】上記例外処理部7は、最長一致法による弊
害を取り除いたりするため必要に応じて個別的な手続き
型ル−ルを起動し処理を行ない、不適当な形態素がある
場合には、それを棄却する。
【0072】制御部1は、着目中の文字を先頭とする形
態素の切り出しに失敗した場合はバックトラック処理を
起動する。すなわち、着目中の文字以降に、その着目中
の文字を先頭とする形態素が見つからなかった場合、あ
るいは連接できる形態素がなかった場合に既に仮に確定
している形態素を分割し直す。
【0073】最終的に、着目中の文字を見出しとして含
む形態素が見つかった場合は、その新しい切り出し方と
その形態素群を制御部1に渡す。着目中の文字を見出し
として含む形態素が見つからなかった場合は、その着目
中の文字を含む所定の範囲の文字列に対応する部分を辞
書未登録語とし、検索前に推定した形態素候補情報等を
参考にして品詞等を推定して、1つの形態素として同定
し、その情報を制御部1に渡す。
【0074】上述したように、制御部1は、以上のよう
にして同定された形態素(群)を形態素列スタックに順
次格納していく。但し、直前の形態素も辞書未登録語で
ある場合には、その直前の形態素の見出しの範囲に、着
目中の文字を吸収して格納する。
【0075】次に、具体的な例文の形態素解析処理例を
示し、本実施例の作用を詳細に説明する。 [第一解析処理例]図10乃至図14に、本実施例によ
り「買わなかったいか」という文(名詞句)を形態素解
析処理した場合の処理例を示す。上記日本語文は、最長
一致法に基づく制御部1乃至例外処理部7の一連の処理
により、まず、文頭の文字「買」に着目されて順次図1
0及び図11に示すように文字列を切り出され、形態素
の同定が行なわれる。
【0076】ここでは、最終的に文字列「買わ」が切り
出され、見出しを「買う」とする動詞(活用型:ワ行五
段活用型、活用形:未然形1)として同定される。通
常、助詞類や助動詞類のような付属語以外は、文頭に位
置することが可能であるため、たとえ辞書検索前に連接
判定を行なっても、文頭の形態素候補を棄却できること
は文中に位置する形態素候補に比べて少ない。したがっ
て、本実施例においても図示のように、形態素「買わ」
が同定されるまでに22種類の語尾活用見出しについて
処理がされるが、検索前連接判定部4の処理によって連
接不可と判定されるものはない。
【0077】ちなみに、本実施例においては、語尾活用
部3において、語尾活用テーブル31や助詞テーブル3
2を参照して助詞類や助動詞類の存在の可能性を判定し
ており、特にこの場合は、語尾活用部3において、
「買」で始まる形態素見出し候補文字列に助詞類や助動
詞類の形態素が対応する可能性を棄却している。このた
め、検索前連接判定部4に助詞類や助動詞類に対応する
形態素候補情報は渡されていない。
【0078】しかしながら、仮に、検索前連接判定部4
に助詞類や助動詞類の形態素候補が渡された場合(例え
ば「はが痛い」を解析して「は」を切り出したときに
は、「は」に対して名詞類(無活用類)としてだけでな
く、助詞類としての形態素候補が渡される)には、検索
前連接判定部4の処理によって、助詞類としての形態素
候補が連接不可と判定されることとなる。
【0079】次に、図12に示すように、「なかったい
か」について解析処理が行なわれ、「なかった」の文字
列に対して、見出しを「ない」とする助動詞(活用型:
助動詞ない活用型、活用形:連用形3)という形態素が
同定される。図示のように、形態素「ない」が同定され
るまでに16種類の語尾活用見出しについて処理がさ
れ、そのうち15種類の語尾活用見出しについて検索前
連接判定部4の処理によって連接不可と判定され、辞書
検索が省略される。
【0080】なお、本実施例においては、同じ語尾活用
見出しを持つ形態素候補情報が複数存在する場合でも、
効率を考慮して、その語尾活用見出しで1度しか辞書検
索を行なわない。したがって、同じ語尾活用見出しを持
つ複数の形態素候補情報がある場合には、すべての形態
素候補情報が検索前連接判定部4の処理によって連接不
可と判定されない限り、その語尾活用見出しで辞書検索
を行なうこととなる。例えば、図12において「ない」
に対する形態素候補情報は、形容詞類に対するものと助
動詞類に対するものの2種類存在するが、検索前連接判
定部4の処理によって形容詞類に対するものしか棄却さ
れていないので、「ない」で辞書検索を行なっている。
【0081】同様にして、図13に示すように、「たい
か」について解析処理が行なわれ、「た」の文字列に対
して、見出しを「た」とする助動詞(活用型:助動詞た
過活用型、活用形:終止形1または連体形1)という形
態素が同定される。図示のように、形態素「た」が同定
されるまでに11種類の語尾活用見出しについて処理が
され、そのうち10種類の語尾活用見出しについて検索
前連接判定部4の処理によって連接不可と判定され、辞
書検索が省略される。
【0082】なお通常は、品詞レベルの情報のみを用い
た連接判定(もしくは連接判定を行なわない場合)にお
いては、助動詞の後に助動詞が連接できるので、例えば
「なかっ」(助動詞)の後に「たい」(助動詞)も連接
できると判定され、「たい」という形態素候補について
辞書検索しなければならないが、本実施例においては、
検索前連接判定部4において語尾活用レベルの情報を用
いた連接判定を行なっているため、図13に示すように
これらの形態素候補を辞書検索前に棄却できる。
【0083】最後に、図14に示すように、「いか」に
ついて解析処理が行なわれ、「いか」の文字列に対し
て、見出しを「いか」とする名詞(活用型:無活用型、
活用形:無活用形)という形態素が同定される。なお、
ここでは、「いく」という動詞に対応する形態素候補に
ついても辞書検索が行なわれ、これに対応する形態素が
見つかるが、後の文末(句点)との連接判定において棄
却(無視)される。
【0084】以上説明したように、本実施例では、検索
前連接判定部4で連接不可と判定された形態素候補につ
いては辞書検索を行なわないため、辞書検索回数が大幅
に減り、解析処理全体にかかる時間も大幅に短縮される
こととなる。
【0085】[第二解析処理例]次に、本実施例により
「調べよう」という文を形態素解析処理した場合の処理
例を示す。上記日本語文は、最長一致法に基づく制御部
1乃至例外処理部7の一連の処理により、最初は「調べ
よ」に対する形態素が同定され、次に「う」に対する形
態素候補が語尾活用部3の処理により推定され、これら
に対する形態素情報、形態素候補情報は上記表2に示し
たようになる。
【0086】検索前連接判定部4は、表2の「調べよ」
に対する形態素情報と「う」に対する形態素候補情報
を、まず品詞−品詞類連接テーブル41に照合する。こ
こでは動詞と助動詞類の組み合わせのため連接不定と判
定する。次に表2の上記形態素情報と上記形態素候補情
報を、活用−活用連接テーブル42に照合して上記表3
に示した情報を得る。
【0087】ここでは、下一段活用型の命令形2にはい
かなる助動詞も連接できないため連接不可と判定する。
そのため、「う」に対して辞書検索は行なわれず、さら
に「う」より短い見出しを切り出せないので、直前に同
定した「調べよ」に対応する形態素が棄却され、バック
トラックが行なわれて、今後は、「調べ」に対する形態
素情報と「よう」に対する形態素候補情報が表6のよう
に得られる。
【0088】
【表6】
【0089】検索前連接判定部4は、上記表6の「調
べ」に対する形態素情報と「よう」に対する形態素候補
情報を、まず品詞−品詞類連接テーブル41に照合す
る。ここでは動詞と助動詞類の組み合わせのため連接不
定と判定する。次に表6の上記形態素情報と上記形態素
候補情報を、活用−活用連接テーブル42に照合すると
下記の表7のようになる。
【0090】
【表7】
【0091】ここでは、下一段活用型の未然形2に助動
詞よう活用型が連接でき、下一段活用型の連用形1に助
動詞よう活用型が連接できないため、「調べ」に対応す
る2つの形態素のうち連用形1の形態素を棄却し、未然
形2の形態素を同定する。以上の処理において、仮に品
詞レベルの情報のみを用いた連接関係しか判定しないな
らば、例えば、動詞と助動詞は常に連接可能となるた
め、形態素の分割の精度が低く、また無駄な辞書検索を
棄却することもできない。しかし、上述したように本実
施例によれば、そのような誤った分割パタ−ンを棄却
し、正確な分割パタ−ンを得ることができ、しかもこの
処理過程は辞書検索前に行なわれるので、辞書検索回数
を大幅に低減できる。
【0092】
【発明の効果】以上説明したように、本発明の日本語形
態素解析システム及び形態素解析方式は、切り出した文
字列を語尾活用させて辞書登録形式の見出しに変形し、
その際に推定された語尾活用レベルの情報と、直前に同
定された形態素の語尾活用レベルの情報との間の関係に
基づいて、辞書検索前に、上記形態素候補と直前に同定
された形態素との連接の可否について判定し、連接する
可能性がないと判定した場合に該形態素候補を棄却する
こととしたため、辞書検索の回数を大幅に減らし、解析
効率を向上させることができるという効果がある。
【0093】さらに、語尾活用レベルの連接判定データ
を一般的な文法に添った形の3種類の独立した情報で定
義したため、連接テーブルの設定が容易に行なえるとい
う効果がある。
【図面の簡単な説明】
【図1】本発明の日本語形態素解析システムの構成を示
すブロック図である。
【図2】本実施例による形態素見出し候補文字列の切り
出し処理例を示す図である。
【図3】本実施例に用いる語尾活用テーブルを示す図で
ある。
【図4】本実施例に用いる助詞テーブルを示す図であ
る。
【図5】語尾活用部の処理によって得られた形態素候補
群の例を示す図である。
【図6】本実施例に用いる品詞−品詞類連接テーブルを
示す図である。
【図7】本実施例に用いる活用−品詞類連接テーブルを
示す図である。
【図8】同上の活用−品詞類連接テーブルを示す図であ
る。
【図9】本実施例に用いる品詞−品詞連接テーブルを示
す図である。
【図10】本実施例に用いる活用−活用連接テーブルを
示す図である。
【図11】同上の活用−活用連接テーブルを示す図であ
る。
【図12】本実施例による解析処理例を示す図である。
【図13】本実施例による解析処理例を示す図である。
【図14】本実施例による解析処理例を示す図である。
【図15】本実施例による解析処理例を示す図である。
【図16】本実施例による解析処理例を示す図である。
【符号の説明】
1 制御部 2 見出し切り出し部 3 語尾活用部 4 検索前連接判定部 5 辞書検索部 6 検索後連接判定部 7 例外処理部 10 辞書 31 語尾活用テーブル 32 助詞テーブル 41 品詞−品詞類連接テーブル(品詞レベルの情報で
規定される連接テーブル) 42 活用−活用連接テーブル(語尾活用レベルの情報
で規定される連接テーブル) 61 品詞−品詞連接テーブル(品詞レベルの情報で規
定される連接テーブル)
【手続補正書】
【提出日】平成5年2月23日
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】図面の簡単な説明
【補正方法】変更
【補正内容】
【図面の簡単な説明】
【図1】本発明の日本語形態素解析システムの構成を示
すブロック図である。
【図2】本実施例による形態素見出し候補文字列の切り
出し処理例を示す図である。
【図3】本実施例に用いる語尾活用テーブルを示す図で
ある。
【図4】本実施例に用いる助詞テーブルを示す図であ
る。
【図5】語尾活用部の処理によって得られた形態素候補
群の例を示す図である。
【図6】本実施例に用いる品詞−品詞類連接テーブルを
示す図である。
【図7】本実施例に用いる活用−品詞類連接テーブルを
示す図である。
【図8】同上の活用−品詞類連接テーブルを示す図であ
る。
【図9】本実施例に用いる品詞−品詞連接テーブルを示
す図である。
【図10】本実施例に用いる活用−活用連接テーブルを
示す図である。
【図11】同上の活用−活用連接テーブルを示す図であ
る。
【図12】本実施例による解析処理例を示す図である。
【図13】本実施例による解析処理例を示す図である。
【図14】本実施例による解析処理例を示す図である。
【符号の説明】 1 制御部 2 見出し切り出し部 3 語尾活用部 4 検索前連接判定部 5 辞書検索部 6 検索後連接判定部 7 例外処理部 10 辞書 31 語尾活用テーブル 32 助詞テーブル 41 品詞−品詞類連接テーブル(品詞レベルの情報で
規定される連接テーブル) 42 活用−活用連接テーブル(語尾活用レベルの情報
で規定される連接テーブル) 61 品詞−品詞連接テーブル(品詞レベルの情報で規
定される連接テーブル)

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 日本語形態素について、少なくとも形態
    素の見出し、品詞、語尾活用型の情報を格納してなる辞
    書を備え、 入力された日本語文における所定の範囲の文字列を文頭
    側から順に切り出し、必要に応じて上記辞書を検索し
    て、上記切り出した文字列に対応する形態素を同定して
    いく日本語形態素解析システムにおいて、 上記切り出した文字列を語尾変形させて、少なくともそ
    れに付随して推定される辞書登録形式の見出し、品詞
    類、語尾活用型、活用形を、上記切り出した文字列に対
    応する形態素候補の情報として出力する語尾活用部と、 辞書検索前に、上記形態素候補の少なくとも品詞類、語
    尾活用型の情報と、直前に同定された形態素の少なくと
    も品詞、語尾活用型、活用形の情報とを用いて上記形態
    素候補と直前に同定された形態素との連接可否を判定
    し、連接不可と判定した場合に上記形態素候補を棄却す
    る検索前連接判定部とを備えたことを特徴とする日本語
    形態素解析システム。
  2. 【請求項2】 検索前連接判定部が、形態素候補の品詞
    類の情報と直前に同定された形態素の品詞の情報とを用
    いて品詞レベルでの連接可否を判定する連接テーブル
    と、形態素候補の品詞類、語尾活用型の情報と直前に同
    定された形態素の品詞、語尾活用型、活用形の情報とを
    用いて語尾活用レベルでの連接可否を判定する連接テー
    ブルとを備え、 形態素候補と直前に同定された形態素との連接可否を、
    上記各連接テーブルを参照して判定することを特徴とす
    る請求項1に記載の日本語形態素解析システム。
  3. 【請求項3】 辞書を検索して得られた形態素候補に対
    応する形態素について、上記形態素候補に対応する形態
    素の品詞の情報と直前に同定された形態素の品詞の情報
    とを用いて、上記形態素候補に対応する形態素と直前に
    同定された形態素との連接可否を判定する検索後連接判
    定部を備えたことを特徴とする請求項1又は請求項2に
    記載の日本語形態素解析システム。
  4. 【請求項4】 検索後連接判定部が、辞書を検索して得
    られた形態素候補に対応する形態素の品詞の情報と直前
    に同定された形態素の品詞の情報とを用いて品詞レベル
    での連接可否を判定する連接テーブルを備えてなること
    を特徴とする請求項3に記載の日本語形態素解析システ
    ム。
  5. 【請求項5】 日本語形態素について、少なくとも形態
    素の見出し、品詞、語尾活用型の情報を格納してなる辞
    書を備え、 入力された日本語文における所定の範囲の文字列を文頭
    側から順に切り出し、必要に応じて上記辞書を検索し
    て、上記切り出した文字列に対応する形態素を同定して
    いく日本語形態素解析システムの形態素解析方式におい
    て、 上記切り出した文字列を語尾変形させて、少なくともそ
    れに付随して推定される辞書登録形式の見出し、品詞
    類、語尾活用型、活用形を、上記切り出した文字列に対
    応する形態素候補の情報として出力し、 辞書検索前に、上記形態素候補の少なくとも品詞類、語
    尾活用型の情報と、直前に同定された形態素の少なくと
    も品詞、語尾活用型、活用形の情報とを用いて上記形態
    素候補と直前に同定された形態素との連接可否を判定
    し、 上記形態素候補と直前に同定された形態素とが連接する
    可能性がないと判定した場合に、上記形態素候補を棄却
    し、上記形態素候補と直前に同定された形態素とが連接
    する可能性があると判定した場合に、上記形態素候補に
    ついて上記辞書を検索し、 辞書を検索して得られた上記形態素候補に対応する形態
    素の品詞の情報と直前に同定された形態素の品詞の情報
    とを用いて、上記形態素候補に対応する形態素と直前に
    同定された形態素との連接可否を判定し、 上記判定結果によって、上記切り出した文字列に対応す
    る形態素を同定していくことを特徴とする形態素解析方
    式。
JP4214523A 1992-07-20 1992-07-20 日本語形態素解析システム及び形態素解析方式 Expired - Fee Related JP2897942B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4214523A JP2897942B2 (ja) 1992-07-20 1992-07-20 日本語形態素解析システム及び形態素解析方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4214523A JP2897942B2 (ja) 1992-07-20 1992-07-20 日本語形態素解析システム及び形態素解析方式

Publications (2)

Publication Number Publication Date
JPH0635957A true JPH0635957A (ja) 1994-02-10
JP2897942B2 JP2897942B2 (ja) 1999-05-31

Family

ID=16657136

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4214523A Expired - Fee Related JP2897942B2 (ja) 1992-07-20 1992-07-20 日本語形態素解析システム及び形態素解析方式

Country Status (1)

Country Link
JP (1) JP2897942B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2972822A1 (fr) 2011-03-18 2012-09-21 Semiocast Procede et dispositif permettant de reperer et d'etiqueter des pics, des augmentations ou des variations anormales ou execptionnelles du debit d'un flux de documents numeriques

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01258069A (ja) * 1988-04-08 1989-10-16 Hitachi Ltd 日本語文字列の形態素解析方式

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01258069A (ja) * 1988-04-08 1989-10-16 Hitachi Ltd 日本語文字列の形態素解析方式

Also Published As

Publication number Publication date
JP2897942B2 (ja) 1999-05-31

Similar Documents

Publication Publication Date Title
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
US5680628A (en) Method and apparatus for automated search and retrieval process
US7912705B2 (en) System and method for extracting information from text using text annotation and fact extraction
US6269189B1 (en) Finding selected character strings in text and providing information relating to the selected character strings
US6101492A (en) Methods and apparatus for information indexing and retrieval as well as query expansion using morpho-syntactic analysis
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JPH1153384A (ja) キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体
JPH0724055B2 (ja) 単語分割処理方法
JPH0567144A (ja) 前編集支援方法およびその装置
JPH08292955A (ja) 言語処理方法及びそれを適用するデータ処理装置
JPH0635957A (ja) 日本語形態素解析システム及び形態素解析方式
JP2897191B2 (ja) 日本語形態素解析システム及び形態素解析方式
JPH07134720A (ja) 文章作成システムにおける関連情報提示方法及び装置
JPS61248160A (ja) 文書情報登録方式
JPH07230468A (ja) キーワード自動抽出装置およびキーワード自動抽出方法
JP2902343B2 (ja) 言語解析システムおよび方法
JP4262529B2 (ja) 全文検索装置、方法、プログラム及び記録媒体
JP3508312B2 (ja) キーワード抽出装置
JPH0561902A (ja) 機械翻訳システム
JP4361143B2 (ja) テキスト翻訳方法と装置
JP3161660B2 (ja) キーワード検索方法
JPH07141381A (ja) 電子辞書表示装置
JP3884001B2 (ja) 言語解析システムおよび方法
JPH09160929A (ja) 文書処理装置及び方法
JPH0227473A (ja) 文書編集方法

Legal Events

Date Code Title Description
S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090312

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100312

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100312

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110312

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110312

Year of fee payment: 12

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110312

Year of fee payment: 12

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110312

Year of fee payment: 12

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110312

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120312

Year of fee payment: 13

LAPS Cancellation because of no payment of annual fees