JPH01296373A - 未登録語処理方法 - Google Patents
未登録語処理方法Info
- Publication number
- JPH01296373A JPH01296373A JP63127259A JP12725988A JPH01296373A JP H01296373 A JPH01296373 A JP H01296373A JP 63127259 A JP63127259 A JP 63127259A JP 12725988 A JP12725988 A JP 12725988A JP H01296373 A JPH01296373 A JP H01296373A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- word
- unregistered
- words
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000004458 analytical method Methods 0.000 claims abstract description 24
- 230000008569 process Effects 0.000 claims abstract description 23
- 238000001514 detection method Methods 0.000 claims description 18
- 238000003672 processing method Methods 0.000 claims description 8
- 239000002245 particle Substances 0.000 description 13
- 230000011218 segmentation Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000000877 morphologic effect Effects 0.000 description 2
- 241000723353 Chrysanthemum Species 0.000 description 1
- 235000007516 Chrysanthemum Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008570 general process Effects 0.000 description 1
- 230000004313 glare Effects 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
技術分野
本発明は、日本語の文章解析において1日本語文章を入
力して文章解析(形態素解析、構文解析、意味解析など
)する際に辞書に未登録の単語の存在による誤解析を回
避するための未登録語処理方法に関する。 従来技術 一般に、日本語文章の文章解析を行う場合、最初に、当
該日本語文章を単語単位に分割する。この分割処理は、
予め辞書に登録されていた単語とのマツチング処理によ
り判断されるが、文章中に辞書に未登録の単語が存在す
ると、マツチングできず、単語の同定が困難になること
が多い。また、一般に辞書には相当量の単語が登録され
るが、多くの分野の入力文章に対処して出現する全ての
単語を登録することは不可能である。 従来1日本語文章処理において、辞書に未登録の単語が
検知された場合には、漢字、ひらがな、カタカナなど字
種によって単語に分割したり、或いは文章を後方にサー
チし辞書に存在する単語の始まりから解析を再開して当
該単語を未登録語とすることにより処理している。 このような従来の未登録語処理方法によると、特に、混
ぜ書き、ひらがな、活用語、接辞などの単語に関して正
しく単語分割できないことが多く、解析の精度が低いも
のとなっている。 目的 本発明は、このような点に鑑みなされたもので、日本語
文章を入力して解析する際、辞書に未登録の単語の存在
による誤解析を低減させるための未登録語処理方法を提
供することを目的とする。 構成 本発明は、上記目的を達成するため、入力された日本語
文章を予め作成された辞書中の単語とのマツチングによ
り単語単位に分割する文章処理における未登録語処理方
法において、前記辞書中に存在しなかった未登録文字列
を検出する未登録語検出部を備え、前記辞書中に存在し
ない文字列又は文法的に接続不可能な文字列が検出され
たとき、当該文字列を後方へスキップして少なくとも1
つの条件により解析処理を再開できる文字以前を未知文
字列として未登録語を検出し、さらには、当該未知文字
列以前に解析された先行する単語列と当該未知文字列以
降に解析された後続する単語列を参照し少なくとも1つ
の連結規則に応じて先行又は後続の単語列の一部の単語
文字列と当該未知文字列を連結して未登録語として検出
することを特徴とする。 以下、本発明の第一の実施例を第1図及び第2図に基づ
いて説明する。まず、本実施例のブロック構成は、第2
図に示すように、未登録語処理対象文字列設定部1と、
未知文字列検出部(未登録語検出部)2と、単語分割処
理部3と、単語辞書4と、未登録語文字列出力部5とよ
りなる。 このような構成において、概略処理を説明する。 まず、文章解析に入力された日本語文章を予め作成され
た単語辞書4中の単語とのマツチング処理により、単語
分割処理部3で単語単位に分割する。 この分割処理の際、前記単語辞書4に登録されていない
文字列或いは文法的に接続不可能な文字列が未知文字列
検出部2により検出されると、未登録語処理対象文字列
設定部1に送出され、処理に供される。この未登録語処
理対象文字列設定部1への入力は、当該文字列までの文
章解析結果と、当該文字列を含む、当該文字列以降の1
文又は文章などである。これに対し、未登録語処理対象
文字列設定部1では、まず、入力された文字列の先頭か
ら適当な条件(例えば、字種の変わり目、文節、句点、
読点など)で区切ることのできる文字までを、前記対象
文字列に設定する。未知文字列検出部2では未登録語処
理対象文字列設定部1から受けた前記対象文字列を後方
へスキップしながら、単語分割処理をして、未知文字列
検出の適当な条件で単語分割処理を終了して抽出された
単語以前を未知文字列とする。未登録語文字列出力部5
では、この未知文字列検出部2から出力される当該未知
文字列を未登録語文字列として出力する。 いま、具体例を挙げて、上記処理を説明する。 例えば、「野党をにらみつつ」を入力した時、「にらむ
」という単語が単語辞書4に未登録であった場合に、次
のような情報が未登録語処理対象文字列設定部1に入力
されることを考える。 野党 を にらみつつ、 (名詞)(格助詞) ここに、単語分割処理は文章の後方に向かって「をJま
で進んでいるが、この単語に後続する、Fに」から始ま
る単語がマツチングできなかったことを示している。こ
れらの情報を受けて未登録語処理対象文字列設定部1で
未登録語処理対象文字列を定めるが、ここでは文節を区
切りとして、まず「にらみっつ」を未登録語処理対象文
字列とする。 次に、未知文字列検出部2において前記対象文字列を第
1図に示すフローチャートに従い単語分割する。この処
理は、前記対象文字列の先頭がら後方へ1文字ずつスキ
ップしながら単語を検索することにより行うが、単語分
割が未登録語処理対象文字列の末尾文字まで成功した場
合(即ち、未知文字列直後から文節末までの文字列に対
して単語分割処理を施した結果、文節末まで単語分割が
可能となった場合)又は前記対象文字列をスキップして
末尾に達した場合に終了する。この他、例えば単語分割
処理により抽出された単語列の少なくとも1単語に関す
る文字表記(漢字、ひらがな等の字種その他)の情報、
形態素情報、単語意味分類情報、或いは未知文字列を含
む1文中の構文情報等を、解析処理再開と判断するため
の判定規則としてもよい。即ち、第1図中の検出判定処
理では、第1表に示すような判定規則(代表的なる簡単
なもののみを抽出して示す)を参照し、その条件を満た
すときに検出できたと判定し、先頭からn文字を未登録
語文字列とするものである。 第1表 ここに、未登録語処理対象文字列が「にらみつつ」なる
具体例の場合であれば、未知文字列「にらJ (n=
2)の後の「みつつ」から名詞「みつ」が抽出されるが
、当該単語に後続するrつ」なる単語は文法的に存在せ
ず、単語分割(n=2)は前記対象文字列の末尾に到達
しない。そして、今度は未知文字列を[にらみJ (
n=3)として残りの文字列を単語分割処理すると、接
続助詞「つつ」が抽出されて、単語分割が未登録語処理
対象文字列の末尾文字まで成功する。よって、「にらみ
」が未知文字列として、それに続く単語が接続助詞「つ
つ」であるとして未登録語文字列出力部5に渡される。 未登録語文字列出力部5では未知文字列「にらみ」を未
登録語文字列とし、後続する単語を接続助詞「っつJと
して出力する。 また、別の具体例として「素管制度改正草案を提出する
。」を入力した時、「素管」 「草案jという単語が単
語辞書4に未登録であった場合を考えると、[素管制度
改正草案を」が未登録語処理対象文字列として設定され
る。次に、未知文字列検出部2において前記対象文字列
を単語分割するが、終了条件中の規則5−2(抽出単語
が漢字2文字以上)によれば、未知文字列が「素管」、
抽出される単語は 素管 制度 (名詞) となる。この際、当該終了条件(規則5−2)がないと
、さらに単語分割処理を進め、名詞「改正」を抽出する
が、文字列「草案を」が単語分割できず、単語分割が未
登録語処理対象文字列の末尾文字まで成功しないことに
なる。結局、「素管制度改正草案」を未知文字列、格助
詞「を」を続く単語とすることになる。しかるに、上記
終了条件(規則5−2)によって、このような処理を回
避でき、未知文字列「素管」、続く単語として名詞「制
度」を検出することになる。そして、名詞「改正Jが抽
出された後、「草案を」について当該未登録語処理され
、文字列「素管制度改正草案を」は最終的に次のように
単語分割される。 素管 制度 改正 草案 を 【未】 (名詞)(す名) 【未】(格助詞)なお、上
述した説明では、未知文字列検出部2の単語分割処理の
終了条件に、文字表記の情報を用いて行う例で示したが
、この他、例えば形態素情報、単語意味情報、構文情報
などを利用するようにしてもよい。 つづいて、本発明の第二の実施例を第3図及び第4図を
参照して説明する。本実施例は、前記実施例と同様にし
て、解析処理が再開可能となる文字以前を未知文字列と
すると同時に、さらに、処理を一歩進め、当該未知文字
列以前に解析された先行する単語列と当該未知文字列以
降に解析された後続の単語列を参照し、少なくとも1つ
の連結規則に応じて、先行又は後続の単語列の一部の単
語文字列と未知文字列とを連結し未登録語として検出す
るようにしたものである。 本実施例の処理は第3図に示すブロック図により実行さ
れる。基本的には、第2図と同様であるが、未登録語文
字列出力部5に代えて、未登録語文字列設定部6が設け
られている。そして、基本的処理は、前記実施例と同様
であるが、本実施例の場合、未登録語処理対象文字列設
定部1における対象文字列の設定のための適当な条件に
よる区切りとして、字種、句読点等の他、例えば、入力
文字列までの解析結果から入力文字列に先行する単語列
が未登録語の一部と推定される時は当該単語の文字列を
前記対象文字列の先頭に加えて前記対象文字列とされる
。この場合の推定は、前記文章解析結果、前記対象文字
列などから行うことができる。また、未知文字列検出部
2においては、前記実施例と同じく、適当な条件で単語
分割処理終了により抽出された単語以前を未知文字列と
するが、適当なる当該条件は、前記文章解析結果、単語
分割結果、未知文字列などから判断される。 また、未登録語設定部6では未知文字列検出部2から出
力される未知文字列、前記解析結果、前記単語分割結果
などから適当な未登録語文字列が決定されて出力される
。 いま、具体例にて本実施例の処理を説明する。 例えば、「古い制度の残さいと理解された。」なる日本
語文章を入力した時、「残さい」という単語が単語辞書
4に未登録であった場合に、次のような情報が未登録語
処理対象文字列設定部1に入力されることを考える。 古い 制度 の 残さ いと理解された。 (形容詞(名詞)(格助詞)(力行石段連体形)
未然形) これは、単語分割処理は文章の後方へ向かって「残さ」
まで進んでいるが、この単語に後続する「い」から始ま
る単語が存在しなかったことを示している。これらの情
報を受けて未登録語処理対象文字列設定部1で未登録語
処理対象文字列を定めるが、ここでは文節の区切りとし
て、まず、「いと」を未登録語処理対象文字列とする。 この例の場合、「残さ」が動詞未然形であるので、これ
に続く付属語が存在しないことを表しているが、付属語
は全て単語辞書4に登録されているとすると、「残さJ
という単語分割が誤りで、「残」を先頭文字とする未登
録語があると推定される。従って、例えば、 (規則■−1) 直前単語が活用語で連体修飾形でなく、未登録処理対象
文字列の先頭がひらがなである。 −未登録語処理対象文字列 =直前単語文字列+未登録語処理対象文字列などの連結
規則を適用し、第4図に示すフローチャートに従い、「
いとJだけではなく、「残さいと」が未登録語処理対象
文字列として設定される。 次に、未知文字列検出部2における当該対象文字列の単
語分割処理に移行する。この場合も、基本的には前記実
施例と同様に、前記対象文字列の先頭から後方へ1文字
ずつスキップしながら単語を検索することにより行うが
、単語分割が未登録語処理対象文字列の末尾文字まで成
功した場合又は前記対象文字列をスキップして末尾に達
した場合に終了する。対象文字列が「残さいと」なる本
例の場合、格助詞「と」が抽出されて終了する。 そして、それ以前のスキップされた文字列「残さいjが
未知文字列として、それに続く単語が格助詞「と」であ
るとして未登録語文字列設定部6に渡される。未登録語
文字列設定部6では未知文字列「残さい」を未登録語文
字列とし後続する単語を格助詞「と」として出力する。 また、別の具体例として「小菊もぴっちりとつぼみをも
った。」なる日本語文章を入力した時、「ぴっちり」と
いう単語が単語辞書4に未登録であった場合に、次のよ
うな情報が未登録語処理対象文字列設定部1に入力され
ることを考える。 小菊 も ぴっちりとつぼみをもった。 (名詞)(格助詞) 即ち、 「ぴっちりとつぼみをもった。」が未登録語処
理対象文字列として設定される。次に、未知文字列検出
部2において前記対象文字列を単語分割するが、第1表
に示した終了条件中の規則阻5−3(抽出単語が漢字或
いは2文字以上の単語+格助詞)によれば、未知文字列
が「びっ」、抽出される単語は。 ぴっ ちり と (名詞)(格助詞) となる。未登録語文字列設定部6では入力された未知文
字列「びっ」が末尾が促音であることから、続く文字列
も未登録語の一部であると推定する。 従って、例えば、 (規則■−1) 未知文字列がひらがなで末尾が促音、直後の抽出単語が
ひらがなである →未登録語文字列 =未知文字列+直後の単語文字列 などの連結規則Hの適用により、未登録語文字列設定部
6では未知文字列「ぴっちり」を未登録語文字列とし、
後続する単語を格助詞「と」として出力する。 なお、上述した説明では、未登録語文字列設定部6及び
この設定部に対する連結規則■、未知文字列検出部2の
単語分割処理の終了条件(判定規則)に、文字表記、品
詞、活用形の情報を用いて行う例で示したが、この場合
も前記実施例同様、この他として、例えば形態素情報、
単語意味情報、構文情報などを利用するようにしてもよ
い。特に、適当なる未知登録語文字列を決定するための
連結規則には、未登録語単語を含む1文中の少なくとも
l単語に関する、字種、字数、品詞、接続情報、単語意
味分類の少なくとも1つの情報が用いられる。 効果 本発明は、上述したように辞書中に存在しない文字列又
は文法的に接続不可能な文字列が検出されたとき、当該
文字列を後方ヘスキップして少なくとも1つの条件によ
り解析処理を再開できる文字以前を未知文字列として未
登録語を検出するようにしたので、日本語文章解析にお
ける単語分割に際して辞書に未登録な単語が検出された
時、未登録語として適当な文字列を抽出することができ
、よって、未登録語前後の誤解析を軽減し、未登録語を
含む文章に対する解析精度を向上させることができ、こ
の際、未知文字列以前に解析された先行する単語列と当
該未知文字列以降に解析された後続する単語列を参照し
少なくとも1つの連結規則に応じて先行又は後続の単語
列の一部の単語文字列と当該未知文字列を連結して未登
録語として検出することにより、未登録語としてより適
切な文字列の状態で抽出し、−層効果的なものとするこ
とができる。
力して文章解析(形態素解析、構文解析、意味解析など
)する際に辞書に未登録の単語の存在による誤解析を回
避するための未登録語処理方法に関する。 従来技術 一般に、日本語文章の文章解析を行う場合、最初に、当
該日本語文章を単語単位に分割する。この分割処理は、
予め辞書に登録されていた単語とのマツチング処理によ
り判断されるが、文章中に辞書に未登録の単語が存在す
ると、マツチングできず、単語の同定が困難になること
が多い。また、一般に辞書には相当量の単語が登録され
るが、多くの分野の入力文章に対処して出現する全ての
単語を登録することは不可能である。 従来1日本語文章処理において、辞書に未登録の単語が
検知された場合には、漢字、ひらがな、カタカナなど字
種によって単語に分割したり、或いは文章を後方にサー
チし辞書に存在する単語の始まりから解析を再開して当
該単語を未登録語とすることにより処理している。 このような従来の未登録語処理方法によると、特に、混
ぜ書き、ひらがな、活用語、接辞などの単語に関して正
しく単語分割できないことが多く、解析の精度が低いも
のとなっている。 目的 本発明は、このような点に鑑みなされたもので、日本語
文章を入力して解析する際、辞書に未登録の単語の存在
による誤解析を低減させるための未登録語処理方法を提
供することを目的とする。 構成 本発明は、上記目的を達成するため、入力された日本語
文章を予め作成された辞書中の単語とのマツチングによ
り単語単位に分割する文章処理における未登録語処理方
法において、前記辞書中に存在しなかった未登録文字列
を検出する未登録語検出部を備え、前記辞書中に存在し
ない文字列又は文法的に接続不可能な文字列が検出され
たとき、当該文字列を後方へスキップして少なくとも1
つの条件により解析処理を再開できる文字以前を未知文
字列として未登録語を検出し、さらには、当該未知文字
列以前に解析された先行する単語列と当該未知文字列以
降に解析された後続する単語列を参照し少なくとも1つ
の連結規則に応じて先行又は後続の単語列の一部の単語
文字列と当該未知文字列を連結して未登録語として検出
することを特徴とする。 以下、本発明の第一の実施例を第1図及び第2図に基づ
いて説明する。まず、本実施例のブロック構成は、第2
図に示すように、未登録語処理対象文字列設定部1と、
未知文字列検出部(未登録語検出部)2と、単語分割処
理部3と、単語辞書4と、未登録語文字列出力部5とよ
りなる。 このような構成において、概略処理を説明する。 まず、文章解析に入力された日本語文章を予め作成され
た単語辞書4中の単語とのマツチング処理により、単語
分割処理部3で単語単位に分割する。 この分割処理の際、前記単語辞書4に登録されていない
文字列或いは文法的に接続不可能な文字列が未知文字列
検出部2により検出されると、未登録語処理対象文字列
設定部1に送出され、処理に供される。この未登録語処
理対象文字列設定部1への入力は、当該文字列までの文
章解析結果と、当該文字列を含む、当該文字列以降の1
文又は文章などである。これに対し、未登録語処理対象
文字列設定部1では、まず、入力された文字列の先頭か
ら適当な条件(例えば、字種の変わり目、文節、句点、
読点など)で区切ることのできる文字までを、前記対象
文字列に設定する。未知文字列検出部2では未登録語処
理対象文字列設定部1から受けた前記対象文字列を後方
へスキップしながら、単語分割処理をして、未知文字列
検出の適当な条件で単語分割処理を終了して抽出された
単語以前を未知文字列とする。未登録語文字列出力部5
では、この未知文字列検出部2から出力される当該未知
文字列を未登録語文字列として出力する。 いま、具体例を挙げて、上記処理を説明する。 例えば、「野党をにらみつつ」を入力した時、「にらむ
」という単語が単語辞書4に未登録であった場合に、次
のような情報が未登録語処理対象文字列設定部1に入力
されることを考える。 野党 を にらみつつ、 (名詞)(格助詞) ここに、単語分割処理は文章の後方に向かって「をJま
で進んでいるが、この単語に後続する、Fに」から始ま
る単語がマツチングできなかったことを示している。こ
れらの情報を受けて未登録語処理対象文字列設定部1で
未登録語処理対象文字列を定めるが、ここでは文節を区
切りとして、まず「にらみっつ」を未登録語処理対象文
字列とする。 次に、未知文字列検出部2において前記対象文字列を第
1図に示すフローチャートに従い単語分割する。この処
理は、前記対象文字列の先頭がら後方へ1文字ずつスキ
ップしながら単語を検索することにより行うが、単語分
割が未登録語処理対象文字列の末尾文字まで成功した場
合(即ち、未知文字列直後から文節末までの文字列に対
して単語分割処理を施した結果、文節末まで単語分割が
可能となった場合)又は前記対象文字列をスキップして
末尾に達した場合に終了する。この他、例えば単語分割
処理により抽出された単語列の少なくとも1単語に関す
る文字表記(漢字、ひらがな等の字種その他)の情報、
形態素情報、単語意味分類情報、或いは未知文字列を含
む1文中の構文情報等を、解析処理再開と判断するため
の判定規則としてもよい。即ち、第1図中の検出判定処
理では、第1表に示すような判定規則(代表的なる簡単
なもののみを抽出して示す)を参照し、その条件を満た
すときに検出できたと判定し、先頭からn文字を未登録
語文字列とするものである。 第1表 ここに、未登録語処理対象文字列が「にらみつつ」なる
具体例の場合であれば、未知文字列「にらJ (n=
2)の後の「みつつ」から名詞「みつ」が抽出されるが
、当該単語に後続するrつ」なる単語は文法的に存在せ
ず、単語分割(n=2)は前記対象文字列の末尾に到達
しない。そして、今度は未知文字列を[にらみJ (
n=3)として残りの文字列を単語分割処理すると、接
続助詞「つつ」が抽出されて、単語分割が未登録語処理
対象文字列の末尾文字まで成功する。よって、「にらみ
」が未知文字列として、それに続く単語が接続助詞「つ
つ」であるとして未登録語文字列出力部5に渡される。 未登録語文字列出力部5では未知文字列「にらみ」を未
登録語文字列とし、後続する単語を接続助詞「っつJと
して出力する。 また、別の具体例として「素管制度改正草案を提出する
。」を入力した時、「素管」 「草案jという単語が単
語辞書4に未登録であった場合を考えると、[素管制度
改正草案を」が未登録語処理対象文字列として設定され
る。次に、未知文字列検出部2において前記対象文字列
を単語分割するが、終了条件中の規則5−2(抽出単語
が漢字2文字以上)によれば、未知文字列が「素管」、
抽出される単語は 素管 制度 (名詞) となる。この際、当該終了条件(規則5−2)がないと
、さらに単語分割処理を進め、名詞「改正」を抽出する
が、文字列「草案を」が単語分割できず、単語分割が未
登録語処理対象文字列の末尾文字まで成功しないことに
なる。結局、「素管制度改正草案」を未知文字列、格助
詞「を」を続く単語とすることになる。しかるに、上記
終了条件(規則5−2)によって、このような処理を回
避でき、未知文字列「素管」、続く単語として名詞「制
度」を検出することになる。そして、名詞「改正Jが抽
出された後、「草案を」について当該未登録語処理され
、文字列「素管制度改正草案を」は最終的に次のように
単語分割される。 素管 制度 改正 草案 を 【未】 (名詞)(す名) 【未】(格助詞)なお、上
述した説明では、未知文字列検出部2の単語分割処理の
終了条件に、文字表記の情報を用いて行う例で示したが
、この他、例えば形態素情報、単語意味情報、構文情報
などを利用するようにしてもよい。 つづいて、本発明の第二の実施例を第3図及び第4図を
参照して説明する。本実施例は、前記実施例と同様にし
て、解析処理が再開可能となる文字以前を未知文字列と
すると同時に、さらに、処理を一歩進め、当該未知文字
列以前に解析された先行する単語列と当該未知文字列以
降に解析された後続の単語列を参照し、少なくとも1つ
の連結規則に応じて、先行又は後続の単語列の一部の単
語文字列と未知文字列とを連結し未登録語として検出す
るようにしたものである。 本実施例の処理は第3図に示すブロック図により実行さ
れる。基本的には、第2図と同様であるが、未登録語文
字列出力部5に代えて、未登録語文字列設定部6が設け
られている。そして、基本的処理は、前記実施例と同様
であるが、本実施例の場合、未登録語処理対象文字列設
定部1における対象文字列の設定のための適当な条件に
よる区切りとして、字種、句読点等の他、例えば、入力
文字列までの解析結果から入力文字列に先行する単語列
が未登録語の一部と推定される時は当該単語の文字列を
前記対象文字列の先頭に加えて前記対象文字列とされる
。この場合の推定は、前記文章解析結果、前記対象文字
列などから行うことができる。また、未知文字列検出部
2においては、前記実施例と同じく、適当な条件で単語
分割処理終了により抽出された単語以前を未知文字列と
するが、適当なる当該条件は、前記文章解析結果、単語
分割結果、未知文字列などから判断される。 また、未登録語設定部6では未知文字列検出部2から出
力される未知文字列、前記解析結果、前記単語分割結果
などから適当な未登録語文字列が決定されて出力される
。 いま、具体例にて本実施例の処理を説明する。 例えば、「古い制度の残さいと理解された。」なる日本
語文章を入力した時、「残さい」という単語が単語辞書
4に未登録であった場合に、次のような情報が未登録語
処理対象文字列設定部1に入力されることを考える。 古い 制度 の 残さ いと理解された。 (形容詞(名詞)(格助詞)(力行石段連体形)
未然形) これは、単語分割処理は文章の後方へ向かって「残さ」
まで進んでいるが、この単語に後続する「い」から始ま
る単語が存在しなかったことを示している。これらの情
報を受けて未登録語処理対象文字列設定部1で未登録語
処理対象文字列を定めるが、ここでは文節の区切りとし
て、まず、「いと」を未登録語処理対象文字列とする。 この例の場合、「残さ」が動詞未然形であるので、これ
に続く付属語が存在しないことを表しているが、付属語
は全て単語辞書4に登録されているとすると、「残さJ
という単語分割が誤りで、「残」を先頭文字とする未登
録語があると推定される。従って、例えば、 (規則■−1) 直前単語が活用語で連体修飾形でなく、未登録処理対象
文字列の先頭がひらがなである。 −未登録語処理対象文字列 =直前単語文字列+未登録語処理対象文字列などの連結
規則を適用し、第4図に示すフローチャートに従い、「
いとJだけではなく、「残さいと」が未登録語処理対象
文字列として設定される。 次に、未知文字列検出部2における当該対象文字列の単
語分割処理に移行する。この場合も、基本的には前記実
施例と同様に、前記対象文字列の先頭から後方へ1文字
ずつスキップしながら単語を検索することにより行うが
、単語分割が未登録語処理対象文字列の末尾文字まで成
功した場合又は前記対象文字列をスキップして末尾に達
した場合に終了する。対象文字列が「残さいと」なる本
例の場合、格助詞「と」が抽出されて終了する。 そして、それ以前のスキップされた文字列「残さいjが
未知文字列として、それに続く単語が格助詞「と」であ
るとして未登録語文字列設定部6に渡される。未登録語
文字列設定部6では未知文字列「残さい」を未登録語文
字列とし後続する単語を格助詞「と」として出力する。 また、別の具体例として「小菊もぴっちりとつぼみをも
った。」なる日本語文章を入力した時、「ぴっちり」と
いう単語が単語辞書4に未登録であった場合に、次のよ
うな情報が未登録語処理対象文字列設定部1に入力され
ることを考える。 小菊 も ぴっちりとつぼみをもった。 (名詞)(格助詞) 即ち、 「ぴっちりとつぼみをもった。」が未登録語処
理対象文字列として設定される。次に、未知文字列検出
部2において前記対象文字列を単語分割するが、第1表
に示した終了条件中の規則阻5−3(抽出単語が漢字或
いは2文字以上の単語+格助詞)によれば、未知文字列
が「びっ」、抽出される単語は。 ぴっ ちり と (名詞)(格助詞) となる。未登録語文字列設定部6では入力された未知文
字列「びっ」が末尾が促音であることから、続く文字列
も未登録語の一部であると推定する。 従って、例えば、 (規則■−1) 未知文字列がひらがなで末尾が促音、直後の抽出単語が
ひらがなである →未登録語文字列 =未知文字列+直後の単語文字列 などの連結規則Hの適用により、未登録語文字列設定部
6では未知文字列「ぴっちり」を未登録語文字列とし、
後続する単語を格助詞「と」として出力する。 なお、上述した説明では、未登録語文字列設定部6及び
この設定部に対する連結規則■、未知文字列検出部2の
単語分割処理の終了条件(判定規則)に、文字表記、品
詞、活用形の情報を用いて行う例で示したが、この場合
も前記実施例同様、この他として、例えば形態素情報、
単語意味情報、構文情報などを利用するようにしてもよ
い。特に、適当なる未知登録語文字列を決定するための
連結規則には、未登録語単語を含む1文中の少なくとも
l単語に関する、字種、字数、品詞、接続情報、単語意
味分類の少なくとも1つの情報が用いられる。 効果 本発明は、上述したように辞書中に存在しない文字列又
は文法的に接続不可能な文字列が検出されたとき、当該
文字列を後方ヘスキップして少なくとも1つの条件によ
り解析処理を再開できる文字以前を未知文字列として未
登録語を検出するようにしたので、日本語文章解析にお
ける単語分割に際して辞書に未登録な単語が検出された
時、未登録語として適当な文字列を抽出することができ
、よって、未登録語前後の誤解析を軽減し、未登録語を
含む文章に対する解析精度を向上させることができ、こ
の際、未知文字列以前に解析された先行する単語列と当
該未知文字列以降に解析された後続する単語列を参照し
少なくとも1つの連結規則に応じて先行又は後続の単語
列の一部の単語文字列と当該未知文字列を連結して未登
録語として検出することにより、未登録語としてより適
切な文字列の状態で抽出し、−層効果的なものとするこ
とができる。
第1図は本発明の第一の実施例を示すフローチャート、
第2図はブロック図、第3図は本発明の第二の実施例を
示すブロック図、第4図はフローチャートである。
第2図はブロック図、第3図は本発明の第二の実施例を
示すブロック図、第4図はフローチャートである。
Claims (1)
- 【特許請求の範囲】 1、入力された日本語文章を予め作成された辞書中の単
語とのマッチングにより単語単位に分割する文章処理に
おける未登録語処理方法において前記辞書中に存在しな
かつた未登録文字列を検出する未登録語検出部を備え、
前記辞書中に存在しない文字列又は文法的に接続不可能
な文字列が検出されたとき、当該文字列を後方へスキッ
プして少なくとも1つの条件により解析処理を再開でき
る文字以前を未知文字列として未登録語を検出すること
を特徴とする未登録語処理方法。 2、入力された日本語文章を予め作成された辞書中の単
語とのマッチングにより単語単位に分割する文章処理に
おける未登録語処理方法において、前記辞書中に存在し
なかつた未登録文字列を検出する未登録語検出部を備え
、前記辞書中に存在しない文字列又は文法的に接続不可
能な文字列が検出されたとき、当該文字列を後方へスキ
ップして少なくとも1つの条件により解析処理を再開で
きる文字以前を未知文字列とすると同時に、当該未知文
字列以前に解析された先行する単語列と当該未知文字列
以降に解析された後続する単語列を参照し少なくとも1
つの連結規則に応じて先行又は後続の単語列の一部の単
語文字列と当該未知文字列を連結して未登録語として検
出することを特徴とする未登録語処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63127259A JPH01296373A (ja) | 1988-05-25 | 1988-05-25 | 未登録語処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63127259A JPH01296373A (ja) | 1988-05-25 | 1988-05-25 | 未登録語処理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH01296373A true JPH01296373A (ja) | 1989-11-29 |
Family
ID=14955617
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP63127259A Pending JPH01296373A (ja) | 1988-05-25 | 1988-05-25 | 未登録語処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH01296373A (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6140671A (ja) * | 1984-07-31 | 1986-02-26 | Hitachi Ltd | 単語分割処理方法 |
JPS62119591A (ja) * | 1985-11-20 | 1987-05-30 | 富士通株式会社 | 文章読上げ装置 |
JPS62219160A (ja) * | 1986-03-20 | 1987-09-26 | Fujitsu Ltd | 単語分割処理方式 |
JPS6395572A (ja) * | 1986-10-13 | 1988-04-26 | Ricoh Co Ltd | 日本語文形態素解析における未知語処理方法 |
-
1988
- 1988-05-25 JP JP63127259A patent/JPH01296373A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6140671A (ja) * | 1984-07-31 | 1986-02-26 | Hitachi Ltd | 単語分割処理方法 |
JPS62119591A (ja) * | 1985-11-20 | 1987-05-30 | 富士通株式会社 | 文章読上げ装置 |
JPS62219160A (ja) * | 1986-03-20 | 1987-09-26 | Fujitsu Ltd | 単語分割処理方式 |
JPS6395572A (ja) * | 1986-10-13 | 1988-04-26 | Ricoh Co Ltd | 日本語文形態素解析における未知語処理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5890103A (en) | Method and apparatus for improved tokenization of natural language text | |
WO1997004405A9 (en) | Method and apparatus for automated search and retrieval processing | |
JPH0411906B2 (ja) | ||
Liyanapathirana et al. | Sinspell: A comprehensive spelling checker for sinhala | |
JPH01296373A (ja) | 未登録語処理方法 | |
JPS6118074A (ja) | プレ・エデイツト方式 | |
JPH03105465A (ja) | 複合語抽出装置 | |
Hatori et al. | Predicting word pronunciation in Japanese | |
KR20020054244A (ko) | 부분문틀을 이용한 장문 번역 장치 및 그 방법 | |
JPS6368972A (ja) | 未登録語処理方式 | |
JPS6395573A (ja) | 日本語文形態素解析における未知語処理方法 | |
JP2856736B2 (ja) | 辞書参照装置及び辞書参照方法 | |
JP2002297585A (ja) | 英文名詞句の区分方法,英文構文情報生成方法および装置 | |
KR20000026814A (ko) | 연속 음성인식을 위한 어절 분리방법 및 그를 이용한 음성 인식방법 | |
JP2770536B2 (ja) | 文章解析装置 | |
JPH1063664A (ja) | 自然言語の翻訳方法及び装置 | |
JP2001022752A (ja) | 文字組抽出方法、文字組抽出装置および文字組抽出のための記録媒体 | |
JPH02289033A (ja) | 未登録語処理装置 | |
JPH05225183A (ja) | 日本文単語誤り自動検出装置 | |
JPH04282764A (ja) | 非文訳出装置 | |
JPH0612449A (ja) | 機械翻訳装置及びその方法 | |
JPH04101269A (ja) | スペルコレクト方式 | |
JPS6320564A (ja) | 自然言語処理装置 | |
JPH08241315A (ja) | 文書処理装置の単語登録機構 | |
JPS63136264A (ja) | 機械翻訳装置 |