JP2895137B2 - 日本文誤り自動検出および訂正装置 - Google Patents

日本文誤り自動検出および訂正装置

Info

Publication number
JP2895137B2
JP2895137B2 JP2016567A JP1656790A JP2895137B2 JP 2895137 B2 JP2895137 B2 JP 2895137B2 JP 2016567 A JP2016567 A JP 2016567A JP 1656790 A JP1656790 A JP 1656790A JP 2895137 B2 JP2895137 B2 JP 2895137B2
Authority
JP
Japan
Prior art keywords
homonym
semantic
word
case
test
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2016567A
Other languages
English (en)
Other versions
JPH03220665A (ja
Inventor
雅博 奥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016567A priority Critical patent/JP2895137B2/ja
Publication of JPH03220665A publication Critical patent/JPH03220665A/ja
Application granted granted Critical
Publication of JP2895137B2 publication Critical patent/JP2895137B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、日本文文書処理装優に係り、特に、入力さ
れた日本語文章中から自動的に同音異義語の使用誤りを
検出し、その訂正候補を提示する日本文誤り自動検出お
よび訂正装置に関するものである。
〔従来の技術〕
一般に日本語ワードプロセッサでは、かな列あるいは
ローマ字列を入力し、単語あるいは文節単位のかな漢字
変換が実行されるため、単語変換誤りや変換域誤り等に
よって同音異義語選択誤りが生じることがある。この種
の同音異義語誤りは、同音異義語の意味的な使い分けを
熟知する必要があるため、かな漢字変換誤りによるだけ
でなく、原文文書作成の過程で作成者の思い込みや思い
違いによる使用誤りによるものも頻発する。
従来の単独語の同音異義語誤り(単独語の同音異義語
誤り:複合語に含まれる同音異義語誤りではないものを
いう。例えば「排出ガスを帰省する」の“帰省する”が
単独語の同音異義語である)を抽出する方法としては、
本出願人による特願平1-225268号(特開平3-88066号)
がある。
〔発明が解決しようとする礁題〕
上記特願平1−225268号の方法は、検定対象格の決定
が入力文に無関係に行われ、検定対象となる同音異義語
について予め固定的にかつ単一に決定するものであるの
で、正しく同音異義語誤りを検出できない場合がある。
正しく同音異義語誤りを検出できない例を以下に挙げ
る。
[例文1〕私は友人と帰省する。
(検定対象単語:帰省する) 例文1は同音異義語“帰省する”が正しく使用されて
いる。しかし、特願平1-225268号の方法では、“帰省す
る”の検定対象格が『ニ格』に固定されているために、
例文1のように『ニ格』が存在しない場合には正しいと
検定することができない。
[例文2]私は友人と規制する。
(検定対象単語:規制する) (正 解 語:帰省する) 例文2は同音異義語“規制する”が同音異義語誤りで
ある。しかし、特願平1-225268号の方法では、“規制す
る”の検定対象格が『ヲ格』に固定されているために、
例文2のように『を格』が存在しない場合には誤りであ
ると検定することができない。
本発明の目的は、上記の問題点を解決し、入力された
日本文について的確に同音異義語を検出して、訂正候補
を提示する日本文誤り自動検出および訂正装置を提供す
ることにある。
〔課題を解決するための手段〕
本発明の日本文誤り自動検出および訂正装置は、各同
音異義語ごとに検定すべき格要素を規定した、各同音異
義語字面を検索キーとして、各同音異義語字面ごとに複
数のif-thenルールを有する検定対象格決定辞書と、各
同音異義語の字面と検定対象格決定辞書に示される格要
素の持つ意味カテゴリとの意味的な連接関係の有無(連
接可否情報)を記述した意味連接辞書と、入力日本文の
形態素解析を行い、入力日本文を単語単位に分割する第
1の手段と、単語単位に分割された入力日本文の構文構
造を解析する第2の手段と、入力日本文に同音異義語が
含まれるか否かを判定し、含まれる場合にはその語を検
定対象単語とする第3の手段と、該抽出された検定対象
単語ごとに、該検定対象単語の字面で前記検定対象決定
辞書を検索して対応するif-thenルール群を取得し、そ
の中から前記構文解析結果を満足するif部を持つルール
を選び、そのthen部により意味的な連接可否を検定する
対象となる格要素(検定対象格と呼ぶ)を決定する第4
の手段と、該決定された検定対象格の持つ意味カテゴリ
と検定対象単語との意味的な連接関係の有無を、前記意
味連接辞書を参照することによって検定し、両者に意味
的な連接関係がない場合に、該検定対象単語を同音異義
語誤りであると検定する第5の手段と、該同音異義語誤
りであると検定された単語と同一の読みを持つ単語(同
音異義の関係にある語)を、該同音異義語誤りの訂正候
補として意味連接辞書から抽出し、該訂正候補と該訂正
候補に対応する同音異義語誤りとを置換えて、該訂正候
補の字面で前記検定対象格決定辞書を検索して検定対象
格を決定し、該訂正候補と該訂正候補に対する検定対象
格の持つ意味カテゴリとの連接可否情報を前記意味連接
辞書から検索することによって、意味的連接関係の有無
を検定し、意味的な連接関係がある場合には該訂正候補
を正解候補として出力し、どの訂正候補との意味的連接
関係もない場合には抽出したすべての訂正候補と該同音
異義語誤りの字面との両方を出力する第6の手段とを備
えている。
〔作用〕
入力日本文に検定対象となる同音異義語(以下、検定
対象単語と呼ぶ)が存在する場合に同音異義語誤りの検
定処理を開始する。そして、該検定対象単語の字面と、
該検定対象単語を修飾する文節のうちの検定対象格決定
辞書に示される格要素の持つ意味カテゴリとの意味的な
連接関係の有無(連接可否情報)を、予めこれらの連接
可否情報を記述した意味連接辞書を検定対象単語の字面
で検索することよって取得し、意味的な連接関係がない
場合に該検定対象単語を同音異義語誤りとして検出す
る。なお、意味カテゴリとは、名詞をその意味によって
分類するためのものであり、予め規定した意味カテゴリ
体系に基づいている。
検出された同音異義語誤りに対して、同一の読みを持
つ単語を訂正候補として抽出(意味連接辞書を同音異義
語誤りの読みで検索することによって抽出する)し、こ
の訂正候補を同音異義語誤りであると検定された単語と
直換えて前記と同様に意味連接辞書を用いて検定を行
い、連接可能な訂正候補を同音異義語誤りに対する正解
侯補とする。
これにより、日本文章中に現れる検定対象の同音異義
語が正しいか否かを検定し、誤りであると検定した場合
には、その訂正候補として意味的な連接関係がある同音
異義語の正解候補のみを抽出することができる。検定対
象格の決定にあたっては、検定対象決定辞書に、各同音
異義語字面を検索キーとして、各同音異義語の字面ごと
に複数のin-thenルール群を格納することにより、入力
文に応じて的確な格要素を検索対象格とすることができ
る。
〔実施例〕
以下、本発明の一実施例について図面により説明す
る。
第1図は本発明の一実施例の基本構成図を示す。ここ
で、10は日本文誤り自動検出および訂正装置本体で、ハ
ード的にはCPU、メモリなどで構成されるが、機能的に
は、形態素解析部1、構文解析部2、同音異義語抽出部
3、検定対象格抽出部4、同音異義語検定処理部5、同
音異義語訂正候補抽出部6よりなる。形態素解析部1
は、本装置10の入力である日本文を構成単語に分割し、
各単語に品詞や意味カテゴリなどの付与を行う。構文解
析部2は、単語分割された入力文の構文構造を解析す
る。同音異義語抽出部3では、入力文中に検定対象の同
音異義語が存在するか否かを判定し、存在する場合には
該同音異義南を検定対象単語として抽出する。検定対象
格抽出部4では、検定対象格決定辞書7を用いて、同音
異義語抽出部3で得られた同音異義語に対してどの格の
持つ意味カテゴリとの連接を検定するかを決定する。同
音異義語検定処理部5では、同音異義語抽出部3で抽出
された同音異義語1つ1つに対して、検定対象格抽出部
4で決まった検定対象格の持つ意味カテゴリとの連接可
否を、意味連接辞書8を用いて検定し、該同音異義語が
誤りであるか否かを決定する。同音異義語訂正候補抽出
部6では、まず同音異義語誤りと検定された同音異義語
の読みで意味連接辞書8を検索することにより、訂正候
補を抽出する。次に訂正候補の字面で検定対象格辞書7
を検索して該訂正候補に対する検定対象格を決める。さ
らに、同音異義語訂正候補抽出部6では、該同音異義語
誤りである単語と該訂正候補とを置換えて、該訂正候補
に対する枚定対象格の持つ意味カテゴリとの連接可否を
意味連接辞書8を用いて検定し、該訂正候補が連接可で
あれば正解候補として出力ファイル9に出力する。すべ
ての訂正候補が連接不可の場合には、抽出したすべての
訂正候補を正解候補として出力ファイル9に出力する。
検定対象格決定辞書7は、同音異義語の字面をキーと
して持ち、該同音異義語に対する検定対象格を決めるた
めのif-thenルール群を記述している。なお、if-thenル
ール群のthen部には検定対象格が何格であるかを記述す
るが、検定するまでもなく誤まりと検定できるものにつ
いては“同音異義語誤り”と記述する。意味連接辞書8
は、同音異義語の字面とその読みの2つをキーとして持
ち、該同音異義語と検定対象格(検定対象格決定辞書7
に記述されている格)の持つ単語の意味カテゴリとの間
の連接可否情報を記述する。
該日本文誤り自動検出および訂正装直の処理フローを
第2図に示す。以下、これに従って第1図の動作を説明
する。
ステップSl: 形態素解析部1では、日本文誤り自動枚出および訂正
装置本体10の入力である日本文に対して、形態素解析を
行い、該日本文を単語単位に分割し、それぞれの単語に
品詞情報、意味カテゴリなどを付与した後、解析結果を
構文解析部部2に送る。
ステップS2: 構文解析部2では、形態素解析結果をもとに、入力文
の構文構造を解析し、構文解析結果を同音異義語抽出部
3に送る。このとき、連体修飾されている名詞が連体修
飾している動詞のどの格を埋めるのか、副動詞がもとも
とどの格助詞であるのか、あるいは、受動態を能動態に
戻した場合にどの格助詞がどの格助詞に変化するかなど
の解析も行う。
以上のステップS1、ステップS2の方法については特に
限定しない。
ステップS3: 同音異義語抽出部3では、入日本力文中に検定すべき
同音異義語が単独語として存在する場合には、これを検
定対象単語として抽出し、ステップS5に進む。そうでな
い場合にはステップS4に進む。複数の同音異義語が抽出
された場合には各同音異義商についてステップS5以下の
処理を行う。
なお、同音異義語抽出法としては、形態素解析に用い
る辞書中に枚定対象であることを示す同音異義語フラグ
を立てる方法や意味連接辞書8を入力文の各単語の字面
で検索する方法などが考えられるが、ここでは特に限定
しない。
ステップS4: “同音異義語なし”として処理を終了する。
ステップS5: 検定対象格抽出部4では、該同音異義語字面をキーと
して検定対象格決定辞書7を検索し、対応するif-tben
ルール群を取得する。
ステップS6: ステップS5で得られたif-thenルール群の中から、構
文解析結果を満足するif部を持つルールを選び、then部
を実行する。
ステップS7: then部において、“同音異義語誤り”と記述されてい
るかどうかによって処理をわける。
“同音異義語誤り”と記述されている場合は、検定す
るまでもなく誤りであることが明確であるので、検定処
理をスキップしてステップS13に進む。そうでない場合
には検定処理が必重なのでステップS8に進む。
ステップS8: then部を実行することによって検定対象格が決まるか
否かによって処理をわける。検定対象格が決まる場合に
は、ステップS9に進む。決まらない場合には誤りである
と判断してステップS13に進む。
ステップS9: 同音異義語検定処理部5では、検定対象格の意味カテ
ゴリを構文解析結果から取得する。
ステップSlO: 該同音異義語の字面をキーとして意味連接辞書8を検
索し、意味カテゴリ番号ごとの連接可否情報を得る。
ステップS11: ステップS10で得た連接可否情報において、ステップS
9で得た意味カテゴリに対応する意味カテゴリ番号の連
接可否情報が何であるかによって処理をわける。“連接
可”の場合には同音異義請誤りではないのでステップS1
2に進む。“連接可”以外の場合には同音異義語誤りで
あるのでステップS13に進む。
ステップS12: “連接OK"として処理を終了する。
ステップS13: 該同音異義語を同音異義語誤りとし、訂正候補抽出を
行うためにステップS14に進む。
ステップS14: 同音異義語訂正候補抽出部6では、該同音異義語誤り
の読みで意味連接辞書8を検索することによって訂正候
補を得る。さらに訂正候補数をnとする。
ステップS15: i番目の訂正候補について処理を進める。まず、i=
1とする。
ステップS16: i番目の訂正候補の字面をキーとして、検定対象格決
定辞書7を検索し、対応するif-thenルール群を取得す
る。
ステップS17: ステップS16で得られたif-tbenルール群の中から、構
文解析結果を満足するif部を持つルールを選び、then部
を実行する。
ステップS18: then部において、“同音異義語誤り”と記述されてい
るかどうかによって処理をわける。
“同音異義語誤り”と記述されている場合は、該訂正
候補が正解候補として適さないので、該訂正候補に対す
る処理を終了して次の訂正候補に対する処理に移るため
にステップS24に進む。そうでない場合には、正解候補
となりうるか否かを検定する必要があるのでステップS1
9に進む。
ステップS19: then部を実行することによって検定対象格が決まるか
否かによって処理をわける。検定対象格が決まる場合に
は、ステップS20に進む。決まらない場合には正解候補
ではないとしてステップS24に進む。
ステップS20: 検定対象格の意味カテゴリを構文解析結果から取得す
る。
ステップS21: 該訂正候補の字面をキーとして意味連接辞書8を検索
し、意味カテゴリ番号ごとの連接可否情報を得る。
ステップS22: ステップS21で得た連接可否情報において、ステップS
20で得た意味カテゴリに対応する意味カテゴリ番号の連
接可否情報が何であるかによって処理をわける。“連接
可”の場合には正解候補であるのでステップS23に進
む。“連接可”以外の場合には正解候補とは認められな
いので、該訂正候補に対する処理を終了して次の訂正候
補に対する処理に移るためにステップS24に進む。
ステップS23: 該訂正候補を正解候補として出力ファアル9に出力
し、ステップS24に進む。
ステップS24: 次の訂正候補に関する処理を行うためにi=i+1と
する。
ステップS25: n個の訂正候補すべてについて処理が終了したか否か
によって処理をわける。訂正候補すべてについて処理が
終了している場合にはステップS26に進み、そうでない
場合にはステップS16に戻る。
ステップS26: 1つでも正解候補が出力ファイル9に出力されている
場合には本処理を終了し、正解候補が1つも出力されて
いない場合にはステップS27に進む。
ステップS27: n個の訂正候補すべてと該同音異義語誤りの字面との
両方を出力ファイル9に出力する。
第3図に意味連接辞書8のフィールド構成例を示す。
第3図において、11は意味連接辞書8を検索するときの
キーとなる同音異義語の字面、12は同音異義語訂正候補
抽出部6において意味連接辞書8を検索するときのキー
となる同音異義語の読み、13は同音異義語の品詞、14は
あらかじめ設けた意味カテゴリ体系(第3図ではN個の
意味カテゴリからなる)の各意味カテゴリに対して付与
した番号対応に、11の字面と検定対象格の単語の持つ意
味カテゴリとの連接可否情報を記述したカテゴリ番号対
応の連接可否情報部である。15は14の各意味カテゴリ番
号の連接可否情報を示すフィールドであり、#n(1≦
n≦N)は連接可の場合には「○」、連接不可の場合に
は「×」、連接不明の場合(該字面について連接可であ
り、さらに同音異義の関係にある別表記の単語に対して
も連接可である場合)には「△」を表している。16は意
味連接辞書8の1レコードである。
第4図に検定対象格決定辞書7の構成例を示す。17は
該検定対象格決定辞書7を検索するときのキーとなる同
音異義語の字面、18は検定対象格を決定するif-thenル
ール群記述部、19はif-thenルール群記述部18の条件を
示すif部、20はif-thenルール群記述部18のthen部、21
は検定対象格決定辞書7の1レコードである。
次に、具体例について説明する。
[例文l]私は友人と帰省する。
(検定対象単語:帰省) 第5図に意味連接辞書8の内容例、第6図に検定対象
格決定辞書7の内容例をそれぞれ示す。第5図中、
「O」は連接可、「×」は連接不可、「△」は連接不明
(このレコードの同音異義語字面について連接可であ
り、さらに同音異義の関係にある単語に対しても連接可
である場合)を意味する。
第7図は例文1「私は友人と帰省する」において、同
音異義語“帰省する”が誤りでないと正しく指摘される
までの処理過程を示したものである。第7図(a)は例
文1の形態素解析結果、同図(b)は構文解析結果を示
したものである。第7図(c)は同音異義語誤りを検出
する第2図のステップS3〜ステップS12に対応する処理
内容を示したものである。
形態素解析部1において、単語分割および各単語への
読み、品詞、意味カテゴリなどの付与が行われる。次
に、構文解析部2において、入力文の溝文構造を解析す
る。このとき、連体修飾されている名詞が連体修飾して
いる動詞のどの格を埋めるのか、副助詞がもともとどの
格助詞であるのか(第7図で、“は”が『ガ格』と解析
されている。)、あるいは、受動態を能動態に戻した場
合にどの格助詞がどの格助詞に変化するかなどの解析も
行う(ステップSl,S2)。
次に、同音異義語抽出部3において、検定対象単語と
なる同音異義語が抽出される。例文1では、“帰省す
る”が検定対象単語となる(ステップSS3,S4)。本実施
例では形態素解析時点で検定対象であることを示すフラ
グを用いているが、別の方法として、各単語の字面をキ
ーとして意味連接辞書8を検索することによって検定対
象単語を抽出する方法なども考えられる。
検定対象格抽出部4では、検定対象格決定辞書7を用
いて検定対象格の決定を行う。例文1では、検定対象単
語“帰省する”の語幹で検定対象格決定辞書7を検索す
る。検定対象格決定辞書7は第6図のようになってお
り、第7図(G)に示されるように“帰省”に対するif
-thenルール群22が取得される(ステップS5)。さら
に、検定対象格抽出部4において、このif-thenルール
群22のうち、第7図(b)の構文解析結果を満足するル
ールのthen部が実行される。この結果、例文1では、検
定対象格は『ガ格』に決まる(ステップS6〜S8)。
次に同音異義語検定処理部5において検定対象格の持
つ意味カテゴリの取得が行われる(ステップS9)。例文
1では、第7図(b)の構文解析結果から、『ガ格』の
主名詞は“私”であるので、その意味カテゴリ「人」
(意味カテゴリ番号=4)を取得する。さらに同音異義
語検定処理部5では、検定対象単語の字面をキーとして
意味連接辞書8を検索し、検定対象格の持つ意味カテゴ
リとの連接可能性を検定する(ステップS10,S11)。例
文1では、検定対象単語“帰省する”の語幹“帰省”で
意味連接辞書8を検索する。意味連接辞書8の内容は第
5図のごとくであるので、“帰省”と意味カテゴリ
「人」(意味カテゴリ番号=4)との連接可否情報は
“連接可”である。従って、検定結果を“連接OK"とし
て処理を終了する(ステップS12)。
以上のようにして、「私は友人と帰省する」に含まれ
る同音異義語“帰省する”が誤りでないことが検定され
るので、正しく使用されている同音異義語を同音異義語
誤りとして検出することを排除できる。なお、この飼文
1は従来法(特願平1-225268号の方法)では、同音異義
語誤りでないと検定することができないものである。
[例文2]私は友人と規制する。
(検定対象単語:規制)。
(正 解 語:帰省) 第8図は例文2「私は友人は規制する。」において、
同音異義語誤り“規制する”が検出され、その正解候補
として“帰省する”が得られるまでの処理過程を示した
ものである。第8図(a)は例文2の形態素解析結果、
同図(b)は構文解析結果を示したものである。第8図
(c)は同音異義語誤りを検出する第2図のステップS3
〜ステップS13の処理内容を示したものであり、同図
(d)は“規制”に対する訂正候補の抽出処理を示して
いる。第8図(e)は訂正候補“帰省”についての処理
内容であり、同図(f)は訂正候補“規制“の処理内容
である。
形態素解析部1において、単語分割および各単語への
読み、品詞、意味カテゴリなどの付与が行われる。次に
構文解析部2において、入力文の入力構造を解析する
(ステップS1〜ステップS2)。次に、同音異義語抽出部
3において、例文の2の“規制する”が検定対象単語と
して抽出される(ステップS3,S4)。
次に、検定対象格抽出部4において、例文2の検定対
象単語“規制する”の語幹“規制”で検定対象格決定辞
書8を検索することによって検定対象格を決める。検定
対象格決定辞書7は第6図のようになっているので、
“規制”に対するif-thenルール群23が取得される(ス
テップS5)。例文2では、第8図(b)の構文検析結果
より明らかなように、“規制する”は『ヲ格』を持た
ず、しかも終止形である。従って第8図(c)に示され
るように、ルールif((『ヲ格』がない)and(連体形
でない))then(“同音異義語誤り”)が選ばれ、この
then部が実行される(ステップS6)。このルールのthen
部は“同音異義語誤り”となっているので、同音異義誤
検定処理部5による検定処理をスキップして訂正候補抽
出が行われる(ステップS7からステップS13へのスキッ
プ)。
同音異義語訂正候補抽出部6では、同音異義語誤り
“規制する”の読み“きせい”で意味連接辞書8を検索
し、訂正候補を得る。意味連接辞書8は第5図のように
なっているので、訂正候補としては、第8図(d)に示
されるように“帰省”、“規正”の2つ(n=2)が抽
出される(ステップS13,S14)。
同音異義語訂正候補抽出部6では、まず“帰省”につ
いて処理が行われる(ステップS15)。例文2では訂正
候補“帰省”の字面をキーとして検定対象格決定辞書7
を検索する。検定対象格決定辞書7は第6図のようにな
っているので、第8図(e)に示されるように“帰省”
に対するif-thenルール群23が取得される(ステップS1
6)。さらに同音異義語訂正候補抽出部6において、こ
のif-thenルール群23のうち、第8図(b)の構文解析
結果を満足するルールのthen部が実行される。この結
果、例文2では、検定対象格は『ガ格』に決まる(ステ
ップS17〜ステップS19)。次に検定対象格の持つ意味カ
テゴリの取得が行われる(ステップS20)。例文2で
は、第8図(b)の構文解析結果から『ガ格』の主名詞
は“私”であるので、その意味カテゴリ「人」(意味カ
テゴリ番号=4)を取得する。さらに同音異義語訂正候
補抽出部6では、訂正候補の字面をキーとして意味連接
辞書8を検索し、検定対象格の持つ意味カテゴリとの連
接可能性を検定する(ステップS21〜ステップS22)。例
文2では、訂正候補“帰省する”の語幹“帰省”で意味
連接辞書8を検索する。意味連接辞書8の内容は第5図
のごとくであるので、“帰省”と意味カテゴリ「人」
(意味カテゴリ番号=4)との連接可否情報は“連接
可”である。従って、“帰省する”を“規制する”の正
解候補として出力ファイル9に出力する(ステップS2
3)。
次に、訂正候補“規正”について処理を行う(ステッ
プS24)。“帰省”と同様にして検定対象格決定辞書7
を検索して、検定対象格を決定しようとするが、第8図
(f)に示されるように、“同音異決語誤り”であると
検定される。従って、“規正する”は正解候補とはなら
ない(ステップS18)。
すべての訂正候補についての処理が終了した段階(ス
テップS25)で、正解候補として“帰省”が出力される
ているので、ステップS26をスキップし本処理を終了す
る(ステップS26)。
以上のようにして、「私は友人と規制する。」に含ま
れる同音異義語誤り“規制する”を正しく検出でき、さ
らに、正解候補として“帰省する”を抽出することがで
きる。
〔発明の効果〕
以上の説明から明らかなように、本発明の日本文誤り
自動検出および訂正装置によれば、以下の効果が得られ
る。
検定対象格の決定にあたっては、検定対象格決定辞書
において入力文の構造を考慮しているので(各同音異義
語の字面ごとに複数のif-thenルール群を格納)、入力
文に応じて的確な格要素を検定対象格とすることができ
る。
意味的な連接関係を検定することによって、同音異義
語誤りか否かの判定を行うので、同音異義語誤りを正し
く検出することできる。
同音異義語誤りに対する正解候補として、意味的な連
接関係を満足するもののみを抽出するので、確からしい
候補のみを提示できる。
検定対象単語を修飾する文節の中から、検定対象格決
定辞書に示される検定対象格を抽出し、この検定対象格
を持つ単語の意味カテゴリと検定対象単語との意味的な
連接関係を検定するので、単独語の同音異義語誤りを検
出することできる。
【図面の簡単な説明】
第1図は本発明の一実施例の基本構成図、第2図は第1
図の動作を説明するための処理の概略フロー図、第3図
は意味連接辞書のフィールド構成例を示す図、第4図は
検定対象格決定辞書のフィールド構成例を示す図、第5
図は意味連接辞書の内容例を示す図、第6図は検定対象
格決定辞書の内容例を示す図、第7図は例文1「私は友
人と帰省する」に対する処理過程を示す図、第8図は例
文2「私は友人と規制する」に対する処理過程を示す図
である。 1……形態素解析部、2……構文解析部、3……同音異
義語抽出部、4……検定対象格決定部、5……同音異義
語検定処理部、6……同音異義語訂正候補抽出部、7…
…検定対象格決定辞書、8……意味連接辞書、9……出
力ファイル、10……日本文誤り自動検出および訂正装置
本体、11……同音異義語の字面、12……同音異義語の読
み、13……同音異義誤の品詞、14……意味カテゴリ番号
対応の連接可否情報、15……各意味カテゴリ番号の連接
可否情報を示すフィールド、16……意味連接辞書の1レ
コード、17……同音異義語の字面、18……if-thenルー
ル群記述部、19……if部、20……then部、21……検定対
象格決定辞書の1レコード。

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】入力作成された日本文の文章中に含まれる
    同音異義語の誤りを自動的に検出し、訂正する装置であ
    って、 各同音異義語ごとに検定すべき格要素を規定した、各同
    音異義語字面を検索キーとして、各同音異義語字面ごと
    に複数のif-thenルールを有する検定対象格決定辞書
    と、 各同音異義語の字面と検定対象格決定辞書に示される格
    要素の持つ意味カテゴリとの意味的な連接関係の有無
    (連接可否情報)を記述した意味連接辞書と、 入力日本文の形態素解析を行い、入力日本文を単語単位
    に分割する第1の手段と、 単語単位に分割された入力日本文の構文構造を解析する
    第2の手段と、 入力日本文に同音異義語が含まれるか否かを判定し、含
    まれる場合にはその語を検定対象単語とする第3の手段
    と、 第3の手段で抽出された検定対象単語ごとに、該検定対
    象単語の字面で前記検定対象格決定辞書を検索して対応
    するif-thenルール群を取得し、その中から前記第2の
    手段での構文解析結果を満足するif部を持つルールを選
    び、そのthen部により、意味的な連接可否を検定する対
    象となる格要素(検定対象格と呼ぶ)を決定する第4の
    手段と、 第4の手段で決定した検定対象格の持つ意味カテゴリと
    検定対象単語との意味的な連接関係の有無を、前記意味
    連接辞書を参照することによって検定し、両者に意味的
    な連接関係がない場合に、該検定対象単語を同音異義語
    誤りであると検定する第5の手段と、 第5の手段で同音異義語誤りであると検定された単語と
    同一の読みを持つ単語(同音異義の関係にある語)を、
    該同音異義語誤りの訂正候補として意味連接辞書から抽
    出し、該訂正候補と該訂正候補に対応する同音異義語誤
    りの単語とを置換えて、該訂正候補の字面で前記検定対
    象格決定辞書を検索して検定対象格を決定し、該訂正候
    補と該訂正候補に対する検定対象格の持つ意味カテゴリ
    との連接可否情報を前記意味連接辞書から検索すること
    によって、意味的な連接関係の有無を検定し、意味的な
    連接関係がある場合には該訂正候補を正解候補として出
    力し、どの訂正候補との意味的な連接関係もない場合に
    は抽出したすべての訂正候補と該同音異義語誤りの字面
    との両方を出力する第6の手段と、 を備えることを特徴とする日本文誤り自動検出および訂
    正装置。
JP2016567A 1990-01-26 1990-01-26 日本文誤り自動検出および訂正装置 Expired - Lifetime JP2895137B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016567A JP2895137B2 (ja) 1990-01-26 1990-01-26 日本文誤り自動検出および訂正装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016567A JP2895137B2 (ja) 1990-01-26 1990-01-26 日本文誤り自動検出および訂正装置

Publications (2)

Publication Number Publication Date
JPH03220665A JPH03220665A (ja) 1991-09-27
JP2895137B2 true JP2895137B2 (ja) 1999-05-24

Family

ID=11919868

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016567A Expired - Lifetime JP2895137B2 (ja) 1990-01-26 1990-01-26 日本文誤り自動検出および訂正装置

Country Status (1)

Country Link
JP (1) JP2895137B2 (ja)

Also Published As

Publication number Publication date
JPH03220665A (ja) 1991-09-27

Similar Documents

Publication Publication Date Title
EP0971294A2 (en) Method and apparatus for automated search and retrieval processing
JP2002215617A (ja) 品詞タグ付けをする方法
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JP2020190970A (ja) 文書処理装置およびその方法、プログラム
Glass et al. A naive salience-based method for speaker identification in fiction books
JP2895137B2 (ja) 日本文誤り自動検出および訂正装置
Trouilleux A rule-based pronoun resolution system for French
KR100420474B1 (ko) 부분문틀을 이용한 장문 번역 장치 및 그 방법
JP6303508B2 (ja) 文書分析装置、文書分析システム、文書分析方法およびプログラム
JP3856515B2 (ja) 文書校正装置
JP4039205B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JPH0715691B2 (ja) 自動翻訳装置
JP4103311B2 (ja) 自然言語処理装置及び方法
JPH0795323B2 (ja) 自然言語処理装置
JP2595047B2 (ja) 日本文誤り自動検定・訂正装置
JPS63163956A (ja) 文書作成・校正支援装置
JP3907106B2 (ja) 翻訳ルール作成装置およびプログラム
JPH0836575A (ja) 統語解析装置
KR100253242B1 (ko) 프래그먼트 콤비네이션 방법
JP2595043B2 (ja) 日本文誤り自動検定装置
JPH09223143A (ja) 文書情報処理装置
JPH07105215A (ja) 句構造抽出装置および構文チェック装置
JPH10240736A (ja) 形態素解析装置
JPS62262178A (ja) 言語解析装置
JPH0388066A (ja) 日本文誤り自動検出・訂正装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090305

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090305

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100305

Year of fee payment: 11

EXPY Cancellation because of completion of term