JP2595047B2 - 日本文誤り自動検定・訂正装置 - Google Patents

日本文誤り自動検定・訂正装置

Info

Publication number
JP2595047B2
JP2595047B2 JP63149448A JP14944888A JP2595047B2 JP 2595047 B2 JP2595047 B2 JP 2595047B2 JP 63149448 A JP63149448 A JP 63149448A JP 14944888 A JP14944888 A JP 14944888A JP 2595047 B2 JP2595047 B2 JP 2595047B2
Authority
JP
Japan
Prior art keywords
word
determination table
concatenation
semantic category
homonym
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP63149448A
Other languages
English (en)
Other versions
JPH01316863A (ja
Inventor
雅博 奥
伸一郎 高木
恒雄 安田
浩司 松岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP63149448A priority Critical patent/JP2595047B2/ja
Publication of JPH01316863A publication Critical patent/JPH01316863A/ja
Application granted granted Critical
Publication of JP2595047B2 publication Critical patent/JP2595047B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は日本語文書処理装置に係り、特に、入力され
た日本語文書中から自動的に同音異義語の使用誤りを指
摘し、その訂正候補を提示する日本文誤り自動検定・訂
正装置に関するものである。
〔従来の技術〕
一般に日本語ワードプロセッサでは、かな列を入力
し、単語あるいは文節単位の一括変換を実施するため、
単語変換誤りや変換域誤り等によって同音異義語選択誤
りが発生する。この種の同音異義語誤りは、同音異義語
の意味的な使い分けを熟知する必要があるため、単に原
文文書作成の過程でも作成者の思込みによる使用誤りが
頻発する。さらに、文字認識装置においても、文字認識
不良による読取り誤りにより同音異義語誤りが発生す
る。
従来、入力された日本文中の入力誤り、文字認識不良
による読取り誤り、あるいは、カナ漢字変換における単
語の選択誤りにより生じる名詞連続複合語内の同音異義
語誤りの自動検定は、誤りやすい同音異義語を辞書にマ
ークしておき、入力文書において、辞書中の該同音異義
語の文字列と一致する個所すべてを同音異義語誤りの候
補として抽出していた。
〔発明が解決しようとする課題〕
従来技術においては、入力された日本文中の、辞書に
マークしておいた同音異義語の文字列と一致する個所す
べてを同音異義語誤りの候補とするため、正しく使用
されている誤も、すべて誤り候補として抽出してしま
う、人手による検定とほゞ同じ工数がかゝる。訂正
候補を出力することが困難であるなどの問題があった。
本発明の目的は、上記問題点を解決し、入力された日
本文について的確に同音異義語誤りを指摘して、訂正候
補を提示する日本文誤り自動検定・訂正装置を提供する
ことにある。
〔課題を解決するための手段〕
本発明の日本語誤り自動検出装置においては、名詞を
その意味によって分類するための意味カテゴリ体系に基
づいて、同音異義語の字面とその読みの2つをキーと
し、該同音異義語の字面と、その直前直後に位置する単
語の持つ意味カテゴリとの連接可否情報を記述した意味
カテゴリ連接判定テーブルと、入力日本文の形態素解析
を行い、名詞連続複合語を単語列に分割する第1手段
と、名詞連続複合語を構成する各単語の字面をキーとし
て前記意味カテゴリ連接判定テーブルを検索し、検索に
成功した場合には、この単語を同音異義語使用誤りの検
定対象単語とする第2手段と、前記検定対象単語をキー
として持つ前記意味カテゴリ連接判定テーブル中のレコ
ードに記述されている情報を用いて、該検定対象単語を
含む名詞連続複合語の構成単語のうち、該検定対象単語
の直前または直後の単語の持つカテゴリと、該検定対象
単語との連接の可否を判定し、連接不可の場合に誤りで
あると検定する第3手段と、前記誤りであると検定され
た同音異義語に対して、該同音異義語の読みをキーとし
て前記意味カテゴリ連接判定テーブルを検索し、該同音
異義語に対する訂正候補を抽出する第4手段と、前記抽
出された訂正候補を新たに検定対象単語として、前記意
味カテゴリ連接判定テーブルを用いて、訂正候補と直前
または直後の単語との連接の可否を判定し、検定対象単
語と連接可である訂正候補が訂正候補中に存在する場合
には、該検定対象単語と連接可である訂正候補のみを出
力し、該検定対象単語と連接可である訂正候補が訂正候
補中に存在しない場合には、すべての訂正候補を出力す
る第5の手段とから構成される。
〔作 用〕
入力された日本文中の名詞連続複合語を構成する各単
語の字面をキーとして前方/後方意味カテゴリ連接判定
テーブルを検索し、検索に成功した場合には、この単語
を検定検定対象単語として同音異義語使用誤りの検定を
開始する。そして、同音異義語の誤りを検出した場合、
まず、意味カテゴリ連接判定テーブル中から訂正候補を
抽出する。次に、該訂正候補を新たに検定対象単語とし
て直前または直後の単語との連接の可否を判定し、訂正
候補のうち、意味カテゴリ連接判定テーブルにおいて連
接が認められている候補のみを出力する。訂正候補中に
連接可である訂正候補が存在しない場合に限って、すべ
ての訂正候補を出力し、利用者に訂正候補の選択を任せ
る。
〔実施例〕
以下、本発明の一実施例について図面により説明す
る。
第1図は本発明の一実施例の基本構成図を示す。第1
図におい、12は日本語誤り自動検定・訂正装置本体で、
ハード的にはCPU、メモリ等で構成されが、機能的には
形態素解析部1、同音異義語抽出部2、同音異義語検定
部3、同音異義語候補検定部5及び意味カテゴリ連接判
定テーブル検索部6よりなる。形態素解析部1は本装置
12の入力である名詞連続複合語を、日本語単語辞書7と
文法辞書8とを用いて単語分割し、各単語に品詞や意味
カテゴリなどの付与を行う。同音異義語抽出部2は該名
詞連続複合語中に同音異義語が存在するか否かを、前方
/後方意味カテゴリ連接判定テーブル9,10を用いて判定
し、存在する場合には該同音異義語を抽出する。同音異
義語検定部3は同意味カテゴリ連接判定テーブル8,9の
該同音異義語に関する情報を用いて該同音異義語が直前
または直後に位置する単語と連接しうるかどうかを判定
することによって、該同音異義語の使用誤りを検定す
る。同音異義語候補抽出部4は、同意味カテゴリ連接判
定テーブル9,10を該同音異義語の読みをキーとして検索
し、訂正候補を抽出する。同音異義語候補検定部5は、
同音異義語候補抽出部4で抽出された訂正候補に対し
て、同意味カテゴリ連接判定テーブル9,10を用いて、訂
正候補と直前または直後に位置する単語との連接可否を
検定する。意味カテゴリ連接判定テーブル検索部6は同
意味カテゴリ連接判定テーブル9,10を検索するものであ
る。
日本語単語辞書7は日本語単語の品詞情報や意味カテ
ゴリなどの形態素情報を記述している。文法辞書8は日
本語単語の持つ品詞間の接続関係や係り受け関係などの
文法情報を記述している。前方意味カテゴリ連接判定テ
ーブル9は、同音異義語の字面とその読みの2つをキー
として持ち、該同音異義語と、その直前に位置する単語
の持つ意味カテゴリとの間の連接可否情報を記述してい
る。後方意味カテゴリ連接判定テーブル10は、同音異義
語の字面とその読みを2つのキーとして持ち、該同音異
義語と、その直後に位置する単語の持つ意味カテゴリと
の間を連接可否情報を記述している。11は出力ファイル
である。
第2図は該日本文誤り自動検定・訂正装置12の動作の
概略フローである。
日本文誤り自動検定・訂正装置12の入力である名詞連
続複合語に対して、形態素解析部1では、日本語単語辞
書7、文法辞書8を用いた単語候補抽出、品詞接続検定
などの形態素解析を行い、該名詞連接複合語を単語分割
し、それぞれの単語に品詞情報、意味カテゴリなどを付
与したのち、解析結果を同音異義語抽出部2へ送る(ス
テップS1)。
同音異義語抽出部2では、名詞連続複合語を構成する
各名詞の字面をキーとして前方/後方意味カテゴリ連接
判定テーブル9,10を検索するように意味カテゴリ連接判
定テーブル検索部6に要求する。
要求を受けた意味カテゴリ連接判定テーブル検索部5
では、検索すべき単語が名詞連続複合語において先頭
の単語である場合には、後方意味カテゴリ連接判定テー
ブル10を検索し、検索すべき単語が名詞連続複合語に
おいて最後尾の単語である場合には、前方意味カテゴリ
連接判定テーブル9を検索し、どちらでもない場合に
は、前方意味カテゴリ連接判定テーブル9、後方意味カ
テゴリ連接判定テーブル10の両方を検索する(ステップ
S2)。そして、検索に成功した場合(以下、検索に成功
した単語のことを検定対象単語と呼ぶ)には、検索に成
功した意味カテゴリ連接判定テーブル名(の場合には
後方意味カテゴリ連接判定テーブル、の場合には前方
意味カテゴリ連接判定テーブル、の場合には一方また
は両方の意味カテゴリ連接判定テーブル、以下では、検
定対象テーブルと呼ぶ)とそのレコードの情報すべてを
同音異義語抽出部2に送る(ステップS3,S4)。検索に
失敗した場合には処理を終了する。
同音異義語抽出部2では、意味カテゴリ連接判定テー
ブル検索部6から送られてきた情報と、形態素解析部1
から送られてきている形態素解析結果とを同音異義語検
定部3に送る。
同音異義語検定部3では、まず、検定対象テーブル
が前方意味カテゴリ連接判定テーブル9である場合に
は、検定対象単語の直前に位置する単語(被検定単語)
のもつ意味カテゴリを、形態素解析結果から取出し、
検定対象テーブルが後方意味カテゴリ連接判定テーブル
10である場合には、検定対象単語の直後に位置する単語
(被検定単語)の持つ意味カテゴリを、形態素解析結果
から取出す(ステップS5)。なお、検定対象テーブルが
両方の意味カテゴリ連接判定テーブル9,10である場合に
は,の両方の単語の意味カテゴリを取出す。
さらに、同音異義語検定部3では、検定対象テーブル
(9及び/又は10)内の検定対象単語に対するレコード
中の連接可否情報が記述されているフィールドにおい
て、被検定対象単語の持つ意味カテゴリとの連接が可で
あるか、不可であるかを検定し(ステップS6)、連接可
の場合には、「連接OK」として処理を終了し(ステップ
S7)、連接不可の場合には、「誤りである」とする(ス
テップS8)。そして、これらの情報を同音異義語候補抽
出部4に送る。
同音異義語候補抽出部4では、同音異義語検定部3か
ら送られてきた「誤りである」と判定された語の読みを
キーとして検定対象テーブル9及び/又は10を検索し、
「誤りである」と判定された語に対する訂正候補をすべ
て抽出する(ステップS9)。該同音異義語候補抽出部4
は、該抽出した全訂正候補の字面と検定対象テーブル中
の情報と、形態素解析部1から送られてきている形態素
解析結果とを同音異義語候補検定部5に送る。
同音異義語候補検定部5では、「誤りである」と判定
された単語を訂正候補に置き換え、該訂正候補を新たに
検定対象単語として(ステップS10)、同音異義語検定
部3と同様に、検定対象テーブルが前方意味カテゴリ
連接判定テーブル9である場合には、検定対象単語の直
前に位置する単語(被検定単語)の持つ意味カテゴリ
を、形態素解析結果から取り出し、検定対象テーブル
が後方意味カテゴリ連接判定テーブル10である場合に
は、検定対象単語の直後に位置する単語(被検定単語)
の持つ意味カテゴリを、形態素解析結果から取り出す
(ステップS11)。なお、検定対象テーブルが両方の意
味カテゴリ連接判定テーブルである場合には,の両
方の単語の意味カテゴリを取り出す。さらに、同音異義
語候補検定部5では、検定対象テーブル9及び/又は10
内の検定対象単語に対するレコード中の連接可否情報が
記述されているフィールドにおいて、被検定対象単語の
持つ意味カテゴリとの連接が可であるか、不可であるか
を検定する。この操作を訂正候補すべてについて行う
(ステップS12)。そして、すべての訂正候補について
連続不可である場合には、訂正候補すべてを出力ファイ
ル11に出力し(ステップS13)、1つでも連接可の訂正
候補がある場合には、連接可の訂正候補のみを出力ファ
イル11に出力する(ステップS14)。
第3図に前方意味カテゴリ連接判定テーブル9のフィ
ールド構成例を示す。なお、後方意味カテゴリ連接判定
テーブル10についても同様である。第3図中、13は当該
意味カテゴリ連接判定テーブルを検索するときのキーと
なる同音異義語の字面、14は同音異義語候補抽出部4に
おいて当該意味カテゴリ連接判定テーブルを検索する際
のキーとなる同音異義語の読み、15はあらかじめ設けた
意味カテゴリ体系(第3図では、N個の意順カテゴリか
らなる)の各意味カテゴリに対して付与した番号対応
に、13の字面とこの直前に位置する単語の持つ意味カテ
ゴリ(後方意味カテゴリ連接判定テーブルの場合には直
後に位置する単語の持つ意味カテゴリ)との連接可否情
報を記述したカテゴリ番号対応の連接可否情報部、16は
15の各意味カテゴリ番号の連接可否情報を示すフィール
ドであり、#nは連接可の場合は「○」、連接不可の場
合には「×」を表している。17は該前方意味カテゴリ連
接テーブルの1レコードである。
以下、具体例について説明する。こゝで、名詞連続複
合語の形態素解析結果は第4図の如くであるとする。第
4図で意味カテゴリと意味カテゴリ番号とは1:1に対応
している。従って、意味カテゴリが決まれば、意味カテ
ゴリ番号も一意に決まる。第5図に前方意味カテゴリ連
接判定テーブル9の内容例を、第6図に後方意味カテゴ
リ連接判定テーブル10の内容例をそれぞれ示す。
(1)前方意味カテゴリ連接判定テーブル9を検索する
場合 日本文誤り自動検定・訂正装置12の入力として“自然
化学”を考える。この名詞連続複合語は、誤りを含んで
おり、正解は“自然科学”である。
形態素解析部1では、“自然化学”を日本語単語辞書
7、文法辞書8を用いて形態素解析し、第4図(1)の
如く“自然”と“化学”に単語分割し、それぞれの単語
に品詞、意味カテゴリ等を付与する。この形態素解析結
果は同音異義語抽出部2に送られる。
同音異義語抽出部2では、“自然化学”を構成する名
詞“自然”と“化学”をキーとして意味カテゴリ連接判
定テーブル検索部6に前方/後方意味カテゴリ連接判定
テーブル9,10を検索するように要求する。
要求を受けた意味カテゴリ連接判定テーブル検索部6
では、まず“自然”について処理を行う。“自然”は、
名詞連続複合語“自然化学”の先頭の単語であるので、
後方意味カテゴリ連接判定テーブル10を“自然”をキー
として検索する。後方意味カテゴリ連接判定テーブル10
の内容は、第6図のごとくであるので、“自然”に対し
ては検索が失敗する。次に“化学”について処理を行
う。“化学”は、名詞連続複合語“自然化学”の最後尾
の単語であるので、前方意味カテゴリ連接判定テーブル
9を“化学”をキーとして検索する。前方意味カテゴリ
連接判定テーブル9の内容は、第5図のごとくであるの
で、“化学”に対する検索は成功する。従って、該意味
カテゴリ連接判定テーブル検索部6は、検定対象単語=
化学、検定対象テーブル=前方意味カテゴリ連接判定テ
ーブルとし、“化学”に対する前方意味カテゴリ連接判
定テーブル9中の情報すべてを同音異義語抽出部2に送
る。
同音異義語抽出部2では、第4図(1)の形態素解析
結果と意味カテゴリ連接判定テーブル検索部6から送ら
れてきた情報すべてを同音異義語検定部3に送る。
同音異義語検定部3では、検定対象テーブル=前方意
味カテゴリ連接判定テーブルであるので、検定対象単語
=化学の直前に位置する単語“自然”(=被検定単語)
の持つ意味カテゴリ=「自然」(意味カテゴリ番号=2
4)を形態素解析結果(第4図(1))より取出す。さ
らに同音異義語検定部3では、第5図の前方意味カテゴ
リ連接判定テーブル9中の“化学”に関するレコードに
おいて、意味カテゴリ番号=24が連接可能かどうかを見
る。第5図より、意味カテゴリ番号=24に対する連接は
不可である(第5図において24の位置が「×」となって
いる)。従って、該同音異義語検定部3は「誤りであ
る」と判定し、これらの情報を同音異義語候補抽出部4
に送る。
同音異義語候補抽出部4では、「誤りである」と判定
された語“化学”の読み“かがく”をキーとして検定対
象テーブル=前方意味カテゴリ連接判定テーブルを検索
する。第5図より明らかなように、訂正候補としては
“科学”が得られる。該同音異義語候補抽出部4は、こ
の訂正候補“科学”の字面と該字面を持つ検定対象テー
ブル(前方意味カテゴリ連接判定テーブル9)のレコー
ドの持つ情報と、第4図(1)の形態素解析結果とを同
音異義語候補検定部5に送る。
同音異義語候補検定部5では、「誤りである」と判定
された語“化学”を訂正候補“科学”に置き換え、“科
学”と“自然”との連接を検定する。すなわち、 ・検定対象テーブル=前方意味カテゴリ連接判定テーブ
ル ・検定対象単語=“科学” ・被検定対象単語=“自然” として“科学”と、“自然”の持つ意味カテゴリとの連
接を検定する。第7図に“化学”を“科学”に置き換え
た後の“自然科学”に対する情報を示す。第7図より、
“自然”の意味カテゴリは「自然」(意味カテゴリ番号
=24)であるので、第5図の前方意味カテゴリ連接判定
テーブル9中の“科学”に関するレコードにおいて、意
味カテゴリ番号=24が連接可能かどうかを見る。第5図
より意味カテゴリ番号=24に対する連接は可である(第
5図において24の位置が○となっている)。従って、
“自然”と“科学”は連接可であると判定され、出力フ
ァイル11に訂正候補として出力される。
以上のようにして、正解である“科学”を訂正候補と
して出力ファイル11に出力することができる。
(2)後方意味カテゴリ連接判定テーブル10を検索する
場合 日本文誤り自動検定・訂正装置12の入力として“科学
実験”を考える。この名詞連続複合語は誤りを含んでお
り、正解は“化学実験”である。
形態素解析部1では、“科学実験”を日本語単語辞書
7、文法辞書8を用いて形態素解析し、第4図(2)の
如く、“科学”と“実験”に単語分割する。この形態素
解析結果は同音異義語抽出部2に送られる。
同音異義語抽出部2では、“科学実験”を構成する名
詞“科学”と“実験”をキーとして意味カテゴリ連接判
定テーブル検索部6に前方/後方意味カテゴリ連接判定
テーブル9,10を検索するように要求する。
要求を受けた意味カテゴリ連接判定テーブル検索部6
では、まず“科学”について処理を行う。“科学”は、
名詞連続複合語“科学実験”の先頭の単語であるので、
後方意味カテゴリ連接判定テーブル10を“科学”をキー
として検索する。後方意味カテゴリ連接判定テーブル10
の内容は、第6図のごとくであるので、“科学”に対す
る検索は成功する。次に“実験”について処理を行う。
“実験”は、名詞連続複合語“科学実験”の最後尾の単
語であるので、前方意味カテゴリ連接判定テーブル9を
“実験”をキーとして検索する。前方意味カテゴリ連接
判定テーブル9の内容は、第5図のごとくであるので、
“実験”に対して検索が失敗する。従って、意味カテゴ
リ連接判定テーブル検索部6は、検索対象単語=科学、
検定対象テーブル=後方意味カテゴリ連接判定テーブル
とし、“科学”に対する後方意味カテゴリ連接判定テー
ブル10中の情報すべてを同音異義語抽出部2に送る。
同音異義語抽出部2では、第4図(2)の形態素解析
結果と意味カテゴリ連接判定テーブル検索部6から送ら
れてきた情報すべてを同音異義語検定部3に送る。
同音異義語検定部3では、検定対象テーブル=前方意
味カテゴリ連接判定テーブルであるので、検定対象単語
=科学の直後に位置する単語“実験”(=被検定単語)
の持つ意味カテゴリ=「思考」(意味カテゴリ番号=8
7)を形態素解析結果(第4図(2))より取出す。さ
らに同音異義語検定部3では、第6図の後方意味カテゴ
リ連接判定テーブル10中の“科学”に関するレコードに
おいて、意味カテゴリ番号=87が連接可能かどうかを見
る。第6図より意味カテゴリ番号=87に対する連接は不
可である(第6図において87の位置が「×」となってい
る)。従って、「誤りである」と判定し、これらの情報
を同音異義語候補抽出部4に送る。
同音異義語候補抽出部4では、「誤りである」と判定
された語“科学”の読み“かがく”をキーとして検定対
象テーブル=後方意味意味カテゴリ連接判定テーブルを
検索する。第6図より明らかなように、訂正候補として
は“化学”が得られる。該同音異義語候補抽出部4は、
この訂正候補“化学""の字面と該字面を持つ検定対象テ
ーブル(後方意味カテゴリ連接判定テーブル10)のレコ
ードの持つ情報と、第4図(2)の形態素解析結果とを
同音異義語候補検定部5に送る。
同音異義語候補検定部5では、「誤りである」と判定
された語“科学”を訂正候補“化学”に置き換え、“化
学”と“実験”との連接を検定する。すなわち、 ・検定対象テーブル=後方意味カテゴリ連接判定テーブ
ル ・検定対象単語=“化学” ・被検定対象単語=“実験” として“化学”と、“実験”の持つ意味カテゴリとの連
接を検定する。第8図に“科学”を“化学”に置き換え
た後の“化学実験”に対する情報を示す。第8図より、
“実験”の意味カテゴリは「思考」(意味カテゴリ番号
=87)であるので、第6図の後方意味カテゴリ連接判定
テーブル10中の“化学”に関するレコードにおいて、意
味カテゴリ番号=87が連接可能かどうかを見る。第6図
より、意味カテゴリ番号=87に対する連接は可である
(第6図において87の位置が○となっている)。従っ
て、“実験”と“化学”は連接可であると判定され、出
力ファイル11に訂正候補として出力される。
以上のようにして、正解である“化学”を訂正候補と
して出力ファイル11に出力することができる。
(3)前方意味カテゴリ連接判定テーブル9、後方意味
カテゴリ連接判定テーブル10の両方を検索する場合 日本文誤り自動検定・訂正装置12の入力として“全面
帰省撤廃”を考える。この名詞連続複合語は誤りを含ん
でおり、正解は“全面規制撤廃”である。
形態素解析部1では、“全面帰省撤廃”日本語単語辞
書7、文法辞書8を用いて形態素解析し、第4図(3)
如く“全面”、“帰省”および“撤廃”に単語分割す
る。この形態素解析結果は同音異義語抽出部2に送られ
る。
同音異義語抽出部2では、“全面帰省撤廃”を構成す
る名詞“全面”、“帰省”および“撤廃”をキーとして
意味カテゴリ連接判定テーブル検索部6に意味カテゴリ
連接判定テーブル9,10を検索するように要求する。
要求を受けた意味カテゴリ連接判定テーブル検索部6
では、まず“全面”について処理を行う。“全面”は、
名詞連続複合語“全面帰省撤廃”の先頭の単語であるの
で、後方意味カテゴリ連接判定テーブル10を“全面”を
キーとして検索する。後方意味カテゴリ連接判定テーブ
ル10の内容は、第6図のごとくであるので、“全面”に
対する検索は失敗する。次に“帰省”について処理を行
う。“帰省”は、名詞連続複合語“全面帰省撤廃”の中
間に位置する単語であるので、前方意味カテゴリ連接判
定テーブル9および後方意味カテゴリ連接判定テーブル
10の両方を“帰省”をキーとして検索する。前方意味カ
テゴリ連接判定テーブル9の内容は、第5図のごとくで
あるので、“帰省”に対する検索は成功する。また、後
方意味カテゴリ連接判定テーブル10の内容は、第6図の
ごとくであるので、同じく“帰省”に対する検索も成功
する。次に、“撤廃”について処理を行う。“撤廃”
は、名詞連続複合語“全面帰省撤廃”の最後尾の単語で
あるので、前方意味カテゴリ連接判定テーブル9を“撤
廃”をキーとして検索する。前方意味カテゴリ連接判定
テーブル9の内容は、第5図のごとくであるので、“撤
廃”に対しては検索が失敗する。従って、該意味カテゴ
リ連接判定テーブル検索部6は、検定対象単語=帰省、
検定対象テーブル=前方意味カテゴリ連接判定テーブル
および後方意味カテゴリ連接判定テーブルとし、“帰
省”に対する前方意味カテゴリ連接判定テーブル9中の
情報すべてと後方意味カテゴリ連接判定テーブル10中の
情報すべてとを同音異義語抽出部2に送る。
同音異義語抽出部2では、第4図(3)の形態素解析
結果と意味カテゴリ連接判定テーブル検索部6から送ら
れてきた情報すべてを同音異義語検定部3に送る。
同音異義語検定部3では、検定対象テーブル=前方意
味カテゴリ連接判定テーブルおよび後方意味カテゴリ連
接判定テーブルであるので、まず、前方意味カテゴリ連
接判定テーブル9による検定を試みる。検定対象単語=
帰省の直後に位置する単語“撤廃”(=被検定単語)の
持つ意味カテゴリ=「発生・消滅」(意味カテゴリ番号
=112)を形態素解判結果(第4図(3))より取出
す。さらに同音異義語検定部3では、第5図の前方意味
カテゴリ連接判定テーブル9中の“帰省”に関するレコ
ードにおいて、意味カテゴリ番号=112が連接可能かど
うかを見る。第5図より意味カテゴリ番号=112に対す
る連接は不可である(第5図において112の位置が
「×」となっている)。次に、後方意味カテゴリ連接判
定テーブル10による検定を試みる。検定対象単語=帰省
の直前に位置する単語“全面”(=被検定単語)の持つ
意味カテゴリ=「全体・部分」(意味カテゴリ番号=15
8)を形態素解析結果(第4図(3)より取出す。さら
に同音異義語検定部3では、第3図の後方意味カテゴリ
連接判定テーブル10中の“帰省”に関するレコードにお
いて、意味カテゴリ番号=158が連接可能かどうかを見
る。第6図より意味カテゴリ番号=158に対する連接は
不可である(第6図において158の位置が×となってい
る)。従って、「誤りである」と判定し、これらの情報
を同音異義語候補抽出部4に送る。なお、こゝでは、前
方、後方とも連続不可であるが、一方が連続不可である
場合も「誤りである」と判定する。
同音異義語候補抽出部4では、「誤りである」と判定
された語“帰省”の読み“きせい”をキーとして検定対
象テーブル=前方意味カテゴリ連接判定テーブルおよび
後方意味カテゴリ連接判定テーブルを検索する。第5図
より前方意味カテゴリ連接判定テーブル9からは訂正候
補として“規制”と“規整”とが得られる。また、第6
図より後方意味カテゴリ連接判定テーブル10からは訂正
候補として“規制”が得られる。該同音異義語候補抽出
部4は、両者の和である“規制”と“規整”とを訂正候
補として、その字面と該字面を持つ検定対象テーブルの
レコードの持つ情報(“規制”については、前方意味カ
テゴリ連接判定テーブル9と後方意味カテゴリ連接判定
テーブル10との両方の情報)と、第4図(3)の形態素
解析結果とを同音異義語候補検定部5に送る。
同音異義語候補検定部5では、「誤りである」と判定
された語“帰省”を訂正候補“規制”と“規整”に順次
置き換え、“規制”と“全面”、“規整”と“全面”、
“規制”と“撤廃”の3つの連接の検定を順次行う。す
なわち、 ・検定対象テーブル=前方意味カテゴリ連接判定テー
ブル ・検定対象単語=“規制” ・被検定対象単語=“全面” の場合と、 ・検定対象テーブル=前方意味カテゴリ連接判定テー
ブル ・検定対象単語=“規整” ・被検定対象単語=“全面” の場合と、 ・検定対象テーブル=後方意味カテゴリ連接判定テー
ブル ・検定対象単語=“規整” ・被検定対象単語=“撤廃” の場合の3つの場合について検定を行う。第9図(1)
に“帰省”を“規制”に置き換えた後の“全面規則撤
廃”に対する情報を、第9図(2)に“帰省”を“規
整”に置き換えた後の“全面規整撤廃”に対する情報を
示す。
の場合、第9図(1)より、“全面”の意味カテゴ
リは「全体・部分」(意味カテゴリ番号=158)である
ので、第5図の前方意味カテゴリ連接判定テーブル9中
の“規制”に関するレコードにおいて、意味カテゴリ番
号=158が連接可能かどうかを見る。第5図より意味カ
テゴリ番号=158に対する連接は可である(第5図にお
いて158の位置が○となっている)。従って、“全面”
と“規制”は連接可であると判定される。
の場合、第9図(2)より、同じく“全面”の意味
カテゴリは「全体・部分」(意味カテゴリ番号=158)
であるので、第5図の前方意味カテゴリ連接判定テーブ
ル9中の“規整”に関するレコードにおいて、意味カテ
ゴリ番号=158が連接可能かどうかを見る。第5図より
意味カテゴリ番号=158に対する連接は不可である(第
5図において158の位置が×となっている)。従って、
“全面”と“規整”は連接不可であると判定される。
の場合、第9図(1)より、“撤廃”の意味カテゴ
リは「発生・消滅」(意味カテゴリ番号=112)である
ので、第6図の後方意味カテゴリ連接判定テーブル10中
の“規制”に関するレコードにおいて、意味カテゴリ番
号=112が連接可能かどうかを見る。第6図より意味カ
テゴリ番号=112に対する連接は可である(第6図にお
いて112の位置が○となっている)。従って、“規制”
と“撤廃”は連接可であると判定される。
,,において連接可なものは“規制”のみであ
る。従って、“規制”のみが出力ファイル11に出力され
る。
なお、以上の例では説明していないが、単語が複数の
意味カテゴリを持つ場合には、すべての組み合せについ
て検定を行い、1ケ所でも連接可のものがあれば「連接
OK」とする。
以上のようにして、訂正候補として抽出された“規
制”と“規整”のうち、正解である“規制”のみを訂正
候補として出力ファイル11に出力することができる。
〔発明の効果〕
以上の説明から明らかなように、本発明の日本文後り
自動検定・訂正装置によれば次のような効果が得られ
る。
(1)名詞連続複合語に含まれる同音異義語の誤りを、
該名詞連続複合語を構成する名詞の意味カテゴリを用い
て自動的に検定することにより、誤って使用されている
ものゝみを的確に抽出することができる。
(2)訂正候補として意味カテゴリの連接による検定が
OKであったものゝみを提示するので、確からしい訂正候
補のみを提示できる。
(3)検定の結果、誤っていると判定されたものゝみを
抽出し、訂正候補を提示するのであるから、人手による
検定よりも工数が小さい。
(4)同音異義語の誤りを検出した場合、あらかじめ作
成した意味カテゴリ連接判定テーブル中から訂正候補を
抽出し、出力することができ、訂正作業を容易に行うこ
とができる。
【図面の簡単な説明】
第1図は本発明の一実施例の基本構成図、第2図は第1
図の動作を説明するための概略フロー図、第3図は前方
意味カテゴリ連接判定テーブルのフィールド構成例を示
す図、第4図は名詞連続複合語の形態素解析結果の一例
を示す図、第5図は前方意味カテゴリ連接判定テーブル
の内容例を示す図、第6図は後方意味カテゴリ連接判定
テーブル内容例を示す図、第7図乃至第9図は第4図の
名詞連続複合語の形態素解析結果の例について訂正候補
で置き換えた後の情報を示す図である。 1……形態素解析部、2……同音異義語抽出部、 3……同音異義語検定部、 4……同音異義語候補抽出部、 5……同音異義語候補検定部、 6……意味カテゴリ連接判定テーブル検索部、 7……日本後単語辞書、8……文法辞書、 9……前方意味カテゴリ連接判定テーブル、 10……後方意味カテゴリ連接判定テーブル、 11……出力ファイル、 12……日本文誤り自動検定・訂正装置。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 松岡 浩司 東京都千代田区内幸町1丁目1番6号 日本電信電話株式会社内 (56)参考文献 特開 昭58−82368(JP,A) 特開 昭60−3017(JP,A) 特開 昭61−3267(JP,A) 特開 平1−307861(JP,A)

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】入力日本文中の名詞連続複合語内に含まれ
    る同音異義語誤りを自動的に検出及び訂正する装置にお
    いて、 名詞をその意味によって分類するための意味カテゴリ体
    系に基づいて、同音異義語の字面とその読みの2つをキ
    ーとし、該同音異義語の字面と、その直前直後に位置す
    る単語の持つ意味カテゴリとの連接可否情報を記述した
    意味カテゴリ連接判定テーブルと、 入力日本文の形態素解析を行い、名詞連続複合語を単語
    列に分割する第1手段と、 名詞連続複合語を構成する各単語の字面をキーとして前
    記意味カテゴリ連接判定テーブルを検索し、検索に成功
    した場合には、この単語を同音異義語使用誤りの検定対
    象単語とする第2手段と、 前記検定対象単語をキーとして持つ前記意味カテゴリ連
    接判定テーブル中のレコードに記述されている情報を用
    いて、該検定対象単語を含む名詞連続複合語の構成単語
    のうち、該検定対象単語の直前または直後の単語の持つ
    カテゴリと、該検定対象単語との連接の可否を判定し、
    連接不可の場合に誤りであると検定する第3手段と、 前記誤りであると検定された同音異義語に対して、該同
    音異義語の読みをキーとして前記意味カテゴリ連接判定
    テーブルを検索し、該同音異義語に対する訂正候補を抽
    出する第4手段と、 前記抽出された訂正候補を新たに検定対象単語として、
    前記意味カテゴリ連接判定テーブルを用いて、訂正候補
    と直前または直後の単語との連接の可否を判定し、検定
    対象単語と連接可である訂正候補が訂正候補中に存在す
    る場合には、該検定対象単語と連接可である訂正候補の
    みを出力し、該検定対象単語と連接可である訂正候補が
    訂正候補中に存在しない場合には、すべての訂正候補を
    出力する第5の手段と、 から構成されることを特徴とする日本文誤り自動検定・
    訂正装置。
JP63149448A 1988-06-17 1988-06-17 日本文誤り自動検定・訂正装置 Expired - Lifetime JP2595047B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63149448A JP2595047B2 (ja) 1988-06-17 1988-06-17 日本文誤り自動検定・訂正装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63149448A JP2595047B2 (ja) 1988-06-17 1988-06-17 日本文誤り自動検定・訂正装置

Publications (2)

Publication Number Publication Date
JPH01316863A JPH01316863A (ja) 1989-12-21
JP2595047B2 true JP2595047B2 (ja) 1997-03-26

Family

ID=15475344

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63149448A Expired - Lifetime JP2595047B2 (ja) 1988-06-17 1988-06-17 日本文誤り自動検定・訂正装置

Country Status (1)

Country Link
JP (1) JP2595047B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112001168B (zh) * 2020-07-14 2024-05-03 咪咕文化科技有限公司 词语纠错方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
JPH01316863A (ja) 1989-12-21

Similar Documents

Publication Publication Date Title
JPH05242138A (ja) 単語ディスアンビギュエーション装置及び方法
Verkerk et al. LASLA and Collatinus: a convergence in lexica
JP2595047B2 (ja) 日本文誤り自動検定・訂正装置
JP2595043B2 (ja) 日本文誤り自動検定装置
KR100420474B1 (ko) 부분문틀을 이용한 장문 번역 장치 및 그 방법
JP4047895B2 (ja) 文書校正装置およびプログラム記憶媒体
JPH05151261A (ja) 時制推敲支援システム
JPH09325962A (ja) 文書校正装置およびプログラム記憶媒体
JP3353647B2 (ja) 機械翻訳システム用辞書・ルール学習装置及び機械翻訳システム用辞書・ルール学習プログラムを格納した記憶媒体
JP3109187B2 (ja) 形態素解析方式
KR20000039406A (ko) 부분 구문 분석을 통한 보어-술어 관계의 복합명사 색인 방법
JP3856515B2 (ja) 文書校正装置
JP3308723B2 (ja) 統語解析装置
KR100422809B1 (ko) 기계 번역을 위한 장문 분할 방법
JP2895137B2 (ja) 日本文誤り自動検出および訂正装置
JP2902138B2 (ja) 誤読文字修正方法
JPH02105968A (ja) 日本文誤り自動検定・訂正方式
JPS6394364A (ja) 日本文誤字自動修正装置
JP2002297585A (ja) 英文名詞句の区分方法,英文構文情報生成方法および装置
JP3907106B2 (ja) 翻訳ルール作成装置およびプログラム
JP2718966B2 (ja) 誤り検出装置
JPH09223143A (ja) 文書情報処理装置
JPH10240736A (ja) 形態素解析装置
JPH06149872A (ja) 文章入力装置
JPH0758491B2 (ja) 日本文誤り自動検定・訂正装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071219

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081219

Year of fee payment: 12

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081219

Year of fee payment: 12