JPH01316863A - 日本文誤り自動検定・訂正装置 - Google Patents

日本文誤り自動検定・訂正装置

Info

Publication number
JPH01316863A
JPH01316863A JP63149448A JP14944888A JPH01316863A JP H01316863 A JPH01316863 A JP H01316863A JP 63149448 A JP63149448 A JP 63149448A JP 14944888 A JP14944888 A JP 14944888A JP H01316863 A JPH01316863 A JP H01316863A
Authority
JP
Japan
Prior art keywords
word
determination table
homophone
category
semantic category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP63149448A
Other languages
English (en)
Other versions
JP2595047B2 (ja
Inventor
Masahiro Oku
雅博 奥
Shinichiro Takagi
伸一郎 高木
Tsuneo Yasuda
安田 恒雄
Koji Matsuoka
浩司 松岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP63149448A priority Critical patent/JP2595047B2/ja
Publication of JPH01316863A publication Critical patent/JPH01316863A/ja
Application granted granted Critical
Publication of JP2595047B2 publication Critical patent/JP2595047B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は日本語文書処理装置に係り、特に、入力された
日本語文書中から自動的に同音異義語の使用誤りを指摘
し、その訂正候補を提示する日本文誤り自動検定・訂正
装置に関するものである。
〔従来の技術〕
一般に日本語ワードプロセッサでは、かな列を入力し、
単語あるいは文節単位の一括変換を実施するため、単語
変換誤りや変換域誤り等によって同音異義語選択誤りが
発生する。この種の同音異義語誤りは、同音異義語の意
味的な使い分けを熟知する必要があるため、単に原文文
書作成の過程でも作成者の思込みによる使用誤りが頻発
する。
さらに、文字認識装置においても1文字認識不良による
読取り誤りにより同音異義語誤りが発生する。
従来、入力された日本文中の入力誤り、文字認識不良に
よる読取り誤り、あるいは、カナ漢字変換における単語
の選択誤りにより生じる名詞連続複合語内の同音異義語
誤りの自動検定は、誤りやすい同音異義語を辞書に蛤−
りしておき、入力文書において、辞書中の該同音異義語
の文字列と一致する個所すべてを同音異義語誤りの候補
として抽出していた。
〔発明が解決しようとする課題〕
従来技術においては、入力された日本文中の、辞書にマ
ークしておいた同音異義語の文字列と一致する個所すべ
てを同音異義語誤りの候補とするため、■正しく使用さ
れている語も、すべて誤り候補として抽出してしまう、
■人手による検定とはゾ同じ工数がかぎる、■訂正候補
を出力することが困難であるなどの問題があった。
本発明の目的は、上記問題点を解決し、入力された日本
文について的確に同音異義語誤りを指摘して、訂正候補
を提示する日本文誤り自動検定・訂正装置を提供するこ
とにある。
〔課題を解決するための手段〕
本発明の日本語誤り自動検出装置においては、名詞をそ
の意味によって分類するための意味カテゴリ体系に基づ
いて、同音異義語の字面とその読みの2つをキーとし、
該同音異義語の字面と、その直前直後に位置する単語の
持つ意味カテゴリとの連接可否情報を記述した意味カテ
ゴリ連接判定テーブルと、入力日本文の形態素解析を行
い、名詞連続複合語を単語列に分割する第1手段と、名
詞連続複合語を構成する各単語の字面をキーとして前記
意味カテゴリ連接判定テーブルを検索し。
検索に成功した場合には、この単語を同音異義語使用誤
りの検定対象単語とする第2手段と、前記検定対象単語
をキーとして持つ前記意味カテゴリ連接判定テーブル中
のレコードに記述されている情報を用いて、該検定対象
単語を含む名詞連続複合語の構成単語のうち、該検定対
象単語の直前または直後の単語の持つカテゴリと、該検
定対象単語との連接の可否を判定し、連接不可の場合に
誤りであると検定する第3手段と、前記誤りであると検
定された同音異義語に対して、該同音異義語の読みをキ
ーとして前記意味カテゴリ連接判定テーブルを検索し、
該同音異義語に対する訂正候補を抽出する第4手段と、
前記抽出された訂正候補を新たに検定対象単語として、
前記意味カテゴリ連接判定テーブルを用いて、訂正候補
と直前または直後の単語との連接の可否を判定し、検定
対象単語と連接可である訂正候補が訂正候補中に存在す
る場合には、該検定対象単語と連接可である訂正候補の
みを出力し、該検定対象単語と連接可である訂正候補が
訂正候補中に存在しない場合には、すべての訂正候補を
出力する第5の手段とから構成される 〔作 用〕 入力された日本文中の名詞連続複合語を構成する各単語
の字面をキーとして前方/後方意味カテゴリ連接判定テ
ーブルを検索し、検索に成功した場合には、この単語を
検定対象単語として同音異義語使用誤りの検定を開始す
る。そして、同音異義語の誤りを検出した場合、まず、
意味カテゴリ連接判定テーブル中から訂正候補を抽出す
る。次に、該訂正候補を新たに検定対象単語として直前
または直後の単語との連接の可否を判定し、訂正候補の
うち、意味カテゴリ連接判定テーブルにおいて連接が認
められている候補のみを出力する。
訂正候補中に連接可である訂正候補が存在しない場合に
限って、すべての訂正候補を出力し、利用者に訂正候補
の選択を任せる。
〔実施例〕
以下、本発明の一実施例1こついて図面により説明する
第1図は本発明の一実施例の基本構成図を示す。
第1図において、12は日本語誤り自動検定・訂正装置
本体で、ハード的にはCPU、メモリ等で構成されが1
機能的には形態素解析部1、同音異義語抽出部2.同音
異義語検定部3.同音異義語候補抽出部4.同音異議語
候補検定部5及び意味カテゴリ連接判定テーブル検索部
6よりなる。形態素解析部1は本装置12の入力である
名詞連続複合語を、日本語単語辞書7と文法辞書8とを
用いて単語分割し、各単語に品詞や意味カテゴリなどの
付与を行う、同音異義語抽出部2は該名詞連続複合語中
に同音異義語が存在するか否かを、前方/後方意味カテ
ゴリ連接判定テーブル9,10を用いて判定し、存在す
る場合には該同音異義語を抽出する。同音異義語検定部
3は同意味カテゴリ連接判定テーブル8,9の該同音異
義語に関する情報を用いて該同音異義語が直前または直
後に位置する単語と連接しうるかどうかを判定すること
によって、該同音異義語の使用誤りを検定する。
同音異義語候補抽出部4は、同意味カテゴリ連接判定テ
ーブル9,10を該同音異義語の読みをキーとして検索
し、訂正候補を抽出する。同音異義語候補検定部5は、
同音異義語候補抽出部4で抽出された訂正候補に対して
、同意味カテゴリ連接判定テーブル9,10を用いて、
訂正候補と直前または直後に位置する単語との連接可否
を検定する。意味カテゴリ連接判定テーブル検索部6は
同意味カテゴリ連接判定テーブル9,10を検索するも
のである。
日本語単語辞書7は日本語単語の品詞情報や意味カテゴ
リなどの形態素情報を記述している0文法辞書8は日本
語単語の持つ品詞間の接続関係や係り受は関係などの文
法情報を記述している。前方意味カテゴリ連接判定テー
ブル9は、同音異義語の字面とその読みの2つをキーと
して持ち、該同音異義語と、その直前に位置する単語の
持つ意味カテゴリとの間の連接可否情報を記述している
後方意味カテゴリ連接判定テーブル10は、同音異義語
の字面とその読みを2つのキーとして持ち、該同音異義
語と、その直後に位置する単語の持つ意味カテゴリとの
間の連接可否情報を記述している。11は出力ファイル
である。
第2図は該日本文誤り自動検定・訂正装置12の動作の
概略フローである。
日本文誤り自動検定・訂正装置12の入力である名詞連
続複合語に対して、形態素解析部1では、日本語単語辞
書7、文法辞書8を用いた単語候補抽出、品詞接続検定
などの形態素解析を行い、該名詞連接複合語を単語分割
し、それぞれの単語に品詞情報、意味カテゴリなどを付
与したのち、解析結果を同音異義語抽出部2へ送る(ス
テップS1)。
同音異義語抽出部2では1名詞連続複合語を構成する各
名詞の字面をキーとして前方/後方意味カテゴリ連接判
定テーブル9.10を検索するように意味カテゴリ連接
判定テーブル検索部6に要求する。
要求を受けた意味カテゴリ連接判定テーブル検索部5で
は、■検索すべき単語が名詞連続複合語において先頭の
単語である場合には、後方意味カテゴリ連接判定テーブ
ル10を検索し、■検索すべき単語が名詞連続複合語に
おいて最後尾の単語である場合には、前方意味カテゴリ
連接判定テーブル9を検索し、■どちらでもない場合に
は、前方意味カテゴリ連接判定テーブル9、後方意味カ
テゴリ連接判定テーブル10の両方を検索する(ステッ
プS2)、そして、検索に成功した場合(以下、検索に
成功した単語のことを検定対象単語と呼ぶ)には、検索
に成功した意味力テゴリ連接判定テーブル名(■の場合
には後方意味カテゴリ連接判定テーブル、■の場合には
前方意味カテゴリ連接判定テーブル、■の場合には一方
または両方の意味カテゴリ連接判定テーブル、以下では
、検定対象テーブルと呼ぶ)とそのレコードの情報すべ
てを同音異義語抽出部2に送る(ステップ83. S4
)、検索に失敗した場合には処理を終了する。
同音異義語抽出部2では、意味カテゴリ連接判定テーブ
ル検索部6から送られてきた情報と、形態素解析部1か
ら送られてきている形態素解析結果とを同音異義語検定
部3に送る。
同音異義語検定部3では、まず、■検定対象テーブルが
前方意味カテゴリ連接判定テーブル9である場合には、
検定対象単語の直前に位置する単語(被検定単語)のも
つ意味カテゴリを、形態素解析結果から取出し、■検定
対象テーブルが後方意味カテゴリ連接判定テーブル10
である場合には、検定対象単語の直後に位置する単語(
被検定単ilりの持つ意味カテゴリを、形態素解析結果
から取出す(ステップS5)、なお、検定対象テーブル
が両方の意味カテゴリ連接判定テーブル9.10である
場合には■、■の両方の単語の意味カテゴリを取出す。
さらに、同音異義語検定部3では、検定対象テーブル(
9及び/又は10)内の検定対象単語に対するレコード
中の連接可否情報が記述されているフィールドにおいて
、被検定対象単語の持つ意味カテゴリとの連接が可であ
るか、不可であるかを検定しくステップS6)、連接可
の場合には。
「連接OKJとして処理を終了しくステップS7)。
連接不可の場合には、[誤りである」とする(ステップ
S8)、そして、これらの情報を同音異義語候補抽出部
4に送る。
同音異義語候補抽出部4では、同音異義語検定部3から
送られてきた「誤りである」と判定された語の読みをキ
ーとして検定対象テーブル9及び/又は10を検索し、
「誤りである」と判定された語に対する訂正候補をすべ
て抽出する(ステップS9)、該同音異義語候補抽出部
4は、該抽出した全訂正候補の字面と検定対象テーブル
中の情報と、形態素解析部1から送られてきている形態
素解析結果とを同音異義語候補検定部5に送る。
同音異義語候補検定部5では、「誤りである」と判定さ
れた単語を訂正候補に置き換え、該訂正候補を新たに検
定対象単語として(ステップ510)、同音異義語検定
部3と同様に、■検定対象テーブルが前方意味カテゴリ
連接判定テーブル9である場合には、検定対象単語の直
前に位置する単語(被検定単語)の持つ意味カテゴリを
、形態素解析結果から取り出し、■検定対象テーブルが
後方意味カテゴリ連接判定テーブル10である場合には
、検定対象単語の直後に位置する単語(被検定単語)の
持つ意味カテゴリを、形態素解析結果から取り出す(ス
テップ811)、なお、検定対象テーブルが両方の意味
カテゴリ連接判定テーブルである場合には■、■の両方
の単語の意味カテゴリを取り出す。さらに、同音異義語
候補検定部5では、検定対象テーブル9及び/又は10
内の検定対象単語に対するレコード中の連接可否情報が
記述されているフィールドにおいて、被検定対象単語の
持つ意味カテゴリとの連接が可であるか、不可であるか
を検定する。この操作を訂正候補すべてについて行う(
ステップ512)。
そして、すべての訂正候補について連接不可である場合
には、訂正候補すべてを出力ファイル11に出力しくス
テップ513)、1つでも連接可の訂正候補がある場合
には、連接可の訂正候補のみを出力ファイル11に出力
する(ステップ514)。
第3図に前方意味カテゴリ連接判定テーブル9のフィー
ルド構成例を示す6なお、後方意味カテゴリ連接判定テ
ーブル10についても同様である。
第3図中、13は当該意味カテゴリ連接判定テーブルを
検索するときのキーとなる同音異義語の字面、14は同
音異義語候補抽出部4において当該意味カテゴリ連接判
定テーブルを検索する際のキーとなる同音異義語の読み
、15はあらかじめ設けた意味カテゴリ体系(第3図で
は、N個の意順カテゴリからなる)の各意味カテゴリに
対して付与した番号対応に、13の字面とこの直前に位
置する単語の持つ意味カテゴリ(後方意味カテゴリ連接
判定テーブルの場合には直後に位置する単語の持つ意味
カテゴリ)との連接可否情報を記述したカテゴリ番号対
応の連接可否情報部、16は15の各意味カテゴリ番号
の連接可否情報を示すフィールドであり、#nは連接可
の場合はrOJ、連接不可の場合には「×」を表してい
る。17は該前方意味カテゴリ連接テーブルのルコード
である。
以下、具体例について説明する。こぎで、名詞連続複合
語の形態素解析結果は第4図の如くであるとする。第4
図で意味カテゴリと意味カテゴリ番号とは1:1に対応
している。従って、意味カテゴリが決まれば、意味カテ
ゴリ番号も一意に決まる。第5図に前方意味カテゴリ連
接判定テーブル9の内容例を、第6図に後方意味カテゴ
リ連接判定テーブル10の内容例をそれぞれ示す。
(1)前方意味カテゴリ連接判定テーブル9を検索する
場合 日本文誤り自動検定・訂正装置12の入力として゛′自
然化学″′を考える。この名詞連続複合語は、誤りを含
んでおり、正解は“自然科学″である。
形態素解析部1では、“自然化学′″を日本語単語辞書
7、文法辞書8を用いて形態素解析し、第4図(1)如
<゛自然″と゛′化学″″に単語分割し。
それぞれの単語に品詞、意味カテゴリ等を付与する。こ
の形態素解析結果は同音異義語抽出部2に送られる。
同音異義語抽出部2では、パ自然化学”を構成する名詞
“自然″と“化学″をキーとして意味カテゴリ連接判定
テーブル検索部6に前方/後方意味カテゴリ連接判定テ
ーブル9,10を検索するように要求する。
要求を受けた意味カテゴリ連接判定テーブル検索部6で
は、まず“自然”について処理を行う。
″自然”は1名詞連続複合語゛自然化学″の先頭の単語
であるので、後方意味カテゴリ連接判定テーブル10を
“自然″をキーとして検索する。後方意味カテゴリ連接
判定テーブル10の内容は。
第6図のごとくであるので、′自然″に対しては検索が
失敗する。次にパ化学″につぃて処理を行う。′化学″
は、名詞連続複合語“′自然化学″の最後尾の単語であ
るので、前方意味カテゴリ連接判定テーブル9を″化学
″をキーとして検索する。
前方意味カテゴリ連接判定テーブル9の内容は、第5図
のごとくであるので、“化学″に対する検索は成功する
。従って、該意味カテゴリ連接判定テーブル検索部6は
、検定対象単語=化学、検定対象テーブル=前方意味カ
テゴリ連接判定テーブルとし、″化学″に対する前方意
味カテゴリ連接判定テーブル9中の情報すべてを同音異
義語抽出部2に送る。
同音異義語抽出部2では、第4図(1)の形態素解析結
果と意味カテゴリ連接判定テーブル検索部6から送られ
てきた情報すべてを同音異義語検定部3に送る。
同音異義語検定部3では、検定対象テーブル=前方意味
カテゴリ連接判定テーブルであるので、検定対象単語=
化学の直前に位置する単語゛″自然(=被検定単語)の
持つ意味カテゴリ=「自然」(意味カテゴリ番号=24
)を形態素解析結果(第4図(1))より取出す、さら
に同音異義語検定部3では、第5図の前方意味カテゴリ
連接判定テーブル9中の″化学″に関するレコードにお
いて、意味カテゴリ番号=24が連接可能がどうかを見
る。第5図より、意味カテゴリ番号=24に対する連接
は不可である(第5図において24の位置が「X」とな
っている)、従って、該同音異義語検定部3は[誤りで
ある」と判定し、これらの情報を同音異義語候補抽出部
4に送る。
同音異義語候補抽出部4では、「誤りである」と判定さ
れた語“化学″の読み“かがく”をキーとして検定対象
テーブル=前方意味カテゴリ連接判定テーブルを検索す
る。第5図より明らかなように、訂正候補としては″科
学″が得られる。該同音異義語候補抽出部4は、この訂
正候補“科学″の字面と該字面を持つ検定対象テーブル
(前方意味カテゴリ連接判定テーブル9)のレコードの
持つ情報と、第4図(1)の形態素解析結果とを同音異
義語候補検定部5に送る。
同音異義語候補検定部5では、「誤りである」と判定さ
れた語゛化学″を訂正候補″科学″に置き換え、″科学
″と“自然″との連接を検定する。
すなわち、 ・検定対象テーブル=前方意味カテゴリ連接判定テーブ
ル・検定対象単語=“科学” ・被検定対象単語=“自然′″ として″科学″と、″自然″の持つ意味カテゴリとの連
接を検定する。第7図にパ化学″を“科学″に置き換え
た後の“自然科学″に対する情報を示す、第7図より、
′自然”の意味カテゴリは「自然」 (意味カテゴリ番
号=24)であるので、第5図の前方意味カテゴリ連接
判定テーブル9中の“科学”に関するレコードにおいて
、意味カテゴリ番号=24が連接可能かどうかを見る。
第5図より意味カテゴリ番号=24に対する連接は可で
ある(第5図において24の位置が0となっている)、
従って、′″自然と“科学”は連接可であると判定され
、出力ファイル11に訂正候補として出力される。
以上のようにして、正解である“科学”を訂正候補とし
て出力ファイル11に出力することができる。
(2)後方意味カテゴリ連接判定テーブル10を検索す
る場合 日本文誤り自動検定・訂正装置12の入力として“科学
実験”を考える。この名詞連続複合語は誤りを含んでお
り、正解は“化学実験″である。
形態素解析部1では、″科学実験″を日本語単語辞書7
、文法辞書8を用いて形態素解析し、第4図(2)の如
<、″科学″と″゛実験″に単語分割する。この形態素
解析結果は同音異義語抽出部2に送られる。
同音異義語抽出部2では、′科学実験″を構成する名詞
“科学″と“実験”をキーとして意味カテゴリ連接判定
テーブル検索部6に前方/後方意味カテゴリ連接判定テ
ーブル9,10を検索するように要求する。
要求を受けた意味カテゴリ連接判定テーブル検索部6で
は、まず“科学”について処理を行う。
“科学”は、名詞連続複合語゛′科学実験”の先頭の単
語であるので、後方意味カテゴリ連接判定テーブル10
を“科学′”をキーとして検索する。後方意味カテゴリ
連接判定テーブル10の内容は、第6図のごとくである
ので、′科学″に対する検索は成功する。次に“実験”
について処理を行う。
″実験″は、名詞連続複合語゛科学実験″′の最後尾の
単語であるので、前方意味カテゴリ連接判定テーブル9
を″実験″をキーとして検索する。前方意味カテゴリ連
接判定テーブル9の内容は、第5図のごとくであるので
、“実験パに対して検索が失敗する。従って、意味カテ
ゴリ連接判定テーブル検索部6は、検定対象単語=科学
、検定対象テーブル=後方意味カテゴリ連接判定テーブ
ルとし、“科学”に対する後方意味カテゴリ連接判定テ
ーブル10中の情報すべてを同音異義語抽出部2に送る
同音異義語抽出部2では、第4図(2)の形態素解析結
果と意味カテゴリ連接判定テーブル検索部6から送られ
てきた情報すべてを同音異義語検定部3に送る。
同音異義語検定部3では、検定対象テーブル=後方意味
カテゴリ連接判定テーブルであるので、検定対象単語=
科学の直後に位置する単語“実験″(=被検定単語)の
持つ意味カテゴリ=「思考」(意味カテゴリ番号=87
)を形態素解析結果(第4図(2))より取出す、さら
に同音異義語検定部3では、第6図の後方意味カテゴリ
連接判定テーブル10中の″科学”に関するレコードに
おいて、意味カテゴリ番号=87が連接可能かどうかを
見る。第6図より意味カテゴリ番号=87に対する連接
は不可である(第6図において87の位置が「×」とな
っている)、従って、「誤りである」と判定し、これら
の情報を同音異義語候補抽出部4に送る。
同音異義語候補抽出部4では、「誤りである」と判定さ
れた語″科学”の読み“かが<″をキーとして検定対象
テーブル=後方意味カテゴリ連接判定テーブルを検索す
る。第6図より明らかなように、訂正候補としては“化
学”が得られる。該同音異義語候補抽出部4は、この訂
正候補″化学″の字面と該字面を持つ検定対象テーブル
(後方意味カテゴリ連接判定テーブル10)のレコード
の持つ情報と、第4図(2)の形態素解析結果とを同音
異義語候補検定部5に送る。
同音異義語候補検定部5では、「誤りである」と判定さ
れた語″科学″を訂正候補“′化学″に置換え、″化学
″と″実験″との連接を検定する。
すなわち、 ・検定対象テーブル=後方意味カテゴリ連接判定テーブ
ル・検定対象単語=パ化学” ・被検定対象単語=゛′′実 験して″化学″と、″実験″の持つ意味カテゴリとの連
接を検定する。第8図にパ科学″を“化学″に置き換え
た後の″化学実験″に対する情報を示す。第8図より、
“′実験″の意味カテゴリは「思考」 (意味カテゴリ
番号=87)であるので、第6図の後方意味カテゴリ連
接判定テーブル10中の″化学”に関するレコードにお
いて、意味カテゴリ番号=87が連接可能かどうかを見
る。第6図より、意味カテゴリ番号=87に対する連接
は可である(第6図において87の位置が0となってい
る)。従って、゛′実験″とパ化学″は連接可であると
判定され、出力ファイル11に訂正候補として出力され
る。
以上のようにして、正解である“化学”を訂正候補とし
て出力ファイル11に出力することができる。
(3)前方意味カテゴリ連接判定テーブル9、後方意味
カテゴリ連接判定テーブル10の両方を検索する場合 日本文誤り自動検定・訂正装置12の入力として“全面
帰省撤廃″を考える。この名詞連続複合語は誤りを含ん
でおり、正解は“全面規制撤廃″である。
形態素解析部1では、パ全面帰省撤廃′″を日本語単語
辞書71文法辞書8を用いて形態素解析し。
第4図(3)の如く“全面”、′帰省′″および“′撤
廃″に単語分割する。この形態解析結果は同音異義語抽
出部2に送られる。
同音異義語抽出部2では、″“全面帰省撤廃″を構成す
る名詞パ全面″、′帰省″および“撤廃″をキーとして
意味カテゴリ連接判定テーブル検索部6に意味カテゴリ
連接判定テーブル9,10を検索するように要求する。
要求を受けた意味カテゴリ連接判定テーブル検索部6で
は、まず゛′全全面について処理を行う。
″全面″は2名詞連続複合語パ全面帰省撤廃″の先頭の
単語であるので、後方意味カテゴリ連接判定テーブル1
0を″全面”をキーとして検索する。
後方意味カテゴリ連接判定テーブル10の内容は、第6
図のごとくであるので、″全面”に対する検索は失敗す
る。次に゛′帰帰省上ついて処理を行う。
“帰省″は、名詞連続複合語″全面帰省撤廃′″の中間
に位置する単語であるので、前方意味カテゴリ連接判定
テーブル9および後方意味カテゴリ連接判定テーブル1
0の両方を“帰省″をキーとして検索する。前方意味カ
テゴリ連接判定テーブル9の内容は、第5図のごとくで
あるので、′帰省”に対する検索は成功する。また、後
方意味カテゴリ連接判定テーブル10の内容は、第6図
のごとくであるので、同じく“帰省”に対する検索も成
功する1次に、″撤廃″について処理を行う。
“撤廃″は1名詞連続複合語“全面帰省撤廃″の最後尾
の単語であるので、前方意味カテゴリ連接判定テーブル
9を“撤廃″をキーとして検索する。
前方意味カテゴリ連接判定テーブル9の内容は。
第5図のごとくであるので、“撤廃”に対しては検索が
失敗する。従って、該意味カテゴリ連接判定テーブル検
索部6は、検定対象単語=帰省、検定対象テーブル=前
方意味カテゴリ連接判定テーブルおよび後方意味カテゴ
リ連接判定テーブルとし、″帰省″に対する前方意味カ
テゴリ連接判定テーブル9中の情報すべてと後方意味カ
テゴリ連接判定テーブル10中の情報すべてとを同音異
義語抽出部2に送る。
同音異義語抽出部2では、第4図(3)の形態素解析結
果と意味カテゴリ連接判定テーブル検定部6から送られ
てきた情報すべてを同音異義語検定部3に送る。
同音異義語検定部3では、検定対象テーブル=前方意味
カテゴリ連接判定テーブルおよび後方意味カテゴリ連接
判定テーブルであるので、まず、前方意味カテゴリ連接
判定テーブル9による検定を試みる。検定対象単語=帰
省の直後に位置する単語“撤廃′″ (=被検定単語)
の持つ意味カテゴリ=「発生・消滅」(意味カテゴリ番
号=112)を形態素解析結果(第4図(3))より取
出す。さらに同音異義語検定部3では、第5図の前方意
味カテゴリ連接判定テーブル9中の“帰省″に関するレ
コードにおいて、意味カテゴリ番号=112が連接可能
かどうかを見る。第5図より意味カテゴリ番号=112
に対する連接は不可である(第5図において112の位
置が「×」となっている)。
次に、後方意味カテゴリ連接判定テーブル10による検
定を試みる。検定対象単語=帰省の直前に位置する単語
゛′全全面 (=被検定単語)の持つ意味カテゴリ=「
全体・部分」 (意味カテゴリ番号=158)を形態素
解析結果(第4図(3)より取出す、さらに同音異義検
定部3では、第6図の後方意味カテゴリ連接判定テーブ
ル10中の″帰省″に関するレコードにおいて、意味カ
テゴリ番号=158が連接可能かどうかを見る。第6図
より意味カテゴリ番号=158に対する連接は不可であ
る(第6図において158の位置が×となっている)、
従って、「誤りである」と判定し、これらの情報を同音
異義語候補抽出部4に送る。なお。
二Nでは、前方、後方とも連接不可であるが、−方が連
接不可である場合も「誤りである」と判定する。
同音異義語候補抽出部4では、「誤りである」と判定さ
れた語“帰省″の読み′きせい″をキーとして検定対象
テーブル=前方意味カテゴリ連接判定テーブルおよび後
方意味カテゴリ連接判定テーブルを検索する。第5図よ
り前方意味カテゴリ連接判定テーブル9からは訂正候補
として″規制″とパ規整”とが得られる。また、第6図
より後方意味カテゴリ連接判定テーブル10からは訂正
候補として“規制”が得られる。該同音異義語候補抽出
部4は、両者の和であるパ規制″と“規整°′とを訂正
候補として、その字面と該字面を持つ検定対象テーブル
のレコードの持つ情報(“規制″については、前方意味
カテゴリ連接判定テーブル9と後方意味カテゴリ連接判
定テーブル10との両方の情報)と、第4図(3)の形
態素解析結果とを同音異義語候補検定部5に送る。
同音異義語候補検定部5では、「誤りである」と判定さ
れた語“帰省”を訂正候補“規制”とパ規整″に順次置
き換え、″規制″と“全面″、″規整”と“全面″、“
規制′″とパ撤廃″の3つの連接の検定を順次行う、す
なわち。
■ ・検定対象テーブル=前方意味カテゴリ連接判定テ
ーブル・検定対象単語=パ規制″ ・被検定対象単語=″全全面 の場合と、 ■ ・検定対象テーブル=前方意味カテゴリ連接判定テ
ーブル・検定対象単語=゛規整″ ・被検定対象単語=′″全面″ の場合と、 ■ ・検定対象テーブル=後方意味カテゴリ連接判定テ
ーブル・検定対象単語=゛規制 ・被検定対象単語二′″撤廃” の場合の3つの場合について検定を行う、第9図(1)
に“帰省”を“規制”に置き換えた後の″全面規制撤廃
″に対する情報を、第9図(2)に″帰省″を゛規整″
に置き換えた後の“全面規整撤廃″に対する情報を示す
■の場合、第9図(1)より、゛′全面″の意味カテゴ
リは[全体・部分」 (意味カテゴリ番号=158)で
あるので、第5図の前方意味カテゴリ連接判定テーブル
9中の“規制”に関するレコードにおいて、意味カテゴ
リ番号=158が連接可能かどうかを見る。第5図より
意味カテゴリ番号=158に対する連接は可である(第
5図において158の位置が0となっている)。従って
、″゛全面″′と″規制″は連接可であると判定される
■の場合、第9図(2)より、同じく“全面″の意味カ
テゴリは「全体・部分」 (意味カテゴリ番号=158
)であるので、第5図の前方意味カテゴリ連接判定テー
ブル9中の″規整″に関するしコードにおいて、意味カ
テゴリ番号=158が連接可能かどうかを見る。第5図
より意味カテゴリ番号=158に対する連接は不可であ
る(第5図において158の位置が×となっている)。
従って、″全面″と゛′規整″′は連接不可であると判
定される。
■の場合、第9図(1)より、″撤廃″の意味カテゴリ
は「発生・消滅」 (意味カテゴリ番号=112)であ
るので、第6図の後方意味カテゴリ連接判定テーブル1
0中の″規制′″に関するレコードにおいて、意味カテ
ゴリ番号=112が連接可能かどうかを見る。第6図よ
り意味カテゴリ番号=112に対する連接は可である(
第6図において112の位置がOとなっている)、従っ
て。
“規制”と“撤廃”は連接可であると判定される。
■、■、■において連接可なものは“規制″のみである
。従って、′規制”のみが出力ファイル11に出力され
る。
なお1以上の例では説明していないが、単語が複数の意
味カテゴリを持つ場合には、すべての岨み合せについて
検定を行い、1ケ所でも連接可のものがあれば[連接O
KJとする。
以上のようにして、訂正候補として抽出された゛′規制
′″と″規整″のうち、正解である″規制”のみを訂正
候補として出力ファイル11に出力することができる。
〔発明の効果〕
以上の説明から明らかなように1本発明の日本文誤り自
動検定・訂正装置によれば次のような効果が得られる。
(1)名詞連続複合語に含まれる同音異義語の誤りを、
該名詞連続複合語を構成する名詞の意味カテゴリを用い
て自動的に検定することにより、誤って使用されている
ものNみを的確に抽出することができる。
(2)訂正候補として意味カテゴリの連接による検定が
OKであったもの\みを提示するので、確からしい訂正
候補のみを提示できる。
(3)検定の結果、誤っていると判定されたものNみを
抽出し、訂正候補を提示するのであるから、人手による
検定よりも工数が小さい。
(4)同音異義語の誤りを検出した場合、あらかじめ作
成した意味カテゴリ連接判定テーブル中から訂正候補を
抽出し、出力することができ、訂正作業を容易に行うこ
とができる。
【図面の簡単な説明】
第1図は本発明の一実施例の基本構成図、第2図は第1
図の動作を説明するための概略フロー図、第3図は前方
意味カテゴリ連接判定テーブルのフィールド構成例を示
す図、第4図は名詞連続複合語の形態素解析結果の一例
を示す図、第5図は前方意味カテゴリ連接判定テーブル
の内容例を示す図、第6図は後方意味カテゴリ連接判定
テーブルの内容例を示す図、第7図乃至第9図は第4図
の名詞連続複合語の形態素解析結果の例について訂正候
補で置き換えた後の情報を示す図である。 1・・・形態素解析部、 2・・・同音異義語抽出部、
3・・・同音異義語検定部。 4・・・同音異義語候補抽出部。 5・・・同音異義語候補検定部。 6・・・意味カテゴリ連接判定テーブル検索部、7・・
・日本語単語辞書、 8・・・文法辞書、9・・・前方
意味カテゴリ連接判定テーブル。 10・・・後方意味カテゴリ連接判定テーブル、11・
・・出力ファイル、 12・・・日本文誤り自動検定・訂正装置。 冒 IC (1ン 自(5゛ンごyc圧Nf+1  目慴斗1ゲ少
■乃釘芹M巧−咋’b、刈ビ、慮嘩カテコーリ41シ 
    24        66C2)@4*VC”
LNf +1.  ブtKWt)th ’fil!、率
N4mT*i、す〃テコ−9866g7 第5図 第6図 ゛“イヒ誉′ 各″ヰ4弓i′1こl?t=*f表のオ
肩浩灸第S図 ”′イ四−jl+  1己゛′ イピイ(++l<l々
枦〜之、ンf寛の4ン?、第9図

Claims (1)

    【特許請求の範囲】
  1. (1)入力日本文中の名詞連続複合語内に含まれる同音
    異義語誤りを自動的に検出及び訂正する装置において、 名詞をその意味によって分類するための意味カテゴリ体
    系に基づいて、同音異義語の字面とその読みの2つをキ
    ーとし、該同音異義語の字面と、その直前直後に位置す
    る単語の持つ意味カテゴリとの連接可否情報を記述した
    意味カテゴリ連接判定テーブルと、 入力日本文の形態素解析を行い、名詞連続複合語を単語
    列に分割する第1手段と、 名詞連続複合語を構成する各単語の字面をキーとして前
    記意味カテゴリ連接判定テーブルを検索し、検索に成功
    した場合には、この単語を同音異義語使用誤りの検定対
    象単語とする第2手段と、 前記検定対象単語をキーとして持つ前記意味カテゴリ連
    接判定テーブル中のレコードに記述されている情報を用
    いて、該検定対象単語を含む名詞連続複合語の構成単語
    のうち、該検定対象単語の直前または直後の単語の持つ
    カテゴリと、該検定対象単語との連接の可否を判定し、
    連接不可の場合に誤りであると検定する第3手段と、 前記誤りであると検定された同音異義語に対して、該同
    音異義語の読みをキーとして前記意味カテゴリ連接判定
    テーブルを検索し、該同音異義語に対する訂正候補を抽
    出する第4手段と、前記抽出された訂正候補を新たに検
    定対象単語として、前記意味カテゴリ連接判定テーブル
    を用いて、訂正候補と直前または直後の単語との連接の
    可否を判定し、検定対象単語と連接可である訂正候補が
    訂正候補中に存在する場合には、該検定対象単語と連接
    可である訂正候補のみを出力し、該検定対象単語と連接
    可である訂正候補が訂正候補中に存在しない場合には、
    すべての訂正候補を出力する第5の手段と、 から構成されることを特徴とする日本文誤り自動検定・
    訂正装置。
JP63149448A 1988-06-17 1988-06-17 日本文誤り自動検定・訂正装置 Expired - Lifetime JP2595047B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63149448A JP2595047B2 (ja) 1988-06-17 1988-06-17 日本文誤り自動検定・訂正装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63149448A JP2595047B2 (ja) 1988-06-17 1988-06-17 日本文誤り自動検定・訂正装置

Publications (2)

Publication Number Publication Date
JPH01316863A true JPH01316863A (ja) 1989-12-21
JP2595047B2 JP2595047B2 (ja) 1997-03-26

Family

ID=15475344

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63149448A Expired - Lifetime JP2595047B2 (ja) 1988-06-17 1988-06-17 日本文誤り自動検定・訂正装置

Country Status (1)

Country Link
JP (1) JP2595047B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112001168A (zh) * 2020-07-14 2020-11-27 咪咕文化科技有限公司 词语纠错方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112001168A (zh) * 2020-07-14 2020-11-27 咪咕文化科技有限公司 词语纠错方法、装置、电子设备及存储介质
CN112001168B (zh) * 2020-07-14 2024-05-03 咪咕文化科技有限公司 词语纠错方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
JP2595047B2 (ja) 1997-03-26

Similar Documents

Publication Publication Date Title
JP2693780B2 (ja) テキストプロセシングシステム、及び単位又は化学式が正確且つ一貫して使用されているかどうかをテキストプロセシングシステムでチェックするための方法
Glass et al. A naive salience-based method for speaker identification in fiction books
Liyanapathirana et al. Sinspell: A comprehensive spelling checker for sinhala
Ganfure et al. Design and implementation of morphology based spell checker
Tufiş et al. DIAC+: A professional diacritics recovering system
JPH01316863A (ja) 日本文誤り自動検定・訂正装置
JP3353647B2 (ja) 機械翻訳システム用辞書・ルール学習装置及び機械翻訳システム用辞書・ルール学習プログラムを格納した記憶媒体
JP3856515B2 (ja) 文書校正装置
JPS60164864A (ja) デ−タ処理装置
JPH01307861A (ja) 日本文誤り自動検定装置
Rachel et al. Vyakranly: Hindi Grammar & Spelling Errors Detection and Correction System
Habash et al. Identification of Naturally Occurring Numerical Expressions in Arabic.
JPH0239357A (ja) 日本文誤り自動検定・訂正装置
JP2003308319A (ja) 訳語選択装置、翻訳装置、訳語選択プログラム、及び翻訳プログラム
Ubaidillah et al. Improvement Of Query Speaking on The Indonesian to Madura Dictionary Using Levenshtein Distance Method
Iyyappan Online Tamil Error Correctors and Their Needs: Dr. K. Iyyappan Guest Lecturer, Department of Tamil, LN Government College, Ponneri-601204 Call: 9962660279 Email: agniiyyappan@ gmail. com
JP2895137B2 (ja) 日本文誤り自動検出および訂正装置
JPH02105968A (ja) 日本文誤り自動検定・訂正方式
JPH0486948A (ja) 分野別辞書を利用したカナ振りデータベースの作成方法
JPS61235978A (ja) 文字列訂正方式
JPH1139347A (ja) テキスト検索システム,インデックス作成装置,テキスト検索装置及びコンピュータ読み取り可能な記録媒体
Lowe et al. Computerized tools for reconstruction in Tibeto-Burman
JPH06149791A (ja) 漢字文章入力装置
JPH02136959A (ja) 日本文訂正候補抽出装置
JPH0388066A (ja) 日本文誤り自動検出・訂正装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071219

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081219

Year of fee payment: 12

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081219

Year of fee payment: 12