JPH01281561A - 日本文訂正候補文字抽出方法 - Google Patents

日本文訂正候補文字抽出方法

Info

Publication number
JPH01281561A
JPH01281561A JP63110482A JP11048288A JPH01281561A JP H01281561 A JPH01281561 A JP H01281561A JP 63110482 A JP63110482 A JP 63110482A JP 11048288 A JP11048288 A JP 11048288A JP H01281561 A JPH01281561 A JP H01281561A
Authority
JP
Japan
Prior art keywords
word
kanji
character
candidate
correction candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63110482A
Other languages
English (en)
Inventor
Shinichiro Takagi
伸一郎 高木
Tsuneo Yasuda
安田 恒雄
Katsumi Shimazaki
島崎 勝美
Satoru Ikehara
池原 悟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP63110482A priority Critical patent/JPH01281561A/ja
Publication of JPH01281561A publication Critical patent/JPH01281561A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [M業上の利用分野〕 本発明は、日本文文書データベース作成のため、人力装
置から読み込まれた漢字かな混じりの日本文文字列に含
まれる誤字の自動訂正を行うための候補文字を抽出する
日本文訂正候補文字抽出方法に関する。
[従来の技術] 新聞記事、出版用原稿、科学技術論文等の多量の日本文
文書を電子ファイル化して、日本文文書データベースを
作成する場合、読み取り結果に混入する誤読文字や誤字
を、単語辞書および文法辞書を用いた形態素解析や修正
者によるチエツクによって検出した後、その修正や自動
訂正を実施するためには、正解候補の含有率の高い候補
抽出を行う必要がある。従来の訂正候補抽出の手段とし
ては、入力装置が認識時に出力する訂正候補文字群の中
から前後の文字との組合せにより作成した文字列で単語
辞書を索引して該当する単語の育無から訂正候補を抽出
する方式がある(例えば特願昭60−34444号、特
開昭61−194584号)。
また文字の連接確率に応じて予め収集した日本文訂正候
補辞書を用いて、誤字として抽出された位置の前後の文
字によりこの辞書を索引して候補文字を抽出し、最も文
字連接確率が高い候補を選択する方式がある(例えばI
#顆昭131−238059号、特開昭83−9436
4号)。
ところが、前者では、入力装置の認識環境により再字と
は全(かけ離れた認識結果が選択されることがある。ま
た、単語辞書が大規模になるにしたがって検索に要する
処理時間が増大することが欠点である。さらに、脱字を
含む誤りには対応できないという欠点もあった。
また、後者の例では、文字単位の確率的な処理であるた
め、文字間の連接確率そのものは高くても、それらの文
字を含む単語レベルで捉えた場合には必ずしも正解が上
位の候補として出現せず、また、誤字があってこれを訂
正することが前提であるため、脱字が出現する誤りには
対応ができないという欠点があった。
[発明が解決しようとする課題] 本発明は、上記の従来技術における欠点を解決するため
に、予め漢字2文字の高出現頻度の一般単語で出現頻度
の順に格納した漢字単語テーブルを作成し、漢字列複合
語内での漢字1文字あるいは漢字列の直後にひらがな列
を有する漢字列の末尾に未知語が発生した場合に、漢字
単語テーブルを検索して漢字2文字の訂正単語群を抽出
し、原文上で置き換えられるべき位置の前後の単語との
文法的な接続関係あるいは意味的な係り受け関係が成立
する訂正候補を正解の訂正候補として選択することによ
り、訂正精度の向上、処理性能の向上ならびに脱字が出
現する誤りにも対応して訂正候補を抽出する日本文訂正
候補文字抽出方法を提供することにある。
[1111題を解決するための手段] 本発明は、その方法を実施するために、入力装置、入力
処理部、入力日本文データベース、日本語単語辞書、文
法辞書、未知語検出部、訂正候補文字抽出部、漢字単語
テーブル、訂正候補選択部、日本語文書データベース、
等の手段を使用する。
漢字単語テーブルは、予め漢字2文字の高出現頻度の単
語で前方文字あるいは後方文字を同一とする一般語の組
について、それぞれ見出し、出現頻度、品詞、意味属性
を対とし出現頻度の順に格納して、前方1文字あるいは
後方1文字をキーとして索引する。
未知語検出部は、日本語単語辞書及び文法辞書を用いた
形!I素解析によって、単語の位置的あるいは文法的に
不連続な接続箇所の文字を未知語として検出する。
訂正候補文字抽出部は漢字単語テーブルを用いて未知語
を検出した際に、これに対応する訂正候補文字を複数文
字単語の形式で抽出する。
訂正候補選択部は抽出された訂正候補文字を含む単語に
ついて前後の単語との文法的な接続関係、意味的な水接
関係あるいは単語の出現頻度を用いて訂正候補を選択す
る。
〔作用] 本発明は、予め漢字2文字の高出現頻度の単語であって
前方文字あるいは後方文字を同一とする一般語の組につ
いて、それぞれ見出し、出現頻度、品詞、意味属性を対
とし出現頻度の順に格納して、前方1文字あるいは後方
1文字をキーとして索引する漢字単語テーブルを作成し
ておき、漢字列複合語内で漢字1文字の未知語が発生し
、その前後に漢字1文字の未知語でない単語が認定され
ている場合、あるいは漢字列直後にひらがな列を有し、
漢字列末尾に未知語が発生する場合に、漢字単語テーブ
ルを検索して漢字2文字の訂正単語群を抽出し、抽出さ
れた漢字2文字の訂正候補について、該当する訂正候補
の原文上での置き換え位置の前後の単語との文法的な接
続関係が成立する訂正候補を正解の訂正候補として選択
する。
特に漢字列複合語の場合では、訂正候補の単語とその前
後の自立単語との意味的な係り受け関係が成立する訂正
候補を正解の訂正候補として選択し、さらに関係が成立
した訂正候補が複数の場合には出現頻度の上位を選択す
る。
[実施例] 第1図は、本発明の方法を実施するためのデータ処理装
置の構成例を示す図である。第1図において、lは、漢
字OCR,ベンタッチ、キーボード等の入力装置、2は
入力あるいは読み込みを行う人力処理部、3は入力され
磁気装置に文字コードの形式で記録されている読み取り
結果の人力日本文データベース、4は日本語単語辞書、
5は文法辞書、6は日本語単語辞書4及び文法辞書5を
用いた形!!素解析によって、単語の位置的あるいは文
法的に不連続な接続箇所の文字を未知語として検出する
未知語検出部、7は予め漢字2文字の高出現頻度の単語
で前方文字あるいは後方文字を同一とする一般語の組に
ついて、それぞれ見出し、出現頻度、品詞、意味属性を
対とし出現頻度の順に格納して、前方1文字、あるいは
後方1文字をキーとして索引する漢字単語テーブル、8
は漢字11語テーブルを用いて未知語に対して訂正候補
文字を単語の形式で抽出する訂正候補文字抽出部、9は
抽出された訂正候補文字を含む単身について前後の単語
との文法的な接続関係、意味的な水接関係あるいは単語
の出現頻度を用いて訂正候補を選択する訂正候補選択部
、10は誤り救済された日本文文書データベース、11
はCPU/メモリから成る処理装置である。
この方式では、人力側1で読み込んだ結果である入力日
本文データベース3に対して、形!II秦解析によって
、単語の位置的あるいは文法的に不連続な接続箇所の文
字を未知語として未知語検出ISで検出する。
この際、漢字列複合語内で漢字1文字の未知語が発生し
、その前後に漢字1文字の未知語でない単語が認定され
ている場合には、この漢字1文字単語をキーとして漢字
単語テーブルを検索し、漢字2文字の訂正単語群を抽出
する。
ここで使用する漢字単語テーブルは、予め漢字2文字の
高出現頻度の単語で前方文字あるいは後方文字を同一と
する一般語の組について、それぞれ見出し、出現頻度、
品詞、意味属性を対とし出現頻度の順に格納して作成す
る。
抽出された漢字2文字の訂正候補について、該当する訂
正候補の原文上での置き換え位置の前後の単語との文法
的な接続関係が成立する訂正候補を正解の訂正候補とし
て選択する一方、漢字列複合語の場合では、訂正候補の
単語とその前後の自立単語との意味的な係り受け関係が
成立する訂正候補を正解の訂正候補として選択する。
第2図は、本発明の、誤字を有する場合の訂正候補抽出
及び選択の実施例を示す図である。
12は原文文字列、13は誤字で未知語となった文字、
14は正解文字、15は2文字漢字訂正候補を抽出する
ためのキー漢字1文字、16は漢字列複合語での正規単
語部、17は後方ひらがなの正規単!I、18はキー1
文字漢字により抽出された2文字漢字候補群、19はキ
ー文字と等しい後方漢字1文字、20はキー文字と等し
い前方漢字1文字、21は漢字列複合語内での意味的な
係り受け関係による訂正候補選択内容、22は意味的な
係り受け関係が成立する訂正候補、23は意味的な係り
受け関係が成立しない訂正候補、24は漢字単語と後方
ひらがな語との文法的な接続関係による訂正候補選択内
容、25は文法的な接続関係が成立する訂正候補、26
は文法的な接続関係が成立しない訂正候補、27は訂正
候補選択後の原文文字列、である。
この実施例において、単語認定の結果により漢字1文字
未知語が検出された場合に、漢字1文字未知語あるいは
前後の漢字1文字単語をキーとして漢字2文字単語テー
ブルを検索し訂正候補群を抽出し、この後に訂正候補単
語と原文上での置き換え位置の前後の単語との文法的な
接続関係を検定して訂正候補の選択を行う。本実施例で
は「対象」と「対策Jは一般名詞であり、後方単語のす
行変格活用(す変)動詞「する」との文法的接続が成立
しない。一方、「対照」はす変型用言動詞であって文法
的接続が成立するから、選択されることとなる。
漢字列複合語の場合は、訂正候補と前後のIL語との意
味的な係り受け関係によって訂正候補の単語の選択を行
うことができる。 本実施例では、「安全」と係り受け
関係を有する単語が「保障」であるから、この単語が選
択される。
第31!Iは、脱字がある場合の訂正候補抽出および選
択の実施例を示す図である。
28は脱字が発生した結果未知語となった文字、29は
脱字文字、30は文法的な接続関係によって選択された
訂正候補、31は出現頻度、を示す。
この実施例では、誤字が発生し単語認定の結果漢字1文
字未知語が検出された場合に、漢字1文字未知語をキー
として漢字2文字単語テーブルを検索し訂正候補群を抽
出し、この後に訂正候補単語と原文上での置き換え位置
の前後の単語との文法的な接続関係を検定して訂正候補
の選択を行う。
本実施例においては、後方のひらがな列(す変動間)と
の文法的接続による選択の結果、「修正」と「訂正」が
候補として残ったが、予め漢字2文字単語テーブル内に
格納された出現頻度を用いて「修正」の訂正候補が選択
される。
[発明の効果] 以上の説明のように、本発明は、予め漢字2文字の高出
現頻度の単語で前方文字あるいは後方文字を同一とする
一般語の組について、それぞれ見出し、出現頻度、品詞
、意味属性を対とし出現頻度の順に格納して、前方1文
字あるいは後方1文字をキーとして索引する漢字単語テ
ーブルを作成しておき、漢字列複合■内で漢字1文字の
未知語が発生し、その前後に漢字1文字の未知語でない
単:吾が認定されている場合、あるいは漢字列直後にひ
らがな列を有し、漢字列末尾に未知語が発生する場合に
は、漢字1文字をキーとして漢字単語テーブルを検索し
て漢字2文字の訂正単語群を抽出し、抽出された漢字2
文字の訂正候補について、該当する訂正候補の原文上で
の置き換え位置の前後の単語との文法的な接続関係、あ
るいは漢字列複合語の場合では、訂正候補の単語とその
前後の自立単語との意味的な係り受け関係がそれぞれ成
立する訂正候補を正解の訂正候補として選択する訂正候
補抽出を行う。従って、入力装置の認識環境が悪く認誦
精度が低下する場合や脱字が出現する誤りに対しても訂
正精度が高い候補抽出と正解候補選択が可能であり、た
とえ人手による確認を行う場合でも負荷の軽減を図るこ
とができるという利点があり従来の技術の欠点を改善す
ることができる。
【図面の簡単な説明】
第1図は本発明の方法を実施するためのデータ処理装置
の構成を示す図、第2図は誤字における訂正候補抽出及
び選択の実施例を示す図、第3図は脱字における訂正候
補抽出および選択の実施例を示す図である。 l:人力装置 2:人力処理部 3:入力日本文データベース 4:日本譜単語辞書 5:文法辞書 6:未知語検出部 7:a字単語テーブル 8:訂正候補文字抽出部 9:訂正候補選択部 10:日本文文書データベース 11:処理装置 12:[文文字列 13:誤字で未知語となった文字 14:正解文字 15:キー漢字1文字 16:a字複合語での正規単語部 17:後方ひらがなの正規単語部 18:2文字漢字候補群 19:キー文字と等しい後方漢字1文字20:キー文字
と等しい前方漢字1文字21:意味的な係り受け関係に
よる訂正候補選択内容 22:意味的な係り受け関係が成立する訂正候補23:
意味的な係り受け関係が成立しない訂正候補 24:文法的な接続関係による訂正候補25:文法的な
接続関係が成立する訂正候補26:文法的な接続関係が
成立しない訂正候補27:訂正候補選択部の原文文字列 28:脱字が発生した結果未知語となった文字29:脱
字文字 30:選択された訂正候補 31:出現頻度

Claims (2)

    【特許請求の範囲】
  1. (1)文書入力装置から入力された日本文文書データベ
    ースにおける日本文の入力誤り、文字認識誤りによって
    生じた読み取り誤り文字、誤字、あるいは脱字について
    、日本語単語辞書および文法辞書を用いた形態素解析に
    よって、単語の位置的あるいは文法的に不連続な接続箇
    所の文字を未知語検出部において未知語として検出する
    段階と、予め漢字2文字の高出現頻度の単語で前方文字
    あるいは後方文字を同一とする一般語の組について、そ
    れぞれ見出し、出現頻度、品詞、意味属性を対とし出現
    頻度の順に格納して、前方1文字あるいは後方1文字を
    キーとして索引する漢字単語テーブルを準備する段階と
    、漢字単語テーブルを用いて未知語に対して訂正候補文
    字を訂正候補文字抽出部によって単語の形式で抽出する
    段階と、抽出された訂正候補文字を含む単語について前
    後の単語との文法的な接続関係、意味的な承接関係、あ
    るいは単語の出現頻度を用いて訂正候補選択部によって
    訂正候補を選択するする段階を有する日本文訂正候補文
    字抽出方法であって、 漢字列複合語内で漢字1文字の誤字あるいは脱字による
    未知語が発生し、その前後に漢字1文字の未知語でない
    単語が認定されている場合に、この漢字1文字未知語あ
    るいは漢字1文字単語を前方1文字あるいは後方1文字
    のキーとして漢字単語テーブルを検索し、漢字2文字の
    訂正単語群を抽出し、抽出された漢字2文字の訂正候補
    を原文上の訂正しようとする漢字2文字と置き換えた際
    にその位置の前後の単語との文法的な接続関係が成立す
    る訂正候補を正解の訂正候補として選択する段階と、漢
    字列複合語の場合では、訂正候補の単語とその前後の自
    立単語との意味的な係り受け関係が成立する訂正候補を
    正解の訂正候補として選択する段階と、関係が成立した
    訂正候補が複数の場合は出現頻度の上位の訂正候補を選
    択する段階とを備えることを特徴とする日本文訂正候補
    文字抽出方法。
  2. (2)漢字列の直後にひらがな列を有し、漢字列末尾に
    未知語が発生する場合に、漢字列末尾の漢字1文字単語
    をキーとして漢字単語テーブルを検索し、漢字2文字の
    訂正単語群を抽出し、抽出された漢字2文字の訂正候補
    について、該当するひらがな列単語との文法的な接続関
    係が成立する訂正候補を正解の訂正候補として選択する
    ことを特徴とする請求項(1)に記載の日本文訂正候補
    文字抽出方法。
JP63110482A 1988-05-09 1988-05-09 日本文訂正候補文字抽出方法 Pending JPH01281561A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63110482A JPH01281561A (ja) 1988-05-09 1988-05-09 日本文訂正候補文字抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63110482A JPH01281561A (ja) 1988-05-09 1988-05-09 日本文訂正候補文字抽出方法

Publications (1)

Publication Number Publication Date
JPH01281561A true JPH01281561A (ja) 1989-11-13

Family

ID=14536845

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63110482A Pending JPH01281561A (ja) 1988-05-09 1988-05-09 日本文訂正候補文字抽出方法

Country Status (1)

Country Link
JP (1) JPH01281561A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9009026B2 (en) 2011-09-26 2015-04-14 Fuji Xerox Co., Ltd. Information processing apparatus, non-transitory computer readable medium storing information processing program, and information processing method
JP2020016939A (ja) * 2018-07-23 2020-01-30 株式会社デンソーアイティーラボラトリ 単語列修正装置、単語列修正方法及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9009026B2 (en) 2011-09-26 2015-04-14 Fuji Xerox Co., Ltd. Information processing apparatus, non-transitory computer readable medium storing information processing program, and information processing method
JP2020016939A (ja) * 2018-07-23 2020-01-30 株式会社デンソーアイティーラボラトリ 単語列修正装置、単語列修正方法及びプログラム

Similar Documents

Publication Publication Date Title
Kissos et al. OCR error correction using character correction and feature-based word classification
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JPH0351020B2 (ja)
Volk et al. Strategies for reducing and correcting OCR errors
EP0839357A1 (en) Method and apparatus for automated search and retrieval processing
Liyanapathirana et al. Sinspell: A comprehensive spelling checker for sinhala
JPH08263478A (ja) 中国語簡繁体字文書変換装置
JPH01281561A (ja) 日本文訂正候補文字抽出方法
JP2681663B2 (ja) 日本文訂正候補文字抽出方法
JPS61248160A (ja) 文書情報登録方式
JPH07230468A (ja) キーワード自動抽出装置およびキーワード自動抽出方法
JP2575947B2 (ja) 文節切出し装置
JP2592995B2 (ja) 文節切出し装置
JPH0262659A (ja) 日本文訂正候補文字抽出装置
JPH05225183A (ja) 日本文単語誤り自動検出装置
JPH11203281A (ja) 電子辞書検索装置及び電子辞書検索装置制御プログラムを記憶した媒体
JPS6394364A (ja) 日本文誤字自動修正装置
JP2592993B2 (ja) 文節切り出し装置
JPH06149872A (ja) 文章入力装置
JPH077412B2 (ja) 日本文訂正候補文字抽出装置
JPH09231212A (ja) 自立語判別方法
JPH0567073A (ja) 形態素解析装置および文節辞書作成装置
JPH0546612A (ja) 文章誤り検出装置
JPH0944501A (ja) 機械翻訳装置
JPH02105968A (ja) 日本文誤り自動検定・訂正方式