JP2599973B2 - 日本文訂正候補文字抽出装置 - Google Patents

日本文訂正候補文字抽出装置

Info

Publication number
JP2599973B2
JP2599973B2 JP63214616A JP21461688A JP2599973B2 JP 2599973 B2 JP2599973 B2 JP 2599973B2 JP 63214616 A JP63214616 A JP 63214616A JP 21461688 A JP21461688 A JP 21461688A JP 2599973 B2 JP2599973 B2 JP 2599973B2
Authority
JP
Japan
Prior art keywords
noun
word
case
verb
case element
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP63214616A
Other languages
English (en)
Other versions
JPH0262659A (ja
Inventor
伸一郎 高木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP63214616A priority Critical patent/JP2599973B2/ja
Publication of JPH0262659A publication Critical patent/JPH0262659A/ja
Application granted granted Critical
Publication of JP2599973B2 publication Critical patent/JP2599973B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は日本文訂正候補文字抽出装置に係り、詳しく
は、日本文文書データベース作成等のため、入力装置か
ら入力された漢字かな混じりの日本文文字列に含まれる
助詞に関する誤字、脱字の誤りについて、それの自動訂
正を行うための候補文字を抽出する日本文訂正候補文字
抽出装置に関する。
〔従来の技術〕
新聞記事、出版用原稿、科学技術論文等の多量の日本
文文書を電子ファイル化して日本文文書データベースを
作成する場合、あるいは日本語ワードプロセッサを用い
て文書を投入する場合、読取り結果あるいは投入結果に
助詞に関する誤読文字や誤字、脱字が多数混入する。特
に、日本文文書中では助詞の出現頻度が高く、かつ、最
近の文書では複合語表現・サ変用言性名詞が多用される
傾向があるため(例:先端技術開発する)、助詞の誤
り、助詞脱落が頻度することになる。
日本文書データベース作成等においては、日本文の入
力誤りまたは文字認識誤りによって生じる助詞の誤り、
脱落に対し、単語辞書および文法辞書を用いた形態素解
析や修正によるチェックによって検出した後、その修正
や自動訂正を実施するためには、正解候補の含有率の高
い候補抽出を行う必要がある。
従来の訂正候補抽出方式は、一般に次の二つに大別さ
れる。第1の方式は、入力装置が認識時に出力する訂正
候補文字群の中から前後の文字との組合わせにより作成
した文字列で単語辞書を索引して、該当する単語の有無
から訂正候補を抽出する方式である。また、第2の方式
は、文字の連接確率に応じて予め収集した日本文訂正候
補辞書を用いて、誤字として検出された位置の前後の文
字により、この辞書を索引して候補文字を抽出し、最も
文字連接確立が高い候補を選択する方式である。例え
ば、前者は特開昭61−194584号、公報、後者は特開昭63
−94836号公報に詳しく紹介されている。
〔発明が解決しようとする課題〕
上記第1の方式では、入力装置の認識環境により正字
とは全く掛けなけれた認識結果が選択されたり、前後の
文字と助詞との組合せによる単語が一般に単語辞書に登
録されていないため、助詞の候補抽出が行われず、また
助詞脱落の誤りに対応できないという欠点があった。ま
た、第2の方式でも、文字単位の確率的な処理であるた
め、助詞のような文字間の確率が高い文字は正解の候補
が上位の候補として出現せず、また、誤字が前提である
ため助詞脱落の誤りに対応できないという欠点があっ
た。
本発明の目的は、助詞の訂正精度の向上、助詞脱落の
誤りに対応する訂正候補を抽出する日本文訂正候補文字
抽出装置を提供することにある。
〔問題点を解決するための手段〕
本発明の日本文訂正候補文字抽出装置は、動詞および
用言性名詞についての単語の見出し、品詞、単語の有す
る格要素ごとの名詞カテゴリーをそれぞれ対として格納
する格要素パターンテーブルと、格要素ごとの格助詞候
補の見出しを格納する格助詞候補テーブルと、入力日本
文文字列について、日本語単語辞書および文法辞書を用
いて単語分割・品詞認定を行う形態素解析部と、上記単
語および品詞の認定の結果により、名詞と動詞の接続部
分あるいは名詞と動詞の間に未知語を有する接続部分を
検出する名詞・動詞接続検定部と、上記名詞と動詞の接
続部分あるいはその間に未知語を有する接続部分を検出
した場合に、当該動作単語あるいは用言性名詞の見出し
をキーとして上記格要素パターンテーブルを検索して、
該当するレコードの格要素ごとの名詞カテゴリーと該名
詞単語の名詞カテゴリーとが一致する格要素を取り出
し、上記格助候補テーブルより、該格要素に応じた格助
詞を訂正候補文字として抽出する訂正候補文字抽出部と
からなる。
〔作 用〕
未知語でない名詞単語とその後方に動作単語あるいは
サ変型用言性名詞およびサ変動詞が検出されている場合
には、動詞単語あるいはサ変型用性言名詞の見出しをキ
ーとして格要素パターンテーブルを検索して、該当する
レコードの格要素ごとの名詞カテゴリーと該名詞単語の
名詞カテゴリーとが一致する格要素を取出し、格助詞候
補テーブルより、この格要素に応じた格助詞を訂正候補
文字として抽出する。
未知語でない名詞単語とその後方に動詞単語あるいは
サ変型用言性名詞およびサ変動詞が認定され、さらに該
名詞単語の直後にひらがな未知語が存在している場合に
は、動詞単語あるいはサ変用言性名詞の見出しをキーと
して、同様に格動詞を訂正候補文字として抽出する。
未知語でない名詞単語とその後方に動詞単語あるいは
サ変型用言性名詞およびサ変動詞が認定され、該名詞単
語の直後にひらがな未知語が存在し、さらに該名詞単語
の名詞カテゴリーが複数存在する場合には、動詞単語あ
るいはサ変型用言性名詞の見出しをキーとして、格要素
パターンテーブルを検索し、該当するレコードの格要素
ごとの名詞カテゴリーと該名詞単語の名詞カテゴリーと
が一致する複数の格要素を取出し、格助詞候補テーブル
より、この格要素に応じた格助詞を訂正候補文字として
複数抽出する。
このため、入力装置の認識環境が悪く、認識精度が低
下して助詞の認識誤りが発生する場合や、助詞脱落の誤
りが出現する場合に対しても、訂正精度の高い候補抽出
が可能になる。
〔実施例〕
以下、本発明の一実施例について図面により説明す
る。
第1図は本発明の日本文訂正候補文字抽出装置の一実
施例のブロック図である。第1図において、1は漢字OC
R、ペンタッチ、キーボード等の入力装置、2はCPUやメ
モリから成る日本文訂正候補文字抽出装置本体、7は読
取り結果の入力日本文文字列が文字コードの形式で記憶
される入力日本文データベース、8は日本語単語辞書、
9は文法辞書、10は予め動詞および用言性名詞について
単語の見出し、品詞、単語の有する格要素ごとの名詞カ
テゴリーをそれぞれ対とし格納して、単語の見出しをキ
ーとして検索する格要素パターンテーブル、11は予め格
要素ごとの格助詞候補の見出しを格納した格助詞候補テ
ーブル、12は誤り救済された出力日本文文字列が記憶さ
れる日本文文書データベースである。日本文訂正候補文
字抽出装置本体2は機能上、入力処理部3、形態素解析
部4、名詞・動詞接続検定部5及び訂正候補文字抽出部
6よりなる。
入力装置1は漢字かな混りの日本文文字列を入力す
る。この入力された日本文文字列を日本文訂正候補文字
抽出装置本体2の入力装置部3が取込み、入力日本文デ
ータベース7に格納する。この入力日本文データベース
7の漢字かな混りの日本文文字列に対し、まず形態素解
析部4は日本語単語辞書8および文法辞書9を用いて単
語分割・品詞認定を行う。次に、名詞・動詞接続検定部
5は、形態素解析部4での単語および品詞の認定結果に
ついて、名詞と動詞の接続部分あるいは名詞と動詞の間
にひらがな未知語を有する接続部分を検出する。この名
詞・動詞接続検定部5で検出された名詞・動詞接続状況
を訂正候補文字抽出部6が受取り、名詞と動詞の接続部
分については助詞脱落とみなし、また、名詞と動詞の間
にひらがな未知語を有する接続部分については助詞誤り
とみなして、予め作成しておいた格要素パターンテーブ
ル10を動詞単語あるいは用言性名詞の見出しをキーとし
て検索し、単語の有する格要素ごとの名詞カテゴリーと
該名詞単語の名詞カテゴリーとが一致する格要素を取出
し、この格要素に応じた格助詞を補正候補文字として格
助詞候補テーブル11より抽出する。そして、誤りの救済
された日本文文字列を日本文文書データベース12に出力
する。
以下、第1図の構成による具体的処理例について説明
する。
第2図は名詞と動詞の接続部分における処理例を示す
図である。こゝで、13は助詞誤りを含む原文、14は助詞
誤りの文字あるいは位置、15は正字、16は格要素となる
未知語でない名詞単語を表わす。17は動詞単語の認定結
果で、18は動詞単語の見出し、19は動詞単語の品詞であ
る。20は名詞単語の認定結果で、21は名詞単語の見出
し、22は名詞単語の品詞、23は名詞単語の名詞カテゴリ
ーである。24は格要素パターンテーブル10の見出し部で
かつテーブルのキー部、25は品詞部、26は格要素部、27
は見出し部24に応じた各格要素に属する名詞カテゴリー
である。28は助詞誤り訂正後の原文文字列、29は訂正さ
れた格助詞を表わす。
「決断迫る」の原文文字列13を形態素解析し、名詞単
語「決断」と動作単語「迫る」の接続部分を抽出する。
この場合には、助詞脱落とみなし、以下の処理を行う。
まず、動詞単語の認定結果17より、その語幹「迫」18
をキーとして格要素パターンテーブル10を検索し、品詞
が一致する該当のレコードについて、各々の格要素に応
じた名詞カテゴリー27を抽出する。つぎに名詞単語の認
定結果20より、原文内の名詞単語「決断」16に関して単
語辞書8に予め記載されている名詞カテゴリー[人間活
動]23を抽出し、これと格要素パターンテーブル10より
抽出した名詞カテゴリー27とを比較して、一致する格要
素[目的格]を選択する。次に、この格要素[目的格]
の代表格助詞「を」を格助詞候補テーブル11より訂正候
補文字として抽出する。これにより、「決断迫る」13は
「決断を迫る」28となり、助詞誤り14が救済される。
第3図は名詞と用言性名詞の接続部分における処理例
を示す図である。こゝで、第2図と同一意味には同一番
号を示す。30はサ変用言性名詞の認定結果で、31はサ変
用言性名詞の見出し、32はサ変用言性名詞の品詞、33は
サ変用言性名詞の名詞カテゴリー、34はサ変動詞の認定
結果である。
「山田首相発言した」の原文文字列13を形態素解析
し、名詞単語「首相」とサ変用言性名詞「発言」および
サ変動詞「し」の接続部分を抽出する。この場合にも、
助詞脱落とみなし、以下の処理を行う。
まず、サ変用言性名詞の認定結果30より、「発言」31
をキーとして格要素パターンテーブル10を検索し、品詞
が一致する該当のレコードについて、各々の格要素に応
じた名詞カテゴリー27を抽出する。つぎに名詞単語の認
定結果20より、原文内の名詞単語「首相」16に関して単
語辞書8に予め記憶されている名詞カテゴリー[人物]
23を抽出し、これと格要素パターンテーブル10より抽出
した名詞カテゴリー27とを比較して、一致する格要素
[主格]を選択する。次に、この格要素[主格]の代表
格助詞「が」を格助詞候補テーブル11より訂正候補文字
として抽出する。これにより、「山田首相発言した」13
は「山田首相が発言した」28となり、助詞誤り14が救済
される。
第4図は名詞の直後にひらがな未知語を有する接続部
分における処理例を示す図である。こゝで、35は名詞単
語とサ変用言性名詞の間に挟まれるひらがな未知語であ
る。それ以外は第2図および第3図と同様である。
「計算機て処理する」の原文文字列13を形態素解析
し、名詞単語「計算機」とサ変用言性名詞「処理」およ
びサ変動詞「する」の接続部分を抽出する。この際、名
詞単語「計算機」とサ変用言性名詞「処理」の間にひら
がな未知語「て」が存在するので、助詞誤字とみなし、
第3図と同様の処理を行う。この結果、格要素パターン
テーブル10より格要素[道具格]を選択し、その代表格
助詞「で」を格助詞候補テーブル11より訂正候補文字と
して抽出し、ひらがな未知語「て」と置換する。これに
より、「計算機て処理する」13は「計算機で処理する」
28となり、助詞誤り14が救済される。
第5図は複数の格要素を有する場合の処理例を示す図
である。こゝで、36は名詞単語に存在する複数の名詞カ
テゴリー、37は抽出された複数の格助詞の訂正候補抽出
文字である。それ以外は第2図乃至第4図と同様であ
る。
「基準ほ達する」の原文文字列13を形態素解析し、名
詞・動詞接続検定を行い、名詞単語「基準」と動詞単語
「達する」および該名詞単語と動詞単語の間にひらがな
未知語「ほ」が存在するので、助詞誤字とみなして、第
3図と同様の処理を行う。この際、名詞単語「基準」に
は複数の名詞カテゴリー36が存在し、さらに、これが格
要素パターンテーブル10の複数の格要素[主格]、[対
象格]と一致するため、格助詞候補テーブル11より代表
格助詞「が」、「に」が抽出される。これらの格要素の
いずれを選択するかは行わず、抽出された「が」「に」
をそれぞれひらがな未知語「ほ」と置換することによ
り、原文文字列「基準ほ達する」に対し、「基準が達す
る」あるいは「基準に達する」と複数の候補を得る。
〔発明の効果〕
以上説明したように、本発明によれば、日本文文書を
読込んで日本文文書データベースを作成するときに、入
力装置の認識環境が悪く認識精度が低下して助詞の認識
誤りが発生する場合、あるいは、日本語ワードプロセッ
サを用いて文書を入力するときに、複合語表現・サ変用
言性名詞の多用等により助詞脱落の誤りが出現する場合
等に対して、訂正精度が高い候補抽出が可能であり、た
とえ人手により確認を行う場合でも負荷の軽減を図るこ
とができるという利点がある。
【図面の簡単な説明】
第1図は本発明の日本文訂正候補文字抽出装置の一実施
例のブロック図、第2図乃至第5図は第1図の日本文訂
正候補文字抽出装置の具体的処理例を示す図である。 1……入力装置、 2……日本文訂正候補文字抽出装置本体、 3……入力処理部、4……形態素解析部、 5……名詞・動詞接続検定部、 6……訂正候補文字抽出部、 7……入力日本文データベース、 8……日本語単語辞書、9……文法辞書、 10……格要素パターンテーブル、 11……格助詞候補テーブル、 12……修正済日本文文書データベース。

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】入力日本文文字列に含まれる助詞の誤りに
    ついて、その訂正候補文字を抽出する日本文訂正候補文
    字抽出装置であって、 動詞および用言性名詞について単語の見出し、品詞、単
    語の有する格要素ごとの名詞カテゴリーをそれぞれ対と
    して格納する格要素パターンテーブルと、 格要素ごとの格助詞候補の見出しを格納する格助詞候補
    テーブルと、 入力日本文文字列について、日本語単語辞書および文法
    辞書を用いて単語分割・品詞認定を行う形態素解析部
    と、 上記単語および品詞の認定の結果により、名詞と動詞の
    接続部分あるいは名詞と動詞の間に未知語を有する接続
    部分を検出する名詞・動詞接続検定部と、 上記名詞と動詞の接続部分あるいはその間に未知語を有
    する接続部分を検出した場合に、当該動作単語あるいは
    用言性名詞の見出しをキーとして上記格要素パターンテ
    ーブルを検索して、該当するレコードの格要素ごとの名
    詞カテゴリーと該名詞単語の名詞カテゴリーとが一致す
    る格要素を取り出し、上記格助候補テーブルより、該格
    要素に応じた格助詞を訂正候補文字として抽出する訂正
    候補文字抽出部とを有することを特徴とする日本文訂正
    候補文字抽出装置。
JP63214616A 1988-08-29 1988-08-29 日本文訂正候補文字抽出装置 Expired - Fee Related JP2599973B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63214616A JP2599973B2 (ja) 1988-08-29 1988-08-29 日本文訂正候補文字抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63214616A JP2599973B2 (ja) 1988-08-29 1988-08-29 日本文訂正候補文字抽出装置

Publications (2)

Publication Number Publication Date
JPH0262659A JPH0262659A (ja) 1990-03-02
JP2599973B2 true JP2599973B2 (ja) 1997-04-16

Family

ID=16658674

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63214616A Expired - Fee Related JP2599973B2 (ja) 1988-08-29 1988-08-29 日本文訂正候補文字抽出装置

Country Status (1)

Country Link
JP (1) JP2599973B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5630901B2 (ja) * 2010-08-26 2014-11-26 Kddi株式会社 対象文章に対する助詞落ち補完プログラム、装置、サーバ及び方法
JP5704732B2 (ja) * 2014-01-23 2015-04-22 Kddi株式会社 対象文章に対する助詞落ち補完プログラム、装置、サーバ及び方法

Also Published As

Publication number Publication date
JPH0262659A (ja) 1990-03-02

Similar Documents

Publication Publication Date Title
Pettersson et al. A multilingual evaluation of three spelling normalisation methods for historical text
Chang A new approach for automatic Chinese spelling correction
Mosavi Miangah FarsiSpell: A spell-checking system for Persian using a large monolingual corpus
Hossain et al. Development of Bangla spell and grammar checkers: resource creation and evaluation
Gezmu et al. Portable spelling corrector for a less-resourced language: Amharic
Liyanapathirana et al. Sinspell: A comprehensive spelling checker for sinhala
Ströbel et al. Evaluation of HTR models without ground truth material
Uthayamoorthy et al. Ddspell-a data driven spell checker and suggestion generator for the tamil language
Mon et al. SymSpell4Burmese: symmetric delete Spelling correction algorithm (SymSpell) for burmese spelling checking
JP2599973B2 (ja) 日本文訂正候補文字抽出装置
Demilie et al. Automated all in one misspelling detection and correction system for Ethiopian languages
JP2681663B2 (ja) 日本文訂正候補文字抽出方法
JPS6394365A (ja) 日本文文書誤り検定装置
Murata et al. Resolution of verb ellipsis in Japanese sentence using surface expressions and examples
JPS6394364A (ja) 日本文誤字自動修正装置
Fahrudin et al. Analysis and Development of KEBI 1.0 Checker Framework as an Application of Indonesian Spelling Error Detection
JP3856515B2 (ja) 文書校正装置
Jamwal et al. A Novel Hybrid Approach for the Designing and Implementation of Dogri Spell Checker
Gamu et al. Research Article Morphology-Based Spell Checker for Dawurootsuwa Language
JP3233283B2 (ja) 日本文文章解析装置
JP3907106B2 (ja) 翻訳ルール作成装置およびプログラム
JPH0362260A (ja) 片仮名単語誤り検出訂正装置
JPH05225183A (ja) 日本文単語誤り自動検出装置
JP2994539B2 (ja) 機械翻訳装置
JPH077412B2 (ja) 日本文訂正候補文字抽出装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees