JPH0262659A - 日本文訂正候補文字抽出装置 - Google Patents

日本文訂正候補文字抽出装置

Info

Publication number
JPH0262659A
JPH0262659A JP63214616A JP21461688A JPH0262659A JP H0262659 A JPH0262659 A JP H0262659A JP 63214616 A JP63214616 A JP 63214616A JP 21461688 A JP21461688 A JP 21461688A JP H0262659 A JPH0262659 A JP H0262659A
Authority
JP
Japan
Prior art keywords
noun
word
case
verb
case element
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP63214616A
Other languages
English (en)
Other versions
JP2599973B2 (ja
Inventor
Shinichiro Takagi
伸一郎 高木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP63214616A priority Critical patent/JP2599973B2/ja
Publication of JPH0262659A publication Critical patent/JPH0262659A/ja
Application granted granted Critical
Publication of JP2599973B2 publication Critical patent/JP2599973B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は日本文訂正候補文字抽出装置に係り。
詳しくは、日本文文書データベース作成等のため、入力
装置から入力された漢字かな混じりの日本文文字列に含
まれる助詞に関する誤字、脱字の誤りについて、それの
自動訂正を行うための候補文字を抽出する日本文訂正候
補文字抽出装置に関する。
〔従来の技術〕
新聞記事、出版用原稿、科学技術論文等の多量の日本文
文書を電子ファイル化して日本文文書データベースを作
成する場合、あるいは日本語ワードプロセッサを用いて
文書を投入する場合、読取り結果あるいは投入結果に助
詞に関する誤読文字や誤字、脱字が多数混入する。特に
1日本文文書中では助詞の出現頻度が高く、かつ、最近
の文書では複合語表現・す変用言性名詞が多用される傾
向があるため(例:先端技術開発する)、助詞の誤り、
助詞脱落が頻発することになる。
日本文書データベース作成等においては、日本文の入力
誤りまたは文字認識誤りによって生じる助詞の誤り、脱
落に対し、単語辞書および文法辞書を用いた形態素解析
や修正者によるチエツクによって検出した後、その修正
や自動訂正を実施するためには、正解候補の含有率の高
い候補抽出を行う必要がある。
従来の訂正候補抽出方式は、一般に次の二つに大別され
る。第1の方式は、入力装置が認識時に出力する訂正候
補文字群の中から前後の文字との組合わせにより作成し
た文字列で単語辞書を索引して、該当する単語の有無か
ら訂正候補を抽出する方式である。また、第2の方式は
、文字の連接確率に応じて予め収集した日本文訂正候補
辞書を用いて、誤字として検出された位置の前後の文字
により、この辞書を索引して候補文字を抽出し、最も文
字連接確率が高い候補を選択する方式である。例えば、
前者は特開昭61−194584号、公報、後者は特開
昭63−94364号公報等番こ詳しく紹介されている
〔発明が解決しようとする課題〕
上記第1の方式では、入力装置の認識環境しこより正字
とは全く掛けはなれた認識結果が選択されたり1前後の
文字と助詞との組合せによる単語力1一般に単語辞書に
登録されていなしまため、助詞の候補抽出が行われず、
また助詞脱落の誤りしこ対応できないという欠点があっ
た。また、第2の方式でも、文字単位の確率的な処理で
あるため、助詞のような文字間の確率が高い文字は正解
の候補力〜上位の候補として出現せず、また、誤字h〜
前提であるため助詞脱落の誤りに対応できなし1と)N
う欠点があった。
本発明の目的は、助詞の訂正精度の向上、助詞脱落の誤
りに対応する訂正候補を抽出する日本文訂正候補文字抽
出装置を提供することにある。
〔課題を解決するための手段〕
本発明の日本文訂正候補文字抽出装置は、動詞および用
言性名詞について単語の見出し1品詞。
単語の有する格要素ごとの名詞カテゴリーをそれぞれ対
として格納する格要素パターンテーブルと、格要素ごと
の格助詞候補の見出しを格納する格助詞候補テーブルと
、入力日本文文字列について、日本語単語辞書および文
法辞書を用いて単語分割・品詞認定を行う形態素解析部
と、上記単語および品詞の認定の結果により、名詞と動
詞の接続部分あるいは名詞と動詞の間に未知語を有する
接続部分を検出する名詞・動詞接続検定部と、上記名詞
と動詞の接続部分あるいはその間に未知語を有する接続
部分を検出した場合に、当該動詞単語あるいは用言性名
詞の見出しをキーとして上記格要素パターンテーブルを
検索して、該当するレコードの格要素ごとの名詞カテゴ
リーと該名詞単語の名詞カテゴリーとが一致する格要素
を取り出し、上記格助候補テーブルより、該格要素に応
じた格助詞を訂正候補文字として抽出する訂正候補文字
抽出部とからなる。
〔作 用〕
未知語でない名詞単語とその後方に動詞単語あるいはす
変型用言性名詞およびす変動詞が検出されている場合に
は、動詞単語あるいはす変型用言性詞の見出しをキーと
して格要素パターンテーブルを検索して、該当するレコ
ードの格要素ごとの名詞カテゴリーと該名詞単語の名詞
カテゴリーとが一致する格要素を取出し、格助詞候補テ
ーブルより、この格要素に応じた格助詞を訂正候補文字
として抽出する。
未知語でない名詞単語とその後方に動詞単語あるいはす
変型用言性名詞およびす変動詞が認定され、さらに該名
詞単語の直後にひらがな未知語が存在している場合には
、動詞単語あるいはす変用言性名詞の見出しをキーとし
て、同様に格助詞を訂正候補文字として抽出する。
未知語でない名詞単語とその後方に動詞単語あるいはす
変型用言性名詞およびす変動側が認定され、該名詞単語
の直後にひらがな未知語が存在し、さらに該名詞単語の
名詞カテゴリーが複数存在する場合には、動詞単語ある
いはす変型用言性名詞の見出しをキーとして、格要素パ
ターンテーブルを検索し、該当するレコードの格要素ご
との名詞カテゴリーと該名詞単語の名詞カテゴリーとが
一致する複数の格要素を取出し、格助詞候補テーブルよ
り、この格要素に応じた格助詞を訂正候補文字として複
数抽出する。
このため、入力装置の認識環境が悪く、認識精度が低下
して助詞の認識誤りが発生する場合や、助詞脱落の誤り
が出現する場合に対しても、訂正精度の高い候補抽出が
可能になる。
〔実施例〕
以下、本発明の一実施例について図面により説明する。
第1図は本発明の日本文訂正候補文字抽出装置の一実施
例のブロック図である。第1図において、1は漢字OC
R、ベンタッチ、キーボード等の入力装置、2はCPU
やメモリから成る日本文訂正候補文字抽出装置本体、7
は読取り結果の入力日本文文字列が文字コードの形式で
記憶される入力日本文データベース、8は日本語単語辞
書、9は文法辞書、10は予め動詞および用言性名詞に
ついて単語の見出し、品詞、単語の有する格要素ごとの
名詞カテゴリーをそれぞれ対とし格納して、単語の見出
しをキーとして検索する格要素パターンテーブル、11
は予め格要素ごとの格助詞候補の見出しを格納した格助
詞候補テーブル、12は誤り救済された出力日本文文字
列が記憶される日本文文書データベースである0日本文
訂正候補文字抽出装置本体2は機能上、入力処理部3.
形態素解析部4、名詞・動詞接続検定部5及び訂正候補
文字抽出部6よりなる。
入力袋[lは漢字かな混りの日本文文字列を入力する。
この入力された日本文文字列を日本文訂正候補文字抽出
装置本体2の入力処理部3が取込み、入力日本文データ
ベース7に格納する。この入力日本文データベース7の
漢字かな混りの日本文文字列に対し、まず形態素解析部
4は日本語単語辞書8および文法辞書9を用いて単語分
割・品詞認定を行う0次に1名詞・動詞接続検定部5は
、形態素解析部4での単語および品詞の認定結果につい
て、名詞と動詞の接続部分あるいは名詞と動詞の間にひ
らがな未知語を有する接続部分を検出する。この名詞・
動詞接続検定部5で検出された名詞・動詞接続状況を訂
正候補文字抽出部6が受取り、名詞と動詞の接続部分に
ついては助詞脱落とみなし、また、名詞と動詞の間にひ
らがな未知語を有する接続部分については助詞誤りとみ
なして、予め作成しておいた格要素パターンテーブル1
0を動詞単語あるいは用言性名詞の見出しをキーとして
検索し、単語の有する格要素ごとの名詞カテゴリーと該
名詞単語の名詞カテゴリーとが一致する格要素を取出し
、この格要素に応じた格助詞を訂正候補文字として格助
詞候補テーブル11より抽出する。そして、誤りの救済
された日本文文字列を日本文文書データベース12に出
力する。
以下、第1図の構成による具体的処理例について説明す
る。
第2図は名詞と動詞の接続部分における処理例を示す図
である。こぎで、13は助詞誤りを含む原文、14は助
詞誤りの文字あるいは位置、15は正字、16は格要素
となる未知語でない名詞単語を表わす。17は動詞単語
の認定結果で、18は動詞単語の見出し、19は動詞単
語の品詞である。20は名詞単語の認定結果で、21は
名詞単語の見出し、22は名詞単語の品詞、23は名詞
単語の名詞カテゴリーである。24は格要素パターンテ
ーブル10の見出し部でかつテーブルのキ一部、25は
品詞部、26は格要素部、27は見出し部24に応じた
各格要素に属する名詞カテゴリーである。28は助詞誤
り訂正後の原文文字列、29は訂正された格助詞を表わ
す。
「決断迫る」の原文文字列13を形態素解析し。
名詞単語「決断」と動詞単語「迫る」の接続部分を抽出
する。この場合には、助詞脱落とみなし。
以下の処理を行う。
まず、動詞単語の認定結果17より、その語幹「迫」1
8をキーとして格要素パターンテーブル10を検索し、
品詞が一致する該当のレコードについて、各々の格要素
に応じた名詞カテゴリー27を抽出する。つぎに名詞単
語の認定結果20より、原文内の名詞単語「決断」16
に関して単語辞書8に予め記載されている名詞カテゴリ
ー[人間活動]23を抽出し、これと格要素パターンテ
ーブル10より抽出した名詞カテゴリー27とを比較し
て、一致する格要素[目的格]を選択する。
次に、この格要素[目的格]の代表格助詞[を1を格助
詞候補テーブル11より訂正候補文字として抽出する。
これにより、「決断迫る」13は「決断を迫る」28と
なり、助詞誤り14が救済される。
第3図は名詞と用言性名詞の接続部分における処理例を
示す図である。こ\で、第2図と同一意味には同一番号
を示す、30はす変用言性名詞の認定結果で、31はす
変用言性名詞の見出し、32はす変用言性名詞の品詞、
33はす変用言性名詞の名詞カテゴリー 34はす変動
側の認定結果である。
「山田首相発言した」の原文文字列13を形態素解析し
、名詞単語「首相」とす変用言性名詞「発言」およびす
変動側「シ」の接続部分を抽出する。この場合にも、助
詞脱落とみなし、以下の処理を行う。
まず、す変用言性名詞の認定結果30より、「発言」3
1をキーとして格要素パターンテーブル10を検索し、
品詞が一致する該当のレコードについて、各々の格要素
に応じた名詞カテゴリー27を抽出する。つぎに名詞単
語の認定結果20より、yX文内の名詞単語[首相」1
6に関して単語辞書8に予め記憶されている名詞カテゴ
リー[人物]23を抽出し、これと格要素パターンテー
ブル10より抽出した名詞カテゴリー27とを比較して
、一致する格要素[主格]を選択する。
次に、この格要素[主格]の代表格助詞「が」を格助詞
候補テーブル11より訂正候補文字として抽出する。こ
れにより、「山田首相発言した」13は「山田首相が発
言した」28となり、助詞誤り14が救済される。
第4図は名詞の直後にひらがな未知語を有する接続部分
における処理例を示す図である。二Nで。
35は名詞単語とす変用言性名詞の間に挟まれるひらが
な未知語である。それ以外は第2図および第3図と同様
である。
「計算機で処理する」の原文文字列13を形態素解析し
、名詞単語「計算機」とす変用言性名詞「処理」および
す変動側「する」の接続部分を抽出する。この際、名詞
単語「計算機」とす変用言性名詞「処理」の間にひらが
な未知語「て」が存在するので、助詞誤字とみなし、第
3図と同様の処理を行う、この結果、格要素パターンテ
ーブル10より格要素[道具路]を選択し、その代表格
助詞「で」を格助詞候補テーブル11より訂正候補文字
として抽出し、ひらがな未知語「て」と置換する。これ
により、[計算機で処理する」13は「計算機で処理す
る」28となり、助詞誤り14が救済される。
第5図は複数の格要素を有する場合の処理例を示す図で
ある。、二へで、36は名詞単語に存在する複数の名詞
カテゴリー 37は抽出された複数の格助詞の訂正候補
抽出文字である。それ以外は第2図乃至第4図と同様で
ある。
「基準は達する」の原文文字列13を形態素解析し1名
詞・動詞接続検定を行い、名詞単語「基準」と動詞単語
「達する」および該名詞単語と動詞単語の間にひらがな
未知語「は」が存在するので、助詞誤字とみなして、第
3図と同様の処理を行う、この際9名詞単語「基準」に
は複数の名詞カテゴリー36が存在し、さらに、これが
格要素パターンテーブル10の複数の格要素[主格]、
[対象路]と一致するため、格助詞候補テーブル11よ
り代表格助詞「が]、「に」が抽出される。
これらの格要素のいずれを選択するかは行わず、抽出さ
れた「が」 「に」をそれぞれひらがな未知語「は」と
置換することにより、原文文字列「基準は達する」に対
し、[基準が達する」あるいは「基準に達する」と複数
の候補を得る。
〔発明の効果〕
以上説明したように、本発明によれば、日本文文書を読
込んで日本文文書データベースを作成するときに、入力
装置の認識環境が悪く認識精度が低下して助詞の認識誤
りが発生する場合、あるいは、日本語ワードプロセッサ
を用いて文書を入力するときに、複合語表現・す変用言
性名詞の多用等により助詞脱落の誤りが出現する場合等
に対して、訂正精度が高い候補抽出が可能であり、たと
え人手により確認を行う場合でも負荷の軽減を図ること
ができるという利点がある。
【図面の簡単な説明】
第1図は本発明の日本文訂正候補文字抽出装置の一実施
例のブロック図、第2図乃至第5図は第1図の日本文訂
正候補文字抽出装置の具体的処理例を示す図である。 1・・・入力装置。 2・・・日本文訂正候補文字抽出装置本体、3・・・入
力処理部、 4・・・形態素解析部。 5・・・名詞・動詞接続検定部。 6・・・訂正候補文字抽出部、 7・・・入力日本文データベース、 8・・・日本語単語辞書、 9・・・文法辞書、10・
・・格要素パターンテーブル、 11・・・格助詞候補テーブル、 12・・・修正済日本文文書データベース。 第1図 第3図

Claims (1)

    【特許請求の範囲】
  1. (1)入力日本文文字列に含まれる助詞の誤りについて
    、その訂正候補文字を抽出する日本文訂正候補文字抽出
    装置であって、 動詞および用言性名詞について単語の見出し、品詞、単
    語の有する格要素ごとの名詞カテゴリーをそれぞれ対と
    して格納する格要素パターンテーブルと、 格要素ごとの格助詞候補の見出しを格納する格助詞候補
    テーブルと、 入力日本文文字列について、日本語単語辞書および文法
    辞書を用いて単語分割・品詞認定を行う形態素解析部と
    、 上記単語および品詞の認定の結果により、名詞と動詞の
    接続部分あるいは名詞と動詞の間に未知語を有する接続
    部分を検出する名詞・動詞接続検定部と、 上記名詞と動詞の接続部分あるいはその間に未知語を有
    する接続部分を検出した場合に、当該動詞単語あるいは
    用言性名詞の見出しをキーとして上記格要素パターンテ
    ーブルを検索して、該当するレコードの格要素ごとの名
    詞カテゴリーと該名詞単語の名詞カテゴリーとが一致す
    る格要素を取り出し、上記格助候補テーブルより、該格
    要素に応じた格助詞を訂正候補文字として抽出する訂正
    候補文字抽出部とを有することを特徴とする日本文訂正
    候補文字抽出装置。
JP63214616A 1988-08-29 1988-08-29 日本文訂正候補文字抽出装置 Expired - Fee Related JP2599973B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63214616A JP2599973B2 (ja) 1988-08-29 1988-08-29 日本文訂正候補文字抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63214616A JP2599973B2 (ja) 1988-08-29 1988-08-29 日本文訂正候補文字抽出装置

Publications (2)

Publication Number Publication Date
JPH0262659A true JPH0262659A (ja) 1990-03-02
JP2599973B2 JP2599973B2 (ja) 1997-04-16

Family

ID=16658674

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63214616A Expired - Fee Related JP2599973B2 (ja) 1988-08-29 1988-08-29 日本文訂正候補文字抽出装置

Country Status (1)

Country Link
JP (1) JP2599973B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012048439A (ja) * 2010-08-26 2012-03-08 Kddi Corp 対象文章に対する助詞落ち補完プログラム、装置、サーバ及び方法
JP2014067458A (ja) * 2014-01-23 2014-04-17 Kddi Corp 対象文章に対する助詞落ち補完プログラム、装置、サーバ及び方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012048439A (ja) * 2010-08-26 2012-03-08 Kddi Corp 対象文章に対する助詞落ち補完プログラム、装置、サーバ及び方法
JP2014067458A (ja) * 2014-01-23 2014-04-17 Kddi Corp 対象文章に対する助詞落ち補完プログラム、装置、サーバ及び方法

Also Published As

Publication number Publication date
JP2599973B2 (ja) 1997-04-16

Similar Documents

Publication Publication Date Title
US8660834B2 (en) User input classification
EP0971294A2 (en) Method and apparatus for automated search and retrieval processing
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
Chang A new approach for automatic Chinese spelling correction
Kumar et al. A study of spell checking techniques for indian languages
US7328404B2 (en) Method for predicting the readings of japanese ideographs
Uthayamoorthy et al. Ddspell-a data driven spell checker and suggestion generator for the tamil language
Mon et al. SymSpell4Burmese: symmetric delete Spelling correction algorithm (SymSpell) for burmese spelling checking
JP3975825B2 (ja) 文字認識誤り訂正方法、装置及びプログラム
JPH0262659A (ja) 日本文訂正候補文字抽出装置
JP2681663B2 (ja) 日本文訂正候補文字抽出方法
Selvaramalakshmi et al. A novel PSS stemmer for string similarity joins
JP2004206659A (ja) 読み情報決定方法及び装置及びプログラム
JP2827066B2 (ja) 数字列混在文書の文字認識の後処理方法
JPS62180462A (ja) 音声入力かな漢字変換装置
JPS6394364A (ja) 日本文誤字自動修正装置
JP3508312B2 (ja) キーワード抽出装置
JP2939945B2 (ja) ローマ字住所認識装置
JP3139624B2 (ja) 形態素解析装置
JPH05225183A (ja) 日本文単語誤り自動検出装置
JPH06149872A (ja) 文章入力装置
JP3233283B2 (ja) 日本文文章解析装置
JP2900628B2 (ja) 辞書検索装置
JPH0869467A (ja) 日本語文書処理装置
Zhdanova Automatic identification of European languages

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees