JP2908460B2 - 誤認識修正方法及び装置 - Google Patents

誤認識修正方法及び装置

Info

Publication number
JP2908460B2
JP2908460B2 JP63271591A JP27159188A JP2908460B2 JP 2908460 B2 JP2908460 B2 JP 2908460B2 JP 63271591 A JP63271591 A JP 63271591A JP 27159188 A JP27159188 A JP 27159188A JP 2908460 B2 JP2908460 B2 JP 2908460B2
Authority
JP
Japan
Prior art keywords
unknown word
japanese
recognition
word
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP63271591A
Other languages
English (en)
Other versions
JPH02118785A (ja
Inventor
道義 立川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP63271591A priority Critical patent/JP2908460B2/ja
Publication of JPH02118785A publication Critical patent/JPH02118785A/ja
Application granted granted Critical
Publication of JP2908460B2 publication Critical patent/JP2908460B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、日本語を対象とした文字認識装置、音声認
識装置などのパターン認識装置における認識結果に対
し、日本語解析によって誤認識を修正する認識修正方法
及び装置に関する。
〔従来の技術〕
文字認識装置、音声認識装置などのパターン認識装置
においては、入力されたイメージや音声のパターンの特
徴より認識を行うが、このような個々のパターンの特徴
による認識処理では誤認識を完全に排除することは殆ど
不可能である。そこで、日本語解析(単語辞書および文
法辞書を用いた単語、文法のチェック)により誤認識の
修正を行い、認識率の向上を図る必要がある。
このような日本語解析による誤認識修正に関しては、
認識候補文字のすべての組合せに対し日本語解析を行っ
て、誤認識を修正する文字入力処理方式(特開昭62−21
9190号)、認識候補文字に予め用意された類似文字を追
加し、候補文字および追加文字のすべての文字列につい
て日本語解析を行って誤認識を修正する誤読文字訂正処
理装置(特開昭62−251986号)などが知られている。
〔発明が解決しようとする課題〕
しかし、従来のこの種の誤認識修正方法では、単語辞
書に登録されていない単語(当然、日本語解析は失敗す
る)については、修正が不可能であるという問題があっ
た。
このような修正不可能となる頻度を減らすために、単
語辞書の登録単語数を増加させることも考えられるが、
あらゆる単語をカバーすることは実際上困難である。特
に、カタカナ単語は著しく多く、また造語も頻繁である
ため、すべてを辞書に登録することは不可能である。ア
ルファベット、数字、記号の組合せも同様である。さら
に、登録単語が多くなると、類似単語の増加による認識
率の低下や辞書検索時間の増加という別の問題も生じて
しまう。
本発明の目的は、日本語を対象とした文字認識装置や
音声認識装置などのパターン認識装置における認識結果
について、日本語解析によっては修正が困難となるカタ
カナ、アルファベット、数字または記号の単語の修正が
可能な誤認識修正方法を提供することにある。
〔課題を解決するための手段〕
本発明は、文字認識装置などの認識結果について日本
語解析(単語辞書および文法辞書を用いた単語、文法の
チェック等)により誤認識の修正処理を行うとゝもに、
日本語解析を失敗した未知語の部分を、その候補文字に
含まれる、または該候補文字およびその類似文字に含ま
れるカタカナ、アルファベット、数字または記号に修正
する未知語処理を行う。この未知語処理は日本語解析を
失敗したすべての部分について行ってもよいが、日本語
解析を失敗した未知語の部分の品詞を普通名詞またはサ
変名詞として次の日本語解析に成功した単語との接続を
調べ、この接続が可能な未知語の部分にのみ未知語処理
を行ってもよい。
〔作 用〕
単語辞書に登録されていない、あるいは登録が不可能
なカタカナ、アルファベット、数字または記号の組合せ
の部分は、日本語解析による修正を失敗するが、このよ
うに未知語について上記未知語処理によって、かなり高
率で正しい単語が得られるため、認識率が大幅に向上す
る。
また漢字も未知語となることがあるが、次の単語との
接続が可能な未知語についてのみ未知語処理を行うなら
ば、漢字からなる未知語の誤修正を減らすことができ
る。
〔実施例〕
以下、図面により本発明の実施例について説明する。
第1図は本発明の一実施例を示すブロック図である。
1は原稿読取りのためのスキャナ、2はスキャナ1によ
り読み取られた原稿画像より個々の文字パターンを切り
出し、その特徴とパターン辞書との比較照合によって候
補文字を抽出する文字認識装置(OCR)である。この文
字認識装置2の認識結果について日本語解析(自然言語
処理)によって語認識の修正が行われ、この日本語処理
では修正不可能な部分に対しては未知語処理によって修
正が行われる。
このような誤認識修正に係わる要素として候補文字ラ
ティス生成部3、候補ラティスメモリ4、日本語解析に
よる誤認識修正部5、日本語解析に用いられる単語辞書
6と、文法辞書7、候補単語メモリ8、日本語解析に失
敗した未知語の部分に対する未知語処理を行う未知語処
理部9、未知語部分の位置情報(後述のポインタ)を記
憶するための未知語位置セーブメモリ10がある。
11は修正後の認識結果を出力するための認識結果出力
部、12は誤認識修正部5、未知後処理部9および認識結
果出力部11の制御を行う制御部である。
候補文字ラティス生成部3は、文字認識装置2から出
力された候補文字および距離を候補文字ラティスメモリ
4に登録する。また本実施例においては、認識方式によ
って誤認識が生じやすい文字をある程度予測可能である
ので、そのような誤りやすい類似文字(コンフュージョ
ン文字)を予め用意し、候補文字ラティス生成部3にお
いて、例えば第1候補文字に対するコンフュージョン文
字も候補ラティスメモリ4に書き込む。
第2図に候補ラティスメモリ4の内容の一例を示す。
この例は「日本政府の意向がサミットで拒否された。」
の入力文に対する認識結果である。第1位候補とコンフ
ュージョン文字だけが示されているが、候補は第10位ま
である。
誤認識修正部5は、認識結果について日本語解析によ
る修正を行うとゝもに未知後部分の検出を行う。すなわ
ち、単語照合部13によって、候補文字(第1位だけでな
く全位の候補文字)およびコンフュージョン文字の組合
せ文字列について単語辞書6との照合(単語照合)を行
い、マッチした全単語を候補単語として候補単語メモリ
8に書き込む。次に、文法チェック部14で文法辞書7を
参照し、それらの候補単語と、その直前に解析が成功し
ている単語との品詞(名詞、サ変名詞、五段活用動詞な
ど)の接続チェックを行い、接続不可能な候補単語を候
補単語メモリ8より削除する。この時、単語の接続が複
数成功するときは、長い単語を優先する(最長一致法を
適用)。また、解析が失敗した場合にはバックトラック
を行い、次に長い候補単語について接続チェックを行
い、解析を続行する。
かゝる日本語解析を最終的に成功した単語の文字が第
2位以下の候補文字またはコンフュージョン文字である
場合、文法チェック部14は候補ラティスクメモリ4上の
第1候補文字をその第2位以下の候補文字またはコンフ
ュージョン文字と入れ替える。すなわち、修正する。
第2図に示した例では、「日本政府の」までは第1候
補文字で日本語解析が成功するが、「恵向が」では第6
位候補を用いた「意向」で日本語解析が成功し、第1位
候補の「恵」と第6位候補の「意」が入れ替えられる。
次の「サミット」(なお“ト”は漢字の“ボク”)につ
いては日本語解析が成功しないので、その次の「で」よ
り日本語解析を続行する。「で」、「拒否された」につ
いて日本語解析が成功する。
なお、第1候補の文字列について日本語解析を行うこ
とによって誤文節を検出し、検出した誤文節の部分に対
してのみ第2位以下の候補文字およびコンフュージョン
文字を含めた日本語解析を行って修正するようにしても
よい。
さて、上記日本語解析を最終的に失敗し文字列(誤文
節)の部分については、これを未知語とし、未知語チェ
ック部15において、その先頭文字位置のポインタPsと最
終文字位置のポインタPeを未知語位置セーブメモリ10に
書き込む。第2図の例においては、「サミット」の
「サ」の位置で日本語解析を失敗するので、その文字位
置をポインタPsとしてセーブし、次の文字より日本語解
析を続行し、「で」で日本語解析が成功する。この成功
した単語「で」の前の文字位置すなわち「ト(漢字)」
の文字位置をポインタPeとしてセーブする。
未知語処理部9はポインタPsとポインタPeの間の部分
に未知語処理を施す部分である。すなわち、候補文字検
索部16によって候補ラティスメモリ4を参照し、未知語
の部分について候補文字を第1位から順番に検索し、最
後にコンフュージョン文字を検索する。そして、検索さ
れた文字について文字種判定部17で文字種の判定を行
い、最初に見つかったカタカナ、アルファベット、数字
または記号の文字と第1位候補を入れ替える(修正す
る)。カタカナ、アルファベット、数字、記号のいずれ
も見つからないときは、第1位候補をそのまゝにする。
第2図の例において、日本語解析に失敗した未知語の
「サミット」(最後の文字「ト」は漢字の“ボク”)の
場合、「サミッ」までは第1候補のカタカナ「サ」、
「ミ」、「ッ」、がそのまま順次選択され、最後の文字
「ト」(漢字の“ボク”)は、第2候補にカタカナの
「ト」があるため、該カタカナの「ト」に書き換えら
れ、結局、全文字カタカナの単語「サミット」に修正さ
れる。
以上説明した日本語解析による誤認識修正処理および
未知語処理をフローチャートとして第3図に示す。
第4図は本発明の他の実施例を示すブロック図であ
る。本実施例は、未知語処理部9aに文法チェック部19を
追加し、こゝで未知語を普通名詞またはサ変名詞とし
て、次の日本語解析を成功した単語との接続が可能であ
るかどうかを調べ、接続可能と判定した未知語に対して
のみ候補文字検索部16および文字種判定部17による未知
語処理を行う。このような文法チェックを未知語処理の
前に行うことにより、漢字からなる未知語がカタカナ、
アルファベット、数字または記号に書き換えられるとい
う誤修正が減少する。
本実施例の処理をフローチャートとして第5図に示
す。
以上、文字認識装置に適用された実施例について説明
したが、音声認識装置などにも同様に本発明を適用で
き、また、各機能はハードウェアまたはソフトウェアの
いずれの手段によって実現してもよい。
〔発明の効果〕
以上、詳細に説明したように、本発明によれば、単語
辞書の大容量化やそれによる不利益を避けつゝ、日本語
解析による誤認識修正処理では修正が難かしてカタカナ
単語なども修正でき、認識率を向上せしめることができ
る。
【図面の簡単な説明】
第1図は本発明の一実施例を示すブロック図、第2図は
候補ラティスメモリの内容の一例を示す図、第3図は第
1図の処理フローチャート、第4図は本発明の他の実施
例を示すブロック図、第5図は第4図の処理フローチャ
ートである。 2……文字認識装置、 3……候補文字ラティス生成部、 4……候補ラティスメモリ、5……誤認識修正部、 6……単語辞書、7……文法辞書、 8……候補単語メモリ、9,9a……未知語処理部、 10……未知語位置セーブメモリ、 13……単語照合部、 14,19……文法チェック部、 15……未知語チェック部、 16……候補文字検索部、17……文字種判定部。
フロントページの続き (58)調査した分野(Int.Cl.6,DB名) G06K 9/72 G06K 9/68 G06K 9/03

Claims (7)

    (57)【特許請求の範囲】
  1. 【請求項1】日本語を対象とした認識処理結果の誤認識
    修正方法であって、 認識結果について、日本語解析により誤認識の修正処理
    を行うとともに、該日本語解析に失敗した未知語の部分
    を検出し、該未知語の部分を、当該候補文字およびその
    類似文字に含まれるカタカナ、フルファベット、数字ま
    たは記号に修正する未知語処理を行うことを特徴とする
    誤認識修正方法。
  2. 【請求項2】日本語解析に先立って、認識結果の候補文
    字に、誤認識が生じやすい類似文字を追加することを特
    徴とする請求項(1)記載の誤認識修正方法。
  3. 【請求項3】日本語を対象とした認識処理結果の誤認識
    修正方法であって、 認識結果について、単語辞書との照合及び文法辞書によ
    る文法チェックからなる日本語解析により誤認識の修正
    を行うとともに未知語の部分を検出し、該未知語の部分
    を、当該候補文字に含まれるカタカナ、アルファベッ
    ト、数字または記号に修正する未知語処理を行うことを
    特徴とする誤認識修正方法。
  4. 【請求項4】日本語を対象とした認識処理結果の誤認識
    修正方法であって、 認識結果について、単語辞書との照合及び文法辞書によ
    る文法チェックからなる日本語解析により誤認識の修正
    を行うとともに未知語の部分を検出し、該未知語の部分
    を、当該候補文字およびその類似文字に含まれるカタカ
    ナ、アルファベット、数字または記号に修正する未知語
    処理を行うことを特徴とする誤認識修正方法。
  5. 【請求項5】未知語の部分の品詞を普通名詞またはサ変
    名詞として次の日本語解析に成功した単語との接続を調
    べ、この接続が可能な未知語の部分にのみ未知語処理を
    行うことを特徴とする請求項(1)乃至(4)記載の誤
    認識修正方法。
  6. 【請求項6】日本語を対象とした認識処理結果の誤認識
    修正装置であって、 認識結果の候補文字に、誤認識が生じやすい類似文字を
    追加する手段と、 前記認識結果の候補文字及びその類似文字を組み合わせ
    た文字列を対象に、日本語解析により誤認識の修正を行
    うとともに未知語の部分を検出する手段と、 前記未知語の部分を、当該候補文字およびその類似文字
    に含まれるカタカナ、アルファベット、数字または記号
    に修正する未知語処理を行う手段と、 を有することを特徴とする誤認識修正装置。
  7. 【請求項7】未知語処理を行う手段は、未知語の部分の
    品詞を普通名詞またはサ変名詞として次の日本語解析に
    成功した単語との接続を調べ、その接続が可能な未知語
    の部分にのみ未知語処理を施こすことを特徴とする請求
    項(6)記載の誤認識修正装置。
JP63271591A 1988-10-27 1988-10-27 誤認識修正方法及び装置 Expired - Lifetime JP2908460B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63271591A JP2908460B2 (ja) 1988-10-27 1988-10-27 誤認識修正方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63271591A JP2908460B2 (ja) 1988-10-27 1988-10-27 誤認識修正方法及び装置

Publications (2)

Publication Number Publication Date
JPH02118785A JPH02118785A (ja) 1990-05-07
JP2908460B2 true JP2908460B2 (ja) 1999-06-21

Family

ID=17502210

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63271591A Expired - Lifetime JP2908460B2 (ja) 1988-10-27 1988-10-27 誤認識修正方法及び装置

Country Status (1)

Country Link
JP (1) JP2908460B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2818052B2 (ja) * 1991-05-21 1998-10-30 シャープ株式会社 光学的文字読み取り装置
JP5853531B2 (ja) 2011-09-26 2016-02-09 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム

Also Published As

Publication number Publication date
JPH02118785A (ja) 1990-05-07

Similar Documents

Publication Publication Date Title
US5161245A (en) Pattern recognition system having inter-pattern spacing correction
JP2000089786A (ja) 音声認識結果の修正方法および装置
JP2908460B2 (ja) 誤認識修正方法及び装置
Chaudhuri et al. OCR error detection and correction of an inflectional indian language script
JPH0256086A (ja) 文字認識の後処理方法
KR100258923B1 (ko) 한글 및 영문 성명인식 및 오인식 교정방법
JP2902138B2 (ja) 誤読文字修正方法
JP3350127B2 (ja) 文字認識装置
JP2918380B2 (ja) 文字認識結果の後処理方法
JP2827066B2 (ja) 数字列混在文書の文字認識の後処理方法
JP2908132B2 (ja) 文字認識結果の後処理方法
JPH03156589A (ja) 誤読文字の検出,修正方法
JP2939945B2 (ja) ローマ字住所認識装置
JPH0728957A (ja) 英文字認識装置
JPH06259595A (ja) 文字認識処理装置及び認識処理方法
JPH0296886A (ja) 誤認識修正方法および誤認識修正装置
JPS646514B2 (ja)
JPS5899829A (ja) 誤り文字検出・修正支援装置
JPH10240736A (ja) 形態素解析装置
JPH0540853A (ja) 文字認識結果の後処理方式
JPH0614375B2 (ja) 文字入力装置
JP2002297585A (ja) 英文名詞句の区分方法,英文構文情報生成方法および装置
JPH087046A (ja) 文書認識装置
JP2002236876A (ja) 解析方法及び解析装置
JPH0262659A (ja) 日本文訂正候補文字抽出装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080402

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090402

Year of fee payment: 10

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090402

Year of fee payment: 10