JPH02170292A - 文字認識後処理方法 - Google Patents

文字認識後処理方法

Info

Publication number
JPH02170292A
JPH02170292A JP63323633A JP32363388A JPH02170292A JP H02170292 A JPH02170292 A JP H02170292A JP 63323633 A JP63323633 A JP 63323633A JP 32363388 A JP32363388 A JP 32363388A JP H02170292 A JPH02170292 A JP H02170292A
Authority
JP
Japan
Prior art keywords
character
correction
correction rule
character string
correct
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63323633A
Other languages
English (en)
Inventor
Akira Suzuki
章 鈴木
Fumihiko Kobashi
小橋 史彦
Sueji Miyahara
末治 宮原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP63323633A priority Critical patent/JPH02170292A/ja
Publication of JPH02170292A publication Critical patent/JPH02170292A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [発明の目的] (産業上の利用分野) 本発明は、文字切出しの誤りによって生じた文字認識の
誤りを高精度でかつ高速に訂正することができる文字認
識後処理方法に関するものである。
(従来の技術) 従来の文字認識における文字行パターンからの切出し誤
りに対する対策としては、文字行パターンから切出せる
箇所全てについて文字の切出しを行い、それらを文字認
識した結果の文字標準パターンへの距離値がもっとも近
いものを採用するという方法や、或いは同じく文字行パ
ターンから切出せる箇所全てについて文字の切出しを行
い、その後で連続した文字列を単語辞書と照合させて単
語辞書中に存在する文字列を採用するという方法があっ
た。
(発明が解決しようとする課題) 従来の文字切出しの誤りに対する訂正方法は、文字行か
ら切出せる全ての箇所で文字のパターンを切出した後に
それらを文字認識するという方法をとっていたため、処
理量が膨大になって長時間を要するという問題があった
。そして文字ピッチが一定でない文書、全角や半角や倍
角等の文字の混在する文書では文字切出しの誤りが生じ
易いので−屑処理量が膨大になるとともに精度よく読取
ることが困難になるという問題があった。
そこで本発明は、処理方法が簡易で、文字ピッチが一定
でない文書、全角や半角や倍角等の文字の混在する文書
等でも、高精度で且つ高速に文字読取りを行うことので
きる文字認識後処理方法を提供することを目的とする。
[発明の構成] (課題を解決するための手段) 本発明は上記課題を解決するために、文字列パターンか
ら個々の文字を切出して文字認識を行う文字読取りにお
ける当該文字の誤切出しによる誤認識を訂正する文字認
識後処理方法であって、文字の誤切出しにより誤認識さ
れた箇所を訂正する情報から候補文字列集合を抽出し、
この候補文字列集合に対する正解文字列の関係を訂正規
則として登録し、この訂正規則を以後の文字認識結果に
適用することにより、当該訂正規則内の正解文字列を以
後の文字認識結果の第1位候補文字列に置換えることを
要旨とする。
(作用) 上記構成において、文字の誤切出しにより誤認識された
箇所を操作者が訂正する情報から候補文字列集合が自動
抽出され、その候補文字列集合に対する正解文字列の関
係が訂正規則として自動登録される。そして、この訂正
規則が以後の文字認識結果に適用され、当該訂正規則内
の正解文字列が文字認識結果の第1位候補文字列に置き
変えられて誤切出しによる誤認識が自動訂正される。し
たがって処理方法が簡易で、文字ピッチが一定でない文
書、全角や半角や倍角等の文字の混在する文書等でも、
高速で且つ高い精度の文字読取りが行われる。
(実施例) 以下、本発明の実施例を第1図ないし第5図に基づいて
説明する。
まず、この実施例に係る文字認識後処理方法を実現する
ための装置例から説明すると、第1図中、1は自動訂正
部、2は訂正規則テーブル、3は手動訂正制御部、4は
操作部であり、図示省略の文字切出し装置によって文字
列パターンから個々の文字が切り出され、次いで文字認
識装置により認識された結果が自動訂正部1に入力され
るようになっている。自動訂正部1は訂正規則テーブル
2を参照しながら誤認識文字を自動訂正するものであり
、その訂正規則テーブル2に入っている後述する訂正規
則は操作者が文字認識結果を手動訂正することにより順
次自動生成、更新されるため、初期の認識結果には適用
されず、次の手動訂正制御部3でまず操作者による手動
訂正が行われるようになっている。
次に、上述の装置を用いて文字の誤切出しによる誤認識
を訂正する文字認識後処理方法を説明する。
まず、第2図の(a)〜(e)を用いて、入力文章とし
て、例えば「手段31は・  ・」に対する文字切出し
結果とその文字を認識した文字認識結果、及び認識結果
に対する操作者の手動訂正操作並びに訂正規則生成の手
順から説明する。
各文字の認識結果が、手動訂正制御部3に人力されると
、手動訂正制御部3では、各文字の認識結果の第1位候
補文字を操作部4のデイスプレィに表示する(第2図(
d))。操作者は、このデイスプレィに表示された文字
を見て、操作部4のキーボードを用いて誤って切出され
た箇所を訂正する。
訂正の方法は、かな漢字変換入力などにより、正解文字
列を人力することによる。訂正結果は第2図(e)に示
すようにデイスプレィに表示される。訂正が終了したら
、操作者は操作部4から手動訂正制御部3に終了信号を
送る。
操作部4から手動訂正終了の信号が送られてくると、手
動訂正制御部3では操作者が訂正した箇所の認識結果の
候補文字列集合と正解文字列との関係を訂正規則として
作成し、これが訂正規則テーブル2に追加登録される。
訂正規則テーブルの内容の一部例を第2図(C)に示す
。訂正規則テーブルの中の1つの規則は、文字認識結果
の候補文字列集合及びそれに対する正解文字列から構成
されている。第2図(C)は次のようなことを示してい
る。即ち、入力文[手段31は・ ・」中の「1は」が
文字切出しの処理において切出し誤りによって第2図(
a)に示すように切出され、これを文字認識した結果が
第2図(b)の文字番号4.5の箇所になり、この部分
をデイスプレィの表示を見て操作者が訂正して「1は」
と入力することにより、手動訂正制御部3は正解文字列
「1は」及びそれに対する候補文字集合rts1、°」
並びに「よ、よ、ま」からなる訂正規則1個を作成し、
これを訂正規則テーブル(C)に追加登録することを示
している。これが訂正規則番号が1の訂正規則である。
ここで、この「1は」に対する候補文字集合rt、1、
’J及び「よ、よ、ま」を1つにまとめて候補文字列集
合と呼ぶことにする。以下、候補文字列集合という用語
をこの意嗅、即ちいくつかの(単語も含む)候補文字集
合をまとめた集合という意味で用いることにする。
次に、上記のようにして訂正規則が訂正規則テーブル2
に追加登録されたのち、次の文字認識結果が本装置に入
力されたときの自動訂正部1による処理の流れを第3図
ないし第5図を用いて説明する。第3図は「文字41は
・・」という文章を切出した切出し結果を示し、第4図
は第3図の切出し結果が文字認識された結果が入力され
た自動訂正部1の内部構成を示し、第5図は自動訂正部
1の処理の流れを示すフローチャートである。
また、第4図の自動訂正部1の内部構成における5は入
力データバッファ、6は人力データレジスタ、7は出力
データバッファ、8は訂正規則レジスタ、9は部分−成
度計算器、10は部分一致度レジスタである。
そして、自動訂正部1に入力された文字認識結果はまず
人力データバッファ5に書き込まれ、その入力データバ
ッファ5の全ての第1候補文字からなる文字列が出力デ
ータバッファ7に入れられる(第5図ステップ11、以
下単にステップという)。この出力データバッファ7に
入れられた文字列の文字数S(この例では5)及び訂正
規則の番号iが識別され(ステップ12.13)、その
訂正規則番号iが訂正規則テーブル2内に存在すること
か判別されたのち、訂正規則テーブル2の先頭から1番
目の訂正規則が訂正規則レジスタ8に入れられる。この
訂正規則の正解文字列の文字数をN(この例では2)と
する(ステップ14.15)。
次いて、訂正を要する部分の番号Kが判別されたのち(
ステップ17)、入力文章の認識結果の先頭からに番目
の位置からN個分の候補文字列集合が取出されて入力デ
ータレジスタ6に入れられる(ステップ19)。さらに
、入力データレジスタ6の先頭からL番目の候補文字集
合が計算レジスタaに入れられ、一方、訂正規則レジス
タ8の先頭からL番目の候補文字集合が計算レジスタb
に入れられる(ステップ21)。この計算レジスタaの
データと計算レジスタbのデータとの近似性を表す部分
一致度が部分−成度計算器9で次式により計算され、こ
れが部分一致度レジスタ10のL番目の位置に書込まれ
る(ステップ22)。
部分一致度=2xl、(x/ly) / (L (x) +L (y) )・・・(1)ここ
で、xSyはそれぞれ計算レジスタa及び計算レジスタ
bに入っている候補文字集合を表し、L (x) 、L
 (y)はそれぞれの候補文字数、またL(x/’ly
)はx、7間の論理積集合の候補文字数を表している。
候補文字数はこの実施例では3である。
候補文字集合てについて部分一致度が計算されたのち(
ステップ24)、部分一致度レジスタ10に入っている
N個の部分一致度の中から最小の値が選ばれる(ステッ
プ25)。これを全体−致度と命名すると、この全体一
致度が所要の閾値より大であれば(ステップ26のYe
S)、入力データレジスタ6に入っているデータに対応
する出力データレジスタ7の箇所のデータが、訂正規則
レジスタ8の正解文字列に書換えられる(ステップ27
)。そして番号Kがインクリメントされて(ステップ2
8)、文字の誤切出しにより誤認識された箇所が全て訂
正され、出力データバッファ7には自動訂正された結果
が書込まれて自動訂正処理が終了する。
なお、上述の訂正規則テーブル2内の訂正規則の数は認
識文字数の増加につれて増加するが、訂正規則テーブル
2の各訂正規則に自動訂正に適用された履歴を記録して
おき、使用頻度の小さい訂正規則や、最後に適用されて
から長時間経過した訂正規則は訂正規則テーブル2から
除去するなどにより、訂正規則テーブル2を一定範囲の
サイズに抑えることができる。また、上述の実施例では
認識結果の候補文字は第3位までであったが、原理的に
は何位まで出現しても同様である。さらに、上述の実施
例において訂正規則の候補文字集合と認識結果の候補文
字集合との近似性の尺度として(1)式で定義した部分
−政変には、候補文字集合の順位や認識の結果の距離値
が考慮されていないが、これらを考慮にいれた候補文字
集合同士の近似性の尺度を定義して自動訂正に用いるこ
とも可能である。
[発明の効果] 以上説明したように、本発明によれば、誤って切出され
て誤認識された箇所を訂正する情報から候補文字列集合
を抽出し、この候補文字列集合に対する正解文字列の関
係を訂正規則として自動登録し、この訂正規則を以後の
認識結果に適用して切出し誤りによる誤認識を自動訂正
するようにしたので、切出し可能な箇所全てについて切
出した後、認識した結果の距離値によって正解を選んだ
り文法処理を行ったりする従来の訂正方法に比べて処理
方法が簡易となり、文字ピッチが一定でない文書、全角
や半角や倍角等の文字の混在する文書でも、高速で且つ
高精度の文字読取りを行うことができるという利点があ
る。
そして、さらに、単語照合・形態素解析等による、文法
的には正しいが誤訂正された文を生成することがなく、
操作者による訂正作業を容易にすることができるという
利点がある。
【図面の簡単な説明】
第1図ないし第5図は本発明に係る文字認識後処理方法
の実施例を説明するための図で、第1図は装置例を示す
ブロック図、第2図は文字切出し結果及び文字認識結果
に対する操作者の手動訂正操作・訂正規則生成の手順並
びに操作部のデイスプレィへの表示例を示す図、第3図
は入力文字の切出し結果例を示す図、第4図は自動訂正
部の内部構成を示す図、第5図は自動訂正部での処理を
説明するためのフローチャートである。 1:自動訂正部、    2:訂正規則テーブル、3:
手動訂正制御部、 4:操作部。 代理人  弁理士  三 好  保 男第1図

Claims (1)

  1. 【特許請求の範囲】 文字列パターンから個々の文字を切出して文字認識を行
    う文字読取りにおける当該文字の誤切出しによる誤認識
    を訂正する文字認識後処理方法であって、 文字の誤切出しにより誤認識された箇所を訂正する情報
    から候補文字列集合を抽出し、この候補文字列集合に対
    する正解文字列の関係を訂正規則として登録し、この訂
    正規則を以後の文字認識結果に適用することにより、当
    該訂正規則内の正解文字列を以後の文字認識結果の第1
    位候補文字列に置換えることを特徴とする文字認識後処
    理方法。
JP63323633A 1988-12-23 1988-12-23 文字認識後処理方法 Pending JPH02170292A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63323633A JPH02170292A (ja) 1988-12-23 1988-12-23 文字認識後処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63323633A JPH02170292A (ja) 1988-12-23 1988-12-23 文字認識後処理方法

Publications (1)

Publication Number Publication Date
JPH02170292A true JPH02170292A (ja) 1990-07-02

Family

ID=18156904

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63323633A Pending JPH02170292A (ja) 1988-12-23 1988-12-23 文字認識後処理方法

Country Status (1)

Country Link
JP (1) JPH02170292A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010237909A (ja) * 2009-03-31 2010-10-21 Fujitsu Frontech Ltd 知識補正プログラム、知識補正装置および知識補正方法
JP2020194491A (ja) * 2019-05-30 2020-12-03 キヤノン株式会社 情報処理装置、制御方法、及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010237909A (ja) * 2009-03-31 2010-10-21 Fujitsu Frontech Ltd 知識補正プログラム、知識補正装置および知識補正方法
JP2020194491A (ja) * 2019-05-30 2020-12-03 キヤノン株式会社 情報処理装置、制御方法、及びプログラム

Similar Documents

Publication Publication Date Title
US5161245A (en) Pattern recognition system having inter-pattern spacing correction
US11568150B2 (en) Methods and apparatus to improve disambiguation and interpretation in automated text analysis using transducers applied on a structured language space
EP2138959A1 (en) Word recognizing method and word recognizing program
CN110929514B (zh) 文本校对方法、装置、计算机可读存储介质及电子设备
JPH02170292A (ja) 文字認識後処理方法
JP2000040085A (ja) 日本語形態素解析処理の後処理方法および装置
Mohapatra et al. Spell checker for OCR
JPH0877196A (ja) 文書情報抽出装置
JP4087191B2 (ja) 画像処理装置、画像処理方法および画像処理プログラム
JP5057916B2 (ja) 固有表現抽出装置、その方法、プログラム及び記録媒体
JPH0619962A (ja) テキスト分割装置
JP2003280903A (ja) ソースプログラム比較情報生成システム
JPH09274645A (ja) 文字認識方法および装置
JPH09179868A (ja) 対訳文対応付け支援システム
JPS60217487A (ja) 文字認識装置
JPH02214990A (ja) パターン認識後処理方式
CN114254627A (zh) 一种文本纠错的方法、装置、设备和可读存储介质
CN116363671A (zh) 英文语句的扫描纠错方法、装置及计算机可读存储介质
JP2003288337A (ja) 言語知識獲得プログラムおよび形態素解析プログラム
JPS61229177A (ja) 濁点・半濁点付き文字の認識方式
JPH02297263A (ja) 自然言語処理装置
JPH0576672B2 (ja)
JPH06259466A (ja) 機械翻訳装置
JPH0496883A (ja) 文字間スペース処理方法
JPH0652367A (ja) 文字認識結果の後処理方法