JPH04199483A - 文書認識修正装置 - Google Patents

文書認識修正装置

Info

Publication number
JPH04199483A
JPH04199483A JP2333170A JP33317090A JPH04199483A JP H04199483 A JPH04199483 A JP H04199483A JP 2333170 A JP2333170 A JP 2333170A JP 33317090 A JP33317090 A JP 33317090A JP H04199483 A JPH04199483 A JP H04199483A
Authority
JP
Japan
Prior art keywords
character
correction
recognition
operator
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2333170A
Other languages
English (en)
Inventor
Noboru Shimizu
昇 清水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2333170A priority Critical patent/JPH04199483A/ja
Priority to KR1019910016644A priority patent/KR950001061B1/ko
Publication of JPH04199483A publication Critical patent/JPH04199483A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、紙等に記載されたの文書を認識する文書認識
装置において、自動修正を行う文書認識修正装置に関す
る発明である。
(従来の技術) 紙の文書に印刷されている文字や図形を認識し、ワープ
ロ等の文書編集装置等に入力するための文書認識装置に
関する研究が行われている。しかし、文字認識は100
%の認識率を得ることはたい−・ん難しく、現在の状況
では、操作者が認識結果を確認して、誤認識文字に対し
ては修正しなければならない(画像処理ハンドブック 
昭晃堂20.3文字認識装置(OCR)p、482〜4
90)。
(発明が解決しようとする課題) この作業は認識したすべての結果に対して行わなければ
ならないため、操作者に対して、大変な負荷が生じる。
また、文字認識において、対象の文書画像は同一の画像
入力装置から同一の条件で入力されているため、同一文
字に対しては、同じ誤認識が起こりやすい。このことを
利用して、操作者が修正した文字と同じ文字に対しては
、操作者が行った修正と同じ修正を自動的に行えば、操
作者に対する負荷が軽減されることは容易に考えられる
。しかし、第1候補文字の比較のみによって、この自動
修正を行うと、正しく認識された文字の修正も行われて
しまい、悪影響を及ぼすという問題がある。
本発明は、前記の問題点を解決することを目的とするも
のである。つまり、認識結果の修正時において、操作者
の修正の負荷を軽減するために、操作者が行った修正と
同じ修正を同一文字に対して自動的に行い、なおかつ、
正しく認識された文字に対して誤った自動修正は行わず
、的確に誤認識文字のみを自動修正することによって、
効率的な修正が可能となる文書認識装置を提供すること
を課題とするものである。
(課題を解決するための手段) 本発明の要旨は、第1図に示すように、文字画像を複数
の候補を付けて認識する文字画像認識手段100と、こ
の文字認識手段100の認識結果を複数の候補の中から
選択して操作者の指示により修正する第1の修正手段2
00と、前記文字画像認識手段100により認識された
文字の中から、前記第1の修正手段200により修正さ
れた文字と同一文字を複数の候補を付けて探索する探索
手段300と、前記第1の修正手段200の候補文字と
前記探索手段300の候補文字とを比較して第1の修正
手段200で修正された誤認識文字と同一の文字を自動
修正する第2の修正手段400と、を備えた文書認識修
正装置にある。
ここで、第2の修正手段400においては、第1の修正
手段200の候補文字と前記探索手段300の候補文字
とを、直接候補文字同士を比較し、あるいは文字自体で
はなくその確からしかを比較し、さらに候補文字と確か
らしかの双方を比較してもよい。
(作用) 文字画像認識手段100により文字画像が複数の候補を
付けて認識されると、必ずしも全ての文字が正しく認識
されているとは限らないので、まず第1の修正手段20
0により誤っている文字を操作者が複数の候補の中から
選択して修正する。次に文字画像認識手段100により
認識された文字の中から、第1の修正手段200により
修正された文字と同一文字が複数の候補を付けて探索手
段300により探索され、第1の修正手段200の候補
文字と探索手段300の候補文字とが第2の修正手段4
00により比較され、その結果、第1の修正手段200
で修正された誤認識文字と同一の文字を自動修正するこ
とができるものである。
(実施例) 第2図は文書認識装置全体の概要を示すもので、画像入
力部1、イメージメモリ2、文字画像抽出部3.0CR
(Optical Character Reader
;  文字認識装置)4、認識結果格納メモリ5、修正
部6、格納部7、文書ファイル格納装置8、制御l操作
部9からなっている。
画像入力部1から紙の文書をデジタル入力し、その原画
像をイメージメモリ2に格納しておく。
入力された文書画像を文字画像抽出部3と制御/操作部
9とを介して、CRT等の表示装置91に表示する。操
作者が、この原画像を見ながらマウス等の指示装置93
によって、文字画像領域のみを抽出する。第3図(a)
が実際の文書31に対して、文字画像領域のみを指定し
た状態を示している。点線の矩形で囲まれた領域が操作
者による指定である。このように指定された文字画像領
域情報を、第3図(b)に示すような表32に格納する
。表の第1,2列は、文字画像矩形領域の左上座標で、
第3,4列は、文字画像矩形領域の幅と高さである。
この文字画像領域を抽出する方法として、上記で説明し
た操作者による抽出方法以外に、特開平2−15969
0号公報において示されているような、黒画素塊の特徴
を抽出して、自動的に文字と図形を分離する方法を用い
ることもできる。
0CR4において、イメージメモリ2と、文字画像抽出
部3において抽出された文字画像領域を示す表31とを
使用して、指定された文字画像領域を認識する。これに
よって、複数の候補文字と各々の文字の認識の確からし
かとを、各々の文字画像領域ごとに第4図に示すような
表形式で認識結果格納表51として認識結果格納メモリ
5に出力する。
ここで、文字認識は、基本となる文字から抽出した特徴
か成る辞書と実際に認識する文字との特徴空間における
距離を測定し、その距離が最小のものを確からしかが1
番高い文字として認識し、この距離に反比例する値を確
からしさと計算するものである。
次に第5図のフローチャートに基づいて修正部6の作用
について説明する。
まず最初に行われる処理としては、認識結果格納メモリ
5内の認識結果に対して、操作者が修正を行うことであ
る(ステップ20,21.22)。これは、現在の0C
R4の認識率は完全な100%にはならず、どうしても
操作者による確認/修正が必要なためである。これらス
テップ20,21.22により第1の修正手段が構成さ
れる。修正を行う際には、認識結果格納メモリ内5にあ
る認識結果を修正部6と制御/操作部9とを介して、C
RT等の表示装置91に表示し、操作者が、この認識結
果を見ながらマウス等の指示装置93やキーボード92
を用いて修正を行う。結果表示は認識結果の第1候補文
字をもとの文字画像があった位置に表示し、できるだけ
原画像と同じような状態で示すことによって、誤認識文
字を見つけやすいようにする。次に操作者がこのような
表示を見て、誤認識文字を発見した場合、指示装置93
を用いて、第6図に示すようにカーソル94を誤認識文
字の上に移動し、マウスの右ボタンを押す。この操作に
よって、候補文字群を候補文字ウィンドウ95に表示す
る。ウィンドウ内の表示は、認識結果格納メモリ5内の
表を利用して表示している。ここで正しい文字があれば
、操作者はその候補文字群の中から選択する。そして、
その選択された文字が誤認識文字と入れ替わり、修正が
行われる。たとえば第5図の場合は、操作者は″間″と
いう文字が間違っているのを発見し、カーソル94を“
′間″という文字の上に移動し、マウスの右ボタンを押
す。すると、候補文字ウィンドウ95が開き、その中の
第2候補文字が正しい“間″という文字であるので、第
2候補文字を選択し、正しい文字に修正する。
次に上記の操作者により修正された文字が何番目の文字
であるか″と“どのような文字に修正されたか″という
情報を受は取る。即ち、操作者による修正が行われた後
、未修正部分の認識文字列に対して、第N候補(Nは1
以上とする)までの候補文字を含めた探索を行い、同一
の認識文字を探す(ステップ23)。このステップ23
により探索手段が構成される。同一の認識文字がない場
合は、ステップ20に戻り、操作者による修正を繰り返
す。
同一の認識文字を見つけたら、その各文字の確からしさ
を比較する(ステップ24)。操作者が修正対象とした
文字をAとし、その第1候補文字の確からしさをATl
、第2候補文字の確からしさをAT2’・・・、第n候
補文字の確からしさをATnとする。また、前記の探索
により一致した文字をBとし、その第1候補文字の確か
らしさをBT□、第2候補文字の確からしさをBT2.
・・・、第n候補文字の確からしかをBTnとする。A
とBが同一文字であるかどうかの閾値をTとする。次の
判定式に従い、BがAと同じ誤認識文字であるかどうか
を判定する。
(IATl−BTll <T)and(IAT2−BT
21 <T)and・・・(IATn−BTnl<T)
真ならば、BはAと同一の誤認識文字 偽ならば、BはAと違う文字である 判定式は、次の式を用いてもよい。
(IATl−BT11+IA、r2−BT21+・・・
+IAT。−BT、l ) < T真ならば、BはAと
同一の誤認識文字 偽ならば、BはAと違う文字である、 この段階で、偽ならば残りの未修正文字に対して同様な
探索を行う。真ならば、ステップ21の修正と同じ修正
処理をその誤認識文字に対して行う(ステップ25)。
これらステップ24.25により第2の修正手段が構成
される。その後、残りの未修正文字に対して同様な探索
を行う。これを最後の文字になるまで探索を行う。
同様な処理を既修正部分の認識文字列に対して行う(ス
テップ26,27.30)。この場合、操作者が既に確
認済みの部分であるので、自動修正を行う前に確認を求
める(ステップ28.29)。これらの処理を全ての認
識文字列に対して探索が終了するまで繰り返す。
たとえば第5図で示した操作者による修正がどのように
修正されたかを第7図に示す。第7図(a)で、1行目
の誤認識文字間゛′を修正した場合、第7図(b)に示
すように、3行目の“間″という誤認識文字のみが修正
され、2行目の°′間″という文字は入れ替えが行われ
ていない。これは、候補文字群が第7図に示すように、
1行目の間”′と3行目の゛間″とは同じであり、確か
らしさの差が閾値Tより小さいためである。そして、1
行目の“間′”と2行目の“′間″では、候補文字群が
違うためである。探索で使用する候補文字の数はこの例
の場合、3文字としている。
上記の修正処理が行われ、初期の目標としている文書の
作成ができる。格納部7では、修正処理が終了した文書
を既存のワープロ等の文書編集装置が扱える文書フォー
マットに変換し、文書ファイルとして文書ファイル格納
装置8に格納する。
上記の実施例の処理以外に次のような処理に変更するこ
とも可能である。
(1)上記の実施例では、候補文字及び確からしさの両
方を用いて操作者が修正した対象文字と同一の文字を探
索するが、これを候補文字のみによる探索にすること、
または、確からしさのみによる探索にすること。
(2)上記の実施例では、既修正文字列に対する修正の
際、操作者に確認を求めているが、これを削除して自動
的に修正してしまうこと。または、未修正文字列に対し
ての修正の際、操作者に確認を求めるようにすること。
(3)上記の実施例では、探索の際の候補文字数はN文
字と固定であるが、これを確からしかがある閾値Ta以
上の候補文字のみにして、候補文字数を適応的に可変と
すること。
(発明の効果) 以上述べたように、この発明によれば、操作者が行った
修正に従って、残りの認識文字群の中の同一の誤認識文
字を自動修正するので、修正時における操作者に対する
負荷を軽減する。また、同一誤認識文字の判定が候補文
字や確からしかを用いて行われているので、第1候補文
字が同一でも正しく認識されて修正不用な文字に対して
は、不用な修正が行われない。
【図面の簡単な説明】
第1図は本発明の概略を示す構成図、第2図は本発明の
一実施例の概要を示すブロック図、第3図は文字画像領
域抽出の例を示す概念図、第4図はOCRからの認識結
果を示す図表、第5図は修正部分のアルゴリズムを示す
フローチャート、第6図は修正例を示す概念図、第7図
は自動修正部での修正例を示す概念図である。 1・・・・・画像入力部、2・・・・・イメージメモリ
、3・・・・・文字画像抽出部、4・・・・・0CR(
文字認識部)、5・・・・・認識結果格納メモリ、6・
・・・・修正部、7・・・・・格納部、8・・・・・文
書ファイル格納装置、100・・・・・文字認識手段、
200・・・・・第1の修正手段、300・・・・・探
索手段、400・・・・・・第2の修正手段。 特許出願人 富士ゼロックス株式会社 第1図 第2図 第3図 第4図     51 第6図 第7図 (a)操作者による修正前 (b)自動修正による修正後

Claims (1)

    【特許請求の範囲】
  1.  文字画像を複数の候補を付けて認識する文字画像認識
    手段と、この文字認識手段の認識結果を複数の候補の中
    から選択して操作者の指示により修正する第1の修正手
    段と、前記文字画像認識手段により認識された文字の中
    から、前記第1の修正手段により修正された文字と同一
    文字を複数の候補を付けて探索する探索手段と、前記第
    1の修正手段の候補文字と前記探索手段の候補文字とを
    比較して第1の修正手段で修正された誤認識文字と同一
    の文字を自動修正する第2の修正手段と、を備えた文書
    認識修正装置。
JP2333170A 1990-11-29 1990-11-29 文書認識修正装置 Pending JPH04199483A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2333170A JPH04199483A (ja) 1990-11-29 1990-11-29 文書認識修正装置
KR1019910016644A KR950001061B1 (ko) 1990-11-29 1991-09-25 문서인식 수정장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2333170A JPH04199483A (ja) 1990-11-29 1990-11-29 文書認識修正装置

Publications (1)

Publication Number Publication Date
JPH04199483A true JPH04199483A (ja) 1992-07-20

Family

ID=18263080

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2333170A Pending JPH04199483A (ja) 1990-11-29 1990-11-29 文書認識修正装置

Country Status (2)

Country Link
JP (1) JPH04199483A (ja)
KR (1) KR950001061B1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0713990A (ja) * 1993-06-29 1995-01-17 Nec Corp 文字認識装置
KR100714951B1 (ko) * 2002-01-09 2007-05-04 에어 프로덕츠 앤드 케미칼스, 인코오포레이티드 수성 박리 및 세정 조성물

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101294558B1 (ko) * 2013-04-15 2013-08-07 김민철 오타 수정 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6425288A (en) * 1987-07-21 1989-01-27 Matsushita Electric Ind Co Ltd Character recognition device
JPH03240183A (ja) * 1990-02-16 1991-10-25 Nippon Telegr & Teleph Corp <Ntt> 認識文字自動修正方式

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6425288A (en) * 1987-07-21 1989-01-27 Matsushita Electric Ind Co Ltd Character recognition device
JPH03240183A (ja) * 1990-02-16 1991-10-25 Nippon Telegr & Teleph Corp <Ntt> 認識文字自動修正方式

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0713990A (ja) * 1993-06-29 1995-01-17 Nec Corp 文字認識装置
KR100714951B1 (ko) * 2002-01-09 2007-05-04 에어 프로덕츠 앤드 케미칼스, 인코오포레이티드 수성 박리 및 세정 조성물

Also Published As

Publication number Publication date
KR950001061B1 (ko) 1995-02-08
KR920010494A (ko) 1992-06-26

Similar Documents

Publication Publication Date Title
JPH05346970A (ja) 文書認識装置
JPH0772905B2 (ja) 記号列の認識方法
JPH04199483A (ja) 文書認識修正装置
JPH0696263A (ja) パターン認識装置
JP3792759B2 (ja) 文字認識方法とその装置
JPH11213087A (ja) 文字認識装置
JP3037727B2 (ja) Ocrシステム
JP2002207960A (ja) 認識文字修正方法及び認識文字修正プログラム
JPH0520492A (ja) 文書認識修正装置
JPH0363882A (ja) 画像処理装置
JPH0850631A (ja) 文字認識装置
JP3077580B2 (ja) 文字読取装置
JPH07141462A (ja) 文書システム
KR20220168787A (ko) 만주어의 글자 추출 방법 및 이를 수행하는 시스템
JPH05120472A (ja) 文字認識装置
JPH06195519A (ja) 文字認識装置および文字認識方法
JP2683711B2 (ja) 文字・記号データの認識・修正方法
JPS63271588A (ja) 文字認識装置
JP3113712B2 (ja) 文字認識方法及びその装置
JP2002342711A (ja) 画像認識装置、画像認識方法、及び画像認識方法を実現するプログラムとこのプログラムの記録媒体
JP2669897B2 (ja) 誤読文字の修正方法
JP2004341754A (ja) 文字認識結果修正装置及びその方法並びに文字認識結果修正プログラム
JPH01292586A (ja) 文字認識支援装置
JP2890788B2 (ja) 文書認識装置
JP2000268124A (ja) 文書ファイリング装置