JP2004341754A - Character recognition result correcting device and its method, and character recognition result correcting program - Google Patents

Character recognition result correcting device and its method, and character recognition result correcting program Download PDF

Info

Publication number
JP2004341754A
JP2004341754A JP2003136525A JP2003136525A JP2004341754A JP 2004341754 A JP2004341754 A JP 2004341754A JP 2003136525 A JP2003136525 A JP 2003136525A JP 2003136525 A JP2003136525 A JP 2003136525A JP 2004341754 A JP2004341754 A JP 2004341754A
Authority
JP
Japan
Prior art keywords
character
image data
character image
candidate
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003136525A
Other languages
Japanese (ja)
Inventor
Yujiro Kamimura
裕二郎 上村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2003136525A priority Critical patent/JP2004341754A/en
Publication of JP2004341754A publication Critical patent/JP2004341754A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a character recognition result correcting device capable of quickly and efficiently correcting a recognition result obtained by recognizing a large amount of character image data segmented from image data. <P>SOLUTION: Character image data, candidate character code of its recognition result and urbanization distance are recorded in a recognized data storage part 203. A display control part 205 reads the character image data whose candidate character codes are the same in the order of the longer urbanization distance, and displays a character image data list. A character correcting part 206 replaces the candidate character code of the selected character image data with the character code of an inputted correct character. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

【0001】
【発明の属する技術分野】
本発明は、OCR装置等によって入力された画像データに含まれる文字画像データの文字認識結果を正しい文字に修正する文字認識結果修正装置及びその方法に関する。
【0002】
【従来の技術】
近年、ペーパーレス化への要求が高まり、既存文書を電子化し、保存利用することが頻繁に行なわれるようになってきた。
既存文書を電子化して保存利用するには、OCR装置等を利用して文字認識をし、文書に含まれる文字をテキストコード化する技術が使われている。100%の精度で文字認識されないのが現状であり、文字認識結果を修正する場合、文字認識した文字画像と認識結果の文字とを並べて表示し、間違った部分を目視で見つけ、キーボードで修正する作業を行なっている(例えば、特許文献1)。
【0003】
しかし、間違った文字を探して修正する作業に時間がかかるという問題がある。
そこで、誤認識された文字画像の修正の効率を高めるため、所定領域の同一文字種や同一文字コードの文字画像をまとめて、その認識結果の文字と並べて表示して修正する技術が開示されている(例えば、特許文献2)。
【0004】
【特許文献1】
特開平1−111285号公報
【0005】
【特許文献2】
特開平11−007492号公報
【0006】
【発明が解決しようとする課題】
ところが、特許文献2の技術でも、文字画像と認識結果の文字とを逐次対比して、誤認識されていれば修正するという作業をしなければならないので、大量の文書を扱う場合には、その作業効率を更に高める必要がある。
そこで、本発明は、短時間で大量の文字認識結果を修正することのできる文字認識結果修正装置及びその方法を提供することを目的とする。
【0007】
【課題を解決するための手段】
上記課題を解決するため、本発明は、入力された画像データから1文字毎の文字画像データを切り出す切出手段と、切り出された文字画像データから認識辞書を用いて候補文字を認識する候補文字認識手段と、前記文字画像データの画像データ上での位置と、候補文字の文字コードとを文字画像データに対応付けて記憶する記憶手段と、前記記憶手段に記憶された文字コードが同一の文字画像データを抽出して一覧表示する抽出表示手段と、一覧表示された文字画像データのうち誤認識された文字画像データを正しい文字に修正する文字修正操作手段と、
前記記憶手段に記憶された誤認識された文字画像データに対応付けられた候補文字の文字コードを修正された正しい文字の文字コードに置換する置換手段とを備えることとしている。
【0008】
【発明の実施の形態】
以下、本発明に係る文字認識結果修正装置の実施の形態を図面を用いて説明する。
(実施の形態1)
図1は、本発明に係る文字認識結果修正装置の一実施の形態のハードウェア構成を示す図である。
【0009】
この文字認識結果修正装置は、本装置の各部の制御を行なう中央処理装置(CPU)10と、処理の経過や結果を表示するカソード・レイ・チューブ(CRT)11と、マウス12と、キーボード13と、スキャナー14と、ランダム・アクセス・メモリ(RAM)15と、ハードディスク19と、リード・オンリー・メモリ(ROM)22とを備えている。
【0010】
CRT11は、液晶ディスプレイ等であってもよい。マウス12と、キーボード13と、スキャナー14とは入力部を構成する。
RAM15は、スキャナー14で読み込まれた文書の画像データを記憶する全体画像記憶領域16と、画像データから切り出された文字画像データごとの認識結果を記憶する認識データ記憶領域17と、CPU10の作業領域18を有する。
【0011】
ハードディスク19は、プログラム記憶領域20とオペレーティングシステムを記憶するOS記憶領域21とを有する。プログラム記憶領域20には、本実施の形態の文字認識結果修正プログラムが記憶されており、このプログラムに従いCPU10が動作する。
ROM22は、起動プログラム記憶領域23と、認識辞書24と、誤認識辞書25とを有している。
【0012】
起動プログラム記憶領域23に記憶されている起動プログラムは、オペレーティングシステムが動作するのに必要である。
認識辞書24は、標準文字の標準特徴量とその文字コードとの組を登録している。標準文字とは、認識対象とする文字画像データと照合される文字をいい、文字の他に記号も含まれる。
【0013】
誤認識辞書25については、後述する。
図2は、本実施の形態1の構成図である。
文字認識結果修正装置は、スキャナー14と、全体画像記憶部201と、文字画像データ切出部202と、認識データ記憶部203と、文字認識部204と、表示制御部205と、文字修正部206と、制御部207とを備えている。
【0014】
スキャナー14は、文書が記載された用紙を読み込み画像データとして、全体画像記憶部201に記憶させる。この際、カラー画像として記憶されてもよいし、白黒の二値画像として記憶されてもよい。
全体画像記憶部201に画像データが記憶されると、制御部207の指示によって、文字画像データ切出部202が画像データから1文字毎の文字画像データを切り出し、文字認識部204に通知するとともに、認識データ記憶部203に、その文字画像データを記憶させる。
【0015】
文字画像データ切出部202は、その画像データに文書番号と文字画像番号とを付与し、文字画像データの画像データ上の位置を記録する。
認識データ記憶部203には、文字画像データの認識結果が記録される。
図3は、認識データ記憶部203に記憶されている文字画像データ認識結果の一例を示す図である。
【0016】
文字画像データ認識結果301には、文書番号302と、文字画像番号303と、文字画像データ304と、文字画像位置305と、候補文字コード306と、市街化距離307とが含まれている。
文書番号302は、スキャナー14で読み込んだ文書の用紙、即ち、画像データごとに与えられる番号である。
【0017】
文字画像番号303は、画像データから切り出された文字画像データに順番に与えられる番号である。
文字画像データ304は、1文字として切り出された文字のイメージデータである。
文字画像位置305は、文字画像データ304を外接する矩形の対角位置の頂点のx,y座標で示されている。ここでは、左上頂点と右下頂点とを用いている。
【0018】
これらの文書番号302、文字画像番号303、文字画像データ304及び文字画像位置305は、文字画像データ切出部202によって記録される。
候補文字コード306と市街化距離307とは、文字認識部204によって記録される。
文字認識部204は、認識辞書24を有し、文字画像データ切出部202から文字画像データの通知を受けると、文字画像データから特徴量を抽出し、認識辞書24の各標準文字の標準特徴量との市街化距離を計算する。この市街化距離が最短となった標準文字を候補文字として認識し、その文字コードを認識データ記憶部203に記録されている文字画像データ認識結果301の候補文字コード306に記録する。併せて、その市街化距離307も記録する。
【0019】
ここで、市街化距離307は、認識対象とする文字画像データと標準文字との類似度を示すものであり、市街化距離の短い程類似度が高く、文字画像データが標準文字である確率が高くなる。市街化距離が長い程、その類似度が低いことになる。
例えば、文字画像番号「3」の文字画像データを候補文字コード「2330」、即ち「0」と認識しているが、市街化距離307は「2300」と、文字画像番号「1」、「2」の文字画像データの市街化距離「850」、「760」よりも長く、誤認識されている確率は高い。
【0020】
なお、類似度は、市街化距離で示す必要はなく、認識辞書の特徴量等に応じて他の値を用いてよいのは勿論である。
認識データ記憶部203に記録された文字画像データ認識結果について、修正をするときには、制御部207は、表示制御部205に候補文字コードごとに文字画像データを一覧表示するよう指示する。
【0021】
表示制御部205は、認識データ記憶部203に記録されている候補文字コード306から1つを選び、同一の候補文字コードを有する文字画像データを抽出する。この際、市街化距離の長い文字画像データから順に抽出し、一覧表示する。一覧表示した文字画像データ304と文字画像データ認識結果301との関連は、例えば、文書番号302と文字画像番号303とで関連付けておく。
【0022】
文字修正部206は、表示制御部205によって一覧表示された文字画像データの誤認識を修正する。
図4は、誤認識文字画像データの修正画面の一例を示す図である。
修正画面401には、文字画像データ一覧402と、正しい文字を入力するテキストボックス403とが表示されている。
【0023】
オペレータは、文字画像データ一覧402を見れば、文字画像データの認識された文字が何であるかを一目で認識することができる。文字画像データ一覧402の場合には、数字「0」が文字画像データから認識される。
表示制御部205によって、文字画像データ一覧402の左上方の文字画像データが誤認識されている確率が高く、右下方の文字画像データが誤認識されている確率が低いように表示されている。
【0024】
したがって、オペレータは文字画像データ402の最上段の近傍の文字画像データを特に注意して誤認識の文字画像データを見つけるようにすればよい。
オペレータは、反転表示のカーソル404を誤認識の文字画像データにマウス12で移動させ、修正後の文字をテキストボックス403にキーボード13を用いて入力する。例えば、「0」と誤認識された文字画像データ(最上段の第1文字)を「1」に修正する。
【0025】
文字修正部206は、表示制御部205からカーソル404の位置に表示された文字画像データの文書番号と文字画像番号との通知を受ける。認識データ記憶部203に記憶されている文字画像データ認識結果301の文書番号と文字画像番号とで特定される候補文字コードをテキストボックス403に入力された文字の文字コードで置換する。
【0026】
この処理を文字画像データ認識結果301の候補文字コード306として記録された候補文字コードの数だけ繰り返して行なう。
このようにすれば、大量の画像データから認識された文字画像データの誤認識を短時間で効率的に修正することができる。
制御部207は、スキャナー14によって文書が読み込まれ、全体画像記憶部201に画像データが記憶されると、文字画像データ切出部202に1文字毎の文字画像データの切り出しを指示する。また、文字認識部204によって文字画像データの認識が終了し、オペレータによる終了指示があったときには、表示制御部205に修正画面の表示指示をする。
【0027】
なお、表示制御部205によって、類似度の低い文字画像データから順に配置するようにしたけれども、逆にしてもよいのは勿論である。
図5は、認識データ記憶部203に最終的に文字認識修正結果として記憶される内容を示している。
文字認識修正結果501には、文書の文書番号502と、画像データ上での文字位置を示す文字画像位置503と、文字コード504とが記録されている。文字コード504は、誤認識の文字画像データとして修正されないときには、文字画像データ認識結果301の候補文字コード306がそのまま記録される。
【0028】
これによって、文書ごとに、文書に含まれる文字画像位置に記載された文字の正しい文字コードが記録されることになる。例えば、この文字画像位置で特定されるサイズで文字コードで示される文字を所定のフォントでプリントすれば、スキャナー14で入力された元の文書が復元されることになる。
次に、本実施の形態の動作を図6、図7のフローチャートを用いて説明する。
【0029】
図6は、認識辞書24を用いて文書中の文字画像データを認識処理する動作を説明するフローチャートである。
先ず、スキャナー14で文書を読み込み、全体画像記憶部201に画像データを記憶させる(S602)。
文字画像データ切出部202は、画像データから一文字毎の文字画像データを切り出し、認識データ記憶部203に文字画像データ等を記録するとともに、文字認識部204に文字画像データを通知する(S604)。
【0030】
文字認識部204は、認識辞書24と照合し、市街化距離を計算し、市街化距離の一番短い標準文字を候補文字と認識する(S606)。文字画像データに対応して認識した候補文字の文字コードと市街化距離とを文字画像データ認識結果301に記録する(S608)。
次に、文字認識部204は、文字画像データ切出部202から文字画像データの通知がされたか否かを判定し(S610)、通知がされていればS606に戻り、通知がされていなければS612に移る。
【0031】
次に、制御部207は、、終了指示があるか否かを判定し(S612)、あれば、処理を終了し、なければ、S602に戻る。
図7は、文字認識部204で認識された文字画像データ認識結果301の修正処理の動作を説明するフローチャートである。
先ず、表示制御部205は、認識データ記憶部203に記憶されている文字画像データ認識結果301に誤認識修正の未処理の候補文字コードがあるか否かを判定する(S702)。なければ処理を終了する。あるときは、未処理の候補文字コードを1つ選び、その文字画像データを市街化距離の長い方から順に読み出して並べた文字画像データ一覧を表示する(S704)。
【0032】
次に、文字修正部206は、文字画像データ一覧から誤認識された文字画像データが選択さたか否かを判定し(S706)、選択されなければS702に戻る。選択されたときは、選択された文字画像データの正しい文字の入力を受ける(S708)。
文字修正部206は、認識データ記憶部203に記録されている文字画像データ認識結果301の候補文字コードを正しい文字の文字コードで置換し(S710)、S706に戻る。
【0033】
(実施の形態2)
次に、本発明に係る文字認識結果修正装置の実施の形態2について説明する。この文字認識結果修正装置の構成は、上記実施の形態1の構成(図2参照)とほぼ同様であり、文字修正部206が誤認識辞書25を有することが異なる。そこで、本実施の形態固有の構成について説明する。
【0034】
図8は、文字修正部206が有する誤認識辞書の一例を示す図である。誤認識辞書25は、文字コード801ごとに経験的にその文字に誤認識されやすい誤認識文字802とその文字コード803とが登録されている。例えば数字「0」は、数字「6」,「1」、アルファベット「O」,「o」,「a」,「D」、ギリシャ文字「σ」,「Θ」から誤認識されることがあることを示している。
【0035】
文字修正部206は、制御部207から候補文字コードの通知を受けると、誤認識辞書25の一致する文字コードに登録された複数の誤認識文字を読み出し、表示制御部205に通知する。
制御部207は、文字認識部204で文字画像データの認識が終了したことを受け、表示制御部205に修正画面を表示するよう指示する。表示制御部205から選択した候補文字コードの通知を受けると、文字修正部206にその候補文字コードを通知する。
【0036】
表示制御部205は、制御部207から修正画面の表示指示を受け、文字修正部206から誤認識文字の通知を受けると、CRT11に修正画面を表示する。
図9は、CRT11に表示された修正画面の一例を示す図である。
修正画面901には、文字画像データ一覧402と、この候補文字コードに対応する複数の誤認識文字902とが表示されている。誤認識文字902は、文字画像データ一覧402に表示された候補文字コードの文字に誤認識される確率の高い文字群である。
【0037】
誤認識文字902は、文字画像データ402の最上段の近く、即ち、類似度の低い文字画像データの近傍に表示されている。
候補文字の修正操作を具体的に説明すると、文字画像データ一覧402の最上段の第4文字目の文字画像データ905が誤認識されている場合、オペレータは、マウスで誤認識文字902の中から正しい文字「6」903を選択し、矢符904で示すように文字画像データ905にドラッグアンドドロップする。
【0038】
文字修正部206は、選択された文字「6」の文字コードを誤認識辞書25から読み出し、認識データ記憶部203に記録された候補文字コードを読み出した文字コードで置換する。
このように、誤認識が予想される確率の高い文字を誤認識文字902として表示しておけば、実施の形態1のように、キーボードを用いて、テキストボックス403に文字を入力する煩雑さを回避して、効率的に誤認識文字を修正することができる。
【0039】
なお、誤認識された文字画像データが修正されたことを確認できるように、文字画像データ905の表示を誤認識文字「6」903の表示に表示制御部205が変更表示するようにしてもよい。
次に、本実施の形態の動作を簡単に説明する。上記実施の形態1の動作と図7に示したフローチャートのS704〜S708の動作が異なるだけである。
【0040】
表示制御部205は、未処理の候補文字コードを1つ選び、その文字画像データを市街化距離の長い方から順に読み出して並べた文字画像データ一覧と、誤認識文字とを表示した修正画面を表示する。
文字修正部206は、誤認識文字から正しい文字が選択され、誤認識された文字画像データにドラッグアンドドロップがされたか否かを判定する。ドラッグアンドドロップがされれば、S710に、されなければS702に戻る。
【0041】
なお、上記各実施の形態では、文書に記載された手書き文字の誤認識修正について説明したけれども、手書き文字に限るものではなく、プリントされた印刷文字に適用できるのは勿論である。
また、文字コードはJIS文字コードを利用したけれども、他の文字コードを用いてよいのは勿論である。
【0042】
【発明の効果】
以上説明したように、本発明は、入力された画像データから1文字毎の文字画像データを切り出す切出手段と、切り出された文字画像データから認識辞書を用いて候補文字を認識する候補文字認識手段と、前記文字画像データの画像データ上での位置と、候補文字の文字コードとを文字画像データに対応付けて記憶する記憶手段と、前記記憶手段に記憶された文字コードが同一の文字画像データを抽出して一覧表示する抽出表示手段と、一覧表示された文字画像データのうち誤認識された文字画像データを正しい文字に修正する文字修正操作手段と、前記記憶手段に記憶された誤認識された文字画像データに対応付けられた候補文字の文字コードを修正された正しい文字の文字コードに置換する置換手段とを備えることとしている。このような構成によって、大量の画像データに含まれる文字画像データを文字コード単位で修正するので、短時間に効率的に誤認識された文字画像データを正しい文字に修正することができる。
【0043】
また、前記候補文字認識手段は、認識した候補文字の認識の確からしさを示す類似度を求め、前記記憶手段は、前記文字画像データに、更に候補文字の類似度とを対応付けて記憶しており、前記抽出表示手段は、類似度の高い順又は低い順に文字画像データを抽出して一覧表示することとしている。このような構成によって、オペレータは、一覧表示された文字画像データの最初の方、又は最後の方を注目して誤認識された文字画像データを見つけることができる。
【0044】
また、前記候補文字認識手段は、認識辞書に登録された文字の標準特徴量と前記文字画像データの特徴量との距離を求めてその最短の文字を候補文字と認識し、前記記憶手段に記憶される類似度は前記距離であり、前記抽出表示手段は、当該距離の長いものから順に抽出して一覧表示することとしている。このような構成によって、オペレータは、一覧表示された文字画像データの最初の方だけを注目すれば、ご認識された文字画像データを見つけることができる。
【0045】
また、前記文字修正操作手段は、文字コードに対応して誤認識の確率の高い複数の文字を登録した誤認識辞書と、候補文字の文字コードに対応する複数の文字を前記誤認識辞書から読み出し、候補文字の一覧表示とともに表示する誤認識文字表示部と、前記一覧表示された一の文字画像データに誤認識文字表示部で表示された一の文字を関連付けて一の文字に修正する修正操作部とを有することとしている。このような構成によって、一覧表示された文字画像データの誤認識された文字画像データを容易に正しい文字に修正することができる。
【0046】
また、前記修正操作部は、オペレータによって、一の文字を一の文字画像データにドラッグアンドドロップされる操作であることとしている。このような構成によって、更に、オペレータは、誤認識された文字画像データを簡単な操作で正しい文字に修正することが可能となる。
また、本発明は、入力された画像データから1文字毎の文字画像データを切り出す切出ステップと、切り出された文字画像データから認識辞書を用いて候補文字を認識する候補文字認識ステップと、前記文字画像データの画像データ上での位置と、候補文字の文字コードとを文字画像データに対応付けて記憶領域に記録する記録ステップと、前記記憶領域に記録された文字コードが同一の文字画像データを抽出して一覧表示する抽出表示ステップと、一覧表示された文字画像データのうち誤認識された文字画像データを正しい文字に修正する文字修正操作ステップと、前記記憶領域に記憶された誤認識された文字画像データに対応付けられた候補文字の文字コードを修正された正しい文字の文字コードに置換する置換ステップとを有することとしている。このような方法によって、短時間に効率的に誤認識された文字画像データを正しい文字に修正することができる。
【0047】
更に、本発明は、コンピュータを内蔵する文字認識結果修正装置に適用される文字認識結果修正プログラムであって、入力された画像データから1文字毎の文字画像データを切り出す切出ステップと、切り出された文字画像データから認識辞書を用いて候補文字を認識する候補文字認識ステップと、前記文字画像データの画像データ上での位置と、候補文字の文字コードとを文字画像データに対応付けて記憶領域に記録する記録ステップと、前記記憶領域に記録された文字コードが同一の文字画像データを抽出して一覧表示する抽出表示ステップと、一覧表示された文字画像データのうち誤認識された文字画像データを正しい文字に修正する文字修正操作ステップと、前記記憶領域に記憶された誤認識された文字画像データに対応付けられた候補文字の文字コードを修正された正しい文字の文字コードに置換する置換ステップとの各ステップをコンピュータに実行させることとしている。このような文字認識結果修正プログラムを文字認識結果修正装置に適用することによって、短時間に効率的に誤認識された文字画像データを正しい文字に修正することができる。
【図面の簡単な説明】
【図1】本発明に係る文字認識結果修正装置の実施の形態1のハードウェア構成を示す図である。
【図2】上記実施の形態の構成図である。
【図3】上記実施の形態の認識データ記憶部に文字画像データに対応付けて記憶された認識データの一例を示す図である。
【図4】上記実施の形態の修正画面の一例を示す図である。
【図5】上記実施の形態で修正された文字認識結果の一例を示す図である。
【図6】上記実施の形態の文字認識の動作を説明するフローチャートである。
【図7】上記実施の形態の文字画像データの認識結果の修正の動作を説明するフローチャートである。
【図8】本発明に係る文字認識結果修正装置の実施の形態2の文字修正部の有する誤認識辞書の内容の一例を示す図である。
【図9】上記実施の形態の修正画面の一例を示す図である。
【符号の説明】
10 CPU
11 CRT
12 マウス
13 キーボード
14 スキャナー
15 RAM
19 ハードディスク
22 ROM
24 認識辞書
25 誤認識辞書
201 全体画像記憶部
202 文字画像データ切出部
203 認識データ記憶部
204 文字認識部
205 表示制御部
206 文字修正部
207 制御部
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a character recognition result correcting apparatus and method for correcting a character recognition result of character image data included in image data input by an OCR device or the like to correct characters.
[0002]
[Prior art]
In recent years, the demand for paperlessness has increased, and it has become common to digitize existing documents and store and use them.
In order to digitize and save an existing document, a technique of performing character recognition using an OCR device or the like and converting a character included in the document into a text code is used. At present, character recognition is not performed with 100% accuracy. To correct the character recognition result, the character image with the character recognized and the character of the recognition result are displayed side by side, and the wrong part is visually found and corrected using the keyboard. Work is being performed (for example, Patent Document 1).
[0003]
However, there is a problem that it takes time to find and correct an incorrect character.
Therefore, in order to increase the efficiency of correcting a character image that has been erroneously recognized, a technology has been disclosed in which character images of the same character type and the same character code in a predetermined area are collectively displayed and displayed side by side with the character of the recognition result and corrected. (For example, Patent Document 2).
[0004]
[Patent Document 1]
JP-A-1-111285 [0005]
[Patent Document 2]
JP-A-11-007492
[Problems to be solved by the invention]
However, even in the technique of Patent Document 2, it is necessary to sequentially compare the character image and the character of the recognition result, and to correct the character image if it is erroneously recognized. It is necessary to further improve work efficiency.
Accordingly, it is an object of the present invention to provide a character recognition result correcting apparatus and method capable of correcting a large number of character recognition results in a short time.
[0007]
[Means for Solving the Problems]
In order to solve the above-mentioned problems, the present invention provides an extracting unit for extracting character image data for each character from input image data, and a candidate character for recognizing candidate characters from the extracted character image data using a recognition dictionary. Recognizing means, storage means for storing the position of the character image data on the image data, and the character code of the candidate character in association with the character image data, and a character having the same character code stored in the storage means. Extraction display means for extracting image data and displaying it in a list, character correction operation means for correcting misrecognized character image data of the displayed character image data to correct characters,
And a replacement unit configured to replace a character code of a candidate character associated with the erroneously recognized character image data stored in the storage unit with a corrected character code of a correct character.
[0008]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, an embodiment of a character recognition result correcting apparatus according to the present invention will be described with reference to the drawings.
(Embodiment 1)
FIG. 1 is a diagram showing a hardware configuration of an embodiment of a character recognition result correcting apparatus according to the present invention.
[0009]
This character recognition result correction device includes a central processing unit (CPU) 10 for controlling each part of the device, a cathode ray tube (CRT) 11 for displaying the progress and results of processing, a mouse 12, and a keyboard 13 , A scanner 14, a random access memory (RAM) 15, a hard disk 19, and a read-only memory (ROM) 22.
[0010]
The CRT 11 may be a liquid crystal display or the like. The mouse 12, the keyboard 13, and the scanner 14 constitute an input unit.
The RAM 15 includes an entire image storage area 16 for storing image data of a document read by the scanner 14, a recognition data storage area 17 for storing a recognition result for each character image data cut out from the image data, and a work area for the CPU 10. 18
[0011]
The hard disk 19 has a program storage area 20 and an OS storage area 21 for storing an operating system. The program storage area 20 stores the character recognition result correction program of the present embodiment, and the CPU 10 operates according to this program.
The ROM 22 has a startup program storage area 23, a recognition dictionary 24, and a misrecognition dictionary 25.
[0012]
The boot program stored in the boot program storage area 23 is necessary for the operating system to operate.
The recognition dictionary 24 registers a set of a standard feature amount of a standard character and its character code. The standard characters are characters to be collated with character image data to be recognized, and include symbols in addition to characters.
[0013]
The misrecognition dictionary 25 will be described later.
FIG. 2 is a configuration diagram of the first embodiment.
The character recognition result correcting device includes a scanner 14, a whole image storage unit 201, a character image data cutout unit 202, a recognition data storage unit 203, a character recognition unit 204, a display control unit 205, and a character correction unit 206. And a control unit 207.
[0014]
The scanner 14 reads the paper on which the document is described and stores the read paper as image data in the overall image storage unit 201. At this time, the image may be stored as a color image or as a black and white binary image.
When the image data is stored in the whole image storage unit 201, the character image data cutout unit 202 cuts out character image data for each character from the image data according to an instruction from the control unit 207, and notifies the character recognition unit 204 of the cutout. Then, the character image data is stored in the recognition data storage unit 203.
[0015]
The character image data cutout unit 202 assigns a document number and a character image number to the image data, and records the position of the character image data on the image data.
The recognition data storage unit 203 records the recognition result of the character image data.
FIG. 3 is a diagram illustrating an example of the character image data recognition result stored in the recognition data storage unit 203.
[0016]
The character image data recognition result 301 includes a document number 302, a character image number 303, character image data 304, a character image position 305, a candidate character code 306, and an urbanization distance 307.
The document number 302 is a number assigned to each sheet of the document read by the scanner 14, that is, each image data.
[0017]
The character image number 303 is a number sequentially given to character image data cut out from the image data.
The character image data 304 is image data of a character cut out as one character.
The character image position 305 is indicated by x and y coordinates of vertices at diagonal positions of a rectangle circumscribing the character image data 304. Here, an upper left vertex and a lower right vertex are used.
[0018]
The document number 302, character image number 303, character image data 304, and character image position 305 are recorded by the character image data cutout unit 202.
The candidate character code 306 and the urbanization distance 307 are recorded by the character recognition unit 204.
The character recognizing unit 204 has a recognition dictionary 24, and upon receiving a notification of the character image data from the character image data extracting unit 202, extracts a feature amount from the character image data, and outputs a standard feature of each standard character in the recognition dictionary 24. Calculate the urbanization distance with the quantity. The standard character with the shortest urbanization distance is recognized as a candidate character, and its character code is recorded in the candidate character code 306 of the character image data recognition result 301 recorded in the recognition data storage unit 203. At the same time, the urbanization distance 307 is also recorded.
[0019]
Here, the urbanization distance 307 indicates the similarity between the character image data to be recognized and the standard character. The shorter the urbanization distance is, the higher the similarity is, and the probability that the character image data is the standard character is high. Get higher. The longer the urbanization distance, the lower the similarity.
For example, the character image data of the character image number “3” is recognized as the candidate character code “2330”, that is, “0”, but the urbanization distance 307 is “2300” and the character image numbers “1” and “2”. Is longer than the urbanization distances “850” and “760” of the character image data “”, and the probability of misrecognition is high.
[0020]
It is needless to say that the similarity does not need to be indicated by the urbanization distance, and other values may be used according to the feature amount of the recognition dictionary and the like.
When correcting the character image data recognition result recorded in the recognition data storage unit 203, the control unit 207 instructs the display control unit 205 to display a list of character image data for each candidate character code.
[0021]
The display control unit 205 selects one of the candidate character codes 306 recorded in the recognition data storage unit 203 and extracts character image data having the same candidate character code. At this time, character image data having a long urbanization distance are sequentially extracted and displayed in a list. The association between the displayed character image data 304 and the character image data recognition result 301 is, for example, associated with a document number 302 and a character image number 303.
[0022]
The character correction unit 206 corrects erroneous recognition of the character image data listed by the display control unit 205.
FIG. 4 is a diagram illustrating an example of a correction screen for incorrectly recognized character image data.
The correction screen 401 displays a character image data list 402 and a text box 403 for inputting a correct character.
[0023]
By looking at the character image data list 402, the operator can recognize at a glance what the recognized characters of the character image data are. In the case of the character image data list 402, the numeral “0” is recognized from the character image data.
The display control unit 205 displays the character image data list 402 such that the upper left character image data has a higher probability of being erroneously recognized and the lower right character image data has a lower probability of being erroneously recognized.
[0024]
Therefore, the operator only has to pay particular attention to the character image data in the vicinity of the uppermost stage of the character image data 402 so as to find erroneously recognized character image data.
The operator moves the highlighted cursor 404 to the erroneously recognized character image data with the mouse 12 and inputs the corrected character into the text box 403 using the keyboard 13. For example, the character image data (the first character at the top row) erroneously recognized as “0” is corrected to “1”.
[0025]
The character correction unit 206 receives a notification of the document number and the character image number of the character image data displayed at the position of the cursor 404 from the display control unit 205. The candidate character code specified by the document number and the character image number of the character image data recognition result 301 stored in the recognition data storage unit 203 is replaced with the character code of the character input to the text box 403.
[0026]
This process is repeated for the number of candidate character codes recorded as the candidate character codes 306 of the character image data recognition result 301.
In this way, erroneous recognition of character image data recognized from a large amount of image data can be efficiently corrected in a short time.
When the document is read by the scanner 14 and the image data is stored in the entire image storage unit 201, the control unit 207 instructs the character image data extraction unit 202 to extract character image data for each character. When the recognition of the character image data is completed by the character recognition unit 204 and an end instruction is given by the operator, the display control unit 205 is instructed to display a correction screen.
[0027]
Although the display control unit 205 arranges the character image data with the lowest similarity in order, it is needless to say that the character image data may be arranged in the reverse order.
FIG. 5 shows the contents finally stored as the character recognition correction result in the recognition data storage unit 203.
In the character recognition correction result 501, a document number 502 of the document, a character image position 503 indicating a character position on the image data, and a character code 504 are recorded. When the character code 504 is not corrected as erroneously recognized character image data, the candidate character code 306 of the character image data recognition result 301 is recorded as it is.
[0028]
As a result, the correct character code of the character described at the character image position included in the document is recorded for each document. For example, if the character indicated by the character code is printed in a predetermined font at the size specified by the character image position, the original document input by the scanner 14 is restored.
Next, the operation of the present embodiment will be described with reference to the flowcharts of FIGS.
[0029]
FIG. 6 is a flowchart illustrating the operation of recognizing character image data in a document using the recognition dictionary 24.
First, a document is read by the scanner 14, and image data is stored in the entire image storage unit 201 (S602).
The character image data cutout unit 202 cuts out character image data for each character from the image data, records the character image data and the like in the recognition data storage unit 203, and notifies the character recognition unit 204 of the character image data (S604). .
[0030]
The character recognition unit 204 compares the character with the recognition dictionary 24, calculates the urbanization distance, and recognizes the standard character having the shortest urbanization distance as a candidate character (S606). The character code of the candidate character recognized corresponding to the character image data and the urbanization distance are recorded in the character image data recognition result 301 (S608).
Next, the character recognition unit 204 determines whether or not notification of the character image data has been received from the character image data cutout unit 202 (S610). If the notification has been made, the process returns to S606; if not, the notification has not been made. It moves to S612.
[0031]
Next, the control unit 207 determines whether or not there is an end instruction (S612), and if there is, terminates the process; otherwise, returns to S602.
FIG. 7 is a flowchart for explaining the operation of the correction processing of the character image data recognition result 301 recognized by the character recognition unit 204.
First, the display control unit 205 determines whether the character image data recognition result 301 stored in the recognition data storage unit 203 includes an unprocessed candidate character code for erroneous recognition and correction (S702). If not, the process ends. If there is, one unprocessed candidate character code is selected, and the character image data is read out from the longest urbanization distance in order and displayed as a character image data list (S704).
[0032]
Next, the character correction unit 206 determines whether or not character image data that has been erroneously recognized is selected from the character image data list (S706). If not, the process returns to S702. When selected, the correct character of the selected character image data is input (S708).
The character correction unit 206 replaces the candidate character code of the character image data recognition result 301 recorded in the recognition data storage unit 203 with a character code of a correct character (S710), and returns to S706.
[0033]
(Embodiment 2)
Next, a second embodiment of the character recognition result correcting apparatus according to the present invention will be described. The configuration of the character recognition result correction device is substantially the same as the configuration of the first embodiment (see FIG. 2), except that the character correction unit 206 has the misrecognition dictionary 25. Therefore, a configuration unique to the present embodiment will be described.
[0034]
FIG. 8 is a diagram illustrating an example of the misrecognition dictionary included in the character correction unit 206. The misrecognition dictionary 25 registers, for each character code 801, an erroneously recognized character 802 and a character code 803 which are liable to be erroneously recognized as the character empirically. For example, the number “0” may be erroneously recognized from the numbers “6” and “1”, the alphabets “O”, “o”, “a”, “D”, and the Greek letters “σ” and “Θ”. It is shown that.
[0035]
When the character correcting unit 206 receives the notification of the candidate character code from the control unit 207, the character correcting unit 206 reads a plurality of erroneously recognized characters registered in the matching character code in the erroneously recognized dictionary 25, and notifies the display control unit 205 of the same.
The control unit 207 receives the completion of the recognition of the character image data by the character recognition unit 204, and instructs the display control unit 205 to display a correction screen. When receiving the notification of the selected candidate character code from the display control unit 205, it notifies the character correcting unit 206 of the candidate character code.
[0036]
The display control unit 205 displays the correction screen on the CRT 11 when receiving the display instruction of the correction screen from the control unit 207 and receiving the notification of the erroneously recognized character from the character correction unit 206.
FIG. 9 is a diagram illustrating an example of the correction screen displayed on the CRT 11.
The correction screen 901 displays a character image data list 402 and a plurality of misrecognized characters 902 corresponding to the candidate character codes. The misrecognized character 902 is a character group having a high probability of being erroneously recognized as a character of the candidate character code displayed in the character image data list 402.
[0037]
The misrecognized character 902 is displayed near the top of the character image data 402, that is, near the character image data with low similarity.
More specifically, the correction operation of the candidate character will be described. When the character image data 905 of the fourth character at the top of the character image data list 402 is erroneously recognized, the operator uses the mouse to select among the erroneously recognized characters 902. A correct character “6” 903 is selected and dragged and dropped onto character image data 905 as indicated by an arrow 904.
[0038]
The character correction unit 206 reads the character code of the selected character “6” from the misrecognition dictionary 25 and replaces the candidate character code recorded in the recognition data storage unit 203 with the read character code.
In this way, if characters having a high probability of being erroneously recognized are displayed as erroneously recognized characters 902, the complexity of inputting characters to the text box 403 using a keyboard as in Embodiment 1 can be reduced. By avoiding this, the erroneously recognized character can be corrected efficiently.
[0039]
The display control unit 205 may change the display of the character image data 905 to the display of the erroneously recognized character “6” 903 so that it can be confirmed that the erroneously recognized character image data has been corrected. .
Next, the operation of the present embodiment will be briefly described. The only difference is the operation of the first embodiment and the operations of S704 to S708 of the flowchart shown in FIG.
[0040]
The display control unit 205 selects one unprocessed candidate character code, reads out the character image data in order from the longest urbanization distance and arranges the character image data list, and displays a correction screen on which a misrecognized character is displayed. indicate.
The character correction unit 206 determines whether a correct character has been selected from the erroneously recognized characters and whether drag and drop has been performed on the erroneously recognized character image data. If drag and drop is performed, the process returns to step S710; otherwise, the process returns to step S702.
[0041]
In each of the above embodiments, erroneous recognition and correction of handwritten characters described in a document have been described. However, the present invention is not limited to handwritten characters, but can be applied to printed printed characters.
Although the JIS character code is used as the character code, other character codes may be used as a matter of course.
[0042]
【The invention's effect】
As described above, the present invention provides an extracting unit that extracts character image data for each character from input image data, and a candidate character recognition unit that recognizes candidate characters from the extracted character image data using a recognition dictionary. Means, storage means for storing the position of the character image data on the image data, and the character code of the candidate character in association with the character image data, and a character image having the same character code stored in the storage means. Extraction display means for extracting data and displaying the list, character correction operation means for correcting incorrectly recognized character image data among the character image data displayed in the list to correct characters, and erroneous recognition stored in the storage means Replacement means for replacing the character code of the candidate character associated with the corrected character image data with the corrected character code of the correct character. With such a configuration, character image data included in a large amount of image data is corrected for each character code, so that character image data that has been erroneously recognized can be corrected to a correct character efficiently in a short time.
[0043]
Further, the candidate character recognizing means obtains a similarity indicating the likelihood of recognition of the recognized candidate character, and the storage means stores the character image data further in association with the similarity of the candidate character. The extraction display means extracts character image data in order of high or low similarity and displays it in a list. With such a configuration, the operator can find erroneously recognized character image data by focusing on the first or last character image data displayed in the list.
[0044]
The candidate character recognizing means obtains a distance between a standard feature amount of a character registered in a recognition dictionary and a feature amount of the character image data, recognizes the shortest character as a candidate character, and stores the shortest character in the storage unit. The similarity is the distance, and the extraction display means extracts and displays the list in ascending order of the distance. With such a configuration, the operator can find the recognized character image data by paying attention only to the first character image data displayed in the list.
[0045]
In addition, the character correction operation unit reads a plurality of characters corresponding to a character code and a plurality of characters corresponding to a character code of a candidate character from the misrecognition dictionary. An erroneously recognized character display section displayed together with a list display of candidate characters, and a correction operation for associating one character image data displayed in the list with one character displayed on the erroneously recognized character display section to correct the one character character Part. With such a configuration, the character image data that is erroneously recognized in the character image data displayed in the list can be easily corrected to a correct character.
[0046]
The correction operation unit is an operation in which one character is dragged and dropped onto one character image data by an operator. With such a configuration, the operator can correct the erroneously recognized character image data to correct characters by a simple operation.
Also, the present invention provides a cutting step of cutting out character image data for each character from the input image data, a candidate character recognition step of recognizing candidate characters from the cut out character image data using a recognition dictionary, A recording step of recording the position of the character image data on the image data and the character code of the candidate character in the storage area in association with the character image data, and the character image data having the same character code recorded in the storage area Extracting and displaying a list of characters, a character correction operation step of correcting character image data that is erroneously recognized among the character image data displayed in the list to correct characters, and an erroneous recognition stored in the storage area. Replacing the character code of the candidate character associated with the corrected character image data with the corrected character code of the correct character. It is. According to such a method, the character image data that has been erroneously recognized can be efficiently corrected to a correct character in a short time.
[0047]
Further, the present invention is a character recognition result correction program applied to a character recognition result correction device incorporating a computer, wherein a cutout step of cutting out character image data for each character from input image data; Character recognition step of recognizing a candidate character from a character image data using a recognition dictionary, a storage area in which the position of the character image data on the image data and the character code of the candidate character are associated with the character image data. A recording step of recording the character image data having the same character code recorded in the storage area, and an extraction display step of extracting and displaying a list of character image data; A character correcting operation step of correcting a character to a correct character, and the character correction data associated with the erroneously recognized character image data stored in the storage area. It is set to be executed each step of the replacement step of replacing the correct character code of the character is corrected character code of the complement characters to the computer. By applying such a character recognition result correction program to a character recognition result correction device, it is possible to efficiently correct incorrectly recognized character image data into correct characters in a short time.
[Brief description of the drawings]
FIG. 1 is a diagram illustrating a hardware configuration of a character recognition result correcting apparatus according to a first embodiment of the present invention.
FIG. 2 is a configuration diagram of the above embodiment.
FIG. 3 is a diagram illustrating an example of recognition data stored in the recognition data storage unit according to the embodiment in association with character image data;
FIG. 4 is a diagram showing an example of a correction screen according to the embodiment.
FIG. 5 is a diagram showing an example of a character recognition result corrected in the embodiment.
FIG. 6 is a flowchart illustrating an operation of character recognition according to the embodiment.
FIG. 7 is a flowchart illustrating an operation of correcting a recognition result of character image data according to the embodiment.
FIG. 8 is a diagram illustrating an example of the contents of a misrecognition dictionary included in a character correction unit according to a second embodiment of the character recognition result correction apparatus according to the present invention.
FIG. 9 is a diagram illustrating an example of a correction screen according to the embodiment.
[Explanation of symbols]
10 CPU
11 CRT
12 Mouse 13 Keyboard 14 Scanner 15 RAM
19 Hard disk 22 ROM
24 recognition dictionary 25 misrecognition dictionary 201 whole image storage unit 202 character image data cutout unit 203 recognition data storage unit 204 character recognition unit 205 display control unit 206 character correction unit 207 control unit

Claims (7)

入力された画像データから1文字毎の文字画像データを切り出す切出手段と、
切り出された文字画像データから認識辞書を用いて候補文字を認識する候補文字認識手段と、
前記文字画像データの画像データ上での位置と、候補文字の文字コードとを文字画像データに対応付けて記憶する記憶手段と、
前記記憶手段に記憶された文字コードが同一の文字画像データを抽出して一覧表示する抽出表示手段と、
一覧表示された文字画像データのうち誤認識された文字画像データを正しい文字に修正する文字修正操作手段と、
前記記憶手段に記憶された誤認識された文字画像データに対応付けられた候補文字の文字コードを修正された正しい文字の文字コードに置換する置換手段とを備えることを特徴とする文字認識結果修正装置。
Extracting means for extracting character image data for each character from the input image data;
Candidate character recognition means for recognizing candidate characters from the cut-out character image data using a recognition dictionary;
A storage unit that stores the position of the character image data on the image data and the character code of the candidate character in association with the character image data.
Extraction display means for extracting character image data having the same character code stored in the storage means and displaying the extracted character image data in a list,
Character correction operation means for correcting misrecognized character image data among the character image data displayed in the list to correct characters,
A character recognition result correction method comprising: replacing a character code of a candidate character associated with the erroneously recognized character image data stored in the storage means with a corrected character code of a correct character. apparatus.
前記候補文字認識手段は、認識した候補文字の認識の確からしさを示す類似度を求め、
前記記憶手段は、前記文字画像データに、更に候補文字の類似度とを対応付けて記憶しており、
前記抽出表示手段は、類似度の高い順又は低い順に文字画像データを抽出して一覧表示することを特徴とする請求項1記載の文字認識結果修正装置。
The candidate character recognition means obtains a similarity indicating the likelihood of recognition of the recognized candidate character,
The storage unit further stores the character image data in association with a similarity of a candidate character,
2. The character recognition result correcting apparatus according to claim 1, wherein the extraction display unit extracts the character image data in order of high or low similarity and displays the list in a list.
前記候補文字認識手段は、認識辞書に登録された文字の標準特徴量と前記文字画像データの特徴量との距離を求めてその最短の文字を候補文字と認識し、
前記記憶手段に記憶される類似度は前記距離であり、
前記抽出表示手段は、当該距離の長いものから順に抽出して一覧表示することを特徴とする請求項2記載の文字認識結果修正装置。
The candidate character recognition means obtains a distance between a standard feature amount of a character registered in a recognition dictionary and a feature amount of the character image data, and recognizes the shortest character as a candidate character,
The similarity stored in the storage means is the distance,
3. The character recognition result correcting device according to claim 2, wherein the extraction display unit extracts the objects in order from the one with the longest distance and displays the list.
前記文字修正操作手段は、
文字コードに対応して誤認識の確率の高い複数の文字を登録した誤認識辞書と、
候補文字の文字コードに対応する複数の文字を前記誤認識辞書から読み出し、候補文字の一覧表示とともに表示する誤認識文字表示部と、
前記一覧表示された一の文字画像データに誤認識文字表示部で表示された一の文字を関連付けて一の文字に修正する修正操作部とを有することを特徴とする請求項4記載の文字認識結果修正装置。
The character correction operation means includes:
A misrecognition dictionary that registers a plurality of characters with a high probability of misrecognition corresponding to the character code;
An erroneously recognized character display unit that reads a plurality of characters corresponding to the character codes of the candidate characters from the erroneously recognized dictionary and displays the candidate characters together with a list of candidate characters;
5. The character recognition device according to claim 4, further comprising: a correction operation unit configured to associate the one character image data displayed in the list with one character displayed on the misrecognized character display unit and correct the character image data into one character. Result correction device.
前記修正操作部は、オペレータによって、一の文字を一の文字画像データにドラッグアンドドロップされる操作であることを特徴とする請求項4記載の文字認識結果修正装置。The character recognition result correcting apparatus according to claim 4, wherein the correction operation unit is an operation of dragging and dropping one character to one character image data by an operator. 入力された画像データから1文字毎の文字画像データを切り出す切出ステップと、
切り出された文字画像データから認識辞書を用いて候補文字を認識する候補文字認識ステップと、
前記文字画像データの画像データ上での位置と、候補文字の文字コードとを文字画像データに対応付けて記憶領域に記録する記録ステップと、
前記記憶領域に記録された文字コードが同一の文字画像データを抽出して一覧表示する抽出表示ステップと、
一覧表示された文字画像データのうち誤認識された文字画像データを正しい文字に修正する文字修正操作ステップと、
前記記憶領域に記憶された誤認識された文字画像データに対応付けられた候補文字の文字コードを修正された正しい文字の文字コードに置換する置換ステップとを有することを特徴とする文字認識結果修正方法。
Cutting out character image data for each character from the input image data;
A candidate character recognition step of recognizing candidate characters from the cut-out character image data using a recognition dictionary;
A recording step of recording a position on the image data of the character image data and a character code of a candidate character in a storage area in association with the character image data;
An extraction display step of extracting character image data having the same character code recorded in the storage area and displaying a list thereof;
A character correction operation step of correcting character image data that is misrecognized among the character image data displayed in the list to correct characters,
Replacing the character code of the candidate character associated with the erroneously recognized character image data stored in the storage area with the corrected character code of the correct character. Method.
コンピュータを内蔵する文字認識結果修正装置に適用される文字認識結果修正プログラムであって、
入力された画像データから1文字毎の文字画像データを切り出す切出ステップと、
切り出された文字画像データから認識辞書を用いて候補文字を認識する候補文字認識ステップと、
前記文字画像データの画像データ上での位置と、候補文字の文字コードとを文字画像データに対応付けて記憶領域に記録する記録ステップと、
前記記憶領域に記録された文字コードが同一の文字画像データを抽出して一覧表示する抽出表示ステップと、
一覧表示された文字画像データのうち誤認識された文字画像データを正しい文字に修正する文字修正操作ステップと、
前記記憶領域に記憶された誤認識された文字画像データに対応付けられた候補文字の文字コードを修正された正しい文字の文字コードに置換する置換ステップとの各ステップをコンピュータに実行させる文字認識結果修正プログラム。
A character recognition result correction program applied to a character recognition result correction device incorporating a computer,
Cutting out character image data for each character from the input image data;
A candidate character recognition step of recognizing candidate characters from the cut-out character image data using a recognition dictionary;
A recording step of recording a position on the image data of the character image data and a character code of a candidate character in a storage area in association with the character image data;
An extraction display step of extracting character image data having the same character code recorded in the storage area and displaying a list thereof;
A character correction operation step of correcting character image data that is misrecognized among the character image data displayed in the list to correct characters,
A character recognition result for causing a computer to execute each step of replacing a character code of a candidate character associated with the erroneously recognized character image data stored in the storage area with a corrected character code of a correct character Fix.
JP2003136525A 2003-05-14 2003-05-14 Character recognition result correcting device and its method, and character recognition result correcting program Pending JP2004341754A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003136525A JP2004341754A (en) 2003-05-14 2003-05-14 Character recognition result correcting device and its method, and character recognition result correcting program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003136525A JP2004341754A (en) 2003-05-14 2003-05-14 Character recognition result correcting device and its method, and character recognition result correcting program

Publications (1)

Publication Number Publication Date
JP2004341754A true JP2004341754A (en) 2004-12-02

Family

ID=33526465

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003136525A Pending JP2004341754A (en) 2003-05-14 2003-05-14 Character recognition result correcting device and its method, and character recognition result correcting program

Country Status (1)

Country Link
JP (1) JP2004341754A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013077157A (en) * 2011-09-30 2013-04-25 Internatl Business Mach Corp <Ibm> System, method and program for supporting proof reading of text data generated through optical character recognition
JP5661214B1 (en) * 2014-09-02 2015-01-28 三菱電機インフォメーションシステムズ株式会社 Character data correction method, character data correction device and program

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013077157A (en) * 2011-09-30 2013-04-25 Internatl Business Mach Corp <Ibm> System, method and program for supporting proof reading of text data generated through optical character recognition
JP5661214B1 (en) * 2014-09-02 2015-01-28 三菱電機インフォメーションシステムズ株式会社 Character data correction method, character data correction device and program
JP2015185157A (en) * 2014-09-02 2015-10-22 三菱電機インフォメーションシステムズ株式会社 Character data correction method, character data correction apparatus, and program

Similar Documents

Publication Publication Date Title
JP6527410B2 (en) Character recognition device, character recognition method, and program
US20110280481A1 (en) User correction of errors arising in a textual document undergoing optical character recognition (ocr) process
JP4694613B2 (en) Document orientation determination apparatus, document orientation determination method, program, and recording medium therefor
JPH11120293A (en) Character recognition/correction system
US8559718B1 (en) Defining a layout of text lines of CJK and non-CJK characters
JP5906788B2 (en) Character cutout method, and character recognition apparatus and program using this method
JP7039882B2 (en) Image analysis device and image analysis program
JP2002015280A (en) Device and method for image recognition, and computer- readable recording medium with recorded image recognizing program
JPH03214378A (en) Character recognizing device
JP6302317B2 (en) Form format information registration method, system, and program
JP4935459B2 (en) Character recognition method, character recognition program, and character recognition device
US20130330005A1 (en) Electronic device and character recognition method for recognizing sequential code
US11508139B2 (en) Information processing apparatus and non-transitory computer readable medium
JP2004341754A (en) Character recognition result correcting device and its method, and character recognition result correcting program
US20210019554A1 (en) Information processing device and information processing method
JP4810853B2 (en) Character image cutting device, character image cutting method and program
JP4117648B2 (en) Form, form processing method, form processing program, recording medium recording form processing program, and form processing apparatus
JP7178445B2 (en) Information processing device, information processing method, and program
JP7317886B2 (en) Information processing device and information processing method
US12008829B2 (en) System and method for improved OCR efficacy through image segmentation
JP7463675B2 (en) Information processing device and information processing program
JPH08137987A (en) Optical character reader
JP2002366900A (en) Optical character reader
KR20220168787A (en) Method to extract units of Manchu characters and system
JP2000207491A (en) Reading method and device for character string

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041213

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070927

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071016

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080826