JP4190159B2 - Character recognition processing system and program - Google Patents

Character recognition processing system and program Download PDF

Info

Publication number
JP4190159B2
JP4190159B2 JP2001126116A JP2001126116A JP4190159B2 JP 4190159 B2 JP4190159 B2 JP 4190159B2 JP 2001126116 A JP2001126116 A JP 2001126116A JP 2001126116 A JP2001126116 A JP 2001126116A JP 4190159 B2 JP4190159 B2 JP 4190159B2
Authority
JP
Japan
Prior art keywords
data
character recognition
item
character
recognized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001126116A
Other languages
Japanese (ja)
Other versions
JP2002324210A (en
Inventor
泰則 足立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2001126116A priority Critical patent/JP4190159B2/en
Publication of JP2002324210A publication Critical patent/JP2002324210A/en
Application granted granted Critical
Publication of JP4190159B2 publication Critical patent/JP4190159B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、文字認識処理システムおよびプログラムに係り、更に詳しくは、帳票に記入されたデータに基づいて文字認識処理を行うとともに、文字認識されなかったデータについては、過去に文字認識処理された帳票およびそのデータに基づいてその内容を推定することによって文字認識率を高めることが可能な文字認識処理システムおよびプログラムに関する。
【0002】
【従来の技術】
通常、帳票に記入されたデータを入力するシステムでは、業務の効率化のためにOCRを利用して文字認識を行い、データ入力を簡素化することがよく行われる。
【0003】
この種の文字認識処理システムでは、繰り返し発生するようなデータについては、処理実績としてデータベースに蓄積しておき、次回同様のデータが発生した時に、蓄積されたデータベースから過去の処理実績を取り出し利用することによりデータ入力を省力化する場合が多い。この場合、帳票に記入されたデータは以下のようにして処理がなされる。
【0004】
1)日々文字認識された帳票データを、処理実績としてデータベースに追加更新して行く。
【0005】
2)新たな帳票データの文字認識を行う場合には、OCRによりその帳票データの画像イメージに基づいて、読み込んだ帳票データの文字認識を行う。この文字認識処理の結果、文字認識されなかったデータがあった場合には、以下に示す3)以降の処理を行う。
【0006】
3)OCRによって文字認識処理を行っても、帳票に記入されたデータの文字認識ができないデータがあった場合には、予め定められているデータ項目であるキー項目のデータに合致する帳票データをデータベースから検索する。
【0007】
例えば図6に示すように、銀行名、支店名、科目、口座番号、受取人名、振込金額、依頼人名の各項目からなる振込依頼帳票において、いずれかの項目に記入されたデータの文字認識ができないデータがあった場合には、銀行名、支店名、科目、口座番号の各項目を検索キーとして予め定めておき、これら検索キーのデータに合致する帳票をデータベースから検索する。
【0008】
4)そして、データベースから検索した結果、検索キーとして定められた項目のデータに合致する帳票が存在する場合には、補正画面上のデータを、検索された帳票のデータに置き換える。
【0009】
図6に示す例では、文字認識処理の結果、受取人名が「ヤマ?? タロウ」として正しく認識されなかったが、3)において銀行名、支店名、科目、口座番号を検索キーとして設定し、この検索キーに合致する帳票がデータベースから検索された結果、この銀行名「XXギンコウ」、支店名「ホンテン」、科目「普通」、口座番号「12345」に一致する受取人名として「ヤマダ タロウ」が検索された。よって、文字認識されなかった受取人名「ヤマ?? タロウ」が「ヤマダ タロウ」というデータに置き換えられる。
【0010】
このようにして、過去に文字認識処理された帳票およびそのデータを利用することによって、文字認識されなかったデータの文字認識の支援がなされている。
【0011】
【発明が解決しようとする課題】
しかしながら、このような従来の文字認識処理システムでは、以下のような問題がある。
【0012】
すなわち、上述したような文字認識処理システムでは、検索キーとする項目は、予め定めておくものであって、いったん検索キーを決めてしまうと、文字認識処理する帳票毎にその検索キーを変更するようなことはできない。
【0013】
したがって、検索キーとして決められた項目に対するデータが、正しく文字認識されない場合には利用することができない。たとえば、図6に示すように、帳票データの文字認識処理を行う場合、検索キーとして銀行名、支店名、科目、口座番号の各項目が指定され、指定された全ての項目のデータが正しく文字認識処理されている場合には検索キーとして正しく機能するが、検索キーとして指定された項目のうちの1つでも認識されなかった文字があった場合には利用することができない。
【0014】
図7は、このような場合を示す一例であって、検索キーとして指定された項目のうちの支店名のデータが認識されなかった場合を示している。
【0015】
このように、検索キーとして指定された項目の中に、認識されなかったデータがある場合には、データベースに記憶された過去に処理された帳票データを利用することができないために、帳票に記入されたデータをオペレータが読み取り、直接手入力しなくてはならず、オペレータの負担が増大するという問題がある。
【0016】
本発明はこのような事情に鑑みてなされたものであり、検索キーとする項目を任意に設定可能とし、文字認識処理において認識されなかったデータの推定を、過去に蓄積されたデータを有効に活用して行い、もって、文字認識率を高め、オペレータの負担の低減を図ることが可能な文字認識処理システムおよびプログラムを提供することを目的とする。
【0017】
【課題を解決するための手段】
上記の目的を達成するために、本発明では、以下のような手段を講じる。
【0018】
すなわち、請求項1の発明では、複数の項目からなる帳票の各データを帳票の画像イメージに基づいて文字認識処理する文字認識手段と、過去に文字認識された帳票を、この帳票の各項目に対応するデータとともに記憶した帳票データ記憶手段と、文字認識手段によって文字認識処理された各データの中に、文字認識されなかったデータがあった場合には、文字認識手段によって文字認識されたデータの項目に基づいて、帳票データ記憶手段に記憶された帳票およびその各項目のデータを検索するための検索キーとなる項目を、文字認識されたデータに対応する項目の中から選択する選択手段と、選択手段によって選択された検索キーの項目に対応するデータを含む帳票およびその各項目に対応するデータを帳票データ記憶手段から検索する検索手段と、検索手段によって検索された帳票およびその各項目に対応するデータに基づいて、文字認識されなかったデータを推定する推定手段と、推定手段によって推定されたデータに文字認識されなかったデータを置き換える置換手段とを備え、検索手段によって検索された帳票が複数ある場合には、検索された帳票の各項目に対応するデータと、文字認識手段によって文字認識処理された帳票の各項目に対応するデータとの一致度を、検索された各帳票毎に演算する演算手段を付加し、推定手段は、演算手段によって演算された一致度が最大値の帳票の各項目に対応するデータに基づいて、文字認識されなかったデータを推定する
【0019】
従って、請求項1の発明の文字認識処理システムにおいては、以上のような手段を講じることにより、複数の項目からなる帳票の中から任意の項目を検索キーとして指定することを可能とし、指定した検索キーに基づいて過去のデータから類似のデータを検索することにより、認識されなかったデータの推定を高い精度で行うことができる。
【0021】
従って、請求項の発明の文字認識処理システムにおいては、以上のような手段を講じることにより、検索キーに基づいて検索された過去の帳票が複数ある場合には、より一致度の高い帳票に基づいて認識されなかったデータの推定を行うことができるので、推定精度をより高めることができる。
【0022】
請求項の発明では、請求項の発明の文字認識処理システムにおいて、置換手段によって置き換えられたデータを、異なる表示色、または異なる文字サイズ、または異なる修飾方法を用いて表示することによって、帳票の各データを、この帳票の画像イメージとともに表示する表示手段と、表示手段によって表示された置き換えられたデータの変更入力を受け付ける変更入力手段とを付加する。
【0023】
従って、請求項の発明の文字認識処理システムにおいては、以上のような手段を講じることにより、置き換えられたデータについては、データが置き換えられたことを容易に認識することができる。また、入力された画像イメージと比較することによって、データの変更を要する場合には、変更するデータを入力することもできる。
【0024】
請求項の発明では、各項目に対応して帳票に記入されたデータに基づいて文字認識処理を行うとともに、文字認識されなかったデータについては、過去に文字認識された帳票およびその各項目に対応するデータに基づいてその内容を推定することによって文字認識率を高めるコンピュータ読み取り可能なプログラムであって、複数の項目からなる帳票の各データを帳票の画像イメージに基づいて文字認識処理する文字認識手段、過去に文字認識処理された帳票を、この帳票の各項目に対応するデータとともに記憶した帳票データ記憶手段、文字認識手段によって文字認識処理された各データの中に、文字認識されなかったデータがあった場合には、文字認識手段によって文字認識されたデータの項目に基づいて、帳票データ記憶手段に記憶された帳票およびその各項目のデータを検索するための検索キーとなる項目を、文字認識されたデータに対応する項目の中から選択する選択手段、選択手段によって選択された検索キーの項目に対応するデータを含む帳票およびその各項目に対応するデータを帳票データ記憶手段から検索する検索手段、検索手段によって検索された帳票およびその各項目に対応するデータに基づいて、文字認識されなかったデータを推定する推定手段、推定手段によって推定されたデータに文字認識されなかったデータを置き換える置換手段、検索手段によって検索された帳票が複数ある場合には、検索された帳票の各項目に対応するデータと、前記文字認識手段によって文字認識処理された帳票の各項目に対応するデータとの一致度を、検索された各帳票毎に演算する演算手段、推定手段は、前記演算手段によって演算された一致度が最大値の帳票の各項目に対応するデータに基づいて、前記文字認識されなかったデータを推定するようにした手段をコンピュータに実現させるプログラムである。
【0025】
従って、請求項の発明のプログラムにおいては、以上のような手段を講じることにより、複数の項目からなる帳票の中から任意の項目を検索キーとして指定することを可能とし、指定した検索キーに基づいて過去のデータから類似のデータを検索することにより、認識されなかったデータの推定を高い精度で行うことができる。
【0026】
【発明の実施の形態】
以下に、本発明の実施の形態について図面を参照しながら説明する。
【0027】
本発明の実施の形態を図1から図6を用いて説明する。
【0028】
図1は、本発明の実施の形態に係る文字認識処理システムの全体構成の一例を示す構成図である。
【0029】
本発明の実施の形態に係る文字認識処理システム1は、ワークステーション等の計算機からなり、画像データ変換部2と、画像イメージデータ蓄積データベース(画像イメージデータ蓄積DB)3と、文字認識部4と、文字認識データ蓄積データベース(文字認識データ蓄積DB)5と、検索キー選択部6と、帳票データ検索部7と、一致度演算部8と、文字推定部9と、文字置換部10と、置換後文字認識データ蓄積データベース(置換後文字認識データ蓄積DB)11と、表示部12と、変更入力部13と、帳票データ蓄積データベース(帳票データ蓄積DB)14とを備えている。
【0030】
画像データ変換部2は、例えばスキャナが用いられ、手書きで帳票に記入されたデータを画像データに変換し、変換した画像データを画像イメージデータ蓄積DB3に記憶させると共に、文字認識部4に出力する。
【0031】
画像イメージデータ蓄積DB3は、画像データ変換部2から出力された帳票の画像データを記憶する。また、表示部12からの要求に基づいて、記憶している画像データを表示部12に出力する。
【0032】
文字認識部4は、例えばOCRが用いられ、画像データ変換部2から出力された画像データに基づいて、文字認識処理を行う。そして、文字認識された結果である文字認識データを文字認識データ蓄積DB5に記憶させると共に、検索キー選択部6に出力する。なお、図2に、文字認識部4によって文字認識処理された帳票の一例を示す。この帳票は、銀行名、支店名、科目、口座番号、受取人名、振込金額、依頼人名の各項目からなるものであって、銀行名、科目、口座番号、振込金額、依頼人名については正しく文字認識されており、支店名、受取人名については認識されなかった場合を示している。
【0033】
文字認識データ蓄積DB5は、図2にその一例を示すような文字認識部4から出力された文字認識データを記憶する。また、検索キー選択部6からの要求に基づいて、記憶している文字認識データを検索キー選択部6に出力する。
【0034】
検索キー選択部6は、文字認識部4から出力された文字認識データ、または文字認識データ蓄積DB5から必要に応じて取得した文字認識データに基づいて、各項目のうちのいずれかに、文字認識されなかったデータがあった場合には、データが文字認識された項目に基づいて、帳票データ蓄積DB14に記憶された帳票およびその各項目に対応するデータを検索するための検索キーとなる項目を、文字認識されたデータに対応する項目の中から選択し、その選択結果を帳票データ検索部7に出力する。
【0035】
たとえば、図2に示すような文字認識データの場合、支店名、受取人名は文字認識されなかった項目である。これを、文字認識された項目である銀行名、科目、口座番号、振込金額、振込人名のうちのいずれかの項目を検索キーとして選択する。なお、検索キーとして選択する項目の数は任意である。
【0036】
一方、検索キー選択部6は、文字認識部4から出力された文字認識データ、または文字認識データ蓄積DB5から必要に応じて取得した文字認識データに基づいて、各項目のデータが全て文字認識された場合には、この文字認識データを表示部12に出力する。
【0037】
帳票データ検索部7は、検索キー選択部6によって選択された検索キーの項目を含む帳票およびその各項目に対応するデータを帳票データ蓄積DB14から検索し、その検索結果を一致度演算部8に出力する。図3は、検索キー選択部6において検索キーとして銀行名、科目、口座番号が選択された場合において、帳票データ蓄積DB14から検索された帳票およびその項目に対応するデータの一例を示すものである。銀行名として「XXギンコウ」、科目として「普通」、口座番号として「12345」の検索キーで検索した結果、支店名として「シンジュク」、受取人名として「サトウ ハナコ」のデータ1)と、支店名として「ホンテン」、受取人名として「ヤマダ タロウ」のデータ2)とが検索された。
【0038】
一致度演算部8は、帳票データ検索部7によって検索された帳票のデータについて、文字認識部4によって文字認識処理された帳票とのデータの一致度を演算する。なお、帳票データ検索部7によって検索された帳票が複数ある場合には、文字認識部4によって文字認識処理された帳票の各データとの一致度を、検索された各帳票毎に演算する。そして、演算した結果である一致度を文字推定部9に出力する。
【0039】
一致度αの演算は、たとえば、以下に示す(1)式に基づいて行う。
すなわち、
α=Σf(r,j)/len(r,j)×φ …(1)
但し、
Σf(x,y):文字列xと文字列yとを比較し、一致した文字数を求める関数。
len(x,y):文字列xと文字列yについて文字数の大きい方の値を求める関数。
:認識結果のn番目の項目。
:実績検索結果のn番目の項目。
φ:n番目の項目の重み係数。
【0040】
なお、φ(n番目の項目の重み係数)は、各項目の文字種類による認識精度を考慮した重み付けを行うために設定するものであり、例えば、認識精度の高い数字項目は高く、認識精度の低いカタカナ、漢字項目は低く設定する。
【0041】
文字推定部9は、帳票データ検索部7によって1件のみの帳票が検索された場合であって、その帳票について一致度演算部8によりなされた一致度αが、所定基準値以上である場合には、この検索された帳票の内容を正とする。この場合、文字置換部10は、帳票データ検索部7によって検索された帳票のデータに基づいて、文字認識部4によって認識されなかったデータを置き換えるとともに、置き換えを行ったデータについては、置き換えたことが識別できるように置換フラグをセットする。なお、置換フラグについては後述する。
【0042】
また、文字推定部9は、帳票データ検索部7によって複数の帳票が検索された場合には、一致度演算部8によってなされた一致度αが最大値を示す帳票の内容を正とする。この場合、文字置換部10は、帳票データ検索部7によって検索された帳票のデータに基づいて、文字認識部4によって認識されなかったデータを置き換えるとともに、置き換えを行ったデータについては、置き換えたことが識別できるように置換フラグをセットする。
【0043】
図4は、文字置換部10によって、データの置き換えがなされるとともに、置き換えられたデータについて置換フラグがセットされた状態を示す図である。図2に示す帳票との一致度αを、図3に示すデータ1)、およびデータ2)のそれぞれについて演算した場合、データ2)の方が一致度αの値が大きい。したがって、図2に示す帳票において支店名は、データ2)に入力されている「ホンテン」が正であり、受取人もまたデータ2)に入力されている「ヤマダ タロウ」が正である。したがって、図2の帳票における支店名「ホン??」を「ホンテン」を置き換え、受取人名「ヤマ?? タロウ」を「ヤマダ タロウ」に置き換えている。更に、置き換えられたデータについては、データとともに括弧付きで付された置換フラグのデータを「1」としている。図2に示す帳票のうち銀行名、科目、口座番号のデータについてはデータが置き換えられていないので置換フラグのデータを「0」としている。なお、図2に示す帳票のデータのうち振込金額と依頼人名については、図3に示す帳票のデータとの比較を行っていないので置換フラグを付していない。
【0044】
文字置換部10は、図4に示すように、データの置き換えを行った置換後文字認識データを置換後文字認識データ蓄積DB11に記憶させると共に、表示部12に出力する。なお、帳票データ検索部7によって帳票データが検索されなかった場合、あるいは帳票データ検索部7によって検索された帳票データがあった場合であっても、一致度演算部8によって演算された一致度αの値が所定基準値に満たない場合には、データの置き換えは行わない。文字置換部10は、このようにデータの置き換えを行わなかった場合であっても、文字推定部9から出力された文字認識データを表示部12に出力する。
【0045】
置換後文字認識データ蓄積DB11は、図4にその一例を示すような置換後文字認識データが文字置換部10から出力されると、その出力された置換後文字認識データを記憶する。また、表示部12からの要求に基づいて、記憶している置換後文字認識データを表示部12に出力する。
【0046】
表示部12は、文字置換部10または置換後文字認識データ蓄積DB11から出力された置換後文字認識データを、画像イメージデータ蓄積DB3に蓄積されたこの帳票の画像データとともに画面表示する。この場合、文字置換部10によって置換されたデータについては、置換フラグが「1」であることを認識することによって、異なる表示色、または異なる文字サイズ、または異なる修飾方法を用いて表示する。これによって、置換されたデータであることが識別できるようにしている。置換されたデータの確度を明らかにするため、一致度αの値により色を分けて表示するようにしても良い。
【0047】
なお、表示部12は、文字置換部10から、認識されなかったデータがあるにもかかわらずそのデータの置換がなされなかった文字認識データが出力された場合には、認識されなかったデータが含まれた文字認識データを、画像イメージデータ蓄積DB3に蓄積されたこの帳票の画像データとともに画面表示する。
【0048】
また、表示部12は、検索キー選択部6から全てのデータが認識された文字認識データが出力された場合には、この文字認識データを、画像イメージデータ蓄積DB3に蓄積されたこの帳票の画像データとともに画面表示する。
【0049】
このようにして、文字認識データと、その帳票に対応する画像データを表示部12に並列して画面表示することによって、オペレータが両データの内容を対比できるようにしている。
【0050】
両データの対比の結果、オペレータが、文字認識データの中に、誤って認識されたデータや誤って置換されたデータがあるものと判断した場合には、変更入力部13より変更データを入力することによって、任意の文字認識データの内容を変更することを可能としている。
【0051】
また、文字認識データの中に、文字認識されていないデータが含まれている場合には、オペレータが、この文字認識データに対応する帳票の画像データからそのデータを読み取ることによって、読み取ったデータをこの変更入力部13から手入力することを可能としている。
【0052】
変更入力部13は、オペレータよって変更データの入力、あるいは認識されなかったデータの入力がなされると、入力されたデータに基づいて、文字認識データの内容を更新する。
【0053】
なお、変更入力部13からのデータ入力が全て完了した場合には、オペレータが、変更入力部13に備えられた図示しない確定キーを押圧することによって、文字認識データが確定されるとともに、確定された文字認識データが帳票データ蓄積DB14に出力されるようにしている。
【0054】
帳票データ蓄積DB14は、変更入力部13から出力された文字認識データを、過去に文字認識処理された帳票、およびこの帳票の各項目に対するデータとして記憶する。この記憶された帳票、およびこの帳票の各項目に対するデータは、帳票データ検索部7によって行われる検索に供される。
【0055】
以上の様に構成した本発明の実施の形態に係る文字認識処理システム1は、例えば磁気ディスク等の記憶媒体に記憶されたプログラムを読み込み、このプログラムによって動作が制御されるコンピュータによって実現される。
【0056】
次に、以上のように構成した本発明の実施の形態に係る文字認識処理システムの動作について図5に示すフローチャートを用いて説明する。
【0057】
本発明の実施の形態に係る文字認識処理システム1を用いて帳票に記入されたデータを処理する場合には、まず、各項目に手書きでデータが記入された帳票が、画像データ変換部2によって画像データに変換される(S1)。変換された画像データは、画像データ変換部2から画像イメージデータ蓄積DB3に出力され、そこで記憶されると共に、文字認識部4に出力される。
【0058】
画像データ変換部2から文字認識部4に出力された画像データは、文字認識部4によって、文字認識処理が行われる(S2)。文字認識された結果である文字認識データは、文字認識部4から文字認識データ蓄積DB5に出力され、そこで記憶されると共に、検索キー選択部6に出力される。
【0059】
検索キー選択部6には、文字認識部4から文字認識データが出力される。また、必要に応じて、文字認識データ蓄積DB5に記憶されている文字認識データを取得することも可能である。検索キー選択部6では、文字認識部4から出力された文字認識データ、または文字認識データ蓄積DB5から必要に応じて取得した文字認識データに基づいて、各データの中に、文字認識されなかったデータがあった場合(S3:Yes)には、文字認識されたデータの項目に基づいて、帳票データ蓄積DB14に記憶された帳票およびその各項目に対応するデータを検索するための検索キーとなる項目が、文字認識されたデータに対応する項目の中から選択される(S4)。そして、このようにして選択された検索キーは、帳票データ検索部7に出力される。
【0060】
一方、文字認識部4から出力された文字認識データ、または文字認識データ蓄積DB5から必要に応じて取得した文字認識データに基づいて、各項目のデータが全て文字認識されている場合(S3:No)には、この文字認識データは、検索キー選択部6から表示部12へ出力される(S11)。
【0061】
そして、帳票データ検索部7によって、検索キーの項目を含む帳票およびその各項目に対応するデータが帳票データ蓄積DB14から検索され、その検索結果が一致度演算部8に出力される(S5)。
【0062】
一致度演算部8では、帳票データ検索部7によって検索された帳票の各項目に対応するデータについて、文字認識部4によって文字認識処理された帳票の各項目に対応するデータとの一致度αの演算がなされる(S6)。なお、帳票データ検索部7によって検索された帳票が複数ある場合には、文字認識部4によって文字認識処理された帳票の各項目に対応するデータとの一致度αが、検索された各帳票毎に演算される。そして、演算した結果である一致度αは、文字推定部9に出力される。
【0063】
文字推定部9では、帳票データ検索部7によって1件のみの帳票が検索された場合(S7:1件)であって、その帳票について一致度演算部8によってなされた一致度αが、所定基準値以上である場合(S8:Yes)には、この検索された帳票の内容が正とされる。この場合、文字置換部10によって、帳票データ検索部7によって検索された帳票のデータに基づいて、文字認識部4によって認識できなかったデータが置換される(S9)。置換されたデータについては、置換フラグがセットされる。
【0064】
また、文字推定部9では、帳票データ検索部7によって複数の帳票が検索された場合(S7:2件以上)には、一致度演算部8によってなされた一致度αが最大値を示す帳票の内容が正とされる(S18)。この場合、文字置換部10によって、帳票データ検索部7によって検索された帳票のデータに基づいて、文字認識部4によって認識されなかったデータが置換される(S9)。置換されたデータについては、置換フラグがセットされる。
【0065】
このようにしてデータが置換された置換後文字認識データは、文字置換部10から置換後文字認識データ蓄積DB11に出力され、そこで記憶されると共に、表示部12にもまた出力される(S10)。
【0066】
なお、帳票データ検索部7によって帳票が検索されなかった場合(S7:0件)、あるいは帳票データ検索部7によって検索された帳票があった場合であっても、一致度演算部8によって演算された一致度αの値が所定基準値に満たない場合(S8:No)には、データは置換されない。このように、データが置換されなかった場合でも、文字推定部9から出力された文字認識データは、文字置換部10から表示部12に出力される(S11)。
【0067】
このようにして表示部12に出力された文字認識データは、画像イメージデータ蓄積DB3に蓄積されたこの帳票の画像データとともに画面表示される(S12)。この場合、文字置換部10によって置換されたデータについては、置換フラグが「1」であることを認識することによって、異なる表示色、または異なる文字サイズ、または異なる修飾方法を用いて表示される。これによって、置換されたデータであることが識別される。また、置換されたデータの確度を明らかにするために、一致度αの値により色を分けて表示することも可能である。
【0068】
このようにして、文字認識データと、その帳票に対応する画像データとが並列表示されることによって、オペレータによって両データの内容が対比され、文字認識部4によってデータが正しく認識されたか否か、あるいは文字置換部10によってデータが正しく置換されたか否かが確認される(S13)。
【0069】
両データの対比の結果、オペレータが、文字認識データの中に、誤って認識されたデータや、誤って置換されたデータがあるものと判断した場合、あるいは文字認識されていないデータが含まれている場合(S14:Yes)には、オペレータによって、変更入力部13から変更データの入力がなされ、文字認識データの内容が変更される(S15)。
【0070】
文字認識されていないデータが含まれていない場合(S14:No)、またはこのようにして変更入力部13に、オペレータからの変更データの入力、あるいは認識されなかったデータの入力がなされると、入力されたデータに基づいて、文字認識データの内容が更新され、確定される(S16)。
【0071】
このようにして全てのデータが認識された文字認識データは、変更入力部13から帳票データ蓄積DB14に出力され、過去に文字認識処理された帳票、およびこの帳票の各項目に対応するデータとして記憶される(S17)。この記憶された帳票、およびこの帳票の各項目に対応するデータは、ステップS5において行われる検索に供される。
【0072】
なお、本発明の実施の形態に説明した文字認識処理システム1は、記憶媒体に格納したプログラムをコンピュータに読み込ませることで実現させることができる。
【0073】
ここでいう記憶媒体としては、磁気ディスク、フロッピー(登録商標)ディスク、ハードディスク、光ディスク(CD−ROM、DVD等)、光磁気ディスク(MO等)、半導体メモリ等、プログラムを記憶でき、かつコンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であってもよい。
【0074】
また、記憶媒体からコンピュータにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワークソフト等のMW(ミドルウェア)等が本発明の実施の形態を実現するための各処理の一部を実行してもよい。
【0075】
さらに、本発明の実施の形態における記憶媒体は、コンピュータと独立した媒体に限らず、LANやインターネット等により伝送されたプログラムをダウンロードして記憶または一時記憶した記憶媒体も含まれる。
【0076】
また、記憶媒体は1つに限らず、複数の媒体から本実施の形態における処理が実行される場合も本発明における記憶媒体に含まれ、媒体構成は何らの構成であってもよい。
【0077】
なお、本発明の実施の形態におけるコンピュータは、記憶媒体に記憶されたプログラムに基づき、同実施の形態における各処理を実行するものであって、パソコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
【0078】
また、同実施の形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって同実施の形態の機能を実現することが可能な機器、装置を総称している。
【0079】
上述したように、本発明の実施の形態に係る文字認識処理システムにおいては、上記のような作用により、文字認識部4によってなされた文字認識処理の結果、認識されないデータがあった場合、認識されたデータに対応する項目の中から任意に検索キーを選択することができる。このように、検索キーを任意に選択することができることから、過去に処理された帳票の中からデータの一致率の高い帳票を柔軟に検索することができるようになり、過去に処理された帳票およびその各項目に対応するデータを有効に利用することが可能となる。
【0080】
そして、この選択した検索キーに基づいて、過去に処理された帳票の中から、データの一致率の高い帳票を検索することができる。検索された帳票は、データ一致率の高い帳票であるために、このデータを用いて置き換えられたデータは、正しいデータであるという確率が極めて高い。したがって、誤った置換えを防止し、より精度の高い置換えを行うことが可能となる。
【0081】
更にまた、文字認識、あるいは置換されたデータを、データが記入された状態の画像データと併せて表示することによって、正しく文字認識されたこと、あるいは正しく置換されたことを確認するとともに、必要な場合にはその内容を修正することもできる。
【0082】
以上のように、本発明の実施の形態に係る文字認識処理システムを用いることによって、帳票の画像データから認識されない文字があった場合であっても、過去に処理された帳票、およびその項目に対応するデータを利用することによって、認識されない文字を、より高い精度で推定し、推定したデータに置き換えることによって認識することが可能となる。これによって、オペレータの作業負荷を低減することが可能となる。
【0083】
以上、本発明の好適な実施の形態について、添付図面を参照しながら説明したが、本発明はかかる構成に限定されない。特許請求の範囲の発明された技術的思想の範疇において、当業者であれば、各種の変更例及び修正例に想到し得るものであり、それら変更例及び修正例についても本発明の技術的範囲に属するものと了解される。
【0084】
【発明の効果】
以上説明したように、本発明によれば、検索キーとする項目を任意に設定可能とし、文字認識処理において認識されなかったデータの推定を、過去に蓄積されたデータを有効に活用することによって、文字認識率を高め、オペレータの負担の低減を図ることが可能な文字認識処理システムおよびプログラムを実現することができる。
【図面の簡単な説明】
【図1】本発明の実施の形態に係る文字認識処理システムの全体構成の一例を示す構成図
【図2】文字認識処理された帳票の一例を示す図
【図3】帳票データ蓄積DBから検索された帳票およびそのデータの一例を示す図
【図4】置換されたデータに置換フラグがセットされた状態の一例を示す図
【図5】本発明の実施の形態に係る文字認識処理システムの動作を示すフローチャート
【図6】文字認識処理された帳票の一例を示す図
【図7】検索キーとして指定されたデータに認識不可能なデータを含む帳票の一例を示す図
【符号の説明】
1…文字認識処理システム
2…画像データ変換部
3…画像イメージデータ蓄積データベース
4…文字認識部
5…文字認識データ蓄積データベース
6…検索キー選択部
7…帳票データ検索部
8…一致度演算部
9…文字推定部
10…文字置換部
11…置換後文字認識データ蓄積データベース
12…表示部
13…変更入力部
14…帳票データ蓄積データベース
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a character recognition processing system and program. More specifically, the present invention performs character recognition processing based on data entered in a form. For data that has not been character-recognized, the form has been subjected to character recognition processing in the past. The present invention also relates to a character recognition processing system and program capable of increasing the character recognition rate by estimating the contents based on the data.
[0002]
[Prior art]
Usually, in a system for inputting data entered in a form, it is often performed to perform character recognition using OCR for streamlining operations and simplify data input.
[0003]
In this type of character recognition processing system, repeatedly generated data is stored in the database as processing results, and when similar data is generated next time, past processing results are extracted from the stored database and used. Therefore, there are many cases in which data input is labor-saving. In this case, the data entered in the form is processed as follows.
[0004]
1) The form data recognized daily is updated and updated in the database as the processing results.
[0005]
2) When character recognition of new form data is performed, character recognition of the read form data is performed based on the image image of the form data by OCR. As a result of this character recognition processing, when there is data that has not been character-recognized, the following processing 3) and subsequent steps are performed.
[0006]
3) If there is data that cannot be recognized by the character entered in the form even if the character recognition processing is performed by OCR, the form data that matches the data of the key item that is a predetermined data item is obtained. Search from the database.
[0007]
For example, as shown in FIG. 6, in a transfer request form including items of bank name, branch name, subject, account number, payee name, transfer amount, and client name, character recognition of data entered in any item is performed. If there is data that cannot be found, the bank name, branch name, subject, and account number items are determined in advance as search keys, and a form that matches the data of these search keys is searched from the database.
[0008]
4) Then, as a result of searching from the database, if there is a form that matches the data of the item defined as the search key, the data on the correction screen is replaced with the data of the searched form.
[0009]
In the example shown in FIG. 6, as a result of character recognition processing, the recipient name was not correctly recognized as “Yama ?? Taro”, but in 3) the bank name, branch name, subject, and account number were set as search keys, As a result of searching the database for a form that matches the search key, “Yamada Taro” is the recipient name that matches this bank name “XX Ginkgo”, branch name “Hongten”, subject “ordinary”, and account number “12345”. It was searched. Therefore, the recipient name “Yama ?? Taro” whose character was not recognized is replaced with the data “Yamada Taro”.
[0010]
In this manner, by using a form and its data that have been subjected to character recognition processing in the past, support for character recognition of data that has not been character-recognized is provided.
[0011]
[Problems to be solved by the invention]
However, such a conventional character recognition processing system has the following problems.
[0012]
That is, in the character recognition processing system as described above, the item to be used as the search key is determined in advance, and once the search key is determined, the search key is changed for each form for character recognition processing. I can't do that.
[0013]
Therefore, the data for the item determined as the search key cannot be used when the characters are not correctly recognized. For example, as shown in FIG. 6, when performing character recognition processing of form data, each item of bank name, branch name, item, and account number is specified as a search key, and the data of all the specified items are correctly written. When it is recognized, it functions correctly as a search key, but cannot be used when there is a character that is not recognized even in one of the items specified as the search key.
[0014]
FIG. 7 is an example showing such a case, and shows a case where the data of the branch name among the items specified as the search key is not recognized.
[0015]
In this way, if there is unrecognized data in the item specified as the search key, it is not possible to use the previously processed form data stored in the database, so fill in the form. There is a problem that the operator must read the input data and manually input it directly, increasing the burden on the operator.
[0016]
The present invention has been made in view of such circumstances, and allows an item to be set as a search key to be arbitrarily set, and the estimation of data that has not been recognized in the character recognition processing can be effectively performed on data accumulated in the past. It is an object of the present invention to provide a character recognition processing system and program that can be utilized to increase the character recognition rate and reduce the burden on the operator.
[0017]
[Means for Solving the Problems]
In order to achieve the above object, the present invention takes the following measures.
[0018]
That is, according to the first aspect of the present invention, character recognition means for performing character recognition processing on each data of a form composed of a plurality of items based on the image image of the form, and a form that has been recognized in the past as each item of the form. If there is data that has not been character-recognized among the form data storage means stored together with the corresponding data and the data that has been character-recognized by the character recognition means, the character recognition means A selection means for selecting, based on the item, an item to be a search key for searching the form stored in the form data storage means and the data of each item from items corresponding to the character-recognized data; A form including data corresponding to the item of the search key selected by the selection means and data corresponding to each item are searched from the form data storage means. Searching means, estimation means for estimating data not recognized by the character based on the form searched by the searching means and data corresponding to each item, and data not recognized by the data estimated by the estimating means With replacement means to replace When there are a plurality of forms searched by the search means, the degree of coincidence between the data corresponding to each item of the searched form and the data corresponding to each item of the form subjected to character recognition processing by the character recognition means is calculated. The calculation means for calculating for each searched form is added, and the estimation means is a data that has not been recognized based on the data corresponding to each item of the form having the maximum degree of coincidence calculated by the calculation means. Estimate .
[0019]
Therefore, in the character recognition processing system according to the first aspect of the present invention, by taking the above-mentioned means, it is possible to designate any item as a search key from a form consisting of a plurality of items. By retrieving similar data from past data based on the search key, it is possible to estimate data that has not been recognized with high accuracy.
[0021]
Therefore, the claims 1 In the character recognition processing system of the invention, if there are a plurality of past forms searched based on the search key by taking the above-mentioned means, they are not recognized based on the form with higher matching degree. Since the estimated data can be estimated, the estimation accuracy can be further increased.
[0022]
Claim 2 In the invention of claim 1 In the character recognition processing system according to the invention, the data replaced by the replacing means is displayed using different display colors, different character sizes, or different modification methods, whereby each data of the form is displayed as an image of the form. A display means for displaying the change data and a change input means for receiving a change input of the replaced data displayed by the display means are added.
[0023]
Therefore, the claims 2 In the character recognition processing system according to the invention, by taking the above-described means, it is possible to easily recognize that the data has been replaced with respect to the replaced data. In addition, when the data needs to be changed by comparing with the input image, the data to be changed can be input.
[0024]
Claim 3 In the present invention, character recognition processing is performed based on data entered in a form corresponding to each item, and for data that has not been character-recognized, a form that has been character-recognized in the past and data corresponding to each item A computer-readable program for increasing the character recognition rate by estimating the content of the data based on the character recognition means for performing character recognition processing on each data of the form consisting of a plurality of items based on the image image of the form, There was data that was not character-recognized in the form data storage means that stored the form that was subjected to character recognition processing together with the data corresponding to each item of the form, and each data that was character-recognized by the character recognition means In the case, the book stored in the form data storage means is based on the data item recognized by the character recognition means. And a selection means for selecting an item to be a search key for searching the data of each item from items corresponding to the character-recognized data, and data corresponding to the item of the search key selected by the selection means. A retrieval unit that retrieves data corresponding to each of the included forms and the respective items from the form data storage unit, an estimation that estimates the data that has not been recognized based on the forms retrieved by the retrieval unit and the data corresponding to each of the items Replacement means for replacing data that has not been recognized by the data estimated by the estimation means When there are a plurality of forms searched by the search means, the degree of coincidence between the data corresponding to each item of the searched form and the data corresponding to each item of the form subjected to character recognition processing by the character recognition means Is calculated for each searched form, and the estimation means is configured to calculate the data that has not been recognized based on the data corresponding to each item of the form having the maximum matching degree calculated by the calculating means. Means to estimate Is a program that causes a computer to realize
[0025]
Therefore, the claims 3 In the program of the invention, it is possible to specify an arbitrary item as a search key from a plurality of items by taking the above-described means, and past data based on the specified search key By retrieving similar data from the above, it is possible to estimate data that has not been recognized with high accuracy.
[0026]
DETAILED DESCRIPTION OF THE INVENTION
Embodiments of the present invention will be described below with reference to the drawings.
[0027]
An embodiment of the present invention will be described with reference to FIGS.
[0028]
FIG. 1 is a configuration diagram showing an example of the overall configuration of a character recognition processing system according to an embodiment of the present invention.
[0029]
A character recognition processing system 1 according to an embodiment of the present invention includes a computer such as a workstation, and includes an image data conversion unit 2, an image image data storage database (image image data storage DB) 3, a character recognition unit 4, and the like. , Character recognition data storage database (character recognition data storage DB) 5, search key selection unit 6, form data search unit 7, coincidence calculation unit 8, character estimation unit 9, character replacement unit 10, replacement A post-character recognition data storage database (post-replacement character recognition data storage DB) 11, a display unit 12, a change input unit 13, and a form data storage database (form data storage DB) 14 are provided.
[0030]
The image data conversion unit 2 uses, for example, a scanner, converts data handwritten in a form into image data, stores the converted image data in the image image data storage DB 3, and outputs the image data to the character recognition unit 4. .
[0031]
The image image data storage DB 3 stores the image data of the form output from the image data conversion unit 2. Further, based on a request from the display unit 12, the stored image data is output to the display unit 12.
[0032]
The character recognition unit 4 uses, for example, OCR, and performs character recognition processing based on the image data output from the image data conversion unit 2. Then, the character recognition data as a result of character recognition is stored in the character recognition data storage DB 5 and is output to the search key selection unit 6. FIG. 2 shows an example of a form subjected to character recognition processing by the character recognition unit 4. This form consists of the following items: bank name, branch name, item, account number, payee name, transfer amount, and client name. The bank name, item, account number, transfer amount, and client name are correct characters. The case where the branch name and the recipient name are not recognized is recognized.
[0033]
The character recognition data storage DB 5 stores character recognition data output from the character recognition unit 4 as shown in FIG. Further, based on a request from the search key selection unit 6, the stored character recognition data is output to the search key selection unit 6.
[0034]
Based on the character recognition data output from the character recognition unit 4 or the character recognition data acquired as necessary from the character recognition data storage DB 5, the search key selection unit 6 performs character recognition on any of the items. If there is data that has not been processed, an item serving as a search key for searching for the form stored in the form data storage DB 14 and the data corresponding to each item based on the item whose data has been character-recognized. Then, the item corresponding to the character-recognized data is selected, and the selection result is output to the form data search unit 7.
[0035]
For example, in the case of the character recognition data as shown in FIG. 2, the branch name and the recipient name are items that are not recognized. This item is selected as a search key from among the items that have been character-recognized: bank name, subject, account number, transfer amount, and transfer person name. The number of items to be selected as the search key is arbitrary.
[0036]
On the other hand, the search key selection unit 6 recognizes all the data of each item based on the character recognition data output from the character recognition unit 4 or the character recognition data acquired as necessary from the character recognition data storage DB 5. If it is, the character recognition data is output to the display unit 12.
[0037]
The form data search unit 7 searches the form data storage DB 14 for a form including the search key item selected by the search key selection unit 6 and data corresponding to each item, and sends the search result to the matching degree calculation unit 8. Output. FIG. 3 shows an example of a form searched from the form data storage DB 14 and data corresponding to the item when a bank name, a subject, and an account number are selected as a search key in the search key selection unit 6. . As a result of searching with the search key “XX Ginkgo” as the bank name, “Normal” as the subject, “12345” as the account number, the data of “Shinjuk” as the branch name and “Sato Hanako” as the recipient name 1) and the branch name As “Honten” and “Yamada Taro” as the recipient name 2).
[0038]
The degree of coincidence calculation unit 8 calculates the degree of coincidence of data with the form subjected to character recognition processing by the character recognition unit 4 for the form data searched by the form data search unit 7. When there are a plurality of forms searched by the form data search unit 7, the degree of coincidence with each data of the form subjected to the character recognition processing by the character recognition unit 4 is calculated for each searched form. Then, the degree of coincidence as a result of the calculation is output to the character estimation unit 9.
[0039]
The degree of coincidence α is calculated based on, for example, the following expression (1).
That is,
α = Σf n (R n , J n ) / Len (r n , J n ) × φ n ... (1)
However,
Σf n (X, y): A function for comparing the character string x and the character string y to obtain the number of matched characters.
len (x, y): A function for obtaining the value of the larger number of characters for the character string x and the character string y.
r n : N-th item of recognition result.
j n : The nth item of the result search result.
φ n : Weight coefficient of the nth item.
[0040]
Φ n The (weight coefficient of the nth item) is set to perform weighting in consideration of the recognition accuracy depending on the character type of each item. For example, a numerical item with high recognition accuracy is high and katakana with low recognition accuracy. Set Kanji items low.
[0041]
The character estimation unit 9 is a case where only one form is searched by the form data search unit 7, and the coincidence degree α made by the coincidence degree calculation unit 8 for the form is equal to or greater than a predetermined reference value. Is positive for the contents of the retrieved form. In this case, the character replacement unit 10 replaces the data not recognized by the character recognition unit 4 based on the form data searched by the form data search unit 7 and replaces the replaced data. Set the replacement flag so that can be identified. The replacement flag will be described later.
[0042]
Further, when a plurality of forms are searched by the form data search unit 7, the character estimation unit 9 sets the content of the form having the maximum coincidence α made by the coincidence calculation unit 8 as positive. In this case, the character replacement unit 10 replaces the data not recognized by the character recognition unit 4 based on the form data searched by the form data search unit 7 and replaces the replaced data. Set the replacement flag so that can be identified.
[0043]
FIG. 4 is a diagram showing a state in which data is replaced by the character replacement unit 10 and a replacement flag is set for the replaced data. When the degree of coincidence α with the form shown in FIG. 2 is calculated for each of data 1) and data 2) shown in FIG. 3, data 2) has a larger degree of coincidence α. Therefore, in the form shown in FIG. 2, the branch name is “honten” entered in data 2) is positive, and the recipient is also “Yamada Taro” entered in data 2). Therefore, the branch name “Hon ??” in the form of FIG. 2 is replaced with “Honten”, and the recipient name “Yama ?? Taro” is replaced with “Yamada Taro”. Further, for the replaced data, the replacement flag data attached with parentheses together with the data is “1”. The data of the bank name, subject, and account number in the form shown in FIG. 2 is not replaced, so the replacement flag data is “0”. Note that the transfer amount and the client name in the form data shown in FIG. 2 are not compared with the form data shown in FIG.
[0044]
As shown in FIG. 4, the character replacement unit 10 stores the replaced character recognition data after the data replacement in the post-replacement character recognition data storage DB 11 and outputs it to the display unit 12. Note that even when the form data is not searched by the form data search unit 7 or when there is the form data searched by the form data search unit 7, the matching degree α calculated by the matching degree calculation unit 8 is used. If the value of is less than the predetermined reference value, the data is not replaced. The character replacement unit 10 outputs the character recognition data output from the character estimation unit 9 to the display unit 12 even when the data replacement is not performed as described above.
[0045]
The post-replacement character recognition data storage DB 11 stores the output post-replacement character recognition data when the post-replacement character recognition data as shown in FIG. 4 is output from the character replacement unit 10. Further, based on a request from the display unit 12, the stored post-replacement character recognition data is output to the display unit 12.
[0046]
The display unit 12 displays the post-replacement character recognition data output from the character replacement unit 10 or the post-replacement character recognition data storage DB 11 together with the image data of this form stored in the image image data storage DB 3. In this case, the data replaced by the character replacement unit 10 is displayed using a different display color, a different character size, or a different modification method by recognizing that the replacement flag is “1”. This makes it possible to identify the replaced data. In order to clarify the accuracy of the replaced data, the colors may be displayed separately according to the value of the coincidence α.
[0047]
The display unit 12 includes the unrecognized data when the character replacement unit 10 outputs character recognition data that has not been recognized but has not been replaced. The character recognition data thus displayed is displayed on the screen together with the image data of this form stored in the image image data storage DB 3.
[0048]
Further, when the character recognition data in which all the data is recognized is output from the search key selection unit 6, the display unit 12 displays this character recognition data as an image of this form stored in the image image data storage DB3. Display on screen with data.
[0049]
In this way, the character recognition data and the image data corresponding to the form are displayed on the screen in parallel on the display unit 12 so that the operator can compare the contents of both data.
[0050]
As a result of the comparison between the two data, if the operator determines that the character recognition data includes erroneously recognized data or erroneously replaced data, the change input unit 13 inputs the change data. Thus, it is possible to change the contents of arbitrary character recognition data.
[0051]
When the character recognition data includes data that has not been character-recognized, the operator reads the data from the image data of the form corresponding to the character recognition data, and reads the data. Manual input from the change input unit 13 is possible.
[0052]
When the operator inputs change data or unrecognized data, the change input unit 13 updates the content of the character recognition data based on the input data.
[0053]
When all data input from the change input unit 13 is completed, the operator presses a confirmation key (not shown) provided in the change input unit 13 to confirm and confirm the character recognition data. The character recognition data is output to the form data storage DB 14.
[0054]
The form data storage DB 14 stores the character recognition data output from the change input unit 13 as a form for which character recognition processing has been performed in the past and data for each item of the form. The stored form and the data for each item of the form are used for the search performed by the form data search unit 7.
[0055]
The character recognition processing system 1 according to the embodiment of the present invention configured as described above is realized by a computer that reads a program stored in a storage medium such as a magnetic disk and whose operation is controlled by this program.
[0056]
Next, the operation of the character recognition processing system according to the embodiment of the present invention configured as described above will be described with reference to the flowchart shown in FIG.
[0057]
When processing data entered in a form using the character recognition processing system 1 according to the embodiment of the present invention, first, a form in which data is handwritten in each item is processed by the image data conversion unit 2. It is converted into image data (S1). The converted image data is output from the image data conversion unit 2 to the image image data storage DB 3, stored therein, and output to the character recognition unit 4.
[0058]
The image data output from the image data conversion unit 2 to the character recognition unit 4 is subjected to character recognition processing by the character recognition unit 4 (S2). Character recognition data as a result of character recognition is output from the character recognition unit 4 to the character recognition data storage DB 5, stored therein, and output to the search key selection unit 6.
[0059]
Character recognition data is output from the character recognition unit 4 to the search key selection unit 6. Moreover, it is also possible to acquire the character recognition data memorize | stored in character recognition data storage DB5 as needed. In the search key selection unit 6, no character was recognized in each data based on the character recognition data output from the character recognition unit 4 or the character recognition data acquired as necessary from the character recognition data storage DB 5. If there is data (S3: Yes), it becomes a search key for searching the form stored in the form data storage DB 14 and the data corresponding to each item based on the data-recognized data item. An item is selected from items corresponding to character-recognized data (S4). The search key selected in this way is output to the form data search unit 7.
[0060]
On the other hand, when all the data of each item is character-recognized based on the character-recognition data output from the character-recognition part 4, or the character-recognition data acquired as needed from the character-recognition data storage DB5 (S3: No) The character recognition data is output from the search key selection unit 6 to the display unit 12 (S11).
[0061]
Then, the form data search unit 7 searches the form data storage DB 14 for the form including the item of the search key and the data corresponding to each item, and the search result is output to the coincidence degree calculation unit 8 (S5).
[0062]
In the coincidence degree calculation unit 8, the degree of coincidence α of the data corresponding to each item of the form searched by the form data search unit 7 with the data corresponding to each item of the form subjected to character recognition processing by the character recognition unit 4. An operation is performed (S6). When there are a plurality of forms searched by the form data search unit 7, the matching degree α with the data corresponding to each item of the form subjected to character recognition processing by the character recognition unit 4 is determined for each searched form. Is calculated. Then, the degree of coincidence α, which is the calculated result, is output to the character estimation unit 9.
[0063]
In the character estimation unit 9, when only one form is searched by the form data search unit 7 (S 7: 1 case), the coincidence α made by the coincidence calculation unit 8 for the form is determined based on a predetermined criterion. If the value is equal to or greater than the value (S8: Yes), the content of the retrieved form is determined to be positive. In this case, the character replacement unit 10 replaces the data that could not be recognized by the character recognition unit 4 based on the form data searched by the form data search unit 7 (S9). A replacement flag is set for the replaced data.
[0064]
Further, in the character estimation unit 9, when a plurality of forms are searched by the form data search unit 7 (S7: 2 or more), the form of the form in which the degree of coincidence α made by the coincidence degree calculating unit 8 shows the maximum value. The content is positive (S18). In this case, the character replacement unit 10 replaces the data not recognized by the character recognition unit 4 based on the form data searched by the form data search unit 7 (S9). A replacement flag is set for the replaced data.
[0065]
The post-replacement character recognition data in which the data is replaced in this way is output from the character replacement unit 10 to the post-replacement character recognition data storage DB 11 and stored therein, and is also output to the display unit 12 (S10). .
[0066]
Even if the form is not searched by the form data search unit 7 (S7: 0) or there is a form searched by the form data search unit 7, it is calculated by the matching degree calculation unit 8. If the coincidence α is less than the predetermined reference value (S8: No), the data is not replaced. As described above, even when the data is not replaced, the character recognition data output from the character estimation unit 9 is output from the character replacement unit 10 to the display unit 12 (S11).
[0067]
The character recognition data output to the display unit 12 in this way is displayed on the screen together with the image data of this form stored in the image image data storage DB 3 (S12). In this case, the data replaced by the character replacement unit 10 is displayed using a different display color, a different character size, or a different modification method by recognizing that the replacement flag is “1”. Thereby, it is identified that the data is replaced. Further, in order to clarify the accuracy of the replaced data, it is also possible to display the colors separately according to the value of the matching degree α.
[0068]
In this way, the character recognition data and the image data corresponding to the form are displayed in parallel, so that the contents of both data are compared by the operator and whether the data is correctly recognized by the character recognition unit 4 or not. Alternatively, it is confirmed whether or not the data has been correctly replaced by the character replacement unit 10 (S13).
[0069]
As a result of the comparison between the two data, if the operator determines that the character recognition data includes erroneously recognized data, erroneously replaced data, or data that has not been character-recognized. If it is present (S14: Yes), the operator inputs change data from the change input unit 13 and the contents of the character recognition data are changed (S15).
[0070]
When data that is not character-recognized is not included (S14: No), or when change data is input from the operator or data that has not been recognized to the change input unit 13 in this way, Based on the input data, the contents of the character recognition data are updated and confirmed (S16).
[0071]
Character recognition data for which all data has been recognized in this way is output from the change input unit 13 to the form data storage DB 14 and stored as a form that has been subjected to character recognition processing in the past and data corresponding to each item of the form. (S17). The stored form and the data corresponding to each item of the form are used for the search performed in step S5.
[0072]
The character recognition processing system 1 described in the embodiment of the present invention can be realized by causing a computer to read a program stored in a storage medium.
[0073]
Examples of the storage medium include a magnetic disk, a floppy (registered trademark) disk, a hard disk, an optical disk (CD-ROM, DVD, etc.), a magneto-optical disk (MO, etc.), a semiconductor memory, etc. As long as it is a readable storage medium, the storage format may be any form.
[0074]
Further, an OS (operating system) operating on the computer based on an instruction of a program installed in the computer from the storage medium, MW (middleware) such as database management software, network software, or the like is an embodiment of the present invention. You may perform a part of each process for implement | achieving.
[0075]
Furthermore, the storage medium in the embodiment of the present invention is not limited to a medium independent of a computer, but also includes a storage medium in which a program transmitted via a LAN, the Internet, or the like is downloaded and stored or temporarily stored.
[0076]
Further, the number of storage media is not limited to one, and the case where the processing in the present embodiment is executed from a plurality of media is also included in the storage media in the present invention, and the media configuration may be any configuration.
[0077]
The computer according to the embodiment of the present invention executes each process according to the embodiment based on a program stored in a storage medium, and includes a single device such as a personal computer and a plurality of devices. Any configuration such as a network-connected system may be used.
[0078]
The computer in the embodiment is not limited to a personal computer, but includes an arithmetic processing device, a microcomputer, and the like included in an information processing device, and a device or device that can realize the functions of the embodiment by a program. Collectively.
[0079]
As described above, in the character recognition processing system according to the embodiment of the present invention, when there is unrecognized data as a result of the character recognition processing performed by the character recognition unit 4 due to the above-described operation, it is recognized. The search key can be arbitrarily selected from the items corresponding to the data. In this way, since the search key can be arbitrarily selected, it is possible to flexibly search a form with a high data matching rate from the previously processed forms, and the previously processed forms And data corresponding to each item can be used effectively.
[0080]
Based on the selected search key, a form having a high data matching rate can be searched from previously processed forms. Since the retrieved form is a form having a high data matching rate, the probability that the data replaced using this data is correct data is extremely high. Therefore, it is possible to prevent erroneous replacement and perform replacement with higher accuracy.
[0081]
Furthermore, by displaying the character recognized or replaced data together with the image data in which the data has been entered, it is confirmed that the character has been correctly recognized or correctly replaced and is necessary. In some cases, the contents can be modified.
[0082]
As described above, by using the character recognition processing system according to the embodiment of the present invention, even if there is a character that is not recognized from the image data of the form, the form processed in the past and its items By using corresponding data, it becomes possible to recognize unrecognized characters by estimating them with higher accuracy and replacing them with the estimated data. As a result, the operator's workload can be reduced.
[0083]
As mentioned above, although preferred embodiment of this invention was described referring an accompanying drawing, this invention is not limited to this structure. Within the scope of the invented technical idea of the scope of claims, a person skilled in the art can conceive of various changes and modifications, and the technical scope of the present invention also relates to these changes and modifications. It is understood that it belongs to.
[0084]
【The invention's effect】
As described above, according to the present invention, it is possible to arbitrarily set an item as a search key, and to effectively estimate data that has not been recognized in the character recognition process by using data accumulated in the past. Therefore, it is possible to realize a character recognition processing system and program capable of increasing the character recognition rate and reducing the burden on the operator.
[Brief description of the drawings]
FIG. 1 is a configuration diagram showing an example of the overall configuration of a character recognition processing system according to an embodiment of the present invention.
FIG. 2 is a diagram showing an example of a form subjected to character recognition processing
FIG. 3 is a diagram showing an example of a form retrieved from the form data storage DB and its data.
FIG. 4 is a diagram illustrating an example of a state in which a replacement flag is set in replaced data.
FIG. 5 is a flowchart showing the operation of the character recognition processing system according to the embodiment of the present invention.
FIG. 6 is a diagram illustrating an example of a form that has been subjected to character recognition processing;
FIG. 7 is a diagram showing an example of a form including unrecognizable data in data designated as a search key
[Explanation of symbols]
1 ... Character recognition processing system
2 ... Image data converter
3 ... Image image data storage database
4 ... Character recognition part
5. Character recognition data storage database
6 ... Search key selection part
7 ... Form data search part
8: Matching degree calculation unit
9 ... Character estimation part
10 ... Character replacement part
11 ... Character recognition data storage database after replacement
12 ... Display section
13 ... Change input section
14 ... Form data storage database

Claims (4)

複数の項目からなる帳票の各データを前記帳票の画像イメージに基づいて文字認識処理する文字認識手段と、
過去に文字認識された帳票を、この帳票の各項目に対応するデータとともに記憶した帳票データ記憶手段と、
前記文字認識手段によって文字認識処理された各データの中に、文字認識されなかったデータがあった場合には、前記文字認識手段によって文字認識されたデータの項目に基づいて、前記帳票データ記憶手段に記憶された帳票およびその各項目のデータを検索するための検索キーとなる前記項目を、前記文字認識されたデータに対応する項目の中から選択する選択手段と、
前記選択手段によって選択された検索キーの項目に対応するデータを含む帳票およびその各項目に対応するデータを前記帳票データ記憶手段から検索する検索手段と、
前記検索手段によって検索された帳票およびその各項目に対応するデータに基づいて、前記文字認識されなかったデータを推定する推定手段と、
前記推定手段によって推定されたデータに前記文字認識されなかったデータを置き換える置換手段と
前記検索手段によって検索された帳票が複数ある場合には、検索された帳票の各項目に対応するデータと、前記文字認識手段によって文字認識処理された帳票の各項目に対応するデータとの一致度を、検索された各帳票毎に演算する演算手段とを備え、
前記推定手段は、前記演算手段によって演算された一致度が最大値の帳票の各項目に対応するデータに基づいて、前記文字認識されなかったデータを推定するようにしたことを特徴とする文字認識処理システム。
Character recognition means for performing character recognition processing on each data of a form consisting of a plurality of items based on the image image of the form;
A form data storage means for storing a form whose character has been recognized in the past together with data corresponding to each item of the form;
If there is data that has not been character-recognized among the data that has been subjected to character recognition processing by the character recognition means, the form data storage means is based on the item of data that has been character-recognized by the character recognition means. A selection means for selecting the item to be a search key for searching for the form and the data of each item stored in the item from among items corresponding to the character-recognized data;
A search unit that searches the form data storage unit for a form including data corresponding to the item of the search key selected by the selection unit, and data corresponding to each item;
Estimation means for estimating the data that has not been recognized based on the form searched by the search means and the data corresponding to each item;
Replacing means for replacing the data not recognized by the character with the data estimated by the estimating means ;
When there are a plurality of forms searched by the search means, the degree of coincidence between the data corresponding to each item of the searched form and the data corresponding to each item of the form subjected to character recognition processing by the character recognition means And calculating means for calculating for each searched form,
The character recognition is characterized in that the estimation means estimates the data that has not been recognized based on data corresponding to each item of the form having the maximum degree of coincidence calculated by the calculation means. Processing system.
請求項に記載の文字認識処理システムにおいて、
前記置換手段によって置き換えられたデータを、異なる表示色、または異なる文字サイズ、または異なる修飾方法を用いて表示することによって、前記帳票の各データを、この帳票の画像イメージとともに表示する表示手段と、
前記表示手段によって表示された前記置き換えられたデータの変更入力を受け付ける変更入力手段とを付加したことを特徴とする文字認識処理システム。
The character recognition processing system according to claim 1 ,
Display means for displaying each data of the form together with an image image of the form by displaying the data replaced by the replacing means by using different display colors, different character sizes, or different modification methods;
A character recognition processing system, comprising: a change input unit that receives a change input of the replaced data displayed by the display unit.
各項目に対応して帳票に記入されたデータに基づいて文字認識処理を行うとともに、文字認識されなかったデータについては、過去に文字認識処理された帳票およびその各項目に対応するデータに基づいてその内容を推定することによって文字認識率を高めるコンピュータ読み取り可能なプログラムであって、
複数の項目からなる帳票の各データを前記帳票の画像イメージに基づいて文字認識処理する文字認識手段、
過去に文字認識された帳票を、この帳票の各項目に対応するデータとともに記憶した帳票データ記憶手段、
前記文字認識手段によって文字認識処理された各データの中に、文字認識されなかったデータがあった場合には、前記文字認識手段によって文字認識されたデータの項目に基づいて、前記帳票データ記憶手段に記憶された帳票およびその各項目のデータを検索するための検索キーとなる前記項目を、前記文字認識されたデータに対応する項目の中から選択する選択手段、
前記選択手段によって選択された検索キーの項目に対応するデータを含む帳票およびその各項目に対応するデータを前記帳票データ記憶手段から検索する検索手段、
前記検索手段によって検索された帳票およびその各項目に対応するデータに基づいて、前記文字認識されなかったデータを推定する推定手段、
前記推定手段によって推定されたデータに前記文字認識されなかったデータを置き換える置換手段
前記検索手段によって検索された帳票が複数ある場合には、検索された帳票の各項目に対応するデータと、前記文字認識手段によって文字認識処理された帳票の各項目に対応するデータとの一致度を、検索された各帳票毎に演算する演算手段、
前記推定手段は、前記演算手段によって演算された一致度が最大値の帳票の各項目に対応するデータに基づいて、前記文字認識されなかったデータを推定するようにした手段
をコンピュータに実現させることを特徴とするプログラム。
Character recognition processing is performed based on the data entered in the form corresponding to each item, and the data that has not been character-recognized is based on the form that has undergone character recognition processing in the past and the data corresponding to each item. A computer readable program that increases the character recognition rate by estimating its contents,
Character recognition means for performing character recognition processing on each data of a form composed of a plurality of items based on the image image of the form,
A form data storage means for storing a form whose character has been recognized in the past together with data corresponding to each item of the form;
If there is data that has not been character-recognized among the data that has been subjected to character recognition processing by the character recognition means, the form data storage means is based on the item of data that has been character-recognized by the character recognition means. A selection means for selecting the item to be a search key for searching the form and data of each item stored in the item corresponding to the character-recognized data;
Search means for searching a form including data corresponding to the item of the search key selected by the selection means and data corresponding to each item from the form data storage means;
Estimating means for estimating the data that has not been recognized based on the form searched by the searching means and the data corresponding to each item;
Replacing means for replacing the data not recognized by the character with the data estimated by the estimating means ;
When there are a plurality of forms searched by the search means, the degree of coincidence between the data corresponding to each item of the searched form and the data corresponding to each item of the form subjected to character recognition processing by the character recognition means Computing means for computing each retrieved form,
The estimation means includes means for estimating the data that has not been character-recognized based on data corresponding to each item of the form having the maximum degree of coincidence calculated by the calculation means. A program characterized by being realized.
請求項3に記載のプログラムにおいて、In the program according to claim 3,
前記置換手段によって置き換えられたデータを、異なる表示色、または異なる文字サイズ、または異なる修飾方法を用いて表示することによって、前記帳票の各データを、この帳票の画像イメージとともに表示する表示手段と、Display means for displaying each data of the form together with an image image of the form by displaying the data replaced by the replacing means using different display colors, different character sizes, or different modification methods;
前記表示手段によって表示された前記置き換えられたデータの変更入力を受け付ける変更入力手段とをコンピュータに実現させることを特徴とするプログラム。A program for causing a computer to realize change input means for receiving change input of the replaced data displayed by the display means.
JP2001126116A 2001-04-24 2001-04-24 Character recognition processing system and program Expired - Fee Related JP4190159B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001126116A JP4190159B2 (en) 2001-04-24 2001-04-24 Character recognition processing system and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001126116A JP4190159B2 (en) 2001-04-24 2001-04-24 Character recognition processing system and program

Publications (2)

Publication Number Publication Date
JP2002324210A JP2002324210A (en) 2002-11-08
JP4190159B2 true JP4190159B2 (en) 2008-12-03

Family

ID=18975208

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001126116A Expired - Fee Related JP4190159B2 (en) 2001-04-24 2001-04-24 Character recognition processing system and program

Country Status (1)

Country Link
JP (1) JP4190159B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5380970B2 (en) * 2008-09-22 2014-01-08 富士ゼロックス株式会社 Document processing apparatus and program
JP5752073B2 (en) * 2012-03-16 2015-07-22 三菱電機株式会社 Data correction device
EP3139338A4 (en) * 2014-05-01 2017-12-20 Nagai, Chieko Server for information management support system, control method therefor, and control program therefor

Also Published As

Publication number Publication date
JP2002324210A (en) 2002-11-08

Similar Documents

Publication Publication Date Title
JP3689455B2 (en) Information processing method and apparatus
JP3958902B2 (en) Character string input device and method
JP2005018678A (en) Form data input processing device, form data input processing method, and program
JP4190159B2 (en) Character recognition processing system and program
CN112868001B (en) Document retrieval device, document retrieval program, and document retrieval method
JP2020095374A (en) Character recognition system, character recognition device, program and character recognition method
US20190012572A1 (en) Image similarity determination apparatus and image similarity determination method
JP3647940B2 (en) Data management device
JP5466376B2 (en) Information processing apparatus, first and last name identification method, information processing system, and program
JPH06301699A (en) Transaction processor
JP2932667B2 (en) Information retrieval method and information storage device
JP3972309B2 (en) Information conversion apparatus and program
JP7435990B2 (en) Transfer data input support device, transfer data input support method, and program
JP7491022B2 (en) Document identification device, document identification method, and computer program
JP7388677B2 (en) Input support device, input support method, and program
JP3419425B2 (en) Recognition character correction device
US20220165076A1 (en) Processing apparatus, processing method, and non-strategy medium
JP2009230450A (en) Document attribute information register and program
JPH09259132A (en) Device and method for information registration and retrieval
JP2002189743A (en) Information registration system
JP3446866B2 (en) Database creation apparatus and method
JPH09265472A (en) Picture database system
JP2023135489A (en) Information processing apparatus, and information processing method and program
JP3081622B2 (en) Telephone number stylization device and telephone number stylization method
JPH07319903A (en) Image data processing system

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060831

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060905

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080821

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080916

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110926

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120926

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120926

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130926

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees