JP4887867B2 - 文字読み取り装置 - Google Patents

文字読み取り装置 Download PDF

Info

Publication number
JP4887867B2
JP4887867B2 JP2006098141A JP2006098141A JP4887867B2 JP 4887867 B2 JP4887867 B2 JP 4887867B2 JP 2006098141 A JP2006098141 A JP 2006098141A JP 2006098141 A JP2006098141 A JP 2006098141A JP 4887867 B2 JP4887867 B2 JP 4887867B2
Authority
JP
Japan
Prior art keywords
image data
character
unit
slip
item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006098141A
Other languages
English (en)
Other versions
JP2007272615A (ja
Inventor
雅宏 相良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2006098141A priority Critical patent/JP4887867B2/ja
Publication of JP2007272615A publication Critical patent/JP2007272615A/ja
Application granted granted Critical
Publication of JP4887867B2 publication Critical patent/JP4887867B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)

Description

この発明は、手書き文字認識装置(以下、OCR装置と略称する)に関し、特に、OCR装置によって自動的に認識できなかった文字、すなわちリジェクト文字の補正入力に際しての、秘密保持を支援する技術に関する発明である。
従来より、金融機関や行政機関などにおいては、利用者の利便性や事務処理の信頼性を最大限確保する目的で、紙の伝票や帳票に必要事項を記載している事例が多い。
しかしながら、これらの機関においても、事務処理の効率化や情報処理の高度化は急務である。そのため、事務処理過程の途中で、これらの伝票や帳票に記載された情報を、OCR装置によってコード化して、コード化された情報をコンピュータによって処理する例が、多く見られる。
ところが、紙の伝票や帳票に記載された文字をOCR装置が認識できない不具合が、起こり得る。このような不具合は、記載された文字が、いわゆる手書き文字である場合に、顕著である。このように文字を認識できないケースが発生したときに、OCR装置は、この認識できない文字を、リジェクト文字として特別な処理の対象にする。
現在多く見られるケースでは、OCR装置におけるリジェクト文字の処理として、OCR装置におけるスキャナ部分で取り込んだ当該リジェクト文字のイメージを画面に表示し、そのイメージをオペレータが目視により判読して、当該リジェクト文字に対応する文字コードを、キーボードなどの入力部を通じてOCR装置に入力する、という手法が、採用されている。
特開平07―021304号公報
しかしながら、上記の手法では、オペレータには伝票などの情報を見せなければならない。これは、リジェクト文字をOCR装置に認識させるためには、オペレータの目視に基づく判読に依存せざるを得ないため、である。
また、情報の内容によっては、初めからOCR装置を通さず、オペレータの目視のみに依存して判読する場合も有る。
ところが、上述のような金融機関や行政機関などで扱う情報には、本来、秘密保持の目的からは上記オペレータを含めた第三者への開示が望ましくない情報も、多数存在する。
そのよう秘密保持を要する情報の例としては、たとえば個人情報が挙げられる。具体的には、氏名、住所、電話番号、また金融機関においては、口座番号、取引金額などが有る。
上記のような課題を解決するために、本発明においては、スキャナ装置によって複数の帳票上の記載内容を読み取って生成されたイメージデータを帳票ごとに記憶し、該イメージデータを前記帳票の項目ごとに分割されたイメージデータとして抽出するイメージデータ記憶部と、
擬似乱数を基にして無作為に前記複数の伝票から前記項目ごとに分割されたイメージデータを前記イメージデータ記憶部から呼び出し記憶して表示し、
該イメージデータに対応した文字または数字の入力を補正入力部より受け付け、
前記イメージデータと、前記文字入力部から受け付けた前記イメージデータに対応した文字または数字のデータとを関連付けて補正入力記憶部に記憶させる表示制御部を有することを特徴としたものである。
上記の各手段を設けることにより、オペレータは、情報を断片的にしか認識できないものの、リジェクト文字の判読と補正入力は可能である。
秘密保持を要する情報の中には、電話番号や口座番号のように、数字の順番が入れ替わったら無意味になる情報もある。
また、氏名のように、他の情報と組み合わせることによって、秘密保持の重要性が増大する性質の情報も有る。
これらの情報については、情報を構成する文字や数字の順番を入れ替えたり、他の情報との組み合わせを任意に入れ替えたりすることによって、情報の内容を認識困難にすることが可能である。
一方、補正入力のために、文字や数字を単独で認識する作業に限れば、一文字ずつでも、目視でなら判読可能なケースが多い。
自動認識不能文字をオペレータが目視で認識して入力する際、ならびに自動認識の正否をオペレータが確認する際に、オペレータに目視させるためのイメージ表示の順番を、文字単位もしくは伝票の項目単位でランダムに入れ替えて、目視対象の情報を、補正もしくは確認に必要な程度でだけ、オペレータが情報を認識できるようにする。
以下、本発明を実施する上で出願人が最良と考える形態の一例について説明する。図1に、本発明を適用したOCR装置の構成の概要を示す。
図1において、1はスキャナ部である。このスキャナ部1は、従来のOCR装置に用いられるスキャナと同様に、読み取り対象の伝票などに筆記された文字や数字などの情報を認識し、この情報をビットマップから成るイメージデータに変換する。
2は自動認識部である。自動認識部2は、スキャナ部1が変換によって生成したイメージデータを解析し、伝票などに筆記された文字や数字などに対応するコードを特定して、文字コード列を生成する。
また、イメージデータの中に、対応するコードを特定できない情報が存在した際には、この情報を読み取り不可能なリジェクト文字と認識する。
また自動認識部2は、伝票に記載された氏名、住所などの項目ごとに、伝票上の文字列のうち、どれが各項目に該当する情報であるかを認識する。
この認識に際しては、伝票に予め印刷された記載枠の位置を基にして、その記載枠内においてスキャナ部によって認識されたイメージデータを、記載枠に対応する情報と認識する手法などが、考えられる。
3は表示制御部である。表示制御部3は、後述する各IDをもとに、イメージデータと自動認識結果とを関連付けて表示部4に表示させる。
4は表示部である。表示部4は、表示制御部3からの制御に基づいて、イメージデータと自動認識結果とを関連付けて表示する。
5はイメージデータ記憶部である。
イメージデータ記憶部5は、認識結果記憶部6は、スキャナ部1で生成されたイメージデータを、1文字ごとに分解した上で、1文字ごとに付与される文字ID、氏名、住所、口座番号などの1項目の文字列ごとに付与される項目ID、伝票1枚ごとに付与される伝票IDと、1文字ごとに関連づけて記憶する。、
6は認識結果記憶部である。
認識結果記憶部6は、スキャナ部1で生成されたイメージデータから自動認識部2において文字認識した結果生成された文字列を、1文字ごとに付与される文字ID、氏名、住所、口座番号などの1項目の文字列ごとに付与される項目ID、伝票1枚ごとに付与される伝票IDと、1文字ごとに関連づけて記憶する。、
7は表示制御部である。表示制御部7は、上述の表示制御部3と同様に、後述する各IDをもとに、イメージデータと自動認識結果とを関連付けて表示部8に表示させる。
8は表示部である。表示部8は、上述の表示制御部4と同様に、表示制御部7からの制御に基づいて、イメージデータと自動認識結果とを関連付けて表示する。
9は補正入力記憶部である。補正入力記憶部9は、次に述べる補正入力部10においてオペレータによって入力された内容を、後述のIDを関連づけて記憶するとともに、この記憶内容を認識結果記憶部6に転送する。
10は補正入力部である。補正入力部10は、オペレータによる補正入力を受け付けるとともに、受け付けた補正入力を、補正入力記憶部9に転送する。
以下、ここまでに構成を説明した本発明OCR装置の動作について、図2以降のフローチャートを用いて説明する。
まず、文字の自動認識について、図2のフローチャートを用いて説明する。
読み取りの対象となる伝票(図示せず)がスキャナ部1にセットされると、ステップ201においてスキャナ部1がこの伝票をスキャンして、伝票のイメージデータを生成する。このとき、伝票に予め印刷された記入枠などは、スキャナ部1によっては認識されない、いわゆるドロップアウト・カラーによって印刷されており、イメージデータには含まれない。このため、イメージデータに含まれるのは、顧客などが伝票に記入した氏名、住所、口座番号などの文字や数字の情報のイメージのみとなる。この段階では、生成されたイメージデータは、伝票1枚に対して、伝票の全体に対応する1件のイメージとなる。
生成されたイメージデータは、イメージデータ記憶部5に送られる。ここで、伝票1枚分で1件のイメージデータに対して、ステップ202において、イメージデータ記憶部5において伝票IDが付与される。
次にステップ203において、イメージデータ記憶部5において伝票イメージが解析され、予め指定された伝票上の所定位置に記載された情報を読み取って生成されたイメージデータが、項目単位で分割されて抽出される。この抽出に際しては、伝票上の各項目に対応した所定の記入枠の内側に相当する範囲に該当するイメージデータが、当該項目に対応するイメージデータして抽出される。
次にステップ204において、イメージデータ記憶部5において、分割された項目ごとのイメージデータに、項目IDが付与される。
次にステップ205において、イメージデータ記憶部5において、分割された項目ごとのイメージデータが、図1に示す自動認識部2に送られる。自動認識部2では、送られてきたイメージデータが、さらに文字単位に切り分けられる。この切り分け以降の処理は、既知の文字認識の処理の一部として行なわれるものである。
次にステップ206において、自動認識部2において、ステップ205で切り分けられた文字単位のイメージデータに、文字IDが付与される。この文字IDと切り分けられたイメージデータは、再びイメージデータ記憶部5に送られて、相互に関連づけられて記憶される。
次にステップ207において、自動認識部2において、ステップ205で切り分けられた文字単位のイメージデータに基づいて文字認識を行う。さらにステップ208において、自動認識部2において、1文字ずつ認識された文字を、それぞれの項目ごとにまとめて、各項目ごとの文字列を作成する。これにより、たとえば住所の部分において認識された文字全部が、ひとつの文字列に統合され、住所の情報として意味を持つようになる。
こうして作成された文字列は、図1の認識結果記憶部6に送られる、併せて、自動認識部2から認識結果記憶部6へ、認識の基となったイメージデータの文字IDと項目IDが認識結果記憶部6に送られ、ステップ209ならびに210において、これらのIDが認識結果の文字列に付与される。このとき、認識の基となったイメージデータと、当該イメージデータから認識された文字もしくは文字列には、文字ID,項目IDとも、各々同じIDが付与される。
このID付与の処理により、認識前のイメージデータと認識後の文字もしくは文字列とを、関連付けて参照することができる。すなわち、同じIDを持つイメージデータと文字もしくは文字列を抽出することで、文字認識前のデータと文字認識後のデータを比較することができる。
上記の自動認識が行なわれた部分の情報に関しては、自動認識が正しく行われたか否かを確認する確認補正作業が行われる。この確認補正作業の過程について、図3のフローチャートを用いて説明する。
まず、図1に示す表示制御部3において、ステップ301において伝票IDを、ステップ302において項目IDを指定し、確認補正のための表示対象となる項目をひとつ指定する。
次いで、ステップ303において表示制御部3で擬似乱数を発生し、かかる擬似乱数をもって文字IDを指定し、上記指定された項目のうち、擬似乱数によって指定された文字IDの1文字について、イメージデータと自動認識結果の文字の両方を、表示部の画面上に表示する。ここで、イメージデータと自動認識結果の文字とは、同じ文字IDを有するものであり、この両者は、イメージデータを自動認識部2で文字認識したものが、自動認識結果の文字、という関係にある。
このイメージデータと自動認識結果の文字とを、ステップ305ならびにステップ306において、表示制御部3が表示部4に送って、表示部4の画面上に表示させる。
この表示を確認補正作業を担当するオペレータが表示部4の画面上で目視し、自動認識が正しく行われたか否かを1文字ごとに確認する。この結果、誤認識が発見されれば、オペレータが自動認識結果を適宜修正することになるが、この修正処理に関しては当業者にとっては周知であるため、説明を省略する。この図3に示した一連の過程が、自動認識の対象となったすべての項目について実行される。そののち、修正済みの自動認識結果は、認識結果記憶部6に記憶される。
上記の確認補正作業以外に、自動認識の対象とされない項目に関しては、補正入力作業をオペレータが行い、イメージデータを目視してオペレータが内容を判断し、伝票の記載内容に相当する情報を、オペレータが入力する。以下、この補正入力作業について説明する。
図4に、補正入力作業におけるフローチャートを示す。
まずステップ401において、表示制御部7が、伝票IDを指定する。ここでは複数のIDを同時に指定するが、これは後述するように複数の伝票から抽出された情報を混在させることで、同一伝票上の複数の項目、たとえば氏名と口座番号との関連を、後述する画面表示から推測し難くするためである。
次にステップ402において、表示制御部7が、項目IDを指定する。
次いで、ステップ403において、表示制御部7が、擬似乱数を発生する。
次いで、ステップ404において、表示制御部7が、発生した擬似乱数を基に伝票IDを指定して、伝票IDを並べ替える。
次いでステップ405において、表示制御部7が、ステップ404で並べ替えられた伝票IDの順番に従って、まず1番目の伝票のイメージデータのうち、ステップ402において指定された項目IDに該当する項目のイメージデータを、イメージ記憶部5から呼び出して記憶する。
この作業を、すべての項目IDについて反復する。この過程が終了すると、表示制御部7には1枚分の伝票のイメージデータが記憶される。ただし、この状態では、複数の項目のイメージデータの間には、相互に何の連関も無い。たとえば、イメージデータのうち氏名の情報と住所の情報とは、擬似乱数に従って、別の伝票から偶々同時に読み出されただけのものであり、氏名と住所との間には、個人情報としては何の関連も保証されない。
次いでステップ406において、表示制御部7は表示部8の画面上に、これらのイメージデータを表示する。
このイメージデータの表示内容をみて、ステップ407において、補正入力作業を担当するオペレータは、イメージデータに対応した文字または数字を、補正入力部10から入力する。
入力が行われると、ステップ408において、表示制御部7では、表示部8の画面上に表示されたイメージデータに関して、伝票IDと項目IDとを読み出して、この伝票IDと項目IDとを、入力された文字又は数字のデータと関連づけて、補正入力記憶部9に記憶させる。
そののち、補正入力記憶部9に記憶された文字又は数字のデータは、伝票IDと項目IDとともに認識結果記憶部6に送られ、ここで、確認補正作業によって確認された自動認識結果と、補正入力作業によって目視で認識され、入力された補正入力結果とが、統合される。
本発明は、OCR装置に適用可能であり、特に情報の秘匿を要する個人情報などの読み取りを行うOCR装置に適する。
システム構成の概要を示す説明図である。 自動認識処理の過程を示すフローチャートである。 補正入力処理の過程を示すフローチャートである。 確認補正処理の過程を示すフローチャートである。
符号の説明
1 スキャナ部
2 自動認識部
3 表示制御部
4 補正入力部
5 補正部
6 認識結果記憶部
7 イメージデータ記憶部

Claims (1)

  1. スキャナ装置によって複数の帳票上の記載内容を読み取って生成されたイメージデータを帳票ごとに記憶し、該イメージデータを前記帳票の項目ごとに分割されたイメージデータとして抽出するイメージデータ記憶部と、
    擬似乱数を基にして無作為に前記複数の伝票から前記項目ごとに分割されたイメージデータを前記イメージデータ記憶部から呼び出し記憶して表示し、
    該イメージデータに対応した文字または数字の入力を補正入力部より受け付け、
    前記イメージデータと、前記文字入力部から受け付けた前記イメージデータに対応した文字または数字のデータとを関連付けて補正入力記憶部に記憶させる表示制御部を有することを特徴とする、文字読み取り装置。
JP2006098141A 2006-03-31 2006-03-31 文字読み取り装置 Active JP4887867B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006098141A JP4887867B2 (ja) 2006-03-31 2006-03-31 文字読み取り装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006098141A JP4887867B2 (ja) 2006-03-31 2006-03-31 文字読み取り装置

Publications (2)

Publication Number Publication Date
JP2007272615A JP2007272615A (ja) 2007-10-18
JP4887867B2 true JP4887867B2 (ja) 2012-02-29

Family

ID=38675349

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006098141A Active JP4887867B2 (ja) 2006-03-31 2006-03-31 文字読み取り装置

Country Status (1)

Country Link
JP (1) JP4887867B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105467874A (zh) * 2015-11-30 2016-04-06 小米科技有限责任公司 智能插座上电子设备类别的识别方法及装置
JP6856321B2 (ja) * 2016-03-29 2021-04-07 株式会社東芝 画像処理システム、画像処理装置、および画像処理プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004266428A (ja) * 2003-02-28 2004-09-24 Dynacomware Corp アジア文字イメージのシャッフル方法及びシャッフル処理システム
JP2004318760A (ja) * 2003-04-21 2004-11-11 Dynacomware Corp 文字認識方法、文字認識装置及び文字イメージ/テキスト変換サービス方法

Also Published As

Publication number Publication date
JP2007272615A (ja) 2007-10-18

Similar Documents

Publication Publication Date Title
US7003157B2 (en) Sheet handling system
US6782144B2 (en) Document scanner, system and method
US20030026507A1 (en) Sorting images for improved data entry productivity
CA2589947C (en) Machine character recognition verification
CN1394313A (zh) 电子文档中嵌入和提取文本的方法
EP2830024A1 (en) System for reading paper sheet serial number, and method for reading paper sheet serial number
EP1736913A1 (en) Information processing apparatus having learning function for character dictionary
JP2008145611A (ja) 情報処理装置、プログラム
CN111160860A (zh) 一种文件的打印及盖章方法
US7596270B2 (en) Method of shuffling text in an Asian document image
CN107317951B (zh) 图像处理系统、图像处理装置以及图像处理方法
CN113901434B (zh) 显示终端身份识别方法、系统和计算机可读存储介质
JP4887867B2 (ja) 文字読み取り装置
JP4809637B2 (ja) 文字認識システム及び文字認識方法
KR20060123988A (ko) 이미지 입력 시스템
JP2004152036A (ja) 文字認識機能付携帯電話機器及び認識文字の修正方法並びにプログラム
JP2012063993A (ja) 画像処理装置及びその制御方法ならびにプログラム
JP2005165978A (ja) 帳票ocrプログラム、方法及び装置
JP4864574B2 (ja) 帳票処理装置
IES940265A2 (en) Automated forms processing
JP3114446B2 (ja) 文字認識装置
JP2009301441A (ja) 帳票イメージファイリングシステム
JP5251652B2 (ja) 帳票イメージファイリングシステム
KR101877609B1 (ko) 특정 문자열의 표시 제어가 가능한 화상처리장치
JP2020052480A (ja) 情報処理装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110809

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111006

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111115

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111128

R150 Certificate of patent or registration of utility model

Ref document number: 4887867

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141222

Year of fee payment: 3