JP4078009B2 - 帳票における文字記録領域の検出装置、帳票における文字記録領域の検出方法、記憶媒体及び帳票フォーマット作成装置 - Google Patents

帳票における文字記録領域の検出装置、帳票における文字記録領域の検出方法、記憶媒体及び帳票フォーマット作成装置 Download PDF

Info

Publication number
JP4078009B2
JP4078009B2 JP2000050957A JP2000050957A JP4078009B2 JP 4078009 B2 JP4078009 B2 JP 4078009B2 JP 2000050957 A JP2000050957 A JP 2000050957A JP 2000050957 A JP2000050957 A JP 2000050957A JP 4078009 B2 JP4078009 B2 JP 4078009B2
Authority
JP
Japan
Prior art keywords
image
detecting
recording area
area
character recording
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000050957A
Other languages
English (en)
Other versions
JP2001243423A (ja
Inventor
和章 横田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2000050957A priority Critical patent/JP4078009B2/ja
Priority to US09/533,593 priority patent/US6614929B1/en
Publication of JP2001243423A publication Critical patent/JP2001243423A/ja
Application granted granted Critical
Publication of JP4078009B2 publication Critical patent/JP4078009B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、光学的文字読取装置(以下、OCRと呼ぶ。)において、読み取り対象とする既存帳票における文字記録領域の検出及び読み取り対象とする既存帳票におけるフォーマットの設定に関する。
【0002】
【従来の技術】
最近、OCRによって既存帳票に記録された文字の読み取りのニーズが高まってきている。
【0003】
OCR読取専用に設計されていない既存帳票を読み取りする場合には、その帳票のフォーマットとして、予めOCRにフォーマット・コントロール・データ(FCデータ)を登録する必要がある。このFCデータとしては、帳票上の文字記録領域(罫線で囲まれた領域)の位置情報(座標データ)とその領域に記録される文字の字種、フォント、手書き文字又は活字文字の区別等の属性を登録することにより行われている。ここで、記録とは手書きによる文字の記入及びプリンタ等による印字の両方を含む。
【0004】
それぞれに異なる文字が記録された複数の記録済み帳票のイメージを用いて、これら複数のイメージを論理積演算をすることにより未記入の帳票イメージを得る技術が、公開公報(特開平10−40312号)に開示されている。
【0005】
しかし、この公開公報に開示された技術では、帳票上に設定された文字記録領域の検出はできなかった。又、検出した文字記録領域に対して、その文字記録領域に記録されるべき文字の属性の1つである字種を検出することもできなかった。
【0006】
【発明が解決しようとする課題】
本発明はこのような問題を解決するためになされたもので、既存帳票において文字記録領域を検出する帳票における文字記録領域の検出装置、帳票における文字記録領域の検出方法、記録媒体及び帳票フォーマット作成装置を提供することを目的とする。
【0007】
【課題を解決するための手段】
本発明は、予め罫線と文字を記録する文字記録領域とが設けられた帳票に対してそれぞれ異なる文字が記録された複数の記録済み帳票のイメージを入力するイメージ入力手段と、このイメージ入力手段により入力された前記複数の帳票のイメージの位置合わせを行う手段と、位置合わせ後の各帳票のイメージの画素毎に黒ビットの数を計数し、計数した黒ビットの数を所定の閾値と比較して各画素を2値化して、入力した複数の記録済み帳票のイメージ共通する共通イメージを作成する手段、前記2値化において黒ビットの数が前記閾値よりも少ない画素に着目し、各入力イメージにおいて着目している画素の位置における計数した黒ビットの数に応じて、各画素をグレースケールで表示して、入力した複数のイメージのうち、互いに相違するイメージを演算して差異イメージを作成する手段と、記共通イメージと前記差異イメージとに基づいて前記文字記録領域を検出する文字記録領域検出手段とを具備した帳票における文字記録領域の検出装置である。
【0008】
このような構成によれば、既存帳票における文字記録領域を検出できる。
【0009】
また、本発明は、予め罫線と文字を記録する文字記録領域とが設けられた帳票に対してそれぞれ異なる文字が記録された複数の記録済み帳票のイメージを入力するイメージ入力手段と、このイメージ入力手段により入力された前記複数のイメージに基づいて、前記複数のイメージにおいてイメージが共通する共通イメージと前記複数のイメージにおいて互いに異なるイメージを論理和演算した差異イメージとを作成する画像処理手段と、この画像処理手段により作成された前記共通イメージと前記差異イメージとに基づいて前記文字記録領域の位置情報を検出する文字記録領域検出手段と、前記画像処理手段により作成された前記共通イメージと前記差異イメージとに基づいて前記検出された文字記録領域に対する属性を設定する属性設定手段と、前記検出された前記文字記録領域の位置情報と前記設定された属性とを対応させて前記記録済み帳票のフォーマット制御情報として設定するフォーマット設定手段とを具備した帳票フォーマット作成装置である。
【0010】
このような構成にすれば、既存帳票に対して、帳票フォーマットを設定できる。
【0011】
【発明の実施の形態】
以下、図面を参照して本発明の実施形態について詳細説明する。
図1は、本発明の帳票フォーマット設定装置のシステム全体を示すシステム図である。システムバス10には、CPU11、RAM12、スキャナ13、イメージバッファ14、入力端末15、磁気ディスク装置(HDD)16がそれぞれ接続されている。
【0012】
CPU11は、HDD16に格納されている制御プログラムをRAM12にロードして実行することにより、システム全体の制御を行うものである。
【0013】
スキャナ13は、帳票イメージを読み取り、システムに入力するものである。イメージバッファ14は、スキャナ13から入力された帳票イメージを一次的に保持すると共に、イメージ処理する際に対象となるイメージを保持してイメージ処理を実行するためのワーキングエリアとして用いられ。入力端末15は、CRT等の表示装置とキーボードやマウスなどの入力装置とから構成されている。
【0014】
HDD16は、プログラムやデータ、イメージを記録するためのもので、図2に示すように、本発明を実現する帳票フォーマット設定プログラム21、帳票フォーマット設定のためのイメージ処理対象となる帳票イメージを保持する入力イメージ記憶部22、設定した帳票フォーマットデータを記録する帳票フォーマット記憶部23とが設けられている。また、帳票フォーマット設定プログラム21には、属性辞書が含まれている。
【0015】
次に図3に示すフローチャートに基づいて、本発明の動作を詳細に説明する。本発明は、HDD16に記録されている帳票フォーマット設定プログラム21をRAM12にロードし、これをCPU11で実行することで実現される。本発明の実施例では、図5、図6に示すような既存帳票50をOCRでの文字認識対象とするために帳票フォーマットデータを設定する場合について、説明する。図5、図6に示した既存帳票50には、氏名、年齢、住所を記入するための記入欄51、52、53がそれぞれ設けられている。また、氏名、年齢、住所の項目名が予め印刷された項目名欄54、55,56が設けられている。これらの各記入欄、各項目名欄は、罫線により区切られて設定されている。更に、既存帳票50の右上の位置にこの帳票を作成した日付(年月日)を記入できるように「年」、「月」「日」が予め印刷されている。
【0016】
まず、図5、図6に示した記入済みの既存帳票のイメージをスキャナ13を介して複数入力する(ステップS30)。スキャナ13から入力された帳票イメージは、メージバッファ14に一旦保持された後、HDD16の入力イメージ記憶部22に保存する。ここで入力するイメージの数は、100〜1000程度が適当であり、適宜決定すればよい。尚、事前に複数の帳票イメージを保持している場合には、直接HDD16の入力イメージ記憶部22に保存しても良い。
【0017】
次に、これら入力した帳票イメージに対して照合処理を行う(ステップS31)。この照合処理の動作を図4に示したフローチャートを用いて説明する。
【0018】
先ず上記入力した複数の帳票イメージをイメージ処理により位置合わせを行う(ステップS40)。次にこの位置合わせをした複数の帳票イメージに基づいて共通するイメージを作成する(ステップS41)。この共通イメージの作成は、先ず位置合わせ後の各帳票イメージに基づいて、各画素毎に黒ビットの数を計数する。この計数した黒ビットの数を所定の閾値と比較して各画素を2値化する。即ち、黒ビット数が閾値よりも多い画素は「黒」とし、黒ビット数が閾値よりも少ない画素を「白」と判定する。上記閾値としては、例えば入力した記録済み帳票のイメージ数の90%程度の数値を用いるのが適当である。この2値化により入力した複数の記録済み帳票のイメージに共通するイメージを作成することができる。図6に、この作成した共通イメージを図示した。
【0019】
次に、この作成した共通イメージの座標データを取得する(ステップS41)。即ち、図7に示したイメージにおいて、罫線を検出し、この罫線により囲われている罫線領域71、72、73、74、75、76の座標データを取得する。更に、共通イメージが罫線で囲われていない場合には、そのイメージを包含する矩形領域70a、70b、70cを決定し、その矩形領域の座標データを取得する。また、共通イメージの内、項目文字「住所」、「氏名」、「年齢」に対応するイメージについては、罫線に囲まれていないので、座標データを取得しない。
【0020】
次に上記位置合わせをした複数の帳票イメージに基づいて、互いに相違するイメージを論理和演算して差異イメージとして作成する(ステップS43)。この差異イメージの取得は、次のように行う。先ず、上記2値化において「白」と判定された画素に着目し、上記各入力イメージにおいて着目している画素の位置における上記計数した黒ビット数に応じて、各画素をグレースケールで表示する。このグレースケールで表示した帳票イメージを図8に示す。この図8にグレースケールで図示したイメージは、上記入力した複数のイメージのうち、互いに相違するイメージを論理和演算して作成した差異イメージである。
【0021】
次に図8に図示したように差異イメージを包含する矩形領域81、82、83、84、85、86を検出し、この各矩形領域の座標データを取得する(ステップS44)。これらステップS41とステップS44を中心とする照合処理(ステップS30)が、本発明の画像処理手段に相当する。
【0022】
以上で照合処理が終了し、図3のフローチャートのステップS32へ戻り、既存帳票50の文字記録領域の判定を行う(ステップS32)。この文字記録領域の判定処理は、作成した共通イメージと差異イメージとの座標データを比較することで、読み取り対象の文字が記入される文字記録領域を判定する。図7、図8に図示した場合には、罫線領域71、72、73、74、75、76の座標データと矩形領域81、82、83、84、85、86の座標データとを比較して文字記録領域を判定する。
【0023】
罫線領域の座標範囲に包含される矩形領域がある場合には、その罫線領域は、文字が記入される文字記録領域であると判定する。例えば、矩形領域84は、罫線領域71の座標の範囲に包含されるので、罫線領域71は文字記録領域であると判定する。同様な判定により、罫線領域72,73も文字記録領域であると判定される。
【0024】
また、罫線で囲われていないイメージを包含する矩形領域70a、70b、70cについては、この領域に隣接する矩形領域81、82、83、84、85、86の有無に基づいて、文字記録領域の判定をする。矩形領域70aと矩形領域81とが隣接するので、矩形領域70aに隣接する矩形領域77a(矩形領域81に相当)が文字記録領域であると判定する。同様な判定により、矩形領域77bと矩形領域77cも文字記録領域であると判定される。
【0025】
尚、帳票の形式によっては、罫線で囲まれた文字記録領域内に項目名が設けられている場合がある。このような場合、例えば図9に示すように共通イメージが作成され、図10に示すように差異イメージが作成される。この場合には、罫線領域90の座標の範囲内に矩形領域100の座標が包含されるので、罫線領域90は、文字記録領域であると判定する。このステップS32で説明した文字記録領域の判定処理が、本発明の文字記録領域検出手段である。
【0026】
次に、ステップ33へ進み、上記ステップ32で判定した文字記録領域の属性を設定する(ステップ33)。この属性とは、OCRが文字認識する際に使用する、認識対象文字の字種やその文字が手書きか活字かの区別やフォントなどを定義するものである。OCRでは文字記録領域に属性をフォーマットデータとして予め定義しておけば、その文字記録領域から得られた文字認識対象の文字パターンは定義された字種であるとして以後の文字認識処理が行われる。例えば文字認識処理を入力した文字パターンと標準パターンとの類似度演算により実施している場合には、全ての字種の標準パターンとの類似度演算が必要なく、認識処理を高速化できると共に、誤った文字認識結果が得られることなく認識率の向上につながる。
【0027】
この文字記録領域の属性設定では、先ず、上記説明した共通イメージの中から、罫線以外のイメージを文字認識して項目文字を得る。図7に図示した共通イメージの場合には、「年」、「月」、「日」、「住所」、「氏名」、「年齢」の項目文字が認識される。
【0028】
次にこの認識した項目文字に基づいて属性辞書を参照して、その項目文字に対応する文字記録領域の属性を定義する。属性辞書は図11に図示したように属性データとして字種が定義されているものとする。図11において、属性辞書110には項目文字111と属性の内の1つである字種112とが対応して定義されている。例えば「住所」という項目文字に対しては、「漢字、平仮名、カタカナ、数字、〒(郵便番号の記号)」という字種が定義されている。同様に項目文字「年齢」には「数字」の属性が定義されている。このように定義された属性辞書110を上記文字認識した項目文字の認識結果に基づいて参照することで、項目文字に対応する属性データを求めることができる。
【0029】
このように属性辞書を参照して求めた属性に基づいて、次のように属性の定義がなされる。図7において、項目文字「住所」が設けられている位置に隣接する文字記録領域である罫線領域71の属性である字種として、「漢字、平仮名、カタカナ、数字、〒」を定義する。また、項目文字「氏名」が設けられている位置に隣接する文字記録領域である罫線領域72の属性である字種として、「漢字、平仮名、カタカナ」を定義する。更に項目文字「年齢」が設けられている位置に隣接する文字記録領域である罫線領域73の属性である字種として、「数字」を定義する。このような属性の定義は、罫線領域の座標データと属性データとを組み合わせることで定義される。このステップS33で説明した文字記録領域の属性設定処理が、本発明の属性設定手段に相当する。
【0030】
次にステップS34へ進み、入力端末15を用いて、オペレータによりステップS33までにおいて求められた文字記録領域とその文字記録領域に設定された属性とを修正処理を行う(ステップS34)。図12には、この修正処理の際に入力端末15の表示装置に表示される画面を図示した。図12に図示した画面は左右に区分されており、左側の領域にこれまでのステップにて求めた共通イメージ及び文字記録領域とを表示する。この左側の領域において文字記録領域が点線で囲まれて図示されており、実線で図示した罫線は単なる罫線を示している。実際の画面では、色分け表示して区別表示しているものとする。また、右側の領域には、定義されている属性を表示する属性表示領域121を表示している。
【0031】
オペレータは、マウスで図示されている文字記録領域をクリックすることで、画面右側にその文字記録領域に設定されている属性を確認する。図12では、属性表示領域121に定義されている属性が表示される。定義されている属性を削除する場合には、マウスで定義された属性文字を指定した後、削除ボタン122をクリックすることで行う。また、属性を追加する場合には、属性アイコン123の中から、定義したい属性を選択し属性表示領域121にドラック・アンド・ドロップすることで追加する。また、文字記録領域を追加/削除する場合には、画面左側の領域において、鉛筆、消しゴムのアイコン124、125をマウスでクリックした後、マウスで指定した範囲に罫線の線引きまたは罫線の線消しを行うと共に、マウスで指定した位置にキーボードから項目文字を入力する。もし、文字記録領域を追加した場合には、上記と同様にその属性を設定する。また、詳細説明は省略するが、属性として字種以外のフォント、読み取り対象文字が手書き文字か活字文字かの区別の指定、文字認識の際の知識処理の種類の指定等のその他の属性設定も、この修正処理の際に行う。
【0032】
このように修正処理された文字記録領域とその属性とをフォーマットコントロールデータとしてHDD16の帳票フォーマット記憶部23に保存する(ステップS35)。このステップS35で説明した帳票フォーマットの保存処理が、本発明のフォーマット設定手段である。
【0033】
尚、本発明における記憶媒体としては、磁気ディスク、フロッピーディスク、光ディスク(CD−ROM、CD−R、DVD等)、光磁気ディスク(MO等)、半導体メモリ等、プログラムが記憶でき、かつコンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であっても良い。また、記憶媒体からコンピュータにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているオペレーティングシステムやデータベース管理ソフトなどのミドルウェア(MW)等が本実施形態を実現するための各処理の一部を実行しても良い。更に、、本発明における記憶媒体は、コンピュータと独立した媒体に限らず、LANやインターネット等により伝送されてきたプログラムをダウンロードして記憶または一時記憶した記憶媒体も含まれる。また、記憶媒体は1つに限らず、複数の媒体から本実施形態における処理が実行される場合も本発明における記憶媒体に含まれ、媒体構成は何れの構成であっても良い。
【0034】
尚、本発明におけるコンピュータは、記憶媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するものであって、パーソナルコンピュータなどの1つからなる装置、複数の装置がネットワークを介して接続されたシステム等の何れの構成であっても良い。また、本発明におけるコンピュータとは、パーソナルコンピュータに限らず、情報処理機器に含まれる演算処理装置、マイクロプロセッサ等も含み、プログラムによって本発明の機能を実現することが可能な機器、装置を総称している。
【0035】
【発明の効果】
以上説明した通り、本発明によれば、記入済み帳票の複数のイメージを照合処理することで、帳票の文字記録領域を高い精度で検出することができると共に、この検出した文字記録領域の属性を設定することができる。また、文字記録領域とその属性を修正する手段を設けたので、最適な帳票フォーマットの設定ができる。
【図面の簡単な説明】
【図1】本発明の実施形態に関わるシステムの概略構成を示す図である。
【図2】図1のHDD16に記録されているプログラム等の構成を示す図である。
【図3】本発明の動作を説明するためのフローチャート図である。
【図4】図3のステップS31の詳細を示すフローチャート図である。
【図5】既存帳票のイメージを示す図である。
【図6】既存帳票のイメージを示す図である。
【図7】共通イメージを示す図である。
【図8】差異イメージを示す図である。
【図9】共通イメージの他の例を示す図である。
【図10】差異イメージの他の例を示す図である。
【図11】属性辞書の構成を示す図である。
【図12】入力端末の画面の表示例を示す図である。
【符号の説明】
10‥‥システムバス
11‥‥CPU
12‥‥RAM
13‥‥スキャナ
14‥‥イメージバッファ
15‥‥入力端末
16‥‥HDD

Claims (12)

  1. 予め罫線と文字を記録する文字記録領域とが設けられた帳票に対してそれぞれ異なる文字が記録された複数の記録済み帳票のイメージを入力するイメージ入力手段と、
    このイメージ入力手段により入力された前記複数の帳票のイメージの位置合わせを行う手段と、
    位置合わせ後の各帳票のイメージの画素毎に黒ビットの数を計数し、計数した黒ビットの数を所定の閾値と比較して各画素を2値化して、入力した複数の記録済み帳票のイメージ共通する共通イメージを作成する手段
    前記2値化において黒ビットの数が前記閾値よりも少ない画素に着目し、各入力イメージにおいて着目している画素の位置における計数した黒ビットの数に応じて、各画素をグレースケールで表示して、入力した複数のイメージのうち、互いに相違するイメージを演算して差異イメージを作成する手段と、
    記共通イメージと前記差異イメージとに基づいて前記文字記録領域を検出する文字記録領域検出手段と、
    を具備したことを特徴とする帳票における文字記録領域の検出装置。
  2. 前記文字記録領域検出手段は、
    前記共通イメージにおいて前記罫線で囲まれた罫線領域を検出する手段と、
    前記差異イメージを包含する矩形領域を検出する手段と、
    前記検出した罫線領域の範囲内に前記矩形領域が含まれる場合に、その罫線領域を文字記録領域であると検出する手段と
    を具備することを特徴とする請求項1記載の帳票における文字記録領域の検出装置。
  3. 前記文字記録領域検出手段は、
    前記共通イメージにおいて前記罫線で囲まれていない領域に存在する共通イメージを包含する第1の矩形領域を検出する手段と、
    前記差異イメージを包含する第2の矩形領域を検出する手段と、
    前記検出した第1の矩形領域と前記検出した第2の矩形領域とが隣接する場合に、前記第2の矩形領域が文字記録領域であると検出する手段と
    を具備することを特徴とする請求項1記載の帳票における文字記録領域の検出装置。
  4. 予め罫線と文字を記録する文字記録領域とが設けられた帳票に対してそれぞれ異なる文字が記録された複数の記録済み帳票のイメージを入力するイメージを準備するステップと、
    このイメージ入力手段により入力された前記複数の帳票のイメージの位置合わせを行うステップと、
    位置合わせ後の各帳票のイメージの画素毎に黒ビットの数を計数し、計数した黒ビットの数を所定の閾値と比較して各画素を2値化して、入力した複数の記録済み帳票のイメージ共通する共通イメージを作成するステップ
    前記2値化において黒ビットの数が前記閾値よりも少ない画素に着目し、各入力イメージにおいて着目している画素の位置における計数した黒ビットの数に応じて、各画素をグレースケールで表示して、入力した複数のイメージのうち、互いに相違するイメージを演算して差異イメージを作成するステップと、
    記共通イメージと前記差異イメージとに基づいて前記文字記録領域を検出する検出ステップと
    を具備することを特徴とする帳票における文字記録領域の検出方法。
  5. 前記文字記録領域を検出するステップは、
    前記共通イメージにおいて前記罫線で囲まれた罫線領域を検出するステップと、
    前記差異イメージを包含する矩形領域を検出するステップと、
    前記検出した罫線領域の範囲内に前記矩形領域が含まれる場合に、その罫線領域を文字記録領域であると検出するステップと
    を具備することを特徴とする請求項4記載の帳票における文字記録領域の検出装置。
  6. 前記文字記録領域検出するステップは、
    前記共通イメージにおいて前記罫線で囲まれていない領域に存在する共通イメージを包含する第1の矩形領域を検出するステップと、
    前記差異イメージを包含する第2の矩形領域を検出するステップと、
    前記検出した第1の矩形領域と前記検出した第2の矩形領域とが隣接する場合に、前記第2の矩形領域が文字記録領域であると検出するステップと
    を具備することを特徴とする請求項4記載の帳票における文字記録領域の検出装置。
  7. コンピュータを動作させるためのプログラムを記憶したコンピュータ読み取り可能な記憶媒体において、
    前記プログラムは、
    予め罫線と文字を記録する文字記録領域とが設けられた帳票に対してそれぞれ異なる文字が記録された複数の記録済み帳票のイメージを入力させる手段と、
    このイメージ入力手段により入力された前記複数の帳票のイメージの位置合わせを行わせる手段と、
    位置合わせ後の各帳票のイメージの画素毎に黒ビットの数を計数し、計数した黒ビットの数を所定の閾値と比較して各画素を2値化して、入力した複数の記録済み帳票のイメージ共通する共通イメージを作成させる手段と
    前記2値化において黒ビットの数が前記閾値よりも少ない画素に着目し、各入力イメージにおいて着目している画素の位置における計数した黒ビットの数に応じて、各画素をグレースケールで表示して、入力した複数のイメージのうち、互いに相違するイメージを演算して差異イメージを作成させる手段と、
    記共通イメージと前記差異イメージとに基づいて前記文字記録領域を検出させる手段と
    を具備することを特徴とする記憶媒体。
  8. 前記文字記録領域検出させる手段は、
    前記共通イメージにおいて前記罫線で囲まれた罫線領域を検出させる手段と、
    前記差異イメージを包含する矩形領域を検出させる手段と、
    前記検出した罫線領域の範囲内に前記矩形領域が含まれる場合に、その罫線領域を文字記録領域であると検出させる手段と
    を具備することを特徴とする請求項7記載の記憶媒体。
  9. 前記文字記録領域検出させる手段は、
    前記共通イメージにおいて前記罫線で囲まれていない領域に存在する共通イメージを包含する第1の矩形領域を検出させる手段と、
    前記差異イメージを包含する第2の矩形領域を検出させる手段と、
    前記検出した第1の矩形領域と前記検出した第2の矩形領域とが隣接する場合に、前記第2の矩形領域が文字記録領域であると検出させる手段と
    を具備することを特徴とする請求項7記載の記憶媒体。
  10. 予め罫線と文字を記録する文字記録領域とが設けられた帳票に対してそれぞれ異なる文字が記録された複数の記録済み帳票のイメージを入力するイメージ入力手段と、
    このイメージ入力手段により入力された前記複数の帳票のイメージの位置合わせを行う手段と、
    位置合わせ後の各帳票のイメージの画素毎に黒ビットの数を計数し、計数した黒ビットの数を所定の閾値と比較して各画素を2値化して、入力した複数の記録済み帳票のイメージ共通する共通イメージを作成する手段
    前記2値化において黒ビットの数が前記閾値よりも少ない画素に着目し、各入力イメージにおいて着目している画素の位置における計数した黒ビットの数に応じて、各画素をグレースケールで表示して、入力した複数のイメージのうち、互いに相違するイメージを演算して差異イメージを作成する手段と、
    記共通イメージと前記差異イメージとに基づいて前記文字記録領域の位置情報を検出する文字記録領域検出手段と、
    前記画像処理手段により作成された前記共通イメージと前記差異イメージとに基づいて前記検出された文字記録領域に対する属性を設定する属性設定手段と、
    前記検出された前記文字記録領域の位置情報と前記設定された属性とを対応させて前記記録済み帳票のフォーマット制御情報として設定するフォーマット設定手段と
    を具備することを特徴とする帳票フォーマット作成装置。
  11. 所定の文字と属性とを対応させた属性辞書を設け、前記属性設定手段は、前記共通イメージから文字認識を行い、この文字認識結果に基づいて前記属性辞書を参照して前記文字認識したイメージに隣接した文字記録領域に属性を設定することを特徴とする請求項10記載の帳票フォーマット作成装置。
  12. 前記設定された文字記録領域の属性を修正する属性修正手段を設けたことを特徴とする請求項10記載の帳票フォーマット作成装置。
JP2000050957A 2000-02-28 2000-02-28 帳票における文字記録領域の検出装置、帳票における文字記録領域の検出方法、記憶媒体及び帳票フォーマット作成装置 Expired - Fee Related JP4078009B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2000050957A JP4078009B2 (ja) 2000-02-28 2000-02-28 帳票における文字記録領域の検出装置、帳票における文字記録領域の検出方法、記憶媒体及び帳票フォーマット作成装置
US09/533,593 US6614929B1 (en) 2000-02-28 2000-03-23 Apparatus and method of detecting character writing area in document, and document format generating apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000050957A JP4078009B2 (ja) 2000-02-28 2000-02-28 帳票における文字記録領域の検出装置、帳票における文字記録領域の検出方法、記憶媒体及び帳票フォーマット作成装置

Publications (2)

Publication Number Publication Date
JP2001243423A JP2001243423A (ja) 2001-09-07
JP4078009B2 true JP4078009B2 (ja) 2008-04-23

Family

ID=18572677

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000050957A Expired - Fee Related JP4078009B2 (ja) 2000-02-28 2000-02-28 帳票における文字記録領域の検出装置、帳票における文字記録領域の検出方法、記憶媒体及び帳票フォーマット作成装置

Country Status (2)

Country Link
US (1) US6614929B1 (ja)
JP (1) JP4078009B2 (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100375222B1 (ko) * 2000-07-19 2003-03-08 엘지전자 주식회사 스케일러블 칼라 히스토그램 엔코딩 방법
EP1552945A1 (en) * 2004-01-09 2005-07-13 Mutoh Europe N.V. A method for printing and/or cutting an image
GB0413065D0 (en) * 2004-06-11 2004-07-14 Hewlett Packard Development Co Capturing data and establishing data capture areas
JP4677750B2 (ja) * 2004-09-24 2011-04-27 富士ゼロックス株式会社 文書属性取得方法および装置並びにプログラムを記録した記録媒体
JP5045068B2 (ja) * 2006-11-13 2012-10-10 日本電気株式会社 ラベル領域検出装置、該検出装置に用いられるラベル領域検出方法及びラベル領域検出制御プログラム
JP4996940B2 (ja) * 2007-02-21 2012-08-08 日立コンピュータ機器株式会社 帳票認識装置およびそのプログラム
CN102194123B (zh) * 2010-03-11 2015-06-03 株式会社理光 表格模板定义方法和装置
US8606046B2 (en) * 2010-06-21 2013-12-10 Palo Alto Research Center Incorporated System and method for clean document reconstruction from annotated document images
CN102375978A (zh) * 2010-08-17 2012-03-14 富士通株式会社 处理图像的方法和设备
JP5510221B2 (ja) * 2010-09-14 2014-06-04 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
US8832567B1 (en) * 2012-02-15 2014-09-09 Google Inc. Using visualization techniques for adjustment of privacy settings in social networks
JP2013182459A (ja) * 2012-03-02 2013-09-12 Pfu Ltd 情報処理装置、情報処理方法及びプログラム
JP2014002662A (ja) * 2012-06-20 2014-01-09 Hitachi Solutions Ltd 帳票印刷システム
JP6028905B2 (ja) * 2012-07-03 2016-11-24 富士通株式会社 帳票管理装置及び帳票管理方法並びに帳票管理プログラム
JP2014078168A (ja) * 2012-10-11 2014-05-01 Fuji Xerox Co Ltd 文字認識装置及びプログラム
US9465801B2 (en) * 2013-01-29 2016-10-11 Transbit Technologies Software Private Limited Method and system for automatic processing and management of technical digital documents and drawings
JP6281739B2 (ja) * 2013-11-13 2018-02-21 富士ゼロックス株式会社 処理装置及びプログラム
JP6459990B2 (ja) * 2016-01-20 2019-01-30 京セラドキュメントソリューションズ株式会社 画像処理装置
US10467551B2 (en) 2017-06-12 2019-11-05 Ford Motor Company Portable privacy management
JP6736012B2 (ja) * 2018-07-23 2020-08-05 日本生命保険相互会社 情報処理装置、情報処理方法、プログラム及び帳票読取システム
JP6973433B2 (ja) * 2019-03-07 2021-11-24 日本電気株式会社 帳票処理装置、帳票処理方法、及びプログラム
US11752639B2 (en) * 2022-01-21 2023-09-12 Saudi Arabian Oil Company Engineering drawing review using robotic process automation

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5140650A (en) * 1989-02-02 1992-08-18 International Business Machines Corporation Computer-implemented method for automatic extraction of data from printed forms
IL91220A (en) * 1989-08-04 1995-03-30 Ibm Israel Compression of information
CA2134255C (en) * 1993-12-09 1999-07-13 Hans Peter Graf Dropped-form document image compression
JP3547025B2 (ja) * 1994-08-23 2004-07-28 株式会社リコー 情報抽出方法
US6137905A (en) * 1995-08-31 2000-10-24 Canon Kabushiki Kaisha System for discriminating document orientation
JP3378439B2 (ja) 1996-07-19 2003-02-17 株式会社リコー 帳票画像作成装置

Also Published As

Publication number Publication date
US6614929B1 (en) 2003-09-02
JP2001243423A (ja) 2001-09-07

Similar Documents

Publication Publication Date Title
JP4078009B2 (ja) 帳票における文字記録領域の検出装置、帳票における文字記録領域の検出方法、記憶媒体及び帳票フォーマット作成装置
JP3469345B2 (ja) 画像のファイリング装置及びファイリング方法
JP3113827B2 (ja) 矩形オブジェクトの認識方法及び認識装置
JP3294995B2 (ja) 帳票読取装置
US20110222776A1 (en) Form template definition method and form template definition apparatus
CN102289667A (zh) 对经历光学字符识别(ocr)过程的文本文档中出现的错误的用户纠正
JP4977368B2 (ja) 媒体処理装置,媒体処理方法,媒体処理システム,及び媒体処理プログラムを記録したコンピュータ読取可能な記録媒体
WO2007049270A2 (en) Form data extraction without customization
JPH11143986A (ja) ビットマップイメージの処理方法及び処理装置、ビットマップイメージの処理を行うイメージ処理プログラムを格納した記憶媒体
US20160379186A1 (en) Element level confidence scoring of elements of a payment instrument for exceptions processing
JP2019191665A (ja) 財務諸表読取装置、財務諸表読取方法及びプログラム
US10049350B2 (en) Element level presentation of elements of a payment instrument for exceptions processing
EP1202213A2 (en) Document format identification apparatus and method
US20230273952A1 (en) Image processing apparatus, image processing method, and storage medium
JP6302317B2 (ja) 帳票フォーマット情報登録方法及びシステム並びにプログラム
CN116563876A (zh) 一种发票识别方法
US20210303782A1 (en) Information processing apparatus and non-transitory computer readable medium
JP2001126010A (ja) 帳票処理装置、帳票定義作成方法、領域抽出方法及び記憶媒体
US20210227086A1 (en) Information processing device, information processing system and computer readable medium
JP5134383B2 (ja) Ocr装置、証跡管理装置及び証跡管理システム
JPH11219409A (ja) 文書読取装置
JPH10171920A (ja) 文字認識装置、その文字認識方法およびその記録媒体
JP2001005804A (ja) 文字認識装置を利用したデータベース登録方法
US7110600B1 (en) Document identifying device and method
JP2581353B2 (ja) グラフ画像登録システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050131

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20050322

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20050328

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070927

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071002

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080129

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080204

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110208

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120208

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees