JP3946043B2 - 帳票識別装置及び識別方法 - Google Patents

帳票識別装置及び識別方法 Download PDF

Info

Publication number
JP3946043B2
JP3946043B2 JP2001528910A JP2001528910A JP3946043B2 JP 3946043 B2 JP3946043 B2 JP 3946043B2 JP 2001528910 A JP2001528910 A JP 2001528910A JP 2001528910 A JP2001528910 A JP 2001528910A JP 3946043 B2 JP3946043 B2 JP 3946043B2
Authority
JP
Japan
Prior art keywords
image data
information
unit
color
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001528910A
Other languages
English (en)
Inventor
孝行 松井
裕 勝又
一範 山本
真一 江口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Fujitsu Frontech Ltd
Original Assignee
Fujitsu Ltd
Fujitsu Frontech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd, Fujitsu Frontech Ltd filed Critical Fujitsu Ltd
Application granted granted Critical
Publication of JP3946043B2 publication Critical patent/JP3946043B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、例えば金融機関における帳票処理に用いて好適な、帳票識別装置であって、特に、私製伝票等のように多種多様なフォーマットを有する帳票処理を行なうための、帳票識別装置に関する。
【0002】
【従来の技術】
近年、文字情報をイメージデータ(イメージ)として読み取ってから文字認識する装置として、光学式文字読み取り装置(OCR装置)等のイメージデータ読取装置が開発され、各種産業においてはこのイメージデータ読取装置を幅広く利用することにより、業務の効率化等を図っている。
【0003】
例えば、金融機関等における窓口業務を行なうオペレータは、上述のイメージデータ読取装置を用いて、帳票媒体(帳票)を効率的に処理することを通じて、業務の効率化を図っている。
特に、上述のような帳票処理を行なうような業務の効率化を図るためには、同一種類の帳票の多量処理を行なうだけでなく、多種多様なフオーマットを有する帳票を自動的に処理することが要求されている。
【0004】
そこでは、イメージデータ読取装置を備えた帳票処理装置が利用されている。そして、その帳票処理装置における帳票のイメージデータを読み取るイメージデータ読取装置は、電子計算機に接続されおり、この電子計算機からの制御に基づいてイメージデータの読取動作を行う。なお、このイメージデータ読取装置としては、例えばイメージスキャナやFAXが用いられる。さらに、このイメージデータ読取装置は、イメージデータの読取動作を行なうとともに文字認識をも行なうことができるイメージデーク読取認識装置とすることもできる。
【0005】
また、このイメージデータ読取装置を制御する制御装置としての電子計算機は、オペレータからの命令、データ等を入力するキーボードあるいはマウス等の入力部、計算機本体及びデータあるいは制御情報等を表示するディスプレイにより構成されている。なお、イメージデータ読取装置により読み取られたイメージデータの認識処理は、電子計算機本体により行なわれる。
【0006】
さらに、帳票処理装置はハードディスクを備えており、このハードディスクは、電子計算機に接続され、予め帳票種類毎に認識すべき文字データの位置情報および文字の種類、桁数等を指定した情報(以下「定義体情報」と称す)を格納してある。
【0007】
次に、この帳票処理装置を利用する場合についての動作を説明する。
イメージデータ読取認識装置を用いて、例えば、「電気料金払込通知書」上に記載された文字データを認識する際には、まず、オペレータによるキーボードの操作により帳票種別(この場合は電気料金払込通知書(帳票B)とする)に対応する定義体情報Bを指示する。
【0008】
続いて、電子計算機では、ハードディスクのアクセスを通じて、指示された帳票の定義体情報Bを引出してイメージデータ読取認識装置に通知する。
これにより、イメージデータ読取認識装置では、電子計算機からの制御情報としての定義体情報Bに基づいて、イメージデータの読み取りと文字認識処理を行なうことができる。
【0009】
しかしながら、帳票を処理する手法においては、オペレータの指示により読み取りたい帳票毎に定義体情報を指示するので、オペレータに負担がかかるほか、定義体が多くなると指示を間違えたり、数千種類もの帳票を処理することが要求される場合にはオペレータが指示することは現実的に困難となる。
【0010】
このため、帳票の定められた位置に、予め帳票毎に異なった帳票を識別するためのID番号を記載しておくことにより、上述したようにオペレータが帳票種別を指示することなく、自動的に帳票の読取処理を行なう方法も考えられている。
【0011】
この方法によれば、イメージデータ読取認識装置にて帳票のイメージデータを読み取る際に、最初に定められた位置に記されたID番号を認識し、続いて認識したID番号に対応した定義体情報(この場合はB)を使用することにより、文字認識を行なうことができる。
【0012】
ところが、イメージデータを読み取る際に、イメージデータ読取認識装置等の光学的読取部において帳票等をセットする位置が変動すると、例えば、ハードディスクに定義体情報が予め格納されている帳票と同一の帳票が読み取られた場合でも、文字データの領域や図形領域等のイメージの基準点(物理原点)からの座標が定義体情報におけるものと同一にならないため、同一のレイアウトではないと判定される。
【0013】
帳票処理装置等においては、読み取られたイメージデータのレイアウトと定義体情報におけるレイアウトとを一致させてからイメージデータの文字認識を行なわないと、文字認識処理が正常に行なわれないことがある。そのため、まず各々のイメージの基準点を抽出して各々のイメージの基準点からの座標を比較してレイアウトの一致の判定を行なっている。
【0014】
ここで、イメージデータの基準点の抽出方法は、以下の2つの方法がある。なお、前提条件として、読み取り対象の帳票は予め印刷された帳票であり、用紙における帳票の印刷位置が高い精度で管理されているものとする。
【0015】
1つ目の方法は、読み取られる帳票の用紙端面と読取背景とが識別できるようなイメージデータ読取認識装置により帳票のイメージデータを読み取る場合には、用紙端面の、例えば左上端の角部を基準点とするものである。
【0016】
また、2つ目の方法は、イメージスキャナやFAXにより帳票のイメージデータを読み取る場合には、読取背景と読み取られた用紙端面とが識別できないため、予め読み取り対象の帳票用紙に基準マークを印刷しておき、この基準マークをイメージデータから抽出して基準点とするものである。
【0017】
この2つ目の方法においては、予め基準点位置が基準マークとして印刷されているため、読取装置に帳票をセットする位置が変動した場合でも、安定して基準点を抽出することが可能である利点がある。
【0018】
ところが、帳票処理装置等においては、上述の方法により基準点が正確に抽出された場合でも、イメージデータの読取方向が正しい方向でなければ、イメージデータの文字記述方向が正しい方向とならないため、文字認識処理を行なうことができない。
【0019】
例えば、横方向で情報が記述された振込伝票が、イメージデータ読取認識装置により誤った方向から読み取られた場合には、読み取られた振込伝票のイメージデータは、ディスプレイにも誤った向きで表示される。
【0020】
このため、帳票処理装置等による文字認識処理の際には、オペレータが、ディスプレイを目視して帳票の読み取り方向が正しいか否かを判断して、帳票の読み取り方向が正しくない場合には、読み取られた帳票のイメージデータを90度又は180度回転させる指示をキーボードから入力して、帳票のイメージデータがディスプレイ上に正しい方向に表示されるように、イメージデータの回転補正処理を行なう必要がある。
【0021】
ところで、従来より銀行での各口座への送金業務においては、オペレータが、送金依頼票である帳票に記載されている口座番号、氏名及び金額等の情報を、帳票処理装置のキーボード等から入力しているが、このとき、オペレータは帳票とディスプレイとを交互に目視して入力操作を行なっていた。
【0022】
しかしながら、このように帳票とディスプレイとを交互に目視して入力操作を行なう場合には、視線の移動が多くなるため、視認性が悪くなり、帳票の項目と画面の項目との対応を誤るおそれがあるという課題があった。
【0023】
このため、イメージデータ読取認識装置等で帳票を読み取って、読み取られたイメージデータの文字認識結果とともにイメージデータそのものをディスプレイに表示するような帳票処理装置が提案されている。
【0024】
これにより、帳票に記載されている情報がディスプレイ上で直接見られるようになるため、視線の移動が少なくなり、文字認識結果の確認及び修正の際の、文字認識結果とイメージデータとの対応の誤りを少なくすることができる。
【0025】
一方で、近年、金融機関等においては、クライアント−サーバシステムを用いて、サーバで集中的且つ高速にデータ処理を行なう方式が主流となっている。
例えば、金融機関における各支店(営業店)毎に設置されたクライアントと地区センタに設置されたサーバとを、専用回線や交換回線等を介して接続することにより、クライアント−サーバシステムを構成して、サーバにより帳票処理を一括して行なうことにより、業務の効率化を図ることが提案されている。
【0026】
このようにサーバにより帳票処理を一括して行なう際には、サーバに集中するデータ量が膨大になることから、サーバでの帳票処理をオペレータが行なうことは不可能となるため、オペレータが介在することなく、サーバが自動的に帳票処理を行なうようなシステムを設計する必要がある。
【0027】
そこで、ID番号が記載された帳票を用いた帳票識別処理をこのクライアント−サーバシステムに適用すれば、サーバが自動的に帳票種別を識別して帳票の読取処理を行なうことができる。
【0028】
また、このクライアント−サーバシステムでのクライアントにおいても、前述したように、イメージデータ読取認識装置により読み取られたイメージデータの文字認識結果とともに、イメージデータそのものをディスプレイに表示させることにより、帳票に記載されている情報をディスプレイ上で直接見られるようにして、文字認識結果の確認及び修正の際の文字認識結果とイメージデータとの対応の誤りを少なくすることができる。
【0029】
【発明が解決しようとする課題】
しかしながら、上述の帳票を処理する手法においては、読み取り可能な帳票は、その帳票処理装置専用に作成された帳票のみであり、従来から使用している一般的な帳票を使用することができないため、この場合は新たに専用の帳票を作成しなければならないという課題がある。
【0030】
また、上述での説明したような、1つ目の基準点抽出方法においては、用紙における帳票の印刷位置が高い精度で管理されている必要があるが、例えばワードプロセッサ等により印字された帳票の場合には、手動により用紙を設定すると印字する度に印刷位置が変動することが多いため、このような場合には用紙端面の左上端の角部を基準点とすることは適当ではないという課題がある。
【0031】
さらに、上述の2つ目の基準点抽出方法においては、読み取り対象の帳票は基準マークが印字された専用帳票であり、基準マークの印刷されていない一般の帳票については基準点を抽出することができないという課題がある。
【0032】
また、文書リーダ等の認識技術で採用されている、帳票内の表の特定点を基準点として使用する方式の場合にも、認識対象帳票のレイアウトがある程度特定できない場合には有効に機能しないという課題がある。
【0033】
なお、以前に読み取られた帳票と同一の帳票を、再度読み取った場合でも、イメージ読み取り時のゴミや掠れ等により、読み取られたイメージが以前のものと同一のものとはならないこともあり、このような場合には同一の基準点が抽出されないこともある。
【0034】
さらに、イメージデータの回転補正処理をサーバにおいて自動的に行なうためには、実際に読み取られたイメージデータの文字認識を行ない、文字認識が可能であるか否かにより帳票の読取方向の正誤の判断を行なわなければならず、業務の効率化を著しく妨げるという課題がある。
【0035】
また、上述したようなイメージデータの文字認識結果とイメージデータそのものをディスプレイに表示させて、文字認識結果の確認及び修正を行なう方法においては、イメージデータと確認項目との対応は目視によって行なわれるため、イメージデータ中に確認すべき項目が多い場合にはやはり誤認識は避けられないという課題がある。
【0036】
さらに、イメージデータを一度にディスプレイに表示できない場合には、後方のデータを参照するために、表示画面をスクロールさせる必要があるが、このとき所要のキーを押下することにより、スクロール操作を行なわなければならず、操作が煩雑になるという課題がある。
【0037】
本発明は、このような課題に鑑み創案されたもので、従来から使用している一般的な帳票であり、私製伝票等のように多種多様なフォーマットを有する帳票の処理を行なえるようにした帳票識別装置を提供することを目的とする。
【0038】
また、本発明は、普通紙にワードプロセッサ等で印刷したような帳票についても、従来のような用紙端面や基準マーク等を用いることなく、印刷された帳票のイメージデータにおける基準点の抽出処理を常に安定且つ自動的に識別できるようにすることを目的とする。
【0039】
【課題を解決するための手段】
これらの目的を達成する本発明による帳票識別装置は、任意のフォーマットで作成された帳票からイメージデータを読み取るイメージ読取手段と、該イメージ読取手段で読み取られた前記イメージデータから前記帳票の指定された特定部分に対応する特定イメージデータを切り出すイメージデータ切出手段と、切出手段で切り出された前記特定イメージデータの色成分を分析し、該特定イメージデータにおける指定された特定の色成分に対する色空間上の濃度分布範囲を決める色分離パラメータを設定し、格納する色成分抽出手段と、該色成分抽出手段により設定された前記色分離パラメータに基づいて前記切り出された前記イメージデータから前記特定部分の識別情報を作成する色成分分離手段と、前記色成分抽出手段で設定された前記色分離パラメータと前記識別情報とを格納する帳票識別辞書部と、識別すべき帳票より読み取って得られたイメージデータから前記帳票識別辞書部に格納された前記色分離パラメータに基づいて作成された識別情報と、前記帳票識別辞書部に格納された前記識別情報とを比較判定する帳票判定部とを備えている。
【0040】
ここで、前記色成分は色の3原色により分析され、前記特定の色成分は前記色の3原色のうちの1つを選択する。その選択した色成分に係る色分離パラメータを前記色の3原色の濃度分布に基づいて決定することとした。
【0041】
そして、前記読み取ったイメージデータから、指定された複数の特定部分に対応するイメージデータを切り出し、前記色分離パラメータに基づいて前記切り出したイメージデータから特定部分のデータ情報を作成し、該データ情報と、前記帳票識別辞書部に格納されている前記データ情報とを比較判定することにより帳票を識別するようにした。
【0042】
【発明の効果】
従って、本発明の帳票識別装置によれば、イメージデータ読取認識装置でイメージデータを読み取った帳票の種別を自動識別する際に、切り出したイメージデータに対して精度の良いデータ情報を作成することができるので、イメージ読取装置にて読み取るべき帳票が複数種類混在していても、オペレータは帳票毎の定義体を意識することなく処理することができ、作業の効率化を図ることができるほか、帳票自体の識別用のID番号等を記載しておく必要がなく、一般的な帳票を用いることができ、既存のシステムに対して容易に適応することができる。
【0043】
【発明の実施の形態】
本発明によりもたらされる効果を明確にするため、先ず本発明の基礎となる帳票識別装置の構成について説明する。
【0044】
図1は、帳票識別装置の全体構成を示す機能ブロック図である。その帳票識別装置は、帳票のイメージデータを読み取るイメージデータ読取装置101、イメージデータの読取動作を制御する電子計算機102、該電子計算機102に接続され、予め帳票種類毎に認識すべき文字データの位置情報および文字の種類、桁数等を指定した情報(以下「定義体情報」と称す)を格納するハードディスク103、データ及び制御情報等を表示するディスプレイ104、及びオペレータからの命令、データ等を入力するキーボード、マウス等の入力手段105を備えている。そして、イメージデータ読取装置101は、帳票106、例えば‘電気料金払込通知書’からイメージデータを読み取るようになっている。なお、このイメージデータ読取装置101には、イメージデータ読取部として、例えばイメージスキャナやFAXも含まれる。
【0045】
この様な帳票識別装置において、前述したような課題に対応するため、従来から使用している一般的な帳票であり、私製伝票等のように多種多様なフォーマットを有する帳票の処理を行なえるようにしたものが提案されている。
【0046】
また、普通紙にワードプロセッサ等で印刷したような帳票についても、従来のような用紙端面や基準マーク等を用いることなく、印字された帳票のイメージデータにおける基準点の抽出処理を常に安定且つ自動的に行なえるようにした、帳票識別装置が提案されている。
【0047】
そこで、提案されている帳票識別装置について、図を参照して説明する。
図2は、上記の帳票識別装置を示すブロック図であり、この図2に示す帳票識別装置についても、前述の図1におけるものと同様、イメージデータ読取装置101、電子計算機102(この電子計算機102は後述のごとく入力部105、ディスプレイ104及び制御部201を備えている)及びハードディスク103により構成される。
【0048】
ここで、イメージデータ読取装置101は、帳票について、そのイメージデータを読み取るものであり、このイメージデータ読取装置101としては、前述の図1におけるものと同様に、光学式文字読み取り装置(OCR装置)やイメージスキャナ等を用いることができる。
【0049】
また、制御部201は、イメージデータ読取装置101にて読み取った帳票のイメージデータに基づいて、帳票データとして処理を行なうものであり、電子計算機102におけるCPU及びメモリとしての機能部分により構成することができる。
【0050】
また、この制御部201には、オペレータからの制御部201へのデータあるいは命令等を入力するため、キーボードあるいはマウス等の入力手段105が接続されるとともに、イメージデータ読取装直101で読み取ったイメージデータ等を表示するディスプレイ104が接続されている。
【0051】
さらに、ハードディスプク(ファイルメモリ)103は、イメージデータ読取装置101によって読み取られた帳票の全イメージデータを格納するものである。
ところで、制御部201は、図2に示すように、機能ブロックとして、イメージデータ格納メモリ202、イメージデータ切り出し部203、帳票識別辞書部204、データ比較部205、閾値設定部206、帳票判定部207、定義体格納部208、定義体格納テーブル211、文字認識部209及び文字認識結果格納部210を備えている。
【0052】
イメージデータ格納メモリ202は、イメージデータ読取装置101によって読み取られた帳票のイメージデータを一旦格納するものである。イメージデータ切り出し部203は、オペレータの入力部105の操作による抽出の対象となる情報(識別情報)の指示を受けて、イメージデータ格納メモリ202に格納された帳票のイメージデータから、帳票上に記載されている所要の帳票識別情報を抽出する帳票識別情報抽出手段としての機能を有するものである。
【0053】
ここで、上述のイメージデータ切り出し部203において、識別情報から所要の帳票識別情報を抽出する際には、イメージデータ読取装置101にて読み取られた帳票のイメージデータがディスプレイ104に表示されるようになっており、オペレータは、このディスプレイ104に表示されたイメージ画像に基づいて、識別情報を指示することができる。
【0054】
なお、オペレータは、イメージデータ切り出し部203にて抽出する対象となる情報(ユニーク情報)として、例えば、帳票上に記載されている文字情報、マーク、印鑑あるいは罫線等のあらゆる記載情報を指示することができる。そして、イメージデータ切り出し部203においては、指示された情報の座標位置情報、記載情報の大きさ情報及びデータ情報を、帳票識別情報として例えばソフトウェア処理によりあるいはファームウェア処理により自動的に抽出するようになっている。
【0055】
さらに、帳票識別辞書部(帳票識別辞書)204はイメージデータ切り出し部203で抽出された帳票識別情報を特定帳票の帳票識別情報として登録するものである。
具体的には、図3に示すように、例えば、ID番号‘0101’が付された帳票種別Aの帳票識別情報は領域204aに格納され、ID番号‘0102’が付された帳票種別Bの帳票識別情報は領域204bに絡納されるようになっている。以下、ID番号に応じて順次格納される。
【0056】
ここで、帳票識別情報を特定帳票の帳票識別情報として登録する動作について説明する。図3では、帳票種別Aについて登録を終えている状態を示し、次に「電気料金払込通知書」の帳票種別Bについて登録する場合を示している。ディスプレイ104には、イメージデータ読取装置101で読み取った帳票種別Bである帳票106が表示されている。オペレータは入力手段105により帳票106を識別するうえで特徴となる部分(ユニーク情報)を複数指定する。
【0057】
図では、帳票106に記載の‘電気料金’をユニーク情報D1として、さらに、‘富士一郎’をユニーク情報D2として指定した状態を示している。ユニーク情報D1‘電気料金’について、位置情報(X0 0)、大きさ情報をそして文字等のデータ情報を読み取り、これらの情報は1つのユニーク情報として、帳票識別辞書部204における帳票種別Bの格納場所である領域204bの帳票識別情報1欄に格納される。次いで、ユニーク情報D2‘富士一郎’についても、同様に、領域204bの帳票識別情報2欄に格納される。この様にして、1つの帳票種別を特定するのに必要な特徴部分について複数のユニーク情報を格納する。
【0058】
従って、上述のイメージデータ格納メモリ202、イメージデータ切り出し部203及び帳票識別辞書部204により、イメージデータ読取装置101によって読み取られた特定帳票のイメージデータから、特定帳票上に記載されている帳票識別情報を抽出して、帳票識別情報を帳票識別辞書部204に登録する登録ステップとしての動作が行なわれるようになっている。
【0059】
なお、上述のイメージデータ読取装置101によって読み取られた帳票のイメージデータは、帳票識別辞書部204に帳票識別情報を登録する際に、イメージデータ格納メモリ202にて一旦格納されるが、その一方でイメージデータ読取装置101にて読み取られた全帳票に関するイメージデータがハードディスク103に格納されるようになっている。
【0060】
また、データ比較部205は、イメージデータ格納メモリ202から読み出された特定帳票のイメージデータ中に、帳票識別辞書部204に登録されている帳票識別情報があるかどうかを検証する検証手段としての機能を有する。さらにデータ比較部205はイメージデータ読取装置101によって読み取られイメージデータ格納メモリ202に格納された任意の帳票のイメージデータ中に、帳票識別辞書部204に登録されている帳票識別情報があるかどうかを参照する参照手段としての機能をも有している。
【0061】
さらに、帳票判定部207は、検証手段としてのデータ比較部205による検証結果に基づいて、特定帳票の認識ができるかどうかを判定することにより、特定帳票が全て確実に一つに特定できたかどうかを判定する判定手段としての機能を有する。そして同判定部207は参照手段としてのデータ比較部205での参照結果に基づいて、任意の帳票が特定帳票であるかどうかを識別する帳票識別手段としての機能をも有している。
【0062】
ここで、具体的には、データ比較部205は、イメージデータ読取装置101から入力されたイメージデータについて、イメージデータ切り出し部203にて抽出された情報と、対応する帳票識別辞書部204からの帳票識別情報とを照合することにより一致度を算出する。そして、帳票識別手段としての帳票判定部207では、データ比較部205からの帳票識別情報の一致度と閾値設定部206からの閾値とを比較することにより、イメージデータ読取装置101から入力されたイメージデータの帳票を識別することができるか否かを判定するようになっている。
【0063】
従って、帳票識別辞書部204、データ比較部205、閾値設定部206及び帳票判定部207により、特定帳票の認識ができるかどうかを判定する検証ステップとしての動作が行なわれるとともに、任意の帳票が特定帳票であるかどうかを識別する帳票判別ステップとしての動作が行なわれるようになっている。
【0064】
なお、帳票判定部207による閾値設定部206からの閾値情報に基づいた一致度の判定の際には、閾値設定部206からの閾値情報は、イメージデータ読取装置101における読取動作時の誤差や、帳票そのものの印字誤差等を吸収して判定できる程度に、設定されるようになっている。
【0065】
また、定義体格納部208は、この帳票に記載されているデータを認識するための定義体情報を、定義体格納テーブル209から読み出して一旦格納しておくものである。その格納は、システム運用時に帳票判定部207により、イメージデータ読取装置101で読み取った帳票が、帳票識別辞書部204にて登録済の特定帳票と認識することができた場合に行われる。
【0066】
定義体格納テーブル209は、帳票識別辞書部204にて登録されている帳票識別情報に対応する特定帳票に記載されている内容を文字認識するための定義体情報(例えば、読取位置情報、文字属性情報、読取桁数等)を保持しておくものである。
【0067】
また、文字認識部210は、上記のイメージデータ格納メモリ202にて格納されている、帳票識別辞書部204にて登録済の特定帳票と認識することができた帳票に関するイメージデータについて、定義体格納部208からの、イメージデータに対応する定義体情報とを入力され、イメージデータを定義体情報に従って文字認識処理を行なうものである。
さらに、文字認識結果格納部211は、文字認識部210にて認識された文字情報を格納するものである。
【0068】
上記のように構成された帳票識別装置の動作を、登録ステップ時及び帳票判別ステップ時に分けて、以下に説明する。
〔登録ステップ時の処理〕
先ず、図4に示す登録ステップ動作時に着目した制御ブロック図、図5に示す登録ステップ動作時の動作を説明するためのフローチャート及び図3を用いて、帳票識別装置の登録ステップ時の動作を以下に説明する。
【0069】
即ち、図3に示すように、オペレータの操作により、イメージデータ読取装置101において、帳票106(例えば、電気料金払込通知書)のイメージデータを読み取ると(ステップS501)、イメージデータ格納メモリ202では読み取られたイメージデータを一旦格納するとともに(ステップS502)、ハードディスク103へも、このイメージデータを格納することにより、イメージデータ読取装置101にて読み取られた全イメージデータを格納しておく(ステップS503)。
【0070】
なお、このイメージデータ読取装置101にて読み取られたイメージデータは、図3に示すように、ディスプレイ104を介して表示される(ステップS504)。
ここで、イメージデータ格納メモリ202及びハードディスク103に絡納されたイメージデータが、初めて読み取られた帳票に関するイメージデータである場合は、以下に示すように帳票識別情報を帳票登録辞書部204に格納する。
【0071】
即ち、オペレータがディスプレイ104を参照しながら、入力部105を操作することにより、イメージデータ切り出し部203に対して抽出する対象となるユニーク情報を複数箇所指示する(ステップS505)。
【0072】
イメージデータ切り出し部203においては、イメージデータ格納メモリ202に格納された帳票のイメージデータから、帳票上に記載されたユニーク情報が指示されると、ユニーク情報に係る位置情報、大きさ情報及びデータ情報を自動的に抽出し(ステップS506)、帳票識別情報として帳票識別辞書部204に登録する(ステップS507)。
【0073】
図3の場合を前述したが、例えば、オペレータが入力手段105を操作することにより、第1のユニーク情報D1として払込通知書の払込金の内容を示す電気料金を指定するとともに、第2のユニーク情報D2として払込人の名称を示す‘富士一郎’を指定する。すると、イメージデータ切り出し部203では、上記の第1の情報における位置情報、大きさ情報及びデータ情報を格納するとともに、第2の情報における位置情報、大きさ情報及びデータ情報を抽出する。ユニーク情報を複数指定し順次抽出する。
【0074】
これにより、抽出された帳票Bの帳票識別情報を、ID番号が‘0102’の帳票種別Bの帳票識別情報として、帳票識別辞書部204の領域204bに格納する。
なお、この帳票識別装置においては、イメージデータ切り出し部203で切り出されたイメージデータは、帳票の識別のためにのみ用いられている。
【0075】
また、この帳票識別装置においては、1つの帳票について複数の帳票識別情報を登録することにより、イメージデータの正規化処理を施すことなく、検証ステップ及び帳票判別ステップにおいて確実に帳票を識別できるようになっている。
【0076】
〔帳票判別ステップ時の動作〕
次に、図6に示す帳票判別用ステップ動作時に着目した制御ブロック図と、図7に示す帳票判別ステップ時の動作を説明するためのフローチャートとを用いて、本実施形態にかかる帳票識別装置の帳票判別ステップ時の動作を以下に説明する。
【0077】
上記検証ステップでは、ハードディスク103に格納されている全帳票のイメージについて、帳票識別辞書部204にて登録された帳票識別情報を用いて帳票を特定できるかを検証することができる。この検証が完了すると、実際の帳票判別時においては、任意の帳票のイメージデータについて、以下に示すような帳票種別を特定する判別ステップとしての動作が行なわれる。
【0078】
即ち、オペレータによるイメージデータ読取装置101の操作により、ある帳票のイメージデータが読み取られると(ステップS701)、読み取られたイメージデータはイメージデータ格納メモリ202に一旦格納される(ステップS702)。
【0079】
次に、イメージデータ切り出し部203では、イメージデータ格納メモリ202に一旦格納されたイメージデータについて、帳票識別辞書部204から順次選択された帳票種別における帳票識別情報を構成する位置情報及び大きさ情報に基づいて、複数箇所のイメージデータ(識別情報)を抽出し切り出す(ステップS703、S704)。
【0080】
続いて、データ比較部205では、イメージデータ切り出し部203にて切り出された全てのイメージデータのデータ情報と、当該帳票識別情報を構成するデータ情報との一致度を算出することにより比較判定を行なう(ステップS705)。
【0081】
さらに、帳票判定部207では、データ比較部205からの比較判定結果として算出された一致度と閾値設定部206にて設定されている一致度の判定基準とを比較することにより、イメージデータ読取装置101にて読み取ったイメージデータが帳票識別辞書部204からの帳票識別情報により帳票種別を特定できるか否かを判定する(ステップS706)。
【0082】
なお、帳票判定部207における判定の際には、イメージデータ切り出し部203にて切り出された複数箇所のイメージデータの内で、一つでも帳票識別辞書部204からの帳票識別情報に一致しない場合は、他の種別の帳票と判定する。
【0083】
具体的には、ステップS706において、例えば、イメージデータ読取装置101から第1の帳票種別Aのイメージデータを読み込んだ場合に、比較対象となる帳票識別辞書部204から順次読み出される帳票識別情報が、第1の帳票種別Aに関するものであった場合、帳票識別情報について一致すると判定され(Y)、読み込んだイメージデータが該当する帳票種別と特定される。この時、特定された帳票種別を制御部201内の図示しないメモリに記録しておく(ステップS707)。
【0084】
また、イメージデータ読取装置101から第1の帳票種別Aのイメージデータを読み込む一方、例えば、比較対象として帳票識別辞書部204から順次読み出された帳票識別情報が第2の帳票種別Bに関するものであった場合、一致しない(N)と判定される。このとき、帳票種別を特定できないから、記録する必要がなく、ステップ707を経由しないでステップS708に進む。そして、まだ、辞書部204の帳票種別全てについて一致度を判定していなければ(N)、ステップS703に戻り、再び帳票識別辞書部204から他の帳票種別に関する帳票識別情報を用いて一致度の判定を行なう。
【0085】
その後、イメージデータ読取装置101にて読み取ったイメージデータについて、帳票識別辞書部204に格納されている全帳票種別毎の帳票識別情報に基づき、上述の場合と同様の、帳票識別情報の一致度の判定を行なう(ステップS708)。
【0086】
ここで、上述の一致度の判定によって、ステップS709において、イメージデータ読取装置101で読み取ったイメージデータについて1種類の帳票種別に特定することができた場合(Y)、特定した帳票種別をオペレータに通知するとともに、その種別を定義体格納部208に出力する(ステップS710)。
【0087】
一方、1種類の帳票種別に特定することができなかった場合(N)、オペレータに対して、例えばディスプレイ104に表示をする等により帳票特定不可を通知する(ステップS711)。
【0088】
なお、定義体格納部208では、1種類に特定された帳票種別を入力されると、定義体格納テーブル211から、特定された帳票種別に対応する定義体情報(読取位置情報、文字属性情報、読取桁数等)を読み出す。
【0089】
これにより、文字認識部209においては、この定義体情報とイメージデータ格納メモリ202に格納されているイメージデータ読取装置101にてイメージデータを読み取った帳票に記載されている文字情報を認識して、認識結果としての文字情報を文字認識結果格納部210に格納しておく。
【0090】
従って、判別ステップ時において、任意の帳票のイメージデータをイメージデータ読取装置101によって読み取り、この任意の帳票のイメージデータ中に、帳票識別辞書部204に登録されている帳票識別情報があるかどうかを参照することにより、任意の帳票が特定帳票であるかどうかを識別して、文字認識を行なうことができる。
【0091】
このように、上記の帳票識別装置は、イメージデータ読取装置101、イメージデータ格納メモリ202、ハードディスク103、イメージデータ切り出し部203、帳票識別辞書部204、データ比較部205及び帳票判定部207を備えた構成になっている。この構成により、帳票判別時において、イメージデータ読取装置101でイメージデータを読み取った帳票の種別を自動識別することができる。そして、イメージ読取装置101にて読み取るべき帳票が複数種類混在していても、オペレータは帳票毎の定義体を意識することなく処理することができ、作業の効率化を図ることができる。さらに、帳票自体の識別用のID番号等を記載しておく必要がなくなるので、一般的な帳票を用いることができ、既存のシステムに対して容易に適応することができる。
【0092】
また、帳票識別辞書部204への帳票識別情報の登録時においては、オペレータがディスプレイ104に表示された登録対象帳票のイメージデータを見ながら指定するだけで、自動的に必要な帳票識別情報を取り込むことができるので、帳票識別用の辞書作成が容易となり、作業の効率化を図ることができる。
【0093】
また、オペレータが識別情報を指定することにより抽出される帳票識別情報は、識別情報が帳票中の複数箇所を指示することにより、1箇所の場合に比して高精度で帳票の特定が可能となる。
【0094】
以上のように、上記提案された帳票識別装置によれば、私製伝票等の多種多様なフォーマットを有する帳票について識別処理を行うことができるようになった。
しかし、最近使われている私製伝票等には、カラー化されたものが多い。帳票種別を識別するのに好都合な特徴、例えば、ロゴマーク等はカラー化されているものが多い。また、中には、同じフォーマットでも色を違えて異なる帳票として使い分ける場合もある。
【0095】
勿論、上記帳票識別装置でも、帳票の特徴としてカラー化された部分を指定して帳票識別情報を得ることが可能である。ところが、上記帳票識別装置では、各帳票における複数の帳票識別情報を登録する際に、カラー化された部分を指定しても、そこから取得する識別情報は、コンピュータ処理が2値で行われる都合上モノクロ情報で処理し、そのモノクロのイメージ同士で特徴を突き合わせることになる。そのため、カラー情報もモノクロ情報に置き換えられ、色としての特徴は薄れることになる。
【0096】
また、帳票が地色を有する場合には、コントラストが低下して識別情報の抽出精度が落ちてしまう。しかも、カラー印刷された帳票の場合には、印刷時の誤差や読み取り時の誤差で色調が変化しやすく、滲みも発生する。また、掠れや汚れにも影響を受けやすい。このため、モノクロのイメージ同士で比較したのでは識別精度が落ち、さらに、ディジタル情報化されたカラー画像同士を単純に比較しても、その差が大きくなり、正確な識別を行えない。
【0097】
そのため、カラー情報が帳票を識別する上で特徴を有していても、カラー部分を有効な識別情報とすることができない。もし、帳票の識別の際に、カラー情報も利用できれば、識別能力が格段に向上することは明らかである。
【0098】
そこで、本実施形態では、帳票識別に使う帳票識別情報についてカラー情報に基づいてデータ情報を抽出できるようにして、色変動があっても安定的でかつ精度良く帳票を識別することができるようにした帳票識別装置を提供する。
【0099】
次に、本実施形態における色情報に基づいて識別情報を抽出する原理について、図8を参照して、説明する。
一般に、色は成分に分離すると、3原色からなることはよく知られたことである。本発明においても、3原色の考え方を採用するものである。しかし、説明を簡単にする都合上、図8では、便宜的に2成分のみを示している。
【0100】
図8において、横軸は、例えば、赤成分Rを示し、矢印方向に行くほど濃くなることを表し、そして、縦軸は、例えば、緑成分Gを示し、矢印方向に行くほど濃くなることを表している。図8では、青成分が示されていないが、青成分は紙面に垂直方向で表わせる。したがって、中心Oは白を表し、各成分の濃度が大きくなると黒に近づくことを示している。ただ、図では、各軸の尺度は異なって表示している。
【0101】
図3で説明したように、帳票登録時において、帳票106をイメージデータ読取装置101で読み取り、ディスプレイ104に帳票イメージを表示させ、入力手段105で帳票の特徴部分を指定し、帳票識別情報を抽出する。このとき、イメージデータ読取装置101の読み取りを全画面をカラー化しても、また抽出部分の読み取り部分だけをカラー化してもよい。
【0102】
図8では、抽出対象として、例えば、帳票種別Bの‘電気料金’の領域を指定して、指定した抽出部分のイメージデータを読み取る場合を示している。このイメージデータから各色成分を分析すると、図中の複数の点で表される。抽出対象が帳票であるため、色成分を分析すると、不連続な分布となる。図では抽出対象が多色刷りとなっている場合を示している。
【0103】
図8で示された各成分に対する濃度分布では、緑成分Gと赤成分Rとを見たとき、破線で示した点のグループgは、緑成分Gが他のグループr1、r2及びr3より顕著に濃く、他のグループと区別できる。つまり、グループgの色成分は、抽出部のカラーイメージに近い色の成分である。
【0104】
そこで、本発明では、グループgが他のグループr1、r2及びr3と区別できることを利用する。例えば、グループgとグループr1、r2及びr3との中間点をそれぞれ求め、これらの中間点を通る実線aを作成する。ここで、この実線aを境界とし、緑成分G側をA領域、そしてそうでない側をB領域に分離する。この境界線aを色分離パラメータとする。この緑成分Gに対する色分離パラメータを設定することにより、抽出されたイメージデータから緑成分Gが分析されたとき、緑成分がA領域内にあれば、データが存在するとし、モノクロデータと同等のデータ情報として識別情報に採用する。そうでなく、B領域にある場合には、識別情報として採用しない。したがって、色情報を識別に使用するには、分離した色成分を指定し、そして、A領域を特定する条件、即ち境界線aを分離パラメータとしてそれぞれ識別情報辞書部204bに格納しておく。
【0105】
そのため、カラーイメージ同士を比較する際に、色が完全に一致していないと識別できなかったが、特定の色成分を指定し、境界線aを設定したことにより、印刷時又は読み取り時に誤差があったとしても、その特定の色成分が境界線aのA領域内にあれば、モノクロデータとした識別情報とするので、抽出部分の特徴を十分に特定することができ、色調の変動、掠れ又は汚れ等による影響を排除でき、しかも、データ上では地色との関係もなくなる。
【0106】
また、色情報に基づいて識別する場合について説明したが、モノクロによる抽出対象であっても、上述の抽出原理を適用できるものである。つまり、色の3原色の原理によれば、白は、色の3成分が全くない状態であり、反対に、黒は、色の3成分がそれぞれ最大値にある状態である。そうすると、抽出部分がモノクロである場合、色成分抽出結果は、その3成分の濃度分布はいずれも最大値付近を示すことが明かであるから、3成分のどれか1つを選択して指定すれば、識別情報としてのデータ抽出を行うことができる。
【0107】
よって、抽出対象にカラーとモノクロが混在していても、上述のように、指定された色成分に係る色分離パラメータの設定により、モノクロ情報も含めて確実な識別情報を得ることができる。
【0108】
以上、色情報の抽出原理について説明したが、図8に示した図をディスプレイ104の画面に、抽出部分の抽出結果を表示しながら、色成分の指定及び分離パラメータの設定を行う。そして、色情報の抽出は予め未使用の帳票による必要がなく、イメージデータ読取装置101で読み取ることができれば、使用済の帳票であっても色情報の抽出が可能であり、識別情報に登録ができる。
【0109】
次に、本実施形態による上記の色抽出原理を用いた帳票識別装置について、図9乃至図12を参照して説明する。
本実施形態の帳票識別装置における制御部の基本的構成は、図2に示したブロック構成と同様であるが、制御部は上記色抽出原理を具体化するための色成分抽出部及び色成分分離部を更に有し、帳票識別辞書部の各帳票識別情報に色分離パラメータとデータ情報とを追加して格納する点で、図2のブロック構成と異なっている。
色成分抽出用に入力手段105′を設けているが、入力手段105を兼用してもよい。
【0110】
そこで、本実施形態による帳票識別装置の動作について、登録ステップ時及び帳票判別ステップ時毎に、以下に説明する。
〔登録ステップ時の処理〕
図9は、図4に示した制御ブロック図と同様に、本発明の帳票識別装置において特に登録ステップ動作時に着目した制御ブロック図の構成を示している。
【0111】
図9に示した登録ステップ動作時に着目した制御ブロックは、イメージ格納メモリ202、イメージデータ切り出し部203、帳票識別辞書部204で構成される。そして、イメージ格納メモリ202にはイメージ読取装置101から帳票を読み取ったデータが格納されるようになっている。その読み取ったデータを全帳票について格納しておくハードディスク103が接続されていることでは、図4に示した制御ブロック図の構成と同様である。しかし、本発明の帳票識別装置では、さらに、色成分抽出部と色成分分離部とが追加されている点が特徴である。
【0112】
図10に示す登録ステップ動作時の動作を説明するためのフローチャート及び図3を用いて、帳票識別装置の登録ステップ時の動作を以下に説明する。
【0113】
即ち、図3に示すように、オペレータの操作により、イメージデータ読取装置101において、帳票106(例えば、電気料金払込通知書)のイメージデータを読み取ると(ステップS1001)、イメージデータ格納メモリ202では読み取られたイメージデータを一旦格納するとともに、ハードディスク103へも、このイメージデータを格納することにより、イメージデータ読取装置101にて読み取られた全イメージデータを格納しておく(ステップS1002)。
【0114】
なお、このイメージデータ読取装置101にて読み取られたイメージデータは、図3に示すように、ディスプレイ104を介して表示される(ステップS1003)。
ここで、イメージデータ格納メモリ202及びハードディスク103に絡納されたイメージデータが、初めて読み取られた帳票に関するイメージデータである場合は、以下に示すように帳票識別情報を帳票登録辞書部204に格納する。
【0115】
即ち、オペレータがディスプレイ104を参照しながら、入力手段105を操作することにより、イメージデータ切り出し部203に対して抽出する対象となるユニーク情報の領域を指定する(ステップS1004)。例えば、図3に示したように、第1の帳票識別情報である‘電気料金’を枠で囲むことにより指定する。
【0116】
そこで、帳票識別情報を指定されると、識別情報の位置(X0、Y0)とその大きさを特定できるので、イメージ切出し部203はイメージデータ格納メモリ202から帳票上に記載されたユニーク情報に該当する抽出用イメージデータを自動的に切り出す(ステップS1005)。
【0117】
次に、切り出された抽出用イメージデータは色成分抽出部213に送られ、色成分抽出部213では、切り出されたイメージデータから色情報を分析し、上述した色成分抽出原理に従い、図8に示したような各色成分に関する濃度分布を作成し、ディスプレイ104にその分布状態を表示する(ステップS1006)。オペレータは入力手段105′により表示状態を指示できる。
【0118】
そして、オペレータは、ディスプレイ104に表示された各色成分の濃度分布をみて、各色成分の中で特徴的な色成分を選択し、入力手段105′を操作してその色成分と、この色成分に係る境界線aを色成分抽出部213に指示する。色成分抽出部213は、この指示を受けて色分離パラメータを決定する(ステップS1007)。
【0119】
決定された色分離パラメータは色成分分離部214に送られる。ここで、色成分分離部214は、この色分離パラメータに従って、切り出されたイメージデータからデータ情報を抽出する(ステップS1008)。
【0120】
次に、上記で作成された位置情報、大きさ情報、色分離パラメータ、そして、識別情報に関するデータ情報を帳票識別辞書部204の当該帳票の帳票識別情報欄に登録する(ステップS1009)。
なお、複数の抽出対象を指定する場合には、上記のステップS1004からステップS1009をその抽出対象毎に繰り返して識別情報を取得する。複数の抽出対象に対応して帳票識別辞書部204における当該帳票の帳票識別情報毎に登録する。
【0121】
前述した図3を参照すると、例えば、オペレータが入力手段105を操作することにより、第1のユニーク情報として払込通知書の払込金の内容を示す電気料金を指定するとともに、第2のユニーク情報として払込人の名称を示す‘富士一郎’を指定する。すると、イメージデータ切り出し部203では、上記の第1の情報における位置情報、大きさ情報、色分離パラメータ及びデータ情報を格納するとともに、第2の情報における位置情報、大きさ情報、色分離パラメータ及びデータ情報を抽出し、帳票識別辞書部204の領域204aに格納する。
【0122】
この様にして、帳票Bについても、複数のユニーク情報に関する各情報を抽出し、得られた帳票識別情報を、ID番号が‘0102’の帳票種別Bの帳票識別情報として、帳票識別辞書部204の領域204bに格納する。
なお、この帳票識別装置においては、イメージデータ切り出し部203で切り出されたイメージデータは、帳票の識別のためにのみ用いられる。
【0123】
〔帳票判別ステップ時の動作〕
図11は、図6に示したと同様に、帳票判別用ステップ動作時に着目した制御ブロック図を示している。
【0124】
図11に示した制御ブロックは、イメージ格納メモリ202、イメージデータ切り出し部203、帳票識別辞書部204、データ比較部205、閾値設定部206及び帳票判定部207で構成され、そして、イメージ格納メモリ202にはイメージ読取装置101から帳票を読み取ったデータが格納されるようになっていることでは、図6に示した制御ブロック図の構成と同様である。しかし、図11に示した制御ブロックは、本実施形態の帳票識別装置では、色成分分離部214が追加されている点が特徴である。
【0125】
図9に示した登録ステップ動作時の制御ブロックには、色成分抽出部213が構成に入っていたが、図11に示した制御ブロックでは、識別情報を登録する必要がないので、色成分抽出部213はこれらの構成に含まれない。
【0126】
図12に示す帳票判別ステップ時の動作を説明するためのフローチャートを用いて、本発明の実施形態にかかる帳票識別装置の帳票判別ステップ時の動作を以下に説明する。
上述したように、検証ステップ時においては、ハードディスク103に格納されている全帳票のイメージについて、帳票識別辞書部204にて登録された帳票識別情報を用いて特定できるかを検証しているが、検証が完了すると、実際の帳票判別時においては、任意の帳票のイメージデータについて、以下に示すような帳票種別を特定する判別ステップとしての動作が行なわれる。
【0127】
まず、オペレータによるイメージデータ読取装置101の操作により、ある帳票のイメージデータが読み取られる。読み取られたイメージデータはイメージデータ格納メモリ202に一旦格納される(ステップS1201)。
次に、イメージデータ切り出し部203は、帳票識別辞書部204から格納されている帳票種別順に、その帳票毎に帳票識別情報を順次選択して読み出す(ステップS1202)。
【0128】
続いて、最初の帳票種別における抽出対象である帳票識別情報を構成する位置情報及び大きさ情報に基づいて、そのイメージデータ格納メモリ202に一旦格納されたイメージデータから該当データを切り出す(ステップS1203)。
【0129】
そして、色成分分離部214は、帳票識別辞書部204における最初の帳票種別の帳票識別情報から色分離パラメータを読み出し、この色分離パラメータをステップS1203で切り出したデータに適用する。ここで、この切り出したイメージデータについて指定されている色成分が分離され、上述の抽出原理に従ってデータ情報が抽出される(ステップS1204)。
【0130】
ステップS1204で作成されたデータ情報は、データ比較部205に送られ、ここで抽出されたデータ情報と、最初の帳票種別の帳票識別情報から読みだしたデータ情報とを比較し、データ情報との一致度を算出する(ステップS1205)。
【0131】
ここで、最初の帳票種別における1つの帳票識別情報について一致度の算出を終る。次いで、順次複数の帳票識別情報についての一致度を算出し、全ての帳票識別情報について行う。そして、全ての識別情報の一致度が閾値設定部206で設定されている一致度と比較され、それらの一致度全てが判定基準を満たしているかどうかが判断される(ステップS1206)。
【0132】
それらの一致度全てが判定基準を満たしている場合(Y)は、イメージ読み取り装置101で読み取った帳票が最初の帳票種別であると特定されたことになり、この時、特定された帳票種別を制御部201内の図示しないメモリに、この結果を記録する(ステップS1207)。そうでない場合(N)は、特定されないことになるので、ステップS1207の記録は行わない。
【0133】
この様にして、帳票識別辞書部204に格納されている最初の帳票種別との識別動作は終了するが、帳票識別辞書部204に格納されている全ての帳票種別との識別動作を実行する(ステップS1208)。
【0134】
ここで、もし、帳票識別辞書部204に格納されている全ての帳票種別について識別動作が終了していない場合(N)には、全ての帳票について終了するまで、ステップ1203からステップS1208を繰り返す。
【0135】
上記識別動作が全ての帳票について終了した場合(Y)は、ステップS1207で記録した帳票種別があるかどうかを判断する(ステップS1209)。1つ以上記録されている場合(Y)、1つだけであれば、その帳票種別を、複数記録されているときは、最も近い帳票種別を通知、あるいはディスプレイ104に表示する(ステップS1210)。
一方、ステップS1209で帳票種別の記録がない、つまり特定帳票種別が1つもない場合(N)には、イメージ読み取り装置101で読み取った帳票が帳票種別を特定できなかったことを通知または表示する。
【0136】
以上の様にして、イメージデータ読取装置101で読み取った帳票についての識別が終了し、次の識別を要する帳票をイメージデータ読取装置101で読み取って識別動作を繰り返す。
【0137】
以上のように、本実施形態の帳票識別装置によれば、イメージデータ読取装置101、イメージデータ格納メモリ202、ハードディスク103、イメージデータ切り出し部203、帳票識別辞書部204、データ比較部205及び帳票判定部207を備え、さらに、色成分抽出部及び色成分分離部を追加した。そして、帳票から読み取ったイメージデータから帳票識別情報として切り取ったデータについて、色成分を分離し、その各色成分の濃度分布から特徴を示す色成分を指定し、色分離パラメータを設定できるようにした。
【0138】
この色分離パラメータを設定できることにより、色情報を比較判別しやすいモノクロ情報に置き換えることができる。よって、抽出対象領域における色の掠れや、印刷または読み取り時における帳票間の色調の変動に対処することができ、さらに、帳票の地色の影響を除くことができる。そのため、帳票識別情報の精度を一層向上することができる。
【0139】
帳票判別時においては、イメージデータ読取装置101でイメージデータを読み取った帳票の種別を自動識別することができ、色成分抽出に基づく色分離パラメータにより、イメージデータから切り出したデータを精度を向上でき、イメージ読取装置101にて読み取るべき帳票が複数種類混在していても、オペレータは帳票毎の定義体を意識することなく処理することができ、作業の効率化を図ることができるほか、帳票自体の識別用のID番号等を記載しておく必要がなく、一般的な帳票を用いることができ、既存のシステムに対して容易に適応することができる。
【0140】
また、帳票識別辞書部204への帳票識別情報の登録時においては、オペレータがディスプレイ104に表示された登録対象帳票のイメージデータを見ながら指定するだけで、自動的に必要な帳票識別情報を取り込むことができるので、帳票識別用の辞書作成が容易となり、作業の効率化を図ることができる。
【0141】
さらに、オペレータが識別情報を指定することにより抽出される帳票識別情報は、識別情報が帳票中の複数箇所を指示することにより、1箇所の場合に比して高精度で帳票の特定が可能となる。
【図面の簡単な説明】
【図1】 帳票識別装置の構成を示す模式図である。
【図2】 本発明の基礎となる帳票識別装置を示すブロック図である。
【図3】 本発明の基礎となる帳票識別装置における登録ステップ動作時の動作を説明するための図である。
【図4】 本発明の基礎となる帳票識別装置の登録ステップ動作時に着目した制御ブロック図である。
【図5】 本発明の基礎となる帳票識別装置の登録ステップ動作時の動作を説明するためのフローチャートである。
【図6】 本発明の基礎となる帳票識別装置の帳票判別ステップ動作時に着目した制御ブロック図である。
【図7】 本発明の基礎となる帳票識別装置の帳票判別ステップ動作時の動作を説明するためのフローチャートである。
【図8】 本発明における色成分抽出と分離パラメータの決定例を示す図である。
【図9】 帳票識別装置の登録ステップ動作時に着目した本発明の実施形態の制御ブロック図である。
【図10】 帳票識別装置の登録ステップ動作時の本発明の実施形態の動作を説明するためのフローチャートである。
【図11】 帳票識別装置の帳票判別ステップ動作時に着目した本発明の実施形態の制御ブロック図である。
【図12】 帳票識別装置の帳票判別ステップ動作時の本発明の実施形態の動作を説明するためのフローチャートである。

Claims (1)

  1. 任意のフォーマットで作成された帳票からイメージデータを読み取るイメージ読取手段と、
    前記イメージ読取手段で読み取られた前記イメージデータから前記帳票の指定された特定部分に対応する特定イメージデータを切り出すイメージデータ切出手段と、
    前記切出手段で切り出された前記特定イメージデータの色成分を分析し、該特定イメージデータにおける指定された特定の色成分に対する色空間上の濃度分布範囲を決める色分離パラメータを設定し、格納する色成分抽出手段と、
    前記色成分抽出手段により設定された前記色分離パラメータに基づいて前記切り出された前記イメージデータから前記特定部分の識別情報を作成する色成分分離手段と、
    前記色成分抽出手段で設定された前記色分離パラメータと前記識別情報とを格納する帳票識別辞書部と、
    識別すべき帳票より読み取って得られたイメージデータから前記帳票識別辞書部に格納された前記色分離パラメータに基づいて作成された識別情報と、前記帳票識別辞書部に格納された前記識別情報とを比較判定する帳票判定部と、
    を備え、作成された識別情報により前記帳票を識別することを特徴とする帳票識別装置。
JP2001528910A 1999-09-30 1999-09-30 帳票識別装置及び識別方法 Expired - Fee Related JP3946043B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP1999/005398 WO2001026024A1 (fr) 1999-09-30 1999-09-30 Dispositif et procede d'identification de document

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2007010329A Division JP4418823B2 (ja) 2007-01-19 2007-01-19 帳票識別装置及びその識別方法

Publications (1)

Publication Number Publication Date
JP3946043B2 true JP3946043B2 (ja) 2007-07-18

Family

ID=14236888

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001528910A Expired - Fee Related JP3946043B2 (ja) 1999-09-30 1999-09-30 帳票識別装置及び識別方法

Country Status (3)

Country Link
US (1) US7110600B1 (ja)
JP (1) JP3946043B2 (ja)
WO (1) WO2001026024A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5060053B2 (ja) * 2006-01-20 2012-10-31 富士通株式会社 媒体判別情報データベース作成装置及び媒体判別情報データベース管理装置
JP2009271831A (ja) * 2008-05-09 2009-11-19 Sharp Corp 画像データ処理装置
JP6325407B2 (ja) * 2014-09-29 2018-05-16 株式会社東芝 情報処理装置、情報処理方法及びプログラム
US20210264099A1 (en) * 2020-02-26 2021-08-26 Fujifilm Business Innovation Corp. Information processing device and computer readable medium

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4731859A (en) * 1985-09-20 1988-03-15 Environmental Research Institute Of Michigan Multispectral/spatial pattern recognition system
JP2933957B2 (ja) * 1989-11-20 1999-08-16 キヤノン株式会社 画像形成装置
EP0435167A3 (en) * 1989-12-20 1991-07-10 Dai Nippon Insatsu Kabushiki Kaisha Cut mask preparation method and apparatus
JPH03220667A (ja) * 1990-01-25 1991-09-27 Toshiba Corp 帳票印刷装置
US5459797A (en) * 1991-03-30 1995-10-17 Kabushiki Kaisha Toshiba Character reading system
US5579407A (en) * 1992-04-21 1996-11-26 Murez; James D. Optical character classification
JP3469345B2 (ja) * 1995-03-16 2003-11-25 株式会社東芝 画像のファイリング装置及びファイリング方法
WO1997041522A1 (en) * 1996-05-01 1997-11-06 Casio Computer Co., Ltd. Document output device
JPH10124610A (ja) * 1996-10-23 1998-05-15 Nec Corp 光学式文字読取装置
JPH10240658A (ja) * 1996-12-26 1998-09-11 Canon Inc 情報処理装置及びその方法
JP3394162B2 (ja) * 1997-07-29 2003-04-07 沖電気工業株式会社 帳票分類処理システム
US6011595A (en) * 1997-09-19 2000-01-04 Eastman Kodak Company Method for segmenting a digital image into a foreground region and a key color region
US6240424B1 (en) * 1998-04-22 2001-05-29 Nbc Usa, Inc. Method and system for similarity-based image classification
JP2000251012A (ja) * 1999-03-01 2000-09-14 Hitachi Ltd 帳票処理方法およびシステム

Also Published As

Publication number Publication date
US7110600B1 (en) 2006-09-19
WO2001026024A1 (fr) 2001-04-12

Similar Documents

Publication Publication Date Title
JP3088019B2 (ja) 媒体処理装置及び媒体処理方法
JP4347677B2 (ja) 帳票ocrプログラム、方法及び装置
JP4078009B2 (ja) 帳票における文字記録領域の検出装置、帳票における文字記録領域の検出方法、記憶媒体及び帳票フォーマット作成装置
US6320983B1 (en) Method and apparatus for character recognition, and computer-readable recording medium with a program making a computer execute the method recorded therein
JP2016048444A (ja) 帳票識別プログラム、帳票識別装置、帳票識別システム、および帳票識別方法
US20160379186A1 (en) Element level confidence scoring of elements of a payment instrument for exceptions processing
KR100707943B1 (ko) 광학문자인식 기능을 활용한 재무제표인식 방법 및 그시스템
JP2008312139A (ja) 印刷装置及び印刷方法
JP3946043B2 (ja) 帳票識別装置及び識別方法
JP4418823B2 (ja) 帳票識別装置及びその識別方法
JP4566510B2 (ja) 帳票認識装置および帳票認識方法
JP3463008B2 (ja) 媒体処理方法及び媒体処理装置
TWM626292U (zh) 業務導向要項鍵值辨識系統
JP7435118B2 (ja) 情報処理装置及びプログラム
JP4347675B2 (ja) 帳票ocrプログラム、方法及び装置
JPH06290251A (ja) 電子ファイル装置の文書画像処理方法
JP2000113100A (ja) 媒体処理方法及び媒体処理装置
CN113449763A (zh) 信息处理装置以及记录媒体
JP4517822B2 (ja) 画像処理装置及びプログラム
JPH11265422A (ja) マーク認識方法及び装置並びに記録媒体
JP3090070B2 (ja) 帳票識別方法及び装置
TWI807467B (zh) 要項偵測模型建立方法、業務導向要項鍵值辨識系統及方法
JP2002032704A (ja) 帳票処理システム、帳票処理方法、記憶媒体、帳票
JP2965165B2 (ja) パターン認識方法及び認識用辞書作成方法
US11995907B2 (en) Distributed computer system for document authentication

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060728

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060829

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061030

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20061121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061221

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20070228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070313

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070410

R150 Certificate of patent or registration of utility model

Ref document number: 3946043

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110420

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110420

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120420

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130420

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140420

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees