JP2021047688A - 帳票認識方法およびプログラム - Google Patents
帳票認識方法およびプログラム Download PDFInfo
- Publication number
- JP2021047688A JP2021047688A JP2019170418A JP2019170418A JP2021047688A JP 2021047688 A JP2021047688 A JP 2021047688A JP 2019170418 A JP2019170418 A JP 2019170418A JP 2019170418 A JP2019170418 A JP 2019170418A JP 2021047688 A JP2021047688 A JP 2021047688A
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- item
- template
- recognition template
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 239000000284 extract Substances 0.000 claims description 15
- 238000012545 processing Methods 0.000 description 41
- 230000006870 function Effects 0.000 description 25
- 238000012015 optical character recognition Methods 0.000 description 19
- 238000012790 confirmation Methods 0.000 description 15
- 238000005516 engineering process Methods 0.000 description 12
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000012546 transfer Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 239000000470 constituent Substances 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
Images
Landscapes
- Character Input (AREA)
Abstract
【課題】帳票認識技術に関して、ユーザによる認識テンプレートの作成・登録の作業の手間を削減できる技術等を提供する。【解決手段】帳票認識方法は、認識テンプレート作成指示を入力する第1ステップと、帳票画像に対し、登録済みの第1認識テンプレートが適用できる場合には、適用してOCRによる認識の結果を取得し、表示画面に認識の結果および第1認識テンプレートの情報を表示する第2ステップと、第1認識テンプレートが適用できない場合には、第2認識テンプレートを作成し、表示画面に第2認識テンプレートの情報を表示する第3ステップと、表示画面で、ユーザの操作に基づいて、第1または第2認識テンプレートに対する確認および修正を行い、第1または第2認識テンプレートを登録する第4ステップと、帳票画像に対し、第2認識テンプレートを適用してOCRによる認識の結果を表示する第5ステップと、を有する。【選択図】図2
Description
本発明は、情報処理技術に関し、特に、帳票認識技術に関する。
帳票認識技術としてOCR技術等が挙げられる。OCR(Optical Character Recognition:光学文字認識)による帳票認識では、帳票からの画像読み取りによって画像ファイルにされた帳票画像から、文字や図形等の情報を読み取る。OCR装置は、OCR機能を備える。OCR機能は、ソフトウェアプログラム処理等で実現できる。OCRによる帳票認識は、主に定型帳票を対象としている。この帳票認識のためには、予め、帳票上の文字や図形等の認識対象物の位置情報を計測または手動設定して、帳票認識用のテンプレート(認識テンプレートと記載する場合がある)としてシステムに登録しておく必要がある。OCR装置は、帳票認識の際、帳票画像と認識テンプレートとの比較に基づいて、文字や図形等を認識する。
上記帳票認識に係わる先行技術例としては、特開平9−330363号公報(特許文献1)、特許第3088019号公報(特許文献2)が挙げられる。特許文献1には、帳票読取装置として、記載事項及び記載位置がそれぞれ異なる帳票であっても、各記載事項をそれぞれ区別して読み取る旨が記載されている。特許文献1の技術は、予め用意しておいたテンプレートを、帳票上に記載されたIDによって使い分ける旨の技術であり、テンプレートそのものには汎用性は無いと考えられる。
特許文献2には、媒体処理装置等として、読み取ったイメージのデータから、解析用辞書を参照してイメージのレイアウトの特徴を抽出し、その特徴から認識すべき情報の存在する位置を特定する旨が記載されている。特許文献2の技術は、帳票レイアウトを自動解析し学習する旨の技術であり、帳票内の表の解析に関しては、表の特徴をビット列に変換して処理する旨が記載されている。
従来技術では、OCRによる帳票認識のためには、対象帳票の種類毎に、前述の認識テンプレートが必要であり、ユーザによる認識テンプレートの作成や登録の作業が必要である。従来の認識テンプレートは、帳票内の単項目毎の位置座標情報を主として持つ構成である。認識テンプレートは、基本的にはユーザが手作業で一から作成・登録する必要があるため、手間が大きい。また、対象帳票の種類・数が多いほど、それに対応して、作成・登録しなければならない認識テンプレートの種類・数も多くなり、ユーザによる作業の手間がさらに多大となる。
帳票は、項目のレイアウトに関して、様々なバリエーションを持つ場合がある。例えば、帳票内に表が設けられ、その表部分を構成する複数の項目やそれらの値の行数に関してバリエーションがある。また、例えば、帳票内に別紙貼付欄が設けられ、その貼付欄に貼り付けられる別帳票の種類や貼付位置等に関してもバリエーションがある。
従来技術では、基本構造が同じ種類の帳票の場合でも、帳票内の表の値の行数が異なる場合や、帳票内の別帳票が貼り付けられている場合等によって、レイアウトが変化する場合には、基本構造の帳票とは違う帳票とみなされる。よって、そのような帳票については、別の種類の帳票として、認識テンプレートの再登録、言い換えると別の種類の認識テンプレートの作成・登録が必要になる。従来技術では、このような帳票のレイアウトのバリエーションおよび変化には対応できず、帳票一枚につき1個以上の認識テンプレートの作成・登録が必要であった。業務分野等に応じて、複数の種類の帳票の全てのバリエーションに対応するためには、多数または莫大な数の認識テンプレートを登録しなければならない場合もある。
本発明の目的は、帳票認識技術に関して、ユーザによる認識テンプレートの作成・登録の作業の手間を削減でき、レイアウトのバリエーションを持つ各種の帳票に関する多数の認識テンプレートの作成・登録の手間を削減できる技術を提供することである。
本発明のうち代表的な実施の形態は、以下に示す構成を有することを特徴とする。一実施の形態の帳票認識方法は、コンピュータが帳票画像からOCRによる認識を行うための認識テンプレートを作成する帳票認識方法であって、前記コンピュータが実行するステップとして、ユーザの操作に基づいて、前記帳票画像についての認識テンプレート作成指示を入力する第1ステップと、前記帳票画像に対し、登録済みの第1認識テンプレートが適用できる場合には、適用してOCRによる認識の結果を取得し、表示画面に前記認識の結果および前記第1認識テンプレートの情報を表示する第2ステップと、前記帳票画像に対し、前記第1認識テンプレートが適用できない場合には、第2認識テンプレートを作成し、前記表示画面に前記第2認識テンプレートの情報を表示する第3ステップと、前記表示画面で、前記ユーザの操作に基づいて、前記第1認識テンプレートまたは前記第2認識テンプレートに対する確認および修正を行い、前記帳票画像の認識に前記第1認識テンプレートまたは前記第2認識テンプレートを適用する設定として、前記第1認識テンプレートまたは前記第2認識テンプレートを登録する第4ステップと、前記帳票画像に対し、前記第2認識テンプレートを適用してOCRによる認識の結果を取得し、前記表示画面に前記認識の結果を表示する第5ステップと、を有する。
本発明のうち代表的な実施の形態によれば、帳票認識技術に関して、ユーザによる認識テンプレートの作成・登録の作業の手間を削減でき、レイアウトのバリエーションを持つ各種の帳票に関する多数の認識テンプレートの作成・登録の手間を削減できる。
以下、本発明の実施の形態を図面に基づいて詳細に説明する。実施の形態を説明するための全図面において同一部には原則として同一符号を付し、繰り返しの説明は省略する。
(実施の形態1)
図1〜図19を用いて、本発明の実施の形態1の帳票認識方法およびプログラムについて説明する。
図1〜図19を用いて、本発明の実施の形態1の帳票認識方法およびプログラムについて説明する。
[概要]
実施の形態1の帳票認識方法は、以下のような機能に対応する処理を行うステップを有する方法である。
実施の形態1の帳票認識方法は、以下のような機能に対応する処理を行うステップを有する方法である。
(1)認識テンプレート自動作成機能: 実施の形態1の帳票認識プログラムおよび方法等の技術は、帳票認識のために必要な認識テンプレートを自動作成する。この帳票認識技術は、自動作成した認識テンプレートの情報を、所定のグラフィカル・ユーザ・インタフェース(GUI)を伴う画面に表示し、ユーザによる内容の確認や編集を受け付け、ユーザの操作に基づいて確定してDBに登録する。この帳票認識技術は、このような基本機能に加え、以下の(2)および(3)の機能を有する。
(2)表項目機能: 従来技術では、帳票内の項目として例えば表については、位置座標情報を保持していた。一方、この帳票認識技術は、帳票内の項目について、従来の位置座標情報に加え、以下の表項目情報、言い換えるとグループ項目情報を設ける。表項目情報は、配置関係に所定の規則性がある複数の項目を、1グループとみなし、繰り返し照合が可能な表項目として定義されるものである。
(3)参照項目機能: 従来技術では、帳票内の項目として例えば別紙貼付欄の別帳票については、その別帳票の項目毎の位置座標情報を保持していた。一方、この帳票認識技術は、帳票内の項目について、従来の位置座標情報に加え、以下の参照項目情報を設ける。参照項目情報は、帳票内のある範囲に対し、別帳票に対する別の認識テンプレートを参照して適用可能な参照項目として定義されるものである。
[(1)認識テンプレート自動作成機能]
認識テンプレート自動作成機能については、帳票認識装置は、帳票画像ファイルの認識結果と、DBに登録済みの既存の認識テンプレートとに基づいて、必要に応じて自動的に認識テンプレートを作成する。帳票認識装置は、既存の認識テンプレートで対応できると判断した場合、既存の認識テンプレートを適用し、対応できないと判断した場合、新たな認識テンプレートを自動作成する。帳票認識装置は、作成した認識テンプレートを画面に表示し、ユーザによる確認や編集を受け付け、ユーザによる確定に基づいてDBに登録する。
認識テンプレート自動作成機能については、帳票認識装置は、帳票画像ファイルの認識結果と、DBに登録済みの既存の認識テンプレートとに基づいて、必要に応じて自動的に認識テンプレートを作成する。帳票認識装置は、既存の認識テンプレートで対応できると判断した場合、既存の認識テンプレートを適用し、対応できないと判断した場合、新たな認識テンプレートを自動作成する。帳票認識装置は、作成した認識テンプレートを画面に表示し、ユーザによる確認や編集を受け付け、ユーザによる確定に基づいてDBに登録する。
実施の形態1では、認識テンプレートは、各単項目の単項目情報に加え、自動解析の結果、必要に応じて、表項目情報と参照項目情報とを持つ。実施の形態1では、作成される認識テンプレートは、帳票内の表構造や貼付欄内の別帳票等に関する、レイアウトのバリエーションを持つ複数の帳票に対応可能な汎用的な認識テンプレートとして得られる。
[(2)表項目機能]
表項目機能について、帳票認識装置は、認識テンプレートの作成の際には、帳票画像内の表部分についての表構造を抽出し、表の値の行数に依らずに、表構造を構成する複数の項目を1グループとして、表項目を設定する。帳票認識装置は、帳票認識時には、対象帳票画像上の表構造と、認識テンプレートの表項目とを比較し、適用できるかどうかを判断する。帳票認識装置は、認識テンプレートの表項目に対し、対象帳票画像の表の値の行数が異なる場合、列方向の各行に対する表項目の繰り返し照合を行って認識する。また、帳票認識装置は、繰り返し照合に基づいて、対象帳票画像の表と、認識テンプレートの表項目との間で、幅や高さの差、言い換えるとずれ量を算出する。このずれ量に基づいて、帳票認識装置は、対象帳票画像内で、表以下(例えば下方向または右方向)に位置する他の項目に対し、認識テンプレートの対応する項目をスライド(シフト)させて適用する。
表項目機能について、帳票認識装置は、認識テンプレートの作成の際には、帳票画像内の表部分についての表構造を抽出し、表の値の行数に依らずに、表構造を構成する複数の項目を1グループとして、表項目を設定する。帳票認識装置は、帳票認識時には、対象帳票画像上の表構造と、認識テンプレートの表項目とを比較し、適用できるかどうかを判断する。帳票認識装置は、認識テンプレートの表項目に対し、対象帳票画像の表の値の行数が異なる場合、列方向の各行に対する表項目の繰り返し照合を行って認識する。また、帳票認識装置は、繰り返し照合に基づいて、対象帳票画像の表と、認識テンプレートの表項目との間で、幅や高さの差、言い換えるとずれ量を算出する。このずれ量に基づいて、帳票認識装置は、対象帳票画像内で、表以下(例えば下方向または右方向)に位置する他の項目に対し、認識テンプレートの対応する項目をスライド(シフト)させて適用する。
[(3)参照項目機能]
参照項目機能について、帳票認識装置は、認識テンプレートを作成する際には、対象帳票画像内の帳票名文字列等の手がかりに基づいて、貼付欄等に対応する領域を抽出し、その領域内を1枚の別帳票と見立て、この領域を参照項目として設定する。この参照項目では、別帳票に対応付けられる別の認識テンプレートが参照して適用される。
参照項目機能について、帳票認識装置は、認識テンプレートを作成する際には、対象帳票画像内の帳票名文字列等の手がかりに基づいて、貼付欄等に対応する領域を抽出し、その領域内を1枚の別帳票と見立て、この領域を参照項目として設定する。この参照項目では、別帳票に対応付けられる別の認識テンプレートが参照して適用される。
[帳票認識装置]
図1は、実施の形態1の帳票認識プログラムが実装され、実施の形態1の帳票認識方法に対応する処理を行う帳票認識装置を含む、帳票認識システムの構成例を示す。実施の形態1の帳票認識プログラムは、実施の形態1の帳票認識方法に対応する処理をコンピュータに実行させるプログラムである。この帳票認識装置は、言い換えるとOCR装置であり、例えばPC等のコンピュータおよびそれに搭載される帳票認識ソフトウェア(言い換えるとOCRソフトウェア)によって実装されている。この帳票認識ソフトウェアには、実施の形態1の帳票認識プログラムが含まれている。なお、このような実装例に限らず、例えばスキャナ装置等を備える専用のOCR装置としての形態としてもよい。
図1は、実施の形態1の帳票認識プログラムが実装され、実施の形態1の帳票認識方法に対応する処理を行う帳票認識装置を含む、帳票認識システムの構成例を示す。実施の形態1の帳票認識プログラムは、実施の形態1の帳票認識方法に対応する処理をコンピュータに実行させるプログラムである。この帳票認識装置は、言い換えるとOCR装置であり、例えばPC等のコンピュータおよびそれに搭載される帳票認識ソフトウェア(言い換えるとOCRソフトウェア)によって実装されている。この帳票認識ソフトウェアには、実施の形態1の帳票認識プログラムが含まれている。なお、このような実装例に限らず、例えばスキャナ装置等を備える専用のOCR装置としての形態としてもよい。
図1の帳票認識システムは、帳票認識装置であるコンピュータ1と、スキャナ装置2と、帳票3と、ユーザとを有する。コンピュータ1には、LAN等の通信手段を介して、スキャナ装置2が接続されている。ユーザは、コンピュータ1およびスキャナ装置2を使用しながら、帳票認識等の作業を行う。スキャナ装置2は、スキャナ機能やプリンタ機能等を持つ複合機等であってもよい。
スキャナ装置2は、セットされた帳票3等の紙面を光学的に走査して画像を読み取る装置である。OCR対象の帳票3は、ユーザの操作に基づいて、まずスキャナ装置2によって画像として読み取られ、帳票画像ファイル122となり、LANを通じてコンピュータ1に送信される。コンピュータ1は、スキャナ装置2からの帳票画像ファイル122を入力・取得し、記憶装置102内に記憶する。なお、この帳票認識装置にスキャナ装置2が一体的に実装されている形態でもよい。
コンピュータ1は、演算装置101、記憶装置102、通信インタフェース装置103、入出力インタフェース装置104、入力装置105、表示装置106、外部記憶装置107等を備え、これらはバス等を介して相互に接続されている。演算装置101は、CPU、ROM、RAM等により構成され、装置全体を制御するプロセッサまたはコントローラを実現する。演算装置101は、ソフトウェアプログラム処理により実現される機能ブロックとして、帳票画像入力部11、帳票認識処理部12、認識結果出力部13、認識テンプレート作成部14、画面表示部15、および設定部16を有する。演算装置101は、記憶装置102の帳票認識プログラム121を読み出してそのプログラムに従った処理を実行することにより、認識テンプレート作成部14を含む各機能ブロックを実現する。
記憶装置102には、実施の形態1の帳票認識プログラムである帳票認識プログラム121や、帳票画像ファイル122、認識結果データ123、認識テンプレートデータ124、および設定情報125等の各種のデータや情報が記憶される。帳票画像ファイル122は、帳票3の読み取り画像データである。認識結果データ123は、帳票認識処理の結果として作成されユーザに対し出力される、帳票内の文字や図形の情報を含むデータである。認識テンプレートデータ124は、複数の認識テンプレート(例えば対応するファイル)を含み、DB(データベース)およびファイルシステム等において整理して格納される。なお、コンピュータ1の外部にDBサーバやストレージ装置等が接続され、それらに各種のデータや情報が記憶されてもよい。設定情報125は、この帳票認識装置の帳票認識機能に係わるシステム設定情報やユーザ設定情報を含む。
また、記憶装置102には、対象となる帳票3の項目毎に、予め、認識用のフォーマット情報(認識フォーマットと記載する場合がある)も設定されて記憶されている。この認識フォーマットは、認識テンプレートとは異なる。
通信インタフェース装置103は、スキャナ装置2等の外部装置との間で所定の通信インタフェースで通信処理を行う部分である。帳票認識装置は、スキャナ装置2に限らず、サーバ装置やストレージ装置等の外部装置から帳票画像ファイルを入力・取得してもよい。
入出力インタフェース装置104には、入力装置105、表示装置106、および外部記憶装置107等が接続されている。入力装置105は、例えばキーボードや操作パネルが挙げられる。ユーザは、入力装置105を通じて指示等を入力する。表示装置106は、液晶ディスプレイ等が挙げられる。表示装置106の表示画面には、後述の所定のGUIを伴う画面が表示される。この画面は、帳票認識に係わる作業用または管理用の画面である。ユーザは、表示装置106のその画面を通じて、帳票認識に係わる作業が可能であり、特に、認識テンプレートの確認や編集を含む管理作業も可能である。
外部記憶装置107は、例えばディスク装置やメモリカード装置等が挙げられる。外部記憶装置107には、演算装置101からの制御に基づいて、認識結果データ123や認識テンプレートデータ124等を格納することも可能である。コンピュータ1は、外部記憶装置107に格納されている帳票画像ファイル等を入力することも可能である。
帳票画像入力部11は、スキャナ装置2からの帳票画像ファイル122を入力・取得して記憶装置102に記憶する。帳票認識処理部12は、認識対象の帳票画像ファイル122と、認識テンプレートデータ124および認識フォーマット情報とを用いて、帳票画像からのOCR処理、すなわち文字や図形等の認識処理を行い、認識結果データ123を作成し、記憶装置102に記憶する。認識結果出力部13は、認識結果データ123に基づいた帳票認識結果を表示画面に表示し、ユーザに対し出力し、確認や修正を受け付ける。
認識テンプレート作成部14は、認識テンプレート自動作成機能(言い換えると認識テンプレート登録機能)に対応する処理部である。認識テンプレート作成部14は、帳票画像ファイル122に基づいて、認識テンプレートを自動作成し、認識テンプレートデータ124として保存・登録する。認識テンプレート作成部14は、帳票画像ファイル122に対し、DB内の既存の認識テンプレートを適用可能な場合には適用し、適用できない場合には、新たな認識テンプレートを自動作成する。認識テンプレート作成部14は、表項目機能および参照項目機能に対応する実装も含んでおり、認識テンプレートの作成の際には、必要に応じて表項目に関する処理や参照項目に関する処理を行う。画面表示部15は、作成した認識テンプレートの内容を画面(後述のテンプレート登録画面)に表示し、ユーザによる確認や編集を受け付ける。設定部16は、テンプレート登録画面等の画面を通じて、帳票認識機能に関するユーザ設定を受け付け、設定情報125として記憶する。
[帳票認識業務フロー]
図2は、図1の帳票認識システムを用いる帳票認識業務フロー例を示し、ユーザに対する入出力と、コンピュータ1のプロセッサの処理と、DB等の記憶(図1の記憶装置102)との間でのステップを示す。まず、ユーザの列において、帳票画像201は、図1の認識対象の帳票画像ファイル122の入力に相当する。プロセッサの列において、プロセッサは、帳票画像201について、帳票認識(区別のため第1帳票認識とする)202の処理を行う。この第1帳票認識202は、DBに登録されている既存のテンプレートT1および図示しない既存の認識フォーマット情報を用いた処理である。なお、最初の状態で既存のテンプレートT1が無くても構わない。プロセッサは、第1帳票認識202の結果を、第1認識結果203として保存し、表示画面に、対応する第1認識結果表示204を行う。ユーザは、第1認識結果表示204を見て、第1認識結果確認205を行う。
図2は、図1の帳票認識システムを用いる帳票認識業務フロー例を示し、ユーザに対する入出力と、コンピュータ1のプロセッサの処理と、DB等の記憶(図1の記憶装置102)との間でのステップを示す。まず、ユーザの列において、帳票画像201は、図1の認識対象の帳票画像ファイル122の入力に相当する。プロセッサの列において、プロセッサは、帳票画像201について、帳票認識(区別のため第1帳票認識とする)202の処理を行う。この第1帳票認識202は、DBに登録されている既存のテンプレートT1および図示しない既存の認識フォーマット情報を用いた処理である。なお、最初の状態で既存のテンプレートT1が無くても構わない。プロセッサは、第1帳票認識202の結果を、第1認識結果203として保存し、表示画面に、対応する第1認識結果表示204を行う。ユーザは、第1認識結果表示204を見て、第1認識結果確認205を行う。
次に、ステップ206は、ユーザおよびコンピュータ1のプロセッサの両方による確認であり、上記帳票認識の際に、既存のテンプレートT1が適用できたかどうかの確認である。適用できた場合(YES)にはフローが終了となる。適用できなかった場合(NO)には以降のステップに続く。適用できなかった場合(NO)とは、すなわち、対象の帳票画像201が、基本構造の帳票に対するレイアウトのバリエーションである等の理由から、既存の基本構造のテンプレートT1では対応できなかったことを意味する。このため、プロセッサは、ステップ207で示すように、図1の認識テンプレート作成部14を用いて、テンプレート自動作成の処理を行う。
ステップ207のテンプレート自動作成では、プロセッサが、既存のテンプレートT1および認識フォーマット情報に基づいて、上記バリエーションに対応するための新たなテンプレートT2を自動作成し、DBに登録する。新たなテンプレートT2は、既存の認識フォーマット情報と関連付けられて管理される。プロセッサは、作成したテンプレートT2を画面に表示し、ユーザは、その画面を見てテンプレート作成確認208を行う。ユーザは、そのテンプレートT2の内容に問題無い場合には、確定操作し、プロセッサはそのテンプレートT2をDBに登録する。ユーザは、そのテンプレートT2の内容を一部修正・編集したい場合には、その一部修正・編集を行ってから確定操作し、プロセッサはそのテンプレートT2をDBに登録する。
ステップ207の後には、あらためて、新たなテンプレートT2を用いて帳票認識が行われる。ユーザの列の帳票画像210は、最初の帳票画像201に対応する同じ帳票画像ファイルである。プロセッサは、その帳票画像210について、新たなテンプレートT2を用いて第2帳票認識211の処理を行い、第2認識結果212を記憶する。プロセッサは、第2認識結果212を用いて、画面に第2認識結果表示213を行う。ユーザは、第2認識結果表示213を見て、第2認識結果確認214を行う。なお、1回目の帳票認識202に対し、2回目の帳票認識211では、比較対象として使用されている認識テンプレートが異なっているため、異なる認識結果としてより正確な認識結果が得られる。
[テンプレート自動作成ステップ]
図3は、図2のステップ207のテンプレート自動作成についての詳細例を示す。ユーザは、コンピュータ1の画面に対し、テンプレート作成開始指示301を入力する。プロセッサは、その指示を受けると、図1の認識テンプレート作成部14によるテンプレート自動作成302の処理を行う。その際、プロセッサは、DBから対象の帳票画像や、既存の認識テンプレートおよび認識フォーマット情報等の情報を適宜に参照しながら、その処理を行う。また、プロセッサは、帳票認識結果や、作成した認識テンプレート等のデータを、適宜に記憶装置102(DB)に保存する。プロセッサは、例えば既存のテンプレートT1とそれを作成元とした新たなテンプレートT2とを関連付けるようにして、そのための管理情報についてもDBに記憶する。
図3は、図2のステップ207のテンプレート自動作成についての詳細例を示す。ユーザは、コンピュータ1の画面に対し、テンプレート作成開始指示301を入力する。プロセッサは、その指示を受けると、図1の認識テンプレート作成部14によるテンプレート自動作成302の処理を行う。その際、プロセッサは、DBから対象の帳票画像や、既存の認識テンプレートおよび認識フォーマット情報等の情報を適宜に参照しながら、その処理を行う。また、プロセッサは、帳票認識結果や、作成した認識テンプレート等のデータを、適宜に記憶装置102(DB)に保存する。プロセッサは、例えば既存のテンプレートT1とそれを作成元とした新たなテンプレートT2とを関連付けるようにして、そのための管理情報についてもDBに記憶する。
ステップ303では、プロセッサは、作成したテンプレートT2をユーザが確認するための画面であるテンプレート登録画面のデータを作成し、表示装置の表示画面に表示する。ユーザは、そのテンプレート登録画面を見て、テンプレート確認・編集304を行う。ユーザは、テンプレートT2の内容を修正すること等ができる。
ユーザは、テンプレートT2の確認後、確定操作として、テンプレート登録指示305を入力する。プロセッサは、その指示を受けると、テンプレート登録306の処理として、その時点の状態のテンプレートT2をDBに登録する。プロセッサは、登録処理完了後、テンプレート登録画面に、登録完了通知を出力する。
従来技術の方法では、テンプレート自動作成を行うステップは無く、認識テンプレート作成はすべてユーザによる手動作業が主であり、帳票のバリエーション毎に認識テンプレートの作成が必要であった。それに対し、実施の形態1の帳票認識方法では、上記のように、テンプレート自動作成302や、テンプレート登録画面作成表示のステップ303等がある。これにより、ユーザは、指示入力等の簡単な操作だけで、多数のバリエーションに対応できる汎用的な認識テンプレートを作成し登録することができる。
[認識フォーマット情報]
図4は、単項目に関する認識フォーマット情報の構成例を示す。このような認識フォーマット情報は、従来技術でも使用されている。認識フォーマット情報は、例えばファイル、テーブル等の形式で構成できる。(A)の認識フォーマット情報は、構成を示し、テーブル形式において項目名と概要とを示す。項目名は、例えば、「読取キーワード」、「属性」、「長さ」、「文字種」、「活字または手書き」を有する。「読取キーワード」は、認識する領域の位置を決定するために使用する文字列(キーワード)を指定する項目である。「属性」は、例えば金額、住所、企業名等の属性を指定する項目である。「長さ」は、長さの範囲(例えば文字数)を指定する項目である。「文字種」は、例えば数字、英字、ひらがな等の文字種を指定する項目である。「活字または手書き」は、認識対象文字が活字か手書きかを指定する項目である。
図4は、単項目に関する認識フォーマット情報の構成例を示す。このような認識フォーマット情報は、従来技術でも使用されている。認識フォーマット情報は、例えばファイル、テーブル等の形式で構成できる。(A)の認識フォーマット情報は、構成を示し、テーブル形式において項目名と概要とを示す。項目名は、例えば、「読取キーワード」、「属性」、「長さ」、「文字種」、「活字または手書き」を有する。「読取キーワード」は、認識する領域の位置を決定するために使用する文字列(キーワード)を指定する項目である。「属性」は、例えば金額、住所、企業名等の属性を指定する項目である。「長さ」は、長さの範囲(例えば文字数)を指定する項目である。「文字種」は、例えば数字、英字、ひらがな等の文字種を指定する項目である。「活字または手書き」は、認識対象文字が活字か手書きかを指定する項目である。
(B)の認識フォーマット情報例は、ある帳票3(例えば請求書)において、その中のある認識対象項目401(例えば合計金額欄)に対して適用するための認識フォーマット情報402を示している。この認識フォーマット情報402は、「読取キーワード」項目では「合計」が指定され、「属性」項目では「金額」が指定され、「長さ」項目では「5」が指定され、「文字種」項目では「数字」が指定され、「活字または手書き」項目では「活字」が指定されている。この認識フォーマット情報402に基づいて、コンピュータ1のプロセッサは、帳票画像内からの文字「合計」の検出に基づいて、認識対象項目401として合計金額欄の文字列を認識できる。
[認識テンプレート(1)]
図5は、従来技術における認識テンプレートの構成例を示す。認識テンプレートは、対象帳票内で認識対象の各項目がどの位置にあるかを、始点座標(Sx,Sy)と終点座標(Ex,Ey)で指定する位置座標情報を含む。帳票認識時には、この認識テンプレートの位置座標情報に基づいて、対象項目の位置・領域が把握され、その位置・領域から文字や図形が認識される。従来技術における認識テンプレートでは、認識フォーマット情報によって認識する項目に対し、認識対象の文字列が存在する位置座標情報のみが指定されている。従来技術では、画面に表示された帳票画像上で、ユーザがマウス等のドラッグ操作、または始点と終点を指定するクリック等の操作によって、対象項目の領域を指定している。帳票毎に、認識テンプレートとして、このような各項目を指定する位置座標情報(言い換えるとテンプレート矩形)が管理されている。
図5は、従来技術における認識テンプレートの構成例を示す。認識テンプレートは、対象帳票内で認識対象の各項目がどの位置にあるかを、始点座標(Sx,Sy)と終点座標(Ex,Ey)で指定する位置座標情報を含む。帳票認識時には、この認識テンプレートの位置座標情報に基づいて、対象項目の位置・領域が把握され、その位置・領域から文字や図形が認識される。従来技術における認識テンプレートでは、認識フォーマット情報によって認識する項目に対し、認識対象の文字列が存在する位置座標情報のみが指定されている。従来技術では、画面に表示された帳票画像上で、ユーザがマウス等のドラッグ操作、または始点と終点を指定するクリック等の操作によって、対象項目の領域を指定している。帳票毎に、認識テンプレートとして、このような各項目を指定する位置座標情報(言い換えるとテンプレート矩形)が管理されている。
それに対し、実施の形態1の帳票認識方法では、認識テンプレートに関して、上記従来技術のような単項目に関する機能に加え、以下のような機能を有する。この帳票認識方法では、既存の認識テンプレートおよび帳票認識結果に基づいて、バリエーションの帳票に対応するための認識テンプレートを自動的に作成する。また、この帳票認識方法では、帳票内における行数可変の表に対応させて、認識テンプレートの表項目を設定する。この表項目は、帳票内の表部分の複数の項目を1グループないし1セットとして管理するものである。また、この帳票認識方法では、帳票内の別紙貼付欄等の領域に対応させて、認識テンプレートの参照項目を設定する。この参照項目には、リンク等の記述によって、別の認識テンプレートが参照される。
(A)は、従来技術における認識対象項目の指定例について示す。ユーザは、帳票画像500内で、それぞれの認識対象項目(対応する認識対象文字列)を、ドラッグ操作等によって例えば囲むようにして指定する。それに応じて、コンピュータは、指定された領域毎の項目を、単項目情報として設定する。コンピュータは、それらの単項目情報を含んだ認識テンプレートを登録する。単項目の例として、破線枠で示す、項目501,502,503,504,505,506,507,508を示す。例えば、項目501は宛名、項目502は日付、項目503は品名、項目504は数量、項目505は単価、項目506は金額、項目507は合計金額、項目508は振込先である。項目503〜506は、表510を構成している列項目でもある。従来技術では、このような表510については、列の値毎に分けて、認識用の項目(言い換えるとテンプレート矩形)として指定されている。
(B)は、従来技術における(A)の指定例に対応する認識テンプレートの構成例を示す。この認識テンプレートは、指定された項目の領域毎に、位置座標情報として、始点の位置座標(Sx,Sy)と終点の位置座標(Ex,Ey)を持つ。本例では、この認識テンプレートは、項目501〜508に対応する8個の単項目の情報を持つ。領域を指定する位置座標情報は、例えば始点が左上の点、終点が右下の点である。なお、領域を指定する情報は、始点・終点に限らず、幅や高さ、中心点等を用いて定義することも可能である。
[認識テンプレート(2)]
一方、図6は、実施の形態1の帳票認識方法における帳票画像や認識テンプレートの構成例を示す。図6の(A)は、図5の(A)の帳票に対するレイアウトのバリエーションの帳票における帳票画像600である。このバリエーションの帳票は、表の値の行数が、図5の(A)の表510では2行であるのに対し、図6の(A)の表610では6行となっている。また、このバリエーションの帳票では、一部に、別紙貼付欄として、領収証630の貼付欄620を有する。
一方、図6は、実施の形態1の帳票認識方法における帳票画像や認識テンプレートの構成例を示す。図6の(A)は、図5の(A)の帳票に対するレイアウトのバリエーションの帳票における帳票画像600である。このバリエーションの帳票は、表の値の行数が、図5の(A)の表510では2行であるのに対し、図6の(A)の表610では6行となっている。また、このバリエーションの帳票では、一部に、別紙貼付欄として、領収証630の貼付欄620を有する。
帳票画像600において、項目601は宛名、項目602は日付、項目603は品名、項目604は数量、項目605は単価、項目606は金額、項目607は合計金額、項目608は振込先である。項目603〜606は、表610の各列の値を構成する複数(例えば4個)の項目である。それぞれ破線枠で示す項目603〜606は、1グループ、1セットとしてまとめられて、一点鎖線枠で示すように、表項目611として設定される。表項目611の矩形の領域には、それらの複数の項目(例えば項目603〜606)が包含されている。また、この際、表項目611とされるのは、項目値に関して縦方向に複数行があったとしても、図示のように最初の1行の部分のみでよい。認識テンプレート作成部14は、帳票画像600内からこのような表項目611を自動的に抽出し設定する。なお、本例では帳票画像内に1つの表があり1つの表項目が設定される場合を示すが、これに限らず、帳票画像内に複数の表がある場合でも同様に複数の表項目の設定が可能である。
また、実施の形態1の例では、貼付欄620に対応する領域が、1つの参照項目621として設定される。認識テンプレート作成部14は、帳票画像600内からこのような参照項目621を自動的に抽出し設定する。参照項目621の領域内では、別帳票として例えば領収証630に対応付けられる認識テンプレート(言い換えると参照項目認識テンプレート)が作成および適用される。本例では、参照項目621内では、領収証630を構成する複数の単項目として、項目631,632,633,634が設定されている。項目631は日付、項目632は宛名、項目633は金額、項目634は用途(例えば書籍代)である。なお、図示の例では、参照項目621内で、複数の項目は領収証630の画像とずれが生じている場合を示す。これは、貼付欄620において、貼り付けられる領収証630等の位置には上下左右にずれが生じ得るためである。参照項目621の領域の抽出は、例えば、「貼付欄」や「領収証」といった特定の文字列の検出に基づいて可能である。
(B)は、(A)に対応する認識テンプレートの構成例を示す。この認識テンプレートは、従来技術と同様に単項目毎の項目情報641に加え、表項目情報642、および参照項目情報643を有する。項目情報641、表項目情報642、および参照項目情報643は、それぞれ領域を指定する位置座標情報を含む。また、この認識テンプレートは、図示しないが、検出用に特定の文字列(例えば「貼付欄」等)の情報も含む。
表項目情報642の位置座標情報は、例えば表項目611の領域の始点と終点の情報を含む。帳票内で指定された表項目611については、この帳票に関する認識テンプレート内に、表項目情報642として埋め込まれた形式で記述される。
参照項目情報643の位置座標情報は、例えば参照項目621の領域の始点と終点の情報と、リンクによって関連付けられる別帳票の別認識テンプレートを指定する情報とを含む。なお、各認識テンプレートは、テンプレートIDや更新日時等の基本情報も付与されて管理される。
上記表項目611の情報を含む認識テンプレートを用いた帳票認識時には、コンピュータ1は、表項目611内の複数の項目同士の位置関係を崩さずに、行方向の任意の数の行について繰り返し照合して認識する。
参照項目621の情報を含む認識テンプレートを用いた帳票認識時には、コンピュータ1は、参照項目621の領域内を1枚の別帳票とみなし、リンクによって参照される認識テンプレートを適用して認識する。
実施の形態1の変形例として、表項目を含む認識テンプレートについて、下記のような構成としてもよい。変形例の方法では、帳票全体の認識テンプレートに対し、例えば表項目611の部分のみを、表項目認識テンプレートとして分ける。帳票全体の認識テンプレート内に、リンクとして表項目認識テンプレートの情報が記述される。表項目認識テンプレートは、帳票全体の認識テンプレートと関連付けられた状態でDB内に登録される。帳票認識時および認識テンプレート自動作成時には、既存の帳票全体の認識テンプレートに基づいて、リンクから表項目認識テンプレートが参照されて適用される。この変形例の場合、複数の種類の帳票の中に同様の表構造が現れる場合には、対応する表項目認識テンプレートを、複数の種類の帳票の認識テンプレートで共通に流用できる可能性があり、汎用性が高められる。
[認識テンプレート自動作成およびテンプレート登録画面]
図7は、認識テンプレート自動作成の際にユーザに対し表示するテンプレート登録画面の例を示す。図7では画面の一部を示す。コンピュータ1は、帳票認識結果に基づいて、認識テンプレートを自動作成し、この画面内に所定のGUIと共に表示する。この画面は、大別して、帳票画像欄700、帳票情報欄701、単項目情報欄702、表項目情報欄703、および参照項目情報欄704を有する。帳票情報欄701には、認識テンプレートを登録する対象となる帳票の帳票名等の情報が表示される。単項目情報欄702には、対象帳票および対応する認識テンプレート内における各単項目の情報が、例えば表形式で整理して表示される。各単項目の情報は、例えば項目、項目名、位置座標を有する。本例では、ユーザにとってわかりやすいように、項目番号を付与して表示しているが、省略可能である。位置座標は、例えば帳票画像の矩形の平面において、横軸をX、縦軸をYとし、左上の点を原点(0,0)とする。
図7は、認識テンプレート自動作成の際にユーザに対し表示するテンプレート登録画面の例を示す。図7では画面の一部を示す。コンピュータ1は、帳票認識結果に基づいて、認識テンプレートを自動作成し、この画面内に所定のGUIと共に表示する。この画面は、大別して、帳票画像欄700、帳票情報欄701、単項目情報欄702、表項目情報欄703、および参照項目情報欄704を有する。帳票情報欄701には、認識テンプレートを登録する対象となる帳票の帳票名等の情報が表示される。単項目情報欄702には、対象帳票および対応する認識テンプレート内における各単項目の情報が、例えば表形式で整理して表示される。各単項目の情報は、例えば項目、項目名、位置座標を有する。本例では、ユーザにとってわかりやすいように、項目番号を付与して表示しているが、省略可能である。位置座標は、例えば帳票画像の矩形の平面において、横軸をX、縦軸をYとし、左上の点を原点(0,0)とする。
図8は、図7の画面のうちの帳票画像欄700の表示例を示す。帳票画像欄700では、帳票画像および認識テンプレート(単項目、表項目および参照項目を含む)の情報を表示する。帳票画像欄700には、帳票画像ファイル122に基づいた帳票画像を下地として、その上に、破線枠で示すように、認識テンプレートの各項目(対応するテンプレート矩形)を表す画像が重ねて表示される。帳票画像欄700には、ユーザが選択した種類の情報(例えば認識テンプレート)のみを表示することも可能である。また、帳票画像欄700では、認識テンプレートの各項目、左側の各欄の情報との対応関係等がユーザにとってわかりやすくなるように、各項目の便宜上の識別記号800の画像、例えば丸付き記号等を、近くの空いている位置等に表示してもよい。また、単項目と表項目と参照項目との区別がわかりやすいように、各種の項目について、青、黄、赤等の異なる色や、異なる線や図形を付けた表示画像としてもよい。
帳票内の単項目については、OCRによる帳票画像の認識結果の矩形領域に基づいて、認識テンプレートの単項目の位置座標情報(対応するテンプレート矩形)が作成される。帳票の状態やデータ化する過程において、各項目の位置にはずれが生じ得ることを考慮し、単項目の位置座標情報は、OCRによる矩形領域(例えば矩形領域801)に対し、例えば上下左右に1文字分程度拡大して設定されてもよい。ただし、拡大によってその領域が罫線や他の文字列と重なる場合には、重なる手前でその拡大を止める。また、ユーザによる編集の操作によって、各項目の領域の位置や大きさの調整を行うことも可能である。
表項目(例えば表項目802)については、帳票画像内から認識された表構造が、登録済みの認識テンプレートの表項目(または表項目認識テンプレート)の表構造と一致する場合に、自動的に表項目として設定され表示される。
参照項目(例えば参照項目803)については、帳票画像内において例えば複数の帳票名文字列や、別紙貼付欄等を表す特定の文字列が発見された場合に、それらの手がかりに基づいて、推定された領域が、参照項目として設定され表示される。例えば、コンピュータ1は、帳票画像内を左上から右下に向かって探索し、帳票名文字列や、特定の文字列(例えば「貼り付け」「添付」等)を抽出する。例えば、1番目に、図示のように紙面の左上の付近に「請求書」文字列804が発見され、2番目に、より下方の位置に「貼付欄」文字列806が発見され、3番目に、より下方の位置に「領収証」文字列805が発見される。コンピュータ1は、発見した文字列のうち、1番目の帳票名文字列を、その帳票の帳票名であると推定し、その1番目の帳票名文字列の位置から下に離れてある3番目の帳票名文字列(「領収証」)については、別帳票の帳票名であると推定する。また、コンピュータ1は、2番目の「貼付欄」文字列806については、別紙貼付欄があると推定する。よって、コンピュータ1は、「貼付欄」文字列806および「領収証」文字列805の付近の領域で、他の単項目や表項目とは重ならない範囲で確保される領域を、参照項目として設定する。なお、コンピュータ1は、帳票画像から、帳票名文字列に限らず、ある程度以上の大きさを持ち独立した線等の図形(例えば区切りの線や「貼付欄」の矩形)を発見することで、参照項目を設定してもよい。
なお、認識テンプレートを構成する項目に関して、コンピュータ1による認識結果の文字列の位置と、ユーザが抽出を期待する位置とに相違がある項目については、ユーザによる画面に対する編集の操作によって、その項目の位置を修正でき、その修正した状態を確認後に確定操作によって登録することができる。画面に対する編集の操作は、例えば、キーボード、マウス、タッチパネル等を用いた、クリックやドラッグ等の操作であり、例えば矩形領域の位置やサイズを変える操作等がある。より具体的には、例えば項目の矩形領域の位置をシフトしたい場合には、その矩形領域の内部をクリックして所望の方向へドラッグする操作が挙げられる。また例えば項目の矩形領域のサイズを変えたい場合には、その矩形領域の枠線等をクリックして縦または横へドラッグする操作が挙げられる。
図7で、表項目情報欄703では、最初、自動作成された表項目の情報、例えば表項目802の情報が表示される。表項目の情報は、表項目の識別記号、表項目を構成する複数の項目の情報、表項目の領域の位置座標情報、および表項目の属性を含む。表項目の識別記号(例えば「A」)は省略可能である。表項目を構成する複数の項目の情報は、単項目情報欄702における対応する項目と対応関係を持つ。表項目802の例では、複数の項目は、単項目における項目3の品名、項目4の数量、項目5の単価、および項目6の金額である。表項目の領域の位置座標情報は、例えば表項目802の領域の左上点と右下点の情報であるが、最初の項目3の左上点と最後の項目6の右下点の情報としてもよい。表項目の属性703dは、値として「可変」と「固定」とから選択して設定できる。値「固定」は、この表項目の値の行数を固定とする場合に設定され、また、その行数を1〜Nの範囲から選択して設定できる。値「可変」は、この表項目の値の行数を可変とする場合に設定される。
また、「+」ボタン703eがユーザによって押された場合、他の表項目の指定を追加することができ、上側の表項目「A」のような列が同様に追加される。ユーザは、帳票画像欄700に対する編集の操作に基づいて、他の表項目を指定して設定できる。例えば、ユーザは、クリック、ドラッグ等の操作によって、帳票画像内の所望の項目を個別に選択またはまとめて囲む等して指定する。これに応じて、指定された複数の項目を、表項目として設定できる。同様に、単項目や参照項目についても、「+」ボタンを設けることで、ユーザによる追加の指定が可能である。
参照項目情報欄704では、最初、自動作成された参照項目の情報、例えば参照項目803の情報が表示される。参照項目の情報は、リンクとして参照される認識テンプレート(参照項目認識テンプレート)を指定する項目704aと、その参照項目の識別記号や位置座標情報と、その参照項目の認識テンプレート内の複数の項目の情報とを有する。
なお、本例では、ある帳票内に1つの参照項目が設定される場合を示すが、複数の参照項目の設定も同様に適用可能である。その場合、上記参照項目情報欄704では、各参照項目について、同様の情報を並列に表示してもよいし、複数の参照項目の情報を表形式等でまとめて表示してもよい。
ユーザが図7および図8のようなテンプレート登録画面を見ながら認識テンプレートの作成や登録の作業を行う場合の操作例は以下が挙げられる。コンピュータ1は、図2のフローのステップ207に基づいて、対象帳票(帳票画像ファイル122)に対し、一旦、認識テンプレートを自動作成し、その作成結果の認識テンプレートを含むテンプレート登録画面を図7および図8のように表示する。コンピュータ1は、例えば、認識テンプレートにおいて表項目802や参照項目803を設定する。
ユーザは、その画面で、作成された認識テンプレートの内容、すなわち単項目、表項目、および参照項目等を確認する。ユーザは、表項目については、図7の表項目情報欄703で、構成要素となる複数の項目、位置、属性等を確認または編集する。ユーザは、自動作成によって提示された表項目や参照項目を、編集操作によって修正できる。また、ユーザは、自動作成によって提示された表項目や参照項目とは別の表項目や参照項目を、編集操作によって追加することもできる。例えば「+」ボタン703eの押下によって表項目を追加できる。
また、図7の画面では、前述の表項目の繰り返し照合に関して、属性703dの値が「可変」の場合には、表の値の行数としてとり得る範囲(例えば最小1行から最大10行まで等)を設定できるようにしてもよい。属性703dの値が「固定」の場合には、表の値の行数が設定できる。
[表項目に関する処理例(1)]
図9は、表項目に関する処理例を示す。(A)は、ある帳票Aの画像内のある表900の部分の表構造の例と、その表900の部分に対し認識テンプレート内で設定される表項目の例とを示す。本例で、表900は、項目名に対応する行910の部分が、2行×3列から成り、項目名A,B,C,D,Eの5個の項目名を有する。1列目の2個のセルは結合された1個の項目(項目名A)となっている。表900は、項目名に対応付けられた値(項目値)の行としては3行(行901,902,903)を有する。なお、例えばこれらの5個の単項目である項目A〜Eについて、予め、項目毎に前述の認識フォーマット情報が設定されている。各認識フォーマット情報では、それらの複数の単項目の配置関係等については規定されていない。
図9は、表項目に関する処理例を示す。(A)は、ある帳票Aの画像内のある表900の部分の表構造の例と、その表900の部分に対し認識テンプレート内で設定される表項目の例とを示す。本例で、表900は、項目名に対応する行910の部分が、2行×3列から成り、項目名A,B,C,D,Eの5個の項目名を有する。1列目の2個のセルは結合された1個の項目(項目名A)となっている。表900は、項目名に対応付けられた値(項目値)の行としては3行(行901,902,903)を有する。なお、例えばこれらの5個の単項目である項目A〜Eについて、予め、項目毎に前述の認識フォーマット情報が設定されている。各認識フォーマット情報では、それらの複数の単項目の配置関係等については規定されていない。
コンピュータ1の認識テンプレート作成部14は、帳票画像内から表900の構造を認識する。その際の認識は、罫線を持つ表である場合には、抽出した罫線および文字列同士の関係を用い、罫線を持たない表である場合には、抽出した文字列同士の関係を用いる。コンピュータ1は、対象帳票から認識した表構造が、比較対象となる認識テンプレート内の表項目の表構造と一致すると判断した場合、その表構造の部分(特に項目値の1行目の部分)を、既知の表項目が適用できると判断し、一致しない場合には、その表構造の部分を、新たな表構造であるため既知の表項目は適用できないと判断する。ここでは、行901の表構造は、既存の認識テンプレートには無い新たな表構造であったとする。コンピュータ1は、表900の値の複数行のうちの1行目の行901を参照し、項目名の行部分910と同様の表構造を持つことを確認する。また、コンピュータ1は、面内の縦方向(Y)に探索し、表900の値における1行目の行901の表構造と、表900の領域の終わりまでの他の行902,903の表構造とが同じであることを確認する。そして、コンピュータ1は、1行目の行901における複数の項目(項目値A〜E)を、1グループとして、新規の認識テンプレートの表項目920として決定する。コンピュータ1は、その新規の認識テンプレートの情報を、その帳票に対し適用するものとして、テンプレート登録画面に表示する。なお、表項目920は、全体では1行としてカウントされる。
上記表構造が一致する場合には、その表構造の部分を新規の表項目として決定・登録する必要は無く、既存の認識テンプレートの表項目(あるいは表項目認識テンプレート)が共通して適用できると判断される。コンピュータ1は、その既存の認識テンプレートの情報を、その帳票に対し適用するものとして、テンプレート登録画面に表示する。
また、(B)は、他の帳票Bの画像内の他の表930の部分の構造例と、表項目920を用いた繰り返し照合の例とを示す。この表930は、項目値の行数として5行(行931,932,933,934,935)がある。項目名940の部分は、(A)の項目名910の部分と同様の表構造を持つ。コンピュータ1は、帳票認識時には、帳票画像から表部分を同様に抽出し、その表部分に対し、既存の認識テンプレートの表項目、例えば(A)の表項目920を適用して照合する。コンピュータ1は、表項目920を1セットとして、複数行の各行について繰り返し照合を行う。コンピュータ1は、まず表930の値の1行目の行931に対し、表項目920を照合し、複数の項目の各領域(テンプレート矩形)に基づいて、各項目値A〜Eの文字列を抽出する。コンピュータ1は、表930の値の他の行に対しても、同様に表項目920を繰り返し照合する。すなわち、コンピュータ1は、2行目の行932からは各項目値A1〜E1の文字列を抽出し、3行目の行933からは各項目値A2〜E2の文字列を抽出し、4行目の行934からは各項目値A3〜E3の文字列を抽出し、5行目の行935からは各項目値A4〜E4の文字列を抽出する。コンピュータ1は、それらの抽出した文字列を認識結果データ123に記載する。
なお、実施の形態1で表項目として扱うことができる表とは、近接する2つ以上の項目で構成され、1行の表でもよいし、1列の表でもよい。
コンピュータ1は、帳票画像内の表部分(始まりから終わりまでの部分)を認識する。例えば、(A)の表900の場合では、始点P1から終点P2までの領域が認識される。表項目920については、始点P3から終点P4までの領域が認識される。(B)の表930の場合では、始点P5から終点P6までの領域が認識される。コンピュータ1は、各表の大きさの違いによるずれの位置や長さも把握できる。
表900と表930のように、表に関するバリエーションを持つ帳票同士の場合、表の後に続く各項目(例えば図8の合計金額や振込先)については、表の終わりを起点として同様の位置関係で配置されている。よって、コンピュータ1は、バリエーションを持つ帳票についても、表の終わりの把握に基づいて、表の後に続く各項目についての位置をシフトさせることで、共通の認識テンプレートを用いて対応することができる。
[表項目に関する処理例(2)]
図10は、表項目に関する処理例を示す。(A)の帳票画像1001は、ある対象帳票の認識結果の帳票画像を示す。破線枠は、単項目のテンプレート矩形を示す。ドットパターン領域の文字列は、OCRによって認識された文字列を示す。(B)は、(A)の対象帳票の認識に適用した認識テンプレートを、作成元の帳票画像1011の上に重ねて示す。(A)の帳票は、(B)の帳票に対するバリエーションである。この認識テンプレートは、表1012に関する表項目1010を含んでいる。
図10は、表項目に関する処理例を示す。(A)の帳票画像1001は、ある対象帳票の認識結果の帳票画像を示す。破線枠は、単項目のテンプレート矩形を示す。ドットパターン領域の文字列は、OCRによって認識された文字列を示す。(B)は、(A)の対象帳票の認識に適用した認識テンプレートを、作成元の帳票画像1011の上に重ねて示す。(A)の帳票は、(B)の帳票に対するバリエーションである。この認識テンプレートは、表1012に関する表項目1010を含んでいる。
(A)の対象帳票の表1002は、値の行数が2である。コンピュータ1は、この帳票の認識の際には、前述のように、表項目1010を、値の各行に繰り返し照合する。これにより、各行の各項目の文字列が認識される。(A)の帳票は、表1002の行数が、(B)の帳票の表1012の行数である6行に対し、2行に変わっている。そのため、表1002の後に下側に続く項目部分についても帳票内での位置が変わっている。よって、(A)の帳票に(B)の認識テンプレートを適用する際には、コンピュータ1は、属性「可変」、および表の値の行数の差を考慮して、表の後に続く項目部分についての認識を行う。
コンピュータ1は、認識テンプレート登録時の作成元の帳票の表構造(例えば罫線の枠の構造)と、現在の対象帳票の表構造(例えば罫線の枠の構造)とを比較し、その縦方向でのずれ量1030を算出してもよい。例えば、作成元の帳票の表1012の下辺の罫線の座標と、対象帳票の表1002の下辺の罫線の座標との差から、縦方向でのずれ量10030が算出できる。コンピュータ1は、そのずれ量1030および認識テンプレートに基づいて、表1002の後に続く項目(例えば項目1004,1005)の位置を推定し、その位置に合わせるように認識テンプレート内の対応する項目(テンプレート矩形)を下方向にシフトして適用する。対象帳票の表の行数が増える場合でも同様の処理が可能である。なお、表の罫線を用いた表構造の抽出処理については、従来技術を適用してもよい。
図11は、表の罫線を用いた表構造の抽出処理の一例を示す。表は、点(格子点)と罫線との関係から構成できる。本例は、図9の表項目920に対応する一部を示す。格子点の例として点p1〜p5を有する。罫線の例として罫線L1〜L5を有する。各格子点は、罫線の交わりに関するタイプを有する。例えば、点p1は、横方向の罫線L1と縦方向の罫線L4との交わりの点である。罫線で囲まれる領域(必ずしも全部が囲まれていなくてもよい)は、項目に対応しており、その項目に項目値等の文字列が含まれている場合がある。コンピュータ1は、このような格子点および罫線を抽出し解析することで、表構造、言い換えると複数の項目の関係を把握することができる。例えば、点p1,p2,p4,p5、罫線L1,L3,L4,L5で囲まれる領域は、文字列Aを持つ項目であり、横の長さH1、縦の長さV1を持つ。同様に、各項目の位置や、項目同士の配置関係が把握できる。
罫線を持つ表の場合、コンピュータ1は、画像から罫線を検出し、各罫線で区分される項目を抽出し、その項目同士の関係から、表構造を判断できる。なお、罫線を持たない表の場合でも、コンピュータ1は、画像から複数の文字列を検出し、複数の文字列同士における配置関係(例えば文字列中心点同士の位置関係)を判断し、その配置関係から表構造を推定できる。コンピュータ1は、文字列の配置関係から、項目の大きさや項目間の距離を推定してもよい。コンピュータ1は、項目同士(対応する文字列同士)の距離が、十分に近い場合、例えば閾値以下である場合、その項目同士(対応する文字列同士)が、表構造としての関係を持つと推定してもよい。
図10で、表の大きさのずれに関する処理に関しては、以下のようにしてもよい。表項目1010の位置座標情報から、表項目1010の領域の縦および横の長さがわかる。よって、コンピュータ1は、その表項目1010の長さの情報を用いて、各表の値の行数の差による長さ(縦方向でのずれ量1030)を概略的に算出し、同様に処理を行ってもよい。上記に限らず、ずれ量1030を算出できる任意の手段を用いればよい。
なお、従来技術の場合、上記のような表項目機能を持たないので、表の行数が異なるバリエーションの帳票について、同じ認識テンプレートを適用しようとしても、表の大きさに変動があることから、認識テンプレート内の項目の適用の位置が不適切な位置にずれてしまい、正しい認識はできない。
また、上記は、帳票が1枚のページ(例えば縦A4用紙)で構成される場合を示したが、帳票は複数枚のページで構成されてもよく、その場合でも同様の方法が適用できる。例えば、ある帳票における連続する複数のページ(例えばページ1とページ2)において、それらのページに跨って、同様の表構造(複数の項目の配置関係が同じであるもの)があるとする。その場合、コンピュータ1は、それらのページの表構造の部分を、同じ表を構成している複数の部分であると推定する。そして、コンピュータ1は、その同じ表の部分について、上記と同様に、表項目の設定や、認識時の繰り返し照合を適用する。
図12は、表項目に関する他の処理例を示す。この例は、表の項目の横幅が変動する場合を示す。(A)の帳票1201は、横方向(X)に長く、表1202を含む。表1202に対し、右側には、単項目1203を有する。コンピュータ1は、(A)の帳票1201に対し、表項目1210を含む認識テンプレートを作成する。
(B)の帳票1211は、(A)の帳票1201に対するバリエーションである。この帳票1211は、表1212を含む。この表1212は、表1202に対し、複数の項目の配置関係は同じであるが、サイズが異なっている。具体的には、項目(列)毎の横幅が大きくなっている。表1212に対し、右側には、単項目1213を有する。単項目1213の位置は、単項目1203の位置に比べると、右側にずれている。
コンピュータ1は、(B)の帳票1211に対し、表構造の解析に基づいて、(A)の表項目1210を含む認識テンプレートを同様に適用できると判断する。コンピュータ1は、(B)の帳票1211を認識する際には、例えば、表1202に対する表1212のサイズ(横幅等)の比率を算出し、その比率に応じて、表項目1210における複数の項目の適用の位置をシフトさせる、もしくは各項目のサイズを拡大/縮小させるように調整する。表項目1210bは、処理上で調整後の表項目を示す。これにより、表1212についても同じ表項目1210によって認識ができる。
また、コンピュータ1は、表1212の横方向、右側に続いている他の項目、例えば単項目1213の認識については、前述(図10)の縦方向でのシフトと同様に、例えば各表の右辺の罫線に関する横方向でのずれ量1230を算出し、そのずれ量1230を用いて、単項目1213に対する認識テンプレートの対応する項目の適用の位置をシフトさせる。他の処理例として、表を構成する各項目の縦方向の長さが変動する場合等にも、同様の対応の処理が可能である。
[参照項目に関する処理例(1)]
図13は、参照項目に関する処理例を示す。(A)の帳票画像1301の例は、貼付欄1302を有する。貼付欄1302は、矩形の枠線を有する。また、貼付欄1302内には、領収証1303を貼り付ける際の基準やガイドとなる枠線1304も設けられている。この枠線1304は、領収証1303を囲むような大きさの罫線である。あるいは、この枠線1304の領域は、背景色の区別による領域であってもよい。例えば帳票全体の背景色が白であり、貼付欄1302または枠線1304の領域の背景色がグレーや緑等であってもよい。ユーザは、貼付欄1302内にその枠線1304に沿って領収証1303を貼り付ける。このような帳票の場合、コンピュータ1は、貼付欄1302の枠線に合わせて、またはその枠線を包含するように参照項目の領域を設定してもよいが、貼付欄1302内の枠線1304に合わせて、またはその枠線を包含するように参照項目の領域を設定してもよい。
図13は、参照項目に関する処理例を示す。(A)の帳票画像1301の例は、貼付欄1302を有する。貼付欄1302は、矩形の枠線を有する。また、貼付欄1302内には、領収証1303を貼り付ける際の基準やガイドとなる枠線1304も設けられている。この枠線1304は、領収証1303を囲むような大きさの罫線である。あるいは、この枠線1304の領域は、背景色の区別による領域であってもよい。例えば帳票全体の背景色が白であり、貼付欄1302または枠線1304の領域の背景色がグレーや緑等であってもよい。ユーザは、貼付欄1302内にその枠線1304に沿って領収証1303を貼り付ける。このような帳票の場合、コンピュータ1は、貼付欄1302の枠線に合わせて、またはその枠線を包含するように参照項目の領域を設定してもよいが、貼付欄1302内の枠線1304に合わせて、またはその枠線を包含するように参照項目の領域を設定してもよい。
(B)は、別の帳票画像1305の例を示す。この帳票画像1305は、違いとしては、貼付欄に関して、「貼付欄」のような文字列は無く、また、貼付欄自体を表す枠線も無く、領収証1303を貼り付ける際の基準を表す枠線も無い。このような帳票の場合、コンピュータ1は、例えば、帳票画像内から発見した「領収証」文字列1306に基づいて、その文字列から周囲の領域へ拡大して、その帳票(請求書)内の他の項目(単項目または表項目または参照項目)に当たるまでの領域を、参照項目1307として設定する。参照項目の領域は、貼り付けのずれを考慮して、なるべく広い領域として確保される。他の項目は、本例では、上側にある合計金額の単項目1308と、下側にある振込先の単項目1309とがある。例えば単項目1308の下端から単項目1309の上端までの間に、参照項目1307が設定される。また、「領収証」文字列1306の位置から下側に、単項目が無く、帳票の平面の下端に達する場合には、その平面の下端まで参照項目1307として設定される。本例では、帳票の平面の縦方向(Y)に沿って、単項目や表項目や参照項目が存在する場合を説明したが、帳票の平面の横方向(X)に沿って、単項目や表項目や参照項目が存在する場合にも、上記と同様の処理によって、表項目や参照項目を設定することができる。
図14は、他の帳票の例を示す。1つの帳票内に複数の貼付欄があってもよいし、1つの貼付欄内に複数の帳票が貼り付けられてもよい。このような帳票に対しても同様の対応が可能である。(A)の帳票1401の例は、縦方向(Y)で上から順に、「単項目1」、「単項目2」、「表項目1」、「参照項目1」、「表項目2」、「参照項目2」を有する。この帳票1401に対する認識テンプレートは、2個の表項目と、2個の参照項目とを持つ。
(B)の帳票1402の例は、縦方向で上から順に、「単項目1」、「単項目2」、「表項目1」、「貼付欄」を有し、さらに、「貼付欄」内において、横方向(X)の左右に、2個の参照項目として、「参照項目1」、「参照項目2」を有する。この帳票は、「貼付欄」内に、2個の別帳票を貼り付けることができる帳票であり、それに対応させて、認識テンプレートは、2個の参照項目を有する。
[参照項目に関する処理例(2)]
図15は、参照項目に関する処理例を示す。図15は、前述のテンプレート登録画面における帳票画像欄700において、ある帳票(例えば申請書)の帳票画像1500上に重ねるようにして、一旦自動作成された認識テンプレートの情報が表示されている。この認識テンプレートは、単項目である項目1501〜1505と、貼付欄に対応させて設定された参照項目1510とを有する。最初、参照項目1510内部の構成については決定されていない。
図15は、参照項目に関する処理例を示す。図15は、前述のテンプレート登録画面における帳票画像欄700において、ある帳票(例えば申請書)の帳票画像1500上に重ねるようにして、一旦自動作成された認識テンプレートの情報が表示されている。この認識テンプレートは、単項目である項目1501〜1505と、貼付欄に対応させて設定された参照項目1510とを有する。最初、参照項目1510内部の構成については決定されていない。
図16は、テンプレート登録画面の表示例を示す。(A)は、図15の認識テンプレートに対応して、最初にテンプレート登録画面内に表示される単項目情報欄1602、表項目情報欄1603、および参照項目情報欄1604等の状態を示す。ユーザは、画面で、自動作成された認識テンプレートの構成を確認し、例えば参照項目1510の部分について編集を行う。例えば、ユーザは、参照項目1510内の別帳票(例えば領収証)に関する複数の項目(項目k1〜k4)についての指定を行う。
ユーザは、参照項目情報欄1604において、参照項目1510に関する参照する認識テンプレートを指定する。この際、DB内の既存の認識テンプレートを指定することもできるし、新規の認識テンプレートの作成を指定することもできる。ユーザは、例えば、参照テンプレート項目704aのリストボックスを操作する。リストボックスには、選択肢として、「なし」/「あり(領域指定のみ)」/「帳票名」/「テンプレート名」/……等が表示され、ユーザはそれらから1つを選択できる。選択肢「帳票名」や「テンプレート名」は、DBに登録済みの複数の帳票画像や認識テンプレートがある場合にはリストとして表示され選択できる。
選択肢「なし」は、提示された参照項目としての参照を行わないこと(別帳票の認識テンプレートを参照しないこと)を示す。この操作を受けた場合、コンピュータ1は、認識テンプレートにおける図15の参照項目1510の設定を解除する。
選択肢「あり(領域指定のみ)」は、参照項目としての参照を行うこと、かつ、参照項目の領域を指定し、参照項目内部の複数の項目については指定しないことを示す。この操作を受けた場合、ユーザは、必要に応じて編集操作によってその参照項目1510の位置を調整し、コンピュータ1は、その参照項目1510を設定する。
選択肢「帳票名」は、参照項目としての参照を行うこと、かつ、認識テンプレートの作成のために用いる帳票画像の指定を示す。例えば、ある帳票名の帳票画像が選択される。コンピュータ1は、参照項目1510の領域において、その選択された帳票画像の配置に基づいて、参照項目1510の認識テンプレートを作成する。例えば、その認識テンプレートにおける複数の項目として、図15中の項目k1〜k4が設定される。ユーザは、それらの項目を確認し、編集操作によって各項目の有無や位置等を調整できる。
選択肢「テンプレート名」は、参照項目としての参照を行うこと、かつ、既存の認識テンプレートの指定を示す。例えば、あるテンプレート名の認識テンプレートが選択される。コンピュータ1は、参照項目1510の領域において、その選択された認識テンプレートにおける複数の項目(例えば図15中の項目k1〜k4)を配置する。ユーザは、それらの項目を確認し、編集の操作によって各項目の有無や位置等を調整できる。
参照項目1510内に複数の項目が設定された場合、図16の(B)のように、参照項目情報欄1604の表示が更新される。(B)の参照項目情報欄1604内には、複数の項目(項目k1〜k4)の位置座標情報等が追加されている。
ユーザは、上記画面で参照項目1510の構成を確認または編集した後、OKボタン等の操作によって、認識テンプレートとして確定してDBに登録することができる。また、画面では、登録する認識テンプレートについて、ユーザが名前を付けて保存することもできる。
図17は、帳票全体の認識テンプレートと、参照項目の認識テンプレートとの関係を示す。図17の(A)は、例えば図15の対象帳票1500(申請書)に対して適用される認識テンプレート1701の概要を示し、(B)は、認識テンプレート1701のうちの参照項目1710に対してリンクによって適用される認識テンプレート1702(言い換えると参照項目認識テンプレート)を示す。(B)の認識テンプレート1702は、(A)の認識テンプレート1701(対応する作成元の帳票画像1500)のサイズに合わせて定義されており、複数の項目の位置は、認識テンプレート1701の作成元の帳票画像1500の原点を基準とした位置とされている。(C)は、認識テンプレート1702に関する変形例としての認識テンプレート1703を示す。この認識テンプレート1703は、参照項目1710の領域に対応させたサイズで定義されており、複数の項目の位置は、参照項目1710の領域の原点を基準とした位置とされている。コンピュータ1は、内部処理としては、図17のように、複数の認識テンプレートとして分割して関連付けた状態でDB等に記憶および管理する。
変形例として、認識テンプレート内には、帳票名文字列の位置座標情報を記述してもよい。例えば、情報1751は、帳票名文字列(例えば「申請書」)の位置座標情報の例である。情報1752は、参照項目1510内の帳票名文字列(例えば「領収書」)の位置座標情報の例である。コンピュータ1は、このような帳票名文字列に関する情報を用いて、帳票名文字列と、複数の項目(単項目、表項目および参照項目)との配置関係を把握でき、その把握に基づいた処理例が可能である。
図18は、参照項目に関する処理例を示す。(A)は、ある帳票(例えば申請書)の帳票画像1801に対し、図17の(A)の認識テンプレート1701と同様の認識テンプレート1811を適用して認識した結果を示す。この帳票は、単項目の他、貼付欄1802を持ち、貼付欄1802に領収証1803が貼り付けられている。特に、貼付欄1802内で、下辺寄りの位置に領収証1803が貼り付けられている。コンピュータ1は、この帳票画像1801の全体に対し、まず認識テンプレート1811を適用して認識を行う。この認識テンプレート1811は、単項目の他、参照項目1804を持つ。この認識の結果、まず各単項目の認識結果の文字列が得られる。
次に、コンピュータ1は、(B)のように、帳票画像1801の参照項目1804の領域に対し、この認識テンプレート1811のリンクからの参照によって、例えば図17の(B)の認識テンプレート1702と同様の認識テンプレート1812を適用する。この際、貼付欄1802内の領収証1803の位置は様々にあり得ることから、そのままでは、認識テンプレート1812の複数の項目(項目k1〜k4)の位置に対し、図示のようにずれがある。
そこで、コンピュータ1は、(C)のように、参照項目1803の領域内で、帳票名文字列(例えば「領収証」)を検出し、検出した帳票名文字列の位置に合わせて上記のずれを補正するように、認識テンプレート1812の複数の項目を、配置関係を維持したままシフトして適用して認識を行う。この認識の結果、領収証1803内の複数の項目についての認識結果の文字列が得られる。
なお、参照項目の領域およびそれに適用する認識テンプレートにおいて、さらに、階層的に、表項目や参照項目が含まれてもよい。その場合でも、上記の方法と同様の対応が可能である。
従来技術では、上記のような貼付欄を持つ帳票に対し所定の認識テンプレートを適用した場合、貼付欄内の別帳票の位置に対する認識テンプレートの項目の位置のずれが大きいと、正しい適用、認識ができない。ユーザは、その帳票に合わせて認識テンプレートを作成しなければならないので、手間が大きく、テンプレート数が増え、管理が複雑化してしまう。一方、実施の形態1の方法では、上記のように、参照項目内の別帳票の位置については、ある程度のずれが許容され、貼り付け位置が異なる帳票であっても、同じ認識テンプレートで対応できる。
[参照項目に関する処理例(3)]
図19は、参照項目に関する他の処理例を示す。ある帳票の貼付欄に、第1帳票が貼り付けられる場合と、他の第2帳票が貼り付けられる場合とがあるとする。最初、第1帳票が貼り付けられた帳票を元として、第1認識テンプレートが作成され登録される。第1帳票が貼り付けられた帳票に対しては、この第1認識テンプレートによって対応可能である。一方、第2帳票が貼り付けられた帳票については、従来技術であれば、第1認識テンプレートによっては対応できないので、別の第2認識テンプレートの作成が必要となる。一方、実施の形態1の方法では、貼付欄に配置される別帳票に関して、複数の種類の帳票が存在する場合でも、少ない数の認識テンプレートで対応できる。
図19は、参照項目に関する他の処理例を示す。ある帳票の貼付欄に、第1帳票が貼り付けられる場合と、他の第2帳票が貼り付けられる場合とがあるとする。最初、第1帳票が貼り付けられた帳票を元として、第1認識テンプレートが作成され登録される。第1帳票が貼り付けられた帳票に対しては、この第1認識テンプレートによって対応可能である。一方、第2帳票が貼り付けられた帳票については、従来技術であれば、第1認識テンプレートによっては対応できないので、別の第2認識テンプレートの作成が必要となる。一方、実施の形態1の方法では、貼付欄に配置される別帳票に関して、複数の種類の帳票が存在する場合でも、少ない数の認識テンプレートで対応できる。
まず、(A)は、前述の図18の(A)と同様であるが、ある帳票(申請書)の帳票画像1901の貼付欄1902に、第1帳票として、領収証1903が貼り付けられている。この帳票を対象に認識テンプレート1910が作成され、適用されている。認識テンプレート1910は、貼付欄1902に対応させて、参照項目1904を有する。参照項目1904は、別帳票として第1帳票(領収証1903)に対応させた認識テンプレート1920を参照するリンクが記述されている。
(B)は、(A)と基本構成が同じである帳票(申請書)の帳票画像1905を示す。この帳票画像1905の貼付欄1902には、第2帳票として、例えば支払証明書1906が貼り付けられている。この帳票を対象に、認識テンプレート1910が適用された場合、参照項目1904については、第1帳票に対応した認識テンプレート1920が参照されるが、この認識テンプレート1920の複数の項目は、参照項目1904内の第2帳票の複数の項目とは合わないので、正しい認識はできない。
そこで、コンピュータ1は、参照項目1904の領域内から帳票名文字列を検出する。例えば「支払証明書」文字列が検出できる。コンピュータ1は、その帳票名文字列に適合する既存の認識テンプレートをDB内から検索する。コンピュータ1は、適合する認識テンプレート(例えば認識テンプレート1930)があった場合、その認識テンプレート1930を、認識テンプレート1910の参照項目1904にリンクとして記述する。これにより、認識テンプレート1910の参照項目1904には、複数のリンクとして、第1帳票に対応できる認識テンプレート1920と、第2帳票に対応できる認識テンプレート1930との2つが記述される。言い換えると、この認識テンプレート1910の参照項目1904には、適用候補となる複数の認識テンプレートの情報が記述される。コンピュータ1は、この帳票(申請書)を認識する際には、例えば参照項目1904内の帳票名文字列に応じて、適合する方の認識テンプレートを選択して適用できる。
また、コンピュータ1は、上記DBから検索した結果、適合する既存の認識テンプレートが無かった場合には、参照項目1904の領域内の画像を対象として、第2帳票に対応させた認識テンプレート1930を作成する。この認識テンプレート1930は、例えば(C)のような構成を有する。この認識テンプレート1930は、例えば支払証明書の領域内に、帳票名文字列の位置座標情報や、複数の単項目(項目k31,k32,k33,k34,k35)を持つ。
[効果等]
上記のように、実施の形態1の帳票認識プログラムおよび方法によれば、ユーザによる認識テンプレートの作成・登録の作業の手間を削減でき、レイアウトのバリエーションを持つ各種の帳票に関する多数の認識テンプレートの作成・登録の手間を削減できる。実施1の形態の帳票認識技術によれば、認識テンプレートの自動作成、または少なくとも一部の処理の自動化が可能となるので、以下の効果が期待できる。
上記のように、実施の形態1の帳票認識プログラムおよび方法によれば、ユーザによる認識テンプレートの作成・登録の作業の手間を削減でき、レイアウトのバリエーションを持つ各種の帳票に関する多数の認識テンプレートの作成・登録の手間を削減できる。実施1の形態の帳票認識技術によれば、認識テンプレートの自動作成、または少なくとも一部の処理の自動化が可能となるので、以下の効果が期待できる。
(1)認識テンプレートの作成の自動化および特有のGUIの提供によって、ユーザビリティが向上する。ユーザは、認識テンプレートの作成・登録の作業が容易にでき、手間が少ない。ユーザは、帳票の各バリエーション毎に認識テンプレートを作成・登録する作業が必要無く、1つの汎用認識テンプレートによって多数の帳票バリエーションに対応可能となる。
(2)また、認識テンプレートの登録数の低減によって、帳票管理に係わる工数が削減できる。ユーザは、汎用性が高い少ない数の認識テンプレートを管理すれば済む。従来では帳票のバリエーション毎に認識テンプレートの作成・登録が必要であったのに対し、実施の形態の帳票認識技術によれば、基本構造が同じでレイアウトのバリエーション(例えば表の行数や別紙貼付欄)を持つ複数の帳票に関して、従来よりも少ない数の汎用的な認識テンプレートの作成・登録による対応が可能となる。これにより、認識テンプレートの管理に係わるユーザの手間が大幅に削減でき、莫大な数の認識テンプレートの管理も不要となる。
(3)また、類似テンプレートによるテンプレート誤適用率が低減できる。従来では帳票のレイアウトの細かいバリエーションに応じて多数の類似の認識テンプレートが存在し、ユーザが誤った認識テンプレートを適用してしまうことがあった。実施の形態の技術によれば、そのような誤適用を防止できる。
(4)帳票認識の際には、登録済みの認識テンプレートとの比較が行われる。従来、多数の帳票のバリエーションに関する多数の認識テンプレートがある場合、その分、帳票認識の際に、誤認識が生じる可能性も高くなる。それに対し、実施の形態の帳票認識技術では、多数の帳票のバリエーションに対し、より少数の汎用認識テンプレートで対応できるので、帳票認識の際の誤認識の率も低減できる。
[変形例1]
他の実施の形態として以下も可能である。前述の実施の形態1の方法では、表項目において、構成要素である複数の単項目については、順序関係が規定されている。例えば、図6の表項目611の表構造では、複数の単項目が、横方向、左から右への方向において、項目603,604,605,606の順序での配置関係を持つ。一方、変形例1としては、表項目における複数の単項目についての順序関係の制限を設けない構成とする。言い換えると、表項目における複数の単項目の配置の順序を任意でよいとする。これにより、帳票のバリエーションとして、表を構成する複数の項目の配置順序が異なる複数の帳票が存在する場合にも対応できる。例えば、ある帳票では、項目603,605,604,606の並びとなる。変形例1の方法では、このような複数の帳票に対し、認識テンプレートの表項目に、複数の項目の配置順序が任意であることが記述される。例えば、図7の画面の表項目情報欄703で、属性703dに「複数の項目の配置順序が任意であること」を表す値が設定できる。コンピュータ1は、これらの帳票の表部分を認識する際には、属性および表項目の記述に基づいて、複数の項目の順序を適宜に並び替えて適用する。
他の実施の形態として以下も可能である。前述の実施の形態1の方法では、表項目において、構成要素である複数の単項目については、順序関係が規定されている。例えば、図6の表項目611の表構造では、複数の単項目が、横方向、左から右への方向において、項目603,604,605,606の順序での配置関係を持つ。一方、変形例1としては、表項目における複数の単項目についての順序関係の制限を設けない構成とする。言い換えると、表項目における複数の単項目の配置の順序を任意でよいとする。これにより、帳票のバリエーションとして、表を構成する複数の項目の配置順序が異なる複数の帳票が存在する場合にも対応できる。例えば、ある帳票では、項目603,605,604,606の並びとなる。変形例1の方法では、このような複数の帳票に対し、認識テンプレートの表項目に、複数の項目の配置順序が任意であることが記述される。例えば、図7の画面の表項目情報欄703で、属性703dに「複数の項目の配置順序が任意であること」を表す値が設定できる。コンピュータ1は、これらの帳票の表部分を認識する際には、属性および表項目の記述に基づいて、複数の項目の順序を適宜に並び替えて適用する。
以上、本発明を実施の形態に基づいて具体的に説明したが、本発明は前述の実施の形態に限定されず、要旨を逸脱しない範囲で種々変更可能である。
1…コンピュータ(帳票認識装置)、2…スキャナ装置、3…帳票、11…帳票画像入力部、12…帳票認識処理部、13…認識結果出力部、14…認識テンプレート作成部、15…画面表示部、16…設定部、121…帳票認識プログラム、122…帳票画像ファイル、123…認識結果データ、124…認識テンプレートデータ、125…設定情報。
Claims (12)
- コンピュータが帳票画像からOCRによる認識を行うための認識テンプレートを作成する帳票認識方法であって、
前記コンピュータが実行するステップとして、
ユーザの操作に基づいて、前記帳票画像についての認識テンプレート作成指示を入力する第1ステップと、
前記帳票画像に対し、登録済みの第1認識テンプレートが適用できる場合には、適用してOCRによる認識の結果を取得し、表示画面に前記認識の結果および前記第1認識テンプレートの情報を表示する第2ステップと、
前記帳票画像に対し、前記第1認識テンプレートが適用できない場合には、第2認識テンプレートを作成し、前記表示画面に前記第2認識テンプレートの情報を表示する第3ステップと、
前記表示画面で、前記ユーザの操作に基づいて、前記第1認識テンプレートまたは前記第2認識テンプレートに対する確認および修正を行い、前記帳票画像の認識に前記第1認識テンプレートまたは前記第2認識テンプレートを適用する設定として、前記第1認識テンプレートまたは前記第2認識テンプレートを登録する第4ステップと、
前記帳票画像に対し、前記第2認識テンプレートを適用してOCRによる認識の結果を取得し、前記表示画面に前記認識の結果を表示する第5ステップと、
を有する、帳票認識方法。 - 請求項1記載の帳票認識方法において、
前記第2認識テンプレートは、認識フォーマット情報に基づいて作成される、前記帳票画像内の単項目毎の項目情報と、規則性を持つ複数の項目を1グループにまとめて、繰り返し照合が可能である表項目として設定される表項目情報と、を含み、
前記第3ステップでは、前記コンピュータが、前記帳票画像から前記規則性を持つ複数の項目を抽出し、前記第2認識テンプレートに前記表項目を設定する、
帳票認識方法。 - 請求項1記載の帳票認識方法において、
前記第2認識テンプレートは、認識フォーマット情報に基づいて作成される、前記帳票画像内の単項目毎の項目情報と、前記帳票画像の全体のうち一部の領域が別の帳票の第3認識テンプレートを参照するための参照項目として設定される参照項目情報と、を含み、
前記第3ステップでは、前記コンピュータが、前記帳票画像から前記一部の領域を抽出し、前記第2認識テンプレートに前記参照項目を設定する、
帳票認識方法。 - 請求項2記載の帳票認識方法において、
前記表項目情報は、前記帳票画像内の表における前記複数の項目が前記表項目として設定される情報であり、
前記第3ステップでは、前記コンピュータが、前記帳票画像内の表における前記複数の項目として、前記表の値の行数または列数に依らずに、1行または1列の部分を前記表項目として設定し、
前記第5ステップでは、前記コンピュータが、前記帳票画像内の表に対し、前記第2認識テンプレートの前記表項目を適用して認識を行う際に、前記表の値の2行目以降の各行または2列目以降の各列について、前記表項目の前記複数の項目を繰り返し照合して認識を行う、
帳票認識方法。 - 請求項2記載の帳票認識方法において、
前記第5ステップでは、前記コンピュータが、前記帳票画像内の表のサイズと、前記第2認識テンプレートの作成元の帳票画像内の表のサイズとから、それらの表同士のずれ量を算出し、前記ずれ量に基づいて、前記帳票画像内の表の後に続く項目について、前記第2認識テンプレート内の項目の位置をシフトさせて適用する、
帳票認識方法。 - 請求項2記載の帳票認識方法において、
前記第3ステップでは、前記コンピュータが、前記表示画面に、前記表項目情報を確認および編集するためのグラフィカル・ユーザ・インタフェース情報を表示し、
前記グラフィカル・ユーザ・インタフェース情報は、前記表項目を構成する前記複数の項目の情報と、前記表項目の位置情報と、前記表項目を適用する対象となる表の値の行数または列数に関する固定または可変の属性情報と、を有する、
帳票認識方法。 - 請求項3記載の帳票認識方法において、
前記第3ステップでは、前記コンピュータが、前記帳票画像内から特定の文字列を検出した場合に、前記特定の文字列から周辺に他の項目に重ならない範囲で拡大した領域を、前記参照項目として設定する、
帳票認識方法。 - 請求項3記載の帳票認識方法において、
前記第3ステップでは、前記コンピュータが、前記第2認識テンプレート内の前記参照項目に、前記第3認識テンプレートとして、参照候補となる複数の認識テンプレートを関連付けるように設定する、
帳票認識方法。 - 請求項3記載の帳票認識方法において、
前記第3ステップでは、前記コンピュータが、前記表示画面に、前記参照項目情報を確認および編集するためのグラフィカル・ユーザ・インタフェース情報を表示し、
前記グラフィカル・ユーザ・インタフェース情報は、前記参照項目の位置情報と、前記第3認識テンプレートの情報と、を有する、
帳票認識方法。 - コンピュータに帳票画像からOCRによる認識を行うための認識テンプレートを作成する処理を実行させる帳票認識プログラムであって、
ユーザの操作に基づいて、前記帳票画像についての認識テンプレート作成指示を入力する第1ステップと、
前記帳票画像に対し、登録済みの第1認識テンプレートが適用できる場合には、適用してOCRによる認識の結果を取得し、表示画面に前記認識の結果および前記第1認識テンプレートの情報を表示する第2ステップと、
前記帳票画像に対し、前記第1認識テンプレートが適用できない場合には、第2認識テンプレートを作成し、前記表示画面に前記第2認識テンプレートの情報を表示する第3ステップと、
前記表示画面で、前記ユーザの操作に基づいて、前記第1認識テンプレートまたは前記第2認識テンプレートに対する確認および修正を行い、前記帳票画像の認識に前記第1認識テンプレートまたは前記第2認識テンプレートを適用する設定として、前記第1認識テンプレートまたは前記第2認識テンプレートを登録する第4ステップと、
前記帳票画像に対し、前記第2認識テンプレートを適用してOCRによる認識の結果を取得し、前記表示画面に前記認識の結果を表示する第5ステップと、
を実行させる、帳票認識プログラム。 - 請求項10記載の帳票認識プログラムにおいて、
前記第2認識テンプレートは、認識フォーマット情報に基づいて作成される、前記帳票画像内の単項目毎の項目情報と、規則性を持つ複数の項目を1グループにまとめて、繰り返し照合が可能である表項目として設定される表項目情報と、を含み、
前記第3ステップでは、前記コンピュータが、前記帳票画像から前記規則性を持つ複数の項目を抽出し、前記第2認識テンプレートに前記表項目を設定する、
帳票認識プログラム。 - 請求項10記載の帳票認識プログラムにおいて、
前記第2認識テンプレートは、認識フォーマット情報に基づいて作成される、前記帳票画像内の単項目毎の項目情報と、前記帳票画像の全体のうち一部の領域が別の帳票の第3認識テンプレートを参照するための参照項目として設定される参照項目情報と、を含み、
前記第3ステップでは、前記コンピュータが、前記帳票画像から前記一部の領域を抽出し、前記第2認識テンプレートに前記参照項目を設定する、
帳票認識プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019170418A JP2021047688A (ja) | 2019-09-19 | 2019-09-19 | 帳票認識方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019170418A JP2021047688A (ja) | 2019-09-19 | 2019-09-19 | 帳票認識方法およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021047688A true JP2021047688A (ja) | 2021-03-25 |
Family
ID=74876364
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019170418A Pending JP2021047688A (ja) | 2019-09-19 | 2019-09-19 | 帳票認識方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021047688A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4250256A1 (en) | 2022-03-22 | 2023-09-27 | Fujifilm Business Innovation Corp. | Information processing apparatus, program, and method for processing information |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0855184A (ja) * | 1994-08-09 | 1996-02-27 | Fujitsu Ltd | Ocr定義体作成装置 |
JP2001084254A (ja) * | 1999-09-10 | 2001-03-30 | Toshiba Corp | 電子ファイリングシステムおよびファイリング方法 |
JP2008234291A (ja) * | 2007-03-20 | 2008-10-02 | Toshiba Corp | 文字認識装置及び文字認識方法 |
JP2015153138A (ja) * | 2014-02-14 | 2015-08-24 | 株式会社リコー | 情報処理システム、情報処理方法及びプログラム |
-
2019
- 2019-09-19 JP JP2019170418A patent/JP2021047688A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0855184A (ja) * | 1994-08-09 | 1996-02-27 | Fujitsu Ltd | Ocr定義体作成装置 |
JP2001084254A (ja) * | 1999-09-10 | 2001-03-30 | Toshiba Corp | 電子ファイリングシステムおよびファイリング方法 |
JP2008234291A (ja) * | 2007-03-20 | 2008-10-02 | Toshiba Corp | 文字認識装置及び文字認識方法 |
JP2015153138A (ja) * | 2014-02-14 | 2015-08-24 | 株式会社リコー | 情報処理システム、情報処理方法及びプログラム |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4250256A1 (en) | 2022-03-22 | 2023-09-27 | Fujifilm Business Innovation Corp. | Information processing apparatus, program, and method for processing information |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210227083A1 (en) | Image processing system that computerizes document, control method thereof, and storage medium | |
JP2005173730A (ja) | 帳票ocrプログラム、方法及び装置 | |
US11418658B2 (en) | Image processing apparatus, image processing system, image processing method, and storage medium | |
US7996761B2 (en) | Table format data processing method and table format data processing | |
US11348331B2 (en) | Information processing apparatus and non-transitory computer readable medium | |
JP2012190434A (ja) | 帳票定義装置、帳票定義方法、プログラム及び記録媒体 | |
US20230273952A1 (en) | Image processing apparatus, image processing method, and storage medium | |
JP2012203491A (ja) | 文書処理装置及び文書処理プログラム | |
JP2021047688A (ja) | 帳票認識方法およびプログラム | |
US20080266606A1 (en) | Optimized print layout | |
JP2007323474A (ja) | Ocrシステム、ocrフォーマットパラメータ作成方法、そのプログラムおよびプログラム記録媒体 | |
CN112417826A (zh) | Pdf在线编辑方法、装置、电子设备和可读存储介质 | |
JP2009031937A (ja) | 帳票画像処理装置及び帳票画像処理プログラム | |
JP2017111500A (ja) | 文字認識装置及びプログラム | |
JP4347675B2 (ja) | 帳票ocrプログラム、方法及び装置 | |
JP7446558B2 (ja) | 文書編集装置、文書編集装置の編集方法、文書編集装置の文書編集プログラム | |
EP3287952A1 (en) | Input control program, input control device, input control method, character correction program, character correction device, and character correction method | |
US6456739B1 (en) | Apparatus for recognizing characters and a method therefor | |
JP2022128766A (ja) | 帳票登録方法およびプログラム | |
JP6947971B2 (ja) | 情報処理装置、制御方法、プログラム | |
JP2011197844A (ja) | 差分検知システム | |
JP4759848B2 (ja) | 印刷製版データからの情報抽出装置 | |
US11481544B2 (en) | Form processing apparatus and non-transitory computer readable medium | |
JP7178445B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
JPH0635987A (ja) | 回路図作成装置および回路図作成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220802 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230628 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230801 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20240206 |