JP2004005268A - 帳票識別装置、帳票定義方法および帳票識別方法 - Google Patents
帳票識別装置、帳票定義方法および帳票識別方法 Download PDFInfo
- Publication number
- JP2004005268A JP2004005268A JP2002160682A JP2002160682A JP2004005268A JP 2004005268 A JP2004005268 A JP 2004005268A JP 2002160682 A JP2002160682 A JP 2002160682A JP 2002160682 A JP2002160682 A JP 2002160682A JP 2004005268 A JP2004005268 A JP 2004005268A
- Authority
- JP
- Japan
- Prior art keywords
- identification
- definition
- area
- forms
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Character Input (AREA)
Abstract
【課題】本発明は、識別のための文字列が印字されていない(プレ印字文字をもたない)帳票を含む多種類の帳票を高速に識別できる帳票識別装置を提供することを課題とする。
【解決手段】帳票定義装置10は、まず各種類の帳票を辞書帳票として1帳票ずつ用意し、スキャナで画像を読み取る。次に読み取った各帳票について、罫線および識別文字列の識別項目を含む複数の識別項目をもつ帳票定義およびその識別処理を実行するスクリプトを帳票定義ファイル20に作成する。OCR装置30は、上記帳票定義装置10によって定義されたスクリプトおよび帳票定義に基づき、各帳票(p)を識別し、識別した帳票について文字認識する。
【選択図】 図1
【解決手段】帳票定義装置10は、まず各種類の帳票を辞書帳票として1帳票ずつ用意し、スキャナで画像を読み取る。次に読み取った各帳票について、罫線および識別文字列の識別項目を含む複数の識別項目をもつ帳票定義およびその識別処理を実行するスクリプトを帳票定義ファイル20に作成する。OCR装置30は、上記帳票定義装置10によって定義されたスクリプトおよび帳票定義に基づき、各帳票(p)を識別し、識別した帳票について文字認識する。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
本発明は、複数種の帳票を扱う文字認識装置に適用して好適な帳票識別装置に係り、特に識別する文字列が固定位置に配置されない複数種の帳票を帳票定義に従って識別する際に適用して好適な帳票識別装置に関する。
【0002】
更に本発明は、識別対象となる複数種の帳票それぞれについて設定された複数の識別項目により帳票識別を行う際に用いられる帳票定義方法、および複数の識別項目による帳票定義に従って帳票を識別する帳票識別方法に関する。
【0003】
【従来の技術】
複数種類の帳票をOCR装置で文字認識したい場合、予め帳票を種類別に分類する帳票識別作業が介在する。この帳票識別作業を人手により行うと多くの時間と労力を要する。そこで従来では、あらかじめ帳票の決まった位置に、帳票種類を見分けるための手がかりとなる文字を印字しておき、この文字(プレ印字文字)を認識することで帳票種類を識別する方法(プレ印字領域による帳票識別方法)が知られていた。しかしながら、このプレ文字領域による帳票識別方法では、あらかじめ帳票設計時点で、各帳票について、識別するための文字列(プレ印字文字)を定位置に配置しておかなければならないという問題がある。
【0004】
そこで、このような不具合を解消するために、処理対象となる複数種の帳票それぞれについて、帳票のサイズ、とじ穴領域、コーナーカット領域、プレ印刷領域などの特徴を集めた辞書(帳票定義)を作成し、この辞書と入力帳票とのマッチングを行なうことで、帳票識別のための文字列を固定位置に配置していない帳票についても帳票の種類を識別可能とした技術を提案されている。その従来技術に於いては、識別する帳票の種類が増えると、帳票識別処理の速度が低下する。特に、プレ印刷文字の識別項目に関して、そのチェックに文字認識処理が介在することから、識別対象となる帳票の種類が多くなると、識別処理速度が著しく低下するという問題がある。
【0005】
また、多数のレイアウトが混在した不特定多数の帳票に対して、スクリプトファイルを用いて短時間かつ高精度に帳票識別を行うものとして、特開2001−236454号公報がある。しかしながら、この公報に記載されたものでは、スクリプトで処理の流れを木構造で記述することが出来ないため、辞書帳票との照合はマッチングベースになっていることから、辞書に登録されていない帳票が入力された場合には、スクリプトの全ての条件と照合する必要があり、識別速度が低下する問題があった。
【0006】
【発明が解決しようとする課題】
上述したように従来では、帳票識別処理に於いて、複数種の帳票を扱う際に、混在する帳票の種類が多くなると、速度が著しく低下するという問題があった。また、スクリプトファイルを用いるものでも、辞書に登録されていない帳票が入力された場合には、スクリプトの全ての条件と照合する必要があり、識別速度が低下する問題があった。
【0007】
本発明は上記実情に鑑みなされたもので、識別のための文字列が印字されていない(プレ印字文字をもたない)帳票を含む多種類の帳票を高速に識別できる帳票識別装置、帳票定義方法および帳票識別方法を提供することを目的とする。
【0008】
【課題を解決するための手段】
本発明は、プレ印字領域とは異なる、領域の文字列を帳票識別に用いることを特徴とする。また、複数種の識別項目をもつ帳票定義の手順を、識別項目を単位に任意に設定可能にしたことを特徴とする。
【0009】
即ち、本発明は、複数の識別項目による帳票定義に従って不特定多数の帳票を識別する帳票識別装置に於いて、帳票識別を目的としない帳票フォーム内の文字列およびその領域を定義した識別項目と、帳票識別を目的としない帳票フォームに則ったラインおよびその位置を定義した識別項目とを含んだ帳票定義に従って、前記帳票を識別することを特徴とする。 また、本発明は、複数の識別項目による帳票定義に従って不特定多数の帳票を識別する帳票識別装置に於いて、前記帳票定義に、複数の識別項目として、帳票フォーム内の識別文字列と、帳票サイズ、コーナーカット領域、とじ孔領域、白紙領域、罫線の少なくともいずれか1つを含み、前記識別項目を単位に前記帳票定義の識別手順を入れ替え自在にスクリプトで設定したことを特徴とする。
【0010】
【発明の実施の形態】
以下、図面を参照して本発明の実施形態を説明する。
【0011】
図1は、本発明の実施形態に於ける帳票識別装置を備えたOCR装置の構成を示すブロック図である。
【0012】
図1に於いて、帳票定義装置10はスキャナを備え、各帳票(p)の定義20Aを種類毎に帳票定義ファイル20を作成すると共に、その識別処理を実行するスクリプト20Bを作成して帳票定義ファイル20に格納する。OCR装置30は、帳票定義ファイル20に格納されたスクリプト20Bに基づき、同じく帳票定義ファイル20に格納された各帳票(p)の定義20Aを参照して帳票を識別した後、その帳票の文字等を認識し、その認識結果40を出力する。この図1に示すハードウェア構成は、従来のOCRシステムと基本的に同一である。
【0013】
本発明に於いては、上記帳票定義ファイル20に格納される帳票定義20Aに、識別対象となる帳票それぞれについて、帳票識別を目的としない帳票フォーム内の文字列およびその領域を定義した識別項目を加え、帳票(p)上の帳票フォーム内の文字列およびその領域をチェックする機能(識別文字列の項目チェック機能)を付加している。そして、前記帳票定義20Aの識別手順を識別項目単位に入れ替え自在にスクリプトで設定できるように構成されている。なお、図1に於いて、帳票定義装置10とOCR装置30は一体形成した構成であってもよい。
【0014】
図2および図3は、それぞれ本発明の実施形態に於ける帳票定義20Aの構成を説明するための図であり、このうち、図2は、帳票定義装置10の画面構成例を示す図、図3は帳票定義のフィールド設定内容の一例を示す図である。
【0015】
図2に示す帳票定義装置10の画面構成に於いて、11は帳票(p)の帳票イメージ、11a〜11cはそれぞれ帳票(p)上のチェック対象となる、識別項目領域である。このうち、11aはコーナーカット領域、11bはプレ印字領域、11cは白紙(空白)領域である。図2では、C様式(例えば帳票Cに該当)の白紙領域の設定画面を例示している。
【0016】
図3に示す帳票定義に於いては、識別対象帳票各々について、「帳票(用紙)サイズ」、「コーナーカット領域」、「とじ穴領域」、「プレ印字領域」、「白紙(空白)領域」、「罫線」、「識別文字列」等を帳票識別項目として定義している。更に、図3には、この各帳票識別項目についての設定内容を示している。上記帳票識別項目のうち、「罫線」は、予め定義された帳票フォームに則った、帳票識別に有効な罫線部分の領域を設定する。また、「識別文字列」は、プレ印字領域とは異なる領域の文字列を帳票識別のために使う場合に設定されるもので、帳票識別を目的としない帳票フォーム内の文字列とその領域を設定する。
【0017】
この「罫線」および「識別文字列」の識別対象となる帳票例を図4に示している。ここでは、5種類の帳票(帳票A、帳票B、帳票C、帳票D、帳票E)について、その罫線位置および識別文字列を例示している。
【0018】
帳票定義装置10に於ける処理では、まず、各種類の帳票を辞書帳票として1帳票ずつ用意し、スキャナで画像を読み取る操作を行う。次に、上記読み取った各帳票について、それぞれ、図3に示すような定義内容による、複数の識別項目をもつ帳票定義20Aを作成して帳票定義ファイル20に格納される。ここでは、帳票識別項目に、識別対象となる複数種の帳票(p)それぞれについて、帳票(用紙)サイズ、コーナーカット領域(11a)、とじ穴領域(図示せず)、プレ印字領域(11b)、白紙(空白)領域(11c)の各識別項目が定義され、更に、これらの各識別項目に加え、罫線および識別文字列(図4参照)の各識別項目が定義される。尚、ここで扱う帳票(p)上の白紙(空白)領域(11c)は、帳票(p)上に於いて、文字、記号等が何ら記録されていない単色部分(通常は白紙部分)の領域を指す。
【0019】
OCR装置30に於ける処理では、上記帳票定義装置10によって定義されたスクリプト20Bに基づき、図3に示す各帳票定義20Aを参照して帳票(p)を識別し、識別した帳票について文字認識する。即ち、OCR装置30には、帳票定義ファイル20から帳票定義装置10により記入又は定義されたスクリプト20Bおよび各帳票の帳票定義20Aが与えられる。そして、OCR装置20は、取り扱う帳票(p)の画像をスキャナで読み取り、スクリプト20Bの識別処理に従い図3に示すような複数の識別項目をもつ帳票定義20Bを参照して帳票(p)を識別し、文字認識を行って、ソータに出力するという一連の作業を行う。この際、複数の出力ポケットのあるソータを接続している場合は、帳票(p)を種類毎に分別することも可能である。識別がエラーになった場合は、該当帳票をリジェクトポケットに出力するなどの処理を行う。この帳票識別処理では、読み取った帳票(入力帳票)の画像を、帳票定義ファイル20に格納される帳票定義20Aと順次比較し、一致するか否かをすべての項目についてチェックする。
【0020】
帳票定義ファイル20に格納される、例えば図3に示す帳票定義20Aの識別手順を例に識別処理を説明する。入力帳票について、先ず、「用紙サイズ」が帳票定義20Aに登録されている辞書帳票の帳票サイズと一致するか否かをチェックする。ここで、用紙サイズが一致しなければ次の帳票定義による処理に移行する。一致すれば(指定通りであれば)、次に「コーナーカット」が帳票定義20Aに登録されているコーナーカット領域の指定通りであるか否かをチェックする。ここで、コーナーカットが指定通りでなければ、次の帳票定義による処理に移行する。
【0021】
コーナーカットが指定通りであれば、次に、「とじ穴」が帳票定義20Aに登録されている、とじ穴領域の指定通りであるか否かをチェックする。ここで、とじ穴が指定通りでなければ、次の帳票定義による処理に移行する。とじ穴が指定通りであれば、次に、「プレ印字」が帳票定義20Aに登録されているプレ印字領域の指定通りであるか否かをチェックする。ここで、プレ印字が指定通りでなければ次の帳票定義による処理に移行する。
【0022】
プレ印字が指定通りであれば、次に、「白紙領域」が帳票定義20Aに登録されている白紙領域の指定通りであるか否かをチェックする。ここで、白紙領域が指定通りでなければ、次の帳票定義による処理に移行する。白紙領域が指定通りであれば、次に、「罫線」が帳票定義20Aに登録されている罫線領域の指定通りであるか否かをチェックする。ここで、罫線が指定通りでなければ次の帳票定義による処理に移行する。
【0023】
罫線が指定通りであれば、次に、「識別文字列」が帳票定義20Aに登録されている識別文字列および領域と一致するか否かをチェックする。ここで、識別文字列が指定通りでなければ、次の帳票定義による処理に移行する。識別文字列が指定通りであれば、該当帳票(例えば図4に示す帳票A)に一致すると判定する。
【0024】
この一連の帳票定義に従うチェックを識別対象となるすべての帳票種類(帳票フォーマット)について、帳票定義20Aの内容(パラメータ)を切換ながら繰り返し実行し、チェックしたすべての帳票定義について、チェック対象にある帳票が只1種類の帳票定義に従う場合にのみ(即ち一致する帳票定義がただ1種類に限られた場合にのみ)その帳票を識別結果とする。一方、一致する帳票定義が複数または0(該当無し)の場合、その識別はエラー(異常終了)となる。
【0025】
本発明に於いては、更に、上記した帳票定義20Aの識別手順を、識別項目を単位に、任意に設定可能にしている。即ち、帳票定義装置に帳票識別のための手順を設定するスクリプトを用意し、上記した帳票定義20Aの各識別項目(帳票サイズ、コーナーカット領域、とじ孔領域、プレ印字領域、白紙領域、罫線、識別文字列)について、その識別手順を識別項目を単位に入れ替え自在にスクリプトで設定している。
【0026】
そして、本発明の帳票識別では、「登録されていない帳票が入力された場合に、スクリプトのすべての条件と照合することにより、識別速度が著しく低下する」という問題を解消するため、スクリプト20Bを用いて識別処理の流れを木構造で記述し、スクリプトでif文を用いて階層的に判断する方法をとることにより、登録されていない帳票(リジェクト帳票)に対して、早い処理段階で識別エラーとして棄却(リジェクト)することができるように構成されている。
【0027】
このスクリプト20Bでは、入力帳票と、辞書帳票とのサイズが一致するかどうか、罫線が一致するかどうかなど、設定した各項目をチェックするためのコマンドを用意する。ユーザーは必要なコマンドを組み合わせて識別手順を定義する。この際の識別手順設定用コマンドと、その機能の一例を図5に示している。また、この際のコマンド設定に適用される識別設定画面の構成例を図6に示している。この図6に示す識別設定画面の構成例では、識別帳票を設定する帳票設定画面61と、コマンドを設定するコマンド設定画面62と、スクリプトを記述するスクリプト設定画面63とを同時に表示して、識別帳票とコマンドとスクリプトとをそれぞれ設定内容を相互に参照しながら設定できるようにしている。
【0028】
この図6に示す識別設定画面上で設定した図5に示すような識別手順設定用コマンドを使って、図4に示すような帳票(帳票A〜E)を識別する場合の識別手順を設定する帳票識別スクリプト20Bの記述例を図7に示している。ここでは、入力帳票(被識別帳票)を「I」、辞書帳票(帳票定義対象)を「A,B,C,D,E」(図4参照)としている。
【0029】
この図7に示す帳票識別スクリプト20Bによる識別手順では、入力帳票の大部分を図4に示す「A」「B」の帳票が占める場合に有効な手順である。逆に、「A」「B」の帳票の割合が少ないことが予め分かっている場合、図7の(1)と(2)の条件を入れ替えることにより識別処理速度が速くなる。
【0030】
本発明によれば、帳票識別にスクリプトを設けて、すべての辞書帳票とマッチングすることなく、必要条件を選択的に設定して、帳票を識別できるので、帳票の種類が増えても高速に処理できる利点がある。また、簡単に処理手順を変えることができるので、入力帳票に応じて最適な手順で識別することが可能になる。また、すべての辞書帳票とマッチングする必要がないので、各帳票の設定内容に複雑な条件を盛り込むことが速度の低下につながらず、特徴が似た帳票であっても識別が可能になる。
【0031】
上記したスクリプトの設定方法として、図8に示すように、以下のようにXMLを用いて識別手順を記述する方法がある。XMLで記述することの利点は、設定された処理手順に矛盾がないかどうかを標準的な方法で容易に調べることができる点である。また、帳票を識別する際に、各タグ毎に、入力帳票と一致した回数を記憶しておくことにより、回数が多いタグが先に処理されるように処理を入れ替えれば処理を入力帳票に応じて自動的に高速化することができる。この処理はスクリプトをXMLで記述することにより容易に実装することが可能になる。
【0032】
【発明の効果】
以上詳記したように本発明によれば、識別のための文字列が印字されていない(プレ印字文字をもたない)帳票を含む多種類の帳票を高速に識別できる。また本発明では、帳票識別にスクリプトを設けて、すべての辞書帳票とマッチングすることなく、必要条件を選択的に設定して、帳票を識別できるので、帳票の種類が増えても高速に分類処理できる。
【図面の簡単な説明】
【図1】本発明の実施形態に於ける帳票識別装置を備えたOCR装置の構成を示すブロック図。
【図2】上記実施形態に於ける帳票定義の構成を説明するための帳票定義装置の画面構成例を示す図。
【図3】上記実施形態に於ける帳票定義の構成を説明するための帳票定義のフィールド設定内容の一例を示す図。
【図4】上記実施形態に於いて識別対象となる帳票の例を示す図。
【図5】上記実施形態に於ける識別手順設定用コマンドとその機能の一例を示す図。
【図6】上記実施形態に於ける識別設定画面の構成例を示す図。
【図7】上記実施形態に於ける帳票識別スクリプトの一記述例を示す図。
【図8】上記実施形態に於いて、識別手順をXMLを用いて記述した例を示す図。
【符号の説明】
10…帳票定義装置
11a…コーナーカット領域
11b…プレ印字領域
11c…白紙領域
11d…文字存在領域
20…帳票定義ファイル
30…OCR装置
40…認識結果
p…帳票
【発明の属する技術分野】
本発明は、複数種の帳票を扱う文字認識装置に適用して好適な帳票識別装置に係り、特に識別する文字列が固定位置に配置されない複数種の帳票を帳票定義に従って識別する際に適用して好適な帳票識別装置に関する。
【0002】
更に本発明は、識別対象となる複数種の帳票それぞれについて設定された複数の識別項目により帳票識別を行う際に用いられる帳票定義方法、および複数の識別項目による帳票定義に従って帳票を識別する帳票識別方法に関する。
【0003】
【従来の技術】
複数種類の帳票をOCR装置で文字認識したい場合、予め帳票を種類別に分類する帳票識別作業が介在する。この帳票識別作業を人手により行うと多くの時間と労力を要する。そこで従来では、あらかじめ帳票の決まった位置に、帳票種類を見分けるための手がかりとなる文字を印字しておき、この文字(プレ印字文字)を認識することで帳票種類を識別する方法(プレ印字領域による帳票識別方法)が知られていた。しかしながら、このプレ文字領域による帳票識別方法では、あらかじめ帳票設計時点で、各帳票について、識別するための文字列(プレ印字文字)を定位置に配置しておかなければならないという問題がある。
【0004】
そこで、このような不具合を解消するために、処理対象となる複数種の帳票それぞれについて、帳票のサイズ、とじ穴領域、コーナーカット領域、プレ印刷領域などの特徴を集めた辞書(帳票定義)を作成し、この辞書と入力帳票とのマッチングを行なうことで、帳票識別のための文字列を固定位置に配置していない帳票についても帳票の種類を識別可能とした技術を提案されている。その従来技術に於いては、識別する帳票の種類が増えると、帳票識別処理の速度が低下する。特に、プレ印刷文字の識別項目に関して、そのチェックに文字認識処理が介在することから、識別対象となる帳票の種類が多くなると、識別処理速度が著しく低下するという問題がある。
【0005】
また、多数のレイアウトが混在した不特定多数の帳票に対して、スクリプトファイルを用いて短時間かつ高精度に帳票識別を行うものとして、特開2001−236454号公報がある。しかしながら、この公報に記載されたものでは、スクリプトで処理の流れを木構造で記述することが出来ないため、辞書帳票との照合はマッチングベースになっていることから、辞書に登録されていない帳票が入力された場合には、スクリプトの全ての条件と照合する必要があり、識別速度が低下する問題があった。
【0006】
【発明が解決しようとする課題】
上述したように従来では、帳票識別処理に於いて、複数種の帳票を扱う際に、混在する帳票の種類が多くなると、速度が著しく低下するという問題があった。また、スクリプトファイルを用いるものでも、辞書に登録されていない帳票が入力された場合には、スクリプトの全ての条件と照合する必要があり、識別速度が低下する問題があった。
【0007】
本発明は上記実情に鑑みなされたもので、識別のための文字列が印字されていない(プレ印字文字をもたない)帳票を含む多種類の帳票を高速に識別できる帳票識別装置、帳票定義方法および帳票識別方法を提供することを目的とする。
【0008】
【課題を解決するための手段】
本発明は、プレ印字領域とは異なる、領域の文字列を帳票識別に用いることを特徴とする。また、複数種の識別項目をもつ帳票定義の手順を、識別項目を単位に任意に設定可能にしたことを特徴とする。
【0009】
即ち、本発明は、複数の識別項目による帳票定義に従って不特定多数の帳票を識別する帳票識別装置に於いて、帳票識別を目的としない帳票フォーム内の文字列およびその領域を定義した識別項目と、帳票識別を目的としない帳票フォームに則ったラインおよびその位置を定義した識別項目とを含んだ帳票定義に従って、前記帳票を識別することを特徴とする。 また、本発明は、複数の識別項目による帳票定義に従って不特定多数の帳票を識別する帳票識別装置に於いて、前記帳票定義に、複数の識別項目として、帳票フォーム内の識別文字列と、帳票サイズ、コーナーカット領域、とじ孔領域、白紙領域、罫線の少なくともいずれか1つを含み、前記識別項目を単位に前記帳票定義の識別手順を入れ替え自在にスクリプトで設定したことを特徴とする。
【0010】
【発明の実施の形態】
以下、図面を参照して本発明の実施形態を説明する。
【0011】
図1は、本発明の実施形態に於ける帳票識別装置を備えたOCR装置の構成を示すブロック図である。
【0012】
図1に於いて、帳票定義装置10はスキャナを備え、各帳票(p)の定義20Aを種類毎に帳票定義ファイル20を作成すると共に、その識別処理を実行するスクリプト20Bを作成して帳票定義ファイル20に格納する。OCR装置30は、帳票定義ファイル20に格納されたスクリプト20Bに基づき、同じく帳票定義ファイル20に格納された各帳票(p)の定義20Aを参照して帳票を識別した後、その帳票の文字等を認識し、その認識結果40を出力する。この図1に示すハードウェア構成は、従来のOCRシステムと基本的に同一である。
【0013】
本発明に於いては、上記帳票定義ファイル20に格納される帳票定義20Aに、識別対象となる帳票それぞれについて、帳票識別を目的としない帳票フォーム内の文字列およびその領域を定義した識別項目を加え、帳票(p)上の帳票フォーム内の文字列およびその領域をチェックする機能(識別文字列の項目チェック機能)を付加している。そして、前記帳票定義20Aの識別手順を識別項目単位に入れ替え自在にスクリプトで設定できるように構成されている。なお、図1に於いて、帳票定義装置10とOCR装置30は一体形成した構成であってもよい。
【0014】
図2および図3は、それぞれ本発明の実施形態に於ける帳票定義20Aの構成を説明するための図であり、このうち、図2は、帳票定義装置10の画面構成例を示す図、図3は帳票定義のフィールド設定内容の一例を示す図である。
【0015】
図2に示す帳票定義装置10の画面構成に於いて、11は帳票(p)の帳票イメージ、11a〜11cはそれぞれ帳票(p)上のチェック対象となる、識別項目領域である。このうち、11aはコーナーカット領域、11bはプレ印字領域、11cは白紙(空白)領域である。図2では、C様式(例えば帳票Cに該当)の白紙領域の設定画面を例示している。
【0016】
図3に示す帳票定義に於いては、識別対象帳票各々について、「帳票(用紙)サイズ」、「コーナーカット領域」、「とじ穴領域」、「プレ印字領域」、「白紙(空白)領域」、「罫線」、「識別文字列」等を帳票識別項目として定義している。更に、図3には、この各帳票識別項目についての設定内容を示している。上記帳票識別項目のうち、「罫線」は、予め定義された帳票フォームに則った、帳票識別に有効な罫線部分の領域を設定する。また、「識別文字列」は、プレ印字領域とは異なる領域の文字列を帳票識別のために使う場合に設定されるもので、帳票識別を目的としない帳票フォーム内の文字列とその領域を設定する。
【0017】
この「罫線」および「識別文字列」の識別対象となる帳票例を図4に示している。ここでは、5種類の帳票(帳票A、帳票B、帳票C、帳票D、帳票E)について、その罫線位置および識別文字列を例示している。
【0018】
帳票定義装置10に於ける処理では、まず、各種類の帳票を辞書帳票として1帳票ずつ用意し、スキャナで画像を読み取る操作を行う。次に、上記読み取った各帳票について、それぞれ、図3に示すような定義内容による、複数の識別項目をもつ帳票定義20Aを作成して帳票定義ファイル20に格納される。ここでは、帳票識別項目に、識別対象となる複数種の帳票(p)それぞれについて、帳票(用紙)サイズ、コーナーカット領域(11a)、とじ穴領域(図示せず)、プレ印字領域(11b)、白紙(空白)領域(11c)の各識別項目が定義され、更に、これらの各識別項目に加え、罫線および識別文字列(図4参照)の各識別項目が定義される。尚、ここで扱う帳票(p)上の白紙(空白)領域(11c)は、帳票(p)上に於いて、文字、記号等が何ら記録されていない単色部分(通常は白紙部分)の領域を指す。
【0019】
OCR装置30に於ける処理では、上記帳票定義装置10によって定義されたスクリプト20Bに基づき、図3に示す各帳票定義20Aを参照して帳票(p)を識別し、識別した帳票について文字認識する。即ち、OCR装置30には、帳票定義ファイル20から帳票定義装置10により記入又は定義されたスクリプト20Bおよび各帳票の帳票定義20Aが与えられる。そして、OCR装置20は、取り扱う帳票(p)の画像をスキャナで読み取り、スクリプト20Bの識別処理に従い図3に示すような複数の識別項目をもつ帳票定義20Bを参照して帳票(p)を識別し、文字認識を行って、ソータに出力するという一連の作業を行う。この際、複数の出力ポケットのあるソータを接続している場合は、帳票(p)を種類毎に分別することも可能である。識別がエラーになった場合は、該当帳票をリジェクトポケットに出力するなどの処理を行う。この帳票識別処理では、読み取った帳票(入力帳票)の画像を、帳票定義ファイル20に格納される帳票定義20Aと順次比較し、一致するか否かをすべての項目についてチェックする。
【0020】
帳票定義ファイル20に格納される、例えば図3に示す帳票定義20Aの識別手順を例に識別処理を説明する。入力帳票について、先ず、「用紙サイズ」が帳票定義20Aに登録されている辞書帳票の帳票サイズと一致するか否かをチェックする。ここで、用紙サイズが一致しなければ次の帳票定義による処理に移行する。一致すれば(指定通りであれば)、次に「コーナーカット」が帳票定義20Aに登録されているコーナーカット領域の指定通りであるか否かをチェックする。ここで、コーナーカットが指定通りでなければ、次の帳票定義による処理に移行する。
【0021】
コーナーカットが指定通りであれば、次に、「とじ穴」が帳票定義20Aに登録されている、とじ穴領域の指定通りであるか否かをチェックする。ここで、とじ穴が指定通りでなければ、次の帳票定義による処理に移行する。とじ穴が指定通りであれば、次に、「プレ印字」が帳票定義20Aに登録されているプレ印字領域の指定通りであるか否かをチェックする。ここで、プレ印字が指定通りでなければ次の帳票定義による処理に移行する。
【0022】
プレ印字が指定通りであれば、次に、「白紙領域」が帳票定義20Aに登録されている白紙領域の指定通りであるか否かをチェックする。ここで、白紙領域が指定通りでなければ、次の帳票定義による処理に移行する。白紙領域が指定通りであれば、次に、「罫線」が帳票定義20Aに登録されている罫線領域の指定通りであるか否かをチェックする。ここで、罫線が指定通りでなければ次の帳票定義による処理に移行する。
【0023】
罫線が指定通りであれば、次に、「識別文字列」が帳票定義20Aに登録されている識別文字列および領域と一致するか否かをチェックする。ここで、識別文字列が指定通りでなければ、次の帳票定義による処理に移行する。識別文字列が指定通りであれば、該当帳票(例えば図4に示す帳票A)に一致すると判定する。
【0024】
この一連の帳票定義に従うチェックを識別対象となるすべての帳票種類(帳票フォーマット)について、帳票定義20Aの内容(パラメータ)を切換ながら繰り返し実行し、チェックしたすべての帳票定義について、チェック対象にある帳票が只1種類の帳票定義に従う場合にのみ(即ち一致する帳票定義がただ1種類に限られた場合にのみ)その帳票を識別結果とする。一方、一致する帳票定義が複数または0(該当無し)の場合、その識別はエラー(異常終了)となる。
【0025】
本発明に於いては、更に、上記した帳票定義20Aの識別手順を、識別項目を単位に、任意に設定可能にしている。即ち、帳票定義装置に帳票識別のための手順を設定するスクリプトを用意し、上記した帳票定義20Aの各識別項目(帳票サイズ、コーナーカット領域、とじ孔領域、プレ印字領域、白紙領域、罫線、識別文字列)について、その識別手順を識別項目を単位に入れ替え自在にスクリプトで設定している。
【0026】
そして、本発明の帳票識別では、「登録されていない帳票が入力された場合に、スクリプトのすべての条件と照合することにより、識別速度が著しく低下する」という問題を解消するため、スクリプト20Bを用いて識別処理の流れを木構造で記述し、スクリプトでif文を用いて階層的に判断する方法をとることにより、登録されていない帳票(リジェクト帳票)に対して、早い処理段階で識別エラーとして棄却(リジェクト)することができるように構成されている。
【0027】
このスクリプト20Bでは、入力帳票と、辞書帳票とのサイズが一致するかどうか、罫線が一致するかどうかなど、設定した各項目をチェックするためのコマンドを用意する。ユーザーは必要なコマンドを組み合わせて識別手順を定義する。この際の識別手順設定用コマンドと、その機能の一例を図5に示している。また、この際のコマンド設定に適用される識別設定画面の構成例を図6に示している。この図6に示す識別設定画面の構成例では、識別帳票を設定する帳票設定画面61と、コマンドを設定するコマンド設定画面62と、スクリプトを記述するスクリプト設定画面63とを同時に表示して、識別帳票とコマンドとスクリプトとをそれぞれ設定内容を相互に参照しながら設定できるようにしている。
【0028】
この図6に示す識別設定画面上で設定した図5に示すような識別手順設定用コマンドを使って、図4に示すような帳票(帳票A〜E)を識別する場合の識別手順を設定する帳票識別スクリプト20Bの記述例を図7に示している。ここでは、入力帳票(被識別帳票)を「I」、辞書帳票(帳票定義対象)を「A,B,C,D,E」(図4参照)としている。
【0029】
この図7に示す帳票識別スクリプト20Bによる識別手順では、入力帳票の大部分を図4に示す「A」「B」の帳票が占める場合に有効な手順である。逆に、「A」「B」の帳票の割合が少ないことが予め分かっている場合、図7の(1)と(2)の条件を入れ替えることにより識別処理速度が速くなる。
【0030】
本発明によれば、帳票識別にスクリプトを設けて、すべての辞書帳票とマッチングすることなく、必要条件を選択的に設定して、帳票を識別できるので、帳票の種類が増えても高速に処理できる利点がある。また、簡単に処理手順を変えることができるので、入力帳票に応じて最適な手順で識別することが可能になる。また、すべての辞書帳票とマッチングする必要がないので、各帳票の設定内容に複雑な条件を盛り込むことが速度の低下につながらず、特徴が似た帳票であっても識別が可能になる。
【0031】
上記したスクリプトの設定方法として、図8に示すように、以下のようにXMLを用いて識別手順を記述する方法がある。XMLで記述することの利点は、設定された処理手順に矛盾がないかどうかを標準的な方法で容易に調べることができる点である。また、帳票を識別する際に、各タグ毎に、入力帳票と一致した回数を記憶しておくことにより、回数が多いタグが先に処理されるように処理を入れ替えれば処理を入力帳票に応じて自動的に高速化することができる。この処理はスクリプトをXMLで記述することにより容易に実装することが可能になる。
【0032】
【発明の効果】
以上詳記したように本発明によれば、識別のための文字列が印字されていない(プレ印字文字をもたない)帳票を含む多種類の帳票を高速に識別できる。また本発明では、帳票識別にスクリプトを設けて、すべての辞書帳票とマッチングすることなく、必要条件を選択的に設定して、帳票を識別できるので、帳票の種類が増えても高速に分類処理できる。
【図面の簡単な説明】
【図1】本発明の実施形態に於ける帳票識別装置を備えたOCR装置の構成を示すブロック図。
【図2】上記実施形態に於ける帳票定義の構成を説明するための帳票定義装置の画面構成例を示す図。
【図3】上記実施形態に於ける帳票定義の構成を説明するための帳票定義のフィールド設定内容の一例を示す図。
【図4】上記実施形態に於いて識別対象となる帳票の例を示す図。
【図5】上記実施形態に於ける識別手順設定用コマンドとその機能の一例を示す図。
【図6】上記実施形態に於ける識別設定画面の構成例を示す図。
【図7】上記実施形態に於ける帳票識別スクリプトの一記述例を示す図。
【図8】上記実施形態に於いて、識別手順をXMLを用いて記述した例を示す図。
【符号の説明】
10…帳票定義装置
11a…コーナーカット領域
11b…プレ印字領域
11c…白紙領域
11d…文字存在領域
20…帳票定義ファイル
30…OCR装置
40…認識結果
p…帳票
Claims (8)
- 複数の識別項目による帳票定義に従って不特定多数の帳票を識別する帳票識別装置に於いて、
帳票識別を目的としない帳票フォーム内の文字列およびその領域を定義した識別項目と、帳票識別を目的としない帳票フォームに則ったラインおよびその位置を定義した識別項目とを含んだ帳票定義に従って、前記帳票を識別することを特徴とする帳票識別装置。 - 複数の識別項目による帳票定義に従って不特定多数の帳票を識別する帳票識別装置に於いて、
前記帳票を識別する帳票定義に、帳票フォーム内の特定の文字列および当該文字列領域を定義した文字列識別項目を含み、
前記帳票フォーム内の文字認識領域の文字認識に先立ち、前記文字列識別項目を含む帳票定義に従い、前記帳票の識別を行うことを特徴とする帳票識別装置。 - 前記帳票定義には、識別対象となる複数種の帳票それぞれについて、用紙サイズ、コーナーカット領域、とじ孔領域、白紙領域、プレ印字領域、罫線の少なくともいずれか1つの識別項目が含まれる請求項1または請求項2記載の帳票識別装置。
- 複数の識別項目による帳票定義に従って不特定多数の帳票を識別する帳票識別装置に於いて、
前記帳票定義に、複数の識別項目として、帳票フォーム内の識別文字列と、帳票サイズ、コーナーカット領域、とじ孔領域、白紙領域、罫線の少なくともいずれか1つを含み、前記識別項目を単位に前記帳票定義の識別手順を入れ替え自在にスクリプトで設定したことを特徴とする帳票識別装置。 - 識別対象となる複数種の帳票それぞれについて、設定された複数の識別項目により帳票識別を行う際に用いられる帳票定義に、識別対象となる複数種の帳票それぞれについて、帳票識別を目的としない帳票フォーム内の文字列およびその領域を定義したことを特徴とする帳票定義方法。
- 識別対象となる複数種の帳票それぞれについて、設定された複数の識別項目により帳票識別を行う際に用いられる帳票定義に、前記識別項目として、帳票フォーム内の識別文字列と、帳票サイズ、コーナーカット領域、とじ孔領域、白紙領域、罫線の少なくともいずれか1つを含み、前記識別項目を単位に前記帳票定義の識別手順を入れ替え自在にスクリプトで定義したことを特徴とする帳票定義方法。
- 複数の識別項目による帳票定義に従って不特定多数の帳票を識別する帳票識別方法に於いて、
識別対象となる複数種の帳票それぞれの帳票識別を目的としない帳票フォーム内の文字列およびその領域を定義した識別項目を含んだ帳票定義に従って前記帳票を識別することを特徴とする帳票識別方法。 - 複数の識別項目による帳票定義に従って不特定帳票を識別する帳票識別方法に於いて、
識別対象となる複数種の帳票それぞれについて、前記帳票定義に、複数の識別項目として、帳票フォーム内の識別文字列と、帳票サイズ、コーナーカット領域、とじ孔領域、白紙領域、罫線の少なくともいずれ1つかを含み、前記識別項目を単位に前記帳票定義の識別手順を入れ替え自在にスクリプトで設定し、前記設定した帳票定義に従って帳票を識別することを特徴とする帳票識別方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002160682A JP2004005268A (ja) | 2002-05-31 | 2002-05-31 | 帳票識別装置、帳票定義方法および帳票識別方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002160682A JP2004005268A (ja) | 2002-05-31 | 2002-05-31 | 帳票識別装置、帳票定義方法および帳票識別方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004005268A true JP2004005268A (ja) | 2004-01-08 |
Family
ID=30430011
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002160682A Pending JP2004005268A (ja) | 2002-05-31 | 2002-05-31 | 帳票識別装置、帳票定義方法および帳票識別方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004005268A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006252453A (ja) * | 2005-03-14 | 2006-09-21 | Sekisui Chem Co Ltd | 処理システム及び該処理システムに用いられるプログラム並びに該プログラムが記録されたプログラム記録媒体 |
JP2008310531A (ja) * | 2007-06-13 | 2008-12-25 | Hitachi Computer Peripherals Co Ltd | 帳票識別方法及び帳票識別プログラム並びに該帳票識別方法を用いた光学文字読取システム |
US7933048B2 (en) | 2005-01-31 | 2011-04-26 | Canon Kabushiki Kaisha | Image reading apparatus, server apparatus, and image processing system |
-
2002
- 2002-05-31 JP JP2002160682A patent/JP2004005268A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7933048B2 (en) | 2005-01-31 | 2011-04-26 | Canon Kabushiki Kaisha | Image reading apparatus, server apparatus, and image processing system |
JP2006252453A (ja) * | 2005-03-14 | 2006-09-21 | Sekisui Chem Co Ltd | 処理システム及び該処理システムに用いられるプログラム並びに該プログラムが記録されたプログラム記録媒体 |
JP4721260B2 (ja) * | 2005-03-14 | 2011-07-13 | インテグラル・テクノロジー株式会社 | 処理システム及び該処理システムに用いられるプログラム並びに該プログラムが記録されたプログラム記録媒体 |
JP2008310531A (ja) * | 2007-06-13 | 2008-12-25 | Hitachi Computer Peripherals Co Ltd | 帳票識別方法及び帳票識別プログラム並びに該帳票識別方法を用いた光学文字読取システム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2007004584A (ja) | 情報処理装置 | |
US6869238B2 (en) | Printing control program, printing control system, and printing control method | |
CN113610068B (zh) | 基于试卷图像的试题拆解方法、系统、存储介质及设备 | |
JP2004005268A (ja) | 帳票識別装置、帳票定義方法および帳票識別方法 | |
JP2002342343A (ja) | 文書管理システム | |
JP4807618B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP3762289B2 (ja) | 帳票識別装置および帳票識別方法 | |
JP3696152B2 (ja) | 帳票識別装置および帳票識別方法 | |
JP2001005831A (ja) | ファイリング方法及びそれを格納した記録媒体 | |
JPH10124615A (ja) | 文字認識方法 | |
US20040034836A1 (en) | Information partitioning apparatus, information partitioning method, information partitioning program, and recording medium on which information partitioning program has been recorded | |
JP2009011874A (ja) | 帳票仕分け方法及び該帳票仕分け方法を用いた光学的文字読取システム | |
JPH0962758A (ja) | 帳票認識処理システム | |
WO2019119030A1 (en) | Image analysis | |
JP2002358521A (ja) | 帳票フォーマット登録・識別装置、方法及びプログラム | |
JP4544703B2 (ja) | 帳票読み取り方法および帳票読み取りシステム | |
JP2003178071A (ja) | 文書管理システム | |
JP2002358506A (ja) | 文書ファイリング装置及び文書ファイリング方法並びに記録媒体 | |
JP4255766B2 (ja) | イメージ処理システム及びイメージ処理装置 | |
JPH07152856A (ja) | 光学的文字読取装置 | |
JP2003099709A (ja) | 誤読文字修正方法及び光学的文字認識装置 | |
JPH08241314A (ja) | 文書ファイリングシステム | |
JP2004056495A (ja) | 帳票デザイン作成装置及び帳票画像取込装置 | |
JP2007222746A (ja) | 郵便物処理装置及び郵便物処理方法 | |
JP2002269126A (ja) | 文書管理システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050707 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050719 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20060509 |