JP2011243053A

JP2011243053A - 帳票判別装置、帳票分類システム、帳票判別方法および帳票判別プログラム

Info

Publication number: JP2011243053A
Application number: JP2010115499A
Authority: JP
Inventors: Haruhiko Sato; 治彦佐藤
Original assignee: Taiyo Nippon Sanso Corp
Current assignee: Taiyo Nippon Sanso Corp
Priority date: 2010-05-19
Filing date: 2010-05-19
Publication date: 2011-12-01

Abstract

【課題】帳票を読み取るごとに、その帳票を判別するための文字列の情報を入力しなくても、帳票の種類を判別する。
【解決手段】所定の区画内において着色部が占める割合と文字とが関係付けられたテーブルと、帳票の様式毎に定められた様式文字列を記憶する記憶部１２と、帳票の画像から所定の領域の画像を抽出する画像抽出部１４と、抽出した画像を所定の区画に分割し、該区画毎に上記割合を算出し、記憶部に記憶された上記テーブルから上記算出した割合に対応する文字を抽出し、区画の画像を該文字に置き換えることにより文字列を生成するテキスト化処理部１５と、生成された文字列から所定の数の文字列をキーワードとして抽出するキーワード生成部１６と、記憶部に記憶された複数の様式文字列の中から、キーワードまたはキーワードに類似した文字列を含む様式文字列を抽出することにより帳票の様式を判別する様式判別部１７と、を備える。
【選択図】図１

Description

本発明は、帳票判別装置、帳票分類システム、帳票判別方法および帳票判別プログラムに関する。

ＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅａｄｅｒ）とは、手書き文字や印字された文字を光学的に読み取り、前もって記憶されたパターンとの照合により文字を特定し、文字データを出力する装置である。また、スキャナで読み取った画像から文字を識別して文書に変換するＯＣＲソフトも市販されている。一般的に、ＯＣＲは、活字印刷物については認識精度が高いことが知られている。

一般的に、ＯＣＲにおいて、的確なＯＣＲのためには、帳票の様式毎に、異なるＯＣＲ設定データが必要である。従って、帳票をスキャナで読み取った画像から文字を認識するには、その帳票毎に予め設定されたＯＣＲ設定データを切り替えなければならなかった。その際、その切り替えは、オペレータの操作または専用プログラムにより行われていた。例えば、特許文献１に専用プログラムを用いて帳票を判別する方法について、開示されている。

特開２００２−１０９４６８号公報

しかしながら、従来の技術で帳票の種類を判別するには、その帳票内に記載されたその帳票を特徴付ける文字列（以下、プレプリントと称する）が正確に読み取られる必要があった（例えば、特許文献１参照）。そのため、帳票画像内におけるその文字列の位置、その文字列の大きさ、その文字列のフォントなどの項目を、帳票を読み取るごとに、ユーザが入力しなければいけないという問題があった（例えば、特許文献１参照）。

そこで本発明は、上記問題に鑑みてなされたものであり、帳票を読み取るごとに、その帳票を判別するための文字列の情報を入力しなくても、帳票の種類を判別することができる帳票判別装置、帳票分類システム、帳票判別方法および帳票判別プログラムを提供することを課題とする。

上記課題を解決するため、請求項１に係る発明は、所定の区画内において着色部が占める割合と文字とが関係付けられたテーブルと、帳票の様式毎に定められた様式文字列を記憶する記憶部と、帳票の画像から所定の領域の画像を抽出する画像抽出部と、前記抽出した画像を所定の区画に分割し、該区画毎に前記割合を算出し、前記記憶部に記憶された前記テーブルから前記算出した割合に対応する文字を抽出し、前記区画の画像を該文字に置き換えることにより文字列を生成するテキスト化処理部と、前記テキスト化処理部によって生成された文字列から所定の数の文字列をキーワードとして抽出するキーワード生成部と、前記記憶部に記憶された前記様式文字列の中から、前記キーワードまたは前記キーワードに類似した文字列を含む様式文字列を抽出することにより帳票の様式を判別する様式判別部と、を備えることを特徴とする帳票判別装置である。

請求項２に係る発明は、前記テキスト化処理部は、生成した文字列のうち、スペースを第１の文字に、スペース以外の文字を第２の文字に変換することを特徴とする請求項１に記載の帳票判別装置である。

請求項３に係る発明は、前記キーワードの桁数を調整するパラメータを更に記憶し、
前記キーワード生成部は、前記パラメータに基づいて、キーワードを変更することを特徴とする請求項１または請求項２に記載の帳票判別装置である。

請求項４に係る発明は、請求項１から請求項３のいずれかに記載の帳票判別装置と、前記帳票判別装置が判別した前記帳票の様式に基づいて、帳票画像から文字を認識するＯＣＲ処理装置と、前記ＯＣＲ処理装置が認識した文字に基づいて、前記帳票画像のファイルの保存場所を決定する分類先決定装置と、を備えることを特徴とする帳票分類システムである。

請求項５に係る発明は、帳票の画像から所定の領域の画像を抽出する画像抽出手順と、前記抽出した画像を所定の区画に分割し、該区画毎に着色部が占める割合を算出し、所定の区画内において着色部が占める割合と文字とが関係付けられたテーブルを記憶した記憶部から、前記算出された着色部が占める割合に対応する文字を抽出し、前記区画の画像を該文字に置き換えることにより文字列を生成するテキスト化処理手順と、前記テキスト化処理部によって生成された文字列から所定の数の文字列をキーワードとして抽出するキーワード生成手順と、前記記憶部に記憶された様式文字列の中から、前記キーワードまたは前記キーワードに類似した文字列を含む様式文字列を抽出することにより帳票の様式を判別する様式判別手順と、を有することを特徴とする帳票判別方法である。

請求項６に係る発明は、所定の区画内において着色部が占める割合と文字とが関係付けられたテーブルと、帳票の様式毎に定められた様式文字列を記憶した記憶部を備えたコンピュータを、帳票の画像から所定の領域の画像を抽出する画像抽出部と、前記抽出した画像を所定の区画に分割し、該区画毎に前記割合を算出し、前記記憶部に記憶された前記テーブルから前記算出した割合に対応する文字を抽出し、前記区画の画像を該文字に置き換えることにより文字列を生成するテキスト化処理部と、前記テキスト化処理部によって生成された文字列から所定の数の文字列をキーワードとして抽出するキーワード生成部と、前記記憶部に記憶された複数の前記様式文字列の中から、前記キーワードまたは前記キーワードに類似した文字列を含む様式文字列を抽出することにより帳票の様式を判別する様式判別部と、して機能させるための帳票判別プログラムである。

本発明によれば、帳票を読み取るごとに、その帳票を判別するための文字列の情報を入力しなくても、帳票の種類を判別することができる。

本発明の一実施形態による帳票分類システムのブロック構成図である。記憶部に保存された変換文字テーブルの１例を示した図である。記憶部に保存されたキーワード文字列作成用のパラメータテーブルを示した図である。記憶部に保存された様式文字列テーブルの１例を示した図である。本発明の一実施形態による帳票の画像データの１例を示した図である。テキスト化の処理を説明するための図である。テキスト化の処理をされた後のテキストの１例を示した図である。ＯＣＲ設定ファイル内のデータ様式の一例を示した図である。分析票ファイル名の一例を示した図である。帳票の画像を分類する処理のフローチャートを示した図である。帳票の様式を判別する処理のフローチャートを示した図である。

以下、本発明の実施形態について、図面を参照して詳細に説明する。図１は、本発明の一実施形態による帳票分類システムのブロック構成図である。帳票分類システム１は、帳票判別装置２と、ＯＣＲ処理装置３と、分類先決定装置４と、データ保管装置５とを用いて構成されている。

帳票判別装置２は、一時記憶部１１と、記憶部１２と、制御部１３とを用いて構成されている。
一時記憶部１１は、ＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等の読み書き可能で揮発性の記憶媒体を用いて構成される。一時記憶部１１は、制御部１３から供給された情報を一時的に保持する。

記憶部１２は、ハードディスクまたはフラッシュメモリ等の読み書き可能で不揮発性の記憶媒体を用いて構成される。記憶部１２は、制御部１３によって実行されるプログラムを保持する。さらに、記憶部１２は、帳票の画像データを保持する。また、記憶部１２は、変換文字テーブルと、キーワード作成パラメータテーブルと、様式文字列テーブルとを保持する。

続いて、記憶部１２に保存された変換文字テーブルについて説明する。図２は、記憶部に保存された変換文字テーブルの１例を示した図である。この変換文字テーブルにおいて、画像内のある区画において着色部分（例えば、黒色部分）が占める割合が、それに対応するアスキー文字と関連付けられている。また、それぞれのアスキー文字には、そのアスキー文字に対応した番号が割り振られている。

ここで、着色が占める割合は、その割合が大きいほど、文字描画領域に占める文字の割合が大きいアスキー文字に関係付けられる。例えば、着色が占める割合が２５［％］の場合には、割り当てられる文字は「／」である。一方、着色が占める割合が８３［％］と高くなると、割り当てられる文字は「＆」である。

続いて、記憶部１２に保存されたキーワード文字列作成パラメータテーブルについて説明する。図３は、記憶部に保存されたキーワード文字列作成用のパラメータテーブルを示した図である。キーワード文字列作成用のパラメータテーブル３０は、キーワード文字列を作成するための各種パラメータを包含している。

各種パラメータには、パラメータ番号と、見出し文字数と、有効範囲桁と、開始桁位置と、増分桁とが含まれる。パラメータ番号毎に見出し文字数と、有効範囲桁と、開始桁位置と、増分桁とが決められている。見出し文字数は、帳票の見出し部分（例えば、帳票の上から１０［％］部分）の画像を文字列化した際の文字列（以下、ソース文字列Ａと称する）の文字数である。

有効範囲桁は、そのソース文字列Ａ内で、帳票を特徴づける部分（例えば、ロゴ、タイトル部など）に該当する範囲の桁数である。開始桁位置は、ソース文字列ＡからキーワードＡＳを生成する際に、ソース文字列Ａの先頭から抽出する桁数である。増分桁は、ソース文字列ＡからキーワードＡＳを生成する際に、ソース文字列Ａの先頭から抽出する桁数に加える文字の桁数である。

続いて、記憶部１２に保存された様式文字列テーブルについて説明する。図４は、記憶部に保存された様式文字列テーブルの１例を示した図である。その様式文字列テーブルにおいて、様式文字列データと、ＯＣＲ設定ファイル名とが対応付けられている。
例えば、様式文字列データ「ＭＭＭＭＮＮＮＮＮＬＬＬＡＡＣＣＣＣ〜」は、ＯＣＲ設定ファイル名「ＹＯＵＳＩＫＩ−１．ｔｘｔ」に関係付けられている。

制御部１３は、帳票の種類の判別を行う処理部である。制御部１３は、画像抽出部１４と、テキスト化処理部１５と、キーワード生成部１６と、様式判別部１７と、を用いて構成されている。

図５は、本発明の一実施形態による帳票の画像データの１例を示した図である。帳票の画像データ５０は、ＴＮＳＣというロゴ部５１と、分析表というタイトル部と、その他の項目（日付、化合物名、カタログ番号、ロット番号等）から構成されている。

画像抽出部１４は、記憶部１２から帳票の画像を読み出す。また、画像抽出部１４は、その帳票の画像から、帳票の見出しなど（ロゴ、タイトル、日付、氏名、押印部など）帳票の様式を特徴づける予め決められた部分画像範囲（例えば、帳票画像の上から１０％の範囲）の画像を抽出する。例えば、画像抽出部１４は、図５において、領域５１の範囲を示す画像を抽出する。そして、画像抽出部１４は、抽出された画像を一時記憶部１１に保存する。

なお、帳票の画像がカラー画像であれば、押印部を部分画像範囲から除外するために、画像抽出部１４は、カラーの領域を部分画像範囲から除外してもよい。具体的には、例えば、画像抽出部１４は、部分画像範囲のデータを読み出し、各画素の赤の画素値が所定の閾値よりも大きな区画を部分画像範囲から除外してもよい。

図６は、テキスト化の処理を説明するための図である。図６（ａ）は、画像抽出部１４により抽出された領域５１のうちで、更に注目する領域５２を示した図である。図６（ｂ）は、領域５２内の画像をキーワード文字列に変換する方法を説明するための図である。

テキスト化処理部１５は、画像抽出部１４により抽出された画像を一時記憶部１１から読み出す。テキスト化処理部１５は、パラメータテーブル３０から見出し文字数ＮＸ_ｉ（ｉはパラメータ番号で、１から３までの整数）を読み出す。そして、テキスト化処理部１５は、部分画像範囲を、区画数がＮＸ_ｉとなるように区画の大きさを算出する。テキスト化処理部１５は、読み出した部分の画像を、算出した区画の大きさで分割する。例えば、図６（ａ）の領域５２に注目すると、テキスト化処理部１５は、図６（ｂ）の領域５２を所定の区画に分割する。ここで、区画とは、図６（ｂ）の升目一つ一つのことである。

テキスト化処理部１５は、図２の変換文字テーブル２０を使用して、区画ごとに着色部が占める割合に対応したアスキー文字に置き換える（以下、この置き換えを変換と称する）。例えば、図６（ｂ）において、テキスト化処理部１５は、領域５３内の区画を、アスキー文字５４にそれぞれ変換する。

図７は、テキスト化の処理をされた後のテキストの１例を示した図である。同図において、文字列５５は、図６（ａ）のＴＮＳＣというロゴの画像がアスキー文字列に変換されたものである。例えば、テキスト化処理部１５は、区画ごとに着色部が占める割合に対応したアスキー文字に変換した結果、領域５１の画像を領域５５の文字列に変換する。

テキスト化処理部１５は、上記の変換を全区画に渡って行うことにより、「ソース文字列Ａ」を生成する。テキスト化処理部１５は、生成した「ソース文字列Ａ」を一時記憶部１１へ保存する。

ロゴ部、タイトル部などの後に日付、氏名、押印部がある帳票の様式において、帳票の種類が同じであっても、一つの帳票の中で共通でない部分である「日付、氏名、押印部」などが存在する場合がある。

このような場合に対応するため、本発明の実施形態によるテキスト化処理部１５は、ソース文字列Ａの生成後に、さらに下記の文字置換処理を行う。テキスト化処理部１５は、ソース文字列Ａ中の文字のうちスペースでない文字を、全て“１”に変換する。一方、テキスト化処理部１５は、ソース文字列Ａ中の文字のうちスペースを“０”に変換する。

その結果、テキスト化処理部１５は、ソース文字列Ａと同じ文字数で、０と１との２つの文字からなる文字列（以下、ソース文字列Ｂと称する）を生成する。その結果、ロゴ部、タイトル部、日付、氏名、押印部等はすべて、一定の桁数の文字列（例えば、「１１１００．．．」）である。これによって、帳票に共通しない部分（例えば、日付、氏名、押印部等）があっても、帳票を判別することができる。

キーワード生成部１６は、後述する方法により、ソース文字列Ｂから、キーワード文字列である「キーワードＡ２」を生成する。また、キーワード生成部１６は、後述する方法により、ソース文字列Ａから、キーワード文字列である「キーワードＡＳ」または「キーワードＡＺ」を生成する。そして、キーワード生成部１６は、生成したそれぞれのキーワード文字列を一時記憶部１１に保存する。

様式判別部１７は、一時記憶部１１からキーワード文字列（「キーワードＡ２」、「キーワードＡＳ」または「キーワードＡＺ」）を読み出す。様式判別部１７は、そのキーワード文字列をキーとして様式文字列テーブルに格納されている様式文字列データの中から、当該キーワード文字列または当該キーワード文字列に類似する文字列が含まれている様式文字列データを検索する。

ここで、キーワード文字列に類似する文字列とは、そのキーワード文字列の文字のうち、いずれか１つまたは複数の文字を、図２の変換文字テーブル２０を用いて、それぞれの文字が該当する番号に１を足した番号または１を引いた番号に対応する文字に変換された文字列のことである。

その検索の結果、様式判別部１７が該当する様式文字列データを探しあてた場合には、様式判別部１７は、その様式文字列データと関係付けられたそのＯＣＲ設定ファイル名を抽出する。様式判別部１７は、そのＯＣＲ設定ファイル名のＯＣＲファイルを、ＯＣＲ処理装置３へ供給する。

続いて、キーワード生成部１６がキーワード文字列を生成する方法について説明する。
＜キーワード文字列生成方法１＞
まず、キーワード生成部１６は、「ソース文字列Ｂ」を一時記憶部１１から読み出す。キーワード生成部１６は、ソース文字列Ｂの先頭空白文字列と後方空白文字列とを削除した文字列（以下、キーワードＡ２と称する）を生成する。そして、キーワード生成部１６は、生成した「キーワードＡ２」を一時記憶部１１に保存する。

＜キーワード文字列生成方法２＞
次に、キーワード生成部１６が生成した「キーワードＡ２」をキーとして、様式判別部１７が様式文字列データを探しあてられなかった場合には、キーワード生成部１６は、パラメータテーブル３０からＮＳ_ｉを読み出す。キーワード生成部１６は、キーワードとして、ソース文字列ＡからＮＳ_ｉ桁（ＮＳ_ｉは正の整数で、ＮＳ_ｉ＜ＮＺ_ｉ）を先頭から抽出する。
キーワード生成部１６は、抽出した文字列の先頭空白文字列および後方空白文字列を削除して、「キーワードＡＳ」を生成する。キーワード生成部１６は、生成した「キーワードＡＳ」を一時記憶部１１に保存する。

＜キーワード文字列生成方法３＞
次に、キーワード生成部１６が生成した「キーワードＡＳ」をキーとして、様式判別部１７が様式文字列データを探しあてられなかった場合には、キーワード生成部１６は、キーワード生成パラメータテーブル３０から開始桁位置ＮＳ_ｉと、増分桁ＮＢ_ｉを抽出する。
そして、様式判別部１７は、「ソース文字列Ａ」のＮＳ_ｉ＋１桁目からＮＢ_ｉ桁の文字を抽出する。様式判別部１７は、現在の「キーワードＡＺ」（初期状態では、桁数０）の最後に、抽出したＮＢ_ｉ桁の文字を追加して、新たな「キーワードＡＺ」を生成する。キーワード生成部１６は、生成した「キーワードＡＺ」を一時記憶部１１に保存する。

＜キーワード文字列生成方法４＞
次に、キーワード生成部１６が生成した「キーワードＡＺ」をキーとして、様式判別部１７が様式文字列データを探しあてられなかった場合には、キーワード生成部１６は、「ソース文字列Ａ」のＮＳ_ｉ＋ＮＢ_ｉ桁目からＮＢ_ｉ桁の文字を抽出する。キーワード生成部１６は、現在の「キーワードＡＺ」（初期状態では、桁数０）の最後に、抽出したＮＢ_ｉ桁の文字を追加して、新たな「キーワードＡＺ」を生成する。キーワード生成部１６は、生成した「キーワードＡＺ」を一時記憶部１１に保存する。

図８は、ＯＣＲ設定ファイル内のデータ様式の一例を示した図である。同図において、「ＹＯＵＳＩＫＩ−１．ｔｘｔ」というファイルにおいて、ＯＣＲ変換範囲は「桁開始位置」と「桁終了位置」が数字で記載されている。

また、ＯＣＲ変換範囲におけるカタログ番号、資料名およびロット番号のそれぞれの位置が、前記ＯＣＲ変換範囲を区画で分割された際に、そのＯＣＲ変換範囲内で上から何行目に該当するかを示す「行」、その行内で何番目の区画から記載されているかを示す「桁開始位置」、区画の数である「桁数」で記載されている。
また、カタログ番号、資料名、ロット番号それぞれについて、何の言語で記載されているかを示す「言語種類」が記載されている。

ＯＣＲ処理装置３は、様式判別部１７からＯＣＲ設定ファイルを受け取る。ＯＣＲ処理装置３は、そのＯＣＲ設定ファイル名のファイルを開く。そして、ＯＣＲ処理装置３は、ＯＣＲ変換範囲と、そのファイルに記載されたデータの位置とを読み込む。例えば、帳票が分析票である場合には、ＯＣＲ処理装置３は、カタログ番号の位置と、資料名の位置と、ロット番号の位置とを読み込む。

ＯＣＲ処理装置３は、ＯＣＲ変換範囲におけるデータの位置にある画像を読み込み、所定のアルゴリズムを用いて文字に変換する。ここで、変換のアルゴリズムは何でもよい。ＯＣＲ処理装置３は、変換された文字を一時記憶部１１に保存する。

図９は、分析票ファイル名の一例を示した図である。同図において、帳票の画像ファイル毎に、分析票内のカタログ番号と資料名とロット番号とファイルを作成した日付とがアンダーバーで順番に連結されたファイル名が並べられている。

分類先決定装置４は、ＯＣＲ処理装置３で変換された文字を一時記憶部１１から読み出す。分類先決定装置４は、変換された文字に基づいて、その帳票の画像が保存されるフォルダ名を抽出する。具体的には、例えば、変換された文字がカタログ番号の場合、分類先決定装置４は、カタログ番号から、カタログ番号の上３桁の数字を抽出する。

また、分類先決定装置４は、変換された文字を用いて、帳票の画像ファイル名を生成する。例えば、分類先決定装置４は、カタログ番号と資料名とロット番号とファイルを作成した日付とがアンダーバーで順番に連結されたファイル名を生成する。
そして、分類先決定装置４は、データ保管装置５に存在する抽出したフォルダ名のフォルダに、その帳票の画像ファイル名で、その帳票の画像を保存する。

データ保管装置５は、帳票を分類するためのフォルダを保持する。また、データ保管装置５は、そのフォルダ毎に、帳票の画像ファイルを保持する。

図１０は、帳票の画像を分類する処理のフローチャートを示した図である。まず、画像抽出部１４は、帳票の画像を記憶部１２から読み出す（ステップＳ１０１）。次に、制御部１３は、帳票の様式を判別し、ＯＣＲ設定データを生成する（ステップＳ１０２）。次に、ＯＣＲ処理装置３は、ＯＣＲ設定データに基づいて、ＯＣＲ変換範囲におけるデータの位置にある画像を読み込み、所定のアルゴリズムを用いて文字に変換する（ステップＳ１０３）。

次に、分類先決定装置４は、変換した文字に基づいて、その帳票の画像が保存されるべきフォルダ名を抽出する。次に、分類先決定装置４は、変換された文字を用いて、帳票の画像ファイル名を生成する。次に、分類先決定装置４は、データ保管装置５に存在する前記抽出したフォルダ名のフォルダに、その帳票の画像ファイル名で、その帳票の画像を保存する（ステップＳ１０４）。以上で、本フローチャートは終了する。

続いて、図１０のステップＳ１０２の帳票の様式の判別処理の流れについて詳細に説明する。図１１は、帳票の様式を判別する処理のフローチャートを示した図である。まず、画像抽出部１４は、帳票の画像から予め決められた部分画像範囲の画像を抽出する（ステップＳ２０１）。そして、テキスト化処理部１５は、パラメータ番号ｉを１に初期化する。
次に、テキスト化処理部１５は、パラメータテーブル３０から見出し文字数ＮＸ_ｉ（ｉはパラメータ番号で、１から３までの整数）を読み出す。そして、テキスト化処理部１５は、部分画像範囲を、区画数がＮＸ_ｉとなるように区画の大きさを算出する。

次に、テキスト化処理部１５は、読み出した部分の画像を、算出した区画の大きさで分割する。そして、テキスト化処理部１５は、変換文字テーブル２０を用いて、分割した区画毎に、分割した区画の画像をアスキー文字に変換することにより、ソース文字列Ａを生成する（ステップＳ２０２）。

また、テキスト化処理部１５は、「ソース文字列Ａ」中の文字のうちスペースでない文字を、全て“１”に変換する。一方、テキスト化処理部１５は、ソース文字列Ａ中の文字のうちスペースを“０”に変換し、「ソース文字列Ｂ」を生成する。

＜ブロック１の処理＞
キーワード生成部１６は、「ソース文字列Ｂ」を一時記憶部１１から読み出す。キーワード生成部１６は、ソース文字列Ｂの先頭空白文字列と後方空白文字列とを削除した文字列である「キーワードＡ２」を生成する（ステップＳ２０３）。

そして、様式判別部１７は、「キーワードＡ２」をキーとして、様式文字列テーブルに格納されている様式文字列データの中から、「キーワードＡ２」が含まれている様式文字列データを検索する（ステップＳ２０４）。
その検索の結果、様式判別部１７が該当する様式文字列データを探しあてた場合には（ステップＳ２０５ＹＥＳ）、様式判別部１７は、その様式文字列データと関係付けられたそのＯＣＲ設定ファイル名を抽出する。様式判別部１７は、その抽出したＯＣＲ設定ファイル名を一時記憶部１１に保存する（ステップＳ２０６ＹＥＳ）。

＜ブロック２の処理＞
一方、ステップ１で、様式判別部１７が該当する様式文字列データを探しあてられなかった場合には（ステップＳ２０５ＮＯ）、キーワード生成部１６は、パラメータテーブル３０からＮＳ_ｉを読み出す。キーワード生成部１６は、キーワードとして、ソース文字列ＡからＮＳ_ｉ桁（ＮＳ_ｉは正の整数で、ＮＳ_ｉ＜ＮＺ_ｉ）を先頭から抽出する。
キーワード生成部１６は、抽出した文字列の先頭空白文字列および後方空白文字列を削除して、「キーワードＡＳ」を生成し、一時記憶部１１に保存する（ステップＳ２０７）。

そして、様式判別部１７は、一時記憶部１１から「キーワードＡＳ」を読み出す。様式判別部１７は、「キーワードＡＳ」をキーとして様式文字列テーブルに格納されている様式文字列データの中から、「キーワードＡＳ」が含まれている様式文字列データを検索する（ステップＳ２０８）。
その検索の結果、様式判別部１７が該当する様式文字列データを探しあてた場合には（ステップＳ２０９ＹＥＳ）、様式判別部１７は、その様式文字列データと関係付けられたそのＯＣＲ設定ファイル名を抽出する（ステップＳ２０６）。

＜ブロック３の処理＞
一方、ステップ２で、キーワード生成部１６が該当する様式文字列データを探しあてられなかった場合には（ステップＳ２０９ＮＯ）、キーワード生成部１６は、記憶部１２に保存されているキーワード生成パラメータテーブル３０から、開始桁数ＮＳ_ｉと増分桁ＮＢ_ｉとを抽出する。そして、様式判別部１７は、「ソース文字列Ａ」のＮＳ_ｉ＋１桁目からＮＢ_ｉ桁の文字を抽出する。

キーワード生成部１６は、「キーワードＡＺ」の最後に、抽出したＮＢ_ｉ桁の文字を追加して、新たな「キーワードＡＺ」を生成する（ステップＳ２１０）。そして、様式判別部１７は、「キーワードＡＺ」を一時記憶部１１に保存する。

そして、様式判別部１７は、一時記憶部１１から「キーワードＡＺ」を読み出す。様式判別部１７は、「キーワードＡＺ」をキーとして様式文字列テーブルに格納されている様式文字列データの中から、「キーワードＡＺ」が含まれている様式文字列データを検索する（ステップＳ２１１）。
その検索の結果、様式判別部１７が該当する様式文字列データを探しあてた場合には（ステップＳ２１２ＹＥＳ）、様式判別部１７は、その様式文字列データと関係付けられたそのＯＣＲ設定ファイル名を抽出する（ステップＳ２０６）。

一方、様式判別部１７が該当する様式文字列データを探しあてられなかった場合には（ステップＳ２１２ＮＯ）、様式判別部１７は、現在の「キーワードＡＺ」の桁数にＮ_Ｂ桁を加算する。

前記加算した値がＮＺ_ｉを超えない場合（ステップＳ２１３ＮＯ）、キーワード生成部１６は、現在の「キーワードＡＺ」の桁数に１を加えた開始桁数を算出する。そして、キーワード生成部１６は、ソース文字列Ａから、算出した開始桁数からＮＢ_ｉ桁分の文字を抽出する。キーワード生成部１６は、現在の「キーワードＡＺ」の最後に、抽出したＮＢ_ｉ桁文字を追加する（ステップＳ２１４）。そして、ステップＳ２１０の処理に戻る。

一方、加算した値がＮＺ_ｉを超える場合（ステップＳ２１３ＹＥＳ）、パラメータテーブル３０の全てのパラメータで検索をしたかどうか判定する。パラメータテーブル３０の全てのパラメータで検索をしていない場合（ステップＳ２１５ＮＯ）、キーワード生成部１６は、パラメータ番号ｉを１増加させ、次のパラメータ番号に対応する各種パラメータ（見出し文字数、有効範囲桁、開始桁位置、増分桁）を読み出す（ステップＳ２１６）。そして、ステップＳ２０２の処理に戻る。

一方、パラメータテーブル３０の全てのパラメータで検索をした場合（ステップＳ２１５ＹＥＳ）、様式判別部１７は、様式の抽出に失敗したと判定する。以上で、本フローチャートは終了する。

以上により、人の手を介さずに、帳票の画像から帳票の様式を判別することができる。
また、見出し文字数ＮＸ_ｉ、開始桁位置ＮＳ_ｉ、増分桁ＮＢ_ｉといったパラメータを段階的に変えて様式を抽出することにより、帳票の様式を抽出する確率を高めることができる。

以上、本発明では、帳票の種類を判別する際に、ＯＣＲでプレプリントを正確に文字認識する必要がないので、帳票を読み取るごとに、その帳票を判別するための文字列の情報を入力しなくても、帳票の種類を判別することができる。
また、本発明では、画像レベルの全体的な様式イメージでの設定であるため、ロゴなどの範囲を桁数で指定するのみとなり、実際の運用が非常に容易である。

また、ロゴ部、タイトル部などの後に日付、氏名、押印部がある帳票の様式において、帳票の種類が同じであって、帳票間で共通でない部分（例えば、日付、氏名、押印部等）が存在する場合でも、帳票の様式判定を行うことができる。

なお、本発明の実施形態では、記憶部１２は様式文字列と帳票の様式が記載された設定ファイル名とが関係付けられたテーブルを保持するとして説明したが、これに限らず、記憶部１２は帳票の様式毎に定められた様式文字列を配列で保持してもよい。

なお、本実施形態である帳票判別装置２の機能をコンピュータで実現するようにしてもよい。この場合、その機能を実現するための帳票判別プログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録された帳票判別プログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）や周辺機器のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、光ディスク、一時記憶部カード等の可搬型記録媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短場合間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定期間プログラムを保持するものを含んでもよい。また上記のプログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせにより実現するものであってもよい。

以上、本発明の実施形態について図面を参照して詳述したが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

１帳票判別システム
２帳票判別装置
３ＯＣＲ処理装置
４分類先決定装置
５データ保管装置
１１一時記憶部
１２記憶部
１３制御部
１４画像抽出部
１５テキスト化処理部
１６キーワード生成部
１７様式判別部

Claims

所定の区画内において着色部が占める割合と文字とが関係付けられたテーブルと、帳票の様式毎に定められた様式文字列を記憶する記憶部と、
帳票の画像から所定の領域の画像を抽出する画像抽出部と、
前記抽出した画像を所定の区画に分割し、該区画毎に前記割合を算出し、前記記憶部に記憶された前記テーブルから前記算出した割合に対応する文字を抽出し、前記区画の画像を該文字に置き換えることにより文字列を生成するテキスト化処理部と、
前記テキスト化処理部によって生成された文字列から所定の数の文字列をキーワードとして抽出するキーワード生成部と、
前記記憶部に記憶された前記様式文字列の中から、前記キーワードまたは前記キーワードに類似した文字列を含む様式文字列を抽出することにより帳票の様式を判別する様式判別部と、
を備えることを特徴とする帳票判別装置。
前記テキスト化処理部は、生成した文字列のうち、スペースを第１の文字に、スペース以外の文字を第２の文字に変換することを特徴とする請求項１に記載の帳票判別装置。
前記記憶部は、前記キーワードの桁数を調整するパラメータを更に記憶し、
前記キーワード生成部は、前記パラメータに基づいて、キーワードを変更することを特徴とする請求項１または請求項２に記載の帳票判別装置。
請求項１から請求項３のいずれかに記載の帳票判別装置と、
前記帳票判別装置が判別した前記帳票の様式に基づいて、帳票画像から文字を認識するＯＣＲ処理装置と、
前記ＯＣＲ処理装置が認識した文字に基づいて、前記帳票画像のファイルの保存場所を決定する分類先決定装置と、
を備えることを特徴とする帳票分類システム。
帳票の画像から所定の領域の画像を抽出する画像抽出手順と、
前記抽出した画像を所定の区画に分割し、該区画毎に着色部が占める割合を算出し、所定の区画内において着色部が占める割合と文字とが関係付けられたテーブルを記憶した記憶部から、前記算出された着色部が占める割合に対応する文字を抽出し、前記区画の画像を該文字に置き換えることにより文字列を生成するテキスト化処理手順と、
前記テキスト化処理部によって生成された文字列から所定の数の文字列をキーワードとして抽出するキーワード生成手順と、
前記記憶部に記憶された様式文字列の中から、前記キーワードまたは前記キーワードに類似した文字列を含む様式文字列を抽出することにより帳票の様式を判別する様式判別手順と、
を有することを特徴とする帳票判別方法。
所定の区画内において着色部が占める割合と文字とが関係付けられたテーブルと、帳票の様式毎に定められた様式文字列を記憶した記憶部を備えたコンピュータを、
帳票の画像から所定の領域の画像を抽出する画像抽出部と、
前記抽出した画像を所定の区画に分割し、該区画毎に前記割合を算出し、前記記憶部に記憶された前記テーブルから前記算出した割合に対応する文字を抽出し、前記区画の画像を該文字に置き換えることにより文字列を生成するテキスト化処理部と、
前記テキスト化処理部によって生成された文字列から所定の数の文字列をキーワードとして抽出するキーワード生成部と、
前記記憶部に記憶された複数の前記様式文字列の中から、前記キーワードまたは前記キーワードに類似した文字列を含む様式文字列を抽出することにより帳票の様式を判別する様式判別部と、
して機能させるための帳票判別プログラム。