JP2011243053A - 帳票判別装置、帳票分類システム、帳票判別方法および帳票判別プログラム - Google Patents
帳票判別装置、帳票分類システム、帳票判別方法および帳票判別プログラム Download PDFInfo
- Publication number
- JP2011243053A JP2011243053A JP2010115499A JP2010115499A JP2011243053A JP 2011243053 A JP2011243053 A JP 2011243053A JP 2010115499 A JP2010115499 A JP 2010115499A JP 2010115499 A JP2010115499 A JP 2010115499A JP 2011243053 A JP2011243053 A JP 2011243053A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- image
- keyword
- character
- format
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Character Input (AREA)
Abstract
【課題】帳票を読み取るごとに、その帳票を判別するための文字列の情報を入力しなくても、帳票の種類を判別する。
【解決手段】所定の区画内において着色部が占める割合と文字とが関係付けられたテーブルと、帳票の様式毎に定められた様式文字列を記憶する記憶部12と、帳票の画像から所定の領域の画像を抽出する画像抽出部14と、抽出した画像を所定の区画に分割し、該区画毎に上記割合を算出し、記憶部に記憶された上記テーブルから上記算出した割合に対応する文字を抽出し、区画の画像を該文字に置き換えることにより文字列を生成するテキスト化処理部15と、生成された文字列から所定の数の文字列をキーワードとして抽出するキーワード生成部16と、記憶部に記憶された複数の様式文字列の中から、キーワードまたはキーワードに類似した文字列を含む様式文字列を抽出することにより帳票の様式を判別する様式判別部17と、を備える。
【選択図】図1
【解決手段】所定の区画内において着色部が占める割合と文字とが関係付けられたテーブルと、帳票の様式毎に定められた様式文字列を記憶する記憶部12と、帳票の画像から所定の領域の画像を抽出する画像抽出部14と、抽出した画像を所定の区画に分割し、該区画毎に上記割合を算出し、記憶部に記憶された上記テーブルから上記算出した割合に対応する文字を抽出し、区画の画像を該文字に置き換えることにより文字列を生成するテキスト化処理部15と、生成された文字列から所定の数の文字列をキーワードとして抽出するキーワード生成部16と、記憶部に記憶された複数の様式文字列の中から、キーワードまたはキーワードに類似した文字列を含む様式文字列を抽出することにより帳票の様式を判別する様式判別部17と、を備える。
【選択図】図1
Description
本発明は、帳票判別装置、帳票分類システム、帳票判別方法および帳票判別プログラムに関する。
OCR(Optical Character Reader)とは、手書き文字や印字された文字を光学的に読み取り、前もって記憶されたパターンとの照合により文字を特定し、文字データを出力する装置である。また、スキャナで読み取った画像から文字を識別して文書に変換するOCRソフトも市販されている。一般的に、OCRは、活字印刷物については認識精度が高いことが知られている。
一般的に、OCRにおいて、的確なOCRのためには、帳票の様式毎に、異なるOCR設定データが必要である。従って、帳票をスキャナで読み取った画像から文字を認識するには、その帳票毎に予め設定されたOCR設定データを切り替えなければならなかった。その際、その切り替えは、オペレータの操作または専用プログラムにより行われていた。例えば、特許文献1に専用プログラムを用いて帳票を判別する方法について、開示されている。
しかしながら、従来の技術で帳票の種類を判別するには、その帳票内に記載されたその帳票を特徴付ける文字列(以下、プレプリントと称する)が正確に読み取られる必要があった(例えば、特許文献1参照)。そのため、帳票画像内におけるその文字列の位置、その文字列の大きさ、その文字列のフォントなどの項目を、帳票を読み取るごとに、ユーザが入力しなければいけないという問題があった(例えば、特許文献1参照)。
そこで本発明は、上記問題に鑑みてなされたものであり、帳票を読み取るごとに、その帳票を判別するための文字列の情報を入力しなくても、帳票の種類を判別することができる帳票判別装置、帳票分類システム、帳票判別方法および帳票判別プログラムを提供することを課題とする。
上記課題を解決するため、請求項1に係る発明は、所定の区画内において着色部が占める割合と文字とが関係付けられたテーブルと、帳票の様式毎に定められた様式文字列を記憶する記憶部と、帳票の画像から所定の領域の画像を抽出する画像抽出部と、前記抽出した画像を所定の区画に分割し、該区画毎に前記割合を算出し、前記記憶部に記憶された前記テーブルから前記算出した割合に対応する文字を抽出し、前記区画の画像を該文字に置き換えることにより文字列を生成するテキスト化処理部と、前記テキスト化処理部によって生成された文字列から所定の数の文字列をキーワードとして抽出するキーワード生成部と、前記記憶部に記憶された前記様式文字列の中から、前記キーワードまたは前記キーワードに類似した文字列を含む様式文字列を抽出することにより帳票の様式を判別する様式判別部と、を備えることを特徴とする帳票判別装置である。
請求項2に係る発明は、前記テキスト化処理部は、生成した文字列のうち、スペースを第1の文字に、スペース以外の文字を第2の文字に変換することを特徴とする請求項1に記載の帳票判別装置である。
請求項3に係る発明は、前記キーワードの桁数を調整するパラメータを更に記憶し、
前記キーワード生成部は、前記パラメータに基づいて、キーワードを変更することを特徴とする請求項1または請求項2に記載の帳票判別装置である。
前記キーワード生成部は、前記パラメータに基づいて、キーワードを変更することを特徴とする請求項1または請求項2に記載の帳票判別装置である。
請求項4に係る発明は、請求項1から請求項3のいずれかに記載の帳票判別装置と、前記帳票判別装置が判別した前記帳票の様式に基づいて、帳票画像から文字を認識するOCR処理装置と、前記OCR処理装置が認識した文字に基づいて、前記帳票画像のファイルの保存場所を決定する分類先決定装置と、を備えることを特徴とする帳票分類システムである。
請求項5に係る発明は、帳票の画像から所定の領域の画像を抽出する画像抽出手順と、前記抽出した画像を所定の区画に分割し、該区画毎に着色部が占める割合を算出し、所定の区画内において着色部が占める割合と文字とが関係付けられたテーブルを記憶した記憶部から、前記算出された着色部が占める割合に対応する文字を抽出し、前記区画の画像を該文字に置き換えることにより文字列を生成するテキスト化処理手順と、前記テキスト化処理部によって生成された文字列から所定の数の文字列をキーワードとして抽出するキーワード生成手順と、前記記憶部に記憶された様式文字列の中から、前記キーワードまたは前記キーワードに類似した文字列を含む様式文字列を抽出することにより帳票の様式を判別する様式判別手順と、を有することを特徴とする帳票判別方法である。
請求項6に係る発明は、所定の区画内において着色部が占める割合と文字とが関係付けられたテーブルと、帳票の様式毎に定められた様式文字列を記憶した記憶部を備えたコンピュータを、帳票の画像から所定の領域の画像を抽出する画像抽出部と、前記抽出した画像を所定の区画に分割し、該区画毎に前記割合を算出し、前記記憶部に記憶された前記テーブルから前記算出した割合に対応する文字を抽出し、前記区画の画像を該文字に置き換えることにより文字列を生成するテキスト化処理部と、前記テキスト化処理部によって生成された文字列から所定の数の文字列をキーワードとして抽出するキーワード生成部と、前記記憶部に記憶された複数の前記様式文字列の中から、前記キーワードまたは前記キーワードに類似した文字列を含む様式文字列を抽出することにより帳票の様式を判別する様式判別部と、して機能させるための帳票判別プログラムである。
本発明によれば、帳票を読み取るごとに、その帳票を判別するための文字列の情報を入力しなくても、帳票の種類を判別することができる。
以下、本発明の実施形態について、図面を参照して詳細に説明する。図1は、本発明の一実施形態による帳票分類システムのブロック構成図である。帳票分類システム1は、帳票判別装置2と、OCR処理装置3と、分類先決定装置4と、データ保管装置5とを用いて構成されている。
帳票判別装置2は、一時記憶部11と、記憶部12と、制御部13とを用いて構成されている。
一時記憶部11は、DRAM(Dynamic Random Access Memory)等の読み書き可能で揮発性の記憶媒体を用いて構成される。一時記憶部11は、制御部13から供給された情報を一時的に保持する。
一時記憶部11は、DRAM(Dynamic Random Access Memory)等の読み書き可能で揮発性の記憶媒体を用いて構成される。一時記憶部11は、制御部13から供給された情報を一時的に保持する。
記憶部12は、ハードディスクまたはフラッシュメモリ等の読み書き可能で不揮発性の記憶媒体を用いて構成される。記憶部12は、制御部13によって実行されるプログラムを保持する。さらに、記憶部12は、帳票の画像データを保持する。また、記憶部12は、変換文字テーブルと、キーワード作成パラメータテーブルと、様式文字列テーブルとを保持する。
続いて、記憶部12に保存された変換文字テーブルについて説明する。図2は、記憶部に保存された変換文字テーブルの1例を示した図である。この変換文字テーブルにおいて、画像内のある区画において着色部分(例えば、黒色部分)が占める割合が、それに対応するアスキー文字と関連付けられている。また、それぞれのアスキー文字には、そのアスキー文字に対応した番号が割り振られている。
ここで、着色が占める割合は、その割合が大きいほど、文字描画領域に占める文字の割合が大きいアスキー文字に関係付けられる。例えば、着色が占める割合が25[%]の場合には、割り当てられる文字は「/」である。一方、着色が占める割合が83[%]と高くなると、割り当てられる文字は「&」である。
続いて、記憶部12に保存されたキーワード文字列作成パラメータテーブルについて説明する。図3は、記憶部に保存されたキーワード文字列作成用のパラメータテーブルを示した図である。キーワード文字列作成用のパラメータテーブル30は、キーワード文字列を作成するための各種パラメータを包含している。
各種パラメータには、パラメータ番号と、見出し文字数と、有効範囲桁と、開始桁位置と、増分桁とが含まれる。パラメータ番号毎に見出し文字数と、有効範囲桁と、開始桁位置と、増分桁とが決められている。見出し文字数は、帳票の見出し部分(例えば、帳票の上から10[%]部分)の画像を文字列化した際の文字列(以下、ソース文字列Aと称する)の文字数である。
有効範囲桁は、そのソース文字列A内で、帳票を特徴づける部分(例えば、ロゴ、タイトル部など)に該当する範囲の桁数である。開始桁位置は、ソース文字列AからキーワードASを生成する際に、ソース文字列Aの先頭から抽出する桁数である。増分桁は、ソース文字列AからキーワードASを生成する際に、ソース文字列Aの先頭から抽出する桁数に加える文字の桁数である。
続いて、記憶部12に保存された様式文字列テーブルについて説明する。図4は、記憶部に保存された様式文字列テーブルの1例を示した図である。その様式文字列テーブルにおいて、様式文字列データと、OCR設定ファイル名とが対応付けられている。
例えば、様式文字列データ「MMMMNNNNNLLLAACCCC〜」は、OCR設定ファイル名「YOUSIKI−1.txt」に関係付けられている。
例えば、様式文字列データ「MMMMNNNNNLLLAACCCC〜」は、OCR設定ファイル名「YOUSIKI−1.txt」に関係付けられている。
制御部13は、帳票の種類の判別を行う処理部である。制御部13は、画像抽出部14と、テキスト化処理部15と、キーワード生成部16と、様式判別部17と、を用いて構成されている。
図5は、本発明の一実施形態による帳票の画像データの1例を示した図である。帳票の画像データ50は、TNSCというロゴ部51と、分析表というタイトル部と、その他の項目(日付、化合物名、カタログ番号、ロット番号等)から構成されている。
画像抽出部14は、記憶部12から帳票の画像を読み出す。また、画像抽出部14は、その帳票の画像から、帳票の見出しなど(ロゴ、タイトル、日付、氏名、押印部など)帳票の様式を特徴づける予め決められた部分画像範囲(例えば、帳票画像の上から10%の範囲)の画像を抽出する。例えば、画像抽出部14は、図5において、領域51の範囲を示す画像を抽出する。そして、画像抽出部14は、抽出された画像を一時記憶部11に保存する。
なお、帳票の画像がカラー画像であれば、押印部を部分画像範囲から除外するために、画像抽出部14は、カラーの領域を部分画像範囲から除外してもよい。具体的には、例えば、画像抽出部14は、部分画像範囲のデータを読み出し、各画素の赤の画素値が所定の閾値よりも大きな区画を部分画像範囲から除外してもよい。
図6は、テキスト化の処理を説明するための図である。図6(a)は、画像抽出部14により抽出された領域51のうちで、更に注目する領域52を示した図である。図6(b)は、領域52内の画像をキーワード文字列に変換する方法を説明するための図である。
テキスト化処理部15は、画像抽出部14により抽出された画像を一時記憶部11から読み出す。テキスト化処理部15は、パラメータテーブル30から見出し文字数NXi(iはパラメータ番号で、1から3までの整数)を読み出す。そして、テキスト化処理部15は、部分画像範囲を、区画数がNXiとなるように区画の大きさを算出する。テキスト化処理部15は、読み出した部分の画像を、算出した区画の大きさで分割する。例えば、図6(a)の領域52に注目すると、テキスト化処理部15は、図6(b)の領域52を所定の区画に分割する。ここで、区画とは、図6(b)の升目一つ一つのことである。
テキスト化処理部15は、図2の変換文字テーブル20を使用して、区画ごとに着色部が占める割合に対応したアスキー文字に置き換える(以下、この置き換えを変換と称する)。例えば、図6(b)において、テキスト化処理部15は、領域53内の区画を、アスキー文字54にそれぞれ変換する。
図7は、テキスト化の処理をされた後のテキストの1例を示した図である。同図において、文字列55は、図6(a)のTNSCというロゴの画像がアスキー文字列に変換されたものである。例えば、テキスト化処理部15は、区画ごとに着色部が占める割合に対応したアスキー文字に変換した結果、領域51の画像を領域55の文字列に変換する。
テキスト化処理部15は、上記の変換を全区画に渡って行うことにより、「ソース文字列A」を生成する。テキスト化処理部15は、生成した「ソース文字列A」を一時記憶部11へ保存する。
ロゴ部、タイトル部などの後に日付、氏名、押印部がある帳票の様式において、帳票の種類が同じであっても、一つの帳票の中で共通でない部分である「日付、氏名、押印部」などが存在する場合がある。
このような場合に対応するため、本発明の実施形態によるテキスト化処理部15は、ソース文字列Aの生成後に、さらに下記の文字置換処理を行う。テキスト化処理部15は、ソース文字列A中の文字のうちスペースでない文字を、全て“1”に変換する。一方、テキスト化処理部15は、ソース文字列A中の文字のうちスペースを“0”に変換する。
その結果、テキスト化処理部15は、ソース文字列Aと同じ文字数で、0と1との2つの文字からなる文字列(以下、ソース文字列Bと称する)を生成する。その結果、ロゴ部、タイトル部、日付、氏名、押印部等はすべて、一定の桁数の文字列(例えば、「11100...」)である。これによって、帳票に共通しない部分(例えば、日付、氏名、押印部等)があっても、帳票を判別することができる。
キーワード生成部16は、後述する方法により、ソース文字列Bから、キーワード文字列である「キーワードA2」を生成する。また、キーワード生成部16は、後述する方法により、ソース文字列Aから、キーワード文字列である「キーワードAS」または「キーワードAZ」を生成する。そして、キーワード生成部16は、生成したそれぞれのキーワード文字列を一時記憶部11に保存する。
様式判別部17は、一時記憶部11からキーワード文字列(「キーワードA2」、「キーワードAS」または「キーワードAZ」)を読み出す。様式判別部17は、そのキーワード文字列をキーとして様式文字列テーブルに格納されている様式文字列データの中から、当該キーワード文字列または当該キーワード文字列に類似する文字列が含まれている様式文字列データを検索する。
ここで、キーワード文字列に類似する文字列とは、そのキーワード文字列の文字のうち、いずれか1つまたは複数の文字を、図2の変換文字テーブル20を用いて、それぞれの文字が該当する番号に1を足した番号または1を引いた番号に対応する文字に変換された文字列のことである。
その検索の結果、様式判別部17が該当する様式文字列データを探しあてた場合には、様式判別部17は、その様式文字列データと関係付けられたそのOCR設定ファイル名を抽出する。様式判別部17は、そのOCR設定ファイル名のOCRファイルを、OCR処理装置3へ供給する。
続いて、キーワード生成部16がキーワード文字列を生成する方法について説明する。
<キーワード文字列生成方法1>
まず、キーワード生成部16は、「ソース文字列B」を一時記憶部11から読み出す。キーワード生成部16は、ソース文字列Bの先頭空白文字列と後方空白文字列とを削除した文字列(以下、キーワードA2と称する)を生成する。そして、キーワード生成部16は、生成した「キーワードA2」を一時記憶部11に保存する。
<キーワード文字列生成方法1>
まず、キーワード生成部16は、「ソース文字列B」を一時記憶部11から読み出す。キーワード生成部16は、ソース文字列Bの先頭空白文字列と後方空白文字列とを削除した文字列(以下、キーワードA2と称する)を生成する。そして、キーワード生成部16は、生成した「キーワードA2」を一時記憶部11に保存する。
<キーワード文字列生成方法2>
次に、キーワード生成部16が生成した「キーワードA2」をキーとして、様式判別部17が様式文字列データを探しあてられなかった場合には、キーワード生成部16は、パラメータテーブル30からNSiを読み出す。キーワード生成部16は、キーワードとして、ソース文字列AからNSi桁(NSiは正の整数で、NSi<NZi)を先頭から抽出する。
キーワード生成部16は、抽出した文字列の先頭空白文字列および後方空白文字列を削除して、「キーワードAS」を生成する。キーワード生成部16は、生成した「キーワードAS」を一時記憶部11に保存する。
次に、キーワード生成部16が生成した「キーワードA2」をキーとして、様式判別部17が様式文字列データを探しあてられなかった場合には、キーワード生成部16は、パラメータテーブル30からNSiを読み出す。キーワード生成部16は、キーワードとして、ソース文字列AからNSi桁(NSiは正の整数で、NSi<NZi)を先頭から抽出する。
キーワード生成部16は、抽出した文字列の先頭空白文字列および後方空白文字列を削除して、「キーワードAS」を生成する。キーワード生成部16は、生成した「キーワードAS」を一時記憶部11に保存する。
<キーワード文字列生成方法3>
次に、キーワード生成部16が生成した「キーワードAS」をキーとして、様式判別部17が様式文字列データを探しあてられなかった場合には、キーワード生成部16は、キーワード生成パラメータテーブル30から開始桁位置NSiと、増分桁NBiを抽出する。
そして、様式判別部17は、「ソース文字列A」のNSi+1桁目からNBi桁の文字を抽出する。様式判別部17は、現在の「キーワードAZ」(初期状態では、桁数0)の最後に、抽出したNBi桁の文字を追加して、新たな「キーワードAZ」を生成する。キーワード生成部16は、生成した「キーワードAZ」を一時記憶部11に保存する。
次に、キーワード生成部16が生成した「キーワードAS」をキーとして、様式判別部17が様式文字列データを探しあてられなかった場合には、キーワード生成部16は、キーワード生成パラメータテーブル30から開始桁位置NSiと、増分桁NBiを抽出する。
そして、様式判別部17は、「ソース文字列A」のNSi+1桁目からNBi桁の文字を抽出する。様式判別部17は、現在の「キーワードAZ」(初期状態では、桁数0)の最後に、抽出したNBi桁の文字を追加して、新たな「キーワードAZ」を生成する。キーワード生成部16は、生成した「キーワードAZ」を一時記憶部11に保存する。
<キーワード文字列生成方法4>
次に、キーワード生成部16が生成した「キーワードAZ」をキーとして、様式判別部17が様式文字列データを探しあてられなかった場合には、キーワード生成部16は、「ソース文字列A」のNSi+NBi桁目からNBi桁の文字を抽出する。キーワード生成部16は、現在の「キーワードAZ」(初期状態では、桁数0)の最後に、抽出したNBi桁の文字を追加して、新たな「キーワードAZ」を生成する。キーワード生成部16は、生成した「キーワードAZ」を一時記憶部11に保存する。
次に、キーワード生成部16が生成した「キーワードAZ」をキーとして、様式判別部17が様式文字列データを探しあてられなかった場合には、キーワード生成部16は、「ソース文字列A」のNSi+NBi桁目からNBi桁の文字を抽出する。キーワード生成部16は、現在の「キーワードAZ」(初期状態では、桁数0)の最後に、抽出したNBi桁の文字を追加して、新たな「キーワードAZ」を生成する。キーワード生成部16は、生成した「キーワードAZ」を一時記憶部11に保存する。
図8は、OCR設定ファイル内のデータ様式の一例を示した図である。同図において、「YOUSIKI−1.txt」というファイルにおいて、OCR変換範囲は「桁開始位置」と「桁終了位置」が数字で記載されている。
また、OCR変換範囲におけるカタログ番号、資料名およびロット番号のそれぞれの位置が、前記OCR変換範囲を区画で分割された際に、そのOCR変換範囲内で上から何行目に該当するかを示す「行」、その行内で何番目の区画から記載されているかを示す「桁開始位置」、区画の数である「桁数」で記載されている。
また、カタログ番号、資料名、ロット番号それぞれについて、何の言語で記載されているかを示す「言語種類」が記載されている。
また、カタログ番号、資料名、ロット番号それぞれについて、何の言語で記載されているかを示す「言語種類」が記載されている。
OCR処理装置3は、様式判別部17からOCR設定ファイルを受け取る。OCR処理装置3は、そのOCR設定ファイル名のファイルを開く。そして、OCR処理装置3は、OCR変換範囲と、そのファイルに記載されたデータの位置とを読み込む。例えば、帳票が分析票である場合には、OCR処理装置3は、カタログ番号の位置と、資料名の位置と、ロット番号の位置とを読み込む。
OCR処理装置3は、OCR変換範囲におけるデータの位置にある画像を読み込み、所定のアルゴリズムを用いて文字に変換する。ここで、変換のアルゴリズムは何でもよい。OCR処理装置3は、変換された文字を一時記憶部11に保存する。
図9は、分析票ファイル名の一例を示した図である。同図において、帳票の画像ファイル毎に、分析票内のカタログ番号と資料名とロット番号とファイルを作成した日付とがアンダーバーで順番に連結されたファイル名が並べられている。
分類先決定装置4は、OCR処理装置3で変換された文字を一時記憶部11から読み出す。分類先決定装置4は、変換された文字に基づいて、その帳票の画像が保存されるフォルダ名を抽出する。具体的には、例えば、変換された文字がカタログ番号の場合、分類先決定装置4は、カタログ番号から、カタログ番号の上3桁の数字を抽出する。
また、分類先決定装置4は、変換された文字を用いて、帳票の画像ファイル名を生成する。例えば、分類先決定装置4は、カタログ番号と資料名とロット番号とファイルを作成した日付とがアンダーバーで順番に連結されたファイル名を生成する。
そして、分類先決定装置4は、データ保管装置5に存在する抽出したフォルダ名のフォルダに、その帳票の画像ファイル名で、その帳票の画像を保存する。
そして、分類先決定装置4は、データ保管装置5に存在する抽出したフォルダ名のフォルダに、その帳票の画像ファイル名で、その帳票の画像を保存する。
データ保管装置5は、帳票を分類するためのフォルダを保持する。また、データ保管装置5は、そのフォルダ毎に、帳票の画像ファイルを保持する。
図10は、帳票の画像を分類する処理のフローチャートを示した図である。まず、画像抽出部14は、帳票の画像を記憶部12から読み出す(ステップS101)。次に、制御部13は、帳票の様式を判別し、OCR設定データを生成する(ステップS102)。次に、OCR処理装置3は、OCR設定データに基づいて、OCR変換範囲におけるデータの位置にある画像を読み込み、所定のアルゴリズムを用いて文字に変換する(ステップS103)。
次に、分類先決定装置4は、変換した文字に基づいて、その帳票の画像が保存されるべきフォルダ名を抽出する。次に、分類先決定装置4は、変換された文字を用いて、帳票の画像ファイル名を生成する。次に、分類先決定装置4は、データ保管装置5に存在する前記抽出したフォルダ名のフォルダに、その帳票の画像ファイル名で、その帳票の画像を保存する(ステップS104)。以上で、本フローチャートは終了する。
続いて、図10のステップS102の帳票の様式の判別処理の流れについて詳細に説明する。図11は、帳票の様式を判別する処理のフローチャートを示した図である。まず、画像抽出部14は、帳票の画像から予め決められた部分画像範囲の画像を抽出する(ステップS201)。そして、テキスト化処理部15は、パラメータ番号iを1に初期化する。
次に、テキスト化処理部15は、パラメータテーブル30から見出し文字数NXi(iはパラメータ番号で、1から3までの整数)を読み出す。そして、テキスト化処理部15は、部分画像範囲を、区画数がNXiとなるように区画の大きさを算出する。
次に、テキスト化処理部15は、パラメータテーブル30から見出し文字数NXi(iはパラメータ番号で、1から3までの整数)を読み出す。そして、テキスト化処理部15は、部分画像範囲を、区画数がNXiとなるように区画の大きさを算出する。
次に、テキスト化処理部15は、読み出した部分の画像を、算出した区画の大きさで分割する。そして、テキスト化処理部15は、変換文字テーブル20を用いて、分割した区画毎に、分割した区画の画像をアスキー文字に変換することにより、ソース文字列Aを生成する(ステップS202)。
また、テキスト化処理部15は、「ソース文字列A」中の文字のうちスペースでない文字を、全て“1”に変換する。一方、テキスト化処理部15は、ソース文字列A中の文字のうちスペースを“0”に変換し、「ソース文字列B」を生成する。
<ブロック1の処理>
キーワード生成部16は、「ソース文字列B」を一時記憶部11から読み出す。キーワード生成部16は、ソース文字列Bの先頭空白文字列と後方空白文字列とを削除した文字列である「キーワードA2」を生成する(ステップS203)。
キーワード生成部16は、「ソース文字列B」を一時記憶部11から読み出す。キーワード生成部16は、ソース文字列Bの先頭空白文字列と後方空白文字列とを削除した文字列である「キーワードA2」を生成する(ステップS203)。
そして、様式判別部17は、「キーワードA2」をキーとして、様式文字列テーブルに格納されている様式文字列データの中から、「キーワードA2」が含まれている様式文字列データを検索する(ステップS204)。
その検索の結果、様式判別部17が該当する様式文字列データを探しあてた場合には(ステップS205 YES)、様式判別部17は、その様式文字列データと関係付けられたそのOCR設定ファイル名を抽出する。様式判別部17は、その抽出したOCR設定ファイル名を一時記憶部11に保存する(ステップS206 YES)。
その検索の結果、様式判別部17が該当する様式文字列データを探しあてた場合には(ステップS205 YES)、様式判別部17は、その様式文字列データと関係付けられたそのOCR設定ファイル名を抽出する。様式判別部17は、その抽出したOCR設定ファイル名を一時記憶部11に保存する(ステップS206 YES)。
<ブロック2の処理>
一方、ステップ1で、様式判別部17が該当する様式文字列データを探しあてられなかった場合には(ステップS205 NO)、キーワード生成部16は、パラメータテーブル30からNSiを読み出す。キーワード生成部16は、キーワードとして、ソース文字列AからNSi桁(NSiは正の整数で、NSi<NZi)を先頭から抽出する。
キーワード生成部16は、抽出した文字列の先頭空白文字列および後方空白文字列を削除して、「キーワードAS」を生成し、一時記憶部11に保存する(ステップS207)。
一方、ステップ1で、様式判別部17が該当する様式文字列データを探しあてられなかった場合には(ステップS205 NO)、キーワード生成部16は、パラメータテーブル30からNSiを読み出す。キーワード生成部16は、キーワードとして、ソース文字列AからNSi桁(NSiは正の整数で、NSi<NZi)を先頭から抽出する。
キーワード生成部16は、抽出した文字列の先頭空白文字列および後方空白文字列を削除して、「キーワードAS」を生成し、一時記憶部11に保存する(ステップS207)。
そして、様式判別部17は、一時記憶部11から「キーワードAS」を読み出す。様式判別部17は、「キーワードAS」をキーとして様式文字列テーブルに格納されている様式文字列データの中から、「キーワードAS」が含まれている様式文字列データを検索する(ステップS208)。
その検索の結果、様式判別部17が該当する様式文字列データを探しあてた場合には(ステップS209 YES)、様式判別部17は、その様式文字列データと関係付けられたそのOCR設定ファイル名を抽出する(ステップS206)。
その検索の結果、様式判別部17が該当する様式文字列データを探しあてた場合には(ステップS209 YES)、様式判別部17は、その様式文字列データと関係付けられたそのOCR設定ファイル名を抽出する(ステップS206)。
<ブロック3の処理>
一方、ステップ2で、キーワード生成部16が該当する様式文字列データを探しあてられなかった場合には(ステップS209 NO)、キーワード生成部16は、記憶部12に保存されているキーワード生成パラメータテーブル30から、開始桁数NSiと増分桁NBiとを抽出する。そして、様式判別部17は、「ソース文字列A」のNSi+1桁目からNBi桁の文字を抽出する。
一方、ステップ2で、キーワード生成部16が該当する様式文字列データを探しあてられなかった場合には(ステップS209 NO)、キーワード生成部16は、記憶部12に保存されているキーワード生成パラメータテーブル30から、開始桁数NSiと増分桁NBiとを抽出する。そして、様式判別部17は、「ソース文字列A」のNSi+1桁目からNBi桁の文字を抽出する。
キーワード生成部16は、「キーワードAZ」の最後に、抽出したNBi桁の文字を追加して、新たな「キーワードAZ」を生成する(ステップS210)。そして、様式判別部17は、「キーワードAZ」を一時記憶部11に保存する。
そして、様式判別部17は、一時記憶部11から「キーワードAZ」を読み出す。様式判別部17は、「キーワードAZ」をキーとして様式文字列テーブルに格納されている様式文字列データの中から、「キーワードAZ」が含まれている様式文字列データを検索する(ステップS211)。
その検索の結果、様式判別部17が該当する様式文字列データを探しあてた場合には(ステップS212 YES)、様式判別部17は、その様式文字列データと関係付けられたそのOCR設定ファイル名を抽出する(ステップS206)。
その検索の結果、様式判別部17が該当する様式文字列データを探しあてた場合には(ステップS212 YES)、様式判別部17は、その様式文字列データと関係付けられたそのOCR設定ファイル名を抽出する(ステップS206)。
一方、様式判別部17が該当する様式文字列データを探しあてられなかった場合には(ステップS212 NO)、様式判別部17は、現在の「キーワードAZ」の桁数にNB桁を加算する。
前記加算した値がNZiを超えない場合(ステップS213 NO)、キーワード生成部16は、現在の「キーワードAZ」の桁数に1を加えた開始桁数を算出する。そして、キーワード生成部16は、ソース文字列Aから、算出した開始桁数からNBi桁分の文字を抽出する。キーワード生成部16は、現在の「キーワードAZ」の最後に、抽出したNBi桁文字を追加する(ステップS214)。そして、ステップS210の処理に戻る。
一方、加算した値がNZiを超える場合(ステップS213 YES)、パラメータテーブル30の全てのパラメータで検索をしたかどうか判定する。パラメータテーブル30の全てのパラメータで検索をしていない場合(ステップS215 NO)、キーワード生成部16は、パラメータ番号iを1増加させ、次のパラメータ番号に対応する各種パラメータ(見出し文字数、有効範囲桁、開始桁位置、増分桁)を読み出す(ステップS216)。そして、ステップS202の処理に戻る。
一方、パラメータテーブル30の全てのパラメータで検索をした場合(ステップS215 YES)、様式判別部17は、様式の抽出に失敗したと判定する。以上で、本フローチャートは終了する。
以上により、人の手を介さずに、帳票の画像から帳票の様式を判別することができる。
また、見出し文字数NXi、開始桁位置NSi、増分桁NBiといったパラメータを段階的に変えて様式を抽出することにより、帳票の様式を抽出する確率を高めることができる。
また、見出し文字数NXi、開始桁位置NSi、増分桁NBiといったパラメータを段階的に変えて様式を抽出することにより、帳票の様式を抽出する確率を高めることができる。
以上、本発明では、帳票の種類を判別する際に、OCRでプレプリントを正確に文字認識する必要がないので、帳票を読み取るごとに、その帳票を判別するための文字列の情報を入力しなくても、帳票の種類を判別することができる。
また、本発明では、画像レベルの全体的な様式イメージでの設定であるため、ロゴなどの範囲を桁数で指定するのみとなり、実際の運用が非常に容易である。
また、本発明では、画像レベルの全体的な様式イメージでの設定であるため、ロゴなどの範囲を桁数で指定するのみとなり、実際の運用が非常に容易である。
また、ロゴ部、タイトル部などの後に日付、氏名、押印部がある帳票の様式において、帳票の種類が同じであって、帳票間で共通でない部分(例えば、日付、氏名、押印部等)が存在する場合でも、帳票の様式判定を行うことができる。
なお、本発明の実施形態では、記憶部12は様式文字列と帳票の様式が記載された設定ファイル名とが関係付けられたテーブルを保持するとして説明したが、これに限らず、記憶部12は帳票の様式毎に定められた様式文字列を配列で保持してもよい。
なお、本実施形態である帳票判別装置2の機能をコンピュータで実現するようにしてもよい。この場合、その機能を実現するための帳票判別プログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録された帳票判別プログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OS(Operating System)や周辺機器のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、光ディスク、一時記憶部カード等の可搬型記録媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短場合間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定期間プログラムを保持するものを含んでもよい。また上記のプログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせにより実現するものであってもよい。
以上、本発明の実施形態について図面を参照して詳述したが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
1 帳票判別システム
2 帳票判別装置
3 OCR処理装置
4 分類先決定装置
5 データ保管装置
11 一時記憶部
12 記憶部
13 制御部
14 画像抽出部
15 テキスト化処理部
16 キーワード生成部
17 様式判別部
2 帳票判別装置
3 OCR処理装置
4 分類先決定装置
5 データ保管装置
11 一時記憶部
12 記憶部
13 制御部
14 画像抽出部
15 テキスト化処理部
16 キーワード生成部
17 様式判別部
Claims (6)
- 所定の区画内において着色部が占める割合と文字とが関係付けられたテーブルと、帳票の様式毎に定められた様式文字列を記憶する記憶部と、
帳票の画像から所定の領域の画像を抽出する画像抽出部と、
前記抽出した画像を所定の区画に分割し、該区画毎に前記割合を算出し、前記記憶部に記憶された前記テーブルから前記算出した割合に対応する文字を抽出し、前記区画の画像を該文字に置き換えることにより文字列を生成するテキスト化処理部と、
前記テキスト化処理部によって生成された文字列から所定の数の文字列をキーワードとして抽出するキーワード生成部と、
前記記憶部に記憶された前記様式文字列の中から、前記キーワードまたは前記キーワードに類似した文字列を含む様式文字列を抽出することにより帳票の様式を判別する様式判別部と、
を備えることを特徴とする帳票判別装置。 - 前記テキスト化処理部は、生成した文字列のうち、スペースを第1の文字に、スペース以外の文字を第2の文字に変換することを特徴とする請求項1に記載の帳票判別装置。
- 前記記憶部は、前記キーワードの桁数を調整するパラメータを更に記憶し、
前記キーワード生成部は、前記パラメータに基づいて、キーワードを変更することを特徴とする請求項1または請求項2に記載の帳票判別装置。 - 請求項1から請求項3のいずれかに記載の帳票判別装置と、
前記帳票判別装置が判別した前記帳票の様式に基づいて、帳票画像から文字を認識するOCR処理装置と、
前記OCR処理装置が認識した文字に基づいて、前記帳票画像のファイルの保存場所を決定する分類先決定装置と、
を備えることを特徴とする帳票分類システム。 - 帳票の画像から所定の領域の画像を抽出する画像抽出手順と、
前記抽出した画像を所定の区画に分割し、該区画毎に着色部が占める割合を算出し、所定の区画内において着色部が占める割合と文字とが関係付けられたテーブルを記憶した記憶部から、前記算出された着色部が占める割合に対応する文字を抽出し、前記区画の画像を該文字に置き換えることにより文字列を生成するテキスト化処理手順と、
前記テキスト化処理部によって生成された文字列から所定の数の文字列をキーワードとして抽出するキーワード生成手順と、
前記記憶部に記憶された様式文字列の中から、前記キーワードまたは前記キーワードに類似した文字列を含む様式文字列を抽出することにより帳票の様式を判別する様式判別手順と、
を有することを特徴とする帳票判別方法。 - 所定の区画内において着色部が占める割合と文字とが関係付けられたテーブルと、帳票の様式毎に定められた様式文字列を記憶した記憶部を備えたコンピュータを、
帳票の画像から所定の領域の画像を抽出する画像抽出部と、
前記抽出した画像を所定の区画に分割し、該区画毎に前記割合を算出し、前記記憶部に記憶された前記テーブルから前記算出した割合に対応する文字を抽出し、前記区画の画像を該文字に置き換えることにより文字列を生成するテキスト化処理部と、
前記テキスト化処理部によって生成された文字列から所定の数の文字列をキーワードとして抽出するキーワード生成部と、
前記記憶部に記憶された複数の前記様式文字列の中から、前記キーワードまたは前記キーワードに類似した文字列を含む様式文字列を抽出することにより帳票の様式を判別する様式判別部と、
して機能させるための帳票判別プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010115499A JP2011243053A (ja) | 2010-05-19 | 2010-05-19 | 帳票判別装置、帳票分類システム、帳票判別方法および帳票判別プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010115499A JP2011243053A (ja) | 2010-05-19 | 2010-05-19 | 帳票判別装置、帳票分類システム、帳票判別方法および帳票判別プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011243053A true JP2011243053A (ja) | 2011-12-01 |
Family
ID=45409626
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010115499A Pending JP2011243053A (ja) | 2010-05-19 | 2010-05-19 | 帳票判別装置、帳票分類システム、帳票判別方法および帳票判別プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011243053A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9948795B2 (en) | 2015-12-21 | 2018-04-17 | Fuji Xerox Co., Ltd. | Image processing apparatus recognizing a partial image recorded in a specified region, and corresponding image processing method, and non-transitory computer readable medium |
KR102282025B1 (ko) * | 2021-02-08 | 2021-07-28 | 로지스원 주식회사 | 컴퓨터를 이용한 문서 분류 및 문자 추출 방법 |
-
2010
- 2010-05-19 JP JP2010115499A patent/JP2011243053A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9948795B2 (en) | 2015-12-21 | 2018-04-17 | Fuji Xerox Co., Ltd. | Image processing apparatus recognizing a partial image recorded in a specified region, and corresponding image processing method, and non-transitory computer readable medium |
KR102282025B1 (ko) * | 2021-02-08 | 2021-07-28 | 로지스원 주식회사 | 컴퓨터를 이용한 문서 분류 및 문자 추출 방법 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3689455B2 (ja) | 情報処理方法及び装置 | |
US8838657B1 (en) | Document fingerprints using block encoding of text | |
JP2005018678A (ja) | 帳票データ入力処理装置、帳票データ入力処理方法及びプログラム | |
US20060045340A1 (en) | Character recognition apparatus and character recognition method | |
WO2007139039A1 (ja) | 情報分類装置、情報分類方法、及び情報分類プログラム | |
JP4991407B2 (ja) | 情報処理装置、その制御プログラムおよび該制御プログラムを記録したコンピュータ読み取り可能な記録媒体、ならびに制御方法 | |
CN111782892B (zh) | 基于前缀树的相似字符识别方法、设备、装置和存储介质 | |
KR20210086836A (ko) | 텍스트 기반 이미지 검색을 위한 이미지 데이터 처리 방법 | |
CN113255369B (zh) | 文本相似度分析的方法、装置及存储介质 | |
KR101721063B1 (ko) | 이미지 파일에 포함된 개인정보 검색 방법 및 그 방법을 구현하는 프로그램을 기록한 기록매체 | |
JP2011243053A (ja) | 帳票判別装置、帳票分類システム、帳票判別方法および帳票判別プログラム | |
US20220171928A1 (en) | Information processing method, computer-readable recording medium storing information processing program, and information processing device | |
CN113362026B (zh) | 文本处理方法及装置 | |
JP2016018279A (ja) | 文書ファイル検索プログラム、文書ファイル検索装置、文書ファイル検索方法、文書情報出力プログラム、文書情報出力装置及び文書情報出力方法 | |
CN106250354B (zh) | 处理文书的信息处理装置、信息处理方法以及程序 | |
US11455812B2 (en) | Extracting non-textual data from documents via machine learning | |
JP2020047031A (ja) | 文書検索装置、文書検索システム及びプログラム | |
JP6044422B2 (ja) | 略称生成方法および略称生成装置 | |
CN114510935B (zh) | 双地址文本识别方法、装置、计算机设备和存储介质 | |
JP7421384B2 (ja) | 情報処理装置、修正候補表示方法、及びプログラム | |
JP6303742B2 (ja) | 画像処理装置、画像処理方法、および画像処理プログラム | |
CN118504039B (zh) | 基于aigc的文件信息脱敏方法、系统和一体机 | |
JP2004206521A (ja) | 文書検索装置および文書検索プログラム | |
JP7552113B2 (ja) | 情報処理装置およびプログラム | |
KR102530295B1 (ko) | 인공 지능 기반의 스마트 초성 입력 서비스를 제공하는 서버 및 그 서버의 동작 방법 |