JP2002170079A - 文書書式識別装置および識別方法 - Google Patents
文書書式識別装置および識別方法Info
- Publication number
- JP2002170079A JP2002170079A JP2000367675A JP2000367675A JP2002170079A JP 2002170079 A JP2002170079 A JP 2002170079A JP 2000367675 A JP2000367675 A JP 2000367675A JP 2000367675 A JP2000367675 A JP 2000367675A JP 2002170079 A JP2002170079 A JP 2002170079A
- Authority
- JP
- Japan
- Prior art keywords
- document
- similarity
- document format
- scaling factor
- identified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Character Input (AREA)
Abstract
文書が混在する環境でも、多種類の文書書式を正しく識
別する。 【解決手段】 文書画像の特徴量に基づいて、文書書式
識別のための文書書式データを作成する書式データ作成
手段12bと、文書書式データを保存するディスク14
と、文書書式を識別したい文書の画像について書式デー
タ作成手段12bを用いて文書書式データを得て、これ
をディスク14で保存した文書書式データと相似関係が
あるか否かを判断し、相似と判断された場合に、前記識
別したい文書と、ディスク14で保存した文書との相似
状態を表す相似情報及び文書書式データに基づいて文書
書式の類似度を計算し、前記識別したい文書の文書書式
を識別する類似度計算手段12cとを備える。
Description
する分野で、帳票の書式ごとに分類する装置を構築する
際に、自動分類を可能にする帳票識別に関するものであ
る。
学式文字認識装置で読みとるためには、帳票の書式を識
別し、帳票内の情報記載位置を正確に把握する必要があ
る。帳票の書式を識別する方法として、あらかじめ登録
されたマスタ帳票と、識別したい帳票の帳票内のテーブ
ルや文字を比較し、識別したい帳票と一致するマスタ帳
票を抽出する方法がある。
識別したい帳票のテーブルブロックおよびテキストブロ
ックに、最も近い座標位置にあるマスタ帳票のブロック
を検出し、テーブルブロックおよびテキストブロックご
との詳細情報のマッチングを取る手法が一般的である。
そのブロック位置の検出には、帳票ページの左上角を原
点として、各ブロックの左上角位置の座標値を使用して
いた。
たい帳票がFAX等により送信された場合、FAX等の
給紙制約から、識別したい帳票が拡大または縮小される
ことがある。そして、図2の(A)、(B)に示すよう
にマスタ帳票Bに対して、拡大または縮小した識別した
い帳票Aを比較すると、識別したい帳票の各ブロックの
左上角位置は変倍されているため、識別したい帳票のブ
ロックに対応するマスタ帳票のブロックを正確に検出す
ることができない。また、ブロックごとの詳細構造のマ
ッチングでも、テーブルブロックのサイズ、テーブル内
の罫線の位置情報も、前記と同様に変倍されているの
で、相似形のテーブルブロックでもテーブル構造のマッ
チング計算では、異なるテーブルだと識別されることに
なる。その結果、拡大または縮小した帳票は、類似度が
非常に低くなり、異なる帳票として判断されることにな
る。
であり、異なる変倍率で拡大または縮小された複数の文
書が混在する環境でも、文書書式を正しく識別すること
を目的とする。
め、例えば本発明の文書書式識別装置は以下の構成を備
える。すわなち、文書画像の特徴量に基づいて、文書書
式識別のための文書書式データを作成する作成手段と、
前記文書書式データを保存する保存手段と、文書書式を
識別したい文書の画像について前記作成手段を用いて文
書書式データを得て、これを前記保存手段で保存した文
書書式データと比較し、相似関係があるか否かを判断す
る判断手段と、前記判断手段にて相似と判断された場合
に、前記識別したい文書と、前記保存手段で保存した文
書との相似状態を表す相似情報を抽出する相似情報抽出
手段と、前記相似情報抽出手段にて抽出した相似情報及
び文書書式データに基づいて文書書式の類似度を計算
し、前記識別したい文書の文書書式を識別する識別手段
とを備える。
て本発明の実施の形態を詳細に説明する。
式自動識別装置の概略構成を示すブロック図である。
光学的に読み取り、帳票イメージデータを出力する。1
2はプロセッサでありメモリ15に格納された制御プロ
グラム15dを実行することにより、画像特徴量抽出手
段12a、書式データ作成手段12b、類似度計算手段
12cとして機能する。スキャナー11で読み取った画
像は、帳票イメージ15cとしてメモリ15に格納され
る。帳票イメージ15cは、2値化処理されて画像特徴
量抽出手段12aに送られ、黒ドットのヒストグラム法
などの手法により、テーブル、テキスト、ピクチャなど
ブロックごとに属性分類される。テーブルブロックにつ
いては、さらに罫線追跡手法などで、テーブルの詳細構
造を求める。また、テキストブロックについては、さら
に文字コードに変換するなどの処理を行う。
ータ作成手段12bにて、図3に示す帳票のページ書式
およびテーブル書式を作成し、メモリ15およびディス
ク14に保存する。図3は、画像特徴量抽出手段12a
で抽出した後の帳票サンプル31を示す。テーブル・ブ
ロック3個(311〜313)、ピクチャ・ブロック1
個(314)が抽出されている。この帳票の書式データ
32は、ページ書式321とテーブル書式322に階層
化して保存する。ページ書式321は、ヘッダ部321
aに帳票ページ幅、帳票ページ高さを所有する。
各種情報が記憶される。例えば、ブロック属性がテーブ
ルの場合には、位置情報としてブロック左端位置、ブロ
ック上端位置、大きさ情報としてブロック幅、ブロック
高さの情報を所有する。また、比較帳票をピックアップ
するのに使用するためのページ原点からの距離および類
似度の計算に使用するための当該ブロックの面積を全テ
ーブル・ブロックで割った値も所有する。さらに、テー
ブル詳細情報とリンクするためにテーブルIDを所有す
る。このテーブルIDにリンクしたテーブルのセルの詳
細構造をテーブル書式322で示す。テーブル内のセル
個数、セルの位置、大きさ情報を所有する。
の登録、帳票の識別などの命令が入力されると、各々の
命令に対応する処理をプロセッサ12が上記の書式デー
タ32を使用して行う。そして、その識別結果をディス
プレイ16に表示する。
別装置、特に図1のプロセッサ12が実行する各種制御
処理の動作を説明する。
処理の概略フローチャートを示す。ステップS101に
て、識別したい帳票をスキャナーで読み取り、ステップ
S103で、テーブルブロック、テキストブロックの座
標値等の特徴量データを抽出する。ステップS105で
は、これらの特徴量データを類似度を計算するための書
式データに変換する。この書式データを元にして、ステ
ップS107にてマスター帳票の中から、当該識別した
い帳票の書式データと同じ帳票である可能性のある帳票
を絞り込む。ステップS109で絞り込んだ帳票のすべ
てについて書式の類似度を計算する(ステップS11
1)。計算の結果、類似度の高い方の所定数のマスター
帳票を類似帳票の候補とし、その識別コードと類似度を
出力する(ステップS113)。
は、ステップS108にて行う。図5〜図8を使用し
て、詳細にその処理を説明する。
チェック処理が開始され、ステップS203で識別した
い帳票およびマスタ帳票のフレームおよびテーブルブロ
ックを整列する。本実施形態では、ブロック左上角のX
座標の昇順にブロック情報を並べる。但し、図3に示す
ような、ブロック左上角座標のX成分がほとんど同じ位
置にある場合には、X座標の誤差により識別したい帳票
とマスタ帳票のブロック情報の並びを必ずしも対応付け
ることができない。識別したい帳票のブロック情報がテ
ーブル1(311)→テーブル2(312)→ピクチャ
ブロック(314)→テーブルブロック3(313)と
整列しても、マスタ帳票のブロック情報がテーブル2
(312)→テーブル1(311)→ピクチャブロック
(314)→テーブルブロック3(313)のように整
列する可能性は十分にある。そこで、X座標の位置が5
ピクセル以内の差のブロックに関しては、別途Y成分の
昇順に整列させる。この結果、識別したい帳票およびマ
スタ帳票のブロック情報をテーブル1(311)→テー
ブル2(312)→ピクチャブロック(314)→テー
ブルブロック3(313)の順に整列することが保証さ
れる。
の個数が同じであるかをチェックしている。ブロックの
個数が異なる場合は、相似形でないと判断して、帳票レ
イアウト相似形チェック処理を終了し、ステップS10
9へ戻る。
あった場合には、ステップS207にて、ブロック個数
が3個以上かをチェックしている。3個以上の場合と、
2個以下の場合では、相似形判定プログラムが異なるか
らである。
に進み、ブロック左上角X座標の比較処理を行う。ステ
ップS208_1の詳細を図6のフローチャートを用い
て説明する。
成分の相似形チェック処理をする。すなわち、識別した
い帳票の左上角X座標を縦軸に、マスタ帳票の左上角X
座標を横軸にして、下式より相関係数を計算する。
式の相関係数の分子の値をチェックし(ステップS21
1)、相関係数の分子が14以下であれば、別プログラ
ムで変倍率δXを求めている。これは、以下に述べるよ
うに相関係数の誤差が大きくなるからである。
11)、テーブルブロック2(312)、ピクチャブロ
ック314の各左上角のX座標はほとんど同じ位置にあ
るため、Xi、YiともにXave、 Yaveに近い
値となる。従って、Xi、 Yiが誤差の為に変動した
場合、相関係数の変動も大きくなる。このため、Xi、
Yiの誤差が大きいと考えられる環境では、相関係数の
信頼度が落ちる。誤差の要因としては、スキャナで読み
取るときに発生する誤差、傾斜補正等の画像処理を行っ
たときに発生する誤差、マッチング(すべての画像を1
00dpiに正規化してマッチングを行っている)の為
に解像度変換を行ったときに発生する誤差などがあげら
れる。それらの誤差を考慮して、上式の相関係数の分子
が14以下の場合は、信頼できないとして(識別したい
帳票のページ幅)/(マスタ帳票のページ幅)=変倍率
δXとしている(ステップS211_2)。ただし、帳
票をはさみ等で切り取った場合にできるズレによる誤差
を考慮して、帳票ページ幅の差分が10ピクセル以内で
あれば、変倍率δXを1.0とする(ステップS211
_1、S211_3)。
4以上であり、かつ相関係数が0.9996以上あれ
ば、X成分に関しては相似形と判断する(ステップS2
13)。
子が14以上であっても、相関係数が0.9996より
小さい場合には、相似形でないと判断して相似形チェッ
ク処理を終了し、ステップS109へもどる。
線上に並んでいるとみなすことができる。つまり、変倍
されている可能性はあるが、X成分の並びは相似形であ
ると考える。
るので、その傾きを計算する。この傾きがX成分の変倍
率δXを示す(ステップS215)。傾き=1の時は、
識別したい帳票とマスタ帳票のX成分は同じであり、傾
きが1より小さいと、マスタ帳票のX成分の増加率が識
別したい帳票の比べて大きいことになり、マスタ帳票の
幅が識別したい帳票の幅に比べて拡大しているといえ
る。つまり、傾き=(識別したい帳票のページ幅)/
(マスタ帳票のページ幅)の関係が成り立つ。
して、変倍率δXが1±0.028以内であれば変倍が
ないとみなし、変倍率δXを1にリセットする。
が、テーブルブロックのサイズまで適用できるかをチェ
ックしている。すなわち、ステップS203で整列した
帳票のブロック情報を順に1個ずつ、「(識別したい帳
票のブロック幅)/(マスタ帳票のブロック幅)<変倍
率δX+0.027+1.9/(マスタ帳票のブロック
幅)」を満たすかどうかをチェックし、満たさない場合
には、ブロックレイアウトは相似でないとして当該処理
を終了し、ステップS109にもどる。また、満たす場
合には、変倍率δXのテーブルブロックサイズへの適用
可と判断し、処理を終了する。
S208_2ではブロック左上角Y座標の比較処理を行
う。ステップS208_2の詳細フローチャートを図7
に示す。
成分の相似形チェック開始する。すなわち、識別したい
帳票の左上角Y座標を縦軸に、マスタ帳票の左上角Y座
標を横軸にして、相関係数を計算する。
関係数の分子の値をチェックし(ステップS212)、
相関係数の分子が14以下であれば、別プログラムで変
倍率δYを求めている。相関係数の分子が14以下の場
合は、信頼できないとして(識別したい帳票のページ高
さ)/(マスタ帳票のページ高さ)=変倍率δYとして
いる(ステップS212_2)。ただし、帳票をはさみ
等で切り取った場合にできるズレによる誤差を考慮し
て、帳票ページ幅の差分が10ピクセル以内であれば、
変倍率δYを1.0とする(ステップS212_1、S
212_3)。
4以上であり、かつ相関係数が0.9996以上あれ
ば、Y成分に関しては相似形と判断する(ステップS2
14)。
子が14以上であっても、相関係数が0.9996より
小さい場合には、相似形でないと判断して相似形チェッ
ク処理を終了し、ステップS109へもどる。
線上に並んでいるとみなすことができる。つまり、変倍
されている可能性はあるが、Y成分の並びは相似形であ
ると考える。
るので、その傾きを計算する。この傾きがY成分の変倍
率δYを示す(ステップS216)。傾き=1の時は、
識別したい帳票とマスタ帳票のY成分は同じであり、傾
きが1より小さいと、マスタ帳票のY成分の増加率が識
別したい帳票の比べて大きいことになり、マスタ帳票の
幅が識別したい帳票の幅に比べて拡大しているといえ
る。つまり、傾き=(識別したい帳票のページ高さ)/
(マスタ帳票のページ高さ)の関係が成り立つ。
変倍率δYが1±0.028以内であれば変倍がないと
みなし、変倍率δYを1にリセットする。
が、テーブルブロックのサイズまで適用できるかをチェ
ックしている。すなわち、ステップS203で整列した
帳票のブロック情報を順に1個ずつ、「(識別したい帳
票のブロック高さ)/(マスタ帳票のブロック高さ)<
変倍率δY+0.027+1.9/(マスタ帳票のブロ
ック高さ)」を満たすかどうかをチェックし、満たさな
い場合には、ブロックレイアウトは相似でないとして当
該処理を終了し、ステップS109にもどる。また、満
たす場合には、変倍率δYのテーブルブロックサイズへ
の適用可と判断し、処理を終了する。
方ともに相似形であり、変倍率(δX、δY)を取得で
きた帳票のみ、レイアウトが相似形であると判断し、そ
れ以外の場合には、相似でないとして当該処理を終了
し、ステップS109にもどる。
が2個以下の場合は、図8のブロック個数が2個以下の
場合の処理を行う(ステップS301)。
数が2個以下の場合の処理が開始され、ステップS30
2にて識別したい帳票のページ幅とマスター帳票のペー
ジ幅を比較し、差分が10ピクセルより大きい場合に
は、変倍率δX=(識別したい帳票のページ幅)/(マ
スタ帳票のページ幅)とし、差分が10ピクセル以内の
場合には変倍率δX=1.0とする(ステップS30
2、S303、S304)。
Xが、テーブルブロックのサイズまで適用できるかをチ
ェックしている。すなわち、ステップS203で整列し
た帳票のブロック情報を順に1個ずつ、「(識別したい
帳票のブロック幅)/(マスタ帳票のブロック幅)<変
倍率δX+0.027+1.9/(マスタ帳票のブロッ
ク幅)」を満たすかどうかをチェックし、満たさない場
合には、ブロックレイアウトは相似でないとして当該処
理を終了し、ステップS109にもどる。また、満たす
場合には、変倍率δXのテーブルブロックサイズへの適
用可と判断する。
帳票のページ高さとマスター帳票のページ高さを比較
し、差分が10ピクセルより大きい場合には、変倍率δ
Y=(識別したい帳票のページ高さ)/(マスタ帳票の
ページ高さ)とし、差分が10ピクセル以内の場合には
変倍率δY=1.0とする(ステップS306、S30
7、S308)。
Yが、テーブルブロックのサイズまで適用できるかをチ
ェックしている。すなわち、ステップS203で整列し
た帳票のブロック情報を順に1個ずつ、「(識別したい
帳票のブロック高さ)/(マスタ帳票のブロック高さ)
<変倍率δY+0.027+1.9/(マスタ帳票のブ
ロック高さ)」を満たすかどうかをチェックし、満たさ
ない場合には、ブロックレイアウトは相似形でないとし
て当該処理を終了し、ステップS109にもどる。ま
た、満たす場合には、変倍率δYのテーブルブロックサ
イズへの適用可と判断する。
にてテーブルブロックサイズへの適用可能と判断された
変倍率(δX、δY)について、ステップS310で、
ブロックの左上角、「マスタ帳票のX座標×変倍率(δ
X)≦識別したい帳票のX座標±10、かつマスタ帳票
のY座標×変倍率(δY)≦識別したい帳票のY座標±
10」の条件式を満たしていれば、識別したい帳票とマ
スタ帳票のレイアウトは相似形であると判断し、帳票レ
イアウト相似形チェック処理のステップS223へ進む
(ステップS311)。また、条件を満たさない場合に
は、相似形でないとして当該処理を終了し、ステップS
109にもどる。
にて相似形であると判断された場合には、ステップS2
23でページレイアウトの変倍によるペナルティを以下
の式で決定する。
ィ、PXYは、両成分の変形度によるペナルティをあら
わす。
は0である。つまり、変倍していないのでペナルティを
課せないことを意味する。
きには0になるし、X成分が1より大きく、Y成分が1
より小さく変倍するように、変倍によるレイアウトの変
形が大きくなればペナルティが大きくなるように調整す
る式である。
計算式でペナルティを与えて、従来のページ書式のマッ
チングによるペナルティを0とする。逆に、相似形でな
い場合は、従来通りのページ書式のマッチングによるペ
ナルティを与える。
ブロックの詳細構造、その次にテキストブロックの文字
比較を行うが、これらのブロックを検出する際には、相
似形チェックで求めた変倍率を使用した計算式を使用す
る。
な識別したい帳票とマスタ帳票について、本実施形態に
よる帳票レイアウト相似形チェック処理で、相似形だと
判定され、変倍率(δX、δY)が得られたとする。
対応する識別したい帳票のブロックは、(δX×X1、
δY×Y1)で正確な位置を求めることができる。
ブロックの場合は、テーブルの各罫線情報が帳票ページ
の変倍率と同様に変倍されているので、マスタ帳票の罫
線情報(Lx、Ly)を(Lx×δX、Ly×δy)に
変倍して、識別したい帳票の罫線情報と比較すること
で、正確なテーブルブロックの詳細構造のマッチングを
行うことができる。
票サンプルを使用した統計値であり、帳票識別の環境に
よっては、変更してもかまわない。
のみでは正しく認識できない恐れがある。
うち、識別したい帳票とマスタ帳票の原点位置がずれた
場合の識別処理について詳細を説明する。
のを使用し、図3と同様の書式データを作成する。した
がって、図1と図3の内容は実施形態1と重複すること
から説明は省略する。
のプロセッサ12が実行する各種制御処理のうち、実施
形態1と異なる処理を中心に説明する。
ックは、ステップS108にて行う。図10〜図13を
使用して、詳細にその処理を説明する。
では、図5のステップS203からS207までと同じ
処理を行う。
X座標の比較処理を行う。この処理の詳細を図11を参
照して説明する。
ク情報のX成分の相似形チェックをすべく、識別したい
帳票の左上角X座標を縦軸に、マスタ帳票の左上角X座
標を横軸にして、相関係数を計算する。
関係数の分子の値をチェックし(ステップS411)、
相関係数の分子が14以下であれば、別プログラムで変
倍率δXを求めている。これは、相関係数の誤差が大き
くなるからで、詳細は実施形態1と同じであるため、説
明は省略する。
できないとして(識別したい帳票のページ幅)/(マス
タ帳票のページ幅)=変倍率δXとしている(ステップ
S411_2)。ただし、帳票をはさみ等で切り取った
場合にできるズレによる誤差を考慮して、帳票ページ幅
の差分が10ピクセル以内であれば、変倍率δXを1.
0とする(ステップS411_1、S411_3)。
ップS411_4にて、原点ずれ量shiftXを
「(識別したい帳票の先頭ブロックの左上角X座標)−
(マスタ帳票の先頭ブロックの左上角X座標)×変倍率
δX」より算出する。
4以上であり、かつ相関係数が0.9996以上あれ
ば、X成分に関しては相似形と判断する(ステップS4
13)。
子が14以上であっても、相関係数が0.9996より
小さい場合には、相似形でないと判断して相似形チェッ
ク処理を終了し、ステップS109へもどる。
線上に並んでいるとみなすことができる。つまり、変倍
されている可能性はあるが、X成分の並びは相似形であ
ると考える。
るので、その傾きを計算する(回帰直線の傾き)。この
傾きがX成分の変倍率δXを示す(ステップS41
5)。傾き=1の時は、識別したい帳票とマスタ帳票の
X成分は同じであり、傾きが1より小さいと、マスタ帳
票のX成分の増加率が識別したい帳票の比べて大きいこ
とになり、マスタ帳票の幅が識別したい帳票の幅に比べ
て拡大しているといえる。一方、回帰直線の縦軸との切
片がX座標の原点ずれ量shiftXになる(ステップ
S417)。
ーブルブロックのサイズまで適用できるかをチェックし
ている。すなわち、ステップS203で整列した帳票の
ブロック情報を順に1個ずつ、「(識別したい帳票のブ
ロック幅)/(マスタ帳票のブロック幅)=変倍率δ
X」を満たすかどうかをチェックし、満たさない場合に
は、ブロックレイアウトは相似でないとして当該処理を
終了し、ステップS109にもどる。また、満たす場合
には、変倍率δXのテーブルブロックサイズへの適用可
と判断し、処理を終了する。
S408_2では、ブロック左上角Y座標の比較処理を
行う。ステップS408_2の詳細フローチャートを図
12に示す。
ク情報のX成分の相似形チェックをすべく、識別したい
帳票の左上角Y座標を縦軸に、マスタ帳票の左上角Y座
標を横軸にして、相関係数を計算する。
関係数の分子の値をチェックし(ステップS412)、
相関係数の分子が14以下であれば、別プログラムで変
倍率δYを求めている。これは、相関係数の誤差が大き
くなるからで、詳細は実施形態1と同じであるため、説
明は省略する。
できないとして(識別したい帳票のページ高さ)/(マ
スタ帳票のページ高さ)=変倍率δYとしている(ステ
ップS412_2)。ただし、帳票をはさみ等で切り取
った場合にできるズレによる誤差を考慮して、帳票ペー
ジ幅の差分が10ピクセル以内であれば、変倍率δYを
1とする(ステップS412_1、S412_3)。
ップS412_4にて、原点ずれ量shiftYを
「(識別したい帳票の先頭ブロックの左上角Y座標)−
(マスタ帳票の先頭ブロックの左上角Y座標)×変倍率
δY」より算出する。
4以上であり、かつ相関係数が0.9996以上あれ
ば、Y成分に関しては相似形と判断する(ステップS4
14)。
子が14以上であっても、相関係数が0.9996より
小さい場合には、相似形でないと判断して相似形チェッ
ク処理を終了し、ステップS109へもどる。
線上に並んでいるとみなすことができる。つまり、変倍
されている可能性はあるが、Y成分の並びは相似形であ
ると考える。
るので、その傾きを計算する(回帰直線の傾き)。この
傾きがY成分の変倍率δYを示す(ステップS41
6)。傾き=1の時は、識別したい帳票とマスタ帳票の
Y成分は同じであり、傾きが1より小さいと、マスタ帳
票のY成分の増加率が識別したい帳票の比べて大きいこ
とになり、マスタ帳票の高さが識別したい帳票の高さに
比べて拡大しているといえる。一方、回帰直線の縦軸と
の切片がY座標の原点ずれ量shiftYになる(ステ
ップS418)。
ーブルブロックのサイズまで適用できるかをチェックし
ている。すなわち、ステップS203で整列した帳票の
ブロック情報を順に1個ずつ、「(識別したい帳票のブ
ロック高さ)/(マスタ帳票のブロック高さ)=変倍率
δY」を満たすかどうかをチェックし、満たさない場合
には、ブロックレイアウトは相似でないとして当該処理
を終了し、ステップS109にもどる。また、満たす場
合には、変倍率δYのテーブルブロックサイズへの適用
可と判断し、処理を終了する。
方ともに相似形であり、変倍率(δX、δY)を取得で
きた帳票のみ、レイアウトが相似形であると判断し、そ
れ以外の場合には相似でないとして、当該処理を終了
し、ステップS109にもどる。
が2個以下の場合は、図13のブロック個数が2個以下
の場合の処理を行う(ステップS501)。
数が2個以下の場合の処理が開始され、ステップS50
2にて識別したい帳票のページ幅とマスター帳票のペー
ジ幅を比較し、差分が10ピクセルより大きい場合に
は、変倍率δX=(識別したい帳票のページ幅)/(マ
スタ帳票のページ幅)とし、差分が10ピクセル以内の
場合には変倍率δX=1.0とする(ステップS50
2、S503、S504)。
Xが、テーブルブロックのサイズまで適用できるかをチ
ェックしている。すなわち、ステップS403で整列し
た帳票のブロック情報を順に1個ずつ、「(識別したい
帳票のブロック幅)/(マスタ帳票のブロック幅)=変
倍率δX」を満たすかどうかをチェックし、満たさない
場合には、ブロックレイアウトは相似でないとして当該
処理を終了し、ステップS109にもどる。また、満た
す場合には、変倍率δXのテーブルブロックサイズへの
適用可と判断する。
帳票のページ高さとマスター帳票のページ高さを比較
し、差分が10ピクセルより大きい場合には、変倍率δ
Y=(識別したい帳票のページ高さ)/(マスタ帳票の
ページ高さ)とし、差分が10ピクセル以内の場合には
変倍率δY=1.0とする(ステップS507、S50
8、S509)。
Yが、テーブルブロックのサイズまで適用できるかをチ
ェックしている。すなわち、ステップS403で整列し
た帳票のブロック情報を順に1個ずつ、「(識別したい
帳票のブロック高さ)/(マスタ帳票のブロック高さ)
=変倍率δY」を満たすかどうかをチェックし、満たさ
ない場合には、ブロックレイアウトは相似形でないとし
て当該処理を終了し、ステップS109にもどる。ま
た、満たす場合には、変倍率δYのテーブルブロックサ
イズへの適用可と判断する。
にてテーブルブロックサイズへの適用可能と判断された
変倍率(δX、δY)について、ステップS512で、
ブロックの左上角が、「マスタ帳票のX座標×変倍率
(δX)+原点ずれ量shiftX≦識別したい帳票の
X座標±10、かつマスタ帳票のY座標×変倍率(δ
Y)+原点ずれ量shiftY≦識別したい帳票のY座
標±10」の条件式を満たしていれば、識別したい帳票
とマスタ帳票のレイアウトは相似形であると判断し、帳
票レイアウト相似形チェック処理のステップS422へ
進む(ステップS513)。また、条件を満たさない場
合には、相似形でないとして当該処理を終了し、ステッ
プS109にもどる。
にて相似形であると判断された場合には、ステップS4
22でページレイアウトの変倍によるペナルティを以下
の式で決定する。
は、両成分の変形度によるペナルティをあらわす。
は0である。つまり、変倍していないのでペナルティを
課せないことを意味する。
きには0になるし、X成分が1より大きく、Y成分が1
より小さく変倍するように、変倍によるレイアウトの変
形が大きくなればペナルティが大きくなるように調整す
る式である。
X1=原点ずれ量(shiftX)×0.22、PY1
=原点ずれ量(shiftY)×0.22よりもとめ
る。
計算式でペナルティを与えて、従来のページ書式のマッ
チングによるペナルティを0とする。逆に、相似形でな
い場合は、従来通りのページ書式のマッチングによるペ
ナルティを与える。
ブロックの詳細構造、その次にテキスト・ブロックの文
字比較を行うが、これらのブロックを検出する際には、
相似形チェックで求めた変倍率を使用した計算式を使用
する。
帳票Aが識別したい帳票、帳票Bがマスタ帳票と仮定す
る。
ェック処理で、相似形だと判定され、変倍率(δX、δ
Y)、原点ずれ量(shiftX、shiftY)が得
られたとする。
する帳票Aのブロックは、(δX×X1+shift
X、δY×Y1+shiftY)で正確な位置を求める
ことができる。
ブロックの場合は、テーブルの各罫線情報が帳票ページ
の変倍率と同様に変倍されているので、帳票Bの罫線情
報(Lx、Ly)を(Lx×δX、Ly×δy)に変倍
して、帳票Aの罫線情報と比較することで、正確なテー
ブルブロックの詳細構造のマッチングを行うことができ
る。罫線情報は、テーブルブロックの左上角を原点にし
ているので、帳票ページ原点ずれ量は、テーブルブロッ
クの詳細構造には影響を与えない。
票サンプルを使用した統計値であり、帳票識別の環境に
よっては、変更してもかまわない。
アウト構造が変倍されている場合には、その帳票内のテ
ーブルの罫線情報も同じ率で変倍されている。従って、
テーブルブロックの詳細構造である罫線情報の比較に、
この変倍率を使用することで、より正確な詳細構造の比
較を行うことができる。
のテーブルブロックの詳細構造Li= ( マスタ帳票のテ
ーブルの詳細構造Li )×変倍率(δX、δY)の関係
が成り立つ。
変倍率(δX、δY)を使用することで、比較すべき文
字列を正確に知ることができる。しかし、文字の比較
は、単なる文字コードの照合だから、変倍率(δX、δ
Y)は不要ではあるが、ペナルティ要素として、文字の
大きさを取り入れている場合には、マスタ帳票の文字の
大きさに変倍率をかけることで、より正確なマッチング
をおこなえる。
け文字認識を行うために、帳票認識を利用する方法があ
る。図14(A)、(B)に示すように、マスタ帳票に
文字認識を行う領域をあらかじめ設定しているとする。
図14(A)、(B)では、網掛け部分の銀行口座に登
録している氏名欄が文字認識する領域である。
で、マスタ帳票のIDを取得できる。そのIDには、文
字認識する領域が対応づけられている。本実施形態で
は、帳票のX、Y方向の変倍率と帳票ページ原点ずれ量
をIDとともに出力することができるので、識別したい
帳票の文字認識する領域は、下記の式から修正すること
ができる。
字認識領域を左上角座標(X、Y)、幅W、高さHとす
る。
ずれ量(shiftX、shiftY)であれば、識別
したい帳票の文字認識領域は、左上角座標(X×δX+
shiftX、Y×δY+shiftY)、幅(W×δ
X)、高さ(H×δY)となる。
形態の機能を実現するソフトウェアのプログラムコード
を記録した記憶媒体を、システムあるいは装置に供給
し、そのシステムあるいは装置のコンピュータ(または
CPUやMPU)が記憶媒体に格納されたプログラムコ
ードを読出し実行することによっても、達成されること
は言うまでもない。
ラムコード自体が前述した実施形態の機能を実現するこ
とになり、そのプログラムコードを記憶した記憶媒体は
本発明を構成することになる。
体としては、例えば、フロッピディスク、ハードディス
ク、光ディスク、光磁気ディスク、CD−ROM、CD
−R、磁気テープ、不揮発性のメモリカード、ROMな
どを用いることができる。
コードを実行することにより、前述した実施形態の機能
が実現されるだけでなく、そのプログラムコードの指示
に基づき、コンピュータ上で稼働しているOS(オペレ
ーティングシステム)などが実際の処理の一部または全
部を行い、その処理によって前述した実施形態の機能が
実現される場合も含まれることは言うまでもない。
ムコードが、コンピュータに挿入された機能拡張ボード
やコンピュータに接続された機能拡張ユニットに備わる
メモリに書込まれた後、そのプログラムコードの指示に
基づき、その機能拡張ボードや機能拡張ユニットに備わ
るCPUなどが実際の処理の一部または全部を行い、そ
の処理によって前述した実施形態の機能が実現される場
合も含まれることは言うまでもない。
異なる変倍率で拡大または縮小された複数の文書が混在
する環境でも文書書式を正しく識別することができる。
概略構成を示すブロック図である。
す図である。
る。
ートである。
角X座標の比較処理を示すフローチャートである。
角Y座標の比較処理を示すフローチャートである。
が2個以下の場合の処理を示すフローチャートである。
ャートである。
上角X座標の比較処理を示すフローチャートである。
上角Y座標の比較処理を示すフローチャートである。
数が2個以下の場合の処理を示すフローチャートであ
る。
Claims (17)
- 【請求項1】 文書画像の特徴量に基づいて、文書書式
識別のための文書書式データを作成する作成手段と、 前記文書書式データを保存する保存手段と、 文書書式を識別したい文書の画像について前記作成手段
を用いて文書書式データを得て、これを前記保存手段で
保存した文書書式データと比較し、相似関係があるか否
かを判断する判断手段と、 前記判断手段にて相似と判断された場合に、前記識別し
たい文書と、前記保存手段で保存した文書との相似状態
を表す相似情報を抽出する相似情報抽出手段と、 前記相似情報抽出手段にて抽出した相似情報及び文書書
式データに基づいて文書書式の類似度を計算し、前記識
別したい文書の文書書式を識別する識別手段とを備える
ことを特徴とする文書書式識別装置。 - 【請求項2】 前記識別手段は、前記相似情報に基づい
て、前記類似度の計算に用いる文書書式データを補正
し、類似度の計算を行うことを特徴とする請求項1記載
の文書書式識別装置。 - 【請求項3】 前記識別手段において、前記相似情報
は、前記識別したい文書と前記保存手段で保存した文書
との変倍率を含み、該変倍率を類似度の計算に用いる文
書書式データに乗算することを特徴とする請求項2記載
の文書書式識別装置。 - 【請求項4】 前記識別手段において、前記相似情報
は、前記識別したい文書と前記保存手段で保存した文書
との原点ずれ量を含み、該原点ずれ量を類似度の計算に
用いる文書書式データに加算することを特徴とする請求
項3記載の文書書式識別装置。 - 【請求項5】 前記識別手段において、前記相似情報
は、前記変倍率に基づいて算出したペナルティを含み、
該ペナルティを類似度の計算に課すことを特徴とする請
求項2記載の文書書式識別装置。 - 【請求項6】 前記相似情報抽出手段は、 前記識別したい文書を構成する構成要素と前記保存手段
で保存した文書を構成する構成要素とが互いに対応する
ように配列する配列手段と、 前記配列手段によって配列した前記構成要素の個数が互
いに等しく、かつ所定数以上の場合に、前記各構成要素
の各文書上の特定位置座標に基づいて相関係数を算出
し、該相関係数によって得られる回帰直線に基づいて文
書画像の変倍率をもとめる変倍率算出手段と、 前記変倍率算出手段によりもとめた変倍率から類似度の
計算に加算するペナルティを算出するペナルティ算出手
段とを備えることを特徴とする請求項2記載の文書書式
識別装置。 - 【請求項7】 前記相似情報抽出手段は、前記変倍率算
出手段によりもとめた変倍率の適正を判定する判定手段
を更に備え、 前記判別手段は、前記判定手段にて変倍率が不適正であ
ると判定した場合、前記相似情報を用いずに前記類似度
計算を行うことを特徴とする請求項6記載の文書書式識
別装置。 - 【請求項8】 前記相似情報抽出手段は、 前記変倍率算出手段によって算出された前記相関係数に
基づく前記回帰直線のY軸切片を前記各文書上の原点位
置のずれ量とするずれ量算出手段を更に備えることを特
徴とする請求項6記載の文書書式識別装置。 - 【請求項9】 文書画像の特徴量に基づいて、文書書式
識別のための文書書式データを作成する作成工程と、 前記文書書式データを保存する保存工程と、 文書書式を識別したい文書の画像について前記作成工程
を用いて文書書式データを得て、これを前記保存工程で
保存した文書書式データと比較し、相似関係があるか否
かを判断する判断工程と、 前記判断工程にて相似と判断された場合に、前記識別し
たい文書と、前記保存工程で保存した文書との相似状態
を表す相似情報を抽出する相似情報抽出工程と、 前記相似情報抽出工程にて抽出した相似情報及び文書書
式データに基づいて文書書式の類似度を計算し、前記識
別したい文書の文書書式を識別する識別工程とを備える
ことを特徴とする文書書式識別方法。 - 【請求項10】 前記識別工程は、前記相似情報に基づ
いて、前記類似度の計算に用いる文書書式データを補正
し、類似度の計算を行うことを特徴とする請求項9記載
の文書書式識別方法。 - 【請求項11】 前記識別工程において、前記相似情報
は、前記識別したい文書と前記保存工程で保存した文書
との変倍率を含み、該変倍率を類似度の計算に用いる文
書書式データに乗算することを特徴とする請求項10記
載の文書書式識別方法。 - 【請求項12】 前記識別工程において、前記相似情報
は、前記識別したい文書と前記保存工程で保存した文書
との原点ずれ量を含み、該原点ずれ量を類似度の計算に
用いる文書書式データに加算することを特徴とする請求
項11記載の文書書式識別方法。 - 【請求項13】 前記識別工程において、前記相似情報
は、前記変倍率に基づいて算出したペナルティを含み、
該ペナルティを類似度の計算に課すことを特徴とする請
求項10記載の文書書式識別方法。 - 【請求項14】 前記相似情報抽出工程は、 前記識別したい文書を構成する構成要素と前記保存工程
で保存した文書を構成する構成要素とが互いに対応する
ように配列する配列工程と、 前記配列工程によって配列した前記構成要素の個数が互
いに等しく、かつ所定数以上の場合に、前記各構成要素
の各文書上の特定位置座標に基づいて相関係数を算出
し、該相関係数によって得られる回帰直線に基づいて文
書画像の変倍率をもとめる変倍率算出工程と、 前記変倍率算出工程によりもとめた変倍率から類似度の
計算に加算するペナルティを算出するペナルティ算出工
程とを備えることを特徴とする請求項10記載の文書書
式識別方法。 - 【請求項15】 前記相似情報抽出工程は、前記変倍率
算出工程によりもとめた変倍率の適正を判定する判定工
程を更に備え、 前記判別工程は、前記判定工程にて変倍率が不適正であ
ると判定した場合、前記相似情報を用いずに前記類似度
計算を行うことを特徴とする請求項14記載の文書書式
識別方法。 - 【請求項16】 前記相似情報抽出工程は、 前記変倍率算出工程によって算出された前記相関係数に
基づく前記回帰直線のY軸切片を前記各文書上の原点位
置のずれ量とするずれ量算出工程を更に備えることを特
徴とする請求項14記載の文書書式識別方法。 - 【請求項17】 請求項9乃至16のいずれか1つに記
載の文書書式識別方法をコンピュータによって実現させ
るための制御プログラムを格納する記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000367675A JP4046941B2 (ja) | 2000-12-01 | 2000-12-01 | 文書書式識別装置および識別方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000367675A JP4046941B2 (ja) | 2000-12-01 | 2000-12-01 | 文書書式識別装置および識別方法 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2002170079A true JP2002170079A (ja) | 2002-06-14 |
JP2002170079A5 JP2002170079A5 (ja) | 2007-01-18 |
JP4046941B2 JP4046941B2 (ja) | 2008-02-13 |
Family
ID=18838061
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000367675A Expired - Fee Related JP4046941B2 (ja) | 2000-12-01 | 2000-12-01 | 文書書式識別装置および識別方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4046941B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005157520A (ja) * | 2003-11-21 | 2005-06-16 | Nippon Yunishisu Kk | 書式認識システムおよびプログラム |
JP2012074078A (ja) * | 2007-06-01 | 2012-04-12 | Primax Electronics Ltd | イメージ分析プログラムを用いて同じイメージブロックを有する複数のイメージを分析する方法 |
JP2018036835A (ja) * | 2016-08-31 | 2018-03-08 | 富士ゼロックス株式会社 | フォーム管理装置及びプログラム |
EP4064227A1 (en) | 2021-03-24 | 2022-09-28 | Fujifilm Business Innovation Corp. | Information processing apparatus, information processing program, and information processing method |
JP7435118B2 (ja) | 2020-03-24 | 2024-02-21 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
JP7437837B2 (ja) | 2020-08-21 | 2024-02-26 | アジャイルソーダ インコーポレイテッド | 仮想セルを用いたocrベースの文書分析システム及び方法 |
-
2000
- 2000-12-01 JP JP2000367675A patent/JP4046941B2/ja not_active Expired - Fee Related
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005157520A (ja) * | 2003-11-21 | 2005-06-16 | Nippon Yunishisu Kk | 書式認識システムおよびプログラム |
JP2012074078A (ja) * | 2007-06-01 | 2012-04-12 | Primax Electronics Ltd | イメージ分析プログラムを用いて同じイメージブロックを有する複数のイメージを分析する方法 |
JP2018036835A (ja) * | 2016-08-31 | 2018-03-08 | 富士ゼロックス株式会社 | フォーム管理装置及びプログラム |
JP7435118B2 (ja) | 2020-03-24 | 2024-02-21 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
JP7437837B2 (ja) | 2020-08-21 | 2024-02-26 | アジャイルソーダ インコーポレイテッド | 仮想セルを用いたocrベースの文書分析システム及び方法 |
EP4064227A1 (en) | 2021-03-24 | 2022-09-28 | Fujifilm Business Innovation Corp. | Information processing apparatus, information processing program, and information processing method |
Also Published As
Publication number | Publication date |
---|---|
JP4046941B2 (ja) | 2008-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109543501B (zh) | 图像处理装置、图像处理方法和存储介质 | |
US6970601B1 (en) | Form search apparatus and method | |
KR100390264B1 (ko) | 폼처리중자동페이지등록및자동영역검출을위한시스템및방법 | |
US5907631A (en) | Document image processing method and system having function of determining body text region reading order | |
US7970213B1 (en) | Method and system for improving the recognition of text in an image | |
US20020021840A1 (en) | Apparatus for extracting ruled line from multiple-valued image | |
US8571359B2 (en) | Image processing device, method and storage medium for storing and displaying an electronic document | |
US20210073535A1 (en) | Information processing apparatus and information processing method for extracting information from document image | |
JPH08255236A (ja) | 画像のファイリング装置及びファイリング方法 | |
JPH09179942A (ja) | Ocrを利用しない文書画像中のドロップワードの自動認識方法 | |
US20210286991A1 (en) | Image processing apparatus, image processing method, and storage medium | |
US7146047B2 (en) | Image processing apparatus and method generating binary image from a multilevel image | |
CN112487859A (zh) | 信息处理装置、信息处理方法和计算机可读介质 | |
CN109409180B (zh) | 图像分析装置和图像分析方法 | |
EP1202213B1 (en) | Document format identification apparatus and method | |
JP4046941B2 (ja) | 文書書式識別装置および識別方法 | |
JP4810853B2 (ja) | 文字画像切出装置、文字画像切出方法およびプログラム | |
JPH11328306A (ja) | 文書画像の論理要素抽出方法、装置および記録媒体 | |
JP2020119206A (ja) | 情報処理装置、及びプログラム | |
CN115131806B (zh) | 一种基于深度学习的各类证件ocr图像信息识别方法、系统 | |
JP7417116B2 (ja) | 情報処理システム、情報処理方法、プログラム | |
JP4697387B2 (ja) | 原稿画像判定装置、原稿画像判定方法及びそのプログラム | |
JP4974794B2 (ja) | 文書認識装置、文書認識方法、コンピュータプログラム | |
JPH0689330A (ja) | 画像ファイリングシステム | |
JP3412998B2 (ja) | 画像処理装置及びその方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040611 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7426 Effective date: 20040611 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20040611 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061127 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070308 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070316 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070515 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070810 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071010 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20071022 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20071109 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071121 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101130 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4046941 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101130 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111130 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121130 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131130 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |