JPH10302023A - 表画像のフォーマットを識別するフォーマット識別装置および方法 - Google Patents
表画像のフォーマットを識別するフォーマット識別装置および方法Info
- Publication number
- JPH10302023A JPH10302023A JP9104505A JP10450597A JPH10302023A JP H10302023 A JPH10302023 A JP H10302023A JP 9104505 A JP9104505 A JP 9104505A JP 10450597 A JP10450597 A JP 10450597A JP H10302023 A JPH10302023 A JP H10302023A
- Authority
- JP
- Japan
- Prior art keywords
- features
- format
- combination
- input image
- formats
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
- Character Input (AREA)
- Processing Or Creating Images (AREA)
- Character Discrimination (AREA)
Abstract
細なモデルマッチングの適用対象となるモデルを削減
し、処理を高速化することが課題である。 【解決手段】 フォーマット識別装置は、入力された未
知文書と辞書に登録されたモデルの罫線の対応関係を表
すマッチングテーブルを作成し、対応可能な罫線同士の
組み合わせをノードで表現する。そして、未知文書とモ
デルの双方において、1つ以上のノードに対応する罫線
(★印の罫線)の数を数え、その数をもとに大分類を行
って、処理対象のモデルの数を削減する。
Description
ャナ等の入力装置で画像データに変換し、その画像デー
タを認識する画像認識装置に係り、画像中の罫線構造を
識別するフォーマット識別装置およびその方法に関す
る。
造化された表形式文書は、現在大量に流通しており、表
形式文書のフォーマットを自動的に識別することへの要
求は非常に大きい。フォーマットの自動識別処理におい
ては、あらかじめ、表形式文書のフォーマットの特徴量
を、モデルとして辞書に登録しておく。そして、未知の
表形式文書が入力されたときに、その画像から特徴量を
算出し、辞書のモデルの特徴量とマッチングして、最も
類似するモデルを特定する。
を正規化した後、各罫線の位置および長さ、または罫線
により四方を囲まれた各矩形セルの中心点の位置を、入
力文書とモデルの間で照らし合わせて、それらが重なり
合うかどうかを判断し、その結果をもとに類似度を算出
していた。ここで、表の正規化とは、表の縦横比が1対
1になるように画像全体を変換する等の調整処理を意味
している。
規化処理の成否に大きく依存するため、この手法は、入
力文書の画像のかすれやノイズなどに対してロバストで
あるとは言えなかった。
置および長さを比較する際に、基準となる位置および長
さを適応的に変化させる手法が、本出願人により開発さ
れた。この手法は、先願の「画像から管理情報を抽出す
る管理情報抽出装置および方法」(特願平08−351
346)において、マッチングテーブルを用いたフォー
ム識別処理として記述されている。
れたモデルマッチング手法では、入力文書における罫線
間の相対的な関係を、モデルにおける罫線間の相対的な
関係と比較するために、ある程度の処理時間を要する。
この処理時間は、比較対象のモデルの個数に一次的に比
例するため、モデルの数が増大するにつれて処理時間も
増大するという問題が発生する。そこで、この手法を与
えられたすべてのモデルに適用せずに、適用対象のモデ
ル数を削減することが望まれる。
ト識別において、詳細なモデルマッチングの適用対象と
なるモデルを削減し、処理を高速化するフォーマット識
別装置およびその方法を提供することである。
よび第2の原理によるフォーマット識別装置の構成図で
ある。
置は、格納手段1、比較手段2、および分類手段3を備
え、複数の表のフォーマットを探索して、与えられた表
画像に対応するフォーマットを求める。
トの特徴に関する情報を格納する。比較手段2は、入力
画像から抽出された1つ以上の特徴と上記複数のフォー
マットの1つに含まれる1つ以上の特徴とを比較して、
対応の可能性のある特徴同士の組み合わせを求める。分
類手段3は、上記複数のフォーマットの1つと入力画像
の少なくとも一方の特徴のうち、上記組み合わせに対応
する特徴の個数を求め、その個数に基づいて上記複数の
フォーマットから探索対象を絞り込む。
入力画像およびフォーマットの表構造を記述する任意の
情報を表し、例えば、罫線、罫線同士の交点、または罫
線で囲まれた矩形セルを指す。
きさや位置等の特徴量を、入力画像とフォーマットとの
間で比較し、特徴量が類似している特徴同士を対応可能
と判断する。特徴として罫線を用いた場合、例えば、大
きさや位置が類似している罫線同士の組み合わせが、対
応可能な組み合わせとして求められる。
1内のフォーマットの特徴の少なくとも一方において、
比較相手のいずれかの特徴と対応可能であると判断され
たものの個数を数える。そして、例えば、その個数が特
徴の総数に対して一定以上の割合になるようなフォーマ
ットを、探索対象として抽出する。
れたフォーマット群のみを対象として、さらに詳細なモ
デルマッチングを行い、入力画像に対応するフォーマッ
トを特定する。対応可能と判断された特徴の数を数える
処理にはあまり時間がかからないので、詳細なモデルマ
ッチングの対象となるモデルの数が効率よく削減され、
処理が高速化される。
識別装置は、比較手段2と計算手段4を備え、2つの表
画像をマッチングするために、それらの2つの表画像か
ら抽出されたフォーマットの特徴を比較する。
含まれる1つ以上の特徴ともう一方に含まれる1つ以上
の特徴とを比較して、対応の可能性のある特徴同士の組
み合わせを求める。計算手段4は、上記2つの表画像の
少なくとも一方の特徴のうち、上記組み合わせに対応す
る特徴の個数を求め、その個数に基づいて上記2つの表
画像の類似度を算出する。
ら抽出された罫線等の特徴を比較して、対応の可能性を
判断し、対応可能な特徴同士の組み合わせを求める。計
算手段4は、それらの表画像の少なくとも一方におい
て、比較相手のいずれかの特徴と対応可能であると判断
されたものの個数を数える。そして、例えば、その個数
が特徴の総数に対して占める割合を計算し、その結果を
2つの表画像の類似度とする。
た類似度が一定値以上のとき、それらの表画像のフォー
マットが一致するものとみなす。対応可能と判断された
特徴の数を数える処理にはあまり時間がかからないの
で、比較的簡単に類似度を求めることができ、マッチン
グ処理が効率よく行われる。
2のメモリ12または外部記憶装置15に対応し、比較
手段2、分類手段3、および計算手段4は、CPU(中
央処理装置)11およびメモリ12に対応する。
明の実施の形態を詳細に説明する。上述した先願のモデ
ルマッチング処理の場合においても、横罫線と縦罫線の
交点の数などに基づいてあらかじめ辞書内のモデルの大
分類を行い、詳細識別処理を適用すべきモデルの候補を
ある程度の割合で限定している。
種として記述されていたモデルマッチングに、新たな大
分類処理を挿入して、モデルの数をさらに削減する。そ
こで、まず先願の詳細識別処理と同様に、表全体に対す
る罫線の相対的な大きさと位置を特徴量として、入力文
書の画像に含まれる罫線とモデルの罫線との対応可能性
を調べ、対応可能な罫線同士の組み合わせを求める。
ことで、一本の罫線に対して複数の罫線が対応可能とな
る。したがって、表全体に関する特徴量の抽出に失敗し
たとしても、その失敗がある範囲内であれば、正しい対
応関係を見落とすことはない。
いて、対応可能な組み合わせが生成されたものの個数を
調べ、罫線の総数に対する得られた個数の割合を算出す
る。そして、あるしきい値以上の割合を持つモデルを大
分類候補として認定する。このしきい値を適当に設定す
ることで、大分類候補を絞り込むことが可能になる。
えば図2に示すような情報処理装置(コンピュータ)に
より実現される。図2の情報処理装置は、CPU11、
メモリ12、入力装置13、出力装置14、外部記憶装
置15、媒体駆動装置16、ネットワーク接続装置1
7、および光電変換装置18を備え、それらの各装置は
バス19により互いに結合されている。
プログラムを実行して、フォーマット識別処理を行う。
メモリ12としては、例えばROM(read only memor
y)、RAM(random access memory)等が用いられ
る。
ンティング・デバイス等に相当し、ユーザからの要求や
指示の入力に用いられる。また、出力装置14は、表示
装置(ディスプレイ)やプリンタ等に相当し、ユーザへ
の問い合せや処理結果等の出力に用いられる。
ク装置、光ディスク装置、光磁気ディスク装置等であ
り、プログラムやデータを保存することができる。ま
た、画像やモデル辞書を保存するデータベースとしても
使用される。
駆動し、その記憶内容にアクセスする。可搬記憶媒体2
0としては、メモリカード、フロッピーディスク、CD
−ROM(compact disk read only memory )、光ディ
スク、光磁気ディスク等、任意の計算機読み出し可能記
憶媒体を使用することができる。この可搬記憶媒体20
には、データのほかに、上述のフォーマット識別処理を
行うプログラムが格納される。
cal area network)等の任意の通信ネットワークに接続
され、通信に伴うデータ変換等を行う。フォーマット識
別装置は、ネットワーク接続装置17を介して、外部の
データベース等から必要なデータやプログラムを受け取
ることができる。また、光電変換装置18は、例えばイ
メージ・スキャナであり、処理対象となる文書や図面等
の画像を入力する。
理のフローチャートである。処理が開始されると、フォ
ーマット識別装置は、まず、画像を入力し(ステップS
1)、入力された画像から罫線を抽出する(ステップS
2)。
の左上頂点の座標に関し、横罫線はy座標の小さい順
に、縦罫線はx座標の小さい順に、各罫線を並べ直す
(ステップS3)。ここでは、座標のx軸を横方向にと
り、y軸を縦方向にとっている。横罫線のy座標が同じ
場合は、そのx座標の小さい順にソートし、縦罫線のx
座標が同じ場合は、そのy座標の小さい順にソートす
る。
する(ステップS4)。概略情報とは、表全体に対する
罫線の長さおよび位置の相対的な値であり、3つの整数
の組で表される。また、縦横各方向における2本の罫線
のすべての組み合わせを考え、各組み合わせに関する詳
細情報を抽出する(ステップS5)。詳細情報は、2本
の罫線間の長さおよび位置の相対的な関係を表す。
略情報および詳細情報は、あらかじめ抽出されて辞書2
1に格納されている。そこで、次に、入力画像の概略情
報および詳細情報と、モデルの概略情報および詳細情報
とを照合し、モデルマッチングを行う(ステップS
6)。ここで、概略情報は大分類モデルマッチングに用
いられ、詳細情報は詳細分類モデルマッチングに用いら
れる。そして、最適なモデルを識別結果として出力し
(ステップS7)、処理を終了する。
ら、ステップS4、S5、およびS6の処理について詳
細に説明する。以下では、概略情報のことを大域情報と
呼ぶことにする。
るための前処理として、表の基準幅W、基準高H、基準
x座標x0、および基準y座標y0を求める。まず、横
罫線に関してそれらの最大長を求め、その長さに比べて
あるしきい値以上の割合(例えば0.8)の長さを持つ
横罫線のうち、順位が最初のものと最後のものとを求
め、それらを外郭基準横罫線とする。
場合と同様にして、2本の外郭基準縦罫線を得る。そこ
で、得られた4本の外郭基準罫線の外接矩形を考え、そ
の幅を基準幅W、その高さを基準高H、その左上頂点を
基準点とし、その座標を基準座標(x0,y0)とす
る。
は、横罫線31、32が外郭基準横罫線として抽出さ
れ、縦罫線33、34が外郭基準縦罫線として抽出さ
れ、これらの外郭基準罫線の外接矩形の幅が基準幅Wと
なり、その高さが基準高Hとなる。また、その外接矩形
の左上頂点35の座標が基準座標(x0,y0)とな
る。
上の罫線の中から外郭基準罫線を選ぶことで、例えば、
横罫線36、37のような短い罫線が外郭基準罫線の候
補から除外される。4本の外郭基準罫線の外接矩形の左
上頂点を基準点とする代わりに、左下頂点、右上頂点、
右下頂点等、外接矩形の周辺上の任意の点を基準点とす
ることもできる。その場合でも、以下の処理は基本的に
同様である。
とにして、各罫線矩形の長さと中心位置の情報から、3
つの特徴量(大域情報)length1、twist、
positionを求める。横罫線の場合、図5に示す
ように、罫線矩形41の長さl1と中心座標(x1,y
1)から、次式によりこれらの特徴量を算出する。 length1=[(l1/W)×100]の整数部分 twist=[((x1−x0)/W)×100]の整数部分 (1) position=[((y1−y0)/H)×100]の整数部分 また、縦罫線の場合、図6に示すように、罫線矩形42
の長さl1と中心座標(x1,y1)から、次式により
これらの特徴量を算出する。 length1=[(l1/H)×100]の整数部分 twist=[((y1−y0)/H)×100]の整数部分 (2) position=[((x1−x0)/W)×100]の整数部分 得られた特徴量のうち、length1は表のサイズに
対する罫線の長さの相対的な割合を表し、twistと
positionは、表の基準点に対する罫線の相対的
な位置を表している。
線の相対的な関係を表す詳細情報を求める。ここでは、
一方の罫線矩形の長さを1としたときの、もう一方の罫
線矩形の長さlength2、それぞれの罫線矩形の中
心間のx方向のずれの長さdiffer、および中心間
のy方向のずれの長さheightの3つの値を、詳細
情報として求めることにする。
を抽出する。そして、各組み合わせにおいて、図7に示
すように、一方の罫線矩形(ソート順位の早い方)43
の長さをl1、その中心座標を(x1,y1)、もう一
方の罫線矩形(ソート順位の遅い方)44の長さをl
2、その中心座標を(x2,y2)とする。このとき、
罫線矩形43の中心を基準として、これらの罫線矩形の
中心間のx方向のずれdwとy方向のずれをdhを次式
により定義する。 dw=x2−x1 dh=y2−y1 (3) この定義によれば、罫線矩形44の中心が罫線矩形43
の中心より右にあれば、dwは正となり、罫線矩形44
の中心が罫線矩形43の中心より左にあれば、dwは負
となる。同様に、罫線矩形44の中心が罫線矩形43の
中心より下にあれば、dhは正となり、罫線矩形44の
中心が罫線矩形43の中心より上にあれば、dhは負と
なる。
2、differ、heightを、次式により算出す
る。 length2=12/l1 differ=dw/l1 (4) height=dh/l1 また、縦罫線についても同様に、2本の罫線のすべての
組み合わせを抽出する。そして、各組み合わせにおい
て、図8に示すように、ソート順位の早い方の罫線矩形
45の長さをl1、その中心座標を(x1,y1)、ソ
ート順位の遅い方の罫線矩形46の長さをl2、その中
心座標を(x2,y2)とする。そして、(3)式によ
りdwとdhを求め、次式により、詳細情報lengt
h2、differ、heightを算出する。 length2=12/l1 differ=dh/l1 (5) height=dw/l1 (5)式においては、differとheightの定
義が、(4)式と逆になっている。
と縦罫線同士の2回に分けて、入力画像の大域情報およ
び詳細情報を、各モデルの大域情報および詳細情報と照
合し、フォーマットの類似度を計算する。本発明の大分
類処理は、このステップS6のモデルマッチングに含ま
れており、これをより詳細に示したフローチャートが図
9である。以下、モデルマッチングを図9のフローチャ
ートに従って説明する。
補の数を決定する(ステップS11)。辞書21内のモ
デルの数をnとするとき、大分類候補の数candは、
次式により決められる。 cand=max{n/10,inf} (6) ここで、infは、あらかじめユーザから与えられた候
補数の最低限度を表し、例えばinf=50とする。
(6)式の右辺は、n/10とinfの最大値を表す。
力画像の大域情報を各モデルの大域情報と照合する(ス
テップS12)。この大分類モデルマッチングは、各モ
デルについて、横罫線および縦罫線の2回に分けて行わ
れる。大分類モデルマッチングにおいては、まず、未知
文書の入力画像の横罫線の数をp本、モデルの横罫線の
数をm本として、図10に示すようなp×mの表が作成
される。
の行番号および列番号は、ともに0から始まっている。
この表のi行j列の要素(項目)は、入力画像のi番目
の罫線とモデルのj番目の罫線の対応関係を表すデータ
である。以下では、このような表をマッチングテーブル
と呼ぶことにする。
番目の横罫線IP(i)が、モデルのj番目の横罫線M
O(j)に対応するかどうかの可能性を判断し、対応す
る可能性があれば、マッチングテーブルのi行j列の要
素にノードを配置する。これにより、横罫線IP(i)
と横罫線MO(j)の組み合わせが、罫線対応候補とし
てマッチングテーブル上に記述される。このときの対応
可能性の条件は十分緩くとっておき、一つの罫線に対し
て、複数の罫線が重複して対応することを許すものとす
る。
ength1,twist,position)をそれ
ぞれ(ipl,ipt,ipp)とおき、罫線MO
(j)の大域情報をそれぞれ(mol,mot,mo
p)とおいて、各値の差が一定値より小さいとき、罫線
IP(i)と罫線MO(j)が対応する可能性があると
みなす。
線および縦罫線の数に依存したパラメータα、β、γを
しきい値として、次式により与えられる。 |ipl−mol|<α |ipt−mot|<β (7) |ipp−mop|<γ これらの罫線の数に依存したパラメータα、β、γは正
の整数で、罫線数が少ないほど大きな値をとり、逆に罫
線数が多いほど小さな値をとるように定められる。この
とき、(7)式の条件は、表内の罫線の密度が疎であれ
ばマッチングの探索範囲を広げ、密度が密であれば探索
範囲を狭めるという効果を持つ。縦罫線のマッチングテ
ーブルも同様にして作成される。
ブルにおいて、横方向および縦方向に関してノードの射
影をとり、大域類似度を算出する。ここでは、入力画像
およびモデルの横罫線について、ノードが存在する行お
よび列に対応する罫線の個数を調べ、それらの個数をそ
れぞれiphit、mohitとする。そして、横罫線
の総数に対する各個数の割合を算出し、次式に示すよう
に、それらの和を横罫線の大域類似度とする。 横罫線の大域類似度=iphit/p+mohit/m (8) 例えば、図10のマッチングテーブルにおいては、記号
●で表された1つ以上のノードが存在する行および列
が、記号★により示されている。これらの記号★の数を
数えてみると、iphit=8、mohit=10であ
ることが分かる。そこで、(8)式の大域類似度は、8
/12+10/15=1.33となる。縦罫線の大域類
似度も同様にして算出され、1つのモデルの大域類似度
は、横罫線の大域類似度と縦罫線の大域類似度の和で与
えられる。
デル、あるいは大域類似度が上位cand位までのモデ
ルを、大分類候補とする(ステップS13)。あるいは
また、大域類似度がしきい値以上のモデルのうち上位c
and位までのものを大分類候補としてもよい。
記述された処理を適用して、詳細分類モデルマッチング
を行い、詳細類似度を算出する(ステップS14)。そ
して、得られた詳細類似度に基づいて入力画像に対応す
る表のフォーマットを決定し(ステップS15)、処理
を終了する。
用いられるしきい値およびcandの値を適当に調整す
ることで、大分類候補の数を効果的に削減することがで
き、詳細分類モデルマッチングを高速化することができ
る。
各しきい値を大きめに設定すれば、罫線同士の対応可能
性の条件が緩くなる。したがって、かすれやノイズなど
の影響で罫線抽出がうまくいかない部分があっても、入
力文書に類似したモデルをもれなく大分類候補に含める
ことができる。このため、詳細分類モデルマッチングの
対象を、辞書21内のすべてのモデルのうち、入力文書
と同じ罫線構造のモデルを含んだ大分類候補群に限定す
ることができる。
ら、図9のステップS12における大分類モデルマッチ
ングの処理を詳細に説明する。図11、12、13、1
4は、1つのマッチングテーブルに対して行われる大分
類モデルマッチングの一例を示すフローチャートであ
る。
ーブルに図15に示すようなウィンドウ51を設定する
処理を表す。このウィンドウ51は、マッチングテーブ
ルのj番目の列内で、ノードが配置される可能性のある
領域を表し、その最上端の行番号はst[j]と記述さ
れ、その最下端の行番号はed[j]と記述される。ま
た、図13、14は、配置されるノードの数を数える処
理を表す。
置は、まず、マッチングテーブルの列を表す制御変数j
を0とおき(ステップS21)、モデルのj番目の罫線
をmoとする(ステップS22)。次に、大域情報po
sitionがモデルのj番目の罫線と類似しているよ
うな未知文書の罫線の数を表す変数kを0とおく(ステ
ップS23)。
変数iを0とおいて(ステップS24)、入力文書のi
番目の罫線をipとする(ステップS25)。そして、
大域情報ippとmopの差の絶対値|ipp−mop
|を、しきい値γと比較する(ステップS26)。
次に、図12の処理を行ってウィンドウ51を設定す
る。ここでは、まず、kを0と比較し(ステップS3
5)、kが0であれば、st[j]=iとおいて、kに
1を加算する(ステップS37)。kが0でなければ、
st[j]はすでに設定されているので、そのままステ
ップS37の処理を行う。
て、iをipsuu−1と比較する(ステップS3
8)。このipsuuは、マッチングテーブルの行数に
対応しており、ipsuu−1は、マッチングテーブル
の最終行の番号を表す。
[j]=iとおいて(ステップS39)、jに1を加算
し(図11、ステップS33)、jをモデルの罫線数m
osuuと比較する(ステップS34)。そして、jが
mosuuより小さければ、ステップS22以降の処理
を繰り返す。
psuu−1より小さければ、iに1を加算して(図1
1、ステップS28)、iをipsuuと比較する(ス
テップS29)。そして、iがipsuuより小さけれ
ば、ステップS25以降の処理を繰り返し、iがips
uuに達すると、再びkを0と比較する(ステップS3
0)。
tionがモデルのj番目の罫線と類似している未知文
書の罫線が存在しなかったことになる。そこで、st
[j]=ed[j]=−1とおき(ステップS31)、
ステップS33以降の処理を行う。st[j]、ed
[j]が−1のとき、ウィンドウ51は設定されない。
−mop|がγ以上であれば、次に、kを0と比較する
(ステップS27)。そして、kが0であれば、まだs
t[j]が設定されていないので、ステップS28以降
の処理を行う。kが0より大きければ、すでにst
[j]はいずれかの行に設定されているので、次に、e
d[j]=i−1とおいて、ステップS33以降の処理
を行う。
より大きければ、すでにst[j]、ed[j]は設定
されているので、ステップS33以降の処理を行う。ス
テップS34において、jがmosuuに達すれば、マ
ッチングテーブルのすべての列について可能なウィンド
ウ51が設定されたことになるので、次に、ノードの配
置処理を行う。
数を表す変数iphitとノードが配置される列の数を
表す変数mohitを0とおき(図13、ステップS4
0)、i番目の行のノード数を表すipline[i]
とj番目の列のノード数を表すmoline[j]を0
とおく(ステップS41)。ただし、i=0,
1,...,ipsuu−1、j=0,1,...,m
osuu−1とする。
変数jを0とおき(ステップS42)、モデルのj番目
の罫線をmoとする(ステップS43)。また、マッチ
ングテーブルの行を表す制御変数kをst[j]とおき
(ステップS44)、その値を調べる(ステップS4
5)。
ンドウ51が設定されているので、入力文書のk番目の
罫線をipとして(ステップS46)、大域情報ipl
とmolの差の絶対値|ipl−mol|をしきい値α
と比較し、大域情報iptとmotの差の絶対値|ip
t−mot|をしきい値βと比較する(ステップS4
7)。
つ、|ipt−mot|がβより小さければ、設定され
たウィンドウ51内の第k行の位置がノード配置の条件
を満たすことになる。そこで、次に、ipline
[k]と0を比較し(図14、ステップS53)、ip
line[k]=0であれば、第k行にノードが存在す
ることを示すために、iphitに1を加算する(ステ
ップS54)。
(ステップS55)、moline[j]=0であれ
ば、第j列にノードが存在することを示すために、mo
hitに1を加算する(ステップS56)。そして、i
pline[k]およびmoline[j]にそれぞれ
1を加算し(ステップS57、S58)、次の行を調べ
るためにkに1を加算して(図13、ステップS4
8)、kをed[j]と比較する(ステップS49)。
[k]>0であれば、第k行をすでにカウントしている
ので、ノードステップS55以降の処理を行う。同様
に、ステップS55において、moline[j]>0
であれば、第j列をすでにカウントしているので、ステ
ップS57以降の処理を行う。
以下であれば、ステップS46以降の処理を繰り返す。
そして、kがed[j]を越えると、次の列を調べるた
めに、jに1を加算して(ステップS50)、jをmo
suuと比較する(ステップS51)。
S43以降の処理を繰り返し、jがmosuuに達する
と、iphit、mohit、ipline[k]、お
よびmoline[j]のインクリメントを終了する。
この時点で、iphitには、(7)式の条件を満たす
要素が1つ以上存在する行の総数が記録され、mohi
tには、その条件を満たす要素が1つ以上存在する列の
総数が記録されている。
力文書とモデルの大域類似度を算出して(ステップS5
2)、処理を終了する。 大域類似度=iphit/ipsuu+mohit/mosuu (9) (9)式の大域類似度を横罫線と縦罫線のそれぞれのマ
ッチングテーブルについて求め、それらの和をとること
で、最終的な大域類似度が得られる。
おける大分類候補決定処理の一例を示すフローチャート
である。この処理は、上述の大域類似度を用いて行われ
る。処理が開始されると、フォーマット識別装置は、ま
ず、すべてのモデルの集合をSmoとおき(ステップS6
1)、Smoの要素を指す制御変数iを1とおいて(ステ
ップS62)、i番目のモデルの大域類似度をしきい値
THと比較する(ステップS63)。
のモデルをSmoから除き(ステップS64)、iに1を
加算して(ステップS65)、iをモデルの総数nと比
較する(ステップS66)。そして、iがn以下であれ
ば、ステップS63以降の処理を繰り返す。また、ステ
ップS63において、大域類似度がTH以上であれば、
そのままステップS65以降の処理を行う。
と、次に、Smoの要素数を、図9のステップS11で決
められた大分類候補の数candと比較する(ステップ
S67)。
Smoの要素を大域類似度の順に整列し直し(ステップS
68)、上位cand個の要素のみをSmoとして(ステ
ップS69)、処理を終了する。また、Smoの要素数が
cand以下であれば、そのまま処理を終了する。
ると、Smoに含まれる各モデルに対して、図9のステッ
プS14における詳細分類モデルマッチングが行われ
る。図17は、この詳細分類モデルマッチングのフロー
チャートである。処理が開始されると、フォーマット識
別装置は、まず、大分類モデルマッチングの場合と同様
にして、図10に示したようなマッチングテーブルを作
成する(ステップS71)。
番目の罫線IP(i)が、モデルのj番目の罫線MO
(j)に対応するかどうかの可能性を判断し、対応する
可能性があれば、マッチングテーブルのi行j列の要素
にノードを配置する(ステップS72)。
ードの中で、互いに特定の関係を満たすもの同士、すな
わち両立するもの同士の組み合わせを探索する(ステッ
プS73)。そして、それらのノードを同じグループに
属するノードとみなして、パスで結ぶ。図10のマッチ
ングテーブルの場合は、例えば、図18に示すようなパ
スが生成される。
k行l列のノードn(k,l)が特定の関係を満たすと
は、入力画像のi番目の罫線とk番目の罫線の相対的関
係が、モデルのj番目の罫線とl番目の罫線の相対的関
係に比例していることを指す。言い換えれば、入力画像
のi番目の罫線とモデルのj番目の罫線をぴったり重ね
合わせたとき、入力画像のk番目の罫線とモデルのl番
目の罫線がぴったり重なり合う状況を指す。
ことで、ノードがいくつかのグループに分類される。ノ
ードの数が多いグループほど、入力文書とモデルが類似
していることを強く表していると考えられるので、この
ようなグループを対象とすることで、モデルマッチング
における詳細類似度の計算を効率よく行うことができ
る。
する際、処理の効率を高めるため、常に前者のノードの
右下の領域に位置するノードを探索対象とする。これに
より、ノード数の多いパスを高速に求めることが可能に
なる。
矛盾しないパスの組み合わせを求め、いくつかの組み合
わせのうち、含まれるノード数が最大のものを探索する
(ステップS74)。そして、そのパスの組み合わせを
最適パス集合とする。2つのパスが互いに矛盾しないと
は、それぞれのパスの中のノードに対応する罫線の集合
の範囲が、互いに重なり合わないということである。
罫線数をmh、最適パス集合に含まれるノード数をma
xhとして、入力画像とモデルの罫線の詳細類似度SH
を次式により求め(ステップS75)、処理を終了す
る。 SH=maxh/ph+maxh/mh (10) この類似度SHは、入力画像の罫線のうち、最適パス集
合に対応するものの割合と、モデルの罫線のうち、最適
パス集合に対応するものの割合の和を表し、一般に、入
力画像とモデルの罫線の特徴が類似しているほど大きな
値をとる。(10)式の詳細類似度を横罫線と縦罫線の
それぞれのマッチングテーブルについて求め、それらの
和をとることで、最終的な詳細類似度が得られる。
S15において、各モデルの詳細類似度を比較し、詳細
類似度が最も大きいモデルを、入力画像に対応する表の
フォーマットとする。
よび長さを特徴量として用いて、入力画像とモデルのマ
ッチングテーブルを作成しているが、モデルマッチング
においては、表の構造を表す他の任意の特徴量を用いる
ことができる。
(x,y)としたとき、交点の位置を表す特徴量(d
x,dy)は、次式により定義される。 dx=(x−x0)×100/W dy=(y−y0)×100/H (11) そして、入力文書側の交点とモデル側の交点とのマッチ
ングテーブルが作成され、対応可能な交点同士の組み合
わせがノードで表現される。この場合、入力文書側の交
点をIpとし、モデル側の交点をMpとしたとき、Ip
とMpのユークリッド距離があらかじめ決められたしき
い値th以下のとき、これらの交点は対応可能と判断さ
れる。
領域(矩形セル)の大きさと位置を特徴量として用い
て、入力文書側の矩形セルとモデル側の矩形セルとのマ
ッチングテーブルを作成してもよい。この場合は、大き
さと位置が類似している矩形セル同士が対応可能と判断
され、それらの組み合わせがノードで表現される。
ングテーブル上に配置される1つ以上のノードを含む行
の数と、1つ以上のノードを含む列の数を数えれば、そ
れらの数に基づいて、(9)式のような大域類似度を算
出することができる。したがって、その大域類似度を用
いて、大分類候補を絞り込むことができる。
罫線構造を抽出し、あらかじめ辞書に登録されたモデル
のフォーマットとマッチングを行う際に、詳細なマッチ
ングを適用すべきモデル群を効果的に絞り込むことが可
能になる。その結果、辞書のモデル数が増大した場合で
も、安定した処理速度が実現される。
る。
る。
(その1)である。
(その2)である。
(その3)である。
(その4)である。
ある。
る。
である。
る。
Claims (11)
- 【請求項1】 複数の表のフォーマットを探索して、与
えられた表画像に対応するフォーマットを求めるフォー
マット識別装置であって、 前記複数の表のフォーマットの特徴に関する情報を格納
する格納手段と、 入力画像から抽出された1つ以上の特徴と前記複数のフ
ォーマットの1つに含まれる1つ以上の特徴とを比較し
て、対応の可能性のある特徴同士の組み合わせを求める
比較手段と、 前記複数のフォーマットの1つと入力画像の少なくとも
一方の特徴のうち、前記組み合わせに対応する特徴の個
数を求め、該個数に基づいて前記複数のフォーマットか
ら探索対象を絞り込む分類手段とを備えることを特徴と
するフォーマット識別装置。 - 【請求項2】 前記分類手段は、前記個数に基づいて、
前記複数のフォーマットの1つと入力画像の類似度を算
出し、該類似度に基づいて前記探索対象を絞り込むこと
を特徴とする請求項1記載のフォーマット識別装置。 - 【請求項3】 前記分類手段は、前記類似度として、前
記入力画像の特徴のうち前記組み合わせに対応する特徴
の割合と、前記複数のフォーマットの1つの特徴のうち
該組み合わせに対応する特徴の割合との和を求めること
を特徴とする請求項2記載のフォーマット識別装置。 - 【請求項4】 前記分類手段により絞り込まれたフォー
マット群に含まれる1つのフォーマットを対象にして、
前記組み合わせの情報に基づき、前記入力画像の特徴と
該1つのフォーマットの特徴との詳細なマッチングを行
う詳細マッチング手段をさらに備えることを特徴とする
請求項1記載のフォーマット識別装置。 - 【請求項5】 前記入力画像およびフォーマットの特徴
は、該入力画像およびフォーマットに含まれる罫線、罫
線同士の交点、および罫線で囲まれた矩形セルのうちの
いずれかを表すことを特徴とする請求項1記載のフォー
マット識別装置。 - 【請求項6】 前記比較手段は、前記入力画像およびフ
ォーマットに含まれる罫線を前記特徴として用い、各罫
線の長さおよび位置の情報に基づいて、罫線同士の対応
の可能性を判断することを特徴とする請求項1記載のフ
ォーマット識別装置。 - 【請求項7】 2つの表画像をマッチングするために、
該2つの表画像から抽出されたフォーマットの特徴を比
較するフォーマット識別装置であって、 前記2つの表画像の一方に含まれる1つ以上の特徴とも
う一方に含まれる1つ以上の特徴とを比較して、対応の
可能性のある特徴同士の組み合わせを求める比較手段
と、 前記2つの表画像の少なくとも一方の特徴のうち、前記
組み合わせに対応する特徴の個数を求め、該個数に基づ
いて前記2つの表画像の類似度を算出する計算手段とを
備えることを特徴とするフォーマット識別装置。 - 【請求項8】 複数の表のフォーマットを探索して、与
えられた表画像に対応するフォーマットを求める計算機
により使用されたとき、 入力画像から抽出された1つ以上の特徴と前記複数のフ
ォーマットの1つに含まれる1つ以上の特徴とを比較し
て、対応の可能性のある特徴同士の組み合わせを求める
機能と、 前記複数のフォーマットの1つと入力画像の少なくとも
一方の特徴のうち、前記組み合わせに対応する特徴の個
数を求める機能と、 前記個数に基づいて前記複数のフォーマットから探索対
象を絞り込む機能とを前記計算機に行わせるための計算
機読み出し可能記憶媒体。 - 【請求項9】 2つの表画像をマッチングするために、
該2つの表画像から抽出された表構造の特徴を比較する
計算機により使用されたとき、 前記2つの表画像の一方に含まれる1つ以上の特徴とも
う一方に含まれる1つ以上の特徴とを比較して、対応の
可能性のある特徴同士の組み合わせを求める機能と、 前記2つの表画像の少なくとも一方の特徴のうち、前記
組み合わせに対応する特徴の個数を求める機能と、 前記個数に基づいて前記2つの表画像の類似度を算出す
る機能とを前記計算機に行わせるための計算機読み出し
可能記憶媒体。 - 【請求項10】 複数の表のフォーマットを探索して、
与えられた表画像に対応するフォーマットを求めるフォ
ーマット識別方法であって、 入力画像から抽出された1つ以上の特徴と前記複数のフ
ォーマットの1つに含まれる1つ以上の特徴とを比較し
て、対応の可能性のある特徴同士の組み合わせを求め、 前記複数のフォーマットの1つと入力画像の少なくとも
一方の特徴のうち、前記組み合わせに対応する特徴の個
数を求め、 前記個数に基づいて前記複数のフォーマットから探索対
象を絞り込むことを特徴とするフォーマット識別方法。 - 【請求項11】 2つの表画像をマッチングするため
に、該2つの表画像から抽出された表構造の特徴を比較
するフォーマット識別方法であって、 前記2つの表画像の一方に含まれる1つ以上の特徴とも
う一方に含まれる1つ以上の特徴とを比較して、対応の
可能性のある特徴同士の組み合わせを求め、 前記2つの表画像の少なくとも一方の特徴のうち、前記
組み合わせに対応する特徴の個数を求め、 前記個数に基づいて前記2つの表画像の類似度を算出す
ることを特徴とするフォーマット識別方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10450597A JP3380136B2 (ja) | 1997-04-22 | 1997-04-22 | 表画像のフォーマットを識別するフォーマット識別装置および方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10450597A JP3380136B2 (ja) | 1997-04-22 | 1997-04-22 | 表画像のフォーマットを識別するフォーマット識別装置および方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH10302023A true JPH10302023A (ja) | 1998-11-13 |
JP3380136B2 JP3380136B2 (ja) | 2003-02-24 |
Family
ID=14382364
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10450597A Expired - Fee Related JP3380136B2 (ja) | 1997-04-22 | 1997-04-22 | 表画像のフォーマットを識別するフォーマット識別装置および方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3380136B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007080642A1 (ja) * | 2006-01-13 | 2007-07-19 | Fujitsu Limited | 帳票処理プログラムおよび帳票処理装置 |
JP2009193159A (ja) * | 2008-02-12 | 2009-08-27 | Fujitsu Ltd | 領域抽出プログラム、文字認識プログラム、および文字認識装置 |
JP2017090974A (ja) * | 2015-11-02 | 2017-05-25 | 富士ゼロックス株式会社 | 画像処理装置及びプログラム |
JP2017199086A (ja) * | 2016-04-25 | 2017-11-02 | 富士通株式会社 | 帳票認識方法、帳票認識装置、帳票認識プログラム、及び帳票認識用辞書データ |
-
1997
- 1997-04-22 JP JP10450597A patent/JP3380136B2/ja not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007080642A1 (ja) * | 2006-01-13 | 2007-07-19 | Fujitsu Limited | 帳票処理プログラムおよび帳票処理装置 |
JP2009193159A (ja) * | 2008-02-12 | 2009-08-27 | Fujitsu Ltd | 領域抽出プログラム、文字認識プログラム、および文字認識装置 |
JP2017090974A (ja) * | 2015-11-02 | 2017-05-25 | 富士ゼロックス株式会社 | 画像処理装置及びプログラム |
JP2017199086A (ja) * | 2016-04-25 | 2017-11-02 | 富士通株式会社 | 帳票認識方法、帳票認識装置、帳票認識プログラム、及び帳票認識用辞書データ |
Also Published As
Publication number | Publication date |
---|---|
JP3380136B2 (ja) | 2003-02-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11816888B2 (en) | Accurate tag relevance prediction for image search | |
US6721463B2 (en) | Apparatus and method for extracting management information from image | |
Liu et al. | Semi-supervised multi-label learning by constrained non-negative matrix factorization | |
US8533204B2 (en) | Text-based searching of image data | |
Lampert et al. | Efficient subwindow search: A branch and bound framework for object localization | |
US10235623B2 (en) | Accurate tag relevance prediction for image search | |
Epshtein et al. | Feature hierarchies for object classification | |
US8131087B2 (en) | Program and apparatus for forms processing | |
US9008429B2 (en) | Label-embedding for text recognition | |
Athitsos et al. | Efficient nearest neighbor classification using a cascade of approximate similarity measures | |
US20050086210A1 (en) | Method for retrieving data, apparatus for retrieving data, program for retrieving data, and medium readable by machine | |
CN111626250B (zh) | 文本图像的分行方法、装置、计算机设备及可读存储介质 | |
Pengcheng et al. | Fast Chinese calligraphic character recognition with large-scale data | |
JP3917349B2 (ja) | 文字認識結果を利用して情報を検索する検索装置および方法 | |
CN111832497B (zh) | 一种基于几何特征的文本检测后处理方法 | |
JP3380136B2 (ja) | 表画像のフォーマットを識別するフォーマット識別装置および方法 | |
JPH10240958A (ja) | 画像から管理情報を抽出する管理情報抽出装置および方法 | |
Hassan | Arabic (Indian) Handwritten Digits Recognition Using Multi feature and KNN Classifier | |
Nayef | Geometric-based symbol spotting and retrieval in technical line drawings | |
JPH05314320A (ja) | 認識距離の差と候補順を利用した認識結果の評価方式 | |
Byun et al. | An efficient form classification method using partial matching | |
CN115641573B (zh) | 一种文本排序方法、装置、电子设备和存储介质 | |
Jiang | High Precision Deep Learning-Based Tabular Data Extraction | |
Shishibori et al. | Fast retrieval algorithm for earth mover's distance using EMD lower bounds and a skipping algorithm | |
Kesidis et al. | Providing Access to Old Greek Documents Using Keyword Spotting Techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20021203 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071213 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081213 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091213 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091213 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101213 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111213 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111213 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121213 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121213 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131213 Year of fee payment: 11 |
|
LAPS | Cancellation because of no payment of annual fees |