JP2000339406A - 帳票認識方法 - Google Patents

帳票認識方法

Info

Publication number
JP2000339406A
JP2000339406A JP11149154A JP14915499A JP2000339406A JP 2000339406 A JP2000339406 A JP 2000339406A JP 11149154 A JP11149154 A JP 11149154A JP 14915499 A JP14915499 A JP 14915499A JP 2000339406 A JP2000339406 A JP 2000339406A
Authority
JP
Japan
Prior art keywords
ruled line
block
logical
group
line item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP11149154A
Other languages
English (en)
Other versions
JP4450888B2 (ja
Inventor
Katsutoshi Obara
勝利 小原
Shinichi Eguchi
真一 江口
Nobukazu Chiba
亘一 千葉
Koichi Kanemoto
浩一 金元
Masanori Yabuki
眞紀 矢吹
Yutaka Katsumata
裕 勝又
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP14915499A priority Critical patent/JP4450888B2/ja
Priority to US09/421,481 priority patent/US6567545B1/en
Publication of JP2000339406A publication Critical patent/JP2000339406A/ja
Application granted granted Critical
Publication of JP4450888B2 publication Critical patent/JP4450888B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables

Abstract

(57)【要約】 【課題】 帳票のフォーマットを自動認識する帳票認識
方法に関し、各最小矩形の並びからフォーマットを自動
決定する。 【解決手段】 帳票上の最小矩形を抽出し、最小矩形の
位置関係を判定する。この位置関係から最小矩形の属性
を決定する。最小矩形の属性により、見出し部分とデー
タ部分とに区別して、データ部分の文字列を認識する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、帳票上の文字を認
識するため、帳票のフォーマットを認識するための帳票
認識方法に関し、特に、表を持つ帳票の表構造を自動解
析して、表を構成する各項目の属性を決定する帳票認識
方法に関する。
【0002】データの自動入力のため、帳票上の文字を
認識する文字認識方法が用いられている。この文字認識
においては、帳票上の指定された位置のイメージを取り
出し、文字認識する。
【0003】帳票上の文字を識別するには、その文字の
データ名(フィールド認識子)、文字種類等の文字の属
性を定義する必要がある。
【0004】
【従来の技術】図87は、従来技術の説明図である。
【0005】図87は、帳票として振込依頼書を示す。
この振込依頼書は、「振込先」、「銀行名」、「支店
名」等の項目がある。このような項目を自動認識するに
は、各項目のフィールドID(データ名称)、開始位
置、終了位置、桁数、認識カテゴリ(文字種類)等の属
性を定義する必要がある。従来、この定義情報は、各帳
票毎に、登録していた。この登録には、オペレータが、
各帳票毎に、入力していた。
【0006】
【発明が解決しようとする課題】しかしながら、従来技
術では、定義情報を事前に登録する必要があった。この
ため、予め定義情報を登録した帳票しか、文字認識でき
ない。例えば、金融機関において、振込の自動入力を行
う場合に、企業が作成する振込依頼書のフォーマット
は、様々である。このような各帳票の定義情報を予め作
成しておくことは、手間がかかるという問題がある。
【0007】又、帳票の定義情報を登録したとしても、
その帳票のフォーマットが変更になった場合に、定義情
報を変更する必要があるという問題もある。
【0008】本発明の目的は、帳票の各項目の定義情報
を自動認識する帳票認識方法を提供するにある。
【0009】本発明の他の目的は、帳票の各項目の並び
を解析して、各項目の属性を決定する帳票認識方法を提
供することにある。
【0010】本発明の更に他の目的は、帳票の最小矩形
の属性を決定して、帳票のデータ部分を文字認識するた
めの帳票認識方法を提供することにある。
【0011】
【課題を解決するための手段】本発明は、帳票の表構造
を認識する帳票認識方法である。その方法は、帳票のイ
メージから前記帳票の縦罫線、横罫線及び罫線で構成さ
れる最小矩形を抽出するステップと、前記帳票上の前記
最小矩形の物理的並びから前記帳票の表構造を解析する
ステップと、前記解析した表構造から前記最小矩形の属
性を決定するステップとを有する。
【0012】本発明では、表構造の最小矩形を抽出し、
最小矩形の物理的並びを検出する。この最小矩形の物理
的並びから帳票の表構造を解析して、最小矩形の属性を
決定する。最小矩形の物理的並びを検出して、最小矩形
の属性を決定するので、帳票の表構造を自動解析するこ
とができる。
【0013】このため、帳票の各項目を、事前に登録す
る手間を省くことができる。又、帳票のフォーマットが
変更されても、定義情報を人手により変更する手間を省
くことができる。
【0014】本発明の他の形態は、前記表構造を解析す
るステップは、前記最小矩形の位置関係から前記最小矩
形の行方向の関係を抽出するステップと、前記最小矩形
の位置関係から前記最小矩形の列方向の関係を抽出する
ステップとを有する。
【0015】更に、本発明の他の形態は、前記行方向の
関係を抽出するステップは、前記最小矩形の接続関係か
ら前記最小矩形を各行を構成する最小矩形に分類するス
テップと、前記連続して、且つ同じ行構造を持つ行をブ
ロックにまとめるステップとを有し、前記列方向の関係
を抽出するステップは、上下に接続するブロック間で同
じ列構造を持つブロックの関係を抽出するステップを有
するステップを有する。
【0016】本発明の更に他の形態は、前記属性を決定
するステップは、属する行数が最大であるブロックをデ
ータ部分として決定し、そのブロックの上及び下に位置
するブロックを見出し部分として決定するステップを含
む。
【0017】本発明の更に他の形態は、前記属性を決定
するステップは、前記見出し部分の文字を文字認識し
て、前記見出し部分の属性を決定するステップと、前記
見出し部分の属性から前記データ部分の属性を決定する
ステップとを有する。
【0018】本発明の更に他の形態は、前記表構造を解
析するステップは、前記最小矩形の接続関係から、接続
する最小矩形をグループに分類するステップと、前記グ
ループを表の構成要素単位に分類するステップと、前記
表の構成要素単位に、前記最小矩形間の行と列の関係を
解析するステップとを有する。
【0019】本発明の更に他の形態は、前記最小矩形間
の行と列の関係を解析するステップは、前記最小矩形
を、行方向の関係に解析するステップと、前記最小矩形
を、列方向の関係に解析するステップとを有する。
【0020】本発明の更に他の形態は、前記行方向の関
係に解析するステップは、最小矩形が構成する行の入れ
子構造を解析して、前記最小矩形に、入れ子情報を設定
するステップを有する。
【0021】本発明の更に他の形態は、前記解析するス
テップは、前記各構成要素の表構造を抽出するステップ
と、同一の表構造を有する構成要素を統合するステップ
とを有する。
【0022】本発明の更に他の形態は、前記解析するス
テップは、前記各構成要素の表構造を抽出するステップ
と、前記構成要素の表構造から、前記構成要素内の罫線
を回復するステップを有する。
【0023】本発明の更に他の形態は、前記行方向の関
係を解析するステップは、前記各行の構造から、前記行
に付与された消し線を検出するステップと、前記消し線
を除去して、各行の関係を決定するステップとを有す
る。
【0024】本発明の更に他の形態は、前記解析するス
テップは、同じ大きさの最小矩形が連続することを検出
するステップと、連続した最小矩形を1つの最小矩形に
統合するステップとを有する。
【0025】
【発明の実施の形態】図1は、本発明の一実施の形態の
帳票認識装置のブロック図、図2は、本発明の一実施の
形態に用いられる第1の帳票例の説明図、図3は、本発
明の一実施の形態に用いられる第2の帳票例の説明図で
ある。
【0026】図1に示すように、リーダー1000は、
帳票を光学的に読み取る。プロセッサ(CPU)100
1は、帳票を解析して、文字認識を行う。メモリ100
2は、見出し文言辞書1003、一般辞書1004を格
納する。見出し文言辞書1003は、予め定められた見
出し文言とそのイメージデータを格納する。一般辞書1
004は、データ部分の文字認識のため、文字認識カテ
ゴリー/文字フォント別の辞書を格納する。
【0027】CPU1001は、帳票の罫線と、罫線に
より構成される最小矩形を抽出する罫線抽出部1005
と、抽出した最小矩形の並びを解析して、表構造う解析
する解析部1006と、解析した表構造から、各最小矩
形の属性を決定する属性決定部1007と、属性に従
い、文字認識を行う文字認識部1008とを有する。
尚、後述するように、これら各部は、CPU1001が
行う処理をブロックで表現したものである。
【0028】図2は、解析される第1の帳票例を示す。
この帳票は、振込依頼書である。図2の第1の帳票は、
依頼人、依頼日、振込予定日、振込先(銀行名、支店
名)、科目、口座番号、受取人名、金額、小計、合計を
記入するものである。この帳票において、(数字)は、
横方向に延びる横罫線を、〔数字〕は、縦方向に延びる
縦罫線を、数字は、縦罫線及び横罫線で囲まれる最小矩
形(以降、罫線項目と呼ぶ)を示す。従って、図2の帳
票は、20の横罫線(1)〜(20)と、13の縦罫線
〔1〕〜〔13〕と、176の罫線項目1〜176とで
構成されている。
【0029】図3は、解析される第2の帳票例を示す。
この帳票も、振込依頼書である。図3の第2の帳票は、
依頼人、銀行名、支店名、科目、口座番号、受取人名、
金額、小計、合計、適用、備考を記入するものである。
この帳票においても、(数字)は、横方向に延びる横罫
線を、〔数字〕は、縦方向に延びる縦罫線を、数字は、
縦罫線及び横罫線で囲まれる最小矩形(以降、罫線項目
と呼ぶ)を示す。従って、図3の帳票は、30の横罫線
(1)〜(30)と、20の縦罫線〔1〕〜〔20〕
と、171の罫線項目1〜171とで構成されている。
この帳票は、表の部分が2つに分割されている。
【0030】本発明は、このような表構造を有する帳票
の各罫線項目の種類等を自動解析するものである。
【0031】図4及び図5は、本発明の一実施の形態の
全体フロー図、図6乃至図25は、その処理の説明図で
ある。
【0032】(S1)CPU1001は、帳票のイメー
ジデータから帳票上の横罫線と縦罫線と、横罫線と縦罫
線に囲まれた最小矩形(罫線項目)を抽出する。図6
(A)の示すように、イメージデータの黒ドットが連続
する数を数え、一定数以上のドットが連続した場合に、
横罫線又は縦罫線と判断する。図6(B)は、横罫線と
縦罫線との例を示す。罫線は、物理的な座標として抽出
され、縦及び横罫線を開始座標と終了座標で示す。罫線
項目は、図6(C)に示すように、2本づつの縦罫線及
び横罫線で囲まれる最小矩形を抽出したものである。こ
の罫線項目も、開始座標と終了座標で示す。
【0033】次に、CPU1001は、イメージデータ
の帳票の斜度を算出し、斜度に合わせて罫線項目、横罫
線、縦罫線の各開始座標及び終了座標を補正する。
【0034】(S2)CPU1001は、図7に示すよ
うに、各罫線項目を、接続する位置関係にあるもの同志
が同じグループになるように、分類する。各罫線項目の
座標を参照して、上下又は左右に接続する位置関係にあ
るもの同志を同じグループに分類する。図7に示すよう
に、図2の第1の帳票は、3つのグループに分類され
る。図8は、接続関係の態様を示したものである。図8
に示すように、罫線項目が接続しているかを判断するに
は、横方向又は縦方向に完全の接続している場合のみな
らず、罫線項目間の距離が、横方向又は縦方向で、所定
の閾値の範囲内にあるものも、接続していると判断す
る。
【0035】(S3)次に、CPU1001は、グルー
プを表の構成要素単位に分類する。罫線項目を分類した
グループを、更にグループ毎に、表構造の構成単位に細
分化する。図9に示すように、構成単位とは、グループ
の主となる表の部分、上側に突出した部分(上凸部)、
下側に突出した部分(下凸部)からなる。このため、各
罫線が、座標からどのグループ内に位置するか(どのグ
ループを構成しているか)を判定する。そして、ぞれぞ
れのグループ単位に、2本づつの縦罫線及び横罫線で矩
形(正方形、長方形)を構成できるものを探す。そし
て、罫線で構成される矩形の中で、最も大きいものをグ
ループ内での最大矩形とする。グループ単位に、最大矩
形に含まれない位置に存在する罫線項目を探索し、最大
矩形の上側に位置するものを、上凸部、下側に位置する
ものを下凸部と分類する。そして、最大矩形に含まれる
罫線項目を主表部に分類する。以降、この細分化した単
位をグループと呼ぶ。
【0036】図9の帳票で、最大矩形を求めた場合、最
大矩形は、横罫線a、横罫線b、縦罫線c、縦罫線dで
囲まれる範囲となる。従って、主表部は、罫線項目3〜
26、上凸部は、罫線項目1〜2、下凸部は、罫線項目
27〜32となる。
【0037】(S4)CPU1001は、表の構成要素
単位のグループを論理行に分類する。グループ単位に、
構成する罫線項目を、行方向(帳票の横方向)に論理的
接続を持つもの同志を纏めた論理行に、分類する。ここ
で言う論理的な接続とは、同幅接続という概念により接
続する状態にあるものをいう。
【0038】同幅接続の関係にある罫線項目は、同一の
論理行を構成すると判断する。同幅接続について、図1
0(A)乃至図10(D)により、説明する。
【0039】図10(A)に示すように、罫線項目が、
同じ行幅で隣接し、且つ互いに罫線項目の構成線分を共
有する場合、参照中の罫線項目が同一の論理行を構成す
ると判断する。図10(A)では、罫線項目Aと罫線項
目Bでは、線分a4と線分b1とが同一の線分であり、
線分の長さも同一であることから、2つの罫線項目は、
接続状態にあると判断する。
【0040】図10(B)に示すように、罫線項目同志
が近接し、同じ行幅を持つ場合、参照中の罫線項目が同
一の論理行を構成すると判断する。図10(B)に示す
ように、罫線項目Aと罫線項目Bとの距離dが、所定の
閾値以下で、線分a4と線分b2が同じ長さである場
合、2つの罫線項目は、接続状態にあると判断する。
【0041】図10(C)に示すように、1つの罫線項
目に対し、複数の罫線項目が同じ幅で隣接し、互いに罫
線項目の構成線分を共有する場合、参照中の罫線項目が
同一の論理行を構成すると判断する。図10(C)で
は、罫線項目Bの線分b2と罫線項目Cの線分c2との
和が、罫線項目Aの線分a4の長さと同じであることか
ら、3つの罫線項目は、接続状態にあると判断する。
【0042】図10(D)に示すように、各罫線項目が
近接し、1つの罫線項目の行幅と、複数の罫線項目の行
幅の和が同じ場合には、参照中の罫線項目が同一の論理
行を構成すると判断する。図10(D)では、罫線項目
Bと罫線項目Cとの距離d2が、閾値以下であり、且つ
罫線項目Aと罫線項目B、Cとの距離d1が閾値以下で
ある。罫線項目Bの線分b2と罫線項目Cの線分c2と
の和が、罫線項目Aの線分a4の長さにほぼ等しいこと
から、3つの罫線項目は、接続状態にあると判断する。
【0043】このようにして、各グループを論理行に分
類する。図11に示すように、図2の帳票のグループ3
は、11の論理行に分類される。
【0044】次に、行方向の入れ子構造部を解析する。
複数の罫線項目から構成される矩形が論理的な意味をも
つものを、入れ子構造という。図12(A)に示すよう
に、「振込先」の項目に対して、「銀行名」及び「支店
名」の項目は、関係するから、この部分を入れ子構造と
定義する。図12(B)に示すように、図12(A)の
場合には、罫線項目1(振込先)が、罫線項目2(銀行
名)の親である。従って、罫線項目1と2に、親子関係
を設定する。罫線項目2(銀行名)と罫線項目3(支店
名)とは、兄弟関係(同レベル関係)である。従って、
罫線項目2と3に、兄弟関係を設定する。
【0045】又、図3の第2の帳票例のように、レイア
ウトの都合上、表構成部を左右に分割している場合があ
る。これを、表の構造の論理的意味から判断すると、表
構造を決定する上で、1つの表構造としてまとめる必要
がある。このため、図13に示すように、左右に並んで
位置するグループが複数存在する場合に、それぞれのグ
ループを構成する論理行構造を判定する。それぞれの論
理行によるグループの構造が同じ場合に、表構造を統合
する。
【0046】更に、左右に分割されている表の一部が掠
れ等により消失した場合に、その部分に罫線を作成す
る。前述の左右に分離された表を統合する場合に、一方
の表のどれかの罫線が掠れ等で消失している場合があ
る。図14に示すように、罫線が消失している部分以外
は、2つのグループの論理行構造が一致していることか
ら、他方の論理行構造と一方の論理行構造とを合わせる
ように、罫線を新規に作成する。これにより、生成した
罫線を含む罫線項目を生成する。このように、罫線を作
成した後、前述の表構造の統合処理を行う。
【0047】(S5)次に、連続する同じ構造の論理行
をブロック単位に纏める。1グループ内で上下に隣り合
う論理行同志の構造を比較する。そして、同じ構造を持
つ論理行同志を1ブロックに分類する。論理行の比較要
素として、構成する罫線項目の数、論理行中の罫線項目
の配置、論理行の高さと幅がある。これらを比較して、
同じ構造を持つか判定する。
【0048】図15の帳票例では、1つのグループの7
つの論理行が、3つのブロック1〜3に分類される。ブ
ロック1は、論理行1で構成され、ブロック2は、論理
行2〜6で構成され、ブロック3は、論理行7で構成さ
れる。
【0049】又、異なる構造のブロック間を同一のブロ
ック構造に変換する。即ち、表の一部の罫線が掠れ等で
消失している場合に、他の論理行構造から消失した罫線
を新規に生成する。それに伴い罫線項目を生成する。
【0050】図16の表の例で説明すると、罫線が消失
し、ブロック1〜5に分類されている。しかし、ブロッ
ク2とブロック4は、同一の構造を持つブロックであ
る。従って、ブロック3に、罫線を作成する。これによ
り、ブロック2〜ブロック4は、同一の構造となる。こ
れにより、ブロックを3つに統合する。
【0051】次に、消し線により分割された論理行を統
合する。金融機関で扱う給与振込帳票等では、処理の対
象としないことを明確にするため、消し線で取引部分を
消去する場合がある。この場合、消し線は罫線として抽
出されるため、解析結果は、不正確になる。従って、消
し線を除いて、表構造の解析を行う必要がある。ブロッ
クに分類された状態では、消し線で引かれた部分のブロ
ックは、次の特徴がある。
【0052】第1に、上下に別のブロックが存在する。
第2に、上側ブロックと下側ブロックは、同じ構造を持
つ。この特徴を持つブロックが存在する場合に、当ブロ
ック内で、消し線による罫線を除いたブロックを作成す
る。そして、このブロックが、上側ブロックと同一構造
となる場合に、消し線が引かれたことにより、ブロック
構造が変化したものと判断する。そして、消し線を消去
し、これに伴って、罫線項目、論理行、及びブロックを
再作成する。
【0053】図17に示すように、ブロック3とブロッ
ク5に消し線が存在すると、ブロックは7つに分類され
る。ここで、ブロック2とブロック4は、同じ構造であ
り、,ブロック3の消し線を消去すると、ブロック2と
同じ構造となる。又、ブロック4〜6についても、同様
である。従って、消し線を消去し、罫線項目、論理行を
再作成する。それに伴い、ブロックも作成し直す。これ
により、3ブロックに再分類される。
【0054】(S6)次に、論理列構造を判定する。表
構造を持つものは、文言固定部と、文言可変部とからな
る。文言固定部は、表の見出し部分などの帳票の固定部
分である。文言可変部は、表のデータ部分などの帳票の
可変部分である。論理列構造の判定は、文言固定部と文
言可変部との論理列構造を判定する。即ち、上下に接続
するブロックの間で、同じ列構造を持つかを判定する。
そして、同じ列構造を持つ場合、それらブロックを論理
列の単位で統合する。例えば、図18(A)の例では、
論理列は、6つに分類される。
【0055】この場合、図18(B)に示すように、文
言可変部のブロック2では、「あいう銀行」と「かきく
支店」の2列の構造であるが、文言固定部のブロック1
では、1列の構造となっている。この場合、ブロック1
の1列(振込先)がブロック2の2列の見出しとなって
いるため、表構造としてみた場合には、ブロック2の2
列を1列とみなす。
【0056】同様に、図18(C)に示すように、文言
固定部のブロック1では、「銀行名」と「支店名」の2
列の構造であるが、文言可変部のブロック2では、1列
の構造となっている。この場合、ブロック1の2列(銀
行名、支店名)がブロック2の1列の見出しとなってい
るため、表構造としてみた場合には、ブロック1の2列
を1列とみなす。
【0057】次に、列方向の論理的な入れ子構造を抽出
する。ブロック間での論理列構造の判定を行った結果、
図18(B)及び図18(C)のように、一方のブロッ
クが、複数列からなり、他方のブロックが一列の論理列
構造を持つ場合、これらを入れ子構造として表現する。
入れ子構造を構成する罫線項目は、纏めて1つの論理的
な意味を持たせる。
【0058】図19(A)は、図18(B)の場合の入
れ子構造を示す。図19(A)に示すように、罫線項目
2と罫線項目3が兄弟関係(同じレベル)にある。両罫
線項目をあわせて、罫線項目1に対しての列を構成する
罫線項目とする。図19(B)は、図18(C)の場合
の入れ子構造を示す。図19(B)に示すように、罫線
項目1と罫線項目2が兄弟関係(同じレベル)にある。
両罫線項目をあわせて、罫線項目3に対しての列を構成
する罫線項目とする。
【0059】更に、1桁罫線項目部分、3桁罫線項目部
分の入れ子構造を解析する。図20(A)及び図20
(B)に示すように、帳票の表構造の中で、金額欄、手
数料欄がある場合に、1桁の罫線項目又は3桁の罫線項
目が連続する。1桁罫線項目は、1罫線項目内に1桁の
数字が記入又は印刷されるものをいう。又、3桁罫線項
目は、1罫線項目に3桁の数字が記入又は印刷されるも
のをいう。
【0060】これらは、合わせて、1つの意味を持つ。
これらを論理的に1つの罫線項目に纏める。このため、
予め1桁罫線項目又は3桁罫線項目の縦サイズと横サイ
ズを定義しておく。これらサイズと一致する罫線項目が
任意数並んだ場合には、これらを入れ子構造として、論
理的に1つの罫線項目としてまとめる。
【0061】このような結果を利用して、文字認識処理
では、連続する罫線項目を1つの文字列として扱うこと
ができる。例えば、図20(A)のa部分の罫線項目内
を文字認識した結果、b部分の結果を得た場合に、罫線
項目が入れ子構造となっていることから、文字認識結果
をc部分で示したように結合して、1つの文字列として
取り扱う。図20(B)に示す、3桁罫線項目の場合も
同様である。
【0062】次に、特殊な構造を持つ矩形の入れ子構造
を解析する。帳票上の主表以外の箇所には、特別な構造
を持つものが多い。これらについては、構造毎に入れ子
構造解析処理を行う。図21(A)では、罫線項目1に
対し、罫線項目2が親子の関係にある。罫線項目2に対
し、罫線項目4が親子の関係にある。罫線項目3に対
し、罫線項目5が親子の関係にある。罫線項目2に対
し、罫線項目3が兄弟の関係にある。罫線項目4に対
し、罫線項目5が兄弟の関係にある。図21(B)で
は、罫線項目1に対し、罫線項目2が親子の関係にあ
る。罫線項目2に対し、罫線項目4が親子の関係にあ
る。罫線項目3に対し、罫線項目5が親子の関係にあ
る。罫線項目2に対し、罫線項目3が兄弟の関係にあ
る。罫線項目4に対し、罫線項目5が兄弟の関係にあ
る。前述した行方向及び列方向の入れ子構造の解析処理
と同様にして、入れ子構造を解析する。
【0063】(S7)次に、表構造部のブロックに属性
を付与する。帳票には、見出し部と、見出し部分に対応
するデータ部とが存在する。又、帳票によっては、デー
タを纏める部分(例えば、データ部の金額合計欄等)が
存在する。ここでは、表構造部を構成するブロックに、
属性を付与して、各ブロックに意味を持たせる。即ち、
図22に示すように、表のデータを記入又は印刷する部
分をボディ部と定義し、表を構成するブロック中で最も
論理行数が多いブロックに、ボディ部属性を付与する。
表の見出しを記入又は印刷する部分をヘッダ部と定義
し、ボディ部の上側に位置するブロックに、ヘッダ部属
性を付与する。表のデータ部分を取りまとめるデータ
(例えば、合計欄等)を記入又は印刷する部分をフッタ
部と定義し、ボディ部の下側に位置するブロックにフッ
タ部属性を付与する。
【0064】(S8)次に、見出しを構成する罫線項目
に、見出しフラグを設定する。表構造の形式から以下に
示すルールに従って、見出しにあたる罫線項目に見出し
フラグを設定する。見出しフラグを設定する罫線項目
は、図23に示すように、次の通りである。
【0065】・ヘッダブロックを構成する罫線項目 ・ボディブロックの最上位論理行を構成する罫線項目 ・フッタブロックを構成する罫線項目の内、最も右に位
置するものを除いた罫線項目 ・下凸部の論理行を構成する罫線項目の内、最も右に位
置するものを除いた罫線項目 ・表以外の矩形の論理行を構成する罫線項目の場合、入
れ子構造の罫線項目の内、最も右下に位置するものを除
いた罫線項目 この見出し部を抽出しておくと、使用される文字を制限
でき、その文字(文言)に特化した文字認識処理を行う
ことができる。従って、高精度に見出し部分の文言を認
識することができる。
【0066】(S9)次に、見出しの種類を決定する。
見出しフラグが設定された罫線項目内に存在する文字列
の文字認識を行う。図25に示すように、この見出し部
の文字認識で使用する認識辞書には、見出し文言辞書1
003(図1参照)が使用される。見出し文言辞書10
03は、見出しとして存在する文言(振込先等)と、そ
のイメージとが登録されたものである。従って、一般の
文字認識辞書を使用した場合よりも高い精度での文字認
識が可能となる。
【0067】この認識結果から得られた見出し名称をキ
ーとして、図24に示す見出しテーブルを参照する。図
24に示すように、見出しテーブルには、見出し名称に
対応する属性情報(文字認識カテゴリ、文字フォント
等)が登録されている。そして、その見出し名称に一致
するレコード(属性情報)を抽出する。
【0068】(S10)次に、見出しに対応する罫線領
域の認識属性を決定する。このため、見出しが見つかっ
た罫線項目を含む論理列情報を参照し、その見出しに対
応するデータ部分の罫線項目を見つける。即ち、論理列
を構成する罫線項目のうち、見出し以外の罫線項目に対
して、文字認識カテゴリ、文字フォント等の認識特性
を、見出しの罫線項目から複写する。
【0069】(S11)次に、見出し以外の領域の文字
認識を行う。見出しの罫線項目以外の罫線項目内に存在
する文字列を、一般の文字認識辞書1004(図1参
照)を使用して、文字認識する。この時、文字認識辞書
1004は、漢字、数字等の各認識カテゴリに対し、別
々に設けられている。従って、前述したデータ部分の認
識属性に従い、一般辞書から認識辞書を選択して、文字
認識する。このため、データ部分も高い精度で文字認識
できる。
【0070】更に、得られた認識結果を認識結果通知領
域に設定する。これにより、データ部分のデータ名称、
データ数、文字認識結果が得られる。
【0071】このようにして、各罫線項目の行と列の関
係を判定し、見出し部とそれに対応するデータ部とに分
類する。そして、見出し部分を見出し認識辞書を用いて
文字認識して、見出し名称を得る。論理列の構造の関係
から見出し部分に対応したデータ部分のデータ名称が判
明する。このため、帳票の各項目のフォーマットを予め
定義しておく必要がない。
【0072】更に、見出し名称から認識属性を見出しテ
ーブルにより得る。これに従い、データ部分を文字認識
する。このため、帳票の表構造を解析することができ、
データ部分の文字認識結果を精度を高めることができ
る。
【0073】次に、前述のステップS1〜S11の各処
理について、詳細に説明する。ここで、図26は、各処
理に使用されるテーブルの関係図である。図26に示す
ように、横罫線テーブル1105は、抽出した横罫線の
開始座標と終了座標を格納する。縦罫線テーブル110
6は、抽出した縦罫線の開始座標と終了座標を格納す
る。罫線項目情報テーブル1104は、抽出した罫線項
目(最小矩形)の開始座標、終了座標と、属するグルー
プ番号、ブロック番号等を格納する。グループ情報テー
ブル1100は、分類された各グループの先頭罫線項目
アドレス、先頭ブロック番号等を格納する。
【0074】ブロック情報テーブル1101は、抽出さ
れた各ブロックの先頭罫線項目アドレス、先頭論理行ア
ドレス等を格納する。論理行情報テーブル1102は、
抽出された各論理行の先頭罫線項目アドレス、ブロック
番号等を格納する。論理列情報テーブル1103は、抽
出された各論理列の先頭罫線項目アドレス等を格納す
る。
【0075】(a)罫線抽出処理の説明 図27は、横罫線情報テーブルの説明図、図28は、縦
罫線情報テーブルの説明図、図29は、罫線項目テーブ
ルの説明図である。
【0076】横罫線の抽出は、周知のように、一定数以
上の黒画素が横方向に連続する黒画素群を抽出する。そ
して、図27に示すように、各抽出した横罫線に番号を
付し、その開始座標及び終了座標を、横罫線情報テーブ
ル1005に格納する。
【0077】縦罫線の抽出も、周知のように、一定数以
上の黒画素が縦方向に連続する黒画素群を抽出する。そ
して、図28に示すように、各抽出した縦罫線に番号を
付し、その開始座標及び終了座標を、縦罫線情報テーブ
ル1006に格納する。
【0078】最小矩形(罫線項目)の抽出も、周知のよ
うに、2つの横罫線と2つの縦罫線に囲まれた最小矩形
を抽出する。そして、各抽出した罫線項目に番号を付
す。図29に示すように、罫線項目情報テーブル110
4は、各罫線項目の開始座標SC、終了座標EC、上側
横罫線番号ULN、下側横罫線番号LLN、左側縦罫線
番号LVN、右側縦罫線番号RVNを格納する。尚、罫
線項目情報テーブル1104は、グループ番号GN、ブ
ロック番号BN、行番号LN、列番号RO、上側罫線項
目URN、下側罫線項目LRN、左側罫線項目ERN、
右側罫線項目RRN、入れ子情報INの各欄を有する。
これらの各欄は、後の処理により利用される。
【0079】次に、斜度補正について、説明する。図3
0は、斜度算出処理フロー図である。
【0080】(S20)横罫線情報テーブル1105の
各横罫線を参照する。そして、全横罫線を参照したかを
判定する。
【0081】(S21)参照した横罫線の斜度を算出す
る。斜度θは、終了Y座標をYe、開始Y座標をYs、
終了X座標をXe、開始X座標をXsとすると、次の式
(1)で計算される。
【0082】 tanθ=(YeーYs)/(XeーXs) (1) そして、ステップS20に戻る。
【0083】(S22)ステップS20で、全横罫線を
参照した場合には、斜度の平均値を計算する。斜度の平
均値は、(斜度値の合計)/(横罫線の本数)により計
算される。そして、終了する。
【0084】次に、座標補正処理について、説明する。
図31は、座標補正処理フロー図である。
【0085】(S25)罫線項目テーブル1104の各
罫線項目を参照する。罫線項目テーブル1104の全罫
線項目を参照したかを判定する。全罫線項目を参照した
場合には、ステップS27に進む。
【0086】(S26)罫線項目の左上座標(開始座
標)Xs、Ysを、斜度tanθに応じて補正する。補
正後の座標X、Yは、次式(2)、(3)で示される。
【0087】 X=Xs+Ys×tanθ (2) Y=YsーXs×tanθ (3) そして、罫線項目の右下座標(終了座標)Xe、Ye
を、斜度tanθに応じて補正する。補正後の座標X、
Yは、次式(4)、(5)で示される。
【0088】 X=Xe+Ye×tanθ (3) Y=YeーXe×tanθ (4) そして、ステップS25に戻る。
【0089】(S27)次に、横罫線座標を補正するた
め、横罫線テーブル1105を参照する。横罫線テーブ
ル1105の全横罫線を参照したかを判定する。全横罫
線を参照した場合には、ステップS29に進む。
【0090】(S28)横罫線の左側座標(開始座標)
Xs、Ysを、斜度tanθに応じて補正する。補正後
の座標X、Yは、前述の式(2)、(3)で示される。
【0091】そして、横罫線の右側座標(終了座標)X
e、Yeを、斜度tanθに応じて補正する。補正後の
座標X、Yは、前述の式(4)、(5)で示される。
【0092】そして、ステップS27に戻る。
【0093】(S29)次に、縦罫線座標を補正するた
め、縦罫線テーブル1106を参照する。縦罫線テーブ
ル1106の全縦罫線を参照したかを判定する。全縦罫
線を参照した場合には、終了する。
【0094】(S30)縦罫線の左側座標(開始座標)
Xs、Ysを、斜度tanθに応じて補正する。補正後
の座標X、Yは、前述の式(2)、(3)で示される。
【0095】そして、縦罫線の右側座標(終了座標)X
e、Yeを、斜度tanθに応じて補正する。補正後の
座標X、Yは、前述の式(4)、(5)で示される。
【0096】そして、ステップS29に戻る。
【0097】このようにして、横罫線、縦罫線、罫線項
目(最小矩形)を抽出する。そして、帳票の斜行による
座標の誤差を補正するため、横罫線座標から斜度を計算
する。斜度は平均値のため、正確に斜度を求めることが
できる。更に、斜度により、罫線項目、横罫線、縦罫線
の座標を補正する。
【0098】(b)グループ分類処理の説明 図32は、グループ処理フロー図、図33は、グループ
処理後のテーブル更新の説明図である。
【0099】(S31)罫線項目テーブル1104から
罫線項目を参照する。全罫線項目を参照したかを判定す
る。全罫線項目を参照した場合には、終了する。
【0100】(S32)罫線項目テーブル1104から
他の罫線項目を抽出する。全部の他罫線項目を参照した
かを判定する。全罫線項目を参照した場合には、ステッ
プS35に進む。
【0101】(S33)全罫線項目が参照済でない場合
には、抽出した2つの罫線項目が接続関係にあるかを判
定する。図8で説明したように、2つの罫線項目の位置
関係が、接続関係にあるかを判定する。接続関係にない
場合は、ステップS32に戻る。
【0102】(S34)2つの罫線項目が接続関係にあ
る場合には、1の罫線項目が属するグループ情報テーブ
ル1100に、他の罫線項目を反映する。図33に示す
ように、グループ情報テーブル1100は、グループ番
号GN、開始座標SC、終了終了座標EC、罫線項目数
RIN、ブロック数BLN、論理行数LR、先頭罫線項
目アドレスHLA、先頭論理行情報アドレスHRA、先
頭ブロックアドレスHBAをからなる。グループ情報テ
ーブル1100のグループ矩形座標SC、ECと、罫線
項目数RINを更新する。更に、罫線項目テーブル11
04に、グループ番号を設定する。そして、ステップS
32に戻る。
【0103】(S35)全罫線項目を参照したと判定す
ると、1の接続罫線に、接続する罫線項目はあるかを判
定する。接続する罫線項目がある時は、ステップS31
に戻る。接続する罫線項目がない場合には、グループ情
報テーブル1100に、新規にグループ情報を作成す
る。そして、ステップS31に戻る。
【0104】図2の帳票例では、図33のグループ情報
テーブル1100に示すように、2つのグループに、分
類される。
【0105】このようにして、罫線項目を表部とそれ以
外を分離するため、各罫線項目をグループに分類する。
【0106】(c)構成要素分類処理の説明 図34及び図35は、構成要素分類処理フロー図、図3
6及び図37は、分類処理後のテーブル説明図である。
【0107】(S40)グループ情報テーブル1100
からグループ情報を抽出する。全グループ情報を参照し
たかを判断する。全グループ情報を参照したと判定する
と、終了する。
【0108】(S41)横罫線テーブル1105から、
そのグループの横罫線を抽出する。そのグループの横罫
線を全て参照したかを判定する。そのグループの横罫線
を全て参照したと判定すると、ステップS43に進む。
【0109】(S42)横罫線を比較して、そのグルー
プの左右に達する横罫線で、最小のY座標と最大のY座
標を持つ横罫線を抽出する。ステップS41に戻る。
【0110】(S43)縦罫線テーブル1106から、
縦罫線情報を抽出する。縦罫線を全て参照したかを判定
する。縦罫線を全て参照したと判定すると、ステップS
45(図35)に進む。
【0111】(S44)最小のY座標と最大のY座標を
持つ横罫線の左右端と交点を持つ縦罫線を2本抽出す
る。ステップS43に戻る。
【0112】(S45)罫線項目テーブル1104か
ら、グループを構成する罫線項目を参照する。グループ
を構成する全罫線項目を参照したかを判定する。そのグ
ループの全罫線項目を参照した場合には、図34のステ
ップS40に戻る。
【0113】(S46)ステップS42とステップS4
4により、そのグループの最大矩形を構成する2本の横
罫線と2本の縦罫線が抽出された。そこで、罫線項目
が、この最大矩形の中にあるかを判定する。即ち、罫線
項目が、抽出された横罫線と縦罫線で囲まれる範囲(外
接矩形)内に位置するかを判定する。
【0114】(S47)罫線項目が、範囲内にある場合
は、罫線項目を当該グループに所属させる。更に、グル
ープ情報と当罫線項目の開始座標が一致する場合は、グ
ループ情報の先頭罫線項目アドレスHLAを、当罫線項
目に設定する。そして、ステップS45に戻る。
【0115】(S48)当該罫線項目が、範囲内にない
場合には、当該罫線項目の開始Y座標と、外接矩形開始
Y座標とを比較する。罫線項目の開始Y座標が、外接矩
形の開始Y座標より大きい場合には、その罫線項目は、
上凸グループに分類する。尚、上凸グループが作成済な
ら、上凸グループの罫線項目と接続しているかを判定す
る。当該罫線項目が、上凸グループの罫線項目と接続し
ている場合には、当該罫線項目をそのグループに追加す
る。
【0116】下凸グループも同様であり、罫線項目の開
始Y座標が、外接矩形の開始Y座標より小さい場合に
は、その罫線項目は、下凸グループに分類する。尚、下
凸グループが作成済なら、下凸グループの罫線項目と接
続しているかを判定する。当該罫線項目が、下凸グルー
プの罫線項目と接続している場合には、当該罫線項目を
そのグループに追加する。そして、ステップS45に戻
る。
【0117】このようにして、各グループを、主表部
と、上凸部、下凸部の表の構成要素に分類する。図2の
帳票例では、2グループに分類された帳票が、4グルー
プに分類される。即ち、図37のグループ情報テーブル
1100に示すように、グループは、4つとなる。そし
て、図36の罫線項目テーブル1104に示すように、
罫線項目も4つのグループに分類される。即ち、グルー
プ番号は4つとなる。
【0118】(d)論理行分類処理の説明 図38は、論理行分類処理フロー図、図39は、図38
の入れ子解析処理フロー図、図39及び図40は、論理
行抽出後のテーブル説明図である。
【0119】(S50)グループ情報テーブル1100
からグループ情報を抽出する。全部のグループ情報を参
照したかを判定する。全てのグループ情報を参照する
と、終了する。
【0120】(S51)横罫線テーブル1105から、
そのグループの左右端に交点を持つ横罫線を2本づつ抽
出する。全横罫線を抽出したかを判定する。そのグルー
プの全横罫線を抽出した時は、ステップS50に戻る。
【0121】(S52)全横罫線を参照していない場合
には、罫線項目テーブル1104からそのグループを構
成し、2本の横罫線に位置する罫線項目を抽出する。全
罫線項目を抽出したかを判定する。そのグループの全罫
線項目を参照した時は、ステップS51に戻る。
【0122】(S53)2本の横罫線の内、下に位置す
る横罫線座標が罫線項目の下Y座標に一致するかを判定
する。
【0123】(S54)一致しない場合には、図12
(A)及び図12(B)に示したように、入れ子構造の
可能性がある。このため、後述する図39に示す入れ子
構造の解析処理を行う。
【0124】(S55)論理行に分類するため、論理行
テーブル1102を作成する。論理行テーブル作成済の
場合には、当該罫線項目を追加する。論理行テーブルが
作成されていない場合には、新規に論理行テーブルを作
成する。
【0125】このようにして、各グループにおいて、罫
線項目を、論理行に分類する。
【0126】次に、図39により、入れ子構造解析処理
について、説明する。
【0127】(S56)罫線項目テーブルから罫線項目
を2つづつ抽出する。例えば、1回目は、1番目と2番
目、2回目は、2番目と3番目とする。
【0128】(S57)罫線項目の開始Y座標と、論理
行の上側横罫線のY座標が一致し、罫線項目の終了Y座
標か、論理行の下側横罫線のY座標が一致するかを判定
する。一致する場合には、終了する。
【0129】(S58)一致しない場合には、2つの罫
線項目の開始X座標を比較する。2つの罫線項目の開始
X座標が一致する場合には、ステップS59に進む。2
つの罫線項目の開始X座標が一致する場合には、図12
(A)に示すように、2つの罫線項目に親子関係を設定
する。そして、ステップS56に戻る。
【0130】(S59)X座標が一致しない場合には、
2つの罫線項目の開始Y座標を比較する。2つの罫線項
目の開始Y座標が一致しない場合には、ステップS56
に戻る。2つの罫線項目の開始Y座標が一致する場合に
は、図12(A)に示すように、2つの罫線項目に兄弟
関係を設定する。そして、ステップS56に戻る。
【0131】図41に示すように、論理行テーブル11
02が作成される。論理行テーブルは、各論理行の番号
LN、開始座標SC、終了座標EC、グループ番号G
N、ブロック番号BN、罫線項目数RIN、論理列数L
L、上側横罫線番号ULN、下側横罫線番号LLN、左
側縦罫線番号ERN、右側縦罫線番号RRN、先頭罫線
項目アドレスHLAからなる。図2の帳票の例では、図
41に示すように、論理行テーブル1102が作成され
る。
【0132】更に、グループ情報テーブル1100は、
論理行数LRと先頭論理行アドレスHLAが追加され
る。図40に示すように、罫線項目テーブル1104の
入れ子情報INは、入れ子フラグINF、階層番号K
N、子罫線項目番号CRN、罫線項目間リンク番号RL
Nからなる。入れ子フラグINFは、罫線項目が入れ子
構造を構成する場合に、「ON」となる。図2の帳票例
では、罫線項目10、11、12が入れ子構造を構成す
るため、「ON」である。
【0133】階層番号KNは、入れ子構造の階層の深さ
(親子関係数)を示す。図2の帳票例では、親となる罫
線項目10は、「0」、子となる罫線項目11、12
は、「1」を設定する。子罫線項目数CRNは、当罫線
項目が親子の関係の場合には、親の罫線項目に、子とな
る罫線項目番号を設定する。図2の帳票例では、親の罫
線項目10に、子の罫線項目番号11を設定する。
【0134】罫線項目間リンク番号RLNは、罫線項目
が兄弟関係にある場合に、兄弟関係にある罫線項目の通
し番号を示す。図2の帳票例では、罫線項目11、12
が、兄弟関係にあるため、罫線項目11に「0」を、罫
線項目12に「1」を設定する。
【0135】このようにして、各罫線項目を論理行に分
類する。この論理行は、同じ構造をしている行を見つけ
るのに役立つ。
【0136】次に、図3の帳票例2のように、表が分離
されている場合の表の統合処理について、説明する。
【0137】図42は、表の統合処理フロー図、図43
及び図44は、帳票例2のグループ統合前のテーブル説
明図、図45及び図46は、帳票例2のグループ統合後
のテーブル説明図である。
【0138】(S60)グループ情報テーブル1100
から、同じ開始Y座標と終了Y座標を持つ2つのグルー
プを抽出する。
【0139】(S61)2つのグループを構成する論理
行情報を1つづつ抽出する。全部の論理行を参照したか
を判定する。全部の論理行を参照した場合には、ステッ
プS63に進む。
【0140】(S62)抽出した論理行情報から、開始
Y座標と終了Y座標が一致する論理行数をカウントす
る。そして、ステップS61に戻る。
【0141】(S63)一致した論理行数の全論理行数
に対する割合を計算する。そして、その割合と所定の閾
値とを比較する。その割合が、閾値以下の場合は、2つ
のグールプは別の表と判断して、終了する。
【0142】(S64)その割合が、閾値以上の場合に
は、2つのグループは、1つの表であると判定する。そ
して、2つのグループに、異なる構造の論理行はあるか
を判定する。異なる構造の論理行がある場合には、図4
7で説明する罫線作成処理を行う。
【0143】(S65)2つのグループを1つのグルー
プに統合する。そして、終了する。
【0144】図3の帳票例で説明する。図3の帳票例で
は、罫線項目テーブル1104は、図43のように設定
される。論理行テーブル1102及びグループ情報テー
ブル1100は、図44に設定される。即ち、グループ
は、4つに分類される。前述した統合処理により、グル
ープ2と4が統合される。即ち、図45に示すように、
論理行テーブル1102において、グループ4の論理行
は削除される。グループテーブル1100においても、
グループ4は削除される。同様に、論理行テーブル11
02、グループ情報テーブル1100において、グルー
プ2の罫線項目数に、グループ4の罫線項目数を加算さ
れる。罫線項目テーブル104において、グループ4の
罫線項目のグループ番号は、グループ2に変更される。
更に、横罫線テーブル1105において、グループ2の
論理行を構成する横罫線の終了X座標を、グループ4の
終了X座標まで延長する。
【0145】このようにして、グループの論理行構造が
同じか、類似しないるかを判定して、表の統合を行う。
【0146】次に、図42の罫線作成処理について、説
明する。図47は、罫線作成処理フロー図、図48は、
罫線作成の説明図、図49及び図50は、罫線作成後の
テーブル説明図である。
【0147】(S66)2つのグループから論理行情報
を抽出する。全論理行を参照したかを判定する。全論理
行を参照した場合には、終了する。
【0148】(S67)2つの論理行を高さは、一致す
るかを判定する。一致する場合は、罫線作成処理不要の
ため、ステップS66に戻る。一致していない場合に
は、次の行の論理行情報を抽出する。そして、1のグル
ープの次の行Bと行Aの高さとの和が、他のグループの
行Cの高さとが一致するかを判定する。図48に示すよ
うに、グループ2の論理行A、Bと、グループ4の論理
行Cが対応するものとする。この場合に、グループ4の
論理行Cにおいて、掠れにより罫線が消失している。こ
の場合に、グループ2の次の行Bと行Aの高さとの和
が、グループ4のの行Cの高さとが一致する。一致しな
い場合は、ステップS66に戻る。
【0149】(S68)一致する場合には、行Cの中
で、行Aと行Bの境界線と同じY座標を持つ横罫線を生
成する。そして、1つの行を2つの行に分割する。そし
て、ステップS66に戻る。
【0150】このようにして、掠れ等で消失した罫線
を、表構造から検出する。そして、罫線を作成する。図
49に示すように、罫線項目情報テーブル1104にお
いて、罫線項目158と罫線項目159の下側横罫線番
号を新規に作成した横罫線番号に変更する。終了Y座標
を横罫線の座標に変更する。罫線項目160と罫線項目
161を新たに作成する。図50の論理行テーブル11
02において、行Cを上下に2分割する。下側論理行を
論理行テーブルに追加する。グループテーブル1100
において、グループ4の論理行数を+1する。
【0151】(e)ブロック分類処理の説明 図51は、ブロック分類処理フロー図、図52及び図5
3はブロック分類後のテーブル説明図である。
【0152】(S70)グループ情報テーブル1100
から、グループ情報を抽出する。全てのグループ情報を
抽出したかを判定する。全てのグループ情報を抽出した
場合には、終了する。
【0153】(S71)そのグループを構成する論理行
情報を2行ずつ抽出する。例えば、1回目は1行目と2
行目、2回目は2行目と3行目を抽出する。全ての論理
行を抽出したかを判定する。そのグループの全ての論理
行を抽出した場合には、ステップS70に戻る。
【0154】(S72)抽出した2つの論理行の構造を
比較する。この比較は、次の項目を比較する。構成する
罫線項目数は同じか。論理行の中で、罫線項目の配置は
一致するか。論理行の高さ、幅は同じか。
【0155】(S73)論理行構造が一致しない場合に
は、両論理行は別のブロックを構成すると判断する。こ
のため、両論理行をリンクしないブロック情報を作成す
る。そして、ステップS70に戻る。
【0156】(S74)論理行構造が一致する場合に
は、両論理行は同一のブロックを構成すると判断する。
このため、両論理行をリンクするブロック情報を作成す
る。そして、ステップS70に戻る。
【0157】このようにして、グループ単位に、行構造
が同一である論理行を1つのブロックに分類する。図5
3に示すように、ブロック情報テーブル1101は、ブ
ロック番号BN、開始座標SC、終了座標EC、グルー
プ番号GN、罫線項目数RIN、論理行数LN、論理列
数RO、先頭論理行アドレスHRA、先頭論理列アドレ
スHRA、上側横罫線番号ULN、下側横罫線番号LL
N、左側縦罫線番号LVN、右側縦罫線番号RVNから
なる。
【0158】ブロック情報テーブル1101に、各ブロ
ックの開始座標SC、終了座標EC、グループ番号G
N、罫線項目数RIN、論理行数LN、先頭論理行アド
レスHRA、上側横罫線番号ULN、下側横罫線番号L
LN、左側縦罫線番号LVN、右側縦罫線番号RVNを
設定する。
【0159】そして、図52に示すように、罫線項目テ
ーブル1104に、各罫線項目のブロック番号BNを設
定する。論理行テーブル1102に、各論理行のブロッ
ク番号BNを設定する。図53に示すように、グループ
テーブル1100に、各グループのブロック数BLN、
先頭ブロック番号アドレスを設定する。
【0160】次に、ブロック分類において、異なるブロ
ックに分類されたブロックを統合する処理について、説
明する。図54は、罫線回復処理の説明図、図55は、
罫線回復処理フロー図、図56及び図57は、罫線回復
前のテーブル説明図、図58乃至図60は、罫線回復後
のテーブル説明図である。
【0161】図54に示すように、図2の帳票例1にお
いて、罫線項目63と罫線項目64の部分が掠れによ
り、罫線が消失しているものとする。この部分は、上下
の論理行と構造が異なるため、ブロックBに分類され
る。又、ブロックBは、論理行が1行の構造であるた
め、罫線項目の抽出順序は、他の行と異なっている。以
下、図55により、処理を説明する。
【0162】(S75)グループ情報テーブル1100
からグループ情報を抽出する。全てのグループ情報をち
ゅしゅつしたかを判定する。全てのグループ情報を抽出
した場合には、処理を終了する。
【0163】(S76)ブロック情報テーブル1101
からそのグループのブロック情報を抽出する。全ブロッ
ク情報を抽出したかを調べる。全ブロックを抽出した場
合には、ステップS79に進む。
【0164】(S77)ブロック情報テーブル1101
から次のブロック情報を抽出する。全ブロック情報を抽
出したかを調べる。全ブロックを抽出した場合には、ス
テップS76に戻る。
【0165】(S78)2つのブロック情報を構成する
論理行の構造を比較する。即ち、ブロックを構成する論
理行を構成する罫線項目の数は同じかを判定する。論理
行の中で罫線項目の配置は一致するかを判定する。論理
行の高さ、幅は同じかを判定する。一致する場合には、
ブロック数をカウントする。そして、一致するブロック
情報同志に、マーキングする。そして、ステップS77
に戻る。
【0166】(S79)ブロック情報テーブル1101
から一致数が最も多いブロックを基準ブロックとし、一
致数が最も多くないブロックを抽出する。図54で説明
すると、基準ブロックは、ブロックAが抽出され、一致
数が最も多くないブロックとして、ブロックBが抽出さ
れる。全ブロック情報を抽出したかを調べる。全ブロッ
クを抽出した場合には、ステップS75に戻る。
【0167】(S80)基準ブロックAとブロックBの
論理行での罫線項目の配置を比較する。即ち、罫線項目
の座標を論理行開始X座標、Y座標からの相対座標に変
換して、比較する。そして、罫線項目の配置が異なった
場合に、ブロックAの罫線項目の高さh1とブロックB
の罫線項目の高さh2とを比較する。この比較におい
て、h1<h2である場合には、罫線項目の罫線の消失
と判断する。このため、ブロックBの罫線項目を、ブロ
ックAの罫線項目の高さと一致するように、仮分割し
て、ブロックBについて、論理行情報を仮作成する。そ
して、ブロックAの論理行と仮作成したブロックBの論
理行が一致する時に、グループ情報、ブロックBのブロ
ック情報と論理行情報、罫線項目情報と横罫線情報を編
集する。そして、ステップS79に戻る。
【0168】これを、前述の図54の例で説明する。罫
線回復前のテーブルは、図56及び図57の如くであ
る。即ち、図56の罫線項目テーブル1104に示すよ
うに、罫線項目59〜罫線項目66は、ブロック3に分
類されている。罫線項目47、48は、ブロック2に分
類されている。
【0169】罫線回復後は、図58に示すように、罫線
項目テーブル1104において、罫線項目63と64の
終了座標を、横罫線12の座標値に変更する。罫線項目
177と178を新規に作成する。上側が横罫線11、
下側が横罫線12の罫線項目と、上側が横罫線11、下
側が横罫線13の罫線項目とのブロック番号を、ブロッ
ク2に変更する。その罫線項目の論理行番号をブロック
2内の通し番号に変更する。下側が横罫線13の罫線項
目の下側横罫線番号を「12」に変更する。同一グルー
プ内の罫線番号が、論理行順になるように、テーブル1
104をソートする。同一論理行番号の罫線項目をX座
標順になるようにテーブルをソートする。グループ3、
ブロック4以降の罫線項目のブロック番号をブロック2
に変更し、論理行番号をブロック2内の通し番号に変更
する。
【0170】図59の論理行テーブル1102におい
て、グループ3、ブロック3の論理行情報を横罫線1
1、12に囲まれる範囲に変更する。グループ3、ブロ
ック3の論理行情報のブロック番号を、ブロック2に変
更する。論理行番号をブロック2内の通し番号(4)に
変更する。グループ3、ブロック2の罫線項目数を「1
4」に、下側横罫線番号を「12」に変更する。グルー
プ3、ブロック2の論理行番号を新規に作成する。グル
ープ3、ブロック4以降の論理行情報のブロック番号
を、ブロック2に変更する。論理行番号をブロック2内
の通し番号に変更する。
【0171】図59のブロック情報テーブル1101に
おいて、グループ3、ブロック2の罫線項目数を「14
0」に、論理行数を「10」に、下側横罫線番号を「1
9」に変更する。グループ3のブロック3とブロック4
を、テーブルから削除する。
【0172】図60のグループ情報テーブル1100に
おいて、グループ2のブロック数を「2」に、罫線項目
数を「147」に変更する。横罫線テーブル1105に
おいて、横罫線12の終了Y座標を、横罫線11と同じ
座標値に変更する。横罫線13を削除する。
【0173】このようにして、隣接する異なるブロック
間において、論理行の構造を比較する。これにより、基
準ブロックと構造の似ているブロックを探し、似ている
ブロックを基準ブロックの論理行構造になるように、罫
線を付加する。これにより、掠れた罫線を回復する。
【0174】次に、帳票の罫線項目に消し線が記入され
て、異なるブロックに分類されたものを、同一のブロッ
クに統合する処理について、説明する。図61は、論理
行統合処理の説明図、図62は論理行統合処理フロー
図、図63及び図64は、ろた行統合前のテーブル説明
図、図65乃至図67は、論理行統合後のテーブル説明
図である。
【0175】図61は、帳票の罫線項目に消し線が記入
された例を示し、罫線項目59と罫線項目73との間
に、横罫線が消し線として記入されている。元の帳票で
は、罫線項目59と罫線項目73とが合わせて1つの罫
線項目であった。消し線により、1つの罫線項目が、2
つに分割されている。2つに分割された行を1つの行に
統合する。又、記入内容の訂正を行うため、引かれた訂
正線により、罫線項目が部分的に分割された場合にも、
統合処理により解析が可能となる。
【0176】図62の処理フローにより、説明する。
【0177】(S81)図55の罫線回復処理のステッ
プS75〜ステップS79の処理を実行して、基準ブロ
ックと一致数が異なるブロックを抽出する。この参照中
のブロックは、基準ブロックかを判定する。参照された
ブロックが基準ブロックの場合には、ステップS79
(図55)に戻る。
【0178】(S82)論理行テーブル1102から、
参照ブロックの論理行情報を抽出する。参照ブロックの
先頭論理行の高さに、その下の論理行の高さを1行づつ
加算する。加算した高さが、基準ブロックの高さに、一
致するまで、論理行を参照する。一致しなければ、ステ
ップS79(図55)に戻る。
【0179】(S83)一致した場合には、参照した論
理行を構成する罫線項目の内、上下に接続する罫線項目
を全て統合する。即ち、同じY座標を持ち、且つ共有す
るY座標がある罫線項目を統合する。更に、統合した罫
線項目で構成される論理行を仮作成する。そして、その
作成した論理行と基準ブロックの論理行の構造を比較す
る。論理行構造が一致する場合に、グループ情報、ブロ
ック情報、論理行情報、罫線項目情報を編集する。そし
て、ステップS79(図55)に戻る。
【0180】このようにして、基準ブロックと、基準ブ
ロックと構造の異なる他のブロックを抽出し、他のブロ
ックの高さと基準ブロックの高さから、消し線の存在を
検出する。そして、消し線の存在を検出すると、上下に
位置する罫線項目を統合し、論理行を仮作成する。仮作
成した論理行の構造と基準ブロックの論理行の構造を比
較して、確認する。このため、消し線、訂正線を除去す
ることができる。
【0181】図61のように、消し線が引かれた場合に
は、罫線項目テーブル1104は、図63のように、作
成される。論理行情報テーブル1102、ブロック情報
テーブル1101、グループ情報テーブル1100の各
々は、図64に示すように、作成される。
【0182】図61の消し線が除去され、ブロックA、
B、Cが、ブロックAに統合されると、図65に示すよ
うに、罫線項目テーブル1104では、罫線項目59か
ら罫線項目72までの終了座標を横罫線13の座標値
に、下側横罫線番号を「13」に変更する。罫線項目5
9から罫線項目72までのブロック番号を、ブロック2
に変更する。罫線項目59から罫線項目72までの論理
行番号を、ブロック2内での通し番号に変更する。罫線
項目73から罫線項目86までを削除する。罫線項目1
01以降のブロック番号をブロック2に、論理行番号を
ブロック2内の通し番号に変更する。
【0183】図66に示すように、論理行情報テーブル
1102において、グループ3、ブロック3の論理行終
了Y座標を、横罫線13のY座標に変更し、下側横罫線
番号を「13」に変更する。グループ3、ブロック3の
ブロック番号を、ブロック2に変更し、論理行番号を、
ブロック2内の通し番号(4)に変更する。グループ
3、ブロック4以降のブロック番号をブロック2に変更
し、論理行番号をブロック2内の通し番号に変更する。
【0184】図66に示すように、ブロック情報テーブ
ル1101において、グループ3、ブロック2の罫線項
目数を「140」に、論理行数を「10」に、下側横罫
線番号を「19」に変更する。グループ3のブロック3
とブロック4とをテーブルから削除する。
【0185】図67に示すように、グループ情報テーブ
ル1100において、グループ2の罫線項目数を「14
7」に、ブロック数を「2」に、論理行数を「11」に
変更する。横罫線テーブル1105において、横罫線1
2を削除する。
【0186】(f)論理列判定処理の説明 図68は、論理列判定処理フロー図、図69乃至図71
は、論理列判定後のテーブル説明図である。論理列の判
定処理について、図68により説明する。
【0187】(S90)グループ情報テーブル1100
から、グループ情報を抽出する。全てのグループ情報を
抽出したかを判定する。全てのグループ情報を抽出した
場合には、終了する。
【0188】(S91)ブロック情報テーブル1101
から、抽出したグループの2つのブロックのブロック情
報を抽出する。抽出したグループの全てのブロック情報
を抽出したかを判定する。全てのブロック情報を抽出し
た場合には、ステップS90に戻る。
【0189】(S92)罫線項目テーブル1104か
ら、抽出した各ブロックの先頭の論理行を構成する罫線
項目情報を順次抽出する。抽出した論理行の全ての罫線
項目情報を参照したかを判定する。全ての罫線項目情報
を参照した場合には、後述するステップS97で、入れ
子情報を設定したかを判定する。入れ子情報を設定して
いない場合には、抽出した2つのブロック間の論理列が
終了するので、ステップS91に戻る。入れ子情報を設
定した場合には、グループ情報、ブロック情報、論理行
情報を更新する。更に、参照中ブロックの2行以下の論
理行についても、1行目と同様に、各情報を更新する。
そして、ステップS91に戻る。
【0190】(S93)2つの論理行の罫線項目が、同
じ幅かを判定する。同じ幅でない場合には、幅の狭い論
理行側で、次の罫線項目を抽出する。そして、幅の狭い
論理行側で、現罫線項目と次の罫線項目との幅を加算す
る。幅の広い論理行の罫線項目と、その加算値を比較し
て、同じ幅となるかを判定する。同じ幅となるまで、罫
線項目の抽出を繰り返す。
【0191】(S94)このようにして、第1のブロッ
クの先頭論理行の罫線項目と、第2のブロックの先頭論
理行の罫線項目との間の列方向の対応関係が判明した。
【0192】次に、抽出した罫線項目数をカウントす
る。
【0193】(S95)入れ子構造を検出するため、抽
出した罫線項目の数が「1」かを判定する。
【0194】(S96)罫線項目数が「1」である場合
には、入れ子構造でない。このため、抽出した罫線項目
に、左側からの通し番号を、論理列番号として設定す
る。
【0195】(S97)罫線項目数が「1」でない場合
には、入れ子構造である。このため、入れ子構造の罫線
項目に、同じ通し番号を、論理列番号として設定する。
そして、入れ子構造を構成する罫線項目に、入れ子情報
を設定する。
【0196】(S98)論理列情報を作成し、同じ論理
列内の罫線項目間にリンクを設定する。この時、同じグ
ループで異なるブロック、論理行間で同じ列番号が設定
されたものの間に、リンクを設定する。そして、ステッ
プS92に戻る。
【0197】このようにして、上下に接続するブロック
の間で、同じ列構造を持つかを判定する。そして、同じ
列構造を持つ場合、それらブロックを論理列の単位で統
合する。
【0198】図2の帳票例で説明する。図69に示すよ
うに、罫線項目情報テーブル1104では、罫線項目の
列番号欄ROに、論理列番号が設定される。例えば、ブ
ロック1の罫線項目10、11、12には、列番号が
「1」と設定される。異なるブロック2において、この
罫線番号と同じ幅の罫線項目は、「17」と「18」で
ある。従って、ブロック2の罫線項目17、18には、
同じ列番号「1」が設定される。
【0199】次に、入れ子構造を構成する罫線項目に入
れ子情報INを設定する。図69では、罫線項目17、
18に、入れ子情報を設定する。同様に、同じ論理列を
構成する罫線項目(例えば、罫線項目31、32)に
も、入れ子情報を設定する。更に、同じ論理列を構成す
る罫線項目間に、アドレスリンクHAAを設定する。
【0200】この場合に、入れ子情報INは、入れ子フ
ラグINF、階層番号KN、子罫線項目番号CRN、罫
線項目間リンク通し番号RLNからなる。罫線項目1
7、18の例では、罫線項目17、18が入れ子構造の
ため、入れ子フラグINFがオンとなる。2つの罫線項
目17、18間に親子関係がないため、階層番号KN
に、「0」を設定する。2つの罫線項目17、18間に
親子関係がないため、子罫線項目番号CRNに、「0」
を設定する。罫線項目17、18が兄弟関係のため、罫
線項目17の罫線項目間リンク番号RLNに、「0」
を、罫線項目18の罫線項目間リンク番号RLNに、
「1」を設定する。
【0201】図70に示すように、論理行情報テーブル
1102において、論理行2の論理列数LLを、「5」
に変更する。図70に示す論理列情報テーブル1103
は、新規に作成する。この論理列情報テーブル1103
は、論理列番号RO、開始座標SC、終了座標EC、グ
ループ番号GN、ブロック番号BN、罫線項目数RI
N、上側横罫線番号ULN、下側横罫線番号LLN、左
側縦罫線番号ELN、右側縦罫線番号RRN、先頭罫線
項目アドレスHLAからなる。前述の列方向の関係に応
じて、これらを作成する。
【0202】更に、図71に示すように、ブロック情報
テーブル1101は、グループ3、ブロック2の論理列
数が、「5」に変更される。そして、各ブロックの先頭
論理列アドレスHAAが設定される。
【0203】このようにして、各グループにおいて、ブ
ロック間の罫線項目の列方向の関係が判定される。そし
て、これに従い、列方向の関係を記述するテーブルが更
新される。
【0204】次に、図20(A)及び図20(B)で説
明した1桁及び3桁罫線の入れ子解析処理について、説
明する。図72は、1桁、3桁罫線の入れ子解析処理フ
ロー図、図73は入れ子解析後のテーブル説明図であ
る。
【0205】(S100)論理行テーブル1102から
論理行情報を抽出する。全論理行情報を抽出したかを判
定する。全論理行情報を抽出した場合には、終了する。
【0206】(S101)論理行情報からリンクする罫
線項目を抽出する。全罫線項目を抽出したかを判定す
る。全罫線項目を抽出した場合には、ステップS100
に戻る。
【0207】(S102)抽出した罫線項目のサイズ
が、1桁罫線項目のサイズに該当するかを判定する。該
当する場合には、ステップS104に進む。該当しない
場合には、ステップS103に進む。
【0208】(S103)抽出した罫線項目のサイズ
が、3桁罫線項目のサイズに該当するかを判定する。該
当する場合には、ステップS104に進む。該当しない
場合には、ステップS101に戻る。
【0209】(S104)参照中の論理行の中で、次の
罫線項目を抽出する。現罫線項目と次の罫線項目との大
きさを比較する。誤差範囲内で一致するかを判定する。
一致する場合には、ステップS105に進む。一致しな
い場合には、ステップS101に戻る。
【0210】(S105)現罫線番号のリンク先罫線番
号に、次の罫線番号を設定する。そして、ステップS1
01に戻る。
【0211】図73には、図2の帳票例における罫線項
目テーブル1104の更新後の状態を示す。図2におい
て、1桁罫線項目は、罫線項目22〜30、36〜44
等である。上述の処理により、これらの罫線項目22〜
30が、1桁罫線項目と判定される。そして、罫線項目
テーブル1104において、網掛け状態にして示すよう
に、1桁罫線項目22〜30のリンク先罫線項目番号A
Nに、リンクする罫線番号が設定される。尚、前述の入
れ子処理により、罫線番号22〜30は、入れ子構造と
判定され、入れ子情報INが設定されている。
【0212】このようにして、予め1桁罫線項目又は3
桁罫線項目の縦サイズと横サイズを定義しておく。これ
らサイズと一致する罫線項目が任意数並んだ場合には、
これらを入れ子構造として、論理的に1つの罫線項目と
してまとめる。このような結果を利用して、文字認識処
理では、連続する罫線項目を1つの文字列として扱うこ
とができる。
【0213】次に、図21(A)及び図21(B)に示
した特殊な構造を持つ矩形の入れ子構造を解析する処理
について、説明する。図74は、主表以外の入れ子解析
処理フロー図、図75及び図76は、入れ子解析後のテ
ーブル説明図である。
【0214】(S110)グループ情報テーブル110
0から、グループ情報を抽出する。全グループ情報を抽
出したかを判定する。全グループ情報を抽出した場合に
は、終了する。
【0215】(S111)抽出したグループの構造を判
定する。グループは、1ブロック且つ1行かを判定す
る。グループが、1ブロック且つ1行である場合には、
ステップS114に進む。グループが、1ブロック且つ
1行でない場合には、グループが1列かを判定する。グ
ループが1列でない場合には、ステップS110に戻
る。グループが1列である場合には、グループが複数ブ
ロックの構造かを判定する。グループが複数ブロックの
構造でない場合には、ステップS110に戻る。グルー
プが複数ブロックの構造である場合には、ステップS1
12に進む。
【0216】(S112)そのグループを構成する罫線
項目を抽出する。全罫線項目情報を参照したかを判定す
る。全罫線項目情報を参照した場合には、ステップS1
10に戻る。
【0217】(S113)そのグループにおいて、現参
照罫線項目の次の罫線項目を順次抽出する。そして、現
罫線項目と次の罫線項目の左側縦罫線番号を比較する。
両罫線項目の左側縦罫線番号が一致する場合には、罫線
項目間に入れ子情報(親子関係)を設定する。次に、現
罫線項目と次の罫線項目の上側横罫線番号を比較する。
両罫線項目の上側横罫線番号が一致する場合には、罫線
項目間に入れ子情報(兄弟関係)を設定する。これによ
り、図21(B)に示す例の入れ子構造が検出される。
そして、ステップS112に戻る。
【0218】(S114)グループが、1ブロック且つ
1行である場合には、そのグループを構成する罫線項目
を抽出する。全罫線項目情報を参照したかを判定する。
全罫線項目情報を参照した場合には、ステップS110
に戻る。
【0219】(S115)そのグループにおいて、現参
照罫線項目の次の罫線項目を順次抽出する。そして、現
罫線項目と次の罫線項目の上側横罫線番号を比較する。
両罫線項目の上側横罫線番号が一致する場合には、罫線
項目間に入れ子情報(親子関係)を設定する。次に、現
罫線項目と次の罫線項目の左側縦罫線番号を比較する。
両罫線項目の左側縦罫線番号が一致する場合には、罫線
項目間に入れ子情報(兄弟関係)を設定する。これによ
り、図21(A)に示す例の入れ子構造が検出される。
そして、ステップS114に戻る。
【0220】このようにして、帳票上の主表以外の箇所
を、構造毎に入れ子構造解析処理を行う。図21(A)
では、罫線項目1に対し、罫線項目2が親子の関係にあ
る。罫線項目2に対し、罫線項目4が親子の関係にあ
る。罫線項目3に対し、罫線項目5が親子の関係にあ
る。罫線項目2に対し、罫線項目3が兄弟の関係にあ
る。罫線項目4に対し、罫線項目5が兄弟の関係にあ
る。図21(B)では、罫線項目1に対し、罫線項目2
が親子の関係にある。罫線項目2に対し、罫線項目4が
親子の関係にある。罫線項目3に対し、罫線項目5が親
子の関係にある。罫線項目2に対し、罫線項目3が兄弟
の関係にある。罫線項目4に対し、罫線項目5が兄弟の
関係にある。
【0221】図2の帳票例において、各テーブルを説明
する。図75に示すように、罫線項目テーブル1104
では、罫線項目1〜5に、入れ子フラグINFを設定さ
れる。罫線番号2、3に対しては、入れ子階層番号KN
が「1」に設定され、罫線番号4、5に対しては、入れ
子階層番号KNが「2」に設定される。子階層番号CR
Nは、罫線番号1に「2」が、設定され、罫線番号2に
「4」が設定され、罫線番号3に「5」が設定される。
罫線項目間リンク通し番号RLNは、罫線番号3と5に
対し、「1」が設定される。
【0222】図75に示すように、論理行情報テーブル
1102では、グループ1、ブロック1の論理行1に、
論理列数「1」が設定される。図76に示すように、論
理列情報テーブル1103では、論理列2、3が削除さ
れ、論理列番号1の罫線項目数が「5」に変更される。
図76に示すように、ブロック情報テーブル1101で
は、グループ1、ブロック1の論理列数が「1」に変更
される。
【0223】このようにして、主表以外の部分の入れ子
構造を解析する。
【0224】(g)属性付与処理の説明 図77は、属性処理フロー図、図78は、属性付与後の
テーブル説明図である。
【0225】(S120)グループ情報テーブル110
0からグループ情報を抽出する。全グループ情報を抽出
したかを判定する。全グループ情報を抽出した場合に
は、終了する。
【0226】(S121)そのグループは、複数ブロッ
クで構成されるかを判定する。複数ブロックで構成され
ていない場合には、ステップS120に戻る。
【0227】(S122)グループ情報のブロック情報
アドレスからブロック情報を抽出し、各ブロックにブロ
ック属性BZを付与する。即ち、第1番目のブロック
に、ヘッダブロック属性を付与し、第2番目のブロック
に、ボディブロック属性を付与し、第3番目以降のブロ
ックに、フッタブロック属性を付与する。そして、ステ
ップS120に戻る。
【0228】このようにして、表構造部を構成するブロ
ックに、属性を付与して、各ブロックに意味を持たせ
る。図78に示すように、ブロック情報テーブル110
1において、グループ3の第1番目のブロック1に、ヘ
ッダブロック属性「1」を付与し、第2番目のブロック
2に、ボディブロック属性「2」を付与し、第3番目の
ブロック3に、フッタブロック属性「3」を付与する。
【0229】(h)見出しフラグ設定処理の説明 次に、見出しを構成する罫線項目に、見出しフラグを設
定する見出しフラグ設定処理について、説明する。
【0230】図79は、フラグ設定処理フロー図、図8
0は、フラグ設定後のテーブル説明図である。
【0231】(S130)グループ情報テーブル110
0から、グループ情報を抽出する。全てのグループ情報
を抽出したかを判定する。全てのグループ情報を抽出し
た場合には、終了する。
【0232】(S131)グループ情報からアドレス指
示されているブロック情報を抽出する。グループ内の全
ブロック情報を抽出したかを判定する。グループ内の全
ブロック情報を抽出した場合には、ステップS130に
戻る。
【0233】(S132)抽出したブロックは、ヘッダ
ブロックかを判定する。ヘッダブロックである場合に
は、当該ブロックの論理行情報を1レコードづつ抽出す
る。論理行内の罫線項目情報を1レコードづつ抽出し
て、見出しフラグをオンする。これにより、ヘッダブロ
ックを構成する罫線項目全てに、見出しフラグを設定す
る。そして、ステップS131に戻る。
【0234】(S133)抽出したブロックは、フッタ
ブロックかを判定する。フッタブロックでない場合に
は、ステップS134に進む。フッタブロックである場
合には、当該ブロックの論理行情報を1レコードづつ抽
出する。論理行内の罫線項目情報を1レコードづつ抽出
して、見出しフラグをオンする。これにより、フッタブ
ロックを構成する罫線項目全てに、見出しフラグを設定
する。そして、ステップS131に戻る。
【0235】(S134)抽出したブロックは、ボディ
ブロックかを判定する。ボディブロックでない場合に
は、ステップS131に戻る。ボディブロックである場
合には、当該ブロックの先頭論理行情報を1レコードづ
つ抽出する。抽出した先頭論理行内の罫線項目情報を1
レコードづつ抽出して、見出しフラグをオンする。これ
により、ボディブロックの先頭論理行を構成する罫線項
目全てに、見出しフラグを設定する。そして、該当ブロ
ックの先頭論理列情報を抽出する。抽出した先頭論理列
内の罫線項目情報を1レコードづつ抽出して、見出しフ
ラグをオンする。これにより、先頭論理列の罫線項目
に、見出しフラグを設定する。そして、ステップS13
1に戻る。
【0236】この見出し部を抽出しておくと、使用され
る文字を制限でき、その文字(文言)に特化した文字認
識処理を行うことができる。従って、高精度に見出し部
分の文言を認識することができる。図80に示すよう
に、罫線項目テーブル1102において、図79のルー
ルに従い、見出しと推定される罫線項目に、見出しフラ
グMFが設定される。
【0237】(i)見出し部分の文字認識処理の説明 次に、見出しの種類を決定するため、見出しフラグが設
定された罫線項目内に存在する文字列の文字認識を行
う。
【0238】図81は、見出し認識処理フロー図、図8
2は、見出し認識後のテーブル説明図である。
【0239】(S140)グループ情報テーブル110
0から、グループ情報を抽出する。全てのグループ情報
を抽出したかを判定する。全てのグループ情報を抽出し
た場合には、終了する。
【0240】(S141)グループ情報からアドレス指
示されているブロック情報を抽出する。グループ内の全
ブロック情報を抽出したかを判定する。グループ内の全
ブロック情報を抽出した場合には、ステップS140に
戻る。
【0241】(S142)ブロック情報はボディブロッ
クかを判定する。ボディブロックである場合には、デー
タ部分のため、ステップS141に戻る。
【0242】(S143)ボディブロックでない場合に
は、見出し部分の可能性がある。このため、ブロック情
報からアドレス指示されている論理行情報を抽出する。
全ての論理行情報を抽出したかを判定する。全ての論理
行を抽出した場合には、ステップS141に戻る。
【0243】(S144)論理行情報からアドレス指示
されている罫線項目情報を抽出する。
【0244】(S145)そして、罫線項目情報の見出
しフラグがオンかを判定する。見出しフラグがオンでな
い場合には、ステップS144に戻る。
【0245】(S146)罫線項目内の文字列データ部
分のイメージを切り出す。そして、切り出したイメージ
を、見出し文言辞書1003(図25参照)を使用し
て、文字認識する。図25に示したように、見出し文言
辞書1003は、見出しとして存在する文言(振込先
等)と、そのイメージとが登録されたものである。従っ
て、一般の文字認識辞書を使用した場合よりも高い精度
での文字認識が可能となる。
【0246】(S147)一致した辞書レコードの見出
し名称を抽出する。見出しテーブル(図24参照)から
見出し名称が一致するレコードを抽出する。即ち、認識
結果から得られた見出し名称をキーとして、図24に示
す見出しテーブルを参照する。図24に示したように、
見出しテーブルには、見出し名称に対応する属性情報
(文字認識カテゴリ、文字フォント等)が登録されてい
る。そして、その見出し名称に一致するレコード(属性
情報)を抽出する。そして、その罫線項目情報に、属性
(文字認識カテゴリCC、文字フォントCF)を設定す
る。そして、ステップS144に戻る。
【0247】このようにして、見出し部分を、限定され
た文字認識辞書を用いて、文字認識する。図82に示す
ように、図2に示す帳票例1の場合に、罫線項目テーブ
ル1104の見出しフラグがオンである罫線項目に、文
字認識カテゴリCC、文字フォントCFが設定される。
【0248】(j)データ部分の属性設定処理の説明 次に、データ部分の属性を決定するため、見出しフラグ
が設定されていない罫線項目の属性を決定する。
【0249】図83は、属性設定処理フロー図、図84
は、属性設定後のテーブル説明図である。
【0250】(S150)グループ情報テーブル110
0から、グループ情報を抽出する。全てのグループ情報
を抽出したかを判定する。全てのグループ情報を抽出し
た場合には、終了する。
【0251】(S151)グループ情報からアドレス指
示されているブロック情報を抽出する。グループ内の全
ブロック情報を抽出したかを判定する。グループ内の全
ブロック情報を抽出した場合には、ステップS150に
戻る。
【0252】(S152)ブロック情報からアドレス指
示されている論理列情報を抽出する。全ての論理列情報
を抽出したかを判定する。全ての論理列を抽出した場合
には、ステップS151に戻る。
【0253】(S153)論理列情報からアドレス指示
されている罫線項目情報を抽出する。そして、罫線項目
情報の見出しフラグがオンかを判定する。見出しフラグ
がオンでない場合には、ステップS155に進む。
【0254】(S154)見出しフラグがオンされてい
る場合には、その罫線項目の文字認識カテゴリ、文字フ
ォントを保存する。そして、ステップS153に戻る。
【0255】(S155)見出しフラグがオンでない場
合には、データ部分の罫線項目である。罫線項目情報
は、入れ子情報かを判定する。入れ子情報である場合に
は、ステップS156に進む。入れ子情報でない場合に
は、ステップS154で保存した文字認識カテゴリ、文
字フォントを参照中の罫線項目に設定する。これによ
り、データ部分に、同一論理列の見出し部分の属性が設
定される。そして、ステップS153に戻る。
【0256】(S156)入れ子情報である場合には、
参照中の罫線項目と同一レベル(階層番号リンク通し番
号)の罫線項目から、ステップS154で保存した文字
認識カテゴリ、文字フォントを参照中の罫線項目に設定
する。そして、ステップS153に戻る。
【0257】このようにして、論理列を構成する罫線項
目のうち、見出し以外の罫線項目に対して、文字認識カ
テゴリ、文字フォント等の認識特性を、見出しの罫線項
目から複写する。図84に示すように、図2の帳票例の
場合には、罫線項目情報テーブル1104のデータ部分
の罫線項目3、5、7等に、同一論理列の罫線項目の文
字認識カテゴリCC、文字フォントCFが設定される。
このため、論理列情報により、データ部分のデータ名属
性が決定される。
【0258】(k)データ部分の文字認識処理の説明 次に、データ部分の文字を認識するため、見出しフラグ
が設定されていない罫線項目の文字認識を行う。
【0259】図85は、文字認識処理フロー図、図86
は、文字認識結果の説明図である。
【0260】(S160)図86に示す文字認識結果通
知領域管理部1200をメモリに設定する。管理部12
00は、認識結果見出し数と、認識結果見出し領域アド
レスとからなる。
【0261】(S161)グループ情報テーブル110
0から、グループ情報を抽出する。全てのグループ情報
を抽出したかを判定する。全てのグループ情報を抽出し
た場合には、終了する。
【0262】(S162)グループ情報からアドレス指
示されているブロック情報を抽出する。グループ内の全
ブロック情報を抽出したかを判定する。グループ内の全
ブロック情報を抽出した場合には、ステップS161に
戻る。
【0263】(S163)ブロック情報からアドレス指
示されている論理列情報を抽出する。全ての論理列情報
を抽出したかを判定する。全ての論理列を抽出した場合
には、ステップS162に戻る。
【0264】(S164)論理列情報からアドレス指示
されている罫線項目情報を抽出する。
【0265】(S165)罫線項目情報の見出しフラグ
がオンかを判定する。見出しフラグがオンである場合に
は、ステップS164に戻る。
【0266】(S166)見出しフラグがオンでない場
合には、その罫線項目内に存在する文字列を、一般の文
字認識辞書1004(図1参照)を使用して、文字認識
する。この時、文字認識辞書1004は、漢字、数字等
の各認識カテゴリに対し、別々に設けられている。従っ
て、前述したデータ部分の認識属性に従い、一般辞書か
ら認識辞書を選択して、文字認識する。このため、デー
タ部分も高い精度で文字認識できる。
【0267】更に、図86に示す認識結果見出し領域1
201を設定する。領域1201は、見出し名称と、認
識結果データ数、認識結果レコード長、認識結果データ
アドレスから成る。そして、認識結果データ領域120
2を設定する。即ち、認識結果データアドレスの示す領
域に、認識結果を設定する。
【0268】このようにして、得られた認識結果を認識
結果通知領域に設定する。これにより、データ部分のデ
ータ名称、データ数、文字認識結果が得られる。
【0269】このようにして、各罫線項目の行と列の関
係を判定し、見出し部とそれに対応するデータ部とに分
類する。そして、見出し部分を見出し認識辞書を用いて
文字認識して、見出し名称を得る。論理列の構造の関係
から見出し部分に対応したデータ部分のデータ名称が判
明する。このため、帳票の各項目のフォーマットを予め
定義しておく必要がない。
【0270】更に、見出し名称から認識属性を見出しテ
ーブルにより得る。これに従い、データ部分を文字認識
する。このため、帳票の表構造を解析することができ、
データ部分の文字認識結果を精度を高めることができ
る。
【0271】上述の実施の形態では、各帳票の記入又は
印刷文字として、漢字、英字、数字を例に説明したが、
数字又は英字のみであって良い。又、罫線項目の属性と
して、そのデータ名称、文字認識カテゴリ、文字フォン
トを検出しているが、データ名称のみであっても良い。
【0272】以上、本発明の実施の形態により説明した
が、本発明の主旨の範囲内で種々の変形が可能であり、
これらを本発明の範囲から排除するものではない。
【0273】
【発明の効果】以上説明したように、本発明によれば、
次の効果を奏する。
【0274】(1) 帳票の罫線項目の並びを検出して、帳
票の表構造を自動解析するため、帳票のフォーマットを
登録する手間を省くことができる。
【0275】(2) 帳票のフォーマットが自動登録される
ので、フォーマットを変更しても、再登録の手間を省く
ことができる。
【図面の簡単な説明】
【図1】本発明の一実施の形態のブロック図である。
【図2】本発明の一実施の形態の第1の帳票例説明図で
ある。
【図3】本発明の一実施の形態の第2の帳票例説明図で
ある。
【図4】本発明の一実施の形態の全体フロー図(その
1)である。
【図5】本発明の一実施の形態の全体フロー図(その
2)である。
【図6】図4の罫線抽出処理の説明図である。
【図7】図4のグループ抽出処理の説明図である。
【図8】図7のグループ抽出処理の接続関係の説明図で
ある。
【図9】図4の表構成要素の分類処理の説明図である。
【図10】図4の論理行分類処理説明図である。
【図11】図10の論理行分類処理の動作説明図であ
る。
【図12】図10の入れ子抽出処理の説明図である。
【図13】図10の表構造部の統合処理の説明図であ
る。
【図14】図10の罫線作成処理の説明図である。
【図15】図4のブロック分類処理の説明図である。
【図16】図15の罫線回復処理の説明図である。
【図17】図15の論理行統合処理の説明図である。
【図18】図4の論理列判定処理の説明図である。
【図19】図18の列方向の入れ子抽出処理の説明図で
ある。
【図20】図18の1桁及び3桁罫線の入れ子構造の説
明図である。
【図21】図18の主表以外の箇所の入れ子解析の説明
図である。
【図22】図4のブロックの属性付与の説明図である。
【図23】図5のフラグ設定処理の説明図である。
【図24】図5の見出し認識処理の説明図である。
【図25】図5の見出し文言辞書の説明図である。
【図26】図4及び図5の処理のためのテーブルの関係
図である。
【図27】図26の横罫線テーブルの説明図である。
【図28】図26の縦罫線テーブルの説明図である。
【図29】図26の罫線項目テーブルの説明図である。
【図30】斜度算出処理フロー図である。
【図31】座標補正処理フロー図である。
【図32】グループ処理フロー図である。
【図33】図32のテーブル更新の説明図である。
【図34】構成要素分類処理フロー図(その1)であ
る。
【図35】構成要素分類処理フロー図(その2)であ
る。
【図36】図34及び図35の分類後のテーブル説明図
(その1)である。
【図37】図34及び図35の分類後のテーブル説明図
(その2)である。
【図38】論理行分類処理フロー図である。
【図39】入れ子構造解析処理フロー図である。
【図40】論理行抽出後のテーブル説明図(その1)で
ある。
【図41】論理行抽出後のテーブル説明図(その2)で
ある。
【図42】統合処理フロー図である。
【図43】帳票例2のテーブル説明図(その1)であ
る。
【図44】帳票例2のテーブル説明図(その2)であ
る。
【図45】帳票例2のグループ統合後のテーブル説明図
(その1)である。
【図46】帳票例2のグループ統合後のテーブル説明図
(その2)である。
【図47】罫線作成処理フロー図である。
【図48】罫線作成の説明図である。
【図49】罫線作成後のテーブル説明図(その1)であ
る。
【図50】罫線作成後のテーブル説明図(その2)であ
る。
【図51】ブロック分類処理フロー図である。
【図52】ブロック分類後のテーブル説明図(その1)
である。
【図53】ブロック分類後のテーブル説明図(その2)
である。
【図54】罫線回復処理の説明図である。
【図55】罫線回復処理フロー図である。
【図56】罫線回復前のテーブル説明図(その1)であ
る。
【図57】罫線回復前のテーブル説明図(その2)であ
る。
【図58】罫線回復後のテーブル説明図(その1)であ
る。
【図59】罫線回復後のテーブル説明図(その2)であ
る。
【図60】罫線回復後のテーブル説明図(その3)であ
る。
【図61】論理行統合処理の説明図である。
【図62】論理行統合処理フロー図である。
【図63】論理行統合前のテーブル説明図(その1)で
ある。
【図64】論理行統合前のテーブル説明図(その2)で
ある。
【図65】論理行統合後のテーブル説明図(その1)で
ある。
【図66】論理行統合後のテーブル説明図(その2)で
ある。
【図67】論理行統合後のテーブル説明図(その3)で
ある。
【図68】論理列判定処理フロー図である。
【図69】論理列判定後のテーブル説明図(その1)で
ある。
【図70】論理列判定後のテーブル説明図(その2)で
ある。
【図71】論理列判定後のテーブル説明図(その3)で
ある。
【図72】1桁、3桁罫線の入れ子解析処理フロー図で
ある。
【図73】入れ子解析後のテーブル説明図である。
【図74】主表以外の入れ子解析処理フロー図である。
【図75】入れ子解析後のテーブル説明図(その1)で
ある。
【図76】入れ子解析後のテーブル説明図(その2)で
ある。
【図77】属性付与処理フロー図である。
【図78】属性付与後のテーブル説明図である。
【図79】フラグ設定処理フロー図である。
【図80】フラグ設定後のテーブル説明図である。
【図81】見出し認識処理フロー図である。
【図82】見出し認識後のテーブル説明図である。
【図83】属性設定処理フロー図である。
【図84】属性設定後のテーブル説明図である。
【図85】文字認識処理フロー図である。
【図86】文字認識結果の説明図である。
【図87】従来技術の説明図である。
【符号の説明】
1000 リーダー 1001 プロセッサ 1002 メモリ 1003 見出し辞書 1004 一般辞書 1005 罫線抽出部 1006 表構造解析部 1007 属性決定部 1008 文字認識部
─────────────────────────────────────────────────────
【手続補正書】
【提出日】平成11年8月6日(1999.8.6)
【手続補正1】
【補正対象書類名】図面
【補正対象項目名】図68
【補正方法】変更
【補正内容】
【図68】
───────────────────────────────────────────────────── フロントページの続き (72)発明者 千葉 亘一 神奈川県川崎市中原区上小田中4丁目1番 1号 富士通株式会社内 (72)発明者 金元 浩一 神奈川県川崎市中原区上小田中4丁目1番 1号 富士通株式会社内 (72)発明者 矢吹 眞紀 神奈川県川崎市中原区上小田中4丁目1番 1号 富士通株式会社内 (72)発明者 勝又 裕 神奈川県川崎市中原区上小田中4丁目1番 1号 富士通株式会社内 Fターム(参考) 5B029 CC26 EE12 5L096 BA18 FA03 FA16 FA79 HA13

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 帳票の表構造を認識する帳票認識方法に
    おいて、 前記帳票のイメージから前記帳票の縦罫線、横罫線及び
    罫線で構成される最小矩形を抽出するステップと、 前記帳票上の前記最小矩形の物理的並びから前記帳票の
    表構造を解析するステップと、 前記解析した表構造から前記最小矩形の属性を決定する
    ステップとを有することを特徴とする帳票認識方法。
  2. 【請求項2】 請求項1の帳票認識方法において、 前記表構造を解析するステップは、 前記最小矩形の位置関係から前記最小矩形の行方向の関
    係を抽出するステップと、 前記最小矩形の位置関係から前記最小矩形の列方向の関
    係を抽出するステップとを有することを特徴とする帳票
    認識方法。
  3. 【請求項3】 請求項2の帳票認識方法において、 前記行方向の関係を抽出するステップは、 前記最小矩形の接続関係から前記最小矩形を各行を構成
    する最小矩形に分類するステップと、 前記連続して、且つ同じ行構造を持つ行をブロックにま
    とめるステップとを有し、 前記列方向の関係を抽出するステップは、 上下に接続するブロック間で同じ列構造を持つブロック
    の関係を抽出するステップを有するステップを有するこ
    とを特徴とする帳票認識方法。
  4. 【請求項4】 請求項3の帳票認識方法において、 前記属性を決定するステップは、 属する行数が最大であるブロックをデータ部分として決
    定し、そのブロックの上及び下に位置するブロックを見
    出し部分として決定するステップを含むことを特徴とす
    る帳票認識方法。
  5. 【請求項5】 請求項4の帳票認識方法において、 前記属性を決定するステップは、 前記見出し部分の文字を文字認識して、前記見出し部分
    の属性を決定するステップと、 前記見出し部分の属性から前記データ部分の属性を決定
    するステップとを有することを特徴とする帳票認識方
    法。
  6. 【請求項6】 請求項1の帳票認識方法において、 前記表構造を解析するステップは、 前記最小矩形の接続関係から、接続する最小矩形をグル
    ープに分類するステップと、 前記グループを表の構成要素単位に分類するステップ
    と、 前記表の構成要素単位に、前記最小矩形間の行と列の関
    係を解析するステップとを有することを特徴とする帳票
    認識方法。
  7. 【請求項7】 請求項6の帳票認識方法において、 前記最小矩形間の行と列の関係を解析するステップは、 前記最小矩形を、行方向の関係に解析するステップと、 前記最小矩形を、列方向の関係に解析するステップとを
    有することを特徴とする帳票認識方法。
  8. 【請求項8】 請求項7の帳票認識方法において、 前記行方向の関係に解析するステップは、 最小矩形が構成する行の入れ子構造を解析して、前記最
    小矩形に、入れ子情報を設定するステップを有すること
    を特徴とする帳票認識方法。
  9. 【請求項9】 請求項6の帳票認識方法において、 前記解析するステップは、 前記各構成要素の表構造を抽出するステップと、 同一の表構造を有する構成要素を統合するステップとを
    有することを特徴とする帳票認識方法。
  10. 【請求項10】 請求項6の帳票認識方法において、 前記解析するステップは、 前記各構成要素の表構造を抽出するステップと、 前記構成要素の表構造から、前記構成要素内の罫線を回
    復するステップを有することを特徴とする帳票認識方
    法。
  11. 【請求項11】 請求項7の帳票認識方法において、 前記行方向の関係を解析するステップは、 前記各行の構造から、前記行に付与された消し線を検出
    するステップと、 前記消し線を除去して、各行の関係を決定するステップ
    とを有することを特徴とする帳票認識方法。
  12. 【請求項12】 請求項6の帳票認識方法において、 前記解析するステップは、 同じ大きさの最小矩形が連続することを検出するステッ
    プと、 連続した最小矩形を1つの最小矩形に統合するステップ
    とを有することを特徴とする帳票認識方法。
JP14915499A 1999-05-28 1999-05-28 帳票認識方法 Expired - Fee Related JP4450888B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP14915499A JP4450888B2 (ja) 1999-05-28 1999-05-28 帳票認識方法
US09/421,481 US6567545B1 (en) 1999-05-28 1999-10-20 Format recognition method, apparatus and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP14915499A JP4450888B2 (ja) 1999-05-28 1999-05-28 帳票認識方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2009284133A Division JP4856235B2 (ja) 2009-12-15 2009-12-15 帳票認識方法及び帳票認識装置

Publications (2)

Publication Number Publication Date
JP2000339406A true JP2000339406A (ja) 2000-12-08
JP4450888B2 JP4450888B2 (ja) 2010-04-14

Family

ID=15468976

Family Applications (1)

Application Number Title Priority Date Filing Date
JP14915499A Expired - Fee Related JP4450888B2 (ja) 1999-05-28 1999-05-28 帳票認識方法

Country Status (2)

Country Link
US (1) US6567545B1 (ja)
JP (1) JP4450888B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7106904B2 (en) 2001-04-25 2006-09-12 Hitachi, Ltd. Form identification method
JP2007148719A (ja) * 2005-11-28 2007-06-14 Fuji Xerox Co Ltd 画像処理装置、方法及びプログラム
WO2008066142A1 (fr) * 2006-11-29 2008-06-05 Wingarc Technologies, Inc. Système de fabrication d'un imprimé, système de réseaux utilisant celui-ci, et procédé de fabrication d'un imprimé
JP2009093305A (ja) * 2007-10-05 2009-04-30 Hitachi Computer Peripherals Co Ltd 帳票認識装置
EP2136316A2 (en) 2008-06-20 2009-12-23 Fujitsu Frontech Limited Form recognition apparatus, method, database generation apparatus, method, and storage medium
JP2015049669A (ja) * 2013-08-30 2015-03-16 京セラドキュメントソリューションズ株式会社 資料評価プログラムおよび資料評価装置
WO2018016552A1 (ja) * 2016-07-21 2018-01-25 株式会社ミラボ 帳票入力フォーム生成装置、帳票入力フォーム生成方法及びプログラム

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1324216A1 (en) * 2001-12-28 2003-07-02 Deutsche Thomson-Brandt Gmbh Machine for classification of metadata
US20070226164A1 (en) * 2006-03-21 2007-09-27 Honeywell International Inc. Type variables and/or temporal constraints in plan recognition
KR101214772B1 (ko) * 2010-02-26 2012-12-21 삼성전자주식회사 문자의 방향성을 기반으로 한 문자 인식 장치 및 방법
JP6286866B2 (ja) * 2013-05-20 2018-03-07 オムロン株式会社 画像処理装置および画像処理方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5101448A (en) * 1988-08-24 1992-03-31 Hitachi, Ltd. Method and apparatus for processing a document by utilizing an image
US5452374A (en) * 1992-04-06 1995-09-19 Ricoh Corporation Skew detection and correction of a document image representation
DE69332750T2 (de) * 1993-01-11 2003-10-16 Canon Kk Gerät und Verfahren zur Bildverarbeitung
JP3179280B2 (ja) 1994-04-15 2001-06-25 三菱電機株式会社 表を含む帳票処理装置
JP3504054B2 (ja) * 1995-07-17 2004-03-08 株式会社東芝 文書処理装置および文書処理方法
JP3294995B2 (ja) 1996-06-21 2002-06-24 三菱電機株式会社 帳票読取装置
JP3622347B2 (ja) 1996-07-29 2005-02-23 松下電器産業株式会社 帳票認識装置
JP3391987B2 (ja) 1996-08-06 2003-03-31 株式会社リコー 帳票認識装置
JP3606500B2 (ja) * 1997-01-31 2005-01-05 株式会社リコー 矩形分類方法
JP3422924B2 (ja) * 1998-03-27 2003-07-07 富士通株式会社 文字認識装置、文字認識方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7106904B2 (en) 2001-04-25 2006-09-12 Hitachi, Ltd. Form identification method
JP2007148719A (ja) * 2005-11-28 2007-06-14 Fuji Xerox Co Ltd 画像処理装置、方法及びプログラム
JPWO2008066142A1 (ja) * 2006-11-29 2010-03-11 ウイングアーク テクノロジーズ株式会社 帳票作成システム及びこれを用いたネットワークシステム、並びに帳票作成方法。
WO2008066142A1 (fr) * 2006-11-29 2008-06-05 Wingarc Technologies, Inc. Système de fabrication d'un imprimé, système de réseaux utilisant celui-ci, et procédé de fabrication d'un imprimé
JP5189497B2 (ja) * 2006-11-29 2013-04-24 1stホールディングス株式会社 帳票作成システム及びこれを用いたネットワークシステム、並びに帳票作成方法。
JP2009093305A (ja) * 2007-10-05 2009-04-30 Hitachi Computer Peripherals Co Ltd 帳票認識装置
EP2136316A2 (en) 2008-06-20 2009-12-23 Fujitsu Frontech Limited Form recognition apparatus, method, database generation apparatus, method, and storage medium
US8891871B2 (en) 2008-06-20 2014-11-18 Fujitsu Frontech Limited Form recognition apparatus, method, database generation apparatus, method, and storage medium
JP2015049669A (ja) * 2013-08-30 2015-03-16 京セラドキュメントソリューションズ株式会社 資料評価プログラムおよび資料評価装置
WO2018016552A1 (ja) * 2016-07-21 2018-01-25 株式会社ミラボ 帳票入力フォーム生成装置、帳票入力フォーム生成方法及びプログラム
JPWO2018016552A1 (ja) * 2016-07-21 2019-05-16 株式会社ミラボ 帳票入力フォーム生成装置、帳票入力フォーム生成方法及びプログラム
JP2021152924A (ja) * 2016-07-21 2021-09-30 株式会社ミラボ 帳票入力フォーム生成装置、帳票入力フォーム生成方法及びプログラム
JP2022003579A (ja) * 2016-07-21 2022-01-11 株式会社ミラボ 帳票入力フォーム生成装置、帳票入力フォーム生成方法及びプログラム
JP7072304B2 (ja) 2016-07-21 2022-05-20 株式会社ミラボ 帳票入力フォーム生成装置、帳票入力フォーム生成方法及びプログラム

Also Published As

Publication number Publication date
US6567545B1 (en) 2003-05-20
JP4450888B2 (ja) 2010-04-14

Similar Documents

Publication Publication Date Title
US5774580A (en) Document image processing method and system having function of determining body text region reading order
JP3345224B2 (ja) パターン抽出装置、パターン再認識用テーブル作成装置及びパターン認識装置
US5278918A (en) Optical character recognition method and apparatus using context analysis and a parsing algorithm which constructs a text data tree
EP0439951B1 (en) Data processing
EP0854434B1 (en) Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof
JPH0420226B2 (ja)
JP4856235B2 (ja) 帳票認識方法及び帳票認識装置
JP2000339406A (ja) 帳票認識方法
US7680329B2 (en) Character recognition apparatus and character recognition method
US6549662B1 (en) Method of recognizing characters
Mitchell et al. Newspaper document analysis featuring connected line segmentation
JP2000315247A (ja) 文字認識装置
JP3837193B2 (ja) 文字行抽出方法および装置
CN110516674B (zh) 一种文本图像的手写汉字分割方法及系统
JP5041775B2 (ja) 文字切出方法及び文字認識装置
CN115311666A (zh) 图文识别方法、装置、计算机设备及存储介质
JP4194020B2 (ja) 文字認識方法、該方法の実行に用いるプログラム及び文字認識装置
CN112766269A (zh) 一种图片文本检索方法、智能终端及存储介质
JP2965165B2 (ja) パターン認識方法及び認識用辞書作成方法
JP2000207491A (ja) 文字列読取方法及び装置
JP3269918B2 (ja) 文章領域の読み順設定方法
CN116958995A (zh) 一种基于字符在平面位置信息的分段方法
JP2022184331A (ja) 帳票の特定フィールド認識方法および特定フィールド読取り装置
JP4132234B2 (ja) 文字認識方法および装置および文字認識プログラムを記録した記録媒体
JP3428504B2 (ja) 文字認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060324

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090410

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090519

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090721

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090915

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091215

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20091224

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100126

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100127

R150 Certificate of patent or registration of utility model

Ref document number: 4450888

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130205

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130205

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140205

Year of fee payment: 4

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees