JPH0567189A - 帳票書式定義方法および装置 - Google Patents

帳票書式定義方法および装置

Info

Publication number
JPH0567189A
JPH0567189A JP4022344A JP2234492A JPH0567189A JP H0567189 A JPH0567189 A JP H0567189A JP 4022344 A JP4022344 A JP 4022344A JP 2234492 A JP2234492 A JP 2234492A JP H0567189 A JPH0567189 A JP H0567189A
Authority
JP
Japan
Prior art keywords
format
partial
data
area
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4022344A
Other languages
English (en)
Inventor
Akio Shiga
昭夫 志賀
Koichi Sasaki
公一 佐々木
Koichi Taguchi
浩一 田口
Hirotoshi Ise
広敏 伊勢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP4022344A priority Critical patent/JPH0567189A/ja
Publication of JPH0567189A publication Critical patent/JPH0567189A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Processing Or Creating Images (AREA)

Abstract

(57)【要約】 【目的】本発明は、小型の画像入力装置で大サイズ文書
の書式定義を可能にすることを目的とする。 【構成】画像入力装置10で入力され、画像記憶装置4
に格納された部分画像データは、画像認識処理によって
罫線、文字コードに変換され、記憶装置14に格納され
る。記憶装置14に格納された部分領域の罫線、文字コ
ードから、書式定義データが作成され、書式記憶装置1
5に格納される。入力部分画像から表単位の書式データ
を生成し、これらを合成することにより、帳票全体の書
式定義データを生成する。 【効果】ハンディスキャナなどの小型の画像入力装置で
入力された部分画像から、帳票全体の書式を定義するこ
とができる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、定形文書編集方法およ
び装置に関し、更に詳しくは、定形の文書あるいは帳票
の書式を、帳票用紙に記載されている書式の部分画像か
ら決定、および定義するための帳票書式定義方法および
装置に関する。
【0002】
【従来の技術】従来、イメージスキャナなどの画像入力
装置により文書あるいは帳票等の書式の全体画像を入力
し、画像認識技術を適用することにより、入力書式中に
含まれる罫線や文字等の書式情報をコード情報に変換
し、自動的に書式定義できるようにしたものがある。
【0003】
【発明が解決しようとする課題】然るに、従来技術にお
いては、画像入力装置で入力可能な帳票サイズに制約が
あり、所定サイズより大きな帳票については書式の自動
定義ができなかった。また、従来技術においては、定義
対象となる書式全体を含む多量の画像データを自動認識
処理しているため、膨大なメモリ空間を必要とし、処理
に長時間を要していた。
【0004】本発明の目的は、画像入力装置による読み
取り可能サイズより大きい定形文書あるいは帳票の書式
定義を可能とした帳票書式定義方法および装置を提供す
ることにある。
【0005】本発明のたの目的は、画像データ格納のた
めのメモリ空間が少なくて済む、改良された帳票書式定
義方法及び装置を提供することにある。
【0006】
【課題を解決するための手段】上記課題を解決するため
に、本発明に依る帳票書式定義装置は、処理対象となる
帳票あるいは文書中に含まれる書式の部分領域の画像を
入力するための画像入力手段と、入力された部分画像に
含まれる文字列・罫線などの情報を認識し、書式を構成
する部分書式領域の構造データを生成するための認識手
段と、上記画像入力装置から入力された同一の帳票ある
いは文書中の異なる複数の部分領域画像について上記認
識手段が生成した複数の部分書式構造データから、書式
全体の構造データを生成する合成手段とを備えたことを
特徴とする。
【0007】本発明による帳票書式定義装置の他の特徴
は、画像入力装置から入力された部分領域画像を認識処
理し、部分書式に含まれる複数の表単位構造を識別する
ための手段と、異なる複数の部分領域画像から抽出され
た複数の表単位構造の相互関係を認識して、複数の表単
位を含む書式全体の構造データを生成する合成手段とを
備えたことを特徴とする。
【0008】また、本発明による帳票書式定義方法は、
線分で形成された複数のフィールドを含む帳票の画像デ
ータの処理方法において、帳票の互いに交わる少なくと
も2箇所の部分領域の画像データを入力し、各部分領域
画像の線分データおよび文字データの関係に基づいて、
前記入力した部分領域画像データの他の部分領域の構造
データを生成することを特徴とする帳票書式定義方法。
【0009】
【作用】本発明の帳票書式定義方法および装置によれ
ば、定形文書あるいは帳票用紙上の複数個所の部分画像
を複数回の画像入力処理に分けて入力し、各部分画像か
ら認識された部分書式の構造データから全体書式の構造
データを自動生成できるようになっているため、ハンデ
ィスキャナ等の小型の画像読取り装置を利用して、任意
サイズの書式の定義データを得ることができる。また、
上記本発明によれば、文書全体の画像データを一時的に
記憶するための画像データ記憶メモリを必要としないた
め、比較的少ない容量のメモリを適用でき、システムの
小型化がはかれる。
【0010】
【実施例】以下、本発明の実施例を図面を参照して詳細
に説明する。
【0011】図1は、本発明を実施するための画像処理
システムのハードウェア構成の1例を示す。図におい
て、10は書式を画像データとして取り込むための画像
入力装置、11は文書あるいは帳票書式定義のための処
理を行う中央処理装置(CPU)、12は定義した書式
を表示する書式出力装置、13は画像入力装置10より
入力した画像データを記憶するための画像記憶装置、1
4は画像認識により画像データから認識した文字・罫線
を格納するための文字・罫線記憶装置、15は定義した
文書・帳票書式を記憶するための書式記憶装置である。
【0012】図2は、処理対象となる文書(あるいは帳
票)40中に含まれる書式構造の1例を示す。この例で
は、(a)に示すように、書式領域42が、見出しなど
を含むヘッダ領域43と、文字列が入力されるフィール
ドが繰り返し並んだ繰り返し領域44とからなってい
る。
【0013】ヘッダ領域43は、この例のように書式の
上部にのみ存在するとは限らず、書式領域42の下方位
置、あるいは左、右の位置に存在する場合もある。繰り
返し領域44は、繰り返しの基本パターン(入力フィー
ルド)が縦、横方向に並んだ構造となる。従って、文書
画像の全体を入力しなくても、これらの繰り返し基本パ
ターン47の構造と繰り返し回数が判明するように部分
領域を選定すれば、部分画像入力によって、繰り返し領
域の全体を示す構造データを生成できる。例えば、最初
にヘッダ領域43の部分画像を読み取り、次に繰り返し
領域44を読み取る。繰り返し領域44の読み取りは、
(b)に示すように、横繰り返しブロック45の部分画
像入力と、縦繰り返しブロック46の部分画像入力とに
分けて行う。繰り返しブロックとは、繰り返し基本パタ
ーンが縦あるいは横に並んだ領域を意味している。
【0014】図3は、本発明による帳票書式定義を実現
するためのCPU11が実行するプログラムフローチャ
ートを示す。帳票書式定義は、先ず、部分画像入力ステ
ップ200において、画像入力装置10から帳票書式の
1部を含む部分画像を入力し、次に、画像認識ステップ
210において、部分画像中に含まれる文字列および罫
線などの情報を認識する。これらの部分画像の入力と認
識処理は、前述したヘッダ領域43と繰り返し領域44
(横繰り返しブロック46および縦繰り返しブロック4
7)から、全体構造の認識に必要な最小限の情報が得ら
れるように、複数個所の部分画像について、繰り返して
おこなわれる。
【0015】図4は、上記文書40の場合の部分画像入
力の1例を示す。(a)は、上述したヘッダ領域43と
横繰り返しブロック46とを含む横方向の読み取りデー
タ(部分画像)48、(b)は、縦繰り返しブロック4
7を含む手方向の読み取りデータ(部分画像)49を示
す。なお、50は後述する合成処理の基準位置を示す。
【0016】つぎに、図3の部分書式領域抽出ステップ
220において、上記入力部分画像(横読み取りデータ
48と縦読み取りデータ49)から、基準位置49と、
書式を構成する部分書式領域を抽出する。部分書式領域
抽出ステップ220詳細を図5に示す。
【0017】図5のフローチャートにおいて、先ず、基
準位置抽出ステップ221で、縦読み取りデータ48と
横読み取りデータ49から、表構造の最も左上の座標位
置を基準位置50として抽出する。縦、横の読み取りデ
ータは、上記基準位置50に基づいて合成することがで
きる。部分書式領域抽出ステップ222では、これらの
各読み取りデータにおいて、文字列・罫線を含む最小の
矩形領域を「部分書式領域」として抽出する。図6は、
ステップ222で抽出された横部分書式51と縦部分書
式52を示す。
【0018】図3の書式構造認識ステップ230では、
各部分書式(51、52)から、ヘッダ領域の分離と、
横繰り返しブロックおよび縦繰り返しブロックに含まれ
る繰り返し領域構造(繰り返し基本パターン)の認識を
行う。図7にステップ230の詳細を示す。
【0019】図7のフローチャートにおいて、ヘッダ・
繰り返し領域分離ステップ231では、繰り返し領域が
その後に文字が入力される領域であり、罫線によって構
成された構造となっていることから、各部分書式から罫
線のみからなる構造部分を抽出することにより、繰返し
領域とヘッダ領域とを分離する。
【0020】図8に、分離されたヘッダ領域のデータを
示す。(a)は、横読み取りデータに含まれるヘッダ領
域53、(b)は、縦読み取りデータに含まれるヘッダ
領域54を示す。また、図9に分離された繰り返し領域
を示す。繰り返し領域は、横方向の繰り返しブロック5
5と、縦方向の繰り返しブロック56とからなる。
【0021】図7の縦、横基本パターン抽出ステップ2
32では、上記縦、横の繰り返しブロック55、56か
ら、図9に示した繰返しの単位要素となる縦基本パター
ン57と横基本パターン58をそれぞれ抽出する。横基
本パターン57は、横繰り返しブロック55を縦罫線で
分割して得られた領域であり、横基本パターンが幾つ並
んでいるかを調べる。同様に、縦基本パターン58は、
縦繰り返しブロック56を横罫線で分割して得られた領
域であり、その繰り返し個数を調べる。
【0022】次に、繰り返し領域構造認識ステップ23
3で、繰り返し領域の構造を認識する。繰り返し領域
は、表構造の左上(基準位置50)において横基本パタ
ーンと縦基本パターンを一致させ、幅は横基本パターン
によって、高さは縦基本パターンによって決定する。後
述するように、図9に示した横基本パターン57と縦基
本パターン58とから、図10に示す繰り返し基本パタ
ーン47と、繰返し領域44が得られる。
【0023】図2のフローチャートの最後に、書式合成
ステップ240で全体書式を決定する。ステップ240
の詳細を図11に示す。図11において、ヘッダ領域合
成ステップ241では、図8に示した横読み取りヘッダ
領域53と縦読み取りヘッダ領域54を基準位置50に
基づいて合成する。これによって、図10の(a)に示
したヘッダ領域43が得られる。
【0024】次に、繰り返し領域生成ステップ242
で、繰り返し基本パターンと、縦、横の基本パターンの
個数とから、繰り返し領域を生成する。例えば、横方向
の繰り返しブロック55に横基本パターン57がn個、
縦方向の繰り返しブロック56に縦基本パターン58が
m個含まれる場合、繰り返し領域は、基本パターンがm
×n個のマトリックスとなる。このようにして、前述の
図10に示した繰返し領域44が生成される。
【0025】全体書式合成ステップ243では、ヘッダ
領域43と繰り返し領域44とを組み合わせることによ
って、図12に示すような全体書式を構成する書式定義
データを生成する。
【0026】次に、上述した本発明による書式定義の手
順ついて、図13に示した簡単な書式を備える文書例を
用いて説明する。まず、上記書式の上辺部と左辺部を部
分領域として選択し、画像入力装置10により部分画像
を読み取り、画像記憶装置13に格納する。読み取られ
た部分画像は、それぞれ画像認識処理により罫線/文字
コードに変換され、図14の(a)に示す縦読み取りデ
ータ、(b)に示す横読み取りデータとして、文字・罫
線記憶装置14に記憶される。これらの読み取りデータ
から基準位置を求め、書式部分の抽出処理を実行する
と、図15の(a)、(b)に示す部分書式データが得
られる。
【0027】次に、上記縦、横の部分書式データによっ
て、ヘッダ領域と繰り返し領域との分離処理を実行し、
繰り返し領域の構造を認識する。図16に分離されたヘ
ッダ領域を示す。分離された繰り返し領域の縦、横の繰
り返しブロックから、図17に示すように、縦、の横基
本パターン57、58が識別される。この例では、横繰
返しブロック55内に3種類の基本パターンが存在し、
それぞれの個数をカウントすることによって、横基本パ
ターン70が1個、横基本パターン71が1個、横基本
パターン72が5個、縦基本パターン58が6個並んだ
構造であることが認識される。
【0028】上記書式構造の認識結果を利用して、ヘッ
ダ領域と繰り返し領域とを合成し、全体書式のデータを
生成する。繰り返し領域は、繰り返し領域構造の認識結
果から、図18に示すように、6×1,6×1,6×5
の3種類のマトリックス構造からなり、これとヘッダ領
域43とを合成して全体書式の構造データが得られる。
得られた全体書式構造データは、書式記憶装置15に記
憶され、必要に応じて書式出力装置12に出力される。
【0029】次に、本発明による書式定義方式の第2の
実施例について説明する。この実施例では、例えば、図
19に示すように、繰返し領域44が、繰返し基本パタ
ーンの異なる複数の領域44a〜44dからなった文書
40を処理できるようにしたものである。41は見出し
文字、42は書式領域、43a、43bはヘッダ領域で
ある。
【0030】上記図19の書式は、図20に示すよう
に、それぞれヘッダ部と繰返し領域とからなる複数の表
単位120a〜120dが組合された構造となってい
る。「表単位」は、単一の繰返し領域構造を有し、表単
位ごとにみると、繰り返し基本パターン47と、縦、横
繰返しブロック55、56における基本パターンの繰り
返し回数が判明すれば、繰り返し領域の全体を示す構造
データが生成できるものを意味する。
【0031】本実施例では、各表単位を識別するため
に、処理対象となる文書画像(図19)の内、ヘッダ領
域43a、43bの部分画像と、繰り返し領域44内の
複数の部分画像を読み取る。繰り返し領域44内の部分
画像の読み取りは、横繰り返しブロック45と、縦繰り
返しブロック47の読み取りにわけて行う。「繰り返し
ブロック」は、繰り返し基本パターンが縦あるいは横に
並んだ領域を意味し、繰返しブロック入力の部分画像が
ヘッダ領域入力の部分画像を兼ねてもよい。本実施例に
よれば、縦、横繰返しブロックの部分画像に基づいて、
後述するように、各表単位ごとの書式データを生成し、
これらを組み合わせることによって文書全体の書式構造
を生成する。
【0032】図21は、本実施例における帳票書式定義
のためのフローチャートを示す。部分画像入力ステップ
200、画像認識ステップ201、および部分書式領域
抽出ステップ220の処理内容は、第1の実施例と同様
である。ただし、表単位を識別するために、繰り返し領
域の分部画像入力形式が第1の実施例と若干異なる。
【0033】図19の書式を処理する場合は、例えば図
22に示すように、第1の表単位120aのヘッダ領域
に沿った部分領域48aと、第3、第4の表単位120
c、120dのヘッダ領域に沿った部分領域48bで横
方向のデータを読み取り、書式領域42の左縁の部分領
域49aと、表単位120aと120bとの境界線に沿
った部分領域49bと、第3、第4の表単位120c、
120dの境界線に沿った部分領域49cとで縦方向の
データを読み取ることにより、各表単位の少なくとも
縦、横2辺が読み取りデータに含まれるようにする。
【0034】部分書式領域抽出ステップ220では、こ
れらの横読み取りデータ(部分画像48a、48b)と
縦読み取りデータ(部分画像49a、49b、49c)
とから、表の基準位置と部分書式領域の抽出を行う。図
23は、1例として、分部画像48aから抽出された横
部分書式51aと、分部画像49aから抽出された縦部
分書式52aを示す。ここで、62(1点鎖線a−b)
は表単位120aと120cとの分離位置を示す。これ
と同様に、分部画像48b、49b、49cからは、そ
れぞれ図示しない横部分書式51bと、縦部分書式52
b、52cがそれぞれ抽出される。
【0035】図21のステップ250では、ステップ2
20で抽出された部分書式データに基づいて、表単位の
分離、各表単位毎の書式データの作成、およびそれらの
合成処理を行なう。以下、ステップ250の詳細を、図
24に示す詳細フローチャートに従って説明する。
【0036】表分離ステップ70では、先ず、部分画像
48aから得られた横部分書式51aと、部分画像49
aから得られた縦部分書式52aとに基づいて、繰返し
領域44全体(以下、これを「表0」とする)を着目領
域として、表分離位置62の抽出と、表単位への分離処
理を行う。隣接する表単位の境界線を示す表分離位置6
2は、次の条件によりに判定する。 (1)読み込んだ部分画像中に複数個のヘッダ領域が含
まれる。 (2)繰返し領域中に複数個の基本パターンが含まれ
る。
【0037】上記のようにして検出した各分離位置の情
報は、例えば図25に示すような、合成管理スタックテ
ーブル100と、合成位置格納テーブル110−iとか
らなる合成管理テーブルで管理される。
【0038】合成管理スタックテーブル100は、合成
時に使用する表の分離情報を管理するためのテーブルで
あり、関連する合成位置格納テーブル110へのポイン
タあるいはチェイン(合成識別チェイン)101−iを
順次に記憶する。このテーブル100はスタック構造の
テーブルであり、最初に分離処理の対象とされた表の合
成位置格納テーブルへのポインタを一番底に格納し、そ
の後の分離処理で発生したポインタを順次に積み上げ、
最後の分離処理対象となった表の合成位置格納テーブル
へのポインタが一番上に格納されるようになっている。
分離された表単位を合成する時は、上記スタックテーブ
ル100の一番上のチェインから順次に合成位置格納テ
ーブル110−iたどる形で合成処理が実行される。
【0039】合成位置格納テーブル110−iは、次の
フィールドから形成されている。 (a)分離座標111…分離位置の座標を持つ。 (b)分離元表112…分離元の表の名前とその表の書
式データへのチェインを持つ。 (c)分離先表113…分離先1の表の名前とその表の
書式データへのチェインを持つ。 (d)分離先表114…分離先2の表の名前とその表の
書式データへのチェインを持つ。
【0040】図26は、上記表分離ステップ70の詳細
を示すフローチャートであり、先ず、ステップ700に
おいて合成管理スタックテーブル100に合成識別チェ
ーン101−iを格納し、次にステップ701で、抽出
した分離位置62の座標を合成位置格納テーブル110
−iの分離座標フィールド111へ格納する。更に、ス
テップ902で、分離元の表名前を上記合成位置格納テ
ーブル110−iの分離元表フィールド112へ格納
し、ステップ903で、分離先1の表名前を分離先表フ
ィールド113へ格納し、ステップ704で、分離先2
の表名前を分離先表フィールド114へ格納する。
【0041】例えば、繰返し領域44全体を処理対象
(「表0」)として、表分離ステップ70を実行する
と、上記図25に示した合成位置テーブル110−1が
形成される。合成位置テーブル110−1の分離座標フ
ィールド111には図23に示した分離位置(a−b)
の座標が設定され、分離元フィールド112には上記繰
返し領域44全体を示す表名称(合成識別子)「表0」
が、分離先フィールド113には上記分離位置a−bよ
り上側に位置する表部分を示す表名称「表1」が、ま
た、分離先フィールド114には上記分離位置より下側
に位置する表部分を示す表名称「表2」がそれぞれ設定
される。
【0042】図24のステップ71では、分離された各
々の表部分(「表1」、「表2」)について書式データ
が作成済か否かを判定し、もし書式作成済でない場合、
以下のステップ71〜79の手順でこれらの表部分の書
式データを作成をする。
【0043】先ず、ステップ72で、これから書式デー
タを作成しようとする表部分に関して、必要な部分画像
が既に入力済か否かを判定する。この判定は、入力済の
部分画像が次のような条件を満たしているか否かを調べ
ることによって決定する。この時、必要とされる部分画
像の条件は、 横長ヘッダ領域を含む表(あるいは表単位)に関して
は、ヘッダ領域部分を含んで横方向に読み取った部分画
像と、上記ヘッダ領域部分の横罫線と交差している他の
表単位の縁線部分(縦罫線部分;但し、交差している縦
罫線が存在しない場合は、横罫線と接している縦罫線部
分)を読み取った部分画像。
【0044】縦長ヘッダ領域を含む表に関しては、ヘ
ッダ領域部分を含んで縦方向に読み取った部分画像と、
ヘッダ領域部分の縦罫線と交差している田野表単位の縁
線(横罫線部分;但し、交差している横罫線が存在しな
い場合は、縦罫線と接している横罫線部分)を読み取っ
た部分画像。
【0045】上記条件に合った部分画像が既に入力済で
あれば判定ステップ76に進み、もし、該当する部分画
像が入力済でない場合は、ステップ73でオペレータに
上記条件に従った部分画像の入力を要請(表示装置12
にメッセージ出力)し、必要な部分画像の入力が終わる
と、ステップ74で画像認識を実行し、ステップ75で
ステップ220と同様に部分書式領域を抽出した後、ス
テップ76に進む。
【0046】ステップ76では、書式データの作成対象
となっている表部分(「表1」、または「表2」)が単
一の表か否かを判定する。もし、単一の表でない場合
は、ステップ79に進み、図8のサブルーチン(図21
のステップ250のルーチン)を再帰的に呼び出し、そ
の表部分を処理対象として表単位の分離と書式の作成処
理をを繰り返す。
【0047】例えば、図25の分離先フィールド113
に設定された「表1」の部分を書式データの作成対象と
した場合、この表部分は表単位120aと表単位120
bとからなっているため、判定ステップ76からステッ
プ79に分岐し、表部分「表1」を分離処理対象として
図24のルーチンが再帰的に実行される。この結果、合
成管理テーブルは図27のように変化する。
【0048】すなわち、表分離ステップ70を実行する
ことにより、合成管理スタックテーブル100に「表
1」の合成識別子101−2が追加され、「表1」を分
離元表112’とする新たな合成位置格納テーブル11
0−2が作成される。上記合成位置格納テーブル110
−2の分離座標フィールド111には、表単位120a
と表単位120bとの境界を示す分離位置(c−d)が
設定され、分離先表113には表単位120aを示す表
名称「表1.1」が、また、分離先表114には表単位
120bを示す表名称「表1.2」が設定される。
【0049】再帰実行されたルーチンにおけるステップ
76では、処理対象となる「表1.1」及び「表1.
2」がそれぞれ単一表と判定され、書式構造認識ステッ
プ77と書式合成ステップ78が実行され、これによっ
て単一表120aと120bの書式データがそれぞれ作
成される。
【0050】ここで、「表1.1」(表単位120a)
が書式データの作成対象となった場合を例にとって説明
すると、「表1.1」の部分書式(横部分書式140と
縦部分書式141)は、既にステップ220またはステ
ップ75で図28のように抽出済であり、書式構造認識
ステップ77において、これらの部分書式に基づいてヘ
ッダ領域の分離と、繰り返し領域構造(繰り返し基本パ
ターン)の認識処理が行われる。上記書式構造認識ステ
ップ77は、第1の実施例おいて図2に示したステップ
230に相当し、その詳細は、図7に示してある。これ
によって、縦、横の各繰返しブロックと縦、横の各基本
パターンが認識される。
【0051】書式合成ステップ78では、表単位120
aの全体書式が決定される。書式合成ステップの詳細フ
ローチャートを図29に示す。
【0052】図29において、ヘッダ領域合成ステップ
780、繰り返し領域生成ステップ781、および全体
書式合成ステップ782は、それぞれ図11に示した第
1の実施例の書式合成におけるステップ241、24
2、243と同様である。これらのステップを実行する
ことにより、表単位120a全体を示す書式データが生
成される。ステップ783では、上記表単位120aの
全体書式データ130aの格納位置を示すポインタを、
合成位置格納テーブル110−1内の対応する分離先チ
ェインフィールド113に登録する。
【0053】表単位120bに関しても、上述した表単
位120aの全体書式データ生成と同様の手順により全
体書式データ130bが生成され、その格納領域を示す
ポインタが、合成位置格納テーブル110−2の対応す
る分離先チェインフィールド114に設定される。
【0054】分離された2つの表単位120a、120
bについて、上記した全体書式合成が終わると、図24
のフローチャートにおいて、ステップ71からステップ
79に進み、表単位120aと表単位120bとの合成
処理が行なわれる。
【0055】図30に表合成ステップ80の詳細を示
す。ステップ800では、合成管理スタックテーブル1
00の先頭の合成識別チェーン(「表1」)101−2
を取り出す。ステップ801では、上記ステップ800
で取り出した合成識別チェーンと対応する合成位置格納
テーブル110−2の分離先表フィールド113、11
4に登録されている書式データ130a、130bを取
り出し、ステップ802では、合成位置格納テーブル1
01−2の分離座標フィールドに登録されている分離位
置座標(c−d)を取り出す。
【0056】次に、ステップ803で、上記分離位置座
標c−dに基づいて、上記表単位120a、120bの
書式データ130a、130bを合成する。これによっ
て、図31に示すように、表単位120aと120bと
を合成した単一表「表1」の書式データ131が得られ
る。上記ステップ803では、得られた書式データ13
1の格納位置を示すチェインを、図32に示すように、
「表1」の合成位置格納テーブル110−2の分離元表
フィールド112に登録し、次いで「表0」の合成位置
格納テーブル110−1の分離先フィールド113に設
定する。
【0057】合成位置格納テーブル110−1の分離先
表114に登録された「表2」についても、上記「表
1」と同様に、ステップ79において図24のルーチン
が再帰的に実行される。その結果、ステップ77と78
によって、表単位120cの全体書式データ130c
と、表単位120dの全体書式データ130cとが生成
され、これらがステップ80で図33に示すように合成
され、単一表「表2」の書式データ132が得られる。
上記「表2」の書式データ132は、前述した「表1」
の書式データ131と同様、「表0」の合成位置格納テ
ーブル110−1の分離先表フィールド114に設定さ
れる。
【0058】「表0」の処理ルーチンにおいて、合成位
置格納テーブル110−1に「表1」の書式データ13
1と「表2」の書式データ132の登録が完了すると、
表合成ステップ80が実行される。その結果、図34に
示すように、「表1」の書式データ131と「表2」の
書式データ132とが分離位置a−bを基準に合成さ
れ、図35に示す「表0」の書式データ133が得られ
る。上記書式データ133の格納位置は、図36に示す
ように、「表0」の合成位置格納テーブル110−1の
分離元フィールド112に登録され、これによって複数
の表単位からなる書式の定義データ生成処理が完了す
る。
【0059】
【発明の効果】以上の説明から明らかなように、本発明
によれば、書式の部分領域の画像から書式全体の構造認
識が可能となるため、ハンディスキャナ等の小型の画像
入力装置を用いてA4、B4等の大型サイズの書式デー
タを自動的に生成することができる。したがって、認識
システムを安価に提供できる。
【図面の簡単な説明】
【図1】本発明を実施するためのハードウェア構成の一
例を示す図。
【図2】処理対象となる文書(帳票用紙)に含まれる書
式構造の1例を示す図。
【図3】書式定義のためのプログラムの第1の実施例を
示すフローチャート。
【図4】入力される部分画像領域の1例を示す図。
【図5】部分書式領域抽出ステップ220の詳細を示す
フローチャート。
【図6】入力画像から抽出された部分書式領域を示す
図。
【図7】書式構造認識ステップ230の詳細を示すフロ
ーチャート。
【図8】分離されたヘッダ領域を示す図。
【図9】分離された繰返し領域を示す図。
【図10】生成された繰返し領域の構成を示す図。
【図11】書式合成ステップ240の詳細を示すフロー
チャート。
【図12】生成された書式データの構成を示す図。
【図13】本発明で処理対象となる文書の具体的な1例
を示す図。
【図14】上記文書から選択される部分領域画像を示す
図。
【図15】上記部分領域画像から抽出された部分書式デ
ータを示す図。
【図16】上記部分書式データから得られたヘッダ領域
と繰返し領域を示す図。
【図17】上記ヘッダ領域と繰返し領域とに基づいて識
別された縦、横の基本パターンを示す図。
【図18】生成された文書全体の書式データを示す図。
【図19】本発明の第2の実施例に適用される文書の構
成の1例を示す図。
【図20】上記文書の書式を構成する複数の表単位につ
いて説明するための図。
【図21】第2の実施例における書式定義の手順を示す
フローチャート。
【図22】第2の実施例における入力部分画像を示す
図。
【図23】入力部分画像から抽出された部分書式データ
の1例を示す図。
【図24】図21におけるステップ250の詳細を示す
フローチャート。
【図25】合成管理テーブルを示す図。
【図26】図24における表分離ステップ70の詳細を
示すフローチャート。
【図27】図24におけるステップ79の実行による合
成管理テーブルの変化を示す図。
【図28】部分書式データ(横部分書式140と縦部分
書式141)の1例を示す図。
【図29】図24における書式合成ステップ78の詳細
を示すフローチャート。
【図30】図24における表合成ステップ80の詳細を
示すフローチャート。
【図31】第1、第2の表単位の合成によって得られる
単一表の書式データ131を示す図。
【図32】上記2つの表単位が合成される過程での合成
管理テーブルの変化を示す図。
【図33】第3、第4の表単位の合成によって得られる
単一表の書式データ132を示す図。
【図34】2つの単一表書式データ131と132の合
成を示す図。
【図35】最終的な書式データ133を示す図。
【図36】上記最終的な書式データ133と合成管理テ
ーブルとの関係を示す図。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 伊勢 広敏 神奈川県川崎市麻生区王禅寺1099番地 株 式会社日立製作所システム開発研究所内

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】処理対象となる帳票あるいは文書中に含ま
    れる書式の部分領域の画像を入力するための画像入力手
    段と、入力された部分画像に含まれる文字列・罫線など
    の情報を認識し、書式を構成する部分書式領域の構造デ
    ータを生成するための認識手段と、上記画像入力装置か
    ら入力された同一の帳票あるいは文書中の異なる複数の
    部分領域画像について上記認識手段が生成した複数の部
    分書式構造データから、書式全体の構造データを生成す
    る合成手段とを備えたことを特徴とする。
  2. 【請求項2】前記認識手段が、部分画像中の書式部分の
    基準位置を抽出し、該基準位置に基づいて、前記部分書
    式領域の抽出とその構造データの生成を行うことを特徴
    とする請求項1記載の帳票書式定義装置。
  3. 【請求項3】線分で形成された複数のフィールドからな
    る書式を含む帳票上の互いに交わる少なくとも2箇所の
    部分領域の画像データを入力し、各部分領域画像の線分
    データおよび文字データの関係に基づいて、上記入力部
    分領域以外の他の部分領域の構造データを生成すること
    を特徴とする帳票書式定義方法。
  4. 【請求項4】前記部分領域が互いに直交する矩形領域か
    らなることを特徴とする請求項3に記載の帳票書式定義
    方法。
  5. 【請求項5】前記矩形領域が、フィールド領域の意味を
    示すための文字列を含むヘッダ領域と、データ入出力の
    ためのデータ領域の1部を含むことを特徴とする請求項
    4に記載の帳票書式定義方法。
  6. 【請求項6】前記書式が、それぞれヘッダ領域とデータ
    領域とからなる複数の表単位からなり、前記部分領域画
    像の入力が、各表単位について互いに直交する2つの部
    分領域を含むよう入力されることを特徴とする請求項3
    に記載の帳票書式定義方法。
  7. 【請求項7】前記部分画像データから複数個の表単位を
    識別し、各表単位毎の構造データを合成することによっ
    て前記帳票全体の書式データを生成することを特徴とす
    る請求項6に記載の帳票書式定義方法。
JP4022344A 1991-02-08 1992-02-07 帳票書式定義方法および装置 Pending JPH0567189A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4022344A JPH0567189A (ja) 1991-02-08 1992-02-07 帳票書式定義方法および装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP1740291 1991-02-08
JP3-17402 1991-02-08
JP4022344A JPH0567189A (ja) 1991-02-08 1992-02-07 帳票書式定義方法および装置

Publications (1)

Publication Number Publication Date
JPH0567189A true JPH0567189A (ja) 1993-03-19

Family

ID=26353908

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4022344A Pending JPH0567189A (ja) 1991-02-08 1992-02-07 帳票書式定義方法および装置

Country Status (1)

Country Link
JP (1) JPH0567189A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0737005A (ja) * 1993-07-23 1995-02-07 Nec Corp 書式情報生成装置
US6694065B2 (en) 2000-03-10 2004-02-17 Fujitsu Limited Image collating apparatus and image collating method

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0737005A (ja) * 1993-07-23 1995-02-07 Nec Corp 書式情報生成装置
US6694065B2 (en) 2000-03-10 2004-02-17 Fujitsu Limited Image collating apparatus and image collating method

Similar Documents

Publication Publication Date Title
JP2004139484A (ja) 帳票処理装置、該装置実行のためのプログラム、及び、帳票書式作成プログラム
JP3302147B2 (ja) 文書画像処理方法
JPH05500874A (ja) ディジタル化書類における選択本文の自動抽出のための多角形準拠式方法
JPH0420226B2 (ja)
JP4227432B2 (ja) 画像処理方法
CN109726369A (zh) 一种基于标准文献的智能模板化题录技术实现方法
JPS5947641A (ja) 名刺デ−タベ−ス作成装置
JP2008108114A (ja) 文書処理装置および文書処理方法
JPH0821057B2 (ja) 文書画像解析方式
JP3726442B2 (ja) 画像特徴量比較装置および画像特徴量比較プログラムを記録した記録媒体
JPH0567189A (ja) 帳票書式定義方法および装置
JP4521466B2 (ja) 帳票処理装置
JP3898645B2 (ja) 帳票書式編集装置および帳票書式編集プログラム
JPH08320914A (ja) 表認識方法および装置
JPH1063744A (ja) 文書のレイアウト解析方法及びシステム
JP4213558B2 (ja) 文書レイアウト解析プログラム、文書レイアウト解析プログラムを記憶したコンピュータ読み取り可能な記憶媒体、文書レイアウト解析方法および文書レイアウト解析装置
JP4221960B2 (ja) 帳票識別装置及びその識別方法
JPH06131497A (ja) 表認識方式
JP2006244526A (ja) 帳票処理装置、該装置実行のためのプログラム、及び、帳票書式作成プログラム
EP1439485B1 (en) Segmenting a composite image via basic rectangles
JP2768249B2 (ja) 文書画像レイアウト解析装置
JPH0743718B2 (ja) マルチメディア文書構造化方式
JP3948943B2 (ja) 図形認識方法及び装置
JPH01147786A (ja) 表を含む文書の読取装置
JPH01130293A (ja) 文書画像解析方式