JPH03179570A - 文書処理方式およびプログラム自動生成方法 - Google Patents
文書処理方式およびプログラム自動生成方法Info
- Publication number
- JPH03179570A JPH03179570A JP2175246A JP17524690A JPH03179570A JP H03179570 A JPH03179570 A JP H03179570A JP 2175246 A JP2175246 A JP 2175246A JP 17524690 A JP17524690 A JP 17524690A JP H03179570 A JPH03179570 A JP H03179570A
- Authority
- JP
- Japan
- Prior art keywords
- data
- input
- format
- character
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 176
- 238000000034 method Methods 0.000 title claims description 172
- 238000004364 calculation method Methods 0.000 claims description 31
- 238000000547 structure data Methods 0.000 claims description 24
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000013479 data entry Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 description 92
- 238000010586 diagram Methods 0.000 description 77
- 239000000047 product Substances 0.000 description 50
- 230000006870 function Effects 0.000 description 43
- 230000000875 corresponding effect Effects 0.000 description 31
- 238000012937 correction Methods 0.000 description 23
- 238000010606 normalization Methods 0.000 description 15
- 230000007246 mechanism Effects 0.000 description 12
- 101100536519 Arabidopsis thaliana TBL8 gene Proteins 0.000 description 10
- 101100210445 Oryza sativa subsp. japonica XOAT8 gene Proteins 0.000 description 10
- 101100536516 Arabidopsis thaliana TBL5 gene Proteins 0.000 description 9
- 101100210447 Oryza sativa subsp. japonica XOAT10 gene Proteins 0.000 description 9
- 238000007792 addition Methods 0.000 description 9
- 101100536520 Arabidopsis thaliana TBL9 gene Proteins 0.000 description 8
- 101100541001 Oryza sativa subsp. japonica XOAT3 gene Proteins 0.000 description 8
- 238000003672 processing method Methods 0.000 description 8
- 238000012805 post-processing Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 6
- 101100368976 Arabidopsis thaliana TBL12 gene Proteins 0.000 description 5
- 101100536515 Arabidopsis thaliana TBL4 gene Proteins 0.000 description 5
- 101100536518 Arabidopsis thaliana TBL7 gene Proteins 0.000 description 5
- 101100540999 Oryza sativa subsp. japonica XOAT1 gene Proteins 0.000 description 5
- 101100210446 Oryza sativa subsp. japonica XOAT9 gene Proteins 0.000 description 5
- 238000005520 cutting process Methods 0.000 description 5
- 101100536517 Arabidopsis thaliana TBL6 gene Proteins 0.000 description 4
- 101000800590 Homo sapiens Transducin beta-like protein 2 Proteins 0.000 description 4
- 101000837456 Homo sapiens Transducin beta-like protein 3 Proteins 0.000 description 4
- 101100210448 Oryza sativa subsp. japonica XOAT11 gene Proteins 0.000 description 4
- 102100033248 Transducin beta-like protein 2 Human genes 0.000 description 4
- 102100028683 Transducin beta-like protein 3 Human genes 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 101100368977 Arabidopsis thaliana TBL13 gene Proteins 0.000 description 3
- 101100368978 Arabidopsis thaliana TBL14 gene Proteins 0.000 description 3
- 101100541003 Oryza sativa subsp. japonica XOAT5 gene Proteins 0.000 description 3
- 101100541005 Oryza sativa subsp. japonica XOAT7 gene Proteins 0.000 description 3
- 230000005859 cell recognition Effects 0.000 description 3
- 238000012790 confirmation Methods 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 102100026338 F-box-like/WD repeat-containing protein TBL1Y Human genes 0.000 description 2
- 101000835691 Homo sapiens F-box-like/WD repeat-containing protein TBL1X Proteins 0.000 description 2
- 101000835690 Homo sapiens F-box-like/WD repeat-containing protein TBL1Y Proteins 0.000 description 2
- BYFGZMCJNACEKR-UHFFFAOYSA-N aluminium(i) oxide Chemical compound [Al]O[Al] BYFGZMCJNACEKR-UHFFFAOYSA-N 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012905 input function Methods 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- CIWBSHSKHKDKBQ-JLAZNSOCSA-N Ascorbic acid Chemical compound OC[C@H](O)[C@H]1OC(=O)C(O)=C1O CIWBSHSKHKDKBQ-JLAZNSOCSA-N 0.000 description 1
- 235000008247 Echinochloa frumentacea Nutrition 0.000 description 1
- 101001098529 Homo sapiens Proteinase-activated receptor 1 Proteins 0.000 description 1
- 101000713169 Homo sapiens Solute carrier family 52, riboflavin transporter, member 2 Proteins 0.000 description 1
- 240000004072 Panicum sumatrense Species 0.000 description 1
- 241000036848 Porzana carolina Species 0.000 description 1
- 102100030551 Protein MEMO1 Human genes 0.000 description 1
- 101710176845 Protein MEMO1 Proteins 0.000 description 1
- 102100036862 Solute carrier family 52, riboflavin transporter, member 2 Human genes 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 210000004907 gland Anatomy 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004570 mortar (masonry) Substances 0.000 description 1
- 238000011017 operating method Methods 0.000 description 1
- WHOPEPSOPUIRQQ-UHFFFAOYSA-N oxoaluminum Chemical compound O1[Al]O[Al]1 WHOPEPSOPUIRQQ-UHFFFAOYSA-N 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000010902 straw Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/174—Form filling; Merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Character Input (AREA)
- Document Processing Apparatus (AREA)
- Processing Or Creating Images (AREA)
- Image Analysis (AREA)
Abstract
め要約のデータは記録されません。
Description
関し、更に詳しくは、例えば一般の事務処理分野で、キ
ーボードからデータベースへのデータ入力、あるいはキ
ーボードやデータベースからのデータ出力のために必要
とされる、文字データの入力あるいは出力のための空欄
をもつ所定の書式を備えた文書(帳票)の作成のための
データ処理方式、及びデータ処理方法に関する。
コンピュータ、あるいはワードプロセッサなどのオフィ
ス機器を利用して、例えば、各種の申込み書、データ入
力票、請求伝票や領収書、あるいは会計、統計、内訳な
どのための所定の書式をもつ文書(帳票)を発行したり
、画面上に表示された上記文書のフォーマットを利用し
てデータベースにデータを入力しようとする場合、デー
タ入出力のための空欄をもつ帳票の書式を上述したオフ
ィス機器の表示画面上に定義する必要がある。
のマニュアルで、ET○ILE10Pと題する文献に記
載されているように、デイスプレィ上でカーソル等を移
動させて罫線や文字を定義し、さらにプログラムのエデ
ィタ等を用いてこれを発行するためのプログラムを作l
i綱集するものである。
票を発行したり、書式画面を利用したデータ入力環境を
つくるためには、大きな時間とプログラムに関する専門
的知識および経験を要する。
先から指定伝票という形で指定される場合など、日常的
に生じる。このためその簡単化と高速化が大きな課題と
なっていた。
文書画像データから自動的に生成するようにした文書解
析方式が、本件出願人により、特願昭59−18051
7号として出願されている。
な構造を認識した後、上記表形式を構成している矩形の
セル領域(先願の明細書では、これを枠と言っている)
の種類、属性および従属書係を分析することにより、文
書の論理的な構造の認識も行なわれている。しかしなが
ら、上記従来技術で行なわれている論理構造の認識は、
OCRへの適用を目的としたものであり、セルの種類(
項目名称を設定するためのセルか、データを設定するた
めのセルかの区別)、セルの属性(セル内に記入される
文字の種類および許容範囲)、およびセル間の従属関係
を分析するに留まっている。
表示を参照して、データをデータ処理装置にキー入力す
るための文書書式情報を容易に得られるようにした帳票
あるいは書式文書データの処理方法および装置を提供す
ることにある。
、あるいはデータファイルから読出されたデータを書式
中の所定の空欄に設定した形の文書を印刷あるいは表示
するのに適した。帳票あるいは書式文書のためのデータ
処理方法および装置を提供することにある。
るための空欄(データ入出力フィールド)6n −エ1
z−毛彦之毛ぞしにメrべ′ へ0し−て、を有
する所定のフォーマットがデータ処理装置にオペレータ
の簡単な操作により生成するのに適したプログラム自動
生成方法および装置を提供することにある。
書式文書の処理方式では1画像入力手段から直接的に、
あるいは他のシステムを介して間接的に供給された帳票
あるいは書式文書の画像を処理するためのプロセッサと
、表示手段と、オペレータ操作手段とを備えたデータ処
理システムを用い、固定データまたは可変データを記入
するためのフィールド部分を含む帳票あるいは書式文書
の画像を、上記プロセッサに予め用意された書式認識プ
ログラムに従って処理させ、入力画像情報か□募構造を
自動的に認識する。
弧などのパターン配置、すなわち入力文書の図形構造を
識別するための物理構造認識と7この物理構造認識結果
に基づいて行なわれる入力文書の論理構造認識とからな
る。ここで言う論理構造は1例えば、帳票中に含まれる
表(テーブル:の行桁構造やフィールドなどの意味に及
ぶ構造を意味する。この論理構造の認識結果を用いるこ
とにより、例えば、表示画面上でオペレータが1つのフ
ィールドにデータの入力を完了したとき、カーソルを次
のフィールドに自動的に移動させたり、ファイルに予め
準備されたデータを該当するフィールドに正しく設定し
たりすることができる。
理では1例えば可変データを入力するための入出力フィ
ールドと、固定データあるいは項目名称が記入されてい
る固定フィールドとを識別するためのフィールドM!1
Pff!1と、入出力フィールドと固定フィールドある
いはフィールド名称とを対応づけるためのフィールド関
係認識と、知識ベースを参照して入出力フィールド属性
認識とが行なわれる。
フィールドに設定すべきデータの供給源を識別するよう
にしているため1例えば「商品コード」、「商品名」、
「単価」、「数量」、「金額」の記入欄をもつ書式文書
画像を認識処理して、オペレータが商品コードと数量を
入力するだけで、他の欄をデータファイルからの読出し
データ、あるいは計算結果で自動的に満たすことのでき
るデータ入力用、あるいは帳票発行用のデータ処理シス
テムを実現することができる。また、上述した文書の物
理構造と論理構造の認識結果を利用することにより、デ
ータ入力用あるいは帳票出力処理のためのプログラムを
自動的に生成することもできる。
認識の1つとして、物理構造の認識結果を示すデータに
基づいて、表形式の行方向の寸法、および各入出力フィ
ールドの桁寸法を1表示画面上でのカーソルの基本ピッ
チあるいは文字ピッチに適合するように修正した正規化
された書式表示を得ることにある。文書の構造データと
は別に。
書式表示を生成することにより、データ入力のためのオ
ペレータのキー操作、およびキーボードあるいはプログ
ラム処理により生成されたデータの画面への出力が容易
になる。
のサイズ、文字数、および文字ピッチは。
ドに設定されるデータの種類(これは、各入出力フィー
ルドに与えるべきフィールド名称により決まる)とによ
り決定できる。これらの文字サイズ、文字数、文字ピッ
チを示す情報は、フィールド属性の1部として記憶され
、上記行桁の正規化処理は上記フィールド属性を参照し
て行なわれる。
は、入力文書の物理構造認識データで定義される文書フ
ォーマットに、上記フィールド属性で定義されている文
字サイズ、文字ピッチでもって組み合わされ、プリンタ
に出力される。これにより、データ入力操作時に画面上
に出力された文字サイズおよび書式表示とは異なる入力
文書と同一フオームの印刷を、空白部にフィールドサイ
ズに応じたサイズの文字で満たした形で得ることができ
る。
タは、キー操作により罫線の移動や消去、文字の変更、
追加、消去を可能とした書式表示を表示画面に産み出す
。従って、オペレータは、表示画面上の書式表示の1部
を修正するための操作を行なうことにより1M文書とは
部分的に異なる書式文書について、上述した論理構造認
識とプログラム自動生成を行なわせることができる。
ィールド(411)からなる表と、これらのフィールド
の内、あるいは外に記入された文字列とを含む原紙を用
い、これを画像入力装置に入力してプロセッサに画像処
理を行なわせることにより、入力文書の構造を自動的に
認識し、表面画面上に書式表示を行なう。オペレータは
、キー操作により、画面上で書式データの一部を修正し
たり。
に改善できる。
帳票発行用の実用的なプログラム、あるいは担当者が若
干の修正を施こすだけで実用できる程度に完成されたプ
ログラムを自動的に生成できるため、書式の変更あるい
は新設に伴なうプログラム開発作業を迅速に済ませるこ
とができる。
の1例を示す。図において、91はオペレータからのコ
マンドを入力するためのディスブレス画面とキーボード
とを備えたコンソール、92は帳票処理を実行するため
のプロセッサ、93は画像データをメモリに取り込むた
めの画像入力装置、94は画像入力装置93のコントロ
ーラ、95はメモリ上のデータを印刷するためのプリン
ク、96はプリンタ95のコントローラ、97はプロセ
ッサ92が実行するプログラムを格納するためのメモリ
、98はプロセッサ92が使用する各種データを格納す
るためのメモリ、99は各種の数値データや文書(帳票
)データを格納するためのメモリ(例えばディスク装置
)、90は上記プロセッサ92とその他の要素とを相互
に接続するためのバスである。メモリ97は、帳票処理
の全体動作を制御するためのメインプログラムを格納す
る全体制御部970と1画像を入力するためのサブルー
チンプログラムを格納する画像入力部971と、帳票の
書式を認識するためのサブルーチンプログラムを格納す
る帳票書式認識部972と、帳票を作成するためのサブ
ルーチンプログラムを格納する帳票作成部973と、帳
票を出力するためのサブルーチンプログラムを格納する
帳票出力部974から構成される。メモリ98は、画像
データを格納するための画像格納領域981と、帳票の
書式データを格納するための帳票書式格納領域982と
、帳票の内容データを格納するための帳票内容格納領域
983と、出力する帳票データを格納するための出力1
!1票格納領域984と、プロセッサ92の作業領域9
85から構成される。メモリ97はROM (Read
OnlyMemory) 、メモリ98はRAM (
Random AccessMeo+ory )を利用
して実施することもできるし、またディスクなど外部記
憶装置とRAMを組み合わせて実施することもできる。
プログラムの基本的実施例を示すフローチャートを示す
。ステップ1〜ステップ4は領域971〜974に格納
されたサブルーチンプログラムにそれぞれ対応する。画
像入力ステップ1では、帳票の書式が記された用紙を画
像入力装置93で読み取って、ディジタル画像情報とし
て画像格納領域981に格納する。帳票書式認識ステッ
プ2では、前記帳票書式の画像を認識してコードデータ
に変換された書式情報を求め、帳票書式格納領域982
に格納するi帳票作成ステップ3では、前記帳票書式に
適合する帳票内容データを作威し、帳票内容格納領域9
83に格納すると共に、これらの書式および内容データ
による帳票データの出力用データを作成し、出力帳票格
納領域に格納する。本ステップの特別な場合として帳票
内容が存在せず帳票書式のみの帳票データを作成するこ
ともできる。帳票出力ステップ4では、前記出力帳票デ
ータをプリンタ95により印刷したり、データファイル
99に格納したりする。
データの一例を示す。第3図EXIは、前記のステップ
1で画像入力装置93から入力する帳票用紙の1例であ
る。第4図EX2は、前記のステップ4でプリンタ95
から出力する帳票の1例である。本帳票処理装置は、E
XIのように罫IIA(線パターン)100.帳票名称
(タイトル)101、年月日102、項目名称103
(103A〜103D)などからなる帳票の書式が記さ
れている用紙を画像入力して、EX2のように各項目や
日付のデータ内容110を含む帳票をプリンタ等から高
品質で出力することを特徴とする特許である。
いて1行あるいは列方向に並ぶ各矩形領域を欄あるいは
セルと呼び、これらのうち、項目名称103が記入され
ているものを項目セルあるいは固定フィールドセル、後
でデータを記入するための空白領域を残しているものを
入出力フィールドセルと呼ぶことにする。また、表以外
の領域にある特殊なフィールドは、単に固定フィールド
あるいは入出力フィールドと呼ぶ。
の他の実施例を示すフローチャートである。第2図のプ
ログラム・フローチャートでは、画像の入力から帳票の
印刷までを一連の動作で実行していたが、第5図のプロ
グラムでは1画像の入力から書式の登録までの処理を行
なう書式定義処理と、書式の検索から帳票の印刷までの
処理を行なう帳票発行処理とを入力コマンドにより選択
的に実行できるようにしている。
いずれかのコマンドを入力する。書式定義コマンドが入
力された場合には、第2図で説明したステップ1.2を
実行した後、ステップ5bにおいて帳票書式格納領域に
格納された書式データを、オペレータが指定する帳票名
と対応させてディスク装置等99に登録し、最後にコマ
ンド入力ステップ5aを実行する。帳票発行コマンドが
入力された場合には、まず前記ステップ5bで登録した
書式データの中から所望の書式を検索し、次に第2図を
用いて説明したステップ3,4を実行し、最後にコマン
ド入力ステップ5aを実行する。
帳票の連続発行を行えるようにするため、この最後のコ
マンド入力ステップでの帳票の連続発行コマンドの入力
を許している。
を詳細に説明する。
プログラムの詳細フローチャートを示す。
ためのパラメータとして、メモリ98における画像格納
領域のアドレス情報、入力すべき画像の範囲、ディジタ
ル化の標本化密度等をコントローラ94に設定する。次
に、ステップ12で、前記パラメータに従って画像デー
タを入力することをコントローラ94に指示し、画像入
力装置93を起動する。ステップ13では、コントロー
ラ94から画像入力処理が終了したか否かを示すフラグ
情報を読みだす。終了していない場合にはステップ13
を繰り返す。
方法を説明するための図である。図(A)は2次元的な
画像を画素と呼ばれる小さな点の配列に分割した状態を
示す。ここでは、各点の値は白または黒の何れかの状態
をとるものとし、メモリ内では1ビツトで表現できるも
のとする。図において、mは左右方向の画素位置、nは
上下方向の画素位置、Mは位置mの最大値、Nは位置n
の最大値を示す。図(B)は、これらの画素がメモリ9
8の画像格納領域981に格納された状態を示す。図に
おいて、Wは1ワードのビット数、aはメモリアドレス
、bはワード内のビット数を表す。m、n、bを1から
始まる整数、aをOから始まる相対アドレスとすると、
画素位置(m、n)の画素120を、次の関係が成立す
るメモリ内位置(a、b)に格納することによって、1
対1対応とすることができる。
−1) 十m−a ・w ここに記号↓↓で挾まれた式は、結果の小数以下を切り
捨てることを意味する。以下の説明では。
レスではなく、2次元の画素位置で表現する。
ーチンプログラムの第1の実施例を示すフローチャート
である。第1の実施例では、帳票書式認識ステップ2は
、帳票の書式としてその物理構造を認識する物理構造認
識ステップ21のみから構成される。ここで言う「帳票
の物理構造」とは、後に詳述するように、線分9文字9
附弧等帳票の意味には及ばない単なる図形構造を意味す
る。
サブルーチンプログラムのフローチャートを示す。上記
サブルーチン2工は、メモリ領域972内で、プログラ
ム2とは異なる領域に格納されている。
する領域の外接矩形を単位として複数のブロックに分割
する。与えられる領域は、ステップ2で最初に呼ばれる
ときは画像全体であり、後述のように本ステップ21自
身の中で再帰的に呼ばれるときは画像の一部分となる。
めたブロックの内の1つのブロックを選択する。ステッ
プ213では、選択されたブロックの種別が表か表現外
かを判別する。このブロック種別の判別は、例えば、ブ
ロックの横幅と高さの値が、両方とも予め定めた閾値よ
り大きい場合に表を構成するブロックと判断し、それ以
外の場合は表現外の要素を構成するブロックと判断する
。ブロック種別が表現外と判定された場合には、ステッ
プ2(8で異端構成要素を認識する。ブロック種別が表
と判定された場合には、まずステップ214で、そのブ
ロックを白画素連結領域の外接矩形の単位に分割する。
求めた領域の内の1つを選択する。次にステップ216
で、選択された領域の種別がi(セル)か、欄以外かを
認識する。
7で非欄領域に関する認識処理を行う。領域種別が欄と
判定された場合には、ステップ21で物理構造認識サブ
ルーチンプログラムを再帰的に呼び出し、さらにこの領
域の物理的な構造を認識する。尚、上述したプログラム
の再帰的な呼び出しを通常のプロセッサで実行するため
の方法は、通常のプログラム言語のコンパイラ技術とし
て公知であり1例えばN、Wirth氏著、片山卓也氏
訳による「アルゴリズム子データ構造=プログラム」と
題する文献(1979年1日本コンピュータ協会発行)
の142ページ以降に詳細に解説されているので、ここ
では説明を省略する。以上の処理をすべてのブロックお
よび領域について繰り返す。
ーチャートを示す。図において、変数■は処理中有効な
仮ブロック数、nは第7図で説明した上下方向画素位置
、iは処理すべき仮ブロックの番号、Nは対象画像また
は対象領域の高さ。
向画素位置、11およびriは第1番目の仮ブロックの
左端画素位置および右端画素位置を示す。
1行分の画素の処理が終了する毎に、ステップ211a
とステップ211bを繰り返す。
ブルT1において同一のブロックが複数の仮ブロックと
して検出されていることが判明したものについて、仮ブ
ロックの統合処理を行う。ステップ211bでは、当該
行において新たに検出される仮ブロックをテーブルT1
に登録処理を行う。
る。各仮ブロックについては、その左端または右端の位
置が更新されるか否かを調べ、更新される場合はステッ
プ211dで仮ブロック情報を更新する。更新されない
場合には、仮ブロックが当該行において終了しているか
否かを調べ、終了している場合にはステップ211eで
その仮ブロックを正式ブロックとしてテーブルT2にH
D(追加)シ、テーブルT1から仮ブロックを削除する
処理を行う。最後に、ステップ211Cで。
、これを統合する処理を行う。
情報登録のために用いるテーブルTl。
A)に示すテーブルT1は、仮ブロックの情報を格納す
るためのテーブルであり、仮ブロック左端の画素位置a
、右端の画素位置r、上端の画素位置noの各項目から
構成される。図(B)に示すテーブルT2は、正式ブロ
ックの情報を格納するためのテーブルであり、ブロック
左端の画素位置XO1右端の画素位置xi、上端の画素
位置yO1下端の画素位置y1の各項目から構成される
。
いる。
用いて説明すると次のようになる。記号a ” eはそ
れぞれステップ2118〜211eに対応し、その地点
で対応するステップが実行されることを示している。ま
ず行L1で、新規の仮ブロックB1を示す情報がテーブ
ルT1へ登録される(b)。次の行L2では、上記仮ブ
ロックと接する黒画素の検出によって、その左端および
右端の画素位置の更新が行われ(d)、同一行に現われ
る別の仮ブロックB2の情報がテーブルTlへ登録され
る(b)。さらに次の行L3では上記2つの仮ブロック
Bl、B2の左右端の画素位置の更新が行われ(d)、
更に別の仮ブロックB3が51taされる。仮ブロック
B1とB2は、本行の処理終了後、1つの仮ブロックB
1−2に統合される(a)。さらに次の行L4では、上
記で統合された仮ブロックB1−2と接する黒画素は現
われないため、即ち仮ブロックが継続していないため、
この行の処理終了後、上記仮ブロック情報を基に正式ブ
ロック情報を生成し、テーブルT2に格納すると共に、
その仮ブロック情報をテーブルT1より削除する(e)
。このようにすべての行の処理が終了した後、各ブロッ
クに外接する四角形が共通領域をもつ(互いに重なる)
ものについてブロック情報を統合する(c)。本例では
、2つのブロックB1−2とB3は部分的に重なるため
、1つのブロックに統合される。
チャートを示す6図において、変数Iは処理中に有効な
仮領域の数、nは第7図で説明した上下方向画素位置、
iは処理すべき仮領域の番号、Nは対象領域の高さ−p
(xt y)は画素(x、y)の濃度、mは左右方向
画素位置、11およびriは第i仮領域の左端画素位置
および右ルを用い、先ず、上述した変数の初期設定を行
ない、1行分の画素の処理が終了する毎に、ステップ2
14aとステップ214bを繰り返す。ステップ214
aでは、当該行の処理終了時点で、同一の領域が複数の
仮領域として検出されていることが判明したものについ
て、仮領域の統合処理を行う。ステップ214bでは、
当該行において新たに検出される仮領域の登録処理を行
う。これらの仮領域の処理により、変数■の値も変更さ
れる。
されるか否かを調べ、更新される場合は、ステップ21
4dで仮領域情報を更新する。更新されない場合には、
仮領域が当該行において終了しているか否かを調べ、終
了している場合には、ステップ214eで正式領域とし
て登録(追加)し、仮領域データを削除する処理を行う
、最後に正式、ステップ214cで、領域の外接四角形
が重なるものを統合する。
の経過を具体的に説明するための図である。図(A)は
、H画像EXIに対して最初のブロック分割ステップ2
11を施したとき認識される領域の構造EX3を示す。
角形で表現している。図(B)に示すEX4は、EXa
中の表と判定されたブロックに対して領域分割ステップ
214を施したとき認識される領域の状態を示す。
ている。図(C)に示すEX5は、上記EX4において
欄と判定された領域に対して、それぞれブロック分割ス
テップ211を施した場合に認識される領域の状態であ
る。
ャートである。本実施例では上記認識スチップ216は
、それぞれ領域の左右上下の各辺を認識する4つのステ
ップ216−1〜216−4からなる。物理構造認識ス
テップ21では、この認識結果に基づいて、例えば3辺
以上の線分をもつ領域は欄であると判定する。
プ216−1の詳細を、第16図のフローチャートを用
いて説明する。図において、nは領域の上下方向の画素
位置を示す変数、nQ。
右方向の画素位置を示す変数、moは領域の境界位置の
mの値、wid (n)は上下方向nの位置の画素行に
おいて境界moの近傍で横方向に連続する黒画素の個数
を示す変数である。
6aでwid (n)を領域の外側について求める。次
に、ステップ216bでwid(nを領域の内側につい
て求めて、上記値に加える。
16cで左辺の線分の1#lA幅を決定する。線幅は、
例えば(nl−no+1)個のwid (n)の値のう
ち最も頻度の高い値を線幅とみなす、などの方法で求め
ることができる。このようにして求めた線幅がOでない
場合には、以下、ステップ216dで線分位置の特定を
行い、ステップ216eで線分テーブルTBLIにデー
タを追加する。
T3の構成の■例を第17図に示す。テーブルT3は、
各nに対して境界近傍で横方向に連続する黒画素の左端
XO1右端X1、長さwidの各項目から構成される。
。
的に説明するための図である。図において、図(A)は
原画像における左辺の状態を示す原画像上では、画像の
入力誤差等により黒画素の1部が欠陥したり、余分な黒
画素が生成されたりして、直線の縁が凹凸になるのが普
通である。図(B)は上記入力画像を左辺認識ステップ
216−1で処理した結果を示す。最も頻度の高い線分
データにより線幅と線位置を認識し、凹凸を修正した線
分データにより直線画像を形成し表示している。この認
識により、直線の位置情報等を得ると共に、表面に存在
した凹凸を滑らかにした直線を生成することができる。
行な線分の認識結果を格納するためのテーブルTBLI
の構成を示す。本テーブルTBL1は、線分を第18図
(B)のように矩形領域と捉えたときの、左上座標(L
XO,LYO)、および右下座標(LXI、LYI)の
各項目から構成される。本テーブルは帳票書式格納領域
982に用意され、後述する構成要素認識ステップ21
8で認識された線分データも上記テーブルに格納される
。
説明する。
素の代表的なパターンを示す。図(A)と(B)は対角
に斜線が施された欄に対応するパターンPTI、PT2
である。これらのパターンは、第13図で説明した領域
分割ステップ214のステップ214cの直前において
、図中の破線で囲まれた部分がほぼ同サイズの重畳した
領域となる。図(C) −(F)は円弧に丸められてい
る表の角部分に対応するPT3〜PT6パターンである
。これらのパターンは領域分割ステップ214のステッ
プ214cの直前において、図中破線で囲まれた部分が
、比較的大きな領域切内部に重畳した小さな領域となる
。何れにしても、これらのパターンは、前記領域種別認
識ステップ216で左、右、上、下の4辺として検出で
きないため、非線領域と判定される。
ターンを検出するための処理の一例を説明する。図にお
いて破線で囲まれた部分がステップ214で検出された
1つの領域であり、この領域に第20図(A)〜(F)
のいずれかのパターンが位置する。まずこの領域を図に
示す6本の一点鎖線で16個の部分領域に分割する。3
本の縦線v1〜■3は、領域境界xQ、xiと所定の小
さな値をもつ定数αに基づいて、それぞれのX座標がX
O+α、(xo+xl)/2、Xl−αとなるように設
定される。3本の横線のH1〜H3は、領域境界yO9
y1と、上記所定の定数αに基づいて、それぞれのy座
標がyo+α、(yO+yl)/2.yl−αとなるよ
うに設定される。
みによって囲まれる中央の4つの領域の内部の黒画素の
濃度を¥JRにる。濃度は各部分領域の全画素に対する
黒画素の割合で定義する。この濃度が所定の閾値より大
きい場合には黒領域、小さい場合には白領域と呼ぶこと
にすると、黒領域が左上と右下に存在するものは第20
図のパターンPTI、以下同様に右上、左下はPT2、
左上、右上、左下はPT3.左上、右上、右下はPT4
、左上、左下、右下はPT5、右上、左下、右下はPT
6のパターンと判定することができる。
定されたものについては、斜線情報を第22図に示すテ
ーブルTBL2に格納する。本テーブルTBL2は、斜
線の最左端の画素座標(SXO,5YO) 、最右端の
画素座標(S X 1 。
よび最右端の座標は対象領域の角点の座標または角点の
近傍の黒画素を調べることによって容易に求めることが
できる。
さSLA、即ち 5LA=v’(SXO−8XI)”+(SYO−3YI
)”から、 5W=B P/S LA または、これを四捨五入等により整数化した値として計
算することができる。本テーブルは帳票書式格納領域9
82に用意される。
は、円弧情報を第23図に示すテーブルTBL3に格納
する。本テーブルTBL3は、円弧の中心画素座標(A
X、AY)、半径AR1線幅AW、開始角度AAO1終
了角度AAIの各項目から構成される。開始角度および
終了角度は、前記の方法で求めたパターンの種別PT3
〜PT6に従って、それぞれ(90,180)、(0,
90)、(180,270)、(270゜0)と定義す
る。半径、線幅は、例えば領域内の黒画素数BP、領域
の長辺の長さAL及び短辺の長さASを用いて、次の方
程式を解くことによって算出することができる。
標はPT3〜PT6の各パターンに対して、領域の長辺
上の端から短辺の長さと同じ点に定義する。本テーブル
も帳票書式格納領域982に用意される。
を示す。ここでは、先ず最初に帳票の構成要素の種別が
直線、破線、文字の何れであるか判定し、この判定結果
に基づいて直線認識ステップ2181、破線認識ステッ
プ2182、または文字認識ステップ2183の何れか
の処理を実行する。
する。この例では、ブロック分割ステップ211で求め
た各ブロックに外接する四角形の大きさと形状によって
、構成要素の種別を判別する。
の、それぞれ横幅、即ちXl−XO+1および高さ、即
ちYl−YO+1を表す。ここでは予め設定した定数β
およびγを境界値として、図のように範囲81〜83を
定義し、対象とするブロックが範囲81に属す場合は直
線、範囲82に属すときは破線、範囲83に属すときは
文字と判定するものとする。
ートを示す。本ステップでは、例えば前記第16図で説
明した左辺認識ステップと全く同様の方法で、直線に関
する情報を求める。図において、線幅の決定ステップ2
181aは、第16図のステップ216a−216cに
対応する。線位置の決定ステップ2181bは、同様に
ステップ216dに対応する。さらにステップ2181
cはステップ216eに対応し、これと全く同様に帳票
書式格納領域に用意された線分テーブルTBLIに認識
結果を登録する。
ステップでは検出された破線要素が、すでに検出されて
いる破線を延長するものであるか否かを調にる。まず、
2つの破線要素が1本の破線を構成するための条件を第
27図を用いて説明する。図において2つの破線要素8
5と86の左上の画素座標をそれぞれ(x OF y
O) +(x O’ p y O’ )とし、右下の画
素座標をそれぞれ(x 1 t y 1) r (x
1 ’ p y 1 ’ )とするとき、予め定めた
定数d1およびd2に関して以下の不等式を満足する破
線要素の組を、同一の破線を構成する要素と考えるもの
とする。
l)<d IMjn(lx 1−xo’ l、
IxO−x l’ I)<d 2ここに関数Minは
パラメータで示される2つの式の値のうち、小さい方の
値をとる関数である。
ートである。まずステップ2182zで、当該破線要素
が、後述するテーブルTBL4に格納されている既に検
出済みの破線を延長するものであるか否かを調べ、延長
するものである場合に、は、これらの要素をすべて含む
ように破線範囲を拡張する。このようにして順次に結合
された破線要素の範囲について、第26図で説明した直
線認識ステップと全く同様の方法で、以下の如く波線情
報を求めることができる。図において、線幅の決定ステ
ップ2182aは、第26図のステップ2181aに対
応する。ただし、値WIDの最大頻度を求める処理(前
記ステップ216Cの説明参照)では、破線の場合に破
線要素間に間隔が存在することを考慮して、値Oの頻度
を除外する。
プ2181bに対応する。また、ステップ2182cは
ステップ2181cに対応し、直線の場合と同様にして
帳票書式格納領域に用意された破線テーブルTBL4に
認識結果を格納する。
テーブルTBL4は、1つの破線を構成する複数の破線
要素の集合を矩形領域と捉えた場合の左上座標(DXO
,DYO)、および右下座標(DXI、DYI)を示す
データから構成される。本テーブルも帳票書式格納領域
982に用意される。
である。まず最初に、当該ブロックの近傍にまだブロッ
ク種別が未判定で文字要素と判定される可能性のあるブ
ロックが存在するか否かを調べる。このようなブロック
が存在する場合には、ステップ2183dにおいて当該
ブロックを文字列要素として作業領域985に登録する
。近傍に文字要素と判定される可能性のあるブロックが
存在しない場合には、ステップ2183aで、当該ブロ
ックを含む文字列を生成する。本処理においては、上記
ステップ2183dで登録した文字列要素のうち、後述
する文字構成条件を満たすブロックを集めて、これらの
全ブロックを含む1つの矩形範囲を文字列の範囲として
求める。ステップ2183bでは、上記文字列の範囲か
ら個別の文字領域を抽出する。個別の文字領域は、例え
ば上記長方形の範囲の中で、短い辺に沿って黒画素の投
影データを作成し、長い辺に沿って現われる上記投影デ
ータのギャップが予め定めた閾値を越える部分で上記長
方形範囲をサブ領域に分割することによって抽出するこ
とができる。ステップ2183cでは、このような個別
の文字領域に含まれる文字パターンを、公知の文字認識
方式により文字コードに変換する。文字認識方式として
は、例えば、尾上守夫氏編による「画像処理ハンドブッ
ク」と題する文献(昭和。25年、昭晃堂発行)の46
8ページ以降に記されている方法を用いることができる
。
判定は、例えば次のようにして行なう。
88の左上の画素座標をそれぞれ(XO。
座標をそれぞれ(xi、yl)l (xi’ l y
l/ )とするとき、予め定めた定数D3およびD4に
関して以下の4つの不等式。
を構成する要素とみなす。
プ2183の実際の処理の過程を示魁す図である。図に
おいて(A)は上記条件に従って統合されると判定され
たブロックの集合を図示したものである。(B)は、ス
テップ2183aにより実際に文字列が生成された状態
を図示したものである。(C)はこのような文字列から
ステップ2183bにより個別の文字を抽出した結果を
図示したものである。
3図に示すテーブルTBL5の形式で帳票書式格納領域
982に記憶される。上記テーブルTBL5は、1個の
文字を囲む矩形左上点の画素座標(CXO,CYO)、
右下点の画素座標(CXI、CYI)、文字コードcc
の各項目から構成される。文字コードとしては例えばJ
IS規格で定められた文字コードの体系を利用する。
な動作について説明したが、上記ステップに更に他の処
理機能を付加することによって帳票認識精度を更に向上
することができる。
2の他の実施例を示す。この実施例では、前記物理構造
認識ステップ21に先立って入力画像の前処理20を実
行し、物理構造認識ステップ2工の後に帳票データの後
処理29を実行する。
チンプログラムのフローチャートの一例を示す。ここで
は、前処理として入力画像データの傾きの補正を行って
いる。ステップ201a−201dでは、それぞれ後述
する画像の左辺、右辺、上辺、下辺を検出する。ステッ
プ202では上記ステップで検出した4辺の傾き情報か
ら画像全体の傾きを計算する。これは、例えば左辺の傾
き+90°、右辺の傾き+90″′、上辺の傾き、下辺
の傾きの4つの値の平均値により計算することができる
。ステップ203では、上記ステップ202で求めた角
度を画像の回転処理を行う。ステップ204で、必要に
応じて、帳票画像として有効な領域の切り出しを行い、
ステップ205で。
て、第36図(A)、CB)を用いて説明する。
き計算の基準線にできる場合を示す。これは、画像入力
装置93において、紙面の地色(例えば白色)に対して
、これとは異なる背景色を使用して画像入力できる場合
に相当する。例えば、原稿を静止させ、紙面からの反射
光をセンサに入力する方式の画像入力装置では、原稿カ
バーの色を黒色とすることによって実現できる。このよ
うな場合には、上、下、左、右の4辺は、記号70a〜
70dで示した紙面の各境界線に着目して検出すること
ができる。
ものの、帳票に記載された表の外枠を傾きの計算の基準
線として検出できる場合を示す。
示した表の境界を検出する。具体的には、白画素連続状
態から黒画素に変化する最も外側の境界を求め、これら
の境界線4本の直線を対応づけることによって求めるこ
とができる。
チンプログラムのフローチャートの一例を示す。ここで
は、後処理の1例として、物理構造vl識処理により帳
票書式格納領域982に記憶された画像データの修正を
行う。ステップ291テハ、テーブルTBLI〜TBL
4に格納された線情報を修正し、ステップ292では、
テーブルTBL5に格納された文字情報を修正する。な
お、上記実施例では、線の修正ステップ291と文字の
修正ステップ292をそれぞれ1回ずつ順次番こ実行す
るようにしているが、通常のワードプロセッサやCAD
システムで行なわれているよう番こ。
の修正を繰り返すようにしてもより)。
Dシステムの図形処理機能において行なわれているよう
に、オペレータの指示による腺の移動、削除、伸縮等の
処理を実行する。ここでは、線修正ステップ291の特
殊な機能の1例として、他の線との関係から罫線データ
を自動的に修正する処理について、第38図を用いて説
明する。ステップ2911では、帳票書式格納領域に格
納された全ての線の交点を求める。このとき、各線の端
点と他の線との距離を求め、この距離が予め定めた閾値
より小さいものも交点と扱う。ステップ2912では、
各線の端点と他の線の端点との距離を求め、この距離が
予め定めた閾値より小さい位置関係にある複数の線の組
を求める。ステップ2913では、上記線の組の中で、
線幅の差が予め定めた閾値より小さいものについて、各
線の線幅データをいずれか一方のv;A幅、あるいはそ
れらの平均値に置き換える。ステップ2914では、上
記線の組について、各線の種類を最も多い線種類に置換
する。ステップ2915では上記線の組について、線の
位置を正規化する。横線については、各横線の始点と終
点の位置が外枠の縦線に一致するように、例えばX座標
を各線の平均位置の値に置き換える。また、縦線につい
ても、各縦線の始点、終点の位置(y座標)が外枠横線
に一致するように各線の平均位置に揃える。ステップ2
916では、複数の平行線の中から隣合う2本の線の間
隔が略等しいもの、すなわち予め定めた閾値の誤差以内
にあるものを検出し、ステップ2917で、上記線間隔
をそれらの平均値に等しくするように各線を必要に応じ
て移動する。
ADシステムの文字処理機能において行なわれているよ
うに、オペレータからの指示による文字の移動、変更、
削除、追加、サイズ変換等の処理を実行する。ここでは
、各文字を他の文字との関係から自動的に修正する特殊
な処理につし)て、第39図を用いて説明する。ステッ
プ2921では、互いに隣接する複数の文字からなる組
を文字列として求める。隣接文字は1例えば第31図で
説明した方法を利用して見つけることができる。ステッ
プ2922では、このようにして求めた文字列について
、予め帳票書式認識部972に用意してある標準の単語
群との照合を行う。各単語を文字列の先頭に順次当ては
め、例えば標準単語の文字のうち合致する文字数の割合
(一致率)が最も大きい単語を照合結果とする。さらに
は発明者らが先に出願済みの特願平1−196586号
に記載の方法を利用することもできる。照合の結果、上
記一致率が予め定めた閾値より大きい場合には、ステッ
プ2923で標準単語と不一致の文字の文字コードを修
正し1文字列中の単語を標準単語に合致させる。また、
ステップ2924で、同一文字列中の文字位置と文字サ
イズが互いに揃うように、テーブルTBL5に登録され
ている矩形情報CXO,CYO,CXI、CYIの値を
修正する。修正方法としては、単に各文字列中の平均値
を採用する方法や、認識した文字コードを利用して1文
字の形状情報からまず文字枠の大きさを求め、この文字
枠の位置と大きさに基づいて修正する方法などを利用す
ることができる。
第40図に示すテーブルTBL6として帳票書式格納領
域982に記憶する。上記テーブルTBL6は、単語を
構成する文字の数WNと。
ンタ情報WCI〜WCpの各項目から構成される。ここ
で、pは単語当たりの文字数WNの最大値である。上記
テーブルTBL6は以下に説明する帳票書式認識プログ
ラム2の第2の実施例において利用する。
ーチンプログラムの第2の実施例を示すフローチャート
である。第2の実施例では、以前に説明した帳票の物理
構造を認識するステップ21と、以下に説明する帳票の
論理構造を認識するステップ22とから構成される。尚
「帳票の論理構造」とは、本発明では、後述する帳票の
欄の行桁構造、フィールドに関する情報等、帳票の意味
に及ぶ構造を意味する。
ブルーチンプログラムの第1の実施例を示す。上記プロ
グラム22は、帳票書式認識部972中の、プログラム
2とは異なる領域に用意される。この第1の実施例では
、サブルーチン22は、帳票に記入された文字や罫線等
の位置および大きさを行と桁の形に配列するように正規
化するステップ221のみから構成されている。
ーチャートを示す。ステップ2211では、テーブルT
BL5に格納されている各文字の基準位置、およびテー
ブルTBLI、TBL2゜TBL4に格納されている各
線分の全ての交点および端点の座標を求め、第44図に
示すテーブルTBL7に格納する。文字パターンの基準
位置については、後に詳細に説明する。テーブルTBL
7は、これらの文字基準位置、および線分の交点、端点
について、それらの座標(MX、MY)と、情報コード
MCの各項目から構成される。情報コードMCは、文字
情報では文字パターンを示す文字コード、線情報では、
第45図で後述するように、その端点または交7密のパ
ターン(形状)を示す文字コードを意味する。ステップ
2212では。
標MXの値に従ってソーティングする。ソーティングは
昇順(小さいデータから順に配置すること)に行うが、
そのアルゴリズムについては公知であり1例えば前記の
N、Wirth氏著の文献の。25ページ以降に詳細に
解説されているので説明を省略する。ステップ2213
では、このソーティング後のテーブルTBL7のデータ
を順に取り出し、先ず、そのデータについて正規化すべ
き量dを求める。この正規化量dは、正規化すべき行お
よび桁の幅をRC画素としたとき、RCの整数倍で当該
MXの値より大きく、かつ最も近いものを選択し、これ
と当該MX値の差として計算する。ステップ2214で
は、全てのデータのMXの値゛に上記dを加える。ステ
ップ2215では、ステップ2212と同様に、TBL
7をMYの値に従ってソーティングする。以下、ステッ
プ22工6と2217で、それぞれステップ2213.
2214と同様に1MYの値を順次正規化する。すにで
の座標データの正規化が終了した後、ステップ2218
で線分の交点、または端点間の線分パターンを示す文字
コードをその位置情報と共に発生する。最後に、ステッ
プ2219で、冗長に拡大した欄等を幾何学的構造を保
ったまま収縮する処理を行う。なお1以上の実施例では
、座標MX、MYの正規化量dを全て正の値としたが、
単にRCの倍数に最も近い値を採用することによって、
負の値を許すこともできる。
ーンの位置基準点RP(黒丸)を示す図である。図(A
)は全角の文字パターン、図(B)は半角の文字パター
ンの基準点の例を示す。
るサブルーチンプログラムの第2の実施例のフローチャ
ートである。この第2の実施例は。
ており、図(A)のようにステップ222のみから構成
される場合と、図(B)のように前述した行桁正規化ス
テップ221を実行した後、このフィールド位置認識ス
テップ222を実行するように構成する場合とが存在す
る。
細なフローチャートを示す。ステップ2221では、フ
ィールド位置の8識を容易にするために、表形状の正規
化処理を行う。表形状の正規化処理の実例を第48図(
A)、(B)に示す。図において図(A)は罫線が省略
されている表4■に罫線42A、42Bを付加する処理
の代表例である。本処理は例えば横線分の各端点に接続
する縦線分の有無を調べ、ない場合には、当該横線分に
交わる他の縦線分を水平方向に複写した線分を新たに生
成することによって容易に実現できる。またさらに簡単
に、平行する横線分の組に対して、最も上方に存在する
線分と最も下方に存在する線分の各始点間および各終点
間に新たに2本の縦線分を生成することによっても実現
できる。
る表43を、外枠が直線で構成された表44に変換する
処理の代表例である。本処理は例えば円弧データを、そ
れぞれ表の角を示す縦および横の2本の線分データに置
換することによって簡単に実現できる。より具体的には
格納したテーブルTBL3 (第23図)の各要素につ
いて1例えばAAO=Oのとき、LXO=AX+AR。
る縦線分i LXO=AX+AR,LYO=AY−AR
,LX1=AX、LY1=LYORなる縦線分をTBL
Iに生成する。AAOが90.180.270について
も全く同様の処理を行う。
ち4本の線分で囲まれ、かつその内部に他のフィールド
含まない矩形領域(フィールド)を順次に油出する。本
処理は、例えば横線分をその縦位置の順にソーティング
し、その順序に従って先ず第1の横線を基準横線として
選択する。次に左側の縦線から順にチエツクして上記基
準横線と交わり下方に伸びる2本の縦線の組を選択し、
次にこれらの縦線の組と交わり上記基準横線に最も近い
位置にある横線を捜すことにより、上記基準横線を上辺
とした2本の横線と2本の縦線とを4辺とする領域を見
つける。上記動作を繰り返して、1つの基準横線を上辺
とする全てのフィールドを見つけたら、その次の横線を
基準横線に選んで同様の動作を繰り返すことにより、罫
線により形成される全てのフィールドを順次に見つける
ことができる。このようにして検出された各四辺形につ
いて、上述した標準フィールドの条件を満たすか否かを
チエツクすることにより、標準フィールドのみを抽出す
ることができる。
様にして、前記テーブルTBL5に格納された文字情報
から文字列情報を作成し、以下各文字列に対して、ステ
ップ2224とステップ2225を繰り返す。
た特殊フィールドを生成し得る単語との照合を行う。単
語の照合は、前記ステップ2922と同様にして処理す
る。照合の結果、前記所定の条件を満たす単語が存在す
る場合には、ステップ2225において、予め定めた手
順に従って特殊フィールドの抽出処理を行う。ここで特
殊フィールドとは、必ずしも線分情報によって囲まれて
いないが、帳票発行の際に内容データを印刷する位置を
表す仮想的なフィールドである。例えば、後記の実例E
X6.EX7に示すように。
大きさでその左隣に所定の距離能れた位置に特殊フィー
ルドが定義される。本処理は、特殊フィールドを生成し
得る各単語に対して、実際に特殊フィールドを生成する
ための条件、および生成する位置、大きさなどの情報を
、本ステップ2225の処理として記述しておくことに
よって実現できる。上記の、実際に特殊フィールドを生
成するための条件としては、例えば文字「年」と文字1
月」の間隔の各文字の大きさに対する比が。
別のための条件を記述する。
テップ2225で抽出した各フィールドが、帳票発行の
際にデータが記入される可能性がある入出力フィールド
であるか、新たにデータが記入される可能性のない固定
フィールドであるかの判別を行う。この判別は、簡単に
は例えば、フィールド(領域範囲)に文字列が存在する
か否かをチエツクすることによって行うこともできるし
、その文字列の単語としての意味を、予めプログラムが
保持している入出力フィールドに存在し得る単語のリス
トと照合し、さらにフィールド内での文字列位置が偏っ
ているか否か等を参照することによって判別を行うこと
もできる。
フィールドについて、フィールド定義情報を後述するテ
ーブルTBL8にifRする。ステップ2228では、
固定フィールドと判定されたフィールドについて、フィ
ールド定義情報を上記テーブル置8に登録する。
FXO,FYO)、右下座標(FXI、FYI)および
フィールドの名称FNの各項目から構成される。フィー
ルド名称は、固定フィールドについては、その領域範囲
に記載されている文字列をそのまま利用することができ
、入出力フィールドについては、入出力フィールドであ
ることを示す記号を登録する。上記テーブルは帳票書式
格納領域982に形成される。
222の実行結果の実例を示す。図(A)に示すEX6
は、第3図に示した原画像EXIから認識された固定フ
ィールドの位置、図(B)に示すEX7は、原画像EX
1から認識された入出力フィールドの位置をそれぞれ図
示したものである。
22で呼び出されるサブルーチンプログラムの第3の実
施例を示すフローチャートである。
222と、フィールド位置の認識結果を利用して複数の
フィールド間の関係を認識するステップ223と、各フ
ィールドの論理的に属性を認識するステップ224から
構成される。フィールド位置認識ステップ222を直接
実行するか、行桁正規化ステップ221を行った後に実
行するかにより図(A)の構成と図(B)の構成の実施
例が存在する。
細なフローチャートを示す。ステップ2231では、フ
ィールドテーブルTBL8から固定フィールドを1つ選
択する。ステップ2232では、上記選択された固定フ
ィールドに下方に接して入出力フィールドが存在するか
否かを調べる。入出力フィールドが存在する場合には、
そのさらに下方に接して別の入出力フィールドが存在す
るか否かの判定を、下方に接する入出力フィールドがな
くなる迄、繰り返す(ステップ2233A〜2233B
)。最初に選択した固定フィールドの下方に入出力フィ
ールドが1個も存在しない場合には、その右方に接して
入出力フィールドが存在するか否かを調べ(ステップ2
’234)、右方に接する入出力フィールドが存在しな
くなるまで、上記固定フィールドの右方に位置する入出
力フィールドの選択動作を繰り返す(ステップ2235
A〜2235B)。下方、および右方のいずれにも入出
力フィールドが存在しない場合にはステップ2236で
例外処理を行う。
ールドとして抽出された入出力フィールドを、特殊フィ
ールド抽出のためのキーとなった文字列である固定フィ
ールドとを組にする等、前記の単なる位置関係だけでは
関連づけることができない処理と、対応する入出力フィ
ールドが存在しない固定文字列の抽出処理を行う。ステ
ップ2237では、最初に選択した固定フィールドと、
ステップ2233Aまたはステップ2235Aで選択さ
れた入出力フィールドとを組にしてユニットを生成する
。例外処理2236が行われた場合には、特殊フィール
ドに対するユニット、固定フィールド単独で構成するユ
ニット、またはケイ線で囲まれていないフィールドを含
むユニットが生成される。以上の処理をフィールドテー
ブルTBL8のすべての固定フィールドについて繰り返
す。
たユニット情報を格納するためのユニットテーブルT4
の構造を示す。上記テーブルT4は、ユニットに属する
固定フィールドを指すフィールドテーブルTBL8への
ポインタFFと、ユニットに属する入出力フィールド数
PNと、ユニット属する各入出力フィールドを指すフィ
ールドテーブルTBL8へのポインタPFI〜PFpの
各項目から構成される。ここで、pは各ユニットにおけ
る入出力フィールド数P、Nの最大値を示す。上記テー
ブルT4は作業領域985に用意される。 第54図は
、フィールド位置認識結果EX6およびEX7に対して
フィールド関係認識ステップ223を実行して得られる
ユニットの状態の1例を図示している。ステップ223
3で選択された入出力フィールドからなるユニットUV
1〜UV4は縦ユニット、ステップ2235で選択され
た入出力フィールドからなるユニットU I−I↓〜U
H4は横ユニット、ステップ2236で固定フィールド
が孤立していると認識されたユニットUIIは孤立ユニ
ット、同じくステップ2236で罫線で囲まれていない
フィールドからなるユニットUEI〜UE3は例外ユニ
ットとして示されている。なお本例では文字「年」、1
月」、「日」の3つの文字(列)に対して、UEI−U
E3の3つのユニットを生成したが、前記ステップ22
25の処理の定義方法によって、文字列「年月日ノに対
する1つのユニットを生成するようにすることもできる
。
フローチャートを示す。ステップ2241では、ユニッ
トテーブルT4からユニットをIつ選択する。ステップ
2242では、上記のユニットの固定フィールドの名称
を、予め帳標害式認識部972に登録してあるユニット
知識テーブルと照合し、そのユニットの機能を求める。
ステップ2243で他ユニットとの意味関係、帳票上の
ユニットの配置などの情報を所定のルールと照合して、
その機能を決定する。これらの処理で求めたユニットの
機能が、関数を呼び出して値を計算し、この値を入出力
フィールドに代入する関数入カニニットである場合には
、上記関数入力属性を後述するテーブルTBL9.TB
L10に設定する(ステップ2244a〜2245a)
。ユニット機能が、ファイルを検索して値を求め、それ
を入出力フィールドに代入するファイル入カニニットで
ある場合には、ファイル入力属性を上記テーブルTBL
9.TBLIIに設定する(ステップ2244b〜22
45b)。ユニットの機能が、他の入出力フィールドに
代入された値に基づいて計算によって求めた値を入出力
フィールドに代入する計算入カニニットである場合には
、計算入力属性を上記テーブルTBL9゜TBL12に
設定する(ステップ2244cm2245c)。上記ユ
ニット機能が同一の項目の組を繰り返す意味をもつユニ
ット繰り返しユニットである場合には、繰り返し属性を
上記テーブルTBL9.TBL13に設定する(ステッ
プ2244d〜2245d)。上記ユニット機能が、上
記の何れでもない場合には、入出力フィールドにキーボ
ードからの入力値を設定するキー人カニニットと判断し
、キー入力属性を上記テーブルTBL9.TBL14に
設定する(ステップ2245e)。
ップ2242において、ユニット機能を決定するために
参照される各種の知識テーブルの構成を示す。
をもつユニットの固定フィールドの名称UNと、呼び出
すべき関数の名称FUNをその項目として管理する。
属性をもつユニットが検索すべきファイルの一例を示す
。この例では「品名」と「単価」とがその項目として含
まれており、特に品名から単価を一意に検索できるよう
にしてある。
をもつユニットにおける固定フィールドの名称UNと、
計算の種別OPと、計算に用いるパラメータとして他の
ユニットの固定フィールド名称○P1〜○PNをその項
目として管理する。
OPによって一意に決定できるものとする。
をもつユニットに設定すべき属性を管理するテーブルで
あり、固定フィールドの名称UNと、その属性として1
例えばそれが数値情報か文字情報かを示す記号ANを項
目としてもつ。
理224のステップ2245a〜2245eで用いられ
る属性設定のためのテーブル構造を示す。
ーブルT4を基に作成されるユニット全体を管理するテ
ーブルである。上記テーブルは、ユニットに属する固定
フィールドを指すフィールドテーブルTBL8へのポイ
ンタFFと、ユニットに属する入出力フィールド数PN
と、ユニットユニットの機能種別UAと、その機能詳細
情報を格納するテーブル置l0−TBL14へのポイン
タUAPの各項目から構成されている。ここ〃 で、子はユニットあたりの入出力フィールド数PNの最
大値を示す。上記テーブルT4は、以下のテーブルTB
LIO−TBL14と共に、帳票書式格納領域982に
用意される。
トの機能の詳細を示す情報を格納するためのテーブルで
あり、例えば、呼び出すべき関数の名称FUNN、関数
を呼び出すのに必要なパラメータの数RN、およびその
実体であるPAR1〜PAR〆の各項目から構成される
。ここで沢はパラメータ数RNの最大値を示す。
属性ユニットの機能の詳細を示す情報を格納するための
テーブルであり1例えば、検索すべきファイルの名称D
BN、当該帳票の処理に関係のある項目の数DN、およ
びその実体であるTMA/
、v’1〜TMDの各項目から構成される。こ
こで、bはパラメータ数DNの最大値を示す。
ニットの機能の詳細を示す情報を格納するためのテーブ
ルであり1例えば、計算種別CALN、計算に必要なパ
ラメータの数CLN、およびその実態である0PI−O
PCの各項目から構成される。ここで、Cはパラメータ
数CLNの最大値を示す。
ニットの機能の詳細を示す情報を格納するためのテーブ
ルであり、例えば、繰り返される固定フィールド数Nと
、その実態であるTBL8へのポインタRFPI〜RF
FNと、繰り返されるユニット数Mと、その実態である
TBL9へのポインタRUI−RtJJの各項目から構
成される。
機能の詳細を示す情報を格納するためのテーブルであり
1例えば、入力属性を示す記号DA、入力すべきデータ
の文字[DW、文字高さDH1隣接する文字との間隔D
D、左寄せ、中央寄せ、右寄せ等の区別を示す書式情報
DJの各項目から構成される6 第66図は1以上の処理によって原画像EXIから生成
される帳票論理構造認識結果のI例として、テーブルT
BL9〜TBL14の具体例をTBL9−EX−TBL
14−EXとして示す。
ルーチンプログラムの第3の実施例を示すフローチャー
トである。この第3の実施例は。
21と、帳票の論理構造を認識するステップ22と、以
下に説明する帳票作成プログラムを自動的に生成するた
めのステップ23から構成される。尚、ここで言う帳票
作成プログラムとは、その後に帳票作成処理3で実行さ
れるプログラムを意味する。
出されるサブルーチンプログラムの1実施例を示すフロ
ーチャートである。このサブルーチンプログラムは、帳
票書式認識部972内で上記プログラムとは異なる領域
に格納される。以下、上記サブルーチンの処理内容を、
第69図に示す実際の処理結果EX9を参照して詳細に
説明する。
処理結果であり、実際には第66図に示したテーブルT
BL8−EX−TBL14−EXを用いて作成される。
ミング言語pascalに則っている。
果に依存しないプログラムの固定部を生成する。実例E
X91’は、121.Q2. Q16゜Q32などのス
テートメントが上記プログラム固定部として生成される
。上記プログラムの生成は、実際には、サブルーチンプ
ログラム23の中で定義された所定のメモリ領域に、上
記実例で示されるような文字の列を定義していくことに
よって実現される。ステップ232では、上記プログラ
ムで使用する変数を宣言する部分を生成する。実例EX
9では、ステートメントQ3−Q5の生成がこれに対応
する。上記プログラムで使用する変数は、論理構造認識
結果におけるユニット数、繰り返しユニット数などから
決定される。次に、ステップ233で、実例EX9にお
けるステートメントQ、6から1215に示されるよう
な、上記プログラムで利用する関数または手続きを宣言
する部分を生成する。これらの関数、あるいは手続きは
、論理構造認識結果における関数入力属性の関数名等か
ら決定される。このプログラム部分の生成は、予めプロ
グラム23内に定義した幾つかの関数宣言文字列の中か
ら上記ステップで決定されたものの文字列を抽出し、こ
れをメモリ上の上記の作成プログラム格納領域に転記す
ることによって実現される。なお上記関数定義中、ステ
ートメントQ6〜Q7で特に入力文字列を挿入すべき位
置にカーソルを表示する機能を設けることにより、後の
帳票発行処理をユーザが容易に行うことができる。
によって、繰り返し制御部を生成する6M!り返し制御
部は、判定ステップ230Cにより終了が検出されるま
で、繰り返しユニットの数だけ生成される。これによっ
て、実例EX9では、ステートメントQ17. Q18
.Q24が生成される。ステップ230aでは、上記繰
り返し部に属する入出力フィールドを1つずつ選択し、
ステップ235で上記入出力フィールドの処理部を生成
する。実例EX9では、これによってステートメント1
19〜Q23が生成される。
c)、次に非繰り返し部の生成が行なわれる。まず、ス
テップ230dで非繰り返し部の入力フィールドの1つ
を選択した後、ステップ235でその入出力フィールド
の処理部を生成する。
ートメントQ25〜Q31が生成される。非繰り返し部
の全ての入出力フィールドの処理部生成が終ると(ステ
ップ230d)、後処理ステップ236でプログラム整
形を行い、ステップ237で、このようなソースプログ
ラムと呼ばれる文字列をCPU92が直接実行できる機
械語に翻訳する。
ておいた公知の言語コンパイラ(プログラム)を起動す
ることによって実現される。
235の詳細な処理内容を示すフローチャートである。
9を参照することにより、与えられた入出力フィールド
の属性を判定する。
テーブルTBLIOを参照することにより、与すられた
入出力フィールドの属性を判定する。判定の結果が関数
属性の場合には、ステップ2351でテーブルTBLI
Oを参照することにより関数属性の処理部を生成する。
テップにより生成される。判定の結果がファイル入力属
性の場合には、ステップ2352でテーブルTBLII
を参照することによりファイル入力属性の処理部を生成
する。実例EX9では、Q21の1行が本ステップによ
り生成される。判定の結果がキー入力属性の場合には、
ステップ2353でテーブルT B 、L↓4を参照す
ることによりキー入力属性の処理部を生成する。実例E
X9では。
る。判定の結果が計算入力属性の場合には、さらにステ
ップ2350bでテーブルTBL12を参照することに
より、その演算種別を求める。演算種別が積の場合には
、ステップ2354で再度テーブルTBL12を参照す
ることにより積演算の処理部を生成する。実例EX9で
は、Q22の1行が本ステップにより生成される。演算
種別が総和の場合には、ステップ2355で再度テーブ
ルTBL12を参照することにより総和演算の処理部を
生成する。実例EX9では、Q25−Q28の4行が本
ステップにより生成される。
簡単化のため、概ね自動的に認識を行なうように述べた
が、実際の応用においては、例えば画像入力の状態等に
より誤認識が発生することがある。このようなケースに
対応するためには、例えば認識の各段階に、オペレータ
による確認操作と、必要に応じて上記自動認識結果をマ
ニュアルで修正するための処理ステップを挿入しておく
とよい6特に物理構造認識ステップ21.論理構造認識
ステップ22における行桁正規化ステップ221、フィ
ールド位置認識ステップ222、フィールド関係認識ス
テップ223、フィールド属性認識ステップ224、お
よび帳票作成プログラム生成ステップ23のそれぞれの
直後に、上述した処理結果の確認と修正のための処理ス
テップを挿入すると都合がよい。
作成ステップ3の実施例について説明する。
ローチャートである。この実施例では、帳票作成ステッ
プ3が帳票書式のうち第8図のステップ21で求めた物
理構造(即ち、テーブルTBL↓〜TBL5に登録され
た情報)を用いて出力(例えば印刷)すべき書式データ
を生成するステップ39だけで構成されている。生成さ
れた出力帳票書式データは、出力帳票格納領域984に
格納される。
び出されるサブルーチンプログラムのフローチャートを
示す。このサブルーチンプログラムは、帳票作成部97
3内で上記プログラム3とは異なるメモリ領域に用意さ
れる。最初のステップ391では、線分(直線)の認識
結果が登録されているテーブルTBL↓を順次に参照す
ることによって、これらの線分を例えばプリンタ95で
印刷するための書式データを生成する。ステップ392
では、斜線の認識結果が登録されているテーブルTBL
2を1@次に参照することによって、これらの斜線をプ
リンタ95で印刷するために必要な書式データを生成す
る。ステップ393では。
次に参照することによって、これらの円弧をプリンタ9
5で印刷するための書式データを生成する。ステップ3
94では、破線の認識結果が登録されているテーブルT
BL4を1@次に参照することによって、これらの破線
をプリンタ95で印刷するための書式データを生成する
。ステップ395では、文字の認識結果がRfaされて
いるテーブルTBL5を順次に参照することによって、
これらの文字をプリンタ95で印刷するための書式デー
タを生成する。
84に得られる印刷書式データが、接続するプリンタ9
5の仕様に合わせたデータ形式で生成される。上記デー
タ形式は、例えば通常のプリンタが外部インタフェース
として有しているビットマツプ形式であってもよいし、
コマンドシーケンス形式であってもよい。
合の説明図である。図(A)はテーブル1BLLに格納
された1本の線分データを示し、G(B)はこれに対応
するビットマツプの印刷書」データを示す。図(B)の
データは、印刷され2ドツトと1対1に対応した白画素
の配列をメモ1、上に用意しておき、テーブルTBLI
で定義さ才た線分に対応する部分、即ち図(B)に斜線
で力した矩形領域5に黒画素を代入することによっズ容
易に得ることができる。斜線9円弧、破線データについ
ても上記線分の場合と同様にして印刷書式データを作成
することができる。尚1文字データは、予め別に用意さ
れた文字フォノ1−パターニを直接、または必要に応じ
て拡大縮小等の変形を施した後、上記白画素配列の上の
所定の位置に活写する形で作成することができる。
ーケンス形式で印刷書式データを生成する場合の説明図
である。図(A)はテーブルTBL1に格納された1本
の線分データを示し1図(B)はこれに対応する線分を
描くためのコマンドシーケンス形式の印刷書式データを
示す。図(B)のデータは、テーブルTBLIの各項目
の値に応じて所定のコマンドシーケンスを発生するため
の規則を予めステップ391の中に定義しておくことに
よって、容易に得ることができる。斜線2円弧、破線2
文字データについても、上記線分の場合と同様にして作
成することができる。尚、プリンタ95がTBLI〜T
BL5の内容をそのままの図形種別や精度で出力できな
い場合は、印刷書式データからプリンタに合せた近似デ
ータを得るための手順も上記印刷書式データ生成ステッ
プ39に定義しておくことになる。
ローチャートである。本実施例では、上述した印刷書式
データ生成ステップ39に先だって、まずテーブルTB
LI〜TBL5に格納された帳票書式データをコンソー
ル91に表示しくステップ31)、オペレータの指示に
より上記書式データを編集、即ちデータの追加、更新、
削除等の処理を行なう(ステップ32)ようにしている
。
1)は、例えば上記印刷書式データ生成ステップ39と
同様の方法で、印刷書式データをコンソール91のビッ
トマツプメモリに展開することによって実現できる。ス
テップ32で行なう編集処理は、第37図で説明した後
処理ステップ29における線の修正ステップ291およ
び文字の修正ステップ292と同様、ワードプロセッサ
やCADシステムで広く知られた技術を適用できるので
、ここでは説明を省轄する。
集を加え、例えば第76図に示す如くレイアウト変更さ
れた帳票EXIOの印刷書式データを生成することも可
能である。また、上記第2の実施例によれば、例えば第
77図に示すような帳票EXIIを作成し、その印刷書
式データを生成することも可能である。この場合、帳票
の内容データは書式として印刷されている。印刷のみを
目的とする場合には、書式データと内容データを区別す
る必要はなく、このような利用方法が可能である。上記
処理によって最終的に得られる印刷書式データは、前述
した第1の実施例と同様、印刷帳票格納領域984に登
録される。
プ2における物理構造認識結果を利用することを前提と
して説明したが、論理構造認識結果の一部であるテーブ
ルTBL7.即ち行桁正規化ステップ221の結果の情
報をもとに、同様の処理を行なうことも可能である。こ
の場合の処理は1以上の実施例で文字コードを扱う処理
と同様の方法で実現できる。このとき印刷される書式デ
ータは、幾何学的には必ずしも入力した帳票の書式とは
一致しないが1文字や罫線の素片がすべて格子状に配列
されているため、上記の帳票書式編集処理22がオペレ
ータにとっては極めて容易となる。
ローチャートである。この実施例では、まずステップ3
3において前述の帳票書式認識結果を利用して、これに
適合する帳票内容データを作成し、帳票内容格納領域9
83に格納する。帳票内容データは9例えばテーブルT
BL5と同様の形式で格納することができる。次にステ
ップ34で、前の実施例における帳票書式データと同様
にして、印刷(出力)用のデータに変換し、出力帳票格
納領域984に格納する。
施例を示すフローチャートである。ステップ31では、
前記第2の実施例と同様にして。
入力したキー情報を読取る。キー情報としては、例えば
カーソル移動、帳票に記入すべき内容データ、諸機能を
指示するコマンドなどが含まれる。この情報が終了コマ
ンド以外のときは、ステップ332において、入力され
たキー情報に従って帳票の内容データの入力処理を行な
う。上記入力処理では、例えばカーソル位置に指定した
文字または文字列を新たに定義する処理の他、その後に
これらの入力データを変更、削除する処理などの処理が
可能である。上記入力処理により。
5と同様の形式の内容データが新たに定義される。
帳票書式EXI、EXIO1または第80図に示す書式
EX12をもとにして、それぞれ発行帳票EX2.EX
II、および第81図に示すEX13のような内容デー
タを作成することができる。
施例を示すフローチャー1・である。ステップ333で
は、当該帳票書式のうち任意の入出力フィールドを選択
する。上記選択は、自動的に行なってもよいし、オペレ
ータからの指示で行なってもよい。ステップ334では
、上記選択された入出力フィールドに対応する内容デー
タを、ファイル等から検索する。この処理は、選択され
た入出力フィールドが属するユニットの名称等に基づい
て、対応するファイルを自動的に検索することもできる
し、オペレータの指示で行なってもよい。上記検索の結
果、入出力フィールドに対応するデータが存在する場合
には、ステップ332で上記データを上記入出力フィー
ルドに入力する。
て、帳票内容格納領域983に、例えば文字テーブルT
BL5と同様の形式と内容データを新たに定義する。
帳票書式EX12を例にして説明する。
3図に示すような構成とする。本ファイルはファイル全
体の管理情報F1と、題名ファイルF21氏名ファイル
F3.要旨ファイルF4.本文ファイルF5から構成さ
れる。
が自動的選択されると、これに対応するデータが題名フ
ァイルF2から読みだされ、帳票EX13に示すように
、入出力フィールドと対応する位置に内容データとして
定義される。以下同様にして、氏名、要旨の入出力フィ
ールドの内容を定義することができる。上記実施例によ
れば、EX12のような書式データを画像入力するだけ
で、基本となるファイルから自動的にその内容データを
生成し、EX13のような帳票を容易に作成することが
できる。
施例である。本実施例では帳票の作成に。
ルド属性認識結果を用いる。最初のステップ31では、
帳票の書式をコンソール91に表示する。次のステップ
333では、当該1脹票の入出力フィールドのうち、処
理済のフラグが付加されていないフィールドを工つ選択
する。処理済のフラグは、各フィールドに対して1個か
らなる配列である。選択した入出力フィールドの属性が
関数入力属性のときは、以下ステップ335で、関数の
計算を行ないこれを内容データとして新たに定義すると
共に、処理済のフラグを付加する。選択した入出力フィ
ールドの属性がファイル入力属性のときは、まず当該フ
ィールドのファイルを検索するために必要なパラメータ
、即ちテーブルTBLllにおけるTMI〜TM (D
N−1)がすべて入力済か否かを確認する。入力済の場
合には、ステップ334でファイルから内容データを検
索し、これを新たな内容データとして定義すると共に、
処理済のフラグを付加する。選択した入出力フィールド
の属性が計算入力属性のときは、まず当該フィールドの
計算式を実行するために必要なパラメータ、即ちテーブ
ルTBL12におけるOP1〜OP (N−1)がすべ
て入力済か否かを確認する。入力済の場合には、ステッ
プ336で対応する計算式を実行し、その結果を新たな
内容データとして定義すると共に、処理済のフラグを付
加する。選択した入出力フィールドの属性がキー入力属
性のときは、以下ステップ331で、キーボードからの
データ入力処理を行い、結果を内容データとして新たに
定義すると共に、処理済のフラグを付加する。1回の入
出力フィールドの処理が終了すると、ステップ31で書
式および更新された内容データをコンソール91に表示
する。以下前記の処理済フラグがすべてのフィールドに
付加されるまで上記処理を繰り返す。
施例である。本実施例では帳票の作成に、ステップ23
の帳票作成プログラム生成処理の結果を用いる6ステッ
プ337では、ステップ23で求めた帳票作成プログラ
ムの編集を行なう。本処理により、オペレータは認識誤
りを修正したり。
る。ステップ338では、上記帳票処理プログラムを起
動する。以下このプログラムの制御のもとで帳票が作成
されるので、本プログラムはその終了を監視すればよい
。
認識結果に対して行ない、その後にフィールド位置認識
等の他の論理構造認識処理を実行したが、第51図(A
)の如く上記フィールド位置認識などの論理認識処理を
物理構造認識結果に引き続いて行ない、論理認識結果を
示すデータの行桁正規化を行なうようにすることもでき
る。
この実施例の動作例を中心に、さらに補足説明を行う。
的な画面の遷移を示す図である。図において、A201
は、帳票用紙の例である。このような用紙を、ステップ
A202で画像入力装置93(例えばOCRの読取り装
置、FAX等)に入力する。上記ステップA202では
、読み込んだ用紙に記載してある罫線1文字、画像など
の情報が画像データから認識され、前記実施例で詳述し
た文書の物理構造データが生成され、この物理構造デー
タに基づく文書情報が画面A203のようにデイスプレ
ィ画面に表示される。オペレータは。
用紙の内容との比較確認をステップA204で行う。
ソルをその修正、追加位置にセットし、修正、追加の結
果を見ながら修正、追加作業を行う。確認、修正が終れ
ば、続行キーをコンソール91(キーボード等)から入
力し、論理認識処理に入る。論理認識処理では5知識ベ
ースを使いながら罫線の形、文字列等を切り出し、その
内容、意味によって入出力フィールドの位置、大きさ、
属性等を決定する。その結果を、A203のデイスプレ
ィ画面で表示したデータと対応づけ、決定した入出力フ
ィールドを例えば他の部分とは白と黒を反転したリバー
ス形でA205のデイスプレィ画面に表示する。表示さ
れた内容をA206で確認し、入出力フィールドの位置
、大きさ、属性に対して修正、追加があれば、結果を見
ながら対話処理にて修正、追加を行う。このとき、必要
に応じて、試行印刷を行い入出力フィールドの位置の微
fA整を行う。確認修正終了後、続行キーをコンソール
91のキーボード等から入力し、次の処理プログラム作
成処理に移行する。
0を利用し、各入出力フィールドごとに処理ロジックを
生成する。
ル800に品番、品名、単価なる項目で整理されて格納
され、一方、知識ベース340に、品番と品名と単価が
互いに関連付けられるものであることを示す情報が予め
蓄えられているものとする。また、上記関連付けにおい
ては、品番がキーになること、および金額=単価×数量
、合計=金額+金額+・・・十金額である旨の知識も知
識ベースに格納してあるものとする。
、知識ベース340と照合すると、これらの内、品番を
入力することにより、他の値がファイル検索により得ら
れることが判る。これにより1品番を入力する処理手続
き、次にファイル800を検索して品名と単価を得る処
理手続きを生成することができる。しかし、実際には用
語がぴったり一致せずに、品番でなく商品番号の如く異
なる場合もある。そこで、知識ベースに品番だけでなく
1品番、商品番号、品名番号、品名NOなどの類似語を
予め登録しておくことにより、帳票から読み取った項目
名称とぴったり一致しない場合にも、処理手続きの生成
が可能になる。
照すると、数量を入力することにより。
とが判る。このことから、数量を入力する処理手続き、
次に金額を計算する処理手続きを生成することができる
。
した品番と数量を入力し1品名、単価及び金額を得る処
理手続きをくり返し、最後に各金額の合計を計算する処
理手続きを生成することもできる。これらの手法により
、帳票フォーマットA201に示された。各々の出力す
べき値を得るための処理手続き(プログラム)が生成さ
れる。
格納される。作成されたプログラムは、ステップA20
8ですぐに実行出来る。A209は、作成されたプログ
ラムの実行中の画面を示している。
ード)と、その商品の数量との組み合せを複数組入力す
る。上記プログラムは、オペレータが入力した品番を検
索キーとして、上記商品に該当する品名と単価をあらか
じめ用意してあるファイル800から検索し1品番毎に
単価と数量を乗算して金額を算出し、更に複数組からな
る取引での金額の合計を算出する。これらの実行結果は
。
れた位置にA210に示すように印刷することが出来る
。
るプログラムモジュールの実行シーケンスを示す。以下
、第87図に沿って処理とデータの流れを補足する。
る。また、第88図(B)は、認識処理で扱う伝票の様
式例を示している。ここで、例えば記号CEI、CE2
で示す部分のように三方、又は、四方が罫線100で囲
まれた領域をセルと呼ぶことにする。まずステップA4
01で入力した罫線の情報からセル群を認識する。ステ
ップA402では、セル内の文字やセル外の文字から意
味のある文字列を探し出し認識する。次にステップA4
03でセルの種類や文字列の意味から入出力フィールド
となるセル内の入出力フィールド、セル外の入出力フィ
ールドなどを決定する。その後、文字列の意味から入出
力フィールドの属性、性質を決定し、入出力フィールド
の位置や大きさの情報と一緒に認識情報としてステップ
A404でデータファイル99(ディスク、等)に格納
する。
図である。ステップA301で、まず線分の補正を行う
。第90図(A)〜(F)は補正する線分の例を示す。
ある。角の補正は、縦線分、横線分を伸ばし1図(A)
、(B)に示す円弧や図(C)に示す切り込み形状のも
のを縦横の直線が直交して結び付いた形に補正する。ま
た、図(D)〜(F)のように完全には接触していない
線分は、交点誤差を補正する。
(Y、x)IIF(ニ並びかえ、1本づつ置きながら領
域を分割し、セルを作成していく。この領域分割処理の
動作例を第91図で説明する。この例では状態A708
の中に記号a−gで示すように1表は7本の線分から成
り立っているものとすaを選択し1次に、状態A702
で上記線分と交わる縦方向の線分すを置くと、記号アと
イで示す2つの領域に分かれる。状態A703で縦方向
の次の線分Cを置くと、記号イで示す領域が分割されて
、記号ア、イ、つで示す3つの領域となる。
示す領域が分割されて、記号ア、イ、つ、工で示す4つ
の領域となる。このようにして、例えば横方向の線分は
上から下、縦方向の線分は左から右に順に選択しながら
、互いに交わる線分を次々と置いていくと、状態A70
7のように、記号アからケで示す9個の領域に分割され
る。ここで、三方、又は、四方が囲まれていないとセル
と見なさないため、後処理で、ア、工、ケの3つの領域
を落し、結果として状態A708に示す6つの領域がセ
ルとして認識される。
ある文字列の認識処理を行う。入力された文字情報から
意味のある文字列を切り出し、左から右方向を基本とし
、先頭の文字の幅に少しでも重複する文字は、同一の行
、又は、列の文字列とみなす。
ものである。即ち、本来例図(A)のように文字の行の
開始位置が揃っているべきものが、図CB)のように各
文字の行開始位置が不揃いとなって認識された場合でも
、先頭の文字「ご」の文字幅にかかっている後続文字「
利」 「物」 「件」は、全て同一行にあるものとみな
す。また、図(C)のように一つの文字が52つの行に
掛っている場合は、上の行の文字とみなす。従ってこの
例では、r店ノは、1本」と同じ行にある文字と判断す
る。図(D)のように列開始位置が揃っているべき文字
列で各文字の列開始位置が不揃いであっても、上記と同
様に1文字幅以内のものは同一の文字列にあるものと判
断する。
列の文字を対象に、意味のある文字列の切り出す処理の
動作例を説明する。切り出し処理は、文字間隔の変換と
知識ベース340中の用語。
と「氏」の間隔イのように、文字間隔が途中で広くなっ
た場合は、そこを文字列の境界と判断し、間隔が広く変
化するまでの文字「住所ノを1つの文字列として切り出
す。逆に、図(B)の如く、文字間隔アから狭い文字間
隔イに変化した場合、変化する前までの文字”R,uJ
を1つの文字列として切り出す。図(C)の例では、間
隔アとイが同じであり、つでは、狭く変化し、工で広く
している。この例の場合には、間隔が変化したところを
文字列の境界と判断すると、「商品単」が切り出される
。つと工のように間隔が一旦狭くなって次に広くなって
いる場合は、−浸度化Qたところを境界として文字列を
切り出し5切り出された文字列を知識ベース340中の
用語又は単語と突き合わせる。知識ベース340にその
文字列が存在すれば、そこまで文字列の切り出しは正し
かったと判断する。該当する用語または単語が存在しな
ければ、最後の文字が次の文字と結びついていると判断
し、狭い間隔つをもつ文字「単」の前で区切って、「商
品」を1つの文字列として切り出す。このように文字間
隔と知識ベースの照合とを利用することにより、図(C
)のような場合でも正しい文字列「商品j 「単価ノ
「売上」を切り出すことができる。文字が縦に並んでい
る場合も同じである。
セル内で隣接する、複数行、複数列の文字列について、
組み合せて一つの意味を持つ文字列となっているか否か
を判断する。第94図(A)〜(E)にその処理の動作
例を示す。図(A)の例では、「取引先」と「コード」
が切り出されているが実は、「取引先」と「コード」は
、一つの文字列「取引先コード」となるべきものである
。
する処理は1行と行の間隔が、標準文字CHの縦幅α以
内で、かつ各々の先頭又は最終の位置が、揃っている場
合に行う。ただし、位置ずれ量が標準文字の横幅β以内
の場合は、誤差の扱いとする6図(A)の場合、各文字
列の先頭文字「取」と「コ」の縦方向の間隔をWα、横
方向の誤差をWβ、最終文字「先」とrド」の横方向の
誤差をW′βとすると、WαくαかつWβくβまたは、
W′β〈βの場合、これらを一つに統合すべき文字列と
して認識し「取引先コード」とする。
(B)、(C)に示すように、セルが、縦長で2列nq
(n > 2 )のものや、図(D)に示すように2行
、2列のものに対しては、以下のような方法を取る。す
なわち、セルが縦長で2列n行の場合、各行の先頭の文
字間の間隔W工、W2゜・・・が、図(C)のように標
準文字の縦サイズαより大きい場合は横方向で切り出し
、図CB)のように小さい場合は縦方向に文字を切り出
す。これにより図(B)の場合、文字列「ご使用期間臼
」が切り出される。図(D)のように2行、2列の場合
、特別に縦、横の両方向から切り出し、知識ベースA3
40とのマツチングにより、決定する。
、縦読みにすると「都道府県」となる。この場合、知識
ベースとの照合により縦読みの「都道府県」が採用され
る。知識ベース340でのマツチングで決定できない場
合は、横読みを基準とする。
で一つの意味をなす場合がある。切り出した文字列の最
終もしくは1次の行の先頭に「の」「と」 「又は」
「及び」 「および」等の継続文字がある場合、間隔と
は無関係に、一つの文字列とする。図(E)では、先頭
の行が「取扱者の」で終っており、継続を表す文字「の
」が付いていることから次の行と一つにし「取扱者の住
所」として切り出しを行う。
識切り出しステップA402の後は、これらの情報から
データの入出力に使用する入出力フィールドを設定する
処理ステップA403を行う。セルは、文字列の位置関
係により1例えば95図(A)〜(C)に示す3種類の
セルに分類される。図(A)は、セルの中が文字列だけ
で出来ており、フィールドの作成できる余地のないセル
であり、項目セルあるいは見出しセルと呼ぶ。これは、
入出力フィールドの見出しとなるものである。図(B)
は、セルの中に文字列はあるが、面積の半分以下であり
、セルの中に入出力フィールドが出来ると判断される見
出し付きセルである。
を表す単語以外は入っておらず、そのセル自身が、入出
力フィールドになる入出力フィールドセルである。
れる上述の3種類のセルに分類するための処理ルーチン
を示す。ステップAl2O2で見出しのセルとフィール
ドとなるセルの結び付けを行う5次にステップAl2O
3で見出し付きフィールドセル内の入出力フィールド設
定を行い、ステップAl 204で最後に見出しのセル
と結び付かなかったフィールドセルの見出し文字列を捜
して結び付けると共に、ステップAl2O5で罫線で囲
まれていないセル外の文字列から入出力フィールドを設
定する。見出しのセルと入出力フィールドとの結び付け
は、見出しのセルを基点として右方向および下方向に結
び付ける。
A)、(B)の場合、見出しセルrCE1」はフィール
ドセルCE2に結び付く。図(C)。
ている場合は、見出しセルCEIに対しフィールドセル
の全体部分CE2が結び付く。図(E)の例のようにセ
ル間の結び付きが重複する場合、見出しセルCEIに対
してはフィールドセルCE2が結び付く。見出しセルC
E3の場合は。
付く。見出しセルCE5は、下方にあるフィールドセル
CE6が結び付く。ここでフィールドセルCE6は、2
つの見出しセルCE3とCF2から結び付けられている
。このような重複の場合には、結び付いているフィール
ドセルの数の少ない方を優先する。従って、この例の場
合は、セルCE3に結び付いているフィールドセルの数
が多い為、フィールドセルCE6は見出しセルCE5に
結び付くことになる。
型の例には適用しない。この場合は、各入出力フィール
ドに対し、左側にある見出しが種類を表わし、上にある
見出しが内容を表わすことから、左と上と両方向からの
結び付けをしておく必要がある。図(F)の例では、入
出力フィールドCE5に対しては、見出しセルCEIと
CF2が、入出力フィールドCE7に対しては、見出し
セルCE2とCF2が、入出力フィールドCE6に対し
ては見出しセルCE1とCF2が、又、入出力フィール
ドCE8に対しては見出しセルCE2とCF2が結び付
く。
定は、空白領域の位置とセル内にある文字列の内容によ
って決定する。
(A)は右半分が空いている例1図(B)は、下半分が
空いている例である。ただし、図(C)のように面積と
しては、半分以上残っていても、セルを4分割すると、
文字列が3つ以上の分割したセルにまたがる場合は、見
出しのセルとして扱い、フィールド領域の生成は行わな
い。フィールドの位置の設定は、中の文字列の内容によ
って左、右、上、下を決定するが、内容が決定出来ない
場合は、空いている領域を設定する。
ングによって行う。第99図は本処理の簡単な例、第1
00図はその動作例を説明したものである。知識ベース
340には、文字列に対応してフィールド位置情報を格
納している。例えば、「様」には「左」、「万円」には
「左」、「−」には「左右」といった情報が入っており
、この文字列とフィールド位置の対応情報に従いフィー
ルドの作成位置を決定する。第100図の(A)。
は右に作られる。知識ベース340に対応する文字列が
ない場合には、空いている部分の右か下を入出力フィー
ルドとして設定する。
ールドセルが存在する。この入出力フィールドセルには
、その回りに存在する見出しとなるべき文字列を捜し、
これをフィールドセルと結び付ける。本処理の動作の例
を第101図(A)〜(E)を用いて説明する。基本的
には、図(A)に示す如く、入出力フィールドCE、に
対し上、下間隔αと左右1’1JII隔βの範囲Sにあ
る文字列を捜す。
字列であり、フィールドCE1に対し「金額」が見出し
く項目名)となる。1ffl (C)のように見出しと
なる文字列が複数ある場合は、左、右。
Jなと単位となりうる文字が付加されている場合は、単
位の付加されている方向と逆の方向の文字列を見出しと
する。図(D)の場合は、「技術料」が見出しとなり、
図(E)の場合は「金額」が見出しとなる。
ドを設定する。本処理を動作させて得られた結果の例を
第↓02図に示す。図において。
ず、これらの文字列に対して知識ベース340との付き
合わせにより、入出力フィールドを設定する。以上述べ
てきたように、入出力フィ−ルドの設定とそれに対する
見出しが結び付けられる。
しの文字列の内容をもとに属性を決定し認識情報を生成
しながら認識情報ファイルに格納する。第103図は認
識情報の内容の例を説明したものである。各入出力フィ
ールド(ア〜オ・・・)ごとに位置a、長さb、幅C1
入出力領域内の文字数d、フィールドの領域名称e、属
性fを設定する。a−cは、例えば1 / 10 rt
a単位で設定する。dのフィールド内文字数は、そのフ
ィールド内に入れる文字数のことであり、フィールドの
大きさと標準文字サイズから計算し、設定する。
るものである。図(A)において、フィールドCEに付
された記号Qとmは、フィールドの縦横の長さであり、
α、βは、文字の標準間隔を表わす。標準文字サイズを
図(B)のようにQ、Pで表わすと、文字数は次の式で
求められる。
で成り立っている場合は、このセルの数が、文字数とな
る。求めた文字数は、あくまで標準文字サイズの場合で
あり、オペレータは、後で、この文字数を変更すること
が出来る。数を多くすると印刷する文字の大きさは小さ
くなり、数を少なくすると大きな文字を印刷する。
ば第105図に示すようなマトリックス型の場合は、左
と上のセルが、入出力フィールドと結び付いている。一
般的にこういう形の場合、左の文字列が種類を表わし、
上の文字列が性質を表わしているので1項目名称として
は、「左の見出し十上の見出し」を設定する。従って、
記号CElで示す入出力フィールド名称は「ボールペン
仕入単価」となり、記号CE2で示すフィールド名称は
「ボールペン小売単価」となる。同様に記号CE3で示
すフィールド名称は「万年筆仕入単価」、記号CE4で
示すフィールド名称は「万年筆小売単価」となる。これ
ら設定したフィールド名称は、そのフィールドの属性や
性質、処理手続の組み立てに使われる。
ベース340から合致するものを捜し、その属性を認識
情報として設定する。ここで知識ベース340について
第106図を用いて説明する。知識ベース340は、用
語部340Aと常識単語部340Bに分かれている。用
語部3404は、一般的な用語が入っている。常識単語
部340Bは、業務用語のうち基本となる語尾単語を集
めたものである。一般に業務の用語は、語尾の単語はど
その用語の意味、内容を表わしてし)る。
」という単語で性質を表わしてし)゛る。常識単語部3
40Bは、性質を持っている単語を集めたものである。
形式であり、検索キーとなる用語や単語341の他、同
意語342、入力や出力、英数、漢字などの属性343
.演算式(実行処理ルール)344等の情報から戊り立
っている。知識ベースに登録されるその他の情報につい
ては、追って説明する。
単語とのマツチングにより処理を進めていく。このマツ
チングの方法は、次の3つの方法を順次行っていく。ま
ず文字列と用語部340Aとの1:1マツチングを行う
。次に文字列と常識単語部340Bの単語との工:1マ
ツチングをし、さらに常識単語部を使って文字列の語尾
単語を切り出し、該当のものを見つけていく。入出力フ
ィールドの属旋は、このフィールド名称を使って該当の
ものを捜し、設定していく。
を中心に説明した図である。図においてステップA22
01でフィールド名称が知識ベースの用語部340Aに
登録されている用語と一致するかチエツクする。あれば
、上記フィールド名称に対して該当知識ベース中の属性
343を設定する。なければ、ステップA2202でフ
ィールド名称が常識単語部340Bに登録されている単
語と一致するかチエツクする。なければ、ステップA2
203で常識単語部340Bの単語が、フィールド名称
中に含まれているかをチエツクし、含まれている常識単
語を選択する。ステップA2260で選ばれた単語から
なるべく語尾にあって、文字数の多いものを採用し、採
用した単語の属性を上記フィールド名称に設定する。例
えば、ステップA2201とステップA2202の処理
で、フィールド名称を売上商品名とすると、「売上商品
名」は、知識ベースの用語部にも、常識単語部体↓ソラ
→にもなる。従って、3つめのステップA2203の処
理が行なわれ、「品名」、「商品名」、「商品」の3つ
が候補にあがる。この中でもっとも語尾にあり1文字数
が多い「商品名jが、選ばれ、「売上商品名」と言うフ
ィールドには、常識単語部340Aの「商品名」を単語
とするレコードに含まれる属性343が設定される。
後、これらの情報を認識情報としてファイルA350に
書込む。上記ファイルA350は、例えば第1図のデー
タファイル99(ディスク等)上に形成できる。それと
同時に、デイスプレィ上に形式と一緒に設定した入出力
フィールドをリバースし、第85図のA205の画面が
表示されて認識処理が終了する。
ムの作成を行う。作成したプログラムは、その場で実行
することが出来る形で出力される。
作成開始後にオペレータが指定するか、又は、知識ベー
ス340の中の用語又は常識単語対応に指定されている
。ここで、入出力フィールドのうち、知識ベースの検索
キー341となるものを、プログラム作成処理では、以
降「検索項目」と呼ぶことにする。
票や帳票の各項目ごとの処理から成り立っている。そし
てこの項目処理は、大別すると第110図の、記号アや
記号キで示す部分に入力されたデータをもとにファイル
検索し、該当するレコードを選んで来てレコードの内容
を記号イ、り。
演算により求めた値を代入する処理に分かれる。前者を
検索項目処理、後者を演算処理と呼ぶものとする。
プA2301で検索項目の処理ロジックを組み立てる。
み立てる。その後、ステップA2303で同一ファイル
のオープン回数の最適化や冗長な処理の最適化を図る。
を示す。まず、ステップA2401で検索項目となりう
るものを全項目選びだす。次に、ステップA2402で
選び出した各検索項目対応に検索対象となるファイルと
検索するファイル内の項目を捜し出す。これらを使用し
てステップA2403で処理ロジックを組み立てる。
う。知識ベース340には、第106図に示した項目の
他に、第112図に示す如く、各用語、常識単語対応に
この用語、単語が検索項目となるか否かを示す情報34
5が入っており、各フィールド名称は、この知識ベース
とのマツチングによって検索項目になるか否かを判断す
る。第111図は検索項目選択処理A2401のフロー
チャート、第112図はその動作を説明するための知識
ベースの内容の1例を示す。ステップA2601とステ
ップA2602で項目名称(フィールド名称)と知識ベ
ース340の用語、あるいは、常識単語341とのマツ
チングを行う。マツチングする用語あるいは単語が知識
ベース340中に有れば、ステップA2605で検索情
報345をみて検索項目と成り得るがチエツクする。マ
ツチングする用語あるいは単語が知識ベース中になけれ
ば、ステップ−A 2603で常識単語を使い項目名称
の語尾単語をチエツクし、該当の常識単語をみつけ検索
項目と成り得るかチエツクを行う。例えば第112図に
示す如く1項目名称が記号103で示され、知識ベース
の用語部と常識単語部が記号341で示される内容とな
っていた場合、検索項目は、「顧客コード」、「部品コ
ード」の2つとなる。次に選出してきた検索項目に対し
、検索するファイルとファイルの上の検索項目を選び出
し、ロジックを生成する(ステップA2403)。
ファイルの項目と検索項目名称とのマツチング処理、検
索項目名称を同意語に変換して全ファイルの項目とのマ
ツチング処理、常識単語を使って項目名称を切り出し、
切り出した単語を多く持つファイルの項目を選択する処
理という3段階で行う。
理の流れを説明する図である。ステップΔ2701で項
目名称をデータ項目の1として含むファイルを指定ファ
イル800〜800Cの中から捜す。あれば、そのファ
イルと項目が求めるものである。なければ、ステップA
2702で。
テップA2703で上記変換した同意語をデータ項目と
して含むファイルをサーチする。なければ、ステップA
2704で常識単語を使い項目名称から語尾単語を常識
単語を使い切り出す。
項目として持つファイルを捜す。見つかったファイルが
一つの場合は、それが求めるものである。ない場合は、
ファイル名と項目を「?Jマークとしてロジックの組み
立てを行う。2つ以上のファイルが候補として選択され
た場合、ステップA2706で項目名称から知識ベース
にある常識単語を見つける。次のステップA2707で
、候補としてあがったファイル中のデータ項目の名称中
で、上記ステップA2706でに切り出した単語が一番
多く含まれているものを見つける。2つ以上の候補が未
だ絞り切れない場合、ステップA2708で、上記切り
出した単語を同意語に変換し、これらの同意語を用いて
上記候補となったデータ項目の名称を再度チエツクし、
ステップA2709で絞り込む。このようにして最終的
に一つの検索項目に対し、一つの検索ファイルと一つの
検索項目が決定される。
処理の動作例である。ここでは記号700で示される値
をもつ商品コードが検索項目である。記号810はデー
タファイル800A。
、知識ベースの常識単語部に登録されている単語とその
同意語を示す。まずステップA2801で検索項目名称
「商品コード」とファイルの項目とをマツチングする。
変換を試みるが、この場合、知識データベースに「商品
コード」がない為、同意語でのマツチングは行なわれな
い。次にステップA2803で検索項目名称の語尾単語
を常識単語を用いて切り出す。この例では文字列「コー
ドJが切り出される。上記語尾単語をもとにステップA
2804でファイルのデータ項目810を捜すと「品コ
ード」と「コード」が候補として選択さ、れる。ステッ
プA2805で。
」に分ける。「コードJは既に、語尾眼語として処理済
みである為、ステップA280Gでは候補となったデー
タ項目の中から「商品」を含んでいるデータ項目をサー
チする。この場合「品コード」°も「コード」も「商品
」は含んでいない。そこでステップA2807で、「商
品」を常識単語部に登録してある同意語342を用いて
同意語「品」に変換する。ステップA2808で上記候
補データ項目の中から同意語の1品」を含むものを選択
する。これによって1品コード」が選択される。この例
では1以上の処理方式によって、検索項目「商品コード
」に対応する検索ファイル名は「A」、検索に用いるフ
ァイル中の項目名は「品コード」と決定される。
09図のステップA2403でロジックを組み立てる。
においてステップA2901はファイルのオープン処理
、ステップA2902はオペレータにより入力されたデ
ータをもとに該当レコードをファイルから読み出す処理
である。ステップA2903で該当レコードがなければ
、ステップA2903でエラーメツセージを出力し、ス
テップA2904で再入力待ちとなる。該当レコードが
有れば、ステップA2905で@索ファイルをクローズ
するというロジックを組み立てる。尚、ファイルからの
読出しコードは、メモリ上の作業領域に記憶される。
2では、合計の項目を除き基本的に知識ベース340の
用語、単語対応に予め登録されている実行処理ルール3
44に従って作成する。知識ベース340にルールが記
述されていない場合は、先の検索項目処理でデータファ
イルから検索して来たレコードの中から該当の項目を設
定し画面に表示するというロジックを組み込、む。知識
ベース340の演算ルールには、第116図に示すよう
に範囲ルール344Aと実行処理ルール344Bがある
。演算項目は、その名称と知識データベースに登録され
ている用語または単語との1=1マツチング、同意語と
用語または単語との1:1マツチング、常識単語部の単
語をもとにした名称の切り出しによるサーチを行い、該
当するルールを捜してくる。
ールと1項目名や性質を使った演算ルールとがある。日
付時刻のルールは、暦を表示したり、時刻を求めて表示
するためのvIJ数処理ルールである。項目名を使った
演算ルールは、ファイル中の項目名を用いて積算式が記
入してあるので。
を組み立てて行く。性質を使った演算のルールは、伝票
や帳票、ファイル中の項目で、指定される性質を持つも
のの合計を一つとして演算が行えるものである。第11
6図には、1例として。
いう性質を持つ項目の和を乗算する例が示されている。
単語対応に、その用語、単語の特色を表わしている。上
記性質は、例えば346′に示す8種類のものがあり、
オペレータの追加、変更が可能である。この性質を伴っ
た演算ルールは、「Σ性質」で表現する。
クするルールであり、生成するロジックの1例を第11
7図に示す。図において、ステップA3101は範囲内
であるか否かのチエツク処理、ステップA3102はエ
ラーメツセージを出力する処理、ステップA3103は
再入力待ちの処理である。
ースに演算式がなくてもロジックを生成することができ
る。「合計」は、一般的にその位置で何の項目の合計を
取るのかが理解出来る。例えば第118図(A)に示す
表の記号アで示す欄は1合計欄の上の位置にある金額の
合計を取れば良い。又、図(B)に示す表の記号イで示
す合計は、上記(A)と同様に上にある金額の合計を、
記号工で示す総計は、上にある記号つの税額と記号イの
合計の総計を取れば良い。このように合計は、上に位置
する項目で「合計の性質を持つ項目」までの和を取るロ
ジックを生成する。図(C)に示す表の記号オのように
、明細の項目の一つとして合計が有る場合は、実行処理
ルールに従ってロジックを生成する。また、図(D)に
示す表の記号力のように合計の欄が離れている場合は、
合計の項目名称から処理する項目を捜し出し、その項目
の和を取るロジックを生成する。以上、述べた方式によ
って認識情報から業務プログラムの生成が行なわれる。
、認識情報中の入出力フィールドの位置、幅、長さを使
用してプログラムの実行結果を指定の用紙に指の位置に
印刷することができる。記号EX100で示す伝票を入
力し、認識し、記号A305で示す認識情報が出来る。
行させ、実行結果は、項目名と一緒にデータファイルA
370に格納される。印刷は、上記実行結果として記憶
されている各項目名と一致する認識情報を認識情報ファ
イルA350から捜し出し、その領域位置に結果データ
を印刷する。このときM!!P識情報中の領域に入る文
字数から印刷すにき文字フォントの大きさを求め、その
文字の大きさで結果データを印刷することが出来る。こ
の方式により、オペレータは、印刷用のデータストリー
ムを組み立てる必要なく、すきな位置に、すきな文字の
大きさで印刷を行うことが出来る。
例について説明する。
用いて構成した場合のブロック構成図を示す。データ処
理装置92には、文書構造認識機構921.プログラム
生成機構922及び実行機構923が含まれている。画
像入力を行なう画像入力装置93、プリント出力を行な
う出力装置95、データの入力あるいは修正を行なうた
めのデイスプレィ911とキーボード912を備えたデ
イスプレィ端末装置(コンソール)91がデータ処理装
置60に接続されている。
よってプログラムの開発、変更を行うことができる。
データ処理袋@92と複数台のデイスプレィ端末装置9
1A、91Bによって構成した例である。
1、プログラム生成機構922及び実行機構923が含
まれている。端末装置91A、91Bは、それぞれデー
タ伝送路4OA、40Bによってデータ処理装置92に
接続されており、データ入力あるいは修正を行なうため
のデイスプレィとキーボードを有している。さらに、画
像入力装置93は端末装置91Aに接続されており、入
力された画像データは端末装置9LAおよびデータ伝送
路40Aを、介してデータ処理装置92に伝えられるよ
うになっている。また、プリント出力を行なう出力装置
95は端末装置91Bに接続されており、データ処理装
置92からの出力データは、データ伝送路40Bおよび
端末装置91Bを介して出力されるようになっている。
ら開発作業を行ない、他方の端末装置から処理の実行や
変更作業を行なうといった使い分けが可能になる。また
、データ伝送路40A、40Bの距離を長くすることに
よって、離れた場所での開発、実行や変更が可能になる
。
のデータ処理装置から構成した例である。
れており1画像入力を行なう。
り、データ処理装置92Aからの画像データをコード形
式のデータ及び属性データに変換する。
り、コード形式のデータ及び属性データに基づいて生成
機構922で処理手続き(プログラム)の生成を行なう
。
処理手続きを実行する。このためにデータを入力する入
力装置912Dとプリント出力すキーボードffを備え
ており、認識機構辷どの出力情報の修正を行なう。
ーボード912Eを備えており、生成機構922の出力
した処理手続きの修正を行なう。
クのような伝送路4↓により結合されている。尚、デー
タ処理装置間のデータの伝送には、出力データを一旦フ
ロッピーディスク媒体に入れてデータを持ち運ぶといっ
た方法を採用することも可能である。
となる。また、各データ処理装置の代りに、より低価格
な代用機を利用することが可能になる。例えば、データ
処理装置92Aの代りにファクシミリ装置を用いてもよ
いし、データ処理袋292Eとして安価なパーソナルコ
ンピュータを用いることも可能である。
された用紙を画像として入力するだけで、データ入力あ
るいは帳票発行のための書式情報(罫線9円弧、斜線、
破線2文字、フィールド位置、フィールド属性など)、
あるいは帳票作成プログラムなどを、自動的に定義する
ことができるため、新たなデータ入力フォーマットや帳
票発行処理を容易にできるという効果がある。また画像
として入力された書式情報を図形コード情報や文字コー
ド情報に自動的に変換できるため、この書式を高画質で
表示あるいは印刷ことかできる。
すシステム構成国、第2図は上記システムで実行する帳
票処理プログラムの基本的な動作を示すフローチャート
、第3図は画像として入力される帳票の1例を示す図、
第4図は上記システムから出力される帳票の1例を示す
図、第5図は帳票処理プログラムの実用的なフローチャ
ートの1例を示す図、第6図は画像入力ステップ1で実
行されるサブルーチンのフローチャート、第7図(A)
、(B)は入力画像と入力画像メモリとの関係を説明す
るための図、第8図は帳票書式認識ステップ2で実行さ
れるサブルーチンの第1の実施例を示すフローチャート
、第9図は第8図の物理構造認識ステップ21で実行さ
れるサブルーチンの詳細を示すフローチャート、第10
図は第9図のブロック分割ステップ211の詳細を示す
フ// ローチャート、第合壬図(A)、CB)は上記ブロック
分割ステップで用いるテーブルT1とT2の構成を示す
図、第12図はブロック分割を具体的に説明するための
画像の1例を示す図、第13図は第9図の領域分割ステ
ップ214の詳細を示すフローチャート、第14図(A
)〜(C)は物理構造認識ステップ21の実行過程を具
体的に説明するための図、第15図は第9図の領域種別
認だ識ステップ216の詳細を示すフローチャート、第
16図は第15図における左辺認識ステップ216−1
の詳細を示すフローチャート、第17図は左辺認識ステ
ップ216−1で用いられるテーブルT3の構成を示す
図、第18図(A)、(B)は上記左辺認識ステップで
処理する原画像と認識結果との具体例を示す図、第19
図は線分の認識結果を格納するために用いるテーブルT
BLIの構成を示す図、第20図(A)〜(F)は非欄
要素の代表的なパターンを示す図、第21図は入力画像
から円弧パターンを検出するため処理の説明図、第22
図は斜線情報を格納するためのテーブルTBL2の構成
図、第23図は円弧情報を格納するためのテーブルTB
L3の構成図、第24図は第9図の構成要素認識ステッ
プ218の詳細を示すフローチャート、第25図は構成
要素の種別判定を説明するための図、第26図は第24
図における直線認識ステップ2181の詳細を示すフロ
ーチャート、第27図は破線の構成要素の条件に関する
説明図、第28図は第24図における破線認識ステップ
2182の詳細を示すフローチャート、第29図は破線
テーブルTBL4の構成図、第30図は第24図におけ
る文字認識ステップ2183の詳細を示すフローチャー
ト、第31図は文字列の構成要素の条件に関する説明図
、第32図(A)〜(C)は上記文字認識ステップの処
理過程を説明するための図、第33図は文字認識結果を
格納するためのテーブルTBL5の構成図、第34図は
帳票書式認識ステップ2の他の実施例を示すフローチャ
ート、第35図は第34図における前処理ステップ20
の詳細を示すフローチャート、第36図(A)、(B)
は上記前処理ステップで処理される入力画像の1例を示
す図、第37図は第34図における後処理ステップ29
の詳細を示すフローチャート、第38図は第37図にお
ける線の修正処理ステップ291の詳細を示すフローチ
ャート、第39図は第37図における文字の修正処理ス
テップ292の詳細を示すフローチャート、第40図は
単語情報を格納するためのテーブルTBL6の構成図、
第41図は帳票書式認識ステップ2の他の実施例を示す
フローチャート、第42図は第41図における論理構造
認識ステップ22の第1の実施例を示すフローチャート
、第43図は第42図における行桁正規化ステップの詳
細を示すフローチャート、第44図は上記行桁正規化ス
テップで用いるテーブルTBL7の構成図、第45図(
A)、(B)は文字等のパターンの基準点を説明するた
めの図、第46図(A)。 (B)はそれぞれ第41図の論理構造認識ステップの他
の実施例を示すフローチャート、第47図は第46図に
おけるフィールド位置認識ステップ222の詳細を示す
フローチャート、第48図(A)、(B)はフィールド
位置認識を容易にするために行なわれる表形式正規化処
理を説明するための図、第49図はフィールドテーブル
TBL8の構成図、第50図(A)、(B)はフィール
ド位置認識の実行結果の1例を説明するための図、第5
1図(A)、(B)は第41図における論理構造認識ス
テップ22の他の実施例を示すフローチャート、第52
図は第51図におけるフィールド関係認識ステップ22
3の詳細を示すフローチャート、第53図はユニット情
報を格納するためのテーブルT4の構成図、肘な図はフ
ィールド関係認識結果の1例を示す図、第55図は第5
1図におけるフィールド属性認識ステップ224の詳細
を示すフローチャート、第56図〜第59図は第55図
の名称マツチングステップ2242で参照される各種の
テーブルにKNWI〜K N W 4の構成図、第60
図〜第65図はフィールド属性認識ステップ224で参
照される各種の属性情報設定テーブルTBL9〜TBL
14の構成図、第66図は帳票論理構造認識により形成
されるテーブルTBL9〜TBL14の内容の具体例を
示す図、第67図は帳票書式認識ステップ2の第3の実
施例を示すフローチャート、第68図は第67図におけ
る帳票作成プログラム生成ステップ23の詳細を示すフ
ローチャート、第69図は上記生成ステップ23で生成
されるプログラムの1例を示す図、第70図は第68図
における入出力フィールド処理生成ステップ235の詳
細を示すフローチャート、第71図は第2図における帳
票作成ステップ3の1実施例を示すフローチャート、第
72図は第71図における印刷書式データ生成ステップ
39の詳細を示すフローチャート、第73図(A)、(
B)はビットマツプ形式の印刷書式データの生成につい
ての詳細図、第74図(A)。 (B)はコマンドシーケンス形式の印刷書式データの生
成についての説明図、第75図は帳票作成ステップ3の
他の実施例を示すフローチャート。 第76図と第77図はそれぞれ印刷して出力される帳票
の1例を示す図、第78図は帳票作成ステップ3の更に
他の実施例を示すフローチャート、第79図は第78図
における帳票内容データ作成ステップの実施例を示すフ
ローチャート、第80図は原稿となる帳票の1例を示す
図、第81図は内容の追加された発行帳票の1例を示す
図、第82図は帳票内容データ作成ステップ33の第2
の実施例を示すフローチャート、第83図は第82図の
ステップ334で検索されるファイルの1例を示す図、
第84は帳票内容データ作成ステップ33の第3の実施
例を示すフローチャート、第85図は帳票内容データ作
成ステップ33の第4の実施例を示すフローチャートで
ある。 また第86図は本発明システムの動作の1例を説明する
ための帳票と画面のフロー図、第87図は第86図の動
作と対応するデータのフロー図。 第88図(A)、(B)は認識処理の流れを示すフロー
チャートおよび認識処理で扱う伝票の様式例を示す図、
第89図はセルの認識処理の流れを示すフローチャート
、第90図(A)〜(F)は補正する線分の例を示す図
、第91図は領域分割処理の中間状態を示す模式図、第
92図(A)〜(D)は認識する文字列の例を示す図、
第93図(A)〜(C)は同一行列の文字を対象に意味
のある文字列の切り出し処理を説明するための説明図、
第94図(A)〜(E)は複数行列で一つの意味を持つ
場合の文字列を切り出す処理を説明するための説明図、
第95図(A)〜(C)はセルと文字列の位置関係の例
を示す例示図、第96図は入出力フィールドの設定処理
を示すフローチャート、第97図(A)〜(F)は見出
しのセルと入出力フィールドとの結び付は処理を説明す
るための説明図、第98図(A)〜(C)は見出しつき
セルにおけるフィールドの設定例を示す例示図。 第99図は文字列の意味によるフィールドの設定処理を
説明するための説明図、第100図(A)〜(E)は文
字列の意味により設定されるフィールドの例示図、第1
01図(A)〜(E)は見出し文字とフィールドセルの
結び付は処理を説明するための説明図、第102図はセ
ルで囲まれていない文字列により作成されたフィールド
の1例を示す図、第103図は認識情報の内容を示す例
示図、第104図(A)〜(C)は文字数の求め方を説
明するための説明図、第105図はマトリックス型の場
合のフィールド名称の付は方を示す説明図、第106図
は知識ベースの内容の1例を示す図、第107図は知識
ベースとのマツチング処理を説明するための図、第10
8図は処理プログラム作成処理を示すフローチャート、
第109図はファイル検索項目の処理手続き作成処理を
示すフローチャート、第110図はファイル検索項目と
処理項目の1例を示す図、第1↓1図は検索項目の選択
処理の流れを示すフローチャート、第112図は検索項
目の選択処理を説明するための説明図、第113図(A
)は検索するファイルと検索項目となる項目のサーチ処
理を説明するための説明図、第113図(B)は検索す
るファイルと検索項目となる項目のサーチ処理の流れを
示すフローチャート、第114図(A)、(B)は検索
項目のサーチ処理を説明するための説明図、および検索
項目のサーチ処理の流れを示すフロルチャート、第11
5図は決定された検索ファイルと項目に基づくロジック
組み立て結果のフローチャートの1例を示す図、第11
6図は知識ベースの演算ルールの記述を説明するための
説明図、第117図は範囲チエツクロジック組み立て処
理の結果を示すフローチャートの1例を示す図、第11
8図(A)〜(D)は「合計」の求め方を説明するため
の図、第1↓9図は印刷処理の流れを説明するための図
、第120図〜第122図は本発明による帳票処理シス
テムの他の構成例を示す図である。 符号の説明 91・・・コンソール、92・・・プロセッサ、93・
・・画像入力装置、95・・・プリンタ、工・・・画像
入力プログラム、2・・・帳票書式認識プログラム、3
・・・1脹票作成プログラム、4・・帳票出力プログラ
ム。 藁y +7 第 田 C又〕 第5″)Z 易6図 名71ヨ bJ閂・←−l)十州= liW i ■ 1iノ8)ヨ mニ:、:6f/ @戚 輩20舅 ネ NB (A) 垢32)ガ ロロ[5llDε曜 (C〕 田田田 りlに 垢邦)■ 易4−6jヨ Q1土つ 第52)l 萬舛区 [=二二二=]IpLユニットEミミ互孝ニj羽哨!ト
ユニフト:ニニ:二〕槽ユ=−) [宅孝ヨ和(丈ニー
γト負う5乙[目 第57図 ◆
(名%’Jヨ 名J7+月 05つ る771力 $72図 ・2.山しの一ル 名75図 −1,d二L/4τTさスールF°1≧ニルフィール
F’<乙、V 鰻76)」 易デフ図 ネ7δ)力 易7り圀 品100)η 第1・/ry CE C五l Cとl 易)o2rjJ 莫105)5 〕Cレノノ3ノ■ゴ(A) 7−、uA−ノB 乃り 某//7)ヨ 第2t8)3り (0) (I)) 第1/デ図 J21b 手 続 補 書(方式) %式% 事件の表示 平成 2年 特 許 75246 発明の名称 文書処理方式およびプログラム自動生成方法 補正をする者 事件との関係 名称 (510)
Claims (1)
- 【特許請求の範囲】 1、文字または数値データを書込むための少なくとも1
つの空フィールドを含む書式表示を画面上に生成する方
法であって、原文書画像から1つの文書を構成している
文字パターンと線パターンとの物理的な配置を認識する
第1ステップと、第1ステップで認識された文字および
線パターンの配置を、表示画面上でのカーソル移動の基
本ピッチの整数倍に適合する第2の配置に変換する第2
ステップと、第2ステップで得られた修正された第2の
配置の文字および線パターンからなる書式表示を表示画
面に出力する第3ステップと、からなり、キーボードか
らの入力文字列を所定の文字サイズで、カーソルピッチ
に応じた位置に表示できる空フィールドを含む書式表示
が得られるようにしたことを特徴とする書式表示の生成
方法。 2、特許請求の範囲第1項において、更に、第1ステッ
プで認識された物理的な配列をもつ文字パターンと線パ
ターンとからなる書式表示を表示画面に出力するステッ
プと、上記表示画面に出力された書式表示に含まれる文
字パターンまたは線パターンの1部をユーザのキー操作
に応じて修正するステップと、を有し、上記修正後の文
字パターンと線パターンに対して、前記第2ステップの
配置変換が実行されるようにしたことを特徴とする書式
表示の生成方法。 3、特許請求の範囲第1項において、1つの書式文書を
画像入力手段により画像データに変換するステップを有
し、該画像データを前記原文書画像として第1ステップ
が実行されるようにしたことを特徴とする書式表示の生
成方法。 4、特許請求の範囲第3項において、画像入力手段によ
り入力された画像データから書式文書の傾きを検出し、
傾きを補正するステップを有し、上記傾きの補正された
画像データを原文書画像として前記第1ステップが実行
されるようにしたことを特徴とする書式表示の生成方法
。 5、特許請求の範囲第1項において、更に、第1ステッ
プで認識された複数の文字パターンの中から、互いに隣
接する複数の文字からなる複数の文字列を抽出するステ
ップと、 予め記憶してある標準的な単語群あるいは用語群と上記
抽出された文字列とを比較し、文字列を構成する1部の
文字パターンを、標準的な1つの単語または用語中の文
字パターンと一致するように自動的に修正するステップ
と、を有し、修正後の文字パターンと線パターンに対し
て、前記第2ステップの配置変換が実行されるようにし
たことを特徴とする書式表示の生成方法。 6、書式文書の作成方法であって、原文書画像から、1
つの文書を構成している文字パターンと線パターンとの
配置を認識し、認識結果を文書の物理構造データとして
記憶する第1ステップと、第1ステップで認識された文
字および線パターンの配置を、表示画面上でのカーソル
移動の基本ピッチの整数倍に適合する第2の配置に変換
し、変換結果を正規化文書データとして記憶する第2ス
テップと、上記正規化文書データにより作られる第2の
配置をもつ書式表示を表示画面に出力する第3ステップ
と、上記書式表示に含まれる上記線パターンにより形成
された少なくとも1つの空フィールド領域に、ユーザが
指定した文字データまたは数値データを表示する第4ス
テップと、ユーザが第4ステップで入力した文字データ
または数値データを前記文書の物理構造データと組み合
せてプリンタ手段に出力する第5ステップとからなるこ
とを特徴とする書式文書の作成方法。 7、特許請求の範囲第6項において、更に、第1ステッ
プで認識された物理的な配列をもつ文字パターンと線パ
ターンとからなる書式表示を表示画面に出力するステッ
プと、上記表示画面に出力された書式表示に含まれる文
字パターンまたは線パターンの1部をユーザのキー操作
に応じて修正するステップと、を有し、上記修正後の文
字パターンと線パターンに対して、前記第2ステップの
配置変換が実行されるようにしたことを特徴とする書式
文書の作成方法。 8、特許請求の範囲第6項において、1つの書式文書を
画像入力手段により画像データに変換するステップを有
し、該画像データを前記原文書画像として第1ステップ
が実行されることを特徴とする書式文書の作成方法。 9、特許請求の範囲第8項において、画像入力手段によ
り入力された画像データから、書式文書の傾きを検出し
、傾きを補正するステップを有し、上記傾きの補正され
た画像データを原文書画像として前記第1ステップが実
行されるようにしたことを特徴とする書式文書の作成方
法。 10、特許請求の範囲第6項において、第1ステップで
認識された複数の文字パターンの中から、互いに隣接す
る複数の文字からなる複数の文字列を抽出するステップ
と、予め記憶してある標準的な単語群あるいは用語群と
、上記抽出された文字列とを比較し、文字列を構成する
1部の文字パターンを、標準的な1つの単語または用語
中の文字パターンと一致するように、自動的に修正する
ステップと、を有し、修正後の文字パターンと線パータ
ンに対して、前記第2ステップの配置変換が実行される
ことを特徴とする書式文書の作成方法。 11、データを書込むべき複数の空入出力フィールドを
有する書式表示を利用するデータ入力方法であって、原
文書画像から、1つの文字を構成している文字パターン
と線パターンとの配置を認識し、文書の物理構造データ
として記憶する第1ステップと、上記物理構造データを
分析して、上記文書中に含まれるデータ入出力フィール
ドと、各データ入出力フィールドに対応する項目名を見
つける第2ステップと、上記項目名に基づいて、予め用
意してある知識ベースを参照し、上記各入出力フィール
ド毎に、そこに設定すべきデータの入力源または生成ル
ールを示すフィールド属性を求める第3ステップと、上
記物理構造データに基づいて生成した書式表示を表示画
面に出力する第4ステップと、上記表示画面に出力され
た書式表示に含まれる各データ入出力フィールドに、そ
れぞれフィールド属性に応じたデータ処理により、ユー
ザからのマニュアル入力データまたは自動生成データを
入力する第5ステップと、を有することを特徴とするデ
ータ入力方法。 12、特許請求の範囲第11項において、前記第3ステ
ップで、前記フィールド属性として、1つの入出力フィ
ールドが、キーボードからの入力データを設定するため
のものか、データファイルから読出されたデータを設定
するためのものか、他の少なくとも1つの入出力フィー
ルドに設定されたデータに基づく計算により得られたデ
ータを設定するものかの区分を求めることを特徴とする
データ入力方法。 13、データを書込むべき複数の空入出力フィールドを
有する書式表示にデータを設定するためのプログラムを
自動的に生成する方法であって、複数の入出力フィール
ドを有する書式文書の画像から、1つの文書を構成して
いる文字パターンと線パターンとの配置を示す物理構造
データを抽出する第1ステップと、上記物理構造データ
を分析して、上記書式文書画像に含まれるデータ入出力
のための複数の入出力フィールドと、項目名を示す文字
列が記入されている少なくとも1つの固定フィールドと
を認識する第2ステップと、上記固定フィールドと入出
力フィールドとの位置関係を調べ、各入出力フィールド
に設定すべきデータの項目名を求める第3ステップと、
上記項目名に基づいて、予め用意してある知識ベースを
参照し、各入出力フィールドに設定すべきデータの入力
源または生成ルールを示すフィールド属性を求める第4
ステップと、上記フィールド属性に基づいて、表示画面
上に出力した書式表示の空入出力フィールドにオペレー
タがデータを入力するためのプログラムを自動生成する
第5ステップと、からなることを特徴とするプログラム
の自動生成方法。 14、特許請求の範囲第13項において、前記物理構造
データから、文字パターンおよび線パターンの配置を表
示画面上のカーソル移動の基本ピッチの整数倍に適合す
るように変換した正規化書式データを得るステップを有
し、前記第2ステップでは、前記物理構造データの代り
に上記正規化書式データが分析されて、前記フィールド
認識が行なわれることを特徴とするプログラムの自動生
成方法。 15、特許請求の範囲第13項において、前記第2ステ
ップは、それぞれの少なくとも3辺が線パターンによっ
て囲まれた矩形領域からなる複数のセル領域を抽出する
ステップと、上記各セル領域に含まれる文字列の有無、
または文字列の内容により、セル内の領域を入出力フィ
ールドまたは固定フィールドとして識別するステップと
、上記セル領域の外にある特定の単語を見つけて、該単
語に隣接する空白領域を入出力フィールドとして認識す
るステップと、からなることを特徴とするプログラムの
自動生成方法。 16、特許請求の範囲第14項において、前記第2ステ
ップは、それぞれの少なくとも3辺が線パターンによっ
て囲まれた矩形領域からなる複数のセル領域を抽出する
ステップと、上記各セル領域に含まれる文字列の有無、
または文字列の内容により、セル内の領域を入出力フィ
ールドまたは固定フィールドとして識別するステップと
、上記セル領域の外にある特定の単語を見つけて、該単
語に隣接する空白領域を入出力フィールドとして認識す
るステップと、からなることを特徴とするプログラムの
自動生成方法。 17、書式表示へのデータ入力のためのデータ処理装置
であって、文字データまたは数値データを書込むための
複数の空きフィールドを含む書式文書画像を格納するた
めの第1メモリ手段と、所定のカーソル基本ピッチをも
つ表示画面を備えた書式表示を出力するための表示手段
と、文字データあるいは数値データを入力するためのキ
ー入力手段と、上記キー入力手段から入力されたデータ
を、上記表示画面に出力されている書式表示内のカーソ
ルが位置する空きフィールドに入力するよう制御する制
御手段と、からなり、上記制御手段は、第1メモリ手段
に格納されている書式文書画像から、1つの文書を構成
している複数の文字パターンと線パターンの配置を認識
して、文書の物理構造データを作り出すための手段と、
上記文書の物理構造データから、文字パターンと線パタ
ーンの配置が上記表示画面におけるカーソル基本ピッチ
の整数倍に適合するよう修正された正規化文書データを
生成するための手段とを有し、上記表示画面に上記正規
化文書データにより定義される書式表示が、データ入力
のために表示されることを特徴とするデータ処理装置。 18、特許請求の範囲第17項において、更にプリンタ
装置を有し、前記制御手段が、前記書式表示の空きフィ
ールドに入力されたデータを前記物理構造データで定義
される文書フォーマットに組み合せて、上記プリンタ装
置に出力することを特徴とするデータ処理装置。 19、特許請求の範囲第17項において、前記データ処
理装置が、書式文書の画像を入力するための画像入力手
段を有し、該画像入力手段から入力された書式文書画像
が前記第1メモリ手段に格納されることを特徴とするデ
ータ処理装置。 20、書式表示へのデータ入力のためのデータ処理装置
であって、文字データまたは数値データを書込むための
複数の空きフィールドを含む書式文書画像を格納するた
めの第1メモリ手段と、書式表示を出力するための表示
画面を備した表示手段と、文字データあるいは数値デー
タを入力するための入力手段と、それぞれ複数項目から
なる複数のデータレコードを格納するための第2のメモ
リ手段と、単語あるいは用語に対応してそれぞれ複数項
目の知識情報を記憶している知識ベース手段と、上記表
示画面に出力された書式表示に含まれる空きフィールド
へのデータ入力を制御するための制御手段と、からなり
、上記制御手段は、第1メモリ手段に格納されている書
式文書の画像から、1つの文書を構成している複数の文
字パターンと線パターンの配置を認識し、文書の物理構
造データを作り出すための第1手段と、上記物理構造デ
ータを分析して、上記文書中に含まれるデータ入出力フ
ィールドと、各データ入出力フィールドに対応する項目
名を見つけるための第2手段と、上記項目に基づいて上
記知識ベースを参照し、上記各入出力フィールド毎に、
そこに設定すべきデータの入力源または生成ルールを示
すフィールド属性を求める第3手段と、上記表示画面に
出力される上記物理構造データで定義される書式表示の
空入出力フィールドにデータを入力するためのプログラ
ムを、上記フィールド属性に基づいて自動生成するため
の第4手段と、を有し、上記プログラムの実行により、
オペレータが入力手段から入力したデータと、上記第2
メモリから読出されたレコードに含まれるいずれかの項
目のデータと、計算により得られるデータとが、上記書
式表示の空入出力フィールドに選択的に設定されるよう
にしたことを特徴とするデータ処理装置。 21、特許請求の範囲第20項のデータ処理装置におい
て、前記制御手段が、更に、前記文書の物理構造データ
から文字パターンと線パターンの配置が、上記表示画面
におけるカーソルの基本ピッチの整数倍に適合するよう
修正された正規化データを生成する第5手段を有し、前
記第2手段が前記物理構造データの代りに上記正規化デ
ータを分析し、前記第4手段が、上記表示画面に出力さ
れる上記正規化データで定義される書式表示の空入出力
フィールドにデータを入力するためのプログラムを自動
生成することを特徴とするデータ処理装置。 22、特許請求の範囲第21項において、前記データ処
理装置が、書式文書の画像を入力するための画像入力手
段を有し、該画像入力手段から入力された書式文書画像
が前記第1メモリ手段に格納されることを特徴とするデ
ータ処理装置。 23、特許請求の範囲第21項において、更にプリンタ
装置を有し、前記制御手段が、前記書式表示の空きフィ
ールドに入力されたデータを前記物理構造データで定義
される文書フォーマットに組み合せて、上記プリンタ装
置に出力することを特徴とするデータ処理装置。 24、データ記入欄を有する帳票の画像から、帳票の物
理的構造と上記データ記入欄に関する論理的構造とを自
動的に認識し、該認識結果に基づいて、表示画面に表示
された上記帳票の書式表示中のデータ記入欄にデータを
入出力するための業務プログラムを自動的に生成するよ
うにしたことを特徴とする業務プログラムの自動生成方
法。 25、特許請求の範囲第24項において、前記表示画面
における文字の表示条件に合致させて前記書式表示の様
式を生成し、該書式表示に合せて前記業務プログラムを
自動生成することを特徴とする業務プログラムの自動生
成方法。 26、前記物理構造を示すデータに基づいて、表示画面
に前記帳票画像と対応する書式表示を出力し、該書式表
示の内容の1部をオペレータ操作により修正した後、前
記論理構造の認識を行なうことを特徴とする第24項ま
たは第25項に記載の業務プログラムの自動生成方法。 27、データ記入欄を有する帳票の画像から、帳票の物
理的構造と上記データ記入欄に関する論理的構造とを自
動的に認識し、該認識結果に基づいて、表示画面に表示
された上帳票の書式表示中のデータ記入欄にデータを入
出力するための業務プログラムを自動的に生成し、上記
業務プログラムの実行により上記書式表示データを入出
力した後、上記データが記入されている帳票を印刷出力
するようにしたことを特徴とする帳票の発行方法。 28、前記物理構造を示すデータに基づいて、表示画面
に前記帳票画像と対応する書式表示を出力し、該書式表
示の内容の1部をオペレータ操作により修正した後、前
記論理的構造の認識を行なうことを特徴とする第2項記
載の帳票の発行方法。 29、特許請求の範囲第27項または第28項において
、前記書式表示の様式を生成し、該書式表示に合せて前
記業務プログラムを自動生成し、上記業務プログラムの
実行により上記書式表示に入力されたデータを、前記認
識された物理構造データまたは1部修正された物理構造
データに基づく書式に組み合せて印刷出力することを特
徴とする帳票の発行方法。
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP17546989 | 1989-07-10 | ||
JP1-175469 | 1989-07-10 | ||
JP20279489 | 1989-08-07 | ||
JP1-202794 | 1989-08-07 | ||
JP1-246290 | 1989-09-25 | ||
JP24629089 | 1989-09-25 |
Related Child Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP11271784A Division JP2000076370A (ja) | 1989-07-10 | 1999-09-27 | 帳票認識方法および装置 |
JP11271783A Division JP2000155795A (ja) | 1989-07-10 | 1999-09-27 | 帳票認識方法および装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH03179570A true JPH03179570A (ja) | 1991-08-05 |
JP3028833B2 JP3028833B2 (ja) | 2000-04-04 |
Family
ID=
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03147126A (ja) * | 1989-11-02 | 1991-06-24 | Tokyo Electric Co Ltd | 自動プログラミング装置 |
JP2008108114A (ja) * | 2006-10-26 | 2008-05-08 | Just Syst Corp | 文書処理装置および文書処理方法 |
JP2009238217A (ja) * | 2008-03-06 | 2009-10-15 | Ricoh Co Ltd | 情報処理システム、情報処理装置、情報処理方法およびプログラム |
JP2010061693A (ja) * | 2009-12-15 | 2010-03-18 | Fujitsu Ltd | 帳票認識方法及び帳票認識装置 |
JP2010510563A (ja) * | 2006-11-16 | 2010-04-02 | インターナショナル・ビジネス・マシーンズ・コーポレーション | ハード・コピーの書式からの書式定義の自動発生 |
JP2015055890A (ja) * | 2013-09-10 | 2015-03-23 | 株式会社東芝 | 帳票読取装置およびプログラム |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03147126A (ja) * | 1989-11-02 | 1991-06-24 | Tokyo Electric Co Ltd | 自動プログラミング装置 |
JP2008108114A (ja) * | 2006-10-26 | 2008-05-08 | Just Syst Corp | 文書処理装置および文書処理方法 |
JP2010510563A (ja) * | 2006-11-16 | 2010-04-02 | インターナショナル・ビジネス・マシーンズ・コーポレーション | ハード・コピーの書式からの書式定義の自動発生 |
JP2009238217A (ja) * | 2008-03-06 | 2009-10-15 | Ricoh Co Ltd | 情報処理システム、情報処理装置、情報処理方法およびプログラム |
JP2010061693A (ja) * | 2009-12-15 | 2010-03-18 | Fujitsu Ltd | 帳票認識方法及び帳票認識装置 |
JP2015055890A (ja) * | 2013-09-10 | 2015-03-23 | 株式会社東芝 | 帳票読取装置およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
EP0407935A3 (en) | 1991-11-21 |
KR910003523A (ko) | 1991-02-27 |
EP0407935A2 (en) | 1991-01-16 |
EP0407935B1 (en) | 1999-10-06 |
DE69033312D1 (de) | 1999-11-11 |
KR930009639B1 (ko) | 1993-10-08 |
JP2000155795A (ja) | 2000-06-06 |
US5228100A (en) | 1993-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR930009639B1 (ko) | 화상데이타를 이용하는 문서데이타 처리방법 및 장치 | |
KR950006410B1 (ko) | 서식문서의 화상표시/처리방법 및 장치 | |
JP3088019B2 (ja) | 媒体処理装置及び媒体処理方法 | |
US5923778A (en) | Hierarchical representation of reference database for an on-line Chinese character recognition system | |
US20160078555A1 (en) | Reading, organizing and manipulating accounting data | |
JPH05113879A (ja) | プログラムの作成及びデータの処理方法 | |
JP7516024B2 (ja) | 情報処理装置、その制御方法及びプログラム | |
US20110225526A1 (en) | System and Method for Processing Objects | |
JP3001065B2 (ja) | プログラムの作成方法 | |
JP3463008B2 (ja) | 媒体処理方法及び媒体処理装置 | |
JP3463009B2 (ja) | 媒体処理方法及び媒体処理装置 | |
JP3028833B2 (ja) | 文書処理方式およびプログラム自動生成方法 | |
Madake et al. | Tabular Data Extraction From Documents | |
JP2000076370A (ja) | 帳票認識方法および装置 | |
JP3663865B2 (ja) | 帳票処理装置及び記憶媒体 | |
JPH11265422A (ja) | マーク認識方法及び装置並びに記録媒体 | |
JPH11219394A (ja) | 財務諸表自動入力装置 | |
JP7551203B1 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
JP7430219B2 (ja) | 文書情報構造化装置、文書情報構造化方法およびプログラム | |
JP7161797B1 (ja) | データ入力支援装置、データ入力支援システム、データ入力支援方法、及びデータ入力支援プログラム | |
JPH0452866A (ja) | 業務プログラム自動生成方式 | |
JP7283755B2 (ja) | 情報処理装置、及びプログラム | |
JP4276402B2 (ja) | 帳票処理装置 | |
JP2019109559A (ja) | 機械学習装置及び機械学習プログラム | |
JPH06215197A (ja) | 文字認識方法および装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313115 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080204 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090204 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100204 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100204 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110204 Year of fee payment: 11 |
|
EXPY | Cancellation because of completion of term | ||
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110204 Year of fee payment: 11 |