JP2004127059A - Information processing method and device - Google Patents

Information processing method and device Download PDF

Info

Publication number
JP2004127059A
JP2004127059A JP2002292066A JP2002292066A JP2004127059A JP 2004127059 A JP2004127059 A JP 2004127059A JP 2002292066 A JP2002292066 A JP 2002292066A JP 2002292066 A JP2002292066 A JP 2002292066A JP 2004127059 A JP2004127059 A JP 2004127059A
Authority
JP
Japan
Prior art keywords
data
definition
cell
field
entry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002292066A
Other languages
Japanese (ja)
Other versions
JP2004127059A5 (en
Inventor
Mantaro Yajima
矢島 万太郎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP2002292066A priority Critical patent/JP2004127059A/en
Publication of JP2004127059A publication Critical patent/JP2004127059A/en
Publication of JP2004127059A5 publication Critical patent/JP2004127059A5/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a business form format definition method capable of performing an automatic data input and output, for a business form format having a derivative area that is a second data entry section in one cell, with another business form format or data file by a simple business form format defining operation with high visible confirmability. <P>SOLUTION: This method comprises the step of performing an item definition for conforming data or a data field to an item name in the business form format; and the step of designating a differential condition that is the entry condition naturally possessed by the derivative area to a main area that is the first entry section in one cell to the data file provided in the derivative area that is the second data entry area in the same cell. Based on the designated item definition and differential condition, the data to be simultaneously referred in the data input and output of a business form, or a record that is an assembly of data entry sections is identified with respect to each derivative area. <P>COPYRIGHT: (C)2004,JPO

Description

【0001】
【発明が属する技術分野】
本発明は、帳表フォーマット上のデータ処理を行う情報処理方法および装置に関するものである。
【0002】
【従来の技術】
従来、ユーザが自由に作成した多様な帳表フォーマットについて、帳表フォーマットを構成するデータフィールドまたはデータに対し該当の項目名と対応付ける項目定義をおこない、帳表のデータ入出力において同時に参照されるべきデータ、または、データ記入域の集合であるレコードを定型的に識別することによって、他の帳表、またはデータファイルとの間のデータの転記集計を自動的におこなう帳表フォーマット定義方法が知られている。
【0003】
例えば、本発明者は、特開平09−134349において、この方法を、帳表フォーマット上に、ユーザに馴染みのある最小限の文字、記号類を追記することによりマンマシン性よくおこなえる方法を提案している。
【0004】
【発明が解決しようとする課題】
ところが、世の中で、実際に使用される帳票フォーマットには、は後出の図10に示すように、1つのセルの中にもう1つの記入域(派生エリア)が設けられ、そこには元々の記入域(主エリア)とは、別な条件のデータが記入される複合フォーマットであるものも多い。
【0005】
これまで提案されてきている帳表フォーマット定義方法が扱う帳表フォーマットは、帳表を構成する各セルには1つのデータのみが記入されるフォーマットに限られており、この種の派生エリアを持つ複合フォーマットに対しては、上記したような帳表定義にもとづく自動的なデータの入出力はおこなうことができなかった。
ユーザは、派生エリアを持つ複合フォーマット上にデータ出力を得たい場合、例えば、その構成各セルが目的のフォーマットの各派生エリアと等価になるような帳表を別に作成し、その上に得られたデータを1つづつ目的のフォーマットの派生エリア上にコピー操作していくほかはなかった。
【0006】
本発明は、かかる従来技術の問題に鑑みてなされたもので、この種の派生エリアが設けられた帳票フォーマットについても、通常の帳票フォーマットに対しておこなう指定操作と同レベルの簡単な操作により、帳票フォーマット定義をおこなえ、自動的なデータ入出力を行える情報処理方法と装置を提案することを目的としている。
【0007】
本発明の別の目的は、派生エリアが設けられた帳票フォーマットの定義が、誰もがおこなえ、だれもが理解できる視認性と可読性を備えた情報処理方法と装置を提供することを目的とする
【0008】
【課題が解決するための手段】上記の目的を達成するため、本発明のうち請求項1に記載の情報処理方法は、帳表フォーマットのデータ入出力方法であって、表中において、データまたはデータフィールドを項目名と対応付ける項目定義をおこなうステップと、1つのセル中に第2のデータ記入域である派生エリアの設けられたデータフィールドに対して、派生エリアが同じセル中の第1の記入域である主エリアに対して固有にもつ記入条件である差異条件を指定するステップを備え、指定された項目定義と差異条件にもとづいて各派生エリアについて、帳表のデータ入出力時において同時に参照されるべきデータ、または、データ記入域の集合であるレコードを自動的に識別するステップを含むことを特徴とする。
【0009】
また、請求項2記載の情報処理方法は、譜求項1に記載の帳表フォーマットのデータ入出力方法であって、例示的に記入された派生エリアを区切る記号類を認識することによってセル内における派生エリアと主エリアのデータ記入域とを識別することを特徴とする。
【0010】
また、請求項3記載の情報処理装置は、帳表フォーマットのデータ入出力装置であって、表中において、データまたはデータフィールドを項目名と対応付ける項目定義をおこなう手段と、1つのセル中に第2のデータ記入域である派生エリアの設けられたデータフィールドに対して、派生エリアが同じセル中の第1の記入域である主エリアに対して固有にもつ記入条件である差異条件を指定する手段を備え、指定された項目定義と差異条件にもとづいて各派生エリアについて、帳表のデータ入出力時において同時に参照されるべきデータ、または、データ記入域の集合であるレコードを自動的に識別することを特徴とする。
【0011】
【発明の実施の形態】
以下、添付図を参照して本発明を説明する。
【0012】
【実施例】
図1に、本発明の一実施例における情報処理装置のハードウェア上のシステム構成を示す。このシステムにおいて、カラーイメージ・スキャナ10、キーボード12、マウス14およびディジタイザ15が入力装置として、内部メモリ16および外部メモリ18が記憶装置として、表示装置20および印紙装置22が出力装置として、それぞれ適当なインタフエース回路(図示せず)を介してCPU24に接続されている。また、CPU24は、通信装置26を介して電話回線または通信回線27とも接続されている。
【0013】
カラーイメージ・スキャナ10は、用紙上に記載された文書中の文字、記号および図形をカラー画像情報として読み取る。内部メモリ16および外部メモリ18には、CPU24の処理または制御動作を規定する各種プログラムのほか、各種電子辞書、キャラクタフォント、ファイル等が格納されている。通信装置26は、ファクシミリ通信機能を有している。
【0014】
図2に、本実施例のシステムにおいて帳表の作成に関する動作モードの一覧を示す。「文書作成」、「定義」、「環境設定」等の主モードが設定されており、これらの主モードはそれぞれ「取り出し」・・・、「定義解釈」・・・、「定義情報設定」等のサブモードに分岐している。
【0015】
図3に、表示装置20のディスプレイ画面20aに表示される「主モードー覧メニュー」を示す。ディスプレイ画面20aの左下隅部に常時表示されている「モード」ボタンを選択指示すると、この「主モードー覧メニュー」が画面に現れ、画面の右下部に「文書作成」、「定義」、「環境設定」などの主モード選択ボタンが表示される。
【0016】
上記の「主モードー覧メニュー」で、「環境設定」ボタンをクリックすると、環境設定モードが選択される。この環境設定モードに切り替わると、ディスプレイ画面20aに図4に示すような画面が映し出され、画面の右下部に「定義区別設定」、「定義情報設定」等のサブモード選択ボタンが表示される。ここで、「定義情報設定」ボタンをクリックすると、定義情報設定モードに入り、図5に示すような「定義要素/記入情報対照表」画面に表示される。
【0017】
図5において、本実施例では、「共通」、「帳表定義」、等の複数の定義系が用意され、各定義系の中に複数の定義要素が設定されている。このうち、「帳表定義」、系の各定義要素は帳表上のデータ管理上のフォーマットを設定するために用いられ、「共通」の各定義要素は、他の定義系の定義にも共用される。
【0018】図5に示すように、各定義要素には、1種類または複数種類の所定の文字(文字列)、記号または図形が対応づけられている。定義要素の中には、たとえば、定義要素「丸め方」に対応する“切上げ”のようにその記入情報だけで目的の定義内容を表すものもあれば、定義要素「項目名」に対応する“< >”のように、定義内容を構成するものとして、書面上の他の記入情報を指定するものもある。また、定義要素「登録語指定」に対応する“○”のように、これによって指定されている文字、記号等は、応用用語辞書を参照して定義内容を解釈すべきことを指示するものもある。
【0019】
上記のような定義要素と記入情報との対応付けは、システムが最初から用意していてもよく、あるいはユーザが画面入力で随時設定登録できるようにしてもよい。いずれにしても、たとえば図6に示すようなデータフォーマットで、各定義要素毎に図5の対照表に相当する可変データ長の定義要素識別データが設定される。各定義要素識別データは、後述する定義情報認識部の定義要素識別データ記憶部48(図21)に保持される。
【0020】
なお、図6の「定義要素識別データ」のデータフォーマットにおいて、「定義系コード」のデータ・フィールドには当該定義要素(たとえば「切上げ」)の属する定義系(帳表定義)のコードがセットされ、「定義要素種別」のデータ・フドィールドには当該定義要素(切上げ)のコードがセットされ、「構成文字列/記号列」の各データ・フィールドには当該定義要素(切上げ)に対応する文字列(切上げ、切り上げ…)のコードが所定の区切り識別データを挟んでセットされ、末尾のフィールドにはこのデータの終端を示す所定の終端識別データが付けられる。
【0021】
上記のように、本実施例では、文書上で各種の定義を行うための定義要素が、通常の文書内容を表す通常記入情報としても利用可能な文字、記号または図形と対応づけられている。ただし、後述するように、定義要素として用いられるときは、当該記入情報に特別の修飾情報(たとえば色情報)を付し、文書内容を表す通常記入情報とは区別するようにしている。つまり、ユーザにあっては、普段使い慣れている記入情報を、文書内容を表すための通常記入情報としてそのまま使えるだけでなく、これに特別の修飾情報を付加することで定義内容を示すための定義情報としても使えるようになっている。
【0022】
図4の「環境設定モード画面」において「定義区別設定」のサブモード選択ボタンを選択すると、ディスプレイ画面20aには図7に示すような「定義情報区別指示画面」が現われる。
図7において、[定義系]の欄こは「帳票定義」等の定義系がリストされている。ユーザは、各定義系の記入情報に用いる[色]、[線修飾]、[線太さ]、[手書き/印刷]の修飾情報または識別情報を各位置に入力すればよい。
図7の例では、たとえば、「帳表定義」の定義系には(青)を[色]の欄に入力し、「書式定義」の定義系には(赤)を指定している。「共通」の各定義要素は全ての定義系に共用されるので、「共通」固有の修飾情報を設定する必要はない。
【0023】
以上の指定を終えると、「定義情報区別指示画面」上の「終了」ボタンを指示すると、以上の定義情報区別指示の入力操作に応動してシステム内では、たとえば図8に示すようなデータフォーマットで各定義系についての定義情報区別データが設定される。この定義情報区別データは、後述する定義情報認識部の定義情報区別データ記憶部50(図21)に保持される。
【0024】
次に、このシステムを用いて、ユーザが用紙上に自由に作成した集計表の上に、データの集計出力をおこなう例について説明する。
ユーザは、たとえば、図9に示す表のフォーマットを用紙として持っており、このフォーマットの上に、図10に示すようなデータの集計出力を得たい使用例について説明する。
【0025】
図9の表中において、最上段の行上には、項目名「支店」のデータ記入欄(フィールド)が設けられ、最左列には、項目名「商品名」のデータ記入欄が設けられ、表中の上から第2行から第4行、左から第2列から第4列のセルのマトリクスには、項目名「売上げ」のデータ記入欄が設けられている。 また、表外の右上部には、表内の各データ記入欄の共通の記入条件として、項目名「年度」のデータ名“2001”が記されている。
【0026】
ユーザは、各項目名とそのデータ名を関連付けを記述した、何らかの辞書(たとえば、商品名マスタファイル…)を前提に、以上のことを表内の記入内容から読み取っている。たとえば、項目名「支店」については、各々、その記入データの並び“東京”、“大阪”、“名古屋”から読み取り、項目名「商品」については、記入データの並び“テレビ”、“ラジオ”、“カーナビ”に加え、それに隣接した上側位置に記入されている見出し語“商品名”の助けも得て読み取っている。また、項目名「売上げ」とそのデータ記入欄(フィールド)との対応付けは表の表題から主に読み取っている。
【0027】
目的とするデータ出力結果の表フォーマット(図10)においては、項目名「売上げ」のデータ記入欄(フィールド)を構成する各セル中には、追記された記号“[  ]”により、もう一つのデータ記入域が設けられている。
そして、そのデータ記入欄(フィールド)の元の記入域側には、年度が“2001”のデータが記入されているのに対し、この新しく設けられた記入域側には
その前年である“2000”のデータが記入されるようになっている。
すなわち、後出の図40において、この項目名「売上げ」のデータ記入欄(フィールド)内の斜線部セルのに設けられた2つの記入域のデータ記入条件は、表内に記入されている条件は、互いに同一であるが(いずれも、「支店」は、“大阪”、「商品」は“ラジオ”)、表外の共通記入条件「年度」のデータが、元々の記入域側は“2001”であり、新しく設けた記入域側は“2000”であり、互いに異なる条件でデータが集計されるようになっている。
【0028】
この項目名「売上げ」のデータ記入欄(フィールド)における記入分けを、ユーザは表の表題の下に記入されている注釈文「[  ]内は、2000年売上げ」から読み取っている。
【0029】
このように、あるデータ記入欄(フィールド)の各構成セル中に、さらに、もう一つの記入域が設けられ、この中に元々の記入域の記入条件とは異なる条件のデータが記入される場合、本明細書においては、このセルの中に新しく設けられた記入域を「派生エリア」、元々の記入条件のデータを記入する側の記入域を「主エリア」と呼び、この「派生エリア」について指定された異なる条件のことを、「差異条件」と呼ぶことにする。本例の場合、「差異条件」は、「項目名“年度”のデータ名が“2000”」ということになる。
また、本例における記号“[ ]”ように、セル中に記入され、「派生エリア」を生成する記入要素を「派生エリア生成要素」と呼ぶ。
また、この新しい記入域「派生エリア」が設けられたセルを、特に「複合セル」と呼び、これに対して、1つのデータのみが記入されるセルを「通常セル」と呼ぶ。
【0030】
本システムでは、ユーザが上記のように認識するとおりの定義内容をシステムに多意性なく定型的に認識させるように、図11に示す「定義付け」操作をおこなう。 この「定義付け」操作は、集計表の元々の記入内容である通常記入情報と区別し得る定義支援記入情報を追加記入することによっておこなう。本例の場合、定義支援記入情報は、図7に示したように「共通」と「帳表定義」の定義系に割り当てた(青)色を用いて記入することによって、通常記入情報と区別することにする。
【0031】
集計表における「定義付け」の基本として、まず、集計表上の全てのデータフィールドとデータ名について、その項目名を対応付ける「項目定義」をおこなう。「項目定義」に使用する項目名としては、ユーザが用紙上に自由に記入したものをなるべく使用するという本システムの趣旨から、集計表上でもともと、見出し語として記入されているものがあれば、それをそのまま使用する。
【0032】
まず、同じ項目名を持ち、隣接しあうセルの集合(セル列)毎に、「フィールド指定」の定義要素記号“「 」”、または、“[ ]”を使用し、データフィールドの指定をおこなう。すなわち、「フィールド指定」の定義要素記号“「 」”、または“[ ]”の構成記号である“「”と“」”、あるいは“[”と“]”を、各々、該当セル列の両端セルの中に記入する。
【0033】
このデータフィールドに対応付ける項目名としては、データフィールドの上側、あるいは、左側に隣接して、元々、見出し語として記入されているものがあれば、それを項目名として指定する。項目名の指定は、定義要素記号“<>”の各構成記号”<”と”>”とを、各々、該当の文字列の両側に追記することによっておこなう。本例の場合、この指定方法により、見出し語“商品“が、下側に隣接しているデータフィールドの項目名として定義されることになる。
【0034】
対応付ける項目名が元々の記入内容―通常記入情報の見出し語として記入されていない場合は、該当データフィールド近傍の空欄に、該当の名称を記入した上、項目名の指定を施し、さらに、定義要素の結合線“−”を用いて、該当のデータフィールドと結んでおく。本例の場合、この方法により、項目名”支店”と“年度”とが、おのおの、該当するデータフィールド、またはデータ名と対応付けられることになる。
【0035】
複合セルからなるデータフィールド(以下、「複合フィールド」と呼ぶ)については、まず、フィールド範囲の指定は、通常のデータフィールドと同じ方法によりをおこなう。本例の場合、項目名「売上げ」のデータフィールドについて、左上端のセルと右下端のセルに、各々、「フィールド指定」の定義要素記号の構成記号“「”と“」”とを記入する。(このフィールドは、セルのマトリクスを形成しているので、“「 」”を使用する。)次に、該当の項目名「売上げ」を、(青)色の定義支援記入情報として、表外の空白部に記入した上、上記した項目名指定を加え、該当のデータフィールドの任意位置へ結合線“−”を引き出しておく。
また、項目名「売上げ」には、「集計区分」が“集計数値”であること指定をするために、項目名「売上げ」文字列の右肩部分に、定義要素「集計区分指定」の“○”記号を(青)色により追記しておく。
【0036】
次に、このデータフィールドの任意のセル内に、「派生エリア生成要素」の記号“[ ]”を例示的に追加記入する。さらに、今おこなっている「派生エリア」の定義が、誰もがわかるように、注釈文「[ ]内は2000年」も表外の適当な位置に記入する。これらの記入は、追加記入ではあるが、目的のアウトプットの表(図10)上に出力される通常記入情報であり、アウトプットの色である(黒)色で記入する。
【0037】
また、「差異条件」を示す文字列を、以下に述べる所定の形式で記入する。本例の場合、項目名“年度”とデータ名“2000”を表わす文字列に各々、項目名とデータ名の指定をおこなった上、対の形の文字列“<年度>[2000]”として、表外の適当な空白部に記入する。(青)色の定義支援記入情報により記入し、該当の項目名“売上げ”のデータフィールドと結合線“−”により結んでおく。
【0038】
最後に、表の最下段の行上と最右列の列上とにおいて、「合計フィールド」の指定をおこなう。各データフィールドの合計値が記入される合計欄のセル列を、上記したデータフィールドの指定と同じように、「フィールド指定」の定義要素記号“[ ]”を用いて指定する。すなわち、各「合計フィールド」について、その両端の合計欄セル中に、「フィールド指定」の定義要素記号“[ ]”構成記号“[”と“]”とをそれぞれ記入する。表の右下角のセルは、最下段の行上に定義する「合計フィールド」に含めてもよいし、最右列の列上に定義する「合計フィールド」に含めてもよい。
【0039】
本例の場合、表の最下段の行と最右端の列上に指定された、この2つの合計フィールドの各セルは、項目名「売上げ」のデータが集計されることから、項目「売上げ」のデータフィールドと同じ「差異条件」と「派生エリア」を持つ複合セルであるが、その指定方法は、通常の合計フィールドと同じようにおこなえばよい。
【0040】
また、最下行の合計フィールド左端に隣接するセル中と、最右端列の合計フィールド上端に隣接するセル中に、書面の元々の記入内容―通常記入情報として記入されている「計」文字を、応用用語辞書52に登録された「登録語」であることを確認した上、「登録語指定」定義要素記号“○”によって囲む。
【0041】
本システムでは、ユーザが帳表上で、日常(通常記入情報として)使用している特定の用語を応用用語辞書52(後出図26)に登録しておき、それを。「登録語指定」定義要素記号“○”によって囲むことにより、各々、特定の意味をもつ定義情報に転化させている。すなわち、「登録語指定」定義要素記号“○”によって囲む「計」文字は、“[ ]”により指定されたフィールドと、一体化してデータ管理上の1つの定義情報を構成し、定義要素“[ ]”により指定した合計フィールド内の各欄(セル)は、各々、他の特定のフィールド内に記入さている数値データを合計した値を記入すべきことをを定義している。
【0042】
ここでいう合計演算の対象である、特定のフィールドとは、本例の場合、合計フィールドと直角方向に設定された、項目名「売上げ」のデータフィールドである。たとえば、最下行の左から2列目の合計欄セルの特定のフィールドとは、同列の縦方向に定義された項目名“売上げ”のデータフィールド部分になる。
【0043】
次に、以上のように、定義支援記入情報を追記するこによって定義付けをおこなった表フォーマット記入用紙を本システムに入力し、所望のデータ出力を得るための諸機能について説明する。
【0044】
図12に、本実施例のシステムにおける文書入力および文書要素データ生成部の構成を示す。文書画像入力部30は、カラー・イメージスキャナ10、キーボード12およぴマウス14等の入力装置と、入力ルーチンを実施するCPU24と、入力されたカラー画面をいったん取り込む内部メモリ16または外部メモリ18とによって構成される。文書画像記憶部32、文字/図形パターン辞書36および文書要素データ記憶部38は、内部メモリ16または外部メモリ18の記憶領域を用いている。文字・図形要素認識部34は、文字・図形認識処理プログラムを実行するCPU24によって構成される。文書画像出力部40は、主として、表示制御プログラムを実行するCPU24と、このCPU24の制御の下で文書画像の表示出力を行う表示装置20あるいは文書画像の伝送出力を行う通信装置26とによって構成される。
【0045】
ユーザは、カラー・イメージスキャナ10に帳表用紙をセットし、ディスプレイ画面20a上において「文書作成」モードを選択し、「文字/図形認識」ボタンをクリックする。
このクリック操作に応動して、まず、イメージスキャナ10による読取動作が行われ、図11に示す帳表文書の画像(全記入内容)を表すカラー画像信号が入力部30の画像記憶部に取り込まれる。入力部30に取り込まれたカラー画像信号は、信号の形態で(黒)、(青)、(赤)の各色画像信号に分解され、文書画像記憶部32内では(黒)の画像信号、(青)の青像信号、(赤)の画像信号としてそれぞれ黒画像記憶部32a、青画像記憶郭32b、赤画像記憶部32cに蓄積される。
【0046】
次に、文字・図形要素認識部34は、文書画像記憶部32に蓄積された各書面毎の画素データについて、各色(黒、青、赤)毎に文書中の個々の文字、図形要素を認識する。ここで、図形要素とは、線分、矩形、円形のようにその形状が容易に画像認識されえるパターン化された簡単な図形群である。
【0047】
本実施例における画像認識に際しては、たとえば図13に示すようなデータフォーマットで予め設定されている「画像管理データ」が参照される。この「画像管理データ」では、図14に示すように入力画像はマトリクス上に配置された多数の画素PXによって構成されているものとして、画素PXの個数、寸法、ピッチ等を表すデータをセットしている。
【0048】
文字・図形要素認識部34における文字・図形の認識は、基本的には個々の文字、図形要素を構成する線素を認識することによって行われる。線素の識別については従来公知の種々の方法を用いてよい。たとえば、まず特定の色を有するドットの集合を見いだし、次に隣接慣域または周囲をサーチ知れそのドットの集合が延長する方向を判定する。この処理を繰り返して、ドットの集合の描く軌跡をそれが消滅(終端)するまで追跡していく。その追跡の途中で、軌跡の向きが急激に変化する箇所があれば、その箇所を屈曲点または尖点として識別する。
【0049】
このようにして抽出された線素は、その形状、大きさにより予め設定された線素パターンの1つとして識別され得る。本実施例では、文字/図形パターン辞書36に、個々の文字、図形毎にそれを構成する線素の種別と、構成線素間の有意な位置関係とが所定の電子辞書方式で予め記憶(設定登録)されている。文字・図形要素認識部34は、上記のようにして抽出した線素を隣接するもの同士で互いに組み合わせてこれを文字/図形パターン辞書36と照合する処理を繰り返すことで、個々の文字、記号、図形を認識する。
【0050】
また、たとえば一覧表のような表を構成する罫線については、次のようにして認識処理を行う。すなわち、上記したような線素の認識において直線とみなして抽出した線素が他の線素よりも桁違いに長く、かつその直線方向が水平線(X軸)または垂直線(Y軸)に対して或る角度内の傾きに収まる場合は、この直線を水平罫線または垂直罫線とみなし、水平線または垂直線と平行になるようにその位置情報を補正する。また、抽出された2つの罫線の端点同士の距離あるいは一方の罫線の端点と他方の罫線との距離が或る値以内にあるときは、両罫線の端点同士が互いに重なり合っている、あるいは片方の罫線の端点が他方の罫線上に重なっているとみなし、両罫線がそのように重なるようにそれぞれの位置情報を補正する。
【0051】
文字・図形要素認識部34は、画像入力した文書の各色(黒、青、赤)画像について上記のような文字・図形認識処理を行うことによって、各文字、各図形要素、各記号につきたとえば図15〜図20に示すようなデータフォーマットで文書要素データを生成する。
【0052】
図15に、1個の文字に対応する文書要素データ(文字データ)のデータフォーマット例を示す。図示のように、当該文字のコード、書体、色、線の太さ、線修飾(実線、点線、鎖線等)、手書き/印刷(手書き文字なのか印刷文字なのかの区別)、記入位置および大きさ(文字サイズ)をそれぞれ表すデータが順次所定のデータ・フィールドにセットされ、末尾にこの文書要素データの終端を示す終端識別データが付けられる。
【0053】
図16に、1つの文字列に対応する文書要素データ(文字列データ)のデータフォーマット例を示す。図示のように、当該文字列の配置位置を示す「先頭文字位置」と「末尾行位置」、当該文字列の書式を示す「行ピッチ」、「文字ピッチ」がセットされるとともに、当該文字列を構成する各文字の文字コードが配置順にセットされる。
【0054】
図17、図18および図19は、それぞれ1つの図形要素または記号に対応する文書要素データ(図形要素データ)のデータフォーマット例である。図17に示すように、線分については始端位置および終端位置のデータが組み込まれる。図18に示すように、長円については中心位置(X・Y方向)と径サイズ(X,Y方向)のデータが組み込まれる。図19に示すように、矩形や“<”等については始端および終端位置に加えて屈曲点または尖点(線分の方向が急峻に変化する点)の位置を示すデータが組み込まれる。
【0055】
また、罫線によって表が構成されている場合、それを構成するセルを検出し、検出した各セルについて「セルデータ」を作成する。(図20)セルとは、表内において罫線に囲まれ、データを記入する単位となっている矩形領域のことをいう。
セルの検出は、たとえば、次のようにおこなうことができる。表を構成する罫線の罫線データを順次とり出し、書面の縦横両方向について、罫線、またはその延長によって区切られる罫線位置を求める。次にこの罫線位置により生成されるマトリクスの各ますについて、その各4辺が罫線部分であるかどうかをサーチし、罫線部分であれば、それをセル境界とし、罫線部分でなければ該当方向に隣接するますを併合し、併合したますにについて同じ判定を繰り返すことにより、セルの4辺の境界を識別していく。
作成した「セルデータ」には、今の段階では、その位置情報(たとえば、左上角点、右下角点の位置)のみをセットしておく。
【0056】
上記のようにして、画像入力された各書面中の全ての記入情報が個々の文字、記号、図形に分解されて文字・図形要素認識部34により文書要素データに変換される。これらの文書要素データは、各書面単位で文書要素データ記憶部38に蓄積される。なお、文字・図形認識処理を受けて文書要素データに変換された記入情報に対応する画像情報は、文書画像記憶部32から抹消されてよい。
【0057】
文書画像出力部40は、文書画像記憶部32に保持されている画像信号に基づいて文書画像を出力できるだけでなく、文書要素データ記憶部38に格納されている文書要素データからもそれを文字/図形パターン辞書36を介して画像信号に変換したうえで文書画像を出力することができるように構成されている。
【0058】
上記の文書入力および文書要素データの生成処理が終了するとその旨を伝えるメッセージが例えばディスプレイ画面20aを通じて、システムからユーザに与えられる。
次にユーザは、ディスプレイ20aの右下部に常時表示されている「モード」ボタンをクリックして「定義」のモードを選択し、その画面上で「定義解釈」のボタンを選択指示する。この指示に応動して、システム内では、以下の処理がおこなわれる。
【0059】
図21に、本実施例のシステムにおける定義情報認識およぴフォーマット設定部の構成を示す。定義要素データ生成部42および定義データ生成部46は、定義要素データおよび定義データ生成処理を実行するCPU24によって構成される。定義情報識別データ記憶部48、定義情報区別データ記憶部50、応用用語辞書52、定義データ記憶部54およぴシートグループ定義データ記憶部56は、内部メモリ16または外部メモリ18の所定の記憶領域上に展開されている。
【0060】
この定義情報認識およびフォーマット設定部においては、先ず定義要素生成部42が、定義要素識別データ記憶部48および定義情報区別データ記憶部50にそれぞれ保持されている定義要素識別データ(図6)および定義情報区別データ(図8)を参照して、文書要素データ記憶部38に格納されている文書要素データ(図15〜図20)を基に各書面に記入されている各定義要素記入情報毎のデータ(定義要素データ)を生成する。
【0061】
図22に、定義要素データのデータフォーマット例を示す。当該定義要素記入情報を識別する「定義系コード」および「定義要素コード」がセットされるとともに、当該定義要素記入情報を構成する文字、図形、記号に対応する文書要素データを参照するためのポインタがセットされる。たとえば、「フィールド指定」の“[]”の場合は、その構成記号“[”、“]”に対応する文書要素データのアドレスを指定するポインタがセットされる。
【0062】
定義要素データを生成するには、該当の定義系に割り当てた修飾情報、たとえば(青)の色情報を有する文書要素データをサーチする。定義要素が「フィールド指定」の定義要素“「  」”のように、2つの記号の対で構成される場合は、まず、1つの構成記号をサーチ検出し、それと対をなす他方の記号を割り出す。
この記号の対が複数個検出された場合は、その選択はつぎのようにおこなう。たとえば、定義要素“「  」”の場合、その対によって指定される矩形内に同じ定義要素の構成記号“「”、または“」”を含まない組み合わせを選択する。
【0063】
1つの定義要素ごとに、以上の方法で、「定義系コード」と「定義要素コード」が決まり、当該定義要素記入情報を構成する記号の文書要素データ(図形要素データ)のアドレスをそれぞれ指定するポインタも決めていくことができる。
上記のようにして定義要素データ生成部42より得られた各定義要素データは定義要素データ記憶部44に格納される。
【0064】
次に、定義データ生成部46が、定義情報区別データ記憶部50に保持されている定義情報区別データ(図8)を参照して、定義要素データ記憶部44に蓄積されている定義要素データ(図22)、文書要素データ記憶部38に蓄積されている文書要素データ(図15〜図20)を参照して書面に記入されている各定義情報毎に定義データを生成する。
【0065】
本例における定義データ全体の作成手順を、図23に示す。先ず、集計表内の全てのデータフィールドについて、「項目定義データ」(図24)と「合計定義データ」(図25)を作成する。(ステップAl、A2)この作成にあたっては、複合セルからなるデータフィールドと合計フィールドについても通常のデータフィールド、合計フィールドといったん同じ扱いで、(派生エリアを無視した形で)作成する。
続いて、「派生エリア」が定義された複合フィールドの項目定義データと合計定義データについて、「派生エリア」上へのデータ入出力を可能にするための定義内容を付加する「複合フィールド定義処理」をおこなう。(ステップA3)
【0066】
「項目定義データ」(図24)の作成は、以下の手順にしたがっておこなわれる。 まず、定義要素データとしてすでに抽出されている「フィールド指定」の定義要素記号”[ ]”、または、“「 」”を1つづつ識別し、それがデータフィールドとして指定しているセル、またはセル列を「フィールド候補」として識別し「フィールド候補定義データ」を作成する。フィールド候補定義データは、項目定義データ(図24)の形式により作成するが、その中の「項目名文字列データアドレス」は、対応する項目名が未だ決まっていないので未記入のままにしておく。
【0067】
フィールド候補のセル列の検出は、「フィールド指定」の定義要素記号、たとえば、”[ ]”の構成記号”[ ”と”]”を各々、含むセルを両端のセルとして検出し、つぎに、両端のセルをつなぐセルを順次、検出していくことによっておこなうことができる。
検出したセル列は、そのセルデータを先頭のセルから、順次、セルデータ中の「ポインタデータ」によりつないだ「セルデータ・チェイン」(図示せず)を作成した上、その先頭セルのセルデータアドレスをフィールド候補定義データの中の「先頭セルデータアドレス」にセットする。
【0068】
項目名「売上げ」のデータフィールドのように、セル構成がマトリクスをなす場合は、例えば、まず、その第1行のセルを左から順につなぎ、その最右端のセルには、次の第2行の最左端セルをつなぎ、以下、第2行のセルを順につないでいく手順を繰り返すことによっておこなえばよい。
【0069】
また、「フィールド指定」の定義要素記号がデータ名として指定している文字列も「データ名候補」として識別し、「データ名候補定義データ」を作成する。同じく、項目定義データの形式(後出図24)により作成し、その「先頭セルデータアドレス」部に識別した文字列の文字列データアドレスをセットする。
【0070】
次に、以上で検出した、各「フィールド候補」、または「データ名候補」について、対応する項目名を求め、「フィールド候補定義データ」、または、「データ名候補定義データ」を「項目定義データ」(図24)として完成させる。
【0071】
先ず、フィールド候補のセル列内、またはデータ名候補の文字列からひき出されている「結合線」“−”をサーチする。該当のセル列内から引き出された「結合線」が存在し、その他端に隣接して、「項目名指定」をされた文字列が存在する場合、この「項目名指定文字列」は該当の「データフィールド候補」、または「データ名候補」の「項目名」であると判定して、すでに作成してある「フィールド候補定義データ」、「データ名候補定義データ」の中の「項目名文字列データアドレス」に該当文字列の文字列データアドレスをセットする。
本例の場合、項目名“支店”と表外に追記された項目名“売上げ”と項目名“年度”について、以上のようにして項目定義データが作成されることになる。
【0072】
「フィールド候補」、または「データ名候補」が、「結合線」によって結ばれた「項目名指定文字列」を持たない場合、「フィールド候補」、または、「データ名文字列」に対して「特定隣接位置」にあり、かつ、「項目名」として指定されている文字列を該当「フィールド候補」、または「データ名候補」に対応付けられた項目名と見なして、項目定義データを作成する。 ここでいう「特定隣接位置」とは、そのデータフィールドが横方向に定義されたものである場合、そのフィールドの左側に隣接する位置であり、そのデータフィールドが縦方向に定義されたものである場合、そのフィールドの上側に隣接する位置のことをいう。
こうして検出された項目名は、同じく、「フィールド候補定義データ」、「データ名候補定義データ」の中の「項目名文字列データアドレス」に該当文字列の文字列データアドレスをセットし、「項目定義データ」として完成することになる。本例の場合、この方法により、項目名“商品”を「項目名」とする「項目定義データ」が作成されることになる。
【0073】
次に、以上作成した項目定義データについて、以下の「区分」の判定をおこなう。まず、各項目定義が 「表外」に共通条件として定義されているか、「表内」のフィールド上で定義されているかを判定をする。
データフィールドが、1つの表から検出されたセルから構成される場合、「表内」のフィールドと見なし、「項目定義データ」内の「共通区分」欄に該当のコード“0”をセットしする。 また、「表外」のフィールド、データ名について定義された「項目定義データ」には、該当のコード“1”をセットする。 本例の場合、項目名”年度”の「項目定義データ」において、“1”をセットし、他の項目名の「項目定義データ」において、“0”をセットすることになる。
【0074】
次に、そのデータフィールドが「表内」と判定された項目定義の各々について、「集計項目」を項目名とするか否かの判定をおこなう。項目名文字列について、(青)色の「集計区分指定」の定義要素記号”○”が、各々、所定の位置である文字列右上隣接部に付加記入されているか、否かを検出し、この検出が得られれば、該当の項目名は、“集計項目名”であると判定し、項目定義データの「集計区分」欄に該当のコード”1”をセットする。“集計項目名”でない項目名については、「集計区分」欄に該当のコード“0”をセットする。本例の場合、項目名”売上げ”の項目定義について、この“集計項目名”の指定がおこなわれることになる。
【0075】
全ての「項目定義データ」の作成を終えると、次に、「登録語指定」の定義要素記号“○” を書面上でサーチし、続いて、それによって囲まれた文字を応用用語辞書52の中でサーチする。
図26に応用英語辞書52に収載される用語の例を示す。図27に応用用語辞書に収載される用語データのデータフォーマットを示す。ヘッダの処理系種別のデータフィールドには、各サブ定義系のコードがセットされ、このヘッダに続けて「文字コード列」のデータフィールドに該当の文字コード列がセットされる。「区切り識別データ」は図26において、各用語を区切っているカンマに対応している。
【0076】
本例の場合、応用英語辞書52において、定義要素記号“○”によって囲まれた“計”文字が「合計欄指定語」であることを識別して、「合計定義データ」の作成に入る。
すでに取り出してあるフィールド候補の中で、まず、この「合計欄指定語」と「結合線」によって結ばれているものをサーチする。「合計欄指定語」と「結合線」によって結ばれているものがなければ、本例のように「合計欄指定語」が「特定隣接位置」にあるフィールド候補を識別して、「合計フィールド」と見なして、「合計フィールド定義データ」を作成する。(フィールドの「特定隣接位置」については、上記で述べた。) 「合計フィールド定義データ」の形式を図25に示す
【0077】
次に、「合計フィールド」を構成する各セルを順次、とり出し、各セルごとにそれに対応する「集計対象フィールド」の検出をおこなう。「集計対象フィールド」とは、合計値を記入する「合計欄セル」に合計されるデータを記入したセルの集合のことをいう。
「合計フィールド」が横方向に定義されたものである場合、その構成セルと同一列上の上方向に「集計区分」の項目定義データフィールドをサーチする。「合計フィールド」が縦方向に定義されたものである場合、その構成セルの同一行上の左側をサーチする。
【0078】
「合計フィールド」中のセルについて、以上の条件を満たす項目定義データフィールドが検出できた場合、そのセルは、該当の項目定義データフィールドの中、自身と同一列、同一行にある部分を「集計対象フィールド」とする「合計欄セル」であると見なすことができる。
合計フィールドの中において、以上のように、「集計対象フィールド」が検出された「合計欄セル」について、改めて、そのセルデータを順次、「ポインタデータ」でつなぎ、「セルデータチェイン」を作成し直し、その先頭セルデータのアドレスを該当「合計定義フィールドデータ」の「先頭セルデータアドレス」にセットする。(図25)以上述べた「合計フィールド」、「集計対象フィールド」と「合計欄セル」の関係を図28に示す。
【0079】
本例の場合、表の最下端の行と最右端の列に「合計フィールド」が定義さ、その各構成セルは、各々、項目名“売上げ”のデータフィールド上において、自身のセルと同一列、あるいは同一列上の部分を「集計対象フィールド」とする「合計欄セル」になっている。
【0080】
全てのデータフィールドと合計フィールドについて、「項目定義データ」と「合計フィールド定義データ」を作成し終えると、「複合セル」が定義された「複合フィールド」について、「複合フィールド定義処理」をおこなう。(図29)「複合フィールド定義処理」では、すでに作成されている該当の「項目定義データ」について複合セルを定義する内容を付加する形でおこなわれる。
【0081】
まず、すでに作成されている項目定義データを1つづつとり出し、該当のフィールドが「複合フィールド」であるか否かの判定をおこなう。(ステップB1)この判定は、取り出した項目定義のデータフィールドについて、下記の条件を満たす「差異条件」が所定の方法で関係付けられて定義されているか否かを識別することによっておこなう。
【0082】
本システムでは、差異条件としては、まず、形式として、(a)「項目名」か、または、(b)「項目名とデータ名」の対の形式を取り上げる。 本明細書においては、特に、差異条件の形式として、(a)「項目名」の場合を「項目名型」、(b)「項目名とデータ名の対」の形式である場合を「データ名型」と呼ぶことにする。
【0083】
つぎに、差異条件は、(a)「項目名型」の場合、それは該当のフィールドに元々、定義されている「項目名」(本例の場合、“売上げ”)とは、異なるものでなければならず、また、差異条件が、(b)「データ名型」の場合、その該当「項目名」は、表全体の共通条件として表外に定義された項目定義の「項目名」(本例の場合、“年度”)と同じものであり同時に、その該当「データ名」(“2000”は、共通条件の「データ名」“2001”と異なるものでなければならない。
【0084】
本システムでは、以上の判定をおこなう1つ方法として、フォーマット書面上に記入されている文字列が、上記した条件を満たし、かつ、あるデータフィールドと特定の関係付けがおこなわれている場合、該当のデータフィールドは「複合フィールド」であり、上記文字列はその差異条件を表わす「差異条件指定文字列」であると判定する。
【0085】
本例の場合、表外に(青)色で追記された文字列“<年度>”2000”が、項目名“売上げ”のデータフィールドと結合線によって結ばれ、かつその中の項目名部分“年度”が、表全体の共通条件項目定義の項目名でもあり、かつ、その中のデータ名部分“2000”が、表外共通条件の項目定義のデータ名“2001”と異なることから、この文字列は「差異条件指定文字列」であり、該当のデータフィールドは、「項目名型」の差異条件が定義された「複合フィールド」であると判定されることになる。
【0086】
「複合フィールド」であると判定されたデータフィールドについては、該当の項目定義データ中の「複合区分」欄に「複合フィールド」であることをを示すコード“1”をセットした上、(ステップB2)、「差異条件定義データ」を作成し、そのアドレスを該当の項目定義データ中の「差異条件定義データポインタ」にセットする。(ステップB4)
「複合フィールド」でない「通常フィールド」であると判定された場合は、該当の項目定義データの「複合区分」欄に、「通常フィールド」であることを示すコード”0”をセットし(ステップB3)、「複合定義処理」を抜ける。
【0087】
「差異条件定義データ」の形式を図30に示す。本例の場合、差異条件として追記した文字列の中から、項目名部分“年度”とデータ部分“2000”を抽出して、各々、該当のテキストデータを作成し、「差異条件定義データ」の「項目名部」と「データ部」にセットする。
【0088】
「差異条件」が定義された「複合フィールド」と判定されたデータフィールドについては、次に、「複合セル」の書式フォーマットである「複合セルフォーマット」の識別をおこない、それを「派生エリア定義データ」の形で表わす(ステップB5)。
【0089】
まず、該当の「複合フィールド」の中の任意のセルに注目して、仮定的に「複合セルフォーマット」を検出する。一般に、帳票フォーマットにおいては、1つのデータフィールド内の各構成セルは同一の書式フォーマット(セルの形状/寸法…、記入文字列の記入書式…)でなければならず、また、それが「複合セル」の場合は、同一の「複合セルフォーマット」を持たなければならない。
以上のことから、1つのセルから「複合セルフォーマット」が検出できたならば、同じデータフィールド中の残りのセルについて、同じ「複合セルフォーマット」を持つことを確認した上、「複合セルフォーマット」として確定する。
ただ、本例のように、「複合セルフォーマット」が、例示的に任意の一部のセルにしか記入されていない場合もあるので、他のセルにおいて、検出された「派生セル生成要素」構成記号の記入位置に、異種の文字記号類が重なって記入されていなければ、この確定を妨げない。
【0090】
「複合セルフォーマット」として、本システムでは、1組の記号の組み合わせ(「派生セル生成要素」)が1つの文字列記入域を形成し、その形成記入域がセルの下半分、または,右半分を占める場合を取り上げる。「派生セル生成要素」は、次の手順により検出することができる
【0091】
システムには、予め、「派生セル生成要素」になり得る記号の組み合わせを可能な限り登録しておく。個々の記号の組み合わせ毎に、「種別」を定め、それを構成する記号コードとその間の記入順序を登録した「派生エリア生成要素データ」を定め、それをまとめて「派生エリア生成要素辞書」として登録する。(図示せず)「派生エリア生成要素辞書」の形式は、前記した「定義情報識別データ」(図6)と同じ形式になる。
【0092】
まず、該当のデータフィールドの各セルをサーチして、上記「派生エリア生成要素辞書辞書」に登録されている記号の組み合わせを検出する。
「派生エリア生成要素辞書辞書」の登録記号の対が検出できた場合、つぎに、この記号の対を外接する矩形を求め、この外接矩形が、図31(a)に示すように、左右方向と下方向の3辺が該当セルの境界と一定閾値内に引かれていることが確認できれば、この記号の対は、該当のセルの下側部分に「派生エリア」を定義している「派生エリア生成要素」と判定する。
また、図31(b)に示すように、上下方向と右方向の3辺が該当セルの境界と一定閾値内に引かれていることが確認できれば、この記号の対は、該当のセルの右側部分に「派生エリア」を定義している「派生エリア生成要素」と見なす。ここで、記号の対に外接する矩形は、該当の記号の文字データを参照して、その文字としての「位置」、「高さ」、「幅」の諸元から求めることができる。
【0093】
「派生エリア生成要素」が検出できた場合は、この外接矩形に適当なマージンを加え、主エリアと派生エリアを分ける「分割位置」を求め、また、「派生エリア生成要素」構成記号の「位置」と「幅」とから、派生エリアの両側のマージンを求めことができる。(図32)
【0094】
以上のように、一つのセルにおいて「派生エリア生成要素」が検出できれば、該当のデータフィールドの残りのセル内に、それと重なる、異種の記号、文字が検出されないことを確認した上、「派生エリア定義データ」を作成する。「派生エリア定義データ」には、該当の「派生エリア生成要素」の種別である「派生エリア生成要素種別」と「派生エリア」がセル内に設定されている「方向区別」(下方向か右方向)と主エリアと派生エリアとを分ける「分割位置」と派生エリア記入範囲の「左右マージン」が登録される。(図33)
【0095】
なお、本システムでは、ユーザによって「派生エリア生成要素」が記入されていない場合、予め定めてあるデフォールトの派生エリア生成要素を自動的に生成する。
まず、該当の複合データフィールドの構成セルの縦横の寸法比を求め、それを予め定めてある基準値と比較し、派生エリアが該当セル内において設定される方向(「方向区別」)として、「下側」か「右側」かの何れかを決定する。
「分割位置」と「左右マージン」は、各「方向区別」ごとに、「分割位置」と分割方向のセル寸法の比と「左右マージン」とセル横寸法との比の基準値を予め定めておくこととにより決定することができる。「派生エリア生成要素」の種別も、予めデフォールトで定めておき、以上のデータから「派生エリア定義データ」を作成することができる。
以上で作成した「派生エリア定義データ」のアドレスは、該当の項目定義データの「派生エリア定義データポインタ」にセットする。
【0096】
最後に、「複合セル」が定義されたデータフィールドを構成する各セルのセルデータを該当の「セルデータチェイン」において、1つづつ取り出し、対応する「複合セルデータ」と置き換える。(ステップB6)「複合セルデータ」の形式を図34に示す。新しく作成する「複合セルデータ」の位置情報とポインタ情報には、元のセルデータ内の該当データをコピーし、また、「セルデータチェイン」上において、前後のセルデータの該当ポインタデータにこの「複合セルデータ」の置かれるアドレスをセットする。
【0097】
「複合セル」が定義されたデータフィールドについて、「複合フィールド定義処理」を終えると、「複合セル」の「合計欄セル」について「複合フィールド定義処理」をおこなう。
合計フィールド内の「複合セル」は、次のように判定することができる。「合計フィールド定義データ」を1つづつ取り出し、さらにそれを構成する各「合計欄セル」について、その「集計対象フィールド」(合計対象のデータが記入されるフィールド)を識別し、それが「複合フィールド」であるかいなかを判定する。「集計対象フィールド」は、上記したように、該当の合計欄セルに隣接して、かつ合計フィールドと直角方向に設定されているセル列として識別できる。
【0098】
本例の項目名“売上げ”のデータフィールドように、「集計対象フィールド」を構成する各セルが複合セルである場合、表の持つ基本的性格から、その「合計欄セル」も同じ複合セル(同じ「差異条件定義データ」と「派生エリア定義データ」を持つ )でなければならないことから、ある「合計欄セル」について、その「集計対象フィールド」が「複合セル」である場合、この「合計欄セル」のセルデータを、その「集計対象フィールド」と同じく、「複合セル用セルデータ」(図34)に切り替える。
本例の場合、表の最下行と最右列の各「合計欄セル」のセルデータを、「複合セル用セルデータ」に切り替えることになる。「項目名」“売上げ”のデータフィールドを構成する各複合セルの場合と同様に「セルデータチェイン」において、元のセルデータを「複合セル用セルデータ」に付けかえればよい。
【0099】
上記のようにして、システムに入力された定義情報入りの書面について全ての定義データを生成し終えたところで、本システムがこれまで行った処理、特に認識処理(文字/図形認識、位置/大きさ等の補正、定義内容の確定)の結果を表示出力し、ユーザ側の確認を取る。
【0100】
この表示出力では、システムが認識した各書面の文書内容をたとえばトグル方式で順にディスプレイ画面20a上に表示する。この文書画像を表示するため、文書画像出力部40は、文書要素データ記憶部38に蓄積されている各書面毎の文書要素データを文字/図形パターン辞書36に照会して各文書要素のパターンを識別し、各パターンを展開プログラムによってビットマップ形式の画像データに変換して、映像信号を生成する。
【0101】
なお、システムの認識処理結果に応じた帳表の文書内容がディスプレイ画面20a上に表示された時点で、ユーザはキーボード12やマウス14あるいはディジタイザ15を用いて画面上から各文書に補正を行ったり新たな記入情報を入力することができる。
【0102】
キーボード12より入力された記入情報については、文字・図形認識の処理を行うことなく、文字・図形要素入力部37(図12)で文書要素データを生成することができる。マウス14またはディジタイザ15より入力された記入情報については、文字・図形要素入力部37で各記入情報を入力し、文字・図形要素認識部34で逐次(入力記入情報毎に)文字/図形認識処理を行い、文書要素データを生成する。
【0103】
これら画面入力方式の入力装置12、14、15により定義情報を入力する際にも、「環境設定」の「定義情報区別」モード(図7)で各定義系の修飾情報を設定入力する。
た、所望の定義用サブモード下で画面上から記入情報を入力すれば、システムの方でその入力された記入情報にそのサブモードで指定されている定義区別修飾を付して、画面上に表示することも可能である。この場合、該定義区別修飾を付けられた記入情報から定義情報が認識されることになる。
【0104】
このように画面上で記入情報が入力された場合は、記入情報が入力される度毎にその入力データに基づいて文字・図形要素入力部37(図12)が各記入情報に対応した文書要素データを生成または変更することになる。
画面上から入力された記入情報(文字列、記号、図形)は、用紙からイメージ入力された場合と同様に、システム内では文書要素データ(図15〜図20)の形態で表現される。
【0105】
用紙からイメージで入力された記入情報も画面上からコマンドで入力された記入情報もシステム内では同じ文書要素データの形で管理されるため、帳表の元々の記入情報(通常記入情報)かその上に追記される定義用記入情報かに拘わりなく、イメージ入力または画面入力のどちらからでも任意の記入情報を入力することができる。
【0106】
このように、ユーザは、文書内容が予め記載されている書面をイメージスキャナ10により入力した後に、上記のような確認のための出力表示の段階で、各書面の文書内容ないし定義内容を確認しながら、キーボード12、マウス14またはディジタイザ15より任意の記入情報、特に定義支援情報を追記することが可能変更や取り消し等を行うことも可能である。
【0107】
以上、本実施例による、派生エリアを持つ帳表フォーマットの定義方法について説明したが、種々の変形例が可能である。たとえば、図35に、画面上から定義内容を指定する例を示す。図35に示すように、入力した帳表文書の文書内容をディスプレイ画面20aに表示し、入力した文書内容を確認しながら、キーボード12またはマウス14等より所定の指定をおこなうことにより、所望の定義情報を入力することができる。
【0108】
図35において、「定義」モードの下で、「画面指定」ボタンを指示し、「画面指定」サブモードに入ると、ディスプレイ画面20a内の適当な位置に「1.フィールド」、「2.データ項目」、「3.データ名」等の各種定義項目をリストした副画面94が現れる。ここで、通常記入情報の“売上数”をしてクリック指示し、副画面94上で「2.データ項目」を選択指示すると、通常記入情報“売上数”がデータ項目の「売上数」に転化し、同時にクリック表示の部分が「2.データ項目」に割り当てた特殊表示に変わる。
同様に“売上数”の欄の下側の領域92をクリック指示して、この領域2について副画面94上で「1.フィールド」を指示すると、領域92は「売上数」のデータを記入するフィールドとして定義され、同時にクリック部分が「1.フィールド」に割り当てた特殊表示に変わる。 ここで、データ項目、フィールド、…に割り当てた特定表示は、予め図5に示した「定義要素/記入情報対照表」に定めたものが現れる。
なお、図35では、説明の便宜上、「データ項目」の箇所90と「フィールド」の領域92が同時に選択指示されている様子を示しているが、実際には1回のクリック毎に1箇所ずつ選択指示される。
【0109】
システム内では、上記のようなユーザ操作に対し画面上のクリック位置と、文書要素データ記憶部38に保持されている文書要素データの「位置」情報との照合を繰り返して、該当する文書要素データを識別する。そして、識別した文書要素データと副画面上の指示内容とから、所要の定義データを生成する。
【0110】
複合フィールドを含む帳表の場合は、ユーザは、まず、各データフィールドについて、「データ項目」と「フィールド」の指定を、以上述べた画面上の方法によりおこなった上、「差異条件」の指定は「差異条件指定文字列」を書面上に画面を通じて記入し、結合線を該当のデータフィールドから引き出す。この「差異条件指定文字列」と結合線の記入は、画面上の公知の入力手段による。
次に、「差異条件指定文字列」中の項目名の部分(本例では、“年度”)とを指定した上、上記副画面から「2.データ項目」を選択指定し、また、データ名の部分(本例では、“2000”)を指定した上、上記副画面から「3.データ名」を選択指定する。結合線も上記副画面により同様の指定をおこなう。
【0111】
ここで、画面上の「定義解釈」ボタンを指示すると、以上の指示内容により、すでに作成されている各データフィールドの項目定義データに加え、差異条件定義データと派生エリア定義データとが生成される。
【0112】
また、画面上から定義付けをおこなう方法として、次の方法も可能である。あるデータフィールドを画面上で指定した後、副画面上94で「1.フィールド」を指示すると、図36に示す「項目名指定メニュー」が表示される。「項目名指定メニュー」の中には、「項目名記入欄」のほかに、「差異条件記入欄」として、派生エリアの「項目名」と「データ名」を記入する欄が設けられている。
指定したデータフィールドが通常のデータフィールドの場合は、上記「項目名記入欄」のみに、該当項目名称を記入し、指定したデータフィールドが複合フィールドの場合は、この「差異条件記入欄」内の該当の欄に、差異条件の項目名とデータ名を記入する。本例の場合、「差異条件記入欄」内の項目名の記入欄に“年度”、データ名の記入欄に“2000”を記入すればよい。
【0113】
以上の記入をおこない、「項目名指定メニュー」上の「終了」ボタンをクリックすると、「項目名指定メニュー」は消え、続いて、該当する「差異条件定義データ」と「派生エリア定義データ」が作成される。また、表外の適当な空白部分には、指定内容を書面上に残すために、「差異条件文字列」が生成表示される。
【0114】
この生成される「差異条件文字列」において、項目名文字列とデータ名文字列は各々、項目名指定のとデータ名指定の定義要素記号“<>”“[]”でくくられているか、あるいは、各定義項目に該当する特殊表示を施されて、該当のデータフィールドと結合線により結ばれている。
「差異条件定義データ」の項目名とデータ名の各文字コード列の両側に該当の定義要素構成記号(項目名の場合は、“<”と“>”)のコードを添加し、項目名コード列とデータ名コード列をつなげて、適当な書面上位置情報と書式情報(文字大きさ、ピッチなど)を与えて、1つの文字列データを作成する。
つづいて、この差異条件文字列の外接矩形を求め、その中で文字列方向でかつ、該当のデータフィールド側に向き合う辺を求め、この辺と平行して対向するデータフィールドの辺を求め、以上両者の辺を結ぶ線分を生成すればよい。
【0115】
次に、以上のように、定義付けをおこなった集計表上に、実際にデータを出力集計する例について説明する。
この例では、データ出力元のデータファイルとしては、たとえば、図37に示す構成を持つファイルを考える。データファイルを構成する単位であるレコードは、図37に示すように、項目名を“支店名”、“商品区分”、“商品コード”“売上数”、“売上額”、“単価”、“利益”…とする区分フィールドに別れ、各々、該当のデータを格納している。
【0116】
実施例装置では、データ出力処理は、「データ出力モード」においておこなわれる。ディスプレイ画面20a上の「モード」ボタンをクリックしてモード一覧メニューの中から「データ出力」を選択するとシステムが「データ出力」モードに切り替わり、ディスプレイ画面20a上に図38に示すような「出力元ファイル一覧」の画面が表示される。ユーザは表示された複数のデータファイルの中から所望の出力元である「1.売上ファイル」を選択し、「出力実行」ボタンをクリックすればよい。
【0117】
本実施例のシステムにおいて、「データ出力処理」を担当するデータ出力部は、所定の変換または処理プログラムを実行するCPU24と上記プログラムと関連データを格納する内部メモリ16または外部メモリ18によって構成される。
【0118】
出力元のデータファイルが指定されると、画面上には、「項目名対応付け画面」(図示せず)が表示される。「項目名対応付け画面」上では、出力先集計表上で定義された項目名と出力元データファイルの定義項目名が2列に並べられて表示され、ユーザは画面上で、出力先と出力元とで対応する項目名を、たとえばマウスにより両者をつなぐ操作により対応付けすることができる。
【0119】
以上の項目名の対応付け操作を終えると、画面上の「終了」ボタンを指示すると、出力先と出力元の対応する項目名を並べた対の列である「項目名対応付けテーブル」がシステム内に作成され(図示せず)、「データ出力全体処理」が始まる。
【0120】
「データ出力全体処理」の手順を図39のフローに示す。まず、出力先である集計表上の合計欄以外のセルに、出力元ファイルのデータを出力集計する。(「データ出力処理」―ステップF1)
次に集計表上において、出力記入された各セル内のデータを合計欄に集計する。(表内合計処理―ステップF2)
最後に、集計表上に出力記入された、全てのデータを該当する文字列データに変換する。(文字列データ化処理―ステップF3)
【0121】
「データ出力処理」(ステップF1)は、出力先集計表上と出力元データファイとから1つづつレコードを取り出し、たがいに突き合わせ照合することを繰り返す形でおこなわれる。本明細書では、表上において、1つのレコードを構成するデータが記入されるセルの集合を、特に「レコードセル列」と呼ぶことにする。表上において、「レコードセル列」は、次のように、抽出することができる。
【0122】
なお、本実施例システムでは、このようにデータ間の突き合わせ照合をおこなうため、本実施例システム使用の前提として、データの表記は、出力先集計表上と出力元データファイルとにおいて統一されているものとする。
【0123】
まず、表上の各「項目定義データフィールド」を構成するセルの中から、同一行上にあり、項目名を異にするセルの集合を、「レコードセル列」の母体として識別する。次に、この識別した、「レコードセル列」母体内の各セルについて、それを含む、直角方向の列上をサーチする。サーチした列上に「レコードセル列」母体の各項目名とは異なる、新しい項目名のデータフィールドに属するセルがあれば、このセルを「レコードセル列」母体のセル集合に加える。また、表の外部に共通条件として、設定されている「項目定義」があれば、その収容セルも加え「レコードセル列」を得ることができる。
【0124】
本例の場合、「レコードセル列」として、表の第2行以下の行上から、項目名“商品名”と“売上”のセルの組み合わせが検出され、その中の項目名“売上”のセルの直角方向の列上において項目名“支店”のセルが追加される。また、表外から、項目名“年度”のセルが「レコードセル列」に追加される。
【0125】
本例のように、1つのセル中に派生エリアが設定されている場合は、上記のように抽出される1つの「レコードセル列」から、主エリアと派生エリアの、各々について、レコードをとり出し、出力元データファイルから取り出したレコードと突き合わせ照合をおこなうことになる。本明細書では、特に、主エリアについて得られるレコードを「主レコード」、派生エリアについて得られるレコードを「副レコード」と呼ぶことにする。
【0126】
「副レコード」は「差異条件定義データ」を参照し、「主レコード」に該当する変更をおこなうことによって得られる。たとえば、本例の場合、差異条件は、項目名“年度”が“2000”であるから、「副レコード」は、「主レコード」の中、項目名”年度”のデータを“ 2000“から“2001”に入れ替えることによって得られる。
【0127】
本例の集計表の場合、図40に示すように、たとえば、表上の第3行、表上の第3列と表外の共通条件とから、まず
項目名“売上”についてデータ“null”、
項目名“商品”について”データが“ラジオ”、
項目名“支店”についてデータが“大阪”、
項目名“年度”について”データが“2001”
という主レコードが得られ、
項目名“売上”についてデータ“null”、
項目名“商品”について”データが“ラジオ”、
項目名“支店”についてデータが“大阪”、
項目名“年度”について”データが“2000”
という副レコードが得られることになる。
この副レコードは、項目名“年度”のデータを主レコードの”2001“から”“2000に置き換えたものである。
【0128】
このような「複合セル」が設定された表上へのデータ出力は、実際には、処理の便宜上、たとえば、後述するように表から1つの「レコードセル列」を取り出し、まず、そこから得られる「主レコード」に、出力元の全てのレコードを出力集計させ、次に、同じレコードから得られる「副レコード」に、出力元の全てのレコードのデータを出力集計させ、以上の処理を表から取り出せる全てのレコードについて繰り返す形でおこなわれる。
【0129】
また、表上から、「レコードセル列」は、たとえば、次の順序によりとりだしていくことができる。表の各行を上側からとり出し、2つ以上の「項目定義データフィールド」が設定されている行が見出せれば、この行を「レコードセル列」とり出しのスタート行として、この行上において上記した「レコードセル列」の抽出をおこなう。
【0130】
本例の項目名“売上”のデータフィールドのように、1行上に同じ項目名のセルが繰り返されているときは、左側のセルから順次とり出し、とり出したセルごとに、「レコードセル列 」を識別していく。すなわち、とり出したセルについて、直角方向の列上をサーチを行い、他の項目名のセルを加えると共に、表外に検出されるセルも、追加して、「レコードセル列」を得ることを繰り返す。
スタート行以降の行についても、以上の手順くりかえし、表上の全ての「レコードセル列」を取り出していくことができる。
なお、出力元データファイルからのレコード取り出しの順序も、たとえば、ファイル格納の順のように、処理の便宜により決めてよい。
【0131】
以下、「データ出力処理」処理を、図41に示す手順にしたがって説明する。「データ出力処理」に入ると、まず、データ出力先とデータ出力元からとりだしたレコードをセットし、相互の照合をおこなう集計管理テーブルを作成する(ステップG1)。集計管理テーブルの形式を図42に示す。
【0132】
集計管理テーブル上の第1行の各欄には、項目名が記入される。出力先集計表上に定義された項目名を記入する。 記入の順序は順不同でよい。本例の場合、項目名“売上”、“商品名”、“支店、”“年度”が記入される。
【0133】
第2行には、項目名の「集計区分」を記入する。本例の場合、項目名“売上”に対応する欄(項目名“売上”を記入された欄と同一列の欄)に「集計項目」であることを示すコード“1”を記入する。第2行の他の欄には、「非集計項目」であることを示すコード“0”を記入する。
【0134】
第3行には、出力先集計表から取出される「レコードセル列」を構成する各セルのセルデータアドレスが、セットされる。出力先がデータファイルである場合には、データファイルのレコード内アドレスを記入してもよい。
【0135】
第4行には、出力先集計表の各セル内の記入データがセットされる。項目が“集計区分”の欄には、数値データが記入され、項目が“非集計区分”の欄には、記入データを表わすテキストデータがセットされる。
該当のセルデータから該当の文字列データを取出し、そのコード列としてテキストデータを読み取り、さらに、項目が“集計区分”の場合には、数字からなるテキストデータを数値データに変換する。同欄の先頭所定ビットには、数値データとテキストデータの区別がセットされる。
【0136】
第5行には、出力元が表である場合、それを構成する各セルのセルデータアドレスが、セットされる。本例のように、出力元表がデータファイルである場合には、データファイルのレコード内アドレスを記入してもよい。「項目名対応付けテーブル」を参照し、出力先の対応する項目名がセットされている同じ列にセットする。
【0137】
第6行には、出力元表を構成する各セル内の記入データ、あるいは、出力元データファイルから取り出されるレコード内の各データがセットされる。第4行と同じく、同欄の先頭所定ビットに数値データとテキストデータの区別がセットされる。第5行の場合と同じく、「項目名対応付けテーブル」を参照し、出力先の対応する項目名がセットされている同じ列にセットする。
【0138】
集計管理テーブルは、実際には、たとえば、以下のように実装することができる。集計管理テーブル上の各記入欄ごとに、リストデータ(図示せず)を設け、各リストデータは、各記入欄に記入されたデータを格納するとともに、行方向ポインタデータ、列方向ポインタデータを持ち、行方向、または列方向に隣接する各データ記入欄のデータを、順次、辿れるようになっている。
【0139】
また、集計管理テーブルには、「主副フラグ」を設け、そこに主レコードがセットされている場合は、“0にセットされ、副レコードがセットされている場合は、“1をセットし、その使用状態が判別できるようにしておいてもよい。
【0140】
集計管理テーブルの作成を終えると、出力先の表から、「レコードセル列」の取出し位置をスタート位置にセットし(ステップG2)、先頭の「レコードセル列」から主レコードをとり出し、集計管理テーブルの該当部にセットする。(ステップG3)すなわち、該当の「レコードセル列」を構成する各セルのセルデータアドレスを、各々、第3行上の該当する項目の欄にセットし、「セル内記入データ」を各々、第4行上の該当する項目の欄にセットする。(ステップG4)
【0141】
なお、出力先表上において項目が“集計区分”のセル中にすでにデータが記入されている場合は、上記した方法によりに該当の文字列を数値データに変換した上、第4行の該当欄にセットする。本例の項目“売上げ”のフィールドのように、データが未記入のセルの場合は、第4行の該当欄には集計のスタート値“0”をセットする。
【0142】
次に、この出力先集計表から取り出し、集計管理テーブル上にセットした主レコードに対し、出力元データファイルの全てのデータを出力集計する。(ステップG5)以下、この手順を図43に沿って説明する。
【0143】
出力元データファイルからレコードを1つづつ、順に取り出して、それを集計管理テーブル上に第5行上にセットする。(ステップH2)取り出されたファイルレコードの各データは、その先頭に「テキストデータ」であるか「数値データ」であるかを示す「数値/テキスト区別フラグ」が付けられた上、第5行上の各欄にセットされる。
【0144】
出力元データファイルからのレコード取り出しの順序は、たとえば、ファイル格納の順のように、処理の便宜により決めてよい。出力元データファイルから取り出したレコードの各構成データは、項目名対応データ(出力全体処理の最初に作成)を参照し、出力先集計表上の対応する項目名と同じ列上の記入欄にセットする。
【0145】
次に、集計管理テーブル上において同じ項目名の出力先データと出力元データ間の比較照合をおこなう。(ステップH3)このデータ間の照合は、出力先にデータが未記入の場合と、項目が“集計区分” の場合については、おこなわない。 この比較照合は、集計管理テーブル上の、第6行上のデータを第4行上のデータと各々該当の列上において、比較することによっておこなうことになる。
【0146】
以上の照合において、比較した全ての項目について、出力先データと出力元データが同じであれば、次の加算処理をおこなう。すなわち、「区分」が“集計項目”の項目の出力元データを、出力先レコードのデータに加算する。(ステップH4)
本例の場合、項目“売上げ”以外の項目“商品”、“支店”、“年度”のデータが同じであれば、項目“売上げ”の出力元レコードのデータを、出力先レコードのデータに加算することになる。この加算は、集計管理テーブル上の該当の列上において、第6行上のデータを第4行上のデータに加算することによっておこなわれることになる。
出力先のデータと出力元のデータの間で、比較照合した項目のデータが1つでも同じでない場合は、この加算はおこなわず、出力元ファイルから次のレコードを取り出すステップに抜ける。(ステップH5)
【0147】
出力先表から取り出した1つのレコードから取り出した「主レコード」に対して、出力元データファイルの全てのレコードデータを集計し終えると、集計管理テーブル上の、この出力先レコード上に集計されているデータを、出力先表の該当セルの「セル内データ格納部」に転記する。(ステップG6  )
【0148】
すなわち、集計管理テーブル第4行上のデータを、第3行のセルデータアドレスからポイントされているセルデータの「セル内データ格納部」に転記する。本例のように、該当のセルが「複合セル」である場合は、今、集計転記するデータが、「主レコード」のデータであるので、該当の「複合セルデータ」中の「主エリア記入情報部」側の「セル内データ格納部」に転記する。この時、転記される各データは、上記した「数値/テキスト区別フラグ」を付けたまま、「セル内データ格納部」に格納される。
【0149】
以上のように、出力先表の1つの「レコードセル列」から得られる「主レコード」への集計転記を終えると、次に、同じ「レコードセル列」から「副レコード」を作成し、その上への 出力元データの転記集計をおこなう。「副レコード」の作成とその集計管理テーブルへのセットは、以下のようにおこなわれる。
【0150】
「副レコード」は、前記したように出力先表を構成する「項目定義データ」を1つづつ見て、それが「複合区分」である場合、該当の「項目定義データ」からポイントされている「差異定義条件データ」を取り出し、この「差異条件データ」を参照して、同じ「レコードセル列」から取り出される「主レコード」を変更する形で作成される。
【0151】
該当の「主レコード」は、すでに集計管理テーブル上にセットされているので、「副レコード」は、そのセットされている内容を「差異条件」だけ置き換えることによって得ることができる。(ステップG7)本例の場合、「差異条件」は、「項目名」“年度”のデータが、主レコードの場合の“2001”に対して、「副レコード」は、“2000”であるので、集計管理テーブル上第4行において、項目が“年度”のデータをすでにセットされている“2001”から、“2000”に置き換えればよいことになる。
【0152】
以上のように、集計管理テーブル上に取り出した「副レコード」に対して、「主レコード」の場合と同様に、出力元データファイルの全てデータを集計転記する。(ステップG8)。「主レコード」の場合と同じく、出力データファイルからレコードを1つづつ、集計管理テーブル上の第6行にとり出し、その上で第4行上のデータと比較照合をおこなう処理を繰り返して、集計転記していく。
【0153】
出力元ファイルの全てのレコードを出力先表の「副レコード」(集計管理テーブルの第4行上)に転記集計し終えると、「主レコード」の場合と同様に、、それをとり出し元表のセルデータに転記する。(ステップG9)すなわち、集計管理テーブル第4行上のデータを、第3行のセルデータアドレスからポイントされているセルデータの中の「派生エリア記入情報部」側の「セル内データ格納部」にセットする。
【0154】
出力先の表から取り出した1つの「レコードセル列」をについて、以上の処理を終えると、出力先表から、「次のレコードセル列」をとり出し、同じ処理を繰り返す。出力先表からは、たとえば前記の例でおこなった方法により、順次、「レコードセル列」をとり出していくことができる。
【0155】
出力先から取り出される全ての「レコードセル列」について、以上の集計を終えると、次に、これらの出力データを表内に定義されている合計欄に集計する「表内合計処理」をおこなう。(ステップF2)
「表内合計処理」では、上記した「合計定義」が施されているデータフィールド内の各「合計欄セル」について所定の集計をおこなう。本例の場合、表の最下行と最右列に設定されている「合計欄セル」についておこなう。
【0156】
「表内合計処理」では、まず、該当の合計フィールド定義データのセルデータチェインを、順次辿り、各「合計欄セル」を取り出し、その「集計対象フィールド」を識別する。「集計対象フィールド」は、前記したように、該当の合計定義データフィールドとは直角方向に定義され、該当の「合計欄セル」の同一列、同一行にある項目定義データフィールドとして検出される。
【0157】
つぎに、「集計対象フィールド」内の全ての構成セルについて、その中の記入データをとり出し、それらを加算し、加算結果を「合計欄セル」内に記入する。「集計対象フィールド」内の各セルは、該当の項目定義データのデータフィールドについて作成されているセルデータチェインを、順次、辿り、該当の「合計欄セル」と同一行、または同一列上にあるものを検出することによって取り出すことができる。セル中の記入データの読み出しは、該当のセルデータのセル内データ部格納部からおこなえばよい。
【0158】
本例のように、「集計対象フィールド」を構成する各セルが複合セルである場合、前記したように、その「合計欄セル」も同じ「差異条件」と「派生エリア定義データ」を持つ複合セルであり、すでに、そのセルデータは「複合用セルデータ」に切り替えられている。
【0159】
まず、該当の集計対象フィールド内の各複合セルデータ内の「主エリア記入情報部」側の「セル内データ格納部」に格納されているデータを読み出して加算し、その結果を「合計欄セル」セルデータの中の同じく、「主エリア記入情報部」側の「セル内データ格納部」に格納する。
続いて、該当集計対象フィールド内の各複合セルデータ内の「派生エリア記入情報部」側の「セル内データ格納部」に格納されているデータを読み出して加算し、その結果を「合計欄セル」の複合セルデータの「派生エリア記入情報部」側の「セル内データ格納部」に格納することになる。
【0160】
「表内合計処理」を終えると「文字列データ化処理」がおこなわれ、(ステップF3)出力先表に元々記入されている非集計項目については、この処理はおこなわない。
表上の各セルの中から、集計項目のセル、または、該当のセルデータの「セル内文字列データアドレス格納部」にアドレスデータが格納されていないセルについて、そのセルデータの「セル内データ格納部」に格納されているデータをとり出し、対応する文字列データを作成し、そのアドレスを「セルデータ文字列データアドレス部」にセットする。
【0161】
「セル内データ格納部」より取り出したデータが数値データであれば、、公知の方法により、この数値データをテキストデータに変換する。これによって、たとえば、ファイルレコードでは単に数値「396」の大きさを表していたデータが、文字“3”“9”“6”の並びであるテキストデータに変換される。
【0162】
テキストデータから該当の文字列データ(位置情報も定義されている)は次のように作成される。該当の文字列データの記入先(位置情報)は、該当のセルの位置情報とセル内配置書式から決定することができる。セル内配置書式は、該当のセルが所属する項目定義データに付属したフィールド書式情報から読み取ることができる。文字サイズ、文字ピッチ、配置位置(たとえば右詰め、センタリング等の指定)、記入文字の色等である。本例のように配置書式がユーザによって指定されていなければ装置デフォルトによって決定される。
【0163】
まず、セルの書式情報中に登録されている各文字の大きさとピッチから、文字列を外接する矩形を求める。続いて、文字列のセル内配置位置情報(たとえば右詰め、センタリング等の指定)を参照して、その外接矩形のセル内位置を求める。次に、該当のセルの書面上位置(該当のセルデータにセットされている)を参照し、該当の外接矩形の書面上位置を得て、該当の文字列の書面上位置が得ることができる。こうして得られたテキストデータと位置情報から該当の文字列データが作成され、そのアドレスを該当の対応するセルデータ(図20)のセル内文字列データアドレス部にセットしておく
【0164】
複合セルの場合、その中に記入されている2つのデータの文字列データへの変換作成は、次のようにおこなわれる。該当の複合セルについて定義されている「派生エリア定義データ」から取り出した「分割位置」情報と「左右マージン値」とを読み出し、それと該当複合セル全体の位置情報との両者から、主エリアと派生エリアの各々について、「データ文字列記入範囲」を求める。この主エリアと派生エリアの「データ文字列記入範囲」と「分割位置」情報と「左右マージン値」との関係を図32に示す。
【0165】
主エリアと派生エリアの各々について、その該当「データ文字列記入範囲」と該当のセルデータ格納部より取り出したデータの両者から、上記した通常セルの場合と同様に、その位置情報を求め、文字列データを得ることができる。主エリアと副エリアの各々について作成した文字列データは、通常セルの場合と同じく、各々、該当の複合セルデータ内の主エリア側「セル内文字列データアドレス格納部」と「派生エリア側セル内文字列データアドレス格納部」にそのアドレスをセットする。
【0166】
なお、この時に、個々の複合セル内に派生エリア内には、それを生成する該当の「派生セル生成要素」が記入されているかチェックをおこない、記入されていない場合は該当の記号を新たに生成して記入する。
該当のデータフィールドの複合セルを一つづつとりだし、「分割位置」の派生エリア側に記入されている文字、記号等を全て取り出し、その中から該当する「種別」の「派生エリア生成要素」の組み合わせが得られるかを否かを判定する。該当の「派生エリア生成要素」の「種別」は該当の「派生エリア定義データ」から知り、「派生エリア生成要素」を構成する記号コードとその記入順序は、今得られた「種別」から「派生エリア生成要素辞書」を介して知ることができる。
【0167】
セル内に「派生エリア生成要素」が記入されていない場合には、次のように「派生エリア生成要素」を生成して記入する。上記のように、記入すべき「派生エリア生成要素」を構成する記号について、そのコードと相互の記入順序を知り、派生エリア定義データ内に登録されている「分割位置」と「左右マージン」情報を参照して、そのセル内配置位置を求めることができる。次に、セル全体の書面上位置情報(セルデータ内に登録)を参照して、この「派生エリア生成要素」の構成記号の書面上位置情報を得て、対応する文書要素データ(文字列データ)を得ることができる。
【0168】
以上のように生成された文字列データは、当該帳表に元々記入されている、他の文書要素データと一緒に文書要素データ記憶部38に格納される。
【0169】
したがって、文書画像出力部40が、この文書要素データ記憶部38より(黒)の通常記入情報に対応する全ての文書要素データを読みだし、それら読み出した文書要素データを文字/図形パターン辞書36に照会して各文書要素のパターンを識別し、各パターンを展開プログラムによってビットマップ形式の画像データに変換することにより、図10に示すような目的の帳表出力文書をたとえばディスプレイ画面20a上に表示することができる。また、印字装置22でプリントアウトしたり、通信装置24によりFAX送信することもできる。
【0170】
次に、図44に示した集計フォーマットについて、本システムにおいておこなわれる取り扱いについて説明する。同フォーマットは項目名“売上げ”のデータフィールドの中に各々「派生エリア」が設けられ、その中に項目名“利益”のデータが記入されるようになっている。このフォーマットに対する「定義付け」は、「「派生エリア」が設けられた項目名“売上げ”のデータフィールドに対して、「差異条件」として項目名“利益”を指定することによっておこなう。
すなわち、同フォーマットに対しては、「差異条件」以外は、上記の例と同じ「定義付け」をおこなった上、表外の適当な余白に文字列“利益” を記入し、該当の定義要素記号により、項目名指定をおこなった上、「結合線」により,該当のデータフィールドと結べばよい。また、項目名“利益”は、集計項目であるので、項目名“売上”の場合と同じく、その右肩部に定義要素記号“○”を付しておく。(図45)
【0171】
以上の指定により、今回のフォーマットの場合、「差異条件定義データ」以外の定義データは上記の例と同じものが作成され、「差異条件定義データ」は、項目名のみがセットされる「項目名形式」で作成され、そこには項目名テキスト“利益”が記入される。
【0172】
このフォーマットに対して、上記の例と同じデータファイルからデータ出力が指示される場合を考えると、以下の手順がおこなわれる。最初に、項目名「差異条件定義データ」を参照し、差異条件が本例のように、「項目名型」である場合、「差異条件定義データ」がリンクされている項目定義データの該当項目名(本例の場合“売上げ”)がセットされる管理テーブル上の行位置を「差異条件置換項目位置」として、メモリ上の本出力処理用に設定したワークエリア内の特定アドレスに記憶しておく。
【0173】
集計表からは、まず、上記の場合と同様に、「レコードセル列」が取出され、さらに、そこから、「主レコード」が上記の場合と同じように取出されて管理テーブル上にセットされ、その上にデータ出力元のデータが上記の場合と同じように転記集計される。テーブル上に集計されたデータは、前記の例と同様に、該当のセルデータの「主エリア記入情報部」側の「セル内データ格納部」に転記される。
【0174】
同じ「レコードセル列」の「副レコード」は、集計管理テーブル上において前からセットされている「主レコード」をもとに、その第一行上の「差異条件置換項目位置」の記入データ(本例の場合”売上げ“)を「差異条件定義データ」に記入されている項目名“利益”に置き換えることによってセットされる。
こうして管理テーブル上にセットされた「副レコード」に対して、以降、出力元レコードとの突合せ転記は、上記した場合と同じ方法でおこなわれる。すなわち、項目名“利益”のセットされた列上で、出力元レコードの項目名”利益“のデータが集計されていくことになる。集計管理テーブル上に集計されたデータは、前記の例の場合と同様に、該当のセルデータの「派生エリア記入情報部」側の「セル内データ格納部」に転記される。
【0175】
「副レコード」について、以上の転記集計がおこなわれた後は、次の「レコードセル列」を取り出し、管理テーブル上第1行の「差異条件置換項目位置」に再び、「主エリア」の項目名である “売上げ”(複合セルが定義された項目定義データ内に定義)をセットし、以下、同じ手順を繰り返すことになる。
セルデータの「主エリアエリア記入情報部」と「派生エリア記入情報部」の「セル内データ格納部」に格納されたデータは、前記の場合と同様に、文字列データに変換される。
【0176】
なお、本発明は、上記した本発明の機能を実現するためのプログラムまたはソフトウェアを用いる。かかるソフトウェアは、任意の媒体を介して、たとえば蓄積媒体あるいはオンライン等により本発明のシステムにインストールされ得るものである。したがって、本発明を実施するためのソフトウェアを格納した蓄積媒体を業として譲渡する行為や、該ソフトウェアをオンラインでシステムにインストロールする行為等は本発明の実施の一形態である。
【0177】
【発明の効果】
以上説明したように、派生エリアが設けられた、複雑な帳票フォーマットについても、派生エリアを持たない通常の帳票フォーマットと同じ項目定義操作と簡単な差異条件の指定とによって済ませることができ、通常の帳票フォーマットに対しておこなう指定操作と同レベルの簡単な操作により、一括したデータ入出力を行えることができる。
【0178】
また、日常見慣れた文字、記号、図形からなる所定の定義支援情報を追記入でおこなえる上、差異条件の指定も、誰もが理解できる文字列の記入を主体とする操作でおこなうことができるため、だれもが簡単な作業または操作で済ませることができ、また定義内容は、誰もが一目瞭然に理解しえる視認性の高いものになっている。
【0179】
また、以上の定義は、最小限の上記記号類の追加入力で済み、効率がよく、間違いの少ない形で行うことができる。
【図面の簡単な説明】
【図1】本発明の一実施例による情報処理装置のハードウェア上のシステム構成例を示すブロック図である。
【図2】実施例のシステムにおける主なモードの一覧を示す図である。
【図3】実施例のシステムにおける「主モードー覧メニュー画面」を示す図である。
【図4】実施例のシステムにおける「環境設定モード画面」を示す図である。
【図5】実施例のシステムにおける「定義要素/記入情報対照表」を示す図である。
【図6】実施例のシステムにおける「定義要素識別データ」のデータフォーマット例を示す図である。
【図7】実施例のシステムにおける「定義情報区別指示画面」を示す図である。
【図8】実施例のシステムにおける「定義情報区別データ」のデータフォーマット例を示す図である。
【図9】実施例のシステムにおけるの帳表フォーマットの一例を示す図である。
【図10】実施例のシステムにおけるの帳表フォーマットへのデータ出力例を示す図である。データ入り帳表の例
【図11】実施例のシステムにおける、図9の帳表フォーマットに定義支援記入情報を追加記入した一例を示す図である。
【図12】実施例のシステムにおける文書入力および文書要素データ生成部の構成を示すブロック図である。
【図13】実施例のシステムにおける「画像管理データ」のデータフォーマット例を示す図である。
【図14】実施例のシステムにおける「画像管理データ」の対象となる入力画像の構成を示す図である。
【図15】実施例のシステムにおける「文字データ」のデータフォーマット例を示す図である。
【図16】実施例のシステムにおける「文字列データ」のデータフォーマット例を示す図である。
【図17】実施例のシステムにおける線分に対応する「図形要素データ」のデータフォーマット例を示す図である。
【図18】実施例のシステムにおける長円に対応する「図形要素データ」のデータフォーマット例を示す図である。
【図19】実施例のシステムにおける矩形などに対応する「図形要素データ」のデータフォーマット例を示す図である。
【図20】実施例のシステムにおける「セルデータ」のデータフォーマット例を示す図である。
【図21】実施例のシステムにおける定義情報認識およぴフオーマット設定部および定義実行処理部の構成を示すブロック図である。
【図22】実施例のシステムにおける「定義要素データ」のデータフォーマット例を示す図である。
【図23】実施例のシステムにおける定義データ作成の全体手順の一例を示す図である。
【図24】実施例のシステムにおける「項目定義データ」のデータフォーマット例を示す図である。
【図25】実施例のシステムにおける「合計定義データ」のデータフォーマットを示す図である。
【図26】実施例のシステムにおける応用用語辞書に収載されている用語の例を示す図である。
【図27】実施例のシステムにおける「辞書用語データ」のデータフォーマット例を示す図である。
【図28】実施例のシステムにおける、合計フィールドと合計欄セルと集計対象フィールドの関係を示す図である。
【図29】実施例のシステムにおける複合フィールド定義処理のフローチャートを示す図である。
【図30】実施例のシステムにおける「差異条件定義データ」のデータフォーマット例を示す図である。
【図31】実施例のシステムにおける派生エリアのセル内は位置方向を示す図である。
【図32】実施例のシステムにおける派生エリアの記入範囲を示す図である。
【図33】実施例のシステムにおける「派生エリア定義データ」のデータフォーマット例を示す図である。
【図34】実施例のシステムにおける「複合セル用セルデータ」のデータフォーマット例を示す図である。
【図35】実施例のシステムにおける画面上からの指示による定義付けの画面を示す図である。
【図36】実施例のシステムにおける「項目名指定メニュー」の1例を示す図である。
【図37】実施例のシステムにおける出力元のファイルの構成例を示す図である。
【図38】実施例のシステムにおいてデータ出力モード画面の1例を示す図である。
【図39】実施例のシステムにおける「データ出力全体処理」のフローチャートを示す図である。
【図40】実施例のシステムにおける「レコードセル列」取出しのイメージを示す図である。
【図41】実施例のシステムにおける「データ出力処理」のフローチャートを示す図である。
【図42】実施例のシステムにおける「集計管理テーブル」のイメージを示す図である。
【図43】実施例のシステムにおける「主レコード(副レコード)データ出力処理」のフローチャートを示す図である。
【図44】実施例のシステムにおける第2の帳表フォーマットの一例を示す図である。
【図45】実施例のシステムにおける、図44の帳表フォーマットに定義支援記入情報を追加記入した一例を示す図である
【符号の説明】
10  カラーイメージスキャナ
12  キーボード
14  マウス
15  ディジタイザ
16  内部メモリ
18  外部メモリ
20  表示装置
24  CPU
27  通信装置
30  文書画像入力部
32  文書画像記憶部
34  文字・図形要素認識部
36  文字/図形パターン辞書
37  文字・図形要素入力部
38  文書要素データ記憶部
40  文書画像表示出力部
42  定義要素データ生成部
44  定義要素データ記憶部
46  定義データ生成部
48  定義要素識別データ記憶部
50  定義情報区別データ記憶部
52  応用用語辞書
54  帳表定義データ記憶部
90  データ項目名
92  フィールド
94  指定メニュー
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to an information processing method and apparatus for performing data processing on a book table format.
[0002]
[Prior art]
Conventionally, for various book table formats freely created by the user, items to be associated with corresponding item names for data fields or data constituting the book table format should be defined and simultaneously referred to in data input / output of the book table. A book table format definition method for automatically transcribing data to or from another book table or data file by routinely identifying data or a record that is a set of data entry areas is known. ing.
[0003]
For example, the present inventor has proposed in Japanese Patent Laid-Open No. 09-134349 a method in which this method can be performed with good man-machine characteristics by adding a minimum of characters and symbols familiar to the user on a book table format. ing.
[0004]
[Problems to be solved by the invention]
However, in a form format actually used in the world, as shown in FIG. 10 described later, another entry area (derived area) is provided in one cell, and the original area is provided therein. The entry area (main area) is often a composite format in which data under different conditions is entered.
[0005]
The book table format handled by the book table format definition method proposed so far is limited to a format in which only one data is entered in each cell constituting the book table, and has a derived area of this kind. For a composite format, automatic data input / output based on the book table definition described above could not be performed.
If the user wishes to obtain data output on a composite format with derived areas, for example, a separate book is created in which each constituent cell is equivalent to each derived area in the target format, and the resulting table is obtained. There was no alternative but to copy the data one by one to the derived area of the target format.
[0006]
The present invention has been made in view of such a problem of the related art, and also for a form format provided with this kind of derived area, a simple operation at the same level as a designation operation performed for a normal form format, It is an object of the present invention to propose an information processing method and apparatus capable of defining a form format and automatically inputting and outputting data.
[0007]
Another object of the present invention is to provide an information processing method and apparatus which can define a form format in which a derived area is provided, and which has visibility and readability that anyone can understand and understand.
[0008]
In order to achieve the above object, an information processing method according to claim 1 of the present invention is a method of inputting / outputting data in a book table format. A step of defining an item for associating a data field with an item name; and, for a data field provided with a derived area as a second data entry area in one cell, a first entry in the same cell as the derived area. With the step of specifying the difference condition, which is an entry condition that is unique to the main area that is the area, and simultaneously refers to each derived area based on the specified item definition and the difference condition when inputting and outputting data in the book table Automatically identifying a record to be created or a set of data entry areas.
[0009]
The information processing method according to claim 2 is a data input / output method in a book format according to score request 1, wherein the information input / output method in the cell is performed by recognizing a symbol that divides an example of a derived area. And a data entry area of the main area.
[0010]
An information processing apparatus according to claim 3 is a data input / output device in a book table format, wherein means for defining an item that associates a data or a data field with an item name in a table is provided. For the data field provided with the derived area which is the second data entry area, a difference condition which is an entry condition inherent to the main area which is the first entry area in the same cell in the same cell is designated. A means is provided to automatically identify, for each derived area, data that should be referred to at the same time when inputting / outputting data from a book or a record that is a set of data entry areas, based on the specified item definition and difference conditions It is characterized by doing.
[0011]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, the present invention will be described with reference to the accompanying drawings.
[0012]
【Example】
FIG. 1 shows a hardware system configuration of an information processing apparatus according to an embodiment of the present invention. In this system, the color image scanner 10, the keyboard 12, the mouse 14, and the digitizer 15 are suitable as input devices, the internal memory 16 and the external memory 18 are suitable as storage devices, and the display device 20 and the stamp device 22 are suitable as output devices. It is connected to the CPU 24 via an interface circuit (not shown). Further, the CPU 24 is also connected to a telephone line or a communication line 27 via a communication device 26.
[0013]
The color image scanner 10 reads characters, symbols, and figures in a document written on a sheet as color image information. The internal memory 16 and the external memory 18 store various electronic dictionaries, character fonts, files, and the like, in addition to various programs that define processing or control operations of the CPU 24. The communication device 26 has a facsimile communication function.
[0014]
FIG. 2 shows a list of operation modes related to book creation in the system of the present embodiment. Main modes such as "document creation", "definition", and "environment setting" are set, and these main modes are "retrieve" ..., "definition interpretation" ..., "definition information setting", etc. The sub mode is branched.
[0015]
FIG. 3 shows a “main mode-view menu” displayed on the display screen 20 a of the display device 20. When the "mode" button, which is always displayed in the lower left corner of the display screen 20a, is selected and displayed, this "main mode list menu" appears on the screen, and "document creation", "definition", "environment" A main mode selection button such as "setting" is displayed.
[0016]
When the "environment setting" button is clicked in the "main mode list menu", the environment setting mode is selected. When the mode is switched to the environment setting mode, a screen as shown in FIG. 4 is displayed on the display screen 20a, and sub-mode selection buttons such as “definition setting” and “definition information setting” are displayed at the lower right of the screen. Here, when the "definition information setting" button is clicked, the screen enters a definition information setting mode, and is displayed on a "definition element / entry information comparison table" screen as shown in FIG.
[0017]
In FIG. 5, in this embodiment, a plurality of definition systems such as “common” and “book table definition” are prepared, and a plurality of definition elements are set in each definition system. Of these, "book table definition" and each definition element of the system are used to set the format for data management on the book table, and each "common" definition element is also used for the definition of other definition systems. Is done.
As shown in FIG. 5, one or more kinds of predetermined characters (character strings), symbols or figures are associated with each definition element. Some of the definition elements, such as “round-up” corresponding to the definition element “rounding”, indicate the target definition content only by the entry information. As in the case of <>, another definition information on a document is designated as a component of the definition content. In addition, as in the case of “○” corresponding to the definition element “registration word designation”, the character, symbol, etc. designated thereby indicate that the definition content should be interpreted with reference to the applied term dictionary. is there.
[0019]
The association between the definition element and the entry information as described above may be prepared by the system from the beginning, or the user may be allowed to set and register at any time by screen input. In any case, in the data format shown in FIG. 6, for example, the definition element identification data having a variable data length corresponding to the comparison table in FIG. 5 is set for each definition element. Each definition element identification data is held in a definition element identification data storage unit 48 (FIG. 21) of a definition information recognition unit described later.
[0020]
In the data format of “definition element identification data” in FIG. 6, the code of the definition system (book table definition) to which the relevant definition element (for example, “round up”) belongs is set in the data field of “definition system code”. , The code of the definition element (rounded up) is set in the data field of the "definition element type", and the character string corresponding to the definition element (rounded up) is set in each data field of the "configuration character string / symbol string" A code of (rounding up, rounding up ...) is set with predetermined delimiter identification data interposed therebetween, and predetermined end identification data indicating the end of this data is added to the last field.
[0021]
As described above, in the present embodiment, the definition elements for performing various definitions on a document are associated with characters, symbols, or graphics that can also be used as normal entry information representing the contents of a normal document. However, as described later, when used as a defining element, the entry information is provided with special decoration information (for example, color information) so as to be distinguished from normal entry information representing the contents of a document. In other words, the user can not only use the commonly used entry information as normal entry information to represent the contents of the document, but also add special modifier information to this to indicate the definition contents. It can be used as information.
[0022]
When the sub-mode selection button of “definition distinction setting” is selected on the “environment setting mode screen” of FIG. 4, a “definition information distinction instruction screen” as shown in FIG. 7 appears on the display screen 20a.
In FIG. 7, a column of [definition system] lists definition systems such as "form definition". The user only needs to input modification information or identification information of [color], [line modification], [line thickness], [handwriting / printing] used for the entry information of each definition system at each position.
In the example of FIG. 7, for example, (blue) is entered in the [Color] column for the definition system of “book table definition”, and (red) is designated for the definition system of “format definition”. Since each “common” definition element is shared by all definition systems, there is no need to set “common” unique modification information.
[0023]
When the above specification is completed, when the "end" button on the "definition information distinction instruction screen" is designated, in response to the input operation of the definition information distinction instruction, the data format in the system is, for example, as shown in FIG. Sets definition information discrimination data for each definition system. This definition information distinction data is stored in the definition information distinction data storage unit 50 (FIG. 21) of the definition information recognition unit described later.
[0024]
Next, an example will be described in which data is totaled and output on a totaling table freely created by a user on paper using this system.
The user has, for example, the format of the table shown in FIG. 9 as a sheet, and a use example in which the user wants to obtain a total output of data as shown in FIG. 10 on this format will be described.
[0025]
In the table of FIG. 9, a data entry column (field) of the item name “branch” is provided on the uppermost row, and a data entry column of the item name “product name” is provided in the leftmost column. In the matrix of cells in the second to fourth rows from the top and the second to fourth columns from the left in the table, a data entry column for the item name "sales" is provided. In the upper right part outside the table, the data name “2001” of the item name “year” is described as a common entry condition for each data entry column in the table.
[0026]
The user reads the above from the entries in the table on the premise of some dictionary (for example, a product name master file ...) that describes the association between each item name and its data name. For example, the item name “branch” is read from the entry data sequence “Tokyo”, “Osaka”, and “Nagoya”, and the item name “product” is entry data sequence “TV”, “Radio” , "Car navigation" and the headword "product name" written in the upper position adjacent thereto are read with the help of the headword. The correspondence between the item name "sales" and its data entry column (field) is mainly read from the title of the table.
[0027]
In the table format of the target data output result (FIG. 10), in each cell constituting the data entry column (field) of the item name “sales”, another symbol “[]” is added by another symbol. A data entry area is provided.
In the original entry area of the data entry column (field), data of the year "2001" is entered, whereas in the newly provided entry area,
The data of "2000", which is the previous year, is entered.
That is, in FIG. 40 to be described later, the data entry conditions of the two entry areas provided in the hatched cells in the data entry column (field) of this item name “sales” are the conditions entered in the table. Are the same as each other (in each case, “branch” is “Osaka” and “product” is “radio”), but the data of the common entry condition “year” outside the table is “2001” in the original entry area. And the newly provided entry area side is "2000", so that data is totaled under different conditions.
[0028]
The user reads the entry in the data entry column (field) of the item name “sales” from the commentary sentence “[] in 2000] written below the title of the table.
[0029]
As described above, in each of the constituent cells of a certain data entry column (field), another entry area is provided, in which data having conditions different from those of the original entry area is entered. In this specification, the entry area newly provided in this cell is referred to as a "derivation area", and the entry area on which data of the original entry conditions is entered is referred to as a "main area". The different conditions specified for are referred to as “difference conditions”. In the case of this example, the “difference condition” means that the data name of the item name “year” is “2000”.
Also, an entry element that is entered in a cell and generates a “derived area”, such as the symbol “[]” in this example, is called a “derived area generating element”.
A cell provided with the new entry area “derived area” is particularly called a “composite cell”, while a cell in which only one data is entered is called a “normal cell”.
[0030]
In this system, the “define” operation shown in FIG. 11 is performed so that the system can routinely recognize the contents of the definition as recognized by the user as described above without intent. This “define” operation is performed by additionally writing definition support entry information that can be distinguished from the normal entry information that is the original entry content of the summary table. In the case of this example, the definition support entry information is distinguished from the ordinary entry information by being entered using the (blue) color assigned to the definition system of “common” and “book table definition” as shown in FIG. I will do it.
[0031]
As a basis of “defining” in the summary table, first, “item definition” for associating the item names of all data fields and data names on the summary table is performed. As for the item names used in the “item definition”, if there is something originally entered as a headword on the tabulation table, from the purpose of this system that the user freely uses the items freely entered on the paper as much as possible , Use it as is.
[0032]
First, for each set (cell column) of cells having the same item name and adjacent to each other, a data field is specified using a definition element symbol """" or "[]" of "field specification". That is, the definition element symbol ““ ”of“ field specification ”, or“ [”and“] ”or“ [”and“] ”, which are constituent symbols of“ [] ”, are respectively added to the corresponding cell column. Fill in both end cells.
[0033]
As an item name to be associated with this data field, if there is one originally written as a headword adjacent to the upper side or left side of the data field, it is specified as the item name. The designation of the item name is performed by adding each constituent symbol “<” and “>” of the definition element symbol “<>” to both sides of the corresponding character string. In the case of this example, the headword "product" is defined as the item name of the data field adjacent to the lower side by this designation method.
[0034]
If the name of the item to be associated is not originally entered as a headword of the entry content-usually entered information, enter the name in the blank space near the relevant data field, specify the item name, and further define the definition element Is connected to the corresponding data field by using the connection line "-". In the case of this example, the item names "branch" and "year" are associated with the corresponding data fields or data names, respectively, by this method.
[0035]
For a data field composed of a composite cell (hereinafter, referred to as a "composite field"), the field range is specified in the same manner as in a normal data field. In the case of this example, for the data field with the item name "sales", the constituent symbols "" and "" of the definition element symbol of "field designation" are written in the upper left cell and the lower right cell, respectively. (Because this field forms a matrix of cells, use "".) Next, the corresponding item name "sales" is used as the (blue) color definition support entry information. , And the above-mentioned item name designation is added, and a connecting line "-" is drawn out to an arbitrary position of the corresponding data field.
In addition, in order to specify that the "summary category" is "numerical value" in the item name "sales", the definition element "summary category designation" is added to the right shoulder of the item name "sales" character string. Add the “” ”symbol in (blue) color.
[0036]
Next, the symbol “[]” of “derived area generation element” is additionally written in an arbitrary cell of this data field. Further, the commentary "2000 in []" is also written in an appropriate position outside the table so that anyone can understand the definition of the "derived area" that is being made. Although these entries are additional entries, they are ordinary entry information output on the target output table (FIG. 10), and are entered in the output color (black).
[0037]
In addition, a character string indicating “difference condition” is entered in a predetermined format described below. In the case of this example, the item name and the data name are specified for the character strings representing the item name “year” and the data name “2000”, respectively, and then the paired character string “<year> [2000]” is obtained. Fill out the appropriate blanks outside the table. The information is entered using the (blue) color definition support entry information, and is connected to the data field of the corresponding item name “sales” by a connection line “−”.
[0038]
Finally, the “sum field” is specified on the bottom row and the rightmost column of the table. The cell column of the total column in which the total value of each data field is entered is specified using the definition element symbol “[]” of “field specification” in the same manner as the specification of the data field. That is, for each “sum field”, the definition element symbol “[]” and the constituent symbols “[” and “]” of “field specification” are written in the sum column cells at both ends. The cell at the lower right corner of the table may be included in the “sum field” defined on the bottom row, or may be included in the “sum field” defined on the rightmost column.
[0039]
In the case of this example, each cell of the two total fields specified on the bottom row and the rightmost column of the table has the data of the item name “sales” aggregated, so the item “sales” Is a composite cell having the same “difference condition” and “derivative area” as the data field, but the specification method may be performed in the same manner as in a normal total field.
[0040]
Also, in the cell adjacent to the left end of the total field in the bottom row and in the cell adjacent to the top of the total field in the rightmost column, the `` total '' character which is originally written as the written content-usually After confirming that it is a “registered word” registered in the applied term dictionary 52, it is surrounded by a “registered word designation” definition element symbol “O”.
[0041]
In the present system, the user registers a specific term that is used daily (normally as entry information) in a book table in the application term dictionary 52 (FIG. 26), and registers it. By enclosing “registered word designation” definition element symbol “記号”, each is converted into definition information having a specific meaning. That is, the “total” character surrounded by the “registration word designation” definition element symbol “O” is integrated with the field designated by “[]” to constitute one definition information for data management, and the definition element “ Each column (cell) in the total field designated by [] "defines that a value obtained by summing up the numerical data entered in other specific fields is to be entered.
[0042]
The specific field to be subjected to the sum calculation here is a data field with the item name "sales" set in a direction perpendicular to the sum field in this example. For example, the specific field of the total column cell in the second column from the left of the bottom row is a data field portion of the item name "sales" defined in the vertical direction in the same column.
[0043]
Next, a description will be given of various functions for inputting the table format entry sheet defined by adding the definition support entry information to the present system as described above and obtaining a desired data output.
[0044]
FIG. 12 shows a configuration of a document input and document element data generation unit in the system of the present embodiment. The document image input unit 30 includes an input device such as a color image scanner 10, a keyboard 12, and a mouse 14, a CPU 24 for executing an input routine, an internal memory 16 or an external memory 18 for temporarily receiving an input color screen, and It is constituted by. The document image storage unit 32, the character / graphic pattern dictionary 36, and the document element data storage unit 38 use the storage area of the internal memory 16 or the external memory 18. The character / graphics element recognition unit 34 is configured by the CPU 24 that executes a character / graphics recognition processing program. The document image output unit 40 mainly includes a CPU 24 that executes a display control program, and a display device 20 that outputs a document image under the control of the CPU 24 or a communication device 26 that transmits and outputs a document image. You.
[0045]
The user sets the book cover on the color image scanner 10, selects the "document creation" mode on the display screen 20a, and clicks the "character / graphic recognition" button.
In response to this click operation, first, a reading operation is performed by the image scanner 10, and a color image signal representing an image of the book document (all entries) shown in FIG. 11 is taken into the image storage unit of the input unit 30. . The color image signal taken into the input unit 30 is decomposed into each color image signal of (black), (blue), and (red) in the form of a signal. A blue image signal of (blue) and an image signal of (red) are stored in the black image storage section 32a, the blue image storage section 32b, and the red image storage section 32c, respectively.
[0046]
Next, the character / graphic element recognition unit 34 recognizes individual characters and graphic elements in the document for each color (black, blue, red) for the pixel data for each document stored in the document image storage unit 32. I do. Here, the graphic element is a group of simple figures, such as line segments, rectangles, and circles, whose shapes can be easily recognized as images.
[0047]
At the time of image recognition in the present embodiment, for example, “image management data” preset in a data format as shown in FIG. 13 is referred to. In this “image management data”, as shown in FIG. 14, it is assumed that an input image is constituted by a large number of pixels PX arranged on a matrix, and data indicating the number, size, pitch, etc. of the pixels PX is set. ing.
[0048]
The recognition of characters and figures in the character / graphics element recognition unit 34 is basically performed by recognizing line elements constituting individual characters and graphic elements. Various known methods may be used to identify the line elements. For example, first, a set of dots having a specific color is found, and then a search is made in or around the adjacent inertia to determine the direction in which the set of dots extends. By repeating this process, the trajectory drawn by the set of dots is traced until it disappears (ends). If there is a location where the direction of the trajectory changes rapidly during the tracking, the location is identified as a bending point or a cusp.
[0049]
The line element thus extracted can be identified as one of the line element patterns set in advance by its shape and size. In this embodiment, the character / figure pattern dictionary 36 stores in advance a type of a line element constituting each character and a figure and a significant positional relationship between the constituent line elements in a predetermined electronic dictionary method ( Settings have been registered). The character / graphic element recognizing unit 34 repeats the process of combining the line elements extracted as described above with adjacent ones and comparing the line elements with the character / graphic pattern dictionary 36, thereby obtaining individual characters, symbols, Recognize figures.
[0050]
For example, ruled lines forming a table such as a list are recognized as follows. That is, a line element extracted as a straight line in recognition of a line element as described above is orders of magnitude longer than other line elements, and the direction of the straight line is in relation to a horizontal line (X axis) or a vertical line (Y axis). If the angle falls within a certain angle, the straight line is regarded as a horizontal ruled line or a vertical ruled line, and the position information is corrected so as to be parallel to the horizontal line or the vertical line. If the distance between the end points of two extracted ruled lines or the distance between the end point of one ruled line and the other ruled line is within a certain value, the end points of both ruled lines are overlapped with each other, or It is considered that the end point of the ruled line overlaps the other ruled line, and the respective position information is corrected so that the two ruled lines overlap in such a manner.
[0051]
The character / graphic element recognizing unit 34 performs the above-described character / graphic recognition processing on each color (black, blue, red) image of the image-inputted document, so that each character, each graphic element, and each symbol Document element data is generated in a data format as shown in FIGS.
[0052]
FIG. 15 shows a data format example of document element data (character data) corresponding to one character. As shown in the figure, the code, typeface, color, line thickness, line modification (solid line, dotted line, chain line, etc.) of the character, handwriting / printing (discrimination as a handwritten character or a printed character), entry position and size Data (character size) is sequentially set in a predetermined data field, and end identification data indicating the end of the document element data is added to the end.
[0053]
FIG. 16 shows a data format example of document element data (character string data) corresponding to one character string. As shown in the figure, the “start character position” and “end line position” indicating the arrangement position of the character string, the “line pitch” and “character pitch” indicating the format of the character string are set, and the character string Are set in the order of arrangement.
[0054]
FIGS. 17, 18 and 19 show data format examples of document element data (graphic element data) corresponding to one graphic element or symbol, respectively. As shown in FIG. 17, the data of the start position and the end position is incorporated into the line segment. As shown in FIG. 18, the data of the center position (X and Y directions) and the diameter size (X and Y directions) are incorporated in the ellipse. As shown in FIG. 19, for a rectangle or “<”, data indicating the position of a bending point or a cusp (a point where the direction of a line segment changes sharply) is incorporated in addition to the start and end positions.
[0055]
When a table is composed of ruled lines, cells constituting the table are detected, and "cell data" is created for each detected cell. (FIG. 20) A cell refers to a rectangular area surrounded by ruled lines in the table and serving as a unit for writing data.
Cell detection can be performed, for example, as follows. The ruled line data of the ruled lines constituting the table are sequentially taken out, and ruled lines or ruled line positions separated by extensions thereof are obtained in both the vertical and horizontal directions of the document. Next, for each square of the matrix generated based on the ruled line position, a search is performed to determine whether each of the four sides is a ruled line portion. Adjacent squares are merged, and the same determination is repeated for the merged squares, thereby identifying the boundaries of the four sides of the cell.
At this stage, only the position information (for example, the position of the upper left corner point and the lower right corner point) is set in the created “cell data” at this stage.
[0056]
As described above, all the entry information in each document input as an image is decomposed into individual characters, symbols, and figures, and is converted into document element data by the character / graphic element recognition unit 34. These document element data are stored in the document element data storage unit 38 for each document. Note that the image information corresponding to the entry information that has been converted into the document element data after the character / graphic recognition processing may be deleted from the document image storage unit 32.
[0057]
The document image output unit 40 not only outputs a document image based on the image signal held in the document image storage unit 32, but also outputs the document image data from the document element data stored in the document element data storage unit 38 as characters / It is configured so that a document image can be output after being converted into an image signal via the graphic pattern dictionary 36.
[0058]
When the above-described document input and document element data generation processing are completed, a message to that effect is given to the user from the system, for example, through the display screen 20a.
Next, the user clicks the "mode" button which is always displayed at the lower right of the display 20a, selects the "definition" mode, and instructs the "definition interpretation" button on the screen. In response to this instruction, the following processing is performed in the system.
[0059]
FIG. 21 shows the configuration of the definition information recognition and format setting unit in the system of this embodiment. The definition element data generation unit 42 and the definition data generation unit 46 are configured by the CPU 24 that executes a definition element data and definition data generation process. The definition information identification data storage unit 48, the definition information distinction data storage unit 50, the application term dictionary 52, the definition data storage unit 54, and the sheet group definition data storage unit 56 are provided in a predetermined storage area of the internal memory 16 or the external memory 18. Expanded above.
[0060]
In the definition information recognition and format setting section, first, the definition element generation section 42 executes the definition element identification data (FIG. 6) and the definition stored in the definition element identification data storage section 48 and the definition information distinction data storage section 50, respectively. Referring to the information discrimination data (FIG. 8), each definition element entry information written in each document based on the document element data (FIGS. 15 to 20) stored in the document element data storage unit 38. Generate data (definition element data).
[0061]
FIG. 22 shows a data format example of the definition element data. A "definition code" and a "definition element code" for identifying the definition element entry information are set, and a pointer for referring to document element data corresponding to characters, graphics, and symbols constituting the definition element entry information Is set. For example, in the case of "[]" of "field specification", a pointer for specifying the address of the document element data corresponding to the constituent symbol "[", "]" is set.
[0062]
In order to generate the definition element data, a search is made for document element data having modification information assigned to the corresponding definition system, for example, color information of (blue). When the definition element is composed of a pair of two symbols, such as the definition element ““ ”of“ field specification ”, first, one constituent symbol is searched and detected, and the other symbol forming the pair is determined. .
If a plurality of this symbol pair is detected, the selection is made as follows. For example, in the case of the definition element "", a combination which does not include the constituent symbol "" or "" of the same definition element in the rectangle specified by the pair is selected.
[0063]
The "definition code" and "definition element code" are determined for each one definition element by the above method, and the addresses of the document element data (graphic element data) of the symbols constituting the definition element entry information are specified. The pointer can also be determined.
Each definition element data obtained from the definition element data generation unit 42 as described above is stored in the definition element data storage unit 44.
[0064]
Next, the definition data generation unit 46 refers to the definition information distinction data (FIG. 8) held in the definition information distinction data storage unit 50 and defines the definition element data ( Referring to the document element data (FIGS. 15 to 20) stored in the document element data storage unit 38, definition data is generated for each piece of definition information written in a document.
[0065]
FIG. 23 shows a procedure for creating the entire definition data in this example. First, “item definition data” (FIG. 24) and “total definition data” (FIG. 25) are created for all data fields in the summary table. (Steps Al and A2) In this creation, the data field composed of the composite cell and the sum field are created in the same way as the normal data field and the sum field (with the derived area ignored).
Next, regarding the item definition data and the total definition data of the composite field in which the “derived area” is defined, “composite field definition processing” for adding definition contents for enabling data input / output on the “derived area” Perform (Step A3)
[0066]
Creation of “item definition data” (FIG. 24) is performed according to the following procedure. First, the definition element symbol “[]” or ““ ”” of “field specification” that has already been extracted as the definition element data is identified one by one, and the cell or cell which is designated as the data field is identified. The column is identified as “field candidate” and “field candidate definition data” is created. The field candidate definition data is created in the format of the item definition data (FIG. 24), but the "item name character string data address" in it is left blank because the corresponding item name has not yet been determined. .
[0067]
The cell string of the field candidate is detected by detecting a cell including each of the defining element symbols of “field specification”, for example, the constituent symbols “[” and “]” of “[]”, as cells at both ends. This can be performed by sequentially detecting cells connecting the cells at both ends.
In the detected cell row, a "cell data chain" (not shown) in which the cell data is sequentially connected from the first cell by "pointer data" in the cell data is created, and the cell data of the first cell is created. The address is set to the “first cell data address” in the field candidate definition data.
[0068]
When the cell configuration forms a matrix like the data field of the item name “sales”, for example, first, the cells in the first row are connected in order from the left, and the rightmost cell is set in the next second row. , And the procedure of connecting the cells in the second row sequentially is repeated.
[0069]
Further, a character string specified as a data name by the definition element symbol of “field specification” is also identified as “data name candidate”, and “data name candidate definition data” is created. Similarly, a character string data address of the character string created in the format of the item definition data (see FIG. 24 described later) is set in the “head cell data address” portion.
[0070]
Next, for each “field candidate” or “data name candidate” detected above, a corresponding item name is obtained, and “field candidate definition data” or “data name candidate definition data” is replaced with “item definition data”. (FIG. 24).
[0071]
First, a "joining line""-" extracted from a cell string of a field candidate or a character string of a data name candidate is searched. If there is a “joining line” drawn from within the corresponding cell column and a character string with “item name specification” adjacent to the other end, this “item name specification character string” Judgment as "item name" of "data field candidate" or "data name candidate", and "item name character" in already created "field candidate definition data" or "data name candidate definition data" The character string data address of the corresponding character string is set in the column data address.
In the case of this example, the item definition data is created as described above for the item name “branch”, the item name “sales” added outside the table, and the item name “year”.
[0072]
If “field candidate” or “data name candidate” does not have “item name specification character string” connected by “joining line”, “field candidate” or “data name character string” Create the item definition data by regarding the character string at the “specific adjacent position” and designated as “item name” as the item name associated with the corresponding “field candidate” or “data name candidate” . Here, the “specific adjacent position” is a position adjacent to the left side of the data field when the data field is defined in the horizontal direction, and the data field is defined in the vertical direction. In this case, it means a position adjacent to the upper side of the field.
The item name detected in this manner is similarly set to the item string data address of “field name definition data” and “data name candidate definition data”, and the character string data address of the corresponding character string is set. Definition data ". In the case of this example, “item definition data” having the item name “product” as the “item name” is created by this method.
[0073]
Next, the following “classification” is determined for the item definition data created above. First, it is determined whether each item definition is defined as a common condition “outside the table” or defined on a field “inside the table”.
When the data field is composed of cells detected from one table, it is regarded as a field of “in the table”, and the corresponding code “0” is set in the “common section” column in the “item definition data”. . The corresponding code "1" is set in the "item definition data" defined for the "outside table" field and data name. In the case of this example, “1” is set in “item definition data” of the item name “year”, and “0” is set in “item definition data” of another item name.
[0074]
Next, for each item definition whose data field is determined to be "in the table", it is determined whether or not "total item" is used as the item name. For the item name character string, it is detected whether or not the (blue) color definition element symbol “の” of “designation of aggregation category” is additionally written in a predetermined position in the upper right adjacent part of the character string, and If this detection is obtained, the corresponding item name is determined to be “total item name”, and the corresponding code “1” is set in the “total category” column of the item definition data. For an item name other than “total item name”, the corresponding code “0” is set in the “total category” column. In the case of this example, the specification of the “total item name” is performed for the item definition of the item name “sales”.
[0075]
When all the “item definition data” have been created, a search is made for the definition element symbol “O” of “designation of registered word” in the document. Search in.
FIG. 26 shows an example of terms included in the applied English dictionary 52. FIG. 27 shows a data format of term data included in the applied term dictionary. The code of each sub-definition system is set in the data field of the processing system type of the header, and the corresponding character code string is set in the data field of "character code string" following this header. “Separation identification data” in FIG. 26 corresponds to a comma separating each term.
[0076]
In the case of this example, in the applied English dictionary 52, it is identified that the "total" character surrounded by the definition element symbol "o" is a "total field designation word", and the creation of "total definition data" is started.
First, among the field candidates that have already been extracted, those that are connected by the "total field designation word" and the "connection line" are searched. If there is nothing connected by the "total field designation word" and the "joining line", the field candidate in which the "total field designation word" is at the "specific adjacent position" is identified as in this example, and the "total field designation word" And create "Total field definition data". (The “specific adjacent position” of the field has been described above.) The format of “total field definition data” is shown in FIG.
[0077]
Next, the cells constituting the "total field" are sequentially taken out, and the "totaling target field" corresponding to each cell is detected. The “totaled field” refers to a set of cells in which data to be totaled is entered in “total cell” in which a total value is entered.
When the "sum field" is defined in the horizontal direction, the item definition data field of the "total category" is searched upward in the same column as the constituent cell. If the "sum field" is defined in the vertical direction, a search is made on the left side of the constituent cell on the same row.
[0078]
If an item definition data field that satisfies the above conditions can be detected for a cell in the “total field”, that cell is added to the corresponding item definition data field in the same column and row as its own. It can be regarded as a “total field cell” to be a “target field”.
In the total field, as described above, for the "total column cell" in which the "total field" is detected, the cell data is sequentially connected again with "pointer data" to create a "cell data chain". Then, the address of the head cell data is set to the “head cell data address” of the “total definition field data”. (FIG. 25) FIG. 28 shows the relationship between the “total field”, “total field” and “total cell” described above.
[0079]
In the case of this example, a “sum field” is defined at the bottom row and the rightmost column of the table, and each of its constituent cells is in the same column as its own cell in the data field of the item name “sales”. Or a “sum total column cell” in which a portion on the same column is a “total field”.
[0080]
When “item definition data” and “total field definition data” have been created for all data fields and total fields, “composite field definition processing” is performed for “composite fields” in which “composite cells” are defined. (FIG. 29) The "composite field definition process" is performed by adding contents for defining a composite cell to the corresponding "item definition data" already created.
[0081]
First, the item definition data that has already been created is taken out one by one, and it is determined whether or not the corresponding field is a “composite field”. (Step B1) This determination is made by identifying whether or not a “difference condition” that satisfies the following condition is defined in association with a predetermined method for the extracted data field of the item definition.
[0082]
In the present system, as the difference condition, first, a format of (a) “item name” or (b) a pair of “item name and data name” is taken as a format. In this specification, in particular, as the format of the difference condition, (a) “item name” is “item name type”, and (b) “item name and data name pair” is “data name”. Name type ".
[0083]
Next, the difference condition is as follows: (a) In the case of “item name type”, it must be different from the “item name” originally defined in the corresponding field (“sales” in this example). When the difference condition is (b) “data name type”, the corresponding “item name” is the “item name” (item name) of the item definition defined outside the table as a common condition for the entire table. In the case of the example, it is the same as “year”, and at the same time, the corresponding “data name” (“2000”) must be different from the common condition “data name” “2001”.
[0084]
In this system, one of the methods for making the above determination is when a character string written on a format document satisfies the above conditions and has a specific association with a certain data field. Is a "composite field", and the character string is determined to be a "difference condition designation character string" representing the difference condition.
[0085]
In the case of this example, the character string “<Year>” 2000 added outside the table in (blue) color is connected to the data field of the item name “sales” by a connecting line, and the item name portion “ Since “year” is also the item name of the common condition item definition of the entire table, and the data name portion “2000” therein is different from the data name “2001” of the item definition of the out-of-line common condition, this character is used. The column is “difference condition designation character string”, and the corresponding data field is determined to be a “composite field” in which a difference condition of “item name type” is defined.
[0086]
For a data field determined to be a “composite field”, a code “1” indicating that it is a “composite field” is set in the “composite category” column in the corresponding item definition data, and then (step B2). ), “Difference condition definition data” is created, and its address is set in “difference condition definition data pointer” in the corresponding item definition data. (Step B4)
If it is determined that it is a "normal field" which is not a "composite field", a code "0" indicating "normal field" is set in the "composite category" column of the corresponding item definition data (step B3). ), Exit from the “composite definition process”.
[0087]
FIG. 30 shows the format of “difference condition definition data”. In the case of this example, the item name part “year” and the data part “2000” are extracted from the character string added as the difference condition, and the corresponding text data is created. Set in “Item name part” and “Data part”.
[0088]
Next, for the data field determined as a “composite field” for which the “difference condition” has been defined, the “composite cell format”, which is the format format of the “composite cell”, is identified, and is identified as “derived area definition data”. (Step B5).
[0089]
First, by paying attention to an arbitrary cell in the corresponding “composite field”, the “composite cell format” is detected on a hypothetical basis. In general, in the form format, each constituent cell in one data field must be in the same format format (cell shape / dimensions, entry text entry format ...), and it must be a "composite cell". ”Must have the same“ composite cell format ”.
From the above, if the "composite cell format" can be detected from one cell, it is confirmed that the remaining cells in the same data field have the same "composite cell format" and the "composite cell format" Is determined.
However, as in this example, the "composite cell format" may be described in only some of the cells by way of example, so the "derived cell generation element" configuration detected in other cells This determination is not hindered unless a different kind of character / symbol is overlapped at the entry position of the symbol.
[0090]
As a “composite cell format”, in the present system, one set of symbols (“derived cell generation element”) forms one character string entry area, and the entry entry area is the lower half or right half of the cell. Take up the case that occupies. "Derived cell generation element" can be detected by the following procedure
[0091]
In the system, a combination of symbols that can be a “derived cell generation element” is registered as much as possible in advance. For each combination of individual symbols, determine the "type", define the symbol code that constitutes it, and register the entry order between them, define the "derived area generation element data", and collectively define it as a "derived area generation element dictionary" register. (Not shown) The format of the “derived area generation element dictionary” is the same as the format of the “definition information identification data” (FIG. 6).
[0092]
First, each cell of the corresponding data field is searched to detect a combination of symbols registered in the “derived area generation element dictionary”.
If a pair of registered symbols in the “derived area generation element dictionary” can be detected, a rectangle circumscribing the pair of symbols is determined. If it can be confirmed that the three sides in the downward direction are drawn within a certain threshold from the boundary of the corresponding cell, this pair of symbols defines the “derived area” in the lower part of the corresponding cell. Area generation element. "
Also, as shown in FIG. 31 (b), if it can be confirmed that the three sides in the up-down direction and the right direction are drawn within the boundary of the corresponding cell and within a certain threshold value, this pair of symbols is determined by It is regarded as a "derived area generation element" that defines the "derived area" in the part. Here, a rectangle circumscribing a pair of symbols can be obtained from the data of the "position", "height", and "width" as the character by referring to the character data of the symbol.
[0093]
If a "derived area generation element" is detected, an appropriate margin is added to this circumscribed rectangle to determine a "division position" that separates the main area and the derived area. And the width, the margins on both sides of the derived area can be obtained. (FIG. 32)
[0094]
As described above, if the “derived area generation element” can be detected in one cell, it is confirmed that no different symbols or characters overlapping with the cell are detected in the remaining cells of the corresponding data field. Definition data ". In the “derived area definition data”, the “derived area generating element type”, which is the type of the corresponding “derived area generating element”, and the “derived area” are set in the “direction distinction” (downward or rightward). Direction), a "division position" for separating the main area and the derived area, and a "left and right margin" of the derived area entry range are registered. (FIG. 33)
[0095]
In the present system, when a “derived area generating element” is not entered by the user, a predetermined default derived area generating element is automatically generated.
First, the vertical / horizontal dimension ratio of the constituent cell of the relevant composite data field is obtained, and the calculated ratio is compared with a predetermined reference value. As a direction (“direction distinction”) in which the derived area is set in the relevant cell, “ Decide either "lower" or "right".
The "division position" and "left and right margins" are determined in advance for each "direction distinction" by setting a reference value of the ratio of the "division position" to the cell dimension in the division direction and the ratio of the "left and right margin" to the cell lateral dimension in advance. Can be determined. The type of the “derived area generation element” is also determined in advance by default, and “derived area definition data” can be created from the above data.
The address of the “derived area definition data” created above is set in the “derived area definition data pointer” of the corresponding item definition data.
[0096]
Finally, the cell data of each cell constituting the data field in which the "composite cell" is defined is taken out one by one in the corresponding "cell data chain" and replaced with the corresponding "composite cell data". (Step B6) The format of the "composite cell data" is shown in FIG. For the position information and pointer information of the newly created "composite cell data", the relevant data in the original cell data is copied, and in the "cell data chain", the relevant Set the address where "composite cell data" is placed.
[0097]
When the “composite field definition processing” is completed for the data field in which the “composite cell” is defined, the “composite field definition processing” is performed for the “total column cell” of the “composite cell”.
The “composite cell” in the sum field can be determined as follows. The "total field definition data" is extracted one by one, and for each "total column cell" constituting the "total field definition data", the "totaling field" (the field in which the data to be totaled is entered) is identified, and the Field "or not. As described above, the “totaling target field” can be identified as a cell row set adjacent to the corresponding total column cell and in a direction perpendicular to the total field.
[0098]
As in the data field of the item name “sales” in this example, when each cell constituting the “summary field” is a composite cell, the “sum total cell” is the same composite cell (from the basic characteristics of the table) It must have the same “Difference condition definition data” and “Derived area definition data”). For a certain “Total column cell”, if the “Total field” is “Composite cell”, this “Total cell” The cell data of the "column cell" is switched to "composite cell cell data" (FIG. 34) in the same manner as the "totaled field".
In the case of this example, the cell data of each “total column cell” in the bottom row and the rightmost column of the table is switched to “composite cell cell data”. In the "cell data chain", the original cell data may be replaced with "composite cell data" as in the case of each composite cell constituting the data field of "item name" and "sales".
[0099]
As described above, when all the definition data has been generated for the document containing the definition information input to the system, the processing performed by the present system, particularly the recognition processing (character / graphic recognition, position / size, etc.) The results of the correction of the definition, etc., and the definition contents) are displayed and output, and the confirmation of the user side is obtained.
[0100]
In this display output, the document content of each document recognized by the system is sequentially displayed on the display screen 20a by, for example, a toggle method. In order to display this document image, the document image output unit 40 refers to the character / graphic pattern dictionary 36 for the document element data for each document stored in the document element data storage unit 38 and determines the pattern of each document element. After identifying, each pattern is converted into bitmap image data by a development program to generate a video signal.
[0101]
When the document contents of the book according to the recognition processing result of the system are displayed on the display screen 20a, the user can use the keyboard 12, the mouse 14, or the digitizer 15 to make corrections on each document from the screen. New entry information can be entered.
[0102]
With respect to the entry information input from the keyboard 12, the character / graphic element input unit 37 (FIG. 12) can generate the document element data without performing the character / graphic recognition processing. With respect to the entry information input from the mouse 14 or the digitizer 15, the entry information is input by the character / graphic element input unit 37, and the character / graphic element recognition unit 34 sequentially performs character / graphic recognition processing (for each input entry information). To generate document element data.
[0103]
When inputting the definition information using the screen input type input devices 12, 14, and 15, the modification information of each definition system is set and input in the "definition information discrimination" mode of the "environment setting" (FIG. 7).
If the entry information is entered on the screen under the desired definition sub-mode, the system adds the definition distinction specified in the sub-mode to the entered entry information, and displays it on the screen. It can also be displayed. In this case, the definition information is recognized from the entry information provided with the definition distinction modification.
[0104]
When the entry information is input on the screen as described above, every time the entry information is input, the character / graphic element input unit 37 (FIG. 12) based on the input data causes the document element corresponding to each entry information to be input. You will generate or modify data.
The entry information (character strings, symbols, figures) input from the screen is expressed in the form of document element data (FIGS. 15 to 20) in the system, similarly to the case where the image is input from a sheet.
[0105]
Because the entry information entered as an image from a form and the entry information entered using a command from the screen are managed in the system as the same document element data, the original entry information (normal entry information) in the book table or its Irrespective of the definition entry information added above, any entry information can be entered by either image input or screen input.
[0106]
As described above, the user confirms the document contents or definition contents of each document in the output display stage for confirmation as described above after inputting the document in which the document contents are described in advance by the image scanner 10. However, it is possible to additionally write arbitrary entry information, particularly definition support information, using the keyboard 12, the mouse 14, or the digitizer 15, and it is also possible to perform change, cancellation, and the like.
[0107]
As described above, the method of defining the book table format having the derived area according to the present embodiment has been described, but various modifications are possible. For example, FIG. 35 shows an example in which definition contents are specified from the screen. As shown in FIG. 35, the document contents of the input book table document are displayed on the display screen 20a, and while the input document contents are being checked, a predetermined specification is made using the keyboard 12, the mouse 14, or the like, so that a desired definition is obtained. You can enter information.
[0108]
In FIG. 35, the "screen designation" button is designated under the "definition" mode, and when the "screen designation" sub-mode is entered, "1. field", "2. data" are placed at appropriate positions in the display screen 20a. A sub-screen 94 appears, listing various definition items such as "item" and "3. data name". Here, the "entry number" of the normal entry information is clicked and instructed, and "2. data item" is selected and instructed on the sub-screen 94, and the normal entry information "sales number" is changed to the "sales number" of the data item. At the same time, the part of the click display changes to the special display assigned to “2. Data item”.
Similarly, by clicking and instructing the area 92 below the "sales number" column and specifying "1. field" on the sub-screen 94 for this area 2, the area 92 is filled with "sales number" data. A field is defined, and at the same time, the clicked portion changes to a special display assigned to “1. Field”. Here, the specific display assigned to the data item, field,... Appears in advance in the “definition element / entry information comparison table” shown in FIG.
In FIG. 35, for the sake of convenience of explanation, a state where the “data item” location 90 and the “field” area 92 are simultaneously selected and instructed is shown. However, in practice, one location is provided for each click. Selection is instructed.
[0109]
In the system, in response to the user operation as described above, the click position on the screen is repeatedly compared with the "position" information of the document element data held in the document element data storage unit 38, and the corresponding document element data Identify. Then, necessary definition data is generated from the identified document element data and the instruction content on the sub-screen.
[0110]
In the case of a book table including a compound field, the user first specifies “data item” and “field” for each data field by the above-described method on the screen, and then specifies “difference condition”. Writes the "difference condition designation character string" on the document through the screen, and draws the connection line from the corresponding data field. This "difference condition designation character string" and the connection line are entered by a known input means on the screen.
Next, after specifying the item name part (“year” in this example) in the “difference condition specification character string”, select and specify “2. data item” from the sub-screen, and (In this example, "2000"), and then select and specify "3. Data name" from the sub-screen. The same designation is made for the connection line on the sub-screen.
[0111]
Here, when the "define interpretation" button on the screen is instructed, difference condition definition data and derived area definition data are generated in addition to the item definition data of each data field that has already been created according to the above-mentioned instruction contents. .
[0112]
Further, the following method is also possible as a method of defining from the screen. After designating a certain data field on the screen, when "1. field" is designated on the sub-screen 94, an "item name designation menu" shown in FIG. 36 is displayed. In the “item name designation menu”, in addition to the “item name entry column”, a column for entering the “item name” and “data name” of the derived area is provided as a “difference condition entry column”. .
If the specified data field is a normal data field, enter the relevant item name only in the “item name entry field” above. If the specified data field is a composite field, enter the In the corresponding fields, enter the item name and data name of the difference condition. In the case of this example, "year" may be entered in the entry column of the item name in the "different condition entry column", and "2000" may be entered in the entry column of the data name.
[0113]
After making the above entry and clicking the "End" button on the "Item name specification menu", the "Item name specification menu" disappears, and then the corresponding "Difference condition definition data" and "Derived area definition data" are displayed. Created. In addition, a “difference condition character string” is generated and displayed in an appropriate blank portion outside the table in order to leave the specified content on a document.
[0114]
In the generated “difference condition character string”, whether the item name character string and the data name character string are enclosed by definition element symbols “<>” and “[]” for specifying the item name and Alternatively, a special display corresponding to each definition item is given and connected to the corresponding data field by a connection line.
Add the code of the definition element constituent symbol (“<” and “>” in the case of item name) to both sides of each character code string of the item name and data name of “difference condition definition data”, and add the item name code By connecting the column and the data name code column and giving appropriate written position information and format information (character size, pitch, etc.), one character string data is created.
Subsequently, a circumscribed rectangle of the difference condition character string is obtained, a side facing the data field side in the character string direction is obtained, and a side of the data field facing in parallel with this side is obtained. It is sufficient to generate a line segment connecting the sides of.
[0115]
Next, an example will be described in which data is actually output and tabulated on the tabulated table that has been defined as described above.
In this example, as the data file of the data output source, for example, a file having the configuration shown in FIG. 37 is considered. As shown in FIG. 37, the records which are the units constituting the data file have the item names “branch name”, “product category”, “product code”, “number of sales”, “sales amount”, “unit price”, “ Divided into division fields of “profit”, and each stores the corresponding data.
[0116]
In the apparatus of the embodiment, the data output process is performed in the “data output mode”. When the "mode" button on the display screen 20a is clicked and "data output" is selected from the mode list menu, the system is switched to the "data output" mode, and the "output source" as shown in FIG. The file list screen is displayed. The user may select the desired output source “1. sales file” from the displayed plurality of data files, and click the “output execution” button.
[0117]
In the system of the present embodiment, the data output unit in charge of the “data output process” is configured by the CPU 24 that executes a predetermined conversion or processing program, and the internal memory 16 or the external memory 18 that stores the program and related data. .
[0118]
When the output source data file is specified, an “item name association screen” (not shown) is displayed on the screen. On the "item name association screen", the item name defined on the output destination summary table and the definition item name of the output source data file are displayed in two columns, and the user can display the output destination and the output on the screen. The item names corresponding to the original can be associated by an operation of connecting the two with a mouse, for example.
[0119]
When the above-mentioned item name association operation is completed, when an "end" button on the screen is instructed, an "item name association table", which is a pair of columns in which the corresponding item names of the output destination and the output source are arranged, is displayed in the system. (Not shown), and the “data output entire process” starts.
[0120]
FIG. 39 is a flowchart showing the procedure of the “data output entire process”. First, the data of the output source file is output and totaled in cells other than the total column on the totaling table as the output destination. ("Data output processing"-Step F1)
Next, on the tabulation table, the data in each cell that has been output and entered is tabulated in a total column. (Total processing in table-Step F2)
Finally, all data output and entered on the tabulation table are converted into corresponding character string data. (Character string data processing-Step F3)
[0121]
The "data output process" (step F1) is performed in such a manner that records are extracted one by one from the output destination totaling table and the output source data file, and are repeatedly matched and matched. In this specification, a set of cells in which data constituting one record is written on a table is particularly called a “record cell column”. On the table, the “record cell column” can be extracted as follows.
[0122]
In the system of the present embodiment, the matching of data is performed as described above. Therefore, as a prerequisite for use of the system of the present embodiment, the notation of data is unified on the output destination summary table and the output source data file. Shall be.
[0123]
First, from among the cells constituting each “item definition data field” on the table, a set of cells on the same row and having different item names is identified as a parent of the “record cell column”. Next, for each cell within the identified “record cell column” matrix, a search is performed on the right-angle column including the cell. If there is a cell on the searched column that belongs to the data field of the new item name that is different from each item name of the “record cell column” parent, this cell is added to the cell set of the “record cell column” parent. In addition, if there is a set “item definition” as a common condition outside the table, a “record cell column” can be obtained in addition to the contained cells.
[0124]
In the case of this example, a combination of cells having the item names “product name” and “sales” is detected as the “record cell column” from the second row and lower rows of the table, and the cell name of the item name “sales” is detected. A cell with the item name “branch” is added on the column at right angles to the cell. Also, from outside the table, a cell with the item name “year” is added to the “record cell column”.
[0125]
In the case where a derived area is set in one cell as in this example, a record is obtained for each of the main area and the derived area from one “record cell column” extracted as described above. The data is then matched with the record retrieved from the output source data file. In this specification, a record obtained for the main area is called a "main record", and a record obtained for the derived area is called a "sub-record".
[0126]
The “sub-record” is obtained by referring to the “difference condition definition data” and making a change corresponding to the “main record”. For example, in the case of this example, the difference condition is that the item name “year” is “2000”, so the “sub-record” changes the data of the item name “year” in the “main record” from “2000” to “2000”. 2001 ".
[0127]
In the case of the aggregation table of this example, as shown in FIG. 40, for example, first, from the third row on the table, the third column on the table and the common condition outside the table, first,
The data "null" for the item name "sales",
The item name “Product” data is “Radio”,
For the item name "Branch", the data is "Osaka",
Data for item name "Year" is "2001"
The main record is obtained,
The data "null" for the item name "sales",
The item name “Product” data is “Radio”,
For the item name "Branch", the data is "Osaka",
Data for item name "Year" is "2000"
Will be obtained.
This sub-record is obtained by replacing the data of the item name “year” with “2001” in the main record and “2000”.
[0128]
Data output to a table in which such a “composite cell” is set is actually performed, for example, by extracting one “record cell column” from the table as described later and obtaining it from there. In the main record, all the records of the output source are output and aggregated, and then in the "sub-record" obtained from the same record, the data of all the records of the output source are output and aggregated. This is done in a repetitive manner for all records that can be retrieved from.
[0129]
Further, from the table, the “record cell column” can be extracted, for example, in the following order. Taking each row of the table from the upper side, if a row in which two or more “item definition data fields” are found is found, this row is used as a start row for taking out “record cell columns”, and The extracted "record cell column" is extracted.
[0130]
If the cell with the same item name is repeated on one line as in the data field of the item name "sales" in this example, the cells are taken out sequentially from the left cell, and for each cell taken out, "record cell" Column ”. That is, for the extracted cells, a search is performed on the column in the perpendicular direction, cells with other item names are added, and cells detected outside the table are also added to obtain a “record cell column”. repeat.
For the rows after the start row, the above procedure can be repeated to extract all the “record cell columns” on the table.
Note that the order of record retrieval from the output source data file may also be determined for convenience of processing, for example, in the order of file storage.
[0131]
Hereinafter, the “data output processing” processing will be described according to the procedure shown in FIG. When entering the "data output process", first, a record taken out from a data output destination and a data output source are set, and a total management table for performing mutual verification is created (step G1). FIG. 42 shows the format of the aggregation management table.
[0132]
In each column of the first line on the total management table, an item name is written. Enter the defined item name on the output summary table. The order of entry may be in any order. In the case of this example, the item names “sales”, “product name”, “branch”, and “year” are entered.
[0133]
In the second line, enter the “total category” of the item name. In the case of this example, a code “1” indicating “total item” is entered in a column corresponding to the item name “sales” (a column in the same column as the column in which the item name “sales” is entered). In the other column of the second row, a code “0” indicating “non-totaled item” is entered.
[0134]
In the third row, a cell data address of each cell constituting a “record cell column” extracted from the output destination summary table is set. If the output destination is a data file, the address in the record of the data file may be entered.
[0135]
In the fourth row, entry data in each cell of the output destination summary table is set. Numerical data is entered in the column of the item “summary category”, and text data representing the entered data is set in the column of the item “non-aggregate category”.
The corresponding character string data is extracted from the corresponding cell data, the text data is read as the code string, and, when the item is “total division”, the text data consisting of numbers is converted into numerical data. The distinction between numerical data and text data is set in the first predetermined bit in the same column.
[0136]
In the fifth row, when the output source is a table, a cell data address of each cell constituting the table is set. When the output source table is a data file as in this example, the address in the record of the data file may be entered. Refer to the "item name correspondence table" and set in the same column where the corresponding item name of the output destination is set.
[0137]
In the sixth row, entry data in each cell constituting the output source table or each data in a record extracted from the output source data file is set. As in the fourth row, the distinction between the numerical data and the text data is set in the first predetermined bit in the same column. As in the case of the fifth row, reference is made to the "item name correspondence table", and set in the same column where the corresponding item name of the output destination is set.
[0138]
The aggregation management table can be actually implemented, for example, as follows. List data (not shown) is provided for each entry column on the aggregation management table. Each list data stores data entered in each entry column and has row direction pointer data and column direction pointer data. , Data in each data entry column adjacent in the row direction or the column direction can be sequentially traced.
[0139]
In addition, a “main / sub flag” is provided in the tabulation management table. When a main record is set therein, the flag is set to “0”. When a sub record is set, “1” is set. The state of use may be determined.
[0140]
When the creation of the summary management table is completed, the take-out position of the "record cell column" is set to the start position from the output destination table (step G2), and the main record is taken out of the head "record cell column" to perform the summary management. Set in the relevant part of the table. (Step G3) That is, the cell data address of each cell constituting the corresponding “record cell column” is set in the column of the corresponding item on the third row, and the “entry data in the cell” is set in the third row. Set in the corresponding item column on four lines. (Step G4)
[0141]
If data has already been entered in the cell with the item “Aggregation category” on the output destination table, the corresponding character string is converted into numerical data by the above-described method, and then the corresponding column on the fourth line is entered. Set to. In the case of a cell in which no data is entered, as in the field of the item “sales” in this example, the start value “0” of the aggregation is set in the corresponding column of the fourth row.
[0142]
Next, all data in the output source data file is output and totaled for the main record taken out of the output destination totaling table and set on the totaling management table. (Step G5) Hereinafter, this procedure will be described with reference to FIG.
[0143]
Records are fetched one by one from the output source data file, one by one, and set on the fifth row in the total management table. (Step H2) Each data of the retrieved file record has a “numeric / text distinguishing flag” indicating whether it is “text data” or “numerical data” at the beginning, and is further on the fifth line. Is set in each column.
[0144]
The order of record retrieval from the output source data file may be determined for convenience of processing, for example, in the order of file storage. Refer to the item name corresponding data (created at the beginning of the entire output process) and set each component data of the record extracted from the output source data file in the entry column on the same column as the corresponding item name on the output destination summary table I do.
[0145]
Next, comparison and collation between the output destination data and the output source data having the same item name on the total management table are performed. (Step H3) The collation between the data is not performed when the data is not entered in the output destination and when the item is the “totaling category”. This comparison and collation is performed by comparing the data on the sixth row in the aggregation management table with the data on the fourth row on each corresponding column.
[0146]
In the above collation, if the output destination data and the output source data are the same for all the compared items, the following addition processing is performed. That is, the output source data of the item whose “category” is “total item” is added to the data of the output destination record. (Step H4)
In this example, if the data of the items "product", "branch", and "year" other than the item "sales" are the same, the data of the output source record of the item "sales" is added to the data of the output destination record Will do. This addition is performed by adding the data on the sixth row to the data on the fourth row in the corresponding column on the aggregation management table.
If at least one item of data that has been compared and collated between the output destination data and the output source data is not the same, this addition is not performed, and the process exits to the step of extracting the next record from the output source file. (Step H5)
[0147]
When all record data of the output source data file has been totaled for the “main record” extracted from one record extracted from the output destination table, the data is aggregated on this output destination record in the aggregation management table. Is transferred to the "cell data storage unit" of the corresponding cell in the output destination table. (Step G6)
[0148]
That is, the data on the fourth row of the aggregation management table is transcribed to the "cell data storage" of the cell data pointed to by the cell data address on the third row. If the corresponding cell is a “composite cell” as in this example, the data to be aggregated and posted is the data of the “main record”. It is transcribed to “In-cell data storage section” on the “information section” side. At this time, each data to be transcribed is stored in the "in-cell data storage" with the "numeric / text distinction flag" attached.
[0149]
As described above, when the summary posting to the “main record” obtained from one “record cell column” of the output destination table is completed, a “sub-record” is created from the same “record cell column”, and the Post up the output source data. The creation of the “sub-record” and its setting in the aggregation management table are performed as follows.
[0150]
As described above, the “sub-record” is pointed to from the corresponding “item definition data” when the “sub-record” is a “composite classification” by looking at the “item definition data” constituting the output destination table one by one. The "difference definition condition data" is taken out, and the "main record" taken out from the same "record cell column" is changed with reference to the "difference condition data".
[0151]
Since the corresponding “main record” has already been set on the aggregation management table, the “sub-record” can be obtained by replacing the set contents by “difference condition”. (Step G7) In this example, the “difference condition” is “2001” in the case where the data of “item name” and “year” is the main record, and “2000” is the “sub record” In the fourth row of the tabulation management table, the data with the item "year" may be replaced with "2000" from "2001" already set.
[0152]
As described above, all the data in the output source data file is totaled and transferred to the “sub record” extracted on the total management table, as in the case of the “main record”. (Step G8). As in the case of the “main record”, the records are fetched one by one from the output data file into the sixth row of the total management table, and the process of performing comparison and comparison with the data on the fourth row is repeated. Post it.
[0153]
When all the records of the output source file have been transferred and totaled in the “sub record” (on the fourth row of the total management table) of the output destination table, they are taken out in the same manner as in the case of the “main record”. To the cell data of (Step G9) That is, the data on the fourth row of the aggregation management table is stored in the “cell data storage section” on the “derived area entry information section” side of the cell data pointed to by the cell data address on the third row. Set to.
[0154]
When the above processing is completed for one “record cell column” extracted from the output destination table, the “next record cell column” is extracted from the output destination table, and the same processing is repeated. From the output destination table, for example, the “record cell row” can be sequentially extracted by the method performed in the above example.
[0155]
When the above totaling is completed for all “record cell columns” taken out from the output destination, next, “in-table total processing” for totaling these output data into a total column defined in the table is performed. (Step F2)
In the “total processing in table”, a predetermined total is performed for each “total column cell” in the data field to which the above “total definition” is applied. In the case of this example, the processing is performed on the “total column cell” set in the bottom row and the rightmost column of the table.
[0156]
In the “in-table total processing”, first, the cell data chain of the corresponding total field definition data is sequentially traced, each “total column cell” is extracted, and the “totaling target field” is identified. As described above, the “total field” is defined in a direction perpendicular to the corresponding total definition data field, and is detected as the item definition data field in the same column and the same row of the corresponding “total cell”.
[0157]
Next, with respect to all the constituent cells in the “total field”, the entry data therein is taken out, added, and the added result is entered in the “total cell”. Each cell in the “totaled field” sequentially follows the cell data chain created for the data field of the corresponding item definition data, and is on the same row or the same column as the corresponding “total column cell”. It can be retrieved by detecting things. The reading of the entry data in the cell may be performed from the in-cell data section storage of the corresponding cell data.
[0158]
As in this example, when each cell constituting the “total field” is a composite cell, as described above, the “total cell” also has the same “difference condition” and “derived area definition data”. Cell, and its cell data has already been switched to "composite cell data".
[0159]
First, the data stored in the "data storage unit in the cell" on the "main area entry information section" side in each compound cell data in the corresponding field to be counted is read and added, and the result is added to the "total column cell". Similarly, it is stored in the "cell data storage" on the "main area entry information section" side of the cell data.
Next, the data stored in the "cell data storage section" on the "derived area entry information section" side in each composite cell data in the corresponding aggregation target field is read and added, and the result is added to the "total column cell". "In the" cell data storage section "on the" derived area entry information section "side of the composite cell data.
[0160]
When the "in-table total processing" is completed, "character string data conversion processing" is performed (step F3), and this processing is not performed for non-totaled items originally entered in the output destination table.
From the cells in the table, for the cell of the summary item or the cell whose address data is not stored in the "cell character string data address storage" of the corresponding cell data, the "cell data" The data stored in the "storage section" is taken out, corresponding character string data is created, and the address is set in the "cell data character string data address section".
[0161]
If the data extracted from the "cell data storage unit" is numeric data, this numeric data is converted to text data by a known method. As a result, for example, in the file record, the data that simply represents the size of the numerical value “396” is converted to text data in which the characters “3”, “9”, and “6” are arranged.
[0162]
The corresponding character string data (position information is also defined) is created as follows from the text data. The entry destination (position information) of the corresponding character string data can be determined from the position information of the corresponding cell and the cell layout format. The cell layout format can be read from the field format information attached to the item definition data to which the cell belongs. The information includes a character size, a character pitch, an arrangement position (for example, designation of right justification, centering, and the like), a color of an input character, and the like. If the layout format is not specified by the user as in this example, it is determined by the device default.
[0163]
First, a rectangle circumscribing a character string is determined from the size and pitch of each character registered in the cell format information. Subsequently, the in-cell position of the circumscribed rectangle is obtained by referring to the arrangement position information in the cell of the character string (for example, designation of right justification, centering, etc.). Next, by referring to the document position of the corresponding cell (set in the corresponding cell data), the document position of the corresponding circumscribed rectangle can be obtained, and the document position of the corresponding character string can be obtained. . Corresponding character string data is created from the text data and position information thus obtained, and the address is set in the cell character string data address of the corresponding cell data (FIG. 20).
[0164]
In the case of a composite cell, conversion and creation of two data entered therein into character string data are performed as follows. Reads the "division position" information and "left and right margin values" extracted from the "derived area definition data" defined for the composite cell, and derives the main area from both the information and the position information of the entire composite cell. A “data character string entry range” is obtained for each of the areas. FIG. 32 shows the relationship between the “data character string entry range”, the “division position” information, and the “left and right margin values” of the main area and the derived area.
[0165]
For each of the main area and the derived area, the position information is obtained from both the corresponding "data character string entry range" and the data extracted from the corresponding cell data storage unit in the same manner as in the case of the normal cell described above, and the character is obtained. Column data can be obtained. The character string data created for each of the main area and the sub area is the same as the case of the normal cell, and the main area side “character string data address storage unit” and “derived cell side” in the corresponding composite cell data, respectively. The address is set in the “internal character string data address storage section”.
[0166]
At this time, it is checked whether or not the corresponding "derived cell generation element" for generating the derived area is entered in each derived cell, and if not, the corresponding symbol is newly added. Generate and fill out.
Take out the compound cells of the corresponding data field one by one, take out all the characters, symbols, etc. written on the derived area side of the "division position", and from that, select the "derived area generation element" of the corresponding "type". It is determined whether a combination is obtained. The "type" of the corresponding "derived area generation element" is known from the corresponding "derived area definition data", and the symbol codes constituting the "derived area generation element" and the order of entry are obtained from the "type" obtained now. Through the "derived area generation element dictionary".
[0167]
If the "derived area generating element" is not entered in the cell, a "derived area generating element" is generated and entered as follows. As described above, for the symbols that make up the "derived area generation element" to be filled in, know the code and mutual entry order, and "divide position" and "left and right margin" information registered in the derived area definition data , The arrangement position in the cell can be obtained. Next, referring to the written position information of the entire cell (registered in the cell data), the written position information of the constituent symbol of this "derived area generation element" is obtained, and the corresponding document element data (character string data ) Can be obtained.
[0168]
The character string data generated as described above is stored in the document element data storage unit 38 together with other document element data originally written in the book table.
[0169]
Therefore, the document image output unit 40 reads out all the document element data corresponding to the (black) normal entry information from the document element data storage unit 38, and stores the read document element data in the character / graphic pattern dictionary 36. The target document table output document as shown in FIG. 10 is displayed on the display screen 20a, for example, by inquiring to identify the pattern of each document element and converting each pattern into bitmap image data by a development program. can do. Further, it is also possible to print out by the printing device 22 or to perform facsimile transmission by the communication device 24.
[0170]
Next, handling of the tallying format shown in FIG. 44 in the present system will be described. In this format, a "derivative area" is provided in each of the data fields of the item name "sales", and data of the item name "profit" is entered therein. The "definition" for this format is performed by designating the item name "profit" as the "difference condition" for the data field of the item name "sales" provided with the "derived area".
In other words, for the same format, except for the "difference condition", perform the same "definition" as in the above example, enter the character string "profit" in an appropriate margin outside the table, and enter the relevant definition element. The item name can be specified by a symbol, and then connected to the corresponding data field by a “connection line”. Since the item name “profit” is a tabulated item, a definition element symbol “O” is added to the right shoulder thereof, as in the case of the item name “sales”. (FIG. 45)
[0171]
With the above specification, in the case of this format, the definition data other than “Difference condition definition data” will be the same as the above example, and “Difference condition definition data” will be the “Item name” in which only the item name is set Format "in which item name text" profit "is entered.
[0172]
Considering the case where data output is instructed from the same data file as in the above example for this format, the following procedure is performed. First, refer to the item name "difference condition definition data", and if the difference condition is "item name type" as in this example, the applicable item of the item definition data to which "difference condition definition data" is linked The row position in the management table where the name (“sales” in this example) is set is stored as a “difference condition replacement item position” at a specific address in the work area set for this output processing in the memory. deep.
[0173]
From the summary table, first, as in the above case, the "record cell column" is taken out, and from there, the "main record" is taken out as in the above case and set on the management table, The data of the data output source is transcribed and aggregated in the same manner as in the above case. The data tabulated in the table is transcribed to the "cell data storage section" on the "main area entry information section" side of the corresponding cell data, as in the above example.
[0174]
The “sub-record” of the same “record cell column” is based on the “main record” previously set on the aggregation management table, and is based on the entry data of the “difference condition replacement item position” on the first row thereof ( In the case of this example, it is set by replacing "sales" with the item name "profit" entered in "difference condition definition data".
From then on, the “sub-record” set on the management table is subjected to the matching transfer with the output source record in the same manner as described above. That is, on the column in which the item name “profit” is set, the data of the item name “profit” of the output source record is totaled. The data tabulated on the tabulation management table is transcribed to the “cell data storage section” on the “derived area entry information section” side of the corresponding cell data, as in the case of the above example.
[0175]
After the above posting and aggregation of the “sub-record” is performed, the next “record cell column” is taken out, and the “main area” item is again placed in the “difference condition replacement item position” in the first row on the management table. The name “sales” (defined in the item definition data in which the composite cell is defined) is set, and the same procedure is repeated thereafter.
The data stored in the "main area area entry information section" and the "derived area entry information section" of the cell data, "in-cell data storage section", is converted to character string data in the same manner as described above.
[0176]
The present invention uses a program or software for realizing the functions of the present invention described above. Such software can be installed in the system of the present invention via an arbitrary medium, for example, a storage medium or online. Therefore, an act of transferring a storage medium storing software for implementing the present invention as a business, an act of installing the software on a system online, and the like are one embodiment of the present invention.
[0177]
【The invention's effect】
As described above, a complex form format with a derived area can be completed by the same item definition operation and simple difference condition specification as a normal form format without a derived area. Batch input / output of data can be performed by a simple operation at the same level as the specification operation performed on the form format.
[0178]
In addition, since predetermined definition support information consisting of characters, symbols, and figures that are familiar in daily life can be additionally written, designation of a difference condition can be performed mainly by writing a character string that anyone can understand. Anyone can do it with simple tasks or operations, and the definition is highly visible so that everyone can understand it at a glance.
[0179]
In addition, the above definition requires minimal additional input of the above-mentioned symbols, and can be performed efficiently and with less errors.
[Brief description of the drawings]
FIG. 1 is a block diagram illustrating an example of a system configuration on hardware of an information processing apparatus according to an embodiment of the present invention.
FIG. 2 is a diagram showing a list of main modes in the system according to the embodiment.
FIG. 3 is a diagram showing a “main mode-view menu screen” in the system according to the embodiment.
FIG. 4 is a diagram showing an “environment setting mode screen” in the system according to the embodiment.
FIG. 5 is a diagram showing a “definition element / entry information comparison table” in the system according to the embodiment.
FIG. 6 is a diagram illustrating a data format example of “definition element identification data” in the system according to the embodiment.
FIG. 7 is a diagram illustrating a “definition information distinction instruction screen” in the system according to the embodiment.
FIG. 8 is a diagram illustrating a data format example of “definition information distinction data” in the system according to the embodiment.
FIG. 9 is a diagram illustrating an example of a book table format in the system according to the embodiment.
FIG. 10 is a diagram showing an example of data output to a book table format in the system according to the embodiment. Example of a book table with data
11 is a diagram showing an example in which definition support entry information is additionally entered in the book table format of FIG. 9 in the system of the embodiment.
FIG. 12 is a block diagram illustrating a configuration of a document input and document element data generation unit in the system according to the embodiment.
FIG. 13 is a diagram illustrating a data format example of “image management data” in the system according to the embodiment.
FIG. 14 is a diagram illustrating a configuration of an input image that is a target of “image management data” in the system according to the embodiment.
FIG. 15 is a diagram illustrating a data format example of “character data” in the system according to the embodiment.
FIG. 16 is a diagram illustrating an example of a data format of “character string data” in the system according to the embodiment.
FIG. 17 is a diagram illustrating a data format example of “graphic element data” corresponding to a line segment in the system according to the embodiment.
FIG. 18 is a diagram illustrating a data format example of “graphic element data” corresponding to an ellipse in the system according to the embodiment.
FIG. 19 is a diagram illustrating a data format example of “graphic element data” corresponding to a rectangle or the like in the system according to the embodiment.
FIG. 20 is a diagram illustrating a data format example of “cell data” in the system according to the embodiment.
FIG. 21 is a block diagram illustrating a configuration of a definition information recognition and format setting unit and a definition execution processing unit in the system according to the embodiment.
FIG. 22 is a diagram illustrating a data format example of “definition element data” in the system according to the embodiment.
FIG. 23 is a diagram illustrating an example of an overall procedure for creating definition data in the system according to the embodiment.
FIG. 24 is a diagram illustrating a data format example of “item definition data” in the system according to the embodiment.
FIG. 25 is a diagram showing a data format of “total definition data” in the system according to the embodiment.
FIG. 26 is a diagram illustrating an example of terms included in an applied term dictionary in the system according to the embodiment.
FIG. 27 is a diagram illustrating a data format example of “dictionary term data” in the system according to the embodiment.
FIG. 28 is a diagram illustrating a relationship between a total field, a total column cell, and a field to be counted in the system according to the embodiment.
FIG. 29 is a diagram showing a flowchart of a composite field definition process in the system of the embodiment.
FIG. 30 is a diagram illustrating a data format example of “difference condition definition data” in the system according to the embodiment.
FIG. 31 is a diagram showing a position direction in a cell of a derived area in the system according to the embodiment.
FIG. 32 is a diagram showing the entry range of a derived area in the system according to the embodiment.
FIG. 33 is a diagram illustrating a data format example of “derived area definition data” in the system according to the embodiment.
FIG. 34 is a diagram illustrating a data format example of “composite cell data” in the system of the embodiment.
FIG. 35 is a diagram showing a definition screen based on an instruction from the screen in the system according to the embodiment.
FIG. 36 is a diagram illustrating an example of an “item name designation menu” in the system according to the embodiment.
FIG. 37 is a diagram illustrating a configuration example of an output source file in the system according to the embodiment.
FIG. 38 is a diagram showing an example of a data output mode screen in the system according to the embodiment.
FIG. 39 is a diagram showing a flowchart of “whole data output processing” in the system of the embodiment.
FIG. 40 is a diagram showing an image of “record cell string” extraction in the system according to the embodiment.
FIG. 41 is a diagram illustrating a flowchart of “data output processing” in the system of the embodiment.
FIG. 42 is a diagram showing an image of a “total management table” in the system according to the embodiment.
FIG. 43 is a diagram showing a flowchart of “main record (sub record) data output processing” in the system of the embodiment.
FIG. 44 is a diagram illustrating an example of a second book table format in the system according to the embodiment.
45 is a diagram showing an example in which definition support entry information is additionally entered in the book table format of FIG. 44 in the system of the embodiment.
[Explanation of symbols]
10. Color image scanner
12 Keyboard
14 mouse
15 Digitizer
16 Internal memory
18 External memory
20 Display device
24 CPU
27 Communication equipment
30 Document image input unit
32 Document image storage
34 Character / graphic element recognition unit
36 character / graphic pattern dictionary
37 Character / graphic element input section
38 Document element data storage
40 Document image display output unit
42 Definition element data generator
44 Definition element data storage
46 Definition data generator
48 Definition Element Identification Data Storage Unit
50 Definition information distinction data storage unit
52 Application Term Dictionary
54 Book table definition data storage
90 Data item name
92 fields
94 Designated menu

Claims (3)

帳表フォーマットのデータ入出力方法であって、表中において、データまたはデータフィールドを項目名と対応付ける項目定義をおこなうステップと、1つのセル中に第2のデータ記入域である派生エリアの設けられたデータフィールドに対して、派生エリアが同じセル中の第1の記入域である主エリアに対して固有にもつ記入条件である差異条件を指定するステップを備え、指定された項目定義と差異条件にもとづいて各派生エリアについて、帳表のデータ入出力時において同時に参照されるべきデータ、または、データ記入域の集合であるレコードを定型的に識別するステップを含むことを特徴とする帳表フォーマットのデータ入出力方法。A data input / output method in a book table format, comprising the steps of: defining an item in a table to associate data or a data field with an item name; and providing a derived area as a second data entry area in one cell. Specifying a difference condition, which is an entry condition inherent to the main area whose derived area is the first entry area in the same cell, for the specified data field, wherein the designated item definition and the difference condition A book table format comprising a step of routinely identifying data to be referred to at the time of inputting / outputting the book table data or a record which is a set of data entry areas for each derived area based on the Data input / output method. 請求項1に記載の帳表フォーマットのデータ入出力方法であって、例示的に記入された派生エリアを区切る記号類を認識することによってセル内における派生エリアと主エリアのデータ記入域とを識別することを特徴とする帳表フォーマットのデータ入出力方法。2. The data input / output method of a book table format according to claim 1, wherein a data entry area of a main area and a data entry area in a cell is identified by recognizing a symbol that divides an exemplary entry area. A data input / output method in a book format. 帳表フォーマットのデータ入出力装置であって、表中において、データまたはデータフィールドを項目名と対応付ける項目定義をおこなう手段と、1つのセル中に第2のデータ記入域である派生エリアの設けられたデータフィールドに対して、派生エリアが同じセル中の第1の記入域である主エリアに対して固有にもつ記入条件である差異条件を指定する手段を備え、指定された項目定義と差異条件にもとづいて各派生エリアについて、帳表のデータ入出力時において同時に参照されるべきデータ、または、データ記入域の集合であるレコードを定型的に識別することを特徴とする帳表フォーマットのデータ入出力装置。A data input / output device in a book table format, comprising means for defining an item in a table for associating data or a data field with an item name, and a derived area which is a second data entry area in one cell. Means for designating a difference condition, which is an entry condition unique to the main area whose derived area is the first entry area in the same cell, for the specified data field, the designated item definition and the difference condition For each derived area, the data to be referred to at the same time when inputting / outputting the data in the book table, or the data input in the book table format characterized by the standard identification of the record which is a set of data entry areas. Output device.
JP2002292066A 2002-10-04 2002-10-04 Information processing method and device Pending JP2004127059A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002292066A JP2004127059A (en) 2002-10-04 2002-10-04 Information processing method and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002292066A JP2004127059A (en) 2002-10-04 2002-10-04 Information processing method and device

Publications (2)

Publication Number Publication Date
JP2004127059A true JP2004127059A (en) 2004-04-22
JP2004127059A5 JP2004127059A5 (en) 2005-02-03

Family

ID=32283439

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002292066A Pending JP2004127059A (en) 2002-10-04 2002-10-04 Information processing method and device

Country Status (1)

Country Link
JP (1) JP2004127059A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8065267B2 (en) 2005-01-12 2011-11-22 Masatsugu Noda Information processing device, file data merging method, file naming method, and file data output method
JP2016062476A (en) * 2014-09-19 2016-04-25 富士ゼロックス株式会社 Information processing apparatus, information processing program, and sheet preparation apparatus

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8065267B2 (en) 2005-01-12 2011-11-22 Masatsugu Noda Information processing device, file data merging method, file naming method, and file data output method
JP2016062476A (en) * 2014-09-19 2016-04-25 富士ゼロックス株式会社 Information processing apparatus, information processing program, and sheet preparation apparatus

Similar Documents

Publication Publication Date Title
US7996761B2 (en) Table format data processing method and table format data processing
JP4356847B2 (en) Field definition information generation method, line and field definition information generation device
US6289254B1 (en) Parts selection apparatus and parts selection system with CAD function
US6721451B1 (en) Apparatus and method for reading a document image
JP4998219B2 (en) Form recognition program, form recognition apparatus, and form recognition method
US6320983B1 (en) Method and apparatus for character recognition, and computer-readable recording medium with a program making a computer execute the method recorded therein
TW200416583A (en) Definition data generation method of account book voucher and processing device of account book voucher
JP5380040B2 (en) Document processing device
JP2006221569A (en) Document processing system, document processing method, program, and storage medium
JP2012190434A (en) Form defining device, form defining method, program and recording medium
JP4807618B2 (en) Image processing apparatus and image processing program
JP2004127059A (en) Information processing method and device
WO2019194029A1 (en) Image processing device, image processing method, and storage medium for storing program
JP4734551B2 (en) Table format data processing method and table format data processing apparatus
JP2000003403A (en) Method for supporting slip input
JP4462508B2 (en) Information processing apparatus and definition information generation method
JP4405604B2 (en) Information processing apparatus and definition method
JP2006119816A (en) Method and apparatus for processing table format data
JPH11316792A (en) Information processor and slip creating method
WO2016046988A1 (en) Document processing device and item extraction method
JPH10254984A (en) Slip preparing method
JP2000163271A (en) Method and apparatus for information processing
JP2001357342A (en) Information processing method and information processor
JP2024003769A (en) Character recognition system, method of recognizing character by computer, and character search system
JP2682873B2 (en) Recognition device for tabular documents

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040225

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051003

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060829

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061017

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20061212