JP2020144653A - 帳票処理装置、帳票処理方法、及びプログラム - Google Patents

帳票処理装置、帳票処理方法、及びプログラム Download PDF

Info

Publication number
JP2020144653A
JP2020144653A JP2019041335A JP2019041335A JP2020144653A JP 2020144653 A JP2020144653 A JP 2020144653A JP 2019041335 A JP2019041335 A JP 2019041335A JP 2019041335 A JP2019041335 A JP 2019041335A JP 2020144653 A JP2020144653 A JP 2020144653A
Authority
JP
Japan
Prior art keywords
data
variable
form file
file
character data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019041335A
Other languages
English (en)
Other versions
JP6973433B2 (ja
Inventor
尚也 井上
Hisaya Inoue
尚也 井上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2019041335A priority Critical patent/JP6973433B2/ja
Publication of JP2020144653A publication Critical patent/JP2020144653A/ja
Application granted granted Critical
Publication of JP6973433B2 publication Critical patent/JP6973433B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】帳票ファイルを効率よく生成する帳票処理装置、帳票処理方法、及びプログラムを提供する。【解決手段】帳票処理装置100は、データ入力済みの入力帳票ファイルと出力帳票ファイルとで用いられているデータを、可変文字データと、固定文字データと、罫線データとに分類し、分類した固定文字データと罫線データとを用いて、入力帳票ファイルに対して用いるデータ未入力の出力帳票ファイルであるマスタ帳票ファイルを生成する、第一の生成部200を有する。【選択図】図1

Description

本発明は、帳票を処理する帳票処理装置、帳票生成方法、及びプログラムに関する。
例えば、発行された請求書に基づいて支払依頼書を作成する場合、帳票(電子文書)の作成、データ入力などの作業が発生する。そこで、従来においては、このような作業の負担を軽減するための方法が提案されている。
特許文献1には、汎用的なデータ形式で表現された帳票ファイルを解析し、異なるデータ形式へ効率よく変換する方法が開示されている。また、特許文献2には、異なる種類の帳票ファイルに含まれるデータを、共通のフォーマットを用いて出力する方法が開示されている。
更に、特許文献3には、複数の帳票を用いて文字列が可変する領域を特定する情報処理装置が開示されている。特許文献3に開示されている情報処理装置によれば、複数の帳票ファイルに共通する領域に異なる文字列が存在する場合、当該文字列を含む領域を可変領域とし、複数の帳票ファイルに共通する領域に同じ文字列が存在する場合、当該文字列を含む領域を固定領域としている。
特開2010−237952号公報 特開2015−130159号公報 特開2016−004394号公報
しかしながら、特許文献1、2に開示されている方法では、あらかじめ手動でマスタ帳票を作成しなければならない。そのため、作業の負担を軽減することはできない。
また、特許文献3に開示されている情報処理装置では、帳票ファイルの共通する領域において、文字列が誤検出された場合、又は文字列データが抽出できない場合、固定領域か可変領域かが判定できない。すなわち、特許文献3に開示されている情報処理装置が、同じ文字列であるにも係らず、異なる文字列であると判定した場合、実際には固定領域であるにも係らず可変領域と判定してしまう。
更に、特許文献3に開示されている情報処理装置では、固定領域の文字列が修正された帳票ファイルが混在した場合、固定領域に異なる文字列があると判定されるため、実際には固定領域であるにも係らず可変領域と判定してしまう。
なお、特許文献1から3に開示されている方法においては、帳票ファイルから罫線を抽出する方法、及びマスタ帳票ファイルを生成する方法について開示されていない。
本発明の目的の一例は、帳票ファイルを効率よく生成する帳票処理装置、帳票処理方法、及びプログラムを提供することにある。
上記目的を達成するため、本発明の一側面における帳票処理装置は、
データ入力済みの入力帳票ファイルと出力帳票ファイルとで用いられているデータを、可変文字データと、固定文字データと、罫線データとに分類し、分類した前記固定文字データと前記罫線データとを用いて、前記入力帳票ファイルに対して用いるデータ未入力の出力帳票ファイルであるマスタ帳票ファイルを生成する、第一の生成部
を有することを特徴とする。
また、上記目的を達成するため、本発明の一側面における帳票処理方法は、
(a)データ入力済みの入力帳票ファイルと出力帳票ファイルとで用いられているデータを、可変文字データと、固定文字データと、罫線データとに分類する、ステップと、
(b)分類した前記固定文字データと前記罫線データとを用いて、前記入力帳票ファイルに対して用いるデータ未入力の出力帳票ファイルであるマスタ帳票ファイルを生成する、ステップと、
を有することを特徴とする。
更に、上記目的を達成するため、本発明の一側面におけるプログラムは、
コンピュータに、
(a)データ入力済みの入力帳票ファイルと出力帳票ファイルとで用いられているデータを、可変文字データと、固定文字データと、罫線データとに分類する、ステップと、
(b)分類した前記固定文字データと前記罫線データとを用いて、前記入力帳票ファイルに対して用いるデータ未入力の出力帳票ファイルであるマスタ帳票ファイルを生成する、ステップと、
を実行させることを特徴とする。
以上のように本発明によれば、帳票を効率よく生成することができる。
図1は、帳票処理装置の一例を示す図である。 図2は、帳票処理装置を有するシステムの一例を示す図である。 図3は、第一の生成部の一例を示す図である。 図4は、入力帳票ファイル及び出力帳票ファイルの一例を示す図である。 図5は、文字データ、罫線データの抽出領域の一例を示す図である。 図6は、文字・罫線データのデータ構造の一例を示す図である。 図7は、比較設定、文字・罫線データ、比較結果の関係を示す図である。 図8は、可変データ抽出定義ファイルのデータ構造の一例を示す図である。 図9は、固定の文字・罫線データのデータ構造の一例を示す図である。 図10は、マスタ帳票ファイルの一例を示す図である。 図11は、第二の生成部の一例を示す図である。 図12は、可変文字データのデータ構造の一例を示す図である。 図13は、入力帳票ファイル、出力帳票ファイルから抽出した可変文字データと、データリンク定義とのデータ構造の一例を示す図である。 図14は、比較設定、データリンク定義、比較結果の関係を示す図である。 図15は、出力帳票ファイルの生成を説明するための図である。 図16は、帳票処理装置の動作の一例を示す図である。 図17は、第一の生成部の動作の一例を示す図である。 図18は、第二の生成部の動作の一例を示す図である。 図19は、帳票処理装置を実現するコンピュータの一例を示す図である。
(実施の形態)
以下、本発明の実施の形態について、図1から図19を参照しながら説明する。
[装置構成]
最初に、図1を用いて、本実施の形態における帳票処理装置100の構成について説明する。図1は、帳票処理装置の一例を示す図である。
図1に示す帳票処理装置100は、帳票を効率よく生成する装置である。また、図1に示すように、帳票処理装置100は、第一の生成部200を有する。
このうち、第一の生成部200は、データ入力済みの入力帳票ファイルと出力帳票ファイルとで用いられているデータを、可変文字データと、固定文字データと、罫線データとに分類する(分類部2(後述する210、220に対応))。そして、分類した固定文字データと罫線データとを用いて、入力帳票ファイルに対して用いるデータ未入力の出力帳票ファイルであるマスタ帳票ファイルを生成する(生成部3(後述する240に対応))。
ここで、データとは、入力帳票ファイルと出力帳票ファイルとが有する、帳票上の文字、罫線などを表すデータなどである。
可変文字データは、例えば、複数の同じフォーマットの帳票ファイル(入力帳票ファイル、出力帳票ファイル)において、同じ領域に入力された文字が変化したと判断された場合、この領域に入力された文字を表すデータ(例えば、領域、文字列、データ形式、記述形式などのデータ)である。
固定文字データは、例えば、複数の同じフォーマットの帳票ファイルにおいて、同じ領域に入力された文字が固定され変化しないと判断された場合、この領域に入力された文字を表すデータである。
罫線データは、例えば、帳票ファイルで用いる罫線を表すデータ(例えば、領域、太さ(幅)などのデータ)である。
このように、本実施の形態においては、固定文字データと罫線データとを用いて、マスタ帳票ファイルを生成するので、帳票ファイルを効率よく生成することができる。
[システム構成]
続いて、図2を用いて、本実施の形態における帳票処理装置100の構成をより具体的に説明する。図2は、帳票処理装置を有するシステムの一例を示す図である。
図2に示すように、本実施の形態における帳票処理装置100は、第一の生成部200に加えて、第二の生成部300、第三の生成部400を有する。
第一の生成部200は、処理済みの複数の帳票ファイル10を用いて、可変データ抽出定義ファイル40及びマスタ帳票ファイル50を生成する。なお、第一の生成部200の詳細については後述する。
第二の生成部300は、帳票ファイル10を用いて、データリンク定義ファイル60を生成する。また、第二の生成部300が有する可変データ抽出部310(抽出部)は、入力帳票ファイル20を用いて、可変データ抽出定義ファイル40を参照し、可変文字データ70を抽出する。なお、第二の生成部300の詳細については後述する。
第三の生成部400は、データリンク定義ファイル60を参照して、可変文字データ70をマスタ帳票ファイル50にオーバーレイし、出力帳票ファイル30を生成する。なお、第三の生成部400の詳細については後述する。
第一の生成部200について説明する。
図3を用いて、可変データ抽出定義ファイル40とマスタ帳票ファイル50との生成方法について説明する。図3は、第一の生成部の一例を示す図である。図3に示すように、第一の生成部200は、文字・罫線データ抽出部210、可変・固定データ分類部220、可変データ抽出定義生成部230、マスタ帳票生成部240を有する。
文字・罫線データ抽出部210は、帳票ファイル10ごとに、帳票ファイル10に含まれる文字を表す文字データと、罫線を表す罫線データとを抽出する。
(a1)具体的には、文字・罫線データ抽出部210は、まず、不図示の記憶部に記憶されている複数の帳票ファイル10を取得する。なお、記憶部は、帳票処理装置100の内部に設けてもよいし、外部に設けてもよい。
帳票ファイル10は、処理済みの複数の入力帳票ファイル、又は複数の出力帳票ファイル、又は三つ以上の入力帳票ファイルと出力帳票ファイルとを有している。
ここで、処理済みの帳票ファイルとは、入力帳票ファイル及び出力帳票ファイルに、過去において何らかの処理が行われた、データ入力済みの帳票ファイルである。帳票ファイル10とは、例えば、PDF(Portable Document Format)形式の帳票ファイルなどである。ただし、帳票ファイルはPDFに限定されるのもではない。
図4は、入力帳票ファイル及び出力帳票ファイルの一例を示す図である。図4に示す請求書は、入力帳票ファイルの一例を示している。また、図4に示す支払依頼書は、出力帳票ファイルの一例を示している。なお、支払依頼書とは、入力帳票ファイルに対応する請求書に対して作成された出力帳票ファイルである。
(a2)続いて、文字・罫線データ抽出部210は、画像処理を用いて、帳票ファイル10が有する文字データと罫線データとを抽出する。その後、文字・罫線データ抽出部210は、帳票ファイル10ごとに、抽出した文字データと罫線データとを文字・罫線データ80として、記憶部に記憶する。
なお、画像処理としては、例えば、OCR(Optical Character Reader)などの画像処理を用いることが考えられる。ただし、画像処理はOCRに限定されるのもではない。
図5は、文字データ、罫線データの抽出領域の一例を示す図である。図5には、図4に示した支払依頼書の一部が示されている。文字・罫線データ抽出部210は、画像処理を用いて、例えば、図5に示すように文字に対応する領域(破線矩形範囲:文字の抽出領域)と、罫線に対応する領域(実線矩形範囲:罫線の抽出領域)を抽出する。
図6は、文字・罫線データのデータ構造の一例を示す図である。文字・罫線データ80のうち、図6に示す帳票データ81(81a、81b、81c・・・)には、項目「抽出番号」、「始点座標」「終点座標」「文字列」「データ形式」「記述形式」それぞれに、それらの項目に関係する帳票ファイルに文字を表すために用いる文字データ(図6に示す表81の行のデータ)が関連付けられている。
帳票データ81の項目「抽出番号」には、抽出した文字の抽出領域のインデックス番号を表すパラメータが関連付けられる。項目「始点座標」「終点座標」には、抽出した文字の抽出領域の始点、終点となる座標を表すデータが関連付けられる。項目「文字列」には、抽出した文字の抽出領域に含まれる文字列を表すデータが関連付けられる。項目「データ形式」には、文字、数値、金額、日付などのデータの種類を表すデータが関連付けられる。項目「記述形式」には、文字列に含まれる文字のフォント、区切り文字、桁数などの文字の記述を表すデータが関連付けられる。
また、文字・罫線データ80のうち、図6に示す帳票データ82(82a、82b、82c・・・)には、項目「抽出番号」、「始点座標」「終点座標」「幅」それぞれに、それらの項目に関係する帳票に罫線を表すために用いるデータ(図6に示す表82の行のデータ)が関連付けられている。
帳票データ82の項目「抽出番号」には、抽出した罫線の抽出領域のインデックス番号を表すデータが関連付けられている。項目「始点座標」「終点座標」には、抽出した罫線の抽出領域の始点、終点となる座標を表すデータが関連付けられている。項目「幅」には、抽出した罫線の抽出領域の幅を表すデータが関連付けられている。
可変・固定データ分類部220は、あらかじめ設定された比較設定を参照して、文字・罫線データ80(帳票データ81、82)の抽出領域で扱うデータを、可変文字データ90と固定文字・罫線データ91とに分類する。
(b1)具体的には、可変・固定データ分類部220は、まず、文字・罫線データ抽出部210から、文字・罫線データ80(文字データ81、罫線データ82)を取得する。また、可変・固定データ分類部220は、文字データ81、罫線データ82それぞれを分類するために用いる比較条件が設定された比較設定も取得する。
比較設定は、例えば、図7に示す比較設定83、84のような情報で、あらかじめ記憶部に記憶しておく。比較設定83、84は、項目「始点座標」「終点座標」「閾値」「項目」に、それら項目に関連する、抽出領域を比較するために用いる条件を表すデータが関連付けられている。図7は、比較設定、文字・罫線データ、比較結果の関係を示す図である。
比較設定83の項目「始点座標」「終点座標」には、文字の抽出領域の始点、終点となる座標を表すデータが関連付けられている。項目「閾値」には、データの種類(可変・固定データ)ごとにあらかじめ設定した閾値Th1を表すデータが関連付けられている。項目「項目」には、比較対象となる文字データの項目を表すデータが関連付けられている。
また、比較設定84の項目「始点座標」「終点座標」には、罫線の抽出領域の始点、終点となる座標を表すデータが関連付けられている。項目「閾値」には、データの種類ごとにあらかじめ設定した閾値を表すデータが関連付けられている。項目「項目」には、比較対象となる罫線データの項目を表すデータが関連付けられている。
(b2)続いて、可変・固定データ分類部220は、取得した比較設定の抽出領域を選択する。例えば、比較設定83の先頭行の抽出領域を選択する場合、「始点座標」(130,5)と「終点座標」(140,10)とを選択する。
(b3)続いて、可変・固定データ分類部220は、選択した比較設定の抽出領域を参照して、選択した比較設定の抽出領域に対応する抽出領域を文字・罫線データ80から検出する。例えば、選択した抽出領域が比較設定83の「始点座標」(130,5)と「終点
座標」(140,10)である場合、図6の帳票データ81a、81b、81c・・・それぞれから、選択した比較設定83の抽出領域に対応する抽出領域を検出する。
なお、抽出領域の検出では、文字列長、フォントサイズなどの影響により、抽出領域の大きさ、位置に差が生じる。そこで、抽出領域の検出をする場合には、抽出領域の大きさ、位置などが完全に一致したか否かを判定するのではなく、抽出領域が重複するか否かを判定する。例えば、抽出領域の一部又は全部が重複するか否かを判定する。
また、他の抽出領域の検出として、重複する抽出領域の割合を算出し、あらかじめ設定した閾値以上であるか否かを判定してもよい。更に、「始点座標」「終点座標」にあらかじめ設定した補正値を加算して補正後の領域範囲内の場合、同一であると判定してもよい。
(b4)続いて、可変・固定データ分類部220は、検出した文字・罫線データ80それぞれの抽出領域に含まれるデータを取得する。例えば、取得した抽出領域が比較設定83の「始点座標」(130,5)と「終点座標」(140,10)とである場合、選択した比較設定83の抽出領域(「始点座標」「終点座標」)に関連付けられた「項目」に含まれる「文字列」「データ形式」を参照して、図6の帳票データ81a、81b、81cそれぞれから、「文字列」に対応するデータ「発行日」と、「データ形式」に対応するデータ「文字列」とを取得する。
(b5)続いて、可変・固定データ分類部220は、選択した比較設定の抽出領域に、取得したデータを関連付ける。例えば、図7に示すように、選択した比較設定83の抽出領域(「始点座標」「終点座標」)に関連付けられた、帳票データ81a、81b、81cそれぞれに対応する帳票Aデータ、帳票Bデータ、帳票Cデータ・・・ごとの項目「文字列」「データ形式」それぞれに、取得したデータ「発行日」「文字列」を関連付ける。
(b6)続いて、可変・固定データ分類部220は、抽出領域ごとに、文字データ又は罫線データの一致率Cr1[%]を算出する。一致率Cr1は、例えば、数1を用いて算出する。
[数1]
Cr1=max(データが一致する帳票ファイル数)/帳票ファイル総数×100
なお、maxは、複数の帳票ファイルにおいて、一致するデータ(文字データ又は罫線データ)が複数あった場合、データの一致数が最も大きい帳票ファイルの数を求める関数である。例えば、図7の比較設定83における一行目の「項目」の場合、「文字列」「データ形式」の二項目を用いて比較する。帳票Aデータ、帳票Bデータ、帳票Cデータは、すべて「発行日」「文字列」になっているので、全て一致していると判定する。
次に、図7の表に帳票Dデータ、帳票Eデータ、帳票Fデータが存在した場合、もし、帳票Dデータと帳票Eデータとの一行目に対応する「文字列」が「発行日付」で、帳票Fデータの一行目に対応する「文字列」が「日付」などである場合、帳票Aデータ、帳票Bデータ、帳票Cデータと異なる「文字列」であるので、帳票Aデータ、帳票Bデータ、帳票Cデータを最多と判定し、データが一致する帳票ファイル数を3とする。つまり、最初に入力した帳票ファイルのデータを基準にデータが一致するか否かを判定するのではなく、多数決方式でデータが一致するか否かを判定する。
また、図7の比較設定83における二行目の「項目」の場合、「文字列」「データ形式
」「記述形式」の三項目を用いて比較する。その場合、帳票Aデータが「2018年8月20日」「日付」「半角数字,YYYY年MM月DD日」で、帳票Bデータが「2018/09/20」「日付」「半角数字,YYYY/MM/DD」で、帳票Cデータが「2018年10月20日」「日付」「全角数字,YYYY年MM月DD日」であるので、「日付」の「データ形式」とその「記述形式」の違いを検出して、帳票Aデータの「文字列」を「2018/8/20」とし、帳票Bデータを「2019/9/20」とし、帳票Cデータを「2018/10/20」とする。すなわち、同じ形式の文字列に変換して比較する。その上で文字列が異なるため、全て一致しないと判定する。
選択した抽出領域が比較設定83の「始点座標」(130,5)と「終点座標」(140,10)とである場合、図7では、帳票Aデータ、帳票Bデータ、帳票Cデータ・・・すべてにおいて、取得した「発行日」と「文字列」とが一致しているので、一致率Cr1は100[%]となる。対して、一致していない場合は、一致率Cr1は100[%]より小さくなる。
なお、上述した例においては、「文字列」「データ形式」のデータを比較したが、「記述形式」などを用いてもよい。そうすることで、比較精度がより向上する。また、罫線データの場合、誤差が発生する可能性があるので、「幅」のデータに許容範囲を設けてもよい。
このように、(b1)の処理をした後に、(b2)から(b6)の処理を繰り返して、比較設定83、84の抽出領域(「開始座標」「終点座標」のペア)の一部又は全てにおいて一致率Cr1を算出して、図7に示すように比較結果85、86の「一致率」に記憶する。
(b7)続いて、可変・固定データ分類部220は、算出した一致率Cr1を参照して、対応する抽出領域で扱うデータが可変文字データであるか固定文字データであるかを分類する。例えば、可変・固定データ分類部220は、比較結果85、86から一致率Cr1を取得して、対応する比較設定83、84の「閾値」に設定されている閾値Th1を参照して、抽出領域で扱うデータが可変文字データであるか固定文字データであるかを分類する。
すなわち、可変・固定データ分類部220は、一致率Cr1が閾値Th1より大きい場合、抽出領域で扱うデータを固定文字データに分類する。また、一致率Cr1が閾値Th1以下の場合、抽出領域で扱うデータを可変文字データに分類する。
図7の例では、比較設定83の「始点座標」(130,5)と「終点座標」(140,10)とで表される抽出領域に対応する、比較設定83の「閾値」が「90」で、比較結果85の「一致率」が「100」であるので、当該抽出領域は固定文字データを扱う領域に分類される。従って、図7に示すように、比較結果85の抽出領域に対応する「分類」には「固定」が記憶される。
対して、図7の例においては、「始点座標」(170,5)と「終点座標」(195,10)とで表される抽出領域に対応する、比較設定83の「閾値」は「100」で、比較結果85の「一致率」は「10」であるので、当該抽出領域は可変文字データを扱う領域に分類される。従って、図7に示すように、比較結果85の当該抽出領域に対応する「分類」には「可変」が記憶される。
なお、閾値Th1は、実験、シミュレーションなどにより決定する。なお、数値、金額、日付などのデータは、可変である可能性が高いため、閾値Th1を高く設定することが
望ましい。
また、閾値Th1を100と設定するとことにより、対象の抽出領域で扱うデータを「可変」と分類してもよい。
また、可変文字データと固定文字データとを分類するのは難しため、帳票総数に合わせて閾値を設定することが望ましい。帳票ファイルの総数が多い場合、閾値を高くすることにより、データの分類精度を向上させることができる。
また、閾値Th1の最小値は「51」とすることが望ましい。その理由は、一致率Cr1が50である場合、対象の抽出領域を、可変文字データを扱う領域に分類する必要があるためである。
このように、(b6)の処理をした後に、(b7)の処理を繰り返して、比較設定83、84の抽出領域(「開始座標」「終点座標」のペア)の一部又は全てにおいて閾値Th1と一致率Cr1とを比較して、比較結果85、86の「分類」に分類した結果(「可変」又は「固定」)を記憶する。
なお、図7において、「可変」に分類された文字データを可変文字データ90とし、「固定」に分類された文字データ及び罫線データを固定文字・罫線データ91とする。
可変データ抽出定義生成部230は、可変文字データ90を参照して、可変データ抽出定義ファイル40を生成する。例えば、可変データ抽出定義生成部230は、可変文字データ90の項目「始点座標」「終点座標」「データ形式」それぞれのデータに、項目「定義番号」のインデックス番号を表すデータを関連付けて、図8に示すような可変データ抽出定義ファイル40を生成する。図8は、可変データ抽出定義ファイルのデータ構造の一例を示す図である。
マスタ帳票生成部240は、固定文字・罫線データ91を参照して、マスタ帳票ファイル50を生成する。
例えば、マスタ帳票生成部240は、固定文字・罫線データ91(図9に示す固定の文字データ、固定の罫線データ)における、固定文字データの項目「始点座標」「終点座標」「文字列」「記述形式」に関連付けられたデータと、罫線データの項目「始点座標」「終点座標」「幅」に関連付けられたデータとを参照して、新規ファイル(無地の帳票ファイル)に固定文字と罫線とを出力するために用いる固定文字データと罫線データとを取得する。図9は、固定文字・罫線データのデータ構造の一例を示す図である。
そして、マスタ帳票生成部240は、取得した固定文字データと罫線データとを用いて、図10に示すようなマスタ帳票ファイル50を生成する。図10は、マスタ帳票ファイルの一例を示す図である。
第二の生成部300について説明する。
図2、図11を用いて、データリンク定義ファイル60(可変データ関連情報)と可変文字データ70との生成方法について説明する。図11は、第二の生成部の一例を示す図である。図11に示すように、第二の生成部300は、可変データ抽出部310、データリンク定義生成部320、データリンク定義分類部330を有する。
第二の生成部300は、分類した可変文字データのうち文字列を表すデータを用いて、入力帳票ファイル11と、入力帳票ファイル11に対して用いられる出力帳票ファイル1
2とにおいて共通で用いられる可変文字データを抽出する(可変データ抽出部310)。
そして、第二の生成部300は、入力帳票ファイル11から抽出した可変文字データと、出力帳票ファイル12から抽出した可変文字データとを関連付けて、データリンク定義ファイル60を生成する(データリンク定義生成部320、データリンク定義分類部330)。
可変データ抽出部310は、帳票ファイル10(図11に示す入力帳票ファイル11、出力帳票ファイル12)に対して、第一の生成部200で生成した可変データ抽出定義ファイル40(図11に示す入力帳票可変データ抽出定義ファイル41、出力帳票可変データ抽出定義ファイル42)を参照して、入力帳票文字データ71、出力帳票文字データ72を生成する。
また、可変データ抽出部310(抽出部)は、入力帳票ファイル20に対して、第一の生成部200で生成した可変データ抽出定義ファイル40を参照して、可変文字データ70を生成する。
データリンク定義ファイル60を生成する場合について具体的に説明する。
可変データ抽出部310は、入力帳票ファイル11(例えば、図4に示す請求書)に対して、入力帳票ファイル11に対応する、第一の生成部200で生成した入力帳票可変データ抽出定義ファイル41を参照して、入力帳票文字データ71を生成する。
また、可変データ抽出部310は、出力帳票ファイル12(例えば、図4に示す支払依頼書)に対しても、第一の生成部200で生成した出力帳票ファイル12に対応する出力帳票可変データ抽出定義ファイル42を参照して、出力帳票文字データ72を生成する。例えば、図4に示す支払依頼書の場合であれば、図12に示すように可変文字データを抽出する。図12は、可変文字データのデータ構造の一例を示す図である。
可変文字データ70を生成する場合について具体的に説明する。
可変データ抽出部310(抽出部)は、分類した可変文字データを用いて、新規の入力帳票ファイルから可変文字データを抽出する。例えば、可変データ抽出部310は、新規に作成された入力帳票ファイル20に対して、第一の生成部200で生成した入力帳票ファイル20に対応する可変データ抽出定義ファイル40を参照して、可変文字データを抽出して、可変文字データ70を生成する。
なお、可変文字データ70を生成する抽出部は、可変データ抽出部310と別に設けてもよい。
データリンク定義生成部320は、入力帳票文字データ71と出力帳票文字データ72とを用いて、データリンク定義61を生成する。例えば、データリンク定義生成部320は、図13に示すように、入力帳票文字データ71の項目「文字列」に関連付けられたデータと、出力帳票文字データ72の項目「文字列」に関連付けられたデータとを比較して、一致するデータを検出する。図13は、入力帳票ファイル、出力帳票ファイルから抽出した可変文字データと、データリンク定義とのデータ構造の一例を示す図である。
なお、検出の際に、更に項目「記述形式」に関連付けられたデータを比較対象としてもよい。なお、「記述形式」に関連付けられたデータの表す内容が一致又は同じと判定できる場合には一致とする。
その後、データリンク定義生成部320は、一致した可変文字データを検出した場合、
図13に示すように、一致した「文字列」「データ形式」のデータに関連する、入力帳票文字データ71の抽出領域(「始点座標」「終点座標」)と、出力帳票文字データ72の抽出領域(「始点座標」「終点座標」)とを取得する。
そして、データリンク定義生成部320は、図13のデータリンク定義に示すように、入力帳票文字データ71の抽出領域(「始点座標」「終点座標」のデータ)と、出力帳票文字データ72の抽出領域(「始点座標」「終点座標」のデータ)と、一致した「データ形式」「記述形式」それぞれのデータと、更にインデックス番号を示す「定義番号」とを関連付けて、データリンク定義61を生成する。
なお、データリンク定義61は、入力帳票ファイルと、入力帳票ファイルに対応する出力帳票ファイルとの組み合わせに応じた数だけ生成される。
データリンク定義分類部330は、生成したデータリンク定義61を固定と可変とに分類する。データリンク定義分類部330は、生成したデータリンク定義61の数が一つの場合、データリンク定義61を固定と分類し、データリンク定義ファイル60とする。
また、データリンク定義分類部330は、データリンク定義61の数が複数ある場合、あらかじめ設定された比較設定を参照して、生成したデータリンク定義61それぞれの定義を、固定と可変とに分類する。
(c1)具体的には、データリンク定義分類部330は、まず、データリンク定義生成部320から、データリンク定義61を取得する。また、データリンク定義分類部330は、データリンク定義61の定義それぞれを分類するために用いる比較条件が設定された比較設定も取得する。
定義の比較設定は、例えば、図14に示す比較設定62のような情報で、あらかじめ記憶部に記憶しておく。比較設定62は、項目「定義番号」「閾値」に、それら項目に関連する、定義を比較するために用いる条件を表すデータが関連付けられている。図14は、比較設定、データリンク定義、比較結果の関係を示す図である。
比較設定62の項目「定義番号」には、インデックス番号を表すデータが関連付けられている。項目「閾値」には、閾値Th2を表すデータが関連付けられている。なお、閾値Th2は、実験、シミュレーションなどにより決定する。
(c2)続いて、データリンク定義分類部330は、取得した比較設定の定義番号を選択する。例えば、比較設定62の先頭行の定義番号を選択する場合、「定義番号」に対応する「1」を選択する。
(c3)続いて、データリンク定義分類部330は、データリンク定義61それぞれの「定義番号」が一致する各定義に対して、数2を用いて定義の一致率Cr2を算出する。
[数2]
Cr2=定義が一致するデータリンク定義数/データリンク定義の総数×100
選択した比較設定62の「定義番号」が「1」である場合、図14では、データリンク定義A、データリンク定義B、データリンク定義C・・・すべてにおいて、定義番号「1」に対応する定義があるので、一致率Cr2は100[%]となる。対して、定義番号に対応する定義がデータリンク定義A、B、C・・・のいずれかにない場合、一致率Cr2
は100[%]より小さくなる。
このように、(c1)から(c3)の処理を繰り返して、比較設定62の定義番号の一部又は全てにおいて一致率Cr2を算出して、図14に示すように比較結果63の「一致率」に記憶する。
(c4)続いて、データリンク定義分類部330は、算出した一致率Cr2を参照して、定義を固定か可変かに分類する。例えば、データリンク定義分類部330は、比較結果63から一致率Cr2を取得して、対応する比較設定62の「閾値」に設定されている閾値Th2を参照して、定義を固定か可変かに分類する。
すなわち、データリンク定義分類部330は、一致率Cr2が閾値Th2より大きい場合、定義を固定に分類する。また、一致率Cr2が閾値Th2以下の場合、定義を可変に分類する。
図14の例では、比較設定62の定義番号「1」に対応する、比較設定62の「閾値」が「80」で、比較結果63の「一致率」が「100」であるので、当該定義番号に対応する定義は固定に分類される。従って、図14に示すように、比較結果63の抽出領域に対応する「分類」には「固定」が記憶される。
対して、図14の例においては、比較設定62の定義番号「3」に対応する、比較設定62の「閾値」が「80」で、比較結果63の「一致率」が「0」であるので、当該定義番号に対応する定義は固定に分類される。従って、図14に示すように、比較結果63の抽出領域に対応する「分類」には「可変」が記憶される。
なお、閾値Th2は、帳票ファイルの総数に合わせて閾値を設定することが望ましく、帳票総数が比較的に多い場合は閾値を高くすることにより定義の分類の精度を向上させることができる。
このように、(c3)の処理をした後に、(c4)の処理を繰り返して、比較設定62の定義番号の一部又は全てにおいて閾値Th2と一致率Cr2とを比較して、比較結果63の「分類」に分類した結果(「可変」又は「固定」)を記憶する。
そして、データリンク定義分類部330は、「固定」に分類された定義をデータリンク定義ファイル60として、記憶部に記憶する。
第三の生成部400は、データリンク定義ファイル60(可変データ関連情報)を参照して、可変文字データ70をマスタ帳票ファイル50にオーバーレイ出力し、出力帳票ファイル30を生成する。
例えば、第三の生成部400は、新規の入力帳票ファイルから抽出した可変文字データ(可変文字データ70)を用いて、データリンク定義ファイル60(可変データ関連情報)を参照し、マスタ帳票ファイル50から当該可変文字データを出力する出力領域を検出する。そして、第三の生成部400は、検出した出力領域に当該可変文字データを関連付けて、新規に出力帳票ファイル30を生成する。
図15の例では、入力帳票ファイル20から抽出した可変文字データ70の可変文字データ(抽出領域(「始点座標」(50,70)、「終点座標」(70,80))、文字列「216,000」)を用いて、データリンク定義ファイル60を参照して、マスタ帳票ファイル50の出力領域(「始点座標」(110,100)、「終点座標」(125,1
05))を検出する。そして、第三の生成部400は、検出した出力領域に文字列「216,000」)をオーバーレイする。図15は、出力帳票ファイルの生成を説明するための図である。
[変形例]
入力帳票ファイルから抽出した可変文字データが、出力帳票ファイルに存在しないことがある。例えば、文書番号に対応する文字データと別に管理されている番号、発行者の所属、TEL、名前に対応するデータが該当する。
そこで、文書番号に対応する文字データと別に管理されている番号については、あらかじめマスタデータとして記憶部に記憶しておいてもよい。具体的には、マスタデータを、データリンク定義ファイル60と、文字・罫線データ80とへ追加する機能を、帳票処理装置100に設ける。
また、所属、TEL(電話番号)、名前などのデータについては、データの変更の頻度が低いので、当該データが一致する複数の帳票ファイル10を準備して、第一の生成部200を用いて、固定データとしてマスタ帳票ファイル50に出力させる。
[装置動作]
次に、本発明の実施の形態における帳票処理装置の動作について図16、図17、図18を用いて説明する。図16は、帳票処理装置の動作の一例を示す図である。図17は、第一の生成部の動作の一例を示す図である。図18は、第二の生成部の動作の一例を示す図である。以下の説明においては、適宜図2から図15を参照する。また、本実施の形態では、帳票処理装置を動作させることによって、帳票処理法が実施される。よって、本実施の形態における帳票処理方法の説明は、以下の帳票処理装置の動作説明に代える。
図16を用いて帳票処理装置1の全体の動作について説明する。
最初に、帳票準備フィーズにおいて、帳票処理装置1の第一の生成部200は、可変データ抽出定義ファイルを生成する(ステップA1)。また、第一の生成部200は、マスタ帳票ファイルを生成する(ステップA2)。
具体的には、ステップA1、A2において、第一の生成部200は、処理済みの複数の帳票ファイル10を用いて、可変データ抽出定義ファイル40及びマスタ帳票ファイル50を生成する。なお、ステップA1とステップA2の順番は逆でもよい。なお、ステップA1、A2の詳細については図17を用いて後述する。
次に、帳票処理装置1の第二の生成部300は、データリンク定義ファイル(可変データ関連情報)を生成する(ステップA3)。具体的には、ステップA3において、第二の生成部300は、帳票ファイル10を用いて、データリンク定義ファイル60を生成する。なお、ステップA3の詳細については図18を用いて後述する。
次に、帳票生成フェーズにおいて、第二の生成部300は、可変文字データを抽出する(ステップA4)。具体的には、ステップA4において、第二の生成部300が有する可変データ抽出部310(抽出部)は、入力帳票ファイル20を用いて、可変データ抽出定義ファイル40を参照し、可変文字データ70を抽出する。なお、ステップA4の詳細については後述する。
次に、帳票生成フェーズにおいて、第三の生成部400は、出力帳票ファイルを生成する(ステップA5)。第三の生成部400は、具体的には、ステップA5において、データリンク定義ファイル60を参照して、可変文字データ70をマスタ帳票ファイル50に
オーバーレイし、出力帳票ファイル30を生成する。なお、ステップA5の詳細については後述する。
ステップA1、A2の処理について図17を用いて説明する。
ステップB1において、文字・罫線データ抽出部210は、帳票ファイル10ごとに、帳票ファイル10に含まれる文字を表す文字データと、罫線を表す罫線データとを抽出する。
(a1)具体的には、ステップB1において、文字・罫線データ抽出部210は、まず、不図示の記憶部に記憶されている複数の帳票ファイル10を取得する。
(a2)続いて、ステップB1において、文字・罫線データ抽出部210は、画像処理を用いて、帳票ファイル10が有する文字データと罫線データとを抽出する。その後、文字・罫線データ抽出部210は、帳票ファイル10ごとに、抽出した文字データと罫線データとを文字・罫線データ80として、記憶部に記憶する。
ステップB2において、可変・固定データ分類部220は、あらかじめ設定された比較設定を参照して、文字・罫線データ80(帳票データ81、82)の抽出領域で扱うデータを、可変文字データ90と固定文字・罫線データ91とに分類する。
(b1)具体的には、ステップB2−1において、可変・固定データ分類部220は、まず、文字・罫線データ抽出部210から、文字・罫線データ80(文字データ81、罫線データ82)を取得する。また、ステップB2−1において、可変・固定データ分類部220は、文字データ81、罫線データ82それぞれを分類するために用いる比較条件が設定された比較設定も取得する。
(b2)続いて、ステップB2−2において、可変・固定データ分類部220は、取得した比較設定の抽出領域を選択する。例えば、図7の比較設定83の先頭行の抽出領域を選択する場合、「始点座標」(130,5)と「終点座標」(140,10)とを選択する。
(b3)続いて、ステップB2−3において、可変・固定データ分類部220は、選択した比較設定の抽出領域を参照して、選択した比較設定の抽出領域に対応する抽出領域を、文字・罫線データ80から検出する。例えば、図7の選択した抽出領域が比較設定83の「始点座標」(130,5)と「終点座標」(140,10)である場合、図6の帳票データ81a、81b、81c・・・それぞれから、選択した比較設定83の抽出領域に対応する抽出領域を検出する。
(b4)続いて、ステップB2−4において、可変・固定データ分類部220は、検出した文字・罫線データ80それぞれの抽出領域に含まれるデータを取得する。例えば、取得した抽出領域が比較設定83の「始点座標」(130,5)と「終点座標」(140,10)とである場合、選択した比較設定83の抽出領域(「始点座標」「終点座標」)に関連付けられた「項目」に含まれる「文字列」「データ形式」を参照して、図6の帳票データ81a、81b、81cそれぞれから、「文字列」に対応するデータ「発行日」と、「データ形式」に対応するデータ「文字列」とを取得する。
(b5)続いて、ステップB2−5において、可変・固定データ分類部220は、選択した比較設定の抽出領域に、取得したデータを関連付ける。例えば、図7に示すように、選択した比較設定83の抽出領域(「始点座標」「終点座標」)に関連付けられた、帳票データ81a、81b、81cそれぞれに対応する帳票Aデータ、帳票Bデータ、帳票Cデ
ータ・・・ごとの項目「文字列」「データ形式」それぞれに、取得したデータ「発行日」「文字列」を関連付ける。
(b6)続いて、ステップB2−6において、可変・固定データ分類部220は、抽出領域ごとに、文字データ又は罫線データの一致率Cr1[%]を算出する。一致率Cr1は、例えば、数1を用いて算出する。
選択した抽出領域が比較設定83の「始点座標」(130,5)と「終点座標」(140,10)とである場合、図7では、帳票Aデータ、帳票Bデータ、帳票Cデータ・・・すべてにおいて、取得した「発行日」と「文字列」とが一致しているので、一致率Cr1は100[%]となる。対して、一致していない場合は、一致率Cr1は100[%]より小さくなる。
このように、ステップB2−1(b1)の処理をした後に、ステップB2−2(b2)からステップB2−6(b6)の処理を繰り返して、比較設定83、84の抽出領域(「開始座標」「終点座標」のペア)の一部又は全てにおいて一致率Cr1を算出して、図7に示すように比較結果85、86の「一致率」に記憶する。
(b7)続いて、ステップB2−7において、可変・固定データ分類部220は、算出した一致率Cr1を参照して、対応する抽出領域で扱うデータが可変文字データであるか固定文字データであるかを分類する。
すなわち、可変・固定データ分類部220は、一致率Cr1が閾値Th1より大きい場合(ステップB2−7:Yes)、ステップB2−8において、抽出領域で扱うデータを固定文字データに分類する。また、一致率Cr1が閾値Th1以下の場合、ステップB2−9において、抽出領域で扱うデータを可変文字データに分類する。
その後、可変・固定データ分類部220は、ステップB2−10において、分類が終了した場合(ステップB2−10:Yes)、ステップB3の処理を実行する。分類が終了していない場合(ステップB2−10:No)、可変・固定データ分類部220は、ステップB2−7の処理を実行する。
このように、ステップB2−6(b6)の処理をした後に、ステップB2−7からB2−10(b7)の処理を繰り返して、比較設定83、84の抽出領域(「開始座標」「終点座標」のペア)の一部又は全てにおいて閾値Th1と一致率Cr1とを比較して、比較結果85、86の「分類」に分類した結果(「可変」又は「固定」)を記憶する。
なお、図7において、「可変」に分類された文字データを可変文字データ90とし、「固定」に分類された文字データ及び罫線データを固定文字・罫線データ91とする。
続いて、ステップB3において、可変データ抽出定義生成部230は、可変文字データ90を参照して、可変データ抽出定義ファイル40を生成する。例えば、可変データ抽出定義生成部230は、可変文字データ90の項目「始点座標」「終点座標」「データ形式」それぞれのデータに、項目「定義番号」のインデックス番号を表すデータを関連付けて、図8に示すような可変データ抽出定義ファイル40を生成する。
続いて、ステップB4において、マスタ帳票生成部240は、固定文字・罫線データ91を参照して、マスタ帳票ファイル50を生成する。
例えば、マスタ帳票生成部240は、固定文字・罫線データ91(図9に示す固定の文
字データ、固定の罫線データ)における、固定文字データの項目「始点座標」「終点座標」「文字列」「記述形式」に関連付けられたデータと、罫線データの項目「始点座標」「終点座標」「幅」に関連付けられたデータとを参照して、新規ファイル(無地の帳票ファイル)に固定文字と罫線とを出力するために用いる固定文字データと罫線データとを取得する。
そして、マスタ帳票生成部240は、取得した固定文字データと罫線データとを用いて、図10に示すようなマスタ帳票ファイル50を生成する。
ステップA3の処理について図18を用いて説明する。
ステップC1において、可変データ抽出部310は、帳票ファイル10(図11に示す入力帳票ファイル11、出力帳票ファイル12)に対して、第一の生成部200で生成した可変データ抽出定義ファイル40(図11に示す入力帳票可変データ抽出定義ファイル41、出力帳票可変データ抽出定義ファイル42)を参照して、入力帳票文字データ71、出力帳票文字データ72を生成する。
ステップC2において、データリンク定義生成部320は、入力帳票文字データ71と出力帳票文字データ72とを用いて、データリンク定義61を生成する。例えば、データリンク定義生成部320は、図13に示すように、入力帳票文字データ71の項目「文字列」に関連付けられたデータと、出力帳票文字データ72の項目「文字列」に関連付けられたデータとを比較して、一致するデータを検出する。
ステップC3において、データリンク定義生成部320は、入力帳票ファイルと、入力帳票ファイルに対応する出力帳票ファイルとの組み合わせに応じた数のデータリンク定義を生成した場合(ステップC3:Yes)、ステップC4の処理を実行し、そうでない場合(ステップC3:No)、データリンク定義生成部320は、ステップC2の処理を実行する。
ステップC4において、データリンク定義分類部330は、生成したデータリンク定義61を固定と可変とに分類する。データリンク定義分類部330は、生成したデータリンク定義61の数が一つの場合、データリンク定義61を固定と分類し、データリンク定義ファイル60とする。
また、ステップC4において、データリンク定義分類部330は、データリンク定義61の数が複数ある場合、あらかじめ設定された比較設定を参照して、生成したデータリンク定義61それぞれの定義を、固定と可変とに分類する。
(c1)具体的には、ステップC4−1において、データリンク定義分類部330は、まず、データリンク定義生成部320から、データリンク定義61を取得する。また、データリンク定義分類部330は、データリンク定義61の定義それぞれを分類するために用いる比較条件が設定された比較設定も取得する。
(c2)続いて、ステップC4−2において、データリンク定義分類部330は、取得した比較設定の定義番号を選択する。例えば、比較設定62の先頭行の定義番号を選択する場合、「定義番号」に対応する「1」を選択する。
(c3)続いて、ステップC4−3において、データリンク定義分類部330は、データリンク定義61それぞれの「定義番号」が一致する各定義に対して、数2を用いて定義の一致率Cr2を算出する。
選択した比較設定62の「定義番号」が「1」である場合、図14では、データリンク定義A、データリンク定義B、データリンク定義C・・・すべてにおいて、定義番号「1」に対応する定義があるので、一致率Cr2は100[%]となる。対して、定義番号に対応する定義がデータリンク定義A、B、C・・・のいずれかにない場合、一致率Cr2は100[%]より小さくなる。
このように、ステップC4−1(c1)からステップC4−3(c3)の処理を繰り返して、比較設定62の定義番号の一部又は全てにおいて一致率Cr2を算出して、図14に示すように比較結果63の「一致率」に記憶する。
(c4)続いて、ステップC4−4において、データリンク定義分類部330は、算出した一致率Cr2を参照して、定義を固定か可変かに分類する。例えば、データリンク定義分類部330は、比較結果63から一致率Cr2を取得して、対応する比較設定62の「閾値」に設定されている閾値Th2を参照して、定義を固定か可変かに分類する。
すなわち、データリンク定義分類部330は、一致率Cr2が閾値Th2より大きい場合(ステップC4−4:Yes)、ステップC4−5において、定義を固定に分類する。また、一致率Cr2が閾値Th2以下の場合(ステップC4−4:No)、ステップC4−6において、定義を可変に分類する。
図14の例では、比較設定62の定義番号「1」に対応する、比較設定62の「閾値」が「80」で、比較結果63の「一致率」が「100」であるので、当該定義番号に対応する定義は固定に分類される。従って、図14に示すように、比較結果63の抽出領域に対応する「分類」には「固定」が記憶される。
対して、図14の例においては、比較設定62の定義番号「3」に対応する、比較設定62の「閾値」が「80」で、比較結果63の「一致率」が「0」であるので、当該定義番号に対応する定義は固定に分類される。従って、図14に示すように、比較結果63の抽出領域に対応する「分類」には「可変」が記憶される。
このように、ステップC4−7(c4)の処理をした後に、ステップC4−(c4)の処理を繰り返して、比較設定62の定義番号の一部又は全てにおいて閾値Th2と一致率Cr2とを比較して、比較結果63の「分類」に分類した結果(「可変」又は「固定」)を記憶する。
続いて、ステップC5において、データリンク定義分類部330は、「固定」に分類された定義をデータリンク定義ファイル60として、記憶部に記憶する。
ステップA4、A5について説明する。
ステップA4において、可変データ抽出部310(抽出部)は、入力帳票ファイル20に対して、第一の生成部200で生成した可変データ抽出定義ファイル40を参照して、可変文字データ70を生成する。
例えば、ステップA4において、可変データ抽出部310は、新規に作成された入力帳票ファイル20に対して、第一の生成部200で生成した入力帳票ファイル20に対応する可変データ抽出定義ファイル40を参照して、可変文字データを抽出して、可変文字データ70を生成する。
なお、可変文字データ70を生成する抽出部は、可変データ抽出部310と別に設けてもよい。
ステップA5において、第三の生成部400は、データリンク定義ファイル60(可変データ関連情報)を参照して、可変文字データ70をマスタ帳票ファイル50にオーバーレイ出力し、出力帳票ファイル30を生成する。
例えば、ステップA5において、第三の生成部400は、新規の入力帳票ファイルから抽出した可変文字データ(可変文字データ70)を用いて、データリンク定義ファイル60(可変データ関連情報)を参照し、マスタ帳票ファイル50から当該可変文字データを出力する出力領域を検出する。そして、第三の生成部400は、検出した出力領域に当該可変文字データを関連付けて、新規に出力帳票ファイル30を生成する。
図15の例では、入力帳票ファイル20から抽出した可変文字データ70の可変文字データ(抽出領域(「始点座標」(50,70)、「終点座標」(70,80))、文字列「216,000」)を用いて、データリンク定義ファイル60を参照して、マスタ帳票ファイル50の出力領域(「始点座標」(110,100)、「終点座標」(125,105))を検出する。そして、第三の生成部400は、検出した出力領域に文字列「216,000」)をオーバーレイする。
[変形例]
入力帳票ファイルから抽出した可変文字データが、出力帳票ファイルに存在しないことがある。例えば、文書番号に対応する文字データと別に管理されている番号、発行者の所属、TEL、名前に対応するデータが該当する。
そこで、文書番号に対応する文字データと別に管理されている番号については、あらかじめマスタデータとして記憶部に記憶しておいてもよい。具体的には、マスタデータを、データリンク定義ファイル60と、文字・罫線データ80とへ追加するステップを追加する。
また、所属、TEL(電話番号)、名前などのデータについては、データの変更の頻度が低いので、当該データが一致する複数の帳票ファイル10を準備して、第一の生成部200を用いて、固定データとしてマスタ帳票ファイル50に出力させる。
[本実施の形態の効果]
以上のように本実施の形態によれば、固定文字データと罫線データとを用いて、マスタ帳票ファイル(テンプレート)を生成するので、帳票ファイルを効率よく生成することができる。
また、過去の処理済の複数帳票ファイルから可変データ抽出定義及びデータリンク定義を自動生成するため、専用のアプリケーションによる帳票作成、更には設計の作業が不要となる。
[プログラム]
本発明の実施の形態におけるプログラムは、コンピュータに、図16に示すステップA1からA5、図16に示すステップB1からB4、図17に示すステップC1からC5を実行させるプログラムであればよい。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態における帳票処理装置と帳票処理方法とを実現することができる。この場合、コンピュータのプロセッサは、第一の生成部200(文字・罫線データ抽出部210、可変・固定データ分類部220、可変データ抽出定義生成部230、マスタ帳票生成部240)、第二の生成部300(可変データ抽出部310、データリンク定義生成部320、データリンク定義分類部330)、第三の生成部400として
機能し、処理を行なう。
また、本実施の形態におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されてもよい。この場合は、例えば、各コンピュータが、それぞれ、第一の生成部200(文字・罫線データ抽出部210、可変・固定データ分類部220、可変データ抽出定義生成部230、マスタ帳票生成部240)、第二の生成部300(可変データ抽出部310、データリンク定義生成部320、データリンク定義分類部330)、第三の生成部400のいずれかとして機能してもよい。
[物理構成]
ここで、実施の形態におけるプログラムを実行することによって、帳票処理装置を実現するコンピュータについて図19を用いて説明する。図19は、本発明の実施の形態における帳票処理装置を実現するコンピュータの一例を示すブロック図である。
図19に示すように、コンピュータ110は、CPU111と、メインメモリ112と、記憶装置113と、入力インターフェイス114と、表示コントローラ115と、データリーダ/ライタ116と、通信インターフェイス117とを備える。これらの各部は、バス121を介して、互いにデータ通信可能に接続される。なお、コンピュータ110は、CPU111に加えて、又はCPU111に代えて、GPU(Graphics Processing Unit)、又はFPGA(Field-Programmable Gate Array)を備えていてもよい。
CPU111は、記憶装置113に格納された、本実施の形態におけるプログラム(コード)をメインメモリ112に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ112は、典型的には、DRAM(Dynamic Random Access Memory)などの揮発性の記憶装置である。また、本実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体120に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェイス117を介して接続されたインターネット上で流通するものであってもよい。
また、記憶装置113の具体例としては、ハードディスクドライブの他、フラッシュメモリなどの半導体記憶装置があげられる。入力インターフェイス114は、CPU111と、キーボード及びマウスといった入力機器118との間のデータ伝送を仲介する。表示コントローラ115は、ディスプレイ装置119と接続され、ディスプレイ装置119での表示を制御する。
データリーダ/ライタ116は、CPU111と記録媒体120との間のデータ伝送を仲介し、記録媒体120からのプログラムの読み出し、及びコンピュータ110における処理結果の記録媒体120への書き込みを実行する。通信インターフェイス117は、CPU111と、他のコンピュータとの間のデータ伝送を仲介する。
また、記録媒体120の具体例としては、CF(Compact Flash(登録商標))及びSD(Secure Digital)などの汎用的な半導体記憶デバイス、フレキシブルディスク(Flexible Disk)などの磁気記録媒体、又はCD−ROM(Compact Disk Read Only Memory)などの光学記録媒体があげられる。
以上のように本発明によれば、帳票を効率よく生成することができる。本発明は、入力帳票ファイルに対応する出力帳票ファイルを生成する処理が必要な分野において有用である。
100 帳票処理装置
200 第一の生成部
210 文字・罫線データ抽出部
220 可変・固定データ分類部
230 可変データ抽出定義生成部
240 マスタ帳票生成部
300 第二の生成部
310 可変データ抽出部
320 データリンク定義生成部
330 データリンク定義分類部
400 第三の生成部
110 コンピュータ
111 CPU
112 メインメモリ
113 記憶装置
114 入力インターフェイス
115 表示コントローラ
116 データリーダ/ライタ
117 通信インターフェイス
118 入力機器
119 ディスプレイ装置
120 記録媒体
121 バス

Claims (12)

  1. データ入力済みの入力帳票ファイルと出力帳票ファイルとで用いられているデータを、可変文字データと、固定文字データと、罫線データとに分類し、分類した前記固定文字データと前記罫線データとを用いて、前記入力帳票ファイルに対して用いるデータ未入力の出力帳票ファイルであるマスタ帳票ファイルを生成する、第一の生成部
    を有することを特徴とする帳票処理装置。
  2. 請求項1に記載の帳票処理装置であって、
    分類した前記可変文字データのうち文字列を表すデータを用いて、前記入力帳票ファイルと、前記入力帳票ファイルに対して用いられる前記出力帳票ファイルとにおいて共通で用いられる可変文字データを抽出し、前記入力帳票ファイルから抽出した可変文字データと、前記出力帳票ファイルから抽出した可変文字データとを関連付けて、可変データ関連情報を生成する、第二の生成部
    を有することを特徴とする帳票処理装置。
  3. 請求項2に記載の帳票処理装置であって、
    分類した前記可変文字データを用いて、新規に作成された入力帳票ファイルから可変文字データを抽出する、抽出部
    を有することを特徴とする帳票処理装置。
  4. 請求項3に記載の帳票処理装置であって、
    新規の入力帳票ファイルから抽出した前記可変文字データを用いて、前記可変データ関連情報を参照し、前記マスタ帳票ファイルから当該可変文字データを出力する出力領域を検出し、当該出力領域に当該可変文字データを関連付けて、新規に出力帳票ファイルを生成する、第三の生成部
    を有することを特徴とする帳票処理装置。
  5. (a)データ入力済みの入力帳票ファイルと出力帳票ファイルとで用いられているデータを、可変文字データと、固定文字データと、罫線データとに分類する、ステップと、
    (b)分類した前記固定文字データと前記罫線データとを用いて、前記入力帳票ファイルに対して用いるデータ未入力の出力帳票ファイルであるマスタ帳票ファイルを生成する、ステップと、
    を有することを特徴とする帳票処理方法。
  6. 請求項5に記載の帳票処理方法であって、
    (c)分類した前記可変文字データのうち文字列を表すデータを用いて、前記入力帳票ファイルと、前記入力帳票ファイルに対して用いられる前記出力帳票ファイルとにおいて共通で用いられる可変文字データを抽出する、ステップと、
    (d)前記入力帳票ファイルから抽出した可変文字データと、前記出力帳票ファイルから抽出した可変文字データとを関連付けて、可変データ関連情報を生成する、ステップと、
    を有することを特徴とする帳票処理方法。
  7. 請求項6に記載の帳票処理方法であって、
    (e)分類した前記可変文字データを用いて、新規に作成された入力帳票ファイルから可変文字データを抽出する、ステップと、
    を有することを特徴とする帳票処理方法。
  8. 請求項7に記載の帳票処理方法であって、
    (f)新規の入力帳票ファイルから抽出した前記可変文字データを用いて、前記可変デー
    タ関連情報を参照し、前記マスタ帳票ファイルから当該可変文字データを出力する出力領域を検出し、当該出力領域に当該可変文字データを関連付けて、新規に出力帳票ファイルを生成する、ステップと
    を有することを特徴とする帳票処理方法。
  9. コンピュータに、
    (a)データ入力済みの入力帳票ファイルと出力帳票ファイルとで用いられているデータを、可変文字データと、固定文字データと、罫線データとに分類する、ステップと、
    (b)分類した前記固定文字データと前記罫線データとを用いて、前記入力帳票ファイルに対して用いるデータ未入力の出力帳票ファイルであるマスタ帳票ファイルを生成する、ステップと、
    を実行させることを特徴とするプログラム。
  10. 請求項9に記載のプログラムであって、
    (c)分類した前記可変文字データのうち文字列を表すデータを用いて、前記入力帳票ファイルと、前記入力帳票ファイルに対して用いられる前記出力帳票ファイルとにおいて共通で用いられる可変文字データを抽出する、ステップと、
    (d)前記入力帳票ファイルから抽出した可変文字データと、前記出力帳票ファイルから抽出した可変文字データとを関連付けて、可変データ関連情報を生成する、ステップと、
    を実行させることを特徴とするプログラム。
  11. 請求項10に記載のプログラムであって、
    (e)分類した前記可変文字データを用いて、新規に作成された入力帳票ファイルから可変文字データを抽出する、ステップと、
    を実行させることを特徴とするプログラム。
  12. 請求項11に記載のプログラムであって、
    (f)新規の入力帳票ファイルから抽出した前記可変文字データを用いて、前記可変データ関連情報を参照し、前記マスタ帳票ファイルから当該可変文字データを出力する出力領域を検出し、当該出力領域に当該可変文字データを関連付けて、新規に出力帳票ファイルを生成する、ステップと
    を実行させることを特徴とするプログラム。
JP2019041335A 2019-03-07 2019-03-07 帳票処理装置、帳票処理方法、及びプログラム Active JP6973433B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019041335A JP6973433B2 (ja) 2019-03-07 2019-03-07 帳票処理装置、帳票処理方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019041335A JP6973433B2 (ja) 2019-03-07 2019-03-07 帳票処理装置、帳票処理方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2020144653A true JP2020144653A (ja) 2020-09-10
JP6973433B2 JP6973433B2 (ja) 2021-11-24

Family

ID=72353656

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019041335A Active JP6973433B2 (ja) 2019-03-07 2019-03-07 帳票処理装置、帳票処理方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6973433B2 (ja)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08212269A (ja) * 1995-02-06 1996-08-20 Matsushita Electric Ind Co Ltd 帳票処理装置
JPH08287168A (ja) * 1995-01-31 1996-11-01 Toppan Moore Co Ltd 帳票作成方法及び帳票作成装置
JPH09231291A (ja) * 1996-02-27 1997-09-05 Mitsubishi Electric Corp 帳票読取方法及びその装置
JPH1011531A (ja) * 1996-06-21 1998-01-16 Mitsubishi Electric Corp 帳票読取装置
JPH1040312A (ja) * 1996-07-19 1998-02-13 Ricoh Co Ltd 帳票画像作成装置
JP2000036035A (ja) * 1998-07-17 2000-02-02 Ricoh Co Ltd 帳票画像作成方法および帳票画像作成方法をコンピュータに実行させるプログラムを記録した機械読み取り可能な記録媒体
JP2001101327A (ja) * 1999-09-30 2001-04-13 Canon Inc 情報処理方法及び装置及び印刷システム
JP2001243423A (ja) * 2000-02-28 2001-09-07 Toshiba Corp 帳票における文字記録領域の検出装置、帳票における文字記録領域の検出方法、記憶媒体及び帳票フォーマット作成装置
JP2005056010A (ja) * 2003-08-08 2005-03-03 Hitachi Ltd 帳票定義装置、帳票定義方法及び帳票定義プログラム
JP2005208708A (ja) * 2004-01-20 2005-08-04 Dainippon Printing Co Ltd 入出力伝票発行装置及び方法
JP2009031937A (ja) * 2007-07-25 2009-02-12 Fuji Xerox Co Ltd 帳票画像処理装置及び帳票画像処理プログラム
JP2016004394A (ja) * 2014-06-16 2016-01-12 キヤノンマーケティングジャパン株式会社 情報処理装置、その制御方法、及びプログラム

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08287168A (ja) * 1995-01-31 1996-11-01 Toppan Moore Co Ltd 帳票作成方法及び帳票作成装置
JPH08212269A (ja) * 1995-02-06 1996-08-20 Matsushita Electric Ind Co Ltd 帳票処理装置
JPH09231291A (ja) * 1996-02-27 1997-09-05 Mitsubishi Electric Corp 帳票読取方法及びその装置
JPH1011531A (ja) * 1996-06-21 1998-01-16 Mitsubishi Electric Corp 帳票読取装置
JPH1040312A (ja) * 1996-07-19 1998-02-13 Ricoh Co Ltd 帳票画像作成装置
JP2000036035A (ja) * 1998-07-17 2000-02-02 Ricoh Co Ltd 帳票画像作成方法および帳票画像作成方法をコンピュータに実行させるプログラムを記録した機械読み取り可能な記録媒体
JP2001101327A (ja) * 1999-09-30 2001-04-13 Canon Inc 情報処理方法及び装置及び印刷システム
JP2001243423A (ja) * 2000-02-28 2001-09-07 Toshiba Corp 帳票における文字記録領域の検出装置、帳票における文字記録領域の検出方法、記憶媒体及び帳票フォーマット作成装置
JP2005056010A (ja) * 2003-08-08 2005-03-03 Hitachi Ltd 帳票定義装置、帳票定義方法及び帳票定義プログラム
JP2005208708A (ja) * 2004-01-20 2005-08-04 Dainippon Printing Co Ltd 入出力伝票発行装置及び方法
JP2009031937A (ja) * 2007-07-25 2009-02-12 Fuji Xerox Co Ltd 帳票画像処理装置及び帳票画像処理プログラム
JP2016004394A (ja) * 2014-06-16 2016-01-12 キヤノンマーケティングジャパン株式会社 情報処理装置、その制御方法、及びプログラム

Also Published As

Publication number Publication date
JP6973433B2 (ja) 2021-11-24

Similar Documents

Publication Publication Date Title
US9697193B2 (en) Associating captured image data with a spreadsheet
JP5385349B2 (ja) レシート定義データ作成装置およびそのプログラム
US11321558B2 (en) Information processing apparatus and non-transitory computer readable medium
US11303769B2 (en) Image processing system that computerizes documents with notification of labeled items, control method thereof, and storage medium
US20130322773A1 (en) Methods of object search and recognition
US9218327B2 (en) Optimizing the layout of electronic documents by reducing presentation size of content within document sections so that when combined a plurality of document sections fit within a page
JP6973433B2 (ja) 帳票処理装置、帳票処理方法、及びプログラム
JP6619891B2 (ja) 画面試験装置および画面試験プログラム
JP2021056722A (ja) 情報処理装置及びプログラム
US20210019554A1 (en) Information processing device and information processing method
JP4518212B2 (ja) 画像処理装置及びプログラム
JP2021140831A (ja) 帳票画像処理システム、帳票画像処理方法、および帳票画像処理プログラム
JP2011141664A (ja) 文書比較装置、文書比較方法、及びプログラム
US20200342169A1 (en) Information processing apparatus and non-transitory computer readable medium storing program
JP5724286B2 (ja) 帳票作成装置、帳票作成方法、プログラム
JP2010097262A (ja) データベース生成装置、データベース生成方法及びコンピュータプログラム
CN111079403B (zh) 一种页面对比方法及装置
JP7430219B2 (ja) 文書情報構造化装置、文書情報構造化方法およびプログラム
JP7358838B2 (ja) 情報処理装置、及び情報処理プログラム
US20220165076A1 (en) Processing apparatus, processing method, and non-strategy medium
US20210064815A1 (en) Information processing apparatus and non-transitory computer readable medium
US20220179524A1 (en) Information processing apparatus and non-transitory computer readable medium
JP6541705B2 (ja) 知識共有支援装置および知識共有支援プログラム
WO2021117128A1 (ja) 帳票画像処理システム
JP6303742B2 (ja) 画像処理装置、画像処理方法、および画像処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190307

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200605

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200623

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200818

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210315

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211005

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211018

R150 Certificate of patent or registration of utility model

Ref document number: 6973433

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150