JP2014002662A - 帳票印刷システム - Google Patents

帳票印刷システム Download PDF

Info

Publication number
JP2014002662A
JP2014002662A JP2012139025A JP2012139025A JP2014002662A JP 2014002662 A JP2014002662 A JP 2014002662A JP 2012139025 A JP2012139025 A JP 2012139025A JP 2012139025 A JP2012139025 A JP 2012139025A JP 2014002662 A JP2014002662 A JP 2014002662A
Authority
JP
Japan
Prior art keywords
data
character string
processing unit
printing system
color
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012139025A
Other languages
English (en)
Inventor
Tomoko Suzuki
智子 鈴木
Takeo Narita
丈夫 成田
Kazumi Yoshida
一省 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Solutions Ltd
Original Assignee
Hitachi Solutions Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Solutions Ltd filed Critical Hitachi Solutions Ltd
Priority to JP2012139025A priority Critical patent/JP2014002662A/ja
Publication of JP2014002662A publication Critical patent/JP2014002662A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)

Abstract

【課題】本発明は、イメージデータと帳票データを合成して印刷するあらゆる帳票印刷システムにおいて、帳票データとイメージデータとを電子データとして分離する技術を提供する。
【解決手段】本発明の帳票印刷システムは、帳票の印刷データを書式データと帳票データとに分離する仮想的な印刷装置110と、仮想的な印刷装置110によって分離された書式データと帳票データとを格納する記憶装置132、133、134と、を備え、仮想的な印刷装置110は、印刷データ内の色情報および印刷データ内に出現する文字列の情報の少なくとも一方に基づいて、印刷データを書式データと帳票データとに分離する。
【選択図】図1

Description

本発明は、帳票印刷システムに関し、詳細には、帳票設計システムで作成した帳票設計情報を基に、帳票生成システムから帳票データとイメージデータが合成された印刷文書データを仮想的な印刷装置へ出力し、その印刷文書データを、再び帳票データとイメージデータとに分離して、記憶装置に保管する方式を提供するシステムである。
1998年に電子帳簿保存法が施行され、帳票の電子化が進んできた。また、最近ではレガシーマイグレーションにおける帳票のオープン化を目指す動きとともに、ホスト帳票の電子化を検討している企業が増えている。そして、それらの帳票を電子化する仕組みとして、帳票印刷装置の技術がある。
たとえば、本出願人により先に出願されている下記の特許文献1は、「帳票印刷装置」を開示している。特許文献1の帳票印刷装置では、帳票データの作成当初から、共通の固定的な帳票フォーマットデータ(帳票の罫線枠、帳票の名称、項目の見出しなど)を表す画像データ(イメージデータ)と、所定の文字コード体系に該当する帳票の本質的な内容を表すページ情報(コードデータ)とに分類し、これらのイメージデータとコードデータとを所定の記憶装置に保管している。そして、実際に帳票データの印刷が指示されたとき、該当するイメージデータとコードデータとを合成して目的とする印刷文書を生成し、電子化を実施する仕組みを提供している。
特開平2−209279号公報
一方、電子化が普及している近年においても、ドットインパクトプリンタへ印刷する発注伝票など、イメージデータが事前に印刷されたプレプリント用紙に印刷する業務は、電子化推進が難しい業務である。しかしながら、やはりこれらの業務も電子化のニーズは高く、電子化の検討をするユーザは少なくない。
ドットインパクトプリンタへ印刷する業務では、あらかじめイメージデータが印刷されたプレプリント用紙を利用している。したがって、前述した従来の技術で電子化を実施した場合、出力される帳票データにはイメージデータが付加されていないため、帳票データのみが電子化され、イメージデータがない状態となってしまう。そのため、単純なデータの羅列となり、何が記載されているか、理解が難しい状況となってしまう。
本発明はこのような状況に鑑みてなされたものであり、イメージデータと帳票データを合成して印刷するあらゆる帳票印刷システムにおいて、帳票データとイメージデータとを電子データとして分離する技術を提供する。
上記課題を解決するために、本発明の帳票印刷システムは、帳票の印刷データを書式データと帳票データとに分離する仮想的な印刷装置と、前記仮想的な印刷装置によって分離された前記書式データと前記帳票データとを格納する記憶装置と、を備え、前記仮想的な印刷装置は、前記印刷データ内の色情報および前記印刷データ内に出現する文字列の情報の少なくとも一方に基づいて、前記印刷データを前記書式データと前記帳票データとに分離する。
本発明によれば、発注伝票などのプレプリント用紙を利用した印刷業務の電子化を推進ができるだけでなく、イメージデータと帳票データを合成して印刷するあらゆる帳票印刷システムにおいて、効率的に電子化が行えるようになる。
本発明に関連する更なる特徴は、本明細書の記述、添付図面から明らかになるものである。また、上記した以外の、課題、構成および効果は、以下の実施形態の説明により明らかにされる。
本発明の一実施形態の示すシステム構成図である。 従来の帳票出力システムを示した構成図である。 本発明における特徴データベースの構成とデータ例を示す図である。 本発明における書式管理データベースの構成とデータ例を示す図である。 本発明における帳票管理データベースの構成とデータ例を示す図である。 本発明における帳票データ管理データベースの構成とデータ例を示す図である。 伝票の一般的な構成要素を示した図である。 図7で説明した伝票をヘッダ要素と行要素とで見た構成例である。 伝票内で意味のある文字を示した図である。 帳票データが無いプレプリント白紙のイメージの例を示した図である。 本発明における色判別処理部の処理の概要を示すフローチャートである。 本発明における行特徴識別処理部の処理の概要を示すフローチャートである。 本発明における汎用文字識別処理部の処理の概要を示すフローチャートである。
以下、添付図面を参照しながら、本発明の帳票印刷システムを実施するための形態を詳細に説明する。図1は、本発明の実施形態を例示する図である。
なお、以後の説明では「テーブル」構造を用いて本発明の情報について説明するが、これら情報は必ずしもテーブルによるデータ構造で表現されていなくても良く、リスト、DB、キュー等のデータ構造やそれ以外で表現されていても良い。そのため、データ構造に依存しないことを示すために「テーブル」、「リスト」、「DB」、「キュー」等について単に「情報」と呼ぶことがある。
<本発明のシステム構成>
図1は、本発明の実施形態に係る、帳票データとイメージデータとを分離する帳票印刷システムの構成図である。本発明に係るシステムは、帳票設計端末121と、スキャナ124と、帳票生成システム101と、仮想的な印刷装置110と、電子帳票システム130と、帳票参照クライアント135とを備える。これらの端末およびシステムは、ネットワークなどを介して接続されている。
帳票設計端末121と、帳票生成システム101と、仮想的な印刷装置110と、電子帳票システム130と、帳票参照クライアント135とは、パーソナルコンピュータやワークステーションなどの情報処理装置によって構成されている。これらの情報処理装置は、中央演算処理部(CPU:Central Processing Unit)などのプロセッサと、メモリやハードディスクなどの記憶装置と、キーボードなどの入力装置と、ディスプレイなどの出力装置とを備えている。なお、以下で説明する図1のデータベース114、132、133、134は、記憶装置に格納されている。また、図1では、帳票設計端末121と、帳票生成システム101と、仮想的な印刷装置110と、電子帳票システム130と、帳票参照クライアント135とが別々の装置やシステムとして描画されているが、これに限定されず、いくつかの装置やシステムを組み合わせて1つの情報処理装置で構成してもよい。
帳票設計端末121は、ネットワーク等を介してスキャナ124と接続されている。帳票設計端末121は、スキャナ124から帳票のスキャナイメージ123を取り込み、このスキャナイメージ123を下敷きとして、サンプルの帳票データ122を重ね合わせる。帳票設計端末121では、スキャナイメージ123を下敷きとして、入力装置などからの入力(すなわち、手動)によって、帳票のイメージデータを設定する。ここで、設定される帳票のイメージデータは、罫線やロゴなどのイメージデータ、およびヘッダやフッタに表示される固定的な文字列(日付や金額の単位など)を含む。また、帳票設計端末121では、帳票のどの位置に帳票データが入るかを示す位置情報なども設定される。帳票設計端末121は、設定されたイメージデータおよび位置情報を帳票生成システム101に送信する。なお、このイメージデータは、帳票生成システム101におけるイメージデータ103に対応する。
帳票生成システム101は、帳票データ102、帳票設計端末121で作成したイメージデータ103を重ねわせて表示し、仮想的な印刷装置110へ出力するシステムである。帳票生成システム101は、帳票設計端末121で設定された帳票データの位置情報に基づいて、実際のデータである帳票データをイメージデータ103に重ね合わせる。そして、帳票生成システム101は、例えば、実際に印刷装置でプリントアウトなどを行う場合を考慮して、帳票データ102とイメージデータ103とを合成して、1つの印刷データを作成する。帳票生成システム101は、この合成された印刷データを仮想的な印刷装置110へ出力する。
仮想的な印刷装置110は、合成された印刷データを、電子データとして、書式データと帳票データとに分離する装置である。ここで、書式データとは、帳票に含まれる罫線やロゴなどのイメージや、帳票の名称や各罫線内の見出し項目など、帳票ごとに変化しないデータ(情報)を表す。帳票データとは、罫線内に表示される数値情報や文字情報、帳票の作成日付など、帳票ごとに変化するデータ(情報)を表す。
仮想的な印刷装置110は、合成された印刷データを、書式データと、帳票データとに分離するために、色判別処理部111と、行特徴識別処理部112と、汎用文字識別処理部113とを備える。また、仮想的な印刷装置110は、特徴データベース114を更に備えている。特徴データベース114は、帳票名称や項目の見出しとして意味のある情報を登録、管理するデータベースである。
色判別処理部111は、印刷データ内の色情報に基づいて、印刷データを書式データと帳票データとに分離する。行特徴識別処理部112と汎用文字識別処理部113は、印刷データ内に出現する文字列の情報(文字列の出現パターンや、文字列が特徴データベース114に存在するか、文字列の出現頻度)に基づいて、印刷データを書式データと帳票データとに分離する。色判別処理部111と、行特徴識別処理部112と、汎用文字識別処理部113と、特徴データベース114との具体的な構成については後述する。
電子帳票システム130は、帳票表示処理部131と、帳票管理データベース132と、書式管理データベース133と、帳票データ管理データベース134とを備える。帳票管理データベース132は、帳票ごとに設定されている帳票IDや各帳票の格納場所や帳票データと書式データの関連付けなどを管理するデータベースである。また、書式管理データベース133は、帳票データと分離した書式データと書式IDとが格納されたデータベースである。また、帳票データ管理データベース134は、帳票データの格納位置の情報を格納したデータベースである。帳票表示処理部131は、帳票管理データベース132と、書式管理データベース133と、帳票データ管理データベース134との情報を用いて、帳票データと書式データとを合成し、合成したデータを帳票参照クライアント135に出力する。これにより、帳票参照クライアント135は、電子帳票システム130より入力されたデータを表示装置上に表示する。なお、帳票表示処理部131は、帳票参照クライアント135からの要求に応じて、帳票データと書式データのいずれか一方のみを表示するようにしてもよい。これにより、合成データだけでなく、帳票データと書式データを別々に扱えるようになり、データのハンドリングなどの利便性が向上する。
<従来のシステム構成>
図2は、従来の帳票出力システムの構成図である。
従来のシステムは、帳票設計端末121と、スキャナ210と、印刷システム204と、ドットインパクトプリンタ206と、仮想ドキュメントライタ208とを備える。仮想ドキュメントライタ208は、たとえば、PDFなどの電子ファイルを作成するものである。帳票設計端末121は、スキャナ210とネットワークを介して接続されている。また、印刷システム204と、ドットインパクトプリンタ206と、仮想ドキュメントライタ208とが、ネットワークを介して接続されている。
帳票設計端末121は、スキャナ210から帳票のスキャナイメージ123を取り込み、このスキャナイメージ123を下敷きとして、サンプルの帳票データ122を重ね合わせる。帳票設計端末121では、スキャナイメージ123を下敷きとして、入力装置などからの入力(すなわち、手動)によって、帳票データの印刷位置情報を設定する。また、帳票設計端末201で設定した印刷位置情報は、印刷システム204へ手動でコピーを行い、印字位置情報205として帳票データ202bを印刷する際に用いる。
印刷システム204は、印字位置情報205と帳票データ202bとをドットインパクトプリンタ206へ送信する。印刷システム204は、イメージデータが事前に印刷されてあるプレプリント用紙20xに、ドットインパクトプリンタ206より帳票データ202bのみを印刷する。これにより、イメージデータと帳票データ202bとが重なった印刷結果207となる。
また、印刷システム204は、印字位置情報205と帳票データ202bとを仮想ドキュメントライタ208へ送信する。仮想ドキュメントライタ208は、印刷結果を電子データとして出力するものである。ここで、印刷を行うプリント用紙20yは一般的に白紙でイメージデータがないため、仮想ドキュメントライタ208が帳票データ202bのみを出力すると、帳票データのみが印刷された印刷結果209となる。このように、従来のシステムでは、電子データとして印刷結果209を保存するため、例えば、帳票参照クライアントなどの端末で帳票を参照しても、帳票データのみの羅列となってしまい、意味のわからない情報となってしまう。
<特徴データベースの構成>
図3は、特徴データベース114の構成とデータ例を示す図である。特徴データベース114は、帳票名称や項目の見出しなどになる文字を判別するために使用するデータベースである。特徴データベース114は、特徴ID301と、位置情報302と、大きさ303と、色304と、文字305とを構成項目として含んでいる。特徴ID301は、書式データとなる文字列に付けられる固有のIDを保持し、位置情報302は、その文字列の位置の情報を保持する。位置情報302は、一例として、「ヘッダ部分 左端」という情報が入っているが、例えば、座標情報などでもよい。
大きさ303は、文字列の大きさの情報を保持し、色304は、文字列の色の情報を保持する。そして、文字305は、書式データとなる文字列のデータを保持する。ここでは、文字305には、「配布先」という文字列が保持されている。なお、詳細は後述するが、特徴データベース114への文字列情報の登録は、仮想的な印刷装置110が行い、帳票となる印刷データに一定回数以上出現した文字列が、特徴データベース114に登録される。
<書式管理データベースの構成>
図4は、書式管理データベース133の構成とデータ例を示す図である。書式管理データベース133は、書式ID401と、書式イメージ402とを構成項目として含んでいる。書式ID401は、各書式に付けられる固有のIDを保持し、書式イメージ402は、仮想的な印刷装置110で書式データと帳票データとに分離された後の書式データのイメージデータを保持する。なお、書式管理データベース133への登録は、電子帳票システム130によって行い、手動での入力は行わない。
<帳票管理データベースの構成>
図5は、帳票管理データベース132の構成とデータ例を示す図である。帳票管理データベース132は、帳票ID501と、帳票名称502と、帳票データID503と、書式ID504とを構成項目として含んでいる。帳票ID501は、各帳票に付けられる固有のIDを保持し、帳票名称502は、各帳票の名称を保持する。帳票データID503は、電子データである帳票データと関連付けを行うために付されているIDであって、各帳票データに対して固有のIDを保持する。書式ID504は、各帳票に対応する書式IDを保持する。なお、帳票データID503はユニークな情報として管理するが、帳票名称502や書式ID504の情報は重複して登録することができる。
この帳票管理データベース132を用いることによって、帳票表示処理部131は、帳票データID503と書式ID504とを参照して、帳票データと書式データを取得し、帳票データと書式データを合成したデータを作成することができる。なお、帳票管理データベース132は、電子帳票システム130の導入時、もしくは表示する帳票が増えた場合に手動でデータの登録をできるように構成してもよい。
<帳票データ管理データベースの構成>
図6は、帳票データ管理データベース134の構成とデータ例を示す図である。帳票データ管理データベース134は、帳票データID601と、帳票データ格納位置602とを構成項目として含んでいる。上述した図5の帳票データID503と同様に、帳票データID601は、電子データである帳票データと関連付けを行うために付されているIDであって、各帳票データに対して固有のIDを保持する。帳票データ格納位置602は、各帳票データへアクセスするためのデータパスを保持する。なお、帳票データ格納位置602で示されるデータパスの箇所には、仮想的な印刷装置110で書式データと帳票データとに分離された後の帳票データが格納されている。帳票データの格納は、電子帳票システム130によって行い、手動での格納は行わない。
<伝票の構成>
図7は、プレプリント用紙に代表される伝票の一般的な構成要素を示した図である。伝票700は、ヘッダ情報701と、行データ702と、フッタ情報703とによって構成されている。ヘッダ情報701には、帳票名称や取引先名、日付、会社ロゴなど、イメージデータで構成される固定的な情報と、それらの情報を示す帳票データとが表示される。
行データ702は、イメージデータである罫線枠702aと、罫線枠内の各列の意味を表す見出し項目702bと、帳票の本質的な内容を表す帳票データ702cとを含んでいる。フッタ情報703には、ヘッダ情報701と同様に、「数量合計」や「売上金額合計」などの固定的な情報と、それらの具体的な数値情報を示す帳票データとが表示される。また、一般的に、罫線枠や見出し項目などのイメージデータは、青や緑などの白黒以外のカラーで表示され、帳票データは黒で表示される。
図8は、図7で説明した伝票をヘッダ要素と行要素とで見た構成例である。伝票は大量に出力されるのが一般的である。そのため、ヘッダ情報701には、帳票名、たとえば、「取引先名」や「店名」などの全てのページに表示される同一の文字列(書式文字801a、801c)と、「▲▲商店」など、取引先が変わるごとに変化する帳票データ801b、801dとが表示される。
また、行データ702には、罫線枠802と、罫線枠802内の各行に表示される行帳票データ803a〜803nと、各列の項目の見出し804とが表示される。図8に示すように、この行データ702の特徴として、行帳票データ803a〜803nの各行は、文字列、文字列、数値、数値・・・と一行に文字列と数値の両方の要素で構成される。すなわち、行帳票データ803a〜803nの各行は、文字列以外の要素を含む。これに対して、見出し804は、文字列だけで構成されている。したがって、行帳票データ803a〜803nと見出し804とは性質が異なることがわかる。本発明では、以下で詳細に説明するが、見出しと行とで性質が異なる点を利用する。
図9は、伝票内で意味のある文字を示した図である。伝票のイメージデータの中には、たとえば、「平成 年 月 日」901や「個」902、「円」903など、帳票データがなくても意味のわかる文字列が存在する。また、これらの情報は、ユーザ固有の情報ではなく、汎用的な言葉であるため、事前に書式データとなる文字列であると認識することができる。本発明では、この伝票などで汎用的に利用される文字列を伝票の特徴として登録および抽出する。これらの汎用的な文字列は、あらかじめ特徴データベース114に登録される。
図10は、帳票データが無いプレプリント白紙のイメージの例を示した図である。プレプリント用紙は、事前にその帳票に必要なイメージデータを埋め込んで作成された用紙である。例えば、図2に示したように、ドットインパクトプリンタ206が、帳票データ202bのみを出力し、プレプリント用紙のイメージデータと帳票データ202bとが重なった印刷結果207となる。図10で示した例では、帳票名称1001a、取引先名や店名1001b、会社ロゴ1001c、発行日1001d、行データの各項目名や罫線枠1002、および、数量合計1003a、売上金額合計1003bなどがイメージデータとなる。
<色判別処理部の処理内容>
次に、上述の構成を有する本発明の仮想的な印刷装置110において行われる処理について説明する。図11は、帳票の中の色の違いに基づいて、印刷データを書式データと帳票データとに分離する構成のフローチャートであり、特に、色判別処理部111の処理内容を説明するフローチャートである。
ステップ1101において、帳票設計端末121が、スキャナイメージ123を利用して、イメージデータ103を作成し、帳票生成システム101が、イメージデータ103と帳票データ102とを合成した印刷データを仮想的な印刷装置110へ出力する。
ステップ1102において、色判別処理部111は、印刷データ(すなわち、帳票)の内部を解析し、イメージデータの色、例えば、罫線の色を判定する。上述したように、一般的に、罫線枠や見出し項目など書式データとなる情報は、白黒以外のカラーで表示され、帳票データとなる情報は黒で表示される。したがって、ステップ1102において、色判別処理部111は、白黒以外の色の部分を罫線などのイメージデータと判定し、その色情報を取得する。
次に、ステップ1103において、まず、色判別処理部111は、罫線の色と文字列の色とを判定する。色判別処理部111は、印刷データ内の文字列の色情報も取得する。そして、色判別処理部111は、イメージデータの色情報と、文字列の色情報とを比較して、これらの色が違う場合(すなわち、イメージデータの色情報と異なる色の文字列が存在する場合)、イメージデータの色情報と同じ色の文字列が出現するかを判定する。同じ色の文字列が出現する場合はステップ1104に進む。
なお、色判別処理部111は、イメージデータの色情報と全ての文字列の色情報とが同じ場合、ステップ1106に進む。ステップ1106に進んだ場合、罫線枠、帳票名称、見出し項目などから構成される書式データと、帳票データの文字列が全く同じ色で構成されているため、色による判別は不可として、処理を終了する。
ステップ1104において、色判別処理部111は、イメージデータの色情報と文字列の色情報とが違う場合、イメージデータの色情報と同じ色である文字列については書式データとして判別する。さらに、色判別処理部111は、イメージデータの色とは異なる色の文字列は、帳票データとして判別する。
次に、ステップ1105において、色判別処理部111は、ステップ1104で書式データと判別された文字列と罫線を書式データとして合成し、それ以外の文字列を帳票データとする。そして、色判別処理部111は、分離した書式データと帳票データとを電子帳票システム130へ送信する。電子帳票システム130は、分離された書式データの情報と帳票データの情報を関連づけて、帳票管理データベース132と書式管理データベース133と帳票データ管理データベース134とに格納する。なお、印刷データ内で罫線が複数あり、それぞれの罫線が別々の色で構成されている場合は、ステップ1102〜1104の処理を繰り返す。
なお、図11では省略しているが、ロゴなどのイメージデータも、白黒以外の色を含んでいるため、そのようなイメージデータも書式データとして判定する。
また、上述では、色判別処理部111は、白黒以外の色の部分を罫線などのイメージデータと判定し、その色情報を取得しているが、別の方法で罫線の色と文字列の色とを比較してもよい。例えば、罫線は通常直線で描画されるため、印刷データ内で直線部分の色情報を取得し、その直線部分の色情報と文字列の色情報とを比較するようにしてもよい。
このように、本発明の色判別処理部111によれば、印刷データ(帳票)内の色の特性を生かして、書式データと帳票データを判別することができる。
<行特徴識別処理部の処理内容>
図12は、帳票の中の文字列の出現パターンに基づいて、印刷データを書式データと帳票データとに分離する構成のフローチャートであり、特に、行特徴識別処理部112の処理内容を説明するフローチャートである。図7および図8で示したように、帳票の中の文字列には一定の出現パターンがある。行特徴識別処理部112は、ヘッダ情報701やフッタ情報703の文字の出現パターンの判定と、行データ702の文字の出現パターンの判定を2段階で実行する。
ステップ1201において、帳票設計端末121が、スキャナイメージ123を利用して、イメージデータ103を作成し、帳票生成システム101が、イメージデータ103と帳票データ102とを合成した印刷データを仮想的な印刷装置110へ出力する。
次に、ステップ1202において、行特徴識別処理部112は、帳票のヘッダ情報とフッタ情報の文字列情報を取得する。ここで、行特徴識別処理部112は、印刷データである帳票の上から順番にデータを走査していき、罫線が出現するまでの位置をヘッダ領域と判定し、罫線が終わってからページが終わるまでの領域をフッタ領域と判定する。ここで、罫線かどうかの判定は、図11のように色で判別してもよいし、上から順番に走査して直線のイメージが出てきた位置を罫線と判定してもよい。行特徴識別処理部112は、このように判定されたヘッダ領域とフッタ領域から文字列情報を取得する。そして、上述したように、伝票などの帳票は大量に出力されるのが一般的であり、帳票名称などの書式データは、全ての帳票において共通して出力される文字列であることを利用する。行特徴識別処理部112は、全ての帳票(すなわち、全てのページ)について、ヘッダ領域およびフッタ領域内の文字列を比較する。通常、印刷データでは、ページの終わりに改ページのコードが入っているため、この改ページコードを基準として、各ページの文字列の比較を行うことができる。なお、行特徴識別処理部112は、文字列の比較として、出現する文字列、文字の大きさ、文字列の位置の全てを比較するようにしてもよいし、これらの一部を比較するようにしてもよい。
次に、ステップ1203において、行特徴識別処理部112は、全てのページで同じ文字列が出現している場合、ステップ1204に進み、その文字列を帳票名称などの書式データとして判別する。なお、全てのページで出現していない文字列については、ステップ1205において、行特徴識別処理部112は、帳票の作成日付や取引先名など、帳票ごとに変化する帳票データと判定する。
次に、行データ702の比較を行う。ステップ1206において、行特徴識別処理部112は、行データ702を1行目から最終行まで行ごとに分割する。さらに、行特徴識別処理部112は、行データの各列ごとの情報を抽出する。ここで、各列は罫線によって区切られているので、行特徴識別処理部112は、罫線で囲まれた領域にある情報を各列の情報として取得する。そして、行特徴識別処理部112は、各列について、取得した情報が、文字列情報であるか或いは数値情報であるかを判定する。なお、このとき、グラフィック情報から構成される罫線枠は比較しなくてもイメージデータと判断できるため、比較の対象にはしない。
次に、ステップ1207において、行特徴識別処理部112は、全ての列が文字列情報である場合、ステップ1208に進み、その行を行データ702における項目名称などの書式データとして判別する。なお、全ての列が文字列情報ではない場合、商品名や合計金額など文字列や数値情報が混在したデータと考えられる。したがって、全ての列が文字列情報ではない場合、ステップ1209において、行特徴識別処理部112は、その行を帳票ごとに変化する帳票データと判定する。
次に、ステップ1210において、行特徴識別処理部112は、ステップ1204および1208で書式データと判別された文字列と罫線を書式データとして合成し、ステップ1205および1209で帳票データ判別された文字列を帳票データとして合成する。行特徴識別処理部112は、このように分離した書式データと帳票データとを電子帳票システム130へ送信する。電子帳票システム130は、分離された書式データの情報と帳票データの情報を関連づけて、帳票管理データベース132と書式管理データベース133と帳票データ管理データベース134とに格納する。
このように、本発明の行特徴識別処理部112によれば、出現する文字パターンを判別することによって、書式データと帳票データを判別することができる。特に、罫線と文字列が同じ色で印刷される印刷データの場合でも、書式データと帳票データを判別することができる。
なお、上述では、ヘッダおよびフッタ領域と、行データとを分けて処理しているが、この構成に限定されない。例えば、ヘッタおよびフッタ領域、行データというように領域を分けて処理をせずに、印刷データ内の全ての文字列について、全てのページにおいて同じ文字列かどうかを判定してもよい。これは、行データの項目名称の位置が全てのページにおいて同じ位置で設定されることが多いためである。ヘッダおよびフッタ領域と、行データとを分けて処理する場合については、特に帳票の印刷データが1枚しかない場合に、少なくとも行データについては書式データとなる文字列が判別できる点で利点がある。
<汎用文字識別処理部の処理内容>
図13は、帳票の中の意味のある文字列を判定し、印刷データを書式データと帳票データとに分離する構成のフローチャートであり、特に、汎用文字識別処理部113の処理内容を説明するフローチャートである。図9で示したように、帳票の中には、「平成 年 月 日」901や「個」902、「円」903など、帳票データがなくても意味のわかる文字列が存在する。汎用文字識別処理部113は、特徴データベース114を用いて、書式データとしての汎用文字であるかを判定する。
ステップ1301において、帳票設計端末121が、スキャナイメージ123を利用して、イメージデータ103を作成し、帳票生成システム101が、イメージデータ103と帳票データ102とを合成した印刷データを仮想的な印刷装置110へ出力する。
次に、ステップ1302において、汎用文字識別処理部113は、印刷データである帳票の中から、文字列の情報を取得する。そして、汎用文字識別処理部113は、各文字列が特徴データベース114に登録されている文字列かを判定する。ここで、特徴データベース114に登録されている文字列とは、図9で説明した通り、「平成 年 月 日」901や「個」902、「円」903など、帳票データがなくても意味のわかる汎用的な文字列とする。
次に、文字列が特徴データベース114に登録されている場合、ステップ1303において、汎用文字識別処理部113は、その文字列を書式データとして判別する。
一方、文字列が特徴データベース114に登録されていない場合、ステップ1305において、汎用文字識別処理部113は、その文字列が全てのページで出現する頻度を算出し、その頻度が所定の回数以上であるかを判定する。所定の回数以上出現している場合、ステップ1306において、汎用文字識別処理部113は、その文字列を書式データとして判別する。その後、ステップ1307において、汎用文字識別処理部113は、その文字列の情報を特徴データベース114に格納する。
なお、所定の回数は、少なくとも2以上に設定し、帳票のページ数に応じて適宜変更できるように構成してもよい。
なお、ステップ1305において、文字列の頻度が所定の回数以上でない場合、汎用文字識別処理部113は、判定不可(ステップ1308)として処理を終了する。
最後に、ステップ1304において、汎用文字識別処理部113は、ステップ1303および1306で書式データと判別された文字列と罫線を書式データとして合成し、それ以外の文字列を帳票データとする。そして、汎用文字識別処理部113は、分離した書式データと帳票データとを電子帳票システム130へ送信する。電子帳票システム130は、分離された書式データの情報と帳票データの情報を関連づけて、帳票管理データベース132と書式管理データベース133と帳票データ管理データベース134とに格納する。
なお、図13では省略しているが、罫線かどうかの判定を図13に組み入れてもよい。例えば、図11のように色で判別してもよいし、上から順番に走査して直線のイメージが出てきた位置を罫線と判定してもよい。
このように、本発明の汎用文字識別処理部113によれば、特徴データベース114に登録された文字列を帳票名称や見出し項目で利用される文字列として判別することによって、図12で示した出現パターンを判定する構成に比べて、文字列の比較処理を削減することができ、その結果、書式データと帳票データとの分離処理の時間をより短くすることができる。しかも、特徴データベース114に登録されていない文字列でも、所定の頻度で出現する文字列が自動的に特徴データベース114に登録されるため、システムを運用していくに従って、書式データと帳票データの分離処理をより高精度に且つ高速に行うことができる。
<まとめ>
本発明の実施形態によれば、色判別処理部111は、印刷データ内において白黒以外の色の部分をイメージデータと判定し、イメージデータの色と異なる色の文字列データが存在する場合、書式データと帳票データの分離処理を実行し(ステップ1103)、色判別処理部111は、イメージデータの色と同じ色の文字列データを書式データとして判別する(ステップ1104)。
この構成によれば、印刷データ(帳票)内の色の特性を生かして、書式データと帳票データを判別することができる。
また、本発明の実施形態によれば、行特徴識別処理部112は、印刷データ内のヘッダ領域およびフッタ領域の文字列を複数の印刷データに関して比較し(ステップ1202)、複数の印刷データのヘッダ領域およびフッタ領域に同じ文字列データが存在する場合(ステップ1203)、当該文字列データを書式データとして判別する(ステップ1204)。さらに、行特徴識別処理部112は、印刷データ内の行データ領域の各行の列ごとの情報を比較し(ステップ1206)、全ての列が文字列情報である行を、書式データとして判別する(ステップ1208)。
この構成によれば、出現する文字パターンを判別することによって、書式データと帳票データを判別することができる。特に、罫線と文字列が同じ色で印刷される印刷データの場合でも、書式データと帳票データを判別することができる。また、ヘッダおよびフッタ領域と、行データとを分けて処理する構成としているので、特に帳票の印刷データが1枚しかない場合に、少なくとも行データについては書式データとなる文字列を判別することができる。
また、本発明の実施形態によれば、仮想的な印刷装置110は、印刷データ内において書式データとして出現する文字列の情報を格納した特徴データベース114と、印刷データ内の文字列データが特徴データベース114に格納された文字列と一致する場合、当該文字列データを書式データとして判別する汎用文字識別処理部113と、を備える。
この構成によれば、特徴データベース114に登録された文字列を帳票名称や見出し項目で利用される文字列として判別することによって、図12で示した出現パターンを判定する構成に比べて、文字列の比較処理を削減することができ、その結果、書式データと帳票データとの分離処理の高速化を図ることができる。また、帳票の印刷データが1枚しかない場合でも、ヘッダおよびフッタ領域や行データに関係なく、書式データとなる文字列を判別することができる。
また、本発明の実施形態によれば、汎用文字識別処理部113は、印刷データ内において所定の頻度を超えて出現する文字列データを、書式データとして判別する(ステップ1306)。
この構成によれば、特徴データベース114に登録されていない文字列でも、書式データとなる文字列を判別することができる。
また、本発明の実施形態によれば、汎用文字識別処理部113は、印刷データ内において所定の頻度を超えて出現する文字列データの情報を特徴データベース114に格納する(ステップ1307)。
この構成によれば、所定の頻度で出現する文字列が自動的に特徴データベース114に登録されるため、システムを運用していくに従って、書式データと帳票データの分離処理をより高精度に且つ高速に行うことができる。また、会社ごとや帳票ごとに固定となる文字列は異なるため、各会社や帳票に合わせた特徴データベース114を構築していくことが可能となる。
本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
例えば、印刷データを書式データと帳票データに分離するという点においては、本発明の仮想的な印刷装置110は、色判別処理部111と、行特徴識別処理部112と、汎用文字識別処理部113の少なくとも1つを備えればよい。すなわち、図1に示す本実施形態の仮想的な印刷装置110は、色判別処理部111と、行特徴識別処理部112と、汎用文字識別処理部113との全てを備えているが、この構成は本発明のより好ましい形態であり、これらの処理部の一部を削除して本発明を構成することが可能である。
なお、本実施形態のように、仮想的な印刷装置110が、色判別処理部111と、行特徴識別処理部112と、汎用文字識別処理部113との全てを備える場合、印刷データに対して、色判別処理部111の処理、行特徴識別処理部112の処理、および汎用文字識別処理部113の処理を順に実行するようにしてもよい。このようにすることによって、ある処理部で書式データと判別できなくても別の処理部で書式データとして判別できる場合があり、より高精度に書式データと帳票データとを分離することができる。
上述の実施形態では、色判別処理部111は、白黒以外の色の部分を罫線などのイメージデータと判定しているが、この構成に限定されない。例えば、罫線枠が黒色で、文字列が別の色である場合には、色判別処理部111に、その情報を予め設定しておき、イメージデータと判定される色を変更してもよい。
本実施形態では、帳票生成システム101によって作成された印刷データを仮想的な印刷装置110で書式データと帳票データとに分離しているが、この形態に限定されない。例えば、既に紙として存在している伝票などをスキャナで読み込んで、OCR処理などによって文字列と罫線などのイメージデータとに区別し、仮想的な印刷装置110で書式データと帳票データとに分離してもよい。このようにすることによって、紙として存在する伝票などを電子化して、書式データと帳票データとに分離して管理することができる。
上述したように、実施形態の構成は、それらの一部や全部を、例えば、集積回路で設計する等によりハードウェアで実現することができる。また、本発明は、実施形態の機能を実現するソフトウェアのプログラムコードで実現してもよい。この場合、プログラムコードを記録した記憶媒体を情報処理装置に提供し、その情報処理装置(又はCPU)が記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコード自体、およびそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD−ROM、DVD−ROM、ハードディスク、光ディスク、光磁気ディスク、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
また、プログラムコードの指示に基づき、情報処理装置上で稼動しているOS(オペレーティングシステム)などが実際の処理の一部又は全部を行い、その処理によって前述した実施形態の機能が実現されるようにしてもよい。さらに、記憶媒体から読み出されたプログラムコードが、情報処理装置上のメモリなどの記憶部に書きこまれた後、そのプログラムコードの指示に基づき、情報処理装置のCPUなどが実際の処理の一部又は全部を行い、その処理によって前述した実施形態の機能が実現されるようにしてもよい。
さらに、実施形態の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することにより、それを情報処理装置の記憶装置又はCD−RW、CD−R等の記憶媒体に格納し、使用時にその情報処理装置のCPUが当該記憶装置や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしてもよい。
最後に、ここで述べたプロセスおよび技術は本質的に如何なる特定の装置に関連することはなく、コンポーネントの如何なる相応しい組み合わせによってでも実装できることを理解する必要がある。更に、汎用目的の多様なタイプのデバイスがここで記述した教示に従って使用可能である。ここで述べた方法のステップを実行するのに、専用の装置を構築するのが有益であることが判るかもしれない。本発明は、具体例に関連して記述したが、これらは、すべての観点に於いて限定の為ではなく説明の為である。本分野にスキルのある者には、本発明を実施するのに相応しいハードウェア、ソフトウェア、およびファームウエアの多数の組み合わせがあることが解るであろう。例えば、本実施形態に記載の機能を実現するプログラムコードは、アセンブラ、C/C++、perl、Shell、PHP、Java(登録商標)等の広範囲のプログラム又はスクリプト言語で実装できる。
また、図面における制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。
101 帳票生成システム
102 帳票データ
103 イメージデータ
110 印刷装置
111 色判別処理部
112 行特徴識別処理部
113 汎用文字識別処理部
114 特徴データベース
121 帳票設計端末
122 帳票データ
123 スキャナイメージ
124 スキャナ
130 電子帳票システム
131 帳票表示処理部
132 帳票管理データベース
133 書式管理データベース
134 帳票データ管理データベース
135 帳票参照クライアント

Claims (10)

  1. 帳票の印刷データを書式データと帳票データとに分離する仮想的な印刷装置と、
    前記仮想的な印刷装置によって分離された前記書式データと前記帳票データとを格納する記憶装置と、
    を備え、
    前記仮想的な印刷装置は、前記印刷データ内の色情報および前記印刷データ内に出現する文字列の情報の少なくとも一方に基づいて、前記印刷データを前記書式データと前記帳票データとに分離することを特徴とする帳票印刷システム。
  2. 請求項1に記載の帳票印刷システムにおいて、
    前記仮想的な印刷装置は、前記印刷データ内のイメージデータの色と文字列データの色とを比較することによって、前記印刷データを前記書式データと前記帳票データとに分離する色判別処理部を備えることを特徴とする帳票印刷システム。
  3. 請求項2に記載の帳票印刷システムにおいて、
    前記色判別処理部は、前記印刷データ内において所定の色以外の部分を前記イメージデータと判定し、前記イメージデータの色と異なる色の文字列データが存在する場合、前記書式データと前記帳票データの分離処理を実行し、
    前記色判別処理部は、前記イメージデータの色と同じ色の文字列データを前記書式データとして判別することを特徴とする帳票印刷システム。
  4. 請求項1乃至3のいずれか一項に記載の帳票印刷システムにおいて、
    前記仮想的な印刷装置は、前記印刷データ内の文字列データの出現パターンに基づいて前記印刷データを前記書式データと前記帳票データとに分離する行特徴識別処理部を備えることを特徴とする帳票印刷システム。
  5. 請求項4に記載の帳票印刷システムにおいて、
    前記行特徴識別処理部は、
    前記印刷データ内のヘッダ領域およびフッタ領域の文字列を複数の印刷データに関して比較し、
    前記複数の印刷データの前記ヘッダ領域および前記フッタ領域に同じ文字列データが存在する場合、当該文字列データを前記書式データとして判別することを特徴とする帳票印刷システム。
  6. 請求項4に記載の帳票印刷システムにおいて、
    前記行特徴識別処理部は、前記印刷データ内の行データ領域の各行の列ごとの情報を比較し、全ての列が文字列情報である行を、前記書式データとして判別することを特徴とする帳票印刷システム。
  7. 請求項1乃至6のいずれか一項に記載の帳票印刷システムにおいて、
    前記仮想的な印刷装置は、
    前記印刷データ内において前記書式データとして出現する文字列の情報を格納した特徴データベースと、
    前記印刷データ内の文字列データが前記特徴データベースに格納された文字列と一致する場合、当該文字列データを前記書式データとして判別する汎用文字識別処理部と、
    を備えることを特徴とする帳票印刷システム。
  8. 請求項7に記載の帳票印刷システムにおいて、
    前記汎用文字識別処理部は、前記印刷データ内において所定の頻度を超えて出現する文字列データを、前記書式データとして判別することを特徴とする帳票印刷システム。
  9. 請求項8に記載の帳票印刷システムにおいて、
    前記汎用文字識別処理部は、前記印刷データ内において前記所定の頻度を超えて出現する文字列データの情報を、前記特徴データベースに格納することを特徴とする帳票印刷システム。
  10. 請求項1乃至9のいずれか一項に記載の帳票印刷システムにおいて、
    前記記憶装置において分離して格納された前記書式データと前記帳票データとを合成する又はいずれか一方を取得する帳票表示処理部を更に備えることを特徴とする帳票印刷システム。
JP2012139025A 2012-06-20 2012-06-20 帳票印刷システム Pending JP2014002662A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012139025A JP2014002662A (ja) 2012-06-20 2012-06-20 帳票印刷システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012139025A JP2014002662A (ja) 2012-06-20 2012-06-20 帳票印刷システム

Publications (1)

Publication Number Publication Date
JP2014002662A true JP2014002662A (ja) 2014-01-09

Family

ID=50035759

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012139025A Pending JP2014002662A (ja) 2012-06-20 2012-06-20 帳票印刷システム

Country Status (1)

Country Link
JP (1) JP2014002662A (ja)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05266247A (ja) * 1992-03-19 1993-10-15 Toshiba Corp 画像データ処理システム
JPH096865A (ja) * 1995-06-14 1997-01-10 Oki Electric Ind Co Ltd フォーマット情報生成方法及びフォーマット情報生成装置
JPH09231291A (ja) * 1996-02-27 1997-09-05 Mitsubishi Electric Corp 帳票読取方法及びその装置
JP2000090193A (ja) * 1998-09-16 2000-03-31 Sharp Corp 文字認識装置および項目分類方法
JP2001195543A (ja) * 2000-01-14 2001-07-19 Ricoh Co Ltd 帳票処理装置およびその方法ならびに記憶媒体
JP2001243423A (ja) * 2000-02-28 2001-09-07 Toshiba Corp 帳票における文字記録領域の検出装置、帳票における文字記録領域の検出方法、記憶媒体及び帳票フォーマット作成装置
JP2005258683A (ja) * 2004-03-10 2005-09-22 Fujitsu Ltd 文字認識装置,文字認識方法,媒体処理方法,文字認識プログラムおよび文字認識プログラムを記録したコンピュータ読取可能な記録媒体
JP2007336427A (ja) * 2006-06-19 2007-12-27 Kyocera Mita Corp 画像形成システム及び画像形成装置
JP2011159179A (ja) * 2010-02-02 2011-08-18 Canon Inc 画像処理装置及びその処理方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05266247A (ja) * 1992-03-19 1993-10-15 Toshiba Corp 画像データ処理システム
JPH096865A (ja) * 1995-06-14 1997-01-10 Oki Electric Ind Co Ltd フォーマット情報生成方法及びフォーマット情報生成装置
JPH09231291A (ja) * 1996-02-27 1997-09-05 Mitsubishi Electric Corp 帳票読取方法及びその装置
JP2000090193A (ja) * 1998-09-16 2000-03-31 Sharp Corp 文字認識装置および項目分類方法
JP2001195543A (ja) * 2000-01-14 2001-07-19 Ricoh Co Ltd 帳票処理装置およびその方法ならびに記憶媒体
JP2001243423A (ja) * 2000-02-28 2001-09-07 Toshiba Corp 帳票における文字記録領域の検出装置、帳票における文字記録領域の検出方法、記憶媒体及び帳票フォーマット作成装置
JP2005258683A (ja) * 2004-03-10 2005-09-22 Fujitsu Ltd 文字認識装置,文字認識方法,媒体処理方法,文字認識プログラムおよび文字認識プログラムを記録したコンピュータ読取可能な記録媒体
JP2007336427A (ja) * 2006-06-19 2007-12-27 Kyocera Mita Corp 画像形成システム及び画像形成装置
JP2011159179A (ja) * 2010-02-02 2011-08-18 Canon Inc 画像処理装置及びその処理方法

Similar Documents

Publication Publication Date Title
JP5623079B2 (ja) ハード・コピーの書式からの書式定義の自動発生
US8107727B2 (en) Document processing apparatus, document processing method, and computer program product
CN101174350A (zh) 一种票据处理装置及方法
JP5938393B2 (ja) 画像処理装置
WO2005073886A1 (ja) 表フォーマットデータ処理方法並びに表フォーマットデータ処理装置
JP2013164740A (ja) 会計情報読取りシステム、会計情報読取り方法、及びプログラム
JP6786658B2 (ja) 書類読取システム
CN109726369A (zh) 一种基于标准文献的智能模板化题录技术实现方法
JP2016192223A (ja) 会計情報読取りシステム及びプログラム
JP7439435B2 (ja) 情報処理装置及びプログラム
JP6856916B1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP7379987B2 (ja) 情報処理装置及びプログラム
JP2008282094A (ja) 文字認識処理装置
JP4807618B2 (ja) 画像処理装置及び画像処理プログラム
JP2014002662A (ja) 帳票印刷システム
CN105308554B (zh) 数据传输系统、传输数据的方法、以及系统
US9152885B2 (en) Image processing apparatus that groups objects within image
JP2007280413A (ja) 財務諸表自動入力装置
JP2011060268A (ja) 画像処理装置及び画像処理プログラム
JP2016212626A (ja) Webを介した外字・異体字含有文字群入力利用システム
WO2023021636A1 (ja) データ処理装置、データ処理方法及びプログラム
JP2014235694A (ja) 帳票処理装置、帳票処理方法、帳票処理プログラム
JP7271987B2 (ja) 情報処理装置及びプログラム
WO2021140682A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP5284342B2 (ja) 文字認識システムおよび文字認識プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150126

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151001

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151013

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160216

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20161011