JP2016091131A - 情報処理装置とその処理方法及びプログラム。 - Google Patents

情報処理装置とその処理方法及びプログラム。 Download PDF

Info

Publication number
JP2016091131A
JP2016091131A JP2014222121A JP2014222121A JP2016091131A JP 2016091131 A JP2016091131 A JP 2016091131A JP 2014222121 A JP2014222121 A JP 2014222121A JP 2014222121 A JP2014222121 A JP 2014222121A JP 2016091131 A JP2016091131 A JP 2016091131A
Authority
JP
Japan
Prior art keywords
file
text data
line
data
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014222121A
Other languages
English (en)
Other versions
JP2016091131A5 (ja
JP6550721B2 (ja
Inventor
光雄 久保田
Mitsuo Kubota
光雄 久保田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Marketing Japan Inc
Original Assignee
Canon Marketing Japan Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Marketing Japan Inc filed Critical Canon Marketing Japan Inc
Priority to JP2014222121A priority Critical patent/JP6550721B2/ja
Publication of JP2016091131A publication Critical patent/JP2016091131A/ja
Publication of JP2016091131A5 publication Critical patent/JP2016091131A5/ja
Application granted granted Critical
Publication of JP6550721B2 publication Critical patent/JP6550721B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

【課題】PDFファイルなどのテキストデータとテキストデータの属性情報と罫線情報とを1ファイルに含む文書データを、電子帳票システムで容易に扱えるファイルに変換すること。
【解決手段】テキストデータとテキストデータの属性情報と罫線情報とを1ファイルに含む第2の文書データを取り込むと、第2の文書データの各ページのテキストデータの配置位置から、ページ共通の行を特定し、前記行特定手段で特定された行に従って、決定されたテキストデータを描画する位置を記憶するファイルと、第2の文書データのテキストデータを記憶するファイルと、テキストの属性情報を記憶するファイルと、第2の文書データの罫線情報を含むファイルとを生成する。
【選択図】図4

Description

電子帳票システムへのファイル変換に関する情報処理装置とその処理方法及びプログラムに関する。
従来より、紙媒体である帳票から、ホスト(上位システム)からデータを受信して電子帳票(帳票データ)に変換して、保存・管理する電子帳票システムがある。
この電子帳票システムは、独自のファイル形式にデータを変換して、システム上で電子帳票を閲覧、検索できるようになっている。(例えば、特許文献1)
特開2012−123574号公報
しかしながら、近年では電子帳票システムに取り込むデータはメインフレームなどのデータに限らず、汎用的なコンピュータで生成されるPDF形式などのファイルを取り込むことが望まれてきている。
この場合、単にPDFファイルを取り込むことは容易であるが、電子帳票システムに保存されている独自形式の電子帳票と同じように閲覧や閲覧を行うのは難しかった。
これは、電子帳票システムは、これまで入力となる帳票データ(ホスト帳票)を高速機(ラインプリンタ)に出力することを起点として取り込んでいるため、ページ情報・フォーム情報・データ情報(テキスト、文字)の形式にすることが前提となっているからである。ページ情報は行やページのレイアウトを決定する情報、フォーム情報は罫線や画像情報を決定する情報、データ情報はデータ(テキスト、文字)を行単位・文字単位で決定する情報をそれぞれ持つものである。これに対し、PDFファイルなどの中間形式のファイルには「行」という概念は存在せず、自由なレイアウトが可能となっており、保存ができたとしても電子帳票と同じように扱うことは難しかった。
そこで本発明の目的は、PDFファイルなどのテキストデータとテキストデータの属性情報と罫線情報とを1ファイルに含む文書データを、電子帳票システムで容易に扱えるファイルに変換する仕組みを提供することである。
本発明の目的を達成するための、テキストデータを記憶する第1のファイルと、テキストデータの属性情報を記憶する第2のファイルと、テキストデータの描画位置を記憶する第3のファイルと、前記テキストデータと合成するためのフォームデータを記憶する第4のファイルとを含む第1の文書データを管理する情報処理装置であって、テキストデータとテキストデータの属性情報と罫線情報とを1ファイルに含む第2の文書データを取り込む取込手段と、前記第2の文書データから、罫線情報を抽出する罫線抽出手段と、前記第2の文書データの各ページのテキストデータの配置位置から、ページ共通の行を特定する行特定手段と、前記行特定手段で特定した行に含まれるテキストデータを特定するテキストデータ特定手段と、前記テキストデータ特定手段で特定されたテキストデータを含む第1のファイルと、各テキストデータに対して、前記第2の文書データから得られる属性情報を割り当てた第2のファイルと、前記行特定手段で特定された行に従って、決定されたテキストデータを描画する位置を記憶する第3のファイルと、前記罫線抽出手段により抽出された罫線情報を含むフォームデータを記憶する第4のファイルとを生成するファイル生成手段と、前記ファイル生成手段により生成された前記第1のファイルと前記第2のファイルと前記第3のファイルと前記第4のファイルとを、前記第1の文書として登録する登録手段とを備えることを特徴とする。
本発明によれば、PDFファイルなどのテキストデータとテキストデータの属性情報と罫線情報とを1ファイルに含む文書データを、電子帳票システムで容易に扱えるファイルに変換することができる。
本発明に実施形態に係る電子帳票管理システムの概略構成図を示す図である。 図1における帳票サーバのハードウェア構成の一例を示すブロック図である。 帳票ファイルの構成例を示す図である。 PDFファイルから帳票ファイルへの変換結果を示す図である。 PDF帳票定義設定画面の例を示す図である。 変換処理の全体を示すフローチャートである。 PDF構成情報の一例を示す図である。 データ情報の一例を示す図である。 行情報集計処理のフローチャートである。 Y座標を集約した行の概略を示すイメージ図である。 共有ページ定義の概念図の一例を示す図である。 プリントラインの概略を示す図である。 プリントデータオブジェクトに割り当てる処理の概略図である。 共通ページ定義処理のフローチャートである。 独自帳票データ(帳票実績ファイル)を作成する処理のフローチャートである。
以下、本発明の実施の形態を図面を参照して詳細に説明する。
図1は、本発明の実施形態に係る電子帳票システムの概略構成を示す図である。
図1において、帳票サーバ100は、電子帳票管理装置として、複数種類の電子帳票(以下、単に「帳票」と称す)のデータ(以下、「帳票データ」または「帳票ファイル」と称す)を記憶、管理し、ネットワーク103を介してクライアントPC101,102に対して、帳票ファイルの閲覧や検索等のサービスを提供する。また帳票サーバ100は、ホスト104から出力されたホストデータを電子帳票に変換して保存している。さらに、帳票サーバ100はPDFファイルを受け付け、PDFファイルを帳票データに変換する。
クライアントPC101,102は、ユーザが利用するパーソナルコンピュータ等の情報処理装置である。クライアントPC101,102は、ネットワーク103を介して帳票サーバ100に通信可能に構成され、帳票サーバ100に対して帳票ファイルの検索要求や検索結果の閲覧等が可能である。
ネットワーク103は、例えば、LAN(LOCAL AREA NETWORK)やインターネット等で構成される。なお、ネットワーク103に接続される各種装置については、図示例に限らず、用途や目的に応じて様々な装置が接続されていてもよい。
すなわち、図1は、帳票データを表示する情報処理装置と、帳票データを管理するサーバとが通信可能に接続されている帳票システムである。
図2は、図1における帳票サーバ100のハードウェア構成の一例を示すブロック図である。
図2において、CPU(中央演算装置)201は、システムバス204に接続される各デバイスを統括的に制御するとともに、各種プログラムを実行することで様々な機能を実現する。RAM202は、CPU201の主メモリであり、ワークエリア、一時退避領域等として機能する。ROM203或いは外部メモリ211には、CPU201の制御プログラムであるオペレーティングシステム(OS)や、帳票サーバ100において様々な機能を実現するためのプログラム212が記憶されている。CPU201は、これらのプログラムを必要に応じてRAM202にロードして実行する。プログラム212の実行時に用いられる帳票ファイル213およびインデックスファイル214は、外部メモリ211に格納されている。DB(データベース)215には、帳票データの格納情報(帳票ID、帳票名、格納先ディレクトリの紐付けなど)が記憶されている。
入力コントローラ205は、例えば、キーボードやマウス等で構成された入力部209からの操作入力を制御する。表示コントローラ206は、表示部210の表示を制御する。表示部210は、例えば、CRTや液晶ディスプレイ等で構成される。
外部メモリコントローラ(MC)207は、ブートプログラム、各種のアプリケーション、ユーザファイル、編集ファイルを記憶する外部メモリ211へのアクセスを制御する。加えて、サーバ或いは各クライアントPCの各種機能を実現するための各種テーブル、パラメータが記憶されている。外部メモリ211は、ハードディスク(HD)やフレキシブルディスク(FD)、磁気テープドライブ等で構成される。
通信I/Fコントローラ208は、ネットワーク103を介して行われる、クライアントPC等の外部機器との通信を制御する。
クライアントPC101,102は、帳票サーバ100と同様のハードウェア構成を有するので、その説明は省略する。なお、帳票ファイル213については、クライアントPCが、表示するために必要な部分のみを帳票サーバ100から受信するので、クライアントPC101,102が予め保持することはない。クライアントPC101,102は、帳票ファイル213を表示するためのクライアントモジュールを保持し、帳票サーバ100内のプログラム212とは異なるプログラムを保持する。また、クライアントPC101,102では、帳票ファイル213の表示若しくは任意の帳票ファイル213に対する検索条件の指定等が可能である。
帳票サーバ100は、PDFファイルを受信すると、CPU201により、PDFファイルを解析して、帳票ファイル213を生成する。
図3は、帳票ファイル213の構成例を示す図である。
帳票ファイル213(第1の文書データ)は、帳票における罫線や図などのレイアウトを定めるフォーム情報ファイル3301(テキストデータと合成するためのフォームデータを記憶する第4のファイル)と、帳票に含まれる文字に関するテキスト情報ファイル3302(テキストデータを記憶する第1のファイル)と、帳票における行ピッチや文字のフォントなどを定める文字情報ファイル3303(テキストデータの属性情報を記憶する第2のファイル)と、帳票において帳票テキストデータの配置を定めるページ情報ファイル3304(テキストデータの描画位置を記憶する第3のファイル)とで構成されている。
クライアントPC101が帳票(帳票イメージ)を表示する場合、帳票サーバ100で図示の4つの情報ファイルから表示用の帳票データを生成し、その帳票データをダウンロードした後にハードディスクに一時保存し、ワークメモリに読み込んだ後にディスプレイに帳票として表示する。
また、帳票ファイル213は、1つまたは複数のファイルによって構成され、1または複数のページを含有している。帳票サーバ100は、複数の帳票ファイル213のうちの同じ種類のものをグループ化して管理しており、それぞれの帳票ファイル213はそのグループの中の世代と呼ばれる。例えば、営業日報のように、日時が異なる同じ種類の帳票が世代として管理される。
次に、図4を用いて、PDFファイル(テキストデータとテキストデータの属性情報と罫線情報とを1ファイルに含む第2の文書データ)から帳票ファイル213(第1のファイルと第2のファイルと第3のファイルと第4のファイルを含む第2の文書データ)へ変換した場合の模式図について説明する。
入力されたPDFファイルを電子帳票システムにおいて登録すると、PDFファイルを解析して、フォーム情報ファイル、テキスト情報ファイル、ページ情報ファイル、文字情報ファイルを生成する。
例えば、図4は、1行目「あいうえお」2行目「かきくけこ」3行目「さしすせそ」で、各文字列の下には罫線(下線)が備わっているPDFファイルを帳票ファイルに変換する例である。
変換すると、テキスト情報ファイルには、座標の原点、行数、使用するページ情報ファイルID、使用するフォーム情報ファイルID、各行のテキストデータが記憶されている。
文字情報ファイルには、各文字の情報、例えば、フォント、高さ、幅、ピッチ、太さ、斜体、SKIP(先頭文字の場合の原点からずらすドット数)が記憶されている。
ページ情報ファイルには、各ページの情報、例えば、用紙サイズ、改行幅数、レコード数、ページ情報ファイルID、印字開始水平位置、印字開始垂直位置、テキスト開始位置、テキスト終了位置が記憶されている。位置は、ドット数であるものとする。
フォーム情報ファイルは、フォーム情報ファイルID、座標原点、罫線を含む画像ファイルを記憶している。
次に、図5を用いて、PDF登録の前提となる、PDF帳票定義の作成について説明する。
管理者のクライアントPCから帳票サーバ100にアクセスし、図5の設定画面をクライアントPCに表示する。この設定画面で、帳票サーバ100の所定のフォルダに格納されたPDFを検知する設定を行う。
帳票種別(PDF)、ホスト転送ファイル名は、格納されたPDFファイルのファイル名を指定する。これにより必要なPDFファイルを取得して帳票ファイルに変換することが可能となる。
その他、入力となる帳票データを変換するためのホストプリンタ名を指定する。これらの設定情報をデータベース等の記憶部に保存し、この設定情報をもとにPDFファイルを取得して変換処理を実行する。
次に、図6を用いて、変換処理の全体のフローチャートについて説明する。なお、各処理は帳票サーバ100のCPU201が実行するものとする。
ステップS01では、帳票サーバ100がPDFファイルを受信して、SPOOLフォルダに格納する。
ステップS02では、帳票サーバ100は、SPOOLフォルダを監視しており、SPOOLフォルダに格納されたPDFファイルを取得する。すなわち、テキストデータとテキストデータの属性情報と罫線情報とを1ファイルに含む第2の文書データを取り込む取込処理の一例を示すステップである。
ステップS03では、図5で設定したPDF帳票定義に一致するPDFファイルが存在するかを判定する。一致する(所定の)PDFファイルが存在すると判定した場合には、ステップS05へ処理を移す。一致する(所定の)PDFファイルが存在しないと判定した場合には、ステップS04へ処理を移し、エラーを記録する(ステップS04)。
ステップS05では、PDF帳票定義の種別が「PDF」であるか判定する。「PDF」である場合には、ステップS07へ処理を移す。「PDF」でない場合には、ステップS06へ処理を移しエラーを記録する(ステップS06)
ステップS07では、PDFファイルの解析を開始する。解析では、罫線を抽出し、同一フォームかと特定し、PDF構成情報のもと情報を生成する。また、PDFファイルの文字列から、文字ごとの座標を決定し、データ情報のもと情報を生成する。
ステップS08では、PDFファイルの解析結果により中間ファイルを生成する。この中間ファイルを一時記憶フォルダに保存する。中間ファイルは、データ情報(SVG形式)と、フォーム情報(SVG形式)と、PDF構成情報(テキスト形式)である。SVG形式はXML形式で記載されたファイルである。
データ情報は、PDFファイルのページ分作成され、各ページごとにテキストデータや、描画される位置情報(一文字ずつ)が記憶されている。データ情報の一例を示す図が、図8の801である。801をもとに、各文字のY座標ごと(行ごと)に、X座標の小さい順に文字を並べ変える。すなわち、テキストデータの1文字ごとに配置位置のX座標に従って、各行の文字を配列する配列処理である。
フォーム情報は、PDFファイルの各ページの罫線情報、画像などがことある数分作成される。すべてのページが同じフォーム(レイアウト)である場合には、フォーム情報は1つとなる。なお、罫線抽出は、PDFファイルに含まれる罫線属性を持つ情報、或いは、既知の罫線抽出技術を用いて、罫線を取得することで実現する。抽出された罫線情報をもとにフォーム情報が生成される。すなわち、第2の文書データから、罫線情報を抽出する罫線抽出処理である。
異なるものかどうかは、各ページから抽出される罫線情報・画像などの情報のハッシュ値をもとに判断する。
PDF構成情報は、PDFファイルにつき、1つ作成されるファイルであり、PDFファイルが何ページからなるか、各ページで使用されるページ情報やフォーム情報を定義するファイルである。PDF構成情報の一例を示す図が、図7である。
ステップS09では、中間ファイルをもとに、行情報を集計する。行情報の集計については、図9のフローチャートを用いて後述する。すなわち、第2の文書データの各ページのテキストデータの配置位置から、ページ共通の行を特定する行特定処理である。
ステップS10では、行情報集計結果から
共通ページ定義を作成する。共通ページ定義の作成については、図14のフローチャートを用いて後述する。
ステップS11では、共通ページ定義を使用して、独自帳票データを作成する。帳票データの作成については、図15のフローチャートを用いて後述する。
ステップS12では、本処理を終了する。
次に、図9のフローチャートを用いて、行情報集計処理について説明する。
ステップS13では、PDF構成情報を読み込み、ステップS14では、内部メモリに保持する。
ステップS15では、PDF構成情報のヘッダーページのフォーム情報を確認し、フォームごとにファイルリストを作成し、内部メモリに保持する。ファイルリストの例が901で、フォーム情報ごとに、どのデータ情報かを対応付けて記憶している。
ステップS16では、作成したデータファイルリストを取得し、フォーム単位に処理を開始する。
ステップS17では、データ情報を読み込み、ステップS18では、読み込んだデータから行リスト(802)として、内部メモリに保持する。
ステップS19では、行リストから1行分のデータを読み込み、ステップS20では、行情報集計結果の垂直(Y座標)終了位置として、読み込んだ1行分のデータのY座標データを電子帳票システム内の内部メモリに追加する。この時、同じY座標データが存在した場合は追加せず、行高さ(文字の大きさ)の値を引いた値を垂直(Y座標)開始位置として追加する。すなわち、テキストデータの配置位置のY座標に従って、行の位置を決定する行位置決定処理である。
図10がY座標を集約した行の概略を示すイメージ図である。
ステップS21では、行リスト分繰り返し、行集計結果にY座標データをマージする。
ステップS22では、ステップS21の繰り返し処理を終了すると、データ情報1つ分の行情報集計結果が作成される。データ情報1つ分の行情報集計結果の例が902である。すなわち、第2の文書データの各ページのテキストデータの配置位置から、ページ共通の行を特定する行特定処理の特徴的なステップである。また、ページごとの行位置(Y座標)に従って、ページ共通の行を特定するものである。
ステップS23では、データファイル数分繰返し、ステップS24では、フォーム情報ファイル毎のデータ情報全ての行情報集計結果が作成される。データ情報すべての行情報集計結果の例が903である。
ステップS25では、フォーム毎に作成した行情報集計結果(903)を、Y座標で昇順にソートする。ソートした行情報集計結果の例が904である。
ステップS26では、ソートしたY座標から改行幅となるY座標の差分を集計して作成し、行情報集計結果に改行幅情報を付け足して内部メモリに保持する。改行幅情報を付け足した行情報集計結果の例が905である。前の行の情報を用いてプリントラインを生成できる場合に、「0」となっている。905で示されるY1〜Y4は、テキストが含まれる各行の行情報である。
ステップS27では、フォーム毎に作成した行情報集計結果を、内部メモリに保持する。
ステップS28では、フォーム数分繰り返し、すべてのフォーム対する行情報集計結果を作成し、行情報集計結果リストを作成する。
次に、図14のフローチャートを用いて、共通ページ定義処理について説明する。
ステップS29では、作成した全ページの行情報(Y座標)を使用して共通ページ定義作成の処理を開始する。処理はフォーム毎に作成した行情報集計結果を元に開始する。例えば、行情報集計結果リストからフォーム1の行情報集計結果を取得する(例えば、905)。フォーム毎に繰返し行うことで、フォームごとに全ページ共通の共通ページ定義を作成することとなる。
ステップS30では、共通ページ定義の情報を格納するオブジェクトを、内部メモリに作成する。
ステップS31では、行情報集計結果から、行情報(Y座標)のリストを取得する。
ステップS32では、取得した行情報(Y座標)のリストから、先頭行の情報を取得する。
ステップS33では、共通ページ定義で必要となるプリントライン(行情報)の値として、行情報集計結果から行数を取得し、先頭行の情報から先頭行の水平(X座標)・垂直(Y座標)の開始位置を共通ページ定義の情報として格納する。プリントラインは行情報であるため、開始位置となる水平(X座標)は「0」として登録する。
プリントラインの概略を示す図が図12のイメージ図である。
ステップS34では、プリントラインの位置を用いて、共通ページ定義で必要となるフィールド(テキスト領域)の値として、先頭行の情報から先頭行の水平(X座標)・垂直(Y座標)の開始位置・終了位置を共通ページ定義の情報として格納する。電子帳票システムにおいてテキストを描画できる領域は用紙サイズの端から48ドット内側(有効印字領域)となるため、水平(X座標)の開始位置は「48」、終了位置は「用紙サイズ−48」(ドット)として登録する。また、垂直(Y座標)の開始・終了位置は、先頭行の情報で保持している値を登録することとする。
なお、フィールドの値は、行情報集計結果905を用いて登録してもよい。行情報集計結果からY座標が特定できる。このフィールドの値は、ページ情報ファイルに記憶される。
ステップS35では、共通ページ定義で必要となる改行幅(行の差分情報)の値として、先頭行の情報から改行幅情報を取得する。
ステップS36では、改行幅の設定行数が「0」か否かを判定する。
ステップS37では、「0」で無い(=改行幅が存在する)場合、改行幅情報として、改行幅の値・該当の改行幅を適用する行数を共通ページ定義の情報として格納する。この時、「0」であった場合は、次の行情報を取得する。
ステップS38では、改行幅の情報が先頭行かどうかを判断する。
ステップS39では、先頭行で無い場合、この改行幅の値の分だけ、共通ページ定義に格納したフィールドの高さを拡張するよう、共通ページ定義を更新する。先頭行であった場合は、既にフィールドが先頭行の値で作成されているため、特になにもせずに次の行情報の処理を実施する。この通り、改行幅情報の分だけ処理を行うことで、行情報集計結果で保持している改行幅情報を共通ページ定義として作成する。
ステップS40では、行数分・フォーム数分の行情報集計結果を共通ページ定義として作成する処理が終了した場合に、この時点で共通ページ定義の作成を終了する。共有ページ定義の概念図は図11となる。図11によれば、同一フォーム、全てのページで共通の行情報が特定できる。
ステップS41では、フォーム毎に作成した共通ページ定義を紐付けたリストを作成する。
次に、図15のフローチャートを用いて、共通ページ定義を使用して独自帳票データ(帳票実績ファイル)を作成する処理について説明する。
ステップS42では、テキスト情報・文字情報を作成するためのテキストデータ変換用のコンバータを内部メモリに作成する。テキストデータ変換用のコンバータは、中間データとして作成したデータ情報を解析し、共通ページ定義を用いてテキスト情報・文字情報を作成するために、データの変換を行うためのものである。
ステップS43では、ページ順にデータファイルを取得し、行リストとして読み込む。
ステップS44では、読み込んだデータは内部メモリ内に保持する。行情報集計結果で取得した情報は既にメモリ上から破棄されているため、ここで改めて読み込むものとする。処理速度を考慮した場合には、読み込んだデータを使いまわすほうが高速になるが、ページ数によってはメモリの圧迫につながるため、必要な時に読み込む。
ステップS45では、PDF構成情報とフォーム毎の共通ページ定義格納情報から、該当のデータファイルで使用する共通ページ定義(図14で生成された共通ページ)を特定し、取得する。以降は、テキストデータ変換コンバータの処理となる。ここで、テキストデータ変換コンバータには読み込んだデータの行リスト、ページ番号、共通ページ定義の情報を渡して処理を実行する。
ステップS46では、独自形式のテキストオブジェクト(テキスト情報)をメモリ内に作成する。
ステップS47では、独自形式のマップパターン(文字情報)をメモリ内に作成する。
ステップS48では、共通ページ定義から、プリントライン、改行幅情報を取得する。
ステップS49では、プリントラインに設定されている行数分、プリントラインデータオブジェクトを内部メモリ内に作成する。
ステップS50では、プリントラインデータオブジェクトは、データの行リストで保持している行単位のテキストを割り当てるためのものであり、このデータを用いて、独自帳票データ(帳票実績ファイル)のテキスト情報を作成することとなる。
ステップS51では、データの行リストから1行分のデータを取得する。
ステップS52では、共通ページ定義のプリントラインのY座標と1行分のデータのY座標が一致するかを判定する
ステップS53では、一致した場合は、1行分のテキストをプリントラインデータオブジェクトに割り当てる。一致しなかった場合は、データ無しとしてNULLを割り当てる。
ステップS54では、共通ページ定義のプリントラインのY座標を改行幅の分だけずらし、データの行リストが全てのプリントラインデータオブジェクトに割り当てられるまで処理を繰り返して実行する。
プリントデータオブジェクトに割り当てる処理の概略図が図13である。
ステップS55では、データの行リストが全て割り当てられた後、プリントラインデータオブジェクトの行数が余っている場合、残りは全てNULLを割り当てる。
ステップS56では、プリントラインデータオブジェクトに割り当てられたデータは独自帳票データへの変換を容易にするため、変換しやすい1ページ分のテキストリストとして作成するための格納リストを作成する。
ステップS57では、このリストには行単位のテキストリストを格納するため、プリントラインデータに割り当てられた1行分のテキスト単位(1文字単位)で、独自帳票データのテキストオブジェクト・マップパターンを作成する。マップパターンとは、1文字ずつのバイト数・高さ・幅・フォント・ピッチ(次の文字との間隔)・斜体・太字といった情報を保持するものである。なお、フォントや斜体・太文字などは、PDFファイルの文字の属性として保持しているものを記憶する。
ステップS58では、作成した1行分のテキストオブジェクトをテキストリストに追加し、これをプリントラインデータに割り当てられた行数分繰返し実行する。これにより、1ページ分のテキストリストが作成される。すなわち、特定した行に含まれるテキストデータを特定するテキストデータ特定処理である。
ステップS59では、1ページ分のテキストリストを、一括で独自帳票データのテキスト情報に変換しやすいように、1ページ分テキスト情報として変換する。
ステップS60では、同じようにメモリ上のマップパターンを1ページ分のマップパターンとして変換する。
ステップS61では、1ページ分テキスト情報をテキスト情報ファイル(REPファイル)として書き込み、1ページ分の情報が格納されたテキスト情報ファイルが作成される。
ステップS62では、1ページ分マップパターンを文字情報ファイル(MAPファイル)として書き込み、1ページ分の情報が格納された文字情報ファイルが作成される。ここまでの処理を繰返し実施することで、全ページ分のテキスト情報ファイル・文字情報ファイルが作成される。
ステップS63では、作成した共通ページ定義情報を、作成した数だけページ情報ファイル(PAGファイル)として書き込む。ここで、フィールドの値が記憶され、各ページの各行の領域が定義される。このフィールドの値は、独自ファイル形式でのテキスト検索の際に用いられるものである。
本実施形態では、フィールドの値の終了位置のX座標は、ステップS34で説明した「用紙サイズ−48」(ドット)となるが、各行のテキストの終端の座標を定義することも可能である。この場合、不要な領域を定義することがなり、より適切な独自形式のファイルとなる。
ステップS64では、中間データとして作成されたフォーム情報(S08で生成されたフォーム情報)を、フォーム情報ファイル(FRMファイル)に書き込む形に変換し、ファイルへと書き込む。
ステップS61〜ステップS64の処理は、テキストデータ特定処理で特定されたテキストデータを含む第1のファイルと、各テキストデータに対して、第2の文書データから得られる属性情報を割り当てた第2のファイルと、行特定処理で特定された行に従って、決定されたテキストデータを描画する位置を記憶する第3のファイルと、罫線抽出処理により抽出された罫線情報を含むフォームデータを記憶する第4のファイルとを生成するファイル生成処理である。
ステップS65では、共通ページ定義を使用した独自帳票データ(帳票実績ファイル)に帳票識別情報が付与されて電子帳票システムへの登録が完了する。すなわち、ファイル生成処理により生成された第1のファイルと第2のファイルと第3のファイルと第4のファイルとを、第1の文書として登録する登録処理である。
登録が完了すると、PDFファイルは削除される。また、この登録された独自帳票データを用いて、クライアント端末のブラウザで帳票を閲覧する。
以上、本実施形態を説明したが、本実施の形態では、帳票ファイル213を表示させる際に、ACTIVE−Xが帳票サーバ100からクライアントPCにダウンロードされ、クライアントPC上のブラウザにより帳票ファイル213が表示される。また、各種表示制御をACTIVE−Xを用いて制御するように構成しているが、これに限定されない。例えば、ブラウザを用いることなく、クライアントサーバ型のシステムで構成してもよい。この場合、クライアントPC側に、帳票ファイル213を表示、検索することができる独自のプログラムを予めインストールさせて実現させることも可能である。
以上説明したように、本実施形態によれば、PDFファイルなどのテキストデータとテキストデータの属性情報と罫線情報とを1ファイルに含む文書データを、電子帳票システムで容易に扱えるファイルに変換することができる。
特に、PDFを電子帳票システムにおいて電子帳票として扱うことが可能となるので、ユーザの業務の効率化を図ることが可能となる。
なお、上述した各種データの構成及びその内容はこれに限定されるものではなく、用途や目的に応じて、様々な構成や内容で構成されることは言うまでもない。
以上、一実施形態について示したが、本発明は、例えば、システム、装置、方法、プログラムもしくは記録媒体等としての実施態様をとることが可能であり、具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
また、本発明におけるプログラムは、図6、図9、図14、図15に示すフローチャートの処理方法をコンピュータが実行可能なプログラムであり、本発明の記憶媒体は図6、図9、図14、図15の処理方法をコンピュータが実行可能なプログラムが記憶されている。なお、本発明におけるプログラムは図6、図9、図14、図15の各装置の処理方法ごとのプログラムであってもよい。
以上のように、前述した実施形態の機能を実現するプログラムを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムを読出し実行することによっても、本発明の目的が達成されることは言うまでもない。
この場合、記録媒体から読み出されたプログラム自体が本発明の新規な機能を実現することになり、そのプログラムを記憶した記録媒体は本発明を構成することになる。
プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、DVD−ROM、磁気テープ、不揮発性のメモリカード、ROM、EEPROM、シリコンディスク、ソリッドステートドライブ等を用いることができる。
また、コンピュータが読み出したプログラムを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
また、本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。また、本発明は、システムあるいは装置にプログラムを供給することによって達成される場合にも適応できることは言うまでもない。この場合、本発明を達成するためのプログラムを格納した記録媒体を該システムあるいは装置に読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。
さらに、本発明を達成するためのプログラムをネットワーク上のサーバ、データベース等から通信プログラムによりダウンロードして読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。
なお、上述した各実施形態およびその変形例を組み合わせた構成も全て本発明に含まれるものである。
100 帳票サーバ
101 クライアントPC
102 クライアントPC
103 ネットワーク
201 CPU
202 RAM
203 ROM
211 外部メモリ

Claims (6)

  1. テキストデータを記憶する第1のファイルと、テキストデータの属性情報を記憶する第2のファイルと、テキストデータの描画位置を記憶する第3のファイルと、前記テキストデータと合成するためのフォームデータを記憶する第4のファイルとを含む第1の文書データを管理する情報処理装置であって、
    テキストデータとテキストデータの属性情報と罫線情報とを1ファイルに含む第2の文書データを取り込む取込手段と、
    前記第2の文書データから、罫線情報を抽出する罫線抽出手段と、
    前記第2の文書データの各ページのテキストデータの配置位置から、ページ共通の行を特定する行特定手段と、
    前記行特定手段で特定した行に含まれるテキストデータを特定するテキストデータ特定手段と、
    前記テキストデータ特定手段で特定されたテキストデータを含む第1のファイルと、
    各テキストデータに対して、前記第2の文書データから得られる属性情報を割り当てた第2のファイルと、
    前記行特定手段で特定された行に従って、決定されたテキストデータを描画する位置を記憶する第3のファイルと、
    前記罫線抽出手段により抽出された罫線情報を含むフォームデータを記憶する第4のファイルとを生成するファイル生成手段と、
    前記ファイル生成手段により生成された前記第1のファイルと前記第2のファイルと前記第3のファイルと前記第4のファイルとを、前記第1の文書として登録する登録手段と
    を備えることを特徴とする情報処理装置。
  2. 前記テキストデータの配置位置のY座標に従って、行の位置を決定する行位置決定手段とを備え、
    前記行特定手段は、前記行位置決定手段により決定された各ページごとの行位置に従って、ページ共通の行を特定することを特徴とする請求項1に記載の情報処理装置。
  3. 前記テキストデータの1文字ごとに配置位置のX座標に従って、各行の文字を配列する配列手段とを備え、
    前記データ特定手段は、前記配列手段により並び替えられた文字を取得することを特徴とする請求項2に記載の情報処理装置。
  4. 前記第2の文書データはPDFファイルであり、
    前記ファイル生成手段は、当該PDFファイルから前記第1のファイルと前記第2のファイルと前記第3のファイルと前記第4のファイルとを生成することを特徴とする請求項1乃至3のいずれか1項に記載の情報処理装置。
  5. テキストデータを記憶する第1のファイルと、テキストデータの属性情報を記憶する第2のファイルと、テキストデータの描画位置を記憶する第3のファイルと、前記テキストデータと合成するためのフォームデータを記憶する第4のファイルとを含む第1の文書データを管理する情報処理装置の処理方法であって、
    前記情報処理装置が、
    テキストデータとテキストデータの属性情報と罫線情報とを1ファイルに含む第2の文書データを取り込む取込ステップと、
    前記第2の文書データから、罫線情報を抽出する罫線抽出ステップと、
    前記第2の文書データの各ページのテキストデータの配置位置から、ページ共通の行を特定する行特定ステップと、
    前記行特定ステップで特定した行に含まれるテキストデータを特定するテキストデータ特定ステップと、
    前記テキストデータ特定ステップで特定されたテキストデータを含む第1のファイルと、
    各テキストデータに対して、前記第2の文書データから得られる属性情報を割り当てた第2のファイルと、
    前記行特定ステップで特定された行に従って、決定されたテキストデータを描画する位置を記憶する第3のファイルと、
    前記罫線抽出ステップにより抽出された罫線情報を含むフォームデータを記憶する第4のファイルとを生成するファイル生成ステップと、
    前記ファイル生成ステップにより生成された前記第1のファイルと前記第2のファイルと前記第3のファイルと前記第4のファイルとを、前記第1の文書として登録する登録ステップと
    そ実行することを特徴とする処理方法。
  6. テキストデータを記憶する第1のファイルと、テキストデータの属性情報を記憶する第2のファイルと、テキストデータの描画位置を記憶する第3のファイルと、前記テキストデータと合成するためのフォームデータを記憶する第4のファイルとを含む第1の文書データを管理する情報処理装置で実行可能なプログラムであって、
    前記情報処理装置を、
    テキストデータとテキストデータの属性情報と罫線情報とを1ファイルに含む第2の文書データを取り込む取込手段と、
    前記第2の文書データから、罫線情報を抽出する罫線抽出手段と、
    前記第2の文書データの各ページのテキストデータの配置位置から、ページ共通の行を特定する行特定手段と、
    前記行特定手段で特定した行に含まれるテキストデータを特定するテキストデータ特定手段と、
    前記テキストデータ特定手段で特定されたテキストデータを含む第1のファイルと、
    各テキストデータに対して、前記第2の文書データから得られる属性情報を割り当てた第2のファイルと、
    前記行特定手段で特定された行に従って、決定されたテキストデータを描画する位置を記憶する第3のファイルと、
    前記罫線抽出手段により抽出された罫線情報を含むフォームデータを記憶する第4のファイルとを生成するファイル生成手段と、
    前記ファイル生成手段により生成された前記第1のファイルと前記第2のファイルと前記第3のファイルと前記第4のファイルとを、前記第1の文書として登録する登録手段
    として機能させることを特徴とするプログラム。
JP2014222121A 2014-10-31 2014-10-31 情報処理装置、文書管理システムとその処理方法及びプログラム。 Active JP6550721B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014222121A JP6550721B2 (ja) 2014-10-31 2014-10-31 情報処理装置、文書管理システムとその処理方法及びプログラム。

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014222121A JP6550721B2 (ja) 2014-10-31 2014-10-31 情報処理装置、文書管理システムとその処理方法及びプログラム。

Publications (3)

Publication Number Publication Date
JP2016091131A true JP2016091131A (ja) 2016-05-23
JP2016091131A5 JP2016091131A5 (ja) 2017-12-14
JP6550721B2 JP6550721B2 (ja) 2019-07-31

Family

ID=56018617

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014222121A Active JP6550721B2 (ja) 2014-10-31 2014-10-31 情報処理装置、文書管理システムとその処理方法及びプログラム。

Country Status (1)

Country Link
JP (1) JP6550721B2 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08194696A (ja) * 1995-01-18 1996-07-30 Casio Comput Co Ltd 文書イメージ処理装置
JP2006309593A (ja) * 2005-04-28 2006-11-09 Canon Marketing Japan Inc 帳票処理装置、帳票処理方法、プログラム及び記録媒体
JP2013080348A (ja) * 2011-10-03 2013-05-02 Canon Inc 画像処理装置、画像処理方法、およびプログラム
JP2014119939A (ja) * 2012-12-17 2014-06-30 Canon Marketing Japan Inc 情報処理装置、情報処理方法、プログラム、情報処理システム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08194696A (ja) * 1995-01-18 1996-07-30 Casio Comput Co Ltd 文書イメージ処理装置
JP2006309593A (ja) * 2005-04-28 2006-11-09 Canon Marketing Japan Inc 帳票処理装置、帳票処理方法、プログラム及び記録媒体
JP2013080348A (ja) * 2011-10-03 2013-05-02 Canon Inc 画像処理装置、画像処理方法、およびプログラム
JP2014119939A (ja) * 2012-12-17 2014-06-30 Canon Marketing Japan Inc 情報処理装置、情報処理方法、プログラム、情報処理システム

Also Published As

Publication number Publication date
JP6550721B2 (ja) 2019-07-31

Similar Documents

Publication Publication Date Title
US10366154B2 (en) Information processing device, information processing method, and computer program product
JP2009003802A (ja) 情報表示装置及び情報表示方法
CN108228119A (zh) 基于hxml的打印方法、终端设备及存储介质
US10839146B2 (en) Information processing system, information processing apparatus, control method, and storage medium
JP2018063501A (ja) 情報処理装置及び文書表示方法、文書表示システムおよびプログラム
JP5046984B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP4959501B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP5167200B2 (ja) 印刷ジョブ抽出装置およびプリントシステム
JP2006065467A5 (ja)
JP6558339B2 (ja) 画像処理装置及び画像処理プログラム
JP6550721B2 (ja) 情報処理装置、文書管理システムとその処理方法及びプログラム。
JP2004326626A (ja) 構造化文書ファイル管理装置および構造化文書ファイル管理方法
JP6327918B2 (ja) 画像検索装置及びその制御方法
JP2015064652A (ja) 管理システム、画像形成装置及び端末装置
JP2018106538A (ja) 情報処理装置、情報処理システム、制御方法、プログラム
JP2004145736A (ja) 文字認識装置および文字認識データ出力方法およびプログラムおよび記録媒体
JP7315817B2 (ja) 情報処理装置及びその制御方法、プログラム
JP4946762B2 (ja) 画像処理装置及びプログラム
US20230058537A1 (en) Information processing apparatus and system and non-transitory computer readable medium
JP5414615B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2006238248A (ja) 複数のデータを含んだデータ群の処理装置及び方法
CN116823841A (zh) 画板处理方法、装置、设备及存储介质
JP2008033647A (ja) ドキュメントセット作成装置及びドキュメントセット作成方法
JP6175414B2 (ja) 文書処理装置および文書処理プログラム
JP2017175414A (ja) 画像処理サーバ、データ送信プログラム及び振分装置

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20161101

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20161101

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171030

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171030

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20180703

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180928

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20181031

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181225

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190604

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190617

R151 Written notification of patent or utility model registration

Ref document number: 6550721

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250