JP2021163363A - Information processing apparatus, data cooperation system, method, and program - Google Patents
Information processing apparatus, data cooperation system, method, and program Download PDFInfo
- Publication number
- JP2021163363A JP2021163363A JP2020066621A JP2020066621A JP2021163363A JP 2021163363 A JP2021163363 A JP 2021163363A JP 2020066621 A JP2020066621 A JP 2020066621A JP 2020066621 A JP2020066621 A JP 2020066621A JP 2021163363 A JP2021163363 A JP 2021163363A
- Authority
- JP
- Japan
- Prior art keywords
- data
- pdf file
- linked
- item name
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 82
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000000605 extraction Methods 0.000 claims abstract description 57
- 238000013075 data extraction Methods 0.000 claims abstract description 22
- 239000000284 extract Substances 0.000 claims abstract description 5
- 230000005540 biological transmission Effects 0.000 claims 3
- 230000008569 process Effects 0.000 description 18
- 238000004891 communication Methods 0.000 description 15
- 238000013500 data storage Methods 0.000 description 14
- 238000012795 verification Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 238000007726 management method Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 235000008247 Echinochloa frumentacea Nutrition 0.000 description 1
- 240000004072 Panicum sumatrense Species 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000005401 electroluminescence Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
本発明は、情報処理装置、データ連携システム、方法およびプログラムに関する。 The present invention relates to an information processing device, a data linkage system, a method and a program.
PDF(Portable Document Format)ファイルは、ユーザの操作する端末の使用環境に影響されることがなく、ページ単位での印刷また画面表示ができレイアウトが崩れないため、ビジネス文書として広く利用されている。PDFファイルは、表計算や文書作成等のアプリケーションプログラムによって文書内容を記述した文書ファイルを作成し、作成した文書ファイルをPDF形式に変換して生成することが一般的である。 PDF (Portable Document Format) files are widely used as business documents because they are not affected by the usage environment of the terminal operated by the user, can be printed on a page-by-page basis, can be displayed on the screen, and the layout does not collapse. The PDF file is generally generated by creating a document file in which the document contents are described by an application program such as table calculation or document creation, and converting the created document file into PDF format.
このようにして生成したPDFファイルは、文書ファイルの作成の仕方によって内部のデータ構造が若干異なり、キーワード検索でユーザが意図する検索ができない場合があるという問題があった。かかる問題に対し、PDFファイルから抽出した文字情報を含む検索用ファイルとPDFファイルとを対応付け一つの帳票ファイルとしてデータベースに登録し、登録した帳票ファイルに対する閲覧要求に応じ、ユーザが選択する任意の矩形領域と検索条件から判断した検索対象とすべき行に対し検索を実行する技術が開示されている(特許文献1参照)。 The PDF file generated in this way has a problem that the internal data structure is slightly different depending on the method of creating the document file, and the search intended by the user may not be possible by the keyword search. In response to this problem, the search file containing the character information extracted from the PDF file and the PDF file are associated and registered in the database as one form file, and any arbitrary user can select in response to the viewing request for the registered form file. A technique for executing a search for a line to be searched based on a rectangular area and a search condition is disclosed (see Patent Document 1).
しかしながら、上述した特許文献1に記載した技術では、検索用ファイルとPDFファイルとを対応付けて一つの帳票ファイルとしてデータベースに格納するため、ファイル管理が煩雑になるという問題があった。
However, in the technique described in
また、請求書のように文書の形式がある程度決まっており、ユーザが必要とするデータが予め決まっているようなPDFファイルに対しても、任意の文言が検索できるよう検索用ファイルを生成し、検索用ファイルとPDFファイルを対応付けてデータベースに格納する必要があり、事前準備作業が多く、データベースを含むファイル管理システムが必要となるため、簡易な処理でPDFファイルから必要なデータを取得することができないという問題があった。 In addition, a search file is generated so that any wording can be searched even for a PDF file in which the format of the document is determined to some extent such as an invoice and the data required by the user is determined in advance. Since it is necessary to associate the search file and the PDF file and store them in the database, there is a lot of preparatory work and a file management system including the database is required, so it is necessary to acquire the necessary data from the PDF file with a simple process. There was a problem that it could not be done.
本発明は、上記に鑑みてなされたものであり、文書をユーザ環境に影響されることなく所定のレイアウトで印刷および画面表示することができるとともに、ユーザの必要とするデータを容易に取得することができる情報処理装置、データ連携システム、方法およびプログラムを提供することを目的とする。 The present invention has been made in view of the above, and the document can be printed and displayed on the screen in a predetermined layout without being affected by the user environment, and the data required by the user can be easily acquired. The purpose is to provide information processing devices, data linkage systems, methods and programs that can be used.
上述した課題を解決するために、本発明では、PDFファイルにおける領域と、データの意味を示す項目名と、を対応付けて記憶する抽出ルール記憶手段、を備え、入力されたPDFファイルから抽出ルール記憶手段に記憶する項目名に対応付けられた領域に含まれるデータを抽出し、PDFファイルに、項目名と、抽出したデータとを対応付けた連携データを追記した連携PDFファイルを生成することを特徴とする。 In order to solve the above-mentioned problems, the present invention includes an extraction rule storage means for storing an area in a PDF file and an item name indicating the meaning of data in association with each other, and an extraction rule from an input PDF file. It is possible to extract the data included in the area associated with the item name stored in the storage means and generate a linked PDF file in which the linked data associated with the item name and the extracted data is added to the PDF file. It is a feature.
上述したように構成した本発明によれば、文書をユーザ環境に影響されることなく所定のレイアウトで印刷および画面表示することができるとともに、ユーザの必要とするデータを容易に取得することができるという効果を奏する。 According to the present invention configured as described above, the document can be printed and displayed on the screen in a predetermined layout without being affected by the user environment, and the data required by the user can be easily acquired. It plays the effect.
添付図面を参照し本開示での1または複数の実施例を説明する。以下の説明は、本開示の実施の形態の例示であり、本開示はこれらの実施例に限定されるものではない。 One or more embodiments in the present disclosure will be described with reference to the accompanying drawings. The following description is an example of embodiments of the present disclosure, and the present disclosure is not limited to these examples.
図1は、本実施例にかかるデータ連携システム10の構成および情報処理装置100の構成を示すブロック図である。データ連携システム10は、情報処理装置100と、情報処理装置200と、情報処理装置300と、他のシステムが動作する情報処理装置400と、を備える。情報処理装置100と情報処理装置200と情報処理装置300と情報処理装置400とは、図1に示すように、ネットワークNを介して互いに通信可能に接続する。ネットワークNは、インターネット、イントラネット、LAN(Local Area Network)やVPN(Virtual Private Network)、移動体通信網等の任意の通信ネットワークおよびその組合せであり、その一部または全部が有線または無線であってもよい。
FIG. 1 is a block diagram showing a configuration of a
情報処理装置100は、連携データを追記したPDFファイル(以下、連携PDFファイルという)を生成するコンピュータであり、パーソナルコンピュータ(以下、PCという)、タブレット端末、スマートフォン、サーバ等である。情報処理装置100は、情報処理装置100は、図1に示すように、制御部110、記憶部120、操作表示部130、通信部140等を備える。
The information processing device 100 is a computer that generates a PDF file (hereinafter referred to as a linked PDF file) to which linked data is added, and is a personal computer (hereinafter referred to as a PC), a tablet terminal, a smartphone, a server, or the like. As shown in FIG. 1, the information processing device 100 includes a control unit 110, a storage unit 120, an
制御部110は、記憶部120に記憶する種々のプログラムおよび制御情報を展開して実行することにより、情報処理装置100全体の動作を制御する。制御部110は、データ抽出部111、連携PDFファイル生成部112、タイムスタンプ付与部113、電子署名付与部114、QRコード生成部115として機能する。
The control unit 110 controls the operation of the entire information processing device 100 by developing and executing various programs and control information stored in the storage unit 120. The control unit 110 functions as a
記憶部120は、抽出ルール記憶部121と、図示しない、各部を制御するためのプログラム、アプリケーションプログラム、各種制御情報や中間ファイル等を記憶する。
The storage unit 120 stores the extraction
抽出ルール記憶部121は、PDFファイルからデータを抽出するためのルールを記述した抽出ルール定義ファイルを記憶する。より具体的には、抽出ルール定義ファイルは、位置情報と、項目名と、フォーマットとを対応付けて記憶する。図2は、抽出ルール記憶部121に記憶する抽出ルール定義ファイルの一例を示す説明図である。図2に示す例では、抽出ルール定義ファイルをJSON形式で記述しており、抽出するデータごとに、位置情報21と、項目名22と、フォーマット23との組合せで記述する。抽出ルール定義ファイルは、JSON形式に限らず、抽出ルールを定義できれば、どのような形式であってもよい。また、抽出ルール定義ファイルは、PDFファイルの種別に応じ複数の抽出ルール定義ファイルを抽出ルール記憶部121に記憶してもよい。
The extraction
ここで、位置情報とは、ページごとに管理されるPDFファイルをページごとに印刷または表示した画像のなかでの抽出対象のデータが配置された領域を示す情報であり、図2に示す抽出ルール定義ファイル例では、PDFファイルの1ページにおける領域を矩形の座標として記述している。位置情報は、PDFファイルの所定の位置(例えば、PDFファイルの左上)を原点とし、X軸方向の座標、Y軸方向の座標として記載するほか、PDFファイルの長辺における割合と短辺における割合(例えば、原点から短辺方向15%、長辺方向20%の位置等)で示してもよい。なお、位置情報は、矩形での4点に限る必要はなく、多角形や円、楕円等であってもよい。
Here, the position information is information indicating an area in which the data to be extracted is arranged in the image in which the PDF file managed for each page is printed or displayed for each page, and the extraction rule shown in FIG. In the definition file example, the area on one page of the PDF file is described as the coordinates of the rectangle. The position information is described as the coordinates in the X-axis direction and the coordinates in the Y-axis direction with the predetermined position of the PDF file (for example, the upper left of the PDF file) as the origin, and the ratio on the long side and the ratio on the short side of the PDF file. (For example, a
項目名とは、PDFファイルから抽出するデータ(文字や数字等)の意味を示す情報であり、例えば、データ抽出対象であるPDFファイルが“請求書”であれば、項目名の一例として“会社名”、“金額”、“請求No”、“日付”、“消費税”等を項目名としてもよい。フォーマットとは、位置情報に含まれるデータを抽出する際に抽出するデータの形式を示すものであり、位置情報に含まれる、または位置情報に一部が重なるとして抽出されたデータのなかから、フォーマットに合致するデータを抽出してもよい。 The item name is information indicating the meaning of the data (characters, numbers, etc.) extracted from the PDF file. For example, if the PDF file to be extracted from the data is an "invoice", an example of the item name is "company". The item name may be "name", "amount", "billing number", "date", "consumption tax", or the like. The format indicates the format of the data to be extracted when extracting the data included in the position information, and is a format from the data included in the position information or extracted as a part overlapping the position information. Data matching the above may be extracted.
操作表示部130は、ユーザによる操作等を受付け、操作等に対する結果を表示する。操作表示部130は、アプリケーションプログラムで作成した文書ファイルやPDFファイルの画像等を表示する。操作表示部130は、例えばPCの場合は、液晶ディスプレイ(LCD:Liquid Crystal Display)や有機EL(electroluminescence)ディスプレイ等の表示装置、キーボード、マウス等であり、タブレット端末、スマートフォンの場合は、液晶ディスプレイとタッチセンサを重畳して構成するタッチパネル等である。通信部140は、ネットワークNを介して他の装置と互いに通信可能に接続し、他の装置とデータを送受信する。
The
次に、制御部110で機能する、データ抽出部111、連携PDFファイル生成部112、タイムスタンプ付与部113、電子署名付与部114、QRコード生成部115について説明する。
Next, the
データ抽出部111は、データ抽出対象であるPDFファイルから、抽出ルール記憶部121に記憶する抽出ルール定義ファイルに記述した位置情報と項目名とフォーマットに基づいて、項目名ごとのデータ(以下、連携データという)を抽出する。データ抽出部111は、抽出した連携データをXML(Extensible Markup Language)形式(またはCSV形式、その他の形式)に変換する。
The
連携PDFファイル生成部112は、連携データをPDFファイルの不可視領域(または可視領域)に追記したPDFファイルである連携PDFファイルを生成する。連携PDFファイル生成部112は、後述するQRコード生成部115によって生成したQRコード(登録商標)をPDFファイルに追記した連携PDFファイルを生成する。
The cooperation PDF
タイムスタンプ付与部113は、連携PDFファイルのハッシュ値を時刻認証局に送信することによって発行されるタイムスタンプを連携PDFファイルに付与する。
The time
電子署名付与部114は、連携PDFファイルのハッシュ値を用いた電子署名を生成し、連携PDFファイルに付与する。なお、電子署名付与部114は、電子署名に代えて、認証局が発行する電子証明書を付与してもよい。さらに、個人(自然人)が作成したことを示す電子署名(または電子証明書)を連携PDFファイルに付与することに代えて、法人や組織が作成したことを示すeシールを付与してもよい。
The electronic
QRコード生成部115は、データ抽出部111が抽出した連携データを示すQRコードを生成する。
The QR
次に、情報処理装置100とともに、データ連携システム10を構成する情報処理装置200および情報処理装置300について説明する。図3は、データ連携システム10が備える情報処理装置200および情報処理装置300の構成を示すブロック図である。情報処理装置200は、連携PDFファイルから連携データを取得し他のシステムに送信するコンピュータであり、サーバやPC、タブレット端末、スマートフォン等である。情報処理装置200は、制御部210、記憶部220、操作表示部230、通信部240等を備える。操作表示部230、通信部240の機能は、上述した操作表示部130、通信部140と同様であるため、操作表示部130、通信部140の説明を参照し、ここでの説明は省略する。
Next, the
記憶部220は、連携PDFファイル記憶部221と、連携データ記憶部222と、図示しない、各部を制御するためのプログラム、アプリケーションプログラム、各種制御情報や中間ファイル等を記憶する。連携PDFファイル記憶部221は、連携データを抽出する連携PDFファイルを記憶する。連携PDFファイル記憶部221は、ネットワークNを介して接続する、1または複数の情報処理装置100から連携PDFファイルを受信し格納する。連携データ記憶部222は、連携PDFファイルから抽出した連携データを格納する。
The storage unit 220 stores a linked PDF
制御部210は、データ連携部211、タイムスタンプ検証部212、電子署名検証部213として機能する。各部について説明する。
The control unit 210 functions as a
データ連携部211は、連携PDFファイル記憶部221に記憶する連携PDFファイルから、連携PDFファイルの不可視領域(または可視領域)に記憶する連携データを取得する。データ連携部211は、取得した連携データを連携データ記憶部222に格納する。
The
タイムスタンプ検証部212は、連携PDFファイルに付与されたタイムスタンプを検証する。より具体的には、タイムスタンプ検証部212は、連携PDFファイルのハッシュ値と、タイムスタンプに含まれるハッシュ値を比較し検証する。
The time
電子署名検証部213は、連携PDFファイルに付与された電子署名を検証する。より具体的には、電子署名検証部213は、連携PDFファイルのハッシュ値と、電子署名を公開鍵で復号したハッシュ値を比較し検証する。
The electronic
情報処理装置300は、情報処理装置100において連携PDFファイルから連携データを抽出する際の抽出ルールを生成するコンピュータであり、サーバやPC等である。情報処理装置300は、制御部310、記憶部320、操作表示部330、通信部340等を備える。操作表示部330、通信部340の機能は、上述した操作表示部130、通信部140と同様であるため、操作表示部130、通信部140の説明を参照し、ここでの説明は省略する。
The
記憶部320は、教師データ記憶部321と、抽出ルール記憶部322と、図示しない、各部を制御するためのプログラム、アプリケーションプログラム、各種制御情報や中間ファイル等を記憶する。教師データ記憶部321は、抽出ルールを生成する際に用いるPDFファイルを記憶する。教師データ記憶部321に記憶するPDFファイルは、ユーザの操作する基幹システム等から収集しても、ネットワークNを介して接続する多くの情報処理装置からクローラで収集してもよい。抽出ルール記憶部322は、抽出ルール定義ファイルを記憶する。
The storage unit 320 stores a teacher
ルール生成部311は、読み込んだPDFファイルから抽出ルール定義ファイルを生成し、抽出ルール記憶部322に格納する。なお、抽出ルール定義ファイルは、PDFファイルの種別ごとに生成し、抽出ルール記憶部322に格納してもよい。
The
上述したように構成されたデータ連携システム10の情報処理装置100、情報処理装置200、情報処理装置300で実行する処理について説明する。図4は、情報処理装置100が実行する連携PDFファイル生成処理手順を示すフローチャートである。
The processing executed by the information processing device 100, the
情報処理装置100は、アプリケーションプログラム上でユーザによる操作を受付け、受付けた操作に応じた処理を実行する(ステップS401)。操作表示部130は、アプリケーションプログラムの終了指示を受付けたか否かを判断する(ステップS402)。アプリケーションプログラムの終了指示を受付けたと判断した場合(ステップS402:Yes)、アプリケーションプログラムを終了する。
The information processing device 100 receives an operation by the user on the application program and executes a process according to the received operation (step S401). The
アプリケーションプログラムの終了指示を受付けていないと判断した場合(ステップS402:No)、操作表示部130は、PDFファイル生成指示を受付けたか否かを判断する(ステップS403)。PDFファイル生成指示を受付けていないと判断した場合(ステップS403:No)、ステップS401に戻り、アプリケーションプログラム上の操作および処理を実行する。
When it is determined that the end instruction of the application program has not been accepted (step S402: No), the
PDFファイル生成指示を受付けたと判断した場合(ステップS403:Yes)、アプリケーションプログラム上で作成した文書からPDFファイルを生成する(ステップS404)。データ抽出部111は、生成したPDFファイルから連携データを抽出する(ステップS405)。より具体的には、データ抽出部111は、抽出ルール記憶部121に記憶する抽出ルール定義ファイルの記述に従い、PDFファイルにおける位置情報が示す領域に含まれるデータのなかから、フォーマットに従いデータを抽出する。なお、領域に含まれるデータには、データが領域に一部かかるものを含めてもよい。データ抽出部111は、抽出したデータと項目名を対応付けた連携データを生成する。連携データの形式は、XML形式、CSV形式、またはその他の形式である。
When it is determined that the PDF file generation instruction has been accepted (step S403: Yes), the PDF file is generated from the document created on the application program (step S404). The
連携PDFファイル生成部112は、PDFファイルに連携データを埋め込んだ連携PDFファイルを生成する(ステップS406)。より具体的には、連携PDFファイル生成部112は、PDFファイルから抽出した連携データをPDFファイルの不可視領域に埋め込む。
The linked PDF
図5は、連携PDFファイルのデータ構成の一例を示す説明図である。図5(a)連携PDFファイルのデータ構成例に示すように、連携PDFファイルは、可視領域にページコンテンツを記憶し、不可視領域に連携データを記憶する。連携PDFファイルを画面に表示すると、画面表示例に示すように、可視領域に記憶するページコンテンツに記述された内容が表示される。なお、ページコンテンツは、1ページに限らず、複数ページであってもよい。連携データは、連携データ例に示すようなデータがPDFファイル内に格納されているが、不可視領域に格納されているため、画面には表示されない。抽出ルール定義ファイルに、ページ番号を含んでもよく、ページごとに記述したデータを抽出してもよい。 FIG. 5 is an explanatory diagram showing an example of the data structure of the linked PDF file. As shown in FIG. 5A (a) Data configuration example of the linked PDF file, the linked PDF file stores the page content in the visible area and stores the linked data in the invisible area. When the linked PDF file is displayed on the screen, the content described in the page content stored in the visible area is displayed as shown in the screen display example. The page content is not limited to one page, and may be a plurality of pages. The linked data is stored in the PDF file as shown in the linked data example, but is not displayed on the screen because it is stored in the invisible area. The page number may be included in the extraction rule definition file, or the data described for each page may be extracted.
タイムスタンプ付与部113は、連携PDFファイルにタイムスタンプを付与する(ステップS407)。より具体的には、タイムスタンプ付与部113は、連携PDFファイルのハッシュ値を算出し、算出したハッシュ値を時刻認証局に送信し、時刻認証局から受信したタイムスタンプを連携PDFファイルに付与する。
The
電子署名付与部114は、連携PDFファイルに電子署名を付与する(ステップS408)。より具体的には、電子署名付与部114は、連携PDFファイルのハッシュ値を算出し、算出したハッシュ値を秘密鍵で暗号化した電子署名を生成し、生成した電子署名を連携PDFファイルに付与する。図5(b)は、連携PDFファイルにタイムスタンプおよび電子署名を付加した例である。なお、連携PDFファイルには、タイムスタンプおよび電子署名の両方を付与しても、いずれか一方を付与しても、どちらも付与しなくてもよい。
The electronic
このように、印刷や画面表示においてレイアウトが崩れることがないPDFファイルから、抽出ルール定義ファイルに記述された項目名ごとの領域に基づいて連携データを抽出し、抽出したデータをPDFファイル内に格納することによって、PDFファイルを介して他のシステムにPDFファイルに含まれるデータをデータの意味を示す項目名とともに容易に受け渡しすることができる。これにより、他のシステムでもPDFファイルに含まれるデータを容易に利用することができる。また、PDFファイルに連携データが埋め込まれているため、1つのファイルとして送受信することができ、取り扱いが容易であるとともに、PDFファイルをPDFビューアで表示または印刷することでデータの根拠を容易に確認することができる。 In this way, the linked data is extracted from the PDF file whose layout does not collapse in printing or screen display based on the area for each item name described in the extraction rule definition file, and the extracted data is stored in the PDF file. By doing so, the data contained in the PDF file can be easily passed to another system via the PDF file together with the item name indicating the meaning of the data. As a result, the data contained in the PDF file can be easily used in other systems. In addition, since the linked data is embedded in the PDF file, it can be sent and received as one file, which is easy to handle, and the basis of the data can be easily confirmed by displaying or printing the PDF file with the PDF viewer. can do.
また、連携PDFファイルにタイムスタンプを付与することによって、タイムスタンプに刻印されている時刻以前に連携PDFファイルが存在し、改ざんされていないことを確認することができる。連携PDFファイルに電子署名を付与し、受取先で電子署名を検証することによって、連携PDFファイルが改ざんされていないことや連携PDFファイルを生成したユーザがなりすましではない正当なユーザであることを確認することができる。 Further, by adding a time stamp to the linked PDF file, it can be confirmed that the linked PDF file exists before the time stamped on the time stamp and has not been tampered with. By assigning an electronic signature to the linked PDF file and verifying the electronic signature at the recipient, it is confirmed that the linked PDF file has not been tampered with and that the user who generated the linked PDF file is a legitimate user who is not spoofed. can do.
次に、情報処理装置200で実行するデータ連携処理について説明する。図6は、情報処理装置200が実行するデータ連携処理手順を示すフローチャートである。
Next, the data linkage process executed by the
データ連携部211は、連携PDFファイル記憶部221から連携PDFファイルを読込む(ステップS601)。データ連携部211は、連携PDFファイル記憶部221から連携PDFファイルを読込むことに代えて、他の情報処理装置からネットワークNを介して送信される連携PDFファイルを受信して読込んでもよい。
The
タイムスタンプ検証部212は、連携PDFファイルに付与されたタイムスタンプを検証する(ステップS602)。より具体的には、タイムスタンプ検証部212は、連携PDFファイルからハッシュ値を算出し、タイムスタンプに含まれるハッシュ値と比較し、合致すると判断した場合、タイムスタンプに含まれる時刻以降連携PDFファイルが改ざんされていないと判断する。タイムスタンプが検証できない、すなわちハッシュ値が合致しないと判断した場合は、連携PDFファイルを識別する情報とともに、タイムスタンプが検証できなかった旨をログファイルに書き込み、ステップS606に進む。
The time
電子署名検証部213は、連携PDFファイルに付与された電子署名を検証する(ステップS603)。より具体的には、電子署名検証部213は、連携PDFファイルのハッシュ値と、電子署名を公開鍵で復号して得られるハッシュ値と比較し、合致するか否かを判断する。電子署名が検証できない、すなわちハッシュ値が合致しないと判断した場合は、連携PDFファイルを識別する情報とともに、電子署名が検証できなかった旨をログファイルに書き込み、ステップS606に進む。
The electronic
データ連携部211は、連携PDFファイルに含まれる連携データを取得する(ステップS604)。データ連携部211は、取得した連携データを連携データ記憶部222に格納する(ステップS605)。データ連携部211は、連携PDFファイルの読込みを終了するか否かを判断する(ステップS606)。より具体的には、データ連携部211は、抽出対象で、かつ、データを抽出されていない連携PDFファイルが連携PDFファイル記憶部221に記憶されているか否かを判断する。その他、所定時間までに受信した連携PDFファイルであるか否か等によって、連携データ抽出を終了するか否かを判断してもよい。
The
連携PDFファイルの読込みを終了しないと判断した場合(ステップS606:No)、ステップS601に戻り、連携データの抽出処理を続行する。連携PDFファイルの読込みを終了すると判断した場合(ステップS606:Yes)、連携データ記憶部222に記憶する連携データを他のシステムに送信する(ステップS607)。他のシステム(例えば、会計システムや業務管理システム等)が動作する情報処理装置400にネットワークNを介して連携データを送信し、他のシステムでは、受信した連携データを用いた処理を実行する。
When it is determined that the reading of the linked PDF file is not completed (step S606: No), the process returns to step S601 and the linked data extraction process is continued. When it is determined that the reading of the linked PDF file is finished (step S606: Yes), the linked data stored in the linked
このように、図5に示すような連携PDFファイルのデータ構造を採ることによって、連携PDFファイルから連携データを容易に取得することができる。連携PDFファイルは、PDF形式の1つのファイルであるため、コンピュータ間で容易に送受信することができ、データベースのような仕組みを利用する必要もなく、1つのファイルでデータを管理することができる。 By adopting the data structure of the linked PDF file as shown in FIG. 5 in this way, the linked PDF file can be easily obtained. Since the linked PDF file is one file in PDF format, it can be easily transmitted and received between computers, and data can be managed by one file without the need to use a mechanism like a database.
また、連携PDFファイルにタイムスタンプや電子署名を付与し、連携データを抽出する際に、タイムススタンプや電子署名を検証することによって改ざんやなりすましがないデータであることを確認することができる。なお、連携PDFファイルにタイムスタンプや電子署名を付与しない場合は、タイムスタンプや電子署名の検証処理は実行せず、連携データを抽出する。 Further, when a time stamp or an electronic signature is given to the linked PDF file and the linked data is extracted, it can be confirmed that the data is not tampered with or spoofed by verifying the time stamp or the electronic signature. If the time stamp or electronic signature is not added to the linked PDF file, the time stamp or electronic signature verification process is not executed and the linked data is extracted.
他の実施例について説明する。上述した図4の連携PDFファイル生成処理でのステップS406において、連携PDFファイル生成部112は、PDFファイルから抽出した連携データをPDFファイルの不可視領域に埋め込んだが、不可視領域に代えて可視領域に連携データを埋め込んでもよい。以下に、連携データを可視領域に埋め込む場合のデータ構成および表示処理について説明する。
Other examples will be described. In step S406 in the linked PDF file generation process of FIG. 4 described above, the linked PDF
図7は、連携PDFファイルのデータ構成の一例を示す説明図である。図7に示す連携PDFファイルでは、ページコンテンツを可視領域1に、連携データを可視領域2に記憶する。可視領域1に記憶するページコンテンツは、図5と同様に画面に表示され、可視領域2に連携データを記憶する場合は、画面のPDFファイル上にデータが存在することを示すマーク71を表示する。
FIG. 7 is an explanatory diagram showing an example of the data structure of the linked PDF file. In the linked PDF file shown in FIG. 7, the page content is stored in the
連携PDFファイルの可視領域2に連携データを埋め込んだ場合の、情報処理装置100での連携PDFファイルの表示処理について説明する。図8は、情報処理装置100が実行する連携PDFファイルの表示処理手順を示すフローチャートである。
The display processing of the linked PDF file in the information processing apparatus 100 when the linked data is embedded in the
操作表示部130は、表示対象である連携PDFファイルの指示を受付ける(ステップS801)。操作表示部130は、連携PDFファイルのページコンテンツを画面に表示する(ステップS802)。その際、図7に示す画面表示例のように、ページコンテンツの内容を表示することに加え、可視領域2に連携データを記憶することを示すマーク71を表示する。マーク71は、図7に示すようなピンのほか円やその他の図形でもよく、連携データが存在することを示すものであればどのようなものでもよい。
The
操作表示部130は、連携データの表示指示を受付けたか否かを判断する(ステップS803)。図7に示す例では、連携データを記憶することを示すマーク71の指示を受付けたか否かを判断する。連携データの表示指示を受付けたと判断した場合(ステップS803:Yes)、操作表示部130は、連携PDFファイルの可視領域2に記憶する連携データを読み出し画面に表示する(ステップS804)。連携データは、連携データのテキストをそのまま表示しても、XML形式の場合、例えばXSLT(Extensible Stylesheet Language Transformations)スタイルシートを不可視領域に格納しておき、スタイルシートを用いてXMLデータを変換して表示してもよい。また、連携データは別ウィンドウや吹き出し等で表示してもよい。連携データの表示指示を受付けないと判断した場合(ステップS803:No)、処理を終了する。
The
このように、連携データをページコンテンツと別の可視領域に格納しておき、表示指示を受付けた場合に連携データを表示することによって、PDFファイルに含まれるデータのうちのどのデータが抽出されて連携データとして格納されたのかをユーザが容易に確認することができる。 In this way, by storing the linked data in a visible area separate from the page content and displaying the linked data when a display instruction is received, which data included in the PDF file is extracted. The user can easily confirm whether the data is stored as linked data.
次に、PDFファイルから連携データを抽出するためのルールを生成する処理について説明する。図9は、情報処理装置300が実行する抽出ルール生成処理手順を示すフローチャートである。
Next, a process for generating a rule for extracting linked data from a PDF file will be described. FIG. 9 is a flowchart showing an extraction rule generation processing procedure executed by the
ルール生成部311は、ルールを生成するために参照するPDFファイルを教師データ記憶部321から読み出す(ステップS901)。操作表示部330は、読み出したPDFファイルを画面に表示する(ステップS902)。操作表示部330は、項目名の入力を受付ける(ステップS903)。項目名は、キーボード等から入力しても、予め設定された項目名をプルダウンメニュー等で表示し、表示した項目名を選択するようにしてもよい。
The
操作表示部330は、項目名に応じたPDFファイル上の領域の指示を受付ける(ステップS904)。図10は、画面に表示したPDFファイルにおける項目名ごとの領域の指示の一例を示す説明図である。画面に表示されたPDFファイル11において、項目名“会社名”に対する領域12、 項目名“請求No”に対する領域13、項目名“日付”に対する領域14、項目名“金額”に対する領域15、項目名“件名”に対する領域16、 項目名“項目”に対する領域17を指示した様子を示す。
The
ルール生成部311は、指示された領域からPDFファイルにおける領域の位置情報を算出する(ステップS905)。ルール生成部311は、指示された領域に含まれるデータを取得する(ステップS906)。例えば、項目名“会社名”のデータとして“AAA株式会社様”を取得する。ルール生成部311は、領域の位置情報と項目名とを対応付けて中間ファイルに格納する。ルール生成部311は、教師データ記憶部321に記憶するPDFファイルをすべて読出したか否かを判断する(ステップS907)。教師データ記憶部321に記憶するPDFファイルをすべて読出していないと判断した場合(ステップS907:No)、ステップS901に戻り、次のPDFファイルを読出す。
The
教師データ記憶部321に記憶するPDFファイルをすべて読み出したと判断した場合(ステップS907:Yes)、ルール生成部311は、中間ファイルに格納した項目名ごとの領域の位置情報から、項目ごとの位置情報の平均値を算出する(ステップS908)。ルール生成部311は、中間ファイルに格納した項目名ごとのデータから、項目ごとのフォーマットを生成する(ステップS909)。例えば、項目名“会社名”のデータにおいて“様”が共通すると判断した場合、フォーマットを“XXXX様”とし、“XXXX”を連携データとして抽出する。
When it is determined that all the PDF files stored in the teacher
ルール生成部311は、項目名ごとに、位置情報の平均値とフォーマットを対応付けた抽出ルール定義ファイルを抽出ルール記憶部322に格納する(ステップS910)。このような処理で生成された抽出ルール記憶部322に記憶する抽出ルール定義ファイルは、所定のタイミング、または情報処理装置100の要求に応じて情報処理装置100に送信し、情報処理装置100の抽出ルール記憶部121に格納する。
The
このように、数多くのPDFファイルを参照し、項目名ごとに指示した領域の位置情報の平均値を算出するとともに、項目名ごとのフォーマットを生成することによって、PDFファイルから連携データを抽出する際に、項目名の内容に応じた適切なデータを抽出することができる。 In this way, when extracting linked data from a PDF file by referring to a large number of PDF files, calculating the average value of the position information of the area specified for each item name, and generating a format for each item name. In addition, it is possible to extract appropriate data according to the content of the item name.
他の実施例として、項目名ごとの領域の位置情報の平均値を算出することに代えて、項目名ごとの領域の位置情報のすべてを含む最大領域の位置情報を算出してもよい。また、項目名ごとに、1つの領域に限らず複数の領域の位置情報を算出してもよい。 As another embodiment, instead of calculating the average value of the area position information for each item name, the position information of the maximum area including all the area position information for each item name may be calculated. Further, the position information of not only one area but also a plurality of areas may be calculated for each item name.
抽出ルール生成処理は、上述した教師データから項目名ごとの領域の位置情報の平均値や最大値を算出することに代えて、項目名に対応するデータを数多くのPDFファイルの項目名ごとの領域の指示によって学習した学習済みモデルを生成してもよい。これにより、PDFファイルに含まれる連携データをAI(Artificial Intelligence:人工知能)を用いて抽出することができる。学習済みモデルを生成した場合には、情報処理装置100の抽出ルール記憶部121に学習済みモデルを格納し、PDFファイルを入力することによって学習済みモデルを用いて項目名ごとのデータを出力する。
In the extraction rule generation process, instead of calculating the average value and the maximum value of the position information of the area for each item name from the above-mentioned teacher data, the data corresponding to the item name is generated in the area for each item name of many PDF files. A trained model learned by the instruction of may be generated. As a result, the linked data included in the PDF file can be extracted using AI (Artificial Intelligence). When the trained model is generated, the trained model is stored in the extraction
他の実施例として、図4を用いて説明した、連携データをPDFファイルに埋め込むことによって連携PDFファイルを生成する処理に代えて、または加えて、連携データを示すQRコードを生成し、生成したQRコードをPDFファイルに追記して連携PDFファイルを生成する処理について説明する。 As another embodiment, instead of or in addition to the process of generating the linked PDF file by embedding the linked data in the PDF file described with reference to FIG. 4, a QR code indicating the linked data was generated and generated. The process of adding the QR code to the PDF file and generating the linked PDF file will be described.
図11は、情報処理装置100が実行する連携PDFファイル生成処理手順を示すフローチャートである。図11のフローチャートにおけるステップS1101〜ステップS1105、ステップS1108、ステップS1109は、上述した図4のステップS401〜ステップS405、ステップS407、ステップS408と同様であるため、上述した説明を参照し、ここでの説明は省略する。 FIG. 11 is a flowchart showing a linked PDF file generation processing procedure executed by the information processing apparatus 100. Since steps S1101 to S1105, steps S1108, and steps S1109 in the flowchart of FIG. 11 are the same as steps S401 to S405, steps S407, and step S408 of FIG. 4 described above, the above description is referred to here. The description is omitted.
QRコード生成部115は、ステップS1105において、データ抽出部111がPDFファイルから抽出した連携データを示すQRコードを生成する(ステップS1106)。連携PDFファイル生成部112は、PDFファイルにQRコードを埋め込んだ連携PDFファイルを生成する(ステップS1107)。より具体的には、連携PDFファイル生成部112は、PDFファイルから抽出したQRコードをPDFファイルの可視領域に埋め込む。
In step S1105, the QR
図12は、連携PDFファイルのデータ構成の一例を示す説明図である。図12の連携PDFファイルのデータ構成例に示すように、連携PDFファイルは、可視領域にページコンテンツと連携データを記述したQRコードを記憶する。連携PDFファイルを画面に表示すると、画面表示例に示すように、ページコンテンツに記述された内容とQRコード21が表示される。
FIG. 12 is an explanatory diagram showing an example of the data structure of the linked PDF file. As shown in the data configuration example of the linked PDF file of FIG. 12, the linked PDF file stores a QR code in which the page content and the linked data are described in the visible area. When the linked PDF file is displayed on the screen, the content described in the page content and the
このように、連携データをQRコードに変換してPDFファイルに埋め込むことによって、画像として表示(または認識)されるQRコードを読取ることで連携データを取得することができ、他のシステムに容易に受け渡すことができる。また、紙に印刷したPDFファイルであっても、QRコードを読取ることによって連携データを取得することができる。また、スマートフォン等によってQRコードを読取ることができ、容易に連携データの内容を確認することができる。 In this way, by converting the linked data into a QR code and embedding it in a PDF file, the linked data can be acquired by reading the QR code displayed (or recognized) as an image, and it can be easily installed in other systems. Can be handed over. Further, even if the PDF file is printed on paper, the cooperation data can be acquired by reading the QR code. In addition, the QR code can be read by a smartphone or the like, and the contents of the linked data can be easily confirmed.
上述した実施例にかかる情報処理装置100、情報処理装置200、情報処理装置300のハードウェア構成は、CPU(Central Processing Unit)、MPU(Micro-Processing Unit)又はGPU(Graphics Processing Unit)等の1又は複数のプロセッサを含み、ROM(Read Only Memory)やRAM(Random Access Memory)、HDD(Hard Disk Drive)、フラッシュメモリ、SSD(Solid State Drive)等の外部記憶装置、通信制御装置等を備えた通常のコンピュータであり、ROMやRAM、HDD等に記憶されたプログラムをCPUが読み出し動作させることによって、上述した構成や機能を実現する。なお、制御部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)等の電子回路であってもよい。
The hardware configuration of the information processing device 100, the
情報処理装置100、情報処理装置200、情報処理装置300で動作するプログラムは、インターネット等のネットワークに接続されたコンピュータ上に格納しておき、ネットワーク経由でダウンロードさせることにより提供したり、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、DVD、USBメモリ、SDカード等のコンピュータで読取り可能な記録媒体に記録し提供してもよい。また、上述した機能や処理を実現するプログラムは、API(Application Programming Interface)やSaaS(Software as a Service)、クラウドコンピューティングという利用形態で提供してもよい。
The programs running on the information processing device 100, the
上述した実施例では、情報処理装置100、情報処理装置200、情報処理装置300を別々の装置として説明したが、情報処理装置100、情報処理装置200、情報処理装置300の機能を1つの装置として構成してもよく、いずれか2つの装置の機能を組合せて構成してもよい。
In the above-described embodiment, the information processing device 100, the
なお、本発明は、上述した実施例そのままに限定されるものではなく、必ずしも物理的に図示のように構成されている必要はない。また、本発明は、実施例で説明した構成要素の全部または一部を、各種の負荷や使用状況などに応じ、任意の単位で機能的または物理的に分割、統合、入替、変形または削除して構成することができる。 The present invention is not limited to the above-described embodiment as it is, and does not necessarily have to be physically configured as shown in the figure. Further, the present invention functionally or physically divides, integrates, replaces, transforms or deletes all or a part of the components described in the examples in arbitrary units according to various loads and usage conditions. Can be configured.
10…データ連携システム、100…情報処理装置、110…制御部、111…データ抽出部、112…連携PDFファイル生成部、113…タイムスタンプ付与部、114…電子署名付与部、115…QRコード生成部、120…記憶部、121…抽出ルール記憶部、130…操作表示部、140…通信部、200…情報処理装置、210…制御部、211…データ連携部、212…タイムスタンプ検証部、213…電子署名検証部、220…記憶部、221…連携PDFファイル記憶部、222…連携データ記憶部、230…操作表示部、240…通信部、300…情報処理装置、310…制御部、311…ルール生成部、320…記憶部、321…教師データ記憶部、322…抽出ルール記憶部、330…操作表示部、340…通信部、400…情報処理装置(他のシステム)
10 ... Data linkage system, 100 ... Information processing device, 110 ... Control unit, 111 ... Data extraction unit, 112 ... Linked PDF file generation unit, 113 ... Time stamping unit, 114 ... Electronic signature addition unit, 115 ... QR code generation Unit, 120 ... Storage unit, 121 ... Extraction rule storage unit, 130 ... Operation display unit, 140 ... Communication unit, 200 ... Information processing device, 210 ... Control unit, 211 ... Data linkage unit, 212 ... Time stamp verification unit, 213 ... Electronic signature verification unit, 220 ... Storage unit, 221 ... Linked PDF file storage unit, 222 ... Linked data storage unit, 230 ... Operation display unit, 240 ... Communication unit, 300 ... Information processing device, 310 ... Control unit, 311 ... Rule generation unit, 320 ... Storage unit, 321 ... Teacher data storage unit, 322 ... Extraction rule storage unit, 330 ... Operation display unit, 340 ... Communication unit, 400 ... Information processing device (other system)
Claims (14)
入力されたPDFファイルから前記抽出ルール記憶手段に記憶する前記項目名に対応付けられた前記領域に含まれるデータを抽出するデータ抽出手段と、
前記PDFファイルに、前記項目名と、前記データ抽出手段によって抽出した前記データとを対応付けた連携データを追記した連携PDFファイルを生成する連携PDFファイル生成手段と、
を備えることを特徴とする情報処理装置。
An extraction rule storage means for storing an area in a PDF file and an item name indicating the meaning of data in association with each other.
A data extraction means for extracting data included in the area associated with the item name stored in the extraction rule storage means from the input PDF file, and a data extraction means.
A linked PDF file generating means for generating a linked PDF file in which linked data in which the item name and the data extracted by the data extracting means are associated with the PDF file is added to the PDF file.
An information processing device characterized by being equipped with.
前記データ抽出手段は、前記抽出ルール記憶手段に記憶する前記フォーマットを用いて、前記データを抽出すること、を特徴とする請求項1に記載の情報処理装置。
The extraction rule storage means further stores a format for extracting the data in association with the item name.
The information processing apparatus according to claim 1, wherein the data extraction means extracts the data by using the format stored in the extraction rule storage means.
前記連携PDFファイル生成手段は、前記QRコード生成手段によって生成した前記QRコードを前記連携PDFファイルに追記すること、を特徴とする請求項1または請求項2に記載の情報処理装置。
A QR code generating means for generating a QR code indicating the linked data is further provided.
The information processing device according to claim 1 or 2, wherein the linked PDF file generating means adds the QR code generated by the QR code generating means to the linked PDF file.
The information processing device according to claim 1 or 2, wherein the linked PDF file generating means adds the linked data to an invisible region of the PDF file.
前記連携データを表示する連携データ表示手段と、をさらに備え、
前記連携PDFファイル生成手段は、前記連携データを前記PDFファイルの可視領域に追記し、
前記連携データ表示手段は、前記表示指示受付手段によって前記連携データの表示指示を受付けた場合に、前記連携PDFファイルから前記連携データを読出して表示すること、を特徴とする請求項1または請求項2に記載の情報処理装置。
Display instruction receiving means for receiving the display instruction of the linked data and
Further provided with a linked data display means for displaying the linked data,
The linked PDF file generation means adds the linked data to the visible area of the PDF file, and adds the linked data to the visible area.
Claim 1 or claim that the linked data display means reads out the linked data from the linked PDF file and displays the linked data when the display instruction receiving means receives the display instruction of the linked data. 2. The information processing apparatus according to 2.
The information processing apparatus according to any one of claims 1 to 5, further comprising a time stamping means for adding a time stamp to the linked PDF file.
The information processing apparatus according to any one of claims 1 to 6, further comprising an electronic signature giving means for giving an electronic signature to the linked PDF file.
前記データ連携手段によって取得した前記連携データを他のシステムに送信する送信手段と、を備えることを特徴とする請求項1〜7のいずれか1つに記載の情報処理装置。
A data linkage means for acquiring the linkage data from the linkage PDF file, and
The information processing apparatus according to any one of claims 1 to 7, further comprising a transmission means for transmitting the linked data acquired by the data linking means to another system.
前記PDFファイル表示手段によって表示するPDFファイルにおける、前記項目名それぞれの領域を受付ける領域受付手段と、
前記領域受付手段によって受付けた前記項目名それぞれの領域を、前記項目名に対応付けて前記抽出ルール記憶手段に格納する抽出ルール格納手段と、を備えることを特徴とする請求項1〜8のいずれか1つに記載の情報処理装置。
PDF file display means to display PDF files,
In the PDF file displayed by the PDF file display means, the area receiving means for receiving each area of the item name and the area receiving means.
Any of claims 1 to 8, further comprising an extraction rule storage means for storing each area of the item name received by the area reception means in the extraction rule storage means in association with the item name. The information processing device according to one.
1または複数のページにおける、データの意味を示す項目名と前記項目名に応じたデータが記述された領域を含む教師データに基づいて学習した学習モデルを用いて、前記PDFファイル取得手段によって取得した前記PDFファイルにおける、前記項目名とデータを抽出するデータ抽出手段と、
前記PDFファイルに、前記項目名と、前記データとを対応付けた連携データを追記した連携PDFファイルを生成する連携PDFファイル生成手段と、
を備えることを特徴とする情報処理装置。
PDF file acquisition means to acquire PDF files,
Obtained by the PDF file acquisition means using a learning model learned based on teacher data including an item name indicating the meaning of data and an area in which data corresponding to the item name is described on one or a plurality of pages. A data extraction means for extracting the item name and data in the PDF file, and
A linked PDF file generation means for generating a linked PDF file in which the linked data in which the item name and the linked data are associated with the PDF file is added to the PDF file.
An information processing device characterized by being equipped with.
前記情報処理装置は、
PDFファイルにおける領域と、データの意味を示す項目名と、を対応付けて記憶する抽出ルール記憶手段と、
入力されたPDFファイルから前記抽出ルール記憶手段に記憶する前記項目名に対応付けられた前記領域に含まれるデータを抽出するデータ抽出手段と、
前記PDFファイルに、前記項目名と、前記データ抽出手段によって抽出した前記データとを対応付けた連携データを追記した連携PDFファイルを生成する連携PDFファイル生成手段と、
前記連携PDFファイル生成手段によって生成した前記連携PDFファイルを前記サーバ装置に送信する送信手段と、
前記サーバ装置は、
前記連携PDFファイルを前記情報処理装置から受信する受信手段と、
前記受信手段によって受信した前記連携PDFファイルから前記連携データを取得するデータ連携手段と、
前記データ連携手段によって取得した前記連携データを、ネットワークを介して接続する他のシステムに送信する送信手段と、を備えることを特徴とするデータ連携システム。
A data linkage system including an information processing device and a server device connected via a network.
The information processing device
An extraction rule storage means for storing an area in a PDF file and an item name indicating the meaning of data in association with each other.
A data extraction means for extracting data included in the area associated with the item name stored in the extraction rule storage means from the input PDF file, and a data extraction means.
A linked PDF file generating means for generating a linked PDF file in which linked data in which the item name and the data extracted by the data extracting means are associated with the PDF file is added to the PDF file.
A transmission means for transmitting the linked PDF file generated by the linked PDF file generation means to the server device, and
The server device
A receiving means for receiving the linked PDF file from the information processing device, and
A data linkage means for acquiring the linkage data from the linkage PDF file received by the receiving means, and a data linkage means.
A data linkage system comprising: a transmission means for transmitting the linkage data acquired by the data linkage means to another system connected via a network.
入力されたPDFファイルから前記抽出ルール記憶手段に記憶する前記項目名に対応付けられた前記領域に含まれるデータを抽出するデータ抽出ステップと、
前記PDFファイルに、前記項目名と、前記データ抽出ステップによって抽出した前記データとを対応付けた連携データを追記した連携PDFファイルを生成する連携PDFファイル生成ステップと、を含むことを特徴とする方法。
A method executed by a computer including an extraction rule storage means for storing an area in a PDF file and an item name indicating the meaning of data in association with each other.
A data extraction step of extracting data included in the area associated with the item name stored in the extraction rule storage means from the input PDF file, and a data extraction step.
A method characterized in that the PDF file includes a linked PDF file generation step for generating a linked PDF file in which linked data associated with the item name and the data extracted by the data extraction step is added. ..
PDFファイルを表示するPDFファイル表示ステップと、
前記PDFファイル表示ステップによって表示するPDFファイルにおける、前記項目名それぞれの領域を受付ける領域受付ステップと、
前記領域受付ステップによって受付けた前記項目名それぞれの領域を、前記項目名に対応付けて抽出ルール記憶手段に格納する抽出ルール格納ステップと、を含むことを特徴とする方法。
It ’s a method that runs on a computer.
PDF file display step to display PDF file and
In the PDF file displayed by the PDF file display step, the area reception step for accepting each area of the item name and the area reception step.
A method characterized by including an extraction rule storage step of storing each area of the item name received by the area reception step in the extraction rule storage means in association with the item name.
A program comprising causing a computer to execute the method according to claim 12 and 13.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020066621A JP6818923B1 (en) | 2020-04-02 | 2020-04-02 | Information processing equipment, data linkage system, method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020066621A JP6818923B1 (en) | 2020-04-02 | 2020-04-02 | Information processing equipment, data linkage system, method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6818923B1 JP6818923B1 (en) | 2021-01-27 |
JP2021163363A true JP2021163363A (en) | 2021-10-11 |
Family
ID=74200173
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020066621A Active JP6818923B1 (en) | 2020-04-02 | 2020-04-02 | Information processing equipment, data linkage system, method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6818923B1 (en) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003030220A (en) * | 2001-07-13 | 2003-01-31 | Murata Mach Ltd | Device for generating structured document and program thereof |
JP2003304243A (en) * | 2002-04-12 | 2003-10-24 | Mitsubishi Electric Information Systems Corp | Electronic signature program |
JP2006059288A (en) * | 2004-08-24 | 2006-03-02 | Toshiba Corp | Electronic application system, computer for electronic application processing, and electronic application processing program |
JP2013137733A (en) * | 2011-12-02 | 2013-07-11 | Polar-Method Co Ltd | Information processing device and program |
JP2014119939A (en) * | 2012-12-17 | 2014-06-30 | Canon Marketing Japan Inc | Information processing device, information processing method, program, and information processing system |
JP2016126796A (en) * | 2014-12-27 | 2016-07-11 | 株式会社 ハンモック | Type ocr system |
JP2016224550A (en) * | 2015-05-27 | 2016-12-28 | トッパン・フォームズ株式会社 | Conversion method |
JP2018120366A (en) * | 2017-01-24 | 2018-08-02 | 株式会社野村総合研究所 | Time stamp management system, time stamp management method, and time stamp management program |
JP2018151729A (en) * | 2017-03-10 | 2018-09-27 | インタセクト・コミュニケーションズ株式会社 | Information processing system, information processing method, and program |
US20180341688A1 (en) * | 2017-05-24 | 2018-11-29 | MphasiS Limited | System and method for optimizing aggregation and analysis of data across multiple data sources |
JP2019087906A (en) * | 2017-11-08 | 2019-06-06 | シャープ株式会社 | Image processing device |
JP2019145038A (en) * | 2018-02-23 | 2019-08-29 | シナノケンシ株式会社 | Generation device and generation method of display data of electronic book |
-
2020
- 2020-04-02 JP JP2020066621A patent/JP6818923B1/en active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003030220A (en) * | 2001-07-13 | 2003-01-31 | Murata Mach Ltd | Device for generating structured document and program thereof |
JP2003304243A (en) * | 2002-04-12 | 2003-10-24 | Mitsubishi Electric Information Systems Corp | Electronic signature program |
JP2006059288A (en) * | 2004-08-24 | 2006-03-02 | Toshiba Corp | Electronic application system, computer for electronic application processing, and electronic application processing program |
JP2013137733A (en) * | 2011-12-02 | 2013-07-11 | Polar-Method Co Ltd | Information processing device and program |
JP2014119939A (en) * | 2012-12-17 | 2014-06-30 | Canon Marketing Japan Inc | Information processing device, information processing method, program, and information processing system |
JP2016126796A (en) * | 2014-12-27 | 2016-07-11 | 株式会社 ハンモック | Type ocr system |
JP2016224550A (en) * | 2015-05-27 | 2016-12-28 | トッパン・フォームズ株式会社 | Conversion method |
JP2018120366A (en) * | 2017-01-24 | 2018-08-02 | 株式会社野村総合研究所 | Time stamp management system, time stamp management method, and time stamp management program |
JP2018151729A (en) * | 2017-03-10 | 2018-09-27 | インタセクト・コミュニケーションズ株式会社 | Information processing system, information processing method, and program |
US20180341688A1 (en) * | 2017-05-24 | 2018-11-29 | MphasiS Limited | System and method for optimizing aggregation and analysis of data across multiple data sources |
JP2019087906A (en) * | 2017-11-08 | 2019-06-06 | シャープ株式会社 | Image processing device |
JP2019145038A (en) * | 2018-02-23 | 2019-08-29 | シナノケンシ株式会社 | Generation device and generation method of display data of electronic book |
Also Published As
Publication number | Publication date |
---|---|
JP6818923B1 (en) | 2021-01-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10178248B2 (en) | Computing device for generating a document by combining content data with form data | |
US9137405B2 (en) | System for creating certified document copies | |
CA3149615C (en) | Systems and methods for creating enhanced documents for perfect automated parsing | |
JP2009294242A (en) | Server device, information processor, data processing method and program | |
KR20150082097A (en) | A cloud-based font service system | |
US20210350065A1 (en) | Systems and methods for creating enhanced documents for perfect automated parsing | |
KR20070034613A (en) | Data Processing in Electronic Pen | |
JP6818923B1 (en) | Information processing equipment, data linkage system, method and program | |
JP6303390B2 (en) | Printing apparatus, printing system, and program | |
US10296272B2 (en) | Printed document including machine-readable mark including unique identification under which metadata for document is stored in repository | |
JP6687801B1 (en) | Document display system, server device, information terminal device, document display method, and document display program | |
JP2011233104A (en) | Information processing system, information processor, information processing method, program, and recording medium | |
JP7346760B1 (en) | Information processing device, data linkage method, and data linkage program | |
JP5673128B2 (en) | Variable printing inspection apparatus and variable printing inspection program | |
JP5779412B2 (en) | Client / server system, client device, server device, comment screen creation method in client / server system, client device program, server device program | |
US20140285840A1 (en) | Communication system, information processing apparatus, image processing apparatus, and non-transitory computer readable medium | |
TWI578236B (en) | Method for creating a triggerable barcode icon for electronic document and transformation system thereof | |
EP3901874A1 (en) | Information processing device, data transfer management method, and program | |
NZ785674A (en) | Systems and Methods for Creating Enhanced Documents for Perfect Automated Parsing | |
JP4415752B2 (en) | Document management system, document management server, and document management program | |
NZ785670A (en) | Systems and Methods for Creating Enhanced Documents for Perfect Automated Parsing | |
JP2017182149A (en) | Operation support device, operation support method, and program | |
CA2571092A1 (en) | Document output processing using content data and form data | |
JP2004280144A (en) | Form creation device, form processor, program and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200410 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20200410 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20200608 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200825 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201005 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201224 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201228 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6818923 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |