JP5465279B2 - Information processing apparatus and program - Google Patents
Information processing apparatus and program Download PDFInfo
- Publication number
- JP5465279B2 JP5465279B2 JP2012138105A JP2012138105A JP5465279B2 JP 5465279 B2 JP5465279 B2 JP 5465279B2 JP 2012138105 A JP2012138105 A JP 2012138105A JP 2012138105 A JP2012138105 A JP 2012138105A JP 5465279 B2 JP5465279 B2 JP 5465279B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- index
- character
- page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 52
- 238000000034 method Methods 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 19
- 238000000605 extraction Methods 0.000 claims description 18
- 230000008521 reorganization Effects 0.000 claims description 11
- 239000000284 extract Substances 0.000 claims description 10
- 238000005549 size reduction Methods 0.000 claims description 7
- 230000015654 memory Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 16
- 238000007726 management method Methods 0.000 description 12
- 230000008859 change Effects 0.000 description 10
- 206010034719 Personality change Diseases 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- PCTMTFRHKVHKIS-BMFZQQSSSA-N (1s,3r,4e,6e,8e,10e,12e,14e,16e,18s,19r,20r,21s,25r,27r,30r,31r,33s,35r,37s,38r)-3-[(2r,3s,4s,5s,6r)-4-amino-3,5-dihydroxy-6-methyloxan-2-yl]oxy-19,25,27,30,31,33,35,37-octahydroxy-18,20,21-trimethyl-23-oxo-22,39-dioxabicyclo[33.3.1]nonatriaconta-4,6,8,10 Chemical compound C1C=C2C[C@@H](OS(O)(=O)=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2.O[C@H]1[C@@H](N)[C@H](O)[C@@H](C)O[C@H]1O[C@H]1/C=C/C=C/C=C/C=C/C=C/C=C/C=C/[C@H](C)[C@@H](O)[C@@H](C)[C@H](C)OC(=O)C[C@H](O)C[C@H](O)CC[C@@H](O)[C@H](O)C[C@H](O)C[C@](O)(C[C@H](O)[C@H]2C(O)=O)O[C@H]2C1 PCTMTFRHKVHKIS-BMFZQQSSSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012384 transportation and delivery Methods 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Description
本発明の実施形態は、電子文書ファイルを処理する情報処理装置及びプログラムに関する。 Embodiments described herein relate generally to an information processing apparatus and a program for processing an electronic document file.
コンピュータは、文書データを所定形式の電子文書ファイルとして管理する。例えば、電子文書ファイルがPDF(Portable Document Format)ファイルの場合、コンピュータは、データ変換を行うことなく、PDFファイルの内容を表示装置の画面に表示することができ、又は、印刷装置で印刷することができる。 The computer manages the document data as an electronic document file in a predetermined format. For example, when the electronic document file is a PDF (Portable Document Format) file, the computer can display the content of the PDF file on the screen of the display device without performing data conversion, or print it with the printing device. Can do.
PDFファイルは、表示、印刷、コンピュータによる記憶装置への書き込み及び読み出しの一単位として用いられる。 A PDF file is used as a unit of display, printing, writing to a storage device by a computer, and reading.
PDFファイルは、例えば1つ又は複数のページ表現データと、資源データとを含む。資源データは、例えば、ページ表現データに対して使用される文字データと画像データとのうちの少なくとも1つを含む。例えば、PDFファイルが高品質プリンタに対して使用されることを想定し、PDFファイル内の文字データ又は画像データが過度な高品質を持つ場合がある。 The PDF file includes, for example, one or a plurality of page expression data and resource data. The resource data includes, for example, at least one of character data and image data used for the page expression data. For example, assuming that a PDF file is used for a high-quality printer, character data or image data in the PDF file may have an excessively high quality.
多数の文書データを多数の個別のPDFファイルで保存する場合には、それぞれのPDFファイルに資源データが含まれる。このため、多数のPDFファイルの全てに対して必要となる記憶容量は、多量の文書データを1つのPDFファイルで保存する場合に必要となる記憶容量よりも、大きくなる。 When a large number of document data is stored in a large number of individual PDF files, the resource data is included in each PDF file. For this reason, the storage capacity required for all of a large number of PDF files is larger than the storage capacity required for storing a large amount of document data in one PDF file.
また、コンピュータに多数(例えば数百万件以上)のPDFファイルを記憶し、必要なPDFファイルを検索する場合、コンピュータの例えば既存のオペレーティングシステムに付属するファイル制御プログラムが極小で多数のファイルを読み出すことを想定していないため、PDFファイルの数が多いほどデータの読み出し時間が長くなり、コンピュータの作業量も大きくなる。 In addition, when a large number (for example, millions or more) of PDF files are stored in a computer and a necessary PDF file is searched, a file control program attached to an existing operating system of the computer is extremely small and reads a large number of files. For this reason, the larger the number of PDF files, the longer the data read time and the greater the work amount of the computer.
PDFファイルは、ある1つの資源データを内包し、この資源データを複数のページで使用することができる。また、PDFファイルは、ファイル外の資源データを参照し、使用することができる。しかしながら、このようにファイル外の資源データが参照される場合には、資源データの更新管理が複雑化する。 A PDF file contains a certain resource data, and this resource data can be used in a plurality of pages. The PDF file can be used by referring to resource data outside the file. However, when resource data outside the file is referred to in this way, update management of the resource data becomes complicated.
本発明の実施形態は、所定形式の電子文書ファイルの管理を効率化させるための情報処理装置及びプログラムを提供することを目的とする。 An object of an embodiment of the present invention is to provide an information processing apparatus and a program for improving the efficiency of management of an electronic document file of a predetermined format.
実施形態によれば、情報処理装置は、インデックス抽出手段、ページ追記手段、資源データ変更手段、マージ手段、インデックス埋め込み手段、検索手段を含む。インデックス抽出手段は、第1の記憶装置に記憶されている複数のPDFファイルから、所望のインデックスデータを抽出する。ページ追記手段は、複数のPDFファイルに含まれているページ表現データの所望の位置に、インデックスデータを表す文字又はコードデータを追記する。この追記された文字又はコードデータは、検索された結果の閲覧時に目視可能とする。資源データ変更手段は、複数のPDFファイルに含まれている資源データに対してデータサイズ低減処理を行う。マージ手段は、ページ追記手段によって文字又はコードデータの追記された複数のPDFファイルに含まれているページ表現データをマージし、当該マージされたページ表現データと、資源データ変更手段によってデータサイズの低減された資源データとを含むマージPDFファイルを生成する。インデックス埋め込み手段は、マージPDFファイルの所望の位置にインデックスデータを埋め込んだ再編成PDFファイルを生成し、再編成PDFファイルを第2の記憶装置に記憶する。検索手段は、インデックスデータに基づいて、第2の記憶装置に記憶されている再編成PDFファイルに対する検索処理を実行する。 According to the embodiment, the information processing apparatus includes an index extraction unit, a page addition unit, a resource data change unit, a merge unit, an index embedding unit, and a search unit. The index extraction means extracts desired index data from a plurality of PDF files stored in the first storage device. The page appending means appends the character or code data representing the index data to a desired position of the page expression data included in the plurality of PDF files. The added character or code data is visible when browsing the retrieved result. The resource data changing unit performs a data size reduction process on the resource data included in the plurality of PDF files. The merging unit merges page expression data included in a plurality of PDF files in which character or code data is added by the page addition unit, and reduces the data size by the merged page expression data and the resource data changing unit. A merge PDF file including the generated resource data is generated. The index embedding unit generates a reorganized PDF file in which index data is embedded at a desired position of the merge PDF file, and stores the reorganized PDF file in the second storage device. The search means executes search processing for the reorganized PDF file stored in the second storage device based on the index data.
本発明の実施形態より、所定形式の電子文書ファイルの管理を効率化させることができる。 According to the embodiment of the present invention, management of electronic document files of a predetermined format can be made efficient.
以下、図面を参照しながら本発明の実施形態について説明する。なお、以下の説明において、略または実質的に同一の機能及び構成要素については、同一符号を付し、必要に応じて説明を行う。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. In the following description, substantially the same or substantially the same functions and components are denoted by the same reference numerals and will be described as necessary.
(第1の実施形態)
本実施形態においては、管理対象の電子文書ファイルがPDFファイルの場合について説明するが、他の電子文書形式のファイルであってもよい。
(First embodiment)
In the present embodiment, the case where the electronic document file to be managed is a PDF file will be described, but it may be a file of another electronic document format.
図1は、本実施形態に係る情報処理装置の構成の一例を示すブロック図である。 FIG. 1 is a block diagram illustrating an example of the configuration of the information processing apparatus according to the present embodiment.
本実施形態に係る情報処理装置1は、多量の文書データに対応する複数のPDFファイルのインデックス検索を実現させるための構成と、PDFファイルのデータサイズを低減させるための構成とを備える。
The
PDFファイルのインデックス検索を実現させるために、情報処理装置1は、複数のPDFファイルのページ表現データからインデックスデータを抽出する。例えば、ページ表現データは、印刷文字列、バーコードなどを含む印刷体裁データである。情報処理装置1は、複数のPDFファイルをマージし、複数のPDFファイルよりも少ない数の再編成PDFファイルを生成する。再編成PDFファイルには、インデックスデータが例えば閲覧ソフト、検索ソフトなどで参照容易な形式で埋め込まれる。さらに、再編成PDFファイルに含まれるページ表現データには、インデックスデータを表す文字又はコードデータが、例えば閲覧ソフトで閲覧容易な形成で追記される(埋め込まれる)。このように、複数のPDFファイルに含まれるページ表現データから抽出されたインデックスデータを再編成PDFファイルに検索しやすい形式で再度収納することにより、PDFファイルの更新管理性と可搬性とを高めていることは、本実施形態の第1の特徴的事項である。
In order to realize index search of PDF files, the
PDFファイルのデータサイズを低減させるために、情報処理装置1は、複数のPDFファイルを、複数のPDFファイルよりも少ない数(少なくとも1つ)の再編成PDFファイルにマージする。再編成PDFファイル内に含まれる文書データ数は、元のPDFファイルのそれぞれの文書データ数よりも多くなる。複数のPDFファイルをマージすることで、資源データを共有させる。情報処理装置1は、PDFファイルに内包されている文字データをなるべく非内包形式に切り替える。情報処理装置1は、PDFファイルに含まれている文字データの字形表現情報を表示品質劣化が許容される範囲で簡素化し、データサイズを削減する。情報処理装置1は、画像データの解像度を低減させ、画像データのデータサイズを許容される範囲で低減させる。このように、複数のPDFファイルに含まれた後の資源データのデータサイズを変更する。これらのデータサイズ削減を再編成PDFファイルを生成する過程で行うことは、本実施形態の第2の特徴的事項である。
In order to reduce the data size of the PDF file, the
すなわち、本実施形態に係る情報処理装置1は、PDFファイルが形成された後に、このPDFファイルに含まれている文字データのデータサイズの削減、画像データのデータサイズの削減を行い、変更された文字データ及び画像データを再編成PDFファイルに内包する特徴を持つ。
In other words, after the PDF file is formed, the
情報処理装置1は、記憶装置2a,2b、文書編集部3、再編成部4、文書管理データベースシステム5、検索部6を具備する。情報処理装置1は、入力装置7、表示装置8、印刷装置9と接続されている。なお、情報処理装置1は、1台のコンピュータにより構成されてもよく、複数台のコンピュータがデータを送受信可能に接続されているコンピュータシステムにより構成されてもよい。文書編集部3、再編成部4、検索部6は、例えば、記憶媒体に記憶されているプログラムにしたがって動作するプロセッサによって実現される。記憶装置2a,2bは、例えば、情報処理装置1に備えられているハードディスク、主記憶装置、又は内部メモリであり、任意に組み合わせてもよく、任意に分離されてもよい。記憶装置2a,2bは、作業メモリとして使用されてもよい。
The
記憶装置2aは、例えばテキストデータなどのような文書データ10、例えば文字ID(識別情報)、固定文字コード、文字形状データなどを含む文字データ11、画像データ12を記憶している。
The
文書編集部3は、記憶装置2aに記憶されている文書データ10、文字データ11、画像データ12に基づいて、複数のPDFファイル131〜13nを生成し、生成された複数のPDFファイル131〜13nを記憶装置2aに記憶する。文書編集部3による複数のPDFファイル131〜13nの生成は、例えば、作業者の指示に基づいて行われてもよく、予め設定されている雛形に基づいて行われてもよい。
The
本実施形態において、複数のPDFファイル131〜13nは、それぞれ資源データ141〜14nと、ページ表現データ151〜15nを含む。さらに、資源データ141〜14nは、それぞれ文字データ161〜16nと、画像データ171〜17nを含む。
In the present embodiment, the plurality of PDF files 131 to 13n include
再編成部4は、記憶装置2aに記憶されている元の複数のPDFファイル131〜13nを参照し、このPDFファイル131〜13nに対する再編成を実行し、再編成PDFファイル181〜18kを生成し、文書管理データベースシステム5に記憶する。本実施形態においては、PDFファイル131〜13nが併合されてPDFファイル181〜18kが生成されるため、PDFファイル131〜13nの数よりもPDFファイル181〜18kの数が少なくなる。
The
本実施形態において、PDFファイル181〜18kは、それぞれ資源データ191〜19k、ページ表現データ201〜20k、インデックスデータ211〜21kを含む。さらに、資源データ191〜19kは、それぞれ文字データ221〜22kと、画像データ231〜23kを含む。
In the present embodiment, the PDF files 181 to 18k include
再編成部4は、例えば、インデックス抽出部24、ページ追記部25、文字データ変更部26、画像データ変更部27、マージ部28、インデックス埋め込み部29を含む。
The
記憶装置2bは、インデックス指定データ30、ページ追記指定データ31、文字変更指定データ32、画像変更指定データ33、マージ指定データ34、インデックス埋め込み指定データ35を記憶する。なお、インデックス指定データ30、ページ追記指定データ31、文字変更指定データ32、画像変更指定データ33、マージ指定データ34、インデックス埋め込み指定データ35は、それぞれインデックス抽出部24、ページ追記部25、文字データ変更部26、画像データ変更部27、マージ部28、インデックス埋め込み部29に組み込まれていてもよい。
The
インデックス指定データ30は、PDFファイルからのインデックスデータの抽出位置及び規則などを指定する。
The
ページ追記指定データ31は、PDFファイルに含まれているページ表現データにインデックスデータを表す文字、文字列、コードデータを追記する位置、インデックスデータを対応する文字、文字列、コードデータに変換するための関係データなどの各種の規則を指定する。
The page
文字変更指定データ32は、PDFファイルに含まれる文字データのデータサイズを低減させる規則などを指定する。
The character
画像変更指定データ33は、PDFファイルに含まれる画像データのデータサイズを低減させる規則などを指定する。
The image
マージ指定データ34は、複数のPDFファイルをマージするための規則などを指定する。
The
インデックス埋め込み指定データ35は、インデックスデータをマージされたPDFファイルへ埋め込む場合の領域(位置)及び規則などを指定する。
The index embedding
インデックス抽出部24は、インデックス指定データ30に基づいて、PDFファイル131〜13nから、インデックス指定データ30によって指定される所望のインデックスデータ361〜36nを抽出し、PDFファイル131〜13nにそれぞれ対応するインデックスデータ361〜36nを記憶装置2bに記憶する。
The
ページ追記部25は、PDFファイル131〜13nに含まれているページ表現データ151〜15nの、ページ追記指定データ31によって指定される所望の位置に、それぞれインデックスデータ361〜36nを表す文字又はコードデータを、例えば表示した場合に目視しやすい形式で追記する。この文字又はコードデータは、例えは、検索時などにおいて閲覧(目視)可能であり、インデックスデータの内容をユーザが容易に確認することができる。
The
文字データ変更部26は、文字変更指定データ32にしたがって、PDFファイル131〜13nに含まれている文字データ161〜16nに対してデータサイズ低減処理を実行する。例えば、文字データ変更部26は、PDFファイル131〜13nに含まれている文字データ161〜16nのうちの少なくとも一部を非内包形式(Font un-embeded)とする。また、例えば、文字データ変更部26は、PDFファイル131〜13nに含まれている文字データ161〜16nにおける文字を構成する座標の数を減少させる。本実施形態において、文字データ変更部26は、インデックス埋め込み部29によってインデックスデータ211〜21kがマージされたPDFファイルに埋め込まれる前に、文字データ161〜16nの変更を行う。
The character
画像データ変更部27は、画像変更指定データ33にしたがって、PDFファイル131〜13nに含まれている画像データ171〜17nに対してデータサイズ低減処理を実行する。例えば、画像データ変更部27は、PDFファイル131〜13nに含まれている画像データ171〜17nのうち、データサイズが所定の値を超える画像データに対して、解像度を下げる。解像度の低減は、例えば画像データの個々のピクセルの平均化による間引きによって行う。本実施形態において、画像データ変更部27は、インデックス埋め込み部29によってインデックスデータ211〜21kがマージされたPDFファイル481〜48kに埋め込まれる前に、画像データ171〜17nの変更を行う。
The image
マージ部28は、複数のPDFファイル131〜13nをマージする処理を実行する。例えば、マージ部28は、マージ後のファイルサイズが所定の範囲となるように、データサイズ低減された文字データ221〜22k、データサイズ低減された画像データ231〜23k、ページ表現データ151〜15nをマージしたページ表現データ201〜20kを含むマージPDFファイル481〜48kを生成し、記憶装置2bに記憶する。マージPDFファイル481〜48kは、それぞれが、データサイズ低減された文字データ221〜22kとデータサイズ低減された画像データ231〜23kとを含む資源データ191〜19kと、ページ表現データ201〜20kを含む。資源データ191〜19kのそれぞれの中では、重複が排除されている。マージされたページ表現データ201〜20kには、インデックスデータ361〜36nを表す文字又はコードデータが追記されている。
The
インデックス埋め込み部29は、インデックス埋め込み指定データ35にしたがって、マージPDFファイル481〜48kに対してインデックスデータ361〜36nを適宜割り当てたインデックスデータ211〜21kを生成し、マージPDFファイル481〜48kに割り当てられたインデックスデータ211〜21kを埋め込み、再編成PDFファイル181〜18kを生成し、再編成PDFファイル181〜18kを文書管理データベースシステム5に記憶する。再編成PDFファイル181〜18kは、それぞれ、重複の排除された資源データ191〜19kと、ページ表現データ201〜20kと、インデックスデータ211〜21kを含む。
The
上記のように、再編成部4は、インデックスデータ抽出、ページ表現データに対するインデックスデータを表す参照容易な形式の文字、文字列、又はコードデータの追記、文字データサイズの低減、画像データサイズの低減、マージ、インデックスデータの埋め込みによって生成された再編成PDFファイル181〜18kを、文書管理データベースシステム5に記憶する。文書管理データベースシステム5は、各種ファイル及びデータの管理を行う。
As described above, the
入力装置7は、ユーザからの指示、命令、又は検索キーワードなどを受け付け、指示、命令、又は検索キーワードを検索部6に提供する。
The
検索部6は、ユーザからの指示、命令、検索キーワード、又は、インデックスデータなどに基づいて、文書管理データベースシステム5からこの指示、命令、検索キーワード、又は、インデックスデータに対応するPDFファイルを抽出する。そして、検索部6は、検索されたPDFファイルを表示装置8又は印刷装置9に提供する。
The search unit 6 extracts a PDF file corresponding to the instruction, command, search keyword, or index data from the document
表示装置8は、検索部6によって検索されたPDFファイルを画面表示する。
The
印刷装置9は、検索部6によって検索されたPDFファイルを印刷する。
The
情報処理装置1は、再編成PDFファイル181〜18kを文書管理データベースシステム5に記憶し、必要なPDFファイルを検索し、画面表示又は印刷し、使用可能とする。情報処理装置1は、例えば、保険、証券、銀行、自治体などの送付物に対する電話質問に回答するコールセンター業務において使用される。また、情報処理装置1は、例えば、文書センター、図書館などの電子文書閲覧、部分複写、タブレット型端末のブラウザによる文書閲覧において使用される。
The
図2は、PDFファイルに含まれているページ表現データ及び文書データの構成の一例を示すブロック図である。 FIG. 2 is a block diagram illustrating an example of the configuration of page expression data and document data included in a PDF file.
PDFファイル37に含まれているページ表現データ38は、それぞれが文字列1行分を表現する命令列381,382を含む。
The
命令列381は、ページにおける行の先頭位置の座標a1(水平方向位置x1,垂直方向位置y1)、行の属性b1(例えば行の方向、文字サイズ、文字の色など)、文字データを指定する識別情報(タグ)c−1,c−2,c−3,c−4,c−5を含む。
The
次の命令列382は、ページにおける行の先頭位置の座標a2、行の属性b2、文字データを指定する識別情報c−1,c−2,c−10,c−20,c−30を含む。 The next instruction sequence 382 includes the coordinates a2 of the head position of the line in the page, the attribute b2 of the line, and identification information c-1, c-2, c-10, c-20, c-30 designating character data. .
PDFファイル37に含まれている文字データ391は、命令列で指定される識別情報c−1、対象の文字に関する固定文字コードd1、グリフ情報e1(例えばベゼー曲線、スプラインなどの円弧近似関数、直線を使用したベクトル閉曲線により文字形状を表すデータ)を含む。
The character data 391 included in the
PDFファイル37に含まれている文字データ392は、命令列で指定される識別情報c−2、対象の文字に関する固定文字コードd2、グリフ情報e2を含む。
The
例えば、c−1が「あ」、c−2が「い」、c−3が「う」、c−4が「え」、c−5が「お」に相当し、c−10が「く」、c−20が「け」、c−30が「こ」に相当する場合、PDFファイル37のページ体裁記述では、ページに「あいうえお」の文字が並んだ行と「あいくけこ」の文字が並んだ行とがレイアウトされる。
For example, c-1 corresponds to "A", c-2 corresponds to "I", c-3 corresponds to "U", c-4 corresponds to "E", c-5 corresponds to "O", and c-10 corresponds to "O". "," C-20 corresponds to "ke", and c-30 corresponds to "ko". In the page format description of the
図3は、本実施形態に係るインデックス抽出部26による処理の第1の例を示すブロック図である。この図3は、PDFファイル40に含まれる印刷文字を抽出する例を示す。
FIG. 3 is a block diagram illustrating a first example of processing by the
インデックス指定データ30は、PDFファイル40のページ表現データにおけるインデックスデータを抽出する領域を指定する。さらに、インデックス指定データ30は、抽出すべきキー文字列とその範囲とを指定する。
The
この図3の例では、インデックス抽出部26は、インデックス指定データ30と、PDFファイル40のページ表現データに基づいて、座標x,yを基準とする垂直方向の幅a、水平方向の幅bの領域から、郵便番号とこの郵便番号に続く所定数の数字を、インデックスデータ41として抽出する。
In the example of FIG. 3, the
図4は、本実施形態に係るインデックス抽出部26による処理の第2の例を示すブロック図である。この図4は、PDFファイル40に印刷文字としてパーコードを解読して、インデックスデータ41を生成する例を示す。
FIG. 4 is a block diagram showing a second example of processing by the
インデックス指定データ30は、PDFファイル40のページ表現データにおける所定の領域に存在するバーコードを抽出することを指定する。
The
インデックス抽出部26は、インデックス指定データ30と、PDFファイル40のページ表現データに基づいて、座標x,yを基準とする垂直方向の幅a、水平方向の幅bの領域からバーコードを抽出し、バーコードの示す情報「ABCD」を含むインデックスデータ41を生成する。
Based on the
より具体的に説明すると、インデックス抽出部26は、PDFファイル40をイメージにデコードし、イメージ化された文字、1次元バーコード、2次元バーコードを取り出す。バーコードは、全体がイメージ情報としてレイアウトされている場合、又は、個々のバーコードが文字情報としてレイアウトされている場合がある。インデックス抽出部26は、インデックス指定データ30によって特定されている領域をプログラムによってスキャンすることにより、キー文字列及びバーコードの認識処理を行い、例えば認識結果をテキスト化する。
More specifically, the
インデックスデータ41は、例えば、郵便番号、顧客ID、顧客名称、開始ページ番号、終了ページ番号などを含む。
The
図5は、本実施形態に係るページ追記部25による処理の一例を示すブロック図である。この図5は、PDFファイル40に印刷文字として含まれている郵便番号と住所から、郵便バーコードを求めて追記する例を示す。
FIG. 5 is a block diagram illustrating an example of processing performed by the
ページ追記指定データ31は、郵便番号に対応するバーコードを追記することと、追記する(埋め込み)位置とを指定する。
The page
ページ追記部25は、ページ追記指定データ31に基づいてインデックスデータ41の郵便番号をバーコードに変換する。そして、ページ追記部25は、PDFファイル40に含まれているページ表現データにおけるページ追記指定データ31で指定される位置に、バーコードを追記し、ページ表現データにバーコードが追記されたPDFファイル42を生成する。追記されたバーコードは、PDFファイル42のページ体裁としてPDFファイル42を表示した場合に目視可能である。
The
図6は、本実施形態に係る文字データ変更部26による処理の一例を示すブロック図である。図6は、文字の形状を示す座標情報のうち冗長性の高い座標を削除してデータ量を低減させる例を示す。
FIG. 6 is a block diagram illustrating an example of processing by the character
文字変更指定データ32は、文字種別ST1を非内包形式とするとともに、他の文字種別に対して字形を変更することを指定する。
The character
文字データ変更部26は、例えば、PDFファイルに含まれる文字データ43のデータサイズを低減させるために、文字データ43のうち、文字変更指定データ32で指定された文字種別ST1を非内包形式に変更する。例えば、再編成されたPDFファイルを閲覧する情報処理装置1に登録済みの文字種別ST1については、この情報処理装置1に登録されている文字種別ST1を参照して、画面表示又は印刷を行うことができるため、再編成されたPDFファイルに含まれる文字データ43から、文字種別ST1を削除する。
For example, in order to reduce the data size of the
さらに、文字データ変更部26は、例えば、文字変更指定データ32に基づいて、文字データ43の他の文字種別の字形を変更し、文字データ44のデータサイズを削減する。文字種別の字形の変更としては、例えば、文字を構成する座標点の削除、近似位置の座標点の統合、特定の座標点への入射角と出射角とのずれがわずかな座標点の削除などが行われる。
Furthermore, the character
図7は、本実施形態に係るインデックス埋め込み部29の一例を示すブロック図である。
FIG. 7 is a block diagram illustrating an example of the
PDFファイルは、コメント命令の「start」と「end」の間など、PDF閲覧ソフトウェアに読み飛ばされる領域、PDF閲覧ソフトウェアによって認識されない領域にデータを収納することができる。 The PDF file can store data in an area that is skipped by the PDF browsing software, such as between “start” and “end” of a comment command, or an area that is not recognized by the PDF browsing software.
インデックス埋め込み指定データ35は、このPDF閲覧ソフトウェアに読み飛ばされる領域のうちのいずれかの領域に、インデックスデータが配置されることを指定する。インデックスデータの埋め込み方法としては、例えば、PDFの「しおり」機能、または、PDFの規約に従って「メタデータ」挿入の機能が用いられる。
The index embedding
インデックス埋め込み部29は、インデックス埋め込み指定データ35にしたがって、マージされたPDFファイル45のうちPDF閲覧ソフトウェアに読み飛ばされる領域46に、インデックスデータ41を埋め込み、再編成PDFファイル47を生成する。
The
図8は、本実施形態に係る情報処理装置1の処理の一例を示すフローチャートである。なお、下記の各ステップの処理順序は、任意に変更可能である。
FIG. 8 is a flowchart illustrating an example of processing of the
ステップS1において、情報処理装置1は、複数のPDFファイル131〜13nに含まれているページ表現データ151〜15nからインデックスデータ361〜36nを抽出する。
In step S1, the
ステップS2において、情報処理装置1は、ページ表現データ151〜15nへ、インデックスデータ361〜36nを表す文字、文字列、又はコードデータを追記する。
In step S2, the
ステップS3において、情報処理装置1は、インデックスデータ361〜36nを表す文字、文字列、又はコードデータを追記されたページ表現データをマージし、ページ表現データ201〜20kを生成する。
In step S <b> 3, the
ステップS4において、情報処理装置1は、複数のPDFファイル131〜13nに含まれている文字データ161〜16nのデータサイズを低減させ、文字データ221〜22kを生成する。
In step S4, the
ステップS5において、情報処理装置1は、複数のPDFファイル131〜13nに含まれている画像データ171〜17nのデータサイズを低減させ、画像データ231〜23kを生成する。
In step S5, the
ステップS6において、情報処理装置1は、文字又はコードデータを追記されたページ表現データ201〜20k、データサイズの低減された文字データ221〜22k、データサイズの低減された画像データ231〜23kを含むマージPDFファイル181〜18kを生成する。
In step S6, the
ステップS7において、情報処理装置1は、マージPDFファイル181〜18kに、インデックスデータ361〜36nに対応するインデックスデータ211〜21kを埋め込む。
In step S7, the
以上説明した本実施形態においては、情報処理装置1の記憶装置2aに記憶されている多量のPDFファイル131〜13nから、迅速かつ自動で、検索対象のPDFファイルを抽出するためのインデックスデータ361〜36nが生成される。そして、本実施形態においては、複数のPDFファイル131〜13nをまとめた再編成PDFファイル181〜18kが形成される。これにより、PDFファイルの数の増大を防止し、PDFファイルに含まれる資源データの共有化を図ることができ、PDFファイルのデータサイズを低減させることができる。
In the present embodiment described above, the
本実施形態においては、インデックスデータ131〜13nを再編成PDFファイル181〜18kに割り当てたインデックスデータ211〜21kが、再編成PDFファイル181〜18k内に埋め込まれており、インデックスデータ211〜21kとPDFファイル181〜18kとが別構成とされていない。これにより、再編成PDFファイル181〜18kに対する検索を迅速に行うことができ、再編成PDFファイル181〜18kの取り扱いを簡素化することができる。
In the present embodiment, the
本実施形態において、インデックスデータ131〜13nは、検索容易な形式で再編成PDFファイル181〜18kに埋め込まれるため、検索のための情報の可搬性を向上させることができる。
In the present embodiment, the
本実施形態においては、複数のPDFファイル131〜13nがまとめられて再編成PDFファイル181〜18kが生成され、複数の資源データ141〜14nがまとめられ、重複が排除されて資源データ191〜19kに再編成され、これによりデータサイズを削減することができる。
In the present embodiment, a plurality of PDF files 131 to 13n are combined to generate reorganized PDF files 181 to 18k, a plurality of
本実施形態においては、例えばPDFファイルの閲覧及び印刷を行う情報処理装置1がこのPDFファイルと同一の文字種別を保有しているなど、内包不要の文字種別が文字データに含まれている場合、この内包不要の文字種別が非内包形式に変更される。PDFファイルのデータサイズについては、資源データの占める比率が大きいため、文字データの総データ容量を削減することにより、PDFファイルのデータサイズを削減することができる。
In the present embodiment, for example, when an
本実施形態においては、内包形式にできない文字データのデータサイズが削減され、これによりさらにPDFファイルのデータサイズが削減される。例えば、文字データは、ベゼー曲線、スプライン関数、直線を使用したベクトル閉曲線によって文字を表現する。一般的な文字データは、高品質用途を想定して過度な座標点を持つ。しかしながら、本実施形態においては、例えば画面表示及び低解像度プリンタの印刷に不要な座標点が削減され、文字データのデータサイズが低減される。 In this embodiment, the data size of character data that cannot be included is reduced, thereby further reducing the data size of the PDF file. For example, character data represents a character by a vector closed curve using a Beze curve, a spline function, and a straight line. General character data has excessive coordinate points for high quality applications. However, in this embodiment, for example, coordinate points unnecessary for screen display and printing by a low-resolution printer are reduced, and the data size of character data is reduced.
本実施形態においては、写真などのようなデータサイズの大きい画像データに対して、一括して解像度を所定のレベルまで低減させるための処理が実行される。画像データは、カラー色彩と濃度とを表現する階調情報によって表現される。画像品質に影響する画像データの解像度を低減させることにより、画像データのデータサイズも低減させることができる。これにより、PDFファイルのデータサイズを削減しつつ、所定のレベルの画像品質を確保することができる。 In the present embodiment, processing for reducing the resolution to a predetermined level at once is performed on image data having a large data size such as a photograph. The image data is expressed by gradation information expressing color color and density. By reducing the resolution of the image data that affects the image quality, the data size of the image data can also be reduced. Thereby, it is possible to ensure a predetermined level of image quality while reducing the data size of the PDF file.
本実施形態においては、抽出されたインデックスデータ361〜36nを加工し、インデックスデータ361〜36nに対応する文字、バーコードなどのコードデータが再編成PDFファイル181〜18kのページ表現データ201〜20kに目視可能とするために追記される。これにより、再編成PDFファイル181〜18kを閲覧することで、ユーザがインデックスデータの内容を容易に確認することができる。
In the present embodiment, the extracted
なお、本実施形態に係る情報処理装置1の各構成要素は、自由に組み合わせることができ、また、自由に分離することができる。例えば、文字データ変更部26と画像データ変更部27は組み合わせてもよく、記憶装置2aと記憶装置2bとは組み合わせてもよい。
In addition, each component of the
さらに、本実施形態に係る情報処理装置1の各構成要素の処理順序は、再編成PDFファイル181〜18kが生成可能な範囲で適宜変更可能である。例えば、PDFファイル131〜13nがマージされる前又はマージされた後に、資源データに対するデータサイズ低減が実行されてもよい。PDFファイル131〜13nがマージされた後に、インデックスデータを抽出するとしてもよい。PDFファイル131〜13nがマージされた後に、ページ表現データに対して、インデックスデータに対応する文字又はコードデータが追記されるとしてもよい。インデックスデータ361〜36nがPDFファイル131〜13nに埋め込まれた後に、マージが実行されるとしてもよい。ページ表現データがマージされた後に、インデックスデータが抽出されてもよい。ページ表現データがマージされた後に、インデックスデータを表す文字又はコードデータが追記されてもよい。
Furthermore, the processing order of each component of the
(第2の実施形態)
本実施形態においては、多数の文書データに相当する上記第1の実施形態の再編成PDFファイル181〜18kから特定の1又は複数の文書データを高速に取り出す方法について説明する。
(Second Embodiment)
In the present embodiment, a method for extracting one or more specific document data from the reorganized PDF files 181 to 18k of the first embodiment corresponding to a large number of document data at high speed will be described.
再編成PDFファイル181〜18kは、高速検索のために用いられるインデックスデータ211〜21kを含む。再編成PDFファイル181〜18kに含まれる資源データ191〜19kのデータ容量は削減されている。再編成PDFファイル181〜18kのそれぞれには、単体のページ表現データ又は組み合わされたページ表現データが適宜割り当てられている。
The reorganized PDF files 181 to 18k include
情報処理装置1は、生成済みのPDFファイル131〜13から、データ容量を削減した再編成PDFファイル181〜18kを生成する特徴を持つ。
The
情報処理装置1は、必要な文書データを検索するためにインデックスデータ211〜21kを生成し、再編成PDFファイル181〜18kにインデックスデータ211〜21kを内包させる。これにより、データ可搬性、データ管理の効率を向上させることができる。
The
さらに、情報処理装置1は、再編成PDFファイル181〜18kのデータサイズを小さくするために、画像データ231〜23kの画像解像度の低減、文字データ221〜22kの形状表現の座標情報の間引きを行う。
Further, the
図9は、再編成PDFファイル181のデータ構成の一例を示す形式図である。なお、他の再編成PDFファイル182〜18kも図9と同様のデータ構成を持つことができる。
FIG. 9 is a format diagram showing an example of the data structure of the reorganized
再編成PDFファイル181は、文字データ221、画像データ231、ページ表現データ201、インデックスデータ211を含む。
The reorganized
通常、多量のページに関するPDFファイルであっても、この多量のページで使用される文字データ、画像データは、ページ数に比例して増大しない。したがって、上記第1の実施形態のように、多量のページを一つのPDFファイルで保存することにより、多数のページを分割して保存するよりもデータ容量を削減することができる。 Normally, even in a PDF file related to a large number of pages, the character data and image data used in the large number of pages do not increase in proportion to the number of pages. Accordingly, by storing a large number of pages as one PDF file as in the first embodiment, the data capacity can be reduced as compared with dividing and storing a large number of pages.
上記のような特徴に加えて、本実施形態においては、検索部6による検索処理の高速化について説明する。本実施形態において、文書データの検索は、電子図書館、電子文書館、保険会社の情報処理システム、コールセンターなどにおいて使用されることを想定しているが、他の利用分野においても使用可能である。 In addition to the above features, in the present embodiment, the speeding up of search processing by the search unit 6 will be described. In the present embodiment, it is assumed that the retrieval of document data is used in an electronic library, an electronic document building, an information processing system of an insurance company, a call center, etc., but can also be used in other fields of use.
第1の検索として、バッチ検索処理が用いられる。 A batch search process is used as the first search.
図10は、バッチ検索処理の一例を示すフローチャートである。 FIG. 10 is a flowchart illustrating an example of batch search processing.
ステップT1において、検索部6は、検索対象のインデックスデータの指定を受ける。 In step T1, the search unit 6 receives specification of index data to be searched.
ステップT2において、検索部6は、再編成PDFファイル182〜18kから文書データ221〜22k、画像データ231〜23k、インデックスデータ211〜21kを抽出する。
In step T2, the search unit 6 extracts document
ステップT3において、検索部6は、検索対象のインデックスデータに基づいて、インデックスデータ211〜21kを参照し、検索対象のページ表現データ(検索対象ページ範囲)を決定する。
In step T3, the search unit 6 refers to the
ステップT4において、検索部6は、決定された検索対象のページ表現データ、当該検索対象のページ表現データで使用されている文字データ及び画像データを、例えば、記憶装置2b、表示装置8、印刷装置9などに出力する。
In step T4, the search unit 6 uses the determined search target page expression data, character data and image data used in the search target page expression data, for example, the
第2の検索として、リアルタイム検索処理が用いられる。 A real-time search process is used as the second search.
図11は、リアルタイム検索処理の一例を示すフローチャートである。 FIG. 11 is a flowchart illustrating an example of real-time search processing.
このリアルタイム検索処理においては、逐次検索リクエストに応答して、検索プログラムと資源データ191〜19k(文字データ221〜22k、画像データ231〜23k)とインデックスデータ211〜21kを、例えば作業用の高速アクセス可能な記憶装置2b(例えば内部メモリ)に常駐させる。検索プログラムは、情報処理装置1のプロセッサにより実行され、検索部6の機能を実現させる。このリアルタイム検索処理においては、例えば、他のプログラムから、例えば、検索対象のインデックスデータなどのような検索リクエストが発行される。
In this real-time search processing, the search program,
このリアルタイム検索処理においては、バッチ検索処理よりも、検索速度を大幅に向上させることができる。 In this real-time search process, the search speed can be significantly improved as compared to the batch search process.
ステップU1において、情報処理装置1は、再編成PDFファイル181〜18kのうちの文字データ221〜22k、画像データ231〜23k、インデックスデータ211〜21kと、プロセッサを検索部6として機能させる検索プログラムとを記憶装置2bに常駐させ、検索プログラムを実行させる。
In step U1, the
ステップU2において、検索部6は、他のプログラムから発行された検索対象のインデックスデータの指定を監視する。 In step U2, the search unit 6 monitors the designation of index data to be searched issued from other programs.
ステップU3において、検索部6は、検索対象のインデックスデータの指定を受けた場合に、検索対象のインデックスデータに基づいて、記憶装置2bに常駐しているインデックスデータ211〜21kを参照し、検索対象のページ表現データを決定する。
In step U3, when receiving the specification of the index data to be searched, the search unit 6 refers to the
ステップU4において、検索部6は、決定された検索対象のページ表現データ、当該検索対象のページ表現データで使用されており記憶装置2bに常駐されている文字データ及び画像データを、例えば、記憶装置2b、表示装置8、印刷装置9などに出力する。
In step U4, the search unit 6 uses the determined search target page expression data, character data and image data used in the search target page expression data and resident in the
情報処理装置1は、リアルタイム検索処理が終了となるまで場合に、上記ステップU2以下の処理を繰り返す(ステップU5)。
The
以上説明したように、本実施形態においては、検索部6による検索処理が具体的に説明されている。検索部6は、リアルタイム検索処理を実行することにより、高速に所望のデータを抽出することができる。 As described above, in the present embodiment, the search process by the search unit 6 is specifically described. The search unit 6 can extract desired data at high speed by executing real-time search processing.
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。 Although several embodiments of the present invention have been described, these embodiments are presented by way of example and are not intended to limit the scope of the invention. These novel embodiments can be implemented in various other forms, and various omissions, replacements, and changes can be made without departing from the scope of the invention. These embodiments and modifications thereof are included in the scope and gist of the invention, and are included in the invention described in the claims and the equivalents thereof.
1…情報処理装置、2a,2b…記憶装置、3…文書編集部、4…再編成部、5…文書管理データベースシステム、6…検索部、7…入力装置、8…表示装置、9…印刷装置、10…文書データ、11,221〜22k…文字データ、12,231〜23k…画像データ、131〜13n…PDFファイル、141〜14n,191〜19k…資源データ、151〜15n,201〜20k…ページ表現データ、161〜16n…文字データ、171〜17n…画像データ、181〜18k…再編成されたPDFファイル、211〜21k…インデックスデータ、24…インデックス抽出部、25…ページ追記部25、26…文字データ変更部、27…画像データ変更部、28…マージ部、29…インデックス埋め込み部、30…インデックス指定データ、31…ページ追記指定データ、32…文字変更指定データ、33…画像変更指定データ、34…マージ指定データ、35…インデックス埋め込み指定データ、361〜36n…インデックスデータ、481〜48k…マージされたPDFファイル。
DESCRIPTION OF
Claims (6)
前記複数のPDFファイルに含まれているページ表現データの所望の位置に、前記インデックスデータを表す文字又はコードデータを追記するページ追記手段と、
前記複数のPDFファイルに含まれている資源データに対してデータサイズ低減処理を行う資源データ変更手段と、
前記ページ追記手段によって前記文字又はコードデータの追記された前記複数のPDFファイルに含まれているページ表現データをマージし、当該マージされたページ表現データと、前記資源データ変更手段によってデータサイズの低減された資源データとを含むマージPDFファイルを生成するマージ手段と、
前記マージPDFファイルの所望の位置に前記インデックスデータを埋め込んだ再編成PDFファイルを生成し、前記再編成PDFファイルを第2の記憶装置に記憶するインデックス埋め込み手段と、
前記インデックスデータに基づいて、前記第2の記憶装置に記憶されている前記再編成PDFファイルに対する検索処理を実行する検索手段と
を具備する、情報処理装置。 Index extraction means for extracting desired index data from a plurality of PDF files stored in the first storage device;
Page appending means for appending character or code data representing the index data to a desired position of page expression data included in the plurality of PDF files;
Resource data changing means for performing data size reduction processing on resource data included in the plurality of PDF files;
The page expression data included in the plurality of PDF files in which the character or code data is additionally written by the page additional means is merged, and the data size is reduced by the merged page expression data and the resource data changing means. Merging means for generating a merged PDF file that includes the generated resource data;
Index embedding means for generating a reorganized PDF file in which the index data is embedded at a desired position of the merge PDF file, and storing the reorganized PDF file in a second storage device;
An information processing apparatus comprising: search means for executing a search process for the reorganized PDF file stored in the second storage device based on the index data.
前記資源データ変更手段は、前記資源データに含まれている文字データを非内包型とすることと、前記資源データに含まれている文字データにおいて字形を表す座標点を減少させることと、前記資源データに含まれている画像データの解像度を所定のレベル以下に下げることとのうちの少なくとも1つを行う、ことを特徴とする情報処理装置。 The information processing apparatus according to claim 1,
The resource data changing means is configured to make the character data included in the resource data non-included, to reduce coordinate points representing character shapes in the character data included in the resource data, and An information processing apparatus that performs at least one of lowering a resolution of image data included in data to a predetermined level or less.
前記インデックス抽出手段は、第3の記憶装置に記憶されており前記複数のPDFファイルのうち前記インデックスデータの抽出を行う領域を指定するインデックス指定データに基づいて、キーとなる文字と、前記キーとなる文字と所定の関係にある文字と、所定のコードデータとのうちの少なくとも1つを、前記インデックスデータとして抽出し、
前記ページ追記手段は、第4の記憶装置に記憶されており前記文字又は前記コードデータを追記する位置を指定するページ追記指定データに基づいて、前記複数のPDFファイルに含まれているページ表現データに対して前記文字又は前記コードデータを追記し、
前記インデックス埋め込み手段は、第5の記憶装置に記憶されており前記インデックスデータを埋め込む位置を指定するインデックス埋め込み指定データに基づいて、前記マージPDFファイルに前記インデックスデータを埋め込む
ことを特徴とする情報処理装置。 The information processing apparatus according to claim 1 or 2,
The index extraction means is stored in a third storage device, based on index designation data that designates an area in which the index data is extracted from the plurality of PDF files, a key character, the key, At least one of the character having a predetermined relationship with the character and the predetermined code data is extracted as the index data,
The page appending means includes page representation data included in the plurality of PDF files based on page appending designation data that is stored in a fourth storage device and designates a position where the character or the code data is additionally written. Add the character or the code data to
The index embedding unit embeds the index data in the merge PDF file based on index embedding designation data that is stored in a fifth storage device and designates a position where the index data is to be embedded. apparatus.
前記インデックス埋め込み手段は、前記再編成PDFファイルのPDFファイル閲覧ソフトウェアによって読み飛ばされる領域に、前記インデックスデータを配置する
ことを特徴とする情報処理装置。 The information processing apparatus according to any one of claims 1 to 3,
The information processing apparatus, wherein the index embedding unit arranges the index data in an area skipped by the PDF file browsing software of the reorganized PDF file.
前記インデックス抽出手段は、前記複数のPDFファイルをイメージ化し、このイメージ化されたデータからインデックスデータを抽出し、
前記ページ追記手段は、前記複数のPDFファイルがイメージ化された場合において、前記所望の位置に、前記インデックスデータを表す文字又はコードデータを配置する
ことを特徴とする情報処理装置。 The information processing apparatus according to any one of claims 1 to 4,
The index extraction means images the plurality of PDF files, extracts index data from the imaged data,
The information processing apparatus, wherein the page appending means arranges character or code data representing the index data at the desired position when the plurality of PDF files are imaged.
第1の記憶装置に記憶されている複数のPDFファイルから、所望のインデックスデータを抽出するインデックス抽出手段と、
前記複数のPDFファイルに含まれているページ表現データの所望の位置に、前記インデックスデータを表す文字又はコードデータを追記するページ追記手段と、
前記複数のPDFファイルに含まれている資源データに対してデータサイズ低減処理を行う資源データ変更手段と、
前記ページ追記手段によって前記文字又はコードデータの追記された前記複数のPDFファイルに含まれているページ表現データをマージし、当該マージされたページ表現データと、前記資源データ変更手段によってデータサイズの低減された資源データとを含むマージPDFファイルを生成するマージ手段と、
前記マージPDFファイルの所望の位置に前記インデックスデータを埋め込んだ再編成PDFファイルを生成し、前記再編成PDFファイルを第2の記憶装置に記憶するインデックス埋め込み手段と、
前記インデックスデータに基づいて、前記第2の記憶装置に記憶されている前記再編成PDFファイルに対する検索処理を実行する検索手段と
して機能させるためのプログラム。 Computer
Index extraction means for extracting desired index data from a plurality of PDF files stored in the first storage device;
Page appending means for appending character or code data representing the index data to a desired position of page expression data included in the plurality of PDF files;
Resource data changing means for performing data size reduction processing on resource data included in the plurality of PDF files;
The page expression data included in the plurality of PDF files in which the character or code data is additionally written by the page additional means is merged, and the data size is reduced by the merged page expression data and the resource data changing means. Merging means for generating a merged PDF file that includes the generated resource data;
Index embedding means for generating a reorganized PDF file in which the index data is embedded at a desired position of the merge PDF file, and storing the reorganized PDF file in a second storage device;
The program for functioning as a search means which performs the search process with respect to the said reorganization PDF file memorize | stored in the said 2nd memory | storage device based on the said index data.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012138105A JP5465279B2 (en) | 2011-12-02 | 2012-06-19 | Information processing apparatus and program |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011265033 | 2011-12-02 | ||
JP2011265033 | 2011-12-02 | ||
JP2012138105A JP5465279B2 (en) | 2011-12-02 | 2012-06-19 | Information processing apparatus and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013137733A JP2013137733A (en) | 2013-07-11 |
JP5465279B2 true JP5465279B2 (en) | 2014-04-09 |
Family
ID=48913383
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012138105A Active JP5465279B2 (en) | 2011-12-02 | 2012-06-19 | Information processing apparatus and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5465279B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6818923B1 (en) * | 2020-04-02 | 2021-01-27 | 株式会社スカイコム | Information processing equipment, data linkage system, method and program |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001075960A (en) * | 1999-09-03 | 2001-03-23 | Hitachi Ltd | Bookbinding method through data integration and its execution system and recording medium recording its processing program |
JP3775381B2 (en) * | 2002-11-27 | 2006-05-17 | コニカミノルタビジネステクノロジーズ株式会社 | Image processing device |
JP2006338129A (en) * | 2005-05-31 | 2006-12-14 | Fuji Xerox Co Ltd | Image forming program, document management device and image forming method |
JP2011243174A (en) * | 2010-05-17 | 2011-12-01 | Naotoshi Kaku | Work report making of external service work and management system |
-
2012
- 2012-06-19 JP JP2012138105A patent/JP5465279B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013137733A (en) | 2013-07-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4181892B2 (en) | Image processing method | |
JP4118349B2 (en) | Document selection method and document server | |
JP5376795B2 (en) | Image processing apparatus, image processing method, program thereof, and storage medium | |
JP4854491B2 (en) | Image processing apparatus and control method thereof | |
US20090123071A1 (en) | Document processing apparatus, document processing method, and computer program product | |
JP4738943B2 (en) | Image processing apparatus and method | |
JP2005512185A (en) | Multi-page SVG document directory | |
JP2008234658A (en) | Course-to-fine navigation through whole paginated documents retrieved by text search engine | |
JP5551986B2 (en) | Information processing apparatus, information processing method, and program | |
JP5465279B2 (en) | Information processing apparatus and program | |
JP5428967B2 (en) | Document processing system and document processing program | |
JP2004214991A (en) | Document image data management system, its program, its apparatus, and its method | |
JP2010092383A (en) | Electronic document file search device, electronic document file search method, and computer program | |
JP2005258592A (en) | Format conversion device and file search device | |
JP4278134B2 (en) | Information retrieval apparatus, program, and recording medium | |
CN103853849A (en) | Method for establishing and drawing high-compression reflowable file | |
JP2001256256A (en) | Device and method for retrieving electronic document | |
JP5407700B2 (en) | Image processing system, information processing apparatus, image processing apparatus, and program | |
JP4323856B2 (en) | Image processing method | |
JP7314627B2 (en) | CONTROL DEVICE, IMAGE FORMING APPARATUS, CONTROL METHOD AND CONTROL PROGRAM | |
US20230102476A1 (en) | Information processing apparatus, non-transitory computer readable medium storing program, and information processing method | |
JP3480890B2 (en) | Document information management system | |
JP2009303149A (en) | Image processing apparatus, image processing method and computer control program | |
JP2009193200A (en) | Document management system, terminal equipment, document management method, and program | |
JPH10269230A (en) | Document management system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20131008 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20131008 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131025 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131112 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131127 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140107 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140121 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5465279 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |