JP5465279B2 - Information processing apparatus and program - Google Patents

Information processing apparatus and program Download PDF

Info

Publication number
JP5465279B2
JP5465279B2 JP2012138105A JP2012138105A JP5465279B2 JP 5465279 B2 JP5465279 B2 JP 5465279B2 JP 2012138105 A JP2012138105 A JP 2012138105A JP 2012138105 A JP2012138105 A JP 2012138105A JP 5465279 B2 JP5465279 B2 JP 5465279B2
Authority
JP
Grant status
Grant
Patent type
Prior art keywords
data
index
pdf file
character
pdf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012138105A
Other languages
Japanese (ja)
Other versions
JP2013137733A (en )
Inventor
進 風間
Original Assignee
株式会社ポーラ・メソッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Grant date

Links

Images

Description

本発明の実施形態は、電子文書ファイルを処理する情報処理装置及びプログラムに関する。 Embodiments of the present invention relates to an information processing apparatus and program for processing an electronic document file.

コンピュータは、文書データを所定形式の電子文書ファイルとして管理する。 Computer manages the document data as an electronic document file of a predetermined format. 例えば、電子文書ファイルがPDF(Portable Document Format)ファイルの場合、コンピュータは、データ変換を行うことなく、PDFファイルの内容を表示装置の画面に表示することができ、又は、印刷装置で印刷することができる。 For example, if the electronic document file is PDF (Portable Document Format) file, the computer, without performing data conversion, it can be displayed on the screen of the display device the contents of a PDF file, or be printed by the printing apparatus can.

PDFファイルは、表示、印刷、コンピュータによる記憶装置への書き込み及び読み出しの一単位として用いられる。 PDF file, view, print, used as a unit of writing and reading of the storage device by a computer.

PDFファイルは、例えば1つ又は複数のページ表現データと、資源データとを含む。 PDF file includes, for example, one or more pages representing data and resource data. 資源データは、例えば、ページ表現データに対して使用される文字データと画像データとのうちの少なくとも1つを含む。 Resource data includes, for example, at least one of the character data and the image data used for a page representation data. 例えば、PDFファイルが高品質プリンタに対して使用されることを想定し、PDFファイル内の文字データ又は画像データが過度な高品質を持つ場合がある。 For example, assume that the PDF file is used for high-quality printer, text data or image data in the PDF file in some cases with excessive quality.

多数の文書データを多数の個別のPDFファイルで保存する場合には、それぞれのPDFファイルに資源データが含まれる。 To save the number of document data in a number of separate PDF file contains resource data to each PDF file. このため、多数のPDFファイルの全てに対して必要となる記憶容量は、多量の文書データを1つのPDFファイルで保存する場合に必要となる記憶容量よりも、大きくなる。 Therefore, the storage capacity required for all multiple PDF files than the storage capacity required to save a large amount of document data in a single PDF file increases.

また、コンピュータに多数(例えば数百万件以上)のPDFファイルを記憶し、必要なPDFファイルを検索する場合、コンピュータの例えば既存のオペレーティングシステムに付属するファイル制御プログラムが極小で多数のファイルを読み出すことを想定していないため、PDFファイルの数が多いほどデータの読み出し時間が長くなり、コンピュータの作業量も大きくなる。 Also, store the PDF file number to the computer (e.g., millions of or higher), to find the necessary PDF file, the file control program that is included with the example existing operating system of the computer reads the number of files in the minimum because it does not assume that, the longer the reading time of data as the number of PDF files, the amount of work the computer is also increased.

PDFファイルは、ある1つの資源データを内包し、この資源データを複数のページで使用することができる。 PDF files may enclosing a certain one resource data, use this resource data of multiple pages. また、PDFファイルは、ファイル外の資源データを参照し、使用することができる。 Also, PDF file refers to the file outside of the resource data can be used. しかしながら、このようにファイル外の資源データが参照される場合には、資源データの更新管理が複雑化する。 However, if such a file outside of the resource data is referenced, the update management resource data is complicated.

特許第4784361号公報 Patent No. 4784361 Publication

本発明の実施形態は、所定形式の電子文書ファイルの管理を効率化させるための情報処理装置及びプログラムを提供することを目的とする。 Embodiments of the present invention has an object to provide an information processing apparatus and a program for efficient management of the electronic document file of a predetermined format.

実施形態によれば、情報処理装置は、インデックス抽出手段、ページ追記手段、資源データ変更手段、マージ手段、インデックス埋め込み手段、検索手段を含む。 According to the embodiment, the information processing apparatus includes an index extraction unit, a page write-once section, resource data changing means, merging means, the index embedding means, a search means. インデックス抽出手段は、第1の記憶装置に記憶されている複数のPDFファイルから、所望のインデックスデータを抽出する。 Index extraction means, from a plurality of PDF file stored in the first storage device, extracts a desired index data. ページ追記手段は、複数のPDFファイルに含まれているページ表現データの所望の位置に、インデックスデータを表す文字又はコードデータを追記する。 Page postscript means, the desired position of the page representation data contained in multiple PDF files and adds the character or code data represents the index data. この追記された文字又はコードデータは、検索された結果の閲覧時に目視可能とする。 The postscript character or code data, and visible when viewing the search results. 資源データ変更手段は、複数のPDFファイルに含まれている資源データに対してデータサイズ低減処理を行う。 Resource data change means performs the data size reduction processing to the resource data included in multiple PDF files. マージ手段は、ページ追記手段によって文字又はコードデータの追記された複数のPDFファイルに含まれているページ表現データをマージし、当該マージされたページ表現データと、資源データ変更手段によってデータサイズの低減された資源データとを含むマージPDFファイルを生成する。 Merging means merges the page representation data contained in the additionally written multiple PDF files character or code data by the page write-once section, and the page representation data the merge, reducing the data size by the resource data changing means to generate the merge PDF file that contains the resources for which data. インデックス埋め込み手段は、マージPDFファイルの所望の位置にインデックスデータを埋め込んだ再編成PDFファイルを生成し、再編成PDFファイルを第2の記憶装置に記憶する。 Index embedding unit generates reorganize PDF files with embedded index data at a desired position of the merged PDF file, stores the rearrangement PDF file in the second storage device. 検索手段は、インデックスデータに基づいて、第2の記憶装置に記憶されている再編成PDFファイルに対する検索処理を実行する。 Retrieval means, based on the index data, performs a search process for the reorganization PDF file stored in the second storage device.

本発明の実施形態より、所定形式の電子文書ファイルの管理を効率化させることができる。 Than the embodiment of the present invention, it is possible to better manage the electronic document file in a predetermined format.

第1の実施形態に係る情報処理装置の構成の一例を示すブロック図。 Block diagram illustrating an exemplary configuration of an information processing apparatus according to the first embodiment. PDFファイルに含まれているページ表現データ及び文書データの構成の一例を示すブロック図。 Block diagram showing an example of the configuration of a page representation data and document data included in the PDF file. 第1の実施形態に係るインデックス抽出部による処理の第1の例を示すブロック図。 Block diagram showing a first example of processing by the index extraction unit according to the first embodiment. 第1の実施形態に係るインデックス抽出部による処理の第2の例を示すブロック図。 Block diagram showing a second example of processing by the index extraction unit according to the first embodiment. 第1の実施形態に係るページ追記部による処理の一例を示すブロック図。 Block diagram illustrating an example of processing by the page appending section according to the first embodiment. 第1の実施形態に係る文字データ変更部による処理の一例を示すブロック図。 Block diagram illustrating an example of processing by the character data changing unit according to the first embodiment. 第1の実施形態に係るインデックス埋め込み部の一例を示すブロック図。 Block diagram illustrating an example of an index embedding unit according to the first embodiment. 第1の実施形態に係る情報処理装置の処理の一例を示すフローチャート。 Flow chart illustrating an example of processing of the information processing apparatus according to the first embodiment. 第2の実施形態に係る再編成PDFファイルの一例を示すデータ構成図。 Data structure diagram illustrating an example of reorganization PDF file according to the second embodiment. 第2の実施形態に係るバッチ検索処理の一例を示すフローチャート。 Flowchart showing an example of a batch retrieval processing according to the second embodiment. 第2の実施形態に係るリアルタイム検索処理の一例を示すフローチャート。 Flowchart showing an example of the real-time retrieval processing according to the second embodiment.

以下、図面を参照しながら本発明の実施形態について説明する。 Hereinafter, with reference to the accompanying drawings, embodiments of the present invention will be described. なお、以下の説明において、略または実質的に同一の機能及び構成要素については、同一符号を付し、必要に応じて説明を行う。 In the following description, substantially or essentially the same functions and components are denoted by the same reference numerals, a description will be necessary.

(第1の実施形態) (First Embodiment)
本実施形態においては、管理対象の電子文書ファイルがPDFファイルの場合について説明するが、他の電子文書形式のファイルであってもよい。 In the present embodiment, the electronic document file to be managed is described for the case of the PDF file may be a file of another electronic document format.

図1は、本実施形態に係る情報処理装置の構成の一例を示すブロック図である。 Figure 1 is a block diagram showing an example of a configuration of an information processing apparatus according to the present embodiment.

本実施形態に係る情報処理装置1は、多量の文書データに対応する複数のPDFファイルのインデックス検索を実現させるための構成と、PDFファイルのデータサイズを低減させるための構成とを備える。 The information processing apparatus 1 according to the present embodiment includes configurations and for realizing the index search multiple PDF files corresponding to a large amount of document data, a configuration for reducing the data size of the PDF file.

PDFファイルのインデックス検索を実現させるために、情報処理装置1は、複数のPDFファイルのページ表現データからインデックスデータを抽出する。 In order to achieve the index search PDF files, the information processing apparatus 1 extracts the index data from the page representation data of multiple PDF files. 例えば、ページ表現データは、印刷文字列、バーコードなどを含む印刷体裁データである。 For example, a page representation data, print string, a print format data including bar code. 情報処理装置1は、複数のPDFファイルをマージし、複数のPDFファイルよりも少ない数の再編成PDFファイルを生成する。 The information processing apparatus 1 is to merge multiple PDF files, generates a number of reorganization PDF file less than multiple PDF files. 再編成PDFファイルには、インデックスデータが例えば閲覧ソフト、検索ソフトなどで参照容易な形式で埋め込まれる。 The reorganization PDF files, index data, for example browsing software, embedded in reference easy to format and search software. さらに、再編成PDFファイルに含まれるページ表現データには、インデックスデータを表す文字又はコードデータが、例えば閲覧ソフトで閲覧容易な形成で追記される(埋め込まれる)。 Further, the page representation data included in the reorganization PDF file, the character or code data represents the index data, for example (embedded) by the additional recording Browse easily formed in viewing software. このように、複数のPDFファイルに含まれるページ表現データから抽出されたインデックスデータを再編成PDFファイルに検索しやすい形式で再度収納することにより、PDFファイルの更新管理性と可搬性とを高めていることは、本実施形態の第1の特徴的事項である。 Thus, by re-storing the index data extracted from the page representation data contained in multiple PDF files reorganization PDF file in the search-friendly format, to enhance the portability and update management of PDF files it is a first characteristic matter of the present embodiment are.

PDFファイルのデータサイズを低減させるために、情報処理装置1は、複数のPDFファイルを、複数のPDFファイルよりも少ない数(少なくとも1つ)の再編成PDFファイルにマージする。 In order to reduce the data size of the PDF file, the information processing apparatus 1, a plurality of PDF files, merge reorganization PDF of fewer than multiple PDF files (at least one). 再編成PDFファイル内に含まれる文書データ数は、元のPDFファイルのそれぞれの文書データ数よりも多くなる。 Number of documents data contained in the reorganization PDF file is larger than the respective number of documents the data in the original PDF file. 複数のPDFファイルをマージすることで、資源データを共有させる。 By merging multiple PDF files, to share a resource data. 情報処理装置1は、PDFファイルに内包されている文字データをなるべく非内包形式に切り替える。 The information processing apparatus 1 is switched to the possible non-encapsulated form character data included in the PDF file. 情報処理装置1は、PDFファイルに含まれている文字データの字形表現情報を表示品質劣化が許容される範囲で簡素化し、データサイズを削減する。 The information processing apparatus 1 is simplified to the extent that the display quality deteriorates the shape representation information of character data contained in the PDF file is allowed to reduce the data size. 情報処理装置1は、画像データの解像度を低減させ、画像データのデータサイズを許容される範囲で低減させる。 The information processing apparatus 1 may reduce the resolution of the image data reduces to the extent permitted data size of the image data. このように、複数のPDFファイルに含まれた後の資源データのデータサイズを変更する。 Thus, changing the data size of the resource data after that is included in the PDF file. これらのデータサイズ削減を再編成PDFファイルを生成する過程で行うことは、本実施形態の第2の特徴的事項である。 Be carried out in the process of generating a reorganization PDF file to reduce these data size is a second characteristic matter of the present embodiment.

すなわち、本実施形態に係る情報処理装置1は、PDFファイルが形成された後に、このPDFファイルに含まれている文字データのデータサイズの削減、画像データのデータサイズの削減を行い、変更された文字データ及び画像データを再編成PDFファイルに内包する特徴を持つ。 That is, the information processing apparatus 1 according to this embodiment, after the PDF file has been formed, reducing the data size of character data contained in the PDF file is performed to reduce the data size of image data, has been changed It has a feature that encloses the character data and the image data reorganization PDF file.

情報処理装置1は、記憶装置2a,2b、文書編集部3、再編成部4、文書管理データベースシステム5、検索部6を具備する。 The information processing apparatus 1 includes a storage unit 2a, 2b, document editing unit 3, reorganizing unit 4, the document management database system 5 comprises a retrieval unit 6. 情報処理装置1は、入力装置7、表示装置8、印刷装置9と接続されている。 The information processing apparatus 1 includes an input device 7, a display device 8 is connected to the printing apparatus 9. なお、情報処理装置1は、1台のコンピュータにより構成されてもよく、複数台のコンピュータがデータを送受信可能に接続されているコンピュータシステムにより構成されてもよい。 The information processing apparatus 1 may be configured by a single computer, or may be composed of a computer system in which a plurality of computers are connected to the data can be transmitted and received. 文書編集部3、再編成部4、検索部6は、例えば、記憶媒体に記憶されているプログラムにしたがって動作するプロセッサによって実現される。 Document editing unit 3, reorganizing unit 4, the search section 6, for example, be realized by a processor that operates according to a program stored in the storage medium. 記憶装置2a,2bは、例えば、情報処理装置1に備えられているハードディスク、主記憶装置、又は内部メモリであり、任意に組み合わせてもよく、任意に分離されてもよい。 Storage device 2a, 2b, for example, a hard disk provided in the information processing apparatus 1, a main storage device, or an internal memory, may be combined optionally, it may be optionally separated. 記憶装置2a,2bは、作業メモリとして使用されてもよい。 Storage device 2a, 2b may be used as a working memory.

記憶装置2aは、例えばテキストデータなどのような文書データ10、例えば文字ID(識別情報)、固定文字コード、文字形状データなどを含む文字データ11、画像データ12を記憶している。 Storage device 2a, for example, the document data 10 such as text data, for example, a character ID (identification information), the fixed character code, the character data 11 including a character shape data, and stores the image data 12.

文書編集部3は、記憶装置2aに記憶されている文書データ10、文字データ11、画像データ12に基づいて、複数のPDFファイル131〜13nを生成し、生成された複数のPDFファイル131〜13nを記憶装置2aに記憶する。 Document editing unit 3, the document data 10 stored in the storage unit 2a, the character data 11, based on the image data 12, and generates a plurality of PDF file 131 to 13n, a plurality of generated PDF file 131 to 13n for storing in the storage device 2a. 文書編集部3による複数のPDFファイル131〜13nの生成は、例えば、作業者の指示に基づいて行われてもよく、予め設定されている雛形に基づいて行われてもよい。 Generation of multiple PDF files 131~13n by the document editing unit 3, for example, may be performed based on an instruction of the operator, it may be made based on the template which is set in advance.

本実施形態において、複数のPDFファイル131〜13nは、それぞれ資源データ141〜14nと、ページ表現データ151〜15nを含む。 In the present embodiment, a plurality of PDF files 131~13n includes a resource data 141~14n respectively, the page representation data 151 to 15n. さらに、資源データ141〜14nは、それぞれ文字データ161〜16nと、画像データ171〜17nを含む。 Furthermore, the resource data 141~14n includes a character data 161~16n respectively, the image data 171 to 17n.

再編成部4は、記憶装置2aに記憶されている元の複数のPDFファイル131〜13nを参照し、このPDFファイル131〜13nに対する再編成を実行し、再編成PDFファイル181〜18kを生成し、文書管理データベースシステム5に記憶する。 Reorganizing unit 4 refers to the original multiple PDF files 131 to 13n stored in the storage unit 2a, perform the reorganization for the PDF file 131 to 13n, it generates a reorganization PDF file 181~18k It is stored in the document management database system 5. 本実施形態においては、PDFファイル131〜13nが併合されてPDFファイル181〜18kが生成されるため、PDFファイル131〜13nの数よりもPDFファイル181〜18kの数が少なくなる。 In the present embodiment, since the PDF file 131 to 13n are PDF files 181~18k is generated merged, the number of the PDF file 181~18k is less than the number of the PDF file 131 to 13n.

本実施形態において、PDFファイル181〜18kは、それぞれ資源データ191〜19k、ページ表現データ201〜20k、インデックスデータ211〜21kを含む。 In the present embodiment, PDF files 181~18k each include resource data 191~19K, page representation data 201~20K, the index data 211~21K. さらに、資源データ191〜19kは、それぞれ文字データ221〜22kと、画像データ231〜23kを含む。 Furthermore, the resource data 191~19k includes a character data 221~22k respectively, the image data 231~23K.

再編成部4は、例えば、インデックス抽出部24、ページ追記部25、文字データ変更部26、画像データ変更部27、マージ部28、インデックス埋め込み部29を含む。 Reorganizing unit 4 includes, for example, the index extraction unit 24, a page write-once portion 25, the character data changing unit 26, the image data changing section 27, the merge unit 28, the index embedding unit 29.

記憶装置2bは、インデックス指定データ30、ページ追記指定データ31、文字変更指定データ32、画像変更指定データ33、マージ指定データ34、インデックス埋め込み指定データ35を記憶する。 Storage device 2b, the index specifying data 30, page postscript specifying data 31, character modification specifying data 32, the image change designation data 33, the merge specifying data 34, and stores the index embedded specifying data 35. なお、インデックス指定データ30、ページ追記指定データ31、文字変更指定データ32、画像変更指定データ33、マージ指定データ34、インデックス埋め込み指定データ35は、それぞれインデックス抽出部24、ページ追記部25、文字データ変更部26、画像データ変更部27、マージ部28、インデックス埋め込み部29に組み込まれていてもよい。 Incidentally, the index specifying data 30, page postscript specifying data 31, character modification specifying data 32, the image change designation data 33, the merge specifying data 34, the index embedded specifying data 35, respectively index extraction unit 24, a page write-once portion 25, the character data changing unit 26, the image data changing section 27, the merge unit 28, may be incorporated into the index embedding unit 29.

インデックス指定データ30は、PDFファイルからのインデックスデータの抽出位置及び規則などを指定する。 Index specification data 30 specifies the like extraction position and rules of the index data from the PDF file.

ページ追記指定データ31は、PDFファイルに含まれているページ表現データにインデックスデータを表す文字、文字列、コードデータを追記する位置、インデックスデータを対応する文字、文字列、コードデータに変換するための関係データなどの各種の規則を指定する。 Page postscript specifying data 31, the character representing the index data in the page representation data contained in the PDF file, the character string, the position of additional writing the code data, to convert the index data corresponding character string, the code data to specify a variety of rules, such as the relationship data.

文字変更指定データ32は、PDFファイルに含まれる文字データのデータサイズを低減させる規則などを指定する。 Character modification specifying data 32 specifies such rules to reduce the data size of a character data included in the PDF file.

画像変更指定データ33は、PDFファイルに含まれる画像データのデータサイズを低減させる規則などを指定する。 Image change designation data 33 specifies such rules to reduce the data size of image data included in the PDF file.

マージ指定データ34は、複数のPDFファイルをマージするための規則などを指定する。 Merge specifying data 34 specifies the like rules for merging multiple PDF files.

インデックス埋め込み指定データ35は、インデックスデータをマージされたPDFファイルへ埋め込む場合の領域(位置)及び規則などを指定する。 Index embedded specifying data 35 specifies a like area (position) and rules for embedding into merged PDF file index data.

インデックス抽出部24は、インデックス指定データ30に基づいて、PDFファイル131〜13nから、インデックス指定データ30によって指定される所望のインデックスデータ361〜36nを抽出し、PDFファイル131〜13nにそれぞれ対応するインデックスデータ361〜36nを記憶装置2bに記憶する。 Index extraction unit 24 on the basis of the index specification data 30, from the PDF file 131 to 13n, extracts the desired index data 361~36n specified by the index specifying data 30, corresponding respectively to the PDF file 131 to 13n Index storing data 361~36n the storage device 2b.

ページ追記部25は、PDFファイル131〜13nに含まれているページ表現データ151〜15nの、ページ追記指定データ31によって指定される所望の位置に、それぞれインデックスデータ361〜36nを表す文字又はコードデータを、例えば表示した場合に目視しやすい形式で追記する。 Page appending section 25 of the page representation data 151~15n contained in the PDF file 131 to 13n, to a desired position specified by the page postscript specifying data 31, character or code data, respectively representing the index data 361~36n and appending visually easily form when for example displayed. この文字又はコードデータは、例えは、検索時などにおいて閲覧(目視)可能であり、インデックスデータの内容をユーザが容易に確認することができる。 The character or code data, for example is viewable in such search time (visually), the contents of index data the user can easily confirm.

文字データ変更部26は、文字変更指定データ32にしたがって、PDFファイル131〜13nに含まれている文字データ161〜16nに対してデータサイズ低減処理を実行する。 Character data changing unit 26, according to the character change designation data 32, executes the data size reduction process on character data 161~16n contained in the PDF file 131 to 13n. 例えば、文字データ変更部26は、PDFファイル131〜13nに含まれている文字データ161〜16nのうちの少なくとも一部を非内包形式(Font un-embeded)とする。 For example, the character data changing unit 26, a non-encapsulated form at least a portion of the character data 161~16n contained in the PDF file 131~13n (Font un-embeded). また、例えば、文字データ変更部26は、PDFファイル131〜13nに含まれている文字データ161〜16nにおける文字を構成する座標の数を減少させる。 Further, for example, character data changing unit 26 reduces the number of coordinates constituting the character in the character data 161~16n contained in the PDF file 131 to 13n. 本実施形態において、文字データ変更部26は、インデックス埋め込み部29によってインデックスデータ211〜21kがマージされたPDFファイルに埋め込まれる前に、文字データ161〜16nの変更を行う。 In the present embodiment, the character data changing unit 26, before the index data 211~21k by an index embedding portion 29 is embedded in the merged PDF file, and changes the character data 161 to 16n.

画像データ変更部27は、画像変更指定データ33にしたがって、PDFファイル131〜13nに含まれている画像データ171〜17nに対してデータサイズ低減処理を実行する。 Image data changing section 27, according to the image change designation data 33, executes the data size reduction processing on the image data 171~17n contained in the PDF file 131 to 13n. 例えば、画像データ変更部27は、PDFファイル131〜13nに含まれている画像データ171〜17nのうち、データサイズが所定の値を超える画像データに対して、解像度を下げる。 For example, the image data changing section 27, among the image data 171~17n contained in the PDF file 131 to 13n, the image data whose data size exceeds a predetermined value, reducing the resolution. 解像度の低減は、例えば画像データの個々のピクセルの平均化による間引きによって行う。 Reduction of resolution, for example, performed by decimation by averaging the individual pixels of the image data. 本実施形態において、画像データ変更部27は、インデックス埋め込み部29によってインデックスデータ211〜21kがマージされたPDFファイル481〜48kに埋め込まれる前に、画像データ171〜17nの変更を行う。 In the present embodiment, the image data changing section 27, before the index data 211~21k by an index embedding portion 29 is embedded in the merged PDF file 481~48K, changes the image data 171 to 17n.

マージ部28は、複数のPDFファイル131〜13nをマージする処理を実行する。 Merging unit 28 executes a process of merging multiple PDF files 131 to 13n. 例えば、マージ部28は、マージ後のファイルサイズが所定の範囲となるように、データサイズ低減された文字データ221〜22k、データサイズ低減された画像データ231〜23k、ページ表現データ151〜15nをマージしたページ表現データ201〜20kを含むマージPDFファイル481〜48kを生成し、記憶装置2bに記憶する。 For example, the merge unit 28, so that the file size of the merged becomes a predetermined range, the data size reduced character data 221~22K, data size reduced image data 231~23K, the page representation data 151~15n to generate a merge PDF file 481~48k, including the merged page representation data 201~20k, it is stored in the storage device 2b. マージPDFファイル481〜48kは、それぞれが、データサイズ低減された文字データ221〜22kとデータサイズ低減された画像データ231〜23kとを含む資源データ191〜19kと、ページ表現データ201〜20kを含む。 Merge PDF files 481~48k include each, and resource data 191~19k including the image data 231~23k with reduced character data 221~22k and data size has been reduced data size, the page representation data 201~20k . 資源データ191〜19kのそれぞれの中では、重複が排除されている。 Among each of the resource data 191~19K, duplication is eliminated. マージされたページ表現データ201〜20kには、インデックスデータ361〜36nを表す文字又はコードデータが追記されている。 The merged page representation data 201~20K, character or code data represents the index data 361~36n are appended.

インデックス埋め込み部29は、インデックス埋め込み指定データ35にしたがって、マージPDFファイル481〜48kに対してインデックスデータ361〜36nを適宜割り当てたインデックスデータ211〜21kを生成し、マージPDFファイル481〜48kに割り当てられたインデックスデータ211〜21kを埋め込み、再編成PDFファイル181〜18kを生成し、再編成PDFファイル181〜18kを文書管理データベースシステム5に記憶する。 Index embedding unit 29, according to the index embedded specifying data 35, generates index data 211~21k assigned the index data 361~36n appropriately against merge PDF file 481~48K, assigned to merge PDF file 481~48K embedding the index data 211~21k was to generate a rearranged PDF file 181~18K, stores reorganize PDF file 181~18K the document management database system 5. 再編成PDFファイル181〜18kは、それぞれ、重複の排除された資源データ191〜19kと、ページ表現データ201〜20kと、インデックスデータ211〜21kを含む。 Reorganization PDF file 181~18k, respectively, includes a resource data 191~19k that has been the elimination of duplication, and page representation data 201~20k, the index data 211~21k.

上記のように、再編成部4は、インデックスデータ抽出、ページ表現データに対するインデックスデータを表す参照容易な形式の文字、文字列、又はコードデータの追記、文字データサイズの低減、画像データサイズの低減、マージ、インデックスデータの埋め込みによって生成された再編成PDFファイル181〜18kを、文書管理データベースシステム5に記憶する。 As described above, reorganizing unit 4, the index data extraction, reference easy form of characters representing the index data for the page representation data, text, or append the code data, reduction of the character data size, reduction of the image data size , merge, reorganization PDF file 181~18k generated by embedding the index data is stored in the document management database system 5. 文書管理データベースシステム5は、各種ファイル及びデータの管理を行う。 Document management database system 5 manages the various files and data.

入力装置7は、ユーザからの指示、命令、又は検索キーワードなどを受け付け、指示、命令、又は検索キーワードを検索部6に提供する。 Input device 7, an instruction from the user, accepting instructions, or search keywords and the like, to provide instructions, commands, or the query in the search section 6.

検索部6は、ユーザからの指示、命令、検索キーワード、又は、インデックスデータなどに基づいて、文書管理データベースシステム5からこの指示、命令、検索キーワード、又は、インデックスデータに対応するPDFファイルを抽出する。 Searching section 6, an instruction from the user, the instruction, the search keyword, or based like the index data, the instruction from the document management database system 5, the instruction, the search keyword, or extracts the PDF file corresponding to the index data . そして、検索部6は、検索されたPDFファイルを表示装置8又は印刷装置9に提供する。 Then, the search section 6 provides the searched PDF file display device 8 or the printing apparatus 9.

表示装置8は、検索部6によって検索されたPDFファイルを画面表示する。 Display device 8, the screen displays the search PDF files by searching part 6.

印刷装置9は、検索部6によって検索されたPDFファイルを印刷する。 Printer 9 prints the retrieved PDF file by the search section 6.

情報処理装置1は、再編成PDFファイル181〜18kを文書管理データベースシステム5に記憶し、必要なPDFファイルを検索し、画面表示又は印刷し、使用可能とする。 The information processing apparatus 1 stores the rearranged PDF file 181~18k the document management database system 5 retrieves the necessary PDF file, and the screen display or printing, and can be used. 情報処理装置1は、例えば、保険、証券、銀行、自治体などの送付物に対する電話質問に回答するコールセンター業務において使用される。 The information processing apparatus 1, for example, insurance, securities, banking, are used in the call center business to answer telephone questions to the sending of the local governments. また、情報処理装置1は、例えば、文書センター、図書館などの電子文書閲覧、部分複写、タブレット型端末のブラウザによる文書閲覧において使用される。 Further, the information processing apparatus 1 is, for example, a document center, an electronic document browsing such libraries, partial copying, is used in the document viewing by the browser of the tablet terminal.

図2は、PDFファイルに含まれているページ表現データ及び文書データの構成の一例を示すブロック図である。 Figure 2 is a block diagram showing an example of the configuration of a page representation data and document data included in the PDF file.

PDFファイル37に含まれているページ表現データ38は、それぞれが文字列1行分を表現する命令列381,382を含む。 Page representation data 38 that are included in the PDF file 37, including the instruction sequence 381 and 382, ​​each representing one line of string.

命令列381は、ページにおける行の先頭位置の座標a1(水平方向位置x1,垂直方向位置y1)、行の属性b1(例えば行の方向、文字サイズ、文字の色など)、文字データを指定する識別情報(タグ)c−1,c−2,c−3,c−4,c−5を含む。 Instruction sequence 381, the coordinates a1 of the head position of the line in the page (horizontal position x1, vertical position y1), attributes b1 line (direction of any line, character size, character color, etc.), specifying the character data identification information (tag) c-1, c-2, c-3, including c-4, c-5.

次の命令列382は、ページにおける行の先頭位置の座標a2、行の属性b2、文字データを指定する識別情報c−1,c−2,c−10,c−20,c−30を含む。 The following instruction sequence 382 includes a coordinate a2, attributes b2 line identification information c-1 specifies the character data, c-2, c-10, c-20, c-30 of the head position of the line in the page .

PDFファイル37に含まれている文字データ391は、命令列で指定される識別情報c−1、対象の文字に関する固定文字コードd1、グリフ情報e1(例えばベゼー曲線、スプラインなどの円弧近似関数、直線を使用したベクトル閉曲線により文字形状を表すデータ)を含む。 Character data 391 contained in the PDF file 37, the identification information c-1 specified in the instruction sequence, fixed character code for a target character to d1, glyph information e1 (e.g. Beze curve, the arc approximation function such as a spline, linear including data) representing the character shape by vector closed curve was used.

PDFファイル37に含まれている文字データ392は、命令列で指定される識別情報c−2、対象の文字に関する固定文字コードd2、グリフ情報e2を含む。 Character data 392 contained in the PDF file 37, the identification information c-2 specified in the instruction sequence, fixed character code for a target character to d2, including glyph information e2.

例えば、c−1が「あ」、c−2が「い」、c−3が「う」、c−4が「え」、c−5が「お」に相当し、c−10が「く」、c−20が「け」、c−30が「こ」に相当する場合、PDFファイル37のページ体裁記述では、ページに「あいうえお」の文字が並んだ行と「あいくけこ」の文字が並んだ行とがレイアウトされる。 For example, c-1 is "a", c-2 is "i", c-3 is "U", c-4 is "e", c-5 corresponds to the "o", c-10 is " V ", c-20 is" only ", if the c-30 corresponds to the" child ", in the page format description of the PDF file 37, lined character of" ABCDE "on page row and the" Aikukeko " character and line lined up is laid out.

図3は、本実施形態に係るインデックス抽出部26による処理の第1の例を示すブロック図である。 Figure 3 is a block diagram showing a first example of a process performed by the index extraction unit 26 according to the present embodiment. この図3は、PDFファイル40に含まれる印刷文字を抽出する例を示す。 The Figure 3 shows an example of extracting a print characters in a PDF file 40.

インデックス指定データ30は、PDFファイル40のページ表現データにおけるインデックスデータを抽出する領域を指定する。 Index specification data 30, to specify the area to extract the index data in the page representation data of the PDF file 40. さらに、インデックス指定データ30は、抽出すべきキー文字列とその範囲とを指定する。 Furthermore, the index specifying data 30, the key string to be extracted to specify its scope.

この図3の例では、インデックス抽出部26は、インデックス指定データ30と、PDFファイル40のページ表現データに基づいて、座標x,yを基準とする垂直方向の幅a、水平方向の幅bの領域から、郵便番号とこの郵便番号に続く所定数の数字を、インデックスデータ41として抽出する。 In the example of FIG. 3, the index extraction unit 26, an index specifying data 30, based on the page representation data of the PDF file 40, the coordinates x, width a vertical relative to the y, the horizontal width b from the area, the number of predetermined number following the postal code and postal code, and extracts the index data 41.

図4は、本実施形態に係るインデックス抽出部26による処理の第2の例を示すブロック図である。 Figure 4 is a block diagram showing a second example of a process performed by the index extraction unit 26 according to the present embodiment. この図4は、PDFファイル40に印刷文字としてパーコードを解読して、インデックスデータ41を生成する例を示す。 This 4 decrypts par code as printed characters in a PDF file 40 illustrates an example of generating the index data 41.

インデックス指定データ30は、PDFファイル40のページ表現データにおける所定の領域に存在するバーコードを抽出することを指定する。 Index specification data 30 specifies to extract the bar code present in a predetermined area in the page representation data of the PDF file 40.

インデックス抽出部26は、インデックス指定データ30と、PDFファイル40のページ表現データに基づいて、座標x,yを基準とする垂直方向の幅a、水平方向の幅bの領域からバーコードを抽出し、バーコードの示す情報「ABCD」を含むインデックスデータ41を生成する。 Index extraction unit 26, an index specifying data 30, based on the page representation data of the PDF file 40, the coordinates x, width a vertical relative to the y, extracts the barcode from the region of the horizontal width b , to generate the index data 41 including information "ABCD" indicating the bar code.

より具体的に説明すると、インデックス抽出部26は、PDFファイル40をイメージにデコードし、イメージ化された文字、1次元バーコード、2次元バーコードを取り出す。 More specifically, the index extraction unit 26 decodes the PDF file 40 to the image, the image of text, one-dimensional bar code, retrieve the two-dimensional bar code. バーコードは、全体がイメージ情報としてレイアウトされている場合、又は、個々のバーコードが文字情報としてレイアウトされている場合がある。 Barcode, if the entire is laid as image information, or, in some cases the individual bar codes is laid out as character information. インデックス抽出部26は、インデックス指定データ30によって特定されている領域をプログラムによってスキャンすることにより、キー文字列及びバーコードの認識処理を行い、例えば認識結果をテキスト化する。 Index extraction unit 26, by scanning the program area that is specified by the index specifying data 30, performs recognition processing of a key character string and the bar code, text of the example recognition results.

インデックスデータ41は、例えば、郵便番号、顧客ID、顧客名称、開始ページ番号、終了ページ番号などを含む。 Index data 41 includes, for example, zip code, customer ID, customer name, the starting page number, and ending page number.

図5は、本実施形態に係るページ追記部25による処理の一例を示すブロック図である。 Figure 5 is a block diagram illustrating an example of processing by the page write-once portion 25 according to this embodiment. この図5は、PDFファイル40に印刷文字として含まれている郵便番号と住所から、郵便バーコードを求めて追記する例を示す。 FIG. 5 shows a postal code and address are included as printed characters PDF file 40, an example of write-once seeking the postal bar code.

ページ追記指定データ31は、郵便番号に対応するバーコードを追記することと、追記する(埋め込み)位置とを指定する。 Page postscript specifying data 31 specifies the method comprising append a bar code corresponding to the zip code, and a postscript to (embedded) position.

ページ追記部25は、ページ追記指定データ31に基づいてインデックスデータ41の郵便番号をバーコードに変換する。 Page appending section 25 converts the postal code of the index data 41 in the bar code based on the page postscript specifying data 31. そして、ページ追記部25は、PDFファイル40に含まれているページ表現データにおけるページ追記指定データ31で指定される位置に、バーコードを追記し、ページ表現データにバーコードが追記されたPDFファイル42を生成する。 The page write-once portion 25, at the location specified by the page postscript specifying data 31 in the page representation data contained in the PDF file 40, and adds the bar code, the bar code on the page representation data is additionally written PDF file 42 to generate. 追記されたバーコードは、PDFファイル42のページ体裁としてPDFファイル42を表示した場合に目視可能である。 Postscript bar code is visible when viewing the PDF file 42 as a page format of the PDF file 42.

図6は、本実施形態に係る文字データ変更部26による処理の一例を示すブロック図である。 Figure 6 is a block diagram illustrating an example of processing by the character data changing unit 26 according to the present embodiment. 図6は、文字の形状を示す座標情報のうち冗長性の高い座標を削除してデータ量を低減させる例を示す。 Figure 6 shows an example in which to remove the highly redundant coordinates of the coordinate information indicating the character shape to reduce the amount of data.

文字変更指定データ32は、文字種別ST1を非内包形式とするとともに、他の文字種別に対して字形を変更することを指定する。 Character modification specifying data 32, as well as the character type ST1 and non encapsulated form, to specify to change the shape to other character type.

文字データ変更部26は、例えば、PDFファイルに含まれる文字データ43のデータサイズを低減させるために、文字データ43のうち、文字変更指定データ32で指定された文字種別ST1を非内包形式に変更する。 Character data changing unit 26, for example, changes in order to reduce the data size of the character data 43 contained in the PDF file, in the character data 43, the character type ST1 specified by the character modification specified data 32 in the non-encapsulated form to. 例えば、再編成されたPDFファイルを閲覧する情報処理装置1に登録済みの文字種別ST1については、この情報処理装置1に登録されている文字種別ST1を参照して、画面表示又は印刷を行うことができるため、再編成されたPDFファイルに含まれる文字データ43から、文字種別ST1を削除する。 For example, for the registered character type ST1 in the information processing apparatus 1 to view the rearranged PDF file, with reference to the character type ST1 registered in the information processing apparatus 1, to perform a screen display or printing since it is, from the character data 43 contained in the rearranged PDF file, it deletes the character type ST1.

さらに、文字データ変更部26は、例えば、文字変更指定データ32に基づいて、文字データ43の他の文字種別の字形を変更し、文字データ44のデータサイズを削減する。 Furthermore, character data changing unit 26, for example, based on the character change designation data 32, to change the other character types shaped character data 43, to reduce the data size of the character data 44. 文字種別の字形の変更としては、例えば、文字を構成する座標点の削除、近似位置の座標点の統合、特定の座標点への入射角と出射角とのずれがわずかな座標点の削除などが行われる。 The change in shape of the character type, for example, deletion of coordinate points constituting a character, integrating the coordinate point of the approximate location, such as displacement remove slight coordinate points and the exit angle and the angle of incidence to a specific coordinate point It is carried out.

図7は、本実施形態に係るインデックス埋め込み部29の一例を示すブロック図である。 Figure 7 is a block diagram showing an example of an index embedding unit 29 according to the present embodiment.

PDFファイルは、コメント命令の「start」と「end」の間など、PDF閲覧ソフトウェアに読み飛ばされる領域、PDF閲覧ソフトウェアによって認識されない領域にデータを収納することができる。 PDF files, such as between comment instruction of the "start" and "end", the region is skipped in PDF viewing software, it is possible to store the data in an area that is not recognized by the PDF viewing software.

インデックス埋め込み指定データ35は、このPDF閲覧ソフトウェアに読み飛ばされる領域のうちのいずれかの領域に、インデックスデータが配置されることを指定する。 Index embedded specifying data 35, any area of ​​the region is skipped in the PDF viewing software, it specifies that the index data is arranged. インデックスデータの埋め込み方法としては、例えば、PDFの「しおり」機能、または、PDFの規約に従って「メタデータ」挿入の機能が用いられる。 As a method of embedding the index data, for example, "bookmark" feature PDF, or the function of "metadata" insert is used according to convention PDF.

インデックス埋め込み部29は、インデックス埋め込み指定データ35にしたがって、マージされたPDFファイル45のうちPDF閲覧ソフトウェアに読み飛ばされる領域46に、インデックスデータ41を埋め込み、再編成PDFファイル47を生成する。 Index embedding unit 29, according to the index embedded specifying data 35, the region 46 is skipped in the PDF viewing software of the merged PDF file 45, embedding the index data 41, and generates a reorganization PDF file 47.

図8は、本実施形態に係る情報処理装置1の処理の一例を示すフローチャートである。 Figure 8 is a flow chart illustrating an example of processing of the information processing apparatus 1 according to this embodiment. なお、下記の各ステップの処理順序は、任意に変更可能である。 The processing order of the steps described below can be arbitrarily changed.

ステップS1において、情報処理装置1は、複数のPDFファイル131〜13nに含まれているページ表現データ151〜15nからインデックスデータ361〜36nを抽出する。 In step S1, the information processing apparatus 1 extracts the index data 361~36n from the page representation data 151~15n contained in multiple PDF files 131 to 13n.

ステップS2において、情報処理装置1は、ページ表現データ151〜15nへ、インデックスデータ361〜36nを表す文字、文字列、又はコードデータを追記する。 In step S2, the information processing apparatus 1, to the page representation data 151 to 15n, appending a character representing the index data 361~36N, string, or the code data.

ステップS3において、情報処理装置1は、インデックスデータ361〜36nを表す文字、文字列、又はコードデータを追記されたページ表現データをマージし、ページ表現データ201〜20kを生成する。 In step S3, the information processing apparatus 1 merges characters representing the index data 361~36N, string, or a write-once pages representing data code data to generate a page representation data 201~20K.

ステップS4において、情報処理装置1は、複数のPDFファイル131〜13nに含まれている文字データ161〜16nのデータサイズを低減させ、文字データ221〜22kを生成する。 In step S4, the information processing apparatus 1 may reduce the data size of the character data 161~16n contained in multiple PDF files 131 to 13n, generates character data 221~22K.

ステップS5において、情報処理装置1は、複数のPDFファイル131〜13nに含まれている画像データ171〜17nのデータサイズを低減させ、画像データ231〜23kを生成する。 In step S5, the information processing apparatus 1 may reduce the data size of the image data 171~17n contained in multiple PDF files 131 to 13n, and generates an image data 231~23K.

ステップS6において、情報処理装置1は、文字又はコードデータを追記されたページ表現データ201〜20k、データサイズの低減された文字データ221〜22k、データサイズの低減された画像データ231〜23kを含むマージPDFファイル181〜18kを生成する。 In step S6, the information processing apparatus 1 includes the character or code data additional writing pages representation data 201~20K, reduced character data 221~22k data size, a reduced image data 231~23k data size to generate the merge PDF file 181~18k.

ステップS7において、情報処理装置1は、マージPDFファイル181〜18kに、インデックスデータ361〜36nに対応するインデックスデータ211〜21kを埋め込む。 In step S7, the information processing apparatus 1, the merge PDF file 181~18K, embedding the index data 211~21k corresponding to the index data 361~36N.

以上説明した本実施形態においては、情報処理装置1の記憶装置2aに記憶されている多量のPDFファイル131〜13nから、迅速かつ自動で、検索対象のPDFファイルを抽出するためのインデックスデータ361〜36nが生成される。 Above in the present embodiment described, from a large amount of PDF files 131~13n stored in the storage device 2a of the information processing apparatus 1, quickly and automatically, the index data 361 to extract the search PDF files 36n is generated. そして、本実施形態においては、複数のPDFファイル131〜13nをまとめた再編成PDFファイル181〜18kが形成される。 Then, in the present embodiment, rearrangement PDF file 181~18k summarizing multiple PDF files 131~13n are formed. これにより、PDFファイルの数の増大を防止し、PDFファイルに含まれる資源データの共有化を図ることができ、PDFファイルのデータサイズを低減させることができる。 This prevents an increase in the number of the PDF file, it is possible to reduce the sharing of resource data included in the PDF file, it is possible to reduce the data size of the PDF file.

本実施形態においては、インデックスデータ131〜13nを再編成PDFファイル181〜18kに割り当てたインデックスデータ211〜21kが、再編成PDFファイル181〜18k内に埋め込まれており、インデックスデータ211〜21kとPDFファイル181〜18kとが別構成とされていない。 In the present embodiment, index data 211~21k assigned the index data 131~13n reorganization PDF file 181~18K is, are embedded in reorganization PDF file 181~18K, index data 211~21k and PDF and a file 181~18k not been with another configuration. これにより、再編成PDFファイル181〜18kに対する検索を迅速に行うことができ、再編成PDFファイル181〜18kの取り扱いを簡素化することができる。 Thus, it is possible to perform a search against reorganization PDF file 181~18k quickly, the handling of the reorganization PDF file 181~18k can be simplified.

本実施形態において、インデックスデータ131〜13nは、検索容易な形式で再編成PDFファイル181〜18kに埋め込まれるため、検索のための情報の可搬性を向上させることができる。 In the present embodiment, index data 131~13n is for implantation in the reorganization PDF file 181~18k search easy formats can improve the portability of the information for the search.

本実施形態においては、複数のPDFファイル131〜13nがまとめられて再編成PDFファイル181〜18kが生成され、複数の資源データ141〜14nがまとめられ、重複が排除されて資源データ191〜19kに再編成され、これによりデータサイズを削減することができる。 In the present embodiment, grouped multiple PDF files 131~13n by reorganizing PDF file 181~18k is generated, a plurality of resource data 141~14n are combined, overlapping is eliminated RDATA 191~19k It reorganized, thereby to reduce the data size.

本実施形態においては、例えばPDFファイルの閲覧及び印刷を行う情報処理装置1がこのPDFファイルと同一の文字種別を保有しているなど、内包不要の文字種別が文字データに含まれている場合、この内包不要の文字種別が非内包形式に変更される。 In the present embodiment, for example, when an information processing apparatus 1 for viewing and printing the PDF file owns the same character type and the PDF file, containing unnecessary character type is included in the character data, the inclusion unnecessary character type is changed to a non-encapsulated form. PDFファイルのデータサイズについては、資源データの占める比率が大きいため、文字データの総データ容量を削減することにより、PDFファイルのデータサイズを削減することができる。 For the data size of the PDF file, due to the large proportion of the resource data, by reducing the total data capacity of the character data, it is possible to reduce the data size of the PDF file.

本実施形態においては、内包形式にできない文字データのデータサイズが削減され、これによりさらにPDFファイルのデータサイズが削減される。 In the present embodiment, it reduces the data size of character data that can not be encapsulated form, thereby further reducing the data size of the PDF file. 例えば、文字データは、ベゼー曲線、スプライン関数、直線を使用したベクトル閉曲線によって文字を表現する。 For example, the character data representing a character by a vector closed curve used Beze curve, spline function, a straight line. 一般的な文字データは、高品質用途を想定して過度な座標点を持つ。 Common character data has excessive coordinate points assuming high quality applications. しかしながら、本実施形態においては、例えば画面表示及び低解像度プリンタの印刷に不要な座標点が削減され、文字データのデータサイズが低減される。 However, in the present embodiment, for example, unnecessary coordinate points on the print screen display and a low resolution printer is to reduce the data size of the character data is reduced.

本実施形態においては、写真などのようなデータサイズの大きい画像データに対して、一括して解像度を所定のレベルまで低減させるための処理が実行される。 In the present embodiment, for large image data of data size such as photographs, the processing for reducing the resolution to a predetermined level by collectively is executed. 画像データは、カラー色彩と濃度とを表現する階調情報によって表現される。 Image data is represented by a gray scale information representing a color color and density. 画像品質に影響する画像データの解像度を低減させることにより、画像データのデータサイズも低減させることができる。 By reducing the resolution of the image data affecting the image quality, the data size of image data can also be reduced. これにより、PDFファイルのデータサイズを削減しつつ、所定のレベルの画像品質を確保することができる。 Thus, it is possible while reducing the data size of the PDF file, to ensure the image quality of a predetermined level.

本実施形態においては、抽出されたインデックスデータ361〜36nを加工し、インデックスデータ361〜36nに対応する文字、バーコードなどのコードデータが再編成PDFファイル181〜18kのページ表現データ201〜20kに目視可能とするために追記される。 In this embodiment, processing the extracted index data 361~36N, index data 361~36N the corresponding character in the page representation data 201~20k code data of reorganizing PDF file 181~18k such as a bar code It is appended to the visible. これにより、再編成PDFファイル181〜18kを閲覧することで、ユーザがインデックスデータの内容を容易に確認することができる。 Thus, by viewing the reorganization PDF file 181~18k, the user can check the contents of the index data easily.

なお、本実施形態に係る情報処理装置1の各構成要素は、自由に組み合わせることができ、また、自由に分離することができる。 Incidentally, the components of the information processing apparatus 1 according to this embodiment can be freely combined, and can be freely separated. 例えば、文字データ変更部26と画像データ変更部27は組み合わせてもよく、記憶装置2aと記憶装置2bとは組み合わせてもよい。 For example, it may be combined character data changing unit 26 and the image data changing section 27 may be combined and the memory device 2a storage device 2b.

さらに、本実施形態に係る情報処理装置1の各構成要素の処理順序は、再編成PDFファイル181〜18kが生成可能な範囲で適宜変更可能である。 Further, the processing order of the respective components of the information processing apparatus 1 according to this embodiment, and can be suitably changed reorganization PDF file 181~18k capable generation range. 例えば、PDFファイル131〜13nがマージされる前又はマージされた後に、資源データに対するデータサイズ低減が実行されてもよい。 For example, before or after the merging PDF file 131~13n are merged, the data size reduction for the resource data may be performed. PDFファイル131〜13nがマージされた後に、インデックスデータを抽出するとしてもよい。 After PDF file 131~13n are merged, it may extract the index data. PDFファイル131〜13nがマージされた後に、ページ表現データに対して、インデックスデータに対応する文字又はコードデータが追記されるとしてもよい。 After PDF file 131~13n are merged, the page representation data may be a character or code data corresponding to the index data is additionally written. インデックスデータ361〜36nがPDFファイル131〜13nに埋め込まれた後に、マージが実行されるとしてもよい。 After the index data 361~36n are embedded in the PDF file 131 to 13n, may be merged is performed. ページ表現データがマージされた後に、インデックスデータが抽出されてもよい。 After the page representation data is merged, the index data may be extracted. ページ表現データがマージされた後に、インデックスデータを表す文字又はコードデータが追記されてもよい。 After the page representation data is merged, the character or code data represents the index data may be appended.

(第2の実施形態) (Second Embodiment)
本実施形態においては、多数の文書データに相当する上記第1の実施形態の再編成PDFファイル181〜18kから特定の1又は複数の文書データを高速に取り出す方法について説明する。 In the present embodiment, it will be described how to retrieve a number from the reorganization PDF file 181~18k of the first embodiment corresponding to the document data identification of one or more text data at a high speed.

再編成PDFファイル181〜18kは、高速検索のために用いられるインデックスデータ211〜21kを含む。 Reorganization PDF file 181~18k is, including the index data 211~21k used for fast retrieval. 再編成PDFファイル181〜18kに含まれる資源データ191〜19kのデータ容量は削減されている。 Data capacity of the resource data 191~19k that is included in the reorganization PDF file 181~18k has been reduced. 再編成PDFファイル181〜18kのそれぞれには、単体のページ表現データ又は組み合わされたページ表現データが適宜割り当てられている。 Each reorganization PDF file 181~18K, single page representation data or combined page representation data is allocated as appropriate.

情報処理装置1は、生成済みのPDFファイル131〜13から、データ容量を削減した再編成PDFファイル181〜18kを生成する特徴を持つ。 The information processing apparatus 1, from the already generated PDF file 131-13, has a feature of generating reorganize PDF file 181~18k with a reduced data capacity.

情報処理装置1は、必要な文書データを検索するためにインデックスデータ211〜21kを生成し、再編成PDFファイル181〜18kにインデックスデータ211〜21kを内包させる。 The information processing apparatus 1 generates the index data 211~21k to retrieve the necessary document data, the index data 211~21k be encapsulated reorganization PDF file 181~18K. これにより、データ可搬性、データ管理の効率を向上させることができる。 Thus, it is possible to improve data portability, the efficiency of data management.

さらに、情報処理装置1は、再編成PDFファイル181〜18kのデータサイズを小さくするために、画像データ231〜23kの画像解像度の低減、文字データ221〜22kの形状表現の座標情報の間引きを行う。 Furthermore, the information processing apparatus 1, in order to reduce the data size of the reorganization PDF file 181~18K, reducing the image resolution of the image data 231~23K, thinning of the coordinate information of the shape representation of the character data 221~22k performed .

図9は、再編成PDFファイル181のデータ構成の一例を示す形式図である。 Figure 9 is a format diagram showing an example of the data structure of the rearrangement PDF file 181. なお、他の再編成PDFファイル182〜18kも図9と同様のデータ構成を持つことができる。 The other reorganization PDF file 182~18k also can have the same data structure as Fig.

再編成PDFファイル181は、文字データ221、画像データ231、ページ表現データ201、インデックスデータ211を含む。 Reorganization PDF file 181 includes text data 221, image data 231, page representation data 201, the index data 211.

通常、多量のページに関するPDFファイルであっても、この多量のページで使用される文字データ、画像データは、ページ数に比例して増大しない。 Usually, even PDF files for a large amount of pages, the character data to be used in this large amount of page, the image data does not increase in proportion to the number of pages. したがって、上記第1の実施形態のように、多量のページを一つのPDFファイルで保存することにより、多数のページを分割して保存するよりもデータ容量を削減することができる。 Therefore, as in the first embodiment, by storing a large amount of pages in one PDF file, it is possible to reduce the data capacity than saving by dividing the number of pages.

上記のような特徴に加えて、本実施形態においては、検索部6による検索処理の高速化について説明する。 In addition to the features described above, in the present embodiment will be described faster search processing by the search section 6. 本実施形態において、文書データの検索は、電子図書館、電子文書館、保険会社の情報処理システム、コールセンターなどにおいて使用されることを想定しているが、他の利用分野においても使用可能である。 In this embodiment, retrieval of document data, digital libraries, electronic archives, insurance company information system, it is assumed to be used in the call center can also be used in other fields of use.

第1の検索として、バッチ検索処理が用いられる。 As a first search, batch searching process is used.

図10は、バッチ検索処理の一例を示すフローチャートである。 Figure 10 is a flowchart showing an example of a batch search process.

ステップT1において、検索部6は、検索対象のインデックスデータの指定を受ける。 In step T1, the search unit 6 receives the designation of the index data to be searched.

ステップT2において、検索部6は、再編成PDFファイル182〜18kから文書データ221〜22k、画像データ231〜23k、インデックスデータ211〜21kを抽出する。 In step T2, the search section 6, reorganize PDF file 182~18k from the document data 221~22K, image data 231~23K, extracts the index data 211~21K.

ステップT3において、検索部6は、検索対象のインデックスデータに基づいて、インデックスデータ211〜21kを参照し、検索対象のページ表現データ(検索対象ページ範囲)を決定する。 In step T3, the search section 6, based on the index data of the search target, with reference to the index data 211~21K, determines a page representation data to be searched (search object page range).

ステップT4において、検索部6は、決定された検索対象のページ表現データ、当該検索対象のページ表現データで使用されている文字データ及び画像データを、例えば、記憶装置2b、表示装置8、印刷装置9などに出力する。 In step T4, the search section 6, the determined search target page representation data, character data and image data used in the page representation data of the search target, for example, the storage device 2b, a display device 8, a printing device to output to 9.

第2の検索として、リアルタイム検索処理が用いられる。 As a second search, the real-time retrieval processing is used.

図11は、リアルタイム検索処理の一例を示すフローチャートである。 Figure 11 is a flowchart showing an example of a real-time search process.

このリアルタイム検索処理においては、逐次検索リクエストに応答して、検索プログラムと資源データ191〜19k(文字データ221〜22k、画像データ231〜23k)とインデックスデータ211〜21kを、例えば作業用の高速アクセス可能な記憶装置2b(例えば内部メモリ)に常駐させる。 In this real-time search process, in response to a sequential search request, a search program and resource data 191~19K (character data 221~22K, image data 231~23K) the index data 211~21K, for example fast access working a storage device 2b (e.g. internal memory) reside in. 検索プログラムは、情報処理装置1のプロセッサにより実行され、検索部6の機能を実現させる。 Search program is executed by a processor of the information processing apparatus 1, thereby realizing the functions of the search unit 6. このリアルタイム検索処理においては、例えば、他のプログラムから、例えば、検索対象のインデックスデータなどのような検索リクエストが発行される。 In this real-time search process, for example, from another program, for example, search requests, such as index data to be searched is issued.

このリアルタイム検索処理においては、バッチ検索処理よりも、検索速度を大幅に向上させることができる。 In this real-time retrieval process, than batch search process, it is possible to significantly improve the search speed.

ステップU1において、情報処理装置1は、再編成PDFファイル181〜18kのうちの文字データ221〜22k、画像データ231〜23k、インデックスデータ211〜21kと、プロセッサを検索部6として機能させる検索プログラムとを記憶装置2bに常駐させ、検索プログラムを実行させる。 In step U1, the information processing apparatus 1, character data 221~22k of reorganization PDF file 181~18K, image data 231~23K, and index data 211~21K, a search program to function processor as a search section 6 was resident in the storage device 2b, to execute the search program.

ステップU2において、検索部6は、他のプログラムから発行された検索対象のインデックスデータの指定を監視する。 In step U2, the search unit 6 monitors the specified index data to be searched which has been issued from another program.

ステップU3において、検索部6は、検索対象のインデックスデータの指定を受けた場合に、検索対象のインデックスデータに基づいて、記憶装置2bに常駐しているインデックスデータ211〜21kを参照し、検索対象のページ表現データを決定する。 In step U3, the search unit 6, when receiving the designation of the index data of the search target, with reference to the index data 211~21k based on the index data to be searched are resident in the storage device 2b, searched to determine the page representation data.

ステップU4において、検索部6は、決定された検索対象のページ表現データ、当該検索対象のページ表現データで使用されており記憶装置2bに常駐されている文字データ及び画像データを、例えば、記憶装置2b、表示装置8、印刷装置9などに出力する。 In step U4, the search section 6, the determined search target page representation data, character data and image data that is resident in and storage device 2b is used in the page representation data of the search target, for example, the storage device 2b, the display device 8, to output to the printing device 9.

情報処理装置1は、リアルタイム検索処理が終了となるまで場合に、上記ステップU2以下の処理を繰り返す(ステップU5)。 The information processing apparatus 1, when up to real-time retrieval processing ends, repeat the above steps U2 following processing (step U5).

以上説明したように、本実施形態においては、検索部6による検索処理が具体的に説明されている。 As described above, in the present embodiment, the search processing by the search section 6 is specifically described. 検索部6は、リアルタイム検索処理を実行することにより、高速に所望のデータを抽出することができる。 Searching section 6, by executing the real-time search process, it is possible to extract the desired data at high speed.

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。 Have been described several embodiments of the present invention, these embodiments have been presented by way of example only, and are not intended to limit the scope of the invention. これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。 Indeed, the novel embodiments described herein may be embodied in other various forms, without departing from the spirit of the invention, various omissions, substitutions, and changes can be made. これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。 Such embodiments and modifications are included in the scope and spirit of the invention, and are included in the invention and the scope of their equivalents are described in the claims.

1…情報処理装置、2a,2b…記憶装置、3…文書編集部、4…再編成部、5…文書管理データベースシステム、6…検索部、7…入力装置、8…表示装置、9…印刷装置、10…文書データ、11,221〜22k…文字データ、12,231〜23k…画像データ、131〜13n…PDFファイル、141〜14n,191〜19k…資源データ、151〜15n,201〜20k…ページ表現データ、161〜16n…文字データ、171〜17n…画像データ、181〜18k…再編成されたPDFファイル、211〜21k…インデックスデータ、24…インデックス抽出部、25…ページ追記部25、26…文字データ変更部、27…画像データ変更部、28…マージ部、29…インデックス埋め込み部、30…インデック 1 ... information processing apparatus, 2a, 2b ... storage device, 3 ... document editing unit, 4 ... reorganizing unit, 5 ... document management database system, 6 ... search section, 7 ... input device, 8 ... display device, 9 ... Print apparatus, 10 ... document data, 11,221~22k ... character data, 12,231~23k ... image data, 131~13n ... PDF file, 141~14n, 191~19k ... resource data, 151~15n, 201~20k ... page representation data, 161~16n ... character data, 171~17n ... image data, 181~18k ... re-organized PDF file, 211~21k ... index data, 24 ... index extraction unit, 25 ... page postscript section 25, 26 ... the character data changing unit, 27 ... image data changing unit, 28 ... merging unit, 29 ... index embedder, 30 ... index 指定データ、31…ページ追記指定データ、32…文字変更指定データ、33…画像変更指定データ、34…マージ指定データ、35…インデックス埋め込み指定データ、361〜36n…インデックスデータ、481〜48k…マージされたPDFファイル。 Specified data, 31 ... page postscript specifying data, 32 ... character modification specified data, 33 ... image modification specified data, 34 ... merging specified data, 35 ... index embedded specified data, 361~36N ... index data, is 481~48K ... Merge PDF file.

Claims (6)

  1. 第1の記憶装置に記憶されている複数のPDFファイルから、所望のインデックスデータを抽出するインデックス抽出手段と、 A plurality of PDF file stored in the first storage device, and the index extraction means for extracting a desired index data,
    前記複数のPDFファイルに含まれているページ表現データの所望の位置に、前記インデックスデータを表す文字又はコードデータを追記するページ追記手段と、 The desired position of the page representation data contained in the plurality of PDF files, a page recordable unit that adds the character or code data representative of the index data,
    前記複数のPDFファイルに含まれている資源データに対してデータサイズ低減処理を行う資源データ変更手段と、 And resource data change means for performing the data size reduction processing to the resource data included in the plurality of PDF files,
    前記ページ追記手段によって前記文字又はコードデータの追記された前記複数のPDFファイルに含まれているページ表現データをマージし、当該マージされたページ表現データと、前記資源データ変更手段によってデータサイズの低減された資源データとを含むマージPDFファイルを生成するマージ手段と、 Reduction of the page by additional recording means merges the page representation data contained in said character or code data additionally written said plurality of PDF files, a page representation data the merge, the data size by the resource data changing means and merging means for generating a merged PDF file that contains a resources for which data,
    前記マージPDFファイルの所望の位置に前記インデックスデータを埋め込んだ再編成PDFファイルを生成し、前記再編成PDFファイルを第2の記憶装置に記憶するインデックス埋め込み手段と、 And index embedding means the merging generating reorganization PDF file embedded the index data at a desired position of the PDF file, and stores the rearrangement PDF file in the second storage device,
    前記インデックスデータに基づいて、前記第2の記憶装置に記憶されている前記再編成PDFファイルに対する検索処理を実行する検索手段とを具備する、情報処理装置。 On the basis of the index data, and a search means that executes a search process for said second of said reorganization PDF file stored in the storage device, the information processing apparatus.
  2. 請求項1記載の情報処理装置において、 The information processing apparatus according to claim 1,
    前記資源データ変更手段は、前記資源データに含まれている文字データを非内包型とすることと、前記資源データに含まれている文字データにおいて字形を表す座標点を減少させることと、前記資源データに含まれている画像データの解像度を所定のレベル以下に下げることとのうちの少なくとも1つを行う、ことを特徴とする情報処理装置。 The resource data changing means, the method comprising the character data contained in the resource data and the non-encapsulated, and reducing the coordinate points representing shape in the character data included in the resource data, the resource the resolution of the image data contained in the data conduct at least one of the lowering below a predetermined level, the information processing apparatus characterized by.
  3. 請求項1又は請求項2記載の情報処理装置において、 The information processing apparatus according to claim 1 or claim 2 wherein,
    前記インデックス抽出手段は、第3の記憶装置に記憶されており前記複数のPDFファイルのうち前記インデックスデータの抽出を行う領域を指定するインデックス指定データに基づいて、キーとなる文字と、前記キーとなる文字と所定の関係にある文字と、所定のコードデータとのうちの少なくとも1つを、前記インデックスデータとして抽出し、 Said index extraction means, based on the index designation data for designating a region for extraction of the index data of the third plurality of PDF files are stored in a storage device, a character which is key, and said key becomes a character and a character in the predetermined relationship, at least one of the predetermined code data is extracted as the index data,
    前記ページ追記手段は、第4の記憶装置に記憶されており前記文字又は前記コードデータを追記する位置を指定するページ追記指定データに基づいて、前記複数のPDFファイルに含まれているページ表現データに対して前記文字又は前記コードデータを追記し、 The page write-once section, based on the page postscript specifying data that specifies where to append the fourth the character or the code data is stored in the storage device, a page representation data contained in said plurality of PDF files the character or append the code data to,
    前記インデックス埋め込み手段は、第5の記憶装置に記憶されており前記インデックスデータを埋め込む位置を指定するインデックス埋め込み指定データに基づいて、前記マージPDFファイルに前記インデックスデータを埋め込むことを特徴とする情報処理装置。 The index embedding means, information processing based on the index embedded designation data designating a position for embedding the fifth said index data are stored in a storage device, characterized in that embedding the index data in the merge PDF file apparatus.
  4. 請求項1乃至請求項3のいずれか1項に記載の情報処理装置において、 The information processing apparatus according to any one of claims 1 to 3,
    前記インデックス埋め込み手段は、前記再編成PDFファイルのPDFファイル閲覧ソフトウェアによって読み飛ばされる領域に、前記インデックスデータを配置することを特徴とする情報処理装置。 The index embedding means, said the area skipped by the PDF file viewing software reorganization PDF file, the information processing apparatus characterized by disposing the index data.
  5. 請求項1乃至請求項4のいずれか1項に記載の情報処理装置において、 The information processing apparatus according to any one of claims 1 to 4,
    前記インデックス抽出手段は、前記複数のPDFファイルをイメージ化し、このイメージ化されたデータからインデックスデータを抽出し、 Said index extraction means, said plurality of PDF files imaged, extracts index data from the imaged data,
    前記ページ追記手段は、前記複数のPDFファイルがイメージ化された場合において、前記所望の位置に、前記インデックスデータを表す文字又はコードデータを配置することを特徴とする情報処理装置。 The page write-once section, in a case where the plurality of PDF file is imaged, the in the desired location, the information processing apparatus characterized by disposing a character or code data representative of the index data.
  6. コンピュータを、 The computer,
    第1の記憶装置に記憶されている複数のPDFファイルから、所望のインデックスデータを抽出するインデックス抽出手段と、 A plurality of PDF file stored in the first storage device, and the index extraction means for extracting a desired index data,
    前記複数のPDFファイルに含まれているページ表現データの所望の位置に、前記インデックスデータを表す文字又はコードデータを追記するページ追記手段と、 The desired position of the page representation data contained in the plurality of PDF files, a page recordable unit that adds the character or code data representative of the index data,
    前記複数のPDFファイルに含まれている資源データに対してデータサイズ低減処理を行う資源データ変更手段と、 And resource data change means for performing the data size reduction processing to the resource data included in the plurality of PDF files,
    前記ページ追記手段によって前記文字又はコードデータの追記された前記複数のPDFファイルに含まれているページ表現データをマージし、当該マージされたページ表現データと、前記資源データ変更手段によってデータサイズの低減された資源データとを含むマージPDFファイルを生成するマージ手段と、 Reduction of the page by additional recording means merges the page representation data contained in said character or code data additionally written said plurality of PDF files, a page representation data the merge, the data size by the resource data changing means and merging means for generating a merged PDF file that contains a resources for which data,
    前記マージPDFファイルの所望の位置に前記インデックスデータを埋め込んだ再編成PDFファイルを生成し、前記再編成PDFファイルを第2の記憶装置に記憶するインデックス埋め込み手段と、 And index embedding means the merging generating reorganization PDF file embedded the index data at a desired position of the PDF file, and stores the rearrangement PDF file in the second storage device,
    前記インデックスデータに基づいて、前記第2の記憶装置に記憶されている前記再編成PDFファイルに対する検索処理を実行する検索手段として機能させるためのプログラム。 On the basis of the index data, the second program for the function as search means that executes a search process for the reorganization PDF file stored in the storage device.
JP2012138105A 2011-12-02 2012-06-19 Information processing apparatus and program Active JP5465279B2 (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2011265033 2011-12-02
JP2011265033 2011-12-02
JP2012138105A JP5465279B2 (en) 2011-12-02 2012-06-19 Information processing apparatus and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012138105A JP5465279B2 (en) 2011-12-02 2012-06-19 Information processing apparatus and program

Publications (2)

Publication Number Publication Date
JP2013137733A true JP2013137733A (en) 2013-07-11
JP5465279B2 true JP5465279B2 (en) 2014-04-09

Family

ID=48913383

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012138105A Active JP5465279B2 (en) 2011-12-02 2012-06-19 Information processing apparatus and program

Country Status (1)

Country Link
JP (1) JP5465279B2 (en)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001075960A (en) * 1999-09-03 2001-03-23 Hitachi Ltd Bookbinding method through data integration and its execution system and recording medium recording its processing program
JP3775381B2 (en) * 2002-11-27 2006-05-17 コニカミノルタビジネステクノロジーズ株式会社 Image processing apparatus
JP2006338129A (en) * 2005-05-31 2006-12-14 Fuji Xerox Co Ltd Image forming program, document management device and image forming method
JP2011243174A (en) * 2010-05-17 2011-12-01 Naotoshi Kaku Work report making of external service work and management system

Also Published As

Publication number Publication date Type
JP2013137733A (en) 2013-07-11 application

Similar Documents

Publication Publication Date Title
US7143109B2 (en) Information storage and retrieval system for storing and retrieving the visual form of information from an application in a database
US7930292B2 (en) Information processing apparatus and control method thereof
US20030070146A1 (en) Information processing apparatus and method
US20060085442A1 (en) Document image information management apparatus and document image information management program
US4933880A (en) Method for dynamically processing non-text components in compound documents
US20090123071A1 (en) Document processing apparatus, document processing method, and computer program product
US6064397A (en) Method for creating multiple documents having identical background regions and page specific image regions
US20070136660A1 (en) Creation of semantic objects for providing logical structure to markup language representations of documents
US6330071B1 (en) Variable data print job system
US7055092B2 (en) Directory for multi-page SVG document
US6775678B1 (en) Data structure and method of storing a digital document
US20040111675A1 (en) Document processing apparatus and method
US20050234843A1 (en) Computer program for storing electronic files and associated attachments in a single searchable database
US20070171473A1 (en) Information processing apparatus, Information processing method, and computer program product
US20060059418A1 (en) Data insertion from a database into a fixed electronic template form that supports overflow data
US20050289460A1 (en) Document processing apparatus, control method therefor, and computer program
US20030210428A1 (en) Non-OCR method for capture of computer filled-in forms
US20040194026A1 (en) Method and apparatus for composing multimedia documents
US7739583B2 (en) Multimedia document sharing method and apparatus
US7188311B2 (en) Document processing method and apparatus, and print control method and apparatus
US20050125724A1 (en) PPML to PDF conversion
US20030222916A1 (en) Object-oriented processing of tab text
EP0384986A2 (en) Method for displaying online information
US20030056178A1 (en) Information processing system and display method
JP2001337994A (en) Thumbnail display system and method and recording medium with processing program therefor recorded therein

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20131008

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20131008

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131025

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131112

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140121

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250