JP2010092383A - Electronic document file search device, electronic document file search method, and computer program - Google Patents

Electronic document file search device, electronic document file search method, and computer program Download PDF

Info

Publication number
JP2010092383A
JP2010092383A JP2008263416A JP2008263416A JP2010092383A JP 2010092383 A JP2010092383 A JP 2010092383A JP 2008263416 A JP2008263416 A JP 2008263416A JP 2008263416 A JP2008263416 A JP 2008263416A JP 2010092383 A JP2010092383 A JP 2010092383A
Authority
JP
Japan
Prior art keywords
electronic document
document file
image data
data
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008263416A
Other languages
Japanese (ja)
Other versions
JP2010092383A5 (en
Inventor
Osamu Iwabuchi
修 岩渕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Keyence Corp
Original Assignee
Keyence Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Keyence Corp filed Critical Keyence Corp
Priority to JP2008263416A priority Critical patent/JP2010092383A/en
Publication of JP2010092383A publication Critical patent/JP2010092383A/en
Publication of JP2010092383A5 publication Critical patent/JP2010092383A5/ja
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide an electronic document file search device, an electronic document file search method, and a computer program which efficiently searches for a desired electronic document file from a plurality of electronic document files distributed and stored in a plurality of computers connected by a network. <P>SOLUTION: Information identifying a plurality of electronic document files including at least text data, location information showing where the electronic document files are stored, and text data are acquired. The plurality of electronic document files are converted to print data, and image data for each page is generated on the basis of converted print data. Information identifying the electronic document files, location information, print data, and image data are stored in association with text data for each page. A plurality of image data are extracted on the basis of an accepted input search condition and are displayed on one screen, and an electronic document file corresponding to the selected and accepted image data is extracted. <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

本発明は、ネットワーク上に分散記憶されている電子文書ファイルを、内容を確認しながら検索することができる電子文書ファイル検索装置、電子文書ファイル検索方法及びコンピュータプログラムに関する。   The present invention relates to an electronic document file search apparatus, an electronic document file search method, and a computer program that can search electronic document files distributed and stored on a network while checking the contents.

ペーパレス化の進展、ISO9000等による文書管理の重要度の増大に伴って、あらゆる場面で電子文書ファイルが管理されている。しかし、単に電子文書ファイルを記録管理するだけでは意味がなく、必要な時に必要な電子文書ファイルを使用することができる電子文書ファイル検索システムの需要は増大している。   With the progress of paperless and the increasing importance of document management by ISO9000 and the like, electronic document files are managed in every scene. However, simply recording and managing an electronic document file is meaningless, and the demand for an electronic document file search system that can use a necessary electronic document file when necessary is increasing.

電子文書ファイルの格納場所を容易に確認することができるように、例えば特許文献1では、階層構造にて記録管理されているファイルの格納場所を示す格納場所情報に基づいて、ファイルの格納場所を示す階層構造をツリー形式にて表示するファイル管理システムが開示されている。ファイルの格納場所をツリー形式に表示することで視覚的に把握することができる。  For example, in Patent Document 1, the storage location of a file is determined based on storage location information indicating the storage location of a file recorded and managed in a hierarchical structure so that the storage location of an electronic document file can be easily confirmed. A file management system that displays a hierarchical structure to be displayed in a tree format is disclosed. You can visually grasp the storage location of the file by displaying it in a tree format.

一方、ネットワーク環境のデータ転送速度の高速化が進み、ネットワーク全体を仮想ディスク化することにより、複数の場所に設置されているコンピュータの記憶装置を、一の記憶装置と仮想的に見做して大容量の記憶装置を構成する技術が開発されている。この場合、電子文書ファイルのファイル名をキー情報として検索する場合、対象となる電子文書ファイルのみを受信すれば足りる。  On the other hand, the data transfer speed of the network environment has been increased, and the entire network is made into a virtual disk so that the computer storage devices installed in multiple locations are virtually regarded as one storage device. A technology for configuring a large-capacity storage device has been developed. In this case, when searching using the file name of the electronic document file as key information, it is sufficient to receive only the target electronic document file.

しかし、所望の電子文書ファイルのファイル名が不明である場合、インデックス検索等により所望の電子文書ファイルを検索する必要がある。インデックス検索により電子文書ファイルをある程度の数まで絞り込むことにより、どの電子文書ファイルが所望の電子文書ファイルであるのか確認することが容易となる。   However, when the file name of the desired electronic document file is unknown, it is necessary to search for the desired electronic document file by index search or the like. By narrowing down electronic document files to a certain number by index search, it becomes easy to confirm which electronic document file is the desired electronic document file.

例えば特許文献2では、ネットワークで接続されている複数の文書検索サーバを横断的に検索し、検索結果が出揃う前に検索結果の中途であってもスナップショットを生成することにより、文書検索サーバの相違による検索時間の相違が生じた場合であっても、スナップショットを用いて検索ファイルの内容を確認することが可能な文書検索システムが開示されている。
特開2001−043231号公報 特開2001−101193号公報
For example, in Patent Document 2, a plurality of document search servers connected via a network are searched across, and a snapshot is generated even if the search results are halfway before the search results are collected. A document search system is disclosed that can confirm the contents of a search file using a snapshot even when a search time difference due to a difference occurs.
JP 2001-043331 A JP 2001-101193 A

しかし、特許文献2におけるスナップショットは、検索ファイルそのもの、又は検索ファイルの格納位置に関する情報であり、検索ファイルの内容を確認するためには、検索ファイル自体を読み出す必要がある。検索ファイルが多数である場合、対象となる検索ファイルの送受信による通信負荷も無視できないレベルとなり、ネットワーク全体での検索レスポンスの低下の一因となるおそれがあるという問題点があった。   However, the snapshot in Patent Document 2 is information relating to the search file itself or the storage location of the search file, and it is necessary to read the search file itself in order to confirm the contents of the search file. When there are a large number of search files, the communication load due to transmission / reception of the target search file is at a level that cannot be ignored, which may cause a decrease in search response in the entire network.

また、検索ファイルを読み出した場合であっても、検索ファイルに対応するソフトウェアプログラムが読み出したコンピュータにインストールされていない場合には内容を確認することができない。したがって、所望の情報が含まれる検索ファイルであるにもかかわらず看過するおそれも残されていた。   Even when the search file is read, the contents cannot be confirmed if the software program corresponding to the search file is not installed in the read computer. Therefore, there is a possibility that the search file including desired information may be overlooked.

本発明は斯かる事情に鑑みてなされたものであり、ネットワークで接続された複数のコンピュータに分散記憶されている複数の電子文書ファイルから所望の電子文書ファイルを効率良く検索することができる電子文書ファイル検索装置、電子文書ファイル検索方法及びコンピュータプログラムを提供することを目的とする。   The present invention has been made in view of such circumstances, and an electronic document capable of efficiently retrieving a desired electronic document file from a plurality of electronic document files distributed and stored in a plurality of computers connected via a network. It is an object to provide a file search device, an electronic document file search method, and a computer program.

上記目的を達成するために第1発明に係る電子文書ファイル検索装置は、ネットワークに接続されている複数のコンピュータに記憶されている複数の電子文書ファイル中から所望の電子文書ファイルを検索する電子文書ファイル検索装置において、少なくともテキストデータが含まれる複数の前記電子文書ファイルを識別する情報、該電子文書ファイルが記憶されている位置に関する情報、及び前記テキストデータを取得する電子文書ファイル情報取得手段と、複数の前記電子文書ファイルを一又は複数ページの印刷データに変換する印刷データ変換手段と、変換された複数ページの印刷データに基づいてページごとのイメージデータを生成するイメージデータ生成手段と、変換された複数ページの印刷データに含まれるページごとのテキストデータに対応付けて、前記電子文書ファイルを識別する情報、該電子文書ファイルが記憶されている位置に関する情報、ページごとの前記印刷データ及び対応する前記イメージデータを記憶する検索対象情報記憶手段と、検索条件の入力を受け付ける検索条件受付手段と、入力を受け付けた検索条件に基づいて前記テキストデータを検索し、検索された複数のテキストデータにそれぞれ対応する複数のイメージデータを抽出するイメージデータ抽出手段と、抽出された複数のイメージデータを、同一画面上で表示するイメージデータ表示手段と、一のイメージデータの選択を受け付けるイメージデータ選択受付手段と、選択を受け付けたイメージデータに対応する電子文書ファイルを抽出する電子文書ファイル抽出手段とを備えることを特徴とする。   In order to achieve the above object, an electronic document file retrieval apparatus according to a first aspect of the present invention is an electronic document for retrieving a desired electronic document file from a plurality of electronic document files stored in a plurality of computers connected to a network. In the file search device, information for identifying a plurality of the electronic document files including at least text data, information on a position where the electronic document file is stored, and electronic document file information acquisition means for acquiring the text data; Print data conversion means for converting a plurality of electronic document files into one or a plurality of pages of print data, and image data generation means for generating image data for each page based on the converted print data of the plurality of pages. Text for each page included in multi-page print data Search object information storage means for storing information for identifying the electronic document file in association with data, information about a position where the electronic document file is stored, the print data for each page and the corresponding image data; Search condition accepting means for accepting input of search conditions, and image data extracting means for retrieving the text data based on the search condition accepting the input and extracting a plurality of image data respectively corresponding to the plurality of retrieved text data An image data display means for displaying a plurality of extracted image data on the same screen, an image data selection acceptance means for accepting selection of one image data, and an electronic document file corresponding to the image data accepted for selection Electronic document file extracting means for extracting To.

また、第2発明に係る電子文書ファイル検索装置は、第1発明において、前記電子文書ファイル情報取得手段、前記印刷データ変換手段、前記イメージデータ生成手段、及び前記検索対象情報記憶手段を、所定の期間が経過する都度、繰り返し実行するようにしてあることを特徴とする。   The electronic document file search device according to a second aspect of the present invention is the electronic document file information acquisition unit, the print data conversion unit, the image data generation unit, and the search target information storage unit according to the first aspect. It is characterized in that it is repeatedly executed every time the period elapses.

また、第3発明に係る電子文書ファイル検索装置は、第1又は第2発明において、前記テキストデータをページごとに解析してインデックス情報を生成するインデックス情報生成手段と、生成したインデックス情報を前記印刷データに対応付けて記憶するインデックス情報記憶手段とを備え、前記イメージデータ抽出手段は、受け付けた検索条件に基づいて前記インデックス情報を検索し、検索されたインデックス情報に対応付けて記憶されている印刷データに対応するイメージデータを抽出するようにしてあることを特徴とする。   According to a third aspect of the present invention, there is provided the electronic document file search device according to the first or second aspect, wherein the text information is analyzed for each page to generate index information, and the generated index information is printed. Index information storage means for storing data in association with the data, wherein the image data extraction means searches the index information based on the received search condition, and stores the print information stored in association with the searched index information Image data corresponding to the data is extracted.

また、第4発明に係る電子文書ファイル検索装置は、第1乃至第3発明のいずれか1つにおいて、前記イメージデータ抽出手段で抽出された複数のイメージデータに対応する複数の前記テキストデータを形態素解析する形態素解析手段と、形態素解析の結果に基づいて複数の単語を抽出する単語抽出手段と、抽出された複数のイメージデータに対応する複数のテキストデータのうち、抽出された複数の単語が含まれる前記テキストデータの数を計数する計数手段と、計数した前記テキストデータの数が所定数以上である単語が存在するか否かを判断する判断手段とを備え、該判断手段で所定数以上である単語が存在すると判断した場合、前記検索対象情報記憶手段は、存在すると判断された単語を関連語情報として、変換された印刷データに含まれるテキストデータに対応付けて記憶するようにしてあることを特徴とする。   According to a fourth aspect of the present invention, there is provided the electronic document file search device according to any one of the first to third aspects, wherein a plurality of the text data corresponding to the plurality of image data extracted by the image data extraction unit is obtained as morphemes. Includes morpheme analysis means for analysis, word extraction means for extracting a plurality of words based on the result of morpheme analysis, and a plurality of extracted words among a plurality of text data corresponding to the plurality of extracted image data Counting means for counting the number of the text data to be determined, and judging means for judging whether or not there is a word having a counted number of the text data equal to or larger than a predetermined number. If it is determined that a certain word exists, the search target information storage means uses the word determined to be present as related word information in the converted print data. Wherein the Murrell in association with the text data are to be stored.

また、第5発明に係る電子文書ファイル検索装置は、第1乃至第4発明のいずれか1つにおいて、前記イメージデータ表示手段は、抽出された複数のイメージデータを縮小した縮小画像データを生成して表示するようにしてあることを特徴とする。   According to a fifth aspect of the present invention, in the electronic document file search device according to any one of the first to fourth aspects, the image data display means generates reduced image data obtained by reducing a plurality of extracted image data. It is characterized by being displayed.

また、第6発明に係る電子文書ファイル検索装置は、第1乃至第5発明のいずれか1つにおいて、複数の前記印刷データから一の代表データの選択を受け付ける代表データ選択受付手段を備え、前記イメージデータ表示手段で、一の電子文書ファイルに属する複数のイメージデータが抽出された場合、受け付けた一の代表データに対応するイメージデータのみを表示するようにしてあることを特徴とする。   An electronic document file search device according to a sixth aspect of the present invention is the electronic document file search device according to any one of the first to fifth aspects, further comprising representative data selection receiving means for receiving selection of one representative data from the plurality of print data. When the image data display means extracts a plurality of image data belonging to one electronic document file, only the image data corresponding to the accepted representative data is displayed.

次に、上記目的を達成するために第7発明に係る電子文書ファイル検索方法は、ネットワークに接続されている複数のコンピュータに記憶されている複数の電子文書ファイル中から所望の電子文書ファイルを検索する電子文書ファイル検索装置で実行することが可能な電子文書ファイル検索方法において、少なくともテキストデータが含まれる複数の前記電子文書ファイルを識別する情報、該電子文書ファイルが記憶されている位置に関する情報、及び前記テキストデータを取得し、複数の前記電子文書ファイルを一又は複数ページの印刷データに変換し、変換された複数ページの印刷データに基づいてページごとのイメージデータを生成し、変換された複数ページの印刷データに含まれるページごとのテキストデータに対応付けて、前記電子文書ファイルを識別する情報、該電子文書ファイルが記憶されている位置に関する情報、ページごとの前記印刷データ及び対応する前記イメージデータを記憶し、検索条件の入力を受け付け、入力を受け付けた検索条件に基づいて前記テキストデータを検索し、検索された複数のテキストデータにそれぞれ対応する複数のイメージデータを抽出し、抽出された複数のイメージデータを、同一画面上で表示し、一のイメージデータの選択を受け付け、選択を受け付けたイメージデータに対応する電子文書ファイルを抽出することを特徴とする。   Next, in order to achieve the above object, an electronic document file search method according to a seventh invention searches for a desired electronic document file from a plurality of electronic document files stored in a plurality of computers connected to a network. In the electronic document file search method that can be executed by the electronic document file search device, information for identifying a plurality of the electronic document files including at least text data, information on a position where the electronic document file is stored, The text data is acquired, the plurality of electronic document files are converted into one or a plurality of pages of print data, image data for each page is generated based on the converted plurality of pages of print data, and the plurality of converted data The power is associated with the text data for each page included in the page print data. Stores information for identifying a document file, information on the position where the electronic document file is stored, the print data for each page, and the corresponding image data, accepts input of search conditions, and sets the search conditions to accept input The text data is searched based on the image data, a plurality of image data respectively corresponding to the searched plurality of text data is extracted, the plurality of extracted image data is displayed on the same screen, and one image data is selected. And an electronic document file corresponding to the image data for which selection has been received is extracted.

また、第8発明に係る電子文書ファイル検索方法は、第7発明において、少なくともテキストデータが含まれる複数の前記電子文書ファイルを識別する情報、該電子文書ファイルが記憶されている位置に関する情報、及び前記テキストデータを取得してから、変換された複数ページの印刷データに含まれるページごとのテキストデータに対応付けて、前記電子文書ファイルを識別する情報、該電子文書ファイルが記憶されている位置に関する情報、ページごとの前記印刷データ及び対応する前記イメージデータを記憶するまでの処理を、所定の期間が経過する都度、繰り返し実行することを特徴とする。   According to an eighth aspect of the present invention, there is provided an electronic document file search method according to the seventh aspect of the invention, information for identifying a plurality of the electronic document files including at least text data, information relating to positions where the electronic document files are stored, and Information on identifying the electronic document file in association with the text data for each page included in the converted print data of the plurality of pages after obtaining the text data, and the position where the electronic document file is stored The process until the information, the print data for each page, and the corresponding image data are stored is repeatedly executed every time a predetermined period elapses.

また、第9発明に係る電子文書ファイル検索方法は、第7又は第8発明において、前記テキストデータをページごとに解析してインデックス情報を生成し、生成したインデックス情報を前記印刷データに対応付けて記憶し、受け付けた検索条件に基づいて前記インデックス情報を検索し、検索されたインデックス情報に対応付けて記憶されている印刷データに対応するイメージデータを抽出するようにしてあることを特徴とする。   An electronic document file search method according to a ninth invention is the seventh or eighth invention, wherein the text data is analyzed for each page to generate index information, and the generated index information is associated with the print data. The index information is searched based on the stored and received search conditions, and image data corresponding to the print data stored in association with the searched index information is extracted.

また、第10発明に係る電子文書ファイル検索方法は、第7乃至第9発明のいずれか1つにおいて、抽出された複数のイメージデータに対応する複数の前記テキストデータを形態素解析し、形態素解析の結果に基づいて複数の単語を抽出し、抽出された複数のイメージデータに対応する複数のテキストデータのうち、抽出された複数の単語が含まれる前記テキストデータの数を計数し、計数した前記テキストデータの数が所定数以上である単語が存在するか否かを判断し、所定数以上である単語が存在すると判断した場合、存在すると判断された単語を関連語情報として、変換された印刷データに含まれるテキストデータに対応付けて記憶することを特徴とする。   An electronic document file search method according to a tenth aspect of the present invention is the electronic document file search method according to any one of the seventh to ninth aspects, wherein the plurality of text data corresponding to the plurality of extracted image data is subjected to morphological analysis. A plurality of words are extracted based on the result, and the number of the text data including the plurality of extracted words is counted among the plurality of text data corresponding to the plurality of extracted image data, and the counted text It is determined whether or not there is a word whose number of data is equal to or greater than a predetermined number, and when it is determined that there is a word that is equal to or greater than the predetermined number, the converted print data using the word determined to be present as related word information Is stored in association with the text data included in.

また、第11発明に係る電子文書ファイル検索方法は、第7乃至第10発明のいずれか1つにおいて、抽出された複数のイメージデータを縮小した縮小画像データを生成して表示することを特徴とする。   An electronic document file search method according to an eleventh invention is characterized in that, in any one of the seventh to tenth inventions, reduced image data obtained by reducing a plurality of extracted image data is generated and displayed. To do.

また、第12発明に係る電子文書ファイル検索方法は、第7乃至第11発明のいずれか1つにおいて、複数の前記印刷データから一の代表データの選択を受け付け、一の電子文書ファイルに属する複数のイメージデータが抽出された場合、受け付けた一の代表データに対応するイメージデータのみを表示することを特徴とする。   An electronic document file search method according to a twelfth aspect of the present invention is the electronic document file search method according to any one of the seventh to eleventh aspects, wherein selection of one representative data from the plurality of print data is accepted and a plurality of belonging to one electronic document file is received. When the image data is extracted, only the image data corresponding to the accepted representative data is displayed.

次に、上記目的を達成するために第13発明に係るコンピュータプログラムは、ネットワークに接続されている複数のコンピュータに記憶されている複数の電子文書ファイル中から所望の電子文書ファイルを検索する電子文書ファイル検索装置で実行することが可能なコンピュータプログラムにおいて、前記電子文書ファイル検索装置を、少なくともテキストデータが含まれる複数の前記電子文書ファイルを識別する情報、該電子文書ファイルが記憶されている位置に関する情報、及び前記テキストデータを取得する電子文書ファイル情報取得手段、複数の前記電子文書ファイルを一又は複数ページの印刷データに変換する印刷データ変換手段、変換された複数ページの印刷データに基づいてページごとのイメージデータを生成するイメージデータ生成手段、変換された複数ページの印刷データに含まれるページごとのテキストデータに対応付けて、前記電子文書ファイルを識別する情報、該電子文書ファイルが記憶されている位置に関する情報、ページごとの前記印刷データ及び対応する前記イメージデータを記憶する検索対象情報記憶手段、検索条件の入力を受け付ける検索条件受付手段、入力を受け付けた検索条件に基づいて前記テキストデータを検索し、検索された複数のテキストデータにそれぞれ対応する複数のイメージデータを抽出するイメージデータ抽出手段、抽出された複数のイメージデータを、同一画面上で表示するイメージデータ表示手段、一のイメージデータの選択を受け付けるイメージデータ選択受付手段、及び選択を受け付けたイメージデータに対応する電子文書ファイルを抽出する電子文書ファイル抽出手段として機能させることを特徴とする。   Next, in order to achieve the above object, a computer program according to the thirteenth aspect of the present invention provides an electronic document for searching for a desired electronic document file from a plurality of electronic document files stored in a plurality of computers connected to a network. In a computer program that can be executed by a file search device, the electronic document file search device is related to information for identifying a plurality of electronic document files including at least text data, and a position where the electronic document file is stored. Information and electronic document file information acquisition means for acquiring the text data, print data conversion means for converting the plurality of electronic document files into one or more pages of print data, pages based on the converted print data of the plurality of pages Image to generate image data for each Data generation means, information for identifying the electronic document file in association with text data for each page included in the converted print data of the plurality of pages, information on the position where the electronic document file is stored, for each page Search object information storage means for storing the print data and corresponding image data, search condition reception means for receiving input of search conditions, search for the text data based on the search conditions received for input, and a plurality of searched Image data extraction means for extracting a plurality of image data corresponding to each text data, Image data display means for displaying a plurality of extracted image data on the same screen, Image data selection for accepting selection of one image data Corresponds to the accepting means and the image data that accepted the selection Characterized in that to function as an electronic document file extraction means for extracting the electronic document file.

また、第14発明に係るコンピュータプログラムは、第13発明において、前記電子文書ファイル検索装置を、前記電子文書ファイル情報取得手段、前記印刷データ変換手段、前記イメージデータ生成手段、及び前記検索対象情報記憶手段を、所定の期間が経過する都度、繰り返し実行する手段として機能させることを特徴とする。   A computer program according to a fourteenth aspect of the invention is the computer program according to the thirteenth aspect of the invention, wherein the electronic document file search device includes the electronic document file information acquisition means, the print data conversion means, the image data generation means, and the search target information storage. The means is made to function as means for repeatedly executing each time a predetermined period elapses.

また、第15発明に係るコンピュータプログラムは、第13又は第14発明において、前記電子文書ファイル検索装置を、前記テキストデータをページごとに解析してインデックス情報を生成するインデックス情報生成手段、及び生成したインデックス情報を前記印刷データに対応付けて記憶するインデックス情報記憶手段として機能させ、前記イメージデータ抽出手段を、受け付けた検索条件に基づいて前記インデックス情報を検索し、検索されたインデックス情報に対応付けて記憶されている印刷データに対応するイメージデータを抽出する手段として機能させることを特徴とする。   A computer program according to a fifteenth aspect of the invention is the computer program according to the thirteenth or fourteenth aspect, wherein the electronic document file search device generates index information generating means for analyzing the text data for each page and generating index information. Functioning as index information storage means for storing index information in association with the print data, the image data extraction means searches the index information based on the received search condition, and associates it with the searched index information. It is characterized by functioning as means for extracting image data corresponding to stored print data.

また、第16発明に係るコンピュータプログラムは、第13乃至第15発明のいずれか1つにおいて、前記電子文書ファイル検索装置を、前記イメージデータ抽出手段で抽出された複数のイメージデータに対応する複数の前記テキストデータを形態素解析する形態素解析手段、形態素解析の結果に基づいて複数の単語を抽出する単語抽出手段、抽出された複数のイメージデータに対応する複数のテキストデータのうち、抽出された複数の単語が含まれる前記テキストデータの数を計数する計数手段、及び計数した前記テキストデータの数が所定数以上である単語が存在するか否かを判断する判断手段として機能させ、該判断手段で所定数以上である単語が存在すると判断した場合、前記検索対象情報記憶手段を、存在すると判断された単語を関連語情報として、変換された印刷データに含まれるテキストデータに対応付けて記憶する手段として機能させることを特徴とする。   A computer program according to a sixteenth aspect of the present invention is the computer program according to any one of the thirteenth to fifteenth aspects, wherein the electronic document file search device is a plurality of image data corresponding to a plurality of image data extracted by the image data extracting means. Morphological analysis means for morphological analysis of the text data, word extraction means for extracting a plurality of words based on a result of morphological analysis, and a plurality of extracted text data among a plurality of text data corresponding to the extracted plurality of image data Functioning as counting means for counting the number of text data including words, and determining means for determining whether or not there is a word whose counted number of text data is greater than or equal to a predetermined number. If it is determined that there are more than a certain number of words, the search object information storage means As complex word information, characterized in that to function as a means for storing in association with the text data included in the converted print data.

また、第17発明に係るコンピュータプログラムは、第13乃至第16発明のいずれか1つにおいて、前記イメージデータ表示手段を、抽出された複数のイメージデータを縮小した縮小画像データを生成して表示する手段として機能させることを特徴とする。   A computer program according to a seventeenth aspect of the present invention is the computer program product according to any one of the thirteenth to sixteenth aspects, wherein the image data display unit generates and displays reduced image data obtained by reducing a plurality of extracted image data. It is made to function as a means.

また、第18発明に係るコンピュータプログラムは、第13乃至第17発明のいずれか1つにおいて、前記電子文書ファイル検索装置を、複数の前記印刷データから一の代表データの選択を受け付ける代表データ選択受付手段として機能させ、前記イメージデータ表示手段を、一の電子文書ファイルに属する複数のイメージデータが抽出された場合、受け付けた一の代表データに対応するイメージデータのみを表示する手段として機能させることを特徴とする。   A computer program according to an eighteenth aspect of the present invention is the computer program according to any one of the thirteenth to seventeenth aspects, wherein the electronic document file search device accepts selection of one representative data from the plurality of print data. And functioning as a means for displaying only image data corresponding to one representative data received when a plurality of image data belonging to one electronic document file is extracted. Features.

第1発明、第7発明、及び第13発明では、少なくともテキストデータが含まれる複数の電子文書ファイルを識別する情報、電子文書ファイルが記憶されている位置に関する情報、及びテキストデータを取得し、複数の電子文書ファイルを一又は複数ページの印刷データに変換する。変換された複数ページの印刷データに基づいてページごとのイメージデータを生成し、変換された複数ページの印刷データに含まれるページごとのテキストデータに対応付けて、電子文書ファイルを識別する情報、該電子文書ファイルが記憶されている位置に関する情報、ページごとの前記印刷データ及び対応するイメージデータを記憶する。検索条件の入力を受け付け、入力を受け付けた検索条件に基づいてテキストデータを検索し、検索された複数のテキストデータにそれぞれ対応する複数のイメージデータを抽出し、抽出された複数のイメージデータを、同一画面上で表示する。一のイメージデータの選択を受け付け、選択を受け付けたイメージデータに対応する電子文書ファイルを抽出する。これにより、標準化されている印刷データフォーマットを用いるべく電子文書ファイルをページごとの印刷データに変換し、印刷するページごとに電子文書ファイルの内容を確認することが可能なイメージデータを生成しておくことで、電子文書ファイルの内容をイメージビューワ等により確実に視認することができる。また、抽出された複数の電子文書ファイルに対応するイメージデータを、例えばサムネイル画像等により一覧表示することにより、所望の電子文書ファイルがどれかを確認しながら選択することが可能となる。   In the first invention, the seventh invention, and the thirteenth invention, information for identifying a plurality of electronic document files including at least text data, information relating to positions where the electronic document files are stored, and text data are obtained, Are converted into one or a plurality of pages of print data. Image data for each page is generated based on the converted print data for the plurality of pages, and information for identifying the electronic document file in association with the text data for each page included in the converted print data for the plurality of pages; Information about the position where the electronic document file is stored, the print data for each page, and corresponding image data are stored. Accepts input of search conditions, searches text data based on the input search conditions, extracts a plurality of image data respectively corresponding to a plurality of searched text data, and extracts a plurality of extracted image data, Display on the same screen. A selection of one image data is received, and an electronic document file corresponding to the image data for which the selection has been received is extracted. As a result, the electronic document file is converted into print data for each page so that the standardized print data format is used, and image data that can confirm the contents of the electronic document file is generated for each page to be printed. As a result, the contents of the electronic document file can be reliably viewed with an image viewer or the like. In addition, by displaying a list of image data corresponding to a plurality of extracted electronic document files, for example, as thumbnail images, it is possible to select a desired electronic document file while confirming which one.

第2発明、第8発明及び第14発明では、少なくともテキストデータが含まれる複数の電子文書ファイルを識別する情報、該電子文書ファイルが記憶されている位置に関する情報、及びテキストデータを取得してから、変換された複数ページの印刷データに含まれるページごとのテキストデータに対応付けて、電子文書ファイルを識別する情報、該電子文書ファイルが記憶されている位置に関する情報、ページごとの印刷データ及び対応するイメージデータを記憶するまでの処理を、所定の期間が経過する都度、繰り返し実行することにより、所定の期間が経過する都度、検索対象に関する情報および対応するテキストデータを直近の状態に更新することができるので、ネットワーク内のコンピュータに記憶されている直近の状態の電子文書ファイルを対象に検索処理を実行することが可能となる。   In the second invention, the eighth invention, and the fourteenth invention, after acquiring information for identifying a plurality of electronic document files including at least text data, information relating to the location where the electronic document files are stored, and text data , Information for identifying the electronic document file in association with the text data for each page included in the converted print data of the plurality of pages, information on the position where the electronic document file is stored, print data for each page, and correspondence By repeatedly executing the processing until storing the image data to be performed every time the predetermined period elapses, the information on the search target and the corresponding text data are updated to the latest state every time the predetermined period elapses. The most recent electronic document stored on a computer in the network Airu it is possible to perform search operations in the target.

第3発明、第9発明及び第15発明では、テキストデータをページごとに解析してインデックス情報を生成し、生成したインデックス情報を印刷データに対応付けて記憶する。受け付けた検索条件に基づいてインデックス情報を検索し、検索されたインデックス情報に対応付けて記憶されている印刷データに対応するイメージデータを抽出する。これにより、テキストデータを全文検索する前に全文検索の対象となるテキストデータを一定の数にまで容易に絞り込むことができ、検索処理時間の短縮を図ることが可能となる。   In the third, ninth, and fifteenth inventions, text data is analyzed for each page to generate index information, and the generated index information is stored in association with print data. The index information is searched based on the received search condition, and image data corresponding to the print data stored in association with the searched index information is extracted. As a result, the text data to be subjected to full text search can be easily narrowed down to a certain number before full text search of the text data, and the search processing time can be shortened.

第4発明、第10発明及び第16発明では、抽出された複数のイメージデータに対応する複数のテキストデータを形態素解析し、形態素解析の結果に基づいて複数の単語を抽出し、抽出された複数のイメージデータに対応する複数のテキストデータのうち、抽出された複数の単語が含まれるテキストデータの数を計数する。計数したテキストデータの数が所定数以上である単語が存在するか否かを判断し、所定数以上である単語が存在すると判断した場合、存在すると判断された単語を関連語情報として、変換された印刷データに含まれるテキストデータに対応付けて記憶する。これにより、同一の検索条件で抽出されたテキストデータに対応付けて、一定割合を超えて存在する単語群を関連語情報として記憶することができ、関連語情報が検索条件に含まれている場合には、対応するページのイメージデータを即座に抽出することが可能となる。   In the fourth invention, the tenth invention and the sixteenth invention, a plurality of text data corresponding to a plurality of extracted image data are subjected to morphological analysis, and a plurality of words are extracted based on the result of the morphological analysis. Among the plurality of text data corresponding to the image data, the number of text data including a plurality of extracted words is counted. It is determined whether or not there is a word whose number of counted text data is a predetermined number or more, and when it is determined that there is a word that is a predetermined number or more, the word determined to exist is converted as related word information. And stored in association with the text data included in the print data. Thereby, in association with text data extracted under the same search condition, a group of words existing in excess of a certain ratio can be stored as related word information, and the related word information is included in the search condition The image data of the corresponding page can be immediately extracted.

第5発明、第11発明及び第17発明では、抽出された複数のイメージデータを縮小した縮小画像データを生成して表示することにより、検索ファイルの一覧性を向上させ、所望の電子文書ファイルが含まれているか否かを視認することが可能となる。   In the fifth invention, the eleventh invention and the seventeenth invention, by generating and displaying reduced image data obtained by reducing a plurality of extracted image data, the listability of the search file is improved, and a desired electronic document file can be obtained. It is possible to visually recognize whether or not it is included.

第6発明、第12発明及び第18発明では、複数の印刷データから一の代表データの選択を受け付け、一の電子文書ファイルに属する複数のイメージデータが抽出された場合、受け付けた一の代表データに対応するイメージデータのみを表示する。受け付けた一の代表データに対応する縮小画像データのみを表示することにより、電子文書ファイルの全印刷ページの縮小画像データを必要とせず、代表データに対応する縮小画像データのみで所望の電子文書ファイルであるか否かを判断することができる。   In the sixth invention, the twelfth invention and the eighteenth invention, when one representative data is selected from a plurality of print data and a plurality of image data belonging to one electronic document file is extracted, the one representative data received Only the image data corresponding to is displayed. By displaying only the reduced image data corresponding to the accepted one representative data, it is not necessary to reduce the reduced image data of all print pages of the electronic document file, and only the reduced image data corresponding to the representative data is used. It can be determined whether or not.

本発明によれば、標準化されている印刷データフォーマットに変換することにより電子文書ファイルをページごとの印刷データに変換し、印刷するページごとに電子文書ファイルの内容を確認することが可能なイメージデータを生成しておくことで、電子文書ファイルの内容をイメージビューワ等により確実に視認することができる。また、複数の検索ファイルを例えばサムネイル画像等により一覧表示することにより、所望の電子文書ファイルがどれかを確認しながら選択することが可能となる。   According to the present invention, the image data can be converted into the print data for each page by converting to the standardized print data format, and the contents of the electronic document file can be confirmed for each page to be printed. By generating the file, the contents of the electronic document file can be reliably viewed with an image viewer or the like. Further, by displaying a list of a plurality of search files as thumbnail images, for example, it is possible to select a desired electronic document file while confirming which one.

以下、本発明の実施の形態に係る電子文書ファイル検索装置について、図面に基づいて具体的に説明する。以下の実施の形態は、特許請求の範囲に記載された発明を限定するものではなく、実施の形態の中で説明されている特徴的事項の組み合わせの全てが解決手段の必須事項であるとは限らないことは言うまでもない。   Hereinafter, an electronic document file search apparatus according to an embodiment of the present invention will be specifically described with reference to the drawings. The following embodiments do not limit the invention described in the claims, and all combinations of characteristic items described in the embodiments are essential to the solution. It goes without saying that it is not limited.

また、本発明は多くの異なる態様にて実施することが可能であり、実施の形態の記載内容に限定して解釈されるべきものではない。実施の形態を通じて同じ要素には同一の符号を付している。   The present invention can be implemented in many different modes and should not be construed as being limited to the description of the embodiment. The same symbols are attached to the same elements throughout the embodiments.

以下の実施の形態では、コンピュータシステムにコンピュータプログラムを導入した電子文書ファイル検索装置について説明するが、当業者であれば明らかな通り、本発明はその一部をコンピュータで実行することが可能なコンピュータプログラムとして実施することができる。したがって、本発明は、電子文書ファイル検索装置というハードウェアとしての実施の形態、ソフトウェアとしての実施の形態、又はソフトウェアとハードウェアとの組み合わせの実施の形態をとることができる。コンピュータプログラムは、ハードディスク、DVD、CD、光記憶装置、磁気記憶装置等の任意のコンピュータで読み取ることが可能な記録媒体に記録することができる。   In the following embodiment, an electronic document file search apparatus in which a computer program is introduced into a computer system will be described. As will be apparent to those skilled in the art, the present invention is a computer capable of executing a part of the computer program. Can be implemented as a program. Therefore, the present invention can take an embodiment of hardware as an electronic document file search device, an embodiment of software, or an embodiment of a combination of software and hardware. The computer program can be recorded on any computer-readable recording medium such as a hard disk, DVD, CD, optical storage device, magnetic storage device or the like.

図1は、本発明の実施の形態に係る電子文書ファイル検索装置の構成例を示すブロック図である。本発明の実施の形態に係る電子文書ファイル検索装置1は、WAN、LAN等のネットワーク2を介して、外部のコンピュータ3、3、・・・とデータ通信することが可能に接続されている。外部のコンピュータ3、3、・・・には、それぞれ複数の電子文書ファイルが記憶されている。   FIG. 1 is a block diagram illustrating a configuration example of an electronic document file search apparatus according to an embodiment of the present invention. The electronic document file search apparatus 1 according to the embodiment of the present invention is connected to be able to perform data communication with external computers 3, 3,... Via a network 2 such as a WAN or a LAN. A plurality of electronic document files are stored in the external computers 3, 3,.

電子文書ファイル検索装置1は、少なくともCPU(中央演算装置)11、メモリ12、記憶装置13、I/Oインタフェース14、ビデオインタフェース15、可搬型ディスクドライブ16、通信インタフェース17及び上述したハードウェアを接続する内部バス18で構成されている。   The electronic document file search device 1 connects at least a CPU (Central Processing Unit) 11, a memory 12, a storage device 13, an I / O interface 14, a video interface 15, a portable disk drive 16, a communication interface 17, and the above-described hardware. The internal bus 18 is configured.

CPU11は、内部バス18を介して電子文書ファイル検索装置1の上述したようなハードウェア各部と接続されており、上述したハードウェア各部の動作を制御するとともに、記憶装置13に記憶されているコンピュータプログラム100に従って、種々のソフトウェア的機能を実行する。メモリ12は、SRAM、SDRAM等の揮発性メモリで構成され、コンピュータプログラム100の実行時にロードモジュールが展開され、コンピュータプログラム100の実行時に発生する一時的なデータ等を記憶する。   The CPU 11 is connected to the above-described hardware units of the electronic document file search apparatus 1 via the internal bus 18, controls the operation of the above-described hardware units, and is stored in the storage device 13. Various software functions are executed according to the program 100. The memory 12 is composed of a volatile memory such as SRAM or SDRAM, and a load module is expanded when the computer program 100 is executed, and stores temporary data generated when the computer program 100 is executed.

記憶装置13は、内蔵される固定型記憶装置(ハードディスク)、SRAM等の揮発性メモリ、ROM等の不揮発性メモリ等で構成されている。記憶装置13に記憶されているコンピュータプログラム100は、プログラム及びデータ等の情報を記録したDVD、CD−ROM等の可搬型記録媒体90から、可搬型ディスクドライブ16によりダウンロードされ、実行時には記憶装置13からメモリ12へ展開して実行される。もちろん、通信インタフェース17を介してネットワーク2に接続されている外部のコンピュータからダウンロードされたコンピュータプログラムであっても良い。   The storage device 13 includes a built-in fixed storage device (hard disk), a volatile memory such as SRAM, and a nonvolatile memory such as ROM. The computer program 100 stored in the storage device 13 is downloaded by a portable disk drive 16 from a portable recording medium 90 such as a DVD or CD-ROM in which information such as programs and data is recorded. To the memory 12 and executed. Of course, a computer program downloaded from an external computer connected to the network 2 via the communication interface 17 may be used.

また記憶装置13は、電子文書ファイル記憶部131、検索情報記憶部132を備えている。電子文書ファイル記憶部131には、テキストデータを少なくとも含む電子文書ファイルを記憶してある。検索処理の対象となる電子文書ファイルは、本電子文書ファイル検索装置1の記憶装置13の電子文書ファイル記憶部131に記憶されている電子文書ファイルだけではなく、ネットワーク2を介してデータ通信することが可能に接続されている外部のコンピュータ3、3、・・・に記憶されている電子文書ファイルも含まれる。   The storage device 13 includes an electronic document file storage unit 131 and a search information storage unit 132. The electronic document file storage unit 131 stores an electronic document file including at least text data. The electronic document file to be searched is not only the electronic document file stored in the electronic document file storage unit 131 of the storage device 13 of the electronic document file search apparatus 1 but also data communication via the network 2. The electronic document file stored in the external computers 3, 3,.

検索情報記憶部132には、検索対象となる電子文書ファイルのページごとのテキストデータに対応付けて、電子文書ファイルを識別する情報、該電子文書ファイルが記憶されている位置に関する情報、ページごとの印刷データ及び印刷データに対応するイメージデータを記憶している。電子文書ファイルを識別する情報は、例えば電子文書ファイル名、電子文書ファイルID等の情報である。電子文書ファイルが記憶されている位置に関する情報は、例えば記憶されている外部のコンピュータ3を識別するコンピュータID、記憶されているパーティション情報、ディレクトリ情報等である。   The search information storage unit 132 associates the text data for each page of the electronic document file to be searched with information for identifying the electronic document file, information about the position where the electronic document file is stored, and information for each page. Print data and image data corresponding to the print data are stored. The information for identifying the electronic document file is information such as an electronic document file name and an electronic document file ID. The information related to the position where the electronic document file is stored is, for example, a computer ID for identifying the stored external computer 3, stored partition information, directory information, or the like.

通信インタフェース17は内部バス18に接続されており、LAN、WAN等のネットワーク2に接続されることにより、外部のコンピュータ等とデータ送受信を行うことが可能となっている。本実施の形態に係る電子文書ファイル検索装置1は、通信インタフェース17を介してネットワーク2に接続されており、外部のコンピュータ3、3、・・・の記憶装置に記憶されている電子文書ファイルも検索処理の対象とする。   The communication interface 17 is connected to an internal bus 18 and is connected to a network 2 such as a LAN or WAN, so that data can be transmitted / received to / from an external computer or the like. The electronic document file search apparatus 1 according to the present embodiment is connected to the network 2 via the communication interface 17, and the electronic document file stored in the storage device of the external computer 3, 3,. Target of search processing.

I/Oインタフェース14は、キーボード21、マウス22等のデータ入力媒体と接続され、データの入力を受け付ける。また、ビデオインタフェース15は、CRTモニタ、LCD等の表示装置23と接続され、所定の画像を表示する。   The I / O interface 14 is connected to a data input medium such as a keyboard 21 and a mouse 22 and receives data input. The video interface 15 is connected to a display device 23 such as a CRT monitor or LCD, and displays a predetermined image.

図2は、本発明の実施の形態に係る電子文書ファイル検索装置1の機能ブロック図である。電子文書ファイル情報取得部201は、少なくともテキストデータを含む電子文書ファイルを識別する情報、該電子文書ファイルが記憶されている位置に関する情報、及びテキストデータを取得する。電子文書ファイルに関する情報及び対応するテキストデータを取得する対象となる電子文書ファイルは、記憶装置13内の電子文書ファイル記憶部131に記憶されている電子文書ファイルだけでなく、ネットワーク2を介してデータ通信することが可能に接続されている外部のコンピュータ3、3、・・・に記憶されている電子文書ファイルも含むことから、検索対象は大量の電子文書ファイルとなる。なお、電子文書ファイル情報取得部201により情報を取得する対象の電子文書ファイルは、外部のコンピュータ3、3、・・・に記憶されている電子文書ファイルのみとしても良い。   FIG. 2 is a functional block diagram of the electronic document file search apparatus 1 according to the embodiment of the present invention. The electronic document file information acquisition unit 201 acquires information for identifying an electronic document file including at least text data, information regarding a position where the electronic document file is stored, and text data. The electronic document file for which information relating to the electronic document file and corresponding text data are to be acquired is not only the electronic document file stored in the electronic document file storage unit 131 in the storage device 13 but also the data via the network 2. Since the electronic document files stored in the external computers 3, 3,... Connected to be communicable are included, the search target is a large amount of electronic document files. Note that the electronic document file whose information is to be acquired by the electronic document file information acquisition unit 201 may be only the electronic document file stored in the external computer 3, 3.

印刷データ変換部202は、ネットワーク2を介して取得した複数のテキストデータに対応する電子文書ファイルを所定の印刷条件で、例えば用紙サイズがA4サイズという印刷条件で複数の印刷データに変換する。印刷データのデータフォーマットは標準化されていることから、印刷データに変換することにより、様々な種類の専用アプリケーション(文書作成ソフト、表計算ソフト、プレゼンテーション用ソフト、CADソフト等)に対応した電子文書ファイルのテキストデータにページを付与することができる。   The print data conversion unit 202 converts an electronic document file corresponding to a plurality of text data acquired via the network 2 into a plurality of print data under a predetermined printing condition, for example, a printing condition with a paper size of A4 size. Since the data format of print data is standardized, electronic document files corresponding to various types of dedicated applications (document creation software, spreadsheet software, presentation software, CAD software, etc.) can be converted to print data. A page can be added to the text data.

印刷データ変換部202は、電子文書ファイルごとに予め文書作成者により設定された印刷条件の取得を試み、取得できた場合にはその印刷条件を、取得できない場合は予め用意したデフォルトの印刷条件を印刷データへの変換に使用するように構成しても良いし、印刷条件を固定的に用意して印刷データへの変換に使用するように構成しても良い。印刷条件は、用紙サイズ以外に用紙の向き、余白、1行あたりの文字数、1ページ当たりの行数、拡大率等の、電子文書ファイルに含まれる少なくともテキストデータのページレイアウト及びページ割付を行うために必要な条件である。   The print data conversion unit 202 tries to acquire the printing conditions set in advance by the document creator for each electronic document file. If the printing conditions can be acquired, the printing conditions are set. If the printing conditions cannot be acquired, the prepared default printing conditions are set. You may comprise so that it may be used for conversion to printing data, and you may comprise so that printing conditions may be prepared fixedly and used for conversion to printing data. In addition to the paper size, the printing conditions include at least page layout and page allocation of text data contained in the electronic document file, such as paper orientation, margins, number of characters per line, number of lines per page, enlargement ratio, etc. This is a necessary condition.

印刷データ変換部202は、電子文書ファイルを印刷データに変換することで、ページ割付(ページの付与)及びページレイアウト(ページ内でのテキストデータの位置決定)を実行している。なお、印刷データ変換部202は、電子文書ファイルに含まれるテキストデータだけでなく、画像データ、表データ等を印刷データに含むように変換するよう構成しても良い。また、外部コンピュータ3、3、・・・に記憶されている電子文書ファイルを印刷データに変換する場合、該電子文書ファイルを記憶部13に一時記憶し、一時記憶された該電子文書ファイルを印刷データに変更するよう構成しても良い。   The print data conversion unit 202 executes page allocation (page assignment) and page layout (position determination of text data within a page) by converting an electronic document file into print data. Note that the print data conversion unit 202 may be configured to convert not only text data included in the electronic document file but also image data, table data, and the like so as to be included in the print data. When converting an electronic document file stored in the external computer 3, 3,... Into print data, the electronic document file is temporarily stored in the storage unit 13, and the temporarily stored electronic document file is printed. You may comprise so that it may change into data.

イメージデータ生成部203は、印刷データに基づいて、ページごとのイメージデータを生成する。つまり、複数種類の電子文書ファイルのイメージデータを生成するための中間フォーマットとして標準化された印刷データを用い、様々な種類の専用アプリケーションに対応した電子文書ファイルの内容をイメージデータで表示することができるようにしている。   The image data generation unit 203 generates image data for each page based on the print data. That is, using standardized print data as an intermediate format for generating image data of multiple types of electronic document files, the contents of electronic document files corresponding to various types of dedicated applications can be displayed as image data. I am doing so.

検索対象情報記憶部204は、ページごとのテキストデータに対応付けて、電子文書ファイルを識別する情報、該電子文書ファイルが記憶されている位置に関する情報、ページごとの印刷データ及び対応するイメージデータを記憶装置13の検索情報記憶部132に記憶する。テキストデータを検索条件に基づいて全文検索することにより、検索結果として抽出されたテキストデータに対応する電子文書ファイルを確実に特定することができる。   The search target information storage unit 204 associates information for identifying an electronic document file in association with text data for each page, information on a position where the electronic document file is stored, print data for each page, and corresponding image data. The information is stored in the search information storage unit 132 of the storage device 13. By performing a full text search of text data based on search conditions, an electronic document file corresponding to the text data extracted as a search result can be reliably specified.

なお、電子文書ファイル情報取得部201から検索対象情報記憶部204までの処理は、所定のタイミングで繰り返し実行することが好ましい。ネットワーク2を介して接続されている外部のコンピュータ3、3、・・・にて記憶されている電子文書ファイルは、随時内容が更新され、記憶されている位置が変動し、新たな電子文書ファイルが追加され、あるいは電子文書ファイルが削除される。したがって、随時、電子文書ファイルを識別する情報及び該電子文書ファイルが記憶されている位置に関する情報を更新する必要がある。したがって、所定の期間が経過した時点でネットワーク2を介して接続されているすべてのコンピュータ3、3、・・・を走査し、電子文書ファイルを識別する情報及び該電子文書ファイルが記憶されている位置に関する情報を再度取得する。   Note that the processing from the electronic document file information acquisition unit 201 to the search target information storage unit 204 is preferably repeatedly executed at a predetermined timing. The electronic document file stored in the external computers 3, 3,... Connected via the network 2 is updated at any time, the stored position fluctuates, and a new electronic document file is created. Is added or the electronic document file is deleted. Therefore, it is necessary to update the information for identifying the electronic document file and the information regarding the position where the electronic document file is stored as needed. Therefore, the information for identifying the electronic document file and the electronic document file are stored by scanning all the computers 3, 3,... Connected via the network 2 when the predetermined period has elapsed. Get the location information again.

なお、ネットワーク2を介して接続されているすべてのコンピュータ3、3、・・・の走査により、ファイルの更新の有無を常時監視しておき、ファイルの更新を検知した場合には、更新に関する情報を所定の記憶領域にスタックしておき、更新を反映するタイミングで、スタックされたファイルの更新に関する情報に基づいて、電子文書ファイルを識別する情報及び該電子文書ファイルが記憶されている位置に関する情報を、順次、再取得するように構成しても良い。   It should be noted that the presence or absence of a file update is constantly monitored by scanning all the computers 3, 3,... Connected via the network 2, and information regarding the update is detected when a file update is detected. Are stacked in a predetermined storage area, and information for identifying the electronic document file and information regarding the position where the electronic document file is stored based on the information regarding the update of the stacked file at the timing of reflecting the update May be sequentially reacquired.

また、ネットワーク2を介して接続されているすべてのコンピュータ3、3、・・・の走査により、ファイルの更新の有無を常時監視しておき、ファイルの更新を検知した場合には、更新に関する情報を所定の記憶領域にスタックしておき、更新を反映するタイミングで、スタックされたファイルの更新に関する情報に基づいて、電子文書ファイルを識別する情報及び該電子文書ファイルが記憶されている位置に関する情報を、順次、再取得するように構成しても良い。   Further, by scanning all the computers 3, 3,... Connected via the network 2, the presence / absence of the file update is constantly monitored, and when the file update is detected, information regarding the update is obtained. Are stacked in a predetermined storage area, and information for identifying the electronic document file and information regarding the position where the electronic document file is stored based on the information regarding the update of the stacked file at the timing of reflecting the update May be sequentially reacquired.

電子文書ファイルを識別する情報及び該電子文書ファイルが記憶されている位置に関する情報を取得するタイミングは、所定の時刻であっても良いし、一定期間ごとに繰り返し取得しても良い。また、所定のイベントが発生した時点で取得する等、電子文書ファイル検索装置1の運用の観点から最適なタイミングを選択すれば良い。   The timing for acquiring the information for identifying the electronic document file and the information regarding the position where the electronic document file is stored may be a predetermined time or may be repeatedly acquired at regular intervals. Further, an optimal timing may be selected from the viewpoint of the operation of the electronic document file search apparatus 1 such as acquisition when a predetermined event occurs.

検索条件受付部205は、所望の電子文書ファイルの検索条件の入力を受け付ける。検索条件としては、単語の入力、単語列の入力、いわゆるワイルドカードでの入力、自然語入力等、特に限定されるものではなく、キーボード21、マウス22等の入力装置から入力を受け付ける。   The search condition receiving unit 205 receives an input of a search condition for a desired electronic document file. Search conditions include, but are not limited to, word input, word string input, so-called wild card input, natural language input, and the like, and input is accepted from input devices such as the keyboard 21 and mouse 22.

イメージデータ抽出部206は、入力を受け付けた検索条件に基づいてイメージデータを抽出する。具体的には、入力を受け付けた検索条件をキー情報として検索情報記憶部132に記憶されているテキストデータを全文検索し、検索結果として検索条件に合致したテキストデータに対応付けて記憶してあるイメージデータを抽出する。   The image data extraction unit 206 extracts image data based on a search condition that has received an input. Specifically, the text data stored in the search information storage unit 132 is searched using the search condition that accepted the input as key information, and the search result is stored in association with the text data that matches the search condition. Extract image data.

イメージデータ表示部207は、抽出されたイメージデータを表示装置23の画面上に一覧表示する。同一画面上で複数のイメージデータを表示する場合には、ポップアップ画面を複数起動して表示しても良いし、サムネイル画像として表示しても良い。   The image data display unit 207 displays the extracted image data as a list on the screen of the display device 23. When displaying a plurality of image data on the same screen, a plurality of pop-up screens may be activated and displayed as thumbnail images.

イメージデータ選択受付部208は、表示装置23に一覧表示されているイメージデータの中から一のイメージデータの選択を受け付ける。イメージデータの選択操作は、キーボード21、マウス22等の入力装置によりカーソルを移動させて所望のイメージデータに重ね合わせ、マウス22のクリック操作によりカーソルが存在するイメージデータの選択を受け付ける。   The image data selection accepting unit 208 accepts selection of one image data from the image data displayed as a list on the display device 23. In the image data selection operation, the cursor is moved by the input device such as the keyboard 21 and the mouse 22 to be superimposed on the desired image data, and the selection of the image data where the cursor exists is accepted by the click operation of the mouse 22.

電子文書ファイル抽出部209は、選択を受け付けたイメージデータに対応する電子文書ファイルを抽出する。抽出された電子文書ファイルは、対応するソフトウェアプログラムがインストールされている場合には、該ソフトウェアプログラムを起動させて電子文書ファイルを表示させる。インストールされていない場合には、イメージデータをイメージビューワにて表示する。   The electronic document file extraction unit 209 extracts an electronic document file corresponding to the image data that has been selected. If a corresponding software program is installed in the extracted electronic document file, the software program is activated to display the electronic document file. If it is not installed, display the image data in the image viewer.

なお、本実施の形態に係る電子文書ファイル検索装置1をサーバとして用い、入出力はネットワーク2を介して接続されている外部のコンピュータ3、3、・・・で行っても良い。この場合、表示装置23、キーボード21、マウス22は、電子文書ファイル検索装置1自体に設ける必要性はなく、外部のコンピュータ3の入出力装置を用いて、例えばWebブラウザを操作すれば良い。もちろん、本実施の形態に係る電子文書ファイル検索装置1が、Webサーバ機能により検索受付、検索結果表示等を実行する構成であっても良いし、外部のコンピュータ3ごとに専用のGUIソフトを搭載し、搭載されたGUIソフトにより検索受付機能、検索結果表示機能等を実現し、電子文書ファイル検索装置1には外部のコンピュータ3、3、・・・からの検索要求に対し検索結果を返す検索サーバ機能を分担させるように構成しても良い。   The electronic document file search apparatus 1 according to the present embodiment may be used as a server, and input / output may be performed by external computers 3, 3,... Connected via the network 2. In this case, the display device 23, the keyboard 21, and the mouse 22 do not need to be provided in the electronic document file search device 1 itself. For example, a web browser may be operated using the input / output device of the external computer 3. Of course, the electronic document file search apparatus 1 according to the present embodiment may be configured to execute search reception, search result display, and the like using the Web server function, and a dedicated GUI software is installed for each external computer 3. A search reception function, a search result display function and the like are realized by the installed GUI software, and the electronic document file search apparatus 1 returns a search result in response to a search request from an external computer 3, 3,. You may comprise so that a server function may be shared.

図3は、本発明の実施の形態に係る電子文書ファイル検索装置1のCPU11の検索情報の生成処理の手順を示すフローチャートである。図3において、電子文書ファイル検索装置1のCPU11は、検索対象範囲の指定を受け付け(ステップS301)、指定を受け付けた検索対象範囲内に存在する電子文書ファイルについて、少なくともテキストデータを含む電子文書ファイルを識別する情報である電子文書ファイル名、該電子文書ファイルが記憶されている位置情報及びテキストデータを取得する(ステップS302)。   FIG. 3 is a flowchart showing a procedure of search information generation processing of the CPU 11 of the electronic document file search apparatus 1 according to the embodiment of the present invention. In FIG. 3, the CPU 11 of the electronic document file search apparatus 1 accepts designation of a search target range (step S301), and an electronic document file that includes at least text data for an electronic document file existing within the search target range for which designation has been accepted. An electronic document file name, which is information for identifying the electronic document file, position information where the electronic document file is stored, and text data are acquired (step S302).

検索対象範囲としては、ネットワーク2に接続されているノード名(コンピュータID等)、IPアドレスの範囲、物理的なロケーション等、電子文書ファイルを検索する範囲を特定することが可能な情報であれば特に限定されるものではない。検索対象範囲の入力は、キーボード21、マウス22等の入力装置を介して受け付ける。例えばネットワーク2に接続されているノード名、ディレクトリ情報等を一覧表示し、チェックボックスをマウス22によりクリック操作することにより、電子文書ファイルの検索対象範囲を指定する。   The search target range is information that can specify a search range of an electronic document file, such as a node name (computer ID or the like) connected to the network 2, an IP address range, a physical location, or the like. It is not particularly limited. Input of the search target range is accepted via an input device such as a keyboard 21 and a mouse 22. For example, a list of node names, directory information, and the like connected to the network 2 is displayed, and a search target range of the electronic document file is designated by clicking the check box with the mouse 22.

また、電子文書ファイルが記憶されている位置に関する位置情報は、ネットワーク2に接続されているノード名、ディレクトリ、記憶装置のボリューム名、IPアドレス等、電子文書ファイルを読み出すために必要となる情報である。もちろん、これらの情報に限定されるものではない。   Further, the position information regarding the position where the electronic document file is stored is information necessary for reading the electronic document file, such as a node name connected to the network 2, a directory, a volume name of the storage device, an IP address, and the like. is there. Of course, it is not limited to such information.

CPU11は、ネットワーク2を介して取得した複数の電子文書ファイルの中のテキストデータを、例えばA4サイズの複数の印刷データに変換する(ステップS303)。印刷データのデータフォーマットは標準化されていることから、ファイルフォーマットが相違している複数の電子文書ファイルを、同一サイズの印刷データに統一することにより、印刷データを中間フォーマットとして用いることができる。   The CPU 11 converts the text data in the plurality of electronic document files acquired via the network 2 into, for example, a plurality of A4 size print data (step S303). Since the data format of the print data is standardized, the print data can be used as an intermediate format by unifying a plurality of electronic document files having different file formats into the same size print data.

CPU11は、印刷データに基づいて、ページごとのイメージデータを生成する(ステップS304)。つまり、複数種類の電子文書ファイルのイメージデータを生成するための中間フォーマットとして標準化された印刷データを用い、様々な種類の専用アプリケーションに対応した電子文書ファイルの内容をページごとのイメージデータとして表示することが可能となる。生成するイメージデータのファイルフォーマットは、PDF形式、GIF形式、JPEG形式等イメージデータを表示することが可能なファイルフォーマットであれば限定されるものではない。   The CPU 11 generates image data for each page based on the print data (step S304). That is, using standardized print data as an intermediate format for generating image data of multiple types of electronic document files, the contents of electronic document files corresponding to various types of dedicated applications are displayed as image data for each page. It becomes possible. The file format of the image data to be generated is not limited as long as it is a file format capable of displaying image data, such as PDF format, GIF format, and JPEG format.

なお、生成されたページごとの複数のイメージデータを縮小した複数の縮小画像データを生成しておいても良い。検索結果として複数の電子文書ファイルが検索された場合に、対応する複数のサムネイル画像等を同一画面に複数表示させる場合に、少しでもデータ転送のネットワーク負荷を軽減するためである。   A plurality of reduced image data obtained by reducing a plurality of image data for each generated page may be generated. This is because, when a plurality of electronic document files are searched as a search result, when a plurality of corresponding thumbnail images are displayed on the same screen, the data transfer network load is reduced as much as possible.

また、印刷データからイメージデータを生成する処理として、例えばPDF(Portable Document Format)を用いても良い。アドビシステム社製のアドビアクロバットを用いることにより、ページ単位のイメージデータを生成することができるとともに、印刷データを出力することもできる。   In addition, for example, PDF (Portable Document Format) may be used as processing for generating image data from print data. By using Adobe Acrobat made by Adobe System, it is possible to generate image data for each page and to output print data.

CPU11は、ページごとの印刷データに含まれるテキストデータに対応付けて、電子文書ファイル名、該電子文書ファイルが記憶されている位置情報、ページごとの印刷データ及び対応するイメージデータを記憶装置13の検索情報記憶部132に記憶する(ステップS305)。これにより、入力を受け付けた検索条件をキー情報としてテキストデータを全文検索することにより、検索条件に合致したテキストデータが含まれる印刷データ生成の基礎となった電子文書ファイルを確実に抽出することができる。   The CPU 11 stores the electronic document file name, the position information in which the electronic document file is stored, the print data for each page, and the corresponding image data in the storage device 13 in association with the text data included in the print data for each page. The search information is stored in the search information storage unit 132 (step S305). This makes it possible to reliably extract the electronic document file that is the basis of print data generation that includes text data that matches the search condition by performing a full-text search of text data using the input search condition as key information. it can.

図4は、本発明の実施の形態に係る電子文書ファイル検索装置1のデータの対応関係を示す模式図である。図4(a)に示すように、電子文書ファイル41を基礎として、ページごとの印刷データ42を生成し、印刷データ42のそれぞれについて、イメージデータ43、必要な場合には縮小画像データ44を生成している。したがって、検索情報記憶部132では、図4(b)に示すように、印刷データ生成によりページ分割されたページごとのテキストデータ45をキー情報として、対応するページの印刷データ42、イメージデータ43、該印刷データ42を生成する基礎となった電子文書ファイル41の電子文書ファイル名46、及び電子文書ファイル41の位置情報47を記憶する。もちろん、対応するページの印刷データ42に対応するイメージデータ43の縮小画像データ44を記憶しても良い。サムネイル画像等の表示に用いることができるからである。   FIG. 4 is a schematic diagram showing the data correspondence of the electronic document file search apparatus 1 according to the embodiment of the present invention. As shown in FIG. 4 (a), print data 42 for each page is generated based on the electronic document file 41, and image data 43 and, if necessary, reduced image data 44 are generated for each print data 42. is doing. Therefore, in the search information storage unit 132, as shown in FIG. 4B, the text data 45 for each page divided by the print data generation is used as key information, and the corresponding page print data 42, image data 43, The electronic document file name 46 of the electronic document file 41 that is the basis for generating the print data 42 and the position information 47 of the electronic document file 41 are stored. Of course, the reduced image data 44 of the image data 43 corresponding to the print data 42 of the corresponding page may be stored. This is because it can be used for displaying thumbnail images and the like.

なお、電子文書ファイル情報取得部201から検索対象情報記憶部204までの処理は、所定のタイミングで繰り返し実行することが好ましい。ネットワーク2を介して接続されている外部のコンピュータ3、3、・・・にて記憶されている電子文書ファイルは、随時内容が更新され、記憶されている位置が変動し、新たな電子文書ファイルが追加され、あるいは電子文書ファイルが削除される。したがって、随時、電子文書ファイル名、該電子文書ファイルが記憶されている位置情報及びテキストデータを更新する必要がある。具体的には、所定の期間が経過した時点でネットワーク2を介して接続されているすべてのコンピュータ3、3、・・・を走査し、電子文書ファイル名、該電子文書ファイルが記憶されている位置情報及びテキストデータを繰り返し取得する。   Note that the processing from the electronic document file information acquisition unit 201 to the search target information storage unit 204 is preferably repeatedly executed at a predetermined timing. The electronic document file stored in the external computers 3, 3,... Connected via the network 2 is updated at any time, the stored position fluctuates, and a new electronic document file is created. Is added or the electronic document file is deleted. Accordingly, it is necessary to update the electronic document file name, the position information in which the electronic document file is stored, and the text data as needed. Specifically, when a predetermined period has elapsed, all the computers 3, 3,... Connected via the network 2 are scanned, and the electronic document file name and the electronic document file are stored. Position information and text data are acquired repeatedly.

なお、ネットワーク2を介して接続されているすべてのコンピュータ3、3、・・・の走査により、ファイルの更新の有無を常時監視しておき、ファイルの更新を検知した場合には、更新に関する情報を所定の記憶領域にスタックしておき、更新を反映するタイミングで、スタックされたファイルの更新に関する情報に基づいて、電子文書ファイル名及び該電子文書ファイルが記憶されている位置情報を、順次、再取得するように構成しても良い。   It should be noted that the presence or absence of a file update is constantly monitored by scanning all the computers 3, 3,... Connected via the network 2, and information regarding the update is detected when a file update is detected. Are stacked in a predetermined storage area, and at the timing of reflecting the update, the electronic document file name and the position information where the electronic document file is stored are sequentially based on the information related to the update of the stacked file. You may comprise so that it may acquire again.

電子文書ファイル名、該電子文書ファイルが記憶されている位置情報及びテキストデータを取得するタイミングは、特に限定されるものではない。例えば所定の時刻を深夜1時とし、バッチ処理と同様に翌朝までに電子文書ファイル名、該電子文書ファイルが記憶されている位置情報及びテキストデータを再取得すれば良い。また、一定期間ごと、例えば1時間ごとに繰り返し取得しても良い。さらに、所定のイベントが発生した時点、例えば外部のコンピュータ3から記憶してある電子文書ファイルの更新情報を受信した時点で取得する等、電子文書ファイル検索装置1の運用の観点から最適なタイミングを選択すれば良い。   The timing for acquiring the electronic document file name, the position information in which the electronic document file is stored, and the text data are not particularly limited. For example, the predetermined time is midnight, and the electronic document file name, position information storing the electronic document file, and text data may be re-acquired by the next morning as in the batch processing. Moreover, you may acquire repeatedly every fixed period, for example for every hour. Furthermore, an optimum timing from the viewpoint of the operation of the electronic document file search apparatus 1 is obtained, for example, when a predetermined event occurs, for example, when update information of an electronic document file stored from the external computer 3 is received. Just choose.

図5は、本発明の実施の形態に係る電子文書ファイル検索装置1のCPU11の検索処理の手順を示すフローチャートである。図5において、電子文書ファイル検索装置1のCPU11は、検索条件の入力を受け付ける(ステップS501)。検索条件としては、単語の入力、単語列の入力、いわゆるワイルドカードでの入力、自然語入力等、特に限定されるものではなく、キーボード21、マウス22等の入力装置から入力を受け付ける。   FIG. 5 is a flowchart showing the search processing procedure of the CPU 11 of the electronic document file search apparatus 1 according to the embodiment of the present invention. In FIG. 5, the CPU 11 of the electronic document file search apparatus 1 receives an input of search conditions (step S501). Search conditions include, but are not limited to, word input, word string input, so-called wild card input, natural language input, and the like, and input is accepted from input devices such as the keyboard 21 and mouse 22.

CPU11は、入力を受け付けた検索条件に基づいてイメージデータを抽出する(ステップS502)。具体的には、入力を受け付けた検索条件をキー情報として検索情報記憶部132に記憶されているテキストデータを全文検索し、検索結果として検索条件に合致したテキストデータに対応付けて記憶してあるイメージデータを抽出する。   The CPU 11 extracts image data based on the search condition that accepted the input (step S502). Specifically, the text data stored in the search information storage unit 132 is searched using the search condition that accepted the input as key information, and the search result is stored in association with the text data that matches the search condition. Extract image data.

CPU11は、抽出されたイメージデータを表示装置23の画面上に一覧表示する(ステップS503)。同一画面上で複数のイメージデータを表示する場合には、ポップアップ画面を複数起動して表示しても良いし、サムネイル画像として表示しても良い。   The CPU 11 displays a list of the extracted image data on the screen of the display device 23 (step S503). When displaying a plurality of image data on the same screen, a plurality of pop-up screens may be activated and displayed as thumbnail images.

図6は、一覧表示画面の例示図である。図6に示すように、検索条件入力領域61に検索条件として「XXX」が入力された場合、抽出されたイメージデータは、サムネイル画像表示領域62に一覧表示される。   FIG. 6 is an exemplary diagram of a list display screen. As shown in FIG. 6, when “XXX” is input as a search condition in the search condition input area 61, the extracted image data is displayed in a list in the thumbnail image display area 62.

なお、一の電子文書ファイルに属する複数のイメージデータが表示される場合、例えば複数の印刷データから一の代表データの選択を受け付ける代表データ選択受付部(図示せず)を備えておき、代表データを事前に特定しておいても良い。この場合、一の電子文書ファイルに属する複数のイメージデータが表示される場合、特定された代表データに対応するイメージデータのみを表示することで、表示画面23における一覧表示が煩雑になることを未然に防止することができる。   When a plurality of image data belonging to one electronic document file is displayed, for example, a representative data selection receiving unit (not shown) that receives selection of one representative data from a plurality of print data is provided. May be specified in advance. In this case, when a plurality of image data belonging to one electronic document file is displayed, only the image data corresponding to the specified representative data is displayed, so that the list display on the display screen 23 becomes complicated. Can be prevented.

図7は、代表データを用いる場合の表示画面の例示図である。検索条件入力領域71に検索条件として「XXX」が入力され、マウス等で検索ボタン70をクリック操作した場合、サムネイル画像表示領域72には、抽出された複数のイメージデータがサムネイル画像73、73、・・・として表示される。サムネイル画像表示領域72に表示されるサムネイル画像73、73、・・・は、一の電子文書ファイルに対して一の代表データのみが表示される。   FIG. 7 is a view showing an example of a display screen when using representative data. When “XXX” is input as a search condition in the search condition input area 71 and the search button 70 is clicked with a mouse or the like, a plurality of extracted image data are displayed in the thumbnail image display area 72 as thumbnail images 73, 73, ... is displayed. As for the thumbnail images 73, 73,... Displayed in the thumbnail image display area 72, only one representative data is displayed for one electronic document file.

また、サムネイル画像表示領域72に表示されている複数のサムネイル画像73、73、・・・から、マウス等により一のサムネイル画像73の選択を受け付けた場合、選択を受け付けたサムネイル画像が代表データであるか否か、すなわち他のページのイメージデータも抽出されているか否かを判断する。代表データであると判断した場合、ページ画像表示領域74にて、検索されたページごとの複数のページ画像75、75、・・・が表示される。図7の例では、一の電子文書ファイルの5ページ、16ページ、82ページ、125ページのイメージデータが表示されている。   When a selection of one thumbnail image 73 is received from a plurality of thumbnail images 73, 73,... Displayed in the thumbnail image display area 72 with a mouse or the like, the selected thumbnail image is representative data. It is determined whether there is, that is, whether image data of other pages are also extracted. If it is determined that the data is representative data, a plurality of page images 75, 75,... For each searched page are displayed in the page image display area 74. In the example of FIG. 7, image data of page 5, page 16, page 82, page 125 of one electronic document file is displayed.

プレビュー画像表示領域76には、マウス22等で選択されたイメージデータが表示される。代表データであるサムネイル画像73、73、・・・が選択された場合には代表データが、ページ画像75、75、・・・が選択された場合にはページごとのイメージデータが、それぞれ表示される。   In the preview image display area 76, image data selected by the mouse 22 or the like is displayed. When thumbnail images 73, 73,..., Which are representative data, are selected, representative data is displayed. When page images 75, 75,... Are selected, image data for each page is displayed. The

プレビュー画像表示領域76の近傍には、プレビュー画像表示領域76に表示されたイメージデータに対応する電子文書ファイルの電子文書ファイル名が表示されている。電子文書ファイル名は、対応する電子文書ファイルの抽出要求を受付可能に表示され、電子文書ファイル検索装置1は、キーボード21、マウス22等の入力装置により対応する電子文書ファイルの抽出要求を受け付けることができる。このような対応する電子文書ファイルの抽出要求を受付可能な電子文書ファイル名は、サムネイル画像表示領域72に表示されている複数の各サムネイル画像73、73、・・・の近傍に表示するように構成しても良い。   In the vicinity of the preview image display area 76, the electronic document file name of the electronic document file corresponding to the image data displayed in the preview image display area 76 is displayed. The electronic document file name is displayed so that a request for extracting the corresponding electronic document file can be received, and the electronic document file search apparatus 1 receives the request for extracting the corresponding electronic document file by using an input device such as the keyboard 21 and the mouse 22. Can do. The electronic document file name that can accept the extraction request of the corresponding electronic document file is displayed in the vicinity of each of the plurality of thumbnail images 73, 73,... Displayed in the thumbnail image display area 72. It may be configured.

属性情報追加ボタン77は、現在表示されている画面に関する情報に対応付ける属性情報の入力を受け付ける属性情報入力領域78を表示させるボタンである。マウス22等で属性情報追加ボタン77をクリック操作した場合、属性情報入力領域78が画面に新たに表示される。属性情報入力領域78へ属性情報を入力することにより、次回検索時には、入力した属性情報を検索条件入力領域71に入力することで、属性情報入力領域78へ属性情報を入力した時点で表示されている画面が直接表示される。したがって、絞込み検索による時間を大幅に短縮することが可能となり、所望の電子文書ファイルに到達するまでの時間を短縮することができる。   The attribute information addition button 77 is a button for displaying an attribute information input area 78 for accepting input of attribute information associated with information on the currently displayed screen. When the attribute information addition button 77 is clicked with the mouse 22 or the like, an attribute information input area 78 is newly displayed on the screen. By inputting the attribute information into the attribute information input area 78, the next time the search is performed, the input attribute information is input into the search condition input area 71 and is displayed when the attribute information is input into the attribute information input area 78. Screen is displayed directly. Therefore, it is possible to greatly reduce the time required for the narrowed search, and it is possible to reduce the time required to reach a desired electronic document file.

図5に戻って、電子文書ファイル検索装置1のCPU11は、表示装置23に一覧表示されているイメージデータの中から一のイメージデータの選択の入力を受け付けたか否かを判断する(ステップS504)。イメージデータの選択操作は、キーボード21、マウス22等の入力装置によりカーソルを移動させて所望のイメージデータに重ね合わせ、マウス22のクリック操作によりカーソルが存在するイメージデータの選択を受け付ける。   Returning to FIG. 5, the CPU 11 of the electronic document file search apparatus 1 determines whether or not an input for selecting one image data from the image data displayed in a list on the display device 23 has been received (step S504). . In the image data selection operation, the cursor is moved by the input device such as the keyboard 21 and the mouse 22 to be superimposed on the desired image data, and the selection of the image data where the cursor exists is accepted by the click operation of the mouse 22.

CPU11が、一のイメージデータの選択の入力を受け付けていないと判断した場合(ステップS504:NO)、CPU11は、選択の入力の受け付け待ち状態となる。CPU11が、一のイメージデータの選択の入力を受け付けたと判断した場合(ステップS504:YES)、CPU11は、選択の入力を受け付けたイメージデータに対応する電子文書ファイルを抽出する(ステップS505)。抽出された電子文書ファイルは、対応するソフトウェアプログラムがインストールされている場合には、該ソフトウェアプログラムを起動させて電子文書ファイルが表示される。インストールされていない場合には、イメージデータをイメージビューワにて表示する。   If the CPU 11 determines that it has not received an input for selecting one image data (step S504: NO), the CPU 11 enters a state of waiting for an input for selection. When the CPU 11 determines that an input for selecting one image data has been received (step S504: YES), the CPU 11 extracts an electronic document file corresponding to the image data for which the selection input has been received (step S505). If a corresponding software program is installed in the extracted electronic document file, the software program is activated to display the electronic document file. If it is not installed, display the image data in the image viewer.

図6に戻って、例えばサムネイル画像表示領域62にて画像番号‘8’がマウス22でクリック操作された場合、対応するイメージデータを別のイメージ画像表示画面63にて表示する。もちろん、サムネイル画像表示領域62へ表示するために縮小画像データを生成しておき、縮小画像データが選択された時点で対応するイメージデータを表示するようにしても良い。   Returning to FIG. 6, for example, when the image number “8” is clicked with the mouse 22 in the thumbnail image display area 62, the corresponding image data is displayed on another image image display screen 63. Of course, reduced image data may be generated for display in the thumbnail image display area 62, and the corresponding image data may be displayed when the reduced image data is selected.

このように、従来の検索装置では、電子文書ファイル名を抽出するだけであったものを、本実施の形態では、印刷データを生成してページごとのイメージデータとして電子文書ファイルの内容を確認することができるようにしてある。すなわち種類の異なる電子文書ファイルであっても、標準化されている印刷データフォーマットを中間フォーマットとして利用することにより、ページごとのイメージデータとして表示することができる。   As described above, in the present embodiment, the conventional search device only extracts the electronic document file name, but in this embodiment, print data is generated and the content of the electronic document file is confirmed as image data for each page. I can do it. That is, even different types of electronic document files can be displayed as image data for each page by using a standardized print data format as an intermediate format.

なお、検索効率を向上するためにインデックス情報を生成しても良い。図8は、本発明の実施の形態に係る電子文書ファイル検索装置1のCPU11のインデックス情報の記憶処理の手順を示すフローチャートである。電子文書ファイル検索装置1のCPU11は、テキストデータを印刷データへ変換した後(ステップS303)、テキストデータを、印刷データのページごとに分割する(ステップS801)。   Note that index information may be generated in order to improve search efficiency. FIG. 8 is a flowchart showing a procedure of index information storage processing of the CPU 11 of the electronic document file search apparatus 1 according to the embodiment of the present invention. The CPU 11 of the electronic document file search apparatus 1 converts the text data into print data (step S303), and then divides the text data for each page of the print data (step S801).

CPU11は、分割されたページごとのテキストデータを解析して、インデックス情報を生成する(ステップS802)。CPU11は、生成したインデックス情報を、生成の基礎となったテキストデータを含む印刷データに対応付けて記憶装置13に記憶する(ステップS803)。もちろん、検索情報記憶部132に追加して記憶しても良い。   The CPU 11 analyzes the text data for each divided page and generates index information (step S802). The CPU 11 stores the generated index information in the storage device 13 in association with the print data including the text data that is the basis of the generation (step S803). Of course, the information may be additionally stored in the search information storage unit 132.

インデックス情報を記憶しておくことにより、検索条件の入力を受け付けた場合、まず入力を受け付けた検索条件に基づいてインデックス情報を検索し、検索されたインデックス情報が付与されている印刷データに対応するイメージデータを抽出すれば良い。これにより、記憶してあるテキストデータを全文検索する必要がなくなり、インデックス情報により抽出されたテキストデータのみを全文検索すれば足りる。したがって、検索時間を短縮することができるとともに、演算処理負荷を軽減することが可能となる。   By storing the index information, when an input of a search condition is accepted, the index information is first searched based on the search condition for which the input has been accepted, and the searched index information is assigned to the print data. Extract image data. This eliminates the need for full-text search of stored text data, and only full-text search is required for text data extracted based on index information. Therefore, the search time can be shortened and the calculation processing load can be reduced.

なお、上述した例では、テキストデータ、電子文書ファイル識別情報及びページ番号を一元的に関連付けて管理し、これに対応したインデックス情報を生成しているが、テキストデータ及び電子文書ファイル識別情報を一元的に関連付けて管理する従来型のデータベースに、各電子文書ファイルに対応したテキストデータ及びページ番号を一元的に関連付けて管理するデータベースを用意し、それぞれに対してインデックス情報を生成するようにしても良い。この場合、検索キーワードに対応するテキストデータに基づいて一又は複数の電子文書ファイルを特定し、特定された電子文書ファイル及び検索キーワードに対応するテキストデータに基づいてページが特定される。このように構成することで、従来型データベースについては、種々の高速化手法(最適なインデックス情報生成の手法)が確立されているのでその利益を享受しつつ、一の電子文書ファイル内のテキスト検索は、ネットワーク2用の従来型データベースに比べ非常に小規模であるため、簡易なインデックス情報で十分な検索速度を得ることができる。   In the above-described example, text data, electronic document file identification information, and page numbers are managed in association with each other, and index information corresponding to this is generated. However, text data and electronic document file identification information are unified. A database that manages text data and page numbers corresponding to each electronic document file in a centralized manner is prepared in a conventional database that is managed in association with each other, and index information is generated for each database. good. In this case, one or a plurality of electronic document files are specified based on text data corresponding to the search keyword, and a page is specified based on the specified electronic document file and text data corresponding to the search keyword. By configuring in this way, with respect to conventional databases, various speed-up techniques (optimum index information generation techniques) have been established, so that text search within one electronic document file can be enjoyed while enjoying the benefits. Is very small compared to the conventional database for the network 2, and a sufficient search speed can be obtained with simple index information.

また、関連語情報を付与することにより、検索効率を高めることもできる。図9は、本発明の実施の形態に係る電子文書ファイル検索装置1のCPU11の関連語情報の記憶処理の手順を示すフローチャートである。電子文書ファイル検索装置1のCPU11は、ページごとのイメージデータを抽出した後(ステップS502)、抽出されたページごとのイメージデータに対応する印刷データに含まれるテキストデータを形態素解析する(ステップS901)。   Moreover, search efficiency can also be improved by providing related term information. FIG. 9 is a flowchart showing a procedure of related word information storage processing of the CPU 11 of the electronic document file search apparatus 1 according to the embodiment of the present invention. After extracting image data for each page (step S502), the CPU 11 of the electronic document file search apparatus 1 performs morphological analysis on text data included in the print data corresponding to the extracted image data for each page (step S901). .

CPU11は、形態素解析により複数の単語を抽出し(ステップS902)、抽出された複数のイメージデータに対応するテキストデータのうち、抽出された複数の単語が含まれるテキストデータの数を単語ごとに計数する(ステップS903)。CPU11は、計数したテキストデータの数が所定数以上である単語が存在するか否かを判断する(ステップS904)。   The CPU 11 extracts a plurality of words by morphological analysis (step S902), and counts, for each word, the number of text data including the plurality of extracted words among the text data corresponding to the extracted image data. (Step S903). The CPU 11 determines whether or not there is a word for which the counted number of text data is a predetermined number or more (step S904).

CPU11が、計数したテキストデータの数が所定数以上である単語が存在すると判断した場合(ステップS904:YES)、CPU11は、存在すると判断された単語を関連語情報として、変換された印刷データに含まれるテキストデータに対応付けて検索情報記憶部132に記憶する(ステップS905)。CPU11が、計数したテキストデータの数が所定数以上である単語が存在しないと判断した場合(ステップS904:NO)、CPU11は、処理を終了する。   When the CPU 11 determines that there is a word whose counted number of text data is greater than or equal to a predetermined number (step S904: YES), the CPU 11 uses the word determined to be present as related word information in the converted print data. The search data is stored in the search information storage unit 132 in association with the included text data (step S905). When the CPU 11 determines that there is no word having the counted number of text data equal to or larger than the predetermined number (step S904: NO), the CPU 11 ends the process.

このように関連語情報を対応付けて記憶しておくことにより、所定のキーワードの出現頻度の高いテキストデータから順に、対応するイメージデータを抽出することができ、所望の電子文書ファイルに到達するまでの時間を短縮することができる。   By storing the related word information in association with each other in this way, it is possible to extract the corresponding image data in order from the text data with a predetermined keyword appearance frequency until the desired electronic document file is reached. Can be shortened.

以上のように本実施の形態によれば、標準化されている印刷データフォーマットに変換することにより電子文書ファイルをページごとの印刷データに変換し、印刷するページごとに電子文書ファイルの内容を確認することが可能なイメージデータを生成しておくことで、電子文書ファイルの内容をイメージビューワ等により確実に視認することができる。また、複数の検索ファイルを例えばサムネイル画像等により一覧表示することにより、所望の電子文書ファイルがどれかを確認しながら選択することが可能となる。   As described above, according to the present embodiment, an electronic document file is converted into print data for each page by converting to a standardized print data format, and the contents of the electronic document file are confirmed for each page to be printed. By generating image data that can be displayed, the contents of the electronic document file can be reliably viewed with an image viewer or the like. Further, by displaying a list of a plurality of search files as thumbnail images, for example, it is possible to select a desired electronic document file while confirming which one.

図10は、本発明の実施の形態に係る電子文書ファイル検索装置1の表示装置23の表示画面の例示図である。図10に示すように検索条件入力領域71に検索条件として「画像 処理」が入力され、マウス等で検索ボタン70をクリック操作した場合、条件式「画像AND処理」をキー情報として抽出された複数のイメージデータがサムネイル画像73、73、・・・としてサムネイル画像表示領域72に表示される。サムネイル画像表示領域72に表示されるサムネイル画像73、73、・・・は、一の電子文書ファイルに対して一の代表データのみが表示されている。   FIG. 10 is a view showing an example of the display screen of the display device 23 of the electronic document file search device 1 according to the embodiment of the present invention. As shown in FIG. 10, when “image processing” is input as a search condition in the search condition input area 71 and the search button 70 is clicked with a mouse or the like, a plurality of the conditional expressions “image AND processing” are extracted as key information. Are displayed in the thumbnail image display area 72 as thumbnail images 73, 73,. In the thumbnail images 73, 73,... Displayed in the thumbnail image display area 72, only one representative data is displayed for one electronic document file.

検索方法選択ボタン1001は、従来の検索エンジンと同様に電子文書ファイル名のみで検索するか、本実施の形態に係る検索方法を用いて電子文書ファイル内のテキストデータを全文検索するかを選択する。ファイル種類限定チェックボックス1002は、所定のアプリケーションに用いる電子文書ファイルに限定して検索を行うためのチェックボックスである。すべて未チェックである場合には、ファイル種類は限定されない。   The search method selection button 1001 selects whether to search using only the electronic document file name as in the conventional search engine, or to search the text data in the electronic document file using the search method according to this embodiment. . A file type restriction check box 1002 is a check box for performing a search limited to an electronic document file used for a predetermined application. If all are unchecked, the file type is not limited.

ページ画像表示領域74には、検索されたページごとの複数のページ画像75、75、・・・が表示される。図10の例では、選択を受け付けた電子文書ファイル名「エッジ検出.doc」の15ページ、24ページ、27ページ、及び32ページのイメージデータが表示されている。   In the page image display area 74, a plurality of page images 75, 75,... For each searched page are displayed. In the example of FIG. 10, the image data of page 15, page 24, page 27, and page 32 of the electronic document file name “edge detection.doc” that has been selected is displayed.

プレビュー画像表示領域76には、マウス22等で選択されたイメージデータが表示される。代表データであるサムネイル画像73、73、・・・が選択された場合には代表データが、ページ画像75、75、・・・が選択された場合にはページごとのイメージデータが、それぞれ表示される。   In the preview image display area 76, image data selected by the mouse 22 or the like is displayed. When thumbnail images 73, 73,..., Which are representative data, are selected, representative data is displayed. When page images 75, 75,... Are selected, image data for each page is displayed. The

サムネイル画像73、73、・・・の近傍及びプレビュー画像表示領域76の近傍には、対応する電子文書ファイルの電子文書ファイル名が表示されている。電子文書ファイル名は、対応する電子文書ファイルの抽出要求を受付可能に表示され、電子文書ファイル検索装置1は、キーボード21、マウス22等の入力装置により対応する電子文書ファイルの抽出要求を受け付けることができる。   In the vicinity of the thumbnail images 73, 73,... And the preview image display area 76, the electronic document file names of the corresponding electronic document files are displayed. The electronic document file name is displayed so that a request for extracting the corresponding electronic document file can be received, and the electronic document file search apparatus 1 receives the request for extracting the corresponding electronic document file by using an input device such as the keyboard 21 and the mouse 22. Can do.

プレビュー画像表示領域76に、マウス22によりポインタを移動させると、マウス22のホイールを前転又は後転させることにより、イメージデータをページ順送り又は逆送りでページを切り替えて表示することができる。これにより、検索キーワードを含むページの前後のページの内容を簡便に確認することができるとともに、ページ画像表示領域74を利用することにより、プレビュー画像表示領域76に表示されるイメージデータを、同一の電子文書ファイル内の検索キーワードを含む他のページのイメージデータへ切り替えることができるため、すばやく電子文書ファイルの内容を把握でき、所望の電子文書ファイルを検索することが可能となる。   When the pointer is moved by the mouse 22 to the preview image display area 76, the wheel of the mouse 22 is rotated forward or backward, and the image data can be displayed by switching the page by page forward or backward. As a result, the contents of the pages before and after the page including the search keyword can be easily confirmed, and by using the page image display area 74, the image data displayed in the preview image display area 76 can be the same. Since it is possible to switch to the image data of another page including the search keyword in the electronic document file, it is possible to quickly grasp the contents of the electronic document file and to search for a desired electronic document file.

サムネイル画像表示領域72、ページ画像表示領域74及びプレビュー画像表示領域76をどのように表示するかは、表示形式選択タグにて選択する。図10の例では、「画像+テキスト」タグ1003が選択されており、サムネイル画像表示領域72にて、サムネイル画像73、73、・・・とともにそれぞれに対応するテキストデータの一部が表示されている。   How to display the thumbnail image display area 72, the page image display area 74, and the preview image display area 76 is selected by a display format selection tag. In the example of FIG. 10, an “image + text” tag 1003 is selected, and a part of text data corresponding to each of the thumbnail images 73, 73,... Is displayed in the thumbnail image display area 72. Yes.

フォルダツリー表示領域1004には、検索対象となっているフォルダの階層構造を表示しており、フォルダを指定することによっても検索対象領域を絞り込むことができる。   The folder tree display area 1004 displays the hierarchical structure of folders to be searched, and the search target area can also be narrowed down by specifying a folder.

図11は、「画像のみ」タグ1005が選択された場合の本発明の実施の形態に係る電子文書ファイル検索装置1の表示装置23の表示画面の例示図である。図11の例では、テキストデータが表示されず、サムネイル画像表示領域72にはサムネイル画像73、73、・・・のみが表示されている。ページ画像表示領域74及びプレビュー画像表示領域76の表示方式は、図10の例と同様である。   FIG. 11 is an exemplary view of a display screen of the display device 23 of the electronic document file search device 1 according to the embodiment of the present invention when the “image only” tag 1005 is selected. In the example of FIG. 11, no text data is displayed, and only thumbnail images 73, 73,... Are displayed in the thumbnail image display area 72. The display method of the page image display area 74 and the preview image display area 76 is the same as the example in FIG.

図12は、「画像のみ」タグ1005が選択され、CADデータが選択された場合の本発明の実施の形態に係る電子文書ファイル検索装置1の表示装置23の表示画面の例示図である。CADデータには印刷データにページの概念が存在しないことから、1ファイル当たり1ページとして表示される。したがって、図12の例に示すようにページ画像表示領域74及びプレビュー画像表示領域76を表示する必要がなく、サムネイル画像表示領域72に一のサムネイル画像73としてCADデータに対応するイメージデータが表示されている。   FIG. 12 is an exemplary view of the display screen of the display device 23 of the electronic document file search device 1 according to the embodiment of the present invention when the “image only” tag 1005 is selected and CAD data is selected. The CAD data is displayed as one page per file because the page concept does not exist in the print data. Accordingly, it is not necessary to display the page image display area 74 and the preview image display area 76 as shown in the example of FIG. 12, and image data corresponding to CAD data is displayed as one thumbnail image 73 in the thumbnail image display area 72. ing.

図13は、「画像のみ」タグ1005が選択され、属性情報追加ボタン77が押された場合の本発明の実施の形態に係る電子文書ファイル検索装置1の表示装置23の表示画面の例示図である。図13では、属性情報追加ボタン77が「タグ登録」タグに相当し、マウス22等で属性情報追加ボタン77が選択された場合、属性情報入力領域78が画面に新たに表示される。属性情報入力領域78へ新たな属性情報としてタグ情報を入力することにより、次回検索時には、入力した属性情報(タグ情報)を検索条件入力領域71に入力することで、属性情報入力領域78へ属性情報を入力した時点で表示されているサムネイル画像表示領域72が直接表示される。   FIG. 13 is an exemplary view of a display screen of the display device 23 of the electronic document file search device 1 according to the embodiment of the present invention when the “image only” tag 1005 is selected and the attribute information addition button 77 is pressed. is there. In FIG. 13, when the attribute information addition button 77 corresponds to a “tag registration” tag and the attribute information addition button 77 is selected with the mouse 22 or the like, an attribute information input area 78 is newly displayed on the screen. By inputting tag information as new attribute information into the attribute information input area 78, the attribute information (tag information) that has been input is input to the search condition input area 71 at the next search, and the attribute information is input to the attribute information input area 78. The thumbnail image display area 72 displayed when the information is input is directly displayed.

なお、本発明は上記実施例に限定されるものではなく、本発明の趣旨の範囲内であれば多種の変更、改良等が可能である。例えばネットワーク2内のアクセス権限の範囲内を一定期間ごとに走査して、電子文書ファイルに関する情報を取得しても良いし、社内、事業所内等に限定して電子文書ファイルに関する情報を取得しても良い。また、従来の電子文書ファイル名の検索システム等に本実施の形態に係る電子文書ファイル検索装置の印刷データに基づく処理をアドオンすることにより、電子文書ファイルの内容を確認しつつ所望の電子文書ファイルを検索する検索システムを容易に構築することができることは言うまでもない。   The present invention is not limited to the above-described embodiments, and various changes and improvements can be made within the scope of the present invention. For example, the information about the electronic document file may be acquired by scanning within the range of the access authority in the network 2 at regular intervals, or the information regarding the electronic document file may be acquired only within the company or the office. Also good. In addition, by adding a process based on the print data of the electronic document file search apparatus according to the present embodiment to a conventional electronic document file name search system or the like, the desired electronic document file can be confirmed while checking the contents of the electronic document file. Needless to say, a search system can be easily constructed.

本発明の実施の形態に係る電子文書ファイル検索装置の構成例を示すブロック図である。It is a block diagram which shows the structural example of the electronic document file search apparatus which concerns on embodiment of this invention. 本発明の実施の形態に係る電子文書ファイル検索装置の機能ブロック図である。It is a functional block diagram of the electronic document file search device according to the embodiment of the present invention. 本発明の実施の形態に係る電子文書ファイル検索装置のCPUの検索情報の生成処理の手順を示すフローチャートである。It is a flowchart which shows the procedure of the production | generation process of the search information of CPU of the electronic document file search device concerning embodiment of this invention. 本発明の実施の形態に係る電子文書ファイル検索装置のデータの対応関係を示す模式図である。It is a schematic diagram which shows the correspondence of the data of the electronic document file search apparatus concerning embodiment of this invention. 本発明の実施の形態に係る電子文書ファイル検索装置のCPUの検索処理の手順を示すフローチャートである。It is a flowchart which shows the procedure of the search process of CPU of the electronic document file search device concerning embodiment of this invention. 一覧表示画面の例示図である。It is an illustration figure of a list display screen. 代表データを用いる場合の表示画面の例示図である。It is an illustration figure of the display screen in the case of using representative data. 本発明の実施の形態に係る電子文書ファイル検索装置のCPUのインデックス情報の記憶処理の手順を示すフローチャートである。It is a flowchart which shows the procedure of the storage process of the index information of CPU of the electronic document file search apparatus concerning embodiment of this invention. 本発明の実施の形態に係る電子文書ファイル検索装置のCPUの関連語情報の記憶処理の手順を示すフローチャートである。It is a flowchart which shows the procedure of the storage process of the related word information of CPU of the electronic document file search apparatus which concerns on embodiment of this invention. 本発明の実施の形態に係る電子文書ファイル検索装置の表示装置の表示画面の例示図である。It is an illustration figure of the display screen of the display apparatus of the electronic document file search apparatus which concerns on embodiment of this invention. 「画像のみ」タグが選択された場合の本発明の実施の形態に係る電子文書ファイル検索装置の表示装置の表示画面の例示図である。It is an illustration figure of the display screen of the display apparatus of the electronic document file search apparatus which concerns on embodiment of this invention when the "image only" tag is selected. 「画像のみ」タグが選択され、CADデータが選択された場合の本発明の実施の形態に係る電子文書ファイル検索装置の表示装置の表示画面の例示図である。It is an illustration figure of the display screen of the display apparatus of the electronic document file search apparatus which concerns on embodiment of this invention when a "image only" tag is selected and CAD data is selected. 「画像のみ」タグが選択され、属性情報追加ボタンが押された場合の本発明の実施の形態に係る電子文書ファイル検索装置の表示装置の表示画面の例示図である。It is an illustration figure of the display screen of the display apparatus of the electronic document file search apparatus which concerns on embodiment of this invention when an "image only" tag is selected and the attribute information addition button is pushed.

符号の説明Explanation of symbols

1 電子文書ファイル検索装置
2 ネットワーク
11 CPU
12 メモリ
13 記憶装置
14 I/Oインタフェース
15 ビデオインタフェース
16 可搬型ディスクドライブ
17 通信インタフェース
18 内部バス
23 表示装置
90 可搬型記録媒体
100 コンピュータプログラム
131 電子文書ファイル記憶部
132 検索情報記憶部
1 Electronic Document File Retrieval Device 2 Network 11 CPU
DESCRIPTION OF SYMBOLS 12 Memory 13 Storage device 14 I / O interface 15 Video interface 16 Portable disk drive 17 Communication interface 18 Internal bus 23 Display device 90 Portable recording medium 100 Computer program 131 Electronic document file storage part 132 Search information storage part

Claims (18)

ネットワークに接続されている複数のコンピュータに記憶されている複数の電子文書ファイル中から所望の電子文書ファイルを検索する電子文書ファイル検索装置において、
少なくともテキストデータが含まれる複数の前記電子文書ファイルを識別する情報、該電子文書ファイルが記憶されている位置に関する情報、及び前記テキストデータを取得する電子文書ファイル情報取得手段と、
複数の前記電子文書ファイルを一又は複数ページの印刷データに変換する印刷データ変換手段と、
変換された複数ページの印刷データに基づいてページごとのイメージデータを生成するイメージデータ生成手段と、
変換された複数ページの印刷データに含まれるページごとのテキストデータに対応付けて、前記電子文書ファイルを識別する情報、該電子文書ファイルが記憶されている位置に関する情報、ページごとの前記印刷データ及び対応する前記イメージデータを記憶する検索対象情報記憶手段と、
検索条件の入力を受け付ける検索条件受付手段と、
入力を受け付けた検索条件に基づいて前記テキストデータを検索し、検索された複数のテキストデータにそれぞれ対応する複数のイメージデータを抽出するイメージデータ抽出手段と、
抽出された複数のイメージデータを、同一画面上で表示するイメージデータ表示手段と、
一のイメージデータの選択を受け付けるイメージデータ選択受付手段と、
選択を受け付けたイメージデータに対応する電子文書ファイルを抽出する電子文書ファイル抽出手段と
を備えることを特徴とする電子文書ファイル検索装置。
In an electronic document file search device for searching for a desired electronic document file from a plurality of electronic document files stored in a plurality of computers connected to a network,
Information for identifying a plurality of the electronic document files including at least text data, information on a position where the electronic document files are stored, and electronic document file information acquisition means for acquiring the text data;
Print data conversion means for converting a plurality of the electronic document files into one or a plurality of pages of print data;
Image data generation means for generating image data for each page based on the converted print data of a plurality of pages;
Information for identifying the electronic document file in association with text data for each page included in the converted print data of the plurality of pages, information on a position where the electronic document file is stored, the print data for each page, and Search target information storage means for storing the corresponding image data;
Search condition receiving means for receiving input of search conditions;
Image data extraction means for searching the text data based on a search condition that accepts an input, and extracting a plurality of image data respectively corresponding to the plurality of searched text data;
Image data display means for displaying a plurality of extracted image data on the same screen;
Image data selection accepting means for accepting selection of one image data;
An electronic document file retrieval device comprising: an electronic document file extracting unit that extracts an electronic document file corresponding to image data for which selection has been accepted.
前記電子文書ファイル情報取得手段、前記印刷データ変換手段、前記イメージデータ生成手段、及び前記検索対象情報記憶手段を、所定の期間が経過する都度、繰り返し実行するようにしてあることを特徴とする請求項1記載の電子文書ファイル検索装置。   The electronic document file information acquisition unit, the print data conversion unit, the image data generation unit, and the search target information storage unit are repeatedly executed every time a predetermined period elapses. Item 2. The electronic document file search device according to Item 1. 前記テキストデータをページごとに解析してインデックス情報を生成するインデックス情報生成手段と、
生成したインデックス情報を前記印刷データに対応付けて記憶するインデックス情報記憶手段と
を備え、
前記イメージデータ抽出手段は、受け付けた検索条件に基づいて前記インデックス情報を検索し、検索されたインデックス情報に対応付けて記憶されている印刷データに対応するイメージデータを抽出するようにしてあることを特徴とする請求項1又は2記載の電子文書ファイル検索装置。
Index information generating means for analyzing the text data for each page and generating index information;
Index information storage means for storing the generated index information in association with the print data, and
The image data extracting means searches the index information based on the received search condition, and extracts image data corresponding to the print data stored in association with the searched index information. The electronic document file search device according to claim 1 or 2, characterized in that:
前記イメージデータ抽出手段で抽出された複数のイメージデータに対応する複数の前記テキストデータを形態素解析する形態素解析手段と、
形態素解析の結果に基づいて複数の単語を抽出する単語抽出手段と、
抽出された複数のイメージデータに対応する複数のテキストデータのうち、抽出された複数の単語が含まれる前記テキストデータの数を計数する計数手段と、
計数した前記テキストデータの数が所定数以上である単語が存在するか否かを判断する判断手段と
を備え、
該判断手段で所定数以上である単語が存在すると判断した場合、前記検索対象情報記憶手段は、存在すると判断された単語を関連語情報として、変換された印刷データに含まれるテキストデータに対応付けて記憶するようにしてあることを特徴とする請求項1乃至3のいずれか一項に記載の電子文書ファイル検索装置。
Morphological analysis means for morphological analysis of the plurality of text data corresponding to the plurality of image data extracted by the image data extraction means;
Word extracting means for extracting a plurality of words based on the result of morphological analysis;
A counting means for counting the number of the text data including a plurality of extracted words among a plurality of text data corresponding to the plurality of extracted image data;
Determining means for determining whether or not there is a word having a predetermined number or more of the counted text data;
When the determination unit determines that there are more than a predetermined number of words, the search target information storage unit associates the word determined to be present as related word information with text data included in the converted print data 4. The electronic document file search device according to claim 1, wherein the electronic document file search device is stored.
前記イメージデータ表示手段は、抽出された複数のイメージデータを縮小した縮小画像データを生成して表示するようにしてあることを特徴とする請求項1乃至4のいずれか一項に記載の電子文書ファイル検索装置。   5. The electronic document according to claim 1, wherein the image data display unit generates and displays reduced image data obtained by reducing a plurality of extracted image data. File search device. 複数の前記印刷データから一の代表データの選択を受け付ける代表データ選択受付手段を備え、
前記イメージデータ表示手段で、一の電子文書ファイルに属する複数のイメージデータが抽出された場合、受け付けた一の代表データに対応するイメージデータのみを表示するようにしてあることを特徴とする請求項1乃至5のいずれか一項に記載の電子文書ファイル検索装置。
Comprising representative data selection accepting means for accepting selection of one representative data from the plurality of print data,
The plurality of image data belonging to one electronic document file is extracted by the image data display means, and only the image data corresponding to the accepted representative data is displayed. The electronic document file search device according to any one of 1 to 5.
ネットワークに接続されている複数のコンピュータに記憶されている複数の電子文書ファイル中から所望の電子文書ファイルを検索する電子文書ファイル検索装置で実行することが可能な電子文書ファイル検索方法において、
少なくともテキストデータが含まれる複数の前記電子文書ファイルを識別する情報、該電子文書ファイルが記憶されている位置に関する情報、及び前記テキストデータを取得し、
複数の前記電子文書ファイルを一又は複数ページの印刷データに変換し、
変換された複数ページの印刷データに基づいてページごとのイメージデータを生成し、
変換された複数ページの印刷データに含まれるページごとのテキストデータに対応付けて、前記電子文書ファイルを識別する情報、該電子文書ファイルが記憶されている位置に関する情報、ページごとの前記印刷データ及び対応する前記イメージデータを記憶し、
検索条件の入力を受け付け、
入力を受け付けた検索条件に基づいて前記テキストデータを検索し、検索された複数のテキストデータにそれぞれ対応する複数のイメージデータを抽出し、
抽出された複数のイメージデータを、同一画面上で表示し、
一のイメージデータの選択を受け付け、
選択を受け付けたイメージデータに対応する電子文書ファイルを抽出することを特徴とする電子文書ファイル検索方法。
In an electronic document file search method that can be executed by an electronic document file search device that searches a desired electronic document file from a plurality of electronic document files stored in a plurality of computers connected to a network,
Obtaining at least information for identifying the plurality of electronic document files including text data, information on a position where the electronic document files are stored, and the text data;
Converting a plurality of electronic document files into one or more pages of print data;
Generate image data for each page based on the converted print data of multiple pages,
Information for identifying the electronic document file in association with text data for each page included in the converted print data of the plurality of pages, information on a position where the electronic document file is stored, the print data for each page, and Storing the corresponding image data;
Accepts search criteria input,
Search the text data based on the search condition that accepted the input, extract a plurality of image data respectively corresponding to the searched text data,
Display multiple extracted image data on the same screen,
Accept selection of one image data,
An electronic document file search method comprising extracting an electronic document file corresponding to image data for which selection has been accepted.
少なくともテキストデータが含まれる複数の前記電子文書ファイルを識別する情報、該電子文書ファイルが記憶されている位置に関する情報、及び前記テキストデータを取得してから、変換された複数ページの印刷データに含まれるページごとのテキストデータに対応付けて、前記電子文書ファイルを識別する情報、該電子文書ファイルが記憶されている位置に関する情報、ページごとの前記印刷データ及び対応する前記イメージデータを記憶するまでの処理を、所定の期間が経過する都度、繰り返し実行することを特徴とする請求項7記載の電子文書ファイル検索方法。   Included in information that identifies at least a plurality of electronic document files that contain text data, information relating to the location where the electronic document files are stored, and print data of a plurality of pages that have been converted after obtaining the text data Information for identifying the electronic document file, information on the position where the electronic document file is stored, the print data for each page, and the corresponding image data 8. The electronic document file search method according to claim 7, wherein the process is repeatedly executed every time a predetermined period elapses. 前記テキストデータをページごとに解析してインデックス情報を生成し、
生成したインデックス情報を前記印刷データに対応付けて記憶し、
受け付けた検索条件に基づいて前記インデックス情報を検索し、検索されたインデックス情報に対応付けて記憶されている印刷データに対応するイメージデータを抽出するようにしてあることを特徴とする請求項7又は8記載の電子文書ファイル検索方法。
Analyzing the text data for each page to generate index information,
Storing the generated index information in association with the print data;
8. The index information is searched based on an accepted search condition, and image data corresponding to print data stored in association with the searched index information is extracted. 8. The electronic document file search method according to 8.
抽出された複数のイメージデータに対応する複数の前記テキストデータを形態素解析し、
形態素解析の結果に基づいて複数の単語を抽出し、
抽出された複数のイメージデータに対応する複数のテキストデータのうち、抽出された複数の単語が含まれる前記テキストデータの数を計数し、
計数した前記テキストデータの数が所定数以上である単語が存在するか否かを判断し、
所定数以上である単語が存在すると判断した場合、存在すると判断された単語を関連語情報として、変換された印刷データに含まれるテキストデータに対応付けて記憶することを特徴とする請求項7乃至9のいずれか一項に記載の電子文書ファイル検索方法。
Morphological analysis of the plurality of text data corresponding to the plurality of extracted image data,
Extract multiple words based on morphological analysis results,
Of the plurality of text data corresponding to the plurality of extracted image data, counting the number of the text data including a plurality of extracted words,
Determining whether there is a word having a predetermined number or more of the counted text data;
8. When it is determined that there are more than a predetermined number of words, the words determined to exist are stored as related word information in association with text data included in the converted print data. 10. The electronic document file search method according to any one of items 9 to 9.
抽出された複数のイメージデータを縮小した縮小画像データを生成して表示することを特徴とする請求項7乃至10のいずれか一項に記載の電子文書ファイル検索方法。   The electronic document file search method according to any one of claims 7 to 10, wherein reduced image data obtained by reducing a plurality of extracted image data is generated and displayed. 複数の前記印刷データから一の代表データの選択を受け付け、
一の電子文書ファイルに属する複数のイメージデータが抽出された場合、受け付けた一の代表データに対応するイメージデータのみを表示することを特徴とする請求項7乃至11のいずれか一項に記載の電子文書ファイル検索方法。
Accept selection of one representative data from a plurality of the print data,
12. When a plurality of image data belonging to one electronic document file are extracted, only the image data corresponding to the accepted one representative data is displayed. Electronic document file search method.
ネットワークに接続されている複数のコンピュータに記憶されている複数の電子文書ファイル中から所望の電子文書ファイルを検索する電子文書ファイル検索装置で実行することが可能なコンピュータプログラムにおいて、
前記電子文書ファイル検索装置を、
少なくともテキストデータが含まれる複数の前記電子文書ファイルを識別する情報、該電子文書ファイルが記憶されている位置に関する情報、及び前記テキストデータを取得する電子文書ファイル情報取得手段、
複数の前記電子文書ファイルを一又は複数ページの印刷データに変換する印刷データ変換手段、
変換された複数ページの印刷データに基づいてページごとのイメージデータを生成するイメージデータ生成手段、
変換された複数ページの印刷データに含まれるページごとのテキストデータに対応付けて、前記電子文書ファイルを識別する情報、該電子文書ファイルが記憶されている位置に関する情報、ページごとの前記印刷データ及び対応する前記イメージデータを記憶する検索対象情報記憶手段、
検索条件の入力を受け付ける検索条件受付手段、
入力を受け付けた検索条件に基づいて前記テキストデータを検索し、検索された複数のテキストデータにそれぞれ対応する複数のイメージデータを抽出するイメージデータ抽出手段、
抽出された複数のイメージデータを、同一画面上で表示するイメージデータ表示手段、
一のイメージデータの選択を受け付けるイメージデータ選択受付手段、及び
選択を受け付けたイメージデータに対応する電子文書ファイルを抽出する電子文書ファイル抽出手段
として機能させることを特徴とするコンピュータプログラム。
In a computer program that can be executed by an electronic document file search device that searches a desired electronic document file from a plurality of electronic document files stored in a plurality of computers connected to a network,
The electronic document file search device;
Information for identifying a plurality of the electronic document files including at least text data, information about a position where the electronic document files are stored, and electronic document file information acquisition means for acquiring the text data;
Print data conversion means for converting a plurality of the electronic document files into one or a plurality of pages of print data;
Image data generation means for generating image data for each page based on the converted print data of a plurality of pages;
Information for identifying the electronic document file in association with text data for each page included in the converted print data of the plurality of pages, information on a position where the electronic document file is stored, the print data for each page, and Search object information storage means for storing the corresponding image data;
Search condition receiving means for receiving input of search conditions,
Image data extraction means for searching the text data based on a search condition accepted for input and extracting a plurality of image data respectively corresponding to the plurality of searched text data;
Image data display means for displaying a plurality of extracted image data on the same screen;
A computer program that functions as an image data selection receiving unit that receives selection of one image data, and an electronic document file extraction unit that extracts an electronic document file corresponding to the selected image data.
前記電子文書ファイル検索装置を、
前記電子文書ファイル情報取得手段、前記印刷データ変換手段、前記イメージデータ生成手段、及び前記検索対象情報記憶手段を、所定の期間が経過する都度、繰り返し実行する手段として機能させることを特徴とする請求項13記載のコンピュータプログラム。
The electronic document file search device;
The electronic document file information acquisition unit, the print data conversion unit, the image data generation unit, and the search target information storage unit function as a unit that repeatedly executes whenever a predetermined period elapses. Item 14. A computer program according to Item 13.
前記電子文書ファイル検索装置を、
前記テキストデータをページごとに解析してインデックス情報を生成するインデックス情報生成手段、及び
生成したインデックス情報を前記印刷データに対応付けて記憶するインデックス情報記憶手段
として機能させ、
前記イメージデータ抽出手段を、受け付けた検索条件に基づいて前記インデックス情報を検索し、検索されたインデックス情報に対応付けて記憶されている印刷データに対応するイメージデータを抽出する手段として機能させることを特徴とする請求項13又は14記載のコンピュータプログラム。
The electronic document file search device;
An index information generating unit that analyzes the text data for each page to generate index information; and an index information storage unit that stores the generated index information in association with the print data.
The image data extracting means functions as a means for searching the index information based on the received search condition and extracting image data corresponding to the print data stored in association with the searched index information. The computer program according to claim 13 or 14, characterized in that
前記電子文書ファイル検索装置を、
前記イメージデータ抽出手段で抽出された複数のイメージデータに対応する複数の前記テキストデータを形態素解析する形態素解析手段、
形態素解析の結果に基づいて複数の単語を抽出する単語抽出手段、
抽出された複数のイメージデータに対応する複数のテキストデータのうち、抽出された複数の単語が含まれる前記テキストデータの数を計数する計数手段、及び
計数した前記テキストデータの数が所定数以上である単語が存在するか否かを判断する判断手段
として機能させ、
該判断手段で所定数以上である単語が存在すると判断した場合、前記検索対象情報記憶手段を、存在すると判断された単語を関連語情報として、変換された印刷データに含まれるテキストデータに対応付けて記憶する手段として機能させることを特徴とする請求項13乃至15のいずれか一項に記載のコンピュータプログラム。
The electronic document file search device;
A morpheme analysis unit that performs a morphological analysis on the plurality of text data corresponding to the plurality of image data extracted by the image data extraction unit;
Word extraction means for extracting a plurality of words based on the result of morphological analysis;
Of the plurality of text data corresponding to the plurality of extracted image data, the counting means for counting the number of the text data including a plurality of extracted words, and the number of the counted text data is a predetermined number or more Function as a means of determining whether a word exists,
When the determination unit determines that there are more than a predetermined number of words, the search target information storage unit associates the word determined to be present as related word information with the text data included in the converted print data The computer program according to claim 13, wherein the computer program is made to function as a storage unit.
前記イメージデータ表示手段を、抽出された複数のイメージデータを縮小した縮小画像データを生成して表示する手段として機能させることを特徴とする請求項13乃至16のいずれか一項に記載のコンピュータプログラム。   The computer program according to any one of claims 13 to 16, wherein the image data display means functions as means for generating and displaying reduced image data obtained by reducing a plurality of extracted image data. . 前記電子文書ファイル検索装置を、
複数の前記印刷データから一の代表データの選択を受け付ける代表データ選択受付手段として機能させ、
前記イメージデータ表示手段を、一の電子文書ファイルに属する複数のイメージデータが抽出された場合、受け付けた一の代表データに対応するイメージデータのみを表示する手段として機能させることを特徴とする請求項13乃至17のいずれか一項に記載のコンピュータプログラム。
The electronic document file search device;
Function as representative data selection accepting means for accepting selection of one representative data from a plurality of the print data,
The image data display means functions as means for displaying only image data corresponding to one accepted representative data when a plurality of image data belonging to one electronic document file is extracted. The computer program according to any one of 13 to 17.
JP2008263416A 2008-10-10 2008-10-10 Electronic document file search device, electronic document file search method, and computer program Pending JP2010092383A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008263416A JP2010092383A (en) 2008-10-10 2008-10-10 Electronic document file search device, electronic document file search method, and computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008263416A JP2010092383A (en) 2008-10-10 2008-10-10 Electronic document file search device, electronic document file search method, and computer program

Publications (2)

Publication Number Publication Date
JP2010092383A true JP2010092383A (en) 2010-04-22
JP2010092383A5 JP2010092383A5 (en) 2011-11-04

Family

ID=42255011

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008263416A Pending JP2010092383A (en) 2008-10-10 2008-10-10 Electronic document file search device, electronic document file search method, and computer program

Country Status (1)

Country Link
JP (1) JP2010092383A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102243644A (en) * 2010-05-12 2011-11-16 佳能株式会社 Information processing apparatus and control method thereof
JP2014530400A (en) * 2011-09-09 2014-11-17 マイクロソフト コーポレーション Facilitating dialogue using a system-level search user interface
WO2015183294A1 (en) * 2014-05-30 2015-12-03 Hewlett-Packard Development Company, L.P. Media table for a digital document
US10073927B2 (en) 2010-11-16 2018-09-11 Microsoft Technology Licensing, Llc Registration for system level search user interface
US10346478B2 (en) 2010-11-16 2019-07-09 Microsoft Technology Licensing, Llc Extensible search term suggestion engine

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001344248A (en) * 2000-06-01 2001-12-14 Fuji Xerox Co Ltd Document processing system
JP2005222237A (en) * 2004-02-04 2005-08-18 Mitsubishi Electric Corp Document search display system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001344248A (en) * 2000-06-01 2001-12-14 Fuji Xerox Co Ltd Document processing system
JP2005222237A (en) * 2004-02-04 2005-08-18 Mitsubishi Electric Corp Document search display system

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102243644A (en) * 2010-05-12 2011-11-16 佳能株式会社 Information processing apparatus and control method thereof
US10073927B2 (en) 2010-11-16 2018-09-11 Microsoft Technology Licensing, Llc Registration for system level search user interface
US10346478B2 (en) 2010-11-16 2019-07-09 Microsoft Technology Licensing, Llc Extensible search term suggestion engine
US10346479B2 (en) 2010-11-16 2019-07-09 Microsoft Technology Licensing, Llc Facilitating interaction with system level search user interface
JP2014530400A (en) * 2011-09-09 2014-11-17 マイクロソフト コーポレーション Facilitating dialogue using a system-level search user interface
WO2015183294A1 (en) * 2014-05-30 2015-12-03 Hewlett-Packard Development Company, L.P. Media table for a digital document
US20170206186A1 (en) * 2014-05-30 2017-07-20 Hewlett-Packard Development Company, L.P. Media table for a digital document
US10073819B2 (en) * 2014-05-30 2018-09-11 Hewlett-Packard Development Company, L.P. Media table for a digital document

Similar Documents

Publication Publication Date Title
CN101178725B (en) Device and method for information retrieval
US8584009B2 (en) Automatically propagating changes in document access rights for subordinate document components to superordinate document components
US20090183115A1 (en) Document searching apparatus, document searching method, and computer-readable recording medium
US8495490B2 (en) Systems and methods of summarizing documents for archival, retrival and analysis
US20090019386A1 (en) Extraction and reapplication of design information to existing websites
US20070133064A1 (en) Scanned image management device
JP2006120125A (en) Document image information management apparatus and document image information management program
JP2007317034A (en) Image processing apparatus, image processing method, program, and recording medium
JP2009169536A (en) Information processor, image forming apparatus, document creating method, and document creating program
JP5627332B2 (en) Data retrieval apparatus, control method therefor, and computer program
US8719690B2 (en) Method and system for automatic data aggregation
JP2008090404A (en) Document retrieval apparatus, method and program
US9881001B2 (en) Image processing device, image processing method and non-transitory computer readable recording medium
US20070185832A1 (en) Managing tasks for multiple file types
JP2010092383A (en) Electronic document file search device, electronic document file search method, and computer program
KR101401250B1 (en) Method of providing keyword-map for electronic documents, and computer-readable recording medium with keyword-map program for the same
JP2008040753A (en) Image processor and method, program and recording medium
CN113495874A (en) Information processing apparatus and computer readable medium
JP2007011973A (en) Information retrieval device and information retrieval program
JP2008146177A (en) Information retrieval method and information retrieval device
JP5064791B2 (en) Form data search device, form data search method and program
US20120239662A1 (en) Document management apparatus and document management method
JP2009199164A (en) Document management device, document management method and recording medium
US20130060778A1 (en) Device, method, and program for displaying document list
JP2001117942A (en) Device and method for retrieving information and computer readable recording medium recording program for computer to execute the same method

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110920

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110920

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120903

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120911

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121026

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130521