JP4344207B2 - Document search device, document search method, document search program, and recording medium - Google Patents
Document search device, document search method, document search program, and recording medium Download PDFInfo
- Publication number
- JP4344207B2 JP4344207B2 JP2003329205A JP2003329205A JP4344207B2 JP 4344207 B2 JP4344207 B2 JP 4344207B2 JP 2003329205 A JP2003329205 A JP 2003329205A JP 2003329205 A JP2003329205 A JP 2003329205A JP 4344207 B2 JP4344207 B2 JP 4344207B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- search
- similar
- documents
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
この発明は、キーワードの入力を行わなくとも元文書から検索条件または再検索条件を自動的に生成して文書データベースを検索し一または複数の類似文書を選出して表示する文書検索装置、文書検索方法、文書検索プログラム、および記録媒体に関する。 The present invention relates to a document search apparatus and document search for automatically generating a search condition or re-search condition from an original document without inputting a keyword, searching a document database, and selecting and displaying one or more similar documents. The present invention relates to a method, a document search program, and a recording medium.
文書を多数集積している文書データベースからユーザの必要とする文書を探し出すための文書検索装置が、近年、広く利用されている。文書検索装置には、任意の文書が指定されたとき、文書データベースからその文書に類似する類似文書を検索する機能(類似文書検索)を備えたものがある(たとえば特許文献1参照。)。 2. Description of the Related Art In recent years, a document search apparatus for searching for a document required by a user from a document database in which many documents are accumulated has been widely used. Some document retrieval devices have a function (similar document retrieval) for retrieving a similar document similar to the document from a document database when an arbitrary document is designated (see, for example, Patent Document 1).
このような類似文書検索においては、一般に、検索の元になる元文書の全体が検索条件として用いられるため、元文書に異なる複数の内容が記述されている場合に、そのうちどれかの内容だけに着目して検索することは困難であった。 In such a similar document search, generally, the entire original document from which the search is based is used as a search condition. Therefore, when multiple different contents are described in the original document, only one of the contents is described. It was difficult to search with attention.
このため、たとえば検索キー文書および検索対象文書から項目の文書を切り出し、検索キー文書/検索対象文書間の類似度をベクトル空間法などを用いて項目の単位で類似文書の検索結果(たとえば文書ID)を判別して出力する類似文書検索装置が提案されている(たとえば特許文献2参照。)。また、自然言語で表現された文字列からなる複数の文書に対して検索条件から抽出された単語の表記と同一の文字列の出現集合を求め、これらの出現集合を基に単語ごとの出現充足度を求め、検索条件から抽出したすべての単語に対して求められた出現度を基に充足度を求め、充足度に応じて検索結果の文書を選択して出力する文書検索装置が提案されている(たとえば特許文献3参照。)。 For this reason, for example, a document of an item is cut out from the search key document and the search target document, and the similarity between the search key document / search target document is searched for similar documents in units of items using a vector space method or the like (for example, document ID ) Has been proposed (for example, see Patent Document 2). In addition, for a plurality of documents composed of character strings expressed in a natural language, an occurrence set of the same character string as the word notation extracted from the search condition is obtained, and the occurrence satisfaction for each word is obtained based on these occurrence sets. A document search device has been proposed that calculates the degree of satisfaction, calculates the sufficiency based on the degree of appearance obtained for all words extracted from the search conditions, and selects and outputs a document as a search result according to the sufficiency. (For example, refer to Patent Document 3).
しかしながら、特許文献2に記載の従来例においては、元文書を項目単位に分割して項目ごとの検索結果を並べて出力するため、一度に、すべての項目について、各項目と検索対象文書との類似を比較することになるので、検索時間が長くなる問題がある。また、各項目ごとに分割するとしても、文書構造をもたない、あるいは文書構造が文書ごとに異なる場合には自動で文書を項目ごとに分割するのは困難である。また、適宜検索条件を変更したい場合、ユーザが検索条件の変更を簡便に指示するという手立てがなく対応し得ない問題があった。また、検索条件の設定変更を自動化して再検索を繰り返すという手立てもなく、検索結果が必ずしも満足するものとは限らないという問題があった。 However, in the conventional example described in Patent Document 2, since the original document is divided into item units and the search results for each item are output side by side, the similarity between each item and the search target document for all items at once. , The search time is long. Even if the document is divided for each item, it is difficult to automatically divide the document for each item when there is no document structure or when the document structure is different for each document. In addition, when it is desired to change the search conditions as appropriate, there is a problem that the user cannot easily cope with the change of the search conditions without a simple method. There is also a problem that the search result is not always satisfactory because there is no way to repeat the re-search by automating the setting change of the search condition.
特許文献3に記載の従来例においては、検索条件中の各単語と文書群中の各文書に対し文字列または単語の文書内での出現集合を求め、文字列または単語の出現度を求めて充足度を求め検索結果の文書を選択するというものであるため、精細な検索が可能ではあるが、検索条件の設定如何により検索内容が限られるという問題があった。また検索後に選択から外れた文書の中にもっともユーザが求める文書があるといった場合も否定し得ず、しかもたとえば検索結果が不満足である場合等に、再度検索条件を設定し直すとしても特許文献2の場合と同様にユーザが検索条件の変更を簡便に指示するという手立てはなく、したがって検索条件の設定を変更する都度、ユーザに面倒な処理を強いらざるを得ないという問題があった。すなわち特許文献3の場合も、検索条件の設定変更を自動化して再検索を繰り返し行えるという手立てはなく、検索結果が必ずしも満足するものとは限らないという問題が内在するものであった。 In the conventional example described in Patent Document 3, a character string or an occurrence set of words in a document is obtained for each word in a search condition and each document in a document group, and the appearance degree of the character string or word is obtained. Since the degree of satisfaction is obtained and a document as a search result is selected, a fine search is possible, but there is a problem that the search content is limited depending on the setting of search conditions. In addition, it cannot be denied that there is a document most desired by the user among documents that are not selected after the search, and even if the search condition is reset, for example, when the search result is unsatisfactory, Patent Document 2 As in the case of the above, there is no way for the user to simply instruct the change of the search condition. Therefore, each time the setting of the search condition is changed, there is a problem that the user has to be troublesome. That is, even in the case of Patent Document 3, there is no way to automate changing the search condition setting and repeat the re-search, and there is an inherent problem that the search result is not always satisfactory.
この発明は、上述した従来技術による問題点を解消するため、最初の検索条件の設定をも自動化することが可能であり、しかもたとえば検索結果が十分に満足できる内容ではない場合等にも、ユーザの簡便な指示で検索条件を自動的に随時変更して信頼度の高い文書検索を行うことができる文書検索装置、文書検索方法、文書検索プログラム、および記録媒体を提供することを目的とする。 In order to solve the above-described problems caused by the conventional technology, the present invention can also automate the setting of the first search condition, and even when the search result is not sufficiently satisfactory, for example, It is an object of the present invention to provide a document search apparatus, a document search method, a document search program, and a recording medium that can perform a document search with high reliability by automatically changing search conditions as needed with simple instructions.
上述した課題を解決し、目的を達成するため、この発明にかかる文書検索装置は、複数の文書を記憶する文書データベースと、検索対象となる文書を指定する文書指定部と、前記文書指定部の指定に応じて、前記指定された文書の予め決められた所定の行数もしくは文字数分を選出領域として特定し、該選出領域に含まれるキーワードに基づいて検索条件を生成し、該検索条件で前記文書データベースに記憶される複数の文書を検索し、類似すると判定された類似文書を選出する文書選出部と、前記選出された類似文書を検索結果として出力する類似文書出力部と、前記類似文書が検索結果として出力された後に、前記文書選出部に前記検索条件とは異なる検索条件で検索をすることを要求する文書切り替え指示部と、を備え、前記文書選出部は、前記文書切り替え指示部からの検索要求に応じて、前記選出領域に基づいて、該選出領域に後続する前記予め決められた所定の行数もしくは文字数分を前記指定された文書の新たな選出領域として再特定し、該新たな選出領域に基づいて検索条件を生成し、該検索条件で再検索し類似文書を選出し直すことを特徴とする。 In order to solve the above-described problems and achieve the object, a document search apparatus according to the present invention includes a document database that stores a plurality of documents, a document specification unit that specifies a document to be searched, In accordance with the designation, a predetermined number of lines or characters determined in advance in the designated document is specified as a selection area, a search condition is generated based on a keyword included in the selection area, and the search condition A plurality of documents stored in a document database are searched, a document selection unit that selects similar documents determined to be similar, a similar document output unit that outputs the selected similar documents as a search result, and the similar document includes: A document switching instruction unit that requests the document selection unit to perform a search under a search condition different from the search condition after being output as a search result, and the document selection unit In response to a search request from the document switching instruction unit, a new selection of the designated document is made for the predetermined number of lines or characters following the selection area based on the selection area. It is characterized by re-specifying as an area, generating a search condition based on the new selection area, re-searching with the search condition, and selecting a similar document again.
また、前記文書切り替え指示部は、検索結果がユーザが求める文書に対して「近い」あるいは「遠い」を入力操作する操作ボタンからなり、「遠い」操作入力時には、前記文書選出部に前記検索条件とは異なる検索条件での検索を要求する構成としてもよい。 The document switching instruction unit includes an operation button for inputting “near” or “far” with respect to a document requested by a user as a search result. When a “distant” operation is input, the document selection unit includes the search condition. It may be configured to request a search under a different search condition.
また、前記類似文書出力部によって出力された類似文書のうち所定の数の類似文書を画像表示する類似文書画像表示部を備え、前記文書切り替え指示部は、前記「近い」操作入力時には、前記検索の要求は行わずに、画像表示されていない前記類似文書のうち所定の数の類似文書を画像表示することを前記文書画像表示部に要求する構成としてもよい。 A similar document image display unit configured to display a predetermined number of similar documents among the similar documents output by the similar document output unit; and the document switching instruction unit is configured to perform the search when the “near” operation is input. The document image display unit may be requested to display a predetermined number of similar documents among the similar documents that are not displayed as an image without making the request.
また、この発明の文書検索方法は、コンピュータにより文書検索する文書検索方法において、検索対象となる文書をユーザにより指定する文書指定工程と、前記文書指定工程の指定に応じて、前記指定された文書の予め決められた所定の行数もしくは文字数分を選出領域として特定し、該選出領域に含まれるキーワードに基づいて検索条件を生成し、該検索条件で文書データベースに記憶される複数の文書を検索し、類似すると判定された類似文書を文書選出部により選出する文書選出工程と、前記選出された類似文書を類似文書出力部から検索結果として出力する類似文書出力工程と、前記類似文書が検索結果として出力された後に、前記検索条件とは異なる検索条件で検索をすることを文書切り替え支持部により要求する文書切り替え指示工程と、を含み、前記文書選出工程は、前記文書切り替え指示工程の検索要求に応じて、前記選出領域に基づいて、該選出領域に後続する前記予め決められた所定の行数もしくは文字数分を前記指定された文書の新たな選出領域として再特定し、該新たな選出領域に基づいて検索条件を生成し、該検索条件で再検索し類似文書を選出し直すことを特徴とする。 The document search method of the present invention is a document search method in which a document is searched by a computer, a document specifying step for specifying a document to be searched by a user, and the specified document according to the specification of the document specifying step. A predetermined number of lines or characters determined in advance is specified as a selection area, a search condition is generated based on a keyword included in the selection area, and a plurality of documents stored in the document database are searched using the search condition. A document selection step of selecting a similar document determined to be similar by a document selection unit, a similar document output step of outputting the selected similar document as a search result from the similar document output unit, and the similar document as a search result Is output as a document switching instruction for requesting the document switching support unit to perform a search with a search condition different from the search condition. The document selection step includes a predetermined number of lines or characters determined subsequent to the selection region based on the selection region in response to a search request in the document switching instruction step. Re-specifying as a new selection area of the designated document, generating a search condition based on the new selection area, re-searching with the search condition, and selecting a similar document again.
また、前記文書切り替え指示工程は、検索結果がユーザが求める文書に対して「近い」あるいは「遠い」を入力操作する操作ボタンのうち、「遠い」操作入力時には、前記文書選出部に前記検索条件とは異なる検索条件での検索を要求する構成としてもよい。 In the document switching instruction step, among the operation buttons for inputting “near” or “far” with respect to the document requested by the user as a search result, when the “distant” operation is input, the document selection unit displays the search condition. It may be configured to request a search under a different search condition.
また、前記類似文書出力部によって出力された類似文書のうち所定の数の類似文書を画像表示させる類似文書画像表示工程を含み、前記文書切り替え指示工程は、前記「近い」操作入力時には、前記検索の要求は行わずに、画像表示されていない前記類似文書のうち所定の数の類似文書を画像表示することを前記文書画像表示工程に要求する構成としてもよい。 A similar document image display step of displaying a predetermined number of similar documents out of the similar documents output by the similar document output unit, wherein the document switching instruction step is performed when the “near” operation is input; The document image display process may be requested to display a predetermined number of similar documents among the similar documents that are not displayed as images without performing the above request.
また、この発明の文書検索プログラムは、上記の方法をコンピュータに実行させることを特徴とする。 A document search program according to the present invention causes a computer to execute the above method.
また、この発明の記録媒体は、上記の文書検索プログラムを記録したことを特徴とする。 The recording medium of the present invention is characterized in that the document search program is recorded.
本発明にかかる文書検索装置、文書検索方法、文書検索プログラム、および記録媒体によれば、元文書を指定することのみで、元文書から所定の一部分として、たとえば所定の領域を特定して、該領域内の文書中のキーワードを抽出し検索条件を自動設定し類似文書を検索するように構成したため、ユーザは元文書を指定するだけで簡単に類似文書を選出することが可能であり、操作性が極めて簡便で非常に利便性に優れるものである。また、検索条件の設定および再設定に際しても複雑な処理や膨大な処理を必要とせず、このため検索時間の短縮化が容易であり、この観点からも使い勝手がよく利便性に優れる効果がある。一方、類似文書の選出が不満足の結果である場合、文書切替え指示手段を用いた簡便な指示で、元文書から次の領域を特定して検索条件を自動的に再設定し、かつ新たな類似文書の再検索を自動的に行うことが可能であるため、ユーザは検索条件の設定に苦慮する必要がなく、極めて簡便に満足度の高い類似文書の選出を得ることが可能であり、高い利便性とともに優れた信頼性を得ることが可能である。 According to the document search device, the document search method, the document search program, and the recording medium according to the present invention, for example, a predetermined region is specified as a predetermined part from the original document only by specifying the original document. Since keywords are extracted from documents in the area and search conditions are automatically set to search for similar documents, the user can easily select similar documents by simply specifying the original document. However, it is extremely simple and very convenient. In addition, complicated processing and enormous processing are not required for setting and resetting the search conditions, so that it is easy to shorten the search time, and from this point of view, there is an advantage that it is convenient and convenient. On the other hand, if the selection of similar documents is unsatisfactory, the search condition is automatically reset by specifying the next area from the original document with a simple instruction using the document switching instruction means, and a new similar Since it is possible to automatically search for documents again, the user does not have to worry about setting search conditions, and can easily select similar documents with high satisfaction. It is possible to obtain excellent reliability as well as performance.
以下に添付図面を参照して、この発明にかかる文書検索装置、文書検索方法、文書検索プログラム、および記憶媒体の好適な実施の形態を詳細に説明する。 Exemplary embodiments of a document search apparatus, a document search method, a document search program, and a storage medium according to the present invention will be explained below in detail with reference to the accompanying drawings.
(文書検索装置の概要)
図1は、この発明の実施の形態にかかる文書検索装置100の概略構成を示すブロック図である。文書検索装置100は、図1に示すように、CPU101と、ROM102と、RAM103と、HDD(ハードディスクドライブ)104と、HD(ハードディスク)105と、FDD(フレキシブルディスクドライブ)106と、着脱可能な記録媒体の一例としてのFD(フレキシブルディスク)107と、ディスプレイ108と、通信I/F(インタフェイス)109と、キーボード110と、マウス111と、スキャナ112と、プリンタ113とを備えている。これら各構成部はバス114によってそれぞれ接続されている。
(Outline of document search device)
FIG. 1 is a block diagram showing a schematic configuration of a
CPU101は、全体の制御を司る。ROM102は、ブートプログラムなどのプログラムが記憶されている。RAM103は、CPU101のワークエリアとして使用される。HDD104は、CPU101の制御にしたがってHD105に対するデータのリード/ライトを制御する。HD105は、HDD104の制御により書き込まれたデータを記憶する。
The
一方、詳しくは図3を参照して後述するが、本実施の形態においては、たとえば、元文書指定プログラムを含む元文書指定部301、文書選出プログラムを含む文書選出部302、類似文書出力プログラムを含む類似文書出力部304、文書切替え指示プログラムを含む文書切替え指示部305を備えるものである。それら元文書指定プログラム、文書選出プログラム、類似文書出力プログラム、文書切替え指示プログラムを含む文書検索プログラムが、ROM102、あるいはHD105などに記憶されている。
On the other hand, although details will be described later with reference to FIG. 3, in the present embodiment, for example, an original
FDD106は、CPU101の制御にしたがってFD107に対するリード/ライトを制御する。FD107は、FDD106で書き込まれたデータを記憶する。
The FDD 106 controls reading / writing with respect to the
着脱可能な記憶媒体として、FD107の他、CD−ROM(CD−R,CD−RW)、MO、DVD(Digital Versatile Disk)、メモリカードなどであってもよい。上述した元文書指定プログラム、文書選出プログラム、類似文書出力プログラム、および文書切替え指示プログラム等は、これらFD107、CD−ROM、MO、DVD、メモリカード等からROM102やHD105にインストールするという態様がある。
In addition to the
ディスプレイ108は、カーソル、アイコン、あるいはツールボックスをはじめ、文書、画像、機能情報などのデータを表示する。このディスプレイ108には、たとえばCRT、TFT液晶ディスプレイ、プラズマディスプレイなどを採用することができる。
The
I/F109は、通信回線を通じてインターネットなどのネットワーク(図2参照)201に接続され、このネットワーク201を介して他の装置(たとえば端末装置、携帯端末装置等)に接続される。そして、I/F109は、ネットワーク201と内部のインタフェイスを司り、外部装置(たとえば端末装置、携帯端末装置等)からのデータの入出力を制御する。I/F109には、たとえばモデムやLANアダプタなどを採用することができる。上述した元文書指定プログラム、文書選出プログラム、類似文書出力プログラム、および文書切替え指示プログラムを含む文書検索プログラム等は、I/F109を介してネットワーク201上のたとえばサーバコンピュータ(図2参照)202等からダウンロードすることでROM102やHD105に記憶するという態様がある。
The I /
キーボード110は、文字、数字、各種指示などの入力のためのキーを備え、データの入力を行う。また、タッチパネル式の入力パッドやテンキーなどであってもよい。マウス111は、カーソルの移動や範囲選択、あるいはウインドウの移動やサイズの変更などを行う。ポインティングデバイスとして同様の機能を備えるものであれば、トラックボールやジョイスティックなどであってもよい。
The
スキャナ112は、画像を光学的に読み取った画像データなどをたとえばRAM103やHD107などに取り込む。なお、スキャナ112には、OCR機能をもたせてもよい。プリンタ113は、画像データや文書データを印刷する。プリンタ113には、たとえばレーザプリンタやインクジェットプリンタを採用することができる。
The
(文書検索装置の使用形態の一例)
図2は、文書検索装置100の使用形態の一例を示す説明図である。ネットワーク201には、サーバコンピュータ202、および複数の端末装置203が接続されている。サーバコンピュータ202は、図1に示す構成を備えるものであるが、たとえば大容量化されたHD105、もしくは大容量化された複数のHD105を用いることで文書データベース(図3参照)303Aが構築されている。また、各端末装置203は、図1に示す構成を備えており、したがって各々文書検索装置100とみなすことができる。ただし、各端末装置203にもたとえば大容量化されたHD105、もしくは大容量化された複数のHD105を用いることで文書データベース(図3参照)303を構築することが可能である。なお、文書データベース303A,303に保存される各文書には、たとえば各分野ごとの書籍、雑誌や、特許文献などが好適であるが、ホームページなどを適用することも可能であり、その他任意の文書を適用してもよい。
(Example of usage of document search device)
FIG. 2 is an explanatory diagram illustrating an example of a usage pattern of the
(文書検索装置の主要部)
図3は、文書検索装置100の主要部の構成を示す機能ブロック図である。文書検索装置100は、基本的に、元文書指定部301と、文書選出部302と、文書データベース303(303A)と、類似文書出力部304と、文書切替え指示部305とを備えるものである。
(Main part of the document retrieval device)
FIG. 3 is a functional block diagram showing the configuration of the main part of the
元文書指定部301は、たとえば元文書指定プログラムの実行により元文書すなわちRAM103あるいはHD105などに記憶された検索元となる所定の文書を指定する。文書選出部302は、あらかじめ元文書指定部301が指定した元文書に類似する文書の検索条件を自動的に設定する。文書選出部302は、検索条件の設定後、文書検索装置100内のたとえばHD105により構成される文書データベース303を検索し一または複数の類似文書のデータを取得するか、もしくは、たとえばサーバコンピュータ(図2参照)202にネットワーク201を介してアクセスし、サーバコンピュータ202内のたとえばHDD104に、たとえば大容量化された複数のHD105を用いることで構成された文書データベース303Aを該検索条件に基づいて検索させ、検索結果である一または複数の類似文書のデータをネットワーク201を介して取得する。文書選出部302は、取得した一または複数の類似文書のデータをたとえばRAM103、あるいはHD105に記憶させる処理をCPU101に依頼する信号を出力する。
The original
図4〜図6に元文書から選択される所定の領域の具体例を説明する説明図を示す。文書選出部302は、検索条件を設定する場合、元文書のたとえば所定に区切り得る所定の一部分を選択して、該所定の一部分内の文書中のキーワードを抽出するキーワード抽出動作を行うことで検索条件を自動的に設定する。文書選出部302は、元文書から所定の一部分を選択する場合、各章ごと、あるいは各項目ごとに選択してもよいが、たとえば図4に示すように、元文書のあるページ(最初は1ページ目でよいが、あるいは全ページでもよい)ごとのたとえば所定の行数分(もしくは所定の文字数、たとえば300文字など)の領域Taを指定する。文書選出部302は、該領域Ta内のたとえばすべてのキーワードを抽出することで検索条件を設定する。指定された領域Ta、および設定された検索条件のデータは、たとえばRAM103などに記憶されるとともに、設定後の検索条件のキーワードを含むデータは類似文書の検索に使用される。
FIGS. 4 to 6 are explanatory diagrams for explaining specific examples of a predetermined area selected from the original document. When the search condition is set, the
また、文書選出部302は、文書切替え指示部305からの指定により新たな文書検索を行うべく検索条件の再設定が要求された場合は、たとえばRAM103に記憶された上記領域Taに係るデータに基づいて、たとえば図5に示すように、元文書から該領域Taに後続する所定の領域(たとえば同数の行数分、もしくは同数の文字数分)Tbを指定して、この領域Tbからたとえばすべてのキーワードを抽出し検索条件の再設定を自動的に行う。また、この新たな領域Tbに係るデータもRAM103などにデータとして記憶される。文書選出部302は、文書切替え指示部305からの再度の指定により更に検索条件の再設定が要求された場合は、上述と同様の処理を行なって、たとえば図6に示すように、更に後続する新たな領域(たとえば同数の行数分、もしくは同数の文字数分)Tcを指定して同じくすべてのキーワードを抽出し検索条件の再設定を自動的に行う。以下、文書選出部302はこれを元文書の最後まで繰り返すことが可能である。
In addition, when the
類似文書出力部304は、たとえば類似文書出力プログラムの実行により文書選出部302が選出してRAM103あるいはHD105に記憶された類似文書をたとえば所定の操作に応じて先頭の一文書から順次一文書ずつディスプレイ108に画像表示する。類似文書出力部304は、文書選出部302が再設定の検索条件に基づいて検索した新たな類似文書をもたとえば所定の操作に応じて先頭の一文書から順次一文書ずつディスプレイ108に画像表示する。
The similar
図7に文書切替え指示部305の具体例を説明する説明図を示す。文書切替え指示部305はたとえばディスプレイ108に操作ウインドウ(以下指定インタフェイスと称する)700を表示させることで構成することが可能である。指定インタフェイス700には、「文書切替え」というタイトルが表記されており、ディスプレイ108に画像表示した類似文書がユーザが求める文書に近いことを示すための「近い」操作ボタン703と、ディスプレイ108に画像表示した類似文書がユーザが求める文書から遠いことを示すための「遠い」操作ボタン704とが設定されている。たとえばマウス111により「近い」操作ボタン703をクリックした場合は、検索結果である各類似文書がユーザが求めるものに近いものであることを示すため、RAM103あるいはHD105に記憶された次の類似文書の画像表示に切替えることを促す信号をたとえばCPU101を介し類似文書出力部304に出力する。たとえばマウス111により「遠い」操作ボタン704をクリックした場合は、検索結果である各類似文書がユーザが求めるものから遠いものであることを示すため、検索条件を再設定して新たな類似文書の検索を行うことを促す信号をたとえばCPU101を介し文書選出部302に出力する。
FIG. 7 is an explanatory diagram for explaining a specific example of the document switching
なお、ディスプレイ108には、類似文書出力部304により画像表示した類似文書がユーザの求める類似文書として十分に満足度が高い(すなわち正解)か否かを特定する特定インタフェイス(図示省略)をたとえばツールバーなどに表示することも可能である。特定インタフェイスには、たとえば肯定ボタンと否定ボタンが設定される。
The
一方、元文書指定部301と、文書選出部302と、文書データベース303(303A)と、類似文書出力部304と、文書切替え指示部305とを構成する場合、各々に上記専用のプログラムを用いることなく、たとえばロジックICやロジックカード等を用いて構成してもよいことは勿論である。
On the other hand, when the original
(文書検索プログラム)
図8は、本実施の形態にかかる文書検索プログラムの処理を示すフローチャートである。まずステップS801(元文書指定工程:元文書指定プログラム:元文書指定部301の起動)において、たとえばRAM103あるいはHD105などに記憶された検索元となる所定の文書(元文書)を特定する。ステップS802(文書選出工程:文書選出プログラム:文書選出部302の起動)において、元文書から所定の一部分として、たとえば300文字分の最初の領域(たとえば領域Ta、図4参照)を特定する。ステップS803(文書選出工程:文書選出プログラム:文書選出部302の起動)(類似文書再選出工程)において、特定した領域(たとえば領域Ta)を基に検索条件を生成(設定)して、たとえばサーバコンピュータ202にアクセスし該検索条件に基づいて文書データベース303Aから類似文書を検索させる。検索条件の設定に際しては、特定した文書中のキーワードを抽出することで行う。そして、検索結果である一または複数の類似文書のデータをサーバコンピュータ202から取得すると、類似文書のデータをRAM103あるいはHD105などに記憶する。続いてステップS804(類似文書出力工程:類似文書出力プログラム:類似文書出力部304の起動)において、今回の検索結果である各類似文書のうち最初の類似文書をRAM103あるいはHD105から読み出してディスプレイ108に画像表示する。
(Document search program)
FIG. 8 is a flowchart showing the processing of the document search program according to this embodiment. First, in step S801 (original document specifying step: original document specifying program: starting the original document specifying unit 301), for example, a predetermined document (original document) serving as a search source stored in the
しかる後、ステップS805において、類似文書出力部304により画像表示した類似文書がユーザの求める類似文書として十分に満足度が高い(すなわち正解)か否かを特定する特定インタフェイス(図示省略)の肯定ボタンあるいは否定ボタンがたとえばマウス111によりクリックされたか否かを判定する。特定インタフェイスの肯定ボタンがクリックされた場合(ステップS805:Yes)は、本フローを終了するが、否定ボタンがクリックされた場合(ステップS805:No)は、ステップS806(選択指定工程:文書切替え指示プログラム:文書切替え指示部305の起動)において、指定インタフェイス700の「近い」操作ボタン703がたとえばマウス111によりクリックされたか否かを判定する。
Thereafter, in step S805, an affirmation of a specific interface (not shown) for specifying whether or not the similar document displayed by the similar
「近い」操作ボタン703がクリックされたことを判定した場合(ステップS806:Yes)は、ステップS807(類似文書出力工程:類似文書出力プログラム:類似文書出力部304の起動)において、今回の検索結果である各類似文書のうち次の類似文書をRAM103あるいはHD105から読み出してディスプレイ108に画像表示した後、ステップS805に移行する。しかし、「近い」操作ボタン703がクリックされず、「遠い」操作ボタン704がクリックされたことを判定した場合(ステップS806:No)は、ステップS802(類似文書再選出工程)に移行する。ただし、この場合、ステップS802においては、元文書から新たな領域を特定すべく、たとえばRAM103に記憶された上記領域Taに係るデータに基づいて、元文書から該領域Taに後続する所定の領域(たとえば同数の300文字分:図5参照)Tbを再特定することになり、以下この処理に移行する場合は、順次後続の領域が再特定(類似文書再選出工程)されるものとなる。また、ステップS803(類似文書再選出工程)においても、再特定した領域(たとえば領域Tbなど)を基に検索条件を再生成(再設定)して、たとえばサーバコンピュータ202に再度アクセスし該検索条件の再設定に基づいて文書データベース303Aから新たな類似文書を検索させることになる。
If it is determined that the “close”
本実施の形態においては、元文書を指定すると、元文書から所定の一部分として、たとえば300文字分の所定の領域を特定して、該領域内の文書中のキーワードを抽出することで検索条件を自動設定し類似文書を検索するように構成したため、ユーザは元文書を指定するだけで類似文書を選出することが可能であり、操作性が極めて簡便で非常に利便性に優れるものである。また、検索条件の設定に際しても複雑な処理や膨大な処理を必要とせず、検索時間の短縮化が容易であり、この観点からも使い勝手がよく利便性に優れる効果がある。一方、類似文書の選出が不満足の結果である場合、指定インタフェイス700の「遠い」操作ボタン704をクリックするだけで、元文書から次の領域を特定して検索条件を自動的に再設定し、かつ新たな類似文書の再検索を自動的に行うことが可能であるので、ユーザは検索条件の設定に苦慮する必要がなく、極めて簡便に満足度の高い類似文書の選出を得ることが可能であり、高い利便性とともに優れた信頼性を得ることが可能である。
In the present embodiment, when an original document is specified, a predetermined area of, for example, 300 characters is specified as a predetermined part from the original document, and a keyword in the document in the area is extracted to satisfy the search condition. Since it is configured to automatically search and search for similar documents, the user can select a similar document simply by specifying the original document, and the operability is extremely simple and very convenient. In addition, complicated processing and enormous processing are not required when setting the search conditions, and the search time can be easily shortened. From this viewpoint, there is an advantage in convenience and convenience. On the other hand, if the selection of similar documents is unsatisfactory, simply clicking the “distant”
なお、本実施の形態で説明した文書検索プログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVD等のコンピュータで読み取り可能な記録媒体に記録されるが、特にフレキシブルディスク、CD−ROM、MO、DVD等の記録媒体に記録することで一般に配布することが可能であり、あるいはインターネットなどのネットワーク(伝送媒体)を介して一般に配布することも可能である。 The document search program described in this embodiment is recorded on a computer-readable recording medium such as a hard disk, a flexible disk, a CD-ROM, an MO, and a DVD. In particular, the flexible disk, the CD-ROM, and the MO are recorded. It can be generally distributed by recording on a recording medium such as a DVD, or can be generally distributed via a network (transmission medium) such as the Internet.
以上のように、本発明にかかる文書検索装置、文書検索方法、文書検索プログラム、および記録媒体は、膨大な数の文書検索に有用であり、特に各分野の書籍、雑誌、新聞や特許文献、あるいはホームページなどの検索に適している。 As described above, the document search device, the document search method, the document search program, and the recording medium according to the present invention are useful for searching an enormous number of documents, and in particular, books, magazines, newspapers and patent documents in various fields, Or it is suitable for searching homepages.
100 文書検索装置
101 CPU
102 ROM
103 RAM
104 HDD
105 HD
106 FDD
107 FD
108 ディスプレイ
109 I/F
110 キーボード
111 マウス
112 スキャナ
113 プリンタ
114 バス
201 ネットワーク
202 サーバコンピュータ
203 端末装置
301 元文書指定部
302 文書選出部
303,303A 文書データベース
304 類似文書出力部
305 文書切替え指示部
Ta,Tb,Tc 領域
700 操作ウインドウ(指定インタフェイス)
703 「近い」操作ボタン
704 「遠い」操作ボタン
100
102 ROM
103 RAM
104 HDD
105 HD
106 FDD
107 FD
108 Display 109 I / F
DESCRIPTION OF
703 “near”
Claims (8)
検索対象となる文書を指定する文書指定部と、
前記文書指定部の指定に応じて、前記指定された文書の予め決められた所定の行数もしくは文字数分を選出領域として特定し、該選出領域に含まれるキーワードに基づいて検索条件を生成し、該検索条件で前記文書データベースに記憶される複数の文書を検索し、類似すると判定された類似文書を選出する文書選出部と、
前記選出された類似文書を検索結果として出力する類似文書出力部と、
前記類似文書が検索結果として出力された後に、前記文書選出部に前記検索条件とは異なる検索条件で検索をすることを要求する文書切り替え指示部と、を備え、
前記文書選出部は、前記文書切り替え指示部からの検索要求に応じて、前記選出領域に基づいて、該選出領域に後続する前記予め決められた所定の行数もしくは文字数分を前記指定された文書の新たな選出領域として再特定し、該新たな選出領域に基づいて検索条件を生成し、該検索条件で再検索し類似文書を選出し直すことを特徴とする文書検索装置。 A document database for storing multiple documents;
A document designating part for designating a document to be searched;
In accordance with the designation of the document designation unit, the predetermined number of lines or the number of characters of the designated document is specified as a selection area, and a search condition is generated based on a keyword included in the selection area, A document selection unit that searches a plurality of documents stored in the document database under the search condition and selects similar documents determined to be similar;
A similar document output unit for outputting the selected similar document as a search result;
A document switching instruction unit that requests the document selection unit to perform a search under a search condition different from the search condition after the similar document is output as a search result;
In response to a search request from the document switching instruction unit, the document selection unit determines the predetermined number of lines or characters following the selection region based on the selection region as the designated document. A document search apparatus characterized by re-specifying as a new selection area, generating a search condition based on the new selection area, re-searching with the search condition, and selecting a similar document again .
前記文書切り替え指示部は、前記「近い」操作入力時には、前記検索の要求は行わずに、画像表示されていない前記類似文書のうち所定の数の類似文書を画像表示することを前記文書画像表示部に要求することを特徴とする請求項2に記載の文書検索装置。The document switching instructing unit displays the document image by displaying a predetermined number of similar documents among the similar documents not displayed as an image without requesting the search when the “close” operation is input. The document retrieval apparatus according to claim 2, wherein the document retrieval apparatus requests the section.
検索対象となる文書をユーザにより指定する文書指定工程と、 A document designating process in which a user designates a document to be searched;
前記文書指定工程の指定に応じて、前記指定された文書の予め決められた所定の行数もしくは文字数分を選出領域として特定し、該選出領域に含まれるキーワードに基づいて検索条件を生成し、該検索条件で文書データベースに記憶される複数の文書を検索し、類似すると判定された類似文書を文書選出部により選出する文書選出工程と、 In accordance with the designation of the document designation step, the predetermined number of lines or the number of characters of the designated document is specified as the selection area, and a search condition is generated based on the keyword included in the selection area, A document selection step of searching a plurality of documents stored in the document database under the search condition and selecting a similar document determined to be similar by a document selection unit;
前記選出された類似文書を類似文書出力部から検索結果として出力する類似文書出力工程と、 A similar document output step of outputting the selected similar document as a search result from the similar document output unit;
前記類似文書が検索結果として出力された後に、前記検索条件とは異なる検索条件で検索をすることを文書切り替え支持部により要求する文書切り替え指示工程と、を含み、 A document switching instruction step for requesting the document switching support unit to perform a search under a search condition different from the search condition after the similar document is output as a search result,
前記文書選出工程は、前記文書切り替え指示工程の検索要求に応じて、前記選出領域に基づいて、該選出領域に後続する前記予め決められた所定の行数もしくは文字数分を前記指定された文書の新たな選出領域として再特定し、該新たな選出領域に基づいて検索条件を生成し、該検索条件で再検索し類似文書を選出し直すことを特徴とする文書検索方法。 In the document selection step, in response to a search request in the document switching instruction step, based on the selection area, the predetermined number of lines or characters following the selection area is determined for the designated document. A document search method characterized by respecifying as a new selection area, generating a search condition based on the new selection area, re-searching with the search condition, and selecting a similar document again.
前記文書切り替え指示工程は、前記「近い」操作入力時には、前記検索の要求は行わずに、画像表示されていない前記類似文書のうち所定の数の類似文書を画像表示することを前記文書画像表示工程に要求することを特徴とする請求項5に記載の文書検索方法。In the document switching instruction step, when the “near” operation is input, the search request is not performed, and a predetermined number of similar documents among the similar documents that are not displayed are displayed as images. 6. The document retrieval method according to claim 5, wherein the process is requested.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003329205A JP4344207B2 (en) | 2003-09-19 | 2003-09-19 | Document search device, document search method, document search program, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003329205A JP4344207B2 (en) | 2003-09-19 | 2003-09-19 | Document search device, document search method, document search program, and recording medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005092824A JP2005092824A (en) | 2005-04-07 |
JP4344207B2 true JP4344207B2 (en) | 2009-10-14 |
Family
ID=34458511
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003329205A Expired - Fee Related JP4344207B2 (en) | 2003-09-19 | 2003-09-19 | Document search device, document search method, document search program, and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4344207B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4857448B2 (en) * | 2006-03-10 | 2012-01-18 | 独立行政法人情報通信研究機構 | Information retrieval apparatus and program using multiple meanings |
JP5373439B2 (en) * | 2009-03-09 | 2013-12-18 | 株式会社野村総合研究所 | Copyright comparison system |
WO2016147220A1 (en) * | 2015-03-18 | 2016-09-22 | 日本電気株式会社 | Text visualization system, text visualization method, and recording medium |
-
2003
- 2003-09-19 JP JP2003329205A patent/JP4344207B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2005092824A (en) | 2005-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7769771B2 (en) | Searching a document using relevance feedback | |
JP2007286864A (en) | Image processor, image processing method, program, and recording medium | |
JP2007317034A (en) | Image processing apparatus, image processing method, program, and recording medium | |
JP5284030B2 (en) | Search condition specifying device, search condition specifying method and program | |
JP4682030B2 (en) | Graphic search program, recording medium recording the program, graphic search device, and graphic search method | |
JP2006285656A (en) | Document search system, recording medium, program and document search method | |
JP2008040753A (en) | Image processor and method, program and recording medium | |
JP2009069875A (en) | Content retrieval device, content retrieval method, program and recording medium | |
JP2007080109A (en) | Data display apparatus, data display method, and program for implementing the method using computer | |
JP4344207B2 (en) | Document search device, document search method, document search program, and recording medium | |
JP5640700B2 (en) | Information search device, search input method, and search input program | |
JP3500893B2 (en) | Information processing apparatus and information processing method | |
Wei et al. | Assisted human-in-the-loop adaptation of Web pages for mobile devices | |
JPH10162024A (en) | Electronic filing method and electronic filing device | |
JPH1139338A (en) | Document retrieval device and method therefor and medium recording program for document retrieval | |
JP2000322439A (en) | Information retrieving device and storage medium storing information retrieval program | |
JP6282051B2 (en) | Data processing apparatus, data processing method, and program | |
JP2006163645A (en) | Method, device and program for retrieving information, computer readable recording medium and device recorded with the program | |
JP4574186B2 (en) | Important language identification method, important language identification program, important language identification device, document search device, and keyword extraction device | |
JP3498635B2 (en) | Information retrieval method and apparatus, and computer-readable recording medium | |
JP2006039938A (en) | Selection item display device, selection item display method, and selection item display program | |
JP2001092842A (en) | Information retrieval method and recording medium recording retrieval program | |
JP2023019209A (en) | Information processing apparatus and program | |
JP2000132555A (en) | Keyword retrieval method and device therefor, and recording medium recording keyword retrieval program | |
JP2009129103A (en) | Information retrieval device and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060615 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090309 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090317 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090518 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090707 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090710 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120717 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120717 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130717 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |