JP2005352878A - Document retrieval system, retrieval server and retrieval client - Google Patents
Document retrieval system, retrieval server and retrieval client Download PDFInfo
- Publication number
- JP2005352878A JP2005352878A JP2004174363A JP2004174363A JP2005352878A JP 2005352878 A JP2005352878 A JP 2005352878A JP 2004174363 A JP2004174363 A JP 2004174363A JP 2004174363 A JP2004174363 A JP 2004174363A JP 2005352878 A JP2005352878 A JP 2005352878A
- Authority
- JP
- Japan
- Prior art keywords
- search
- document
- indexes
- index
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、文書検索システムに関し、特に検索結果を複数の視点から概観表示する連想検索システムに関する。 The present invention relates to a document search system, and more particularly to an associative search system that displays search results from a plurality of viewpoints.
コンピュータやインターネットの普及にともない、文書情報の電子化が急速に進んでいる。入手可能な情報が増加するにつれ、その中から必要な情報を探し出すことが重要な課題となってくる。また、複数の文書データベース間での文書群の関連性を調べたいという要求も高まっている。例えば、興味のある新聞記事に対して、それに関連する百科事典の項目を検索したいという要求は多い。 With the spread of computers and the Internet, the digitization of document information is progressing rapidly. As the available information increases, it becomes an important issue to search for necessary information. In addition, there is an increasing demand for examining the relationship between document groups among a plurality of document databases. For example, there are many requests to search for articles of encyclopedia related to newspaper articles of interest.
現在実用となっているキーワード検索では、複数の文書データベースを切り替えて検索することは可能であるが、ある文書データベースに含まれる文書群に対して、それに関連する文書群を、同一文書データベース、あるいは、別の文書データベースから検索すること(文書連想検索と呼ばれる検索方式)は不可能である。 In keyword search that is currently in practical use, it is possible to search by switching between multiple document databases. However, for a document group included in a document database, a related document group is assigned to the same document database, or It is impossible to search from another document database (search method called document associative search).
同一文書データベース内に限れば、文書間の関連度をあらかじめ計算しておくことで、文書群を検索入力とした文書連想検索を実現することはできる。しかし、複数の文書データベースに対しては、あらかじめ計算すべき文書間の関連度が文書データベース数の増加にともなって組み合わせ数が爆発的に増加するため、現実的には不可能となっている。 If it is limited to the same document database, it is possible to realize a document associative search using a document group as a search input by calculating the degree of association between documents in advance. However, for a plurality of document databases, the degree of association between documents to be calculated in advance increases as the number of document databases increases.
これに対して、特開2000−155758号公報「複数文書データベースを対象とした文書検索方法及び文書検索サービス」には、利用者が指定した文書データベース中の任意の文書群に対して、その文書群に関連する文書群を任意の文書データベースから効率良く検索する方法が開示されている。この方法では、文書群として入力された検索入力内の特徴的な単語のみを使うことで、高速な文書連想検索を実現している。この方法により、利用者は複数の異なる種類の文書データベースを切り替えながら、文書群の関連性を調べることで、高精度かつ効率の良い文書検索を行なうことが可能となる。また、この方法では、検索結果として得られた文書群に出現する特徴的な単語を抽出し、それらを検索結果の概観(要約)として利用者に提示することで、利用者が検索結果の可否を判断する際の支援手段も提供している。 On the other hand, Japanese Patent Laid-Open No. 2000-155758, “Document Search Method and Document Search Service Targeting Multiple Document Databases”, describes an arbitrary document group in a document database designated by a user for the document. A method for efficiently retrieving a document group related to a group from an arbitrary document database is disclosed. This method realizes a high-speed document associative search by using only characteristic words in the search input inputted as a document group. With this method, the user can perform highly accurate and efficient document search by checking the relationship between document groups while switching between a plurality of different types of document databases. In this method, characteristic words appearing in the document group obtained as a search result are extracted and presented to the user as an overview (summary) of the search result. It also provides a support means when judging.
単語に基づく文書検索では、文書中に出現する単語でその文書のインデックス付けを行ない、文書検索を実現している。特開2000−155758号公報で開示されている方法でも同様であり、文書から特徴的な単語を抽出するために、その文書に含まれている単語について統計的尺度(tf*idf法などが代表的)を用いてその重要度を計算し、重要度の高い順に単語を抽出している。インデックス付けは、ひとつの文書データベースに対して一通りの方法で行なうのが一般的である。しかし、専門用語(生物医学分野では、疾患名、遺伝子名、タンパク質名など)やファクト情報(例えば、生物医学分野ではタンパク質間相互作用など)は、一般の単語分布中に埋没してしまうため、特徴単語として抽出されにくくなってしまう。また、インデックス付けが一通りだと、検索結果の概観として表示されるのは、ひとつの視点に限定されたものになるため、その視点が利用者の検索要求や興味に合致していない場合には、適切な概観表示とはなり得ない。 In document retrieval based on words, the documents are indexed by using words appearing in the document to realize document retrieval. The same is true for the method disclosed in Japanese Patent Laid-Open No. 2000-155758, and in order to extract characteristic words from a document, a statistical measure (such as the tf * idf method) is used for the words included in the document. The degree of importance is calculated by using (a), and words are extracted in descending order of importance. In general, indexing is performed on a single document database in one way. However, technical terms (such as disease names, gene names, and protein names in the biomedical field) and fact information (for example, protein-protein interactions in the biomedical field) are buried in the general word distribution. It becomes difficult to be extracted as a feature word. In addition, when indexing is complete, the search result overview is limited to one viewpoint, so if that viewpoint does not match the user's search request or interest Cannot be an appropriate overview display.
本発明は上記現状を鑑み、利用者の興味に合致した複数の視点から検索結果を概観表示する文書検索システムを提供することを目的とする。 An object of the present invention is to provide a document search system that displays an overview of search results from a plurality of viewpoints that match a user's interest.
上記課題を解決するために、本発明では、ひとつの文書データベースに対して、複数通りのインデックス付けを行なうことで、検索結果を複数視点から概観表示できるようにする。 In order to solve the above-described problems, in the present invention, a search result can be displayed in an overview from a plurality of viewpoints by indexing a single document database in a plurality of ways.
例えば、ひとつの文書データベースに対して、通常の単語によるインデックス付け、専門用語によるインデックス付け、ファクト情報によるインデックス付けを行なう。それぞれのインデックス付けされた文書データベースの対応をとるために、各文書を共通の識別子によって管理し、ある文書からの概略を、それぞれのインデックスを用いて作成できるようにする。 For example, one word database is indexed with ordinary words, indexed with technical terms, and indexed with fact information. In order to correspond to each indexed document database, each document is managed by a common identifier so that an outline from a document can be created using each index.
本発明の文書検索システムは、検索要求を入力する入力部、検索された文書群を表示する検索結果表示部、及び検索された文書群の概略を表示する概略表示部を備える検索クライアントと、インデックス付けされた複数の文書を格納した文書データベース、受信した検索要求に対して関連度の高い文書を前記文書データベースから検索する検索部、及び与えられた文書群に対して前記インデックスを用いて概略を作成する概略作成部を備える検索サーバとを含み、インデックスとして種類の異なる複数のインデックスを備える。 A document search system of the present invention includes a search client including an input unit for inputting a search request, a search result display unit for displaying a searched document group, and a general display unit for displaying an outline of the searched document group, and an index A document database that stores a plurality of attached documents, a search unit that searches the document database for documents that are highly relevant to the received search request, and an outline for a given document group using the index And a search server including a schematic creation unit to be created, and includes a plurality of different types of indexes as indexes.
検索クライアントの概略表示部には、複数の種類の概略が異なる視点毎に区分して表示される。検索結果表示部は、表示された文書群の中から次の検索のキーとなる文書を選択するための文書選択部を有し、概略表示部は、表示された概略の要素の中から次の検索のキーとなる要素を選択するための概略選択部を有する。 On the summary display section of the search client, a plurality of types of summary are displayed separately for each different viewpoint. The search result display unit has a document selection unit for selecting a document to be a key for the next search from the displayed document group, and the schematic display unit displays the next of the displayed schematic elements. It has a rough selection unit for selecting an element that is a key for search.
検索結果として得られた文書集合に対して、複数の視点からの概観表示を見ることによって、利用者はより適切に検索結果の性質を把握できるようになる。また、各視点間の関連を検索対象文書を仲介として捉えることができるため、検索結果の分析をより詳細に行なうことができる。 By viewing the overview display from a plurality of viewpoints with respect to the document set obtained as a search result, the user can more appropriately grasp the nature of the search result. Further, since the relationship between the viewpoints can be regarded as a search target document, the search result can be analyzed in more detail.
以下、図面を参照して本発明の実施の形態を説明する。 Embodiments of the present invention will be described below with reference to the drawings.
図1は、本発明を実現するためのシステムの構成例を示す概略図である。このシステムは、利用者が検索要求を入力したり、検索結果を表示したりする検索クライアント20、文書データベースを検索するための検索サーバ40、50、60、検索クライアント20と検索サーバ40、50、60の仲介をする連想検索サーバ30を通信ネットワーク10により接続して構成される。図に示した例では、文書データベースを検索するための検索サーバとして3つの検索サーバが通信ネットワークに接続されているが、通信ネットワークに接続される検索サーバの数は任意でよい。検索クライアントの数も任意である。
FIG. 1 is a schematic diagram showing a configuration example of a system for realizing the present invention. This system includes a
検索サーバ40、50、60の備える検索手段402、502、602は、連想検索サーバから送られてきた検索要求に対して、関連度の高い文書群を文書データベース403、503、603から検索し、その検索結果を関連度の重み付きで連想検索サーバ30に返す。ここでの検索手段は、例えば、公知のキーワード検索手法により実現できる。
The search means 402, 502, 602 provided in the
キーワード検索手法では、検索処理の効率を上げるために、文書データベースに含まれる文書を単語に分割し(日本語の文書に対しては形態素解析、英語の文書に対してはstemming処理を行なう)、どの文書にどの単語が含まれるかをインデックスとして作成しておく。検索実行時には、作成されたインデックスが主記憶に読み込まれるため、検索処理を高速に実行できる。図1においては、検索サーバ40、50、60が有する文書データベース403、503、603のそれぞれに対してインデックス404、504、604を作成し、検索処理に利用する。
In the keyword search method, in order to increase the efficiency of the search process, the document contained in the document database is divided into words (morphological analysis is performed for Japanese documents, and stemming processing is performed for English documents) Which word is included in which document is created as an index. When the search is executed, the created index is read into the main memory, so that the search process can be executed at high speed. In FIG. 1,
検索サーバ40、50、60の備える概略作成手段401、501、601は、文書データベース403、503、603から検索された文書群の概略を作成する。ここで概略とは、文書群の内容をよく表わす単語集合のことである。概略作成手段としては、特開2000−155758号公報などの既存手法が利用できる。概略作成時にも、上記インデックスを利用する。すなわち、ある文書にどの単語が含まれているかを、インデックスを参照して調べるわけである。
The outline creation means 401, 501, and 601 included in the
一例を示すと、まず、概略を作成しようとする文書群中の全文書に含まれる単語の頻度集計をする。一般に、ある文書群で良く現れる単語ほどその文書群を代表する度合も高いため、文書群中で出現頻度が高いほど概略に含まれやすいことになる。ただし、「する」などのように、どの文書にも良く現れるような一般的な単語は概略単語としては適当ではない。よって、通常は、文書群が属する文書データベース中での出現頻度も考慮して概略単語を選択する。つまり、指定された文書群での出現頻度が高く、かつ、文書データベース全体での総出現頻度が低い単語ほど、その文書群中でしか現れないという意味で特徴的な単語であり、その文書群を特徴付ける概略として適切である。具体的には、文書群中のそれぞれの単語について、文書群中での出現頻度、文書データベース中での出現頻度を入力とする適当な関数により単語の重みを計算し、ある閾値以上の重みを持つ単語を概略として採用する。 As an example, first, the frequency of words included in all the documents in the document group to be outlined is totaled. In general, the more frequently a word appears in a document group, the higher the degree of representation of the document group. Therefore, the higher the frequency of appearance in the document group, the easier it is to be included in the outline. However, general words that frequently appear in any document, such as “do”, are not suitable as approximate words. Therefore, generally, an approximate word is selected in consideration of the appearance frequency in the document database to which the document group belongs. That is, a word having a higher appearance frequency in a specified document group and a lower total appearance frequency in the entire document database is a characteristic word in the sense that it appears only in the document group. It is suitable as an outline to characterize. Specifically, for each word in the document group, the weight of the word is calculated by an appropriate function that inputs the appearance frequency in the document group and the appearance frequency in the document database. Adopt the word you have as an outline.
検索クライアント20は、検索要求入力手段201、検索結果表示手段202、概略表示手段203を備える。
The
図2は検索クライアントにおける初期画面の例を示す図である。利用者は検索要求入力エリア2011に検索要求を入力し、検索指示ボタン2012をクリックすることで検索を行なう。
FIG. 2 is a diagram illustrating an example of an initial screen in the search client. A user inputs a search request in the search
図3は検索クライアントにおける検索結果の例を示す図である。検索結果は検索結果表示手段202によって表示され、検索結果の概略が概略表示手段203によって表示される。検索結果表示手段202は文書群指定手段も兼ねており、文書選択チェックボックス2021により、任意個の記事を選択し、連想検索指示ボタン2001をクリックすることで、選択した記事と関連する文書を検索することができる。概略表示手段203は単語群指定手段も兼ねており、単語選択チェックボックス2031、2032により、任意個の単語を選択し、連想検索指示ボタン2001をクリックすることで、概略単語からの検索を行なうことができる。
FIG. 3 is a diagram illustrating an example of a search result in the search client. The search result is displayed by the search
連想検索サーバ30は、検索クライアント20から送られてくる検索要求を解析する検索要求解析手段301、検索クライアント20から送られてくる検索要求を、検索サーバ40、50、60に振り分ける機能を持つ検索要求発行手段302、文書群に対する概略単語を検索サーバ40、50、60に要求する概略単語要求手段303を備える。
The
検索要求解析手段301は、検索クライアント20から送られてくる検索要求を解析してその中に含まれる単語を同定し検索キーを作成する。検索要求解析手段301は任意のものであってよいが、日本語文に関しては文を単語に分割する形態素解析、英文に対しては単語の原形還元と品詞付けを行なうstemming処理を最低含んで構成される。
The search
検索要求発行手段302に送られてくる検索要求としては、(1)検索要求解析手段301によって作成された単語集合、(2)検索クライアント20が備える検索結果表示手段(文書群指定手段)から送られてくる文書IDの集合、あるいは(3)検索クライアント20が備える概略表示手段(単語群指定手段)203から送られてくる単語集合、である。検索要求が(1)と(3)の場合、その単語集合を検索要求として検索サーバに送る。検索要求が(2)の場合、概略単語要求手段303が検索サーバに対して、その文書IDの集合に対応する文書群の概略を要求し、送られてきた概略単語集合を検索要求として検索サーバに送る。検索要求発行手段302がどの検索サーバに検索要求を送るかは、各検索サーバが保持するインデックスの内容に応じて異なるため、後述の例を用いてその動作を示す。
The search request sent to the search
従来の連想検索システムでは、ひとつの文書データベースに対しては、ひとつの視点からのインデックス付けのみが行なわれていた。本発明では、ひとつの文書データベースに対して、複数の視点からのインデックス付けを行なうことで、利用者の利便性を高めることを目的としている。このことを実現するために、必要な要件は、(1)複数の視点からのインデックス作成すること、(2)複数の、インデックス付き文書データベースに含まれる同一の文書を共通識別子で管理すること、である。同一文書を共通識別子で管理することによって、検索結果として得られた文書集合のそれぞれのインデックス間における同一性が保持できるため、それぞれの視点から同じ文書集合に対して概略単語を作成することができる。 In the conventional associative search system, only one indexing is performed on one document database. An object of the present invention is to improve user convenience by indexing a single document database from a plurality of viewpoints. In order to realize this, the necessary requirements are (1) index creation from a plurality of viewpoints, (2) management of the same document included in a plurality of indexed document databases with a common identifier, It is. By managing the same document with a common identifier, it is possible to maintain the sameness between the indexes of the document set obtained as a search result, so that approximate words can be created for the same document set from each viewpoint. .
図4、図5、図6は、ひとつの文書データベースベースに対し、複数の視点からのインデックス付けを行なった場合のインデックスの例である。 4, 5, and 6 are examples of indexes when indexing from a plurality of viewpoints is performed on one document database base.
図4は、文書IDが12345である文書のインデックスを、一般語、タンパク質名、タンパク質間相互作用で行なった例である。インデックス列の各単語の前の数字は、その単語がその文書で出現する頻度である。図5は、文書IDが12345である文書のインデックスを、タンパク質名で行なった例である。図6は、文書IDが12345である文書のインデックスをタンパク質間相互作用で行なった例である。上記要件(2)を満たすために、それぞれのインデックス付けにおいて共通の文書ID「12345」を用いている。それぞれの視点でのインデックスの作成方法は任意でよいが、現実的には、一つのインデックスが、他の複数のインデックスを包含しているように作成するのが便利である。上記の例では、図4のインデックスが図5、図6のインデックスを包含している。こうすることにより、上述した検索要求発行手段302に送られてくる検索要求はすべて検索サーバ40に送ればよいことになる。検索サーバ50、60は検索結果に対する概略作成時にのみ用いられる。
FIG. 4 is an example in which the index of the document with the
図3は、図4、図5、図6のインデックスを用いて連想検索を行なった例を示す図である。検索結果として、記事タイトルが表示されている。また、検索結果の概略として、これらの記事に含まれるタンパク質名とタンパク質間相互作用が表示されている。 FIG. 3 is a diagram illustrating an example in which an associative search is performed using the indexes of FIGS. 4, 5, and 6. The article title is displayed as a search result. In addition, as an outline of the search results, protein names and protein-protein interactions included in these articles are displayed.
以下、図7と図8のシーケンス図を用いて処理の流れを説明する。説明のため、検索サーバ40、50、60に備えられた文書データベース403、503、603のインデックス404、504、604を、それぞれ図4、図5、図6のように作成するとする。このようなインデックス付けを行なった場合、検索要求発行手段302の動作は以下のようになる。利用者が入力した検索要求に対しては、検索要求発行手段302は、検索サーバ40に対して検索要求を発行する。検索サーバ40から得られた検索結果に対する概略単語を作成するときには、検索サーバ50、60に対して概略単語要求手段303が概略単語の作成要求を発行する。利用者が文書群を指定して、文書群からの再検索を実行する場合には、検索サーバ40に対して検索要求を発行する。利用者が単語群を指定して、単語群からの再検索を実行する場合には、検索サーバ40に対して検索要求を発行する。このように、検索はすべて検索サーバ40で行う。検索サーバ50、60は検索結果の概略単語を作成するときだけ使う。「タンパク質名」「タンパク質相互作用」の両方の単語を指定した場合でも、検索サーバ40は、検索サーバ50、60のインデックスを包含しているので、問題なく動作する。
Hereinafter, the flow of processing will be described with reference to the sequence diagrams of FIGS. For the sake of explanation, it is assumed that the
次に処理の流れを、図7のシーケンス図を用いて説明する。利用者は検索クライアント20の検索要求入力手段201を用いて、検索要求を入力する。入力された検索要求は連想検索サーバに送信される(T11)。連想検索サーバ30の検索要求解析手段301は検索要求を解析し、検索サーバに送信するための検索要求を作成する。検索要求発行手段302により検索要求が検索サーバ40に送信される(T12)。検索サーバ40の検索手段402は、インデックス404を用いて文書データベース403を検索し、その結果を連想検索サーバ30に送信する(T13)。連想検索サーバ30の概略単語要求手段303は、得られた検索結果の概略を作成するための、概略の作成要求を検索サーバ50と検索サーバ60に送信する(T14,T16)。検索サーバ50と検索サーバ60の概略単語作成手段501、601は、それぞれインデックス504、604を利用して概略単語を作成する。この例の場合、概略単語作成手段501は、タンパク質名で構成される概略単語を作成し、概略単語作成手段601は、タンパク質間相互作用で構成される概略単語を作成する。それぞれの概略単語作成手段で作成された概略単語は、連想検索サーバ30に送信される(T15,T17)。最後に、検索結果と概略単語が連想検索サーバ30から検索クライアント20に送信され(T18)、検索クライアント20の検索結果表示手段202と概略表示手段203によって利用者に提示される。
Next, the flow of processing will be described with reference to the sequence diagram of FIG. The user uses the search request input means 201 of the
次に、図8のシーケンス図を用いて説明する。このシーケンス図は、検索結果として得られた文書やその概略単語から再検索を行なう場合の処理の流れを示している。 Next, description will be made with reference to the sequence diagram of FIG. This sequence diagram shows the flow of processing when a search is performed again from a document obtained as a search result or its approximate word.
始めに検索結果として得られた文書から再検索を行う場合について説明する。利用者は、検索クライアント20の文書群指定手段202を用いて、再検索のキーとなる文書を選択する。選択された文書の識別子は連想検索サーバ30に送信される(T21)。連想検索サーバ30の概略単語要求手段303は、選択された文書の概略を作成するための、概略の作成要求を検索サーバ40に送信する(T22)。検索サーバ40の概略単語作成手段401は、インデックス404を利用して概略単語を作成する。すなわち、前述のように、特開2000−155758号公報などと同じ手法で、統計的に重要な単語を選択して概略単語を作成する。作成された概略単語は、連想検索サーバ30に送信される(T23)。
First, a case where re-searching is performed from a document obtained as a search result will be described. The user uses the document group specifying means 202 of the
利用者が文書のみから再検索を実行する場合は、連想検索サーバ30の検索要求発行手段302により、得られた概略単語が検索サーバ40に送信される(T25)。検索サーバ40の検索手段402は、インデックス404を用いて文書データベース403を検索し、その結果を連想検索サーバ30に送信する(T26)。以降の処理は図7のシーケンス図における概略単語作成手段以降の処理と同様である。
When the user performs a search again only from the document, the obtained approximate word is transmitted to the
利用者が概略単語から再検索を行なう場合は、利用者は検索クライアント20の単語群指定手段203を用いて、再検索のキーとなる単語を選択する。このとき、複数視点の単語を同時に指定することも可能である。選択された単語、あるいは単語の識別子は連想検索サーバ30に送信される(T24)。以降の処理は図8のシーケンスにおける検索要求発行手段以降の処理と同様である。
When the user performs a re-search from the approximate word, the user uses the word
ある視点から作成した概略単語を用いて再検索を行なうことにより、その視点と他の視点の関連を、文書データベースを仲介として把握することができる。一例を挙げると、タンパク質名から構成される概略単語を用いて、再検索を行なった場合、選択したタンパク質名に関連する文書が得られ、さらに、選択したタンパク質名に関連するタンパク質名相互作用を知ることができる。このことにより、検索結果を多面的な観点から詳細に分析していくことができるようになる。 By performing a re-search using an approximate word created from a certain viewpoint, the relationship between that viewpoint and another viewpoint can be grasped using the document database as an intermediary. For example, when a re-search is performed using a rough word composed of protein names, a document related to the selected protein name is obtained, and further, the protein name interaction related to the selected protein name is obtained. I can know. As a result, the search result can be analyzed in detail from various viewpoints.
図9は、インデックスとして、タンパク質名と疾患名を用いた場合の例である。上記説明と同様の手順をとることにより、利用者が興味をもつタンパク質名から、そのタンパク質名と関連する疾患名を知ることができる。また、逆に、利用者が興味をもつ疾患名から、その疾患名と関連するタンパク質名を知ることができる。 FIG. 9 shows an example in which a protein name and a disease name are used as indexes. By taking the same procedure as described above, the name of the disease associated with the protein name can be known from the name of the protein that the user is interested in. Conversely, the name of a protein associated with the name of the disease can be obtained from the name of the disease in which the user is interested.
次に、本発明の変形例を、図10を用いて説明する。
実施例1では、どの視点で検索結果の概略を作成するかをあらかじめ固定していた。しかし、あらかじめ複数視点からのインデックスを保持する複数の検索サーバを用意しておき、利用者が自分が利用したい視点を選択することも可能である。図10は、利用者が視点を選択するための初期画面の例である。
Next, a modification of the present invention will be described with reference to FIG.
In the first embodiment, the viewpoint from which the outline of the search result is created is fixed in advance. However, it is also possible to prepare a plurality of search servers that hold indexes from a plurality of viewpoints in advance and select a viewpoint that the user wants to use. FIG. 10 is an example of an initial screen for the user to select a viewpoint.
視点選択手段2013には、視点(view1、view2)として、選択可能な3つの視点(遺伝子“gene”によるインデックス、タンパク質“protein”によるインデックス、タンパク質間相互作用“protein interaction”)が提示されている。利用者は各視点として、どの視点から概観を得たいかを選択する。図10の例では、利用者はview1としてタンパク質“protein”によるインデックス、view2としてタンパク質間相互作用“protein interaction”を選択している。 The viewpoint selection means 2013 presents three selectable viewpoints (index by gene “gene”, index by protein “protein”, protein interaction “protein interaction”) as viewpoints (view1, view2). . The user selects from which viewpoint he wants to get an overview. In the example of FIG. 10, the user has selected the index by the protein “protein” as view1 and the “protein interaction” as view2.
利用者はこの後、検索要求入力エリア2011に検索要求を入力し、検索指示ボタン2012をクリックすることで検索を行なう。以後の処理は実施例1と同様である。
Thereafter, the user inputs a search request in the search
次に、本発明の別の変形例を図11を用いて説明する。
実施例1では、複数視点から作成されたインデックスを別々のサーバが保持していた。すなわち、図4のインデックスを検索サーバ40のインデックス404、図5のインデックスを検索サーバ50のインデックス504、図6のインデックスを検索サーバ60のインデックス604が保持している。しかし、検索サーバは必ずしも複数必要というわけではなく、一つの検索サーバに複数のインデックスを保持させることも可能である。
Next, another modification of the present invention will be described with reference to FIG.
In the first embodiment, different servers hold indexes created from a plurality of viewpoints. That is, the
図11は、一つの検索サーバに複数のインデックスを保持させる場合の構成図である。検索サーバ70が有する文書データベース703に対して、複数視点から作成したインデックスをインデックス704、705、706として保持している。ひとつの検索サーバ内に複数のインデックスを保持する場合、それぞれのインデックスは独立に保持するのが普通である。個々のインデックスは、例えば、縦に文書、横に単語をとった行列形式とすることができる。行列の要素には、その単語がその文書に何回出現するかの出現頻度情報を入れておく。この場合、複数のインデックス(行列)間で、縦軸の文書の同一性を保持する必要があるため、複数のインデックス間で同一の文書は同一の識別子によって管理する。
FIG. 11 is a configuration diagram when a plurality of indexes are held in one search server. In the
実施例1では、連想検索サーバ30が有する検索要求発行手段302が、検索要求のタイプに応じて、どの検索サーバに対して検索要求を発行するかを制御していた。図11のように、検索サーバが一つの場合には、検索要求発行手段302は、検索要求のタイプに応じて、検索サーバ70のどのインデックスを用いて検索するかを制御するようにすればよい。図7、図8のシーケンス図において、検索サーバをすべて同一の検索サーバと見なすことで、実施例1と同様の処理が行なわれる。
In the first embodiment, the search
10:通信ネットワーク
20:検索クライアント
2001:連想検索指示ボタン
201:検索要求入力手段
2011:検索要求入力エリア
2012:検索指示ボタン
2013:視点選択手段
202:検索結果表示手段(文書群指定手段)
2021:文書選択チェックボックス
203:概略表示手段(単語群指定手段)
2031:単語選択チェックボックス
2032:単語選択チェックボックス
30:連想検索サーバ
301:検索要求解析手段
302:検索要求発行手段
303:概略単語要求手段
40:検索サーバ
401:概略作成手段
402:検索手段
403:文書データベース
404:インデックス
50:検索サーバ
501:概略作成手段
502:検索手段
503:文書データベース
504:インデックス
60:検索サーバ
601:概略作成手段
602:検索手段
603:文書データベース
604:インデックス
70:検索サーバ
701:概略作成手段
702:検索手段
703:文書データベース
704:インデックス
705:インデックス
706:インデックス
10: Communication network 20: Search client 2001: Associative search instruction button 201: Search request input means 2011: Search request input area 2012: Search instruction button 2013: Viewpoint selection means 202: Search result display means (document group specification means)
2021: Document selection check box 203: Outline display means (word group designation means)
2031: Word selection check box 2032: Word selection check box 30: Associative search server 301: Search request analysis means 302: Search request issue means 303: Outline word request means 40: Search server 401: Outline creation means 402: Search means 403: Document database 404: Index 50: Search server 501: Outline creation means 502: Search means 503: Document database 504: Index 60: Search server 601: Outline creation means 602: Search means 603: Document database 604: Index 70: Search server 701 : Outline creation means 702: Search means 703: Document database 704: Index 705: Index 706: Index
Claims (8)
インデックス付けされた複数の文書を格納した文書データベース、受信した検索要求に対して関連度の高い文書を前記文書データベースから検索する検索部、及び与えられた文書群に対して前記インデックスを用いて概略を作成する概略作成部を備える検索サーバとを含み、
前記インデックスとして種類の異なる複数のインデックスを備えることを特徴とする文書検索システム。 A search client comprising an input unit for inputting a search request, a search result display unit for displaying a searched document group, and a general display unit for displaying an outline of the searched document group;
A document database storing a plurality of indexed documents, a search unit that searches the document database for documents highly relevant to a received search request, and an outline using the index for a given document group A search server including a schematic creation unit for creating
A document search system comprising a plurality of different types of indexes as the index.
前記文書データベース中の文書に対して異なる視点から付与した複数種類のインデックスと、
受信した検索要求に対して関連度の高い文書を前記文書データベースから検索する検索部と、
与えられた文書群に対して前記インデックスを用いて複数種類の概略を作成する概略作成部とを備え、
前記複数のインデックス間で同一の文書は同一の識別子によって管理されていることを特徴とする検索サーバ。 A document database storing multiple documents;
A plurality of types of indexes assigned from different viewpoints to documents in the document database;
A search unit that searches the document database for documents highly relevant to the received search request;
A summary creation unit for creating a plurality of types of summary using the index for a given document group,
The search server, wherein the same document is managed by the same identifier among the plurality of indexes.
受信した検索結果である文書群を表示する検索結果表示部と、
前記文書群の概略を、複数の異なる視点毎に区分して表示する概略表示部とを備え、
前記検索結果表示部は、表示された文書群の中から次の検索のキーとなる文書を選択するための文書選択部を有し、
前記概略表示部は、表示された概略の要素の中から次の検索のキーとなる要素を選択するための概略選択部を有し、
前記入力部に入力された検索要求、前記文書選択部で選択された文書又は前記概略選択部で選択された概略の要素の情報を検索要求として送信することを特徴とする検索クライアント。 An input part for inputting a search request;
A search result display section for displaying a document group as a received search result;
An outline display unit for displaying an outline of the document group for each of a plurality of different viewpoints;
The search result display unit has a document selection unit for selecting a document to be a key for the next search from the displayed document group,
The schematic display unit includes a schematic selection unit for selecting an element that is a key for the next search from the displayed schematic elements,
A search client, comprising: a search request input to the input unit, a document selected by the document selection unit, or information on a general element selected by the general selection unit as a search request.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004174363A JP2005352878A (en) | 2004-06-11 | 2004-06-11 | Document retrieval system, retrieval server and retrieval client |
US11/036,335 US20050278293A1 (en) | 2004-06-11 | 2005-01-18 | Document retrieval system, search server, and search client |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004174363A JP2005352878A (en) | 2004-06-11 | 2004-06-11 | Document retrieval system, retrieval server and retrieval client |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007285927A Division JP2008102945A (en) | 2007-11-02 | 2007-11-02 | Document retrieval system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005352878A true JP2005352878A (en) | 2005-12-22 |
Family
ID=35461712
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004174363A Withdrawn JP2005352878A (en) | 2004-06-11 | 2004-06-11 | Document retrieval system, retrieval server and retrieval client |
Country Status (2)
Country | Link |
---|---|
US (1) | US20050278293A1 (en) |
JP (1) | JP2005352878A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011227932A (en) * | 2006-03-17 | 2011-11-10 | Proquest-Csa Llc | Method and system to index captioned objects in published literature for information discovery tasks |
JPWO2020250812A1 (en) * | 2019-06-10 | 2020-12-17 |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100573520C (en) * | 2006-08-29 | 2009-12-23 | 国际商业机器公司 | For retrieval is carried out pretreated method and apparatus to a plurality of documents |
US7765195B2 (en) * | 2006-11-07 | 2010-07-27 | Microsoft Corporation | Trimmed and merged search result sets in a versioned data environment |
US8671104B2 (en) | 2007-10-12 | 2014-03-11 | Palo Alto Research Center Incorporated | System and method for providing orientation into digital information |
US8073682B2 (en) | 2007-10-12 | 2011-12-06 | Palo Alto Research Center Incorporated | System and method for prospecting digital information |
US8165985B2 (en) * | 2007-10-12 | 2012-04-24 | Palo Alto Research Center Incorporated | System and method for performing discovery of digital information in a subject area |
US20090287676A1 (en) * | 2008-05-16 | 2009-11-19 | Yahoo! Inc. | Search results with word or phrase index |
US8015146B2 (en) * | 2008-06-16 | 2011-09-06 | Hitachi, Ltd. | Methods and systems for assisting information processing by using storage system |
US20100057577A1 (en) * | 2008-08-28 | 2010-03-04 | Palo Alto Research Center Incorporated | System And Method For Providing Topic-Guided Broadening Of Advertising Targets In Social Indexing |
US20100057536A1 (en) * | 2008-08-28 | 2010-03-04 | Palo Alto Research Center Incorporated | System And Method For Providing Community-Based Advertising Term Disambiguation |
US8010545B2 (en) * | 2008-08-28 | 2011-08-30 | Palo Alto Research Center Incorporated | System and method for providing a topic-directed search |
US8209616B2 (en) * | 2008-08-28 | 2012-06-26 | Palo Alto Research Center Incorporated | System and method for interfacing a web browser widget with social indexing |
US8452769B2 (en) * | 2008-09-19 | 2013-05-28 | International Business Machines Corporation | Context aware search document |
US8549016B2 (en) * | 2008-11-14 | 2013-10-01 | Palo Alto Research Center Incorporated | System and method for providing robust topic identification in social indexes |
US8452781B2 (en) * | 2009-01-27 | 2013-05-28 | Palo Alto Research Center Incorporated | System and method for using banded topic relevance and time for article prioritization |
US8239397B2 (en) * | 2009-01-27 | 2012-08-07 | Palo Alto Research Center Incorporated | System and method for managing user attention by detecting hot and cold topics in social indexes |
US8356044B2 (en) * | 2009-01-27 | 2013-01-15 | Palo Alto Research Center Incorporated | System and method for providing default hierarchical training for social indexing |
US9031944B2 (en) | 2010-04-30 | 2015-05-12 | Palo Alto Research Center Incorporated | System and method for providing multi-core and multi-level topical organization in social indexes |
US9626379B1 (en) * | 2011-09-22 | 2017-04-18 | Amazon Technologies, Inc. | Optimistic commit processing for an offline document repository |
US11763070B2 (en) * | 2013-03-15 | 2023-09-19 | PowerNotes LLC | Method and system for labeling and organizing data for summarizing and referencing content via a communication network |
US12099538B2 (en) * | 2021-10-29 | 2024-09-24 | Galisteo Consulting Group, Inc. | Identifying fringe beliefs from text |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5685003A (en) * | 1992-12-23 | 1997-11-04 | Microsoft Corporation | Method and system for automatically indexing data in a document using a fresh index table |
US6457004B1 (en) * | 1997-07-03 | 2002-09-24 | Hitachi, Ltd. | Document retrieval assisting method, system and service using closely displayed areas for titles and topics |
US6865715B2 (en) * | 1997-09-08 | 2005-03-08 | Fujitsu Limited | Statistical method for extracting, and displaying keywords in forum/message board documents |
JP3696731B2 (en) * | 1998-04-30 | 2005-09-21 | 株式会社日立製作所 | Structured document search method and apparatus, and computer-readable recording medium recording a structured document search program |
GB9821787D0 (en) * | 1998-10-06 | 1998-12-02 | Data Limited | Apparatus for classifying or processing data |
JP3760057B2 (en) * | 1998-11-19 | 2006-03-29 | 株式会社日立製作所 | Document search method and document search service for multiple document databases |
US6751606B1 (en) * | 1998-12-23 | 2004-06-15 | Microsoft Corporation | System for enhancing a query interface |
US6691108B2 (en) * | 1999-12-14 | 2004-02-10 | Nec Corporation | Focused search engine and method |
US20010047353A1 (en) * | 2000-03-30 | 2001-11-29 | Iqbal Talib | Methods and systems for enabling efficient search and retrieval of records from a collection of biological data |
CA2422021A1 (en) * | 2000-09-12 | 2003-03-11 | Institute Of Medicinal Molecular Design, Inc. | Method of generating molecule-function network |
JP4025517B2 (en) * | 2001-05-31 | 2007-12-19 | 株式会社日立製作所 | Document search system and server |
US7162465B2 (en) * | 2001-12-21 | 2007-01-09 | Tor-Kristian Jenssen | System for analyzing occurrences of logical concepts in text documents |
CA2499513A1 (en) * | 2002-09-20 | 2004-04-01 | Board Of Regents, University Of Texas System | Computer program products, systems and methods for information discovery and relational analysis |
JP2004318321A (en) * | 2003-04-14 | 2004-11-11 | Nec Corp | Biological information retrieval system and its method |
JP2004334753A (en) * | 2003-05-12 | 2004-11-25 | Hitachi Ltd | Information retrieval method |
-
2004
- 2004-06-11 JP JP2004174363A patent/JP2005352878A/en not_active Withdrawn
-
2005
- 2005-01-18 US US11/036,335 patent/US20050278293A1/en not_active Abandoned
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011227932A (en) * | 2006-03-17 | 2011-11-10 | Proquest-Csa Llc | Method and system to index captioned objects in published literature for information discovery tasks |
JPWO2020250812A1 (en) * | 2019-06-10 | 2020-12-17 |
Also Published As
Publication number | Publication date |
---|---|
US20050278293A1 (en) | 2005-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2005352878A (en) | Document retrieval system, retrieval server and retrieval client | |
US8046363B2 (en) | System and method for clustering documents | |
US6507837B1 (en) | Tiered and content based database searching | |
JP3655714B2 (en) | Information filtering apparatus and recording medium | |
US8489573B2 (en) | Search engine | |
US20180004850A1 (en) | Method for inputting and processing feature word of file content | |
US7502774B2 (en) | Ring method, apparatus, and computer program product for managing federated search results in a heterogeneous environment | |
JP2007102767A (en) | Information processor | |
JP2000187666A (en) | Related information providing system and taste similarity evaluating system and its method information introducing system and related information obtaining method and recording medium | |
JP4025517B2 (en) | Document search system and server | |
JP3186960B2 (en) | Information retrieval method and apparatus | |
JP2009259039A (en) | Method for retrieving a plurality of databases and meta-search server | |
US7483877B2 (en) | Dynamic comparison of search systems in a controlled environment | |
JP5743938B2 (en) | Associative search system, associative search server, and program | |
JP2009205588A (en) | Page search system and program | |
JP3702268B2 (en) | Information search system, information search method and program | |
WO2000008570A1 (en) | Information access | |
JP5127553B2 (en) | Information processing apparatus, information processing method, program, and recording medium | |
JP2008102945A (en) | Document retrieval system | |
JP2007249622A (en) | Method, system and program for providing information containing disclosure/non-disclosure item | |
Tavakolpoursaleh et al. | PyTerrier-based Research Data Recommendations for Scientific Articles in the Social Sciences. | |
JP2009294768A (en) | Information sharing device and information sharing program | |
US20050216450A1 (en) | Information search system | |
KR102457370B1 (en) | Web delivery service system for newspapers and magazines | |
JP2005056223A (en) | Text data retrieval system, method therefor and its program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070206 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070409 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070904 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071102 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20071116 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20071221 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20090423 |