JP2007213601A - Method for searching a plurality of databases and method for searching for literature between the plurality of databases - Google Patents

Method for searching a plurality of databases and method for searching for literature between the plurality of databases Download PDF

Info

Publication number
JP2007213601A
JP2007213601A JP2007100194A JP2007100194A JP2007213601A JP 2007213601 A JP2007213601 A JP 2007213601A JP 2007100194 A JP2007100194 A JP 2007100194A JP 2007100194 A JP2007100194 A JP 2007100194A JP 2007213601 A JP2007213601 A JP 2007213601A
Authority
JP
Japan
Prior art keywords
databases
database
client
search
records
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007100194A
Other languages
Japanese (ja)
Inventor
T Kirsch Stephen
スティーブン・ティー・キルシュ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rakuten Group Inc
Original Assignee
Rakuten Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rakuten Inc filed Critical Rakuten Inc
Priority to JP2007100194A priority Critical patent/JP2007213601A/en
Publication of JP2007213601A publication Critical patent/JP2007213601A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a method for literature search using a plurality of databases used from at least one server by use of at least one search engine. <P>SOLUTION: The number of records is determined and is reported for each the database, and frequency of a hit or appearance of searched query term is determined and is reported together with identification of the record of the database corresponding to the hit. The reports from the plurality of databases are given to a user terminal, i.e., a client, and client software calculates a related score for each the record on the basis of the number of the records inside the database, the number of the records each having at least one hit, and the number of the hits about each the record. By local calculation from unified data, coherent ranking is achieved as if resulting from a single database, for all the literatures. <P>COPYRIGHT: (C)2007,JPO&INPIT

Description

この発明は、文献の探索および検索に関し、特にネットワークを介してのそれらに関する。   The present invention relates to literature searching and searching, and more particularly to those via a network.

20年以上にわたって、情報サービスは複数のデータベースでのアクセスを提供してきた。たとえば、現在ナイト−リダー・インフォメーション・インコーポレイテッド(Knight-Ridder Information, Inc.)として知られているダイアログ・インフォメーション・サービス(Dialog Information Services)は、探索を行なう者に利用可能な数百のデータベース(コレクションとしても知られる)を提供する。これらのデータベースのうちいくつかは文献目録的な要約を含むものであり、一方で他のものはフルテキストの文献を含んでいる。探索を行なう者は1つまたは複数個のデータベースに対しクエリを適用することができる。始めに、探索を行なう者は、過去の経験に基づいて関心をひく個々のデータベースを選択するか、または情報のプロバイダにより選択されかつ特定のトピックに関連しているデータベース群を選択する。たとえば、探索を行なう者は特許というトピックを選択するかもしれない。このトピックについて情報サービスは特許に限定されたいくつかのデータベースをまとめてある。データベースの群にクエリが適用されると、情報サービスは各データベースにおけるヒット件数を検索する。探索を行なう者は次に関心をひくデータベースにアクセスし、個々の記録を閲覧する。このシステムは元々、所望の情報を得るためにどこを探せばよいかわかっている、司書や職業的な研究者のために設計されたものであった。   For over 20 years, information services have provided access to multiple databases. For example, Dialog Information Services, now known as Knight-Ridder Information, Inc., has hundreds of databases available to searchers ( (Also known as a collection). Some of these databases contain bibliographic summaries, while others contain full-text literature. A searcher can apply a query to one or more databases. Initially, the searcher selects an individual database of interest based on past experience, or selects a set of databases selected by an information provider and associated with a particular topic. For example, a searcher may select the topic of patents. Information services on this topic have compiled several databases limited to patents. When a query is applied to a group of databases, the information service retrieves the number of hits in each database. The searcher then accesses the database of interest and browses the individual records. The system was originally designed for librarians and professional researchers who knew where to look for the information they wanted.

インターネットなどのワイドエリアネットワークが利用可能となるにつれ、探索のプロだけではなく、素人のユーザにも、探索において新しい機会が得られるようになった。ユーザに文献目録的な研究データや文献を提供するために、私設のものだけではなく公共のデータベースをも用いる、新しいタイプの情報プロバイダが出てきている。ユーザが、特許など、あるトピックに関心を持っている場合、そのユーザは探索を行なうためにどのようなリソースを集めることができるかも、それらリソースのロケーションも、知らないかもしれない。リソースはしばしば変更されるので、探索を行なう者は、応答の適切さに比べて応答の供給源には低い関心しか持たないだろう。ワイドエリアネットワークを介して利用可能な分散したコレクションは、単一のコレクションとして扱うことができるということは、認識されている。各サブコレクションは個別に探索され、レポートは単一のリストに結合される。また文献は、特定のコレクションの性質を考慮にいれつつ、アルゴリズムに従ってサーチエンジンによりランク付けおよび重み付けされ得るものであることも知られている。文献のスコアは、個々の文献のコレクションが単一の統合されたコレクションにマージされたならば得られるであろうスコアを得るために正規化することができる。   As wide area networks such as the Internet become available, not only search professionals but also amateur users have new opportunities in search. A new type of information provider has emerged that uses public databases as well as private ones to provide bibliographic research data and literature to users. If a user is interested in a certain topic, such as a patent, the user may not know what resources can be gathered for searching and the location of those resources. Since resources are often changed, the searcher will have less interest in the source of the response compared to the appropriateness of the response. It is recognized that distributed collections available over a wide area network can be treated as a single collection. Each sub-collection is searched individually and the reports are combined into a single list. It is also known that the literature can be ranked and weighted by a search engine according to an algorithm, taking into account the properties of a particular collection. The literature scores can be normalized to obtain a score that would be obtained if the individual literature collections were merged into a single consolidated collection.

先行技術に存在する問題点の1つは、各文献についてのスコアが絶対ではなく、各コレクションにおける統計およびサーチエンジンと関連しているアルゴリズムに依存しているということである。存在する第2の問題点は、標準的な先行技術の手順には、2つのパスが必要だということである。第1のパスでは、各クエリの語についての重みを計算するために、各サーチエンジンから統計が集められる。第2のステップでは、第1のステップからの情報が各サーチエンジンに送り返され、サーチエンジンは次に各ヒットまたは識別された文献に特定の重みまたはスコアを割当てる。存在する第3の問題は、先行技術ではすべてのコレクションが同一のサーチエンジンを使用することが要求されるということである。   One of the problems existing in the prior art is that the score for each document is not absolute and depends on the statistics in each collection and the algorithm associated with the search engine. A second problem that exists is that the standard prior art procedure requires two passes. In the first pass, statistics are gathered from each search engine to calculate the weights for each query term. In the second step, the information from the first step is sent back to each search engine, which then assigns a particular weight or score to each hit or identified document. A third problem that exists is that the prior art requires that all collections use the same search engine.

この発明の目的は、2つの異なるデータベースに同じ文献が現われた場合に、その結果がマージされたときにそれが同じようにスコアをつけられるであろうように、一貫した基準に基づく文献のランク付けを伴う、単一パスで複数のコレクションを探索するための方法を考案することである。すべてのコレクションについて同一のサーチエンジンを用いる必要はない。   The purpose of this invention is to rank documents based on consistent criteria so that if the same document appears in two different databases, it will be scored in the same way when the results are merged. To devise a method for searching multiple collections in a single pass, with attachment. It is not necessary to use the same search engine for all collections.

発明の概要Summary of the Invention

上述の目的は、参与している各サーチエンジンサーバに、返される文献の各々における各クエリの語についての統計を返送するように要求する、文献の探索および検索方法で達成されている。最終的な関連スコアはその後、サーバではなくクライアント端末において計算される。この態様で、すべての関連スコアが、サーチエンジンの違いとは無関係に同一の態様でクライアントにおいて処理される。   The above objective is accomplished with a document search and search method that requires each participating search engine server to return statistics about the terms of each query in each of the returned documents. The final relevance score is then calculated at the client terminal, not the server. In this manner, all relevance scores are processed at the client in the same manner regardless of search engine differences.

発明を実施するためのベストモードBest mode for carrying out the invention

図1を参照して、クエリブロック11により示されるクエリはユーザによって明確にされ、端末またはクライアントシステムに与えられる。このクエリはネットワークインタフェース13に電子的に送信される。ネットワークインタフェースとは、クエリの主題に関連するデータベースを有するソース17へのアクセスを有する情報サービスである。これらの、他のサーバに配備されたデータベースは、通信チャネル15を介して同時にポーリングされる。通信チャネル15はソース17へのワイドエリアネットワークのリンクであってもよい。インターネットはそのようなワイドエリアネットワークリンクおよび遠隔のソースのための1つのモデルである。クエリはサーチエンジンに与えられる。これらのサーチエンジンは列20、30、および40で表わされており、各サーチエンジンはブロック19において関連のデータベースにアクセスしている。各サーチエンジンは、ブール論理、統計的推論等の、独自の演算特性を有していてもよい。各データベースは、ブロック21により示される、データベース内のレコードの数Nを含むレポートを生成する。このレポートには、クエリに応答する文献内に各探索語が現われる回数も含まれる。この量、NTERMは、ブロック23により示される。第3に、レポートはブロック25で示されるように、ヒットを含む各文献の文献識別番号を、各探索語の現われる回数とともに生成する。この情報から、ブロック27で示されるように、各文献についてのスコアの計算が、クライアントソフトウェアによりそれ自体のアルゴリズムを用いて行なわれる。たとえば、スコアを計算するための公式は次のとおりである。 Referring to FIG. 1, the query indicated by query block 11 is clarified by the user and provided to the terminal or client system. This query is transmitted electronically to the network interface 13. A network interface is an information service that has access to a source 17 that has a database associated with the subject of the query. These databases deployed on other servers are polled simultaneously via the communication channel 15. Communication channel 15 may be a wide area network link to source 17. The Internet is one model for such wide area network links and remote sources. The query is given to the search engine. These search engines are represented in columns 20, 30, and 40, with each search engine accessing an associated database at block 19. Each search engine may have its own operational characteristics, such as Boolean logic, statistical inference. Each database generates a report containing the number N of records in the database, indicated by block 21. The report also includes the number of times each search term appears in the literature that responds to the query. This quantity, N TERM, is indicated by block 23. Third, the report generates a document identification number for each document that contains a hit along with the number of times each search word appears, as indicated by block 25. From this information, as shown in block 27, the score for each document is calculated by the client software using its own algorithm. For example, the formula for calculating the score is:

Figure 2007213601
Figure 2007213601

ここでtf=文献中にその語が現われる回数であり、idf=log(N/NTERM)であり、この場合NおよびNTERMは、すべてのコレクションにより報告されたNおよびNTERM値の和である。計算されたスコアはブロック29により示される出力バッファに送信され、この出力バッファはクエリを行なっている人物によって要求されていた上位M個のスコアを計算ブロック27から移行させる。このデータベースを通じて、ただ1つのパスしか行なわれていないことに注目されたい。計算されたスコアは絶対値として扱われる。 Where t f = the number of times the word appears in the document, idf = log (N / N TERM ), where N and N TERM are the sum of N and N TERM values reported by all collections It is. The calculated score is sent to the output buffer indicated by block 29, which shifts the top M scores requested by the querying person from calculation block 27. Note that there is only one pass through this database. The calculated score is treated as an absolute value.

代替的実施例では、アルゴリズムにおいて用いるためにオプションのパラメータが報告されてもよい。ブロック26は、クライアントの、より洗練されたランク付けの公式を用いる目的で、各文書中最も頻出する語の頻度が報告されることを示す。もう1つのオプション的なデータ低減ステップとしては、先行技術において知られている態様で、各サーチエンジンが文献の関連性についてのスコアを計算してもよいというものである。このデータから、サーチエンジンはデータベースにおける上位M個までのヒットを予め選択することができるだろう。ここでMはユーザによって要求されるヒットの最大件数である。   In alternative embodiments, optional parameters may be reported for use in the algorithm. Block 26 indicates that the frequency of the most frequent word in each document is reported for the purpose of using the client's more sophisticated ranking formula. Another optional data reduction step is that each search engine may calculate a score for document relevance in a manner known in the prior art. From this data, the search engine will be able to pre-select the top M hits in the database. Here, M is the maximum number of hits requested by the user.

例としては、探索クエリは「グラフィカル・ユーザ・インタフェース」という語を伴う文献に関わるものであるかもしれない。下の表1は、いくつかの最もランクの高い文献を選択したサーチエンジンにより生成されるレポートを示す。このレポートはユーザのクライアントソフトウェアに返され、ここでユーザは各サーチエンジンによって返された語の頻度データおよび文献の頻度データを用いて、上述の公式(1)におけるものなどのアルゴリズムを適用する。したがって、各クエリ語について文献の重みの局所的な計算が行なわれ、各コレクションから返されるNTERMおよびN(=文献数)が結合される。したがって、語の重み付けは、これらのコレクションが単一のコレクションであったかのように、全く同じものとなる。異なったサーチエンジンが探索に参与した場合でもスコア付けは完全に首尾一貫しており、2つの異なるコレクションに現われた同一文献は、常に同一のスコアを受け取ることとなる。 As an example, a search query may involve documents with the word “graphical user interface”. Table 1 below shows a report generated by a search engine that selected some of the highest ranking documents. This report is returned to the user's client software, where the user applies an algorithm such as that in formula (1) above using the word frequency data and literature frequency data returned by each search engine. Therefore, a local calculation of the document weight is performed for each query word, and N TERM and N (= the number of documents) returned from each collection are combined. Thus, the word weights are exactly the same as if these collections were a single collection. Scoring is completely consistent even when different search engines participate in the search, and the same document appearing in two different collections will always receive the same score.

Figure 2007213601
Figure 2007213601

本発明におけるシステムのブロック図である。It is a block diagram of the system in the present invention.

符号の説明Explanation of symbols

11 クエリ
13 ネットワークインタフェース
15 通信チャネル
17 ソース
19 データベース
20 サーチエンジン
30 サーチエンジン
40 サーチエンジン
11 Query 13 Network interface 15 Communication channel 17 Source 19 Database 20 Search engine 30 Search engine 40 Search engine

Claims (9)

分散されており、かつ1つまたはそれ以上の探索サーバを介してクライアントにアクセス可能な複数個のデータベースを探索する方法であって、
(a)クライアントから各データベースと関連の各サーバに探索クエリを与えるステップと、
(b)各サーバからクライアントにおいて、各データベースについての統計を得るステップと、
(c)各サーバからクライアントにおいて、データベースに対するクエリの適用の結果得られた文献についての情報を得るステップと、
(d)クライアントにおいて、前記統計および前記情報を用いて各文献についてのスコアを計算するステップとを備え、計算されたスコアはこれらデータベースが単一のデータベースとして結合されたかのようにすべてのデータベースに対して適用可能なものとして現われる、複数個のデータベースを探索する方法。
A method for searching a plurality of databases that are distributed and accessible to clients via one or more search servers, comprising:
(A) providing a search query from a client to each database and each associated server;
(B) obtaining statistics for each database at each client from each server;
(C) obtaining information about a document obtained as a result of applying a query to a database at each client from each server;
(D) at the client, calculating a score for each document using the statistics and the information, the calculated scores for all databases as if they were combined as a single database To search multiple databases that appear as applicable.
前記コレクションについての統計はレコードの数との関わりにおいてコレクションのサイズを含む、請求項1に記載の方法。   The method of claim 1, wherein the statistics for the collection include the size of the collection in relation to the number of records. 各文献についての情報は、各探索語がその文献中に現われた回数を含む、請求項1に記載の方法。   The method of claim 1, wherein the information about each document includes the number of times each search term appears in the document. 各データベースについての情報は、各探索語を含む文献の数を含む、請求項1に記載の方法。   The method of claim 1, wherein the information about each database includes the number of documents that contain each search term. 分散されており、かつ1つまたはそれ以上のサーバを介してクライアントにアクセス可能な複数個のデータベースを探索する方法であって、
(a)クライアントから各データベースにアクセスするステップと、
(b)クライアントから各データベースに関連のサーバに探索クエリを与えるステップと、
(c)クライアントにおいて各データベースについての統計を得るステップと、
(d)クライアントにおいて、データベースに対するクエリの適用の結果得られた関連の文献についての統計的な情報を得るステップと、
(e)クライアントにおいて、前記統計および前記情報を用いて関連の文献についてのスコアを計算するステップとを備え、ある文献について計算されたスコアは、それが中に現われるデータベースからは独立している、複数個のデータベースを探索する方法。
A method for searching a plurality of databases that are distributed and accessible to clients via one or more servers, comprising:
(A) accessing each database from a client;
(B) providing a search query from a client to a server associated with each database;
(C) obtaining statistics for each database at the client;
(D) obtaining statistical information about relevant documents obtained as a result of applying the query to the database at the client;
(E) calculating a score for a related document using the statistics and the information at the client, wherein the score calculated for a document is independent of the database in which it appears; A method for searching multiple databases.
探索クエリに応答して複数個のデータベース間で文献を探索する方法であって、
(a)各データベースに対し探索クエリを与えるステップと、
(b)各データベースについてレコードの数を決定するステップと、
(c)前記データベースの各々について、探索クエリを適用し、各探索クエリ語のヒット数および前記ヒット数における少なくとも1つのヒットを有するデータベースレコードの識別を記録するステップと、
(d)前記データベースの各々について、かつ各クエリ語について、少なくとも1つのヒットを有するレコードをカウントするステップと、
(e)ステップ(b)、(c)および(d)の結果を用いて計算された、探索クエリに関しての各レコードの関連のスコアをユーザに報告するステップとを備える、複数個のデータベース間で文献を探索する方法。
A method of searching for documents among a plurality of databases in response to a search query,
(A) providing a search query for each database;
(B) determining the number of records for each database;
(C) applying a search query to each of the databases to record the number of hits for each search query word and the identification of a database record having at least one hit in the number of hits;
(D) counting records having at least one hit for each of the databases and for each query term;
(E) reporting the associated score of each record for the search query to the user, calculated using the results of steps (b), (c) and (d), between a plurality of databases How to search for literature.
すべてのデータベースに対して同じ探索クエリを与えることに先立ち、いくつかのデータベースを選択し、データベースについて1つより多くのサーチエンジンを有することによりさらに規定される、請求項6に記載の方法。   7. The method of claim 6, further defined by selecting several databases and having more than one search engine for the databases prior to providing the same search query for all databases. 前記いくつかのデータベース間から再検討されるべきいくつかのレコードを選択することによるものであり、前記いくつかのレコードは、探索クエリについて最も高い関連のスコアを有する、請求項7に記載の方法。   8. The method of claim 7, wherein by selecting a number of records to be reviewed between the number of databases, the number of records having the highest relevance score for a search query. . 関連のスコアを計算することに先立ち、いくつかのレコードを予め選択することによってさらに規定される、請求項8に記載の方法。   9. The method of claim 8, further defined by pre-selecting a number of records prior to calculating an associated score.
JP2007100194A 2007-04-06 2007-04-06 Method for searching a plurality of databases and method for searching for literature between the plurality of databases Pending JP2007213601A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007100194A JP2007213601A (en) 2007-04-06 2007-04-06 Method for searching a plurality of databases and method for searching for literature between the plurality of databases

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007100194A JP2007213601A (en) 2007-04-06 2007-04-06 Method for searching a plurality of databases and method for searching for literature between the plurality of databases

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP8154370A Division JPH1021250A (en) 1996-06-14 1996-06-14 Method for retrieving plural data bases and method for searching document between plural data bases

Publications (1)

Publication Number Publication Date
JP2007213601A true JP2007213601A (en) 2007-08-23

Family

ID=38491910

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007100194A Pending JP2007213601A (en) 2007-04-06 2007-04-06 Method for searching a plurality of databases and method for searching for literature between the plurality of databases

Country Status (1)

Country Link
JP (1) JP2007213601A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2230611A2 (en) 2009-03-16 2010-09-22 Fujitsu Limited Search device, search method, and search program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2230611A2 (en) 2009-03-16 2010-09-22 Fujitsu Limited Search device, search method, and search program
US8402052B2 (en) 2009-03-16 2013-03-19 Fujitsu Limited Search device, search method, and computer-readable recording medium storing search program

Similar Documents

Publication Publication Date Title
US5659732A (en) Document retrieval over networks wherein ranking and relevance scores are computed at the client for multiple database documents
US11816114B1 (en) Modifying search result ranking based on implicit user feedback
US8938463B1 (en) Modifying search result ranking based on implicit user feedback and a model of presentation bias
CN102859516B (en) Generating improved document classification data using historical search results
CA2573672C (en) Personalization of placed content ordering in search results
US8321278B2 (en) Targeted advertisements based on user profiles and page profile
JP5328896B2 (en) Query refinement and proposals using social networks
JP5632574B2 (en) System and method for improving ranking of news articles
US8209331B1 (en) Context sensitive ranking
US8694511B1 (en) Modifying search result ranking based on populations
US9092510B1 (en) Modifying search result ranking based on a temporal element of user feedback
CN103593353B (en) Information search method, displaying information sorting weighted value determine method and its device
US20130110827A1 (en) Relevance of name and other search queries with social network feature
RU2670494C2 (en) Method for processing search requests, server and machine-readable media for its implementation
Ponnuswami et al. On composition of a federated web search result page: using online users to provide pairwise preference for heterogeneous verticals
US20030014501A1 (en) Predicting the popularity of a text-based object
Kim et al. Ranking using multiple document types in desktop search
US20100057714A1 (en) Search results ranking method and system
US9116945B1 (en) Prediction of human ratings or rankings of information retrieval quality
EP2005339A2 (en) Method of generating a website profile bases on monitoring user activities
CN101496003A (en) Compatibility scoring of users in a social network
US10380121B2 (en) System and method for query temporality analysis
JP2002215659A (en) Information retrieval support method and information retrieval support system
WO2010037314A1 (en) A method for searching and the device and system thereof
Xu et al. Novelty and topicality in interactive information retrieval

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080219

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080722