JP2010122932A - Document retrieval device, document retrieval method, and document retrieval program - Google Patents

Document retrieval device, document retrieval method, and document retrieval program Download PDF

Info

Publication number
JP2010122932A
JP2010122932A JP2008296316A JP2008296316A JP2010122932A JP 2010122932 A JP2010122932 A JP 2010122932A JP 2008296316 A JP2008296316 A JP 2008296316A JP 2008296316 A JP2008296316 A JP 2008296316A JP 2010122932 A JP2010122932 A JP 2010122932A
Authority
JP
Japan
Prior art keywords
query
document
search
degree
queries
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008296316A
Other languages
Japanese (ja)
Inventor
Hiroyuki Toda
浩之 戸田
Shinya Murata
眞哉 村田
Yumiko Matsuura
由美子 松浦
Ryoji Kataoka
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008296316A priority Critical patent/JP2010122932A/en
Publication of JP2010122932A publication Critical patent/JP2010122932A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To add a proper score to a document by finding a proper related query to a query. <P>SOLUTION: A retrieval responding means 6 stores a log obtained by associating a query in a retrieval history of a user terminal 2 with a document accessed for a retrieval result in a click log database 8. A click log analyzing means 9 accumulates access degrees of an electronic document accessed for the retrieval result in a log, and stores the access degrees in an analysis result database 10. A query relevancy specifying means 11 uses an inclusion relation between queries included in the log to specify a related query, and determines a relevancy between the both queries to store the relevancy in a query relevancy database 12. A query document relevancy calculating means 13 uses relevancy between the both queries and an access degree from the a related query to calculate a score of the document, and stores the score in a document database 5. A retrieval executing means 7 responds to the user terminal 2 with a retrieval result reflecting the score. <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

本発明は、電子文書群中からクエリに該当する電子文書を検索する技術に関する。   The present invention relates to a technique for searching an electronic document corresponding to a query from a group of electronic documents.

Webページなどの文書コレクションを検索するシステムにおいて、文書の内容とは独立に、ユーザの判断に基づいた文書のスコア付けが行われ、検索結果のランキングに利用されている。   In a system for searching a document collection such as a Web page, a document is scored based on a user's judgment independently of the contents of the document, and used for ranking search results.

最も単純な方法としては、人手で有益な文書に重み付けを行う手法が挙げられるが、文書数が膨大になると、網羅性を持たせるには非常に大きなコストがかかり現実的ではない。   As the simplest method, there is a method of weighting useful documents manually. However, when the number of documents becomes enormous, it is very impractical to add completeness, and it is not practical.

そのため、一つの手法として、検索エンジンのログ(検索ログ)を解析し、ユーザが入力したクエリと到達した検索結果のWebページ(文書)との関係およびクエリ間の関係を利用し、過去に頻繁に閲覧されたWebページを優先的に提示する手法が非特許文献1に提案されている。
Ricardo Baeza−Yates et al.:“Query Recommendation Using Query Logs in Search Engines”,Proc.of ECIR 2005,pp.588−596 村田眞哉,戸田浩之,松浦由美子,片岡良治,“検索結果中のアクセス集中サイトを利用したクエリ拡張法の提案”.データベースとWeb情報システムに関するシンポジウム(DBWeb2007):2007.
Therefore, as a technique, the search engine log (search log) is analyzed, and the relationship between the query entered by the user and the Web page (document) of the search result that has been reached and the relationship between the queries are used in the past. Non-Patent Document 1 proposes a method for preferentially presenting web pages browsed in the past.
Ricardo Baeza-Yates et al. : "Query Recommendations Usage Query Logs in Search Engines", Proc. of ECIR 2005, pp. 588-596 Junya Murata, Hiroyuki Toda, Yumiko Matsuura, Ryoji Kataoka, “Proposal for Query Expansion Using Access Concentrated Sites in Search Results”. Symposium on Database and Web Information System (DBWeb2007): 2007.

上述の手法では、クエリ間の類似度を評価するためにクエリから得られる検索結果間の類似度を利用している。しかしながら、このような評価方法では、クエリが十分に詳細化されていない場合、検索結果が含む話題も曖昧となり、必ずしも関連するクエリが発見できるとは限らない。   In the above-described method, the similarity between search results obtained from queries is used to evaluate the similarity between queries. However, in such an evaluation method, if the query is not sufficiently detailed, the topic included in the search result is also ambiguous, and a related query cannot always be found.

そこで本発明は、このような問題に鑑み、クエリに対する適切な関連クエリを発見し、文書に適切なスコアを付与することを解決課題としている。   Therefore, in view of such a problem, the present invention has a problem to find an appropriate related query for a query and to give an appropriate score to a document.

本発明は、前記課題を解決するため、ログ情報に含まれるクエリの包含関係および置換履歴を基に関連クエリおよび関連度を特定し、該関連度と関連クエリからのアクセス度合とを用いて文書のスコアを算出している。   In order to solve the above-described problem, the present invention specifies a related query and a related degree based on an inclusion relation and a replacement history of a query included in log information, and uses the related degree and an access degree from the related query as a document. The score is calculated.

具体的には、請求項1記載の発明は、ユーザ端末から検索指示されたクエリを含む電子文書を検索する文書検索装置であって、検索履歴中に含まれるクエリと、該クエリの検索結果に対してアクセスされた電子文書とを組み合わせたログを保存する保存手段と、前記ログに含まれるクエリの検索結果に対してアクセスされた電子文書のアクセス度合を集計する集計手段と、前記ログに含まれるクエリ間の包含関係および置換履歴を利用して関連クエリを特定し、該両クエリ間の関連度を求める関連性特定手段と、前記関連クエリからのアクセス度合と前記両クエリ間の関連度とを用いて、電子文書のスコアを算出する算出手段とを備え、前記スコアを反映させた検索結果をもってユーザ端末に応答することを特徴としている。   Specifically, the invention described in claim 1 is a document search device that searches for an electronic document including a query instructed by a user terminal, and includes a query included in a search history and a search result of the query. A storage unit that stores a log that is a combination of the accessed electronic documents, a totaling unit that totalizes the access degrees of the accessed electronic documents with respect to a query search result included in the log, and the log Relevance specifying means for identifying a related query using an inclusion relationship between the queries and a replacement history, and obtaining a relevance between the two queries, a degree of access from the related query, and a relevance between the two queries. And calculating means for calculating the score of the electronic document, and responding to the user terminal with a search result reflecting the score.

また、請求項2記載の発明は、前記集計手段が、前記ログに含まれるクエリの使用頻度を求めるとともに、前記関連性特定手段が、前記両クエリの使用頻度の比を前記関連度として求めることを特徴としている。   The invention according to claim 2 is characterized in that the aggregation means obtains the usage frequency of the query included in the log, and the relevance specifying means obtains a ratio of the usage frequencies of the two queries as the association degree. It is characterized by.

また、請求項3記載の発明は、前記関連性特定手段が、前記両クエリ間において置き換えられた度合をさらに求め、該置換度合および前記使用頻度の比を基に前記関連度を求めることを特徴としている。   The invention according to claim 3 is characterized in that the relevance specifying means further obtains the degree of replacement between the two queries, and obtains the degree of association based on a ratio between the degree of substitution and the usage frequency. It is said.

また、請求項4記載の発明は、ユーザ端末から検索指示されたクエリを含む電子文書を検索する文書検索方法であって、検索履歴中に含まれるクエリと、該クエリの検索結果に対してアクセスされた電子文書とを組み合わせたログを保存手段に保存する第1ステップと、集計手段が、前記ログに含まれるクエリの検索結果に対してアクセスされた電子文書のアクセス度合を集計する第2ステップと、関連性特定手段が、前記ログに含まれるクエリ間の包含関係および置換履歴を利用して関連クエリを特定し、該両クエリ間の関連度を求める第3ステップと、算出手段が、前記関連クエリからのアクセス度合と前記両クエリ間の関連度とを用いて電子文書のスコアを算出する第4ステップとを有し、検索実行手段が、前記スコアを反映させた検索結果をもってユーザ端末に応答することを特徴としている。   According to a fourth aspect of the present invention, there is provided a document search method for searching an electronic document including a query instructed from a user terminal, wherein the query included in the search history and the search result of the query are accessed. A first step of storing in the storage means a log combined with the electronic document that has been recorded, and a second step in which the counting means totalizes the access degree of the accessed electronic document with respect to the query search result included in the log And a third step in which the relevance specifying means specifies a related query using an inclusion relation and replacement history between the queries included in the log, and obtains a degree of relevance between the two queries, and a calculating means includes the And a fourth step of calculating the score of the electronic document using the degree of access from the related query and the degree of relevance between the two queries, and the search execution means reflects the score. It is characterized in that the response result with a user terminal.

また、請求項5記載の発明は、前記第2ステップが、前記ログに含まれるクエリの使用頻度を求めるとともに、前記第3ステップが、前記両クエリの使用頻度の比を前記関連度として求めることを特徴としている。   In the invention according to claim 5, the second step obtains the use frequency of the query included in the log, and the third step obtains the use frequency ratio of the two queries as the relevance. It is characterized by.

また、請求項6記載の発明は、前記第3ステップが、前記両クエリ間において置き換えられた度合をさらに求め、該置換度合および前記使用頻度の比を基に前記関連度を求めることを特徴としている。   The invention according to claim 6 is characterized in that the third step further obtains the degree of replacement between the two queries, and obtains the degree of association based on a ratio between the degree of substitution and the usage frequency. Yes.

また、請求項7記載の発明は、文書検索プログラムであり、請求項1〜3のいずれか1項に記載の文書検索装置を構成する各手段としてコンピュータを機能させることを特徴としている。   The invention described in claim 7 is a document search program, characterized in that a computer functions as each means constituting the document search device according to any one of claims 1 to 3.

請求項1〜7記載の発明によれば、ログ情報に含まれるクエリ間の包含関係および置換履歴を利用することで、適切な関連クエリを発見することができる。   According to the first to seventh aspects of the present invention, an appropriate related query can be found by using the inclusion relationship between the queries included in the log information and the replacement history.

この両クエリ間の関連度および関連クエリからのアクセス度合を用いることで、文書に対して適切なスコアが付与され、かかるスコアが検索結果に反映され、この点で検索の精度が向上する。   By using the relevance between the two queries and the access from the related query, an appropriate score is given to the document, and such a score is reflected in the search result. In this respect, the search accuracy is improved.

図1は、本発明の実施形態に係る文書検索装置1を示している。この文書検索装置1は、ネットワークを介して検索条件(クエリ)を指示するユーザ端末(PC)2および電子文書群が格納されているコンテンツサーバSと通信可能に接続されている。なお、この文書検索装置1には、通常は前記ユーザ端末2が複数台接続される。   FIG. 1 shows a document search apparatus 1 according to an embodiment of the present invention. The document search apparatus 1 is connected to a user terminal (PC) 2 that instructs a search condition (query) via a network and a content server S in which an electronic document group is stored. Note that a plurality of user terminals 2 are usually connected to the document search apparatus 1.

ここでは、前記文書検索装置1がインターネット上の前記コンテンツサーバSに存在するコンテンツなどを検索するサーバ(例えば検索エンジンなど)として構成されたものとする。なお、文書検索装置1は、例えばネットワークに接続可能で文書検索の処理ロジックを実行可能な計算機などでもよく、また前記文書検索装置1を社内LAN(Local Area Network)などのインターネット以外のネットワークに接続してもよい。   Here, it is assumed that the document search device 1 is configured as a server (for example, a search engine) that searches for content and the like existing in the content server S on the Internet. The document search apparatus 1 may be, for example, a computer that can be connected to a network and can execute processing logic for document search. The document search apparatus 1 is connected to a network other than the Internet such as an in-house LAN (Local Area Network). May be.

前記ユーザ端末2は、ユーザとのインタフェースとしてのブラウザ3を備えている。なお、該ユーザ端末2は、前記文書検索装置1と通信可能で前記ブラウザ3を備えていれば、携帯電話などのモバイル端末であってもよい。   The user terminal 2 includes a browser 3 as an interface with the user. The user terminal 2 may be a mobile terminal such as a mobile phone as long as the user terminal 2 can communicate with the document search apparatus 1 and includes the browser 3.

前記文書検索装置1は、図1に示すように、主に検索エンジンとして機能し、情報収集手段であるクローラ4,文書データベース5,検索応答手段6,検索実行手段7,クリックログデータベース8,クリックログ分析手段9,分析結果データベース10,クエリ関連性特定手段11,クエリ関連性データベース12,クエリ・文書関連度算出手段13を備えている。   As shown in FIG. 1, the document search apparatus 1 mainly functions as a search engine, and is a crawler 4, which is an information collection means 4, a document database 5, a search response means 6, a search execution means 7, a click log database 8, a click A log analysis unit 9, an analysis result database 10, a query relevance specifying unit 11, a query relevance database 12, and a query / document relevance calculation unit 13 are provided.

前記クローラ4は、前記通信デバイスを通じて前記コンテンツサーバSにアクセスし、検索対象となる電子文書群を収集して、該電子文書群を前記文書データベース5に格納する。   The crawler 4 accesses the content server S through the communication device, collects electronic document groups to be searched, and stores the electronic document groups in the document database 5.

前記検索応答手段6は、ユーザが前記ブラウザ3をもって入力したクエリを前記ユーザ端末2から受信し、該クエリを前記検索実行手段7へ送信する。   The search response means 6 receives a query input by the user through the browser 3 from the user terminal 2 and transmits the query to the search execution means 7.

前記検索実行手段7は、前記検索応答手段6から受信したクエリをもって前記文書データベース5を検索し、取得した文書のリストを検索結果として前記検索応答手段6へ返信する。この検索実行手段7は、検索エンジンのプログラムなどに組み込んで実現される。   The search execution means 7 searches the document database 5 with the query received from the search response means 6 and returns the acquired list of documents as a search result to the search response means 6. The search execution means 7 is realized by being incorporated in a search engine program or the like.

前記検索応答手段6は、前記検索実行手段7から受信した前記検索結果を前記ユーザ端末2へ返信する。そして、該検索結果に対してユーザが閲覧した文書の情報と、この検索時に入力されたクエリとを組み合わせたログをクリックログとして前記クリックログデータベース8に格納する。この検索応答手段6は、検索アプリケーションなどに組み込んで実現される。   The search response means 6 returns the search result received from the search execution means 7 to the user terminal 2. Then, a log obtained by combining the information of the document viewed by the user with respect to the search result and the query input at the time of the search is stored in the click log database 8 as a click log. This search response means 6 is implemented by being incorporated in a search application or the like.

前記クリックログ分析手段9は、前記クリックログデータベース8に格納されているクリックログを分析し、該クリックログに含まれるクエリとその使用頻度を求め、前記分析結果データベース10に格納する。また、これと同時に、各クエリによる検索でユーザが到達した文書とその到達度合を求め、前記分析結果データベース10に格納する。   The click log analyzing means 9 analyzes the click log stored in the click log database 8, obtains the query included in the click log and the frequency of use thereof, and stores it in the analysis result database 10. At the same time, the document reached by the user in the search by each query and the degree of arrival are obtained and stored in the analysis result database 10.

前記クエリ関連性特定手段11は、前記分析結果データベース10および前記クリックログデータベース8の格納情報を用いて、前記クリックログに含まれるクエリ間の関連度を求め、前記クエリ関連性データベース12に格納する。   The query relevance specifying means 11 uses the storage information of the analysis result database 10 and the click log database 8 to obtain the degree of relevance between queries included in the click log and stores it in the query relevance database 12. .

前記クエリ・文書関連度算出手段13は、前記クエリ関連性データベース12および前記分析結果データベース10の格納情報を用いて、クエリと文書間の関連度(スコア)を算出し、これを前記文書データベース5に格納する。   The query / document relevance calculation means 13 calculates the relevance (score) between a query and a document using the stored information of the query relevance database 12 and the analysis result database 10, and uses this to calculate the document database 5 To store.

そして、前記スコア算出後に前記ユーザ端末2から検索指示を受け付けると、前記検索実行手段7は該スコアに従って文書をランキングし、該ランキングされた文書のリストを検索結果として、前記検索応答手段6を介して前記ユーザ端末2に返信する。   When the search instruction is received from the user terminal 2 after the score calculation, the search execution unit 7 ranks the documents according to the score, and uses the ranked list of documents as a search result via the search response unit 6. To the user terminal 2.

前記各機能ブロック4〜13の機能は、前記文書検索装置1の制御部(CPU:Central Processor Unit等)が文書検索プログラムを読み込んで実現されている。また、前記文書検索装置1は、コンピュータの通常の構成要素、例えば図示省略のキーボードやマウスなどの入力部と、処理データなどを一時記憶する書き換え可能なメモリ(RAM)と、前記ユーザ端末2および前記コンテンツサーバSとのネットワーク接続に使用する通信デバイスと、ハードディスクドライブ装置などの記憶部と、ディスプレイなどの表示部とを備えている。このうち前記各データベース5.8.10.12は、前記ハードディスクドライブ装置上に構築されている。なお、前記文書データベース5は、前記コンテンツサーバS内に実装した態様であってもよく、この場合には前記文書データベース5への接続は前記通信デバイスを介して行われる。以下、前記各機能ブロック4〜13の実行するスコアの算出処理について、図2のフローチャートに基づき説明する。   The functions of the functional blocks 4 to 13 are realized by reading a document search program by a control unit (CPU: Central Processor Unit) of the document search apparatus 1. The document search device 1 includes normal components of a computer, for example, an input unit such as a keyboard and a mouse (not shown), a rewritable memory (RAM) for temporarily storing processing data, the user terminal 2 and A communication device used for network connection with the content server S, a storage unit such as a hard disk drive, and a display unit such as a display are provided. Of these, each of the databases 5.8.10.12 is constructed on the hard disk drive. The document database 5 may be implemented in the content server S. In this case, the connection to the document database 5 is made via the communication device. Hereinafter, the score calculation processing executed by each of the functional blocks 4 to 13 will be described with reference to the flowchart of FIG.

S01:まず、前記クローラ4は、前記コンテンツサーバSから検索対象となる電子文書群をネットワーク経由で収集し、前記文書データベース5に格納する。   S01: First, the crawler 4 collects electronic document groups to be searched from the content server S via a network and stores them in the document database 5.

前記文書データベース5のデータ例を表1に示す。なお、S01の段階では文書情報(文書ID、タイトル、本文)を前記文書データベース5に格納し、各文書のスコアなどは後述するステップ(S05)で格納する。   A data example of the document database 5 is shown in Table 1. In step S01, document information (document ID, title, text) is stored in the document database 5, and the score of each document is stored in step (S05) described later.

Figure 2010122932
Figure 2010122932

この後、前記文書検索装置1は、前記文書データベース5に格納された電子文書群に対するユーザからの検索指示を受け付ける。すなわち、前記検索応答手段6は、前記ユーザ端末2からのアクセスを受け付けると、前記ブラウザ3に検索インタフェース画面を提示し、かかる画面からユーザが入力したクエリをネットワーク経由で受信して、該クエリを前記検索実行手段7へ送信する。   Thereafter, the document search apparatus 1 accepts a search instruction from the user for the electronic document group stored in the document database 5. That is, when receiving the access from the user terminal 2, the search response means 6 presents a search interface screen to the browser 3, receives a query input by the user from the screen via the network, and receives the query. It transmits to the search execution means 7.

前記検索実行手段7は、受信したクエリをもって前記文書データベース5を検索し、該クエリに該当する文書のリストを検索結果として前記検索応答手段6へ返信する。   The search execution means 7 searches the document database 5 with the received query, and returns a list of documents corresponding to the query to the search response means 6 as a search result.

前記検索応答手段6は、受信した検索結果を前記ユーザ端末2へ返信し、前記ブラウザ3を介してユーザへ提示する。ユーザは、提示された検索結果から任意の文書を選択し、文書を閲覧する。   The search response means 6 returns the received search result to the user terminal 2 and presents it to the user via the browser 3. The user selects an arbitrary document from the presented search results and browses the document.

S02:前記検索応答手段6は、ユーザの検索履歴および検索結果に対するアクセス履歴を組み合わせたログを前記クリックログデータベース8に格納する。   S02: The search response means 6 stores in the click log database 8 a log that combines a user search history and an access history for the search result.

すなわち、前記検索応答手段6は、ユーザが検索時に入力したクエリと、該クエリによる検索結果に対してユーザが実際に閲覧した文書の情報(文書IDなど)とを対応付け、クリックログとして前記クリックログデータベース8に格納する。このクリックログデータベース8のデータ例を表2に示す。なお、ユーザの閲覧した文書のIDなどは、前記ユーザ端末2の閲覧履歴から取得するようにしてもよい。   That is, the search response means 6 associates the query input by the user at the time of search with the information (document ID, etc.) of the document actually viewed by the user for the search result based on the query, and clicks the click as a click log. Store in the log database 8. A data example of the click log database 8 is shown in Table 2. Note that the ID or the like of the document viewed by the user may be acquired from the browsing history of the user terminal 2.

Figure 2010122932
Figure 2010122932

S03:前記クリックログ分析手段9は、前記クリックログデータベース8からクリックログを読み出し、以下の2点について分析する。   S03: The click log analyzing means 9 reads the click log from the click log database 8 and analyzes the following two points.

(1)クエリの使用頻度の集計
前記クリックログ分析手段9は、読み込んだ前記クリックログに含まれる各クエリの使用頻度を集計し、集計結果を使用頻度情報として前記分析結果データベース10に格納する。前記分析結果データベース10の使用頻度情報のデータ例を表3に示す。
(1) Aggregation of Query Usage Frequency The click log analysis means 9 aggregates the usage frequency of each query included in the read click log, and stores the aggregation result in the analysis result database 10 as usage frequency information. Table 3 shows an example of data of usage frequency information in the analysis result database 10.

Figure 2010122932
Figure 2010122932

(2)クエリ別到達ページの集計
前記クリックログ分析手段9は、前記クリックログに含まれる各クエリでの検索結果において、実際にユーザが到達した文書(ページ)とその到達度合を集計し、集計結果をクエリ別到達ページ情報として前記分析結果データベース10に格納する。
(2) Tabulation of arrival pages by query The click log analysis means 9 tabulates the documents (pages) actually reached by the user and the degree of their arrival in the search results for each query included in the click log. The result is stored in the analysis result database 10 as query arrival page information.

到達度合の最も単純な例としては、文書へのアクセス回数を利用する方法が挙げられる。しかし、単純なアクセス回数は、検索結果の上位に提示される文書の方が多くなるというバイアス(偏向)が含まれる。そのため、非特許文献2のように、検索結果のランキングにおける前後のサイトとの関係のような相対的な値を到達度合の程度を表す指標として利用してもよい。   The simplest example of the degree of achievement is a method using the number of accesses to a document. However, the simple access count includes a bias that the number of documents presented at the top of the search result is larger. Therefore, as in Non-Patent Document 2, a relative value such as the relationship with the previous and subsequent sites in the search result ranking may be used as an index representing the degree of achievement.

また、外部の検索サイトの情報収集ロボットによる文書へのアクセス履歴などを前記クリックログデータベース8から排除するために、機械的なアクセスパターンを発見し、それらを無効にしてもよい。なお、ここでは文書へのアクセス回数を前記到達度合として利用した例を説明する。このときの分析結果データベース10のクエリ別到達ページ情報のデータ例を表4に示す。   Further, in order to exclude the access history to the document by the information collecting robot of the external search site from the click log database 8, a mechanical access pattern may be found and invalidated. Here, an example in which the number of accesses to a document is used as the degree of achievement will be described. Table 4 shows a data example of the arrival page information classified by query in the analysis result database 10 at this time.

Figure 2010122932
Figure 2010122932

S04:前記クエリ関連性特定手段11は、前記分析結果データベース10の使用頻度情報に含まれるクエリ間の関係を特定する。   S04: The query relevance specifying means 11 specifies the relationship between the queries included in the usage frequency information of the analysis result database 10.

ここでは、クエリの包含関係を利用して、クエリを発行したユーザの情報要求が類似しているクエリ間の関係を特定する。ここで言う包含関係とは、例えば「横須賀」と「横須賀 市役所」のように、一つのクエリを完全に含む別のクエリが存在する場合を表す。これら両クエリ間の関連度を関連度1とすると、該関連度1は例えば以下の式(1)に基づき算出される。なお、算出した関連度1のデータは前記メモリ(RAM)や前記記憶部に記憶してもよい。   Here, the relation between the queries in which the information request of the user who issued the query is similar is specified using the inclusion relation of the query. The inclusion relationship here refers to a case where there is another query that completely includes one query such as “Yokosuka” and “Yokosuka City Hall”. If the degree of association between these two queries is assumed to be degree of association 1, the degree of association 1 is calculated based on the following formula (1), for example. Note that the calculated relevance 1 data may be stored in the memory (RAM) or the storage unit.

Figure 2010122932
Figure 2010122932

このとき、上述した関連度1を補足するための指標として、クエリの置換履歴を利用する。ここで言う置換履歴とは、ユーザが「横須賀」というクエリで検索した後、「横須賀 市役所」というクエリで検索し直す、といったクエリ間の置き換え履歴を表す。   At this time, the replacement history of the query is used as an index for supplementing the degree of association 1 described above. The replacement history here refers to a replacement history between queries in which the user searches with the query “Yokosuka” and then searches again with the query “Yokosuka City Hall”.

すなわち、前記クエリ関連性特定手段11は、前記クリックログデータベース8のクリックログを解析し、上記のようなクエリの置き換えが行われた度合(置換率)を求める。このとき、「横須賀」を入力したユーザと「横須賀 市役所」を入力したユーザとが同一である場合に、クエリの置き換えが行われたと判断するようにしてもよい。   That is, the query relevance specifying unit 11 analyzes the click log of the click log database 8 and obtains the degree (replacement rate) at which the query is replaced as described above. At this time, when the user who inputs “Yokosuka” and the user who inputs “Yokosuka City Hall” are the same, it may be determined that the query has been replaced.

この置換度合(置換率)に基づく両クエリ間の関連度を関連度2とすると、該関連度2は例えば以下の式(2)により算出できる。なお、算出した関連度2のデータは前記メモリ(RAM)や前記記憶部に記憶してもよい。   If the degree of association between both queries based on the degree of substitution (replacement rate) is the degree of association 2, the degree of association 2 can be calculated by the following equation (2), for example. The calculated relevance level 2 data may be stored in the memory (RAM) or the storage unit.

Figure 2010122932
Figure 2010122932

前記クエリ関連性特定手段11は、このように求めた前記関連度1および関連度2を用いて、クエリとそれに関連するクエリとの関連度を算出し、前記クエリ関連性データベース12に格納する。この関連度は、例えば以下の式(3)により算出できる。ここで、q1,q2はクエリを表す。このときの前記クエリ関連性データベース12のデータ例を表5に示す。 The query relevance specifying means 11 calculates the relevance between the query and the related query using the relevance 1 and the relevance 2 determined in this way, and stores them in the query relevance database 12. This degree of association can be calculated by the following equation (3), for example. Here, q 1 and q 2 represent queries. Table 5 shows an example of data in the query relevance database 12 at this time.

Figure 2010122932
Figure 2010122932

Figure 2010122932
Figure 2010122932

S05:前記クエリ・文書関連度算出手段13は、前記クエリ関連性データベース12および前記分析結果データベース10の格納情報を用いて、クエリと文書間の関連度(スコア)を算出する。   S05: The query / document relevance calculating means 13 calculates the relevance (score) between the query and the document using the stored information of the query relevance database 12 and the analysis result database 10.

すなわち、前記クエリ・文書関連度算出手段13は、前記クエリ関連性データベース12を参照して、クエリqiおよび関連クエリqxの関連度を読み出す。また、前記分析結果データベース10を参照して、関連クエリqxによる検索結果から文書djへの到達度合を読み出す。そして、これらを用いて、例えば以下の式(4)によりクエリ・文書関連度(スコア)を算出し、算出したスコアを表1の前記文書データベース5へ格納する。なお、Qrel_to_qiはクエリqiの関連クエリの集合を表す。 That is, the query / document relevance calculation means 13 refers to the query relevance database 12 and reads the relevance of the query q i and the related query q x . Further, by referring to the analysis result database 10, reads the arrival degree to documents d j from the search results by the relevant query q x. Then, using these, for example, the query / document relevance (score) is calculated by the following equation (4), and the calculated score is stored in the document database 5 of Table 1. In addition, Q rel _ to _ qi represents a set of related queries of query q i.

Figure 2010122932
Figure 2010122932

表1によれば、文書IDが「http://yokosuka.city.jp/」の文書とクエリ「横須賀」との関連度(スコア)は「1000」、クエリ「横須賀 市役所」との関連度(スコア)は「2000」となっている。なお、式(1)〜(4)は、前記文書検索装置1のプログラムに定義されているものとする。   According to Table 1, the relevance (score) between the document whose document ID is “http://yokosuka.city.jp/” and the query “Yokosuka” is “1000”, and the relevance between the query “Yokosuka City Hall” ( The score) is “2000”. Expressions (1) to (4) are defined in the program of the document search apparatus 1.

このように算出されたスコアは、以降の検索指示に対する検索結果を生成する際、文書のランキングに使用される。すなわち、前記スコア算出後に前記ユーザ端末2からの検索指示を受け付けると、前記検索実行手段7は、ユーザによって入力されたクエリと各文書間の関連度(スコア)や類似度などに従って文書をランキングする。そして、ユーザにより指定された件数分の文書をランキングの上位から選択し、選択した文書のリストを検索結果として前記検索応答手段6へ返信する。前記検索応答手段6は、受信した検索結果を前記ユーザ端末2へ返信し、前記ブラウザ3を介してユーザに提示する。   The score calculated in this way is used for document ranking when generating search results for subsequent search instructions. That is, when a search instruction from the user terminal 2 is received after the score is calculated, the search execution means 7 ranks the documents according to the degree of relevance (score) or similarity between the query input by the user and each document. . Then, the number of documents specified by the user is selected from the top of the ranking, and a list of the selected documents is returned to the search response means 6 as a search result. The search response means 6 returns the received search result to the user terminal 2 and presents it to the user via the browser 3.

なお、S01〜05で説明したスコアの算出処理は一定期間ごとに行ってもよく、これにより最新のスコアが検索結果に反映される。   Note that the score calculation process described in S01 to 05 may be performed at regular intervals, whereby the latest score is reflected in the search result.

以上のように、本実施形態に係る文書検索装置1によれば、クリックログに含まれるクエリ間の包含関係および置換履歴を利用していることから、十分に詳細化されていないクエリに対しても適切な関連クエリを発見することができる。   As described above, according to the document search device 1 according to the present embodiment, since the inclusion relationship between the queries included in the click log and the replacement history are used, a query that is not sufficiently detailed is used. Can also find appropriate related queries.

また、両クエリ間の関連度および関連クエリからの到達度合を利用して文書のスコアを求めることから、クエリを入力したユーザが望むであろう文書に対して高いスコアが付与され、該文書を優先的に提示することができる。   In addition, since the score of the document is obtained by using the degree of association between both queries and the degree of achievement from the related query, a high score is given to the document that the user who inputs the query may desire, It can be preferentially presented.

なお、本発明は、上記実施形態に限定されるものではなく、例えばコンピュータを前記文書検索装置1の各機能ブロック4〜13として機能させる文書検索プログラムとしても提供することができる。このプログラムは、コンピュータに前記各機能ブロック4〜13の全ての機能を実現させるものでもよく、あるいは一部の機能を実現させるものであってもよい。   In addition, this invention is not limited to the said embodiment, For example, it can provide also as a document search program which makes a computer function as each functional block 4-13 of the said document search device 1. FIG. This program may cause the computer to realize all the functions of the functional blocks 4 to 13 or may realize a part of the functions.

このプログラムは、Webサイトなどからのダウンロードによってコンピュータに提供される。また、前記プログラムは、CD−ROM,DVD−ROM,CD−R,CD−RW,DVD−R,DVD−RW,MO,HDD,Blu−ray Disk(登録商標)などの記録媒体に格納してコンピュータに提供してもよい。   This program is provided to the computer by downloading from a website or the like. The program is stored in a recording medium such as a CD-ROM, DVD-ROM, CD-R, CD-RW, DVD-R, DVD-RW, MO, HDD, Blu-ray Disk (registered trademark). It may be provided to a computer.

本発明の第1実施形態に係る文書検索装置の構成図。1 is a configuration diagram of a document search apparatus according to a first embodiment of the present invention. 同 スコア算出の処理フロー図。The processing flow figure of the same score calculation.

符号の説明Explanation of symbols

1…文書検索装置
2…ユーザ端末
3…ブラウザ
4…クローラ(情報収集手段)
5…文書データベース
6…検索応答手段(検索アプリケーション)
7…検索実行手段(検索エンジン)
8…クリックログデータベース(保存手段)
9…クリックログ分析手段(集計手段)
10…分析結果データベース
11…クエリ関連性特定手段
12…クエリ関連性データベース
13…クエリ・文書関連度算出手段
S…コンテンツサーバ
DESCRIPTION OF SYMBOLS 1 ... Document search device 2 ... User terminal 3 ... Browser 4 ... Crawler (information collection means)
5 ... Document database 6 ... Search response means (search application)
7 ... Search execution means (search engine)
8 ... Click log database (storage means)
9. Click log analysis means (counting means)
DESCRIPTION OF SYMBOLS 10 ... Analysis result database 11 ... Query relevance identification means 12 ... Query relevance database 13 ... Query and document relevance calculation means S ... Content server

Claims (7)

ユーザ端末から検索指示されたクエリを含む電子文書を検索する文書検索装置であって、
検索履歴中に含まれるクエリと、該クエリの検索結果に対してアクセスされた電子文書とを組み合わせたログを保存する保存手段と、
前記ログに含まれるクエリの検索結果に対してアクセスされた電子文書のアクセス度合を集計する集計手段と、
前記ログに含まれるクエリ間の包含関係および置換履歴を利用して関連クエリを特定し、該両クエリ間の関連度を求める関連性特定手段と、
前記関連クエリからのアクセス度合と前記両クエリ間の関連度とを用いて、電子文書のスコアを算出する算出手段とを備え、
前記スコアを反映させた検索結果をもってユーザ端末に応答することを特徴とする文書検索装置。
A document search device for searching for an electronic document including a query instructed from a user terminal,
Storage means for storing a log combining a query included in a search history and an electronic document accessed for the search result of the query;
A counting means for counting the access degree of the electronic document accessed for the search result of the query included in the log;
Relevance specifying means for specifying a related query using an inclusion relationship and replacement history between queries included in the log, and obtaining a degree of relevance between the two queries;
Using a degree of access from the related query and a degree of relevance between the two queries, and a calculating means for calculating a score of the electronic document,
A document search apparatus that responds to a user terminal with a search result reflecting the score.
前記集計手段が、前記ログに含まれるクエリの使用頻度を求めるとともに、
前記関連性特定手段が、前記両クエリの使用頻度の比を前記関連度として求めることを特徴とする請求項1記載の文書検索装置。
The aggregation means obtains the usage frequency of the query included in the log,
2. The document search apparatus according to claim 1, wherein the relevance specifying unit obtains a ratio of the usage frequencies of the two queries as the relevance.
前記関連性特定手段が、前記両クエリ間において置き換えられた度合をさらに求め、
該置換度合および前記使用頻度の比を基に前記関連度を求めることを特徴とする請求項2記載の文書検索装置。
The relevance specifying means further obtains the degree of replacement between the two queries,
3. The document retrieval apparatus according to claim 2, wherein the degree of association is obtained based on a ratio between the degree of substitution and the frequency of use.
ユーザ端末から検索指示されたクエリを含む電子文書を検索する文書検索方法であって、
検索履歴中に含まれるクエリと、該クエリの検索結果に対してアクセスされた電子文書とを組み合わせたログを保存手段に保存する第1ステップと、
集計手段が、前記ログに含まれるクエリの検索結果に対してアクセスされた電子文書のアクセス度合を集計する第2ステップと、
関連性特定手段が、前記ログに含まれるクエリ間の包含関係および置換履歴を利用して関連クエリを特定し、該両クエリ間の関連度を求める第3ステップと、
算出手段が、前記関連クエリからのアクセス度合と前記両クエリ間の関連度とを用いて電子文書のスコアを算出する第4ステップとを有し、
検索実行手段が、前記スコアを反映させた検索結果をもってユーザ端末に応答することを特徴とする文書検索方法。
A document retrieval method for retrieving an electronic document including a query instructed from a user terminal,
A first step of storing in a storage means a log combining a query included in the search history and an electronic document accessed for the search result of the query;
A second step in which the counting means counts the access degree of the electronic document accessed for the search result of the query included in the log;
A third step in which a relevance specifying unit specifies a related query using an inclusion relationship and a replacement history between the queries included in the log, and obtains a relevance between the two queries;
A calculating unit includes a fourth step of calculating a score of the electronic document using the degree of access from the related query and the degree of association between the two queries;
A document search method, wherein the search execution means responds to the user terminal with a search result reflecting the score.
前記第2ステップが、前記ログに含まれるクエリの使用頻度を求めるとともに、
前記第3ステップが、前記両クエリの使用頻度の比を前記関連度として求めることを特徴とする請求項4記載の文書検索方法。
The second step obtains the usage frequency of the query included in the log,
5. The document search method according to claim 4, wherein the third step obtains a ratio of the usage frequencies of the two queries as the relevance.
前記第3ステップが、前記両クエリ間において置き換えられた度合をさらに求め、
該置換度合および前記使用頻度の比を基に前記関連度を求めることを特徴とする請求項5記載の文書検索方法。
The third step further determines the degree of replacement between the two queries;
6. The document search method according to claim 5, wherein the degree of association is obtained based on a ratio between the degree of substitution and the usage frequency.
請求項1〜3のいずれか1項に記載の文書検索装置を構成する各手段としてコンピュータを機能させることを特徴とする文書検索プログラム。   A document search program for causing a computer to function as each means constituting the document search device according to claim 1.
JP2008296316A 2008-11-20 2008-11-20 Document retrieval device, document retrieval method, and document retrieval program Pending JP2010122932A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008296316A JP2010122932A (en) 2008-11-20 2008-11-20 Document retrieval device, document retrieval method, and document retrieval program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008296316A JP2010122932A (en) 2008-11-20 2008-11-20 Document retrieval device, document retrieval method, and document retrieval program

Publications (1)

Publication Number Publication Date
JP2010122932A true JP2010122932A (en) 2010-06-03

Family

ID=42324214

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008296316A Pending JP2010122932A (en) 2008-11-20 2008-11-20 Document retrieval device, document retrieval method, and document retrieval program

Country Status (1)

Country Link
JP (1) JP2010122932A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014050002A1 (en) * 2012-09-28 2014-04-03 日本電気株式会社 Query degree-of-similarity evaluation system, evaluation method, and program
JP2023516209A (en) * 2020-04-01 2023-04-18 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド METHOD, APPARATUS, APPARATUS AND COMPUTER-READABLE STORAGE MEDIUM FOR SEARCHING CONTENT

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014050002A1 (en) * 2012-09-28 2014-04-03 日本電気株式会社 Query degree-of-similarity evaluation system, evaluation method, and program
JPWO2014050002A1 (en) * 2012-09-28 2016-08-22 日本電気株式会社 Query similarity evaluation system, evaluation method, and program
JP2023516209A (en) * 2020-04-01 2023-04-18 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド METHOD, APPARATUS, APPARATUS AND COMPUTER-READABLE STORAGE MEDIUM FOR SEARCHING CONTENT
JP7451747B2 (en) 2020-04-01 2024-03-18 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド Methods, devices, equipment and computer readable storage media for searching content

Similar Documents

Publication Publication Date Title
US8117208B2 (en) System for entity search and a method for entity scoring in a linked document database
US7984035B2 (en) Context-based document search
JP5494454B2 (en) Search result generation method, search result generation program, and search system
US20130282693A1 (en) Object oriented data and metadata based search
US8977625B2 (en) Inference indexing
JP5329540B2 (en) User-centric information search method, computer-readable recording medium, and user-centric information search system
JP2013516022A (en) Cluster and present search suggestions
JP5040396B2 (en) Web page search program, method, and apparatus
KR100671077B1 (en) Server, Method and System for Providing Information Search Service by Using Sheaf of Pages
JP4759600B2 (en) Text search device, text search method, text search program and recording medium thereof
JP2010123036A (en) Document retrieval device, document retrieval method and document retrieval program
JP5286007B2 (en) Document search device, document search method, and document search program
JP2010122932A (en) Document retrieval device, document retrieval method, and document retrieval program
JP5416552B2 (en) Ranking function generation device, ranking function generation method, ranking function generation program
JP2010286888A (en) Information collection system, information collection method, and program therefor
JP5358481B2 (en) Document search apparatus, document search method, and document search program
KR100942902B1 (en) A method of searching web page and computer readable recording media for recording the method program
JP4634821B2 (en) Document search method, document search apparatus, and storage medium storing document search program
JP2003162540A (en) Data retrieval device and data retrieval method
JP5292322B2 (en) Document search method, document search apparatus, and document search program
JP5903370B2 (en) Information search apparatus, information search method, and program
JP5525424B2 (en) Document search apparatus, document search method, and document search program
JP2010231344A (en) Device for preparing reference data for retrieval, information retrieval device, method of preparing reference data for retrieval and information retrieval method
KR100645711B1 (en) Server, Method and System for Providing Information Search Service by Using Web Page Segmented into Several Information Blocks
JP2000148778A (en) Information retrieval assisting method and record medium where information retrieving program is recorded

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20100610