JP2010122932A - Document retrieval device, document retrieval method, and document retrieval program - Google Patents
Document retrieval device, document retrieval method, and document retrieval program Download PDFInfo
- Publication number
- JP2010122932A JP2010122932A JP2008296316A JP2008296316A JP2010122932A JP 2010122932 A JP2010122932 A JP 2010122932A JP 2008296316 A JP2008296316 A JP 2008296316A JP 2008296316 A JP2008296316 A JP 2008296316A JP 2010122932 A JP2010122932 A JP 2010122932A
- Authority
- JP
- Japan
- Prior art keywords
- query
- document
- search
- degree
- queries
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、電子文書群中からクエリに該当する電子文書を検索する技術に関する。 The present invention relates to a technique for searching an electronic document corresponding to a query from a group of electronic documents.
Webページなどの文書コレクションを検索するシステムにおいて、文書の内容とは独立に、ユーザの判断に基づいた文書のスコア付けが行われ、検索結果のランキングに利用されている。 In a system for searching a document collection such as a Web page, a document is scored based on a user's judgment independently of the contents of the document, and used for ranking search results.
最も単純な方法としては、人手で有益な文書に重み付けを行う手法が挙げられるが、文書数が膨大になると、網羅性を持たせるには非常に大きなコストがかかり現実的ではない。 As the simplest method, there is a method of weighting useful documents manually. However, when the number of documents becomes enormous, it is very impractical to add completeness, and it is not practical.
そのため、一つの手法として、検索エンジンのログ(検索ログ)を解析し、ユーザが入力したクエリと到達した検索結果のWebページ(文書)との関係およびクエリ間の関係を利用し、過去に頻繁に閲覧されたWebページを優先的に提示する手法が非特許文献1に提案されている。
上述の手法では、クエリ間の類似度を評価するためにクエリから得られる検索結果間の類似度を利用している。しかしながら、このような評価方法では、クエリが十分に詳細化されていない場合、検索結果が含む話題も曖昧となり、必ずしも関連するクエリが発見できるとは限らない。 In the above-described method, the similarity between search results obtained from queries is used to evaluate the similarity between queries. However, in such an evaluation method, if the query is not sufficiently detailed, the topic included in the search result is also ambiguous, and a related query cannot always be found.
そこで本発明は、このような問題に鑑み、クエリに対する適切な関連クエリを発見し、文書に適切なスコアを付与することを解決課題としている。 Therefore, in view of such a problem, the present invention has a problem to find an appropriate related query for a query and to give an appropriate score to a document.
本発明は、前記課題を解決するため、ログ情報に含まれるクエリの包含関係および置換履歴を基に関連クエリおよび関連度を特定し、該関連度と関連クエリからのアクセス度合とを用いて文書のスコアを算出している。 In order to solve the above-described problem, the present invention specifies a related query and a related degree based on an inclusion relation and a replacement history of a query included in log information, and uses the related degree and an access degree from the related query as a document. The score is calculated.
具体的には、請求項1記載の発明は、ユーザ端末から検索指示されたクエリを含む電子文書を検索する文書検索装置であって、検索履歴中に含まれるクエリと、該クエリの検索結果に対してアクセスされた電子文書とを組み合わせたログを保存する保存手段と、前記ログに含まれるクエリの検索結果に対してアクセスされた電子文書のアクセス度合を集計する集計手段と、前記ログに含まれるクエリ間の包含関係および置換履歴を利用して関連クエリを特定し、該両クエリ間の関連度を求める関連性特定手段と、前記関連クエリからのアクセス度合と前記両クエリ間の関連度とを用いて、電子文書のスコアを算出する算出手段とを備え、前記スコアを反映させた検索結果をもってユーザ端末に応答することを特徴としている。 Specifically, the invention described in claim 1 is a document search device that searches for an electronic document including a query instructed by a user terminal, and includes a query included in a search history and a search result of the query. A storage unit that stores a log that is a combination of the accessed electronic documents, a totaling unit that totalizes the access degrees of the accessed electronic documents with respect to a query search result included in the log, and the log Relevance specifying means for identifying a related query using an inclusion relationship between the queries and a replacement history, and obtaining a relevance between the two queries, a degree of access from the related query, and a relevance between the two queries. And calculating means for calculating the score of the electronic document, and responding to the user terminal with a search result reflecting the score.
また、請求項2記載の発明は、前記集計手段が、前記ログに含まれるクエリの使用頻度を求めるとともに、前記関連性特定手段が、前記両クエリの使用頻度の比を前記関連度として求めることを特徴としている。
The invention according to
また、請求項3記載の発明は、前記関連性特定手段が、前記両クエリ間において置き換えられた度合をさらに求め、該置換度合および前記使用頻度の比を基に前記関連度を求めることを特徴としている。
The invention according to
また、請求項4記載の発明は、ユーザ端末から検索指示されたクエリを含む電子文書を検索する文書検索方法であって、検索履歴中に含まれるクエリと、該クエリの検索結果に対してアクセスされた電子文書とを組み合わせたログを保存手段に保存する第1ステップと、集計手段が、前記ログに含まれるクエリの検索結果に対してアクセスされた電子文書のアクセス度合を集計する第2ステップと、関連性特定手段が、前記ログに含まれるクエリ間の包含関係および置換履歴を利用して関連クエリを特定し、該両クエリ間の関連度を求める第3ステップと、算出手段が、前記関連クエリからのアクセス度合と前記両クエリ間の関連度とを用いて電子文書のスコアを算出する第4ステップとを有し、検索実行手段が、前記スコアを反映させた検索結果をもってユーザ端末に応答することを特徴としている。 According to a fourth aspect of the present invention, there is provided a document search method for searching an electronic document including a query instructed from a user terminal, wherein the query included in the search history and the search result of the query are accessed. A first step of storing in the storage means a log combined with the electronic document that has been recorded, and a second step in which the counting means totalizes the access degree of the accessed electronic document with respect to the query search result included in the log And a third step in which the relevance specifying means specifies a related query using an inclusion relation and replacement history between the queries included in the log, and obtains a degree of relevance between the two queries, and a calculating means includes the And a fourth step of calculating the score of the electronic document using the degree of access from the related query and the degree of relevance between the two queries, and the search execution means reflects the score. It is characterized in that the response result with a user terminal.
また、請求項5記載の発明は、前記第2ステップが、前記ログに含まれるクエリの使用頻度を求めるとともに、前記第3ステップが、前記両クエリの使用頻度の比を前記関連度として求めることを特徴としている。
In the invention according to
また、請求項6記載の発明は、前記第3ステップが、前記両クエリ間において置き換えられた度合をさらに求め、該置換度合および前記使用頻度の比を基に前記関連度を求めることを特徴としている。 The invention according to claim 6 is characterized in that the third step further obtains the degree of replacement between the two queries, and obtains the degree of association based on a ratio between the degree of substitution and the usage frequency. Yes.
また、請求項7記載の発明は、文書検索プログラムであり、請求項1〜3のいずれか1項に記載の文書検索装置を構成する各手段としてコンピュータを機能させることを特徴としている。 The invention described in claim 7 is a document search program, characterized in that a computer functions as each means constituting the document search device according to any one of claims 1 to 3.
請求項1〜7記載の発明によれば、ログ情報に含まれるクエリ間の包含関係および置換履歴を利用することで、適切な関連クエリを発見することができる。 According to the first to seventh aspects of the present invention, an appropriate related query can be found by using the inclusion relationship between the queries included in the log information and the replacement history.
この両クエリ間の関連度および関連クエリからのアクセス度合を用いることで、文書に対して適切なスコアが付与され、かかるスコアが検索結果に反映され、この点で検索の精度が向上する。 By using the relevance between the two queries and the access from the related query, an appropriate score is given to the document, and such a score is reflected in the search result. In this respect, the search accuracy is improved.
図1は、本発明の実施形態に係る文書検索装置1を示している。この文書検索装置1は、ネットワークを介して検索条件(クエリ)を指示するユーザ端末(PC)2および電子文書群が格納されているコンテンツサーバSと通信可能に接続されている。なお、この文書検索装置1には、通常は前記ユーザ端末2が複数台接続される。
FIG. 1 shows a document search apparatus 1 according to an embodiment of the present invention. The document search apparatus 1 is connected to a user terminal (PC) 2 that instructs a search condition (query) via a network and a content server S in which an electronic document group is stored. Note that a plurality of
ここでは、前記文書検索装置1がインターネット上の前記コンテンツサーバSに存在するコンテンツなどを検索するサーバ(例えば検索エンジンなど)として構成されたものとする。なお、文書検索装置1は、例えばネットワークに接続可能で文書検索の処理ロジックを実行可能な計算機などでもよく、また前記文書検索装置1を社内LAN(Local Area Network)などのインターネット以外のネットワークに接続してもよい。 Here, it is assumed that the document search device 1 is configured as a server (for example, a search engine) that searches for content and the like existing in the content server S on the Internet. The document search apparatus 1 may be, for example, a computer that can be connected to a network and can execute processing logic for document search. The document search apparatus 1 is connected to a network other than the Internet such as an in-house LAN (Local Area Network). May be.
前記ユーザ端末2は、ユーザとのインタフェースとしてのブラウザ3を備えている。なお、該ユーザ端末2は、前記文書検索装置1と通信可能で前記ブラウザ3を備えていれば、携帯電話などのモバイル端末であってもよい。
The
前記文書検索装置1は、図1に示すように、主に検索エンジンとして機能し、情報収集手段であるクローラ4,文書データベース5,検索応答手段6,検索実行手段7,クリックログデータベース8,クリックログ分析手段9,分析結果データベース10,クエリ関連性特定手段11,クエリ関連性データベース12,クエリ・文書関連度算出手段13を備えている。
As shown in FIG. 1, the document search apparatus 1 mainly functions as a search engine, and is a crawler 4, which is an information collection means 4, a
前記クローラ4は、前記通信デバイスを通じて前記コンテンツサーバSにアクセスし、検索対象となる電子文書群を収集して、該電子文書群を前記文書データベース5に格納する。
The crawler 4 accesses the content server S through the communication device, collects electronic document groups to be searched, and stores the electronic document groups in the
前記検索応答手段6は、ユーザが前記ブラウザ3をもって入力したクエリを前記ユーザ端末2から受信し、該クエリを前記検索実行手段7へ送信する。
The search response means 6 receives a query input by the user through the
前記検索実行手段7は、前記検索応答手段6から受信したクエリをもって前記文書データベース5を検索し、取得した文書のリストを検索結果として前記検索応答手段6へ返信する。この検索実行手段7は、検索エンジンのプログラムなどに組み込んで実現される。
The search execution means 7 searches the
前記検索応答手段6は、前記検索実行手段7から受信した前記検索結果を前記ユーザ端末2へ返信する。そして、該検索結果に対してユーザが閲覧した文書の情報と、この検索時に入力されたクエリとを組み合わせたログをクリックログとして前記クリックログデータベース8に格納する。この検索応答手段6は、検索アプリケーションなどに組み込んで実現される。
The search response means 6 returns the search result received from the search execution means 7 to the
前記クリックログ分析手段9は、前記クリックログデータベース8に格納されているクリックログを分析し、該クリックログに含まれるクエリとその使用頻度を求め、前記分析結果データベース10に格納する。また、これと同時に、各クエリによる検索でユーザが到達した文書とその到達度合を求め、前記分析結果データベース10に格納する。
The click log analyzing means 9 analyzes the click log stored in the click log database 8, obtains the query included in the click log and the frequency of use thereof, and stores it in the
前記クエリ関連性特定手段11は、前記分析結果データベース10および前記クリックログデータベース8の格納情報を用いて、前記クリックログに含まれるクエリ間の関連度を求め、前記クエリ関連性データベース12に格納する。
The query relevance specifying means 11 uses the storage information of the
前記クエリ・文書関連度算出手段13は、前記クエリ関連性データベース12および前記分析結果データベース10の格納情報を用いて、クエリと文書間の関連度(スコア)を算出し、これを前記文書データベース5に格納する。
The query / document relevance calculation means 13 calculates the relevance (score) between a query and a document using the stored information of the
そして、前記スコア算出後に前記ユーザ端末2から検索指示を受け付けると、前記検索実行手段7は該スコアに従って文書をランキングし、該ランキングされた文書のリストを検索結果として、前記検索応答手段6を介して前記ユーザ端末2に返信する。
When the search instruction is received from the
前記各機能ブロック4〜13の機能は、前記文書検索装置1の制御部(CPU:Central Processor Unit等)が文書検索プログラムを読み込んで実現されている。また、前記文書検索装置1は、コンピュータの通常の構成要素、例えば図示省略のキーボードやマウスなどの入力部と、処理データなどを一時記憶する書き換え可能なメモリ(RAM)と、前記ユーザ端末2および前記コンテンツサーバSとのネットワーク接続に使用する通信デバイスと、ハードディスクドライブ装置などの記憶部と、ディスプレイなどの表示部とを備えている。このうち前記各データベース5.8.10.12は、前記ハードディスクドライブ装置上に構築されている。なお、前記文書データベース5は、前記コンテンツサーバS内に実装した態様であってもよく、この場合には前記文書データベース5への接続は前記通信デバイスを介して行われる。以下、前記各機能ブロック4〜13の実行するスコアの算出処理について、図2のフローチャートに基づき説明する。
The functions of the functional blocks 4 to 13 are realized by reading a document search program by a control unit (CPU: Central Processor Unit) of the document search apparatus 1. The document search device 1 includes normal components of a computer, for example, an input unit such as a keyboard and a mouse (not shown), a rewritable memory (RAM) for temporarily storing processing data, the
S01:まず、前記クローラ4は、前記コンテンツサーバSから検索対象となる電子文書群をネットワーク経由で収集し、前記文書データベース5に格納する。
S01: First, the crawler 4 collects electronic document groups to be searched from the content server S via a network and stores them in the
前記文書データベース5のデータ例を表1に示す。なお、S01の段階では文書情報(文書ID、タイトル、本文)を前記文書データベース5に格納し、各文書のスコアなどは後述するステップ(S05)で格納する。
A data example of the
この後、前記文書検索装置1は、前記文書データベース5に格納された電子文書群に対するユーザからの検索指示を受け付ける。すなわち、前記検索応答手段6は、前記ユーザ端末2からのアクセスを受け付けると、前記ブラウザ3に検索インタフェース画面を提示し、かかる画面からユーザが入力したクエリをネットワーク経由で受信して、該クエリを前記検索実行手段7へ送信する。
Thereafter, the document search apparatus 1 accepts a search instruction from the user for the electronic document group stored in the
前記検索実行手段7は、受信したクエリをもって前記文書データベース5を検索し、該クエリに該当する文書のリストを検索結果として前記検索応答手段6へ返信する。
The search execution means 7 searches the
前記検索応答手段6は、受信した検索結果を前記ユーザ端末2へ返信し、前記ブラウザ3を介してユーザへ提示する。ユーザは、提示された検索結果から任意の文書を選択し、文書を閲覧する。
The search response means 6 returns the received search result to the
S02:前記検索応答手段6は、ユーザの検索履歴および検索結果に対するアクセス履歴を組み合わせたログを前記クリックログデータベース8に格納する。 S02: The search response means 6 stores in the click log database 8 a log that combines a user search history and an access history for the search result.
すなわち、前記検索応答手段6は、ユーザが検索時に入力したクエリと、該クエリによる検索結果に対してユーザが実際に閲覧した文書の情報(文書IDなど)とを対応付け、クリックログとして前記クリックログデータベース8に格納する。このクリックログデータベース8のデータ例を表2に示す。なお、ユーザの閲覧した文書のIDなどは、前記ユーザ端末2の閲覧履歴から取得するようにしてもよい。
That is, the search response means 6 associates the query input by the user at the time of search with the information (document ID, etc.) of the document actually viewed by the user for the search result based on the query, and clicks the click as a click log. Store in the log database 8. A data example of the click log database 8 is shown in Table 2. Note that the ID or the like of the document viewed by the user may be acquired from the browsing history of the
S03:前記クリックログ分析手段9は、前記クリックログデータベース8からクリックログを読み出し、以下の2点について分析する。 S03: The click log analyzing means 9 reads the click log from the click log database 8 and analyzes the following two points.
(1)クエリの使用頻度の集計
前記クリックログ分析手段9は、読み込んだ前記クリックログに含まれる各クエリの使用頻度を集計し、集計結果を使用頻度情報として前記分析結果データベース10に格納する。前記分析結果データベース10の使用頻度情報のデータ例を表3に示す。
(1) Aggregation of Query Usage Frequency The click log analysis means 9 aggregates the usage frequency of each query included in the read click log, and stores the aggregation result in the
(2)クエリ別到達ページの集計
前記クリックログ分析手段9は、前記クリックログに含まれる各クエリでの検索結果において、実際にユーザが到達した文書(ページ)とその到達度合を集計し、集計結果をクエリ別到達ページ情報として前記分析結果データベース10に格納する。
(2) Tabulation of arrival pages by query The click log analysis means 9 tabulates the documents (pages) actually reached by the user and the degree of their arrival in the search results for each query included in the click log. The result is stored in the
到達度合の最も単純な例としては、文書へのアクセス回数を利用する方法が挙げられる。しかし、単純なアクセス回数は、検索結果の上位に提示される文書の方が多くなるというバイアス(偏向)が含まれる。そのため、非特許文献2のように、検索結果のランキングにおける前後のサイトとの関係のような相対的な値を到達度合の程度を表す指標として利用してもよい。
The simplest example of the degree of achievement is a method using the number of accesses to a document. However, the simple access count includes a bias that the number of documents presented at the top of the search result is larger. Therefore, as in
また、外部の検索サイトの情報収集ロボットによる文書へのアクセス履歴などを前記クリックログデータベース8から排除するために、機械的なアクセスパターンを発見し、それらを無効にしてもよい。なお、ここでは文書へのアクセス回数を前記到達度合として利用した例を説明する。このときの分析結果データベース10のクエリ別到達ページ情報のデータ例を表4に示す。
Further, in order to exclude the access history to the document by the information collecting robot of the external search site from the click log database 8, a mechanical access pattern may be found and invalidated. Here, an example in which the number of accesses to a document is used as the degree of achievement will be described. Table 4 shows a data example of the arrival page information classified by query in the
S04:前記クエリ関連性特定手段11は、前記分析結果データベース10の使用頻度情報に含まれるクエリ間の関係を特定する。
S04: The query
ここでは、クエリの包含関係を利用して、クエリを発行したユーザの情報要求が類似しているクエリ間の関係を特定する。ここで言う包含関係とは、例えば「横須賀」と「横須賀 市役所」のように、一つのクエリを完全に含む別のクエリが存在する場合を表す。これら両クエリ間の関連度を関連度1とすると、該関連度1は例えば以下の式(1)に基づき算出される。なお、算出した関連度1のデータは前記メモリ(RAM)や前記記憶部に記憶してもよい。 Here, the relation between the queries in which the information request of the user who issued the query is similar is specified using the inclusion relation of the query. The inclusion relationship here refers to a case where there is another query that completely includes one query such as “Yokosuka” and “Yokosuka City Hall”. If the degree of association between these two queries is assumed to be degree of association 1, the degree of association 1 is calculated based on the following formula (1), for example. Note that the calculated relevance 1 data may be stored in the memory (RAM) or the storage unit.
このとき、上述した関連度1を補足するための指標として、クエリの置換履歴を利用する。ここで言う置換履歴とは、ユーザが「横須賀」というクエリで検索した後、「横須賀 市役所」というクエリで検索し直す、といったクエリ間の置き換え履歴を表す。 At this time, the replacement history of the query is used as an index for supplementing the degree of association 1 described above. The replacement history here refers to a replacement history between queries in which the user searches with the query “Yokosuka” and then searches again with the query “Yokosuka City Hall”.
すなわち、前記クエリ関連性特定手段11は、前記クリックログデータベース8のクリックログを解析し、上記のようなクエリの置き換えが行われた度合(置換率)を求める。このとき、「横須賀」を入力したユーザと「横須賀 市役所」を入力したユーザとが同一である場合に、クエリの置き換えが行われたと判断するようにしてもよい。
That is, the query
この置換度合(置換率)に基づく両クエリ間の関連度を関連度2とすると、該関連度2は例えば以下の式(2)により算出できる。なお、算出した関連度2のデータは前記メモリ(RAM)や前記記憶部に記憶してもよい。
If the degree of association between both queries based on the degree of substitution (replacement rate) is the degree of
前記クエリ関連性特定手段11は、このように求めた前記関連度1および関連度2を用いて、クエリとそれに関連するクエリとの関連度を算出し、前記クエリ関連性データベース12に格納する。この関連度は、例えば以下の式(3)により算出できる。ここで、q1,q2はクエリを表す。このときの前記クエリ関連性データベース12のデータ例を表5に示す。
The query
S05:前記クエリ・文書関連度算出手段13は、前記クエリ関連性データベース12および前記分析結果データベース10の格納情報を用いて、クエリと文書間の関連度(スコア)を算出する。
S05: The query / document
すなわち、前記クエリ・文書関連度算出手段13は、前記クエリ関連性データベース12を参照して、クエリqiおよび関連クエリqxの関連度を読み出す。また、前記分析結果データベース10を参照して、関連クエリqxによる検索結果から文書djへの到達度合を読み出す。そして、これらを用いて、例えば以下の式(4)によりクエリ・文書関連度(スコア)を算出し、算出したスコアを表1の前記文書データベース5へ格納する。なお、Qrel_to_qiはクエリqiの関連クエリの集合を表す。
That is, the query / document relevance calculation means 13 refers to the
表1によれば、文書IDが「http://yokosuka.city.jp/」の文書とクエリ「横須賀」との関連度(スコア)は「1000」、クエリ「横須賀 市役所」との関連度(スコア)は「2000」となっている。なお、式(1)〜(4)は、前記文書検索装置1のプログラムに定義されているものとする。 According to Table 1, the relevance (score) between the document whose document ID is “http://yokosuka.city.jp/” and the query “Yokosuka” is “1000”, and the relevance between the query “Yokosuka City Hall” ( The score) is “2000”. Expressions (1) to (4) are defined in the program of the document search apparatus 1.
このように算出されたスコアは、以降の検索指示に対する検索結果を生成する際、文書のランキングに使用される。すなわち、前記スコア算出後に前記ユーザ端末2からの検索指示を受け付けると、前記検索実行手段7は、ユーザによって入力されたクエリと各文書間の関連度(スコア)や類似度などに従って文書をランキングする。そして、ユーザにより指定された件数分の文書をランキングの上位から選択し、選択した文書のリストを検索結果として前記検索応答手段6へ返信する。前記検索応答手段6は、受信した検索結果を前記ユーザ端末2へ返信し、前記ブラウザ3を介してユーザに提示する。
The score calculated in this way is used for document ranking when generating search results for subsequent search instructions. That is, when a search instruction from the
なお、S01〜05で説明したスコアの算出処理は一定期間ごとに行ってもよく、これにより最新のスコアが検索結果に反映される。 Note that the score calculation process described in S01 to 05 may be performed at regular intervals, whereby the latest score is reflected in the search result.
以上のように、本実施形態に係る文書検索装置1によれば、クリックログに含まれるクエリ間の包含関係および置換履歴を利用していることから、十分に詳細化されていないクエリに対しても適切な関連クエリを発見することができる。 As described above, according to the document search device 1 according to the present embodiment, since the inclusion relationship between the queries included in the click log and the replacement history are used, a query that is not sufficiently detailed is used. Can also find appropriate related queries.
また、両クエリ間の関連度および関連クエリからの到達度合を利用して文書のスコアを求めることから、クエリを入力したユーザが望むであろう文書に対して高いスコアが付与され、該文書を優先的に提示することができる。 In addition, since the score of the document is obtained by using the degree of association between both queries and the degree of achievement from the related query, a high score is given to the document that the user who inputs the query may desire, It can be preferentially presented.
なお、本発明は、上記実施形態に限定されるものではなく、例えばコンピュータを前記文書検索装置1の各機能ブロック4〜13として機能させる文書検索プログラムとしても提供することができる。このプログラムは、コンピュータに前記各機能ブロック4〜13の全ての機能を実現させるものでもよく、あるいは一部の機能を実現させるものであってもよい。 In addition, this invention is not limited to the said embodiment, For example, it can provide also as a document search program which makes a computer function as each functional block 4-13 of the said document search device 1. FIG. This program may cause the computer to realize all the functions of the functional blocks 4 to 13 or may realize a part of the functions.
このプログラムは、Webサイトなどからのダウンロードによってコンピュータに提供される。また、前記プログラムは、CD−ROM,DVD−ROM,CD−R,CD−RW,DVD−R,DVD−RW,MO,HDD,Blu−ray Disk(登録商標)などの記録媒体に格納してコンピュータに提供してもよい。 This program is provided to the computer by downloading from a website or the like. The program is stored in a recording medium such as a CD-ROM, DVD-ROM, CD-R, CD-RW, DVD-R, DVD-RW, MO, HDD, Blu-ray Disk (registered trademark). It may be provided to a computer.
1…文書検索装置
2…ユーザ端末
3…ブラウザ
4…クローラ(情報収集手段)
5…文書データベース
6…検索応答手段(検索アプリケーション)
7…検索実行手段(検索エンジン)
8…クリックログデータベース(保存手段)
9…クリックログ分析手段(集計手段)
10…分析結果データベース
11…クエリ関連性特定手段
12…クエリ関連性データベース
13…クエリ・文書関連度算出手段
S…コンテンツサーバ
DESCRIPTION OF SYMBOLS 1 ...
5 ... Document database 6 ... Search response means (search application)
7 ... Search execution means (search engine)
8 ... Click log database (storage means)
9. Click log analysis means (counting means)
DESCRIPTION OF
Claims (7)
検索履歴中に含まれるクエリと、該クエリの検索結果に対してアクセスされた電子文書とを組み合わせたログを保存する保存手段と、
前記ログに含まれるクエリの検索結果に対してアクセスされた電子文書のアクセス度合を集計する集計手段と、
前記ログに含まれるクエリ間の包含関係および置換履歴を利用して関連クエリを特定し、該両クエリ間の関連度を求める関連性特定手段と、
前記関連クエリからのアクセス度合と前記両クエリ間の関連度とを用いて、電子文書のスコアを算出する算出手段とを備え、
前記スコアを反映させた検索結果をもってユーザ端末に応答することを特徴とする文書検索装置。 A document search device for searching for an electronic document including a query instructed from a user terminal,
Storage means for storing a log combining a query included in a search history and an electronic document accessed for the search result of the query;
A counting means for counting the access degree of the electronic document accessed for the search result of the query included in the log;
Relevance specifying means for specifying a related query using an inclusion relationship and replacement history between queries included in the log, and obtaining a degree of relevance between the two queries;
Using a degree of access from the related query and a degree of relevance between the two queries, and a calculating means for calculating a score of the electronic document,
A document search apparatus that responds to a user terminal with a search result reflecting the score.
前記関連性特定手段が、前記両クエリの使用頻度の比を前記関連度として求めることを特徴とする請求項1記載の文書検索装置。 The aggregation means obtains the usage frequency of the query included in the log,
2. The document search apparatus according to claim 1, wherein the relevance specifying unit obtains a ratio of the usage frequencies of the two queries as the relevance.
該置換度合および前記使用頻度の比を基に前記関連度を求めることを特徴とする請求項2記載の文書検索装置。 The relevance specifying means further obtains the degree of replacement between the two queries,
3. The document retrieval apparatus according to claim 2, wherein the degree of association is obtained based on a ratio between the degree of substitution and the frequency of use.
検索履歴中に含まれるクエリと、該クエリの検索結果に対してアクセスされた電子文書とを組み合わせたログを保存手段に保存する第1ステップと、
集計手段が、前記ログに含まれるクエリの検索結果に対してアクセスされた電子文書のアクセス度合を集計する第2ステップと、
関連性特定手段が、前記ログに含まれるクエリ間の包含関係および置換履歴を利用して関連クエリを特定し、該両クエリ間の関連度を求める第3ステップと、
算出手段が、前記関連クエリからのアクセス度合と前記両クエリ間の関連度とを用いて電子文書のスコアを算出する第4ステップとを有し、
検索実行手段が、前記スコアを反映させた検索結果をもってユーザ端末に応答することを特徴とする文書検索方法。 A document retrieval method for retrieving an electronic document including a query instructed from a user terminal,
A first step of storing in a storage means a log combining a query included in the search history and an electronic document accessed for the search result of the query;
A second step in which the counting means counts the access degree of the electronic document accessed for the search result of the query included in the log;
A third step in which a relevance specifying unit specifies a related query using an inclusion relationship and a replacement history between the queries included in the log, and obtains a relevance between the two queries;
A calculating unit includes a fourth step of calculating a score of the electronic document using the degree of access from the related query and the degree of association between the two queries;
A document search method, wherein the search execution means responds to the user terminal with a search result reflecting the score.
前記第3ステップが、前記両クエリの使用頻度の比を前記関連度として求めることを特徴とする請求項4記載の文書検索方法。 The second step obtains the usage frequency of the query included in the log,
5. The document search method according to claim 4, wherein the third step obtains a ratio of the usage frequencies of the two queries as the relevance.
該置換度合および前記使用頻度の比を基に前記関連度を求めることを特徴とする請求項5記載の文書検索方法。 The third step further determines the degree of replacement between the two queries;
6. The document search method according to claim 5, wherein the degree of association is obtained based on a ratio between the degree of substitution and the usage frequency.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008296316A JP2010122932A (en) | 2008-11-20 | 2008-11-20 | Document retrieval device, document retrieval method, and document retrieval program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008296316A JP2010122932A (en) | 2008-11-20 | 2008-11-20 | Document retrieval device, document retrieval method, and document retrieval program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010122932A true JP2010122932A (en) | 2010-06-03 |
Family
ID=42324214
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008296316A Pending JP2010122932A (en) | 2008-11-20 | 2008-11-20 | Document retrieval device, document retrieval method, and document retrieval program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010122932A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014050002A1 (en) * | 2012-09-28 | 2014-04-03 | 日本電気株式会社 | Query degree-of-similarity evaluation system, evaluation method, and program |
JP2023516209A (en) * | 2020-04-01 | 2023-04-18 | バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド | METHOD, APPARATUS, APPARATUS AND COMPUTER-READABLE STORAGE MEDIUM FOR SEARCHING CONTENT |
-
2008
- 2008-11-20 JP JP2008296316A patent/JP2010122932A/en active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014050002A1 (en) * | 2012-09-28 | 2014-04-03 | 日本電気株式会社 | Query degree-of-similarity evaluation system, evaluation method, and program |
JPWO2014050002A1 (en) * | 2012-09-28 | 2016-08-22 | 日本電気株式会社 | Query similarity evaluation system, evaluation method, and program |
JP2023516209A (en) * | 2020-04-01 | 2023-04-18 | バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド | METHOD, APPARATUS, APPARATUS AND COMPUTER-READABLE STORAGE MEDIUM FOR SEARCHING CONTENT |
JP7451747B2 (en) | 2020-04-01 | 2024-03-18 | バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド | Methods, devices, equipment and computer readable storage media for searching content |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8117208B2 (en) | System for entity search and a method for entity scoring in a linked document database | |
US7984035B2 (en) | Context-based document search | |
JP5494454B2 (en) | Search result generation method, search result generation program, and search system | |
US20130282693A1 (en) | Object oriented data and metadata based search | |
US8977625B2 (en) | Inference indexing | |
JP5329540B2 (en) | User-centric information search method, computer-readable recording medium, and user-centric information search system | |
JP2013516022A (en) | Cluster and present search suggestions | |
JP5040396B2 (en) | Web page search program, method, and apparatus | |
KR100671077B1 (en) | Server, Method and System for Providing Information Search Service by Using Sheaf of Pages | |
JP4759600B2 (en) | Text search device, text search method, text search program and recording medium thereof | |
JP2010123036A (en) | Document retrieval device, document retrieval method and document retrieval program | |
JP5286007B2 (en) | Document search device, document search method, and document search program | |
JP2010122932A (en) | Document retrieval device, document retrieval method, and document retrieval program | |
JP5416552B2 (en) | Ranking function generation device, ranking function generation method, ranking function generation program | |
JP2010286888A (en) | Information collection system, information collection method, and program therefor | |
JP5358481B2 (en) | Document search apparatus, document search method, and document search program | |
KR100942902B1 (en) | A method of searching web page and computer readable recording media for recording the method program | |
JP4634821B2 (en) | Document search method, document search apparatus, and storage medium storing document search program | |
JP2003162540A (en) | Data retrieval device and data retrieval method | |
JP5292322B2 (en) | Document search method, document search apparatus, and document search program | |
JP5903370B2 (en) | Information search apparatus, information search method, and program | |
JP5525424B2 (en) | Document search apparatus, document search method, and document search program | |
JP2010231344A (en) | Device for preparing reference data for retrieval, information retrieval device, method of preparing reference data for retrieval and information retrieval method | |
KR100645711B1 (en) | Server, Method and System for Providing Information Search Service by Using Web Page Segmented into Several Information Blocks | |
JP2000148778A (en) | Information retrieval assisting method and record medium where information retrieving program is recorded |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20100610 |