JP4922240B2 - Retrieval processing apparatus, method, and program for selectively applying pseudo feedback processing in web retrieval - Google Patents

Retrieval processing apparatus, method, and program for selectively applying pseudo feedback processing in web retrieval Download PDF

Info

Publication number
JP4922240B2
JP4922240B2 JP2008146751A JP2008146751A JP4922240B2 JP 4922240 B2 JP4922240 B2 JP 4922240B2 JP 2008146751 A JP2008146751 A JP 2008146751A JP 2008146751 A JP2008146751 A JP 2008146751A JP 4922240 B2 JP4922240 B2 JP 4922240B2
Authority
JP
Japan
Prior art keywords
search
query
input query
input
web document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008146751A
Other languages
Japanese (ja)
Other versions
JP2009294836A (en
Inventor
澄男 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2008146751A priority Critical patent/JP4922240B2/en
Publication of JP2009294836A publication Critical patent/JP2009294836A/en
Application granted granted Critical
Publication of JP4922240B2 publication Critical patent/JP4922240B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、擬似フィードバック処理を適用する検索処理装置、方法及びプログラムに関する。   The present invention relates to a search processing apparatus, method, and program that apply pseudo feedback processing.

従来、情報検索の分野においては、擬似フィードバック処理の技術が適用されて、特に大規模なテストコレクションを用いた評価では、その有効性が確認されている(非特許文献1及び2参照)。   Conventionally, in the field of information retrieval, the technology of pseudo feedback processing has been applied, and its effectiveness has been confirmed particularly in evaluation using a large-scale test collection (see Non-Patent Documents 1 and 2).

しかしながら、Web検索においては、擬似フィードバック処理の技術は、利用されることが少ない。その理由として、擬似フィードバック処理は、ターム追加による検索処理の負荷の増大があげられる。しかし、近年のハードウェアの高性能化等により、比較的安価に高負荷の検索処理を実行することが可能になってきた。   However, in the Web search, the technique of pseudo feedback processing is rarely used. The reason for this is that the pseudo-feedback processing increases the search processing load due to the term addition. However, with the recent enhancement of hardware performance and the like, it has become possible to execute high-load search processing at a relatively low cost.

さらに、擬似フィードバック処理の問題として、Web検索においては、擬似フィードバック処理で改善されるのは、主に検索結果の再現率であり、最上位の検索精度が重要なWeb検索においては有効でないという考え方がある。特にWeb検索においては、ナビゲーション指向、トランザクション指向等の検索要求が多用されており、そのような検索要求に対しては、有用な検索結果を上位に提示することが、Web検索サービスを提供する上で重要な要素となっている。
Fujita,S.(2005).A decade after TREC−4: NTCIR−5 CLIR−J−J experiments at Yahoo!Japan. In, Proceedings of NTCIR Workshop 5 Meeting, (pp. 130−137). Fujita,S.(2007).Technology survey and invalidity search: a comparative study of different tasks for Japanese patent document retrieval. Information Processing and Management: an International Journal, 43(5), 1154−1172
Further, as a problem of pseudo feedback processing, in web search, what is improved by pseudo feedback processing is mainly the reproduction rate of search results, and the idea that it is not effective in web search where the highest search accuracy is important. There is. Particularly in web search, search requests such as navigation-oriented and transaction-oriented are frequently used, and in order to provide a web search service, it is possible to present useful search results to the top for such search requests. It is an important element.
Fujita, S .; (2005). A decade after TREC-4: NTCIR-5 CLIR-J-experiments at Yahoo! Japan. In, Proceedings of NTCIR Workshop 5 Meeting, (pp. 130-137). Fujita, S .; (2007). Technology survey and invalidity search: a comparable study of differential tasks for Japan patent document retrial. Information Processing and Management: an International Journal, 43 (5), 1154-1172.

しかしながら、Web検索においても、通常の情報検索同様の情報指向型の検索要求もあり、この場合においては、検索結果の再現率も重要な要素となる。そこでは、擬似フィードバック処理は、有効な技術で有り得ることが、非特許文献1及び2に開示されている。   However, even in the Web search, there is an information-oriented search request similar to a normal information search. In this case, the reproduction rate of the search result is also an important factor. It is disclosed in Non-Patent Documents 1 and 2 that pseudo feedback processing can be an effective technique.

そこで、本発明は、情報指向型の検索要求に対して選択的に擬似フィードバック処理を適用する検索処理装置を提供することを目的の一つとする。   Accordingly, an object of the present invention is to provide a search processing apparatus that selectively applies a pseudo feedback process to an information-oriented search request.

本発明では、以下のような解決手段を提供する。   The present invention provides the following solutions.

(1)Web文書の検索を検索エンジンにより実行する検索処理装置であって、前記検索エンジンへの入力である入力クエリを受け付ける受付手段と、所定の条件に基づいて、前記受け付けた入力クエリが当該入力クエリに関する複数のWeb文書を検索結果として取得することを要求する情報指向型の検索要求であるか否かの判断を行う判断手段と、前記判断手段により判断された結果に基づいて、複数の異なる検索処理を選択する選択手段と、前記選択手段により選択された検索処理を適用して前記検索エンジンにより前記入力クエリに応じたWeb文書の検索を実行する検索実行手段と、前記検索実行手段により検索されたWeb文書を検索結果として取得する検索結果取得手段とを備え、前記検索実行手段は、少なくとも擬似フィードバック検索処理と前記検索エンジンによる通常の検索処理とを有し、前記選択手段は、前記判断手段により判断された結果、前記入力クエリが当該入力クエリに関する複数のWeb文書を検索結果として取得することを要求する情報指向型の検索要求である場合には、前記擬似フィードバック検索処理を選択し、前記検索実行手段は、前記擬似フィードバック検索処理を適用して前記検索エンジンにより前記入力クエリに応じたWeb文書の検索を実行することを特徴とする検索処理装置。   (1) A search processing device that executes a search of a Web document by a search engine, and a receiving unit that receives an input query that is an input to the search engine, and the received input query is based on a predetermined condition A determination unit configured to determine whether the request is an information-oriented search request for acquiring a plurality of Web documents related to an input query as a search result, and based on a result determined by the determination unit, a plurality of A selection unit that selects different search processes, a search execution unit that applies the search process selected by the selection unit, and executes a search for a Web document according to the input query by the search engine, and the search execution unit Search result acquisition means for acquiring a searched Web document as a search result, wherein the search execution means includes at least a pseudo-feature. Back search processing and normal search processing by the search engine, and the selection means obtains a plurality of Web documents related to the input query as search results as a result of the judgment by the judgment means. The pseudo-feedback search process is selected, and the search execution means applies the pseudo-feedback search process to the Web corresponding to the input query by the search engine. A search processing apparatus for performing a search for a document.

(1)の構成によれば、検索処理装置は、検索エンジンへの入力である入力クエリを受け付け、所定の条件に基づいて、受け付けた入力クエリがこの入力クエリに関する複数のWeb文書を検索結果として取得することを要求する情報指向型の検索要求であるか否かの判断を行い、判断された結果に基づいて、複数の異なる検索処理を選択し、選択された検索処理を適用して検索エンジンにより入力クエリに応じたWeb文書の検索を実行し、検索されたWeb文書を検索結果として取得する。そして、検索処理装置は、少なくとも擬似フィードバック検索処理と前記検索エンジンによる通常の検索処理とを有し、判断された結果、入力クエリが当該入力クエリに関する複数のWeb文書を検索結果として取得することを要求する情報指向型の検索要求である場合には、擬似フィードバック検索処理を選択し、検索実行手段は、擬似フィードバック検索処理を適用して検索エンジンにより入力クエリに応じたWeb文書の検索を実行する。   According to the configuration of (1), the search processing device accepts an input query that is an input to the search engine, and based on a predetermined condition, the accepted input query uses a plurality of Web documents related to the input query as search results. A search engine that determines whether the request is an information-oriented search request that needs to be acquired, selects a plurality of different search processes based on the determined result, and applies the selected search process Thus, a search for a Web document corresponding to the input query is executed, and the searched Web document is acquired as a search result. The search processing apparatus includes at least a pseudo feedback search process and a normal search process by the search engine. As a result of the determination, the input query acquires a plurality of Web documents related to the input query as a search result. If the request is an information-oriented search request, the pseudo-feedback search process is selected, and the search execution means applies the pseudo-feedback search process and executes a search for the Web document according to the input query by the search engine. .

これにより、検索処理装置は、入力クエリの検索要求に応じた検索処理を検索エンジンにより実行できるため、入力クエリの検索要求に応じた検索結果をユーザに提供することができる。また、検索処理装置は、擬似フィードバック検索処理を適用して入力クエリと付加された特徴タームとをクエリとして検索を実行することにより、情報指向型の検索要求に対して再現率の高い検索結果を提供することができる。   Thus, the search processing device can execute a search process according to the search request for the input query by the search engine, and thus can provide the user with a search result according to the search request for the input query. In addition, the search processing device applies a pseudo-feedback search process and executes a search using the input query and the added feature terms as a query, thereby obtaining a search result with a high reproducibility for an information-oriented search request. Can be provided.

(2)前記選択手段は、前記判断手段により判断された結果、前記入力クエリが当該入力クエリに関する複数のWeb文書を検索結果として取得することを要求しない検索要求である場合には、前記通常検索処理を選択し、前記検索実行手段は、前記通常検索処理を適用して前記検索エンジンにより前記入力クエリに応じてWeb文書の検索を実行することを特徴とする(1)に記載の検索処理装置。   (2) When the selection unit determines that the input query is a search request that does not require a plurality of Web documents related to the input query as search results, the normal search is performed. The search processing device according to (1), wherein a search is selected, and the search execution unit applies the normal search process and executes a search for a Web document according to the input query by the search engine. .

(2)の構成によれば、検索処理装置は、判断された結果、入力クエリがこの入力クエリに関する複数のWeb文書を検索結果として取得することを要求しない検索要求である場合には、通常検索処理を選択し、通常検索処理を適用して検索エンジンにより入力クエリに応じてWeb文書の検索を実行する。   According to the configuration of (2), the search processing device performs normal search when the input query is a search request that does not require a plurality of Web documents related to the input query to be acquired as search results. A process is selected, a normal search process is applied, and a search engine executes a Web document search according to the input query.

これにより、検索処理装置は、通常検索処理を適用して検索を実行することにより、情報指向型でないの検索要求(ナビゲーション指向型やトランザクション指向型の検索要求)に対して、好適な検索結果を提供することができる。   As a result, the search processing device performs a search by applying the normal search process, thereby obtaining suitable search results for non-information-oriented search requests (navigation-oriented and transaction-oriented search requests). Can be provided.

(3)クエリを記憶する記憶手段と、前記記憶手段から所定のクエリを抽出する抽出手段と、前記抽出されたクエリを用いて分類器の機械学習を行う機械学習手段と、前記機械学習が行われた分類器により前記抽出されたクエリを分類する分類手段と、前記分類されたクエリを記憶するクエリ記憶手段をさらに備え、前記判断手段は、前記所定の条件として、前記分類されたクエリと前記受け付けた入力クエリとが一致するか否かによって判断を行うことを特徴とする(1)に記載の検索処理装置。   (3) storage means for storing a query; extraction means for extracting a predetermined query from the storage means; machine learning means for performing machine learning of a classifier using the extracted query; A classifying unit that classifies the extracted query by a classifier; and a query storage unit that stores the classified query. The determination unit includes the classified query and the query as the predetermined condition. The search processing apparatus according to (1), wherein the determination is made based on whether or not the received input query matches.

(3)の構成によれば、検索処理装置は、機械学習された分類器によりクエリを分類し、所定の条件として、分類されたクエリと受け付けた入力クエリとが一致するか否かによって判断を行う。   According to the configuration of (3), the search processing device classifies the query by the machine-learned classifier, and determines whether or not the classified query matches the received input query as a predetermined condition. Do.

これにより、検索処理装置は、分類されたクエリに基づいて、入力クエリが情報指向型の検索要求であるか否かを判断行うことができる。   Thereby, the search processing device can determine whether or not the input query is an information-oriented search request based on the classified query.

(4)前記判断手段は、前記所定の条件として、前記受け付けた入力クエリと当該入力クエリに応じて前記検索エンジンにより検索された検索結果に含まれるWeb文書のうち、前記入力クエリを入力したユーザの操作する端末装置によって選択されたWeb文書とに基づいて算出された値が所定の閾値を超える否かによって判断を行うことを特徴とする(1)に記載の検索処理装置。   (4) The determination unit is a user who inputs the input query as the predetermined condition, out of the received input query and a Web document included in a search result searched by the search engine according to the input query. The search processing device according to (1), wherein a determination is made based on whether or not a value calculated based on a Web document selected by a terminal device operated by the user exceeds a predetermined threshold.

(4)の構成によれば、検索処理装置は、所定の条件として、受け付けた入力クエリとこの入力クエリに応じて検索エンジンにより検索された検索結果に含まれるWeb文書のうち、入力クエリを入力したユーザの操作する端末装置によって選択されたWeb文書とに基づいて算出された値が所定の閾値を超える否かによって判断を行う。   According to the configuration of (4), the search processing device inputs an input query as a predetermined condition among the received input query and the Web document included in the search result searched by the search engine according to the input query. The determination is made based on whether or not the value calculated based on the Web document selected by the terminal device operated by the user exceeds a predetermined threshold.

これにより、検索処理装置は、算出された値が所定の閾値を超えたか否かにより入力クエリが情報指向型の検索要求であるか否かの判断を行うことができる。   Thereby, the search processing apparatus can determine whether or not the input query is an information-oriented search request based on whether or not the calculated value exceeds a predetermined threshold.

(5)Web文書の検索を検索エンジンにより実行する検索処理装置であって、前記検索エンジンへの入力である入力クエリを受け付ける受付手段と、通常検索処理を適用して前記検索エンジンにより前記受け付けた入力クエリに応じたWeb文書の検索を実行する第1検索実行手段と、前記第1検索実行手段により検索されたWeb文書を第1検索結果として取得する第1検索結果取得手段と、擬似フィードバック検索処理を適用して前記検索エンジンにより前記受け付けた入力クエリに応じたWeb文書の検索を実行する第2検索実行手段と、前記第2検索実行手段により検索されたWeb文書を第2検索結果として取得する第2検索結果取得手段と、前記取得された第1検索結果のうち、所定数のWeb文書を含む検索結果と、前記取得された第2検索結果のうち、前記所定数のWeb文書の検索結果と重複するWeb文書の検索結果を除いた検索結果とを併合して、一の検索結果とする検索結果併合手段とを備えることを特徴とする検索処理装置。   (5) A search processing apparatus that executes a search for a Web document by a search engine, and accepting means for accepting an input query that is an input to the search engine; and accepting the search by the search engine by applying normal search processing A first search execution means for executing a search for a Web document according to an input query; a first search result acquisition means for acquiring the Web document searched by the first search execution means as a first search result; and a pseudo feedback search. A second search execution unit that executes a search of a Web document according to the received input query by the search engine by applying a process, and acquires the Web document searched by the second search execution unit as a second search result Second search result acquisition means, a search result including a predetermined number of Web documents among the acquired first search results, and the capture A search result merging unit that merges the search results of the predetermined number of Web documents with the search results excluding the duplicate Web document search results into one search result. A search processing apparatus characterized by that.

(5)の構成によれば、検索処理装置は、検索エンジンへの入力である入力クエリを受け付け、通常検索処理を適用して検索エンジンにより受け付けた入力クエリに応じたWeb文書の検索を実行し、検索されたWeb文書を第1検索結果として取得し、擬似フィードバック検索処理を適用して検索エンジンにより受け付けた入力クエリに応じたWeb文書の検索を実行し、検索されたWeb文書を第2検索結果として取得し、取得された第1検索結果のうち、所定数のWeb文書を含む検索結果と、取得された第2検索結果のうち、所定数のWeb文書の検索結果と重複するWeb文書の検索結果を除いた検索結果とを併合して、一の検索結果とする。   According to the configuration of (5), the search processing device receives an input query that is an input to the search engine, and executes a search for a Web document according to the input query received by the search engine by applying a normal search process. The retrieved Web document is acquired as the first search result, the pseudo-feedback search process is applied, the Web document is searched according to the input query received by the search engine, and the searched Web document is second searched. As a result, a search result including a predetermined number of Web documents among the acquired first search results and a Web document that overlaps with a search result of the predetermined number of Web documents among the acquired second search results. The search results excluding the search results are merged into one search result.

これにより、検索処理装置は、例えば、情報指向型の検索要求でない可能性が高い1ページ目の検索結果については、通常検索処理によって得られた検索結果をユーザに提供することができる。そして、検索処理装置は、情報指向型の検索要求である可能性が高い2ページ目以降の検索結果については、擬似フィードバック検索処理によって得られた検索結果をユーザに提供することができる。   Thereby, the search processing device can provide the user with the search result obtained by the normal search process for the search result of the first page, which is highly likely not to be an information-oriented search request, for example. The search processing device can provide the user with the search results obtained by the pseudo feedback search process for the search results for the second and subsequent pages that are likely to be information-oriented search requests.

(6)Web文書の検索を検索エンジンにより実行する検索処理方法であって、前記検索エンジンへの入力である入力クエリを受け付ける受付ステップと、所定の条件に基づいて、前記受け付けた入力クエリが当該入力クエリに関する複数のWeb文書を検索結果として取得することを要求する情報指向型の検索要求であるか否かの判断を行う判断ステップと、前記判断ステップにより判断された結果に基づいて、複数の異なる検索処理を選択する選択ステップと、前記選択ステップにより選択された検索処理を適用して前記検索エンジンにより前記入力クエリに応じたWeb文書の検索を実行する検索実行ステップと、前記検索実行ステップにより検索されたWeb文書を検索結果として取得する検索結果取得ステップとを備え、前記検索実行ステップは、少なくとも擬似フィードバック検索処理と前記検索エンジンによる通常の検索処理とを有し、前記選択ステップは、前記判断ステップにより判断された結果、前記入力クエリが当該入力クエリに関する複数のWeb文書を検索結果として取得することを要求する情報指向型の検索要求である場合には、前記擬似フィードバック検索処理を選択し、前記検索実行ステップは、前記擬似フィードバック検索処理を適用して前記検索エンジンにより前記入力クエリに応じたWeb文書の検索を実行することを特徴とする検索処理方法。   (6) A search processing method for executing a search for a Web document by a search engine, wherein a reception step of receiving an input query that is an input to the search engine, and the received input query is based on a predetermined condition A determination step for determining whether or not an information-oriented search request for acquiring a plurality of Web documents related to an input query as a search result, and a plurality of determinations based on the result determined by the determination step A selection step of selecting a different search process, a search execution step of applying a search process selected in the selection step and executing a search of a Web document according to the input query by the search engine, and the search execution step A search result acquisition step of acquiring the searched Web document as a search result, The line step includes at least a pseudo feedback search process and a normal search process by the search engine. As a result of the determination in the determination step, the input query includes a plurality of Web documents related to the input query. In the case of an information-oriented search request that requires acquisition as a search result, the pseudo feedback search process is selected, and the search execution step applies the pseudo feedback search process to the search engine by the search engine. A search processing method characterized by executing a search for a Web document according to an input query.

(7)Web文書の検索を検索エンジンにより実行する検索処理装置のコンピュータにより実行されるコンピュータプログラムであって、前記検索エンジンへの入力である入力クエリを受け付ける受付ステップと、所定の条件に基づいて、前記受け付けた入力クエリが当該入力クエリに関する複数のWeb文書を検索結果として取得することを要求する情報指向型の検索要求であるか否かの判断を行う判断ステップと、前記判断ステップにより判断された結果に基づいて、複数の異なる検索処理を選択する選択ステップと、前記選択ステップにより選択された検索処理を適用して前記検索エンジンにより前記入力クエリに応じたWeb文書の検索を実行する検索実行ステップと、前記検索実行ステップにより検索されたWeb文書を検索結果として取得する検索結果取得ステップとを備え、前記検索実行ステップは、少なくとも擬似フィードバック検索処理と前記検索エンジンによる通常の検索処理とを有し、前記選択ステップは、前記判断ステップにより判断された結果、前記入力クエリが当該入力クエリに関する複数のWeb文書を検索結果として取得することを要求する情報指向型の検索要求である場合には、前記擬似フィードバック検索処理を選択し、前記検索実行ステップは、前記擬似フィードバック検索処理を適用して前記検索エンジンにより前記入力クエリに応じたWeb文書の検索を実行することをコンピュータに実行させるコンピュータプログラム。   (7) A computer program executed by a computer of a search processing apparatus that executes a search for a Web document by a search engine, based on a reception step for receiving an input query that is an input to the search engine, and a predetermined condition A determination step for determining whether or not the received input query is an information-oriented search request for requesting acquisition of a plurality of Web documents related to the input query as a search result; and the determination step A selection step of selecting a plurality of different search processes based on the results of the search, and a search execution in which the search engine is applied to search the Web document according to the input query by applying the search process selected in the selection step And a Web document searched by the search execution step A search result acquisition step to be acquired, wherein the search execution step includes at least a pseudo feedback search process and a normal search process by the search engine, and the selection step is a result determined by the determination step. , If the input query is an information-oriented search request that requires a plurality of Web documents related to the input query to be acquired as search results, the pseudo feedback search process is selected, and the search execution step includes: A computer program that causes a computer to execute search of a Web document according to the input query by the search engine by applying the pseudo feedback search processing.

本発明によれば、情報指向型の検索要求に対して選択的に擬似フィードバック処理を適用する検索処理装置を提供することができる。   According to the present invention, it is possible to provide a search processing device that selectively applies a pseudo feedback process to an information-oriented search request.

以下、本発明の実施形態について図面を参照しながら説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

[用語の定義]
「Web文書」とは、Webページに代表される、WWW(World Wide Web)上のテキストから構成されるテキスト文書、テキストを含まない画像、画像とテキストが混在している混在文書、動画、音声、といった各種情報を含むものとする。
[Definition of terms]
“Web document” means a text document composed of text on the WWW (World Wide Web), represented by a Web page, an image not including text, a mixed document in which images and text are mixed, video, audio , And the like.

「情報指向型の検索要求」とは、、特定のトピックに関する1件もしくは複数件のWeb文書を獲得することを要求する検索である。例えば、「自動車」に関する様々な情報を収集したい場合等は、この検索要求に当たる。
「ナビゲーション指向型の検索要求」とは、ある特定のWeb文書(又はある対象物の代表的なWeb文書)に到達することを要求する検索である。例えば、ある特定の大学のホームページに到達することを目的とするような検索は、この検索要求に当たる。
「トランザクション指向型の検索要求」とは、インタラクションを伴うようなWeb文書(オンラインショッピング、Webが仲介する様々なサービス等)に到達することを要求する検索である。例えば、東京都に存在するホテルから自分の要求に合ったホテルを探し、予約することを目的としたような検索は、この検索要求に当たる。
The “information-oriented search request” is a search for requesting acquisition of one or a plurality of Web documents related to a specific topic. For example, when it is desired to collect various information related to “automobile”, this search request is made.
The “navigation-oriented search request” is a search requesting to reach a specific Web document (or a typical Web document of a certain object). For example, a search for the purpose of reaching a certain university homepage corresponds to this search request.
A “transaction-oriented search request” is a search requesting to reach a Web document (online shopping, various services mediated by the Web, etc.) that involves interaction. For example, a search for searching for a hotel that meets one's request from hotels in Tokyo and making a reservation corresponds to this search request.

[検索システム1の機能構成]
図1は、本発明の検索処理装置の一実施形態に係る検索システム1を示すブロック図である。検索サーバ(検索処理装置)10、端末装置20、及びコンテンツサーバ30は、通信回線40を介して接続されている。端末装置20のユーザは、検索サーバ10にアクセスし、所定の検索エンジンに対して、所望のWeb文書に辿り着くためのクエリ(検索キーワード)を入力することにより、検索結果を取得する。ユーザは、この検索結果にリストされたURLを選択し、コンテンツサーバ30にて管理されるWeb文書を閲覧する。
[Functional configuration of search system 1]
FIG. 1 is a block diagram showing a search system 1 according to an embodiment of the search processing apparatus of the present invention. The search server (search processing device) 10, the terminal device 20, and the content server 30 are connected via a communication line 40. A user of the terminal device 20 accesses the search server 10 and acquires a search result by inputting a query (search keyword) for reaching a desired Web document to a predetermined search engine. The user selects a URL listed in the search result and browses a Web document managed by the content server 30.

端末装置20は、パソコン、携帯電話機、PHS(Personal Handy−phone System:登録商標)、モバイル、ノートPC、PDA(Personal Digital Assistant)等の端末装置を代表とするものであり、有線又は無線通信を行う通信回線40を介して、検索サーバ10から送信される情報を参照できるものであればどのようなものでもよい。また、検索サーバ10は、必要に応じてWebサーバ、DBサーバ、アプリケーションサーバを含んで構成してよく、1台のサーバで構成しても、それぞれ別のサーバで構成してもよい。   The terminal device 20 is typified by a terminal device such as a personal computer, a mobile phone, a PHS (Personal Handy-phone System: registered trademark), a mobile, a notebook PC, or a PDA (Personal Digital Assistant), and performs wired or wireless communication. Any information can be used as long as the information transmitted from the search server 10 can be referred to via the communication line 40 to be used. Further, the search server 10 may be configured to include a Web server, a DB server, and an application server as necessary, and may be configured with one server or different servers.

[検索サーバ10のハードウェア構成]
図2は、本発明の一実施形態に係る検索サーバ10のハードウェア構成の一例を示す図である。図2に示すように、CPU11(マルチプロセッサ構成ではCPU12等複数のCPUが追加されてもよい)、通信I/F(I/F:インターフェイス)13、メインメモリ14、表示装置15、I/Oコントローラ16、並びにキーボード及びマウス等の入力装置17がバスラインBUSにより接続されて検索サーバ10を構成する。
[Hardware Configuration of Search Server 10]
FIG. 2 is a diagram illustrating an example of a hardware configuration of the search server 10 according to an embodiment of the present invention. As shown in FIG. 2, a CPU 11 (a plurality of CPUs such as a CPU 12 may be added in a multiprocessor configuration), a communication I / F (I / F: interface) 13, a main memory 14, a display device 15, an I / O The search server 10 is configured by a controller 16 and an input device 17 such as a keyboard and a mouse connected by a bus line BUS.

CPU11(CPU12)は、検索サーバ10を統括的に制御する部分であり、後述するハードディスク18aに記憶された各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。   The CPU 11 (CPU 12) is a part that controls the search server 10 in an integrated manner. The CPU 11 (CPU 12) cooperates with the above-described hardware by appropriately reading and executing various programs stored in the hard disk 18a, which will be described later. Various functions are realized.

通信I/F13は、検索サーバ10が、通信回線40を介して端末装置20から各種の入力情報を受け取ったり、また表示装置15への表示内容を送信したりする場合のネットワーク・アダプタである。通信I/F13は、モデム、ケーブル・モデム及びイーサネット(登録商標)・アダプタを含んでよい。   The communication I / F 13 is a network adapter when the search server 10 receives various input information from the terminal device 20 via the communication line 40 and transmits display contents to the display device 15. The communication I / F 13 may include a modem, a cable modem, and an Ethernet (registered trademark) adapter.

表示装置15は、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置を含む。I/Oコントローラ16には、ハードディスク18a、及び半導体メモリ18b等の記憶装置18を接続することができる。入力装置17は、検索サーバ10の管理者による入力の受け付けを行うものである。ハードディスク18aは、本ハードウェアを検索サーバ10として機能させるための各種プログラム、本発明の機能を実行するプログラム及び後述するテーブル等を記憶する。なお、検索サーバ10は、外部に別途設けたハードディスク(図示せず)を外部記憶装置として利用することもできる。   The display device 15 includes a display device such as a cathode ray tube display device (CRT) or a liquid crystal display device (LCD). The I / O controller 16 can be connected to a storage device 18 such as a hard disk 18a and a semiconductor memory 18b. The input device 17 accepts input by the administrator of the search server 10. The hard disk 18a stores various programs for causing the hardware to function as the search server 10, a program for executing the functions of the present invention, a table to be described later, and the like. The search server 10 can also use a hard disk (not shown) separately provided as an external storage device.

以上の例は、検索サーバ10について主に説明したが、コンピュータに、プログラムをインストールして、そのコンピュータをサーバ装置として動作させることにより上記で説明した機能を実現することもできる。したがって、本発明において一実施形態として説明した検索サーバ10により実現される機能は、上述の方法を当該コンピュータにより実行することにより、或いは、上述のプログラムを当該コンピュータに導入して実行することによっても実現可能である。   In the above example, the search server 10 has been mainly described. However, the functions described above can also be realized by installing a program in a computer and operating the computer as a server device. Therefore, the functions realized by the search server 10 described as an embodiment in the present invention can be realized by executing the above-described method by the computer, or by introducing the above-described program into the computer and executing it. It is feasible.

<第1実施形態>
[検索サーバの機能構成]
図3は、本発明の検索処理装置の一実施形態である検索サーバ10の機能ブロック図である。検索サーバ10は、クリックデータ蓄積部111と、判断条件記憶部112と、抽出部118と、機械学習部119と、分類部120と、クエリテーブル作成部121と、エントロピー演算部122と、クエリ受付部123と、判断部124と、選択部125と、検索実行部126と、検索結果取得部127と、検索結果送信部128と、を備える。
<First Embodiment>
[Search server functional configuration]
FIG. 3 is a functional block diagram of the search server 10 which is an embodiment of the search processing apparatus of the present invention. The search server 10 includes a click data storage unit 111, a determination condition storage unit 112, an extraction unit 118, a machine learning unit 119, a classification unit 120, a query table creation unit 121, an entropy calculation unit 122, and a query reception. Unit 123, determination unit 124, selection unit 125, search execution unit 126, search result acquisition unit 127, and search result transmission unit 128.

クリックデータ蓄積部111、判断条件記憶部112は、主として記憶装置18により構成される。また、クエリテーブル作成部121、エントロピー演算部122、クエリ受付部123、判断部124、選択部125、検索実行部126、検索結果取得部127、検索結果送信部128は、主としてCPU11(CPU12)により構成される。   The click data storage unit 111 and the determination condition storage unit 112 are mainly configured by the storage device 18. The query table creation unit 121, entropy calculation unit 122, query reception unit 123, determination unit 124, selection unit 125, search execution unit 126, search result acquisition unit 127, and search result transmission unit 128 are mainly executed by the CPU 11 (CPU 12). Composed.

クリックデータ蓄積部111は、クエリと、このクエリを検索キーワードとして検索エンジンにより検索された検索結果のURL(Uniform Resource Locator)のうち、ユーザの操作する端末装置20により選択(クリック)されたURL(以下クリックURLという)とを対応付けて履歴データとして記憶する。履歴データは、例えば、図4に示すように、クリックデータテーブル111aとして蓄積的に記憶される。図4に示すクリックデータテーブル111aには、クエリ、クリックURL、クリックURLの検索ランク、クリックURLを選択した端末のIPアドレス、選択された時間、及びセッションが対応付けて記憶されている。   The click data accumulating unit 111 selects (clicks) a URL selected (clicked) by the terminal device 20 operated by the user among the query and a URL (Uniform Resource Locator) of the search result searched by the search engine using the query as a search keyword. (Hereinafter referred to as “click URL”) in association with each other and stored as history data. The history data is stored accumulatively as a click data table 111a, for example, as shown in FIG. The click data table 111a illustrated in FIG. 4 stores a query, a click URL, a search rank of the click URL, an IP address of a terminal that has selected the click URL, a selected time, and a session in association with each other.

判断条件記憶手段(所定の条件)112は、判断部124の処理に用いられるクエリテーブル113、閾値114を記憶する。図5にクエリテーブル113の一例を示す。クエリテーブル113は、クエリと、このクエリを整理するための番号とが記憶されている。例えば、番号1は、クエリ「ト○タ」である。番号2は、クエリ「ア×ゼ」である。番号3は、クエリ「メ□ネ」である。番号4は、クエリ「マ△ス」である。クエリテーブル113は、クエリテーブル作成部121により作成され、情報指向型の検索要求である所定のクエリが記憶されている。   The determination condition storage unit (predetermined condition) 112 stores a query table 113 and a threshold value 114 that are used for the processing of the determination unit 124. FIG. 5 shows an example of the query table 113. The query table 113 stores a query and a number for organizing the query. For example, the number 1 is the query “total”. The number 2 is the query “A × Z”. Number 3 is the query “menu”. Number 4 is the query “Ma Δ”. The query table 113 is created by the query table creation unit 121 and stores a predetermined query that is an information-oriented search request.

抽出部118は、クリックデータテーブル111aを参照して、クリックURLが選択された回数を示す頻度を算出し、頻度の大きいクエリを抽出する。そして、抽出部118は、抽出されたクエリから学習素性を抽出する。   The extraction unit 118 refers to the click data table 111a, calculates a frequency indicating the number of times the click URL has been selected, and extracts a query with a high frequency. Then, the extraction unit 118 extracts a learning feature from the extracted query.

機械学習部119は、抽出部118によりクリックデータテーブル111aから抽出されたクエリの一部を用いて分類器の機械学習を行う。
分類部120は、機械学習部119により学習された分類器を用いて抽出部118によりクリックデータテーブル111aから抽出されたクエリの残り全部を自動的に分類する。このとき、分類部120は、分類器を用いて抽出されたクエリの残り全部が情報指向型の検索要求であるか否かを分類する。
The machine learning unit 119 performs machine learning of the classifier using a part of the query extracted from the click data table 111a by the extraction unit 118.
The classification unit 120 automatically classifies all the remaining queries extracted from the click data table 111 a by the extraction unit 118 using the classifier learned by the machine learning unit 119. At this time, the classification unit 120 classifies whether or not all the remaining queries extracted using the classifier are information-oriented search requests.

クエリテーブル作成部121は、分類部120により分類されたクエリのうち、情報指向型の検索要求であるクエリをクエリテーブル113として判断条件記憶部112に記憶する。   The query table creation unit 121 stores a query that is an information-oriented search request among the queries classified by the classification unit 120 as the query table 113 in the determination condition storage unit 112.

エントロピー演算部122は、クリックデータテーブル111aを参照し、クエリ受付部123により受け付けた入力クエリと一致するクエリが存在する場合には、このクエリ(入力クエリ)と、このクエリに対応付けられたクリックURLとに基づいて、クエリに対するクリックURLのエントロピーを算出する。   The entropy calculation unit 122 refers to the click data table 111a, and when there is a query that matches the input query received by the query reception unit 123, the query (input query) and the click associated with the query Based on the URL, the entropy of the click URL for the query is calculated.

例えば、クリックデータテーブル111aの特定のクエリ「自動車」についての履歴データを集計することにより、あるURL「http://xxx.yyy.zzz」がクリックされる確率P(http://xxx.yyy.zzz|自動車)を得ることができる。   For example, the probability P (http: //xxx.yyy) that a certain URL “http: //xxx.yyy.zzz” is clicked by aggregating history data for a specific query “car” in the click data table 111a. .Zzz | car).

このようにして、入力クエリ(q)に対してあるクリックURL(u)がクリックされる確率P(u|q)から、入力クエリに対するクリックURLのエントロピーを求めることができる。そして、エントロピー演算部122は、以下の式(1)に示す正規化されたエントロピーの定義に基づいて、エントロピーH(U)を算出する。

Figure 0004922240
ただし、0・log0=0とする。ここで、qはクエリ、uはクエリqのクリックURLである。また、クリックURLがただ一つである場合には、エントロピーH(U)は、0になり、全てのクリックURLが等確率でクリックされた場合、log(|U|)になる。 In this way, the entropy of the click URL for the input query can be obtained from the probability P (u | q) that a certain click URL (u) is clicked for the input query (q). And the entropy calculating part 122 calculates entropy H (U) based on the definition of the normalized entropy shown to the following formula | equation (1).
Figure 0004922240
However, 0 · log0 = 0. Here, q is a query, and u is a click URL of the query q. In addition, when there is only one click URL, entropy H (U) becomes 0, and when all click URLs are clicked with equal probability, it becomes log (| U |).

クエリ受付部123は、端末装置20を操作するユーザによって入力された、検索エンジンへの入力である入力クエリを通信回線40を介して受け付ける。   The query receiving unit 123 receives an input query, which is an input to the search engine, input by a user who operates the terminal device 20 via the communication line 40.

判断部124は、所定の条件に基づいて、クエリ受付部123が受け付けた入力クエリが、この入力クエリに関する複数のWeb文書を検索結果として取得することを要求する情報指向型の検索要求であるか否かの判断を行う。   Whether the determination unit 124 is an information-oriented search request for requesting that the input query received by the query reception unit 123 be acquired as a search result from a plurality of Web documents related to the input query based on a predetermined condition. Make a decision.

具体的には、判断部124は、所定の条件として、判断条件記憶部112のクエリテーブル113に記憶されたクエリとクエリ受付部123が受け付けた入力クエリとが一致するか否かによって判断を行う。   Specifically, the determination unit 124 determines whether the query stored in the query table 113 of the determination condition storage unit 112 matches the input query received by the query reception unit 123 as a predetermined condition. .

また、判断部124は、所定の条件として、クエリ受付部123が受け付けた入力クエリと、この入力クエリに応じて検索エンジンにより検索された検索結果に含まれるWeb文書のうち、入力クエリを入力したユーザの操作する端末装置20によって選択されたWeb文書とに基づいて、エントロピー演算部122により算出されたエントロピーH(U)の値が閾値114を超える否かによって判断を行うように構成してもよい。   In addition, the determination unit 124 inputs an input query among the input query received by the query receiving unit 123 and the Web document included in the search result searched by the search engine according to the input query as a predetermined condition. The determination may be made based on whether or not the value of entropy H (U) calculated by the entropy calculation unit 122 exceeds the threshold value 114 based on the Web document selected by the terminal device 20 operated by the user. Good.

選択部125は、判断部124により判断された結果に基づいて、複数の異なる検索処理を選択する。具体的には、選択部125は、判断部124により判断された結果、入力クエリがこの入力クエリに関する複数のWeb文書を検索結果として取得することを要求する情報指向型の検索要求である場合には、擬似フィードバック検索処理を選択する。また、選択部125は、判断部124により判断された結果、入力クエリがこの入力クエリに関する複数のWeb文書を検索結果として取得することを要求する情報指向型の検索要求でない場合には、通常検索処理を選択する。   The selection unit 125 selects a plurality of different search processes based on the result determined by the determination unit 124. Specifically, when the determination unit 124 determines that the input query is an information-oriented search request that requires a plurality of Web documents related to the input query to be acquired as search results, as a result of the determination by the determination unit 124. Selects pseudo feedback search processing. In addition, when the determination unit 124 determines that the input query is not an information-oriented search request that requires a plurality of Web documents related to the input query to be acquired as a search result, the selection unit 125 performs normal search. Select a process.

検索実行部126は、検索エンジンを有し、選択部125により選択された検索処理を適用して検索エンジンにより入力クエリに応じたWeb文書の検索を実行する。具体的には、検索実行部126は、選択部125により擬似フィードバック検索処理が選択された場合には、擬似フィードバック検索処理を適用して検索エンジンにより入力クエリに応じたWeb文書の検索を実行する。   The search execution unit 126 has a search engine and applies the search process selected by the selection unit 125 to execute a search for a Web document corresponding to the input query. Specifically, when the selection unit 125 selects the pseudo feedback search process, the search execution unit 126 applies the pseudo feedback search process and executes the search of the Web document according to the input query by the search engine. .

また、検索実行部126は、選択部125により通常検索処理が選択された場合には、通常検索処理を適用して検索エンジンにより入力クエリに応じたWeb文書の検索を実行する。なお、検索エンジンは、公知のものを用いることができる。   In addition, when the normal search process is selected by the selection unit 125, the search execution unit 126 applies the normal search process and executes a search for the Web document according to the input query by the search engine. A publicly known search engine can be used.

検索結果取得部127は、検索実行部126により検索されたWeb文書を検索結果として取得する。
検索結果送信部128は、検索結果取得部127により取得された検索結果をユーザの端末装置20へ通信回線40を介して送信する。これにより、端末装置20を操作するユーザはクエリに応じた検索結果を取得することができる。
The search result acquisition unit 127 acquires the Web document searched by the search execution unit 126 as a search result.
The search result transmission unit 128 transmits the search result acquired by the search result acquisition unit 127 to the user terminal device 20 via the communication line 40. Thereby, the user who operates the terminal device 20 can acquire the search result according to the query.

[クエリテーブル作成処理]
図6は、クエリテーブル113を作成する処理の流れを示すフローチャートである。
[Query table creation process]
FIG. 6 is a flowchart showing the flow of processing for creating the query table 113.

ステップS1:抽出部118は、クリックデータテーブル111aを参照して、クリックURLが選択された回数を示す頻度を算出し、頻度の大きい100万件程度のクエリから学習素性を抽出する。具体的には、抽出部118は、例えば、以下の(a)〜(c)を学習素性として適用する。(a)クエリに対する同一セッション当たり(同一ユーザのクリック動作について適当な時間間隔で切る)の平均クリック・ページ数。その意義は、情報指向型の検索要求においては、クリック・ページ数が多いと考えられる点にある。(b)クエリに対するクリックURLの検索ランク位置分布。その意義は、情報指向型の検索要求においては、検索ランクの下位まで探索してクリックされたページが多いと考えられる点にある。(c)特定ドメインへのアクセスの有無。その意義は、例えばWikipedia(http://wikipedia.org/)のwiki百科事典に記述されるURLがクリックされている場合、情報指向型の検索要求である可能性が高い点にある。   Step S1: The extraction unit 118 refers to the click data table 111a, calculates a frequency indicating the number of times the click URL has been selected, and extracts learning features from about one million queries having a high frequency. Specifically, for example, the extraction unit 118 applies the following (a) to (c) as learning features. (A) The average number of click pages per session for the same session (cut by an appropriate time interval for the click operation of the same user). The significance is that the number of clicked pages is considered to be large in information-oriented search requests. (B) Search URL position distribution of the click URL for the query. The significance of this is that in information-oriented search requests, it is considered that there are many pages that have been searched and clicked down to the lower rank of the search rank. (C) Whether there is access to a specific domain. The significance is that, for example, when a URL described in the Wiki encyclopedia of Wikipedia (http://wikipedia.org/) is clicked, there is a high possibility that the request is an information-oriented search request.

ステップS2:機械学習部119は、ステップS1で抽出したクエリの一部を用いて分類器の機械学習を行う。具体的には、機械学習部119は、例えば、抽出したクエリのうち、1万件程を訓練データとして二値分類器の機械学習を人手によって行う。二値分類器は、情報指向型の検索要求であるか否かを判断を自動的に行うための分類器であり、SVM(サポート・ベクター・マシン)等を用いて機械学習を行う。   Step S2: The machine learning unit 119 performs machine learning of the classifier using a part of the query extracted in step S1. Specifically, for example, the machine learning unit 119 manually performs machine learning of the binary classifier using about 10,000 of the extracted queries as training data. The binary classifier is a classifier for automatically determining whether the request is an information-oriented search request, and performs machine learning using an SVM (support vector machine) or the like.

ステップS3:分類部120は、ステップS1で抽出したクエリの残り全部をステップS2において機械学習を行った二値分類器により自動的に分類する。これにより、ステップS1で抽出した残り全部のクエリについて、情報指向型の検索要求であるか否かの判断が行われる。   Step S3: The classification unit 120 automatically classifies all the remaining queries extracted in Step S1 by the binary classifier that performed machine learning in Step S2. Thereby, it is determined whether or not all the remaining queries extracted in step S1 are information-oriented search requests.

ステップS4:クエリテーブル作成部121は、ステップS3において自動的に分類したクエリのうち、情報指向型の検索要求であるクエリをリスト化してクエリテーブル113を作成し、判断条件記憶部112に記憶する。   Step S4: The query table creation unit 121 creates a query table 113 by listing queries that are information-oriented search requests among the queries automatically classified in step S3, and stores them in the determination condition storage unit 112. .

このようして、情報指向型の検索要求であるクエリをリスト化してクエリテーブル113を作成することにより、検索サーバ10は、クエリテーブル113に基づいて、入力クエリが情報指向型の検索要求であるか否かを判断することができる。   In this way, by creating a query table 113 by listing the queries that are information-oriented search requests, the search server 10 is based on the query table 113 and the input query is an information-oriented search request. It can be determined whether or not.

[メイン処理]
図7は、本実施形態の検索サーバ10のメイン処理の流れを示すフローチャートである。
ステップS11:クエリ受付部123は、端末装置20を操作するユーザによって入力された入力クエリを通信回線40を介して受け付ける。
[Main processing]
FIG. 7 is a flowchart showing a flow of main processing of the search server 10 of the present embodiment.
Step S <b> 11: The query receiving unit 123 receives an input query input by a user operating the terminal device 20 via the communication line 40.

ステップS12:判断部124は、ステップS11において受け付けた入力クエリを判断条件記憶部112のクエリテーブル113に記憶されたクエリとクエリ受付部123が受け付けた入力クエリとが一致するか否か、すなわち入力クエリが情報指向型の検索要求であるか否かの判断を行う。クエリテーブル113に記憶されたクエリとクエリ受付部123が受け付けた入力クエリとが一致する場合(Yes)には、ステップS13へ移る。一方、クエリテーブル113に記憶されたクエリとクエリ受付部123が受け付けた入力クエリとが一致しない場合(No)には、ステップS14へ移る。   Step S12: The determination unit 124 determines whether or not the query stored in the query table 113 of the determination condition storage unit 112 matches the input query received by the query reception unit 123, ie, the input query received in step S11. It is determined whether or not the query is an information-oriented search request. If the query stored in the query table 113 matches the input query received by the query receiving unit 123 (Yes), the process proceeds to step S13. On the other hand, if the query stored in the query table 113 does not match the input query received by the query receiving unit 123 (No), the process proceeds to step S14.

ステップS13:選択部125は、ステップS12において、入力クエリが情報指向型の検索要求であると判断されたため、検索エンジンの処理として擬似フィードバック検索処理を選択する。
ステップS14:選択部125は、ステップS12において、入力クエリが情報指向型の検索要求ではないと判断されたため、検索エンジンの処理として通常検索処理を選択する。
Step S13: Since the input query is determined to be an information-oriented search request in step S12, the selection unit 125 selects a pseudo feedback search process as a search engine process.
Step S14: Since it is determined in step S12 that the input query is not an information-oriented search request, the selection unit 125 selects the normal search process as the search engine process.

ステップS15:検索実行部126は、後述の図8を参照して説明する擬似フィードバック検索処理を適用して検索エンジンにより入力クエリに応じたWeb文書の検索を実行する。
ステップS16:検索実行部126は、後述の図9を参照して説明する通常検索処理を適用して検索エンジンにより入力クエリに応じたWeb文書の検索を実行する。
Step S15: The search execution unit 126 applies a pseudo feedback search process described with reference to FIG. 8 to be described later, and executes a search for a Web document according to the input query by the search engine.
Step S16: The search execution unit 126 applies a normal search process described with reference to FIG. 9 described later, and executes a search for a Web document according to the input query by the search engine.

ステップS17:検索結果取得部127は、ステップS15又はステップS16において検索されたWeb文書を検索結果として取得する。
ステップS18:検索結果送信部128は、ステップS17において取得した検索結果を通信回線40を介してユーザが操作する端末装置20へ送信する。
Step S17: The search result acquisition unit 127 acquires the Web document searched in step S15 or step S16 as a search result.
Step S18: The search result transmitting unit 128 transmits the search result acquired in step S17 to the terminal device 20 operated by the user via the communication line 40.

このように、検索サーバ10は、入力クエリが情報指向型の検索要求である場合には、擬似フィードバック検索処理を適用して検索を実行し、情報指向型の検索要求でない場合には、通常の検索処理を実行する。したがって、入力クエリの検索要求に応じた検索処理を検索エンジンにより実行できるため、入力クエリの検索要求に応じた検索結果をユーザに提供することができる。   As described above, when the input query is an information-oriented search request, the search server 10 executes a search by applying the pseudo-feedback search process. When the input query is not an information-oriented search request, the search server 10 Perform search processing. Therefore, the search process according to the input query search request can be executed by the search engine, so that the search result according to the input query search request can be provided to the user.

また、検索サーバ10は、機械学習された分類精度の高い分類器により自動分類したクエリと、入力クエリが一致するか否かにより入力クエリが情報指向型の検索要求であるか否かの判断を行うため、入力クエリについての判断を好適に行うことができる。   Further, the search server 10 determines whether or not the input query is an information-oriented search request based on whether or not the query automatically classified by the classifier with high classification accuracy learned by machine matches the input query. Therefore, the input query can be suitably determined.

[擬似フィードバック検索処理]
図8は、擬似フィードバック検索処理を実行するときの処理の流れを示すフローチャートである。
ステップS21:検索実行部126は、図6のステップS1で受け付けた入力クエリを用いて予備的なWeb文書の検索(以下パイロット検索ともいう)を検索エンジンにより実行する。
ステップS22:検索実行部126は、ステップS21において検索されたWeb文書の検索結果を取得する。
[Pseudo feedback search processing]
FIG. 8 is a flowchart showing a flow of processing when executing the pseudo feedback search processing.
Step S21: The search execution unit 126 uses the search engine to execute a preliminary Web document search (hereinafter also referred to as a pilot search) using the input query received in step S1 of FIG.
Step S22: The search execution unit 126 acquires the search result of the Web document searched in step S21.

ステップS23:検索実行部126は、ステップS22において取得した検索結果から特徴的なターム(特徴ターム)を抽出する。
ステップS24:検索実行部126は、ステップS23において抽出した特徴タームを入力クエリに付加する。
Step S23: The search execution unit 126 extracts a characteristic term (characteristic term) from the search result acquired in step S22.
Step S24: The search execution unit 126 adds the feature terms extracted in step S23 to the input query.

ステップS25:検索実行部126は、入力クエリと、ステップS24において付加した特徴タームとをクエリとして検索エンジンにより、このクエリに応じたWeb文書の検索を実行する。
ステップS26:検索実行部126は、ステップS25において検索を実行した検索結果を取得し、本フローチャートの処理を終了する。
Step S25: The search execution unit 126 executes a search for a Web document according to the query by the search engine using the input query and the feature term added in step S24 as a query.
Step S26: The search execution unit 126 acquires the search result obtained by executing the search in step S25, and ends the process of this flowchart.

このように、検索サーバ10は、擬似フィードバック検索処理を適用して入力クエリと付加された特徴タームとをクエリとして検索を実行することにより、情報指向型の検索要求に対して再現率の高い検索結果を提供することができる。   In this way, the search server 10 executes a search using the input query and the added feature term as a query by applying the pseudo feedback search process, thereby performing a search with a high reproducibility for an information-oriented search request. Results can be provided.

[通常検索処理]
図9は、通常検索処理を実行するときの処理の流れを示すフローチャートである。
ステップS31:検索実行部126は、図6のステップS1で受け付けた入力クエリを用いて検索エンジンにより実行する。
ステップS32:検索実行部126は、ステップS31において検索を実行した検索結果を取得し、本フローチャートの処理を終了する。
[Normal search processing]
FIG. 9 is a flowchart showing the flow of processing when executing normal search processing.
Step S31: The search execution unit 126 is executed by the search engine using the input query received in step S1 of FIG.
Step S32: The search execution unit 126 acquires the search result obtained by executing the search in step S31, and ends the process of this flowchart.

このように、検索サーバ10は、通常検索処理を適用して検索を実行することにより、情報指向型でないの検索要求(ナビゲーション指向型やトランザクション指向型の検索要求)に対して、主に最上位の検索精度が高い検索結果を提供することができる。   As described above, the search server 10 executes the search by applying the normal search process, so that the search server 10 is mainly the highest for non-information-oriented search requests (navigation-oriented or transaction-oriented search requests). It is possible to provide a search result with high search accuracy.

<第2実施形態>
次に本発明の第2実施形態について説明する。第2実施形態については、主として、第1実施形態とは異なる点を説明し、第1実施形態と同様の構成について同じ符号を付し、説明を省略する。第2実施形態における検索サーバ10は、第1実施形態における検索サーバ10と同様の機能構成であるため、説明を省略する。
<Second Embodiment>
Next, a second embodiment of the present invention will be described. About 2nd Embodiment, a different point from 1st Embodiment is mainly demonstrated, the same code | symbol is attached | subjected about the structure similar to 1st Embodiment, and description is abbreviate | omitted. The search server 10 in the second embodiment has the same functional configuration as that of the search server 10 in the first embodiment, and a description thereof will be omitted.

次に、第2実施形態における検索サーバ10の処理の流れについて図10を参照して説明する。   Next, the flow of processing of the search server 10 in the second embodiment will be described with reference to FIG.

図10は、本実施形態の検索サーバ10のメイン処理の流れを示すフローチャートである。第2実施形態の図10に示すフローチャートにおいて、ステップS41、ステップS44〜ステップS49は、第1実施形態のステップS1、ステップS13〜ステップS18と同様であるため、説明を省略する。   FIG. 10 is a flowchart showing a flow of main processing of the search server 10 of the present embodiment. In the flowchart shown in FIG. 10 of the second embodiment, Step S41 and Steps S44 to S49 are the same as Step S1 and Step S13 to Step S18 of the first embodiment, and thus description thereof is omitted.

ステップS42:エントロピー演算部122は、クリックデータテーブル111aを参照し、ステップS41において受け付けた入力クエリと一致するクエリが存在する場合には、このクエリ、このクエリに対応付けられたクリックURL、及び式(1)に基づいて、入力クエリに対するクリックURLのエントロピーH(U)を算出する。   Step S42: The entropy calculation unit 122 refers to the click data table 111a, and if there is a query that matches the input query received in step S41, this query, the click URL associated with this query, and the expression Based on (1), the entropy H (U) of the click URL for the input query is calculated.

ステップS43:判断部124は、ステップS42において算出されたエントロピーH(U)の値が閾値114を超える否かの判断を行う。エントロピーH(U)の値が閾値114を超える場合(Yes)には、ステップS44へ移る。一方、エントロピーH(U)の値が閾値114を超えない場合(No)には、ステップS45へ移る。なお、閾値114は、実際に運用しながら最適値を調整することができる。また、エントロピーH(U)の値が、1.0以下である場合は、ナビゲーション指向型の検索要求である可能性が高く、2.0以上である場合は、情報指向型の検索要求である可能性が高い。   Step S43: The determination unit 124 determines whether or not the value of the entropy H (U) calculated in step S42 exceeds the threshold value 114. If the value of entropy H (U) exceeds the threshold value 114 (Yes), the process proceeds to step S44. On the other hand, when the value of entropy H (U) does not exceed the threshold value 114 (No), the process proceeds to step S45. The threshold value 114 can be adjusted to an optimum value while actually operating. Further, when the value of entropy H (U) is 1.0 or less, there is a high possibility that it is a navigation-oriented search request, and when it is 2.0 or more, it is an information-oriented search request. Probability is high.

このように、検索サーバ10は、入力クエリが情報指向型の検索要求である場合には、擬似フィードバック検索処理を適用して検索を実行し、情報指向型の検索要求でない場合には、通常の検索処理を実行する。したがって、入力クエリの検索要求に応じた検索処理を検索エンジンにより実行できるため、入力クエリの検索要求に応じた検索結果をユーザに提供することができる。   As described above, when the input query is an information-oriented search request, the search server 10 executes a search by applying the pseudo-feedback search process. When the input query is not an information-oriented search request, the search server 10 Perform search processing. Therefore, the search process according to the input query search request can be executed by the search engine, so that the search result according to the input query search request can be provided to the user.

また、検索サーバ10は、エントロピーH(U)の値が閾値114を超えたか否かにより入力クエリが情報指向型の検索要求であるか否かの判断を行う。したがって、閾値114を適宜調整することにより入力クエリが情報指向型の検索要求であるか否かの判断を好適に行うことができる。   Further, the search server 10 determines whether or not the input query is an information-oriented search request depending on whether or not the value of entropy H (U) exceeds the threshold value 114. Therefore, it is possible to suitably determine whether or not the input query is an information-oriented search request by appropriately adjusting the threshold value 114.

<第3実施形態>
次に本発明の第3実施形態について説明する。第3実施形態については、主として、第1実施形態及び第2実施形態とは異なる点を説明し、第1実施形態と及び第2実施形態と同様の構成について同じ符号を付し、説明を省略する。第3実施形態は、通常検索処理と擬似フィードバック検索処理を併用して検索エンジンにより検索を実行する点が第1実施形態及び第2実施形態とは異なる。
<Third Embodiment>
Next, a third embodiment of the present invention will be described. About 3rd Embodiment, a different point from 1st Embodiment and 2nd Embodiment is mainly demonstrated, the same code | symbol is attached | subjected about the structure similar to 1st Embodiment and 2nd Embodiment, and description is abbreviate | omitted. To do. The third embodiment is different from the first embodiment and the second embodiment in that a search is executed by a search engine using both a normal search process and a pseudo feedback search process.

図11は、第3実施形態における検索サーバ10の機能ブロック図である。検索サーバ10は、クエリ受付部123と、検索結果取得部127と、検索結果送信部128と、検索実行部131と、検索結果併合部132と、を備える。   FIG. 11 is a functional block diagram of the search server 10 in the third embodiment. The search server 10 includes a query reception unit 123, a search result acquisition unit 127, a search result transmission unit 128, a search execution unit 131, and a search result merging unit 132.

クエリ受付部123、検索結果取得部127、及び検索結果送信部128は図3に示す第1実施形態及び第2実施形態と同様の構成であるため、説明を省略する。   The query reception unit 123, the search result acquisition unit 127, and the search result transmission unit 128 have the same configurations as those of the first embodiment and the second embodiment shown in FIG.

検索実行部131は、クエリ受付部123により受け付けられた入力クエリについて、通常検索処理及び擬似フィードバック検索処理を適用して検索エンジンにより検索を実行する。   The search execution unit 131 executes a search by the search engine by applying a normal search process and a pseudo feedback search process to the input query received by the query reception unit 123.

検索結果併合部132は、検索結果取得部127により取得された通常検索処理及び擬似フィードバック検索処理を適用した検索結果を併合して、一の検索結果とする。具体的には、検索結果併合部132は、検索結果取得部127により取得された通常検索処理を適用した検索結果のうち、所定数のWeb文書を含む検索結果と、検索結果取得部127により取得された擬似フィードバック検索処理を適用した検索結果のうち、所定数のWeb文書の検索結果と重複するWeb文書の検索結果を除いた検索結果とを併合して、一の検索結果とする。   The search result merging unit 132 merges the search results obtained by applying the normal search process and the pseudo feedback search process acquired by the search result acquisition unit 127 into one search result. Specifically, the search result merging unit 132 acquires a search result including a predetermined number of Web documents among the search results to which the normal search process acquired by the search result acquisition unit 127 is applied, and the search result acquisition unit 127. Among the search results to which the pseudo feedback search process is applied, the search results of a predetermined number of Web documents and the search results excluding the search results of overlapping Web documents are merged into one search result.

図12は、本実施形態の検索サーバ10のメイン処理の流れを示すフローチャートである。
ステップS51:クエリ受付部123は、端末装置20を操作するユーザによって入力された入力クエリを通信回線40を介して受け付ける。
FIG. 12 is a flowchart showing a flow of main processing of the search server 10 of the present embodiment.
Step S51: The query receiving unit 123 receives an input query input by a user who operates the terminal device 20 via the communication line 40.

ステップS52:検索実行部131は、ステップS51において受け付けた入力クエリを通常検索処理を適用して検索エンジンにより検索を実行する。なお、通常検索処理については、図9のステップS31〜ステップS32に示した処理と同様である。
ステップS53:検索実行部131は、ステップS51において受け付けた入力クエリを擬似フィードバック検索処理を適用して検索エンジンにより検索を実行する。なお、擬似フィードバック検索処理については、図8のステップS21〜ステップS26に示した処理と同様である。
Step S52: The search execution unit 131 executes a search by the search engine by applying a normal search process to the input query received in step S51. The normal search process is the same as the process shown in steps S31 to S32 in FIG.
Step S53: The search execution unit 131 executes a search by the search engine by applying a pseudo feedback search process to the input query received in step S51. Note that the pseudo feedback search process is the same as the process shown in steps S21 to S26 of FIG.

ステップS54:検索結果取得部127は、ステップS52において検索されたWeb文書を検索結果として取得する。
ステップS55:検索結果取得部127は、ステップS53において検索されたWeb文書を検索結果として取得する。
Step S54: The search result acquisition unit 127 acquires the Web document searched in step S52 as a search result.
Step S55: The search result acquisition unit 127 acquires the Web document searched in step S53 as a search result.

ステップS56:検索結果併合部132は、ステップS54及びステップS55において取得した検索結果を併合する。具体的には、ステップS54において取得した検索結果のうち、所定数のWeb文書の検索結果(例えば、端末装置20のウェブブラウザに表示される1ページ目の検索結果)と、ステップS55において取得した検索結果のうち、ステップS52において検索を実行した所定数のWeb文書の検索結果と重複する部分を除いた検索結果(例えば、端末装置20のウェブブラウザに表示される2ページ目以降の検索結果で、1ページ目の検索結果と重複する検索結果は除いたもの)とを併合して、一つの検索結果とする。   Step S56: The search result merging unit 132 merges the search results acquired in Step S54 and Step S55. Specifically, out of the search results acquired in step S54, the search results of a predetermined number of Web documents (for example, the search result of the first page displayed on the web browser of the terminal device 20) and the search results acquired in step S55. Of the search results, the search results excluding a part that overlaps the search results of the predetermined number of Web documents that have been searched in step S52 (for example, the search results for the second and subsequent pages displayed on the Web browser of the terminal device 20). The search results of the first page and the search results that are the same as those of the first page are excluded).

ステップS57:検索結果送信部128は、ステップS56において併合した検索結果を通信回線40を介してユーザが操作する端末装置20へ送信する。   Step S57: The search result transmission unit 128 transmits the search result merged in Step S56 to the terminal device 20 operated by the user via the communication line 40.

このように、検索サーバ10は、例えば、情報指向型の検索要求でない可能性が高い1ページ目の検索結果については、通常検索処理によって得られた検索結果をユーザに提供することができる。そして、検索サーバ10は、情報指向型の検索要求である可能性が高い2ページ目以降の検索結果については、擬似フィードバック検索処理によって得られた検索結果をユーザに提供することができる。また、2ページ目以降の検索結果は、1ページ目の検索結果と重複する検索結果を除くため、異なる検索処理を適用した検索結果であっても重複した検索結果がユーザに提供されることがない。   As described above, for example, for the search result of the first page that is highly likely not to be an information-oriented search request, the search server 10 can provide the user with the search result obtained by the normal search process. The search server 10 can provide the user with the search results obtained by the pseudo feedback search process for the search results of the second and subsequent pages that are likely to be information-oriented search requests. In addition, since the search results for the second and subsequent pages exclude the search results that overlap with the search results for the first page, even if the search results are applied with different search processing, the duplicate search results may be provided to the user. Absent.

なお、第3実施形態では、検索サーバ10は、通常検索処理を適用して得られた検索結果を入力クエリを入力したユーザの端末装置20へ送信し、この検索結果のうち、端末装置20から所定数を超えるWeb文書の要求(例えば、2ページ目以降の検索結果の要求)が有った場合に、擬似フィードバック検索処理を適用して入力クエリについて検索を実行してもよい。   In the third embodiment, the search server 10 transmits the search result obtained by applying the normal search process to the terminal device 20 of the user who has input the input query. When there is a request for a Web document exceeding a predetermined number (for example, a request for a search result for the second and subsequent pages), a search may be performed for the input query by applying a pseudo feedback search process.

以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。   As mentioned above, although embodiment of this invention was described, this invention is not restricted to embodiment mentioned above. The effects described in the embodiments of the present invention are only the most preferable effects resulting from the present invention, and the effects of the present invention are limited to those described in the embodiments of the present invention. is not.

本発明の検索処理装置の一実施形態に係る検索システム1を示すブロック図である。1 is a block diagram showing a search system 1 according to an embodiment of a search processing device of the present invention. 本発明の検索処理装置の一実施形態である検索サーバ10のハードウェア構成の一例を示す図である。It is a figure which shows an example of the hardware constitutions of the search server 10 which is one Embodiment of the search processing apparatus of this invention. 本発明の検索処理装置の一実施形態である検索サーバ10の機能ブロック図である。It is a functional block diagram of the search server 10 which is one Embodiment of the search processing apparatus of this invention. クリックデータテーブル111aを示す図である。It is a figure which shows the click data table 111a. クエリテーブル113を示す図である。It is a figure which shows the query table. クエリテーブル113を作成する処理の流れを示すフローチャートである。10 is a flowchart showing a flow of processing for creating a query table 113. 第1実施形態の検索サーバ10のメイン処理の流れを示すフローチャートである。It is a flowchart which shows the flow of the main process of the search server 10 of 1st Embodiment. 擬似フィードバック検索処理を実行するときの処理の流れを示すフローチャートである。It is a flowchart which shows the flow of a process when performing a pseudo feedback search process. 通常検索処理を実行するときの処理の流れを示すフローチャートである。It is a flowchart which shows the flow of a process when performing a normal search process. 第2実施形態の検索サーバ10のメイン処理の流れを示すフローチャートである。It is a flowchart which shows the flow of the main process of the search server 10 of 2nd Embodiment. 第3実施形態における検索サーバ10の機能ブロック図である。It is a functional block diagram of the search server 10 in 3rd Embodiment. 第3実施形態の検索サーバ10のメイン処理の流れを示すフローチャートである。It is a flowchart which shows the flow of the main process of the search server 10 of 3rd Embodiment.

符号の説明Explanation of symbols

1 検索システム
10 検索サーバ
20 端末装置
30 コンテンツサーバ
40 通信回線
1 Search System 10 Search Server 20 Terminal Device 30 Content Server 40 Communication Line

Claims (4)

Web文書の検索を検索エンジンにより実行する検索処理装置であって、
前記検索エンジンへの入力である入力クエリを受け付ける受付手段と、
入力クエリに関する複数のWeb文書を検索結果として取得することを要求する情報指向型の検索要求であるクエリを記憶する判断条件記憶手段と、
前記受付手段により受け付けられた前記入力クエリが前記判断条件記憶手段に記憶されるクエリと一致する場合には、当該クエリと、当該クエリを検索キーワードとして前記検索エンジンにより検索された検索結果のURLのうちユーザの端末装置により選択されたURLであるクリックURLと、前記入力クエリに対して前記クリックURLが選択される確率とに基づいて、前記入力クエリに対する前記クリックURLのエントロピーを算出するエントロピー算出手段と、
前記エントロピー算出手段により算出された前記エントロピーの値が所定の閾値を超えるか否かを判断することにより、前記受付手段により受け付けられた前記入力クエリが当該入力クエリに関する複数のWeb文書を検索結果として取得することを要求する情報指向型の検索要求であるか否かの判断を行う判断手段と、
前記判断手段により判断された結果に基づいて、複数の異なる検索処理を選択する選択手段と、
前記選択手段により選択された検索処理を適用して前記検索エンジンにより前記入力クエリに応じたWeb文書の検索を実行する検索実行手段と、
前記検索実行手段により検索されたWeb文書を検索結果として取得する検索結果取得手段とを備え、
前記検索実行手段は、少なくとも擬似フィードバック検索処理と前記検索エンジンによる通常検索処理とを有し、
前記選択手段は、前記判断手段により前記エントロピー算出手段により算出された前記エントロピーの値が所定の閾値を超えると判断されることにより、前記入力クエリが前記情報指向型の検索要求であると判断された場合には、前記擬似フィードバック検索処理を選択し、
前記検索実行手段は、前記選択手段により選択された前記擬似フィードバック検索処理を適用して、前記入力クエリを用いて予備的なWeb文書の検索を前記検索エンジンにより実行し、検索されたWeb文書の検索結果から特徴的なタームを抽出し、抽出した前記特徴的なタームを前記入力クエリに付加し、前記入力クエリ及び付加された前記特徴的なタームをクエリとして前記検索エンジンによりWeb文書の検索を実行する検索処理装置。
A search processing device for executing a search for a Web document by a search engine,
Accepting means for accepting an input query which is an input to the search engine;
Judgment condition storage means for storing a query which is an information-oriented search request for requesting acquisition of a plurality of Web documents related to an input query as search results;
If the input query received by the receiving unit matches the query stored in the determination condition storage unit, the query and the URL of the search result searched by the search engine using the query as a search keyword An entropy calculating means for calculating the entropy of the click URL for the input query based on the click URL that is the URL selected by the terminal device of the user and the probability that the click URL is selected for the input query When,
By determining whether or not the entropy value calculated by the entropy calculating unit exceeds a predetermined threshold, the input query received by the receiving unit uses a plurality of Web documents related to the input query as search results. A determination means for determining whether the request is an information-oriented search request to obtain,
Selection means for selecting a plurality of different search processes based on the result determined by the determination means;
Search execution means for applying a search process selected by the selection means and executing a search for a Web document according to the input query by the search engine;
Search result acquisition means for acquiring the Web document searched by the search execution means as a search result,
The search execution means includes at least a pseudo feedback search process and a normal search process by the search engine,
Said selecting means, by the value of the entropy calculated by said entropy calculation means is determined to exceed a predetermined threshold value by the determination unit, the input query is determined to the the information-oriented search request If the selects the pseudo feedback search process,
The search execution unit applies the pseudo feedback search process selected by the selection unit , executes a search of a preliminary Web document using the input query, and executes a search of the Web document searched. A characteristic term is extracted from a search result, the extracted characteristic term is added to the input query, and a Web document is searched by the search engine using the input query and the added characteristic term as a query . It performs search processing unit.
前記選択手段は、前記判断手段により判断された結果、前記入力クエリが当該入力クエリに関する複数のWeb文書を検索結果として取得することを要求しない検索要求である場合には、前記通常検索処理を選択し、
前記検索実行手段は、前記通常検索処理を適用して前記検索エンジンにより前記入力クエリに応じてWeb文書の検索を実行する請求項1に記載の検索処理装置。
The selection unit selects the normal search process when the input query is a search request that does not require a plurality of Web documents related to the input query to be acquired as a search result as a result of the determination by the determination unit. And
The search executing means, the search processor according to Motomeko 1 to run a search for Web documents in response to the input query by the search engine by applying the normal search process.
Web文書の検索を検索エンジンにより実行する検索処理装置のコンピュータにより実行される検索処理方法であって、
前記検索エンジンへの入力である入力クエリを受け付ける受付ステップと、
入力クエリに関する複数のWeb文書を検索結果として取得することを要求する情報指向型の検索要求であるクエリを記憶する判断条件記憶ステップと、
前記受付ステップにより受け付けられた前記入力クエリが前記判断条件記憶ステップに記憶されるクエリと一致する場合には、当該クエリと、当該クエリを検索キーワードとして前記検索エンジンにより検索された検索結果のURLのうちユーザの端末装置により選択されたURLであるクリックURLと、前記入力クエリに対して前記クリックURLが選択される確率とに基づいて、前記入力クエリに対する前記クリックURLのエントロピーを算出するエントロピー算出ステップと、
前記エントロピー算出ステップにより算出された前記エントロピーの値が所定の閾値を超えるか否かを判断することにより、前記受付ステップにより受け付けられた前記入力クエリが当該入力クエリに関する複数のWeb文書を検索結果として取得することを要求する情報指向型の検索要求であるか否かの判断を行う判断ステップと、
前記判断ステップにより判断された結果に基づいて、複数の異なる検索処理を選択する選択ステップと、
前記選択ステップにより選択された検索処理を適用して前記検索エンジンにより前記入力クエリに応じたWeb文書の検索を実行する検索実行ステップと、
前記検索実行ステップにより検索されたWeb文書を検索結果として取得する検索結果取得ステップとを備え、
前記検索実行ステップは、少なくとも擬似フィードバック検索処理と前記検索エンジンによる通常の検索処理とを有し、
前記選択ステップは、前記判断ステップにより前記エントロピー算出ステップにより算出された前記エントロピーの値が所定の閾値を超えると判断されることにより、前記入力クエリが前記情報指向型の検索要求であると判断された場合には、前記擬似フィードバック検索処理を選択し、
前記検索実行ステップは、前記選択ステップにより選択された前記擬似フィードバック検索処理を適用して、前記入力クエリを用いて予備的なWeb文書の検索を前記検索エンジンにより実行し、検索されたWeb文書の検索結果から特徴的なタームを抽出し、抽出した前記特徴的なタームを前記入力クエリに付加し、前記入力クエリ及び付加された前記特徴的なタームをクエリとして前記検索エンジンによりWeb文書の検索を実行することをコンピュータに実行させる検索処理方法。
A search processing method executed by a computer of a search processing device that executes a search of a Web document by a search engine,
Accepting an input query that is an input to the search engine;
A determination condition storing step for storing a query which is an information-oriented search request for requesting acquisition of a plurality of Web documents related to an input query as a search result;
When the input query received by the receiving step matches the query stored in the determination condition storing step, the query and the URL of the search result searched by the search engine using the query as a search keyword An entropy calculating step of calculating an entropy of the click URL for the input query based on a click URL that is a URL selected by the user terminal device and a probability that the click URL is selected for the input query When,
By determining whether or not the entropy value calculated by the entropy calculation step exceeds a predetermined threshold, the input query received by the reception step uses a plurality of Web documents related to the input query as search results. A determination step for determining whether or not the information-oriented search request requires acquisition;
A selection step of selecting a plurality of different search processes based on the result determined by the determination step;
A search execution step of applying a search process selected in the selection step and executing a search of a Web document according to the input query by the search engine;
A search result acquisition step of acquiring the Web document searched by the search execution step as a search result,
The search execution step includes at least a pseudo feedback search process and a normal search process by the search engine,
Said selection step, by the value of the entropy calculated by said entropy calculation step by the determining step is determined to exceed a predetermined threshold value, the input query is determined to the the information-oriented search request If the selects the pseudo feedback search process,
The search execution step applies the pseudo-feedback search process selected in the selection step , executes a preliminary Web document search using the input query by the search engine, A characteristic term is extracted from a search result, the extracted characteristic term is added to the input query, and a Web document is searched by the search engine using the input query and the added characteristic term as a query . A search processing method for causing a computer to execute .
Web文書の検索を検索エンジンにより実行する検索処理装置のコンピュータにより実行されるコンピュータプログラムであって、
前記検索エンジンへの入力である入力クエリを受け付ける受付ステップと、
入力クエリに関する複数のWeb文書を検索結果として取得することを要求する情報指向型の検索要求であるクエリを記憶する判断条件記憶ステップと、
前記受付ステップにより受け付けられた前記入力クエリが前記判断条件記憶ステップに記憶されるクエリと一致する場合には、当該クエリと、当該クエリを検索キーワードとして前記検索エンジンにより検索された検索結果のURLのうちユーザの端末装置により選択されたURLであるクリックURLと、前記入力クエリに対して前記クリックURLが選択される確率とに基づいて、前記入力クエリに対する前記クリックURLのエントロピーを算出するエントロピー算出ステップと、
前記エントロピー算出ステップにより算出された前記エントロピーの値が所定の閾値を超えるか否かを判断することにより、前記受付ステップにより受け付けられた前記入力クエリが当該入力クエリに関する複数のWeb文書を検索結果として取得することを要求する情報指向型の検索要求であるか否かの判断を行う判断ステップと、
前記判断ステップにより判断された結果に基づいて、複数の異なる検索処理を選択する選択ステップと、
前記選択ステップにより選択された検索処理を適用して前記検索エンジンにより前記入力クエリに応じたWeb文書の検索を実行する検索実行ステップと、
前記検索実行ステップにより検索されたWeb文書を検索結果として取得する検索結果取得ステップとを備え、
前記検索実行ステップは、少なくとも擬似フィードバック検索処理と前記検索エンジンによる通常の検索処理とを有し、
前記選択ステップは、前記判断ステップにより前記エントロピー算出ステップにより算出された前記エントロピーの値が所定の閾値を超えると判断されることにより、前記入力クエリが前記情報指向型の検索要求であると判断された場合には、前記擬似フィードバック検索処理を選択し、
前記検索実行ステップは、前記選択ステップにより選択された前記擬似フィードバック検索処理を適用して、前記入力クエリを用いて予備的なWeb文書の検索を前記検索エンジンにより実行し、検索されたWeb文書の検索結果から特徴的なタームを抽出し、抽出した前記特徴的なタームを前記入力クエリに付加し、前記入力クエリ及び付加された前記特徴的なタームをクエリとして前記検索エンジンによりWeb文書の検索を実行することをコンピュータに実行させるコンピュータプログラム。
A computer program executed by a computer of a search processing apparatus that executes a search for a Web document by a search engine,
Accepting an input query that is an input to the search engine;
A determination condition storing step for storing a query which is an information-oriented search request for requesting acquisition of a plurality of Web documents related to an input query as a search result;
When the input query received by the receiving step matches the query stored in the determination condition storing step, the query and the URL of the search result searched by the search engine using the query as a search keyword An entropy calculating step of calculating an entropy of the click URL for the input query based on a click URL that is a URL selected by the user terminal device and a probability that the click URL is selected for the input query When,
By determining whether or not the entropy value calculated by the entropy calculation step exceeds a predetermined threshold, the input query received by the reception step uses a plurality of Web documents related to the input query as search results. A determination step for determining whether or not the information-oriented search request requires acquisition;
A selection step of selecting a plurality of different search processes based on the result determined by the determination step;
A search execution step of applying a search process selected in the selection step and executing a search of a Web document according to the input query by the search engine;
A search result acquisition step of acquiring the Web document searched by the search execution step as a search result,
The search execution step includes at least a pseudo feedback search process and a normal search process by the search engine,
Said selection step, by the value of the entropy calculated by said entropy calculation step by the determining step is determined to exceed a predetermined threshold value, the input query is determined to the the information-oriented search request If the selects the pseudo feedback search process,
The search execution step applies the pseudo-feedback search process selected in the selection step , executes a preliminary Web document search using the input query by the search engine, A characteristic term is extracted from a search result, the extracted characteristic term is added to the input query, and a Web document is searched by the search engine using the input query and the added characteristic term as a query . A computer program that causes a computer to execute.
JP2008146751A 2008-06-04 2008-06-04 Retrieval processing apparatus, method, and program for selectively applying pseudo feedback processing in web retrieval Active JP4922240B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008146751A JP4922240B2 (en) 2008-06-04 2008-06-04 Retrieval processing apparatus, method, and program for selectively applying pseudo feedback processing in web retrieval

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008146751A JP4922240B2 (en) 2008-06-04 2008-06-04 Retrieval processing apparatus, method, and program for selectively applying pseudo feedback processing in web retrieval

Publications (2)

Publication Number Publication Date
JP2009294836A JP2009294836A (en) 2009-12-17
JP4922240B2 true JP4922240B2 (en) 2012-04-25

Family

ID=41542984

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008146751A Active JP4922240B2 (en) 2008-06-04 2008-06-04 Retrieval processing apparatus, method, and program for selectively applying pseudo feedback processing in web retrieval

Country Status (1)

Country Link
JP (1) JP4922240B2 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5378272B2 (en) * 2010-03-11 2013-12-25 日本電信電話株式会社 Query feature value calculation method, apparatus, and program
JP5410359B2 (en) * 2010-04-20 2014-02-05 日本電信電話株式会社 Query selection apparatus and program
CN102456058B (en) * 2010-11-02 2014-03-19 阿里巴巴集团控股有限公司 Method and device for providing category information
JP5579140B2 (en) * 2011-09-05 2014-08-27 日本電信電話株式会社 Document search apparatus, method, and program
US10621182B2 (en) 2014-09-03 2020-04-14 The Dun & Bradstreet Corporation System and process for analyzing, qualifying and ingesting sources of unstructured data via empirical attribution

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4027568B2 (en) * 2000-05-17 2007-12-26 株式会社ガーラ Information processing device that performs clipping services using multiple search engines on the Internet
JP4118571B2 (en) * 2002-02-15 2008-07-16 株式会社リコー Document search apparatus, document search method, and recording medium
JP2004318328A (en) * 2003-04-14 2004-11-11 Canon Inc Information retrieval method

Also Published As

Publication number Publication date
JP2009294836A (en) 2009-12-17

Similar Documents

Publication Publication Date Title
US8244740B2 (en) Providing suggested sites associated with target sites
US8370332B2 (en) Blending mobile search results
US20090313100A1 (en) System and method for previewing search results
US20120197855A1 (en) Method and Apparatus of Generating Internet Navigation Page
US20110072033A1 (en) Suggesting related search queries during web browsing
CN105488205B (en) Page generation method and device
EP3219120A1 (en) Contextual deep linking of applications
US20070219954A1 (en) Refined Search User Interface
US20100057695A1 (en) Post-processing search results on a client computer
US10108736B2 (en) Method and apparatus for rendering statistics on web page visits by a browser
JP2018518726A (en) Information retrieval navigation method and apparatus
US20110029559A1 (en) Method, apparatus, and program for extracting relativity of web pages
JP5905551B1 (en) Information processing device, terminal device, information processing method, and information processing program
JP4922240B2 (en) Retrieval processing apparatus, method, and program for selectively applying pseudo feedback processing in web retrieval
US20110055357A1 (en) Server apparatus, communication apparatus, and method for generating navigation information
US20120166961A1 (en) Method and system for presenting a navigation path for enabling retrieval of content
US9043306B2 (en) Content signature notification
US20110131503A1 (en) Apparatus and methods for providing targeted advertising from user behavior
US20080033918A1 (en) Systems, methods and computer program products for supplemental data communication and utilization
JP6407318B2 (en) Information processing device, terminal device, information processing method, and information processing program
JP2014006864A (en) Method of providing preview content interlocked with retrieval word automatic completion
JP5734332B2 (en) Advertisement information providing device
WO2012159360A1 (en) Method and apparatus for web page prefetching
JP6085700B2 (en) Information processing device, terminal device, information processing method, and information processing program
JP4922274B2 (en) Information management apparatus, method and program for creating, searching and displaying a directory reflecting social popularity and interest

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110705

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110712

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110909

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120124

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120203

R150 Certificate of patent or registration of utility model

Ref document number: 4922240

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150210

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250