JP5292250B2 - Document search apparatus, document search method, and document search program - Google Patents

Document search apparatus, document search method, and document search program Download PDF

Info

Publication number
JP5292250B2
JP5292250B2 JP2009236367A JP2009236367A JP5292250B2 JP 5292250 B2 JP5292250 B2 JP 5292250B2 JP 2009236367 A JP2009236367 A JP 2009236367A JP 2009236367 A JP2009236367 A JP 2009236367A JP 5292250 B2 JP5292250 B2 JP 5292250B2
Authority
JP
Japan
Prior art keywords
search
query
intention
periodicity
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009236367A
Other languages
Japanese (ja)
Other versions
JP2011085992A (en
Inventor
眞哉 村田
浩之 戸田
由美子 松浦
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009236367A priority Critical patent/JP5292250B2/en
Publication of JP2011085992A publication Critical patent/JP2011085992A/en
Application granted granted Critical
Publication of JP5292250B2 publication Critical patent/JP5292250B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To analyze retrieval intention in detail for each user from a retrieval log to present a highly precise retrieval result. <P>SOLUTION: A query frequency counting part 112 counts a retrieval frequency of each query in a log by referring to a retrieval log DB 110. A retrieval intention analyzing part 116 obtains retrieval intention time series data extracting user retrieval intention expressed in a highly frequently searched query for each optional period. A retrieval intention time series analyzing part 120 determines periodicity of retrieval intention based on data and stores the periodicity in a retrieval intention periodicity DB 122. A query collating part 130 collates an input query of a user terminal 2 with the stored data in the DB 122, and if there is the periodicity, obtains retrieval intention data. A search engine 131 searches an index DB 133 based on the input query. A ranking processing part 135 ranks the retrieval result again by using the retrieval intention data. <P>COPYRIGHT: (C)2011,JPO&amp;INPIT

Description

本発明は、ユーザの投入した検索語(クエリ)に基づき電子文書群を検索し、検索結果を取得してユーザに応答する文書検索の技術に関する。   The present invention relates to a document search technique for searching an electronic document group based on a search term (query) input by a user, acquiring a search result, and responding to the user.

周知のように、インターネットなどで接続されたクライアントコンピュータを介して、サーバコンピュータに検索語(クエリ)を投入し、検索結果を取得する文書検索システムは現在多くのユーザに用いられている。このサーバコンピュータには時々刻々と検索のログが保存され、該ログには投入されたクエリの情報や、検索結果に対するクリックの情報が残されている。   2. Description of the Related Art As is well known, a document search system that inputs a search word (query) to a server computer via a client computer connected via the Internet and obtains a search result is currently used by many users. This server computer stores a search log from time to time, and information on the input query and information about a click on the search result remain in the log.

非特許文献1の文書検索システムは、検索エンジンに代表される文書検索システムのログを利用することでクエリの検索意図を明確化し、その情報を用いて検索を行い、検索精度の向上を実現させている。この文書検索システムでは検索エンジンのログの内、特に検索結果のクリックに関する情報(クリックログ)を解析し、よくクリックされている検索結果を特定し、そのタイトルとスニペットとから抽出されたキーワードを用いてクエリを拡張している。   The document search system of Non-Patent Document 1 uses the log of a document search system typified by a search engine to clarify the search intention of a query, performs a search using the information, and realizes an improvement in search accuracy. ing. This document search system analyzes search engine log information (click log), especially for search result clicks, identifies frequently clicked search results, and uses keywords extracted from their titles and snippets. The query has been expanded.

この文書検索技術は、検索結果をクリックするか否かの判断をそのタイトルとスニペットで行うというユーザの検索行為に基づくもので、拡張されたクエリはそのクエリの検索意図をキーワードで補完する形になっている。このときクリックログにはクエリとそれに対してクリックされた検索結果のURLが時間とユーザ識別子の情報と共に含まれているが、非特許文献1の文書検索システムではクエリとクリックされた検索結果のURLの情報のみが使用されている。   This document search technology is based on the user's search act of determining whether or not to click the search result by its title and snippet, and the expanded query complements the search intention of the query with the keyword. It has become. At this time, the click log includes the query and the URL of the search result clicked on it together with the time and user identifier information. However, in the document search system of Non-Patent Document 1, the URL of the search result clicked on the query is clicked. Only the information of is used.

Masaya Murata,Hiroyuki Toda,Yumiko Matsuura,Ryoji Kataoka “Improving Mobile Web−IR Using Access Concentration Sites in Search Results” In Proc.of WISE2008Masaya Murata, Hiroyuki Toda, Yumiko Matsuura, Ryoji Kataoka “Improving Mobile Web-IR Using Access Concentration Sites in Search Research.” of WISE2008 Gui−Rong Xue,Hua−jun Zeng,Zheng Chen,Yong Yu,Wei−Ying Ma,WenSi Xi,WeiGuo Fan ”Optimizing Web Search Using Web Click−through Date” CIKM 2004Gui-Rong Xue, Hua-Jun Zeng, Zheng Chen, Yong Yu, Wei-Ying Ma, WenSi Xi, WeiGuo Fan “Optimizing Web Search Using Web Click-Through” Michail Vlachos,Chris Meek,Zografoula Vagena”Identifying Similarities,Periodicities and Bursts for Online Search Queries” SIGMOD 2004.Michal Vlachos, Chris Meek, Zogorafula Vagena “Identifying Similiarities, Periodicities and Bursts for Online Search Queries” SIGMOD 2004.

非特許文献1では、クリックログを解析し、よくクリックされている検索結果のタイトルとスニペットから抽出されたキーワードを用いてクエリを拡張し、投入されたクエリの検索意図を該キーワードで補完する手法を提案している。   In Non-Patent Document 1, a method of analyzing a click log, extending a query using a title of a search result that is often clicked and a keyword extracted from a snippet, and complementing the search intention of the input query with the keyword Has proposed.

ところが、非特許文献1の検索技術は、クリックログの解析の際にどのユーザがクリックしたのかという情報を利用することなく、単純に各ページに対するクリック回数に注目しているにすぎず、各ユーザのそれぞれの検索行動の分析までは行っていない。   However, the search technique of Non-Patent Document 1 simply pays attention to the number of clicks for each page without using information on which user clicked when analyzing the click log. The analysis of each search behavior is not performed.

その結果、投入されたクエリで表現された各ユーザの検索意図の違いや総数が分からなく、これにより検索精度が不十分となるおそれがあった。すなわち、一般的に同一のクエリが入力されても、入力したそれぞれのユーザによってその検索意図は異なるため、クエリの検索意図をより高精度に把握するためには、クリックログをどのユーザがクリックしたのかという情報を利用して解析し、それぞれの検索行動を分析することが必要である。   As a result, the difference or total number of search intentions of each user expressed by the input query is not known, which may result in insufficient search accuracy. In other words, even if the same query is input, the search intent differs depending on each input user. Therefore, in order to grasp the search intent of the query with higher accuracy, which user clicked the click log It is necessary to analyze using the information of whether or not and analyze each search behavior.

本発明は、上述の実情を解決するためになされたものであって、検索ログ中のクエリに内在する検索意図の相違・総数やそれらの特徴を把握し、高精度の検索結果を提示することを解決課題としている。   The present invention has been made to solve the above-mentioned situation, and grasps the difference / total number of search intentions inherent in the query in the search log and their characteristics, and presents a highly accurate search result. Is a solution issue.

そこで、本発明は、検索ログからユーザの検索行動、即ち最初の検索行動と最後の検索行動とをクラスタリングし、クラスタの特徴を抽出することでクエリに内在する検索意図を把握する。このとき時期(時間)によってクエリで表現された検索意図が変化すれば、検索意図の周期性を判定することが好ましい。ここで把握された検索意図を検索結果に反映させる。   Therefore, the present invention grasps the search intention inherent in the query by clustering the search behavior of the user, that is, the first search behavior and the last search behavior from the search log, and extracting the characteristics of the cluster. At this time, if the search intention expressed by the query changes with time (time), it is preferable to determine the periodicity of the search intention. The search intention grasped here is reflected in the search result.

本発明の文書検索装置の一態様は、検索ログ中のクエリで表現されたユーザの検索意図を分析し、電子文書群の検索結果に反映させる文書検索装置であって、前記検索ログに含まれるクエリの入力回数に基づきユーザ毎に各クエリの検索頻度をカウントするクエリ頻度集計手段と、前記クエリ頻度集計手段のカウントした検索頻度における上位頻度のクエリ集合を分析対象とし、ユーザ毎の検索行動のうち最初の検索行動と最後の検索行動とのペアをクラスタリングし、該各クラスタで表された分析対象クエリの検索意図を取得する検索意図分析手段と、を備える。   One aspect of the document search apparatus of the present invention is a document search apparatus that analyzes a user's search intention expressed by a query in a search log and reflects the result in a search result of an electronic document group, and is included in the search log. Query frequency aggregation means for counting the search frequency of each query for each user based on the number of input queries, and a query set of higher frequencies in the search frequency counted by the query frequency aggregation means as an analysis target, A search intention analysis unit that clusters pairs of the first search action and the last search action and acquires the search intention of the analysis target query represented by each cluster is provided.

前記文書検索装置は、前記検索意図分析手段の抽出した前記検索意図の周期性の有無を判定する検索意図解析手段をさらに備え、前記検索意図に周期性があれば、前記検索結果に反映させてもよい。   The document search apparatus further includes search intention analysis means for determining the presence or absence of periodicity of the search intention extracted by the search intention analysis means, and if there is periodicity in the search intention, it is reflected in the search result. Also good.

前記文書検索装置の他の態様は、検索ログ中のクエリで表現されたユーザの検索意図の周期性を判別し、周期性を有する前記検索意図を格納するデータベースを利用して、ユーザ端末に入力されたクエリの入力時期を検索結果に反映させる文書検索装置であって、前記入力クエリを前記データベースの格納データと照合して、該入力クエリの検索意図の周期性を確認し、周期性が確認できれば該入力クエリの入力時期に応じた格納データを検索意図データとして取得するクエリ照合手段と、前記入力クエリに基づき電子文書群を検索した検索結果を、前記照合手段の取得した検索意図データに基づきリランキングするランキング処理手段と、を備える。   According to another aspect of the document search apparatus, the periodicity of a user's search intention expressed by a query in a search log is determined, and input to a user terminal using a database storing the search intention having periodicity A document search apparatus that reflects the input time of a received query in a search result, and compares the input query with data stored in the database to check the periodicity of the search intention of the input query, and confirms the periodicity If possible, a query matching unit that acquires stored data corresponding to the input timing of the input query as search intention data, and a search result obtained by searching the electronic document group based on the input query is based on the search intention data acquired by the matching unit. Ranking processing means for performing re-ranking.

前記文書検索装置のさらに他の態様は、ユーザ端末に入力されたクエリに基づき電子文書群を検索し、前記ユーザ端末に応答するための検索結果を取得する文書検索装置であって、ユーザ毎の検索ログを記録する検索ログデータベースを参照し、該検索ログに含まれるクエリの入力回数に基づき各クエリの検索頻度をカウントするクエリ頻度集計手段と、前記クエリ頻度集計手段のカウントした検索頻度における上位頻度のクエリ集合を分析対象とし、ユーザ毎の検索行動のうち最初の検索行動と最後の検索行動とのペアをクラスタリングし、該各クラスタで表された分析対象クエリの検索意図を任意期間毎に抽出した検索意図時系列データを取得する検索意図分析手段と、前記検索意図分析手段の抽出した検索意図時系列データにおける周期性を判定し、周期性を有すれば検索意図周期性データとして周期性データベースに格納する検索意図解析手段と、前記入力クエリを前記周期性データベースの格納データと照合して、該入力クエリの検索意図の周期性を確認し、周期性が確認できれば該入力クエリの入力時期に応じた検索意図周期性データを検索意図データとして取得するクエリ照合手段と、前記クエリ照合手段の取得した検索意図データに基づき前記検索結果をリランキングするランキング処理手段と、を備え、前記投入クエリおよび前記最終結果に対するユーザのクリック情報を、前記検索ログデータベースに随時記録する。   Still another aspect of the document search device is a document search device that searches an electronic document group based on a query input to a user terminal and obtains a search result for responding to the user terminal. A query frequency totaling unit that refers to a search log database that records a search log and counts the search frequency of each query based on the number of times the query is included in the search log, and a higher rank in the search frequency counted by the query frequency totaling unit The query set of frequency is set as the analysis target, and pairs of the first search action and the last search action among the search actions for each user are clustered, and the search intention of the analysis target query represented by each cluster is set for each arbitrary period. Search intention analysis means for obtaining the extracted search intention time series data, and a search result in the search intention time series data extracted by the search intention analysis means. Search intention analysis means for determining the periodicity and storing it in the periodicity database as search intention periodicity data if there is periodicity, and checking the input query by comparing the input query with the data stored in the periodicity database Check the periodicity of the intention, and if the periodicity can be confirmed, a query matching means for acquiring search intention periodicity data corresponding to the input timing of the input query as search intention data, and the search intention data acquired by the query matching means Ranking processing means for reranking the search result based on the search result, and the user click information for the input query and the final result is recorded in the search log database as needed.

本発明の文書検索方法の一態様は、検索ログ中のクエリで表現されたユーザの検索意図を分析し、電子文書群の検索結果に反映させる文書検索方法であって、クエリ頻度集計手段が、前記検索ログに含まれるクエリの入力回数に基づきユーザ毎に各クエリの検索頻度をカウントするクエリ頻度集計ステップと、検索意図分析手段が、前記クエリ頻度集計ステップのカウントした検索頻度における上位頻度のクエリ集合を分析対象とし、ユーザ毎の検索行動のうち最初の検索行動と最後の検索行動とのペアをクラスタリングし、該各クラスタで表された分析対象クエリの検索意図を取得する検索意図分析ステップと、を有する。   One aspect of the document search method of the present invention is a document search method that analyzes a user's search intention expressed by a query in a search log and reflects the result in a search result of an electronic document group. A query frequency counting step that counts the search frequency of each query for each user based on the number of times the query is included in the search log, and a search intent analysis means that queries the higher frequency in the search frequency counted by the query frequency counting step A search intention analysis step for clustering a set of first search behavior and last search behavior among search behaviors for each user, and obtaining a search intention of an analysis target query represented by each cluster; Have.

前記文書検索方法は、検索意図解析手段が、前記検索意図分析ステップの抽出した前記検索意図の周期性の有無を判定する検索意図解析ステップをさらに有し、前記検索意図に周期性があれば、前記検索結果に反映させてもよい。   The document search method further includes a search intention analysis step in which search intention analysis means determines whether or not the search intention extracted by the search intention analysis step has periodicity, and if the search intention has periodicity, It may be reflected in the search result.

前記文書検索方法の他の態様は、検索ログ中のクエリで表現されたユーザの検索意図の周期性を判別し、周期性を有する前記検索意図を格納するデータベースを利用して、ユーザ端末に入力されたクエリの入力時期を検索結果に反映させる文書検索方法であって、クエリ照合手段が、前記入力クエリを前記データベースの格納データと照合することで該入力クエリの検索意図の周期性を確認し、周期性が確認できれば該入力クエリの入力時期に応じた格納データを検索意図データとして取得するクエリ照合ステップと、ランキング処理手段が、前記入力クエリに基づき電子文書群を検索した検索結果を、前記照合手段の取得した検索意図データに基づきリランキングするランキング処理ステップと、を有する。   According to another aspect of the document search method, the periodicity of a user's search intention expressed by a query in a search log is determined, and input to a user terminal using a database storing the search intention having a periodicity A document search method for reflecting the input time of a received query in a search result, wherein query matching means checks the periodicity of the search intent of the input query by comparing the input query with data stored in the database. If the periodicity can be confirmed, a query collating step for obtaining stored data corresponding to the input time of the input query as search intention data, and a ranking processing means, the search result obtained by searching the electronic document group based on the input query, And a ranking process step for reranking based on the search intention data acquired by the matching means.

前記文書検索方法のさらに他の態様は、ユーザ端末に入力されたクエリに基づき電子文書群を検索し、前記ユーザ端末に応答するための検索結果を取得する文書検索方法であって、クエリ頻度集計手段が、ユーザ毎の検索ログを記録する検索ログデータベースを参照し、該検索ログに含まれるクエリの入力回数に基づき各クエリの検索頻度をカウントするクエリ頻度集計ステップと、検索意図分析手段が、前記クエリ頻度集計ステップでカウントした検索頻度における上位頻度のクエリ集合を分析対象とし、ユーザ毎の検索行動のうち最初の検索行動と最後の検索行動とのペアをクラスタリングし、該各クラスタで表された分析対象クエリの検索意図を任意期間毎に抽出した検索意図時系列データを取得する検索意図分析ステップと、検索意図解析手段が、前記検索意図分析ステップで抽出した検索意図時系列データにおける周期性を判定し、周期性を有すれば検索意図周期性データとして周期性データベースに格納する検索意図解析ステップと、クエリ照合手段が、前記入力クエリを前記周期性データベースの格納データと照合することで該入力クエリの検索意図の周期性を確認し、周期性が確認できれば該入力クエリの入力時期に応じた検索意図周期性データを検索意図データとして取得するクエリ照合ステップと、ランキング処理手段が、前記クエリ照合ステップで取得した検索意図データに基づき前記検索結果をリランキングするランキング処理ステップと、前記投入クエリおよび前記最終結果に対するユーザのクリック情報を、前記検索ログデータベースに随時記録する記録ステップと、を有する。   Still another aspect of the document search method is a document search method for searching a group of electronic documents based on a query input to a user terminal and obtaining a search result for responding to the user terminal, the query frequency counting A query frequency counting step in which the means refers to a search log database that records a search log for each user and counts the search frequency of each query based on the number of times the query is included in the search log; A query set having a higher frequency in the search frequency counted in the query frequency counting step is set as an analysis target, and pairs of the first search action and the last search action among the search actions for each user are clustered, and are represented by the respective clusters. A search intention analysis step for acquiring search intention time-series data obtained by extracting the search intention of the analyzed query for each arbitrary period; A search intention analyzing step for determining periodicity in the search intention time-series data extracted in the search intention analysis step, and storing the periodicity in the periodicity database as search intention periodic data if there is periodicity, and query matching The means confirms the periodicity of the search intention of the input query by comparing the input query with the data stored in the periodicity database, and if the periodicity can be confirmed, the search intention periodicity according to the input timing of the input query Query matching step for acquiring data as search intention data, ranking processing means for ranking processing step for reranking the search results based on the search intention data acquired in the query matching step, and for the input query and the final result Record user click information in the search log database as needed ; And a recording step.

なお、本発明は、前記各文書検索装置としてコンピュータを機能させるプログラムの態様としてもよく、このプログラムは記録媒体に記録した態様でもよい。   The present invention may be in the form of a program that causes a computer to function as each of the document search devices, and this program may be recorded in a recording medium.

本発明によれば、検索ログ中のクエリに内在する異なった意図の総数や、それらの特徴が把握でき、検索精度が向上する。特に、検索意図の周期的変化を発見することにより、時期(時間)によって検索意図が変化するクエリに対しても高精度な検索結果が提示される。   According to the present invention, the total number of different intentions inherent in the query in the search log and the characteristics thereof can be grasped, and the search accuracy is improved. In particular, by finding a periodic change in search intention, a highly accurate search result is presented even for a query whose search intention changes with time (time).

本発明の実施形態に係る文書検索装置の構成図。1 is a configuration diagram of a document search apparatus according to an embodiment of the present invention. 同 分析処理ステージの処理動作図。The processing operation | movement figure of the same analysis processing stage. 同 分析処理ステージおよび解析処理ステージの処理データ構成図。The processing data block diagram of the same analysis processing stage and an analysis processing stage. (a)はユーザの検索行動例を示す図、(b)は2分グラフの一例を示す図。(A) is a figure which shows an example of a user's search action, (b) is a figure which shows an example of a binary graph. 解析処理ステージおよびクエリ照合部の処理動作を示す図。The figure which shows the processing operation of an analysis process stage and a query collation part. 検索意図周期性データとクエリの検索意図データと入力クエリとクエリ入力情報のデータ構成図。FIG. 6 is a data configuration diagram of search intention periodicity data, query search intention data, input query, and query input information. 検索エンジンおよび時間連動型ランキング処理部の処理動作を示す図。The figure which shows the processing operation of a search engine and a time interlocking type ranking process part. 検索エンジンの検索結果とリランキングされた最終検索結果とクリック情報のデータ構成図。The data structure figure of the search result of a search engine, the final search result reranked, and click information.

以下、本発明の実施形態に係る文書検索装置を説明する。この文書検索装置によれば、ユーザのクエリ投入時期(時間)に応じて、ユーザの検索意図を把握する時間連動型の文書検索を実施する。すなわち、検索エンジンの検索ログをどのユーザがクリックしたのかという情報を解析し、各ユーザのクエリの入力から検索結果のクリック、そして該検索の終了までの一連の検索セクションを取得する。   Hereinafter, a document search apparatus according to an embodiment of the present invention will be described. According to this document search device, a time-linked document search for grasping a user's search intention is performed according to the user's query input time (time). That is, information on which user has clicked the search log of the search engine is analyzed, and a series of search sections from the input of each user's query to the click of the search result and the end of the search are obtained.

つぎに各セクションの最初の検索行動と最後の検索行動に注目し、クエリに内在する異なった検索意図の違いや総数を把握し、検索意図を詳細に分析する。ここで分析されたクエリの検索意図の時間変化を長期間の検索ログを用いて解析し、周期性を発見する。周期性の発見されたクエリは、時間(時期)によってそのクエリで検索されるユーザの検索意図が変化することを意味する。   Next, paying attention to the first search action and the last search action in each section, grasp the difference and total number of different search intentions inherent in the query, and analyze the search intention in detail. The time change of the search intention of the analyzed query is analyzed using a long-term search log to find periodicity. A query in which periodicity is found means that a search intention of a user searched by the query changes with time (time).

したがって、同一クエリが再度投入されれば、その入力時間に応じて検索結果のランキングを適切に調整し、ユーザに提示される。このとき検索結果の上位ランクには、ユーザがクエリ入力時に真に捜し求めていた情報が提示され、この点で検索精度が向上する。   Therefore, if the same query is input again, the ranking of the search results is appropriately adjusted according to the input time and presented to the user. At this time, the information that the user really searched for at the time of inputting the query is presented in the upper rank of the search result, and the search accuracy is improved in this respect.

≪装置構成例≫
図1に基づき前記文書検索装置の構成例を説明する。ここでは前記文書検索装置1は、ユーザ端末2とネットワーク経由でデータ送受信可能に接続され、ユーザ毎の検索ログに含まれたクエリで表現された検索意図の時間的変化を捉え、前記ユーザ端末2のクエリ入力時期(時間)に応じて検索結果を適切にランキングする時間連動型の文書検索システムを構成している。
≪Example of device configuration≫
A configuration example of the document search apparatus will be described with reference to FIG. Here, the document search apparatus 1 is connected to a user terminal 2 so as to be able to transmit and receive data via a network, and captures a temporal change in search intention expressed by a query included in a search log for each user. A time-linked document search system that appropriately ranks search results according to the query input time (time) is configured.

前記ユーザ端末2は、クエリの入力、検索結果の表示、そして一連のユーザの検索行動を記録するユーザインターフェース140を有している。このユーザインターフェース140は、前記文書検索装置1に送信するクエリを入力するクエリ入力部141と、前記文書検索装置1から返信された検索結果を表示する検索結果表示部142と、ユーザの検索行動を監視・記録する検索ログ記録部143を備えていればよく、例えばパーソナルコンピュータ(PC)や携帯電話・PDAなどのモバイル端末のブラウザにより構成される。なお、ユーザのクエリ入力作業は、キーボードなどの入力手段を通じて実施される。   The user terminal 2 has a user interface 140 for recording queries, displaying search results, and a series of user search behaviors. The user interface 140 includes a query input unit 141 for inputting a query to be transmitted to the document search device 1, a search result display unit 142 for displaying a search result returned from the document search device 1, and a user search behavior. A search log recording unit 143 for monitoring and recording may be provided, and for example, it is configured by a browser of a mobile terminal such as a personal computer (PC), a mobile phone, or a PDA. The user's query input operation is performed through an input means such as a keyboard.

前記文書検索装置1は、Webサーチエンジン(いわゆる検索エンジン)のシステムサーバにより構成され、通常のコンピュータのハードウェアリソース、例えばCPU,メモリ(RAM),ハードディスクドライブ装置,通信デバイスなどを備える。このハードウェアリソースとソフトウェアリソースとの協働の結果、前記文書検索装置1は、検索エンジンの検索ログに含まれるクエリの検索意図を分析する分析処理ステージと、該分析処理ステージを通じて分析されたクエリの検索意図の時間的な変化を解析する解析処理ステージと、解析処理ステージで解析された検索意図の時間的変化を検索結果に反映させた時間連動型の検索ランキングを前記ユーザ端末2に返信する検索処理ステージと、を実施する。なお、前記文書検索装置1は、必ずしも単一のコンピュータにより構成される必要は無く、複数のコンピュータにて構成してもよいものとする。   The document search device 1 is constituted by a system server of a Web search engine (so-called search engine), and includes hardware resources of a normal computer such as a CPU, a memory (RAM), a hard disk drive device, a communication device and the like. As a result of the cooperation between the hardware resource and the software resource, the document search apparatus 1 analyzes the search intention of the query included in the search log of the search engine, and the query analyzed through the analysis process stage. An analysis processing stage for analyzing a temporal change in search intention of the user and a time-linked search ranking reflecting the temporal change in the search intention analyzed in the analysis processing stage in the search result are returned to the user terminal 2. And a search processing stage. The document search apparatus 1 does not necessarily have to be configured by a single computer, and may be configured by a plurality of computers.

分析処理ステージは、検索ログDB110.クエリ頻度集計部112.クエリ頻度ランキングDB114.検索意図分析部116を通じて実施され、解析処理ステージは、検索意図時系列解析部120.検索意図周期性DB122を通じて実施される。この両ステージは、いずれも前記ユーザ端末2からのクエリ送信前のオフライン段階で実施される。一方、検索処理ステージは、前記ユーザ端末2からクエリ送信後のオンライン段階にてクエリ照合部130.検索エンジン131(インデックスDB133を含む).時間連動型検索結果ランキング処理部135を通じて実施される。このうち前記各DB110.114.122.133は、前記ハードディスクドライブ装置に構築されているものとする。また、前記ユーザ端末2とのデータ送受信は、前記通信デバイスを通じて実施されるものとする。   The analysis processing stage includes the search log DB 110. Query frequency totaling unit 112. Query frequency ranking DB 114. The analysis processing stage is performed through the search intention analysis unit 116, and the analysis processing stage includes a search intention time series analysis unit 120. This is implemented through the search intention periodicity DB 122. Both of these stages are performed in the offline stage before the query transmission from the user terminal 2. On the other hand, in the search processing stage, the query matching unit 130. Search engine 131 (including index DB 133). This is performed through the time-linked search result ranking processing unit 135. Of these, the DBs 110.114.122.133 are constructed in the hard disk drive. Data transmission / reception with the user terminal 2 is performed through the communication device.

概略を説明すれば、分析処理ステージは、前記検索ログDB110に記録された検索ログを利用する。ここでは前記検索ログDB110には、前記ユーザ端末2から送信された前記検索ログ記録部143の記録データが蓄積されているものとする。この記録データを前記頻度集計部112が参照し、検索ログ中の各クエリの出現頻度をカウントする。カウントされた集計結果は、前記ランキングDB114に転送され、蓄積される。つぎに前記分析部116は、前記ランキングDB114に検索意図の分析対象となる上位頻度のクエリ集合を要求する。要求に対する回答を受け取ると、前記分析部116は、クエリ集合に属するそれぞれのクエリの検索意図を分析する。ここではユーザの検索行動からクエリに内在する検索意図を特徴語(キーワード)として抽出し、該特徴語を任意期間毎に時系列に抽出した検索意図時系列データを前記解析部120に転送する。   In brief, the analysis processing stage uses a search log recorded in the search log DB 110. Here, it is assumed that the search log DB 110 stores the record data of the search log recording unit 143 transmitted from the user terminal 2. The frequency counting unit 112 refers to the recorded data, and counts the appearance frequency of each query in the search log. The counted total results are transferred to the ranking DB 114 and accumulated. Next, the analysis unit 116 requests the ranking DB 114 for a high-frequency query set to be analyzed as a search intention. Upon receiving an answer to the request, the analysis unit 116 analyzes the search intention of each query belonging to the query set. Here, the search intention inherent in the query is extracted as a feature word (keyword) from the search behavior of the user, and the search intention time-series data in which the feature word is extracted in time series for each arbitrary period is transferred to the analysis unit 120.

解析処理ステージは、検索結果時系列データに基づきクエリの時間的な変化を捉える。ここでは前記解析部120は、前記分析部116から転送されたクエリの検索意図時系列データを解析し、特徴語に周期性があれば周期性を示すキーワードとみなす。この解析結果、即ち周期を示すキーワードおよび時期(時間)を検索意図周期性データとして、前記周期性DB122に登録され、検索処理ステージにて検索結果のランキングに利用される。   The analysis processing stage captures the temporal change of the query based on the search result time series data. Here, the analysis unit 120 analyzes the search intention time series data of the query transferred from the analysis unit 116, and if the feature word has periodicity, it is regarded as a keyword indicating periodicity. The analysis result, that is, the keyword indicating the period and the time (time) are registered in the periodicity DB 122 as search intention periodicity data, and are used for the ranking of the search results at the search processing stage.

すなわち、検索処理ステージは、前記周期性DB122の登録データに基づき前記ユーザ端末2からのクエリ入力時期(時間)に適した検索ランキングを生成し、前記ユーザ端末2に返信する。ここではユーザが前記クエリ入力部141にクエリを入力・送信すれば、前記文書検索装置1では受信したクエリを前記照合部130に転送する。このとき前記照合部130は、前記周期性DB122にアクセスして入力クエリ情報の周期性を照合する。照合の結果、入力クエリ情報に周期性があれば、検索意図周期性データを該クエリ情報の検索意図情報として取得する。   That is, the search processing stage generates a search ranking suitable for the query input time (time) from the user terminal 2 based on the registration data of the periodicity DB 122 and returns it to the user terminal 2. Here, when the user inputs / transmits a query to the query input unit 141, the document search apparatus 1 transfers the received query to the collation unit 130. At this time, the collation unit 130 accesses the periodicity DB 122 to collate the periodicity of the input query information. If the input query information has periodicity as a result of the collation, search intention periodicity data is acquired as search intention information of the query information.

取得した検索意図情報と入力クエリ情報とは、前記検索エンジン131に転送される。前記検索エンジン131は、事前にWWW(World Wide Web)132からWebページ集合を収集し、インデクスDB133に保存しているため、転送された入力クエリ情報を基に検索を実施し、通常の検索結果を前記ランキング処理部135に転送する。その際に検索意図情報も併せて転送するものとする。ここで前記ランキング処理部135は、前記検索エンジン131から検索意図情報が転送されれば、該検索意図情報を基に検索結果をリランキングし、クエリ入力時期(時間)に適合する検索結果ランキングを生成する。生成した検索結果は、前記ユーザ端末2に返信され、検索結果表示部142に表示される。   The acquired search intention information and input query information are transferred to the search engine 131. The search engine 131 collects Web page sets from the WWW (World Wide Web) 132 in advance and stores them in the index DB 133. Therefore, the search engine 131 performs a search based on the transferred input query information and obtains a normal search result. Is transferred to the ranking processing unit 135. At that time, search intention information is also transferred. Here, when the search intention information is transferred from the search engine 131, the ranking processing unit 135 reranks the search result based on the search intention information, and calculates the search result ranking that matches the query input time (time). Generate. The generated search result is returned to the user terminal 2 and displayed on the search result display unit 142.

これによりユーザは、検索結果表示部142に表示された検索結果を閲覧し、検索結果のクリックなどの検索行動を続けることができる。このとき前記検索ログ記録部143は、ユーザのクエリ入力や検索結果に対するクリックなどの検索行動を監視し、その情報は前記文書検索装置1に送信され、前記検索ログDB110に記録・蓄積される。以下、オフライン段階とオンライン段階とに大別して各処理ステージの処理動作を個別具体的に説明する。   Accordingly, the user can browse the search result displayed on the search result display unit 142 and continue the search action such as clicking the search result. At this time, the search log recording unit 143 monitors a search action such as a user's query input or a click on a search result, and the information is transmitted to the document search device 1 and recorded / stored in the search log DB 110. In the following, the processing operation of each processing stage will be described in detail, roughly divided into an offline stage and an online stage.

≪オフライン段階≫
(1)図2は、分析処理ステージにおけるクエリの検索意図の分析処理に関する動作処理を示している。ここでは前記検索ログDB110には、図3中のログ111が保存されているものとする。具体的には、ログ111には、ユーザのクエリ入力時における「入力時間・ユーザID・入力クエリ」と、検索結果に対するクリック時における「入力時間・ユーザID・入力クエリ・検索結果URL」とが保存されている。この検索結果URLは、検索結果に対してクリックされた電子文書(Webページ)のURLを示している。また、ユーザIDは、ユーザの識別子であり、これを固定してログ111を分析することでユーザの検索行動、即ち検索セッションを取得する。
≪Offline stage≫
(1) FIG. 2 shows an operation process related to an analysis process of a query retrieval intention in the analysis process stage. Here, it is assumed that the log 111 in FIG. 3 is stored in the search log DB 110. Specifically, the log 111 includes “input time / user ID / input query” at the time of query input by the user and “input time / user ID / input query / search result URL” at the time of clicking on the search result. Saved. This search result URL indicates the URL of the electronic document (Web page) clicked on the search result. Further, the user ID is a user identifier, and the user's search behavior, that is, a search session is acquired by analyzing the log 111 while fixing the user ID.

前記集計部112および前記分析部116は、前記検索ログDB110に対してログの要求を行い、ログ111を取得する。このうち前記集計部112は、取得したログ111をクエリの入力回数に注目して解析し、クエリ頻度113を算出する(クエリ頻度集計ステップ)。このクエリ頻度113には、図3に示すように、クエリ毎に入力頻度がデータ格納されているものとする。算出したクエリ頻度113は、前記ランキングDB114に転送され、保存される。   The totaling unit 112 and the analysis unit 116 request a log to the search log DB 110 and acquire the log 111. Among these, the totaling unit 112 analyzes the acquired log 111 by paying attention to the number of input queries, and calculates the query frequency 113 (query frequency totaling step). In this query frequency 113, as shown in FIG. 3, it is assumed that the input frequency is stored for each query. The calculated query frequency 113 is transferred to the ranking DB 114 and stored.

前記分析部116は、ログ111の要求と併せて前記ランキングDB114に検索意図の分析処理を実施するクエリ集合を要求する。ここでは前記分析部116は、図3に示す処理対象クエリ115、即ち入力回数が多い上位頻度のクエリ集合を取得する。このログ111および分析対象クエリ115の取得後にクエリで表された検索意図を分析する(検索意図分析ステップ)。   The analysis unit 116 requests a query set for performing a search intention analysis process to the ranking DB 114 together with a request for the log 111. Here, the analysis unit 116 acquires the processing target query 115 illustrated in FIG. 3, that is, a query set having a higher frequency with a large number of inputs. After acquiring the log 111 and the analysis target query 115, the search intention expressed by the query is analyzed (search intention analysis step).

詳細を説明すれば、処理対象クエリ115に属する各クエリに対してユーザIDを固定してログ111を解析し、各ユーザの検索行動を抽出する。その際、クエリを入力してから最初の検索行動(検索結果のクリック、クエリの変更、もしくは検索終了)と最後の検索行動に注目する。   More specifically, the log 111 is analyzed with the user ID fixed for each query belonging to the processing target query 115, and the search behavior of each user is extracted. At that time, after entering the query, focus on the first search action (click on search result, change of query, or search end) and the last search action.

最後の検索行動とは、他のキーワードの入力や検索終了の一つ前の検索行動を意味する。ここでは最初の検索行動を「First Action」、最後の検索行動を「Last Action」と呼ぶものとする。「First Action」に注目する理由は、例えば図4(a)に示す「UserID A」のユーザのように最初に検索結果1位をクリックするユーザと、「UserID B」や「ユーザID C」のユーザのように検索結果1位を飛ばして最初に検索結果2位あるいは検索結果3位をクリックするユーザとが存在し、ユーザ毎の検索意図の違いが明確に表れ易い検索行動と考えられるためである。   The last search action means the search action immediately before the input of another keyword or the end of the search. Here, the first search action is referred to as “First Action”, and the last search action is referred to as “Last Action”. The reason for paying attention to “First Action” is that, for example, the user who first clicks on the first search result, such as the user of “UserID A” shown in FIG. 4A, and “UserID B” or “User ID C” This is because there is a user who skips the first search result and clicks on the second search result or the third search result first, like a user, and it is considered that the difference in the search intention for each user is easily apparent. is there.

また、「Last Action」に注目する理由は、その検索行動で自分の検索意図が満たされ、検索を辞めたと考えることができるからである。ここではクエリで表現されたそれぞれのユーザの検索意図の違いを明確化し、それらを満足させることができた検索行動に注目するために、「First Action」と「Last Action」との間のつながりを考慮して解析し、その結果、図4(b)に示す2分グラフを得る。   The reason why attention is paid to “Last Action” is that it can be considered that the search action satisfies the search intention and the search is terminated. Here, in order to clarify the difference in the search intention of each user expressed by the query and focus on the search behavior that was able to satisfy them, the connection between “First Action” and “Last Action” As a result, a binary graph shown in FIG. 4B is obtained.

そして2分グラフを分析し、結び付きの強い「First Action」と「Last Action」とのペアを算出していく。ここでは一例として、非特許文献2に示されたような手法(「3.3 Co−Visited Method(CVM)、3.4 Iterative Algorithm(IA))で、それぞれのノード間(「First Action」と「Last Action」)の類似度行列を生成し、凝集法のような既存のクラスタリング手法で各ユーザの検索行動をクラスタリングするものとする。各クラスタからクエリに内在する検索意図を表す特徴語、例えばクラスタに属する検索結果を得るために頻繁に利用(クリック)されているクエリを特徴語として付与する。なお、非特許文献2の手法を用いる際には、「Queries」・「Web Pages」を「First Action」・「Last Action」に読み替える。   Then, the binary graph is analyzed, and a pair of “First Action” and “Last Action” having strong connection is calculated. Here, as an example, a method as shown in Non-Patent Document 2 (“3.3 Co-Visit Method (CVM), 3.4 Iterative Algorithm (IA))” and between each node (“First Action” and “ It is assumed that a similarity matrix of “Last Action”) is generated, and each user's search behavior is clustered by an existing clustering method such as an aggregation method. A feature word indicating a search intention inherent in the query from each cluster, for example, a query frequently used (clicked) to obtain a search result belonging to the cluster is assigned as a feature word. When using the method of Non-Patent Document 2, “Queries” and “Web Pages” are read as “First Action” and “Last Action”.

このような検索意図の分析を1週間毎や1ヶ月毎に実施し、図3に示すように、「クエリ入力の時期・クエリ・検索意図番号・特徴語」がペアにデータ格納された検索意図時系列データ117を取得する。ここではクエリ入力の時期は、春夏秋冬などの季節、あるいは午前午後や朝昼晩の時間帯などでもよく、その入力時期に応じた特徴語毎に検索意図番号が付与されている。例えば、図3中の検索意図時系列データ117のクエリ1は「豆腐」のフレーズからなり、入力の時期は「夏」と「冬」とする。この場合に入力時期「夏」の特徴語は「冷奴」が得られ、入力時期「冬」の特徴語は「湯豆腐」が得られれば、それぞれ異なる検索意図番号が付与される。
(2)つぎに図5に基づき解析処理ステージの処理動作を説明すれば、前記解析部120は、検索意図時系列データ117の転送後に解析処理を実施する。ここでは非特許文献3に示された高速フーリエ変換の手法を通じて、検索意図時系列データ117中の特徴語の周期性の有無を検索意図番号に基づき判別する(検索意図解析ステップ)。
Such a search intention analysis is performed every week or every month, and as shown in FIG. 3, a search intention in which “date of query input, query, search intention number, feature word” is stored in pairs. Time series data 117 is acquired. Here, the query input time may be a season such as spring / summer / autumn / winter, or a time zone of morning / afternoon or morning / noon / night. A search intention number is assigned to each feature word corresponding to the input time. For example, the query 1 of the search intention time-series data 117 in FIG. 3 includes the phrase “tofu”, and the input periods are “summer” and “winter”. In this case, if the feature word of the input time “summer” is “cold” and the feature word of the input time “winter” is “yutofu”, different search intention numbers are assigned.
(2) Next, the processing operation of the analysis processing stage will be described with reference to FIG. 5. The analysis unit 120 performs analysis processing after transferring the search intention time-series data 117. Here, the presence or absence of periodicity of feature words in the search intention time-series data 117 is determined based on the search intention number through the fast Fourier transform method shown in Non-Patent Document 3 (search intention analysis step).

解析の結果、周期性があれば、その周期で代表的に表れるクラスタの特徴語を、周期を特徴付けるキーワードとみなす。この解析結果を検索意図周期性データ121として前記周期性DB122に登録する。この処理動作によりオフライン処理を終了する。なお、検索意図周期性データ121には、図6に示すように、クエリ毎に周期を示す時期(季節や時間帯など)と前記キーワードを構成する特徴語とがペアにデータ格納されている。   If there is periodicity as a result of the analysis, a cluster feature word that typically appears in that cycle is regarded as a keyword characterizing the cycle. This analysis result is registered in the periodicity DB 122 as the search intention periodicity data 121. This processing operation ends the offline processing. In addition, as shown in FIG. 6, the search intention periodicity data 121 stores data indicating a period (season, time zone, etc.) for each query and feature words constituting the keyword in pairs.

≪オンライン段階≫
検索処理ステージにおける文書検索段階の処理動作を説明すれば、まずユーザは検索意図を表現するクエリを前記クエリ入力部141に対して入力する。このクエリ144は、図6に示すように、入力された時間(時期)とキーワード集合により構成され、前記ユーザ端末2から前記文書検索装置1に送信される。このときクエリ144は、ユーザIDの情報を付与したクエリ入力情報145のデータ形式で前記検索ログ記録部143に転送され、蓄積される。
≪Online stage≫
The processing operation in the document search stage in the search process stage will be described. First, the user inputs a query expressing the search intention to the query input unit 141. As shown in FIG. 6, the query 144 is composed of an input time (time) and a keyword set, and is transmitted from the user terminal 2 to the document search device 1. At this time, the query 144 is transferred to the search log recording unit 143 and stored in the data format of the query input information 145 to which the user ID information is added.

このクエリ144は、図6に示すように、入力された時間(時期)とキーワード集合により構成され、前記ユーザ端末2から前記文書検索装置1に送信される。このときクエリ144は、ユーザIDの情報を付与したクエリ入力情報145のデータ形式で前記検索ログ記録部143に転送され、蓄積される。   As shown in FIG. 6, the query 144 is composed of an input time (time) and a keyword set, and is transmitted from the user terminal 2 to the document search device 1. At this time, the query 144 is transferred to the search log recording unit 143 and stored in the data format of the query input information 145 to which the user ID information is added.

前記文書検索装置1は、クエリ144を受信すると、前記照合部130に転送する。前記照合部130は、前記周期性DB122にアクセスして、クエリ144を検索意図周期性データ121のクエリ(クエリ1.2...)と照合し、周期性を確認する(クエリ照合ステップ)。具体的には、検索意図周期性データ121にクエリ144と一致するクエリがあれば周期性が肯定され、一致するクエリなければ周期性が否定される。ここではクエリ144に含まれるキーワードの一致性を照合するものとする。   When the document search apparatus 1 receives the query 144, the document search apparatus 1 transfers the query 144 to the collation unit 130. The collation unit 130 accesses the periodicity DB 122, collates the query 144 with the query (query 1.2...) Of the search intention periodicity data 121, and confirms the periodicity (query collation step). More specifically, if there is a query that matches the query 144 in the search intention periodicity data 121, the periodicity is affirmed, and if there is no matching query, the periodicity is denied. Here, it is assumed that the matching of the keywords included in the query 144 is collated.

照合の結果、クエリ144の周期性が肯定されれば、入力された時間(時期)に応じた検索意図周期性データ121を、クエリの検索意図データ123として取得する。この検索意図データ123には、「クエリ・時期(時間)・特徴語」が格納されている。ただし、クエリ144に周期性が否定された場合、あるいは入力時間(時期)に応じた検索意図周期性データ121が無い場合には空のデータが検索意図データ123として構成される。このクエリの照合後に前記照合部130は、クエリ144とクエリの検索意図データ123とを前記検索エンジン131に転送する。   If the periodicity of the query 144 is affirmed as a result of the collation, the search intention periodicity data 121 corresponding to the input time (time) is acquired as the search intention data 123 of the query. The search intention data 123 stores “query / time (time) / characteristic word”. However, when the periodicity is denied in the query 144 or when there is no search intention periodicity data 121 corresponding to the input time (time), empty data is configured as the search intention data 123. After the collation of the query, the collation unit 130 transfers the query 144 and the query intention data 123 of the query to the search engine 131.

前記検索エンジン131は、事前にWWW(World Wide Web)132からWebページ集合(電子文書群)を収集し、インデクスDB133に保存している。したがって、検索エンジン131は、図7に示すように、前記照合部130から転送されたクエリ144に基づきWebページ集合を検索し(検索処理ステップ)、これにより検索結果134が取得される。ここで取得された検索結果134とクエリの検索意図データ123は、前記ランキング処理部135に転送される。   The search engine 131 collects a web page set (electronic document group) from a WWW (World Wide Web) 132 and stores it in the index DB 133 in advance. Therefore, as shown in FIG. 7, the search engine 131 searches the web page set based on the query 144 transferred from the collation unit 130 (search processing step), and thereby the search result 134 is acquired. The search result 134 and the query search intention data 123 acquired here are transferred to the ranking processing unit 135.

前記ランキング処理部135は、転送された検索結果134.検索意図123に基づき時間連動型の検索結果ランキングを生成する(ランキング処理ステップ)。すなわち、クエリの検索意図123に基づき検索結果134をリランキングする。例えば検索結果134のうち、検索意図データ123の特徴語を含むものを上位にランキングする。したがって、入力されたクエリの時間(時期)の検索意図に適合した検索結果ランキングが生成され、最終検索結果136が前記ユーザ端末2に返信され、前記表示部142に表示される。これによりユーザは、最終検索結果136を確認し、閲覧した検索結果に対してクリックなどの検索行動を行うことができる。   The ranking processing unit 135 uses the transferred search results 134. A time-linked search result ranking is generated based on the search intention 123 (ranking processing step). That is, the search result 134 is reranked based on the query search intention 123. For example, among the search results 134, those including the characteristic words of the search intention data 123 are ranked higher. Accordingly, a search result ranking suitable for the search intention of the input query time (time) is generated, and the final search result 136 is returned to the user terminal 2 and displayed on the display unit 142. As a result, the user can confirm the final search result 136 and perform a search action such as a click on the browsed search result.

この検索結果のクリックの情報に対して、クリックされた時間とユーザIDを付与したクリック情報146が検索ログ記録部143に転送され、記録される。また、最終検索結果136の閲覧に続くユーザの検索行動のうち、クエリの変更(再入力)はクエリ入力部141を通じて入力され、該クエリ入力情報145も前記検索ログ記録部143に転送され、記録される。このとき前記検索ログ記録部143の記録データ145.146は、前記文書検索装置1に送信され、前記検索ログDB110に記録され、ログ111としてフィードバックされる(記録ステップ)。したがって、前記検索ログDB110のログ111が更新され、更新された検索ログDB110は次に同一ユーザから入力されるクエリの時間連動型検索結果ランキングの生成の際に使用される。このような前記文書検索装置1によれば、以下の効果を得ることができる。
(1)すなわち、前記文書検索装置1によれば、前記検索ログDB110にはユーザIDを固定して検索エンジン131のログ111が保存されているため、前記分析部116を通じて各ユーザのクエリの入力から検索結果のクリック、そしてその検索の終了までの一連の検索セッションが取得される。
Click information 146 to which the click time and the user ID are assigned to the click information of the search result is transferred to the search log recording unit 143 and recorded. Of the search behavior of the user following the browsing of the final search result 136, a change (re-input) of the query is input through the query input unit 141, and the query input information 145 is also transferred to the search log recording unit 143 and recorded. Is done. At this time, the record data 145.146 of the search log recording unit 143 is transmitted to the document search apparatus 1, recorded in the search log DB 110, and fed back as the log 111 (recording step). Accordingly, the log 111 of the search log DB 110 is updated, and the updated search log DB 110 is used when generating a time-linked search result ranking of a query input from the same user next time. According to the document search apparatus 1 as described above, the following effects can be obtained.
(1) That is, according to the document search apparatus 1, since the log 111 of the search engine 131 is stored in the search log DB 110 with a fixed user ID, the query of each user is input through the analysis unit 116. A series of search sessions are acquired from the click to the click of the search result to the end of the search.

ここでは各セッションの最初の行動(First Action)と最後の行動(Last Action)とに注目し、両者間の2分グラフ「Bipartite Graph」を構築することで、「First Action」と「Last Action」のペアをクラスタリング処理する。これらクラスタはクエリに内在する異なった検索意図を表しており、特徴語を抜き出すことで、検索意図の把握や総数を詳細に分析することができ、検索精度の向上に貢献する。
(2)また、前記分析部116は、クエリの分析意図の時間的変化を長期間の検索ログに基づき時系列データ化し、前記解析部120を通じて周期性の変化を発見する。ここで検索意図の周期性変化が発見されたクエリは、時間(時期)によってそのクエリで検索されるユーザの検索意図が変化することを意味するため、かかるクエリに対しては、検索処理ステージにて入力された時期(時間)に応じて検索結果ランキングを適切にリランキングしてユーザに提示される。
Here, paying attention to the first action (First Action) and the last action (Last Action) of each session and constructing a bipartite graph “Bipartite Graph” between them, “First Action” and “Last Action” Cluster the pair. These clusters represent different search intentions inherent in the query. By extracting feature words, the search intention can be grasped and the total number can be analyzed in detail, which contributes to improvement of search accuracy.
(2) Further, the analysis unit 116 converts the temporal change of the query analysis intention into time-series data based on a long-term search log, and discovers a change in periodicity through the analysis unit 120. A query in which a periodic change in search intention is found here means that the search intention of a user searched by the query changes with time (period). The search result ranking is appropriately reranked in accordance with the time (time) input in this manner and presented to the user.

すなわち、前記照合部130にて前記周期性DB122の検索意図周期性データに基づき入力クエリの周期性が確認され、入力時期(時刻)に適切な検索意図データ123が取得され、前記ランキング処理部135にて時間連動型ランキングが生成される。   That is, the collation unit 130 confirms the periodicity of the input query based on the search intention periodicity data in the periodicity DB 122, obtains the appropriate search intention data 123 at the input time (time), and the ranking processing unit 135. A time-linked ranking is generated at.

したがって、前記表示部142に表示される検索結果136の上位ランクには、ユーザがクエリ入力時期(時間)に真に探し求めていた情報が提示される。これにより時間(時期)によって検索意図が変化するような難しいクエリに対しても、高精度な検索結果を提示でき、時間(時期)を考慮した時間連動型の文書検索装置が実現され、この点で文書検索システムの検索精度が改善される。   Therefore, the information that the user was really searching for at the query input time (time) is presented in the upper rank of the search result 136 displayed on the display unit 142. As a result, a highly accurate search result can be presented even for difficult queries whose search intent changes with time (time), and a time-linked document search device that takes time (time) into account is realized. This improves the search accuracy of the document search system.

≪プログラムなど≫
本発明は、前記文書検索装置1の各部110.112.114.116.120.122.130.131.133.135の一部もしくは全部として、コンピュータを機能させるプログラムとして構成することもできる。このプログラムによれば、前記各ステップの全てあるいは、その一部をコンピュータに実行させることができる。
≪Programs≫
The present invention can also be configured as a program that causes a computer to function as a part or all of each section 110.11.114.116.120.122.130.130.133.135 of the document search apparatus 1. According to this program, all or a part of each of the steps can be executed by a computer.

このプログラムは、Webサイトや電子メールなどネットワークを通じて提供することができる。また、前記プログラムは、CD−ROM,DVD−ROM,CD−R,CD−RW,DVD−R,DVD−RW,MO,HDD,Blu−ray Disk(登録商標)などの記録媒体に記録して、保存・配布することも可能である。この記録媒体は、記録媒体駆動装置を利用して読み出され、そのプログラムコード自体が前記実施形態の処理を実現するので、該記録媒体も本発明を構成する。   This program can be provided through a network such as a website or e-mail. The program is recorded on a recording medium such as a CD-ROM, DVD-ROM, CD-R, CD-RW, DVD-R, DVD-RW, MO, HDD, Blu-ray Disk (registered trademark). It is also possible to save and distribute. This recording medium is read using a recording medium driving device, and the program code itself realizes the processing of the above embodiment, so that the recording medium also constitutes the present invention.

1…文書検索装置
2…ユーザ端末
110…検索ログDB
111…ログ
112…クエリ頻度集計部(クエリ頻度集計手段)
113…クエリ頻度
114…クエリ頻度ランキングデータベース
115…処理対象クエリ(分析対象クエリ)
116…検索意図分析部(検索意図分析手段)
117…検索意図時系列データ(検索意図)
120…検索意図時系列解析部(検索意図解析手段)
121…検索意図周期性データ
122…検索意図周期性DB(データベース)
123…クエリの検索意図データ
130…クエリ照合部(クエリ照合手段)
131…検索エンジン
132…WWW(World Wide Web)
133…インデックスDB
134…検索結果
135…時間連動型検索結果ランキング処理部(ランキング処理手段)
136…最終検索結果
140…ユーザインターフェース
141…クエリ入力部
142…検索結果表示部
143…検索ログ記録部
144…クエリ
145…クエリ入力情報
146…クリック情報
DESCRIPTION OF SYMBOLS 1 ... Document search device 2 ... User terminal 110 ... Search log DB
111 ... log 112 ... query frequency totaling unit (query frequency totaling means)
113 ... Query frequency 114 ... Query frequency ranking database 115 ... Processing target query (analysis target query)
116: Search intention analysis section (search intention analysis means)
117 ... Search intention time series data (search intention)
120 ... Search intention time series analysis unit (search intention analysis means)
121 ... Search intention periodicity data 122 ... Search intention periodicity DB (database)
123 ... Query search intention data 130 ... Query matching unit (query matching means)
131 ... Search engine 132 ... WWW (World Wide Web)
133 ... Index DB
134 ... Search results 135 ... Time-linked search result ranking processing unit (ranking processing means)
136 ... Final search result 140 ... User interface 141 ... Query input unit 142 ... Search result display unit 143 ... Search log recording unit 144 ... Query 145 ... Query input information 146 ... Click information

Claims (9)

検索ログ中のクエリで表現されたユーザの検索意図を分析し、電子文書群の検索結果に反映させる文書検索装置であって、
前記検索ログに含まれるクエリの入力回数に基づきユーザ毎に各クエリの検索頻度をカウントするクエリ頻度集計手段と、
前記クエリ頻度集計手段のカウントした検索頻度における上位頻度のクエリ集合を分析対象とし、ユーザ毎の検索行動のうち最初の検索行動と最後の検索行動とのペアをクラスタリングし、該各クラスタで表された分析対象クエリの検索意図を取得する検索意図分析手段と、
を備えることを特徴とする文書検索装置。
A document search device that analyzes a user's search intention expressed by a query in a search log and reflects it in a search result of an electronic document group,
Query frequency counting means for counting the search frequency of each query for each user based on the number of input queries included in the search log;
A query set having a higher frequency in the search frequency counted by the query frequency counting means is analyzed, and pairs of the first search action and the last search action among the search actions for each user are clustered, and each cluster is represented by each cluster. Search intent analysis means for obtaining the search intent of the analyzed query,
A document search apparatus comprising:
前記検索意図分析手段の抽出した前記検索意図の周期性の有無を判定する検索意図解析手段をさらに備え、
前記検索意図に周期性があれば、前記検索結果に反映させることを特徴とする請求項1記載の文書検索装置。
A search intent analysis means for determining the presence or absence of periodicity of the search intention extracted by the search intention analysis means;
2. The document search apparatus according to claim 1, wherein if the search intention has periodicity, it is reflected in the search result.
検索ログ中のクエリで表現されたユーザの検索意図の周期性を判別し、周期性を有する前記検索意図を格納するデータベースを利用して、ユーザ端末に入力されたクエリの入力時期を検索結果に反映させる文書検索装置であって、
前記入力クエリを前記データベースの格納データと照合して、該入力クエリの検索意図の周期性を確認し、周期性が確認できれば該入力クエリの入力時期に応じた格納データを検索意図データとして取得するクエリ照合手段と、
前記入力クエリに基づき電子文書群を検索した検索結果を、前記照合手段の取得した検索意図データに基づきリランキングするランキング処理手段と、
を備えることを特徴とする文書検索装置。
The periodicity of the search intention of the user expressed by the query in the search log is determined, and the input time of the query input to the user terminal is used as the search result by using the database storing the search intention having the periodicity. A document retrieval device to be reflected,
The input query is checked against the stored data in the database to check the periodicity of the search intention of the input query, and if the periodicity can be confirmed, the stored data corresponding to the input time of the input query is acquired as the search intention data. Query matching means;
A ranking processing means for re-ranking a search result obtained by searching an electronic document group based on the input query based on search intention data acquired by the matching means;
A document search apparatus comprising:
ユーザ端末に入力されたクエリに基づき電子文書群を検索し、前記ユーザ端末に応答するための検索結果を取得する文書検索装置であって、
ユーザ毎の検索ログを記録する検索ログデータベースを参照し、該検索ログに含まれるクエリの入力回数に基づき各クエリの検索頻度をカウントするクエリ頻度集計手段と、
前記クエリ頻度集計手段のカウントした検索頻度における上位頻度のクエリ集合を分析対象とし、ユーザ毎の検索行動のうち最初の検索行動と最後の検索行動とのペアをクラスタリングし、該各クラスタで表された分析対象クエリの検索意図を任意期間毎に抽出した検索意図時系列データを取得する検索意図分析手段と、
前記検索意図分析手段の抽出した検索意図時系列データにおける周期性を判定し、周期性を有すれば検索意図周期性データとして周期性データベースに格納する検索意図解析手段と、
前記入力クエリを前記周期性データベースの格納データと照合して、該入力クエリの検索意図の周期性を確認し、周期性が確認できれば該入力クエリの入力時期に応じた検索意図周期性データを検索意図データとして取得するクエリ照合手段と、
前記クエリ照合手段の取得した検索意図データに基づき前記検索結果をリランキングするランキング処理手段と、を備え、
前記投入クエリおよび前記最終結果に対するユーザのクリック情報を、前記検索ログデータベースに随時記録することを特徴とする文書検索装置。
A document search device that searches for an electronic document group based on a query input to a user terminal and obtains a search result for responding to the user terminal,
A query frequency totaling unit that references a search log database that records a search log for each user and counts the search frequency of each query based on the number of times the query is included in the search log;
A query set having a higher frequency in the search frequency counted by the query frequency counting means is analyzed, and pairs of the first search action and the last search action among the search actions for each user are clustered, and each cluster is represented by each cluster. Search intention analysis means for acquiring search intention time-series data obtained by extracting the search intention of the analyzed query for each arbitrary period;
Search intention analysis means for determining periodicity in the search intention time-series data extracted by the search intention analysis means, and storing the periodicity in the periodicity database as search intention periodicity data if there is periodicity;
The input query is checked against the data stored in the periodicity database to check the periodicity of the search intention of the input query. If the periodicity can be confirmed, the search intention periodicity data corresponding to the input timing of the input query is searched. Query matching means to acquire as intention data;
Ranking processing means for reranking the search results based on the search intention data acquired by the query matching means,
A document search apparatus, wherein user click information for the input query and the final result is recorded in the search log database as needed.
検索ログ中のクエリで表現されたユーザの検索意図を分析し、電子文書群の検索結果に反映させる文書検索方法であって、
クエリ頻度集計手段が、前記検索ログに含まれるクエリの入力回数に基づきユーザ毎に各クエリの検索頻度をカウントするクエリ頻度集計ステップと、
検索意図分析手段が、前記クエリ頻度集計ステップのカウントした検索頻度における上位頻度のクエリ集合を分析対象とし、ユーザ毎の検索行動のうち最初の検索行動と最後の検索行動とのペアをクラスタリングし、該各クラスタで表された分析対象クエリの検索意図を取得する検索意図分析ステップと、
を有することを特徴とする文書検索方法。
A document search method for analyzing a user's search intention expressed by a query in a search log and reflecting the result in a search result of an electronic document group,
A query frequency counting means for counting the search frequency of each query for each user based on the number of times the query is included in the search log;
The search intention analysis means analyzes the query set of the higher frequency in the search frequency counted in the query frequency aggregation step, clusters the pairs of the first search behavior and the last search behavior among the search behaviors for each user, A search intention analysis step for obtaining a search intention of an analysis target query represented by each cluster;
A document search method characterized by comprising:
検索意図解析手段が、前記検索意図分析ステップの抽出した前記検索意図の周期性の有無を判定する検索意図解析ステップをさらに有し、
前記検索意図に周期性があれば、前記検索結果に反映させることを特徴とする請求項5記載の文書検索方法。
The search intention analysis means further includes a search intention analysis step for determining the presence or absence of periodicity of the search intention extracted by the search intention analysis step,
6. The document search method according to claim 5, wherein if the search intention has periodicity, it is reflected in the search result.
検索ログ中のクエリで表現されたユーザの検索意図の周期性を判別し、周期性を有する前記検索意図を格納するデータベースを利用して、ユーザ端末に入力されたクエリの入力時期を検索結果に反映させる文書検索方法であって、
クエリ照合手段が、前記入力クエリを前記データベースの格納データと照合することで該入力クエリの検索意図の周期性を確認し、周期性が確認できれば該入力クエリの入力時期に応じた格納データを検索意図データとして取得するクエリ照合ステップと、
ランキング処理手段が、前記入力クエリに基づき電子文書群を検索した検索結果を、前記照合手段の取得した検索意図データに基づきリランキングするランキング処理ステップと、
を有することを特徴とする文書検索方法。
The periodicity of the search intention of the user expressed by the query in the search log is determined, and the input time of the query input to the user terminal is used as the search result by using the database storing the search intention having the periodicity. A document search method to be reflected,
The query matching means checks the periodicity of the search intention of the input query by checking the input query against the stored data of the database. If the periodicity can be confirmed, the stored data corresponding to the input timing of the input query is searched. Query matching step to retrieve as intent data,
A ranking processing step in which the ranking processing means reranks the search results obtained by searching the electronic document group based on the input query based on the search intention data acquired by the matching means;
A document search method characterized by comprising:
ユーザ端末に入力されたクエリに基づき電子文書群を検索し、前記ユーザ端末に応答するための検索結果を取得する文書検索方法であって、
クエリ頻度集計手段が、ユーザ毎の検索ログを記録する検索ログデータベースを参照し、該検索ログに含まれるクエリの入力回数に基づき各クエリの検索頻度をカウントするクエリ頻度集計ステップと、
検索意図分析手段が、前記クエリ頻度集計ステップでカウントした検索頻度における上位頻度のクエリ集合を分析対象とし、ユーザ毎の検索行動のうち最初の検索行動と最後の検索行動とのペアをクラスタリングし、該各クラスタで表された分析対象クエリの検索意図を任意期間毎に抽出した検索意図時系列データを取得する検索意図分析ステップと、
検索意図解析手段が、前記検索意図分析ステップで抽出した検索意図時系列データにおける周期性を判定し、周期性を有すれば検索意図周期性データとして周期性データベースに格納する検索意図解析ステップと、
クエリ照合手段が、前記入力クエリを前記周期性データベースの格納データと照合することで該入力クエリの検索意図の周期性を確認し、周期性が確認できれば該入力クエリの入力時期に応じた検索意図周期性データを検索意図データとして取得するクエリ照合ステップと、
ランキング処理手段が、前記クエリ照合ステップで取得した検索意図データに基づき前記検索結果をリランキングするランキング処理ステップと、
前記投入クエリおよび前記最終結果に対するユーザのクリック情報を、前記検索ログデータベースに随時記録する記録ステップと、
を有することを特徴とする文書検索方法。
A document search method for searching for an electronic document group based on a query input to a user terminal and obtaining a search result for responding to the user terminal,
A query frequency counting unit that references a search log database that records a search log for each user and counts the search frequency of each query based on the number of times the query is included in the search log;
The search intention analysis means analyzes the query set of the higher frequency in the search frequency counted in the query frequency aggregation step, and clusters pairs of the first search behavior and the last search behavior among the search behaviors for each user, A search intention analysis step of acquiring search intention time-series data obtained by extracting the search intention of the analysis target query represented by each cluster every arbitrary period;
The search intention analysis means determines the periodicity in the search intention time-series data extracted in the search intention analysis step, and if there is a periodicity, the search intention analysis step stores the periodicity database as the search intention periodic data,
The query matching means checks the periodicity of the search intent of the input query by checking the input query against the data stored in the periodicity database. If the periodicity can be confirmed, the search intention according to the input time of the input query A query matching step for obtaining periodicity data as search intent data;
A ranking processing step, wherein the ranking processing means reranks the search result based on the search intention data acquired in the query matching step;
A recording step of recording user click information for the input query and the final result in the search log database as needed,
A document search method characterized by comprising:
請求項1〜請求項4のいずれか1項に記載の文書検索装置を構成する前記各手段としてコンピュータを機能させるための文書検索プログラム。   A document search program for causing a computer to function as each of the means constituting the document search device according to any one of claims 1 to 4.
JP2009236367A 2009-10-13 2009-10-13 Document search apparatus, document search method, and document search program Expired - Fee Related JP5292250B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009236367A JP5292250B2 (en) 2009-10-13 2009-10-13 Document search apparatus, document search method, and document search program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009236367A JP5292250B2 (en) 2009-10-13 2009-10-13 Document search apparatus, document search method, and document search program

Publications (2)

Publication Number Publication Date
JP2011085992A JP2011085992A (en) 2011-04-28
JP5292250B2 true JP5292250B2 (en) 2013-09-18

Family

ID=44078910

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009236367A Expired - Fee Related JP5292250B2 (en) 2009-10-13 2009-10-13 Document search apparatus, document search method, and document search program

Country Status (1)

Country Link
JP (1) JP5292250B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105718486A (en) * 2014-12-05 2016-06-29 科大讯飞股份有限公司 Online query by humming method and system

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5513929B2 (en) * 2010-03-02 2014-06-04 日本電信電話株式会社 Experience information reusability evaluation apparatus, method and program
JP5650606B2 (en) * 2011-08-05 2015-01-07 日本電信電話株式会社 Keyword extraction apparatus, method, and program
JP5579140B2 (en) * 2011-09-05 2014-08-27 日本電信電話株式会社 Document search apparatus, method, and program
JP2014026528A (en) * 2012-07-27 2014-02-06 Nippon Telegr & Teleph Corp <Ntt> Effective click counter, method and program
US9367625B2 (en) 2013-05-03 2016-06-14 Facebook, Inc. Search query interactions on online social networks
US9367536B2 (en) 2013-05-03 2016-06-14 Facebook, Inc. Using inverse operators for queries on online social networks
US9367880B2 (en) * 2013-05-03 2016-06-14 Facebook, Inc. Search intent for queries on online social networks
KR101563354B1 (en) 2013-08-08 2015-10-26 주식회사 카카오 Device for determining of collection ranking, method for determining of collection ranking, and method for providing search service using the same
JP7008152B1 (en) * 2021-03-04 2022-01-25 ヤフー株式会社 Information processing equipment, information processing methods and information processing programs
CN117033470B (en) * 2023-10-08 2024-01-30 天津市天河计算机技术有限公司 Data generation method, device, equipment and medium
CN117573727B (en) * 2024-01-17 2024-03-26 湖南天承信息技术有限公司 Practitioner health physical examination information retrieval system

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003173352A (en) * 2001-12-05 2003-06-20 Nippon Telegr & Teleph Corp <Ntt> Retrieval log analysis method and device, document information retrieval method and device, retrieval log analysis program, document information retrieval program and storage medium
WO2005114379A2 (en) * 2004-05-14 2005-12-01 Perfect Market Technologies, Inc. Personalized search engine
US7657519B2 (en) * 2004-09-30 2010-02-02 Microsoft Corporation Forming intent-based clusters and employing same by search
US7577646B2 (en) * 2005-05-02 2009-08-18 Microsoft Corporation Method for finding semantically related search engine queries
JP4724701B2 (en) * 2007-10-30 2011-07-13 日本電信電話株式会社 Text search server computer, text search method, text search program, and recording medium recording the program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105718486A (en) * 2014-12-05 2016-06-29 科大讯飞股份有限公司 Online query by humming method and system
CN105718486B (en) * 2014-12-05 2021-07-06 科大讯飞股份有限公司 Online humming retrieval method and system

Also Published As

Publication number Publication date
JP2011085992A (en) 2011-04-28

Similar Documents

Publication Publication Date Title
JP5292250B2 (en) Document search apparatus, document search method, and document search program
US10275419B2 (en) Personalized search
US8352396B2 (en) Systems and methods for improving web site user experience
US9742723B2 (en) Internet profile service
US9378247B1 (en) Generating query refinements from user preference data
RU2501078C2 (en) Ranking search results using edit distance and document information
US20110060717A1 (en) Systems and methods for improving web site user experience
JP5727512B2 (en) Cluster and present search suggestions
US9092510B1 (en) Modifying search result ranking based on a temporal element of user feedback
US9081861B2 (en) Uniform resource locator canonicalization
Cheng et al. Entity synonyms for structured web search
Nguyen et al. Federated search in the wild: the combined power of over a hundred search engines
US8417692B2 (en) Generalized edit distance for queries
US20100235340A1 (en) System and method for knowledge research
US20060122978A1 (en) Entity-specific tuned searching
US20110082850A1 (en) Network resource interaction detection systems and methods
KR20110050478A (en) Providing posts to discussion threads in response to a search query
US7849070B2 (en) System and method for dynamically ranking items of audio content
KR20110037882A (en) Information theory based result merging for searching hierarchical entities across heterogeneous data sources
US20070094250A1 (en) Using matrix representations of search engine operations to make inferences about documents in a search engine corpus
Hollink et al. Semantic search log analysis: a method and a study on professional image search
CA2713932C (en) Automated boolean expression generation for computerized search and indexing
Wolfram Search characteristics in different types of Web-based IR environments: Are they the same?
Niu et al. Beyond text querying and ranking list: How people are searching through faceted catalogs in two library environments
Jepsen et al. Characteristics of scientific Web publications: Preliminary data gathering and analysis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120308

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130529

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130604

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130610

R150 Certificate of patent or registration of utility model

Ref document number: 5292250

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130801

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees