JP4759600B2 - Text search device, text search method, text search program and recording medium thereof - Google Patents

Text search device, text search method, text search program and recording medium thereof Download PDF

Info

Publication number
JP4759600B2
JP4759600B2 JP2008216556A JP2008216556A JP4759600B2 JP 4759600 B2 JP4759600 B2 JP 4759600B2 JP 2008216556 A JP2008216556 A JP 2008216556A JP 2008216556 A JP2008216556 A JP 2008216556A JP 4759600 B2 JP4759600 B2 JP 4759600B2
Authority
JP
Japan
Prior art keywords
site
search
query
click
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008216556A
Other languages
Japanese (ja)
Other versions
JP2010055164A (en
Inventor
眞哉 村田
浩之 戸田
由美子 松浦
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008216556A priority Critical patent/JP4759600B2/en
Publication of JP2010055164A publication Critical patent/JP2010055164A/en
Application granted granted Critical
Publication of JP4759600B2 publication Critical patent/JP4759600B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、入力されたクエリ及び該クエリに関連する拡張語を用いてサイトの文章を検索する技術に関する。   The present invention relates to a technique for searching a sentence on a site using an input query and an extended word related to the query.

文章検索システムのランキングの精度向上を図るため、有望な手法の一つに「クエリ拡張」と呼ばれるものがある。これは、クエリ(検索語)に対して「何らかの関連ある」語(以下、拡張語と呼ぶ)を自動で取得し、選択し、付与することでより良い検索結果を導き出そうとする手法である。   In order to improve the accuracy of the ranking of the text search system, one promising technique is called “query expansion”. This is a method of automatically obtaining, selecting, and assigning “something related” words (hereinafter referred to as extended words) to a query (search term) to derive better search results. is there.

これに関連する文献として、非特許文献1では拡張語の取得先データとしてクリックログを、選択基準としてクエリとの共起確率を用いている。このクリックログは、クエリに対する検索結果中においてウェブの閲覧者が実際に選択したサイト(clicked document)のURLの集合である。クエリに適する拡張語というのは時々刻々変化すると考えるのが自然であり、非特許文献1ではクリックログを用いてこれに対処している。
“Probabilistic Query Expansion Using Query Logs”.Hang Cui,et al.(2002) S.E.Robertson,“On term selection for query expansion”,Journal of Documentation,46,pages 359−364,1990.
As a document related to this, Non-Patent Document 1 uses a click log as acquisition source data of an extended word and a co-occurrence probability with a query as a selection criterion. The click log is a set of URLs of sites (clicked documents) that are actually selected by the web viewer in the search result for the query. Naturally, it is natural that an extended word suitable for a query changes from time to time. In Non-Patent Document 1, this is dealt with by using a click log.
“Probabilistic Query Expansion Usage Query Logs”. Hang Cui, et al. (2002) S. E. Robertson, “On term selection for query expansion”, Journal of Document, 46, pages 359-364, 1990.

非特許文献1では、クリックログを解析して得られる単純なクリック回数(絶対的クリック回数)を用いて閲覧者が選択したサイト(clicked document)のURLを判別し、そのタイトルと概要文(スニペット)内に含まれるキーワードとクエリとの共起確率を計算している。そして、この尺度が高いキーワードから順に拡張語として選択し、クエリ拡張を実行している。   In Non-Patent Document 1, the URL of a site (clicked document) selected by a viewer is determined using a simple click count (absolute click count) obtained by analyzing a click log, and its title and summary sentence (snippet) ) To calculate the co-occurrence probabilities of keywords and queries included in Query expansion is performed by selecting the expanded words in order from the keyword with the highest measure.

しかしながら、この絶対的クリック回数には、検索結果中の上位ランクにあるサイト程よくクリックされるという傾向が含まれており、この値が高いサイトが閲覧者に数多く選択され、クエリに適合していると判断されたとは必ずしも言えない。また、非特許文献1では、拡張語数が40〜60個でランキングの精度が最大になっており、これでは計算コストがかかってしまう。   However, this absolute click count includes a tendency to click more frequently in the higher ranking sites in the search results, and many sites with this higher value are selected by the viewer and fit the query. It cannot be said that it was judged. Further, in Non-Patent Document 1, the number of extended words is 40 to 60, and the ranking accuracy is maximized, which requires a calculation cost.

そこで本発明は、このような問題に鑑み、クリックログを解析することでアクセスの集中するサイトを的確に特定し、少ない拡張語数で大幅な検索精度の向上を可能にするクエリ拡張を実現することを解決課題としている。   Therefore, in view of such problems, the present invention realizes query expansion that accurately identifies a site where access is concentrated by analyzing a click log, and can greatly improve search accuracy with a small number of expanded words. Is a solution issue.

本発明は、前記課題を解決するために創作された技術的思想であって、多くの閲覧者が有用だと判断したアクセスの集中するサイトのタイトルと概要文(スニペット)を拡張語の取得源とみなすことにより、クエリに対する高い適合性を持った拡張語の取得を可能にしている。   The present invention is a technical idea created in order to solve the above-mentioned problems, and obtains an extension word from a title and a summary sentence (snippet) of a site where access is concentrated that many viewers find useful. As a result, it is possible to obtain extended words with high suitability for queries.

具体的には、請求項1記載の発明は、入力されたクエリに関連する拡張語を取得し、該拡張語と前記クエリとを用いてサイトを検索する文章検索装置であって、閲覧者の実際に選択したサイトがクリック回数に基づきランク付けされた前記クエリに対するクリックログを解析して、アクセスの集中するサイトを特定するクリックログ解析手段と、前記アクセスの集中するサイトのタイトルと概要文とを解析して、前記拡張語を取得する拡張語取得手段と、を備え、前記クリックログ解析手段は、前記クリックログ中の隣接ランクに存在するサイト間のクリック回数差を相対的クリック回数として算出し、該相対的クリック回数に応じてサイトのアクセス集中度合を求める第1解析手段と、前記検索ごとに各ランクのサイトに対するクリック確率が保存されたデータベースを参照して、ランクの平均クリック確率に対する実際のクリック回数を生起確率として算出し、該生起確率と閾値とを用いてアクセス集中サイトの候補を求める第2解析手段と、前記両解析手段の解析結果を統合してアクセスの集中するサイトを特定する解析結果統合手段と、を有することを特徴としている。 Specifically, the invention described in claim 1 is a sentence search device that acquires an extended word related to an input query and searches a site using the extended word and the query . Click log analysis means for analyzing the click log for the query in which the actually selected site is ranked based on the number of clicks to identify the site where access is concentrated, the title and summary sentence of the site where access is concentrated, And an extended word acquisition unit that acquires the extended word, and the click log analysis unit calculates a difference in the number of clicks between sites existing in adjacent ranks in the click log as a relative number of clicks. and a first analyzing means for determining the access degree of concentration of the site in accordance with the relative number of clicks, click probability for each rank sites for each of the search There Referring to saved database, to calculate the actual number of clicks to the average click probability rank as occurrence probability, a second analyzing means for determining a candidate access concentration site by using a biological cause probability and threshold, the And an analysis result integration unit that integrates the analysis results of both analysis units and identifies a site where access is concentrated.

また、請求項記載の発明は、前記拡張語取得手段が、前記アクセスの集中するサイトのタイトルと概要文とを解析して拡張語の候補群を求める手段と、前記拡張語の各候補に対して順序付けを行う手段と、前記順序付けられた各候補の順位に基づいて拡張語を選択する手段とを有することを特徴としている。 According to the second aspect of the present invention, the extended word acquisition means analyzes the title and summary sentence of the site where access is concentrated to obtain a candidate group of extended words; It is characterized by comprising means for ordering and means for selecting an extension word based on the ranking of each of the ordered candidates.

また、請求項記載の発明は、前記クエリと前記拡張語とを用いてサイトを検索し、検索結果を出力する検索実行手段と、前記検索実行手段の検索結果に対する利用者のクリック情報を前記クリックログに反映させるクリックログフィードバック処理手段とをさらに備えることを特徴としている。 The invention according to claim 3 searches a site using the query and the extended word, and outputs search results, search execution means for outputting search results, and user click information for the search results of the search execution means. It further comprises click log feedback processing means for reflecting in the click log.

また、請求項記載の発明は、入力されたクエリに関連する拡張語を取得し、該拡張語と前記クエリとを用いてサイトを検索する文章検索方法であって、クリックログ解析手段が、閲覧者の実際に選択したサイトがクリック回数に基づきランク付けされた前記クエリに対するクリックログを解析してアクセスの集中するサイトを特定する第1ステップと、拡張語取得手段が、前記アクセスの集中するサイトのタイトルと概要文とを解析して前記拡張語を取得する第2ステップと、を有し、前記第1ステップは、前記クリックログ中の隣接ランクに存在するサイト間のクリック回数差を相対的クリック回数として算出し、該相対的クリック回数に応じてサイトのアクセス集中度合を求めるステップと、前記検索ごとに各ランクのサイトに対するクリック確率が保存されたデータベースを参照して、ランクの平均クリック確率に対する実際のクリック回数を生起確率として算出し、該生起確率と閾値とを用いてアクセス集中サイトの候補を求めるステップと、前記両ステップの解析結果を統合してアクセスの集中するサイトを特定するステップとを有することを特徴としている。 The invention according to claim 4 is a sentence search method for acquiring an extended word related to an input query and searching a site using the extended word and the query, wherein the click log analyzing means includes: A first step of analyzing a click log for the query in which a site actually selected by a viewer is ranked based on the number of clicks to identify a site where access is concentrated, and an expanded word acquisition unit concentrates the access. A second step of analyzing the title of the site and the summary sentence to obtain the extended word, wherein the first step is based on a relative difference in the number of clicks between sites existing in adjacent ranks in the click log. calculated as click-number, and obtaining access concentration degree of site in accordance with the relative number of clicks, for each rank of the site for each of the search With reference to database Rick probability is stored, calculates the actual number of clicks to the average click probability rank as occurrence probability, and determining a candidate access concentration site by using a biological cause probability and threshold, said both And integrating the analysis results of the steps to identify sites where access is concentrated.

また、請求項記載の発明は、前記第2ステップが、前記アクセスの集中するサイトのタイトルと概要文とを解析して拡張語の候補群を求めるステップと、前記拡張語の各候補に対して順序付けを行うステップと、前記順序付けられた各候補の順位に基づいて拡張語を選択するステップとを有することを特徴としている。 The invention according to claim 5 is characterized in that the second step analyzes the title and summary sentence of the site where the access is concentrated to obtain an extended word candidate group, and for each of the extended word candidates, And ordering, and selecting expanded words based on the ranking of the ordered candidates.

また、請求項記載の発明は、検索実行手段が、前記クエリと前記拡張語とを用いてサイトを検索し検索結果を出力するステップと、クリックログフィードバック処理手段が、前記ステップの検索結果に対する利用者のクリック情報を前記クリックログに反映させるステップとをさらに有することを特徴としている。 The invention according to claim 6 is the step in which the search execution means searches the site using the query and the extended word and outputs the search result, and the click log feedback processing means responds to the search result in the step. A step of reflecting user click information in the click log.

また、請求項記載の発明は、文章検索プログラムであり、請求項4〜6のいずれか1項に記載の文章検索方法の各ステップをコンピュータに実行させることを特徴としている。 The invention described in claim 7 is a text search program, which causes a computer to execute each step of the text search method according to any one of claims 4 to 6 .

また、請求項記載の発明は、コンピュータの読み取り可能な記録媒体であり、請求項記載の文章検索プログラムを記録したことを特徴としている。 The invention described in claim 8 is a computer-readable recording medium, wherein the sentence search program described in claim 7 is recorded.

請求項1〜8記載の発明によれば、アクセスの集中するサイトのタイトルと概要文(スニペット)から拡張語が取得されることから、クエリに対する高い適合性を持った拡張語が取得可能になる。これにより、拡張語の数を低減でき、計算コストを抑えつつ高精度の検索結果を得ることができる。 According to the first to eighth aspects of the present invention, since the extended word is acquired from the title and summary sentence (snippet) of the site where access is concentrated, it becomes possible to acquire the extended word having high adaptability to the query. . Thereby, the number of extended words can be reduced, and a highly accurate search result can be obtained while suppressing the calculation cost.

また、二つの独立した尺度の解析結果を組み合わせていることから、アクセスの集中するサイトを的確に特定することができる。 In addition, since the analysis results of two independent measures are combined, it is possible to accurately identify the site where access is concentrated.

また、請求項3.6記載の発明によれば、検索結果に対する利用者の判断(クリック)をクリックログへ随時反映させることができる。 Further, according to the invention described in claim 3.6, it is possible to reflect the user's judgment (click) on the search result to the click log as needed.

図1は、本発明の実施形態に係る文章検索装置1を示している。ここでは前記文章検索装置1がコンピュータにより構成された例を説明するが、文章検索装置はこれに限定されるものではなく、例えば文章検索の処理ロジックを実装したIC(Integrated Circuit)チップを備えた計算機などでもよく、また携帯電話などのモバイル端末などでもよい。   FIG. 1 shows a text search apparatus 1 according to an embodiment of the present invention. Here, an example in which the text search device 1 is configured by a computer will be described. However, the text search device is not limited to this, and includes, for example, an IC (Integrated Circuit) chip on which text search processing logic is mounted. It may be a computer or a mobile terminal such as a mobile phone.

前記文章検索装置1は、図1に示すように、主な4つの機能ブロック、即ちクエリ入力画面101および結果表示画面102を表示する表示部100と、入力されたクエリ及び該クエリに関連する拡張語とを用いて検索式を生成する検索式生成部110と、入力されたクエリに対する拡張語を取得する拡張語選択部120と、前記検索式を実行する検索実行部140とを備えている。   As shown in FIG. 1, the text search apparatus 1 includes a display unit 100 that displays four main functional blocks, that is, a query input screen 101 and a result display screen 102, an input query, and an extension related to the query. A search expression generation unit 110 that generates a search expression using words, an extended word selection unit 120 that acquires an expansion word for an input query, and a search execution unit 140 that executes the search expression are provided.

前記各機能ブロック100.110.120.140の機能は、前記文章検索装置1の制御部(CPU:Central Processor Unit)が文章検索プログラムを読み込んで実現されている。また、前記文章検索装置1は、コンピュータの通常の構成要素、例えば図示省略のキーボードやマウスなどの入力部と、処理データなどを一時記憶する書き換え可能なメモリ(RAM)と、ネットワーク接続に使用する通信デバイスと、ハードディスクドライブ装置などの記憶部と、ディスプレイなどの表示部とを備えている。以下、前記各機能ブロック100.110.120.140について図1に基づき詳細に説明する。   The functions of the respective functional blocks 100.110.120.140 are realized by reading a text search program by a control unit (CPU: Central Processor Unit) of the text search device 1. The text search device 1 is used for normal components of a computer, for example, an input unit such as a keyboard and a mouse (not shown), a rewritable memory (RAM) for temporarily storing processing data, and a network connection. A communication device, a storage unit such as a hard disk drive, and a display unit such as a display are provided. Hereinafter, each functional block 100.110.120.140 will be described in detail with reference to FIG.

<表示部100>
前記表示部100には、利用者がクエリ(検索語)を入力するクエリ入力画面101および前記検索実行部140から得た検索結果を表示する結果表示画面102がブラウザを介して表示される。ここでは、利用者は前記クエリ入力画面101にて前記キーボードなどを用いてクエリを入力する。
<Display unit 100>
On the display unit 100, a query input screen 101 for a user to input a query (search term) and a result display screen 102 for displaying a search result obtained from the search execution unit 140 are displayed via a browser. Here, the user inputs a query on the query input screen 101 using the keyboard or the like.

<検索式生成部110>
前記検索式生成部110は、前記クエリ入力画面101において入力された前記クエリを受信し、受信したクエリおよび該クエリに対する拡張語の要求を前記拡張語選択部120へ送信する。また、前記拡張語選択部120から拡張語を受信すると、この拡張語を用いて初期のクエリに対する検索結果を並び替える処理を行う検索式を生成し、これを前記検索実行部140へ送信する。この検索式を用いて、入力されたクエリに対する初回の検索結果のランキングを、前記拡張語を用いてより精度の高いランキングに並び替えている。
<Search Expression Generation Unit 110>
The search expression generation unit 110 receives the query input on the query input screen 101, and transmits the received query and an extended word request for the query to the extended word selection unit 120. In addition, when an extended word is received from the extended word selection unit 120, a search expression for performing a process of rearranging search results for an initial query is generated using the extended word, and is transmitted to the search execution unit 140. Using this search formula, the ranking of the initial search result for the input query is rearranged into a more accurate ranking using the extended word.

<拡張語選択部120>
前記拡張語選択部120は、命令部121、解析結果統合部122、解析部A123、解析部B124、解析部C125、情報抽出部128、照合部129、検索結果取得部130、機能語抽出・名詞句生成部133、拡張語の重み・順序付け部134、クリックログフィードバック処理部150と、3つのDB(データベース)、即ちクリックログDB126、クリック確率DB127、インデックスDB132と、検索エンジン131とを有している。このうち前記各DB126.127.132は、前記ハードディスクドライブ装置上に構築されている。
<Extended word selection unit 120>
The extended word selection unit 120 includes an instruction unit 121, an analysis result integration unit 122, an analysis unit A123, an analysis unit B124, an analysis unit C125, an information extraction unit 128, a collation unit 129, a search result acquisition unit 130, a function word extraction / noun. The phrase generation unit 133, the extended word weight / ordering unit 134, the click log feedback processing unit 150, three DBs (databases), that is, the click log DB 126, the click probability DB 127, the index DB 132, and the search engine 131 are included. Yes. Of these, each of the DBs 126.127.132 is constructed on the hard disk drive device.

前記拡張語選択部120は、前記検索式生成部110から前記クエリと拡張語の要求を受信すると、前記命令部121に前記クエリを送信する。   When the extended word selection unit 120 receives the query and the extended word request from the search expression generation unit 110, the extended word selection unit 120 transmits the query to the command unit 121.

前記命令部121は、前記拡張語選択部120から前記クエリを受信すると、受信したクエリとクリックログの解析要求とを前記解析結果統合部122へ送信する。   When receiving the query from the extended word selection unit 120, the command unit 121 transmits the received query and a click log analysis request to the analysis result integration unit 122.

前記解析結果統合部122は、前記命令部121から前記クエリとクリックログの解析要求を受信すると、これらを前記解析部A123および前記解析部B124へ送信する。   When the analysis result integration unit 122 receives the query and click log analysis request from the command unit 121, the analysis result integration unit 122 transmits them to the analysis unit A123 and the analysis unit B124.

前記解析部A123および前記解析部B124は、前記解析結果統合部122から前記クエリとクリックログの解析要求を受信すると、前記クリックログDB126から前記クエリに対応するクリックログを読み出す。前記クリックログDB126には、クエリに対する検索結果中において、閲覧者が実際に選択したサイト(clicked document)のURLがクリック回数に基づきランク付けされ、これがクリックログとして格納されている。このクリックログDB126は、図外のサーバからインターネット経由で予め取得したクリックログのデータを用いて構築される。   When the analysis unit A123 and the analysis unit B124 receive the query and click log analysis request from the analysis result integration unit 122, the analysis unit A123 and the analysis unit B124 read the click log corresponding to the query from the click log DB 126. In the click log DB 126, URLs of sites (clicked documents) actually selected by the viewer in the search result for the query are ranked based on the number of clicks, and stored as a click log. The click log DB 126 is constructed using click log data acquired in advance from a server (not shown) via the Internet.

前記解析部A123は、読み出したクリックログをサイト毎のアクセス集中度合に着目して解析し、解析結果を前記解析結果統合部122へ返信する。   The analysis unit A123 analyzes the read click log by paying attention to the degree of access concentration for each site, and returns the analysis result to the analysis result integration unit 122.

前記解析部B124はさらに、前記クリック確率DB127に保存されているランク毎のサイトのクリック確率を読み出し、前記両DB126.127から読み出したクリックログとクリック確率とを解析して、解析結果を前記解析結果統合部122へ返信する。なお、前記クリック確率DB127も、前記クリックログDB126と同様に前記サーバ上の前記クリックログのデータを用いて構築される。   The analysis unit B124 further reads the click probability of the site for each rank stored in the click probability DB 127, analyzes the click log and the click probability read from both the DBs 126.127, and analyzes the analysis result as the analysis. It returns to the result integration unit 122. The click probability DB 127 is also constructed using the click log data on the server in the same manner as the click log DB 126.

前記解析結果統合部122は、前記解析部A123および前記解析部B124から各解析結果を受信すると、それらを統合してアクセス集中サイト(Access Concentration Sites:以下、ACSと略す)を特定し、そのURLを前記命令部121に返信する。アクセス集中サイト(ACS)の詳細については後述する。   When the analysis result integration unit 122 receives the analysis results from the analysis unit A123 and the analysis unit B124, the analysis result integration unit 122 integrates them to specify an access concentration site (hereinafter abbreviated as ACS), and the URL Is sent back to the command unit 121. Details of the access concentration site (ACS) will be described later.

前記命令部121は、前記解析結果統合部122からアクセス集中サイト(ACS)のURLを受信すると、このURLを前記情報抽出部128へ送信する。   Upon receiving the URL of the access concentration site (ACS) from the analysis result integration unit 122, the command unit 121 transmits this URL to the information extraction unit 128.

前記情報抽出部128は、前記命令部121から前記クエリとアクセス集中サイト(ACS)のURLを受信すると、これらを前記照合部129へ送信する。   When the information extraction unit 128 receives the query and the URL of the access concentration site (ACS) from the command unit 121, the information extraction unit 128 transmits them to the verification unit 129.

前記照合部129は、前記情報抽出部128から前記クエリとアクセス集中サイト(ACS)のURLを受信すると、前記クエリを前記検索結果取得部130へ送信する。   When the collation unit 129 receives the query and the URL of the access concentrated site (ACS) from the information extraction unit 128, the collation unit 129 transmits the query to the search result acquisition unit 130.

前記検索結果取得部130は、前記照合部129から前記クエリを受信すると、このクエリを前記検索エンジン131へ投入する。   When the search result acquisition unit 130 receives the query from the collation unit 129, the search result acquisition unit 130 inputs the query to the search engine 131.

前記検索エンジン131は、前記検索結果取得部130もしくは前記検索実行部140から検索結果の要求を受信すると、前記インデックスDB132を検索した検索結果を返信する。   When the search engine 131 receives a search result request from the search result acquisition unit 130 or the search execution unit 140, the search engine 131 returns a search result obtained by searching the index DB 132.

前記インデックスDB132には、「World Wide Web」もしくは「Mobile Web」のサイトが各々インデックス加工されて保存されている。この前記インデックスDB132は、予め図外のサーバからインターネット経由で取得したデータを用いて構築される。ここでは、前記検索エンジン131が前記インデックスDB132を備えているものとする。   In the index DB 132, “World Wide Web” or “Mobile Web” sites are indexed and stored. The index DB 132 is constructed using data acquired in advance from a server (not shown) via the Internet. Here, it is assumed that the search engine 131 includes the index DB 132.

前記検索結果取得部130は、前記検索エンジン131から前記クエリに対する検索結果を受信すると、該検索結果を前記照合部129へ返信する。   When the search result acquisition unit 130 receives a search result for the query from the search engine 131, the search result acquisition unit 130 returns the search result to the collation unit 129.

前記照合部129は、前記検索結果取得部130から前記クエリに対する検索結果を受信すると、該検索結果のURLと前記情報抽出部128から受信したアクセス集中サイト(ACS)のURLとを照合し、該検索結果のURLからアクセス集中サイト(ACS)を識別する。そして、識別したアクセス集中サイト(ACS)の情報(URL、タイトルなど)を前記情報抽出部128へ返信する。   Upon receiving the search result for the query from the search result acquisition unit 130, the collation unit 129 collates the URL of the search result with the URL of the access concentration site (ACS) received from the information extraction unit 128, and The access concentrated site (ACS) is identified from the URL of the search result. Then, information (URL, title, etc.) of the identified access concentration site (ACS) is returned to the information extraction unit 128.

前記情報抽出部128は、前記照合部129からアクセス集中サイト(ACS)の情報(URL、タイトルなど)を受信すると、この情報からタイトルとスニペット(Titles and Snippets)を抽出し、これらを前記機能語抽出・名詞句生成部133へ送信する。   When the information extraction unit 128 receives the information (URL, title, etc.) of the access concentration site (ACS) from the collation unit 129, the information extraction unit 128 extracts a title and a snippet from the information and uses them as the function word. This is transmitted to the extraction / noun phrase generator 133.

前記機能語抽出・名詞句生成部133は、前記情報抽出部128からアクセス集中サイト(ACS)のタイトルとスニペットを受信すると、これらを形態素解析し、機能語の抽出もしくは名詞句を生成する。そして、これらを後のクエリ拡張で用いる拡張語の候補群とし、前記拡張語の重み・順序付け部134へ送信する。   When the function word extraction / noun phrase generation unit 133 receives the title and snippet of the access concentration site (ACS) from the information extraction unit 128, the function word extraction / noun phrase generation unit 133 performs morphological analysis on the title and snippet to generate a function word extraction or noun phrase. Then, these are used as a candidate group of extension words to be used in the subsequent query extension, and transmitted to the extension word weight / ordering unit 134.

前記拡張語の重み・順序付け部134は、前記機能語抽出・名詞句生成部133から拡張語の候補群を受信すると、非特許文献2の「Robertson Selection Value(RSV)」に基づいて各拡張語の候補群の重み付け、順序付けを行い、この結果を前記拡張語選択部120へ送信する。   When the extension word weight / ordering unit 134 receives the extension word candidate group from the function word extraction / noun phrase generation unit 133, each extension word is based on “Robertson Selection Value (RSV)” of Non-Patent Document 2. The candidate groups are weighted and ordered, and the result is transmitted to the extended word selection unit 120.

前記拡張語選択部120は、前記拡張語の重み・順序付け部134から拡張語の候補群を受信すると、この候補群から実際に使用する拡張語を選択し、これらを前記検索式生成部110へ返信する。   When the extended word selection unit 120 receives the extended word candidate group from the extended word weight / ordering unit 134, the extended word selection unit 120 selects an extended word to be actually used from the candidate group, and supplies these to the search expression generation unit 110. Send back.

前記解析部C125は、前記クリックログDB126から全てのクリックログを読み出して各ランクのサイトに対するクリック確率を算出し、この算出結果を用いて前記クリック確率DB127を更新する。この更新処理は予め設定された一定時間毎に実行される。   The analysis unit C125 reads all click logs from the click log DB 126, calculates click probabilities for the sites of each rank, and updates the click probability DB 127 using the calculation results. This update process is executed at predetermined time intervals.

前記クリックログフィードバック処理部150は、前記結果表示画面102に表示された検索結果に対して利用者がクリックしたサイトの情報(クリック情報)を記録し、これを基に新たなクリックログを生成して前記クリックログDB126へ随時フィードバックさせる。   The click log feedback processing unit 150 records information (click information) of a site clicked by a user on the search result displayed on the result display screen 102, and generates a new click log based on the information. Feedback to the click log DB 126 as needed.

<検索実行部140>
前記検索実行部140は、前記検索式生成部110から検索式を受信すると、これを前記検索エンジン131へ投入し、対応する検索結果を受信する。そして、この検索結果を前記結果表示画面102へ表示する。
<Search Execution Unit 140>
When the search execution unit 140 receives a search expression from the search expression generation unit 110, the search execution unit 140 inputs the search expression into the search engine 131 and receives a corresponding search result. Then, the search result is displayed on the result display screen 102.

<動作例>
前記文章検索装置1は、利用者から入力されたクエリを基にクリックログを解析して拡張語を取得し、この拡張語を用いてクエリ拡張をすることによりさらに精度の高い検索結果を得ている。この一連の処理は主に4つのフェーズ、即ちクエリ入力フェーズ、クリックログ解析フェーズ、拡張語取得フェーズ、検索実行フェーズから構成されている。以下、この各フェーズの詳細な処理内容について、図2〜7に基づき説明する。
<Operation example>
The text search apparatus 1 analyzes the click log based on the query input from the user, acquires an extended word, and obtains a more accurate search result by expanding the query using the extended word. Yes. This series of processing mainly includes four phases, that is, a query input phase, a click log analysis phase, an extended word acquisition phase, and a search execution phase. Hereinafter, the detailed processing content of each phase will be described with reference to FIGS.

(1)クエリ入力フェーズ
図2は、クエリ入力フェーズの処理フローを示している。まず、利用者は前記クエリ入力画面101においてクエリを入力する。入力されたクエリは、前記検索式生成部110へ送信される。前記検索式生成部110は、前記拡張語選択部120へ前記クエリとともに拡張語の抽出・選択要求を送信する。
(1) Query Input Phase FIG. 2 shows a processing flow of the query input phase. First, the user inputs a query on the query input screen 101. The input query is transmitted to the search expression generation unit 110. The search expression generation unit 110 transmits an extended word extraction / selection request together with the query to the extended word selection unit 120.

(2)クリックログ解析フェーズ
クリックログ解析フェーズでは、入力されたクエリを用いてクリックログを解析する。この目的は、クリックログ中のサイトにおいてアクセスの集中するサイトを特定することにある。なぜなら閲覧者は、検索結果中のサイトを選択する(クリックする)際、そのサイトのタイトルとスニペット(概要文)を見て判断すると考えられ、アクセスの集中するサイトのタイトルとスニペットには、閲覧者が有用だと判断したキーワードがあると期待できるからである。そして、このキーワードでクエリ拡張をすることにより、大幅な検索の精度向上が望めると考えられる。ここではそのようなサイトをアクセス集中サイト(ACS)とし、そのタイトルとスニペット(Titles and Snippets)をTSと呼ぶ。クリックログ解析フェーズでは、入力されたクエリを用いてクリックログを解析することにより、アクセス集中サイト(ACS)の特定を行っている。
(2) Click log analysis phase In the click log analysis phase, click logs are analyzed using the input query. The purpose is to identify sites where access is concentrated among the sites in the click log. This is because when a viewer selects (clicks) a site in the search results, it is considered that the viewer looks at the title and snippet (summary) of the site. This is because it can be expected that there are keywords that the person has judged useful. And by expanding the query with this keyword, it can be expected that the accuracy of the search is greatly improved. Here, such a site is called an access concentrated site (ACS), and its title and snippet (Titles and Snippets) are called TS. In the click log analysis phase, an access concentrated site (ACS) is specified by analyzing the click log using the input query.

図3は、クリックログ解析フェーズの処理フローを示している。前記命令部121は、前記拡張語選択部120から前記クエリを受信すると(図2の記号Aから続く)、受信した前記クエリとそれに対するクリックログの解析要求を前記解析結果統合部122へ送信する。前記解析結果統合部122は、この要求を受けると、前記解析部A123と前記解析部B124へ前記クエリを送信し、解析フェーズが開始される。   FIG. 3 shows a processing flow of the click log analysis phase. When the command unit 121 receives the query from the extended word selection unit 120 (following the symbol A in FIG. 2), the command unit 121 transmits the received query and a click log analysis request thereto to the analysis result integration unit 122. . Upon receiving this request, the analysis result integration unit 122 transmits the query to the analysis unit A123 and the analysis unit B124, and an analysis phase is started.

前記解析部A123は、アクセス集中サイト(ACS)を特定するための指標となるアクセス集中度合(ACD)を算出する。具体的には、前記解析部A123は、前記クリックログDB126から前記クエリに対するクリックログを読み出す。そして、読み出したクリックログのあるランクに存在するサイトと、その両隣のランクに存在するサイトのクリック回数に着目し、その相対的クリック回数を式(1)および式(2)により算出する。この式(1)および式(2)は、前記文章検索装置1のプログラムに定義されているものとする。   The analysis unit A123 calculates an access concentration degree (ACD) as an index for specifying an access concentration site (ACS). Specifically, the analysis unit A123 reads a click log for the query from the click log DB 126. Then, paying attention to the number of clicks of a site existing in a rank of the read click log and the sites existing in both adjacent ranks, the relative number of clicks is calculated by Expression (1) and Expression (2). These expressions (1) and (2) are defined in the program of the text search apparatus 1.

Figure 0004759600
Figure 0004759600

Figure 0004759600
Figure 0004759600

ここで、c(q,r)はクエリqに対するクリックログ中でランクrとなったサイトのクリック回数を示し、c(q,r−1)、c(q,r+1)は、ランクrの左隣のランクr−1、右隣のランクr+1となったサイトのクリック回数を示す。   Here, c (q, r) indicates the number of clicks of the site ranked r in the click log for the query q, and c (q, r-1) and c (q, r + 1) are the left of rank r. It shows the number of clicks on the site that has the next rank r−1 and the right next rank r + 1.

また、slopeLおよびslopeRは、クリックログをあるクエリqに対して解析し、ランクとクリック回数に基づいて曲線を描いたときのランクr−1およびランクr+1に対するそれぞれの傾きに対応する。この曲線の例を図4に示す。 Further, slope L and slope R correspond to respective slopes for rank r-1 and rank r + 1 when a click log is analyzed for a certain query q and a curve is drawn based on the rank and the number of clicks. An example of this curve is shown in FIG.

図4において、横軸はサイトのランク、縦軸はクリック回数を示している。ここで、特定クエリ曲線はクリックログをあるクエリに対して解析して描いた曲線、平均クエリ曲線はクリックログを全てのクエリに対して解析し、そのクエリの個数で平均して描いた曲線を表す。   In FIG. 4, the horizontal axis indicates the rank of the site, and the vertical axis indicates the number of clicks. Here, the specific query curve is a curve drawn by analyzing the click log for a query, and the average query curve is a curve drawn by analyzing the click log for all queries and averaging the number of queries. To express.

このとき、特定クエリ曲線の傾きが急になる、即ち特定クエリ曲線が強いピークを描いているランクにあるサイトをアクセスの集中するサイトと想定し、これをアクセス集中サイト(ACS)の候補とみなす。この曲線の傾きの程度を、式(3)でアクセス集中度合ACD(q,r)として定義する。この式(3)は、前記文章検索装置1のプログラムに定義されているものとする。   At this time, it is assumed that the site where the slope of the specific query curve is steep, that is, the rank where the specific query curve has a strong peak is a site where access is concentrated, and this is regarded as a candidate for an access concentrated site (ACS). . The degree of the slope of this curve is defined as the access concentration degree ACD (q, r) in Expression (3). This expression (3) is defined in the program of the text search apparatus 1.

Figure 0004759600
Figure 0004759600

ここでθL(r)、θR(r)は傾きslopeL、slopeRに対する角度を示しており、アクセス集中度合ACD(q,r)はこの角度により特徴付けられる。前記解析部A123は、アクセス集中度合ACD(q,r)をサイト毎に算出し、解析結果として前記解析結果統合部122へ返信する。 Here, θ L (r) and θ R (r) indicate angles with respect to the slopes slope L and slope R, and the access concentration degree ACD (q, r) is characterized by these angles. The analysis unit A123 calculates the access concentration degree ACD (q, r) for each site, and returns it to the analysis result integration unit 122 as an analysis result.

前記解析部B124は、アクセス集中サイト(ACS)を特定するための別の指標として、クリックログ中のサイトのクリック回数が明らかに多いかどうかを統計的に判断する。即ち、あるランクrに存在するサイトのクリック回数が、そのランクrが期待するクリック回数(平均クリック回数)を大きく上回っていれば、そのサイトは偶然でなく閲覧者に意図的に選択されたといえる。   The analysis unit B124 statistically determines whether or not the number of clicks of the site in the click log is obviously large as another index for specifying the access concentrated site (ACS). That is, if the number of clicks of a site existing in a certain rank r greatly exceeds the number of clicks (average number of clicks) expected by that rank r, it can be said that the site was intentionally selected by the viewer, not by chance. .

具体的には、前記解析部B124は、前記解析結果統合部122から前記クエリqとクリックログの解析要求を受けると、前記クリックログDB126から前記クエリqに対するクリックログを読み出す。また、これと同時に、前記クリック確率DB127を参照してランクrに存在するサイトのクリック確率P(r)を読み出す。そして、あるランクrに存在するサイトのクリック回数の分布は二項分布に従うと仮定し、実際のクリック回数c(q,r)が、そのランクが期待するクリック回数(平均クリック回数)を大きく上回っているかどうかを、式(4)により生起確率p(q,r)として算出する。この式(4)は、前記文章検索装置1のプログラムに定義されているものとする。   Specifically, when the analysis unit B124 receives the query q and click log analysis request from the analysis result integration unit 122, the analysis unit B124 reads the click log for the query q from the click log DB 126. At the same time, the click probability P (r) of the site existing in the rank r is read with reference to the click probability DB 127. It is assumed that the distribution of clicks of a site existing in a certain rank r follows a binomial distribution, and the actual number of clicks c (q, r) greatly exceeds the number of clicks (average clicks) that the rank expects. Is calculated as an occurrence probability p (q, r) by the equation (4). This equation (4) is defined in the program of the text search apparatus 1.

Figure 0004759600
Figure 0004759600

ここで、n(q,r)はランクrのサイトを全閲覧者が見た総回数であり、この単位回数が「試行」にあたる。この総回数n(q,r)は、このランクrにあるサイトのクリック回数c(q,r)と通り越した回数nc(q,r)の和で表される。通り越した回数とは、ランクrより低いランクのサイトがクリックされた回数を示している。もし同一の閲覧者が、ランクrとランクr以下のサイトを連続でクリックした場合などは、閲覧者IDなどで識別して1回とカウントする。   Here, n (q, r) is the total number of times all viewers have viewed the site of rank r, and this unit number corresponds to “trial”. This total number n (q, r) is represented by the sum of the number of clicks c (q, r) of the site in this rank r and the number of times nc (q, r) that passed. The number of times of passing indicates the number of times a site having a rank lower than rank r has been clicked. If the same viewer clicks on a site of rank r and rank r or lower successively, it is identified by the viewer ID and counted once.

ここでは、ランクrに存在するサイトがクリックされるか否かを二項分布が表現する「1回あたりの試行」とみなし、そのサイトのクリック回数が起こる生起確率p(q,r)が極端に少ない場合に、そのクリック回数は明らかに多いとみなす。   Here, whether or not a site existing in the rank r is clicked is regarded as a “trial per time” expressed by the binomial distribution, and the occurrence probability p (q, r) at which the number of clicks on the site occurs is extremely high. If the number of clicks is small, the number of clicks is considered to be clearly high.

例えば、図5に示すグラフにおいて、横軸はクリック回数、縦軸はその生起確率であり、ランクrのサイトのクリック確率P(r)=32%、試行回数n(q,r)=100の場合のクリック回数の二項分布を示している。つまり、ランクrとなったサイトのクリック確率が100回の試行を行って32%となるとき、期待されるクリック回数の分布は図5のグラフのような二項分布に従うと仮定する。   For example, in the graph shown in FIG. 5, the horizontal axis is the number of clicks, the vertical axis is the occurrence probability, the click probability P (r) = 32% of the rank r site, and the number of trials n (q, r) = 100. The binomial distribution of the number of clicks is shown. In other words, when the click probability of the site having the rank r becomes 32% after 100 trials, it is assumed that the expected distribution of the number of clicks follows a binomial distribution as shown in the graph of FIG.

このとき、実際にランクrとなったサイトが獲得したクリック回数c(q,r)が、グラフの右側2.5%領域(以下、領域Sとする)に含まれる場合、そのサイトは明らかに多くクリックされたと考え、このサイトをアクセス集中サイト(ACS)の候補とみなす。そして、前記解析部B124は、このようにして求めたアクセス集中サイト(ACS)の候補群を解析結果として前記解析結果統合部122へ返信する。   At this time, if the number of clicks c (q, r) acquired by the site actually ranked r is included in the 2.5% region (hereinafter referred to as region S) on the right side of the graph, the site is clearly Considering that many clicks have been made, this site is regarded as a candidate for an access concentration site (ACS). Then, the analysis unit B124 returns the access concentration site (ACS) candidate group obtained in this way to the analysis result integration unit 122 as an analysis result.

なお、図5において領域Sの閾値である右側2.5%は、一般にその前後において有意な差が現れるとされる閾値であるが、この値は設定などに合わせて適宜変更することができる。   In FIG. 5, 2.5% on the right side, which is the threshold value of the region S, is a threshold value at which a significant difference generally appears before and after that, but this value can be appropriately changed according to the setting.

前記解析結果統合部122は、前記解析部A123および前記解析部B124からそれぞれの解析結果を受信すると、これらを基にアクセス集中サイト(ACS)を特定する。即ち、クリック回数の生起確率が二項分布の右側2.5%に入っており、かつそのアクセス集中度合ACD(q,r)が高いサイトの上位K件をアクセス集中サイト(ACS)とみなし、そのURLを取得する。そして、このURLを前記命令部121へ返信する。   When the analysis result integration unit 122 receives the analysis results from the analysis unit A123 and the analysis unit B124, the analysis result integration unit 122 specifies an access concentration site (ACS) based on these analysis results. That is, the top K cases of the sites whose click probability is within 2.5% on the right side of the binomial distribution and whose access concentration degree ACD (q, r) is high are regarded as access concentration sites (ACS). Get the URL. Then, this URL is returned to the command unit 121.

このとき、いずれのサイトもクリック回数の生起確率が領域Sに入らない場合は、アクセス集中度合ACD(q,r)の降順でサイトを順序付け、その上位K件をアクセス集中サイト(ACS)とみなす。この上位件数Kの値は、設定に合わせて適宜変更することができる。   At this time, if the occurrence probability of the number of clicks does not enter the region S in any site, the sites are ordered in descending order of the access concentration degree ACD (q, r), and the top K cases are regarded as the access concentration sites (ACS). . The value of the upper number K can be changed as appropriate according to the setting.

前記解析部C125は、前記クリックログDB126から全クリックログを読み出し、各ランクのサイトに対するクリック確率P(r)を算出する。そして、この算出結果を用いて前記クリック確率DB127を更新する。この更新処理は予め設定された一定時間ごとに行われる。   The analysis unit C125 reads all click logs from the click log DB 126 and calculates a click probability P (r) for each rank site. Then, the click probability DB 127 is updated using this calculation result. This update process is performed at predetermined time intervals.

(3)拡張語取得フェーズ
拡張語取得フェーズでは、クリックログ解析フェーズで特定したアクセス集中サイト(ACS)のタイトルと概要文(スニペット)から、クエリ拡張を行うための拡張語を取得する。これは、アクセスの集中するサイトのタイトルとスニペットには閲覧者が有用だと判断したキーワードがあり、このキーワードでクエリ拡張をすることで大幅な検索の精度向上が期待できるためである。
(3) Extended word acquisition phase In the extended word acquisition phase, an extended word for query expansion is acquired from the title and summary sentence (snippet) of the access concentrated site (ACS) specified in the click log analysis phase. This is because the titles and snippets of sites where access is concentrated have keywords that the viewer has determined to be useful, and by expanding the query with these keywords, a significant improvement in search accuracy can be expected.

図6は、拡張語取得フェーズの処理フローを示している。前記情報抽出部128が前記命令部121からアクセス集中サイト(ACS)のURLと前記クエリを受信した後に(図3の記号Bから続く)、拡張語取得フェーズが開始される。   FIG. 6 shows the process flow of the extended word acquisition phase. After the information extraction unit 128 receives the URL of the access concentration site (ACS) and the query from the command unit 121 (continuing from the symbol B in FIG. 3), an extended word acquisition phase is started.

前記情報抽出部128は、受信したアクセス集中サイト(ACS)のURLと前記クエリを前記照合部129へ送信する。前記照合部129は、前記クエリを前記検索結果取得部130へ送信し、続いて前記検索結果取得部130はこのクエリを前記検索エンジン131へ投入する。   The information extraction unit 128 transmits the received URL of the access concentration site (ACS) and the query to the collation unit 129. The collation unit 129 transmits the query to the search result acquisition unit 130, and then the search result acquisition unit 130 inputs the query to the search engine 131.

前記検索エンジン131は、このクエリを用いて前記インデックスDB132に対して検索を実行し、URLと検索結果件数Nを取得して、これらを前記検索結果取得部130へ返信する。これらを受信した前記検索結果取得部130は、検索結果(URLと検索結果件数N)を前記照合部129へ返信する。   The search engine 131 executes a search for the index DB 132 using this query, acquires a URL and the number N of search results, and returns these to the search result acquisition unit 130. Upon receiving these, the search result acquisition unit 130 returns the search results (URL and the number N of search results) to the verification unit 129.

前記照合部129は、前記検索結果取得部130から受信した検索結果のURLと、前記情報抽出部128から受信したアクセス集中サイト(ACS)のURLとを照合して、アクセス集中サイト(ACS)を識別する。そして、識別したアクセス集中サイト(ACS)の情報(URL、タイトル、スニペットなど)と前記検索結果件数Nとを前記情報抽出部128へ返信する。   The collation unit 129 collates the URL of the search result received from the search result acquisition unit 130 with the URL of the access concentration site (ACS) received from the information extraction unit 128 to obtain an access concentration site (ACS). Identify. Then, the information (URL, title, snippet, etc.) of the identified access concentration site (ACS) and the search result number N are returned to the information extraction unit 128.

前記情報抽出部128は、受信したアクセス集中サイト(ACS)の前記情報からタイトルとスニペットを抽出し、前記検索結果件数Nとともに前記機能語抽出・名詞句生成部133へ送信する。   The information extraction unit 128 extracts a title and a snippet from the received information on the access concentration site (ACS), and transmits the extracted information and the search result number N to the function word extraction / noun phrase generation unit 133.

前記機能語抽出・名詞句生成部133は、受信したタイトルとスニペットを形態素に分解し、機能語の取得および名詞句の生成を行う。そして、この機能語および名詞句を後に行うクエリ拡張に用いる拡張語の候補群として、前記検索結果件数Nとともに前記拡張語の重み・順序付け部134へ送信する。   The function word extraction / noun phrase generation unit 133 decomposes the received title and snippet into morphemes, acquires a function word, and generates a noun phrase. Then, the function word and the noun phrase are transmitted to the weight / ordering unit 134 of the expanded word together with the search result number N as a candidate group of expanded words used for query expansion performed later.

前記拡張語の重み・順序付け部134は、受信した各拡張語の候補iと、各拡張語の候補iをタイトルとスニペットに含むアクセス集中サイト(ACS)の個数an(i)、前記検索結果件数N、アクセス集中サイト(ACS)の全個数Kを用いて、非特許文献2の「Robertson Selection Value(RSV)」の式(5)および式(6)を用いて拡張語の重み、順序付けを行う。この式(5)および式(6)は、前記文章検索装置1のプログラムに定義されているものとする。   The extended word weighting / ordering unit 134 receives each extended word candidate i, the number of access concentrated sites (ACS) including each extended word candidate i in the title and snippet an (i), and the number of search results. N, using the total number of access concentrated sites (ACS) K, the weights and ordering of extended words using the formulas (5) and (6) of “Robertson Selection Value (RSV)” of Non-Patent Document 2 . These expressions (5) and (6) are defined in the program of the text search apparatus 1.

Figure 0004759600
Figure 0004759600

Figure 0004759600
Figure 0004759600

ここで、n(i)は検索結果件数N中、拡張語の候補iをタイトルとスニペットに含むサイト数である。前記拡張語の重み・順序付け部134は、このように順序付けられた拡張語の候補群を前記拡張語選択部120へ送信する。   Here, n (i) is the number of sites that include the expansion word candidate i in the title and snippet in the search result number N. The extended word weight / ordering unit 134 transmits the extended word candidate group thus ordered to the extended word selection unit 120.

前記拡張語選択部120は、受信した拡張語の候補群のうち上位T件を実際にクエリ拡張で使用する拡張語として採用し、採用した拡張語群を前記検索式生成部110へ返信する。この上位件数Tの値は、設定に合わせて適宜変更することができる。   The extended word selection unit 120 employs the top T of the received expanded word candidate groups as expanded words that are actually used in query expansion, and returns the employed expanded word group to the search expression generation unit 110. The value of the upper order number T can be changed as appropriate according to the setting.

(4)検索実行フェーズ
検索実行フェーズでは、拡張語取得フェーズで取得した拡張語を用いて検索式を生成し、この検索式による検索を実行するとともに、検索結果に対する利用者の判断(クリック)をクリックログに反映させる。
(4) Search execution phase In the search execution phase, a search expression is generated using the extended word acquired in the extended word acquisition phase, and a search based on the search expression is executed, and the user's judgment (click) on the search result is performed. Reflect in the click log.

図7は、検索実行フェーズの処理フローを示している。前記検索式生成部110は、前記拡張語選択部120から拡張語群を受信すると(図6の記号Cから続く)、この拡張語群を用いてクエリ拡張を実行する検索式を生成し、これを前記検索実行部140へ送信する。   FIG. 7 shows the processing flow of the search execution phase. When receiving the extended word group from the extended word selecting unit 120 (following the symbol C in FIG. 6), the search expression generating unit 110 generates a search expression for executing query expansion using the extended word group, Is transmitted to the search execution unit 140.

前記検索実行部140は、受信した検索式を前記検索エンジン131へ投入する。前記検索エンジン131はこの検索式を用いて、前記インデックスDB132に格納されたサイトのタイトルとボディ(本文)それぞれに対して検索を行う。   The search execution unit 140 inputs the received search expression to the search engine 131. The search engine 131 uses the search formula to search each of the site title and body (text) stored in the index DB 132.

この検索式では、まず利用者が入力した初期クエリに対する検索結果の集合(ランク付けされたサイト群)を決定し、次にこのサイト群に対して前記拡張語を用いて採点を行い、この点数に基づいてより精度の高いランキングに並べ替える方法が定義されている。   In this search formula, first, a set of search results (ranked site group) for the initial query input by the user is determined, and then the site group is scored using the extended word, and this score is obtained. A method of rearranging the rankings with higher accuracy based on the above is defined.

具体的には、初期クエリに対する検索結果の各サイトの要素である文章に対して、「拡張語の重みrsv(i)×各文章における拡張語のtf・idf」を算出して採点を行い、この点数でサイト群を並べ替える。ここで「tf・idf」は、ある単語が一つの文書にどのくらい出現するかなどの尺度により求められる単語の重みを表す。そして、このように並べ替えた結果を前記結果表示画面102へ表示する。したがって、利用者は、最初に入力したクエリに対し、より高い精度で並べられたランキングを検索結果として確認することができる。   Specifically, for the sentence that is an element of each site of the search result for the initial query, “extension word weight rsv (i) × extension word tf · idf in each sentence” is calculated and scored, Sort sites by this score. Here, “tf · idf” represents the weight of a word obtained by a measure such as how much a certain word appears in one document. Then, the rearranged result is displayed on the result display screen 102. Therefore, the user can confirm the ranking arranged with higher accuracy as a search result with respect to the first input query.

この検索結果に対し利用者は、サイトを選択する判断(クリック)を行う。このクリック情報(利用者がクリックしたサイトの情報)は前記クリックログフィードバック処理部150へ送信される。前記クリックログフィードバック処理部150は、このクリック情報から新たなクリックログを生成し、これを用いて前記クリックログDB126を随時更新する。   For this search result, the user makes a decision (click) to select a site. This click information (information on the site clicked by the user) is transmitted to the click log feedback processing unit 150. The click log feedback processing unit 150 generates a new click log from the click information, and updates the click log DB 126 as needed using the click log.

以上のように、本実施形態に係る文章検索装置1によれば、アクセス集中サイト(ACS)を特定する際、二つの独立した尺度であるアクセス集中度合ACDおよびクリック回数の生起確率を組み合わせて特定していることから、アクセス集中サイト(ACS)の的確な判別が可能となる。   As described above, according to the text search device 1 according to the present embodiment, when specifying an access concentration site (ACS), it is specified by combining two independent measures, the access concentration degree ACD and the occurrence probability of the number of clicks. Therefore, it is possible to accurately determine the access concentration site (ACS).

また、アクセス集中サイト(ACS)のタイトルとスニペットから抽出されるキーワードを用いてクエリ拡張を行うことから、少ない拡張語数(1〜5語)で検索の大幅な精度向上を実現することができる。   In addition, since query expansion is performed using keywords extracted from the title and snippet of the access intensive site (ACS), it is possible to achieve a significant improvement in search accuracy with a small number of expanded words (1 to 5 words).

さらに、拡張語の取得の際に利用するクリックログDBは、利用者からのフィードバックの自動処理により随時更新されることから、クエリに対して時々刻々と変化する時代背景に沿った拡張語を適切に抽出することが可能となる。   In addition, the click log DB used to acquire extended words is updated as needed by automatic processing of feedback from users. Can be extracted.

<他例>
前記クリックログDB126と前記インデックスDB132とは、必ずしも前記文章検索装置1に実装される必要はなく、例えば前記文章検索装置1にネットワークを介して接続された図外のサーバ内に実装した態様であってもよい。この場合に、前記両DB126.132への接続は前記通信デバイスを介して行われる。
<Other examples>
The click log DB 126 and the index DB 132 are not necessarily implemented in the text search apparatus 1, and are, for example, implemented in a server (not shown) connected to the text search apparatus 1 via a network. May be. In this case, the connection to both DBs 126.132 is made via the communication device.

即ちクリックログ解析フェーズでは、前記解析部A123および前記解析部B124が、前記通信デバイスを介して前記クリックログDB126に接続して、前記クエリに対応するクリックログを取得する。取得したクリックログのデータは前記メモリ(RAM)に一時記憶され、前記両解析部123.124は前述の手法によりこのデータを解析する。   That is, in the click log analysis phase, the analysis unit A123 and the analysis unit B124 connect to the click log DB 126 via the communication device and acquire a click log corresponding to the query. The acquired click log data is temporarily stored in the memory (RAM), and both the analysis units 123.124 analyze this data by the above-described method.

また、前記解析部C125は、同様に前記通信デバイスを介して前記クリックログDB126へ接続し、全てのクリックログを取得する。そして、取得したクリックログからクリック確率を算出し、前記クリック確率DB127を更新する。   Similarly, the analysis unit C125 connects to the click log DB 126 via the communication device and acquires all click logs. Then, the click probability is calculated from the acquired click log, and the click probability DB 127 is updated.

拡張語取得フェーズおよび検索実行フェーズでは、前記検索エンジン131が前記通信デバイスを介して前記インデックスDB132へ接続し、検索を行う。また、前記クリックログフィードバック処理部150は、同様に前記通信デバイスを介して前記クリックログDB126へ接続し、前記クリックログDB126を随時更新する。   In the extended word acquisition phase and the search execution phase, the search engine 131 connects to the index DB 132 via the communication device and performs a search. Further, the click log feedback processing unit 150 similarly connects to the click log DB 126 via the communication device, and updates the click log DB 126 as needed.

なお、本発明は、コンピュータを前記文章検索装置1の各機能ブロック100.110.120.140として機能させる文章検索プログラムとしても提供することができる。このプログラムは、各機能ブロック100.110.120.140の全ての処理をコンピュータに実行させるものでもよく、あるいはその一部の処理を実行させるものであってもよい。   The present invention can also be provided as a text search program that causes a computer to function as each functional block 100.110.120.140 of the text search device 1. This program may cause the computer to execute all the processes of the functional blocks 100.110.120.140, or may execute a part of the processes.

このプログラムは、Webサイトなどからのダウンロードによってコンピュータに提供される。また、前記プログラムは、CD−ROM,DVD−ROM,CD−R,CD−RW,DVD−R,DVD−RW,MO,HDD,Blu−ray Disk(登録商標)などの記録媒体に格納してコンピュータに提供してもよい。この記録媒体から読み出されたプログラムコードが、本実施形態の各機能ブロックとしてコンピュータを機能させるので、該記録媒体も本発明を構成する。   This program is provided to the computer by downloading from a website or the like. The program is stored in a recording medium such as a CD-ROM, DVD-ROM, CD-R, CD-RW, DVD-R, DVD-RW, MO, HDD, Blu-ray Disk (registered trademark). It may be provided to a computer. Since the program code read from the recording medium causes the computer to function as each functional block of the present embodiment, the recording medium also constitutes the present invention.

本発明の実施形態に係る文章検索装置の構成図。The lineblock diagram of the text search device concerning the embodiment of the present invention. 同 クエリ入力フェーズの処理フロー図。The processing flow figure of the same query input phase. 同 クリックログ解析フェーズの処理フロー図。The processing flow diagram of the click log analysis phase. 同 アクセス集中度合ACDを示すグラフ。The graph which shows the same access concentration degree ACD. 同 クリック回数の二項分布を示すグラフ。A graph showing the binomial distribution of the number of clicks. 同 拡張語取得フェーズの処理フロー図。The processing flow figure of the same extended word acquisition phase. 同 検索実行フェーズの処理フロー図。The processing flow figure of the same search execution phase.

符号の説明Explanation of symbols

1…文章検索装置
100…表示部
101…クエリ入力画面
102…結果表示画面
110…検索式生成部
120…拡張語選択部
121…命令部
122…解析結果統合部
123…解析部A(第1解析手段)
124…解析部B(第2解析手段)
125…解析部C
126…クリックログDB
127…クリック確率DB
128…情報抽出部
129…照合部
130…検索結果取得部
131…検索エンジン
132…インデックスDB
133…機能語抽出・名詞句生成部
134…拡張語の重み・順序付け部
140…検索実行部
150…クリックログフィードバック処理部
DESCRIPTION OF SYMBOLS 1 ... Text search device 100 ... Display part 101 ... Query input screen 102 ... Result display screen 110 ... Search formula production | generation part 120 ... Extended word selection part 121 ... Command part 122 ... Analysis result integration part 123 ... Analysis part A (1st analysis) means)
124... Analysis unit B (second analysis means)
125 ... analysis unit C
126 ... Click log DB
127 ... Click probability DB
128 ... Information extraction unit 129 ... Verification unit 130 ... Search result acquisition unit 131 ... Search engine 132 ... Index DB
133 ... Function word extraction / noun phrase generation unit 134 ... Extended word weight / ordering unit 140 ... Search execution unit 150 ... Click log feedback processing unit

Claims (8)

入力されたクエリに関連する拡張語を取得し、該拡張語と前記クエリとを用いてサイトを検索する文章検索装置であって、
閲覧者の実際に選択したサイトがクリック回数に基づきランク付けされた前記クエリに対するクリックログを解析して、アクセスの集中するサイトを特定するクリックログ解析手段と、
前記アクセスの集中するサイトのタイトルと概要文とを解析して、前記拡張語を取得する拡張語取得手段と、を備え、
前記クリックログ解析手段は、前記クリックログ中の隣接ランクに存在するサイト間のクリック回数差を相対的クリック回数として算出し、該相対的クリック回数に応じてサイトのアクセス集中度合を求める第1解析手段と、
前記検索ごとに各ランクのサイトに対するクリック確率が保存されたデータベースを参照して、ランクの平均クリック確率に対する実際のクリック回数を生起確率として算出し、該生起確率と閾値とを用いてアクセス集中サイトの候補を求める第2解析手段と、
前記両解析手段の解析結果を統合してアクセスの集中するサイトを特定する解析結果統合手段と、
を有することを特徴とする文章検索装置。
A sentence search device that acquires an extended word related to an input query and searches a site using the extended word and the query,
Click log analysis means for analyzing a click log for the query in which a site actually selected by a visitor is ranked based on the number of clicks, and identifying a site where access is concentrated;
Analyzing the title and summary sentence of the site where the access is concentrated to obtain the extended word, and an extended word acquisition means,
The click log analysis means calculates a difference in the number of clicks between sites existing in adjacent ranks in the click log as a relative number of clicks, and calculates a degree of access concentration of the site according to the relative number of clicks Means,
By referring to a database in which the click probability for each rank of the site is stored for each search, the actual number of clicks with respect to the average click probability of the rank is calculated as the occurrence probability, and the access concentration site using the occurrence probability and the threshold value A second analysis means for obtaining a candidate for
An analysis result integration unit that integrates the analysis results of the two analysis units and identifies a site where access is concentrated;
A sentence search device characterized by comprising:
前記拡張語取得手段は、
前記アクセスの集中するサイトのタイトルと概要文とを解析して拡張語の候補群を求める手段と、
前記拡張語の各候補に対して順序付けを行う手段と、
前記順序付けられた各候補の順位に基づいて拡張語を選択する手段とを有する
ことを特徴とする請求項1に記載の文章検索装置。
The extended word acquisition means includes
Means for analyzing the title and summary sentence of the site where the access is concentrated to obtain a candidate group of extended words;
Means for ordering each candidate for the extended word;
The sentence search apparatus according to claim 1, further comprising: means for selecting an extended word based on the ranking of the ordered candidates.
前記クエリと前記拡張語とを用いてサイトを検索し、検索結果を出力する検索実行手段と、
前記検索実行手段の検索結果に対する利用者のクリック情報を前記クリックログに反映させるクリックログフィードバック処理手段とをさらに備える
ことを特徴とする請求項1または2のいずれか1項に記載の文章検索装置。
Search execution means for searching a site using the query and the extended word and outputting a search result;
The text search apparatus according to claim 1, further comprising: a click log feedback processing unit that reflects user click information on the search result of the search execution unit in the click log. .
入力されたクエリに関連する拡張語を取得し、該拡張語と前記クエリとを用いてサイトを検索する文章検索方法であって、
クリックログ解析手段が、閲覧者の実際に選択したサイトがクリック回数に基づきランク付けされた前記クエリに対するクリックログを解析してアクセスの集中するサイトを特定する第1ステップと、
拡張語取得手段が、前記アクセスの集中するサイトのタイトルと概要文とを解析して前記拡張語を取得する第2ステップと、を有し、
前記第1ステップは、
前記クリックログ中の隣接ランクに存在するサイト間のクリック回数差を相対的クリック回数として算出し、該相対的クリック回数に応じてサイトのアクセス集中度合を求めるステップと、
前記検索ごとに各ランクのサイトに対するクリック確率が保存されたデータベースを参照して、ランクの平均クリック確率に対する実際のクリック回数を生起確率として算出し、該生起確率と閾値とを用いてアクセス集中サイトの候補を求めるステップと、
前記両ステップの解析結果を統合してアクセスの集中するサイトを特定するステップとを有する
ことを特徴とする文章検索方法。
A sentence search method for acquiring an extended word related to an input query and searching a site using the extended word and the query,
A first step in which a click log analyzing unit analyzes a click log for the query in which a site actually selected by a viewer is ranked based on the number of clicks, and identifies a site where access is concentrated;
An extended word acquisition means comprising: a second step of acquiring the extended word by analyzing a title and a summary sentence of the site where the access is concentrated,
The first step includes
Calculating the difference in the number of clicks between sites existing in adjacent ranks in the click log as the number of relative clicks, and determining the access concentration degree of the site according to the relative number of clicks ;
By referring to a database in which the click probability for each rank of the site is stored for each search, the actual number of clicks with respect to the average click probability of the rank is calculated as the occurrence probability, and the access concentration site using the occurrence probability and the threshold value Seeking a candidate for,
And a step of identifying the site where access is concentrated by integrating the analysis results of the two steps.
前記第2ステップは、
前記アクセスの集中するサイトのタイトルと概要文とを解析して拡張語の候補群を求めるステップと、
前記拡張語の各候補に対して順序付けを行うステップと、
前記順序付けられた各候補の順位に基づいて拡張語を選択するステップとを有する
ことを特徴とする請求項4に記載の文章検索方法。
The second step includes
Analyzing the title and summary sentence of the site where access is concentrated to obtain a candidate group of extended words;
Ordering each candidate for the extended word;
The sentence search method according to claim 4 , further comprising: selecting an extended word based on the ranking of each of the ordered candidates.
検索実行手段が、前記クエリと前記拡張語とを用いてサイトを検索し検索結果を出力するステップと、
クリックログフィードバック処理手段が、前記ステップの検索結果に対する利用者のクリック情報を前記クリックログに反映させるステップとをさらに有する
ことを特徴とする請求項4または5のいずれか1項に記載の文章検索方法。
A search execution means for searching a site using the query and the extension word and outputting a search result;
6. The text search according to claim 4 , further comprising a step of causing the click log feedback processing means to reflect user click information on the search result of the step in the click log. Method.
請求項4〜6のいずれか1項に記載の文章検索方法の各ステップをコンピュータに実行させることを特徴とする文章検索プログラム。 A text search program that causes a computer to execute each step of the text search method according to claim 4 . 請求項記載の文章検索プログラムを記録したことを特徴とするコンピュータの読み取り可能な記録媒体。 A computer-readable recording medium on which the text search program according to claim 7 is recorded.
JP2008216556A 2008-08-26 2008-08-26 Text search device, text search method, text search program and recording medium thereof Active JP4759600B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008216556A JP4759600B2 (en) 2008-08-26 2008-08-26 Text search device, text search method, text search program and recording medium thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008216556A JP4759600B2 (en) 2008-08-26 2008-08-26 Text search device, text search method, text search program and recording medium thereof

Publications (2)

Publication Number Publication Date
JP2010055164A JP2010055164A (en) 2010-03-11
JP4759600B2 true JP4759600B2 (en) 2011-08-31

Family

ID=42071050

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008216556A Active JP4759600B2 (en) 2008-08-26 2008-08-26 Text search device, text search method, text search program and recording medium thereof

Country Status (1)

Country Link
JP (1) JP4759600B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5165719B2 (en) * 2010-03-30 2013-03-21 ヤフー株式会社 Information processing apparatus, data extraction method, and program
JP5114524B2 (en) * 2010-04-08 2013-01-09 ヤフー株式会社 Search result update system, server and method
JP5043209B2 (en) 2011-03-04 2012-10-10 楽天株式会社 Collective expansion processing device, collective expansion processing method, program, and recording medium
CN104933081B (en) * 2014-03-21 2018-06-29 阿里巴巴集团控股有限公司 Providing method and device are suggested in a kind of search

Also Published As

Publication number Publication date
JP2010055164A (en) 2010-03-11

Similar Documents

Publication Publication Date Title
JP4638439B2 (en) Personalized web search
KR101078864B1 (en) The query/document topic category transition analysis system and method and the query expansion based information retrieval system and method
US8190601B2 (en) Identifying task groups for organizing search results
US7849104B2 (en) Searching heterogeneous interrelated entities
RU2501078C2 (en) Ranking search results using edit distance and document information
JP4633162B2 (en) Index generation system, information retrieval system, and index generation method
US20050222989A1 (en) Results based personalization of advertisements in a search engine
EP1653380A1 (en) Web page ranking with hierarchical considerations
US8631097B1 (en) Methods and systems for finding a mobile and non-mobile page pair
JP5084858B2 (en) Summary creation device, summary creation method and program
US20100131485A1 (en) Method and system for automatic construction of information organization structure for related information browsing
JP5329540B2 (en) User-centric information search method, computer-readable recording medium, and user-centric information search system
US20110208715A1 (en) Automatically mining intents of a group of queries
US8234584B2 (en) Computer system, information collection support device, and method for supporting information collection
JP4896132B2 (en) Information retrieval method and apparatus reflecting information value
JP2010097461A (en) Document search apparatus, document search method, and document search program
JP4569380B2 (en) Vector generation method and apparatus, category classification method and apparatus, program, and computer-readable recording medium storing program
JP4759600B2 (en) Text search device, text search method, text search program and recording medium thereof
KR20100132376A (en) Apparatus and method for providing snippet
JP2009122807A (en) Associative retrieval system
JP4912384B2 (en) Document search device, document search method, and document search program
KR101178208B1 (en) Apparatus and method for extracting keywords
JP2009080806A (en) Method for inserting link in web page
JP2011100191A (en) Device, method, and program for retrieving document
JP5286007B2 (en) Document search device, document search method, and document search program

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20100608

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110204

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110215

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110414

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110531

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110606

R150 Certificate of patent or registration of utility model

Ref document number: 4759600

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140610

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350