JP4962967B2 - Web page search server and query recommendation method - Google Patents
Web page search server and query recommendation method Download PDFInfo
- Publication number
- JP4962967B2 JP4962967B2 JP2008004844A JP2008004844A JP4962967B2 JP 4962967 B2 JP4962967 B2 JP 4962967B2 JP 2008004844 A JP2008004844 A JP 2008004844A JP 2008004844 A JP2008004844 A JP 2008004844A JP 4962967 B2 JP4962967 B2 JP 4962967B2
- Authority
- JP
- Japan
- Prior art keywords
- query
- search
- word
- web page
- correlation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 35
- 238000000605 extraction Methods 0.000 claims description 24
- 230000005540 biological transmission Effects 0.000 claims description 15
- 239000000284 extract Substances 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 15
- 239000011159 matrix material Substances 0.000 description 12
- 230000006870 function Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 230000000877 morphologic effect Effects 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 210000000707 wrist Anatomy 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012067 mathematical method Methods 0.000 description 1
- 230000007115 recruitment Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、Webページ検索サーバ及びクエリ推薦方法に関する。 The present invention relates to a Web page search server and a query recommendation method.
近年に見られるデータベース技術、インターネットに見られるネットワーク技術等の計算機技術の発展は、ネットワーク上に分散されたデータベースに蓄積された多種多様な文書情報(以下、単に「文書」と称する)を、利用者がデータベースの所在を意識することなく利用可能にしている。しかし、利用者にとって多種多様な文書すべてが必要となる可能性は低く、利用者はそれら多量な文書の中から自分にとって有益な情報を有する文書を選別する作業を行う必要がある。 The development of computer technology such as database technology seen in recent years and network technology seen on the Internet uses a wide variety of document information (hereinafter simply referred to as “documents”) stored in a database distributed on the network. Users can use it without being aware of the location of the database. However, it is unlikely that all of a wide variety of documents are required for the user, and the user needs to select a document having useful information for himself / herself from the large number of documents.
現在インターネット上に分散する多量な文書から有益な文書を選別する作業を支援するシステムとして、クエリ検索機能(キーワード検索機能)を備えたサーチエンジンが多数提供されている。クエリ検索では、利用可能な文書群の中から利用者によりクエリとして与えられたキーワードが出現する文書が取り出されて提示される。したがって利用者は、自分の所望する情報を含む文書をクエリ検索するのに適切なクエリをシステムに入力する必要がある。しかし目的の文書を得るために必要となる適切なクエリを、利用者が自ら発想することは利用者にとって負担となる。このため利用者に対して、入力するクエリを推薦するシステムが有用である。 Currently, many search engines having a query search function (keyword search function) are provided as systems that support the work of selecting useful documents from a large amount of documents distributed on the Internet. In a query search, a document in which a keyword given as a query by a user appears is extracted from a group of available documents and presented. Therefore, the user needs to input a query suitable for querying a document including information desired by the user to the system. However, it is a burden for the user to come up with an appropriate query necessary for obtaining the target document. Therefore, a system that recommends an input query to a user is useful.
クエリを推薦することで利用者のクエリ検索を支援する従来技術として、例えば、あるクエリを用いて過去に検索を行った結果ある文書あるいは文書群がみつかったとき、その文書あるいは文書群中に出現する単語はそのクエリに関連する単語であるという仮定に基づき、その文書中あるいは文書群に出現する多数の単語の出現頻度を利用した評価方法に基づいて、そのクエリに関連する、クエリとして利用できる関連クエリを抽出し、利用者がそのクエリに関連するクエリを問い合わせてきたとき、そのようにして抽出された関連クエリを推薦するという技術の存在が紹介されている(例えば、特許文献1)。
しかし、上記の方法においては、文書全体を分析対象とするため、処理の負荷が大きくなる上、文書によってはクエリに関連しない単語が抽出されてしまう、いわゆるノイズの混入も予想される。 However, in the above method, since the entire document is to be analyzed, the processing load increases, and depending on the document, a so-called noise mixture in which a word not related to the query is extracted is expected.
そこで、本発明は、文書のタイトルと要約文に基づき、関連クエリを抽出することで、これらの問題が少ない、関連クエリの推薦を行う技術を提供することを目的とする。 Therefore, an object of the present invention is to provide a technique for recommending a related query with less of these problems by extracting related queries based on a document title and a summary sentence.
本発明者は、クエリ検索においてユーザが選択したWebページに係る表示情報(タイトル及び要約文)と検索したクエリとの関連が強いことに鑑み、これらの相関度を求めることにより推薦クエリを提示する仕組みを見出し、本発明を完成するに至った。本発明は、具体的には次のようなものを提供する。 In view of the strong relationship between display information (title and summary text) related to a Web page selected by a user in a query search and the searched query, the present inventor presents a recommended query by obtaining the degree of correlation between them. The mechanism was found and the present invention was completed. Specifically, the present invention provides the following.
(1)クエリを入力してWebページの検索を行うWebページ検索システムにおいて、前記検索の実行後に提示された複数のWebページの候補のうちユーザにより選択されたWebページに係る情報であって、該選択のためにユーザの使用する端末の画面に表示されたものに含まれる単語を抽出する単語抽出手段と、前記検索を行うために入力されたクエリと前記単語抽出手段により抽出された単語との相関度を記録する相関度記録手段と、クエリが入力されたとき、前記相関度記録手段に記録された相関度に基づき、推薦クエリを抽出する推薦クエリ抽出手段と、前記推薦クエリ抽出手段で抽出された推薦クエリをユーザの使用する端末に送信する推薦クエリ送信手段とを備えるWebページ検索サーバ。 (1) In a Web page search system that inputs a query and searches for a Web page, information relating to a Web page selected by a user from among a plurality of Web page candidates presented after the search is executed, A word extracting means for extracting words contained in the one displayed on the screen of the terminal used by the user for the selection, a query input for performing the search, and a word extracted by the word extracting means A correlation degree recording means for recording the correlation degree, a recommended query extraction means for extracting a recommended query based on the correlation degree recorded in the correlation degree recording means when a query is input, and the recommended query extraction means A Web page search server comprising recommendation query transmission means for transmitting an extracted recommendation query to a terminal used by a user.
本発明のこのような構成によれば、ユーザがWebページを選択の際に実際に参考とした情報に基づいてクエリとの相関度が判断されるため、実質的に意味ある相関度が把握されるとともに、Webページのコンテンツ自体に含まれる単語との相関度を求める場合に予想されるノイズや、コンピュータ処理の負荷増という問題も軽減される。 According to such a configuration of the present invention, since the degree of correlation with the query is determined based on information actually referred to when the user selects the Web page, a substantially meaningful degree of correlation is grasped. In addition, the problem of noise expected when the degree of correlation with words included in the content of the Web page itself and the increase in the load on computer processing are alleviated.
(2)前記相関度記録手段により記録する相関度は、前記クエリを入力して行われた検索における、前記単語抽出手段による前記単語の抽出に係る前記選択の回数であることを特徴とする(1)に記載のWebページ検索サーバ。 (2) The degree of correlation recorded by the correlation degree recording unit is the number of times of selection related to extraction of the word by the word extraction unit in a search performed by inputting the query. The web page search server described in 1).
本発明のこのような構成によれば、選択されたWebページに関し、ユーザの端末に表示された情報に同一の言葉が複数含まれる場合にも、その影響を受けずに相関度を求めることができるので、表示情報の作成の癖の影響を受けないようにすることができる。 According to such a configuration of the present invention, when a plurality of the same words are included in the information displayed on the user's terminal regarding the selected Web page, the degree of correlation can be obtained without being affected by the same word. Since it can, it can be made not to be influenced by the habit of creating display information.
(3)前記相関度記録手段により記録する相関度は、前記クエリを入力して行われた検索において前記単語抽出手段により該単語が抽出された個数であることを特徴とする(1)に記載のWebページ検索サーバ。 (3) The degree of correlation recorded by the correlation degree recording unit is the number of words extracted by the word extraction unit in a search performed by inputting the query. Web page search server.
本発明のこのような構成によれば、選択されたWebページに関し、ユーザの端末に表示された情報に同一の言葉が複数含まれる場合には、その個数を反映した相関度を求めることができるので、繰り返し表示される重要な言葉との相関度が高くなり、ユーザの選択判断の実情に近づけることができる。 According to such a configuration of the present invention, when a plurality of the same words are included in the information displayed on the user's terminal regarding the selected Web page, the degree of correlation reflecting the number can be obtained. Therefore, the degree of correlation with important words that are repeatedly displayed is increased, and the situation can be brought closer to the actual situation of the user's selection decision.
(4)バナー広告を特定する符号と1以上の言葉とを関連づけて記録する広告関連語記録手段と、前記入力されたクエリが、前記広告関連語記録手段によりバナー広告を特定する符号と関連づけて記録されている言葉と一致するか否かを判定する判定手段と、前記判定手段による判定結果に応じ、前記符号により特定されるバナー広告を前記クエリを入力して行われた検索に係るWebページに表示するためにユーザの使用する端末に送信するバナー広告送信手段とをさらに備えることを特徴とする(1)から(3)のいずれかに記載のWebページ検索サーバ。 (4) An advertisement related word recording unit that records a code for specifying a banner advertisement in association with one or more words, and the input query is associated with a code for specifying a banner advertisement by the advertisement related word recording unit. A determination unit that determines whether or not the word matches a recorded word; and a Web page related to a search performed by inputting the query to a banner advertisement specified by the code according to a determination result by the determination unit The web page search server according to any one of (1) to (3), further comprising banner advertisement transmission means for transmitting to a terminal used by the user for display on the terminal.
本発明のこのような構成によれば、検索のために入力したクエリに関連するバナー広告を、検索に係るWebページすなわち検索結果を表示する画面に併せて表示することができるので、広告効果を上げることができる。 According to such a configuration of the present invention, the banner advertisement related to the query input for the search can be displayed together with the web page related to the search, that is, the screen for displaying the search result. Can be raised.
(5)バナー広告を特定する符号と1以上の言葉とを関連づけて記録する広告関連語記録手段と、前記クエリと1以上の言葉とを関連づけて記録するクエリ関連語記録手段と、前記クエリ関連語記録手段により前記入力されたクエリと関連づけて記録されている言葉が、前記広告関連語記録手段によりバナー広告を特定する符号と関連づけて記録されている言葉と一致するか否かを判定する判定手段と、前記判定手段による判定結果に応じ、前記符号により特定されるバナー広告を前記クエリを入力して行われた検索に係るWebページに表示するためにユーザの使用する端末に送信するバナー広告送信手段とをさらに備えることを特徴とする(1)から(3)のいずれかに記載のWebページ検索サーバ。 (5) Advertising-related word recording means for recording a code specifying a banner advertisement in association with one or more words, query-related word recording means for recording the query in association with one or more words, and the query-related Determination of whether or not the words recorded in association with the input query by the word recording means match the words recorded in association with the code specifying the banner advertisement by the advertisement related word recording means And a banner advertisement transmitted to the terminal used by the user for displaying the banner advertisement specified by the code on the Web page related to the search performed by inputting the query according to the determination result by the determination means The Web page search server according to any one of (1) to (3), further comprising a transmission unit.
本発明のこのような構成によれば、検索のために入力したクエリに関連する言葉に基づいて、掲載すべきバナー広告を決定することができるので、クエリに一致しなくても、クエリに関連する概念の言葉に基づいて柔軟にバナー広告の決定を行うことができる。したがって、言葉の用法が時代とともに変化していくような場合にも、柔軟に対応することができる。 According to such a configuration of the present invention, it is possible to determine a banner advertisement to be posted based on a word related to a query input for a search. The banner advertisement can be determined flexibly based on the concept words. Therefore, even when the usage of words changes with the times, it is possible to respond flexibly.
(6)クエリを入力してWebページの検索を行うWebページ検索システムにおいて、コンピュータが、前記検索の実行後に提示された複数のWebページの候補のうちユーザにより選択されたWebページに係る情報であって、該選択のためにユーザの使用する端末の画面に表示されたものに含まれる単語を抽出する単語抽出ステップと、コンピュータが、前記検索を行うために入力されたクエリと前記抽出された単語との相関度を記録する相関度記録ステップと、クエリが入力されたとき、コンピュータが、前記記録された相関度に基づき、推薦クエリを抽出する推薦クエリ抽出ステップと、前記抽出された推薦クエリをユーザの使用する端末に送信する推薦クエリ送信ステップとを含むクエリ推薦方法。 (6) In a Web page search system that searches a Web page by inputting a query, information related to the Web page selected by the user from among a plurality of Web page candidates presented after execution of the search. A word extraction step for extracting words included in the terminal displayed on the terminal screen used by the user for the selection, a query input by the computer for performing the search, and the extracted A correlation degree recording step for recording a degree of correlation with a word; a recommendation query extracting step for extracting a recommendation query based on the recorded degree of correlation when a query is input; and the extracted recommendation query A query recommendation method including a recommendation query transmission step of transmitting a message to a terminal used by a user.
本発明のこのような構成によれば、(1)に記載の発明をコンピュータを用いて実現するので、(1)と同様の効果を奏することができる。 According to such a configuration of the present invention, since the invention described in (1) is realized using a computer, the same effects as in (1) can be achieved.
この発明によれば、情報量が膨大でノイズも多く含まれるコンテンツそのものではなく、タイトル及び要約文というユーザ端末の画面に表示された情報に基づいて推薦クエリを抽出するため、システムの計算負荷を軽減することができるとともに推薦クエリの精度の向上が期待できる。その結果、検索サイトの利用率が向上し、広告の増加も期待できる。 According to the present invention, since the recommended query is extracted based on the information displayed on the screen of the user terminal such as the title and the summary sentence, not the content itself containing a large amount of information and a lot of noise, the calculation load of the system is reduced. It can be reduced and the accuracy of the recommendation query can be improved. As a result, the utilization rate of search sites can be improved and an increase in advertisements can be expected.
以下、本発明を実施するための最良の形態について図を参照しながら説明する。なお、これはあくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。 Hereinafter, the best mode for carrying out the present invention will be described with reference to the drawings. This is merely an example, and the technical scope of the present invention is not limited to this.
(第1の実施形態)
[推薦クエリの表示]
現在のWebページ検索システムでは、クエリを入力して検索ボタンを押すと、当該クエリに関連するWebページのリスト(以下、検索結果リスト)が端末の画面に表示される。検索結果リストには、複数のWebページへのリンクが、当該Webページのタイトルと要約文で表示されている。
(First embodiment)
[Display recommendation query]
In the current Web page search system, when a query is input and a search button is pressed, a list of Web pages related to the query (hereinafter referred to as a search result list) is displayed on the terminal screen. In the search result list, links to a plurality of Web pages are displayed as titles and summary sentences of the Web pages.
図1は、ユーザ端末の画面に表示された検索結果リストの例を示す図である。この例は、「特許」というクエリに基づいて検索実行したものである。 FIG. 1 is a diagram illustrating an example of a search result list displayed on the screen of the user terminal. In this example, a search is executed based on a query “patent”.
ここには、候補となるWebページのタイトル4と要約文5が表示されているが、これらは、それぞれ複数の単語からなる語句または文章であるので、形態素解析をすることによりそれらを構成する単語を抽出することができる。これは後述の単語抽出手段が行う。
Here,
ユーザは、検索結果リスト1に表示されたタイトル4及び要約文5から、自分の求めるWebページを選択してクリックする。
The user selects and clicks the Web page he / she wants from the
このとき、ユーザが入力したクエリと、ユーザが選択したWebページのタイトル4及び要約文5を構成する単語との間には一種の相関関係が認められる。通常、タイトル4と要約文5から形態素解析を通じて抽出した単語は複数個あるので、重複を除きこれをn個(つまりn種類)とすると、これらのn個の単語と入力されたクエリとの間で、単語相関度表を作ることができる。この単語相関度表は保存され、更新されていくが、これは後述の相関度記録手段が行う。
At this time, a kind of correlation is recognized between the query inputted by the user and the words constituting the
図2(a)は、単語相関度表の例を示す図である。この例では、「特許」というクエリが入力され、タイトルが「○○特許事務所」というWebページを選択した例に基づいて、タイトルと要約文から抽出した単語を示したものである。 FIG. 2A is a diagram illustrating an example of a word correlation degree table. This example shows a word extracted from a title and a summary sentence based on an example in which a query “patent” is inputted and a Web page whose title is “XX patent office” is selected.
ここで、数値部6は、この抽出操作が行われるきっかけとなった選択の回数を表す。したがって、1回の選択に基づく抽出処理でタイトルと要約文から同一の単語が複数回抽出された場合でも1とする。同一のコンテンツであっても、要約の仕方によってそこに含まれる単語の数が違ってくることを考慮したものである。
Here, the
同じクエリが入力されても、検索結果リスト1から選択されるWebページはユーザによって、また、状況によって必ずしも同じではないので、上記の「クエリの入力−検索実行−検索結果リストの表示−選択−単語の抽出」というプロセスが繰り返し行われると、上記の単語相関度表が次第に拡張、更新されていくことになる。
Even if the same query is input, the Web page selected from the
つまり、最初にこのプロセスが行われたときに、1つのクエリに対して、選択されたWebページのタイトルと要約文からn個の単語が抽出されたとすると、これらのn個の単語について、度数を1とした単語相関度表が作成される。この度数は、単語相関度表の数値部6に記録される。
In other words, when n words are extracted from the title and summary sentence of the selected Web page for one query when this process is performed for the first time, the frequency is calculated for these n words. A word correlation table with 1 as the number is created. This frequency is recorded in the
次に、同じクエリで再度、同一ユーザまたは他のユーザにより当該プロセスが行われた場合、選択されたWebページのタイトルと要約文から抽出された単語の数がm個だとすると、このうち先に単語相関度表に登録されている単語については度数を1加算し、それ以外の単語については、新たに単語相関度表に登録して度数を1とする。 Next, when the process is performed again by the same user or another user with the same query, if the number of words extracted from the title and summary sentence of the selected Web page is m, the word For words registered in the correlation table, the frequency is incremented by 1, and for other words, the frequency is newly registered in the word correlation table and the frequency is set to 1.
以下、同じクエリについて当該プロセスが行われる都度、同様の方法で、単語相関度表に登録される単語を増やしたり、既に登録されている単語の度数を1加算したりする。 Thereafter, each time the process is performed for the same query, the number of words registered in the word correlation table is increased or the frequency of already registered words is incremented by 1 in the same manner.
別のクエリで当該プロセスを行うときは、単語相関度表に新たな行を作って、上記と同じ操作をすればよい。つまり単語相関度表の行は、クエリごとに作成される。 To perform the process with another query, create a new line in the word correlation table and perform the same operation as above. In other words, a row in the word correlation table is created for each query.
図2(b)は、異なる複数個のクエリに対応する単語相関度表の例である。「特許」というクエリと「商標」というクエリについて単語相関度表を作成したものである。 FIG. 2B is an example of a word correlation table corresponding to different queries. A word correlation table is created for the query “patent” and the query “trademark”.
このようにしていくことにより、クエリとそのクエリに関連して選択されるWebページのタイトル及び要約文に含まれる単語(構成単語)との相関度を知ることができる。 By doing in this way, it is possible to know the degree of correlation between the query and the title (composition word) included in the title and summary sentence of the Web page selected in relation to the query.
そこで、あるクエリが入力されたとき、単語相関度表から、そのクエリと相関度が強い単語を、相関度が強い順に複数個選び出し、それを推薦クエリとして表示することとする。但し、クエリと同一の単語は対象から外す。この選び出しと表示は、後述の推薦クエリ抽出手段及び推薦クエリ送信手段が行う。 Therefore, when a certain query is input, a plurality of words having a strong correlation with the query are selected from the word correlation table in the descending order of the correlation and are displayed as recommended queries. However, the same words as the query are excluded. The selection and display are performed by a recommended query extraction unit and a recommended query transmission unit described later.
例えば、「特許」というクエリに対して度数が高い順に、「出願」、「権利」、「発明」であるとき、第1の推薦クエリとして「特許&出願」、第2の推薦クエリとして「特許&権利」、第3の推薦クエリとして「特許&発明」を表示する。これは、「特許」というクエリからスタートして選択されたWebページのタイトル及び要約文に「出願」、「権利」、「発明」の単語が含まれていたことが多いという実績に基づいて、クエリを絞り込むための情報をユーザに提供するものである。多くの検索エンジンでは、スペースが「&」を意味するので、その場合は「&」の代わりにスペースを入れてもよい。 For example, when “application”, “right”, and “invention” are in descending order with respect to the query “patent”, “patent & application” as the first recommendation query and “patent” as the second recommendation query & "Right" and "patent & invention" as the third recommendation query. This is based on the track record that the words “application”, “right”, and “invention” were often included in the titles and abstracts of web pages selected starting from the query “patent”. The information for narrowing down the query is provided to the user. In many search engines, a space means “&”. In that case, a space may be inserted instead of “&”.
図3は、推薦クエリを表示した例を示す図である。「特許」というクエリが入力されたとき、推薦クエリ7として「特許&出願」、「特許&権利」、「特許&発明」が表示されている。
FIG. 3 is a diagram illustrating an example in which a recommendation query is displayed. When the query “patent” is input, “patent & application”, “patent & right”, and “patent & invention” are displayed as the
推薦クエリを表示する仕組みは、現在行われているどのような方法によってもよいが、例えば、クエリ入力欄2にクエリが入力されたイベントをきっかけとして、Ajax等の手法によりブラウザからサーバに対して入力されたクエリを通知し、サーバが推薦クエリを返すことにより行うことができる。
The mechanism for displaying the recommended query may be any method currently used. For example, the event that the query is input in the
このようにすれば、最初は「特許」だけしか思いつかなかったユーザが、自分の所望するWebページを見つけるために、さらに絞り込んだクエリを見つけることが容易となる。 In this way, it becomes easy for a user who has only thought of “patent” at first to find a more narrow query in order to find his / her desired Web page.
次に、ユーザは推薦クエリに従い、例えば、「特許&出願」を入力し検索を行うと、やはり検索結果リストが表示される。 Next, according to the recommendation query, for example, when the user inputs “patent & application” and performs a search, a search result list is also displayed.
図4は、ユーザ端末の画面に表示された検索結果リストの例を示す図である。この例は、「特許&出願」というクエリに基づいて検索実行したものである。 FIG. 4 is a diagram illustrating an example of a search result list displayed on the screen of the user terminal. In this example, a search is executed based on the query “patent & application”.
ここで、再び選択が行われると、選択されたWebページのタイトル4と要約文5から抽出された単語と、「特許&出願」との間で2クエリ用の単語相関度表を作ることができる。
Here, when the selection is performed again, a word correlation degree table for two queries may be created between the word extracted from the
この場合、前述の単語相関度表と異なる点は、行が2つのクエリによって特定されるということである。この場合は、「特許」と「出願」である。アンド条件であるので順番は問わない。 In this case, the difference from the above-described word correlation table is that a row is specified by two queries. In this case, “patent” and “application”. Since it is an AND condition, the order does not matter.
図5は、2クエリ用の単語相関度表の例を示す図である。 FIG. 5 is a diagram illustrating an example of a word correlation table for two queries.
ここでは、「特許」と「出願」がアンド条件でクエリとして入力されたときに、検索結果リストから選択されたWebページのタイトルと要約文に含まれる単語と、「特許」及び「出願」との相関度を示すものである。 Here, when “patent” and “application” are input as queries under AND conditions, the title of the Web page selected from the search result list and the words included in the summary sentence, “patent” and “application” It shows the degree of correlation.
その結果、度数の高いものに基づいて、上記と同様に推薦クエリを作成することができる。例えば、度数が「手続」、「書類」、「仕方」の順に高いとすると、第1の推薦クエリとして「特許&出願&手続」、第2の推薦クエリとして「特許&出願&書類」、第3の推薦クエリとして「特許&出願&仕方」を表示する。以下、この手続を繰り返すと、ユーザが最初に入力したクエリから出発して、ユーザが所望するWebページに到達するために、次第にクエリを絞り込んでいくことができる。
As a result, a recommendation query can be created in the same manner as described above based on a high frequency. For example, if the frequency is “procedure”, “document”, “how” in order, “patent & application & procedure” as the first recommendation query, “patent & application & documents” as the second recommendation query, “Patent & application & method” is displayed as the
図6は、推薦クエリを表示した例を示す図である。「特許&出願」というクエリが入力されたとき、推薦クエリ7として「特許&出願&手続」、「特許&出願&書類」、「特許&出願&仕方」が表示されている。
FIG. 6 is a diagram illustrating an example in which a recommendation query is displayed. When the query “patent & application” is input, “patent & application & procedure”, “patent & application & document”, and “patent & application & method” are displayed as the
この方法によれば、過去に入力されたクエリと、そのとき選択されたWebページのタイトル及び要約文に含まれる単語に基づいて、両者の相関度を求めることができるので、Webページのコンテンツそのものに含まれる単語に基づく場合と比較して、ノイズの少ない相関度を求めることができる。コンテンツにはいろいろな単語が含まれるのが普通であり、必ずしもユーザの入力したクエリとの相関度が高くない単語も含まると考えられるからである。 According to this method, the correlation between the two can be obtained based on the query input in the past and the word included in the title and summary sentence of the Web page selected at that time. The degree of correlation with less noise can be obtained as compared with the case based on the words included in. This is because various words are usually included in the content, and it is considered that the word does not necessarily have a high degree of correlation with the query input by the user.
一方、タイトルと要約文はコンテンツに比べ字数も少ないうえ、ユーザが直接、選択の判断の基準として用いた情報であるので、ノイズが小さいと考えられる。 On the other hand, since the title and summary text have fewer characters than the content and are information directly used by the user as a criterion for selection, it is considered that noise is small.
また、形態素解析を行う上でも、また、単語相関度表を作成し検索する上でも、含まれる単語の数が少ない分、コンピュータ処理の負荷が少なくて済むというメリットがある。 In addition, there is an advantage that the load of computer processing can be reduced as much as the number of included words is small both in performing morphological analysis and in creating and retrieving a word correlation table.
なお、上記の例では、すべてのユーザによるクエリの入力に基づいて単語相関度表を作成したが、ユーザ毎に単語相関度表を作成するようにしてもよい。前者によれば、一般ユーザの検索結果を反映したクエリ推薦が可能となるが、後者によれば、各ユーザについてパーソナライズされたクエリ推薦を行うことができる。ユーザ毎に単語相関度表を作成する場合は、単語相関度表をユーザIDにより識別して作成すればよい。 In the above example, the word correlation table is created based on the input of queries by all users, but a word correlation table may be created for each user. According to the former, query recommendation reflecting the search results of general users is possible, but according to the latter, personalized query recommendation can be performed for each user. When a word correlation table is created for each user, the word correlation table may be created by identifying the user correlation ID.
また、推薦クエリの表示にとどまらず、自動的に検索を実行するようにしてもよい。これはユーザによる1回の検索指示により起動して、2回以上の検索を行うことを意味する。その結果、最初の検索だけでは到達できなかったWeb文書に到達することが可能となる。 Further, the search may be automatically executed in addition to the display of the recommended query. This means that the search is performed once or more by the user, and two or more searches are performed. As a result, it is possible to reach a Web document that could not be reached only by the first search.
[広告の表示]
次に、クエリ検索時に、クエリに関連する広告を表示することができる。表示すべき広告はバナー広告であり、ユーザがそれをクリックすると所定の広告用のコンテンツが表示される。
[Display advertisement]
Then, during query search, advertisements related to the query can be displayed. The advertisement to be displayed is a banner advertisement, and when the user clicks on it, a predetermined advertisement content is displayed.
図7は、広告の送信に係る概略図である。クエリがブラウザからサーバに送信されて、サーバによる広告の選択後、広告が挿入されたWebページが送信されるまでの流れを示している。サーバは、Webページを表示する際、広告DBに記録された広告プールから所定のルールに従い、表示すべきバナー広告を選択する。選択は、次の2段階の手続で行うことができる。 FIG. 7 is a schematic diagram related to transmission of advertisement. The flow from when the query is transmitted from the browser to the server until the Web page in which the advertisement is inserted is transmitted after the server selects the advertisement is shown. When displaying the Web page, the server selects a banner advertisement to be displayed according to a predetermined rule from the advertisement pool recorded in the advertisement DB. The selection can be made in the following two steps.
選択手続の説明をする前に、まず、選択手続において使用するテーブルについて説明する。 Before describing the selection procedure, first, a table used in the selection procedure will be described.
図8は、広告と当該広告に関連する関連語との関係を示す広告関連語テーブルである。これは、後述の広告関連語記録手段により記録されている。関連語とは、入力されたクエリが当該関連語のいずれかと一致する場合、当該広告を表示するというものである。広告は広告IDで識別され、当該広告を表示する際の優先度の判断に用いるための優先度指標(契約額)が広告IDに関連づけて保有されている。ここでは、優先度指標として広告の契約額を用いているが、これに限るものではない。関連語欄には、その広告に関連する関連語が保有されている。ここで、1は関連語であること、0は関連語でないことを表している。この関連語は形態素解析を用いて広告コンテンツから抽出してもよいが、広告主との契約時に広告主が指定するようにしてもよい。 FIG. 8 is an advertisement related word table showing a relationship between an advertisement and related words related to the advertisement. This is recorded by the advertisement related word recording means described later. The related term is to display the advertisement when the input query matches any of the related terms. The advertisement is identified by the advertisement ID, and a priority index (contract amount) for use in determining the priority when displaying the advertisement is held in association with the advertisement ID. Here, the contract amount of the advertisement is used as the priority index, but it is not limited to this. In the related word column, related words related to the advertisement are held. Here, 1 indicates that it is a related word, and 0 indicates that it is not a related word. This related word may be extracted from the advertising content using morphological analysis, but may be specified by the advertiser when contracting with the advertiser.
このような仕組みの下において、クエリが入力され、検索結果リストを表示する際、当該クエリと同じ言葉を関連語に持つ広告IDを抽出する。もし、クエリが「特許&採用」のように、複数個の単語を含むときは、これらの複数個の単語をともに関連語に持つ広告IDを抽出する。これが第1段階の手続である。図8の例によれば、「特許」と「採用」がいずれも関連語に持つ広告IDはA001とB001であるので、これらが抽出される。 Under such a mechanism, when a query is input and a search result list is displayed, an advertisement ID having the same word as the query as a related word is extracted. If the query includes a plurality of words such as “patent & recruitment”, an advertisement ID having the plurality of words as related words is extracted. This is the first stage procedure. According to the example of FIG. 8, the advertisement IDs that both “patent” and “adopted” have as related words are A001 and B001, so these are extracted.
なお、クエリを1つの単語として広告関連語テーブルを調べたが、クエリを複数の単語に分解して、それらの各単語を関連語に持つ広告IDを抽出するようにしてもよい。この単語の分解は、形態素解析を用いて行うことができる。例えば、「自動車販売会」のようなクエリが入力されたとき、「自動車」と「販売会」の単語に分解できるので、「自動車」を関連語に持つ広告IDが抽出可能になる。 Although the advertisement related word table is examined with the query as one word, the query may be decomposed into a plurality of words and an advertisement ID having each of those words as a related word may be extracted. This word decomposition can be performed using morphological analysis. For example, when a query such as “car sales association” is input, it can be broken down into the words “car” and “sales party”, so that an advertisement ID having “automobile” as a related word can be extracted.
このように、上記の第1段階の手続で複数個の広告IDが抽出された場合は、第2段階の手続に進む。これは抽出された広告IDに係る優先度指標に基づいて判断する。例えば、A001とB001の2つの広告IDが抽出された場合、前者の契約額が400万円であり、後者の契約額が100万円であるので、4:1の比率で表示回数を振り分ける。 As described above, when a plurality of advertisement IDs are extracted in the first stage procedure, the process proceeds to the second stage procedure. This is determined based on the priority index related to the extracted advertisement ID. For example, when two advertisement IDs A001 and B001 are extracted, the contract amount of the former is 4 million yen and the contract amount of the latter is 1 million yen, so the number of display times is distributed at a ratio of 4: 1.
この場合、0から1までの乱数を発生させ、乱数が0.8以下の場合は契約額がA001の広告ID、乱数が0.8超の場合はB001の広告IDを選択するようにすればよい。抽出された広告IDが3個以上ある場合でも、乱数を用いれば、任意の比率で選択することができる。 In this case, if a random number from 0 to 1 is generated and the random number is 0.8 or less, the contract ID is A001 advertisement ID, and if the random number is greater than 0.8, the B001 advertisement ID is selected. Good. Even when there are three or more extracted advertisement IDs, selection can be made at an arbitrary ratio by using random numbers.
もし、第1段階の手続で抽出された広告IDが1つしかない場合はその広告IDを選択すればよく、第2段階の手続を行う必要はない。このようにして選択された広告IDによって特定されるバナー広告を検索結果リストの出力時に、当該ページに挿入して表示する。広告関連語テーブルには、バナー広告を表示する場所を示すポジション、当該バナー広告に対応づけるリンク、及び当該バナー広告の表示内容が保有されているので、Webページへの挿入は、これらに基づいて行えばよい。このバナー広告の選択とWebページへの表示は、後述の判定手段とバナー広告送信手段が行う。 If there is only one advertisement ID extracted in the first stage procedure, it is sufficient to select the advertisement ID, and there is no need to perform the second stage procedure. The banner advertisement specified by the advertisement ID thus selected is inserted into the page and displayed when the search result list is output. The advertisement-related word table holds the position indicating the location where the banner advertisement is displayed, the link associated with the banner advertisement, and the display content of the banner advertisement. Therefore, insertion into the web page is based on these Just do it. The selection of the banner advertisement and the display on the Web page are performed by a determination unit and a banner advertisement transmission unit described later.
図9は、検索結果リストとともにバナー広告8を表示した例を示す図である。
FIG. 9 is a diagram illustrating an example in which the
[Webページ検索システムの全体構成図]
図10は、Webページ検索システムの全体構成を示す図である。上記で説明した処理を全体構成図における各手段と対応付けて説明する。
[Overall configuration of Web page search system]
FIG. 10 is a diagram showing the overall configuration of the Web page search system. The processing described above will be described in association with each means in the overall configuration diagram.
Webページ検索サーバ10とユーザ端末30がインターネット(図示せず)を介して通信可能となっている。
The web
ユーザはユーザ端末30のクエリ入力手段31に対してクエリの入力を行う。クエリ入力手段31に入力されたクエリはWebページ検索サーバ10に送信され、Webページ検索サーバ10のクエリ受付手段11が送信されたクエリを受け付ける。
The user inputs a query to the query input means 31 of the
次に、ユーザはユーザ端末30の検索実行指示手段32に対し検索実行の指示の入力を行う。そうするとユーザ端末30は、その指示をWebページ検索サーバ10の検索実行手段12に伝える。検索実行手段12は、検索実行の指示を受け取ると、先に受け付けたクエリに基づいて当該クエリを含むWebページの検索を行う。そして、検索結果送信手段13が検索結果をユーザ端末30に送信する。ユーザ端末30の検索結果リスト表示手段33は、受け取った検索結果をリストにして画面に表示する。
Next, the user inputs a search execution instruction to the search
次に、ユーザはユーザ端末30の選択入力手段34に所望するWebページの選択を入力する。ユーザ端末30は、入力された選択結果をWebページ検索サーバ10の選択受付手段14に送信する。選択受付手段14で受け付けた選択結果に基づいて、2つの処理が行われる。まず第1に、選択されたWebページの情報が読み出されWebページ送信手段15によりユーザ端末30に送信される。そしてその内容は、ユーザ端末30のWebページ表示手段35により画面に表示される。
Next, the user inputs selection of a desired Web page to the
以上の処理は、従来のWebページ検索システムにおいて一般的に行われているものである。本実施形態では、もう1つの処理が起動される。 The above processing is generally performed in a conventional Web page search system. In the present embodiment, another process is activated.
単語抽出手段16が、選択されたタイトルと要約文から形態素解析により単語を抽出する。そして、相関度記録手段17によって、クエリ受付手段11で受け付けたクエリと抽出された単語の相関度が記録される。 The word extraction means 16 extracts words from the selected title and summary sentence by morphological analysis. The correlation degree recording means 17 records the degree of correlation between the query accepted by the query acceptance means 11 and the extracted word.
推薦クエリ抽出手段18は、クエリ受付手段11でクエリが受け付けられると、既に相関度記録手段17により記録されているクエリと単語との相関度に基づき、入力されたクエリと相関度の高い単語を所定個数、相関度の高い順に抽出し、推薦クエリを生成する。そして、推薦クエリ送信手段19が生成された推薦クエリをユーザ端末30に送信する。ユーザ端末30の推薦クエリ表示手段36は、推薦クエリを受け取って画面に表示する。
When the
一方、クエリが入力されて検索実行が指示されると、当該クエリに関連するバナー広告を表示するため、判定手段22が、いずれのバナー広告を表示すべきか判定を行う。この判定は、予めバナー広告を表示するための判定に用いる関連語が広告関連語記録手段20に記録されているので、これに基づいて行う。表示すべきバナー広告が決定されると当該バナー広告に係る情報がバナー広告送信手段23によりユーザ端末30に送信される。通常は、この送信は検索結果とともに行われ、ユーザ端末30のバナー広告表示手段37により、検索結果リストの表示画面にバナー広告が表示される。
On the other hand, when a query is input and execution of a search is instructed, the
[Webページ検索サーバのハードウェア構成図]
図11は、本実施形態に係るWebページ検索サーバ10のハードウェア構成を示す図である。Webページ検索サーバ10は、制御部50を構成するCPU(Central Processing Unit)51(マルチプロセッサ構成ではCPU52等複数のCPUが追加されてもよい)、バスライン40、通信I/F(I/F:インターフェイス)53、メインメモリ54、BIOS(Basic Input Output System)55、表示装置56、I/Oコントローラ57、並びにキーボード及びマウス等の入力装置58を備える。
[Hardware configuration of Web page search server]
FIG. 11 is a diagram illustrating a hardware configuration of the Web
制御部50は、Webページ検索サーバ10を統括的に制御する部分であり、ハードディスク60(後述)に記憶された各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。
The
通信I/F53は、Webページ検索サーバ10が、インターネット(図示せず)を介してユーザ端末30から各種の入力情報を受け取ったり、また画面への表示内容を送信したりする場合のネットワーク・アダプタである。通信I/F53は、モデム、ケーブル・モデム及びイーサネット(登録商標)・アダプタを含んでよい。
The communication I /
BIOS55は、Webページ検索サーバ10の起動時にCPU51が実行するブートプログラムや、Webページ検索サーバ10のハードウェアに依存するプログラム等を記録する。
The
表示装置56は、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置を含む。
The
I/Oコントローラ57には、ハードディスク60、及び半導体メモリ61等の記憶装置62を接続することができる。
A
入力装置58は、Webページ検索サーバ10の管理者による入力の受け付けを行うものである。
The
ハードディスク60は、本ハードウェアをWebページ検索サーバ10として機能させるための各種プログラム、本発明の機能を実行するプログラム及び上述したテーブルを記憶する。なお、Webページ検索サーバ10は、外部に別途設けたハードディスク(図示せず)を外部記憶装置として利用することもできる。
The
以上、Webページ検索サーバ10のハードウェア構成について主に説明したが、コンピュータに、プログラムをインストールして、そのコンピュータをWebページ検索サーバ10として動作させることにより上記で説明した機能を実現することもできる。したがって、本発明において一実施形態として説明したWebページ検索サーバ10により実現される機能は、上述の方法を当該コンピュータにより実行することによって、あるいは、上述のプログラムを当該コンピュータに導入して実行することによっても実現可能である。
Although the hardware configuration of the Web
なお、本発明でいうコンピュータとは、記憶装置、制御部等を備えた情報処理装置をいい、Webページ検索サーバ10は、記憶装置62、制御部50等を備えた情報処理装置により構成され、この情報処理装置は、本発明のコンピュータの概念に含まれる。
The computer in the present invention refers to an information processing device including a storage device, a control unit, and the like, and the Web
単語抽出手段16、推薦クエリ抽出手段18、推薦クエリ送信手段19、判定手段22及びバナー広告送信手段23には主に制御部50が、相関度記録手段17及び広告関連語記録手段20には記憶装置62が主として対応する。
The
以上、Webページ検索サーバ10のハードウェア構成について説明したが、本発明において、ユーザ端末30も同様のハードウェア構成により実現可能である。
The hardware configuration of the Web
(第2の実施形態)
第2の実施形態は、単語相関度表(図2)の持ち方が第1の実施形態とは異なる。
(Second Embodiment)
The second embodiment is different from the first embodiment in how to hold the word correlation degree table (FIG. 2).
なお、以下の説明及び図面において、前述した第1実施形態と同様の機能を果たす部分には、同一の符号を付して、重複する説明を適宜省略する。 Note that, in the following description and drawings, the same reference numerals are given to portions that perform the same functions as those in the first embodiment described above, and redundant descriptions are omitted as appropriate.
選択されたタイトルと要約文から抽出された単語と、クエリとの相関度を表示する単語相関度表において、第1の実施形態では相関度を示す数字として、抽出操作が行われるきっかけとなった選択の回数を表した。したがって、同一の単語がタイトル等から複数個抽出されてもその個数は無視され、抽出の回数のみが反映された。 In the word correlation table displaying the correlation between the selected title and the word extracted from the summary sentence and the query, the first embodiment triggered the extraction operation as a number indicating the correlation. Expressed the number of selections. Therefore, even if a plurality of identical words are extracted from a title or the like, the number is ignored and only the number of extractions is reflected.
しかし、本実施形態では、相関度を示すものとして、抽出された個数を単語相関度表(図2)の数値部6に持たせることとする。
However, in the present embodiment, the
これは、タイトルや要約文に同一の単語が複数回出てくるとそれだけそのWebページがその単語に関係が深いWebページであると考えられるからである。したがって、ユーザが選択を行うときも、その影響を受けると考えられるからである。 This is because if the same word appears multiple times in the title or summary sentence, it is considered that the Web page is a Web page closely related to the word. Therefore, it is considered that the user is affected by the selection.
また、本実施形態においては、入力されたクエリに基づいて表示すべき広告の選択方法が異なる。 In the present embodiment, the method for selecting an advertisement to be displayed is different based on the input query.
第1の実施形態では、広告の選択を行うにあたり、クエリが広告関連語テーブル(図8)に保有されている広告の関連語に一致するか否かを調べたが、本実施形態では、クエリと一致する関連語がない場合であっても、クエリに関連する語(クエリ関連語)が、広告の関連語に一致する場合は、広告の選択処理を行う。 In the first embodiment, when the advertisement is selected, it is checked whether or not the query matches the related word of the advertisement held in the advertisement related word table (FIG. 8). Even if there is no related word that matches, if the word related to the query (query related word) matches the related word of the advertisement, an advertisement selection process is performed.
図12は、クエリ関連語テーブルを示す図である。これは、後述のクエリ関連語記録手段により記録されている。この例では、「自動車」というクエリに対して「車」及び「カー」というクエリ関連語が保有されている。こうすることにより、「自動車」というクエリが入力されたとき、「自動車」を関連語として保有していない広告であっても「車」または「カー」を関連語として保有していれば選択されることになる。 FIG. 12 is a diagram illustrating a query related word table. This is recorded by the query related word recording means described later. In this example, query related words “car” and “car” are held for the query “car”. By doing this, when the query "car" is entered, even if the advertisement does not have "car" as a related word, it will be selected if it has "car" or "car" as a related word. Will be.
また、同一対象物の別表現のようなものだけでなく、例えば、「カーアクセサリー」のような、需要者の重複する商品を登録しておくようにしてもよい。 Further, not only a different expression of the same object, but also, for example, a product overlapped by consumers such as “car accessories” may be registered.
[Webページ検索システムの全体構成図]
図13は、本実施形態におけるWebページ検索システムの全体構成を示す図である。第1の実施形態におけるWebページ検索システムの全体構成図と異なる点は、クエリ関連語記録手段21があることである。クエリ関連語記録手段21は、クエリ関連語テーブル(図12)を記録する。
[Overall configuration of Web page search system]
FIG. 13 is a diagram showing the overall configuration of the Web page search system in the present embodiment. The difference from the overall configuration diagram of the Web page search system in the first embodiment is that there is a query related word recording means 21. The query related word recording means 21 records a query related word table (FIG. 12).
クエリが入力されて検索実行されると、判定手段22は、クエリ関連語記録手段21により記録されているクエリ関連語テーブルから、当該クエリの関連語を求める。そして、当該クエリと求めた関連語のいずれかが関連語として記録されている広告の有無を、広告関連語テーブル(図8)で調べる。その後の処理は、第1の実施形態と同様であるので省略する。
When the query is input and the search is executed, the
また、相関度記録手段17は、相関度の計上の仕方が第1の実施形態と異なるが、既に説明したので省略する。 The correlation degree recording means 17 is different from the first embodiment in the way of calculating the correlation degree, but is omitted because it has already been described.
本実施形態によれば、推薦クエリを抽出する際に基準とするクエリと推薦クエリとの相関度について、第1の実施形態とは異なるバリエーションを持たせることができるため、より効果的な推薦クエリを抽出できる機会を増やすことができる。 According to the present embodiment, since the degree of correlation between the query used as a reference when extracting the recommended query and the recommended query can be different from that of the first embodiment, a more effective recommended query can be provided. Can increase opportunities to extract
また、本実施形態によれば、クエリと当該クエリから連想される言葉を用いて関連する広告を選択することができるので、ビジネスチャンスに結びつく広告機会を増やすことができる。 Moreover, according to this embodiment, since the related advertisement can be selected using the query and the words associated with the query, it is possible to increase the number of advertisement opportunities associated with the business opportunity.
(第3の実施形態)
第3の実施形態は、LSI(Latent Semantic Indexing)という数学的手法を用いて、入力されたクエリの関連語を抽出する仕組みについて説明する。
(Third embodiment)
In the third embodiment, a mechanism for extracting a related term of an input query using a mathematical method called LSI (Lentent Semantic Indexing) will be described.
クエリと、そのクエリによる検索で選択されたWeb文書のタイトルと要約文から抽出された単語(名詞句)とを集めると、クエリ集合Qと名詞句集合Yが把握される。クエリQ1による検索で抽出された名詞句w1の抽出頻度をF(w1,Q1)とすると、クエリ集合Qに対する名詞句集合Yの共起行列Mが次のように定義できる。
行列Mは、特異値分解により次のように分解できる。
Uはp行p列の直交行列、行列Σはp行m列で対角成分以外は零で、対角成分は非負の行列、Vはm行m列の直交行列Vであり、Tは転置行列を意味する。なお、U、Vの各列をそれぞれ左特異値ベクトル、右特異値ベクトルと呼ぶ。また、Σの対角成分は、降順に並べたものとする。 U is an orthogonal matrix of p rows and p columns, matrix Σ is p rows and m columns and is zero except for the diagonal component, the diagonal component is a nonnegative matrix, V is an orthogonal matrix V of m rows and m columns, and T is transposed Means a matrix. The U and V columns are referred to as a left singular value vector and a right singular value vector, respectively. In addition, the diagonal components of Σ are arranged in descending order.
これらはp、mともに通常大きな値となるので、適当なkをとって、Mに近似する行列Mkを求めることができる。なお、kはpとmのいずれよりも大きくない正の整数である。Σkは、Σから大きい方から数えてr個の特異値を残して、それ以外の特異値を零とおいたものとすると、次のようにして求めたMkはMの近似行列であり、kを選ぶことにより近似度を調整することができる。UkおよびVkの転置行列は、それぞれ最初のk個のベクトルで構成される。
次に、クエリ集合に含まれるクエリ列ベクトルをクラスタリングすると、概念的に類似したクエリの部分集合(部分クエリ集合)が得られる。クラスタリングの手法は、K平均法等の一般的な手法が利用できる。 Next, when query column vectors included in the query set are clustered, a conceptually similar query subset (partial query set) is obtained. As a clustering method, a general method such as a K-average method can be used.
そして、クラスタリング結果の部分クエリ集合に含まれる頻度の高い名詞句を、その部分クエリ集合における特徴的なトピックとして抽出することができる。 Then, a noun phrase having a high frequency included in the partial query set as a clustering result can be extracted as a characteristic topic in the partial query set.
ユーザの入力したクエリが、部分クエリ集合に含まれる名詞句、特にトピックに一致したとき、部分クエリ集合に含まれる他のクエリを関連語として把握できる。 When the query input by the user matches a noun phrase included in the partial query set, particularly a topic, it is possible to grasp other queries included in the partial query set as related terms.
こうすることで、クエリAと名詞句Bが一度も共起していなくても、AかBを含む別のベクトルを組み合わせた計算により、AとBを結び付けることができ、推薦クエリとして提示することができる。 By doing this, even if the query A and the noun phrase B have never co-occurred, A and B can be combined by calculation combining other vectors including A or B, and presented as a recommended query. be able to.
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。 As mentioned above, although embodiment of this invention was described, this invention is not restricted to embodiment mentioned above. The effects described in the embodiments of the present invention are only the most preferable effects resulting from the present invention, and the effects of the present invention are limited to those described in the embodiments of the present invention. is not.
1 検索結果リスト
2 クエリ入力欄
3 検索実行ボタン
4 タイトル
5 要約文
6 数値部(相関度)
7 推薦クエリ
8 バナー広告
10 Webページ検索サーバ
30 ユーザ端末
40 バスライン
50 制御部
62 記憶装置
1
6 Numerical part (degree of correlation)
7
Claims (6)
前記検索の実行後に提示された複数のWebページの候補のうちユーザにより選択されたWebページに係る情報であって、該選択のためにユーザの使用する端末の画面に検索結果として表示されたものに含まれる単語を抽出する単語抽出手段と、
前記検索を行うために入力された検索クエリと前記単語抽出手段により抽出された単語との相関度を記録する相関度記録手段と、
前記入力欄に検索クエリが入力されたとき、前記相関度記録手段に記録された相関度に基づき、検索クエリと相関度の強い単語を抽出する推薦クエリ抽出手段と、
前記検索クエリ及び前記推薦クエリ抽出手段で抽出された前記単語をアンド条件で指定する推薦クエリを前記入力欄においてユーザが選択可能にユーザの使用する端末に送信する推薦クエリ送信手段と、
を備えるWebページ検索サーバ。 In a web page search system that searches a web page by entering a search query in an input field ,
Information related to a Web page selected by the user among a plurality of Web page candidates presented after execution of the search, and displayed as a search result on the screen of the terminal used by the user for the selection Word extraction means for extracting words contained in
Correlation degree recording means for recording the degree of correlation between the search query input for performing the search and the word extracted by the word extraction means;
When a search query is input in the input field, based on the correlation recorded in the correlation recording unit, a recommended query extraction unit that extracts a word having a strong correlation with the search query ;
A recommended query transmitting means for transmitting a recommended query specifying the word extracted by the search query and the recommended query extracting means by AND condition to a terminal used by the user so that the user can select in the input field ;
A web page search server comprising:
前記入力された検索クエリが、前記広告関連語記録手段によりバナー広告を特定する符号と関連づけて記録されている言葉と一致するか否かを判定する判定手段と、
前記判定手段による判定結果に応じ、前記符号により特定されるバナー広告を前記検索クエリを入力して行われた検索に係るWebページに表示するためにユーザの使用する端末に送信するバナー広告送信手段と、
をさらに備えることを特徴とする請求項1から請求項3のいずれかに記載のWebページ検索サーバ。 Advertisement-related word recording means for recording a code for identifying a banner advertisement in association with one or more words;
Determining means for determining whether or not the input search query matches a word recorded in association with a code for specifying a banner advertisement by the advertisement-related word recording means;
Banner advertisement transmitting means for transmitting a banner advertisement specified by the code to a terminal used by the user in order to display the banner advertisement specified by the code on the Web page related to the search performed by inputting the search query according to the determination result by the determining means. When,
The web page search server according to any one of claims 1 to 3, further comprising:
前記検索クエリと1以上の言葉とを関連づけて記録するクエリ関連語記録手段と、
前記クエリ関連語記録手段により前記入力された検索クエリと関連づけて記録されている言葉が、前記広告関連語記録手段によりバナー広告を特定する符号と関連づけて記録されている言葉と一致するか否かを判定する判定手段と、
前記判定手段による判定結果に応じ、前記符号により特定されるバナー広告を前記検索クエリを入力して行われた検索に係るWebページに表示するためにユーザの使用する端末に送信するバナー広告送信手段と、
をさらに備えることを特徴とする請求項1から請求項3のいずれかに記載のWebページ検索サーバ。 Advertisement-related word recording means for recording a code for identifying a banner advertisement in association with one or more words;
Query-related word recording means for recording the search query in association with one or more words;
Whether or not the words recorded in association with the input search query by the query related word recording means match the words recorded in association with a code for specifying a banner advertisement by the advertisement related word recording means Determining means for determining
Banner advertisement transmitting means for transmitting a banner advertisement specified by the code to a terminal used by the user in order to display the banner advertisement specified by the code on the Web page related to the search performed by inputting the search query according to the determination result by the determining means. When,
The web page search server according to any one of claims 1 to 3, further comprising:
コンピュータが、前記検索の実行後に提示された複数のWebページの候補のうちユーザにより選択されたWebページに係る情報であって、該選択のためにユーザの使用する端末の画面に検索結果として表示されたものに含まれる単語を抽出する単語抽出ステップと、
コンピュータが、前記検索を行うために入力された検索クエリと前記抽出された単語との相関度を記録する相関度記録ステップと、
前記入力欄に検索クエリが入力されたとき、コンピュータが、前記記録された相関度に基づき、検索クエリと相関度の強い単語を抽出する推薦クエリ抽出ステップと、
前記検索クエリ及び前記抽出された前記単語をアンド条件で指定する推薦クエリを前記入力欄においてユーザが選択可能にユーザの使用する端末に送信する推薦クエリ送信ステップと、
を含むクエリ推薦方法。 In a web page search system that searches a web page by entering a search query in an input field ,
Information related to a Web page selected by the user among a plurality of Web page candidates presented after the search is executed, and displayed as a search result on the screen of the terminal used by the user for the selection A word extraction step for extracting words contained in
A correlation recording step in which a computer records a correlation between a search query input for performing the search and the extracted word;
When a search query is input in the input field , the computer extracts a recommended query that extracts words having a strong correlation with the search query based on the recorded correlation .
A recommended query transmission step of transmitting a recommended query that specifies the search query and the extracted word in an AND condition to a terminal used by the user so that the user can select in the input field ;
Query recommendation method including
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008004844A JP4962967B2 (en) | 2008-01-11 | 2008-01-11 | Web page search server and query recommendation method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008004844A JP4962967B2 (en) | 2008-01-11 | 2008-01-11 | Web page search server and query recommendation method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009169541A JP2009169541A (en) | 2009-07-30 |
JP4962967B2 true JP4962967B2 (en) | 2012-06-27 |
Family
ID=40970660
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008004844A Active JP4962967B2 (en) | 2008-01-11 | 2008-01-11 | Web page search server and query recommendation method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4962967B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11151148B2 (en) | 2018-12-21 | 2021-10-19 | Fujifilm Business Innovation Corp. | Search apparatus and non-transitory computer readable medium storing search program |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101464897A (en) | 2009-01-12 | 2009-06-24 | 阿里巴巴集团控股有限公司 | Word matching and information query method and device |
WO2011123981A1 (en) | 2010-04-07 | 2011-10-13 | Google Inc. | Detection of boilerplate content |
JP5323004B2 (en) * | 2010-06-03 | 2013-10-23 | ヤフー株式会社 | Query suggestion apparatus and method based on phrases |
JP5480058B2 (en) * | 2010-08-03 | 2014-04-23 | ヤフー株式会社 | Advertisement matching apparatus, method and program |
CN103180849B (en) * | 2010-10-21 | 2017-12-29 | 高通公司 | Multi-data source is searched for using mobile computing device |
US20120150657A1 (en) * | 2010-12-14 | 2012-06-14 | Microsoft Corporation | Enabling Advertisers to Bid on Abstract Objects |
CN102567408B (en) | 2010-12-31 | 2014-06-04 | 阿里巴巴集团控股有限公司 | Method and device for recommending search keyword |
JP2013225226A (en) | 2012-04-23 | 2013-10-31 | Kyocera Corp | Information terminal, display control program and display control method |
JP5797232B2 (en) * | 2013-06-19 | 2015-10-21 | ヤフー株式会社 | Information processing apparatus, query control method, and query control program |
JP6168963B2 (en) | 2013-10-17 | 2017-07-26 | ヤフー株式会社 | Information search apparatus, information search method, and program |
CN103942279B (en) * | 2014-04-01 | 2018-07-10 | 百度(中国)有限公司 | Search result shows method and apparatus |
CN106708834A (en) * | 2015-08-07 | 2017-05-24 | 腾讯科技(深圳)有限公司 | Object searching method, device and server |
JP6429826B2 (en) * | 2016-04-20 | 2018-11-28 | ヤフー株式会社 | Service providing apparatus, service providing method, and service providing program |
JP7286133B2 (en) * | 2018-12-04 | 2023-06-05 | 株式会社ひらめき | Computer program, information processing device, and trademark determination method |
CN115098804B (en) * | 2022-06-24 | 2023-11-03 | 上海上班族数字科技有限公司 | Webpage search history record intelligent management system based on big data analysis |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4091146B2 (en) * | 1997-07-28 | 2008-05-28 | 株式会社ジャストシステム | Document retrieval apparatus and computer-readable recording medium recording a program for causing a computer to function as the apparatus |
JP3547073B2 (en) * | 1998-05-12 | 2004-07-28 | 日本電信電話株式会社 | Information retrieval method, apparatus and recording medium |
JP3563682B2 (en) * | 2000-09-12 | 2004-09-08 | 日本電信電話株式会社 | Next search candidate word presentation method and apparatus, and recording medium storing next search candidate word presentation program |
JP4092933B2 (en) * | 2002-03-20 | 2008-05-28 | 富士ゼロックス株式会社 | Document information retrieval apparatus and document information retrieval program |
JP2004326220A (en) * | 2003-04-22 | 2004-11-18 | Ricoh Co Ltd | Document search system, method and program, and recording medium |
JP4535765B2 (en) * | 2004-04-23 | 2010-09-01 | 富士通株式会社 | Content navigation program, content navigation method, and content navigation apparatus |
-
2008
- 2008-01-11 JP JP2008004844A patent/JP4962967B2/en active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11151148B2 (en) | 2018-12-21 | 2021-10-19 | Fujifilm Business Innovation Corp. | Search apparatus and non-transitory computer readable medium storing search program |
Also Published As
Publication number | Publication date |
---|---|
JP2009169541A (en) | 2009-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4962967B2 (en) | Web page search server and query recommendation method | |
US8566177B2 (en) | User supplied and refined tags | |
US9348872B2 (en) | Method and system for assessing relevant properties of work contexts for use by information services | |
US7516124B2 (en) | Interactive search engine | |
US7899818B2 (en) | Method and system for providing focused search results by excluding categories | |
US8504564B2 (en) | Semantic analysis of documents to rank terms | |
US7949647B2 (en) | Navigation assistance for search engines | |
CA2635783C (en) | Dynamic search box for web browser | |
AU2020221062B2 (en) | Generating and provisioning of additional content for source perspective(s) of a document | |
WO2006051297A1 (en) | System and method for formulating and refining queries on structured data | |
JP2007018285A (en) | System, method, device, and program for providing information | |
TWI417751B (en) | Information providing device, information providing method, information application program, and information recording medium | |
TWI399657B (en) | A provider, a method of providing information, a program, and an information recording medium | |
JP2012113486A (en) | Intention extraction device, method and program | |
JP6960553B2 (en) | Brand dictionary creation device, product evaluation device, brand dictionary creation method and program | |
JP5777663B2 (en) | Search support device and search support program | |
US20230359658A1 (en) | Business matching support device, business matching support method, and program | |
Panayotov | Ein visuelles Erkundungstool zur zeitlichen Analyse von Kundenbewertungen | |
WO2002069203A2 (en) | Method for identifying term importance to a sample text using reference text | |
JP2003308324A (en) | Search word processor, and device for retrieving document |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090611 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110607 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110614 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110804 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120306 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120312 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120319 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4962967 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150406 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |