JP2012141764A - Spam candidate extraction device and method therefor - Google Patents

Spam candidate extraction device and method therefor Download PDF

Info

Publication number
JP2012141764A
JP2012141764A JP2010293645A JP2010293645A JP2012141764A JP 2012141764 A JP2012141764 A JP 2012141764A JP 2010293645 A JP2010293645 A JP 2010293645A JP 2010293645 A JP2010293645 A JP 2010293645A JP 2012141764 A JP2012141764 A JP 2012141764A
Authority
JP
Japan
Prior art keywords
query
queries
spam
original
change
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010293645A
Other languages
Japanese (ja)
Other versions
JP5138025B2 (en
Inventor
Kaori Tanio
香里 谷尾
Manabu Satsusano
学 颯々野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2010293645A priority Critical patent/JP5138025B2/en
Publication of JP2012141764A publication Critical patent/JP2012141764A/en
Application granted granted Critical
Publication of JP5138025B2 publication Critical patent/JP5138025B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a device and a method that are capable of extracting a spam candidate of multi-word query.SOLUTION: A spam candidate extraction device 1 comprises: an original query extraction part 11 for extracting a multi-word query whose appearance frequency is equal to or greater than a predetermined frequency, as an original query, from a plurality of multi-word queries stored in query log storage means; a modified query generation part 12 for generating a modified query by adding a predetermined change to multiple queries constituting the original query; and a spam candidate extraction part 13 for extracting the original query as a spam candidate when a proportion of appearance frequency of the modified query to that of the original query is equal to or less than a predetermined proportion.

Description

本発明は、複数ワードクエリのうちスパムである可能性の高いものを抽出するスパム候補抽出装置及びその方法に関する。   The present invention relates to a spam candidate extraction apparatus and method for extracting a plurality of word queries that are highly likely to be spam.

近年、ネットワークを介したWWW(World Wide Web)等のドキュメントシステムにおいては、非常に多くの数のウェブページが公開されている。ユーザは、検索サイトにおいて適宜のクエリを入力し、検索結果として表示される複数の候補から検索条件に適合するウェブページのURL(Uniform Resource Locator)を選択し、その選択したURLへのリンクを辿ることで、所望のウェブページを閲覧できる。   In recent years, a very large number of web pages have been released in document systems such as WWW (World Wide Web) via a network. The user inputs an appropriate query at the search site, selects a URL (Uniform Resource Locator) of the web page that matches the search condition from a plurality of candidates displayed as search results, and follows the link to the selected URL. Thus, a desired web page can be browsed.

ところで、企業にとって、自社のウェブページが検索結果ページの上位(特に1ページ目)に挙げられるかどうかは、自社のウェブページへのアクセス数の多寡に大きく影響するため、極めて重要である。そこで、各企業は、自社のウェブページが検索結果ページの上位に挙げられるよう、種々の工夫をしている。それらの工夫の例として、ターゲットにするクエリを適切に選択すること、当該クエリに対応する適切なキーワードをタイトルやウェブページの先頭付近に持ってくること、ウェブページ内で当該クエリに対応するキーワードを適切に使用すること及びより多くの当該クエリに関連するサイトにリンクすること等の手法が広く一般的に知られている。   By the way, for a company, whether or not its own web page is listed at the top of the search result page (especially the first page) is extremely important because it greatly affects the number of accesses to the company's web page. Therefore, each company has devised various methods so that their web page is listed above the search result page. Examples of these ideas include selecting the target query appropriately, bringing the appropriate keyword corresponding to the query near the top of the title or web page, and the keyword corresponding to the query in the web page. Techniques such as properly using and linking to sites related to more queries are widely known.

しかしながら、検索結果ページ内において特定のウェブページが上位にランクされることを目的として、スパムクエリを自動的に繰り返し検索サイトに送信すること等を行う不正業者も存在している。不正業者は、特定の商品名やサービス名と特定の企業名を組み合わせたもの等を、スパムクエリとして、検索サイトに自動的に送信する。これは、一般ユーザが入力した当該特定の商品名やサービス名を含むクエリに対して、特定の企業のウェブページを、検索結果ページのより上位に表示させようとするものである。   However, there are also fraudsters that automatically and repeatedly send spam queries to a search site for the purpose of ranking a specific web page higher in the search result page. The fraudulent trader automatically transmits a combination of a specific product name or service name and a specific company name to the search site as a spam query. This is intended to display a web page of a specific company at a higher position on the search result page in response to a query including the specific product name or service name input by a general user.

一方、検索サイトを運営する運営者にとっては、上述のような不正が行われると、通常のユーザが入力したクエリに対して本来のウェブページの内容に即した適切な検索結果ページを返すことができなくなる。そのため、検索サイトの運営者は、クエリに対する各ウェブページの検索結果ページでの表示順位を決定する際に、不正業者を適切に検出し、不正業者から発信されたスパムクエリの影響を排除する必要がある。   On the other hand, for an operator who operates a search site, if the above-mentioned fraud is performed, an appropriate search result page corresponding to the content of the original web page may be returned to a query input by a normal user. become unable. Therefore, search site operators need to properly detect fraudsters and eliminate the effects of spam queries sent by fraudsters when determining the display order of each web page for a query. There is.

不正業者を検出するにあたり、スパムクエリを適切に判別することも考えられるが、自動的に送信されたスパムクエリであっても、見た目は通常のクエリと区別がつかないことも多い。また、スパムクエリではない通常のクエリを混入させるという巧妙な手口もあり、スパムクエリの判別をますます困難なものとしている。   In detecting fraudsters, it is conceivable to appropriately determine spam queries, but even spam queries that are automatically sent are often indistinguishable from regular queries. In addition, there is a clever trick of mixing regular queries that are not spam queries, making spam queries more difficult to distinguish.

特許文献1には、ブログからリンクしているウェブサイトを評価するリンク先評価手段と、ウェブサイトの評価結果を用いてブログの評価を行うブログ評価手段と、ブログの評価に基づいて当該ブログがスパムブログか否かを判定する判定手段とを備えるスパムブログ検知装置が開示されている。   Patent Document 1 discloses a link destination evaluation unit that evaluates a website linked from a blog, a blog evaluation unit that evaluates a blog using the evaluation result of the website, and a blog based on the blog evaluation. There is disclosed a spam blog detection device comprising a determination means for determining whether or not a spam blog.

特開2010−066980号公報JP 2010-066980 A

しかしながら、特許文献1の技術を含めて、クエリやウェブサイトの内容を評価する技術では、上述のように、クエリそのものの意味を解析してもクエリそのものは通常のクエリと区別がつかないスパムクエリを抽出することはできない。したがって、クエリそのものの意味解析を行うことなく、スパムクエリの候補を抽出することができる技術が求められていた。そこで、発明者らは鋭意研究を重ね、複数ワードを含むクエリについては、その変化形の統計に着目することにより、スパムクエリの候補を抽出する方法を見出し、本発明を完成するに至った。   However, with the techniques for evaluating the contents of a query or website, including the technique of Patent Document 1, as described above, the query itself is indistinguishable from a normal query even if the meaning of the query is analyzed. Cannot be extracted. Therefore, there is a need for a technique that can extract spam query candidates without performing semantic analysis of the query itself. Thus, the inventors have conducted intensive research and found a method for extracting spam query candidates by focusing on the statistics of a variation of a query including a plurality of words, and completed the present invention.

そこで、本発明では、複数ワードクエリのスパム候補を抽出することができるスパム候補抽出装置及び方法を提供することを目的とする。   Therefore, an object of the present invention is to provide a spam candidate extraction apparatus and method capable of extracting spam candidates of a multiple word query.

本発明では、以下のような解決手段を提供する。   The present invention provides the following solutions.

(1) 複数ワードクエリのうちスパムである可能性の高いものを抽出するスパム候補抽出装置であって、複数のクエリの組合せにより構成される複数ワードクエリを複数含むクエリのログが記憶されたクエリログ記憶手段と、前記クエリログ記憶手段に記憶された複数の複数ワードクエリのうち、出現頻度が所定以上である複数ワードクエリを原クエリとして抽出する原クエリ抽出手段と、前記原クエリ抽出手段が抽出した原クエリを構成する複数クエリに対して所定の変更を加えて変化形クエリを生成する変化形クエリ生成手段と、前記原クエリ抽出手段が抽出した原クエリの出現頻度に対する、前記変化形クエリ生成手段が生成した変化形クエリであって、前記クエリログ記憶手段に記憶された前記変化形クエリの出現頻度の比が所定以下である場合に、前記原クエリをスパム候補として抽出するスパム候補抽出手段とを備えるスパム候補抽出装置。   (1) A spam candidate extraction device that extracts a plurality of word queries that are highly likely to be spam, and a query log that stores a plurality of query logs including a plurality of word queries configured by a combination of a plurality of queries A storage means, a plurality of word queries stored in the query log storage means, a plurality of word queries having an occurrence frequency of a plurality of word queries having a predetermined frequency or more as a source query extraction means, and the source query extraction means A change query generation means for generating a change query by applying a predetermined change to a plurality of queries constituting the original query, and the change query generation means for the appearance frequency of the original query extracted by the original query extraction means Is generated, and the ratio of the appearance frequencies of the change queries stored in the query log storage means is predetermined. If it is lower, spam candidate extracting device and a spam candidate extraction means for extracting the original query as spam candidate.

(1)に記載の発明によれば、クエリログ記憶手段には、複数のクエリの組合せにより構成される複数ワードクエリを複数含むクエリのログが記憶され、原クエリ抽出手段は、このクエリログ記憶手段に記憶された複数の複数ワードクエリのうち、出現頻度が所定以上である複数ワードクエリを原クエリとして抽出する。そして、変化形クエリ生成手段は、原クエリ抽出手段が抽出した原クエリを構成する複数クエリに対して所定の変更を加えて変化形クエリを生成し、スパム候補抽出手段は、原クエリ抽出手段が抽出した原クエリの出現頻度に対する、変化形クエリ生成手段が生成した変化形クエリであって、クエリログ記憶手段に記憶された変化形クエリの出現頻度の比が所定以下である場合に、原クエリをスパム候補として抽出する。これにより、原クエリの意味を解析しなくても、原クエリを構成する複数クエリに対して所定の変更を加えて変化形クエリを生成し、クエリログ記憶手段に記憶されたクエリのログのうち、原クエリの出現頻度に対する変化形クエリの出現頻度の比を算出するだけで、所定の比以下の原クエリをスパム候補として抽出し、管理者に提示することができる。その結果、スパムクエリのデータベースに記憶されていない未知のスパムクエリを混入させたり、スパムクエリにスパムではない通常のクエリを混入させる等といった巧妙な手口も含め、不正業者による複数ワードクエリのスパム候補を効果的かつ効率的に抽出することの可能なスパム候補抽出装置を提供できる。   According to the invention described in (1), the query log storage unit stores a log of a query including a plurality of word queries configured by a combination of a plurality of queries, and the original query extraction unit stores the query log storage unit in the query log storage unit. Among the plurality of stored multiple word queries, a multiple word query having an appearance frequency equal to or higher than a predetermined value is extracted as an original query. Then, the modified query generation unit generates a modified query by adding a predetermined change to the plurality of queries constituting the original query extracted by the original query extraction unit, and the spam candidate extraction unit includes the original query extraction unit The change query generated by the change query generation unit with respect to the appearance frequency of the extracted original query, and the ratio of the appearance frequency of the change query stored in the query log storage unit is less than or equal to the predetermined query, Extract as spam candidates. Thereby, without analyzing the meaning of the original query, a change query is generated by making a predetermined change to a plurality of queries constituting the original query, and among the query logs stored in the query log storage unit, By simply calculating the ratio of the appearance frequency of the change query to the appearance frequency of the original query, it is possible to extract the original query below the predetermined ratio as a spam candidate and present it to the administrator. As a result, spam candidates for multi-word queries by fraudsters, including clever tricks such as mixing unknown spam queries that are not stored in the spam query database, or adding normal non-spam queries to spam queries. Can be extracted effectively and efficiently.

(2) (1)に記載のスパム候補抽出装置であって、前記所定の変更は、前記原クエリ抽出手段が抽出した原クエリを構成する複数クエリの間に所定の助詞を加える変更を含むスパム候補抽出装置。   (2) The spam candidate extracting device according to (1), wherein the predetermined change includes a change in which a predetermined particle is added between a plurality of queries constituting the original query extracted by the original query extracting unit. Candidate extraction device.

(2)に記載の発明によれば、原クエリの意味を解析しなくても、原クエリを構成する複数クエリの間に所定の助詞を加えて変化形クエリを生成し、クエリログ記憶手段に記憶されたクエリのログのうち、原クエリ抽出手段が抽出した原クエリの出現頻度に対する変化形クエリ生成手段が生成した変化形クエリの出現頻度の比を算出するだけで、所定の比以下の原クエリをスパム候補として抽出し、管理者に提示することができる。その結果、スパムクエリのデータベースに記憶されていない未知のスパムクエリを混入させたり、スパムクエリにスパムではない通常のクエリを混入させる等といった巧妙な手口も含め、不正業者による複数ワードクエリのスパム候補を効果的かつ効率的に抽出することの可能なスパム候補抽出装置を提供できる。   According to the invention described in (2), even if the meaning of the original query is not analyzed, a change query is generated by adding a predetermined particle between a plurality of queries constituting the original query, and stored in the query log storage unit. The query of the original query that is less than or equal to the predetermined ratio can be obtained by simply calculating the ratio of the appearance frequency of the modified query generated by the modified query generation means to the appearance frequency of the original query extracted by the original query extracting means. Can be extracted as spam candidates and presented to the administrator. As a result, spam candidates for multi-word queries by fraudsters, including clever tricks such as mixing unknown spam queries that are not stored in the spam query database, or adding normal non-spam queries to spam queries. Can be extracted effectively and efficiently.

(3) (1)又は(2)に記載のスパム候補抽出装置であって、前記所定の変更は、前記原クエリ抽出手段が抽出した原クエリを構成する複数クエリの順序を変更する変更を含むスパム候補抽出装置。   (3) The spam candidate extraction device according to (1) or (2), wherein the predetermined change includes a change for changing an order of a plurality of queries constituting the original query extracted by the original query extraction unit. Spam candidate extraction device.

(3)に記載の発明によれば、原クエリの意味を解析しなくても、原クエリを構成する複数クエリの順序を変更して変化形クエリを生成し、クエリログ記憶手段に記憶されたクエリのログのうち、原クエリ抽出手段が抽出した原クエリの出現頻度に対する変化形クエリ生成手段が生成した変化形クエリの出現頻度の比を算出するだけで、所定の比以下の原クエリをスパム候補として抽出し、管理者に提示することができる。その結果、スパムクエリのデータベースに記憶されていない未知のスパムクエリを混入させたり、スパムクエリにスパムではない通常のクエリを混入させる等といった巧妙な手口も含め、不正業者による複数ワードクエリのスパム候補を効果的かつ効率的に抽出することの可能なスパム候補抽出装置を提供できる。   According to the invention described in (3), the query stored in the query log storage unit can be generated by changing the order of a plurality of queries constituting the original query without analyzing the meaning of the original query. Of these logs, just calculate the ratio of the appearance frequency of the change query generated by the change query generation means to the appearance frequency of the original query extracted by the original query extraction means, and the original query below the predetermined ratio can be selected as a spam candidate. Can be extracted and presented to the administrator. As a result, spam candidates for multi-word queries by fraudsters, including clever tricks such as mixing unknown spam queries that are not stored in the spam query database, or adding normal non-spam queries to spam queries. Can be extracted effectively and efficiently.

(4) (1)から(3)のいずれかに記載のスパム候補抽出装置であって、前記所定の変更は、前記原クエリ抽出手段が抽出した原クエリを構成する複数クエリを結合する変更を含むスパム候補抽出装置。   (4) The spam candidate extracting device according to any one of (1) to (3), wherein the predetermined change is a change that combines a plurality of queries constituting the original query extracted by the original query extraction unit. Including spam candidate extraction device.

(4)に記載の発明によれば、原クエリの意味を解析しなくても、原クエリを構成する複数クエリを結合して変化形クエリを生成し、クエリログ記憶手段に記憶されたクエリのログのうち、原クエリ抽出手段が抽出した原クエリの出現頻度に対する変化形クエリ生成手段が生成した変化形クエリの出現頻度の比を算出するだけで、所定の比以下の原クエリをスパム候補として抽出し、管理者に提示することができる。その結果、スパムクエリのデータベースに記憶されていない未知のスパムクエリを混入させたり、スパムクエリにスパムではない通常のクエリを混入させる等といった巧妙な手口も含め、不正業者による複数ワードクエリのスパム候補を効果的かつ効率的に抽出することの可能なスパム候補抽出装置を提供できる。   According to the invention described in (4), a query log stored in the query log storage unit is generated by combining a plurality of queries constituting the original query and generating a change query without analyzing the meaning of the original query. Of these, by simply calculating the ratio of the appearance frequency of the change query generated by the change query generation means to the appearance frequency of the original query extracted by the original query extraction means, the original queries below the predetermined ratio are extracted as spam candidates. And can be presented to the administrator. As a result, spam candidates for multi-word queries by fraudsters, including clever tricks such as mixing unknown spam queries that are not stored in the spam query database, or adding normal non-spam queries to spam queries. Can be extracted effectively and efficiently.

(5) (1)から(4)のいずれかに記載のスパム候補抽出装置であって、前記所定の変更は、前記原クエリ抽出手段が抽出した原クエリを構成する複数クエリの順序を変更して結合する変更を含むスパム候補抽出装置。   (5) The spam candidate extraction device according to any one of (1) to (4), wherein the predetermined change is performed by changing an order of a plurality of queries constituting the original query extracted by the original query extraction unit. Spam candidate extraction device that includes changes to be combined.

(5)に記載の発明によれば、原クエリの意味を解析しなくても、原クエリを構成する複数クエリの順序を変更して結合することで変化形クエリを生成し、クエリログ記憶手段に記憶されたクエリのログのうち、原クエリ抽出手段が抽出した原クエリの出現頻度に対する変化形クエリ生成手段が生成した変化形クエリの出現頻度の比を算出するだけで、所定の比以下の原クエリをスパム候補として抽出し、管理者に提示することができる。その結果、スパムクエリのデータベースに記憶されていない未知のスパムクエリを混入させたり、スパムクエリにスパムではない通常のクエリを混入させる等といった巧妙な手口も含め、不正業者による複数ワードクエリのスパム候補を効果的かつ効率的に抽出することの可能なスパム候補抽出装置を提供できる。   According to the invention described in (5), without changing the meaning of the original query, a change query is generated by changing the order of a plurality of queries constituting the original query and combining them, and the query log storage means Of the stored query logs, it is only necessary to calculate the ratio of the appearance frequency of the change query generated by the change query generation means to the appearance frequency of the original query extracted by the original query extraction means. Queries can be extracted as spam candidates and presented to the administrator. As a result, spam candidates for multi-word queries by fraudsters, including clever tricks such as mixing unknown spam queries that are not stored in the spam query database, or adding normal non-spam queries to spam queries. Can be extracted effectively and efficiently.

(6) 制御手段及び記憶手段を備えるコンピュータが複数ワードクエリのうちスパムである可能性の高いものを抽出するスパム候補抽出方法であって、前記記憶手段には、複数のクエリの組合せにより構成される複数ワードクエリを複数含むクエリのログが記憶されたクエリログ記憶手段が設けられ、前記制御手段は、前記クエリログ記憶手段に記憶された複数の複数ワードクエリのうち、出現頻度が所定以上である複数ワードクエリを原クエリとして抽出する原クエリ抽出工程と、前記原クエリ抽出工程で抽出した原クエリを構成する複数クエリに対して所定の変更を加えて変化形クエリを生成する変化形クエリ生成工程と、前記原クエリ抽出工程で抽出した原クエリの出現頻度に対する、前記変化形クエリ生成工程で生成した変化形クエリであって、前記クエリログ記憶手段に記憶された前記変化形クエリの出現頻度の比が所定以下である場合に、前記原クエリをスパム候補として抽出するスパム候補抽出工程とを実行する方法。   (6) A spam candidate extraction method in which a computer including a control unit and a storage unit extracts a plurality of word queries that are likely to be spam. The storage unit includes a combination of a plurality of queries. Query log storage means storing a query log including a plurality of multiple word queries is provided, and the control means is a plurality of appearance frequencies of the plurality of word queries stored in the query log storage means that are not less than a predetermined number. An original query extracting step for extracting a word query as an original query, and a modified query generating step for generating a modified query by making a predetermined change to a plurality of queries constituting the original query extracted in the original query extracting step; , The variation query generated in the variation query generation step with respect to the appearance frequency of the original query extracted in the original query extraction step. A Li, how to perform a spam candidate extraction step the ratio of frequency of occurrence of the variations queries stored in the query log storage means to extract when the predetermined or less, the original query as spam candidate.

(6)に記載の発明によれば、当該方法の使用をすることにより、(1)と同様の効果が期待できる。   According to the invention described in (6), the same effect as in (1) can be expected by using the method.

本発明によれば、スパムクエリを効果的かつ効率的に抽出することの可能なスパム候補抽出装置及びその方法を提供できる。   ADVANTAGE OF THE INVENTION According to this invention, the spam candidate extraction apparatus and its method which can extract a spam query effectively and efficiently can be provided.

本発明の実施形態に係るスパム候補抽出装置1を説明するための全体構成を示す図である。It is a figure which shows the whole structure for demonstrating the spam candidate extraction apparatus 1 which concerns on embodiment of this invention. 本発明の実施形態に係るクエリログデータベース21を示す図である。It is a figure which shows the query log database 21 which concerns on embodiment of this invention. 本発明の実施形態に係るスパム候補抽出装置1のフローチャートである。It is a flowchart of the spam candidate extraction device 1 according to the embodiment of the present invention. 本発明の実施形態に係るスパム候補抽出装置1の実施例を示す図である。It is a figure which shows the Example of the spam candidate extraction apparatus 1 which concerns on embodiment of this invention.

[全体構成]
以下、本発明の実施形態について図を参照しながら説明する。
図1は、本発明の実施形態に係るスパム候補抽出装置1を説明するための全体構成を示す図である。スパム候補抽出装置1は、検索エンジン2とネットワークを介して接続され、制御部10と、記憶部20とを備える。制御部10は、スパム候補抽出装置1に係る各機能を統括的に制御する部分であり、原クエリ抽出部11、変化形クエリ生成部及びスパム候補抽出部13を備える。一方、記憶部20は、スパム候補抽出装置1として機能させるための各種プログラム(図示省略)やデータベースを記憶する部分であり、クエリログデータベース21を備える。
[overall structure]
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
FIG. 1 is a diagram showing an overall configuration for explaining a spam candidate extraction apparatus 1 according to an embodiment of the present invention. The spam candidate extraction device 1 is connected to the search engine 2 via a network, and includes a control unit 10 and a storage unit 20. The control unit 10 is a part that comprehensively controls each function related to the spam candidate extraction apparatus 1, and includes an original query extraction unit 11, a modified query generation unit, and a spam candidate extraction unit 13. On the other hand, the storage unit 20 is a part that stores various programs (not shown) and a database for functioning as the spam candidate extraction apparatus 1, and includes a query log database 21.

まず、図2を参照しながらクエリログデータベース21について説明する。端末(図示せず)を使用している端末使用ユーザは、検索エンジン2を使用して検索したい事項に係るクエリを端末から入力する。端末は、これを受け付けて、クエリを検索エンジン2に送信する。クエリログデータベース21は、端末から検索エンジン2に送信された過去のクエリが記憶されたデータベースである。クエリログデータベース21は、クエリログ記憶手段として機能し、クエリログデータベース21には、複数のクエリの組合せにより構成される複数ワードクエリを複数含むクエリのログが記憶される。また、図示は省略するが、クエリログデータベース21には、通常、上記クエリを送信した端末2のIPアドレスと、端末2からクエリを受信した日時とを関連付けた検索ログも記憶される。   First, the query log database 21 will be described with reference to FIG. A terminal user using a terminal (not shown) uses the search engine 2 to input a query related to an item to be searched from the terminal. The terminal accepts this and transmits a query to the search engine 2. The query log database 21 is a database in which past queries transmitted from the terminal to the search engine 2 are stored. The query log database 21 functions as a query log storage unit, and the query log database 21 stores a log of a query including a plurality of word queries configured by a combination of a plurality of queries. Although not shown, the query log database 21 normally also stores a search log that associates the IP address of the terminal 2 that transmitted the query with the date and time when the query was received from the terminal 2.

図1に戻り、原クエリ抽出部11は原クエリ抽出手段として機能し、クエリログデータベース21に記憶された複数の複数ワードクエリのうち、出現頻度が所定以上である複数ワードクエリを原クエリとして抽出する。「出現頻度」とは、それぞれの複数ワードクエリの、クエリログデータベース21における出現頻度をいう。「所定」の値は適宜設定することができ、値が小さいほど多くの原クエリが抽出される。所定の値として、例えば、1,000件にしてもよいし、1万件にしてもよいし、10万件にしてもよい。   Returning to FIG. 1, the original query extraction unit 11 functions as an original query extraction unit, and extracts, as an original query, a plurality of word queries having an appearance frequency that is greater than or equal to a predetermined value among a plurality of word queries stored in the query log database 21. . “Appearance frequency” refers to the appearance frequency of each multiple word query in the query log database 21. The “predetermined” value can be set as appropriate. The smaller the value, the more original queries are extracted. For example, the predetermined value may be 1,000, 10,000, or 100,000.

変化形クエリ生成部12は変化形クエリ生成手段として機能し、原クエリ抽出部11が抽出した原クエリを構成する複数クエリに対して所定の変更を加えて変化形クエリを生成する。   The variation query generation unit 12 functions as a variation query generation unit, and generates a variation query by applying a predetermined change to a plurality of queries constituting the original query extracted by the original query extraction unit 11.

所定の変更の態様として、(1)原クエリ抽出部11が抽出した原クエリを構成する複数クエリの間に、「の」、「で」、「は」、「を」等の所定の助詞を加える変更、(2)原クエリ抽出部11が抽出した原クエリを構成する複数クエリの順序を変更する変更、(3)原クエリ抽出部11が抽出した原クエリを構成する複数クエリを結合する変更、及び(4)原クエリ抽出部11が抽出した原クエリを構成する複数クエリの順序を変更して結合する変更等が挙げられる。これらの変更の1種類だけを用いて変化形クエリを生成してもよいし、複数種類を用いて複数の変化形クエリを生成してもよい。   As a mode of the predetermined change, (1) a predetermined particle such as “no”, “de”, “ha”, “wa”, etc. is provided between the plurality of queries constituting the original query extracted by the original query extraction unit 11. Changes to be added, (2) Changes to change the order of a plurality of queries constituting the original query extracted by the original query extraction unit 11, (3) Changes to combine a plurality of queries constituting the original query extracted by the original query extraction unit 11 And (4) a change in which the order of a plurality of queries constituting the original query extracted by the original query extraction unit 11 is changed and combined. A change query may be generated using only one type of these changes, or a plurality of change queries may be generated using a plurality of types.

スパム候補抽出部13はスパム候補抽出手段として機能し、原クエリ抽出部11が抽出した原クエリの出現頻度に対する、変化形クエリ生成部12が生成した変化形クエリであって、クエリログデータベース21に記憶された変化形クエリの出現頻度の比が所定以下である場合に、上記原クエリをスパム候補として抽出する。所定の値は適宜設定することができる。この値が小さければ、多くの原クエリをスパム候補として抽出することができるが、実際にはスパムでないものまでスパム候補として抽出される可能性が高まる。一方、この値が大きいと、スパムであるものだけがスパム候補として抽出される可能性が高まるが、実際にはスパムであるにもかかわらず、スパム候補として抽出されない可能性が高まる。スパム候補抽出装置1の管理者は、このことを念頭に置いたうえで所定の比を設定すればよく、例えば、100分の1にすること、1,000分の1にすること、1万分の1にすること等が考えられる。   The spam candidate extraction unit 13 functions as a spam candidate extraction unit, and is a modified query generated by the modified query generation unit 12 for the appearance frequency of the original query extracted by the original query extraction unit 11, and is stored in the query log database 21. The original query is extracted as a spam candidate when the ratio of the appearance frequencies of the changed query is less than or equal to a predetermined value. The predetermined value can be set as appropriate. If this value is small, many original queries can be extracted as spam candidates, but the possibility that even non-spam is actually extracted as spam candidates increases. On the other hand, when this value is large, there is a high possibility that only spam is extracted as a spam candidate, but there is a high possibility that it is not extracted as a spam candidate even though it is actually spam. The administrator of the spam candidate extracting apparatus 1 may set a predetermined ratio with this in mind. For example, it is set to 1/100, 1 / 1,000, or 10,000 minutes. It is conceivable to set it to 1.

[本実施形態のハードウェア及びソフトウェアの構成]
本実施形態のハードウェア及びソフトウェアの構成について説明する。スパム候補抽出装置1のハードウェアには、制御装置(制御部)としてのCPUの他、記憶装置(記憶部)、通信装置(通信部)、表示装置(表示部)及び入力装置(入力部)が含まれる。記憶装置(記憶部)としては、例えば、メモリ(RAM、ROM等)、ハードディスクドライブ(HDD)又は光ディスク(CD、DVD等)ドライブ等が挙げられる。通信装置(通信部)としては、例えば、各種有線又は無線インターフェース装置等が挙げられる。表示装置(表示部)としては、例えば、液晶ディスプレイ又はプラズマディスプレイ等の各種ディスプレイが挙げられる。入力装置(入力部)としては、例えば、キーボード、ポインティング・デバイス(マウス等)又はリモコン装置等が挙げられる。
[Hardware and Software Configuration of this Embodiment]
The hardware and software configurations of this embodiment will be described. The hardware of the spam candidate extraction device 1 includes a CPU as a control device (control unit), a storage device (storage unit), a communication device (communication unit), a display device (display unit), and an input device (input unit). Is included. Examples of the storage device (storage unit) include a memory (RAM, ROM, etc.), a hard disk drive (HDD), an optical disk (CD, DVD, etc.) drive, and the like. Examples of the communication device (communication unit) include various wired or wireless interface devices. Examples of the display device (display unit) include various displays such as a liquid crystal display or a plasma display. Examples of the input device (input unit) include a keyboard, a pointing device (such as a mouse), a remote control device, and the like.

スパム候補抽出装置1のソフトウェアには、上記ハードウェアを制御するプログラムやデータが含まれる。プログラムやデータは、記憶装置(記憶部)により記憶され、制御装置(制御部)により適宜実行、参照される。また、コンピュータ・プログラムやデータは、電磁的方法により配布することも可能であり、CD−ROM等のコンピュータ可読媒体に記録して配布することも可能である。   The software of the spam candidate extraction apparatus 1 includes programs and data for controlling the hardware. Programs and data are stored in a storage device (storage unit), and are appropriately executed and referenced by a control device (control unit). Further, the computer program and data can be distributed by an electromagnetic method, or can be recorded and distributed on a computer-readable medium such as a CD-ROM.

[フローチャート]
図3は、本発明の実施形態に係るスパム候補抽出装置1のフローチャートである。
[flowchart]
FIG. 3 is a flowchart of the spam candidate extraction apparatus 1 according to the embodiment of the present invention.

ステップS1では、原クエリ抽出部11は、原クエリ抽出処理を実行する。この処理では、原クエリ抽出部11は、クエリログデータベース21に記憶された複数の複数ワードクエリのうち、出現頻度が所定以上である複数ワードクエリを原クエリとして抽出する処理を実行する。   In step S1, the original query extraction unit 11 executes an original query extraction process. In this process, the original query extraction unit 11 performs a process of extracting, as an original query, a plurality of word queries having an appearance frequency that is equal to or higher than a predetermined value among a plurality of word queries stored in the query log database 21.

ステップS2では、変化形クエリ生成部12は、変化形クエリ生成処理を実行する。この処理では、変化形クエリ生成部12は、原クエリ抽出部11が抽出した原クエリを構成する複数クエリに対して所定の変更を加えて変化形クエリを生成する処理を実行する。本実施形態では、(1)原クエリ抽出部11が抽出した原クエリを構成する複数クエリの間に、「の」、「で」、「は」、「を」等の所定の助詞を加えて第1変化形クエリを生成し、(2)原クエリ抽出部11が抽出した原クエリを構成する複数クエリの順序を変更して第2変化形クエリを生成し、(3)原クエリ抽出部11が抽出した原クエリを構成する複数クエリを結合して第3変化形クエリを生成し、(4)原クエリ抽出部11が抽出した原クエリを構成する複数クエリの順序を変更し、変更後の複数クエリを結合して第4変化形クエリを生成するものとして説明するが、本実施形態の態様に限られるものではなく、一部の変化形クエリだけを生成するものであってもよいし、他の変更態様にて変化形クエリを生成するものであってもよい。   In step S2, the change query generation unit 12 executes a change query generation process. In this process, the modified query generation unit 12 executes a process of generating a modified query by making a predetermined change to a plurality of queries constituting the original query extracted by the original query extracting unit 11. In the present embodiment, (1) a predetermined particle such as “no”, “de”, “ha”, “wa” is added between a plurality of queries constituting the original query extracted by the original query extraction unit 11. A first variation query is generated, (2) a second variation query is generated by changing the order of a plurality of queries constituting the original query extracted by the original query extraction unit 11, and (3) the original query extraction unit 11 A third change query is generated by combining a plurality of queries constituting the original query extracted by (4), and (4) the order of the plurality of queries constituting the original query extracted by the original query extraction unit 11 is changed. The description will be made assuming that the fourth variation query is generated by combining a plurality of queries. However, the present invention is not limited to the aspect of the present embodiment, and only a part of the variation query may be generated. Even if the modified query is generated with other modifications There.

ステップS3では、スパム候補抽出部13は、スパム候補抽出処理を実行する。この処理では、スパム候補抽出部13は、原クエリ抽出部11が抽出した原クエリの出現頻度に対する、変化形クエリ生成部12が生成した変化形クエリであって、クエリログデータベース21に記憶された変化形クエリの出現頻度の比が所定以下である場合に、上記原クエリをスパム候補として抽出する処理を実行する。この処理を終えると、制御部10は、一連の処理を終了する。   In step S3, the spam candidate extraction unit 13 executes a spam candidate extraction process. In this process, the spam candidate extraction unit 13 is a variation query generated by the variation query generation unit 12 with respect to the appearance frequency of the original query extracted by the original query extraction unit 11 and is stored in the query log database 21. When the ratio of the appearance frequencies of the shaped queries is equal to or less than a predetermined value, a process of extracting the original query as a spam candidate is executed. When this process ends, the control unit 10 ends the series of processes.

[本実施形態に係るスパム候補抽出装置1の実施例]
図4は、本実施形態に記載のスパム候補抽出装置1の実施例を示す。
[Example of spam candidate extraction apparatus 1 according to this embodiment]
FIG. 4 shows an example of the spam candidate extraction device 1 described in the present embodiment.

まず、クエリログデータベース21には、複数のクエリの組合せにより構成される複数ワードクエリを複数含むクエリのログが記憶される。例えば、図2の例では、「格安航空券 abcツアーズ」の組合せにより構成される複数ワードクエリや、「エステ ビューティdef」の組合せにより構成される複数ワードクエリや、「ghi土建 住宅」の組合せにより構成される複数ワードクエリや、「留学 jklエージェンシー」との組合せにより構成される複数ワードクエリを含むクエリのログが記憶される。   First, the query log database 21 stores a log of a query including a plurality of word queries configured by a combination of a plurality of queries. For example, in the example of FIG. 2, a multi-word query composed of a combination of “cheap airline ticket abc tours”, a multi-word query composed of a combination of “esthetic beauty def”, and a combination of “ghi earthen house” A log of a query including a multiple word query configured and a multiple word query configured in combination with the “study abroad jkl agency” is stored.

そして、原クエリ抽出部11は、クエリログデータベース21に記憶された複数の複数ワードクエリのうち、出現頻度が所定以上である複数ワードクエリを原クエリとして抽出する。例えば、「格安航空券 abcツアーズ」の組合せにより構成される複数ワードクエリの出現頻度が所定の件数以上である場合、原クエリ抽出部11は、「格安航空券 abcツアーズ」の組合せにより構成される複数ワードクエリを原クエリとして抽出する。図4の上方には、複数ワードクエリである「格安航空券 abcツアーズ」が原クエリであることが示されている。   Then, the original query extraction unit 11 extracts, as an original query, a plurality of word queries whose appearance frequency is greater than or equal to a predetermined value from among the plurality of word queries stored in the query log database 21. For example, when the appearance frequency of a multiple word query configured by a combination of “cheap airline ticket abc tours” is equal to or greater than a predetermined number, the original query extraction unit 11 is configured by a combination of “cheap airline ticket abc tours”. Extract multiple word queries as original queries. In the upper part of FIG. 4, it is shown that “cheap airline ticket abc tours” which is a multiple word query is an original query.

続いて、変化形クエリ生成部12は、原クエリ抽出部11が抽出した原クエリを構成する複数クエリに対して所定の変更を加えて変化形クエリを生成する。図4には、変更の態様が開示されている。
まず、(1)原クエリを構成する複数クエリ「格安航空券 abcツアーズ」の間に、「の」、「で」、「は」、「を」等の所定の助詞を加えて第1変化形クエリを生成する。この場合、「格安航空券のabcツアーズ」、「格安航空券でabcツアーズ」、「格安航空券はabcツアーズ」、「格安航空券をabcツアーズ」等が第1変化形クエリとなる。
続いて、(2)原クエリを構成する複数クエリ「格安航空券 abcツアーズ」の順序を変更して第2変化形クエリを生成する。この場合、「abcツアーズ 格安航空券」が第2変化形クエリとなる。
続いて、(3)原クエリを構成する複数クエリ「格安航空券 abcツアーズ」を結合して第3変化形クエリを生成する。この場合、複数クエリの間のスペースを除外した「格安航空券abcツアーズ」が第3変化形クエリとなる。
続いて、(4)原クエリを構成する複数クエリ「格安航空券 abcツアーズ」の順序を変更し、変更後の複数クエリを結合して第4変化形クエリを生成する。この場合、順序を入れ替えた「abcツアーズ 格安航空券」に対してさらに複数クエリの間のスペースを除外した「abcツアーズ格安航空券」が第4変化形クエリとなる。
Subsequently, the variation query generation unit 12 generates a variation query by applying a predetermined change to a plurality of queries constituting the original query extracted by the original query extraction unit 11. FIG. 4 discloses a modification.
First, (1) a first modified form by adding a predetermined particle such as “no”, “de”, “ha”, “wa” between multiple queries “cheap airline ticket abc tours” constituting the original query Generate a query. In this case, “abc tours of cheap flights”, “abc tours with cheap flights”, “abc tours of cheap flights”, “abc tours of cheap flights”, etc. are the first variation queries.
Subsequently, (2) the second variation query is generated by changing the order of the multiple queries “cheap airline ticket abc tours” constituting the original query. In this case, “abc tours cheap air ticket” is the second variation query.
Subsequently, (3) a plurality of queries “cheap airline ticket abc tours” constituting the original query are combined to generate a third variation query. In this case, “cheap airline ticket abc tours” excluding the space between the multiple queries is the third variation query.
Subsequently, (4) the order of the multiple queries “cheap airline ticket abc tours” constituting the original query is changed, and the changed multiple queries are combined to generate a fourth changed query. In this case, the “abc tours cheap air ticket” in which the space between the multiple queries is further excluded from the “abc tours cheap air ticket” whose order has been changed is the fourth variation query.

そして、スパム候補抽出部15は、クエリログデータベース21に記憶された複数の複数ワードクエリのうち、原クエリ抽出部11が抽出した原クエリの出現頻度に対する変化形クエリ生成部12が生成した変化形クエリの出現頻度の比が所定以下である場合に、原クエリをスパム候補として抽出する。なお、図4の例では、xとy1の比、xとy2の比、xとy3の比、xとy4の比及びxとy5の比をそれぞれ算出し、算出した値が全て所定以下である場合に、原クエリをスパム候補として抽出しているが、これに限るものではない。   The spam candidate extraction unit 15 then generates a modified query generated by the modified query generation unit 12 for the appearance frequency of the original query extracted by the original query extraction unit 11 among the plurality of word queries stored in the query log database 21. The original query is extracted as a spam candidate. In the example of FIG. 4, the ratio of x and y1, the ratio of x and y2, the ratio of x and y3, the ratio of x and y4, and the ratio of x and y5 are calculated, respectively, and the calculated values are all below a predetermined value. In some cases, the original query is extracted as a spam candidate, but this is not a limitation.

本実施形態に記載の発明によると、原クエリの意味を解析しなくても、原クエリを構成する複数クエリに対して所定の変更を加えて変化形クエリを生成し、クエリログデータベース21に記憶された複数の複数ワードクエリのうち、原クエリの出現頻度に対する変化形クエリの出現頻度の比を算出するだけで、所定の比以下の原クエリをスパム候補として抽出し、管理者に提示することができる。その結果、スパムクエリのデータベースに記憶されていない未知のスパムクエリを混入させたり、スパムクエリにスパムではない通常のクエリを混入させる等といった巧妙な手口も含め、不正業者による複数ワードクエリのスパム候補を効果的かつ効率的に抽出することの可能なスパム候補抽出装置1及びその方法を提供できる。   According to the invention described in the present embodiment, even if the meaning of the original query is not analyzed, a change query is generated by making a predetermined change to a plurality of queries constituting the original query, and is stored in the query log database 21. In addition, by calculating the ratio of the appearance frequency of the modified query to the appearance frequency of the original query among the multiple word queries, it is possible to extract the original query below the predetermined ratio as a spam candidate and present it to the administrator. it can. As a result, spam candidates for multi-word queries by fraudsters, including clever tricks such as mixing unknown spam queries that are not stored in the spam query database, or adding normal non-spam queries to spam queries. It is possible to provide a spam candidate extracting apparatus 1 and a method for extracting the spam candidate effectively and efficiently.

なお、本実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本実施形態に記載されたものに限定されるものではない。   In addition, the effect described in this embodiment only enumerated the most suitable effect which arises from this invention, and the effect by this invention is not limited to what was described in this embodiment.

1 スパム候補抽出装置
10 制御部
11 原クエリ抽出部
12 変化形クエリ生成部
13 スパム候補抽出部
20 記憶部
21 クエリログデータベース
DESCRIPTION OF SYMBOLS 1 Spam candidate extraction apparatus 10 Control part 11 Original query extraction part 12 Variant query production | generation part 13 Spam candidate extraction part 20 Storage part 21 Query log database

Claims (6)

複数ワードクエリのうちスパムである可能性の高いものを抽出するスパム候補抽出装置であって、
複数のクエリの組合せにより構成される複数ワードクエリを複数含むクエリのログが記憶されたクエリログ記憶手段と、
前記クエリログ記憶手段に記憶された複数の複数ワードクエリのうち、出現頻度が所定以上である複数ワードクエリを原クエリとして抽出する原クエリ抽出手段と、
前記原クエリ抽出手段が抽出した原クエリを構成する複数クエリに対して所定の変更を加えて変化形クエリを生成する変化形クエリ生成手段と、
前記原クエリ抽出手段が抽出した原クエリの出現頻度に対する、前記変化形クエリ生成手段が生成した変化形クエリであって、前記クエリログ記憶手段に記憶された前記変化形クエリの出現頻度の比が所定以下である場合に、前記原クエリをスパム候補として抽出するスパム候補抽出手段とを備えるスパム候補抽出装置。
A spam candidate extraction device that extracts a plurality of word queries that are likely to be spam,
A query log storage means in which a log of a query including a plurality of word queries configured by a combination of a plurality of queries is stored;
Original query extraction means for extracting, as an original query, a plurality of word queries having an appearance frequency of a predetermined value or more among a plurality of word queries stored in the query log storage means;
Change query generation means for generating a change query by making a predetermined change to a plurality of queries constituting the original query extracted by the original query extraction means;
The change query generated by the change query generation means with respect to the appearance frequency of the original query extracted by the original query extraction means, and the ratio of the appearance frequency of the change query stored in the query log storage means is predetermined. A spam candidate extraction device comprising: spam candidate extraction means for extracting the original query as a spam candidate when:
請求項1に記載のスパム候補抽出装置であって、
前記所定の変更は、前記原クエリ抽出手段が抽出した原クエリを構成する複数クエリの間に所定の助詞を加える変更を含むスパム候補抽出装置。
The spam candidate extraction device according to claim 1,
The spam candidate extracting apparatus, wherein the predetermined change includes a change in which a predetermined particle is added between a plurality of queries constituting the original query extracted by the original query extracting unit.
請求項1又は2に記載のスパム候補抽出装置であって、
前記所定の変更は、前記原クエリ抽出手段が抽出した原クエリを構成する複数クエリの順序を変更する変更を含むスパム候補抽出装置。
The spam candidate extracting device according to claim 1 or 2,
The spam candidate extracting apparatus, wherein the predetermined change includes a change for changing an order of a plurality of queries constituting the original query extracted by the original query extracting unit.
請求項1から3のいずれかに記載のスパム候補抽出装置であって、
前記所定の変更は、前記原クエリ抽出手段が抽出した原クエリを構成する複数クエリを結合する変更を含むスパム候補抽出装置。
The spam candidate extracting device according to any one of claims 1 to 3,
The spam candidate extracting apparatus, wherein the predetermined change includes a change that combines a plurality of queries constituting the original query extracted by the original query extraction unit.
請求項1から4のいずれかに記載のスパム候補抽出装置であって、
前記所定の変更は、前記原クエリ抽出手段が抽出した原クエリを構成する複数クエリの順序を変更して結合する変更を含むスパム候補抽出装置。
The spam candidate extracting device according to any one of claims 1 to 4,
The spam candidate extracting apparatus, wherein the predetermined change includes a change in which the order of a plurality of queries constituting the original query extracted by the original query extraction unit is changed and combined.
制御手段及び記憶手段を備えるコンピュータが複数ワードクエリのうちスパムである可能性の高いものを抽出するスパム候補抽出方法であって、
前記記憶手段には、複数のクエリの組合せにより構成される複数ワードクエリを複数含むクエリのログが記憶されたクエリログ記憶手段が設けられ、
前記制御手段は、
前記クエリログ記憶手段に記憶された複数の複数ワードクエリのうち、出現頻度が所定以上である複数ワードクエリを原クエリとして抽出する原クエリ抽出工程と、
前記原クエリ抽出工程で抽出した原クエリを構成する複数クエリに対して所定の変更を加えて変化形クエリを生成する変化形クエリ生成工程と、
前記原クエリ抽出工程で抽出した原クエリの出現頻度に対する、前記変化形クエリ生成工程で生成した変化形クエリであって、前記クエリログ記憶手段に記憶された前記変化形クエリの出現頻度の比が所定以下である場合に、前記原クエリをスパム候補として抽出するスパム候補抽出工程とを実行する方法。
A spam candidate extraction method in which a computer including a control unit and a storage unit extracts a plurality of word queries that are highly likely to be spam,
The storage means is provided with a query log storage means in which a log of a query including a plurality of word queries configured by a combination of a plurality of queries is stored,
The control means includes
An original query extraction step of extracting, as an original query, a plurality of word queries having an appearance frequency of a predetermined value or more among the plurality of word queries stored in the query log storage unit;
A change query generation step of generating a change query by making a predetermined change to a plurality of queries constituting the original query extracted in the original query extraction step;
The change query generated in the change query generation step with respect to the appearance frequency of the original query extracted in the original query extraction step, wherein the ratio of the appearance frequency of the change query stored in the query log storage unit is predetermined. A spam candidate extraction step of extracting the original query as a spam candidate when:
JP2010293645A 2010-12-28 2010-12-28 Spam candidate extraction apparatus and method Active JP5138025B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010293645A JP5138025B2 (en) 2010-12-28 2010-12-28 Spam candidate extraction apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010293645A JP5138025B2 (en) 2010-12-28 2010-12-28 Spam candidate extraction apparatus and method

Publications (2)

Publication Number Publication Date
JP2012141764A true JP2012141764A (en) 2012-07-26
JP5138025B2 JP5138025B2 (en) 2013-02-06

Family

ID=46678008

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010293645A Active JP5138025B2 (en) 2010-12-28 2010-12-28 Spam candidate extraction apparatus and method

Country Status (1)

Country Link
JP (1) JP5138025B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021176085A (en) * 2018-08-29 2021-11-04 ヤフー株式会社 Brand dictionary creating apparatus, apparatus for evaluating article and so on, brand dictionary creating method, and program

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090182725A1 (en) * 2008-01-11 2009-07-16 Microsoft Corporation Determining entity popularity using search queries
US20100082694A1 (en) * 2008-09-30 2010-04-01 Yahoo! Inc. Query log mining for detecting spam-attracting queries
US20100082752A1 (en) * 2008-09-30 2010-04-01 Yahoo! Inc. Query log mining for detecting spam hosts

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090182725A1 (en) * 2008-01-11 2009-07-16 Microsoft Corporation Determining entity popularity using search queries
US20100082694A1 (en) * 2008-09-30 2010-04-01 Yahoo! Inc. Query log mining for detecting spam-attracting queries
US20100082752A1 (en) * 2008-09-30 2010-04-01 Yahoo! Inc. Query log mining for detecting spam hosts

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN7012004335; C Castillo et al.: Query-log mining for detecting spam , 20080422, pp.17-20 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021176085A (en) * 2018-08-29 2021-11-04 ヤフー株式会社 Brand dictionary creating apparatus, apparatus for evaluating article and so on, brand dictionary creating method, and program

Also Published As

Publication number Publication date
JP5138025B2 (en) 2013-02-06

Similar Documents

Publication Publication Date Title
US10140368B2 (en) Method and apparatus for generating a recommendation page
US8856545B2 (en) Security level determination of websites
CN104956362B (en) Analyze the structure of weblication
JP4848388B2 (en) How to calculate a score for a search query
US20160006760A1 (en) Detecting and preventing phishing attacks
US8898150B1 (en) Collecting image search event information
US20090182727A1 (en) System and method for generating tag cloud in user collaboration websites
WO2014000576A1 (en) Network searching method and network searching system
KR102148968B1 (en) System and method for providing context information
EP3039581A1 (en) A system and method for displaying of most relevant vertical search results
JP2013502000A (en) Method and system for web page content filtering
US20160352828A1 (en) Asynchronous and synchronous resource links
KR20160125401A (en) Inline and context aware query box
US20190386909A1 (en) Method and program product for a private performance network with geographical load simulation
US20130018912A1 (en) Method and system for searching for a web document
WO2012094965A1 (en) Method, terminal and server for presenting prompt message
JP2013012012A (en) Dialogue rule alteration device, dialogue rule alteration method, and dialogue rule alteration program
WO2015150886A1 (en) System and method for managing a web resource in a browser application
US9432401B2 (en) Providing consistent security information
US20150199357A1 (en) Selecting primary resources
CN103581321B (en) A kind of creation method of refer chains, device and safety detection method and client
JP5138025B2 (en) Spam candidate extraction apparatus and method
US20140365852A1 (en) Displaying Socially Sourced Content
US20160323399A1 (en) Method of and a system for monitoring web site consistency
US20170169024A1 (en) Searching and Accessing Software Application Functionality Using Application Connections

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121023

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121113

R150 Certificate of patent or registration of utility model

Ref document number: 5138025

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151122

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350