JP5121888B2 - Apparatus and method for determining spam IP address and apparatus and method for determining spam query - Google Patents

Apparatus and method for determining spam IP address and apparatus and method for determining spam query Download PDF

Info

Publication number
JP5121888B2
JP5121888B2 JP2010149400A JP2010149400A JP5121888B2 JP 5121888 B2 JP5121888 B2 JP 5121888B2 JP 2010149400 A JP2010149400 A JP 2010149400A JP 2010149400 A JP2010149400 A JP 2010149400A JP 5121888 B2 JP5121888 B2 JP 5121888B2
Authority
JP
Japan
Prior art keywords
address
query
extraction
extracting
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010149400A
Other languages
Japanese (ja)
Other versions
JP2012014355A (en
Inventor
圭吾 町永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2010149400A priority Critical patent/JP5121888B2/en
Publication of JP2012014355A publication Critical patent/JP2012014355A/en
Application granted granted Critical
Publication of JP5121888B2 publication Critical patent/JP5121888B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、スパムIPアドレスを判別する装置及び方法並びにスパムクエリを判別する装置及び方法に関する。   The present invention relates to an apparatus and method for determining a spam IP address, and an apparatus and method for determining a spam query.

近年、ネットワークを介したWWW(World Wide Web)等のドキュメントシステムにおいては、非常に多くの数のウェブページが公開されている。ユーザは、検索サイトにおいて適宜のクエリを入力し、検索結果として表示される複数の候補から検索条件に適合するウェブページのURL(Uniform Resource Locator)を選択し、その選択したURLへのリンクを辿ることで、所望のウェブページを閲覧できる。   In recent years, a very large number of web pages have been released in document systems such as WWW (World Wide Web) via a network. The user inputs an appropriate query at the search site, selects a URL (Uniform Resource Locator) of the web page that matches the search condition from a plurality of candidates displayed as search results, and follows the link to the selected URL. Thus, a desired web page can be browsed.

ところで、企業にとって、自社のウェブページが検索結果ページの上位(特に1ページ目)に挙げられるかどうかは、自社のウェブページへのアクセス数の多寡に大きく影響するため、極めて重要である。そこで、各企業は、自社のウェブページが検索結果ページの上位に挙げられるよう、種々の工夫をしている。それらの工夫の例として、ターゲットにするクエリを適切に選択すること、当該クエリに対応する適切なキーワードをタイトルやウェブページの先頭付近に持ってくること、ウェブページ内で当該クエリに対応するキーワードを適切に使用すること及びより多くの当該クエリに関連するサイトにリンクすること等の手法が広く一般的に知られている。   By the way, for a company, whether or not its own web page is listed at the top of the search result page (especially the first page) is extremely important because it greatly affects the number of accesses to the company's web page. Therefore, each company has devised various methods so that their web page is listed above the search result page. Examples of these ideas include selecting the target query appropriately, bringing the appropriate keyword corresponding to the query near the top of the title or web page, and the keyword corresponding to the query in the web page. Techniques such as properly using and linking to sites related to more queries are widely known.

しかしながら、検索結果ページ内において特定のウェブページが上位にランクされることを目的として、スパムクエリを自動的に繰り返し検索サイトに送信すること等を行う不正業者も存在している。不正業者は、特定の商品名やサービス名と特定の企業名を組み合わせたもの等を、スパムクエリとして、検索サイトに自動的に送信する。これは、一般ユーザが入力した当該特定の商品名やサービス名を含むクエリに対して、特定の企業のウェブページを、検索結果ページのより上位に表示させようとするものである。   However, there are also fraudsters that automatically and repeatedly send spam queries to a search site for the purpose of ranking a specific web page higher in the search result page. The fraudulent trader automatically transmits a combination of a specific product name or service name and a specific company name to the search site as a spam query. This is intended to display a web page of a specific company at a higher position on the search result page in response to a query including the specific product name or service name input by a general user.

一方、検索サイトを運営する運営者にとっては、上述のような不正が行われると、通常のユーザが入力したクエリに対して本来のウェブページの内容に即した適切な検索結果ページを返すことができなくなる。そのため、検索サイトの運営者は、クエリに対する各ウェブページの検索結果ページでの表示順位を決定する際に、不正業者を適切に検出し、不正業者から発信されたスパムクエリの影響を排除する必要がある。   On the other hand, for an operator who operates a search site, if the above-mentioned fraud is performed, an appropriate search result page corresponding to the content of the original web page may be returned to a query input by a normal user. become unable. Therefore, search site operators need to properly detect fraudsters and eliminate the effects of spam queries sent by fraudsters when determining the display order of each web page for a query. There is.

不正業者を検出するにあたり、スパムクエリを適切に判別することも考えられるが、自動的に送信されたスパムクエリであっても、見た目は通常のクエリと区別がつかないことも多い。また、スパムクエリではない通常のクエリを混入させるという巧妙な手口もあり、スパムクエリの判別をますます困難なものとしている。   In detecting fraudsters, it is conceivable to appropriately determine spam queries, but even spam queries that are automatically sent are often indistinguishable from regular queries. In addition, there is a clever trick of mixing regular queries that are not spam queries, making spam queries more difficult to distinguish.

特許文献1には、ブログからリンクしているウェブサイトを評価するリンク先評価手段と、ウェブサイトの評価結果を用いてブログの評価を行うブログ評価手段と、ブログの評価に基づいて当該ブログがスパムブログか否かを判定する判定手段とを備えるスパムブログ検知装置が開示されているが、当該スパムブログ検知装置は、上述のようなスパムクエリの判別に関する課題を解決するものではない。   Patent Document 1 discloses a link destination evaluation unit that evaluates a website linked from a blog, a blog evaluation unit that evaluates a blog using the evaluation result of the website, and a blog based on the blog evaluation. Although a spam blog detection device including a determination unit for determining whether or not a spam blog is disclosed, the spam blog detection device does not solve the above-described problem relating to the determination of a spam query.

特開2010−066980号公報JP 2010-066980 A

こうした背景から、効果的かつ効率的にスパムクエリを判別する技術が求められていた。本発明はかかる点に鑑みてなされたものであり、スパムクエリを効果的かつ効率的に判別する装置及び方法を提供することを目的とする。さらに、本発明は、スパムクエリを送信する装置のスパムIPアドレスを効果的かつ効率的に判別する装置及び方法を提供することを目的とする。   Against this background, there has been a demand for a technique for effectively and efficiently discriminating spam queries. The present invention has been made in view of such a point, and an object thereof is to provide an apparatus and method for effectively and efficiently discriminating spam queries. Furthermore, an object of the present invention is to provide an apparatus and method for effectively and efficiently determining a spam IP address of an apparatus that transmits a spam query.

本発明では、以下のような解決手段を提供する。   The present invention provides the following solutions.

(1) クエリと当該クエリを送信した端末のIPアドレスとを関連付けた検索ログが記憶される検索ログ記憶手段と、特定のIPアドレスの端末から送信されたクエリを、前記検索ログ記憶手段を参照して抽出する第1のクエリ抽出手段と、前記第1のクエリ抽出手段によって抽出されたクエリを送信した端末のIPアドレスを、前記検索ログ記憶手段を参照して抽出する第1のIPアドレス抽出手段と、前記第1のIPアドレス抽出手段又は第2のIPアドレス抽出手段によって抽出されたIPアドレスの端末から送信されたクエリを、前記検索ログ記憶手段を参照して抽出する第2のクエリ抽出手段と、前記第2のクエリ抽出手段によって抽出されたクエリを送信した端末のIPアドレスを、前記検索ログ記憶手段を参照して抽出する前記第2のIPアドレス抽出手段と、前記第2のクエリ抽出手段によるクエリの抽出と前記第2のIPアドレス抽出手段によるIPアドレスの抽出とを交互に繰り返し実行する繰り返し手段と、前記繰り返し手段によって第1の回数だけ繰り返されたときの前記IPアドレス抽出手段によって抽出されたIPアドレスの種類数の、前記繰り返し手段によって前記第1の回数よりも多い第2の回数だけ繰り返されたときの前記IPアドレス抽出手段によって抽出されたIPアドレスの種類数に対する比を求め、その比の値が所定の値以上の場合には、前記特定のIPアドレスがスパムIPアドレスであると判別するスパムIPアドレス判別手段とを備えるスパムIPアドレス判別装置。   (1) A search log storage unit that stores a search log in which a query is associated with an IP address of a terminal that has transmitted the query, and a query transmitted from a terminal having a specific IP address is referred to the search log storage unit. A first query extraction unit that extracts the IP address of the terminal that has transmitted the query extracted by the first query extraction unit with reference to the search log storage unit. Second query extraction for extracting a query transmitted from the terminal having the IP address extracted by the first IP address extracting means or the second IP address extracting means with reference to the search log storage means And the IP address of the terminal that has transmitted the query extracted by the second query extraction means with reference to the search log storage means The second IP address extracting means, the repeating means for alternately and repeatedly executing the query extraction by the second query extracting means and the IP address extraction by the second IP address extracting means, and the repeating means The IP when the number of types of IP addresses extracted by the IP address extracting means when it is repeated a first number of times is repeated a second number of times greater than the first number of times by the repeating means. Spam IP address discrimination means for obtaining a ratio to the number of types of IP addresses extracted by the address extraction means, and for determining that the specific IP address is a spam IP address when the ratio value is equal to or greater than a predetermined value A spam IP address discrimination device comprising:

(1)に記載の発明によれば、検索ログ記憶手段には、クエリと当該クエリを送信した端末のIPアドレスとを関連付けた検索ログが記憶され、第1のクエリ抽出手段は、特定のIPアドレスの端末から送信されたクエリを、検索ログ記憶手段を参照して抽出し、第1のIPアドレス抽出手段は、第1のクエリ抽出手段によって抽出されたクエリを送信した端末のIPアドレスを、検索ログ記憶手段を参照して抽出し、第2のクエリ抽出手段は、第1のIPアドレス抽出手段又は第2のIPアドレス抽出手段によって抽出されたIPアドレスの端末から送信されたクエリを、検索ログ記憶手段を参照して抽出し、第2のIPアドレス抽出手段は、第2のクエリ抽出手段によって抽出されたクエリを送信した端末のIPアドレスを、検索ログ記憶手段を参照して抽出する。そして、繰り返し手段は、第2のクエリ抽出手段によるクエリの抽出と第2のIPアドレス抽出手段によるIPアドレスの抽出とを交互に繰り返し実行し、スパムIPアドレス判別手段は、繰り返し手段によって第1の回数だけ繰り返されたときのIPアドレス抽出手段によって抽出されたIPアドレスの種類数の、繰り返し手段によって前記第1の回数よりも多い第2の回数だけ繰り返されたときのIPアドレス抽出手段によって抽出されたIPアドレスの種類数に対する比を求める。そして、その比の値が所定の値以上の場合、スパムIPアドレス判別手段は、上記特定のIPアドレスがスパムIPアドレスであると判別する。   According to the invention described in (1), the search log storage unit stores a search log that associates a query with the IP address of a terminal that has transmitted the query, and the first query extraction unit stores a specific IP address. The query transmitted from the terminal having the address is extracted with reference to the search log storage unit, and the first IP address extracting unit extracts the IP address of the terminal that has transmitted the query extracted by the first query extracting unit, The second query extracting unit searches for a query transmitted from the terminal having the IP address extracted by the first IP address extracting unit or the second IP address extracting unit. The second IP address extracting means extracts the IP address of the terminal that has transmitted the query extracted by the second query extracting means, by referring to the log storage means. To extract the reference means. Then, the repetition means repeatedly executes the query extraction by the second query extraction means and the IP address extraction by the second IP address extraction means, and the spam IP address determination means performs the first operation by the repetition means. The number of IP address types extracted by the IP address extracting means when it is repeated a number of times is extracted by the IP address extracting means when it is repeated a second number of times larger than the first number of times by the repeating means. A ratio to the number of types of IP addresses obtained is obtained. If the ratio value is equal to or greater than a predetermined value, the spam IP address determining means determines that the specific IP address is a spam IP address.

通常のIPアドレスの場合であれば、第1の回数だけ繰り返した後にスパムIPアドレス判別装置が抽出するIPアドレスの種類数と比べて、第2の回数だけ繰り返した後にスパムIPアドレス判別装置が抽出するIPアドレスの種類数は、十分増加する。これに対し、不正業者のスパムIPアドレスの場合、当該不正業者が使用し得るIPアドレスの数が限られていることから、通常のIPアドレスの場合に比べ、スパムIPアドレス判別装置が抽出するIPアドレスの種類数の増加の割合は、低くなる。このことに着目し、スパムIPアドレス判別装置は、第1の回数だけ繰り返されたときのIPアドレス抽出手段によって抽出されたIPアドレスの種類数の、第2の回数だけ繰り返されたときのIPアドレス抽出手段によって抽出されたIPアドレスの種類数に対する比が所定の値以上の場合に、そのIPアドレスがスパムIPアドレスであると判別する。   In the case of a normal IP address, the spam IP address discriminator extracts after the second number of iterations compared to the number of IP address types that the spam IP address discriminator extracts after the first number of iterations. The number of types of IP addresses to be increased sufficiently. On the other hand, in the case of a spammer's spam IP address, the number of IP addresses that can be used by the fraudulent company is limited. The rate of increase in the number of address types is low. Paying attention to this, the spam IP address discriminating apparatus determines the IP address when the number of types of IP addresses extracted by the IP address extracting means when it is repeated the first number of times is repeated the second number of times. If the ratio of the number of types of IP addresses extracted by the extracting means is a predetermined value or more, it is determined that the IP address is a spam IP address.

これにより、スパムクエリにスパムではない通常のクエリを混入させてカモフラージュするという巧妙な手口も含め、不正業者のスパムIPアドレスを効率的かつ効果的に判別できる。   This makes it possible to efficiently and effectively determine the spam IP address of the fraudster, including the clever trick of camouflaging a normal query that is not spam into the spam query.

(2) スパムIPアドレス判別装置が実行する方法であって、クエリと当該クエリを送信した端末のIPアドレスとを関連付けた検索ログが記憶された検索ログデータベースを参照して、特定のIPアドレスの端末から送信されたクエリを抽出する第1のクエリ抽出工程と、前記第1のクエリ抽出工程で抽出したクエリを送信した端末のIPアドレスを、前記検索ログデータベースを参照して抽出する第1のIPアドレス抽出工程と、前記第1のIPアドレス抽出工程又は第2のIPアドレス抽出工程で抽出したIPアドレスの端末から送信されたクエリを、前記検索ログデータベースを参照して抽出する第2のクエリ抽出工程と、前記第2のクエリ抽出工程で抽出したクエリを送信した端末のIPアドレスを、前記検索ログデータベースを参照して抽出する前記第2のIPアドレス抽出工程と、前記第2のクエリ抽出工程によるクエリの抽出と前記第2のIPアドレス抽出工程によるIPアドレスの抽出とを交互に繰り返し実行する繰り返し工程と、前記IPアドレス抽出工程を第1の回数だけ繰り返したときに前記IPアドレス抽出工程で抽出したIPアドレスの種類数の、前記IPアドレス抽出工程を前記第1の回数よりも多い第2の回数だけ繰り返したときに前記IPアドレス抽出工程で抽出したIPアドレスの種類数に対する比を求め、その比の値が所定の値以上の場合に、前記特定のIPアドレスがスパムIPアドレスであると判断するスパムIPアドレス判別工程とを含むスパムIPアドレス判別方法。   (2) A method executed by the spam IP address discriminating apparatus, which refers to a search log database storing a search log in which a query and an IP address of a terminal that has transmitted the query are associated with each other. A first query extracting step for extracting a query transmitted from a terminal, and a first query extracting the IP address of the terminal that has transmitted the query extracted in the first query extracting step with reference to the search log database An IP address extraction step and a second query for extracting a query transmitted from the terminal having the IP address extracted in the first IP address extraction step or the second IP address extraction step with reference to the search log database An IP address of a terminal that has transmitted the query extracted in the extraction step and the second query extraction step; The second IP address extraction step to be extracted by reference, a repetition step of repeatedly executing the query extraction by the second query extraction step and the IP address extraction by the second IP address extraction step alternately The number of IP address types extracted in the IP address extraction step when the IP address extraction step is repeated a first number of times, the IP address extraction step being a second number of times greater than the first number of times. Spam for determining the ratio of the number of types of IP addresses extracted in the IP address extraction step when it is repeated and determining that the specific IP address is a spam IP address when the ratio is equal to or greater than a predetermined value A spam IP address discrimination method including an IP address discrimination step.

(2)に記載の発明によれば、当該方法の使用をすることにより、(1)と同様の効果が期待できる。   According to the invention described in (2), the same effect as in (1) can be expected by using the method.

(3) クエリと当該クエリを送信した端末のIPアドレスとを関連付けた検索ログが記憶される検索ログ記憶手段と、特定のクエリを送信した端末のIPアドレスを、前記検索ログ記憶手段を参照して抽出する第1のIPアドレス抽出手段と、前記第1のIPアドレス抽出手段によって抽出されたIPアドレスの端末から送信されたクエリを、前記検索ログ記憶手段を参照して抽出する第1のクエリ抽出手段と、前記第1のクエリ抽出手段又は第2のクエリ抽出手段によって抽出されたクエリを送信した端末のIPアドレスを、前記検索ログ記憶手段を参照して抽出する第2のIPアドレス抽出手段と、前記第2のIPアドレス抽出手段によって抽出されたIPアドレスの端末から送信されたクエリを、前記検索ログ記憶手段を参照して抽出する前記第2のクエリ抽出手段と、前記第2のIPアドレス抽出手段によるIPアドレスの抽出と前記第2のクエリ抽出手段によるクエリの抽出とを交互に繰り返し実行する繰り返し手段と、前記繰り返し手段によって第1の回数だけ繰り返されたときの前記IPアドレス抽出手段によって抽出されたIPアドレスの種類数の、前記繰り返し手段によって前記第1の回数よりも多い第2の回数だけ繰り返されたときの前記IPアドレス抽出手段によって抽出されたIPアドレスの種類数に対する比を求め、その比の値が所定の値以上の場合には、前記特定のクエリがスパムクエリであると判別するスパムクエリ判別手段とを備えるスパムクエリ判別装置。   (3) A search log storage unit that stores a search log in which a query is associated with an IP address of a terminal that has transmitted the query, and an IP address of a terminal that has transmitted the specific query are referred to the search log storage unit. A first IP address extracting unit that extracts the query transmitted from the terminal having the IP address extracted by the first IP address extracting unit with reference to the search log storage unit. Extraction means and second IP address extraction means for extracting the IP address of the terminal that has transmitted the query extracted by the first query extraction means or the second query extraction means with reference to the search log storage means And a query transmitted from the terminal having the IP address extracted by the second IP address extracting means is extracted with reference to the search log storage means. The second query extracting unit, a repeating unit that alternately and repeatedly executes the extraction of the IP address by the second IP address extracting unit and the extraction of the query by the second query extracting unit, and the repeating unit The IP when the number of types of IP addresses extracted by the IP address extracting means when it is repeated a first number of times is repeated a second number of times greater than the first number of times by the repeating means. Spam query determination means for determining a ratio to the number of types of IP addresses extracted by the address extraction means and determining that the specific query is a spam query when the ratio value is equal to or greater than a predetermined value. Spam query discrimination device.

ところで、通常のクエリの場合であれば、第1の回数だけ繰り返した後に抽出されたIPアドレスの種類数と比べて、第2の回数だけ繰り返した後に抽出されたIPアドレスの種類数は、十分増加する。これに対し、不正業者のスパムIPアドレスから送信されるスパムクエリの場合、当該不正業者が使用し得るIPアドレスの数が限られていることから、通常のクエリの場合に比べ、スパムクエリ判別装置が抽出するIPアドレスの種類数の増加の割合は、低くなる。このことに着目し、スパムクエリ判別装置が抽出するIPアドレスの当該種類数の増加の割合は、低くなる。このことに着目し、スパムクエリ判別装置は、第1の回数だけ繰り返されたときのIPアドレス抽出手段によって抽出されたIPアドレスの種類数の、第2の回数だけ繰り返されたときのIPアドレス抽出手段によって抽出されたIPアドレスの種類数に対する比が所定の値以上の場合に、上記特定のクエリをスパムクエリであると判別する。   By the way, in the case of a normal query, the number of types of IP addresses extracted after repeating the second number of times is sufficiently larger than the number of types of IP addresses extracted after repeating the first number of times. To increase. On the other hand, in the case of a spam query transmitted from a spam IP address of a fraudulent trader, the number of IP addresses that can be used by the fraudulent trader is limited. The rate of increase in the number of types of IP addresses extracted by is reduced. Focusing on this, the rate of increase in the number of types of IP addresses extracted by the spam query determination device is low. Focusing on this, the spam query discriminating apparatus extracts the IP address when the number of types of IP addresses extracted by the IP address extracting means when it is repeated the first number of times is repeated the second number of times. When the ratio to the number of types of IP addresses extracted by the means is a predetermined value or more, the specific query is determined to be a spam query.

これにより、スパムクエリにスパムではない通常のクエリを混入させてカモフラージュするという巧妙な手口も含め、不正業者の装置から送信されるスパムクエリを効率的かつ効果的に判別できる。   As a result, it is possible to efficiently and effectively discriminate spam queries transmitted from fraudulent contractors' devices, including a clever technique of camouflaging ordinary queries that are not spam into spam queries.

(4) スパムクエリ判別装置が実行する方法であって、クエリと当該クエリを送信した端末のIPアドレスとを関連付けた検索ログが記憶された検索ログデータベースを参照して、特定のクエリを送信した端末のIPアドレスを抽出する第1のIPアドレス抽出工程と、前記第1のIPアドレス抽出工程で抽出したIPアドレスの端末から送信されたクエリを、前記検索ログデータベースを参照して抽出する第1のクエリ抽出工程と、前記第1のクエリ抽出工程又は第2のクエリ抽出工程によって抽出されたクエリを送信した端末のIPアドレスを、前記検索ログデータベースを参照して抽出する第2のIPアドレス抽出工程と、前記第2のIPアドレス抽出工程で抽出したIPアドレスの端末から送信されたクエリを、前記検索ログデータベースを参照して抽出する第2のクエリ抽出工程と、前記第2のIPアドレス抽出工程によるIPアドレスの抽出と前記第2のクエリ抽出工程によるクエリの抽出とを交互に繰り返し実行する繰り返し工程と、前記IPアドレス抽出工程を第1の回数だけ繰り返したときに前記IPアドレス抽出工程で抽出したIPアドレスの種類数の、前記IPアドレス抽出工程を前記第1の回数よりも多い第2の回数だけ繰り返したときに前記IPアドレス抽出工程で抽出したIPアドレスの種類数に対する比を求め、その比の値が所定の値以上の場合に、前記特定のクエリがスパムクエリであると判断するスパムクエリ判別工程とを含むスパムクエリ判別方法。   (4) A method executed by the spam query determination device, which transmits a specific query with reference to a search log database in which a search log in which the query is associated with the IP address of the terminal that transmitted the query is stored. A first IP address extracting step for extracting the IP address of the terminal, and a query transmitted from the terminal having the IP address extracted in the first IP address extracting step with reference to the search log database. Query extraction step, and second IP address extraction for extracting the IP address of the terminal that has transmitted the query extracted by the first query extraction step or the second query extraction step with reference to the search log database A query transmitted from the terminal having the IP address extracted in the step and the second IP address extracting step, and the search log data A second query extracting step for extracting with reference to a base; an iterative step for alternately and repeatedly executing extraction of an IP address by the second IP address extracting step and extraction of a query by the second query extracting step; The number of IP address types extracted in the IP address extraction step when the IP address extraction step is repeated a first number of times, the IP address extraction step being a second number of times greater than the first number of times. Spam query determination that obtains a ratio to the number of types of IP addresses extracted in the IP address extraction step when it is repeated and determines that the specific query is a spam query when the ratio value is equal to or greater than a predetermined value A spam query determination method including a process.

(4)に記載の方法によれば、当該方法の使用をすることにより、(3)と同様の効果が期待できる。   According to the method described in (4), the same effect as in (3) can be expected by using the method.

本発明によれば、スパムクエリにスパムではない通常のクエリを混入させてカモフラージュするという巧妙な手口も含め、不正業者のスパムIPアドレス及びスパムクエリを効率的かつ効果的に判別する装置及び方法を提供することができる。   According to the present invention, there is provided an apparatus and method for efficiently and effectively discriminating a spam IP address and a spam query of a fraudulent trader, including a clever technique of camouflaging a normal query that is not spam into a spam query. Can be provided.

第1実施形態に係るスパムIPアドレス判別装置1を説明するための全体構成を示す図である。It is a figure showing the whole composition for explaining spam IP address discriminating device 1 concerning a 1st embodiment. 第1実施形態に係るスパムIPアドレス判別装置1を用いたときの、IPアドレスの指定操作を行ってからスパムIPアドレスを選択するまでの概略を示す図である。It is a figure which shows the outline after performing the designation | designated operation of an IP address when selecting the spam IP address when the spam IP address discrimination device 1 which concerns on 1st Embodiment is used. 第1実施形態に係るスパムIPアドレス判別装置1のフローチャートである。It is a flowchart of spam IP address discriminating device 1 concerning a 1st embodiment. 第1実施形態に係るスパムIPアドレス判別装置1の使用例を示す図である。It is a figure which shows the usage example of the spam IP address discrimination device 1 which concerns on 1st Embodiment. 図4に続く図である。It is a figure following FIG. 図5に続く図である。It is a figure following FIG. 第2実施形態に係るスパムクエリ判別装置101を説明するための全体構成を示す図である。It is a figure which shows the whole structure for demonstrating the spam query discrimination | determination apparatus 101 which concerns on 2nd Embodiment. 第2実施形態に係るスパムクエリ判別装置101を用いたときの、クエリの指定操作を行ってからスパムクエリを選択するまでの概略を示す図である。It is a figure which shows the outline after performing the designation | designated operation of a query when using the spam query discrimination | determination apparatus 101 which concerns on 2nd Embodiment until it selects a spam query. 第2実施形態に係るスパムクエリ判別装置101のフローチャートである。It is a flowchart of the spam query discrimination | determination apparatus 101 which concerns on 2nd Embodiment. 第2実施形態に係るスパムクエリ判別装置101の使用例を示す図である。It is a figure which shows the usage example of the spam query discrimination | determination apparatus 101 which concerns on 2nd Embodiment. 図10に続く図である。It is a figure following FIG. 図11に続く図である。It is a figure following FIG. 図12に続く図である。It is a figure following FIG.

[第1実施形態]
以下、本発明の第1実施形態について図を参照しながら説明する。
[First Embodiment]
Hereinafter, a first embodiment of the present invention will be described with reference to the drawings.

[全体構成]
図1は、第1実施形態に係るスパムIPアドレス判別装置1を説明するための全体構成を示す図である。スパムIPアドレス判別装置1は、制御部10と、記憶部20とを備える。制御部10は、スパムIPアドレス判別装置1に係る各機能を統括的に制御する部分であり、第1のクエリ抽出部11、第1のIPアドレス抽出部12、第2のクエリ抽出部13、第2のIPアドレス抽出部14、繰り返し部15及びスパムIPアドレス判別部16を備える。一方、記憶部20は、スパムIPアドレス判別装置1として機能させるための各種プログラム(図示省略)やデータベースを記憶する部分であり、検索ログデータベース21を備える。
[overall structure]
FIG. 1 is a diagram showing an overall configuration for explaining a spam IP address discrimination device 1 according to the first embodiment. The spam IP address determination device 1 includes a control unit 10 and a storage unit 20. The control unit 10 is a part that comprehensively controls each function related to the spam IP address discriminating apparatus 1, and includes a first query extraction unit 11, a first IP address extraction unit 12, a second query extraction unit 13, A second IP address extracting unit 14, a repeating unit 15, and a spam IP address determining unit 16 are provided. On the other hand, the storage unit 20 stores various programs (not shown) and a database for functioning as the spam IP address determination device 1 and includes a search log database 21.

まず、検索ログデータベース21について説明する。通常、端末2を使用している端末使用ユーザは、検索エンジン(図示しない)を使用して検索したい事項に係るクエリを端末2から入力する。端末2は、これを受け付けて、検索エンジンに送信し、検索処理が実行される。検索ログデータベース21は、このような検索処理に伴って受け付けられ、送信された過去のクエリを記憶している。すなわち、検索ログデータベース21は、検索ログ記憶手段として機能し、検索ログデータベース21には、クエリと、当該クエリを送信した端末2のIPアドレスと、端末2からクエリを受信した日時とを関連付けた検索ログが記憶される。   First, the search log database 21 will be described. Normally, a terminal user who uses the terminal 2 inputs a query related to an item to be searched from the terminal 2 using a search engine (not shown). The terminal 2 receives this, transmits it to the search engine, and the search process is executed. The search log database 21 stores past queries that have been accepted and transmitted along with such search processing. That is, the search log database 21 functions as a search log storage unit, and the search log database 21 associates the query, the IP address of the terminal 2 that transmitted the query, and the date and time when the query was received from the terminal 2. A search log is stored.

第1のクエリ抽出部11は、特定のIPアドレスIPの端末2から送信されたクエリを、検索ログデータベース21を参照して抽出する。ここでの第1のクエリ抽出部11の処理を1hopとし、この1hop目の処理で第1のクエリ抽出部11が抽出したクエリは、図2のQ11、Q12、・・・Q1iに対応する。なお、第1のクエリ抽出部11は、第1のクエリ抽出手段として機能する。 The first query extraction unit 11 extracts a query transmitted from the terminal 2 with the specific IP address IP 0 with reference to the search log database 21. Here, the processing of the first query extraction unit 11 is set to 1 hop, and the query extracted by the first query extraction unit 11 in the first hop processing is represented by Q 11 , Q 12 ,... Q 1i in FIG. Correspond. The first query extraction unit 11 functions as a first query extraction unit.

第1のIPアドレス抽出部12は、第1のクエリ抽出部11によって抽出されたクエリのそれぞれについて、これらのクエリを送信した端末2のIPアドレスを、検索ログデータベース21を参照して抽出する。ここでの第1のIPアドレス抽出部12の処理を2hopとし、この2hop目の処理で第1のIPアドレス抽出部12が抽出したIPアドレスは、図2のIP21、IP22、・・・IP2jに対応する。なお、第1のIPアドレス抽出部12は、第1のIPアドレス抽出手段として機能する。また、図2の2hop目には、クエリQ11、Q12、・・・Q1iを送信した端末2のIPアドレスのうち、クエリQ12を送信した端末2のIPアドレスIP21、IP22、・・・IP2jだけが記載されているが、第1のIPアドレス抽出部12は、他のクエリを送信した端末2のIPアドレスも抽出している。 For each query extracted by the first query extraction unit 11, the first IP address extraction unit 12 extracts the IP address of the terminal 2 that has transmitted these queries with reference to the search log database 21. Here, the processing of the first IP address extraction unit 12 is set to 2 hop, and the IP addresses extracted by the first IP address extraction unit 12 in the second hop processing are IP 21 , IP 22 ,. Corresponds to IP 2j . The first IP address extraction unit 12 functions as first IP address extraction means. In addition, the 2hop th 2, the query Q 11, Q 12, ··· Q 1i of IP addresses of the transmitted terminal 2, IP address IP 21 of the terminal 2 that has transmitted the query Q 12, IP 22, ... only IP 2j is described, but the first IP address extraction unit 12 also extracts the IP address of the terminal 2 that has transmitted another query.

第2のクエリ抽出部13は、第1のIPアドレス抽出部12によって抽出されたIPアドレスの端末から送信されたクエリを、検索ログデータベース21を参照して抽出する。ここでの第2のクエリ抽出部13の処理を3hop(図示せず)とする。なお、第2のクエリ抽出部13は、第2のクエリ抽出手段として機能する。   The second query extraction unit 13 extracts the query transmitted from the terminal having the IP address extracted by the first IP address extraction unit 12 with reference to the search log database 21. The processing of the second query extraction unit 13 here is 3 hop (not shown). The second query extraction unit 13 functions as second query extraction means.

第2のIPアドレス抽出部14は、第2のクエリ抽出部13によって抽出されたクエリを送信した端末のIPアドレスを、検索ログデータベース21を参照して抽出する。ここでの第2のIPアドレス抽出部14の処理を4hop(図示せず)とする。なお、第2のIPアドレス抽出部14は、第2のIPアドレス抽出手段として機能する。   The second IP address extraction unit 14 extracts the IP address of the terminal that has transmitted the query extracted by the second query extraction unit 13 with reference to the search log database 21. The processing of the second IP address extracting unit 14 here is 4 hops (not shown). The second IP address extraction unit 14 functions as second IP address extraction means.

繰り返し部15は、第2のクエリ抽出部13によるクエリの抽出と第2のIPアドレス抽出部14によるIPアドレスの抽出とを交互に繰り返し実行する。つまり、繰り返し部15は、5hopとしての第2のクエリ抽出部13によるクエリの抽出、6hopとしての第2のIPアドレス抽出部14によるIPアドレスの抽出、・・・をn hopとしての第2のIPアドレス抽出部14によるIPアドレスの抽出を行うまで繰り返す。但し、5hop目のクエリ抽出は、4hop目で抽出されたIPアドレスを用い、6hop目のIPアドレス抽出は、5hop目で抽出されたクエリを用いる。なお、繰り返し部15は、繰り返し手段として機能する。また、図2には、一部のIPアドレスを有する端末2から送信されたクエリ及び一部のクエリを送信した端末2のIPアドレスだけが記載されているが、繰り返し部15は、他のIPアドレスを有する端末2から送信されたクエリ及び他のクエリを送信した端末2のIPアドレスも抽出している。   The repeater 15 repeatedly executes the query extraction by the second query extractor 13 and the IP address extraction by the second IP address extractor 14 alternately. That is, the repetition unit 15 extracts the query by the second query extraction unit 13 as 5 hops, extracts the IP address by the second IP address extraction unit 14 as 6 hops, and so on. The process is repeated until the IP address extraction unit 14 extracts the IP address. However, the 5th hop query extraction uses the IP address extracted at the 4th hop, and the 6th hop IP address extraction uses the query extracted at the 5th hop. The repeating unit 15 functions as a repeating unit. In FIG. 2, only the query transmitted from the terminal 2 having a part of the IP address and the IP address of the terminal 2 that has transmitted the part of the query are described. The query transmitted from the terminal 2 having an address and the IP address of the terminal 2 that transmitted another query are also extracted.

スパムIPアドレス判別部16は、繰り返し部15によって第1の回数だけ繰り返されたときの第1のIPアドレス抽出部12又は第2のIPアドレス抽出部14によって抽出されたIPアドレスの種類数の、繰り返し部15によって第2の回数だけ繰り返されたときの第2のIPアドレス抽出部14によって抽出されたIPアドレスの種類数に対する比を求める。すなわち、スパムIPアドレス判別部16は、繰り返し部15によって第1の回数だけ繰り返されたときの第1のIPアドレス抽出部12又は第2のIPアドレス抽出部14によって抽出されたIPアドレスの種類数を分子とし、繰り返し部15によって第2の回数だけ繰り返されたときの第2のIPアドレス抽出部14によって抽出されたIPアドレスの種類数を分母とした比の値を求める。そして、スパムIPアドレス判別部16は、その求めた比の値が所定の閾値以上の場合、上記特定のIPアドレスIPがスパムIPアドレスであると判別する。なお、スパムIPアドレス判別部16は、スパムIPアドレス判別手段として機能する。また、「所定の閾値」は、ユーザが予め定めた値である。 The spam IP address discriminating unit 16 has the number of types of IP addresses extracted by the first IP address extracting unit 12 or the second IP address extracting unit 14 when the repeating unit 15 repeats the first number of times. A ratio to the number of types of IP addresses extracted by the second IP address extracting unit 14 when the repetition unit 15 repeats the second number of times is obtained. That is, the spam IP address discriminating unit 16 determines the number of types of IP addresses extracted by the first IP address extracting unit 12 or the second IP address extracting unit 14 when the repeating unit 15 repeats the first number of times. Is used as a numerator, and a ratio value is obtained with the number of types of IP addresses extracted by the second IP address extraction unit 14 when the repetition unit 15 repeats the second number of times as a denominator. The spam IP address discriminating unit 16 discriminates that the specific IP address IP 0 is a spam IP address when the ratio value obtained is equal to or greater than a predetermined threshold value. The spam IP address determination unit 16 functions as a spam IP address determination unit. Further, the “predetermined threshold value” is a value predetermined by the user.

ところで、クエリの抽出及びIPアドレスの抽出が繰り返されると、第1のIPアドレス抽出部12又は第2のIPアドレス抽出部14が抽出するIPアドレスの「数」が多くなることから、第1のIPアドレス抽出部12又は第2のIPアドレス抽出部14がIPアドレスを抽出しても、スパムIPアドレス判別部16がIPアドレスの「種類数」を算出するには、多大な計算処理時間を要する。そこで、特に、計算処理時間を減らすため、IPアドレスの「種類数」を算出するにあたっては、繰り返し部15によって第1の回数だけ繰り返されたときの第1のIPアドレス抽出部12又は第2のIPアドレス抽出部14によって抽出されたIPアドレスの中から所定個数のIPアドレスを無作為に抽出し、抽出したIPアドレスの重複度合いからIPアドレスの「種類数」を推定できる。第2の回数についても同様に、繰り返し部15によって第2の回数だけ繰り返されたときの第2のIPアドレス抽出部14によって抽出されたIPアドレスの中から所定個数のIPアドレスを無作為に抽出し、抽出したIPアドレスの重複度合いからIPアドレスの「種類数」を推定できる。   By the way, if the query extraction and the IP address extraction are repeated, the “number” of IP addresses extracted by the first IP address extraction unit 12 or the second IP address extraction unit 14 increases. Even if the IP address extraction unit 12 or the second IP address extraction unit 14 extracts an IP address, it takes a lot of calculation processing time for the spam IP address determination unit 16 to calculate the “number of types” of the IP address. . Therefore, in particular, in order to reduce the calculation processing time, when calculating the “number of types” of the IP address, the first IP address extraction unit 12 or the second IP address when the repetition unit 15 repeats the first number of times. A predetermined number of IP addresses are randomly extracted from the IP addresses extracted by the IP address extracting unit 14, and the “number of types” of IP addresses can be estimated from the degree of duplication of the extracted IP addresses. Similarly, for the second number of times, a predetermined number of IP addresses are randomly extracted from the IP addresses extracted by the second IP address extraction unit 14 when the repetition unit 15 repeats the second number of times. The “number of types” of IP addresses can be estimated from the degree of duplication of the extracted IP addresses.

[本実施形態のハードウェア及びソフトウェアの構成]
本実施形態のハードウェア及びソフトウェアの構成について説明する。スパムIPアドレス判別装置1のハードウェアには、制御装置(制御部)としてのCPUの他、記憶装置(記憶部)、通信装置(通信部)、表示装置(表示部)及び入力装置(入力部)が含まれる。記憶装置(記憶部)としては、例えば、メモリ(RAM、ROM等)、ハードディスクドライブ(HDD)又は光ディスク(CD、DVD等)ドライブ等が挙げられる。通信装置(通信部)としては、例えば、各種有線又は無線インターフェース装置等が挙げられる。表示装置(表示部)としては、例えば、液晶ディスプレイ又はプラズマディスプレイ等の各種ディスプレイが挙げられる。入力装置(入力部)としては、例えば、キーボード、ポインティング・デバイス(マウス等)又はリモコン装置等が挙げられる。
[Hardware and Software Configuration of this Embodiment]
The hardware and software configurations of this embodiment will be described. The hardware of the spam IP address discrimination device 1 includes a CPU as a control device (control unit), a storage device (storage unit), a communication device (communication unit), a display device (display unit), and an input device (input unit). ) Is included. Examples of the storage device (storage unit) include a memory (RAM, ROM, etc.), a hard disk drive (HDD), an optical disk (CD, DVD, etc.) drive, and the like. Examples of the communication device (communication unit) include various wired or wireless interface devices. Examples of the display device (display unit) include various displays such as a liquid crystal display or a plasma display. Examples of the input device (input unit) include a keyboard, a pointing device (such as a mouse), a remote control device, and the like.

スパムIPアドレス判別装置1のソフトウェアには、上記ハードウェアを制御するプログラムやデータが含まれる。プログラムやデータは、記憶装置(記憶部)により記憶され、制御装置(制御部)により適宜実行、参照される。また、コンピュータ・プログラムやデータは、電磁的方法により配布することも可能であり、CD−ROM等のコンピュータ可読媒体に記録して配布することも可能である。   The software of the spam IP address discrimination device 1 includes a program and data for controlling the hardware. Programs and data are stored in a storage device (storage unit), and are appropriately executed and referenced by a control device (control unit). Further, the computer program and data can be distributed by an electromagnetic method, or can be recorded and distributed on a computer-readable medium such as a CD-ROM.

[フローチャート]
図3は、第1実施形態に係るスパムIPアドレス判別装置1のフローチャートである。
[flowchart]
FIG. 3 is a flowchart of the spam IP address discrimination device 1 according to the first embodiment.

ステップS1では、第1のクエリ抽出部11は、第1のクエリ抽出処理を行う。この処理では、第1のクエリ抽出部11は、特定のIPアドレスの端末2から送信されたクエリを、検索ログデータベース21を参照して抽出する処理を行う。なお、特定のIPアドレスIPの指定は、検索ログデータベース21に記憶されたIPアドレスの中から、スパムIPアドレスであるかどうかを判別したい任意のIPアドレスを指定する。好適には、検索ログデータベース21に記憶されたIPアドレスの中から、誤差要因となるIPアドレスを除去するような所定の処理を行い、その中から指定することもできる。 In step S1, the first query extraction unit 11 performs a first query extraction process. In this process, the first query extraction unit 11 performs a process of extracting a query transmitted from the terminal 2 having a specific IP address with reference to the search log database 21. The specific IP address IP 0 is specified by specifying an arbitrary IP address that is to be determined whether it is a spam IP address from among the IP addresses stored in the search log database 21. Preferably, a predetermined process for removing an IP address that causes an error from the IP addresses stored in the search log database 21 may be performed and designated from among them.

ステップS2では、第1のIPアドレス抽出部12は、第1のIPアドレス抽出処理を行う。この処理では、第1のIPアドレス抽出部12は、第1のクエリ抽出部11によって抽出されたクエリのそれぞれについて、これらのクエリを送信した端末2のIPアドレスを、検索ログデータベース21を参照して抽出する処理を行う。   In step S2, the first IP address extraction unit 12 performs a first IP address extraction process. In this process, the first IP address extraction unit 12 refers to the search log database 21 for the IP address of the terminal 2 that has transmitted these queries for each query extracted by the first query extraction unit 11. Process to extract.

ステップS3では、第2のクエリ抽出部13は、第2のクエリ抽出処理を行う。この処理では、第2のクエリ抽出部13は、第1のIPアドレス抽出部12によって抽出されたIPアドレスの端末2から送信されたクエリを、検索ログデータベース21を参照して抽出する処理を行う。   In step S3, the second query extraction unit 13 performs a second query extraction process. In this process, the second query extraction unit 13 performs a process of extracting the query transmitted from the terminal 2 having the IP address extracted by the first IP address extraction unit 12 with reference to the search log database 21. .

ステップS4では、第2のIPアドレス抽出部14は、第2のIPアドレス抽出処理を行う。この処理では、第2のIPアドレス抽出部14は、第2のクエリ抽出部13によって抽出されたクエリを送信した端末2のIPアドレスを、検索ログデータベース21を参照して抽出する処理を行う。   In step S4, the second IP address extraction unit 14 performs a second IP address extraction process. In this process, the second IP address extraction unit 14 performs a process of extracting the IP address of the terminal 2 that has transmitted the query extracted by the second query extraction unit 13 with reference to the search log database 21.

ステップS5では、繰り返し部15は、繰り返し処理を行う。この処理では、繰り返し部15は、第2のクエリ抽出部13によるクエリの抽出と第2のIPアドレス抽出部14によるIPアドレスの抽出とを交互に繰り返し実行する。つまり、繰り返し部15は、5hopとしての第2のクエリ抽出部13によるクエリの抽出、6hopとしての第2のIPアドレス抽出部14によるIPアドレスの抽出、・・・をn hopとしての第2のIPアドレス抽出部14によるIPアドレスの抽出を行うまで繰り返す。但し、IPアドレスの抽出は、直前に抽出されたクエリを用い、クエリの抽出は、直前に抽出されたIPアドレスを用いる。例えば、5hop目のクエリの抽出は、4hop目で抽出されたIPアドレスを用い、6hop目のIPアドレスの抽出は、5hop目で抽出されたクエリを用いる。   In step S5, the repetition unit 15 performs a repetition process. In this process, the repetition unit 15 repeatedly performs the query extraction by the second query extraction unit 13 and the IP address extraction by the second IP address extraction unit 14 alternately. That is, the repetition unit 15 extracts the query by the second query extraction unit 13 as 5 hops, extracts the IP address by the second IP address extraction unit 14 as 6 hops, and so on. The process is repeated until the IP address extraction unit 14 extracts the IP address. However, the extraction of the IP address uses the query extracted immediately before, and the extraction of the query uses the IP address extracted immediately before. For example, the extraction of the fifth hop query uses the IP address extracted in the fourth hop, and the extraction of the sixth hop IP address uses the query extracted in the fifth hop.

ステップS6では、スパムIPアドレス判別部16は、スパムIPアドレス判別処理を行う。この処理では、スパムIPアドレス判別部16は、繰り返し部15によって第1の回数だけ繰り返されたときの第1のIPアドレス抽出部12又は第2のIPアドレス抽出部14によって抽出されたIPアドレスの種類数の、繰り返し部15によって第2の回数だけ繰り返されたときの第2のIPアドレス抽出部14によって抽出されたIPアドレスの種類数に対する比を求め、その求めた比の値が所定の閾値以上の場合に、上記特定のIPアドレスIPがスパムIPアドレスであると判別する処理を行う。この処理を終えると、制御部10は、一連の処理を終了する。 In step S6, the spam IP address determination unit 16 performs a spam IP address determination process. In this process, the spam IP address discriminating unit 16 determines the IP address extracted by the first IP address extracting unit 12 or the second IP address extracting unit 14 when it is repeated by the repeating unit 15 a first number of times. A ratio of the number of types to the number of types of IP addresses extracted by the second IP address extraction unit 14 when the repetition unit 15 repeats the second number of times is obtained, and the value of the obtained ratio is a predetermined threshold value. In the above case, a process for determining that the specific IP address IP 0 is a spam IP address is performed. When this process ends, the control unit 10 ends the series of processes.

[第1実施形態に係るスパムIPアドレス判別装置1の実施例]
図4〜図7は、第1実施形態に記載のIPアドレス判別装置1に係る発明を実施したときの例を示す図である。
[Example of Spam IP Address Discriminating Device 1 According to the First Embodiment]
4-7 is a figure which shows an example when the invention which concerns on the IP address discrimination | determination apparatus 1 as described in 1st Embodiment is implemented.

まず、図4について説明する。まず、第1のクエリ抽出部11は、特定のIPアドレスIPの端末から送信されたクエリを、検索ログデータベース21を参照して抽出する。なお、ここでの第1のクエリ抽出部11の処理を1hopとする。 First, FIG. 4 will be described. First, the first query extraction unit 11 extracts a query transmitted from a terminal having a specific IP address IP 0 with reference to the search log database 21. The processing of the first query extraction unit 11 here is 1 hop.

図4は、第1のクエリ抽出部11が特定のIPアドレス「123.45.678.901」から2010年6月1日に送信されたクエリを抽出したときの例を示す。1行目は、特定のIPアドレス及びこの特定のIPアドレスからクエリを送信した日付を示し、「IP address=123.45.678.901, Date=20100601」と記載されている。2行目以降は、2010年6月1日にIPアドレス「123.45.678.901」を有する端末から送信されたクエリ及びそのクエリの送信回数を示し、当該端末からは、例えば、クエリ「外為 abc証券」が4回、クエリ「合宿免許 ghi自動車学校」が3回、クエリ「ネットショップ 物流」が5回等が送信されている。   FIG. 4 shows an example when the first query extraction unit 11 extracts a query transmitted on June 1, 2010 from a specific IP address “123.45.678.901”. The first line indicates a specific IP address and a date when the query is transmitted from the specific IP address, and is described as “IP address = 123.45.678.901, Date = 201100601”. The second and subsequent lines indicate the query transmitted from the terminal having the IP address “123.45.678.901” on June 1, 2010, and the number of times the query has been transmitted. “Forex abc securities” has been sent 4 times, query “camp license ghi driving school” has been sent 3 times, query “net shop logistics” has been sent 5 times, etc.

続いて、図5について説明する。第1のIPアドレス抽出部12は、第1のクエリ抽出部11によって抽出されたクエリのそれぞれについて、これらのクエリを送信した端末2のIPアドレスを、検索ログデータベース21を参照して抽出する。なお、ここでの第1のIPアドレス抽出部12の処理を2hopとする。   Next, FIG. 5 will be described. For each query extracted by the first query extraction unit 11, the first IP address extraction unit 12 extracts the IP address of the terminal 2 that has transmitted these queries with reference to the search log database 21. Note that the processing of the first IP address extraction unit 12 here is 2 hops.

図5は、第1のクエリ抽出部11によって抽出されたクエリ、すなわち、図4で示したクエリ「外為 abc証券」、「合宿免許 ghi自動車学校」、「ネットショップ 物流」・・・のそれぞれについて、これらのクエリを送信した端末2のIPアドレスを、第1のIPアドレス抽出部12が検索ログデータベース21を参照して抽出したときの例を示す。1つめのブロックは、2010年6月1日にクエリ「外為 abc証券」を送信した端末のIPアドレスを示し、例えば、「123.45.678.901」、「234.56.789.012」、「345.678.901.234」等がある。IPアドレスの右にある文字は、そのIPアドレスを有する端末から送信されたクエリを示し、このクエリの右にある文字は、そのクエリを送信した回数を示す。   FIG. 5 shows the queries extracted by the first query extraction unit 11, that is, the queries “Forex abc securities”, “camp license ghi driving school”, “net shop logistics”, etc. shown in FIG. An example in which the first IP address extracting unit 12 extracts the IP address of the terminal 2 that has transmitted these queries with reference to the search log database 21 will be described. The first block shows the IP address of the terminal that sent the query “Forex abc securities” on June 1, 2010, for example, “123.45.678.901”, “234.567.789.012”. , “345.678.901.234” and the like. A character on the right of the IP address indicates a query transmitted from a terminal having the IP address, and a character on the right of the query indicates the number of times the query is transmitted.

2つめのブロックは、2010年6月1日にクエリ「合宿免許 ghi自動車学校」を送信した端末のIPアドレスを示し、例えば、「123.45.678.901」、「201.35.679.023」、「345.678.901.234」等がある。3つめのブロックは、同日にクエリ「ネットショップ 物流」を送信した端末のIPアドレスを示し、例えば、「123.45.678.901」、「345.678.901.234」、「45.67.89.012」等がある。   The second block shows the IP address of the terminal that sent the query “camping camp license ghi driving school” on June 1, 2010. For example, “123.45.678.901”, “201.35.679. 023 "," 345.678.901.234 "and the like. The third block shows the IP address of the terminal that sent the query “net shop logistics” on the same day. For example, “123.45.678.901”, “345.678.901234”, “45.67”. .89.012 "and the like.

続いて、図6について説明する。第2のクエリ抽出部13は、第1のIPアドレス抽出部12によって抽出されたIPアドレスの端末から送信されたクエリを、検索ログデータベース21を参照して抽出し、第2のIPアドレス抽出部14は、第2のクエリ抽出部13によって抽出されたクエリを送信した端末のIPアドレスを、検索ログデータベース21参照して抽出する。そして、繰り返し部15は、第2のクエリ抽出部13によるクエリの抽出と第2のIPアドレス抽出部14によるIPアドレスの抽出とを交互に繰り返し実行する。つまり、第2のクエリ抽出部13は、3hopとしてのクエリの抽出を行い、第2のIPアドレス抽出部14は、4hopとしてのIPアドレスの抽出を行い、その後、繰り返し部15は、5hopとしての第2のクエリ抽出部13によるクエリの抽出、6hopとしての第2のIPアドレス抽出部14によるIPアドレスの抽出、・・・をn hopとしての第2のIPアドレス抽出部14によるIPアドレスの抽出を行うまで繰り返す。但し、クエリの抽出は、直前に抽出されたIPアドレスを用い、IPアドレスの抽出は、直前に抽出されたクエリを用いる。例えば、3hop目のクエリの抽出は、2hop目で抽出されたIPアドレスを用い、4hop目のIPアドレスの抽出は、3hop目で抽出されたクエリを用いる。また、5hop目のクエリの抽出は、4hop目で抽出されたIPアドレスを用いる。   Next, FIG. 6 will be described. The second query extraction unit 13 extracts the query transmitted from the terminal having the IP address extracted by the first IP address extraction unit 12 with reference to the search log database 21, and the second IP address extraction unit 14 extracts the IP address of the terminal that has transmitted the query extracted by the second query extraction unit 13 with reference to the search log database 21. Then, the repeating unit 15 repeatedly executes the query extraction by the second query extraction unit 13 and the IP address extraction by the second IP address extraction unit 14 alternately. That is, the second query extraction unit 13 extracts a query as 3 hops, the second IP address extraction unit 14 extracts an IP address as 4 hops, and then the repetition unit 15 performs 5 hops. Extraction of query by second query extraction unit 13, extraction of IP address by second IP address extraction unit 14 as 6 hop, extraction of IP address by second IP address extraction unit 14 as n hop Repeat until. However, the query extraction uses the IP address extracted immediately before, and the IP address extraction uses the query extracted immediately before. For example, the extraction of the third hop query uses the IP address extracted in the second hop, and the extraction of the fourth hop IP address uses the query extracted in the third hop. The extraction of the fifth hop query uses the IP address extracted in the fourth hop.

図6は、繰り返し部15が、第2のクエリ抽出部13によるクエリの抽出と第2のIPアドレス抽出部14によるIPアドレスの抽出とを、m hopとしてのIPアドレスの抽出を行うまで繰り返したときの、m hop目でのIPアドレスの抽出の結果を示す。見方は図5と同じであり、上から、2010年6月1日にクエリ「五月人形 def人形店」、クエリ「メガネ stuメガネ店」、クエリ「ダイヤモンド買取 ショップ」を送信した端末のIPアドレスを示す。   In FIG. 6, the repetition unit 15 repeats the query extraction by the second query extraction unit 13 and the IP address extraction by the second IP address extraction unit 14 until the IP address is extracted as m hop. The result of extraction of the IP address at the time of m hop is shown. The view is the same as in FIG. 5. From the top, the IP address of the terminal that sent the query “May doll def doll store”, the query “glasses stu glasses store”, and the query “diamond purchase shop” on June 1, 2010. Indicates.

なお、下線は、説明の便宜のために付したものであり、IPアドレス判別装置1からの出力情報として付されるものではない。下線の意味については、後に説明する。   The underline is attached for convenience of explanation, and is not attached as output information from the IP address discrimination device 1. The meaning of the underline will be explained later.

ところで、スパムIPアドレス判別部16は、繰り返し部15によって第1の回数だけ繰り返されたときの第1のIPアドレス抽出部12又は第2のIPアドレス抽出部14によって抽出されたIPアドレスの種類数の、繰り返し部15によって第2の回数だけ繰り返されたときの第2のIPアドレス抽出部14によって抽出されたIPアドレスの種類数に対する比を求める。そして、スパムIPアドレス判別部16は、その求めた比の値が所定の閾値以上の場合に、上記特定のIPアドレスIPがスパムIPアドレスであると判別する。 By the way, the spam IP address discriminating unit 16 determines the number of types of IP addresses extracted by the first IP address extracting unit 12 or the second IP address extracting unit 14 when the repeating unit 15 repeats the first number of times. The ratio of the number of types of IP addresses extracted by the second IP address extraction unit 14 when the repetition unit 15 repeats the second number of times is obtained. The spam IP address discriminating unit 16 discriminates that the specific IP address IP 0 is a spam IP address when the ratio value obtained is equal to or greater than a predetermined threshold value.

実施形態1において、m、nは、m<nを満たす正の偶数である。図6を参照しながら説明する。図6を参照すると、繰り返し部15によって第1の回数(m hopまで)だけ繰り返されたときの第1のIPアドレス抽出部12又は第2のIPアドレス抽出部14によって抽出されたIPアドレスは、「123.45.678.901」、「156.43.621.724」・・・等である。ここで、便宜上下線を引いているが、これは、第1のIPアドレス抽出部12又は第2のIPアドレス抽出部14によって抽出されたIPアドレスのうち、重複するものである。「種類数」を計算するにあたり、重複するものはまとめて「1」として計算するので、図6に示されている範囲では、繰り返し部15によって第1の回数だけ繰り返されたときの第1のIPアドレス抽出部12又は第2のIPアドレス抽出部14によって抽出されたIPアドレスの種類数は、「13」である。実際には、図6に明示されていないものもあるので、図6の右下にあるように、ここでは、IPアドレスの種類数が「50」であるものとして説明する。   In the first embodiment, m and n are positive even numbers that satisfy m <n. This will be described with reference to FIG. Referring to FIG. 6, the IP address extracted by the first IP address extraction unit 12 or the second IP address extraction unit 14 when the repetition unit 15 repeats the first number of times (up to m hop) is: "123.45.678.901", "156.43.621.724", etc. Here, although the underline is drawn for convenience, this is an overlapping IP address extracted by the first IP address extracting unit 12 or the second IP address extracting unit 14. In calculating the “number of types”, the overlapping items are collectively calculated as “1”. Therefore, in the range shown in FIG. 6, in the range shown in FIG. The number of types of IP addresses extracted by the IP address extracting unit 12 or the second IP address extracting unit 14 is “13”. Actually, there are some that are not explicitly shown in FIG. 6, and as described in the lower right of FIG. 6, the description here assumes that the number of types of IP addresses is “50”.

また、図示は省略するが、繰り返し部15によって第2の回数(n hopまで)だけ繰り返されたときの第2のIPアドレス抽出部14によって抽出されたIPアドレスの種類数は、「80」であるものとして説明する。   Although not shown, the number of IP address types extracted by the second IP address extraction unit 14 when the repetition unit 15 repeats the second number of times (up to n hop) is “80”. It will be explained as being.

繰り返し部15によって第1の回数だけ繰り返されたときの第1のIPアドレス抽出部12又は第2のIPアドレス抽出部14によって抽出されたIPアドレスの種類数が「50」であり、繰り返し部15によって第2の回数だけ繰り返されたときの第2のIPアドレス抽出部14によって抽出されたIPアドレスの種類数が「80」であれば、前者の後者に対する比は50/80(=0.625)となる。所定の閾値が0.625未満であれば、当該比の値は所定の閾値以上となるので、スパムIPアドレス判別部16は、特定のIPアドレス「123.45.678.901」がスパムIPアドレスであると判別する。   The number of IP address types extracted by the first IP address extraction unit 12 or the second IP address extraction unit 14 when the repetition unit 15 repeats the first number of times is “50”, and the repetition unit 15 If the number of types of IP addresses extracted by the second IP address extracting unit 14 when it is repeated by the second number of times is “80”, the ratio of the former to the latter is 50/80 (= 0.625) ) If the predetermined threshold is less than 0.625, the value of the ratio is equal to or greater than the predetermined threshold. Therefore, the spam IP address determination unit 16 determines that the specific IP address “123.45.678.901” is the spam IP address. It is determined that

第1実施形態に記載の発明によれば、検索ログデータベース21には、クエリと当該クエリを送信した端末のIPアドレスとを関連付けた検索ログが記憶され、第1のクエリ抽出部11は、特定のIPアドレスの端末から送信されたクエリを、検索ログデータベース21を参照して抽出し、第1のIPアドレス抽出部12は、その抽出したクエリを送信した端末のIPアドレスを、検索ログデータベース21を参照して抽出する。そして、第2のクエリ抽出部13は、第1のIPアドレス抽出部12によって抽出されたIPアドレスの端末から送信されたクエリを、検索ログデータベース21を参照して抽出し、第2のIPアドレス抽出部14は、第2のクエリ抽出部13によって抽出されたクエリを送信した端末のIPアドレスを、検索ログデータベース21を参照して抽出し、繰り返し部15は、第2のクエリ抽出部13によるクエリの抽出と第2のIPアドレス抽出部14によるIPアドレスの抽出とを交互に繰り返し実行し、スパムIPアドレス判別部16は、繰り返し部15によって第1の回数だけ繰り返されたときの第1のIPアドレス抽出部12又は第2のIPアドレス抽出部14によって抽出されたIPアドレスの種類数の、繰り返し部15によって第2の回数だけ繰り返されたときの第2のIPアドレス抽出部14によって抽出されたIPアドレスの種類数に対する比を求める。そして、その比の値が所定の値以上の場合、スパムIPアドレス判別部16は、上記特定のIPアドレスがスパムIPアドレスであると判別する。   According to the invention described in the first embodiment, the search log database 21 stores a search log in which a query and an IP address of a terminal that has transmitted the query are associated with each other. The query transmitted from the terminal having the IP address is extracted with reference to the search log database 21, and the first IP address extracting unit 12 determines the IP address of the terminal that transmitted the extracted query as the search log database 21. Extract by referring to. Then, the second query extraction unit 13 extracts the query transmitted from the terminal of the IP address extracted by the first IP address extraction unit 12 with reference to the search log database 21, and the second IP address The extraction unit 14 extracts the IP address of the terminal that has transmitted the query extracted by the second query extraction unit 13 with reference to the search log database 21, and the repetition unit 15 is based on the second query extraction unit 13. The query extraction and the IP address extraction by the second IP address extraction unit 14 are repeatedly performed alternately, and the spam IP address determination unit 16 performs the first operation when the repetition unit 15 repeats the first number of times. The number of types of IP addresses extracted by the IP address extraction unit 12 or the second IP address extraction unit 14 is updated by the repetition unit 15. Determining the ratio of the number of types of the extracted IP address by a second IP address extraction section 14 when only repeated number of. If the ratio value is equal to or greater than a predetermined value, the spam IP address determination unit 16 determines that the specific IP address is a spam IP address.

通常のIPアドレスの場合であれば、第1の回数だけ繰り返した後にスパムIPアドレス判別装置1が抽出するIPアドレスの種類数と比べて、第2の回数だけ繰り返した後にスパムIPアドレス判別装置1が抽出するIPアドレスの種類数は、十分増加する。これに対し、不正業者のスパムIPアドレスの場合、当該不正業者が使用し得るIPアドレスの数が限られていることから、通常のIPアドレスの場合に比べ、スパムIPアドレス判別装置1が抽出するIPアドレスの種類数の増加の割合は、低くなる。このことに着目し、スパムIPアドレス判別装置1は、第1の回数だけ繰り返されたときのIPアドレス抽出手段によって抽出されたIPアドレスの種類数の、第2の回数だけ繰り返されたときのIPアドレス抽出手段によって抽出されたIPアドレスの種類数に対する比が所定の値以上の場合に、そのIPアドレスがスパムIPアドレスであると判別する。   In the case of a normal IP address, the spam IP address discriminating apparatus 1 after repeating the second number of times compared to the number of types of IP addresses extracted by the spam IP address discriminating apparatus 1 after repeating the first number of times. The number of types of IP addresses extracted by will increase sufficiently. On the other hand, since the number of IP addresses that can be used by a fraudulent trader is limited in the case of a spammer IP address of a fraudulent trader, the spam IP address discriminating apparatus 1 extracts it compared to the case of a normal IP address. The rate of increase in the number of types of IP addresses is low. Paying attention to this, the spam IP address discriminating apparatus 1 determines that the IP number when the number of IP address types extracted by the IP address extracting means when it is repeated for the first number of times is repeated for the second number of times. When the ratio with respect to the number of types of IP addresses extracted by the address extracting means is a predetermined value or more, it is determined that the IP address is a spam IP address.

これにより、スパムクエリにスパムではない通常のクエリを混入させてカモフラージュするという巧妙な手口も含め、不正業者のスパムIPアドレスを効率的かつ効果的に判別できる。   This makes it possible to efficiently and effectively determine the spam IP address of the fraudster, including the clever trick of camouflaging a normal query that is not spam into the spam query.

[第2実施形態]
以下、本発明の第2実施形態について図を参照しながら説明する。
[Second Embodiment]
Hereinafter, a second embodiment of the present invention will be described with reference to the drawings.

[全体構成]
図7は、第2実施形態に係るスパムクエリ判別装置101を説明するための全体構成を示す図である。スパムクエリ判別装置101は、制御部110と、記憶部120とを備える。制御部110は、スパムクエリ判別装置101に係る各機能を統括的に制御する部分であり、第1のIPアドレス抽出部111、第1のクエリ抽出部112、第2のIPアドレス抽出部113、第2のクエリ抽出部114、繰り返し部115及びスパムクエリ判別部116を備える。一方、記憶部120は、スパムクエリ判別装置101として機能させるための各種プログラム(図示省略)やデータベースを記憶する部分であり、検索ログデータベース121を備える。
[overall structure]
FIG. 7 is a diagram showing an overall configuration for explaining the spam query determination apparatus 101 according to the second embodiment. The spam query determination apparatus 101 includes a control unit 110 and a storage unit 120. The control unit 110 is a part that comprehensively controls each function related to the spam query determination device 101, and includes a first IP address extraction unit 111, a first query extraction unit 112, a second IP address extraction unit 113, A second query extraction unit 114, a repetition unit 115, and a spam query determination unit 116 are provided. On the other hand, the storage unit 120 is a part that stores various programs (not shown) and a database for functioning as the spam query determination device 101, and includes a search log database 121.

検索ログデータベース121は、第1実施形態の検索ログデータベース21と同じ構成を有するものであり、検索ログ記憶手段として機能する。検索ログデータベース121には、クエリと、当該クエリを送信した端末102のIPアドレスと、端末102からクエリを受信した日時とを関連付けた検索ログが記憶される。   The search log database 121 has the same configuration as the search log database 21 of the first embodiment, and functions as a search log storage unit. The search log database 121 stores a search log that associates a query, the IP address of the terminal 102 that transmitted the query, and the date and time when the query was received from the terminal 102.

第1のIPアドレス抽出部111は、特定のクエリQを送信した端末102のIPアドレスを、検索ログデータベース121を参照して抽出する。ここでの第1のIPアドレス抽出部111の処理を1hopとし、この1hop目の処理で第1のIPアドレス抽出部111が抽出したIPアドレスは、図2のIP11、IP12、・・・IP1iに対応する。なお、第1のIPアドレス抽出部111は、第1のIPアドレス抽出手段として機能する。 The first IP address extraction unit 111 extracts the IP address of the terminal 102 that has transmitted the specific query Q 0 with reference to the search log database 121. Here, the processing of the first IP address extracting unit 111 is set to 1 hop, and the IP addresses extracted by the first IP address extracting unit 111 in the first hop processing are IP 11 , IP 12 ,. Corresponds to IP 1i . The first IP address extracting unit 111 functions as a first IP address extracting unit.

第1のクエリ抽出部112は、第1のIPアドレス抽出部111によって抽出されたIPアドレスの端末102から送信されたクエリを、検索ログデータベース121を参照して抽出する。ここでの第1のクエリ抽出部112の処理を2hopとし、この2hop目の処理で第1のクエリ抽出部112が抽出したクエリは、図2のQ21、Q22、・・・Q2jに対応する。なお、第1のクエリ抽出部112は、第1のクエリ抽出手段として機能する。また、図8、2hop目には、IPアドレスIP11、IP12、・・・IP1iを有する端末102から送信されたクエリのうち、IP12を有する端末102から送信されたクエリQ21、Q22、・・・Q2jだけが記載されているが、第1のクエリ抽出部112は、他のIPアドレスを有する端末102から送信されたクエリも抽出している。 The first query extraction unit 112 extracts a query transmitted from the terminal 102 having the IP address extracted by the first IP address extraction unit 111 with reference to the search log database 121. Here, the processing of the first query extraction unit 112 is set to 2 hop, and the query extracted by the first query extraction unit 112 in the second hop processing is represented by Q 21 , Q 22 ,... Q 2j in FIG. Correspond. The first query extraction unit 112 functions as a first query extraction unit. 8 and 2 hop, among queries transmitted from the terminal 102 having the IP addresses IP 11 , IP 12 ,... IP 1i , queries Q 21 , Q transmitted from the terminal 102 having the IP 12 22 ,..., Q 2j are only described, but the first query extraction unit 112 also extracts queries transmitted from the terminals 102 having other IP addresses.

第2のIPアドレス抽出部113は、第1のクエリ抽出部112によって抽出されたクエリを送信した端末のIPアドレスを、検索ログデータベース121を参照して抽出する。ここでの第2のIPアドレス抽出部113の処理を3hopとする。なお、第2のIPアドレス抽出部113は、第2のIPアドレス抽出手段として機能する。また、3hop目のIPアドレスの抽出は、2hop目で抽出されたIPアドレスを用いる。   The second IP address extraction unit 113 extracts the IP address of the terminal that has transmitted the query extracted by the first query extraction unit 112 with reference to the search log database 121. Here, the processing of the second IP address extraction unit 113 is 3 hops. The second IP address extracting unit 113 functions as a second IP address extracting unit. Also, the extraction of the IP address of the third hop uses the IP address extracted in the second hop.

第2のクエリ抽出部114は、第2のIPアドレス抽出部113によって抽出されたIPアドレスの端末102から送信されたクエリを、検索ログデータベース121を参照して抽出する。ここでの第2のクエリ抽出部114の処理を4hopとする。なお、第2のクエリ抽出部114は、第2のクエリ抽出手段として機能する。また、4hop目のIPアドレスの抽出は、3hop目で抽出されたIPアドレスを用いる。   The second query extraction unit 114 extracts a query transmitted from the terminal 102 having the IP address extracted by the second IP address extraction unit 113 with reference to the search log database 121. The processing of the second query extraction unit 114 here is 4 hops. The second query extraction unit 114 functions as a second query extraction unit. The extraction of the IP address of the 4th hop uses the IP address extracted in the 3rd hop.

繰り返し部115は、第2のIPアドレス抽出部113によるIPアドレスの抽出と第2のクエリ抽出部114によるクエリの抽出とを交互に繰り返し実行する。つまり、繰り返し部115は、5hopとしての第2のIPアドレス抽出部113によるIPアドレスの抽出、6hopとしての第2のクエリ抽出部114によるクエリの抽出、・・・をn hopとしての第2のIPアドレス抽出部113によるIPアドレスの抽出を行うまで繰り返す。なお、繰り返し部115は、繰り返し手段として機能する。また、図8には、一部のクエリを送信した端末102のIPアドレス及び一部のIPアドレスを有する端末102から送信されたクエリだけが記載されているが、繰り返し部115は、他のクエリを送信した端末102のIPアドレス及び他のIPアドレスを有する端末102から送信されたクエリも抽出している。但し、クエリの抽出は、直前に抽出されたIPアドレスを用い、IPアドレスの抽出は、直前に抽出されたクエリを用いる。例えば、5hop目のIPアドレスの抽出は、4hop目で抽出されたクエリを用い、6hop目のクエリの抽出は、5hop目で抽出されたIPアドレスを用いる。   The repeating unit 115 repeatedly performs the IP address extraction by the second IP address extraction unit 113 and the query extraction by the second query extraction unit 114 alternately. That is, the repetition unit 115 extracts the IP address by the second IP address extraction unit 113 as 5 hop, the query by the second query extraction unit 114 as 6 hop, and so on. The process is repeated until the IP address extraction unit 113 extracts the IP address. The repeater 115 functions as a repeater. FIG. 8 shows only the IP addresses of the terminals 102 that have transmitted some queries and the queries transmitted from the terminals 102 that have some IP addresses. Queries transmitted from the terminal 102 having the IP address of the terminal 102 that has transmitted and other IP addresses are also extracted. However, the query extraction uses the IP address extracted immediately before, and the IP address extraction uses the query extracted immediately before. For example, the extraction of the IP address at the 5th hop uses the query extracted at the 4th hop, and the extraction of the query at the 6th hop uses the IP address extracted at the 5th hop.

スパムクエリ判別部116は、繰り返し部115によって第1の回数だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスの種類数の、繰り返し部115によって第2の回数だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスの種類数に対する比を求める。すなわち、スパムクエリ判別部116は、繰り返し部115によって第1の回数だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスの種類数を分子とし、繰り返し部115によって第2の回数だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスの種類数を分母とした比の値を求める。そして、スパムクエリ判別部116は、その求めた比の値が所定の閾値以上の場合、上記特定のクエリQがスパムクエリであると判別する。なお、スパムクエリ判別部116は、スパムクエリ判別手段として機能する。また、「所定の閾値」は、ユーザが予め定めた値である。 The spam query determination unit 116 repeats the number of IP address types extracted by the second IP address extraction unit 113 when the repetition unit 115 is repeated the first number of times by the repetition unit 115 a second number of times. The ratio with respect to the number of types of IP addresses extracted by the second IP address extracting unit 113 is obtained. That is, the spam query determination unit 116 uses the number of IP address types extracted by the second IP address extraction unit 113 when the repetition unit 115 repeats the first number of times as a numerator, The ratio value having the denominator as the number of IP address types extracted by the second IP address extracting unit 113 when the number of times is repeated is obtained. The spam query determination unit 116, when the value of the determined ratio is not smaller than a predetermined threshold value, the particular query Q 0 is determined to be spam query. The spam query determination unit 116 functions as a spam query determination unit. Further, the “predetermined threshold value” is a value predetermined by the user.

ところで、クエリの抽出及びIPアドレスの抽出が繰り返されると、第2のIPアドレス抽出部113が抽出するIPアドレスの「数」が多くなることから、第2のIPアドレス抽出部113がIPアドレスを抽出しても、スパムクエリ判別部116がIPアドレスの「種類数」を算出するには、多大な計算処理時間を要する。そこで、特に、計算処理時間を減らすため、IPアドレスの「種類数」を算出するにあたっては、繰り返し部115によって第1の回数だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスの中から所定個数のIPアドレスを無作為に抽出し、抽出したIPアドレスの重複度合いからIPアドレスの「種類数」を推定できる。第2の回数についても同様に、繰り返し部115によって第2の回数だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスの中から所定個数のIPアドレスを無作為に抽出し、抽出したIPアドレスの重複度合いからIPアドレスの「種類数」を推定できる。   By the way, if the query extraction and the IP address extraction are repeated, the “number” of IP addresses extracted by the second IP address extraction unit 113 increases, so that the second IP address extraction unit 113 selects the IP address. Even after extraction, it takes a lot of calculation processing time for the spam query determination unit 116 to calculate the “number of types” of IP addresses. Therefore, in particular, in order to reduce the calculation processing time, when calculating the “number of types” of IP addresses, the IP address is extracted by the second IP address extracting unit 113 when it is repeated by the repeating unit 115 a first number of times. A predetermined number of IP addresses are randomly extracted from the IP addresses, and the “number of types” of IP addresses can be estimated from the degree of duplication of the extracted IP addresses. Similarly, for the second number of times, a predetermined number of IP addresses are randomly extracted from the IP addresses extracted by the second IP address extraction unit 113 when the repetition unit 115 repeats the second number of times. The “number of types” of IP addresses can be estimated from the degree of duplication of the extracted IP addresses.

なお、第2実施形態のハードウェア及びソフトウェアの構成は、第1実施形態のそれと同じであり、スパムクエリ判別装置101のハードウェアには、制御装置(制御部)としてのCPUの他、記憶装置(記憶部)、通信装置(通信部)、表示装置(表示部)及び入力装置(入力部)が含まれる。また、スパムクエリ判別装置101のソフトウェアには、上記ハードウェアを制御するプログラムやデータが含まれる。   The hardware and software configurations of the second embodiment are the same as those of the first embodiment, and the hardware of the spam query determination device 101 includes a storage device in addition to a CPU as a control device (control unit). (Storage unit), communication device (communication unit), display device (display unit), and input device (input unit) are included. Further, the software of the spam query determination apparatus 101 includes a program and data for controlling the hardware.

[フローチャート]
図9は、第2実施形態に係るスパムクエリ判別装置101のフローチャートである。
[flowchart]
FIG. 9 is a flowchart of the spam query determination apparatus 101 according to the second embodiment.

ステップS101では、第1のIPアドレス抽出部111は、第1のIPアドレス抽出処理を行う。この処理では、第1のIPアドレス抽出部111は、特定のクエリQを送信した端末102のIPアドレスを、検索ログデータベース121を参照して抽出する処理を行う。なお、特定のクエリQの指定は、検索ログデータベース121に記憶されたクエリの中から、スパムクエリであるかどうかを判別したい任意のクエリを指定することにより行う。好適には、検索ログデータベース121に記憶されたクエリの中から、誤差要因となるクエリを除去するような所定の処理を行い、その中から指定することもできる。 In step S101, the first IP address extraction unit 111 performs a first IP address extraction process. In this process, the first IP address extraction unit 111 performs a process of extracting the IP address of the terminal 102 that has transmitted the specific query Q 0 with reference to the search log database 121. The specific query Q 0 is specified by specifying an arbitrary query that is to be determined as to whether it is a spam query from among the queries stored in the search log database 121. Preferably, a predetermined process such as removing a query that causes an error from the queries stored in the search log database 121 may be performed and designated from among them.

ステップS102では、第1のクエリ抽出部112は、第1のクエリ抽出処理を行う。この処理では、第1のクエリ抽出部112は、第1のIPアドレス抽出部111によって抽出されたIPアドレスの端末102から送信されたクエリを、検索ログデータベース121を参照して抽出する処理を行う。   In step S102, the first query extraction unit 112 performs a first query extraction process. In this process, the first query extraction unit 112 performs a process of extracting a query transmitted from the terminal 102 having the IP address extracted by the first IP address extraction unit 111 with reference to the search log database 121. .

ステップS103では、第2のIPアドレス抽出部113は、第2のIPアドレス抽出処理を行う。この処理では、第2のIPアドレス抽出部113は、第1のクエリ抽出部112によって抽出されたクエリを送信した端末102のIPアドレスを、検索ログデータベース121を参照して抽出する処理を行う。   In step S103, the second IP address extraction unit 113 performs a second IP address extraction process. In this process, the second IP address extraction unit 113 performs a process of extracting the IP address of the terminal 102 that has transmitted the query extracted by the first query extraction unit 112 with reference to the search log database 121.

ステップS104では、第2のクエリ抽出部114は、第2のクエリ抽出処理を行う。この処理では、第2のクエリ抽出部114は、第2のIPアドレス抽出部113によって抽出されたIPアドレスの端末102から送信されたクエリを、検索ログデータベース121を参照して抽出する処理を行う。   In step S104, the second query extraction unit 114 performs a second query extraction process. In this process, the second query extraction unit 114 performs a process of extracting the query transmitted from the terminal 102 having the IP address extracted by the second IP address extraction unit 113 with reference to the search log database 121. .

ステップS105では、繰り返し部115は、繰り返し処理を行う。この処理では、繰り返し部115は、第2のIPアドレス抽出部113によるIPアドレスの抽出と第2のクエリ抽出部114によるクエリの抽出とを交互に繰り返し実行する。つまり、繰り返し部115は、5hopとしての第2のIPアドレス抽出部113によるIPアドレスの抽出、6hopとしての第2のクエリ抽出部114によるクエリの抽出、・・・をn hopとしての第2のIPアドレス抽出部113によるIPアドレスの抽出を行うまで繰り返す。但し、クエリの抽出は、直前に抽出されたIPアドレスを用い、IPアドレスの抽出は、直前に抽出されたクエリを用いる。例えば、5hop目のIPアドレスの抽出は、4hop目で抽出されたクエリを用い、6hop目のクエリの抽出は、5hop目で抽出されたIPアドレスを用いる。   In step S105, the repetition unit 115 performs a repetition process. In this process, the repetition unit 115 repeatedly performs the IP address extraction by the second IP address extraction unit 113 and the query extraction by the second query extraction unit 114 alternately. That is, the repetition unit 115 extracts the IP address by the second IP address extraction unit 113 as 5 hop, the query by the second query extraction unit 114 as 6 hop, and so on. The process is repeated until the IP address extraction unit 113 extracts the IP address. However, the query extraction uses the IP address extracted immediately before, and the IP address extraction uses the query extracted immediately before. For example, the extraction of the IP address at the 5th hop uses the query extracted at the 4th hop, and the extraction of the query at the 6th hop uses the IP address extracted at the 5th hop.

ステップS106では、スパムクエリ判別部116は、スパムクエリ判別処理を行う。この処理では、スパムクエリ判別部116は、繰り返し部115によって第1の回数だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスの種類数の、繰り返し部115によって第2の回数だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスの種類数に対する比を求め、その求めた比の値が所定の閾値以上の場合に、上記特定のクエリQがスパムクエリであると判別する処理を行う。この処理を終えると、制御部10は、一連の処理を終了する。 In step S106, the spam query determination unit 116 performs a spam query determination process. In this process, the spam query discriminating unit 116 uses the repetition unit 115 to calculate the number of IP address types extracted by the second IP address extraction unit 113 when the repetition unit 115 repeats the first number of times. When the number of types of IP addresses extracted by the second IP address extracting unit 113 is repeated for the number of times, the specific query Q is determined when the ratio value is equal to or greater than a predetermined threshold. A process of determining that 0 is a spam query is performed. When this process ends, the control unit 10 ends the series of processes.

[第2実施形態に係るスパムIPアドレス判別装置1の実施例]
図10〜図12は、第2実施形態に記載のスパムクエリ判別装置101に係る発明を実施したときの例を示す図である。
[Example of Spam IP Address Discriminating Device 1 According to Second Embodiment]
10-12 is a figure which shows an example when the invention which concerns on the spam query discrimination device 101 as described in 2nd Embodiment is implemented.

まず、図10について説明する。まず、第1のIPアドレス抽出部111は、特定のクエリQを送信した端末102のIPアドレスを、検索ログデータベース121を参照して抽出する。なお、ここでの第1のIPアドレス抽出部111の処理を1hopとする。 First, FIG. 10 will be described. First, the first IP address extraction unit 111 extracts the IP address of the terminal 102 that has transmitted the specific query Q 0 with reference to the search log database 121. Note that the processing of the first IP address extraction unit 111 here is 1 hop.

図10は、第1のIPアドレス抽出部111が、2010年6月1日に特定のクエリ「外為 abc証券」を送信した端末102のIPアドレスを、検索ログデータベース121を参照して抽出したときの例を示す。1行目は、特定のクエリ及び日付を示し、「Query=外為 abc証券, Date=20100601」と記載されている。2行目以降は、2010年6月1日にクエリ「外為 abc証券」を送信した端末102のIPアドレス、そのIPアドレスを有する端末102から送信したクエリ及びそのクエリの送信回数を示し、例えば、IPアドレス「123.45.678.901」を有する端末からは、「外為 abc証券」が4回送信されている。   FIG. 10 shows the case where the first IP address extraction unit 111 extracts the IP address of the terminal 102 that has transmitted the specific query “Forex abc securities” on June 1, 2010 with reference to the search log database 121. An example of The first line indicates a specific query and date, and is described as “Query = Forex abc securities, Date = 201100601”. The second and subsequent lines indicate the IP address of the terminal 102 that transmitted the query “Forex abc securities” on June 1, 2010, the query transmitted from the terminal 102 having the IP address, and the number of times the query is transmitted. From the terminal having the IP address “123.45.678.901”, “foreign exchange abc securities” is transmitted four times.

続いて、図11について説明する。第1のクエリ抽出部112は、第1のIPアドレス抽出部111によって抽出されたIPアドレスの端末102から送信されたクエリを、検索ログデータベース121を参照して抽出する。なお、ここでの第1のクエリ抽出部112の処理を2hopとする。   Next, FIG. 11 will be described. The first query extraction unit 112 extracts a query transmitted from the terminal 102 having the IP address extracted by the first IP address extraction unit 111 with reference to the search log database 121. Note that the processing of the first query extraction unit 112 here is 2 hops.

図11は、第1のIPアドレス抽出部111によって抽出されたIPアドレス、すなわち、図10で示した「123.45.678.901」、「234.56.789.012」・・・のそれぞれについて、第1のクエリ抽出部112が検索ログデータベース121を参照して抽出したときの例を示す。1つめのブロックは、2010年6月1日にIPアドレス「123.45.678.901」を有する端末から送信されたクエリを示し、例えば、「外為 abc証券」、「合宿免許 ghi自動車学校」、「ネットショップ 物流」等がある。クエリの右にある文字は、そのクエリを送信した回数を示す。   FIG. 11 shows the IP addresses extracted by the first IP address extraction unit 111, that is, “123.45.678.901”, “234.56.7799.012”... Shown in FIG. An example when the first query extraction unit 112 extracts the information by referring to the search log database 121 is shown. The first block shows a query sent from a terminal having an IP address “123.45.678.901” on June 1, 2010. For example, “Forex abc securities”, “camp license ghi driving school” , "Net shop logistics". The characters to the right of the query indicate the number of times that query has been sent.

2つめのブロックは、同日にIPアドレス「234.56.789.012」を有する端末から送信されたクエリを示し、例えば、「外為 abc証券」、「中古車 jkl販売」、「海外旅行 mnoツアーズ」等がある。3つめのブロックは、同日にIPアドレス「345.678.901.234」を有する端末から送信されたクエリを示し、例えば、「五月人形 def人形店」、「メガネ stuメガネ店」、「ダイヤモンド買取 ショップvwx」等がある。   The second block shows a query transmitted from the terminal having the IP address “234.56.789.012” on the same day. For example, “Forex abc securities”, “Used car jkl sale”, “Overseas travel mno tours” And so on. The third block shows a query sent from the terminal having the IP address “345.678.901.234” on the same day. For example, “May doll def doll store”, “Glasses stu glasses store”, “Diamond” Purchase shop vwx ".

続いて、図12及び図13について説明する。第2のIPアドレス抽出部113は、第1のクエリ抽出部112によって抽出されたクエリを送信した端末102のIPアドレスを、検索ログデータベース121を参照して抽出し、第2のクエリ抽出部114は、第2のIPアドレス抽出部113によって抽出されたIPアドレスの端末102から送信されたクエリを、検索ログデータベース121を参照して抽出する。そして、繰り返し部115は、第2のIPアドレス抽出部113によるIPアドレスの抽出と第2のクエリ抽出部114によるクエリの抽出とを交互に繰り返し実行する。つまり、第2のIPアドレス抽出部113は、3hopとしてのIPアドレスの抽出を実行し、第2のクエリ抽出部114は、4hopとしてのクエリの抽出を実行し、その後、繰り返し部115は、5hopとしての第2のIPアドレス抽出部113によるIPアドレスの抽出、6hopとしての第2のクエリ抽出部114によるクエリの抽出、・・・をn hopとしての第2のIPアドレス抽出部113によるIPアドレスの抽出を行うまで繰り返す。   Next, FIGS. 12 and 13 will be described. The second IP address extraction unit 113 extracts the IP address of the terminal 102 that has transmitted the query extracted by the first query extraction unit 112 with reference to the search log database 121, and the second query extraction unit 114. Extracts the query transmitted from the terminal 102 having the IP address extracted by the second IP address extracting unit 113 with reference to the search log database 121. Then, the repeating unit 115 alternately and repeatedly performs the extraction of the IP address by the second IP address extracting unit 113 and the extraction of the query by the second query extracting unit 114. That is, the second IP address extraction unit 113 executes extraction of an IP address as 3 hops, the second query extraction unit 114 executes extraction of a query as 4 hops, and then the repetition unit 115 performs 5 hops. IP address extraction by the second IP address extraction unit 113 as the second IP address extraction unit 113 as n hop, extraction of the IP address by the second IP address extraction unit 113 as 6 hop, extraction of the query by the second query extraction unit 114 as 6 hop Repeat until extraction is complete.

図12は、繰り返し部115が、第2のIPアドレス抽出部113によるIPアドレスの抽出と、第2のクエリ抽出部114によるクエリの抽出とを、m hopとしてのIPアドレスの抽出を行うまで繰り返したときの、m hop目でのIPアドレスの抽出の結果を示す。見方は図5と同じであり、上から、2010年6月1日にクエリ「外為 abc証券」、クエリ「合宿免許 ghi自動車学校」、クエリ「ネットショップ 物流」を送信した端末のIPアドレスを示す。また、図13は、繰り返し部115が、第2のIPアドレス抽出部113によるIPアドレスの抽出と、第2のクエリ抽出部114によるクエリの抽出とを、n hopとしてのIPアドレスの抽出を行うまで繰り返したときの、n hop目でのIPアドレスの抽出の結果を示す。見方は図5及び図12と同じであり、上から、2010年6月1日にクエリ「五月人形 def人形店」、クエリ「メガネ stuメガネ店」、クエリ「ダイヤモンド買取 ショップvwx」を送信した端末のIPアドレスを示す。なお、下線は、後の説明の便宜のために付したものであり、スパムクエリ判別装置101からの出力情報として付されるものではない。   In FIG. 12, the repetition unit 115 repeats the extraction of the IP address by the second IP address extraction unit 113 and the extraction of the query by the second query extraction unit 114 until the IP address is extracted as m hop. The result of extracting the IP address at the m hop is shown. The view is the same as in FIG. 5, and shows the IP address of the terminal that sent the query “Forex abc securities”, the query “camp license ghi driving school”, and the query “net shop logistics” on June 1, 2010 from the top. . In FIG. 13, the repetition unit 115 extracts the IP address as n hop by extracting the IP address by the second IP address extraction unit 113 and extracting the query by the second query extraction unit 114. 10 shows the result of extracting the IP address at the n hop point when the above is repeated. The way of viewing is the same as FIG. 5 and FIG. 12, and from the top, the query “May doll def doll store”, the query “glasses stu glasses store”, and the query “diamond purchase shop vwx” were sent on June 1, 2010. Indicates the IP address of the terminal. The underline is added for convenience of later explanation, and is not added as output information from the spam query determination device 101.

ところで、スパムクエリ判別部116は、繰り返し部115によって第1の回数だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスの種類数の、繰り返し部115によって第2の回数だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスの種類数に対する比を求める。そして、スパムクエリ判別部116は、その求めた比の値が所定の閾値以上の場合に、上記特定のクエリQがスパムクエリであると判別する。 By the way, the spam query discriminating unit 116 uses the repetition unit 115 to calculate the second number of IP address types extracted by the second IP address extraction unit 113 when the repetition unit 115 repeats the first number of times. The ratio with respect to the number of types of IP addresses extracted by the second IP address extracting unit 113 when it is repeated only is obtained. And the spam query discriminating unit 116 discriminates that the specific query Q 0 is a spam query when the ratio value obtained is equal to or larger than a predetermined threshold value.

実施形態2において、m、nの値は、m<nを満たす正の奇数である。図12を参照すると、繰り返し部115によって第1の回数だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスは、「123.45.678.901」、「234.56.789.012」・・・等である。ここで、便宜的に下線を引いているが、これは、第2のIPアドレス抽出部113によって抽出されたIPアドレスのうち、重複するものである。「種類数」を計算するにあたり、重複するものはまとめて「1」として計算するので、図12に明示された範囲では、繰り返し部115によって第1の回数(m hopまで)だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスの種類数は、「13」である。実際には、図12に明示されていないものもあるので、図12の右下にあるように、ここでは、IPアドレスの種類数が「50」であるものとして説明する。   In the second embodiment, the values of m and n are positive odd numbers that satisfy m <n. Referring to FIG. 12, the IP addresses extracted by the second IP address extracting unit 113 when the repetition unit 115 repeats the first number of times are “123.45.678.901” and “234.56”. .789.12 ”... Here, for convenience, the underline is underlined, but this is an overlapping IP address extracted by the second IP address extraction unit 113. When calculating the “number of types”, the overlapping items are collectively calculated as “1”. Therefore, when the number of types is repeated by the repetition unit 115 for the first number of times (up to m hop) within the range specified in FIG. The number of types of IP addresses extracted by the second IP address extracting unit 113 is “13”. Actually, there are some that are not explicitly shown in FIG. 12, so that the number of types of IP addresses is “50” here as shown in the lower right of FIG.

また、図13を参照すると、繰り返し部115によって第2の回数(n hopまで)だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスは、「123.45.678.901」、「156.43.621.724」・・・等である。図13に示されている範囲では、繰り返し部115によって第2の回数だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスの種類数は、「13」である。実際には、図13に明示されていないものもあるので、図13の右下にあるように、ここでは、IPアドレスの種類数が「80」であるものとして説明する。   Referring to FIG. 13, the IP address extracted by the second IP address extraction unit 113 when the repetition unit 115 repeats the second number of times (up to n hop) is “123.45.678. 901 "," 156.43.621.724 ", etc. In the range shown in FIG. 13, the number of types of IP addresses extracted by the second IP address extracting unit 113 when the repetition unit 115 repeats the second number of times is “13”. Actually, there are some that are not explicitly shown in FIG. 13, and therefore, here, as shown in the lower right of FIG. 13, it is assumed that the number of types of IP addresses is “80”.

繰り返し部115によって第1の回数だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスの種類数が「50」であり、繰り返し部115によって第2の回数だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスの種類数が「80」であれば、前者の後者に対する比は50/80(=0.625)となる。所定の閾値が0.625未満であれば、当該比の値は所定の閾値以上となるので、スパムクエリ判別部116は、上記特定のクエリ「外為 abc証券」がスパムクエリであると判別する。   The number of types of IP addresses extracted by the second IP address extraction unit 113 when the repetition unit 115 is repeated the first number of times is “50”, and the number of types of IP addresses extracted by the repetition unit 115 is the second number of times. If the number of types of IP addresses extracted by the second IP address extraction unit 113 at that time is “80”, the ratio of the former to the latter is 50/80 (= 0.625). If the predetermined threshold is less than 0.625, the value of the ratio is equal to or greater than the predetermined threshold. Therefore, the spam query determination unit 116 determines that the specific query “foreign abc securities” is a spam query.

第2実施形態に記載の発明によれば、検索ログデータベース121には、クエリと当該クエリを送信した端末のIPアドレスとを関連付けた検索ログが記憶され、第1のIPアドレス抽出部111は、特定のクエリQを送信した端末のIPアドレスを、検索ログデータベース121を参照して抽出し、第1のクエリ抽出部112は、そのIPアドレスの端末から送信されたクエリを、検索ログデータベース121を参照して抽出する。そして、第2のIPアドレス抽出部113は、第1のクエリ抽出部112によって抽出されたクエリを送信した端末102のIPアドレスを、検索ログデータベース121を参照して抽出し、第2のクエリ抽出部114は、第2のIPアドレス抽出部によって抽出されたIPアドレスの端末から送信されたクエリを、検索ログデータベース121を参照して抽出し、繰り返し部115は、第2のIPアドレス抽出部113によるIPアドレスの抽出と第2のクエリ抽出部114によるクエリの抽出とを交互に繰り返し実行し、スパムクエリ判別部116は、繰り返し部115によって第1の回数だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスの種類数の、繰り返し部115によって第2の回数だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスの種類数に対する比を求める。そして、その比の値が所定の値以上の場合、スパムクエリ判別部116は、上記特定のクエリQがスパムクエリであると判別する。 According to the invention described in the second embodiment, the search log database 121 stores a search log that associates a query with the IP address of a terminal that has transmitted the query, and the first IP address extraction unit 111 includes: The IP address of the terminal that has transmitted the specific query Q 0 is extracted with reference to the search log database 121, and the first query extraction unit 112 extracts the query transmitted from the terminal having the IP address as the search log database 121. Extract by referring to. Then, the second IP address extraction unit 113 extracts the IP address of the terminal 102 that has transmitted the query extracted by the first query extraction unit 112 with reference to the search log database 121, and performs the second query extraction. The unit 114 extracts a query transmitted from the terminal having the IP address extracted by the second IP address extracting unit with reference to the search log database 121, and the repeating unit 115 includes the second IP address extracting unit 113. The IP address extraction by the second query extraction unit 114 and the query extraction by the second query extraction unit 114 are alternately and repeatedly executed. The spam query determination unit 116 performs the second IP when the repetition unit 115 repeats the first number of times. The number of types of IP addresses extracted by the address extraction unit 113 is the second number of times by the repetition unit 115. Determining the ratio of the number of types of the returned IP address extracted by the second IP address extraction section 113 when the Ri. Then, if the value of the ratio is equal to or greater than a predetermined value, spam query determination unit 116, the particular query Q 0 is determined to be spam query.

通常のクエリの場合であれば、第1の回数だけ繰り返した後に抽出されたIPアドレスの種類数と比べて、第2の回数だけ繰り返した後に抽出されたIPアドレスの種類数は、十分増加する。これに対し、不正業者のスパムIPアドレスから送信されるスパムクエリの場合、当該不正業者が使用し得るIPアドレスの数が限られていることから、通常のクエリの場合に比べ、スパムクエリ判別装置101が抽出するIPアドレスの種類数の増加の割合は、低くなる。このことに着目し、スパムクエリ判別装置101が抽出するIPアドレスの当該種類数の増加の割合は、低くなる。このことに着目し、スパムクエリ判別装置101は、第1の回数だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスの種類数の、第2の回数だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスの種類数に対する比が所定の値以上の場合に、そのIPアドレスを有する端末から送信したクエリがスパムクエリであると判別する。   In the case of a normal query, the number of types of IP addresses extracted after repeating the second number of times is sufficiently larger than the number of types of IP addresses extracted after repeating the first number of times. . On the other hand, in the case of a spam query transmitted from a spam IP address of a fraudulent trader, the number of IP addresses that can be used by the fraudulent trader is limited. The rate of increase in the number of types of IP addresses extracted by 101 is low. Focusing on this, the rate of increase in the number of types of IP addresses extracted by the spam query determination apparatus 101 is low. Paying attention to this, the spam query discriminating apparatus 101 is repeated the second number of times of the number of types of IP addresses extracted by the second IP address extracting unit 113 when it is repeated the first number of times. When the ratio with respect to the number of types of IP addresses extracted by the second IP address extraction unit 113 is greater than or equal to a predetermined value, it is determined that the query transmitted from the terminal having the IP address is a spam query.

これにより、スパムクエリにスパムではない通常のクエリを混入させてカモフラージュするという巧妙な手口も含め、不正業者のスパムIPアドレスを有する装置から送信されるスパムクエリを効率的かつ効果的に判別できる。   This makes it possible to efficiently and effectively discriminate spam queries transmitted from a device having a spam IP address of a fraudster, including a clever technique of camouflaging a normal query that is not spam into a spam query.

なお、第1及び第2実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、第1及び第2実施形態に記載されたものに限定されるものではない。   It should be noted that the effects described in the first and second embodiments only list the most preferable effects resulting from the present invention, and the effects according to the present invention are the same as those described in the first and second embodiments. It is not limited.

1 スパムIPアドレス判別装置
10 制御部
11 第1のクエリ抽出部
12 第1のIPアドレス抽出部
13 第2のクエリ抽出部
14 第2のIPアドレス抽出部
15 繰り返し部
16 スパムIPアドレス判別部
20 記憶部
21 検索ログデータベース
DESCRIPTION OF SYMBOLS 1 Spam IP address discrimination | determination apparatus 10 Control part 11 1st query extraction part 12 1st IP address extraction part 13 2nd query extraction part 14 2nd IP address extraction part 15 Repeat part 16 Spam IP address discrimination | determination part 20 Memory | storage Part 21 Search log database

Claims (4)

クエリと当該クエリを送信した端末のIPアドレスとを関連付けた検索ログが記憶される検索ログ記憶手段と、
特定のIPアドレスの端末から送信されたクエリを、前記検索ログ記憶手段を参照して抽出する第1のクエリ抽出手段と、
前記第1のクエリ抽出手段によって抽出されたクエリを送信した端末のIPアドレスを、前記検索ログ記憶手段を参照して抽出する第1のIPアドレス抽出手段と、
前記第1のIPアドレス抽出手段又は第2のIPアドレス抽出手段によって抽出されたIPアドレスの端末から送信されたクエリを、前記検索ログ記憶手段を参照して抽出する第2のクエリ抽出手段と、
前記第2のクエリ抽出手段によって抽出されたクエリを送信した端末のIPアドレスを、前記検索ログ記憶手段を参照して抽出する前記第2のIPアドレス抽出手段と、
前記第2のクエリ抽出手段によるクエリの抽出と前記第2のIPアドレス抽出手段によるIPアドレスの抽出とを交互に繰り返し実行する繰り返し手段と、
前記繰り返し手段によって第1の回数だけ繰り返されたときの前記IPアドレス抽出手段によって抽出されたIPアドレスの種類数の、前記繰り返し手段によって前記第1の回数よりも多い第2の回数だけ繰り返されたときの前記IPアドレス抽出手段によって抽出されたIPアドレスの種類数に対する比を求め、その比の値が所定の値以上の場合には、前記特定のIPアドレスがスパムIPアドレスであると判別するスパムIPアドレス判別手段とを備えるスパムIPアドレス判別装置。
A search log storage means for storing a search log that associates the query with the IP address of the terminal that transmitted the query;
First query extraction means for extracting a query transmitted from a terminal having a specific IP address with reference to the search log storage means;
First IP address extracting means for extracting the IP address of the terminal that has transmitted the query extracted by the first query extracting means with reference to the search log storage means;
Second query extraction means for extracting a query transmitted from a terminal having an IP address extracted by the first IP address extraction means or the second IP address extraction means with reference to the search log storage means;
The second IP address extracting means for extracting the IP address of the terminal that has transmitted the query extracted by the second query extracting means with reference to the search log storage means;
Repetitive means for alternately and repeatedly executing query extraction by the second query extraction means and IP address extraction by the second IP address extraction means;
The number of types of IP addresses extracted by the IP address extraction unit when the repetition unit repeats the first number of times is repeated by the repetition unit a second number of times greater than the first number of times. Spam for determining the ratio of the number of types of IP addresses extracted by the IP address extracting means when the ratio is greater than or equal to a predetermined value, and that the specific IP address is a spam IP address A spam IP address discrimination device comprising IP address discrimination means.
スパムIPアドレス判別装置が実行する方法であって、
クエリと当該クエリを送信した端末のIPアドレスとを関連付けた検索ログが記憶された検索ログデータベースを参照して、特定のIPアドレスの端末から送信されたクエリを抽出する第1のクエリ抽出工程と、
前記第1のクエリ抽出工程で抽出したクエリを送信した端末のIPアドレスを、前記検索ログデータベースを参照して抽出する第1のIPアドレス抽出工程と、
前記第1のIPアドレス抽出工程又は第2のIPアドレス抽出工程で抽出したIPアドレスの端末から送信されたクエリを、前記検索ログデータベースを参照して抽出する第2のクエリ抽出工程と、
前記第2のクエリ抽出工程で抽出したクエリを送信した端末のIPアドレスを、前記検索ログデータベースを参照して抽出する前記第2のIPアドレス抽出工程と、
前記第2のクエリ抽出工程によるクエリの抽出と前記第2のIPアドレス抽出工程によるIPアドレスの抽出とを交互に繰り返し実行する繰り返し工程と、
前記IPアドレス抽出工程を第1の回数だけ繰り返したときに前記IPアドレス抽出工程で抽出したIPアドレスの種類数の、前記IPアドレス抽出工程を前記第1の回数よりも多い第2の回数だけ繰り返したときに前記IPアドレス抽出工程で抽出したIPアドレスの種類数に対する比を求め、その比の値が所定の値以上の場合に、前記特定のIPアドレスがスパムIPアドレスであると判断するスパムIPアドレス判別工程とを含むスパムIPアドレス判別方法。
A method performed by a spam IP address discrimination device,
A first query extraction step of extracting a query transmitted from a terminal having a specific IP address with reference to a search log database storing a search log in which a query and an IP address of a terminal that transmitted the query are associated; ,
A first IP address extracting step of extracting the IP address of the terminal that has transmitted the query extracted in the first query extracting step with reference to the search log database;
A second query extraction step of extracting a query transmitted from the terminal of the IP address extracted in the first IP address extraction step or the second IP address extraction step with reference to the search log database;
The second IP address extracting step of extracting the IP address of the terminal that has transmitted the query extracted in the second query extracting step with reference to the search log database;
A repetition step of alternately and repeatedly executing query extraction by the second query extraction step and IP address extraction by the second IP address extraction step;
When the IP address extraction step is repeated a first number of times, the number of types of IP addresses extracted in the IP address extraction step is repeated the second number of times greater than the first number of times. A spam IP that obtains a ratio to the number of types of IP addresses extracted in the IP address extraction step and determines that the specific IP address is a spam IP address when the ratio value is equal to or greater than a predetermined value A spam IP address determination method including an address determination step.
クエリと当該クエリを送信した端末のIPアドレスとを関連付けた検索ログが記憶される検索ログ記憶手段と、
特定のクエリを送信した端末のIPアドレスを、前記検索ログ記憶手段を参照して抽出する第1のIPアドレス抽出手段と、
前記第1のIPアドレス抽出手段によって抽出されたIPアドレスの端末から送信されたクエリを、前記検索ログ記憶手段を参照して抽出する第1のクエリ抽出手段と、
前記第1のクエリ抽出手段又は第2のクエリ抽出手段によって抽出されたクエリを送信した端末のIPアドレスを、前記検索ログ記憶手段を参照して抽出する第2のIPアドレス抽出手段と、
前記第2のIPアドレス抽出手段によって抽出されたIPアドレスの端末から送信されたクエリを、前記検索ログ記憶手段を参照して抽出する前記第2のクエリ抽出手段と、
前記第2のIPアドレス抽出手段によるIPアドレスの抽出と前記第2のクエリ抽出手段によるクエリの抽出とを交互に繰り返し実行する繰り返し手段と、
前記繰り返し手段によって第1の回数だけ繰り返されたときの前記IPアドレス抽出手段によって抽出されたIPアドレスの種類数の、前記繰り返し手段によって前記第1の回数よりも多い第2の回数だけ繰り返されたときの前記IPアドレス抽出手段によって抽出されたIPアドレスの種類数に対する比を求め、その比の値が所定の値以上の場合には、前記特定のクエリがスパムクエリであると判別するスパムクエリ判別手段とを備えるスパムクエリ判別装置。
A search log storage means for storing a search log that associates the query with the IP address of the terminal that transmitted the query;
First IP address extracting means for extracting an IP address of a terminal that has transmitted a specific query with reference to the search log storage means;
First query extraction means for extracting a query transmitted from a terminal having an IP address extracted by the first IP address extraction means with reference to the search log storage means;
Second IP address extraction means for extracting the IP address of the terminal that has transmitted the query extracted by the first query extraction means or the second query extraction means with reference to the search log storage means;
The second query extraction means for extracting a query transmitted from the terminal of the IP address extracted by the second IP address extraction means with reference to the search log storage means;
Repetitive means for alternately and repeatedly executing extraction of an IP address by the second IP address extraction means and extraction of a query by the second query extraction means;
The number of types of IP addresses extracted by the IP address extraction unit when the repetition unit repeats the first number of times is repeated by the repetition unit a second number of times greater than the first number of times. A spam query determination that obtains a ratio to the number of types of IP addresses extracted by the IP address extraction means and determines that the specific query is a spam query if the ratio is greater than or equal to a predetermined value And a spam query discrimination device.
スパムクエリ判別装置が実行する方法であって、
クエリと当該クエリを送信した端末のIPアドレスとを関連付けた検索ログが記憶された検索ログデータベースを参照して、特定のクエリを送信した端末のIPアドレスを抽出する第1のIPアドレス抽出工程と、
前記第1のIPアドレス抽出工程で抽出したIPアドレスの端末から送信されたクエリを、前記検索ログデータベースを参照して抽出する第1のクエリ抽出工程と、
前記第1のクエリ抽出工程又は第2のクエリ抽出工程によって抽出されたクエリを送信した端末のIPアドレスを、前記検索ログデータベースを参照して抽出する第2のIPアドレス抽出工程と、
前記第2のIPアドレス抽出工程で抽出したIPアドレスの端末から送信されたクエリを、前記検索ログデータベースを参照して抽出する第2のクエリ抽出工程と、
前記第2のIPアドレス抽出工程によるIPアドレスの抽出と前記第2のクエリ抽出工程によるクエリの抽出とを交互に繰り返し実行する繰り返し工程と、
前記IPアドレス抽出工程を第1の回数だけ繰り返したときに前記IPアドレス抽出工程で抽出したIPアドレスの種類数の、前記IPアドレス抽出工程を前記第1の回数よりも多い第2の回数だけ繰り返したときに前記IPアドレス抽出工程で抽出したIPアドレスの種類数に対する比を求め、その比の値が所定の値以上の場合に、前記特定のクエリがスパムクエリであると判断するスパムクエリ判別工程とを含むスパムクエリ判別方法。
A method executed by a spam query determination device,
A first IP address extracting step of extracting an IP address of a terminal that has transmitted a specific query with reference to a search log database in which a search log that associates the query with the IP address of the terminal that has transmitted the query is stored; ,
A first query extraction step of extracting a query transmitted from the terminal of the IP address extracted in the first IP address extraction step with reference to the search log database;
A second IP address extracting step of extracting the IP address of the terminal that has transmitted the query extracted by the first query extracting step or the second query extracting step with reference to the search log database;
A second query extraction step of extracting a query transmitted from the terminal of the IP address extracted in the second IP address extraction step with reference to the search log database;
An iterative process for alternately and repeatedly executing the extraction of the IP address by the second IP address extracting process and the extraction of the query by the second query extracting process;
When the IP address extraction step is repeated a first number of times, the number of types of IP addresses extracted in the IP address extraction step is repeated the second number of times greater than the first number of times. A spam query determination step of obtaining a ratio to the number of types of IP addresses extracted in the IP address extraction step and determining that the specific query is a spam query when the ratio is equal to or greater than a predetermined value Spam query determination method including.
JP2010149400A 2010-06-30 2010-06-30 Apparatus and method for determining spam IP address and apparatus and method for determining spam query Expired - Fee Related JP5121888B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010149400A JP5121888B2 (en) 2010-06-30 2010-06-30 Apparatus and method for determining spam IP address and apparatus and method for determining spam query

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010149400A JP5121888B2 (en) 2010-06-30 2010-06-30 Apparatus and method for determining spam IP address and apparatus and method for determining spam query

Publications (2)

Publication Number Publication Date
JP2012014355A JP2012014355A (en) 2012-01-19
JP5121888B2 true JP5121888B2 (en) 2013-01-16

Family

ID=45600725

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010149400A Expired - Fee Related JP5121888B2 (en) 2010-06-30 2010-06-30 Apparatus and method for determining spam IP address and apparatus and method for determining spam query

Country Status (1)

Country Link
JP (1) JP5121888B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10860664B2 (en) 2018-03-19 2020-12-08 Roblox Corporation Data flood checking and improved performance of gaming processes

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040225647A1 (en) * 2003-05-09 2004-11-11 John Connelly Display system and method
KR100736805B1 (en) * 2006-03-16 2007-07-09 엔에이치엔(주) Method and system for managing search mediation information
US8126874B2 (en) * 2006-05-09 2012-02-28 Google Inc. Systems and methods for generating statistics from search engine query logs
KR100913051B1 (en) * 2007-09-18 2009-08-20 엔에이치엔(주) Method for searching relation sudden rising word and system thereof
US8244752B2 (en) * 2008-04-21 2012-08-14 Microsoft Corporation Classifying search query traffic

Also Published As

Publication number Publication date
JP2012014355A (en) 2012-01-19

Similar Documents

Publication Publication Date Title
JP5020776B2 (en) Information security measure decision support apparatus and method, and computer program
US8615516B2 (en) Grouping similar values for a specific attribute type of an entity to determine relevance and best values
TWI566161B (en) Providing deep links in association with toolbars
US8412712B2 (en) Grouping methods for best-value determination from values for an attribute type of specific entity
US8161050B2 (en) Visualizing hyperlinks in a search results list
JP2013502000A (en) Method and system for web page content filtering
US9300755B2 (en) System and method for determining information reliability
TW201812689A (en) System, method, and device for identifying malicious address/malicious purchase order
CN107547552B (en) Website reputation degree evaluation method and device based on website feature identification and relationship topology
JP2014502753A (en) Web page information detection method and system
CN105247507A (en) Influence score of a brand
CN110945538B (en) Automatic rule recommendation engine
CN104765874A (en) Method and device for detecting click-cheating
JP2010176195A (en) Method for exhibiting connecting destination candidate of component in web application, and computer program and computer system therefor
CN103186666B (en) Method, device and equipment for searching based on favorites
US8973097B1 (en) Method and system for identifying business records
CN103207900B (en) Position-based information provides the method and apparatus of inquiry solicited message to targeted customer
US20150199357A1 (en) Selecting primary resources
JP6204981B2 (en) Providing consistent security information
JP5421309B2 (en) Posting apparatus and method for generating and posting action log messages
CN105187439A (en) Phishing website detection method and device
WO2017161018A1 (en) User interface for displaying network analytics
JP5121888B2 (en) Apparatus and method for determining spam IP address and apparatus and method for determining spam query
JP2011253240A (en) Information display program, information display program recording computer-readable recording medium, information display method, information display device and information service system
US20120290568A1 (en) System and method for providing search results

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120312

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121002

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121023

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151102

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5121888

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees