JP5118707B2 - 検索ログ悪用防止方法及び装置 - Google Patents

検索ログ悪用防止方法及び装置 Download PDF

Info

Publication number
JP5118707B2
JP5118707B2 JP2009539187A JP2009539187A JP5118707B2 JP 5118707 B2 JP5118707 B2 JP 5118707B2 JP 2009539187 A JP2009539187 A JP 2009539187A JP 2009539187 A JP2009539187 A JP 2009539187A JP 5118707 B2 JP5118707 B2 JP 5118707B2
Authority
JP
Japan
Prior art keywords
search
summary information
abnormal action
search word
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009539187A
Other languages
English (en)
Other versions
JP2010511246A5 (ja
JP2010511246A (ja
Inventor
キム,ヨン−ダイ
オー,ジャン・ミン
チョイ,ジェ・ゴル
キム,ドン・ウク
リー,ユン・シク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naver Corp
Original Assignee
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naver Corp filed Critical Naver Corp
Publication of JP2010511246A publication Critical patent/JP2010511246A/ja
Publication of JP2010511246A5 publication Critical patent/JP2010511246A5/ja
Application granted granted Critical
Publication of JP5118707B2 publication Critical patent/JP5118707B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/552Detecting local intrusion or implementing counter-measures involving long-term monitoring or reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)

Description

本発明は、インターネット検索に関するもので、特に、検索ログ(Search Logs)の悪用(Abusing)を效率的に防止する方法及びその装置に関する。
近年、インターネットの発達によってインターネットを用いた多様なサービスがユーザーに提供されており、その最も代表的なものは検索サービスといえる。検索サービスとは、検索サービスプロバイダにより提供される検索サイトの検索窓にユーザーが検索語を入力すると、検索サービスプロバイダが、入力された検索語に相応する情報を検索結果として提供することを意味する。
このように検索サービスを利用するために各ユーザーが入力する検索語及び各ユーザーの検索行為に関する情報は検索ログの形態で保存され、検索サービスプロバイダは、このような検索ログを分析することによってユーザーに多様な検索サービスを提供することができる。
例えば、キーワード広告では、キーワードの人気度に基づいて課金が決定される。ここで、人気度とは、検索ログ分析を通じて獲得した検索語の様相に基づいて決定されるもので、このような人気度に基づいて検索サービスプロバイダは広告要請者に中立的で正当な課金根拠を提示することができる
また、検索サービスプロバイダは、検索ログを用いて様々な1次、2次サービスを提供している。例えば、人気検索語、関連検索語サービスなどは、検索ログを用いて現在ユーザーの関心を受けている検索語、連関性のある検索語を提示している。このようなサービスに成功できたのは、ぼう大な検索ログがインターネットユーザーの純粋な意図の産物という前提を満たしたためである。
しかしながら、最近では、特定個人、特定集団の不正な意図が反映されるように検索ログに歪曲を加えようとする試みが増加してきている。これらの比重は今後も益々大きくなると推測される。このような検索ログの悪用(abusing)行為は検索ログを汚染させ、検索ログに依存している収益モデルの信頼墜落、サービスの品質低下を招くという問題点がある。
本発明は上記の問題点を解決するためのもので、その目的は、検索ログを追跡及び分析することによって、異常行為を検出し、汚染された部分を除去するための検索ログ悪用防止方法及びその装置を提供することにある。
上記目的を達成するための本発明の一側面による検索ログ悪用防止方法は、検索ログから異常行為を検査する対象を選別する段階と、選別された対象に対して正常から外れた度合を点数化し、異常行為を検出する段階を含む。一実施例において、前記検索ログ悪用防止方法は、所定の減点ロジックを用いて、前記検索ログから前記検出された異常行為を除去することによって前記検索ログを訂正する段階をさらに含むことができる。
前記検査対象選別段階は、前記検索ログから所定の時間ウィンドウ内に含まれた特定検索語の各IP別入力回数を統計的に解析した検索語要約情報及び特定IPにおける各検索語の入力回数を統計的に解析したIP要約情報のうち少なくとも一つを生成する段階を含み、前記異常行為検出段階で、前記検索語要約情報及びIP要約情報のうち少なくとも一つから前記異常行為を検出する。ここで、IPとは、インターネットプロトコル(Internet Protocol)を意味する。
ここで、前記要約情報生成段階は、前記検索ログから所定の時間ウィンドウ内に含まれた特定検索語の各IP別入力回数ベクトル及び特定IPにおける各検索語の入力回数ベクトルのうち少なくとも一つを生成する段階と、前記検索語要約情報を生成するために前記特定検索語の各IP別入力回数ベクトルの次元を縮小したり、前記IP要約情報を生成するために前記特定IPにおける各検索語の入力回数ベクトルの次元を縮小する段階を含む。
一方、前記入力回数ベクトルの次元縮小段階は、ハッシュバケツ(hashed-bucket)を用いて前記特定検索語の各IP別入力回数ベクトル及び特定IPにおける各検索語の入力回数ベクトルを、制限された数のバケツに対する回数ベクトルに変換する。
この時、前記検索語要約情報及びIP要約情報は統計的方法を用いて多次元分布(Distribution)にモデリングされることを特徴とする。
一方、前記異常行為検出段階は、前記多次元分布にモデリングされた検索語要約情報及びIP要約情報のうち少なくとも一つに対して中心から離れた度合によって異常の度合を点数として計算する段階と、前記計算された点数が所定の基準値以上である検索語要約情報及びIP要約情報のうち少なくとも一つに異常行為が含まれたと判断する段階と、を含み、この時、前記異常行為検出段階は、前記計算段階以前に、前記モデリングされた検索語要約情報及びIP要約情報のうち少なくとも一つの次元を縮小し、データを圧縮する段階をさらに含むことができる。
また、前記計算段階は、縮小された次元の互いに独立している標準正規分布のサンプルの和を通じてモデリングされる統計値を用いて所定基準値に対する割合として異常の度合に対する点数を計算する。
また、前記訂正段階は、分布の差を測定する情報理論を適用した減点ロジックを用いて、異常行為が検出された前記検索語要約情報及びIP要約情報のうち少なくとも一つから異常行為を除去する段階を含む。
上述した目的を達成するための本発明の他の側面による検索ログ悪用防止装置は、検索ログから異常行為を検査する対象を選別する前処理部と、前記選別された対象に対して正常から外れた度合を点数化し、異常行為を検出する異常行為検出部と、所定の減点ロジックを用いて前記検索ログから前記検出された異常行為を除去し、前記検索ログを訂正する異常行為訂正部と、を含む。
本発明の一実施例による検索ログ悪用防止装置の概略ブロック図である。 本発明の一実施例による検索ログ悪用防止方法を示すフローチャートである。 本発明の一実施例による検査対象選別過程の詳細を示すフローチャートである。 本発明の一実施例による異常行為検出過程の詳細を示すフローチャートである。 異常行為検出過程で用いられる統計方法を説明するための参考図である。 本発明の一実施例による検索ログ訂正過程の詳細を示すフローチャートである。 検索ログ訂正過程で用いられる本発明の一実施例による減点ロジックを示す図である。 本発明の一実施例によるユーザーインターフェース画面を示す図である。 本発明の一実施例による検索ログ悪用防止装置の性能実験結果を示す図である。 本発明の一実施例による検索ログ悪用防止装置の性能実験結果を示す図である。 本発明の一実施例による検索ログ悪用防止装置の性能実験結果を示す図である。 本発明の一実施例による検索ログ悪用防止装置の性能実験結果を示す図である。 本発明の一実施例による検索ログ悪用防止装置の性能実験結果を示す図である。
以下、添付の図面を参照しつつ、本発明の好適な実施例について詳細に説明する。本発明を説明する上で、関連している公知機能または構成についての具体的な説明が本発明の要旨を曖昧にすると判断される場合には適宜省略するものとする。また、後述される用語は本発明における機能を考慮して定義されたもので、これらはユーザー、運用者の意図または慣例などによって異なってくることができる。したがって、各用語は、本明細書全般にわたる内容に基づいて定義されるべきである。
図1は、本発明の一実施例による検索ログ悪用防止装置の概略ブロック図である。同図で、検索ログ悪用防止装置は、前処理部10、異常行為検出部20、及び異常行為訂正部30を含む。
前処理部10は、検索ログから異常行為を検査する対象を選別する。ここで、検索ログ全体に対して異常行為を検査するのではなく、前処理部10を通じて異常行為を検査する対象を選別する理由は、検索語の入力されたIPの数や検索語の数、またはそれらの組合せを考慮すると検索ログの数が多すぎになるためである。
このために、前処理部10はまず、検査時点に注目されるIP及び検索語候補を生成し、検査段階で使用する入力値を生成する。
前処理部10は、検索ログから所定の時間ウィンドウ内に含まれた特定検索語のIP別入力回数ベクトル及び/または特定IPにおける各検索語の入力回数ベクトルを生成し、生成された各入力回数ベクトルの次元を縮小し、検索語要約情報及び/またはIP要約情報を生成する。
このように、前処理部10は、特定検索語のIP別入力回数を統計的に解析した検索語要約情報、特定IPにおける各検索語の入力回数を統計的に解析したIP要約情報、またはこれらの組合せを生成し、生成された検索語要約情報及び/またはIP要約情報は統計的方法を用いて多次元分布(distribution)にモデリングされることができる。
一方、本発明の他の実施例として、異常行為を検査する対象を減らすために、本出願人により先出願された韓国登録特許第522029号に記載された“実時間急上昇検索語検出方法及び実時間急上昇検索語検出システム”の概念を適用し、ある程度注目されている検索語及び/またはIPのみを検査対象として選定することができる。
異常行為検出部20は、前処理部10により選別された対象に対して正常から外れた度合を点数化し、選別された対象から異常行為を検出する。すなわち、統計方法論に基盤した点数技法を導入し、IP別及び/または検索語別異常行為に対する点数算定手順を行なう。
異常行為検出部20は、統計的方法を用いて多次元分布(distribution)にモデリングされた検索語要約情報及び/またはIP要約情報に対して中心から離れた度合によって異常の度合を点数として計算し、計算された点数が所定の基準値以上である検索語要約情報及び/またはIP要約情報に異常行為が含まれたと判断する。この時、データ処理の効率を上げるために、点数を計算する前に、モデリングされた検索語要約情報及び/またはIP要約情報の次元を縮小することでデータを圧縮して処理することができる。
異常行為訂正部30は、所定の減点ロジックを用いて、異常行為検出部20により検出された異常行為を検索ログから除去することによって検索ログを訂正する。一実施例において、異常行為訂正部30は、分布の差を測定する情報理論を適用した減点ロジックを利用することによって、異常行為が検出された検索語要約情報及び/またはIP要約情報から汚染部分を除去することができる。すなわち、減点ロジックを用いて異常行為の検索回数を減点し、検索ログから正常行為のみを残す手順を行なう。これにより、不正意図による検索語悪用(Abusing)行為を検出及び治療し、検索ログをきれいに維持することができる。
以下、上述した本発明の一実施例による検索ログ悪用防止装置の構成に基づいて本発明の一実施例による検索ログ悪用防止方法を詳細に説明する。
図2は、本発明の一実施例による検索ログ悪用防止方法を示すフローチャートである。
図2を参照すると、検索ログの悪用を防止するために、まず、検索ログから異常行為を検査する対象を選別する(S100)。すなわち、一実施例において、検索ログから異常行為を検査する対象として、特定検索語のIP別入力回数を統計的に解析した検索語要約情報及び/または特定IPにおける各検索語の入力回数を統計的に解析したIP要約情報を選別する。この時、このような検索語要約情報とIP要約情報は統計的方法を用いて多次元分布(Distribution)にモデリングされることができる。
次に、選別された検索語要約情報及び/またはIP要約情報に対して正常から外れた度合を点数化し、異常行為を検出する(S200)。一実施例において、所定の減点ロジックを用いて検出された異常行為を除去することによって検索ログを訂正する段階(S300)をさらに含むことができる。
次に、検査対象を選別する過程について図3を参照してより具体的に説明する。
図3を参照すると、異常行為を検査する対象を選別するために、まず、検索ログから所定の時間ウィンドウ内で、特定検索語のIP別入力回数ベクトル及び/または特定IPにおける各検索語の入力回数ベクトルを生成する(S110)。その後、生成された各入力回数ベクトル、すなわち、特定検索語のIP別入力回数ベクトル及び/または特定IPにおける各検索語の入力回数ベクトルの次元を縮小し、検索語要約情報及び/またはIP要約情報を生成する(S120)。
以下、上述した検査対象選別過程を具体的な実施例に挙げてより詳細に説明する。ただし、下記の実施例は検査対象選別方法の一例に過ぎず、様々な変形が可能であることはもちろんである。
1.第1段階−前処理段階
検索語悪用調査のために検索ログDBからIP要約情報及び検索語要約情報を生成する必要がある。一つのIPは、特定時間に多数の検索語を入力する。このIPが行なう検索の様相が、他の普通のIPが行なう検索の様相と異なる度合を測定するためにIP要約情報を生成する必要がある。また、一つの検索語は様々なIPから入力される。したがって、該当の検索語を入力したIPに関する要約情報を生成する必要がある。
しかし、IPの数、検索語の数、及びこれらの組合せは非常にぼう大なので、検査の対象となるIP及び検索語を選別する必要がある。これらを全て処理するにはメモリー問題が生じるわけである。
1)入力ベクトルの表現
IP及び検索語要約情報を生成するために、まず、下記のようなベクトル表現を導入することができる。
全体IP数をN、全体検索語数Nとすれば、特定検索時点にあらかじめ定義された時間ウィンドウW内の特定IPに対する情報は、次のように特定IPで各検索語が入力された回数のベクトルで表すことができる。
ここで、
は、特定IPでk番目の検索語が入力された回数を意味する。
同様に、特定検索語に関する情報は、各IPで特定検索語が入力された回数のベクトルで表すことができる。
ここで、
は、k番目のIPで特定検索語を入力した回数を意味する。
しかし、全体IP数N及び全体検索語数Nが非常にぼう大なため、上記ベクトル表現を全て維持するにはメモリー問題にぶつからざるを得ない。
2)ハッシュバケツを用いた検査対象IP及び検索語の選別
一方、特定時間ウィンドウW内で特定IPで入力された検索語のうち、互いに異なる検索語の数は、全体検索語の数Nに比較するとごく少数に過ぎない。また、特定時間ウィンドウW内で特定検索語を入力したIPのうち、互いに異なるIPの数も全体IP数Nに比べるとごく少数に過ぎない。このような特性を用いて特定IPに関する要約情報及び特定検索語に関する要約情報を生成することによって、前述したメモリー問題を解決することができる。すなわち、全体検索語の数または全体IP数よりはごく少ないバケツの個数を持つハッシュバケツ(hashed bucket)を利用する。
バケツの個数 D << N, N とすれば、特定IPの要約情報は、下記のようにハッシュバケツの回数ベクトルで表現することができる。
ここで、
は、特定IPでk番目のバケツがヒットされた数を意味し、特定IPが入力した検索語qがある時、検索語qと関連したバケツのインデックスkをハッシュ関数を用いて次のように計算する。
次に、計算されたインデックスkに該当するバケツのカウントを増加させる。
このような過程により、特定IPに対する情報を、上記式5に表現されたように、バケツの個数Dだけの長さを持つベクトルで要約して表現することによってIP要約情報を生成することができる。また、同様に、検索語に関する情報をバケツの個数Dだけの長さを持つベクトルで要約して表現することによって検索語の要約情報も生成することができる。
これにより、IP情報及び検索語情報を、全体IP数N及び全体検索語数Nよりごく少ないバケツの数Dだけの長さを持つベクトルで要約して表現することによって、メモリー問題を解決することができる。
一方、上述した過程を通じて生成された検索語要約情報とIP要約情報は、統計的方法を用いて多次元分布にモデリングされることができる。
以下、上記の式5に表現されたハッシュバケツを用いたベクトル表現に基盤して異常行為の度合を点数化する方法を、異常行為検出過程の流れを詳細に示す図14を参照して具体的に説明する。
図4を参照すると、異常行為を検出するために、まず、統計的方法を用いて多次元分布にモデリングされた検索語要約情報及び/またはIP要約情報の次元を縮小することでデータを圧縮する(S210)。一実施例において、データを圧縮するための方法として、入力データを互いに直交する座標系に写像(Mapping)させる主成分分析(Principal Component Analysis:以下、‘PCA’と略す。)を利用することができる。
続いて、縮小された次元の検索語要約情報及び/またはIP要約情報に対して、中心から離れた度合によって異常の度合を点数として計算する(S220)。一実施例において、異常の度合を計算するために、縮小された次元の互いに独立した標準正規分布のサンプルの和を通じてモデリングされる統計値を用いて所定基準値に対する割合として異常の度合に対する点数を計算することができる。
最後に、計算された点数が所定の基準値以上である検索語要約情報及び/またはIP要約情報に異常行為が含まれたと判断する(S230)。すなわち、計算された点数が基準値以上である検索語要約情報及び/またはIP要約情報を異常行為として検出する。
以下、前述した異常行為検出過程を、具体的な実施例に上げてより詳細に説明する。下記の実施例は異常行為検出方法の一例に過ぎず、様々な変形が可能であることはもちろんである。
2.第2段階−異常行為検出段階
上記の式5で表現されたように、IP要約情報及び検索語要約情報はそれぞれ、特定IPにおける各検索語の入力回数情報及び特定検索語のIP別入力回数情報を元素とするベクトルで表現できる。
このベクトルを
とすれば、これは離散確率分布(Discrete distribution)を見せ、
で表現できる。
ここで、pは確率ベクトルで、下記のように計算される。
最終的に、本発明では確率ベクトルpを用いてIP要約情報及び/または検索語要約情報を、下記のような確率ベクトルの集合で表現する。
以下では、上記の式11のように確率ベクトルpを用いて表現される検索語要約情報及び/またはIP要約情報に対して正常行為から外れた度合を点数化する方法を提案する。
1)主成分分析を用いたデータ圧縮
本発明の一実施例によれば、より円滑なデータ処理のためにデータ圧縮過程を行なう。具体的には、PCAを用いてバケツの個数であるD次元を縮小することによってデータを圧縮する。すなわち、この方法は、IP要約情報または検索語要約情報を表す離散確率分布
から、写像された値の分散を大きくする主成分ベクトルを探すもので、これは該当の離散確率分布の特徴を最もよく説明する数個の固有ベクトルを探すということを意味する。
このようなPCA方法において、主成分ベクトルとしては、全体分散のうち該当の離散確率分布の分散をよく説明するd個の主成分ベクトル(ここで、d<Dである)のみを利用することが一般的である。この時、d個の主成分ベクトルに写像された入力データにおいて、各成分ごとに互いに異なる分散で写像された値間の相関関係(correlation)は存在しないし、各主成分ベクトルは直交することとなる。PCA方法は既に広く知られた公知の方法を使用するので、PCAについての具体的な説明は省略する。
このようなPCA方法を用いてバケツの個数がD次元だったIP要約情報または検索語要約情報を表す離散確率分布を、それよりはるかに少ない数のd次元にその次元を縮小することでデータを圧縮し、データ処理効率を上げることができる。
以下、主成分分析されたd次元の入力データを用いて正常行為から外れた度合を点数化する方法について具体的に説明する。
2)異常の度合を測定する点数化方法
前述したPCA方法を通じてd次元の主成分ベクトルに写像された入力データは、各成分ごとに互いに異なる分散を有することがわかる。これは、各次元ごとにスケーリングが異なるということを意味する。この場合、視覚化及び後処理に役立つように各次元ごとに分散が1となるように主成分ベクトルをスケーリングするプリホワイトニング技法(Prewhitening Method)を利用することができる。
プリホワイトニングされた写像行列
がある時、これに対する入力ベクトルxの写像値をd次元のベクトル
で表現するとする。この時、
は互いに相関関係がないし、分散
である。
さて、本発明によって異常行為を点数化するために下記のように仮定する。
1)各
は、標準正規分布N(0,1)に従う。
2)i≠jの時、
は互いに独立している。
ここで、一般に、相関関係がないということが互いに独立しているということを意味するわけではないが、本発明では、データ処理の効率を上げるために強い仮定を使用する。
このような仮定の下に、下記のような統計値を定義することができる。
一般に、統計学では自由度dのカイ二乗分布
は、d個の互い独立している標準正規分布のサンプルの和を通じてモデリングされる。したがって、上記の式21のような仮定の下に、統計値
は自由度dのカイ二乗分布に従うと見なすことができる。
以下では、臨界値αに対して、
を満足する最も小さいs値を
と定義する。ここで
はs境界までの累積確率分布値を表し、αは誤差水準または有意水準で、通常、0.05または0.01とすることが好ましい。結局、
は臨界値αを越えない正常範囲の最大境界を意味することから、境界
を越える全ての
は異常の範囲に含まれると考えることができる。
したがって、本発明では正常行為から外れた度合を点数化するために、悪用点数を下記の式で定義する。
すなわち、
が1より大きい値を持つほど、確率ベクトル
は小さい値を有し、確率ベクトルpが臨界値αよりも小さくなる。結局、これは、与えられた仮定の下に極めて稀であると判定する根拠を提供する。すなわち、上記の式30によって定義された悪用点数(score)値が1より大きい場合は、正常範囲から外れた稀な場合で、これは異常行為と判定されることができる。
上述した統計方法を、図5の例を参照して具体的に説明する。図5には、自由度1のカイ二乗分布の一例が示されている。
は、誤差水準または有意水準を表す臨界値がαの時のカイ二乗分布での正常範囲の最大境界902を意味するから、境界
を越える全ての
は異常範囲に含まれると考えることができる。
すなわち、確率ベクトル1から正常境界範囲までの累積確率分布
を減算した領域904が異常領域を意味し、この領域904に含まれる全ての
は異常範囲に含まれると考えることができる。
次に、図6を参照して本発明の一実施例による検索ログ訂正過程について詳細に説明する。
図6を参照すると、検索ログを訂正するために、分布の差を測定する情報理論を適用した減点ロジックを用いて異常行為として検出された検索語要約情報及び/またはIP要約情報から汚染部分を除去する(S310)。
この時、検索ログを訂正するための減点ロジック(Discounting Logic)は、母集団の確率模型と前述の異常行為が検出された検索語要約情報及び/またはIP要約情報の確率模型間の分布の差を表すKL距離(Kullback-Leibler Distance)を用いて異常行為を除去することができる。
以下、前述の検索ログ訂正過程を具体的な実施例に上げて詳細に説明する。下記の実施例は、検索ログ訂正方法の一例に過ぎず、様々な変形が可能であることはもちろんである。
3.第3段階−検索ログ訂正段階
1)分布の差を測定する手段−KL距離
上述したように、本発明の一実施例によって検索ログ訂正のために利用される減点ロジックは、異常行為が検出された検索語要約情報及び/またはIP要約情報の確率模型と母集団の確率模型間の分布の差を測定する手段としてKL距離を利用する。
このようなKL距離は情報理論(Information Theory)に根拠しているもので(Cover and Thomas(1991))、例えば、2つの分布p,qがあるとすれば、これら両分布間のKL距離は下記のように求めることができる。
したがって、KL距離は、両分布が同じ時に0の値を持つ。
2)減点ロジック
便宜上、モデルを構成するために使われたN個のデータを母集団とし、これをNXDの行列Mで表現する。この時、MのI番目の行miは、ハッシュバケツの回数を保存したベクトルである。行列Mを行を基準にして正規化(normalization)し、離散確率模型mを得る。
異常パターンのハッシュバケツベクトルをh、その離散確率模型をpとすれば、母集団の離散確率分布mと検査対象となる離散確率分布p間のKL距離は、下記のように計算される。
上記式40を用いてハッシュバケツベクトルhで特定元素の値を減らすと、変形された離散確率模型と母集団の離散確率模型間の差を減らすことができる。
具体的には、あるハッシュバケツiの
値が大きい正の値を持つほど、両分布間のKL距離が大きくなり、これは分布pを異常なものとさせる。したがって、異常行為を除去することで検索ログをきれいに維持するために、臨界値をβとする時、
のハッシュバケツが減点ロジックを適用する校正候補となる。
一方、図7は、本発明の一実施例によって検索ログ訂正過程に用いられる減点ロジックを説明するための図である。
図7には全体的な減点ロジックが示されている。ここで、“find()”関数は、()中の条件を満たす元素のインデックスを取り戻す関数である。“ceil()”関数は、()中の因子よりも大きい最も小さい整数を取り戻す関数である。演算子“.*”は、ベクトルの元素間の乗算を行なう。“score”は、上記の式30で定義した悪用点数を意味する。
は検索語入力回数を、pは
を正規化した確率関数を、βは校正候補を選定する臨界値を、fは母集団の離散確率分布mと検査対象となる離散確率分布p間のKL距離をそれぞれ意味する。
全体的な減点ロジックについて説明すると、まず、特定検索語のIP別入力回数または特定IPにおける各検索語の入力回数を正規化し確率関数を求め、母集団の離散確率模型との差に基づくKL距離を計算する(904)。求められたKL距離が臨界値βよりも大きいインデックスiを求める。求められたインデックスが異常行為の含まれた検索語またはIPを意味する。求められたインデックスに該当する検索回数を減少させ(906)、臨界値βを調整する。
以上の減点ロジックは、score<1と正常範囲に属したり臨界値β以上の候補がないまで反復する。特に反復の度にβを増加させる理由は、既に反復の初期に核心的な異常行為の減点がなされるから、次の反復では減点基準をより厳格にするためである。
一方、図8は、本発明の一実施例による検索ログ悪用防止装置により提供されるユーザーインターフェース画面である。
図8を参照すると、左側窓に検索対象として選別された検索語目録とIP目録が表示され、中間窓には異常の度合を計算した悪用点数によって減点処理すべきカウント数が表示される。
一方、図9〜図13は、本発明の一実施例による検索ログ悪用防止方法による実験結果を示す図である。
本発明の一実施例による検索ログ悪用防止方法の性能を確認するために、2006年7月7日12時30分頃の結果を調べる。本実験で時間ウィンドウWは1時間、ハッシュバケツの個数Dは32と設定した。また、臨界値α=0.01、β=log(1.8)、scale=log(1.3)と設定した。
検索語要約情報からモデルを構築し、検査候補集合に対して前述の悪用検査を行なった後、算定された悪用点数の高い上位20個の検索語が図9のように示される。これは、各サンプルの離散確率模型をヒストグラム形態で表現したもので、縦軸は確率値であって[0,1]に軸のスケールを固定した。横軸はハッシュバケツのインデックスを表す。絵の上端には検索語の名前と悪用点数(score)を記録した。上位20個の検索語はいずれも悪用点数が3〜9程度と、いずれも1以上であるから、異常行為が含まれたと予測される。
一方、図10には、本発明によって検出された上位20個の悪用検索語に対する減点処理結果の一例を示す。各行を見ると、減点以前の元来のハッシュバケツと、減点ロジックの反映されたハッシュバケツを対として表した。点数については、減点後には悪用点数が1未満となり、異常行為が除去されたことが確認できる。
一方、図11は、本発明によって上記減点処理結果と離散確率分布値を比較した結果を示す。悪用点数が3〜9程度と異常だった検索語の悪用点数が1以下となり、正常範囲に訂正されたことが確認できる。例えば、検索語“タイプ”の場合、9.673833だった悪用点数が、異常行為が除去される減点処理手順の後には0.211166程度となり、正常範囲内に訂正されたことがわかる。便宜上、減点後では縦軸を[0,0.1]にスケーリングした。
減点ロジックでKL距離を計算するための基準とされた母集団の確率模型は、図12に示す。
減点前と減点後の点数を比較した時、減点ロジックを通じて異常行為が除去されることによって、異常だった検索語の悪用点数が正常水準に回復したといえる。
図13には、上位40個の検索語に対する減点処理結果の一例を示す。左側に悪用点数が記載され、減点前の総検索回数と減点ロジックによって計算された減点回数が表示されている。すなわち、総検索回数から減点ロジックによって計算された減点回数を減算することによって、異常行為として検出された検索語から汚染された部分を除去し、検索ログを訂正できることがわかる。
以上では検索語要約情報を用いて異常と判断された検索語の検索回数を減点し、検索ログ上に正常行為の情報のみが維持されるようにする方法について説明した。大部分の検索語悪用問題は、前述したように検索語要約情報を用いた悪用検出及び治療方法だけで十分に解決することができる。しかし、検索語要約情報では悪用点数が1未満と正常行為として判断されるが、実際には検索語悪用による異常行為である場合が稀にある。このような場合にはIP要約情報を用いて悪用行為をさらに訂正することができる。このような方法は、検索語要約情報に対する悪用検出及び治療方法と略同様なので、その詳細な説明は省略する。
本発明では、検索ログにおける検索悪用の診断及び後処理を通じてきれいな検索ログを維持するための検索ログ悪用防止方法及び装置を提案した。すなわち、IP要約情報及び/または検索語要約情報を表現するためにハッシュバケツ基盤の資料構造を構築したし、これを離散確率模型に変換して入力データを表現した
また、正常サンプルに比べて異常サンプルを検出できる技法を提案した。入力データはPCA方法によって互いに直交する主成分ベクトルの空間に移され、ここで中心から離れた度合を測定する統計学基盤の点数化技法を提示した。
最後に、情報理論に基づいて異常なサンプルを正常なサンプルに変換する減点技法を提案した。
一方、前述した検索ログの悪用を防止する方法は、コンピュータプログラムとして作成可能である。当該プログラムを構成するコード及びコードセグメントは当該分野におけるコンピュータプログラマーによって容易に推論可能である。また、当該プログラムは、コンピュータ読取可能な情報記憶媒体(computer readable media)に記憶され、コンピュータによって読み取られて実行されることによって検索ログの悪用防止方法を具現する。当該情報記憶媒体は、磁気記録媒体、光記録媒体、及びキャリアウェーブ媒体を含む。
以上では本発明についてその好適な実施例に上げて説明してきた。本発明の属する技術分野における通常の知識を持つ者には、本発明が、本発明の本質的な特性を逸脱しない範囲で変形された形態に具現されることができるということが理解できる。したがって、開示された実施例は、限定的な観点ではなく説明的な観点で考慮されなければならない。本発明の範囲は、前述した説明ではなく特許請求の範囲に現れており、それと同等な範囲内にある差異点はいずれも本発明に含まれたものと解釈されるべきである。
前述した如く、本発明によれば、検索ログから異常行為を含む悪用検索語を效率的に検出し、悪用と判断された検索語の検索回数のうち有効な検索回数のみを残し、異常行為を除去することによって、検索ログに対する悪用を防止し、検索ログをきれいに維持することができる。

Claims (16)

  1. 検索ログの悪用を防止する方法であって、
    前記検索ログから異常行為を検査する対象を選別する前処理部と、前記選別された対象に対して正常から外れた度合を点数化して異常行為を検出する異常行為検出部と、前記検索ログから前記検出された異常行為を除去し、前記検索ログを訂正する異常行為訂正部と、を含むコンピュータ実行る処理が、
    前記前処理部が、複数のユーザー端末においインターネットを用いた検索サービスを利用するユーザーが実行した検索行為に関する情報である検索ログを生成し、前記検索ログから異常行為を検査する対象を選別する段階と、
    前記異常行為検出部が、前記選別された対象に対して正常から外れた度合を点数化し、異常行為を検出する段階と、
    前記異常行為訂正部が、前記検索ログから前記検出された異常行為を除去し、前記検索ログを訂正する段階と、を含み、
    前記前処理部による前記検査する対象を選別する段階は、前記検索ログから所定の時間ウィンドウ内に含まれた特定検索語の各IP別入力回数を統計的に解析した検索語要約情報及び特定IPにおける各検索語の入力回数を統計的に解析したIP要約情報のうち少なくとも一つを生成し、前記検索語要約情報及び前記IP要約情報を、統計的方法を用いて多次元分布にモデリングすることを含み、
    前記異常行為検出部による前記異常行為を検出する段階は、前記モデリングされた検索語要約情報及びIP要約情報のうち少なくとも一つから前記異常行為を検出することを含み、
    前記異常行為訂正部による前記検索ログを訂正する段階は、分布の差を測定する情報理論を適用した減点ロジックを用いて、前記異常行為が検出された検索語要約情報及びIP要約情報のうち少なくとも一つから異常行為を除去することを含むことを特徴とする、検索ログ悪用防止方法。
  2. 前記検索語要約情報及び前記IP要約情報を生成することは、
    前記検索ログから所定の時間ウィンドウ内に含まれた特定検索語の各IP別入力回数ベクトル及び特定IPにおける各検索語の入力回数ベクトルのうち少なくとも一つを生成する段階と、
    前記検索語要約情報を生成するために前記特定検索語の各IP別入力回数ベクトルの次元を縮小したり、前記IP要約情報を生成するために前記特定IPにおける各検索語の入力回数ベクトルの次元を縮小する段階を含むことを特徴とする、請求項1に記載の検索ログ悪用防止方法。
  3. 前記入力回数ベクトルの次元縮小段階は、
    ハッシュバケツ(hashed-bucket)を用いて前記特定検索語の各IP別入力回数ベクトル及び特定IPにおける各検索語の入力回数ベクトルを、制限された数のバケツに対する回数ベクトルに変換することを特徴とする、請求項2に記載の検索ログ悪用防止方法。
  4. 前記異常行為検出段階は、
    前記多次元分布にモデリングされた検索語要約情報及びIP要約情報のうち少なくとも一つに対して中心から離れた度合によって異常の度合を点数として計算する段階と、
    前記計算された点数が所定の基準値以上である検索語要約情報及びIP要約情報のうち少なくとも一つに異常行為が含まれたと判断する段階と、
    を含むことを特徴とする、請求項3に記載の検索ログ悪用防止方法。
  5. 前記異常行為検出段階は、
    前記計算段階以前に、前記モデリングされた検索語要約情報及びIP要約情報のうち少なくとも一つの次元を縮小し、データを圧縮する段階をさらに含むことを特徴とする、請求項4に記載の検索ログ悪用防止方法。
  6. 前記データ圧縮段階は、
    入力データを互いに直交する座標系に写像(mapping)させる主成分分析(Principal Component Analysis)方法を用いて行なわれることを特徴とする、請求項5に記載の検索ログ悪用防止方法。
  7. 前記計算段階は、
    前記縮小された次元の互いに独立した標準正規分布のサンプルの和を通じてモデリングされる統計値を用いて所定基準値に対する割合として異常の度合に対する点数を計算することを特徴とする、請求項5に記載の検索ログ悪用防止方法。
  8. 前記異常の度合に対する点数(Score)は、式
    を用いて計算され、ここで、統計値
    は互いに独立している標準正規分布のサンプルの和を通じてモデリングされる自由度dであるカイ二乗分布に従い、
    は臨界値αを越えない正常範囲の最大境界を表すことを特徴とする、請求項7に記載の検索ログ悪用防止方法。
  9. 前記
    を越える全ての
    は異常範囲に含まれると判断することを特徴とする、請求項8に記載の検索ログ悪用防止方法。
  10. 前記減点ロジックは、母集団の確率模型と前記異常行為が検出された検索語要約情報及びIP要約情報のうち少なくとも一つの確率模型間の分布の差を表すKL距離(Kullback-Leibler Distance)を用いて前記異常行為を除去することを特徴とする、請求項1に記載の検索ログ悪用防止方法。
  11. 前記検査対象選別段階は、前記異常行為を検査する対象として検索語及び/またはIPを選別し、
    前記異常行為検出段階で、前記選別された検索語及び/またはIPから異常行為を検出することを特徴とする、請求項1に記載の検索ログ悪用防止方法。
  12. 請求項1乃至11のいずれか1項に記載の検索ログ悪用防止方法をコンピュータで実行させるためのプログラムを記録した、コンピュータ読み取り可能な記録媒体。
  13. 検索ログから異常行為を検査する対象を選別する前処理部と、
    前記選別された対象に対して正常から外れた度合を点数化して異常行為を検出する異常行為検出部と、前記検索ログから前記検出された異常行為を除去し、前記検索ログを訂正する異常行為訂正部と、
    を含み、
    前記前処理部は、前記異常行為を検査する対象選別のために、前記検索ログから所定時間ウィンドウ内に含まれた特定検索語の各IP別入力回数を統計的に解析した検索語要約情報及び/または特定IPにおける各検索語の入力回数を統計的に解析したIP要約情報を生成し、前記検索語要約情報及び/または前記IP要約情報を統計的方法を用いて多次元分布にモデリングし、
    前記異常行為検出部は、前記モデリングされた検索語要約情報及び/またはIP要約情報のうち少なくとも一つから前記異常行為を検出し、
    前記異常行為訂正部は、分布の差を測定する情報理論を適用した減点ロジックを用いて、前記異常行為が検出された検索語要約情報及び/またはIP要約情報から異常行為を除去することを特徴とする、検索ログ悪用防止装置。
  14. 前記前処理部は、
    前記特定検索語の各IP別入力回数ベクトルの次元を縮小して前記検索語要約情報を生成し、特定IPにおける各検索語の入力回数ベクトルの次元を縮小して前記IP要約情報を生成することを特徴とする、請求項13に記載の検索ログ悪用防止装置。
  15. 前記異常行為検出部は、
    前記モデリングされた検索語要約情報及び/またはIP要約情報に対して中心から離れた度合によって異常の度合を点数として計算し、前記計算された点数が所定の基準値以上である検索語要約情報及び/またはIP要約情報に異常行為が含まれたと判断することを特徴とする、請求項13に記載の検索ログ悪用防止装置。
  16. 前記異常行為検出部は、
    前記点数を計算する以前に、前記モデリングされた検索語要約情報及び/またはIP要約情報の次元を縮小し、データを圧縮することを特徴とする、請求項15に記載の検索ログ悪用防止装置。
JP2009539187A 2006-11-29 2007-11-29 検索ログ悪用防止方法及び装置 Active JP5118707B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020060119284A KR100837334B1 (ko) 2006-11-29 2006-11-29 검색로그의 악용을 방지하는 방법 및 그 장치
KR10-2006-0119284 2006-11-29
PCT/KR2007/006104 WO2008066341A1 (en) 2006-11-29 2007-11-29 Method and apparatus for preventing from abusing search logs

Publications (3)

Publication Number Publication Date
JP2010511246A JP2010511246A (ja) 2010-04-08
JP2010511246A5 JP2010511246A5 (ja) 2011-01-27
JP5118707B2 true JP5118707B2 (ja) 2013-01-16

Family

ID=39468078

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009539187A Active JP5118707B2 (ja) 2006-11-29 2007-11-29 検索ログ悪用防止方法及び装置

Country Status (3)

Country Link
JP (1) JP5118707B2 (ja)
KR (1) KR100837334B1 (ja)
WO (1) WO2008066341A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101358266B1 (ko) * 2012-03-30 2014-02-20 (주)네오위즈게임즈 게임 어뷰저 검출 방법 및 이를 실행하는 게임 어뷰저 검출 서버
US20210035025A1 (en) * 2019-07-29 2021-02-04 Oracle International Corporation Systems and methods for optimizing machine learning models by summarizing list characteristics based on multi-dimensional feature vectors

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7136860B2 (en) * 2000-02-14 2006-11-14 Overture Services, Inc. System and method to determine the validity of an interaction on a network
KR100516929B1 (ko) * 2002-10-23 2005-09-23 한국과학기술정보연구원 작업관리 분석장치 및 방법과 그 프로그램을 저장한기록매체
JP2006079454A (ja) * 2004-09-10 2006-03-23 Fujitsu Ltd 検索キーワード分析方法、検索キーワード分析プログラムおよび検索キーワード分析装置
US7681181B2 (en) * 2004-09-30 2010-03-16 Microsoft Corporation Method, system, and apparatus for providing custom product support for a software program based upon states of program execution instability
US7848501B2 (en) * 2005-01-25 2010-12-07 Microsoft Corporation Storage abuse prevention
US7870147B2 (en) * 2005-03-29 2011-01-11 Google Inc. Query revision using known highly-ranked queries

Also Published As

Publication number Publication date
KR20080048827A (ko) 2008-06-03
WO2008066341A1 (en) 2008-06-05
JP2010511246A (ja) 2010-04-08
KR100837334B1 (ko) 2008-06-12

Similar Documents

Publication Publication Date Title
KR102061987B1 (ko) 위험 평가 방법 및 시스템
JP7153004B2 (ja) コミュニティ質問応答データの検証方法、装置、コンピュータ機器、及び記憶媒体
CN107168995B (zh) 一种数据处理方法及服务器
JP6667865B1 (ja) 会計情報処理装置、会計情報処理方法及び会計情報処理プログラム
WO2021174812A1 (zh) 用于画像的数据的清洗方法、装置、介质及电子设备
CN111144941A (zh) 商户评分的生成方法、装置、设备及可读存储介质
CN112966865B (zh) 携号转网预测方法、装置及设备
CN112328499A (zh) 一种测试数据生成方法、装置、设备及介质
CN113837596A (zh) 一种故障确定方法、装置、电子设备及存储介质
CN113849760A (zh) 敏感信息风险评估方法、系统和存储介质
CN112685324A (zh) 一种生成测试方案的方法及系统
JP6419667B2 (ja) テストdbデータ生成方法及び装置
CN114650447B (zh) 一种确定视频内容异常程度的方法、装置及计算设备
CN105405051B (zh) 金融事件预测方法和装置
US8612436B1 (en) Reverse engineering circumvention of spam detection algorithms
JP5118707B2 (ja) 検索ログ悪用防止方法及び装置
CN116701950B (zh) 一种推荐系统用点击率预测模型去偏方法、装置及介质
CN114168788A (zh) 音频审核的处理方法、装置、设备及存储介质
CN114697127B (zh) 一种基于云计算的业务会话风险处理方法及服务器
JP2008282111A (ja) 類似文書検索方法、プログラムおよび装置
EP2312516A1 (en) Denoising explicit feedback for recommender systems
CN113723522B (zh) 异常用户的识别方法、装置、电子设备以及存储介质
CN116933274B (zh) 组织综合风险评价方法、电子设备及存储介质
CN117319091B (zh) 基于深度学习的企业软件网络安全漏洞检测方法及系统
CN116187299B (zh) 一种科技项目文本数据检定评价方法、系统及介质

Legal Events

Date Code Title Description
A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20101126

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120427

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120522

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120822

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120829

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120920

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121016

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121019

R150 Certificate of patent or registration of utility model

Ref document number: 5118707

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151026

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250