JP5118707B2 - 検索ログ悪用防止方法及び装置 - Google Patents
検索ログ悪用防止方法及び装置 Download PDFInfo
- Publication number
- JP5118707B2 JP5118707B2 JP2009539187A JP2009539187A JP5118707B2 JP 5118707 B2 JP5118707 B2 JP 5118707B2 JP 2009539187 A JP2009539187 A JP 2009539187A JP 2009539187 A JP2009539187 A JP 2009539187A JP 5118707 B2 JP5118707 B2 JP 5118707B2
- Authority
- JP
- Japan
- Prior art keywords
- search
- summary information
- abnormal action
- search word
- abnormal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/552—Detecting local intrusion or implementing counter-measures involving long-term monitoring or reporting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Storage Device Security (AREA)
Description
また、検索サービスプロバイダは、検索ログを用いて様々な1次、2次サービスを提供している。例えば、人気検索語、関連検索語サービスなどは、検索ログを用いて現在ユーザーの関心を受けている検索語、連関性のある検索語を提示している。このようなサービスに成功できたのは、ぼう大な検索ログがインターネットユーザーの純粋な意図の産物という前提を満たしたためである。
検索語悪用調査のために検索ログDBからIP要約情報及び検索語要約情報を生成する必要がある。一つのIPは、特定時間に多数の検索語を入力する。このIPが行なう検索の様相が、他の普通のIPが行なう検索の様相と異なる度合を測定するためにIP要約情報を生成する必要がある。また、一つの検索語は様々なIPから入力される。したがって、該当の検索語を入力したIPに関する要約情報を生成する必要がある。
IP及び検索語要約情報を生成するために、まず、下記のようなベクトル表現を導入することができる。
一方、特定時間ウィンドウW内で特定IPで入力された検索語のうち、互いに異なる検索語の数は、全体検索語の数NQに比較するとごく少数に過ぎない。また、特定時間ウィンドウW内で特定検索語を入力したIPのうち、互いに異なるIPの数も全体IP数NIに比べるとごく少数に過ぎない。このような特性を用いて特定IPに関する要約情報及び特定検索語に関する要約情報を生成することによって、前述したメモリー問題を解決することができる。すなわち、全体検索語の数または全体IP数よりはごく少ないバケツの個数を持つハッシュバケツ(hashed bucket)を利用する。
上記の式5で表現されたように、IP要約情報及び検索語要約情報はそれぞれ、特定IPにおける各検索語の入力回数情報及び特定検索語のIP別入力回数情報を元素とするベクトルで表現できる。
このベクトルを
本発明の一実施例によれば、より円滑なデータ処理のためにデータ圧縮過程を行なう。具体的には、PCAを用いてバケツの個数であるD次元を縮小することによってデータを圧縮する。すなわち、この方法は、IP要約情報または検索語要約情報を表す離散確率分布
前述したPCA方法を通じてd次元の主成分ベクトルに写像された入力データは、各成分ごとに互いに異なる分散を有することがわかる。これは、各次元ごとにスケーリングが異なるということを意味する。この場合、視覚化及び後処理に役立つように各次元ごとに分散が1となるように主成分ベクトルをスケーリングするプリホワイトニング技法(Prewhitening Method)を利用することができる。
プリホワイトニングされた写像行列
1)各
2)i≠jの時、
以下では、臨界値αに対して、
上述した統計方法を、図5の例を参照して具体的に説明する。図5には、自由度1のカイ二乗分布の一例が示されている。
すなわち、確率ベクトル1から正常境界範囲までの累積確率分布
1)分布の差を測定する手段−KL距離
上述したように、本発明の一実施例によって検索ログ訂正のために利用される減点ロジックは、異常行為が検出された検索語要約情報及び/またはIP要約情報の確率模型と母集団の確率模型間の分布の差を測定する手段としてKL距離を利用する。
便宜上、モデルを構成するために使われたN個のデータを母集団とし、これをNXDの行列Mで表現する。この時、MのI番目の行miは、ハッシュバケツの回数を保存したベクトルである。行列Mを行を基準にして正規化(normalization)し、離散確率模型mを得る。
具体的には、あるハッシュバケツiの
図7には全体的な減点ロジックが示されている。ここで、“find()”関数は、()中の条件を満たす元素のインデックスを取り戻す関数である。“ceil()”関数は、()中の因子よりも大きい最も小さい整数を取り戻す関数である。演算子“.*”は、ベクトルの元素間の乗算を行なう。“score”は、上記の式30で定義した悪用点数を意味する。
また、正常サンプルに比べて異常サンプルを検出できる技法を提案した。入力データはPCA方法によって互いに直交する主成分ベクトルの空間に移され、ここで中心から離れた度合を測定する統計学基盤の点数化技法を提示した。
Claims (16)
- 検索ログの悪用を防止する方法であって、
前記検索ログから異常行為を検査する対象を選別する前処理部と、前記選別された対象に対して正常から外れた度合を点数化して異常行為を検出する異常行為検出部と、前記検索ログから前記検出された異常行為を除去し、前記検索ログを訂正する異常行為訂正部と、を含むコンピュータが実行する処理が、
前記前処理部が、複数のユーザー端末においてインターネットを用いた検索サービスを利用するユーザーが実行した検索行為に関する情報である検索ログを生成し、前記検索ログから異常行為を検査する対象を選別する段階と、
前記異常行為検出部が、前記選別された対象に対して正常から外れた度合を点数化し、異常行為を検出する段階と、
前記異常行為訂正部が、前記検索ログから前記検出された異常行為を除去し、前記検索ログを訂正する段階と、を含み、
前記前処理部による前記検査する対象を選別する段階は、前記検索ログから所定の時間ウィンドウ内に含まれた特定検索語の各IP別入力回数を統計的に解析した検索語要約情報及び特定IPにおける各検索語の入力回数を統計的に解析したIP要約情報のうち少なくとも一つを生成し、前記検索語要約情報及び前記IP要約情報を、統計的方法を用いて多次元分布にモデリングすることを含み、
前記異常行為検出部による前記異常行為を検出する段階は、前記モデリングされた検索語要約情報及びIP要約情報のうち少なくとも一つから前記異常行為を検出することを含み、
前記異常行為訂正部による前記検索ログを訂正する段階は、分布の差を測定する情報理論を適用した減点ロジックを用いて、前記異常行為が検出された検索語要約情報及びIP要約情報のうち少なくとも一つから異常行為を除去することを含むことを特徴とする、検索ログ悪用防止方法。 - 前記検索語要約情報及び前記IP要約情報を生成することは、
前記検索ログから所定の時間ウィンドウ内に含まれた特定検索語の各IP別入力回数ベクトル及び特定IPにおける各検索語の入力回数ベクトルのうち少なくとも一つを生成する段階と、
前記検索語要約情報を生成するために前記特定検索語の各IP別入力回数ベクトルの次元を縮小したり、前記IP要約情報を生成するために前記特定IPにおける各検索語の入力回数ベクトルの次元を縮小する段階を含むことを特徴とする、請求項1に記載の検索ログ悪用防止方法。 - 前記入力回数ベクトルの次元縮小段階は、
ハッシュバケツ(hashed-bucket)を用いて前記特定検索語の各IP別入力回数ベクトル及び特定IPにおける各検索語の入力回数ベクトルを、制限された数のバケツに対する回数ベクトルに変換することを特徴とする、請求項2に記載の検索ログ悪用防止方法。 - 前記異常行為検出段階は、
前記多次元分布にモデリングされた検索語要約情報及びIP要約情報のうち少なくとも一つに対して中心から離れた度合によって異常の度合を点数として計算する段階と、
前記計算された点数が所定の基準値以上である検索語要約情報及びIP要約情報のうち少なくとも一つに異常行為が含まれたと判断する段階と、
を含むことを特徴とする、請求項3に記載の検索ログ悪用防止方法。 - 前記異常行為検出段階は、
前記計算段階以前に、前記モデリングされた検索語要約情報及びIP要約情報のうち少なくとも一つの次元を縮小し、データを圧縮する段階をさらに含むことを特徴とする、請求項4に記載の検索ログ悪用防止方法。 - 前記データ圧縮段階は、
入力データを互いに直交する座標系に写像(mapping)させる主成分分析(Principal Component Analysis)方法を用いて行なわれることを特徴とする、請求項5に記載の検索ログ悪用防止方法。 - 前記計算段階は、
前記縮小された次元の互いに独立した標準正規分布のサンプルの和を通じてモデリングされる統計値を用いて所定基準値に対する割合として異常の度合に対する点数を計算することを特徴とする、請求項5に記載の検索ログ悪用防止方法。 - 前記異常の度合に対する点数(Score)は、式
- 前記
- 前記減点ロジックは、母集団の確率模型と前記異常行為が検出された検索語要約情報及びIP要約情報のうち少なくとも一つの確率模型間の分布の差を表すKL距離(Kullback-Leibler Distance)を用いて前記異常行為を除去することを特徴とする、請求項1に記載の検索ログ悪用防止方法。
- 前記検査対象選別段階は、前記異常行為を検査する対象として検索語及び/またはIPを選別し、
前記異常行為検出段階で、前記選別された検索語及び/またはIPから異常行為を検出することを特徴とする、請求項1に記載の検索ログ悪用防止方法。 - 請求項1乃至11のいずれか1項に記載の検索ログ悪用防止方法をコンピュータで実行させるためのプログラムを記録した、コンピュータ読み取り可能な記録媒体。
- 検索ログから異常行為を検査する対象を選別する前処理部と、
前記選別された対象に対して正常から外れた度合を点数化して異常行為を検出する異常行為検出部と、前記検索ログから前記検出された異常行為を除去し、前記検索ログを訂正する異常行為訂正部と、
を含み、
前記前処理部は、前記異常行為を検査する対象選別のために、前記検索ログから所定時間ウィンドウ内に含まれた特定検索語の各IP別入力回数を統計的に解析した検索語要約情報及び/または特定IPにおける各検索語の入力回数を統計的に解析したIP要約情報を生成し、前記検索語要約情報及び/または前記IP要約情報を統計的方法を用いて多次元分布にモデリングし、
前記異常行為検出部は、前記モデリングされた検索語要約情報及び/またはIP要約情報のうち少なくとも一つから前記異常行為を検出し、
前記異常行為訂正部は、分布の差を測定する情報理論を適用した減点ロジックを用いて、前記異常行為が検出された検索語要約情報及び/またはIP要約情報から異常行為を除去することを特徴とする、検索ログ悪用防止装置。 - 前記前処理部は、
前記特定検索語の各IP別入力回数ベクトルの次元を縮小して前記検索語要約情報を生成し、特定IPにおける各検索語の入力回数ベクトルの次元を縮小して前記IP要約情報を生成することを特徴とする、請求項13に記載の検索ログ悪用防止装置。 - 前記異常行為検出部は、
前記モデリングされた検索語要約情報及び/またはIP要約情報に対して中心から離れた度合によって異常の度合を点数として計算し、前記計算された点数が所定の基準値以上である検索語要約情報及び/またはIP要約情報に異常行為が含まれたと判断することを特徴とする、請求項13に記載の検索ログ悪用防止装置。 - 前記異常行為検出部は、
前記点数を計算する以前に、前記モデリングされた検索語要約情報及び/またはIP要約情報の次元を縮小し、データを圧縮することを特徴とする、請求項15に記載の検索ログ悪用防止装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060119284A KR100837334B1 (ko) | 2006-11-29 | 2006-11-29 | 검색로그의 악용을 방지하는 방법 및 그 장치 |
KR10-2006-0119284 | 2006-11-29 | ||
PCT/KR2007/006104 WO2008066341A1 (en) | 2006-11-29 | 2007-11-29 | Method and apparatus for preventing from abusing search logs |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2010511246A JP2010511246A (ja) | 2010-04-08 |
JP2010511246A5 JP2010511246A5 (ja) | 2011-01-27 |
JP5118707B2 true JP5118707B2 (ja) | 2013-01-16 |
Family
ID=39468078
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009539187A Active JP5118707B2 (ja) | 2006-11-29 | 2007-11-29 | 検索ログ悪用防止方法及び装置 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP5118707B2 (ja) |
KR (1) | KR100837334B1 (ja) |
WO (1) | WO2008066341A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101358266B1 (ko) * | 2012-03-30 | 2014-02-20 | (주)네오위즈게임즈 | 게임 어뷰저 검출 방법 및 이를 실행하는 게임 어뷰저 검출 서버 |
US20210035025A1 (en) * | 2019-07-29 | 2021-02-04 | Oracle International Corporation | Systems and methods for optimizing machine learning models by summarizing list characteristics based on multi-dimensional feature vectors |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7136860B2 (en) * | 2000-02-14 | 2006-11-14 | Overture Services, Inc. | System and method to determine the validity of an interaction on a network |
KR100516929B1 (ko) * | 2002-10-23 | 2005-09-23 | 한국과학기술정보연구원 | 작업관리 분석장치 및 방법과 그 프로그램을 저장한기록매체 |
JP2006079454A (ja) * | 2004-09-10 | 2006-03-23 | Fujitsu Ltd | 検索キーワード分析方法、検索キーワード分析プログラムおよび検索キーワード分析装置 |
US7681181B2 (en) * | 2004-09-30 | 2010-03-16 | Microsoft Corporation | Method, system, and apparatus for providing custom product support for a software program based upon states of program execution instability |
US7848501B2 (en) * | 2005-01-25 | 2010-12-07 | Microsoft Corporation | Storage abuse prevention |
US7870147B2 (en) * | 2005-03-29 | 2011-01-11 | Google Inc. | Query revision using known highly-ranked queries |
-
2006
- 2006-11-29 KR KR1020060119284A patent/KR100837334B1/ko active IP Right Grant
-
2007
- 2007-11-29 WO PCT/KR2007/006104 patent/WO2008066341A1/en active Application Filing
- 2007-11-29 JP JP2009539187A patent/JP5118707B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
KR20080048827A (ko) | 2008-06-03 |
WO2008066341A1 (en) | 2008-06-05 |
JP2010511246A (ja) | 2010-04-08 |
KR100837334B1 (ko) | 2008-06-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102061987B1 (ko) | 위험 평가 방법 및 시스템 | |
JP7153004B2 (ja) | コミュニティ質問応答データの検証方法、装置、コンピュータ機器、及び記憶媒体 | |
CN107168995B (zh) | 一种数据处理方法及服务器 | |
JP6667865B1 (ja) | 会計情報処理装置、会計情報処理方法及び会計情報処理プログラム | |
WO2021174812A1 (zh) | 用于画像的数据的清洗方法、装置、介质及电子设备 | |
CN111144941A (zh) | 商户评分的生成方法、装置、设备及可读存储介质 | |
CN112966865B (zh) | 携号转网预测方法、装置及设备 | |
CN112328499A (zh) | 一种测试数据生成方法、装置、设备及介质 | |
CN113837596A (zh) | 一种故障确定方法、装置、电子设备及存储介质 | |
CN113849760A (zh) | 敏感信息风险评估方法、系统和存储介质 | |
CN112685324A (zh) | 一种生成测试方案的方法及系统 | |
JP6419667B2 (ja) | テストdbデータ生成方法及び装置 | |
CN114650447B (zh) | 一种确定视频内容异常程度的方法、装置及计算设备 | |
CN105405051B (zh) | 金融事件预测方法和装置 | |
US8612436B1 (en) | Reverse engineering circumvention of spam detection algorithms | |
JP5118707B2 (ja) | 検索ログ悪用防止方法及び装置 | |
CN116701950B (zh) | 一种推荐系统用点击率预测模型去偏方法、装置及介质 | |
CN114168788A (zh) | 音频审核的处理方法、装置、设备及存储介质 | |
CN114697127B (zh) | 一种基于云计算的业务会话风险处理方法及服务器 | |
JP2008282111A (ja) | 類似文書検索方法、プログラムおよび装置 | |
EP2312516A1 (en) | Denoising explicit feedback for recommender systems | |
CN113723522B (zh) | 异常用户的识别方法、装置、电子设备以及存储介质 | |
CN116933274B (zh) | 组织综合风险评价方法、电子设备及存储介质 | |
CN117319091B (zh) | 基于深度学习的企业软件网络安全漏洞检测方法及系统 | |
CN116187299B (zh) | 一种科技项目文本数据检定评价方法、系统及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A524 | Written submission of copy of amendment under article 19 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A524 Effective date: 20101126 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101126 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120207 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120427 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120522 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20120822 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20120829 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120920 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121016 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121019 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5118707 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151026 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |