CN103684896B

CN103684896B - 基于域名解析特征的网站作弊检测方法

Info

Publication number: CN103684896B
Application number: CN201210333167.0A
Authority: CN
Inventors: 耿光刚; 王利明; 胡安磊
Original assignee: Computer Network Information Center of CAS
Current assignee: China Internet Network Information Center
Priority date: 2012-09-07
Filing date: 2012-09-07
Publication date: 2017-02-01
Anticipated expiration: 2032-09-07
Also published as: CN103684896A

Abstract

本发明涉及基于域名解析特征的网站作弊检测方法，其步骤为：对取样出的样本网站进行分类得到训练集L和测试集T，提取出所述训练集L和测试集T中网站的特征向量；特征向量包括解析量和独立IP访问页数和基于所述解析量和独立IP访问页数的变换率向量、出入链接平均数向量和出入链接方差向量确定的多维向量；在所述训练集L中建立每个网站的多维向量形式，根据分类算法训练网站作弊分类器，建立判别模型；用户输入待检测网站后利用所述判别模型对待检测网站进行判定，输出作弊或非作弊结果给用户。本发明充分利用作弊网站以提升流量为目标的特点，以解析数据为核心的特征，并在该特征空间上训练分类器，利用该分类器对未知样本进行作弊与否的判定。

Description

基于域名解析特征的网站作弊检测方法

技术领域

本发明涉及一种网站作弊检测方法，特别涉及一种基于域名解析特性的网站作弊检测方法，属于网络安全领域。

背景技术

互联网搜索已经成为网民使用最多的互联网服务，CNNIC 2011年7月发布的报告称网民中每日使用搜索引擎的比例高达79.6％。研究结果显示，大约80％的用户在使用搜索引擎时只会浏览前3页的返回结果。网站作弊(Web Spam)，又叫搜索引擎作弊，是指采用一些迷惑、欺骗搜索引擎的手段，使得Web页面在检索结果中的排名高于实际应得排名的行为，它导致搜索引擎检索结果的质量严重下降。

针对网站作弊，大量相关应对策略被提了出来。现有的检测方法主要是基于内容分析和超链接分析，需要大量的计算和存储资源。另一方面，搜索引擎和网站作弊制造者之间的战争如同一场军备竞赛，每当搜索引擎发现了一个有效的方法并加以使用后，经过一段时间作弊者就找出应对方法，发明出新的作弊形式。

网站作弊是通过欺骗等不法手段提高网站的访问率，针对这一基本事实，本发明提出一种基于域名解析信息的网站作弊检测方法，通过分析网站的解析量变化情况，挖掘作弊与非作弊网站的潜在异同，从而打击各种以提高排名、提升访问量为手段牟利的作弊行为。域名解析特征可参考DNS and BIND，Fifth Edition by Paul Albitz，CricketLiu.2006.ISBN 0-596-10057-4。

发明内容

本发明从网站解析的特征出发，辅以网站出入超链接特征，对网站作弊与否做出判断。该发明的判定特征易于提取，判定特征的维数低，判定效率高，可对各类作弊行为进行统一检测。值得一提的是，该发明尤其适用于对新出现的作弊网站进行检测。

本发明的技术方案如下：基于域名解析特征的网站作弊检测方法，其步骤为：

1)对样本网站进行分类得到训练集L和测试集T；

2)提取出所述训练集L和测试集T中网站的特征向量；所述特征向量包括解析量、独立IP访问页数、基于所述解析量和独立IP访问页数的变换率向量、出入链接平均数向量和出入链接方差向量确定的多维向量；

3)在所述训练集L中建立每个网站的多维向量形式，根据分类算法训练网站作弊分类器，建立判别模型；

4)利用所述判别模型对用户输入的待检测网站进行检测，确定是否存在作弊行为。

所述解析量R＝(R2(x)+R1(x))/2，其中R1(x)和R2(x)分别表示网站x对应的域名在不同时刻的解析量。

所述独立IP访问页数N＝(R2(x)/N2(x)+R1(x)/N1(x))/2，其中N1(x)和N2(x)分别表示不同时段访问网站x对应域名的独立IP数。

所述特征向量包括：解析量R，独立IP访问页数N，解析量变化率RR，独立IP平均访问页数变化率NR，入链接网站的平均R，入链接网站的平均N，入链接网站的平均RR，入链接网站的平均NR，入链接网站的R方差，入链接网站的NR方差，入链接网站的RR方差，入链接网站的NR方差，出链接网站的平均R，出链接网站的平均N，出链接网站的平均RR，出链接网站的平均NR，出链接网站的R方差，出链接网站的N方差，出链接网站的RR方差，出链接网站的NR方差；提取特征向量后所述每个网站表示成二十维向量形式。

所述分类算法包括Adaboost算法、支持向量机算法、决策树算法、神经网络算法。

所述判别模型对训练集L中所有样本向量空间中同一维的所有值进行归一化处理。

所述特征向量基于两个不同时间段的域名解析日志，所述时间段为1～3个月。

所述域名解析日志包括域名递归服务解析日志或域名权威解析日志。

所述待检测网站以所述特征向量形式表示，再放入未归一化前的训练集L，进行归一化处理。

所述归一化采用0-1归一化算法。

本发明的有益效果：

本发明的核心是提取一系列以解析数据为核心的特征，并在该特征空间上训练分类器，利用该分类器对未知样本进行作弊与否的判定。从域名解析信息出发，充分利用作弊网站以提升流量为目标的特点，充分从解析层面挖掘作弊与非作弊网站的异同。利用该分类器不仅可对未知样本进行作弊与否的判定还可以对任何形式的网站作弊进行检测，适用范围广。

附图说明

图1为本发明基于域名解析特征的网站作弊检测方法实施例的流程示意图。

具体实施方式

下面结合附图和具体实施例进一步说明本发明实施例的技术方案。本实施例涉及的域名解析日志，可以为域名递归服务解析日志或域名权威解析日志，该日志是对网民访问DNS的记录，具体记录了网址、IP地址和访问时间等信息，本发明不做限定。

本发明中构建了一个包含各类作弊形式的数据集，数据集包含300作弊样本和2000非作弊样本，在该数据集上根据本发明的方法(其中，两次特征提取的时间间隔是1个月)进行判定，无论是准确率、召回率还是ROC曲线的面积(参考文献：Swets，John A.；Signal detection theory and ROC analysis in psychology and diagnostics：collected papers，Lawrence Erlbaum Associates，Mahwah，NJ，1996)，均取得了良好的效果，其中ROC曲线的面积0.86，好于基于链接分析和内容分析的作弊检测方法，实验结果证明了本发明方法的有效性。其基本步骤为：

1.将所有网站分成两个集合，分别是训练集(L)和测试集(T)，其中训练集中所有的网站有人工标注的是否作弊的标号。测试集则没有标号。在模式识别领域这是通用的训练集和测试集的构建方法。提取训练集(L)和测试集(T)上的所有样本(即网站)的时序特征，形成特征向量表示的样本集合；提取特征包括：解析量(R)，独立IP访问页数(N)，解析量变化率(RR)，独立IP平均访问页数变化率(NR)，入链接网站的平均R(IMR)，入链接网站的平均N(IMN)，入链接网站的平均RR(IMRR)，入链接网站的平均NR(IMNR)，入链接网站的R方差(IVR)，入链接网站的NR方差(IVN)，入链接网站的RR方差(IVRR)，入链接网站的NR方差(IVNR)，出链接网站的平均R(OMR)、和平均N(OMN)，出链接网站的平均RR(OMRR)、和平均NR(OMNR)，出链接网站的R方差(OVR)，出链接网站的N方差(OVN)，出链接网站的RR方差(OVRR)，出链接网站的NR方差(OVNR)。提取特征后每个网站表示成20维向量形式，特征空间R＝{R，N，RR，NR，IMR，IMN，IMRR，IMNR，IVRR，IVNR，IVR，IVN，OMR，OMN，OMRR，OMNR，OVR，OVN，OVRR，OVNR}。经过以上特征提取步骤，某一网站x将被表示为：x＝(R(x)，N(x)，RR(x)，NR(x)，IMR(x)，IMN(x)，IMRR(x)，IMNR(x)，IVR(x)，IVN(x)，IVRR(x)，IVNR(x)，OMR(x)，OMN(x)，OMRR(x)，OMNR(x)，OVR(x)，OVN(x)，OVRR(x)，OVNR(x))，x所属的类别为作弊类(ω1)或非作弊类(ω2)网站，该关系表示为C(x)∈{ω1，ω2}。C表示类别，即Classification 的简写，在本领域内普遍用大写C表示，即x所属的类别。

2.基于训练集，通过分类算法构造一个自适应模型用来判断网站是否作弊，在特征空间R上训练分类器(分类算法)，即进行模式学习，训练一个判定网站作弊与否的模型(M)。分类算法的选择不限于任何特定分类算法，可以为Adaboost，支持向量机、决策树、神经网络等，可参考文献Cortes，Corinna；and Vapnik，Vladimir N.；″Support-VectorNetworks″，Machine Learning，20，1995.

3.基于上一个步骤学习的模型M，对训练集上的样本进行逐一的作弊判定。基于模型M也可以对任意未知的网站进行作弊与否的判定，判定前需要将该未知样本表示为特征空间R上的向量。所有判定的输出结果均为某网站Y作弊，或非作弊，即给出C(Y)的值：ω1或ω2。

该方法克服了现有的大规模链接分析(通过链接分析实现作弊检测的，例如参考文件Zolt′an Gy¨ongyi，Hector Garcia-Molina，and JanPedersen.Combating web spamwith TrustRank.In Proceedings of the 30th International Conference on VeryLarge Databases (VLDB)，2004.)和内容分析的作弊检测方法计算复杂高、存储空间大的缺点。本发明的方法，特征提取均围绕解析日志，所有特征的提取负责度均为线性的，方便快捷。另一方面，该发明也克服了原有的方法对新作弊形式无能为力的缺点，对任何作弊(链接作弊、内容作弊、隐藏作弊、跳转作弊等)方式均有效。

如图1为本发明基于域名解析特征的网站作弊检测方法实施例的流程示意图，如图1所示，本发明基于域名解析特征的网站作弊检测方法包括以下步骤：

步骤100、特征提取：一系列以网站解析信息为核心的特征提取，在特征空间R上表示所有样本网站。提取训练集(L)和测试集(T)上的所有样本(即网站)的特征，形成特征向量表示的样本集合。本实施例的所有特征都是基于两个不同时间段的域名解析日志，两个时间段中间要有一段相对较长的时间间隔，20维特征都是基于两个时间段统计的。

该间隔一般为1-3个月，两个时段分别为T1和T2，可以任意选择，其中，T1在前，T2在后。只是说明T2的时间段发生在T1后，T2的数据并不一定比T1的内容多。比如某年1月1日(T1)，某网站解析100次，同年的2月1日(T2)该网站解析20次。T1和T2仅仅是统计的时间不一样。

本步骤提取的特征包括：解析量(R)，独立IP访问页数(N)，解析量变化率(RR)，独立IP平均访问页数变化率(NR)，入链接网站的平均R(IMR)，入链接网站的平均N(IMN)，入链接网站的平均RR(IMRR)，入链接网站的平均NR(IMNR)，入链接网站的RR方差(IVR)，入链接网站的NR方差(IVN)，入链接网站的RR方差(IVRR)，入链接网站的NR方差(IVNR)，出链接网站的平均R(OMR)、和平均N(OMN)，出链接网站的平均RR(OMRR)、和平均NR(OMNR)，出链接网站的R方差(OVR)，出链接网站的N方差(OVN)，出链接网站的RR方差(OVRR)，出链接网站的NR方差(OVNR)。以上特征的提取，针对解析量和独立IP访问量这两个核心点，并分析其变化率、以及充分挖掘网站的拓扑依赖，力求从多层面挖掘作弊与非作弊网站的统计差异。以下具体描述这些特征的计算公式：

解析量(R)，R(x)＝(R2(x)+R1(x))/2，其中R1(x)和R2(x)分别表示网站x对应的域名在T1和T2时刻的解析量，即用户的访问量。

独立IP访问页数(N)，N＝(R2(x)/N2(x)+R1(x)/N1(x))/2，其中N1(x)和N2(x)分别表示T1和T2时段访问网站x对应域名的独立IP数。

解析量变化率(RR)，RR(x)＝(R2(x)-R1(x))/(R2(x)+R1(x))，提取解析量变化率是基于：所有的网站作弊行为的目的都是提高网站的访问量，从而进一步将关注转化为金钱。因此网站访问量的变化，将会很大程度上反应作弊网站和非作弊网站的统计差异。

独立IP平均访问页数变化率(NR)，提取NR的理由：相比较于正常网站，作弊网站通过欺骗手段获得的点击，往往不会带来网民的多次站内点击。一般来说，一个正规的网站，会随着网站的品质的提升，不断吸引用户的页面浏览量不断提高。该特征潜在的可以给出作弊、非作弊的不同统计表现。即NR＝(R2(x)/N2(x)-R1(x)/N1(x))/(R2(x)/N2(x)+R1(x)/N1(x))

入链接网站的平均R(IMR)，其中inlink(x)表示网站x的入链接网站集合。

入链接网站的平均N(IMN)，其中inlink(x)表示网站x的入链接网站集合。

入链接网站的平均RR(IMRR)，大量统计显示，作弊网页一般不会被高信誉网站链接，往往链向它的也是些低信誉网站；而另一方面，高信誉(非作弊)网站之间则往往互相引用，表示互相欣赏、推荐。据此，我们期待，IMRR可以很好给出网站作弊与非作弊的指示。

入链接网站的平均NR(IMNR)，该特征的提取基于IMRR同样的假设。

入链接网站的R方差(IVR)，作弊网站的拓扑近邻可能拥有相似的特点，非作弊网站则不然，据此，我们提取IVRR。

入链接网站的N方差(IVN)，

IVN (x) = \frac{Σ_{a &Element; inlink (x)} (N (a) - IMN (x))}{| inlink (x) |} .

入链接网站的RR方差(IVRR)，

IVRR (x) = \frac{Σ_{a &Element; inlink (x)} (RR (a) - IMRR (x))}{| inlink (x) |} .

入链接网站的NR方差(IVNR)，

IVNR (x) = \frac{Σ_{a &Element; inlink (x)} (RR (a) - IMNR (x))}{| inlink (x) |} .

类似的给出出链接相关特征如下：

出链接网站的平均R(OMR)，

OMR (x) = \frac{Σ_{a &Element; outlink (x)} R (a)}{| outlink (x) |} .

出链接网站的平均N(OMN)，

OMN (x) = \frac{Σ_{a &Element; outlink (x)} N (a)}{| outlink (x) |} .

出链接网站的平均RR(OMRR)，

OMRR (x) = \frac{Σ_{a &Element; outlink (x)} RR (a)}{| outlink (x) |} .

出链接网站的平均NR(OMNR)，

OMNR (x) = \frac{Σ_{a &Element; outlink (x)} NR (a)}{| outlink (x) |} .

出链接网站的R方差(OVR)，

OVR (x) = \frac{Σ_{a &Element; outlink (x)} (R (a) - OMR (x))}{| outlink (x) |} .

出链接网站的N方差(OVN)，

OVN (x) = \frac{Σ_{a &Element; outlink (x)} (R (a) - OMN (x))}{| outlink (x) |} .

出链接网站RR方差(OVRR)，

OVRR (x) = \frac{Σ_{a &Element; outlink (x)} (RR (a) - OMRR (x))}{| outlink (x) |} .

出链接网站NR方差(OVNR)，

OVNR (x) = \frac{Σ_{a &Element; outlink (x)} (RR (a) - OMNR (x))}{| outlink (x) |} .

提取特征后每个网站表示成20维向量形式，特征空间R＝{R，N，RR，NR，IMR，IMN，IMRR，IMNR，IVRR，IVNR，IVR，IVN，OMR，OMN，OMRR，OMNR，OVR，OVN，OVRR，OVNR}。经过以上特征提取步骤，某一网站x将被表示为：x＝(R(x)，N(x)，RR(x)，NR(x)，IMR(x)，IMN(x)，IMRR(x)，IMNR(x)，IVR(x)，IVN(x)，IVRR(x)，IVNR(x)，OMR(x)，OMN(x)，OMRR(x)，OMNR(x)，OVR(x)，OVN(x)，OVRR(x)，OVNR(x))，x所属的类别为作弊类(ω1)或非作弊类(ω2)网站，该关系表示为C(x)∈{ω1，ω2}。

步骤200、模型学习：在特征空间R上，基于训练样本集，训练分类器，获得分类判别模型M。基于训练集，在特征空间R上训练分类器(分类算法)，即进行模型学习，训练一个判定网站作弊与否的模型(M)。该步骤中，分类算法的选择不限于任何特定分类算法，可以为Adaboost，支持向量机、决策树、神经网络等。

该步骤中需要对训练集中所有的样本的列进行归一化处理，所谓的样本的列指所有样本向量空间中同一维的所有值，具体可以采用0-1归一化处理算法，这样做可以避免部分大值特征主导分类，进一步提高了模型的准确性。

步骤300、分类判断：利用判别模型M对待检测网站进行判定，输出网站作弊与否的判定结果。基于上一个步骤分类算法和学习的模型M，对训练集上的样本进行逐一的作弊判定，分别给出作弊与否的判定结果。基于模型M也可以对任意未知的网站进行作弊与否的判定，判定前需要将该未知样本表示为特征空间R上的向量。所有判定的输出结果均为某网站Y作弊，或非作弊，即给出C(Y)的值：ω1或ω2。

该步骤中，待检测网站的向量形式表示的样本，需要放入未归一化之前的训练集，进行归一化处理，具体的归一化可采用步骤200相同的Adaboost，支持向量机、决策树、神经网络算法等分类算法。

虽然本发明以实施例揭示如上，但其并非用以限定本发明，任何本领域技术人员，在不脱离本发明的精神和范围内，可作任意改动或等同替换，故本发明的保护范围应当以本申请权利要求书所界定的范围为准。

Claims

1.基于域名解析特征的网站作弊检测方法，其步骤为：

1)对样本网站进行分类得到训练集L和测试集T；

2)提取出所述训练集L和测试集T中网站的特征向量；所述特征向量包括解析量R，独立IP访问页数N，解析量变化率RR，独立IP平均访问页数变化率NR，入链接网站的平均R，入链接网站的平均N，入链接网站的平均RR，入链接网站的平均NR，入链接网站的R方差，入链接网站的NR方差，入链接网站的RR方差，入链接网站的NR方差，出链接网站的平均R，出链接网站的平均N，出链接网站的平均RR，出链接网站的平均NR，出链接网站的R方差，出链接网站的N方差，出链接网站的RR方差及出链接网站的NR方差；提取特征向量后每个网站表示成二十维向量形式；

2.如权利要求1所述的基于域名解析特征的网站作弊检测方法，其特征在于，所述解析量R＝(R2(x)+R1(x))/2，其中R1(x)和R2(x)分别表示网站x对应的域名在不同时刻的解析量。

3.如权利要求1所述的基于域名解析特征的网站作弊检测方法，其特征在于，所述独立IP访问页数N＝(R2(x)/N2(x)+R1(x)/N1(x))/2，其中N1(x)和N2(x)分别表示不同时段访问网站x对应域名的独立IP数。

4.如权利要求1所述的基于域名解析特征的网站作弊检测方法，其特征在于，所述分类算法包括Adaboost算法、支持向量机算法、决策树算法、神经网络算法。

5.如权利要求1所述的基于域名解析特征的网站作弊检测方法，其特征在于，所述判别模型对训练集L中所有样本向量空间中同一维的所有值进行归一化处理。

6.如权利要求1所述的基于域名解析特征的网站作弊检测方法，其特征在于，所述特征向量基于两个不同时间段的域名解析日志，所述时间段为1～3个月。

7.如权利要求6所述的基于域名解析特征的网站作弊检测方法，其特征在于，所述域名解析日志包括域名递归服务解析日志或域名权威解析日志。

8.如权利要求1所述的基于域名解析特征的网站作弊检测方法，其特征在于，所述待检测网站以所述特征向量形式表示，再放入未归一化前的训练集L，进行归一化处理。

9.如权利要求8所述的基于域名解析特征的网站作弊检测方法，其特征在于，所述归一化采用0-1归一化算法。