CN103684896B - 基于域名解析特征的网站作弊检测方法 - Google Patents

基于域名解析特征的网站作弊检测方法 Download PDF

Info

Publication number
CN103684896B
CN103684896B CN201210333167.0A CN201210333167A CN103684896B CN 103684896 B CN103684896 B CN 103684896B CN 201210333167 A CN201210333167 A CN 201210333167A CN 103684896 B CN103684896 B CN 103684896B
Authority
CN
China
Prior art keywords
website
link
domain name
cheating
average
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210333167.0A
Other languages
English (en)
Other versions
CN103684896A (zh
Inventor
耿光刚
王利明
胡安磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Internet Network Information Center
Original Assignee
Computer Network Information Center of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Computer Network Information Center of CAS filed Critical Computer Network Information Center of CAS
Priority to CN201210333167.0A priority Critical patent/CN103684896B/zh
Publication of CN103684896A publication Critical patent/CN103684896A/zh
Application granted granted Critical
Publication of CN103684896B publication Critical patent/CN103684896B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及基于域名解析特征的网站作弊检测方法,其步骤为:对取样出的样本网站进行分类得到训练集L和测试集T,提取出所述训练集L和测试集T中网站的特征向量;特征向量包括解析量和独立IP访问页数和基于所述解析量和独立IP访问页数的变换率向量、出入链接平均数向量和出入链接方差向量确定的多维向量;在所述训练集L中建立每个网站的多维向量形式,根据分类算法训练网站作弊分类器,建立判别模型;用户输入待检测网站后利用所述判别模型对待检测网站进行判定,输出作弊或非作弊结果给用户。本发明充分利用作弊网站以提升流量为目标的特点,以解析数据为核心的特征,并在该特征空间上训练分类器,利用该分类器对未知样本进行作弊与否的判定。

Description

基于域名解析特征的网站作弊检测方法
技术领域
本发明涉及一种网站作弊检测方法,特别涉及一种基于域名解析特性的网站作弊检测方法,属于网络安全领域。
背景技术
互联网搜索已经成为网民使用最多的互联网服务,CNNIC 2011年7月发布的报告称网民中每日使用搜索引擎的比例高达79.6%。研究结果显示,大约80%的用户在使用搜索引擎时只会浏览前3页的返回结果。网站作弊(Web Spam),又叫搜索引擎作弊,是指采用一些迷惑、欺骗搜索引擎的手段,使得Web页面在检索结果中的排名高于实际应得排名的行为,它导致搜索引擎检索结果的质量严重下降。
针对网站作弊,大量相关应对策略被提了出来。现有的检测方法主要是基于内容分析和超链接分析,需要大量的计算和存储资源。另一方面,搜索引擎和网站作弊制造者之间的战争如同一场军备竞赛,每当搜索引擎发现了一个有效的方法并加以使用后,经过一段时间作弊者就找出应对方法,发明出新的作弊形式。
网站作弊是通过欺骗等不法手段提高网站的访问率,针对这一基本事实,本发明提出一种基于域名解析信息的网站作弊检测方法,通过分析网站的解析量变化情况,挖掘作弊与非作弊网站的潜在异同,从而打击各种以提高排名、提升访问量为手段牟利的作弊行为。域名解析特征可参考DNS and BIND,Fifth Edition by Paul Albitz,CricketLiu.2006.ISBN 0-596-10057-4。
发明内容
本发明从网站解析的特征出发,辅以网站出入超链接特征,对网站作弊与否做出判断。该发明的判定特征易于提取,判定特征的维数低,判定效率高,可对各类作弊行为进行统一检测。值得一提的是,该发明尤其适用于对新出现的作弊网站进行检测。
本发明的技术方案如下:基于域名解析特征的网站作弊检测方法,其步骤为:
1)对样本网站进行分类得到训练集L和测试集T;
2)提取出所述训练集L和测试集T中网站的特征向量;所述特征向量包括解析量、独立IP访问页数、基于所述解析量和独立IP访问页数的变换率向量、出入链接平均数向量和出入链接方差向量确定的多维向量;
3)在所述训练集L中建立每个网站的多维向量形式,根据分类算法训练网站作弊分类器,建立判别模型;
4)利用所述判别模型对用户输入的待检测网站进行检测,确定是否存在作弊行为。
所述解析量R=(R2(x)+R1(x))/2,其中R1(x)和R2(x)分别表示网站x对应的域名在不同时刻的解析量。
所述独立IP访问页数N=(R2(x)/N2(x)+R1(x)/N1(x))/2,其中N1(x)和N2(x)分别表示不同时段访问网站x对应域名的独立IP数。
所述特征向量包括:解析量R,独立IP访问页数N,解析量变化率RR,独立IP平均访问页数变化率NR,入链接网站的平均R,入链接网站的平均N,入链接网站的平均RR,入链接网站的平均NR,入链接网站的R方差,入链接网站的NR方差,入链接网站的RR方差,入链接网站的NR方差,出链接网站的平均R,出链接网站的平均N,出链接网站的平均RR,出链接网站的平均NR,出链接网站的R方差,出链接网站的N方差,出链接网站的RR方差,出链接网站的NR方差;提取特征向量后所述每个网站表示成二十维向量形式。
所述分类算法包括Adaboost算法、支持向量机算法、决策树算法、神经网络算法。
所述判别模型对训练集L中所有样本向量空间中同一维的所有值进行归一化处理。
所述特征向量基于两个不同时间段的域名解析日志,所述时间段为1~3个月。
所述域名解析日志包括域名递归服务解析日志或域名权威解析日志。
所述待检测网站以所述特征向量形式表示,再放入未归一化前的训练集L,进行归一化处理。
所述归一化采用0-1归一化算法。
本发明的有益效果:
本发明的核心是提取一系列以解析数据为核心的特征,并在该特征空间上训练分类器,利用该分类器对未知样本进行作弊与否的判定。从域名解析信息出发,充分利用作弊网站以提升流量为目标的特点,充分从解析层面挖掘作弊与非作弊网站的异同。利用该分类器不仅可对未知样本进行作弊与否的判定还可以对任何形式的网站作弊进行检测,适用范围广。
附图说明
图1为本发明基于域名解析特征的网站作弊检测方法实施例的流程示意图。
具体实施方式
下面结合附图和具体实施例进一步说明本发明实施例的技术方案。本实施例涉及的域名解析日志,可以为域名递归服务解析日志或域名权威解析日志,该日志是对网民访问DNS的记录,具体记录了网址、IP地址和访问时间等信息,本发明不做限定。
本发明中构建了一个包含各类作弊形式的数据集,数据集包含300作弊样本和2000非作弊样本,在该数据集上根据本发明的方法(其中,两次特征提取的时间间隔是1个月)进行判定,无论是准确率、召回率还是ROC曲线的面积(参考文献:Swets,John A.;Signal detection theory and ROC analysis in psychology and diagnostics:collected papers,Lawrence Erlbaum Associates,Mahwah,NJ,1996),均取得了良好的效果,其中ROC曲线的面积0.86,好于基于链接分析和内容分析的作弊检测方法,实验结果证明了本发明方法的有效性。其基本步骤为:
1.将所有网站分成两个集合,分别是训练集(L)和测试集(T),其中训练集中所有的网站有人工标注的是否作弊的标号。测试集则没有标号。在模式识别领域这是通用的训练集和测试集的构建方法。提取训练集(L)和测试集(T)上的所有样本(即网站)的时序特征,形成特征向量表示的样本集合;提取特征包括:解析量(R),独立IP访问页数(N),解析量变化率(RR),独立IP平均访问页数变化率(NR),入链接网站的平均R(IMR),入链接网站的平均N(IMN),入链接网站的平均RR(IMRR),入链接网站的平均NR(IMNR),入链接网站的R方差(IVR),入链接网站的NR方差(IVN),入链接网站的RR方差(IVRR),入链接网站的NR方差(IVNR),出链接网站的平均R(OMR)、和平均N(OMN),出链接网站的平均RR(OMRR)、和平均NR(OMNR),出链接网站的R方差(OVR),出链接网站的N方差(OVN),出链接网站的RR方差(OVRR),出链接网站的NR方差(OVNR)。提取特征后每个网站表示成20维向量形式,特征空间R={R,N,RR,NR,IMR,IMN,IMRR,IMNR,IVRR,IVNR,IVR,IVN,OMR,OMN,OMRR,OMNR,OVR,OVN,OVRR,OVNR}。经过以上特征提取步骤,某一网站x将被表示为:x=(R(x),N(x),RR(x),NR(x),IMR(x),IMN(x),IMRR(x),IMNR(x),IVR(x),IVN(x),IVRR(x),IVNR(x),OMR(x),OMN(x),OMRR(x),OMNR(x),OVR(x),OVN(x),OVRR(x),OVNR(x)),x所属的类别为作弊类(ω1)或非作弊类(ω2)网站,该关系表示为C(x)∈{ω1,ω2}。C表示类别,即Classification 的简写,在本领域内普遍用大写C表示,即x所属的类别。
2.基于训练集,通过分类算法构造一个自适应模型用来判断网站是否作弊,在特征空间R上训练分类器(分类算法),即进行模式学习,训练一个判定网站作弊与否的模型(M)。分类算法的选择不限于任何特定分类算法,可以为Adaboost,支持向量机、决策树、神经网络等,可参考文献Cortes,Corinna;and Vapnik,Vladimir N.;″Support-VectorNetworks″,Machine Learning,20,1995.
3.基于上一个步骤学习的模型M,对训练集上的样本进行逐一的作弊判定。基于模型M也可以对任意未知的网站进行作弊与否的判定,判定前需要将该未知样本表示为特征空间R上的向量。所有判定的输出结果均为某网站Y作弊,或非作弊,即给出C(Y)的值:ω1或ω2。
该方法克服了现有的大规模链接分析(通过链接分析实现作弊检测的,例如参考文件Zolt′an Gy¨ongyi,Hector Garcia-Molina,and JanPedersen.Combating web spamwith TrustRank.In Proceedings of the 30th International Conference on VeryLarge Databases (VLDB),2004.)和内容分析的作弊检测方法计算复杂高、存储空间大的缺点。本发明的方法,特征提取均围绕解析日志,所有特征的提取负责度均为线性的,方便快捷。另一方面,该发明也克服了原有的方法对新作弊形式无能为力的缺点,对任何作弊(链接作弊、内容作弊、隐藏作弊、跳转作弊等)方式均有效。
如图1为本发明基于域名解析特征的网站作弊检测方法实施例的流程示意图,如图1所示,本发明基于域名解析特征的网站作弊检测方法包括以下步骤:
步骤100、特征提取:一系列以网站解析信息为核心的特征提取,在特征空间R上表示所有样本网站。提取训练集(L)和测试集(T)上的所有样本(即网站)的特征,形成特征向量表示的样本集合。本实施例的所有特征都是基于两个不同时间段的域名解析日志,两个时间段中间要有一段相对较长的时间间隔,20维特征都是基于两个时间段统计的。
该间隔一般为1-3个月,两个时段分别为T1和T2,可以任意选择,其中,T1在前,T2在后。只是说明T2的时间段发生在T1后,T2的数据并不一定比T1的内容多。比如某年1月1日(T1),某网站解析100次,同年的2月1日(T2)该网站解析20次。T1和T2仅仅是统计的时间不一样。
本步骤提取的特征包括:解析量(R),独立IP访问页数(N),解析量变化率(RR),独立IP平均访问页数变化率(NR),入链接网站的平均R(IMR),入链接网站的平均N(IMN),入链接网站的平均RR(IMRR),入链接网站的平均NR(IMNR),入链接网站的RR方差(IVR),入链接网站的NR方差(IVN),入链接网站的RR方差(IVRR),入链接网站的NR方差(IVNR),出链接网站的平均R(OMR)、和平均N(OMN),出链接网站的平均RR(OMRR)、和平均NR(OMNR),出链接网站的R方差(OVR),出链接网站的N方差(OVN),出链接网站的RR方差(OVRR),出链接网站的NR方差(OVNR)。以上特征的提取,针对解析量和独立IP访问量这两个核心点,并分析其变化率、以及充分挖掘网站的拓扑依赖,力求从多层面挖掘作弊与非作弊网站的统计差异。以下具体描述这些特征的计算公式:
解析量(R),R(x)=(R2(x)+R1(x))/2,其中R1(x)和R2(x)分别表示网站x对应的域名在T1和T2时刻的解析量,即用户的访问量。
独立IP访问页数(N),N=(R2(x)/N2(x)+R1(x)/N1(x))/2,其中N1(x)和N2(x)分别表示T1和T2时段访问网站x对应域名的独立IP数。
解析量变化率(RR),RR(x)=(R2(x)-R1(x))/(R2(x)+R1(x)),提取解析量变化率是基于:所有的网站作弊行为的目的都是提高网站的访问量,从而进一步将关注转化为金钱。因此网站访问量的变化,将会很大程度上反应作弊网站和非作弊网站的统计差异。
独立IP平均访问页数变化率(NR),提取NR的理由:相比较于正常网站,作弊网站通过欺骗手段获得的点击,往往不会带来网民的多次站内点击。一般来说,一个正规的网站,会随着网站的品质的提升,不断吸引用户的页面浏览量不断提高。该特征潜在的可以给出作弊、非作弊的不同统计表现。即NR=(R2(x)/N2(x)-R1(x)/N1(x))/(R2(x)/N2(x)+R1(x)/N1(x))
入链接网站的平均R(IMR),其中inlink(x)表示网站x的入链接网站集合。
入链接网站的平均N(IMN),其中inlink(x)表示网站x的入链接网站集合。
入链接网站的平均RR(IMRR),大量统计显示,作弊网页一般不会被高信誉网站链接,往往链向它的也是些低信誉网站;而另一方面,高信誉(非作弊)网站之间则往往互相引用,表示互相欣赏、推荐。据此,我们期待,IMRR可以很好给出网站作弊与非作弊的指示。
入链接网站的平均NR(IMNR),该特征的提取基于IMRR同样的假设。
入链接网站的R方差(IVR),作弊网站的拓扑近邻可能拥有相似的特点,非作弊网站则不然,据此,我们提取IVRR。
入链接网站的N方差(IVN), IVN ( x ) = Σ a ∈ inlink ( x ) ( N ( a ) - IMN ( x ) ) | inlink ( x ) | .
入链接网站的RR方差(IVRR), IVRR ( x ) = Σ a ∈ inlink ( x ) ( RR ( a ) - IMRR ( x ) ) | inlink ( x ) | .
入链接网站的NR方差(IVNR), IVNR ( x ) = Σ a ∈ inlink ( x ) ( RR ( a ) - IMNR ( x ) ) | inlink ( x ) | .
类似的给出出链接相关特征如下:
出链接网站的平均R(OMR), OMR ( x ) = Σ a ∈ outlink ( x ) R ( a ) | outlink ( x ) | .
出链接网站的平均N(OMN), OMN ( x ) = Σ a ∈ outlink ( x ) N ( a ) | outlink ( x ) | .
出链接网站的平均RR(OMRR), OMRR ( x ) = Σ a ∈ outlink ( x ) RR ( a ) | outlink ( x ) | .
出链接网站的平均NR(OMNR), OMNR ( x ) = Σ a ∈ outlink ( x ) NR ( a ) | outlink ( x ) | .
出链接网站的R方差(OVR), OVR ( x ) = Σ a ∈ outlink ( x ) ( R ( a ) - OMR ( x ) ) | outlink ( x ) | .
出链接网站的N方差(OVN), OVN ( x ) = Σ a ∈ outlink ( x ) ( R ( a ) - OMN ( x ) ) | outlink ( x ) | .
出链接网站RR方差(OVRR), OVRR ( x ) = Σ a ∈ outlink ( x ) ( RR ( a ) - OMRR ( x ) ) | outlink ( x ) | .
出链接网站NR方差(OVNR), OVNR ( x ) = Σ a ∈ outlink ( x ) ( RR ( a ) - OMNR ( x ) ) | outlink ( x ) | .
提取特征后每个网站表示成20维向量形式,特征空间R={R,N,RR,NR,IMR,IMN,IMRR,IMNR,IVRR,IVNR,IVR,IVN,OMR,OMN,OMRR,OMNR,OVR,OVN,OVRR,OVNR}。经过以上特征提取步骤,某一网站x将被表示为:x=(R(x),N(x),RR(x),NR(x),IMR(x),IMN(x),IMRR(x),IMNR(x),IVR(x),IVN(x),IVRR(x),IVNR(x),OMR(x),OMN(x),OMRR(x),OMNR(x),OVR(x),OVN(x),OVRR(x),OVNR(x)),x所属的类别为作弊类(ω1)或非作弊类(ω2)网站,该关系表示为C(x)∈{ω1,ω2}。
步骤200、模型学习:在特征空间R上,基于训练样本集,训练分类器,获得分类判别模型M。基于训练集,在特征空间R上训练分类器(分类算法),即进行模型学习,训练一个判定网站作弊与否的模型(M)。该步骤中,分类算法的选择不限于任何特定分类算法,可以为Adaboost,支持向量机、决策树、神经网络等。
该步骤中需要对训练集中所有的样本的列进行归一化处理,所谓的样本的列指所有样本向量空间中同一维的所有值,具体可以采用0-1归一化处理算法,这样做可以避免部分大值特征主导分类,进一步提高了模型的准确性。
步骤300、分类判断:利用判别模型M对待检测网站进行判定,输出网站作弊与否的判定结果。基于上一个步骤分类算法和学习的模型M,对训练集上的样本进行逐一的作弊判定,分别给出作弊与否的判定结果。基于模型M也可以对任意未知的网站进行作弊与否的判定,判定前需要将该未知样本表示为特征空间R上的向量。所有判定的输出结果均为某网站Y作弊,或非作弊,即给出C(Y)的值:ω1或ω2。
该步骤中,待检测网站的向量形式表示的样本,需要放入未归一化之前的训练集,进行归一化处理,具体的归一化可采用步骤200相同的Adaboost,支持向量机、决策树、神经网络算法等分类算法。
虽然本发明以实施例揭示如上,但其并非用以限定本发明,任何本领域技术人员,在不脱离本发明的精神和范围内,可作任意改动或等同替换,故本发明的保护范围应当以本申请权利要求书所界定的范围为准。

Claims (9)

1.基于域名解析特征的网站作弊检测方法,其步骤为:
1)对样本网站进行分类得到训练集L和测试集T;
2)提取出所述训练集L和测试集T中网站的特征向量;所述特征向量包括解析量R,独立IP访问页数N,解析量变化率RR,独立IP平均访问页数变化率NR,入链接网站的平均R,入链接网站的平均N,入链接网站的平均RR,入链接网站的平均NR,入链接网站的R方差,入链接网站的NR方差,入链接网站的RR方差,入链接网站的NR方差,出链接网站的平均R,出链接网站的平均N,出链接网站的平均RR,出链接网站的平均NR,出链接网站的R方差,出链接网站的N方差,出链接网站的RR方差及出链接网站的NR方差;提取特征向量后每个网站表示成二十维向量形式;
3)在所述训练集L中建立每个网站的多维向量形式,根据分类算法训练网站作弊分类器,建立判别模型;
4)利用所述判别模型对用户输入的待检测网站进行检测,确定是否存在作弊行为。
2.如权利要求1所述的基于域名解析特征的网站作弊检测方法,其特征在于,所述解析量R=(R2(x)+R1(x))/2,其中R1(x)和R2(x)分别表示网站x对应的域名在不同时刻的解析量。
3.如权利要求1所述的基于域名解析特征的网站作弊检测方法,其特征在于,所述独立IP访问页数N=(R2(x)/N2(x)+R1(x)/N1(x))/2,其中N1(x)和N2(x)分别表示不同时段访问网站x对应域名的独立IP数。
4.如权利要求1所述的基于域名解析特征的网站作弊检测方法,其特征在于,所述分类算法包括Adaboost算法、支持向量机算法、决策树算法、神经网络算法。
5.如权利要求1所述的基于域名解析特征的网站作弊检测方法,其特征在于,所述判别模型对训练集L中所有样本向量空间中同一维的所有值进行归一化处理。
6.如权利要求1所述的基于域名解析特征的网站作弊检测方法,其特征在于,所述特征向量基于两个不同时间段的域名解析日志,所述时间段为1~3个月。
7.如权利要求6所述的基于域名解析特征的网站作弊检测方法,其特征在于,所述域名解析日志包括域名递归服务解析日志或域名权威解析日志。
8.如权利要求1所述的基于域名解析特征的网站作弊检测方法,其特征在于,所述待检测网站以所述特征向量形式表示,再放入未归一化前的训练集L,进行归一化处理。
9.如权利要求8所述的基于域名解析特征的网站作弊检测方法,其特征在于,所述归一化采用0-1归一化算法。
CN201210333167.0A 2012-09-07 2012-09-07 基于域名解析特征的网站作弊检测方法 Active CN103684896B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210333167.0A CN103684896B (zh) 2012-09-07 2012-09-07 基于域名解析特征的网站作弊检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210333167.0A CN103684896B (zh) 2012-09-07 2012-09-07 基于域名解析特征的网站作弊检测方法

Publications (2)

Publication Number Publication Date
CN103684896A CN103684896A (zh) 2014-03-26
CN103684896B true CN103684896B (zh) 2017-02-01

Family

ID=50321277

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210333167.0A Active CN103684896B (zh) 2012-09-07 2012-09-07 基于域名解析特征的网站作弊检测方法

Country Status (1)

Country Link
CN (1) CN103684896B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104579773B (zh) * 2014-12-31 2016-08-24 北京奇虎科技有限公司 域名系统分析方法及装置
CN106355431B (zh) * 2016-08-18 2020-01-07 晶赞广告(上海)有限公司 作弊流量检测方法、装置及终端
CN107330718B (zh) * 2017-06-09 2021-01-19 晶赞广告(上海)有限公司 一种媒体反作弊方法及装置、存储介质、终端
CN107888616B (zh) * 2017-12-06 2020-06-05 北京知道创宇信息技术股份有限公司 基于URI的分类模型的构建方法和Webshell攻击网站的检测方法
CN110096013A (zh) * 2019-05-24 2019-08-06 广东工业大学 一种工业控制系统的入侵检测方法及装置
CN113239256B (zh) * 2021-05-14 2024-02-23 北京百度网讯科技有限公司 生成网站签名的方法、识别网站的方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101093510A (zh) * 2007-07-25 2007-12-26 北京搜狗科技发展有限公司 一种针对网页作弊的反作弊方法及系统
CN101350011A (zh) * 2007-07-18 2009-01-21 中国科学院自动化研究所 一种基于小样本集的搜索引擎作弊检测方法
CN101493819A (zh) * 2008-01-24 2009-07-29 中国科学院自动化研究所 一种搜索引擎作弊检测的优化方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101350011A (zh) * 2007-07-18 2009-01-21 中国科学院自动化研究所 一种基于小样本集的搜索引擎作弊检测方法
CN101093510A (zh) * 2007-07-25 2007-12-26 北京搜狗科技发展有限公司 一种针对网页作弊的反作弊方法及系统
CN101493819A (zh) * 2008-01-24 2009-07-29 中国科学院自动化研究所 一种搜索引擎作弊检测的优化方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Detecting Link Spam using Temporal Information;Guoyang Shen,Bin Gao,Tie-Yan Liu,Guang Feng,Shiji Song;《Sixth International Conference on Data Mining》;20061222;第1049-1053页 *
基于流量分析的网站排序的研究;张鑫;《中国优秀硕士学位论文全文数据库》;20111215;第I139-352页 *

Also Published As

Publication number Publication date
CN103684896A (zh) 2014-03-26

Similar Documents

Publication Publication Date Title
CN103684896B (zh) 基于域名解析特征的网站作弊检测方法
US7882099B2 (en) System and method for focused re-crawling of web sites
CN103544436B (zh) 一种钓鱼网站鉴别系统和方法
CN101409634B (zh) 基于信息检索的互联网新闻影响力定量分析工具及方法
CN101819573B (zh) 一种自适应的网络舆情识别方法
CN101556606B (zh) 一种基于Web数值表格抽取的数据挖掘方法
CN101320375B (zh) 基于用户点击行为的数字图书搜索方法
CN110781308B (zh) 一种基于大数据构建知识图谱的反欺诈系统
CN107332848A (zh) 一种基于大数据的网络流量异常实时监测系统
CN101826105A (zh) 基于匈牙利匹配算法的钓鱼网页检测方法
CN108777674A (zh) 一种基于多特征融合的钓鱼网站检测方法
CN106776946A (zh) 一种欺诈网站的检测方法
CN104077396A (zh) 一种钓鱼网站检测方法及装置
CN108417274A (zh) 流行病预测方法、系统及设备
CN106354800A (zh) 一种基于多维度特征的不良网站检测方法
CN110147439A (zh) 一种基于大数据处理技术的新闻事件检测方法及系统
CN102170447A (zh) 一种基于最近邻及相似度测量检测钓鱼网页的方法
CN105281973A (zh) 一种针对特定网站类别的网页指纹识别方法
CN109525551A (zh) 一种基于统计机器学习的cc攻击防护的方法
CN102236654A (zh) 基于内容相关性的Web无效链接过滤方法
CN102567319B (zh) 网页图片过滤方法及系统
CN103440328B (zh) 一种基于鼠标行为的用户分类方法
CN110012122A (zh) 一种基于词嵌入技术的域名相似性分析方法
CN101350019A (zh) 基于预定义槽间向量模型的网页信息抽取方法
CN101706876B (zh) 基于混合子空间学习选择性集成的微钙化簇检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20210202

Address after: 100190 room 506, building 2, courtyard 4, South 4th Street, Zhongguancun, Haidian District, Beijing

Patentee after: CHINA INTERNET NETWORK INFORMATION CENTER

Address before: 100190 No. four, 4 South Street, Haidian District, Beijing, Zhongguancun

Patentee before: Computer Network Information Center, Chinese Academy of Sciences

TR01 Transfer of patent right