CN106330861B - 一种网址检测方法及装置 - Google Patents
一种网址检测方法及装置 Download PDFInfo
- Publication number
- CN106330861B CN106330861B CN201610648239.9A CN201610648239A CN106330861B CN 106330861 B CN106330861 B CN 106330861B CN 201610648239 A CN201610648239 A CN 201610648239A CN 106330861 B CN106330861 B CN 106330861B
- Authority
- CN
- China
- Prior art keywords
- website
- detected
- value
- legal
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
- H04L63/1483—Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种网址检测方法及装置,在检测待检测网址所属类型时,在基于的检测基础——特征值中加入统一资源定位符相关特征值,统一资源定位符相关特征值用于指示待检测网址与易受攻击的合法网址之间的相关程度,并且发明人发现非法网址(如恶意的钓鱼网站)均与易受攻击的合法网址相关,因此在基于加入有统一资源定位符相关特征值的检测基础检测待检测网址所属类型时,可以提高网址检测的准确度。
Description
技术领域
本发明属于互联网检测技术领域,更具体地说,尤其涉及一种网址检测方法及装置。
背景技术
据不完全统计2014年上半年新增的钓鱼网址有559万个,使得钓鱼网址引发的安全问题也日益增多,因此网址安全检测越来越受国内外众多安全公司和研究机构的重视。
目前网址安全检测方法主要包括:高交互蜜罐方法,基于静态检查算法的超文本标记语言(Hyper Text Markup Language,HTML)代码的特征码方法以及机器学习方法,综合考虑时间复杂度、运行速度和准确率,这三种方法中机器学习方法最优。其中机器学习方法的检测过程是:首先通过样本训练出分类器,然后在获取到任意一个待检测网址后,提取待检测网址中的特征信息,基于特征信息和分类器得到待检测网址所属网址类型。
虽然上述机器学习方法可以得到待检测网址所属网址类型,当待检测网址所属网址类型指示待检测网址为恶意网址时,可以对待检测网址进行过滤,以保证网络的安全性,但是目前网址安全检测方法的准确度不高。
发明内容
有鉴于此,本发明的目的在于提供一种网址检测方法及装置,用于提高网址检测的准确度。技术方案如下:
本发明提供一种网址检测方法,所述方法包括:
获得待检测网址中的特征值,所述特征值至少包括:统一资源定位符相关特征值,所述统一资源定位符相关特征值用于指示所述待检测网址与预先建立的合法网络库中易受攻击的合法网址之间的相关程度;
基于所述待检测网址中的特征值,对所述待检测网址进行初始分类,得到所述待检测网址的初始分类结果;
基于所述待检测网址中的特征值和所述待检测网址的初始分类结果,对所述待检测网址进行最终分类,得到所述待检测网址的最终分类结果,所述待检测网址的最终分类结果用于指示所述待检测网址所属网址类型。
优选地,所述获得待检测网址中的特征值,包括:
从所述待检测网址中提取词汇特征值和主机信息相关特征值;
计算所述待检测网址的统一资源定位符和合法网址库中每个所述合法网址的统一资源定位符之间的相同距离比值和相异距离比值;
基于每个所述相同距离比值和每个所述相异距离比值,得到所述待检测网址的唯一的所述统一资源定位符相关特征值。
优选地,所述计算所述待检测网址的统一资源定位符和合法网址库中每个所述合法网址的统一资源定位符之间的相同距离比值和相异距离比值,包括:
将所述待检测网址的统一资源定位符和合法网址库中每个所述合法网址的统一资源定位符进行对比,得出所述待检测网址的统一资源定位符转变为对应的所述合法网址的统一资源定位符所需的转变次数以及得出所述待检测网址的统一资源定位符与对应的所述合法网址的统一资源定位符之间相匹配的字符数;
将所述转变次数与所述合法网址的统一资源定位符的字符总数的比值作为所述待检测网址与对应的所述合法网址的所述相异距离比值;
将所述相匹配的字符数与所述合法网址的统一资源定位符的字符总数的比值作为所述待检测网址与对应的所述合法网址的所述相同距离比值。
优选地,所述基于每个所述相同距离比值和每个所述相异距离比值,得到待检测网址的唯一的所述统一资源定位符相关特征值,包括:
计算每个所述相同距离比值的第一加权值和计算每个所述相异距离比值的第二加权值;
对每个所述合法网址,计算同一个所述合法网址的所述第一加权值和所述第二加权值的差值;
从每个所述合法网址的差值中选取取值最小的差值作为所述待检测网址的唯一的所述统一资源定位符相关特征值。
优选地,所述基于所述待检测网址中的特征值,对所述待检测网址进行初始分类,得到所述待检测网址的初始分类结果,包括:
对所述待检测网址的特征值进行降维处理,得到处理后的特征值;
当处理后的特征值满足预设条件时,基于所述处理后的特征值确定初始分类个数;当处理后的特征值不满足预设条件时,随机确定初始分类个数;
在确定所述初始分类个数后,随机选取每个分类的初始聚类中心;
周期性地计算每个所述初始聚类中心的取值,在已计算出相邻两个周期下的初始聚类中心后计算聚类误差并将所述ci(k)替换为所述ci(k+1),判断聚类误差是否小于预设误差,若是则结束剩余周期下对初始聚类中心的取值的计算,若否则继续剩余周期下对初始聚类中心的取值的计算,其中ci(k)和ci(k+1)为相邻两个周期计算得到的初始聚类中心的取值,ci(k)为第k个周期得到的第i个分类下所述初始聚类中心的取值,ci(k+1)为第k+1个周期得到的第i个分类下所述初始聚类中心的取值,i=1,2,…,c,c为初始分类个数;
对所述第q个待检测网址的特征值构成的特征点xq,若则将特征点xq划分至第i个分类下,z=1,2,...,c,z≠i,q=1,2,…,n,n为所述待检测网址的总数,所述待检测网址的分类结果为每个特征点的分类结果的集合。
本发明还提供一种网址检测装置,所述装置包括:
获得单元,用于获得待检测网址中的特征值,所述特征值至少包括:统一资源定位符相关特征值,所述统一资源定位符相关特征值用于指示所述待检测网址与预先建立的合法网络库中易受攻击的合法网址之间的相关程度;
第一分类单元,用于基于所述待检测网址中的特征值,对所述待检测网址进行初始分类,得到所述待检测网址的初始分类结果;
第二分类单元,用于基于所述待检测网址中的特征值和所述待检测网址的初始分类结果,对所述待检测网址进行最终分类,得到所述待检测网址的最终分类结果,所述待检测网址的最终分类结果用于指示所述待检测网址所属网址类型。
优选地,所述获得单元,包括:
提取子单元,用于从所述待检测网址中提取词汇特征值和主机信息相关特征值;
计算子单元,用于计算所述待检测网址的统一资源定位符和合法网址库中每个所述合法网址的统一资源定位符之间的相同距离比值和相异距离比值;
获得子单元,用于基于每个所述相同距离比值和每个所述相异距离比值,得到所述待检测网址的唯一的所述统一资源定位符相关特征值。
优选地,所述计算子单元,包括:
对比子单元,用于将所述待检测网址的统一资源定位符和合法网址库中每个所述合法网址的统一资源定位符进行对比,得出所述待检测网址的统一资源定位符转变为对应的所述合法网址的统一资源定位符所需的转变次数以及得出所述待检测网址的统一资源定位符与对应的所述合法网址的统一资源定位符之间相匹配的字符数;
第一计算子单元,用于将所述转变次数与所述合法网址的统一资源定位符的字符总数的比值作为所述待检测网址与对应的所述合法网址的所述相异距离比值;
第二计算子单元,用于将所述相匹配的字符数与所述合法网址的统一资源定位符的字符总数的比值作为所述待检测网址与对应的所述合法网址的所述相同距离比值。
优选地,所述获得子单元,用于计算每个所述相同距离比值的第一加权值和计算每个所述相异距离比值的第二加权值,对每个所述合法网址,计算同一个所述合法网址的所述第一加权值和所述第二加权值的差值,并从每个所述合法网址的差值中选取取值最小的差值作为所述待检测网址的唯一的所述统一资源定位符相关特征值。
优选地,所述第一分类单元,包括:
降维处理子单元,用于对所述待检测网址的特征值进行降维处理,得到处理后的特征值;
确定子单元,用于当处理后的特征值满足预设条件时,基于所述处理后的特征值确定初始分类个数;当处理后的特征值不满足预设条件时,随机确定初始分类个数;以及用于在确定所述初始分类个数后,随机选取每个分类的初始聚类中心;
取值计算子单元,用于周期性地计算每个所述初始聚类中心的取值,在已计算出相邻两个周期下的初始聚类中心后计算聚类误差并将所述ci(k)替换为所述ci(k+1),判断聚类误差是否小于预设误差,若是则结束剩余周期下对初始聚类中心的取值的计算,若否则继续剩余周期下对初始聚类中心的取值的计算,其中ci(k)和ci(k+1)为相邻两个周期计算得到的初始聚类中心的取值,ci(k)为第k个周期得到的第i个分类下所述初始聚类中心的取值,ci(k+1)为第k+1个周期得到的第i个分类下所述初始聚类中心的取值,i=1,2,…,c,c为初始分类个数;
划分子单元,用于对所述第q个待检测网址的特征值构成的特征点xq,若则将特征点xq划分至第i个分类下,z=1,2,...,c,z≠i,q=1,2,…,n,n为所述待检测网址的总数,所述待检测网址的分类结果为每个特征点的分类结果的集合。
与现有技术相比,本发明提供的上述技术方案具有如下优点:
从上述技术方案可知,本发明在检测待检测网址所属类型时,在基于的检测基础——特征值中加入统一资源定位符相关特征值,统一资源定位符相关特征值用于指示待检测网址与易受攻击的合法网址之间的相关程度,并且发明人发现非法网址(如恶意的钓鱼网站)均与易受攻击的合法网址相关,因此在基于加入有统一资源定位符相关特征值的检测基础检测待检测网址所属类型时,可以提高网址检测的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的网址检测方法的流程图;
图2是本发明实施例获得待检测网址中特征值的流程图;
图3是本发明实施例提供的待检测网址到合法网址的转变示意图;
图4是本发明实施例提供的URL间相同距离比值和相异距离比值的示意图;
图5是本发明实施例提供的初始分类的流程图;
图6是本发明实施例提供的降维结果可视化的示意图;
图7是本发明实施例提供的网址检测装置的结构示意图;
图8是本发明实施例提供的网址检测装置中获得单元的结构示意图;
图9是本发明实施例提供的网址检测装置中第一分类单元的结构示意图。
具体实施方式
发明人通过对现有非法网址,如恶意的钓鱼网址分析发现,钓鱼网址的统一资源定位符(Uniform Resource Locator,URL)是采用增加和删除等修改方式来改变合法网址的URL中的部分字符形成的,并使用钓鱼网址来混淆普通用户。比如将合法网址的URLwww.ebay.com修改为www.ibay.com,www.bay.com,www.ebay.net等,虽然钓鱼网址的URL改变了合法网址的URL,但是钓鱼网址的URL仍保持合法网址的URL的原有域名的有序性,这就意味着目前的恶意网址通过URL与易受攻击的合法网址具有相关性,因此本发明实施例提供的网址检测方法中在特征值中加入URL相关特征值对待检测网址进行检测,以提高网址检测的准确度。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明实施例提供的网址检测方法的一种流程图,所述网址检测方法的思想是:在特征值中加入URL相关特征值,对待检测网址进行二次分类,以提高网址检测的准确度,其对应的流程可以包括以下步骤:
101:获得待检测网址中的特征值,其中特征值至少包括:URL相关特征值,所述URL相关特征值用于指示待检测网址与预先建立的合法网络库中易受攻击的合法网址之间的相关程度。
发明人对非法网站进行研究发现,目前的非法网站只与少部分排名靠前且有利可图的网址即易受攻击的合法网址相关,因此在获取待检测网址的特征值时需要获取到指示待检测网址与合法网址的相关程度的URL相关特征值,以确定待检测网址和合法网址是否相关,进一步至少基于URL相关特征值对待检测网址进行检测。
而经检测目前易受攻击的合法网址,在中国排名前六的合法网址(淘宝网、阿里巴巴、新浪、腾讯、中央电视台和中国工商银行)的举报量占到总举报量的95.1%。在世界范围内同样集中攻击少部分受欢迎的网址,比如PayPAL(全球最大的在线支付平台)和Tibia(一款网游)等。为此本发明实施例通过爬取各大搜索引擎提供的排名在前预设条数(比如500条,具体取值不限)的URL,并对常受攻击的URL进行收集,建立合法网址库,所述合法网址库中存储有易受攻击的合法网址的URL。对于如何获得待检测网址中的特征值,如URL相关特征值则会在后续部分进行介绍。
102:基于待检测网址中的特征值,对待检测网址进行初始分类,得到待检测网址的初始分类结果。
103:基于待检测网址中的特征值和待检测网址的初始分类结果,对待检测网址进行最终分类,得到待检测网址的最终分类结果,其中待检测网址的最终分类结果用于指示待检测网址所属网址类型。
也就是说,在本发明实施例中,对待检测网址进行两次分类,其中第一次分类是基于待检测网址中的特征值对待检测网址进行粗分类,得到的初始分类结果连同待检测网址的特征值作为第二次检测的检测基础,通过第二次检测得到待检测网址的最终分类结果,即最终分类结果指示出待检测网址所属网址类型,如待检测网址是非法网址还是合法网址。
从上述技术方案可知,本发明实施例在检测待检测网址所属类型时,在基于的检测基础——特征值中加入统一资源定位符相关特征值,统一资源定位符相关特征值用于指示待检测网址与易受攻击的合法网址之间的相关程度,并且发明人发现非法网址(如恶意的钓鱼网站)均与易受攻击的合法网址相关,因此在基于加入有统一资源定位符相关特征值的检测基础检测待检测网址所属类型时,可以提高网址检测的准确度。
在本发明实施例中获得待检测网址中的特征值的过程如图2所示,可以包括以下步骤:
201:从待检测网址中提取词汇特征值和主机信息相关特征值。其中词汇特征值和主机信息相关特征值是检测待检测网址中,除URL相关特征值之外的另两个主要特征值,对于这两个主要特征值所关联的特征介绍如下:
词汇特征:非法网址和合法网址并不是很相似,非法网址会在合法网址的基础上增加一些信息对用户进行混淆。经分析发现,非法网址可通过增加点的个数来混淆用户,比如http://ebay.com.register.online-service.bank.login/...。和/或增加一些特殊的字符,比如“/”,”&”,”~”等在合法网址中出现很少的字符,和/或通过更改大小写字母和添加数字等信息欺骗用户,因此词汇特征值可以是URL中点的个数(dot)、URL的长度(len)、URL中特殊符号个数(symbol)、URL中大写字母个数(cap)、URL中数字个数(num)等。
主机信息相关特征:经分析发现,非法网址是建立在不良的服务器上,且非法网址的域名经常会被黑名单收录,因此非法网址经常会更换域名,使得非法网址存在注册时间短,很少更新等特点,为此本发明实施例可以引入time1,time2和time3三个变量,分别定义为域名过期时间与当前时间的差值,过期时间与域名建立时间的差值,更新日期与注册日期差值,将这三个变量作为主机信息相关特征值。
202:计算待检测网址的URL和合法网址库中每个合法网址的URL之间的相同距离比值和相异距离比值。
假设从待检测网址的URL中提取的域名为U=U1U2,…,Up,合法网址的URL中目标域名为V=V1V2,…,Vq,长度分别为p和q,本发明中引入Levenshtein距离(编辑距离)来定义URL间相异距离,并将URL间相异距离来作为URL相关特征值,其中URL间相异距离的定义如下:
表1 URL间相异距离的定义
但是仅仅只用Levenshtein距离,并不能对待检测网址和合法网址的相关性做一个很好的评估,为此本发明实施例对URL相关特征值的取值进行更改。在本发明实施例中。URL的相关性,包括URL间的相同距离比值与相异距离比值。目标字符串的长度定义为len,len=length(V),目标字符串为与待检测网址进行比对的合法网址的URL的字符串,URL间的相同距离定义为same,所占的比值为same_rate,URL间的不同距离定义为diff,所占比率为diff_rate,则same_rate和diff_rate的计算公式如下:
same_rate=same/len,diff_rate=diff/len。
而对于待检测网址和合法网址来说,得到两个网址的URL中的相同距离和相异距离的方式是:将两个网址的URL中相匹配(即相同)的字符数作为相同距离,相异距离则是待检测网址的URL转变为对应的合法网址的URL所需的转变次数,下面以待检测网址为S1=www.baduu.co,合法网址为S2=www.baidu.com为例进行说明,两者的转变过程如图3所示,从图3中可以看出:从域名S1到域名S2共有三次转变,这三次转变包括:1次删除(删除域名S1中的第二个u),2次添加(在域名S2中添加了i和m),则这两个域名的相异距离为3。
对应的域名S1和域名S2中相匹配的字符数为9,则相同距离为9,又因为目标字符串(即域名S2)的长度为11,所以same_rate=9/11,diff_rate=3/11。
综上,在本发明实施例中计算待检测网址的URL和合法网址库中每个合法网址的URL之间的相同距离比值和相异距离比值的过程是:首先,将待检测网址的URL和合法网址库中每个合法网址的URL进行比对,得出待检测网址的URL转变为对应的合法网址的URL所需的转变次数以及得出待检测网址的URL与对应的合法网址的URL之间相匹配的字符数;
其次,将转变次数与合法网址的URL的字符总数的比值作为待检测网址与对应的合法网址的相异距离比值;最后,将相匹配的字符数与合法网址的URL的字符总数的比值作为待检测网址与对应的合法网址的相同距离比值。
203:基于每个相同距离比值和每个相异距离比值,得到待检测网址的唯一的URL相关特征值。
对于输入的任意一个待检测网址来说,待检测网址的URL需要和合法网址库中的全部合法网址的URL进行比较,得到待检测网址与每个合法网址的相同距离比值和相异距离比值,如图4所示。
其中图4中深色部分为合法网址的URL,浅色部分为已知的非法网址的URL,由图4可知合法网址和非法网址之间的diff_rate和equal_rate上有显著差异。非法网址的same_rate偏低且diff_rate偏高,而diff_rate尽可能小,same_rate可能大的域名即为待检测网址的最佳匹配域名,得到最佳匹配域名的目标函数如下:
为简化上述计算,本发明实施例中引入权重概念,将上述多目标规划问题(公式1)简化成单目标规划问题(公式2),并设定权重分别为a,b,化简后的目标函数如下所示:
f(x)=min(a*diff_rate-b*same_rate) (公式2)。
也就是说,在获得待检测网址与每个合法网址的相同距离比值和相异距离比值后,计算每个相同距离比值的第一加权值(b*same_rate)和计算每个相异距离比值的第二加权值(a*diff_rate),并且对每个合法网址来说计算同一个合法网址的第一加权值和第二加权值的差值(a*diff_rate-b*same_rate);从每个合法网址的差值中选取取值最小的差值作为待检测网址的唯一的URL相关特征值f(x)。
本发明实施例收集20000条URL,为权重a和b设定不同的取值,运用机器学习算法得到的准确率如下:
表2 不同取值对应的准确率
(a,b) | (0.2,0.8) | (0.4,0.6) | (0.5,0.5) | (0.6,0.4) | (0.8,0.2) |
准确率 | 0.895 | 0.875 | 0.885 | 0.905 | 0.9 |
由此可见当权重a和b,分别取0.6与0.4时准确率最高,因此在本发明实施例中,权重a和b的取值优选:a=0.6,b=0.4。
相应的,基于上述特征值对待检测网址进行初始分类的过程如图5所示,可以包括以下步骤:
501:对待检测网址的特征值进行降维处理,得到处理后的特征值。
502:当处理后的特征值满足预设条件时,基于处理后的特征值确定初始分类个数;当处理后的特征值不满足预设条件时,随机确定初始分类个数。
503:在确定初始分类个数后,随机选取每个分类的初始聚类中心。
发明人经过研究发现,目前在基于特征值进行初始聚类划分时主要采用初始值随机选取方式,这样会导致初始聚类陷入局部最优,并影响运算速度。而大量的特征值之间存在多重相关性,为此本发明实施例为解决目前初始聚类划分存在的问题,首先对特征值进行降维处理,例如可以将特征值的维数降至1至3维,这样得到的处理后的特征值的维度降低,使得数据量下降,从而解决初始聚类陷入局部最优的问题,并提高运算速度。
在本发明实施例中,对特征值进行降维处理的一种方式是:采用主成分分析方法,具体是假设进行主成分分析的特征值有m个:x1~xm,共有n个待检测网址,第i个待检测网址的第j个特征值的取值为aij。将各特征值的取值aij转换成标准化值
计算相关系数矩阵其中,rii=1,rij=rji,rij是第i个特征值与第j个特征值的相关系数,计算相关系数矩阵R的特征值λ1≥λ2≥…λm≥0,及对应的标准化特征向量u1,u2…um,其中uj=[u1j,u2j,…umj]Τ,由特征向量组成待检测网址的m个新的特征值如下:
其中:y1是第一个主成分,y2是第二个主成分,……ym是第m个主成分,从这m个主成分中选取p个主成分,将这p个主成分作为降维处理后得到的特征值,p≤m。
然后确定p个主成分是否满足预设条件,以确定采用哪些数据来获得初始分类个数,确定p个主成分是否满足预设条件的过程如下:
计算特征值λj(j=1,2,…m)的信息贡献率和累计贡献率为主成分yj的信息贡献率:
而主成分y1,y2...,yp的累积贡献率为:
当选择1至3个主成分且所选择的主成分累计贡献率大于0.5时(0.5说明选择的主成分可代表一半的原有信息),说明处理后的特征值满足预设条件,而由于一到三维数据可以可视化,所以在处理后的特征值满足预设条件时运用可视化方法,如利用Matlab软件作出降维处理后的特征值的散点图,进而可以直观判断划分的初始类别个数以及每个分类下的初始聚类中心。当累计贡献率较小时,如小于0.5,则说明处理后的特征值不满足预设条件,此时可以选用随机初始化聚类个数的方法来随机选择初始分类个数和每个分类下的初始聚类中心。
在本发明实施例中仅以主成分累计贡献率的大小作为处理后的特征值是否满足预设条件为例进行说明,但是本发明实施例并不限定其他预设条件,本领域技术人员可以通过其他方式对特征值进行降维处理以及判断处理后的特征值是否满足预设条件,并采用相应方式来确定初始分类个数,在确定初始分类个数后,随机选取每个分类下的初始聚类中心。
504:周期性地计算每个初始聚类中心的取值,在已计算出相邻两个周期下的初始聚类中心后计算聚类误差并将ci(k)替换为ci(k+1),判断聚类误差是否小于预设误差,若是则结束剩余周期下对初始聚类中心的取值的计算,若否则继续剩余周期下对初始聚类中心的取值的计算直至i和k的取值为c,其中,ci(k)和ci(k+1)为相邻两个周期计算得到的初始聚类中心的取值,ci(k)为第k个周期得到的第i个分类下所述初始聚类中心的取值,ci(k+1)为第k+1个周期得到的第i个分类下所述初始聚类中心的取值,i=1,2,…,c,k=1,2,…,c,c为初始分类个数。
505:对所述第q个待检测网址的特征值构成的特征点xq,若则将特征点xq划分至第i个分类下,z=1,2,...,c,z≠i,q=1,2,…,n,n为所述待检测网址的总数,所述待检测网址的分类结果为每个特征点的分类结果的集合。
在本发明实施例中,初始聚类中心的取值方式可以采用下述公式:
其中uij为模糊隶属度,c表示类的数目,t网址的总个数(包括合法网址和非法网址,这些网址中含有待检测网址,如后续实验根据PageRank选取出2000个网址),a∈[1,∞)是一个加权指数,模糊隶属度uij的计算公式如下:
其中,dij为第i个聚类中心与第j个数据点间的欧几里德距离。
上述确定初始分类个数以及周期性计算初始聚类中心的取值的过程可以是:步骤1:输入待检测网址的特征值;
步骤2:运用主成分分析确定初始分类个数以及每个分类下的初始聚类中心;
步骤3:预先设置加权指数a以及预设误差ε的范围;
步骤4:通过初始聚类中心确定聚类中心与各点间的距离dij;
步骤5:根据公式4计算模糊隶属度;
步骤6:按公式3求初始聚类中心ci(k),i=1,2,…,c,并令循环周期k=1;
步骤7:按公式4计算模糊隶属度;
步骤8:按公式3计算新的聚类中心ci(k+1),i=1,2,…,c并代替原始聚类中心ci(k);
在这里需要说明的一点是:k作为循环周期,在e<ε的情况下,循环周期k停止自动加1,而在e大于等于ε的情况下,循环周期k会自动加1;并且对于每个特征值xj来说,一定存在一个初始聚类中心,使得点到该聚类中心的距离小于等于该点到其他初始聚类中心的距离。
基于本发明实施例提供的网址检测方法,本发明实施例从开放式分类目录网站(Open Directory Project,DMOZ)中根据PageRank选取出2000个网址,其中合法网址为1000个,非法网址为1000个,并从这2000个网址中选取1800个网址作为训练集,200个网址作为测试集。最后用多种机器学习算法进行最终分析,并且每种机器学习算法分别采用现有技术以及本发明实施例提供的技术方案(本发明实施例中增加了URL相关特征值以及初始分类结果)进行准确率的对比。其中准确率从五个方面进行判断:
真阳性(True Positive,TP):非法网址判定为非法网址的数量;
真阴性(True Negative,TN):合法网址判定为合法网址的数量;
假阴性(False Negative,FN):非法网址判定为合法网址,该情况属于漏判;
假阳性(False Positive,FP):合法网址判定为非法网址,该情况属于误判。
平均准确率:AVG=(TP+TN)/2。
为提高网址检测的准确率,上述选取出的2000个网址在运行时采用10折交叉验证(10-fold cross-validation),即将选取除的2000个网址分成十份,轮流将其中9份作为训练集,1份作为测试集进行试验。每次试验都会得出相应的正确率(或差错率),10次的结果的正确率(或差错率)的平均值作为对算法精度的估计。
在应用本发明实施例提供的网址检测方法时,编号1~1000为非法网址,编号1001~2000为合法网址,在输入特征值后,运用主成分分析进行降维处理,降维结果可视化,如图6所示。基于图6可以将网址分为三类,并运用模糊C均值(Fuzzy C-means,FCM)算法确定类别标签,部分标签表3所示:
表3 类别标签
基于上述初始分类结果,运用逻辑回归、J48和文献“J.Ma,L.K.Saul,S.Savage,G.M.Voelker,Beyondblacklists:Learning to detect malicious web sitesfromsuspicious URLs,In:Proc.15th ACM SIGKDDInt.Conf.Knowledge Discovery and DataMining,Paris,France,2009,pp.1245-1254”,采用现有技术和本发明实施例提供的网址检测方法进行检测,并在得出网址检测的准确率后进行对比,对比结果如表4所示:
表4 准确率比对结果
其中新特征是URL相关特征值和初始分类结果,通过上表4可以看出,运用机器学习方法如LR、J48和文献对待检测网址进行分类,使用本发明实施例提供的网址检测方法相对于现有技术来说,准确率有了一定的提高,进而表明本发明实施例的特征提取具有一定的可用性与合理性。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
与上述方法实施例相对应,本发明实施例还提供一种网址检测装置,其结构示意图如图7所示,可以包括:获得单元11、第一分类单元12和第二分类单元13。
获得单元11,用于获得待检测网址中的特征值,特征值至少包括:URL相关特征值,URL相关特征值用于指示待检测网址与预先建立的合法网络库中易受攻击的合法网址之间的相关程度。
发明人对非法网站进行研究发现,目前的非法网站只与少部分排名靠前且有利可图的网址即易受攻击的合法网址相关,因此在获取待检测网址的特征值时需要获取到指示待检测网址与合法网址的相关程度的URL相关特征值,以确定待检测网址和合法网址是否相关,进一步至少基于URL相关特征值对待检测网址进行检测。
而经检测目前易受攻击的合法网址,在中国排名前六的合法网址(淘宝网、阿里巴巴、新浪、腾讯、中央电视台和中国工商银行)的举报量占到总举报量的95.1%。在世界范围内同样集中攻击少部分受欢迎的网址,比如PayPAL(全球最大的在线支付平台)和Tibia(一款网游)等。为此本发明实施例通过爬取各大搜索引擎提供的排名在前预设条数(比如500条,具体取值不限)的URL,并对常受攻击的URL进行收集,建立合法网址库,所述合法网址库中存储有易受攻击的合法网址的URL。
第一分类单元12,用于基于待检测网址中的特征值,对待检测网址进行初始分类,得到待检测网址的初始分类结果。
第二分类单元13,用于基于待检测网址中的特征值和待检测网址的初始分类结果,对待检测网址进行最终分类,得到待检测网址的最终分类结果,待检测网址的最终分类结果用于指示待检测网址所属网址类型。
也就是说,在本发明实施例中,对待检测网址进行两次分类,其中第一次分类是基于待检测网址中的特征值对待检测网址进行粗分类,得到的初始分类结果连同待检测网址的特征值作为第二次检测的检测基础,通过第二次检测得到待检测网址的最终分类结果,即最终分类结果指示出待检测网址所属网址类型,如待检测网址是非法网址还是合法网址。
从上述技术方案可知,本发明实施例在检测待检测网址所属类型时,在基于的检测基础——特征值中加入统一资源定位符相关特征值,统一资源定位符相关特征值用于指示待检测网址与易受攻击的合法网址之间的相关程度,并且发明人发现非法网址(如恶意的钓鱼网站)均与易受攻击的合法网址相关,因此在基于加入有统一资源定位符相关特征值的检测基础检测待检测网址所属类型时,可以提高网址检测的准确度。
在本发明实施例中,获得单元11的结构示意图如图8所示,可以包括:提取子单元111、计算子单元112和获得子单元113。
提取子单元111,用于从待检测网址中提取词汇特征值和主机信息相关特征值。其中词汇特征值和主机信息相关特征值是检测待检测网址中,除URL相关特征值之外的另两个主要特征值,对于这两个主要特征值所关联的特征介绍可以参阅方法实施例部分。
计算子单元112,用于计算待检测网址的URL和合法网址库中每个合法网址的URL之间的相同距离比值和相异距离比值。具体的计算子单元112包括:对比子单元、第一计算子单元和第二计算子单元。
对比子单元,用于将待检测网址的URL和合法网址库中每个合法网址的URL进行对比,得出待检测网址的URL转变为对应的合法网址的URL所需的转变次数以及得出待检测网址的URL与对应的合法网址的URL之间相匹配的字符数。
第一计算子单元,用于将转变次数与合法网址的URL的字符总数的比值作为待检测网址与对应的合法网址的相异距离比值。
第二计算子单元,用于将相匹配的字符数与合法网址的URL的字符总数的比值作为待检测网址与对应的合法网址的相同距离比值。
获得子单元113,用于基于每个相同距离比值和每个相异距离比值,得到待检测网址的唯一的URL相关特征值。具体的,获得子单元113,用于计算每个相同距离比值的第一加权值和计算每个相异距离比值的第二加权值,对每个合法网址,计算同一个合法网址的第一加权值和第二加权值的差值,并从每个合法网址的差值中选取取值最小的差值作为待检测网址的唯一的URL相关特征值。
请参阅图9,其示出了本发明实施例提供的网址检测装置中第一分类单元12的结构示意图,可以包括:降维处理子单元121、确定子单元122、取值计算子单元123和划分子单元124。
降维处理子单元121,用于对待检测网址的特征值进行降维处理,得到处理后的特征值。
确定子单元122,用于当处理后的特征值满足预设条件时,基于处理后的特征值确定初始分类个数。当处理后的特征值不满足预设条件时,随机确定初始分类个数。以及用于在确定初始分类个数后,随机选取每个分类的初始聚类中心。
取值计算子单元123,用于周期性地计算每个初始聚类中心的取值,在已计算出相邻两个周期下的初始聚类中心后计算聚类误差并将ci(k)替换为ci(k+1),判断聚类误差是否小于预设误差,若是则结束剩余周期下对初始聚类中心的取值的计算,若否则继续剩余周期下对初始聚类中心的取值的计算,其中ci(k)和ci(k+1)为相邻两个周期计算得到的初始聚类中心的取值,ci(k)为第k个周期得到的第i个分类下初始聚类中心的取值,ci(k+1)为第k+1个周期得到的第i个分类下初始聚类中心的取值,i=1,2,…,c,c为初始分类个数。
划分子单元124,用于对第q个待检测网址的特征值构成的特征点xq,若则将特征点xq划分至第i个分类下,z=1,2,...,c,z≠i,q=1,2,…,n,n为待检测网址的总数,待检测网址的分类结果为每个特征点的分类结果的集合。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,尤其是对于装置类实施例中的各个子单元,由于其与方法实施例基本相似,所以描述的比较简单,相关之处以及各个子单元的处理过程参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (8)
1.一种网址检测方法,其特征在于,所述方法包括:
获得待检测网址中的特征值,所述特征值至少包括:统一资源定位符相关特征值,所述统一资源定位符相关特征值用于指示所述待检测网址与预先建立的合法网络库中易受攻击的合法网址之间的相关程度;
基于所述待检测网址中的特征值,对所述待检测网址进行初始分类,得到所述待检测网址的初始分类结果;
基于所述待检测网址中的特征值和所述待检测网址的初始分类结果,对所述待检测网址进行最终分类,得到所述待检测网址的最终分类结果,所述待检测网址的最终分类结果用于指示所述待检测网址所属网址类型;
其中,所述获得待检测网址中的特征值,包括:
计算所述待检测网址的统一资源定位符和合法网址库中每个所述合法网址的统一资源定位符之间的相同距离比值和相异距离比值;
计算每个所述相同距离比值的第一加权值和计算每个所述相异距离比值的第二加权值;
对每个所述合法网址,计算同一个所述合法网址的所述第一加权值和所述第二加权值的差值;
从每个所述合法网址的差值中选取取值最小的差值作为所述待检测网址的唯一的所述统一资源定位符相关特征值。
2.根据权利要求1所述的方法,其特征在于,所述获得待检测网址中的特征值,还包括:
从所述待检测网址中提取词汇特征值和主机信息相关特征值。
3.根据权利要求1所述的方法,其特征在于,所述计算所述待检测网址的统一资源定位符和合法网址库中每个所述合法网址的统一资源定位符之间的相同距离比值和相异距离比值,包括:
将所述待检测网址的统一资源定位符和合法网址库中每个所述合法网址的统一资源定位符进行对比,得出所述待检测网址的统一资源定位符转变为对应的所述合法网址的统一资源定位符所需的转变次数以及得出所述待检测网址的统一资源定位符与对应的所述合法网址的统一资源定位符之间相匹配的字符数;
将所述转变次数与所述合法网址的统一资源定位符的字符总数的比值作为所述待检测网址与对应的所述合法网址的所述相异距离比值;
将所述相匹配的字符数与所述合法网址的统一资源定位符的字符总数的比值作为所述待检测网址与对应的所述合法网址的所述相同距离比值。
4.根据权利要求1所述的方法,其特征在于,所述基于所述待检测网址中的特征值,对所述待检测网址进行初始分类,得到所述待检测网址的初始分类结果,包括:
对所述待检测网址的特征值进行降维处理,得到处理后的特征值;
当处理后的特征值满足预设条件时,基于所述处理后的特征值确定初始分类个数;当处理后的特征值不满足预设条件时,随机确定初始分类个数;
在确定所述初始分类个数后,随机选取每个分类的初始聚类中心;
周期性地计算每个所述初始聚类中心的取值,在已计算出相邻两个周期下的初始聚类中心后计算聚类误差并将所述ci(k)替换为所述ci(k+1),判断聚类误差是否小于预设误差,若是则结束剩余周期下对初始聚类中心的取值的计算,若否则继续剩余周期下对初始聚类中心的取值的计算,其中ci(k)和ci(k+1)为相邻两个周期计算得到的初始聚类中心的取值,ci(k)为第k个周期得到的第i个分类下所述初始聚类中心的取值,ci(k+1)为第k+1个周期得到的第i个分类下所述初始聚类中心的取值,i=1,2,…,c,c为初始分类个数;
5.一种网址检测装置,其特征在于,所述装置包括:
获得单元,用于获得待检测网址中的特征值,所述特征值至少包括:统一资源定位符相关特征值,所述统一资源定位符相关特征值用于指示所述待检测网址与预先建立的合法网络库中易受攻击的合法网址之间的相关程度;
第一分类单元,用于基于所述待检测网址中的特征值,对所述待检测网址进行初始分类,得到所述待检测网址的初始分类结果;
第二分类单元,用于基于所述待检测网址中的特征值和所述待检测网址的初始分类结果,对所述待检测网址进行最终分类,得到所述待检测网址的最终分类结果,所述待检测网址的最终分类结果用于指示所述待检测网址所属网址类型;
其中,所述获得单元,包括:
计算子单元,用于计算所述待检测网址的统一资源定位符和合法网址库中每个所述合法网址的统一资源定位符之间的相同距离比值和相异距离比值;
获得子单元,用于计算每个所述相同距离比值的第一加权值和计算每个所述相异距离比值的第二加权值,对每个所述合法网址,计算同一个所述合法网址的所述第一加权值和所述第二加权值的差值,并从每个所述合法网址的差值中选取取值最小的差值作为所述待检测网址的唯一的所述统一资源定位符相关特征值。
6.根据权利要求5所述的装置,其特征在于,所述获得单元,还包括:
提取子单元,用于从所述待检测网址中提取词汇特征值和主机信息相关特征值。
7.根据权利要求5所述的装置,其特征在于,所述计算子单元,包括:
对比子单元,用于将所述待检测网址的统一资源定位符和合法网址库中每个所述合法网址的统一资源定位符进行对比,得出所述待检测网址的统一资源定位符转变为对应的所述合法网址的统一资源定位符所需的转变次数以及得出所述待检测网址的统一资源定位符与对应的所述合法网址的统一资源定位符之间相匹配的字符数;
第一计算子单元,用于将所述转变次数与所述合法网址的统一资源定位符的字符总数的比值作为所述待检测网址与对应的所述合法网址的所述相异距离比值;
第二计算子单元,用于将所述相匹配的字符数与所述合法网址的统一资源定位符的字符总数的比值作为所述待检测网址与对应的所述合法网址的所述相同距离比值。
8.根据权利要求5所述的装置,其特征在于,所述第一分类单元,包括:
降维处理子单元,用于对所述待检测网址的特征值进行降维处理,得到处理后的特征值;
确定子单元,用于当处理后的特征值满足预设条件时,基于所述处理后的特征值确定初始分类个数;当处理后的特征值不满足预设条件时,随机确定初始分类个数;以及用于在确定所述初始分类个数后,随机选取每个分类的初始聚类中心;
取值计算子单元,用于周期性地计算每个所述初始聚类中心的取值,在已计算出相邻两个周期下的初始聚类中心后计算聚类误差并将所述ci(k)替换为所述ci(k+1),判断聚类误差是否小于预设误差,若是则结束剩余周期下对初始聚类中心的取值的计算,若否则继续剩余周期下对初始聚类中心的取值的计算,其中ci(k)和ci(k+1)为相邻两个周期计算得到的初始聚类中心的取值,ci(k)为第k个周期得到的第i个分类下所述初始聚类中心的取值,ci(k+1)为第k+1个周期得到的第i个分类下所述初始聚类中心的取值,i=1,2,…,c,c为初始分类个数;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610648239.9A CN106330861B (zh) | 2016-08-09 | 2016-08-09 | 一种网址检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610648239.9A CN106330861B (zh) | 2016-08-09 | 2016-08-09 | 一种网址检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106330861A CN106330861A (zh) | 2017-01-11 |
CN106330861B true CN106330861B (zh) | 2020-03-03 |
Family
ID=57739821
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610648239.9A Active CN106330861B (zh) | 2016-08-09 | 2016-08-09 | 一种网址检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106330861B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109428857B (zh) * | 2017-08-23 | 2021-01-05 | 腾讯科技(深圳)有限公司 | 一种恶意探测行为的检测方法和装置 |
CN108156131B (zh) * | 2017-10-27 | 2020-08-04 | 上海观安信息技术股份有限公司 | Webshell检测方法、电子设备和计算机存储介质 |
CN110059481A (zh) * | 2019-04-23 | 2019-07-26 | 中国人民解放军战略支援部队信息工程大学 | 一种恶意网页检测方法及系统 |
CN112711723B (zh) * | 2019-10-25 | 2024-04-30 | 北京搜狗科技发展有限公司 | 一种恶意网址检测方法、装置及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104077396A (zh) * | 2014-07-01 | 2014-10-01 | 清华大学深圳研究生院 | 一种钓鱼网站检测方法及装置 |
CN104580254A (zh) * | 2012-06-28 | 2015-04-29 | 北京奇虎科技有限公司 | 一种钓鱼网站识别系统及方法 |
CN104954372A (zh) * | 2015-06-12 | 2015-09-30 | 中国科学院信息工程研究所 | 一种钓鱼网站的取证与验证方法及系统 |
CN105824822A (zh) * | 2015-01-05 | 2016-08-03 | 任子行网络技术股份有限公司 | 一种由钓鱼网页聚类定位目标网页的方法 |
-
2016
- 2016-08-09 CN CN201610648239.9A patent/CN106330861B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104580254A (zh) * | 2012-06-28 | 2015-04-29 | 北京奇虎科技有限公司 | 一种钓鱼网站识别系统及方法 |
CN104077396A (zh) * | 2014-07-01 | 2014-10-01 | 清华大学深圳研究生院 | 一种钓鱼网站检测方法及装置 |
CN105824822A (zh) * | 2015-01-05 | 2016-08-03 | 任子行网络技术股份有限公司 | 一种由钓鱼网页聚类定位目标网页的方法 |
CN104954372A (zh) * | 2015-06-12 | 2015-09-30 | 中国科学院信息工程研究所 | 一种钓鱼网站的取证与验证方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN106330861A (zh) | 2017-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108965245B (zh) | 基于自适应异构多分类模型的钓鱼网站检测方法和系统 | |
CN106330861B (zh) | 一种网址检测方法及装置 | |
US10860565B2 (en) | Database update and analytics system | |
CN107798080B (zh) | 一种面向钓鱼url检测的相似样本集构造方法 | |
WO2014054052A2 (en) | Context based co-operative learning system and method for representing thematic relationships | |
WO2009023583A2 (en) | Domain name statistical classification using character-based n-grams | |
Al-Ahmadi et al. | PDGAN: Phishing detection with generative adversarial networks | |
WO2009023582A1 (en) | Domain name geometrical classification using character-based n-grams | |
Irena et al. | Fake news (hoax) identification on social media twitter using decision tree c4. 5 method | |
CN110191096A (zh) | 一种基于语义分析的词向量网页入侵检测方法 | |
Wang et al. | Identifying users across different sites using usernames | |
CN113422761A (zh) | 基于对抗学习的恶意社交用户检测方法 | |
Garcia-Gasulla et al. | Evaluating link prediction on large graphs | |
Rajabi et al. | User behavior modelling for fake information mitigation on social web | |
CN110855635B (zh) | Url识别方法、装置及数据处理设备 | |
Khan | Detection of phishing websites using deep learning techniques | |
Assefa et al. | Intelligent phishing website detection using deep learning | |
Peng et al. | Malicious URL recognition and detection using attention-based CNN-LSTM | |
Aljabri et al. | Fake news detection using machine learning models | |
Amanullah et al. | CNN based prediction analysis for web phishing prevention | |
Zaman et al. | Phishing website detection using effective classifiers and feature selection techniques | |
Al-Tamimi et al. | Employing cluster-based class decomposition approach to detect phishing websites using machine learning classifiers | |
Rayyan et al. | Uniform resource locator classification using classical machine learning & deep learning techniques | |
Shaffi et al. | Weighted PageRank algorithm search engine ranking model for web pages | |
Hawa et al. | Combating misinformation dissemination through verification and content driven recommendation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |