CN108509794A

CN108509794A - 一种基于分类学习算法的恶意网页防御检测方法

Info

Publication number: CN108509794A
Application number: CN201810196118.4A
Authority: CN
Inventors: 陈军; 龙冬阳; 于跃; 熊绘
Original assignee: National Sun Yat Sen University
Current assignee: Sun Yat Sen University; National Sun Yat Sen University
Priority date: 2018-03-09
Filing date: 2018-03-09
Publication date: 2018-09-07

Abstract

本发明提供一种基于分类学习算法的恶意网页防御检测方法，该方法充分分析大量网页的内容特征、DOM树特征、视觉特征、邻居特征、页面代码类特征、脚本类特征、网址属性特征等。根据各类特征所表征网页特性的优缺点，从中选取出极有代表性的20多种特征，再利用三种不同的分类学习算法(KNN最近邻算法、朴素贝叶斯算法、决策树算法)分别构建分类器。通过增量学习，对待检测网页做出判别。

Description

一种基于分类学习算法的恶意网页防御检测方法

技术领域

本发明涉及网络安全领域，更具体地，涉及一种基于分类学习算法的恶意网页防御检测方法。

背景技术

随着互联网以及多媒体的发展，博客、社交、办公、电子商务以及网银等应用越来越普及，使得人们与互联网已经密不可分了，但是伴随着享受这些科技进步带来的便利之时，也有了许多危害之处。我们的手机里每天充斥着垃圾短信，经常有陌生的来电，个人信息泄露，注册信息也被窃取，网络安全问题给我们带来了极大的麻烦，更有甚者已经上升到了犯罪的高度，这一问题逐渐引起了国家的重视，而在各色各样的网络服务中，网页依旧是不可撼动的主体服务，随着网页的功能和样式内容的变化，网页中出现了各种形式的第三方插件，由于这些脚本插件的管理和制作的不规范，给了不法分子可趁之机，他们通过挂马或者病毒等各种方式制作出恶意网页，感染用户的计算机，窃取用户的信息，严重的危害了网络安全。

恶意网页的检测方法主要是客户端蜜罐和静态检测算法。

客户端蜜罐是相对于传统的服务器蜜罐而言的，传统的蜜罐技术是故意暴露出系统中有漏洞的服务器，等待攻击，类似于钓鱼执法，而此种方法过于被动，只能检测服务器是否遭受攻击而不能检测客户端是否遭受攻击。因此蜜罐技术概念创始人LanceSpitzner于2004年6月提出了一种新型的蜜罐检测系统，客户端蜜罐。而根据系统中浏览器的模拟程度又可分为高交互和低交互客户端蜜罐，前者一般是利用真实的操作系统中的网页浏览器。模拟用户和网站的交互环境，记录操作系统中文件，进程、注册表以及其他项目的状态变化来判别。例如HoneyClient、UW SpyCrawler、HoneyMonkey等等。后者则一般不与攻击者交互或者交互程度极低，只是模拟网页浏览器，主要使用静态算法检测恶意网页代码。不过这几种方法缺点明显，客户端蜜罐技术检测速度太慢，静态检测技术误判率太高，而且对新型的恶意网页种类判别能力较弱，造血能力太差。因此设计一种较为优秀的恶意网页防御检测方法亟待解决。

发明内容

本发明提供一种较强判别能力的基于分类学习算法的恶意网页防御检测方法。

一种基于分类学习算法的恶意网页防御检测方法，包括以下步骤：

S1：用自然语言处理的方法分析网页的内容特征：首先去除噪音，抽取网页的正文文本和源代码，用文本处理的方法进行词频分析或者词法分析，计算文本中字符串出现的字数，计算其频率；对内容分析代码语句的意思，分析html页面和JavaScript页面的一些特殊标签；

S2：分析DOM树的结构反应出网页的主体架构，通过处理网页的实际内容来得到其相关特征，还原网页的结构信息；

S3：分析网页页面代码和脚本类特征；

S4：抽取网页中网址类属性特征；

S5：邻居特征的分析：当网页中包含大量的图片和动画而却只有少量的文本；

S6：基于KNN算法、朴素贝叶斯算法以及决策树算法三种分类学习的算法构造分类器，将通过机器学习的方法将待检测的网页特征提取置于分类器中辨别。

进一步地，所述步骤S5中，当网页中包含大量的图片和动画而却只有少量的文本时，以上的方法就不一定能正确反应网页的属性，此时就应该通过邻居特征分析了，分析其与超链接的关系来更好的确认源网页的从属类别。

进一步地，所述步骤S6中，KNN算法的过程是：

1)、计算测试数据与各个数据之间的距离；

2)、按照距离的递增关系进行排序；

3)、选取距离最小的k个点；

4)、确定前k个点所在类别出现的概率；

5)、返回前k个点中出现频率最高的类别作为测试数据的预测分类。

进一步地，所述步骤S6中，朴素贝叶斯算法的过程是：

1)、设X＝{A1,A2,…….Am}为一个待分类项，其中每个A为X的一个特征属性，有类别集合C＝{Y1,Y2……..Yn}；

2)、计算出P(Yk|X)＝max(P(Y1|X),P(Y2|X),……..P(Yn|X))，则X为Yk类别；

3)、由于P(Yk|X)难以计算，所以可以通过贝叶斯定理P(A|B)＝P(B|A)*P(B)/P(A)，计算P(X|Yk)。

4)、由于各特征属性相互独立，故：

所以求出最大的P(Y_i)ΠP(a_j|Y_i)即可。

进一步地，所述步骤S6中，决策树算法的过程是：

假设D为类别对训练元组进行的划分，则D的熵为：

其中P_i表示第i个类别在整个训练元组中出现的概率；

现在将训练元组D以A为属性进行分裂，则A对D划分的期望信息为：

而信息增益量则为两者的差值：

Gain(A)＝info(D)-info(D|A)；

将各个属性的信息增益量计算出来，然后将最大增益量的属性进行分裂，之后重复如此即可。

与现有技术相比，本发明技术方案的有益效果是：

本发明方法充分分析大量网页的内容特征、DOM树特征、视觉特征、邻居特征、页面代码类特征、脚本类特征、网址属性特征等。根据各类特征所表征网页特性的优缺点，从中选取出极有代表性的20多种特征，再利用三种不同的分类学习算法(KNN最近邻算法、朴素贝叶斯算法、决策树算法)分别构建分类器。通过增量学习，对待检测网页做出判别。

附图说明

图1为本发明方法流程图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示，一种基于分类学习算法的恶意网页防御检测方法，包括以下步骤：

S3：分析网页页面代码和脚本类特征；

S4：抽取网页中网址类属性特征；

进一步地，所述步骤S6中，KNN算法的过程是：

1)、计算测试数据与各个数据之间的距离；

2)、按照距离的递增关系进行排序；

3)、选取距离最小的k个点；

4)、确定前k个点所在类别出现的概率；

进一步地，所述步骤S6中，朴素贝叶斯算法的过程是：

4)、由于各特征属性相互独立，故：

所以求出最大的P(Y_i)ΠP(a_j|Y_i)即可。

进一步地，所述步骤S6中，决策树算法的过程是：

假设D为类别对训练元组进行的划分，则D的熵为：

其中P_i表示第i个类别在整个训练元组中出现的概率；

而信息增益量则为两者的差值：

Gain(A)＝info(D)-info(D|A)；

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于分类学习算法的恶意网页防御检测方法，其特征在于，包括以下步骤：

S3：分析网页页面代码和脚本类特征；

S4：抽取网页中网址类属性特征；

2.根据权利要求1所述的基于分类学习算法的恶意网页防御检测方法，其特征在于，所述步骤S5中，当网页中包含大量的图片和动画而却只有少量的文本时，以上的方法就不一定能正确反应网页的属性，此时就应该通过邻居特征分析了，分析其与超链接的关系来更好的确认源网页的从属类别。

3.根据权利要求2所述的基于分类学习算法的恶意网页防御检测方法，其特征在于，所述步骤S6中，KNN算法的过程是：

1)、计算测试数据与各个数据之间的距离；

2)、按照距离的递增关系进行排序；

3)、选取距离最小的k个点；

4)、确定前k个点所在类别出现的概率；

4.根据权利要求3所述的基于分类学习算法的恶意网页防御检测方法，其特征在于，所述步骤S6中，朴素贝叶斯算法的过程是：

4)、由于各特征属性相互独立，故：

所以求出最大的P(Y_i)ΠP(a_j|Y_i)即可。

5.根据权利要求4所述的基于分类学习算法的恶意网页防御检测方法，其特征在于，所述步骤S6中，决策树算法的过程是：

假设D为类别对训练元组进行的划分，则D的熵为：

其中P_i表示第i个类别在整个训练元组中出现的概率；

而信息增益量则为两者的差值：

Gain(A)＝info(D)-info(D|A)；