CN107463844A

CN107463844A - Web木马检测方法及系统

Info

Publication number: CN107463844A
Application number: CN201610393383.2A
Authority: CN
Inventors: 徐晓燕; 李高超; 周渊
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2016-06-06
Filing date: 2016-06-06
Publication date: 2017-12-12
Anticipated expiration: 2036-06-06
Also published as: CN107463844B

Abstract

本发明公开了一种WEB木马检测方法及系统，用以克服利用静态匹配方式检测的漏检以及动态检测效率低的缺陷，及实现对隐藏在重定向链以及混淆页面中的木马的检测的问题。所述方法包括：选取重定向链特征和页面统计特征作为网页木马检测的分类特征；获取样本集，所述样本集包括多个正样本和多个负样本；提取每个样本的分类特征值，并基于提取的每个分类特征值对所述样本集进行网页木马分类训练，得到分类模型；提取待测网页的分类特征值，将提取的待测网页分类特征值输入到所述分类模型中对所述待测网页进行分类检测。

Description

WEB木马检测方法及系统

技术领域

本发明涉及计算机领域，特别是涉及一种WEB木马检测方法及系统。

背景技术

近年来，互联网发展飞速，给人们获得有效实时信息和资源提供了极大的帮助，满足了大众足不出户就可以纵观世界的愿望，逐渐成为人们生活必备的部分。网络技术的先进性已经成为我们生活的主导因素，我们日常的各种活动都已经依赖于互联网，例如个人娱乐活动，医疗活动，银行金融活动，以及其他生活的方方面面。为保持这种先进性，大量的功能性措施已经加入到现代化浏览器中，然而这些先进性也带来了大量缺陷漏洞。这些漏洞缺陷会逐渐成为隐患，被更多图谋不轨的人所利用。恶意程序主要包括计算机病毒、蠕虫、木马、僵尸程序等，近年来，不同类别的恶意程序之间的界限逐渐模糊，木马和僵尸程序成为黑客最常利用的攻击手段。当前的成型网页木马检测技术大致分为两类，第一类就是利用技术静态分析网页以及内嵌代码(例如JavaScript，flash)，它们的特征具有典型的恶意性。例如网页的URLS特征，内容特征以及其他特征，或者是开发能利用的恶意脚本片段。第二类是利用动态技术，这些方法大都依赖于感知化的浏览器，常提到的有客户端蜜罐，监控各种行为，其中监控主机注册行为特征是一种典型的方法。

尽管现存的检测系统，可以满足部分互联网用户安全可靠上网，但是攻击技术不断更新，这些方法仍然还有许多局限性，使得检测面临着更多的挑战。

发明内容

为了克服上述现有技术的缺陷，本发明要解决的技术问题是提供一种WEB木马检测方法及系统，用以克服利用静态匹配方式检测的漏检以及动态检测效率低的缺陷，及实现对隐藏在重定向链以及混淆页面中的木马的检测的问题。

为解决上述技术问题，本发明中的一种WEB木马检测方法，包括：

选取重定向链特征和页面统计特征作为网页木马检测的分类特征；

获取样本集，所述样本集包括多个正样本和多个负样本；

提取每个样本的分类特征值，并基于提取的每个分类特征值对所述样本集进行网页木马分类训练，得到分类模型；

提取待测网页的分类特征值，将提取的待测网页分类特征值输入到所述分类模型中对所述待测网页进行分类检测。

作为本发明的WEB木马检测方法的改进，所述重定向链特征包括重定向链的长度特征、URL相似度特征、内部域名特征、自循环特征和域名的IP特征；

所述页面统计特征包括<meta>标签个数、<script>标签个数、eval()函数统计出现的次数、unescape()和escape()函数的个数、decode和encode函数个数以及document.write()函数个数。

作为本发明的WEB木马检测方法的进一步改进，提取每个样本的重定向链的URL相似度特征值步骤，具体包括：计算每个样本的重定向链中任意两个URL地址的相似度值；从计算得到的所有相似度值中提取最低相似度值作为该样本的重定向链的URL相似度特征值；

提取每个样本的重定向链的内部域名特征值步骤，具体包括：判断每个样本的重定向链中是否至少存在一步从一个网页到另一个网页用相同的域名；如果存在则提取布尔型为1，如果不存在则提取布尔型为0；

提取每个样本的重定向链的域名的IP特征值步骤，具体包括：提取每个样本的重定向链的树形结构中所有叶子节点中IPnum/STRnum的值，其中IPnum是指URL域名是IP地址的数量，STRnum是指URL域名是字符串的数量；

所述自循环特征具体为重定向链的最后到达页面指向的是用户重定向开始的页面。

作为本发明的WEB木马检测方法的再进一步改进，所述提取每个样本的分类特征值的步骤，还包括：

将每个样本的非布尔型的分类特征值表示为[0,1]之间的小数，并将表示的格式统一。

作为本发明的WEB木马检测方法的另一种改进，所述基于提取的每个分类特征值对所述样本集进行网页木马分类训练，得到分类模型的步骤，包括：

基于提取的每个分类特征值采用SVM模型对所述样本集进行网页木马分类训练；

在训练过程中，采用K-折叠交叉验证方式，获得SVM模型的最优gamma参数和C参数；

将由所述最优gamma参数和所述C参数构建的SVM模型确定为所述分类模型。

为解决上述技术问题，本发明中的一种WEB木马检测系统，包括：

特征设置模块，用于选取重定向链特征和页面统计特征作为网页木马检测的分类特征；

样本获取模块，用于获取样本集，所述样本集包括多个正样本和多个负样本；

模型训练模块，用于提取每个样本的分类特征值，并基于提取的每个分类特征值对所述样本集进行网页木马分类训练，得到分类模型；

木马检测模块，用于提取待测网页的分类特征值，将提取的待测网页分类特征值输入到所述分类模型中对所述待测网页进行分类检测。

作为本发明的WEB木马检测系统的改进，所述重定向链特征包括重定向链的长度特征、URL相似度特征、内部域名特征、自循环特征和域名的IP特征；

作为本发明的WEB木马检测系统的进一步改进，所述模型训练模块在提取每个样本的重定向链的URL相似度特征值时具体用于：计算每个样本的重定向链中任意两个URL地址的相似度值；从计算得到的所有相似度值中提取最低相似度值作为该样本的重定向链的URL相似度特征值；

所述模型训练模块在提取每个样本的重定向链的内部域名特征值时具体用于：判断每个样本的重定向链中是否至少存在一步从一个网页到另一个网页用相同的域名；如果存在则提取布尔型为1，如果不存在则提取布尔型为0；

所述模型训练模块在提取每个样本的重定向链的域名的IP特征值时具体用于：提取每个样本的重定向链的树形结构中所有叶子节点中IPnum/STRnum的值，其中IPnum是指URL域名是IP地址的数量，STRnum是指URL域名是字符串的数量；

作为本发明的WEB木马检测系统的再进一步改进，所述系统还包括预处理模块，用于将每个样本的非布尔型的分类特征值表示为[0,1]之间的小数，并将表示的格式统一。

作为本发明的WEB木马检测系统的另一种改进，所述模型训练模块在基于提取的每个分类特征值对所述样本集进行网页木马分类训练，得到分类模型时具体用于：基于提取的每个分类特征值采用SVM模型对所述样本集进行网页木马分类训练；

本发明有益效果如下：

本发明WEB木马检测方法及系统采用重定向链特征和页面统计特征相结合的方法，来完成WEB木马的检测，克服了传统利用静态匹配方式检测的漏检以及动态检测效率低的缺陷，降低了漏检率和误报率，并实现了对隐藏在重定向链以及混淆页面中的木马的检测。

附图说明

图1是本发明实施例中一种WEB木马检测方法的详细流程图；

图2是本发明实施例中一种WEB木马检测系统的框图。

具体实施方式

目前，由于攻击者会混淆他们的网页使得检测变得更加困难，在许多情况下，他们会躲避那些基于特征的系统。

有时，攻击者也经常会利用一种隐身技术来隐藏他们开发。这种技术是利用用户的浏览器指纹，只有当用户安装了特殊版本的浏览器或者安装了有漏洞的插件的时候恶意内容才会暴露。这种隐身技术使得动态监测方法的难度更大，因为防御软件需要运行所有浏览器和插件的组合，才能全确保完全覆盖(或者是利用特殊技术满足这种需求)。防御者还要精心制作他们的路由器，来隐藏他们的通信资源。

有时，大多数动态检测技术都引入了相当多的特殊浏览器，使得这些方法大都很难在线进行检测。

基于上述发现，本发明针对现在WEB木马传播的特点以及检测过程中遇到的难点提出了一种基于重定向链和特征统计结合的WEB木马检测的方法。该方法在提取特征的基础上，提出基于SVM的木马检测分类器，该分类器利用训练数据提取的重定向链和页面统计特征形成分类模型，来检测WEB木马。这种检测方式克服了传统利用静态匹配方式检测的漏检以及动态检测效率低的缺陷，实现了对隐藏在重定向链以及混淆页面中的木马的检测。以下结合附图以及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不限定本发明。

本发明实施例中一种WEB木马检测方法，包括：

S101，选取重定向链特征和页面统计特征作为网页木马检测的分类特征；

S102，获取样本集，所述样本集包括多个正样本和多个负样本；其中多个指代大于1个，样本的数量可以根据实际设置，在此不做具体限定。

S103，提取每个样本的分类特征值，并基于提取的每个分类特征值对所述样本集进行网页木马分类训练，得到分类模型；

S104，提取待测网页的分类特征值，将提取的待测网页分类特征值输入到所述分类模型中对所述待测网页进行分类检测。

在本发明的一个实施方式中，所述重定向链特征包括重定向链的长度特征、URL相似度特征、内部域名特征、自循环特征和域名的IP特征；

进一步说，提取每个样本的重定向链的URL相似度特征值步骤，具体包括：计算每个样本的重定向链中任意两个URL地址的相似度值；从计算得到的所有相似度值中提取最低相似度值作为该样本的重定向链的URL相似度特征值；

其中，所述提取每个样本的分类特征值的步骤，还可以包括：

在本发明的另一个实施方式中，所述基于提取的每个分类特征值对所述样本集进行网页木马分类训练，得到分类模型的步骤，包括：

以下详细举一应用例详细说明本发明实施例。

利用机器学习进行木马检测，首先应该根据所选择的特征选择一种高效的分类算法，然后在根据训练数据集训练分类产生分类模型，进而进行WEB木马的检测。特征提取已在前面工作完成，该部分主要介绍数据集选择，分类算法的选择以及分类器的设计。其流程如图1所示，包括：

步骤1、获取训练数据(样本集)，包括正样本集(正常网站页面)以及合成以及提取的负样本集(web木马页面)。

步骤2、WFEM-GW(web feature extraction model based on gateway)特征提取模型，训练数据通过该模型，可以获得初步特征项，包括重定向特征以及页面统计特征。

其中，重定向链特征包括：

(1)重定向链的长度特征：攻击者经常会利用比较长的重定向链，这样会使得检测更加困难，并且能够避免被服务器解去隐藏体。

也就是说，长的重定向链可能是一种恶意攻击的标示。攻击者经常会利用比较长的重定向链，这样会使得检测更加困难，并且能够避免被服务器解去隐藏体。因此如果一个网页内嵌木马，它的重定向链的长度可能比其他正常网页的重定向链长度长。

(2)重定向链的URL相似度特征：重定向链中的URL，都是在同一网页目录下的链接，其相应的结构，URL字符串也具有较高的相似性。

详细说，重定向链中的URL，都是在同一网页目录下的链接，其相应的结构，URL字符串也具有较高的相似性。

重定向链接也有许多合法的用户。例如广告网站就广泛的利用重定向链接来确保每一个广告都能在恰当的位置呈现给用户，因此需要区分重定向链接是正常合法网址还是木马恶意网址。

因此在计算相似性的时候，需要进行白名单剔除计算，将在白名单中的URL认为相似度是1。这个白名单是根据Alexa排名1000的网站。假设U1，U2分别两个URL地址，计算URL相似度的公式如下所示：

在公式中，用||来表示字符串的长度，用“∩”来表示U1和U2的公共字符串长度。计算出重定向分支中每个URL和请求URL的相似度后，然后利用如下公式选取所有重定向链中相似度最低的值min(redirect_sim)。

(3)重定向链的内部域名特征：合法的重定向链经常包含内部相同域名的重定向跳转，而一般情况下，木马重定向链接包含的域名大多都是不同的。

详细说，内部域名特征是指，在重定向链中是否至少存在一步从一个网页到另一个网页使用相同的域名，如果这一点成立则把这个特征设定为真的，布尔型1，如果不成立，则布尔型表示为0。合法的重定向链经常包含内部相同域名的重定向跳转，而一般情况下，木马重定向链接包含的域名大多都是不同的。

(4)重定向链的自循环特征：是指重定向链的最后到达页面指向的是用户重定向开始的页面。

也就是说，重定向链的最后到达页面指向的是用户重定向开始的页面。这种行为经常表示一种合法的重定向链行为，用户经常被重定向到相同的页面但是参数不同。另一方面，网页木马重定向链总是把用户从一个易攻击的网页发送到一个攻击者已经准备好的网页，这种网页都是服务器真实开发的，因此不可能存在自循环。

(5)重定向链的域名是IP特征：许多木马网页都是通过IP地址直接控制。具体说，域名的IP特征主要是指重定向链目的网页的URL域名是一个IP地址，例如http://192.168.100.1/index.html。提出这样一个观点的原因是在以往的研究中发现，许多木马网页都是通过IP地址直接控制的。特征表示的方式是，用重定向链树形结构中所有叶子节点中URL域名是IP地址的个数与不是IP地址个数的比例。即IPnum/STRnum，其中IPnum是指域名是IP地址的个数，STRnum是域名是字符串的个数。

页面统计特征包括：

(1)<meta>标签个数：利用<meta>标签实现重定向的自动跳转，许多恶意木马攻击者利用这一点以防止网站被检测攻击查封，攻击者利用<meta>经过重定向时间刷新一段时间等待后，用户会被重定向到攻击者提前设定好的网页中去，被挂马，而且这种重定向可能不会一次就结束，跟踪行为更加复杂。因此记录<meta>标签的个数对检测WEB木马是一个重要的特征项。

(2)<script>标签个数。利用<script>标签可以实现重定向，即能利用<script>标签加入代码块，在代码块中利用混淆等技术实现木马隐藏，另一个方面可以利用src引入一个js文件，在js文件中可能隐藏木马。因此利用<script>标签隐藏WEB木马就更加不容易被发现，如果一个WEB页面中存在大量的<script>标签，则认为可能存在WEB木马。

(3)eval()函数统计出现的次数

Eval()函数在JavaScript中有两个作用：一个是计算表达式的值，就是可以将字符串转换成代码然后执行，另一个是运行在函数中的脚本代码。利用这个函数，攻击者可以先把木马代码变形放在字符串中，然后在运行时，通过eval还原执行，这种方式最常用。因此eval()函数出现的次数也是一个特征项。

(4)unescape()和escape()函数的个数

escape()函数是用来对字符串进行编码，unescape()是用来解码的，因此攻击者可以利用这两个函数来完成编码加密混淆。

(5)decode和encode函数个数

encode()函数是用来对字符串进行编码，decode()函数是用来解码由encode对字符串的编码，因此攻击者也可以利用这两个函数来完成编码加密混淆。

(6)document.write()函数个数。

Document.write()函数可以用来添加html标签，向客户端输出页面，因此许多攻击者利用这一点，经常使用document.write()函数来添加<iframe>标签，完成恶意攻击。

步骤3、特征预处理，具体说，为了避免特征值的过大或者过小，影响学习的效率及准确性，需要对这些特征进行预处理，处理的方法是除了布尔型(0/1)特征之外，将其它特征表示为[0,1]之间的小数，并统一表示格式，这种表示格式有利于学习的准确性，简化了下一步学习分类。

步骤4、分类训练，前面介绍过本发明实施例是采用基于SVM的C-SVC算法，内积核函数采用的是使用广泛的RBF核函数。在训练部分，我们需要两个重要的参数主要是gamma和C参数。gamma参数在SVM中发挥重要作用。更改gamma值能够改变分类模型的准确性。如果gamma参数值不准确，将会导致分类无法取得想要的结果。C参数是误差惩罚参数，C参数的值设置的过小，分类错误多，模型误差率比较高；C参数过高，也会产生一种过学习现象。因此这里通过实验选取最合适的参数范围。这两个参数是测试得到的结果。C的取值范围为0～30，gamma的取值范围为0～10。固定一个参数，逐步增大另一个参数做测试，最终选择一个最佳参数值。

步骤5、训练过程中要选取最优的分类模型，因此我们使用经验风险最小化来度量模型的好坏，采用K-折叠交叉验证(k-fold cross validation)。这种交叉验证的方式就是将训练集分成k个不相交的子集，每个模型训练k次，测试k次，错误率取这k次的平均值。通常情况下取k的值为10，这样的话，当数据十分稀疏的时候，也可以进行选择。最后的测试结果为：c＝22，gamma＝4。

步骤6、分类得到最优模型后，新的样本数据利用这个分类模型，进行分类，最后生成分类结果。

以下对本发明实施例中一种WEB木马检测系统进行说明。

本发明实施例中一种WEB木马检测系统，包括：

特征设置模块20，用于选取重定向链特征和页面统计特征作为网页木马检测的分类特征；

样本获取模块22，用于获取样本集，所述样本集包括多个正样本和多个负样本；

模型训练模块24，用于提取每个样本的分类特征值，并基于提取的每个分类特征值对所述样本集进行网页木马分类训练，得到分类模型；

木马检测模块26，用于提取待测网页的分类特征值，将提取的待测网页分类特征值输入到所述分类模型中对所述待测网页进行分类检测。

在本发明的另一个实施方式中，所述模型训练模块在提取每个样本的重定向链的URL相似度特征值时具体用于：计算每个样本的重定向链中任意两个URL地址的相似度值；从计算得到的所有相似度值中提取最低相似度值作为该样本的重定向链的URL相似度特征值；

在本发明的又一个实施方式中，，所述系统还包括预处理模块，用于将每个样本的非布尔型的分类特征值表示为[0,1]之间的小数，并将表示的格式统一。

在本发明的再一个实施方式中，所述模型训练模块在基于提取的每个分类特征值对所述样本集进行网页木马分类训练，得到分类模型时具体用于：基于提取的每个分类特征值采用SVM模型对所述样本集进行网页木马分类训练；

对本发明实施例中WEB木马检测方法及系统进行试验验证，结果如下表：

所示由实验结果可以看出，当我们仅仅采用本发明实施例中提取的重定向链特征进行分类产生分类模型进行检测，则检测准确率为91.73％，高于只利用页面统计特征做分类产生分类模型进行检测的检测率88％，同时采用重定向链特征方式的漏检率也远低于页面统计特征的漏检率，误报率也有所下降；第三次实验采用重定向链特征跟页面统计特征相结合的方式进行分类模型检测的准确率明显高于前两个实验，并且这种方式的误检率和漏检率都是最低的。

在本发明实施例中总共提取了包含重定向链特征和页面统计特征在内的12个特征，特征数量减少，对分类更有利，维度减少，分类结果更快。而且采用这种方式从实验结果可以看出本发明实施例中提出的检测方法要比原系统的准确率稍微提高一点，并且误报率以及漏检率都降低0.5％左右。说明在考虑重定向链特征进行木马检测的同时考虑页面内容特征可以提高WEB木马检测准确率，并能降低漏报率同时也降低了误检率。

结合本申请所公开示例描述的WEB木马检测方法，可直接体现为硬件、由处理器执行的软件模块或者二者结合。例如，图2中所示功能框图中的一个或多个功能框图和/或功能框图的一个和/或多个组合(例如，木马检测模块)，既可以对应于计算机程序流程的各个软件模块，亦可以对应于各个硬件模块。这些软件模块，可以分别对应于图1所示的各个步骤。这些硬件模块例如可利用现场可编程门阵列(FPGA)将这些软件模块固化而实现。

软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动硬盘、CD-ROM或者本领域已知的任何其他形式的存储介质。可以将一种存储介质藕接至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息；或者该存储介质可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路中。该软件模块可以存储在移动终端的存储器中，也可以存储在可插入移动终端的存储卡中。例如，若移动终端采用的是较大容量的MEGA-SIM卡或者大容量的闪存装置，则该软件模块可存储在该MEGA-SIM卡或者大容量的闪存装置中。

针对图2描述的功能框图中的一个或多个和/或功能框图的一个或多个组合(例如，特征设置模块)，可以实现为用于执行本申请所描述功能的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或晶体管逻辑器件、分立硬件组件或者其任意适当组合。针对图2描述的功能框图中的一个或多个和/或功能框图的一个或多个组合，还可以实现为计算机设备的组合，例如，DSP和微处理器的组合、多个微处理器、与DSP通信结合的一个或多个微处理器或者任何其他这种配置。

虽然本申请描述了本发明的特定示例，但本领域技术人员可以在不脱离本发明概念的基础上设计出来本发明的变型。另外本发明的方法，不仅可以在普通非移动终端中执行，还可以由移动终端、PDA、游戏机等多媒体设备执行。本领域技术人员在本发明技术构思的启发下，在不脱离本发明内容的基础上，还可以对本发明的方法做出各种改进，这仍落在本发明的保护范围之内。

Claims

1.一种WEB木马检测方法，其特征在于，包括：

获取样本集，所述样本集包括多个正样本和多个负样本；

2.如权利要求1所述的方法，其特征在于，所述重定向链特征包括重定向链的长度特征、URL相似度特征、内部域名特征、自循环特征和域名的IP特征；

3.如权利要求2所述的方法，其特征在于，提取每个样本的重定向链的URL相似度特征值步骤，具体包括：计算每个样本的重定向链中任意两个URL地址的相似度值；从计算得到的所有相似度值中提取最低相似度值作为该样本的重定向链的URL相似度特征值；

4.如权利要求3所述的方法，其特征在于，所述提取每个样本的分类特征值的步骤，还包括：

5.如权利要求2-4中任意一项所述的方法，其特征在于，所述基于提取的每个分类特征值对所述样本集进行网页木马分类训练，得到分类模型的步骤，包括：

6.一种WEB木马检测系统，其特征在于，包括：

7.如权利要求6所述的系统，其特征在于，所述重定向链特征包括重定向链的长度特征、URL相似度特征、内部域名特征、自循环特征和域名的IP特征；

8.如权利要求7所述的系统，其特征在于，所述模型训练模块在提取每个样本的重定向链的URL相似度特征值时具体用于：计算每个样本的重定向链中任意两个URL地址的相似度值；从计算得到的所有相似度值中提取最低相似度值作为该样本的重定向链的URL相似度特征值；

9.如权利要求8所述的系统，其特征在于，所述系统还包括预处理模块，用于将每个样本的非布尔型的分类特征值表示为[0,1]之间的小数，并将表示的格式统一。

10.如权利要求6-9中任意一项所述的系统，其特征在于，所述模型训练模块在基于提取的每个分类特征值对所述样本集进行网页木马分类训练，得到分类模型时具体用于：基于提取的每个分类特征值采用SVM模型对所述样本集进行网页木马分类训练；