CN110717182A

CN110717182A - 一种网页木马检测方法、装置、设备及可读存储介质

Info

Publication number: CN110717182A
Application number: CN201910972933.XA
Authority: CN
Inventors: 刘晶; 范渊
Original assignee: Hangzhou Dbappsecurity Technology Co Ltd
Current assignee: DBAPPSecurity Co Ltd; Hangzhou Dbappsecurity Technology Co Ltd
Priority date: 2019-10-14
Filing date: 2019-10-14
Publication date: 2020-01-21

Abstract

本发明公开了一种网页木马检测方法、装置、设备及可读存储介质，该方法包括：获取并提取待检测的目标文件对应的多种类型的统计特征；利用特征工程技术对多种统计特征进行交互作用实验，具有统计效应的交互作用新特征；将多种统计特征和交互作用新特征输入至训练好的机器学习模型中进行网页木马识别，获得目标文件的检测结果。本方法，利用特征工程技术在常规的数据预处理、特征选择、特征降维的基础上，挖掘具有统计效应的交互作用新特征。然后，将多种统计特征和交互作用新特征输入至训练好的机器学习模型中进行网页木马识别，便可获得目标文件的检测结果。可提高网页木马的检测准确率。

Description

一种网页木马检测方法、装置、设备及可读存储介质

技术领域

本发明涉及网络安全技术领域，特别是涉及一种网页木马检测方法、装置、设备及可读存储介质。

背景技术

网页木马(WebShell)是运用主流脚本语言如PHP、JSP、ASP等编写的一种网页脚本木马。攻击者在检测到Web应用存在上传漏洞后，常常将这些脚本木马放置在网站服务器的Web目录中，然后以访问网页的方式访问脚本木马，通过脚本木马获取更高的权限以控制网站服务器，对网站服务器实施文件的上传、修改与下载、访问数据库篡改数据、执行任意程序命令等恶意操作。

目前，检测网页木马的技术方案有：

方案一：提取文件的静态特征或动态特征，直接采用相关机器学习算法进行学习、分类。

方案二：提取文件的静态特征或动态特征，先进行降维，删除部分特征后再采用相关机器学习算法进行学习、分类。

但是，由于网页木马具备很深的自身隐藏性、可伪装性，它混杂在正常网页中，和正常网页一样通过80端口与服务器或远程主机交换机进行数据传递。这种数据传递属于正常的HTTP协议，传统防火墙无法对其进行拦截，也不会在系统日志中留下服务器管理操作，这给网页木马的检测带来很大的难度。因而，方案一和方案二对网页木马的检测精确率仍然较低，无法满足用户需求。

综上所述，如何有效地提高网页木马检测精确率等问题，是目前本领域技术人员急需解决的技术问题。

发明内容

本发明的目的是提供一种网页木马检测方法、装置、设备及可读存储介质，以提高网页木马检测精确率。

为解决上述技术问题，本发明提供如下技术方案：

一种网页木马检测方法，包括：

获取并提取待检测的目标文件对应的多种类型的统计特征；

利用特征工程技术对多种所述统计特征进行交互作用实验，具有统计效应的交互作用新特征；

将多种所述统计特征和所述交互作用新特征输入至训练好的机器学习模型中进行网页木马识别，获得所述目标文件的检测结果。

优选地，获取并提取待检测的目标文件对应的多种类型的统计特征，包括：

获取并提取所述目标文件对应的压缩率，信息熵，非字母和数字占文件所有字符的比例，文件中对打字符串长度。

优选地，所述利用特征工程技术对多种所述统计特征进行交互作用实验，具有统计效应的交互作用新特征，包括：

利用特征工程对多种所述统计特征进行变换处理；

判断变化处理后的新特征是否具有统计效应；

如果是，则将所述新特征确定为所述交互作用新特征。

优选地，所述利用特征工程对多种所述统计特征进行变换处理，包括：

利用所述特征工程对所述多种统计特征进行标准化、归一化、对数变化、倒数变化、平方根变化中的至少一种变换处理方式进行处理。

优选地，所述判断变化处理后的新特征是否具有统计效应，包括：

判断利用所述新特征进行预测的准确率是否大于50％；

如果是，则所述新特征具有统计效应。

优选地，所述机器学习模块的训练过程，包括：

获取具有交互作用训练新特征的目标数据集；

利用所述目标数据集对所述机器学习模型进行训练。

优选地，所述获取具有交互作用训练新特征的目标数据集，包括：

读取多个网页木马黑白样本；

获取各个所述网页木马黑白样本的静态和/或静态特征，获得样本特征集和相应的标签共同组成数据集；

对所述数据集进行交互作用实验，具有统计效应的所述交互作用训练新特征；

将所述交互作用训练新特征添加至所述数据集中，获得所述目标数据集。

一种网页木马检测装置，包括：

统计特征获取模块，用于获取并提取待检测的目标文件对应的多种类型的统计特征；

交互作用新特征获取模块，用于利用特征工程技术对多种所述统计特征进行交互作用实验，具有统计效应的交互作用新特征；

网页木马检测模块，用于将多种所述统计特征和所述交互作用新特征输入至训练好的机器学习模型中进行网页木马识别，获得所述目标文件的检测结果。

一种网页木马检测设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述网页木马检测方法的步骤。

一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述网页木马检测方法的步骤。

应用本发明实施例所提供的方法，获取并提取待检测的目标文件对应的多种类型的统计特征；利用特征工程技术对多种统计特征进行交互作用实验，具有统计效应的交互作用新特征；将多种统计特征和交互作用新特征输入至训练好的机器学习模型中进行网页木马识别，获得目标文件的检测结果。

考虑到，在以往的机器学习技术中，很少有人会深入关注、学习特征工程(FeatureEngineering)，而更关注算法和编程实现，即使有大多停留在数据预处理上，以使得数据结构符合算法模型的要求。另外，特征的交互作用是从统计学习的角度去思考、发现，在特征工程领域内不同于其它方法，确定特征的交互作用实质为发现的过程，而不是一个转换或删减的过程。在本方法中，为了提高网页木马的检测精确率，在提取得到目标文件对应的多种类型的统计特征之后，先利用特征构造技术对多种统计特征进行交互作用实验，具有统计效应的交互作用新特征。该交互作用新特征即为统计特征之间的数据联系特征，即为区别与多种统计特征的一种新特征。利用特征工程技术在常规的数据预处理、特征选择、特征降维的基础上，深入挖掘具有统计效应的交互作用新特征。然后，将多种统计特征和交互作用新特征输入至训练好的机器学习模型中进行网页木马识别，便可获得目标文件的检测结果。可提高网页木马的检测准确率。

相应地，本发明实施例还提供了与上述网页木马检测方法相对应的网页木马检测装置、设备和可读存储介质，具有上述技术效果，在此不再赘述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种网页木马检测方法的实施流程图；

图2为本发明实施例中一种网页木马检测装置的结构示意图；

图3为本发明实施例中一种网页木马检测设备的结构示意图；

图4为本发明实施例中一种网页木马检测设备的具体结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

请参考图1，图1为本发明实施例中一种网页木马检测方法的流程图，该方法可应用于设置于网页木马的传输路径上的网页木马检测设备中，该方法包括以下步骤：

S101、获取并提取待检测的目标文件对应的多种类型的统计特征。

目标文件即为待检测的文件，该文件可能为正常的网页文件，也可能为网页木马。当获取到目标文件之后，可提取目标文件的多种类型的统计特征。

其中，获取并提取目标文件对应的压缩率，信息熵，非字母和数字占文件所有字符的比例，文件中对打字符串长度。其中，压缩率指未被压缩的文件大小和压缩后的文件大小的比值；非字母和数字占文件所有字符的比率指的是特殊字符总数与文件字符总数之比；信息熵的定义公式：H＝-∑p(x)log(p(x))，其中，p(x)为字符x的概率函数。

优选地，在具体计算/提取信息熵时，可用到文本挖掘技术，去掉标点符号、常用停词等，另外还可以使用迭代器，能大幅节约系统计算资源。

优选地，在具体计算最大字符串长度时，可添加基础库里max函数的新方法。

优选地，在具体计算非字母和数字占文件所有字符的比率时，可清理文件中的空字符以降低干扰，且可利用好正则化表达式进行提取。

需要说明的是，在本发明的其他实施例中，统计特征的种类和数量还可相应变化，即在本发明实施例，对统计特征的数量以及统计特征的具体类型不做限定。

S102、利用特征工程技术对多种统计特征进行交互作用实验，具有统计效应的交互作用新特征。

其中，特征工程技术指选择一些表示典型特征的数据，来替代原始数据作为模型的输入，进而得到比较好的输出效果。

在本发明实施例中，为了使得网页木马检测准确率更好，在对目标文件进行检测之前，先利用特征工程技术对多种统计特征进行交互作用实现，得到具有统计效应的交互作用新特征。

其中，交互作用新特征的获取过程，包括：

步骤一、利用特征工程对多种统计特征进行变换处理；

步骤二、判断变化处理后的新特征是否具有统计效应；

步骤三、如果是，则将新特征确定为交互作用新特征。

为便于描述，下面将上述三个步骤结合起来进行说明。

其中，特征工程可以为能够对多种统计特征进行变换处理的特征工程技术中的模型。例如，诸如广义线性模型(GLM)的机器信息模型。其中变换处理可具体为利用特征工程对多种统计特征进行标准话、归一化、对数变化、倒数变化、平方根变化中的至少一种变换处理方式进行处理。也就是说，变换处理即将统计特征的数据表现形式进行转换，得到新数据表现形式的新特征。信特征还可为原有特征之间的交互作用，其获取过程可设置info_entropy:compress_ratio:str_ratio这个特征的交互作用实验，然后通过在训练集上进行训练，在测试集上进行测试来观测这三个特征里是否存在交互作用。

需要说明的是，表征各个特征的关系的交互作用，即标注各个特征的相关性数据，有时特征的相关性在降维时是需要舍弃的，没有必要的。具体舍弃过程可参见下文的确定其是否具有统计效应。

其中，统计效应在本文中的含义即检测目标文件是否为网页木马只有两个结果，一个结果为是，另一个结果为否，如果不用任何算法盲猜的话有50％的概率可猜对的，如果用了算法去预测而不是盲猜，其预测的准确率大于50％就是说这个算法具有统计效应。即判断变化处理后的新特征是否具有统计效应，可具体为判断利用新特征进行预测的准确率是否大于50％；如果是，则新特征具有统计效应。

将具有统计效应的新特征作为交互作用新特征。

S103、将多种统计特征和交互作用新特征输入至训练好的机器学习模型中进行网页木马识别，获得目标文件的检测结果。

具体的，可将统计特征和交互作用新特征输入至训练好的机器学习模型中进行网页木马检测，获得目标文件是否为网页木马的检测结果。

该机器学习模型的模型架构可采用常见模型架构。由于本发明实施例中，输入机器学习的特征包括交互作用新特征。因此，在利用常见的机器学习模型进行检测之前，还可以对该机器信息模型的模型参数进行确定，即进行训练。集群学习模型的训练过程，包括：

步骤一、获取具有交互作用训练新特征的目标数据集；

步骤二、利用目标数据集对机器学习模型进行训练。

其中，步骤一可具体包括：

步骤1、读取多个网页木马黑白样本；

步骤2、获取各个网页木马黑白样本的静态和/或静态特征，获得样本特征集和相应的标签共同组成数据集；

步骤3、对数据集进行交互作用实验，具有统计效应的交互作用训练新特征；

步骤4、将交互作用训练新特征添加至数据集中，获得目标数据集。

为便于描述，下面将上述4个步骤结合起来并结合具体的应用实例进行说明。

其中，网页木马黑白样本集中样本数量可为2500个，其中网页木马黑样本约有1300个，其它均为白样本，即正常的文件，文件类型主要有php，asp和aspx。由于样本数量较大，每个样本可计算4个统计特征，在这个案例中共需计算约10000个特征。为了提高计算速率，可以并行计算各个文件的特征。

读取文件时，这里需要注意的是，一些文件里可能存在空字符，需要清理掉，否则会对后面的统计特征提取造成影响；另外，在具体清理函数可以充分利用一些高性能编程语言的多重分派、迭代循环等有利于提高计算速度的特性，而不是Python和R等语言中的向量化。

具体的，提取特征的运行脚本可分别为用以计算、提取文件中的压缩率、信息熵、非字母和数字占文件所有字符的比率和文件中最大字符串长度这4个统计特征。可通过并行计算脚本，通过多线程并行计算一次性提取文件的4个统计特征。

需要说明的是，在本发明的其他实施例中，统计特征的数量以及统计特征的具体类型还可以为其他形式，在此不一一列举。

可建立广义线性模型(GLM)，利用特征工程技术发掘统计特征，首先用特征或标签的标准化、归一化、对数、倒数、平方根等方法去挖掘，经验证这些方法对模型的性能没有明显改善，甚至一些方法会恶化模型性能。

经过逐一验证11种交互作用可能，确定信息熵与文件中最大字符串长度存在交互作用，对模型的性能存在明显的影响。

其中，利用目标数据集对机器学习模型进行训练，包括：

将目标数据集划分为训练集、验证集和测试集；

分别利用训练集、验证集和测试集对机器学习模型进行训练、验证和测试。

即，将新特征集作为数据集，进一步划分为训练集、验证集和测试集，各数据集所占比例分别为60％，30％，10％。当然，在本发明的其他实施例中各个数据集的比例还可为其他比例，另外，对目标数据集的划分还可将其仅划分为训练集和测试集。

分别利用相应的数据集对网页木马检测模型进行检测参数调整。具体如何对检测参数进行调节，可参见现有的模型训练方法，在此不再一一赘述。

在确定出检测参数之后，便可利用网页木马检测模型对目标文件对应的统计特征和交互作用新特征进行检测，确定出目标文件与网页木马的特征集是否匹配。

根据检测结果，则可确定出目标文件是否为网页木马。当检测出目标文件为网页木马，则可对该目标文件进行拦截。当检测目标为非网页木马，则可对该目标文件进行放行。

实施例二：

相应于上面的方法实施例，本发明实施例还提供了一种网页木马检测装置，下文描述的网页木马检测装置与上文描述的网页木马检测方法可相互对应参照。

参见图2所示，该装置包括以下模块：

统计特征获取模块101，用于获取并提取待检测的目标文件对应的多种类型的统计特征；

交互作用新特征获取模块102，用于利用特征工程技术对多种统计特征进行交互作用实验，具有统计效应的交互作用新特征；

网页木马检测模块103，用于将多种统计特征和交互作用新特征输入至训练好的机器学习模型中进行网页木马识别，获得目标文件的检测结果。

应用本发明实施例所提供的装置，获取并提取待检测的目标文件对应的多种类型的统计特征；利用特征工程技术对多种统计特征进行交互作用实验，具有统计效应的交互作用新特征；将多种统计特征和交互作用新特征输入至训练好的机器学习模型中进行网页木马识别，获得目标文件的检测结果。

考虑到，在以往的机器学习技术中，很少有人会深入关注、学习特征工程(FeatureEngineering)，而更关注算法和编程实现，即使有大多停留在数据预处理上，以使得数据结构符合算法模型的要求。另外，特征的交互作用是从统计学习的角度去思考、发现，在特征工程领域内不同于其它装置，确定特征的交互作用实质为发现的过程，而不是一个转换或删减的过程。在本装置中，为了提高网页木马的检测精确率，在提取得到目标文件对应的多种类型的统计特征之后，先利用特征构造技术对多种统计特征进行交互作用实验，具有统计效应的交互作用新特征。该交互作用新特征即为统计特征之间的数据联系特征，即为区别与多种统计特征的一种新特征。利用特征工程技术在常规的数据预处理、特征选择、特征降维的基础上，深入挖掘具有统计效应的交互作用新特征。然后，将多种统计特征和交互作用新特征输入至训练好的机器学习模型中进行网页木马识别，便可获得目标文件的检测结果。可提高网页木马的检测准确率。

在本发明的一种具体实施方式中，统计特征获取模块101，具体用于获取并提取目标文件对应的压缩率，信息熵，非字母和数字占文件所有字符的比例，文件中对打字符串长度。

在本发明的一种具体实施方式中，交互作用新特征获取模块102，包括：

特征变换单元，用于利用特征工程对多种统计特征进行变换处理；

判断单元，用于判断变化处理后的新特征是否具有统计效应；

交互作用新特征确定单元，用于将具有统计效应的新特征确定为交互作用新特征。

在本发明的一种具体实施方式中，特征变换单元，具体用于利用特征工程对多种统计特征进行标准话、归一化、对数变化、倒数变化、平方根变化中的至少一种变换处理方式进行处理。

在本发明的一种具体实施方式中，判断单元，具体用于判断利用新特征进行预测的准确率是否大于50％；如果是，则新特征具有统计效应。

在本发明的一种具体实施方式中，还包括：模型训练模块，用于获取具有交互作用训练新特征的目标数据集；利用目标数据集对机器学习模型进行训练、

在本发明的一种具体实施方式中，模型训练模块，具体用于读取多个网页木马黑白样本；获取各个网页木马黑白样本的静态和/或静态特征，获得样本特征集和相应的标签共同组成数据集；对数据集进行交互作用实验，具有统计效应的交互作用训练新特征；将交互作用训练新特征添加至数据集中，获得目标数据集。

实施例三：

相应于上面的方法实施例，本发明实施例还提供了一种网页木马检测设备，下文描述的一种网页木马检测设备与上文描述的一种网页木马检测方法可相互对应参照。

参见图3所示，该网页木马检测设备包括：

存储器D1，用于存储计算机程序；

处理器D2，用于执行计算机程序时实现上述方法实施例的网页木马检测方法的步骤。

具体的，请参考图4，图4为本实施例提供的一种网页木马检测设备的具体结构示意图，该网页木马检测设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)322(例如，一个或一个以上处理器)和存储器332，一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中，存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地，中央处理器322可以设置为与存储介质330通信，在网页木马检测设备301上执行存储介质330中的一系列指令操作。

网页木马检测设备301还可以包括一个或一个以上电源326，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口358，和/或，一个或一个以上操作系统341。例如，Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等。

上文所描述的网页木马检测方法中的步骤可以由网页木马检测设备的结构实现。

实施例四：

相应于上面的方法实施例，本发明实施例还提供了一种可读存储介质，下文描述的一种可读存储介质与上文描述的一种网页木马检测方法可相互对应参照。

一种可读存储介质，可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例的网页木马检测方法的步骤。

该可读存储介质具体可以为U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可存储程序代码的可读存储介质。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

Claims

1.一种网页木马检测方法，其特征在于，包括：

获取并提取待检测的目标文件对应的多种类型的统计特征；

2.根据权利要求1所述的网页木马检测方法，其特征在于，获取并提取待检测的目标文件对应的多种类型的统计特征，包括：

3.根据权利要求1所述的网页木马检测方法，其特征在于，所述利用特征工程技术对多种所述统计特征进行交互作用实验，具有统计效应的交互作用新特征，包括：

利用特征工程对多种所述统计特征进行变换处理；

判断变化处理后的新特征是否具有统计效应；

如果是，则将所述新特征确定为所述交互作用新特征。

4.根据权利要求3所述的网页木马检测方法，其特征在于，所述利用特征工程对多种所述统计特征进行变换处理，包括：

5.根据权利要求3所述的网页木马检测方法，其特征在于，所述判断变化处理后的新特征是否具有统计效应，包括：

判断利用所述新特征进行预测的准确率是否大于50％；

如果是，则所述新特征具有统计效应。

6.根据权利要求1所述的网页木马检测方法，其特征在于，所述机器学习模块的训练过程，包括：

获取具有交互作用训练新特征的目标数据集；

利用所述目标数据集对所述机器学习模型进行训练。

7.根据权利要求1所述的网页木马检测方法，其特征在于，所述获取具有交互作用训练新特征的目标数据集，包括：

读取多个网页木马黑白样本；

8.一种网页木马检测装置，其特征在于，包括：

9.一种网页木马检测设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述网页木马检测方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述网页木马检测方法的步骤。