CN109492692A

CN109492692A - 一种网页后门检测方法、装置、电子设备及存储介质

Info

Publication number: CN109492692A
Application number: CN201811319401.8A
Authority: CN
Inventors: 李婷婷; 王欢; 邓新
Original assignee: Beijing Knownsec Information Technology Co Ltd
Current assignee: Beijing Knownsec Information Technology Co Ltd
Priority date: 2018-11-07
Filing date: 2018-11-07
Publication date: 2019-03-19

Abstract

本申请提供一种网页后门检测方法、装置、电子设备及存储介质，用于解决现有技术中无法对经过特殊处理后的网页后门文件进行检测的问题。该方法包括：将字节码文件按照预设尺寸转换为多个灰度图矩阵，字节码文件是由待检测文件转换获得的；针对多个灰度图矩阵中的每个灰度图矩阵，进行第一预设处理，获得每个灰度图矩阵对应的多个特征向量；对于多个灰度图矩阵，若存在一灰度图矩阵对应的任一特征向量与存储于特征库中的预设特征向量的相似度大于预设阈值，则判定字节码文件为网页后门文件。

Description

一种网页后门检测方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机安全的技术领域，尤其涉及一种网页后门检测方法、装置、电子设备及存储介质。

背景技术

目前在实际的服务器安全扫描的工作中，即在判断一个脚本文件或者可执行文件是否为安全的文件，排除这个文件是网页后门的工作中，通常利用脚本文件中所使用的关键词、高危函数、文件修改的时间、文件权限、文件的所有者以及和其它文件的关联性等特征生成特征库，将待检测文件内容与特征库进行匹配，根据待检测文件是否存在特征库中内容，判断该文件是否为网页后门(WebShell)，又称网站的后门工具。

如果对该执行文件或脚本文件进行特殊处理，例如，对自己加密，在执行前先解密，又例如，变量名使用一些随机字符串，在中间代码插入大量无用的随机字符串，将完整的语句拆成多条；再例如，在执行前对传入的参数做一些判断，只有匹配条件时才会转到真正执行的代码。就无法通过这种检测方式进行检测。因此，现有技术中存在着无法对经过特殊处理后的网页后门文件进行检测的问题。

发明内容

有鉴于此，本申请提供一种网页后门检测方法、装置、电子设备及存储介质，用于解决现有技术中无法对经过特殊处理后的网页后门文件进行检测的问题。

本申请提供了的一种网页后门检测方法，所述方法包括：将字节码文件按照预设尺寸转换为多个灰度图矩阵，所述字节码文件是由待检测文件转换获得的；针对所述多个灰度图矩阵中的每个灰度图矩阵，进行第一预设处理，获得每个灰度图矩阵对应的多个特征向量；对于所述多个灰度图矩阵，若存在一灰度图矩阵对应的任一特征向量与存储于特征库中的预设特征向量的相似度大于预设阈值，则判定所述字节码文件为网页后门文件。

可选地，在本申请实施例中，在所述判定所述字节码文件为网页后门文件之后，还包括：将所述相似度大于预设阈值时的特征向量存储至特征库。

可选地，在本申请实施例中，所述针对所述多个灰度图矩阵中的每个灰度图矩阵，进行第一预设处理，获得每个灰度图矩阵对应的多个特征向量，包括：针对所述多个灰度图矩阵中每个灰度图矩阵，利用预设滤波器对所述灰度图矩阵进行特征提取，获得该灰度图矩阵对应的特征图矩阵；针对多个特征图矩阵中每个特征图矩阵，对所述特征图矩阵进行降维处理，获得该特征图矩阵对应的多个特征向量。

可选地，在本申请实施例中，所述利用预设滤波器对所述灰度图矩阵进行特征提取，获得该灰度图矩阵对应的特征图矩阵，包括：利用预设滤波器对所述灰度图矩阵进行特征提取，获得其中，为所述灰度图矩阵对应的特征图矩阵，x是所述灰度图矩阵的行，y是所述灰度图矩阵的列，n为第一累加变量，m为第二累加变量，h(n,m)为所述滤波器，I(x+n,y+m)为所述灰度图矩阵，M×N是模板的大小。

可选地，在本申请实施例中，所述滤波器为：

其中，θ为滤波器的方向，u＝ncosθ+msinθ,v＝-nsinθ+mcosθ，w为复u正弦函数频率，δ_u为高斯包络在u轴的标准差，δ_v为高斯包络v轴的标准差，N＝[ασ_u]，M＝[ασ_v]，α是预设值，N和M均取奇数。

可选地，在本申请实施例中，所述对所述特征图矩阵进行降维处理，获得该特征图矩阵对应的多个特征向量，包括：根据所述多个特征图矩阵进行计算，获得离散余弦变换系数矩阵；将所述离散余弦变换系数矩阵与预设区域模板矩阵相乘，获得所述多个特征向量。

可选地，在本申请实施例中，所述根据所述多个特征图矩阵进行计算，获得离散余弦变换系数矩阵，包括：根据公式

获得C(u,v)；

其中，C(u,v)为所述离散余弦变换系数矩阵，为特征图矩阵，M和N为特征图矩阵的大小，u的取值范围是从0到N-1的整数，v的取值范围是从0到N-1的整数。

本申请还提供了一种网页后门检测装置，所述装置包括：灰度图矩阵转换模块，用于将字节码文件按照预设尺寸转换为多个灰度图矩阵，所述字节码文件是由待检测文件转换获得的；特征向量获得模块，用于针对所述多个灰度图矩阵中的每个灰度图矩阵，进行第一预设处理，获得每个灰度图矩阵对应的多个特征向量；网页后门判定模块，用于对于所述多个灰度图矩阵，若存在一灰度图矩阵对应的任一特征向量与存储于特征库中的预设特征向量的相似度大于预设阈值，则判定所述字节码文件为网页后门文件。

本申请还提供了一种电子设备，包括：处理器和存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述机器可读指令被所述处理器执行时执行如上所述的方法。

本申请还提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上所述的方法。

本申请提供一种网页后门检测方法、装置、电子设备及存储介质，通过将待检测文件转换获得的字节码文件按照预设尺寸转换为多个灰度图矩阵，并从灰度图矩阵中提取特征向量，将该特征向量与特征库中的预设特征向量进行比较，若两者的相似度大于预设阈值，则判定该字节码文件为网页后门文件，同时也说明待检测文件为网页后门文件。尽管对网页后门文件的源代码经过特殊处理，特殊处理例如加密解密和伪装等处理，该源代码经过解释转换为字节码文件后，有后门的部分在字节码文件中的特征向量在特殊处理前和特殊处理后的变化始终不大，因此，可以通过字节码文件提取特征向量，然后将该特征向量与特征库中的特征向量进行对比来判断该字节码文件是否是网页后门文件。通过这种方式从而有效地解决了现有技术中无法对经过特殊处理后的网页后门文件进行检测的问题。

为使本申请的上述目的和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚的说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请实施例提供的电子设备结构示意图；

图2示出了本申请实施例提供的网页后门检测方法流程示意图；

图3示出了本申请实施例提供的网页后门检测方法全部示意图；

图4示出了本申请实施例提供的网页后门检测方法步骤S200的流程示意图；

图5示出了本申请实施例提供的网页后门检测方法步骤S220的流程示意图；

图6示出了本申请实施例提供的网页后门检测装置结构示意图。

图标：102-电子设备；101-网页后门检测装置；110-处理器；120-存储器；130-存储介质；100-灰度图矩阵转换模块；200-特征向量获得模块；300-网页后门判定模块；400-特征向量存储模块。

具体实施方式

本申请提供一种网页后门检测方法、装置、电子设备及存储介质，用于解决现有技术中无法对经过特殊处理后的网页后门文件进行检测的问题。其中，应用于电子设备的方法和装置是基于同一创造构思的，由于方法及相应的装置和设备解决问题的原理相似，因此方法及相应的装置和设备的实施可以相互参见，重复之处不再赘述。

以下将对本申请中的部分用语进行解释说明，以便于本领域技术人员理解。

字节码(OpCode，又称操作码)：是指无需解释或者链接编译能够直接被机器执行的指令，执行某种操作的机器码。

动态服务器页面(ASP，Active Server Pages)，是微软MicroSoft公司开发的服务器端脚本环境，可用来创建动态交互式网页并建立强大的web应用程序。当服务器收到对ASP文件的请求时，它会处理包含在用于构建发送给浏览器的超文本置标语言(HTML，HyperText Markup Language)网页文件中的服务器端脚本代码。除服务器端脚本代码外，ASP文件也可以包含文本、HTML(包括相关的客户端脚本)和com组件调用。

PHP(外文名:PHP:Hypertext Preprocessor，中文名：“超文本预处理器”)是一种通用开源脚本语言。

JSP全名为Java Server Pages，中文名叫java服务器页面，其根本是一个简化的Servlet设计，它是由Sun Microsystems公司倡导、许多公司参与一起建立的一种动态网页技术标准。

网页后门(WebShell)，又称网站的后门工具，webshell就是以asp、php、jsp或者cgi等网页文件形式存在的一种命令执行环境，也可以将其称做为一种网页后门。黑客在入侵了一个网站后，通常会将asp或php后门文件与网站服务器WEB目录下正常的网页文件混在一起，然后就可以使用浏览器来访问asp或者php后门，得到一个命令执行环境，以达到控制网站服务器的目的。顾名思义，“web”的含义是显然需要服务器开放web服务，“shell”的含义是取得对服务器某种程度上操作权限。webshell常常被称为入侵者通过网站端口对网站服务器的某种程度上操作的权限。由于webshell其大多是以动态脚本的形式出现，也有人称之为网站的后门工具。

离散余弦变换(DCT for Discrete Cosine Transform)是与傅里叶变换相关的一种变换，它类似于离散傅里叶变换(DFT for Discrete Fourier Transform),但是只使用实数。离散余弦变换相当于一个长度大概是它两倍的离散傅里叶变换，这个离散傅里叶变换是对一个实偶函数进行的(因为一个实偶函数的傅里叶变换仍然是一个实偶函数)，在有些变形里面需要将输入或者输出的位置移动半个单位(DCT有8种标准类型，其中4种是常见的)。

灰度图：把白色与黑色之间按对数关系分为256阶，称为灰度用灰度表示的图像称作灰度图。

另外，需要理解的是，在本申请的描述中，“第一”、“第二”等词汇，仅用于区分描述的目的，而不能理解为指示或者暗示相对重要性，也不能理解为指示或者暗示顺序。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参见图1，图1示出了本申请实施例提供的电子设备结构示意图。本申请提供了的一种电子设备102，包括：处理器110和存储器120，存储器120存储有处理器110可执行的机器可读指令，机器可读指令被处理器110执行时执行如第一实施例的方法。

在具体的实施过程中，对卷积神经网络(Convolutional Neural Network，CNN)的相关计算可以用图形处理器(Graphics Processing Unit，GPU)进行加速，因此，该电子设备还可以包括图形处理器。此外，在使用分布式计算框架时需要使用通信接口，该电子设备还可以包括通讯与网络扩展卡、光纤卡或者多串口通信卡等部件，在此不再赘述。

请参见图1，本申请提供了的一种存储介质130，该存储介质130上存储有计算机程序，该计算机程序被处理器110运行时执行如第一实施例的方法。

本领域技术人员可以理解，图1中示出的电子设备的结构并不构成对该设备的限定，本申请实施例提供的设备可以包括比图示更多或者更少的部件，或者不同的部件布置。

第一实施例

请参见图2，图2示出了本申请实施例提供的网页后门检测方法流程示意图。本申请提供了的一种网页后门检测方法，方法包括：

步骤S100：将字节码文件按照预设尺寸转换为多个灰度图矩阵，字节码文件是由待检测文件转换获得的。

其中，在将字节码文件按照预设尺寸转换为多个灰度图矩阵之前，还包括将待检测文件转换获得字节码文件，其步骤如下：

首先，通过PHP的逻辑代码展现(Vulcan Logic Dumper，VLD)是扩展来查看PHP文件对应的字节码或者操作码(opcode)。使用VLD处理PHP文件，把处理的结果保存在字符串中。具体的实现代码如下：

t＝""

cmd＝"php-dvld.active＝1-dvld.execute＝0"+file_path

status,output＝commands.getstatusoutput(cmd)

其次，由于PHP的字节码或者操作码(opcode)都是由大写字母和下划线组成的单词，使用findall函数从字符串中提取全部满足条件的字节码或者操作码(opcode)，并以空格连接成一个新字符串。

其具体的代码实现如下：

t＝output

tokens＝re.findall(r'\s(\b[A-Z_]+\b)\s',output)

t＝"".join(tokens)

最后，遍历读取指定目录下全部PHP文件，保存其对应的字节码或者操作码(opcode)字符串。

步骤S200：针对多个灰度图矩阵中的每个灰度图矩阵，进行第一预设处理，获得每个灰度图矩阵对应的多个特征向量。

其中，在进行第一预设处理之前，还包括：将所有操作码文件自动复制内容生成固定大小(可调节参数)的灰度图矩阵,从而生成大小一致的N*N灰度图矩阵，从而便于处理。具体的操作步骤请参见下面的说明和描述。

步骤S300：对于多个灰度图矩阵，若存在一灰度图矩阵对应的任一特征向量与存储于特征库中的预设特征向量的相似度大于预设阈值，则判定字节码文件为网页后门文件。

具体地，可利用公式来计算相似度；

其中，X_i是所述多个特征向量中的每个特征向量中的第i个值，Y_j是所述特征库中的每个特征向量中的第j个值。

请参见图3，图3示出了本申请实施例提供的网页后门检测方法全部的流程示意图。可选地，在本申请实施例中，在判定字节码文件为网页后门文件之后，还包括：

步骤S400：将相似度大于预设阈值时的特征向量存储至特征库。

需要说明的是，特征库的建立是根据人工判断已知的网页后门文件，将判断该已知的网页后门文件进行步骤S100和步骤S200后，获得该已知的网页后门文件中包含网页后门部分的特征向量，并将该特征向量加入到特征库中。重复上面的过程，特征库就包括多个包含网页后门部分的特征向量，这些特征向量可以用来进行步骤S300的对比。因此，这里的特征库的建立方式和内容不应理解为对本申请的限制。

在具体的实施过程中，尽管对网页后门文件的源代码经过特殊处理，特殊处理例如加密解密和伪装等处理，但是，该源代码经过解释转换为字节码文件后，有后门的部分在字节码中的特征向量在特殊处理前和特殊处理后的变化始终不大，因此，可以通过字节码文件提取特征向量，然后将该特征向量与特征库中的特征向量进行对比来判断该字节码文件是否是网页后门文件。

请参见图4，图4示出了本申请实施例提供的网页后门检测方法步骤S200的流程示意图。可选地，在本申请实施例中，针对多个灰度图矩阵中的每个灰度图矩阵，进行第一预设处理，获得每个灰度图矩阵对应的多个特征向量，包括：

步骤S210：针对多个灰度图矩阵中每个灰度图矩阵，利用预设滤波器对灰度图矩阵进行特征提取，获得该灰度图矩阵对应的特征图矩阵。

用模板大小为N*M的滤波器h对图像I进行滤波，滤波结果为

其中，为灰度图矩阵对应的特征图矩阵，x是灰度图矩阵的行，y是灰度图矩阵的列，n为第一累加变量，m为第二累加变量，h(n,m)为滤波器，I(x+n,y+m)为灰度图矩阵，M×N是模板的大小。

需要说明的是，滤波器为θ为滤波器的方向，u＝ncosθ+msinθ,v＝-nsinθ+mcosθ，w为复u正弦函数频率，δ_u为高斯包络在u轴的标准差，δ_v为高斯包络v轴的标准差，N＝[ασ_u]，M＝[ασ_v]，α是预设值，N和M均取奇数，滤波器模板大小由δ_u和δ_v决定，N＝[ασ_u]，M＝[ασ_v]。

步骤S220：针对多个特征图矩阵中每个特征图矩阵，对特征图矩阵进行降维处理，获得该特征图矩阵对应的多个特征向量。

请参见图5，图5示出了本申请实施例提供的网页后门检测方法步骤S220的流程示意图。可选地，在本申请实施例中，对特征图矩阵进行降维处理，获得该特征图矩阵对应的多个特征向量，包括：

步骤S221：根据多个特征图矩阵进行计算，获得离散余弦变换系数矩阵。

可选地，在本申请实施例中，根据多个特征图矩阵进行计算，获得离散余弦变换系数矩阵，包括：

根据公式获得C(u,v)；

其中，C(u,v)为离散余弦变换系数矩阵，为特征图矩阵，M和N为的大小，u的取值范围是从0到N-1的整数，v的取值范围是从0到N-1的整数。

步骤S222：将离散余弦变换系数矩阵与预设区域模板矩阵相乘，获得多个特征向量。

可选地，在本申请实施例中，将离散余弦变换系数矩阵与预设区域模板矩阵相乘，获得多个特征向量，包括：

随着N增加，其计算量会增加，因此将N*N的图像矩阵分为(N/h)²(h≤N)个大小为h*h的M_i子模块(i＝1,2,…,(N/h)²)，利用公式：D_i＝TM_iT'分别对子块进行DCT处理，T＝T{t_ki}是根据公式

求得的变换矩阵，其元素可表示为：其中，k＝1,2,…,h。

如果单纯使用系数矩阵作为特征描述，系数矩阵的维数和原图像维数相同，维数很高。但是DCT系数矩阵中很多元素为0，且u，v较大时，DCT的系数值：Di(u，v)很小，而数值较大的Di(u，v)主要分布在u，v较小的左上角区域，因此将左上角作为有用信息区域，用区域模板A对Di点乘，提取系数矩阵中较大的系数，并将提取的系数以矢量形式排列起来，只取非零元素，达到降维目的。

其中，区域模块A除了左上角p个元素外，其余均被置零，p的大小可以根据实际效果调节，则H_i＝[h_i1,h_i2,…,h_ip,0,…,0]

其中,h_iq≠0,(q＝1,2,…p)。由于0值对于图像特征来说无意义，所以只取非0值元素，即按照从上到下的顺序将排列起来组成矩阵H其大小为(N/h)²*p，相对于N*N原特征维数大大降低。

第二实施例

请参见图6，图6示出了本申请实施例提供的网页后门检测装置结构示意图。本申请提供了的一种网页后门检测装置101，网页后门检测装置101包括：

灰度图矩阵转换模块100，用于将字节码文件按照预设尺寸转换为多个灰度图矩阵，字节码文件是由待检测文件转换获得的。

特征向量获得模块200，用于针对多个灰度图矩阵中的每个灰度图矩阵，进行第一预设处理，获得每个灰度图矩阵对应的多个特征向量。

网页后门判定模块300，用于对于多个灰度图矩阵，若存在一灰度图矩阵对应的任一特征向量与存储于特征库中的预设特征向量的相似度大于预设阈值，则判定字节码文件为网页后门文件。

特征向量存储模块400，用于将相似度大于预设阈值时的特征向量存储至特征库。

以上仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种网页后门检测方法，其特征在于，所述方法包括：

将字节码文件按照预设尺寸转换为多个灰度图矩阵，所述字节码文件是由待检测文件转换获得的；

针对所述多个灰度图矩阵中的每个灰度图矩阵，进行第一预设处理，获得每个灰度图矩阵对应的多个特征向量；

对于所述多个灰度图矩阵，若存在一灰度图矩阵对应的任一特征向量与存储于特征库中的预设特征向量的相似度大于预设阈值，则判定所述字节码文件为网页后门文件。

2.如权利要求1所述的方法，其特征在于，在所述判定所述字节码文件为网页后门文件之后，还包括：

将所述相似度大于预设阈值时的特征向量存储至特征库。

3.如权利要求1所述的方法，其特征在于，所述针对所述多个灰度图矩阵中的每个灰度图矩阵，进行第一预设处理，获得每个灰度图矩阵对应的多个特征向量，包括：

针对所述多个灰度图矩阵中每个灰度图矩阵，利用预设滤波器对所述灰度图矩阵进行特征提取，获得该灰度图矩阵对应的特征图矩阵；

针对多个特征图矩阵中每个特征图矩阵，对所述特征图矩阵进行降维处理，获得该特征图矩阵对应的多个特征向量。

4.如权利要求3所述的方法，其特征在于，所述利用预设滤波器对所述灰度图矩阵进行特征提取，获得该灰度图矩阵对应的特征图矩阵，包括：

利用预设滤波器对所述灰度图矩阵进行特征提取，获得

其中，为所述灰度图矩阵对应的特征图矩阵，x是所述灰度图矩阵的行，y是所述灰度图矩阵的列，n为第一累加变量，m为第二累加变量，h(n,m)为所述滤波器，I(x+n,y+m)为所述灰度图矩阵，M×N是模板的大小。

5.如权利要求4所述的方法，其特征在于，所述滤波器为：

6.如权利要求3所述的方法，其特征在于，所述对所述特征图矩阵进行降维处理，获得该特征图矩阵对应的多个特征向量，包括：

根据所述多个特征图矩阵进行计算，获得离散余弦变换系数矩阵；

将所述离散余弦变换系数矩阵与预设区域模板矩阵相乘，获得所述多个特征向量。

7.如权利要求6所述的方法，其特征在于，所述根据所述多个特征图矩阵进行计算，获得离散余弦变换系数矩阵，包括：

根据公式获得C(u,v)；

8.一种网页后门检测装置，其特征在于，所述装置包括：

灰度图矩阵转换模块，用于将字节码文件按照预设尺寸转换为多个灰度图矩阵，所述字节码文件是由待检测文件转换获得的；

特征向量获得模块，用于针对所述多个灰度图矩阵中的每个灰度图矩阵，进行第一预设处理，获得每个灰度图矩阵对应的多个特征向量；

网页后门判定模块，用于对于所述多个灰度图矩阵，若存在一灰度图矩阵对应的任一特征向量与存储于特征库中的预设特征向量的相似度大于预设阈值，则判定所述字节码文件为网页后门文件。

9.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述机器可读指令被所述处理器执行时执行如权利要求1-7任一所述的方法。

10.一种存储介质，其特征在于，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1-7任一所述的方法。