CN105989284A

CN105989284A - 网页入侵脚本特征的识别方法及设备

Info

Publication number: CN105989284A
Application number: CN201510069899.7A
Authority: CN
Inventors: 周燃
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2015-02-10
Filing date: 2015-02-10
Publication date: 2016-10-05
Anticipated expiration: 2035-02-10
Also published as: CN105989284B; WO2016127858A1

Abstract

本申请提供了一种网页入侵脚本特征的识别方法及设备，通过将获取的一定数量的参考网页脚本及其特征信息映射为多维空间的参考向量及其赋值，根据所述参考向量及其赋值的分布获取多维空间中赋值的分布模型，当需要进行网页入侵特征脚本特征识别时，获取待测网页脚本并将待测网页脚本的特征信息将所述待测网页脚本映射至多维空间的待测向量，只需将待测向量的特征信息输入至所述多维空间中赋值的分布模型即可获得待测网页脚本的网页入侵脚本特征，因此降低了对计算硬件的要求，并在保证对网页入侵脚本特征的识别准确性的同时大大缩小了识别时间。

Description

网页入侵脚本特征的识别方法及设备

技术领域

本申请涉及通信及计算机领域，尤其涉及一种网页入侵脚本特征的识别方法及设备。

背景技术

网页入侵脚本(Webshell)是指网页脚本里面具有一定危害性的特定字符串内容的组合，会导致网站被攻击、数据泄露等严重后果。简单的说来，网页入侵脚本就是一个ASP(动态服务器页面，Active Server Page)或PHP(超文本预处理器，Hypertext Preprocessor)的木马后门，黑客在入侵了一个网站后，常常在将这些ASP或PHP木马后门文件放置在网站服务器的web目录中，与正常的网页文件混在一起，然后，黑客就可以用web(网页)的方式，通过ASP或PHP木马后门控制网站服务器，包括上传下载文件、查看数据库、执行任意程序命令等，再通过dos命令或者植入后门木马通过服务器漏洞等达到提权的目的。

对于网页入侵脚本来说，网页入侵脚本特征就是那些具有危害性的代码字符串。根据网页入侵脚本特征为分类依据，可以将网页脚本划分为多个特征类型。

目前对网页入侵脚本特征的处理，普遍采取大量采集样本数据放入数据库，然后以正则表达式方式进行特征字符串的查找识别。然而，随着参考网页脚本数量不断增加，参考网页脚本占用磁盘和内存空间高，可以从几兆字节到几百兆字节，因此存在库体积的瓶颈；并且，当体积到一定程度后，整个库在网页入侵脚本特征识别过程中，CPU(内存)占用率越来越高，甚至可达100％占用率，无法满足生产场景中对CPU使用率的限制要求；此外，识别速度慢，平均单个网页脚本文件识别时间大概在500毫秒至1秒，进而失去使用价值。

发明内容

本申请的目的是提供一种内存占用率低、识别速度快的网页入侵脚本特征的识别方法。

有鉴于此，本申请提供一种网页入侵脚本特征的识别方法，其中，所述识别方法包括：

基于每个参考网页脚本的特征信息将所述参考网页脚本映射至多维空间的参考向量，其中，所述参考向量的赋值根据对应参考网页脚本的网页入侵脚本特征类型确定；

根据所述参考向量及其赋值的分布，获取多维空间中赋值的分布模型；

基于待测网页脚本的特征信息将所述待测网页脚本映射至多维空间的待测向量；以及

根据所述多维空间中赋值的分布模型确定所述待测向量所映射在所述多维空间中所对应的赋值，并根据该赋值确定对应待测网页脚本的网页入侵脚本特征类型。

优选的，将所述参考网页脚本映射至多维空间的参考向量以及将所述待测网页脚本映射至多维空间的待测向量基于相同的映射规则。

进一步的，基于每个参考网页脚本的特征信息将所述参考网页脚本映射至多维空间的参考向量包括：

获取若干所述参考网页脚本；

对所述参考网页脚本进行采样和量化，以获取所述参考网页脚本的特征值集合；以及

将每一所述参考网页脚本的特征值集合映射至所述多维空间的参考向量。

优选的，对所述参考网页脚本的特征进行采样和量化包括：

从每个所述参考网页脚本中截取相同文本容量的参考网页脚本；以及

对所述截取的参考网页脚本的字符进行采样和量化，以获取所述参考网页脚本的特征值集合。

优选的，对从所述参考网页脚本截取的字符依次赋予特征值包括：

根据ASCII码规则将所采样的所述参考网页脚本的字符量化成相应特征值。

优选的，所述识别方法还包括：

利用从每个所述参考网页脚本中截取之后剩余的参考网页脚本确定所述待测网页脚本的网页入侵脚本特征类型。

优选的，所述识别方法还包括：

采用正则表达式对从每个所述参考网页脚本中截取之后剩余的参考网页脚本进行处理和存储。

进一步的，基于待测网页脚本的特征信息将所述待测网页脚本映射至多维空间的待测向量包括：

获取所述待测网页脚本；

对所述待测网页脚本进行采样和量化，以获取所述待测网页脚本的特征值集合；以及

将所述待测网页脚本的特征值集合映射至所述多维空间的待测向量。

优选的，对所述待测网页脚本的特征进行采样和量化包括：

从所述待测网页脚本中截取与所述参考网页脚本所截取的参考网页脚本相同文本容量的待测网页脚本；以及

对所述截取的待测网页脚本的字符进行采样和量化，以获取所述待测网页脚本的特征值集合。

优选的，对所述截取的待测网页脚本的字符进行采样和量化包括：

根据ASCII码规则将所采样的所述待测网页脚本的字符量化成相应特征值。

优选的，将所述多维空间进行划分包括：

利用分类算法获取所述多维空间中赋值的分布模型。

优选的，所述分类算法包括支持向量机算法。

优选的，所述多维空间中赋值的分布模型包括若干多维函数关系组。

优选的，根据所述多维空间中赋值的分布模型确定所述待测向量所映射在所述多维空间中所对应的赋值包括：

将所述待测向量的赋值代入所述若干多维函数关系组，利用解析几何原理获取所述待测向量所映射在所述多维空间中所对应的赋值。

进一步的，所述网页入侵脚本特征类型包括正常类型、异常类型及待定类型中的一种或任意组合。

本申请还提供一种网页入侵脚本特征的识别设备，其中，所述识别设备包括：

第一装置，用于基于每个参考网页脚本的特征信息将所述参考网页脚本映射至多维空间的参考向量，其中，所述参考向量的赋值根据对应参考网页脚本的网页入侵脚本特征类型确定；

第二装置，用于根据所述参考向量及其赋值的分布，获取多维空间中赋值的分布模型；

第三装置，用于基于待测网页脚本的特征信息将所述待测网页脚本映射至多维空间的待测向量；以及

第四装置，用于根据所述多维空间中赋值的分布模型确定所述待测向量所映射在所述多维空间中所对应的赋值，并根据该赋值确定对应待测网页脚本的网页入侵脚本特征类型。

优选的，所述第一装置将所述参考网页脚本映射至多维空间的参考向量以及第三装置将所述待测网页脚本映射至多维空间的待测向量基于相同的映射规则。

进一步的，所述第一装置包括：

第一单元，用于获取若干所述参考网页脚本；

第二单元，用于对所述参考网页脚本进行采样和量化，以获取所述参考网页脚本的特征值集合；以及

第三单元，用于将每一所述参考网页脚本的特征值集合映射至所述多维空间的参考向量。

优选的，所述第二单元包括：

第一子单元，用于从每个所述参考网页脚本中截取相同文本容量的参考网页脚本；以及

第二子单元，用于对所述截取的参考网页脚本的字符进行采样和量化，以获取所述参考网页脚本的特征值集合。

优选的，所述第二子单元包括：

第二一子单元，用于根据ASCII码规则将所采样的所述参考网页脚本的字符量化成相应特征值。

优选的，所述识别设备还包括：

第五装置，用于利用从每个所述参考网页脚本中截取之后剩余的参考网页脚本确定所述待测网页脚本的网页入侵脚本特征类型。

优选的，所述识别设备还包括：

第六装置，用于采用正则表达式对从每个所述参考网页脚本中截取之后剩余的参考网页脚本进行处理和存储。

优选的，所述第三装置包括：

第四单元，用于获取所述待测网页脚本；

第五单元，用于对所述待测网页脚本进行采样和量化，以获取所述待测网页脚本的特征值集合；以及

第六单元，用于将所述待测网页脚本的特征值集合映射至所述多维空间的待测向量。

优选的，所述第五单元包括：

第三子单元，用于从所述待测网页脚本中截取与所述参考网页脚本所截取的参考网页脚本相同文本容量的待测网页脚本；以及

第四子单元，用于对所述截取的待测网页脚本的字符进行采样和量化，以获取所述待测网页脚本的特征值集合。

优选的，所述第四子单元包括：

第四一子单元，用于根据ASCII码规则将所采样的所述待测网页脚本的字符量化成相应特征值。

优选的，所述第二装置包括：

第七单元，用于利用分类算法获取所述多维空间中赋值的分布模型。

优选的，所述分类算法包括支持向量机算法。

优选的，所述第四装置包括：

第八单元，用于将所述待测向量的赋值代入所述若干多维函数关系组，利用解析几何原理获取所述待测向量所映射在所述多维空间中所对应的赋值。

与现有技术相比，本申请所述网页入侵脚本特征的识别方法及设备通过将获取的一定数量的参考网页脚本及其特征信息映射为多维空间的参考向量及其赋值，根据所述参考向量及其赋值的分布获取多维空间中赋值的分布模型，当需要进行网页入侵特征脚本特征识别时，获取待测网页脚本并将待测网页脚本的特征信息将所述待测网页脚本映射至多维空间的待测向量，只需将待测向量的特征信息输入至所述多维空间中赋值的分布模型即可获得待测网页脚本的网页入侵脚本特征，因此降低了对计算硬件的要求，并在保证对网页入侵脚本特征的识别准确性的同时大大缩小了识别时间。

进一步的，本申请所述网页入侵脚本特征的识别方法及设备还用从每个所述参考网页脚本的网页脚本中截取之后剩余的网页脚本进一步确定所述待测网页脚本的网页入侵脚本特征类型，进一步提高识别的准确性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出根据本申请一方面示出的网页入侵脚本特征的识别设备示意图；

图2示出根据本申请一优选的实施例示出的第一装置示意图；

图3示出根据本申请一优选的实施例示出的第三装置示意图；

图4示出根据本申请另一方面示出的网页入侵脚本特征的识别设备示意图；

图5示出根据本申请一方面示出的网页入侵脚本特征的识别方法的流程图；

图6示出根据本申请一优选的实施例示出的基于每个参考网页脚本的特征信息将所述参考网页脚本映射至多维空间的参考向量的流程图；

图7示出根据本申请一优选的实施例示出的基于待测网页脚本的特征信息将所述待测网页脚本映射至多维空间的待测向量；

图8示出根据本申请另一方面示出的网页入侵脚本特征的识别方法的流程示意图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

图1示出根据本申请一方面示出的网页入侵脚本特征的识别设备示意图，其中，所述识别设备1包括：第一装置11、第二装置12、第三装置13及第四装置14。

在较佳的实施例中，所述网页入侵脚本特征类型包括正常类型、异常类型及待定类型中的一种或任意组合。进一步的，正常类型也可包括若干不同的正常类型，异常类型也可包括若干不同的异常类型，待定类型也可包括若干不同的待定类型，在此，对网页入侵脚本特征类型的进一步划分可根据获得的参考入侵脚本特征确定，不再赘述。

在此，所述识别设备1包括但不限于用户设备、网络设备、或用户设备与网络设备通过网络相集成所构成的设备。所述识别设备1其包括但不限于任何一种可与用户通过触摸板进行人机交互的移动电子产品，例如智能手机、PDA等，所述移动电子产品可以采用任意操作系统，如Android操作系统、IOS操作系统等。其中，所述识别设备1包括一种能够按照事先设定或存储的指令，自动进行数值计算和信息处理的电子设备，其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。所述识别设备1其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云；在此，云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个虚拟超级计算机。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。本领域技术人员应能理解，其他的触摸控制设备同样适用于本发明，也应包含在本发明保护范围以内，并在此以引用方式包含于此。

其中，第一装置11用于基于每个参考网页脚本的特征信息将所述参考网页脚本映射至多维空间的参考向量，其中，所述参考向量的赋值根据对应参考网页脚本的网页入侵脚本特征类型确定；第二装置12用于根据所述参考向量及其赋值的分布，获取多维空间中赋值的分布模型；第三装置13用于基于待测网页脚本的特征信息将所述待测网页脚本映射至多维空间的待测向量；以及第四装置14用于根据所述多维空间中赋值的分布模型确定所述待测向量所映射在所述多维空间中所对应的赋值，并根据该赋值确定对应待测网页脚本的网页入侵脚本特征类型。

在此，上述各装置之间是持续不断工作的，在此，本领域技术人员应理解“持续”是指上述各装置分别实时地或者按照设定的或实时调整的工作模式要求，进行获取所划分区域的分布模型等，直至确定对应待测网页脚本的网页入侵脚本特征类型。

图2示出根据本申请一优选的实施例示出的第一装置示意图，其中，第一装置11包括第一单元110、第二单元120以及第三单元130。

其中，第一单元110用于获取若干所述参考网页脚本；第二单元120用于对所述参考网页脚本进行采样和量化，以获取所述参考网页脚本的特征值集合；以及第三单元130用于将每一所述参考网页脚本的特征值集合映射至所述多维空间的参考向量。

在优选的实施例中，所述第二单元120包括第一子单元(未标示)和第二子单元(未标示)，其中，第一子单元用于从每个所述参考网页脚本中截取相同文本容量的参考网页脚本，第二子单元用于对所述截取的参考网页脚本的字符进行采样和量化，以获取所述参考网页脚本的特征值集合。

在优选的实施例中，第二子单元(未示出)包括第二一子单元(未示出)，所述第二一子单元用于根据ASCII码规则将所采样的所述参考网页脚本的字符量化成相应特征值。

在此，ASCII是基于拉丁字母的一套电脑编码系统，在计算机中将所有的数据在存储和运算时都使用二进制数表示。它是现今最通用的单字节编码系统，是一种在计算机中最为通过用的编码系统。因此，通过ASCII码规则依次对所述参考网页脚本的网页脚本的字符赋予特征值能够通过计算机直接识别和存储，无需额外增加计算机计算负担，进而提高识别效率。

在实际应用场景中，网页入侵脚本特征通常会出现在在网页脚本文件的256KB字节之前(其中，256KB字节仅为举例并不被限制)。

基于上述，在本实施例中，所述网页入侵脚本特征识别方法基于建立对页脚本中前256KB字节字符的特征识别模型，即首先在一个以256*1024维的多维度空间进行建模，将每一参考网页脚本的特征信息都会映射为以256*1024维的多维度空间中的一个参考向量，每一向量具有256*1024维度的向量坐标，且每个参考向量具有一个根据对应参考网页脚本的网页入侵脚本特征类型确定的赋值。

具体地，第一装置11的第一单元110获取若干所述参考网页脚本之后，第二单元120对所述参考网页脚本进行采样，其中对于小于256KB(字节)的参考网页脚本则获取该参考网页脚本的全部网页脚本，对于大于256KB的的参考网页脚本即截取该参考网页脚本的前256KB字节的部分参考网页脚本。

然后，第二单元120再对采样获得参考网页脚本中的字符进行量化，以使各字符形成特征值。经第二单元120量化后的每一参考网页脚本可获得具有256*1024数量的特征值组成的特征值集合。然后，由第三单元130将每一待测网页脚本的特征值集合中的每一特征值依次作为向量的向量坐标，从而将每一待测网页脚映射为一个具有256*1024维度的向量。

在具体的应用场景中，目前网页入侵脚本特征通常会出现在在网页脚本文件的256KB字节之前，故以此为例：

更具体地，例如某参考网页脚本内容如下：

？PHP namespace

...

Xxbbxxbb

....

其中，参考网页脚本中“Xxbbxxbb”代表一个Webshell特征。

将上述参考网页脚本的每个字符依据计算机ASCII码转换为16进制数值，则量化后形成的向量如下：

(0x50,0x68,0x70,0x6e,0x61,0x6d,0x65,0x73,0x70,0x61,0x63,0x65,.....,0x58,0x78,0x62,0x62,0x78,0xx78,0x62,0x62.....)。

则上述参考网页脚本就形成了一个多维空间的向量。

接着，多维空间的向量的赋值可以采用但不限于十进制数值表示。

例如一参考网页脚本特征类型为异常类型，则根据异常类型标记类型值，例如用十进制的两位数标示：10，表示异常及异常的类型，将该类型值赋予其参考网页脚本的特征所映射的赋值。

从而，将参考网页脚本的特征形成为如下内容：

10：(0x50,0x68,0x70,0x6e,0x61,0x6d,0x65,0x73,0x70,0x61,0x63,0x65,

.....,0x58,0x78,0x62,0x62,0x78,0xx78,0x62,0x62.....)

上述采样和量化的方法大大简化的参考网页脚本的存储数量，且便于后续进行特征提取和计算。

当然，本领域技术人员应当能够理解，所述的对多维空间向量的赋值方式以及对所述参考网页脚本的网页脚本的字符赋予特征值仅为举例，其他获得的赋值和特征值的方式，如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

从而，通过第一装置11持续获得参考网页脚本，并基于获取的参考网页脚本的特征信息将参考网页脚本映射至多维空间的参考向量，从而形成若干参考向量及其对应的参考向量的赋值。

接着，第二装置12根据所述赋值分布，将所述多维空间进行划分，并获取所划分区域的分布模型根据所述参考向量及其赋值的分布，获取多维空间中赋值的分布模型。在优选的实施例中，所划分的区域的分布模型包括若干所述区域所分布的所述多维空间中赋值的分布模型包括若干多维函数关系组。

进一步的，所述第二装置12包括第七单元(未标示)，所述第七单元用于利用分类算法获取所述多维空间中赋值的分布模型。较佳的，所述分类算法包括采用支持向量机(SVM，Support Vector Machine)算法。支持向量机算法能够将巨量的样本数据压缩成一个多元方程组。

在具体的实施例中，每个参考网页脚本经过处理后得到的是一个特征值集合组成的特征向量，每个特征向量可以等价为一个多维函数关系式(方程式)的系数。多个参考向量经过处理后就可以得到若干多维函数关系组，若干多维函数关系组即可描述所述多维空间。使用支持向量机算法能够根据若干多维函数关系组最终计算得出这个多维空间的向量表达法。具体地，例如在一参考网页脚本的采样到三个特征字符(1:66,2:97,3:99)，参考网页脚本的类型值为10，则可等价为多维函数关系式：10＝66x+97y+99z，例如在另一参考网页脚本采样到三个特征字符(1:66,2:97,3:99)，且该参考网页脚本的类型值为20，20＝74x+101y+104z+80q。

在此，多维关系式中”+”里仅仅是举例，并不限于此，其他运算方式，例如加减乘除等运算符号适用于本申请的，亦可以引用的方式包含在本申请之中。

在此，支持向量机(Support Vector Machine，SVM)是一种基于统计学习理论的模式识别方法，主要应用于模式识别领域。支持向量机方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折中，以建立识别模型。

具体地，第二装置12将第一装置11创建好的参考向量及其对应赋值使用支持向量机的多分类算法予以运算，根据支持向量机的特性，耗时可能从几分钟到一个月不等，且因为支持向量机的特性原因，中途不可中断。根据目前软硬件情况以及支持向量机本身的特性，运行时间在几百的数量级，该这个计算所花时间成本是可以接受的。

在一具体实施例中，最终支持向量机会算出一个文本方式的展现结果，类似如下：

0#kernel type

3#kernel parameter-d

1#kernel parameter-g

1#kernel parameter-s

1#kernel parameter-r

empty#kernel parameter-u

50#highest feature index

500#number of training documents

101#number of support vectors plus 1

9.9308382#threshold b,each following line is a SV(starting with alpha*y)

-3.2864346412986876e-0071:02:2473:2114:2045:2026:2237:2068:2419:20810:222

该文本方式的展现结果实质是关于若干所述多维函数关系组的相关方程系数，所述第二装置12将若干甚至是巨量的参考网页脚本文件压缩为一个多维函数关系组，该函数关系组仅包括方程、方程系数等函数关系的相关数据，从而实现了巨量的数据压缩和保存。

因此，将巨量样本数据根据一定的映射算法，映射到一个多维空间里，并且利用支持向量机的多分类算法，找出多个类之间的分割面，最后持久化保存这些分割面的方程组表现，达到将巨量样本数据压缩成一个多元函数关系的结果。

图3示出根据本申请一优选的实施例示出的第三装置示意图，其中，第三装置13包括：第四单元310、第五单元320以及第六单元330。

其中，第四单元310用于获取所述待测网页脚本；第五单元320用于对所述待测网页脚本进行采样和量化，以获取所述待测网页脚本的特征值集合；第六单元330用于将所述待测网页脚本的特征值集合映射至所述多维空间的待测向量。

在优选的实施例中，所述第一装置11将所述参考网页脚本映射至多维空间的参考向量以及第三装置13将所述待测网页脚本映射至多维空间的待测向量基于相同的映射规则。其中，相同的映射规则包括基于相同的规则对参考网页脚本和待测网页脚本进行采样和量化，以使参考网页脚本和待测网页脚本能够映射在同一多维空间。

在优选的实施例中，所述第五单元320包括第三子单元(未标示)和第四子单元(未标示)。其中，第三子单元用于从所述待测网页脚本中截取与所述参考网页脚本所截取的参考网页脚本相同文本容量的待测网页脚本；第四子单元用于对所述截取的待测网页脚本的字符进行采样和量化，以获取所述待测网页脚本的特征值集合。

在优选的实施例中，所述第四子单元包括第四一子单元(未标示)，所述第四一子单元用于根据ASCII码规则将所采样的所述待测网页脚本的字符量化成相应特征值。

具体地，继续以所述网页入侵脚本特征识别方法基于建立对页脚本中前256KB字节字符的特征识别模型，即在一个以256*1024维的多维度空间进行建模为例，将待测网页脚本的特征信息都映射为以256*1024维的多维度空间中的待测向量，待测向量具有256*1024维度的向量坐标。

具体地，第三装置13的第四单元310获取若干所述待测网页脚本之后，第五单元320对所述待测网页脚本进行采样，其中对于小于256KB(字节)的待测网页脚本即获取该待测网页脚本的全部网页脚本，对于大于256KB的的待测网页脚本即截取该待测网页脚本的前256KB字节的部分网页脚本。然后，第五单元320再对采样获得网页脚本中的各字符进行量化，以形成特征值，对于小于256KB的待测网页脚本，其形成的特征值的数量小于256*1024个，则不足数量的特征值可以用特殊的特征值标示，例如特征值为“0”标示。则经第五单元320量化后的每一待测网页脚本可获得具有256*1024数量的特征值组成的特征值集合，由第三单元130将每一所述待测网页脚本的特征值集合中的每一特征值依次作为向量的向量坐标，从而将每一待测网页脚映射为一个具有256*1024维度的向量。因而在后续可以根据参考向量的赋值的分布规律获取待测向量的赋值信息。

进一步的，第四装置14根据所述多维空间中赋值的分布模型确定所述待测向量所映射在所述多维空间中所对应的赋值，并根据该赋值确定对应待测网页脚本的网页入侵脚本特征类型。

在优选的实施例中，所述第四装置14进一步包括第八单元(未示出)，所述第八单元用于将所述待测向量的赋值代入所述若干多维函数关系组，利用解析几何原理获取所述待测向量所映射在所述多维空间中所对应的赋值。

继续以所述网页入侵脚本特征识别方法基于建立对页脚本中前256KB字节字符的特征识别模型，即在一个以256*1024维的多维度空间进行建模为例，将待测向量的256*1024维度的向量坐标代入前述的所述第二装置12获得的多维函数关系组中，则能够获得待测脚本所映射的待测向量所在区域，进而通过该区域的赋值，确定所述待测脚本的类型值。

因此，采用支持向量机获得关于多维空间中赋值的多维函数关系组，将待测网页脚本的特征通过支持向量机的多分类识别接口，即可得出分类值，从而获得待测网页脚本的网页入侵脚本特征类型。通过使用分类算法对参考网页脚本进行特征提取和空间映射，将参考网页脚本的特征及其网页入侵脚本特征类型映射为多维空间的向量及其赋值，并根据赋值对多维空间进行区域分布，则只需获得待测网页脚本所映射的区域的赋值即可获得待测网页脚本的网页入侵脚本特征类型。

图4示出根据本申请另一方面示出的网页入侵脚本特征的识别设备示意图，在另一优选的实施例中，本申请所述网页入侵脚本特征的识别设备1包括第一装置11’、第二装置12’、第三装置13’、第四装置14’以及第五装置15’。

在此，识别设备1的第一装置11’、第二装置12’、第三装置13’以及第四装置14’与图1中第一装置11、第二装置12、第三装置13以及第四装置14的内容对应相同或基本相同，为简明起见，不再赘述，仅以引用的方式包含在此。

其中，第五装置15’利用从每个所述参考网页脚本中截取之后剩余的参考网页脚本确定所述待测网页脚本的网页入侵脚本特征类型。所述第五装置15’获得的剩余的网页脚本可以用于进一步确定所述待测网页脚本的网页入侵脚本特征类型，例如，当第四装置14’获得的网页入侵脚本特征类型为待确定类型时，则可以利用所述第五装置15’将待测网页脚本与从参考网页脚本中获得的剩余的网页脚本进行进一步比对，进一步检测其网页入侵脚本特征类型。

继续以所述网页入侵脚本特征识别方法基于建立对页脚本中前256KB字节字符的特征识别模型，即在一个以256*1024维的多维度空间进行建模为例，第五装置15’对于大于256KB的参考网页脚本的文件，将网页脚本中第256KB以后的字符按照正则表达式进行存储，以便于后续利用数据库中的正则表达式存储的参考网页脚本的内容对待测网页脚本进行进一步匹配，对分类算法获得的网页入侵脚本特征类型进行进一步匹配，以提高识别的准确性。

图5示出根据本申请一方面示出的网页入侵脚本特征的识别方法的流程图，所述识别设备方法1包括：第一装置步骤S11、第二装置步骤S12、第三装置步骤S13及第四装置步骤S14。

在较佳的实施例中，所述网页入侵脚本特征类型包括正常类型、异常类型及待定类型中的一种或任意组合。进一步的，正常类型也可包括若干不同的正常类型，异常类型也可包括若干不同的异常类型，待定类型也可包括若干不同的待定类型，在此，对特征类型的进一步划分可根据获得的参考入侵脚本特征确定，不再赘述。

其中，在步骤S11中，基于每个参考网页脚本的特征信息将所述参考网页脚本映射至多维空间的参考向量，其中，所述参考向量的赋值根据对应参考网页脚本的网页入侵脚本特征类型确定；在步骤S12中，根据所述参考向量及其赋值的分布，获取多维空间中赋值的分布模型；在步骤S13中，基于待测网页脚本的特征信息将所述待测网页脚本映射至多维空间的待测向量；以及在步骤S14中，根据所述多维空间中赋值的分布模型确定所述待测向量所映射在所述多维空间中所对应的赋值，并根据该赋值确定对应待测网页脚本的网页入侵脚本特征类型。

图6示出根据本申请的一个优选的实施例示出的基于每个参考网页脚本的特征信息将所述参考网页脚本映射至多维空间的参考向量的流程图，其中，步骤S11包括步骤S110、步骤S120以及步骤S130。

其中，在步骤S110用于中，获取若干所述参考网页脚本；在步骤S120中，用于对所述参考网页脚本进行采样和量化，以获取所述参考网页脚本的特征值集合；以及在步骤S130中，用于将每一所述参考网页脚本的特征值集合映射至所述多维空间的参考向量。

在优选的实施例中，所述步骤S120进一步包括以下步骤：

从每个所述参考网页脚本中截取相同文本容量的参考网页脚本；以及对所述截取的参考网页脚本的字符进行采样和量化，以获取所述参考网页脚本的特征值集合。

在优选的实施例中，从每个所述参考网页脚本中截取相同文本容量的参考网页脚本进一步包括：

在此，ASCII是基于拉丁字母的一套电脑编码系统，在计算机中将所有的数据在存储和运算时都使用二进制数表示。它是现今最通用的单字节编码系统，是一种在计算机中最为通过用的编码系统。因此，通过ASCII码规则依次对所述参考网页脚本的网页脚本的字符赋予特征值能够通过计算机直接识别和存储，无需额外增加计算机计算负担。

具体地，步骤S110获取若干所述参考网页脚本之后，步骤S120对所述参考网页脚本进行采样，其中对于小于256KB(字节)的参考网页脚本则获取该参考网页脚本的全部网页脚本，对于大于256KB的的参考网页脚本即截取该参考网页脚本的前256KB字节的部分网页脚本。

然后，步骤S120再对采样获得参考网页脚本中的各字符进行量化，以使各字符形成特征值。经第二单元120量化后的每一参考网页脚本可获得具有256*1024数量的特征值组成的特征值集合。

然后，在步骤S130中将每一所述待测网页脚本的特征值集合中的每一特征值依次作为向量的向量坐标，从而将每一待测网页脚映射为一个具有256*1024维度的向量。

在具体的应用场景中，目前Webshell特征通常会出现在在网页脚本文件的256KB字节之前，故以此为例：

更具体地，例如某参考网页脚本内容如下：

？PHP namespace

...

Xxbbxxbb

....

其中，参考网页脚本中“Xxbbxxbb”代表一Webshell特征。

则上述参考网页脚本就形成了一个多维空间的向量。

从而，将参考网页脚本的特征形成为如下内容：

10：(0x50,0x68,0x70,0x6e,0x61,0x6d,0x65,0x73,0x70,0x61,0x63,0x65,

.....,0x58,0x78,0x62,0x62,0x78,0xx78,0x62,0x62.....)

从而，通过步骤S11持续获得参考网页脚本，并基于获取的参考网页脚本的特征信息将参考网页脚本映射至多维空间的参考向量，从而形成若干参考向量及其对应的参考向量的赋值。

接着，步骤S12根据所述参考向量及其赋值的分布，获取多维空间中赋值的分布模型。在优选的实施例中，所述多维空间中赋值的分布模型包括若干多维函数关系组。

进一步的，所述步骤S12包括：利用分类算法获取所述多维空间中赋值的分布模型。

较佳的，所述分类算法采用支持向量机算法。支持向量机算法能够将巨量的样本数据压缩成一个多元方程组。

具体地，步骤S12将步骤S11创建好的参考向量及其对应赋值使用支持向量机的多分类算法予以运算，根据支持向量机的特性，耗时时间可能从几分钟到一个月不等。根据目前软硬件情况以及支持向量机本身的特性，运行时间在几百的数量级，为可承受的计算时间成本。

0#kernel type

3#kernel parameter-d

1#kernel parameter-g

1#kernel parameter-s

1#kernel parameter-r

empty#kernel parameter-u

50#highest feature index

500#number of training documents

101#number of support vectors plus 1

9.9308382#threshold b,each following line is a SV(starting with alpha*y)

-3.2864346412986876e-0071:02:2473:2114:2045:2026:2237:2068:2419:20810:222

该文本方式的展现结果实质是关于若干所述多维函数关系组的相关方程系数，所述步骤S12将若干甚至是巨量的参考网页脚本文件压缩为一个多维函数关系组，该函数关系组仅包括方程、方程系数等函数关系的相关数据，从而实现了巨量的数据压缩和保存。

图7示出根据本申请一优选的实施例示出的基于待测网页脚本的特征信息将所述待测网页脚本映射至多维空间的待测向量，其中，所述步骤S13包括步骤S310、步骤S 320以及步骤S330。

其中，在步骤S310中，获取所述待测网页脚本；在步骤S320中，对所述待测网页脚本进行采样和量化，以获取所述待测网页脚本的特征值集合；在步骤S330中，将所述待测网页脚本的特征值集合映射至所述多维空间的待测向量。

在优选的实施例中，所述步骤S11将所述参考网页脚本映射至多维空间的参考向量以及步骤S13将所述待测网页脚本映射至多维空间的待测向量基于相同的映射规则。其中，相同的映射规则包括基于相同的规则对参考网页脚本和待测网页脚本进行采样和量化，以使参考网页脚本和待测网页脚本能够映射在同一多维空间。

在优选的实施例中，所述步骤S320包括：

在优选的实施例中，从所述待测网页脚本中截取与所述参考网页脚本所截取的参考网页脚本相同文本容量的待测网页脚本包括：根据ASCII码规则将所采样的所述待测网页脚本的字符量化成相应特征值。

具体地，步骤S310获取若干所述待测网页脚本之后，步骤S320对所述待测网页脚本进行采样，其中对于小于256KB(字节)的待测网页脚本即获取该待测网页脚本的全部网页脚本，对于大于256KB的的待测网页脚本即截取该待测网页脚本的前256KB字节的部分网页脚本。然后，步骤S320再对采样获得网页脚本中的各字符进行量化，以形成特征值，对于小于256KB的待测网页脚本，其形成的特征值的数量小于256*1024个，则不足数量的特征值可以用特殊的特征值标示，例如特征值为“0”标示。则经步骤S320量化后的每一待测网页脚本可获得具有256*1024数量的特征值组成的特征值集合，由步骤S130将每一所述待测网页脚本的特征值集合中的每一特征值依次作为向量的向量坐标，从而将每一待测网页脚映射为一个具有256*1024维度的向量。因而在后续可以根据参考向量的赋值的分布规律获取待测向量的赋值信息。

进一步的，在步骤S14中，根据所述多维空间中赋值的分布模型确定所述待测向量所映射在所述多维空间中所对应的赋值，并根据该赋值确定对应待测网页脚本的网页入侵脚本特征类型。

在优选的实施例中，步骤S14进一步包括：将所述待测向量的赋值代入所述若干多维函数关系组，利用解析几何原理获取所述待测向量所映射在所述多维空间中所对应的赋值。

图8示出根据本申请另一方面示出的网页入侵脚本特征的识别方法的流程示意图，在另一优选的实施例中，本申请所述网页入侵脚本特征的识别方法包括步骤S11’、步骤S12’、步骤S13’、步骤S14’以及步骤S15’。

其中，识别方法中步骤S11’、步骤S12’、步骤S13’以及步骤S14’与图1中步骤S11、步骤S12、步骤S13以及步骤S14的内容对应相同或基本相同，为简明起见，不再赘述，仅以引用的方式包含在此。

其中，步骤S15’利用从每个所述参考网页脚本中截取之后剩余的参考网页脚本确定所述待测网页脚本的网页入侵脚本特征类型。所述第五装置15’获得的剩余的网页脚本可以用于进一步确定所述待测网页脚本的网页入侵脚本特征类型，例如，当步骤S14’获得的网页入侵脚本特征类型为待确定类型时，则可以利用所述步骤S15’将待测网页脚本与从参考网页脚本中获得的剩余的网页脚本进行进一步比对，进一步检测其网页入侵脚本特征类型。

继续以所述网页入侵脚本特征识别方法基于建立对页脚本中前256KB字节字符的特征识别模型，即在一个以256*1024维的多维度空间进行建模为例，步骤S15’对于大于256KB的参考网页脚本的文件，将网页脚本中第256KB以后的字符按照正则表达式进行存储，以便于后续利用数据库中的正则表达式存储的参考网页脚本的内容对待测网页脚本进行进一步匹配，对分类算法获得的网页入侵脚本特征类型进行进一步匹配，以提高识别的准确性。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

需要注意的是，本申请可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本申请的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本申请的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本申请的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种网页入侵脚本特征的识别方法，其中，所述识别方法包括：

2.根据权利要求1所述的识别方法，其中，将所述参考网页脚本映射至多维空间的参考向量以及将所述待测网页脚本映射至多维空间的待测向量基于相同的映射规则。

3.根据权利要求1或2所述的识别方法，其中，基于每个参考网页脚本的特征信息将所述参考网页脚本映射至多维空间的参考向量包括：

获取若干所述参考网页脚本；

4.根据权利要求3所述的识别方法，其中，对所述参考网页脚本的特征进行采样和量化包括：

5.根据权利要求4所述的识别方法，其中，对从所述参考网页脚本截取的字符依次赋予特征值包括：

6.根据权利要求4或5所述的特征识别方法，其中，所述识别方法还包括：

7.根据权利要求6所述的识别方法，其中，所述识别方法还包括：

8.根据权利要求1或7中任一项所述的识别方法，其中，基于待测网页脚本的特征信息将所述待测网页脚本映射至多维空间的待测向量包括：

获取所述待测网页脚本；

9.根据权利要求8所述的识别方法，其中，对所述待测网页脚本的特征进行采样和量化包括：

10.根据权利要求9所述的识别方法，其中，对所述截取的待测网页脚本的字符进行量化包括：

11.根据权利要求1至10中任一项所述的识别方法，其中，将所述多维空间进行划分包括：

利用分类算法获取所述多维空间中赋值的分布模型。

12.根据权利要求11所述的识别方法，其中，所述分类算法包括支持向量机算法。

13.根据权利要求1至12中任一项所述的识别方法，其中，所述多维空间中赋值的分布模型包括若干多维函数关系组。

14.根据权利要求13所述的识别方法，其中，根据所述多维空间中赋值的分布模型确定所述待测向量所映射在所述多维空间中所对应的赋值包括：

15.根据权利要求1至14中任一项所述的识别方法，其中，所述网页入侵脚本特征类型包括正常类型、异常类型及待定类型中的一种或任意组合。

16.一种网页入侵脚本特征的识别设备，其中，所述识别设备包括：

17.根据权利要求16所述的识别设备，其中，所述第一装置将所述参考网页脚本映射至多维空间的参考向量以及第三装置将所述待测网页脚本映射至多维空间的待测向量基于相同的映射规则。

18.根据权利要求16或17所述的识别设备，其中，所述第一装置包括：

第一单元，用于获取若干所述参考网页脚本；

19.根据权利要求18所述的识别设备，其中，所述第二单元包括：

20.根据权利要求19所述的识别设备，其中，所述第二子单元包括：

21.根据权利要求19或20所述的识别设备，其中，所述识别设备还包括：

22.根据权利要求21所述的识别设备，其中，所述识别设备还包括：

23.根据权利要求16至22中任一项所述的识别设备，其中，所述第三装置包括：

第四单元，用于获取所述待测网页脚本；

24.根据权利要求23所述的识别设备，其中，所述第五单元包括：

25.根据权利要求24所述的识别设备，其中，所述第四子单元包括：

26.根据权利要求16至25中任一项所述的识别设备，其中，所述第二装置包括：

27.根据权利要求26所述的识别设备，其中，所述分类算法包括支持向量机算法。

28.根据权利要求16至27中任一项所述的识别设备，其中，所述多维空间中赋值的分布模型包括若干多维函数关系组。

29.根据权利要求28所述的识别设备，其中，所述第四装置包括：

30.根据权利要求15至29中任一项所述的识别设备，其中，所述网页入侵脚本特征类型包括正常类型、异常类型及待定类型中的一种或任意组合。