CN115314291A

CN115314291A - 模型训练方法及组件，安全检测方法及组件

Info

Publication number: CN115314291A
Application number: CN202210945116.7A
Authority: CN
Inventors: 陈晨; 李达; 薛聪明; 段彦忠; 嵇中旭; 刘涛; 王运; 沈一平; 袁楠丁
Original assignee: Sangfor Technologies Co Ltd
Current assignee: Sangfor Technologies Co Ltd
Priority date: 2022-08-08
Filing date: 2022-08-08
Publication date: 2022-11-08

Abstract

本申请公开了计算机技术领域内的一种模型训练方法及组件，安全检测方法及组件。本申请以会话特征作为初级训练特征，训练得到了至少两个初级检测模型；同时，以各初级检测模型针对同一初级训练特征的多个初级检测结果再次构建次级训练特征，而后训练得到了一个次级检测模型；最后将至少两个初级检测模型和一个次级检测模型组建为目标检测模型。本申请中的目标检测模型能够提高检测准确性，且因为无需人为参与，也相应提高了检测效率。相应地，本申请提供的一种模型训练组件、一种安全检测方法及组件，也同样具有上述技术效果。

Description

模型训练方法及组件，安全检测方法及组件

技术领域

本申请涉及计算机技术领域，特别涉及一种模型训练方法及组件，安全检测方法及组件。

背景技术

目前，现有的Webshell的检测方案需要对Webshell代码进行解析和判断，而解析和判断Webshell代码一般耗时较长，其检测准确性还依赖于技术人员对代码的辨识能力，因此检测的准确性和效率都较低。

因此，如何提高Webshell的检测准确性和效率，是本领域技术人员需要解决的问题。

发明内容

有鉴于此，本申请的目的在于提供一种模型训练方法及组件，安全检测方法及组件，以提高Webshell的检测准确性和效率。其具体方案如下：

第一方面，本申请提供了一种模型训练方法，包括：

获取初级训练集，并利用所述初级训练集训练得到至少两个初级检测模型；所述初级训练集包括多个会话特征；

将所述初级训练集中的每个会话特征输入所述至少两个初级检测模型，以使每个初级检测模型针对同一会话特征输出至少两个初级检测结果；

拼接同一会话特征的至少两个初级检测结果，得到该会话特征对应的拼接结果；

利用所有会话特征对应的拼接结果构建次级训练集，并利用所述次级训练集训练得到次级检测模型；

将所述至少两个初级检测模型和所述次级检测模型组建为目标检测模型。

第二方面，本申请提供了另一种模型训练方法，包括：

构建会话特征集，所述会话特征集中的每个会话特征包括：页面访问特征、敏感信息访问特征、URL特征和/或恶意特征；

利用所述会话特征集对初始人工智能模型进行训练，得到安全检测模型。

可选地，所述利用所述会话特征集对初始人工智能模型进行训练，得到安全检测模型，包括：

利用所述会话特征集训练得到至少两个初级检测模型；

拼接所述至少两个初级检测模型针对所述会话特征集中同一会话特征输出的至少两个初级检测结果，得到相应会话特征对应的拼接结果；

利用所有会话特征对应的拼接结果构建拼接结果集，并利用所述拼接结果集训练得到次级检测模型；

将所述至少两个初级检测模型和所述次级检测模型组建为所述安全检测模型。

可选地，所述利用所述会话特征集对初始人工智能模型进行训练，包括：

在所述会话特征集中选择困难样本；

利用所述困难样本对初始人工智能模型进行训练。

第三方面，本申请提供了一种安全检测方法，包括：

获取访问目标主机的待检测流量；

从所述待检测流量中提取会话特征，所述会话特征包括：敏感信息访问特征、URL特征和/或恶意特征；

根据所述会话特征对所述待检测流量进行安全检测。

可选地，所述根据所述会话特征对所述待检测流量进行安全检测，包括：

将所述会话特征输入预先训练好的人工智能模型，以使所述人工智能模型输出所述待检测流量的安全检测结果。

可选地，所述人工智能模型包括：至少两个初级检测模型和次级检测模型；

相应地，所述将所述会话特征输入预先训练好的人工智能模型，以使所述人工智能模型输出所述待检测流量的安全检测结果，包括：

将所述会话特征输入所述至少两个初级检测模型，以使所述至少两个初级检测模型输出所述会话特征的至少两个初级检测结果；

拼接所述至少两个初级检测结果，得到所述会话特征对应的拼接结果；

将所述拼接结果输入所述次级检测模型，以使所述次级检测模型输出所述待检测流量的安全检测结果。

可选地，所述从所述待检测流量中提取会话特征，包括：

将所述待检测流量中未成功执行攻击的流量滤除，并基于源端访问标识将剩余流量按照不同会话进行划分；

提取每个会话中相应流量的特征，得到每个会话的会话特征。

可选地，所述提取每个会话中相应流量的特征，得到每个会话的会话特征，包括：

从每个会话的相应流量中提取所述页面访问特征、所述敏感信息访问特征、所述URL 特征和/或所述恶意特征；

将提取到的所述页面访问特征、所述敏感信息访问特征、所述URL特征和/或所述恶意特征拼接为相应会话的会话特征。

可选地，所述页面访问特征包括以下任一项或组合：页面出度、页面入度、跨页面的访问链长度、页面的静态资源个数、页面的源IP及信息熵、页面的user-agent总个数及信息熵、页面的请求参数的均值及方差、页面的请求参数值的均值及方差、页面的GET请求占比、页面的POST请求占比、页面的恶意user-agent的个数、页面的文件名是否包含shell 字符串、页面的文件名是否有意义；

所述敏感信息访问特征包括以下任一项或组合：敏感文件的访问数目、目录穿越的数目；

所述URL特征包括以下任一项或组合：恶意请求参数的个数、恶意请求值的个数、URL目录长度、登录型Webshell请求参数的个数、命令执行类的Webshell参数名的个数、请求参数的长度及均值、请求参数值的长度及均值、请求头中可接受语言类型的长度及均值、请求头中可接受脚本类型的长度及均值；

所述恶意特征包括：恶意密文的个数。

可选地，所述未成功执行攻击的流量具备以下任一项特征或组合：响应状态码非200、文件扩展名非恶意、URL参数名为空、请求体格式非恶意、响应体格式非恶意、响应体为空。

第四方面，本申请提供了一种模型训练装置，包括：

初级训练模块，用于获取初级训练集，并利用所述初级训练集训练得到至少两个初级检测模型；所述初级训练集包括多个会话特征；

次级训练模块，用于将所述初级训练集中的每个会话特征输入所述至少两个初级检测模型，以使每个初级检测模型针对同一会话特征输出至少两个初级检测结果；拼接同一会话特征的至少两个初级检测结果，得到该会话特征对应的拼接结果；利用所有会话特征对应的拼接结果构建次级训练集，并利用所述次级训练集训练得到次级检测模型；

组建模块，用于将所述至少两个初级检测模型和所述次级检测模型组建为目标检测模型。

第五方面，本申请提供了另一种模型训练装置，包括：

特征集构建模块，用于构建会话特征集，所述会话特征集中的每个会话特征包括：页面访问特征、敏感信息访问特征、URL特征和/或恶意特征；

训练模块，用于利用所述会话特征集对初始人工智能模型进行训练，得到安全检测模型。

第六方面，本申请提供了一种安全检测装置，包括：

流量获取模块，用于获取访问目标主机的待检测流量；

特征提取模块，用于从所述待检测流量中提取会话特征，所述会话特征包括：敏感信息访问特征、URL特征和/或恶意特征；

安全检测模块，用于根据所述会话特征对所述待检测流量进行安全检测。

第五方面，本申请提供了一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，以实现前述公开的方法。

第六方面，本申请提供了一种可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述公开的方法。

通过以上方案可知，本申请提供了一种模型训练方法，包括：获取初级训练集，并利用所述初级训练集训练得到至少两个初级检测模型；所述初级训练集包括多个会话特征；将所述初级训练集中的每个会话特征输入所述至少两个初级检测模型，以使每个初级检测模型针对同一会话特征输出至少两个初级检测结果；拼接同一会话特征的至少两个初级检测结果，得到该会话特征对应的拼接结果；利用所有会话特征对应的拼接结果构建次级训练集，并利用所述次级训练集训练得到次级检测模型；将所述至少两个初级检测模型和所述次级检测模型组建为目标检测模型。

可见，本申请以会话特征作为初级训练特征，训练得到了至少两个初级检测模型；同时，以各初级检测模型针对同一初级训练特征的多个初级检测结果再次构建次级训练特征，而后训练得到了一个次级检测模型；最后将至少两个初级检测模型和一个次级检测模型组建为目标检测模型。由此得到的目标检测模型能够对会话特征进行分类检测，提升了模型所检测的特征全面性，同时该模型还可以对同一初级特征的多个初级检测结果拼接后，再次对拼接结果进行检测，由此提升了模型的精度。因此本申请中的目标检测模型能够提高检测准确性，且因为无需人为参与，也相应提高了检测效率。

相应地，本申请提供的一种模型训练组件、一种安全检测方法及组件，也同样具有上述技术效果。组件为：装置、设备或可读存储介质。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请公开的一种模型训练方法流程图；

图2为本申请公开的一种检测模型示意图；

图3为本申请公开的另一种模型训练方法流程图；

图4为本申请公开的一种安全检测方法流程图；

图5为本申请公开的又一种模型训练方法流程图；

图6为本申请公开的一种模型训练装置示意图；

图7为本申请公开的另一种模型训练装置示意图；

图8为本申请公开的一种安全检测装置示意图；

图9为本申请公开的一种电子设备示意图；

图10为本申请公开的另一种电子设备示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，安全领域存在很多种攻击，比如webshell后门、SQL注入等，黑客会构造各种攻击对应的脚本代码，达到其入侵的目的。

为了提高检出率，安全检测方案需要对针对代码进行解析，提取代码中的有价值特征，利用特征来进行安全检测。然而针对代码进行解析、判断一般耗时较长，且其检测准确性还依赖于技术人员对代码的辨识能力，因此检测的准确性和效率都较低。为此，本申请提供了一种模型训练方案，能够提高安全检测准确性和效率。

以安全领域非常常见的Webshell后门为例来说，Webshell本质上是一种基于Web编程语言的一类可执行Web脚本代码。一般来说，Web脚本代码用于向用户提供网站访问服务、数据呈现等任务。区别于正常Web文件，攻击者会精心构造Webshell脚本代码，使其具备持续入侵网站的目的，当攻击者攻陷Web应用程序后，使用这样的恶意脚本来持久化访问权限或者提升访问权限。Webshell又称脚本木马，一般分为大马、小马、一句话木马。

参见图1所示，本申请实施例公开了一种模型训练方法，包括：

S101、获取初级训练集，并利用初级训练集训练得到至少两个初级检测模型。

其中，初级训练集包括多个会话特征；每个会话特征包括：页面访问特征、敏感信息访问特征、URL特征和/或恶意特征；每个会话特征还携带有：是否包括恶意特征的标签。恶意特征如：Webshell特征。在一种实施方式中，页面访问特征包括以下任一项或组合：页面出度、页面入度、跨页面的访问链长度、页面的静态资源个数、页面的源IP及信息熵、页面的user-agent总个数及信息熵、页面的请求参数的均值及方差、页面的请求参数值的均值及方差、页面的GET请求占比、页面的POST请求占比、页面的恶意user-agent的个数、页面的文件名是否包含shell字符串、页面的文件名是否有意义。敏感信息访问特征包括以下任一项或组合：敏感文件的访问数目、目录穿越的数目。URL特征包括以下任一项或组合：恶意请求参数的个数、恶意请求值的个数、URL目录长度、登录型Webshell请求参数的个数、命令执行类的Webshell参数名的个数、请求参数的长度及均值、请求参数值的长度及均值、请求头中可接受语言类型的长度及均值、请求头中可接受脚本类型的长度及均值。恶意特征包括：恶意密文的个数。

在本实施例中，会话特征从内网设备和/或外网设备访问内网主机的Web流量中提取得到。因此在一种实施方式中，获取初级训练集，包括：获取内网设备和/或外网设备访问内网主机的Web流量；对Web流量进行预处理；将预处理后的Web流量中未成功执行Webshell攻击的流量滤除，以为后续步骤降低数据处理量，并基于内网设备和/或外网设备的访问标识将剩余流量按照不同会话进行划分；提取每个会话中相应流量的特征，得到每个会话的会话特征；为各会话特征添加是否包括Webshell的标签后，用携带是否包括Webshell的标签的各会话特征组建初级训练集。其中，访问标识包括：IP和浏览器标识，如此可细粒度划分会话。浏览器标识如user-agent。

在一种实施方式中，对Web流量进行预处理，包括：将Web流量中的URL解码为可解析字符。例如：将URL中的百分号解码为等于号，以便后续分析URL时可读取。

在一种实施方式中，未成功执行Webshell攻击的流量具备以下任一项特征或组合：响应状态码非200、文件扩展名非恶意、URL参数名为空、请求体格式非恶意、响应体格式非恶意、响应体为空。其中，响应状态码非200的流量表示：内网主机未正常响应该流量，因此该流量没有对内网主机进行成功攻击。Webshell的文件扩展名一般包括：php、asp、aspx、jsp、jspx、ashx、asa、cgi、cer、ashm、war、py、htr、cdx等，因此若流量中的文件扩展名不是Webshell的文件扩展名，则认为该流量不能成功执行Webshell攻击。一般情况下，Webshell的URL参数名不会为空，Webshell的攻击响应体也不为空，请求体格式及响应体格式是列表、json格式、xml格式的流量是正常业务流量。当然，还可以基于内网主机所运行的具体业务类型设定其他可滤除非Webshell流量，以降低后续步骤的数据处理量，提升处理效率。

在一种实施方式中，提取每个会话中相应流量的特征，得到每个会话的会话特征，包括：从每个会话的相应流量中提取页面访问特征、敏感信息访问特征、URL特征和/或恶意特征；将提取到的页面访问特征、敏感信息访问特征、URL特征和/或恶意特征拼接为相应会话的会话特征，以融合不同特征得到会话特征，由此可使会话特征包含更多更丰富的特征，提升会话特征的表征能力，也能为分类精度提供帮助。

本实施例为了让模型学习到更强的检测能力，特意在初级训练集中保留了难以区分的样本类别的样本，也就是在初级训练集中保留了困难样本。因此在一种实施方式中，为各会话特征添加是否包括Webshell的标签，包括：在各会话特征中选择困难样本；为所选择的会话特征添加是否包括Webshell的标签。未被选择的会话特征可组成测试集，待模型训练得到后，利用测试集对其进行测试。其中，如果一个会话特征包括Webshell的概率接近于不包括Webshell的概率，则该会话特征就是困难样本。也即：算出一个样本为黑样本的概率，同时算出该样本为白样本的概率，如果这两个概率接近，就说明此样本的样本类别难以确定，因此称其为困难样本。

其中，可以利用Margin算法挑选困难样本。示例性地，利用Margin算法针对所有会话特征进行计算，那么可得到每个会话特征对应的黑白样本概率差，其中黑白样本概率差最小的会话特征即为困难样本。可以按照此过程反复执行，直至选择出足够多的困难样本。

具体的，Margin算法的计算公式为：

其中，

和

分别是样本 x_i可能所属类别的概率估计值，

和

分别表示是Webshell和不是Webshell的概率。

S102、将初级训练集中的每个会话特征输入至少两个初级检测模型，以使每个初级检测模型针对同一会话特征输出至少两个初级检测结果；拼接同一会话特征的至少两个初级检测结果，得到该会话特征对应的拼接结果；利用所有会话特征对应的拼接结果构建次级训练集，并利用次级训练集训练得到次级检测模型。

S103、将至少两个初级检测模型和次级检测模型组建为目标检测模型。

其中，次级训练集中的每个拼接结果携带有：是否包括Webshell的标签，那么目标检测模型为Webshell检测模型。

在本实施例中，不同初级检测模型所采用的分类逻辑不同，分类逻辑可以是：逻辑回归、随机森林、GBDT(Gradient Boosting Decision Tree)和Xgboost等。假设初级检测模型有2个，那么2个初级检测模型与一个次级检测模型组建得到的目标检测模型可参见图2。如图2所示，2个初级检测模型的输出均连接同一个次级检测模型的输入，表明该次级检测模型可对2个初级检测模型的输出进一步分类，由此可提升分类准确性。需要说明的是，各初级检测模型、次级检测模型均为二分类器，能够输出是Webshell和不是Webshell 的概率。

逻辑回归又称Logistic回归分析，是一种广义的线性回归分析方法。XGBoost是一种监督学习算法，它是Boosting算法的一种。GBDT是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来做最终答案。随机森林是一种通过集成学习Bagging思想，将多棵树集成的一种算法。

可见，本实施例以多方面的页面访问特征、敏感信息访问特征、URL特征和/或恶意特征组建初级训练特征，并训练得到了至少两个初级检测模型；同时，以各初级检测模型针对同一初级训练特征的多个分类结果再次构建次级训练特征，而后训练得到了一个次级检测模型；最后将至少两个初级检测模型和一个次级检测模型组建为Webshell检测模型。由此得到的Webshell检测模型能够对包括页面访问特征、敏感信息访问特征、URL特征和/或恶意特征的初级特征进行分类，提升了模型所检测的特征全面性，同时该模型还可以对同一初级特征的多个分类结果拼接后，再次对拼接结果进行分类，由此提升了模型的精度。因此本申请中的Webshell检测模型能够提高Webshell的检测准确性，且因为无需人为参与，也相应提高了检测效率。

参见图3所示，本申请实施例公开了另一种模型训练方法，包括：

S301、构建会话特征集，会话特征集中的每个会话特征包括：页面访问特征、敏感信息访问特征、URL特征和/或恶意特征。

其中，本实施例中的会话特征集可以与上述实施例所述的次级训练集完全相同。即：每个会话特征还携带有：是否包括恶意特征的标签，恶意特征如：Webshell特征。

S302、利用会话特征集对初始人工智能模型进行训练，得到安全检测模型。

在本实施例中，初始人工智能模型可以是：神经网络模型、深度学习模型等各种结构的模型。当然，也可以是上述实施例所述的包括多个初级模型和一个次级模型的检测模型。

若初始人工智能模型是上述实施例所述的包括多个初级模型和一个次级模型的检测模型，那么在一种实施方式中，利用会话特征集对初始人工智能模型进行训练，得到安全检测模型，包括：利用会话特征集训练得到至少两个初级检测模型；拼接至少两个初级检测模型针对会话特征集中同一会话特征输出的至少两个初级检测结果，得到相应会话特征对应的拼接结果；利用所有会话特征对应的拼接结果构建拼接结果集，并利用拼接结果集训练得到次级检测模型；将至少两个初级检测模型和次级检测模型组建为安全检测模型。此时得到的安全检测模型与上述实施例所述的目标检测模型类似或相同。

本实施例为了让模型学习到更强的检测能力，特意在会话特征集中选择难以区分的样本类别的样本供模型训练。那么在一种实施方式中，利用会话特征集对初始人工智能模型进行训练，包括：在会话特征集中选择困难样本；利用困难样本对初始人工智能模型进行训练。困难样本的选择方法可以参照上述实施例的相关介绍，本实施例不再赘述。

需要说明的是，本实施例利用会话特征集训练得到的安全检测模型能够以会话特征作为其输入数据，而后输出相应的安全检测结果。如：输出会话特征包括Webshell的概率和不包括Webshell的概率。

可见，本实施例利用会话特征集训练得到了一个安全检测模型，该安全检测模型能够对会话特征进行分类检测，提升了模型所检测的特征全面性和检测结果精度。因此本申请中的安全检测模型能够提高检测准确性，且因为无需人为参与，也相应提高了检测效率。

参见图4所示，本申请实施例公开了一种安全检测方法，包括：

S401、获取访问目标主机的待检测流量。

S402、从待检测流量中提取会话特征，会话特征包括：敏感信息访问特征、URL特征和/或恶意特征。

其中，待检测流量可以是：其他设备访问目标主机的Web流量。为了提高检测精度，并为后续检测步骤降低数据处理量，可以滤除明显没有攻击性的正常流量。一般地，未成功执行攻击的流量具备以下任一项特征或组合：响应状态码非200、文件扩展名非恶意、 URL参数名为空、请求体格式非恶意、响应体格式非恶意、响应体为空。因此可以据此进行正常流量的滤除。因此在一种实施方式中，从待检测流量中提取会话特征，包括：将待检测流量中未成功执行攻击的流量滤除，并基于源端访问标识将剩余流量按照不同会话进行划分；提取每个会话中相应流量的特征，得到每个会话的会话特征。在一种实施方式中，提取每个会话中相应流量的特征，得到每个会话的会话特征，包括：从每个会话的相应流量中提取页面访问特征、敏感信息访问特征、URL特征和/或恶意特征；将提取到的页面访问特征、敏感信息访问特征、URL特征和/或恶意特征拼接为相应会话的会话特征。可见，将页面访问特征、敏感信息访问特征、URL特征和/或恶意特征进行拼接，就能得到会话特征。其中，会话特征包括的特征越多，其表征能力就越强，分类结果精度就越好。

S403、根据会话特征对待检测流量进行安全检测。

在本实施例中，可以利用恶意特征库对会话特征进行特征匹配，如果恶意特征库中的某一特征与会话特征相似度高，则可以认为会话特征属于恶意特征；否则，可以认为会话特征不属于恶意特征。

当然，还可以使用上述训练好的人工智能模型对会话特征进行安全检测。也即：将会话特征作为人工智能模型的输入数据，以使人工智能模型输出相应的检测结果。因此在一种实施方式中，根据会话特征对待检测流量进行安全检测，包括：将会话特征输入预先训练好的人工智能模型，以使人工智能模型输出待检测流量的安全检测结果。

在本实施例中，人工智能模型可以是：神经网络模型、深度学习模型等各种结构的模型。当然，也可以是上述实施例所述的包括多个初级模型和一个次级模型的检测模型。

若人工智能模型是上述实施例所述的包括多个初级模型和一个次级模型的检测模型，那么在一种实施方式中，人工智能模型包括：至少两个初级检测模型和次级检测模型；相应地，将会话特征输入预先训练好的人工智能模型，以使人工智能模型输出待检测流量的安全检测结果，包括：将会话特征输入至少两个初级检测模型，以使至少两个初级检测模型输出会话特征的至少两个初级检测结果；拼接至少两个初级检测结果，得到会话特征对应的拼接结果；将拼接结果输入次级检测模型，以使次级检测模型输出待检测流量的安全检测结果。如图2所示，初级检测模型A针对初级训练集中的一个会话特征X输出初级检测结果Ax，初级检测模型B针对会话特征X输出初级检测结果Bx，而后，初级检测结果Ax和初级检测结果Bx在次级检测模型C的入口处被拼接，得到AxBx，之后AxBx被次级检测模型C处理，最后输出会话特征X是Webshell和不是Webshell的概率值，也就得到了待检测流量的安全检测结果。

可见，本实施例从访问目标主机的待检测流量中提取出会话特征后，既可以利用特征匹配方式检测会话特征是否恶意，还可以利用预先训练好的人工智能模型检测会话特征是否恶意，由此能够提高检测准确性和检测效率。

本申请实施例提供了一种模型训练方案，该方案前期着重进行了训练集的准备，后续采用Stacking方式训练模型，最终得到了性能和准确度都较好的模型。其中，Stacking方式首先训练出多个不同的模型，然后再以之前训练的各个模型的输出作为输入来新训练一个新的模型，从而组合所有模型得到一个最终的模型，组合得到的模型的分类能力更好。

请参见图5，本实施例所提供的方案具体可以包括以下步骤。

1、读取日志文件。

将某一内网主机与其他设备之间的HTTP流量存储为日志文件。

2、数据预处理。

(1)对所读取数据中的URL进行解码，以使URL中的字符变得可读取、可解析。其中，对未进行编码的URL进行解码不会对其进行更改。

(2)由于HTTP日志量巨大，如若不进行过滤则会耗费大量的计算资源，因此预处理过程中可以滤除一些明显不是Webshell的流量。

具体过滤规则可以包括：去除响应状态码不是200的流量日志，以便只针对成功执行攻击的恶意流量进行检测；去除当前内网主机访问外网的流量，以便只针对其他设备访问当前内网主机的流量进行检测；去除不是Webshell文件扩展名的流量，只保留文件扩展名可能是Webshell的流量；去除请求头URL参数名为空的流量，因为Webshell的URL参数名不会为空；去除请求体和响应体格式是列表、json格式、xml格式的正常业务流量；去除响应体为空的流量，因为Webshell攻击的响应体通常不为空。

3、特征提取。

由于可能多个访问者可能使用同一个IP地址访问当前内网主机，本实施例考虑加入 user-agent这一标识来区分会话，IP地址和user-agent中有至少一个不同，则认为流量属于不同会话，对属于不同会话的流量分别进行特征提取。针对同一会话内的流量，可以提取的特征包括以下任一个或组合，提取出的这些特征拼接起来就是该会话的会话特征。

一个会话内的流量可以提取的特征包括：

(1)每个页面的访问出度和入度。

出度表示由本页面跳出去的页面个数，入度表示由其他页面跳转到本页面的个数。由于Webshell页面具有孤立性，因此其页面出度和页面入度为0或者非常小。页面出度和页面入度可以通过Referer来计算。

(2)会话的访问深度。

一个用户从开始访问到结束访问，会形成一条访问链，正常的页面访问链会比较长，而Webshell页面访问链会比较短。

(3)加载的静态资源的个数。

正常的页面会有一些图片、JS、CSS的加载，而Webshell页面几乎没有这些静态资源。即使是大马，也会将JS和CSS写到一个文件中，不会再链接其他资源。

(4)访问某一页面的源IP个数及IP的信息熵。

正常的页面会有大量不同的IP来访问，而Webshell页面通常只有黑客自己知道，访问的源IP较单一，体现在信息熵上就是熵比较小。

(5)访问某一页面的user-agent个数及信息熵。

正常的页面由不同的用户在不同的机器上访问，各用户使用的操作系统和浏览器可能都不同，因此对应的user-agent就会多样化，而Webshell由黑客自己访问，user-agent较单一，熵值比较小。

(6)某一页面请求的均值和方差。

正常的页面请求参数及其值相对固定，体现在流量上就是请求流量差别微小，即请求的方差比较小。而Webshell页面会有不同的命令操作、数据库操作等，请求参数会不断变化，请求的方差比较大。

(7)某一页面GET和POST请求的占比。

正常页面GET和POST请求都会有，而且GET请求会相当多。而Webshell页面的操作绝大部分都是POST请求。

(8)某一页面的user-agent属于黑user-agent的个数，例如antSword就是黑user-agent。

(9)某一页面的文件名是否包含shell字符串，包含“shell”这一字符串的文件名是 Webshell的可疑度比较高。

(10)某一页面的文件名是否是有意义的。

可以提前维护一个正常业务的词汇表，如果某一页面的文件名被分解后，得到的分解词在词汇表中的出现次数多少可以反映出该文件名是否有意义。如果文件名的分解词在词汇表中都能找到，说明该文件名大概率是业务上的正常文件名，反之，说明该文件名大概率是Webshell。因为正常的文件名要么是使用驼峰命名法，要么是使用“_”连接单词，而Webshell的文件名通常杂乱无章。具体的，可以用文件名分解词在词汇表中有的个数与文件名分解词总个数的比值表示相应文件名的有意义程度。例如：一个文件名的分解词有 5个，其中有2个能在词汇表中找到，那么2/5就代表该文件名的有意义程度。

(11)密文数据被检测为黑(恶意)的个数。

针对密文数据(如请求体和/或响应体的密文)，首先基于密文格式和规律识别其加密类型，如果请求体和/或响应体的前三个字符是一样的，且请求参数名不是白的，则认为其为Webshell，是黑数据。

(12)请求参数包含黑词的个数和请求参数值包含黑词的个数。

请求参数名包含caidao、chopper、smoking、diaosi、b4che10rpass时，为Webshell的可疑度较高。请求参数值包含array_map、assert、base64、system、whoami、win、tomcat、％00、..％2F..、％2e％2e％2f％2e％2e时，为Webshell的可疑度较高。

(13)请求URL目录的长度。

一般Webshell为了隐藏不被发现，URL的目录长度都比较长。

(14)请求参数是登录型Webshell的个数。

登录型的Webshell请求参数中会存在callback、keyWord、type、action、Webshell，还会存在类似于“_＝1388633366066”这种时间戳参数。一般情况下，Webshell不会使用数字作为自己的登录密码，所以登录型请求参数值中同时存在时间戳和数字时，可以认为是正常业务。

(15)涉及敏感文件读取的数目。

Linux下的敏感文件读取：在Linux系统中重要的配置文件一般会放置在etc目录下，与当前程序运行相关的信息放置在proc目录下。攻击者一般会通过Webshell读取etc目录和proc目录下的文件。

Windows下的敏感文件读取：由于IIS服务器只能运行在Windows环境下，当攻击者的Webshell是在IIS Web服务器环境下，攻击者一般通过读取win.ini文件来判断自己是否具有了读取系统文件的权限，从而基于判断到的权限进一步读取系统其他文件。例如：读取Windows\System32\drivers\etc下的host文件等。读取Windows服务器上面的敏感文件主要包括读取不同盘符下的文件，如C盘、D盘、E盘下的文件。通常情况下，一般是读取C盘下的系统配置文件，如C盘的windows目录下的win.ini文件。

(16)涉及目录穿越的数目。

由于Webshell文件一般是在网站目录中，所以攻击者为了读取到网站配置文件或者是系统敏感文件一般都需要进行目录穿越，他们会利用类似于“../../”的目录穿越方式读取其他目录文件。

(17)涉及Webshell的命令执行数目。

命令执行类的Webshell的参数名固定为几个参数名，包括shell、command、cmd、action。

(18)请求参数名/值的最大长度和均值。

考虑到Webshell有时会进行文件传输的工作导致请求参数过长，同时一句话的Webshell由于需要封装整个PHP代码也是非常长，因此设定了此特征。

(19)Accept-Language和Accept的最大长度和均值。

攻击者为了避免服务器无法解析上传脚本，请求头会设置较多的接受类型和语言类型，因此Webshell的Accept-Language和Accept比较长。

4、划分已标记数据集和未标记数据集。

如果针对一个会话提取出的特征中含Webshell恶意特征，就可以认为相应的会话特征有携带：Webshell恶意标签，后续直接添加相应标签，从而这些会话特征可构成已标记数据集。而如果针对一个会话提取出的特征中不含Webshell恶意特征，那么暂时无法判别该会话特征是否含Webshell，因此这些会话特征构成未标记数据集。

5、针对步骤4中未标记数据集，利用主动学习算法从中选择出部分未标记数据进行人工标记，剩余未被选择的作为测试集。本步骤基于不确定采样策略中的Margin算法来选择学习难度较大的样本进行人工标记。

6、采用人工的方式，让领域专家对步骤5筛选的未标记数据进行标记。

7、将步骤4的已标记数据和步骤6人工标记的数据进行合并，得到初级训练集，利用Stacking技术和初级训练集训练几个初级分类器(即初级检测模型)，所有初级分类器训练好之后，利用初级分类器针对初级训练集的处理结果作为新的训练集，而后训练一个次级分类器(即次级检测模型)，最后，训练好的几个初级分类器和一个次级分类器组建为Webshell检测模型。

其中，初级学习算法可采用逻辑回归、随机森林、GBDT、Xgboost等。次级学习采用逻辑回归。

8、利用步骤5中的测试集判断步骤7得到的Webshell检测模型的精度是否达标，如果未达标且标记代价可以接受，则往初级训练集中补充一些新的人工标记数据，然后重复7，否则进入步骤9。

9、输出最终训练的Webshell检测模型。

可见，本实施例所准备的训练集包括诸多可区分Webshell的明文特征及密文特征、且人工标记了学习难度较大的样本，同时利用Stacking来进行模型的训练和融合，从而使最终得到的Webshell检测模型的检测能力强、准确度高。

下面对本申请实施例提供的一种模型训练装置进行介绍，下文描述的一种模型训练装置与上文描述的一种模型训练方法可以相互参照。

参见图6所示，本申请实施例公开了一种模型训练装置，包括：

初级训练模块601，用于获取初级训练集，并利用初级训练集训练得到至少两个初级检测模型；初级训练集包括多个会话特征；

次级训练模块602，用于将初级训练集中的每个会话特征输入至少两个初级检测模型，以使每个初级检测模型针对同一会话特征输出至少两个初级检测结果；拼接同一会话特征的至少两个初级检测结果，得到该会话特征对应的拼接结果；利用所有会话特征对应的拼接结果构建次级训练集，并利用次级训练集训练得到次级检测模型；

组建模块603，用于将至少两个初级检测模型和次级检测模型组建为目标检测模型。

在一种实施方式中，初级训练模块包括初级训练集构建单元。

其中，初级训练集构建单元具体用于：

获取内网设备和/或外网设备访问内网主机的Web流量；

对Web流量进行预处理；

将预处理后的Web流量中未成功执行Webshell攻击的流量滤除，并基于内网设备和/ 或外网设备的访问标识将剩余流量按照不同会话进行划分；

提取每个会话中相应流量的特征，得到每个会话的会话特征；

为各会话特征添加是否包括Webshell的标签后，用携带是否包括Webshell的标签的各会话特征组建初级训练集。

在一种实施方式中，初级训练集构建单元具体用于：

将Web流量中的URL解码为可解析字符。

在一种实施方式中，未成功执行Webshell攻击的流量具备以下任一项特征或组合：响应状态码非200、文件扩展名非恶意、URL参数名为空、请求体格式非恶意、响应体格式非恶意、响应体为空。

在一种实施方式中，初级训练集构建单元具体用于：

从每个会话的相应流量中提取页面访问特征、敏感信息访问特征、URL特征和/或恶意特征；

将提取到的页面访问特征、敏感信息访问特征、URL特征和/或恶意特征拼接为相应会话的会话特征。

在一种实施方式中，初级训练集构建单元具体用于：

在各会话特征中选择具备不确定性的会话特征；

为所选择的会话特征添加是否包括Webshell的标签。

其中，关于本实施例中各个模块、单元更加具体的工作过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

可见，本实施例提供了一种模型训练装置，能够提高模型检测准确性和效率。

下面对本申请实施例提供的另一种模型训练装置进行介绍，下文描述的另一种模型训练装置与上文描述的另一种模型训练方法可以相互参照。

参见图7所示，本申请实施例公开了另一种模型训练装置，包括：

特征集构建模块701，用于构建会话特征集，会话特征集中的每个会话特征包括：页面访问特征、敏感信息访问特征、URL特征和/或恶意特征；

训练模块702，用于利用会话特征集对初始人工智能模型进行训练，得到安全检测模型。

在一种实施方式中，训练模块具体用于：

利用会话特征集训练得到至少两个初级检测模型；

拼接至少两个初级检测模型针对会话特征集中同一会话特征输出的至少两个初级检测结果，得到相应会话特征对应的拼接结果；

利用所有会话特征对应的拼接结果构建拼接结果集，并利用拼接结果集训练得到次级检测模型；

将至少两个初级检测模型和次级检测模型组建为安全检测模型。

在一种实施方式中，训练模块具体用于：

在会话特征集中选择困难样本；

利用困难样本对初始人工智能模型进行训练。

下面对本申请实施例提供的一种安全检测装置进行介绍，下文描述的一种安全检测装置与上文描述的一种安全检测方法可以相互参照。

参见图8所示，本申请实施例公开了一种安全检测装置，包括：

流量获取模块801，用于获取访问目标主机的待检测流量；

特征提取模块802，用于从待检测流量中提取会话特征，会话特征包括：敏感信息访问特征、URL特征和/或恶意特征；

安全检测模块803，用于根据会话特征对待检测流量进行安全检测。

在一种实施方式中，安全检测模块具体用于：

将会话特征输入预先训练好的人工智能模型，以使人工智能模型输出待检测流量的安全检测结果。

在一种实施方式中，人工智能模型包括：至少两个初级检测模型和次级检测模型；

相应地，安全检测模块具体用于：

将会话特征输入至少两个初级检测模型，以使至少两个初级检测模型输出会话特征的至少两个初级检测结果；

拼接至少两个初级检测结果，得到会话特征对应的拼接结果；

将拼接结果输入次级检测模型，以使次级检测模型输出待检测流量的安全检测结果。

在一种实施方式中，特征提取模块具体用于：

将待检测流量中未成功执行攻击的流量滤除，并基于源端访问标识将剩余流量按照不同会话进行划分；

在一种实施方式中，特征提取模块具体用于：

在一种实施方式中，页面访问特征包括以下任一项或组合：页面出度、页面入度、跨页面的访问链长度、页面的静态资源个数、页面的源IP及信息熵、页面的user-agent总个数及信息熵、页面的请求参数的均值及方差、页面的请求参数值的均值及方差、页面的GET请求占比、页面的POST请求占比、页面的恶意user-agent的个数、页面的文件名是否包含shell字符串、页面的文件名是否有意义；

敏感信息访问特征包括以下任一项或组合：敏感文件的访问数目、目录穿越的数目；

URL特征包括以下任一项或组合：恶意请求参数的个数、恶意请求值的个数、URL目录长度、登录型Webshell请求参数的个数、命令执行类的Webshell参数名的个数、请求参数的长度及均值、请求参数值的长度及均值、请求头中可接受语言类型的长度及均值、请求头中可接受脚本类型的长度及均值；

恶意特征包括：恶意密文的个数。

在一种实施方式中，未成功执行攻击的流量具备以下任一项特征或组合：响应状态码非200、文件扩展名非恶意、URL参数名为空、请求体格式非恶意、响应体格式非恶意、响应体为空。

可见，本实施例提供了一种安全检测装置，能够提高安全检测准确性和效率。

下面对本申请实施例提供的一种电子设备进行介绍，下文描述的一种电子设备与上述实施例可以相互参照。

参见图9所示，本申请实施例公开了一种电子设备，包括：

存储器901，用于保存计算机程序；

处理器902，用于执行所述计算机程序，以实现上述任意实施例公开的方法。

请参考图10，图10为本实施例提供的另一种电子设备示意图，该电子设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units， CPU)322(例如，一个或一个以上处理器)和存储器332，一个或一个以上存储应用程序 342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中，存储器332 和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地，中央处理器322可以设置为与存储介质330通信，在电子设备301上执行存储介质330中的一系列指令操作。

电子设备301还可以包括一个或一个以上电源326，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口358，和/或，一个或一个以上操作系统341。例如，Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等。

在图10中，应用程序342可以是执行上述任意实施例公开的方法的程序，数据344可以是执行上述任意实施例公开的方法所需的或产生的数据。

上文所描述的上述任意实施例公开的方法中的步骤可以由电子设备的结构实现。

下面对本申请实施例提供的一种可读存储介质进行介绍，下文描述的一种可读存储介质与上述任意实施例可以相互参照。

一种可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述任意实施例公开的方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容，在此不再进行赘述。

本申请涉及的“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法或设备固有的其它步骤或单元。

需要说明的是，在本申请中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、 CD-ROM、或技术领域内所公知的任意其它形式的可读存储介质中。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种模型训练方法，其特征在于，包括：

2.一种模型训练方法，其特征在于，包括：

3.根据权利要求2所述的方法，其特征在于，所述利用所述会话特征集对初始人工智能模型进行训练，得到安全检测模型，包括：

利用所述会话特征集训练得到至少两个初级检测模型；

4.根据权利要求2所述的方法，其特征在于，所述利用所述会话特征集对初始人工智能模型进行训练，包括：

在所述会话特征集中选择困难样本；

利用所述困难样本对初始人工智能模型进行训练。

5.一种安全检测方法，其特征在于，包括：

获取访问目标主机的待检测流量；

根据所述会话特征对所述待检测流量进行安全检测。

6.根据权利要求5所述的方法，其特征在于，所述根据所述会话特征对所述待检测流量进行安全检测，包括：

7.根据权利要求6所述的安全检测方法，其特征在于，

所述人工智能模型包括：至少两个初级检测模型和次级检测模型；

8.一种安全检测装置，其特征在于，包括：

流量获取模块，用于获取访问目标主机的待检测流量；

9.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，以实现如权利要求1至7任一项所述的方法。

10.一种可读存储介质，其特征在于，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。