CN112738109A

CN112738109A - 一种Web攻击的检测方法及装置

Info

Publication number: CN112738109A
Application number: CN202011611866.8A
Authority: CN
Inventors: 谭天
Original assignee: Hangzhou DPTech Technologies Co Ltd
Current assignee: Hangzhou DPTech Technologies Co Ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-04-30

Abstract

本申请公开了一种Web攻击的检测方法及装置，所述方法包括：针对待检测的Web访问请求，确定所述Web访问请求所属的会话；获取所述Web访问请求所属会话的会话日志；基于所述会话日志，提取所述Web访问请求所属会话在若干维度下的会话特征；将所述若干维度下的会话特征作为入参输入已训练的检测模型；根据所述检测模型的输出结果判断所述Web访问请求是否为Web攻击。本申请方案，基于机器学习方式，使用已训练的检测模型判断是否存在Web攻击，无需存储用于匹配的大量特征，不需要人工配置和维护检测策略和特征库；作为入参的会话特征，综合了访问请求自身的信息以及所属会话中其他相关访问请求的信息，能够更准确地对攻击行为进行检测。

Description

一种Web攻击的检测方法及装置

技术领域

本申请涉及计算机技术领域，特别是一种Web攻击的检测方法及装置。

背景技术

随着计算机技术不断发展，各类网络产品层出不穷，未来社会呈现出“万物互联”的趋势，Web应用以其便捷、易于操作的优点大行其道，越来越广泛地参与到网络用户社会生活的方方面面。

不过与此同时，针对Web站点的攻击行为也与日俱增。传统WAF(Web ApplicationFirewall，Web应用防火墙)通过特征匹配检测异常流量或异常URL的方式已不再适用，其所存储的特征-规则库占用了大量资源，且必须由人工配置维护，效率低。

发明内容

本申请提供一种Web攻击的检测方法及装置。

根据本申请实施例的第一方面，提供一种Web攻击的检测方法，包括：

针对待检测的Web访问请求，确定所述Web访问请求所属的会话；

获取所述Web访问请求所属会话的会话日志；

基于所述会话日志，提取所述Web访问请求所属会话在若干维度下的会话特征；

将所述若干维度下的会话特征作为入参输入已训练的检测模型；

根据所述检测模型的输出结果判断所述Web访问请求是否为Web攻击。

根据本申请实施例的第二方面，提供一种Web攻击的检测装置，包括确定单元、获取单元、提取单元、输入单元和判断单元：

其中，确定单元，用于针对待检测的Web访问请求，确定所述Web访问请求所属的会话；

获取单元，用于获取所述Web访问请求所属会话的会话日志；

提取单元，用于基于所述会话日志，提取所述Web访问请求所属会话在若干维度下的会话特征；

输入单元，用于将所述若干维度下的会话特征作为入参输入已训练的检测模型；

判断单元，用于根据所述检测模型的输出结果判断所述Web访问请求是否为Web攻击。

本申请所提供的技术方案，针对待检测的Web访问请求，确定其所属的会话并获取其所属会话的会话日志，然后提取其所属会话的会话特征，作为入参输入已训练的Web攻击检测模型，以判断本次Web访问请求是否为攻击行为。

基于机器学习方式，使用已训练的检测模型判断是否存在Web攻击，无需存储用于匹配的大量特征，不需要人工配置和维护检测策略和特征库；同时，作为入参的会话特征，综合了访问请求自身的信息，以及所属会话中其他相关访问请求的信息，相较于仅以单次访问请求自身的信息检测是否存在Web攻击，能够更准确地对攻击行为进行检测。

附图说明

图1为本申请所提供的一种Web攻击的检测方法；

图2为本申请实施例中确定Web访问请求所属的会话的方法流程图；

图3为本申请实施例中提取Web访问请求所属会话在若干维度下的会话特征的方法流程图；

图4为本申请实施例中训练检测模型的方法流程图；

图5为本申请所提供的一种Web攻击的检测装置所在网络设备的硬件结构图；

图6为本申请所提供的一种Web攻击的检测装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

Web(World Wide Web，全球广域网或万维网)，是一种主要以HTTP(HypertextTransfer Protocol，超文本传输协议)形式呈现的网络服务。用户可利用PC等个人终端与提供服务的Web应用服务器进行交互以得到相应的服务。

Web应用以其操作便捷、内容丰富的优点，得到了广泛使用，但相应地，Web攻击的种类和数量也随之增多。常见的Web攻击包括，XSS攻击(Cross-Site Scripting Attack，跨站脚本攻击)、SQL注入(Structure Query Language Inject)、DDos攻击(DistributedDenial of Service Attack，分布式拒绝服务攻击)等。

目前，相关技术中，采用特征匹配的方法，对异常流量或异常URL进行检测，以分辨Web访问中的攻击行为。不过该方案所存储的特征库或规则集占用了大量资源，必须人工配置维护，效率低，对于一些伪装成正常行为的恶意访问的检测准确度也不高。

本申请提出一种Web攻击的检测方法，所述方法应用于任一执行Web攻击检测的Web应用服务器、WAF或其他终端设备等，若执行Web攻击检测的为Web应用服务器，它的检测对象可以为自身收到的Web访问请求；若执行Web攻击检测的为WAF，它的检测对象可以为若干个特定Web应用服务器所收到的Web访问请求，如图1所示，该方法具体包括：

步骤102，针对待检测的Web访问请求，确定所述Web访问请求所属的会话。

所述Web访问请求，即用户对Web应用做出的访问请求，例如，向Web应用服务器发送一个HTTP请求报文等。

所述待检测的Web访问请求，在一种可能的情况下，包括Web应用服务器或WAF按预设周期，对该周期内收到的所有Web访问请求进行Web攻击的事后检测和分析，例如，Web应用服务器每24小时对当前周期收到的所有Web访问请求进行检查和分析。

所述待检测的Web访问请求，在另一种可能的情况下，包括Web应用服务器或WAF，对当前接收到的一次Web访问请求进行Web攻击的实时监测。

所述会话Session是服务器用于记录用户状态的机制，在用户首次向Web应用服务器发起Web访问请求时，该Web应用服务器会为该用户生成与其对应的会话，会话中所存储的内容相当于Web应用服务器所存储的用户信息档案，包括登录名和密码等，在一些特定场景下，会话中所存储的内容还包括用户的个人数据，例如，在向购物Web发出访问请求时，会话中还记录有用户的购物车数据等。

针对待检测的Web访问请求，通过其请求报文的相关内容，或通过Web应用服务器上所保存的该Web访问请求的访问日志，能够确定其所属的会话。

步骤104，获取所述Web访问请求所属会话的会话日志。

针对来自不同用户的各个Web访问请求，Web应用服务器会生成并保存相应的访问日志，以供管理员掌握Web应用访问及响应的情况。

所述访问日志中，可以包括收到的各Web访问请求中所携带的信息，例如，Web访问请求的IP地址、端口号，会话ID等；还可以包括对Web访问请求做出的响应信息，例如，Web应用服务器对Web访问请求响应的状态码等。

基于步骤102确定Web访问请求所属的会话后，获取该会话的会话日志；所述会话的会话日志，应当包括所述Web访问请求的访问日志，以及与所述Web访问请求属于同一会话的若干Web访问请求的访问日志。

步骤106，基于所述会话日志，提取所述Web访问请求所属会话在若干维度下的会话特征。

基于所述会话日志，即根据所述Web访问请求及其所属会话下的其他Web访问请求的访问日志，提取出所述Web访问请求所属会话在若干维度下的会话特征。所述若干维度下的会话特征，综合了本次访问请求自身的信息和所属会话下与其相关联的其他Web访问请求的信息，更全面地提供用以判断所述Web访问请求是否为Web攻击的特征参数。

步骤108，将所述若干维度下的会话特征作为入参输入已训练的检测模型。

将基于步骤104提取得到的所述Web访问请求所属会话在若干维度下的会话特征，作为输入参数，输入已训练的检测模型中，以利用所述已训练的检测模型判断所述Web访问请求是否为Web攻击。

本申请方案中所述的检测模型，可以是有监督模型，包括但不限于使用SVM(支持向量机)、神经网络的有监督模型；也可以是无监督模型，包括但不限于使用IsolationForest(孤立点检测算法)的无监督模型；本申请对具体使用何种算法、何种模型不做限制。

步骤110，根据所述检测模型的输出结果判断所述访问请求是否为Web攻击。

所述已训练的检测模型得到入参后，能够判断本次访问请求是否为Web攻击；使用不同的检测模型，具体的判断方式不同。以使用SVM模型为例，其于已训练的模型中构建超平面，根据输入参数对于超平面的相对位置，输出本次Web访问请求为Web攻击的概率，以确定其是否为Web攻击行为；以使用Isolation Forest模型为例，其于已训练的检测模型中构建多棵二叉树，综合输入参数在多棵二叉树中的路径长度，得到一次访问请求的评分，与阈值比较以确定其是否为Web攻击行为；其他模型的检测方式此处不再赘述。

基于机器学习方式，使用已训练的检测模型判断是否存在Web攻击，无需存储用于匹配的大量特征，不需要人工配置和维护检测策略和特征库；同时，作为入参的会话特征，整合了访问请求自身的信息，以及所属会话中其他相关访问请求的信息，相较于仅以单次访问请求自身的信息检测是否存在Web攻击，能够更准确地对攻击行为进行检测。

为了使本领域技术人员更好地理解本申请中的技术方案，接下来结合附图，对图1所示的方法作进一步的详细说明，后续描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。

在一种可选择的方式下，步骤102，确定Web访问请求所属的会话，如图2所示，具体包括：

步骤1022，获取所述Web访问请求的访问日志。

针对待检测的Web访问请求，于Web应用服务器中获取其访问日志。

步骤1024，基于所述访问日志，确定所述Web访问请求的会话标识。

在Web应用服务器为首次发出Web访问请求的用户生成会话(Session)的同时，将为该会话设置会话ID(Session ID)，以使各个会话可以彼此区分开来。

在步骤1022所获取的Web访问请求的访问日志中，能够获取所述Web访问请求的会话ID，基于此会话ID可以确定所述Web访问请求所属的会话。

相应地，步骤104，获取Web访问请求所属会话的会话日志，即获取与所述Web访问请求的会话标识相同的若干Web访问请求的访问日志；将所述Web访问请求的访问日志，以及所述会话标识相同的若干Web访问请求的访问日志，作为所述会话日志。

在一种可选择的方式下，步骤106，提取Web访问请求所属会话在若干维度下的会话特征，如图3所示，具体包括：

步骤1062，根据所述Web访问请求的访问日志，以及所述会话标识相同的若干Web访问请求的访问日志，提取所述会话中各Web访问请求在若干维度下的请求特征。

所述请求特征用以反映一次Web访问请求自身的信息。

根据预设的若干维度，从各Web访问请求的访问日志中，能够提取得到各Web访问请求在预设的若干维度下的请求特征。从各访问日志中提取若干维度的请求特征的方式，包括但不限于使用类似于Apache Tomcat的日志过滤器，设置过滤规则以提取预设维度的请求特征。

所述请求特征，包括以下特征参数中的一或多种：

1、Web访问请求的IP地址和端口号。

反映了发起所述Web访问请求的用户终端的网络层特征，在某些情况下，还可以包括发起所述Web访问请求的用户终端的MAC地址，以反映其链路层特征。

2、Web访问请求的会话ID。

基于上文所述，通过Web访问请求的会话ID，服务器能够追踪到该用户终端首次访问时所登记的信息。

3、Web访问请求的Cookie。

在Web应用服务器为用户生成对应会话并设置会话ID后，会将该会话ID通过预设的加密算法加密，生成与之对应的Cookie，返回给所述用户。

Cookie将保存在用户的终端本地，后续该用户再次与Web应用服务器交互时，所述Cookie将随HTTP请求报文一同发送至服务器；Web应用服务器对Cookie解密后，可以校验其会话ID以确认是否为用户本人。

4、Web访问请求的发起时间。

用户于何时发起此次Web访问请求，通常可以准确到毫秒级。

5、Web访问请求的请求行内容。

一次Web访问请求的HTTP报文中，首行数据即该HTTP报文的请求行。所述请求行的内容中包括请求方法字段、URL字段和HTTP协议版本字段。

6、Web访问请求的总字节数。

一次Web访问请求向Web应用服务器所发送的HTTP报文的总字节数。

7、对所述Web访问请求响应的状态码。

Web应用服务器在收到Web访问请求后，会向发起所述访问请求的用户回复响应报文，该响应报文中包含响应本次访问请求的状态码，所述响应的状态码及其所表征的状态如下表1所示。

状态码	表征状态
		100至199	访问请求已接收，正在处理
200至299	访问请求已接收，且成功理解或处理
		300至399	重定向，需要用户进一步操作
400至499	用户访问请求有误
		500至599	服务器出现错误

表1

常见的响应状态码包括，200成功接收并处理完毕，303重定向到其他页面，404请求资源已删除，500服务器故障等。

8、对所述Web访问请求的响应时长。

从Web应用服务器收到本次Web访问请求的报文起，到发出回复该访问请求的响应报文的耗时，通常可以准确到毫秒级。

上述请求特征，仅是能够从访问日志中提取并用于攻击检测的参数中的一部分，以进行示例说明，不对本申请构成限制，其他可以应用于本申请所述Web攻击检测方案的请求特征，应当也在本申请保护的范围内。

步骤1064，根据所述各Web访问请求在若干维度下的请求特征，提取所述会话在若干维度下的会话特征。

利用步骤1062所获取的各Web访问请求在若干维度下的请求特征，提取对应所属会话在若干维度下的会话特征；所述若干维度下的会话特征，综合了本次访问请求自身的信息以及其所属会话下的其他Web访问请求的信息，包括以下特征参数中的一种或多种：

1、所述Web访问请求所属会话中的访问请求总数量。

记录一个会话中的Web访问请求总数量。

在一般情况下，正常用户对Web应用的访问请求总数量处在一定数值范围内，而攻击者使用攻击程序对Web应用的访问请求总数量则远远高于正常值。利用所述Web访问请求所属会话中的访问请求总数量作为会话特征，有效判断所述Web访问请求是否为攻击行为。

2、所述Web访问请求所属会话中两次相邻访问请求之间的最大时间间隔。

3、所述Web访问请求所属会话中两次相邻访问请求之间的最小时间间隔。

获取本次访问请求所属会话中相邻的上一次访问请求的访问日志，能够得到该会话中上一次访问请求的发起时间，与本次访问请求的发起时间做差值运算，能够得到所属会话中，本次访问请求距上次访问请求发起时间的时间间隔，假设其为VT。

根据所述访问请求所属会话的会话日志，能够得到该会话中当前两次相邻访问请求之间的最大时间间隔和最小时间间隔，假设分别为VTmax和VTmin。

将所述本次与上次访问请求的时间间隔VT，与该会话中当前的历史最大时间间隔VTmax和最小时间间隔VTmin，进行比较。

若所述VT>VTmax，更新VT作为本次访问请求所属会话中的两次相邻访问请求之间的最大时间间隔；

若所述VT<VTmin，更新VT作为本次访问请求所属会话中的两次相邻访问请求之间的最小时间间隔；

若所述VTmax>VT>VTmin，沿用VTmax和VTmin分别作为本次访问请求所属会话中的两次相邻访问请求之间的最大、最小时间间隔。

记录一个会话中前后两次相邻访问请求之间的最大和最小时间间隔，通常可以精确到毫秒级。

正常用户人工执行访问操作，和攻击者使用攻击程序对Web应用进行访问，在访问时间间隔上具有差异。利用所述Web访问请求所属会话中两次相邻访问请求之间的最大、最小时间间隔作为会话特征，有效判断所述Web访问请求是否为攻击行为。

4、所述Web访问请求所属会话中访问请求响应时长的最大值。

5、所述Web访问请求所属会话中访问请求响应时长的最小值。

从Web应用服务器收到本次访问请求起，到向发起所述访问请求的用户回复响应报文止，二者的时间间隔，即本次访问请求的响应时长，假设其为RT。

根据所述访问请求所属会话的会话日志，能够得到该会话中当前访问请求响应时长的最大值和最小值，假设分别为RTmax和RTmin。

将所述本次访问请求的响应时长RT，与该会话中当前历史响应时长的最大值RTmax和最小值RTmin，进行比较。

若所述RT>RTmax，更新RT作为本次访问请求所属会话中的响应时长最大值；

若所述RT<RTmin，更新RT作为本次访问请求所属会话中的响应时长最小值；

若所述RTmax>RT>RTmin，沿用RTmax和RTmin分别作为本次访问请求所属会话中的响应时长最大值和最小值。

记录一个会话中访问请求响应时长的最大值和最小值，通常可以精确到毫秒级。利用访问请求的响应时长作为会话特征参数，分析是否存在攻击者拦截和替换原始数据包的行为。

6、所述Web访问请求所属会话中响应成功的访问请求数量，占访问请求总数量的比率。

当Web应用服务器回复收到的访问请求时，其响应报文中包含上述响应的状态码，若所述响应的状态码为“200”，意味着所述访问请求已成功接收和处理完毕，记录同一会话中响应码为“200”的访问请求次数，计算其与该会话中的总访问请求次数间的比率，作为一个会话特征。所述响应状态码为“200”仅是判定访问请求响应成功的方法之一，本申请对比不做具体限制。

一个访问请求所属会话中，响应成功的访问请求次数占总访问请求次数的比率越高，相应地，该访问请求为Web攻击的可能性越小。

7所述Web访问请求所属会话中Cookie与会话ID相匹配的访问请求数量，占访问请求总数量的比率。

于访问请求的访问日志中，能够获取该访问请求的会话ID和Cookie，对Cookie进行解密能够得到其对应的会话ID，记录同一会话中Cookie与会话ID相匹配的访问请求数量，计算其与该会话中的访问请求总数量间的比率，作为一个会话特征。

一个访问请求所属会话中，用户Cookie与会话ID相匹配的访问请求次数占总访问请求次数的比率越高，相应地，该访问请求为Web攻击的可能性越小。

上述会话特征，仅是利用本申请上述请求特征所能提取得到的参数中的一部分，以进行示例说明，不对本申请构成限制，其他可以应用于本申请所述Web攻击检测方案的会话特征，应当也在本申请保护的范围内。

进一步地，考虑到上述若干维度下的会话特征彼此间数值差异可能较大，本申请方案还可以包括对所述若干维度下的会话特征执行归一化操作，以降低发生过拟合的可能性，提高检测准确性。

基于图3所示的方法，对Web访问请求所属会话在若干维度下的会话特征的提取进行说明。

假设，Web应用服务器首次收到某一用户的Web访问请求，为其生成对应的会话，并设置会话ID为01，获取此Web访问请求的访问日志，并利用日志过滤工具，从中提取了若干维度下的请求特征，如下表2所示，表2中各参数值仅用以示例说明。

表2

本次Web访问请求所属会话下仅有此首次访问请求，所述Web访问请求所属会话在若干维度下的会话特征，如下表3所示。

总访问请求次数	1
		访问请求间的最大时间间隔	预设初始值1
访问请求间的最小时间间隔	预设初始值2
		响应时长最大值	1.532
响应时长最小值	1.532
		响应成功的比率	100％
Cookie与会话ID匹配的比率	100％

表3

一段时间后，Web应用服务器再次收到Web访问请求，获取其访问日志，确定其会话ID：01，会话ID为01的会话下有两次访问请求，获取该会话的会话日志，提取得到如表2所示的上一次访问请求的请求特征，以及如表4所示的本次访问请求的请求特征。

会话ID	01
		Cookie(以解密后的值显示)	02
发起时间	2020/12/20/15:52:36.098
		响应时长	2.777
响应状态码	404

表4

基于表2和表4所示的信息，对应提取本次Web访问请求所属会话的会话特征，如下表5所示。

表5

利用表4和表2中访问发起时间的差值，提取会话特征：访问请求间的最大和最小时间间隔；

利用表4中的响应时长2.777和表2中的响应时长1.532，提取会话特征：响应时长最大值和最小值；

计算会话中响应成功的访问请求次数的比率，以及Cookie与会话ID相匹配的访问请求次数比率，对应提取会话特征：响应成功的比率，以及Cookie与会话ID匹配的比率。

当第三次收到会话ID为01的Web访问请求时，所述请求特征及会话特征的提取方式，与上述相同，可类推得到，此处不再赘述。

下面，对本申请上述用于Web攻击检测的检测模型的训练过程进行说明。

在本申请实施例中，进行检测模型的训练前，应先选择原始检测模型，所述原始检测模型可以选用有监督模型，也可以选用无监督模型，本申请对此不做具体限制。

下文以使用SVM算法的有监督模型为例进行说明。于二分类场景下采用SVM算法效果显著，且考虑到大部分Web站点所要维持的访问请求样本空间均属轻量级，若使用深度学习算法反而会增加方案复杂度、造成资源浪费的问题。

图4所示，为本申请方案中所述检测模型训练的方法流程图，包括：

步骤402，针对标记有检测结果的Web访问请求样本，确定所述Web访问请求样本所属的会话。

步骤404，获取所述Web访问请求样本所属会话的会话日志。

在本申请方案中，可以使用无异常的历史Web访问请求作为正常样本，可以使用Apache JMeter等测试工具模拟攻击行为所进行的Web访问请求作为攻击样本，相应地，分别标记“正常”和“攻击”的检测结果。

该方法仅是获取标记有检测结果的Web访问请求样本的方法之一，本申请对于获取标记有检测结果的Web访问请求样本的具体方法不做限定。

针对所述Web访问请求样本，确定其所属的会话，并获取所属会话的会话日志，即获取与所述Web访问请求样本属于同一会话的其他样本。

步骤406，基于所述会话日志，提取所述Web访问请求样本所属会话在若干维度下的会话特征。

基于上述所属会话的会话日志，提取各样本对应的所属会话在预设若干维度下的会话特征。所述若干维度下的会话特征的提取方法同前文所述，此处不再赘述。

步骤408，根据所述Web访问请求样本所属会话在若干维度下的会话特征，对原始检测模型进行训练，得到已训练的检测模型。

基于Web访问请求样本所标记的“正常”和“攻击”标签，以及所提取各样本所属会话的会话特征，对原始检测模型进行训练，以SVM模型为例，将会构建一个能够分隔“正常”Web访问请求，和“攻击”Web访问请求的超平面。

进一步地，本申请方案还包括，在满足模型更新要求时，获取本次模型更新使用的标记有检测结果的Web访问请求样本；根据所述本次模型更新使用的标记有检测结果的Web访问请求样本，对所述原始检测模型进行重新训练，以更新所述已训练的检测模型。

所述满足模型更新要求，在一个例子中，可以是Web应用服务器按照预设周期，获取模型更新所使用的标记有检测结果的Web访问请求样本；例如，每一周，更新Web访问请求样本，并对原始检测模型进行重新训练。

在另一个例子中，可以是Web应用服务器判断访问请求次数是否超过预设阈值，以确定是否获取模型更新所使用的Web访问请求样本；例如，预设访问次数阈值为10000次，在访问请求达到10000次时，更新Web访问请求样本，并对原始检测模型进行重新训练。

所述本次模型更新使用的标记有检测结果的Web访问请求样本，在一个例子中，原有样本数量为1000，将实际应用中检测的500次访问请求及其检测结果，加入原有样本，得到本次模型更新所用的Web访问请求样本，此样本数量为1500。

在另一个例子中，原有样本数量为1000，利用实际应用中检测的500次访问请求及其检测结果，替换原有样本中访问发起时间更早的500次访问请求，得到本次模型更新所用的Web访问请求样本，此样本数量为1000。

上述方案，通过实际应用中检测的Web访问请求及其检测结果，对原有访问请求样本进行增加或迭代，对原始检测模型进行重新训练，降低人工参与度，提高检测模型的准确性。

与前述Web攻击检测的方法实施例相对应，本申请还提供了Web攻击检测的装置实施例。

本申请所提供的Web攻击检测的装置实施例，可以应用在任一执行Web攻击检测的网络设备上。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在网络设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图5所示，为本申请服务器健康状态的监测装置所在网络设备的一种硬件结构图，除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的网络设备通常根据其实际功能，还可以包括其他硬件，对此不再赘述。

参见图6，为本申请实施例所提供的一种Web攻击的检测装置的框图，该检测装置包括确定单元610、获取单元620、提取单元630、输入单元640和判断单元650。

其中，确定单元610，用于针对待检测的Web访问请求，确定所述Web访问请求所属的会话；

获取单元620，用于获取所述Web访问请求所属会话的会话日志；

提取单元630，用于基于所述会话日志，提取所述Web访问请求所属会话在若干维度下的会话特征；

输入单元640，用于将所述若干维度下的会话特征作为入参输入已训练的检测模型；

判断单元650，用于根据所述检测模型的输出结果判断所述Web访问请求是否为Web攻击。

可选择地，所述检测模型的训练过程，包括：

针对标记有检测结果的Web访问请求样本，确定所述Web访问请求样本所属的会话；

获取所述Web访问请求样本所属会话的会话日志；

基于所述会话日志，提取所述Web访问请求样本所属会话在若干维度下的会话特征；

根据所述Web访问请求样本所属会话在若干维度下的会话特征，对原始检测模型进行训练，得到所述已训练的检测模型。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本说明书中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种Web攻击的检测方法，其特征在于，所述方法包括：

获取所述Web访问请求所属会话的会话日志；

2.根据权利要求1所述的方法，其特征在于，所述确定Web访问请求所属的会话，包括：

获取所述Web访问请求的访问日志；

基于所述访问日志，确定所述Web访问请求的会话标识；

所述获取所述Web访问请求所属会话的会话日志，包括：

获取与所述Web访问请求的会话标识相同的若干Web访问请求的访问日志；

将所述Web访问请求的访问日志，以及所述会话标识相同的若干Web访问请求的访问日志，作为所述会话日志。

3.根据权利要求2所述的方法，其特征在于，所述基于所述会话日志，提取所述Web访问请求所属会话在若干维度下的会话特征，包括：

根据所述Web访问请求的访问日志，以及所述会话标识相同的若干Web访问请求的访问日志，提取所述会话中各Web访问请求在若干维度下的请求特征；

根据所述各Web访问请求在若干维度下的请求特征，提取所述会话在若干维度下的会话特征。

4.根据权利要求3所述的方法，其特征在于，所述Web访问请求在若干维度下的请求特征，包括以下一种或多种：

所述Web访问请求的IP地址、端口号、会话ID、Cookie、发起时间、总字节数和请求行的内容；

对所述Web访问请求的响应时长和响应状态码。

5.根据权利要求1所述的方法，其特征在于，所述Web访问请求所属会话在若干维度下的会话特征，包括以下一种或多种：

所述Web访问请求所属会话中的访问请求总数量；

所述Web访问请求所属会话中两次相邻访问请求之间的最大时间间隔、最小时间间隔；

所述Web访问请求所属会话中访问请求响应时长的最大值、最小值；

所述Web访问请求所属会话中响应成功的访问请求数量占访问请求总数量的比率；

所述Web访问请求所属会话中Cookie与会话ID相匹配的访问请求数量占访问请求总数量的比率。

6.根据权利要求1所述的方法，其特征在于，所述检测模型的训练过程，包括：

获取所述Web访问请求样本所属会话的会话日志；

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

在满足模型更新要求时，获取本次模型更新使用的标记有检测结果的Web访问请求样本；

根据所述本次模型更新使用的标记有检测结果的Web访问请求样本，对所述原始检测模型进行重新训练，以更新所述已训练的检测模型。

8.根据权利要求1所述的方法，其特征在于，所述检测模型为使用SVM算法的有监督模型。

9.一种Web攻击的检测装置，其特征在于，所述装置包括确定单元、获取单元、提取单元、输入单元和判断单元：

所述确定单元，用于针对待检测的Web访问请求，确定所述Web访问请求所属的会话；

所述获取单元，用于获取所述Web访问请求所属会话的会话日志；

所述提取单元，用于基于所述会话日志，提取所述Web访问请求所属会话在若干维度下的会话特征；

所述输入单元，用于将所述若干维度下的会话特征作为入参输入已训练的检测模型；

所述判断单元，用于根据所述检测模型的输出结果判断所述Web访问请求是否为Web攻击。

10.根据权利要求9所述的装置，其特征在于，所述检测模型的训练过程，包括：

获取所述Web访问请求样本所属会话的会话日志；