CN114124563B

CN114124563B - 一种异常流量检测方法、装置、电子设备及存储介质

Info

Publication number: CN114124563B
Application number: CN202111461622.0A
Authority: CN
Inventors: 刘盈
Original assignee: Beijing Topsec Technology Co Ltd; Beijing Topsec Network Security Technology Co Ltd; Beijing Topsec Software Co Ltd; Hubei Topsec Network Security Technology Co Ltd
Current assignee: Beijing Topsec Technology Co Ltd; Beijing Topsec Network Security Technology Co Ltd; Beijing Topsec Software Co Ltd; Hubei Topsec Network Security Technology Co Ltd
Priority date: 2021-12-02
Filing date: 2021-12-02
Publication date: 2024-03-15
Anticipated expiration: 2041-12-02
Also published as: CN114124563A

Abstract

本申请实施例提供一种异常流量检测方法、装置、电子设备及存储介质，涉及网络安全技术领域。该方法包括提取待检测流量的第一特征向量；依次计算所述第一特征向量与预设的恶意流量的特征向量库中的第二特征向量之间的相似度，以得到相似度集合；根据所述相似度集合判断所述待检测流量是否为异常流量，不需要解码或解密，保留原始的流量特征，通过提取恶意流量特征建立特征库的方法，能够较准确的检测出异常流量，解决了现有方法检测较为耗时且检测结果准确性较低的问题。

Description

一种异常流量检测方法、装置、电子设备及存储介质

技术领域

本申请涉及网络安全技术领域，具体而言，涉及一种异常流量检测方法、装置、电子设备及存储介质。

背景技术

攻击者可能会使用与Web流量相关的应用层协议进行通信，从而通过与现有流量混合来避免检测或者网络过滤。对远程系统的命令以及这些命令的结果，将嵌入到客户端和服务器之间的协议流量中。承载Web流量的HTTP协议在实际环境中非常多，HTTP数据包有许多可以隐藏数据的字段和标头。攻击者可能会滥用HTTP协议与受害者网络内受其控制的系统进行通信，同时模仿正常的预期流量。

现有的HTTP恶意流量的检测方法，需要对指定编码的数据进行解码，且使用N-Gram分词方法进行特征提取时，得到的特征向量长度过长，会导致计算时间过慢，且检测结果准确性较低。

发明内容

本申请实施例的目的在于提供一种异常流量检测方法、装置、电子设备及存储介质，不需要解码或解密，保留原始的流量特征，通过提取恶意流量特征建立特征库的方法，能够较准确的检测出异常流量，解决了现有方法检测较为耗时且检测结果准确性较低的问题。

本申请实施例提供了一种异常流量检测方法，该方法包括：

提取待检测流量的第一特征向量；

依次计算所述第一特征向量与预设的恶意流量的特征向量库中的第二特征向量之间的相似度，以得到相似度集合；

根据所述相似度集合判断所述待检测流量是否为异常流量。

在上述实现过程中，直接提取原始待检测流量的特征向量，通过计算与预设的恶意流量的特征向量库中的特征向量之间的相似度来识别待检测流量，特征向量简单且长度较短，因此计算速度快，通过提取恶意流量特征建立特征库的方法，能够较准确的检测出异常流量，解决了现有方法检测较为耗时且检测结果准确性较低的问题。

进一步地，在所述依次计算所述第一特征向量与预设的特征向量库中的第二特征向量之间的相似度的步骤之前，所述方法还包括：

提取恶意流量的第二特征向量，以构建特征向量库。

在上述实现过程中，利用恶意流量建立特征向量库，包含了大量加密、压缩和编码的特征信息，因此具有较高的识别率。

进一步地，所述提取异常流量的第二特征向量，以构建特征向量库，包括：

提取所述恶意流量的地址信息、首部字段特征和主体特征，以构成第二特征向量，所述地址信息包括源地址、目标地址、源端口、目标端口、相对URL长度、相对URL处理值、查询参数的个数、参数值明文个数、参数值编码个数、参数值加密个数、参数值压缩个数和参数值长度总和。

在上述实现过程中，提取恶意流量的地址信息、首部字段特征和主体特征构成第二特征向量，作为异常流量的识别基础。

进一步地，所述提取所述恶意流量的首部字段特征，包括：

获取首部字段，所述首部字段包括User-Agent、Cookie、Set-Cookie、Content-Type、X-Session、HOST、From和Content-Disposition；

基于所述首部字段，判断是否存在key＝value格式，若无则记为0，若有则记为1；

获取值的长度，若存在key＝value格式，则值的长度即为value的长度，若不存在，则为所述首部字段的长度；

判断值是否经过编码、加密或压缩处理或是明文，若是明文则记为0，编码记为1，加密记为2，压缩记为3。

在上述实现过程，对恶意流量的首部字段特征进行提取，包含了大量的加密、压缩和编码的特征，覆盖广泛。

进一步地，所述提取所述恶意流量的主体特征，包括：

判断是否存在key＝value格式，若无则记为0，若有则记为1；

判断主体内容是否经过编码、加密、压缩处理或是明文，若是明文则记为0，编码记为1，加密记为2，压缩记为3。

在上述实现过程中，提取恶意流量的主体特征，包含了大量的加密、压缩和编码的特征，覆盖广泛。

进一步地，所述根据所述相似度集合判断所述待检测流量是否为异常流量，包括：

获取所述相似度集合中的最大值；

将所述最大值与预设阈值进行比较；

若所述最大值大于所述预设阈值，则所述待检测流量为异常流量。

在上述实现过程中，通过计算相似度的大小对待检测流量进行检测，计算简单且效率较高。

进一步地，所述方法还包括：

若所述待检测流量的判断结果为异常流量且判定结果有效，则将所述待检测流量的第一特征向量加入所述特征向量库。

在上述实现过程中，将检测结果为异常的异常流量加入到特征向量库中，实现对特征向量库的更新，从而提高检测率。

本申请实施例还提供一种异常流量检测装置，所述装置包括：

提取模块，用于提取待检测流量的第一特征向量；

计算模块，用于依次计算所述第一特征向量与预设的特征向量库中的第二特征向量之间的相似度，以得到相似度集合；

判断模块，用于根据所述相似度集合判断所述待检测流量是否为异常流量。

本申请实施例还提供一种电子设备，所述电子设备包括存储器以及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行上述中任一项所述的异常流量检测方法。

本申请实施例还提供一种可读存储介质，所述可读存储介质中存储有计算机程序指令，所述计算机程序指令被一处理器读取并运行时，执行上述中任一项所述的异常流量检测方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种异常流量检测方法的流程图；

图2为本申请实施例提供的异常流量检测的具体流程图；

图3为本申请实施例提供的判断待检测流量是否为异常流量的流程图；

图4为本申请实施例提供的异常流量检测装置的结构框图；

图5为本申请实施例提供的另一种异常流量检测装置的结构框图。

图标：

100-提取模块；200-计算模块；300-判断模块；301-最大值获取模块；302-比较模块；303-判定模块；400-特征向量库构建模块；500-特征向量库更新模块。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

请参看图1，图1为本申请实施例提供的一种异常流量检测方法的流程图。该方法可以应用于APT组织利用HTTP协议进行C2通信的异常流量检测。具体包括以下步骤：

步骤S100：提取待检测流量的第一特征向量；

步骤S200：依次计算所述第一特征向量与预设的恶意流量的特征向量库中的第二特征向量之间的相似度，以得到相似度集合；

步骤S300：根据所述相似度集合判断所述待检测流量是否为异常流量。

直接提取原始待检测流量的特征向量，通过计算与预设的恶意流量的特征向量库中的特征向量之间的相似度来识别待检测流量，特征向量简单且长度较短，因此计算速度快，通过提取恶意流量特征建立特征库的方法，能够较准确的检测出异常流量，解决了现有方法检测较为耗时且检测结果准确性较低的问题。

如图2所示，为异常流量检测的具体流程图。其中，在对HTTP流量进行检测之前，需要先建立恶意流量的特征向量库，即提取恶意流量的第二特征向量，以构建特征向量库。

针对攻击者会采用已知的加密算法、压缩算法或者编码算法来隐藏命令和控制流量，而不是依赖通信协议HTTP提供的任何固有保护。本步骤中提取的特征包含了大量的加密、压缩和编码的特征信息，从而可识别攻击者利用已知的加密算法、压缩算法或者编码算法的形式发送的异常流量，这种具有针对性的识别方法具有较高的识别率。具体包括以下步骤：

提取恶意流量的地址信息、首部字段特征和主体特征，以构成第二特征向量。

其中，地址信息即IP/URL特征，包括源地址、目标地址、源端口、目标端口、相对URL长度、相对URL处理值、查询参数的个数、参数值明文个数、参数值编码个数、参数值加密个数、参数值压缩个数和参数值长度总和。

相对URL处理值指的是相对URL是否经过编码、加密或压缩处理，还是明文，若是明文则记为0，编码记为1，加密记为2，压缩记为3。

需要说明的是，上述的相对URL是指HTTP请求报文中的URI中第一个分隔符‘/’与‘？’之间的字符串；查询参数是指HTTP请求报文中URI的‘？’后面的字符串。

提取首部字段特征，选取以下8个首部字段提取特征：User-Agent、Cookie、Set-Cookie、Content-Type、X-Session、HOST、From和Content-Disposition。

再基于首部字段，判断是否存在key＝value格式，若无则记为0，若有则记为1；

例如，以首部字段Cookie为例：其表现形式可能为Cookie：GetLastError＝12031。既存在key＝value格式，此时值的长度即为12031的长度为5；如果此时表现形式为Cookie：GetLastError，即不存在key＝value格式，此时值的长度为GetLastError的长度，即为12。

提取恶意流量的主体特征，具体地：

判断是否存在key＝value格式，若无则记为0，若有则记为1；

将恶意流量的地址信息、首部字段特征和主体特征构成第二特征向量，作为异常流量的识别依据，并且包含了大量的加密、压缩和编码的特征信息，从而可提高异常流量的识别率。

对于待检测流量的第一特征向量的提取过程与第二特征向量的提取过程相同，在此不再赘述。

步骤S200具体包括：

将第一特征向量依次和特征向量库中的第二特征向量计算相似度，得到相似度集合。

对于相似度的具体计算，示例地，可以采用欧几里得距离、夹角余弦相似度、马氏距离等中的一种或者多种，在此不做任何限定。

取出相似度集合中的最大值，和预设阈值进行比较，如果大于该阈值，则认为该流量为异常HTTP流量。如果小于该阈值，则认为该流量为正常流量。

通过计算和比较相似度的大小对待检测流量进行检测和识别，计算简单且效率较高。

如图3所示，为判断待检测流量是否为异常流量的流程图，步骤S300具体可以包括：

步骤S301：获取所述相似度集合中的最大值；

步骤S302：将所述最大值与预设阈值进行比较；

步骤S303：若所述最大值大于所述预设阈值，则所述待检测流量为异常流量。

取出相似度集合中的最大值，和预设阈值进行比较，如果大于该阈值，则认为该待检测流量为异常HTTP流量，如果小于该阈值，则认为该流量为正常流量。

示例地，该方法可以应用于APT组织利用HTTP协议进行C2通信的异常流量检测，具体地：

APT组织可以利用HTTP协议数据包的URL部分、首部字段部分和主体部分存放使用编码算法、加密算法或者压缩算法处理后的数据，从而进行隐秘消息传输。如果在某些场景下出现编码数据、密文或者压缩数据则需要引起管理人员的注意，比如APT组织Commie，利用HTTP协议传递主机信息以及命令的执行结果。如GET请求，相对URL部分采用RC4加密。查询参数存在key＝value格式，以及参数值是经过RC4加密的主机信息。首部字段X-Session存在key＝value格式，value是经过RC4加密后的值。因此本方法提取的特征包含了大量的加密、压缩和编码的特征，可准确识别针对攻击者会采用已知的加密算法、压缩算法或者编码算法来隐藏命令和控制流量的异常流量行为，且具有较高的识别率，并且特征向量简单而短，因此计算速度快。

此外，该方法还包括：

对检测出的异常HTTP流量，进行再次判断，若确定该流量为恶意HTTP流量，则将其加入特征向量库，否则，将其舍弃。

将检测到的异常流量(待检测流量)的第一特征向量加入特征向量库，实现对特征向量库的更新，使得特征向量库中对异常流量的种类的覆盖面更加广泛，从而增加对异常流量识别的正确率。

该方法可实现在网络中对APT组织利用HTTP协议进行C2通信的异常流量进行检测，通过构建异常HTTP流量特征向量库，针对攻击者会采用已知的加密算法、压缩算法或者编码算法来隐藏命令和控制流量，而不是依赖通信协议HTTP提供的任何固有保护的特性，建立的特征向量库中包含了大量加密、压缩和编码的特征信息，从而实现对异常流量的有效识别。

本申请实施例还提供一种异常流量检测装置，如图4所示，为异常流量检测装置的结构框图，所述装置包括：

提取模块100，用于提取待检测流量的第一特征向量；

计算模块200，用于依次计算所述第一特征向量与预设的特征向量库中的第二特征向量之间的相似度，以得到相似度集合；

判断模块300，用于根据所述相似度集合判断所述待检测流量是否为异常流量。

如图5所示，为另一种异常流量检测装置的结构框图，其中，判断模块300包括：

最大值获取模块301，用于获取所述相似度集合中的最大值；

比较模块302，用于将所述最大值与预设阈值进行比较；

判定模块303，用于若所述最大值大于所述预设阈值，则所述待检测流量为异常流量。

该装置还包括特征向量库构建模块400，用于提取恶意流量的第二特征向量，以构建特征向量库，具体地，提取所述恶意流量的地址信息、首部字段特征和主体特征，以构成第二特征向量，所述地址信息包括源地址、目标地址、源端口、目标端口、相对URL长度、相对URL处理值、查询参数的个数、参数值明文个数、参数值编码个数、参数值加密个数、参数值压缩个数和参数值长度总和。

具体地，提取所述恶意流量的首部字段特征，包括：

提取所述恶意流量的主体特征，包括：

判断是否存在key＝value格式，若无则记为0，若有则记为1；

该装置还包括特征向量库更新模块500，用于若所述待检测流量的判断结果为异常流量且判定结果有效，则将所述待检测流量的第一特征向量加入所述特征向量库。

本申请实施例还提供一种电子设备，所述电子设备包括存储器以及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行上述的异常流量检测方法。

本申请实施例还提供一种可读存储介质，所述可读存储介质中存储有计算机程序指令，所述计算机程序指令被一处理器读取并运行时，执行上述的异常流量检测方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种异常流量检测方法，其特征在于，所述方法包括：

提取待检测流量的第一特征向量；

根据所述相似度集合判断所述待检测流量是否为异常流量；

在所述依次计算所述第一特征向量与预设的特征向量库中的第二特征向量之间的相似度的步骤之前，所述方法还包括：

提取恶意流量的第二特征向量，以构建特征向量库，具体地，提取所述恶意流量的地址信息、首部字段特征和主体特征，以构成第二特征向量，所述地址信息包括源地址、目标地址、源端口、目标端口、相对URL长度、相对URL处理值、查询参数的个数、参数值明文个数、参数值编码个数、参数值加密个数、参数值压缩个数和参数值长度总和；

其中，提取所述恶意流量的首部字段特征，包括：

基于所述首部字段，判断是否存在key=value格式，若无则记为0，若有则记为1；

获取值的长度，若存在key=value格式，则值的长度即为value的长度，若不存在，则为所述首部字段的长度；

2.根据权利要求1所述的异常流量检测方法，其特征在于，所述提取所述恶意流量的主体特征，包括：

判断是否存在key=value格式，若无则记为0，若有则记为1；

3.根据权利要求1所述的异常流量检测方法，其特征在于，所述根据所述相似度集合判断所述待检测流量是否为异常流量，包括：

获取所述相似度集合中的最大值；

将所述最大值与预设阈值进行比较；

4.根据权利要求1所述的异常流量检测方法，其特征在于，所述方法还包括：

5.一种异常流量检测装置，其特征在于，所述装置包括：

提取模块，用于提取待检测流量的第一特征向量；

判断模块，用于根据所述相似度集合判断所述待检测流量是否为异常流量；

所述装置还包括特征向量库构建模块，用于提取恶意流量的第二特征向量，以构建特征向量库，具体地，提取所述恶意流量的地址信息、首部字段特征和主体特征，以构成第二特征向量，所述地址信息包括源地址、目标地址、源端口、目标端口、相对URL长度、相对URL处理值、查询参数的个数、参数值明文个数、参数值编码个数、参数值加密个数、参数值压缩个数和参数值长度总和；

具体地，提取所述恶意流量的首部字段特征，包括：

6.一种电子设备，其特征在于，所述电子设备包括存储器以及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行根据权利要求1至4中任一项所述的异常流量检测方法。

7.一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序指令，所述计算机程序指令被一处理器读取并运行时，执行权利要求1至4中任一项所述的异常流量检测方法。