CN108718298A

CN108718298A - 一种恶意外连流量检测方法及装置

Info

Publication number: CN108718298A
Application number: CN201810401352.6A
Authority: CN
Inventors: 朱雯茜; 计东
Original assignee: Beijing Qianxin Technology Co Ltd
Current assignee: Qianxin Technology Group Co Ltd
Priority date: 2018-04-28
Filing date: 2018-04-28
Publication date: 2018-10-30
Anticipated expiration: 2038-04-28
Also published as: CN108718298B

Abstract

本发明实施例公开了一种恶意外连流量检测方法及装置，方法包括：根据若干个恶意样本流量计算得到相似度矩阵；根据层次聚类算法和所述相似度矩阵将所述若干个恶意样本流量划分为各个类；根据各个类生成对应的恶意外连流量模板；分别计算待检测流量与各个恶意外连流量模板的相似度，并根据计算得到的相似度和相似度阈值，确定所述待检测流量是否为恶意外连流量。本发明实施例通过计算相似度矩阵生成恶意外连流量模板，既能够获取多种恶意外连流量的特征，又方便后续对待检测流量进行计算和匹配，以有效区分恶意外连流量与普通白流量，大大减少了误告。

Description

一种恶意外连流量检测方法及装置

技术领域

本发明实施例涉及网络安全技术领域，具体涉及一种恶意外连流量检测方法及装置。

背景技术

随着网络技术的发展，越来越多的黑客利用远程控制木马等手段远程操纵被控主机，为了向远程被控主机发送命令，被控主机一定会有与外部服务器的连接过程。该恶意外连行为产生的流量即为恶意外连流量。

现有检测恶意外连流量的方法主要包括两种：第一种为根据黑名单过滤恶意域名,即根据安全从业者整理的恶意网站列表，直接将访问恶意网站的流量判黑；第二种为基于特征检测恶意外连流量，即通过安全从业人员分析提取恶意外连流量特征，根据特征匹配恶意外连流量。

在实现本发明实施例的过程中，发明人发现现有的基于黑名单过滤的方法只能识别连接已知恶意网站时的恶意外连流量，对于域名变化没有任何感知；基于特征检测的方法需要安全从业人员逐一分析样本，需要消耗较大的人力，并且难以检测变种的恶意外连流量。

发明内容

由于现有方法存在上述问题，本发明实施例提出一种恶意外连流量检测方法及装置。

第一方面，本发明实施例提出一种恶意外连流量检测方法，包括：

根据若干个恶意样本流量计算得到相似度矩阵；

根据层次聚类算法和所述相似度矩阵将所述若干个恶意样本流量划分为各个类；

根据各个类生成对应的恶意外连流量模板；

分别计算待检测流量与各个恶意外连流量模板的相似度，并根据计算得到的相似度和相似度阈值，确定所述待检测流量是否为恶意外连流量。

可选地，所述根据若干个恶意样本流量计算得到相似度矩阵，具体包括：

将各恶意样本流量划分为若干个预设字段，根据预设字符对每个字段的目标字符进行泛化处理，得到各处理后流量；

根据恶意样本的数量建立矩阵，计算矩阵中每个恶意样本流量与对应的恶意样本流量的相似度，得到相似度矩阵。

可选地，所述根据恶意样本的数量建立矩阵，计算矩阵中每个恶意样本流量与对应的恶意样本流量的相似度，得到相似度矩阵，具体包括：

根据恶意样本的数量建立矩阵，计算矩阵中每个恶意样本流量与对应的恶意样本流量的若干个局部相似度和各局部相似度对应的动态权重；其中，所述动态权重根据预设字段的特异性计算得到；

根据若干个局部相似度和对应的动态权重，计算得到每个恶意样本流量与对应的恶意样本流量的相似度，得到计算度矩阵。

可选地，所述若干个局部相似度包括：统一资源定位符URL相似度、URL级数相似度、URL参数相似度、用户代理user-agent相似度、请求头相似度、目的IP相似度、请求方法相似度和URL后缀相似度。

可选地，所述分别计算待检测流量与各个恶意外连流量模板的相似度，并根据计算得到的相似度和相似度阈值，确定所述待检测流量是否为恶意外连流量，具体包括：

分别计算待检测流量与各个恶意外连流量模板的相似度，获取相似度值最大的目标相似度对应的目标恶意外连流量模板，若判断获知所述目标相似度大于相似度阈值，则确定所述待检测流量为所述目标恶意外连流量模板对应的恶意外连流量。

第二方面，本发明实施例还提出一种恶意外连流量检测装置，包括：

矩阵计算模块，用于根据若干个恶意样本流量计算得到相似度矩阵；

流量划分模块，用于根据层次聚类算法和所述相似度矩阵将所述若干个恶意样本流量划分为各个类；

模板生成模块，用于根据各个类生成对应的恶意外连流量模板；

流量判断模块，用于分别计算待检测流量与各个恶意外连流量模板的相似度，并根据计算得到的相似度和相似度阈值，确定所述待检测流量是否为恶意外连流量。

可选地，所述矩阵计算模块具体包括：

泛化处理单元，用于将各恶意样本流量划分为若干个预设字段，根据预设字符对每个字段的目标字符进行泛化处理，得到各处理后流量；

矩阵计算单元，用于根据恶意样本的数量建立矩阵，计算矩阵中每个恶意样本流量与对应的恶意样本流量的相似度，得到相似度矩阵。

可选地，所述矩阵计算单元具体用于：

可选地，所述流量判断模块具体用于：

第三方面，本发明实施例还提出一种电子设备，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行上述方法。

第四方面，本发明实施例还提出一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机程序，所述计算机程序使所述计算机执行上述方法。

由上述技术方案可知，本发明实施例通过计算相似度矩阵生成恶意外连流量模板，既能够获取多种恶意外连流量的特征，又方便后续对待检测流量进行计算和匹配，以有效区分恶意外连流量与普通白流量，大大减少了误告。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些图获得其他的附图。

图1为本发明一实施例提供的一种恶意外连流量检测方法的流程示意图；

图2为本发明一实施例提供的一种恶意外连流量模板生成方法的流程示意图；

图3为本发明一实施例提供的一种恶意外连流量模板匹配方法的流程示意图；

图4为本发明一实施例提供的一种恶意外连流量检测装置的结构示意图；

图5为本发明一实施例提供的电子设备的逻辑框图。

具体实施方式

下面结合附图，对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

图1示出了本实施例提供的一种恶意外连流量检测方法的流程示意图，包括：

S101、根据若干个恶意样本流量计算得到相似度矩阵。

举例来说，有10个恶意样本流量，则对应的相似度矩阵为10×10的矩阵A，其中第i行第j列的矩阵元素A[i][j]为第i个恶意样本流量和第j个恶意样本流量的相似度。

S102、根据层次聚类算法和所述相似度矩阵将所述若干个恶意样本流量划分为各个类。

具体地，通过层次聚类算法对相似度矩阵中各恶意样本流量之间的相似度进行聚类分析，将各恶意样本流量划分为多个不同的类，每个类表示一种恶意流量类型。

根据计算的相似度矩阵，利用层次聚类算法将请求头划分为若干类。每一类中的请求头都具有相似的结构，是来自同一恶意家族的请求。

S103、根据各个类生成对应的恶意外连流量模板。

每个恶意外连流量模板对应一个步骤S102得到的类，每个恶意外连流量模板中包括多个恶意样本流量。

S104、分别计算待检测流量与各个恶意外连流量模板的相似度，并根据计算得到的相似度和相似度阈值，确定所述待检测流量是否为恶意外连流量。

其中，所述恶意外连流量表示受害者的被控主机与远程黑客服务器通信时产生的流量。

与现有技术相比，本实施例利用流量特异性计算流量间相似度并生成恶意外连流量模板，通过模板匹配，能够检测出新出现的恶意域名，并能检测出变种的恶意外连流量。本实施例提供的的恶意外连流量模板是自动生成的，可以免去安全从业者的流量特征提取过程，从而减少人力。

本实施例通过计算相似度矩阵生成恶意外连流量模板，既能够获取多种恶意外连流量的特征，又方便后续对待检测流量进行计算和匹配，以有效区分恶意外连流量与普通白流量，大大减少了误告。

进一步地，在上述方法实施例的基础上，S101具体包括：

S1011、将各恶意样本流量划分为若干个预设字段，根据预设字符对每个字段的目标字符进行泛化处理，得到各处理后流量。

S1012、根据恶意样本的数量建立矩阵，计算矩阵中每个恶意样本流量与对应的恶意样本流量的相似度，得到相似度矩阵。

其中，可以将各恶意样本流量划分为URL、user-agent、host、content-length等预设字段。

对于URL中的每一级路径和HTTP请求头的每一个字段进行泛化处理，将数字部分、字母部分、字母数字混合部分、十六进制部分、base64部分分别用特殊字符替换，得到处理后流量。

进一步地，在上述方法实施例的基础上，S1012具体包括：

其中，所述若干个局部相似度包括：统一资源定位符URL相似度、URL级数相似度、URL参数相似度、用户代理user-agent相似度、请求头相似度、目的IP相似度、请求方法相似度和URL后缀相似度。

具体地，局部相似度和对应权重计算细节为：

URL相似度：计算两个URL之间的归一化编辑距离d，相似度＝1-d；URL特异性＝URL路径级数；权重＝预设权重+URL特异性。

URL级数相似度：设两个URL级数分别为len1和len2，则，相似度＝min(len1,len2)/max(len1,len2)，权重＝预设权重+URL特异性。

URL参数相似度：相似度＝0.5*(URL关键字的jaccard相似度+参数长度比值*参数类型是否相同(0或1))；URL参数特异性＝参数key个数/2；权重＝预设权重+URL参数特异性。

user-agent相似度：相似度＝1-归一化编辑距离，user-agent特异性＝abs(user-agent长度-80)/10；权重＝预设权重+user-agent特异性。

其他请求头相似度：相似度＝0.5*(其他请求头jaccard相似度+其他请求头长度*其他请求头出现顺序是否一致(0或1))，其他请求头特异性＝abs(其他请求头数量-7)；权重＝预设权重+其他请求头特异性。

目的IP相似度：如果比较的目的IP在同一个C段则相似度为1，否则为0。IP特异性＝预设值，权重＝预设权重+IP特异性。

请求方法相似度：如果两个待比较流量的请求方法相同，则相似度为1，否则为0。请求方法特异性＝预设值，权重＝预设权重+请求方法特异性。

URL后缀相似度：比较URL最后文件的后缀类型，相同为1，否则为0。URL后缀特异性＝max(0,(URL后缀长度-3)/2)权重＝预设权重+URL后缀特异性。

具体地，根据流量的特异性计算恶意外连流量间的相似度：先计算8个局部相似度，再计算每部分相似度的动态权重。其中动态权重是根据局部请求头的特异性计算的。其思路是恶意外连流量中请求头字段的特异性越高，则恶意外连流量特征越明显，占有的权重就应该越大。最终的相似度是局部相似度的加权平均值。

进一步地，在上述方法实施例的基础上，S104具体包括：

具体来说，本实施例主要包括恶意HTTP外连流量模板生成和未知HTTP流量检测两个部分，两个部分的流程分别如图2和图3所示。

恶意外连流量模板生成过程如图2所示，主要包括请求头字段提取、泛化、基于流量特异性计算相似度、层次聚类和模板生成五个部分。

提取请求头字段：将HTTP流量划分为URL、user-agent、host、content-length等字段。

泛化：对于URL中的每一级路径和HTTP请求头的每一个字段进行泛化处理。将数字部分、字母部分、字母数字混合部分、十六进制部分、base64部分分别用特殊字符替换。

基于流量特异性计算相似度：根据流量的特异性计算恶意外连流量间的相似度。先计算8个局部相似度，再计算每部分相似度的动态权重。其中动态权重是根据局部请求头的特异性计算的。其思路是恶意外连流量中请求头字段的特异性越高，则恶意外连流量特征越明显，占有的权重就应该越大。最终的相似度是局部相似度的加权平均值。

层次聚类：根据计算的相似度矩阵，利用层次聚类算法将请求头划分为若干类。每一类中的请求头都具有相似的结构，是来自同一恶意家族的请求。

获取恶意外连流量模板：对每一类，提取请求头中所有字段集合的并集作为恶意外连流量模板。并在恶意外连流量模板上标注恶意家族标签。

恶意外连流量的检测过程如图3所示，包括待测流量请求头字段提取，泛化，模板匹配，判别流量性质四个部分。

请求头字段提取：与模板生成过程中的请求头字段提取部分相同。将HTTP流量划分为URL、user-agent、host、content-length等字段。

泛化：与模板生成过程中的泛化过程相同。

模板匹配：计算待检测请求头与恶意外连流量模板的8个局部相似度和相应的特异性以及权重。最后加权平均的相似度即为待测流量与模板匹配的相似度。具体局部相似度的计算与模板生成过程中相似度的计算基本一致，唯一的区别是，模板中同一个请求头字段可以有多个值，在计算局部相似度时取其中相似度最高的值。

判别流量性质：如果未知流量与模板的相似度大于预设值，则认为未知流量为恶意外连流量。其所属的恶意家族与匹配到模板的恶意家族相同。

本实施例通过泛化过程，去除了相同恶意家族流量间由于随机值产生的差异，提高了系统对变种恶意外连流量的鲁棒性；通过划分8个局部相似度，有效的提取了恶意外连流量的特征；通过请求头局部特异性计算权重，将恶意特征更明显的部分赋予更高的权重可以有效的区分恶意外连流量与普通白流量，大大减少了误告。

图4示出了本实施例提供的一种恶意外连流量检测装置的结构示意图，所述装置包括：

矩阵计算模块401用于根据若干个恶意样本流量计算得到相似度矩阵；

流量划分模块402用于根据层次聚类算法和所述相似度矩阵将所述若干个恶意样本流量划分为各个类；

模板生成模块403用于根据各个类生成对应的恶意外连流量模板；

流量判断模块404用于分别计算待检测流量与各个恶意外连流量模板的相似度，并根据计算得到的相似度和相似度阈值，确定所述待检测流量是否为恶意外连流量。

具体地，矩阵计算模块401根据若干个恶意样本流量计算得到相似度矩阵；流量划分模块402根据层次聚类算法和所述相似度矩阵将所述若干个恶意样本流量划分为各个类；模板生成模块403根据各个类生成对应的恶意外连流量模板；流量判断模块404分别计算待检测流量与各个恶意外连流量模板的相似度，并根据计算得到的相似度和相似度阈值，确定所述待检测流量是否为恶意外连流量。

进一步地，在上述装置实施例的基础上，所述矩阵计算模块401具体包括：

进一步地，在上述装置实施例的基础上，所述矩阵计算单元具体用于：

进一步地，在上述装置实施例的基础上，所述若干个局部相似度包括：统一资源定位符URL相似度、URL级数相似度、URL参数相似度、用户代理user-agent相似度、请求头相似度、目的IP相似度、请求方法相似度和URL后缀相似度。

进一步地，在上述装置实施例的基础上，所述流量判断模块404具体用于：

本实施例所述的恶意外连流量检测装置可以用于执行上述方法实施例，其原理和技术效果类似，此处不再赘述。

参照图5，所述电子设备，包括：处理器(processor)501、存储器(memory)502和总线503；

其中，

所述处理器501和存储器502通过所述总线503完成相互间的通信；

所述处理器501用于调用所述存储器502中的程序指令，以执行上述各方法实施例所提供的方法。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法。

本实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种恶意外连流量检测方法，其特征在于，包括：

根据若干个恶意样本流量计算得到相似度矩阵；

根据各个类生成对应的恶意外连流量模板；

2.根据权利要求1所述的方法，其特征在于，所述根据若干个恶意样本流量计算得到相似度矩阵，具体包括：

3.根据权利要求2所述的方法，其特征在于，所述根据恶意样本的数量建立矩阵，计算矩阵中每个恶意样本流量与对应的恶意样本流量的相似度，得到相似度矩阵，具体包括：

4.根据权利要求3所述的方法，其特征在于，所述若干个局部相似度包括：统一资源定位符URL相似度、URL级数相似度、URL参数相似度、用户代理user-agent相似度、请求头相似度、目的IP相似度、请求方法相似度和URL后缀相似度。

5.根据权利要求1-4所述的方法，其特征在于，所述分别计算待检测流量与各个恶意外连流量模板的相似度，并根据计算得到的相似度和相似度阈值，确定所述待检测流量是否为恶意外连流量，具体包括：

6.一种恶意外连流量检测装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述矩阵计算模块具体包括：

8.根据权利要求7所述的装置，其特征在于，所述矩阵计算单元具体用于：

9.根据权利要求8所述的装置，其特征在于，所述若干个局部相似度包括：统一资源定位符URL相似度、URL级数相似度、URL参数相似度、用户代理user-agent相似度、请求头相似度、目的IP相似度、请求方法相似度和URL后缀相似度。

10.根据权利要求6-9任一项所述的装置，其特征在于，所述流量判断模块具体用于：

11.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至5任一所述的方法。

12.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机程序，所述计算机程序使所述计算机执行如权利要求1至5任一所述的方法。