CN112073362B

CN112073362B - 一种基于流量特征的apt组织流量识别方法

Info

Publication number: CN112073362B
Application number: CN202010567204.9A
Authority: CN
Inventors: 刘建毅; 张茹; 李静; 程杰; 王婵; 郭邯; 孙文新; 闫晓帆
Original assignee: State Grid Information and Telecommunication Co Ltd; Beijing University of Posts and Telecommunications
Current assignee: State Grid Information and Telecommunication Co Ltd; Beijing University of Posts and Telecommunications
Priority date: 2020-06-19
Filing date: 2020-06-19
Publication date: 2022-04-26
Anticipated expiration: 2040-06-19
Also published as: CN112073362A

Abstract

本发明公开一种基于流量特征的APT组织流量识别方法，定义并计算DNS和TCP、HTTP/HTTPS流量中的APT组织特征，利用特征识别出APT组织流量，实现APT组织流量识别。定义的组织特征包括：Response_type，用于区分APT组织流量中的DNS隧道流量；包负载波动特征C2Load_fluct，用于计算DNS流量在时间窗口内，流量包簇在单位域名下的平均负载量；包相似特征Bad_rate，用于判断APT组织恶意流量产生时的网络状态。本发明通过构造组织流量特征进行APT组织流量识别，提出并定义的组织特征能够有效地将APT恶意流量和正常流量进行区分，提高了APT组织流量识别的准确性，为APT组织流量识别提供了新的设计思路。

Description

一种基于流量特征的APT组织流量识别方法

技术领域

本发明属于网络安全领域，尤其涉及基于流量特征的APT组织流量识别系统。

背景技术

近年来，随着科技的迅猛发展，网络全球化、一体化现象愈加明显。以此为背景，网络攻击手段也更加多样。近两年的网络安全态势报告显示，除常见攻击外，勒索病毒、挖矿病毒以及APT攻击呈现大幅度涨势。其中，APT攻击多为有组织的攻击，通常以政府、国家为背景，利用先进的攻击手段对特定目标进行长期的渗透，从而达到其政治、经济、外交的目的。与其他攻击相比，APT攻击的危害性更高、组织流量识别难度更大，因此需要更加重视该攻击。

除了以不同组织为单位进行攻击之外，APT攻击具有高级性、持续性、定向性三个显著特点。高级性体现在攻击方式多样和攻击手段隐蔽两个方面；APT攻击中，攻击者多利用零day漏洞展开攻击，集合多种常见的攻击方式，如水坑攻击、钓鱼邮件等，并采取更为隐蔽额攻击手段实现其攻击目的。持续性指APT攻击持续时间较长，攻击者通过不断对攻击方式进行小幅调整以达到逐步渗透，进行长期潜伏或横向移动，从而获取更大的利益。具有强定向性和针对性则体现在攻击者往往花费大量时间，以社交工程学为基础收集目标信息，包括目标人物的人际关系、常用软件、目标机器的网络部署、安全防护等，攻击者利用这些信息选择合适的荷载方式对目标机器进行渗透，实现减少攻击成本，提高入侵成功的概率。

目前针对APT攻击的检测方法主要包括局部检测和系统检测两种类型。其中系统检测主要是利用多种检测方法去构建IDS检测框架以捕获APT行为。

局部检测方法一般针对APT攻击中涉及的单类技术或生命周期中出现异常的单个步骤进行检测，如恶意代码检测、域名检测、单流量检测等。恶意代码检测主要是对APT攻击中的钓鱼邮件、特种木马、后门等攻击者投递的文件进行动静态分析，并提取特征，常见的恶意代码检测方法包括特征码检测法和行为分析法。特征码检测法检测静态恶意代码中是否包含匹配的恶意字符串，需要充分的先验知识和庞大的特征匹配库，并且，一旦攻击者更改特征中的某些字符串，就极易产生漏报。行为分析法主要分析恶意代码在正常主机上的行为特征，该方法虽然不用构建庞大的特征匹配库，但是只有在真正匹配到恶意行为时才会产生告警。而APT组织攻击具有隐蔽性、持续性的特点，因此，一些捕获到的恶意样本在短时间内可能不会产生恶意行为，即无法产生告警，需要配合其他方法并确定合适的时间窗口进行分析才能完成检测。

相比之下，系统检测方法所检测的内容更加丰富，包括恶意代码的文件特征、主机行为、网络行为等综合信息，利用数据挖掘，机器学习算法实现APT组织攻击的检测，降低了漏报的可能性。其中，常用的数据分析方法有两种，一种方法利用无监督学习，计算测试样本的异常度，当异常度超过一定阈值，判断该样本属于APT组织攻击；另一种方法需要一定规模的标注数据作为训练集，训练可以区分出恶意类型的分类模型，实现对样本的分类。

发明内容

本发明使用基于样本在沙箱和真实主机组建的隔离环境种执行生成的流量实现APT组织流量识别。其中，APT组织流量为APT组织样本所生成的流量，白流量为相同环境下，同一时间段内，其他软件生成的背景流量。

本发明提出一种基于流量特征的APT组织流量识别方法，包括以下步骤：

1)基于样本数据集，以时间窗口为截断周期，记录该周期内最早出现的同IP、同域名查询包时间，作为输出DNS流量特征序列的时间戳，提取DNS常见特征；利用会话窗口聚类提取TCP、HTTP/HTTPS常用特征；

2)针对DNS中的APT组织特征：离散DNS响应包中的Response_type字段，获取A、AAAA、CNAME、MX、TXT等十类记录；利用公式

计算时间窗口内同一源IP、域名的流量包簇在单位域名下的平均负载量，记为包负载波动特征。其中，μ_load代表样本统计得到的包负载的数学期望，domain_len代表域名长度；

3)针对TCP、HTTP/HTTPS中的APT组织特征：基于APT组织产生的流量的周期性，利用公式Bad_rate＝

计算恶意流量产生时的网络状态特征。其中，对于每个数据会话窗口，Packet_outoder代表乱序包的个数，Packet_{retransmissionr}表示重传包的个数，Packet_all代表数据包总个数；

4)使用样本数据，在基于决策树模型(DT)基学习器的AdaBoost分类算法中进行训练；

5)利用组织流量特征和常见流量特征，将网络流量输入到训练好的AdaBoost分类器中，实现流量类型分类，生成带有分类标识信息、带标签的流量特征序列，实现APT组织流量的识别。

进一步地，步骤1)中的常见特征包括：

a)用于区分APT组织恶意DNS流量和正常流量的查询异常、端口异常、地理位置异常、统计异常、TTL异常五类特征；

b)用于区分APT组织恶意TCP、HTTP/HTTPS流量和正常流量的查询异常、地理位置异常、时间异常、统计异常、端口异常、TCP异常和HTTP/HTTPS类型七类特征。

进一步地，步骤4)中基于决策树模型(DT)基学习器的AdaBoost分类器的训练过程包括：

c)以DT作为基学习器，对样本进行标注，标注完成后，记录错误标注的样本，并提高对应样本的权重。

d)利用更新后的样本权重重构DT基学习器，再次对样本进行标注并更新权重。

e)迭代a)，b)过程直至收敛，得到训练好的AdaBoost分类器。

利用本发明的方法能够有效实现基于流量特征的APT组织流量识别，与现有技术相比具有的优点：

1、本发明创新性地提出了基于流量特征进行APT组织流量识别，能够有效针对APT组织攻击的特征实现识别，显著提高APT组织流量识别的准确率；

2、本发明针对DNS流量，提出并定义了Response_type特征、包负载波动特征C2Load_fluct作为APT组织特征，利用该特征，能够有效区分APT组织恶意DNS流量和正常流量；

3、本发明针对TCP、HTTP/HTTPS流量，提出并定义了Bad_rate，反应APT组织恶意流量产生时的网络状态，利用该特征，能够有效区分APT组织恶意TCP、HTTP/HTTPS流量和正常流量。

附图说明

图1本发明使用方法的流量特征示意图。

图2本发明所定义的包负载波动特征C2Lpad_fluct在各类样本中的分布情况。

图3本发明所定义的恶意流量产生时网络状态特征Bad_rate在各类样本中的分布情况。

具体实施方式

为使本发明的上述特点和优点更明显易懂，下面结合具体实施方式和附图对本发明作进一步详细说明。

本发明使用APT组织样本在沙箱和真实主机组建的隔离环境种执行生成的流量，基于流量特征实现APT组织流量识别，主要步骤包括：

步骤101、对原始数据的DNS、TCP、HTTP/HTTPS流量进行过滤，并生成初步的DNS原始特征序列，利用分析系统对TCP、HTTP/HTTPS流量进行回放，生成会话窗口序列。

步骤102、计算用于区分APT恶意DNS流量和正常流量的查询异常、端口异常、地理位置异常、统计异常、TTL异常五类特征，作为DNS常见特征。

步骤103、以会话为基本单位，进行会话窗口聚类，获取查询异常、地理位置异常、时间异常、统计异常、端口异常、TCP异常和HTTP/HTTPS分类七类特征，作为TCP、HTTP/HTTPS常见特征。

步骤104、对上述特征序列的格式进行整合。

步骤201、针对DNS流量进行规则匹配，导出需要的流量序列，对导出的流量序列进行分类，并划分时间窗口。

步骤202、定义APT组织特征Response_type，用于区分APT组织流量中属于DNS隧道的流量，通过将DNS响应包中的record type原始字段离散化，得到包含A、AAAA、CNAME、MX、TXT等十类记录的特征值。

步骤203、定义APT组织特征包负载波动C2Load_fluct，利用公式

计算，获取时间窗口内的平均包负载随不同域名单位长度间波动情况。其中，μ_load代表样本统计得到的包负载的数学期望，domain_len代表域名长度。

步骤204、对DNS组织特征序列的格式进行整合。

步骤301、将TCP、HTTP/HTTPS流量包以会话窗口为单位进行特征提取，输出会话窗口序列。

步骤302、定义会话窗口中乱序包和重传包相似性特征Bad_rate，该特征反应APT组织恶意流量产生时的网络状态，利用公式

计算得到。其中，对于每个数据会话窗口，

代表乱序包的个数，Packet_{retransmissionr}表示重传包的个数，Packet_all代表数据包总个数。

步骤303、对TCP、HTTP/HTTPS组织特征序列的格式进行整合。

步骤401、构建初始决策树模型基学习器，标记样本数据，并提高标记错误的样本权重。

步骤402、使用更新后的样本权重重构基学习器，在此标记样本数据，并根据标记结果更新样本权重。

步骤403、重复上述步骤，直到模型收敛，完成AdaBoost模型的训练。

步骤501、利用训练好的AdaBoost分类模型对网络流量分类。

步骤502、从分类结果中，根据标签，提取出APT组织流量以及白流量两种类型，实现APT组织流量的识别。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权力要求的保护范围为准。

Claims

1.一种基于流量特征的APT组织流量识别方法，其特征在于，包括：

A、以时间窗口为截断周期，记录该周期内最早出现的同IP、同域名DNS查询包时间，作为输出DNS流量特征序列的时间戳，提取查询异常、端口异常、地理位置异常、统计异常、TTL异常五类特征，作为区分APT组织恶意DNS流量的常用特征；利用会话窗口聚类提取查询异常、地理位置异常、时间异常、统计异常、端口异常、TCP异常和HTTP/HTTPS分类七类特征，作为区分APT组织恶意TCP、HTTP/HTTPS流量的常见特征；

B、提取APT组织的DNS流量特征Response_type，用于区分APT组织流量中属于DNS隧道的流量；并定义APT组织的DNS流量平均包负载与单位域名长度关系的特征C2Load_fluct，用于描述时间窗口内平均包负载随不同单位域名长度变化情况，反映时间窗口内同一源IP、域名的流量包簇在单位域名下的平均负载量，为包负载取值的数学期望μ_load和域名长度domain_len的比值，具体公式为

C、提出并定义APT组织的TCP、HTTP/HTTPS流量中乱序包和重传包相似性特征Bad_rate，代表源IP和APT组织服务器之间通信产生的乱序包和重传包的比值，具体公式为

其中，

表示乱序包的个数，Packet_{retransmissionr}表示重传包的个数，Packet_all表示数据包总数；

D、利用组织特征训练分类模型：利用组织特征和样本数据，通过标记样本，根据标记结果更新样本权重，并重构基学习器再次标注，迭代训练，从而训练基于决策树模型的分类器AdaBoost；

E、使用分类器进行分类：使用训练好的AdaBoost分类器对网络流量数据进行分类，生成带有分类标识信息、带标签的流量特征序列，实现APT组织流量的识别。

2.根据权利要求1所述的一种基于流量特征的APT组织流量识别方法，其特征在于，步骤A进一步包括以下步骤：

A1、对原始数据的DNS、TCP、HTTP/HTTPS流量进行过滤，并以时间窗口为截断周期，生成初步的DNS原始特征序列；利用分析系统对TCP、HTTP/HTTPS流量进行回放，生成会话窗口序列；

A2、以时间窗口为基本单位，计算用于区分APT组织恶意DNS流量和正常流量的查询异常、端口异常、地理位置异常、统计异常、TTL异常五类特征，作为区分APT组织恶意DNS流量的常用特征；

A3、以会话为基本单位进行会话窗口聚类，计算用于区分APT恶意TCP、HTTP/HTTPS流量和正常流量的查询异常、地理位置异常、时间异常、统计异常、端口异常、TCP异常和HTTP/HTTPS类型七类特征，作为区分APT组织恶意TCP、HTTP/HTTPS流量的常见特征；

A4、对上述特征序列的格式进行整合。

3.根据权利要求1所述的一种基于流量特征的APT组织流量识别方法，其特征在于，步骤B进一步包括以下步骤：

B1、针对DNS流量进行规则匹配，导出需要的流量序列，对导出的流量序列进行分类，并划分时间窗口；

B2、定义APT组织的DNS流量特征Response_type，通过将DNS响应包中的原始字段离散化，得到A、AAAA、CNAME、MX和TXT五类记录的特征值；

B3、定义APT组织的DNS流量平均包负载与单位域名长度关系的特征C2Load_fluct，获取时间窗口内的平均包负载随不同域名单位长度间变化情况；

B4、对DNS组织特征序列的格式进行整合。

4.根据权利要求1所述的一种基于流量特征的APT组织流量识别方法，其特征在于，步骤C进一步包括以下步骤：

C1、将TCP、HTTP/HTTPS流量包以会话窗口为单位进行特征提取，输出会话窗口序列；

C2、定义APT组织的TCP、HTTP/HTTPS流量中乱序包和重传包相似性特征Bad_rate，该特征反应APT组织恶意流量产生时的网络状态；

C3、对TCP、HTTP/HTTPS组织特征序列的格式进行整合。

5.根据权利要求1所述的一种基于流量特征的APT组织流量识别方法，其特征在于，步骤D进一步包括以下步骤：

D1、构建初始决策树模型基学习器，标记样本数据，并提高标记错误的样本权重；

D2、使用更新后的样本权重重构基学习器，在此标记样本数据并根据标记结果更新样本权重；

D3、重复上述步骤，直到模型收敛，完成AdaBoost模型的训练。

6.根据权利要求1所述的一种基于流量特征的APT组织流量识别方法，其特征在于，步骤E进一步包括以下步骤：

E1、利用训练好的AdaBoost分类模型对网络流量分类；

E2、从分类结果中，根据标签，提取出APT组织流量，实现APT组织流量的识别。