CN116112287A

CN116112287A - 基于时空关联的网络攻击组织追踪方法与装置

Info

Publication number: CN116112287A
Application number: CN202310364357.7A
Authority: CN
Inventors: 秦佳伟; 殷伟; 严定宇; 秦志鹏; 贺铮; 周昊; 贾世琳; 张宇鹏; 肖崇蕙; 刘玲; 张榜
Original assignee: Shanxi Branch Of National Computer Network And Information Security Management Center; National Computer Network and Information Security Management Center
Current assignee: Shanxi Branch Of National Computer Network And Information Security Management Center; National Computer Network and Information Security Management Center
Priority date: 2023-04-07
Filing date: 2023-04-07
Publication date: 2023-05-12
Anticipated expiration: 2043-04-07
Also published as: CN116112287B

Abstract

本申请实施例提供一种基于时空关联的网络攻击组织追踪方法与装置，包括：获取网络流量和网络资产信息；从网络流量中提取情报特征；根据网络资产信息，确定资产语义特征；将情报特征输入预设的异常检测模型中，由异常检测模型输出第一检测结果；将资产语义特征输入预设的资产检测模型中，由资产检测模型输出第二检测结果；按照五元组和数据包统计特征对网络流量进行聚类，得到多组子流量；根据时间特征，计算各组子流量的周期系数；根据第一检测结果、第二检测结果和周期系数，确定网络流量的最终检测结果。通过融合特征识别、攻击行为的周期性和网络资产特性，能够全面准确的检测攻击组织的攻击行为。

Description

基于时空关联的网络攻击组织追踪方法与装置

技术领域

本申请实施例涉及信息安全技术领域，尤其涉及一种基于时空关联的网络攻击组织追踪方法与装置。

背景技术

以高级渗透和传播技术为手段，具有极强隐蔽性以及持久性特点的高威胁攻击组织（APT）已成为目前威胁网络安全的重大隐患。现有的APT攻击检测方法主要是对网络流量进行深度解析，通过特征识别与匹配检测异常流量，存在漏报和误报。

发明内容

有鉴于此，本申请实施例的目的在于提出一种基于时空关联的网络攻击组织追踪方法与装置，能够检测网络攻击组织的攻击行为。

基于上述目的，本申请实施例提供了一种基于时空关联的网络攻击组织追踪方法，包括：

获取网络流量和网络资产信息；

从所述网络流量中提取情报特征；其中，所述情报特征包括五元组、数据包统计特征和时间特征；

根据所述网络资产信息，确定资产语义特征；

将所述情报特征输入预设的异常检测模型中，由所述异常检测模型输出第一检测结果；

将所述资产语义特征输入预设的资产检测模型中，由所述资产检测模型输出第二检测结果；

按照所述五元组和数据包统计特征对所述网络流量进行聚类，得到多组子流量；

根据所述时间特征，计算各组子流量的周期系数；

根据所述第一检测结果、第二检测结果和周期系数，确定所述网络流量的最终检测结果。

可选的，从所述网络流量中提取情报特征之前，还包括：

对所述网络流量进行去噪处理，得到去噪后的网络流量；

从所述网络流量中提取情报特征为：从所述去噪后的网络流量中提取情报特征。

可选的，对所述网络流量进行去噪处理，得到去噪后的网络流量，包括：

从所述网络流量中过滤源IP地址与目的IP地址的多个端口存在预定频率的连接次数的流量；

从所述网络流量中过滤网络协议为预设的安全协议的流量；

从所述网络流量中过滤源端口和/或目的端口为预设的网络服务端口的流量。

可选的，按照所述五元组和数据包统计特征对所述网络流量进行聚类，得到多组子流量，包括：

将源IP地址、目的IP地址、目的端口和协议类型相同，且单数据包的载荷大小相同的流量聚类为一组子流量；

根据所述时间特征，计算各组子流量的周期系数，包括：

对于每组子流量，根据源IP地址与目的IP地址的目的端口建立连接的多个时间戳，计算周期系数。

可选的，所述根据源IP地址与目的IP地址的目的端口建立连接的多个时间戳，计算周期系数，包括：

计算两两相邻时间戳的时间差，并构建包括各时间差的时间差序列；

计算所述时间差序列的自协方差；

将所述时间差序列平均分成两个子序列；

分别计算两个子序列的自协方差；

根据所述两个子序列的自协方差和所述时间差序列的自协方差，计算所述周期系数。

可选的，所述获取网络流量之前，包括：

获取网络流量样本；

对所述网络流量样本进行去噪处理，得到去噪后的网络流量样本；

从所述去噪后的网络流量样本中提取情报特征样本；其中，所述情报特征样本包括五元组、流量统计特征、数据包统计特征、建立连接阶段特征和数据传输阶段特征；

分别按照源IP地址、目的IP地址和目的端口，将所述情报特征样本划分为三组特征样本；

对三组特征样本的特征值进行归一化处理，得到归一化处理后的三组特征样本；

基于所述归一化处理后的三组特征样本，对预设的深度学习模型进行训练，得到所述异常检测模型。

可选的，所述建立连接阶段特征包括每次建立通信的时间间隔平均值、每次建立通信的时间间隔最小值、每次建立通信的时间间隔最大值、通信建立阶段传输的数据包中证书数据包的字节数、通信建立阶段上行传输的数据包的字节数、通信建立阶段下行传输的数据包的字节数；所述数据传输阶段特征包括通信建立后传输的数据包数量、平均每次传输数据包的大小、平均两次传输数据包的时间间隔、两次传输数据包的时间间隔最小值、两次传输数据包的时间间隔最大值。

可选的，根据所述网络资产信息，确定资产语义特征，包括：

从所述网络资产信息中提取域名、网络地址、回显字符特征、注册特征、证书特征；

将所述域名、网络地址、回显字符特征、注册特征、证书特征组成资产语义特征；

将所述资产语义特征转换为资产特征向量；

将所述资产语义特征输入预设的资产检测模型中为：将所述资产特征向量输入所述资产检测模型中；其中，所述资产检测模型是基于预先确定的属于网络攻击组织的网络资产信息经过训练得到的。

可选的，根据所述第一检测结果、第二检测结果和周期系数，确定所述网络流量的最终检测结果，包括：

按照预设的投票算法，计算所述第一检测结果、第二检测结果和周期系数的加权投票结果。

本申请实施例还提供一种基于时空关联的网络攻击组织追踪装置，包括：

获取模块，用于获取网络流量和网络资产信息；

提取模块，用于从所述网络流量中提取情报特征；其中，所述情报特征包括五元组、数据包统计特征和时间特征；

确定模块，用于根据所述网络资产信息，确定资产语义特征；

第一检测模块，用于将所述情报特征输入预设的异常检测模型中，由所述异常检测模型输出第一检测结果；

第二检测模块，用于将所述资产语义特征输入预设的资产检测模型中，由所述资产检测模型输出第二检测结果；

第三检测模块，用于按照所述五元组和数据包统计特征对所述网络流量进行聚类，得到多组子流量；以及根据所述时间特征，计算各组子流量的周期系数；

融合检测模块，用于根据所述第一检测结果、第二检测结果和周期系数，确定所述网络流量的最终检测结果。

从上面所述可以看出，本申请实施例提供的基于时空关联的网络攻击组织追踪方法与装置，从获取的网络流量中提取情报特征，根据获取的网络资产信息，确定资产语义特征，将情报特征输入预设的异常检测模型中并得到第一检测结果，将资产语义特征输入预设的资产检测模型中并得到第二检测结果，按照五元组和数据包统计特征对网络流量进行聚类，得到多组子流量，根据时间特征，计算各组子流量的周期系数；再根据第一检测结果、第二检测结果和周期系数，确定网络流量的最终检测结果。本申请通过融合特征识别、攻击行为的周期性和网络资产的相关特性，能够全面准确的检测攻击组织的攻击行为，提高APT攻击事件的监测能力。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的方法流程示意图；

图2为本申请另一实施例的方法过程框图；

图3为本申请实施例的装置结构框图；

图4为本申请实施例的电子设备结构框图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

需要说明的是，除非另外定义，本申请实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

相关技术中，APT攻击检测方法主要包括基于网络全流量模块级异域沙箱检测方法和基于网络流量检测审计方法。前者在构建沙箱模型时存在模拟的客户端类型是否全面的难点，如果缺乏合适的运行环境，则无法触发流量中的恶意代码，造成漏报；后者是对网络流量进行深度协议解析和数据还原，通过特征匹配与识别实现检测，处理效率不高，存在误报。

申请人在实现本申请的过程中发现，高威胁攻击组织的控制服务器与失陷终端之间的通信模式存在周期性，且组织部署的网络资产具有一定的特性。由此，基于网络流量分析通信模式是否具有周期性以及网络资产是否具有相关特性，能够准确、有效地追踪高威胁攻击组织的攻击事件。

有鉴于此，本申请实施例提供一种基于时空关联的网络攻击组织追踪方法，利用异常检测模型基于特征识别获得第一检测结果，利用资产检测模型基于网络资产特征获得第二检测结果，基于时间特征判断属于同一会话（具有相同五元组）且数据包载荷大小相同的流量的通信模式是否具有周期性，再融合第一检测结果、第二检测结果和周期性结果，确定网络流量是否具有攻击行为。

以下结合附图和具体实施例对本申请的方法进行详细说明。

如图1、2所示，本申请实施例提供的基于时空关联的网络攻击组织追踪方法，包括：

S101：获取网络流量和网络资产信息；

本实施例中，在特定应用场景下的系统中部署电子设备（例如，网络安全设备），利用电子设备获取内部系统与外部网络之间交互的网络流量，基于获取的网络流量分析是否存在APT攻击行为。可选的，网络流量可以是PCAP文件格式，也可以是流数据格式。

一些方式中，将获取的网络流量与预设的威胁情报检测库进行匹配，得到网络流量中包含的失陷检测情报（IOC），失陷检测情报例如是攻击者使用的恶意文件签名、恶意IP地址以及服务器域名等等；之后，从网络资产探测平台探测失陷检测情报在不同探测时间的网络资产信息，基于获取的网络资产信息分析是否具有攻击组织部署资产的相关特性。可选的，网络资产信息包括与失陷检测情报相关的服务注册商、注册时间、开放端口、端口的服务类型等。

S102：从网络流量中提取情报特征；其中，情报特征包括五元组、数据包统计特征和时间特征；

本实施例中，基于获取的网络流量进行特征提取，得到情报特征。如表1所示，情报特征包括五元组（源IP地址、目的IP地址、源端口、目的端口、协议类型）、流量统计特征（上行流量大小、下行流量大小、上行流量的数据包数量、下行流量的数据包数量、上行流量中最小数据包的大小、上行流量最大数据包的大小）、数据包统计特征（FIN类型的数据包数量、SYN类型的数据包数量、RST类型的数据包数量、PUSH类型的数据包数量、ACK类型的数据包数量、URG类型的数据包数量、一次通信过程中所有数据包的平均长度、一次通信过程中数据包的最大长度、一次通信过程中数据包的最小长度、上行数据包的头文件字节数、下行数据包的头文件字节数等）、建立连接阶段特征（每次建立通信的时间间隔平均值、每次建立通信的时间间隔最小值、每次建立通信的时间间隔最大值、通信建立阶段传输的数据包中证书数据包的字节数、通信建立阶段上行传输的数据包的字节数、通信建立阶段下行传输的数据包的字节数等）和数据传输阶段特征（通信建立后传输的数据包数量、平均每次传输数据包大小、平均两次传输数据包的时间间隔、两次传输数据包的时间间隔最小值、两次传输数据包的时间间隔最大值等）。

表1情报特征

本实施例中，考虑到一些情况中，攻击者会在建立连接阶段（例如，TCP的握手阶段）的流量中插入攻击行为指令（例如，激活已经植入的木马等），在提取特征时，针对通信建立阶段和数据传输阶段，分别提取建立连接阶段特征和数据传输阶段特征，通过更为精准的特征提取和匹配，提高检测准确性。

S103：根据网络资产信息，确定资产语义特征；

本实施例中，通过分析，网络攻击组织中的每个成员分工明确，且为了防止被溯源发现，所部署的网络资源也有明确的规范制度。一个网络攻击组织控制的所有有效的失陷检测情报在网络资产信息方面存在一定的相似性，例如，各组织成员开放的端口及端口对应的服务类型、回显数据内容等存在一定程度的相似性；另一方面，一旦组织不再使用某个失陷检测情报，该失陷检测情报对应的网络资产信息一定会被清理，即失陷检测情报从有效到无效，其网络资产信息会发生变化，例如，开发的端口会关闭，端口部署的服务类型会更改或无法使用等。由此，基于攻击组织的网络资产信息的相似性和变化性，可以有效检测是否存在攻击事件。

一些实施方式中，根据网络资产信息，确定资产语义特征，包括：

从网络资产信息中提取域名、网络地址、回显字符特征、注册特征、证书特征；

将域名、网络地址、回显字符特征、注册特征、证书特征组成资产语义特征；

将资产语义特征转换为资产特征向量；

将资产语义特征输入预设的资产检测模型中为：将资产特征向量输入资产检测模型中；其中，资产检测模型是基于预先确定的属于网络攻击组织的网络资产信息经过训练得到的。

本实施例中，在获取网络资产信息之后，从中提取出各项网络资产特征，如表2所示，网络资产特征包括域名、端口的数量、注册特征（服务注册国家、服务注册商等）、服务类型、回显字符特征（回显header值等）、证书特征（证书颁发对象、证书颁发者、证书有效期时长、是否为自签名证书等）、jarm指纹等。

表2 网络资产特征

由于网络资产特征包含时间和字符属性，为体现网络资产信息的语义特征，将各项特征组合成类似语句的资产语义特征，例如“15x.xxx.xx.xx这个IOC注册运营商是EDISGmbH，开放端口1个为443，该端口的服务nginx/1.21.6 回显是"HTTP/1.1 404 Not FoundServer: nginx/1.21.6 Date: Tue, 08 Mar 2022 05:52:45 GMT Content-Type: text/html; charset=utf-8 Content-Length: 13 Connection: close Vary: Accept-Encoding”。

S104：将情报特征输入预设的异常检测模型中，由异常检测模型输出第一检测结果；

本实施例中，从网络流量中提取各项情报特征之后，将情报特征输入异常检测模型，由异常检测模型对情报特征进行特征识别，并输出第一检测结果。一些方式中，异常检测模型输出的结果为0-1的概率值，概率值越大情报特征属于攻击事件的可能性越大。

一些实施方式中，获取网络流量之前，包括：

获取网络流量样本；

对网络流量样本进行去噪处理，得到去噪后的网络流量样本；

从去噪后的网络流量样本中提取情报特征样本；其中，情报特征样本包括五元组、流量统计特征、数据包统计特征、建立连接阶段特征和数据传输阶段特征；

分别按照源IP地址、目的IP地址和目的端口，将情报特征样本划分为三组特征样本；

基于归一化处理后的三组特征样本，对预设的深度学习模型进行训练，得到异常检测模型。

本实施例提供异常检测模型的训练方法。获取网络流量样本，例如，从网络中获取的真实的网络流量，或者是预设的数据样本集；对网络流量样本进行去噪处理，得到去噪后的网络流量样本，然后基于去噪后的网络流量样本提取情报特征样本，情报特征样本的各类特征如表1所示；然后，按照源IP地址将各类情报特征样本分为一组特征样本，按照目的IP地址将各类情报特征样本分为一组特征样本，按照目的端口将各类情报特征样本分为一组特征样本，分组后的特征样本中的特征值均为数值型特征；虽然各类特征的特征值均为数值型，但是不同特征的特征值取值范围和数量级可能不同，为便于模型处理，对三组特征样本的特征值进行统一的归一化处理，得到归一化的三组特征样本；基于归一化处理后的三组特征样本，对选取的深度学习模型进行训练，从而得到异常检测模型。可选的，异常检测模型可基于CNN模型通过训练得到。

S105：将资产语义特征输入预设的资产检测模型中，由资产检测模型输出第二检测结果；

本实施例中，为适于资产检测模型的处理，将资产语义特征转换为资产特征向量，然后将资产特征向量输入资产检测模型中，由资产检测模型对资产特征向量进行检测，判断其是否具有攻击组织的网络资产特性。一些方式中，资产检测模型是基于预先确定的属于网络攻击组织的网络资产信息经过训练得到的，即，通过分析确定网络攻击组织的网络资产信息样本，且这些网络资产信息样本具备组织成员间的相似性和资产变化性，利用网络资产信息对深度学习模型进行训练，得到资产检测模型，该模型能够识别输入的资产特征向量是否具有相似性和变化性，从而判断是否属于攻击事件。

可选的，资产检测模型基于BI-LSTM模型训练得到，该模型可以更好的捕捉较长距离的依赖关系和双向的语义依赖。资产语义特征经过word2vec转换得到资产特征向量。其中，可设置资产特征向量的长度阈值，如果转换后的特征向量长度小于长度阈值，则将剩余位补0，如果特征向量的长度大于长度阈值，则将超出部分截断，最终获得长度为长度阈值的资产特征向量。

一些方式中，资产检测模型输出的结果为0-1的概率值，概率值越大资产语义特征属于攻击事件的可能性越大。

S106：按照五元组和数据包统计特征对网络流量进行聚类，得到多组子流量；

S107：根据时间特征，计算各组子流量的周期系数；

通过分析，虽然攻击组织的控制服务器的域名和网络地址会发生变化，但是失陷终端上的恶意软件与控制服务器之间的通信模式具有周期性，且周期性不会变化，因此，通过检测通信模式是否具有周期性，能够有效识别是否存在攻击事件。

结合图2所示，本申请不仅利用异常检测模型基于特征识别检测网络流量，利用资产检测模型基于网络资产特性检测网络流量，还利用周期检测模型基于周期特性检测网络流量。其中，周期检测模型用于分析疑似攻击组织的网络流量是否具有周期性，如果具有周期性则属于攻击事件的可能性较大。

一些实施例中，按照五元组和数据包统计特征对网络流量进行聚类，得到多组子流量，包括：

将源IP地址、目的IP地址、目的端口和协议类型相同，单数据包的载荷大小相同的流量聚类为一组子流量；

根据时间特征，计算各组子流量的周期系数，包括：

本实施例中，周期检测模型检测网络流量是否具有周期性的方法包括：从网络流量中筛选出至少一组源IP地址相同、目的IP地址相同、目的端口相同、协议类型相同和单个数据包的载荷大小相同的流量，然后将源IP地址相同、目的IP地址相同、目的端口相同和单个数据包的载荷大小相同的流量聚类为一组子流量。对于每组子流量，确定源IP地址与目的IP地址的目的端口建立连接的多个时间戳，即，疑似失陷终端会周期性的向控制服务器发送建立连接的数据包，且每次发送的数据包的载荷大小相同，每次建立连接时携带本次连接的时间戳。

一些方式中，聚类后的子流量可以表示为R={r₁,r₂,…，r_n}，，其中，n为子流量的组数，S_i为第i组子流量的源IP地址，D_i为第i组子流量的目的IP地址，DP_i为第i组子流量的目的端口，P_i为第i组子流量的协议类型，Z_i为第i组子流量的建立连接的时间戳序列，表示为Z_i={T₁,T₂,…，T_m}，Tm为第m次建立连接的时间戳。

一些实施例中，根据源IP地址与目的IP地址的目的端口建立连接的多个时间戳，计算周期系数，包括：

计算时间差序列的自协方差；

将时间差序列平均分成两个子序列；

分别计算两个子序列的自协方差；

根据两个子序列的自协方差和时间差序列的自协方差，计算周期系数。

本实施例中，在确定出多组子流量以及各组子流量的时间戳序列之后，根据每组子流量的时间戳序列计算该组子流量的周期系数。对于时间戳序列中两两相邻的时间戳，计算二者的时间差，计算得到所有两两时间戳的时间差之后，由所有时间差构成时间差序列，表示为X={X₁,X₂,…，X_k}；计算时间差序列的自协方差，方法为：

（1）

其中，X_i为时间差序列中第i个时间差的值，为时间差序列中根据所有时间差的值计算得到的均值，k为时间差的数量。

将时间差序列X平均分为两个子序列A、B，其中，，；计算两个子序列的自协方差r(1)，方法为：

（2）

其中，A_j为子序列A中的第j个时间差的值，B_j为子序列B中的第j个时间差的值。

根据时间差序列的自协方差和两个子序列的自协方差，计算相关系数，即周期系数ACF（1），方法为：

（3）

计算出的周期系数在0-1之间，周期系数的取值越接近1，表明对应的子流量越具有周期性的特点。

S108：根据第一检测结果、第二检测结果和周期系数，确定网络流量的最终检测结果。

本实施例中，利用异常检测模型确定第一检测结果，利用资产检测模型确定第二检测模型，利用周期检测模型确定周期系数之后，融合三种检测结果确定最终的检测结果。一些方式中，可按照预设的投票算法，计算第一检测结果、第二检测结果和周期系数的加权投票结果，例如，利用voting算法计算最终结果，或者是根据设置的权重，计算三者的加权投票结果，具体的融合方法不做限定。

一些实施例中，考虑到网络流量中存在大量的扫描探针、爬虫和僵尸网络等对控制服务器进行扫描的噪声流量，从网络流量中提取情报特征之前，需要先对网络流量进行去噪处理，得到去噪后的网络流量，然后从去噪后的网络流量中提取情报特征，从而提高数据处理效率，提高检测准确性，降低误报率。

一些实施例中，对网络流量进行去噪处理，得到去噪后的网络流量，包括：

从网络流量中过滤源IP地址与目的IP地址的多个端口存在预定频率的连接次数的流量；

从网络流量中过滤网络协议为预设的安全协议的流量。

从网络流量中过滤源端口和/或目的端口为预设的网络服务端口的流量。

本实施例中，从网络流量中过滤三种噪声流量，一种是，疑似失陷终端的源IP地址，其与目的IP地址的多个不同端口的连接达到预定频率，即源IP地址频繁的与不同端口建立连接，此种情况认为是疑似扫描行为的噪声流量，可以过滤掉；第二种是，通信两端采用SSH协议进行通信，认为是探测行为的噪声流量，可以过滤掉；第三种是，通信两端中的任意一端属于22端口、3306端口或其他预定的端口，认为不属于疑似攻击的流量，可以过滤掉。按照上述方式对原始的网络流量进行过滤后，再进行后续的特征提取和子流量聚类等处理，可以有效降低数据处理量和复杂度，降低噪声流量的影响，提高检测准确性。

本申请实施例提供的基于时空关联的网络攻击组织，从网络流量中提取特征，利用异常检测模型基于特征识别检测是否存在攻击事件；从网络资产信息中提取特征，利用资产检测模型基于攻击组织部署网络资产的相似性和变化性，检测是否存在攻击事件；对于五元组相同、单数据包载荷相同的子流量，判断是否存在建立连接的周期性，具有周期性的子流量更符合攻击组织的攻击行为；最后，再融合异常检测模型的检测结果、资产检测模型的检测结果以及周期性检测结果，确定网络流量的最终检测结果。通过特征识别、时间上的周期特性、网络资产的相似性和变化性，综合检测是否存在攻击事件，检测结果更为全面、准确。

需要说明的是，本申请实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本申请实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

需要说明的是，上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

如图3所示，本申请实施例还提供一种基于时空关联的网络攻击组织追踪装置，包括：

获取模块，用于获取网络流量和网络资产信息；

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本申请实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置用于实现前述实施例中相应的方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

图4示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线 1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU（Central Processing Unit，中央处理器）、微处理器、应用专用集成电路（Application Specific Integrated Circuit，ASIC）、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM（Read Only Memory，只读存储器）、RAM（Random AccessMemory，随机存取存储器）、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中（图中未示出），也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块（图中未示出），以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式（例如USB、网线等）实现通信，也可以通过无线方式（例如移动网络、WIFI、蓝牙等）实现通信。

总线1050包括一通路，在设备的各个组件（例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040）之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

上述实施例的电子设备用于实现前述实施例中相应的方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存（PRAM）、静态随机存取存储器（SRAM）、动态随机存取存储器（DRAM）、其他类型的随机存取存储器（RAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、快闪记忆体或其他内存技术、只读光盘只读存储器（CD-ROM）、数字多功能光盘（DVD）或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围（包括权利要求）被限于这些例子；在本公开的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本申请实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本申请实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路（IC）芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本申请实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请实施例的平台的（即，这些细节应当完全处于本领域技术人员的理解范围内）。在阐述了具体细节（例如，电路）以描述本公开的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请实施例。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本公开的具体实施例对本公开进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构（例如，动态RAM（DRAM））可以使用所讨论的实施例。

本申请实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本申请实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.基于时空关联的网络攻击组织追踪方法，其特征在于，包括：

获取网络流量和网络资产信息；

根据所述网络资产信息，确定资产语义特征；

根据所述时间特征，计算各组子流量的周期系数；

2.根据权利要求1所述的方法，其特征在于，从所述网络流量中提取情报特征之前，还包括：

对所述网络流量进行去噪处理，得到去噪后的网络流量；

3.根据权利要求2所述的方法，其特征在于，对所述网络流量进行去噪处理，得到去噪后的网络流量，包括：

从所述网络流量中过滤网络协议为预设的安全协议的流量；

4.根据权利要求1所述的方法，其特征在于，按照所述五元组和数据包统计特征对所述网络流量进行聚类，得到多组子流量，包括：

根据所述时间特征，计算各组子流量的周期系数，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据源IP地址与目的IP地址的目的端口建立连接的多个时间戳，计算周期系数，包括：

计算所述时间差序列的自协方差；

将所述时间差序列平均分成两个子序列；

分别计算两个子序列的自协方差；

6.根据权利要求1-3中任意一项所述的方法，其特征在于，所述获取网络流量之前，包括：

获取网络流量样本；

7.根据权利要求6所述的方法，其特征在于，所述建立连接阶段特征包括每次建立通信的时间间隔平均值、每次建立通信的时间间隔最小值、每次建立通信的时间间隔最大值、通信建立阶段传输的数据包中证书数据包的字节数、通信建立阶段上行传输的数据包的字节数、通信建立阶段下行传输的数据包的字节数；所述数据传输阶段特征包括通信建立后传输的数据包数量、平均每次传输数据包的大小、平均两次传输数据包的时间间隔、两次传输数据包的时间间隔最小值、两次传输数据包的时间间隔最大值。

8.根据权利要求1所述的方法，其特征在于，根据所述网络资产信息，确定资产语义特征，包括：

将所述资产语义特征转换为资产特征向量；

9.根据权利要求1所述的方法，其特征在于，根据所述第一检测结果、第二检测结果和周期系数，确定所述网络流量的最终检测结果，包括：

10.基于时空关联的网络攻击组织追踪装置，其特征在于，包括：

获取模块，用于获取网络流量和网络资产信息；