CN115277102B

CN115277102B - 网络攻击检测方法、装置、电子设备及存储介质

Info

Publication number: CN115277102B
Application number: CN202210764380.0A
Authority: CN
Inventors: 安晓宁
Original assignee: Beijing Topsec Technology Co Ltd; Beijing Topsec Network Security Technology Co Ltd; Beijing Topsec Software Co Ltd
Current assignee: Beijing Topsec Technology Co Ltd; Beijing Topsec Network Security Technology Co Ltd; Beijing Topsec Software Co Ltd
Priority date: 2022-06-29
Filing date: 2022-06-29
Publication date: 2023-04-07
Anticipated expiration: 2042-06-29
Also published as: CN115277102A

Abstract

本公开涉及一种网络攻击检测方法、装置、电子设备及存储介质，其中，所述方法包括：采集时间窗口内的流量作为待检测流量，并从待检测流量中提取每条流量的第一类特征信息、第二类特征信息和第三类特征信息，生成特征文件；基于特征文件，生成待检测流量对应的无向拓扑图以及无向拓扑图中无向边的边特征，无向拓扑图中的节点根据第一类特征信息和第二类特征信息生成，边特征根据第三类特征信息确定；将无向拓扑图和边特征输入预先训练的网络攻击检测模型，以获取无向拓扑图中的每个节点为异常节点的预测概率；根据预测概率，从待检测流量中确定出攻击流量。由此，能够提升网络流量表征能力，从而有利于提高网络攻击检测的准确率。

Description

网络攻击检测方法、装置、电子设备及存储介质

技术领域

本公开涉及基础网络安全及人工智能技术领域，尤其涉及一种网络攻击检测方法、装置、电子设备及存储介质。

背景技术

网络流量是主要的网络状态之一，当网络攻击行为发生时，多会出现网络流量攻击现象，因此通过网络流量有效识别网络攻击行为是保障网络安全的重要手段。

机器学习是目前网络流量攻击检测的主流方法，但基于传统机器学习的网络攻击检测方法网络流量表征能力较弱，导致检测准确率较低。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开的至少一个实施例提供了一种网络攻击检测方法、装置、电子设备及存储介质。

第一方面，本公开提供了一种网络攻击检测方法，所述方法包括：

采集时间窗口内的流量作为待检测流量，其中，所述时间窗口的大小为预设大小；

从所述待检测流量中提取每条流量的第一类特征信息、第二类特征信息和第三类特征信息，生成特征文件，其中，所述第一类特征信息包括源IP和源端口，所述第二类特征信息包括目的IP和目的端口，所述第三类特征信息包括传输层协议、应用层协议、时间戳、上行字节数、下行字节数、上行生存时间、下行生存时间、上行丢包率、下行丢包率、上行每秒字节数、下行每秒字节数以及服务类型；

基于所述特征文件，生成所述待检测流量对应的无向拓扑图以及所述无向拓扑图中无向边的边特征，其中，所述无向拓扑图中的节点根据所述第一类特征信息和所述第二类特征信息生成，所述边特征根据所述第三类特征信息确定；

将所述无向拓扑图和所述边特征输入预先训练的网络攻击检测模型，以获取所述无向拓扑图中的每个节点为异常节点的预测概率；

根据所述预测概率，从所述待检测流量中确定出攻击流量。

第二方面，本公开提供了一种网络攻击检测装置，所述装置包括：

采集模块，用于采集时间窗口内的流量作为待检测流量，其中，所述时间窗口的大小为预设大小；

特征提取模块，用于从所述待检测流量中提取每条流量的第一类特征信息、第二类特征信息和第三类特征信息，生成特征文件，其中，所述第一类特征信息包括源IP和源端口，所述第二类特征信息包括目的IP和目的端口，所述第三类特征信息包括传输层协议、应用层协议、时间戳、上行字节数、下行字节数、上行生存时间、下行生存时间、上行丢包率、下行丢包率、上行每秒字节数、下行每秒字节数以及服务类型；

生成模块，用于基于所述特征文件，生成所述待检测流量对应的无向拓扑图以及所述无向拓扑图中无向边的边特征，其中，所述无向拓扑图中的节点根据所述第一类特征信息和所述第二类特征信息生成，所述边特征根据所述第三类特征信息确定；

预测结果获取模块，用于将所述无向拓扑图和所述边特征输入预先训练的网络攻击检测模型，以获取所述无向拓扑图中的每个节点为异常节点的预测概率；

确定模块，用于根据所述预测概率，从所述待检测流量中确定出攻击流量。

第三方面，本公开提供了一种电子设备，包括：处理器和存储器；所述处理器通过调用所述存储器存储的程序或指令，用于执行本公开第一方面提供的任一所述网络攻击检测方法的步骤。

第四方面，本公开提供了一种计算机可读存储介质，所述计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行本公开第一方面提供的任一所述网络攻击检测方法的步骤。

第五方面，本公开提供了一种计算机程序产品，所述计算机程序产品用于执行本公开第一方面提供的任一所述网络攻击检测方法的步骤。

本公开实施例提供的技术方案与现有技术相比至少具有如下优点：

在本公开实施例中，通过采集时间窗口内的流量作为待检测流量，时间窗口的大小为预设大小，并从待检测流量中提取每条流量的第一类特征信息、第二类特征信息和第三类特征信息，生成特征文件，第一类特征信息包括源IP和源端口，第二类特征信息包括目的IP和目的端口，第三类特征信息包括传输层协议、应用层协议、时间戳、上行字节数、下行字节数、上行生存时间、下行生存时间、上行丢包率、下行丢包率、上行每秒字节数、下行每秒字节数以及服务类型，接着，基于特征文件，生成待检测流量对应的无向拓扑图以及无向拓扑图中无向边的边特征，无向拓扑图中的节点根据第一类特征信息和第二类特征信息生成，边特征根据第三类特征信息确定，进而将无向拓扑图和边特征输入预先训练的网络攻击检测模型，以获取无向拓扑图中的每个节点为异常节点的预测概率，根据预测概率，从待检测流量中确定出攻击流量。采用上述技术方案，通过提取流量特征将待检测流量连接成无向拓扑图，来表征网络中各节点的依赖关系，提升了网络流量表征能力，从而有利于提高网络攻击检测的准确率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开一实施例提供的网络攻击检测方法的流程示意图；

图2为本公开实施例提供的一种流量特征三元组示例图；

图3为本公开实施例提供的一种无向拓扑图及对应的边特征的示意图；

图4为本公开另一实施例提供的网络攻击检测方法的流程示意图；

图5为本公开实施例中将样本无向拓扑图拆分为无向拓扑子图的示例图；

图6为本公开一实施例提供的网络攻击检测装置的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是，所描述的实施例是本公开的一部分实施例，而不是全部的实施例，此处所描述的具体实施例仅仅用于解释本公开，而非对本公开的限定，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。基于所描述的本公开的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本公开保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

常规的网络管理和流量监控手段通常仅能够看到流量异常突发的现象，却无法让管理人员深入分析异常流量产生的原因，也无法了解异常流量是哪些IP造成的、是否是恶意攻击行为、异常流量的行为特点等，导致难以采用有效的处理措施。

目前，通常基于机器学习实现网络攻击行为的检测，然而，基于传统机器学习的网络攻击检测方法，主要通过手动提取流量相关的静态特征来表征网络节点的行为，比如单条流量的超文本传输协议(Hyper Text Transfer Protocol，HTTP)载荷、使用词频-逆文档频率(Term Frequency–Inverse Document Frequency，TF-IDF)技术或其他技术提取样本的特征，等等。提取的特征只包含当前流的特征，而没有考虑其他通信节点对当前节点的影响，即无法有效捕捉非欧式空间的拓扑特征，使得网络流量表征能力较弱，从而导致检测准确率较低。

针对上述问题，本公开提供了一种网络攻击检测方法，通过采集时间窗口内的流量作为待检测流量，时间窗口的大小为预设大小，并从待检测流量中提取每条流量的第一类特征信息、第二类特征信息和第三类特征信息，生成特征文件，第一类特征信息包括源IP和源端口，第二类特征信息包括目的IP和目的端口，第三类特征信息包括传输层协议、应用层协议、时间戳、上行字节数、下行字节数、上行生存时间、下行生存时间、上行丢包率、下行丢包率、上行每秒字节数、下行每秒字节数以及服务类型，接着，基于特征文件，生成待检测流量对应的无向拓扑图以及无向拓扑图中无向边的边特征，无向拓扑图中的节点根据第一类特征信息和第二类特征信息生成，边特征根据第三类特征信息确定，进而将无向拓扑图和边特征输入预先训练的网络攻击检测模型，以获取无向拓扑图中的每个节点为异常节点的预测概率，根据预测概率，从待检测流量中确定出攻击流量。采用上述技术方案，通过提取流量特征将待检测流量连接成无向拓扑图，来表征网络中各节点的依赖关系，提升了网络流量表征能力，从而有利于提高网络攻击检测的准确率。

图1为本公开一实施例提供的网络攻击检测方法的流程示意图，该方法可以由本公开实施例提供的网络攻击检测装置执行，该网络攻击检测装置可以采用软件和/或硬件实现，并可集成在任意具有处理能力的电子设备上，例如电脑、手机等设备。

如图1所示，本公开实施例提供的网络攻击检测方法，可以包括以下步骤：

步骤101，采集时间窗口内的流量作为待检测流量，其中，所述时间窗口的大小为预设大小。

本公开实施例中，可以采集固定大小的时间窗口内的流量作为待检测流量。

其中，时间窗口的大小可以预先设定，比如预先设置时间窗口的大小为预设大小300秒、500秒等。

示例性地，可以采集距离当前时间300秒的历史时刻至当前时间这一时间窗口内所有主机的流量作为待检测流量，即时间窗口的历史时刻至当前时间的这一时间段作为一个时间窗口，时间窗口的大小为300秒，采集该时间窗口内所有主机的流量进行网络攻击行为的检测。

步骤102，从所述待检测流量中提取每条流量的第一类特征信息、第二类特征信息和第三类特征信息，生成特征文件。

其中，所述第一类特征信息包括源IP和源端口，所述第二类特征信息包括目的IP和目的端口，所述第三类特征信息包括传输层协议、应用层协议、时间戳、上行字节数、下行字节数、上行生存时间、下行生存时间、上行丢包率、下行丢包率、上行每秒字节数、下行每秒字节数以及服务类型。

本公开实施例中，采集了待检测流量之后，可以采用常用的流量特征提取技术，从待检测流量中提取每条流量的特征信息，包括每条待检测流量的源IP、源端口、目标IP、目标端口，还包括传输层协议、应用层协议、时间戳、上行字节数、下行字节数、上行生存时间、下行生存时间、上行丢包率、下行丢包率、上行每秒字节数、下行每秒字节数以及服务类型。其中，源IP和源端口为第一类特征信息，目的IP和目的端口为第二类特征信息，传输层协议、应用层协议、时间戳、上行字节数、下行字节数、上行生存时间、下行生存时间、上行丢包率、下行丢包率、上行每秒字节数、下行每秒字节数以及服务类型为第三类特征信息。

其中，传输层协议包括但不限于传输控制协议(Transmission ControlProtocol，TCP)、用户数据报协议(User Datagram Protocol，UDP)等。服务类型包括但不限于HTTP、域名系统(Domain Name System，DNS)、文件传输协议(FileTransferProtocol，FTP)、安全外壳协议(Secure Shell，SSH)等。

本公开实施例中，提取了每条待检测流量的第一类特征信息、第二类特征信息和第三类特征信息之后，可以基于提取的上述特征信息，生成待检测流量对应的特征文件。

示例性地，在生成特征文件时，可以将每一条待检测流量中提取的特征信息，按照第一类特征信息、第二类特征信息和第三类特征信息的顺序，记录在预设文件中，得到该时间窗口对应的特征文件。其中，在特征文件中，一条待检测流量的特征信息作为一条记录保存在特征文件中。

步骤103，基于所述特征文件，生成所述待检测流量对应的无向拓扑图以及所述无向拓扑图中无向边的边特征，其中，所述无向拓扑图中的节点根据所述第一类特征信息和所述第二类特征信息生成，所述边特征根据所述第三类特征信息确定。

本公开实施例中，生成特征文件之后，可以基于特征文件，生成待检测流量对应的无向拓扑图，以及生成无向拓扑图中无向边的边特征。

示例性地，在生成无向拓扑图时，可以将特征文件中记录的每个不同的第一类特征信息作为一个节点，以及将每个第二类特征信息作为一个节点，其中，相同的至少两个第一类特征信息共用一个节点，相同的至少两个第二类特征信息共用一个节点。之后，对于特征文件中记录的每条待检测流量的第一类特征信息、第二类特征信息和第三类特征信息，找到第一类特征信息和第二类特征信息分别对应的两个节点，这两个节点之间连接一条无向边，该无向边的边特征利用第三类特征信息进行表示，比如，将第三类特征信息作为无向边的边特征。遍历特征文件中的每条记录完成后，得到待检测流量对应的无向拓扑图，同时，无向拓扑图中无向边的边特征也确定。

步骤104，将所述无向拓扑图和所述边特征输入预先训练的网络攻击检测模型，以获取所述无向拓扑图中的每个节点为异常节点的预测概率。

其中，异常节点与正常节点相对，正常节点是指未产生或遭受网络攻击行为威胁的网络节点，异常节点则指产生攻击流量或遭受网络攻击的网络节点。

本公开实施例中，得到待检测流量对应的无向拓扑图和无向拓扑图中无向边的边特征之后，可以将无向拓扑图和边特征输入至预先训练好的网络攻击检测模型中，并获取网络攻击检测模型输出的无向拓扑图中每个节点为异常节点的预测概率。

其中，网络攻击检测模型是预先训练好的模型。在进行训练时，可以预先采集多个时间窗口内的大量流量，采集的流量包括正常服务产生的流量和模拟网络攻击产生的流量，并提取每条流量的第一类特征信息、第二类特征信息和第三类特征信息，经过上述类似的一系列处理生成每个时间窗口对应的无向拓扑图，称为样本无向拓扑图，以及生成样本无向拓扑图中各无向边的边特征，之后，利用各个样本无向拓扑图及对应的边特征作为训练数据，经过超参数调节和多次迭代训练优化，训练得到网络攻击检测模型。

本公开实施例中，网络攻击检测模型对输入的无向拓扑图和边特征进行处理，聚合各节点边的特征，生成节点的特征向量，进而基于特征向量对每个节点进行预测，并输出各节点为异常节点(即产生攻击流量)的预测概率。

步骤105，根据所述预测概率，从所述待检测流量中确定出攻击流量。

本公开实施例中，根据获取的无向拓扑图中每个节点为异常节点的预测概率，可以从待检测流量中确定出攻击流量。

示例性地，可以将每个节点对应的预测概率与预先设定的阈值进行比较，如果某个节点的预测概率大于该阈值，则确定该节点为异常节点，否则确定该节点为正常节点，则异常节点的IP和端口对应的流量为攻击流量。

本公开实施例的网络攻击检测方法，通过采集时间窗口内的流量作为待检测流量，时间窗口的大小为预设大小，并从待检测流量中提取每条流量的第一类特征信息、第二类特征信息和第三类特征信息，生成特征文件，第一类特征信息包括源IP和源端口，第二类特征信息包括目的IP和目的端口，第三类特征信息包括传输层协议、应用层协议、时间戳、上行字节数、下行字节数、上行生存时间、下行生存时间、上行丢包率、下行丢包率、上行每秒字节数、下行每秒字节数以及服务类型，接着，基于特征文件，生成待检测流量对应的无向拓扑图以及无向拓扑图中无向边的边特征，无向拓扑图中的节点根据第一类特征信息和第二类特征信息生成，边特征根据第三类特征信息确定，进而将无向拓扑图和边特征输入预先训练的网络攻击检测模型，以获取无向拓扑图中的每个节点为异常节点的预测概率，根据预测概率，从待检测流量中确定出攻击流量。采用上述技术方案，通过提取流量特征将待检测流量连接成无向拓扑图，来表征网络中各节点的依赖关系，提升了网络流量表征能力，从而有利于提高网络攻击检测的准确率。

在本公开的一种可选实施方式中，在生成特征文件时，可以从所述待检测流量中提取每条流量的第一类特征信息、第二类特征信息和第三类特征信息，进而，将所述每条流量对应的第一类特征信息、第二类特征信息和第三类特征信息作为一个三元组，写入预设格式的文件中，生成特征文件。

其中，文件的格式可以预先设定，每类特征信息在文件中的位置也可以预先设定。

示例性地，可以将第一类特征信息作为一个元素，将第二类特征信息作为第二个元素，将第三类特征信息作为第三个元素，按照第一个元素、第二个元素和第三个元素的顺序组成一个三元组，每一条待检测流量对应一个三元组，每个三元组作为一条记录保存到预设格式的文件中，得到待检测流量对应的特征文件。

图2为本公开实施例提供的一种流量特征三元组示例图，图2中，仅展示了一个特征文件的部分内容，其中，图2中的每一行表示一个三元组，源IP和源端口为三元组的第一个元素，目的IP和目的端口为三元组的第二个元素，剩余内容为三元组的第三个元素，能够理解的是，因篇幅限制，图2中仅展示了第三个元素的部分内容，未展示部分用“…”代替。

在本公开实施例中，通过将提取的每条流量的第一类特征信息、第二类特征信息和第三类特征信息作为一个三元组，写入预设格式的文件中生成特征文件，使得每条流量的特征信息简单明了，不易混淆，有利于保证后续生成拓扑图的准确性。

在本公开的一种可选实施方式中，在基于特征文件，生成待检测流量对应的无向拓扑图以及所述无向拓扑图中无向边的边特征时，可以先针对所述特征文件中记录的所述每条流量的第一类特征信息、第二类特征信息和第三类特征信息，根据所述第一类特征信息和所述第二类特征信息生成两个节点，并在所述两个节点之间生成一条无向边，并根据所述第三类特征信息确定所述一条无向边的边特征；之后，遍历根据所述特征文件中记录的所有流量的第一类特征信息、第二类特征信息生成的全部节点，将相同的第一类特征信息对应的不同节点进行合并，以及将相同的第二类特征信息对应的不同节点进行合并，得到所述待检测流量对应的无向拓扑图。

本公开实施例中，对于特征文件中记录的每一条流量的第一类特征信息、第二类特征信息和第三类特征信息，将第一类特征信息中源IP和源端口的组合视为一个节点，将第二类特征信息中目的IP和目的端口的组合视频一个节点，并在两个节点之间生成一条无向边，无向边的边特征根据第三类特征信息确定，比如，可以将第三类特征信息作为无向边的边特征，则特征文件中的每一条记录(包括第一类特征信息、第二类特征信息和第三类特征信息)均对应生成两个节点和一条无向边。在生成的全部节点中，可能存在重复的节点，比如，节点A的源IP和源端口，与节点B的源IP和源端口相同，则节点A和节点B为重复的节点，可以将节点A和节点B进行合并为一个节点。同样的，还可以将相同的第二类特征信息对应的不同节点进行合并。能够理解的是，节点合并不会影响边，边特征仍为合并前的边特征。在节点合并后，若出现一条无向边对应多个边特征的现象，则可以将多个边特征均作为该无向边的边特征，或者，可以采用特征处理方式对多个边特征进行相应处理后作为该无向边的边特征，本公开对此不作限制。

图3为本公开实施例提供的一种无向拓扑图及对应的边特征的示意图，如图3所示，在节点合并后，一个节点可以与多个节点分别存在一条无向边，无向拓扑图中的每个节点对应无向边的边特征。能够理解的是，图3中，因篇幅限制未能显示的边特征信息用“…”代替。

在本公开实施例中，通过针对特征文件中记录的每条第一类特征信息、第二类特征信息和第三类特征信息，生成两个节点和一条无向边的边特征，并对节点进行合并处理，得到待检测流量对应的无向拓扑图，由此，实现了将所有节点连接成拓扑图来表征网络中各节点的依赖关系，提高了网络流量表征能力，有利于提高网络流量攻击检测的准确率和命中率。

在本公开的一种可选实施方式中，在根据所述预测概率，从所述待检测流量中确定出攻击流量时，可以将所述预测概率与预设阈值进行比较，并获取预测概率大于所述预设阈值的目标节点对应的目标IP和目标端口；接着，将所述待检测流量中每条流量的第一类特征信息和第二类特征信息分别与所述目标IP和所述目标端口进行匹配，并将所述第一类特征信息或者所述第二类特征信息与所述目标IP和所述目标端口一致的目标流量，确定为攻击流量。

其中，预设阈值可以根据实际需求预先设定，比如，可以设置预设阈值为0.5。

本公开实施例中，从网络攻击检测模型获取了无无向拓扑图中每个节点对应的预测概率之后，可以将每个节点对应的预测概率分别与预设阈值进行比较，如果某个节点的预测概率大于预设阈值，则确定该节点为异常节点，将该节点确定为目标节点，并获取目标节点的IP和端口分别作为目标IP和目标端口。之后，将待检测流量中每条流量的第一类特征信息(即源IP和源端口)和第二类特征信息(即目的IP和目的端口)分别与目标节点的目标IP和目标端口进行匹配，如果某条流量的第一类特征信息与获取的目标IP和目标端口一致，则将该流量确定为目标流量；或者，如果某条流量的第二类特征信息与获取的目标IP和目标端口一致，则也将该流量确定为目标流量，进而将确定的目标流量确定为攻击流量。

能够理解的是，第一类特征信息与目标IP和目标端口一致，是指第一类特征信息中的源IP与目标IP一致，源端口与目标端口一致，同理，第二类特征信息与目标IP和目标端口一致，是指第二类特征信息中的目的IP与目标IP一致，目的端口与目标端口一致。

在本公开实施例中，通过将每个节点的预测概率与预设阈值进行比较，并获取预测概率大于预设阈值的目标节点对应的目标IP和目标端口，进而将待检测流量中每条流量的第一类特征信息和第二类特征信息分别与目标IP和目标端口进行匹配，将第一类特征信息或者第二类特征信息与目标IP和目标端口一致的目标流量确定为攻击流量，由此，能够从待检测流量中准确地识别出攻击流量，保证了网络流量攻击识别的命中率。

在本公开的一种可选实施方式中，如图4所示，前述实施例中所述的网络攻击检测模型，可以通过如下步骤训练得到：

步骤201，采集多个时间窗口内的样本流量，所述样本流量包括正常流量和模拟网络攻击产生的攻击流量。

其中，时间窗口的大小为预设大小，每个时间窗口的大小一致。

示例性地，可以从部署的所有主机中，选择多台主机执行模拟网络攻击行为，其他主机执行正常的网络服务，采集多个时间窗口内所有主机的流量，则采集的流量中既包含了执行正常的网络服务产生的正常流量，又包含了执行模拟网络攻击行为产生的攻击流量。

步骤202，从每条所述样本流量中提取样本特征信息，所述样本特征信息包括第一类特征信息、第二类特征信息和第三类特征信息。

步骤203，基于所述样本特征信息，生成所述多个时间窗口中每个时间窗口对应的样本特征文件。

步骤204，基于所述样本特征文件，生成所述多个时间窗口中每个时间窗口对应的样本无向拓扑图以及所述样本无向拓扑图中无向边的样本边特征。

需要说明的是，本公开实施例中，对步骤202～步骤204中提取样本特征信息、生成样本特征文件以及生成每个时间窗口对应的样本无向拓扑图以及对应的样本边特征的解释说明，可以参见前述实施例中步骤102～步骤103的说明及其相关描述，其实现原来类似，此处不再赘述。

步骤205，根据所述样本无向拓扑图以及所述样本无向拓扑图中无向边的样本边特征，生成训练样本集。

本公开实施例中，得到每个时间窗口采集的流量对应的样本无向拓扑图以及样本无向拓扑图中各无向边的样本边特征之后，可以根据样本无向拓扑图以及样本无向拓扑图中无向边的样本边特征，生成训练样本集。

示例性地，可以将一个样本无向拓扑图，以及该样本无向拓扑图中无向边的样本边特征，作为一个训练样本，则所有的样本无向拓扑图及边特征组成了训练样本集。

步骤206，基于所述训练样本集，对图注意力网络进行训练，得到所述网络攻击检测模型。

图注意力网络(Graph Attention Network，GAT)是一种使用了图注意力机制的图神经网络。图注意力网络将注意力机制引入到基于空间域的图神经网络，与基于谱域的图卷积神经网络不同，图注意力网络不需要使用拉普拉斯等矩阵进行复杂的计算，仅是通过一介邻居节点的表征来更新节点特征。具体的，图注意力网络使用自注意力机制计算图中某个节点相对于每个临近节点的注意力，并对临近节点特征进行加权聚合，生成该节点的表达。图注意力网络对所有节点训练一个共享的权重矩阵W，权重矩阵将每个节点的特征F映射到F’。计算注意力时，将节点i与邻接节点j的特征F_i和F_j分别使用权重矩阵映射到F'_i和F'_j，并拼接两个输出向量。之后使用前馈神经网络a将拼接向量映射到实数上，通过LeakyReLU激活并归一化后得到最终的注意力系数。其中，节点i与邻接节点j之间的注意力系数(e_ij)可以通过如下公式计算得到。

e_ij＝LeakyRelu(a[WF_i||WF_j])

本公开实施例中，获取了训练样本集之后，可以基于训练样本集对GAT网络进行训练，通过GAT网络聚合样本无向拓扑图中各节点的边特征，生成节点的特征向量，并基于特征向量预测节点为异常节点的概率，以及根据预测结果反复进行超参数调节及迭代训练，最终得到训练好的网络攻击检测模型。利用训练好的网络攻击检测模型，能够识别出流量中的异常节点，从而检测出攻击流量。

通过图注意力网络进行自动化的特征表示学习和拓扑模式学习，有效地解决了现有的攻击检测方法中过度依赖人工特征提取、无法捕捉非欧式空间的图拓扑关系以及忽略了节点之间的相互影响的缺陷，能够提高网络攻击模型的预测准确率和命中率。

本公开实施例的网络攻击检测方法，通过采集多个时间窗口内的样本流量，样本流量包括正常流量和模拟网络攻击产生的攻击流量，从每条样本流量中提取样本特征信息，样本特征信息包括第一类特征信息、第二类特征信息和第三类特征信息，并基于样本特征信息，生成多个时间窗口中每个时间窗口对应的样本特征文件，进而基于样本特征文件，生成多个时间窗口中每个时间窗口对应的样本无向拓扑图以及样本无向拓扑图中无向边的样本边特征，接着根据样本无向拓扑图以及样本无向拓扑图中无向边的样本边特征，生成训练样本集，进而基于训练样本集，对图注意力网络进行训练，得到网络攻击检测模型。采用本公开的方案，通过构建无向拓扑图以及无向边的边特征生成训练样本集对图注意力网络进行训练得到网络攻击检测模型，图注意力网络能够进行自动化的特征表示学习和拓扑模式学习，提升了节点的表征能力，从而能够提高网络攻击检测模型的检测准确率，有利于提高网络攻击检测的命中率。

在本公开的一种可选实施方式中，在根据样本无向拓扑图以及样本无向拓扑图中无向边的样本边特征，生成训练样本集时，可以对每个样本无向拓扑图进行拆分，拆分为多个子图。具体地，对于每个所述样本无向拓扑图，可以从所述样本无向拓扑图中确定出目标无向边，其中，所述目标无向边连接的两个样本节点之间除所述目标无向边之外无其他路径能够连通所述两个样本节点点；删除所述样本无向拓扑图中的所述目标无向边，生成多个无向拓扑子图；以及，根据每个所述样本无向拓扑图中无向边的样本边特征和所述多个无向拓扑子图，确定所述多个无向拓扑子图中无向边的样本边特征；进而，基于所述多个无向拓扑子图，以及所述多个无向拓扑子图中无向边的样本边特征，生成所述训练样本集。

本公开实施例中，对于每个样本无向拓扑图，针对拓扑图中的每一条无向边，可以从该边连接的两个样本节点出发，查找能够连通这两个样本节点的所有路径，包括直接连通这两个节点的路径，也包括借助其他节点连通这两个样本节点的路径，如果仅查找到上述一条无向边对应的路径能够连通两个样本节点，除该无向边外再无其他路径能够连通两个样本节点，则表明删除该边可以生成两个独立的子图，则删除该边，否则保留该边。唯一查找到的能够连通两个样本节点的无向边，即为目标无向边，删除目标无向边可以生成两个独立的子图，称为无向拓扑子图。如果一个样本无向拓扑图中存在多个目标无向边，则删除目标无向边可以得到多个无向拓扑子图。

示例性地，图5为本公开实施例中将样本无向拓扑图拆分为无向拓扑子图的示例图。如图5所示，上图的样本无向拓扑图中，对于无向边L1两端的两个节点，即样本节点D和样本节点G，连通这两个节点的路径有两条，分别为无向边L1对应的路径及路径D-H-G，则表明删除无向边L1后的图仍为完整的拓扑图，无法得到两个独立的图。而对于无向边L2两端的两个节点，即样本节点C和样本节点D，除了无向边L2对应的路径之外，无其他路径能够连通样本节点C和样本节点D，则无向边L2为目标无向边，将无向边L2删除，可以得到下图所示的两个无向拓扑子图。

本公开实施例中，对于删除的目标无向边，其对应的边特征也被删除，根据每个样本无向拓扑图中无向边的样本边特征和多个无向拓扑子图，可以删除目标无向边对应的边特征，生成每个无向拓扑子图对应的样本边特征。

能够理解的是，当一个样本无向拓扑图被拆分为多个无向拓扑子图时，该样本无向拓扑图中无向边的样本边特征，也对应的被拆分为多组样本边特征，每组样本边特征对应一个无向拓扑子图中的所有无向边。

接着，基于多个无向拓扑子图，以及多个无向拓扑子图中无向边的样本边特征，生成训练样本集，其中，一个无向拓扑子图以及该无向拓扑子图中无向边的样本边特征组成一个训练样本。

在本公开实施例中，通过从样本无向拓扑图中确定出目标无向边并删除，得到多个无向拓扑子图，能够降低拓扑图整体的复杂度，有利于降低模型训练时的数据处理复杂度，从而提高模型训练速度。

通常，采集的样本流量中包含较多的正常流量，而攻击流量相对于正常流量而言要少的多，从而根据样本流量确定的训练样本集中，正负样本的数量严重不平衡，使得训练得到的网络攻击检测模型向多样本的类别倾斜，影响模型精度。因此，在本公开的一种可选实施方式中，在基于所述多个无向拓扑子图，以及所述多个无向拓扑子图中无向边的样本边特征，生成所述训练样本集时，根据模拟网络攻击的主机的IP和端口，从所述多个无向拓扑子图中确定出目标无向拓扑子图，其中，所述目标无向拓扑子图中的至少一个样本节点与所述模拟网络攻击的主机的IP和端口对应；基于所述目标无向拓扑子图，以及所述目标无向拓扑子图中无向边的样本边特征，生成所述训练样本集。

本公开实施例中，对于拆分得到的多个无向拓扑子图，可以根据模拟网络攻击的主机的IP和端口，判断无向拓扑子图中是否存在包含模拟网络攻击的主机的IP和端口对应的节点，比如，某个无向拓扑子图中的节点F的IP和模拟网络攻击的主机的IP一致，节点F的端口和模拟网络攻击的主机的端口一致，则确定节点F为与模拟网络攻击的主机的IP和端口对应的节点，并将该无向拓扑子图确定为目标无向拓扑子图。如果某个无向拓扑子图中的所有节点均与模拟网络攻击的主机的IP和端口不对应，则将该无向拓扑子图删除。由此，使得最终保留的仅是包含与模拟网络攻击的主机的IP和端口对应的节点的目标无向拓扑子图，进而基于目标无向拓扑子图，以及目标无向拓扑子图中无向边的样本边特征，生成训练样本集。

示例性地，可以在网络攻击检测装置中预先保存模拟网络攻击的主机的IP和端口，在生成多个无向拓扑子图之后，网络攻击检测装置将各个无向拓扑子图中各节点对应的IP和端口与网络攻击检测装置模拟网络攻击的主机的IP和端口进行比对，查找出目标无向拓扑子图来生成训练样本集。

示例性地，由于模拟网络攻击是人为操作的，因此在生成多个无向拓扑子图之后，可以由人工对无向拓扑子图中的各个节点进行标记，针对每个无向拓扑子图中的节点，将节点的IP和端口与模拟网络攻击的主机的IP和端口一致的节点标记为1，将其他节点标记为0。之后，网络攻击检测装置遍历每个无向拓扑子图中的所有节点，如果某个无向拓扑子图中的所有节点的标记均为0，则删除该无向拓扑子图，若某个无向拓扑子图中包含标记为1的节点，则将该无向拓扑子图确定为目标无向拓扑子图，最终利用保留的目标无向拓扑子图及目标无向拓扑子图中无向边的样本边特征，生成训练样本集。

在本公开实施例中，通过根据模拟网络攻击的主机的IP和端口，从多个无向拓扑子图中确定出目标无向拓扑子图，其中，目标无向拓扑子图中的至少一个样本节点与所述模拟网络攻击的主机的IP和端口对应，之后基于目标无向拓扑子图，以及目标无向拓扑子图中无向边的样本边特征，生成训练样本集，由此，删除了无向拓扑图中仅包含同类标签的子图，使得生成的训练样本集中的正负样本相对平衡，进而利用生成的训练样本集训练得到网络攻击检测模型，能够使得网络攻击检测模型不会向多样本的类别倾斜，从而提高了网络攻击检测模型的精度。

本公开提供的网络攻击检测方法，可以应用于入侵检测设备进行网络攻击检测。具体地，入侵检测设备的流量采集模块采集固定大小的时间窗口(比如300秒)内所有主机的流量，提取并解析每条流量的三类特征信息，第一类特征信息为源IP、源端口；第二类特征信息为目的IP、目的端口；第三类特征信息为传输层协议、应用层协议、时间戳、上行字节数、下行字节数、上行生存时间、下行生存时间、上行丢包率、下行丢包率、上行每秒字节数、下行每秒字节数以及服务类型中的至少一种。每条流量的三类特征信息组成一个三元组，记录在预设格式的特征文件中。之后，入侵检测设备的图构建模块解析特征文件中的每个三元组，三元组中源IP、源端口和目的IP、目的端口的组合为两个独立的节点，其余特征为两个节点的边特征，将所有节点连接成无向拓扑图。入侵检测设备的模型推理模块从设备磁盘加载预先训练好的网络攻击检测模型，将无向拓扑图和各个边特征输入到网络攻击检测模型，由网络攻击检测模型输出无向拓扑图中每个节点产生攻击流量的概率，根据概率能够检测出攻击节点，进而确定出产生攻击流量的主机。

为了实现上述实施例，本公开还提供了一种网络攻击检测装置。

图6为本公开一实施例提供的网络攻击检测装置的结构示意图，该装置可以采用软件和/或硬件实现，并可集成在任意具有处理能力的电子设备上，例如手机、电脑等设备。

如图6所示，本公开实施例提供的网络攻击检测装置40可以包括：采集模块410、特征提取模块420、生成模块430、预测结果获取模块440和确定模块450。

其中，采集模块410，用于采集时间窗口内的流量作为待检测流量，其中，所述时间窗口的大小为预设大小；

特征提取模块420，用于从所述待检测流量中提取每条流量的第一类特征信息、第二类特征信息和第三类特征信息，生成特征文件，其中，所述第一类特征信息包括源IP和源端口，所述第二类特征信息包括目的IP和目的端口，所述第三类特征信息包括传输层协议、应用层协议、时间戳、上行字节数、下行字节数、上行生存时间、下行生存时间、上行丢包率、下行丢包率、上行每秒字节数、下行每秒字节数以及服务类型；

生成模块430，用于基于所述特征文件，生成所述待检测流量对应的无向拓扑图以及所述无向拓扑图中无向边的边特征，其中，所述无向拓扑图中的节点根据所述第一类特征信息和所述第二类特征信息生成，所述边特征根据所述第三类特征信息确定；

预测结果获取模块440，用于将所述无向拓扑图和所述边特征输入预先训练的网络攻击检测模型，以获取所述无向拓扑图中的每个节点为异常节点的预测概率；

确定模块450，用于根据所述预测概率，从所述待检测流量中确定出攻击流量。

在本公开实施例一种可能的实现方式中，所述特征提取模块420还用于：

从所述待检测流量中提取每条流量的第一类特征信息、第二类特征信息和第三类特征信息；

将所述每条流量对应的第一类特征信息、第二类特征信息和第三类特征信息作为一个三元组，写入预设格式的文件中，生成特征文件。

在本公开实施例一种可能的实现方式中，生成模块430还用于：

针对所述特征文件中记录的所述每条流量的第一类特征信息、第二类特征信息和第三类特征信息，根据所述第一类特征信息和所述第二类特征信息生成两个节点，并在所述两个节点之间生成一条无向边；

根据所述第三类特征信息确定所述一条无向边的边特征；

遍历根据所述特征文件中记录的所有流量的第一类特征信息、第二类特征信息生成的全部节点，将相同的第一类特征信息对应的不同节点进行合并，以及将相同的第二类特征信息对应的不同节点进行合并，得到所述待检测流量对应的无向拓扑图。

在本公开实施例一种可能的实现方式中，所述确定模块450还用于：

将所述预测概率与预设阈值进行比较，并获取预测概率大于所述预设阈值的目标节点对应的目标IP和目标端口；

将所述待检测流量中每条流量的第一类特征信息和第二类特征信息分别与所述目标IP和所述目标端口进行匹配；

将所述第一类特征信息或者所述第二类特征信息与所述目标IP和所述目标端口一致的目标流量，确定为攻击流量。

在本公开实施例一种可能的实现方式中，所述网络攻击检测装置40，还包括：训练模块，所述训练模块用于：

采集多个时间窗口内的样本流量，所述样本流量包括正常流量和模拟网络攻击产生的攻击流量；

从每条所述样本流量中提取样本特征信息，所述样本特征信息包括第一类特征信息、第二类特征信息和第三类特征信息；

基于所述样本特征信息，生成所述多个时间窗口中每个时间窗口对应的样本特征文件；

基于所述样本特征文件，生成所述多个时间窗口中每个时间窗口对应的样本无向拓扑图以及所述样本无向拓扑图中无向边的样本边特征；

根据所述样本无向拓扑图以及所述样本无向拓扑图中无向边的样本边特征，生成训练样本集；

基于所述训练样本集，对图注意力网络进行训练，得到所述网络攻击检测模型。

在本公开实施例一种可能的实现方式中，所述训练模块还用于：

对于每个所述样本无向拓扑图，从所述样本无向拓扑图中确定出目标无向边，其中，所述目标无向边连接的两个样本节点之间除所述目标无向边之外无其他路径能够连通所述两个样本节点；

删除所述样本无向拓扑图中的所述目标无向边，生成多个无向拓扑子图；

根据每个所述样本无向拓扑图中无向边的样本边特征和所述多个无向拓扑子图，确定所述多个无向拓扑子图中无向边的样本边特征；

基于所述多个无向拓扑子图，以及所述多个无向拓扑子图中无向边的样本边特征，生成所述训练样本集。

根据模拟网络攻击的主机的IP和端口，从所述多个无向拓扑子图中确定出目标无向拓扑子图，其中，所述目标无向拓扑子图中的至少一个样本节点与所述模拟网络攻击的主机的IP和端口对应；

基于所述目标无向拓扑子图，以及所述目标无向拓扑子图中无向边的样本边特征，生成所述训练样本集。

本公开实施例所提供的应用于电子设备上的网络攻击检测装置，可执行本公开实施例所提供的任意可应用于电子设备的网络攻击检测方法，具备执行方法相应的功能模块和有益效果。本公开装置实施例中未详尽描述的内容可以参考本公开任意方法实施例中的描述。

本公开实施例还提供了一种电子设备，包括处理器和存储器；所述处理器通过调用所述存储器存储的程序或指令，用于执行如前述实施例所述网络攻击检测方法各实施例的步骤，为避免重复描述，在此不再赘述。

本公开实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质为非暂态的，所述计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如前述实施例所述网络攻击检测方法各实施例的步骤，为避免重复描述，在此不再赘述。

本公开实施例还提供了一种计算机程序产品，所述计算机程序产品用于执行如前述实施例所述网络攻击检测方法各实施例的步骤。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种网络攻击检测方法，其特征在于，所述方法包括：

根据所述预测概率，从所述待检测流量中确定出攻击流量；

其中，所述网络攻击检测模型通过以下步骤训练得到：

基于所述训练样本集，对图注意力网络进行训练，得到所述网络攻击检测模型；

其中，所述根据所述样本无向拓扑图以及所述样本无向拓扑图中无向边的样本边特征，生成训练样本集，包括：

2.根据权利要求1所述的网络攻击检测方法，其特征在于，所述从所述待检测流量中提取每条流量的第一类特征信息、第二类特征信息和第三类特征信息，生成特征文件，包括：

3.根据权利要求1所述的网络攻击检测方法，其特征在于，所述基于所述特征文件，生成所述待检测流量对应的无向拓扑图以及所述无向拓扑图中无向边的边特征，包括：

根据所述第三类特征信息确定所述一条无向边的边特征；

4.根据权利要求1所述的网络攻击检测方法，其特征在于，所述根据所述预测概率，从所述待检测流量中确定出攻击流量，包括：

5.一种网络攻击检测装置，其特征在于，所述装置包括：

确定模块，用于根据所述预测概率，从所述待检测流量中确定出攻击流量；

所述装置还包括：训练模块，所述训练模块用于：

其中，所述训练模块，还用于：

6.一种电子设备，其特征在于，包括：处理器和存储器；

所述处理器通过调用所述存储器存储的程序或指令，用于执行如权利要求1至4任一项所述网络攻击检测方法的步骤。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如权利要求1至4任一项所述网络攻击检测方法的步骤。