CN114866297A

CN114866297A - 网络数据检测方法、装置、电子设备及存储介质

Info

Publication number: CN114866297A
Application number: CN202210420670.3A
Authority: CN
Inventors: 王妍; 吕遒健; 王蕾祺; 管昊; 张琪; 宗扬扬
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2022-04-20
Filing date: 2022-04-20
Publication date: 2022-08-05
Anticipated expiration: 2042-04-20
Also published as: CN114866297B

Abstract

本发明提供一种网络数据检测方法、装置、电子设备及存储介质，所述方法包括：获取待检测网络数据；基于威胁检测模型，对待检测网络数据进行检测，获取检测结果，检测结果用于表征待检测网络数据对应的网络行为对网络系统的威胁情况；威胁检测模型是基于目标数据样本集训练获取的，目标数据样本集是基于注意力机制对网络系统的历史网络数据进行过采样获取的，目标数据样本集中正样本的数量与负样本的数量相等。本发明实施例通过注意力机制对历史网络数据进行过采样，可以减少过采样过程中的冗余数据并避免数据丢失，进而基于目标数据样本集可以训练获取威胁检测模型，可以提高威胁检测模型在真实网络环境中检测效率和识别能力。

Description

网络数据检测方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种网络数据检测方法、装置、电子设备及存储介质。

背景技术

在计算机网络系统中，攻击者可以利用网络系统的缺陷对计算机网络系统进行攻击，可以通过威胁检测模型来检测这些威胁。由于网络异常行为在网络活动中的占比很小，因此在网络流量数据和系统日志数据中，威胁数据与正常数据之间的分布是不平衡的，网络数据分布不平衡的特点给威胁检测模型的训练带来挑战。

相关技术中，通过数据再平衡技术来解决数据分布不平衡的问题，但由于平衡后的训练数据集存在数据冗余或是数据丢失，导致检测模型在真实网络环境中检测效率和识别能力较低。

发明内容

本发明提供一种网络数据检测方法、装置、电子设备及存储介质，用以解决现有技术中平衡后的训练数据集存在数据冗余或是数据丢失的缺陷，实现减少过采样过程中的冗余数据并避免数据丢失。

第一方面，本发明提供一种网络数据检测方法，包括：

获取待检测网络数据；

基于威胁检测模型，对所述待检测网络数据进行检测，获取检测结果，所述检测结果用于表征所述待检测网络数据对应的网络行为对网络系统的威胁情况；

所述威胁检测模型是基于目标数据样本集训练获取的，所述目标数据样本集是基于注意力机制对所述网络系统的历史网络数据进行过采样获取的，所述目标数据样本集中正样本的数量与负样本的数量相等。

可选地，根据本发明提供的一种网络数据检测方法，所述威胁检测模型通过如下方式构建：

获取所述历史网络数据，所述历史网络数据包括正样本标签对应的第一网络数据和负样本标签对应的第二网络数据；

基于注意力机制，对所述负样本标签对应的第二网络数据进行过采样，获取所述负样本标签对应的第三网络数据；

基于所述正样本标签对应的第一网络数据和所述负样本标签对应的第三网络数据，获取所述目标数据样本集；

基于所述目标数据样本集，对目标模型进行训练，获取所述威胁检测模型。

可选地，根据本发明提供的一种网络数据检测方法，所述基于注意力机制，对所述负样本标签对应的第二网络数据进行过采样，获取所述负样本标签对应的第三网络数据，包括：

基于合成少数类过采样法SMOTE，对所述负样本标签对应的一个或多个第二网络数据进行过采样，获取所述负样本标签对应的一个或多个第四网络数据；

基于注意力机制，对所述负样本标签对应的一个或多个第四网络数据进行重新分布，获取所述负样本标签对应的第三网络数据。

可选地，根据本发明提供的一种网络数据检测方法，所述基于合成少数类过采样法SMOTE，对所述负样本标签对应的一个或多个第二网络数据进行过采样，获取所述负样本标签对应的一个或多个第四网络数据，包括：

基于K最近邻算法，针对所述一个或多个第二网络数据，确定每一个所述第二网络数据对应的K个近邻，所述K为正整数；

基于每一个所述第二网络数据和每一个所述第二网络数据对应的K个近邻，获取每一个所述第二网络数据对应的N个第五网络数据，N是采样倍率；

基于每一个所述第二网络数据和每一个所述第二网络数据对应的N个第五网络数据，获取所述负样本标签对应的一个或多个第四网络数据。

可选地，根据本发明提供的一种网络数据检测方法，所述基于注意力机制，对所述负样本标签对应的一个或多个第四网络数据进行重新分布，获取所述负样本标签对应的第三网络数据，包括：

针对所述负样本标签对应的一个或多个第四网络数据，确定目标顺序；

基于目标顺序和注意力函数，对所述一个或多个第四网络数据中的每一个第四网络数据进行重新分布，获取所述负样本标签对应的第三网络数据。

可选地，根据本发明提供的一种网络数据检测方法，所述对所述一个或多个第四网络数据中的每一个第四网络数据进行重新分布，包括：

根据公式

对Q进行重新分布；

其中，Attention(·)表示所述注意力函数，Q为所述负样本标签对应的一个或多个第四网络数据中任意一个第四网络数据，S为所述目标顺序中与Q相邻的第四网络数据，d表示Q的维度。

第二方面，本发明还提供一种网络数据检测装置，包括：

第一获取模块，用于获取待检测网络数据；

第二获取模块，用于基于威胁检测模型，对所述待检测网络数据进行检测，获取检测结果，所述检测结果用于表征所述待检测网络数据对应的网络行为对网络系统的威胁情况；

第三方面，本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述网络数据检测方法。

第四方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述网络数据检测方法。

第五方面，本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述网络数据检测方法。

本发明提供的网络数据检测方法、装置、电子设备及存储介质，通过注意力机制对网络系统的历史网络数据进行过采样，可以减少过采样过程中的冗余数据并避免数据丢失，并获取目标数据样本集，使得目标数据样本集中正样本的数量与负样本的数量相等，进而基于目标数据样本集可以训练获取威胁检测模型，可以提高威胁检测模型在真实网络环境中检测效率和识别能力。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的网络数据检测方法的流程示意图之一；

图2是本发明提供的网络数据检测方法的流程示意图之二；

图3是本发明提供的网络数据检测装置的结构示意图；

图4是本发明提供的电子设备的结构示意图。

具体实施方式

为了便于更加清晰地理解本发明各实施例，首先对一些相关的背景知识进行如下介绍。

在计算机网络系统中，威胁数据指的是记录网络系统中发生异常行为时的系统日志数据和网络流量数据，其中异常行为包括例如越权访问等的内部威胁和恶意病毒等外部威胁。但是异常行为在网络活动中的占比很小，因此在网络流量数据和系统日志数据中，威胁数据与正常数据之间的分布是不平衡的。

通过数据采样技术可以解决数据分布不平衡的缺陷。数据采样技术主要有欠采样和过采样两种方法。

机器学习方法可以被应用到威胁数据的检测中，基于这些方法对模型进行训练时，所使用数据集中的异常数据与正常数据的总数相差不大，即威胁检测模型的训练过程是在平衡的数据集上进行。但在真实网络环境中，正常的网络数据是远远多于异常数据的。这就导致一些模型在训练过程中实验结果理想，但是在真实的网络系统时并不能对网络流量数据和系统日志数据的分析有同样好的结果。因此，威胁检测方法不能在真实网络系统环境中达到预期的效果，在应用到真实的计算机网络系统时，无法完成设定的目标。

相关技术中针对不平衡数据的采样方法，包括过采样和欠采样。例如有通过合成少数类过采样法(Synthetic Minority Oversampling Technique，SMOTE)的重抽样比率来解决不平衡数据的缺陷；也有使用过采样，欠采样以及将样例权重相结合的混合采样方法；基于孪生神经网络的分类方法来解决不平衡数据的缺陷，以及基于深度学习的模糊过采样方法。这些方法基本都是对威胁数据通过采样技术进行处理，使得它的数据重新平衡，然后应用到各种威胁检测模型。

欠采样方法主要包括多类类别不平衡学习(Easy Ensemble)算法和非平衡数据集分类(Balance Cascade)算法。

Easy Ensemble算法通过将多数类样本随机分成多个子集，每个子集分别与少数类合并，得到多个新的训练子集，并利用每个训练子集训练一个迭代算法(AdaBoost)基分类器，最后集成所有基分类器，得到最终的分类器。这种方法虽然解决了数据分布不平衡缺陷，同时也可以减少欠采样造成的多数类样本的信息损失。Easy Ensemble算法没有考虑到在少数类样本欠缺的情况，此时少数类的样本数会远小于训练分类器所需的样本数，导致每个基分类器的分类性能差，更进一步会导致最终的分类器性能也很差。

Balance Cascade算法的总体思想是首先通过一次下采样产生训练集，训练一个分类器，对于那些分类正确的多数类样本不放回，然后对这个更小的多数类样本进行下采样，产生新的训练集，训练第二个分类器，以此类推，最终组合所有分类器的结果得到最终结果。

虽然通过Easy Ensemble和Balance Cascade这两种算法可以将多数类样本划分成多个少数类样本的子集。但是采用这两种欠采样方法的模型依然存在对于其他子集所携带的信息会被遗失的问题。

由于欠采样方法在针对不平衡的数据分布时往往会产生数据丢失的情况，所以在针对威胁数据的检测时，可以选择过采样方法来解决数据不平衡的问题，过采样方法主要分为以下两种算法：SMOTE算法以及自适应合成抽样(Adaptive Synthetic Sampling，ADASYN)算法。

SMOTE算法是确定一个少数类的多维样本点，通过计算欧式距离确定一个大致的范围，在这个范围内按照一定的参数生成少数类样本。

ADASYN算法是根据数据分布情况，为不同的少数类样本生成不同数量的新样本。根据最终的平衡程度，设定总共需要生成新的少数类样本数量，然后为每个少数类样本x计算分布比例。

过采样方法可以避免欠采样方法中数据遗失问题，但如果使用过采样方法时，添加了过多相似数据至少数类样本中，会造成在一个区域内会存在许多相同的样本，这样会使检测数据产生冗余，冗余的数据造成后续的威胁检测模型产生过拟合问题。

相关技术中，针对网络流量数据以及系统日志数据的分析，已有的采样方法中主要存在着以下的不足：

对于重新平衡数据的欠采样方法，因为它通过删除多数类的样本数据来使数据分布重新平衡，这样在流量数据或是日志数据不充分的情况下容易造成重要信息丢失的缺陷；

对于重新平衡数据的过采样方法，在实际的应用中容易产生数据冗余问题，造成威胁检测模型的检测效果不佳；

采样方法应用于威胁数据检测时，由于数据冗余或是数据丢失的原因，导致检测模型在真实网络环境中检测效率和识别能力较低。

为了克服上述缺陷，本发明提供一种网络数据检测方法、装置、电子设备及存储介质，通过基于注意力机制对所述网络系统的历史网络数据进行过采样，可以减少过采样过程中的冗余数据并避免数据丢失。

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明提供的网络数据检测方法的流程示意图之一，如图1所示，所述网络数据检测方法的执行主体可以是电子设备，如个人电脑或服务器等，该方法包括：

步骤101，获取待检测网络数据；

具体地，可以从计算机网络系统中的设备获取待检测网络数据，待检测网络数据可以是待检测的网络流量数据或待检测的系统日志数据。

可选地，待检测的网络流量数据可以是网络流量数据中的正常网络行为对应的正常数据，待检测的网络流量数据也可以是网络流量数据中的异常网络行为对应的威胁数据，其中，正常网络行为可以是用户按网络系统的预设流程对网络系统进行访问的行为，异常网络行为可以是用户对网络系统发起的攻击行为。

可选地，待检测的系统日志数据可以是系统日志数据中的正常网络行为对应的正常数据，待检测的系统日志数据也可以是系统日志数据中的异常网络行为对应的威胁数据，其中，正常网络行为可以是用户按网络系统的预设流程对网络系统进行访问的行为，异常网络行为可以是外部设备或内部用户对网络系统发起的攻击行为。

步骤102，基于威胁检测模型，对所述待检测网络数据进行检测，获取检测结果，所述检测结果用于表征所述待检测网络数据对应的网络行为对网络系统的威胁情况；

具体地，在获取到待检测网络数据之后，可以通过威胁检测模型对待检测网络数据进行检测，进而可以获取检测结果，检测结果可以表征待检测网络数据对应的网络行为是正常网络行为或异常网络行为。

可以理解的是，通过注意力机制对网络系统的历史网络数据进行过采样，可以获取目标数据样本集，以使目标数据样本集中正样本的数量与负样本的数量相等，进而基于目标数据样本集可以对模型进行训练，获取威胁检测模型，其中，正样本是正常网络行为对应的正常数据，负样本是异常网络行为对应的威胁数据。

本发明提供的网络数据检测方法，通过注意力机制对网络系统的历史网络数据进行过采样，可以减少过采样过程中的冗余数据并避免数据丢失，并获取目标数据样本集，使得目标数据样本集中正样本的数量与负样本的数量相等，进而基于目标数据样本集可以训练获取威胁检测模型，可以提高威胁检测模型在真实网络环境中检测效率和识别能力。

可选地，所述威胁检测模型通过如下方式构建：

具体地，获取的历史网络数据可以包括正样本标签对应的第一网络数据和负样本标签对应的第二网络数据，进而可以基于注意力机制，对负样本标签对应的第二网络数据进行过采样，获取负样本标签对应的第三网络数据，以使正样本标签对应的第一网络数据的数量与负样本标签对应的第三网络数据的数量相等；

具体地，在获取到负样本标签对应的第三网络数据之后，可以基于正样本标签对应的第一网络数据和负样本标签对应的第三网络数据，获取目标数据样本集，进而基于目标数据样本集可以对模型进行训练，获取威胁检测模型，进而可以通过威胁检测模型对待检测网络数据进行检测，进而可以获取检测结果，检测结果可以表征待检测网络数据对应的网络行为是正常网络行为或异常网络行为。

可以理解的是，正样本标签可以用于对正常网络行为对应的正常数据进行标记，第一网络数据系统日志数据中的正常网络行为对应的数据，第一网络数据还网络流量数据中的正常网络行为对应的数据。

可以理解的是，负样本标签可以用于对异常网络行为对应的威胁数据进行标记，第二网络数据是系统日志数据中的异常网络行为对应的威胁数据，第二网络数据是网络流量数据中的异常网络行为对应的威胁数据。

可选地，通过网络系统中的网络流量数据和系统日志数据，可以获取历史网络数据，其中，网络流量数据可以描述网络流量相关数据包的上下文信息，系统日志数据可以描述系统访问相关数据包的上下文信息。

可以理解的是，通过对网络设备中的数据进行采集可以获取网络流量数据和系统日志数据，进而可以对这些数据进行分析，可以获取针对网络系统的威胁，威胁分为两大类，一类是内部威胁，主要包括内部用户的非正常行为，第二类是外部威胁，包括来自外部人员针对系统内部的攻击行为。

可以理解的是，对于来自于网络系统内部的威胁，主要通过采集系统内部用户的操作系统日志文件数据，主要包括系统内部的访问控制数据，以及系统的登入，登出的时间的日志数据。对于来自于网络系统的外部威胁，主要对系统内路由器，交换机以及硬件防火墙的流量数据进行采集。

可选地，历史网络数据中正样本标签对应的第一网络数据是多数类样本，历史网络数据中负样本标签对应的第二网络数据是少数类样本，也即在历史网络数据中负样本标签对应的第二网络数据的数量，少于正样本标签对应的第一网络数据的数量。

可选地，基于注意力机制的过采样(Attention mechanism enhancedoversampling，AMEO)是基于注意力机制，对负样本标签对应的第二网络数据进行过采样，获取负样本标签对应的第三网络数据。

可以理解的是，可以将正常的流量数据或系统日志数据视为多数类样本，将威胁数据视为少数类样本，基于过采样法可以生成少数类样本，可以实现不平衡数据的重新平衡，将过采样法处理过后的数据输入至注意力机制中，完成对少数类样本的重新分布，进而可以基于平衡的样本数据集进行训练，得到威胁检测模型，通过威胁检测模型完成后续的检测任务。

因此，通过基于注意力机制对负样本标签对应的第二网络数据进行过采样，可以获取负样本标签对应的第三网络数据，进而可以获取目标数据样本集，使得目标数据样本集中正样本的数量与负样本的数量相等，进而基于目标数据样本集可以训练获取威胁检测模型，可以提高威胁检测模型在真实网络环境中检测效率和识别能力。

可选地，所述基于注意力机制，对所述负样本标签对应的第二网络数据进行过采样，获取所述负样本标签对应的第三网络数据，包括：

具体地，在获取到历史网络数据之后，可以基于SMOTE对负样本标签对应的一个或多个第二网络数据进行过采样，进而可以获取负样本标签对应的一个或多个第四网络数据，以使负样本标签对应的第四网络数据的数量与正样本标签对应的第一网络数据的数量相等，其中，负样本标签对应的第四网络数据可以包括负样本标签对应的第二网络数据；

具体地，在获取到负样本标签对应的第四网络数据之后，可以基于注意力机制，对负样本标签对应的一个或多个第四网络数据进行重新分布，获取负样本标签对应的第三网络数据，且负样本标签对应的第三网络数据的数量与正样本标签对应的第一网络数据的数量相等；

可以理解的是，SMOTE是合成少数类的过采样技术，它是基于随机过采样算法的一种改进算法，简单的随机过采样采取的是通过复制样本来增加少数类样本，这样会导致模型过度拟合，使得模型经过训练后所获得的数据过于特殊而不够泛化，而SMOTE算法是对少数类样本进行分析并根据少数类样本合成新的样本数据添加到数据集中。

可以理解的是，可以将正常的流量数据或系统日志数据视为多数类样本，将威胁数据视为少数类样本，通过SMOTE算法可以生成少数类样本，可以实现不平衡数据的重新平衡，将经过SMOTE算法处理过后的数据输入至注意力机制中，完成对少数类样本的重新分布，进而可以基于平衡的样本数据集进行训练，得到威胁检测模型，通过威胁检测模型完成后续的检测任务。

因此，基于SMOTE可以对负样本标签对应的第二网络数据进行过采样，进而基于注意力机制可以对过采样结果进行去冗余，可以获取负样本标签对应的第三网络数据，进而可以获取目标数据样本集，使得目标数据样本集中正样本的数量与负样本的数量相等，进而基于目标数据样本集可以训练获取威胁检测模型，可以提高威胁检测模型在真实网络环境中检测效率和识别能力。

可选地，所述基于合成少数类过采样法SMOTE，对所述负样本标签对应的一个或多个第二网络数据进行过采样，获取所述负样本标签对应的一个或多个第四网络数据，包括：

具体地，在获取到历史网络数据之后，可以基于K最近邻算法，针对一个或多个第二网络数据，确定每一个第二网络数据对应的K个近邻，进而可以基于每一个第二网络数据和每一个第二网络数据对应的K个近邻，获取每一个第二网络数据对应的N个第五网络数据，进而基于每一个第二网络数据和每一个第二网络数据对应的N个第五网络数据，可以获取负样本标签对应的一个或多个第四网络数据，以使负样本标签对应的第四网络数据的数量与正样本标签对应的第一网络数据的数量相等；

可选地，可以根据

确定第二网络数据对应的第五网络数据，其中，x_i表示任意一个第二网络数据，x_new表示第二网络数据对应的第五网络数据，

表示x_i对应的K个近邻中的任意一个近邻，δ为是一个随机数，δ∈[0,1]。

可选地，对于第二网络数据对应的K个近邻，在N维空间中，这些近邻与第二网络数据之间的距离最小，其中，N表示第二网络数据的特征维度。

因此，通过K最近邻算法可以每一个第二网络数据对应的K个近邻，进而基于每一个第二网络数据对应的K个近邻，可以对负样本标签对应的第二网络数据进行过采样，进而基于注意力机制可以对过采样结果进行去冗余，可以获取负样本标签对应的第三网络数据，进而可以获取目标数据样本集，使得目标数据样本集中正样本的数量与负样本的数量相等，进而基于目标数据样本集可以训练获取威胁检测模型，可以提高威胁检测模型在真实网络环境中检测效率和识别能力。

可选地，所述基于注意力机制，对所述负样本标签对应的一个或多个第四网络数据进行重新分布，获取所述负样本标签对应的第三网络数据，包括：

具体地，可以针对负样本标签对应的一个或多个第四网络数据，确定目标顺序，进而基于目标顺序和注意力函数，可以对一个或多个第四网络数据中的每一个第四网络数据进行重新分布，获取负样本标签对应的第三网络数据，且负样本标签对应的第三网络数据的数量与正样本标签对应的第一网络数据的数量相等；

可以理解的是，注意力机制可以通过交换各个特征所携带的信息来重新分配威胁数据(第四网络数据)，进而可以对负样本标签对应的一个或多个第四网络数据进行重新分布。

因此，基于SMOTE可以对负样本标签对应的第二网络数据进行过采样，进而基于目标顺序和注意力函数可以对过采样结果进行去冗余，可以获取负样本标签对应的第三网络数据，进而可以获取目标数据样本集，使得目标数据样本集中正样本的数量与负样本的数量相等，进而基于目标数据样本集可以训练获取威胁检测模型，可以提高威胁检测模型在真实网络环境中检测效率和识别能力。

可选地，所述对所述一个或多个第四网络数据中的每一个第四网络数据进行重新分布，包括：

根据公式

对Q进行重新分布；

具体地，可以针对负样本标签对应的一个或多个第四网络数据，确定目标顺序，进而基于目标顺序和Attention(Q,S)，可以对一个或多个第四网络数据中的每一个第四网络数据进行重新分布，获取负样本标签对应的第三网络数据，且负样本标签对应的第三网络数据的数量与正样本标签对应的第一网络数据的数量相等；

可以理解的是，通过注意力函数，可以将Q相邻的第四网络数据S打包进矩阵Q，进而可以交换各个特征所携带的信息，可以重新分配威胁数据，进而可以对负样本标签对应的一个或多个第四网络数据进行重新分布。

因此，基于SMOTE可以对负样本标签对应的第二网络数据进行过采样，进而基于目标顺序和注意力函数Attention(Q,S)可以对过采样结果进行去冗余，可以获取负样本标签对应的第三网络数据，进而可以获取目标数据样本集，使得目标数据样本集中正样本的数量与负样本的数量相等，进而基于目标数据样本集可以训练获取威胁检测模型，可以提高威胁检测模型在真实网络环境中检测效率和识别能力。

可选地，图2是本发明提供的网络数据检测方法的流程示意图之二，如图2所示，网络系统可以包括边界网络设备和内部系统设备，边界网络设备可以包括路由器、交换机和防火墙服务器等，内部系统设备可以包括一个或多个终端。

可选地，如图2所示，通过边界网络设备和内部系统设备，可以进行数据采集，获取网络系统中的网络流量数据和系统日志数据。

可选地，如图2所示，可以将正常的流量数据或系统日志数据视为多数类样本，将威胁数据视为少数类样本，通过SMOTE算法可以生成少数类样本，可以实现不平衡数据的重新平衡，将经过SMOTE算法处理过后的数据输入至注意力机制中，完成对少数类样本的重新分布，进而可以基于平衡的样本数据集进行训练，得到威胁检测模型，通过威胁检测模型完成后续的检测任务。

可选地，如图2所示，在获取到负样本标签对应的第三网络数据之后，可以基于正样本标签对应的第一网络数据和负样本标签对应的第三网络数据，获取目标数据样本集，进而基于目标数据样本集可以对模型(如深度神经网络)进行训练，获取威胁检测模型，进而可以通过威胁检测模型对待检测网络数据进行检测，进而可以获取检测结果，检测结果可以表征待检测网络数据对应的网络行为是正常网络行为或异常网络行为。

可选地，对于来自网络系统内部的攻击，比如网络系统内部的某一设备在非工作时间登录系统，频繁的试图与核心设备建立连接。通过对系统日志的数据进行采集，发现这一类威胁数据，将这一类数据视为少数类样本，将正常的日志数据视为多数类样本。首先通过SMOTE方法生成少数类样本，再通过注意力机制对SMOTE方法中生成的少数类样本进行重新分布。通过模型训练，得到威胁检测模型，后续可以将网络数据送入威胁检测模型，即可判别威胁。若判断为攻击行为则应尽快降低该用户的访问控制权限，防止遭受进一步的攻击。

可选地，对于来自网络系统外部的攻击，如外部的某一邮箱账户向网络系统内部的用户发送了一封带有网络蠕虫病毒的钓鱼邮件。通过对网络系统边界的网络设备的流量数据进行采集，将这一类流量数据视为威胁数据，后续对采集数据的分布进行重新平衡，将重新平衡后的数据进行训练，得到一个威胁检测模型，通过威胁检测模型对这一类流量数据进行进一步的判断。若判断为攻击行为，选择尽快切断被发送的内部用户与外部域的连接，并对该用户的设备进行杀毒，防止其感染更多的设备。

为了验证本发明实施例在不平衡的数据分布中可以取得良好的效果，可以在多个数据集上进行验证，使用的数据集可以是联合数据集(COMBO数据集)，回收数据集(JUNK数据集)，KISTUNE数据集使用的评价指标可以是准确率(Precision)、精度(Accuracy)和F1分数(F1-score)，其中：

Precision：准确率，指通过数据再平衡方法重新分布数据后，对威胁检测模型训练，再进行威胁检测，模型检测出来的真正的攻击行为(异常网络行为)占总体检测出来的攻击行为的百分比。

Accuracy:该指标指分类正确的样本数量占总的样本数量的百分比。即通过数据再平衡方法重新完成数据分布后，对威胁检测模型训练，再进行威胁检测，模型检测出真正的攻击行为以及检测出系统真正的正常网络行为占整个数据的百分比。

F1-score，是为解决召回率(recall)指标和Precision指标很难出现两个指标都很高的情况下的调和函数，F1-score计算公式为：

其中：recall指标含义是模型检测出真正的攻击行为占总体的攻击行为的百分比。

可选地，在多个数据集上进行验证的过程中，可以将本发明实施例的AMEO与相关技术中的再平衡数据分布的方法进行比较，其中，相关技术中的再平衡数据分布的方法可以是：SMOTE、自适应合成抽样(Adaptive Synthetic Sampling，ADASYN)、随机下采样(RandomUnderSampler)、最邻近方法(NearMiss)、简单欠采样(EasyEnsemble)或平衡级联欠采样(BalanceCascade)等。

如表1至表3所示，表1为在combo数据集上比较各种再平衡数据分布方法的Precision，表2为在junk数据集上比较各种再平衡数据分布方法的Precision，表3为在kitsune数据集上比较各种再平衡数据分布方法的Precision，其中，方法1表示SMOTE，方法2表示ADASYN，方法3表示RandomUnderSampler，方法4表示NearMiss，方法5表示EasyEnsemble，方法6表示BalanceCascade，方法7表示本发明实施例的AMEO。

表1在combo数据集上比较各种再平衡数据分布方法的Precision

不平衡数据的程度	方法1	方法2	方法3	方法4	方法5	方法6	方法7
								0.220	0.466	0.463	0.483	0.193	0.496	0.492	0.922
0.500	0.488	0.480	0.488	0.292	0.498	0.496	0.855
								0.850	0.489	0.491	0.486	0.317	0.500	0.495	0.812
1.300	0.491	0.485	0.485	0.322	0.496	0.499	0.736
								2.000	0.495	0.492	0.493	0.400	0.498	0.496	0.717
3.000	0.491	0.491	0.490	0.376	0.495	0.495	0.629
								4.670	0.490	0.490	0.489	0.454	0.491	0.488	0.646

表2在junk数据集上比较各种再平衡数据分布方法的Precision

表3在kitsune数据集上比较各种再平衡数据分布方法的Precision

不平衡数据的程度	方法1	方法2	方法3	方法4	方法5	方法6	方法7
								0.220	0.961	0.990	0.927	0.597	0.944	0.945	0.995
0.500	0.990	0.990	0.977	0.906	0.985	0.981	0.995
								0.850	0.993	0.990	0.993	0.908	0.990	0.990	0.995
1.300	0.997	0.998	0.988	0.921	0.993	0.995	0.995
								2.000	0.994	0.996	0.994	0.953	0.992	0.994	0.995
3.000	0.995	0.997	0.993	0.966	0.995	0.995	0.995
								4.670	0.996	0.993	0.994	0.978	0.997	0.997	0.995

如表4至表6所示，表4为在combo数据集上比较各种再平衡数据分布方法的Accuracy，表5为在junk数据集上比较各种再平衡数据分布方法的Accuracy，表6为在kitsune数据集上比较各种再平衡数据分布方法的Accuracy，其中，方法1表示SMOTE，方法2表示ADASYN，方法3表示RandomUnderSampler，方法4表示NearMiss，方法5表示EasyEnsemble，方法6表示BalanceCascade，方法7表示本发明实施例的AMEO。

表4在combo数据集上比较各种再平衡数据分布方法的Accuracy

表5在junk数据集上比较各种再平衡数据分布方法的Accuracy

不平衡数据的程度	方法1	方法2	方法3	方法4	方法5	方法6	方法7
								0.220	0.900	0.895	0.893	0.763	0.904	0.905	0.940
0.500	0.819	0.831	0.823	0.702	0.830	0.829	0.875
								0.850	0.754	0.757	0.758	0.594	0.767	0.765	0.795
1.300	0.705	0.704	0.702	0.528	0.710	0.711	0.740
								2.000	0.656	0.656	0.658	0.590	0.659	0.660	0.648
3.000	0.611	0.614	0.606	0.539	0.620	0.619	0.643
								4.670	0.578	0.576	0.566	0.530	0.578	0.580	0.613

表6在kitsune数据集上比较各种再平衡数据分布方法的Accuracy

不平衡数据的程度	方法1	方法2	方法3	方法4	方法5	方法6	方法7
								0.220	0.994	0.998	0.991	0.900	0.992	0.995	0.998
0.500	0.995	0.997	0.993	0.982	0.996	0.995	0.998
								0.850	0.997	0.997	0.996	0.975	0.996	0.996	0.993
1.300	0.996	0.999	0.995	0.975	0.997	0.996	0.998
								2.000	0.997	0.999	0.996	0.983	0.996	0.995	0.990
3.000	0.997	0.997	0.996	0.987	0.998	0.996	0.993
								4.670	0.997	0.995	0.995	0.990	0.998	0.998	0.995

如表7至表9所示，表7为在combo数据集上比较各种再平衡数据分布方法的F1-score，表8为在junk数据集上比较各种再平衡数据分布方法的F1-score，表9为在kitsune数据集上比较各种再平衡数据分布方法的F1-score，其中，方法1表示SMOTE，方法2表示ADASYN，方法3表示RandomUnderSampler，方法4表示NearMiss，方法5表示EasyEnsemble，方法6表示BalanceCascade，方法7表示本发明实施例的AMEO。

表7在combo数据集上比较各种再平衡数据分布方法的F1-score

表8在junk数据集上比较各种再平衡数据分布方法的F1-score

不平衡数据的程度	方法1	方法2	方法3	方法4	方法5	方法6	方法7
								0.220	0.637	0.625	0.608	0.313	0.656	0.661	0.942
0.500	0.635	0.663	0.645	0.477	0.663	0.661	0.880
								0.850	0.639	0.650	0.653	0.402	0.665	0.662	0.800
1.300	0.652	0.654	0.658	0.325	0.662	0.664	0.758
								2.000	0.654	0.653	0.658	0.262	0.658	0.658	0.645
3.000	0.647	0.649	0.640	0.300	0.662	0.660	0.677
								4.670	0.655	0.655	0.640	0.397	0.655	0.656	0.602

表9在kitsune数据集上比较各种再平衡数据分布方法的F1-score

通过分析表1至表9的测试结果可知，本发明实施例的AMEO在Precision指标、Accuracy指标和F1-score指标上，比其他再平衡数据分布方法均要高，可见，本发明实施例的AMEO性能要更加优越。

通过分析表表1至表9的测试结果可知，本发明实施例的AMEO方法可以解决SMOTE方法所产生的数据冗余的缺陷，使得针对威胁信息的检测更有效率。

可选地，在多个数据集上进行验证的过程中，可以不采用AMEO对数据集进行处理，直接在不同模型上进行测试，也可以采用AMEO对数据集进行再平衡处理后，再在不同模型上进行测试，进而可以对比分析测试结果，其中模型可以是支持向量机(Support VectorMachine,SVM)模型、决策树(Decision tree，DT)模型或深度神经网络(Deep NeuralNetworks，DNN)模型。

如表10和表11所示，表10为未采用AMEO的各模型测试结果，表11为基于AMEO的各模型测试结果：

表10未采用AMEO的各模型测试结果

表11基于AMEO的各模型测试结果

通过分析表10和表11的测试结果可知，本发明实施例的AMEO可以使得模型更好的完成威胁信息检测，本发明提供的网络数据检测方法是一种可移植的解决不平衡数据分布的方法。

因此，本发明提供的AMEO，可以作为通用方法成功检测威胁信息并解决数据流量不平衡的缺陷。同时，本发明提供的AMEO比常见的再平衡方法表现得更好。本发明提供的AMEO也可以作为一种可移植的方法来解决不平衡问题并帮助模型进行更好的威胁检测。

下面对本发明提供的网络数据检测装置进行描述，下文描述的网络数据检测装置与上文描述的网络数据检测方法可相互对应参照。

图3是本发明提供的网络数据检测装置的结构示意图，如图3所示，所述装置包括：第一获取模块301和第二获取模块302，其中：

第一获取模块301，用于获取待检测网络数据；

第二获取模块302，用于基于威胁检测模型，对所述待检测网络数据进行检测，获取检测结果，所述检测结果用于表征所述待检测网络数据对应的网络行为对网络系统的威胁情况；

本发明提供的网络数据检测装置，通过注意力机制对网络系统的历史网络数据进行过采样，可以减少过采样过程中的冗余数据并避免数据丢失，并获取目标数据样本集，使得目标数据样本集中正样本的数量与负样本的数量相等，进而基于目标数据样本集可以训练获取威胁检测模型，可以提高威胁检测模型在真实网络环境中检测效率和识别能力。

可选地，所述装置还包括训练模块，所述训练模块用于：

可选地，所述训练模块具体用于：

根据公式

对Q进行重新分布；

图4是本发明提供的电子设备的结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行网络数据检测方法，该方法包括：

获取待检测网络数据；

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的网络数据检测方法，该方法包括：

获取待检测网络数据；

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的网络数据检测方法，该方法包括：

获取待检测网络数据；

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种网络数据检测方法，其特征在于，包括：

获取待检测网络数据；

2.根据权利要求1所述的网络数据检测方法，其特征在于，所述威胁检测模型通过如下方式构建：

3.根据权利要求2所述的网络数据检测方法，其特征在于，所述基于注意力机制，对所述负样本标签对应的第二网络数据进行过采样，获取所述负样本标签对应的第三网络数据，包括：

4.根据权利要求3所述的网络数据检测方法，其特征在于，所述基于合成少数类过采样法SMOTE，对所述负样本标签对应的一个或多个第二网络数据进行过采样，获取所述负样本标签对应的一个或多个第四网络数据，包括：

5.根据权利要求3所述的网络数据检测方法，其特征在于，所述基于注意力机制，对所述负样本标签对应的一个或多个第四网络数据进行重新分布，获取所述负样本标签对应的第三网络数据，包括：

6.根据权利要求5所述的网络数据检测方法，其特征在于，所述对所述一个或多个第四网络数据中的每一个第四网络数据进行重新分布，包括：

根据公式

对Q进行重新分布；

7.一种网络数据检测装置，其特征在于，包括：

第一获取模块，用于获取待检测网络数据；

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述网络数据检测方法。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述网络数据检测方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述网络数据检测方法。