CN112822206B

CN112822206B - 网络协同攻击行为的预测方法、装置以及电子设备

Info

Publication number: CN112822206B
Application number: CN202110129472.7A
Authority: CN
Inventors: 杨家海; 吴松云; 王之梁; 王博; 张辉
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2021-12-07
Anticipated expiration: 2041-01-29
Also published as: CN112822206A

Abstract

本申请提出一种网络协同攻击行为的预测方法、装置以及电子设备。其中，方法包括：从多种来源的安全警报中提取安全事件以及安全事件对应的时间信息；基于提取得到的安全事件以及安全事件对应的时间信息，生成多个序列；将每个序列输入至深度学习模型，获得每个序列的序列向量；将每个序列的序列向量输入至联合预测模型，获得预测的事件结果；根据预测的事件结果、真实的事件结果和联合优化目标函数，对深度学习模型和联合预测模型进行训练，基于完成训练的深度学习模型和联合预测模型构成协同攻击行为预测模型；基于该协同攻击行为预测模型实现对网络协同攻击行为进行预测，获得下一个可能发生的安全事件及对应的时间信息。

Description

网络协同攻击行为的预测方法、装置以及电子设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种网络协同攻击行为的预测方法、装置以及电子设备。

背景技术

近年来，网络攻击数量呈井喷式增长，对全球的网络环境造成了严重的危害。许多不法分子利用各种攻击手段破坏计算机系统的安全状况，阻碍其正常运行，甚至盗取其控制权限。为了保障系统不受网络攻击的侵害，计算机中普遍使用了防火墙、入侵检测系统和防病毒软件等多种安全设备来检测异常行为。

但是，针对异常行为的检测是一种被动的反应性措施，即只对收集到的异常活动或违规请求做出响应，无法避免攻击造成的损害。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的第一个目的在于提出一种网络协同攻击行为的预测方法，以实现通过全面的攻击警报以及协同攻击的早期行为特征，可以预测出后续可能的攻击步骤，以便于快速地部署防御措施，避免攻击对系统造成损害。

本申请的第二个目的在于提出一种网络协同攻击行为的预测装置。

本申请的第三个目的在于提出一种电子设备。

为达上述目的，本申请第一方面实施例提出了一种网络协同攻击行为的预测方法，包括：

从多种来源的安全警报中提取安全事件以及所述安全事件对应的时间信息；

基于提取得到的安全事件以及所述安全事件对应的时间信息，生成多个序列；其中，每个所述序列中包含l个元组，第i个元组τ_i＝(e_i，Δt_i)包含序列中的第i个事件e_i以及所述第i个事件的持续时间Δt_i；

将每个所述序列输入至深度学习模型，获得每个所述序列的序列向量；

将每个所述序列的序列向量输入至联合预测模型，获得预测的事件结果，其中，所述预测的事件结果包括下一个可能发生的安全事件及对应的时间信息；

根据所述预测的事件结果、真实的事件结果和预设的联合优化目标函数，对所述深度学习模型和所述联合预测模型进行训练，基于完成训练的深度学习模型和联合预测模型构成协同攻击行为预测模型；

获取待处理安全事件及对应的时间信息，将所述待处理安全事件及对应的时间信息输入至所述协同攻击行为预测模型，获得下一个可能发生的安全事件及对应的时间信息。

可选地，在本申请一些实施例中，从所述多种来源的安全警报中提取所述安全事件对应的时间信息包括：

通过每个安全警报自带的时间戳提取各安全事件的发生时间；

根据所述各安全事件的发生时间，计算所述各安全事件的持续时间；

基于预先划分的多个离散时间区间，将所述各安全事件的持续时间进行离散化，获得所述各安全事件对应的时间信息。

在本申请实施例中，通过以下方式预先划分所述多个离散时间区间：

给定一个划分P，将连续的时间数值空间划分为p个时间区间，分别为Δt⁽¹⁾,Δt⁽²⁾，…，Δt^(p)，其中，所述p个时间区间满足以下三个条件：

a)

其中，f(x)代表区间x内包含的安全事件总数，Esum是总的安全事件数；

代表阈值参数；

b)

其中，h(x)代表区间x的时间长度，

是阈值参数；

c)基于注意力原则，越靠近0的时间数值空间划分得越密集，而越大数值的空间则应划分得越稀疏。

可选地，在本申请一些实施例中，所述深度学习模型包括：输入表示层、初步提取层和表达提升层；其中，

所述输入表示层，用于将输入序列中的每个元组τ_i映射为一个可计算的向量v_i，其中，所述向量v_i由事件向量v_e和时间向量v_Δt联结而成；

所述初步提取层，用于采用长短期记忆网络LSTM对所述输入表示层输出的元组向量进行特征提取，获得每个元组的隐藏向量h_s；

所述表达提升层，用于基于注意力机制对所述初步提取层输出的所有元组的隐藏向量进行变换，获得所述输入序列的序列向量v_s。

在本申请实施例中，所述LSTM处理一个序列时，每个所述序列的每个元组均进行如下计算：

i_t＝σ(W_iiv_t+W_hih_t-1+b_i)

f_t＝σ(W_ifv_t+W_hfh_t-1+b_f)

o_t＝σ(W_iov_t+W_hoh_t-1+b_o)

其中，σ代表Sigmoid激活函数，⊙代表点乘，

为tanh函数；v_t为当前时间步下的输入元组向量，h_t-1是上一时间步输出的隐藏向量，i_t、f_t、c_t、o_t则分别为输入门、遗忘门、记忆状态和输出门；当前时间步的隐向量输出为h_t；所有的W和b均是参数。

在本申请实施例中，所述注意力机制计算如下：

α＝softmax(ωM)

v_s＝αH

其中，H＝{h₁，h₂，…,h_l}是经由所述LSTM输出的隐藏状态集，W_h和ω是需要训练的参数，v_s为序列向量。

可选地，在本申请一些实施例中，所述联合预测模型的公式表示如下：

y_e＝softmax(W_ev_s+b_e)

y_Δt＝softmax(W_Δtv_s+b_Δt)

其中，y_e和y_Δt分别是事件预测和时间预测的概率分布结果，其每一维均代表一个候选项，概率最高的候选项将成为预测结果，W和b分别为需要训练的模型参数。

可选地，在本申请一些实施例中，所述联合优化目标函数的公式表示如下：

其中，

为优化目标，Ω(θ)表示θ的L2范式值，λ₀是其正规化参数，

表示使用交叉熵计算的事件损失值，

是预测的事件结果，e_i是真实的事件结果，λ₁作为一个超参数，可以调整事件损失值的比例；

表示使用交叉熵计算的时间损失值，参数a∈(0,1)用于调整零样本在损失函数中的重视度，λ₂为用于调整时间损失值比例的超参数。

为达上述目的，本申请第二方面实施例提出了一种网络协同攻击行为的预测装置，包括：

提取模块，用于从多种来源的安全警报中提取安全事件以及所述安全事件对应的时间信息；

生成模块，用于基于提取得到的安全事件以及所述安全事件对应的时间信息，生成多个序列；其中，每个所述序列中包含l个元组，第i个元组τ_i＝(e_i,Δt_i)包含序列中的第i个事件e_i以及所述第i个事件的持续时间Δt_i；

第一获取模块，用于将每个所述序列输入至深度学习模型，获得每个所述序列的序列向量；

第二获取模块，用于将每个所述序列的序列向量输入至联合预测模型，获得预测的事件结果，其中，所述预测的事件结果包括下一个可能发生的安全事件及对应的时间信息；

训练模块，用于根据所述预测的事件结果、真实的事件结果和预设的联合优化目标函数，对所述深度学习模型和所述联合预测模型进行训练，基于完成训练的深度学习模型和联合预测模型构成协同攻击行为预测模型；

预测模块，用于获取待处理安全事件及对应的时间信息，将所述待处理安全事件及对应的时间信息输入至所述协同攻击行为预测模型，获得下一个可能发生的安全事件及对应的时间信息。

可选地，在本申请一些实施例中，所述提取模块具体用于：

给定一个划分P，将连续的时间数值空间划分为p个时间区间，分别为Δt⁽¹⁾,Δt⁽²⁾,…,Δt^(p)，其中，所述p个时间区间满足以下三个条件：

a)

代表阈值参数；

b)

其中，h(x)代表区间x的时间长度，

是阈值参数；

i_t＝σ(W_iiv_t+W_hih_t-1+b_i)

f_t＝σ(W_ifv_t+W_gfh_t-1+b_f)

o_t＝σ(W_iov_t+W_hoh_t-1+b_o)

其中，σ代表Sigmoid激活函数，⊙代表点乘，

在本申请实施例中，所述注意力机制计算如下：

α＝softmax(ωM)

v_s＝αH

其中，H＝{h₁,h₂,…,h_l}是经由所述LSTM输出的隐藏状态集，W_h和ω是需要训练的参数，v_s为序列向量。

y_e＝softmax(W_ev_s+b_e)

y_Δt＝softmax(W_Δtv_s+b_Δt)

其中，

为优化目标，Ω(θ)表示θ的L2范式值，λ₀是其正规化参数，

表示使用交叉熵计算的事件损失值，

为达上述目的，本申请第三方面实施例提出了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时，实现本申请第一方面实施例所述的网络协同攻击行为的预测方法。

综上所述，本申请具有以下至少两大有益效果：(1)通过在输入中融合时间信息增强模型对带干扰的输入序列的感知能力，提升模型的事件预测准确性。(2)在输出中，同时预测下一个事件的可能发生时间，为网络管理者部署针对性防御措施时提供参考。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是示出的一种网络协同攻击的示例图；

图2为本申请实施例所提供的一种网络协同攻击行为的预测方法的流程图；

图3是根据本申请实施例的网络协同攻击行为的预测方法的流程示例图；

图4是根据本申请实施例的时间区间的划分示例图；

图5为本申请实施例提供的一种网络协同攻击行为的预测装置的结构示意图；以及

图6是根据本申请一个实施例的电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

但针对异常行为的检测是一种被动的反应性措施，即只对收集到的异常活动或违规请求做出响应，无法避免攻击造成的损害。为了避免严重损害的产生，应采取积极主动的方法，预测可能发生的恶意行为，以便于快速地部署防御措施。

随着计算机技术日渐复杂，越来越多的协同攻击出现。协同攻击是指攻击者使用多种步骤达到其最终的攻击目的。例如，如图1所示的SMB(Server Message Block，服务信息块)漏洞利用攻击，攻击者会先扫描445端口是否开启，接着尝试是否可以利用445端口上的Microsoft Windows SMB漏洞，然后利用该漏洞传输远程代码，最后利用传输进入系统的恶意代码窃取系统信息甚至控制系统。这些步骤会在不同阶段的安全防护设备中触发警报，例如扫描行为可能会被防火墙捕获到、恶意代码窃取信息的行为可能会被入侵检测系统监视到。

因此，需要整合多种安全设备的警报信息，来最大限度地捕获攻击信息。通过全面的攻击警报以及协同攻击的早期行为特征，可以预测出后续可能的攻击步骤。当预测出后续潜在的威胁时，网络管理员即可部署对应的防护措施，避免攻击对系统造成损害。具体地，下面参考附图描述本申请实施例的网络协同攻击行为的预测方法、装置以及电子设备。

图2为本申请实施例所提供的一种网络协同攻击行为的预测方法的流程示意图。需要说明的是，本申请实施例的网络协同攻击行为的预测方法可应用于本申请实施例的网络协同攻击行为的预测装置，该预测装置可被配置于电子设备。

如图2所示，该网络协同攻击行为的预测方法可以包括如下步骤。

在步骤201中，从多种来源的安全警报中提取安全事件以及安全事件对应的时间信息。

需要说明的是，安全事件是指安全设备发生报警，通过收集并整合多类安全设备的警报信息，并将各类警报信息转化为对应的安全事件。

还需要说明的是，本申请希望能够训练一个可以用于预测协同攻击行为的模型(下文称为协同攻击行为预测模型)，通过该协同攻击行为预测模型可以预测下一个可能发生的安全事件及对应的时间信息。为了能够提升安全事件预测在面对带干扰的序列时的准确性，本申请希望能在输入中融入更多信息。经本申请发明人观察，时间信息可以辅助模型判断输入序列中是否存在误报、漏报，因此本申请将每个事件的发生时间融入输入部分，提升事件预测准确率。此外，本申请还希望在输出中同步预测潜在事件的可能发生时间，帮助网络管理者选择合适的防御手段。公式化描述：给定一个数据集D，D＝{s₁,s₂,…,s_n}包含n个历史序列，每个序列s＝{τ₁,τ₂,…,τ_l}中包含l个元组τ，第i个元组τ_i＝(e_i,Δt_i)包含序列中的第i个事件e_i以及该事件的持续时间Δt_i。借由一个映射模型F，利用输入的历史序列预测下一个可能发生的事件e_l+1,以及该事件的发生时间Δt_l+1，即如下公式所示：τ_l+1＝(e_l+1,Δt_l+1)＝F(τ₁,τ₂,…，τ_l)。

可选地，在数据处理阶段，需要从多种不同来源的安全警报提取出安全事件及其对应的时间信息作为输入数据。在本申请一些实施例中，在从多种来源的安全警报中提取时，还可从多种来源的安全警报中提取安全事件对应的时间信息。

作为一种示例，从多种来源的安全警报中提取安全事件对应的时间信息的具体实现过程可如下：通过每个安全警报自带的时间戳提取各安全事件的发生时间；根据所述各安全事件的发生时间，计算所述各安全事件的持续时间；基于预先划分的多个离散时间区间，将所述各安全事件的持续时间进行离散化，获得所述各安全事件对应的时间信息。

可选地，在本申请实施例中，可通过以下方式预先划分所述多个离散时间区间：

a)

代表阈值参数；

b)

其中，h(x)代表区间x的时间长度，

是阈值参数；

在步骤202中，基于提取得到的安全事件以及安全事件对应的时间信息，生成多个序列；其中，每个序列中包含l个元组，第i个元组τ_i＝(e_i,Δt_i)包含序列中的第i个事件e_i以及第i个事件的持续时间Δt_i。

可选地，在提取处安全事件与时间信息后，还需要对原始数据进行整合处理。由于攻击者会进行短时间内的大量重复尝试行为，容易导致模型学习到错误的偏倚，因此要整合这一类的事件。通过时间信息的辅助过滤重复行为，比如10秒内的连续重复事件整合为一个事件，其持续时间是所有事件的累加和。

在步骤203中，将每个序列输入至深度学习模型，获得每个序列的序列向量。

在本申请一些实施例中，深度学习模型包括：输入表示层、初步提取层和表达提升层；其中，输入表示层，用于将输入序列中的每个元组τ_i映射为一个可计算的向量v_i，其中，向量v_i由事件向量v_e和时间向量v_Δt联结而成；初步提取层，用于采用长短期记忆网络LSTM对输入表示层输出的元组向量进行特征提取，获得每个元组的隐藏向量h_s；表达提升层，用于基于注意力机制对初步提取层输出的所有元组的隐藏向量进行变换，获得输入序列的序列向量v_s。

在本申请实施例中，LSTM处理一个序列时，每个序列的每个元组均进行如下计算：

i_t＝σ(W_iiv_t+W_hih_t-1+b_i)

f_t＝σ(W_ifv_t+W_hfh_t-1+b_f)

o_t＝σ(W_iov_t+W_hoh_t-1+b_o)

其中，σ代表Sigmoid激活函数，⊙代表点乘，

在本申请实施例中，注意力机制计算如下：

α＝softmax(ωM)

v_s＝αH

其中，H＝{h₁,h₂，…，h_l}是经由LSTM输出的隐藏状态集，W_h和ω是需要训练的参数，v_s为序列向量。

在步骤204中，将每个序列的序列向量输入至联合预测模型，获得预测的事件结果，其中，预测的事件结果包括下一个可能发生的安全事件及对应的时间信息。

在本申请一些实施例中，联合预测模型的公式表示如下：

y_e＝softmax(W_ev_s+b_e)

y_Δt＝softmax(W_Δtv_s+b_Δt)

在步骤205中，根据预测的事件结果、真实的事件结果和预设的联合优化目标函数，对深度学习模型和联合预测模型进行训练，基于完成训练的深度学习模型和联合预测模型构成协同攻击行为预测模型。

在本申请一些实施例中，联合优化目标函数的公式表示如下：

其中，

为优化目标，Ω(θ)表示θ的L2范式值，λ₀是其正规化参数，

表示使用交叉熵计算的事件损失值，

表示使用交叉熵计算的时间损失值，参数a∈(0，1)用于调整零样本在损失函数中的重视度，λ₂为用于调整时间损失值比例的超参数。

在步骤206中，获取待处理安全事件及对应的时间信息，将待处理安全事件及对应的时间信息输入至协同攻击行为预测模型，获得下一个可能发生的安全事件及对应的时间信息。

可以看出，如图3所示，本申请首先在数据预处理阶段中，从多源安全警报中提取出安全事件，并且利用时间离散化技巧提取出有效的时间区间信息。其次，采用了一个三层的深度学习模型(如循环神经网络(Recurrent Neural Network,英文简称：RNN))架构将输入的事件信息和时间信息映射成一个序列向量。最后，通过一个softmax逻辑回归得出下一个可能发生的安全事件及其发生时间。在训练循环神经网络的过程中，输出的事件与时间的损失值均加入计算，通过优化联合目标达到较好的同步预测效果。

为了方便本领域技术人员更加清楚地了解本申请，下面将对图3中每个模块的具体操作进行详细描述。

1)数据预处理

在数据处理阶段，需要从多种不同来源的安全警报提取出安全事件及其对应的时间信息作为输入数据。另外，也要对提取好的信息进行初步过滤。

1.1)提取安全事件

由于不同安全设备所产生的警报数据格式不同，难以直接汇总。在本申请实施例中，采用主体、客体、行为和附加信息这四元组来提取出一个统一的事件描述。其中，主体是指安全事件的执行主体，比如在网络攻击事件中是一个IP地址，在主机攻击中可能是一个进程名或文件名。客体是安全事件作用的目标，例如操作系统上的passwd文件。行为是攻击者开展的具体操作，例如读、写、创建、删除、发送信息等等。附加信息是一些可以作为事件标志的其他信息，比如对于发现病毒文件的事件，该病毒文件的哈希码可以作为标识病毒类型的附加信息。

上述事件定义可以根据事件场景不同进行个性化修改，例如可以用两到三个信息标识客体，例如在网络攻击中可以用目的IP地址、目的端口一同确定攻击客体。而当缺少合适信息时，对应的元素也可以置空。

1.2)提取有效的时间信息

为了提升预测模型对于输入信息的认知，本申请将每个安全事件对应的持续时间融入输入部分。而各类安全警报仅包含每个事件的发生时间戳，通过计算事件持续时间、持续时间离散化等操作提取有效的时间区间信息。

(1)提取持续时间

首先，通过每个安全警报自带的时间戳提取该事件的持续时间。对一个安全事件e_i，设该事件记录对应的时间戳为t_i，则事件e_i的持续时间定义如下：

即第一条安全事件记录时间为0，后续每个事件的时间为该事件与上一事件之间的时间戳差值。但这样提出的时间信息是一个没有确定候选数的一个数值。这种输入信息输入到深度学习模型后会产生维度爆炸问题，即连续化的时间信息难以直接应用到离散化的深度学习模型中。因此本申请在保证时间信息有效性的情况下，对时间进行离散化。

(2)时间信息离散化

由于对管理员而言，时间信息的关注度是有不同紧迫性的。例如当事件会在1分钟以内发生时，具体是30秒内发生还是50秒内发生是具有较大关注度的。但当事件在一个小时后发生时，具体是1小时1分钟还是1小时2分钟后发生的区别度不大。因此，本申请可依据对时间的关注度将连续时间数值空间划分为几个离散的时间区间。

可选地，给定一个划分P，将连续的时间数值空间划分为p个时间区间，分别为Δt⁽¹⁾，Δt⁽²⁾，…，Δt^(p)。这些时间区间需要满足以下三个条件：

a)

代表阈值参数，即任意两个区间的包含事件数差值要小于事件总数的

倍，以此来防止一个时间区间包含太多事件数，保持区间平衡性；

b)

其中，h(x)代表区间x的时间长度，

也是一个阈值参数。上述条件代表每两个相邻的时间区间，后一个时间区间的长度要小于前一个时间区间长度的

倍，确保时间区间划分步伐不会过大，保证区间划分的平坦性；

在本申请实施例中，利用一个典型的多源安全事件数据集的数据进行满足上述三个原则的划分，设置参数

得到一个如图4所示的能将时间数据分布变得更为平衡，且能保留有效的时间信息的区间划分。

该划分包含40个时间区间，在数值空间接近0的区域进行较密集的划分，而越远离的空间进行越稀疏的划分。每个时间区间的长度默认下遵循左边“区间长度”示意的值，标“*”的代表没有严格遵循该值，存在一定差值。这是为了使得整体划分更均匀、协调，因此调整少部分时间区间的长度。整体的时间区间划分仍然满足上述三个条件。此外，也用不同颜色标识每个区间的急迫性，颜色越深代表越紧迫。在安全事件预测场景中，越临近发生的事件紧迫性越高。因此，离散化后的时间区间，仍然保留了有效的时间信息。

于是，持续时间通过上述划分映射成对应的时间区间序号，并输入深度学习模型。由于总的候选区间数仅为40个，不会引起维度爆炸、计算量过大等问题。

1.3)整合处理

提取出安全事件与时间信息后，还需要对原始数据进行整合处理。由于攻击者会进行短时间内的大量重复尝试行为，容易导致模型学习到错误的偏倚，因此要整合这一类的事件。通过时间信息的辅助过滤重复行为，即10秒内的连续重复事件整合为一个事件，其持续时间是所有事件的累加和。

2)利用深度学习模型提取序列向量

当提取出有效的安全事件与其对应的时间区间后，将其输入到一个包含三层结构的循环神经网络中，提取出一个可以表征该序列的向量。因此，该模块的主要任务是将输入序列s＝{τ₁,τ₂,…,τ_l}映射为一个能表示该序列特征的向量v_s。

2.1)输入表示层

在输入表示层中，要将输入序列中的每个元组τ_i映射为一个可计算的向量v_i。由于元组τ包含了事件e与时间Δt两个元素，且两个元素具有不同的内在特征，因此分别对两个元素进行向量化。之后输入向量v_i由事件向量v_e和时间向量v_Δt联结而成。

由于时间信息内部是一个简单的线性关系，因此采用随机嵌入的方式将40个时间区间映射为不同的向量。而不同攻击事件之间存在一些内在联系，例如攻击者在一个小阶段的目标中可以使用不同的安全事件达到一样的攻击目的。而这些安全事件同属于一个攻击阶段，具有较紧密的联系。因此，在本申请一些实施例中，可利用word2vec工具，将事件视为一个词语、序列视为一个句子，提前训练出具有上下文联系的事件向量v_e。最终直接联结v_e和v_Δt，构成单个输入元组的向量v_i。

2.2)初步提取层

获得每个输入元组的向量后，要将一个序列的向量{v₁,v₂,…,v_l}映射为一个能表示序列特征的序列向量v_s。在初步提取层，采用长短期记忆网络(Long-Short TermMemory,LSTM)的结构提取出合适的序列向量。LSTM具有复杂的单元结构，适用于处理长序列的依赖关系，具有较好的表现性能。LSTM处理一个序列时，每个序列的每个元组均进行如下计算：

i_t＝σ(W_iiv_t+W_hih_t-1+b_i)

f_t＝σ(W_ifv_t+W_hfh_t-1+b_f)

o_t＝σ(W_iov_t+W_hoh_t-1+b_o)

其中，σ代表Sigmoid激活函数，⊙代表点乘，

为tanh函数。v_t为当前时间步下的输入元组向量，h_t-1是上一时间步输出的隐藏向量，i_t、f_t、c_t、o_t则分别为输入门、遗忘门、记忆状态和输出门。当前时间步的隐向量输出为h_t。所有的W和b均是参数，经由训练获得。

而经过初步提取层，最终可以获得一个包含了所有输入元组信息的隐藏向量h_s，该向量可以初步表征输入序列。

2.3)表达提升层

LSTM对于输入中的所有元组信息都同等对待，只能表征初步的序列特征。对于下一个可能发生的事件而言，并非所有事件都是相关联的，而是一些重点事件占据较大作用。而其他关联性较低的事件容易成为干扰噪声。为了令序列向量更好地表征输入序列的信息，本申请在表达提升层中采用了注意力机制(attention mechanism)。注意力机制可以提升输入序列中关联较大的重点事件的权重，增强模型对输入序列的感知。注意力机制计算如下：

α＝softmax(ωM)

v_s＝αH

其中H＝{h₁，h₂，…，h_l}是经由LSTM输出的隐藏状态集，W_h和ω是需要训练的参数。而v_s则是最终获得的表征良好的序列向量。

3)联合预测

获得序列向量后，需要依据该向量预测对应的下一个事件与时间。此外，还需要构建一个能同时考虑时间和事件预测结果的联合优化目标。

3.1)事件与时间预测

如下方公式所示，事件与时间的预测分别使用了一个softmax函数，将输出的隐藏向量转化为一个表示不同候选项的概率值的向量。

y_e＝softmax(W_ev_s+b_e)

y_Δt＝softmax(W_Δtv_s+b_Δt)

其中，y_e和y_Δt分别是事件预测和时间预测的概率分布结果，其每一维均代表一个候选项。概率最高的候选项将成为预测结果，即下一个可能发生的事件及其时间。W和b同样也是需要训练的模型参数。

3.2)利用联合优化方程进行训练

在训练过程中，需要不断优化上述所有参数，以达到最佳的预测效果。而损失函数作为衡量预测效果的标准，需要同时考虑时间和事件的预测结果，使训练能逐步达到最佳的联合优化效果。所采用的联合优化目标函数如下：

其中，优化目标

包含三个部分，L2范式损失、事件损失值和时间损失值。Ω(θ)表示θ的L2范式值，λ₀是其正规化参数。事件损失值中

表示使用交叉熵计算的事件损失值，

是预测的事件结果，e_i是真实的事件结果。λ₁作为一个超参数，可以调整事件损失值的比例，默认数值为1。

而时间损失值中的

同事件中的计算。但观察到时间区间中包含大量“0区间”的数值(即发生时间在0s～1s内的)，这些时间区间为0的样本可称为“零样本”。大量的零样本有两种不同的来源：对于粗粒度的多源数据集，由于记录的数据条目类型较多，容易出现一些无关联的并发事件，这些事件是干扰项，应尽可能降低对其预测结果的关注度。而对于细粒度的单一过程数据集，可能会有一些连续发生的关键事件，应增大对该预测结果的关注度。因此，引入超参数a∈(0，1)调整零样本在损失函数中的重视度。当a>0.5时，代表提升对零样本的关注，反之则降低关注。λ₂也是一个调整时间损失值比例的超参数，默认数值也为1。最终时间损失部分为由

构成。

通过上述三部分构成了最终的联合损失函数，在训练时以最小化该损失值为目标可以得到最佳的联合预测效果。模型训练时，至少进行500轮训练，最终保存效果最好的一轮对应的参数。在线部署时，直接使用保存好的参数进行预测。

本申请在装有2个GPU的服务器上训练该模型，GPU型号为GeForce(GTX 108)11GB，CUDA版本号为10.1。模型使用Pytorch框架搭建，其版本号为0.4.0。模型的超参数设置如下：输入中的事件维度为200，时间维度为100，输入序列长度为60，隐藏层维数为600，隐藏层数为2，初始学习率为0.01，学习率衰减为0.001，λ₁和λ₂均为1，批处理大小为128，训练论数为500。

在MULTI、WAF、ARCS、CFDR等四个真实环境下采集的数据集中评估本申请的效果。MULTI是包含了网络防护、终端检测、系统杀毒等多种来源的安全数据集，WAF是一个校园网的网站防火墙日志数据，ARCS则是LANL公司公开发布的主机事件日志，CFDR是一个公开的在Blue Gene/P Intrepid系统上运行的RAS日志数据集。在每个数据集中，80％的数据用于训练预测模型，剩下20％验证模型的训练效果。基于上述测试环境，下面将从提升事件预测精度以及同步提供时间预测两方面的效果进行描述。

1)提升事件预测精度

1.1)事件预测效果对比

为了体现本申请对于事件预测的改善效果，以精度为评价指标，将本申请与现有技术的事件预测效果进行对比。对比的方法包含如下几种：

(1)纯事件信息模型：即现有的技术，在输入部分中，仅使用事件信息，输出时仅进行下一个可能的事件预测。

(2)基础RNN模型：采用本申请的结构，但在初步提取层中，采用最基础的循环神经网络提取初步的序列向量。

(3)基础RNN模型：采用本申请的结构，但在初步提取层中，采用最基础的循环神经单元提取初步的序列向量。

(4)GRU模型：采用本申请的结构，但在初步提取层中，采用最门控神经单元(GateRecurrent Unit，GRU)提取初步的序列向量。

(5)Bi-LSTM模型：采用本申请的结构，但在初步提取层中，采用双向LSTM(Bidirectional LSTM，Bi-LSTM)提取初步的序列向量。

表1安全事件预测总体效果

其中，表1展示了各类方法的预测精度，可以发现本申请在所有数据集中均取得了最高的预测精度。并且对比本申请与纯事件信息模型，可以发现融入时间信息后，预测精度最高提升了7.42％，在四个数据集上精度平均提升了4.295％。这个结果验证了时间信息可以提升模型对输入序列的感知，协助事件预测。此外，与基础RNN、GRU、Bi-LSTM等模型的对比，也可以发现在初步提取层使用LSTM可以取得更好的效果。这是源于LSTM可以处理较长期的依赖关系，保留相关的特征。

1.2)误差情况下的事件预测效果对比

表2本申请在面对干扰下的表现

表3纯事件信息模型在面对干扰下的表现

为了进一步证明本申请在噪声环境下可以比现有技术更稳定，分别在表2、表3中展示了本申请与纯事件信息模型在面对带有人工注入误差的数据上的预测效果。在MULTI数据集的8月24日、8月25日、8月26日三天的数据中分别进行了人工误差处理。在每份数据中，随机挑选10％的数据进行误报、漏报或者混合误差处理。误报是通过将挑选的事件记录修改为其他事件类型，漏报是删掉该条事件记录，混合误差则是随机进行这两种误差处理。

通过对比两个表格的结果，可以发现本申请的方法比起现有的仅使用事件信息的技术具有更好的稳定性。在上述任意误差条件及任一天数据上，本申请方法均保持优于现有技术的精度。通过上述实验，验证了时间信息可以协助预测模型判断输入序列中的误报、漏报等误差信息，提升模型的预测准确性。

2)同步提供时间预测

除了提升事件预测效果，本申请还能同步提供时间预测结果。相比于传统的单独使用一个统计模型预测生存时间，本申请仅需要使用一个模型即可实现事件与时间的同步预测，可以有效降低部署代价。并且，将时间离散化处理后，该信息可以有效地融入深度学习模型，提供更准确的时间预测。

为了验证上述效果，将本申请与两种经典的生存分析算法Kaplan–Meier(KM)和加速失效模型(Accelerated Failure Time model,AFT)进行对比。由于两种算法均是通过拟合生存曲线得出可能的发生时间而非发生区间，所以为了公平地评估不同算法的准确性，将两种算法的预测结果也经由图4所示的划分映射到对应的时间区间。

表4时间预测总体效果

如表所示，本申请具在不同数据集上均具有最佳的时间预测准确性。与传统的生存分析算法相比，本申请的预测效果具有明显的提升。并且，仅使用一个模型即可实现事件和时间的同步预测，无需再额外部署一个时间预测的算法，更加方便、快捷。

综上所述，现有的安全事件预测方法仅使用历史事件信息进行预测。当输入序列存在误报、漏报等干扰信息时，其性能急剧下降。本申请提出在输入的事件序列中，融入每个事件对应的时间区间信息。该方法可以协助预测模型判断输入序列中的噪声信息，提升模型的感知能力，最终实现更好、更稳定的预测能力。另外，现有的预测方法仅提供可能发生的安全事件，未提供该事件可能的发生时间。本申请在预测后续安全事件的同时，也提供了该事件发生的时间区间，为网络管理员部署合适的防御策略提供有效的参考。此外，现有的时间预测方法采用统计模型拟合生存时间曲线，需要额外部署一个新的模型。并且曲线的拟合结果与现实数据偏差较大。本申请将连续的时间数值空间划分为几个离散的时间区间，解决了维度爆炸问题，使得可以直接利用同一个深度学习模型预测事件的发生时间区间，减少部署代价。此外，利用深度学习模型进行预测，还大幅度提升了时间预测的准确性。

为了实现上述实施例，本申请还提出一种网络协同攻击行为的预测装置。

图5为本申请实施例提供的一种网络协同攻击行为的预测装置的结构示意图。如图5所示，该网络协同攻击行为的预测装置500包括：提取模块501、生成模块502、第一获取模块503、第二获取模块504、训练模块505和预测模块506。

具体地，提取模块501用于从多种来源的安全警报中提取安全事件以及安全事件对应的时间信息。

生成模块502用于基于提取得到的安全事件以及安全事件对应的时间信息，生成多个序列；其中，每个序列中包含l个元组，第i个元组τ_i＝(e_i,Δt_i)包含序列中的第i个事件e_i以及第i个事件的持续时间Δt_i。

第一获取模块503用于将每个序列输入至深度学习模型，获得每个序列的序列向量。

第二获取模块504用于将每个序列的序列向量输入至联合预测模型，获得预测的事件结果，其中，预测的事件结果包括下一个可能发生的安全事件及对应的时间信息。

训练模块505用于根据预测的事件结果、真实的事件结果和预设的联合优化目标函数，对深度学习模型和联合预测模型进行训练，基于完成训练的深度学习模型和联合预测模型构成协同攻击行为预测模型。

预测模块506用于获取待处理安全事件及对应的时间信息，将待处理安全事件及对应的时间信息输入至协同攻击行为预测模型，获得下一个可能发生的安全事件及对应的时间信息。

需要说明的是，前述对网络协同攻击行为的预测方法实施例的解释说明也适用于该实施例的网络协同攻击行为的预测装置，此处不再赘述。

为了实现上述实施例，本申请还提出一种电子设备。

图6是根据本申请一个实施例的电子设备的结构示意图。如图6所示，该电子设备600可以包括：存储器601、处理器602及存储在存储器601上并可在处理器602上运行的计算机程序603，处理器602执行程序603时，实现本申请上述任一实施例所述的网络协同攻击行为的预测方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。