CN112702329B

CN112702329B - 一种流量数据异常检测方法、装置和存储介质

Info

Publication number: CN112702329B
Application number: CN202011515113.7A
Authority: CN
Inventors: 王任重; 魏华强; 徐小雄; 付强
Original assignee: Homwee Technology Co ltd
Current assignee: Homwee Technology Co ltd
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2023-04-07
Anticipated expiration: 2040-12-21
Also published as: CN112702329A

Abstract

本申请提供一种流量数据异常检测方法、装置和存储介质，该方法包括获取待检测的目标流量数据并提取目标流量数据对应的数据特征；将目标流量数据对应的数据特征输入预先训练的自编码器检测模型中，以获得目标流量数据对应的编码数据、随机采样值以及重构数据；通过自编码器检测模型的损失函数计算编码数据与重构数据的第一损失值、随机采样值的后验分布与先验分布的第二损失值并根据第一损失值和第二损失值计算综合损失值；根据综合损失值确定目标流量数据是否异常；记录存储检测完成的多个目标流量数据；判断多个目标流量数据的数量是否超过预设值；若是，则利用多个目标流量数据对自编码器检测模型进行增量学习以对自编码器检测模型进行更新。

Description

一种流量数据异常检测方法、装置和存储介质

技术领域

本申请涉及异常数据检测技术领域，具体而言，涉及一种流量数据异常检测方法、装置和存储介质。

背景技术

现有的网络流量数据在遭受攻击时其具有的数据特征(如数据包长度、端口、IP等)会发生改变，但目前对于网络流量数据异常的检测一般是通过人工提取网络流量数据特征进而人工进行查验，但这样的方式使得网络流量数据的异常检测存在着效率和精度较低的问题。

发明内容

本申请实施例的目的在于提供一种流量数据异常检测方法、装置和存储介质，用以解决目前对于网络流量数据异常的检测一般是通过人工提取网络流量数据特征进而人工进行查验存在的效率和精度低的问题。

第一方面，本发明提供一种流量数据异常检测方法，包括：获取待检测的目标流量数据并提取所述目标流量数据对应的数据特征；将所述目标流量数据对应的数据特征输入预先训练的自编码器检测模型中，以获得所述目标流量数据对应的编码数据、随机采样值以及重构数据；通过所述自编码器检测模型的损失函数计算所述编码数据与所述重构数据之间的第一损失值、所述随机采样值的后验分布与先验分布之间的第二损失值，并根据所述第一损失值和第二损失值计算综合损失值；根据所述综合损失值确定所述目标流量数据是否异常。

在上述设计的流量数据异常检测方法中，通过提取获取的待检测的目标流量数据对应的数据特征，然后将提取得到的数据特征输入预先训练的自编码器检测模型中得到目标流量数据对应的编码数据、随机采样值以及重构数据，进而通过自编码器检测模型的损失函数计算编码数据与重构数据之间的第一损失值，以及，计算随机采样值的后验分布与先验分布之间的第二损失值，并根据第一损失值和第二损失值计算综合损失值，进而基于得到的损失值来确定目标流量数据是否异常，本方案通过采用神经网络模型即自编码器检测模型来得到目标流量数据对应的编码数据、随机采样值以及重构数据进而计算得到综合损失值，然后通过计算得到的综合损失值来自动确定目标流量数据是否异常，使得能够实时并且更加准确地进行网络流量数据的异常判定，解决了目前对于网络流量数据异常的检测一般是通过人工提取网络流量数据特征进而人工进行查验存在的效率和精度低的问题，提高了网络流量数据异常判定的效率和精度。

在第一方面的可选实施方式中，所述根据损失值确定所述目标流量数据是否异常，包括：获取预设的损失值区间，所述预设的损失值区间通过所述自编码器检测模型在训练过程中的最大综合损失值和最小综合损失值确定；判断所述综合损失值是否在所述损失值区间范围内；若是，则确定所述目标流量数据正常；若否，则确定所述目标流量数据异常。

在上述设计的实施方式中，通过判断计算得到的目标流量数据对应的综合损失值是否在基于训练过程中的最大损失值和最小损失值形成的损失值区间内，若不在，则说明目标流量数据与进行训练时采用的样本流量数据相差较大，很有可能是异常流量数据，进而确定其异常；若在，则说明目标流量数据与进行训练时采用的样本流量数据类似，极大可能是正常的流量数据，进而确定其正常，通过这样的方式使得本申请方案在训练过程中无需对流量数据是正常还是异常进行标定，而是只需记录训练过程中的综合损失值情况进而形成损失值区间进而在应用时直接比较即可，极大的节约了流量数据类型标定的时间，提高模型部署的效率。

在第一方面的可选实施方式中，所述损失函数为：

Loss＝-Loss₁+Loss₂；

其中，

表示解码器输出与编码器输入之间的交叉损失熵函数，p_θd(x’|z)＝f(x’；z,θ_d)，f表示非线性函数，x’表示重构数据，z表示随机采样值，θ_d表示解码器参数，x表示数据特征，x₁表示数据特征对应的编码数据；

表示相对熵函数；p(z|x)表示z的后验分布；

表示z的先验分布。

在第一方面的可选实施方式中，在所述根据所述综合损失值确定所述目标流量数据是否异常之后，所述方法还包括：记录并存储检测完成的多个目标流量数据；判断所述多个目标流量数据的数量是否超过预设值；若是，则利用所述多个目标流量数据对所述自编码器检测模型进行增量学习以对所述自编码器检测模型进行更新。

在第一方面的可选实施方式中，所述利用所述多个目标流量数据对所述自编码器检测模型进行增量学习以对所述自编码器检测模型进行更新，包括：在所述自编码器检测模型中增加一连接层；获取增加的连接层的参数信息和所述自编码器检测模型的参数信息；根据增加的连接层的参数信息和所述自编码器检测模型的参数信息对所述自编码器检测模型的参数信息进行更新，以获得初始更新的自编码器检测模型；将所述多个目标流量数据输入所述初始更新的自编码器检测模型中，以获得每一所述目标流量数据对应的第二重构数据；获取所述多个目标流量数据对应的重构数据；计算所述多个目标流量数据对应的重构数据和第二重构数据之间的散度值以获得蒸馏损失；利用所述蒸馏损失对所述损失函数进行更新并对更新后的损失函数进行训练直至达到预设训练次数或所述初始更新的自编码器检测模型的各个参数收敛，以完成所述自编码器检测模型的更新。

在上述设计的两种实施方式中，利用增量学习方法来对部署的自编码器检测模型进行更新，可避免模型在线部署下流量数据随时间推移而变化对模型检测效果的影响，提高了设计的自编码器检测模型的有效性和实时性。

在第一方面的可选实施方式中，在所述获取待检测的目标流量数据并提取所述目标流量数据对应的数据特征之前，所述方法还包括：获取训练样本集，所述训练样本集包括多个样本，每一样本包括每一样本流量数据对应的数据特征；根据所述训练样本集对预设的自编码器网络模型进行训练直至达到预设训练次数或所述预设的自编码器网络模型的各个参数收敛，以获得所述自编码器检测模型。

在第一方面的可选实施方式中，所述根据所述训练样本集对预设的自编码器网络模型进行训练直至达到预设训练次数或所述预设的自编码器网络模型的各个参数收敛，以获得所述自编码器检测模型，包括：从所述训练样本集中选择一个样本作为当前样本；将所述当前样本对应的样本流量数据对应的数据特征输入预设的自编码器网络模型中以提取所述当前样本对应的编码数据、随机采样值以及重构数据；根据所述当前样本对应的编码数据、随机采样值以及重构数据通过所述损失函数计算所述当前样本对应的训练综合损失值；根据所述训练综合损失值、反向传播算法及优化算法更新迭代所述自编码器网络模型的各个参数；判断当前迭代累积次数是否超过预设的迭代次数或所述自编码器网络模型的各个参数是否收敛；若当前迭代累计次数超过预设的迭代次数或所述自编码器网络模型的各个参数收敛，则得到所述自编码器检测模型；若当前迭代累计次数没有超过预设的迭代次数且所述自编码器网络模型的各个参数不收敛，则返回执行所述从所述训练样本集中选择一个样本作为当前样本的步骤。

在第一方面的可选实施方式中，所述预设的自编码器网络模型包括编码器、采样层以及解码器，所述将所述当前样本对应的样本流量数据对应的数据特征输入预设的自编码器网络模型中以提取所述当前样本对应的编码数据、随机采样值以及重构数据，包括：将所述当前样本对应的样本流量数据对应的数据特征输入所述编码器中，以使所述编码器利用非线性函数对所述当前样本对应的样本流量数据对应的数据特征进行编码以获得所述编码数据并将所述编码数据传输到所述采样层；使用所述采样层中的第一全连接层根据所述编码数据确定均值；使用所述采样层中的第二全连接层根据所述编码数据确定方差；根据所述均值与方差对所述编码数据进行高斯分布拟合以获得所述随机采样值并将所述随机采样值传输给所述解码器；使用所述解码器利用所述非线性函数对所述编码数据进行数据重构以获得所述重构数据。

在第一方面的可选实施方式中，所述获取训练样本集，包括：获取多个样本流量数据；提取每一所述样本流量数据对应的数据特征；将每一所述样本流量数据的数据特征转换为tfrecord格式；读取所述tfrecord格式的数据特征以形成序列化样本进而获得所述训练样本集。

在上述设计的实施方式中，通过将每一所述样本流量数据的数据特征转换为tfrecord格式进而读取tfrecord格式形成序列化样本达到优化处理速度与减少内存占用率的效果。

第二方面，本申请提供一种流量数据异常检测装置，该装置包括获取模块，用于获取待检测的目标流量数据并提取所述目标流量数据对应的数据特征；输入模块，用于将所述目标流量数据对应的数据特征输入预先训练的自编码器检测模型中，以获得所述目标流量数据对应的编码数据、随机采样值以及重构数据；计算模块，用于通过所述自编码器检测模型的损失函数计算所述编码数据与所述重构数据之间的第一损失值、所述随机采样值的后验分布与先验分布之间的第二损失值，并根据所述第一损失值和第二损失值计算综合损失值；确定模块，用于根据所述综合损失值确定所述目标流量数据是否异常。

在上述设计的流量数据异常检测装置中，通过提取获取的待检测的目标流量数据对应的数据特征，然后将提取得到的数据特征输入预先训练的自编码器检测模型中得到目标流量数据对应的编码数据、随机采样值以及重构数据，进而计算编码数据与重构数据之间的第一损失值，以及，计算随机采样值的后验分布与先验分布之间的第二损失值，并根据第一损失值和第二损失值计算综合损失值，进而基于得到的损失值来确定目标流量数据是否异常，本方案通过采用神经网络模型即自编码器检测模型来得到目标流量数据对应的编码数据、随机采样值以及重构数据进而计算得到综合损失值，然后通过计算得到的综合损失值来自动确定目标流量数据是否异常，使得能够实时并且更加准确地进行网络流量数据的异常判定，解决了目前对于网络流量数据异常的检测一般是通过人工提取网络流量数据特征进而人工进行查验存在的效率和精度低的问题，提高了网络流量数据异常判定的效率和精度。

在第二方面的可选实施方式中，所述确定模块，具体用于获取预设的损失值区间，所述预设的损失值区间通过所述自编码器检测模型在训练过程中的最大综合损失值和最小综合损失值确定；判断所述综合损失值是否在所述损失值区间范围内；若是，则确定所述目标流量数据正常；若否，则确定所述目标流量数据异常。

在第二方面的可选实施方式中，所述装置还包括记录存储模块，用于记录并存储检测完成的多个目标流量数据；判断模块，用于判断所述多个目标流量数据的数量是否超过预设值；更新模块，用于利用所述多个目标流量数据对所述自编码器检测模型进行增量学习以对所述自编码器检测模型进行更新。

在第二方面的可选实施方式中，所述更新模块，具体用于在所述自编码器检测模型中增加一全连接层；获取增加的全连接层的参数信息和所述自编码器检测模型的参数信息；根据增加的全连接层的参数信息和所述自编码器检测模型的参数信息对所述自编码器检测模型的参数信息进行更新，以获得初始更新的自编码器检测模型；将所述多个目标流量数据输入所述初始更新的自编码器检测模型中，以获得每一所述目标流量数据对应的第二重构数据；获取所述多个目标流量数据对应的重构数据；计算所述多个目标流量数据对应的重构数据和第二重构数据之间的散度值以获得蒸馏损失；利用所述蒸馏损失对所述损失函数进行更新并对更新后的损失函数进行训练直至达到预设训练次数或所述初始更新的自编码器检测模型的各个参数收敛，以完成所述自编码器检测模型的更新。

在第二方面的可选实施方式中，所述获取模块，还用于获取训练样本集，所述训练样本集包括多个样本，每一样本包括每一样本流量数据对应的数据特征；训练模块，用于根据所述训练样本集对预设的自编码器网络模型进行训练直至达到预设训练次数或所述预设的自编码器网络模型的各个参数收敛，以获得所述自编码器检测模型。

第三方面，本申请提供一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时执行第一方面、第一方面的任一可选的实现方式中的所述方法。

第四方面，本申请提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时执行第一方面、第一方面的任一可选的实现方式中的所述方法。

第五方面，本申请提供一种计算机程序产品，所述计算机程序产品在计算机上运行时，使得计算机执行第一方面、第一方面的任一可选的实现方式中的所述方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的流量数据异常检测方法的第一流程图；

图2为本申请实施例提供的模型结构图；

图3为本申请实施例提供的流量数据异常检测方法的第二流程图；

图4为本申请实施例提供的流量数据异常检测方法的第三流程图；

图5为本申请实施例提供的流量数据异常检测方法的第四流程图；

图6为本申请实施例提供的增量学习示意图；

图7为本申请实施例提供的流量数据异常检测方法的第五流程图；

图8为本申请实施例提供的流量数据异常检测方法的第六流程图；

图9为本申请实施例提供的流量数据异常检测方法的第七流程图；

图10为本申请实施例提供的流量数据异常检测装置的结构示意图；

图11为本申请实施例提供的电子设备的结构示意图。

图标：200-获取模块；201-输入模块；202-计算模块；203-确定模块；204-记录存储模块；205-判断模块；206-更新模块；3-电子设备；301-处理器；302-存储器；303-通信总线。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

本申请实施例提供一种流量数据异常检测方法，该方法应用于计算机、服务器等计算设备，该方法具体包括如下步骤：

步骤S100：获取待检测的目标流量数据并提取目标流量数据对应的数据特征。

步骤S101：将目标流量数据对应的数据特征输入预先训练的自编码器检测模型中，以获得目标流量数据对应的编码数据、随机采样值以及重构数据。

步骤S102：通过自编码器检测模型的损失函数计算编码数据与重构数据之间的第一损失值，以及，计算随机采样值的后验分布与先验分布之间的第二损失值，并根据第一损失值和第二损失值计算综合损失值。

步骤S103：根据综合损失值确定目标流量数据是否异常。

在步骤S100中，本方案会获取待检测的目标流量数据然后提取该目标流量数据对应的数据特征，其中，提取该目标流量数据对应的数据特征具体可通过人工提取该目标流量数据的数据包长度、端口、IP以及上下行流量等特征，然后利用词嵌入技术对这些特征进行处理后得到深层特征，本方案所说的数据特征即利用词嵌入技术对前述所说的人为提取的特征进行处理后得到深层特征。

在步骤S101中，本方案会将目标流量数据对应的数据特征输入预先训练完成的自编码器检测模型中，该自编码器检测模型会基于该目标流量数据对应的数据特征生成编码数据、随机采样值以及重构数据，具体的，如图2所示，该自编码器检测模型包括编码器、采样层以及解码器，该编码器接收输入然后生成编码数据传输给采样层，该编码器具体是将输入的目标流量数据对应的数据特征经过隐藏层得到编码数据，具体的，可通过如下公式进行编码数据获得：

p_θe(x₁|x)＝f(x₁；x,θ_e)；

其中，f表示非线性函数，如神经网络激活函数；θ_e表示的是编码器的参数；x表示目标流量数据对应的数据特征；x₁表示编码数据。

采样层由编码数据x₁连接第一全连接层和第二全连接层，根据编码数据和第一全连接层的权重和偏置值得到均值，根据编码数据和第二全连接层的权重和偏置值得到方差，进而基于均值和方差对该编码数据进行高斯分布拟合，通过在高斯分布拟合过程中添加噪声得到该随机采样值，具体的，可通过如下公式得到随机采样值z：

μ＝ω_μ*x₁+b_μ；

σ＝ω_σ*x₁+B_σ；

z＝μ(x₁)+σ(x₁)*ε；

其中，μ表示均值；σ表示方差；ω_μ表示第一全连接层的权重；b_μ表示第一全连接层的偏置值；ω_σ表示第二全连接层的权重；b_σ表示第二全连接层的偏置值；ε为随机值；z为随机采样值。

采样层在得到随机采样值z之后会将其传输给解码器，解码器会基于随机采样值z对输入的目标流量数据对应的数据特征x进行数据重构，进而得到重构数据x’，具体的，重构数据具体可通过如下公式得到：

其中，f为前述所说的非线性函数；θ_e表示的是解码器的参数。

通过如上步骤得到了目标流量数据对应的编码数据、随机采样值以及重构数据之后，即可执行步骤S102通过自编码器检测模型的损失函数计算编码数据与重构数据之间的第一损失值，计算随机采样值的后验分布与先验分布之间的第二损失值，并根据第一损失值和第二损失值计算综合损失值，该综合损失值表示的是编码数据与重构数据之间的损失与随机采样值的后验分布和先验分布的损失的综合损失情况，具体的，可才用如下损失函数来计算综合损失值，具体为：

Loss＝-Loss₁+Loss₂；

其中，

表示解码器输出与编码器输入之间的交叉损失熵函数，

f表示非线性函数，x’表示重构数据，z表示随机采样值，θ_d表示解码器参数，x表示数据特征，x₁表示数据特征对应的编码数据；

表示相对熵函数；p(z|x)表示z的后验分布；

表示z的先验分布。

在上述损失函数中，计算第一损失值除了采用上述公式以外还可以采用其他计算编码数据和重构数据之间损失的其他公式；同样的计算第二损失值除了采用上述公式以外还可以采用其他计算先验分布与后验分布之间的损失的其他公式；另外进行综合计算时也不一定是将二者的损失进行加减等运算，也可以根据实际情况考虑其他的算法。

在通过如上步骤得到目标流量数据对应的损失值之后，即可执行步骤S103根据综合损失值确定目标流量数据是否异常，具体的，如图3所示，步骤S103具体可通过如下步骤实现：

步骤S1030：获取预设的损失值区间。

步骤S1031：判断综合损失值是否在损失值区间内，若是，则转到步骤S1032；若否，则转到步骤S1033。

步骤S1032：确定目标流量数据正常。

步骤S1033：确定目标流量数据异常。

在步骤S1030中，该预设的损失值区间可通过该自编码器检测模型在训练过程中的最大综合损失值和最小综合损失值确定，这里的综合损失值也是根据前述的损失函数计算训练样本的综合损失值得到，具体的，可在对自编码器检测模型进行训练过程中记录每一次训练得到的损失值，然后在训练完成后取出其中的最小综合损失值和最大综合损失值，进而将最小损失值和最大损失值作为损失值区间的两个端点，进而将最小损失值到最大损失值之间的数值作为损失值区间内的数值，进而形成损失值区间。

然后执行步骤S1031判断前述计算的目标流量数据对应的综合损失值是否在该损失值区间内，若在损失值区间内，则说明该目标流量数据与之前进行训练时的样本流量数据类似，进而执行步骤S1032确定该目标流量数据正常；若不在损失值区间内，则说明该目标流量数据与之前进行训练时采用的样本流量数据相差较大，进而执行步骤S1033确定该目标流量数据异常。

在上述设计的流量数据异常检测方法中，通过提取获取的待检测的目标流量数据对应的数据特征，然后将提取得到的数据特征输入预先训练的自编码器检测模型中得到目标流量数据对应的编码数据、随机采样值以及重构数据，进而计算编码数据与重构数据之间的第一损失值，以及，计算随机采样值的后验分布与先验分布之间的第二损失值，并根据第一损失值和第二损失值计算综合损失值，进而基于得到的损失值来确定目标流量数据是否异常，本方案通过采用神经网络模型即自编码器检测模型来得到目标流量数据对应的编码数据、随机采样值以及重构数据进而计算得到综合损失值，然后通过计算得到的综合损失值来自动确定目标流量数据是否异常，使得能够实时并且更加准确地进行网络流量数据的异常判定，解决了目前对于网络流量数据异常的检测一般是通过人工提取网络流量数据特征进而人工进行查验存在的效率和精度低的问题，提高了网络流量数据异常判定的效率和精度。

另外，本申请方案通过判断计算得到的目标流量数据对应的综合损失值是否在基于训练过程中的最大损失值和最小损失值形成的损失值区间内，若不在，则说明目标流量数据与进行训练时采用的样本流量数据相差较大，很有可能是异常流量数据，进而确定其异常；若在，则说明目标流量数据与进行训练时采用的样本流量数据类似，极大可能是正常的流量数据，进而确定其正常，通过这样的方式使得本申请方案在训练过程中无需对流量数据是正常还是异常进行标定，而是只需记录训练过程中的综合损失值情况进而形成损失值区间进而在应用时直接比较即可，极大的节约了流量数据类型标定的时间，提高模型部署的效率。

在本实施例的可选实施方式中，在步骤S103根据综合损失值确定目标流量数据是否异常之后，该方法还可以执行如下步骤利用增量学习方法来对部署的自编码器检测模型进行更新，如图4所示，其具体包括如下步骤：

步骤S104：记录并存储检测完成的多个目标流量数据。

步骤S105：判断多个目标流量数据的数量是否超过预设值，若是，则执行步骤S106。

步骤S106：利用多个目标流量数据对自编码器检测模型进行增量学习以对自编码器检测模型进行更新。

在步骤S104和步骤S105中，在不断执行步骤S100到步骤S103对多个目标流量数据进行检测的过程中，本方案还可以记录并存储检测完成的多个目标流量数据并且判断检测的多个目标量数据的数量是否超过预设值，也就是说当检测的目标流量数据的数量满足一定要求时，则执行步骤S106。这里需要说明的是，除了基于多个目标流量数据的数据进行判定以外，还可以设定预设时间，进而在预设时间后执行步骤S106。

在步骤S106中，本方案会利用存储的这多个目标流量数据对自编码器检测模型进行增量学习，进而对自编码器检测模型进行更新。

具体的，步骤S106可采用如下方式来对自编码器检测模型进行更新，如图5所示，包括：

步骤S1060：在编码器检测模型中增加一全连接层。

步骤S1061：获取增加的连接层的参数信息和自编码器检测模型的参数信息。

步骤S1062：根据增加的连接层的参数信息和自编码器检测模型的参数信息对自编码器检测模型的参数信息进行更新，以获得初始更新的自编码器检测模型。

步骤S1063：将多个目标流量数据输入初始更新的自编码器检测模型中，以获得每一目标流量数据对应的第二重构数据。

步骤S1064：获取多个目标流量数据对应的重构数据；

步骤S1065：计算多个目标流量数据对应的重构数据和第二重构数据之间的散度值以获得蒸馏损失。

步骤S1066：利用蒸馏损失对损失函数进行更新并对更新后的损失函数进行训练直至达到预设训练次数或初始更新的自编码器检测模型的各个参数收敛，以完成自编码器检测模型的更新。

上述步骤如图6所示，假设自编码器检测模型当前为M₁，更新后为M₂，θ_s1与θ_p1为M₁的网络结构与参数；θ_s2和θ_p2是M₂的网络结构与参数；D₂是多个目标流量数据的集合。

对于上述步骤，获取多个目标流量数据对应的重构数据，即记录D₂中每一目标流量数据输入M₁后得到的重构数据；在M₁的基础上新加一个全连接层，参数为θ_n，初始化θ_n为θ_p1中最后一层的参数，将θ_n与θ_s1的整合作为M₂的网络结构θ_s2；θ_p1与θ_n整合作为M₂的初始化参数θ_p2；将蒸馏损失、采样层的KL相对熵函数以及解码器输出及编码器输入之间的交叉损失熵函数之和作为M₂的损失函数，该蒸馏损失定义为每一目标流量数据输入M₁后得到的重构数据与每一目标流量数据输入M₂所得到的第二重构数据之间散度值，最后采用Adam优化器遍历D₂中的数据训练M₂直至模型收敛，然后即可得到更新完成的自编码器检测模型。

在上述设计的实施方式中，本方案提出的增量学习方法可避免模型在线部署下流量数据随时间推移而变化对模型检测效果的影响，提高了设计的自编码器检测模型的有效性和实时性。

在本实施例的可选实施方式中，在步骤S100之前，本方案还可以包括对自编码器检测模型的训练过程，如图7所示，其具体可包括如下步骤：

步骤S90：获取训练样本集，该训练样本集包括多个样本，每一样本包括每一样本流量数据对应的数据特征。

步骤S91：根据训练样本集对预设的自编码器网络模型进行训练直至达到预设训练次数或预设的自编码器网络模型的各个参数收敛，以获得自编码器检测模型。

在上述步骤中，如图8所示，步骤S90获得训练样本集的具体过程可如下：

步骤S900：获取多个样本流量数据。

步骤S901：提取每一样本流量数据对应的数据特征。

步骤S902：将每一样本流量数据的数据特征转换为tfrecord格式。

步骤S903：读取tfrecord格式的数据特征以形成序列化样本进而获得训练样本集。

在上述步骤中获取多个样本流量数据可获取正常状态下的历史流量数据包，进而对获取到的流量数据包进行数据包解析处理，从数据包和会话流两方面提取原始流量数据中的有效信息，包括数据包长度、端口、IP、上下行流量等，然后如前述所说，利用词嵌入技术对得到的有效信息进行处理，进而可以得到每一样本流量数据对应的深层特征即数据特征，然后执行步骤S902。

在步骤S902中，本方案可将每一样本流量数据的数据特征转换为tfrecord格式，其中，转换的具体过程可以是制作tfrecord格式二进制数据，获取训练样本数据,将样本序列化为字符串，写入到tfrecord文件，生成文件队列，建立阅读器从tfrecord文件得到序列化样本，对序列化样本进行batch填充与划分处理，进而通过解析符号化的样本将字符串解析成原始数据对应的数组形式即可得到训练样本集。由于本申请方案通过对序列化样本进行batch处理，可以达到优化处理速度与减少内存占用率的效果。

在执行上述步骤得到训练样本集之后即可执行步骤S91根据训练样本集对预设的自编码器网络模型进行训练，其中，该自编码器网络模型的在前述已经进行了描述，如图9所示，该训练过程具体如下：

步骤S910：从训练样本集中选择一个样本作为当前样本。

步骤S911：将当前样本对应的样本流量数据对应的数据特征输入预设的自编码器网络模型中以提取当前样本对应的编码数据、随机采样值以及重构数据。

步骤S912：根据当前样本对应的编码数据、随机采样值以及重构数据，通过损失函数计算当前样本对应的训练综合损失值。

步骤S913：根据训练综合损失值、反向传播算法及优化算法更新迭代自编码器网络模型的各个参数。

步骤S914：判断当前迭代累积次数是否超过预设的迭代次数或所述自编码器网络模型的各个参数是否收敛，若是，则执行步骤S915；若否，则返回执行步骤S910。

步骤S915：得到该自编码器检测模型。

在上述步骤中，首先从训练样本集中选出一个样本作为当前样本进而将其对应的数据特征输入预设的自编码器网络模型中进而得到其对应的编码数据、随机采样值以及重构数据，然后基于当前样本对应的编码数据、随机采样值以及重构数据计算其对应的训练综合损失值，进而基于训练综合损失值、反向传播算法以及优化算法更迭迭代自编码器网络模型的各个参数，然后判断其迭代累积次数是否超过预设次数或者模型的各个参数是否收敛；若当前迭代累计次数超过预设的迭代次数或所述自编码器网络模型的各个参数收敛，则得到该自编码器检测模型；若当前迭代累计次数没有超过预设的迭代次数且自编码器网络模型的各个参数不收敛则返回执行步骤S910，进而再次执行上述步骤进行训练，其中，具体得到的过程与前述描述的得到目标流量数据对应的编码数据、随机采样值和重构数据的过程是一致的，在这里不再赘述。

图10出示了本申请提供的一种流量数据异常检测装置的示意性结构框图，应理解，该装置与上述图1至图9中执行的方法实施例对应，能够执行前述实施方式中计算设备执行的方法涉及的步骤，该装置具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operating system，OS)中的软件功能模块。具体地，该装置包括：获取模块200，用于获取待检测的目标流量数据并提取目标流量数据对应的数据特征；输入模块201，用于将目标流量数据对应的数据特征输入预先训练的自编码器检测模型中，以获得目标流量数据对应的编码数据、随机采样值以及重构数据；计算模块202，用于通过自编码器检测模型的损失函数计算所述编码数据与重构数据之间的第一损失值、随机采样值的后验分布与先验分布之间的第二损失值，并根据第一损失值和第二损失值计算综合损失值；确定模块203，用于根据综合损失值确定目标流量数据是否异常。

在上述设计的流量数据异常检测装置中，通过提取获取的待检测的目标流量数据对应的数据特征，然后将提取得到的数据特征输入预先训练的自编码器检测模型中得到目标流量数据对应的编码数据、随机采样值以及重构数据，进而通过自编码器检测模型的损失函数计算编码数据与重构数据之间的第一损失值，以及，计算随机采样值的后验分布与先验分布之间的第二损失值，并根据第一损失值和第二损失值计算综合损失值，进而基于得到的损失值来确定目标流量数据是否异常，本方案通过采用神经网络模型即自编码器检测模型来得到目标流量数据对应的编码数据、随机采样值以及重构数据进而计算得到综合损失值，然后通过计算得到的综合损失值来自动确定目标流量数据是否异常，使得能够实时并且更加准确地进行网络流量数据的异常判定，解决了目前对于网络流量数据异常的检测一般是通过人工提取网络流量数据特征进而人工进行查验存在的效率和精度低的问题，提高了网络流量数据异常判定的效率和精度。

在本实施例的可选实施方式中，确定模块203，具体用于获取预设的损失值区间，预设的损失值区间通过自编码器检测模型在训练过程中的最大综合损失值和最小综合损失值确定；判断综合损失值是否在损失值区间范围内；若是，则确定目标流量数据正常；若否，则确定目标流量数据异常。

在本实施例的可选实施方式中，该装置还包括记录存储模块204，用于记录并存储检测完成的多个目标流量数据；判断模块205，还用于判断多个目标流量数据的数量是否超过预设值；更新模块206，用于利用多个目标流量数据对自编码器检测模型进行增量学习以对自编码器检测模型进行更新。

在本实施例的可选实施方式中，更新模块206，具体用于在自编码器检测模型中增加一连接层；获取增加的连接层的参数信息和自编码器检测模型的参数信息；根据增加的连接层的参数信息和自编码器检测模型的参数信息对自编码器检测模型的参数信息进行更新，以获得初始更新的自编码器检测模型；将多个目标流量数据输入初始更新的自编码器检测模型中，以获得每一目标流量数据对应的第二重构数据；获取多个目标流量数据对应的重构数据；计算多个目标流量数据对应的重构数据和第二重构数据之间的散度值以获得蒸馏损失；利用蒸馏损失对损失函数进行更新并对更新后的损失函数进行训练直至达到预设训练次数或初始更新的自编码器检测模型的各个参数收敛，以完成自编码器检测模型的更新。

在本实施例的可选实施方式中，获取模块200，还用于获取训练样本集，训练样本集包括多个样本，每一样本包括每一样本流量数据对应的数据特征；训练模块，用于根据训练样本集对预设的自编码器网络模型进行训练直至达到预设训练次数或预设的自编码器网络模型的各个参数收敛，以获得自编码器检测模型。

如图11所示，本申请提供一种电子设备3，包括：处理器301和存储器302，处理器301和存储器302通过通信总线303和/或其他形式的连接机构(未标出)互连并相互通讯，存储器302存储有处理器301可执行的计算机程序，当计算设备运行时，处理器301执行该计算机程序，以执行时执行前述任一实现方式中的方法过程，例如步骤S100至步骤S103：获取待检测的目标流量数据并提取目标流量数据对应的数据特征；将目标流量数据对应的数据特征输入预先训练的自编码器检测模型中，以获得目标流量数据对应的编码数据、随机采样值以及重构数据；通过自编码器检测模型的损失函数计算编码数据与重构数据之间的第一损失值，以及，计算随机采样值的后验分布与先验分布之间的第二损失值，并根据第一损失值和第二损失值计算综合损失值；根据综合损失值确定目标流量数据是否异常。

本申请提供一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行前述任一实现方式中的方法过程。

其中，存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random Access Memory,简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM)，可编程只读存储器(Programmable Red-Only Memory,简称PROM)，只读存储器(Read-OnlyMemory,简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

本申请提供一种计算机程序产品，该计算机程序产品在计算机上运行时，使得计算机执行前述任一实现方式中的方法过程。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

需要说明的是，功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种流量数据异常检测方法，其特征在于，包括：

获取待检测的目标流量数据并提取所述目标流量数据对应的数据特征；

将所述目标流量数据对应的数据特征输入预先训练的自编码器检测模型中，以获得所述目标流量数据对应的编码数据、随机采样值以及重构数据；

通过所述自编码器检测模型的损失函数计算所述编码数据与所述重构数据之间的第一损失值、所述随机采样值的后验分布与先验分布之间的第二损失值，并根据所述第一损失值和第二损失值计算综合损失值；

根据所述综合损失值确定所述目标流量数据是否异常；

所述根据所述综合损失值确定所述目标流量数据是否异常，包括：

获取预设的损失值区间，所述预设的损失值区间通过所述自编码器检测模型在训练过程中的最大综合损失值和最小综合损失值确定；

判断所述综合损失值是否在所述损失值区间范围内；

若是，则确定所述目标流量数据正常；

若否，则确定所述目标流量数据异常；

所述损失函数为：

Loss＝-Loss₁+Loss₂；

其中，

表示解码器输出与编码器输入之间的交叉损失熵函数，

表示相对熵函数；p(z|x)表示z的后验分布；

表示z的先验分布；

所述自编码器检测模型包括编码器、采样层以及解码器；

所述将所述目标流量数据对应的数据特征输入预先训练的自编码器检测模型中，以获得所述目标流量数据对应的编码数据、随机采样值以及重构数据，包括：

将目标流量数据输入所述编码器，以使所述编码器将所述目标流量数据对应的数据特征经过隐藏层得到编码数据并将所述编码数据传输到所述采样层；

使用所述采样层中的第一全连接层根据所述编码数据确定均值；

使用所述采样层中的第二全连接层根据所述编码数据确定方差；

根据所述均值与方差对所述编码数据进行高斯分布拟合以获得所述随机采样值并将所述随机采样值传输给所述解码器；

使用所述解码器利用所述非线性函数对所述编码数据进行数据重构以获得所述重构数据。

2.根据权利要求1所述的方法，其特征在于，在所述根据所述综合损失值确定所述目标流量数据是否异常之后，所述方法还包括：

记录并存储检测完成的多个目标流量数据；

判断所述多个目标流量数据的数量是否超过预设值；

若是，则利用所述多个目标流量数据对所述自编码器检测模型进行增量学习以对所述自编码器检测模型进行更新。

3.根据权利要求2所述的方法，其特征在于，所述利用所述多个目标流量数据对所述自编码器检测模型进行增量学习以对所述自编码器检测模型进行更新，包括：

在所述自编码器检测模型中增加一全连接层；

获取增加的全连接层的参数信息和所述自编码器检测模型的参数信息；

根据增加的全连接层的参数信息和所述自编码器检测模型的参数信息对所述自编码器检测模型的参数信息进行更新，以获得初始更新的自编码器检测模型；

将所述多个目标流量数据输入所述初始更新的自编码器检测模型中，以获得每一所述目标流量数据对应的第二重构数据；

获取所述多个目标流量数据对应的重构数据；

计算所述多个目标流量数据对应的重构数据和第二重构数据之间的散度值以获得蒸馏损失；

利用所述蒸馏损失对所述损失函数进行更新并对更新后的损失函数进行训练直至达到预设训练次数或所述初始更新的自编码器检测模型的各个参数收敛，以完成所述自编码器检测模型的更新。

4.根据权利要求1所述的方法，其特征在于，在所述获取待检测的目标流量数据并提取所述目标流量数据对应的数据特征之前，所述方法还包括：

获取训练样本集，所述训练样本集包括多个样本，每一样本包括每一样本流量数据对应的数据特征；

根据所述训练样本集对预设的自编码器网络模型进行训练直至达到预设训练次数或所述预设的自编码器网络模型的各个参数收敛，以获得所述自编码器检测模型。

5.根据权利要求4所述的方法，其特征在于，所述根据所述训练样本集对预设的自编码器网络模型进行训练直至达到预设训练次数或所述预设的自编码器网络模型的各个参数收敛，以获得所述自编码器检测模型，包括：

从所述训练样本集中选择一个样本作为当前样本；

将所述当前样本对应的样本流量数据对应的数据特征输入预设的自编码器网络模型中以提取所述当前样本对应的编码数据、随机采样值以及重构数据；

根据所述当前样本对应的编码数据、随机采样值以及重构数据，通过所述损失函数计算所述当前样本对应的训练综合损失值；

根据所述训练综合损失值、反向传播算法及优化算法更新迭代所述自编码器网络模型的各个参数；

判断当前迭代累积次数是否超过预设的迭代次数或所述自编码器网络模型的各个参数是否收敛；

若当前迭代累计次数超过预设的迭代次数或所述自编码器网络模型的各个参数收敛，则得到所述自编码器检测模型；若当前迭代累计次数没有超过预设的迭代次数且所述自编码器网络模型的各个参数不收敛，则返回执行所述从所述训练样本集中选择一个样本作为当前样本的步骤。

6.根据权利要求5所述的方法，其特征在于，所述预设的自编码器网络模型包括编码器、采样层以及解码器，所述将所述当前样本对应的样本流量数据对应的数据特征输入预设的自编码器网络模型中以提取所述当前样本对应的编码数据、随机采样值以及重构数据，包括：

将所述当前样本对应的样本流量数据对应的数据特征输入所述编码器中，以使所述编码器利用非线性函数对所述当前样本对应的样本流量数据对应的数据特征进行编码以获得所述编码数据并将所述编码数据传输到所述采样层；

7.根据权利要求4所述的方法，其特征在于，所述获取训练样本集，包括：

获取多个样本流量数据；

提取每一所述样本流量数据对应的数据特征；

将每一所述样本流量数据的数据特征转换为tfrecord格式；

读取所述tfrecord格式的数据特征以形成序列化样本进而获得所述训练样本集。

8.一种流量数据异常检测装置，其特征在于，包括：

获取模块，用于获取待检测的目标流量数据并提取所述目标流量数据对应的数据特征；

输入模块，用于将所述目标流量数据对应的数据特征输入预先训练的自编码器检测模型中，以获得所述目标流量数据对应的编码数据、随机采样值以及重构数据；

计算模块，用于通过所述自编码器检测模型的损失函数计算所述编码数据与所述重构数据之间的第一损失值、所述随机采样值的后验分布与先验分布之间的第二损失值，并根据所述第一损失值和第二损失值计算综合损失值；

确定模块，用于根据所述综合损失值确定所述目标流量数据是否异常；

所述确定模块，具体用于获取预设的损失值区间，所述预设的损失值区间通过所述自编码器检测模型在训练过程中的最大综合损失值和最小综合损失值确定；判断所述综合损失值是否在所述损失值区间范围内；若是，则确定所述目标流量数据正常；若否，则确定所述目标流量数据异常；

所述自编码器检测模型包括编码器、采样层以及解码器；

所述输入模块，还用于将目标流量数据输入所述编码器，以使所述编码器将所述目标流量数据对应的数据特征经过隐藏层得到编码数据并将所述编码数据传输到所述采样层；使用所述采样层中的第一全连接层根据所述编码数据确定均值；使用所述采样层中的第二全连接层根据所述编码数据确定方差；根据所述均值与方差对所述编码数据进行高斯分布拟合以获得所述随机采样值并将所述随机采样值传输给所述解码器；使用所述解码器利用所述非线性函数对所述编码数据进行数据重构以获得所述重构数据；

其中，所述损失函数为：

Loss＝-Loss₁+Loss₂；

其中，

表示解码器输出与编码器输入之间的交叉损失熵函数，

表示相对熵函数；p(z|x)表示z的后验分布；

表示z的先验分布。