CN112637210A

CN112637210A - 数据检测方法、装置、电子设备及可读存储介质

Info

Publication number: CN112637210A
Application number: CN202011545307.1A
Authority: CN
Inventors: 王任重; 魏华强; 徐小雄; 付强
Original assignee: Sichuan Hongwei Technology Co Ltd
Current assignee: Sichuan Hongwei Technology Co Ltd
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2021-04-09
Anticipated expiration: 2040-12-24
Also published as: CN112637210B

Abstract

本申请提供一种数据检测方法、装置、电子设备及可读存储介质，包括：将每个工控协议下的字节流信息转化为向量化数据，并得到每个向量化数据对应的协议标签信息；对于每个待检测数据组，将其包括的向量化数据和协议标签信息输入至训练完成的CVAE模型，以输出恢复数据；对于每个待检测数据组，根据向量化数据和恢复数据，计算该待检测数据组的融合损失值；将融合损失值与决策阈值进行比较，根据比较结果确定融合损失值对应的待检测数据组的检测结果。该方法可以将协议标签信息作为输入参考得到恢复数据，进而得到融合损失值，并依据其与决策阈值的比较结果确定检测结果，从而可以实现利用同一模型对不同工控协议下的字节流信息的检测。

Description

数据检测方法、装置、电子设备及可读存储介质

技术领域

本申请涉及数据检测领域，具体而言，涉及一种数据检测方法、装置、电子设备及可读存储介质。

背景技术

工业控制系统(Industrial Control Systems，简称ICS)是一种由计算机和工业过程控制部件组成的自动控制系统，在实现设备控制功能以及保障设施安全方面发挥着重要作用。随着技术的不断发展，ICS逐渐开始采用以太网、通用协议、无线设备等，ICS中的关键基础设施也随之暴露在互联网中，ICS面临的网络攻击风险也大大增加。

现有技术中，可以通过网络攻击检测来尽可能降低ICS被网络攻击的风险。目前普遍采用的网络攻击检测模型大致可分为以下几类：基于表征行为匹配的检测方法、基于统计分析的异常检测方法、基于机器学习异常检测方法等。

在网络攻击检测模型的部署过程中，由于一个完整的网络环境中通常存在着多种协议，对此，研究人员大多是针对不同协议下的网络数据分别建立不同的深度学习模型来进行攻击检测，这就会导致在部署过程中需要一次性部署多个模型进行网络攻击的检测，大大增加了模型部署的难度。

发明内容

本申请实施例的目的在于提供一种数据检测方法、装置、电子设备及可读存储介质，用以改善现有技术中的需要一次性部署多个模型进行网络攻击检测、难度较大的问题。

第一方面，本申请实施例提供了一种数据检测方法，所述方法包括：将多个工控协议中的每个工控协议下的字节流信息转化为向量化数据，并得到每个所述向量化数据对应的协议标签信息，其中，所述协议标签信息表征对应的所述字节流信息所在的工控协议，每个所述向量化数据与对应的协议标签信息组成一个相应的待检测数据组；对于每个所述待检测数据组，将其包括的所述向量化数据和协议标签信息输入至训练完成的条件变分自编码器CVAE模型，以使所述CVAE模型输出恢复数据，其中，所述恢复数据为对所述向量化数据进行重构获得的；对于每个所述待检测数据组，根据所述向量化数据和所述恢复数据，计算该待检测数据组的融合损失值；将所述融合损失值与决策阈值进行比较，根据比较结果确定所述融合损失值对应的待检测数据组的检测结果。

在上述的实施方式中，可以得到向量化数据以及该向量化数据对应的协议标签信息，然后将向量化数据以及协议标签信息一同输入到CVAE模型，由CVAE模型输出相应的恢复数据；然后再根据CVAE模型输出的恢复数据以及输入CVAE模型的向量化数据计算出融合损失值，并将该融合损失值与预先计算得到的决策阈值进行比较，并依据比较结果确定出向量化数据以及协议标签信息相应的检测结果。由于在方案中输入进CVAE模型的有表征字节流信息所在的工控协议的协议标签信息，因此上述数据检测方法可以将协议标签信息作为输入参考得到恢复数据，进而得到融合损失值，并依据得到的融合损失值以及决策阈值的比较结果确定检测结果，从而可以实现利用同一模型对不同工控协议下的字节流信息的检测，从而可以降低模型部署的难度。

在一个可能的设计中，所述CVAE模型包括用于模拟编码器的第一函数、用于模拟解码器的第二函数；所述将其包括的所述向量化数据和协议标签信息输入至训练完成的条件变分自编码器CVAE模型，以使所述CVAE模型输出恢复数据，包括：将所述向量化数据和协议标签信息传输至所述第一函数，以使所述第一函数映射出对应的符合高斯分布的数据，并输出所述符合高斯分布的数据的均值和所述符合高斯分布的数据的方差；利用所述CVAE模型从标准高斯分布中采样m维数据，并将所述m维数据、所述符合高斯分布的数据的均值和所述符合高斯分布的数据的方差进行联合计算，得到采样变量；将所述采样变量以及所述协议标签信息传输至所述第二函数，以使所述第二函数输出所述恢复数据。

在上述的实施方式中，可以将向量化数据和协议标签信息输入进表征编码器的第一函数，由第一函数映射出一个数据，该映射出的数据符合高斯分布，第一函数输出上述的符合高斯分布的数据的均值和方差。CVAE模型从标准高斯分布中采样m维数据，然后将m维数据、符合高斯分布的数据的均值和方差进行联合计算得到采样变量。接着可以将采样变量以及协议标签信息传输至表征解码器的第二函数，由第二函数计算出相应的恢复数据。

在一个可能的设计中，所述根据所述向量化数据和所述恢复数据，计算该待检测数据组的融合损失值，包括：根据所述向量化数据，计算所述用于模拟编码器的第一函数的损失值；根据所述恢复数据，计算所述用于模拟解码器的第二函数的损失值；计算所述第一函数的损失值与所述第二函数的损失值的加和，其中，所述加和为所述待检测数据组的融合损失值。

在上述的实施方式中，可以分别根据向量化数据计算第一函数的损失值，根据恢复数据计算第二函数的损失值，然后再计算第一函数的损失值与第二函数的损失值的加和，并将该加和作为整个待检测数据组的融合损失值，由于恢复数据的获取有表征工控协议的协议标签信息参与其中，因此根据上述过程计算出的融合损失值会随着工控协议的不同而有所区别，从而实现了利用同一模型对不同工控协议下的字节流信息的检测。

在一个可能的设计中，所述将所述融合损失值与决策阈值进行比较，根据比较结果确定所述融合损失值对应的待检测数据组的检测结果，包括：若所述融合损失值大于所述决策阈值，则确定所述待检测数据组对应的字节流信息为异常数据；若所述融合损失值小于或等于所述决策阈值，则确定所述待检测数据组对应的字节流信息为正常数据。

在上述的实施方式中，若融合损失值大于决策阈值，可以确定该融合损失值对应的待检测数据组对应的字节流信息为异常数据；若融合损失值小于或等于决策阈值，则可以确定融合损失值对应的待检测数据组对应的字节流信息为正常数据，从而可以根据融合损失值与决策阈值的大小比较来确定该融合损失值对应的字节流数据是否为异常数据。

在一个可能的设计中，在所述对于每个所述待检测数据组，将其包括的所述向量化数据和协议标签信息输入至训练完成的条件变分自编码器CVAE模型，以使所述CVAE模型输出恢复数据之前，所述方法还包括：获取多个工控协议中的每个工控协议下的训练字节流信息；对所述每个工控协议下的训练字节流信息进行数据预处理，得到每个所述训练字节流信息对应的训练数据组，其中，每个所述训练数据组均包括向量化训练数据和训练协议标签信息，所述向量化训练数据由对应的所述训练字节流信息转化得到，所述训练协议标签信息表征对应的所述训练字节流信息所在的工控协议，多个训练数据组被划分为训练集和验证集；对于所述训练集中的每个所述训练数据组，将其包括的所述向量化训练数据和训练协议标签信息输入至CVAE模型，以使所述CVAE模型输出相对应的训练恢复数据；对于所述训练集中的每个所述训练数据组，根据所述向量化训练数据和所述训练恢复数据，计算该训练数据组的训练融合损失值；将所述训练融合损失值返回所述第一函数，以使所述第一函数与第二函数分别调节自身的参数，以令所述训练融合损失值变为最小值，从而完成所述CVAE模型的训练。

在上述的实施方式中，可以获取被验证为正常数据的多个训练字节流信息，并对其进行数据预处理，得到多个训练数据组，其中，多个训练数据组中的每个训练数据组均包括向量化训练数据和训练协议标签信息。多个训练数据组被划分为训练集和验证集。对于训练集中的每个训练数据组，将向量化训练数据和训练恢复数据输入至待训练的CVAE模型得到训练恢复数据，进而得到训练融合损失值，然后再把训练融合损失值返回第一函数以及第二函数对CVAE模型进行训练。通过正常数据对CVAE模型进行训练，可以提高模型的验证准确性。

在一个可能的设计中，在所述将所述融合损失值与决策阈值进行比较，根据比较结果确定所述融合损失值对应的待检测数据组的检测结果之前，所述方法还包括：对于所述验证集中的每个所述训练数据组，将其包括的所述向量化训练数据和训练协议标签信息输入至训练完成的CVAE模型，以使所述训练完成的CVAE模型输出相对应的验证恢复数据；对于所述验证集中的每个所述训练数据组，根据所述向量化训练数据和所述验证恢复数据，计算该训练数据组的验证融合损失值；对于所述验证集中的多个所述训练数据组各自对应的多个验证融合损失值，计算所述多个验证融合损失值的均值以及所述多个验证融合损失值的方差；根据所述多个验证融合损失值的均值、所述多个验证融合损失值的方差以及阈值因子，计算所述决策阈值。

在上述的实施方式中，可以利用验证集来计算决策阈值，验证集与训练集一致，均是被验证为正常数据的训练字节流信息，从而进一步保障了数据检测结果的准确性。

第二方面，本申请实施例提供了一种数据检测装置，所述装置包括：数据转化模块，用于将多个工控协议中的每个工控协议下的字节流信息转化为向量化数据，并得到每个所述向量化数据对应的协议标签信息，其中，所述协议标签信息表征对应的所述字节流信息所在的工控协议，每个所述向量化数据与对应的协议标签信息组成一个相应的待检测数据组；恢复数据获取模块，用于对于每个所述待检测数据组，将其包括的所述向量化数据和协议标签信息输入至训练完成的条件变分自编码器CVAE模型，以使所述CVAE模型输出恢复数据，其中，所述恢复数据为对所述向量化数据进行重构获得的；损失融合模块，用于对于每个所述待检测数据组，根据所述向量化数据和所述恢复数据，计算该待检测数据组的融合损失值；检测结果获取模块，用于将所述融合损失值与决策阈值进行比较，根据比较结果确定所述融合损失值对应的待检测数据组的检测结果。

在一个可能的设计中，所述恢复数据获取模块，具体用于：将所述向量化数据和协议标签信息传输至所述第一函数，以使所述第一函数映射出对应的符合高斯分布的数据，并输出所述符合高斯分布的数据的均值和所述符合高斯分布的数据的方差；利用所述CVAE模型从标准高斯分布中采样m维数据，并将所述m维数据、所述符合高斯分布的数据的均值和所述符合高斯分布的数据的方差进行联合计算，得到采样变量；将所述采样变量以及所述协议标签信息传输至所述第二函数，以使所述第二函数输出所述恢复数据。

在一个可能的设计中，损失融合模块，具体用于根据所述向量化数据，计算所述用于模拟编码器的第一函数的损失值；根据所述恢复数据，计算所述用于模拟解码器的第二函数的损失值；计算所述第一函数的损失值与所述第二函数的损失值的加和，其中，所述加和为所述待检测数据组的融合损失值。

在一个可能的设计中，检测结果获取模块，具体用于若所述融合损失值大于所述决策阈值，则确定所述待检测数据组对应的字节流信息为异常数据；若所述融合损失值小于或等于所述决策阈值，则确定所述待检测数据组对应的字节流信息为正常数据。

在一个可能的设计中，所述装置还包括：训练字节流获取模块，用于获取多个工控协议中的每个工控协议下的训练字节流信息；预处理模块，用于对所述每个工控协议下的训练字节流信息进行数据预处理，得到每个所述训练字节流信息对应的训练数据组，其中，每个所述训练数据组均包括向量化训练数据和训练协议标签信息，所述向量化训练数据由对应的所述训练字节流信息转化得到，所述训练协议标签信息表征对应的所述训练字节流信息所在的工控协议，多个训练数据组被划分为训练集和验证集；训练恢复数据输出模块，用于对于所述训练集中的每个所述训练数据组，将其包括的所述向量化训练数据和训练协议标签信息输入至CVAE模型，以使所述CVAE模型输出相对应的训练恢复数据；训练融合损失模块，用于对于所述训练集中的每个所述训练数据组，根据所述向量化训练数据和所述训练恢复数据，计算该训练数据组的训练融合损失值；训练完成模块，用于将所述训练融合损失值返回所述第一函数，以使所述第一函数与第二函数分别调节自身的参数，以令所述训练融合损失值变为最小值，从而完成所述CVAE模型的训练。

在一个可能的设计中，所述装置还包括：验证数据恢复模块，用于对于所述验证集中的每个所述训练数据组，将其包括的所述向量化训练数据和训练协议标签信息输入至训练完成的CVAE模型，以使所述训练完成的CVAE模型输出相对应的验证恢复数据；验证融合损失模块，用于对于所述验证集中的每个所述训练数据组，根据所述向量化训练数据和所述验证恢复数据，计算该训练数据组的验证融合损失值；融合参数计算模块，用于对于所述验证集中的多个所述训练数据组各自对应的多个验证融合损失值，计算所述多个验证融合损失值的均值以及所述多个验证融合损失值的方差；决策阈值计算模块，用于根据所述多个验证融合损失值的均值、所述多个验证融合损失值的方差以及阈值因子，计算所述决策阈值。

第三方面，本申请提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当所述电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行第一方面或第一方面的任一可选的实现方式所述的方法。

第四方面，本申请提供一种可读存储介质，该可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行第一方面或第一方面的任一可选的实现方式所述的方法。

第五方面，本申请提供一种计算机程序产品，所述计算机程序产品在计算机上运行时，使得计算机执行第一方面或第一方面的任意可能的实现方式中的方法。

为使本申请实施例所要实现的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的数据检测方法的一种具体实施方式的流程示意图；

图2示出了图1中步骤S120的具体步骤的流程示意图；

图3示出了CVAE模型中的部分计算过程的数据流向图；

图4示出了图1中步骤S130的具体步骤的流程示意图；

图5示出了对CVAE模型进行训练的流程示意图；

图6示出了可变系数β的随时间变化的变化示意图；

图7示出了计算决策阈值的具体步骤的流程示意图；

图8示出了本申请实施例提供的检测与训练方法的数据流向图；

图9示出了本申请实施例提供的数据检测装置的示意性结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

请参见图1，图1示出了本申请实施例提供的数据检测方法的流程示意图，该方法可以由电子设备执行，电子设备可以是服务器，也可以是计算机，该方法具体包括如下步骤S110至步骤S140：

步骤S110，将多个工控协议中的每个工控协议下的字节流信息转化为向量化数据，并得到每个所述向量化数据对应的协议标签信息，其中，所述协议标签信息表征对应的所述字节流信息所在的工控协议，每个所述向量化数据与对应的协议标签信息组成一个相应的待检测数据组。

工控协议指的是工业控制网络(Industrial Control Network，简称ICN)中常用的通信协议，包括Modbus协议、分布式网络规约(Distributed Network Protocol，简称DNP)3协议、用于过程控制的对象连接与嵌入(Object linking and embedding forProcess Control，简称OPC)协议等。

字节流信息是相应的工控协议下的流量数据。字节流信息可以通过如下方式获取：

可以由电子设备采集各个工控协议下的网络流量交互数据，并对网络流量交互数据进行初步的信息提取，获得每个工控协议下对应的多个字节流信息。

将字节流信息转化为向量化数据，并得到每个向量化数据对应的协议标签信息，可以通过数据预处理过程来实现，数据预处理过程具体包括如下步骤：

按照字节流信息所属的工控协议的不同，对字节流信息进行聚合，将归属于同一工控协议的字节流信息归在一起，并为归属同一工控协议的多个字节流信息分配相同的协议标签信息，该协议标签信息用于表征字节流信息所归属的工控协议。在为同一工控协议的字节流信息分配协议标签信息时，可以通过one-hot编码的形式进行分配。

对于已经过聚合且被分配协议标签信息的多个字节流信息中的每个字节流信息，利用字符嵌入技术将其转化为数据；再利用词嵌入技术，将数据转化为向量化数据。

将由字节流信息经两次嵌入技术转化得到的向量化数据与该字节流信息所对应的协议标签信息进行拼接，得到由向量化数据以及协议标签信息组成的待检测数据组。

多次执行上述过程，从而可以得到每个字节流信息分别对应的待检测数据组。

步骤S120，对于每个所述待检测数据组，将其包括的所述向量化数据和协议标签信息输入至训练完成的条件变分自编码器CVAE模型，以使所述CVAE模型输出恢复数据，其中，所述恢复数据为对所述向量化数据进行重构获得的。

可选地，条件变分自编码器(Conditional Variational Auto-Encoder，简称CVAE)模型可以包括模拟编码器的第一函数和模拟解码器的第二函数，CVAE模型是一种尽可能使输出等于输入的模型，即一种复现输入的网络，因此，CVAE模型的输出可被认为是对输入的复现或重构。其中，第一函数和第二函数均可以由长短期记忆人工神经网络(LongShort-Term Memory，简称LSTM)、门控循环单元(Gate Recurrent Unit，简称GRU)或多层感知器进行构建。不妨设第一函数以及第二函数均由LSTM构建，参数设置如下：LSTM的层数为2，隐藏单元个数为64，batch-size为512，dropout保留概率为0.7，激活函数为relu函数。

请参见图2，将每个待检测数据组包括的向量化数据和协议标签信息输入至训练完成的CVAE模型，并由CVAE模型输出恢复数据的具体计算过程，可以包括如下步骤S121至步骤S123：

步骤S121，将所述向量化数据和协议标签信息传输至所述第一函数，以使所述第一函数映射出对应的符合高斯分布的数据，并输出所述符合高斯分布的数据的均值和所述符合高斯分布的数据的方差。

步骤S122，利用所述CVAE模型从标准高斯分布中采样m维数据，并将所述m维数据、所述符合高斯分布的数据的均值和所述符合高斯分布的数据的方差进行联合计算，得到采样变量。

步骤S123，将所述采样变量以及所述协议标签信息传输至所述第二函数，以使所述第二函数输出所述恢复数据。

可以将向量化数据和协议标签信息输入进表征编码器的第一函数，由第一函数映射出一个数据，该映射出的数据符合高斯分布，第一函数输出上述的符合高斯分布的数据的均值和方差。CVAE模型从标准高斯分布中采样m维数据，然后将m维数据、符合高斯分布的数据的均值和方差进行联合计算得到采样变量。接着可以将采样变量以及协议标签信息传输至表征解码器的第二函数，由第二函数计算出相应的恢复数据。

不妨设待检测数据组为(x_i,c_i)，其中，x_i为第i个向量化数据，c_i为第i个向量化数据对应的协议标签信息，且一共有n个待检测数据组，则n个待检测数据组可表示为：{(x₁,c₁),(x₂,c₂),...(x_i,c_i)...(x_n,c_n)}。

请参见图3，对于n个待检测数据组中的任一个待检测数据组(x_i,c_i)，将两者输入进模拟编码器的第一函数，由第一函数进行处理，得到对应的一个符合高斯分布的数据，第一函数将该符合高斯分布的数据的均值和方差输出。

然后，利用CVAE模型从标准高斯分布中采样m维数据，具体地，m可以为2，则从标准高斯分布中采样得到的2维数据为e，将e与上述的均值以及方差进行如图3示出的联合计算，得到采样变量z_i。

将采样变量z_i与对应的协议标签信息c_i组成数据组(z_i,c_i)，并将该数据组(z_i,c_i)输入进模拟解码器的第二函数，由第二函数进行处理，得到对应的恢复数据y_i。

步骤S130，对于每个所述待检测数据组，根据所述向量化数据和所述恢复数据，计算该待检测数据组的融合损失值。

可选地，请参见图4，在一种具体实施方式中，步骤S130具体包括如下步骤S131至步骤S133：

步骤S131，根据所述向量化数据，计算所述用于模拟编码器的第一函数的损失值。

第一函数的损失值为分布拟合损失LR。分布拟合损失LR的计算公式如下：L_R＝KL[q_φ(z|x,c)||p(z)]。其中，q_φ(z|x,c)为表示x拟合的正态分布数据z的分布，φ为模型中编码器部分训练所得参数，p(z)为z的先验分布，是标准的正态分布，c为协议标签信息。

KL[]表示KL散度。即可以先计算出向量化数据x_i对应的采样变量z_i，然后计算z_i的q_φ(z|x,c)和p(z)，然后再计算q_φ(z|x,c)和p(z)的KL散度，得到第一函数的损失值。

步骤S132，根据所述恢复数据，计算所述用于模拟解码器的第二函数的损失值。

第二函数的损失值为L_E，L_E的计算公式如下：

其中，q_θ(x|z,c)为表征编码器的第一函数，p_θ(x|z,c)为表征解码器的第二函数，c为协议标签信息，logp_θ(x|z,c)为对数似然函数，

表示对中括号中的数据计算期望，θ为表征解码器的第二函数训练所得的参数，z的分布为q_φ(z|x,c)。上述公式是通过x拟合正态分布所得到的z来重建x过程中的似然函数。

步骤S133，计算所述第一函数的损失值与所述第二函数的损失值的加和，其中，所述加和为所述待检测数据组的融合损失值。

融合损失值为L_β，融合损失值的计算公式为：L_β＝L_E+L_R。

可以分别根据向量化数据计算第一函数的损失值，根据恢复数据计算第二函数的损失值，然后再计算第一函数的损失值与第二函数的损失值的加和，并将该加和作为整个待检测数据组的融合损失值，由于恢复数据的获取有表征工控协议的协议标签信息参与其中，因此根据上述过程计算出的融合损失值会随着工控协议的不同而有所区别，从而实现了利用同一模型对不同工控协议下的字节流信息的检测。

步骤S140，将所述融合损失值与决策阈值进行比较，根据比较结果确定所述融合损失值对应的待检测数据组的检测结果。

可以得到向量化数据以及该向量化数据对应的协议标签信息，然后将向量化数据以及协议标签信息一同输入到CVAE模型，由CVAE模型输出相应的恢复数据；然后再根据CVAE模型输出的恢复数据以及输入CVAE模型的向量化数据计算出融合损失值，并将该融合损失值与预先计算得到的决策阈值进行比较，并依据比较结果确定出向量化数据以及协议标签信息相应的检测结果。由于在方案中输入进CVAE模型的有表征字节流信息所在的工控协议的协议标签信息，因此上述数据检测方法可以将协议标签信息作为输入参考得到恢复数据，进而得到融合损失值，并依据得到的融合损失值以及决策阈值的比较结果确定检测结果，从而可以实现利用同一模型对不同工控协议下的字节流信息的检测，从而可以降低模型部署的难度。

对于训练完成的CVAE模型来说，一旦字节流信息为异常数据，例如攻击数据，由于CVAE模型在训练时未对异常数据进行过处理，因此在生成恢复数据时，会产生很大误差，本申请实施例可以利用这种误差实现对异常数据的检测。

可选地，在一种具体实施方式中，步骤S140包括：若所述融合损失值大于所述决策阈值，则确定所述待检测数据组对应的字节流信息为异常数据；若所述融合损失值小于或等于所述决策阈值，则确定所述待检测数据组对应的字节流信息为正常数据。

若融合损失值大于决策阈值，可以确定该融合损失值对应的待检测数据组对应的字节流信息为异常数据；若融合损失值小于或等于决策阈值，则可以确定融合损失值对应的待检测数据组对应的字节流信息为正常数据，从而可以根据融合损失值与决策阈值的大小比较来确定该融合损失值对应的字节流数据是否为异常数据。

可选地，请参见图5，在一种具体实施方式中，CVAE模型的训练过程具体可以包括如下步骤S210至步骤S250：

步骤S210，获取多个工控协议中的每个工控协议下的训练字节流信息。

步骤S220，对所述每个工控协议下的训练字节流信息进行数据预处理，得到每个所述训练字节流信息对应的训练数据组，其中，每个所述训练数据组均包括向量化训练数据和训练协议标签信息，所述向量化训练数据由对应的所述训练字节流信息转化得到，所述训练协议标签信息表征对应的所述训练字节流信息所在的工控协议，多个训练数据组被划分为训练集和验证集。

步骤S230，对于所述训练集中的每个所述训练数据组，将其包括的所述向量化训练数据和训练协议标签信息输入至CVAE模型，以使所述CVAE模型输出相对应的训练恢复数据。

上述的训练字节流信息是已经被验证为是正常数据的字节流信息，由训练字节流信息进行数据预处理，得到向量化训练数据和训练协议标签信息，并将向量化训练数据和训练协议标签信息输入到CVAE模型，得到训练恢复数据的过程与上文的检测过程对应相同，在此便不做赘述。

步骤S240，对于所述训练集中的每个所述训练数据组，根据所述向量化训练数据和所述训练恢复数据，计算该训练数据组的训练融合损失值。

在计算训练融合损失值时，依然需要根据L_R＝KL[q_φ(z|x,c)||p(z)]计算第一函数的分布拟合损失L_R，以及根据

计算第二函数的交叉熵损失L_E。然后，根据L'_β＝L_E+βL_R计算训练融合损失值L'_β。其中，可变系数

t为迭代次数，T为训练迭代总次数，f为单调递增函数，M为可变系数的周期，R表示一个周期内β增加的比例。例如，在本申请实施例中，T为40000，f为sigmoid函数，M为8，R为0.5，可变系数β的变化过程如图6所示。

步骤S250，将所述训练融合损失值返回所述第一函数，以使所述第一函数与第二函数分别调节自身的参数，以令所述训练融合损失值变为最小值，从而完成所述CVAE模型的训练。

在得到训练融合损失值之后，把训练融合损失值返回第一函数对CVAE模型进行训练，通过不断调节第一函数与第二函数自身的参数，以令训练融合损失值变为最小值，从而实现了CVAE模型的训练过程。其中，训练优化器可以设置为Adam随机梯度下降算法,通过该优化器实现在训练中最小化目标函数以优化参数。采用自适应下降的学习率在训练集上训练多个字节流信息，直至模型收敛。

可以获取被验证为正常数据的多个训练字节流信息，并对其进行数据预处理，得到多个训练数据组，其中，多个训练数据组中的每个训练数据组均包括向量化训练数据和训练协议标签信息。多个训练数据组被划分为训练集和验证集。对于训练集中的每个训练数据组，将向量化训练数据和训练恢复数据输入至待训练的CVAE模型得到训练恢复数据，进而得到训练融合损失值，然后再把训练融合损失值返回第一函数对CVAE模型进行训练。通过正常数据对CVAE模型进行训练，可以提高模型的验证准确性。

可选地，请参见图7，在一种具体实施方式中，决策阈值的计算方法具体可以包括如下步骤S310至步骤S340：

步骤S310，对于所述验证集中的每个所述训练数据组，将其包括的所述向量化训练数据和训练协议标签信息输入至训练完成的CVAE模型，以使所述训练完成的CVAE模型输出相对应的验证恢复数据。

步骤S320，对于所述验证集中的每个所述训练数据组，根据所述向量化训练数据和所述验证恢复数据，计算该训练数据组的验证融合损失值。

验证融合损失值的计算过程与上文中的训练融合损失值的计算过程对应相同，在此便不做赘述。

步骤S330，对于所述验证集中的多个所述训练数据组各自对应的多个验证融合损失值，计算所述多个验证融合损失值的均值以及所述多个验证融合损失值的方差。

通过步骤S310至步骤S320的计算过程，计算出验证集中的多个训练数据组各自对应的验证融合损失值，然后再计算多个融合损失值的均值mean和方差std。

步骤S340，根据所述多个验证融合损失值的均值、所述多个验证融合损失值的方差以及阈值因子，计算所述决策阈值。

根据公式threshold＝mean+factor*std计算决策阈值threshold，其中，factor为阈值因子，在本申请实施例中，可以取值为3。

可以利用验证集来计算决策阈值，验证集与训练集一致，均是被验证为正常数据的训练字节流信息，从而进一步保障了数据检测结果的准确性。

请参见图8，图8示出了本申请实施例提供的数据检测方法中的检测过程与训练过程的数据流向示意图，如图8所示，训练过程可以用实线箭头表示，检测过程可以用虚线箭头表示。

在数据获取阶段，训练过程获取的数据可以是已被验证为是正常数据的数据；检测过程获取的数据是未经验证过的数据。无论是训练过程还是检测过程，均可以通过流量镜像的方式获取数据。对获取到的数据进行初步信息提取得到字节流信息，字节流信息均需要进行数据预处理。

在数据预处理阶段，可以根据字节流信息所归属的工控协议的不同，进行数据聚合，然后对同一工控协议的多个字节流信息分配对应的协议标签信息，并将协议标签信息与对应的字节流信息进行数据拼接。在数据预处理阶段，训练过程与检测过程的处理过程相同，在训练过程中，进行数据拼接后可以得到训练数据组，其中，训练数据组可以被划分为训练集和验证集；在检测过程中，进行数据拼接后可以得到待检测数据组。无论是训练数据组还是待检测数据组均需要输入至CVAE模型，由CVAE模型进行处理。

在CVAE模型处理阶段，训练数据组和待检测数据组均会经过CVAE模型的模拟编码器的第一函数处理，分别得到对应的训练采样变量z'_i和采样变量z_i。训练采样变量z'_i会与协议标签信息c_i拼接组成数据组(z'_i,c_i)，该数据组(z'_i,c_i)会被输入至CVAE模型的模拟解码器的第二函数，由第二函数得到对应的训练恢复数据y'_i，进而得到训练融合损失值L'_β。对于训练数据组的训练集，训练融合损失值L'_β可以被反馈回第一函数，以进行CVAE模型的训练；对于训练数据组的验证集，可以根据训练融合损失值L'_β计算决策阈值threshold，即图8中异常判别部分中threshold的计算过程。

采样变量z_i会与协议标签信息c_i拼接组成数据组(z_i,c_i)，该数据组(z_i,c_i)会被输入至CVAE模型的模拟解码器的第二函数，由第二函数得到对应的恢复数据y_i，进而得到融合损失值L_β，训练完成的CVAE模型将融合损失值L_β输出。

在异常判别阶段，可以将由验证集预先计算出的决策阈值threshold与待检测数据组得到的融合损失值L_β(即图8中的L)进行比较，判断融合损失值是否大于决策阈值，若是，则可以判定融合损失值对应的字节流信息为异常数据；若否，则可以判定融合损失值对应的字节流信息为正常数据。

请参见图9，图9示出了本申请实施例提供的数据检测装置的一种具体实施方式，应用于电子设备，该装置600包括：

数据转化模块610，用于将多个工控协议中的每个工控协议下的字节流信息转化为向量化数据，并得到每个所述向量化数据对应的协议标签信息，其中，所述协议标签信息表征对应的所述字节流信息所在的工控协议，每个所述向量化数据与对应的协议标签信息组成一个相应的待检测数据组。

恢复数据获取模块620，用于对于每个所述待检测数据组，将其包括的所述向量化数据和协议标签信息输入至训练完成的条件变分自编码器CVAE模型，以使所述CVAE模型输出恢复数据，其中，所述恢复数据为对所述向量化数据进行重构获得的。

损失融合模块630，用于对于每个所述待检测数据组，根据所述向量化数据和所述恢复数据，计算该待检测数据组的融合损失值。

检测结果获取模块640，用于将所述融合损失值与决策阈值进行比较，根据比较结果确定所述融合损失值对应的待检测数据组的检测结果。

所述恢复数据获取模块620，具体用于：将所述向量化数据和协议标签信息传输至所述第一函数，以使所述第一函数映射出对应的符合高斯分布的数据，并输出所述符合高斯分布的数据的均值和所述符合高斯分布的数据的方差；利用所述CVAE模型从标准高斯分布中采样m维数据，并将所述m维数据、所述符合高斯分布的数据的均值和所述符合高斯分布的数据的方差进行联合计算，得到采样变量；将所述采样变量以及所述协议标签信息传输至所述第二函数，以使所述第二函数输出所述恢复数据。

损失融合模块630，具体用于根据所述向量化数据，计算所述用于模拟编码器的第一函数的损失值；根据所述恢复数据，计算所述用于模拟解码器的第二函数的损失值；计算所述第一函数的损失值与所述第二函数的损失值的加和，其中，所述加和为所述待检测数据组的融合损失值。

检测结果获取模块640，具体用于若所述融合损失值大于所述决策阈值，则确定所述待检测数据组对应的字节流信息为异常数据；若所述融合损失值小于或等于所述决策阈值，则确定所述待检测数据组对应的字节流信息为正常数据。

所述装置还包括：

训练字节流获取模块，用于获取多个工控协议中的每个工控协议下的训练字节流信息。

预处理模块，用于对所述每个工控协议下的训练字节流信息进行数据预处理，得到每个所述训练字节流信息对应的训练数据组，其中，每个所述训练数据组均包括向量化训练数据和训练协议标签信息，所述向量化训练数据由对应的所述训练字节流信息转化得到，所述训练协议标签信息表征对应的所述训练字节流信息所在的工控协议，多个训练数据组被划分为训练集和验证集。

训练恢复数据输出模块，用于对于所述训练集中的每个所述训练数据组，将其包括的所述向量化训练数据和训练协议标签信息输入至CVAE模型，以使所述CVAE模型输出相对应的训练恢复数据。

训练融合损失模块，用于对于所述训练集中的每个所述训练数据组，根据所述向量化训练数据和所述训练恢复数据，计算该训练数据组的训练融合损失值。

训练完成模块，用于将所述训练融合损失值返回所述第一函数，以使所述第一函数与第二函数分别调节自身的参数，以令所述训练融合损失值变为最小值，从而完成所述CVAE模型的训练。

验证数据恢复模块，用于对于所述验证集中的每个所述训练数据组，将其包括的所述向量化训练数据和训练协议标签信息输入至训练完成的CVAE模型，以使所述训练完成的CVAE模型输出相对应的验证恢复数据。

验证融合损失模块，用于对于所述验证集中的每个所述训练数据组，根据所述向量化训练数据和所述验证恢复数据，计算该训练数据组的验证融合损失值。

融合参数计算模块，用于对于所述验证集中的多个所述训练数据组各自对应的多个验证融合损失值，计算所述多个验证融合损失值的均值以及所述多个验证融合损失值的方差。

决策阈值计算模块，用于根据所述多个验证融合损失值的均值、所述多个验证融合损失值的方差以及阈值因子，计算所述决策阈值。

图9示出的数据检测装置与图1示出的数据检测方法相对应，在此便不做赘述。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种数据检测方法，其特征在于，所述方法包括：

将多个工控协议中的每个工控协议下的字节流信息转化为向量化数据，并得到每个所述向量化数据对应的协议标签信息，其中，所述协议标签信息表征对应的所述字节流信息所在的工控协议，每个所述向量化数据与对应的协议标签信息组成一个相应的待检测数据组；

对于每个所述待检测数据组，将其包括的所述向量化数据和协议标签信息输入至训练完成的条件变分自编码器CVAE模型，以使所述CVAE模型输出恢复数据，其中，所述恢复数据为对所述向量化数据进行重构获得的；

对于每个所述待检测数据组，根据所述向量化数据和所述恢复数据，计算该待检测数据组的融合损失值；

将所述融合损失值与决策阈值进行比较，根据比较结果确定所述融合损失值对应的待检测数据组的检测结果。

2.根据权利要求1所述的方法，其特征在于，所述CVAE模型包括用于模拟编码器的第一函数、用于模拟解码器的第二函数；

所述将其包括的所述向量化数据和协议标签信息输入至训练完成的条件变分自编码器CVAE模型，以使所述CVAE模型输出恢复数据，包括：

将所述向量化数据和协议标签信息传输至所述第一函数，以使所述第一函数映射出对应的符合高斯分布的数据，并输出所述符合高斯分布的数据的均值和所述符合高斯分布的数据的方差；

利用所述CVAE模型从标准高斯分布中采样m维数据，并将所述m维数据、所述符合高斯分布的数据的均值和所述符合高斯分布的数据的方差进行联合计算，得到采样变量；

将所述采样变量以及所述协议标签信息传输至所述第二函数，以使所述第二函数输出所述恢复数据。

3.根据权利要求2所述的方法，其特征在于，所述根据所述向量化数据和所述恢复数据，计算该待检测数据组的融合损失值，包括：

根据所述向量化数据，计算所述用于模拟编码器的第一函数的损失值；

根据所述恢复数据，计算所述用于模拟解码器的第二函数的损失值；

计算所述第一函数的损失值与所述第二函数的损失值的加和，其中，所述加和为所述待检测数据组的融合损失值。

4.根据权利要求1所述的方法，其特征在于，所述将所述融合损失值与决策阈值进行比较，根据比较结果确定所述融合损失值对应的待检测数据组的检测结果，包括：

若所述融合损失值大于所述决策阈值，则确定所述待检测数据组对应的字节流信息为异常数据；

若所述融合损失值小于或等于所述决策阈值，则确定所述待检测数据组对应的字节流信息为正常数据。

5.根据权利要求1所述的方法，其特征在于，在所述对于每个所述待检测数据组，将其包括的所述向量化数据和协议标签信息输入至训练完成的条件变分自编码器CVAE模型，以使所述CVAE模型输出恢复数据之前，所述方法还包括：

获取多个工控协议中的每个工控协议下的训练字节流信息；

对所述每个工控协议下的训练字节流信息进行数据预处理，得到每个所述训练字节流信息对应的训练数据组，其中，每个所述训练数据组均包括向量化训练数据和训练协议标签信息，所述向量化训练数据由对应的所述训练字节流信息转化得到，所述训练协议标签信息表征对应的所述训练字节流信息所在的工控协议，多个训练数据组被划分为训练集和验证集；

对于所述训练集中的每个所述训练数据组，将其包括的所述向量化训练数据和训练协议标签信息输入至CVAE模型，以使所述CVAE模型输出相对应的训练恢复数据；

对于所述训练集中的每个所述训练数据组，根据所述向量化训练数据和所述训练恢复数据，计算该训练数据组的训练融合损失值；

将所述训练融合损失值返回所述第一函数，以使所述第一函数与第二函数分别调节自身的参数，以令所述训练融合损失值变为最小值，从而完成所述CVAE模型的训练。

6.根据权利要求5所述的方法，其特征在于，在所述将所述融合损失值与决策阈值进行比较，根据比较结果确定所述融合损失值对应的待检测数据组的检测结果之前，所述方法还包括：

对于所述验证集中的每个所述训练数据组，将其包括的所述向量化训练数据和训练协议标签信息输入至训练完成的CVAE模型，以使所述训练完成的CVAE模型输出相对应的验证恢复数据；

对于所述验证集中的每个所述训练数据组，根据所述向量化训练数据和所述验证恢复数据，计算该训练数据组的验证融合损失值；

对于所述验证集中的多个所述训练数据组各自对应的多个验证融合损失值，计算所述多个验证融合损失值的均值以及所述多个验证融合损失值的方差；

根据所述多个验证融合损失值的均值、所述多个验证融合损失值的方差以及阈值因子，计算所述决策阈值。

7.一种数据检测装置，其特征在于，所述装置包括：

数据转化模块，用于将多个工控协议中的每个工控协议下的字节流信息转化为向量化数据，并得到每个所述向量化数据对应的协议标签信息，其中，所述协议标签信息表征对应的所述字节流信息所在的工控协议，每个所述向量化数据与对应的协议标签信息组成一个相应的待检测数据组；

恢复数据获取模块，用于对于每个所述待检测数据组，将其包括的所述向量化数据和协议标签信息输入至训练完成的条件变分自编码器CVAE模型，以使所述CVAE模型输出恢复数据，其中，所述恢复数据为对所述向量化数据进行重构获得的；

损失融合模块，用于对于每个所述待检测数据组，根据所述向量化数据和所述恢复数据，计算该待检测数据组的融合损失值；

检测结果获取模块，用于将所述融合损失值与决策阈值进行比较，根据比较结果确定所述融合损失值对应的待检测数据组的检测结果。

8.根据权利要求7所述的装置，其特征在于，所述恢复数据获取模块，具体用于：

9.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1-6任一项所述的数据检测方法。

10.一种可读存储介质，其特征在于，该可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1-6任一项所述的数据检测方法。