CN116743636B

CN116743636B - 异常数据的检测方法、装置、电子设备及计算机可读介质

Info

Publication number: CN116743636B
Application number: CN202311022655.4A
Authority: CN
Inventors: 熊奕洋; 史芳宁
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2023-08-14
Filing date: 2023-08-14
Publication date: 2023-10-31
Anticipated expiration: 2043-08-14
Also published as: CN116743636A

Abstract

本公开涉及一种异常数据的检测方法、装置、电子设备及计算机可读介质，属于深度学习技术领域。该方法包括：获取从终端设备监测到的网络流量数据并转化为对应的词向量矩阵；根据文本数据中的位置信息和类别信息得到文本数据对应的线性分组码；将文本数据对应的线性分组码与词向量矩阵进行拼接得到特征矩阵；将特征矩阵输入预先训练的终端数据分类模型中，其中，终端数据分类模型是基于网络流量样本数据的线性分组码构建和训练得到的；根据终端数据分类模型的输出结果，确定网络流量数据是否为异常数据，以及在网络流量数据为异常数据时对应的异常类型。本公开通过基于线性分组码构建网络流量数据的特征矩阵，可以提高异常数据检测的准确率。

Description

异常数据的检测方法、装置、电子设备及计算机可读介质

技术领域

本公开涉及深度学习技术领域，具体而言，涉及一种异常数据的检测方法、异常数据的检测装置、电子设备及计算机可读介质。

背景技术

预知性维护（Predictive Maintenance）是一种预防性维护策略，其主要目标是预测设备故障发生的时间和故障类型，从而在设备失效之前进行维修。这种维护策略可以通过减少停机时间、提高设备可用性和生产率，从而显著提高生产效率和降低运营成本。在工业环境中，预知性维护主要依赖于设备的监测数据，这些数据可以来自于各种传感器，如温度传感器、压力传感器、湿度传感器、振动传感器等。除此之外，设备的操作日志，如启动和关闭时间、错误代码、操作参数等也可以用于预测设备的维护需求。

然而，工业设备的监测数据通常是高维度、多变量、时序相关的，这使得对设备故障的预测变得极其复杂。传统的统计方法往往无法处理这种复杂性，而且也无法适应设备状态的动态变化。因此，需要一种能够处理这种复杂数据的先进方法。

鉴于此，本领域亟需一种用于预知性维护的异常数据的检测方法，能够提高异常数据检测的准确率。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种异常数据的检测方法、异常数据的检测装置、电子设备及计算机可读介质，进而至少在一定程度上能够提高异常数据检测的准确率。

根据本公开的第一个方面，提供一种异常数据的检测方法，包括：

获取从终端设备监测到的网络流量数据，并将所述网络流量数据中的文本数据转化为对应的词向量矩阵；

获取所述文本数据中的位置信息和类别信息，并根据所述文本数据中的位置信息和类别信息得到所述文本数据对应的线性分组码；

将所述文本数据对应的线性分组码与所述词向量矩阵进行拼接，得到所述网络流量数据对应的特征矩阵；

将所述网络流量数据的特征矩阵输入预先训练的终端数据分类模型中，其中，所述终端数据分类模型是基于网络流量样本数据的线性分组码构建和训练得到的；

根据所述终端数据分类模型的输出结果，确定所述网络流量数据是否为异常数据，以及在所述网络流量数据为异常数据时对应的异常类型。

在本公开的一种示例性实施例中，所述将所述网络流量数据中的文本数据转化为对应的词向量矩阵，包括：

根据预先训练的神经网络权重矩阵，得到所述网络流量数据中的每个文本数据分别对应的词向量；

根据所述网络流量数据中的所有所述文本数据对应的词向量，得到所述网络流量数据对应的词向量矩阵。

在本公开的一种示例性实施例中，所述方法还包括所述神经网络权重矩阵的训练方法，所述神经网络权重矩阵的训练方法包括：

将网络流量样本数据中的文本样本数据输入神经网络中，得到所述文本样本数据对应的上下文预测值；

将所述文本样本数据对应的上下文预测值与所述文本样本数据对应的上下文实际值进行对比，并根据对比结果使用反向传播算法对所述神经网络进行训练；

根据所述神经网络的训练结果，得到所述神经网络权重矩阵。

在本公开的一种示例性实施例中，获取所述文本数据的位置信息，包括：

获取所述文本数据的时间戳信息，并将所述文本数据的时间戳信息作为所述文本数据的位置信息。

在本公开的一种示例性实施例中，所述文本数据的类别包括所述终端设备的传感器数据、运行数据、维护记录数据、环境条件数据和设备特征数据。

在本公开的一种示例性实施例中，所述根据所述文本数据中的位置信息和类别信息得到所述文本数据对应的线性分组码，包括：

对所述文本数据中的位置信息进行编码，得到所述文本数据对应的位置编码；

根据所述文本数据中的类别信息构造生成矩阵，并将所述位置编码与所述生成矩阵相乘，得到所述文本数据对应的线性分组码。

在本公开的一种示例性实施例中，所述线性分组码中的信息位用于记录所述文本数据的位置信息，所述线性分组码中的监督位用于记录所述文本数据的类别信息。

在本公开的一种示例性实施例中，所述根据所述终端数据分类模型的输出结果，确定所述网络流量数据是否为异常数据，以及在所述网络流量数据为异常数据时对应的异常类型，包括：

根据所述终端数据分类模型的输出结果，确定所述网络流量数据对应的异常分类标识；

根据所述网络流量数据对应的异常分类标识确定所述网络流量数据是否为异常数据，以及在所述网络流量数据为异常数据时对应的异常类型。

在本公开的一种示例性实施例中，所述方法还包括所述终端数据分类模型的训练方法，所述终端数据分类模型的训练方法包括：

获取所述网络流量样本数据中的文本样本数据，以及所述网络流量样本数据对应的异常分类标识；

将所述网络流量样本数据中的文本样本数据转化为对应的词向量矩阵，并根据所述文本样本数据中的位置信息和类别信息得到所述文本样本数据对应的线性分组码；

将所述文本样本数据对应的线性分组码与所述网络流量样本数据的词向量矩阵进行拼接，得到所述网络流量样本数据对应的特征矩阵；

以所述网络流量样本数据对应的特征矩阵作为输入数据，以所述网络流量样本数据对应的异常分类标识作为输出数据，训练所述终端数据分类模型。

根据本公开的第二方面，提供一种异常数据的检测装置，包括：

词向量矩阵转化模块，用于获取从终端设备监测到的网络流量数据，并将所述网络流量数据中的文本数据转化为对应的词向量矩阵；

线性分组码确定模块，用于获取所述文本数据中的位置信息和类别信息，并根据所述文本数据中的位置信息和类别信息得到所述文本数据对应的线性分组码；

特征矩阵生成模块，用于将所述文本数据对应的线性分组码与所述词向量矩阵进行拼接，得到所述网络流量数据对应的特征矩阵；

分类模型输入模块，用于将所述网络流量数据的特征矩阵输入预先训练的终端数据分类模型中，其中，所述终端数据分类模型是基于网络流量样本数据的线性分组码构建和训练得到的；

异常数据确定模块，用于根据所述终端数据分类模型的输出结果，确定所述网络流量数据是否为异常数据，以及在所述网络流量数据为异常数据时对应的异常类型。

根据本公开的第三方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的异常数据的检测方法。

根据本公开的第四方面，提供一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的异常数据的检测方法。

本公开示例性实施例可以具有以下有益效果：

本公开示例实施方式的异常数据的检测方法中，一方面，通过线性分组码将网络流量数据本身的特性融入到终端数据分类模型的构建和训练中，在学习到异常流量的局部特征以及长时依赖关系的同时，生成更多训练样本，提高模型泛化能力以及模型准确率，能够有效处理工业终端预知性维护问题，同时，由于特征工程和线性分组码编码的计算都是学术界可以理解和严格推导的，通过这种办法改良提高了所用模型的可解释性；另一方面，通过词向量将网络流量分类问题转换为文本处理问题，并使用线性分组码和类别分类做结合，依据线性分组码完成了不完全基于位置信息的特征编码，在工业终端维护场景中提前告知了神经网络工业数据本身的信息，降低了对数据数量的需求，相比其他算法而言避免了一定程度的数据处理工作，提高了数据处理的效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本公开示例实施方式的异常数据的检测方法的流程示意图。

图2示意性示出了根据本公开的一个具体实施方式中的异常数据检测系统整体架构的示意图。

图3示意性示出了根据本公开的一个具体实施方式中的词嵌入部分的示意图。

图4示出了本公开示例实施方式的神经网络权重矩阵的训练方法的流程示意图。

图5示意性示出了根据本公开的一个具体实施方式中的训练权重矩阵的神经网络的示意图。

图6示意性示出了根据本公开的一个具体实施方式中的skip-gram模型的示意图。

图7示出了本公开示例实施方式的生成文本数据对应的线性分组码的流程示意图。

图8示意性示出了根据本公开的一个具体实施方式中的线性分组码编码流程的示意图。

图9示意性示出了根据本公开的一个具体实施方式中的线性分组码编码模块的示意图。

图10示意性示出了根据本公开的一个具体实施方式中的Transformer模型架构的示意图。

图11示出了本公开示例实施方式的终端数据分类模型的训练方法的流程示意图。

图12示出了本公开示例实施方式的异常数据的检测装置的框图。

图13示出了适于用来实现本公开实施方式的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

预知性维护已经历了从传统统计方法到现代深度学习模型的演进。最初，预知性维护主要依赖于统计方法，如回归分析、生存分析等，这些方法主要基于历史故障数据，通过建立设备寿命模型进行故障预测。然而，这些方法往往无法处理大规模的、高维度的、动态变化的工业数据，其预测精度有限。

为了提升预测精度和处理更复杂的数据，预知性维护开始应用机器学习算法，如决策树、支持向量机（SVM）、随机森林等。虽然这些方法在处理复杂数据上比传统统计方法有所改进，但是它们仍然难以处理时序相关的数据，例如设备的运行日志和监测数据。

在深度学习兴起后，预知性维护开始尝试利用深度学习模型，例如循环神经网络（RNN）和长短期记忆（LSTM）。这些模型能够处理时序数据，特别适用于预知性维护。但是，RNN和LSTM在处理长序列数据时往往会遇到梯度消失或梯度爆炸的问题，限制了它们的应用范围。同时，RNN和LSTM的训练过程不能并行化，处理大规模数据效率较低。

为了解决这些问题，Transformer模型应运而生。Transformer模型在自然语言处理（NLP）领域表现出色，它利用自注意力机制（self-attention）可以有效地处理长序列的数据，并且理解和处理数据中的长期依赖关系。此外，Transformer模型的并行处理能力，使得它在处理大规模工业数据时具有优势。因此，Transformer模型的应用，为预知性维护的发展打开了新的篇章，其高效的数据处理能力和准确的预测性能，被广泛看好。Transformer模型作为一种先进的机器学习模型，已经在处理复杂序列数据方面表现出色。该模型能够理解和处理数据中的长期依赖关系，并能够对数据进行自我注意（Self-Attention），以捕捉数据的关键特征。

基于上述分析，本示例实施方式首先提供了一种异常数据的检测方法。参考图1所示，上述异常数据的检测方法可以包括以下步骤：

步骤S110. 获取从终端设备监测到的网络流量数据，并将网络流量数据中的文本数据转化为对应的词向量矩阵。

步骤S120. 获取文本数据中的位置信息和类别信息，并根据文本数据中的位置信息和类别信息得到文本数据对应的线性分组码。

步骤S130. 将文本数据对应的线性分组码与词向量矩阵进行拼接，得到网络流量数据对应的特征矩阵。

步骤S140. 将网络流量数据的特征矩阵输入预先训练的终端数据分类模型中，其中，终端数据分类模型是基于网络流量样本数据的线性分组码构建和训练得到的。

步骤S150. 根据终端数据分类模型的输出结果，确定网络流量数据是否为异常数据，以及在网络流量数据为异常数据时对应的异常类型。

图2示意性示出了根据本公开的一个具体实施方式中的异常数据检测系统整体架构的示意图。本公开示例实施方式的异常数据的检测方法中，一方面，通过线性分组码将网络流量数据本身的特性融入到终端数据分类模型的构建和训练中，在学习到异常流量的局部特征以及长时依赖关系的同时，生成更多训练样本，提高模型泛化能力以及模型准确率，能够有效处理工业终端预知性维护问题，同时，由于特征工程和线性分组码编码的计算都是学术界可以理解和严格推导的，通过这种办法改良提高了所用模型的可解释性；另一方面，通过词向量将网络流量分类问题转换为文本处理问题，并使用线性分组码和类别分类做结合，依据线性分组码完成了不完全基于位置信息的特征编码，在工业终端维护场景中提前告知了神经网络工业数据本身的信息，降低了对数据数量的需求，相比其他算法而言避免了一定程度的数据处理工作，提高了数据处理的效率。

本示例实施方式中的异常数据的检测方法可能应用的场景包括工业入侵检测、工业数据防护、工业预知性维护、工业网络行为分析等，能及时发现和防范潜在的工业终端故障。通过对工业终端的多种数据进行实时监控和分析，能够有效地识别和预防来自故障终端可能带来的安全风险。此外，还能保障关键基础设施的安全稳定运行，确保数据的完整性和隐私，降低潜在的经济损失、保护企业声誉。

下面，结合图3至图11对本示例实施方式的上述步骤进行更加详细的说明。

在步骤S110中，获取从终端设备监测到的网络流量数据，并将网络流量数据中的文本数据转化为对应的词向量矩阵。

本示例实施方式中，网络流量数据是指从工业终端设备监测到的与设备相关的流量数据，例如设备运行数据、传感器数据等等。通过对网络流量数据进行监测和分析，能够定位和预测设备故障发生的时间和故障类型，从而实现工业设备的预知性维护。

本示例实施方式中，首先需要对文本形式的网络流量数据进行预处理，以便让深度学习模型更好地理解数据。预处理的关键步骤之一是词嵌入。词嵌入是一种将文本中的单词或短语映射到连续向量空间的技术，可以捕捉单词间的语义和语法关系。本示例实施方式中可以采用Word2Vec词嵌入算法。

Word2Vec是一种用于学习词嵌入（word embeddings）的算法。它是用于表示文本数据的一种技术，能够将每个词转换为一个维度相对较低的连续向量，使得这些向量能够捕捉词之间的语义和语法关系。具体的实现效果是通过一个嵌入空间使得语义上相似的单词在该空间内距离很近，例如，苹果和梨子都是水果，那么它们的词嵌入表示就会比较接近，而语义上不相关的词，例如苹果和砖头，数值化后的差距就会较大。该算法的具体实现办法是：首先训练一个神经网络，然后使用这个神经网络的隐藏层对输入的单词进行计算，获得一个概率分布图，选择概率最大的进行输出和表示。由于这个过程不需要人为标注，因此是一种无监督的学习法。

本示例实施方式中，可以根据预先训练的神经网络权重矩阵，得到网络流量数据中的每个文本数据分别对应的词向量，再根据网络流量数据中的所有文本数据对应的词向量，得到网络流量数据对应的词向量矩阵。

图3示意性示出了根据本公开的一个具体实施方式中的词嵌入部分的示意图，网络流量数据通过一个嵌入层之后，通过预先训练的神经网络权重矩阵将其转化为对应的词向量矩阵，每一行代表一个文本数据对应的词向量。

本示例实施方式中，如图4所示，神经网络权重矩阵的训练方法，具体可以包括以下几个步骤：

步骤S410. 将网络流量样本数据中的文本样本数据输入神经网络中，得到文本样本数据对应的上下文预测值。

图5示意性示出了根据本公开的一个具体实施方式中的训练权重矩阵的神经网络的示意图，通过将网络流量数据送入如图5所示的神经网络的输入端和输出端，经过多轮迭代后，就能训练出一个带有丰富权重信息的嵌入矩阵了。

此外，根据训练方式和输出的不同，Word2Vec算法有两种基本形式：Skip-Gram模型和Continuous Bag of Words（CBOW）连续词袋模型。本示例实施方式中采用了Skip-Gram模型，在Skip-Gram模型中，每个输入词被用来预测它周围的词。即给定一个词并用其预测上下文。

图6为skip-gram模型的示意图。其中，w(t）代表当前的输入词，而w(t-2)代表这个词前面的第二个词，w(t-1)代表这个词的前一个词，w(t+1)代表这个词的后一个词，以此类推，每次预测词的数量大小由窗口决定，这里的窗口值是2（代表预测前2个词以及后2个词），窗口值可以根据自己的需求来设定。

步骤S420. 将文本样本数据对应的上下文预测值与文本样本数据对应的上下文实际值进行对比，并根据对比结果使用反向传播算法对神经网络进行训练。

在确定了训练方式后，神经网络权重矩阵会将输入的词进行计算，并预测它的上下文中概率最大的词，并以此值作为输出，与实际的上下文对比做差，通过反向传播算法对神经网络进行训练，直到权重矩阵信息训练完成。

步骤S430. 根据神经网络的训练结果，得到神经网络权重矩阵。

此时，权重矩阵便构建起了从文本数据到数值化向量间的转换桥梁。任意新的网络流量数据都可以通过它计算获得对应的词向量表示。

继续参考图1所示，在步骤S120中，获取文本数据中的位置信息和类别信息，并根据文本数据中的位置信息和类别信息得到文本数据对应的线性分组码。

本示例实施方式中，文本数据的类别包括终端设备的传感器数据、运行数据、维护记录数据、环境条件数据和设备特征数据。

本示例实施方式中，终端设备监测到的网络流量数据，可以分为以下几种类别：

1、传感器数据：传感器可以收集各种设备参数的实时数据，如温度、压力、振动、电流、电压等。这些数据可以用于监测设备的运行状态和性能指标，以及检测任何异常情况。

2、运行数据：这些数据包括设备的运行时间、工作周期、速度、转速等。运行数据可以提供设备的基本工作情况，为预测和分析提供基础。

3、维护记录：维护记录包括设备的维护历史、保养活动、维修记录等。这些数据可以用于分析设备的维护需求和维护效果，以便优化维护策略。

4、环境条件：环境条件数据包括设备所处的环境参数，如温度、湿度、气压等。环境条件对设备的运行状态和性能有一定影响，因此监测和记录环境数据对于维护决策也很重要。

5、设备特征数据：这些数据包括设备的规格、型号、生产日期、零件信息等。设备特征数据可以用于构建设备的基准模型和对比分析，以便确定设备的健康状态。

在经过了上述词嵌入的处理后，可以将所有的工业终端文本数据转换为词嵌入向量，但是，这个向量完全是由无监督学习完成的，它的构成好坏依赖于数据本身的质量。如果给这些数据打上一些有代表性的标签，这样相当于对原始数据做了标注，能帮助模型更好地学习。而上述5种工业终端数据，因为它们的类别不同，因此各自在工业终端异常的行为中出现的频率实际上是不同的，例如，如果工业终端出现异常，它的维护行为数据可能出现异常数据的值就较多，而设备特征数据出现异常值的概率较少，因为这是设备买来后就固定的值，除非某一个型号有重大问题。所以如果频繁出现新的维护信息，就更有可能是需要关注的终端。另外，有的数据调用行为无论是否是正常工业终端都会大量产生，例如环境数据，只要是在某一个厂房运营的终端都会有所体现并大多保持一致，因此它在数据中的出现对检测异常终端的贡献度不高，这类数据在送入到模型学习之前就应该调低影响。

本示例实施方式中，创新性地采用了经典的信道编码方法：线性分组码对原始数据进行了编码，使用TF-IDF（term frequency–inverse document frequency，词频-逆文件频率）构建和类别分类的特征，由此构建新型的词向量编码，来衡量这种不平衡以赋予数据不同的权重。

线性分组码（Linear block codes）是一种编码方案，用于在数字通信中对数据进行错误检测和纠正。它是一种纠错码的形式，通过在发送数据之前将原始数据转换为编码数据，并在接收端对接收到的编码数据进行解码，实现对传输过程中发生的错误进行检测和修复。

线性分组码的编码和解码过程都是基于线性运算的原理，因此称为线性分组码。这种编码方案中的码字被表示为向量，每个码字都可以看作是一个长度为n的二进制向量，其中n是码字的长度。编码过程使用一个生成矩阵，将输入数据向量乘以生成矩阵，生成一个编码后的向量，然后将该编码后的向量发送给接收端。在接收端，使用一个校验矩阵对接收到的编码向量进行解码。解码过程中，通过将接收到的编码向量与校验矩阵相乘，得到一个长度为k的向量，其中k是数据向量的长度。解码后的向量通常被称为估计向量，它表示对原始数据向量的估计。接收端通过比较估计向量与编码数据向量之间的差异来检测和修复错误。

线性分组码有许多不同的类型，其中最著名的是汉明码（Hamming code）和卷积码（Convolutional code）。汉明码是一种最简单的线性分组码，可以检测和纠正单个错误。卷积码是一种更复杂的线性分组码，具有更高的纠错能力。

本示例实施方式中创新性地采用线性分组码中的汉明码作为工业终端日志数据的特征抽取办法进行编码，并将此编码信息融入到模型的构建上。具体思路为：使用线性分组码的信息位记录文本数据的位置信息，而线性分组码的监督位记录文本数据的类别信息，线性分组码不同汉明距离代表着不同编码间的差异。汉明距离设计的本意是用来防止信道传输中出现错误，但是此处却创新性的使用此距离区别文本间的差异，如果日志数据属于同一种类，那么汉明距离小，如果日志数据属于不同种类，那么汉明距离大，这就是线性分组码进行词嵌入编码的基本创新思路。

本示例实施方式中，如图7所示，根据文本数据中的位置信息和类别信息得到文本数据对应的线性分组码，具体可以包括以下几个步骤：

步骤S710. 对文本数据中的位置信息进行编码，得到文本数据对应的位置编码。

本示例实施方式中，可以获取文本数据的时间戳信息，并将文本数据的时间戳信息作为文本数据的位置信息。

获取日志数据后，由于和工业终端相关的预测性维护还不够成熟，所以相关的知识图谱和语料库非常难获取，需要从头训练神经网络模型，并通常采用one-hot编码。但是，虽然工业终端产生的文本数据自身合适的向量化是未知的，但在它产生的瞬间便能得到时间戳，时间戳信息不仅记录了时间也记录了工业终端日志数据产生的先后顺序，因此以此为依据对线性分组码中的信息位进行编码。比如有1024个工业终端数据，那么将序列为1的数据为0000000001（9个0和1个1），将序列为2的数据为0000000010，将序列为512的数据编码为0100000000，这样，便有了位置编码的信息。与one-hot编码相比，假如有1024个数据，one-hot编码是1024维的，而的编码的信息位部分仅仅只有10维。

步骤S720. 根据文本数据中的类别信息构造生成矩阵，并将位置编码与生成矩阵相乘，得到文本数据对应的线性分组码。

本示例实施方式中，线性分组码中的信息位用于记录文本数据的位置信息，线性分组码中的监督位用于记录文本数据的类别信息。

线性分组码通过给信息位增加监督位，加大了不同编码序列的汉明距离，以应对信道传输过程中产生的误码，如果产生错误的码元小于汉明距离，那么便可以判断是否产生了传输错误。所有的码字彼此间都有差异，而这个差异的衡量数值是汉明距离，为此，可以创新性的将工业终端数据种类与线性分组码的监督位进行了结合，一方面，可以针对统计的5类工业终端数据设置不同的线性分组码编码，另一方面，会让数据本身差异更大的种类在编码后的汉明距离更远，以此在模型中衡量数值化它们的差异。例如，假如工业数据属于同类，那么汉明距离为1，比如同为传感器数据的温度，压力数据编码为0010和0011，假设工业数据不同类，那么依据类别种类予以不同的汉明距离，比如一个是传感器数据，一个是维护记录数据，那么会根据种类不同予以不同汉明距离的类别编码，例如编码为0010和0111（二进制减法后汉明距离为5）。

根据工业终端数据的种类不同，特征工程进行了类别归纳，并将此重要性特征加入到了神经网络位置编码的构建上，这个步骤增强了模型对数据的理解，因此提高了模型准确性。

图8示意性示出了根据本公开的一个具体实施方式中的线性分组码编码流程的示意图，线性分组码的数学操作为，首先，根据文本数据的时间戳信息进行时间编码，将时间信息作为线性分组码的信息位记录下来。而文本数据本身的类别信息编码，设定为线性分组码的监督位，监督位和信息位共同构成了线性分组码，会构建一个生成矩阵（由类别信息确定），通过将信息位编码的与生成矩阵相乘得到带有监督位的线性分组码信息。

继续参考图1所示，在步骤S130中，将文本数据对应的线性分组码与词向量矩阵进行拼接，得到网络流量数据对应的特征矩阵。

图9示意性示出了根据本公开的一个具体实施方式中的线性分组码编码模块的示意图，通过将文本数据对应的线性分组码与词向量矩阵进行拼接，可以得到网络流量数据对应的特征矩阵，用于输入模型中。

在步骤S140中，将网络流量数据的特征矩阵输入预先训练的终端数据分类模型中，其中，终端数据分类模型是基于网络流量样本数据的线性分组码构建和训练得到的。

本示例实施方式中，终端数据分类模型可以为Transformer模型。图10示意性示出了根据本公开的一个具体实施方式中的Transformer模型架构的示意图。

Transformer 是一种基于自注意力机制的深度学习模型，它取消了传统用于文本中的seq2seq（序列到序列）网络的RNN架构，因此并不具备理解词语间位置关系的能力，而在处理文本数据时，了解词语在句子中的位置信息对于捕捉语法结构和语义关系具有重要意义。为了在 Transformer 中引入位置信息，需要使用位置编码（Positional Encoding）。位置编码的作用是为每个位置生成一个唯一的向量表示，以便在后续的自注意力计算中保留词语顺序信息。位置编码向量的维度与词嵌入向量的维度相同，这样它们可以直接相加。位置编码在 Transformer 模型中的主要意义在于引入词语在句子中的位置信息，在它与词嵌入向量相加后，组成了一个包含位置信息的新向量，这个新向量将被送入后续的神经网络层进行处理。

Transformer 中的自注意力机制（Self-Attention Mechanism）是模型的核心部分，负责捕捉输入序列中的长距离依赖关系。自注意力机制通过计算输入序列中每个词与其他词之间的关系，生成一个加权表示，用于后续的网络层处理。一般transformer自注意力机制不会采用一个，而是会采用多个（如8个），因此为多头注意力机制。

自注意力机制是由3个权重矩阵计算得出的，具体来说就是 Q（Query），K（Key），V（Value）矩阵，它们分别表示查询、键和值。具体而言，输入序列首先通过线性层转换为 Q、K、V 向量。然后计算 Q 与 K 的点积，用于衡量输入序列中每个词对当前词的贡献程度。这个点积结果进一步通过 softmax 函数归一化，得到最终的注意力权重。

前馈神经网络通常包括两个线性层（全连接层）和一个激活函数，使用的激活函数可以捕捉输入数据的非线性特征（如RELU）。Transformer 中还使用了跳跃连接（SkipConnection，也称为残差连接）和层归一化（Layer Normalization）来优化网络性能。

跳跃连接是将前馈神经网络的输入直接与其输出相加，从而实现对原始输入的“跳跃”式传递。这种结构有助于缓解梯度消失问题，使得模型能够更有效地进行深层训练。

最后，通过对每一层的输出进行归一化处理，可以确保网络中不同层之间的信息传递更加平滑，避免梯度爆炸或消失问题。

在步骤S150中，根据终端数据分类模型的输出结果，确定网络流量数据是否为异常数据，以及在网络流量数据为异常数据时对应的异常类型。

本示例实施方式中，可以根据终端数据分类模型的输出结果，确定网络流量数据对应的异常分类标识；根据网络流量数据对应的异常分类标识确定网络流量数据是否为异常数据，以及在网络流量数据为异常数据时对应的异常类型。例如，异常分类标识可以包括0~7，其中，0表示非异常数据，1~7表示7中不同的异常类型。根据网络流量数据对应的异常分类标识可以确定网络流量数据是否为异常数据，以及对应的异常类型。

除此之外，本示例实施方式中还可以包括终端数据分类模型的训练方法，如图11所示，终端数据分类模型的训练方法，具体可以包括以下几个步骤：

步骤S1110. 获取网络流量样本数据中的文本样本数据，以及网络流量样本数据对应的异常分类标识。

步骤S1120. 将网络流量样本数据中的文本样本数据转化为对应的词向量矩阵，并根据文本样本数据中的位置信息和类别信息得到文本样本数据对应的线性分组码。

步骤S1130. 将文本样本数据对应的线性分组码与网络流量样本数据的词向量矩阵进行拼接，得到网络流量样本数据对应的特征矩阵。

网络流量样本数据对应的特征矩阵的构建方法与前述方法类似，此处不再赘述。

步骤S1140. 以网络流量样本数据对应的特征矩阵作为输入数据，以网络流量样本数据对应的异常分类标识作为输出数据，训练终端数据分类模型。

最后，以网络流量样本数据对应的特征矩阵作为模型的输入数据，以网络流量样本数据对应的异常分类标识作为模型的输出数据，训练终端数据分类模型，用于异常流量数据的检测。

应当注意，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

进一步的，本公开还提供了一种异常数据的检测装置。参考图12所示，该异常数据的检测装置可以包括词向量矩阵转化模块1210、线性分组码确定模块1220、特征矩阵生成模块1230、分类模型输入模块1240以及异常数据确定模块1250。其中：

词向量矩阵转化模块1210可以用于获取从终端设备监测到的网络流量数据，并将网络流量数据中的文本数据转化为对应的词向量矩阵；

线性分组码确定模块1220可以用于获取文本数据中的位置信息和类别信息，并根据文本数据中的位置信息和类别信息得到文本数据对应的线性分组码；

特征矩阵生成模块1230可以用于将文本数据对应的线性分组码与词向量矩阵进行拼接，得到网络流量数据对应的特征矩阵；

分类模型输入模块1240可以用于将网络流量数据的特征矩阵输入预先训练的终端数据分类模型中，其中，终端数据分类模型是基于网络流量样本数据的线性分组码构建和训练得到的；

异常数据确定模块1250可以用于根据终端数据分类模型的输出结果，确定网络流量数据是否为异常数据，以及在网络流量数据为异常数据时对应的异常类型。

在本公开的一些示例性实施例中，词向量矩阵转化模块1210可以包括词向量转化单元以及词向量矩阵生成单元。其中：

词向量转化单元可以用于根据预先训练的神经网络权重矩阵，得到网络流量数据中的每个文本数据分别对应的词向量；

词向量矩阵生成单元可以用于根据网络流量数据中的所有文本数据对应的词向量，得到网络流量数据对应的词向量矩阵。

在本公开的一些示例性实施例中，本公开提供的一种异常数据的检测装置还可以包括权重矩阵训练模块，该权重矩阵训练模块可以包括上下文预测值确定单元、上下文预测值对比单元以及权重矩阵确定单元。其中：

上下文预测值确定单元可以用于将网络流量样本数据中的文本样本数据输入神经网络中，得到文本样本数据对应的上下文预测值；

上下文预测值对比单元可以用于将文本样本数据对应的上下文预测值与文本样本数据对应的上下文实际值进行对比，并根据对比结果使用反向传播算法对神经网络进行训练；

权重矩阵确定单元可以用于根据神经网络的训练结果，得到神经网络权重矩阵。

在本公开的一些示例性实施例中，线性分组码确定模块1220可以包括位置信息获取单元，可以用于获取文本数据的时间戳信息，并将文本数据的时间戳信息作为文本数据的位置信息。

在本公开的一些示例性实施例中，文本数据的类别包括终端设备的传感器数据、运行数据、维护记录数据、环境条件数据和设备特征数据。

在本公开的一些示例性实施例中，线性分组码确定模块1220还可以包括位置信息编码单元以及生成矩阵确定单元。其中：

位置信息编码单元可以用于对文本数据中的位置信息进行编码，得到文本数据对应的位置编码；

生成矩阵确定单元可以用于根据文本数据中的类别信息构造生成矩阵，并将位置编码与生成矩阵相乘，得到文本数据对应的线性分组码。

在本公开的一些示例性实施例中，线性分组码中的信息位用于记录文本数据的位置信息，线性分组码中的监督位用于记录文本数据的类别信息。

在本公开的一些示例性实施例中，异常数据确定模块1250可以包括异常分类标识确定单元以及异常类型确定单元。其中：

异常分类标识确定单元可以用于根据终端数据分类模型的输出结果，确定网络流量数据对应的异常分类标识；

异常类型确定单元可以用于根据网络流量数据对应的异常分类标识确定网络流量数据是否为异常数据，以及在网络流量数据为异常数据时对应的异常类型。

在本公开的一些示例性实施例中，本公开提供的一种异常数据的检测装置还可以包括终端数据分类模型训练模块，该终端数据分类模型训练模块可以包括样本数据获取单元、样本线性分组码确定单元、样本特征矩阵生成单元以及输入输出数据确定单元。其中：

样本数据获取单元可以用于获取网络流量样本数据中的文本样本数据，以及网络流量样本数据对应的异常分类标识；

样本线性分组码确定单元可以用于将网络流量样本数据中的文本样本数据转化为对应的词向量矩阵，并根据文本样本数据中的位置信息和类别信息得到文本样本数据对应的线性分组码；

样本特征矩阵生成单元可以用于将文本样本数据对应的线性分组码与网络流量样本数据的词向量矩阵进行拼接，得到网络流量样本数据对应的特征矩阵；

输入输出数据确定单元可以用于以网络流量样本数据对应的特征矩阵作为输入数据，以网络流量样本数据对应的异常分类标识作为输出数据，训练终端数据分类模型。

上述异常数据的检测装置中各模块/单元的具体细节在相应的方法实施例部分已有详细的说明，此处不再赘述。

图13示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。

需要说明的是，图13示出的电子设备的计算机系统1300仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图13所示，计算机系统1300包括中央处理单元（CPU）1301，其可以根据存储在只读存储器（ROM）1302中的程序或者从存储部分1308加载到随机访问存储器（RAM）1303中的程序而执行各种适当的动作和处理。在RAM 1303中，还存储有系统操作所需的各种程序和数据。CPU 1301、ROM 1302以及RAM 1303通过总线1304彼此相连。输入/输出（I/O）接口1305也连接至总线1304。

以下部件连接至I/O接口1305：包括键盘、鼠标等的输入部分1306；包括诸如阴极射线管（CRT）、液晶显示器（LCD）等以及扬声器等的输出部分1307；包括硬盘等的存储部分1308；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1309。通信部分1309经由诸如因特网的网络执行通信处理。驱动器1310也根据需要连接至I/O接口1305。可拆卸介质1311，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1310上，以便于从其上读出的计算机程序根据需要被安装入存储部分1308。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1309从网络上被下载和安装，和/或从可拆卸介质1311被安装。在该计算机程序被中央处理单元（CPU）1301执行时，执行本公开的系统中限定的各种功能。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

作为另一方面，本公开还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如上述实施例中所述的方法。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之，上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种异常数据的检测方法，其特征在于，包括：

2.根据权利要求1所述的异常数据的检测方法，其特征在于，所述将所述网络流量数据中的文本数据转化为对应的词向量矩阵，包括：

3.根据权利要求2所述的异常数据的检测方法，其特征在于，所述方法还包括所述神经网络权重矩阵的训练方法，所述神经网络权重矩阵的训练方法包括：

4.根据权利要求1所述的异常数据的检测方法，其特征在于，获取所述文本数据的位置信息，包括：

5.根据权利要求1所述的异常数据的检测方法，其特征在于，所述文本数据的类别包括所述终端设备的传感器数据、运行数据、维护记录数据、环境条件数据和设备特征数据。

6.根据权利要求1所述的异常数据的检测方法，其特征在于，所述根据所述文本数据中的位置信息和类别信息得到所述文本数据对应的线性分组码，包括：

7.根据权利要求1所述的异常数据的检测方法，其特征在于，所述线性分组码中的信息位用于记录所述文本数据的位置信息，所述线性分组码中的监督位用于记录所述文本数据的类别信息。

8.根据权利要求1所述的异常数据的检测方法，其特征在于，所述根据所述终端数据分类模型的输出结果，确定所述网络流量数据是否为异常数据，以及在所述网络流量数据为异常数据时对应的异常类型，包括：

9.根据权利要求1所述的异常数据的检测方法，其特征在于，所述方法还包括所述终端数据分类模型的训练方法，所述终端数据分类模型的训练方法包括：

10.一种异常数据的检测装置，其特征在于，包括：

11.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储一个或多个程序，当所述一个或多个程序被所述处理器执行时，使得所述处理器实现如权利要求1至9中任一项所述的异常数据的检测方法。

12.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1至9中任一项所述的异常数据的检测方法。