CN117556365B

CN117556365B - 一种流程数据漂移检测模型训练、漂移检测方法及装置

Info

Publication number: CN117556365B
Application number: CN202410043837.8A
Authority: CN
Inventors: 聂秀山; 林熙明; 王栋伟; 刘新锋; 吕雪岭; 袭肖明; 宁阳
Original assignee: Shuifa Digital Industry Shanghai Co ltd; Shuifa Xingye Energy Zhuhai Co ltd; Shandong Jianzhu University
Current assignee: Shuifa Digital Industry Shanghai Co ltd; Shuifa Xingye Energy Zhuhai Co ltd; Shandong Jianzhu University
Priority date: 2024-01-12
Filing date: 2024-01-12
Publication date: 2024-04-09
Anticipated expiration: 2044-01-12
Also published as: CN117556365A

Abstract

本发明属于计算机技术领域，提供了一种流程数据漂移检测模型训练、漂移检测方法及装置，其技术方案为：使用孪生自编码器网络模型作为数据漂移检测模型，通过使用对比损失函数，将经由孪生自编码器产生的数据嵌入表示与传入的新数据作出正负样本对的区分，通过对比新数据与正负样本对的距离关系判断该数据的分布与训练数据集上的数据分布是否一致来说明数据漂移存在与否，通过在负样本对中设置阈值对新数据判断其嵌入表示是否异常来判断该点是否是异常值以完成数据异常检测。本发明考虑到了因数据漂移所产生的异常数据，且训练过程对标签数据量需求低，可有效提高异常检测系统的效率、准确性和合理性。

Description

一种流程数据漂移检测模型训练、漂移检测方法及装置

技术领域

本发明属于计算机技术领域，尤其涉及一种流程数据漂移检测模型训练、漂移检测方法及装置。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

流程数据是指在工业制造等领域中记录和捕获生产或操作过程中的各种数据，通常包括时间序列数据、传感器数据、事件日志、质量数据、温度、压力、流速、设备状态等，影响着工业制造领域的生产监测、故障检测维护、数据驱动的决策系统。

当前行业所使用的流程数据异常检测方案，大多数基于统计或机器学习的方法，需要大量带有正常和异常数据的标签进行训练；异常数据通常占总数据量的小部分，有机会产生类别不平衡问题导致模型对异常数据的检测性能不佳；且在长时间的运行生产环境中，必然会出现生产操作中的实际数据分布与训练时使用的数据分布不匹配所导致的数据漂移问题，其所引发的异常数据会致使异常检测模型性能下降。

发明内容

为了解决上述背景技术中存在的至少一项技术问题，本发明提供一种流程数据漂移检测模型训练、漂移检测方法及装置，其通过检测数据中存在数据漂移现象的数据，对数据漂移引发的异常数据进行异常检测以提升检测性能，使设备的异常检测的结果更为准确、合理。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种流程数据漂移检测模型训练方法，包括如下步骤：

获取训练生产流程监测数据；

将所述训练生产流程监测数据输入至初始漂移检测模型，映射至嵌入空间得到第一嵌入表示，基于第一嵌入表示得到正训练样本对和负训练样本对；

引入对比损失函数，计算训练生产流程监测数据与正训练样本对和负训练样本对的对比损失，通过反向传播更新网络的权重，最小化对比损失函数，以使嵌入表示中的正训练样本对接近，负训练样本对远离，得到更新后的网络权重参数；

基于更新后的网络权重参数调整初始漂移检测模型，基于调整后的初始漂移检测模型得到第二嵌入表示，解码第二嵌入表示，得到重建数据，采用重建数据和原始训练生产流程监测数据计算重建误差，迭代优化重建误差，得到漂移异常检测模型。

进一步地，所述方法还包括：将新获取的生产流程监测数据输入至漂移异常检测模型，根据新获取的生产流程监测数据与正训练样本对和负训练样本对的相似性距离，判断新获取的生产流程监测数据与原始的训练生产流程监测数据相比分布是否一致，若不一致，则说明新获取的生产流程监测数据存在数据漂移现象。

进一步地，所述方法还包括：通过设置阈值，若训练生产流程监测数据与负样本之间的相似性距离是否低于阈值，若低于阈值，说明该数据是漂移数据中的异常数据，发出异常警报。

进一步地，所述漂移异常检测模型采用孪生自编码器，采用了两个相同结构的自编码器，它们共享相同的权重和架构，一个处理正训练样本对，一个处理负训练样本对，通过共享权重，使正训练样本对和负训练样本对之间的编码和解码过程一致。

本发明的第二个方面提供一种流程数据漂移检测方法，包括如下步骤：

获取生产流程监测数据；

结合所述生产流程监测数据和训练后的漂移异常检测模型，得到漂移异常检测结果；其中，所述漂移异常检测模型的训练过程包括：

进一步地，获取生产流程监测数据后，对数据进行预处理，包括缺失数据补全处理和归一化处理。

进一步地，获取生产流程监测数据后，将数据按照分钟或小时为单位以时序的形式存储，生成监控数据的二维矩阵，并对数据进行预处理，将得到的一组时序二维矩阵作为流程数据集。

本发明的第三个方面提供一种流程数据漂移检测模型训练装置，包括：

训练数据获取模块，被配置为获取训练生产流程监测数据；

网络更新模块，被配置为将所述训练生产流程监测数据输入至初始漂移检测模型，映射至嵌入空间得到第一嵌入表示，基于第一嵌入表示得到正训练样本对和负训练样本对；引入对比损失函数，计算训练生产流程监测数据与正训练样本对和负训练样本对的对比损失，通过反向传播更新网络的权重，最小化对比损失函数，以使嵌入表示中的正训练样本对接近，负训练样本对远离，得到更新后的网络权重参数；

重建优化模块，被配置为基于更新后的网络权重参数调整初始漂移检测模型，基于调整后的初始漂移检测模型得到第二嵌入表示，解码第二嵌入表示，得到重建数据，采用重建数据和原始训练生产流程监测数据计算重建误差，迭代优化重建误差，得到漂移异常检测模型。

本发明的第四个方面提供一种流程数据漂移检测装置，包括：

数据获取模块，被配置为获取生产流程监测数据；

异常检测模块，被配置为结合所述生产流程监测数据和训练后的漂移异常检测模型，得到漂移异常检测结果；其中，所述漂移异常检测模型的训练过程包括：

与现有技术相比，本发明的有益效果是：

本发明基于使用孪生自编码器网络模型作为数据漂移检测模型，通过使用对比损失函数，将经由孪生自编码器产生的数据嵌入表示与传入的新数据作出正负样本对的区分，通过对比新数据与正负样本对的距离关系判断该数据的分布与训练数据集上的数据分布是否一致来说明数据漂移存在与否，通过在负样本对中设置阈值对新数据判断其嵌入表示是否异常来判断该点是否是异常值以完成数据异常检测。本发明考虑到了因数据漂移所产生的异常数据，且训练过程对标签数据量需求低，可有效提高异常检测系统的效率、准确性和合理性。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例提供的一种流程数据漂移检测模型训练方法流程图；

图2是本发明实施例提供的数据异常检测流程图；

图3是本发明实施例提供的孪生自编码器结构示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

如图1所示，本实施例提供一种流程数据漂移检测模型训练方法，包括如下步骤：

S101：获取训练生产流程监测数据；

通过生产流程线上的传感器，获取流程相关的监控数据，包括正常生产操作期间的数据，按分钟或小时为单位以时序的形式存储，生成监控数据的二维矩阵，并对数据进行预处理，得到的一组时序二维矩阵作为训练流程数据集；

S102：基于训练生产流程监测数据和初始漂移检测模型得到正训练样本对和负训练样本对；

从步骤1中处理完毕的数据集随机选择一条锚点数据、一条正样本、一条负样本输入至输入层传入孪生自编码器中，传入的数据被输入到编码器，映射为低维嵌入空间上的第一嵌入表示；

随机选择三条数据，其中一条作为锚点数据，其余两条与锚点数据进行数据分布比较，将锚点数据为待对比的数据，正样本为数据分布与锚点数据更为接近的样本数据，负样本为数据分布与锚点数据更不接近的样本数据。

S103：引入对比损失函数，更新网络权重参数；

如图2所示，引入对比损失函数，计算锚点与正样本、锚点与负样本的对比损失，以此为锚点与正负样本间的相似性距离，并通过反向传播来更新网络权重以最小化对比损失函数，使嵌入表示中的正样本更接近，负样本更远离，对比损失函数公式如下：，/>，其中，/>表示锚点数据与正样本之间的余弦相似性距离，/>表示锚点数据与负样本之间的余弦相似性距离，/>是一个控制正样本和负样本之间距离差异的超参数。

S104：重建误差，训练得到漂移异常检测模型；

将编码后的低维嵌入表示传入解码器，尽可能重建出原始数据，使用重建数据与原始数据之间的均方误差来计算重建误差，并不断迭代优化对重建误差以完成孪生自编码器的训练，重建误差公式如下：，其中，/>是原始数据，/>是重建数据，为二者误差。

将新获取的数据作为锚点数据输入至训练好的孪生自编码器中，若其与训练数据集中的负样本的相似性距离比与正样本的相似性距离更近，则新数据的数据分布与训练数据的数据分布是不一致的，说明此数据存在数据漂移现象。

S105：数据异常检测；

如图3所示，设置一个阈值，以判断新数据点的嵌入表示是否异常。对相似性偏向负样本对的新数据点检验其相似性得分是否低于阈值，如果该数据点的嵌入表示的相似性得分低于阈值，那么该数据点被视为异常数据，完成异常检测，发出警报提醒。

其中，所述阈值检测方法为:

设置合理的阈值，用于检测锚点数据与负样本之间的相似性距离是否低于阈值，若低于阈值，则说明此数据是漂移数据中的异常数据，发出异常警报；

其中，阈值可设置为S103中达到最小损失时的所有之和的80%。

其中，所述漂移异常检测模型采用孪生自编码器，包括两个相同结构的自编码器，它们共享相同的权重和架构，使用正常操作期间的数据对孪生自编码器进行训练，将正常数据映射到嵌入空间中，以便数据点之间的相似性可以在嵌入空间中反映出来。

将数据输入到训练好的孪生自编码器的编码部分，将新的流程数据点映射到嵌入表示输出正样本对与负样本对，再使用对比损失函数学习嵌入空间中的数据点之间的相似性和差异性。

通过测量正负样本对之间的相似性或距离，鼓励正样本对更接近，负样本对更分散，以帮助模型衡量新数据点的嵌入表示与正常操作期间的数据点之间的相似性，区分正常操作数据与漂移数据，以进一步进行异常数据检测。

如图2所示为孪生自编码器结构示意图，所述孪生自编码器包括两个相同结构的自编码器，它们共享相同的权重和架构，一个处理正样本，一个处理负样本，这两个结构通过共享权重来确保正样本和负样本之间的编码和解码过程是一致的，从而使相似数据点在嵌入空间中更接近，不相似数据点更远离。

编码器通常包括多个编码层，每一层逐渐减小维度，将输入数据压缩为低维嵌入表示。

每一层的编码层嵌入表示公式如下：，/>，其中，/>是嵌入表示，/>是输入的数据，/>是编码器的权重矩阵，/>是编码器的偏置项，/>是ReLU激活函数，输出为输入值/>和0中最大的值。

解码层重建数据公式如下：，/>，其中，/>是重建的输入数据，/>是嵌入表示，/>是解码器的权重矩阵，/>是解码器的偏置项，/>是Sigmoid激活函数，输出为位于0和1之间的数值。

实施例二

本实施例提供了一种流程数据漂移检测方法，包括如下步骤：

S201：获取生产流程线的监控数据，并对数据预处理；

通过生产流程线上的传感器，获取流程相关的监控数据，包括正常生产操作期间的数据，按分钟或小时为单位以时序的形式存储，生成监控数据的二维矩阵，并对数据进行预处理，将得到的一组时序二维矩阵作为流程数据集。

S202：将生产流程线的监控数据预处理，包括缺失数据补全处理和归一化处理；

其中，归一化处理使用Min-Max方法对已进行缺失数据补全处理后的数据集进行标准化，计算公式为：，其中，数据转化为[0,1]，/>为归一化处理后的数据，/>为原始数据，/>为最大的原始数据，/>为最小的原始数据。

S203：结合预处理后的生产流程监测数据和训练后的漂移异常检测模型，得到漂移异常检测结果；其中，所述漂移异常检测模型的训练过程包括：

S2031：将所述训练生产流程监测数据输入至初始漂移检测模型，映射至嵌入空间得到第一嵌入表示，基于第一嵌入表示得到正训练样本对和负训练样本对；

S2032：引入对比损失函数，计算训练生产流程监测数据与正训练样本对和负训练样本对的对比损失，通过反向传播更新网络的权重，最小化对比损失函数，以使嵌入表示中的正训练样本对接近，负训练样本对远离，得到更新后的网络权重参数；

S2033：基于更新后的网络权重参数调整初始漂移检测模型，基于调整后的初始漂移检测模型得到第二嵌入表示，解码第二嵌入表示，得到重建数据，采用重建数据和原始训练生产流程监测数据计算重建误差，迭代优化重建误差，得到漂移异常检测模型。

S2034：将新获取的生产流程监测数据输入至漂移异常检测模型，根据新获取的生产流程监测数据与正训练样本对和负训练样本对的相似性距离，判断新获取的生产流程监测数据与原始的训练生产流程监测数据相比分布是否一致，若不一致，则说明新获取的生产流程监测数据存在数据漂移现象。

S2035：通过设置阈值，若训练生产流程监测数据与负样本之间的相似性距离是否低于阈值，若低于阈值，说明该数据是漂移数据中的异常数据，发出异常警报。

实施例三

本实施例提供一种流程数据漂移检测模型训练装置，包括：

训练数据获取模块，被配置为获取训练生产流程监测数据；

实施例四

本实施例提供一种流程数据漂移检测装置，包括：

数据获取模块，被配置为获取生产流程监测数据；

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种流程数据漂移检测模型训练方法，其特征在于，包括如下步骤：

获取训练生产流程监测数据；具体为：通过生产流程线上的传感器，获取流程相关的监控数据，包括正常生产操作期间的数据，按分钟或小时为单位以时序的形式存储，生成监控数据的二维矩阵，并对数据进行预处理，得到的一组时序二维矩阵作为训练流程数据集；

将所述训练生产流程监测数据输入至初始漂移检测模型，映射至嵌入空间得到第一嵌入表示，基于第一嵌入表示得到正训练样本对和负训练样本对；具体为：从所述获取训练生产流程监测数据中处理完毕的数据集随机选择一条锚点数据、一条正样本、一条负样本输入至输入层传入孪生自编码器中，传入的数据被输入到编码器，映射为低维嵌入空间上的第一嵌入表示；随机选择三条数据，其中一条作为锚点数据，其余两条与锚点数据进行数据分布比较，将锚点数据为待对比的数据，正样本为数据分布与锚点数据更为接近的样本数据，负样本为数据分布与锚点数据更不接近的样本数据；

引入对比损失函数，计算训练生产流程监测数据与正训练样本对和负训练样本对的对比损失，通过反向传播更新网络的权重，最小化对比损失函数，以使嵌入表示中的正训练样本对接近，负训练样本对远离，得到更新后的网络权重参数；具体为：引入对比损失函数，计算锚点与正样本、锚点与负样本的对比损失，以此为锚点与正负样本间的相似性距离，并通过反向传播来更新网络权重以最小化对比损失函数，使嵌入表示中的正样本更接近，负样本更远离，对比损失函数公式如下：，，其中，/>表示锚点数据与正样本之间的余弦相似性距离，/>表示锚点数据与负样本之间的余弦相似性距离，/>是一个控制正样本和负样本之间距离差异的超参数；

基于更新后的网络权重参数调整初始漂移检测模型，基于调整后的初始漂移检测模型得到第二嵌入表示，解码第二嵌入表示，得到重建数据，采用重建数据和原始训练生产流程监测数据计算重建误差，迭代优化重建误差，得到漂移异常检测模型；

所述漂移异常检测模型采用孪生自编码器，采用了两个相同结构的自编码器，它们共享相同的权重和架构，一个处理正训练样本对，一个处理负训练样本对，通过共享权重，使正训练样本对和负训练样本对之间的编码和解码过程一致。

2.如权利要求1所述的一种流程数据漂移检测模型训练方法，其特征在于，所述方法还包括：将新获取的生产流程监测数据输入至漂移异常检测模型，根据新获取的生产流程监测数据与正训练样本对和负训练样本对的相似性距离，判断新获取的生产流程监测数据与原始的训练生产流程监测数据相比分布是否一致，若不一致，则说明新获取的生产流程监测数据存在数据漂移现象。

3.如权利要求1所述的一种流程数据漂移检测模型训练方法，其特征在于，所述方法还包括：通过设置阈值，若训练生产流程监测数据与负样本之间的相似性距离是否低于阈值，若低于阈值，说明该数据是漂移数据中的异常数据，发出异常警报。

4.如权利要求1所述的一种流程数据漂移检测模型训练方法，其特征在于，所述漂移异常检测模型采用孪生自编码器，采用了两个相同结构的自编码器，两个相同结构的自编码器共享相同的权重和架构，一个处理正训练样本对，一个处理负训练样本对，通过共享权重，使正训练样本对和负训练样本对之间的编码和解码过程一致。

5.一种流程数据漂移检测方法，利用如权利要求1所述的一种流程数据漂移检测模型训练方法实现，其特征在于，包括如下步骤：

获取生产流程监测数据；

6.如权利要求5所述的一种流程数据漂移检测方法，其特征在于，获取生产流程监测数据后，对数据进行预处理，包括缺失数据补全处理和归一化处理。

7.如权利要求5所述的一种流程数据漂移检测方法，其特征在于，获取生产流程监测数据后，将数据按照分钟或小时为单位以时序的形式存储，生成监控数据的二维矩阵，并对数据进行预处理，将得到的一组时序二维矩阵作为流程数据集。

8.如权利要求5所述的一种流程数据漂移检测方法，其特征在于，所述漂移异常检测模型采用孪生自编码器，采用了两个相同结构的自编码器，它们共享相同的权重和架构，一个处理正训练样本对，一个处理负训练样本对，通过共享权重，使正训练样本对和负训练样本对之间的编码和解码过程一致。

9.一种流程数据漂移异常检测模型训练装置，利用如权利要求1所述的一种流程数据漂移检测模型训练方法实现，其特征在于，包括：

训练数据获取模块，被配置为获取训练生产流程监测数据；

10.一种流程数据漂移异常检测装置，利用如权利要求1所述的一种流程数据漂移检测模型训练方法实现，其特征在于，包括：

数据获取模块，被配置为获取生产流程监测数据；