CN117556365B - 一种流程数据漂移检测模型训练、漂移检测方法及装置 - Google Patents
一种流程数据漂移检测模型训练、漂移检测方法及装置 Download PDFInfo
- Publication number
- CN117556365B CN117556365B CN202410043837.8A CN202410043837A CN117556365B CN 117556365 B CN117556365 B CN 117556365B CN 202410043837 A CN202410043837 A CN 202410043837A CN 117556365 B CN117556365 B CN 117556365B
- Authority
- CN
- China
- Prior art keywords
- data
- detection model
- training
- sample pair
- drift
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 187
- 238000001514 detection method Methods 0.000 title claims abstract description 134
- 238000000034 method Methods 0.000 title claims abstract description 71
- 230000008569 process Effects 0.000 title claims abstract description 50
- 230000002159 abnormal effect Effects 0.000 claims abstract description 26
- 238000009826 distribution Methods 0.000 claims abstract description 19
- 238000004519 manufacturing process Methods 0.000 claims description 94
- 238000012544 monitoring process Methods 0.000 claims description 91
- 238000013507 mapping Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 4
- 230000000295 complement effect Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000005856 abnormality Effects 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 22
- 230000004913 activation Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
本发明属于计算机技术领域,提供了一种流程数据漂移检测模型训练、漂移检测方法及装置,其技术方案为:使用孪生自编码器网络模型作为数据漂移检测模型,通过使用对比损失函数,将经由孪生自编码器产生的数据嵌入表示与传入的新数据作出正负样本对的区分,通过对比新数据与正负样本对的距离关系判断该数据的分布与训练数据集上的数据分布是否一致来说明数据漂移存在与否,通过在负样本对中设置阈值对新数据判断其嵌入表示是否异常来判断该点是否是异常值以完成数据异常检测。本发明考虑到了因数据漂移所产生的异常数据,且训练过程对标签数据量需求低,可有效提高异常检测系统的效率、准确性和合理性。
Description
技术领域
本发明属于计算机技术领域,尤其涉及一种流程数据漂移检测模型训练、漂移检测方法及装置。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
流程数据是指在工业制造等领域中记录和捕获生产或操作过程中的各种数据,通常包括时间序列数据、传感器数据、事件日志、质量数据、温度、压力、流速、设备状态等,影响着工业制造领域的生产监测、故障检测维护、数据驱动的决策系统。
当前行业所使用的流程数据异常检测方案,大多数基于统计或机器学习的方法,需要大量带有正常和异常数据的标签进行训练;异常数据通常占总数据量的小部分,有机会产生类别不平衡问题导致模型对异常数据的检测性能不佳;且在长时间的运行生产环境中,必然会出现生产操作中的实际数据分布与训练时使用的数据分布不匹配所导致的数据漂移问题,其所引发的异常数据会致使异常检测模型性能下降。
发明内容
为了解决上述背景技术中存在的至少一项技术问题,本发明提供一种流程数据漂移检测模型训练、漂移检测方法及装置,其通过检测数据中存在数据漂移现象的数据,对数据漂移引发的异常数据进行异常检测以提升检测性能,使设备的异常检测的结果更为准确、合理。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供一种流程数据漂移检测模型训练方法,包括如下步骤:
获取训练生产流程监测数据;
将所述训练生产流程监测数据输入至初始漂移检测模型,映射至嵌入空间得到第一嵌入表示,基于第一嵌入表示得到正训练样本对和负训练样本对;
引入对比损失函数,计算训练生产流程监测数据与正训练样本对和负训练样本对的对比损失,通过反向传播更新网络的权重,最小化对比损失函数,以使嵌入表示中的正训练样本对接近,负训练样本对远离,得到更新后的网络权重参数;
基于更新后的网络权重参数调整初始漂移检测模型,基于调整后的初始漂移检测模型得到第二嵌入表示,解码第二嵌入表示,得到重建数据,采用重建数据和原始训练生产流程监测数据计算重建误差,迭代优化重建误差,得到漂移异常检测模型。
进一步地,所述方法还包括:将新获取的生产流程监测数据输入至漂移异常检测模型,根据新获取的生产流程监测数据与正训练样本对和负训练样本对的相似性距离,判断新获取的生产流程监测数据与原始的训练生产流程监测数据相比分布是否一致,若不一致,则说明新获取的生产流程监测数据存在数据漂移现象。
进一步地,所述方法还包括:通过设置阈值,若训练生产流程监测数据与负样本之间的相似性距离是否低于阈值,若低于阈值,说明该数据是漂移数据中的异常数据,发出异常警报。
进一步地,所述漂移异常检测模型采用孪生自编码器,采用了两个相同结构的自编码器,它们共享相同的权重和架构,一个处理正训练样本对,一个处理负训练样本对,通过共享权重,使正训练样本对和负训练样本对之间的编码和解码过程一致。
本发明的第二个方面提供一种流程数据漂移检测方法,包括如下步骤:
获取生产流程监测数据;
结合所述生产流程监测数据和训练后的漂移异常检测模型,得到漂移异常检测结果;其中,所述漂移异常检测模型的训练过程包括:
将所述训练生产流程监测数据输入至初始漂移检测模型,映射至嵌入空间得到第一嵌入表示,基于第一嵌入表示得到正训练样本对和负训练样本对;
引入对比损失函数,计算训练生产流程监测数据与正训练样本对和负训练样本对的对比损失,通过反向传播更新网络的权重,最小化对比损失函数,以使嵌入表示中的正训练样本对接近,负训练样本对远离,得到更新后的网络权重参数;
基于更新后的网络权重参数调整初始漂移检测模型,基于调整后的初始漂移检测模型得到第二嵌入表示,解码第二嵌入表示,得到重建数据,采用重建数据和原始训练生产流程监测数据计算重建误差,迭代优化重建误差,得到漂移异常检测模型。
进一步地,获取生产流程监测数据后,对数据进行预处理,包括缺失数据补全处理和归一化处理。
进一步地,获取生产流程监测数据后,将数据按照分钟或小时为单位以时序的形式存储,生成监控数据的二维矩阵,并对数据进行预处理,将得到的一组时序二维矩阵作为流程数据集。
进一步地,所述漂移异常检测模型采用孪生自编码器,采用了两个相同结构的自编码器,它们共享相同的权重和架构,一个处理正训练样本对,一个处理负训练样本对,通过共享权重,使正训练样本对和负训练样本对之间的编码和解码过程一致。
本发明的第三个方面提供一种流程数据漂移检测模型训练装置,包括:
训练数据获取模块,被配置为获取训练生产流程监测数据;
网络更新模块,被配置为将所述训练生产流程监测数据输入至初始漂移检测模型,映射至嵌入空间得到第一嵌入表示,基于第一嵌入表示得到正训练样本对和负训练样本对;引入对比损失函数,计算训练生产流程监测数据与正训练样本对和负训练样本对的对比损失,通过反向传播更新网络的权重,最小化对比损失函数,以使嵌入表示中的正训练样本对接近,负训练样本对远离,得到更新后的网络权重参数;
重建优化模块,被配置为基于更新后的网络权重参数调整初始漂移检测模型,基于调整后的初始漂移检测模型得到第二嵌入表示,解码第二嵌入表示,得到重建数据,采用重建数据和原始训练生产流程监测数据计算重建误差,迭代优化重建误差,得到漂移异常检测模型。
本发明的第四个方面提供一种流程数据漂移检测装置,包括:
数据获取模块,被配置为获取生产流程监测数据;
异常检测模块,被配置为结合所述生产流程监测数据和训练后的漂移异常检测模型,得到漂移异常检测结果;其中,所述漂移异常检测模型的训练过程包括:
将所述训练生产流程监测数据输入至初始漂移检测模型,映射至嵌入空间得到第一嵌入表示,基于第一嵌入表示得到正训练样本对和负训练样本对;
引入对比损失函数,计算训练生产流程监测数据与正训练样本对和负训练样本对的对比损失,通过反向传播更新网络的权重,最小化对比损失函数,以使嵌入表示中的正训练样本对接近,负训练样本对远离,得到更新后的网络权重参数;
基于更新后的网络权重参数调整初始漂移检测模型,基于调整后的初始漂移检测模型得到第二嵌入表示,解码第二嵌入表示,得到重建数据,采用重建数据和原始训练生产流程监测数据计算重建误差,迭代优化重建误差,得到漂移异常检测模型。
与现有技术相比,本发明的有益效果是:
本发明基于使用孪生自编码器网络模型作为数据漂移检测模型,通过使用对比损失函数,将经由孪生自编码器产生的数据嵌入表示与传入的新数据作出正负样本对的区分,通过对比新数据与正负样本对的距离关系判断该数据的分布与训练数据集上的数据分布是否一致来说明数据漂移存在与否,通过在负样本对中设置阈值对新数据判断其嵌入表示是否异常来判断该点是否是异常值以完成数据异常检测。本发明考虑到了因数据漂移所产生的异常数据,且训练过程对标签数据量需求低,可有效提高异常检测系统的效率、准确性和合理性。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明实施例提供的一种流程数据漂移检测模型训练方法流程图;
图2是本发明实施例提供的数据异常检测流程图;
图3是本发明实施例提供的孪生自编码器结构示意图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
如图1所示,本实施例提供一种流程数据漂移检测模型训练方法,包括如下步骤:
S101:获取训练生产流程监测数据;
通过生产流程线上的传感器,获取流程相关的监控数据,包括正常生产操作期间的数据,按分钟或小时为单位以时序的形式存储,生成监控数据的二维矩阵,并对数据进行预处理,得到的一组时序二维矩阵作为训练流程数据集;
S102:基于训练生产流程监测数据和初始漂移检测模型得到正训练样本对和负训练样本对;
从步骤1中处理完毕的数据集随机选择一条锚点数据、一条正样本、一条负样本输入至输入层传入孪生自编码器中,传入的数据被输入到编码器,映射为低维嵌入空间上的第一嵌入表示;
随机选择三条数据,其中一条作为锚点数据,其余两条与锚点数据进行数据分布比较,将锚点数据为待对比的数据,正样本为数据分布与锚点数据更为接近的样本数据,负样本为数据分布与锚点数据更不接近的样本数据。
S103:引入对比损失函数,更新网络权重参数;
如图2所示,引入对比损失函数,计算锚点与正样本、锚点与负样本的对比损失,以此为锚点与正负样本间的相似性距离,并通过反向传播来更新网络权重以最小化对比损失函数,使嵌入表示中的正样本更接近,负样本更远离,对比损失函数公式如下:,/>,其中,/>表示锚点数据与正样本之间的余弦相似性距离,/>表示锚点数据与负样本之间的余弦相似性距离,/>是一个控制正样本和负样本之间距离差异的超参数。
S104:重建误差,训练得到漂移异常检测模型;
将编码后的低维嵌入表示传入解码器,尽可能重建出原始数据,使用重建数据与原始数据之间的均方误差来计算重建误差,并不断迭代优化对重建误差以完成孪生自编码器的训练,重建误差公式如下:,其中,/>是原始数据,/>是重建数据,为二者误差。
将新获取的数据作为锚点数据输入至训练好的孪生自编码器中,若其与训练数据集中的负样本的相似性距离比与正样本的相似性距离更近,则新数据的数据分布与训练数据的数据分布是不一致的,说明此数据存在数据漂移现象。
S105:数据异常检测;
如图3所示,设置一个阈值,以判断新数据点的嵌入表示是否异常。对相似性偏向负样本对的新数据点检验其相似性得分是否低于阈值,如果该数据点的嵌入表示的相似性得分低于阈值,那么该数据点被视为异常数据,完成异常检测,发出警报提醒。
其中,所述阈值检测方法为:
设置合理的阈值,用于检测锚点数据与负样本之间的相似性距离是否低于阈值,若低于阈值,则说明此数据是漂移数据中的异常数据,发出异常警报;
其中,阈值可设置为S103中达到最小损失时的所有之和的80%。
其中,所述漂移异常检测模型采用孪生自编码器,包括两个相同结构的自编码器,它们共享相同的权重和架构,使用正常操作期间的数据对孪生自编码器进行训练,将正常数据映射到嵌入空间中,以便数据点之间的相似性可以在嵌入空间中反映出来。
将数据输入到训练好的孪生自编码器的编码部分,将新的流程数据点映射到嵌入表示输出正样本对与负样本对,再使用对比损失函数学习嵌入空间中的数据点之间的相似性和差异性。
通过测量正负样本对之间的相似性或距离,鼓励正样本对更接近,负样本对更分散,以帮助模型衡量新数据点的嵌入表示与正常操作期间的数据点之间的相似性,区分正常操作数据与漂移数据,以进一步进行异常数据检测。
如图2所示为孪生自编码器结构示意图,所述孪生自编码器包括两个相同结构的自编码器,它们共享相同的权重和架构,一个处理正样本,一个处理负样本,这两个结构通过共享权重来确保正样本和负样本之间的编码和解码过程是一致的,从而使相似数据点在嵌入空间中更接近,不相似数据点更远离。
编码器通常包括多个编码层,每一层逐渐减小维度,将输入数据压缩为低维嵌入表示。
每一层的编码层嵌入表示公式如下:,/>,其中,/>是嵌入表示,/>是输入的数据,/>是编码器的权重矩阵,/>是编码器的偏置项,/>是ReLU激活函数,输出为输入值/>和0中最大的值。
解码层重建数据公式如下:,/>,其中,/>是重建的输入数据,/>是嵌入表示,/>是解码器的权重矩阵,/>是解码器的偏置项,/>是Sigmoid激活函数,输出为位于0和1之间的数值。
实施例二
本实施例提供了一种流程数据漂移检测方法,包括如下步骤:
S201:获取生产流程线的监控数据,并对数据预处理;
通过生产流程线上的传感器,获取流程相关的监控数据,包括正常生产操作期间的数据,按分钟或小时为单位以时序的形式存储,生成监控数据的二维矩阵,并对数据进行预处理,将得到的一组时序二维矩阵作为流程数据集。
S202:将生产流程线的监控数据预处理,包括缺失数据补全处理和归一化处理;
其中,归一化处理使用Min-Max方法对已进行缺失数据补全处理后的数据集进行标准化,计算公式为:,其中,数据转化为[0,1],/>为归一化处理后的数据,/>为原始数据,/>为最大的原始数据,/>为最小的原始数据。
S203:结合预处理后的生产流程监测数据和训练后的漂移异常检测模型,得到漂移异常检测结果;其中,所述漂移异常检测模型的训练过程包括:
S2031:将所述训练生产流程监测数据输入至初始漂移检测模型,映射至嵌入空间得到第一嵌入表示,基于第一嵌入表示得到正训练样本对和负训练样本对;
S2032:引入对比损失函数,计算训练生产流程监测数据与正训练样本对和负训练样本对的对比损失,通过反向传播更新网络的权重,最小化对比损失函数,以使嵌入表示中的正训练样本对接近,负训练样本对远离,得到更新后的网络权重参数;
S2033:基于更新后的网络权重参数调整初始漂移检测模型,基于调整后的初始漂移检测模型得到第二嵌入表示,解码第二嵌入表示,得到重建数据,采用重建数据和原始训练生产流程监测数据计算重建误差,迭代优化重建误差,得到漂移异常检测模型。
S2034:将新获取的生产流程监测数据输入至漂移异常检测模型,根据新获取的生产流程监测数据与正训练样本对和负训练样本对的相似性距离,判断新获取的生产流程监测数据与原始的训练生产流程监测数据相比分布是否一致,若不一致,则说明新获取的生产流程监测数据存在数据漂移现象。
S2035:通过设置阈值,若训练生产流程监测数据与负样本之间的相似性距离是否低于阈值,若低于阈值,说明该数据是漂移数据中的异常数据,发出异常警报。
进一步地,所述漂移异常检测模型采用孪生自编码器,采用了两个相同结构的自编码器,它们共享相同的权重和架构,一个处理正训练样本对,一个处理负训练样本对,通过共享权重,使正训练样本对和负训练样本对之间的编码和解码过程一致。
实施例三
本实施例提供一种流程数据漂移检测模型训练装置,包括:
训练数据获取模块,被配置为获取训练生产流程监测数据;
网络更新模块,被配置为将所述训练生产流程监测数据输入至初始漂移检测模型,映射至嵌入空间得到第一嵌入表示,基于第一嵌入表示得到正训练样本对和负训练样本对;引入对比损失函数,计算训练生产流程监测数据与正训练样本对和负训练样本对的对比损失,通过反向传播更新网络的权重,最小化对比损失函数,以使嵌入表示中的正训练样本对接近,负训练样本对远离,得到更新后的网络权重参数;
重建优化模块,被配置为基于更新后的网络权重参数调整初始漂移检测模型,基于调整后的初始漂移检测模型得到第二嵌入表示,解码第二嵌入表示,得到重建数据,采用重建数据和原始训练生产流程监测数据计算重建误差,迭代优化重建误差,得到漂移异常检测模型。
实施例四
本实施例提供一种流程数据漂移检测装置,包括:
数据获取模块,被配置为获取生产流程监测数据;
异常检测模块,被配置为结合所述生产流程监测数据和训练后的漂移异常检测模型,得到漂移异常检测结果;其中,所述漂移异常检测模型的训练过程包括:
将所述训练生产流程监测数据输入至初始漂移检测模型,映射至嵌入空间得到第一嵌入表示,基于第一嵌入表示得到正训练样本对和负训练样本对;
引入对比损失函数,计算训练生产流程监测数据与正训练样本对和负训练样本对的对比损失,通过反向传播更新网络的权重,最小化对比损失函数,以使嵌入表示中的正训练样本对接近,负训练样本对远离,得到更新后的网络权重参数;
基于更新后的网络权重参数调整初始漂移检测模型,基于调整后的初始漂移检测模型得到第二嵌入表示,解码第二嵌入表示,得到重建数据,采用重建数据和原始训练生产流程监测数据计算重建误差,迭代优化重建误差,得到漂移异常检测模型。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种流程数据漂移检测模型训练方法,其特征在于,包括如下步骤:
获取训练生产流程监测数据;具体为:通过生产流程线上的传感器,获取流程相关的监控数据,包括正常生产操作期间的数据,按分钟或小时为单位以时序的形式存储,生成监控数据的二维矩阵,并对数据进行预处理,得到的一组时序二维矩阵作为训练流程数据集;
将所述训练生产流程监测数据输入至初始漂移检测模型,映射至嵌入空间得到第一嵌入表示,基于第一嵌入表示得到正训练样本对和负训练样本对;具体为:从所述获取训练生产流程监测数据中处理完毕的数据集随机选择一条锚点数据、一条正样本、一条负样本输入至输入层传入孪生自编码器中,传入的数据被输入到编码器,映射为低维嵌入空间上的第一嵌入表示;随机选择三条数据,其中一条作为锚点数据,其余两条与锚点数据进行数据分布比较,将锚点数据为待对比的数据,正样本为数据分布与锚点数据更为接近的样本数据,负样本为数据分布与锚点数据更不接近的样本数据;
引入对比损失函数,计算训练生产流程监测数据与正训练样本对和负训练样本对的对比损失,通过反向传播更新网络的权重,最小化对比损失函数,以使嵌入表示中的正训练样本对接近,负训练样本对远离,得到更新后的网络权重参数;具体为:引入对比损失函数,计算锚点与正样本、锚点与负样本的对比损失,以此为锚点与正负样本间的相似性距离,并通过反向传播来更新网络权重以最小化对比损失函数,使嵌入表示中的正样本更接近,负样本更远离,对比损失函数公式如下:,,其中,/>表示锚点数据与正样本之间的余弦相似性距离,/>表示锚点数据与负样本之间的余弦相似性距离,/>是一个控制正样本和负样本之间距离差异的超参数;
基于更新后的网络权重参数调整初始漂移检测模型,基于调整后的初始漂移检测模型得到第二嵌入表示,解码第二嵌入表示,得到重建数据,采用重建数据和原始训练生产流程监测数据计算重建误差,迭代优化重建误差,得到漂移异常检测模型;
所述漂移异常检测模型采用孪生自编码器,采用了两个相同结构的自编码器,它们共享相同的权重和架构,一个处理正训练样本对,一个处理负训练样本对,通过共享权重,使正训练样本对和负训练样本对之间的编码和解码过程一致。
2.如权利要求1所述的一种流程数据漂移检测模型训练方法,其特征在于,所述方法还包括:将新获取的生产流程监测数据输入至漂移异常检测模型,根据新获取的生产流程监测数据与正训练样本对和负训练样本对的相似性距离,判断新获取的生产流程监测数据与原始的训练生产流程监测数据相比分布是否一致,若不一致,则说明新获取的生产流程监测数据存在数据漂移现象。
3.如权利要求1所述的一种流程数据漂移检测模型训练方法,其特征在于,所述方法还包括:通过设置阈值,若训练生产流程监测数据与负样本之间的相似性距离是否低于阈值,若低于阈值,说明该数据是漂移数据中的异常数据,发出异常警报。
4.如权利要求1所述的一种流程数据漂移检测模型训练方法,其特征在于,所述漂移异常检测模型采用孪生自编码器,采用了两个相同结构的自编码器,两个相同结构的自编码器共享相同的权重和架构,一个处理正训练样本对,一个处理负训练样本对,通过共享权重,使正训练样本对和负训练样本对之间的编码和解码过程一致。
5.一种流程数据漂移检测方法,利用如权利要求1所述的一种流程数据漂移检测模型训练方法实现,其特征在于,包括如下步骤:
获取生产流程监测数据;
结合所述生产流程监测数据和训练后的漂移异常检测模型,得到漂移异常检测结果;其中,所述漂移异常检测模型的训练过程包括:
将所述训练生产流程监测数据输入至初始漂移检测模型,映射至嵌入空间得到第一嵌入表示,基于第一嵌入表示得到正训练样本对和负训练样本对;
引入对比损失函数,计算训练生产流程监测数据与正训练样本对和负训练样本对的对比损失,通过反向传播更新网络的权重,最小化对比损失函数,以使嵌入表示中的正训练样本对接近,负训练样本对远离,得到更新后的网络权重参数;
基于更新后的网络权重参数调整初始漂移检测模型,基于调整后的初始漂移检测模型得到第二嵌入表示,解码第二嵌入表示,得到重建数据,采用重建数据和原始训练生产流程监测数据计算重建误差,迭代优化重建误差,得到漂移异常检测模型。
6.如权利要求5所述的一种流程数据漂移检测方法,其特征在于,获取生产流程监测数据后,对数据进行预处理,包括缺失数据补全处理和归一化处理。
7.如权利要求5所述的一种流程数据漂移检测方法,其特征在于,获取生产流程监测数据后,将数据按照分钟或小时为单位以时序的形式存储,生成监控数据的二维矩阵,并对数据进行预处理,将得到的一组时序二维矩阵作为流程数据集。
8.如权利要求5所述的一种流程数据漂移检测方法,其特征在于,所述漂移异常检测模型采用孪生自编码器,采用了两个相同结构的自编码器,它们共享相同的权重和架构,一个处理正训练样本对,一个处理负训练样本对,通过共享权重,使正训练样本对和负训练样本对之间的编码和解码过程一致。
9.一种流程数据漂移异常检测模型训练装置,利用如权利要求1所述的一种流程数据漂移检测模型训练方法实现,其特征在于,包括:
训练数据获取模块,被配置为获取训练生产流程监测数据;
网络更新模块,被配置为将所述训练生产流程监测数据输入至初始漂移检测模型,映射至嵌入空间得到第一嵌入表示,基于第一嵌入表示得到正训练样本对和负训练样本对;引入对比损失函数,计算训练生产流程监测数据与正训练样本对和负训练样本对的对比损失,通过反向传播更新网络的权重,最小化对比损失函数,以使嵌入表示中的正训练样本对接近,负训练样本对远离,得到更新后的网络权重参数;
重建优化模块,被配置为基于更新后的网络权重参数调整初始漂移检测模型,基于调整后的初始漂移检测模型得到第二嵌入表示,解码第二嵌入表示,得到重建数据,采用重建数据和原始训练生产流程监测数据计算重建误差,迭代优化重建误差,得到漂移异常检测模型。
10.一种流程数据漂移异常检测装置,利用如权利要求1所述的一种流程数据漂移检测模型训练方法实现,其特征在于,包括:
数据获取模块,被配置为获取生产流程监测数据;
异常检测模块,被配置为结合所述生产流程监测数据和训练后的漂移异常检测模型,得到漂移异常检测结果;其中,所述漂移异常检测模型的训练过程包括:
将所述训练生产流程监测数据输入至初始漂移检测模型,映射至嵌入空间得到第一嵌入表示,基于第一嵌入表示得到正训练样本对和负训练样本对;
引入对比损失函数,计算训练生产流程监测数据与正训练样本对和负训练样本对的对比损失,通过反向传播更新网络的权重,最小化对比损失函数,以使嵌入表示中的正训练样本对接近,负训练样本对远离,得到更新后的网络权重参数;
基于更新后的网络权重参数调整初始漂移检测模型,基于调整后的初始漂移检测模型得到第二嵌入表示,解码第二嵌入表示,得到重建数据,采用重建数据和原始训练生产流程监测数据计算重建误差,迭代优化重建误差,得到漂移异常检测模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410043837.8A CN117556365B (zh) | 2024-01-12 | 2024-01-12 | 一种流程数据漂移检测模型训练、漂移检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410043837.8A CN117556365B (zh) | 2024-01-12 | 2024-01-12 | 一种流程数据漂移检测模型训练、漂移检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117556365A CN117556365A (zh) | 2024-02-13 |
CN117556365B true CN117556365B (zh) | 2024-04-09 |
Family
ID=89816975
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410043837.8A Active CN117556365B (zh) | 2024-01-12 | 2024-01-12 | 一种流程数据漂移检测模型训练、漂移检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117556365B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020191980A1 (zh) * | 2019-03-22 | 2020-10-01 | 江南大学 | 一种无线传感网络数据漂移盲校准方法 |
US11227192B1 (en) * | 2021-06-04 | 2022-01-18 | Booz Allen Hamilton Inc. | System and method for data drift detection |
CN114897047A (zh) * | 2022-04-02 | 2022-08-12 | 西安交通大学 | 基于深度字典的多传感器数据漂移检测方法 |
CN115878877A (zh) * | 2022-10-11 | 2023-03-31 | 杭州电子科技大学 | 基于概念漂移的航空服务器访问爬虫的可视检测方法 |
CN116032557A (zh) * | 2022-12-09 | 2023-04-28 | 清华大学 | 一种网络安全异常检测中深度学习模型的更新方法与装置 |
CN116170212A (zh) * | 2023-02-22 | 2023-05-26 | 四川警察学院 | 一种对抗概念漂移的IoT恶意流量检测装置 |
CN116308304A (zh) * | 2023-05-24 | 2023-06-23 | 山东建筑大学 | 基于元学习概念漂移检测的新能源智慧运维方法及系统 |
CN116306793A (zh) * | 2023-02-28 | 2023-06-23 | 厦门大学 | 一种基于对比孪生网络的具有目标任务指向性的自监督学习方法 |
WO2023123941A1 (zh) * | 2021-12-31 | 2023-07-06 | 深圳前海微众银行股份有限公司 | 一种数据异常检测方法及装置 |
CN116502646A (zh) * | 2023-03-09 | 2023-07-28 | 国家电网有限公司大数据中心 | 一种语义漂移检测方法、装置、电子设备及存储介质 |
CN117079665A (zh) * | 2023-07-03 | 2023-11-17 | 浙江理工大学 | 基于孪生注意力对抗网络的工业设备异常声信号检测方法及系统 |
-
2024
- 2024-01-12 CN CN202410043837.8A patent/CN117556365B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020191980A1 (zh) * | 2019-03-22 | 2020-10-01 | 江南大学 | 一种无线传感网络数据漂移盲校准方法 |
US11227192B1 (en) * | 2021-06-04 | 2022-01-18 | Booz Allen Hamilton Inc. | System and method for data drift detection |
WO2023123941A1 (zh) * | 2021-12-31 | 2023-07-06 | 深圳前海微众银行股份有限公司 | 一种数据异常检测方法及装置 |
CN114897047A (zh) * | 2022-04-02 | 2022-08-12 | 西安交通大学 | 基于深度字典的多传感器数据漂移检测方法 |
CN115878877A (zh) * | 2022-10-11 | 2023-03-31 | 杭州电子科技大学 | 基于概念漂移的航空服务器访问爬虫的可视检测方法 |
CN116032557A (zh) * | 2022-12-09 | 2023-04-28 | 清华大学 | 一种网络安全异常检测中深度学习模型的更新方法与装置 |
CN116170212A (zh) * | 2023-02-22 | 2023-05-26 | 四川警察学院 | 一种对抗概念漂移的IoT恶意流量检测装置 |
CN116306793A (zh) * | 2023-02-28 | 2023-06-23 | 厦门大学 | 一种基于对比孪生网络的具有目标任务指向性的自监督学习方法 |
CN116502646A (zh) * | 2023-03-09 | 2023-07-28 | 国家电网有限公司大数据中心 | 一种语义漂移检测方法、装置、电子设备及存储介质 |
CN116308304A (zh) * | 2023-05-24 | 2023-06-23 | 山东建筑大学 | 基于元学习概念漂移检测的新能源智慧运维方法及系统 |
CN117079665A (zh) * | 2023-07-03 | 2023-11-17 | 浙江理工大学 | 基于孪生注意力对抗网络的工业设备异常声信号检测方法及系统 |
Non-Patent Citations (4)
Title |
---|
CSLT: Contourlet-Based Siamese Learning Tracker for Dim and Small Targets in Satellite Videos;Yinan Wu et.al;《IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING》;20231019;第61卷;第1-13页 * |
基于ResNet深度神经网络的异常检测模型;郑非凡;;网络新媒体技术;20200315(02);第20-26页 * |
基于机器学习的时间序列分析与应用研究;丁奉乾;《中国优秀硕士学位论文全文数据库 (基础科学辑)》;20230215;第A002-1318页 * |
工控通信行为的自编码特征降维和双轮廓模型异常检测方法;尚文利;闫腾飞;赵剑明;乔枫;曾鹏;;小型微型计算机系统;20180715(07);第31-35页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117556365A (zh) | 2024-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111914873B (zh) | 一种两阶段云服务器无监督异常预测方法 | |
CN116300691B (zh) | 一种多轴联动数控加工的状态监测方法及系统 | |
CN111780800B (zh) | 一种传感器故障的监测、隔离以及重构方法和系统 | |
CN112101554B (zh) | 异常检测方法及装置、设备、计算机可读存储介质 | |
CN112766429B (zh) | 一种异常检测的方法、装置、计算机设备和介质 | |
CN112987675A (zh) | 一种异常检测的方法、装置、计算机设备和介质 | |
CN112284440B (zh) | 一种传感器数据偏差自适应修正方法 | |
CN110728320B (zh) | 一种基于自编码和聚类结合的水质监测预警方法及系统 | |
CN114239377A (zh) | 一种城轨机电设备健康状态评估方法、系统及存储介质 | |
CN113419519B (zh) | 基于宽度学习的机电产品系统或设备实时故障诊断方法 | |
CN113987908A (zh) | 基于机器学习方法的天然气管网泄漏预警方法 | |
CN115184054A (zh) | 机械设备半监督故障检测分析方法、装置、终端及介质 | |
CN114611409B (zh) | 一种配电终端异常检测模型的建立方法及装置 | |
CN116910677A (zh) | 一种工业仪表故障诊断方法及系统 | |
CN114861774A (zh) | 一种电网中虚假数据识别方法及系统 | |
CN116148656A (zh) | 一种便携式模拟断路器故障检测方法 | |
CN117556365B (zh) | 一种流程数据漂移检测模型训练、漂移检测方法及装置 | |
CN117724935A (zh) | 一种软件系统多指标异常检测方法及系统 | |
CN116738297B (zh) | 一种基于深度自编码的糖尿病分型方法和系统 | |
CN116384949B (zh) | 一种基于数字化管理的智慧政务信息数据管理系统 | |
CN117114248A (zh) | 一种水质监测系统健康度评价方法、计算机设备及介质 | |
CN116738305A (zh) | 一种基于lstm自编码器的数据中心异常状态检测方法 | |
CN115878978A (zh) | 一种工业移动机器人周期特征信号异常检测方法 | |
CN112069724B (zh) | 一种基于长短时记忆自编码器的火箭健康度评估方法 | |
CN114186583A (zh) | 一种储油罐罐壁腐蚀检测异常信号恢复方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |