CN114580534A - 一种工业数据异常检测方法、装置、电子设备和存储介质 - Google Patents

一种工业数据异常检测方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN114580534A
CN114580534A CN202210209643.1A CN202210209643A CN114580534A CN 114580534 A CN114580534 A CN 114580534A CN 202210209643 A CN202210209643 A CN 202210209643A CN 114580534 A CN114580534 A CN 114580534A
Authority
CN
China
Prior art keywords
data
neural network
model
training
judgment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210209643.1A
Other languages
English (en)
Inventor
杜百岗
张富江
郭钧
周圣文
江鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN202210209643.1A priority Critical patent/CN114580534A/zh
Publication of CN114580534A publication Critical patent/CN114580534A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本申请公开了一种工业数据异常检测方法、装置、电子设备和存储介质,该方法包括:获取工业设备历史运行数据,根据历史运行数据得到训练数据集,将训练数据集划分为第一训练集和第二训练集;创建初始分类模型和初始神经网络判断模型;将第一、第二训练集分别输入到初始分类模型和初始神经网络判断模型中进行训练,得到训练完备的分类模型和训练完备的神经网络判断模型;获取实时工业运行数据,并分别输入到训练完备的分类模型和神经网络判断模型中,判断所述实时工业运行数据是否异常。本发明提高了对工业数据异常判断的鲁棒性和精准性,在有效判断异常数据的同时,还完成了对数据的重构,具有数据清洗能力,降低了误报率,提高了生产效率。

Description

一种工业数据异常检测方法、装置、电子设备和存储介质
技术领域
本发明涉及工业数据检测技术领域,尤其涉及一种工业数据异常检测方法、装置、电子设备和存储介质。
背景技术
随着物联网(IOT)技术的广泛普及,工业生产过程中伴随着大量的设备运行数据产生,工业数据有着数据容量大、强相关性、闭环性等特点。由于外部环境、传感器误差与零点漂移、温度源、信号源等干扰,会导致采集到的数据产生部分异常值。如果对异常数据判断错误,会导致运行状态良好的生产设备被误判为故障设备,影响运维人员的管理工作,甚至导致整个生产线大范围宕机。因此,对异常数据进行准确的判断,在工业生产过程中有着非常重要的作用。
目前工业数据的异常检测方法主要是通过设置阈值的方式直接检测异常点,或者使用3sigma法则或箱型图的方法筛选异常值。通过此类基于统计的异常检测算法能够有效的确定离群点异常,但是针对时序异常以及状态异常等复杂情况,不具有判别能力。此外,阈值的确定需要依赖于已标记数据,且已标记数据数量越多,质量越好,阈值越准确,但工业数据无法提供相当数量的已标记数据,实际应用中,正常样本的数量远远大于异常样本的数量;此外,异常数据往往能够被重构为正常数据,对异常数据进行智能清理能够减少大量设备故障警报信息,提高生产效率。
因此,现有的工业数据异常检测技术已不能满足现有工业端的应用需求,存在无法对异常数据进行重构、数据判断误差较大的问题,需要设计一种工业数据异常检测方法以解决上述问题。
发明内容
有鉴于此,有必要提供一种工业数据异常检测方法、装置、电子设备和计算机可读存储设备,用以解决现有技术中无法对异常数据进行重构、数据判断误差较大的问题。
为了解决上述问题,本发明提供一种工业数据异常检测方法,包括:
获取工业设备历史运行数据,根据所述历史运行数据得到训练数据集,将所述训练数据集划分为第一训练集和第二训练集;
创建初始分类模型和初始神经网络判断模型;
将所述第一训练集输入到所述初始分类模型中进行训练,将所述第二训练集输入到所述初始神经网络判断模型中进行训练,得到训练完备的分类模型和训练完备的神经网络判断模型;
获取实时工业运行数据,将所述实时工业运行数据分别输入到所述训练完备的分类模型和神经网络判断模型中,判断所述实时工业运行数据是否异常。
进一步地,将所述实时工业运行数据分别输入到所述训练完备的分类模型和神经网络判断模型中,判断所述实时工业运行数据是否异常,包括:
将所述实时工业运行数据分别输入到所述训练完备的分类模型和神经网络判断模型中,得到模型分类结果和模型判断结果;
对所述模型分类结果和模型判断结果进行逻辑运算,得到最终判断结果;
根据所述最终判断结果,判断所述实时工业运行数据是否异常。
进一步地,将所述实时工业运行数据输入到所述神经网络判断模型中得到模型判断结果,包括:
将所述实时工业运行数据输入到所述神经网络判断模型中,判断所述实时工业运行数据是否满足异常数据判断条件;
当所述实时工业运行数据满足所述异常数据判断条件时,确定所述实时工业运行数据为待处理数据;
利用所述神经网络判断模型对所述待处理数据进行数据重构,得到重构运行数据;
根据所述实时工业运行数据和所述重构运行数据,得到模型判断结果。
进一步地,所述初始神经网络判断模型基于全连接网络建立,包括扩散神经网络、生成神经网络、条件辅助神经网络、稀疏降维神经网络和稀疏生成神经网络;
所述扩散神经网络与所述稀疏降维神经网络并行设置;
所述扩散神经网络、生成神经网络、稀疏降维神经网络和稀疏生成神经网络均与所述条件辅助网络逻辑连接;
所述生成网络与所述扩散网络、所述稀疏生成网络逻辑连接;
所述稀疏生成网络和所述稀疏降维神经网络逻辑连接。
进一步地,将所述第二训练集输入到所述初始神经网络判断模型中进行训练,得到训练完备的神经网络判断模型,包括:
判断训练后的神经网络判断模型是否达到预设的性能标准;如果达到所述预设的性能标准,则输出所述神经网络判断模型为训练完备的神经网络判断模型,并得到异常数据判断条件。
进一步地,利用第一预设算法对所述历史运行数据进行归一化处理,得到训练数据集。
进一步地,将所述第一训练集输入到所述初始分类模型中进行训练,包括:
构建所述初始分类模型的优化目标函数;
利用第二预设算法和所述训练数据集对所述优化目标函数进行求解,得到所述优化目标函数的最优解。
本发明还提供一种工业数据异常检测装置,包括:
训练集获取模块,获取工业设备历史运行数据,根据所述历史运行数据得到训练数据集,将所述训练数据集划分为第一训练集和第二训练集;
模型创建模块,用于创建初始分类模型和初始神经网络判断模型;
模型训练模块,用于将所述第一训练集输入到所述初始分类模型中进行训练,将所述第二训练集输入到所述初始神经网络判断模型中进行训练,得到训练完备的分类模型和训练完备的神经网络判断模型;
数据判断模块,用于获取实时工业运行数据,将所述实时工业运行数据分别输入所述训练完备的分类模型和神经网络判断模型中,判断所述实时工业运行数据是否异常。
本发明还提供一种电子设备,包括处理器以及存储器,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时,实现如上述任一技术方案所述的一种工业数据异常检测方法。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机该程序被处理器执行时,实现如上述任一技术方案所述的一种工业数据异常检测方法。
与现有技术相比,本发明的有益效果包括:本发明的方法首先根据工业设备的历史运行数据得到第一、第二训练集,利用第一、第二训练集分别对初始分类模型和初始神经网络判断模型进行训练,得到训练完备的分类模型和神经网络判断模型。本发明根据工业设备运行数据的特点,创建了初始分类模型和初始神经网络判断模型,利用由历史工业设备运行数据得到的训练集对两个模型进行训练,得到训练完备的分类模型和神经网络判断模型,构建出了工业大数据的异常检测的框架,大大提高了对工业数据异常判断的鲁棒性和精准性。本发明通过设计自编码架构的神经网络判断模型,在有效判断异常数据的同时,还完成了对异常数据的重构,具有数据清洗能力,降低了误报率,提高了工业生产效率。
附图说明
图1为本发明提供的一种工业数据异常检测方法一实施例的流程示意图;
图2为本发明提供的神经网络判断模型一实施的结构示意图;
图3为本发明提供的工业数据异常检测具体算法一实施例的流程示意图;
图4为本发明提供的神经网络判断模型一实施例的整体平均损失函数图;
图5为本发明提供的一种工业数据异常检测装置的结构示意图;
图6为本发明提供的电子设备一实施例的结构框图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
本发明提供了一种工业数据异常检测方法、装置、电子设备及计算机可读存储介质,以下分别进行详细说明。
本发明实施例提供了一种工业数据异常检测方法,其流程示意图如图1所示,包括:
步骤S101、获取工业设备历史运行数据,根据所述历史运行数据得到训练数据集,将所述训练数据集划分为第一训练集和第二训练集;
步骤S102、创建初始分类模型和初始神经网络判断模型;
步骤S103、将所述第一训练集输入到所述初始分类模型中进行训练,将所述第二训练集输入到所述初始神经网络判断模型中进行训练,得到训练完备的分类模型和训练完备的神经网络判断模型;
步骤S104、获取实时工业运行数据,将所述实时工业运行数据分别输入到所述训练完备的分类模型和神经网络判断模型中,判断所述实时工业运行数据是否异常。
与现有技术相比,本实施例提供的一种工业数据异常检测方法,根据工业设备运行数据的特点,创建了初始分类模型和初始神经网络判断模型,利用由历史工业设备运行数据得到的训练集对两个模型进行训练,得到训练完备的分类模型和神经网络判断模型,构建出了工业大数据的异常检测的框架,大大提高了对工业数据异常判断的鲁棒性和精准性。本发明通过设计自编码架构的神经网络判断模型,在有效判断异常数据的同时,还完成了对异常数据的重构,具有数据清洗能力,降低了误报率,提高了工业生产效率。
作为一个具体的实施例,步骤S101中,所述工业设备历史运行数据从SCADA或DCS系统中采集;所述工业设备历史运行数据包括大量工业设备历史运行正常数据,以及少量被设置有异常标签的运行数据;本实施例的方法充分利用了真实的工业设备历史运行数据,不需要依赖于大量已标记为异常数据的样本来提高模型的判断精度。
作为优选的实施例,根据所述历史运行数据得到训练数据集,包括:
利用第一预设算法对所述历史运行数据进行归一化处理,得到训练数据集。
作为一个具体的实施例,将训练数据集划分为Data A和Data B,其中Data A为正常数据与异常数据样本数量均衡的数据集;Data B为不含异常数据的数据集。将Data A数据的正常/异常标签特征作为二分类目标,划分为训练集A-1和测试集A-2。通过训练集DataA对初始分类模型进行训练,通过Data B对初始神经网络判断模型进行训练。因此,对于神经网络判断模型的训练并不需要大量的已标记数据。
作为一个具体的实施例,所述第一预设算法为MinMax归一化处理。MinMax的数据归一化方式在具体应用时采用自定义MinMax归一化函数,先基于
Figure BDA0003530493180000071
原理,获取每一维度特征的
Figure BDA0003530493180000072
值,以最大和最小
Figure BDA0003530493180000073
值作为最大值和最小值,对该维度特征进行归一化处理。
作为优选的实施例,在步骤S102中,所述初始神经网络判断模型基于全连接网络建立,所述初始神经网络判断模型包括扩散神经网络、生成神经网络、条件辅助神经网络、稀疏降维神经网络和稀疏生成神经网络;
所述扩散神经网络与所述稀疏降维神经网络并行设置;
所述扩散神经网络、生成神经网络、稀疏降维神经网络和稀疏生成神经网络均与所述条件辅助网络逻辑连接;
所述生成网络与所述扩散网络、所述稀疏生成网络逻辑连接;
所述稀疏生成网络和所述稀疏降维神经网络逻辑连接。
本实施例的神经网络判断模型采用AE自编码架构,在有效判断异常样本的同时,能够对异常样本重构,使得所述神经网络判断模型具有数据清洗能力。利用多层神经网络并联方式拓展了模型的稳定性,并且将标签数据输入神经网络,能够较好的防止神经网络过拟合,有利于激活更多的神经元,可在不加深神经网络深度和宽度的同时,提高网络性能。
作为优选的实施例,在步骤S103中,将所述第二训练集输入到所述初始神经网络判断模型中进行训练,得到训练完备的神经网络判断模型,包括:
判断训练后的神经网络判断模型是否达到预设的性能标准;如果达到所述预设的性能标准,则输出所述神经网络判断模型为训练完备的神经网络判断模型,并得到异常数据判断条件。
作为一个具体的实施例,当神经网络判断模型训练收敛后,停止训练,得到训练完备的神经网络判断模型。将收敛后的最后一次训练Loss作为判断数据是否异常的判断阈值。所述判断模型能够根据神经网络训练过程产生的数据自动定义判断异常的误差阈值,使用自动调节的阈值作为神经网络判断模型的输入数据是否异常的依据。
作为一个具体的实施例,如图2所示,图2为所述神经网络判断模型的结构示意图,构建的双神经网络并联结构:扩散网络和稀疏降维网络。将训练数据分别输入所述扩散网络和所述稀疏降维网络,得到处理结果R1数据和R2数据,将R1数据和R2数据输入到条件辅助网络中。
条件辅助网络将R1数据和R2数据进行数乘矩阵运算,得到运算结果R3数据,根据异常数据判断阈值得到R3数据的分类标签信息(Label),将分类标签信息与R3数据进行融合,得到R4数据。
所述条件辅助网络的输出R4数据与扩散网络的输出R1数据融合后输入生成网络,得到R5数据;R4数据与稀疏降维网络的输出R2数据融合后输入稀疏生成网络,得到R6数据;将R5数据与R6数据的对应特征取平均值得到重构数据。
采用均方根误差(RMSE)与分类误差、交叉熵结合的方式作为重构误差,重构数据作为神经网络前向传播的运算结果,与原始数据进行比对,计算Loss值,反向传播。以RMSE作为优化目标对神经网络判断模型为训练目标。获取训练收敛后最后一次训练Loss作为判断数据是否为异常数据的阈值。
作为优选的实施例,步骤S103中,将所述第一训练集输入到所述初始分类模型中进行训练,包括:
构建所述初始分类模型的优化目标函数;
利用第二预设算法和所述训练数据集对所述优化目标函数进行求解,得到所述优化目标函数的最优解。
作为一个具体的实施例,所述初始分类模型基于XGBOOST构建;使用运算效率更高的XGBOOST作为监督学习算法,降低模型的时间复杂度。
首先,对XGBOOST的各参数进行设置:
将XGBOOST的通用参数设置为:
'booster':'gbtree','nthread':4,'num_feature':4,'seed':1000;
将XGBOOST的任务参数设置为:
'objective':'binary:logistic','gamma':0.1,'max_depth':20,'lambda':2,'subsampl e':0.8,'colsample_bytree':1,'min_child_weight':3,'eta':0.001,'nthread':2,'eval_metr ic':'error';
其次,采用网格超参数搜索(CV)的方式对关键性参数搜索,对XGBOOST超参数进行调整,以获得效果最好的分类模型;
将Data A输入初始分类模型中,使用K折交叉验证训练集Data A;
作为一个具体的实施例,所述第二预设算法具体的求解过程如下:
建立最优模型的最小化训练集的损失函数,即公式(1):
Figure BDA0003530493180000091
其中,J(f)表示模型的复杂度,λ为复杂度系数,M代表所有样本数,L为损失函数loss的代称,yk代表目标值,f(xk)代表预测值。本实施例分类模型的优化目标函数由损失函数和表示模型复杂度的正则项两部分构成,并且分类模型中包含了多个CART树,表示为:
Figure BDA0003530493180000092
其中,objective表示优化目标函数值,L表示损失函数,
Figure BDA0003530493180000093
表示由J棵树的正则化项相加得来,yk表示目标值,
Figure BDA0003530493180000094
表示与yk渐进相等。由前向分步算法可知,前t-1棵树的结构为常数Constant,可以得到:
Figure BDA0003530493180000095
在忽略了常数项Constant,并经过一系列泰勒级数展开后,结合多棵CART树的复杂度公式(4),可推导出公式(5):
Figure BDA0003530493180000101
Figure BDA0003530493180000102
在公式(4)中,T为叶子节点的个数,||w||为叶子节点向量的模,γ为节点切分的难度,λ为正则化系数。在公式(5)中,函数gk和hk用来表示损失函数L与预测值的f(xk)的数学关系。
对于CART树,我们用q(x)表示输出的叶子节点序号,则wq(x)表示该输出值,即:
fk(x)=wq(x) (6)
进一步简化式(5)得:
Figure BDA0003530493180000103
可见,式(7)中第一部分是所有训练集样本的累加求和,此时可以把所有样本看作是叶子节点的映射。
如果从叶子节点出发,进行累加,可得:
Figure BDA0003530493180000104
Figure BDA0003530493180000105
Gj、Hj分别表示叶子节点j的所有输入样本的一阶导之和和二阶导之和,代入式(8),得
Figure BDA0003530493180000106
对于第t棵树的结构,叶子节点是相互独立的,即Gj与Hj为确定量,因此式(10)可以看做是w的一元二次方程,求导后得:
Figure BDA0003530493180000111
这里的
Figure BDA0003530493180000112
可以看作是最小值,代入式(11)得到最终的目标函数:
Figure BDA0003530493180000113
式(12)也被称作打分函数,可以用来衡量CART树结构的好坏,该值越小,树的结构越好。
作为优选的实施例,在步骤S104中,将所述实时工业运行数据分别输入到所述训练完备的分类模型和神经网络判断模型中,判断所述实时工业运行数据是否异常,包括:
将所述实时工业运行数据分别输入到所述训练完备的分类模型和神经网络判断模型中,得到模型分类结果和模型判断结果;
对所述模型分类结果和模型判断结果进行逻辑运算,得到最终判断结果;
根据所述最终判断结果,判断所述实时工业运行数据是否异常。
作为一个具体的实施例,对所述模型分类结果和模型判断结果进行与或逻辑运算。例如:当所述模型分类结果和所述模型判断结果均为数据异常时,确定所述实时工业运行数据为异常数据;当所述模型分类结果为数据异常、所述模型判断结果为正常时,确定所述实时工业运行数据为数据正常。
作为优选的实施例,将所述实时工业运行数据输入到所述神经网络判断模型中得到模型判断结果,包括:
将所述实时工业运行数据输入到所述神经网络判断模型中,判断所述实时工业运行数据是否满足异常数据判断条件;
当所述实时工业运行数据满足所述异常数据判断条件时,确定所述实时工业运行数据为待处理数据;
利用所述神经网络判断模型对所述待处理数据进行数据重构,得到重构运行数据。
作为一个具体的实施例,工业数据的判断过程为:
将采集到的原始数据分别输入到分类模型和神经网络判断模型中;
所述分类模型和所述神经网络判断模型对原始数据进行判断;
将神经网络判断模型与分类模型的分类结果进行逻辑与或运算,并将运算后的结果作为原始数据异常与否的判别结果。当所述模型分类结果和所述模型判断结果均为数据异常时,确定所述实时工业运行数据为异常数据;当所述模型分类结果为数据异常、所述模型判断结果为正常时,确定所述实时工业运行数据为数据正常。
其中,所述神经网络判断模型的判断方法为:
判断原始数据是否存在异常;如果原始数据通过神经网络判断模型无异常,则直接采集原始数据,并将该数据存入历史数据库,实时更新神经网络判断模型;如果原始数据为异常数据,则对原始数据进行重构,并且将重构后数据作为处理后的数据进行采集,并通过神经网络判断模型对重构数据进行判断,得到模型判断结果。
下面结合图3以一个具体的应用实施例来对本方案进行详细说明:
本实施例通过采集真实的工业数据作为实验数据,搭建分类模型和神经网络判断模型,对上述技术方案的方法进行进一步的详细说明,同时也对技术方案的有效性进行了验证。
步骤S201:获取原始数据,此处采用超带宽(UWB)室内定位数据集,其中的异常为环境遮挡而导致的数据异常;
步骤S202:将数据集划分为Data A和Data B,其中Data A为正常数据与异常数据样本数量均衡的数据集,Data B为不含异常数据的数据集。数据集的划分如表1所示:
表1
Figure BDA0003530493180000131
步骤S203:构建基于XGBOOST的异常分类模型,采用网格超参数搜索的方式,对XGBOOST超参数进行调整,获得最好分类效果的模型;
步骤S204:设置XGBoost的参数,其中包括常规参数(General Parameters)、模型参数(Booster Parameters)和学习任务参数(Learning Task Parameters),本实施例对shrinkage参数eta和num_boost_round这两个超参数进行网格搜索调优。eta指学习率,用于更新叶子节点权重时,乘以该系数,避免步长过大。参数值越大,越可能无法收敛,在XGBoost方法中默认值为0.3。num_boost_round指提升迭代的基准树个数,用于控制迭代次数。其他参数的设置如表2所示;
表2
Figure BDA0003530493180000132
Figure BDA0003530493180000141
步骤S205:将Data A数据的正常/异常标签特征作为二分类目标,划分训练集和测试集,并对训练集和测试集的输入数据做MinMax归一化处理。此处使用pandas先对每个特征做分组,然后对每个分组采用自定义求取
Figure BDA0003530493180000142
值,求得最大值和最小值,以该最大值和最小值对每个维度做归一化处理。利用归一化处理后的Data A数据对所述基于XGBOOST的异常分类模型进行训练,得到训练完备的分类模型;
步骤S206:构建如图2所示的条件稀疏扩散自编码神经网络(CSSAE),其中包含五部分神经网络,分别是:扩散神经网络、生成神经网络、条件辅助神经网络、稀疏降维神经网络、稀疏生成神经网络;
步骤S207:将Data B数据进行MinMax归一化(方法同步骤S205);利用所述Data B数据对所述CSSAE网络进行训练,如图4所示,图4为本实施例中所述神经网络判断模型的整体平均损失函数;
步骤S208:获取训练收敛后(即训练完成后)最后一次训练Loss作为判断数据是否为异常数据的阈值;
步骤S209:将实时工业数据分别输入CSSAE和XGBOOST中,分别得到初步分析结果和模型分类结果;
步骤S210:如果实时工业数据经过CSSAE后的初步分析结果误差小于等于阈值,模型判断结果为数据正常,进入步骤S212;如果初步分析结果大于阈值,进入步骤S211;
步骤S211:对实时工业数据重构后的重构数据作为处理后的数据进行采集,判断数据的重构误差是否大于阈值,如果重构误差小于阈值,则模型判断结果为数据正常,并将实时工业数据存入历史数据库,实时更新CSSAE神经网络;如果重构误差大于阈值,则模型判断结果为数据异常;
步骤S212:将CSSAE的模型判断结果与XGBOOST的分类结果进行逻辑与或运算,并将运算后的结果作为数据异常与否的判别结果。
本发明实施例提供了一种工业数据异常检测装置,其结构框图如图5所示,所述一种工业数据异常检测装置500,包括:
训练集获取模块501,获取工业设备历史运行数据,根据所述历史运行数据得到训练数据集,将所述训练数据集划分为第一训练集和第二训练集;
模型创建模块502,用于创建初始分类模型和初始神经网络判断模型;
模型训练模块503,用于将所述第一训练集输入到所述初始分类模型中进行训练,将所述第二训练集输入到所述初始神经网络判断模型中进行训练,得到训练完备的分类模型和训练完备的神经网络判断模型;
数据判断模块504,用于获取实时工业运行数据,将所述实时工业运行数据分别输入所述训练完备的分类模型和神经网络判断模型中,判断所述实时工业运行数据是否异常。
如图6所示,上述的一种工业数据异常检测方法,本发明还相应提供了一种电子设备600,该电子设备可以是移动终端、桌上型计算机、笔记本、掌上电脑及服务器等计算设备。该电子设备包括处理器601、存储器602及显示器603。
存储器602在一些实施例中可以是计算机设备的内部存储单元,例如计算机设备的硬盘或内存。存储器602在另一些实施例中也可以是计算机设备的外部存储设备,例如计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器602还可以既包括计算机设备的内部存储单元也包括外部存储设备。存储器602用于存储安装于计算机设备的应用软件及各类数据,例如安装计算机设备的程序代码等。存储器602还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中,存储器602上存储有一种工业数据异常检测方法程序604,该一种工业数据异常检测方法程序604可被处理器601所执行,从而实现本发明各实施例的一种工业数据异常检测方法。
处理器601在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行存储器602中存储的程序代码或处理数据,例如执行一种工业数据异常检测程序等。
显示器603在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。显示器603用于显示在计算机设备的信息以及用于显示可视化的用户界面。计算机设备的部件601-603通过系统总线相互通信。
本实施例还提供了一种计算机可读存储介质,其上存储有一种工业数据异常检测方法的程序,处理器执行程序时,实现如上所述的一种工业数据异常检测方法。
根据本发明上述实施例提供的计算机可读存储介质和计算设备,可以参照根据本发明实现如上所述的一种工业数据异常检测方法具体描述的内容实现,并具有与如上所述的一种工业数据异常检测方法类似的有益效果,在此不再赘述。
本发明公开的一种工业数据异常检测方法、装置、电子设备及计算机可读存储介质,首先根据工业设备的历史运行数据得到第一、第二训练集,利用第一、第二训练集分别对初始分类模型和初始神经网络判断模型进行训练,得到训练完备的分类模型和神经网络判断模型。
本发明根据工业设备运行数据的特点,创建了初始分类模型和初始神经网络判断模型,利用由历史工业设备运行数据得到的训练集对两个模型进行训练,得到训练完备的分类模型和神经网络判断模型,构建出了工业大数据的异常检测的框架,大大提高了对工业数据异常判断的鲁棒性和精准性。本发明通过设计自编码架构的神经网络判断模型,在有效判断异常数据的同时,还完成了对异常数据的重构,具有数据清洗能力,降低了误报率,提高了工业生产效率。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种工业数据异常检测方法,其特征在于,包括:
获取工业设备历史运行数据,根据所述历史运行数据得到训练数据集,将所述训练数据集划分为第一训练集和第二训练集;
创建初始分类模型和初始神经网络判断模型;
将所述第一训练集输入到所述初始分类模型中进行训练,将所述第二训练集输入到所述初始神经网络判断模型中进行训练,得到训练完备的分类模型和训练完备的神经网络判断模型;
获取实时工业运行数据,将所述实时工业运行数据分别输入到所述训练完备的分类模型和神经网络判断模型中,判断所述实时工业运行数据是否异常。
2.根据权利要求1所述的工业数据异常检测方法,其特征在于,将所述实时工业运行数据分别输入到所述训练完备的分类模型和神经网络判断模型中,判断所述实时工业运行数据是否异常,包括:
将所述实时工业运行数据分别输入到所述训练完备的分类模型和神经网络判断模型中,得到模型分类结果和模型判断结果;
对所述模型分类结果和模型判断结果进行逻辑运算,得到最终判断结果;
根据所述最终判断结果,判断所述实时工业运行数据是否异常。
3.根据权利要求2所述的工业数据异常检测方法,其特征在于,将所述实时工业运行数据输入到所述神经网络判断模型中得到模型判断结果,包括:
将所述实时工业运行数据输入到所述神经网络判断模型中,判断所述实时工业运行数据是否满足异常数据判断条件;
当所述实时工业运行数据满足所述异常数据判断条件时,确定所述实时工业运行数据为待处理数据;
利用所述神经网络判断模型对所述待处理数据进行数据重构,得到重构运行数据;
根据所述实时工业运行数据和所述重构运行数据,得到模型判断结果。
4.根据权利要求1所述的工业数据异常检测方法,其特征在于,所述初始神经网络判断模型基于全连接网络建立,包括扩散神经网络、生成神经网络、条件辅助神经网络、稀疏降维神经网络和稀疏生成神经网络;
所述扩散神经网络与所述稀疏降维神经网络并行设置;
所述扩散神经网络、生成神经网络、稀疏降维神经网络和稀疏生成神经网络均与所述条件辅助网络逻辑连接;
所述生成网络与所述扩散网络、所述稀疏生成网络逻辑连接;
所述稀疏生成网络和所述稀疏降维神经网络逻辑连接。
5.根据权利要求1所述的工业数据异常检测方法,其特征在于,将所述第二训练集输入到所述初始神经网络判断模型中进行训练,得到训练完备的神经网络判断模型,包括:
判断训练后的神经网络判断模型是否达到预设的性能标准;如果达到所述预设的性能标准,则输出所述神经网络判断模型为训练完备的神经网络判断模型,并得到异常数据判断条件。
6.根据权利要求1所述的工业数据异常检测方法,其特征在于,根据所述历史运行数据得到训练数据集,包括:
利用第一预设算法对所述历史运行数据进行归一化处理,得到训练数据集。
7.根据权利要求1所述的工业数据异常检测方法,其特征在于,将所述第一训练集输入到所述初始分类模型中进行训练,包括:
构建所述初始分类模型的优化目标函数;
利用第二预设算法和所述训练数据集对所述优化目标函数进行求解,得到所述优化目标函数的最优解。
8.一种工业数据异常检测装置,其特征在于,包括:
训练集获取模块,获取工业设备历史运行数据,根据所述历史运行数据得到训练数据集,将所述训练数据集划分为第一训练集和第二训练集;
模型创建模块,用于创建初始分类模型和初始神经网络判断模型;
模型训练模块,用于将所述第一训练集输入到所述初始分类模型中进行训练,将所述第二训练集输入到所述初始神经网络判断模型中进行训练,得到训练完备的分类模型和训练完备的神经网络判断模型;
数据判断模块,用于获取实时工业运行数据,将所述实时工业运行数据分别输入所述训练完备的分类模型和神经网络判断模型中,判断所述实时工业运行数据是否异常。
9.一种电子设备,其特征在于,包括处理器以及存储器,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时,实现如权利要求1-7任一所述的工业数据异常检测方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机该程序被处理器执行时,实现如权利要求1-7任一所述的工业数据异常检测方法。
CN202210209643.1A 2022-03-03 2022-03-03 一种工业数据异常检测方法、装置、电子设备和存储介质 Pending CN114580534A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210209643.1A CN114580534A (zh) 2022-03-03 2022-03-03 一种工业数据异常检测方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210209643.1A CN114580534A (zh) 2022-03-03 2022-03-03 一种工业数据异常检测方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN114580534A true CN114580534A (zh) 2022-06-03

Family

ID=81778403

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210209643.1A Pending CN114580534A (zh) 2022-03-03 2022-03-03 一种工业数据异常检测方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN114580534A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116522242A (zh) * 2023-04-28 2023-08-01 哈尔滨工程大学 一种基于扩散模型的辐射源信号开集识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116522242A (zh) * 2023-04-28 2023-08-01 哈尔滨工程大学 一种基于扩散模型的辐射源信号开集识别方法
CN116522242B (zh) * 2023-04-28 2024-01-26 哈尔滨工程大学 一种基于扩散模型的辐射源信号开集识别方法

Similar Documents

Publication Publication Date Title
CN112765896A (zh) 一种基于lstm的水处理时序数据异常检测方法
CN112381673B (zh) 一种基于数字孪生的园区用电信息分析方法及装置
CN114900346B (zh) 基于知识图谱的网络安全测试方法及系统
Lawrence et al. Explaining neural matrix factorization with gradient rollback
Dong et al. Mining data correlation from multi-faceted sensor data in the Internet of Things
Pan et al. A network traffic classification method based on graph convolution and lstm
CN114580534A (zh) 一种工业数据异常检测方法、装置、电子设备和存储介质
Zhang et al. Fpgnn: Fair path graph neural network for mitigating discrimination
CN116365519B (zh) 一种电力负荷预测方法、系统、存储介质及设备
CN115982570A (zh) 联邦学习建模的多环节自定义优化方法、装置、设备和存储介质
CN116467461A (zh) 应用于配电网的数据处理方法、装置、设备及介质
CN106816871B (zh) 一种电力系统状态相似性分析方法
Shi et al. Community detection in scientific collaborative network with bayesian matrix learning
Tarle et al. Improving classification performance of neuro fuzzy classifier by imputing missing data
Yao et al. Hierarchical structure-feature aware graph neural network for node classification
Li et al. On Testing and Evaluation of Artificial Intelligence Models
Hu et al. Graphsdh: a general graph sampling framework with distribution and hierarchy
CN116708029B (zh) 一种区块链异常节点的检测方法、系统、设备和存储介质
WO2023208136A1 (zh) 一种kpi异常检测方法、装置、设备及介质
CN117421386B (zh) 基于gis的空间数据处理方法及系统
Yang et al. Feature selection based on network maximal correlation
Bian et al. A modified expected improvement criterion for multi-objective Bayesian evolutionary optimization
Yang et al. Conflicts Resolving for Fusion of Multi-source Data
Song et al. A Novel Obejct Detection Framework for Power Equipment Recognition in Pumped Storage Power Station
Chen An Incremental Clustering Algorithm for Arbitrary Shaped in IoT Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination