CN115145899A - 一种基于制造企业数据空间的时空数据异常检测方法 - Google Patents

一种基于制造企业数据空间的时空数据异常检测方法 Download PDF

Info

Publication number
CN115145899A
CN115145899A CN202210746664.7A CN202210746664A CN115145899A CN 115145899 A CN115145899 A CN 115145899A CN 202210746664 A CN202210746664 A CN 202210746664A CN 115145899 A CN115145899 A CN 115145899A
Authority
CN
China
Prior art keywords
data
time
manufacturing
space
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210746664.7A
Other languages
English (en)
Other versions
CN115145899B (zh
Inventor
鲁仁全
任鸿儒
吴卓儒
李鸿一
程志键
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202210746664.7A priority Critical patent/CN115145899B/zh
Publication of CN115145899A publication Critical patent/CN115145899A/zh
Application granted granted Critical
Publication of CN115145899B publication Critical patent/CN115145899B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/04Manufacturing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Abstract

本发明提出了一种基于制造企业数据空间的时空数据异常检测方法,包括以下步骤:从制造企业的数据空间中获取制造业时空数据;对数据进行数据清洗操作;对清洗后的数据进行数据预处理操作;构建无监督预测模型;对模型进行迭代训练,得到最优化的基于GCN‑LSTM的预测模型;预处理后制造业时空数据作为训练好的预测模型的输入,获取该未来时刻的预测值,计算差值,对差值取绝对值;重复K次步骤S6,得到数据集,利用基于Copula的异常检测方法对差值数据集进行异常检测操作,得到实时异常检测结果。本发明可辅助制造企业及时发现时空数据中的漏洞并找到所映射的制造机器可能出现故障的时间点及原因,迅速反馈给相关部门,实现工作效率最大化。

Description

一种基于制造企业数据空间的时空数据异常检测方法
技术领域
本发明涉及制造企业数据空间和时空数据异常检测的技术与应用领域,更具体地,涉及一种基于制造企业数据空间的时空数据异常检测方法。
背景技术
在现在工业4.0的时代里,制造业的主要特征逐渐转向智能和互联,企业的运营越来越依靠信息技术。随着社会经济的快速发展,信息技术不断发展创新。随着智能制造的发展以及互联网技术的发展,制造业大数据作为贯穿整个产品生产的新的要素,在一定程度上推动了智能制造的升级。制造业在智能化的过程之中,会产生大量的制造数据,而想要实现智能制造,需要依靠大数据的技术对制造数据进行有效的分析处理,然后根据处理结果做出有利于制造业发展的决策,从而推动智能制造的发展、升级。
制造业的整个价值链和制造业产品的整个生命周期都涉及到诸多的数据,数据量的暴涨成了许多行业共同面对的严峻挑战和宝贵机遇。为了充分利用制造企业设计、制造、管理、服务过程中产生的海量数据,制造企业数据空间构建方法与技术已成为重要的基础前沿技术。在制造企业数据空间内包含了许多有关于设计、制造、管理、服务四大业务的时空数据,目前制造企业对于这类数据的有效利用率较低,没能有效结合好这类数据所带有的时间特征和空间特征来进行处理,现有的大数据处理技术大部分仅只针对时间特征来进行处理,常常忽略了其带有的空间特征,导致最终的处理效果也并不佳。因为时空数据通常映射着制造机器的运维情况,所以时空数据时空相关性的低效处理进而也降低了制造机器故障情况被检测出来的效率。
因此,急需一种可以对时空数据的时间特征和空间特征进行有效综合捕捉利用的基于制造企业数据空间的时空数据异常检测方法。
发明内容
本发明提供一种基于制造企业数据空间的时空数据异常检测方法,其目的在于弥补现有技术的缺陷,综合利用好制造业时空数据的时空相关性,提供一种可靠、高效的制造企业数据空间的时空数据异常检测方法,及时且有效地辅助制造企业检测出制造机器的故障,提供解决问题的方向及思路。
为了解决上述技术问题,实现上述目的,本发明所提供的技术方案为一种基于制造企业数据空间的时空数据异常检测方法,其特征在于,包括以下步骤:
S1、从制造企业的数据空间中获取制造业时空数据;
S2、对制造业时空数据进行数据清洗操作;
S3、对清洗后的制造业时空数据进行数据预处理操作;
S4、构建基于图卷积神经网络GCN和长短期记忆模型循环神经网络LSTM相结合的无监督预测模型;
S5、将预处理后得到的制造业时空数据投入构建的无监督预测模型中进行迭代训练,得到迭代训练后的无监督预测模型为最优化的基于GCN-LSTM的预测模型;
S6、将要预测的未来时刻之前的相邻连续T个等间隔时刻的经过预处理后的制造业时空数据作为最优化的基于GCN-LSTM的预测模型的输入,获取该未来时刻的预测值,计算该未来时刻预测值与真实值之间的差值,对差值取绝对值;
S7、根据制造企业业务需求,重复K次步骤S6,得到数据条数为K的差值数据集,利用基于Copula的异常检测方法对差值数据集进行异常检测操作,得到实时异常检测结果。
进一步地,所述制造业时空数据是指制造企业设计、制造、管理、服务四大业务中携带拓扑结构信息的多维度时间序列数据,拓扑结构信息用于映射多个制造机器设备之间的工作关联程度,多维度时间序列用于映射多个制造机器设备联动工作时在等间隔时刻内的机器设备指标信息情况。
进一步地,在步骤S1中,所述制造业时空数据记录到基于Python编程语言进行数据处理操作的软件Pycharm中。
进一步地,所述步骤S2包括:
S21、信息缺失制造业时空数据的清洗,用于清洗缺失范围,缺失关键制造业时空数据字段的数据;
S22、内容错误矛盾制造业时空数据的清洗,用于保证制造业时空数据正确性;
S23、逻辑错误制造业时空数据的清洗,用于保证制造业时空数据逻辑正确;
S24、不必要制造业时空数据的清洗,用于保证制造业时空数据的相关性;
S25、重复制造业时空数据的清洗,用于避免制造业时空数据的冗余。
进一步地,所述步骤S3包括:
S31、针对时空数据的多维度时间序列部分,进行最大值max-最小值min归一化处理,将数据值大小转换到[0,1]区间,制造机器设备数量为N,机器设备指标数量为P,将时间长度为t的时空数据多维度时间序列集合记为Z={Z1,Z2,…,Zt-1,Zt},Zi(i=1,2,…t-1,t)为制造机器设备指标信息矩阵,其大小为N×P,经过最大值max-最小值min归一化处理后得到新的多维度时间序列集合X={X1,X2,…,Xt-1,Xt},变换公式如下所示;
Figure BDA0003719629560000031
其中,min(Zi)表示矩阵Zi中的最小值,max(Zi)表示矩阵Zi中的最大值,X={X1,X2,…,Xt-1,Xt}表示经过最大值max-最小值min归一化处理后的时间长度为t的制造机器设备指标信息时序数据集合;
S32、针对时空数据的拓扑结构信息部分,计算出邻接矩阵A,用以表示制造机器设备间联动工作的关系,计算规则为:制造机器设备数量为N,邻接矩阵看作由N个列向量组成,而每个列向量按照制造机器设备编号的顺序代表着当前制造机器设备与包含自身在内的所有制造机器设备的联动工作关系,若有关联则记为1,反之记为0,与自身的关联亦记为0,从而形成大小为N×N的邻接矩阵A。
进一步地,所述步骤S4中,所述长短期记忆模型循环神经网络LSTM中的线性层替换成图卷积层,用于作为基本层来进行时空依赖性的学习。
进一步地,所述的图卷积层,具体模型为:
Figure BDA0003719629560000032
Figure BDA0003719629560000033
其中,U和A为模型的输入变量,U为在某一时刻的经过最大值max-最小值min归一化处理的制造机器设备指标信息矩阵;A为邻接矩阵,矩阵大小为N×N,
Figure BDA0003719629560000034
为对角邻接矩阵,由邻接矩阵A和单位矩阵I相加得出,
Figure BDA0003719629560000035
为对角度矩阵,Relu为激活函数,W为权重矩阵。
进一步地,所述的长短期记忆模型循环神经网络LSTM具体模型为:
S41、计算遗忘门ft
ft=sigmoid(Wf*F([ht-1,Xt],A)+bf)
Figure BDA0003719629560000036
其中,t为当前时刻,ht-1表示t-1时刻的输出,Xt表示t时刻的经过最大值max-最小值min归一化处理的制造机器设备指标信息矩阵,F([ht-1,Xt],A)为图卷积层的输出结果,ft表示t时刻的遗忘门函数结果,Wf和bf分别为输入层的权重矩阵和偏置项;
S42、计算记忆门ct
it=sigmoid(Wi*F([ht-1,Xt],A)+bi)
gt=tanh(Wg*F([ht-1,Xt],A)+bg)
Figure BDA0003719629560000041
ct=ft*ct-1+it*gt
其中,it表示t时刻的输入门函数结果,gt表示t时刻的更新门函数结果,Wi和bi分别为输入层的权重矩阵和偏置项,Wg和bg分别为状态更新层的权重矩阵和偏置项,均可通过模型训练获得最佳值,ct-1表示t-1时刻的旧细胞状态,ct表示t时刻的记忆门函数结果,代表t时刻的新细胞状态;
S43、计算最终输出ht
ot=sigmoid(Wo*F([ht-1,Xt],A)+bo)
ht=ot*tanh(ct)
在公式中,ot表示t时刻的输出门函数结果,Wo和bo分别为输出层的权重矩阵和偏置项,可通过模型训练获得最佳值,ht表示t时刻的最终输出结果。
进一步地,所述步骤S5,包括;
S51、将预处理后的制造业时空数据按照无监督预测模型的输入长度分为若干样本组,然后将样本组投入无监督预测模型中进行训练;
S52、设定损失函数为均方损失函数MSELoss,设定优化器为Adam优化算法,利用梯度下降法来让损失函数进行反向传播不断迭代以更新权重;
S53、通过偏置参数找到损失最低点,调整模型参数使基于GCN-LSTM的预测模型达到最优的效果。
进一步地,所述的基于Copula的异常检测方法的Copula是一种统计概率函数,用于对多个随机变量间的关联性依赖关系进行有效建模。
本发明的有益技术效果至少在于以下几点:
(1)发明创新性提出对制造企业现有的设计、管理、制造、服务四大业务中的制造业时空数据进行深入数据处理操作并获取结果,旨在提高制造业时空数据的质量,充分发挥其特点优势以实现提质增效,为制造企业未来作重大决策提供数据预测参考支撑,从而促进制造企业的繁荣发展。
(2)发明开创性提出构建基于图卷积神经网络GCN(Graph ConvolutionalNetwork)和长短期记忆模型循环神经网络LSTM(Long-Short Term Memory)相结合的无监督预测模型来提取制造业时空数据的时空特征,旨在提高对于制造业时空数据的有效利用率;再创新性提出借助基于Copula的异常检测方法,即基于Copula的异常检测方法,去挖掘时空数据多维度特征间的关联性,对制造业时空数据所映射的制造机器设备所出现的异常提供可解释性。方案采用人工智能大数据、深度学习和机器学习等前沿科学技术来辅助提高制造企业对时空数据的消化能力,从而降低制造机器设备的运维成本,提高制造企业的经营效率,为制造企业的发展道路注入新活力。
附图说明
利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1为本发明基于制造企业数据空间的时空数据异常检测方法的步骤流程图;
图2为本发明实施例提供的对制造业时空数据进行数据清洗操作的步骤流程图;
图3为本发明实施例提供的一种制造机器设备间联动工作时可能存在的拓扑结构示例图;
图4为本发明实施例提供的基于图卷积神经网络GCN(Graph ConvolutionalNetwork)和长短期记忆模型循环神经网络LSTM(Long-Short Term Memory)相结合的改进后的无监督预测模型内部结构示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
对于本领域的技术人员来说,附图中的某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
如图1所示,一种基于制造企业数据空间的时空数据异常检测方法,具体包括以下步骤:
S1、从制造企业的数据空间中获取制造业时空数据;
S2、对制造业时空数据进行数据清洗操作;
S3、对清洗后的时空数据进行数据预处理操作;
S4、构建基于图卷积神经网络GCN(Graph Convolutional Network)和长短期记忆模型循环神经网络LSTM(Long-Short Term Memory)相结合的无监督预测模型;
S5、将预处理后得到的制造业时空数据投入构建的无监督预测模型中进行迭代训练,得到迭代训练后的无监督预测模型为最优化的基于GCN-LSTM的预测模型;
S6、将要预测的未来时刻之前的相邻连续T个等间隔时刻的经过预处理后的时空数据作为训练好的预测模型的输入,来获取该未来时刻的预测值,再计算该未来时刻预测值与真实值之间的差值,然后对差值取绝对值;
S7、根据制造企业业务需求,重复K次步骤S6,得到数据条数为K的差值数据集,再利用基于Copula的异常检测方法对差值数据集进行异常检测操作,可得到实时异常检测结果;
制造业时空数据是指制造企业设计、制造、管理、服务四大业务中携带拓扑结构信息的多维度时间序列数据,通常在多个制造机器设备联动工作的过程中产生。拓扑结构信息主要映射多个制造机器设备之间的工作关联程度,多维度时间序列主要映射多个制造机器设备联动工作时在等间隔时刻内的机器设备指标信息情况,两者统一反映出在一段时间内制造机器的运维情况。
从制造企业的数据空间中获取制造业时空数据,然后记录到基于Python编程语言进行数据处理操作的软件Pycharm中。
所述的数据清洗操作如图2所示,包括:
S21、信息缺失数据的清洗:对每个数据字段确定缺失范围,缺失关键数据字段的数据直接进行舍弃,非关键的数据以同一指标或不同指标的计算结果填充缺失值,若存在实在不能补全信息的数据,则直接进行删除操作,因为大量数据中删除个别样本不会影响最终结果;
S22、内容错误矛盾数据的清洗:有错误、相互矛盾的数据可能会干扰到对数据的分析,得到一个错误的结论,为保证数据的正确性故直接剔除它们;
S23、逻辑错误数据的清洗:根据业务规则将逻辑错误的数据进行舍弃,保证数据逻辑正确;
S24、不必要数据的清洗:除去与业务规则无关的数据,保证数据的相关性;
S25、重复数据的清洗:通过一定的规则判断出存在数据重复,则对重复的数据进行删除或合并处理,从而避免数据的冗余。
数据预处理操作包括:
S31、针对时空数据的多维度时间序列部分,进行最大值max-最小值min归一化处理,将数据值大小转换到[0,1]区间。具体为:制造机器设备数量为N,机器设备指标数量为P,将时间长度为t的时空数据多变量时间序列集合记为Z={Z1,Z2,…,Zt-1,Zt},Zi(i=1,2,…t-1,t)为制造机器设备指标信息矩阵,其大小为N×P。经过最大值max-最小值min归一化处理后得到新的多维度时间序列集合X={X1,X2,…,Xt-1,Xt},变换公式如下所示;
Figure BDA0003719629560000071
式中,min(Zi)表示矩阵Zi中的最小值,max(Zi)表示矩阵Zi中的最大值,X={X1,X2,…,Xt-1,Xt}表示经过最大值max-最小值min归一化处理后的时间长度为t的制造机器设备指标信息时序数据集合。
S32、针对时空数据的拓扑结构信息部分,计算出邻接矩阵A,用以表示制造机器设备间联动工作的关系。计算规则为:制造机器设备数量为N,邻接矩阵可以看作由N个列向量组成,而每个列向量按照制造机器设备编号的顺序代表着当前制造机器设备与包含自身在内的所有制造机器设备的联动工作关系,若有关联则记为1,反之记为0,与自身的关联亦记为0,从而形成大小为N×N的邻接矩阵A。具体为;制造机器设备数量N=5,制造机器设备间联动工作拓扑结构图如图3所示。因编号为R740-3-1的机器设备与其他机器设备均相连,则编号为R740-3-1的机器设备对应列向量为[0 1 1 1 1]-1,同理可得邻接矩阵A为:
Figure BDA0003719629560000072
基于图卷积神经网络GCN(Graph Convolutional Network)和长短期记忆模型循环神经网络LSTM(Long-Short Term Memory)相结合的无监督预测模型的改进重点在于将长短期记忆模型循环神经网络LSTM(Long-Short Term Memory)中的线性层(又名完全连接层)替换成图卷积层,即图卷积神经网络GCN(Graph Convolutional Network),以此作为基本层来进行时空依赖性的学习,改进后的预测模型内部结构如图4所示。
图卷积层,即图卷积神经网络GCN(Graph Convolutional Network),具体模型为:
Figure BDA0003719629560000073
Figure BDA0003719629560000074
在公式中,U和A为模型的输入变量。U为在某一时刻的经过最大值max-最小值min归一化处理的制造机器设备指标信息矩阵;A为邻接矩阵,矩阵大小为N×N。
Figure BDA0003719629560000075
为对角邻接矩阵,由邻接矩阵A和单位矩阵I相加得出。
Figure BDA0003719629560000081
为对角度矩阵。Relu为激活函数,目的在于引入非线性。W为权重矩阵,可通过模型训练获得最佳值。
通过图卷积神经网络GCN(Graph Convolutional Network)将制造机器设备指标信息和制造机器设备间联动工作关系信息进行融合以提取制造业时空数据的空间特征,来捕获拓扑结构的空间依赖性。
长短期记忆模型循环神经网络LSTM(Long-Short Term Memory),具体模型包括:
假定当前时刻为t时刻:
S41、计算遗忘门ft
ft=sigmoid(Wf*F([ht-1,Xt],A)+bf)
Figure BDA0003719629560000082
在公式中,ht-1表示t-1时刻的输出,Xt表示t时刻的经过最大值max-最小值min归一化处理的制造机器设备指标信息矩阵,F([ht-1,Xt],A)为图卷积层的输出结果。ft表示t时刻的遗忘门函数结果。Wf和bf分别为输入层的权重矩阵和偏置项,均可通过模型训练获得最佳值。
S42、计算记忆门ct
it=sigmoid(Wi*F([ht-1,Xt],A)+bi)
gt=tanh(Wg*F([ht-1,Xt],A)+bg)
Figure BDA0003719629560000083
ct=ft*ct-1+it*gt
在公式中,it表示t时刻的输入门函数结果,gt表示t时刻的更新门函数结果。Wi和bi分别为输入层的权重矩阵和偏置项,Wg和bg分别为状态更新层的权重矩阵和偏置项,均可通过模型训练获得最佳值。ct-1表示t-1时刻的旧细胞状态,ct表示t时刻的记忆门函数结果,代表t时刻的新细胞状态。
S43、计算最终输出ht
ot=sigmoid(Wo*F([ht-1,Xt],A)+bo)
ht=ot*tanh(ct)
在公式中,ot表示t时刻的输出门函数结果。Wo和bo分别为输出层的权重矩阵和偏置项,可通过模型训练获得最佳值。ht表示t时刻的最终输出结果。
长短期记忆模型循环神经网络LSTM(Long-Short Term Memory)的关键技术在于其门控机制,通过将遗忘门ft与存储制造机器设备指标信息的旧细胞状态ct-1相乘可以决定是否遗忘在旧细胞状态中的部分信息,然后通过将输入门it与更新门gt相乘可以决定是否存储在当前时刻的部分信息,从而可以确定新细胞状态Ct,再将用tanh函数处理后新细胞状态Ct与输出门ot相乘得到最终输出ht。通过长短期记忆模型循环神经网络LSTM(Long-Short Term Memory)基于制造机器设备指标信息的历史多变量时序数据可以预测出当前时间的制造机器设备指标信息情况以提取制造业时空数据的时间特征,来捕获时序数据的时间依赖性。
将预处理后得到的时空数据投入构建的改进预测模型中进行迭代训练时,要先将数据按照模型的输入长度分为若干样本组,然后将样本组数据投入模型中进行训练,设定损失函数为均方损失函数MSELoss,设定优化器为Adam优化算法,利用梯度下降法来让损失函数进行反向传播不断迭代以更新权重,最终偏置参数会找到损失最低点,调整模型参数使模型达到最优的效果。
基于Copula的异常检测方法是一种基于Copula的异常检测方法。Copula是一种统计概率函数,可以用于对多个随机变量间的关联性依赖关系进行有效建模。具体地,基于步骤S7形成的差值数据集,使用非参数方法计算出与维度相关的左边经验累积分布(LeftEmpirical CDF)、右边经验累积分布(Right Empirical CDF)和修正偏度系数,计算公式为:
Figure BDA0003719629560000091
Figure BDA0003719629560000092
Figure BDA0003719629560000093
在公式中,符号d为维度标识,符号i为时刻标识,Xi表示i时刻(某一时刻)的经过最大值max-最小值min归一化处理的制造机器设备指标信息;
Figure BDA0003719629560000094
为与维度相关的左边经验累积分布(Left Empirical CDF),
Figure BDA0003719629560000095
为与维度相关的右边经验累积分布(RightEmpirical CDF),bi为修正偏度系数。
根据得出的与维度相关的经验累积分布和修正偏度系数计算每个时刻的三类Empirical Copula函数,分别为左边Empirical Copula函数、右边Empirical Copula函数和由修正偏度系数决定的Empirical Copula函数,计算公式为:
Figure BDA0003719629560000101
Figure BDA0003719629560000102
Figure BDA0003719629560000103
在公式中,
Figure BDA0003719629560000104
为左边Empirical Copula函数,
Figure BDA0003719629560000105
为右边Empirical Copula函数。
Figure BDA0003719629560000106
为由修正偏度决定的Empirical Copula函数,依据为若修正偏度系数小于0则考虑左边Empirical Copula函数,反之则考虑右边Empirical Copula函数。
根据三类Empirical Copula函数计算出i时刻(某一时刻)的经过最大值max-最小值min归一化处理的制造机器设备指标信息的异常分数值,值越大,越代表对应制造机器设备出现了故障,计算公式为:
Figure BDA0003719629560000107
Figure BDA0003719629560000108
Figure BDA0003719629560000109
O(xi)=max{pl,pr,pb}
在公式中,pl为左边尾端概率,pr为右边尾端概率,pb为修正偏度尾端概率,O(xi)为上述三者中的最大值,代表i时刻(某一时刻)的异常分数值。
基于Copula的异常检测方法可以对异常是哪些制造机器设备指标信息维度造成的提供可解释性,可以直接通过维度特征异常图来量化每个维度的异常贡献并找到造成异常最多的维度进行深入分析,可辅助制造企业及时发现时空数据中的漏洞并找到所映射的制造机器设备可能出现故障的时间点及原因,及时反馈给维修部门,告知维修人员提前进行调整或维护,做到提前故障预知,现场及时处理,达到防患于未然的目的,提高维修部门的工作效率,此外还提供给技术部门关于制造机器设备的解决改进方向。
综上所述,本专利提出了一种基于制造企业时空数据的时空数据异常的检测方法,对制造企业现有的设计、管理、制造、服务四大业务中的制造业时空数据进行深入数据处理操作并获取结果,旨在提高制造业时空数据的质量,充分发挥其特点优势以实现提质增效,为制造企业未来作重大决策提供数据预测参考支撑,从而促进制造企业的繁荣发展。提出构建基于图卷积神经网络GCN(Graph Convolutional Network)和长短期记忆模型循环神经网络LSTM(Long-Short Term Memory)相结合的无监督预测模型来提取制造业时空数据的时空特征,旨在提高对于制造业时空数据的有效利用率;再创新性提出借助基于Copula的异常检测方法,即基于Copula的异常检测方法,去挖掘时空数据多维度特征间的关联性,对制造业时空数据所映射的制造机器设备所出现的异常提供可解释性。方案采用人工智能大数据、深度学习和机器学习等前沿科学技术来辅助提高制造企业对时空数据的消化能力,从而降低制造机器设备的运维成本,提高制造企业的经营效率,为制造企业的发展道路注入新活力。
尽管已经示出和描述了本发明的实施例,本领域技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变形,本发明的范围由权利要求及其等同物限定。

Claims (10)

1.一种基于制造企业数据空间的时空数据异常检测方法,其特征在于,包括以下步骤:
S1、从制造企业的数据空间中获取制造业时空数据;
S2、对制造业时空数据进行数据清洗操作;
S3、对清洗后的制造业时空数据进行数据预处理操作;
S4、构建基于图卷积神经网络GCN和长短期记忆模型循环神经网络LSTM相结合的无监督预测模型;
S5、将预处理后得到的制造业时空数据投入构建的无监督预测模型中进行迭代训练,得到迭代训练后的无监督预测模型为最优化的基于GCN-LSTM的预测模型;
S6、将要预测的未来时刻之前的相邻连续T个等间隔时刻的经过预处理后的制造业时空数据作为最优化的基于GCN-LSTM的预测模型的输入,获取该未来时刻的预测值,计算该未来时刻预测值与真实值之间的差值,对差值取绝对值;
S7、根据制造企业业务需求,重复K次步骤S6,得到数据条数为K的差值数据集,利用基于Copula的异常检测方法对差值数据集进行异常检测操作,得到实时异常检测结果。
2.根据权利要求1所述的一种基于制造企业数据空间的时空数据异常检测方法,其特征在于,所述制造业时空数据是指制造企业设计、制造、管理、服务四大业务中携带拓扑结构信息的多维度时间序列数据,拓扑结构信息用于映射多个制造机器设备之间的工作关联程度,多维度时间序列用于映射多个制造机器设备联动工作时在等间隔时刻内的机器设备指标信息情况。
3.根据权利要求1所述的一种基于制造企业数据空间的时空数据异常检测方法,其特征在于,在步骤S1中,所述制造业时空数据记录到基于Python编程语言进行数据处理操作的软件Pycharm中。
4.根据权利要求1所述的一种基于制造企业数据空间的时空数据异常检测方法,其特征在于,所述步骤S2包括:
S21、信息缺失制造业时空数据的清洗,用于清洗缺失范围,缺失关键制造业时空数据字段的数据;
S22、内容错误矛盾制造业时空数据的清洗,用于保证制造业时空数据正确性;
S23、逻辑错误制造业时空数据的清洗,用于保证制造业时空数据逻辑正确;
S24、不必要制造业时空数据的清洗,用于保证制造业时空数据的相关性;
S25、重复制造业时空数据的清洗,用于避免制造业时空数据的冗余。
5.根据权利要求1所述的一种基于制造企业数据空间的时空数据异常检测方法,其特征在于,所述步骤S3包括:
S31、针对时空数据的多维度时间序列部分,进行最大值max-最小值min归一化处理,将数据值大小转换到[0,1]区间,制造机器设备数量为N,机器设备指标数量为P,将时间长度为t的时空数据多维度时间序列集合记为Z={Z1,Z2,…,Zt-1,Zt},Zi(i=1,2,…t-1,t),为制造机器设备指标信息矩阵,其大小为N×P,经过最大值max-最小值min归一化处理后得到新的多维度时间序列集合X={X1,X2,…,Xt-1,Xt},变换公式如下所示;
Figure FDA0003719629550000021
其中,min(Zi)表示矩阵Zi中的最小值,max(Zi)表示矩阵Zi中的最大值,X={X1,X2,…,Xt-1,Xt}表示经过最大值max-最小值min归一化处理后的时间长度为t的制造机器设备指标信息时序数据集合;
S32、针对时空数据的拓扑结构信息部分,计算出邻接矩阵A,用以表示制造机器设备间联动工作的关系,计算规则为:制造机器设备数量为N,邻接矩阵看作由N个列向量组成,而每个列向量按照制造机器设备编号的顺序代表着当前制造机器设备与包含自身在内的所有制造机器设备的联动工作关系,若有关联则记为1,反之记为0,与自身的关联亦记为0,从而形成大小为N×N的邻接矩阵A。
6.根据权利要求1所述的一种基于制造企业数据空间的时空数据异常检测方法,其特征在于,所述步骤S4中,所述长短期记忆模型循环神经网络LSTM中的线性层替换成图卷积层,用于作为基本层来进行时空依赖性的学习。
7.根据权利要求6所述的一种基于制造企业数据空间的时空数据异常检测方法,其特征在于,所述的图卷积层,具体模型为:
Figure FDA0003719629550000022
Figure FDA0003719629550000023
其中,U和A为模型的输入变量,U为在某一时刻的经过最大值max-最小值min归一化处理的制造机器设备指标信息矩阵;A为邻接矩阵,矩阵大小为N×N,
Figure FDA0003719629550000024
为对角邻接矩阵,由邻接矩阵A和单位矩阵I相加得出,
Figure FDA0003719629550000031
为对角度矩阵,Relu为激活函数,W为权重矩阵。
8.根据权利要求6所述的一种基于制造企业数据空间的时空数据异常检测方法,其特征在于,所述的长短期记忆模型循环神经网络LSTM具体模型为:
S41、计算遗忘门ft
ft=sigmoid(Wf*F([ht-1,Xt],A)+bf)
Figure FDA0003719629550000032
其中,t为当前时刻,ht-1表示t-1时刻的输出,Xt表示t时刻的经过最大值max-最小值min归一化处理的制造机器设备指标信息矩阵,F([ht-1,Xt],A)为图卷积层的输出结果,ft表示t时刻的遗忘门函数结果,Wf和bf分别为输入层的权重矩阵和偏置项;
S42、计算记忆门ct
it=sigmoid(Wi*F([ht-1,Xt],A)+bi)
gt=tanh(Wg*F([ht-1,Xt],A)+bg)
Figure FDA0003719629550000033
ct=ft*ct-1+it*gt
其中,it表示t时刻的输入门函数结果,gt表示t时刻的更新门函数结果,Wi和bi分别为输入层的权重矩阵和偏置项,Wg和bg分别为状态更新层的权重矩阵和偏置项,均可通过模型训练获得最佳值,ct-1表示t-1时刻的旧细胞状态,ct表示t时刻的记忆门函数结果,代表t时刻的新细胞状态;
S43、计算最终输出ht
ot=sigmoid(Wo*F([ht-1,Xt],A)+bo)
ht=ot*tanh(ct)
在公式中,ot表示t时刻的输出门函数结果,Wo和bo分别为输出层的权重矩阵和偏置项,可通过模型训练获得最佳值,ht表示t时刻的最终输出结果。
9.根据权利要求1所述的一种基于制造企业数据空间的时空数据异常检测方法,其特征在于,所述步骤S5,包括;
S51、将预处理后的制造业时空数据按照无监督预测模型的输入长度分为若干样本组,然后将样本组投入无监督预测模型中进行训练;
S52、设定损失函数为均方损失函数MSELoss,设定优化器为Adam优化算法,利用梯度下降法来让损失函数进行反向传播不断迭代以更新权重;
S53、通过偏置参数找到损失最低点,调整模型参数使基于GCN-LSTM的预测模型达到最优的效果。
10.据权利要求1所述的一种基于制造企业数据空间的时空数据异常检测方法,其特征在于,所述的基于Copula的异常检测方法的Copula是一种统计概率函数,用于对多个随机变量间的关联性依赖关系进行有效建模。
CN202210746664.7A 2022-06-29 2022-06-29 一种基于制造企业数据空间的时空数据异常检测方法 Active CN115145899B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210746664.7A CN115145899B (zh) 2022-06-29 2022-06-29 一种基于制造企业数据空间的时空数据异常检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210746664.7A CN115145899B (zh) 2022-06-29 2022-06-29 一种基于制造企业数据空间的时空数据异常检测方法

Publications (2)

Publication Number Publication Date
CN115145899A true CN115145899A (zh) 2022-10-04
CN115145899B CN115145899B (zh) 2023-10-24

Family

ID=83411050

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210746664.7A Active CN115145899B (zh) 2022-06-29 2022-06-29 一种基于制造企业数据空间的时空数据异常检测方法

Country Status (1)

Country Link
CN (1) CN115145899B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117591887A (zh) * 2024-01-17 2024-02-23 罗克佳华科技集团股份有限公司 预测模型训练方法以及危险废物监测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111382020A (zh) * 2020-03-06 2020-07-07 中国工商银行股份有限公司 交易流量监控方法及系统
CN112418547A (zh) * 2020-12-03 2021-02-26 北京工业大学 一种基于gcn-lstm组合模型的公交车站点客流量预测方法
US20210133569A1 (en) * 2019-11-04 2021-05-06 Tsinghua University Methods, computing devices, and storage media for predicting traffic matrix
CN113011763A (zh) * 2021-03-29 2021-06-22 华南理工大学 一种基于时空图卷积注意力的桥梁损伤识别方法
CN113706187A (zh) * 2021-07-13 2021-11-26 杭州电子科技大学 一种基于时空图卷积的电信用户流失行为预测方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210133569A1 (en) * 2019-11-04 2021-05-06 Tsinghua University Methods, computing devices, and storage media for predicting traffic matrix
CN111382020A (zh) * 2020-03-06 2020-07-07 中国工商银行股份有限公司 交易流量监控方法及系统
CN112418547A (zh) * 2020-12-03 2021-02-26 北京工业大学 一种基于gcn-lstm组合模型的公交车站点客流量预测方法
CN113011763A (zh) * 2021-03-29 2021-06-22 华南理工大学 一种基于时空图卷积注意力的桥梁损伤识别方法
CN113706187A (zh) * 2021-07-13 2021-11-26 杭州电子科技大学 一种基于时空图卷积的电信用户流失行为预测方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
黄娜等: "基于LSTM回归模型的内部威胁检测方法", 《信息网络安全》 *
黄娜等: "基于LSTM回归模型的内部威胁检测方法", 《信息网络安全》, no. 09, 10 September 2020 (2020-09-10) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117591887A (zh) * 2024-01-17 2024-02-23 罗克佳华科技集团股份有限公司 预测模型训练方法以及危险废物监测方法

Also Published As

Publication number Publication date
CN115145899B (zh) 2023-10-24

Similar Documents

Publication Publication Date Title
US8380642B2 (en) Methods and systems for self-improving reasoning tools
Wang et al. A compound framework for wind speed forecasting based on comprehensive feature selection, quantile regression incorporated into convolutional simplified long short-term memory network and residual error correction
CN111461551B (zh) 一种基于深度学习和spc准则的电潜泵故障预警方法
CN116562514B (zh) 基于神经网络的企业生产状况即时分析方法及系统
CN112187554A (zh) 一种基于蒙特卡洛树搜索的运维系统故障定位方法和系统
CN117391641A (zh) 一种生发剂生产流程管理方法及系统
Shao et al. An advanced weighted system based on swarm intelligence optimization for wind speed prediction
CN115145899A (zh) 一种基于制造企业数据空间的时空数据异常检测方法
CN116340726A (zh) 一种能源经济大数据清洗方法、系统、设备及存储介质
CN115221793A (zh) 一种隧道围岩变形预测方法及装置
CN110781206A (zh) 一种学习拆回表故障特征规则预测在运电能表是否故障的方法
CN113393034A (zh) 一种在线自适应oselm-garch模型的电量预测方法
Aliev et al. Genetic algorithms-based fuzzy regression analysis
CN117034169A (zh) 基于时序因果关系网络的电网主变设备异常状态预测方法
CN116020879B (zh) 面向工艺参数带钢热连轧时空多尺度过程监控方法及装置
CN114662009B (zh) 一种基于图卷积的工业互联网工厂协同推荐方法
CN115081551A (zh) 基于K-Means聚类和优化RVM线损模型建立方法及系统
CN116523172A (zh) 基于跨指标的多维度根本原因分析
CN115169426A (zh) 一种基于相似性学习融合模型的异常检测方法及系统
CN111008238B (zh) 基于关联演化大数据的关键模式自动定位与预警方法
CN117312809B (zh) 一种基于知识图谱的软件缺陷预测方法及系统
CN117520385B (zh) 一种基于探索价值和查询代价的数据库查询优化方法
CN112579667B (zh) 数据驱动的发动机多学科知识机器学习方法及装置
Bai et al. Positive Active Power Missing Value Repairing with LSTM Prediction
CN116843080A (zh) 一种基于机器学习的尿素生产碳元素足迹预测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant