CN115145899B - 一种基于制造企业数据空间的时空数据异常检测方法 - Google Patents
一种基于制造企业数据空间的时空数据异常检测方法 Download PDFInfo
- Publication number
- CN115145899B CN115145899B CN202210746664.7A CN202210746664A CN115145899B CN 115145899 B CN115145899 B CN 115145899B CN 202210746664 A CN202210746664 A CN 202210746664A CN 115145899 B CN115145899 B CN 115145899B
- Authority
- CN
- China
- Prior art keywords
- data
- time
- space
- manufacturing
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004519 manufacturing process Methods 0.000 title claims abstract description 194
- 238000001514 detection method Methods 0.000 title claims abstract description 27
- 241000039077 Copula Species 0.000 claims abstract description 25
- 238000000034 method Methods 0.000 claims abstract description 25
- 238000004140 cleaning Methods 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 16
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 64
- 230000006870 function Effects 0.000 claims description 41
- 238000013528 artificial neural network Methods 0.000 claims description 30
- 230000015654 memory Effects 0.000 claims description 28
- 238000012545 processing Methods 0.000 claims description 26
- 238000010606 normalization Methods 0.000 claims description 17
- 230000002159 abnormal effect Effects 0.000 claims description 11
- 230000005856 abnormality Effects 0.000 claims description 11
- 125000004122 cyclic group Chemical group 0.000 claims description 9
- 230000000306 recurrent effect Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 239000013598 vector Substances 0.000 claims description 7
- 238000012217 deletion Methods 0.000 claims description 5
- 230000037430 deletion Effects 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 5
- 230000007787 long-term memory Effects 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 4
- 230000002123 temporal effect Effects 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000003475 lamination Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000006403 short-term memory Effects 0.000 claims description 2
- 238000011161 development Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 9
- 238000012423 maintenance Methods 0.000 description 6
- 230000001186 cumulative effect Effects 0.000 description 5
- 238000009826 distribution Methods 0.000 description 5
- 230000006872 improvement Effects 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000029087 digestion Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/04—Manufacturing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Data Mining & Analysis (AREA)
- General Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Manufacturing & Machinery (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出了一种基于制造企业数据空间的时空数据异常检测方法,包括以下步骤:从制造企业的数据空间中获取制造业时空数据;对数据进行数据清洗操作;对清洗后的数据进行数据预处理操作;构建无监督预测模型;对模型进行迭代训练,得到最优化的基于GCN‑LSTM的预测模型;预处理后制造业时空数据作为训练好的预测模型的输入,获取该未来时刻的预测值,计算差值,对差值取绝对值;重复K次步骤S6,得到数据集,利用基于Copula的异常检测方法对差值数据集进行异常检测操作,得到实时异常检测结果。本发明可辅助制造企业及时发现时空数据中的漏洞并找到所映射的制造机器可能出现故障的时间点及原因,迅速反馈给相关部门,实现工作效率最大化。
Description
技术领域
本发明涉及制造企业数据空间和时空数据异常检测的技术与应用领域,更具体地,涉及一种基于制造企业数据空间的时空数据异常检测方法。
背景技术
在现在工业4.0的时代里,制造业的主要特征逐渐转向智能和互联,企业的运营越来越依靠信息技术。随着社会经济的快速发展,信息技术不断发展创新。随着智能制造的发展以及互联网技术的发展,制造业大数据作为贯穿整个产品生产的新的要素,在一定程度上推动了智能制造的升级。制造业在智能化的过程之中,会产生大量的制造数据,而想要实现智能制造,需要依靠大数据的技术对制造数据进行有效的分析处理,然后根据处理结果做出有利于制造业发展的决策,从而推动智能制造的发展、升级。
制造业的整个价值链和制造业产品的整个生命周期都涉及到诸多的数据,数据量的暴涨成了许多行业共同面对的严峻挑战和宝贵机遇。为了充分利用制造企业设计、制造、管理、服务过程中产生的海量数据,制造企业数据空间构建方法与技术已成为重要的基础前沿技术。在制造企业数据空间内包含了许多有关于设计、制造、管理、服务四大业务的时空数据,目前制造企业对于这类数据的有效利用率较低,没能有效结合好这类数据所带有的时间特征和空间特征来进行处理,现有的大数据处理技术大部分仅只针对时间特征来进行处理,常常忽略了其带有的空间特征,导致最终的处理效果也并不佳。因为时空数据通常映射着制造机器的运维情况,所以时空数据时空相关性的低效处理进而也降低了制造机器故障情况被检测出来的效率。
因此,急需一种可以对时空数据的时间特征和空间特征进行有效综合捕捉利用的基于制造企业数据空间的时空数据异常检测方法。
发明内容
本发明提供一种基于制造企业数据空间的时空数据异常检测方法,其目的在于弥补现有技术的缺陷,综合利用好制造业时空数据的时空相关性,提供一种可靠、高效的制造企业数据空间的时空数据异常检测方法,及时且有效地辅助制造企业检测出制造机器的故障,提供解决问题的方向及思路。
为了解决上述技术问题,实现上述目的,本发明所提供的技术方案为一种基于制造企业数据空间的时空数据异常检测方法,其特征在于,包括以下步骤:
S1、从制造企业的数据空间中获取制造业时空数据;
S2、对制造业时空数据进行数据清洗操作;
S3、对清洗后的制造业时空数据进行数据预处理操作;
S4、构建基于图卷积神经网络GCN和长短期记忆模型循环神经网络LSTM相结合的无监督预测模型;
S5、将预处理后得到的制造业时空数据投入构建的无监督预测模型中进行迭代训练,得到迭代训练后的无监督预测模型为最优化的基于GCN-LSTM的预测模型;
S6、将要预测的未来时刻之前的相邻连续T个等间隔时刻的经过预处理后的制造业时空数据作为最优化的基于GCN-LSTM的预测模型的输入,获取该未来时刻的预测值,计算该未来时刻预测值与真实值之间的差值,对差值取绝对值;
S7、根据制造企业业务需求,重复K次步骤S6,得到数据条数为K的差值数据集,利用基于Copula的异常检测方法对差值数据集进行异常检测操作,得到实时异常检测结果。
进一步地,所述制造业时空数据是指制造企业设计、制造、管理、服务四大业务中携带拓扑结构信息的多维度时间序列数据,拓扑结构信息用于映射多个制造机器设备之间的工作关联程度,多维度时间序列用于映射多个制造机器设备联动工作时在等间隔时刻内的机器设备指标信息情况。
进一步地,在步骤S1中,所述制造业时空数据记录到基于Python编程语言进行数据处理操作的软件Pycharm中。
进一步地,所述步骤S2包括:
S21、信息缺失制造业时空数据的清洗,用于清洗缺失范围,缺失关键制造业时空数据字段的数据;
S22、内容错误矛盾制造业时空数据的清洗,用于保证制造业时空数据正确性;
S23、逻辑错误制造业时空数据的清洗,用于保证制造业时空数据逻辑正确;
S24、不必要制造业时空数据的清洗,用于保证制造业时空数据的相关性;
S25、重复制造业时空数据的清洗,用于避免制造业时空数据的冗余。
进一步地,所述步骤S3包括:
S31、针对时空数据的多维度时间序列部分,进行最大值max-最小值min归一化处理,将数据值大小转换到[0,1]区间,制造机器设备数量为N,机器设备指标数量为P,将时间长度为t的时空数据多维度时间序列集合记为Z={Z1,Z2,…,Zt-1,Zt},Zi(i=1,2,…t-1,t)为制造机器设备指标信息矩阵,其大小为N×P,经过最大值max-最小值min归一化处理后得到新的多维度时间序列集合X={X1,X2,…,Xt-1,Xt},变换公式如下所示;
其中,min(Zi)表示矩阵Zi中的最小值,max(Zi)表示矩阵Zi中的最大值,X={X1,X2,…,Xt-1,Xt}表示经过最大值max-最小值min归一化处理后的时间长度为t的制造机器设备指标信息时序数据集合;
S32、针对时空数据的拓扑结构信息部分,计算出邻接矩阵A,用以表示制造机器设备间联动工作的关系,计算规则为:制造机器设备数量为N,邻接矩阵看作由N个列向量组成,而每个列向量按照制造机器设备编号的顺序代表着当前制造机器设备与包含自身在内的所有制造机器设备的联动工作关系,若有关联则记为1,反之记为0,与自身的关联亦记为0,从而形成大小为N×N的邻接矩阵A。
进一步地,所述步骤S4中,所述长短期记忆模型循环神经网络LSTM中的线性层替换成图卷积层,用于作为基本层来进行时空依赖性的学习。
进一步地,所述的图卷积层,具体模型为:
其中,U和A为模型的输入变量,U为在某一时刻的经过最大值max-最小值min归一化处理的制造机器设备指标信息矩阵;A为邻接矩阵,矩阵大小为N×N,为对角邻接矩阵,由邻接矩阵A和单位矩阵I相加得出,/>为对角度矩阵,Relu为激活函数,W为权重矩阵。
进一步地,所述的长短期记忆模型循环神经网络LSTM具体模型为:
S41、计算遗忘门ft:
ft=sigmoid(Wf*F([ht-1,Xt],A)+bf)
其中,t为当前时刻,ht-1表示t-1时刻的输出,Xt表示t时刻的经过最大值max-最小值min归一化处理的制造机器设备指标信息矩阵,F([ht-1,Xt],A)为图卷积层的输出结果,ft表示t时刻的遗忘门函数结果,Wf和bf分别为输入层的权重矩阵和偏置项;
S42、计算记忆门ct:
it=sigmoid(Wi*F([ht-1,Xt],A)+bi)
gt=tanh(Wg*F([ht-1,Xt],A)+bg)
ct=ft*ct-1+it*gt
其中,it表示t时刻的输入门函数结果,gt表示t时刻的更新门函数结果,Wi和bi分别为输入层的权重矩阵和偏置项,Wg和bg分别为状态更新层的权重矩阵和偏置项,均可通过模型训练获得最佳值,ct-1表示t-1时刻的旧细胞状态,ct表示t时刻的记忆门函数结果,代表t时刻的新细胞状态;
S43、计算最终输出ht:
ot=sigmoid(Wo*F([ht-1,Xt],A)+bo)
ht=ot*tanh(ct)
在公式中,ot表示t时刻的输出门函数结果,Wo和bo分别为输出层的权重矩阵和偏置项,可通过模型训练获得最佳值,ht表示t时刻的最终输出结果。
进一步地,所述步骤S5,包括;
S51、将预处理后的制造业时空数据按照无监督预测模型的输入长度分为若干样本组,然后将样本组投入无监督预测模型中进行训练;
S52、设定损失函数为均方损失函数MSELoss,设定优化器为Adam优化算法,利用梯度下降法来让损失函数进行反向传播不断迭代以更新权重;
S53、通过偏置参数找到损失最低点,调整模型参数使基于GCN-LSTM的预测模型达到最优的效果。
进一步地,所述的基于Copula的异常检测方法的Copula是一种统计概率函数,用于对多个随机变量间的关联性依赖关系进行有效建模。
本发明的有益技术效果至少在于以下几点:
(1)发明创新性提出对制造企业现有的设计、管理、制造、服务四大业务中的制造业时空数据进行深入数据处理操作并获取结果,旨在提高制造业时空数据的质量,充分发挥其特点优势以实现提质增效,为制造企业未来作重大决策提供数据预测参考支撑,从而促进制造企业的繁荣发展。
(2)发明开创性提出构建基于图卷积神经网络GCN(Graph ConvolutionalNetwork)和长短期记忆模型循环神经网络LSTM(Long-Short Term Memory)相结合的无监督预测模型来提取制造业时空数据的时空特征,旨在提高对于制造业时空数据的有效利用率;再创新性提出借助基于Copula的异常检测方法,即基于Copula的异常检测方法,去挖掘时空数据多维度特征间的关联性,对制造业时空数据所映射的制造机器设备所出现的异常提供可解释性。方案采用人工智能大数据、深度学习和机器学习等前沿科学技术来辅助提高制造企业对时空数据的消化能力,从而降低制造机器设备的运维成本,提高制造企业的经营效率,为制造企业的发展道路注入新活力。
附图说明
利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1为本发明基于制造企业数据空间的时空数据异常检测方法的步骤流程图;
图2为本发明实施例提供的对制造业时空数据进行数据清洗操作的步骤流程图;
图3为本发明实施例提供的一种制造机器设备间联动工作时可能存在的拓扑结构示例图;
图4为本发明实施例提供的基于图卷积神经网络GCN(Graph ConvolutionalNetwork)和长短期记忆模型循环神经网络LSTM(Long-Short Term Memory)相结合的改进后的无监督预测模型内部结构示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
对于本领域的技术人员来说,附图中的某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
如图1所示,一种基于制造企业数据空间的时空数据异常检测方法,具体包括以下步骤:
S1、从制造企业的数据空间中获取制造业时空数据;
S2、对制造业时空数据进行数据清洗操作;
S3、对清洗后的时空数据进行数据预处理操作;
S4、构建基于图卷积神经网络GCN(Graph Convolutional Network)和长短期记忆模型循环神经网络LSTM(Long-Short Term Memory)相结合的无监督预测模型;
S5、将预处理后得到的制造业时空数据投入构建的无监督预测模型中进行迭代训练,得到迭代训练后的无监督预测模型为最优化的基于GCN-LSTM的预测模型;
S6、将要预测的未来时刻之前的相邻连续T个等间隔时刻的经过预处理后的时空数据作为训练好的预测模型的输入,来获取该未来时刻的预测值,再计算该未来时刻预测值与真实值之间的差值,然后对差值取绝对值;
S7、根据制造企业业务需求,重复K次步骤S6,得到数据条数为K的差值数据集,再利用基于Copula的异常检测方法对差值数据集进行异常检测操作,可得到实时异常检测结果;
制造业时空数据是指制造企业设计、制造、管理、服务四大业务中携带拓扑结构信息的多维度时间序列数据,通常在多个制造机器设备联动工作的过程中产生。拓扑结构信息主要映射多个制造机器设备之间的工作关联程度,多维度时间序列主要映射多个制造机器设备联动工作时在等间隔时刻内的机器设备指标信息情况,两者统一反映出在一段时间内制造机器的运维情况。
从制造企业的数据空间中获取制造业时空数据,然后记录到基于Python编程语言进行数据处理操作的软件Pycharm中。
所述的数据清洗操作如图2所示,包括:
S21、信息缺失数据的清洗:对每个数据字段确定缺失范围,缺失关键数据字段的数据直接进行舍弃,非关键的数据以同一指标或不同指标的计算结果填充缺失值,若存在实在不能补全信息的数据,则直接进行删除操作,因为大量数据中删除个别样本不会影响最终结果;
S22、内容错误矛盾数据的清洗:有错误、相互矛盾的数据可能会干扰到对数据的分析,得到一个错误的结论,为保证数据的正确性故直接剔除它们;
S23、逻辑错误数据的清洗:根据业务规则将逻辑错误的数据进行舍弃,保证数据逻辑正确;
S24、不必要数据的清洗:除去与业务规则无关的数据,保证数据的相关性;
S25、重复数据的清洗:通过一定的规则判断出存在数据重复,则对重复的数据进行删除或合并处理,从而避免数据的冗余。
数据预处理操作包括:
S31、针对时空数据的多维度时间序列部分,进行最大值max-最小值min归一化处理,将数据值大小转换到[0,1]区间。具体为:制造机器设备数量为N,机器设备指标数量为P,将时间长度为t的时空数据多变量时间序列集合记为Z={Z1,Z2,…,Zt-1,Zt},Zi(i=1,2,…t-1,t)为制造机器设备指标信息矩阵,其大小为N×P。经过最大值max-最小值min归一化处理后得到新的多维度时间序列集合X={X1,X2,…,Xt-1,Xt},变换公式如下所示;
式中,min(Zi)表示矩阵Zi中的最小值,max(Zi)表示矩阵Zi中的最大值,X={X1,X2,…,Xt-1,Xt}表示经过最大值max-最小值min归一化处理后的时间长度为t的制造机器设备指标信息时序数据集合。
S32、针对时空数据的拓扑结构信息部分,计算出邻接矩阵A,用以表示制造机器设备间联动工作的关系。计算规则为:制造机器设备数量为N,邻接矩阵可以看作由N个列向量组成,而每个列向量按照制造机器设备编号的顺序代表着当前制造机器设备与包含自身在内的所有制造机器设备的联动工作关系,若有关联则记为1,反之记为0,与自身的关联亦记为0,从而形成大小为N×N的邻接矩阵A。具体为;制造机器设备数量N=5,制造机器设备间联动工作拓扑结构图如图3所示。因编号为R740-3-1的机器设备与其他机器设备均相连,则编号为R740-3-1的机器设备对应列向量为[0 1 1 1 1]-1,同理可得邻接矩阵A为:
基于图卷积神经网络GCN(Graph Convolutional Network)和长短期记忆模型循环神经网络LSTM(Long-Short Term Memory)相结合的无监督预测模型的改进重点在于将长短期记忆模型循环神经网络LSTM(Long-Short Term Memory)中的线性层(又名完全连接层)替换成图卷积层,即图卷积神经网络GCN(Graph Convolutional Network),以此作为基本层来进行时空依赖性的学习,改进后的预测模型内部结构如图4所示。
图卷积层,即图卷积神经网络GCN(Graph Convolutional Network),具体模型为:
在公式中,U和A为模型的输入变量。U为在某一时刻的经过最大值max-最小值min归一化处理的制造机器设备指标信息矩阵;A为邻接矩阵,矩阵大小为N×N。为对角邻接矩阵,由邻接矩阵A和单位矩阵I相加得出。/>为对角度矩阵。Relu为激活函数,目的在于引入非线性。W为权重矩阵,可通过模型训练获得最佳值。
通过图卷积神经网络GCN(Graph Convolutional Network)将制造机器设备指标信息和制造机器设备间联动工作关系信息进行融合以提取制造业时空数据的空间特征,来捕获拓扑结构的空间依赖性。
长短期记忆模型循环神经网络LSTM(Long-Short Term Memory),具体模型包括:
假定当前时刻为t时刻:
S41、计算遗忘门ft:
ft=sigmoid(Wf*F([ht-1,Xt],A)+bf)
在公式中,ht-1表示t-1时刻的输出,Xt表示t时刻的经过最大值max-最小值min归一化处理的制造机器设备指标信息矩阵,F([ht-1,Xt],A)为图卷积层的输出结果。ft表示t时刻的遗忘门函数结果。Wf和bf分别为输入层的权重矩阵和偏置项,均可通过模型训练获得最佳值。
S42、计算记忆门ct:
it=sigmoid(Wi*F([ht-1,Xt],A)+bi)
gt=tanh(Wg*F([ht-1,Xt],A)+bg)
ct=ft*ct-1+it*gt
在公式中,it表示t时刻的输入门函数结果,gt表示t时刻的更新门函数结果。Wi和bi分别为输入层的权重矩阵和偏置项,Wg和bg分别为状态更新层的权重矩阵和偏置项,均可通过模型训练获得最佳值。ct-1表示t-1时刻的旧细胞状态,ct表示t时刻的记忆门函数结果,代表t时刻的新细胞状态。
S43、计算最终输出ht:
ot=sigmoid(Wo*F([ht-1,Xt],A)+bo)
ht=ot*tanh(ct)
在公式中,ot表示t时刻的输出门函数结果。Wo和bo分别为输出层的权重矩阵和偏置项,可通过模型训练获得最佳值。ht表示t时刻的最终输出结果。
长短期记忆模型循环神经网络LSTM(Long-Short Term Memory)的关键技术在于其门控机制,通过将遗忘门ft与存储制造机器设备指标信息的旧细胞状态ct-1相乘可以决定是否遗忘在旧细胞状态中的部分信息,然后通过将输入门it与更新门gt相乘可以决定是否存储在当前时刻的部分信息,从而可以确定新细胞状态Ct,再将用tanh函数处理后新细胞状态Ct与输出门ot相乘得到最终输出ht。通过长短期记忆模型循环神经网络LSTM(Long-Short Term Memory)基于制造机器设备指标信息的历史多变量时序数据可以预测出当前时间的制造机器设备指标信息情况以提取制造业时空数据的时间特征,来捕获时序数据的时间依赖性。
将预处理后得到的时空数据投入构建的改进预测模型中进行迭代训练时,要先将数据按照模型的输入长度分为若干样本组,然后将样本组数据投入模型中进行训练,设定损失函数为均方损失函数MSELoss,设定优化器为Adam优化算法,利用梯度下降法来让损失函数进行反向传播不断迭代以更新权重,最终偏置参数会找到损失最低点,调整模型参数使模型达到最优的效果。
基于Copula的异常检测方法是一种基于Copula的异常检测方法。Copula是一种统计概率函数,可以用于对多个随机变量间的关联性依赖关系进行有效建模。具体地,基于步骤S7形成的差值数据集,使用非参数方法计算出与维度相关的左边经验累积分布(LeftEmpirical CDF)、右边经验累积分布(Right Empirical CDF)和修正偏度系数,计算公式为:
在公式中,符号d为维度标识,符号i为时刻标识,Xi表示i时刻(某一时刻)的经过最大值max-最小值min归一化处理的制造机器设备指标信息;为与维度相关的左边经验累积分布(Left Empirical CDF),/>为与维度相关的右边经验累积分布(RightEmpirical CDF),bi为修正偏度系数。
根据得出的与维度相关的经验累积分布和修正偏度系数计算每个时刻的三类Empirical Copula函数,分别为左边Empirical Copula函数、右边Empirical Copula函数和由修正偏度系数决定的Empirical Copula函数,计算公式为:
在公式中,为左边Empirical Copula函数,/>为右边Empirical Copula函数。为由修正偏度决定的Empirical Copula函数,依据为若修正偏度系数小于0则考虑左边Empirical Copula函数,反之则考虑右边Empirical Copula函数。
根据三类Empirical Copula函数计算出i时刻(某一时刻)的经过最大值max-最小值min归一化处理的制造机器设备指标信息的异常分数值,值越大,越代表对应制造机器设备出现了故障,计算公式为:
O(xi)=max{pl,pr,pb}
在公式中,pl为左边尾端概率,pr为右边尾端概率,pb为修正偏度尾端概率,O(xi)为上述三者中的最大值,代表i时刻(某一时刻)的异常分数值。
基于Copula的异常检测方法可以对异常是哪些制造机器设备指标信息维度造成的提供可解释性,可以直接通过维度特征异常图来量化每个维度的异常贡献并找到造成异常最多的维度进行深入分析,可辅助制造企业及时发现时空数据中的漏洞并找到所映射的制造机器设备可能出现故障的时间点及原因,及时反馈给维修部门,告知维修人员提前进行调整或维护,做到提前故障预知,现场及时处理,达到防患于未然的目的,提高维修部门的工作效率,此外还提供给技术部门关于制造机器设备的解决改进方向。
综上所述,本专利提出了一种基于制造企业时空数据的时空数据异常的检测方法,对制造企业现有的设计、管理、制造、服务四大业务中的制造业时空数据进行深入数据处理操作并获取结果,旨在提高制造业时空数据的质量,充分发挥其特点优势以实现提质增效,为制造企业未来作重大决策提供数据预测参考支撑,从而促进制造企业的繁荣发展。提出构建基于图卷积神经网络GCN(Graph Convolutional Network)和长短期记忆模型循环神经网络LSTM(Long-Short Term Memory)相结合的无监督预测模型来提取制造业时空数据的时空特征,旨在提高对于制造业时空数据的有效利用率;再创新性提出借助基于Copula的异常检测方法,即基于Copula的异常检测方法,去挖掘时空数据多维度特征间的关联性,对制造业时空数据所映射的制造机器设备所出现的异常提供可解释性。方案采用人工智能大数据、深度学习和机器学习等前沿科学技术来辅助提高制造企业对时空数据的消化能力,从而降低制造机器设备的运维成本,提高制造企业的经营效率,为制造企业的发展道路注入新活力。
尽管已经示出和描述了本发明的实施例,本领域技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变形,本发明的范围由权利要求及其等同物限定。
Claims (8)
1.一种基于制造企业数据空间的时空数据异常检测方法,其特征在于,包括以下步骤:
S1、从制造企业的数据空间中获取制造业时空数据;所述制造业时空数据是指制造企业设计、制造、管理、服务四大业务中携带拓扑结构信息的多维度时间序列数据,拓扑结构信息用于映射多个制造机器设备之间的工作关联程度,多维度时间序列用于映射多个制造机器设备联动工作时在等间隔时刻内的机器设备指标信息情况;
S2、对制造业时空数据进行数据清洗操作;
S3、对清洗后的制造业时空数据进行数据预处理操作;所述步骤S3包括:
S31、针对时空数据的多维度时间序列部分,进行最大值max-最小值min归一化处理,将数据值大小转换到[0,1]区间,制造机器设备数量为N,机器设备指标数量为P,将时间长度为t的时空数据多维度时间序列集合记为Z={Z1,Z2,…,Zt-1,Zt},Zi(i=1,2,…t-1,t),为制造机器设备指标信息矩阵,其大小为N×P,经过最大值max-最小值min归一化处理后得到新的多维度时间序列集合X={X1,X2,…,Xt-1,Xt},变换公式如下所示;
其中,min(Zi)表示矩阵Zi中的最小值,max(Zi)表示矩阵Zi中的最大值,X={X1,X2,…,2Xt-1,Xt}表示经过最大值max-最小值min归一化处理后的时间长度为t的制造机器设备指标信息时序数据集合;
S32、针对时空数据的拓扑结构信息部分,计算出邻接矩阵A,用以表示制造机器设备间联动工作的关系,计算规则为:制造机器设备数量为N,邻接矩阵看作由N个列向量组成,而每个列向量按照制造机器设备编号的顺序代表着当前制造机器设备与包含自身在内的所有制造机器设备的联动工作关系,若有关联则记为1,反之记为0,与自身的关联亦记为0,从而形成大小为N×N的邻接矩阵A;
S4、构建基于图卷积神经网络GCN和长短期记忆模型循环神经网络LSTM相结合的无监督预测模型;将长短期记忆模型循环神经网络LSTM中的线性层替换成图卷积层;通过图卷积神经网络GCN将制造机器设备指标信息和制造机器设备间联动工作关系信息进行融合以提取制造业时空数据的空间特征,来捕获拓扑结构的空间依赖性;
S5、将预处理后得到的制造业时空数据投入构建的无监督预测模型中进行迭代训练,得到迭代训练后的无监督预测模型为最优化的基于GCN-LSTM的预测模型;
S6、将要预测的未来时刻之前的相邻连续T个等间隔时刻的经过预处理后的制造业时空数据作为最优化的基于GCN-LSTM的预测模型的输入,获取该未来时刻的预测值,计算该未来时刻预测值与真实值之间的差值,对差值取绝对值;
S7、根据制造企业业务需求,重复K次步骤S6,得到数据条数为K的差值数据集,利用基于Copula的异常检测方法对差值数据集进行异常检测操作,得到实时异常检测结果。
2.根据权利要求1所述的一种基于制造企业数据空间的时空数据异常检测方法,其特征在于,在步骤S1中,所述制造业时空数据记录到基于Python编程语言进行数据处理操作的软件Pycharm中。
3.根据权利要求1所述的一种基于制造企业数据空间的时空数据异常检测方法,其特征在于,所述步骤S2包括:
S21、信息缺失制造业时空数据的清洗,用于清洗缺失范围,缺失关键制造业时空数据字段的数据;
S22、内容错误矛盾制造业时空数据的清洗,用于保证制造业时空数据正确性;
S23、逻辑错误制造业时空数据的清洗,用于保证制造业时空数据逻辑正确;
S24、不必要制造业时空数据的清洗,用于保证制造业时空数据的相关性;
S25、重复制造业时空数据的清洗,用于避免制造业时空数据的冗余。
4.根据权利要求1所述的一种基于制造企业数据空间的时空数据异常检测方法,其特征在于,所述步骤S4中,所述长短期记忆模型循环神经网络LSTM中的线性层替换成图卷积层,用于作为基本层来进行时空依赖性的学习。
5.根据权利要求4所述的一种基于制造企业数据空间的时空数据异常检测方法,其特征在于,所述的图卷积层,具体模型为:
其中,U和A为模型的输入变量,U为在某一时刻的经过最大值max-最小值min归一化处理的制造机器设备指标信息矩阵;A为邻接矩阵,矩阵大小为N×N,为对角邻接矩阵,由邻接矩阵A和单位矩阵I相加得出,为对角度矩阵,Relu为激活函数,W为权重矩阵。
6.根据权利要求4所述的一种基于制造企业数据空间的时空数据异常检测方法,其特征在于,所述的长短期记忆模型循环神经网络LSTM具体模型为:
S41、计算遗忘门ft:ft=sigmoid(Wf*F([ht-1,Xt],A)+bf)其中,t为当前时刻,ht-1表示t-1时刻的输出,Xt表示t时刻的经过最大值max-最小值min归一化处理的制造机器设备指标信息矩阵,F([ht-1,Xt],A)为图卷积层的输出结果,ft表示t
时刻的遗忘门函数结果,Wf和bf分别为输入层的权重矩阵和偏置项;
S42、计算记忆门ct:it=sigmoid(Wi*F([ht-1,Xt],A)+bi)
gt=tanh(Wg*F([ht-1,Xt],A)+bg)ct=ft*ct-1+it*gt
其中,it表示t时刻的输入门函数结果,gt表示t时刻的更新门函数结果,Wi和bi分别为输入层的权重矩阵和偏置项,Wg和bg分别为状态更新层的权重矩阵和偏置项,均可通过模型训练获得最佳值,ct-1表示t-1时刻的旧细胞状态,ct表示t时刻的记忆门函数结果,代表t时刻的新细胞状态;
S43、计算最终输出ht:3otsigmoid(Wo*F([ht-1,Xt],A)+bo)
ht=ot*tanh(ct)
在公式中,ot表示t时刻的输出门函数结果,Wo和bo分别为输出层的权重矩阵和偏置项,可通过模型训练获得最佳值,ht表示t时刻的最终输出结果。
7.根据权利要求1所述的一种基于制造企业数据空间的时空数据异常检测方法,其特征在于,所述步骤S5,包括;
S51、将预处理后的制造业时空数据按照无监督预测模型的输入长度分为若干样本组,然后将样本组投入无监督预测模型中进行训练;
S52、设定损失函数为均方损失函数MSELoss,设定优化器为Adam优化算法,利用梯度下降法来让损失函数进行反向传播不断迭代以更新权重;
S53、通过偏置参数找到损失最低点,调整模型参数使基于GCN-LSTM的预测模型达到最优的效果。
8.据权利要求1所述的一种基于制造企业数据空间的时空数据异常检测方法,其特征在于,所述的基于Copula的异常检测方法的Copula是一种统计概率函数,用于对多个随机变量间的关联性依赖关系进行有效建模。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210746664.7A CN115145899B (zh) | 2022-06-29 | 2022-06-29 | 一种基于制造企业数据空间的时空数据异常检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210746664.7A CN115145899B (zh) | 2022-06-29 | 2022-06-29 | 一种基于制造企业数据空间的时空数据异常检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115145899A CN115145899A (zh) | 2022-10-04 |
CN115145899B true CN115145899B (zh) | 2023-10-24 |
Family
ID=83411050
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210746664.7A Active CN115145899B (zh) | 2022-06-29 | 2022-06-29 | 一种基于制造企业数据空间的时空数据异常检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115145899B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117591887A (zh) * | 2024-01-17 | 2024-02-23 | 罗克佳华科技集团股份有限公司 | 预测模型训练方法以及危险废物监测方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113011763A (zh) * | 2021-03-29 | 2021-06-22 | 华南理工大学 | 一种基于时空图卷积注意力的桥梁损伤识别方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111130839B (zh) * | 2019-11-04 | 2021-07-16 | 清华大学 | 一种流量需求矩阵预测方法及其系统 |
CN111382020A (zh) * | 2020-03-06 | 2020-07-07 | 中国工商银行股份有限公司 | 交易流量监控方法及系统 |
CN112418547B (zh) * | 2020-12-03 | 2024-04-09 | 北京工业大学 | 一种基于gcn-lstm组合模型的公交车站点客流量预测方法 |
CN113706187A (zh) * | 2021-07-13 | 2021-11-26 | 杭州电子科技大学 | 一种基于时空图卷积的电信用户流失行为预测方法及系统 |
-
2022
- 2022-06-29 CN CN202210746664.7A patent/CN115145899B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113011763A (zh) * | 2021-03-29 | 2021-06-22 | 华南理工大学 | 一种基于时空图卷积注意力的桥梁损伤识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115145899A (zh) | 2022-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gaur | Neural networks in data mining | |
CN111079931A (zh) | 一种基于图神经网络的状态空间概率性多时间序列预测方法 | |
Tan et al. | An intelligent decision support system for manufacturing technology investments | |
CN114678080B (zh) | 转炉终点磷含量预测模型及构建方法、磷含量预测方法 | |
CN111985719B (zh) | 一种基于改进的长短期记忆网络的电力负荷预测方法 | |
CN115145899B (zh) | 一种基于制造企业数据空间的时空数据异常检测方法 | |
CN117391641A (zh) | 一种生发剂生产流程管理方法及系统 | |
CN112785080B (zh) | 一种基于水泥工业的实时动态水泥粉磨系统能耗优化方法 | |
CN112434813B (zh) | 基于面向属性语言概念格的多重多维语言推理方法 | |
CN111258984B (zh) | 工业大数据环境下的产品质量端-边-云协同预报方法 | |
CN111882157A (zh) | 一种基于深度时空神经网络的需求预测方法、系统及计算机可读存储介质 | |
Shao et al. | An advanced weighted system based on swarm intelligence optimization for wind speed prediction | |
CN113360848A (zh) | 一种时序数据预测方法及装置 | |
CN109657851A (zh) | 事件驱动型的股价预测方法、装置、设备及存储介质 | |
CN116340726A (zh) | 一种能源经济大数据清洗方法、系统、设备及存储介质 | |
CN115310685A (zh) | 一种基于参数修正的水电机组全生命周期成本计算方法 | |
CN110781206A (zh) | 一种学习拆回表故障特征规则预测在运电能表是否故障的方法 | |
CN112990584B (zh) | 一种基于深度强化学习的自动生产决策系统及方法 | |
CN116628220A (zh) | 基于关系图卷积神经网络的电力工作票生成方法及系统 | |
CN114662009B (zh) | 一种基于图卷积的工业互联网工厂协同推荐方法 | |
CN116226404A (zh) | 一种针对肠-脑轴的知识图谱构建方法及知识图谱系统 | |
Nguyen et al. | Context tree maximizing | |
CN115081551A (zh) | 基于K-Means聚类和优化RVM线损模型建立方法及系统 | |
CN117980840A (zh) | 用于基板处理的机器学习平台 | |
Ghahramani et al. | An AI-based Multi-objective Optimization Approach for Monitoring Manufacturing Processes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |