CN114625883A - 一种面向工业设备异常监测的时序数据与知识融合表征方法 - Google Patents

一种面向工业设备异常监测的时序数据与知识融合表征方法 Download PDF

Info

Publication number
CN114625883A
CN114625883A CN202210126690.XA CN202210126690A CN114625883A CN 114625883 A CN114625883 A CN 114625883A CN 202210126690 A CN202210126690 A CN 202210126690A CN 114625883 A CN114625883 A CN 114625883A
Authority
CN
China
Prior art keywords
event
layer
data
association
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210126690.XA
Other languages
English (en)
Inventor
王成
唐昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202210126690.XA priority Critical patent/CN114625883A/zh
Publication of CN114625883A publication Critical patent/CN114625883A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于工业设备异常监测领域,提出了一种面向工业设备异常监测的时序数据与知识融合表征方法。其特征在于,包括如下步骤:步骤1.预处理;步骤2.构建“设备‑事件‑状态”多层关联图谱,并通过引入数据关联、时间关联、先验关联进行更新;步骤3.网络表征学习。解决了传统设备数据库专业性强、适应性弱的弊病,为工业互联网场景中数据的自动化处理提供了新的思路和解决方法。

Description

一种面向工业设备异常监测的时序数据与知识融合表征方法
技术领域
本发明属于工业设备异常监测领域,尤其涉及一种面向工业设备异常监测的时序数据与知识融合表征方法。
背景技术
特征的质量将直接影响模型的性能,在机器学习任务中,通常这也是最为耗时且对相关领域的专业知识要求最高的步骤。如果有经过提炼的对于原始数据的更好表达,往往可以使得后续任务事倍功半。即找到对于原始数据更好的处理方法,以方便后续任务使用。
在工业大数据领域的特征处理技术上,现有传统的做法主要是基于关系型数据库,由领域内专家结合业务知识以手动构造的形式来开展,这种做法存在以下问题:(1)数据量大,仅依靠人工的特征工程费时费力,关联性丢失严重,缺乏一种适合工业场景的数据分层标准;(2)专家知识效用发挥有限,与设备原始数据融合程度低。
发明内容
针对现有技术的问题,本发明设计一种能够充分利用设备的业务知识关联和数据信息关联的融合表征方法,利用关联图谱技术将关系型的设备数据以图的形式表示,设计了“设备-事件-状态”多层深度感知结构的关联图谱,充分挖掘关联信息、利用专家知识,实现专家知识与数据的充分融合;然后利用网络表征方法针对知识图谱网络学习到其每一个节点向量表示,这些向量保持原网络的结构特性并隐含有利于设备异常检测的潜在特性,为后续工业设备的异常监测任务提供了兼具深度和广度的特征。
技术方案
一种面向工业设备异常监测的时序数据与知识融合表征方法,其特征在于,包括如下步骤:
步骤1.预处理
步骤1.1划分并收集原始数据
划分工业设备功能单元,根据功能单元收集所需要的原始数据;
步骤1.2预处理
根据功能单元收集的原始数据大多都是不完整、不一致的脏数据,无法直接参与模型的计算,因此对原始的数据进行预处理;具体为:首先对带噪声的原始数据进行平滑,然后按照功能将相关的数据整合在一起;
步骤1.3离散化处理
对原始工业设备事件数据中的所有属性进行离散化处理;具体如下:
对于离散型数据,保留其原本的离散性;对于连续型数据,根据业务特点设置基本单元,将原始属性值量化为基本单元的倍数,使其变为离散型数据。
步骤2.构建“设备-事件-状态”多层关联图谱,并通过引入数据关联、时间关联、先验关联进行更新
步骤2.1对预处理结束之后的数据,构建多层次融合的分层关联图谱
所述分层关联图谱分为图谱设备层,图谱事件层和图谱状态层:
所述图谱设备层是由不同设备组成的空间,即D={a1,a2,…,b1,b2,…},其中a1,a2,…,b1,b2,…为不同元设备;
所述图谱事件层是由发生的不同事件组成的序列空间,即E={e1,e2,e3,…},其中e1,e2,e3,…代表设备相关的不可再分的元事件,事件类型包括正常事件和异常事件;
所述图谱状态层是由设备的不同特征组成的空间,即A={n1,n2,…,T1,T2,…,i1,i2,…}。其中,n1,n2,…,T1,T2,…,i1,i2,…为不同元状态;
遍历图谱设备层中的设备节点,通过有向边与图谱事件层中所有正常事件节点相连接,有向边权重设置为该正常事件发生的时间(D→E);
遍历图谱设备层中的设备节点,通过有向边将图谱事件层中所有异常事件节点与设备层对应节点相连接,有向边权重设置为该异常事件发生的时间(E→D);
遍历图谱事件层中的事件节点,通过有向边将该事件节点与图谱状态层中所有相关联的状态节点相连接,有向边权重设置为该状态所属的功能模块类型,所述功能模块类型需统一编码(E→A);
遍历图谱事件层中的事件节点,通过有向边将该事件节点与存在依赖关系的其他事件节点连接,有向边权重设置为两个事件发生的时间间隔(E→E);
通过这种方法,得到的分层图谱可表示为
G1=(V1,R1),
其中节点集合V1=D∪E∪A,
有向边集合R1=D→E∪E→D∪E→A∪E→E,
其中,D→E表示由设备层到事件层有向边的集合,E→D由事件层到设备层有向边的集合,E→A表示由事件层到状态层有向边的集合,E→E表示事件间有向边的集合;
步骤2.2通过引入数据关联、时间关联、先验关联以更新所述“设备-事件-状态”多层关联图谱,并根据设备之间的关联性和概率分布情况进行建模得到一张完整的概率图模型
步骤2.2.1通过对预处理后的原始数据特征进行统计分析并辅以历史的经验知识,引入状态层上的数据关联,引入历史数据中的相关设备,并更新节点集合V1,得到新集合V2;
步骤2.2.2本发明通过引入时间关联,进一步丰富设备层和事件层之间的关联信息;
具体来说,每当设备的一个事件在ti时刻发生,连结对应的设备节点和事件节点,给对应的边赋予相应的权重ti,并且对D→E和E→D中的相关边进行更新操作;更新后边的集合为R2;引入时间关联后的关联图谱可表示为:
G2=(V2,R2),其中,V2,R2的意义同V1,R1。
步骤2.2.3专家知识融合贝叶斯网络模型,根据设备之间的关联性和概率分布情况进行建模得到一张完整的概率图模型。
本发明用专家知识融合贝叶斯网络模型,综合多名领域专家知识经过决策得到了一个包含先验知识的网络结构G3=(V3,R3),去除绝大多数不可能的网络结构;其中V3={S1,S2,...,Sn}代表一组设备状态Sn的随机特征变量(变量序列),R3代表有向边的集合,其中,V3,R3的意义同V1,R1;
因为也存在专家意见不统一的情况,以及包含专家知识无法包含的隐性关联,专家知识得到的网络结构并不是最终的网络结构,需要再使用学习算法(如K2算法)对V3进行处理以获取更准确的结构表达,得到最终的网络结构G4=(V4,R4),其中,V4,R4的意义同V1,R1。
最后利用G4=(V4,R4)对G2=(V2,R2)进行更新:对于V2中没有出现的节点,利用V4的节点集合对V2进行更新,对于R2中存在但是R4中不存在的边,予以删除,对于R2中不存在但是R4中存在的边,予以补充。最终得到了多层关联图谱G5=(V5,R5),其中,V5,R5的意义同V1,R1。
步骤3.网络表征学习
基于上述步骤中所构建的信息网络图G5,首先得到G5中设备-事件-状态节点的邻接矩阵Z,根据Z得到度矩阵
Figure BDA0003500705300000041
然后采用异质网络表征学习方法,通过多次图卷积层学习特征,如公式(1);
Figure BDA0003500705300000042
其中,
W(l)为权重矩阵,使用随机值初始化,是可训练的参数矩阵。
H(l)为输入向量,H(0)通过随机游走(现有技术)对图进行采样从G5中得到,
l代表神经网络的第l层,
σ代表激活函数(如Sigmoid函数),
Figure BDA0003500705300000043
In是单位矩阵;
实施中根据需求和复杂度确定神经网络的层数L,使用上述公式经过叠加多次卷积层得到最终特征表示H(L)
进一步的,步骤2.2.3具体的构建方式如下:
①假设选定变量序列中,任意两个变量之间都存在依赖关系,并且通过Si→Sj与Sj→Si对这些变量进行连接,得到完全潜在图G′;
②基于变量序列Sn涉及到设备信息,选定多个专家,基于自己的业务知识分别对步骤①潜在图G′中的任意一组变量S和Sj之间的因果关系进行可信度分配,并得到专家信度。
③根据m(A)=K∑m1(A1)m2(A2)…mn(An)对所述专家知识进行融合,决定变量之间的因果关系,对步骤②完全潜在图G′进行修剪,得到G3=(V3,R3);其中:K=(1-∑m1(A1)m2(A2)…mn(An))-1并且A1∩A2∩…∩An=A,A为所包含的假设,An为第n个专家的假设;
④采用K2学习算法,在剩下的搜索空间进一步寻找更好的网络结构,输入变量序列{S1,S2,…,St},共有t个变量,以及该变量序列父节点的上限值k(k为正整数);
⑤对于步骤④每一个变量Si,从空节点集开始,依据步骤③得到修剪后的潜在图G3和评分函数F计算候选父节点组合的评分值,逐步增加父节点的数目,当增加了父节点的数目而评分值不增加或者父节点数目达到k个时,算法结束,最终得到G4。所述评分函数F如公式(3)
Figure BDA0003500705300000051
其中,
Figure BDA0003500705300000052
式中,Π(si)为节点si父节点的组合,
Figure BDA0003500705300000053
为取值条件下组合的个数,ri表示节点si的可能状态数,qi表示si父节点的状态数;Nijk表示节点si取第i个值并且它的父节点取第j个值组合的个数,
Figure BDA0003500705300000054
有益效果
本发明提出的一种基于关联图谱的网络表征学习方法,解决了传统设备数据库专业性强、适应性弱的弊病,为工业互联网场景中数据的自动化处理提供了新的思路和解决方法:
1.提出了一种工业设备繁杂数据分层结构化处理的方法,有效解决传统人工提取特征方法的局限性,同时优化了关联信息的保留。
2.通过以数据关联、时间关联、先验关联的形式增强了多层关联图谱的信息,促进了专家知识和设备原始数据的深度融合。
附图说明
图1本发明面向工业设备异常监测的时序数据与知识融合表征方法流程图;
图2本发明面向工业设备异常监测的时序数据与知识融合表征方法架构图;
图3本发明贝叶斯网络以先验关联引入专家知识示意图;
图4本实施例专家知识融合贝叶斯网络结构建模流程图。
具体实施方式
下面将结合具体实施例及其附图对本申请提供的技术方案作进一步说明。结合下面说明,本申请的优点和特征将更加清楚。
需要说明的是,本申请的实施例有较佳的实施性,并非是对本申请任何形式的限定。本申请实施例中描述的技术特征或者技术特征的组合不应当被认为是孤立的,它们可以被相互组合从而达到更好的技术效果。本申请优选实施方式的范围也可以包括另外的实现,且这应被本申请实施例所属技术领域的技术人员所理解。
实施例1
本实施例以发电厂数据集为研究对象,如图1,处理过程包括如下步骤:
步骤1预处理
预处理的过程即将原始数据进行加工处理并以适当的方式存储,使得这些数据能更好的被用来进行模型训练。综合运用均值、中位数对缺失值进行补充,再利用公式(Xi-μ)/σ进行标准化,其中Xi为进行标准化的属性,μ为属性Xi的均值,σ为属性Xi的标准差。对于文本字段和浮点数字段进行数值化,比如锅炉的状态包括启动,预热,运转,安全阀故障,过热器故障等不同的文本字段,对于这些字段,必须都进行编码,启动设置为000,预热设置为001,运转设置为010,安全阀故障设置为011,过热器故障设置为100等。对于离散型数据,保留其原本的离散性;对于连续型数据,根据不同的业务特点设置基本单元。根据设备的功能划分,包括变电模块、预热模块、加热模块、凝结模块、散热模块、发电模块,然后对于每个功能模块再确定其基本单元字段名,作为实施例,在散热模块中,与风扇相关的字段包括:采集风扇数据的时间TimeStamp,风扇叶片1的角度pitch1_angle,风扇叶片1的速度pitch1_speed。风扇X轴方向加速度acc_x,风扇y轴方向的加速度acc_y,风扇是否发生异常标签Label等,经预处理后类型为整型。
以本实施例发电厂数据集为例,该数据中的一些原始字段以及被处理后的部分字段列表如下。
表1原始字段以及处理后的部分字段
字段名 数据类型 字段描述 预处理后类型
TimeStamp 字符串 数据采集的时间 整型
pitch1_angle 浮点型 叶片1的角度 整型
pitch1_speed 浮点型 叶片1的速度 整型
moto_tmp 浮点型 电机1的温度 整型
acc_x 浮点型 x方向加速度 整型
acc_y 浮点型 y方向加速度 整型
Label 字符串 设备单元是否发生异常的标签 整型
表2某发电功能单位(Unit11)的部分属性集合
Figure BDA0003500705300000071
Figure BDA0003500705300000081
从表1可以看出,原始字段大部分字符串类型的数据、浮点数值类型的数据被转换为特征属性;对于过短的序列数据或缺失值较多的序列予以舍弃,对于缺失值使用中位数填充。
预处理不仅包含前面提到的数据清理和数据集成,并且在数据变换过程中,还将连续型浮点数转换成方便后续计算的可计算的离散型变量。
从表2可以看出工业场景下设备繁杂、数据量巨大。
步骤2构建多层关联图谱
步骤2.1对预处理结束之后的数据,构建多层次融合的分层关联图谱
对预处理模块输出之后的大量数据,本发明构建了多层次融合的多层关联图谱。关联图谱分为设备层,事件层和状态层。构建的图谱设备层是由不同的设备组成的空间,即D={a1,a2,…,b1,b2,…};a1,a2和b1,b2是异构类型工业设备组,a1和a2以及b1和b2分别是同构类型工业设备组中的不同元设备组成;事件层是由发生的不同事件组成的序列空间,即E={e1,e2,e3,…},其中e1,e2,e3分别代表设备相关的不可再分的元事件;状态层是由设备的不同特征组成的空间,即A={n1,n2,…,T1,T2,…,i1,i2,…}。n1,n2和T1,T2和i1,i2是异构类型工业状态组,n1和n2,T1和T2以及i1和i2分别是同构类型工业状态组中的不同元状态组成。
本实施例发电厂数据集中:
设备层包括鼓风机、汽动给水泵、凝结水泵、加热器、炉水循环泵、凝结式汽轮机、电机、风扇等;
事件层由水泵设备相关的开泵、固定周期的水泵运行数据收集、水泵关泵等事件,凝结式汽轮机设备相关的汽轮机试运行、新蒸汽管路冲洗、油系统清洗、电路试验等事件,以及其他不同设备发生的一系列事件组成;
状态层由这些事件的不同属性组成,包括转速ω,温度T,电流I等。
通过这种方法,我们到的分层图谱可表示为G1=(V1,R1),
其中节点集合V1=D∪E∪A,
有向边集合R1=D→E∪E→D∪E→A∪E→E,
其中,D→E表示由设备层到事件层有向边的集合,E→D由事件层到设备层有向边的集合,E→A表示由事件层到状态层有向边的集合,E→E表示由事件层间有向边的集合;
步骤2.2关联图谱更新
步骤2.2.1首先,对预处理后的原始数据特征进行统计分析,引入状态层上的数据关联;
步骤2.2.2进一步,通过引入时间关联,进一步丰富设备层和事件层之间的关联信息,具体来说,每当设备的一个事件发生,连结对应的设备节点和事件节点,并且给对应的边赋予相应的权重,每当设备的一个事件在ti时刻发生,连结对应的设备节点和事件节点,并且给对应的边赋予相应的权重ti,比如锅炉设备A1发生了在t1时刻发生了锅炉启动事件e1,那么引入相对应的边m1,由A1指向e1,权重为事件发生的时间t1
步骤2.2.3最后,本发明用专家知识融合贝叶斯网络模型利用领域专家知识来确定一个包含先验知识的网络结构G3=(V3,R3),去除绝大多数不可能的网络结构;
其中V3={S1,S2,...,Sn}代表一组设备状态Sn的随机特征变量(变量序列),而R3代表有向边的集合。
上述贝叶斯网络可表示成B=(G3,θ),其中θ=(θ1,θ2,…,θn)表示网络的条件概率参数集合。
因为也存在专家意见不统一的情况,以及包含专家知识无法包含的隐性关联,专家知识得到的网络结构并不是最终的网络结构,需要再经过学习算法(本实施例使用K2算法)获取更准确的结构表达,经过学习得到最终的网络结构G4=(V4,R4)。
比如设备X1在时刻t1时的状态是S1,设备X2在在时刻t1时的状态是S2,选取了四名专家,对于专家1来说,通过对历史数据进行分析并结合自己的专业知识得知,状态S1发生变化时可能会导致S2也发生变化在历史数据中的概率为0.3;对于专家2来说,通过对历史数据进行分析并结合自己的专业知识得知,状态S1发生变化时可能会导致S2也发生变化在历史数据中的概率为0.6;对于专家3来说,通过对历史数据进行分析并结合自己的专业知识得知,状态S1发生变化时可能会导致状态S2也发生变化在历史数据中的概率为0.3;对于专家4来说,通过对历史数据进行分析并结合自己的专业知识得知,状态S1发生变化时可能会导致状态S2也发生变化在历史数据中的概率为0.1,合成后的最终结果为0.77,因此添加一条X1->X2来表示设备存在随机变量存在的因果关联性。对其他的变量也进行相应的专家知识融合,最终初步得到网络结构,进一步再通过K2算法在剩下的搜索空间中学习最好的网络结构。
步骤2.2.3具体的构建方式详述如下,如图4所示:
①假设选定变量序列中,任意两个变量之间都存在依赖关系,并且通过Si→Sj与Sj→Si对这些变量进行连接,得到完全潜在图G′;
②基于变量序列Sn涉及到设备信息,选定多个专家,基于自己的业务知识分别对步骤①潜在图G′中的任意一组变量S和Sj之间的因果关系进行可信度分配,并得到专家信度。
③根据m(A)=K∑m1(A1)m2(A2)…mn(An)对所述专家知识进行融合,决定变量之间的因果关系,对步骤②完全潜在图G′进行修剪,得到G3=(V3,R3);其中:K=(1-∑m1(A1)m2(A2)…mn(An))-1并且A1∩A2∩…∩An=A,A为所包含的假设,An为第n个专家的假设;
④采用K2学习算法,在剩下的搜索空间进一步寻找更好的网络结构,输入变量序列{S1,S2,…,St},共有t个变量,以及该变量序列父节点的上限值k(k为正整数);
⑤对于步骤④每一个变量Si,从空节点集开始,依据步骤③得到修剪后的潜在图G3和评分函数F计算候选父节点组合的评分值,逐步增加父节点的数目,当增加了父节点的数目而评分值不增加或者父节点数目达到k个时,算法结束,最终得到G4。所述评分函数F如公式(3)
Figure BDA0003500705300000101
其中,
Figure BDA0003500705300000102
式中,∏(si)为节点si父节点的组合,
Figure BDA0003500705300000103
为取值条件下组合的个数,ri表示节点si的可能状态数,qi表示si父节点的状态数;Nijk表示节点si取第i个值并且它的父节点取第j个值组合的个数,
Figure BDA0003500705300000111
最后利用G4=(V4,R4)对G2=(V2,R2)进行更新:对于V2中没有出现的节点,利用V4的节点集合对V2进行更新,对于R2中存在但是R4中不存在的边,予以删除,对于R2中不存在但是R4中存在的边,予以补充。最终得到了多层关联图谱G5=(V5,R5)。
经过以上步骤,所有原始数据可以通过实体和关系形式存储,形成一个包含实体之间共同出现在一次记录中的共现关联、事件之间在时间顺序上先后出现的时空关联、各实体之间的专家知识定义的先验关联等隐性关联的全方面融合的知识图谱网络G5,在此网络上结合多元化检索、复杂图谱分析、数据挖掘等技术,可以为工业互联网模型层面提供了兼具深度和广度的特征。
步骤3网络表征学习
通过该方案,实现了业务数据与专家知识的融合,得到了全方面融合的知识图谱网络。该知识图谱网络蕴含的专家知识,可以供后续异常检测提供参考和依据。进一步通过将目标网络从网络结构转换到向量空间,通过网络表征学习的图神经网络技术,对关联图谱的结构信息与特征信息进行抽取生成节点或者边的表示向量,通过公式(1);
Figure BDA0003500705300000112
得到最终的特征表示。
将步骤3得到的特征输入XGBoost分类器,根据检测结果计算召回率recall,打扰率disturb。如公式(2)所示:
Figure BDA0003500705300000113
其中,将正类判定为正类的总数量为TP、将负类判定为正类的总数量为FP、将正类判定为负类的总数量为FN和将负类判定为负类的总数量为TN。
比较使用以下4种特征的检测结果:
本发明方法得到的特征(G5-图特征)、结构化数据下的原始特征、原始特征引入专家知识特征和G2关联图谱下的图特征,控制分类器相同,以及分类器参数相同,结果如下表:
Figure BDA0003500705300000121
在工业设备异常检测领域,1%以上的召回率提升视为有重要意义的技术改进,我们对比了结构化数据下的原始特征、原始特征+专家特征、G2关联图谱下的图特征,得出在打扰率(误拦截率)小于2.0%,1.0%,0.5%下的召回率,并由此来评价系统的性能,并选择XGBoost分类器作为代表,我们分析实验结果,可以看出图谱表征方法能够充分利用工业的原始数据,学到更好的特征,知识融合更是对图谱表征具有重要意义,与最初的原始特征相比,在不同的打扰率水平下,与原始特征相比,均有3%以上召回率的提升,优于现有研究,证明了我们融合表征方法的有效性。
参考文献:
[1]West J,Bhattacharya M.Intelligent financial fraud detection:acomprehensive review.Computers&Security,2016,57:47-66.
[2]Bhattacharyya S,Jha S,Tharakunnel K K,Westland J C.Data mining forcredit card fraud:a comparative study.Decision Support Systems,2011,50(3):602-613.
[3]Chen R C,Chen T S,Lin C C.A new binary support vector system forincreasing detection rate of credit card fraud.International Journal ofPattern Recognition,2006,20(2):227–239.
[4]Pedro M D.A few useful things to know about machinelearning.Commun.ACM,2012,55(10):78–87.
[5]姜红德.工业互联网和两化深度"融合"殊路同归[J].中国信息化,2014,000(019):11-13.
[6]Weston D J,Hand D J,Adams N M,Whitrow C,Juszczak P.Plastic cardfraud detection using peer group analysis.Advances in Data Analysis andClassification,2008,2(1):45-62.
[7]Jurgovsky J,Granitzer M,Ziegler K,Calabretto S,Portier P E,GueltonL H,Caelen O.Sequence classification for credit-card fraud detection.ExpertSyst.Appl.,2018,100:234-245.

Claims (3)

1.一种面向工业设备异常监测的时序数据与知识融合表征方法,其特征在于,包括如下步骤:
步骤1.预处理
步骤1.1划分并收集原始数据
划分工业设备功能单元,根据功能单元收集所需要的原始数据;
步骤1.2预处理
对原始的数据进行预处理,具体为:首先对带噪声的原始数据进行平滑,然后按照功能将相关的数据整合在一起;
步骤1.3离散化处理
对原始工业设备事件数据中的所有属性进行离散化处理;
步骤2.构建“设备-事件-状态”多层关联图谱,并通过引入数据关联、时间关联、先验关联进行更新
步骤2.1对预处理结束之后的数据,构建多层次融合的分层关联图谱
所述分层关联图谱分为图谱设备层,图谱事件层和图谱状态层:
所述图谱设备层是由不同设备组成的空间,即D={a1,a2,…,b1,b2,…},其中a1,a2,…,b1,b2,…为不同元设备;
所述图谱事件层是由发生的不同事件组成的序列空间,即E={e1,e2,e3,…},其中e1,e2,e3,…代表设备相关的不可再分的元事件,事件类型包括正常事件和异常事件;
所述图谱状态层是由设备的不同特征组成的空间,即A={n1,n2,…,T1,T2,…,i1,i2,…}。其中,n1,n2,…,T1,T2,…,i1,i2,…为不同元状态;
遍历图谱设备层中的设备节点,通过有向边与图谱事件层中所有正常事件节点相连接,有向边权重设置为该正常事件发生的时间;
遍历图谱设备层中的设备节点,通过有向边将图谱事件层中所有异常事件节点与设备层对应节点相连接,有向边权重设置为该异常事件发生的时间;
遍历图谱事件层中的事件节点,通过有向边将该事件节点与图谱状态层中所有相关联的状态节点相连接,有向边权重设置为该状态所属的功能模块类型,所述功能模块类型需统一编码;
遍历图谱事件层中的事件节点,通过有向边将该事件节点与存在依赖关系的其他事件节点连接,有向边权重设置为两个事件发生的时间间隔;
通过这种方法,得到的分层图谱可表示为
G1=(V1,R1),
其中节点集合V1=D∪E∪A,
有向边集合R1=D→E∪E→D∪E→A∪E→E,
其中,D→E表示由设备层到事件层有向边的集合,E→D由事件层到设备层有向边的集合,E→A表示由事件层到状态层有向边的集合,E→E表示事件间有向边的集合;
步骤2.2通过引入数据关联、时间关联、先验关联以更新所述“设备-事件-状态”多层关联图谱,并根据设备之间的关联性和概率分布情况进行建模得到一张完整的概率图模型
步骤2.2.1通过对预处理后的原始数据特征进行统计分析并辅以历史的经验知识,引入状态层上的数据关联,引入历史数据中的相关设备,并更新节点集合V1,得到新集合V2;
步骤2.2.2本发明通过引入时间关联,进一步丰富设备层和事件层之间的关联信息;
具体来说,每当设备的一个事件在ti时刻发生,连结对应的设备节点和事件节点,给对应的边赋予相应的权重ti,并且对D→E和E→D中的相关边进行更新操作;更新后边的集合R2,引入时间关联后的关联图谱可表示为:
G2=(V2,R2),其中,V2,R2的意义同V1,R1;
步骤2.2.3专家知识融合贝叶斯网络模型,根据设备之间的关联性和概率分布情况进行建模得到一张完整的概率图模型;
本发明用专家知识融合贝叶斯网络模型,综合多名领域专家知识经过决策得到了一个包含先验知识的网络结构G3=(V3,R3),去除绝大多数不可能的网络结构;其中V3={S1,S2,...,Sn}代表一组设备状态Sn的随机特征变量序列,R3代表有向边的集合,其中,V3,R3的意义同V1,R1;
因为也存在专家意见不统一的情况,以及包含专家知识无法包含的隐性关联,专家知识得到的网络结构并不是最终的网络结构,需要使用学习算法对G3进行处理以获取更准确的结构表达,得到最终的网络结构G4=(V4,R4),其中,V4,R4的意义同V1,R1;
最后利用G4=(V4,R4)对G2=(V2,R2)进行更新:对于V2中没有出现的节点,利用V4的节点集合对V2进行更新,对于R2中存在但是R4中不存在的边,予以删除,对于R2中不存在但是R4中存在的边,予以补充;最终得到了多层关联图谱G5=(V5,R5),其中,V5,R5的意义同V1,R1;
步骤3.网络表征学习
基于上述步骤中所构建的信息网络图G5,首先得到G5中设备-事件-状态节点的邻接矩阵Z,根据Z得到度矩阵
Figure FDA0003500705290000031
然后采用异质网络表征学习方法,通过多次图卷积层学习特征,如公式(1);
Figure FDA0003500705290000032
其中,
W(l)为权重矩阵,使用随机值初始化,是可训练的参数矩阵。
H(l)为输入向量,H(0)通过随机游走对图进行采样从G5中得到,
l代表神经网络的第l层,
σ代表激活函数,
Figure FDA0003500705290000033
In是单位矩阵;
实施中根据需求和复杂度确定神经网络的层数L,使用上述公式经过叠加多次卷积层得到最终特征表示H(L)
2.如权利要求1所述一种面向工业设备异常监测的时序数据与知识融合表征方法,其特征在于,步骤1.3离散化处理具体如下:
对于离散型数据,保留其原本的离散性;对于连续型数据,根据业务特点设置基本单元,将原始属性值量化为基本单元的倍数,使其变为离散型数据。
3.如权利要求1所述一种面向工业设备异常监测的时序数据与知识融合表征方法,其特征在于,步骤2.2.3具体的构建方式如下:
①假设选定变量序列中,任意两个变量之间都存在依赖关系,并且通过Si→Sj与Sj→Si对这些变量进行连接,得到完全潜在图G′;
②基于变量序列Sn涉及到设备信息,选定多个专家,基于自己的业务知识分别对步骤①潜在图G′中的任意一组变量S和Sj之间的因果关系进行可信度分配,并得到专家信度。
③根据m(A)=K∑m1(A1)m2(A2)…mn(An)对所述专家知识进行融合,决定变量之间的因果关系,对步骤②完全潜在图G′进行修剪,得到G3=(V3,R3);其中:K=(1-∑m1(A1)m2(A2)…mn(An))-1并且A1∩A2∩…∩An=A,A为所包含的假设,An为第n个专家的假设;
④采用K2学习算法,在剩下的搜索空间进一步寻找更好的网络结构,输入变量序列{S1,S2,…,St},共有t个变量,以及该变量序列父节点的上限值k(k为正整数);
⑤对于步骤④每一个变量Si,从空节点集开始,依据步骤③得到修剪后的潜在图G3和评分函数F计算候选父节点组合的评分值,逐步增加父节点的数目,当增加了父节点的数目而评分值不增加或者父节点数目达到k个时,算法结束,最终得到G4;所述评分函数F如公式(3)
Figure FDA0003500705290000041
其中,
Figure FDA0003500705290000042
式中,Π(si)为节点si父节点的组合,
Figure FDA0003500705290000043
为取值条件下组合的个数,ri表示节点si的可能状态数,qi表示si父节点的状态数;Nijk表示节点si取第i个值并且它的父节点取第j个值组合的个数,
Figure FDA0003500705290000044
CN202210126690.XA 2022-02-10 2022-02-10 一种面向工业设备异常监测的时序数据与知识融合表征方法 Pending CN114625883A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210126690.XA CN114625883A (zh) 2022-02-10 2022-02-10 一种面向工业设备异常监测的时序数据与知识融合表征方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210126690.XA CN114625883A (zh) 2022-02-10 2022-02-10 一种面向工业设备异常监测的时序数据与知识融合表征方法

Publications (1)

Publication Number Publication Date
CN114625883A true CN114625883A (zh) 2022-06-14

Family

ID=81898955

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210126690.XA Pending CN114625883A (zh) 2022-02-10 2022-02-10 一种面向工业设备异常监测的时序数据与知识融合表征方法

Country Status (1)

Country Link
CN (1) CN114625883A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114817375A (zh) * 2022-06-24 2022-07-29 深圳市智联物联科技有限公司 工业互联网数据采集管理系统
CN117196354A (zh) * 2023-11-08 2023-12-08 国网浙江省电力有限公司 一种多模态感知与领域图谱模型的智能决策方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114817375A (zh) * 2022-06-24 2022-07-29 深圳市智联物联科技有限公司 工业互联网数据采集管理系统
CN114817375B (zh) * 2022-06-24 2022-11-01 深圳市智联物联科技有限公司 工业互联网数据采集管理系统
CN117196354A (zh) * 2023-11-08 2023-12-08 国网浙江省电力有限公司 一种多模态感知与领域图谱模型的智能决策方法
CN117196354B (zh) * 2023-11-08 2024-01-30 国网浙江省电力有限公司 一种多模态感知与领域图谱模型的智能决策方法

Similar Documents

Publication Publication Date Title
Sanchez et al. Diffusion causal models for counterfactual estimation
CN114625883A (zh) 一种面向工业设备异常监测的时序数据与知识融合表征方法
CN111553389B (zh) 一种用于理解深度学习模型目标分类决策机制的决策树生成方法
Šikić et al. Graph neural network for source code defect prediction
CN111583031A (zh) 一种基于集成学习的申请评分卡模型建立方法
Chen et al. Majorities help minorities: Hierarchical structure guided transfer learning for few-shot fault recognition
CN114596061A (zh) 一种基于大数据的项目数据管理方法及系统
CN112488171A (zh) 一种变分模式分解的sru故障预测方法
CN113793227A (zh) 一种用于社交网络事件的类人智能感知与预测方法
CN114500004A (zh) 一种基于条件扩散概率生成模型的异常检测方法
CN113989544A (zh) 一种基于深度图卷积网络的群体发现方法
CN114169091A (zh) 工程机械部件剩余寿命的预测模型建立方法及预测方法
Chehida et al. Learning and analysis of sensors behavior in IoT systems using statistical model checking
Chen et al. Learn basic skills and reuse: Modularized adaptive neural architecture search (manas)
Borgi et al. Knowledge based supervised fuzzy-classification: An application to image processing
CN105871630B (zh) 一种确定网络用户的上网行为类别的方法
Louati et al. Embedding channel pruning within the CNN architecture design using a bi-level evolutionary approach
Shanmugasundari et al. Project scheduling problems under fuzzy environment: A new solution approach
da Silva et al. Automated Machine Learning for Time Series Prediction
Prashanthi et al. Defect prediction in software using spiderhunt-based deep convolutional neural network classifier
Li et al. Reduction of the criteria system for identifying effective reservoirs in the joint operation of a flood control system
Li et al. Study on microblog public opinion data mining algorithm based on multi-visual clustering model
Zimmermann Fuzzy data analysis
CN112579667B (zh) 数据驱动的发动机多学科知识机器学习方法及装置
CN115759509B (zh) 复杂系统级数字孪生运行虚实一致性判定与交互方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination