CN114625883A

CN114625883A - 一种面向工业设备异常监测的时序数据与知识融合表征方法

Info

Publication number: CN114625883A
Application number: CN202210126690.XA
Authority: CN
Inventors: 王成; 唐昊
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2022-02-10
Filing date: 2022-02-10
Publication date: 2022-06-14

Abstract

本发明属于工业设备异常监测领域，提出了一种面向工业设备异常监测的时序数据与知识融合表征方法。其特征在于，包括如下步骤：步骤1.预处理；步骤2.构建“设备‑事件‑状态”多层关联图谱，并通过引入数据关联、时间关联、先验关联进行更新；步骤3.网络表征学习。解决了传统设备数据库专业性强、适应性弱的弊病，为工业互联网场景中数据的自动化处理提供了新的思路和解决方法。

Description

一种面向工业设备异常监测的时序数据与知识融合表征方法

技术领域

本发明属于工业设备异常监测领域，尤其涉及一种面向工业设备异常监测的时序数据与知识融合表征方法。

背景技术

特征的质量将直接影响模型的性能，在机器学习任务中，通常这也是最为耗时且对相关领域的专业知识要求最高的步骤。如果有经过提炼的对于原始数据的更好表达，往往可以使得后续任务事倍功半。即找到对于原始数据更好的处理方法，以方便后续任务使用。

在工业大数据领域的特征处理技术上，现有传统的做法主要是基于关系型数据库，由领域内专家结合业务知识以手动构造的形式来开展，这种做法存在以下问题：(1)数据量大，仅依靠人工的特征工程费时费力，关联性丢失严重，缺乏一种适合工业场景的数据分层标准；(2)专家知识效用发挥有限，与设备原始数据融合程度低。

发明内容

针对现有技术的问题，本发明设计一种能够充分利用设备的业务知识关联和数据信息关联的融合表征方法，利用关联图谱技术将关系型的设备数据以图的形式表示，设计了“设备-事件-状态”多层深度感知结构的关联图谱，充分挖掘关联信息、利用专家知识，实现专家知识与数据的充分融合；然后利用网络表征方法针对知识图谱网络学习到其每一个节点向量表示，这些向量保持原网络的结构特性并隐含有利于设备异常检测的潜在特性，为后续工业设备的异常监测任务提供了兼具深度和广度的特征。

技术方案

一种面向工业设备异常监测的时序数据与知识融合表征方法，其特征在于，包括如下步骤：

步骤1.预处理

步骤1.1划分并收集原始数据

划分工业设备功能单元，根据功能单元收集所需要的原始数据；

步骤1.2预处理

根据功能单元收集的原始数据大多都是不完整、不一致的脏数据，无法直接参与模型的计算，因此对原始的数据进行预处理；具体为：首先对带噪声的原始数据进行平滑，然后按照功能将相关的数据整合在一起；

步骤1.3离散化处理

对原始工业设备事件数据中的所有属性进行离散化处理；具体如下：

对于离散型数据，保留其原本的离散性；对于连续型数据，根据业务特点设置基本单元，将原始属性值量化为基本单元的倍数，使其变为离散型数据。

步骤2.构建“设备-事件-状态”多层关联图谱，并通过引入数据关联、时间关联、先验关联进行更新

步骤2.1对预处理结束之后的数据，构建多层次融合的分层关联图谱

所述分层关联图谱分为图谱设备层，图谱事件层和图谱状态层：

所述图谱设备层是由不同设备组成的空间,即D＝{a₁,a₂,…,b₁,b₂,…}，其中a₁,a₂,…,b₁,b₂,…为不同元设备；

所述图谱事件层是由发生的不同事件组成的序列空间，即E＝{e₁,e₂,e₃,…}，其中e₁,e₂,e₃,…代表设备相关的不可再分的元事件，事件类型包括正常事件和异常事件；

所述图谱状态层是由设备的不同特征组成的空间，即A＝{n₁,n₂,…,T₁,T₂,…,i₁,i₂,…}。其中，n₁,n₂,…,T₁,T₂,…,i₁,i₂,…为不同元状态；

遍历图谱设备层中的设备节点，通过有向边与图谱事件层中所有正常事件节点相连接，有向边权重设置为该正常事件发生的时间(D→E)；

遍历图谱设备层中的设备节点，通过有向边将图谱事件层中所有异常事件节点与设备层对应节点相连接，有向边权重设置为该异常事件发生的时间(E→D)；

遍历图谱事件层中的事件节点，通过有向边将该事件节点与图谱状态层中所有相关联的状态节点相连接，有向边权重设置为该状态所属的功能模块类型，所述功能模块类型需统一编码(E→A)；

遍历图谱事件层中的事件节点，通过有向边将该事件节点与存在依赖关系的其他事件节点连接，有向边权重设置为两个事件发生的时间间隔(E→E)；

通过这种方法，得到的分层图谱可表示为

G1＝(V1,R1),

其中节点集合V1＝D∪E∪A,

有向边集合R1＝D→E∪E→D∪E→A∪E→E，

其中，D→E表示由设备层到事件层有向边的集合，E→D由事件层到设备层有向边的集合，E→A表示由事件层到状态层有向边的集合，E→E表示事件间有向边的集合；

步骤2.2通过引入数据关联、时间关联、先验关联以更新所述“设备-事件-状态”多层关联图谱，并根据设备之间的关联性和概率分布情况进行建模得到一张完整的概率图模型

步骤2.2.1通过对预处理后的原始数据特征进行统计分析并辅以历史的经验知识，引入状态层上的数据关联，引入历史数据中的相关设备，并更新节点集合V1，得到新集合V2；

步骤2.2.2本发明通过引入时间关联，进一步丰富设备层和事件层之间的关联信息；

具体来说，每当设备的一个事件在t_i时刻发生，连结对应的设备节点和事件节点，给对应的边赋予相应的权重t_i，并且对D→E和E→D中的相关边进行更新操作；更新后边的集合为R2；引入时间关联后的关联图谱可表示为：

G2＝(V2,R2)，其中，V2,R2的意义同V1，R1。

步骤2.2.3专家知识融合贝叶斯网络模型，根据设备之间的关联性和概率分布情况进行建模得到一张完整的概率图模型。

本发明用专家知识融合贝叶斯网络模型，综合多名领域专家知识经过决策得到了一个包含先验知识的网络结构G3＝(V3,R3)，去除绝大多数不可能的网络结构；其中V3＝{S₁,S₂,...,S_n}代表一组设备状态S_n的随机特征变量(变量序列)，R3代表有向边的集合，其中，V3,R3的意义同V1，R1；

因为也存在专家意见不统一的情况，以及包含专家知识无法包含的隐性关联，专家知识得到的网络结构并不是最终的网络结构，需要再使用学习算法(如K2算法)对V3进行处理以获取更准确的结构表达，得到最终的网络结构G4＝(V4,R4)，其中，V4,R4的意义同V1，R1。

最后利用G4＝(V4,R4)对G2＝(V2,R2)进行更新：对于V2中没有出现的节点，利用V4的节点集合对V2进行更新，对于R2中存在但是R4中不存在的边，予以删除，对于R2中不存在但是R4中存在的边，予以补充。最终得到了多层关联图谱G5＝(V5,R5)，其中，V5,R5的意义同V1，R1。

步骤3.网络表征学习

基于上述步骤中所构建的信息网络图G5，首先得到G5中设备-事件-状态节点的邻接矩阵Z，根据Z得到度矩阵

然后采用异质网络表征学习方法，通过多次图卷积层学习特征，如公式(1)；

其中，

W^(l)为权重矩阵，使用随机值初始化，是可训练的参数矩阵。

H^(l)为输入向量，H⁽⁰⁾通过随机游走(现有技术)对图进行采样从G5中得到，

l代表神经网络的第l层，

σ代表激活函数(如Sigmoid函数)，

I_n是单位矩阵；

实施中根据需求和复杂度确定神经网络的层数L，使用上述公式经过叠加多次卷积层得到最终特征表示H^(L)。

进一步的，步骤2.2.3具体的构建方式如下：

①假设选定变量序列中，任意两个变量之间都存在依赖关系，并且通过S_i→S_j与S_j→S_i对这些变量进行连接，得到完全潜在图G′；

②基于变量序列S_n涉及到设备信息，选定多个专家，基于自己的业务知识分别对步骤①潜在图G′中的任意一组变量S和S_j之间的因果关系进行可信度分配,并得到专家信度。

③根据m(A)＝K∑m₁(A₁)m₂(A₂)…m_n(A_n)对所述专家知识进行融合，决定变量之间的因果关系，对步骤②完全潜在图G′进行修剪，得到G3＝(V3,R3)；其中:K＝(1-∑m₁(A₁)m₂(A₂)…m_n(A_n))^-1并且A₁∩A₂∩…∩A_n＝A，A为所包含的假设，A_n为第n个专家的假设；

④采用K2学习算法，在剩下的搜索空间进一步寻找更好的网络结构，输入变量序列{S₁,S₂,…,S_t}，共有t个变量,以及该变量序列父节点的上限值k(k为正整数)；

⑤对于步骤④每一个变量S_i，从空节点集开始，依据步骤③得到修剪后的潜在图G3和评分函数F计算候选父节点组合的评分值，逐步增加父节点的数目，当增加了父节点的数目而评分值不增加或者父节点数目达到k个时，算法结束,最终得到G4。所述评分函数F如公式(3)

其中，

式中，Π(s_i)为节点s_i父节点的组合，

为取值条件下组合的个数，r_i表示节点s_i的可能状态数，q_i表示s_i父节点的状态数；N_ijk表示节点s_i取第i个值并且它的父节点取第j个值组合的个数，

有益效果

本发明提出的一种基于关联图谱的网络表征学习方法，解决了传统设备数据库专业性强、适应性弱的弊病，为工业互联网场景中数据的自动化处理提供了新的思路和解决方法：

1.提出了一种工业设备繁杂数据分层结构化处理的方法，有效解决传统人工提取特征方法的局限性，同时优化了关联信息的保留。

2.通过以数据关联、时间关联、先验关联的形式增强了多层关联图谱的信息，促进了专家知识和设备原始数据的深度融合。

附图说明

图1本发明面向工业设备异常监测的时序数据与知识融合表征方法流程图；

图2本发明面向工业设备异常监测的时序数据与知识融合表征方法架构图；

图3本发明贝叶斯网络以先验关联引入专家知识示意图；

图4本实施例专家知识融合贝叶斯网络结构建模流程图。

具体实施方式

下面将结合具体实施例及其附图对本申请提供的技术方案作进一步说明。结合下面说明，本申请的优点和特征将更加清楚。

需要说明的是，本申请的实施例有较佳的实施性，并非是对本申请任何形式的限定。本申请实施例中描述的技术特征或者技术特征的组合不应当被认为是孤立的，它们可以被相互组合从而达到更好的技术效果。本申请优选实施方式的范围也可以包括另外的实现，且这应被本申请实施例所属技术领域的技术人员所理解。

实施例1

本实施例以发电厂数据集为研究对象，如图1，处理过程包括如下步骤：

步骤1预处理

预处理的过程即将原始数据进行加工处理并以适当的方式存储，使得这些数据能更好的被用来进行模型训练。综合运用均值、中位数对缺失值进行补充，再利用公式(X_i-μ)/σ进行标准化，其中X_i为进行标准化的属性，μ为属性X_i的均值，σ为属性X_i的标准差。对于文本字段和浮点数字段进行数值化，比如锅炉的状态包括启动，预热，运转，安全阀故障，过热器故障等不同的文本字段，对于这些字段，必须都进行编码，启动设置为000，预热设置为001，运转设置为010，安全阀故障设置为011，过热器故障设置为100等。对于离散型数据，保留其原本的离散性；对于连续型数据，根据不同的业务特点设置基本单元。根据设备的功能划分，包括变电模块、预热模块、加热模块、凝结模块、散热模块、发电模块，然后对于每个功能模块再确定其基本单元字段名，作为实施例，在散热模块中，与风扇相关的字段包括：采集风扇数据的时间TimeStamp，风扇叶片1的角度pitch1_angle，风扇叶片1的速度pitch1_speed。风扇X轴方向加速度acc_x，风扇y轴方向的加速度acc_y，风扇是否发生异常标签Label等，经预处理后类型为整型。

以本实施例发电厂数据集为例，该数据中的一些原始字段以及被处理后的部分字段列表如下。

表1原始字段以及处理后的部分字段

字段名	数据类型	字段描述	预处理后类型
				TimeStamp	字符串	数据采集的时间	整型
pitch1_angle	浮点型	叶片1的角度	整型
				pitch1_speed	浮点型	叶片1的速度	整型
moto_tmp	浮点型	电机1的温度	整型
				acc_x	浮点型	x方向加速度	整型
acc_y	浮点型	y方向加速度	整型
				Label	字符串	设备单元是否发生异常的标签	整型

表2某发电功能单位(Unit11)的部分属性集合

从表1可以看出，原始字段大部分字符串类型的数据、浮点数值类型的数据被转换为特征属性；对于过短的序列数据或缺失值较多的序列予以舍弃，对于缺失值使用中位数填充。

预处理不仅包含前面提到的数据清理和数据集成，并且在数据变换过程中，还将连续型浮点数转换成方便后续计算的可计算的离散型变量。

从表2可以看出工业场景下设备繁杂、数据量巨大。

步骤2构建多层关联图谱

对预处理模块输出之后的大量数据，本发明构建了多层次融合的多层关联图谱。关联图谱分为设备层，事件层和状态层。构建的图谱设备层是由不同的设备组成的空间,即D＝{a₁,a₂,…,b₁,b₂,…}；a₁,a₂和b₁,b₂是异构类型工业设备组，a₁和a₂以及b₁和b₂分别是同构类型工业设备组中的不同元设备组成；事件层是由发生的不同事件组成的序列空间，即E＝{e₁,e₂,e₃,…},其中e₁，e₂，e₃分别代表设备相关的不可再分的元事件；状态层是由设备的不同特征组成的空间，即A＝{n₁,n₂,…,T₁,T₂,…,i₁,i₂,…}。n₁,n₂和T₁,T₂和i₁,i₂是异构类型工业状态组，n₁和n₂，T₁和T₂以及i₁和i₂分别是同构类型工业状态组中的不同元状态组成。

本实施例发电厂数据集中：

设备层包括鼓风机、汽动给水泵、凝结水泵、加热器、炉水循环泵、凝结式汽轮机、电机、风扇等；

事件层由水泵设备相关的开泵、固定周期的水泵运行数据收集、水泵关泵等事件，凝结式汽轮机设备相关的汽轮机试运行、新蒸汽管路冲洗、油系统清洗、电路试验等事件，以及其他不同设备发生的一系列事件组成；

状态层由这些事件的不同属性组成，包括转速ω，温度T，电流I等。

通过这种方法，我们到的分层图谱可表示为G1＝(V1,R1),

其中节点集合V1＝D∪E∪A,

有向边集合R1＝D→E∪E→D∪E→A∪E→E，

其中，D→E表示由设备层到事件层有向边的集合，E→D由事件层到设备层有向边的集合，E→A表示由事件层到状态层有向边的集合，E→E表示由事件层间有向边的集合；

步骤2.2关联图谱更新

步骤2.2.1首先，对预处理后的原始数据特征进行统计分析，引入状态层上的数据关联；

步骤2.2.2进一步，通过引入时间关联，进一步丰富设备层和事件层之间的关联信息，具体来说，每当设备的一个事件发生，连结对应的设备节点和事件节点，并且给对应的边赋予相应的权重，每当设备的一个事件在t_i时刻发生，连结对应的设备节点和事件节点，并且给对应的边赋予相应的权重t_i,比如锅炉设备A₁发生了在t₁时刻发生了锅炉启动事件e₁，那么引入相对应的边m₁,由A₁指向e₁，权重为事件发生的时间t₁；

步骤2.2.3最后，本发明用专家知识融合贝叶斯网络模型利用领域专家知识来确定一个包含先验知识的网络结构G3＝(V3,R3)，去除绝大多数不可能的网络结构；

其中V3＝{S₁,S₂,...,S_n}代表一组设备状态S_n的随机特征变量(变量序列)，而R3代表有向边的集合。

上述贝叶斯网络可表示成B＝(G3,θ)，其中θ＝(θ_1,θ₂,…,θ_n)表示网络的条件概率参数集合。

因为也存在专家意见不统一的情况，以及包含专家知识无法包含的隐性关联，专家知识得到的网络结构并不是最终的网络结构，需要再经过学习算法(本实施例使用K2算法)获取更准确的结构表达，经过学习得到最终的网络结构G4＝(V4,R4)。

比如设备X1在时刻t1时的状态是S1，设备X2在在时刻t1时的状态是S2，选取了四名专家，对于专家1来说，通过对历史数据进行分析并结合自己的专业知识得知，状态S1发生变化时可能会导致S2也发生变化在历史数据中的概率为0.3；对于专家2来说，通过对历史数据进行分析并结合自己的专业知识得知，状态S1发生变化时可能会导致S2也发生变化在历史数据中的概率为0.6；对于专家3来说，通过对历史数据进行分析并结合自己的专业知识得知，状态S1发生变化时可能会导致状态S2也发生变化在历史数据中的概率为0.3；对于专家4来说，通过对历史数据进行分析并结合自己的专业知识得知，状态S1发生变化时可能会导致状态S2也发生变化在历史数据中的概率为0.1，合成后的最终结果为0.77，因此添加一条X1->X2来表示设备存在随机变量存在的因果关联性。对其他的变量也进行相应的专家知识融合，最终初步得到网络结构，进一步再通过K2算法在剩下的搜索空间中学习最好的网络结构。

步骤2.2.3具体的构建方式详述如下，如图4所示：

其中，

式中，∏(s_i)为节点s_i父节点的组合，

最后利用G4＝(V4,R4)对G2＝(V2,R2)进行更新：对于V2中没有出现的节点，利用V4的节点集合对V2进行更新，对于R2中存在但是R4中不存在的边，予以删除，对于R2中不存在但是R4中存在的边，予以补充。最终得到了多层关联图谱G5＝(V5,R5)。

经过以上步骤，所有原始数据可以通过实体和关系形式存储，形成一个包含实体之间共同出现在一次记录中的共现关联、事件之间在时间顺序上先后出现的时空关联、各实体之间的专家知识定义的先验关联等隐性关联的全方面融合的知识图谱网络G5，在此网络上结合多元化检索、复杂图谱分析、数据挖掘等技术，可以为工业互联网模型层面提供了兼具深度和广度的特征。

步骤3网络表征学习

通过该方案，实现了业务数据与专家知识的融合，得到了全方面融合的知识图谱网络。该知识图谱网络蕴含的专家知识，可以供后续异常检测提供参考和依据。进一步通过将目标网络从网络结构转换到向量空间，通过网络表征学习的图神经网络技术，对关联图谱的结构信息与特征信息进行抽取生成节点或者边的表示向量，通过公式(1)；

得到最终的特征表示。

将步骤3得到的特征输入XGBoost分类器，根据检测结果计算召回率recall，打扰率disturb。如公式(2)所示：

其中，将正类判定为正类的总数量为TP、将负类判定为正类的总数量为FP、将正类判定为负类的总数量为FN和将负类判定为负类的总数量为TN。

比较使用以下4种特征的检测结果：

本发明方法得到的特征(G5-图特征)、结构化数据下的原始特征、原始特征引入专家知识特征和G2关联图谱下的图特征，控制分类器相同，以及分类器参数相同，结果如下表：

在工业设备异常检测领域，1％以上的召回率提升视为有重要意义的技术改进，我们对比了结构化数据下的原始特征、原始特征+专家特征、G2关联图谱下的图特征，得出在打扰率(误拦截率)小于2.0％，1.0％，0.5％下的召回率，并由此来评价系统的性能，并选择XGBoost分类器作为代表，我们分析实验结果，可以看出图谱表征方法能够充分利用工业的原始数据，学到更好的特征，知识融合更是对图谱表征具有重要意义，与最初的原始特征相比，在不同的打扰率水平下，与原始特征相比，均有3％以上召回率的提升，优于现有研究，证明了我们融合表征方法的有效性。

参考文献：

[1]West J,Bhattacharya M.Intelligent financial fraud detection:acomprehensive review.Computers&Security,2016,57:47-66.

[2]Bhattacharyya S,Jha S,Tharakunnel K K,Westland J C.Data mining forcredit card fraud:a comparative study.Decision Support Systems,2011,50(3):602-613.

[3]Chen R C,Chen T S,Lin C C.A new binary support vector system forincreasing detection rate of credit card fraud.International Journal ofPattern Recognition,2006,20(2):227–239.

[4]Pedro M D.A few useful things to know about machinelearning.Commun.ACM,2012,55(10):78–87.

[5]姜红德.工业互联网和两化深度"融合"殊路同归[J].中国信息化,2014,000(019):11-13.

[6]Weston D J,Hand D J,Adams N M,Whitrow C,Juszczak P.Plastic cardfraud detection using peer group analysis.Advances in Data Analysis andClassification,2008,2(1):45-62.

[7]Jurgovsky J,Granitzer M,Ziegler K,Calabretto S,Portier P E,GueltonL H,Caelen O.Sequence classification for credit-card fraud detection.ExpertSyst.Appl.,2018,100:234-245.