CN115099338A

CN115099338A - 面向电网主设备多源异构质量信息融合处理方法及系统

Info

Publication number: CN115099338A
Application number: CN202210722110.3A
Authority: CN
Inventors: 胡俊华; 蔺家骏; 李晨; 王渊; 丁敬; 许飞; 王雅雯; 王绍安; 陈孝信; 王劭鹤; 马国明
Original assignee: State Grid Zhejiang Electric Power Co Ltd; North China Electric Power University; Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd
Current assignee: State Grid Zhejiang Electric Power Co Ltd; North China Electric Power University; Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2022-06-24
Filing date: 2022-06-24
Publication date: 2022-09-23

Abstract

本发明公开了面向电网主设备多源异构质量信息融合处理方法及系统，属于电网主设备技术领域。本发明的面向电网主设备多源异构质量信息融合处理方法，构建数据抽取模型用于抽取多源异构数据中的实体、关系、属性、属性值，形成易于计算机处理的三元组形式；构建数据清洗模型用于筛选、剔除、修复错误数据；构建数据转换模型用于将格式不一致的多源异构数据转换成统一的目标数据格式，实现用户的无差别访问；构建数据融合模型，用于剔除、互补多源异构数据之间冗余、不足的信息，提高数据间的共享性；进而本发明可以有效减少数据冗余、提高数据质量和数据分析处理效率，增强电网主设备多源异构质量信息之间的共享性和可利用性。

Description

面向电网主设备多源异构质量信息融合处理方法及系统

技术领域

本发明涉及面向电网主设备多源异构质量信息融合处理方法及系统，属于电网主设备技术领域。

背景技术

随着智能电网的快速发展，电网主设备在物资、基建和运维等环节产生的大量质量信息数据能够被传感器、音视频监控通信设备及智能化感知设备等电力数据采集设备迅速捕捉。电网主设备质量信息数据呈现出爆炸性增长趋势，其数据结构也表现出多种形式并存的特征。既包含大量的结构化数据，如电压、电流、电能损耗、电能质量信息数据库等，又包含大量的非结构化数据，如故障案例、处置方案、规范、导则、标准、科研论文等文本。然而电网主设备质量信息的多源异构性严重影响数据间的共享性和可利用性，不利于从中挖掘出潜在的有价值的信息，严重影响电网的互联、共享、开放、智能化发展。亟需采取有效的数据融合方法对多源异构数据进行统一处理，助力智能电网的安全、可靠、稳定运行。

现有的多源异构数据融合系统主要是基于电力企业数据仓库模型、传统的BP反向传播网络、RNN循环神经网络、贝叶斯估计法以及D-S证据理论等算法实现。这些系统在做数据融合时的数据分析处理效率低、特征融合效果差，不适用于电力大数据背景下的海量信息融合。

发明内容

针对现有技术的缺陷，本发明的目的一在于提供一种构建数据抽取模型用于抽取多源异构数据中的实体、关系、属性、属性值，形成易于计算机处理的三元组形式；构建数据清洗模型用于筛选、剔除、修复来自众多数据源中的错误、冗余、不符合规范的数据，达到提高数据质量的目的；构建数据转换模型用于将格式不一致的多源异构数据转换成统一的目标数据格式，实现用户的无差别访问；构建数据融合模型，用于剔除、互补多源异构数据之间冗余、不足的信息，提高数据间的共享性、可利用性；进而本发明可以有效减少数据冗余、提高数据质量和数据分析处理效率，增强电网主设备多源异构质量信息之间的共享性和可利用性的面向电网主设备多源异构质量信息融合处理方法。

针对现有技术的缺陷，本发明的目的二在于提供一种可以有效减少数据冗余、提高数据质量和数据分析处理效率，增强电网主设备多源异构质量信息之间的共享性和可利用性的面向电网主设备多源异构质量信息融合系统。

为实现上述目的之一，本发明的第一种技术方案为：

面向电网主设备多源异构质量信息融合处理方法，包括以下步骤：

步骤一，获取来自在线监测装置的结构化质量信息和非结构化质量信息；

步骤二，对步骤一中的结构化质量信息和非结构化质量信息，分别进行数据清洗，得到结构化清洗数据和非结构化清洗数据；

步骤三，利用预先构建的数据抽取模型对步骤二中的结构化清洗数据使用映射语言R2RML进行映射，得到三元组数据；利用数据抽取模型和三元组数据对步骤二中的非结构化清洗数据进行关系识别，得到关系识别数据；

步骤四，根据预先构建的数据转换模型，对关系识别数据进行数据格式转换，得到交换字符串数据；

步骤五，基于预先构建的数据融合模型，对交换字符串数据进行处理，得到质量事件识别结果。

本发明经过不断探索以及试验，构建数据抽取模型用于抽取多源异构数据中的实体、关系、属性、属性值，形成易于计算机处理的三元组形式；构建数据清洗模型用于筛选、剔除、修复来自众多数据源中的错误、冗余、不符合规范的数据，达到提高数据质量的目的；构建数据转换模型用于将格式不一致的多源异构数据转换成统一的目标数据格式，实现用户的无差别访问；构建数据融合模型，用于剔除、互补多源异构数据之间冗余、不足的信息，提高数据间的共享性、可利用性；进而本发明可以有效减少数据冗余、提高数据质量和数据分析处理效率，增强电网主设备多源异构质量信息之间的共享性和可利用性。

进一步，本发明能够缩短数据融合的时间，提升特征融合效果，并能实现实时接收并集中处理分析多源异构数据的功能，填补了电力领域内电网主设备多源异构质量信息融合的空白，为质量事件判别提供强有力的支撑，特别适用于电力大数据背景下的海量信息融合。

作为优选技术措施：

所述步骤一中，结构化质量信息包括电压、电流、电能损耗、电能质量数据库；

所述非结构化质量信息包括用户手机终端发送的故障报告、故障处置方案、标准导则。

作为优选技术措施：所述三元组数据包括实体-关系-实体、实体-属性-属性值；

利用数据抽取模型和三元组数据对步骤二中的非结构化清洗数据进行关系识别，得到关系识别数据，包括：

利用数据抽取模型对非结构化清洗数据，做初始向量化处理，经过预训练模型BERT优化词向量，然后进入神经网络结构BiLSTM的语义编码层，前向神经网络LSTM学习前文信息，后向神经网络LSTM学习后文信息，神经网络LSTM通过遗忘门选择遗弃上一个细胞中需要遗忘的信息，接收上一时刻的输出和本时刻的输入；

接着输入文本序列X和实体对E，利用句法依存分析法分析文本语法，提取文本中的关系词；

将实体对E和关系词作为预训练模型的输入得到向量表示，再经过注意力机制Attention给每个词向量赋予权重，将所有向量进行加权求和得到特征向量，利用逻辑分类函数softmax对特征向量进行分类得到关系识别数据。

作为优选技术措施：

所述步骤二中，结构化清洗数据的方法如下：

首先根据数据库的整体结构检查结构化质量信息是否缺失，识别是文字型缺失还是数字型缺失；若是文字型缺失，在缺失位置自动添加空白字符串；

若是数值型缺失，在缺失位置自动添加0或者NaN值；设定当一行或者一列中空值大于或等于4时删除该行或该列；

若存在数据重复问题，使用数据分析包Pandas里的去重函数drop_duplicates()删除重复数据。

作为优选技术措施：非结构化清洗数据的方法如下：

先将接收的非结构化质量信息进行规范化处理，利用自然语言处理包HanLP中的字符正规化模型CharTable将非结构化质量信息中的全角字符转换为半角字符、统一英文的大小写，然后再利用分词库jieba进行分词、去停用词处理，将非结构化质量信息中的不常用词、符号删除。

作为优选技术措施：

所述步骤二中，结构化清洗数据为二维表，二维表的表头包括在线监测的所有数据类型、名称、备注信息，二维表的表行对应相应的测量数值和字段；

利用基于规则的方式对二维表进行数据抽取，将每张二维表作为一类本体，二维表的列作为属性/关系，二维表的行即为实体/属性值。

作为优选技术措施：

遗忘门t时刻的结果计算公式如下：

f_t＝σ(W_f[h(t-1)，X_t]+b_f)

其中W_f代表遗忘门的权重矩阵，b为三门的偏置矩阵，1表示完全保留，0表示完全舍弃；

输入门控制本细胞需要输入的信息，计算公式如下：

i_t＝σ(W_i[h(t-1)，X_t]+b_i)

C_t＝f_tC(t-1)+i_t tanh(W_f[h(t-1)，X_t]+b_c)

其中X_t为t时刻的输入，h_t-1为t-1时刻的输出，i_t为输入门中t时刻的n维向量，C_t为t时刻神经网络LSTM的细胞状态，W_i表示输入门的权重矩阵，W_o表示输出门的权重矩阵，σ和tanh为激活函数；

输出门控制的信息作为当前时刻的输出，其计算公式如下：

Q_t＝σ(W_o[h(t-1)，X_t]+b_o)

H_t＝O_t tanh(C_t)

其中Q_t为全连接层后逻辑回归的生成矩阵，H_t为t时刻的输出；

经输出层将前向隐含层向量和后向隐含层向量进行拼接求和得到语义编码向量，最后经CRF层输出得到实体序列。

作为优选技术措施：

所述实体序列的计算公式如下：

其中S为输入句子序列x与其预测序列y的得分，B表示预测序列中的实体状态特征，P(y|x)为归一化后输出序列y的概率分布，

表示所有可能的标记集合，lg(p(y*|S))为标记序列的似然函数，y*为预测结果，即为最终的实体序列。

作为优选技术措施：预先构建的数据融合模型包括实体链接单元和决策融合单元；

基于预先构建的数据融合模型，对交换字符串数据进行处理，得到质量事件识别结果，包括：

基于实体链接单元对交换字符串数据进行处理，得到链接实体；基于决策融合单元对链接实体进行融合，结合多源异构数据间的决策信息，得到质量事件识别结果。

作为优选技术措施：

基于实体链接单元对交换字符串数据进行处理，得到链接实体，包括：

首先将交换字符串数据进行向量化处理，然后以单个字符为单位经预训练模型BERT语义编码得到字符级嵌入表示v_k，再经神经网络结构BiLSTM的前向神经网络LSTM和后向神经网络LSTM处理，获取上下文信息丰富字向量嵌入表示x_k；之后进入候选词固定尺寸表示层，每一个候选词表示为m＝w_q，...，w_r，将始位x_q、末位x_r以及软头单词

嵌入拼接起来得到g^m，g^m经浅层前馈神经网络FFNN₁映射得到x^m，其具体的计算公式如下：

x^m＝FFNN₁(g^m)

x^m与先训练好的连续实体x_w嵌入y_j<e₀，e₁，...，e_n>做相似度计算，与此同时还要计算实体词分布

和候选词上下文y_e与连续实体的相似度，将所有计算结果经第二层前馈神经FFNN₂组合得到局部相似度计算结果，其计算公式如下：

ψ(e_j，m)＝FFNN₂([log(E_j|m)；<x^m，y_j>])

再将实体的关系和候选词、实体拼接嵌入，对关系进行加权、匹配处理进入最后一层前馈神经FFNN₃得到最终的全局相似度计算结果，取相似度计算结果最高的作为链接实体返回，其具体的计算公式如下：

φ(e_j，m)＝FFNN₃([ψ(e_j，m)；G(e_j，m)])

决策融合单元的处理方法如下：

将链接实体经神经网络结构BiLSTM做特征提取，再经注意力机制Attention得到特征向量，最后经逻辑回归函数softmax计算分类概率，并通过加权求和计算出判别的各类质量事件的综合决策概率，输出概率值最高的作为质量事件识别结果。

作为优选技术措施：

还包括步骤六，

利用预先构建的数据存储模型，采用图数据库Neo4j对质量事件识别结果进行存储，并形成节点：实体/属性值和边：关系/属性构成的电网主设备质量信息知识图谱，将质量信息知识图谱存储于系统的硬盘中。

作为优选技术措施：

还包括步骤七，构建数据输出模型，对质量事件识别结果进行输出；

数据输出模型基于网络传输协议UDP进行构建，以无线通信方式将数据融合后的质量事件识别结果反馈回系统的显示设备/手机用户端。

为实现上述目的之一，本发明的第二种技术方案为：

面向电网主设备多源异构质量信息融合系统，应用上述的面向电网主设备多源异构质量信息融合处理方法；

其包括键盘、具备触屏功能的显示屏、处理器、在线监测装置、电源模块、主存储器、数据接收单元、数据清洗单元、数据抽取单元、数据转换单元、数据融合模块、数据存储单元、数据输出单元；

所述数据接收单元、数据清洗单元、数据抽取单元、数据转换单元、数据融合模块、数据存储单元、数据输出单元，均封装存储在主存储器内；

用户通过手动键盘或触屏输入或在线监测装置或手机客户端以无线通信方式将多源异构数据传输至处理器，经过数据接收单元、数据清洗单元、数据抽取单元、数据转换单元、数据融合模块、数据存储单元、数据输出单元的依次处理，得到数据融合后的质量事件识别结果，并通过显示屏进行显示。

本发明针对电网主设备质量信息多源异构的问题，研究设计了一种面向电网主设备多源异构质量信息融合系统，其具体创新点如下：

1)本发明系统内的数据抽取单元采用BERT-BiLSTM-CRF和基于ALBERT和依存分析的方法对非结构化文本信息进行实体、关系抽取，BiLSTM比RNN经过更多的激活函数，在一定程度上缓解了梯度弥散问题，BERT和ALBERT支持并行化计算，权重更新速度快，模型学习效率高，提高系统的运行速度。

2)本发明系统采用json作为中间件将多源异构数据进行格式统一，消除了多源异构数据在结构方面的差异。

3)本发明系统采用端到端的方式进行实体链接，在计算实体和候选词的局部相似度的基础上增加了全局相似度的计算，有效解决了同名异实体、异名同实体的问题，剔除冗余信息，形成完整、全面、准确的实体信息，提高数据质量。

4)本发明系统内的决策融合单元经BiLSTM+Attention+softmax融合得到多源异构电网主设备质量信息的决策信息，提高了质量事件识别结果的准确率。

5)本发明提供的系统为电力大数据背景下的多源异构电网主设备质量信息提供了实时集中处理分析的环境，可以适应智能电网的高速发展。

为实现上述目的之一，本发明的第三种技术方案为：

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的面向电网主设备多源异构质量信息融合处理方法。与现有技术相比，本发明具有以下有益效果：

本发明构建数据抽取模型用于抽取多源异构数据中的实体、关系、属性、属性值，形成易于计算机处理的三元组形式；构建数据清洗模型用于筛选、剔除、修复来自众多数据源中的错误、冗余、不符合规范的数据，达到提高数据质量的目的；构建数据转换模型用于将格式不一致的多源异构数据转换成统一的目标数据格式，实现用户的无差别访问；构建数据融合模型，用于剔除、互补多源异构数据之间冗余、不足的信息，提高数据间的共享性、可利用性；进而本发明可以有效减少数据冗余、提高数据质量和数据分析处理效率，增强电网主设备多源异构质量信息之间的共享性和可利用性。

进一步，本发明构建数据抽取单元对非结构化文本信息进行实体、关系抽取，BiLSTM比RNN经过更多的激活函数，在一定程度上缓解了梯度弥散问题，并支持并行化计算，权重更新速度快，模型学习效率高，提高系统的运行速度。

同时采用json作为中间件将多源异构数据进行格式统一，消除了多源异构数据在结构方面的差异。

更进一步，本发明采用端到端的方式进行实体链接，在计算实体和候选词的局部相似度的基础上增加了全局相似度的计算，有效解决了同名异实体、异名同实体的问题，剔除冗余信息，形成完整、全面、准确的实体信息，提高数据质量。

再进一步，本发明的决策融合单元经BiLSTM+Attention+softmax融合得到多源异构电网主设备质量信息的决策信息，提高了质量事件识别结果的准确率。

附图说明

图1为本发明数据抽取模型构建流程图；

图2为本发明数据融合模型构建流程图；

图3为本发明实体链接单元构建流程图；

图4为本发明决策融合单元构建流程图；

图5为本发明面向电网主设备多源异构质量信息融合系统硬件结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

本发明面向电网主设备多源异构质量信息融合处理方法的一种具体实施例：

面向电网主设备多源异构质量信息融合处理方法，

包括以下步骤：

步骤二，对步骤一中的结构化质量信息和非结构化质量信息，分别进行数据清洗，得到结构化清洗数据和非结构化清洗数据，以解决数据是否缺失、数据是否重复、数据是否错误、数据是否完整的问题；

步骤三，构建数据抽取模型对步骤二中的结构化清洗数据使用映射语言R2RML进行映射，得到三元组数据；

所述三元组数据包括实体-关系-实体、实体-属性-属性值；

数据抽取模型对步骤二中的非结构化清洗数据，做初始向量化处理，经过预训练模型BERT优化词向量，然后进入神经网络结构BiLSTM的语义编码层，前向神经网络LSTM学习前文信息，后向神经网络LSTM学习后文信息，神经网络LSTM通过遗忘门选择遗弃上一个细胞中需要遗忘的信息，接收上一时刻的输出和本时刻的输入；

接着进行关系抽取，输入文本序列X和前述提取得到的实体对E，利用句法依存分析法分析文本语法，提取文本中的关系词；

将实体对E和关系词作为预训练模型的输入得到向量表示，再经过注意力机制Attention给每个词向量赋予权重，将所有向量进行加权求和得到特征向量，最后经逻辑分类函数softmax分类得到关系识别数据；

步骤四，根据数据交换语言json，构建数据转换模型；

所述数据转换模型采用数据交换语言json作为中间件，将关系识别数据进行数据格式转换，通过数据交换语言json将所有关系识别数据映射成交换字符串数据，以消除了多源异构数据在结构方面的差异；

步骤五，构建数据融合模型，用于提高交换字符串数据间的共享性和可利用性，实现消除、补充多源异构数据间重复、不足的信息，其包括实体链接单元和决策融合单元；

所述实体链接单元对交换字符串数据进行处理，得到链接实体，解决同名异实体、异名同实体的问题；

返回链接实体后再经过决策融合单元进行决策层的融合，结合多源异构数据间的决策信息得到最终的质量事件识别结果。

本发明面向电网主设备多源异构质量信息融合系统的一种具体实施例：

面向电网主设备多源异构质量信息融合系统包括数据接收单元、数据抽取单元、数据清洗单元、数据转换单元、数据融合模块、数据存储单元、数据输出单元。

数据接收单元用于接收外部以无线通信方式传入系统的数据。

数据抽取单元用于抽取多源异构数据中的实体、关系、属性、属性值，形成易于计算机处理的三元组形式。

数据清洗单元用于筛选、剔除、修复来自众多数据源中的错误、冗余、不符合规范的数据，达到提高数据质量的目的。

数据转换单元用于将格式不一致的多源异构数据转换成统一的目标数据格式，实现用户的无差别访问。

数据融合模块用于剔除、互补多源异构数据之间冗余、不足的信息，提高数据间的共享性、可利用性。

数据存储单元用于存储数据。

数据输出单元用于输出数据融合后的质量事件识别结果。

本发明数据接收单元的一种具体实施例：

数据接收单元通过无线通信方式接收来自在线监测装置的电压、电流、电能损耗、电能质量数据库等结构化质量信息或用户手机终端发送的故障报告、故障处置方案、标准导则等非结构化质量信息。通过数据接收单元，将电网主设备多源异构质量信息录入系统中，录入完毕后将数据传输至数据清洗单元。

本发明数据清洗单元的一种具体实施例：

数据清洗单元主要解决数据是否缺失、数据是否重复、数据是否错误、数据是否完整的问题。非结构化文本质量信息主要包含故障报告、故障处置方案、标准导则等内容，系统先将接收的文本内容进行规范化处理，利用HanLP中的CharTable将文本中的全角字符转换为半角字符、统一英文的大小写，然后再进行jieba分词、去停用词处理将文本中的不常用词、符号删除。结构化质量信息主要包含电压、电流、电能损耗等内容的数据库，数据缺失会引起后续分析出错，系统首先根据数据库的整体结构检查数据是否缺失，识别是文字型缺失还是数字型缺失，若是文字型缺失，在缺失位置自动添加空白字符串，若是数值型缺失，在缺失位置自动添加0或者NaN值。设定当一行或者一列中出现4个空值及以上时删除该不完整行或不完整列。若存在数据重复问题，使用Pandas里的drop_duplicates()函数删除重复数据。

如图1所示，本发明数据抽取单元的一种具体实施例：

数据抽取单元根据异构数据的结构制定不同的数据抽取方式。

首先将非结构化的电网主设备质量信息做初始向量化处理，经过BERT预训练模型优化词向量，然后进入BiLSTM语义编码层，前向LSTM可以学习前文信息，后向LSTM可以学习后文信息，LSTM模型通过遗忘门选择遗弃上一个细胞中需要遗忘的信息，接收上一时刻的输出和本时刻的输入，t时刻遗忘门的结果如下：

f_t＝σ(W_f[h(t-1)，X_t]+b_f)

其中W_f代表遗忘门的权重矩阵，b为三门的偏置矩阵，1表示完全保留，0表示完全含弃。

输入门控制本细胞需要输入的信息，计算过程如下：

i_t＝σ(W_i[h(t-1)，X_t]+b_i)

C_t＝f_tC(t-1)+i_t tanh(W_f[h(t-1)，X_t]+b_c)

其中X_t为t时刻的输入，h_t-1为t-1时刻的输出，i_t为输入门中t时刻的n维向量，C_t为t时刻LSTM的细胞状态，W_i表示输入门的权重矩阵，W_o表示输出门的权重矩阵，σ和tanh为激活函数。

输出门控制哪些信息作为当前时刻的输出，计算过程如下：

Q_t＝σ(W_o[h(t-1)，X_t]+b_o)

H_t＝O_t tanh(C_t)

其中Q_t为全连接层后逻辑回归的生成矩阵，H_t为t时刻的输出。

经输出层将前向隐含层向量和后向隐含层向量进行拼接求和得到语义编码向量，最后经CRF层输出得到实体序列，计算过程如下：

接着进行关系抽取，输入文本序列X和得到的实体对E，利用句法依存分析法分析文本语法，提取文本中的关系词，一般为语句中的动词。将实体对E和关系词作为ALBERT预训练模型的输入得到向量表示，再经过Attention机制给每个词向量赋予权重，将所有向量进行加权求和得到特征向量，最后经softmax分类得到关系识别结果。

结构化的电网主设备质量信息较规范，通常是二维表，表头包含在线监测的所有数据类型、名称、备注等信息，如电压、电流、电能损耗等，表行对应相应的测量数值和字段。系统利用基于规则的方式对其进行数据抽取，将每张表作为一类本体，表的列作为属性/关系，表的行即为实体/属性值，使用W3C的R2RML映射语言直接映射得到实体-关系-实体、实体-属性-属性值这样的三元组数据。

本发明数据转换单元的一种具体实施例：

json是一种轻量级的数据交换格式，在综合可读性、可扩展性、编码解码难度以及传输效率等方面的比对上都优于传统的xml格式。本发明所提供的面向电网主设备多源异构质量信息融合系统的数据转换单元采用json作为中间件将清洗后的数据进行数据格式转换，通过json将所有数据都映射成json字符串，消除了多源异构数据在结构方面的差异。

如图2所示，本发明数据融合模块的一种具体实施例：

数据融合模块用于提高数据间的共享性和可利用性，实现消除、补充多源异构数据间重复、不足的信息，由实体链接单元和决策融合单元组成。多源异构数据首先通过实体链接单元解决同名异实体、异名同实体的问题，返回链接实体后再经过决策融合单元进行决策层的融合，结合多源异构数据间的决策信息得到最终的质量事件识别结果。

如图3所示，本发明实体链接单元的一种具体实施例：

由于各个数据源中的数据对于同一实体有多种描述，存在同名异实体、异名同实体的情况，本发明将电力词典作为系统的基础知识库。实体链接单元首先将经数据转换后的数据进行向量化处理，然后以单个字符为单位经BERT语义编码得到字符级嵌入表示v_k，再经BiLSTM的前向LSTM和后向LSTM处理获取上下文信息丰富字向量嵌入表示x_k。之后进入候选词固定尺寸表示层，每一个候选词表示为m＝w_q，...，w_r，将始位x_q、末位x_r以及软头单词

嵌入拼接起来得到g^m，g^m经浅层前馈神经网络FFNN₁映射得到x^m。

x^m＝FFNN₁(g^m)

和候选词上下文y_e与连续实体的相似度，将所有计算结果经第二层前馈神经FFNN₂组合得到局部相似度计算结果。

ψ(e_j，m)＝FFNN₂([log(E_j|m)；<x^m，y_j>])

再将实体的关系和候选词、实体拼接嵌入，对关系进行加权、匹配处理进入最后一层前馈神经FFNN₃得到最终的全局相似度计算结果，取相似度计算结果最高的作为链接实体返回。

φ(e_j，m)＝FFNN₃([ψ(e_j，m)；G(e_j，m)])

如图4所示，本发明决策融合单元的一种具体实施例：

基于变压器油气相色谱分析原理，在变压器正常运行时，随着油和固体绝缘会逐渐老化、变质，会分解出氢气、甲烷、乙烷、乙烯等气体，而在变压器内部发生局部放电、温度逐渐升高时，油中烃类气体含量增多，当温度急剧升高时，还会产生乙炔气体等。结构化数据虽然能体现出一定的故障信息，但并没有包含足够的判别故障部位、缺陷等级等信息，仅依靠结构化数据做质量事件识别是十分局限的，非结构化电网主设备质量信息提供了丰富的缺陷、故障等质量判据作为支撑，可以为结构化的数字化电网主设备质量信息做重要补充。系统将非结构化电网主设备质量信息和结构化电网主设备质量信息经BiLSTM做特征提取，再经Attention计算机制得到特征向量，最后经softmax分类概率加权求和计算出判别的各类质量事件的综合决策概率，输出概率值最高的作为质量事件识别结果。

本发明数据存储单元的一种具体实施例：

数据存储单元采用Neo4j图数据库存储数据。电网主设备多源异构质量信息经数据抽取单元、数据清洗单元、数据转换单元、数据融合模块处理后存储进Neo4j图数据库中，形成节点(实体/属性值)和边(关系/属性)构成的电网主设备质量信息知识图谱，存储于系统的硬盘中。

本发明数据输出单元的一种具体实施例：

数据输出单元遵循UDP网络传输协议，以无线通信方式将数据融合后的质量事件识别结果反馈回系统的显示设备/手机用户端，消耗资源小，通信效率极高。

如图5所示，本发明面向电网主设备多源异构质量信息融合系统的一种具体实施例：

面向电网主设备多源异构质量信息融合系统用于整合来自多个数据源且结构各异的数据群体，实现数据的统一管理，用户可以实现无差别访问，充分挖掘数据价值。

本发明系统硬件配置有键盘、具备触屏功能的10.1英寸1080P显示屏、Intel XeonE5-2680V4处理器、电源模块，系统内部包括数据接收单元、数据清洗单元、数据抽取单元、数据转换单元、数据融合模块、数据存储单元、数据输出单元，均封装存储在系统的主存储器内。用户可以通过手动键盘/触屏输入、在线监测装置和Android/ios/Harmony os手机客户端无线通信方式将多源异构数据传输至系统，经过系统内一系列单元的处理可以得到数据融合后的质量事件识别结果。

本申请术语解释：

多源异构数据

多源异构数据指的是结构、存取、形式不一样的多个数据源集成的数据，往往存储在异构分布式数据库中。

质量信息

质量信息是指在物资、建设、运检等专业管理及技术监督工作中，因设备质量问题引起的故障、停运、缺陷，以及设计不合理、安装工艺不合格、抽检或监造不达标等信息。

结构化数据

结构化数据也称作行数据，是由二维表结构来逻辑表达和实现的数据，严格地遵循数据格式与长度规范，主要通过关系型数据库进行存储和管理。

非结构化数据

非结构化数据是数据结构不规则或不完整，没有预定义的数据模型，不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML,HTML、各类报表、图像和音频/视频信息等等。

BP神经网络

全称back propagation神经网络，1986年由Rumelhart和McClelland为首的科学家提出的概念，是一种按照误差逆向传播算法训练的多层前馈神经网络，是应用最广泛的神经网络模型之一。

RNN

全称Recurrent Neural Network，是一类以序列数据为输入，在序列的演进方向进行递归且所有节点按链式连接的递归神经网络。

贝叶斯估计法

贝叶斯估计法是贝叶斯学习的基础，它提供了一种计算假设概率的方法，这种方法是基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身而得出的。其方法为，将关于未知参数的先验信息与样本信息综合，再根据贝叶斯公式，得出后验信息，然后根据后验信息去推断未知参数的方法。

D-S证据理论

全称为Dempster/Shafer证据理论，属于人工智能范畴，最早应用于专家系统中，具有处理不确定信息的能力。作为一种不确定推理方法，证据理论的主要特点是：满足比贝叶斯概率论更弱的条件；具有直接表达“不确定”和“不知道”的能力。

梯度弥散

在神经网络中，当前面隐藏层的学习速率低于后面隐藏层的学习速率，即随着隐藏层数目的增加，分类准确率反而下降了。这种现象叫做梯度弥散。

局部放电

绝缘体中只有局部区域发生的放电，而没有贯穿施加电压的导体之间，可以发生在导体附近，也可以发生在其他地方，这种现象称为局部放电。

气相色谱分析

气相色谱分析是指流动相为气体的色谱分析法。气体和易于挥发的液体或固体等试样都可用气相色谱分析进行分离和测定。

质量事件

质量事件是指针对输电、变电、配电、直流、系统性、材料、辅助类物资及仪器仪表等具体设备，在物资、建设、运检等环节中，各相关方违反有关标准规范、管理制度或反措等要求，导致设备质量不能满足要求，对电网建设、安全运行、可靠供电等造成一定损失、危害或影响的事件。

UDP

全称User Datagram Protocol，是Internet协议集支持一个无连接的传输协议，该协议称为用户数据包协议。UDP为应用程序提供了一种无需建立连接就可以发送封装的IP数据包的方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包括有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的系统。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.面向电网主设备多源异构质量信息融合处理方法，其特征在于，包括以下步骤：

2.如权利要求1所述的面向电网主设备多源异构质量信息融合处理方法，其特征在于，所述步骤一中，结构化质量信息包括电压、电流、电能损耗、电能质量数据库；

3.如权利要求1所述的面向电网主设备多源异构质量信息融合处理方法，其特征在于，所述三元组数据包括实体-关系-实体、实体-属性-属性值；

4.如权利要求1所述的面向电网主设备多源异构质量信息融合处理方法，其特征在于，所述步骤二中，结构化清洗数据的方法如下：

5.如权利要求1所述的面向电网主设备多源异构质量信息融合处理方法，其特征在于，非结构化清洗数据的方法如下：

6.如权利要求1所述的面向电网主设备多源异构质量信息融合处理方法，其特征在于，所述步骤二中，结构化清洗数据为二维表，二维表的表头包括在线监测的所有数据类型、名称、备注信息，二维表的表行对应相应的测量数值和字段；

7.如权利要求3所述的面向电网主设备多源异构质量信息融合处理方法，其特征在于，

遗忘门t时刻的结果计算公式如下：

f_t＝σ(W_f[h(t-1)，X_t]+b_f)

其中Wf代表遗忘门的权重矩阵，b为三门的偏置矩阵，1表示完全保留，0表示完全舍弃；

输入门控制本细胞需要输入的信息，计算公式如下：

i_t＝σ(W_i[h(t-1)，X_t]+b_i)

C_t＝f_tC(t-1)+i_ttanh(W_f[h(t-1)，X_t]+b_c)

其中Xt为t时刻的输入，ht-1为t-1时刻的输出，it为输入门中t时刻的n维向量，Ct为t时刻神经网络LSTM的细胞状态，Wi表示输入门的权重矩阵，Wo表示输出门的权重矩阵，σ和tanh为激活函数；

输出门控制的信息作为当前时刻的输出，其计算公式如下：

Q_t＝σ(W_o[h(t-1)，X_t]+b_o)

H_t＝O_ttanh(C_t)

其中Qt为全连接层后逻辑回归的生成矩阵，Ht为t时刻的输出；

经输出层将前向隐含层向量和后向隐含层向量进行拼接求和得到语义编码向量，最后经CRF层输出得到实体序列；

所述实体序列的计算公式如下：

8.如权利要求7所述的面向电网主设备多源异构质量信息融合处理方法，其特征在于，预先构建的数据融合模型包括实体链接单元和决策融合单元；

基于实体链接单元对交换字符串数据进行处理，得到链接实体；基于决策融合单元对链接实体进行融合，结合多源异构数据间的决策信息，得到质量事件识别结果；

首先将交换字符串数据进行向量化处理，然后以单个字符为单位经预训练模型BERT语义编码得到字符级嵌入表示vk，再经神经网络结构BiLSTM的前向神经网络LSTM和后向神经网络LSTM处理，获取上下文信息丰富字向量嵌入表示xk；之后进入候选词固定尺寸表示层，每一个候选词表示为m＝wq,...,wr，将始位x_q、末位x_r以及软头单词

嵌入拼接起来得到g^m，g^m经浅层前馈神经网络FFNN1映射得到x^m，其具体的计算公式如下：

x^m＝FFNN₁(g^m)

x^m与先训练好的连续实体x_w嵌入y_j<e₀,e₁,...,e_n>做相似度计算,与此同时还要计算实体词分布

和候选词上下文y_e与连续实体的相似度，将所有计算结果经第二层前馈神经FFNN2组合得到局部相似度计算结果，其计算公式如下：

ψ(e_j，m)＝FFNN₂([log(E_j|m)；<x^m，y_j>])

再将实体的关系和候选词、实体拼接嵌入，对关系进行加权、匹配处理进入最后一层前馈神经FFNN3得到最终的全局相似度计算结果，取相似度计算结果最高的作为链接实体返回，其具体的计算公式如下：

φ(e_j，m)＝FFNN₃([ψ(e_j，m)；G(e_j，m)])

决策融合单元的处理方法如下：

9.如权利要求1-8任一所述的面向电网主设备多源异构质量信息融合处理方法，其特征在于，

还包括：

步骤六，利用预先构建的数据存储模型，采用图数据库Neo4j对质量事件识别结果进行存储，并形成节点：实体/属性值和边：关系/属性构成的电网主设备质量信息知识图谱，将质量信息知识图谱存储于系统的硬盘中；

步骤七，构建数据输出模型，对质量事件识别结果进行输出；

10.面向电网主设备多源异构质量信息融合系统，其特征在于，

应用如权利要求1-9任一所述的面向电网主设备多源异构质量信息融合处理方法；