CN113836315A

CN113836315A - 一种电力标准知识抽取系统

Info

Publication number: CN113836315A
Application number: CN202111116935.2A
Authority: CN
Inventors: 赵常威; 钱宇骋; 李坚林; 潘超; 甄超; 朱太云; 李森林; 胡啸宇; 吴正阳; 吴杰; 吴海峰; 黄文礼; 温招洋
Original assignee: Anhui Nanrui Jiyuan Power Grid Technology Co ltd; Electric Power Research Institute of State Grid Anhui Electric Power Co Ltd; State Grid Anhui Electric Power Co Ltd
Current assignee: Anhui Nanrui Jiyuan Power Grid Technology Co ltd; Electric Power Research Institute of State Grid Anhui Electric Power Co Ltd; State Grid Anhui Electric Power Co Ltd
Priority date: 2021-09-23
Filing date: 2021-09-23
Publication date: 2021-12-24

Abstract

本发明公开了一种电力标准知识抽取系统，属于电力专业知识技术领域，用于建立一种高效构建电力标准专业知识图谱；引入电力标准领域数据库以及模型训练模块，模型训练模块从电力标准领域数据库内获取电力标准领域数据，并经过预训练得到BERT预训练模型，获取单位文本数据的文本嵌入式表示，参数修改模块用于修改BERT预训练模型中的下一个句子预测任务，此方式的好处为让输入的单位文本数据更长，使得BERT预训练模型能够学习更长的依赖；同时，参数修改模块将原始BERT预训练模型中的单字符的MASK操作改为连续字符的MASK操作，这样可以在BERT预训练模型中融合更多的实体语义信息，能够更加利于实体识别任务性能的提升。

Description

一种电力标准知识抽取系统

技术领域

本发明属于电力专业知识技术领域，具体是一种电力标准知识抽取系统。

背景技术

电力标准文档里面蕴含着大量的电力专业知识，当前都是以书本等非结构化数据存在，为了有效利用这些知识，知识图谱是一个不错的途径，如何建立一种高效构建电力标准专业知识图谱成为重要的一个步骤。

因此，本文提出一种针对电力标准文档知识抽取系统。

发明内容

为了解决上述方案存在的问题，本发明提供了一种电力标准知识抽取系统。

本发明的目的可以通过以下技术方案实现：

一种电力标准知识抽取系统，包括特征标注模块以及模型训练模块；所述特征标注模块用于接收单位文本数据，并通过显隐识别单元识别单位文本数据的显隐性，根据显隐性进行不同方式的标注得到知识元组；

所述模型训练模块用于从电力标准领域数据库内获取电力标准领域数据，并经过预训练得到BERT预训练模型，进而获取知识元组的文本嵌入式表示；

利用改进的Transformer对单位文本数据的文本嵌入式表示进行编码，并通过Attention机制计算结果，将结果输入到片段指针网络继续进行计算；

在对每一个中文字符进行编码时，利用滑窗的方法进行局部建模，对于每一个中文字符，对相邻的m个中文字符计算Attention，计算复杂度与文本序列长度n成线性关系，获取相邻中文字符之间存在的宽度w，当片段指针网络的层数为L时，则视野范围为L*m*w。

进一步地，所述单位文本数据为规则分割模块对处理文本文件进行规则分割的结果。

进一步地，还包括文本格式识别模块以及文本转化模块,所述文本格式识别模块用于识别电力标准文本，当文本格式识别模块识别出电力标准文本的格式为PDF数据格式时，文本格式识别模块连接文本转化模块，所述文本转化模块采取文本转化的方式将PDF数据格式转化为文本格式，并将转化后的文本格式文件标记为处理文本文件。

进一步地，所述特征标注模块包括显式标注单元、隐式标注单元以及显隐识别单元；

当特征标注模块接收到单位文本数据后，通过显隐识别单元识别单位文本数据的显隐性。

进一步地，利用改进的Transformer对单位文本数据的文本嵌入式表示进行编码的过程包括以下步骤：

对原始的文本通过不同的线性变换对原文的文本进行编码,然后通过Attention机制计算结果：

head_i＝Attetion(QW_i ^Q，KW_i ^K，VW_i ^V)

MultiHead(Q，K，V)＝Concat(head₁，...，head_h)W^O

其中，head_i表示模型包含的一个头实体的计算方法，i代表头实体的索引编号，i为正整数，且i＝1,2……h；其中W_i ^Q、W_i ^K、W_i ^V表示原始序列特征维度为d_model的序列Q、K、V映射为head的三个输入；MultiHead表示将所有头实体的计算结果进行拼接操作，再乘以一个W^O的矩阵，最终作为当前层的最终输出结果，再输入到片段指针网络继续进行计算。

进一步地，当文本格式识别模块识别出电力标准文本为非PDF的文本格式时，文本格式识别模块会连接能对该数据格式的电力标准文本进行转化的转化工具，将非PDF的文本格式的电力标准文本转化为文本格式；文本转化模块将转化后的文本格式进行专家审核，将转化后的文本进行整理，最终输出整洁文本，将整洁文本标记为处理文本文件。

进一步地，所述知识元组为单位文本数据通过特征标注模块进行标注后的数据组。

进一步地，还包括参数修改模块，所述参数修改模块用于修改BERT预训练模型中的下一个句子预测任务。

与现有技术相比，本发明的有益效果是：

1.本发明中引入电力标准领域数据库以及模型训练模块，所述模型训练模块从电力标准领域数据库内获取电力标准领域数据，并经过预训练得到BERT预训练模型，进而获取单位文本数据的文本嵌入式表示，且本发明设置有参数修改模块，所述参数修改模块用于修改BERT预训练模型中的下一个句子预测任务，此方式的好处为让输入的单位文本数据更长，使得BERT预训练模型能够学习更长的依赖，这样可以让每个输入的单位文本数据的长度最多都能达到512甚至更长的长度；同时，参数修改模块将原始BERT预训练模型中的单字符的MASK操作改为连续字符的MASK操作，这样可以在BERT预训练模型中融合更多的实体语义信息，能够更加利于实体识别任务性能的提升。

2.我们针对性的提出了片段指针网络的解码方案，在接到上面的Adaptive-Transformer层后面的网络层，区别于传统的CRF解码方案，这里我们提出的解码方案在长文本上的稀疏和嵌入实体上，比CRF的解码方案来说具有更好的效率和更强的针对性，从而缓解人工标注标准不一致和缺失的情况。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种电力标准知识抽取系统的原理图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示，一种电力标准知识抽取系统，包括文本格式识别模块，所述文本格式识别模块用于识别电力标准文本，其中，所述电力标准文本的数据格式包含多种，最基本的电力标准文本的数据格式为PDF数据格式，在一些特殊的场合，电力标准文本的格式可能为其他类型的数据格式，当文本格式识别模块识别出电力标准文本的格式为PDF数据格式时，文本格式识别模块连接文本转化模块，所述文本转化模块采取文本转化的方式将PDF数据格式转化为文本格式，并将转化后的文本格式文件标记为处理文本文件；

其中，对PDF数据格式进行转化的转化工具为OCR；

需要说明的是，当文本格式识别模块识别出电力标准文本为非PDF的文本格式时，文本格式识别模块会连接能对该数据格式的电力标准文本进行转化的转化工具，将非PDF的文本格式的电力标准文本转化为文本格式；文本转化模块将转化后的文本格式进行专家审核，将转化后的文本进行整理，最终输出整洁文本，将整洁文本标记为处理文本文件，并将处理文本文件发送至规则分割模块；

需要进行解释说明的是，所述规则分割模块用于对接收的处理文本文件进行规则分割，将处理文本文件分割为若干个单位文本数据，其中，单位文本数据包括正文+标题；然后将单位文本数据发送至特征标注模块；所述特征标注模块包括显式标注单元、隐式标注单元以及显隐识别单元；

当特征标注模块接收到单位文本数据后，通过显隐识别单元识别单位文本数据的显隐性，当显隐识别单元判断单位文本数据为显式关系时，采用如下的标注方式：

例如：“对于液浸式电抗器,参考温度是75℃”，最终的标注为[“液浸式电抗器”,“参考温度”,“75℃”]；

其中的标注标准为：

“液浸式电抗器”：start_e1，“参考温度”：rel，“75℃”：end_e1

“start_e1”代表头实体，“rel”代表关系，“end_e1”代表尾实体；

当显隐识别单元判断单位文本数据为隐式关系时，采用如下的标注方式：

“涌流水平/n inrush current level/n电抗器励磁时最大峰值电流与

倍额定电流的比值。”，标注形式为[“涌流水平”,“定义”，“电抗器励磁时最大峰值电流与

倍额定电流的比值”]，[“涌流水平”,“英文”，“inrush current level”]；

其中的标注标准为：

“涌流水平”：def1，“电抗器励磁时最大峰值电流与

倍额定电流的比值”：def2。

需要说明的是，针对显式标注单元或者隐式标注单元标注的结果，都会存在以下问题：

一、输入的文本，数据一般都比较长，并且知识元组的距离也相对来说比较长。

二、头实体、尾实体的长度多样性较强，且存在着稀疏分布的情况；

三、由上面显式关系中举的例子可以看出，不同知识元组之间存在着头实体重叠的情况。

需要进行说明的是，所述知识元组为单位文本数据通过特征标注模块进行标注后的数据组；例如“液浸式电抗器”：start_e1，“参考温度”：rel，“75℃”：end_e1为一个知识元组；

为此，在本发明中引入电力标准领域数据库以及模型训练模块，所述模型训练模块从电力标准领域数据库内获取电力标准领域数据，并经过预训练得到BERT预训练模型，进而获取单位文本数据的文本嵌入式表示，且本发明设置有参数修改模块，所述参数修改模块用于修改BERT预训练模型中的下一个句子预测任务，此方式的好处为让输入的单位文本数据更长，使得BERT预训练模型能够学习更长的依赖，这样可以让每个输入的单位文本数据的长度最多都能达到512甚至更长的长度；

同时，参数修改模块将原始BERT预训练模型中的单字符的MASK操作改为连续字符的MASK操作，这样可以在BERT预训练模型中融合更多的实体语义信息，能够更加利于实体识别任务性能的提升。

同时，本发明利用改进的Transformer进行文本的上下文编码表示：首先对原始的文本通过不同的线性变换对原文的文本进行编码,然后通过Attention机制计算结果：

MultiHead(Q,K,V)＝Concat(head₁,...，head_h)W^O

这里的Attention机制针对这里的长文本场景进行了如下设计：

对于输入文本序列S中的任何一个中文字符t，对于文本片段[t-S,t]中的一个中文字符r，其中的相似度计算方式为：

其中，W_k，W_q是K和Q的线性变换的矩阵，p_t-r为相对位置编码，公式如下：

针对每个head，本发明增加了一个mask函数来形成一个[0,1]区间内的距离：

其中R是一个控制函数平滑度的超参数，z是[0,S]之间的一个值，z是需要学习的参数，对每个head，z都是不同的，公式6的目的是将每个head的关注点进行不同的度量，从而进行针对性的学习的同时减小计算量，最终attention权重的计算方式如下：

其中按照如下方式计算当前head输出：

其中，W_v被称作V的矩阵，其中通过公式2输出当前层的最终输出。

同时，本发明还通过如下手段减小attention的计算量的同时提升模型的性能：

在对每一个中文字符进行编码时，区别于原始Transfomer对长文档进行全局建模，复杂度过高从而造成模型难以训练，所以这里利用滑窗的方法进行局部建模，对于每一个中文字符，只对其附近的m个中文字符计算Attention，计算复杂度与文本序列长度n成线性关系，同时为了拓宽模型的视野，这里借鉴空洞卷积的思想，在滑动窗口中，两个相邻中文字符之间会存在一定宽度w(超参数)的间隙。当Adaptive-Transformer的层数为L时，则视野范围可达到L*m*w。

在实际训练中，Adaptive-Transformer的层数为6，前3层使用较小的滑窗，以建模局部信息；在后3层使用较大的滑窗，以扩大感受野。

上面是应对数据的问题一的模型设计方案，为了应对数据的问题二中的实体存在稀疏性和问题三中实体存在重叠性的情况，我们针对性的提出了片段指针网络的解码方案，在接到上面的Adaptive-Transformer层后面的网络层，区别于传统的CRF解码方案，这里我们提出的解码方案在长文本上的稀疏和嵌入实体上，比CRF的解码方案来说具有更好的效率和更强的针对性，具体方法如下：

一、输入文本的长度为n，假设当前实体的标签数量为1，输入文本中的连续片段，并且可以存在嵌入实体，也就是实体的片段可以重复，那么候选实体的数量为

如果实体标签的数量为k个，那么就是从k个多标签分类：

个实体中选若干个实体的的问题；

二、分别用两个全连接层分别编码得到实体的开始(H_s)和结束(H_e)位置的表示,其他位置i,j的编码表示为H_i，H_j；

三、对上述两个向量进行级联，两个向量的差，两个向量的点积，最后进行级联；

s_i，j＝H_i+H_j+(H_i-H_j)+(H_i⊙H_j)

四、最后进行一次softmax操作：

最终定义损失函数如下：

其中，p_a是该样本的所有类型为a的实体的首尾集合,Q_a是该样本的所有非实体或者类型非a的实体的首尾集合，从而缓解人工标注标准不一致和缺失的情况。

在本发明所提供的实施例中，应该理解到，所揭露的设备，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式；所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方法的目的。

另对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方法而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方法进行修改或等同替换，而不脱离本发明技术方法的精神和范围。

Claims

1.一种电力标准知识抽取系统，其特征在于，包括特征标注模块以及模型训练模块；所述特征标注模块用于接收单位文本数据，并通过显隐识别单元识别单位文本数据的显隐性，根据显隐性进行不同方式的标注得到知识元组；

2.根据权利要求1所述的一种电力标准知识抽取系统，其特征在于，所述单位文本数据为规则分割模块对处理文本文件进行规则分割的结果。

3.根据权利要求2所述的一种电力标准知识抽取系统，其特征在于，还包括文本格式识别模块以及文本转化模块,所述文本格式识别模块用于识别电力标准文本，当文本格式识别模块识别出电力标准文本的格式为PDF数据格式时，文本格式识别模块连接文本转化模块，所述文本转化模块采取文本转化的方式将PDF数据格式转化为文本格式，并将转化后的文本格式文件标记为处理文本文件。

4.根据权利要求1所述的一种电力标准知识抽取系统，其特征在于，所述特征标注模块包括显式标注单元、隐式标注单元以及显隐识别单元。

5.根据权利要求1所述的一种电力标准知识抽取系统，其特征在于，利用改进的Transformer对单位文本数据的文本嵌入式表示进行编码的过程包括以下步骤：

对原始的文本通过不同的线性变换对原文的文本进行编码，然后通过Attention机制计算结果：

head_i＝Attetion(QW_i ^Q，KW_i ^K，VW_i ^V)

MultiHead(Q，K，V)＝Concat(head₁，...，head_h)W^O

其中，head_i表示模型包含的一个头实体的计算方法，i代表头实体的索引编号，i为正整数，且i＝1，2……h；其中W_i ^Q、W_i ^K、W_i ^V表示原始序列特征维度为d_model的序列Q、K、V映射为head的三个输入；MultiHead表示将所有头实体的计算结果进行拼接操作，再乘以一个W^O的矩阵，最终作为当前层的最终输出结果，再输入到片段指针网络继续进行计算。

6.根据权利要求2所述的一种电力标准知识抽取系统，其特征在于，当文本格式识别模块识别出电力标准文本为非PDF的文本格式时，文本格式识别模块会连接能对该数据格式的电力标准文本进行转化的转化工具，将非PDF的文本格式的电力标准文本转化为文本格式；文本转化模块将转化后的文本格式进行专家审核，将转化后的文本进行整理，最终输出整洁文本，将整洁文本标记为处理文本文件。

7.根据权利要求1所述的一种电力标准知识抽取系统，其特征在于，所述知识元组为单位文本数据通过特征标注模块进行标注后的数据组。

8.根据权利要求1所述的一种电力标准知识抽取系统，其特征在于，还包括参数修改模块，所述参数修改模块用于修改BERT预训练模型中的下一个句子预测任务。