CN116861894A

CN116861894A - 一种基于半监督学习的电网领域实体关系抽取

Info

Publication number: CN116861894A
Application number: CN202310263248.6A
Authority: CN
Inventors: 刘剑青; 赵刚; 王凯; 宋磊; 李思; 张锐; 王明轩; 翟丙旭; 孙巍; 张沛瑄; 高欣; 康伟
Original assignee: State Grid Corp of China SGCC; Beijing University of Posts and Telecommunications; State Grid Jibei Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Beijing University of Posts and Telecommunications; State Grid Jibei Electric Power Co Ltd
Priority date: 2023-03-17
Filing date: 2023-03-17
Publication date: 2023-10-10

Abstract

本发明提供了一种基于半监督学习的电网领域实体关系抽取，在用于基于Seq2seq的实体关系抽取的基础上，通过对传统的用注意力机制的方法进行关系抽取做改进，加入了半监督学习，能够充分挖掘大规模无标注电力文本中蕴含的实体知识，实现更高效的领域迁移，减少人工语料的标注，缓解自然语言处理NLP研究时由于标注语料工作带来的人工和时间的压力，降低了数据标注工作耗费的人力时间成本；同时我们引入了多粒度掩码预训练语言模型ERNIE应用在实体关系抽取任务上，用于捕获实体级别的语义信息，更有效的挖掘无标注数据中的实体识别知识，提升电力实体识别性能，从而更好完成电网领域实体关系抽取任务。

Description

一种基于半监督学习的电网领域实体关系抽取

技术领域

本发明涉及互联网技术领域，尤其涉及一种基于半监督学习的电网领域实体关系抽取。

背景技术

当今，在互联网技术飞速发展的时代，网络中的数据也在成指数式的增长，人们也会获取海量的信息，那么如何从海量的电子文档中快速准确的找到自己需要的问题已经成为了十分关键的问题。然而，想要从结构化文本甚至非结构化文本中提取知识，并非易事，它们来源广泛、种类繁多、信息量丰富，但同时又存在着冗余而又未知的问题。为了节约人力成本，并且能更快更准确的抽取文本中有价值的信息，信息抽取任务收到人们广泛关注。信息抽取并不试图全面理解文章的意思，只是从文章的文本中识别并抽取人们感兴趣的信息，并且进行结构化的处理。目前信息抽取的研究方向有很多，包括实体识别，实体关系抽取，事件抽取等。其中，实体关系抽取受到研究者们的广泛关注，并且为其他自然语言处理技术进步有着很关键的作用。

实体关系抽取是指从一个句子中抽取出关系三元组。若有两个存在着关系的实体，则将两个实体分别成为主体和客体，那么关系抽取就是在非结构或半结构化数据中找出主体与客体之间存在的关系，并将其表示为实体关系三元组，即(主体，关系，客体)。传统的监督式实体关系抽取，是规定实体之间关系类型，并对标注的文本进行训练。然而，针对实际情况中各种领域的新文本，无法只通过前期规定的关系类型对其进行定义。目前已有的数据集存在一个普遍问题是对旧文本数据进行标注，无法满足实体关系抽取对实时性的需求，随着时间地推移，实时性变得愈加重要。而电网领域实体关系抽取是指将关系抽取任务应用在电网领域，从而有效的辅助调度人员进行故障处理。

随着特高压电网和电力系统的快速发展，电网故障形态日趋复杂，故障后的调度处置工作难度也不断提高。传统电力系统调度体系中，实时调度决策主要依赖调度员知识储备、经验积累和应变能力，调度员必须记忆并反复查阅规程、文件、预案等文本，效率低且易出现疏漏，制约了电力系统安全管控能力的进一步提升。在电力实体识别、知识图谱建模等电网多个领域中，现有的深度学习的方法均基于全监督学习(Supervised Learning)范式。在全监督学习中，每一个训练集的数据都是由数据和标签共同构成的，但是一般情况下，只能获取大量的数据，而标签很难得到，并且给数据加上标签需要很多的先验知识，这就花掉了大量的成本，并且全监督的方式只学习到了标注数据的表征，而对于开放域文本的实体关系抽取鲁棒性往往不足。电力系统在不断发展中积累了大量的电网调控文本，其中绝大部分都是无标注数据，仅有一小部分被人工标注成为有标注文本。而以往基于全监督学习的方法在模型训练时仅能利用有标注的文本数据，无法对无标注数据中蕴含的知识加以利用。因此。本文提出了基于半监督学习的电网领域实体关系抽取。

现有的实体关系抽取，一部分方法是流水线方法，先从文本中抽取全部实体，然后针对实体对判断其之间的关系类别；另一部分方法则是联合抽取方法，通过修改标注方法和模型结构直接输出文本中包含的三元组。

如图1所示，现有技术之一的“基于Seq2seq实体关系联合抽取的电力知识图谱构建”文章中，提出了seq2seq半指针半标准的方法对电力规程进行实体关系抽取，并构建了电力的知识图谱：

首先，三元组(SPO)的抽取采用Seq2seq模型先抽取头实体(S)，再抽取关系(P)和尾实体(O)，从而提高了实体关系抽取的准确性，并解决了实体关系抽取中的实体边界模糊问题。其次，使用指针网络进行解码。实体(S)的编码器选用预训练好的BERT模型获取编码层的向量，实体(S)的解码器为单层指针解码的网络；实体关系(PO)的编码器也是BERT编码层向量，并且融入了S向量特征，PO的解码器是多层指针网络。文章采用指针网络解码以提高实体抽取的准确性，共享编码层降低了串联抽取方法误差积累问题。最后，文章中使用了查询匹配系数法，优化了实体关系抽取中三元组数据集的筛选和排序，以便用户以直观的易用的方式对数据进行查询和浏览，并且提高了电力知识图谱中的查准率和查全率。

如图2所示，现有技术之二的“Attention-Based Bidirectional LongShort-TermMemory Networks for Relation Classification”文章中，提出了一种自顶向下与自底向上相结合的知识图谱构建方法，并针对预案文本的特点提出了一套基于深度学习的电力领域知识抽取方法：

首先，针对通用领域的分词工具不能很好地对预案文本进行分词的情况，构建了基于字向量的TextCNN模型，避免了分词错误带来的影响，实现了预案文本高准确率的自动分类；其次，针对预案文本实体成分复杂和实体边界难以界定的情况，构建了LSTM模型进行命名实体识别，利用高层CNN的字词信息对低层CNN的候选词的权重进行调整，提高了模型识别的准确率；最后，在命名实体识别结果的基础上，构建Attention模型进行关系的抽取，将预案文本转化为三元组信息。其中Attention如下表示：

M＝tanh(H) 式(2-1)

其中H＝[h₁,h₂,…h_T]为LSTM的输出向量，T是句子长度。tanh为双曲正切非线性函数。

a＝softmax(w^TM) 式(2-2)

其中a的维度是T。M为权重矩阵，为待训练的矩阵参数。Softmax是一种激活函数，它可以将一个数值向量归一化为一个概率分布向量，且各个概率之和为1。

r＝Ha^T 式(2-3)

其中r的维度是d，r为LSTM输出H经过加权求和后的结果。

发明人在研究的过程中发现：对于“基于Seq2seq实体关系联合抽取的电力知识图谱构建”、“Attention-Based Bidirectional Long Short-TermMemory Networks forRelation Classification”现有技术中：

1、序列标注方式采用BIO的标注方式，即将每个元素标注为“B-X”、“I-X”或者“O”，分别代表名词短语的开头位置，名词短语的中间位置，非名词短语，由于BIO按文本顺序进行标注，所以可能会导致重叠实体标注不正确的问题；

2、采用基于全监督学习的实体关系抽取，需要领域专家预先制定详细的词典和匹配规则，并以此去匹配电力文本中的实体，这种方法的人工成本很高，灵活性较差；

由于上述技术问题导致于现有技术中存在以下缺点：

1、BIO的序列标注方式不能识别重叠的实体，会导致识别标注存在冲突，一般会把短实体忽略，因此，难以处理重叠实体问题。

2、由于应用全监督学习的实体关系抽取，导致不能应用无标注文本，从而无法对无标注数据中蕴含的知识加以利用，无法充分挖掘大规模无标注电力文本中蕴含的实体知识。

发明内容

为了解决上述技术问题，本发明提供了一种基于半监督学习的电网领域实体关系抽取，基于对传统实体关系方法的改进，引入多粒度掩码预训练模型(ERNIE)来捕获实体级别的语义信息，减少对有标注数据的需求，降低数据标注工作耗费的人力时间成本；同时，通过加入半监督学习模块，通过半监督训练架构和损失函数调度机制来挖掘无标注数据中的实体识别知识，从而提升电力实体识别性能。

本发明提供一种基于半监督学习的电网领域实体关系抽取，在模型训练时，该方法包括：

步骤一、将待关系抽取的文本输入到多粒度掩码预训练语言模型ERNIE编码电力文本以捕获实体和短语级别的语义信息，即将每个词输入ERNIE得到每个词的文本编码，由此可以将不常用的词用常用的词进行表示；

步骤二、将得到的每个词的文本编码进行跨度枚举。与经典的实体关系分类不同，此方法检测所有文本编码的子序列(即跨度)中的实体。通过不断的枚举跨度，找到可能存在实体编码；

步骤三、将实体编码中的任意大小文本编码取出，对取出的所有文本编码做最小池化操作(min-pooling),用最小池化后的文本编码作为实体特征；

步骤四、将整个句子所有的token都进行平均池化操作，得到整体句意表示的文本编码，记作cls；

步骤五、将文本的编码宽度进行嵌入层(embedding)的构建，用来衡量文本跨度的宽度；

步骤六、将最小池化后的文本编码，整个句子的文本编码cls，以及embedding共同输入到宽度分类器(span-classifying)中，通过对其进行softmax操作，计算出每个文本编码宽度对应的得分；

步骤七、将不同文本编码宽度所对应的得分输入到宽度筛选器(span-filtering)中判断每个编码宽度构成的是否是实体，从找到的实体中筛选出备选的主体实体和客体实体；

步骤八、将主体实体和客体实体中各取出一个主体实体和一个客体实体，组成实体关系对，并将主体实体和客体实体之间的文本编码经过最小池化操作(min-pooling)，表示为关系的文本编码；

步骤九、将主体实体的文本编码，关系的文本编码和客体实体的文本编码共同输入到关系分类器(relation-classification)中，算出得分，如果大于置信阈值a，那么则说明主体实体和客体实体存在关系，如果小于置信阈值a，那么则说明主体实体和客体实体不存在关系；

步骤十、将无标注文本输入到训练好的初始模型中进行实体识别，生成无标注文本的实体伪标签。最后，将带有伪标签的无标注数据加入训练数据中，通过半监督损失函数调度机制，重新训练得到最终的电力实体识别模型。

进一步的，非训练情况下，进行时基于半监督学习的电网领域实体关系抽取时，将步骤十除去。

进一步的，所述步骤六中，宽度分类器(span-classifying)的计算如下：

e＝f(e_i,e_i+1,...,e_i+k)

其中f代表最小池化操作(min-pooling)，e_i代表第i个文本的编码。

其中代表拼接，将两个向量进行拼接，w_k+1代表embedding。

其中cls代表整体句意表示的文本编码。

y^s＝softmax(W^s*x^s+b^s)

进一步的，所述步骤九中，关系分类器(relation classification)的计算如下：

其中，(s1,s2)为两个备选实体。e(s1)代表其中一个实体编码与对应的embedding拼接后的文本编码，e(s1)代表其中另一个实体编码与对应的embedding拼接后的文本编码。代表拼接，将两个向量进行拼接。

进一步的，所述步骤十中，半监督损失函数调度机制的计算如下：

式中n_L和n_u分别是标注和无标注样本的个数，α(t)是用于调整训练中对标注和无标注样本关注程度的调度系数。调度系数的取值十分关键，如果其取值过高，则会影响标注样本的监督效果；如果取值过低，则模型很难学习到无标注样本中的实体知识。

本发明提供的一种基于半监督学习的电网领域实体关系抽取，将多粒度掩码预训练语言模型ERNIE应用于实体关系抽取任务上，捕获实体级别的语义信息；为了能够充分挖掘大规模无标注电力文本中蕴含的实体知识，减轻对有标注数据的需求，降低数据标注工作耗费的人力时间成本，模型应用半监督学习的方法；使用半监督训练架构和损失函数调度机制来挖掘无标注数据中的实体识别知识，提升电力实体识别性能，从而更好的进行关系抽取。

附图说明

图1为基于Seq2seq实体关系抽取的示意图；

图2为基于注意力机制的双向长程短期记忆网络关系分类的示例图；

图3为实施例一的流程图；

图4为本发明提供的一种基于半监督学习的电网领域实体关系抽取方法的流程图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。其中，本实施例中出现的缩略语和关键术语定义如下：

BP:Back Propagation反向传播；

CNN:Convolutional Neural Network卷积神经网络；

LSTM:Long Short-Term Memory长短期记忆神经网络；

ERNIE:Enhanced Representation through Knowledge Integration多粒度掩码预训练语言模型；

NER:Named entity recognition命名实体识别

NLP:Natural Language Processing自然语言处理；

NN:Neural Network神经网络；

ReLU:Rectified Linear Unit线性整流函数，是一种激活函数；

Seq2seq:Sequence to Sequence一种通用的编码器和解码器框架；

实施例一

参照图3、4所示，图3,4示出了本发明提供的一种基于半监督学习的电网领域实体关系抽取，具体的，在模型训练时，该方法包括：

其中，ERNIE模型主要由两种Encoder组成，分别是T-Encoder以及K-Encoder。其中T-Encoder主要是进行输入文本的encoder，提取的是词法以及语义的信息，共N层。而K-Encoder主要进行的是知识entity的embedding以及知识融合。应用的数据集是ADE20k,ADE20k拥有超过25,000张图像,这些图像用开放字典标签集密集注释；

步骤二、将得到的每个词的文本编码进行跨度枚举。与经典的实体关系分类不同，此方法检测所有文本编码的子序列(即跨度)中的实体。通过不断的枚举跨度，找到可能存在实体编码，如果一句话包含T个字，则一共可以生成T(T+1)/2个跨度；

进一步的，所述步骤二中的枚举跨度：采取两层循环进行枚举跨度，从而找到可能存在的实体编码。第一个循环,span的长度依次从1增加到句子的最大长度,可以理解为一个size大小的窗口(1<＝size<＝句子的最大长度)；第二个循环从第0个token开始,到第句子的最大长度结束,可以作为size窗口的开始位置,窗口内的词片段即为一个跨度,如果该跨度位于正样例集合中,则剔除,否则加入到负样例集合中。并且同时规定实体的长度不能超过10；

进一步的，采用分类思想实现实体和关系抽取，其中使用了min-pooling特征，可以更好的抽取出跨度长度内所有可能的实体和关系。

进一步的，使用平均池化操作不仅可以使特征减少，更可以更多保留句子中的信息，为后面抽取实体关系提供语意支持；

进一步的，这些嵌入层(embedding)是通过反向传播来学习的，并允许模型在跨度宽度上包含先验；

e＝f(e_i,e_i+1,...,e_i+k)

其中代表拼接，将两个向量进行拼接，w_k+1代表embedding。

其中cls代表整体句意表示的文本编码。

y^s＝softmax(W^s*x^s+b^s)

本实例中，实体分类的损失和关系分类的联合损失在整体损失函数中的权重均设置为0.5，Adam优化器的学习率设置为0.00005，训练批量大小设置为2，训练迭代轮数设置为50，宽度嵌入维度为25。设置关系分类器(span-classifying)的丢弃率为0.1并使用正态分布随机数(μ＝0，σ＝0.02)初始化分类器的权重。

一优选实施例，如图3所示，首先将句子输入到多粒度掩码预训练语言模型ERNIE中，得到每个单词所对应的编码；在训练过程中，通过从句子中第一个词开始，不断枚举跨度，要将文本的编码跨度进行嵌入层的构建，用来衡量文本跨度的宽度，将整个句子所有的编码都进行平均池化操作，得到整体句意表示的文本编码，记作cls；将这些枚举出来的所有编码和嵌入层以及cls共同输入到跨度分类器中进行判断，判断是否为实体，如果是实体就进行保留，不是实体则继续枚举，直到句子结尾，这样就找到了句子中的所有实体，其中包含主体实体和客体实体；将实体所对应的所有编码进行最小池化操作，用最小池化后的编码表示这个实体；将主体实体和客体实体中各取出一个主体实体和一个客体实体，组成实体关系对，并将主体实体和客体实体之间的文本编码经过最小池化操作，表示为关系的文本编码；将主体实体的文本编码，关系的文本编码和客体实体的文本编码共同输入到关系分类器中，算出得分，如果大于置信阈值a，那么则说明主体实体和客体实体存在关系，如果小于置信阈值a，那么则说明主体实体和客体实体不存在关系，由此可以找到句子中所有的实体关系。

本发明实施例一通过多粒度掩码预训练语言模型ERNIE应用于实体关系抽取任务上，捕获实体级别的语义信息；为了能够充分挖掘大规模无标注电力文本中蕴含的实体知识，减轻对有标注数据的需求，降低数据标注工作耗费的人力时间成本，模型应用半监督学习的方法；使用半监督训练架构和损失函数调度机制来挖掘无标注数据中的实体识别知识，提升电力实体识别性能，从而更好的进行关系抽取。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于半监督学习的电网领域实体关系抽取，其特征在于，训练中引入多粒度掩码预训练模型(ERNIE)并且加入半监督学习模块，该方法包括：

2.如权利要求1所述的方法，其特征在于，训练中数据全部为有标注的电网文本数据时，将步骤十予以替换，替换如下：

步骤十、将所有有标注的电网文本数据进行训练，通过半监督损失函数调度机制，得到最终的模型。

3.如权利要求1所述的方法，其特征在于，非训练情况下，中文分词时，将步骤一到步骤十予以替换，替换如下：

步骤一、将需要进行实体关系抽取的数据作为模型的输入；

步骤二、将需要进行实体关系抽取的数据通过预训练好的多粒度掩码预训练模型(ERNIE)，将电网文本映射为向量表示；

步骤三、将向量表示输入到训练好的实体识别器中，找到文本中的实体，包括主体实体和客体实体；

步骤四、将主体实体，文本内容，客体实体输入到训练好的关系分类器中，算出得分，从而判断主体实体和客体实体是否存在关系。

4.如权利要求1所述的方法，其特征在于，所述步骤一中，ERNIE模型主要由两种Encoder组成，分别是T-Encoder以及K-Encoder。其中T-Encoder主要是进行输入文本的encoder，提取的是词法以及语义的信息，共N层。而K-Encoder主要进行的是知识entity的embedding以及知识融合。应用的数据集是ADE20k,ADE20k拥有超过25,000张图像,这些图像用开放字典标签集密集注释。

5.如权利要求1所述的方法，其特征在于，所述步骤二中，枚举跨度：采取两层循环进行枚举跨度，从而找到可能存在的实体编码。第一个循环,span的长度依次从1增加到句子的最大长度,可以理解为一个size大小的窗口(1<＝size<＝句子的最大长度)；第二个循环从第0个token开始,到第句子的最大长度结束,可以作为size窗口的开始位置,窗口内的词片段即为一个跨度,如果该跨度位于正样例集合中,则剔除,否则加入到负样例集合中。并且同时规定实体的长度不能超过10。

6.如权利要求1所述的方法，其特征在于，所述步骤六中，宽度分类器(span-classifying)的计算如下：

e＝f(e_i,e_i+1,...,e_i+k)

其中代表拼接，将两个向量进行拼接，w_k+1代表embedding。

其中cls代表整体句意表示的文本编码。

y^s＝softmax(W^s*x^s+b^s)

7.如权利要求1所述的方法，其特征在于，所述步骤九中，关系分类器(relationclassification)的计算如下：