CN114372138A

CN114372138A - 一种基于最短依存路径和bert的电力领域关系抽取的方法

Info

Publication number: CN114372138A
Application number: CN202210028195.5A
Authority: CN
Inventors: 王翀; 查易艺; 张明明; 徐青山; 宋玉; 顾颖程; 林杉
Original assignee: Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Current assignee: Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2022-01-11
Filing date: 2022-01-11
Publication date: 2022-04-19

Abstract

本发明一种基于最短依存路径和BERT的电力领域关系抽取的方法，包括如下步骤：S1、从互联网上获取电力领域文本信息并将其存储于数据库内；S2、对于电力领域文本信息使用依存句法分析对文本中的重要信息进行抽取，得到原始语句的依存路径，同时得到最短依存路径；S3、将原序列依存路径和最短依存路径分别放入BERT中进行处理，获得相应的词向量；S4、将两个向量分别传入传统的BiLSTM神经网络进行分类，最后两个LSTM模型的输出进行拼接，并用softmax得到最后的模型输出结果。本发明可有效处理电力专业领域关系抽取问题，降低噪声词汇对分类模型的影响，提高关系抽取的效率以及准确度，提高电网决策智能化水平。

Description

一种基于最短依存路径和BERT的电力领域关系抽取的方法

技术领域

本发明属于电力领域决策辅助领域，具体涉及一种基于最短依存路径和BERT的电力领域关系抽取的方法。

背景技术

近年来人工智能技术发展迅速，智能算法已广泛应用于电力领域，其中智能技术的实现多依赖于大规模、高质量和宽领域的结构化知识库。传统的知识库构建主要依赖手工，通过该方式构建的知识库扩展性较差、规模较小且具有局限性，因此，如何自动化构建知识库成为近年的研究热点。从大量非结构化数据中抽取出结构化数据，成为构建大型知识库的关键技术之一。从自然文本中自动提取出多个实体并判别其关系类型是关系抽取任务的目的。目前，已有关系抽取的方法大致可归纳为：基于模式匹配的关系抽取方法、基于词典的关系抽取方法、基于文本语法和语义的关系抽取方法、基于机器学习的关系抽取方法及混合抽取方法。目前，基于机器学习的关系抽取方法的核心思想是使用表示学习等方法，组织和衍生特征向量，通过提取自然语言文本中的特征，组织成可被深度神经网络或者其他学习网络接受的张量形式进行分类器的训练.特征的组织和模型的优化是关系抽取方法的关键步骤，也是影响分类准确率的重要因素。

在以往研究中，普遍采用基于Skip-gram模型和CBOW模型的单一字向量和词向量作为文本特征，再结合具体任务训练语料的特点，构建特定任务的概率模型。这种方法虽然效果不错，但噪声传播问题仍是关系抽取任务要解决的难点。通过构建特定任务的模型能在一定程度上解决该问题，但局限性成为进一步提升抽取效果的瓶颈。另一方面，传统的预训练语言模型，虽然能在一定程度上反映文本字词语义，但其表示能力受滑动窗口的限制，并不能充分表示上下文语义，存在一词多义现象。在特定语境下，传统的字词特征仍有改进空间。

依存句法分析是自然语言处理领域的分析方法之一。基于转移和基于图的依存分析方法是依存句法分析的两个主要思路。基于转移的依存分析方法是构建一条从初始转移状态到终结状态的转移动作序列并逐步生成依存树；基于图的依存分析方法则将文本序列转换为有向完全图，在图中求解最大生成树问题。通过依存句法分析能简洁反映文本实体词之间的直接或间接的关联关系，以降低噪声词对训练分类模型的影响，更好地解决噪声传播问题；同时，依存句法分析能衍生更丰富的实体和语法特征，能更好地挖掘文本语义。

目前注意力机制和语言模型的不断发展为自然语言处理任务提供了更好语义表示方案.基于Self-Attention机制的Transfomers被提出后，以其为基础的BERT预训练模型也应运而生.BERT能更好地综合考虑文本的上下语境，增强了模型的泛化能力，充分描述了字符级、词级、句子级甚至句间关系的特征。

发明内容

本发明要解决的技术问题是提供一种基于最短依存路径和BERT的电力领域关系抽取的方法，结合BERT预训练语言模型获得更具语义表现力的特征表示，同时使用依存句法分析提取出最短依存路径作为额外信息输入分类模型，降低了噪声词汇对分类模型的影响。

为解决上述技术问题，本发明的实施例提供一种基于最短依存路径和BERT的电力领域关系抽取的方法，包括如下步骤：

S1、从互联网上获取电力领域文本信息并将其存储于数据库内；

S2、使用依存句法分析电力领域文本信息，对文本中的重要信息进行抽取，得到原始语句的依存路径，同时得到最短依存路径，并对最短依存序列进行词性标注；

S3、将原始语句的依存路径和最短依存路径分别放入BERT中进行处理，获得相应的词向量；

S4、将两个向量分别传入传统的BiLSTM神经网络进行分类，最后两个LSTM模型的输出进行拼接，并用softmax得到最后的模型输出结果。

其中，步骤S1的步骤包括：

S1.1、选取电力领域信息的可信网络数据源；

S1.2、对网络数据源上的文本信息通过网络爬虫进行抓取，并根据系统获取信息的需求设计上下层提取器对网络数据源进行判重和置信度分析，降低信息采集系统的运算量和存储量；

S1.3、将其存储于数据库内。

其中，步骤S2的具体步骤包括：

S2.1、使用依存句法分析电力领域文本信息，对文本中的重要信息进行抽取，称其为“预抽取”，得到原始序列的依存句法树；

S2.2、将对依存句法树去掉根节点后所得的多棵子树进行调整和剪枝。若实体词存在，则保留完整子树；若实体词不存在，只保留该子树中的动词和名词。若舍弃的结点为叶子结点，则直接舍弃；若舍弃的结点为非叶子节点，则选择孩子节点中的动词结点作为新的双亲结点；当存在多个动词，则按照如下优先级进行选择：实义动词(如，教育、写作等)>趋向动词>系动词>助动词(“>”表示“优先于”)；

S2.3、将已剪枝的依存句法树视为特殊的图结构G_t，以两实体词结点分别作为起始节点V_e1和终点节点V_e2，使用Djkstra最短路径算法求出两个实体节点之间的最短路径，定义其为最短依存路径P_t，其表达式为：

P_t＝Djkstra(G_t，V_e1，V_e2)

其中，在最短依存路径上的词语，组成了该文本的最短依存序列P_w＝{w_i，w_i+1，…，w_j}，i，j≤n。

其中，步骤S3包括如下步骤：

S3.1、将经处理后的原序列中的单词映射成多维词向量e_i∈R^d，d为词向量的维度。然后得到句子s的词向量集合X＝{e₁，e₂，…，e_n}，其中X∈R^n×d。因此，多头注意力机制层大致可以表示为

Z＝MultiHead(Q，K，V)＝HW⁰；

其中，W⁰∈R^hn×k为多头注意力的权重矩阵。模型中的多头自注意力是指首先对Q，K，V进行不同的线性变换，再计算相似度，这个过程重复做h次，然后将h次的结果拼接起来再进行线性变换作为多头自注意力机制的结果.其计算方法为：

Q＝XW^Q K＝XW^K V＝XW^V；

其中，W^Q∈R^k×n，W^K∈R^k×n，W^V∈R^k×n分别为Q，K，V的权重矩阵。然后重复h次之后，最终多头注意力的输出就是将各头输出进行拼接，其表达式为：

其中，H∈R^n×hn，

为拼接操作。所以，head_i的表达式为：

其中，

多头注意力机制层的结果，经过残差和归一化处理后，进入前馈神经网络层，该层通过简单的线性激活的运算得到文本语义的向量表示，其过程为：

C＝max[0，ZW₁+b₁]W₂+b₂；

其中，W₁，W₂为前馈网络的权重矩阵，b₁，b₂为前馈网络的偏置；

S3.2、将最短依存序列单独作为BERT的一个输入，并且对最短依存序列进行词性标注，将其词性映射成相应的语义向量pos_i∈R^d，其中d为前文提到的词向量维度，pos_i为第i个词的词性，可求最短依存序列的词性特征为：pos_0：n＝{pos₀，pos₁，…，pos_m}，将最短依存序列特征及其词性特征进行拼接得到：X_p＝s_p⊙pos_0：m，计算出Self-attention的查询向量，键向量和值向量，代入自注意力机制的公式后获得E_p，再将E_p进行简单的线性激活后得到最短依存序列特征P。

P＝tanh(W_p·E_p+b_p)；

其中，步骤S4的步骤包括：

将步骤S3得到的P和C分别传入传统的双向LSTM神经网络进行分类，其过程大致为：

f_t＝σ(w_f·[h_t-1，e_t]+b_f) (1)

i_t＝σ(w_i·[h_t--1，e_t]+b_i) (2)

其中，

是上一时间步的隐含状态，e_t为当前时间步输入，W和b分别为LSTM各个门的权重矩阵和偏置矩阵。式(1)和式(2)将上一时间步h_t-1传来的隐含状态和当前时间步e_t的输入通过sigmod函数将其映射到一个[0，1]区间，确定遗忘权重和记忆权重。式(3)和式(4)选择性地将当前时间步特征更新到细胞状态。式(5)和式(6)则通过前一时间步的隐含状态

和当前的细胞状态

经过sigmod层得出权重O_t，最后再通过线性激活得到当前的隐含状态

式(7)综合考虑当前时间步的双向信息，即文本上下文，将两个方向的隐含状态综合计算得到当前时间步最后的输出h_t。最后，将两个LSTM模型的输出进行拼接，并用softmax得到最后的模型输出结果。

本发明的上述技术方案的有益效果如下：

1、本发明将最短依存路径和BERT引入互联网电力领域政策信息分析场景，提出了一种基于最短依存路径和BERT的电力领域关系抽取的方法，对互联网上的采集的电力领域知识进行关系抽取，使从结构化数据与非结构化文档中抽取各类实体关系成为可能。

2、本发明采用BERT预训练语言模型获得特征表示，相比传统特征表示方式，得到的特征更具语义表现力，降低噪声词汇对分类模型的影响，提高实体关系的抽取效率。

附图说明

图1为依存句法分析树结构示意图；

图2为BERT模型结构示意图；

图3为Transformer编码器结构示意图；

图4为基于依存句法和BERT的双向LSTM神经网络模型结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

如图1-图4所示，本发明提供一种基于最短依存路径和BERT的电力领域关系抽取的方法，包括如下步骤：

步骤S1中考虑到互联网上电力领域信息的来自新闻发布平台、企业官网、政府机构公告和行业动态等不同的数据源，首先采用对应的爬虫模块对文本信息作基础的采集，然后利用地址进行第一次数据去重，再通过标题做进一步过滤重复信息。将采集到的数据存储在数据库MySQL中，构建出原始的电力领域文本源数据库。

S2、对于步骤S1中获取的电力领域文本信息使用依存句法分析对文本中的重要信息进行抽取，得到原始语句的依存路径，同时得到最短依存路径；

步骤S2中，传统的原始语句依存路径无法有效应对噪声问题，本步骤采用增加了最短依存路径作为额外的信息输出。

使用依存句法分析对文本中的重要信息进行抽取，称其为“预抽取”，得到原始序列的依存句法树；将对依存句法树去掉根节点后所得的多棵子树进行调整和剪枝。若实体词存在，则保留完整子树；若实体词不存在，只保留该子树中的动词和名词。若舍弃的结点为叶子结点，则直接舍弃；若舍弃的结点为非叶子节点，则选择孩子节点中的动词结点作为新的双亲结点；当存在多个动词，则按照如下优先级进行选择：实义动词(如，教育、写作等)＞趋向动词＞系动词＞助动词(“＞”表示“优先于”)；将已剪枝的依存句法树视为特殊的图结构G_t，以两实体词结点分别作为起始节点V_e1和终点节点V_e2，使用Djkstra最短路径算法求出两个实体节点之间的最短路径，定义其为最短依存路径P_t，其表达式为：

P_t＝Djkstra(G_t，V_e1，V_e2)；

S3、本步骤选取BERT来完成词向量的获取，将步骤S2得到的最短依存序列和原始依存序列分别作为BERT的输入，分别得到两者的词向量。

将经处理后的原序列中的单词映射成多维词向量e_i∈R^d，d为词向量的维度。然后得到句子s的词向量集合X＝{e₁，e₂，…，e_n}，其中X∈R^n×d。因此，多头注意力机制层大致可以表示为

Z＝MultiHead(Q，K，V)＝HW⁰；

Q＝XW^Q K＝XW^K V＝XW^V；

其中，H∈R^n×hn，

为拼接操作。所以，head_i的表达式为：

其中，

C＝max[0，ZW₁+b₁]W₂+b₂；

其中，W₁，W₂为前馈网络的权重矩阵，b₁，b₂为前馈网络的偏置。

将最短依存序列单独作为BERT的一个输入，并且对最短依存序列进行词性标注，将其词性映射成相应的语义向量pos_i∈R^d，其中d为前文提到的词向量维度，pos_i为第i个词的词性，可求最短依存序列的词性特征为：pos_0：n＝{pos₀，pos₁，…，pos_m}，将最短依存序列特征及其词性特征进行拼接得到：X_p＝s_p⊙pos_0：m，计算出Self-attention的查询向量，键向量和值向量，代入自注意力机制的公式后获得E_p，再将E_p进行简单的线性激活后得到最短依存序列特征P。

P＝tanh(W_p·E_p+b_p)。

S4、将步骤S3得到的P和C分别传入传统的双向LSTM神经网络进行分类，其过程大致为：

f_t＝σ(w_f·[h_t-1，e_t]+b_f) (1)

i_t＝σ(w_i·[h_t--1，e_t]+b_i) (2)

其中，

和当前的细胞状态

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于最短依存路径和BERT的电力领域关系抽取的方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于最短依存路径和BERT的电力领域关系抽取的方法，其特征在于，步骤S1的步骤包括：

S1.1、选取电力领域信息的可信网络数据源；

S1.3、将其存储数据库内。

3.根据权利要求1所述的基于最短依存路径和BERT的电力领域关系抽取的方法，其特征在于，步骤S2的具体步骤包括：

S2.1、使用依存句法分析电力领域文本信息，对文本中的重要信息进行抽取，称其为预抽取，得到原始序列的依存句法树；

S2.2、将对依存句法树去掉根节点后所得的多棵子树进行调整和剪枝，若实体词存在，则保留完整子树；若实体词不存在，只保留该子树中的动词和名词；若舍弃的结点为叶子结点，则直接舍弃；若舍弃的结点为非叶子节点，则选择孩子节点中的动词结点作为新的双亲结点；当存在多个动词，则按照如下优先级进行选择：实义动词＞趋向动词＞系动词＞助动词；

P_t＝Djkstra(G_t，V_e1，V_e2)；

其中，在最短依存路径上的词语，组成了该文本的最短依存序列

P_w＝{w_i，w_i+1，…，w_j}，i，j≤n。

4.根据权利要求1所述的基于最短依存路径和BERT的电力领域关系抽取的方法，其特征在于，步骤S3包括如下步骤：

S3.1、将经处理后的原序列中的单词映射成多维词向量e_i∈R^d，d为词向量的维度，然后得到句子s的词向量集合X＝{e₁，e₂，…，e_n}，其中X∈R^n×d；多头注意力机制层大致可以表示为

Z＝MultiHead(Q，K，V)＝HW⁰；

其中，W⁰∈R^hn×k为多头注意力的权重矩阵；

模型中的多头自注意力是指首先对Q，K，V进行不同的线性变换，再计算相似度，这个过程重复做h次，然后将h次的结果拼接起来再进行线性变换作为多头自注意力机制的结果，其计算方法为：

Q＝XW^Q K＝XW^K V＝XW^V，

其中，W^Q∈R^k×n，W^K∈R^k×n，W^V∈R^k×n分别为Q，K，V的权重矩阵；然后重复h次之后，最终多头注意力的输出就是将各头输出进行拼接，其表达式为：

其中，H∈R^n×hn，

为拼接操作；所以，head_i的表达式为：

其中，W_i ^Q∈R^k×n，W_i ^K∈R^k×n，W_i ^V∈R^k×n；

C＝max[0，ZW₁+b₁]W₂+b₂；

S3.2、将最短依存序列单独作为BERT的一个输入，并且对最短依存序列进行词性标注，将其词性映射成相应的语义向量pos_i∈R^d，其中d为前文提到的词向量维度，pos_i为第i个词的词性，可求最短依存序列的词性特征为：pos_0：n＝{pos₀，pos₁，…，pos_m}，将最短依存序列特征及其词性特征进行拼接得到：X_p＝s_p⊙pos_0：m，计算出Self-attention的查询向量，键向量和值向量，代入自注意力机制的公式后获得E_p，再将E_p进行简单的线性激活后得到最短依存序列特征P：

P＝tanh(W_p·E_p+b_p)；

步骤S4的步骤包括：

将步骤S3得到的P和C分别传入传统的双向LSTM神经网络进行分类，其过程包括：

f_t＝σ(w_f·[h_t-1，e_t]+b_f) (1)

i_t＝σ(w_i·[h_t-1，e_t]+b_i) (2)

其中，

是上一时间步的隐含状态，e_t为当前时间步输入，W和b分别为LSTM各个门的权重矩阵和偏置矩阵；式(1)和式(2)将上一时间步h_t-1传来的隐含状态和当前时间步e_t的输入通过sigmod函数将其映射到一个[0，1]区间，确定遗忘权重和记忆权重；式(3)和式(4)选择性地将当前时间步特征更新到细胞状态；式(5)和式(6)则通过前一时间步的隐含状态

和当前的细胞状态

式(7)综合考虑当前时间步的双向信息，即文本上下文，将两个方向的隐含状态综合计算得到当前时间步最后的输出h_t；最后，将两个LSTM模型的输出进行拼接，并用softmax得到最后的模型输出结果。