CN113128229B

CN113128229B - 一种中文实体关系联合抽取方法

Info

Publication number: CN113128229B
Application number: CN202110397595.9A
Authority: CN
Inventors: 沈光熠; 杨志勇
Original assignee: Nanjing Ruituode Intelligent Information Technology Co ltd; Hohai University HHU
Current assignee: Nanjing Ruituode Intelligent Information Technology Co ltd; Hohai University HHU
Priority date: 2021-04-14
Filing date: 2021-04-14
Publication date: 2023-07-18
Anticipated expiration: 2041-04-14
Also published as: CN113128229A

Abstract

本发明提供了一种中文实体关系联合抽取方法，包括使用bert模型学习字符向量，字符向量拼接字形特征及字符位置信息；使用双向LSTM模型学习字符特征；使用选择性注意力机制进行实体识别；使用层次注意力机制LSTM进行关系抽取方法。本申请通过底层共享网络参数的方式，进行联合知识抽取，解决抽取中实体识别和关系抽取错误累计的问题；通过引入分词与词表向量，在词向量中拼接中文特征，解决中文特征信息不充分的问题；通过在结合自注意力机制的双向LSTM编码层，对长距离序列进行建模；通过层级注意力机制，解决实体关系之间关联不足的问题。

Description

一种中文实体关系联合抽取方法

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种中文实体关系联合抽取方法。

技术背景

实体关系抽取是信息抽取的关键任务之一，主要用于从非结构化文档中自动抽取用户关注的实体和实体之间的关系，广泛应用于自然语言处理领域，如知识图谱构建、智能问答、推荐系统等。知识抽取是级联任务，分为两个子任务：实体抽取和实体关系抽取。

实体关系抽取方法主要有pipeline方法和联合抽取方法，目前，中文实体关系抽取主要通过pipeline方式进行抽取，这种方法存在如下不足：1、pipeline方法将命名实体识别和关系抽取两部分分开进行，先进行命名实体识别，将实体识别的结果放入关系抽取任务中进行实体间关系的识别，没有考虑到两个任务之间的关联性，会导致命名实体识别过程中识别的无效实体信息传入关系抽取任务时带来错误的累计；2、由于现有的语言模型没有考虑中文信息中包含的丰富的语义信息例如字形特征，以及句子中实体关系词之间的位置信息等特征信息，充分利用这些信息能为抽取效果带来较好的提升；3、长距离依赖问题：循环神经网络理论上可以建立长距离依赖关系，但是由于信息传递的容量以及梯度消失问题，传统方法中采用LSTM处理输入的句子时会出现语义向量不能完全表示整个序列，这也就直接导致了模型无法对长距离序列进行建模；4、实体关联不足问题：对句子进行关系抽取时，只是简单的对两个实体的编码进行处理，没有充分考虑实体之间的关联信息，关系抽取的结果不准确。

发明内容

本发明的目的是提供一种基于自注意力机制和层次注意力机制的参数共享实体关系联合抽取方法，通过命名实体识别和关系抽取共用底层BiLSTM编码层，以及将两个任务的损失函数结合作为模型最终的损失函数的方式进行参数共享，实现命名实体识别和关系抽取两个任务的关联，从而实现联合抽取，解决pipeline方法中误差累计的问题；通过引入中文字形特征和位置特征，解决中文特征信息缺少的问题；通过引入自注意力机制，自注意力机制对每个词和所有词都计算注意力，所以不管两个词中间有多长距离，他们的最大路径长度都为1，捕捉当前输入中对输出最重要的部分，解决句子的长距离依赖问题；通过树形LSTM模型结合层次注意力机制，解决实体关联信息不足的问题。

本申请采用如下技术方案：

一种中文实体关系联合抽取方法，包括：

步骤一，多特征中文词嵌入：使用bert模型学习字符向量，字符向量拼接字形特征和字符位置信息作为词嵌入向量；

步骤二，自注意力机制BiLSTM编码层：将步骤一中词嵌入层得到的中文多特征词嵌入向量输入自注意力机制BiLSTM编码层中，使用自注意力双向LSTM编码器模型学习字符上下文信息特征，得到隐层输出结果；

步骤三，命名实体识别：将步骤二中隐层输出结果作为命名实体识别模块的输入，使用LSTM结合softmax进行命名实体识别；

步骤四，层次注意力机制关系抽取：将步骤二中隐层输出结果作为关系识别模块的输入，使用层次注意力机制LSTM进行关系分类。

具体地，所述步骤一中使用卷积神经网络模型，以汉字的五笔编码为输入，自动提取字形特征，同时，通过bert模型分词后，该字在词中的开头、中间和结尾的位置不同，通过独热方式生成边界特征向量，在Embeding层中将字符向量、字形向量、词边界特征向量进行拼接。

使用bert模型学习字符向量，bert是一种基于微调的多层双向Transformer编码器，对于给定的词，BERT最终输入的向量由三部分token向量(token Embeddings)、分句向量(Segment Embeddings)以及位置向量(PositionEmbeddings)组成，其中token向量为token的词向量，分句向量用于让模型能够区分两个句子，位置向量用于为Transformer编码器补充词的位置信息编码。为了更合理地引入该字所属于的词的词向量信息，使用卷积神经网络模型，以汉字的五笔编码为输入，提取字形特征。最终拼接bert的输出向量和字形特征向量，得到最终的词嵌入向量。

具体地，所述步骤二中自注意力双向LSTM编码器为：将Embedding向量输入自注意力层，得到注意力输出，将自注意力输出结果输入BiLSTM模型中，获取每个字符序列的上下文信息，自注意力BiLSTM编码层的编码结果由命名实体识别和关系抽取两个模块共同使用，实现编码层的参数共享。

将步骤一中词嵌入层得到的中文多特征词嵌入向量输入自注意力机制BiLSTM编码层中，该层是后续命名实体识别和关系抽取任务共用的底层编码层。LSTM是一种特殊的循环神经网络，主要是通过遗忘、输入和输出几个门对当前信息进行取舍。双向LSTM循环神经网络BiLSTM是在LSTM基础上添加一层反向LSTM模型组合而成，通过BiLSTM编码器模型，能够学习到句子的上下文信息表征；通过引入自注意力机制与BiLSTM编码层结合，解决句子的长距离依赖问题，该层得到的隐层输出结果作为后续的命名实体识别和关系抽取任务中的输入。

具体地，所述步骤三中命名实体识别具体为：自注意力双向LSTM编码器的输出结果，通过LSTM进行解码，最后通过softmax预测实体标签。

具体地，所述步骤四中实体关系分类具体为：双向LSTM编码器和实体识别softmax输出结果进行拼接，输入关系抽取模块的树形LSTM层中，输出实体关系分类特征向量。

关系识别模块同样使用步骤二中的自注意力BiLSTM编码层的隐层输出，并使用层次注意力机制进行关系分类。句子的依存关系可看作一种树形结构，因此具有明显的层次结构，不同层包含不同的粒度信息，为了综合利用不同层次上不同粒度信息对关系的重要程度，使用注意力机制对不同层上的节点计算注意力权重。

优选地，步骤四之后还包括：步骤五，模型损失函数设置：设置模型的损失函数为步骤三中命名实体识别的损失函数和步骤四种关系抽取损失函数之和，进行训练。

进一步地，所述模型损失函数为：

Loss＝α*Entity_Loss+β*Relation_Loss；其中Entity_Loss为实体识别损失函数，Relation_Loss为实体关系抽取损失函数，α、β为损失函数权重，α、β＞＝1。

与现有技术相比，本发明的有益效果在于：

本申请通过将底层BiLSTM编码层作为命名实体识别和关系抽取的共用编码层，并且将两个任务的损失函数结合作为模型整体的损失函数，实现实体识别和关系抽取两个子任务之间参数的共享，实现联合知识抽取，解决抽取中实体识别和关系抽取错误累计的问题；通过引入分词与词表向量，在词向量中拼接中文字形特征和位置特征，解决中文特征信息不充分的问题；通过在BiLSTM中结合自注意力机制，对每个词和所有词都计算注意力，解决循环神经网络的不能对长距离序列建模的问题；通过将句子转为依存句法树，对树形结构上的不同层次节点使用层级注意力机制，解决实体关系之间关联不足的问题，克服了现有技术的不足。

附图说明

图1为本发明方法的流程示意图；

图2为方法步骤一中多特征中文词嵌入的流程图；

图3为方法步骤二中自注意力BiLSTM编码器的工作流程示意图；

图4为方法步骤三中实体识别方法流程示意图；

图5为方法步骤四中实体关系抽取流程示意图。

具体实施方式

下面将详细地对实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下实施例中描述的实施方式并不代表与本申请相一致的所有实施方式。仅是与权利要求书中所详述的、本申请的一些方面相一致的系统和方法的示例。

本发明所述一种中文实体关系联合抽取方法，通过底层共享网络参数的方式，进行联合抽取，解决实体识别和关系抽取中误差累计的问题；通过引入中文字形特征和位置特征，解决中文特征信息缺少的问题；通过引入选择性注意力机制，解决远程监督错误标注问题；通过树形LSTM模型结合层次注意力机制，解决实体关联信息不足的问题。

如图1-5所示，为本申请的一种中文实体关系联合抽取方法，包括：

步骤1：多特征中文词嵌入

首先利用Bert的Tokenizer分词器对输入文本做切分操作，并在句首添加输入开始标记“CLS”以及在句尾添加句子的结束标记“SEP”，将句子转换为token序列P＝{“CLS”,c₁,c₂,c₃,…,c_n,”SEP”}，其中c₁∈C,本文选用以中文字为单位的分割方式，c_n便代表每个位置上对应的中文汉字；n表示段落中汉字的个数，C表示所有字符空间。将token映射为向量与位置向量、分句向量进行求和，作为Bert模型的输入向量。将token向量传入多层Transformer编码器中获取每个token的特征向量。将拆分的subword每一维求平均值作为原始单词的输出，保证输入输出序列长度的一致性。

将输入的句子表示成序列形式：W＝[w₁,w₂,...,w_n]，w表示输入中文句子的以字为单位的切分，就是句子中每个位置上的中文汉字；n表示输入句子的长度，经过bert层编码后得到最终输出序列E＝[e₀,e₁,...,e_n,e_n+1]∈R⁽ⁿ⁺²⁾*d^T，其中R代表实数集合，d^T为bert的隐藏层维度，e₀为“CLS”对应的语义编码，e_n+1为“SEP”对应的语义编码，e_n为第n个词对应的语义编码。

中文包含丰富的语义特征，但由于分词工具的误差问题，分词会产生较大的歧义，为了歧义问题，更合理地引入该字所属于的词的词向量信息，采用了CNN模型，以汉字的五笔编码为输入，自动提取字形特征。同时，将该字在词中的开头、中间和结尾的位置不同，通过独热方式生成边界特征向量。最后如图2，在Embeding层中将bert向量、字形特征向量、词边界特征向量进行拼接，作为BiLSTM编码层的输入。

步骤2：自注意力机制BiLSTM编码器

该编码器包括自注意力层，前向LSTM层、后向LSTM层及合并层。Bert层将输入的句子表示为分布式表示，因此一个句子序列可表示为：

X＝{x₁,...,x_t,x_t+1...,x_n},x_t∈R^d表示与句子中第t个词相对应的一个d维词向量，n表示所给句子的长度。

编码流程见图3，首先将句子序列输入自注意力层，自注意力机制使用缩放点击注意力作为打分函数，输入文本经过词嵌入层输出表示为其中R为实数集合，n表示输入句子序列的长度，d_encoder表示bert隐层的维度，则有Q＝K＝V＝W，其中Q代表Query；K代表Key；V表示Value。自注意力机制首先对Q、K、V进行线性变换，随后计算线性变换后的Q和K的内积，最后通过softmax归一化得到权重分布，并对V加权求和得到自注意力的输出表示：

其中，Q∈R^n×d,K∈R^n×d,V∈R^n×d,K^T为K的转置，n为输入序列的长度。为缩放因子，防止内积过大时导致softmax计算的结果非0即1，M_att＝{m₁,m₂,...,m_n}其维度为R^n×d。其中，d为词嵌入的维度。

将自注意力的序列表示输入BiLSTM模型中的前向LSTM层x₁到x_n的上下文信息进行编码，记为同样的，该句子序列被后向LSTM基于x_n到x₁上下文信息进行编码，记为/>其中，/>和/>需要通过LSTM中的输入、输出及遗忘三个门控单元进行状态更新，可分别记为：

和/>h_t-1为LSTM中上一细胞的隐层向量，c_t-1为上一细胞状态的输出向量，x_t为输入的词向量。具体步骤为：

输入门：

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i)

遗忘门：

f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f)

输出门：

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t-1+b_o)

状态候选值：

z_t＝tanh(W_xcx_t+W_hch_t-1+W_tcc_t-1+b_c)

状态更新：

c_t＝i_tz_t+f_tc_t-1

h_t＝o_ttanh(c_t)

其中，公式中i_t代表当前LSTM的输入，W_xi，W_xi，W_xi代表输入门的权重参数，b_i为输入门的偏置参数；f_t代表当前LSTM需要遗忘的信息，W_xf，W_xf，W_xf代表遗忘门的权重参数，b_f为遗忘门的偏置参数；o_t代表当前LSTM输出的内容，W_xo，W_xo，W_xo代表输出门的权重参数，b_o为输出门的偏置参数；z_t代表当前LSTM中新学到的东西，W_xc，W_xc，W_xc代表候选状态的权重参数，b_c为候选状态的偏置参数；c_t为LSTM的更新后的值，h_t为最终序列的隐层输出结果。

最后，连接两个向量作为当前时刻的隐层向量

步骤3：命名实体识别；

命名实体部分见图4，本模块采用LSTM网络对标签信息显示建模，当预测单词t的实体标签时，将BiLSTM编码层的输出向量h_t，实体识别中LSTM层中的前一个隐藏层状态H_t-1以及前一个单词的标签预测向量T_t-1作为LSTM层的输入，编码层的编码具体计算同步骤2。

使用softmax归一化进行标签预测：

y_t＝W_yT_t+b_y

其中W_y是权重参数，b_y是偏置参数，T_t为标签预测向量，y_t表示标签的得分向量，表示第i个标签的得分概率，/>为标签i的得分，N_t为实体标签的总数量，j为实体标签的位置，/>为j位置的标签得分。

步骤4：层级注意力机制关系抽取；

关系抽取流程见图5，关系抽取模块为依赖树结构模型，将从实体识别模块获取的句子标签的编码信息[h_t,h_t+1,...,h_n]，(h_i∈R^d)和BiLSTM编码层得到的实体间的子句信息[w_t,w_t+1,...,w_n](w_i∈R^d)进行拼接，w_t代表当前位置的中文汉字经过BiLSTM的到的隐层编码结果，t代表头实体在句子中的结束位置，作为该模块的输入H。

关系识别模块首先采用双向树状结构网络模型，通过捕获目标词对周围的依存关系结构来表示候选关系，从而能够识别两个实体间的先后序列关系，其构造步骤为：将预先定义的底层关系集合R经过k-1次层次生成后得到总共k层的层次关系集{R¹,R²,...,R^k}，R¹则是我们需要抽取的底层关系集，对需要提取的特定关系r₁∈R¹，通过(r₁,...,r_k)∈R¹×...×R^k回溯关系层次构建其祖先关系层次链从而得到树形层次链，父节点为关系集R^k。

为每个关系r分配一个注意力机制查询向量q_r，在关系依赖树的每层上进行注意力机制操作，得到对应的文本关系表示：

其中，是最终得到的关系文本表示，q_ri为第i层关系的注意力权重参数，H_(h,t)为头尾实体组成的实体对。

树形结构具有明显的层次结构，不同层具有不同的粒度信息，为了综合利用不同层次上不同粒度的注意力特征，使用层次注意力机制对不同层的文本关系表示进行拼接，将得到的文本关系表示S作为模型后续部分的输入参与条件概率计算，通过softmax层计算条件概率：

其中，θ为全部模型的参数，|R|是关系类型的总数，o是神经网络的最终输出向量，定义为o＝MS+d，其中d是偏置函数，S是文本关系表示向量，M是所有关系类型的表示矩阵。

步骤5：将模型整体损失函数设置为命名实体识别模块的损失函数与关系抽取模块的线性求和Loss＝α*Entity_Loss+β*Relation_Loss，其中Entity_Loss为实体识别损失函数，Relation_Loss为关系抽取损失函数，设置损失函数参数α＝1，β＝2，进行模型训练。

为了更好的理解我们的发明方法，现以中文作家信息构建数据集用本方法进行训练，并以其中的包含多个三元组的长句字“《国家构建》是由中国社会科学出版社出版的图书，作者是弗朗西斯·福山”为例，对本申请一种实体关系联合抽取方法进行举例说明。

步骤一：多特征中文词嵌入

如图2，将每个句子的字符序列输入BERT模型，得到每个字符的向量表示，其中每个字符768维；使用了CNN模型来提取汉字的字形特征，通过one-hot的方式，得到该字在句子中的位置信息；拼接Bert向量和字形特征向量和位置向量作为字符输入序列的最终的词嵌入表示。

步骤二：自注意力BiLSTM编码层

如图3，将序列的词嵌入通过自注意力层，得到注意力输出，将注意力输出通过BiLSTM编码得到的隐层输出作为句子的上下文编码表示，后续的命名实体识别和关系抽取都需用到该隐层表示。

步骤三：命名实体识别

如图4，通过LSTM+Softmax计算出每个字符对应的标签的概率，预测向量的维度为实体标签数，预测向量中最高的便是该字符对应的标签，最终将每个字符的标签都识别出来便可得到句子中的实体。

步骤四：关系抽取

如图5，关系抽取模块由依赖树结构模型，将步骤三实体识别模块获取的字句标签的编码信息[h_t,h_t+1,...,h_n]，(h_i∈R^d)和步骤二BiLSTM编码层的隐层[w_t,w_t+1,...,w_n](w_i∈R^d)进行拼接，作为该模块的输入。构建句子的依赖树结构，在依赖树的每层上进行注意力机制操作，得到对应的文本关系表示S，用层次注意力机制对不同层的文本关系表示进行拼接，将得到的文本关系表示S作为模型后续部分的输入参与条件概率计算，通过softmax层计算条件概率。

步骤五：将命名实体识别的损失函数和关系抽取的损失函数结合作为模型的损失函数进行训练。

最后，例句“《国家构建》是由中国社会科学出版社出版的图书，作者是弗朗西斯·福山”蕴含丰富的中文特征，是一种长序列句子，同时含有多个关系。使用训练好的模型进行预测，得到输出结果[《国家构建》，出版社，中国社会科学出版社]；[《国家构建》，作者，弗朗西斯·福山]。

本申请提供的实施例之间的相似部分相互参见即可，以上提供的具体实施方式只是本申请总的构思下的几个示例，并不构成本申请保护范围的限定。对于本领域的技术人员而言，在不付出创造性劳动的前提下依据本申请方案所扩展出的任何其他实施方式都属于本申请的保护范围。

Claims

1.一种中文实体关系联合抽取方法，其特征在于，包括：

步骤一，多特征中文词嵌入：使用bert模型学习字符向量，字符向量拼接字形特征和字符位置信息作为词嵌入向量；bert模型是一种基于微调的多层双向Transformer编码器，对于给定的词，bert最终输入的向量由token向量、分句向量以及位置向量三部分组成；

使用卷积神经网络模型，以汉字的五笔编码为输入，自动提取字形特征，同时，通过bert模型分词后，字在词中的开头、中间和结尾的位置不同，通过独热方式生成边界特征向量，在Embeding层中将字符向量、字形向量、词边界特征向量进行拼接；

步骤四，层次注意力机制关系抽取：将步骤二中隐层输出结果作为关系识别模块的输入，使用层次注意力机制LSTM进行关系分类，具体为：双向LSTM编码器和实体识别softmax输出结果进行拼接，输入关系抽取模块的树形LSTM层中，输出实体关系分类特征向量；

关系抽取模块为依赖树结构模型，将从实体识别模块获取的句子标签的编码信息[h_t，h_t+1，...，h_n]和BiLSTM编码层得到的实体间的子句信息[w_t，w_t+1，...，w_n]进行拼接，h_i∈R^d，w_i∈R^d，w_t代表当前位置的中文汉字经过BiLSTM的到的隐层编码结果，t代表头实体在句子中的结束位置，作为该模块的输入H；

关系识别模块首先采用双向树状结构网络模型，通过捕获目标词对周围的依存关系结构来表示候选关系，从而能够识别两个实体间的先后序列关系，其构造步骤为：将预先定义的底层关系集合R经过k-1次层次生成后得到总共k层的层次关系集{R¹，R²，...，R^k}，R¹则是我们需要抽取的底层关系集，对需要提取的特定关系r₁∈R¹，通过(r₁，...，r_k)∈R¹×...×R^k回溯关系层次构建其祖先关系层次链从而得到树形层次链，父节点为关系集R^k；

其中，是最终得到的关系文本表示，/>为第i层关系的注意力权重参数，H_(h，t)为头尾实体组成的实体对；

2.根据权利要求1所述的一种中文实体关系联合抽取方法，其特征在于，所述步骤二中自注意力双向LSTM编码器为：将Embedding向量输入自注意力层，得到注意力输出，将自注意力输出结果输入BiLSTM模型中，获取每个字符序列的上下文信息，自注意力BiLSTM编码层的编码结果由命名实体识别和关系抽取两个模块共同使用，实现编码层的参数共享。

3.根据权利要求2所述的一种中文实体关系联合抽取方法，其特征在于，所述步骤三中命名实体识别具体为：自注意力双向LSTM编码器的输出结果，通过LSTM进行解码，最后通过softmax预测实体标签。

4.根据权利要求1-3任意一项所述的一种中文实体关系联合抽取方法，其特征在于，步骤四之后还包括：

步骤五，模型损失函数设置：设置模型的损失函数为步骤三中命名实体识别的损失函数和步骤四中关系抽取损失函数之和，进行训练。

5.根据权利要求4所述的一种中文实体关系联合抽取方法，其特征在于，所述模型损失函数为：

Loss＝α*Entity_Loss+β*Relation_Loss；其中Entity_Loss为实体识别损失函数，Relation_Loss为实体关系抽取损失函数，d、β为损失函数权重，d、β＞＝1。