CN112989796B

CN112989796B - 一种基于句法指导的文本命名实体信息识别方法

Info

Publication number: CN112989796B
Application number: CN202110259151.9A
Authority: CN
Inventors: 夏宇; 李素建
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2021-03-10
Filing date: 2021-03-10
Publication date: 2023-09-22
Anticipated expiration: 2041-03-10
Also published as: CN112989796A

Abstract

本发明公布了一种基于句法指导的文本命名实体信息识别方法，构建基于句法指导的文本命名实体信息识别模型，模型包括基于Transformer模型的编码层、句法指导自注意力层、表示融合层、条件随机场CRF解码层；仅需建模依存句法树结构而无需引入依存关系类型，通过采用注意力机制，采用抽取准确率高、易于获取词级别的词性信息弥补不引入依存关系类型带来的信息缺失。采用本发明方法能够避免自然语言处理中信息抽取中抽取出的依存关系类型的错误传递问题。

Description

一种基于句法指导的文本命名实体信息识别方法

技术领域

本发明提供一种文本命名实体的识别技术，具体涉及一种基于句法指导的文本命名实体信息的识别方法，属于自然语言处理中的信息抽取技术领域。

背景技术

近年来，在自然语言处理技术领域中，神经网络模型凭借其强大的上下文编码能力以及无需人工构建特征的优势，在文本命名实体的识别任务中起着重要作用。然而，为了提高现有神经网络模型的表现，除了建模上下文之外，一个直接的方法就是引入更多的知识，这些知识包括了外部知识，例如知识库；还有文本内部的语言学知识，例如句法信息。

现有的命名实体识别模型中，Jie et al.提出了依存句法指导的命名实体识别模型DGLSTM-CRF，该模型将从文本中抽取出来的句法信息当作正确知识并将它们直接拼接到词向量上(依存关系类型)或通过交互函数建模进模型(依存句法树结构)。然而，这种做法忽视了这些抽取出来的信息中包含的噪声，若在第一步中抽取出的依存关系类型存在错误，则会将错误传递到后续的模型训练及预测中。

发明内容

为了克服上述现有技术的不足，本发明提供一种基于句法指导的文本命名实体信息的识别方法，针对自然语言处理中信息抽取现有技术存在的句法信息中的噪声问题，通过仅建模依存句法树结构而不引入依存关系类型，采用抽取准确率高、易于获取的词级别的词性信息弥补不引入依存关系类型带来的信息缺失，避免自然语言处理中信息抽取中抽取出的依存关系类型的错误传递问题。

为方便起见，以下列出本发明相关术语名称及含义：

依存句法分析：依存句法是由法国语言学家L.Tesniere最先提出，它将句子分析成一棵依存句法树，描述出各个词语之间的依存关系。在依存句法中的共同的基本假设是：句法结构本质上包含词和词对之间的关系，这种关系就是依存关系，其中一个依存关系连接两个词，一个是核心词(head)、另一个是修饰词(dependant)。

依存句法树结构：依存句法树结构是依存句法分析结果的一种典型表示形式。以下给出依存句法树的形式化定义：给定一个集合R＝{r₁，r₂，...，r_R}，其中每个元素表示一种依存关系(比如主谓关系、定中关系等)，一个句子的依存树是一棵有向树G＝(V，A)，满足以下条件：

(1)V＝{0，1，...，n}，V是依存树中顶点的集合；

(2)A是依存树中依存弧的集合。

V是顶点集合，用非负整数表示，V中每个顶点依次与句子s中的单词w_i相对应(ROOT编号为0)。A是依存弧集合，用三元组(w_i，r，w_j)表示，w_i和w_j是顶点，r表示它们之间的依存关系。本专利规定在三元组(w_i，r，w_j)中，依存弧由w_i指向w_j，即w_i是w_j的父亲结点，r是w_j的依存关系类型。

父亲节点：若一个节点含有子节点，则这个节点称为其子节点的父节点。

祖先节点：从根到该节点所经分支上的所有节点。

Transformer：自然语言处理中有一类任务叫做序列到序列(Seq2Seq)任务，常用的结构是基于编码器-解码器(encoder-decoder)框架的，简而言之就是使用编码器把源序列映射成一个向量，然后使用解码器外加一些注意力机制来预测目标序列。常用的Seq2Seq包括了基于循环神经网络(RNN)的、卷积神经网络(CNN)的、变形金刚(Transformer)的，其中基于Transformer的模型由于以下几个特点，取得了较好的表现，被广泛应用：抛弃了传统RNN模型的时序结构，使用位置编码作为替代方案，实现了较高程度的并行化，训练速度较快；它的自注意力机制能够自动捕捉到字之间的联系(从语言学角度来说，就是某种程度上的句法信息)，句法信息对于句子级别上的机器翻译任务来说非常重要，且能缓解时序结构模型的长依赖建模中的信息丢失问题。

基于Transformer的模型(或称Transformer模型)的整体结构是个编码器-解码器框架(如图3所示)，编码部分由六个编码器(encoder)堆叠而成，每个编码器由多头注意力(multi-head attention)层和前馈神经网络(feed forward)层组成；解码部分由六个解码器(decoder)组成，每个解码器在编码器基础上，在多头注意力层和前馈网络层之间添加了一层编码器-解码器注意力层用来对源端词到目标端词的依赖关系进行建模。在编码器、解码器结构内部的层与层之间，还进行了残差计算和归一化操作来防止随着编码器的层数增加而发生梯度消失，保证训练的稳定性。

上述Transformer模型总框架中的多头注意力层是由h个自注意力层的输出拼接起来，然后用一个降维矩阵将拼接得到的维度较大的矩阵压缩成正常大小，避免后续矩阵操作维度过大导致整个开销较大。公式为MultiHead(Q，K，V)＝Concat(Z₀，Z₁，...，Z_h)*W^o，其中多头注意力层的作用是：从机器学习角度来说，通过学习更多的参数提高了模型的拟合能力，从语言学角度来说，通过不同子空间来表示不同角度的语言学特征(比如某个子空间用来表示依存关系，另一个子空间用来表示指代信息)。

在自注意力层中对于每一个输入词向量，使用三个64*64维的可训练矩阵(W^K、W^Q、W^V)，分别对输入矩阵做乘法得到三个矩阵K、Q、V，对Q和K进行点积操作，得到输入句子中每个词与其他词之间的打分，通过归一化指数函数(softmax)得到在某个位置编码特定单词时，应该将多少注意力集中于输入句子的其他部分，也就是对其他每个词的权重，使用权重对V进行加权求和，得到带注意力机制的表示Z。公式为Q＝XW^Q，K＝XW^K，V＝XW^V，其中，X是输入矩阵；W^K、W^Q、W^V是可训练矩阵。

由于上述自注意力层本质上是计算词与词之间的相互联系，而未对每个词的顺序进行建模，于是在词表示进入编码器之前，使用一个与词嵌入维度一样的位置编码，加在词表示上，再输入编码器以对词序进行建模。

本发明通过仅建模依存句法树结构而不引入依存关系类型来避免抽取出的依存关系类型的错误传递问题，同时，考虑到正确的依存关系类型确实能帮助模型更好地预测实体类型(如Jie文献中举的例子：从near指向premises的介宾关系可以帮助判断premises实体是地点)，为了弥补不引入依存关系类型带来的信息缺失，我们引入了词级别的词性信息，这种较低级别的信息在抽取时的准确率相较于句级别信息更高、也更易获取，同时一定程度上也可以辅助实体类型的判断，例如上述Jie文献例子中near的介词词性可以指导模型其邻近词premises更大概率是地点类型实体。

本发明的核心是：对一个句子，构建它的句法依存树，该句中的命名实体都作为完整的叶子结点出现在此句法依存树当中。通过采用注意力机制，使得树中的每个结点关注以此结点作为子树的树中的所有叶子结点和此结点本身。这种注意力机制既从句法中获益引导模型去关注可能的命名实体(命名实体常常作为句法依存树的叶子结点)，又能使得模型获取词汇的格子(Lattice)信息(句法依存分析的过程中就进行了分词，每个结点关注自己本身就获得了完整的Lattice信息)。

本发明提供的技术方案是：

一种基于句法指导的文本命名实体信息识别方法，构建基于句法指导的文本命名实体信息识别模型，模型包括基于Transformer模型的编码层、句法指导自注意力层(由下述的A、B、C、D、E、F、G步骤组成)、表示融合层(由下述的H步骤组成)、条件随机场(CRF)解码层(由下述的I步骤组成)。其中，基于Transformer模型的编码层用来将输入的句子文本编码为词向量作为词表示，便于进行计算；句法指导自注意力层对上一层得到的原词表示(与句法指导的词表示作区分)进行加权求和得到句法指导的词表示，这一层通过句子的句法信息来指导模型应该更关注句中的哪一些词并对这些词赋予更大的权重；表示融合层将上一层得到的句法指导的词表示和原词表示进行加权求和，得到最终的词表示；条件随机场(CRF)解码层对最终的词表示进行解码，得到输入句子中每个词对应的实体类型标签，也就是模型的输出结果。上述方法通过仅建模依存句法树结构而不引入依存关系类型，通过采用注意力机制，采用抽取准确率高、易于获取的词级别的词性信息弥补不引入依存关系类型带来的信息缺失；包括如下步骤：

1)构建句法指导自注意力层，得到每个文本句子的句法指导的表示；包括步骤A～G：

A.获取每个文本句子的依存句法树；

给定一个文本句子S，S＝{s₁，s₂，...，s_i，...，s_n}，s_i为文本句子S中的每个词，n为S包含的词的个数，使用预训练好的依存句法解析器(本发明使用了pyhanlp工具)得到每个句子的依存句法树，依存句法树中的每个节点也就是句子中的每个词s_i；

B.根据依存句法树结构对树中每个节点，计算其祖先节点集合P_i；

C.对于每个词s_i以及它的祖先节点集合P_i，i和j为句子中第i和第j个词的下标，根据如下公式计算遮盖矩阵n为句子长度：

由上式可知，遮盖矩阵M的含义为：如果M[i，j]＝1则表示s_i是s_j的祖先节点。

D.对于Transformer模型中的最后一层编码器中的第i个头，将其输出Z_i通过矩阵乘法映射成三个矩阵：

K′_i＝Z_iW_i ^K

Q′_i＝Z_iW_i ^Q

V′_i＝Z_iW_i ^V

其中，n为句子长度，/>

d_model设置为512，d_k和d_v设置为64。

E.将上述得到的矩阵K′_i，Q′_i和C步骤得到的遮盖矩阵M点乘，得到注意力权重

其中，分母上的用来防止点积的值随着维度的增大而急剧增大，从而导致计算得到的梯度过小。softmax为归一化指数函数。

F.将矩阵V_i′与注意力权重A′_i相乘，得到每个头的句法指导的词表示

W_i′＝A′_iV_i′

G.将每个头的词表示W_i′拼接起来，通过一个全连接层并通过GeLU激活函数得到句法指导的表示

H′＝GeLU(Cat(H₁，…，H_n)W^O)

其中，n为句子长度，/>Cat表示拼接操作，GeLU为激活函数。

2)构建表示融合层，根据每个文本句子的句法指导的表示和原词表示，得到文本句子最终句法指导的表示；包括步骤：

H.对句法指导的表示H′＝{h′₁，h′₂，...，h′_n}和通过基于Transformer模型的编码层得到的原词表示H＝{h₁，h₂，...，h_m}加权，得到最终句法指导的表示G＝(g₁，g₂，...，g_n)；

其中，g_i＝αh_i+(1-α)h_′i，

3)构建条件随机场解码层，包括步骤：

I.将最终句法指导的表示输入条件随机场(CRF)中，得到每个词对应的实体标签；对于H步骤得到的表示接一个全连接层来获取每个词对应的实体标签得分

S＝softmax(WG+b)

其中，S_ij为第j个字符为第i个标签的分数，其中n为输入序列长度，k为标签集合的大小。

将S_ij作为条件随机场模型中的发射分数矩阵，则对于一条可能的预测标签序列y＝(y₁，y₂，...，y_n)，序列的得分计算公式表示为：

其中，为通过梯度下降算法可习得的转移分数矩阵，/>表示标签y_i转移到标签y_i+1的转移分数；/>为第i个字符为第y_i个标签的分数。通过序列得分可以进一步算出序列的条件概率P(y|X)：

其中，Y_X为将标签集合进行排列得到的所有可能的标签序列。

参数学习过程基于最大化对数似然函数(损失函数)来求解模型参数，损失函数如下：

通过梯度下降优化算法迭代地找到损失函数的最小值完成神经网络的参数训练过程。

4)训练完成的模型即可用来做预测，条件随机场的预测过程基于维特比算法求解最优预测序列y^*，y^*为对应于每个输入词的实体标签结果序列，即：

通过上述步骤，实现基于句法指导的文本命名实体信息识别。

与现有技术相比，本发明的有益技术效果：

通过本发明所提供的句法信息指导的命名实体识别技术，通过仅建模依存句法树结构而不引入依存关系类型，采用抽取准确率高、易于获取的词级别的词性信息弥补不引入依存关系类型带来的信息缺失，避免自然语言处理中信息抽取中抽取出的依存关系类型的错误传递问题，降低了从文本中抽取出的句法信息中的噪声对模型预测结果的影响，提高了命名实体识别模型的表现，提高命名实体识别的准确性。

附图说明

图1是本发明提供的基于句法指导的文本命名实体信息识别模型的总体结构示意图；

其中，从下至上分别为模型的Transformer编码层、句法指导的自注意力层、表示融合层、CRF解码层。

图2是本发明提供文本命名实体信息方法的流程框图。

图3是Transformer模型框架图；

本发明中采用的基于Transformer模型的编码层为此图左侧的编码器模块。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提供了基于句法指导的文本命名实体信息识别方法，构建基于句法指导的文本命名实体信息识别模型，模型包括Transformer编码层、句法指导自注意力层、表示融合层、CRF解码层；通过仅建模依存句法树结构而不引入依存关系类型，采用抽取准确率高、易于获取的词级别的词性信息弥补不引入依存关系类型带来的信息缺失，避免自然语言处理中信息抽取中抽取出的依存关系类型的错误传递问题。

具体实施时，我们使用了Pytorch作为深度学习框架，pyhanlp来进行依存句法分析，chinese_roberta_wwm_ext_pytorch作为预训练模型。预训练模型学习率设置为2e-5，CRF学习率设置为1e-3，warm-up率设置为0.1，L2权重衰减设置为0.01，批大小设置为128，最大训练轮数设置为10。表示融合中的权重设置为0.5。最大输入长度设置为52。使用wordpiece进行分词。Transformer编码层的参数参照文献(Vaswani，Ashish，NoamShazeer，Niki Parmar，Jakob Uszkoreit，Llion Jones，Aidan N.Gomez，Lukasz Kaiser，and Illia Polosukhin.“Attention Is All You Need.”ArXiv：1706.03762[Cs]，December 5，2017.http：//arxiv.org/abs/1706.03762.)，使用6个编码器堆叠而成，每个编码器具有8个头，d_model为512维，d_k和d_v为64维。

本发明的具体实施方式，其模型总框架如图1所示，包括Transformer编码层、句法指导的自注意力层、表示融合层、CRF解码层。

训练样本包括中文命名实体识别数据样本，具体来说是CLUENER中文命名实体识别数据集。

此数据集包括了十个标签类别：地址(address)、书名(book)、公司(company)、游戏(game)、政府(government)、电影(movie)、姓名(name)、组织机构(organization)、职位(position)、景点(scene)。数据集一共包括了10748条训练数据(在train.json文件中)和1343条验证数据(在dev.json文件中)。

以train.json为例，数据分为两列：text和label，其中text列代表文本，label列代表文本中出现的所有包含在10个类别中的实体。

基于句法指导的文本命名实体信息识别模型的训练和预测方法流程如图2所示，包括以下步骤：

A.获取每个文本句子的依存句法树；

C.对于每个词s_i以及它的祖先节点集合P_i，i和j为句子中第i和第j个词的下标，根据如下公式计算遮盖矩阵M：

D.对于Transformer模型中的最后一层编码器中的第i个头，将其输出Z_i映射成三个矩阵K′_i，Q′_i，V_i′。

E.将矩阵K′_i，Q′_i和遮盖矩阵M点乘，得到注意力权重A′_i，表示为：

F.将矩阵V_i′与注意力权重A′_i相乘，得到每个头的句法指导的词表示W_i′：

W_i′＝A′_iV_i′

G.将每个头的词表示W_i′拼接起来，通过一个全连接层并通过GeLU激活函数得到句法指导的表示H′＝{h′₁，h′₂，...，h′_n}；

H.对句法指导的表示H′＝{h′₁，h′₂，...，h′_n}和通过基于Transformer模型的编码层得到的原词表示H＝{h₁，h₂，...，h_n}加权，得到最终句法指导的表示g_i＝αh_i+(1-α)h′_i；

I.将最终句法指导的表示输入条件随机场(CRF)中，得到每个词对应的实体标签；对于输入文本x＝(g₁，g₂，...，g_n)，通过基于句法指导的文本命名实体信息识别模型接一个全连接层来获取每个词对应的实体标签得分S_n×k：

S＝softmax(Wg_i+b)

其中S_ij为第i个字符为第j个标签的分数，其中n为输入序列长度，k为标签集合的大小。

其中，A为通过梯度下降算法可习得的转移分数矩阵，表示标签yi转移到标签y_i+1的转移分数。通过序列得分可以进一步算出序列的条件概率P(y|X)：

参数学习过程基于最大化对数似然函数来求解模型参数，损失函数如下：

通过梯度下降优化算法迭代地找到损失函数的最小值完成神经网络的参数训练过程。训练完成的模型即可用来做预测，条件随机场的预测过程基于维特比算法求解最优预测序列y^*，y^*为对应于每个输入词的实体标签结果序列，即：

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于句法指导的文本命名实体信息识别方法，构建基于句法指导的文本命名实体信息识别模型，模型包括基于Transformer模型的编码层、句法指导自注意力层、表示融合层、条件随机场CRF解码层；仅需建模依存句法树结构而无需引入依存关系类型，通过采用注意力机制，采用抽取准确率高、易于获取词级别的词性信息弥补不引入依存关系类型带来的信息缺失；包括如下步骤：

1)构建句法指导自注意力层，得到每个文本句子的句法指导的表示；

基于Transformer模型的编码层用于将输入的句子文本编码为词向量作为词表示；构建的句法指导自注意力层对上一层得到的原词表示进行加权求和，得到句法指导的词表示；构建句法指导自注意力层包括步骤A～G：

A.获取每个文本句子的依存句法树；

给定一个文本句子S，S＝{s₁,s₂,...,s_i,...,s_n}，s_i为文本句子S中的每个词，n为S包含的词的个数；通过预训练好的依存句法解析器得到每个句子的依存句法树，依存句法树中的每个节点即句子中的每个词s_i；

C.对于每个词s_i和它的祖先节点集合P_i，根据如下公式计算遮盖矩阵M：

其中，i和j为句子中第i和第j个词的下标；遮盖矩阵M的含义为：如果M[i,j]＝1则表示s_i是s_j的祖先节点；

D.对于Transformer模型中的最后一层编码器中的第i个头，将其输出Z_i映射成三个矩阵K′_i,Q′_i,V′_i；

E.将矩阵K′_i,Q′_i和遮盖矩阵M点乘，得到注意力权重A′_i；

F.将矩阵V′_i与注意力权重A′_i相乘，得到每个头的句法指导的词表示W′_i；

G.将每个头的词表示W′_i拼接起来，通过一个全连接层并通过GeLU激活函数得到句法指导的表示H′＝{h′₁,h′₂,...,h′_i,...,h′_n},

H.对句法指导的表示H′＝{h′₁,h′₂,...,h′_n}和通过基于Transformer模型的编码层得到的原词表示H＝{h₁,h₂,...,h_n}加权，得到最终句法指导的表示G＝(g₁,g₂,…,g_n)；其中，g_i＝αh_i+(1-α)h′_i；

3)构建条件随机场解码层，对最终的词表示进行解码，得到输入句子中每个词对应的实体类型标签，即模型的输出结果；包括如下步骤：

I.将最终句法指导的表示输入条件随机场CRF中，得到每个词对应的实体标签；

对于H步骤得到的最终句法指导的表示通过接一个全连接层获取每个词对应的实体标签得分/>

S＝softmax(WG+b)

其中，S_ij为第j个字符为第i个标签的分数，其中n为输入序列长度，k为标签集合的大小；

将S_ij作为条件随机场模型中的发射分数矩阵，对于一条可能的预测标签序列y＝(y₁,y₂,…,y_n)，通过如下公式计算得到序列的得分：

其中，A为通过梯度下降算法可习得的转移分数矩阵；表示标签y_i转移到标签y_i+1的转移分数；通过序列得分进一步算出序列的条件概率P(y|X)；

参数学习过程基于最大化对数似然函数作为损失函数，求解模型参数；

通过梯度下降优化算法进行迭代，找到损失函数的最小值，完成神经网络的参数训练过程；

4)利用训练完成的模型进行预测，条件随机场的预测过程基于维特比算法求解最优预测序列y^*，即：

其中，y^*为对应于每个输入词的实体标签结果序列；

2.如权利要求1所述基于句法指导的文本命名实体信息识别方法，其特征是，步骤A中，预训练好的依存句法解析器具体使用pyhanlp工具获取每个文本句子的依存句法树。

3.如权利要求1所述基于句法指导的文本命名实体信息识别方法，其特征是，步骤D中，将Z_i通过矩阵乘法映射成三个矩阵，表示为：

其中，n为句子长度；/>

4.如权利要求1所述基于句法指导的文本命名实体信息识别方法，其特征是，步骤E中，通过如下公式计算得到注意力权重A′_i：

其中，M为C步骤中得到的遮盖矩阵，Q′_i和K′_i为D步骤得到的矩阵，d_k为超参数，softmax为指数归一化函数。

5.如权利要求1所述基于句法指导的文本命名实体信息识别方法，其特征是，步骤F中，通过如下公式计算得到每个头的句法指导的词表示W′_i：

W′_i＝A′_iV′_i

其中，A′_i为D步骤中得到的注意力权重矩阵，V′_i为D步骤得到的矩阵。

6.如权利要求1所述基于句法指导的文本命名实体信息识别方法，其特征是，步骤I中，对于H步骤得到的矩阵表示G＝(g₁,g₂,…,g_n)，通过一个全连接层加softmax激活函数得到每个词对应的实体标签得分矩阵S，表示为：

S＝softmax(WG+b)

7.如权利要求6所述基于句法指导的文本命名实体信息识别方法，其特征是，步骤I中，根据以下公式，通过序列得分算出序列的条件概率P(y|X)：

8.如权利要求7所述基于句法指导的文本命名实体信息识别方法，其特征是，步骤I中，求解模型参数的损失函数如下：

其中，s(X,y)为序列得分；Y_X为将标签集合进行排列得到的所有可能的标签序列。

9.如权利要求1所述基于句法指导的文本命名实体信息识别方法，其特征是，具体使用Pytorch作为深度学习框架；使用pyhanlp进行依存句法分析；将chinese_roberta_wwm_ext_pytorch作为预训练模型。