CN111783461A

CN111783461A - 一种基于句法依存关系的命名实体识别方法

Info

Publication number: CN111783461A
Application number: CN202010556881.0A
Authority: CN
Inventors: 李建强; 刘雅琦; 白骏
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-06-16
Filing date: 2020-06-16
Publication date: 2020-10-16

Abstract

本发明涉及一种基于句法依存关系的命名实体识别方法。在命名实体识别中，只有当模型所识别到的实体边界和类型都与标注实体的边界和类型相匹配，才算是真阳例(TP)。在大多数测试样本中，假阳例(FP)和假阴例(FN)往往都是由于实体的边界判断不正确造成的，也就是说边界识别比类型识别困难得多。本发明提出使用自注意力机制来削弱实体与实体以外单词的联系，并加强实体内部单词之间的关系。具体的是在双向长短期记忆网络(Bi‑LSTM)网络之后，添加自注意力机制，把句法依存树中单词之间的依存关系编码进上下文信息，最后根据Bi‑LSTM网络提供的全局特征以及句法依存树提供的局部特征，共同来判断实体边界。本发明提高了命名实体识别的准确率。

Description

一种基于句法依存关系的命名实体识别方法

技术领域：

本发明涉及深度学习领域，涉及文本中命名实体识别技术。

背景技术

传统的命名实体识别方法依赖大量的人为定义的特征，然而这类手工定义特征的方法不仅耗时耗力，还需要有领域以及语言方面知识的专业人员。近年来，深度学习依靠其强大的数据挖掘能力，最大化的减少了手工构建特征的成本，并在图像分类、语音识别以及自然语言处理等领域取得了令人瞩目的成就。因此，利用深度学习方法进行命名实体识别具有重大的研究意义。

在文本中，准确的识别命名实体类型及其实体边界对开发复杂的自然语言系统，如信息提取、问题回答、文本摘要等具有极大的影响。在命名实体识别中，只有当模型所识别到的实体边界和类型都与标注实体的边界和类型相匹配，才算是真阳例(TP)。在大多数测试样本中，假阳例(FP)和假阴例(FN)往往都是由于实体的边界判断不正确造成的，也就是说边界识别比类型识别困难得多。而大多深度网络模型中并没有针对边界识别的特定功能，使得模型往往在类型判断上准确率较高，而在边界判断上准确率较低。

发明内容：

本发明的目的是提供一种在文本中能更加准确识别命名实体边界以及类型的方法。

为解决上述技术问题，本发明提供了一种基于句法依存关系的命名实体识别方法，包括如下步骤：

步骤S1，在模型训练阶段，首先用预训练过的Word2vec把one-hot单词向量映射到定义好的低维空间，得到每个单词的词向量；

步骤S2，使用双向长短期记忆网络(Bi-LSTM)对句子中每个时间步的词向量分别进行前向和后向的编码，并拼接得到拥有上下文信息的全局特征；

步骤S3，用句法分析技术得到每个句子的句法依存树，计算树上两两单词之间的最短依赖路径；

步骤S4，根据最短依赖路径得到每个单词的自顶向下以及自底向上的特征序列并输入LSTM网络，计算得到单词局部特征；

步骤S5，通过局部特征点积来计算两两单词之间的关系权重并进行归一化；

步骤S6，使用自注意力机制以归一化的关系权重将单词之间的局部关系特征融入全局特征中，得到融合特征；

步骤S7，根据融合特征初步预测序列标签，使用CRF对预测序列进行精修，得到最终标签序列；

步骤S8，在模型测试阶段，使用上述步骤训练好的网络来进行命名实体识别。

进一步，步骤S1中在模型训练阶段，首先用预训练过的Word2vec把one-hot单词向量映射到定义好的低维空间，得到每个单词的词向量包括：

记词典大小为V，采用预训练过的Word2vec把维度为V的one-hot单词向量映射到定义好的低维空间，输出的词向量维度记为d。对于长度为T的输入样本序列{w₁，w₂，...w_T}，嵌入层的输出记为{x₁，x₂，...x_T}，其中x_t∈R^1×d；

进一步，步骤S2中使用双向长短期记忆网络(Bi-LSTM)对句子中每个时间步的词向量分别进行前向和后向的编码，并拼接得到拥有上下文信息的全局特征包括：

使用隐藏单元的个数为h₁的双向长短期记忆网络(Bi-LSTM₁)对给定时间步t的输入x_t进行前向和后向的编码，并将该时间步正向隐藏状态记为

反向隐藏状态记为

然后，连结两个方向的隐藏状态

和

来得到隐藏状态

便是拥有给定时间步t上下文信息的全局特征，对于输入序列{x₁，x₂，...x_T}，记Bi-LSTM₁的输出特征为

进一步，步骤S3中用句法分析技术得到每个句子的句法依存树，计算树上两两单词之间的最短依赖路径包括：

对于输入样本序列{w₁，w₂，...w_T}，使用依存语法分析技术对其进行句法分析，得到样本序列的依存句法树。对于输入序列中任意两个单词a与b，他们之间的最短依存路径(SDP)为{a，a₁，...，a_m，c，b_n，...，b₁，b}，其中c表示它们在依存句法树中的最低共同祖先，a₁，...，a_m表示SDP上a和c之间的单词，b₁，...，b_n表示b和c之间的单词。若a与b表示同一个单词，则SDP记为{a，b}。

进一步，步骤S4中根据最短依赖路径得到每个单词的自顶向下以及自底向上的特征序列并输入LSTM网络，计算得到单词局部特征包括：

对于输入文本序列{w₁，w₂，...w_T}中任意两个单词a与b，他们之间的最短依存路径(SDP)可以分为两部分：自底向上的序列{a，a₁，...，a_m，c}和{b，b₁，...，b_n，c}；自顶向下序列{c，a_m，...，a₁，a}和{c，b_n，...，b₁，b}。若a与b表示同一个单词，则SDP分为：{a}；{b}两部分。

使用隐藏单元的个数为h₂的双向长短期记忆网络(Bi-LSTM₂)从这两种序列中提取单词之间的局部关系特征。每个LSTM₂单元的输入是两个部分的串联，由

表示，其中

是单词w_t在Bi-LSTM₁的输出，emb(d_t)表示单词w_t及其依存句法树上的支配词之间的依存关系类型d_t的分布式表达。

前向LSTM₂根据自底向上的序列{a，a₁，...，a_m，c}和{b，b₁，...，b_n，c}计算得到前向隐藏状态

和

后向LSTM₂根据自顶向下序列{c，a_m，...，a₁，a}和{c，b_n，...，b₁，b}计算得到后向隐藏状态

和

连结两个方向的隐藏状态↑h_t和↓h_t来得到单词w_t的局部特征

进一步，步骤S5中通过局部特征点积来计算两两单词之间的关系权重并进行归一化包括：

对局部特征

与局部特征

做点积，得到单词w_i与单词w_j的关系紧密系数

按照相同的方法计算得到文本序列中两两单词之间的关系紧密系数，将所有关系紧密系数整理为一个矩阵R∈R^T×T，其中矩阵的第i行代表单词w_i与{w₁，w₂，...w_T}中每一个单词的关系紧密系数，然后按行对R进行归一化得到自注意力权重矩阵

Q＝Softmax(R)

进一步，步骤S6中使用自注意力机制以归一化的关系权重将单词之间的局部关系特征融入全局特征中，得到融合特征包括：

首先对Bi-LSTM₁输出的全局特征

做一个线性变换，并左乘归一化自注意力权重矩阵Q得到实体边界信息增强的单词特征

S＝QH₁W_V

S∈R^T×s，其中s为融合特征的长度，

为线性变换参数矩阵。

进一步，步骤S7中根据融合特征初步预测序列标签，使用CRF对预测序列进行精修，得到最终标签序列包括：

使用融合特征S进行序列标签预测，通过CRF将初步预测的标签序列进行调整，得到最终标签序列。

本发明的有益效果是，通过自注意力机制来削弱实体与实体以外单词的联系，并加强实体内部单词之间的关系，使得网络识别实体边界更加准确，提高了命名实体识别的准确率。

附图说明：

下面结合附图和实施例对本发明进一步说明。

图1是本发明一种基于句法依存关系的命名实体识别方法的方法流程图。

图2是样本序列的依存句法树。

具体实施方式

现在结合附图对本发明作进一步详细的说明。这些附图均为简化示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成。

实施例1

如图1所示，本实施例1提供了一种基于句法依存关系的命名实体识别方法，包括如下步骤：

中英文命名实体识别任务中，要准确识别一个实体，既要判断对实体的类型，也好判断对实体的边界。根据大量的实验数据显示，命名实体识别任务的准确率往往取决于实体边界判断的准确率，也就是实体边界的判断比实体类别的判断难得多。以往大多数模型，都是通过简单的在嵌入层添加词性标签来辅助模型判断实体边界，在深度神经网络并中没有专门的模块或者机制来加强实体边界的判断。

基于以上问题，本专利提供了一种基于句法依存关系的命名实体识别方法来加强实体边界的判断，从而提高命名实体识别的准确率。依存是一种可以将句子层级结构化的语言方法。依存语法在保留句子的短语结构信息的基础上直接表示出词和词之间的关系，对于进一步语义分析十分有利。依存语法认为动词作为中心词，其他的词受其支配，这样便于理清句子中词和词之间的关系。综上所述，认为采用基于句法依存关系的命名实体识别方法有利于进行实体中的词以及实体与实体外词的关系分析，进而能更好的判断实体边界。

针对上述问题，本实施例1中步骤S1记词典大小为V，在模型训练阶段，首先采用预训练过的Word2vec把维度为V的one-hot单词向量映射到定义好的(输出的词向量维度记为d)低维空间。

例如对于长度为6的输入样本序列“Tsinghua University is located inBeijing”，嵌入层的输出记为{x₁，x₂，...x₆}，其中第t个的向量x_t∈R^1×d。

反向隐藏状态记为

然后，连结两个方向的隐藏状态

和

来得到隐藏状态

便是拥有给定时间步t上下文信息的全局特征，对于输入序列{x₁，x₂，...x₆}，记Bi-LSTM₁的输出特征为

对于输入样本序列“Tsinghua University is located in Beijing”，使用依存语法分析技术对其进行句法分析，得到样本序列的依存句法树，如图2所示。

对于输入序列中任意两个单词如“Tsinghua”与“Beijing”，他们之间的最短依存路径(SDP)为{“Tsinghua”，“University”，“located”，“Beijing”}，其中“located”是他们在依存句法树中的最低共同祖先，“University”是SDP上“Tsinghua”和“located”之间的单词。这里记单词(例如“University”)到自己的SDP记为{“University”，“University”}。

对于输入文本序列“Tsinghua University is located in Beijing”中单词“Tsinghua”与“Beijing”，他们之间的最短依存路径(SDP){“Tsinghua”，“University”，“located”，“Beijing”}可以分为两部分：自底向上的序列{“Tsinghua”，“University”，“located”}和{“Beijing”，“located”}；自顶向下序列{“located”，“University”，“Tsinghua”}和{“located”，“Beijing”}。单词“University”到自己的SDP{“University”，“University”}可分为：{“University”}；{“University”}两部分。

使用隐藏单元的个数为h₂的双向长短期记忆网络(Bi-LSTM₂)从这两种序列中提取单词之间的局部关系特征。每个LSTM₂单元的输入是

是由两个部分拼接而成，其中

是第t个单词在Bi-LSTM₁的输出，emb(d_t)表示第t个单词及其依存句法树上的支配词之间的依存关系类型d_t的分布式表达，例如：d₁＝compound，是第一个单词“Tsinghua”与他的支配词“University”的依存关系类型，emb(d₁)及其余关系类型的分布式表达将被随机初始化并随网络模型参数一起进行训练。

计算单词“Tsinghua”和单词“Beijing”的关系权重：前向LSTM₂根据自底向上的序列{“Tsinghua”，“University”，“located”}和{“Beijing”，“located”}计算得到前向隐藏状态

和

后向LSTM₂根据自顶向下序列{“located”，“University”，“Tsinghua”}和{“located”，“Beijing”}计算得到后向隐藏状态

和

连结单词“Tsinghua”的两个方向隐藏状态↑h₁和↓h₁得到单词“Tsinghua”和单词“Beijing”的局部关系特征

连结单词“Beijing”的两个方向隐藏状态↑h_∈和↓h₆得到单词“Beijing”和单词“Tsinghua”的局部关系特征

以此类推，可以得到任意两个单词的局部关系特征。

还是以单词“Tsinghua”和单词“Beijing”为例，对局部特征

与局部特征

做点积，得到单词“Tsinghua”和单词“Beijing”的关系紧密系数r₁₆：

按照相同的方法计算得到文本序列中两两单词之间的关系紧密系数，将所有关系紧密系数整理为一个矩阵R∈R^6×6，其中矩阵的第i行代表第i个单词与句子中每一个单词的关系紧密系数，然后按行对R进行归一化得到自注意力权重矩阵

Q＝Softmax(R)

首先对Bi-LSTM₁输出的全局特征

S＝QH₁W_V

S∈R^6×s，其中s为融合特征的长度，

为线性变换参数矩阵。

以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

Claims

1.一种基于句法依存关系的命名实体识别方法，其特征在于，包括如下步骤：

步骤S2，使用双向长短期记忆网络对句子中每个时间步的词向量分别进行前向和后向的编码，并拼接得到拥有上下文信息的全局特征；

2.根据权利要求1所述的基于句法依存关系的命名实体识别方法，其特征在于，

所述步骤S1中在模型训练阶段，首先用预训练过的Word2vec把one-hot单词向量映射到定义好的低维空间，得到每个单词的词向量包括：

记词典大小为V，采用预训练过的Word2vec把维度为V的one-hot单词向量映射到定义好的低维空间，输出的词向量维度记为d；具体的，对于长度为T的输入样本序列{w₁，...，w_t，...w_T}，其中w_t∈R^1×V，嵌入层的输出记为{x₁，...，x_t，...x_T}，其中x_t∈R^1×d。

3.根据权利要求1所述的基于句法依存关系的命名实体识别方法，其特征在于，

所述步骤S2中使用双向长短期记忆网络(Bi-LSTM)对句子中每个时间步的词向量分别进行前向和后向的编码，并拼接得到拥有上下文信息的全局特征包括：

反向隐藏状态记为

然后，连结两个方向的隐藏状态

和

来得到隐藏状态

4.根据权利要求3所述的基于句法依存关系的命名实体识别方法，其特征在于，

所述步骤S3中用句法分析技术得到每个句子的句法依存树，计算树上两两单词之间的最短依赖路径包括：

对于输入样本序列{w₁，w₂，...w_T}，使用依存语法分析技术对其进行句法分析，得到样本序列的依存句法树；对于输入序列中任意两个单词a与b，他们之间的最短依存路径(SDP)为{a，a₁，...，a_m，c，b_n，...，b₁，b}，其中c表示它们在依存句法树中的最低共同祖先，a₁，...，a_m表示SDP上a和c之间的单词，b₁，...，b_n表示b和c之间的单词；若a与b表示同一个单词，则SDP记为{a，b}。

5.根据权利要求1所述的基于句法依存关系的命名实体识别方法，其特征在于，

所述步骤S4中根据最短依赖路径得到每个单词的自顶向下以及自底向上的特征序列并输入LSTM网络，计算得到单词局部特征包括：

对于输入文本序列{w₁，w₂，...w_T}中任意两个单词a与b，他们之间的最短依存路径(SDP)分为两部分：自底向上的序列{a，a₁，...，a_m，c}和{b，b₁，...，b_n，c}；自顶向下序列{c，a_m，...，a₁，a}和{c，b_n，...，b₁，b}；若a与b表示同一个单词，则SDP分为：{a}；{b}两部分；

使用隐藏单元的个数为h₂的双向长短期记忆网络(Bi-LSTM₂)从这两种序列中提取单词之间的局部关系特征；每个LSTM2单元的输入是两个部分的串联，由