CN115906846A - 一种基于双图的层次特征融合的文档级命名实体识别方法 - Google Patents

一种基于双图的层次特征融合的文档级命名实体识别方法 Download PDF

Info

Publication number
CN115906846A
CN115906846A CN202211406499.7A CN202211406499A CN115906846A CN 115906846 A CN115906846 A CN 115906846A CN 202211406499 A CN202211406499 A CN 202211406499A CN 115906846 A CN115906846 A CN 115906846A
Authority
CN
China
Prior art keywords
word
document
node
graph
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211406499.7A
Other languages
English (en)
Inventor
陈千
关春祥
王素格
郭鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi University
Original Assignee
Shanxi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanxi University filed Critical Shanxi University
Priority to CN202211406499.7A priority Critical patent/CN115906846A/zh
Publication of CN115906846A publication Critical patent/CN115906846A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本发明属于自然语言处理技术领域,公开了一种基于双图的层次特征融合的文档级命名实体识别方法。该方法首先从文档的不同层次出发构建词级图和句子级图;接着采用不同的节点更新策略对图节点进行更新,分别获得融合文档全局信息的词节点向量表示和句子节点向量表示;然后将词节点向量表示和其对应的句子节点向量表示进行拼接,得到最终的词向量表示;最后将最终的词向量表示输入序列标注模型中预测实体标签。通过与现有文档级命名实体识别方法进行对比,本发明从不同层次提取了文档的全局信息,进一步提高了命名实体识别的准确率。

Description

一种基于双图的层次特征融合的文档级命名实体识别方法
技术领域
本发明属于自然语言处理技术领域,具体为一种基于双图的层次特征融合的文档级命名实体识别方法。
背景技术
近年来,神经网络的相关技术研究为自然语言处理领域带来了重要进展,然而,这些技术也难以有效地解决自然语言处理领域中的认知和推理问题。为了解决该问题,研究人员提出了知识图谱(Knowledge Graph,KG),知识图谱的本质是语义网络,它是由节点和边组成,每个节点表示现实世界中的实体,每条边表示实体与实体之间的关系,知识图谱提供了实体之间结构化的关系信息,并允许进一步推断间接的关系事实,具有重要的学术研究价值和商业价值,已经被广泛应用于推荐系统、自动问答系统、搜索引擎等各种智能系统当中。构建知识图谱的核心技术之一便是命名实体识别任务(Named Entity Recognition,NER)。
命名实体识别任务是从给定文本中提取出特定的实体和其对应的实体类型,例如在给定文本中识别出人名、组织名和地名等实体类型,该任务不仅可以作为构建知识图谱的核心技术,也被广泛用于许多下游的自然语言处理任务中,因此命名实体识别任务具有重要的前沿研究价值。
目前命名实体识别任务的研究大多聚焦于单个句子的文本。而在知识图谱构建过程中,原始数据大多是文档数据,这些数据往往会包含更完整的实体描述信息。另外,在现实世界中,相同的实体可能不会出现在同一个句子中,且相同的实体在文档中可能有不同的表述形式,例如在文档中首次出现的实体通常是全称,之后该实体可能采用其简称进行提及。因此对于文档级命名实体识别任务,若仅采用句子级模型对文档中的每个句子进行命名实体识别,可能会带来标签不一致的问题:文档中同一实体可能被认为是不同的实体类型。之所以产生这种问题的原因是因为文档中同一实体通常会存在多种提及形式,仅从单个句子的描述可能难以判断实体类型,需要通过多个句子描述,因此从不同层次捕获全局文档特征有利于文档级实体标签的预测。
为了充分提取不同层次的文档特征表示,Dai等人提出一种融合实体共指关系的命名实体识别方法,该方法引入正则化模块学习同一实体的共指关系,进而预测实体标签;Hu等人通过实体分类辅助任务来引导命名实体识别,并且融合了两种不同的注意力机制学习文档全局特征表示,进而利用文档全局特征和局部特征预测实体标签;Luo等人引入注意力机制学习文档远距离的信息预测化学实体的标签;Qian等人通过构建单一的词级图,使用图卷积神经网络获得融合文档全局信息的词节点嵌入表示,进而预测实体标签,提高了命名实体识别任务的性能,然而该方法仅对词之间的文档信息进行建模,忽略了句子之间的文档信息,另一方面,该方法采用的图卷积神经网络仅可以聚合邻居节点信息对词节点进行更新,忽略了词节点的远距离节点信息,使词节点不能充分地学习文档全局信息。上述介绍的命名实体识别方法均没有从不同层次出发学习文档全局信息,且对于根据文档构建的图的更新策略也比较单一,无法进一步学习图节点的远距离信息,从而使影响了命名实体识别模型的性能。
发明内容
针对现有技术只考虑提取了词之间的文档信息,忽略了句子之间的文档信息对命名实体识别性能的重要性以及现有的节点更新策略没有从不同角度出发对图节点进行更新,从而使命名实体识别的准确率没有获得进一步提高的问题,本发明提供了一种基于双图的层次特征融合的文档级命名实体识别方法。将从词级、句子级分别捕获不同层次的文档信息用于命名实体识别任务中。
为了达到上述目的,本发明采用了下列技术方案:
本发明提供了一种基于双图的层次特征融合的文档级命名实体识别方法,所述方法包括以下步骤:
步骤1,将文档数据利用不同的方法分别得到字符向量表示和词向量表示;
步骤2,通过双向长短期记忆网络获取词的上下文信息表示;
步骤3,根据文档结构分别构建词级图和句子级图;
步骤4,根据不同的图节点更新策略对构建的双图进行更新,分别获得融合文档全局信息的词节点向量表示和句子节点向量表示;
步骤5,融合句子节点和词节点的信息,生成具有多个层次文档特征的词向量表示;
步骤6,根据序列标注的原理,首先通过双向长短期记忆网络对融合后的词向量进行编码,充分获取文档信息,然后使用条件随机场获得最佳的标签序列,完成文档级命名实体识别任务。
进一步,所述步骤1的具体过程为:
步骤1.1,根据给定的词向量嵌入表进行查找,获得第i个词向量表示
Figure BDA0003937129590000031
步骤1.2,根据卷积神经网络获取第i个词的各个字符向量表示,对字符向量表示进行最大池化操作获取该词的字符特征,获得第i个词的字符向量表示
Figure BDA0003937129590000032
步骤1.3,对步骤1.1和1.2得到的词向量表示和字符向量表示进行拼接,得到最终的词向量表示ei,可以表示为:
Figure BDA0003937129590000041
式(1)中的[,]符号表示两个向量的拼接操作。
进一步,所述步骤2的具体过程为:
将步骤S1得到的词向量表示ei作为双向长短期记忆网络的输入,获得第i个词的上下文表示hi,可以表示为:
Figure BDA0003937129590000042
式(2)中的
Figure BDA0003937129590000043
表示正向的长短期记忆网络,
Figure BDA0003937129590000044
表示反向的长短期记忆网络。
进一步,所述步骤3的具体过程为:
步骤3.1,将每个词作为一个节点构建词级图,构建边的规则:(1)相邻词之间构建一条边;(2)为了利用文档的共指信息,相同的两个词之间构建一条边;每个图节点的初始向量表示采用步骤2中双向长短期记忆网络的输出进行表示,将所有的词节点向量表示按行排列构成矩阵Hw,可以表示为:
Hw=[h1;h2;…;hq] (3)
式(3)中下标q表示文档中词的数量;
步骤3.2,将每个句子作为一个节点构建句子级图,相邻句子之间构建一条边,对每个句子的所有词向量表示进行平均得到每个句子节点的向量表示,所有句子节点向量表示按行排列构成矩阵Hs,可以表示为:
Figure BDA0003937129590000045
式(5)中下标m为文档中句子的数量,s1表示文档中的第一句包含的所有词的集合。
进一步,所述步骤4的具体过程为:
步骤4.1,相邻句子之间存在关系的概率较大,因此句子级图采用图卷积神经网络更新节点,图卷积神经网络可以通过聚合邻居节点更新节点信息,对于第l层句子节点Hs (l),第l+1层句子节点Hs (l+1)更新方式定义为:
Hs (l+1)=σ(AsHs (l)Ws (l)) (5)
式(5)中As为句子级图的邻接矩阵,Ws (l)为第l层可训练的参数,σ表示sigmoid函数,是一种非线性激活函数;
步骤4.2,由于相同的实体可能出现在文档的任何位置,需要词节点学习远距离的节点信息,因此词级图通过重复混合不同距离的邻居节点特征表示学习远距离节点信息,对于第l层词节点Hw (l),第l+1层词节点Hw (l+1)更新方式定义为:
Figure BDA0003937129590000051
Figure BDA0003937129590000052
Figure BDA0003937129590000053
Figure BDA0003937129590000054
式(6)-(8)中Aw (1)表示词级图的邻接矩阵,Aw (2)表示两个词级图的邻接矩阵相乘,Aw (3)表示三个词级图的邻接矩阵相乘,Ww (l)为第l层可训练的参数,
Figure BDA0003937129590000055
表示更新后的一阶词节点矩阵表示,
Figure BDA0003937129590000056
表示更新后的二阶词节点矩阵表示,
Figure BDA0003937129590000057
表示更新后的三阶词节点矩阵表示。
进一步,所述步骤5的具体过程为:
将更新后的词节点向量表示和该词所在的句子节点向量表示进行拼接,获得全局文档信息表示hi,可以表示为:
Figure BDA0003937129590000058
式(10)中
Figure BDA0003937129590000059
分别表示更新后的单个句子节点向量表示和单个词节点向量表示。
进一步,所述步骤6的具体过程为:
步骤6.1,为了充分利用文档语义信息,通过双向长短期记忆网络对hi进行编码得到
Figure BDA0003937129590000061
可以表示为:
Figure BDA0003937129590000062
步骤6.2,条件随机场是一种无向图模型,能够学习到训练数据中与标签有关的约束条件,提高命名实体识别的准确度,在CRF模块中,输出分数最高的标签序列作为预测标签序列,对于给定序列W=(w1,w2,...,wn),其预测的标签序列y=(y1,y2,...,yn),标签序列的得分被定义为:
Figure BDA0003937129590000063
式(12)中A是条件转移矩阵,
Figure BDA0003937129590000064
表示从标签yi转移到标签yi+1的概率,P是双向长短期记忆网络计算输出的初始得分矩阵,
Figure BDA0003937129590000065
表示第i个标签是yi的概率,W表示可训练的参数。
与现有技术相比本发明具有以下优点:
本发明考虑了句子间的文档信息、融合多层次文档信息以及不同节点更新策略对命名实体识别准确性的影响,首先通过词级图和句子级图获取不同层次的文档全局特征,然后根据构图特征采用不同的节点更新策略更新句子级图和词级图中的节点信息,得到不同层次的文档特征,最后融合不同层次的文档特征,将其输入到序列标注模型中预测实体标签,通过与现有的10种方法比较,本发明在不同的命名实体识别数据集上的F1均有不同程度的提高(在CoNLL-2003数据集上,相较于仅提取词级特征的BiLSTM-CRF、ParallelRNNs、IDCNN方法,本发明提出的方法在F1值上分别提高了1.18%、0.64%、1.47%,相较于同时加入词级特征和字符级特征的BiLSTM-CNNS-CRF、Att-BiLSTM-CRF、GlobalAtt方法,本发明提出的方法分别提高了0.92%、1.63%、0.69%,相较于加入文档级信息的GraphIE、Hier-NER方法,本发明提出的方法分别提高了0.38%、0.16%;在DocRED数据集上,相较于DocL-NER、Hier-NER、GraphIE方法,本发明提出的方法分别提高了0.19%、0.82%、0.27%),验证了本发明方法的有效性和先进性。
附图说明
图1为本发明方法整体架构示意图。
图2为本发明方法步骤1的流程图。
图3为本发明方法步骤4的流程图。
图4为本发明方法步骤6的流程图。
图5为数据集中不同实体类型的F1值;(a)为CoNLL-2003数据集的实验结果,(b)为DocRED数据集的实验结果。
具体实施方式
下面结合本发明实施例和附图,对本发明的技术方案进行具体、详细的说明。应当指出,对于本领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干变型和改进,这些也应视为属于本发明的保护范围。
一种基于双图的层次特征融合的文档级命名实体识别方法,包括以下步骤:
步骤1,将文档数据利用不同的方法分别得到字符向量表示和词向量表示;
步骤1.1,根据给定的词向量嵌入表进行查找,获得第i个词向量表示
Figure BDA0003937129590000071
步骤1.2,根据卷积神经网络获取第i个词的各个字符向量表示,对字符向量表示进行最大池化操作获取该词的字符特征,获得第i个词的字符向量表示
Figure BDA0003937129590000072
步骤1.3,对步骤1.1和1.2得到的词向量表示和字符向量表示进行拼接,得到最终的词向量表示ei,可以表示为:
Figure BDA0003937129590000081
式(1)中的[,]符号表示两个向量的拼接操作。
步骤2,通过双向长短期记忆网络获取词的上下文信息表示;
将步骤S1得到的词向量表示ei作为双向长短期记忆网络的输入,获得第i个词的上下文表示hi,可以表示为:
Figure BDA0003937129590000082
式(2)中的
Figure BDA0003937129590000083
表示正向的长短期记忆网络,
Figure BDA0003937129590000084
表示反向的长短期记忆网络。
步骤3,根据文档结构分别构建词级图和句子级图;
步骤3.1,将每个词作为一个节点构建词级图,构建边的规则:(1)相邻词之间构建一条边;(2)为了利用文档的共指信息,相同的两个词之间构建一条边;每个图节点的初始向量表示采用步骤2中双向长短期记忆网络的输出进行表示,将所有的词节点向量表示按行排列构成矩阵Hw,可以表示为:
Hw=[h1;h2;…;hq] (3)
式(3)中下标q表示文档中词的数量;
步骤3.2,将每个句子作为一个节点构建句子级图,相邻句子之间构建一条边,对每个句子的所有词向量表示进行平均得到每个句子节点的向量表示,所有句子节点向量表示按行排列构成矩阵Hs,可以表示为:
Figure BDA0003937129590000085
式(5)中下标m为文档中句子的数量,s1表示文档中的第一句包含的所有词的集合。
步骤4,根据不同的图节点更新策略对构建的双图进行更新,分别获得融合文档全局信息的词节点向量表示和句子节点向量表示;
步骤4.1,相邻句子之间存在关系的概率较大,因此句子级图采用图卷积神经网络更新节点,图卷积神经网络可以通过聚合邻居节点更新节点信息,对于第l层句子节点Hs (l),第l+1层句子节点Hs (l+1)更新方式定义为:
Hs (l+1)=σ(AsHs (l)Ws (l)) (5)
式(5)中As为句子级图的邻接矩阵,Ws (l)为第l层可训练的参数,σ表示sigmoid函数,是一种非线性激活函数;
步骤4.2,由于相同的实体可能出现在文档的任何位置,需要词节点学习远距离的节点信息,因此词级图通过重复混合不同距离的邻居节点特征表示学习远距离节点信息,对于第l层词节点Hw (l),第l+1层词节点Hw (l+1)更新方式定义为:
Figure BDA0003937129590000091
Figure BDA0003937129590000092
Figure BDA0003937129590000093
Figure BDA0003937129590000094
式(6)-(8)中Aw (1)表示词级图的邻接矩阵,Aw (2)表示两个词级图的邻接矩阵相乘,Aw (3)表示三个词级图的邻接矩阵相乘,Ww (l)为第l层可训练的参数,
Figure BDA0003937129590000095
表示更新后的一阶词节点矩阵表示,
Figure BDA0003937129590000096
表示更新后的二阶词节点矩阵表示,
Figure BDA0003937129590000097
表示更新后的三阶词节点矩阵表示。
步骤5,融合句子节点和词节点的信息,生成具有多个层次文档特征的词向量表示;
将更新后的词节点向量表示和该词所在的句子节点向量表示进行拼接,获得全局文档信息表示hi,可以表示为:
Figure BDA0003937129590000101
式(10)中
Figure BDA0003937129590000102
分别表示更新后的单个句子节点向量表示和单个词节点向量表示。
步骤6,根据序列标注的原理,首先通过双向长短期记忆网络对融合后的词向量进行编码,充分获取文档信息,然后使用条件随机场获得最佳的标签序列。
步骤6.1,为了充分利用文档语义信息,通过双向长短期记忆网络对hi进行编码得到
Figure BDA0003937129590000103
可以表示为:
Figure BDA0003937129590000104
步骤6.2,条件随机场是一种无向图模型,能够学习到训练数据中与标签有关的约束条件,提高命名实体识别的准确度,在CRF模块中,输出分数最高的标签序列作为预测标签序列,对于给定序列W=(w1,w2,...,wn),其预测的标签序列y=(y1,y2,...,yn),标签序列的得分被定义为:
Figure BDA0003937129590000105
式(12)中A是条件转移矩阵,
Figure BDA0003937129590000106
表示从标签yi转移到标签yi+1的概率,P是双向长短期记忆网络计算输出的初始得分矩阵,
Figure BDA0003937129590000107
表示第i个标签是yi的概率,W表示可训练的参数。
本发明方法有效性和先进性的验证:
为验证本发明提出技术方案的有效性和先进性,在CoNLL-2003、DocRED两个公开的文档级数据集上进行实验。CoNLL-2003数据集是一个来自路透社的英文数据集,共有1393篇标注文档,其中训练集、测试集和验证集分别包含946、231、216篇文档,数据集包含了四种实体类型,分别是人名(PER)、地名(LOC)、组织名(ORG)和混杂实体类型(MISC),该数据集的具体统计信息如表1所示。DocRED数据集是2019年提出的一个文档级英文数据集,共有5053篇标注文档,DocRED数据集包含六种实体类型,分别是人名(PER)、地名(LOC)、组织名(ORG)、时间(TIME)、数值(NUM)和混杂实体类型(MISC),该数据集的具体统计信息如表2所示。CoNLL-2003数据集采用BIO标注策略标注数据,为了和CoNLL-2003数据集保持一致,将DocRED数据集预处理为BIO标注策略的数据集格式。
BIO标注策略是一种序列标注策略,该标注策略将每个词标注为“B-X”、“I-X”或者“O”。其中,“B-X”表示该词所在的实体属于X实体类型,并且该词在此实体的开头位置,“I-X”表示该词所在的实体属于X实体类型,并且该词在该实体的中间位置,“O”表示该词不属于任何实体类型。
表1 CoNLL-2003数据集统计信息
Figure BDA0003937129590000111
表2 DocRED数据集统计信息
Figure BDA0003937129590000112
本发明所使用的硬件设备是配有Ubuntu18.04系统的电脑,实验环境包括GPU并行计算框架CUDA11.0以及深度学习框架torch1.10.0。
1、评价指标:
命名实体识别任务通常作为序列标注任务进行研究,因此对每个词汇进行标注,实际上是对词进行分类的问题。在序列标注中,可以采用准确率、召回率和F1值衡量本发明技术方案的性能。各个指标的计算如下:
Figure BDA0003937129590000121
Figure BDA0003937129590000122
Figure BDA0003937129590000123
其中F1值是准确率和召回率的调和平均值,同时考虑准确率和召回率,让两者达到最高,能够综合衡量命名实体识别方法的性能,因此本发明采用F1值衡量性能。
2、实验设置
本发明采用维度为100的Glove词向量嵌入表初始化词向量表示,字符向量表示设置为30维,双向长短期记忆网络的维度设置为450,句子节点的图卷积神经网络层数设置为1,词节点的图卷积神经网络层数设置为2,学习率设置为0.001。将本发明提出的方法与以下已有的命名实体识别方法进行对比:
(1)GraphIE:该方法使用文档词构建图,然后利用图卷积神经网络更新图节点获得文档全局信息,最后输入序列标注模型中预测实体标签。
(2)Hier-NER:首先利用词的标签嵌入获取句子级信息,然后使用键-值记忆网络提取文档级信息,最后输入解码器中预测实体标签。
(3)BiLSTM-CRF:首先将文档初始化为词向量表示,然后通过双向长短期记忆网络对词向量表示进行编码,最后采用条件随机场选择最佳标签序列。
(4)BiLSTM-CNNS-CRF:首先利用卷积神经网络获得的字符向量表示,然后将字符向量表示和词向量表示进行拼接,输入到序列标注模型中预测实体标签。
(5)ParallelRNNs:利用多个独立的双向长短期记忆网络单元减少模型的参数,提高模型训练速度。
(6)Att-BiLSTM-CRF:利用一个全局注意力机制获取文档级特征,进而提高命名实体识别的性能。
(7)IDCNN:通过使用膨胀的卷积获得文档远距离信息预测实体标签。
(8)GlobalAtt:首先使用不同的注意力机制分别获得文档级特征表示和语料库级特征表示,进而预测实体标签。
(9)MEID:该方法将实体分为多个词的实体和单个词实体,加入一个实体分类辅助任务,融合了两种不同的注意力机制学习文档全局特征表示,进而利用文档全局特征和局部特征预测实体标签。
(10)Doc-NER:该方法提出了一个两阶段微调模型解决文档标签不一致问题,使用贝叶斯网络预测标签的不确定性,进而纠正可能不正确的标签。
3、实验结果
在CoNLL-2003数据集上的实验结果如表3所示,相较于仅提取词级特征的BiLSTM-CRF、ParallelRNNs、IDCNN方法,本发明提出的方法在F1值上分别提高了1.18%、0.64%、1.47%;相较于同时加入词级特征和字符级特征的BiLSTM-CNNS-CRF、Att-BiLSTM-CRF、GlobalAtt方法,本发明提出的方法分别提高了0.92%、1.63%、0.69%;相较于加入文档级信息的GraphIE、Hier-NER方法,本发明提出模型分别提高了0.38%、0.16%。另外,对于加入多词实体分类辅助任务的MEID方法,本发明也提高了0.20%。在DocRED数据集上的实验结果如表4所示,相较于DocL-NER、Hier-NER、GraphIE方法,本发明提出方法分别提高了0.19%、0.82%、0.27%。实验表明本发明提出的基于双图的层次特征融合的文档级命名实体识别方法可以很好地提取出全局的非序列的文档信息,为后续的命名实体识别提供更丰富的信息。
表3 CoNLL-2003数据集的实验结果
Figure BDA0003937129590000141
表4 DocRED数据集的实验结果
Figure BDA0003937129590000142
图4中的(a)图和(b)图分别展示了CoNLL-2003和DocRED数据集的实验结果中不同实体类别的F1值,在CoNLL-2003数据集的实验结果中,本发明提出的方法预测人名(PER)实体类型的F1值最高,对预测混杂(MISC)实体类型的F1值最低,表明该方法可以很好地学习CoNLL-2003数据集中人名实体的相关特征,而对于混杂实体特征的学习能力较差一些。在DocRED数据集的实验结果中,本发明提出的方法预测时间(TIME)实体类型的F1值最高,预测混杂(MISC)实体类型的F1值最低,表明该方法可以很好地学习DocRED数据集中时间实体的相关特征,对于混杂实体特征的学习能力较差一些。其中在两个数据集中混杂(MISC)实体类型预测结果都较低的原因可能是由于混杂(MISC)实体类型的特征复杂且多样,难以学习,因此导致其F1值低于其他实体类型。
本发明方法中的文档特征是通过深度学习中的双向长短期记忆网络进行学习,没有利用大型预训练语言模型和额外的知识学习文档特征,减少训练的时间,除此之外,本发明中的方法在具有较多实体类型的数据集中可以达到较好的实验效果,适用于具有较多实体类型的文档级命名实体识别任务。

Claims (7)

1.一种基于双图的层次特征融合的文档级命名实体识别方法,其特征在于,所述方法包括以下步骤:
步骤1,将文档数据利用不同的方法分别得到字符向量表示和词向量表示;
步骤2,通过双向长短期记忆网络获取词的上下文信息表示;
步骤3,根据文档结构分别构建词级图和句子级图;
步骤4,根据不同的图节点更新策略对构建的双图进行更新,分别获得融合文档全局信息的词节点向量表示和句子节点向量表示;
步骤5,融合句子节点和词节点的信息,生成具有多个层次文档特征的词向量表示;
步骤6,根据序列标注的原理,首先通过双向长短期记忆网络对融合后的词向量进行编码,充分获取文档信息,然后使用条件随机场获得最佳的标签序列,完成文档级命名实体识别任务。
2.根据权利要求1所述的一种基于双图的层次特征融合的文档级命名实体识别方法,其特征在于,所述步骤1的具体过程为:
步骤1.1,根据给定的词向量嵌入表进行查找,获得第i个词向量表示
Figure FDA0003937129580000011
步骤1.2,根据卷积神经网络获取第i个词的各个字符向量表示,对字符向量表示进行最大池化操作获取该词的字符特征,得到第i个词的字符向量表示
Figure FDA0003937129580000012
步骤1.3,对步骤1.1和1.2得到的词向量表示和字符向量表示进行拼接,得到最终的词向量表示ei,可以表示为:
Figure FDA0003937129580000013
式(1)中的[,]符号表示两个向量的拼接操作。
3.根据权利要求1所述的一种基于双图的层次特征融合的文档级命名实体识别方法,其特征在于,所述步骤2的具体过程为:
将步骤S1得到的词向量表示ei作为双向长短期记忆网络的输入,获得第i个词的上下文表示hi,可以表示为:
Figure FDA0003937129580000021
式(2)中的
Figure FDA0003937129580000022
表示正向的长短期记忆网络,
Figure FDA0003937129580000023
表示反向的长短期记忆网络。
4.根据权利要求1所述的一种基于双图的层次特征融合的文档级命名实体识别方法,其特征在于,所述步骤3的具体过程为:
步骤3.1,将每个词作为一个节点构建词级图,构建边的规则:(1)相邻词之间构建一条边;(2)为了利用文档的共指信息,相同的两个词之间构建一条边;每个图节点的初始向量表示采用步骤2中双向长短期记忆网络的输出进行表示,将所有的词节点向量表示按行构成矩阵Hw,可以表示为:
Hw=[h1;h2;…;hq] (3)
式(3)中下标q表示文档中词的数量;
步骤3.2,将每个句子作为一个节点构建句子级图,相邻句子之间构建一条边,对每个句子包含的所有词向量表示进行平均得到每个句子节点的向量表示,所有句子节点向量表示按行构成矩阵Hs,可以表示为:
Figure FDA0003937129580000024
式(5)中下标m为文档中句子的数量,s1表示文档中的第一句包含的所有词的集合。
5.根据权利要求1所述的一种基于双图的层次特征融合的文档级命名实体识别方法,其特征在于,所述步骤4的具体过程为:
步骤4.1,相邻句子之间存在关系的概率较大,因此句子级图采用图卷积神经网络更新节点,图卷积神经网络可以通过聚合邻居节点更新节点信息,对于第l层句子节点Hs (l),第l+1层句子节点Hs (l+1)更新方式定义为:
Hs (l+1)=σ(AsHs (l)Ws (l)) (5)
式(5)中As为句子级图的邻接矩阵,Ws (l)为第l层可训练的参数,σ表示sigmoid函数,是一种非线性激活函数;
步骤4.2,由于相同的实体可能出现在文档的任何位置,需要词节点学习远距离的节点信息,因此词级图通过重复混合不同距离的邻居节点特征表示学习远距离节点信息,对于第l层词节点Hw (l),第l+1层词节点Hw (l+1)更新方式定义为:
Figure FDA0003937129580000031
Figure FDA0003937129580000032
Figure FDA0003937129580000033
Figure FDA0003937129580000034
式(6)-(8)中Aw (1)表示词级图的邻接矩阵,Aw (2)表示两个词级图的邻接矩阵相乘,Aw (3)表示三个词级图的邻接矩阵相乘,Ww (l)为第l层可训练的参数,
Figure FDA0003937129580000035
表示更新后的一阶词节点矩阵表示,
Figure FDA0003937129580000036
表示更新后的二阶词节点矩阵表示,
Figure FDA0003937129580000037
表示更新后的三阶词节点矩阵表示。
6.根据权利要求1所述的一种基于双图的层次特征融合的文档级命名实体识别方法,其特征在于,所述步骤5的具体过程为:
将更新后的词节点向量表示和该词所在的句子节点向量表示进行拼接,获得全局文档信息表示hi,可以表示为:
Figure FDA0003937129580000038
式(10)中
Figure FDA0003937129580000041
分别表示更新后的单个句子节点向量表示和单个词节点向量表示。
7.根据权利要求1所述的一种基于双图的层次特征融合的文档级命名实体识别方法,其特征在于,所述步骤6的具体过程为:
步骤6.1,为了充分利用文档语义信息,通过双向长短期记忆网络对hi进行编码得到
Figure FDA0003937129580000042
可以表示为:
Figure FDA0003937129580000043
步骤6.2,条件随机场是一种无向图模型,能够学习到训练数据中与标签有关的约束条件,提高命名实体识别的准确度,在CRF模块中,输出分数最高的标签序列作为预测标签序列,对于给定序列W=(w1,w2,...,wn),其预测的标签序列y=(y1,y2,...,yn),标签序列的得分被定义为:
Figure FDA0003937129580000044
式(12)中A是条件转移矩阵,
Figure FDA0003937129580000045
表示从标签yi转移到标签yi+1的概率,P是双向长短期记忆网络计算输出的初始得分矩阵,
Figure FDA0003937129580000046
表示第i个标签是yi的概率,W表示可训练的参数。
CN202211406499.7A 2022-11-10 2022-11-10 一种基于双图的层次特征融合的文档级命名实体识别方法 Pending CN115906846A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211406499.7A CN115906846A (zh) 2022-11-10 2022-11-10 一种基于双图的层次特征融合的文档级命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211406499.7A CN115906846A (zh) 2022-11-10 2022-11-10 一种基于双图的层次特征融合的文档级命名实体识别方法

Publications (1)

Publication Number Publication Date
CN115906846A true CN115906846A (zh) 2023-04-04

Family

ID=86472073

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211406499.7A Pending CN115906846A (zh) 2022-11-10 2022-11-10 一种基于双图的层次特征融合的文档级命名实体识别方法

Country Status (1)

Country Link
CN (1) CN115906846A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117151117A (zh) * 2023-10-30 2023-12-01 国网浙江省电力有限公司营销服务中心 电网轻量级非结构化文档内容自动识别方法、装置及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117151117A (zh) * 2023-10-30 2023-12-01 国网浙江省电力有限公司营销服务中心 电网轻量级非结构化文档内容自动识别方法、装置及介质
CN117151117B (zh) * 2023-10-30 2024-03-01 国网浙江省电力有限公司营销服务中心 电网轻量级非结构化文档内容自动识别方法、装置及介质

Similar Documents

Publication Publication Date Title
CN109902145B (zh) 一种基于注意力机制的实体关系联合抽取方法和系统
CN112487143B (zh) 一种基于舆情大数据分析的多标签文本分类方法
CN110334354B (zh) 一种中文关系抽取方法
CN108664589B (zh) 基于领域自适应的文本信息提取方法、装置、系统及介质
CN114064918B (zh) 一种多模态事件知识图谱构建方法
CN110765775A (zh) 一种融合语义和标签差异的命名实体识别领域自适应的方法
CN113626589B (zh) 一种基于混合注意力机制的多标签文本分类方法
CN107590127A (zh) 一种题库知识点自动标注方法及系统
CN112256866B (zh) 一种基于深度学习的文本细粒度情感分析算法
CN109189862A (zh) 一种面向科技情报分析的知识库构建方法
CN112699685B (zh) 基于标签引导的字词融合的命名实体识别方法
CN114417851B (zh) 一种基于关键词加权信息的情感分析方法
CN113255366B (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN115114409B (zh) 一种基于软参数共享的民航不安全事件联合抽取方法
CN111368542A (zh) 一种基于递归神经网络的文本语言关联抽取方法和系统
Wu et al. An effective approach of named entity recognition for cyber threat intelligence
CN113742733A (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN114398488A (zh) 一种基于注意力机制的bilstm多标签文本分类方法
CN115496072A (zh) 一种基于对比学习的关系抽取方法
CN115906816A (zh) 一种基于Bert的双通道Attention模型的文本情感分析方法
CN113312918B (zh) 融合部首向量的分词和胶囊网络法律命名实体识别方法
CN111428502A (zh) 一种面向军事语料的命名实体标注方法
CN115906846A (zh) 一种基于双图的层次特征融合的文档级命名实体识别方法
CN114239584A (zh) 一种基于自监督学习的命名实体识别方法
CN117094325B (zh) 水稻病虫害领域命名实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination