CN116151243A - 一种基于类型相关性表征的实体关系抽取方法 - Google Patents

一种基于类型相关性表征的实体关系抽取方法 Download PDF

Info

Publication number
CN116151243A
CN116151243A CN202310440409.4A CN202310440409A CN116151243A CN 116151243 A CN116151243 A CN 116151243A CN 202310440409 A CN202310440409 A CN 202310440409A CN 116151243 A CN116151243 A CN 116151243A
Authority
CN
China
Prior art keywords
entity
type
representation
characterization
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310440409.4A
Other languages
English (en)
Other versions
CN116151243B (zh
Inventor
相艳
郭俊辰
刘威
郭军军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202310440409.4A priority Critical patent/CN116151243B/zh
Publication of CN116151243A publication Critical patent/CN116151243A/zh
Application granted granted Critical
Publication of CN116151243B publication Critical patent/CN116151243B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于类型相关性表征的实体关系抽取方法,属于人工智能语言处理领域。实体关系抽取通常采用深度学习的方法选取特征,在不同领域进行实体关系抽取时,通常没能考虑到主体和客体实体的类型相关性对关系抽取的帮助。在此提出了一种基于类型相关性表征的实体关系抽取方法,该方法使用实体标签和位置嵌入来增强字符的信息,使用注意力控机制来融合实体局部上下文表征,并通过实体类型-类型关系指导关系抽取的方法。医学领域数据集CMeIE和文学领域SanWen数据集实验结果表明,本发明提出的基于类型相关性表征的实体关系抽取方法是有效的。

Description

一种基于类型相关性表征的实体关系抽取方法
技术领域
本发明提供一种基于类型相关性表征的实体关系抽取方法,属于语言处理技术领域。
背景技术
深度神经网络可以自动地从领域文本中提取特征,而且只需要很少或者甚至不需要进行任何特征工程。即使没有人工干预,该模型仍然能够保持较高的准确性和稳定性。这种自动特征提取的能力是深度神经网络在自然语言处理任务中优秀表现的关键之一,使其在许多领域都有着广泛的应用。所以关系抽取任务主流的方法也是使用深度学习。
近年来,Zhao等人提出了一种双阶段句法CNN模型,该模型结合了词向量和多种外部特征,包括句法信息、位置和词性等。出了一种改进的二叉树LSTM模型,该模型通过结合词向量与位置、句法信息等特征来为药物相互作用关系的分类提供了多重特征。Park等人考虑到了输入文本数据的上下文语境信息和空间结构信息,针对这一特点,他们提出了一种名为AGCN的注意力图卷积神经网络模型。该模型采用了注意力机制,并设计了一种新的剪枝策略,用于捕获句法特征中的重要信息。Chen在20年提出了关系抽取流水线模型,最后的结论是,使用单独的编码器,可以让模型学习更好的特定任务特征,并且引入实体类别信息会关系模型有提升。Ye等人在Chen的模型基础上进行了改进,并提出了一种新的跨度表示方法。该方法在编码器中采用了面向邻域的布局,综合考虑了邻域跨度的特征,以更好地对实体边界信息进行建模。同时,该方法还通过对token的包装方式考虑跨度之间的相互关系。目前中文医学文本关系抽取方法仍有一些不足:1. 对于一些现有的先进的模型和baseline,对于实体名称及类型,实体类型贡献更大而很少关注。2. 句子中的实体对于字符的相对位置和绝对位置都对关系抽取有影响,现有研究有些不足。3. 主体实体和客体实体的类型之间也有很强的相关性,现有研究没有关注利用此信息。
发明内容
针对上述提到的不足,本发明提出了并实现了一种基于类型相关性表征的实体关系抽取方法;提升了实体关系抽取的性能。
本发明的技术方案是:所述抽取方法的步骤如下:
Step1、对数据集进行预处理:将带有实体类型及主体实体和客体实体的标记插入到数据集中,得到带有实体类型及主体实体和客体实体标记的数据集;
所述Step1中包括如下内容:关系抽取模型在输入层突出显示主体实体和客体实体以及它们的类型,在每一句中插入键入的标记;具体来说,将给定的一个句子
Figure SMS_3
, 和一对主体实体/>
Figure SMS_5
和客体实体/>
Figure SMS_8
以及它们的类型/>
Figure SMS_1
, />
Figure SMS_4
,然后将文本标记符<S: />
Figure SMS_7
>和</S: />
Figure SMS_9
>插入到句子S中对应的主体实体间,将文本标记符<O: />
Figure SMS_2
>和</O: />
Figure SMS_6
>插入到句子S中对应的客体实体间。
Step2、获取字符嵌入:将带有实体类型及主体实体和客体实体标记的输入文本序列中的每个token通过word2vec模型训练的字典映射到一个密集向量,通过密集向量获取字符嵌入;
所述Step2中包括如下内容:采用在大规模语料上所训练的密集向量中的字符向量来作为字符的初始嵌入来获取语料句子的字符的初始表征,这种表征通常蕴含了字符的上下文信息,即也是一种字符粒度的局部信息;然后使用word2vec模型预训练字符嵌入查找表
Figure SMS_10
来获得字符嵌入。
Step3、获取输入字符表征:将步骤Step2得到的字符嵌入与位置向量进行联合嵌入,得到输入字符的表征;
所述Step3中包括如下内容:在Step3中分别计算第i个字符相对两个实体的相对位置
Figure SMS_12
和/>
Figure SMS_15
然后通过查找表将其转化为对应的向量/>
Figure SMS_18
,维度大小都是/>
Figure SMS_13
,然后将两者拼接得到相对位置嵌入/>
Figure SMS_16
;最后,由字符嵌入/>
Figure SMS_17
和相对位置嵌入/>
Figure SMS_20
的拼接得到输入字符的表征/>
Figure SMS_11
, />
Figure SMS_14
,/>
Figure SMS_19
字符嵌入的维度。
Step4、使用Transformer对输入序列进行编码,输入序列中包含输入字符的表征,将输出的隐藏层向量使用注意力机制进行特征压缩,得到实体类型—类型关系表征;
所述Step4中包括如下内容:在Step4中使用Transformer作为编码器,多头注意力机制通过引入多个不同的子空间,扩展了模型关注不同位置的能力,这种方法使模型能够在不同的空间中并行地学习到不同的特征表示,从而更好地捕捉输入序列中的关系;
对于实体和实体间的关系,引入一个可训练的实体类型表,输入标记
Figure SMS_21
Figure SMS_22
,通过Transformer编码器得到主体实体和客体实体隐藏层向量/>
Figure SMS_23
和/>
Figure SMS_24
,为了让关系对的表征向量可训练,将两个隐藏层向量进行拼接,平均池化,再送入线性层得到实体类型—类型关系表征。
Step5、根据Transformer编码得到的字符的隐藏层向量得到实体的上下文表征,将包含实体的上下文表征与主体实体和客体实体的语义表征进行特征融合,将融合后的表征和实体类型—类型关系表征进行拼接;
在步骤Step5中,在通过编码器得到的字符的隐藏层向量
Figure SMS_25
后,首先采用字符级注意机制将其合并成句子级特征向量,记为/>
Figure SMS_26
,即实体的上下文表征,这里,
Figure SMS_27
表示隐藏状态的维度,/>
Figure SMS_28
表示序列长度,句子级特征向量/>
Figure SMS_29
被计算为句子中所有字符隐藏特征向量的加权和;
根据输入标记
Figure SMS_31
与/>
Figure SMS_34
,得到主体实体的token序列{/>
Figure SMS_35
…/>
Figure SMS_32
,同理可得到客体实体的token序列{/>
Figure SMS_33
…/>
Figure SMS_36
,i和j分别表示主体实体和客体实体的长度,然后使用max-pooling操作得到句子中主体实体和客体实体的语义表征/>
Figure SMS_37
和/>
Figure SMS_30
;为了更好的识别主体实体和客体实体的关系类型,将句子级特征向量与主体实体和客体实体的语义表征分别进行特征融合,得到上下文增强后的主体表征、客体表征;
在步骤Step5中,将上下文增强后的主体表征、客体表征和实体类型-类型关系表征进行拼接,得到实体类型增强后的融合表征。
Step6、标签预测:将步骤Step5得到的表征送入到Softmax层,以获得最终的预测。
所述Step6中,为了计算每个关系的条件概率,实体类型增强后的融合表征
Figure SMS_38
被馈送到Soft Max分类器进行预测分类抽取;最后,使用交叉熵损失函数训练模型。
本发明的有益效果是:
1、本发明提出了一种使用实体类型标签和位置嵌入来增强中文字符的方式,其中,实体类型标签中不仅包含实体的类型信息,还有实体在文本中的位置信息以及主体实体和客体实体的标记,位置嵌入进一步增强实体的相对位置信息,再通过注意力机制得到文本中和实体间的局部上下文表征,结合实体类型对应的关系,最终推断出主体实体与客体实体的关系;
2、本发明在一定程度上解决了以往相关研究工作中对主体实体和客体实体的位置信息获取不充分,且未考虑以实体类型的相关性信息来引导实体类型、上下文语意、主体实体和客体实体位置关系三者的交互建模的问题;
3、本发明使用注意力机制使得抽取模型选取最适合当前语境的实体类型及上下文语意信息,提升模型对实体关系抽取性能,并在一定程度上提高了模型的泛化能力;
4、本发明提出了一种基于实体类型相关性和实体增强的关系抽取方法;本发明综合考虑了先验知识在嵌入层中的作用,并利用注意机制来提取更完整和重要的信息;本发明分别在医学领域数据集CMeIE和文学领域SanWen数据集上进行了实验,不仅可以用于处理医学领域的关系抽取问题,还可以用于处理通用文学领域的关系抽取问题,实验结果也表明了本发明所提出方法的有效性。
附图说明
图1为本发明提出的基于类型相关性表征的实体关系抽取方法实现的流程图;
图2为本发明提出的基于类型相关性表征的实体关系抽取方法插入实体标记的数据预处理示例图;
图3为CMeIE数据集消融实验结果图。
具体实施方式
实施例1:如图1-图3所示,一种基于类型相关性表征的实体关系抽取方法,针对本发明提出的方法在中文医学关系抽取(CMeIE)数据集和中文文学SanWen数据集进行了实验验证,所述方法的具体步骤如下:
Step1、对数据集进行预处理:将带有实体类型及主体实体和客体实体的标记插入到数据集中,得到带有实体类型及主体实体和客体实体标记的数据集;本发明中采用了中文医学关系抽取(CMeIE)数据集,包含一万四千多条句子。数据集包含儿科和百种常见疾病训练数据语料,实体分为主体实体和客体实体,关系共有43种子类型,包括手术治疗,影像学检查,死亡率,传播途径,临床表现等。为了使测试领域更加多样化,还使用中文文学SanWen数据集,中国文学文章的关系包含9种类型,本文通过随机抽取的方式,将其中的75%数据集来训练模型,剩余的用来评估。
Figure SMS_39
关系抽取模型在输入层突出显示主体实体和客体实体以及它们的类型,在每一句中插入键入的标记;具体来说,将给定的一个句子
Figure SMS_41
, 和一对主体实体/>
Figure SMS_45
和客体实体/>
Figure SMS_47
以及它们的类型/>
Figure SMS_42
, />
Figure SMS_44
,然后将文本标记符<S: />
Figure SMS_46
>和</S: />
Figure SMS_48
>插入到句子S中对应的主体实体间,将文本标记符<O: />
Figure SMS_40
>和</O: />
Figure SMS_43
>插入到句子S中对应的客体实体间;为了方便计算,将标记符全部移到句子最后面,对应的标记符共享实体头部的位置嵌入,本发明的数据预处理示例如图2所示,图2中以脑膜炎症患者会出现脑膜炎症体征,如头痛,畏光一句为例,阐述了本发明在插入实体类型标记符的流程,首先,将主体实体和客体实体进行标记,并赋予其类型标签,如脑膜炎症作为主体实体(S),其实体类型为病症disease(dis),畏光作为客体实体(O),其实体类型为症状symptom(sym),随后为方便计算,将插入的实体类型标记符,挪移到句子尾部,可以看出,插入实体类型标记符后的主体实体的文本标记符头部位置为<S:dis >、尾部位置为</S:dis >;插入实体类型标记符后的客体实体的文本标记符头部位置为<O: sym >、尾部位置为</O: sym >,图1中的<S:dis >、</S:dis >、<O: sym >、</O:sym >也表示上述意思,另外,对于图1,本发明有如下说明,图1中的英文表述为本领域专业术语的表达,为了方便理解,对其中的英文表达本发明可以作如下翻译:position index(位置索引);Character(字符);Encoder layer (编码器层);Max-pool(最大池化);concat(拼接);subject entity(主体实体);sentence(句子即本发明中句子级特征向量);Fusion(融合);object entity(客体实体);Linear(线性层);type-type representation(类型-类型表示法);relation classifier(关系分类器);Muti-representations Fusion Layer(多表征融合层);relation Classifier(关系分类器);
Step2、获取字符嵌入:将带有实体类型及主体实体和客体实体标记的输入文本序列中的每个token通过word2vec模型训练的字典映射到一个密集向量,通过密集向量获取字符嵌入;所述Step2中包括如下内容:采用在大规模语料上所训练的密集向量中的字符向量来作为字符的初始嵌入来获取语料句子的字符的初始表征,这种表征通常蕴含了字符的上下文信息,即也是一种字符粒度的局部信息;然后使用word2vec模型预训练字符嵌入查找表
Figure SMS_49
来获得每一个字符/>
Figure SMS_50
字符嵌入:
Figure SMS_51
(1)/>
Step3、获取输入字符表征:将步骤Step2得到的字符嵌入与位置向量进行联合嵌入,得到输入字符的表征;
所述Step3中包括如下内容:在Step3中分别计算第i个字符相对两个实体的相对位置
Figure SMS_52
和/>
Figure SMS_53
;/>
Figure SMS_54
的计算公式如下:
Figure SMS_55
(2)
其中,
Figure SMS_56
和/>
Figure SMS_57
表示头实体的开始和结束索引,同理可得出/>
Figure SMS_58
然后通过查找表将其转化为对应的向量
Figure SMS_59
,维度大小都是/>
Figure SMS_60
,然后将两者拼接得到相对位置嵌入/>
Figure SMS_61
Figure SMS_62
= [/>
Figure SMS_63
; />
Figure SMS_64
] (3)
最后,由字符嵌入
Figure SMS_65
和相对位置嵌入/>
Figure SMS_66
的拼接得到输入字符的表征/>
Figure SMS_67
,
Figure SMS_68
,/>
Figure SMS_69
字符嵌入的维度;
Figure SMS_70
(4)
Step4、利用Transformer进行上下文特征提取,使用Transformer对输入序列进行编码,输入序列中包含输入字符的表征,将输出的隐藏层向量使用注意力机制进行特征压缩,得到实体类型—类型关系表征;
所述Step4中包括如下内容:由于主体实体和客体实体之间可能存在较强的依赖关系,而 Transformer神经网络模型的多头注意力机制对全局特征提取效果显著,所以在Step4中使用Transformer作为编码器,多头注意力机制通过引入多个不同的子空间,扩展了模型关注不同位置的能力,这种方法使模型能够在不同的空间中并行地学习到不同的特征表示,从而更好地捕捉输入序列中的关系;
计算多头注意力A(Q,K,V)的公式如下:
Figure SMS_71
(5)
Figure SMS_72
,/>
Figure SMS_73
其中,
Figure SMS_74
表示输入向量,/>
Figure SMS_75
, />
Figure SMS_76
, />
Figure SMS_77
代表可学习的参数。
Figure SMS_78
,/>
Figure SMS_79
) (6)
Figure SMS_80
(7)
其中,
Figure SMS_81
和/>
Figure SMS_82
分别为可学习的参数。然后送入到前馈神经网络层,最后正则化,然后输出:
Figure SMS_83
(8)
对于实体和实体间的关系,引入一个可训练的实体类型表,输入标记
Figure SMS_84
Figure SMS_85
,通过Transformer编码器得到主体实体和客体实体隐藏层向量/>
Figure SMS_86
和/>
Figure SMS_87
,为了让关系对的表征向量可训练,将两个隐藏层向量进行拼接,平均池化,再送入线性层得到实体类型—类型关系表征/>
Figure SMS_88
:/>
Figure SMS_89
,/>
Figure SMS_90
; (9)
Figure SMS_91
; (10)
Figure SMS_92
; (11)
Step5、根据Transformer编码得到的字符的隐藏层向量得到实体的上下文表征,将包含实体的上下文表征与主体实体和客体实体的语义表征进行特征融合,将融合后的表征和实体类型—类型关系表征进行拼接;
在步骤Step5中,在通过编码器得到的字符的隐藏层向量
Figure SMS_93
后,首先采用字符级注意机制将其合并成句子级特征向量,记为/>
Figure SMS_94
,即实体的上下文表征,这里,
Figure SMS_95
表示隐藏状态的维度,/>
Figure SMS_96
表示序列长度,句子级特征向量/>
Figure SMS_97
被计算为句子中所有字符隐藏特征向量的加权和:
Figure SMS_98
(12)
Figure SMS_99
(13)
Figure SMS_100
(14)
其中
Figure SMS_101
是训练参数,/>
Figure SMS_102
是/>
Figure SMS_103
的权重向量。
根据输入标记
Figure SMS_104
与/>
Figure SMS_108
,得到主体实体的token序列{/>
Figure SMS_110
…/>
Figure SMS_106
,同理可得到客体实体的token序列{/>
Figure SMS_107
…/>
Figure SMS_109
,i和j分别表示主体实体和客体实体的长度,然后使用max-pooling操作得到句子中主体实体和客体实体的语义表征/>
Figure SMS_111
和/>
Figure SMS_105
Figure SMS_112
…/>
Figure SMS_113
(15)
Figure SMS_114
…/>
Figure SMS_115
(16)
为了更好的识别主体实体和客体实体的关系类型,将句子级特征向量与主体实体和客体实体的语义表征分别进行特征融合,得到上下文增强后的主体表征、客体表征;
公式如下:
Figure SMS_116
(17)
Figure SMS_117
(18)
其中
Figure SMS_118
和/>
Figure SMS_119
是可学习的参数,/>
Figure SMS_120
分别是/>
Figure SMS_121
的转置。/>
Figure SMS_122
则是非线性激活函数,/>
Figure SMS_123
表示逐个元素的乘法。
在步骤Step5中,将上下文增强后的主体表征、客体表征和实体类型-类型关系表征进行拼接,得到实体类型增强后的融合表征:
Figure SMS_124
(19)
Step6、标签预测:将步骤Step5得到的表征送入到Softmax层,以获得最终的预测。
所述Step6中,为了计算每个关系的条件概率,实体类型增强后的融合表征
Figure SMS_125
被馈送到Soft Max分类器进行预测分类抽取;
Figure SMS_126
(20)
其中
Figure SMS_127
是变换矩阵,/>
Figure SMS_128
是偏差向量。/>
Figure SMS_129
表示关系类型的总数,/>
Figure SMS_130
是每种类型的预测概率;最后,使用交叉熵损失函数训练模型:
Figure SMS_131
(21)
其中,
Figure SMS_132
表示主体实体和目标实体间的关系,/>
Figure SMS_133
表示主体实体和客观实体。
为验证本发明所提模型的有效性,本发明从深度学习方面,选择以下与本发明相关的且具有代表性的系统作为baseline模型。
本发明采用
Figure SMS_134
值作为评价指标来衡量模型性能:
Figure SMS_135
(22)
Figure SMS_136
(23)
Figure SMS_137
(24)
其中,TP为真正例的数量,FP为假正例的数量,FN为假负例的数量。
Figure SMS_138
为准确率,/>
Figure SMS_139
为召回率。
BiLSTM (Zhang and Wang, 2015)提出了一个双向LSTM的关系抽取模型。
PCNN (Zeng et al., 2015)提出了具有多实例学习的分段式CNN模型。
PCNN+ATT (Lin et al., 2016)改善了PCNN具有选择性注意机制的模型。
MG Lattice(Li et at., 2019) 基于Lattice LSTM结构引入了外部信息hownet手工标注的多义词,从而减轻多义歧义。
TableSeq (Wang and Lu, 2020)使用两个独立的编码器,表格编码器和序列编码器相互作用捕捉特定的任务信息,并多维循环神经网络来更好地利用表的结构信息,实现了更好的性能。
PURE (Zhong and Chen, 2021)提出了一种简单的pipeline方式,在关系模型早期融合实体信息以及整合全局上下文表示,并提出一个有效的近似模型,牺牲很小准确率得提升训练效率。
UniRE(Wang et al., 2021d)为实体检测和关系分类设置了两个独立的标签空间,促进两个任务的交互提出了一种可以共享标签空间的方法, 并设计了一种近似联合解码算法来输出最终提取的实体和关系。从表2可以看出,本发明提出的关系抽取方法,在CMeIE和SanWen数据集中取得了一个很好的结果。
Figure SMS_140
为了验证位置编码和实体类型对模型结果的有效性,做了如下消融实验:
分别使用CNN,LSTM和Transformer编码器来进行上下文信息编码,然后分别去掉位置嵌入和实体类型嵌入,表3中,word embedding:字符嵌入,Pos:relative position相对位置嵌入,Entity type:实体类型信息;实验结果如下表2所示,从表3中可以看出本发明使用的Transformer编码器,相对于LSTM,CNN等编码器在相同条件下对关系抽取任务具有更好的实验效果;
Figure SMS_141
进一步对模型各个组件进行消融实验,以考察不同组件对关系抽取模型的贡献程度:
w/o type marks表示去掉实体类型标记,保留实体类型关系和位置编码模型部分。
w/o relation of types表示去掉类型关系表征,保留实体类型标记和位置编码模型部分。
w/o relative position表示去掉相对位置编码表征,保留实体类型标记和实体类型关系部分。
w/o muti-features fusion表示去掉多特征融合部分,保留实体类型标记和实体类型关系部分。
从图3可以看出,与本发明方法所对应模型相比,当给出目标实体时,没有实体类型标记的模型在CMeIE数据集上的F1下降了1.69%,没有实体类型关系表征的模型的F1下降了1.13%,去掉多特征融合部分后,F1下降了1.34%。这验证了实体类型关系、实体类型标记和多特征融合部分对于本发明模型性能的保证都具有重要作用。值得注意的是,去掉实体类型标记后,模型的召回率和F1值都有较大幅度的下降,本发明分析,去掉实体类型标记后,模型中实体的上下文信息不包含实体类型信息了,对模型的判断有一定影响,其次,实体类型标记也影响实体类型-类型关系表示,由于去掉标记,所以只能用固定的向量来表示这个关系表,不能随模型的训练而更新参数,对于测试集的一些关系不能很好的识别,导致模型的性能下降。
与其他消融结果相比,移除掉位置编码表征后,召回率提高了一点,F1值和精确率都下降了,这种现象的原因可能是实体位置附近的上下文位置信息对关系的判断有帮助,进而提升准确率,而位置信息也可能带来部分噪声,影响模型召回率。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (7)

1.一种基于类型相关性表征的实体关系抽取方法,其特征在于,所述抽取方法的步骤如下:
Step1、对数据集进行预处理:将带有实体类型及主体实体和客体实体的标记插入到数据集中,得到带有实体类型及主体实体和客体实体标记的数据集;
Step2、获取字符嵌入:将带有实体类型及主体实体和客体实体标记的输入文本序列中的每个token通过word2vec模型训练的字典映射到一个密集向量,通过密集向量获取字符嵌入;
Step3、获取输入字符表征:将步骤Step2得到的字符嵌入与位置向量进行联合嵌入,得到输入字符的表征;
Step4、使用Transformer对输入序列进行编码,输入序列中包含输入字符的表征,将输出的隐藏层向量使用注意力机制进行特征压缩,得到实体类型—类型关系表征;
Step5、根据Transformer编码得到的字符的隐藏层向量得到实体的上下文表征,将包含实体的上下文表征与主体实体和客体实体的语义表征进行特征融合,将融合后的表征和实体类型—类型关系表征进行拼接;
Step6、标签预测:将步骤Step5得到的表征送入到Softmax层,以获得最终的预测。
2.根据权利要求1的基于类型相关性表征的实体关系抽取方法,其特征在于,所述Step1中包括如下内容:关系抽取模型在输入层突出显示主体实体和客体实体以及它们的类型,在每一句中插入键入的标记;具体来说,将给定的一个句子
Figure QLYQS_1
, 和一对主体实体/>
Figure QLYQS_4
和客体实体/>
Figure QLYQS_7
以及它们的类型/>
Figure QLYQS_3
, />
Figure QLYQS_5
,然后将文本标记符<S: />
Figure QLYQS_8
>和</S: />
Figure QLYQS_9
>插入到句子S中对应的主体实体间,将文本标记符<O: />
Figure QLYQS_2
>和</O: />
Figure QLYQS_6
>插入到句子S中对应的客体实体间。
3.根据权利要求1的基于类型相关性表征的实体关系抽取方法,其特征在于,所述Step2中包括如下内容:采用在大规模语料上所训练的密集向量中的字符向量来作为字符的初始嵌入来获取语料句子的字符的初始表征,这种表征通常蕴含了字符的上下文信息,即也是一种字符粒度的局部信息;然后使用word2vec模型预训练字符嵌入查找表
Figure QLYQS_10
来获得字符嵌入。
4.根据权利要求1的基于类型相关性表征的实体关系抽取方法,其特征在于,所述Step3中包括如下内容:在Step3中分别计算第i个字符相对两个实体的相对位置
Figure QLYQS_12
和/>
Figure QLYQS_14
然后通过查找表将其转化为对应的向量/>
Figure QLYQS_19
,维度大小都是/>
Figure QLYQS_13
,然后将两者拼接得到相对位置嵌入/>
Figure QLYQS_15
;最后,由字符嵌入/>
Figure QLYQS_18
和相对位置嵌入/>
Figure QLYQS_20
的拼接得到输入字符的表征/>
Figure QLYQS_11
, />
Figure QLYQS_16
,/>
Figure QLYQS_17
字符嵌入的维度。
5.根据权利要求1的基于类型相关性表征的实体关系抽取方法,其特征在于,所述Step4中包括如下内容:在Step4中使用Transformer作为编码器,多头注意力机制通过引入多个不同的子空间,扩展了模型关注不同位置的能力,这种方法使模型能够在不同的空间中并行地学习到不同的特征表示,从而更好地捕捉输入序列中的关系;
对于实体和实体间的关系,引入一个可训练的实体类型表,输入标记
Figure QLYQS_21
Figure QLYQS_22
,通过Transformer编码器得到主体实体和客体实体隐藏层向量/>
Figure QLYQS_23
和/>
Figure QLYQS_24
,为了让关系对的表征向量可训练,将两个隐藏层向量进行拼接,平均池化,再送入线性层得到实体类型—类型关系表征。
6.根据权利要求1的基于类型相关性表征的实体关系抽取方法,其特征在于,在步骤Step5中,在通过编码器得到的字符的隐藏层向量
Figure QLYQS_25
后,首先采用字符级注意机制将其合并成句子级特征向量,记为/>
Figure QLYQS_26
,即实体的上下文表征,这里,/>
Figure QLYQS_27
表示隐藏状态的维度,/>
Figure QLYQS_28
表示序列长度,句子级特征向量/>
Figure QLYQS_29
被计算为句子中所有字符隐藏特征向量的加权和;
根据输入标记
Figure QLYQS_31
与/>
Figure QLYQS_34
,得到主体实体的token序列{/>
Figure QLYQS_36
…/>
Figure QLYQS_32
,同理可得到客体实体的token序列{/>
Figure QLYQS_33
…/>
Figure QLYQS_35
,i和j分别表示主体实体和客体实体的长度,然后使用max-pooling操作得到句子中主体实体和客体实体的语义表征/>
Figure QLYQS_37
和/>
Figure QLYQS_30
;为了更好的识别主体实体和客体实体的关系类型,将句子级特征向量与主体实体和客体实体的语义表征分别进行特征融合,得到上下文增强后的主体表征、客体表征;
在步骤Step5中,将上下文增强后的主体表征、客体表征和实体类型-类型关系表征进行拼接,得到实体类型增强后的融合表征。
7.根据权利要求1的基于类型相关性表征的实体关系抽取方法,其特征在于,所述Step6中,为了计算每个关系的条件概率,实体类型增强后的融合表征
Figure QLYQS_38
被馈送到Soft Max分类器进行预测分类抽取;最后,使用交叉熵损失函数训练模型。/>
CN202310440409.4A 2023-04-23 2023-04-23 一种基于类型相关性表征的实体关系抽取方法 Active CN116151243B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310440409.4A CN116151243B (zh) 2023-04-23 2023-04-23 一种基于类型相关性表征的实体关系抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310440409.4A CN116151243B (zh) 2023-04-23 2023-04-23 一种基于类型相关性表征的实体关系抽取方法

Publications (2)

Publication Number Publication Date
CN116151243A true CN116151243A (zh) 2023-05-23
CN116151243B CN116151243B (zh) 2023-06-23

Family

ID=86358593

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310440409.4A Active CN116151243B (zh) 2023-04-23 2023-04-23 一种基于类型相关性表征的实体关系抽取方法

Country Status (1)

Country Link
CN (1) CN116151243B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113221567A (zh) * 2021-05-10 2021-08-06 北京航天情报与信息研究所 司法领域命名实体及关系联合抽取方法
CN113468888A (zh) * 2021-06-25 2021-10-01 浙江华巽科技有限公司 基于神经网络的实体关系联合抽取方法与装置
US20210391080A1 (en) * 2018-12-29 2021-12-16 New H3C Big Data Technologies Co., Ltd. Entity Semantic Relation Classification
CN114281941A (zh) * 2021-12-11 2022-04-05 苏州空天信息研究院 一种基于共享语义空间的远程监督关系抽取方法
CN114970537A (zh) * 2022-06-27 2022-08-30 昆明理工大学 基于多层标注策略的跨境民族文化实体关系抽取方法及装置
CN115640806A (zh) * 2022-11-03 2023-01-24 昆明理工大学 一种基于改进CasRel的农作物病虫害实体关系联合抽取方法
CN115936006A (zh) * 2022-12-06 2023-04-07 三一重机有限公司 实体关系抽取方法、装置及设备
CN115935989A (zh) * 2022-10-13 2023-04-07 同济大学 一种自学习实体关系联合抽取方法、装置及存储介质
CN115934883A (zh) * 2023-01-04 2023-04-07 北京工业大学 一种基于语义增强的多特征融合的实体关系联合抽取方法
CN115983383A (zh) * 2023-01-06 2023-04-18 国网冀北电力有限公司廊坊供电公司 面向电力设备的实体关系抽取方法及相关装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210391080A1 (en) * 2018-12-29 2021-12-16 New H3C Big Data Technologies Co., Ltd. Entity Semantic Relation Classification
CN113221567A (zh) * 2021-05-10 2021-08-06 北京航天情报与信息研究所 司法领域命名实体及关系联合抽取方法
CN113468888A (zh) * 2021-06-25 2021-10-01 浙江华巽科技有限公司 基于神经网络的实体关系联合抽取方法与装置
CN114281941A (zh) * 2021-12-11 2022-04-05 苏州空天信息研究院 一种基于共享语义空间的远程监督关系抽取方法
CN114970537A (zh) * 2022-06-27 2022-08-30 昆明理工大学 基于多层标注策略的跨境民族文化实体关系抽取方法及装置
CN115935989A (zh) * 2022-10-13 2023-04-07 同济大学 一种自学习实体关系联合抽取方法、装置及存储介质
CN115640806A (zh) * 2022-11-03 2023-01-24 昆明理工大学 一种基于改进CasRel的农作物病虫害实体关系联合抽取方法
CN115936006A (zh) * 2022-12-06 2023-04-07 三一重机有限公司 实体关系抽取方法、装置及设备
CN115934883A (zh) * 2023-01-04 2023-04-07 北京工业大学 一种基于语义增强的多特征融合的实体关系联合抽取方法
CN115983383A (zh) * 2023-01-06 2023-04-18 国网冀北电力有限公司廊坊供电公司 面向电力设备的实体关系抽取方法及相关装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
QINGBANG WANG: "A entity relation extraction model with enhanced position attention in food domain", 《NEURAL PROCESS》, vol. 54, no. 2, pages 1449 - 1464, XP037793796, DOI: 10.1007/s11063-021-10690-9 *
王广祥 等: "融合事实文本的知识库问答方法", 《模式识别与人工智能》, vol. 34, no. 3, pages 267 - 272 *

Also Published As

Publication number Publication date
CN116151243B (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
Peyre et al. Detecting unseen visual relations using analogies
CN108804530B (zh) 对图像的区域加字幕
CN109543181B (zh) 一种基于主动学习和深度学习相结合的命名实体模型和系统
Xiao et al. Dense semantic embedding network for image captioning
CN110414009B (zh) 基于BiLSTM-CNN的英缅双语平行句对抽取方法及装置
CN108960338B (zh) 基于注意力反馈机制的图像自动语句标注方法
CN112800776A (zh) 双向gru关系抽取数据处理方法、系统、终端、介质
Wang et al. Stroke constrained attention network for online handwritten mathematical expression recognition
CN112800239B (zh) 意图识别模型训练方法、意图识别方法及装置
CN114169312A (zh) 一种针对司法裁判文书的两阶段混合式自动摘要方法
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
Sun et al. Study on medical image report generation based on improved encoding-decoding method
CN117217233A (zh) 文本纠正、文本纠正模型训练方法及装置
Tang et al. Offline handwritten mathematical expression recognition with graph encoder and transformer decoder
CN116595189A (zh) 基于两阶段的零样本关系三元组抽取方法及系统
CN116151243B (zh) 一种基于类型相关性表征的实体关系抽取方法
CN116341557A (zh) 一种糖尿病医学文本命名实体识别方法
CN116680407A (zh) 一种知识图谱的构建方法及装置
CN115906855A (zh) 一种字词信息融合的中文地址命名实体识别方法及装置
CN115659242A (zh) 一种基于模态增强卷积图的多模态情感分类方法
CN115291888A (zh) 基于自注意力交互式网络的软件社区仓库挖掘方法及装置
CN115292533A (zh) 视觉定位驱动的跨模态行人检索方法
CN113947085A (zh) 一种面向智能问答系统的命名实体识别方法
Li et al. Attention-based LSTM-CNNs for uncertainty identification on Chinese social media texts
CN113822018A (zh) 实体关系联合抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant