CN116167368B - 基于类型关联特征增强的领域文本实体关系抽取方法 - Google Patents

基于类型关联特征增强的领域文本实体关系抽取方法 Download PDF

Info

Publication number
CN116167368B
CN116167368B CN202310440331.6A CN202310440331A CN116167368B CN 116167368 B CN116167368 B CN 116167368B CN 202310440331 A CN202310440331 A CN 202310440331A CN 116167368 B CN116167368 B CN 116167368B
Authority
CN
China
Prior art keywords
entity
features
type
character
tail
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310440331.6A
Other languages
English (en)
Other versions
CN116167368A (zh
Inventor
相艳
赵学东
柳如熙
线岩团
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202310440331.6A priority Critical patent/CN116167368B/zh
Publication of CN116167368A publication Critical patent/CN116167368A/zh
Application granted granted Critical
Publication of CN116167368B publication Critical patent/CN116167368B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明涉及基于类型关联特征增强的领域文本实体关系抽取方法,属于实体关系抽取技术领域。本发明包括步骤:首先,构建包含类型表征的领域词典;然后,通过交互门控机制将词汇类型间关系表征与头、尾实体表征融合;最后,使用argmax( )函数将融合类型关联特征的实体对特征解码,预测实体关系。本发明在中文医疗信息处理挑战榜CBLUE上的中文医学文本实体关系抽取数据集(CMeIE)上进行了实验,结果表明本发明的性能相比其他基模型获得了明显提高。

Description

基于类型关联特征增强的领域文本实体关系抽取方法
技术领域
本发明涉及基于类型关联特征增强的领域文本实体关系抽取方法,属于实体关系抽取技术领域。
背景技术
实体关系是隐藏在大量文本中的重要知识,通过实体之间的关系人们可以获得事物之间的联系,构建知识网络。关系知识以三元组的形式表现。例如,在句子“吞咽困难是食道癌最常见的症状”中蕴含三元组(食道癌,吞咽困难,临床表现),其中头实体是“食道癌”、关系是“临床表现”、尾实体是“吞咽困难”。这一对三元组可以表明吞咽困难是食道癌的临床表现。关系抽取的任务就在于从文本中抽取实体关系三元组。早期的关系抽取通常是给定文本及文本中的两个实体,判断实体之间的关系。一组三元组包括头实体、尾实体以及它们之间关系,但一段文本中可能只有一对实体关系,也有可能包含多对实体关系,一个实体可能与两个不同实体有着不同的关系。
目前,关系抽取的主要研究内容是基于神经网络的关系抽取(neural networkrelationship extraction,NRE)模型,神经网络可以从文本中自动提取语义特征。和传统方法相比,NRE主要使用词嵌入和位置嵌入而不是人工特征作为输入。词嵌入是NLP中最常见的输入表示,它通过将语义编码成向量来实现对单个词的处理。通过位置嵌入,可以精确地定义一个词与另一个实体之间的距离,从而更好地捕捉文本中的细节信息。NRE研究的重点是利用各种网络架构来捕捉文本中的关系语义。其中,卷积神经网络(CNN)可以有效地模拟局部文本模式;循环神经网络(RNN)可以更好地处理长序列数据;图形神经网络(GNN)可以用来构建单词/实体图进行推理;注意力机制可以使神经网络聚集全局关系信息。例如,Dligach等人将CNN和LSTM的输出融合在不同类型的注释序列上,得到了一个集成的分类器,在THYME数据集上取得了良好的效果;Christopoulou等人将BiLSTM与注意力机制和转化器分别应用于句内和句间实体关系的提取;通过将图递归网络(GRN)和BiLSTM技术相结合,Song等人大大提升了BiLSTM模型的准确率。最近,Transformer和预训练的语言模型例如BERT也被用于NRE,取得了新的顶级性能。Xue等人利用基于BERT的Attention机制实现了命名实体识别和实体关系抽取的多任务处理。
大多数传统的关系抽取任务是对一个句子中两个给定实体之间的关系进行预测。然而,一个句子可能包含不止一对实体关系,且一个实体可能与多个实体有不同的关系。因此,目前在关系提取方面的许多工作都集中在如何预测句子中多个头、尾实体之间的关系。例如,Wei等人提出了一个重叠三元组抽取方法,其中一个头或尾实体与多个实体有不同的关系。Chen 等人通过重新标记噪声解决了远距离监督三元组抽取中的噪声问题。
目前,一些深度学习模型如CNN、RNN、LSTM等被广泛用于领域的关系提取。例如,张等人把卷积神经网络与支持向量机、条件随机场相结合,构建了联合神经网络模型用于实体及关系抽取;赵等人提出了基于预训练模型的混合神经网络方法;Lai等人提出了基于知识增强的生物医学实体关系抽取模型,可以利用外部知识辅助模型预测;Wang 等人提出了一个基于语料库统计的模型框架,使医学文本关系提取可解释化;武等人提出了基于全词mask的BERT卷积神经网络(BERT(wwm)-CNN)模型用于提升中文心血管医疗语料中关系抽取的性能。这些工作都取得了较好的效果,但他们没有很好地利用实体类别关联信息。实体类别对确定关系有很大帮助,利用类别关联信息可以提高关系抽取性能。
针对上述问题,本发明提出了一种基于类型关联特征增强的领域文本实体关系抽取方法。在公开的CBLUE-CMeIE中文医学实体关系抽取数据集上,本发明方法与一系列基线方法进行了比较,实验结果证明本发明方法在实体关系抽取任务上的有效性。
发明内容
本发明提供了基于类型关联特征增强的领域文本实体关系抽取方法,将实体标记与实体所有字符特征融合来得到实体特征,并使用实体类型关联特征来指导关系抽取,在一定程度上弥补了以往工作中实体信息不完整,忽略实体类型信息进行字符表示增强的不足,提升了实体关系抽取的性能。
本发明的技术方案是:基于类型关联特征增强的领域文本实体关系抽取方法,所述基于类型关联特征增强的领域文本实体关系抽取方法包括如下步骤:
Step1、构建领域词典;
Step2、将实体所对应的所有字符特征融合得到实体特征,并构建实体类型关系矩阵得到实体对的类型关联特征;
Step3、将句子中实体所对应的字符特征求和,得到句子中头、尾实体的特征,通过交互门控机制将其与头、尾实体的类型关联特征拼接,得到融合类型关联特征的实体对特征;
Step4、通过交叉熵损失函数计算损失,使用argmax( )函数将融合类型关联特征的实体对特征解码,预测实体关系。
作为本发明的进一步方案,所述Step1中,构建包含词汇类别信息的领域词典,词典数据来源于搜集的领域文本及数据集的训练集信息,以“词汇,词汇类别”的格式储存;在获得文本中包含的词汇后,根据词典匹配对应的类别并获得Word2vec训练的词向量以及类别向量。对于输入的文本序列,分别获取字符向量
Figure SMS_1
,匹配的词汇向量/>
Figure SMS_2
及其类别向量/>
Figure SMS_3
,具体步骤如下:
Step1.1、对于字符嵌入,使用在语料上所训练的字符向量来作为字符的初始嵌入,具体做法为:根据训练好的 character embedding lookup table,在基于标准分词后的中文语料库Gigaword上使用Word2vec工具训练的嵌入集合;由此将字符
Figure SMS_4
映射到字符嵌入表示/>
Figure SMS_5
及语言模型bigram嵌入表示/>
Figure SMS_6
;其中,Character embedding lookuptable可以翻译为:字符嵌入索引;字符嵌入是一种将字符表示为固定长度的实数向量的方法,可以捕捉字符之间的相似性和语义信息;Character embedding lookup table是一个矩阵,其中每一行对应一个字符,每一列对应一个嵌入维度;矩阵的大小由字符集的大小和嵌入维度的大小决定;Character embedding lookup table可以作为一个可训练的参数,在神经网络模型中进行学习和更新,也可以使用预训练的字符嵌入来初始化查找表;
Figure SMS_7
Figure SMS_8
Step1.2、领域词嵌入使用word2vec进行训练,维度为50,窗口设置为5,最小词频设置为5,共训练5轮;最后得到领域词嵌入索引
Figure SMS_9
,将每个词汇/>
Figure SMS_10
映射到一个词嵌入表示
Figure SMS_11
Figure SMS_12
Step1.3、对于词汇的类别嵌入,构建了一个包含词汇类别的领域词典
Figure SMS_13
,以“词汇,词汇类别”的格式储存;/>
Figure SMS_14
将词汇/>
Figure SMS_15
映射到类别/>
Figure SMS_16
,再通过/>
Figure SMS_17
映射到一个类别嵌入表示
Figure SMS_18
Figure SMS_19
Figure SMS_20
若词汇没有找到对应的类别,则将其映射为一个固定的随机初始化的嵌入表示。
作为本发明的进一步方案,所述Step2中,将实体所对应的所有字符特征融合得到实体特征,并构建实体类型关系矩阵得到实体对的类型关联特征;在此步骤,得到句子的字符编码并将其输入到BERT编码器训练得到字符特征,将实体所对应的所有字符特征融合得到实体特征,并构建实体间关系参数矩阵来学习表示类型间关系。具体步骤如下:
Step2.1、对于原始输入的文本序列
Figure SMS_21
,其中xm表示句子中的第m个字符,通过实体位置坐标确定实体位置,并在实体的开始和结束位置前后打标得到标记后的文本序列/>
Figure SMS_22
,具体地,头实体开始位置前标记<s>、头实体结束位置前标记</s>、尾实体开始位置前标记<o>、尾实体结束位置前标记</o>。例如句子“区分产后抑郁症与轻度情绪失调是重要的”中,头实体为“产后抑郁症”,尾实体为“轻度情绪失调”,标记后的句子为“区分<s>产后抑郁症</s>与<o>轻度情绪失调</o>是重要的”。同时,得到标记后新的实体位置坐标/>
Figure SMS_23
,其中/>
Figure SMS_24
表示<s>标记坐标,/>
Figure SMS_25
表示</s>标记坐标,/>
Figure SMS_26
表示<o>标记坐标,/>
Figure SMS_27
表示</o>标记坐标。
Step2.2、之后将文本序列
Figure SMS_28
通过BERT的字符编码索引/>
Figure SMS_29
得到对应的编码序列
Figure SMS_30
,再将其输入到BERT编码器中获得训练后的字符特征序列
Figure SMS_31
,具体计算如下所示。
Figure SMS_32
(6)
Figure SMS_33
(7)
Figure SMS_34
(8);
Step2.3、得到句子的头、尾实体后,将其在包含类型信息的医学词汇索引
Figure SMS_35
中检索得到词汇的类型/>
Figure SMS_36
,具体计算如下所示。
Figure SMS_37
(9)
Figure SMS_38
(10);
Step2.4、为了获得词汇类型间的关联特征,通过构建一个实体类型关系矩阵
Figure SMS_39
来表示类型间的关联特征,不同类型两两之间都对应一个关联特征。其中/>
Figure SMS_40
为词汇类型数量,/>
Figure SMS_41
表示隐藏层维度。例如,若头实体类型为疾病,类型编号为/>
Figure SMS_42
,尾实体类型为症状,类型编号为/>
Figure SMS_43
,则输入文本序列中头、尾实体的实体类型关系特征/>
Figure SMS_44
就表示了疾病类型与症状类型之间的关系信息。通过这个实体类型关系矩阵,得到实体对的类型关系特征/>
Figure SMS_45
来表示不同类型之间的关系特征。
Figure SMS_46
(11)
其中,
Figure SMS_47
表示第j个头实体的实体类型,/>
Figure SMS_48
表示第j个尾实体的实体类型,
Figure SMS_49
表示二者之间的关联特征。
作为本发明的进一步方案,所述Step3中,将句子中实体所对应的字符特征求和,得到句子中头、尾实体的特征,通过交互门控机制将其与头、尾实体的类型关联特征拼接,得到融合类型关联特征的实体对特征;具体步骤如下:
Step3.1、将句子中实体所对应的字符特征求和,得到句子中头、尾实体的特征,根据头、尾实体
Figure SMS_50
的开始与结束坐标/>
Figure SMS_51
,将BERT编码器输出的训练好的字符特征序列/>
Figure SMS_52
中实体所对应的所有字符特征求和,得到句子的头、尾实体特征/>
Figure SMS_53
,具体的计算过程如下。
Figure SMS_54
(12)
Figure SMS_55
(13);
Step3.2、在得到头、尾实体特征
Figure SMS_56
后将二者拼接得到实体对特征/>
Figure SMS_57
,将实体对特征/>
Figure SMS_58
与类型关联特征/>
Figure SMS_59
融合拼接,为了动态控制实体对特征和类型关联特征的贡献,使用一个交互门控机制来获得融合后的实体对表示/>
Figure SMS_60
,并进行线性变换,得到最终的实体对特征/>
Figure SMS_61
,其中/>
Figure SMS_62
表示数据集的关系数量。
Figure SMS_63
(14)
Figure SMS_64
(15)
Figure SMS_65
(16)
Figure SMS_66
(17)
Figure SMS_67
(18)
其中
Figure SMS_69
为sigmod函数,/>
Figure SMS_71
表示点乘计算,/>
Figure SMS_74
、/>
Figure SMS_70
、/>
Figure SMS_73
、/>
Figure SMS_75
、/>
Figure SMS_76
为可学习参数,/>
Figure SMS_68
表示拼接后的实体对特征,/>
Figure SMS_72
表示拼接计算。
作为本发明的进一步方案,所述Step4中,通过交叉熵损失函数计算损失,使用argmax( )函数将融合类型关联特征的实体对特征解码,预测实体关系。具体步骤如下:
Step4.1、在得到最终的实体对特征
Figure SMS_77
后,通过交叉熵损失函数来计算损失,具体计算如下。
Figure SMS_78
(19)
其中
Figure SMS_79
是实体对的标签值。
Step4.2、最后,使用argmax函数将融合类型关联特征的实体对特征解码,预测实体关系。
Figure SMS_80
(20)
其中
Figure SMS_81
表示模型预测的实体对类型标签。
本发明的有益效果是:
本发明首先构建包含类型表征的领域词典;然后,通过交互门控机制将词汇类型间关系表征与头、尾实体表征融合;最后,使用argmax( )函数将融合类型关联特征的实体对特征解码,预测实体关系。在公开的中文医学文本实体关系抽取数据集(CMeIE)上,本发明方法与一系列基线方法进行了比较,本发明的性能相比其他基模型获得了明显提高,实验结果证明了本发明方法在实体关系抽取任务上的有效性。
附图说明
图1为本发明中基于类型关联特征增强的领域文本实体关系抽取模型框架;
图2为本发明中不同的实体特征提取方式;
图3为本发明方法迁移应用到各基线模型上,改进前后的F1值对比示意图;
图4为本发明方法迁移应用到各基线模型上,改进前后的准确率对比示意图;
图5为本发明方法迁移应用到各基线模型上,改进前后的召回率对比示意图。
具体实施方式
实施例1,一种基于类型关联特征增强的领域文本实体关系抽取方法,针对本发明提出的以上方法在中文医学文本实体关系抽取数据集(CMeIE)上进行实验,本发明所使用的数据来自于中文医疗信息处理挑战榜CBLUE(Chinese Biomedical LanguageUnderstanding Evaluation)的关系抽取数据集CMeIE。CMeIE包含疾病、药物、手术治疗、身体等11类医疗领域实体。这个数据集收录了518种儿科疾病的训练语料,以及109种常见疾病的训练语料。三元组数据接近7.5万条,疾病语句接近2.8万条和定义好的关系有53种。数据集统计见表1。
Figure SMS_82
本发明实验环境为Windows系统下基于Python 3.7 的深度学习框架Pytoch1.7.1进行构建。模型训练过程中,学习率设置为3e-5,训练batch_size设置为32,验证batch_size设置为32,adam_epsilon设置为1e-8,hidden设置为768。
设置评价指标,关系抽取主要有三个可量化的评价指标:Precision (P)、Recall(R)和F1-score (F1)。实体和关系抽取任务可以分别进行评价。P度量关系抽取模型正确识别关系的能力,R度量关系抽取模型识别关系的能力,F1取两者的调和均值。
Figure SMS_83
(21)
Figure SMS_84
(22)
Figure SMS_85
(23)
其中,TP表示模型正确识别关系数量,FP表示模型错误识别的关系数量,FN表示模型未识别的关系数量。
所述方法的具体步骤如下:
Step1、构建包含词汇类别信息的词典,词典数据来源于搜集的领域文本及数据集的训练集信息,以“词汇,词汇类别”的格式储存;在获得文本中包含的词汇后,根据词典匹配对应的类别并获得Word2vec训练的词向量以及类别向量。
Step2、对于原始输入文本序列
Figure SMS_86
,其中xm表示句子中的第m个字符,通过实体位置坐标确定实体位置,并分别在头尾实体的开始和结束位置打上特殊标记,具体地,头实体开始位置前标记<s>、头实体结束位置前标记</s>、尾实体开始位置前标记<o>、尾实体结束位置前标记</o>,由此得到新的序列/>
Figure SMS_87
,然后将其通过BERT的字符编码索引得到对应的字符编码序列,再将其输入到BERT编码器中获得训练后的字符特征序列;进一步地,将句子的头尾实体在包含类型信息的领域词汇索引中检索得到头尾实体词的类型,而后,构建一个实体类型关系矩阵,得到实体对的类型关系特征来表示不同类型之间的关联特征。
Step3、将句子中实体所对应的字符特征求和,得到句子中头、尾实体的特征,根据头、尾实体
Figure SMS_89
的开始与结束坐标/>
Figure SMS_91
,将BERT编码器输出的训练好的字符特征序列/>
Figure SMS_94
中实体所对应的所有字符特征求和,得到句子的头、尾实体特征/>
Figure SMS_88
;进一步地,在得到头、尾实体特征/>
Figure SMS_93
后将二者拼接得到实体对特征/>
Figure SMS_95
,将实体对特征/>
Figure SMS_98
与类型关联特征/>
Figure SMS_90
融合拼接,为了动态控制实体对特征和类型关联特征的贡献,使用一个交互门控机制来获得融合后的实体对表示/>
Figure SMS_92
,并进行线性变换,得到最终的实体对特征/>
Figure SMS_96
,其中/>
Figure SMS_97
表示数据集的关系数量。
Step4、得到融合类型关联特征的实体对特征
Figure SMS_99
后,通过交叉熵损失函数来计算损失,最后,使用argmax( )函数解码,预测实体关系。
Step5、为了验证本发明所提出的模型的有效性,选择了与本发明相关的深度学习模型作为基线模型,主要是基于BERT的关系抽取模型,具体如下:
BERT-wwm:wwm 是全词掩码Whole Word Masking的缩写,该模型改变了原有的训练样本生成策略,使得整个词汇表示能力得到了极大的提升。与BERT相比,Mask标签可以替代一个完整的词,这与英文不同。中文中最小的token是一个字,在中文中词所包含的信息相比字更多。因此,在掩码字的同时,保证一个词内的所有字都被掩码,可以使模型更好地理解语义,NLP中的mask是一种技术,是专业术语,NLP中的mask机制是一种在预训练或训练过程中对输入序列进行部分遮盖的方法。mask机制的目的是为了让模型只关注有意义的部分,忽略无意义或未来的部分,从而提高模型的性能和泛化能力;或者为了让模型学习到更深层次的语义信息。
BERT-wwm-ext:相比于BERT-wwm的改进是它扩大了训练数据集,并还大幅提升了训练步数。
RoBERTa-wwm-ext:该模型将中文wwm技术以及RoBERTa模型结合。该模型包含如下特点:预训练阶段采用wwm策略进行mask,取消了Next Sentence Prediction(NSP),直接使用max_len=512的数据进行预训练并延长训练步数。
ALBERT-tiny:该模型能够有效地减少内存占用,并且能够提升BERT训练的效率。ALBERT使用嵌入分解和跨层参数共享来减少参数。除此之外,还提出了一种新的句序预测任务(SOP)以提高模型的准确性。
MacBERT:该模型是引入了一种纠错型掩码语言模型(MLM as correction,Mac)的预训练任务,缓解了预训练和微调阶段的不一致问题。MacBERT的核心思想是用与被掩码单词相似的单词来替换原来的单词,而不是用[MASK]标记。这样可以使模型更好地学习语义信息,避免被[MASK]标记干扰,该模型通过使用与被mask单词相似的单词替换原来的单词,而不是使用[MASK]标记。通过使用基于word2vec的同义词工具包,模型能够计算出与实际单词相似度的词汇。如果没有类似的词汇,就可以通过使用随机词汇来代替。
表2展示了在CMeIE数据集上,本发明模型与基线模型的实验结果对比,可以观察到:与其他基线模型相比,本发明模型在CMeIE数据集上有更高的关系抽取性能。通过对比,本发明模型的F1值最高,分别比BERT-wmm模型高3.6%,比BERT-wwm-ext模型高2.5%,比RoBERTa-wwm-ext模型高1.8%,比ALBERT-tiny模型高6.8%,比MacBERT模型高2.9%,验证基于类型关联特征增强的领域文本实体关系抽取方法有效的提高了模型的关系抽取能力。
Figure SMS_100
Step6、在关系抽取任务中,对于句子中实体对的特征提取有着不同的提取方法。如图2所示,其中一种方法如图2中(a)所示,选择头、尾实体前的标记特征作为实体特征,将实体标签特征拼接作为实体对特征;一种如图中(b)所示,将头、尾实体分别对应的所有字符特征融合起来作为实体特征,再将其拼接作为实体对特征;本发明提出的方式如图中(c)所示,将实体前后的标记特征以及实体所对应的所有字符特征融合作为实体特征,再将两个实体的特征拼接作为实体对特征。本发明提出的方法不仅使用了实体标记信息,还保留了实体全部字符的信息,使得实体特征更为完整。
为了验证本发明提出的实体特征提取方法,类型关系表征等模型各个部分的效果,分别设计了以下模型进行消融实验。
(1) w/o allchar-typerela-gate:利用BERT提取句子的上下文信息,使用头、尾实体标记<s>,<o>的特征融合作为实体对特征,且w/o allchar-typerela-gate表示没有使用allchar、typerela和gate这三种特征的模型。allchar是使用实体前后的标记以及实体所对应的所有字符特征融合作为实体特征;typerela是使用实体类型关系的特征,gate是使用门控机制来融合特征。
(2) w/o allchar:利用外部领域词典获得领域术语的类型作为补充信息,在BERT-tab的基础上融入实体类型关联特征。
(3) w/o label:将实体所对应的所有字符特征融合作为实体特征,并融入实体类型关联特征。
(4) w/o typerela:在BERT-tab的基础上,将实体前后的标记<s>,</s>以及实体所对应的所有字符特征融合作为实体特征,相关组合方式如公式所示。
(5) w/o gate:将实体前后的标记<s>,</s>以及实体所对应的所有字符特征融合作为实体特征,并融入实体类型关系特征。
(6) Our model:将实体前后的标记<s>,</s>以及实体所对应的所有字符特征融合作为实体特征,并通过交互门控机制融入实体类型关系特征,相关组合方式如公式所示。
实验参数与之前保持一致,实验结果如下所示。
Figure SMS_101
表3展示了以w/o allchar-typerela-gate作为基线模型的实验结果。表3中的实验结果显示,与其他模型相比,w/o allchar-typerela-gate的所有评价指标表现都较差。从表中各个模型的F1值对比可以看出,基于保留完整实体表征和词汇类型关联表征的模型性能均高于基线模型。这一现象展示了完整词汇信息以及词汇类型关联信息对于关系抽取任务确实是有效的。
与w/o allchar-typerela-gate相比,利用外部领域词典获得领域术语类型信息,将实体类型关联特征融入模型的w/o allchar方法获得较好的效果,这一现象表示了利用词汇类型关联信息的有效性。与w/o allchar相比,w/o label使用实体全部字符特征作为实体特征性能有所下降,这可能是因为只使用单纯的字符特征效果不如实体标记特征。而将实体前后标记<s>,</s>以及实体所对应的所有字符特征融合作为实体特征的w/o gate方法在P、R、F1值上效果都更好,这说明实体标记特征以及实体所有字符特征都是有效的信息。而在w/o gate的基础上加入交互门控机制来平衡实体对特征与词汇类型关联特征的贡献后,Our model相比w/o gate又有提高,这一现象显示了门控机制对于不同特征的融合是有效的。
为了验证不同的实体标记与实体字符特征融合方式,设计了以下实验进行验证,实验结果如表4所示。
ENTREP_SLS:将实体的开始标记特征与实体所对应的所有字符特征求和,作为实体特征。
ENTREP_SLC:将实体所对应的所有字符特征求和,再与实体的开始标记特征拼接作为实体特征。
Our model:将实体的开始及结束标记特征与实体所对应的所有字符特征求和作为实体特征。
Figure SMS_102
通过表4可以观察到,ENTREP_SLS方式效果最差,F1值下降了2.63%;ENTREP_SLC方式较好一些,但相比本发明使用的方式F1值下降了2.17%。这个结果可能是因为BERT模型是双向的,实体的前后标记都有实体的特征信息,因此本发明将实体的开始及结束标记特征与实体所对应的所有字符特征求和作为实体特征的方式保留了更完整的实体信息,模型效果更好。
为了验证不同的类型关系特征提取方式,设计以下实验进行验证,实验结果如表5所示。
TYPEREL_SOC:将头实体和尾实体随机初始化的类型嵌入拼接作为实体类型关系特征。
TYPEREL_LSOC:在实体开始标记前插入实体的类型标记,将头实体和尾实体的类型标记嵌入拼接作为实体类型关系特征。
Our model:构建实体类型关系矩阵,不同类型两两之间都对应一个关系特征。将头实体类型、尾实体类型所对应的关系特征作为实体类型关系特征。
Figure SMS_103
通过表5可以观察到,TYPEREL_SOC方式相比本发明中的方式F1值下降了1.63%;TYPEREL_LSOC方式相比本发明中的方式F1值下降了2.17%。这个结果可能是因为将两个实体的类型特征拼接并不能很好的表示它们之间的关系,而类型标记和实体标记信息有一定重复。通过实验验证,本发明所构建的实体类型关系矩阵能够较好的表示不同类型之间的关系特征,提高模型判断实体关系的能力。
为了进一步验证模型效果,本发明在所有的基线模型上都做了与Our model方法相同改动,实验参数与之前相同,实验结果如下所示。
通过图3-图5可以观察到:总体而言,与其他基线模型相比,大部分改进后的模型在CMeIE数据集上关系抽取部分的F1值比对比模型都高。改进后的模型分别比BERT-wmm模型高3.6%,比BERT-wwm-ext模型高1.41%,比RoBERTa-wwm-ext模型高1.11%,比ALBERT-tiny模型低0.75%,比MacBERT模型高2.58%。通过基线模型与改进后模型的对比实验可以看出,本发明所提方法在不同模型上都有一定效果,验证了本发明有一定的可扩展性和可迁移性。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (4)

1.基于类型关联特征增强的领域文本实体关系抽取方法,其特征在于:所述实体关系抽取方法包括如下步骤:
Step1、构建领域词典;
Step2、将实体所对应的所有字符特征融合得到实体特征,并构建实体类型关系矩阵得到实体对的类型关联特征;
Step3、将句子中实体所对应的字符特征求和,得到句子中头、尾实体的特征,通过交互门控机制将其与头、尾实体的类型关联特征拼接,得到融合类型关联特征的实体对特征;
Step4、通过交叉熵损失函数计算损失,使用argmax( )函数将融合类型关联特征的实体对特征解码,预测实体关系;
所述Step2中,得到句子的字符编码后将其输入到BERT编码器训练得到字符特征,将实体所对应的所有字符特征融合得到实体特征,并构建实体间关系参数矩阵来学习表示类型间关系;
所述Step2具体包括如下:
Step2.1、对于输入的文本序列
Figure QLYQS_1
,其中xm表示句子中的第m个字符;通过实体位置坐标确定实体位置,并在实体的开始和结束位置前后打标得到标记后的文本序列
Figure QLYQS_2
,头实体开始位置前标记<s>、头实体结束位置前标记</s>、尾实体开始位置前标记<o>、尾实体结束位置前标记</o>;同时,得到标记后的新实体位置坐标
Figure QLYQS_3
,其中/>
Figure QLYQS_4
表示<s>标记坐标,/>
Figure QLYQS_5
表示</s>标记坐标,/>
Figure QLYQS_6
表示<o>标记坐标,/>
Figure QLYQS_7
表示</o>标记坐标;
Step2.2、然后,将文本序列
Figure QLYQS_8
通过BERT的字符编码索引/>
Figure QLYQS_9
得到对应的编码序列
Figure QLYQS_10
,再将其输入到BERT编码器中获得训练后的字符特征序列/>
Figure QLYQS_11
Step2.3、得到句子的头、尾实体后在包含类型信息的领域词汇索引
Figure QLYQS_12
中检索得到头尾实体词的类型/>
Figure QLYQS_13
Step2.4、获取词汇类型间的关联特征,通过构建一个实体类型关系矩阵
Figure QLYQS_14
来表示类型间的关联特征,不同类型两两之间都对应一个关联特征:
Figure QLYQS_15
(1)
其中
Figure QLYQS_16
为词汇类型数量,/>
Figure QLYQS_17
表示隐藏层维度,/>
Figure QLYQS_18
表示第j个头实体的实体类型,
Figure QLYQS_19
表示第j个尾实体的实体类型,/>
Figure QLYQS_20
表示二者之间的关联特征。
2.根据权利要求1所述的基于类型关联特征增强的领域文本实体关系抽取方法,其特征在于:所述Step1中,构建包含词汇类别信息的词典,词典数据来源于搜集的领域文本及数据集的训练集信息,以“词汇,词汇类别”的格式储存;在获得文本中包含的词汇后,根据词典匹配对应的类别并获得Word2vec训练的词向量以及类别向量。
3.根据权利要求1所述的基于类型关联特征增强的领域文本实体关系抽取方法,其特征在于:所述Step3具体包括如下:
Step3.1、将句子中实体所对应的字符特征求和,得到句子中头、尾实体的特征,根据头、尾实体
Figure QLYQS_21
的开始与结束坐标/>
Figure QLYQS_22
,将BERT编码器输出的训练好的字符特征序列/>
Figure QLYQS_23
中实体所对应的所有字符特征求和,得到句子的头、尾实体特征/>
Figure QLYQS_24
Step3.2、在得到头、尾实体特征
Figure QLYQS_25
后将二者拼接得到实体对特征,将实体对特征与类型关联特征融合拼接;使用一个交互门控机制来获得融合后的实体对表示
Figure QLYQS_26
,并进行线性变换,得到最终的实体对特征/>
Figure QLYQS_27
,其中/>
Figure QLYQS_28
表示数据集的关系数量。
4.根据权利要求1所述的基于类型关联特征增强的领域文本实体关系抽取方法,其特征在于:所述Step4具体包括如下:
Step4.1、在得到最终的实体对特征
Figure QLYQS_29
后,通过交叉熵损失函数来计算损失,具体计算如下:
Figure QLYQS_30
(2)
其中
Figure QLYQS_31
是实体对的标签值;
Step4.2、最后,使用argmax函数将融合类型关联特征的实体对特征解码,预测实体关系;
Figure QLYQS_32
(3)
其中
Figure QLYQS_33
表示模型预测的实体对类型标签。
CN202310440331.6A 2023-04-23 2023-04-23 基于类型关联特征增强的领域文本实体关系抽取方法 Active CN116167368B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310440331.6A CN116167368B (zh) 2023-04-23 2023-04-23 基于类型关联特征增强的领域文本实体关系抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310440331.6A CN116167368B (zh) 2023-04-23 2023-04-23 基于类型关联特征增强的领域文本实体关系抽取方法

Publications (2)

Publication Number Publication Date
CN116167368A CN116167368A (zh) 2023-05-26
CN116167368B true CN116167368B (zh) 2023-06-27

Family

ID=86413507

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310440331.6A Active CN116167368B (zh) 2023-04-23 2023-04-23 基于类型关联特征增强的领域文本实体关系抽取方法

Country Status (1)

Country Link
CN (1) CN116167368B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116757159B (zh) * 2023-08-15 2023-10-13 昆明理工大学 一种端到端的多任务联合篇章级事件抽取方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555083A (zh) * 2019-08-26 2019-12-10 北京工业大学 一种基于zero-shot无监督实体关系抽取方法
CN110825827A (zh) * 2019-11-13 2020-02-21 北京明略软件系统有限公司 一种实体关系识别模型训练、实体关系识别方法及装置
CN112052685A (zh) * 2020-09-11 2020-12-08 河南合众伟奇云智科技有限公司 一种基于二维时序网络的端到端文本实体关系识别方法
CN113486667A (zh) * 2021-07-26 2021-10-08 辽宁工程技术大学 一种基于实体类型信息的医疗实体关系联合抽取方法
CN113887211A (zh) * 2021-10-22 2022-01-04 中国人民解放军战略支援部队信息工程大学 基于关系导向的实体关系联合抽取方法及系统
CN115293149A (zh) * 2022-08-05 2022-11-04 国家电网有限公司大数据中心 一种实体关系识别方法、装置、设备及存储介质
CN115545033A (zh) * 2022-10-18 2022-12-30 昆明理工大学 融合词汇类别表征的中文领域文本命名实体识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555083A (zh) * 2019-08-26 2019-12-10 北京工业大学 一种基于zero-shot无监督实体关系抽取方法
CN110825827A (zh) * 2019-11-13 2020-02-21 北京明略软件系统有限公司 一种实体关系识别模型训练、实体关系识别方法及装置
CN112052685A (zh) * 2020-09-11 2020-12-08 河南合众伟奇云智科技有限公司 一种基于二维时序网络的端到端文本实体关系识别方法
CN113486667A (zh) * 2021-07-26 2021-10-08 辽宁工程技术大学 一种基于实体类型信息的医疗实体关系联合抽取方法
CN113887211A (zh) * 2021-10-22 2022-01-04 中国人民解放军战略支援部队信息工程大学 基于关系导向的实体关系联合抽取方法及系统
CN115293149A (zh) * 2022-08-05 2022-11-04 国家电网有限公司大数据中心 一种实体关系识别方法、装置、设备及存储介质
CN115545033A (zh) * 2022-10-18 2022-12-30 昆明理工大学 融合词汇类别表征的中文领域文本命名实体识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Relation Classfication with Entity Type Restriction;Shengfei Lyu;《arXiv:2105.08393v1》;1-6 *
融合细粒度实体类型的多特征关系分类算法;左亚尧;《计算机工程与应用 》;第58卷(第22期);1-5 *

Also Published As

Publication number Publication date
CN116167368A (zh) 2023-05-26

Similar Documents

Publication Publication Date Title
Liu et al. Learning to generate questions by learningwhat not to generate
CN112989005B (zh) 一种基于分阶段查询的知识图谱常识问答方法及系统
CN109871538A (zh) 一种中文电子病历命名实体识别方法
CN111241294B (zh) 基于依赖解析和关键词的图卷积网络的关系抽取方法
CN112183094B (zh) 一种基于多元文本特征的中文语法查错方法及系统
CN111178074A (zh) 一种基于深度学习的中文命名实体识别方法
CN108052499A (zh) 基于人工智能的文本纠错方法、装置及计算机可读介质
CN111914556B (zh) 基于情感语义转移图谱的情感引导方法及系统
CN116167368B (zh) 基于类型关联特征增强的领域文本实体关系抽取方法
CN115292463B (zh) 一种基于信息抽取的联合多意图检测和重叠槽填充的方法
CN113032568A (zh) 一种基于bert+bilstm+crf并融合句型分析的查询意图识别方法
CN114492441A (zh) 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN117076653A (zh) 基于思维链及可视化提升上下文学习知识库问答方法
CN115544279A (zh) 一种基于协同注意力的多模态情感分类方法及其应用
CN115545033A (zh) 融合词汇类别表征的中文领域文本命名实体识别方法
CN113536799B (zh) 基于融合注意力的医疗命名实体识别建模方法
Li et al. LSTM-based deep learning models for answer ranking
CN117573843A (zh) 一种基于知识校准和检索增强的医疗辅助问答方法及系统
CN116341557A (zh) 一种糖尿病医学文本命名实体识别方法
CN111222325A (zh) 一种双向栈式循环神经网络的医疗语义标注方法和系统
CN116595994A (zh) 基于提示学习的矛盾信息预测方法、装置、设备及介质
CN115859978A (zh) 基于Roberta部首增强适配器的命名实体识别模型及方法
CN115906855A (zh) 一种字词信息融合的中文地址命名实体识别方法及装置
CN115964475A (zh) 一种用于医疗问诊的对话摘要生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant