CN116167368A - 基于类型关联特征增强的领域文本实体关系抽取方法 - Google Patents
基于类型关联特征增强的领域文本实体关系抽取方法 Download PDFInfo
- Publication number
- CN116167368A CN116167368A CN202310440331.6A CN202310440331A CN116167368A CN 116167368 A CN116167368 A CN 116167368A CN 202310440331 A CN202310440331 A CN 202310440331A CN 116167368 A CN116167368 A CN 116167368A
- Authority
- CN
- China
- Prior art keywords
- entity
- features
- type
- character
- tail
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 51
- 238000000034 method Methods 0.000 claims abstract description 52
- 230000007246 mechanism Effects 0.000 claims abstract description 18
- 230000004927 fusion Effects 0.000 claims abstract description 12
- 230000002452 interceptive effect Effects 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims description 23
- 239000011159 matrix material Substances 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 10
- 239000003550 marker Substances 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 3
- 238000011282 treatment Methods 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 abstract description 6
- 238000012512 characterization method Methods 0.000 abstract description 3
- 230000010365 information processing Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 7
- 201000010099 disease Diseases 0.000 description 6
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 208000019505 Deglutition disease Diseases 0.000 description 4
- 208000000461 Esophageal Neoplasms Diseases 0.000 description 4
- 206010030155 Oesophageal carcinoma Diseases 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 201000004101 esophageal cancer Diseases 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 208000019022 Mood disease Diseases 0.000 description 3
- 201000009916 Postpartum depression Diseases 0.000 description 3
- 230000000873 masking effect Effects 0.000 description 3
- 208000024891 symptom Diseases 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000007526 fusion splicing Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 240000002657 Thymus vulgaris Species 0.000 description 1
- 235000007303 Thymus vulgaris Nutrition 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000002526 effect on cardiovascular system Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 239000001585 thymus vulgaris Substances 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明涉及基于类型关联特征增强的领域文本实体关系抽取方法,属于实体关系抽取技术领域。本发明包括步骤:首先,构建包含类型表征的领域词典;然后,通过交互门控机制将词汇类型间关系表征与头、尾实体表征融合;最后,使用argmax( )函数将融合类型关联特征的实体对特征解码,预测实体关系。本发明在中文医疗信息处理挑战榜CBLUE上的中文医学文本实体关系抽取数据集(CMeIE)上进行了实验,结果表明本发明的性能相比其他基模型获得了明显提高。
Description
技术领域
本发明涉及基于类型关联特征增强的领域文本实体关系抽取方法,属于实体关系抽取技术领域。
背景技术
实体关系是隐藏在大量文本中的重要知识,通过实体之间的关系人们可以获得事物之间的联系,构建知识网络。关系知识以三元组的形式表现。例如,在句子“吞咽困难是食道癌最常见的症状”中蕴含三元组(食道癌,吞咽困难,临床表现),其中头实体是“食道癌”、关系是“临床表现”、尾实体是“吞咽困难”。这一对三元组可以表明吞咽困难是食道癌的临床表现。关系抽取的任务就在于从文本中抽取实体关系三元组。早期的关系抽取通常是给定文本及文本中的两个实体,判断实体之间的关系。一组三元组包括头实体、尾实体以及它们之间关系,但一段文本中可能只有一对实体关系,也有可能包含多对实体关系,一个实体可能与两个不同实体有着不同的关系。
目前,关系抽取的主要研究内容是基于神经网络的关系抽取(neural networkrelationship extraction,NRE)模型,神经网络可以从文本中自动提取语义特征。和传统方法相比,NRE主要使用词嵌入和位置嵌入而不是人工特征作为输入。词嵌入是NLP中最常见的输入表示,它通过将语义编码成向量来实现对单个词的处理。通过位置嵌入,可以精确地定义一个词与另一个实体之间的距离,从而更好地捕捉文本中的细节信息。NRE研究的重点是利用各种网络架构来捕捉文本中的关系语义。其中,卷积神经网络(CNN)可以有效地模拟局部文本模式;循环神经网络(RNN)可以更好地处理长序列数据;图形神经网络(GNN)可以用来构建单词/实体图进行推理;注意力机制可以使神经网络聚集全局关系信息。例如,Dligach等人将CNN和LSTM的输出融合在不同类型的注释序列上,得到了一个集成的分类器,在THYME数据集上取得了良好的效果;Christopoulou等人将BiLSTM与注意力机制和转化器分别应用于句内和句间实体关系的提取;通过将图递归网络(GRN)和BiLSTM技术相结合,Song等人大大提升了BiLSTM模型的准确率。最近,Transformer和预训练的语言模型例如BERT也被用于NRE,取得了新的顶级性能。Xue等人利用基于BERT的Attention机制实现了命名实体识别和实体关系抽取的多任务处理。
大多数传统的关系抽取任务是对一个句子中两个给定实体之间的关系进行预测。然而,一个句子可能包含不止一对实体关系,且一个实体可能与多个实体有不同的关系。因此,目前在关系提取方面的许多工作都集中在如何预测句子中多个头、尾实体之间的关系。例如,Wei等人提出了一个重叠三元组抽取方法,其中一个头或尾实体与多个实体有不同的关系。Chen 等人通过重新标记噪声解决了远距离监督三元组抽取中的噪声问题。
目前,一些深度学习模型如CNN、RNN、LSTM等被广泛用于领域的关系提取。例如,张等人把卷积神经网络与支持向量机、条件随机场相结合,构建了联合神经网络模型用于实体及关系抽取;赵等人提出了基于预训练模型的混合神经网络方法;Lai等人提出了基于知识增强的生物医学实体关系抽取模型,可以利用外部知识辅助模型预测;Wang 等人提出了一个基于语料库统计的模型框架,使医学文本关系提取可解释化;武等人提出了基于全词mask的BERT卷积神经网络(BERT(wwm)-CNN)模型用于提升中文心血管医疗语料中关系抽取的性能。这些工作都取得了较好的效果,但他们没有很好地利用实体类别关联信息。实体类别对确定关系有很大帮助,利用类别关联信息可以提高关系抽取性能。
针对上述问题,本发明提出了一种基于类型关联特征增强的领域文本实体关系抽取方法。在公开的CBLUE-CMeIE中文医学实体关系抽取数据集上,本发明方法与一系列基线方法进行了比较,实验结果证明本发明方法在实体关系抽取任务上的有效性。
发明内容
本发明提供了基于类型关联特征增强的领域文本实体关系抽取方法,将实体标记与实体所有字符特征融合来得到实体特征,并使用实体类型关联特征来指导关系抽取,在一定程度上弥补了以往工作中实体信息不完整,忽略实体类型信息进行字符表示增强的不足,提升了实体关系抽取的性能。
本发明的技术方案是:基于类型关联特征增强的领域文本实体关系抽取方法,所述基于类型关联特征增强的领域文本实体关系抽取方法包括如下步骤:
Step1、构建领域词典;
Step2、将实体所对应的所有字符特征融合得到实体特征,并构建实体类型关系矩阵得到实体对的类型关联特征;
Step3、将句子中实体所对应的字符特征求和,得到句子中头、尾实体的特征,通过交互门控机制将其与头、尾实体的类型关联特征拼接,得到融合类型关联特征的实体对特征;
Step4、通过交叉熵损失函数计算损失,使用argmax( )函数将融合类型关联特征的实体对特征解码,预测实体关系。
作为本发明的进一步方案,所述Step1中,构建包含词汇类别信息的领域词典,词典数据来源于搜集的领域文本及数据集的训练集信息,以“词汇,词汇类别”的格式储存;在获得文本中包含的词汇后,根据词典匹配对应的类别并获得Word2vec训练的词向量以及类别向量。对于输入的文本序列,分别获取字符向量,匹配的词汇向量/>及其类别向量/>,具体步骤如下:
Step1.1、对于字符嵌入,使用在语料上所训练的字符向量来作为字符的初始嵌入,具体做法为:根据训练好的 character embedding lookup table,在基于标准分词后的中文语料库Gigaword上使用Word2vec工具训练的嵌入集合;由此将字符映射到字符嵌入表示/>及语言模型bigram嵌入表示/>;其中,Character embedding lookuptable可以翻译为:字符嵌入索引;字符嵌入是一种将字符表示为固定长度的实数向量的方法,可以捕捉字符之间的相似性和语义信息;Character embedding lookup table是一个矩阵,其中每一行对应一个字符,每一列对应一个嵌入维度;矩阵的大小由字符集的大小和嵌入维度的大小决定;Character embedding lookup table可以作为一个可训练的参数,在神经网络模型中进行学习和更新,也可以使用预训练的字符嵌入来初始化查找表;
若词汇没有找到对应的类别,则将其映射为一个固定的随机初始化的嵌入表示。
作为本发明的进一步方案,所述Step2中,将实体所对应的所有字符特征融合得到实体特征,并构建实体类型关系矩阵得到实体对的类型关联特征;在此步骤,得到句子的字符编码并将其输入到BERT编码器训练得到字符特征,将实体所对应的所有字符特征融合得到实体特征,并构建实体间关系参数矩阵来学习表示类型间关系。具体步骤如下:
Step2.1、对于原始输入的文本序列,其中xm表示句子中的第m个字符,通过实体位置坐标确定实体位置,并在实体的开始和结束位置前后打标得到标记后的文本序列/>,具体地,头实体开始位置前标记<s>、头实体结束位置前标记</s>、尾实体开始位置前标记<o>、尾实体结束位置前标记</o>。例如句子“区分产后抑郁症与轻度情绪失调是重要的”中,头实体为“产后抑郁症”,尾实体为“轻度情绪失调”,标记后的句子为“区分<s>产后抑郁症</s>与<o>轻度情绪失调</o>是重要的”。同时,得到标记后新的实体位置坐标/>,其中/>表示<s>标记坐标,/>表示</s>标记坐标,/>表示<o>标记坐标,/>表示</o>标记坐标。
Step2.4、为了获得词汇类型间的关联特征,通过构建一个实体类型关系矩阵来表示类型间的关联特征,不同类型两两之间都对应一个关联特征。其中/>为词汇类型数量,/>表示隐藏层维度。例如,若头实体类型为疾病,类型编号为/>,尾实体类型为症状,类型编号为/>,则输入文本序列中头、尾实体的实体类型关系特征/>就表示了疾病类型与症状类型之间的关系信息。通过这个实体类型关系矩阵,得到实体对的类型关系特征/>来表示不同类型之间的关系特征。
作为本发明的进一步方案,所述Step3中,将句子中实体所对应的字符特征求和,得到句子中头、尾实体的特征,通过交互门控机制将其与头、尾实体的类型关联特征拼接,得到融合类型关联特征的实体对特征;具体步骤如下:
Step3.1、将句子中实体所对应的字符特征求和,得到句子中头、尾实体的特征,根据头、尾实体的开始与结束坐标/>,将BERT编码器输出的训练好的字符特征序列/>中实体所对应的所有字符特征求和,得到句子的头、尾实体特征/>,具体的计算过程如下。
Step3.2、在得到头、尾实体特征后将二者拼接得到实体对特征/>,将实体对特征/>与类型关联特征/>融合拼接,为了动态控制实体对特征和类型关联特征的贡献,使用一个交互门控机制来获得融合后的实体对表示/>,并进行线性变换,得到最终的实体对特征/>,其中/>表示数据集的关系数量。
作为本发明的进一步方案,所述Step4中,通过交叉熵损失函数计算损失,使用argmax( )函数将融合类型关联特征的实体对特征解码,预测实体关系。具体步骤如下:
Step4.2、最后,使用argmax函数将融合类型关联特征的实体对特征解码,预测实体关系。
本发明的有益效果是:
本发明首先构建包含类型表征的领域词典;然后,通过交互门控机制将词汇类型间关系表征与头、尾实体表征融合;最后,使用argmax( )函数将融合类型关联特征的实体对特征解码,预测实体关系。在公开的中文医学文本实体关系抽取数据集(CMeIE)上,本发明方法与一系列基线方法进行了比较,本发明的性能相比其他基模型获得了明显提高,实验结果证明了本发明方法在实体关系抽取任务上的有效性。
附图说明
图1为本发明中基于类型关联特征增强的领域文本实体关系抽取模型框架;
图2为本发明中不同的实体特征提取方式;
图3为本发明方法迁移应用到各基线模型上,改进前后的F1值对比示意图;
图4为本发明方法迁移应用到各基线模型上,改进前后的准确率对比示意图;
图5为本发明方法迁移应用到各基线模型上,改进前后的召回率对比示意图。
具体实施方式
实施例1,一种基于类型关联特征增强的领域文本实体关系抽取方法,针对本发明提出的以上方法在中文医学文本实体关系抽取数据集(CMeIE)上进行实验,本发明所使用的数据来自于中文医疗信息处理挑战榜CBLUE(Chinese Biomedical LanguageUnderstanding Evaluation)的关系抽取数据集CMeIE。CMeIE包含疾病、药物、手术治疗、身体等11类医疗领域实体。这个数据集收录了518种儿科疾病的训练语料,以及109种常见疾病的训练语料。三元组数据接近7.5万条,疾病语句接近2.8万条和定义好的关系有53种。数据集统计见表1。
本发明实验环境为Windows系统下基于Python 3.7 的深度学习框架Pytoch1.7.1进行构建。模型训练过程中,学习率设置为3e-5,训练batch_size设置为32,验证batch_size设置为32,adam_epsilon设置为1e-8,hidden设置为768。
设置评价指标,关系抽取主要有三个可量化的评价指标:Precision (P)、Recall(R)和F1-score (F1)。实体和关系抽取任务可以分别进行评价。P度量关系抽取模型正确识别关系的能力,R度量关系抽取模型识别关系的能力,F1取两者的调和均值。
其中,TP表示模型正确识别关系数量,FP表示模型错误识别的关系数量,FN表示模型未识别的关系数量。
所述方法的具体步骤如下:
Step1、构建包含词汇类别信息的词典,词典数据来源于搜集的领域文本及数据集的训练集信息,以“词汇,词汇类别”的格式储存;在获得文本中包含的词汇后,根据词典匹配对应的类别并获得Word2vec训练的词向量以及类别向量。
Step2、对于原始输入文本序列,其中xm表示句子中的第m个字符,通过实体位置坐标确定实体位置,并分别在头尾实体的开始和结束位置打上特殊标记,具体地,头实体开始位置前标记<s>、头实体结束位置前标记</s>、尾实体开始位置前标记<o>、尾实体结束位置前标记</o>,由此得到新的序列/>,然后将其通过BERT的字符编码索引得到对应的字符编码序列,再将其输入到BERT编码器中获得训练后的字符特征序列;进一步地,将句子的头尾实体在包含类型信息的领域词汇索引中检索得到头尾实体词的类型,而后,构建一个实体类型关系矩阵,得到实体对的类型关系特征来表示不同类型之间的关联特征。
Step3、将句子中实体所对应的字符特征求和,得到句子中头、尾实体的特征,根据头、尾实体的开始与结束坐标/>,将BERT编码器输出的训练好的字符特征序列/>中实体所对应的所有字符特征求和,得到句子的头、尾实体特征/>;进一步地,在得到头、尾实体特征/>后将二者拼接得到实体对特征/>,将实体对特征/>与类型关联特征/>融合拼接,为了动态控制实体对特征和类型关联特征的贡献,使用一个交互门控机制来获得融合后的实体对表示/>,并进行线性变换,得到最终的实体对特征/>,其中/>表示数据集的关系数量。
Step5、为了验证本发明所提出的模型的有效性,选择了与本发明相关的深度学习模型作为基线模型,主要是基于BERT的关系抽取模型,具体如下:
BERT-wwm:wwm 是全词掩码Whole Word Masking的缩写,该模型改变了原有的训练样本生成策略,使得整个词汇表示能力得到了极大的提升。与BERT相比,Mask标签可以替代一个完整的词,这与英文不同。中文中最小的token是一个字,在中文中词所包含的信息相比字更多。因此,在掩码字的同时,保证一个词内的所有字都被掩码,可以使模型更好地理解语义,NLP中的mask是一种技术,是专业术语,NLP中的mask机制是一种在预训练或训练过程中对输入序列进行部分遮盖的方法。mask机制的目的是为了让模型只关注有意义的部分,忽略无意义或未来的部分,从而提高模型的性能和泛化能力;或者为了让模型学习到更深层次的语义信息。
BERT-wwm-ext:相比于BERT-wwm的改进是它扩大了训练数据集,并还大幅提升了训练步数。
RoBERTa-wwm-ext:该模型将中文wwm技术以及RoBERTa模型结合。该模型包含如下特点:预训练阶段采用wwm策略进行mask,取消了Next Sentence Prediction(NSP),直接使用max_len=512的数据进行预训练并延长训练步数。
ALBERT-tiny:该模型能够有效地减少内存占用,并且能够提升BERT训练的效率。ALBERT使用嵌入分解和跨层参数共享来减少参数。除此之外,还提出了一种新的句序预测任务(SOP)以提高模型的准确性。
MacBERT:该模型是引入了一种纠错型掩码语言模型(MLM as correction,Mac)的预训练任务,缓解了预训练和微调阶段的不一致问题。MacBERT的核心思想是用与被掩码单词相似的单词来替换原来的单词,而不是用[MASK]标记。这样可以使模型更好地学习语义信息,避免被[MASK]标记干扰,该模型通过使用与被mask单词相似的单词替换原来的单词,而不是使用[MASK]标记。通过使用基于word2vec的同义词工具包,模型能够计算出与实际单词相似度的词汇。如果没有类似的词汇,就可以通过使用随机词汇来代替。
表2展示了在CMeIE数据集上,本发明模型与基线模型的实验结果对比,可以观察到:与其他基线模型相比,本发明模型在CMeIE数据集上有更高的关系抽取性能。通过对比,本发明模型的F1值最高,分别比BERT-wmm模型高3.6%,比BERT-wwm-ext模型高2.5%,比RoBERTa-wwm-ext模型高1.8%,比ALBERT-tiny模型高6.8%,比MacBERT模型高2.9%,验证基于类型关联特征增强的领域文本实体关系抽取方法有效的提高了模型的关系抽取能力。
Step6、在关系抽取任务中,对于句子中实体对的特征提取有着不同的提取方法。如图2所示,其中一种方法如图2中(a)所示,选择头、尾实体前的标记特征作为实体特征,将实体标签特征拼接作为实体对特征;一种如图中(b)所示,将头、尾实体分别对应的所有字符特征融合起来作为实体特征,再将其拼接作为实体对特征;本发明提出的方式如图中(c)所示,将实体前后的标记特征以及实体所对应的所有字符特征融合作为实体特征,再将两个实体的特征拼接作为实体对特征。本发明提出的方法不仅使用了实体标记信息,还保留了实体全部字符的信息,使得实体特征更为完整。
为了验证本发明提出的实体特征提取方法,类型关系表征等模型各个部分的效果,分别设计了以下模型进行消融实验。
(1) w/o allchar-typerela-gate:利用BERT提取句子的上下文信息,使用头、尾实体标记<s>,<o>的特征融合作为实体对特征,且w/o allchar-typerela-gate表示没有使用allchar、typerela和gate这三种特征的模型。allchar是使用实体前后的标记以及实体所对应的所有字符特征融合作为实体特征;typerela是使用实体类型关系的特征,gate是使用门控机制来融合特征。
(2) w/o allchar:利用外部领域词典获得领域术语的类型作为补充信息,在BERT-tab的基础上融入实体类型关联特征。
(3) w/o label:将实体所对应的所有字符特征融合作为实体特征,并融入实体类型关联特征。
(4) w/o typerela:在BERT-tab的基础上,将实体前后的标记<s>,</s>以及实体所对应的所有字符特征融合作为实体特征,相关组合方式如公式所示。
(5) w/o gate:将实体前后的标记<s>,</s>以及实体所对应的所有字符特征融合作为实体特征,并融入实体类型关系特征。
(6) Our model:将实体前后的标记<s>,</s>以及实体所对应的所有字符特征融合作为实体特征,并通过交互门控机制融入实体类型关系特征,相关组合方式如公式所示。
实验参数与之前保持一致,实验结果如下所示。
表3展示了以w/o allchar-typerela-gate作为基线模型的实验结果。表3中的实验结果显示,与其他模型相比,w/o allchar-typerela-gate的所有评价指标表现都较差。从表中各个模型的F1值对比可以看出,基于保留完整实体表征和词汇类型关联表征的模型性能均高于基线模型。这一现象展示了完整词汇信息以及词汇类型关联信息对于关系抽取任务确实是有效的。
与w/o allchar-typerela-gate相比,利用外部领域词典获得领域术语类型信息,将实体类型关联特征融入模型的w/o allchar方法获得较好的效果,这一现象表示了利用词汇类型关联信息的有效性。与w/o allchar相比,w/o label使用实体全部字符特征作为实体特征性能有所下降,这可能是因为只使用单纯的字符特征效果不如实体标记特征。而将实体前后标记<s>,</s>以及实体所对应的所有字符特征融合作为实体特征的w/o gate方法在P、R、F1值上效果都更好,这说明实体标记特征以及实体所有字符特征都是有效的信息。而在w/o gate的基础上加入交互门控机制来平衡实体对特征与词汇类型关联特征的贡献后,Our model相比w/o gate又有提高,这一现象显示了门控机制对于不同特征的融合是有效的。
为了验证不同的实体标记与实体字符特征融合方式,设计了以下实验进行验证,实验结果如表4所示。
ENTREP_SLS:将实体的开始标记特征与实体所对应的所有字符特征求和,作为实体特征。
ENTREP_SLC:将实体所对应的所有字符特征求和,再与实体的开始标记特征拼接作为实体特征。
Our model:将实体的开始及结束标记特征与实体所对应的所有字符特征求和作为实体特征。
通过表4可以观察到,ENTREP_SLS方式效果最差,F1值下降了2.63%;ENTREP_SLC方式较好一些,但相比本发明使用的方式F1值下降了2.17%。这个结果可能是因为BERT模型是双向的,实体的前后标记都有实体的特征信息,因此本发明将实体的开始及结束标记特征与实体所对应的所有字符特征求和作为实体特征的方式保留了更完整的实体信息,模型效果更好。
为了验证不同的类型关系特征提取方式,设计以下实验进行验证,实验结果如表5所示。
TYPEREL_SOC:将头实体和尾实体随机初始化的类型嵌入拼接作为实体类型关系特征。
TYPEREL_LSOC:在实体开始标记前插入实体的类型标记,将头实体和尾实体的类型标记嵌入拼接作为实体类型关系特征。
Our model:构建实体类型关系矩阵,不同类型两两之间都对应一个关系特征。将头实体类型、尾实体类型所对应的关系特征作为实体类型关系特征。
通过表5可以观察到,TYPEREL_SOC方式相比本发明中的方式F1值下降了1.63%;TYPEREL_LSOC方式相比本发明中的方式F1值下降了2.17%。这个结果可能是因为将两个实体的类型特征拼接并不能很好的表示它们之间的关系,而类型标记和实体标记信息有一定重复。通过实验验证,本发明所构建的实体类型关系矩阵能够较好的表示不同类型之间的关系特征,提高模型判断实体关系的能力。
为了进一步验证模型效果,本发明在所有的基线模型上都做了与Our model方法相同改动,实验参数与之前相同,实验结果如下所示。
通过图3-图5可以观察到:总体而言,与其他基线模型相比,大部分改进后的模型在CMeIE数据集上关系抽取部分的F1值比对比模型都高。改进后的模型分别比BERT-wmm模型高3.6%,比BERT-wwm-ext模型高1.41%,比RoBERTa-wwm-ext模型高1.11%,比ALBERT-tiny模型低0.75%,比MacBERT模型高2.58%。通过基线模型与改进后模型的对比实验可以看出,本发明所提方法在不同模型上都有一定效果,验证了本发明有一定的可扩展性和可迁移性。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (6)
1.基于类型关联特征增强的领域文本实体关系抽取方法,其特征在于:所述实体关系抽取方法包括如下步骤:
Step1、构建领域词典;
Step2、将实体所对应的所有字符特征融合得到实体特征,并构建实体类型关系矩阵得到实体对的类型关联特征;
Step3、将句子中实体所对应的字符特征求和,得到句子中头、尾实体的特征,通过交互门控机制将其与头、尾实体的类型关联特征拼接,得到融合类型关联特征的实体对特征;
Step4、通过交叉熵损失函数计算损失,使用argmax( )函数将融合类型关联特征的实体对特征解码,预测实体关系。
2.根据权利要求1所述的基于类型关联特征增强的领域文本实体关系抽取方法,其特征在于:所述Step1中,构建包含词汇类别信息的词典,词典数据来源于搜集的领域文本及数据集的训练集信息,以“词汇,词汇类别”的格式储存;在获得文本中包含的词汇后,根据词典匹配对应的类别并获得Word2vec训练的词向量以及类别向量。
3.根据权利要求1所述的基于类型关联特征增强的领域文本实体关系抽取方法,其特征在于:所述Step2中,得到句子的字符编码后将其输入到BERT编码器训练得到字符特征,将实体所对应的所有字符特征融合得到实体特征,并构建实体间关系参数矩阵来学习表示类型间关系。
4.根据权利要求3所述的基于类型关联特征增强的领域文本实体关系抽取方法,其特征在于:所述Step2具体包括如下:
Step2.1、对于输入的文本序列,其中xm表示句子中的第m个字符;通过实体位置坐标确定实体位置,并在实体的开始和结束位置前后打标得到标记后的文本序列,头实体开始位置前标记<s>、头实体结束位置前标记</s>、尾实体开始位置前标记<o>、尾实体结束位置前标记</o>;同时,得到标记后的新实体位置坐标,其中/>表示<s>标记坐标,/>表示</s>标记坐标,/>表示<o>标记坐标,/>表示</o>标记坐标;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310440331.6A CN116167368B (zh) | 2023-04-23 | 2023-04-23 | 基于类型关联特征增强的领域文本实体关系抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310440331.6A CN116167368B (zh) | 2023-04-23 | 2023-04-23 | 基于类型关联特征增强的领域文本实体关系抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116167368A true CN116167368A (zh) | 2023-05-26 |
CN116167368B CN116167368B (zh) | 2023-06-27 |
Family
ID=86413507
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310440331.6A Active CN116167368B (zh) | 2023-04-23 | 2023-04-23 | 基于类型关联特征增强的领域文本实体关系抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116167368B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116757159A (zh) * | 2023-08-15 | 2023-09-15 | 昆明理工大学 | 一种端到端的多任务联合篇章级事件抽取方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110555083A (zh) * | 2019-08-26 | 2019-12-10 | 北京工业大学 | 一种基于zero-shot无监督实体关系抽取方法 |
CN110825827A (zh) * | 2019-11-13 | 2020-02-21 | 北京明略软件系统有限公司 | 一种实体关系识别模型训练、实体关系识别方法及装置 |
CN112052685A (zh) * | 2020-09-11 | 2020-12-08 | 河南合众伟奇云智科技有限公司 | 一种基于二维时序网络的端到端文本实体关系识别方法 |
CN113486667A (zh) * | 2021-07-26 | 2021-10-08 | 辽宁工程技术大学 | 一种基于实体类型信息的医疗实体关系联合抽取方法 |
CN113887211A (zh) * | 2021-10-22 | 2022-01-04 | 中国人民解放军战略支援部队信息工程大学 | 基于关系导向的实体关系联合抽取方法及系统 |
CN115293149A (zh) * | 2022-08-05 | 2022-11-04 | 国家电网有限公司大数据中心 | 一种实体关系识别方法、装置、设备及存储介质 |
CN115545033A (zh) * | 2022-10-18 | 2022-12-30 | 昆明理工大学 | 融合词汇类别表征的中文领域文本命名实体识别方法 |
-
2023
- 2023-04-23 CN CN202310440331.6A patent/CN116167368B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110555083A (zh) * | 2019-08-26 | 2019-12-10 | 北京工业大学 | 一种基于zero-shot无监督实体关系抽取方法 |
CN110825827A (zh) * | 2019-11-13 | 2020-02-21 | 北京明略软件系统有限公司 | 一种实体关系识别模型训练、实体关系识别方法及装置 |
CN112052685A (zh) * | 2020-09-11 | 2020-12-08 | 河南合众伟奇云智科技有限公司 | 一种基于二维时序网络的端到端文本实体关系识别方法 |
CN113486667A (zh) * | 2021-07-26 | 2021-10-08 | 辽宁工程技术大学 | 一种基于实体类型信息的医疗实体关系联合抽取方法 |
CN113887211A (zh) * | 2021-10-22 | 2022-01-04 | 中国人民解放军战略支援部队信息工程大学 | 基于关系导向的实体关系联合抽取方法及系统 |
CN115293149A (zh) * | 2022-08-05 | 2022-11-04 | 国家电网有限公司大数据中心 | 一种实体关系识别方法、装置、设备及存储介质 |
CN115545033A (zh) * | 2022-10-18 | 2022-12-30 | 昆明理工大学 | 融合词汇类别表征的中文领域文本命名实体识别方法 |
Non-Patent Citations (2)
Title |
---|
SHENGFEI LYU: "Relation Classfication with Entity Type Restriction", 《ARXIV:2105.08393V1》, pages 1 - 6 * |
左亚尧: "融合细粒度实体类型的多特征关系分类算法", 《计算机工程与应用 》, vol. 58, no. 22, pages 1 - 5 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116757159A (zh) * | 2023-08-15 | 2023-09-15 | 昆明理工大学 | 一种端到端的多任务联合篇章级事件抽取方法及系统 |
CN116757159B (zh) * | 2023-08-15 | 2023-10-13 | 昆明理工大学 | 一种端到端的多任务联合篇章级事件抽取方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116167368B (zh) | 2023-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Learning to generate questions by learningwhat not to generate | |
CN112989005B (zh) | 一种基于分阶段查询的知识图谱常识问答方法及系统 | |
CN111241294B (zh) | 基于依赖解析和关键词的图卷积网络的关系抽取方法 | |
CN109871538A (zh) | 一种中文电子病历命名实体识别方法 | |
CN112183094B (zh) | 一种基于多元文本特征的中文语法查错方法及系统 | |
CN111178074A (zh) | 一种基于深度学习的中文命名实体识别方法 | |
CN108052499A (zh) | 基于人工智能的文本纠错方法、装置及计算机可读介质 | |
CN111914556B (zh) | 基于情感语义转移图谱的情感引导方法及系统 | |
CN116167368B (zh) | 基于类型关联特征增强的领域文本实体关系抽取方法 | |
CN110826334A (zh) | 一种基于强化学习的中文命名实体识别模型及其训练方法 | |
CN113032568A (zh) | 一种基于bert+bilstm+crf并融合句型分析的查询意图识别方法 | |
CN115292463B (zh) | 一种基于信息抽取的联合多意图检测和重叠槽填充的方法 | |
CN112612871B (zh) | 一种基于序列生成模型的多事件检测方法 | |
CN117076653B (zh) | 基于思维链及可视化提升上下文学习知识库问答方法 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN115545033A (zh) | 融合词汇类别表征的中文领域文本命名实体识别方法 | |
Li et al. | LSTM-based deep learning models for answer ranking | |
CN113536799A (zh) | 基于融合注意力的医疗命名实体识别建模方法 | |
CN111274826B (zh) | 一种基于语义信息融合的低频词翻译方法 | |
Sun et al. | On tracking dialogue state by inheriting slot values in mentioned slot pools | |
CN116341557A (zh) | 一种糖尿病医学文本命名实体识别方法 | |
CN111222325A (zh) | 一种双向栈式循环神经网络的医疗语义标注方法和系统 | |
CN115859978A (zh) | 基于Roberta部首增强适配器的命名实体识别模型及方法 | |
CN115906855A (zh) | 一种字词信息融合的中文地址命名实体识别方法及装置 | |
CN115964475A (zh) | 一种用于医疗问诊的对话摘要生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |