CN113723074A - 一种基于证据检验增强的文档级关系抽取方法 - Google Patents
一种基于证据检验增强的文档级关系抽取方法 Download PDFInfo
- Publication number
- CN113723074A CN113723074A CN202110993094.7A CN202110993094A CN113723074A CN 113723074 A CN113723074 A CN 113723074A CN 202110993094 A CN202110993094 A CN 202110993094A CN 113723074 A CN113723074 A CN 113723074A
- Authority
- CN
- China
- Prior art keywords
- document
- relationship
- evidence
- relation
- representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种基于证据检验增强的文档级关系抽取方法,该方法构建基于证据检验增强的文档级关系抽取模型,模型包括关系抽取模块和证据验证模块;通过联合训练的方式,使证据验证模块引导关系抽取模块关注对于关系判断更为重要的信息;由于采用了证据验证的方式利用证据信息,避免了直接使用证据进行关系抽取可能产生的错误传播问题,从而提高了文档级关系抽取的准确率。
Description
技术领域
本发明提供一种文档级关系抽取技术,具体涉及一种基于证据检验增强的文档级关系抽取方法,属于自然语言处理中的信息抽取技术领域。
背景技术
关系抽取是自然语言处理领域最基本的问题之一,得益于近年来深度学习技术的发展,基于神经网络的模型在传统句子级关系抽取数据集上取得了较好的成绩,其中包括基于CNN(Convolution Neural Network,卷积神经网络)的模型,以及基于LSTM(LongShort-Term Memory,长短期记忆网络)的模型,Cai等人(2016)、Guo等人(2019)、Mandya等人(2020)尝试在神经网络模型中加入依存关系(Dependency Parsing)等结构信息。由于在应用场景中,实体与实体之间的关系往往是由多句话表达,即有可能存在需要跨句推理得出的关系,基于句子级别的模型在此场景下性能会受到较大的局限。因此,近年来研究者开始探索长文档场景下的关系抽取。
现有的文档级关系抽取模型中,Xie等人提出了证据增强的文档级关系抽取模型EIDER,该模型对文档中的关系和证据进行联合抽取,再以证据为中心进行关系抽取,以证据为中心的抽取结果与原始文档的抽取结果进行融合得到最终抽取出的关系信息。然而,这种做法中的证据抽取模块会产生额外的噪声,若在第一步中抽取出的证据存在错误,则会将错误传递到后续的模型训练及预测中。
发明内容
为了克服上述现有技术的不足,本发明提供一种基于证据检验增强的文档级关系抽取方法,针对自然语言处理中信息抽取现有技术存在的句法信息中的噪声问题,通过在文档级关系抽取模块后引入证据检验模块,通过梯度回传的方式自动更新关系抽取模块的模型参数,使之更加关注关系抽取所需的关键信息,避免直接使用证据预测结果导致的错误传递问题。
为方便起见,以下列出本发明相关术语名称及含义:
文档级关系抽取:关系抽取(Relation Extraction)旨在判断非结构化文本中实体之间的关系,作为信息抽取最重要的子任务之一,其结果能够应用于问答系统、对话系统、阅读理解等下游任务,是许多更为复杂的自然语言处理技术的基石。另一方面,由于实体关系也是知识图谱的重要组成部分,因此关系抽取在大规模知识图谱的自动构建过程中也扮演着重要的角色。文档级关系抽取可以形式化描述为:对于给定的包含N个句子的文档和实体集合其中代表第i个句子包含Mi个单词,表示文档总长度,和mj表示第i个实体的第j次提及(mention),文档级关系抽取旨在抽取E中不同实体之间的关系,即得到集合{(ei,rij,ej)|ei,ej∈E,rij∈R},其中R是预先定义的关系集合。
证据:文档级关系抽取面临着以下难点:如何判断文档中的哪些语句有助于判断两个实体之间的关系,如果引入冗余的信息进行实体关系的判断并不一定起到正面作用,实体之间的关系可能仅通过一两句话即可判断,例如可以仅通过第2、4、7句话判断“ZestAirways,Inc.”与“Philippines”之间存在“国家”的关系,我们称这些句子为“证据”(evidence)。对于文档中的两个实体,其关系往往可以通过一两句关键的“证据”(Evidence)得出,而文档中的其他信息往往是不必要的噪声。从这一点出发,我们设计了证据检验的辅助任务来帮助模型找到并更加关注于判断两实体之间关系的关键信息。证据检验任务可以形式化描述为:给定文档和两个实体es,eo,证据预测旨在判断句子si是否为支撑es,eo之间关系r的证据,即二分类任务。
预训练语言模型:近年来,以GPT-2和BERT为代表的预训练语言模型(PretrainedLanguage Models)在自然语言处理领域得到了大规模的应用。目前大多数预训练语言模型基于Transformer架构,通过设置预训练任务,使用大规模无标注语料进行预训练(Pretrain),在应用于下游任务时,仅需要在预训练语言模型上叠加特定任务所需的层,进行微调(fine-tune)后即可取得较好效果。BERT基于Transformer架构,通过掩码语言模型(Masked Language Model)和下一句话预测(Next Sentence Prediction)两个预训练任务,在海量无标注数据上进行预训练,最终在GLUE自然语言处理任务中取得了当时最好的成绩。
本发明通过证据检验的方式,增强现有文档级关系抽取模型寻找关键信息的能力,从而提高文档级关系抽取的效果。
本发明的核心是:对于一篇文档,首先使用基于预训练语言模型的关系抽取模块抽取其中存在的关系信息,然后将关系信息输入证据验证模块,得到该关系在文中对应的证据,将预测出的证据与标准答案计算损失函数,通过神经网络梯度回传的方式,证据检验模块引导关系抽取模块关注对于关系判断更为重要的信息。
本发明提供的技术方案是:
一种基于证据检验增强的文档级关系抽取方法,构建基于句法指导的文本命名实体信息识别模型,模型包括基于预训练语言模型的关系抽取模块(由下述的A、B、C、D步骤组成)、证据验证模块(由下述的E、F、G、H步骤组成),最终采用联合训练的方式共同训练两个模块。其中,基于预训练语言模型的关系抽取模块首先对输入的文档进行编码,得到每一个词的结合了上下文信息的向量表示,然后经过一系列运算得到对实体之间关系的预测;证据验证模块根据关系抽取模块得到的关系,在原文档中寻找对应的证据信息;最终采用联合训练的方式,证据验证模块通过梯度回传的方式提高关系抽取模块关系判断的准确性。上述方法通过对关系抽取模块结果进行证据验证的方式,使得证据结果反过来指导关系抽取模块关注对于关系判断更为重要的信息,并且巧妙地弥补了前人工作中证据预测结果错误传播问题;包括如下步骤:
1)构建关系抽取模块,得到文档中所有实体对之间的关系概率;包括步骤A~D:
A.获取文档中每一个单词结合了上下文的嵌入表示;
给定一篇文档si为文档D中的句子,N为文档中的句子数,wij为句子si中的单词,Mi为si包含的单词个数,我们将其输入预训练语言模型BERT得到结合了上下文的嵌入:H=[h1,h2,…,hl]=BERT([w1,w2,…,wl]),表示文档总长度;
D.通过上述过程得到了两个实体es和eo以及对应的嵌入表示和为了得到关系的概率,首先使用线性层和非线性激活函数tanh得到其隐藏状态,然后再通过双线性函数以及sigmoid函数得到最终关系分类的概率:
2)构建证据检验模块,根据关系抽取模块得到的实体之间的关系预测结果,得到文档中能够支撑该关系判断的证据;包括步骤E~H:
E.获取文档中每一个单词新的结合了上下文的嵌入表示;
类似于关系抽取模块,给定一篇文档si为文档D中的句子,N为文档中的句子数,wij为句子si中的单词,Mi为si包含的单词个数,我们将其输入预训练语言模型BERT得到结合了上下文的嵌入:H′=[h′1,h′2,…,h′l]=表示文档总长度。
F.根据文档的嵌入表示[h′1,h′2,…,h′l],通过logsumexp池化得到每一句的表示:
其中M为句子si所含的单词数
H.通过双线性函数以及sigmoid函数得到第i句话是支撑两实体es和eo之间存在关系r′的证据的概率:
3)关系抽取模块和证据验证模块同时训练,包括步骤:
I.根据模型预测结果计算损失函数,再通过最大似然估计的方式来求解模型参数,损失函数如下:
Loss=LossRE+λ*LossEvi
其中λ>0为权重超参数,用于对两个任务的损失函数进行权衡。最终通过梯度下降优化算法迭代地找到损失函数的最小值完成神经网络的参数训练过程。其中证据验证模块将梯度回传给关系抽取模块,辅助关系抽取模块更新参数,使之更加关注关系判断所需的重要信息。
4)训练完成后,舍弃证据验证模块,关系抽取模块即可用来做预测,由于两个实体之间可能存在多种关系,因此我们人工设置阈值θ,如果P(r|es,eo)>θ,即输出关系(es,r,eo)。
通过上述步骤,实现基于证据验证的文档级关系抽取。
与现有技术相比,本发明的有益技术效果:
通过本发明所提供的基于证据验证的文档级关系抽取技术,在利用证据信息对关系抽取结果进行验证,从而增强关系抽取模块关注重要信息能力的同时,避免了自然语言处理中信息抽取中抽取出的证据的错误传递问题,降低了直接使用证据引入噪声对关系抽取影响,提高了关系抽取模型的表现,提高关系抽取的准确性。
附图说明
图1是本发明提供的基于证据检验增强的文档级关系抽取模型的总体结构示意图。其中,从左至右分别为模型的关系抽取模块和证据验证模块;
图2是本发明提供文本命名实体信息方法的流程框图。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提供了基于证据检验增强的文档级关系抽取方法,构建基于证据检验增强的文档级关系抽取模型,模型包括关系抽取模块和证据验证模块;通过联合训练的方式,使证据验证模块引导关系抽取模块关注对于关系判断更为重要的信息;由于采用了证据验证的方式利用证据信息,避免了直接使用证据进行关系抽取可能产生的错误传播问题,从而提高了文档级关系抽取的准确率。
具体实施时,我们模型的实现基于PyTorch和Huggingface Transformers库,我们使用BERT-base作为预训练语言模型。二分类层中实体隐藏状态为768维,损失函数证据预测权重为1e-3。模型使用AdamW优化器,BERT学习率为5e-5,微调层学习率为1e-4,优化器在前6%的步数中进行预热,模型的梯度以1.0的比率进行截断。所有超参数均在验证集上进行测试。在推断时,对于关系分类和证据预测的阈值均设置为0.5。
本发明的具体实施方式,其模型总框架如图1所示,包括关系抽取模块和证据验证模块。
训练样本包括文档级关系抽取数据样本,具体来说是DocRed文档级关系抽取数据集。
此数据集包括了6个实体类别:人物(PER)、组织(ORG)、地点(LOC)、时间(TIME)、数字(NUM)、杂项(MISC),以及96个关系类别,包括政府首脑、出生地、首都、包含等关系。数据集一共包括了101873条训练数据(在train.json文件中)、1000条验证数据(在dev.json文件中)和1000条测试数据(在test.json文件中)。
以train.json为例,数据分为四个字段:title、sents、vertexSet和labels,其中title字段代表文档的标题,sents字段代表文档中的句子,vertexSet字段代表文档中出现的实体,labels字段代表实体之间存在的关系。
例如:
其中,vertexSet表示文档中所有的实体,同一个实体可能会在文档中出现多次;{"name":"Lark Force","pos":[0,2],"sent_id":0,"type":"ORG"},表示实体名是“LarkForce”,所在位置是文档中第0个句子的0~2个单词(注:下标从0开始计数,下同),实体类型是组织(ORG);labels表示文档中实体之间的关系;{"r":"P607","h":1,"t":3,"evidence":[0]},表示头实体是vertexSet中的第一个实体,尾实体是vertexSet中的第3个实体,头尾实体之间存在“发生冲突”(P607,conflict)的关系,能够支撑该关系判断的句子是文档中的第0句话。
基于证据检验增强的文档级关系抽取模型的训练和预测包括以下步骤:
A.获取文档中每一个单词结合了上下文的嵌入表示;
给定一篇文档si为文档D中的句子,N为文档中的句子数,wij为句子si中的单词,Mi为si包含的单词个数,我们将其输入预训练语言模型BERT得到结合了上下文的嵌入:H=[h1,h2,…,hl]=BERT([w1,w2,…,wl]),表示文档总长度;
函数以及sigmoid函数得到最终关系分类的概率:
E.获取文档中每一个单词新的结合了上下文的嵌入表示;
类似于关系抽取模块,给定一篇文档si为文档D中的句子,N为文档中的句子数,wij为句子si中的单词,Mi为si包含的单词个数,我们将其输入预训练语言模型BERT得到结合了上下文的嵌入:H′=[h′1,h′2,…,h′l]=BERT([w1,w2,…,wl]),表示文档总长度。
F.根据文档的嵌入表示[h′1,h′2,…,h′l],通过logsumexp池化得到每一句的表示:
H.通过双线性函数以及sigmoid函数得到第i句话是支撑两实体es和eo之间存在关系r′的证据的概率:
I.根据模型预测结果计算损失函数,再通过最大似然估计的方式来求解模型参数,损失函数如下:
Loss=LossRE+λ*LossEvi
其中λ>0为权重超参数,用于对两个任务的损失函数进行权衡。最终通过梯度下降优化算法迭代地找到损失函数的最小值完成神经网络的参数训练过程。其中证据验证模块将梯度回传给关系抽取模块,辅助关系抽取模块更新参数,使之更加关注关系判断所需的重要信息。
训练完成后,舍弃证据验证模块,关系抽取模块即可用来做预测,由于两个实体之间可能存在多种关系,因此我们人工设置阈值θ,如果P(r|es,eo)>θ,即输出关系(es,r,eo)。
通过上述步骤,实现基于证据验证增强的文档级关系抽取。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
Claims (5)
1.一种基于证据检验增强的文档级关系抽取方法,包括如下步骤:
1)构建关系抽取模块,得到文档中所有实体对之间的关系概率;包括步骤A~D:
A.获取文档中每一个单词结合了上下文的嵌入表示;
2)构建证据检验模块,根据关系抽取模块得到的实体之间的关系预测结果,得到文档中能够支撑该关系判断的证据;包括步骤E~H:
E.获取文档中每一个单词新的结合了上下文的嵌入表示;
类似于关系抽取模块,给定一篇文档si为文档D中的句子,N为文档中的句子数,wij为句子si中的单词,Mi为si包含的单词个数,H′=[h′1,h′2,…,h′l]=BERT([w1,w2,…,wl]),表示文档总长度,N为文档中的句子数;
F.根据文档的嵌入表示[h′1,h′2,…,h′l],通过logsumexp池化得到每一句的表示,其中M为句子si所含的单词数:
H.通过双线性函数以及sigmoid函数得到第i句话是支撑两实体es和eo之间存在关系r′的证据的概率:
3)关系抽取模块和证据验证模块同时训练,包括步骤:
I.根据模型预测结果计算损失函数,再通过最大似然估计的方式来求解模型参数,损失函数如下:
Loss=LossRE+λ*LossEvi
其中λ>0为权重超参数,用于对两个任务的损失函数进行权衡,最终通过梯度下降优化算法迭代地找到损失函数的最小值完成神经网络的参数训练过程;
4)训练完成后,人工设置阈值θ,如果P(r|es,eo)>θ,即输出关系(es,r,eo),通过上述步骤,实现基于证据验证的文档级关系抽取。
2.如权利要求1所述基于证据验证增强的文档级关系抽取方法,其特征是,步骤A中,通过预训练语言模型BERT得到文档结合了上下文的嵌入。
5.如权利要求1所述基于证据验证增强的文档级关系抽取方法,其特征是,具体实现基于PyTorch和Huggingface Transformers库,使用BERT-base作为预训练语言模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110993094.7A CN113723074B (zh) | 2021-08-27 | 2021-08-27 | 一种基于证据检验增强的文档级关系抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110993094.7A CN113723074B (zh) | 2021-08-27 | 2021-08-27 | 一种基于证据检验增强的文档级关系抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113723074A true CN113723074A (zh) | 2021-11-30 |
CN113723074B CN113723074B (zh) | 2023-04-18 |
Family
ID=78678350
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110993094.7A Active CN113723074B (zh) | 2021-08-27 | 2021-08-27 | 一种基于证据检验增强的文档级关系抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113723074B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140250045A1 (en) * | 2013-03-01 | 2014-09-04 | International Business Machines Corporation | Authoring system for bayesian networks automatically extracted from text |
US20180082183A1 (en) * | 2011-02-22 | 2018-03-22 | Thomson Reuters Global Resources | Machine learning-based relationship association and related discovery and search engines |
CN109783797A (zh) * | 2018-12-11 | 2019-05-21 | 北京百度网讯科技有限公司 | 语义关系的抽取方法、装置、设备及存储介质 |
CN111324743A (zh) * | 2020-02-14 | 2020-06-23 | 平安科技(深圳)有限公司 | 文本关系抽取的方法、装置、计算机设备及存储介质 |
CN115358234A (zh) * | 2022-07-14 | 2022-11-18 | 北京理工大学 | 基于图卷积网络与关系证据互指导的篇章关系抽取方法 |
-
2021
- 2021-08-27 CN CN202110993094.7A patent/CN113723074B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180082183A1 (en) * | 2011-02-22 | 2018-03-22 | Thomson Reuters Global Resources | Machine learning-based relationship association and related discovery and search engines |
US20140250045A1 (en) * | 2013-03-01 | 2014-09-04 | International Business Machines Corporation | Authoring system for bayesian networks automatically extracted from text |
CN109783797A (zh) * | 2018-12-11 | 2019-05-21 | 北京百度网讯科技有限公司 | 语义关系的抽取方法、装置、设备及存储介质 |
CN111324743A (zh) * | 2020-02-14 | 2020-06-23 | 平安科技(深圳)有限公司 | 文本关系抽取的方法、装置、计算机设备及存储介质 |
CN115358234A (zh) * | 2022-07-14 | 2022-11-18 | 北京理工大学 | 基于图卷积网络与关系证据互指导的篇章关系抽取方法 |
Non-Patent Citations (3)
Title |
---|
KEVIN HUANG, ETC: "Entity and Evidence Guided Relation Extraction for DocRED", 《ARXIV:2008.12283V1 [CS.CL] 27 AUG 2020》 * |
YIQING XIE, ETC: "EIDER: Evidence-enhanced Document-level Relation Extraction", 《ARXIV:2106.08657V1 [CS.CL] 16 JUN 2021》 * |
YUAN YAO, ETC.: "DocRED: A Large-Scale Document-Level Relation Extraction Dataset" * |
Also Published As
Publication number | Publication date |
---|---|
CN113723074B (zh) | 2023-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230028944A1 (en) | Dialogue generation method and network training method and apparatus, storage medium, and device | |
CN113255755B (zh) | 一种基于异质融合网络的多模态情感分类方法 | |
CN112818691A (zh) | 命名实体识别模型训练方法及装置 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN109857846B (zh) | 用户问句与知识点的匹配方法和装置 | |
CN111506732B (zh) | 一种文本多层次标签分类方法 | |
CN114973062A (zh) | 基于Transformer的多模态情感分析方法 | |
CN112699682A (zh) | 一种基于可组合弱认证器的命名实体识别方法和装置 | |
CN109933792A (zh) | 基于多层双向lstm和验证模型的观点型问题阅读理解方法 | |
CN112364125B (zh) | 一种联合阅读课程学习机制的文本信息抽取系统及方法 | |
Radzikowski et al. | Dual supervised learning for non-native speech recognition | |
CN117421595A (zh) | 一种基于深度学习技术的系统日志异常检测方法及系统 | |
CN115687609A (zh) | 一种基于Prompt多模板融合的零样本关系抽取方法 | |
CN117094325B (zh) | 水稻病虫害领域命名实体识别方法 | |
Shin et al. | End-to-end task dependent recurrent entity network for goal-oriented dialog learning | |
CN112287119B (zh) | 一种在线资源相关信息抽取的知识图谱生成方法 | |
CN117312562A (zh) | 内容审核模型的训练方法、装置、设备及存储介质 | |
Kassawat et al. | Incorporating joint embeddings into goal-oriented dialogues with multi-task learning | |
CN113723074B (zh) | 一种基于证据检验增强的文档级关系抽取方法 | |
CN115204143A (zh) | 一种基于prompt的文本相似度计算方法及系统 | |
CN115034302A (zh) | 优化信息融合策略的关系抽取方法、装置、设备及介质 | |
CN114333790A (zh) | 数据处理方法、装置、设备、存储介质及程序产品 | |
CN117521674B (zh) | 对抗信息的生成方法、装置、计算机设备和存储介质 | |
CN115114433B (zh) | 语言模型的训练方法、装置、设备及存储介质 | |
CN116227484B (zh) | 模型训练方法、装置、设备、存储介质和计算机程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |