CN112966527B - 一种基于自然语言推理的关系抽取模型的生成方法 - Google Patents

一种基于自然语言推理的关系抽取模型的生成方法 Download PDF

Info

Publication number
CN112966527B
CN112966527B CN202110429116.7A CN202110429116A CN112966527B CN 112966527 B CN112966527 B CN 112966527B CN 202110429116 A CN202110429116 A CN 202110429116A CN 112966527 B CN112966527 B CN 112966527B
Authority
CN
China
Prior art keywords
layer
relationship
model
hypothesis
inference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202110429116.7A
Other languages
English (en)
Other versions
CN112966527A (zh
Inventor
彭涛
胡文斐
孙雨鹏
吴禹
张睿鑫
刘志成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN202110429116.7A priority Critical patent/CN112966527B/zh
Publication of CN112966527A publication Critical patent/CN112966527A/zh
Application granted granted Critical
Publication of CN112966527B publication Critical patent/CN112966527B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开的属于自动化识别技术领域,具体为一种基于自然语言推理的关系抽取模型的生成方法的生成方法,其包括:DescriptionLayer;EncoderLayer;InferenceLayer;ClassificationLayer。本发明在公开的数据集SemEval 2010Task‑8上与目前较为先进的四个模型进行对比试验:1)基于GCN的FAT‑RE模型,2)基于CNN和注意力机制的Att‑Pooling‑CNN模型,3)基于BERT的R‑BERT模型,4)基于BERT的KnowBERT模型,从而使该模型整合了知识库中的信息,且本模型的F1分数达到90.1%,高于其他四个模型,说明本模型通过构造关系描述和多损失函数叠加,有效地提升了模型的性能,向模型中注入了先验知识,并在推理的过程中。

Description

一种基于自然语言推理的关系抽取模型的生成方法
技术领域
本发明涉及自动化识别技术领域,具体为一种基于自然语言推理的关系抽取模型的生成方法。
背景技术
中国科学院模式识别自动化研究所提出了PCNN模型,通过卷积神经网络和最大池化来抽取实体之间的关系,同时引入了基于多示例学习的远程监督,缓解了数据不足的问题。由于传统RNN并行性较差,谷歌提出了完全基于注意力机制的编码解码器Transformer,在加快运算速度的同时也提升了模型的精度。阿里巴巴提出了R-BERT模型,通过使用两个实体以及Bert特殊标记CLS所代表的词向量作为关系向量表示,取得了良好的效果。华为的REDN模型通过使用非对称核内积函数来计算两个实体之间的相关性,从而使用矩阵而非向量来表示实体之间的关系。
但是,目前主流的关系抽取方法存在以下问题:
1)将关系提取任务视为一个简单的分类问题,并在目标句子中进行。由于目标句子可能无法提供足够的证据和信息,因此它们的性能受到限制。
2)在向模型注入额外信息是,现有方法往往采取预训练的方式,或者通过自然语言处理工具来注入信息,这使得模型需要更多的训练时间以及额外的数据集,同时模型的性能还会依赖自然语言处理工具的性能。
提出了一个新的框架来处理关系抽取任务。当面临期末考试时,选择题总是比填空题更容易被接受。这主要归因于选择题中的选择可能编码着一些关键的信息和证据。与以往采用多重分类策略不同,本文将关系抽取视为一个选择题。为此,通过为每个关系创建描述来给模型提供选择,其中这些描述被视为假设。然后以给定的目标句和实体对为前提,将目标句与所有关系描述分别匹配,形成前提假设对列表。对于所有的前提假设对,模型将前提和假设之间的关系分为两类,即(蕴涵,不蕴涵),从而推断是否可以从前提中归纳出假设。最后,通过选择一个可信度最高的假设,模型自然地确定了目标句所表达的关系。的框架很自然地处理了以前工作中存在的信息不足问题。通过为模型提供显式设计的关系描述来注入先验知识。同时的方法不需要额外的数据集来进行预训练。
发明内容
本部分的目的在于概述本发明的实施方式的一些方面以及简要介绍一些较佳实施方式。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
为解决上述技术问题,根据本发明的一个方面,本发明提供了如下技术方案:
一种基于自然语言推理的关系抽取模型的生成方法,其包括:
1)描述层DescriptionLayer:该层模型结构的最底层,通过向输入中注入额外的知识来增强模型,每个关系都有一个模板描述,使用关系描述模板将一个目标句子映射到r个前提假设句子对,r为关系类型总数;其中原始目标句子被视为前提,而关系描述则被视为假设;
2)编码器层EncoderLayer:该层对应模型结构中Encoder and InferenceLayer的一部分,在描述层之后,在编码器层将前提假设句子对中的每个词转换为固定长度的向量,以获得每个前提假设句子对的向量表示,所有的r个前提假设对将被分别编码;
3)推理层InferenceLayer:该层对应模型结构中Encoder and InferenceLayer的一部分,使用编码器层生成的句子表示句子向量表示,推理层根据前提推断假设是否成立,对于每个前提假设句子对,此层都会生成类别entailment和not_entailment的置信度得分;
4)分类层ClassificationLayer:本层对应模型结构的最上层,分类层可以利用每个关系对应前提假设对的置信度得分,通过选择置信度最高的关系来给出目标句子表达哪种关系的预测。
作为本发明所述的基于自然语言推理的关系抽取模型的一种优选方案,其中:在DescriptionLayer中构造关系描述模板,对于每种关系类型,都有一个关系描述模板,关系描述表示相应关系的含义以注入先验知识,包括以下步骤:
将目标句子与关系描述相结合以形成前提假设对,为了将实体信息并入目标句子中,每个关系描述模板具有一个插槽对(s1,s2),与针对目标句子执行的操作相同,还在两个位置附近添加了实体标记以强调实体信息,通过将目标句子P中的实体对(e1,e2)填充到(s1,s2)中,可以从模板生成假设列表H1,...,Hr,其中r是关系类型的数量,H1,...,Hr表示关系1,...,r的假设,对于每个关系,将前提P与相应的假设结合起来,以获得所有的前提假设对{(P,H1),...,(P,Hr)},前提假设对的数量与关系类型的数量r一致。
作为本发明所述的基于自然语言推理的关系抽取模型的一种优选方案,其中:模型中基于关系描述中包含的先验知识和常识,推断目标句子与关系描述之间的关系,从而获得前提假设对是否成立的置信度,包括以下步骤:
在的推理层中,模型首先通过编码层获得P和H的表示,然后通过注意力机制构造工作内存,答案模块将使用基于工作记忆的多步推理策略来计算P和H之间的置信度得分,将编码器层的输出上下文表示hP作为前提的工作记忆,并且类似的将作为假设的工作记忆,基于工作记忆
Figure GDA0003923029440000041
将假设的初始状态表示为s0,使用
Figure GDA0003923029440000042
中每个向量的加权和作为s0,以有选择地融合信息和过滤噪声;
Figure GDA0003923029440000043
Figure GDA0003923029440000044
其中ωH是训练期间学习的参数,对于每个推理步骤t∈{0,1,...,T-1},使用前提P的工作内存hp来计算前提xt的状态,根据前提条件在上一个推断步骤t-1中的状态st-1,模型通过前提工作存储器中所有矢量的加权和获得结果;
β=softmax(st-1ωPhP) (3)
xt=βhP (4)
其中ωP是训练期间学习的参数,在每个推理步骤中,使用前一步假设的状态st-1和前提的状态xt,通过门循环单元GRU逐步完善假设状态;
st=GRU(st-1,xt) (5)
在推理步骤t中计算关系预测
Figure GDA0003923029440000045
Figure GDA0003923029440000046
中的两个元素分别表示entailment和not_entailment的置信度得分,这表明根据前提,假设是否成立,
Figure GDA0003923029440000047
是使用st、xt、以及它们的差与和按元素乘积组合而成的;
Figure GDA0003923029440000048
其中W1和b1是训练期间学习的参数,对每个推理步骤t中的
Figure GDA0003923029440000049
进行平均,以
获得输出预测PT,所有
Figure GDA00039230294400000410
的聚合可以充分利用推断信息并提高鲁棒性;
Figure GDA00039230294400000411
作为本发明所述的基于自然语言推理的关系抽取模型的一种优选方案,其中:模型构造了分类层,以在训练时同时实现粗粒度的多分类损失和细粒度的二分类损失,在分类层计算多分类损失,并与推理层的二分类损失相结合,作为最终的损失函数,包括如下步骤:
在推理层之后,对于所有关系r和对应的(P,Hr),将其输出预测拼接,以形式化最终预测;
p=[p1,...,pr] (8)
对于所有前提假设对{(P,H1),...,(P,Hr)},在pentailment中获得entailment类的置信度得分,以及相似地,在pnot_entailment中获得not_entailment类的置信度得分,pentailment/pnot_entailment中的高分表示目标句子P表达/不表达对应的关系r,使用差pdiff来表示每个关系的置信度得分,然后在pdiff上应用完整的连接层,使用skip connect防止模型降级,将softmax应用于pdiff以输出在给定前提条件下关系类别的条件概率分布
Figure GDA0003923029440000051
pdiff=pentailment-pnot_entailment (9)
Figure GDA0003923029440000052
其中W2和b2是训练期间学习的参数,
Figure GDA0003923029440000053
是预测的关系类,在训练过程中,最小化的损失函数是推理损失和分类损失的组合,对于推理损失,在推理层中将每个前提假设对分类为(entailment,not_entailment),在前提假设对上计算二进制交叉熵,记为Ll,对于分类损失,得到了分类层中每个关系的目标句子的预测,关系类上的分类损失记为LC,可以通过将两个损失按权重相加在一起来获得最终损失函数L;
L=λ1Ll2LC (11)。
与现有技术相比:通过关系描述模板,对模型注入先验知识;通过多任务训练的方式,通过构造分类层,使模型同时拟合自然语言推理部分的损失函数和关系抽取部分的损失函数;将自然语言推理模型迁移到关系抽取领域的具体架构,该基于自然语言推理的关系抽取模型,本发明在公开的数据集SemEval 2010 Task-8上与目前较为先进的四个模型进行对比试验:1)基于GCN的FAT-RE模型,2)基于CNN和注意力机制的Att-Pooling-CNN模型,3)基于BERT的R-BERT模型,4)基于BERT的KnowBERT模型,从而使该模型整合了知识库中的信息,且本模型的F1分数达到90.1%,高于其他四个模型,说明本模型通过构造关系描述和多损失函数叠加,有效地提升了模型的性能,向模型中注入了先验知识,并在推理的过程中,根据关系描述来选择目标句子中的关键信息和过滤目标句子中的噪音。
附图说明
为了更清楚地说明本发明实施方式的技术方案,下面将结合附图和详细实施方式对本发明进行详细说明,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。其中:
图1为本发明的模型整体架构图;
图2为本发明的编码器层与推理器层结构图;
图3为本发明的分类器结构图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其他方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施方式的限制。
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明的实施方式作进一步的详细描述。
本发明提供一种基于自然语言推理的关系抽取模型的生成方法,本发明在公开的数据集SemEval 2010 Task-8上与目前较为先进的四个模型进行对比试验:1)基于GCN的FAT-RE模型,2)基于CNN和注意力机制的Att-Pooling-CNN模型,3)基于BERT的R-BERT模型,4)基于BERT的KnowBERT模型,从而使该模型整合了知识库中的信息,且本模型的F1分数达到90.1%,高于其他四个模型,说明本模型通过构造关系描述和多损失函数叠加,有效地提升了模型的性能,向模型中注入了先验知识,并在推理的过程中,根据关系描述来选择目标句子中的关键信息和过滤目标句子中的噪音;
请参阅图1、图2和图3;
1Description Layer(描述层):该层位于图1和模型结构的最底层,通过向输入中注入额外的知识来增强模型。每个关系都有一个模板描述。使用关系描述模板将一个目标句子映射到r个前提假设句子对,r为关系类型总数;其中原始目标句子被视为前提,而关系描述则被视为假设。
2Encoder Layer(编码器层):该层对应图1中Encoder and Inference Layer的一部分,具体流程如图2中Encoder Layer所示。在描述层之后,在编码器层将前提假设句子对中的每个词转换为固定长度的向量,以获得每个前提假设句子对的向量表示,所有的r个前提假设对将被分别编码。
3Inference Layer(推理层):该层对应图1中Encoder and Inference Layer的一部分,具体流程如图2中Inference Layer所示。使用编码器层生成的句子表示句子向量表示,推理层根据前提推断假设是否成立。对于每个前提假设句子对,此层都会生成类别entailment(蕴含)和not_entailment(不蕴含)的置信度得分。
4Classification Layer(分类层):本层对应图1和模型结构的最上层,具体流程如图3所示。分类层可以利用每个关系对应前提假设对的置信度得分,通过选择置信度最高的关系来给出目标句子表达哪种关系的预测。
请再次参阅图1、图2和图3,
1.在传统的关系提取任务中,主要有两个信息源。首先是上下文信息,其次是实体信息。在NLIRE中,可以通过编码器层获取上下文信息,并使用实体标记学习实体信息。在目标句子中的两个实体周围添加实体标记以强调实体信息。但是,尽管传统模型可以从目标句子中学习上下文和实体信息,但有关目标关系的信息可能还不够清楚。为了克服这个问题,在Description Layer中,本发明构造了关系描述模板。对于每种关系类型,都有一个关系描述模板。关系描述表示相应关系的含义以注入先验知识。
在具体实施时:将目标句子与关系描述相结合以形成前提假设对,为了将实体信息并入目标句子中,每个关系描述模板具有一个插槽对,与针对目标句子执行的操作相同,还在两个位置附近添加了实体标记以强调实体信息,通过将目标句子P中的实体对填充到中,可以从模板生成假设列表,其中r是关系类型的数量,H1,...,Hr表示关系1,...,r的假设,对于每个关系,将前提P与相应的假设结合起来,以获得所有的前提假设对,前提假设对的数量与关系类型的数量rr一致。
2.传统关系抽取模型主要是根据输入上下文来利用信息,而很少考虑到现实世界中有关于不同关系的常识,因此不足以使模型充分领会句子的含义。当模型需要常识时,此问题将阻止模型获得更好的性能,并影响模型的应用。针对这个问题,的模型可以基于关系描述中包含的先验知识和常识,推断目标句子与关系描述之间的关系,从而获得前提假设对是否成立的置信度。
在具体实施时:在的推理层中,模型首先通过编码层获得P和H的表示,然后通过注意力机制构造工作内存,答案模块将使用基于工作记忆的多步推理策略来计算P和H之间的置信度得分,将编码器层的输出上下文表示hP作为前提的工作记忆,并且类似的将作为假设的工作记忆,基于工作记忆
Figure GDA0003923029440000091
将假设的初始状态表示为s0,使用
Figure GDA0003923029440000092
中每个向量的加权和作为s0,以有选择地融合信息和过滤噪声;
Figure GDA00039230294400000911
Figure GDA0003923029440000093
其中ωH是训练期间学习的参数,对于每个推理步骤t∈{0,1,...,T-1},使用前提P的工作内存hp来计算前提xt的状态,根据前提条件在上一个推断步骤t-1中的状态st-1,模型通过前提工作存储器中所有矢量的加权和获得结果;
β=softmax(st-1ωPhP) (3)
xt=βhP (4)
其中ωP是训练期间学习的参数,在每个推理步骤中,使用前一步假设的状态st-1和前提的状态xt,通过门循环单元(GRU)逐步完善假设状态;
st=GRU(st-1,xt) (5)
在推理步骤t中计算关系预测
Figure GDA0003923029440000094
Figure GDA0003923029440000095
中的两个元素分别表示entailment和not_entailment的置信度得分,这表明根据前提,假设是否成立,
Figure GDA0003923029440000096
是使用st、xt、以及它们的差与和按元素乘积组合而成的;
Figure GDA0003923029440000097
其中W1和b1是训练期间学习的参数,对每个推理步骤t中的
Figure GDA0003923029440000098
进行平均,以
获得输出预测PT,所有
Figure GDA0003923029440000099
的聚合可以充分利用推断信息并提高鲁棒性;
Figure GDA00039230294400000910
3.针对传统关系抽取模型仅使用多分类损失的问题,本模型构造了分类层,以在训练时同时实现粗粒度的多分类损失和细粒度的二分类损失。本发明在分类层计算多分类损失,并与推理层的二分类损失相结合,作为最终的损失函数。
在具体实施时:在推理层之后,对于所有关系r和对应的(P,Hr),将其输出预测拼接,以形式化最终预测;
p=[p1,...,pr] (8)
对于所有前提假设对{(P,H1),...,(P,Hr)},在pentailment中获得entailment类的置信度得分,以及相似地,在pnot_entailment中获得not_entailment类的置信度得分,pentailment/pnot_entailment中的高分表示目标句子P表达/不表达对应的关系r,使用差pdiff来表示每个关系的置信度得分,然后在pdiff上应用完整的连接层,使用skip connect防止模型降级,将softmax应用于pdiff以输出在给定前提条件下关系类别的条件概率分布
Figure GDA0003923029440000101
pdiff=pentailment-pnot_entailment (9)
Figure GDA0003923029440000102
其中W2和b2是训练期间学习的参数,
Figure GDA0003923029440000103
是预测的关系类。在训练过程中,最小化的损失函数是推理损失和分类损失的组合,对于推理损失,在推理层中将每个前提假设对分类为(entailment,not_entailment),在前提假设对上计算二进制交叉熵,记为Ll,对于分类损失,得到了分类层中每个关系的目标句子的预测,关系类上的分类损失记为LC,可以通过将两个损失按权重相加在一起来获得最终损失函数L;
L=λ1Ll2LC (11)。
虽然在上文中已经参考实施方式对本发明进行了描述,然而在不脱离本发明的范围的情况下,可以对其进行各种改进并且可以用等效物替换其中的部件。尤其是,只要不存在结构冲突,本发明所披露的实施方式中的各项特征均可通过任意方式相互结合起来使用,在本说明书中未对这些组合的情况进行穷举性的描述仅仅是出于省略篇幅和节约资源的考虑。因此,本发明并不局限于文中公开的特定实施方式,而是包括落入权利要求的范围内的所有技术方案。

Claims (1)

1.一种基于自然语言推理的关系抽取模型的生成方法,其特征在于,包括:
1)描述层DescriptionLayer:该层模型结构的最底层,通过向输入中注入额外的知识来增强模型,每个关系都有一个模板描述,使用关系描述模板将一个目标句子映射到r个前提假设句子对,r为关系类型总数;其中原始目标句子被视为前提,而关系描述则被视为假设;
2)编码器层EncoderLayer:该层对应模型结构中Encoder and InferenceLayer的一部分,在描述层之后,在编码器层将前提假设句子对中的每个词转换为固定长度的向量,以获得每个前提假设句子对的向量表示,所有的r个前提假设对将被分别编码;
3)推理层InferenceLayer:该层对应模型结构中Encoder and InferenceLayer的一部分,使用编码器层生成的句子表示句子向量表示,推理层根据前提推断假设是否成立,对于每个前提假设句子对,此层都会生成类别entailment和not_entailment的置信度得分;
4)分类层ClassificationLayer:本层对应模型结构的最上层,分类层可以利用每个关系对应前提假设对的置信度得分,通过选择置信度最高的关系来给出目标句子表达哪种关系的预测;
在DescriptionLayer中构造关系描述模板,对于每种关系类型,都有一个关系描述模板,关系描述表示相应关系的含义以注入先验知识,包括以下步骤:
将目标句子与关系描述相结合以形成前提假设对,为了将实体信息并入目标句子中,每个关系描述模板具有一个插槽对(s1,s2),与针对目标句子执行的操作相同,还在两个位置附近添加了实体标记以强调实体信息,通过将目标句子P中的实体对(e1,e2)填充到(s1,s2)中,可以从模板生成假设列表H1,...,Hr,其中r是关系类型的数量,H1,...,Hr表示关系1,...,r的假设,对于每个关系,将前提P与相应的假设结合起来,以获得所有的前提假设对{(P,H1),...,(P,Hr)},前提假设对的数量与关系类型的数量r一致;
模型中基于关系描述中包含的先验知识和常识,推断目标句子与关系描述之间的关系,从而获得前提假设对是否成立的置信度,包括以下步骤:
在的推理层中,模型首先通过编码层获得P和H的表示,然后通过注意力机制构造工作内存,答案模块将使用基于工作记忆的多步推理策略来计算P和H之间的置信度得分,将编码器层的输出上下文表示hP作为前提的工作记忆,并且类似的将作为假设的工作记忆,基于工作记忆
Figure FDA0003923029430000021
将假设的初始状态表示为s0,使用
Figure FDA0003923029430000022
中每个向量的加权和作为s0,以有选择地融合信息和过滤噪声;
Figure FDA0003923029430000023
Figure FDA0003923029430000024
其中ωH是训练期间学习的参数,对于每个推理步骤t∈{0,1,...,T-1},使用前提P的工作内存hp来计算前提xt的状态,根据前提条件在上一个推断步骤t-1中的状态st-1,模型通过前提工作存储器中所有矢量的加权和获得结果;
β=softmax(st-1ωPhP) (3)
xt=βhP (4)
其中ωP是训练期间学习的参数,在每个推理步骤中,使用前一步假设的状态st-1和前提的状态xt,通过门循环单元GRU逐步完善假设状态;
st=GRU(st-1,xt) (5)
在推理步骤t中计算关系预测
Figure FDA0003923029430000025
Figure FDA0003923029430000026
中的两个元素分别表示entailment和not_entailment的置信度得分,这表明根据前提,假设是否成立,
Figure FDA0003923029430000027
是使用st、xt、以及它们的差与和按元素乘积组合而成的;
Figure FDA0003923029430000028
其中W1和b1是训练期间学习的参数,对每个推理步骤t中的
Figure FDA0003923029430000031
进行平均,以获得输出预测PT,所有
Figure FDA0003923029430000032
的聚合可以充分利用推断信息并提高鲁棒性;
Figure FDA0003923029430000033
模型构造了分类层,以在训练时同时实现粗粒度的多分类损失和细粒度的二分类损失,在分类层计算多分类损失,并与推理层的二分类损失相结合,作为最终的损失函数,包括如下步骤:
在推理层之后,对于所有关系r和对应的(P,Hr),将其输出预测拼接,以形式化最终预测;
p=[p1,...,pr] (8)
对于所有前提假设对{(P,H1),...,(P,Hr)},在pentailment中获得entailment类的置信度得分,以及相似地,在pnot_entailment中获得not_entailment类的置信度得分,pentailment/pnot_entailment中的高分表示目标句子P表达/不表达对应的关系r,使用差pdiff来表示每个关系的置信度得分,然后在pdiff上应用完整的连接层,使用skip connect防止模型降级,将softmax应用于pdiff以输出在给定前提条件下关系类别的条件概率分布
Figure FDA0003923029430000034
pdiff=pentailment-pnot_entailment (9)
Figure FDA0003923029430000035
其中W2和b2是训练期间学习的参数,
Figure FDA0003923029430000036
是预测的关系类,在训练过程中,最小化的损失函数是推理损失和分类损失的组合,对于推理损失,在推理层中将每个前提假设对分类为(entailment,not_entailment),在前提假设对上计算二进制交叉熵,记为Ll,对于分类损失,得到了分类层中每个关系的目标句子的预测,关系类上的分类损失记为LC,可以通过将两个损失按权重相加在一起来获得最终损失函数L;
L=λ1Ll2LC (11)。
CN202110429116.7A 2021-04-21 2021-04-21 一种基于自然语言推理的关系抽取模型的生成方法 Expired - Fee Related CN112966527B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110429116.7A CN112966527B (zh) 2021-04-21 2021-04-21 一种基于自然语言推理的关系抽取模型的生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110429116.7A CN112966527B (zh) 2021-04-21 2021-04-21 一种基于自然语言推理的关系抽取模型的生成方法

Publications (2)

Publication Number Publication Date
CN112966527A CN112966527A (zh) 2021-06-15
CN112966527B true CN112966527B (zh) 2022-12-30

Family

ID=76280999

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110429116.7A Expired - Fee Related CN112966527B (zh) 2021-04-21 2021-04-21 一种基于自然语言推理的关系抽取模型的生成方法

Country Status (1)

Country Link
CN (1) CN112966527B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113821571B (zh) * 2021-06-24 2024-04-26 华中农业大学 基于bert和改进pcnn的食品安全关系抽取方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108717574A (zh) * 2018-03-26 2018-10-30 浙江大学 一种基于连词标记和强化学习的自然语言推理方法
CN110111864A (zh) * 2019-04-15 2019-08-09 中山大学 一种基于关系模型的医学报告生成模型及其生成方法
CN111767409A (zh) * 2020-06-14 2020-10-13 南开大学 一种基于多头自注意力机制的实体关系抽取方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10241992B1 (en) * 2018-04-27 2019-03-26 Open Text Sa Ulc Table item information extraction with continuous machine learning through local and global models
CN109858032A (zh) * 2019-02-14 2019-06-07 程淑玉 融合Attention机制的多粒度句子交互自然语言推理模型
CN110969014B (zh) * 2019-11-18 2023-04-07 南开大学 一种基于同步神经网络的意见二元组抽取方法
CN112100348A (zh) * 2020-09-01 2020-12-18 武汉纺织大学 一种多粒度注意力机制的知识库问答关系检测方法及系统
CN112632996A (zh) * 2020-12-08 2021-04-09 浙江大学 一种基于对比学习的实体关系三元组抽取方法
CN112364125B (zh) * 2021-01-14 2021-06-25 杭州识度科技有限公司 一种联合阅读课程学习机制的文本信息抽取系统及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108717574A (zh) * 2018-03-26 2018-10-30 浙江大学 一种基于连词标记和强化学习的自然语言推理方法
CN110111864A (zh) * 2019-04-15 2019-08-09 中山大学 一种基于关系模型的医学报告生成模型及其生成方法
CN111767409A (zh) * 2020-06-14 2020-10-13 南开大学 一种基于多头自注意力机制的实体关系抽取方法

Also Published As

Publication number Publication date
CN112966527A (zh) 2021-06-15

Similar Documents

Publication Publication Date Title
CN110263323A (zh) 基于栅栏式长短时记忆神经网络的关键词抽取方法及系统
WO2023024412A1 (zh) 基于深度学习模型的视觉问答方法及装置、介质、设备
CN110309839B (zh) 一种图像描述的方法及装置
CN108830287A (zh) 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
Seo et al. Neural speed reading via skim-rnn
CN112000772B (zh) 面向智能问答基于语义特征立方体的句子对语义匹配方法
CN112699247A (zh) 一种基于多类交叉熵对比补全编码的知识表示学习框架
CN111858931A (zh) 一种基于深度学习的文本生成方法
CN112000770B (zh) 面向智能问答的基于语义特征图的句子对语义匹配方法
CN110866542A (zh) 一种基于特征可控融合的深度表示学习方法
CN113673535B (zh) 一种多模态特征融合网络的图像描述生成方法
CN110659411A (zh) 一种基于神经注意力自编码器的个性化推荐方法
WO2023231513A1 (zh) 对话内容的生成方法及装置、存储介质、终端
Zhang et al. A BERT fine-tuning model for targeted sentiment analysis of Chinese online course reviews
CN110704510A (zh) 一种结合用户画像的题目推荐方法及系统
CN110781271A (zh) 一种基于层次注意力机制的半监督网络表示学习模型
CN112966527B (zh) 一种基于自然语言推理的关系抽取模型的生成方法
CN116595406A (zh) 基于角色一致性的事件论元角色分类方法及系统
CN114048301B (zh) 一种基于满意度的用户模拟方法及系统
CN115983274A (zh) 一种基于两阶段标签校正的噪声事件抽取方法
CN115687638A (zh) 基于三元组森林的实体关系联合抽取方法及系统
CN113051904A (zh) 一种面向小规模知识图谱的链接预测方法
CN111368524A (zh) 一种基于自注意力双向gru和svm的微博观点句识别方法
CN115828863A (zh) 混沌工程试验场景下应急预案自动生成方法
CN115455162A (zh) 层次胶囊与多视图信息融合的答案句子选择方法与装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20221230