CN109766546A - 一种基于神经网络的自然语言推理方法 - Google Patents
一种基于神经网络的自然语言推理方法 Download PDFInfo
- Publication number
- CN109766546A CN109766546A CN201811591667.8A CN201811591667A CN109766546A CN 109766546 A CN109766546 A CN 109766546A CN 201811591667 A CN201811591667 A CN 201811591667A CN 109766546 A CN109766546 A CN 109766546A
- Authority
- CN
- China
- Prior art keywords
- sentence
- knowledge
- natural language
- neural network
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种基于神经网络的自然语言推理方法,其特点是采用知识吸收门将收集的相关知识注入到卷积神经网络中进行句子间的信息交互,得到基于句子交互后的信息进行自然语言的推理。本发明与现有技术相比具有外部知识融入神经网络的特点,使引入的相关知识与句子表示结合,语义推理更准确,方法简便、高效,成本低廉,并且能够在不同数据领域之间进行迁移,具有广泛的实用意义,能够为智能问答系统、文本摘要系统等应用提供有效的解决方案。
Description
技术领域
本发明涉及自然语言推理技术领域,尤其是一种带外部知识的神经网络进行自然语言推理的方法。
背景技术
感知和推理是人类和人工智能的核心,自然语言的推理是将前提和假设两句子的语义关系分为蕴含、矛盾和中立三类,具体而言,自然语言推理旨在确定给定的假设句是否可以从给定的前提句中通过逻辑推断出。例如,以“乔布斯创立苹果”为前提句,我们可以推断“乔布斯是苹果的创始人”这一假设句是真实的,因此我们将前提句与假设句之间的关系标记为“蕴含”。自然语言推理是评估模型语言理解能力的重要任务,因此,对问答系统、抽象文本摘要以及图像标注等自然语言处理是很有帮助和有益的。最近发布的大规模数据集,如斯坦福自然语言推理语料(SNLI)和多种类自然语言推理语料库(MultiNLI),使得自然语言推理任务更加可行和准确。根据模型是否能够利用两句话之间的交互信息,所提出的模型可以分为基于编码的模型和使用交叉句子特征的交互式模型,基于编码的模型为单独编码前提和假设。
现有技术的自然语言推理通常依赖于逻辑规则和手工构建的特征,这些特征耗费劳动力且难以泛化,很少研究关注融合外部词汇知识。基于神经网络的模型也只是端到端训练,输入只是文本或一系列词汇,而忽视了大量的背景知识,如前提为“今天下雨了,她很伤心”,假设为“她今天很快乐”的“SNLI”数据集例子,如果计算机无法从大量注释数据中学习有用或足够的信息来建模“伤心”和“快乐”的关系,也就是很难正确预测前提与该假设是相矛盾的关系。
发明内容
本发明的目的是针对现有技术的不足而设计的一种基于神经网络的自然语言推理方法,采用知识吸收门将收集的相关知识注入到卷积神经网络中进行句子间的信息交互,使引入的相关知识与句子表示结合,从而进行更准确的语义推理,工作效率高,具有广泛的实用意义,能够为智能问答系统、文本摘要系统等应用提供有效的解决方案。
本发明的目的是这样实现的:一种基于神经网络的自然语言推理方法,其特点是采用知识吸收门将收集的相关知识注入到卷积神经网络中进行句子间的信息交互,得到基于句子交互后的信息进行自然语言的推理,所述卷积神经网络包括:前提句的向量表示、假设句的向量表示和句子间的信息交互,卷积神经网络对收集的知识进行编码,并将其融入前提句和假设句的向量表示中进行句子间的信息交互,基于句子交互后的信息对自然语言所表达的信息进行推理,并对两句子之间的语义关系进行预测。
所述卷积神经网络对收集的知识采用长短时记忆网络对句子进行编码表示。
本发明与现有技术相比具有外部知识融入神经网络的特点,使引入的相关知识与句子表示结合,从而进行更准确的语义推理,能够更加全面有效地对句子语义进行推理,方法简便、高效,成本低廉,并且能够在不同数据领域之间进行迁移,具有广泛的实用意义,能够为智能问答系统、文本摘要系统等应用提供有效的解决方案。
附图说明
图1为本发明流程示意图;
图2为卷积神经网络示意图。
具体实施方式
实施例1
参阅附图1,本发明按下述步骤进行融入外部知识的自然语言推理:
(一)、句子相关知识的收集和表示
使用“WordNet”和“Wikidata”作为知识库,知识库中的每个知识都以u=(head(h),relation(r),tail(t))的三元组表示,其中h和t是实体,而r则是这两个实体之间的关系。下面以“快乐”的反义词为“悲伤”为例,假设lp和ln分别为前提和假设的长度,将输入的前提定义为假设为其中xi表示前提中的第i个词,yj表示假设中的第j个词。对前提中的每个词xi来说,如果xi和假设中的词y属于知识库中的同一个三元组(u=(xi,r,y)),则视这个元组为与句子相关的一条知识。收集的与词xi相关的知识表示为Ui={u1,u2,…,un}。同样的过程对假设句中的每个词都执行一遍。
使用卷积神经网络学习收集的知识Ui的向量表示并记为Ki,使用“TransE”算法对三元组中的实体和关系进行编码表示。将元组u=(h,r,t)编码为向量vu,对h,r和t的向量表示取平均操作,得到维数为d的元组向量表示,收集的n个三元组被表示为:其中,⊕为向量加操作,然后将v1:n作为输入,使用一个简单的“CNN”对其进行编码得到d维的向量Ki,卷及操作中将过滤器的维度为h×d,一个过滤器应用在h个三元组窗口上。
(二)、前提句和假设句的编码表示
在自然语言处理领域,为了保存序列信息,使用长短时记忆网络“LSTM”对前提X和假设Y进行编码,分别得到基于上下文的句子向量表示为:HX和HY:
其中,“LSTM”表示“LSTM”单元;xt和yt分别为时刻t处的输入;h是单个“LSTM”单元的输出隐藏向量的维度为256,最后一个隐藏状态(HX和HY)为整个句子的表示。
上述为基于长短时记忆网络的编码,为了让模型更好地理解句子的信息,采用知识吸收门丰富句子的表达,在获得第i个词的向下文向量表示hi之后,利用所收集的知识在重建该表示,由于收集的知识并非都是有效的,本发明设计了一个基于当前上、下文情况动态的决定吸收多少知识的吸收门,其表示为G={gi}(i=1,2,…),句子中第i个词所对应的知识吸收门表示为:gi=σ(hi,Ki)。其中,Ki为编码得到的知识,σ(·)为sigmoid函数,gi为一个反应每个维度上知识相关度的向量。结合原始上、下文的表示hi和得到知识的表示Kj,得到知识丰富化的上下文表示为:其中,为向量乘操作,最终得到带知识的句子表示为:HX和HY。
(三)、信息交互及语义预测
得到知识丰富的句子表示后,进行句子的交叉阅读以得到前提句和假设句的初步信息交互,人在评判两个句子之间的关系时,首先阅读前提,然后脑海中带着前提句中包含的信息去阅读假设句。为了实现这样的过程,将上述步骤(二)中得到带知识的假设句表示HY输入一个利用HX向量进行初始化的“LSTM”中得到带前提的假设句表示H′Y,利用类似的操作得到带假设信息的前提表示H′X,这个过程可以公式化为:H′y,_=JSTM(HX),其中,H′y为经过交叉阅读后的假设句表示。使用注意力机制来实现表示H′X与表示H′Y之间的软对齐,得到句子关键信息强化的句子表示,最终得到假设感知的前提表示和前提感知的假设表示
本发明将三种匹配操作应用于前提句和假设句的表示:(i)向量拼接(ii)向量相减(iii)向量乘积,然后拼接这三个匹配后得到的向量得到组合向量。最终被知识丰富化的组合向量定义为:
其中,HX和HY为一般的句子表示,和为带知识的向量进行交互后的句子表示,∑XgK和∑YgK为所有的收集的知识表示。
为了预测前提和假设之间的语义关系,将组合向量mX和mY输入到一个新的“LSTM”层,以将包含在组合向量中的信息聚合得到最终的预测向量和然后对预测向量进行最大池化和平均池化操作: 最终将经过池化后的向量拼接在一起输入一个多层感知机进行三分类。该多层感知机为一个带有“Tanh”激活函数和“softmax”层的网络,整个模型通过最小化交叉熵损失进行端对端训练。
以上只是对本发明作进一步的说明,并非用以限制本专利,凡为本发明等效实施,均应包含于本专利的权利要求范围之内。
Claims (2)
1.一种基于神经网络的自然语言推理方法,其特征在于采用知识吸收门将收集的相关知识注入到卷积神经网络中进行句子间的信息交互,得到基于句子交互后的信息进行自然语言的推理,所述卷积神经网络包括:前提句的向量表示、假设句的向量表示和句子间的信息交互,卷积神经网络对收集的知识进行编码,并将其融入前提句和假设句的向量表示中进行句子间的信息交互,基于句子交互后的信息对自然语言所表达的信息进行推理,并对两句子之间的语义关系进行预测。
2.根据权利要求1所述基于神经网络的自然语言推理方法,其特征在于所述卷积神经网络对收集的知识采用长短时记忆网络对句子进行编码表示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811591667.8A CN109766546A (zh) | 2018-12-25 | 2018-12-25 | 一种基于神经网络的自然语言推理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811591667.8A CN109766546A (zh) | 2018-12-25 | 2018-12-25 | 一种基于神经网络的自然语言推理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109766546A true CN109766546A (zh) | 2019-05-17 |
Family
ID=66451614
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811591667.8A Pending CN109766546A (zh) | 2018-12-25 | 2018-12-25 | 一种基于神经网络的自然语言推理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109766546A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110245292A (zh) * | 2019-05-28 | 2019-09-17 | 华东师范大学 | 一种基于神经网络过滤噪声特征的自然语言关系抽取方法 |
CN111324709A (zh) * | 2020-02-10 | 2020-06-23 | 广西师范大学 | 基于学科知识图谱和卷积神经网络的智能答疑方法 |
CN113822330A (zh) * | 2021-08-11 | 2021-12-21 | 东华大学 | 基于自然语言推断分类数据集的降噪装置及方法 |
CN114626529A (zh) * | 2022-02-25 | 2022-06-14 | 华南理工大学 | 一种自然语言推理微调方法、系统、装置及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107578106A (zh) * | 2017-09-18 | 2018-01-12 | 中国科学技术大学 | 一种融合单词语义知识的神经网络自然语言推理方法 |
CN108829737A (zh) * | 2018-05-21 | 2018-11-16 | 浙江大学 | 基于双向长短期记忆网络的文本交叉组合分类方法 |
-
2018
- 2018-12-25 CN CN201811591667.8A patent/CN109766546A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107578106A (zh) * | 2017-09-18 | 2018-01-12 | 中国科学技术大学 | 一种融合单词语义知识的神经网络自然语言推理方法 |
CN108829737A (zh) * | 2018-05-21 | 2018-11-16 | 浙江大学 | 基于双向长短期记忆网络的文本交叉组合分类方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110245292A (zh) * | 2019-05-28 | 2019-09-17 | 华东师范大学 | 一种基于神经网络过滤噪声特征的自然语言关系抽取方法 |
CN111324709A (zh) * | 2020-02-10 | 2020-06-23 | 广西师范大学 | 基于学科知识图谱和卷积神经网络的智能答疑方法 |
CN111324709B (zh) * | 2020-02-10 | 2021-08-13 | 广西师范大学 | 基于学科知识图谱和卷积神经网络的智能答疑方法 |
CN113822330A (zh) * | 2021-08-11 | 2021-12-21 | 东华大学 | 基于自然语言推断分类数据集的降噪装置及方法 |
CN114626529A (zh) * | 2022-02-25 | 2022-06-14 | 华南理工大学 | 一种自然语言推理微调方法、系统、装置及存储介质 |
CN114626529B (zh) * | 2022-02-25 | 2024-04-23 | 华南理工大学 | 一种自然语言推理微调方法、系统、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108460013B (zh) | 一种基于细粒度词表示模型的序列标注模型及方法 | |
CN113128229B (zh) | 一种中文实体关系联合抽取方法 | |
CN111538848B (zh) | 一种融合多源信息的知识表示学习方法 | |
CN109766994A (zh) | 一种自然语言推理的神经网络架构 | |
CN109766546A (zh) | 一种基于神经网络的自然语言推理方法 | |
CN109408812A (zh) | 一种基于注意力机制的序列标注联合抽取实体关系的方法 | |
CN110390397B (zh) | 一种文本蕴含识别方法及装置 | |
CN107832400A (zh) | 一种基于位置的lstm和cnn联合模型进行关系分类的方法 | |
WO2023225858A1 (zh) | 一种基于常识推理的阅读型考题生成系统及方法 | |
CN108717574A (zh) | 一种基于连词标记和强化学习的自然语言推理方法 | |
CN114064918A (zh) | 一种多模态事件知识图谱构建方法 | |
CN106844345B (zh) | 一种基于参数线性约束的多任务分词方法 | |
CN109189862A (zh) | 一种面向科技情报分析的知识库构建方法 | |
CN111159345B (zh) | 一种中文知识库答案获取方法及其装置 | |
CN111651973A (zh) | 一种基于句法感知的文本匹配方法 | |
Dethlefs | Domain transfer for deep natural language generation from abstract meaning representations | |
CN113051904B (zh) | 一种面向小规模知识图谱的链接预测方法 | |
Li et al. | Multimedia data processing technology and application based on deep learning | |
Tu | Named entity recognition and emotional viewpoint monitoring in online news using artificial intelligence | |
CN115169285A (zh) | 一种基于图解析的事件抽取方法及系统 | |
CN114880347A (zh) | 一种基于深度学习的自然语言转化为sql语句的方法 | |
Guo | An automatic scoring method for Chinese-English spoken translation based on attention LSTM | |
CN113239703B (zh) | 基于多元因素融合的深层逻辑推理金融文本分析方法及系统 | |
Yong et al. | Keywords-Based Dam Defect Image Caption Generation | |
Cheng et al. | The Method of construction knowledge triples under joint extraction of entity relations based on Distant supervision |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190517 |
|
WD01 | Invention patent application deemed withdrawn after publication |