CN109766994A - 一种自然语言推理的神经网络架构 - Google Patents

一种自然语言推理的神经网络架构 Download PDF

Info

Publication number
CN109766994A
CN109766994A CN201811590400.7A CN201811590400A CN109766994A CN 109766994 A CN109766994 A CN 109766994A CN 201811590400 A CN201811590400 A CN 201811590400A CN 109766994 A CN109766994 A CN 109766994A
Authority
CN
China
Prior art keywords
knowledge
sentence
sentences
vector
natural language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811590400.7A
Other languages
English (en)
Inventor
杨燕
张琪
陈成才
贺樑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Shanghai Zhizhen Intelligent Network Technology Co Ltd
Original Assignee
East China Normal University
Shanghai Zhizhen Intelligent Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University, Shanghai Zhizhen Intelligent Network Technology Co Ltd filed Critical East China Normal University
Priority to CN201811590400.7A priority Critical patent/CN109766994A/zh
Publication of CN109766994A publication Critical patent/CN109766994A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种自然语言推理的神经网络架构,其特点是采用知识库、知识吸收门和语义关系预测架构的卷积神经网络,所述知识库中的每个知识以三元组表示;所述知识吸收门为上、下文感知的集合;所述卷积神经网络由前提句向量表示、假设句向量表示和句子间信息交互组成;所述语义关系预测基于句子交互后的信息对自然语言所表达的信息进行推理,并对两句子之间的语义关系进行预测。本发明与现有技术相比具有外部知识融入神经网络的特点,使引入的相关知识与句子表示结合,语义推理更准确,方法简便、高效,成本低廉,并且能够在不同数据领域之间进行迁移,具有广泛的实用意义,能够为智能问答系统、文本摘要系统等应用提供有效的解决方案。

Description

一种自然语言推理的神经网络架构
技术领域
本发明涉及自然语言推理技术领域,尤其是一种带外部知识的自然语言推理的神经网络架构。
背景技术
感知和推理是人类和人工智能的核心,自然语言的推理是将前提和假设两句子的语义关系分为蕴含、矛盾和中立三类,具体而言,自然语言推理旨在确定给定的假设句是否可以从给定的前提句中通过逻辑推断出。例如,以“乔布斯创立苹果”为前提句,我们可以推断“乔布斯是苹果的创始人”这一假设句是真实的,因此我们将前提句与假设句之间的关系标记为“蕴含”。自然语言推理是评估模型语言理解能力的重要任务,因此,对问答系统、抽象文本摘要以及图像标注等自然语言处理是很有帮助和有益的。最近发布的大规模数据集,如斯坦福自然语言推理语料(SNLI)和多种类自然语言推理语料库(MultiNLI),使得自然语言推理任务更加可行和准确。根据模型是否能够利用两句话之间的交互信息,所提出的模型可以分为基于编码的模型和使用交叉句子特征的交互式模型,基于编码的模型为单独编码前提和假设。
现有技术的自然语言推理通常依赖于逻辑规则和手工构建的特征,这些特征耗费劳动力且难以泛化,很少研究关注融合外部词汇知识。基于神经网络的模型也只是端到端训练,输入只是文本或一系列词汇,而忽视了大量的背景知识,如前提为“今天下雨了,她很伤心”,假设为“她今天很快乐”的“SNLI”数据集例子,如果计算机无法从大量注释数据中学习有用或足够的信息来建模“伤心”和“快乐”的关系,也就是很难正确预测前提与该假设是相矛盾的关系。
发明内容
本发明的目的是针对现有技术的不足而设计的一种自然语言推理的神经网络架构,采用知库与知识吸收门架构的卷积神经网络系统,进行句子间的信息交互,使引入的相关知识与句子表示结合,从而进行更准确的语义推理,工作效率高,具有广泛的实用意义,能够为智能问答系统、文本摘要系统等应用提供有效的解决方案。
本发明的目的是这样实现的:一种自然语言推理的神经网络架构,其特点是采用知识库、知识吸收门和语义关系预测架构的卷积神经网络系统,所述知识库采用“WordNet”和“Wikidata”知库,其库中的每个知识均以u=(head(h),relation(r),tail(t))的三元组表示;其中,h和t是实体;r则是这两个实体之间的关系;所述知识吸收门表示为G={}(i=1,2,…)的上、下文感知的集合;所述卷积神经网络由前提句向量表示、假设句向量表示和句子间信息交互组成;所述前提句向量表示和假设句向量表示采用长短时记忆网络“LSTM”对前提X和假设Y进行编码,分别得到基于上、下文的句子向量表示;所述句子间信息交互为编码后的知识融入前提句和假设句的向量表示中进行句子间的信息交互;所述语义关系预测基于句子交互后的信息对自然语言所表达的信息进行推理,并对两句子之间的语义关系进行预测。
本发明与现有技术相比具有外部知识融入神经网络的特点,使引入的相关知识与句子表示结合,从而进行更准确的语义推理,能够更加全面有效地对句子语义进行推理,方法简便、高效,成本低廉,并且能够在不同数据领域之间进行迁移,具有广泛的实用意义,能够为智能问答系统、文本摘要系统等应用提供有效的解决方案。
附图说明
图1为本发明结构示意图。
具体实施方式
参阅附图1,本发明由知识库1、知识吸收门2、卷积神经网络3和语义关系预测4架构而成,所述知识库1采用“WordNet”和“Wikidata”知库,其库中的每个知识均以u=(head(h),relation(r),tail(t))的三元组表示;其中,h和t是实体;r则是这两个实体之间的关系;所述知识吸收门2为G={}(i=1,2,…)表示的上、下文感知组成的集合;所述卷积神经网络3由前提句向量表示31、假设句向量表示32和句子间信息交互33组成;所述前提句向量表示31和假设句向量表示32采用长短时记忆网络“LSTM”对前提X和假设Y进行编码,分别得到基于上、下文的句子向量表示;所述句子间的信息交互33为编码后的知识融入前提句和假设句的向量表示中进行句子间的信息交互;所述语义关系预测4基于句子交互后的信息对自然语言所表达的信息进行推理,并对两句子之间的语义关系进行预测。
以下通过某一自然语言推理的具体实例,对本发明作进一步的详细说明。
实施例1
本发明按下述步骤进行自然语言推理:
(一)、句子相关知识的收集和表示
使用“WordNet”和“Wikidata”作为知识库1,其库中的每个知识都表示为一个三元组u=(head(h),relation(r),tail(t)),其中h和t是实体,而r则是这两个实体之间的关系。以“快乐”的反义词“悲伤”为例,假设lp和lh分别为前提和假设的长度,将输入的前提定义为假设为其中xi表示前提中的第i个词,yj表示假设中的第j个词。对前提中的每个词xi来说,如果xi和假设中的词y属于知识库中的同一个三元组(u=(xi,r,y)),则视这个元组为与句子相关的一条知识。收集的与词xi相关的知识表示为Ui={u1,u2,…,un}。同样的过程对假设句中的每个词都执行一遍。
使用由前提句向量表示31、假设句向量表示32和句子间信息交互33组成的卷积神经网络3学习收集的知识Ui的向量表示并记为Ki,使用“TransE”算法对三元组中的实体和关系进行编码表示。将元组u=(h,r,t)编码为向量vu,对h,r和t的向量表示取平均操作,得到维数为d的元组向量表示,收集的n个三元组被表示为:其中,为向量加操作,然后将v1:n作为输入,使用一个简单的“CNN”对其进行编码得到d维的向量Ki,卷及操作中将过滤器的维度为h×d,一个过滤器应用在h个三元组窗口上。
(二)、前提句和假设句的编码表示
在自然语言处理领域,为了保存序列信息,前提句向量表示31和假设句向量表示32采用长短时记忆网络“LSTM”对前提X和假设Y进行编码,分别得到基于上、下文的句子向量表示为:HX和HY
其中,“LSTM”表示“LSTM”单元;xt和yt分别为时刻t处的输入;h是单个“LSTM”单元的输出隐藏向量的维度为256,最后一个隐藏状态(HX和HY)为整个句子的表示。
上述为基于长短时记忆网络的编码,为了让模型更好地理解句子的信息,采用知识吸收门2丰富句子的表达,在获得第i个词的向下文向量表示h之后,利用所收集的知识在重建该表示。由于收集的知识并非都是有效的,本发明设计了一个基于当前上、下文情况动态的决定知识吸收多少的知识吸收门2,其表示为G={gi}(i=1,2,…)的上、下文感知的集合。句子中第i个词所对应的知识吸收门2表示为:gi=σ(hi,Ki)。其中,Ki为编码得到的知识;σ(·)为sigmoid函数;gi为一个反应每个维度上知识相关度的向量。结合原始上、下文的表示hi和得到知识的表示Kj,得到知识丰富化的上下文表示为:h′i=(1-gi)⊙hi+gi⊙Ki,其中,⊙为向量乘操作,最终得到带知识的句子表示HX和HY
(三)、信息交互
句子间信息交互33将编码后的知识融入前提句和假设句的向量表示中得到知识丰富的句子表示,然后进行句子的交叉阅读以得到前提句和假设句的初步信息交互。人在评判两个句子之间的关系时,首先阅读前提,然后脑海中带着前提句中包含的信息去阅读假设句,为了实现这样的过程,将上述步骤(二)中得到带知识的假设句表示HY输入一个利用HX向量进行初始化的“LSTM”中得到带前提的假设句表示H′Y,利用类似的操作得到带假设信息的前提表示H′X,这个过程可以公式化为:H′y,_=LSTM(HX)。其中,H′y为经过交叉阅读后的假设句表示。使用注意力机制来实现表示H′X与表示H′Y之间的软对齐,得到句子关键信息强化的句子表示,最终得到假设感知的前提表示和前提感知的假设表示
本发明将三种匹配操作应用于前提句和假设句的表示:(i)向量拼接(ii)向量相减(iii)向量乘积,然后拼接这三个匹配后得到的向量得到组合向量。最终被知识丰富化的组合向量定义为:
其中,HX和HY为一般的句子表示,为带知识的向量进行交互后的句子表示,∑X gK和∑Y gK为所有的收集的知识表示。
(四)语义推理及预测语义关系预测4将交叉阅读得到前提句和假设句的初步交互信息,对自然语言所表达的信息进行推理,并对两句子之间的语义关系进行预测。为了预测前提和假设之间的语义关系,将组合向量mX和mY输入到一个新的“LSTM”层,以将包含在组合向量中的信息聚合得到最终的预测向量然后对预测向量进行最大池化和平均池化操作: 最终将经过池化后的向量拼接在一起输入一个多层感知机进行三分类。该多层感知机为一个带有“Tanh”激活函数和“softmax”层的网络,整个模型通过最小化交叉熵损失进行端对端训练。
以上只是对本发明作进一步的说明,并非用以限制本专利,凡为本发明等效实施,均应包含于本专利的权利要求范围之内。

Claims (1)

1.一种自然语言推理的神经网络架构,其特征在于采用知识库、知识吸收门和语义关系预测架构的卷积神经网络系统,所述知识库采用“WordNet”和“Wikidata”知库,其库中的每个知识均以u=(head(h),relation(r),tail(t))的三元组表示;其中,h和t是实体;r则是这两个实体之间的关系;所述知识吸收门表示为G={gi}(i=1,2,…)的上、下文感知的集合;所述卷积神经网络由前提句向量表示、假设句向量表示和句子间信息交互组成;所述前提句向量表示和假设句向量表示采用长短时记忆网络“LSTM”对前提X和假设Y进行编码,分别得到基于上、下文的句子向量表示;所述句子间信息交互为编码后的知识融入前提句和假设句的向量表示中进行句子间的信息交互;所述语义关系预测基于句子交互后的信息对自然语言所表达的信息进行推理,并对两句子之间的语义关系进行预测。
CN201811590400.7A 2018-12-25 2018-12-25 一种自然语言推理的神经网络架构 Pending CN109766994A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811590400.7A CN109766994A (zh) 2018-12-25 2018-12-25 一种自然语言推理的神经网络架构

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811590400.7A CN109766994A (zh) 2018-12-25 2018-12-25 一种自然语言推理的神经网络架构

Publications (1)

Publication Number Publication Date
CN109766994A true CN109766994A (zh) 2019-05-17

Family

ID=66451575

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811590400.7A Pending CN109766994A (zh) 2018-12-25 2018-12-25 一种自然语言推理的神经网络架构

Country Status (1)

Country Link
CN (1) CN109766994A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245292A (zh) * 2019-05-28 2019-09-17 华东师范大学 一种基于神经网络过滤噪声特征的自然语言关系抽取方法
CN111126407A (zh) * 2019-12-23 2020-05-08 昆明理工大学 一种基于单独编码网络的机械零件语义分割方法
CN111368026A (zh) * 2020-02-25 2020-07-03 杭州电子科技大学 基于词语义关系与动态卷积神经网络的文本蕴含分析方法
CN111949768A (zh) * 2020-08-23 2020-11-17 云知声智能科技股份有限公司 一种文件分类方法
CN113010676A (zh) * 2021-03-15 2021-06-22 北京语言大学 一种文本知识提取方法、装置及自然语言推断系统
CN114626529A (zh) * 2022-02-25 2022-06-14 华南理工大学 一种自然语言推理微调方法、系统、装置及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110029471A1 (en) * 2009-07-30 2011-02-03 Nec Laboratories America, Inc. Dynamically configurable, multi-ported co-processor for convolutional neural networks
CN105701253A (zh) * 2016-03-04 2016-06-22 南京大学 中文自然语言问句语义化的知识库自动问答方法
CN107015963A (zh) * 2017-03-22 2017-08-04 重庆邮电大学 基于深度神经网络的自然语言语义分析系统及方法
CN107578106A (zh) * 2017-09-18 2018-01-12 中国科学技术大学 一种融合单词语义知识的神经网络自然语言推理方法
JP2018022496A (ja) * 2016-08-05 2018-02-08 株式会社Nttドコモ 自然言語処理装置に用いられるトレーニングデータを作成する方法と機器
CN108304933A (zh) * 2018-01-29 2018-07-20 北京师范大学 一种知识库的补全方法及补全装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110029471A1 (en) * 2009-07-30 2011-02-03 Nec Laboratories America, Inc. Dynamically configurable, multi-ported co-processor for convolutional neural networks
CN105701253A (zh) * 2016-03-04 2016-06-22 南京大学 中文自然语言问句语义化的知识库自动问答方法
JP2018022496A (ja) * 2016-08-05 2018-02-08 株式会社Nttドコモ 自然言語処理装置に用いられるトレーニングデータを作成する方法と機器
CN107015963A (zh) * 2017-03-22 2017-08-04 重庆邮电大学 基于深度神经网络的自然语言语义分析系统及方法
CN107578106A (zh) * 2017-09-18 2018-01-12 中国科学技术大学 一种融合单词语义知识的神经网络自然语言推理方法
CN108304933A (zh) * 2018-01-29 2018-07-20 北京师范大学 一种知识库的补全方法及补全装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245292A (zh) * 2019-05-28 2019-09-17 华东师范大学 一种基于神经网络过滤噪声特征的自然语言关系抽取方法
CN111126407A (zh) * 2019-12-23 2020-05-08 昆明理工大学 一种基于单独编码网络的机械零件语义分割方法
CN111126407B (zh) * 2019-12-23 2022-07-01 昆明理工大学 一种基于单独编码网络的机械零件语义分割方法
CN111368026A (zh) * 2020-02-25 2020-07-03 杭州电子科技大学 基于词语义关系与动态卷积神经网络的文本蕴含分析方法
CN111368026B (zh) * 2020-02-25 2020-11-24 杭州电子科技大学 基于词语义关系与动态卷积神经网络的文本蕴含分析方法
CN111949768A (zh) * 2020-08-23 2020-11-17 云知声智能科技股份有限公司 一种文件分类方法
CN111949768B (zh) * 2020-08-23 2024-02-02 云知声智能科技股份有限公司 一种文件分类方法
CN113010676A (zh) * 2021-03-15 2021-06-22 北京语言大学 一种文本知识提取方法、装置及自然语言推断系统
CN113010676B (zh) * 2021-03-15 2023-12-08 北京语言大学 一种文本知识提取方法、装置及自然语言推断系统
CN114626529A (zh) * 2022-02-25 2022-06-14 华南理工大学 一种自然语言推理微调方法、系统、装置及存储介质
CN114626529B (zh) * 2022-02-25 2024-04-23 华南理工大学 一种自然语言推理微调方法、系统、装置及存储介质

Similar Documents

Publication Publication Date Title
CN109766994A (zh) 一种自然语言推理的神经网络架构
CN110390397B (zh) 一种文本蕴含识别方法及装置
CN114064918B (zh) 一种多模态事件知识图谱构建方法
CN109766546A (zh) 一种基于神经网络的自然语言推理方法
CN111538848A (zh) 一种融合多源信息的知识表示学习方法
CN110287482B (zh) 半自动化分词语料标注训练装置
CN112765956B (zh) 基于多任务学习的依存句法分析方法及应用
CN111460132A (zh) 一种基于图卷积神经网络的生成式会议摘要方法
CN110032729A (zh) 一种基于神经图灵机的自动摘要生成方法
Zhao et al. Multi-task learning with graph attention networks for multi-domain task-oriented dialogue systems
CN111639254A (zh) 一种医疗领域的sparql查询语句的生成系统和方法
CN116028604A (zh) 一种基于知识增强图卷积网络的答案选择方法及系统
Zheng et al. BERT-based mixed question answering matching model
CN111401003A (zh) 一种外部知识增强的幽默文本生成方法
Cai et al. Multi-view and attention-based bi-lstm for weibo emotion recognition
Sun et al. Text sentiment analysis based on CNN-BiLSTM-attention model
CN112100342A (zh) 一种基于知识表示学习技术的知识图谱问答方法
CN113326695B (zh) 一种基于迁移学习的情感极性分析方法
Huang et al. Research on Text Generation of Medical Intelligent Question and Answer Based on Bi-LSTM and Neural Network Technology
CN114880341A (zh) 文本转化编码器、文本转化为sql查询分析方法及系统
Xu et al. Apeak-CG: Automatically predicting emotion based dynamic multi-form knowledge fusion conversation generation
Wu et al. Sentiment analysis of barrage text based on albert-att-bilstm model
Wang et al. Multimodal Feature Fusion and Emotion Recognition Based on Variational Autoencoder
CN112163414A (zh) 一种基于Word2Vec、LSTM和注意力机制的中文歌词生成方法
Xu et al. An Answer Summarization Scheme Based on Multilayer Attention Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190517