CN110390397B - 一种文本蕴含识别方法及装置 - Google Patents

一种文本蕴含识别方法及装置 Download PDF

Info

Publication number
CN110390397B
CN110390397B CN201910512371.0A CN201910512371A CN110390397B CN 110390397 B CN110390397 B CN 110390397B CN 201910512371 A CN201910512371 A CN 201910512371A CN 110390397 B CN110390397 B CN 110390397B
Authority
CN
China
Prior art keywords
text
reasoning
hypothesis
precondition
dynamic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910512371.0A
Other languages
English (en)
Other versions
CN110390397A (zh
Inventor
熊熙
张芮
琚生根
李元媛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu University of Information Technology
Original Assignee
Chengdu University of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu University of Information Technology filed Critical Chengdu University of Information Technology
Priority to CN201910512371.0A priority Critical patent/CN110390397B/zh
Publication of CN110390397A publication Critical patent/CN110390397A/zh
Application granted granted Critical
Publication of CN110390397B publication Critical patent/CN110390397B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24143Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]

Abstract

本发明属于自然语言处理技术领域,公开了一种文本蕴含识别方法和装置,其通过动态门控推理网络(DGIN)动态选择前提和假设文本不同层面语义的信息,具体体现在DGIN模型结合了词级别信息的细粒度推理和句子级别门控结构来捕捉全局语义,同时从直接相连,相似和差异三个层面来共同推理文本对的蕴含关系。本发明可以有效捕捉文本对的关系以及利用句子级别语义信息,从而提升文本蕴含识别的准确率。

Description

一种文本蕴含识别方法及装置
技术领域
本发明涉及自然语言推理技术领域,特别是涉及一种文本蕴含识别方法和装置。
背景技术
自然语言推理(Nature Language Inference,NLI)任务是自然语言处理的一个重要子任务,是否能推理出两段文本之间的关系是机器进一步理解自然语言的基础。自然语言推理又被称为文本蕴含识别(Recognizing Textual Entailment,简称RTE),是指给定两段文本P,和H,其中P为前提(Premise),H为假设(Hypothesis),若能从前提P的内容中推断出假设H的内容,则称P和H为蕴含关系,否则为非蕴含关系,非蕴含关系可进一步划分为中立关系(P和H的事实无关)和矛盾关系(P和H两者内容矛盾)。文本蕴含技术是关系抽取、机器阅读理解、对话问答、文本摘要等任务的技术基础,运用文本蕴含技术可进一步提高这些任务的精度。
早期的文本蕴含研究大多采用特征工程方法,通过相似度特征、逻辑演算、基于转换等方式,构建各种特征来判断文本的蕴含关系。近年来随着深度学习理论的完善和大规模文本蕴含数据的发布,越来越多基于神经网络的文本蕴含模型被提出。
现有方式一,基于文本编码的模型是通过训练一个句子级别编码网络,来分别编码前提和假设的句子表示,并将表示向量连接后用于两段文本的关系分类。文本编码模型则可通过LSTM,CNN,注意力机制等构造。这种方式可提升句子语义表示,但缺少了文本之间的交互,而对于文本蕴含任务来说,交互特征对蕴含关系的识别十分重要。
现有方式二,基于交互聚合网络则是采用注意力机制对前提和假设文本进行交互,通过计算词级别注意力矩阵来提取前提和假设的交互特征,并将交互特征再次编码用于分类。由于不同的交互特征均通过此注意力矩阵构造,而此注意力矩阵仅计算一次,这样带来的问题是如果前一层的文本表示稍有偏颇,则会影响局部注意力矩阵的结果,进而得到不准确的交互特征;且随着对句子语义理解的深入,句子中词的重要程度也应动态变化。
现有方式三,基于动态匹配的思想对前提和假设文本进行动态推理,但都是基于词级别细粒度特征进行推理,并没有结合句子级别语义信息。
例如,现有专利(公开号CN109299262A)公开了一种融合多粒度信息的文本蕴含关系识别方法,该文本蕴含关系识别方法通过字词句层面的融合和分别计算不同粒度的注意力来实现文本蕴含关系的识别。具体来说,该方法在不同粒度来计算各种交互注意力,即词之间,词句之间,句子之间的注意力;同时该方法中词级别注意力计算的是双向非动态交互,句子级别体现直接计算句子级别注意力并用于分类结果。该方法虽然采用了交互注意力机制,但文本蕴含的识别精度依然不高。
因此,如何在现有文本蕴含识别技术的基础上,进一步提升运用文本蕴含识别的精度,仍旧是本领域技术人员研究和改进的方向。
发明内容
技术目的
本发明的目的是如何进一步提升自然语言处理过程中文本蕴含识别的精度。
技术方案
第一方面
一种文本蕴含识别方法,用于对输入的包括前提文本与假设文本的文本对进行编码得到对应的文本向量,并利用自然语言推理中的注意力机制对所述文本向量进行推理来确定所述文本对中前提文本与假设文本之间的文本蕴含关系并输出,其中,所述利用自然语言推理中的注意力机制对所述文本向量进行推理是基于长短期记忆网络的门控选择和动态注意力机制来进行的动态推理,其中,该动态推理包括分别对文本对从直接相连、相似性和差异性三个层面共同进行推理,在从直接相连、相似性和差异性三个层面进行推理之前,各所述层面需要分别先对前提文本和假设文本进行词级别注意力推理,再做句子门控选择全局语义相关部分。
在一些实施方案中,确定所述文本对中前提文本与假设文本之间的文本蕴含关系是通过直接相连、相似性和差异性三个层面共同动态推理得到的三个推理特征拼接起来,采用一层基于激活函数的全连接层进行降维,再用分类函数进行分类输出来得到的蕴含关系。
在一些实施方案中,所述对前提文本和假设文本进行词级别注意力推理的方法包括:对输入的假设文本的每个输入词,都计算前提文本所有词和假设当前词的注意力。
在一些实施方案中,所述做句子门控选择全局语义相关部分的方法包括:计算前提文本向量和假设文本向量的相关性,并从全局上选择与假设文本更相关的表示。
第二方面
提供一种文本蕴含识别装置,包括:编码网络模块,用于对输入的包括前提文本与假设文本的文本对进行编码得到对应的文本向量;动态推理模块,用于利用自然语言推理中的注意力机制对所述文本向量进行推理来确定所述文本对中前提文本与假设文本之间的文本蕴含关系;输出模块,用于确定并输出文本蕴含关系;其中,所述动态推理模块利用自然语言推理中的注意力机制对所述文本向量进行推理的过程是基于长短期记忆网络的门控选择和动态注意力机制来进行的动态推理,其中,该动态推理包括分别对文本对从直接相连、相似性和差异性三个层面共同进行推理,在从直接相连、相似性和差异性三个层面进行推理之前,各所述层面需要分别先对前提文本和假设文本进行词级别注意力推理,再做句子门控选择全局语义相关部分。
在一些实施方案中,所述输出模块用于确定所述文本对中前提文本与假设文本之间的文本蕴含关系是通过直接相连、相似性和差异性三个层面共同动态推理得到的三个推理特征拼接起来,采用一层基于激活函数的全连接层进行降维,再用分类函数进行分类输出来得到的蕴含关系。
在一些实施方案中,所述动态推理模块用于对前提文本和假设文本进行词级别注意力推理的方法包括:对输入的假设文本的每个输入词,都计算前提文本所有词和假设当前词的注意力。
在一些实施方案中,所述动态推理模块用于做句子门控选择全局语义相关部分的方法包括:计算前提文本向量和假设文本向量的相关性,并从全局上选择与假设文本更相关的表示。
技术效果
本发明对于现有技术的贡献在于:结合了词级别局部交互信息和句子级别门控机制捕捉全局信息来动态推理前提文本和假设文本之间的关系;同时,其除了推理前提文本和假设文本本身外,还从文本对的相似性和差异性两个层面进行动态推理,进一步丰富了模型对语义信息的理解,从而有效提升自然语言处理过程中文本蕴含识别的精度。
附图说明
图1为本发明文本蕴含识别装置在一实施例中的架构图。
具体实施方式
技术术语解释
1、sgMatch-LSTM,英文sentence gate Match LSTM的简称,中文翻译为:句子门控推理结构。即在LSTM的基础上做了句子级别的门控选择设置。
2、DGIN,英文Dynamic Gated Inference Network的简称,中文翻译为:门控动态推理网络,其可以通过训练而建立得到的一个网络模型。即本发明是在基于sgMatch-LSTM而形成的一个动态推理网络。
3、LSTM(Long Short-Term Memory)是长短期记忆网络,是一种时间循环神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件,在实际应用中,其可以被应用于进行自然语言推理。
需要注意的,下文中涉及的其他中文或英文的技术用于,即为本技术领域的常用语,故这里不作一一解释。
实施例1
本实施例提供了一种文本蕴含识别方法,其用于对输入的包括前提文本与假设文本的文本对进行编码得到对应的文本向量,并利用自然语言推理中的注意力机制对所述文本向量进行推理来确定所述文本对中前提文本与假设文本之间的文本蕴含关系并输出,其中,所述利用自然语言推理中的注意力机制对所述文本向量进行推理是基于长短期记忆网络的门控选择和动态注意力机制来进行的动态推理,其中,该动态推理包括分别对文本对从直接相连、相似性和差异性三个层面共同进行推理,在从直接相连、相似性和差异性三个层面进行推理之前,各所述层面需要分别先对前提文本和假设文本进行词级别注意力推理,再做句子门控选择全局语义相关部分。
上述文本蕴含识别方法中通过词级别细粒度语义信息对假设和前提文本进行推理,可以充分把握局部细节特征,同时引入了句子级别信息作为门控来对前提的动态文本表示进行选择,可以对全局文本进行整合,最后再结合文本的直接连接、相似性和差异性三个层面来共同进行动态推理,以实现全面推理文本间的关系,最终得到推理结果。这种方法得到的推理结果相比于现有方法得到的推理结果要更为精确。
具体的,本发明的整体推理过程包含三个层次,即文本编码层、动态推理层和输出层。其中,文本编码层和输出层的处理方法与现有技术中的处理方法类似,故下面描述中将不作详细阐述,而动态推理层是本发明对于现有技术中的贡献之处,其推理方法与现有技术中的推理方法不同,故下面将对动态推理层做详细描述。
在一些具体实施例中,文本编码层可以是基于长短期记忆网络(简称LSTM)编码来对文本对中的前提文本和假设文本进行编码得到文本向量。本实施例中具体还可以采用双向长短期记忆网络(简称BiLSTM)编码来对文本对中的前提文本和假设文本进行编码得到文本向量。
在一些具体实施例中,输出层可以是采用分类函数来对推理结果进行分类确定得到最后的推理结果。
为便于本领域技术人员能够清楚地地理解和实施本发明的技术方案,下面将对本发明文本蕴含识别方法作详细说明。
例如,使用P表示前提文本,H表示假设文本,其中
Figure BDA0002093909870000051
lp为前提文本长度,lh为假设文本长度。那么p和h之间的蕴含关系可以表示为y∈{entailment,neural,contradiction},y为真实的类标签。
基于上述设定,下面将从文本编码层、动态推理层和输出层的模型框架来对文本蕴含识别方法进行详细说明。
具体的,在本文编码层中,将对文本对进行编码。本实施例将通过双向长短期记忆网络模型来编码文本向量,其中,对编码文本向量的双向长短期记忆网络模型的计算方式如下:
Figure BDA0002093909870000052
Figure BDA0002093909870000053
其中,
Figure BDA0002093909870000054
为前提文本向量;
Figure BDA0002093909870000055
为假设文本向量;BiLSTMenc表示双向长短期记忆网络,p为未编码的前提文本词向量,h为未编码的假设文本词向量,i表示前提文本中第i个词,j表示假设文本中第j个词,lp是前提文本总长度,lh是假设文本总长度。
具体的,在动态推理层中,将分为三个层面(即从直接相连、相似性和差异性三个层面共同进行动态推理)进行自然语言推理,因此可以分三个模型来共同进行推理。其中,每个层面中将依次先对前提文本和假设文本进行词级别注意力推理,再做句子门控选择全局语义相关部分。因此,每个层面为一个句子门控推理结构(即sgMatch-LSTM),而动态推理层构成于基于句子门控推理结构的动态推理网络(即DGIN)。为此,为便于理解,这里先从每个层面对前提文本和假设文本进行词级别注意力推理,再做句子门控选择全局语义相关部分进行展开说明。
具体的,在每个层面中,首先将对输入的假设文本的每个输入词,都计算前提文本所有词和假设当前词的注意力,计算方式为:
Figure BDA0002093909870000056
Figure BDA0002093909870000057
其中,在公式(3)中,tanh为激活函数,
Figure BDA0002093909870000058
为前提文本,
Figure BDA0002093909870000059
为假设文本中第j个词;
Figure BDA00020939098700000510
为sgMatch-LSTM中第j-1步隐层输出,即下文计算公式(12)的第j-1步,
Figure BDA00020939098700000511
Figure BDA00020939098700000512
为训练的权重参数,
Figure BDA00020939098700000513
为元素相乘,e表示全为1的向量,长度为lp,目的是将前式
Figure BDA00020939098700000514
复制lp遍,变成
Figure BDA00020939098700000515
维张量,以便和每个前提词进行注意力加权,
Figure BDA00020939098700000516
是维度为(d,lp)的矩阵(张量)。因此,Kj是前提文本中每个词对于假设文本中第j个词的注意力,其注意力计算考虑了sgMatch-LSTM前j-1步的输出结果,因此每一步的注意力是动态变化的。
其中,在公式(4)中,
Figure BDA0002093909870000061
为第j步推理的前提文本向量,表示前提文本基于假设中第j个词得到的向量表示,wk
Figure BDA0002093909870000062
的向量。应当理解,W是整个网络的权重参数,而向量是w的表现形式,这个权重参数是向量形式(有的则是矩阵形式),故其与上述wk的含义不矛盾)。softmax是归一化函数,得到
Figure BDA0002093909870000063
的每个词的归一化权重,再将权重向量和
Figure BDA0002093909870000064
相乘,得到和当前假设词相关的前提文本向量,其中
Figure BDA0002093909870000065
表示最终得到的前提文本向量维度为2d。
通过上述计算方式(3)和(4)的模型可以实现对前提文本和假设文本进行词级别注意力推理。
具体的,在每个层面中,其次将引入了句子级别信息作为门控来对前提的动态文本表示进行选择。通过计算前提文本向量和假设文本向量的相关性,并利用sigmoid函数从全局上选择与假设文本更相关的表示。
Figure BDA0002093909870000066
Figure BDA0002093909870000067
其中,在公式(5)中,
Figure BDA0002093909870000068
其中
Figure BDA0002093909870000069
表示行的长度为2d,列长度为2d的矩阵,
Figure BDA00020939098700000610
表示矩阵仅一列,长度为2d,由于只有一列,所以有时也将其描述为向量。hvec为假设文本经过文本编码层之后的自注意力加权句向量。σ为sigmoid激活函数,得到(0-1)区间的一个值,目的是通过句子语义层面计算前提和假设的相似性,将句子语义层面的相似性结果作为一个权重来控制词级别匹配向量的输出;sg是通过sigmoid函数得到的权重输出结果,维度为2d维。
其中,在公式(6)中,rj为门控选择后的前提向量表示,⊙表示对应元素相乘(非矩阵乘法),根据句子语义匹配结果来有选择性提取前提向量相似或差异部分。通过上述计算方式(5)和(6)的模型可以引入了句子级别信息作为门控来对前提的动态文本表示进行选择。
另外,再从三个层面角度来讲,上步中得到的rj是经过词级别注意力和句子门控得到前提文本句向量,再将rj
Figure BDA00020939098700000611
通过直接连接(contact),元素点乘(multiply),元素相差(subtract)三种方式拼接分别对应送入sgMatch-LSTM模型中。
其中,直接连接拼接方式的计算方式为:
Figure BDA00020939098700000612
其中,mj_con=[:,:]表示直接相连(也可以称为:直接连接)。
直接相连后通过sgMatch-LSTM的计算方式:
Figure BDA0002093909870000071
Figure BDA0002093909870000072
Figure BDA0002093909870000073
Figure BDA0002093909870000074
Figure BDA0002093909870000075
其中,
Figure BDA0002093909870000076
分别为LSTM中的输入门、遗忘门和输出门,
Figure BDA0002093909870000077
为LSTM中的记忆单元,
Figure BDA0002093909870000078
是LSTM中第j个词的隐层单元,σ为sigmoid激活函数,⊙为元素相乘。
应当理解,sgMatch-LSTM的内部结构与基本的LSTM的内部结构是一致的,只不过本发明提出的sgMatch-LSTM是基于文本蕴含任务,在原始LSTM上做了修改来得到的。具体的讲,mj是sgMatch-LSTM的输入,其分别有
Figure BDA0002093909870000079
三种形式,那对应的,
Figure BDA00020939098700000710
是sgMatch-LSTM第j步隐层输出结果,
Figure BDA00020939098700000711
是sgMatch-LSTM第j-1步隐层输出,
Figure BDA00020939098700000712
是第j步记忆单元的结果,
Figure BDA00020939098700000713
是sgMatch-LSTM第j-1步记忆单元的值。其中,Wii,Wih,bib是sgMatch-LSTM输入门的权重和偏置;Wfi,Wfh,bfb是sgMatch-LSTM遗忘门的权重和偏置,Woi,Woh,bob是sgMatch-LSTM输出门的权重和偏置;Wc,bc为权重参数和偏置。通过上述描述足以使一般公众对本申请中的sgMatch-LSTM结构有清晰的理解,故这里不作赘述。
具体的,计算公式(3)至(12)为整个sgMatch-LSTM结构,这里是DGIN网络基于sgMatch-LSTM结构对前提和假设文本除了从直接相连方式推理之外,DGIN网络基于sgMatch-LSTM结构还分别从相似性和差异性2个层面进行动态推理。
具体的,在相似性推理层面,rj
Figure BDA00020939098700000714
通过点乘计算相似层面的注意力,计算方式为:
(3)式改为,
Figure BDA00020939098700000715
(5)式改为,
Figure BDA00020939098700000716
(7)式改为,
Figure BDA00020939098700000717
即将(3)式和(5)式中词级别注意力,句子门控机制改为乘积方式注意力,目的是关注词级别、句子级别语义中相似的部分,并将得到的前提向量rj和第j个假设词
Figure BDA00020939098700000718
通过元素点乘方式⊙捕捉相似。其中Kj_mul为相似部分词级别注意力张量,sg_mul为相似部分句子级别门控张量,mj_mul为相似层面第j个元素的输入。其他参数同原(3)式,(5)式同,不再赘述。
具体的,在差异层面,将rj
Figure BDA0002093909870000081
通过相减计算差异层面的注意力,计算方式为:
(3)式改为,
Figure BDA0002093909870000082
(5)式改为,
Figure BDA0002093909870000083
(7)式改为,
Figure BDA0002093909870000084
即将(3)式,(5)式中词级别注意力,句子门控机制改为相减方式注意力,目的是关注词级别、句子级别语义中差异的部分,并将得到的前提向量rj和第j个假设词
Figure BDA0002093909870000085
通过元素相减的方式“–“捕捉差异。其中Kj_sub为差异层面词级别注意力张量,sg_sub为差异句子级别门控张量,mj_sub为差异层面第j个元素的输入。其他参数同原(3)式,(5)式同,不再赘述。
结合上述描述可知,计算公式(3)至(18)为整个DGIN网络,由于本文创新点之一是对于文本不同层面的理解考虑有不同的动态注意力,所以对相似和差异层面分别计算不同的注意力,对于整个sgMatch-lstm结构并未改变。例如,公式(13)-(15)即是对相似层面计算注意力,整个sgMatch-lstm结构并未改变,就是公式(3)、(5)、(7)分别改成计算文本相似层面的注意力,即点乘方式,使最后的结果向量是更关注两段文本的相似层面。
因此可见上述三个层面的作用在于:直接拼接可以动态推理两段文本所有信息,元素点乘是一种最简单的相似度计算方法,可提取两段文本的相似信息,而相减操作可以指明推断方向,同时重点捕捉前提和假设之间的差异信息。通过从文本三个层面,以及结合细粒度词级别和句子级别信息共同进行动态推理,即可全面推理文本间的关系,最终得到推理结果。
最后,在输出层中,将上层三个层面输出得到3个推理特征拼接起来
Figure BDA0002093909870000086
采用一层激活函数为tanh的全连接层进行降维,全连接层隐层维度为
Figure BDA0002093909870000087
最后用softmax函数分类作选择输出。其中,输出层的模型可以用端到端方式进行训练,模型采用交叉熵损失函数。
下面将通过实验和实验结果分析来对上述实施例的技术效果进行验证,具体实验过程和实验结果分析过程如下。
实验
1、数据和评价指标
本实验采用SNLI数据集和SCITAIL数据集进行验证。SNLI是由斯坦福在2015年发布的大型文本蕴含数据集,包含3类标签,句式简单而相对固定,是很多自然语言理解任务的基准数据集。而SCITAIL数据集科学类文本蕴含数据集,根据科学类多选问答任务构造的前提和假设文本,包含2类标签,不受手工规则的限定且句式多样复杂,推理相对困难。两个数据集分布如表1所示。
Figure BDA0002093909870000091
表1.两个数据集的分布
其中,本模型所采用的评价指标:准确率(Accuracy),N,E,C分别为Neural,Entailment和Contradiction。
2、环境及参数设置
本发明中的模型基于Tensorflow框架搭建,采用ADAM优化器作为整个模型的优化函数,第一个动量系数设为0.9,第二个动量系数设为0.999。学习率为0.0004,batch size为32,为了防止过拟合,LSTM层和全连接层dropout比率为均为0.2。初始词嵌入采用预训练的300维Glove词嵌入,对于OOV单词,采用高斯分布随机初始化一个300维的向量,所有词向量在整个训练过程中不更新。本文三个sgMatch-LSTM结构共享参数。
3、实验结果
本模型在SCITAIL数据集上运行结果如表2所示。由表2实验结果,本模型在SCITAL数据集取得了80.7%的准确率,分别超过了较为先进的文本匹配模型DecompAtt和ESIM的8.4%和10.1%。DecompAtt和ESIM模型均采用词级别注意力矩阵进行文本匹配,但其在较为复杂的SCITAIL数据集上表现效果一般,说明仅用一次局部注意力矩阵的方式在并不能很好推理复杂的文本关系。而本模型采用动态推理方式取得了较好的效果,验证动态推理的有效性。本模型分别也超过了分解图蕴含模型(DEGM)3.4%和采用对抗训练的AdvEntuRE模型1.7%,证明了本文模型DGIN的有效性。
需要注意的是,前文仅对表2中部分模型作了结果描述,其它模型的验证结果可以参见表2。
Figure BDA0002093909870000092
表2.SCITAL数据集验证结果
本模型在SNLI数据集上的验证结果如表3所示,由于现有很多文本匹配模型采用更复杂的堆叠结构以及构建手工特征来提升准确率,本文选取了在SNLI数据集上较为经典且有效的单模型作为比较。[24]完全基于注意力方式对文本进行编码和交互,[9]引入了记忆网络的思想对LSTM进行改进,[4]和[5]均是动态词级别推理的模型,但[4]并未将推理结果进一步连接用于下一步推理,[5]仅对前提和假设进行一次推理,[6]是采用TreeLSTM结构以额外捕捉文本的词法句法等信息。[3]则是采用词级别注意力矩阵来交互前提和假设文本。从实验结果来看,本文模型均优于上述模型。
需要注意的是,前文仅对表3中部分模型作了结果描述,其它模型的验证结果可以参见表3。
Figure BDA0002093909870000101
表3.SNLI数据集验证结果
实验结果分析
1、模型部分结构分析
结合表4,当仅用LSTM网络推理而不对前提和文本进行进一步交互时,即去掉动态推理过程,模型准确率只有72.1%,下降了5.7;当仅对文本对进行词级别动态推理,不用全局句子门控机制,模型效果仅为76.0%;当采用句子级别门控机制对推理结果进行进一步选择,模型效果上升了1.1,这也说明了通过句子级别来捕捉全局语义信息能有效弥补局部推理的局限性;当结合句子门控以及乘积、差异等不同层面语义信息可全面提升文本蕴含推理的能力,达到79.1%的效果。
Figure BDA0002093909870000102
表4.SCITAIL数据集DGIN结构分析
2、样例分析
结合表5,表5给出了一些文本对样例,mLSTM结构即为DGIN模型仅用词级别信息动态匹配的模型。由样例1和样例2可看到,基于词级别的动态推理倾向于对齐前提和假设中相似的词,当相似词越多,越可能被判定为蕴含关系,反之判定为中立关系。而样例3中两段文本有较多相似词,仅通过词级别语义推理会将其预测为蕴含关系,但本文模型DGIN因引入句子级别语义信息使得模型可基于全局信息综合判断。样例4由于句子较长且句式相对复杂,mLSTM结构也错将其预测为中立关系,DGIN通过多个层面判断可正确预测蕴含关系。
需要注意的是,表5中的前提1和假设1即为样例1,即上述样例序号2-4与表5中的前提和假设的序号对应一致。
Figure BDA0002093909870000111
表5.结果样例分析
综上所述,本发明提出sgMatch-LSTM结构,通过词级别细粒度推理和句子级别门控机制来动态用于动态推理文本蕴含关系,并基于此结构提出动态门控推理网络(DGIN),分别从三个层面来推理文本的语义关系。通过实验证明,本发明在SNLI数据集上准确率达到86.8%,以及在较复杂的SCITAIL数据集上达到79.1%的效果,超过了短文本匹配中较好的ESIM模型和分解图模型DEGM,实验证明了本文模型的有效性。
实施例2
基于上述实施例1中的文本蕴含识别方法,本实施例基于相同的构思,提供与其对应的文本蕴含识别装置,该文本蕴含识别装置可以通过软件、硬件或者其结合的方式来形成一个产品整体。
具体的,见图1,为本实施例一种文本蕴含识别装置的架构图,如图所示,该文本蕴含识别装置200包括编码网络模块210、动态推理模块220和输出模块230,其中,编码网络模块用于对输入的包括前提文本与假设文本的文本对进行编码得到对应的文本向量;动态推理模块用于利用自然语言推理中的注意力机制对所述文本向量进行推理来确定所述文本对中前提文本与假设文本之间的文本蕴含关系;输出模块用于确定并输出文本蕴含关系;其中,所述动态推理模块利用自然语言推理中的注意力机制对所述文本向量进行推理的过程是基于长短期记忆网络的门控选择和动态注意力机制来进行的动态推理,其中,该动态推理包括分别对文本对从直接相连、相似性和差异性三个层面共同进行推理,在从直接相连、相似性和差异性三个层面进行推理之前,各所述层面需要分别先对前提文本和假设文本进行词级别注意力推理,再做句子门控选择全局语义相关部分。
由于本实施例提供的文本蕴含识别装置所要解决的技术问题和产生的技术效果与实施例1一致,且其技术原理与实施例1是相同的,故这里就不在对技术方案的内容做详细描述。
具体的,所述输出模块用于确定所述文本对中前提文本与假设文本之间的文本蕴含关系是通过直接相连、相似性和差异性三个层面共同动态推理得到的三个推理特征拼接起来,采用一层基于激活函数的全连接层进行降维,再用分类函数进行分类输出来得到的蕴含关系。
具体的,所述动态推理模块用于对前提文本和假设文本进行词级别注意力推理的方法包括:对输入的假设文本的每个输入词,都计算前提文本所有词和假设当前词的注意力。
具体的,所述动态推理模块用于做句子门控选择全局语义相关部分的方法包括:计算前提文本向量和假设文本向量的相关性,并从全局上选择与假设文本更相关的表示。

Claims (4)

1.一种文本蕴含识别方法,用于对输入的包括前提文本与假设文本的文本对进行编码得到对应的文本向量,并利用自然语言推理中的注意力机制对所述文本向量进行推理来确定所述文本对中前提文本与假设文本之间的文本蕴含关系并输出,其特征在于:
所述利用自然语言推理中的注意力机制对所述文本向量进行推理是基于长短期记忆网络的门控选择和动态注意力机制来进行的动态推理,其中,该动态推理包括分别对文本对从直接相连、相似性和差异性三个层面共同进行推理,在从直接相连、相似性和差异性三个层面进行推理之前,各所述层面需要分别先对前提文本和假设文本进行词级别注意力推理,再做句子门控选择全局语义相关部分;
其中,所述对前提文本和假设文本进行词级别注意力推理的方法包括:对输入的假设文本的每个输入词,都计算前提文本所有词和假设当前词的注意力;
确定所述文本对中前提文本与假设文本之间的文本蕴含关系是通过直接相连、相似性和差异性三个层面共同动态推理得到的三个推理特征拼接起来,采用一层基于激活函数的全连接层进行降维,再用分类函数进行分类输出来得到的蕴含关系。
2.根据权利要求1所述的文本蕴含识别方法,其特征在于,所述做句子门控选择全局语义相关部分的方法包括:计算前提文本向量和假设文本向量的相关性,并从全局上选择与假设文本更相关的表示。
3.一种文本蕴含识别装置,包括:
编码网络模块,用于对输入的包括前提文本与假设文本的文本对进行编码得到对应的文本向量;
动态推理模块,用于利用自然语言推理中的注意力机制对所述文本向量进行推理来确定所述文本对中前提文本与假设文本之间的文本蕴含关系;
输出模块,用于确定并输出文本蕴含关系;
其特征在于:所述动态推理模块利用自然语言推理中的注意力机制对所述文本向量进行推理的过程是基于长短期记忆网络的门控选择和动态注意力机制来进行的动态推理,其中,该动态推理包括分别对文本对从直接相连、相似性和差异性三个层面共同进行推理,在从直接相连、相似性和差异性三个层面进行推理之前,各所述层面需要分别先对前提文本和假设文本进行词级别注意力推理,再做句子门控选择全局语义相关部分;
其中,所述动态推理模块用于对前提文本和假设文本进行词级别注意力推理的方法包括:对输入的假设文本的每个输入词,都计算前提文本所有词和假设当前词的注意力;
所述输出模块用于确定所述文本对中前提文本与假设文本之间的文本蕴含关系是通过直接相连、相似性和差异性三个层面共同动态推理得到的三个推理特征拼接起来,采用一层基于激活函数的全连接层进行降维,再用分类函数进行分类输出来得到的蕴含关系。
4.根据权利要求3所述的文本蕴含识别装置,其特征在于,所述动态推理模块用于做句子门控选择全局语义相关部分的方法包括:计算前提文本向量和假设文本向量的相关性,并从全局上选择与假设文本更相关的表示。
CN201910512371.0A 2019-06-13 2019-06-13 一种文本蕴含识别方法及装置 Active CN110390397B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910512371.0A CN110390397B (zh) 2019-06-13 2019-06-13 一种文本蕴含识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910512371.0A CN110390397B (zh) 2019-06-13 2019-06-13 一种文本蕴含识别方法及装置

Publications (2)

Publication Number Publication Date
CN110390397A CN110390397A (zh) 2019-10-29
CN110390397B true CN110390397B (zh) 2020-07-10

Family

ID=68285331

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910512371.0A Active CN110390397B (zh) 2019-06-13 2019-06-13 一种文本蕴含识别方法及装置

Country Status (1)

Country Link
CN (1) CN110390397B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111368026B (zh) * 2020-02-25 2020-11-24 杭州电子科技大学 基于词语义关系与动态卷积神经网络的文本蕴含分析方法
CN111914560B (zh) * 2020-07-31 2023-01-31 平安科技(深圳)有限公司 文本蕴含关系识别方法、装置、设备及存储介质
CN112434514B (zh) * 2020-11-25 2022-06-21 重庆邮电大学 基于多粒度多通道的神经网络的语义匹配方法、装置及计算机设备
CN112883708A (zh) * 2021-02-25 2021-06-01 哈尔滨工业大学 基于2d-lstm的文本蕴含识别方法
CN113010676B (zh) * 2021-03-15 2023-12-08 北京语言大学 一种文本知识提取方法、装置及自然语言推断系统
CN113239219B (zh) * 2021-05-12 2022-05-20 山东大学 一种基于多模态查询的图像检索方法、系统、介质及设备
CN113221801B (zh) * 2021-05-24 2023-08-18 北京奇艺世纪科技有限公司 版号信息识别方法、装置、电子设备及可读存储介质
CN113569577B (zh) * 2021-06-07 2024-04-05 北京微智信业科技有限公司 一种基于自然语言语义分析的文本识别方法
CN113901215B (zh) * 2021-10-09 2022-04-26 延边大学 一种融合高低层语义信息的文本蕴含识别方法
CN114254158B (zh) * 2022-02-25 2022-06-10 北京百度网讯科技有限公司 视频生成方法及其装置、神经网络的训练方法及其装置
CN115757775B (zh) * 2022-11-05 2023-10-27 内蒙古大学 基于文本蕴含的无触发词文本事件检测方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239560B (zh) * 2017-06-12 2020-07-03 浙江大学 一种基于深度学习的文本蕴含关系识别方法
CN107578106B (zh) * 2017-09-18 2020-03-24 中国科学技术大学 一种融合单词语义知识的神经网络自然语言推理方法
CN108829737B (zh) * 2018-05-21 2021-11-05 浙江大学 基于双向长短期记忆网络的文本交叉组合分类方法
CN109299262B (zh) * 2018-10-09 2022-04-15 中山大学 一种融合多粒度信息的文本蕴含关系识别方法
CN109858032A (zh) * 2019-02-14 2019-06-07 程淑玉 融合Attention机制的多粒度句子交互自然语言推理模型

Also Published As

Publication number Publication date
CN110390397A (zh) 2019-10-29

Similar Documents

Publication Publication Date Title
CN110390397B (zh) 一种文本蕴含识别方法及装置
Subramanian et al. Neural models for key phrase detection and question generation
CN107239446B (zh) 一种基于神经网络与注意力机制的情报关系提取方法
Wang et al. Chat more: Deepening and widening the chatting topic via a deep model
CN107798140B (zh) 一种对话系统构建方法、语义受控应答方法及装置
CN107562792A (zh) 一种基于深度学习的问答匹配方法
CN109614471B (zh) 一种基于生成式对抗网络的开放式问题自动生成方法
CN108845990A (zh) 基于双向注意力机制的答案选择方法、装置和电子设备
CN110991290B (zh) 基于语义指导与记忆机制的视频描述方法
KR102352251B1 (ko) 자질 선별을 통한 고성능 기계독해 방법
CN110688861A (zh) 一种多特征融合的句子级译文质量估计方法
CN107679225A (zh) 一种基于关键词的回复生成方法
CN114037945A (zh) 一种基于多粒度特征交互的跨模态检索方法
Dai et al. A survey on dialog management: Recent advances and challenges
CN107665356A (zh) 一种图像标注方法
Thomas et al. Chatbot using gated end-to-end memory networks
CN115310551A (zh) 文本分析模型训练方法、装置、电子设备和存储介质
Han et al. Generative adversarial networks for open information extraction
Wang et al. Classification-based RNN machine translation using GRUs
CN116150334A (zh) 基于UniLM模型和Copy机制的中文共情语句训练方法及系统
Bai et al. Gated character-aware convolutional neural network for effective automated essay scoring
CN115577072A (zh) 一种基于深度学习的短文本情感分析方法
CN112287641B (zh) 一种同义句生成方法、系统、终端及存储介质
CN114282528A (zh) 一种关键词提取方法、装置、设备及存储介质
CN109815323B (zh) 一种人机交互训练问答生成算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant