CN112883708A - 基于2d-lstm的文本蕴含识别方法 - Google Patents

基于2d-lstm的文本蕴含识别方法 Download PDF

Info

Publication number
CN112883708A
CN112883708A CN202110210878.8A CN202110210878A CN112883708A CN 112883708 A CN112883708 A CN 112883708A CN 202110210878 A CN202110210878 A CN 202110210878A CN 112883708 A CN112883708 A CN 112883708A
Authority
CN
China
Prior art keywords
sentences
cell
lstm
sentence
grid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110210878.8A
Other languages
English (en)
Inventor
张宇
蒋润宇
施琦
齐乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202110210878.8A priority Critical patent/CN112883708A/zh
Publication of CN112883708A publication Critical patent/CN112883708A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了基于2D‑LSTM的文本蕴含识别方法,属于文本识别技术领域。文本蕴含识别方法包括以下步骤:步骤一、选择两个句子,利用按照两个句子的长短构建一个二维的大小为S*T的网格;步骤二、从左到右、从上到下依次计算每个单元格的记忆向量;步骤三、当计算到网格的右下角的单元格时,以把两个句子中的每个词与对方句子中的每个词进行两两比较,得到比较信息;步骤四、在右下角的单元格中保存比较信息;步骤五、利用比较信息建模两个句子之间的相似程度。而本发明对于目前主流模型的缺陷,都进行了一定程度的规避,同时对其优势,也进行了一定程度地继承。

Description

基于2D-LSTM的文本蕴含识别方法
技术领域
本发明涉及基于2D-LSTM的文本蕴含识别方法,属于文本识别技术领域。
背景技术
文本蕴含识别任务,又称自然语言推理(NLI),是目前自然语言处理领域一个比较前沿的研究问题。其致力于解决人类语言中,最底层的逻辑问题,可以对绝大部分上层任务(如阅读理解、智能问答等)起到促进作用。文本蕴含任务可以简单理解为对两个句子之间的关系进行判断其是否构成一对蕴含关系,其输入一般是由一对句子组成,即前提句和假设句,输出一般是“蕴含”、“矛盾”、“中立”三者或者“蕴含”、“非蕴含”二者中的一个。文本蕴含任务是为了探究,对于一个前提假设句对,前提句能否根据一般人的常识推理,推导出假设句的成立,也即蕴含关系成立。近年来,随着深度学习技术的发展,更多更大的开源语料集(如SNLI、MultiNLI等)被提出,文本蕴含识别任务得到了更多的关注,也取得了一定的成果。
目前文本蕴含识别任务的解决办法主要有两种大方向,即预计统计模型的和基于深度学习模型的。
基于统计的模型思路比较多,但均无法有效地比较句对中的语义信息,且均需要对句子进行复杂的特征描述和特征提取,人工成本比较高,效率比较差。
基于深度学习的模型目前主要分为两种方向,基于对齐的和基于交互的。前者主要研究前提句和假设句之间的词级别的对齐信息,进而计算两句话之间的逻辑相关程度。而后者主要研究的是两句话之间的表示在进行一定程度的交互后,所抽象出的信息对其蕴含性的反应。这两种方法并不矛盾,也会有综合其二者思路的实现。但总体而言,基于深度学习模型的实现方式,难以同时解决在长文本中,需要对部分不重要的信息进行过滤丢弃,和对短文本中,需要保证关键信息的留存这二者之间的冲突。这也是本发明致力于解决的点。
现有的技术具有如下的缺点:
1.目前主流的基于Transformer模型及其变体实现的文本蕴含识别技术,受限于其原理对于位置关系的引入相对和整体模型关联性不强,而且词语之间的相对位置关系并不能够得到原生性的体现,需要经过二次计算。
2.目前主流的基于RNN模型及其变体实现的文本蕴含识别技术,受限于其原理上的信息丢失缺陷,在处理长句子时,往往在处理句子末尾时,会丢失掉句子开头的信息,造成结果的错误。
3.目前主流的文本蕴含识别技术,在处理长句子与短句子之间的交互时,无法很好的在过滤掉长句中“无关”信息的情况下,保证不丢失短句子的信息,做到合理“遗忘”。
4.目前主流的文本蕴含识别模型,在同时处理两个句子的时候,无法准确地将判断其所需要的逻辑推理路径以一种比较合理而明显地方式展示出来,不具有可解释性。
发明内容
本发明的目的是提出基于2D-LSTM的文本蕴含识别方法,以解决现有技术中存在的问题。
基于2D-LSTM的文本蕴含识别方法,文本蕴含识别方法包括以下步骤:
步骤一、选择两个句子,利用按照两个句子的长短构建一个二维的大小为S*T的网格;
步骤二、从左到右、从上到下依次计算每个单元格的记忆向量;
步骤三、当计算到网格的右下角的单元格时,以把两个句子中的每个词与对方句子中的每个词进行两两比较,得到比较信息;
步骤四、在右下角的单元格中保存比较信息;
步骤五、利用比较信息建模两个句子之间的相似程度。
进一步的,在步骤一中,句子S和句子T的每个词对应网格的每一行和每一列。
进一步的,在步骤二中,网格中的每个单元格输入为:h1,h2,m1,m2,每个单元格的输出为h′1,h′2,m′1,m′2,其中h表示该单元格的隐藏向量hidden vectors,m表示该单元格的记忆向量memoryvectors,下标中的1与2,在输入时,表示其指向当前单元格的上方和左方,在输出时,表示其指向当前单元格的下方和右方,计算方式为:
Figure BDA0002952235900000031
其中,函数LSTM(·,·,·)为一维长短时记忆网络的计算函数,w1,w2分别为横向和纵向的一维长短时记忆网络的网络参数,LSTM模型详细计算方式如下:
Figure BDA0002952235900000032
其中,gf代表LSTM模型中的遗忘门没遗忘当前状态的比例,gu代表记忆门记住新的状态的比例,gcgo代表输出门对当前状态的转化输出,m’与h’即为全新的记忆向量与隐藏向量。
进一步的,在步骤三至步骤五中,具体的,从左向右、从上向下依次遍历所有二维网格中的所有单元格,得到右下角的网格的输出向量hfinal,通过公式(3)计算问句S和T的相似度:
sim(s,t)=σ(wfinalhfinal+b) (3)
上述公式中出现的
Figure BDA0002952235900000033
本发明的有以下优点:
(1)本发明是基于2D-LSTM的文本蕴含识别技术,对于目前主流模型的缺陷,都进行了一定程度的规避,同时对其优势,也进行了一定程度地继承。
(2)本发明的核心内核是基于RNN模型的变体LSTM模型,而非Transformer模型,因此能够很好地在顺序处理句子时,原生性地保留其词汇之间的顺序信息。并且能够通过门控机制,对句子中的“不重要”信息进行一定程度的“遗忘”。
(3)本发明虽然是基于LSTM模型,但是在其中对两个句子进行了二维展开,并且分别对于两个句子中任意两个词汇之间进行了信息交互,所得到的结果在一定程度上可以接近attention机制的效果,总而实现了对长句子的信息建模,以及对部分“重要”信息的强调。另一方面,二维的展开搭配顺序模型,能够得到具有一定解释性的,两个句子判断的逻辑依赖路径。
(4)本发明考虑到了对于包含短句的文本蕴含识别任务中,短句中的每一部分信息的重要性都很高,因此保留了基于LSTM模型对于短句的完整信息表示能力。这样就能够保证对于短句的处理过程中,不丢失其重要信息。
(5)本发明使用的训练任务是基于目前国际上比较主流的开源文本蕴含识别语料SNLI。并且其测试集中取得了88.9%的准确率,显著优于同类文本蕴含识别的实现方法。
附图说明
图1为二维长短时记忆网络的计算方式示意图;
图2为一个文本蕴含识别任务的具体实施例的计算方式示意图。
具体实施方式
下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出了基于2D-LSTM的文本蕴含识别方法。
2D-LSTM模型,即二维长短记忆网络。其本质上是将RNN模型的变体,LSTM模型在两句话的交叉维度,进行二维展开,从而同时对两个句子进行建模。该方法同时对两个问句进行建模,可以在网络中对问句中的各个词项进行对齐,可以得到与attention机制类似的效果,从而学到问句之间的关系。同时LSTM本身可以将不重要的信息进行遗忘,因此该模型也可以忽略掉不重要的无关信息。除此之外,二维的LSTM不仅可以很好地保留两个句子的顺序信息,还可以在网络中进行逻辑路径推导,得到具有一定可解释性的逻辑推理链条。
我们希望能提出一个对长短问句均能很好处理的模型,并能很好地将问句中的无关信息过滤掉。为此我们打算使用基于二维长短记忆网络(2d-LSTM)的句子相似度计算方法。
二维长短记忆网络有两个维度的输入,即两个句子s和t的词向量序列
Figure BDA0002952235900000051
Figure BDA0002952235900000052
它的输出两个句子的相似度sim(s,t)。
参照图1所示,利用二维网格长短时记忆网络来计算句子的相似度。
基于2D-LSTM的文本蕴含识别方法,文本蕴含识别方法包括以下步骤:
步骤一、选择两个句子,利用按照两个句子的长短构建一个二维的大小为S*T的网格;
步骤二、从左到右、从上到下依次计算每个单元格的记忆向量;
步骤三、当计算到网格的右下角的单元格时,以把两个句子中的每个词与对方句子中的每个词进行两两比较,得到比较信息;
步骤四、在右下角的单元格中保存比较信息;
步骤五、利用比较信息建模两个句子之间的相似程度。
进一步的,在步骤一中,句子S和句子T的每个词对应网格的每一行和每一列,二维长短时记忆网络中的每个单元格会对比所在行和所在列的单词的相似程度。
具体的,例如,第i行第j列的网格会对比单词si,tj的相似程度,并存入这个单元格的记忆向量。在计算这两个词之间的相似程度的同时会考虑它的左边、上面和左上面的三个单元格的记忆。这样相当于在计算第i行第j列的相似度时,考虑到了子句s1...i和子句t1...j的信息。
进一步的,在步骤二中,网格中的每个单元格输入为:h1,h2,m1,m2,每个单元格的输出为h′1,h′2,m′1,m′2,其中h表示该单元格的隐藏向量hidden vectors,m表示该单元格的记忆向量memory vectors,下标中的1与2,在输入时,表示其指向当前单元格的上方和左方,在输出时,表示其指向当前单元格的下方和右方,计算方式为:
Figure BDA0002952235900000061
其中,函数LSTM(·,·,·)为一维长短时记忆网络的计算函数,w1,w2分别为横向和纵向的一维长短时记忆网络的网络参数,LSTM详细计算方式如下:
Figure BDA0002952235900000062
其中,gf代表LSTM模型中的遗忘门没遗忘当前状态的比例,gu代表记忆门记住新的状态(即当前时间步的输入)的比例,gcgo代表输出门对当前状态的转化输出,m’与h’即为全新的记忆向量与隐藏向量。
进一步的,在步骤三至步骤五中,具体的,从左向右、从上向下依次遍历所有二维网格中的所有单元格,得到右下角的网格的输出向量hfinal,通过公式(3)计算问句S和T的相似度:
sim(s,t)=σ(wfinalhfinal+b) (3)
上述公式中出现的
Figure BDA0002952235900000063
以下为本发明的一实施例:
以一个文本蕴含识别任务为例说明本发明的实施方式。
假设经过分词后的任务句对为:
前提句:“下雨 了”
假设句:“我们 需要 带上 雨伞,穿上 防水的 衣服,带上 胶鞋。”
分别将两个句子在其交互层交叉展开,得到的结果如图2所示:前提句的词分别与假设句中的词汇进行了一一对应。
接着我们的算法会在这张表格中,分别对其中的每个箭头,进行LSTM模型的传播,最终得到汇聚于“胶鞋—了”格中的交互表示。在此基础上,我们会分别对表格中的每个格子(即其对应的LSTM模型传播到当前格子中的结果)进行信息汇总,将其转换为类似attention机制一样,表示其格子所对应的前提句和假设句中的词汇所“相关的程度”,并进而以此为基础判断这两个词汇是否属于“无关信息”,并最终结合两个句子结尾对应的结果进行分类,最终得到其是否构成蕴含关系的判断。
本发明中,对于2D-LSTM模型在处理具体句对时,其方向不仅包含简单地从两句的开头指向结尾。在实际应用过程中,通过其他方式得到的能够更好完成对句子建模的处理方向或者顺序,应当视为本发明的一部分。
以上实施示例只是用于帮助理解本发明的方法及其核心思想,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (4)

1.基于2D-LSTM的文本蕴含识别方法,其特征在于,所述文本蕴含识别方法包括以下步骤:
步骤一、选择两个句子,利用按照两个句子的长短构建一个二维的大小为S*T的网格;
步骤二、从左到右、从上到下依次计算每个单元格的记忆向量;
步骤三、当计算到网格的右下角的单元格时,以把所述两个句子中的每个词与对方句子中的每个词进行两两比较,得到比较信息;
步骤四、在右下角的单元格中保存所述比较信息;
步骤五、利用所述比较信息建模两个句子之间的相似程度。
2.根据权利要求1所述的基于2D-LSTM的文本蕴含识别方法,其特征在于,在步骤一中,句子S和句子T的每个词对应网格的每一行和每一列。
3.根据权利要求1所述的基于2D-LSTM的文本蕴含识别方法,其特征在于,在步骤二中,网格中的每个单元格输入为:h1,h2,m1,m2,每个单元格的输出为h′1,h′2,m′1,m′2,其中h表示该单元格的隐藏向量hidden vectors,m表示该单元格的记忆向量memory vectors,下标中的1与2,在输入时,表示其指向当前单元格的上方和左方,在输出时,表示其指向当前单元格的下方和右方,计算方式为:
Figure FDA0002952235890000011
其中,函数LSTM(·,·,·)为一维长短时记忆网络的计算函数,w1,w2分别为横向和纵向的一维长短时记忆网络的网络参数,LSTM模型详细计算方式如下:
Figure FDA0002952235890000012
其中,gf代表LSTM模型中的遗忘门没遗忘当前状态的比例,gu代表记忆门记住新的输入的比例,gcgo代表输出门对当前状态的转化输出,m’与h’即为全新的记忆向量与隐藏向量。
4.根据权利要求1所述的基于2D-LSTM的文本蕴含识别方法,其特征在于,在步骤三至步骤五中,具体的,从左向右、从上向下依次遍历所有二维网格中的所有单元格,得到右下角的网格的输出向量hfinal,通过公式(3)计算问句S和T的相似度:
sim(s,t)=σ(wfinalhfinal+b) (3)
上述公式中出现的
Figure FDA0002952235890000021
CN202110210878.8A 2021-02-25 2021-02-25 基于2d-lstm的文本蕴含识别方法 Pending CN112883708A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110210878.8A CN112883708A (zh) 2021-02-25 2021-02-25 基于2d-lstm的文本蕴含识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110210878.8A CN112883708A (zh) 2021-02-25 2021-02-25 基于2d-lstm的文本蕴含识别方法

Publications (1)

Publication Number Publication Date
CN112883708A true CN112883708A (zh) 2021-06-01

Family

ID=76054502

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110210878.8A Pending CN112883708A (zh) 2021-02-25 2021-02-25 基于2d-lstm的文本蕴含识别方法

Country Status (1)

Country Link
CN (1) CN112883708A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169035A (zh) * 2017-04-19 2017-09-15 华南理工大学 一种混合长短期记忆网络和卷积神经网络的文本分类方法
US20180121787A1 (en) * 2016-11-03 2018-05-03 Salesforce.Com, Inc. Joint Many-Task Neural Network Model for Multiple Natural Language Processing (NLP) Tasks
CN109165300A (zh) * 2018-08-31 2019-01-08 中国科学院自动化研究所 文本蕴含识别方法及装置
CN109299262A (zh) * 2018-10-09 2019-02-01 中山大学 一种融合多粒度信息的文本蕴含关系识别方法
CN109766853A (zh) * 2019-01-16 2019-05-17 华北电力大学 基于lstm的电压暂降扰动分类方法
CN110321563A (zh) * 2019-06-28 2019-10-11 浙江大学 基于混合监督模型的文本情感分析方法
CN110390397A (zh) * 2019-06-13 2019-10-29 成都信息工程大学 一种文本蕴含识别方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180121787A1 (en) * 2016-11-03 2018-05-03 Salesforce.Com, Inc. Joint Many-Task Neural Network Model for Multiple Natural Language Processing (NLP) Tasks
CN107169035A (zh) * 2017-04-19 2017-09-15 华南理工大学 一种混合长短期记忆网络和卷积神经网络的文本分类方法
CN109165300A (zh) * 2018-08-31 2019-01-08 中国科学院自动化研究所 文本蕴含识别方法及装置
CN109299262A (zh) * 2018-10-09 2019-02-01 中山大学 一种融合多粒度信息的文本蕴含关系识别方法
CN109766853A (zh) * 2019-01-16 2019-05-17 华北电力大学 基于lstm的电压暂降扰动分类方法
CN110390397A (zh) * 2019-06-13 2019-10-29 成都信息工程大学 一种文本蕴含识别方法及装置
CN110321563A (zh) * 2019-06-28 2019-10-11 浙江大学 基于混合监督模型的文本情感分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
NAL KALCHBRENNER 等: "GRID LONG SHORT-TERM MEMORY", 《HTTPS://ARXIV.ORG/ABS/1507.01526》 *

Similar Documents

Publication Publication Date Title
CN109918671B (zh) 基于卷积循环神经网络的电子病历实体关系抽取方法
CN112347268A (zh) 一种文本增强的知识图谱联合表示学习方法及装置
CN110033008B (zh) 一种基于模态变换与文本归纳的图像描述生成方法
CN113204952B (zh) 一种基于聚类预分析的多意图与语义槽联合识别方法
CN111291556A (zh) 基于实体义项的字和词特征融合的中文实体关系抽取方法
CN113590799B (zh) 一种基于多视角推理的弱监督知识图谱问答方法
CN110807069B (zh) 一种基于强化学习算法的实体关系联合抽取模型构建方法
CN111046661A (zh) 基于图卷积网络的阅读理解方法
CN113255366B (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN112800768A (zh) 一种嵌套命名实体识别模型的训练方法及装置
CN112287106A (zh) 一种基于双通道混合神经网络的在线评论情感分类方法
CN114168754A (zh) 一种基于句法依赖和融合信息的关系抽取方法
CN112883708A (zh) 基于2d-lstm的文本蕴含识别方法
CN116028888A (zh) 一种平面几何数学题目的自动解题方法
CN113408289B (zh) 一种多特征融合的供应链管理实体知识抽取的方法及系统
CN116340507A (zh) 一种基于混合权重和双通道图卷积的方面级情感分析方法
Wang et al. Predicting the Chinese poetry prosodic based on a developed BERT model
CN116150353A (zh) 意图特征提取模型训练方法、意图识别方法及相关装置
Wang et al. End-to-end relation extraction using graph convolutional network with a novel entity attention
CN114266258A (zh) 一种语义关系提取方法、装置、电子设备及存储介质
Wu A Computational Neural Network Model for College English Grammar Correction
CN117576710B (zh) 用于大数据分析的基于图生成自然语言文本的方法及装置
CN111125308A (zh) 一种支持语义联想的轻量级文本模糊搜索的方法
CN117291265B (zh) 一种基于文本大数据的知识图谱构建方法
CN114840697B (zh) 一种云服务机器人的视觉问答方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210601