CN107239560B - 一种基于深度学习的文本蕴含关系识别方法 - Google Patents

一种基于深度学习的文本蕴含关系识别方法 Download PDF

Info

Publication number
CN107239560B
CN107239560B CN201710438756.8A CN201710438756A CN107239560B CN 107239560 B CN107239560 B CN 107239560B CN 201710438756 A CN201710438756 A CN 201710438756A CN 107239560 B CN107239560 B CN 107239560B
Authority
CN
China
Prior art keywords
matrix
hypothesis
premise
vector
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710438756.8A
Other languages
English (en)
Other versions
CN107239560A (zh
Inventor
刘思阳
张森林
樊臻
刘妹琴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201710438756.8A priority Critical patent/CN107239560B/zh
Publication of CN107239560A publication Critical patent/CN107239560A/zh
Application granted granted Critical
Publication of CN107239560B publication Critical patent/CN107239560B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于深度学习的文本蕴含关系识别方法,属于文本识别领域。该方法包括:步骤1:获取两个文本,将其中一个文本作为“前提”,另一个文本作为“假设”,并进行预处理,生成“前提”字符串和“假设”字符串;步骤2:生成“前提”基本矩阵的和“假设”基本矩阵;步骤3:计算“前提”和“假设”的距离关系矩阵和距离关系矩阵;步骤4:生成“前提”和“假设”的联合矩阵Up和联合矩阵矩阵Uh;步骤5:将联合矩阵分别送入深度学习模型中,生成m维双精度的“前提”句向量和“假设”句向量;步骤6:将“前提”和“假设”的句向量按照句向量混合方法生成分类向量;步骤7:将分类向量送入分类器,分类器输出“前提”和“假设”的关系。

Description

一种基于深度学习的文本蕴含关系识别方法
技术领域
本发明属于自然语言理解领域,一种基于深度学习的文本蕴含关系识别方法。
背景技术
伴随着大数据时代的到来,数据增长的速度越来越快。同时,这些数据中也充斥着大量无用、冗余的信息。让计算机“理解”文本的含义,并从大数据中收集、获取有价值的信息变得越来越重要。大数据具有4个特点:大量、高速、多样、价值,这些特征使得计算机快速从互联网上获取有价值的信息变得越来越困难。然而,一旦计算机深层次地理解了文本的语义,计算机就可以在互联网上自动收集、整理有价值的信息,极大地提高了劳动生产力。
文本蕴涵推理是自然语言处理的领域的关键和前沿问题之一,也是机器阅读的核心技术,它表现了人工智能中复杂性和自然语言的不确定性。另外,许多自然语言理解的任务,包括自动问答、信息检索与提取、机器翻译等都以该研究为核心。
虽然数据量得到了足够的积累,计算能力得到了大幅度提升,但相关的智能算法还存在着诸多问题,在自然语言理解方面存在着空白,如何使机器能够理解当前的文本并作出进一步的推理,成为当前自然语言理解里面的一个难点。
发明内容
本发明的目的在于针对现有技术的不足,并提供一种基于深度学习的文本蕴含关系识别方法
本发明的技术方案是:
一种基于深度学习的文本蕴含关系识别方法,具体按如下步骤进行:
步骤1:获取两个文本,将其中一个文本作为“前提”,另一个文本作为“假设”,并进行预处理,生成“前提”字符串
Figure BDA0001319276850000011
和“假设”字符串
Figure BDA0001319276850000012
其中lp为“前提”字符串Sp的长度,lh为“假设”字符串Sh的长度;
步骤2:将“前提”字符Sp和“假设”字符串Sh,采用Str2Matrix方法,生成n×lmax的“前提”基本矩阵Mp的和n×lmax的“假设”基本矩阵Mh;lmax为预设的最大句子长度;
步骤3:计算“前提”和“假设”的距离关系矩阵Dp和距离关系矩阵Dh
步骤4:生成“前提”和“假设”的联合矩阵Up和联合矩阵矩阵Uh
步骤5:将“前提”和“假设”中的联合矩阵分别送入深度学习模型中,生成m维双精度的“前提”句向量Vp和“假设”句向量Vh
步骤6:将“前提”和“假设”的句向量按照句向量混合方法生成分类向量;
步骤7:将分类向量送入分类器,分类器输出“前提”和“假设”的关系。
进一步的,“前提”是由中文或英文文本组成的短语;“假设”是由中文或英文文本组成的短语;“关系”是“前提”和“假设”之间的推理关系,推理关系包括:“蕴含”、“矛盾”和“中立”。
进一步的,所述步骤1中的预处理为:对“前提”和“假设”字符串进行分词处理
进一步的,所述步骤2中的Str2Matrix方法具体按如下步骤进行:
步骤1:S是需要处理的字符串,L为该字符串的长度,令i=0,生成n×lmax的零矩阵D;
步骤2:如果i小于等于L,执行步骤3,否则执行步骤5;
步骤3:在预训练好的字典中查找第i个单词或词语si是否存在,如果存在,将矩阵D的第i行替换成字符串S中第i个单词或词语si对应的n维双精度的词向量,如果字典中不存在si对应的N维双精度的词向量,则随机初始化词向量,并将将矩阵D的第i行替换成则随机初始化词向量;
步骤4:i加1,执行步骤2;
步骤5:结束。
进一步的,所述步骤3中距离关系矩阵Dp和Dh的计算方法如下:
距离关系矩阵Dp为lmax×lmax的矩阵如下:
Figure BDA0001319276850000031
距离关系矩阵Dh为Lmax×Lmax的矩阵如下:
Figure BDA0001319276850000032
其中d(x,y)为计算词向量x与词向量y距离的函数;
Figure BDA0001319276850000038
表示“前提”矩阵Mp的第i行;
Figure BDA0001319276850000033
表示“前提”矩阵Mh的第i行。
进一步的,所述步骤4中“前提”和“假设”的联合矩阵计算方法为:将基本矩阵和距离关系矩阵对应行收尾相接的方式生成联合矩阵。
进一步的,所述步骤5中联合矩阵的送入方式是将联合矩阵的行向量逐个有序的送入深度学习模型中。
进一步的,所述步骤6中的句向量混合方法具体实现方式如下:
计算Vph1,Vph2,Vph3,Vph4四个混合相量,并将其合并成最终的4m维的混合相量Vfin,混合相量的计算公式分别为:
Figure BDA0001319276850000034
Figure BDA0001319276850000035
Figure BDA0001319276850000036
Figure BDA0001319276850000037
Vfin=[Vph1 Vph2 Vph3 Vph4]
式中:Vi p为“前提”句向量Vp的第i个元素,Vi h为“假设”句向量Vh的第i个元素,i=1,2,…,m。
本发明相对于现有技术而言,具有以下有益效果:在文本推理蕴含关系时,可在同等向量长度的前提下包含更多信息,使算法的效率和精度大大提升。可以更好的实现自然语言理解任务。
附图说明
图1为本发明具体实施方式的结构原理示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。本发明中各个实施方式的技术特征在没有相互冲突的前提下,均可进行相应组合。
如图1所示,一种基于深度学习的文本蕴含关系识别方法,具体按如下步骤进行:
步骤1:获取两个文本,将其中一个文本作为“前提”,另一个文本作为“假设”,并进行预处理,生成“前提”字符串
Figure BDA0001319276850000041
和“假设”字符串
Figure BDA0001319276850000042
其中lp为“前提”字符串Sp的长度,lh为“假设”字符串Sh的长度;
其中:“前提”是由中文或英文文本组成的短语;“假设”是由中文或英文文本组成的短语;“关系”是“前提”和“假设”之间的推理关系,推理关系包括:“蕴含”、“矛盾”和“中立”。预处理为:对“前提”和“假设”字符串进行分词处理
步骤2:将“前提”字符Sp和“假设”字符串Sh,采用Str2Matrix方法,生成n×lmax的“前提”基本矩阵Mp的和n×lmax的“假设”基本矩阵Mh;lmax为预设的最大句子长度;
Str2Matrix方法具体按如下步骤进行:
步骤2.1:S是需要处理的字符串,L为该字符串的长度,令i=0,生成n×lmax的零矩阵D;
步骤2.2:如果i小于等于L,执行步骤2.3,否则执行步骤2.5;
步骤2.3:在预训练好的字典中查找第i个单词或词语si是否存在,如果存在,将矩阵D的第i行替换成字符串S中第i个单词或词语si对应的n维双精度的词向量,如果字典中不存在si对应的N维双精度的词向量,则随机初始化词向量,并将将矩阵D的第i行替换成则随机初始化词向量;
步骤2.4:i加1,执行步骤2.2;
步骤2.5:结束。
步骤3:计算“前提”和“假设”的距离关系矩阵Dp和距离关系矩阵Dh
本步骤中距离关系矩阵Dp和Dh的计算方法如下:
距离关系矩阵Dp为lmax×lmax的矩阵如下:
Figure BDA0001319276850000051
距离关系矩阵Dh为Lmax×Lmax的矩阵如下:
Figure BDA0001319276850000052
其中d(x,y)为计算词向量x与词向量y距离的函数;
Figure BDA0001319276850000053
表示“前提”矩阵Mp的第i行;
Figure BDA0001319276850000054
表示“前提”矩阵Mh的第i行。
步骤4:生成“前提”和“假设”的联合矩阵Up和联合矩阵矩阵Uh
本步骤中“前提”和“假设”的联合矩阵计算方法为:将基本矩阵和距离关系矩阵对应行收尾相接的方式生成联合矩阵。
步骤5:将“前提”和“假设”中的联合矩阵分别送入深度学习模型中,生成m维双精度的“前提”句向量Vp和“假设”句向量Vh
本步骤中联合矩阵的送入方式是将联合矩阵的行向量逐个有序的送入深度学习模型中。
步骤6:将“前提”和“假设”的句向量按照句向量混合方法生成分类向量;
本步骤中的句向量混合方法具体实现方式如下:
计算Vph1,Vph2,Vph3,Vph4四个混合相量,并将其合并成最终的4m维的混合相量Vfin,混合相量的计算公式分别为:
Figure BDA0001319276850000061
Figure BDA0001319276850000062
Figure BDA0001319276850000063
Figure BDA0001319276850000064
Vfin=[Vph1 Vph2 Vph3 Vph4]
式中:Vi p为“前提”句向量Vp的第i个元素,Vi h为“假设”句向量Vh的第i个元素,i=1,2,…,m。
步骤7:将分类向量送入分类器,分类器输出“前提”和“假设”的关系。
实施例1
本实施例中,一种基于深度学习的文本蕴含关系识别算法,具体按如下步骤进行:
获取两个文本,将其中一个文本作为“前提”,另一个文本作为“假设”:
前提:Two women having drinks and smoking cigarettes at the bar.
假设:Two women are at a bar.
预设的最大语句长度为15。
步骤1:对“前提”、“假设”进行预处理,生成“前提”字符串Sp=[”Two”,”women”,”having”,”drinks”,”and”,”smoking”,”cigarettes”,”at”,”the”,”bar”,”.”]和“假设”字符串Sh=[”Two”,”women”,”are”,”at”,”a”,”bar”,”.”];
步骤2:将“前提”字符Sp和“假设”字符串Sh,采用Str2Matrix方法,生成n×lmax的“前提”基本矩阵Mp的和n×lmax的“假设”基本矩阵Mh
Figure BDA0001319276850000071
其中WVword表示word的n维词向量。
步骤3:计算“前提”和“假设”的距离关系矩阵Dp和距离关系矩阵Dh
Figure BDA0001319276850000081
由于矩阵Dp过长,横向拆分成以上两张图片。
Figure BDA0001319276850000091
由于矩阵Dh过长,横向拆分成以上两张图片。
步骤4:生成“前提”和“假设”的联合矩阵Up和联合矩阵矩阵Uh
步骤5:将“前提”和“假设”中的联合矩阵分别送入深度学习模型中,生成m维双精度的“前提”句向量Vp和“假设”句向量Vh
步骤6:将“前提”和“假设”的句向量按照句向量混合方法生成分类向量;
Figure BDA0001319276850000101
Figure BDA0001319276850000102
Figure BDA0001319276850000103
Figure BDA0001319276850000104
Vfin=[Vph1 Vph2 Vph3 Vph4]
步骤7:将分类向量送入分类器,分类器输出“前提”和“假设”的关系。
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (7)

1.一种基于深度学习的文本蕴含关系识别方法,其特征在于:具体按如下步骤进行:
步骤1:获取两个文本,将其中一个文本作为“前提”,另一个文本作为“假设”,并进行预处理,生成“前提”字符串
Figure FDA0002486039780000011
和“假设”字符串
Figure FDA0002486039780000012
其中lp为“前提”字符串Sp的长度,lh为“假设”字符串Sh的长度;
步骤2:将“前提”字符Sp和“假设”字符串Sh,采用Str2Matrix方法,生成n×lmax的“前提”基本矩阵Mp和n×lmax的“假设”基本矩阵Mh;lmax为预设的最大句子长度;
步骤3:计算“前提”和“假设”的距离关系矩阵Dp和距离关系矩阵Dh
步骤4:生成“前提”和“假设”的联合矩阵Up和联合矩阵Uh
步骤5:将“前提”和“假设”中的联合矩阵分别送入深度学习模型中,生成m维双精度的“前提”句向量Vp和“假设”句向量Vh
步骤6:将“前提”和“假设”的句向量按照句向量混合方法生成分类向量;
步骤7:将分类向量送入分类器,分类器输出“前提”和“假设”的关系;
所述步骤2中的Str2Matrix方法具体按如下步骤进行:
步骤2.1:S是需要处理的字符串,L为该字符串的长度,令i=0,生成n×lmax的零矩阵D;
步骤2.2:如果i小于等于L,执行步骤2.3,否则执行步骤2.5;
步骤2.3:在预训练好的字典中查找第i个单词或词语si是否存在,如果存在,将矩阵D的第i行替换成字符串S中第i个单词或词语si对应的n维双精度的词向量,如果字典中不存在si对应的N维双精度的词向量,则随机初始化词向量,并将矩阵D的第i行替换成则随机初始化词向量;
步骤2.4:i加1,执行步骤2.2;
步骤2.5:结束。
2.根据权利要求1所述一种基于深度学习的文本蕴含关系识别方法,其特征在于:“前提”是由中文或英文文本组成的短语;“假设”是由中文或英文文本组成的短语;“关系”是“前提”和“假设”之间的推理关系,推理关系包括:“蕴含”、“矛盾”和“中立”。
3.根据权利要求1所述一种基于深度学习的文本蕴含关系识别方法,其特征在于:所述步骤1中的预处理为:对“前提”和“假设”字符串进行分词处理。
4.根据权利要求1所述一种基于深度学习的文本蕴含关系识别方法,其特征在于所述步骤3中距离关系矩阵Dp和Dh的计算方法如下:
距离关系矩阵Dp为lmax×lmax的矩阵如下:
Figure FDA0002486039780000021
距离关系矩阵Dh为Lmax×Lmax的矩阵如下:
Figure FDA0002486039780000022
其中d(x,y)为计算词向量x与词向量y距离的函数;
Figure FDA0002486039780000023
表示“前提”矩阵Mp的第i行;
Figure FDA0002486039780000024
表示“前提”矩阵Mh的第i行。
5.根据权利要求1所述一种基于深度学习的文本蕴含关系识别方法,其特征在于所述步骤4中“前提”和“假设”的联合矩阵计算方法为:将基本矩阵和距离关系矩阵对应行首尾相接的方式生成联合矩阵。
6.根据权利要求1所述一种基于深度学习的文本蕴含关系识别方法,其特征在于所述步骤5中联合矩阵的送入方式是将联合矩阵的行向量逐个有序的送入深度学习模型中。
7.根据权利要求1所述一种基于深度学习的文本蕴含关系识别方法,其特征在于所述步骤6中的句向量混合方法具体实现方式如下:
计算Vph1,Vph2,Vph3,Vph4四个混合向量,并将其合并成最终的4m维的混合向量Vfin,混合向量的计算公式分别为:
Figure FDA0002486039780000031
Figure FDA0002486039780000032
Figure FDA0002486039780000033
Figure FDA0002486039780000034
Vfin=[Vph1 Vph2 Vph3 Vph4]
式中:Vi p为“前提”句向量Vp的第i个元素,Vi h为“假设”句向量Vh的第i个元素,i=1,2,…,m。
CN201710438756.8A 2017-06-12 2017-06-12 一种基于深度学习的文本蕴含关系识别方法 Active CN107239560B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710438756.8A CN107239560B (zh) 2017-06-12 2017-06-12 一种基于深度学习的文本蕴含关系识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710438756.8A CN107239560B (zh) 2017-06-12 2017-06-12 一种基于深度学习的文本蕴含关系识别方法

Publications (2)

Publication Number Publication Date
CN107239560A CN107239560A (zh) 2017-10-10
CN107239560B true CN107239560B (zh) 2020-07-03

Family

ID=59986247

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710438756.8A Active CN107239560B (zh) 2017-06-12 2017-06-12 一种基于深度学习的文本蕴含关系识别方法

Country Status (1)

Country Link
CN (1) CN107239560B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108717574B (zh) * 2018-03-26 2021-09-21 浙江大学 一种基于连词标记和强化学习的自然语言推理方法
CN108829737B (zh) * 2018-05-21 2021-11-05 浙江大学 基于双向长短期记忆网络的文本交叉组合分类方法
CN109165300B (zh) * 2018-08-31 2020-08-11 中国科学院自动化研究所 文本蕴含识别方法及装置
CN109460549A (zh) * 2018-10-12 2019-03-12 北京奔影网络科技有限公司 语义向量的处理方法及装置
CN111666405B (zh) * 2019-03-06 2023-07-07 百度在线网络技术(北京)有限公司 用于识别文本蕴含关系的方法和装置
CN110390397B (zh) * 2019-06-13 2020-07-10 成都信息工程大学 一种文本蕴含识别方法及装置
CN110618980A (zh) * 2019-09-09 2019-12-27 上海交通大学 基于法律文本精确匹配和矛盾检测的系统及方法
CN113010676B (zh) * 2021-03-15 2023-12-08 北京语言大学 一种文本知识提取方法、装置及自然语言推断系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838835A (zh) * 2014-02-25 2014-06-04 中国科学院自动化研究所 一种网络敏感视频检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150129134A (ko) * 2014-05-08 2015-11-19 한국전자통신연구원 질의 응답 시스템 및 그 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838835A (zh) * 2014-02-25 2014-06-04 中国科学院自动化研究所 一种网络敏感视频检测方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Inference Rules and their Application to Recognizing Textual Entailment;Georgiana Dinu et al;《Proceedings of the 12th Conference of the European Chapter of the ACL》;20090403;第211-219页 *
Reading and Thinking: Re-read LSTM Unit for Textual Entailment Recognition;Lei Sha et al;《Proceedigns of COLING 2016》;20161217;第2870-2879页 *
Reasoning About Entailment with Neural Attention;Tim Rocktaschel et al;《Computation and Laugenge》;20160301;第1-9页 *
基于LSTM的英文文本蕴含识别方法研究;刘阳;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170215;第2017年卷(第02期);第I138-4734页 *
基于深度神经网络的文本蕴含识别及应用研究;王宝鑫;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170215;第2017年卷(第02期);第I138-4700页 *
基于蕴含的文本搜索的研究与实现;梁海峰;《中国优秀硕士学位论文全文数据库 信息科技辑》;20150415;第2015年卷(第04期);第I138-1193页 *

Also Published As

Publication number Publication date
CN107239560A (zh) 2017-10-10

Similar Documents

Publication Publication Date Title
CN107239560B (zh) 一种基于深度学习的文本蕴含关系识别方法
CN110866117B (zh) 一种基于语义增强与多层次标签嵌入的短文本分类方法
CN107563498B (zh) 基于视觉与语义注意力相结合策略的图像描述方法及系统
CN107133213B (zh) 一种基于算法的文本摘要自动提取方法与系统
CN111738251A (zh) 一种融合语言模型的光学字符识别方法、装置和电子设备
CN110457689B (zh) 语义处理方法及相关装置
CN111444330A (zh) 提取短文本关键词的方法、装置、设备及存储介质
CN109697288B (zh) 一种基于深度学习的实例对齐方法
CN107818082B (zh) 结合短语结构树的语义角色识别方法
CN112818951A (zh) 一种票证识别的方法
Hong et al. Understanding blooming human groups in social networks
CN109918507B (zh) 一种基于TextCNN改进的文本分类方法
CN112699232A (zh) 文本标签提取方法、装置、设备和存储介质
CN114020906A (zh) 基于孪生神经网络的中文医疗文本信息匹配方法及系统
CN112182156B (zh) 基于文本处理的方面级可解释深度网络评分预测推荐方法
CN111563372B (zh) 一种基于教辅书籍出版的排版文档内容自查重方法
US11615247B1 (en) Labeling method and apparatus for named entity recognition of legal instrument
CN116129289A (zh) 一种注意力边缘交互的光学遥感图像显著性目标检测方法
CN111859950A (zh) 一种自动化生成讲稿的方法
CN112232070A (zh) 自然语言处理模型构建方法、系统、电子设备及存储介质
CN114298031A (zh) 文本处理方法、计算机设备及存储介质
CN112434686B (zh) 针对ocr图片的端到端含错文本分类识别仪
CN109325237B (zh) 用于机器翻译的完整句识别方法与系统
CN111368532A (zh) 一种基于lda的主题词嵌入消歧方法及系统
CN111460147A (zh) 一种基于语义增强的标题短文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant