CN107239560A

CN107239560A - 一种基于深度学习的文本蕴含关系识别方法

Info

Publication number: CN107239560A
Application number: CN201710438756.8A
Authority: CN
Inventors: 刘思阳; 张森林; 樊臻; 刘妹琴
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2017-06-12
Filing date: 2017-06-12
Publication date: 2017-10-10
Anticipated expiration: 2037-06-12
Also published as: CN107239560B

Abstract

本发明公开了一种基于深度学习的文本蕴含关系识别方法，属于文本识别领域。该方法包括：步骤1：获取两个文本，将其中一个文本作为“前提”，另一个文本作为“假设”，并进行预处理，生成“前提”字符串和“假设”字符串；步骤2：生成“前提”基本矩阵的和“假设”基本矩阵；步骤3：计算“前提”和“假设”的距离关系矩阵和距离关系矩阵；步骤4：生成“前提”和“假设”的联合矩阵U^p和联合矩阵矩阵U^h；步骤5：将联合矩阵分别送入深度学习模型中，生成m维双精度的“前提”句向量和“假设”句向量；步骤6:将“前提”和“假设”的句向量按照句向量混合方法生成分类向量；步骤7：将分类向量送入分类器，分类器输出“前提”和“假设”的关系。

Description

一种基于深度学习的文本蕴含关系识别方法

技术领域

本发明属于自然语言理解领域，一种基于深度学习的文本蕴含关系识别方法。

背景技术

伴随着大数据时代的到来,数据增长的速度越来越快。同时,这些数据中也充斥着大量无用、冗余的信息。让计算机“理解”文本的含义,并从大数据中收集、获取有价值的信息变得越来越重要。大数据具有4个特点:大量、高速、多样、价值，这些特征使得计算机快速从互联网上获取有价值的信息变得越来越困难。然而,一旦计算机深层次地理解了文本的语义,计算机就可以在互联网上自动收集、整理有价值的信息,极大地提高了劳动生产力。

文本蕴涵推理是自然语言处理的领域的关键和前沿问题之一,也是机器阅读的核心技术,它表现了人工智能中复杂性和自然语言的不确定性。另外,许多自然语言理解的任务,包括自动问答、信息检索与提取、机器翻译等都以该研究为核心。

虽然数据量得到了足够的积累，计算能力得到了大幅度提升，但相关的智能算法还存在着诸多问题，在自然语言理解方面存在着空白，如何使机器能够理解当前的文本并作出进一步的推理，成为当前自然语言理解里面的一个难点。

发明内容

本发明的目的在于针对现有技术的不足，并提供一种基于深度学习的文本蕴含关系识别方法

本发明的技术方案是：

一种基于深度学习的文本蕴含关系识别方法，具体按如下步骤进行：

步骤1：获取两个文本，将其中一个文本作为“前提”，另一个文本作为“假设”，并进行预处理，生成“前提”字符串和“假设”字符串其中l_p为“前提”字符串S^p的长度，l_h为“假设”字符串S^h的长度；

步骤2：将“前提”字符S^p和“假设”字符串S^h，采用Str2Matrix方法，生成n×l_max的“前提”基本矩阵M^p的和n×l_max的“假设”基本矩阵M^h；l_max为预设的最大句子长度；

步骤3：计算“前提”和“假设”的距离关系矩阵D^p和距离关系矩阵D^h；

步骤4：生成“前提”和“假设”的联合矩阵U^p和联合矩阵矩阵U^h；

步骤5：将“前提”和“假设”中的联合矩阵分别送入深度学习模型中，生成m维双精度的“前提”句向量V^p和“假设”句向量V^h；

步骤6:将“前提”和“假设”的句向量按照句向量混合方法生成分类向量；

步骤7：将分类向量送入分类器，分类器输出“前提”和“假设”的关系。

进一步的，“前提”是由中文或英文文本组成的短语；“假设”是由中文或英文文本组成的短语；“关系”是“前提”和“假设”之间的推理关系，推理关系包括：“蕴含”、“矛盾”和“中立”。

进一步的，所述步骤1中的预处理为：对“前提”和“假设”字符串进行分词处理

进一步的，所述步骤2中的Str2Matrix方法具体按如下步骤进行：

步骤1:S是需要处理的字符串，L为该字符串的长度，令i＝0，生成n×l_max的零矩阵D；

步骤2:如果i小于等于L，执行步骤3，否则执行步骤5；

步骤3:在预训练好的字典中查找第i个单词或词语s_i是否存在，如果存在，将矩阵D的第i行替换成字符串S中第i个单词或词语s_i对应的n维双精度的词向量，如果字典中不存在s_i对应的N维双精度的词向量，则随机初始化词向量，并将将矩阵D的第i行替换成则随机初始化词向量；

步骤4:i加1，执行步骤2；

步骤5:结束。

进一步的，所述步骤3中距离关系矩阵D_p和D_h的计算方法如下：

距离关系矩阵D_p为l_max×l_max的矩阵如下：

距离关系矩阵D_h为L_max×L_max的矩阵如下：

其中d(x,y)为计算词向量x与词向量y距离的函数；表示“前提”矩阵M^p的第i行；表示“前提”矩阵M^h的第i行。

进一步的，所述步骤4中“前提”和“假设”的联合矩阵计算方法为：将基本矩阵和距离关系矩阵对应行收尾相接的方式生成联合矩阵。

进一步的，所述步骤5中联合矩阵的送入方式是将联合矩阵的行向量逐个有序的送入深度学习模型中。

进一步的，所述步骤6中的句向量混合方法具体实现方式如下：

计算V^ph1,V^ph2,V^ph3,V^ph4四个混合相量，并将其合并成最终的4m维的混合相量V^fin，混合相量的计算公式分别为：

V^fin＝[V^ph1 V^ph2 V^ph3 V^ph4]

式中：V_i ^p为“前提”句向量V^p的第i个元素，V_i ^h为“假设”句向量V^h的第i个元素，i＝1,2,…,m。

本发明相对于现有技术而言，具有以下有益效果：在文本推理蕴含关系时，可在同等向量长度的前提下包含更多信息，使算法的效率和精度大大提升。可以更好的实现自然语言理解任务。

附图说明

图1为本发明具体实施方式的结构原理示意图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述和说明。本发明中各个实施方式的技术特征在没有相互冲突的前提下，均可进行相应组合。

如图1所示，一种基于深度学习的文本蕴含关系识别方法，具体按如下步骤进行：

其中：“前提”是由中文或英文文本组成的短语；“假设”是由中文或英文文本组成的短语；“关系”是“前提”和“假设”之间的推理关系，推理关系包括：“蕴含”、“矛盾”和“中立”。预处理为：对“前提”和“假设”字符串进行分词处理

Str2Matrix方法具体按如下步骤进行：

步骤2.1:S是需要处理的字符串，L为该字符串的长度，令i＝0，生成n×l_max的零矩阵D；

步骤2.2:如果i小于等于L，执行步骤2.3，否则执行步骤2.5；

步骤2.3:在预训练好的字典中查找第i个单词或词语s_i是否存在，如果存在，将矩阵D的第i行替换成字符串S中第i个单词或词语s_i对应的n维双精度的词向量，如果字典中不存在s_i对应的N维双精度的词向量，则随机初始化词向量，并将将矩阵D的第i行替换成则随机初始化词向量；

步骤2.4:i加1，执行步骤2.2；

步骤2.5:结束。

步骤3：计算“前提”和“假设”的距离关系矩阵D_p和距离关系矩阵D_h；

本步骤中距离关系矩阵D_p和D_h的计算方法如下：

距离关系矩阵D_p为l_max×l_max的矩阵如下：

距离关系矩阵D_h为L_max×L_max的矩阵如下：

本步骤中“前提”和“假设”的联合矩阵计算方法为：将基本矩阵和距离关系矩阵对应行收尾相接的方式生成联合矩阵。

本步骤中联合矩阵的送入方式是将联合矩阵的行向量逐个有序的送入深度学习模型中。

本步骤中的句向量混合方法具体实现方式如下：

V^fin＝[V^ph1 V^ph2 V^ph3 V^ph4]

实施例1

本实施例中，一种基于深度学习的文本蕴含关系识别算法，具体按如下步骤进行：

获取两个文本，将其中一个文本作为“前提”，另一个文本作为“假设”：

前提：Two women having drinks and smoking cigarettes at the bar.

假设：Two women are at a bar.

预设的最大语句长度为15。

步骤1：对“前提”、“假设”进行预处理，生成“前提”字符串S^p＝[”Two”,”women”,”having”,”drinks”,”and”,”smoking”,”cigarettes”,”at”,”the”,”bar”,”.”]和“假设”字符串S^h＝[”Two”,”women”,”are”,”at”,”a”,”bar”,”.”]；

步骤2：将“前提”字符S^p和“假设”字符串S^h，采用Str2Matrix方法，生成n×l_max的“前提”基本矩阵M^p的和n×l_max的“假设”基本矩阵M^h；

其中WV_word表示word的n维词向量。

由于矩阵D_p过长，横向拆分成以上两张图片。

由于矩阵D_h过长，横向拆分成以上两张图片。

V^fin＝[V^ph1 V^ph2 V^ph3 V^ph4]

以上所述的实施例只是本发明的一种较佳的方案，然其并非用以限制本发明。有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种基于深度学习的文本蕴含关系识别方法，其特征在于：具体按如下步骤进行：

2.根据权利要求1所述一种基于深度学习的文本蕴含关系识别方法，其特征在于：“前提”是由中文或英文文本组成的短语；“假设”是由中文或英文文本组成的短语；“关系”是“前提”和“假设”之间的推理关系，推理关系包括：“蕴含”、“矛盾”和“中立”。

3.根据权利要求1所述一种基于深度学习的文本蕴含关系识别方法，其特征在于：所述步骤1中的预处理为：对“前提”和“假设”字符串进行分词处理

4.根据权利要求1所述一种分布式网络控制系统的加密认证算法，其特征在于：所述步骤2中的Str2Matrix方法具体按如下步骤进行：

步骤2:如果i小于等于L，执行步骤3，否则执行步骤5；

步骤4:i加1，执行步骤2；

步骤5:结束。

5.根据权利要求1所述一种基于深度学习的文本蕴含关系识别方法，其特征在于所述步骤3中距离关系矩阵D_p和D_h的计算方法如下：

距离关系矩阵D_p为l_max×l_max的矩阵如下：

距离关系矩阵D_h为L_max×L_max的矩阵如下：

6.根据权利要求1所述一种基于深度学习的文本蕴含关系识别方法，其特征在于所述步骤4中“前提”和“假设”的联合矩阵计算方法为：将基本矩阵和距离关系矩阵对应行收尾相接的方式生成联合矩阵。

7.根据权利要求1所述一种基于深度学习的文本蕴含关系识别方法，其特征在于所述步骤5中联合矩阵的送入方式是将联合矩阵的行向量逐个有序的送入深度学习模型中。

8.根据权利要求1所述一种基于深度学习的文本蕴含关系识别方法，其特征在于所述步骤6中的句向量混合方法具体实现方式如下：

<mrow> <msup> <mi>V</mi> <mrow> <mi>p</mi> <mi>h</mi> <mn>1</mn> </mrow> </msup> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mrow> <msubsup> <mi>V</mi> <mn>1</mn> <mi>p</mi> </msubsup> <mo>&times;</mo> <msubsup> <mi>V</mi> <mn>1</mn> <mi>h</mi> </msubsup> </mrow> </mtd> <mtd> <mrow> <msubsup> <mi>V</mi> <mn>2</mn> <mi>p</mi> </msubsup> <mo>&times;</mo> <msubsup> <mi>V</mi> <mn>2</mn> <mi>h</mi> </msubsup> </mrow> </mtd> <mtd> <mo>...</mo> </mtd> <mtd> <mrow> <msubsup> <mi>V</mi> <mrow> <mi>m</mi> <mo>-</mo> <mn>1</mn> </mrow> <mi>p</mi> </msubsup> <mo>&times;</mo> <msubsup> <mi>V</mi> <mrow> <mi>m</mi> <mo>-</mo> <mn>1</mn> </mrow> <mi>h</mi> </msubsup> </mrow> </mtd> <mtd> <mrow> <msubsup> <mi>V</mi> <mi>m</mi> <mi>p</mi> </msubsup> <mo>&times;</mo> <msubsup> <mi>V</mi> <mi>m</mi> <mi>h</mi> </msubsup> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>

<mrow> <msup> <mi>V</mi> <mrow> <mi>p</mi> <mi>h</mi> <mn>3</mn> </mrow> </msup> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mrow> <msubsup> <mi>V</mi> <mn>1</mn> <mi>p</mi> </msubsup> <mo>&times;</mo> <msubsup> <mi>V</mi> <mi>m</mi> <mi>h</mi> </msubsup> </mrow> </mtd> <mtd> <mrow> <msubsup> <mi>V</mi> <mn>2</mn> <mi>p</mi> </msubsup> <mo>&times;</mo> <msubsup> <mi>V</mi> <mrow> <mi>m</mi> <mo>-</mo> <mn>1</mn> </mrow> <mi>h</mi> </msubsup> </mrow> </mtd> <mtd> <mo>...</mo> </mtd> <mtd> <mrow> <msubsup> <mi>V</mi> <mrow> <mi>m</mi> <mo>-</mo> <mn>1</mn> </mrow> <mi>p</mi> </msubsup> <mo>&times;</mo> <msubsup> <mi>V</mi> <mn>2</mn> <mi>h</mi> </msubsup> </mrow> </mtd> <mtd> <mrow> <msubsup> <mi>V</mi> <mi>m</mi> <mi>p</mi> </msubsup> <mo>&times;</mo> <msubsup> <mi>V</mi> <mn>1</mn> <mi>h</mi> </msubsup> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>

V^fin＝[V^ph1 V^ph2 V^ph3 V^ph4]