CN109522920A

CN109522920A - 基于结合语义特征的同义判别模型的训练方法及设备

Info

Publication number: CN109522920A
Application number: CN201811088050.4A
Authority: CN
Inventors: 张容晟; 舒畅; 武拥珍; 何永; 李传丰
Original assignee: Yi Language Intelligent Technology (shanghai) Co Ltd
Current assignee: Yiyu Intelligent Technology (Jiaxing) Co.,Ltd.
Priority date: 2018-09-18
Filing date: 2018-09-18
Publication date: 2019-03-26
Anticipated expiration: 2038-09-18
Also published as: CN109522920B

Abstract

本发明的目的是提供一种基于结合语义特征的同义判别模型的训练方法及设备，针对单一模型存在的缺点，本发明提出一种将两种方法结合起来的模型，充分利用二者的优势，弥补各自的不足。本发明通过结合卷积神经网络和循环神经网络所提取的特征，挖掘自然语言的深度语义，提高机器判别两句话相似度的准确率。同时，本发明在卷积神经网络提取特征的过程中引入了注意力机制，使得每个字/词能定位到另一句中的对应部分。相比于已有的方案，通过以上方法提取的特征能够更好地反映两个句子的深层语义，从而提高同义判别的准确率。

Description

基于结合语义特征的同义判别模型的训练方法及设备

技术领域

本发明涉及计算机领域，尤其涉及一种基于结合语义特征的同义判别模型的训练方法及设备。

背景技术

近几年，随着深度学习领域的飞速发展，越来越多的自然语言处理相关的任务也逐渐从传统的做法转向使用深度学习的方法，在效果上也有明显的提升。这些任务中比较典型的有：机器翻译，文本生成，情感分类，智能问答等。

同义句判别作为其中的一个重要任务，在近些年获得了极大关注，其根本原因在于这一任务与实际工程具有良好的契合性。当前企业所构建的问答库大多由预设的问题及与之匹配的回答构成。若使用简单的文字匹配搜索，则即使用户输入的问题与数据库中问题只有细微的差别，也无法得到相应的回答。在这种情况下，使用同义句判别可以很好的解决这一问题。只需将用户输入的问题与库中问题逐一做同义句判别，即可找出与用户问题意义相同的句子，从而得到相应的答案。可以发现，能否使用这一方法的关键就在于判别结果是否准确，而如何提高判别的准确率正是当前研究的热点。

发明内容

本发明的一个目的是提供一种基于结合语义特征的同义判别模型的训练方法及设备。

根据本发明的一个方面，提供了一种基于结合语义特征的同义判别模型的训练方法，该方法包括：

将输入的作为句子对两个句子分别按字或词拆分，得到每个句子对应的字或词序列，并根据所述字或词序列查找相对应的词向量，得到每个句子对应的词向量矩阵；

利用卷积神经网络对两个句子的词向量矩阵分别进行特征提取，得到所述句子对的卷积特征；

利用注意力机制对两个句子的词向量矩阵分别进行处理，得到每个句子的互注意力矩阵，并利用每个句子的互注意力矩阵对两个句子的词向量矩阵进行映射，得到所述句子对的注意力特征；

利用注意力机制对所述句子对的卷积特征进行处理，得到卷积特征的互注意力矩阵对，并利用所述卷积特征的互注意力矩阵对所述句子对的卷积特征进行映射，得到所述句子对的卷积特征的注意力特征；

利用双向循环神经网络对两个句子的词向量矩阵分别进行特征提取，得到句子对的循环特征；

对所述句子对进行统计分析，以提取所述句子对的统计特征；

将所述句子对的卷积特征、句子对的注意力特征、所述句子对的卷积特征的注意力特征、句子对的循环特征和句子对的统计特征拼接为一个矩阵，得到总的特征矩阵；

将所述总的特征矩阵输入神经网络模型中学习，使得神经网络模型学习到同义语句之间与不同义语句之间的特征。

进一步的，上述方法中，根据所述字或词序列查找相对应的词向量，包括：

根据所述字或词序列，并利用当前语料训练得到词向量；或，

根据所述字或词序列在预训练好的词向量中查找相对应的词向量。

进一步的，上述方法中，所述句子对的统计特征包括：两个句子的长度差和/或编辑距离。

进一步的，上述方法中，将待判断的句子对输入学习完毕的神经网络模型中，以确定所述待判断的句子对是否为同义语句。

根据本发明的另一面，还提供一种基于结合语义特征的同义判别模型的训练设备，其中，该设备包括：

第一装置，用于将输入的作为句子对两个句子分别按字或词拆分，得到每个句子对应的字或词序列，并根据所述字或词序列查找相对应的词向量，得到每个句子对应的词向量矩阵；

第二装置，用于利用卷积神经网络对两个句子的词向量矩阵分别进行特征提取，得到所述句子对的卷积特征；

第三装置，用于利用注意力机制对两个句子的词向量矩阵分别进行处理，得到每个句子的互注意力矩阵，并利用每个句子的互注意力矩阵对两个句子的词向量矩阵进行映射，得到所述句子对的注意力特征；

第四装置，用于利用注意力机制对所述句子对的卷积特征进行处理，得到卷积特征的互注意力矩阵对，并利用所述卷积特征的互注意力矩阵对所述句子对的卷积特征进行映射，得到所述句子对的卷积特征的注意力特征；

第五装置，用于利用双向循环神经网络对两个句子的词向量矩阵分别进行特征提取，得到句子对的循环特征；

第六装置，用于对所述句子对进行统计分析，以提取所述句子对的统计特征；

第七装置，用于将所述句子对的卷积特征、句子对的注意力特征、所述句子对的卷积特征的注意力特征、句子对的循环特征和句子对的统计特征拼接为一个矩阵，得到总的特征矩阵；

第八装置，用于将所述总的特征矩阵输入神经网络模型中学习，使得神经网络模型学习到同义语句之间与不同义语句之间的特征。

进一步的，上述设备中，第一装置，用于根据所述字或词序列，并利用当前语料训练得到词向量；或，根据所述字或词序列在预训练好的词向量中查找相对应的词向量。

进一步的，上述设备中，所述句子对的统计特征包括：两个句子的长度差和/或编辑距离。

进一步的，上述设备中，还包括第九装置，用于将待判断的句子对输入学习完毕的神经网络模型中，以确定所述待判断的句子对是否为同义语句。

根据本发明的另一面，还提供一种基于计算的设备，其中，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器：

根据本发明的另一面，还提供一种计算机可读存储介质，其上存储有计算机可执行指令，其中，该计算机可执行指令被处理器执行时使得该处理器：

与现有技术相比，针对单一模型存在的缺点，本发明提出一种将两种方法结合起来的模型，充分利用二者的优势，弥补各自的不足。本发明通过结合卷积神经网络和循环神经网络所提取的特征，挖掘自然语言的深度语义，提高机器判别两句话相似度的准确率。同时，本发明在卷积神经网络提取特征的过程中引入了注意力机制，使得每个字/词能定位到另一句中的对应部分。相比于已有的方案，通过以上方法提取的特征能够更好地反映两个句子的深层语义，从而提高同义判别的准确率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示出根据本发明一个方面的一种基于结合语义特征的同义判别模型的训练方法及设备的原理图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本发明作进一步详细描述。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

如图1所示，本发明提供一种基于结合语义特征的同义判别模型的训练方法，包括：

步骤S1，将输入的作为句子对两个句子分别按字或词拆分，得到每个句子对应的字或词序列，并根据所述字或词序列查找相对应的词向量，得到每个句子对应的词向量矩阵；

在此，所述句子对(sentence pair)是输入的两个语句，这里研究的问题主要是判别两个句子(一对句子)是否为同义句；

可以根据所述字或词序列，并利用当前语料训练得到词向量，也可以根据所述字或词序列在预训练好的词向量中查找相对应的词向量；

经过步骤S1，可以将输入的自然语言语句转化为相对应的词向量矩阵，以方便之后的处理；

步骤S2，利用卷积神经网络对步骤S1得到的两个句子的词向量矩阵分别进行特征提取，得到所述句子对的卷积特征；

在此，步骤S2可以让每个句子的局部特征得到挖掘；

步骤S3，利用注意力机制对步骤S1得到的两个句子的词向量矩阵分别进行处理，得到每个句子的互注意力矩阵，并利用每个句子的互注意力矩阵对两个句子的词向量矩阵进行映射，得到所述句子对的注意力特征；

在此，这一步通过构建互注意力矩阵，使得每个句子中的字/词能在另一个句子中找到与之对应的部分；

步骤S4，利用注意力机制对步骤S2得到的所述句子对的卷积特征进行处理，得到卷积特征的互注意力矩阵对，并利用所述卷积特征的互注意力矩阵对所述句子对的卷积特征进行映射，得到所述句子对的卷积特征的注意力特征；

在此，步骤S4与步骤S3类似，区别在于步骤S4是在句子对的卷积特征对基础上进一步挖掘两个句子相互关联的部分；

步骤S5，利用双向循环神经网络对步骤S1得到的两个句子的词向量矩阵分别进行特征提取，得到句子对的循环特征；

在此，步骤S5可以让句子的全局特征得到挖掘；

步骤S6，对所述句子对进行统计分析，以提取所述句子对的统计特征；

在此，所述句子对的统计特征包括两个句子的长度差、编辑距离等；

通过步骤S6得到句子对的统计特征，这一步从统计领域出发，挖掘两个句子的相似特征，可以看作是对以上各步骤提取的特征的一种补充；

步骤S7，将以上步骤S2～6所提取出的所述句子对的卷积特征、句子对的注意力特征、所述句子对的卷积特征的注意力特征、句子对的循环特征和句子对的统计特征等全部拼接为一个矩阵，得到总的特征矩阵；

在此，这一步将所有提取出的特征合并为一个总的特征矩阵；

步骤S8，将步骤S7得到的所述总的特征矩阵输入神经网络模型中学习，使得神经网络模型学习到同义语句之间与不同义语句之间的特征，从而具备进行同义判别的能力。

本发明的基于结合语义特征的同义判别模型的训练方法一实施例中，步骤S8，将步骤S7得到的总的特征矩阵输入神经网络模型中学习，使得神经网络模型学习到同义语句之间与不同义语句之间的特征之后，还包括：

步骤S9，将待判断的句子对输入学习完毕的神经网络模型中，以确定所述待判断的句子对是否为同义语句。具体的，目前，用来进行同义判别的模型大多采用卷积神经网络或循环神经网络。这两种方法虽然已经被证明可以在一定程度上对句子语义进行分析，但都仍然存在弊端。

卷积神经网络通过利用卷积核对局部视野窗内的字/词进行卷积，从而得到字与字/词与词之间的联系，并将这些特征挖掘提取出来，用于分类判别。但这种方法的缺点在于无法获取相隔较远的字词之间的联系。

与之相反，循环神经网络由于其独特的“遗忘门”机制，对较长序列的处理有不错的效果。但同时，由于缺乏对局部信息的提取，循环神经网络同样不能达到非常理想的效果。

针对单一模型存在的缺点，本发明提出一种将两种方法结合起来的模型，充分利用二者的优势，弥补各自的不足。本发明通过结合卷积神经网络和循环神经网络所提取的特征，挖掘自然语言的深度语义，提高机器判别两句话相似度的准确率。同时，本发明在卷积神经网络提取特征的过程中引入了注意力机制，使得每个字/词能定位到另一句中的对应部分。相比于已有的方案，通过以上方法提取的特征能够更好地反映两个句子的深层语义，从而提高同义判别的准确率。

处理器；以及

本发明的各设备和存储介质实施例的详细内容，具体可参见各方法实施例的对应部分，在此，不再赘述。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

需要注意的是，本发明可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本发明的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本发明的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本发明的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种基于结合语义特征的同义判别模型的训练方法，其中，该方法包括：

2.根据权利要求1所述的方法，其中，根据所述字或词序列查找相对应的词向量，包括：

3.根据权利要求1所述的方法，其中，所述句子对的统计特征包括：两个句子的长度差和/或编辑距离。

4.根据权利要求1所述的方法，其中，将待判断的句子对输入学习完毕的神经网络模型中，以确定所述待判断的句子对是否为同义语句。

5.一种基于结合语义特征的同义判别模型的训练设备，其中，该设备包括：

6.根据权利要求1所述的设备，其中，第一装置，用于根据所述字或词序列，并利用当前语料训练得到词向量；或，根据所述字或词序列在预训练好的词向量中查找相对应的词向量。

7.根据权利要求5所述的设备，其中，所述句子对的统计特征包括：两个句子的长度差和/或编辑距离。

8.根据权利要求1所述的设备，其中，还包括第九装置，用于将待判断的句子对输入学习完毕的神经网络模型中，以确定所述待判断的句子对是否为同义语句。

9.一种基于计算的设备，其中，包括：

处理器；以及

10.一种计算机可读存储介质，其上存储有计算机可执行指令，其中，该计算机可执行指令被处理器执行时使得该处理器：