CN107797985B

CN107797985B - 建立同义鉴别模型以及鉴别同义文本的方法、装置

Info

Publication number: CN107797985B
Application number: CN201710890961.8A
Authority: CN
Inventors: 范淼; 孙明明; 林武桃; 李平
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2017-09-27
Filing date: 2017-09-27
Publication date: 2022-02-25
Anticipated expiration: 2037-09-27
Also published as: CN107797985A; US20190095429A1; US10776578B2

Abstract

本发明提供一种建立同义鉴别模型以及鉴别同义文本的方法、装置，所述建立方法包括：获取训练样本中的文本对；利用词向量词典，得到所述文本对中各文本的量化矩阵；将各文本的量化矩阵作为卷积神经网络的输入，将该文本对所对应的同义标注结果作为卷积神经网络的输出，训练所述卷积神经网络，得到同义鉴别模型。鉴别同义文本的方法包括：获取待鉴别的文本对；利用词向量词典，得到所述文本对中各文本的量化矩阵；将所述各文本的量化矩阵作为同义鉴别模型的输入，根据所述同义鉴别模型的输出确定文本对的同义鉴别结果。通过本发明所提供的技术方案，降低了对切词工具、词性分析、句子模板等辅助工具的依赖，能够提高文本对同义鉴别结果的准确性。

Description

建立同义鉴别模型以及鉴别同义文本的方法、装置

【技术领域】

本发明涉及自然语言处理技术，尤其涉及一种建立同义鉴别模型以及鉴别同义文本的方法、装置。

【背景技术】

同义句的鉴别方法一直以来都是亟待解决和提高的研究课题，其中利用计算机自动鉴别同义句的方法更是该研究课题的核心。在多种互联网应用中都需要依赖准确鉴别同义句的方法，例如，搜索引擎寻找与用户请求的查询在语义上相同或者相似的文档，或者问答平台寻找与用户所提出的新问题同义的问题的集合。但是，由于自然语言句子结构的多样性、词汇表达的多义性以及语言种类的差异性，现有技术在进行同义句鉴别时，还需要依赖例如切词工具、词性分析、句子模板提取等辅助工具进行辅助处理。因此，现有技术在同义句鉴别结果的计算准确性上会受到各种辅助工具的限制。

【发明内容】

本发明为解决技术问题所采用的技术方案是提供一种建立同义鉴别模型的方法，所述方法包括：获取训练样本中的文本对；利用词向量词典，得到所述文本对中各文本的量化矩阵；将各文本的量化矩阵作为卷积神经网络的输入，将该文本对对应的同义标注结果作为卷积神经网络的输出，训练所述卷积神经网络，得到同义鉴别模型；所述同义鉴别模型用于鉴别输入的文本对是否同义。

根据本发明一优选实施例，所述利用词向量词典得到所述文本对中各文本的量化矩阵包括：获取文本对中各文本所包含的字符；利用词向量词典分别确定各文本所包含字符的特征向量；将所述获取的特征向量进行拼接，得到所述文本对中各文本的量化矩阵。

根据本发明一优选实施例，在训练所述卷积神经网络时，包括：在卷积层按照预设步长和窗口长度，对文本的量化矩阵进行卷积处理，将得到的卷积特征构成该文本的卷积特征矩阵。

根据本发明一优选实施例，在训练所述卷积神经网络时，包括：在池化层对所述卷积特征矩阵进行多种粒度的池化处理，分别得到文本的多种粒度的语义特征。

根据本发明一优选实施例，在训练所述卷积神经网络时，包括：利用文本对中各文本对应的相同粒度的语义特征，构建所述文本对的各粒度的匹配特征向量；将所述构建的文本对的各粒度的匹配特征向量进行拼接，得到所述文本对的匹配特征。

根据本发明一优选实施例，在训练所述卷积神经网络时，包括：在全连接层将文本对的匹配特征映射至该文本对的同义标注结果，并利用映射结果与标注结果之间的误差，调整卷积神经网络的参数和所述词向量词典。

本发明为解决技术问题所采用的技术方案是提供一种建立同义鉴别模型的装置，所述装置包括：第一获取单元，用于获取训练样本中的文本对；第一量化单元，用于利用词向量词典，得到所述文本对中各文本的量化矩阵；训练单元，用于将各文本的量化矩阵作为卷积神经网络的输入，将该文本对对应的同义标注结果作为卷积神经网络的输出，训练所述卷积神经网络，得到同义鉴别模型；所述同义鉴别模型用于鉴别输入的文本对是否同义。

根据本发明一优选实施例，所述训练单元在训练所述卷积神经网络时，具体执行：在卷积层按照预设步长和窗口长度，对文本的量化矩阵进行卷积处理，将得到的卷积特征构成该文本的卷积特征矩阵。

本发明为解决技术问题所采用的技术方案是提供一种鉴别同义文本的方法，所述方法包括：获取待鉴别的文本对；利用词向量词典，得到所述文本对中各文本的量化矩阵；将所述各文本的量化矩阵作为同义鉴别模型的输入，根据所述同义鉴别模型的输出确定文本对的同义鉴别结果。

根据本发明一优选实施例，在所述同义鉴别模型对所述各文本的量化矩阵进行处理时，包括：在卷积层按照预设步长和窗口长度，对文本的量化矩阵进行卷积处理，将得到的卷积特征构成该文本的卷积特征矩阵。

根据本发明一优选实施例，在所述同义鉴别模型对所述各文本的量化矩阵进行处理时，包括：在池化层对所述卷积特征矩阵进行多种粒度的池化处理，分别得到各文本的多种粒度的语义特征。

根据本发明一优选实施例，在所述同义鉴别模型对所述各文本的量化矩阵进行处理时，包括：利用文本对中各文本对应的相同粒度的语义特征，构建所述文本对的各粒度的匹配特征向量；将所述构建的文本对的各粒度的匹配特征向量进行拼接，得到所述文本对的匹配特征。

根据本发明一优选实施例，在所述同义鉴别模型对所述各文本的量化矩阵进行处理时，包括：在全连接层根据所述匹配特征获取该文本对的同义计算结果。

根据本发明一优选实施例，所述根据所述同义鉴别模型的输出确定文本对的同义鉴别结果包括：若所述同义计算结果满足预设阈值的要求，则该文本对的同义鉴别结果为同义句，否则不为同义句。

本发明为解决技术问题所采用的技术方案是提供一种鉴别同义文本的装置，所述装置包括：第二获取单元，用于获取待鉴别的文本对；第二量化单元，用于利用词向量词典，得到所述文本对中各文本的量化矩阵；鉴别单元，用于将所述各文本的量化矩阵作为同义鉴别模型的输入，根据所述同义鉴别模型的输出确定文本对的同义鉴别结果。

根据本发明一优选实施例，所述同义鉴别模型对所述各文本的量化矩阵进行处理时，具体执行：在卷积层按照预设步长和窗口长度，对文本的量化矩阵进行卷积处理，将得到的卷积特征构成该文本的卷积特征矩阵。

由以上技术方案可以看出，本发明基于卷积神经网络预先建立同义鉴别模型，能够根据所输入的文本对直接获得该文本对的同义鉴别结果，降低了对切词工具、词性分析、句子模板等辅助工具的依赖，能够提高文本对同义鉴别结果的准确性。

【附图说明】

图1为本发明一实施例提供的建立同义鉴别模型的结构图。

图2为本发明一实施例提供的鉴别同义文本的方法流程图。

图3为本发明一实施例提供的建立同义鉴别模型的装置结构图。

图4为本发明一实施例提供的鉴别同义文本的装置结构图。

图5为本发明一实施例提供的计算机系统/服务器的框图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

本发明的核心思想在于，如图1中所示：首先利用词向量词典获取文本对的量化矩阵；然后将量化矩阵输入预先建立的同义鉴别模型，获取该文本对的同义计算结果，具体过程如下：通过该模型的卷积层获取文本对的卷积特征矩阵；将各文本的卷积特征矩阵输入的池化层后，获取该文本对的多种粒度的语义特征(图1以及本发明实施例中以两种粒度为例)；再根据语义特征构建文本对的匹配特征；将匹配特征输入全连接层后，获取该文本对的同义计算结果。通过上述方法，在鉴别文本对是否同义时，降低了对额外辅助工具的依赖，并且能够提高文本同义鉴别的准确性。

首先对建立同义鉴别模型的方法进行描述。在本发明中，同义鉴别模型为卷积神经网络模型。

具体地，可以采用如下方式预先建立得到同义鉴别模型：

(1)获取训练样本中的文本对。

在本步骤中，从训练样本中所获取的文本对还预先标注有该文本对的同义结果，即通过文本对的标注结果能够得知该文本对是否同义，若标注为1，则表明该文本对同义，若标注为0，则表明该文本对不同义。

(2)利用词向量词典，得到所述文本对中各文本的量化矩阵。

在本步骤中，首先获取文本对中各文本所包含的字符；然后利用词向量词典分别确定各文本所包含字符的特征向量，即使用词向量词典中的特征向量表示文本中所包含的字符；最后将所获取的对应各字符的特征向量进行拼接，从而得到文本对中各文本的量化矩阵。

举例来说，若所获取的文本对为P和Q，由于每个文本都是由一系列中文或者英文字符组成，则可以将每个文本看作由一系列字符组成的有序列表，例如文本P可以表示为：P＝[p₁,p₂,...,p_m]，文本Q可以表示为Q＝[q₁,q₂,...,q_n]。其中，m和n分别代表文本P和Q的长度；p_m表示文本P中第m个字符；q_n表示文本Q中第n个字符。

在这里，以文本P进行举例说明。对于文本P来说，在词向量词典中寻找与文本P中每一个字符p_i(i∈{1,2...m})一致的字符，然后将所寻找到的字符对应的特征向量映射到文本P所包含的各字符，即将文本P中的每一个字符表示为在词向量词典中该字符所对应的特征向量，再将所得到的特征向量进行拼接，从而得到文本P的量化矩阵。例如，使用

(词向量词典中表示字符p₁的特征向量)表示p₁、

表示p₂等，以此类推，在得到各个字符所对应的特征向量后，使用以下公式得到文本P的量化矩阵p_1:m：

在公式中：p_1:m表示文本P的量化矩阵；

至

表示文本P中各字符所对应的特征向量；

表示沿行方向的拼接运算符。

同理，可以将文本Q的量化矩阵表示为：

具体地，本实施例中使用的词向量词典，可以采用如下方式建立：

首先获取训练样本中所有文本对中所包含的字符，构建一个其中没有重复字符的集合，将该集合称为词典。另外，考虑到所构建的词典可能无法覆盖所有语言的字符，还可以在词典中添加一个“UNK”字符串，用以表示没有出现在该词典中的字符，使得所构建的词典更为完善。

然后对词典中的每个字符设置特征向量，得到词向量词典。对每个字符设置特征向量，即设置对应每个字符的特征向量的维度和各维度上的特征值。例如，可以将特征向量的维度设置为d，各维度上的特征值设置为在

中的随机数，另外对“UNK”字符串设置为0向量。可以理解的是，各字符所对应的特征向量将会在同义鉴别模型的训练过程中进行调整，更具体来说各字符所对应的特征向量的各维度上的特征值会随着训练过程进行优化调整，词向量词典的优化调整过程将在下文详述。

(3)将各文本的量化矩阵作为卷积神经网络的输入，将该文本对对应的同义标注结果作为卷积神经网络的输出，训练所述卷积神经网络，得到同义鉴别模型。

在本步骤中，将由上步骤所得到的某文本对中各文本的量化矩阵作为卷积神经网络的输入，将该文本对对应的同义标注结果作为卷积神经网络的输出，对神经网络进行训练。其中，卷积神经网络的训练目标为最小化损失值，根据损失值进行参数调整，关于根据损失值进行调整的过程将在下文中详述。

卷积神经网络的训练过程可以采用以下方式进行：

1)在卷积层按照预设步长和窗口长度，对文本的量化矩阵进行卷积处理，将得到的卷积特征构成该文本的卷积特征矩阵。

其中，卷积层的参数包括过滤器模组参数ω^h和偏置参数b^h，

表示k个过滤器中的第i个。以文本P为例说明得到文本P的卷积特征矩阵的过程：

若所获取的文本P的量化矩阵为p_1:m，使用卷积层参数

和b^h对其进行一次卷积操作的过程为：

首先在长度为m的文本P上，以预设步长依次截取预设窗口长度的字符串，优选地预设步长为1，预设的窗口长度为h，将文本截取结果表示为p_j:j+h-1；其次结合参数

和b^h对该截取结果进行一次卷积运算，得到该截取结果的卷积结果

可以使用以下公式计算得到卷积结果

在公式中：

表示卷积结果，f(x)为非线性函数tanh，

表示过滤器参数，p_j:j+h-1表示文本截取结果，b^h表示偏置参数。

考虑到在长度为m的文本P中一共可以截取m-h+1段字符串，对每段字符串都进行一次卷积运算，则得到该文本P的卷积特征为

其可以表示为

此外，由于卷积层中过滤器模组共有k个过滤器，则可以通过以下公式，得到该文本P的卷积特征矩阵C^P,h：

在公式中：C^P,h表示文本P的卷积特征矩阵，k表示过滤器模组中第k个过滤器，T表示转置运算符。

同理可得，可以通过以下公式，得到文本Q的卷积特征矩阵C^Q,h：

2)在池化层对卷积特征矩阵进行多种粒度的池化处理，分别得到文本的多种粒度的语义特征。

在本实施例中，使用两种粒度进行说明。在本步骤中，对上步骤中所得到的卷积特征矩阵进行不同方向的池化处理，分别得到表示两种不同粒度的语义特征。其中，两种粒度分别为文本整体级别的粒度，可以看为粗粒度；以及文本片段级别的粒度，可以看为细粒度。

由于文本的卷积特征矩阵中各卷积特征概括了文本中任意一段预设窗口长度的连续文本片段的语义，因此从中选取最具有代表性的特征作为文本一部分的语义特征，则可以通过以下公式分别获取文本P和Q在预设窗口长度的连续文本片段语义特征s^P,h和s^Q,h：

在公式中：s^P,h和s^Q,h分别表示文本P和Q在预设窗口长度h的连续文本片段语义特征，max表示对卷积特征求取最大值，k表示第k个过滤器。

进一步地，如果预设窗口长度的字符串是卷积运算能够覆盖的最长语义片段，则综合考虑所有被覆盖的字符串长度片段(1，2，...，h)，则可以通过以下公式分别得到文本P和Q的文本整体语义特征S^P和S^Q：

在公式中：S^P和S^Q分别表示文本P和Q的文本整体语义特征；h表示所截取字符串的长度，即为预设窗口长度；

表示拼接运算符；T表示转置运算符。

对于文本卷积特征矩阵，除了获取文本整体的语义特征以外，还可以获取文本片段的语义特征。在这里，可以使用以下公式获取文本P和Q中预设窗口长度的连续文本片段的语义特征g^P,h和g^Q,h：

在公式中：g^P,h和g^Q,h分别表示文本P和Q中在预设窗口长度h的连续文本片段的语义特征；max表示对卷积特征求取最大值；m-h+1表示文本P中连续文本片段的个数；n-h+1表示文本Q中连续文本片段的个数。

然后，将长度从1到h的所有文本片段的语义特征进行拼接，可以采用以下公式得到文本P和Q的文本片段的语义特征G^P和G^Q：

在公式中：G^P和G^Q分别表示文本P和Q的文本片段语义特征；h表示预设窗口长度；

表示拼接运算符。

因此，在本步骤中，通过对文本的卷积特征矩阵进行两种不同方向的池化处理，能够分别获取文本P和Q的粗粒度的文本整体级别的语义特征和细粒度的文本片段级别的语义特征。

3)利用文本对中各文本对应的相同粒度的语义特征，构建所述文本对的各粒度的匹配特征向量。

在本步骤中，利用由上步骤所得到的各文本的文本整体级别的语义特征，构建文本整体级别的匹配特征向量，可以使用X^SLM表示；利用由上步骤所得到的各文本的文本片段级别的语义特征，构建文本片段级别的匹配特征向量，可以使用X^MGM表示。然后将文本整体级别的匹配特征向量与文本片段级别的匹配向量进行拼接，得到文本对的匹配特征，可以使用X^GSM。

可以使用以下公式得到文本整体级别的匹配特征向量X^SLM：

在公式中：X^SLM表示文本对的文本整体级别的匹配特征向量；S^P和S^Q分别表示文本P和Q的文本整体级别的语义特征；

表示拼接运算符；⊙表示两个向量作对应位置的乘法运算。

可以使用以下公式得到文本片段级别的匹配特征向量X^MGM：

X^MGM＝G^P(G^Q)^T

在公式中：X^MGM表示文本对的文本片段级别的匹配特征向量；T表示转置运算符。

可以使用以下公式得到文本对的匹配特征：

在公式中：X^GSM表示文本对的匹配特征；X^SLM表示文本整体级别的匹配特征向量；X^MGM表示文本片段级别的匹配特征向量；T表示转置运算符。

4)在全连接层将文本对的匹配特征映射至该文本对的同义标注结果，并利用映射结果与标注结果之间的误差，调整卷积神经网络的参数和所述词向量词典。

在本步骤中，将上步骤所得到的匹配特征X^GSM作为输入，使用全连接层中的分类器参数α和偏置参数β得到映射结果，使用

表示映射结果。可以采用以下公式计算得到映射结果

在公式中：

表示文本对的同义映射结果；α为分类器参数；β为偏置参数。

在得到文本对的同义映射结果之后，获取该文本对同义映射结果和同义标注结果之间的误差，将该误差作为损失值，对卷积神经网络的参数和词向量词典进行调整。可以使用以下公式得到文本对同义映射结果和同义标注结果之间的误差：

在公式中：L表示映射结果和标注结果之间的误差；y表示同义标注结果；

表示同义映射结果。

具体地，卷积神经网络的训练目标为最小化该损失值，即为最小化文本对同义映射结果与同义标注结果之间的误差L。可选地，在本实施例的一个具体实现过程中，若在预设次数内所得到的误差收敛，则认为该卷积神经网络的损失值最小化；也可以为若所得到的误差收敛到预设值，则认为该卷积神经网络的损失值最小化；还可以为若训练次数超过预设次数时，则认为该卷积神经网络的损失值最小化。当卷积神经网络的损失值最小化时，即认为卷积神经网络的训练过程完成，得到同义鉴别模型。

在对卷积神经网络的训练过程中，最小化损失值的过程实际上是利用损失值进行反馈对卷积神经网络进行调参的过程，例如包括卷积层的过滤器模组、偏置参数的调整，对全连接层的分类器参数和偏置参数的调整。

同时，在利用损失值对卷积神经网络的训练过程中，还对词向量词典中各字符所对应的特征向量进行调整。在每次迭代调整之后，在下一次对卷积神经网络进行训练时，使用调整后的词向量词典对文本对中所包含的字符进行特征向量的映射。在训练完成得到同义鉴别模型时，可以认为词向量词典中各字符所对应的特征向量的调整结束，已经得到各特征向量的最优值，从而能够进一步提升鉴别同义文本的准确性。

图2为本发明一实施例提供的鉴别同义文本的方法流程图，如图2中所示，所述方法包括：

在201中，获取待鉴别的文本对。

在本步骤中，所获取的文本对是任意语种的文本对。例如，可以是中文语种的文本对，也可以为英文语种的文本对，还可以为其他语种的文本对。

在202中，利用词向量词典，得到所述文本对中各文本的量化矩阵。

在本步骤中，利用词向量词典对由步骤201中所获取文本对中的各文本进行映射，以得到该文本对中各文本所对应的量化矩阵。其中，该词向量词典是在得到同义鉴别模型时所对应的词向量词典。

在利用词向量词典得到该文本对中各文本所对应的量化矩阵时，可以采用如下方式：获取文本对中各文本所包含的全部字符，其中字符可以为中文汉字，还可以为英文单词；利用词向量词典分别确定各文本所包含字符的特征向量，将该词向量词典中与所获取字符一致的字符所对应的特征向量映射至各文本所包含的字符；将映射至各字符的特征向量进行拼接，从而得到该文本对中各文本所对应的量化矩阵。该步骤获得各文本量化矩阵的过程与在训练卷积神经网络时得到训练样本中各文本的量化矩阵的过程一致，在此不进行赘述。

在203中，将所述各文本的量化矩阵作为同义鉴别模型的输入，根据所述同义鉴别模型的输出确定文本对的同义鉴别结果。

在本步骤中，将步骤202中所获取的各文本的量化矩阵作为输入，输入预先训练得到的同义鉴别模型，然后根据模型所输出的结果确定该文本对的同义鉴别结果。

在本步骤中，将各文本的量化矩阵输入同义鉴别模型后，首先通过同义鉴别模型的卷积层获取各文本的卷积特征矩阵；然后在池化层对所获取的卷积特征矩阵进行两种粒度的池化处理，得到各文本的文本整体级别的语义特征以及文本片段的语义特征；再利用各文本相同粒度的语义特征，构建文本对文本整体级别和文本片段级别的语义特征，对两种语义特征进行拼接后，得到该文本对的匹配特征；在全连接层，根据所得到的匹配特征，获取该文本对的同义计算结果。上述过程中的卷积处理、池化处理、拼接处理以及映射处理等，与训练卷积神经网络时的处理过程一致，在此不进行赘述。

在得到同义鉴别模型输出的同义计算结果后，将该结果与预设阈值进行比较，若该计算结果满足预设阈值的要求，则该文本对的同义鉴别结果为同义，否则为不同义。

例如，若设置0.5为预设阈值，若由同义鉴别模型所输出的同义计算结果为0.4，则表明该句子对为非同义句；若由同义鉴别模型所输出的同义计算结果为0.7，则表明该句子对为同义句。

由于在同义鉴别模型的训练过程中，已经将该模型内的参数以及词向量词典中各字符的特征向量优化到最优值，因此能够对所获取的文本对准确地获取对应的量化矩阵，进而通过同义鉴别模型准确地获取该文本对的同义鉴别结果。

图3为本发明一实施例建立同义鉴别模型的装置结构图，如图3中所示，所述装置包括：第一获取单元31、第一量化单元32以及训练单元33。

第一获取单元31，用于获取训练样本中的文本对。

第一获取单元31从训练样本中所获取的文本对还预先标注有该文本对的同义结果，即通过文本对的标注结果能够得知该文本对是否同义，若标注为1，则表明该文本对同义，若标注为0，则表明该文本对不同义。

第一量化单元32，用于利用词向量词典，得到所述文本对中各文本的量化矩阵。

第一量化单元32首先获取文本对中各文本所包含的字符；然后利用词向量词典分别确定各文本所包含字符的特征向量，即使用词向量词典中的特征向量表示文本中所包含的字符；最后将所获取的特征向量进行拼接，从而得到文本对中各文本的量化矩阵。

其中，第一量化单元32所使用的词向量词典，可以使用如下方式建立：

首先获取训练样本中所有文本对包含的字符，构建一个其中没有重复字符的集合，将该集合称为词典。另外，考虑到所构建的词典可能无法覆盖所有语言的字符，还可以在词典中添加一个“UNK”字符串，用以表示没有出现在该词典中的字符，使得所构建的词典更为完善。

然后对词典中的每个字符设置特征向量，得到词向量词典。对每个字符设置特征向量，即设置每个字符所对应特征向量的维度和各维度上的特征值。例如，可以将特征向量的维度设置为d，各维度上的特征值设置为在

中的随机数，另外对“UNK”字符串设置为0向量。可以理解的是，各字符所对应的特征向量将会在模型的训练过程中特征向量各维度上的特征值会随着训练过程进行优化调整，该部分将在下文详述。

训练单元33，用于将各文本的量化矩阵作为卷积神经网络的输入，将该文本对对应的同义标注结果作为卷积神经网络的输出，训练所述卷积神经网络，得到同义鉴别模型。

训练单元33将由第一量化单元32所得到某文本对中各文本的量化矩阵作为卷积神经网络的输入，将该文本对对应的同义标注结果作为卷积神经网络的输出，对神经网络进行训练。其中，卷积神经网络的训练目标为最小化损失函数，关于损失函数将在下文中详述。

下面对训练单元33在训练卷积神经网络时的具体过程进行详述：

2)在池化层对卷积特征矩阵进行多种粒度的池化处理，分别得到文本的多种粒度的语义特征。在本实施例中，以两种粒度为例进行说明。

具体地，训练单元33在训练卷积神经网络时的训练目标为最小化该损失值，即为最小化文本对同义映射结果与同义标注结果之间的误差L。可选地，在本实施例的一个具体实现过程中，若在预设次数内所得到的误差收敛，训练单元33则认为该卷积神经网络的损失值最小化；也可以为若所得到的误差收敛到预设值，训练单元33则认为该卷积神经网络的损失值最小化；还可以为若训练次数超过预设次数时，训练单元33则认为该卷积神经网络的损失值最小化。当卷积神经网络的损失值最小化时，训练单元33即认为卷积神经网络的训练过程完成，得到同义鉴别模型。

在训练单元33对卷积神经网络的训练过程中，最小化损失值的过程实际上是利用损失值进行反馈对卷积神经网络进行调参的过程，例如包括卷积层的过滤器模组、偏置参数的调整，对全连接层的分类器参数和偏置参数的调整。同时，在训练单元33利用损失值对卷积神经网络的训练过程中，训练单元33还对词向量词典中各字符所对应的特征向量进行调整。在每次迭代调整之后，在下一次对卷积神经网络进行训练时，训练单元33会使用调整后的词向量词典对文本对中所包含的字符进行特征向量的映射。在训练完成得到同义鉴别模型时，可以认为词向量词典中各字符所对应的特征向量的调整结束，从而进一步提升对同义文本鉴别的准确性。

图4为本发明一实施例提供的鉴别同义文本的装置结构图，如图4中所示，所述装置包括：第二获取单元41、第二量化单元42以及鉴别单元43。

第二获取单元41，用于获取待鉴别的文本对。

第二获取单元41所获取的文本对是任意语种的文本对。例如，可以是中文语种的文本对，也可以为英文语种的文本对，还可以为其他语种的文本对。

第二量化单元42，用于利用词向量词典，得到所述文本对中各文本的量化矩阵。

第二量化单元42利用词向量词典对由第二获取单元41所获取文本对中的各文本进行映射，以得到该文本对中各文本所对应的量化矩阵。其中，该词向量词典是在得到同义鉴别模型时所对应的词向量词典。

第二量化单元42在利用词向量词典得到该文本对中各文本所对应的量化矩阵时，可以采用如下方式：获取文本对中各文本所包含的全部字符，其中字符可以为中文汉字，还可以为英文单词；利用词向量词典分别确定各文本所包含字符的特征向量，即将该词向量词典中与所获取字符一致的字符所对应的特征向量映射至各文本所包含的字符；将映射至各字符的特征向量进行拼接，从而得到该文本对中各文本所对应的量化矩阵。

鉴别单元43，用于将所述各文本的量化矩阵作为同义鉴别模型的输入，根据所述同义鉴别模型的输出确定文本对的同义鉴别结果。

鉴别单元43将由第二量化单元42所获取的各文本的量化矩阵作为输入，输入到预先训练得到的同义鉴别模型中，根据模型所输出的结果确定该文本对的同义鉴别结果。

鉴别单元43在将各文本的量化矩阵输入同义鉴别模型后，首先通过同义鉴别模型的卷积层获取各文本的卷积特征矩阵；然后在池化层对所获取的卷积特征矩阵进行两种粒度的池化处理，得到各文本的文本整体级别的语义特征以及文本片段的语义特征；再利用各文本相同粒度的语义特征，构建文本对文本整体级别和文本片段级别的语义特征，对两种语义特征进行拼接后，得到该文本对的匹配特征；在全连接层，根据所得到的匹配特征，获取该文本对的同义计算结果。

在得到同义鉴别模型输出的同义计算结果后，鉴别单元43将该同义计算结果与预设阈值进行比较，若该计算结果满足预设阈值的要求，则该文本对的同义鉴别结果为同义，否则为不同义。

图5示出了适于用来实现本发明实施方式的示例性计算机系统/服务器012的框图。图5显示的计算机系统/服务器012仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，计算机系统/服务器012以通用计算设备的形式表现。计算机系统/服务器012的组件可以包括但不限于：一个或者多个处理器或者处理单元016，系统存储器028，连接不同系统组件(包括系统存储器028和处理单元016)的总线018。

总线018表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机系统/服务器012典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器012访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器028可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)030和/或高速缓存存储器032。计算机系统/服务器012可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统034可以用于读写不可移动的、非易失性磁介质(图5未显示，通常称为“硬盘驱动器”)。尽管图5中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线018相连。存储器028可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块042的程序/实用工具040，可以存储在例如存储器028中，这样的程序模块042包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块042通常执行本发明所描述的实施例中的功能和/或方法。

计算机系统/服务器012也可以与一个或多个外部设备014(例如键盘、指向设备、显示器024等)通信，在本发明中，计算机系统/服务器012与外部雷达设备进行通信，还可与一个或者多个使得用户能与该计算机系统/服务器012交互的设备通信，和/或与使得该计算机系统/服务器012能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口022进行。并且，计算机系统/服务器012还可以通过网络适配器020与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器020通过总线018与计算机系统/服务器012的其它模块通信。应当明白，尽管图中未示出，可以结合计算机系统/服务器012使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元016通过运行存储在系统存储器028中的程序，从而执行各种功能应用以及数据处理，例如实现一种建立同义鉴别模型的方法，可以包括：

获取训练样本中的文本对；

利用词向量词典，得到所述文本对中各文本的量化矩阵；

将各文本的量化矩阵作为卷积神经网络的输入，将该文本对对应的同义标注结果作为卷积神经网络的输出，训练所述卷积神经网络，得到同义鉴别模型。

又或者例如实现一种鉴别同义文本的方法，可以包括：

获取待鉴别的文本对；

利用词向量词典，得到所述文本对中各文本的量化矩阵；

将所述各文本的量化矩阵作为同义鉴别模型的输入，根据所述同义鉴别模型的输出确定文本对的同义鉴别结果。

上述的计算机程序可以设置于计算机存储介质中，即该计算机存储介质被编码有计算机程序，该程序在被一个或多个计算机执行时，使得一个或多个计算机执行本发明上述实施例中所示的方法流程和/或装置操作。例如，被上述一个或多个处理器执行的方法流程，可以包括：

获取训练样本中的文本对；

利用词向量词典，得到所述文本对中各文本的量化矩阵；

或者还可以包括：

获取待鉴别的文本对；

利用词向量词典，得到所述文本对中各文本的量化矩阵；

随着时间、技术的发展，介质含义越来越广泛，计算机程序的传播途径不再受限于有形介质，还可以直接从网络下载等。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

利用本发明所提供的技术方案，通过基于卷积神经网络预先建立同义鉴别模型，能够根据所输入的文本对直接获得该文本对的同义鉴别结果，降低了对切词工具、词性分析、句子模板等辅助工具的依赖，能够提高文本对同义鉴别结果的准确性。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种建立同义鉴别模型的方法，其特征在于，所述方法包括：

获取训练样本中的文本对；

利用词向量词典，得到所述文本对中各文本的量化矩阵，所述词向量词典中包含多个字符以及与各字符对应的特征向量，所述与各字符对应的特征向量会随着卷积神经网络的训练过程而被调整；

将各文本的量化矩阵作为卷积神经网络的输入，将该文本对对应的同义标注结果作为卷积神经网络的输出，训练所述卷积神经网络，得到同义鉴别模型；

所述同义鉴别模型用于鉴别输入的文本对是否同义；

其中，所述训练所述卷积神经网络包括：

在池化层对由所述文本的量化矩阵得到的卷积特征矩阵进行多种粒度的池化处理，分别得到文本的多种粒度的语义特征；

利用文本对中各文本对应的相同粒度的语义特征，构建所述文本对的各粒度的匹配特征向量；

将所述构建的文本对的各粒度的匹配特征向量的转置运算结果进行拼接，得到所述文本对的匹配特征。

2.根据权利要求1所述的方法，其特征在于，所述利用词向量词典，得到所述文本对中各文本的量化矩阵包括：

获取文本对中各文本所包含的字符；

利用词向量词典分别确定各文本所包含字符的特征向量；

将所述获取的特征向量进行拼接，得到所述文本对中各文本的量化矩阵。

3.根据权利要求1所述的方法，其特征在于，在训练所述卷积神经网络时，包括：

在卷积层按照预设步长和窗口长度，对文本的量化矩阵进行卷积处理，将得到的卷积特征构成该文本的卷积特征矩阵。

4.根据权利要求1所述的方法，其特征在于，在训练所述卷积神经网络时，包括：

在全连接层将文本对的匹配特征映射至该文本对的同义标注结果，并利用映射结果与标注结果之间的误差，调整卷积神经网络的参数和所述词向量词典。

5.一种鉴别同义文本的方法，其特征在于，所述方法包括：

获取待鉴别的文本对；

利用词向量词典，得到所述文本对中各文本的量化矩阵，所述词向量词典中包含多个字符以及与各字符对应的特征向量，所述与各字符对应的特征向量为训练得到同义鉴别模型时经过调整之后的特征向量；

将所述各文本的量化矩阵作为同义鉴别模型的输入，根据所述同义鉴别模型的输出确定文本对的同义鉴别结果；

其中，所述词向量词典与所述同义鉴别模型是采用1至4中任一权项所述方法得到的；

在所述同义鉴别模型对所述各文本的量化矩阵进行处理时，包括：

在池化层对由所述文本的量化矩阵得到的卷积特征矩阵进行多种粒度的池化处理，分别得到各文本的多种粒度的语义特征；

6.根据权利要求5所述的方法，其特征在于，所述利用词向量词典，得到所述文本对中各文本的量化矩阵包括：

获取文本对中各文本所包含的字符；

利用词向量词典分别确定各文本所包含字符的特征向量；

7.根据权利要求5所述的方法，其特征在于，在所述同义鉴别模型对所述各文本的量化矩阵进行处理时，包括：

8.根据权利要求5所述的方法，其特征在于，在所述同义鉴别模型对所述各文本的量化矩阵进行处理时，包括：

在全连接层根据所述匹配特征获取该文本对的同义计算结果。

9.根据权利要求8所述的方法，其特征在于，所述根据所述同义鉴别模型的输出确定文本对的同义鉴别结果包括：

若所述同义计算结果满足预设阈值的要求，则该文本对的同义鉴别结果为同义句，否则不为同义句。

10.一种建立同义鉴别模型的装置，其特征在于，所述装置包括：

第一获取单元，用于获取训练样本中的文本对；

第一量化单元，用于利用词向量词典，得到所述文本对中各文本的量化矩阵，所述词向量词典中包含多个字符以及与各字符对应的特征向量，所述与各字符对应的特征向量会随着卷积神经网络的训练过程而被调整；

训练单元，用于将各文本的量化矩阵作为卷积神经网络的输入，将该文本对对应的同义标注结果作为卷积神经网络的输出，训练所述卷积神经网络，得到同义鉴别模型；

所述同义鉴别模型用于鉴别输入的文本对是否同义；

所述训练单元在训练所述卷积神经网络时，具体执行：

11.根据权利要求10所述的装置，其特征在于，所述训练单元在训练所述卷积神经网络时，具体执行：

12.一种鉴别同义文本的装置，其特征在于，所述装置包括：

第二获取单元，用于获取待鉴别的文本对；

第二量化单元，用于利用词向量词典，得到所述文本对中各文本的量化矩阵，所述词向量词典中包含多个字符以及与各字符对应的特征向量，所述与各字符对应的特征向量为训练得到同义鉴别模型时经过调整之后的特征向量；

鉴别单元，用于将所述各文本的量化矩阵作为同义鉴别模型的输入，根据所述同义鉴别模型的输出确定文本对的同义鉴别结果；

其中，所述词向量词典与所述同义鉴别模型是采用10至11中任一权项所述装置得到的；

所述同义鉴别模型对所述各文本的量化矩阵进行处理时，具体执行：

13.根据权利要求12所述的装置，其特征在于，所述同义鉴别模型对所述各文本的量化矩阵进行处理时，具体执行：

14.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。

15.一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-9中任一所述的方法。