CN109753649A

CN109753649A - 基于细粒度匹配信号的文本相关性度量方法和系统

Info

Publication number: CN109753649A
Application number: CN201811466325.3A
Authority: CN
Inventors: 程学旗; 庞亮; 兰艳艳; 郭嘉丰; 沈华伟; 陈丽娟; 张海楠; 曾玮; 李家宁; 赵峻瑶; 倪艺函
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2018-12-03
Filing date: 2018-12-03
Publication date: 2019-05-14

Abstract

本发明涉及一种基于细粒度匹配信号的文本相关性度量方法和系统，包括：获取待语义匹配的两段文本，将该文本中每一个词映射为词向量，根据其中一段文本中每一个词的词向量，与另一段文本中每一个词向量的语义相似度，将所有该语义相似度集合成二维实数矩阵，作为匹配矩阵；将该匹配矩阵中每个元素的语义相似度转换为灰度值，得到灰度图，使用针对二维数据的卷积神经网络结构对该灰度图进行图像模式提取，得到特征图，该特征图经过全连接网络并通过逻辑斯谛函数处理后，得到0‑1之间的一个分数，将该分数作为该两段文本之间的相关性。本发明能够构建细粒度匹配信号，提取多层次的匹配模式。在多种不同任务的实际数据集上的效果突出。

Description

基于细粒度匹配信号的文本相关性度量方法和系统

技术领域

本发明涉及自然语言处理领域，并特别涉及一种基于细粒度匹配信号的文本相关性度量方法和系统。

背景技术

文本相关性度量是自然语言处理领域大量任务的基础技术，其中包括复述任务、信息检索、问答系统、对话系统等。相关性用来衡量两段文本相关关系的强度，这种相关关系可以定义为复述任务中语义的等价关系，可以定义为问答系统中逻辑的推断关系，也可以定义为对话系统中的回复的一致关系。通常文本相关性使用一个实数值来表示，称为相关度，数值越大表示越相关，反之表示越不相关。因此几乎所有的文本相关性度量的问题，都会抽象成相关度数值估计的问题。其中一部分工作将这个相关度的值看作是一个概率，建模成一个二值分类问题(相关与不相关)；另一部分工作将相关度的值看作是一个有序数值，建模成一个排序问题。由此自动度量文本相关性的问题，最终转换成给定两段文本，预测相关度数值的机器学习预测问题。

文本相关性度量目前比较流行的算法包括：BM25模型、DSSM(Deep SemanticStructuredModel)模型、以及Arc-I模型。

BM25模型是基于信息检索任务提出的文本相关性度量方法，是传统信息检索系统中最常用的相关性度量模型。BM25模型旨在刻画查询词在相关文档中的出现次数、重要度与相关度的函数关系，包含的超参数较少，执行速度快。但是无法解决语义相关的问题。

DSSM模型是微软研究院提出的基于文本表达的文本相关性度量模型。该模型是基于Siamese架构提出的，首先对两段文本分别压缩到相同维度的向量表达，然后使用一种向量相似度的计算方法得到相关度。DSSM模型创新的提出了字符三元组的形式表示一段文本，从而大大减小词表达小、建模词根信息，因而可以解决语义相关的问题。DSSM模型利用全连接网络建模文本向量表达，之后利用余弦相似度度量文本向量表达之间的相关度。

Arc-I模型是华为诺亚方舟实验室提出的基于词向量(Word Embedding)技术和卷积神经网络(Convolutional Neural Network)技术的文本相关性度量模型。Arc-I模型同样也是基于Siamese架构提出的，两段文本也会分布压缩到同一维度的向量表达。为了解决语义相关问题，Arc-I模型使用了在大数据上预训练的词向量表达，词向量可以很好的刻画不同词之间的相关关系。为了更好的保持文本中的局部词序信息，Arc-I模型使用了在图像任务中常用的卷积神经网络。在文本相关性度量任务中，Arc-I是较为常用的深度学习算法。

当前现有的技术存在着不同的问题：

1)现有的文本相关性模型，例如BM25模型，无法建模文本语义的相关性。但是在自然语言中，同义词、一词多义的现象是非常常见的，只有建模文本符号和语义的多元对应关系，才能得到真实可用的文本相关性模型。

2)现有的文本相关性模型，例如DSSM模型，利用全连接网络建模文本表达，全连接网络忽视了文本的词序信息。人类的语言就是在“有限符号集合上的无限组合过程”，因此除了单个符号内容本身，词序信息也是非常重要的。

3)现有的文本相关性模型，例如DSSM模型和Arc-I模型，都是基于Siamese的框架提出的，两段文本首先被压缩到了一个低维度的向量表达。对文本内容的压缩，会丢失大量的文本细节信息，从而导致较差的文本相关性度量效果。

发明内容

发明人在观察存在相关关系的文本对的数据中发现，文本的语义信息，文本的词序信息，以及文本的细节对应信息，对建模文本相关性关系非常重要。首先，文本语义在文本相关性建模中十分重要，需要考虑同义词和一词多义两个难点。例如，“电脑”与“计算机”在语义上是等价的，而“苹果”在不同的上下文中可以表示“水果”或者“公司”。其次，文本的语序会导致完全不同的语义，需要在文本相关性度量时考虑。例如“机器学习”与“学习机器”仅仅是词序的转换，就导致了完全不同的语义。最后，文本的细节对应关系是文本相关性度量的基础。人们判断两段文本是否相关，往往需要从词的相关，到短语的相关，最终才进阶到主题的相关。

因此，本发明基于：文本的语义信息，文本的词序信息，以及文本的细节对应信息，这三个难点的探索而形成。设计并实现了基于细粒度匹配信号的文本相关性度量技术。

具体地说，本发明公开了一种基于细粒度匹配信号的文本相关性度量方法，其中包括：

步骤1、获取待语义匹配的两段文本，将该文本中每一个词映射为词向量，根据其中一段文本中每一个词的词向量，与另一段文本中每一个词向量的语义相似度，将所有该语义相似度集合成二维实数矩阵，作为匹配矩阵；

步骤2、将该匹配矩阵中每个元素的语义相似度转换为灰度值，得到灰度图，使用针对二维数据的卷积神经网络结构对该灰度图进行图像模式提取，得到特征图，该特征图经过全连接网络并通过逻辑斯谛函数处理后，得到0-1之间的一个分数，将该分数作为该两段文本之间的相关性。

所述的基于细粒度匹配信号的文本相关性度量方法，其中该步骤1中通过0-1精确匹配相似度度量得到该语义相似度。

所述的基于细粒度匹配信号的文本相关性度量方法，其中步骤2中该卷积神经网络结构包括：卷积层和池化层，其中该卷积层利用卷积核提取该图像模式；该池化层用于将该特征图的尺寸进行压缩。

所述的基于细粒度匹配信号的文本相关性度量方法，其中步骤1中该词向量通过将文本中每一个词输入至Word2Vec算法模型得到。

所述的基于细粒度匹配信号的文本相关性度量方法，其中该步骤1中通过余弦相似度或点积相似度构造的匹配矩阵，度量得到该语义相似度。

本发明还公开了一种基于细粒度匹配信号的文本相关性度量系统，其中包括：

相似度度量模块，用于获取待语义匹配的两段文本，将该文本中每一个词映射为词向量，根据其中一段文本中每一个词的词向量，与另一段文本中每一个词向量的语义相似度，将所有该语义相似度集合成二维实数矩阵，作为匹配矩阵；

图像模式提取模块，用于将该匹配矩阵中每个元素的语义相似度转换为灰度值，得到灰度图，使用针对二维数据的卷积神经网络结构对该灰度图进行图像模式提取，得到特征图，该特征图经过全连接网络并通过逻辑斯谛函数处理后，得到0-1之间的一个分数，将该分数作为该两段文本之间的相关性。

所述的基于细粒度匹配信号的文本相关性度量系统，其中该相似度度量模块中通过0-1精确匹配相似度度量得到该语义相似度。

所述的基于细粒度匹配信号的文本相关性度量系统，其中图像模式提取模块中该卷积神经网络结构包括：卷积层和池化层，其中该卷积层利用卷积核提取该图像模式；该池化层用于将该特征图的尺寸进行压缩。

所述的基于细粒度匹配信号的文本相关性度量系统，其中相似度度量模块中该词向量通过将文本中每一个词输入至Word2Vec算法模型得到。

所述的基于细粒度匹配信号的文本相关性度量系统，其中该相似度度量模块中通过余弦相似度或点积相似度构造的匹配矩阵，度量得到该语义相似度。

本发明总的技术效果：

在传统的文本相关性度量的模型中，信息检索中的BM25模型利用词袋模型表示一个句子，词和词之间只正交的关系，也就是说“苹果”与“香蕉”的距离与“苹果”与“篮球”的距离是一样的，都是0。因此无法建模词语匹配的语义相关性。而基于文档表达的深度学习模型(例如，DSSM模型与Arc-I模型，见图1)，继承了Siamese框架的思想，将文本压缩到低维向量空间，从而建模整段文本的语义信息。然而这种方式忽略了细粒度的匹配信号，较长的一段文本压缩到低维向量损失的信息太多，导致文本相关性度量的效果不佳。

本发明提出的基于细粒度匹配信号的文本相关性度量模型，采用了从单段文本的语义空间向文本对的匹配语义空间的转换，设计了与基于文档表达的深度模型完全不同的模型，见图2。该模型没有直接建模单个文档的表示，而是在输入端就构造出两段文本在细粒度的二维匹配信号。之后基于细粒度的匹配信号，进一步提取匹配模式。最终聚合得到两段文本的匹配度。

模型的执行结果如图3所示，可以很清晰的看到在匹配矩阵(Matching Matrix)中的亮点与直线，表示的是句子T1和T2中的单词匹配信号，例如“Officer”、“Chief”等，或者连续多个单词的匹配信号，例如“chiefoperating officer”等。之后的匹配模式提取阶段的特征图(Feature Map)中，也展示了不同匹配模式的提取和聚合过程。第一层的时候提取了点和直线等基本元素，而第二层的时候就对这些基本元素进行了聚合，得到了更复杂的匹配模式。

由此验证了本发明提出的模型，能够构建细粒度匹配信号，提取多层次的匹配模式。在多种不同任务的实际数据集上的效果突出。

附图说明

图1为基于文档表达的深度学习模型图；

图2细粒度匹配信号的文本相关性度量框架图；

图3细粒度匹配信号的文本相关性度量模型的执行效果图；

图4细粒度匹配信号的文本相关性度量模型设计图；

图5余弦相似度构造的匹配矩阵图；

图6卷积神经网络在提取多层匹配模式模块中的工作流程图。

具体实施方式

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

本发明的目的是统一解决现有方法无法解决的文本的语义信息，文本的词序信息，以及文本的细节对应信息这三个主要难点，提出了一种基于细粒度匹配信号的文本相关性度量技术，从而可以在细粒度层面捕获语义信息，层次化的建模不同粒度的匹配信号，并且基于该技术实现的文本相关性度量模型的训练和预测框架。

基于细粒度匹配信号的文本相关性度量模型分为两大模块：构建细粒度匹配信号与提取多层次匹配模式。其中细粒度匹配信号是指词级别的匹配信号(中文中是字或者词，英文中是字符或者单词)，主要表现在两段文本不同位置的词之间的匹配信号的构建。详细的模型设计图如图4所示。

在构建细粒度匹配信号模块中，模型首先将每一个单词映射到对应的词向量，单词指的是组成句子的单词序列，文本匹配问题就是来判断两个句子之间的相关程度，也即两段单词的序列。这两段文本可以是翻译中的源语言和目标语言，可以是检索任务中的查询项和文档内容，也可以是问答中的问题和答案。这些词向量是由大规模的文本语料，利用产生词向量的相关模型(例如Word2Vec算法模型)训练得到，由此可以更加精确的度量词语之间的语义相似度。计算第一段文本中的每一个词，与第二段文本中的每一个词的语义相似度，构成一个二维的实数矩阵，成为匹配矩阵(Layer-0)，匹配矩阵中的每一个元素M_ij表示第一个句子的第i个词和第二个句子的第j个词的相似程度。构造词向量间相似度的方法根据相似度度量函数的不同而不同，其中主要使用的度量方式包括：0-1精确匹配相似度、余弦相似度和点积相似度。0-1精确匹配相似度构造的匹配矩阵，仅包含0和1两个值，类似于一张黑白图片；而余弦相似度和点积相似度构造的匹配矩阵能够度量不同词之间的相似程度，可以是0到1之间的一个实数值，类似于一张灰度图片。以余弦相似度为例，得到的匹配矩阵如图5所示。

在提取多层匹配模式模块中，模型使用了针对二维数据的卷积神经网络结构。该结构来自于计算机视觉中的图像识别任务，能够提取不同粒度的图像模式，并聚合成得到更复杂的图像模式，例如点线、直角、形状、部分以及物体等不同粒度。前一个模块输出的二维匹配矩阵正好可以看成是一种灰度图像的形式(如果包含不同的相似度度量方式，可以拼成一个相似度张量，类似多通道的彩色图片)，直接借鉴卷积神经网络结构。卷积神经网络结构分为两种网络层次：卷积层和池化层。其中卷积层利用卷积核提取重要的匹配模式，输出特征图；而池化层将特征图中的重要信号收集，并压缩特征图的尺寸。得到压缩特征图之后，经过两层全连接网络，最后通过一个逻辑斯谛函数得到0-1之间的一个分数，这个分数就表征了文本的相关性，分数越接近1表示越相关，反之不相关。具体卷积神经网络的工作流程如图6所示。

将这两个模块拼接，针对文本相关性任务，加上相应的损失函数(Loss Function)就能得到一个端到端的深度学习模型，可以使用反向传播梯度下降的方法训练模型的参数，包括卷积神经网络卷积核的参数和全连接网络的参数。常见的损失函数包括：基于分类的交叉熵损失函数，基于排序的Pair Hinge Loss损失函数。

本发明基于开源的TensorFlow平台，实现了细粒度匹配信号的文本相关性度量模型，并针对复述任务、信息检索任务和问答系统任务进行了相应的模型参数调整和结构优化。在模型训练阶段，能够端到端大规模的训练文本相关性度量模型，训练稳定，收敛速度快。在模型预测阶段，具有较高的相关性度量精度，支持多平台部署与并行化加速。

以下为与上述方法实施例对应的系统实施例，本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。

本发明的发明点及对应的技术效果包括：

1、细粒度匹配信号构建；技术效果：基于一维词语的语义信号，构建二维文本的匹配信号，将单一文本语义空间的信息，投影到文本对的匹配中间中，最终得到一个二维的匹配矩阵(Matching Matrix)，更加合理的构建了文本相关性的产生源头，完成了文本语义信息与细粒度匹配信号的建模任务；

2、层次化匹配模式建模；技术效果：在匹配空间中的二维匹配矩阵的基础之上，层次化的建模匹配模式。将匹配矩阵看做是一幅在匹配空间的相关性分布图像，图像中的点和线分别表示不同的匹配模式(图像模式)，点与线的组合能够产生更为复杂的匹配模式。层次化的捕获不同粒度的匹配模式，合理的构建了文本相关性的产生过程，完成了文本词序信息的建模任务；

3、文本相关性模型训练/预测框架；技术效果：模型训练阶段，能够端到端大规模的训练文本相关性度量模型，训练稳定，收敛速度快。模型预测阶段，具有较高的相关性度量精度，支持多平台部署与并行化加速。

Claims

1.一种基于细粒度匹配信号的文本相关性度量方法，其特征在于，包括：

2.如权利要求1所述的基于细粒度匹配信号的文本相关性度量方法，其特征在于，该步骤1中通过0-1精确匹配相似度度量得到该语义相似度。

3.如权利要求1所述的基于细粒度匹配信号的文本相关性度量方法，其特征在于，步骤2中该卷积神经网络结构包括：卷积层和池化层，其中该卷积层利用卷积核提取该图像模式；该池化层用于将该特征图的尺寸进行压缩。

4.如权利要求1所述的基于细粒度匹配信号的文本相关性度量方法，其特征在于，步骤1中该词向量通过将文本中每一个词输入至Word2Vec算法模型得到。

5.如权利要求1所述的基于细粒度匹配信号的文本相关性度量方法，其特征在于，该步骤1中通过余弦相似度或点积相似度构造的匹配矩阵，度量得到该语义相似度。

6.一种基于细粒度匹配信号的文本相关性度量系统，其特征在于，包括：

7.如权利要求6所述的基于细粒度匹配信号的文本相关性度量系统，其特征在于，该相似度度量模块中通过0-1精确匹配相似度度量得到该语义相似度。

8.如权利要求6所述的基于细粒度匹配信号的文本相关性度量系统，其特征在于，图像模式提取模块中该卷积神经网络结构包括：卷积层和池化层，其中该卷积层利用卷积核提取该图像模式；该池化层用于将该特征图的尺寸进行压缩。

9.如权利要求6所述的基于细粒度匹配信号的文本相关性度量系统，其特征在于，相似度度量模块中该词向量通过将文本中每一个词输入至Word2Vec算法模型得到。

10.如权利要求1所述的基于细粒度匹配信号的文本相关性度量系统，其特征在于，该相似度度量模块中通过余弦相似度或点积相似度构造的匹配矩阵，度量得到该语义相似度。