CN113761935B

CN113761935B - 一种短文本语义相似度度量方法、系统及装置

Info

Publication number: CN113761935B
Application number: CN202110892292.4A
Authority: CN
Inventors: 江豪; 肖龙源; 邹辉; 李威
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2021-08-04
Filing date: 2021-08-04
Publication date: 2024-02-27
Anticipated expiration: 2041-08-04
Also published as: CN113761935A

Abstract

本发明公开了一种短文本语义相似度度量方法、系统及装置，该系统包括：向量转化模块，用于将待匹配的短文本A和短文本B分别转化为向量A1和向量B1；特征强化模块，用于将向量A1和向量B1分别转化为特征增强向量A2和特征增强向量B2；特征提取模块，用于根据特征增强向量A2和特征增强向量B2得到全局最大池化向量C和全局平均池化向量D；输出模块，用于根据全局最大池化向量C和全局平均池化向量D得到相似度预测结果。本发明基于神经网络获得待匹配的短文本的语义特征，结合并强化共有特征，可以实现快速、准确且稳定的语义相似度的计算。

Description

一种短文本语义相似度度量方法、系统及装置

技术领域

本发明涉及语义相似度计算技术领域，特别是一种短文本语义相似度度量方法、系统及装置。

背景技术

短文本语义相似度(short-text semantic similarity,STSS)的计算，旨在提取并匹配短文本特征，核心任务是自然语言理解，属于一项关键的基础工作。文本相似度在自动问答系统、信息检索、自动文本摘要、文本分类等自然语言处理的任务中都有广泛的应用。

现有的语义相似度模型主要分为两大类：一种是表征类模型，分别提取两句话的特征，输入多层感知机判断是否相似，例如SiameseNet，DSSM，CDSSM；一种是交互类模型，在获得两句话的初级特征后，进行交互，再输入多层感知机预测相似度，例如MatchPyramid，ESIM，DAM。这两类模型均取得了十分卓越的效果。

但现有的计算短文本相似度的方法仍存在一定的局限性：

首先，在词嵌入过程中，通常使用通过GloVe或Fasttext等方法预训练的词向量，存于字典中进行调用，但由于文件过大，经常会导致数据处理时间长于模型预测时间。而且，为增强输入序列信息表征，有时会加入分词信息，而分词后产生的是一个迭代器，获取分词结果的时间是分词耗时的20多倍。这都会导致模型无法在短时间内处理大量文本。

其次，提取句子特征时，通常使用RNN结构，通常是2或4层的GRU或LSTM。循环神经网络的结构设计预示着由于并行度不高而造成的计算速度上的瓶颈，造成TPS下降。此外，每处理一个token，都会造成信息损失，在文本较长的情况下，会造成梯度消失或梯度爆炸，信息损耗过大。

最后，模型参数上，由于模型过于精巧，复杂度高，动辄几百甚至上千万的参数经常会造成模型占用内存较大，同时也需要更多的训练数据。考虑到高质量数据获取和标注耗时耗力，现有相似度模型的应用性和推广性有待进一步提高。

发明内容

本发明为解决上述问题，提供了一种短文本语义相似度度量方法、系统及装置，基于神经网络获得待匹配的短文本的语义特征，结合并强化共有特征，可以实现快速、准确且稳定的语义相似度的计算。

为实现上述目的，本发明采用的技术方案为：

一种短文本语义相似度度量系统，包括：向量转化模块，用于将待匹配的短文本A和短文本B分别转化为向量A1和向量B1；特征强化模块，用于将所述向量A1和所述向量B1分别转化为特征增强向量A2和特征增强向量B2；特征提取模块，用于根据所述特征增强向量A2和所述特征增强向量B2得到全局最大池化向量C和全局平均池化向量D；输出模块，用于根据所述全局最大池化向量C和所述全局平均池化向量D得到相似度预测结果。

优选的，所述向量转化模块包括：序号矩阵转化模块，用于将短文本转化为序号矩阵；词嵌入模块，用于将所述序号矩阵转化为向量。

优选的，所述特征强化模块包括：特征交互模块，用于基于注意力机制，得到注意力权重，并将所述向量A1乘以所述注意力权重，得到加权向量A1'，将所述向量B1乘以所述注意力权重，得到加权向量B1'；第一特征融合模块，用于根据所述向量A1和所述加权向量A1'得到所述特征增强向量A2，根据所述向量B1和所述加权向量B1'得到所述特征增强向量B2。

优选的，所述注意力机制为局部注意力机制。

优选的，所述特征增强向量的计算方法为：A2＝[A1,A1',A1-A1',A1+A1',A1*A1']，B2＝[B1,B1',B1-B1',B1+B1',B1*B1']。

优选的，所述特征提取模块包括：相似度矩阵生成模块，用于根据所述特征增强向量A2和所述特征增强向量B2得到相似度矩阵；卷积池化模块，用于根据所述特征增强向量A2、所述特征增强向量B2和所述相似度矩阵得到所述全局最大池化向量C和所述全局平均池化向量D。

优选的，所述输出模块包括：第二特征融合模块，用于根据全局最大池化向量和全局平均池化向量得到全局特征增强向量。

优选的，所述系统包括EMBED层、BN层、Attention层、CNN层、GlobalAveragePool层、GlobalMaxPool层和MLP层。

基于同样的发明构思，本发明还提供了一种短文本语义相似度度量方法，包括以下步骤：将待匹配的短文本A和短文本B分别转化为向量A1和向量B1；将所述向量A1和所述向量B1分别转化为特征增强向量A2和特征增强向量B2；根据所述特征增强向量A2和所述特征增强向量B2得到全局最大池化向量C和全局平均池化向量D；根据所述全局最大池化向量C和所述全局平均池化向量D得到相似度预测结果。

基于同样的发明构思，本发明还提供了一种短文本语义相似度度量装置，包括：输入端，用于输入待匹配的短文本A和短文本B；计算端，加载有上述的系统，用于计算所述短文本A和所述短文本B的语义相似度。

本发明的有益效果是：

1.将待匹配的短文本分别转化为向量，获得语义特征，结合并强化共有特征，可以实现快速、准确且稳定的语义相似度的计算；

2.使用word2index字典将短文本转化为序号矩阵作为输入，再进行词嵌入操作，有效地简化了短文本的预处理过程；

3.采用注意力机制进行局部推理操作，大大降低了参数量，减少了信息损失，提高了并行能力；

4.系统为轻量级，参数量少，内存占用少，可以应用于移动终端。

附图说明

图1为实施例二所述模型的结构示意图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白，以下结合具体实施例对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例一

本实施例提供一种短文本语义相似度度量系统，包括：

向量转化模块，用于预处理待匹配的句对A和B，将句子A和B分别转化为向量A1和向量B1。

其中，向量转化模块包括序号矩阵转化模块和词嵌入模块。

序号矩阵转化模块通过word2index字典将句子A和B分别转化为序号矩阵A'和B'，获取句中每个字的索引。

词嵌入模块包括EMBED层和BN层，进行词嵌入操作，将序号矩阵A'和B'分别转化为词嵌入句向量A1和B1。

本实施例的系统可以对序列化的句对进行匹配，取消了传统的语义相似度度量方法中预训练的步骤。

特征强化模块，用于将向量A1和向量B1分别转化为特征增强向量A2和特征增强向量B2。

其中，特征强化模块包括特征交互模块和第一特征融合模块。

特征交互模块包括Attention层，对两个词嵌入句向量进行字粒度的自注意力机制，得到注意力权重，然后将词嵌入句向量分别乘以该注意力权重，得到加权句向量A1'和B1'。

本实施例的系统取消了循环神经网络的编码过程，而是采用了最简单的注意力机制进行局部推理，这一点在目前的语义相似度度量方法中是十分罕见的，可以大大降低了参数量，减少了序列长度和遮罩造成的信息损失，提高了并行能力。

第一特征融合模块，进行ESIM模型的特征强化操作，对词嵌入句向量和加权句向量进行特征增强，分别得到特征增强向量A2＝[A1,A1',A1-A1',A1+A1',A1*A1']和B2＝[B1,B1',B1-B1',B1+B1',B1*B1']。

第一特征融合模块通过拼接计算模型的中间量，将局部推理信息更好的融合到最终的表征向量中。

特征提取模块，用于根据特征增强向量A2和特征增强向量B2得到全局最大池化向量C和全局平均池化向量D。

其中，特征提取模块包括相似度矩阵生成模块和卷积池化模块。

相似度矩阵生成模块，用于根据特征增强向量A2和特征增强向量B2得到相似度矩阵。

卷积池化模块，包括3个CNN层、GlobalAveragePool层和GlobalMaxPool层，将特征增强向量A2、特征增强向量B2以及相似度矩阵进行多层卷积和最大池化操作，得到全局最大池化向量C和全局平均池化向量D。

输出模块，用于根据全局最大池化向量C和全局平均池化向量D得到相似度预测结果。

其中，输出模块包括第二特征融合模块。第二特征融合模块与第一特征融合模块采用相同的特征增强的方式，根据全局最大池化向量C和全局平均池化向量D得到全局特征增强向量E。

输出模块还包括MLP层，即多层感知机。全局特征增强向量E经过MLP层，得到句对的语音相似度的预测结果(值域为0～1)。

本实施例所述的系统基于神经网络获得待匹配的短文本的语义特征，结合并强化共有特征，可以实现快速、准确且稳定的语义相似度的计算。

本实施例所述的系统的参数量仅20+W，内存占用仅8M，十分轻量级。

本实施例所述的系统在哈尔滨工业大学公开的大规模语义相似度数据(LCQMC)的测试集上取得了87.1％的准确率，比官方提供的CNN模型高了14多个百分点，效果显著。

实施例二

本实施例提供一种短文本语义相似度度量方法，包括以下步骤：

S1.使用word2index字典，将待匹配的句对A和B分别转化为序号矩阵。

如图1所示，本实施例所述的方法使用一种短文本语义相似度度量模型。本实施例所述的模型可以分为两个部分：第一部分进行特征增强操作，第二部分进行特征提取操作。

S2.将序号矩阵A'和B'输入本实施例所述的模型，然后经过EMBED层和BN层，进行词嵌入操作，得到词嵌入句向量A1和B1。

即在本实施例中，以字索引作为模型输入，在模型内部进行词嵌入操作，而非采用传统的预训练的方式。

S3.词嵌入句向量A1和B1经过Attention层，即进入交互阶段，对两个词嵌入句向量进行字粒度的自注意力机制，得到注意力权重，然后将词嵌入句向量分别乘以该注意力权重，得到加权句向量A1'和B1'。

S4.进行ESIM的特征强化操作(Local Inference和Inference Composition)，得到特征增强向量A2和B2。

S5.使用特征增强向量A2和B2生成相似度矩阵。

S6.结合特征增强向量A2和B2以及相似度矩阵，依次经过3个CNN层、GlobalAveragePool层和GlobalMaxPool层，得到全局最大池化向量C和全局平均池化向量D。

S7.采用步骤S4所述的特征增强的方式，将全局最大池化向量C和全局平均池化向量D展开和拼接，得到全局特征增强向量E。

S8.将全局特征增强向量E输入多层感知机，得到相似度预测结果。

本实施例所述的方法有效地简化了语义相似度度量模型，在保证模型准确率和召回率的情况下，实现了快速和轻量级的目标。

本领域技术人员可以理解，实现上述音频数据识别方法实施例中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

实施例三

本实施例提供一种短文本语义相似度度量装置，包括：

输入端，用于输入待匹配的短文本A和B。

计算端，加载有实施例一所述的系统，用于计算短文本A和B的语义相似度。

由于实施例一所述的系统为轻量级，参数量少，内存占用少，可以应用于移动终端，如手机，以提供短文本语义相似度度量服务。

上述说明示出并描述了本发明的优选实施例，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种短文本语义相似度度量系统，其特征在于，包括：

向量转化模块，用于将待匹配的短文本A和短文本B分别转化为向量A1和向量B1；所述向量转化模块包括：序号矩阵转化模块，用于将短文本转化为序号矩阵；词嵌入模块，用于将所述序号矩阵转化为向量；

特征强化模块，用于将所述向量A1和所述向量B1分别转化为特征增强向量A2和特征增强向量B2；所述特征强化模块包括：特征交互模块，用于基于局部注意力机制，得到注意力权重，并将所述向量A1乘以所述注意力权重，得到加权向量A1'，将所述向量B1乘以所述注意力权重，得到加权向量B1'；第一特征融合模块，用于根据所述向量A1和所述加权向量A1'得到所述特征增强向量A2，根据所述向量B1和所述加权向量B1'得到所述特征增强向量B2；所述特征增强向量A2的计算方法为：A2=[A1,A1', A1-A1', A1+A1', A1*A1']，所述特征增强向量B2的计算方法为：B2=[B1,B1', B1-B1', B1+B1', B1*B1']；

特征提取模块，用于根据所述特征增强向量A2和所述特征增强向量B2得到全局最大池化向量C和全局平均池化向量D；

输出模块，用于根据所述全局最大池化向量C和所述全局平均池化向量D得到相似度预测结果。

2.根据权利要求1所述的短文本语义相似度度量系统，其特征在于，所述特征提取模块包括：

相似度矩阵生成模块，用于根据所述特征增强向量A2和所述特征增强向量B2得到相似度矩阵；

卷积池化模块，用于根据所述特征增强向量A2、所述特征增强向量B2和所述相似度矩阵得到所述全局最大池化向量C和所述全局平均池化向量D。

3.根据权利要求1所述的短文本语义相似度度量系统，其特征在于，所述输出模块包括：

第二特征融合模块，用于根据全局最大池化向量和全局平均池化向量得到全局特征增强向量。

4.根据权利要求1所述的短文本语义相似度度量系统，其特征在于，包括EMBED层、BN层、Attention层、CNN层、Global Average Pool层、Global Max Pool层和MLP层。

5.一种短文本语义相似度度量方法，其特征在于，包括以下步骤：

将待匹配的短文本A和短文本B分别转化为向量A1和向量B1；其中，先将所述短文本A和短文本B分别转化为序号矩阵，然后将所述序号矩阵转化为向量，得到对应的向量A1和向量B1；

将所述向量A1和所述向量B1分别转化为特征增强向量A2和特征增强向量B2；

根据所述特征增强向量A2和所述特征增强向量B2得到全局最大池化向量C和全局平均池化向量D；

根据所述全局最大池化向量C和所述全局平均池化向量D得到相似度预测结果；

其中，将所述向量A1和所述向量B1分别转化为特征增强向量A2和特征增强向量B2，进一步包括：

基于局部注意力机制，得到注意力权重，并将所述向量A1乘以所述注意力权重，得到加权向量A1'，将所述向量B1乘以所述注意力权重，得到加权向量B1'；

根据所述向量A1和所述加权向量A1'得到所述特征增强向量A2，根据所述向量B1和所述加权向量B1'得到所述特征增强向量B2；所述特征增强向量A2的计算方法为：A2=[A1,A1', A1-A1', A1+A1', A1*A1']，所述特征增强向量B2的计算方法为：B2=[B1,B1', B1-B1', B1+B1', B1*B1']。

6.一种短文本语义相似度度量装置，其特征在于，包括：

输入端，用于输入待匹配的短文本A和短文本B；

计算端，加载有如权利要求1~4任一项所述的系统，用于计算所述短文本A和所述短文本B的语义相似度。