CN109299462B

CN109299462B - 基于多维卷积特征的短文本相似度计算方法

Info

Publication number: CN109299462B
Application number: CN201811100976.0A
Authority: CN
Inventors: 高曙; 龚磊; 袁蕾; 程刚
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2018-09-20
Filing date: 2018-09-20
Publication date: 2022-11-29
Anticipated expiration: 2038-09-20
Also published as: CN109299462A

Abstract

本发明公开了一种基于多维卷积特征的短文本相似度计算方法，包括：利用训练数据构建多粒度卷积神经网络模型；在多粒度卷积神经网络模型的输入层输入两个训练样本，获得各自的词向量矩阵；在卷积层进行多粒度卷积操作，提取各自的特征向量；在池化层使用K‑Block‑Max池化和平均池化方法完成二次特征向量提取；在相似度计算层使用融合方向与距离的计算方法得到两个训练样本的相似度向量；在全连接层计算两个训练样本的相似度值，并与训练数据中标注的相似度值进行比较，对模型进行更新；将需要计算相似度的两段短文本，输入到经过训练的多粒度卷积神经网络模型中，则在全连接层输出相似度值。本发明采用不同粒度卷积核对短文本数据进行特征提取，提高准确性。

Description

基于多维卷积特征的短文本相似度计算方法

技术领域

本发明涉及计算机技术领域，具体地指一种基于多维卷积特征的短文本相似度计算方法。

背景技术

基于词频的特征提取是指在最初的词项集合中，根据给定的特征评估函数计算，从而挑选最能反映短文本特征的特征词项集合的过程。词频-逆向文档频率(TF-IDF)和互信息(MI)是比较常用的两种词频特征提取方法。来源于统计热力学的信息熵(IE)的概念，用于度量体系的混乱程度，它本身并不直接用于文本的特征提取，但是经常融入到其它短文本词频特征提取方法中。

主题模型是一种比较常用的短文本语义特征提取模型。首先，为了解决数据稀疏问题，主题模型结合一元混合模型的优点：所有短文本共享一个主题分布；其次，为了消除每个短文本只有一个主题的弊端，在整个语料库上的共现词对上建模；最后，将短文本映射到相应的语义空间(或主题空间)，从而对短文本语义进行分析和判断。

随着深度学习的发展，短文本处理过程逐步转向提取文本间的语义特征。卷积神经网络结构中卷积-池化结构可以用于完成短文本的特征提取。卷积核是一个作用于输入矩阵的滑动窗口函数，在卷积操作中，卷积核按照一定的运动方式扫过输入矩阵完成卷积运算。池化操作一般位于卷积运算后，作用是对卷积层提取到的特征向量进行降采样，完成特征的二次提取。常用的池化方式为最大池化，该池化方式仅取池化窗口范围内的最大特征值，其余特征值全部抛弃。卷积-池化结构的共同作用完成短文本输入数据的特征提取。

短文本相似度计算是自然语言处理(NLP)乃至机器学习领域的难点和热点，它是NLP中一个重要任务，既可以当成一个单独的任务，又可以作为其它NLP应用的基础。传统的处理方法如基于词频模型的方法无法挖掘出短文本中的隐含信息，基于主题模型的处理方法不能准确建模文本匹配中的语义相近程度。在基于卷积神经网络的处理方法中，由于模型的输入是短文本转化后的文本矩阵，其输入矩阵的行与列由输入的短文本长度以及词向量的维度决定，传统的卷积核确定方式不仅会破坏词向量的信息，而且无法提取每个词语上下文的信息；另外，在池化层中最大池化操作仅保留一个特征最强的值，从而忽略其余出现的重要特征，对特征相似度计算造成不利影响；且传统的卷积-池化特征提取是从单一粒度进行，提取到的特征向量不足以代表短文本的语义，因此，在相似度计算过程中，会丢失短文本的部分语义特征，导致相似度计算的准确性受到影响。

发明内容

本发明的目的是为了解决上述背景技术存在的不足，而提出的一种基于多维卷积特征的短文本相似度计算方法，该方法构建了一种多粒度卷积神经网络模型结构，模型的训练过程采用不同粒度卷积核对短文本数据进行特征提取，并利用K-Block-Max池化(K-Block-Max Pooling)和平均池化(Mean Pooling)两种方式进行池化操作，从而有效的解决目前存在的问题。

为实现上述目的，本发明所设计的基于多维卷积特征的短文本相似度计算方法，其特殊之处在于，所述方法包括训练步骤和计算步骤，所述训练步骤包括：

1)使用业内开放的标准短文本数据集作为训练数据；

2)利用训练数据，构建多粒度卷积神经网络模型，所述多粒度卷积神经网络模型包括输入层、卷积层、池化层、相似度计算层和全连接层；

3)在所述多粒度卷积神经网络模型的输入层输入用于短文本相似度计算的两个训练样本AS和BS，利用开源Skip-Gram模型进行处理，获得各自的词向量矩阵AM和BM；

4)对于两个训练样本的词向量矩阵AM和BM，在多粒度卷积神经网络模型卷积层进行多粒度卷积操作，提取各自的特征向量AL_h和BL_h,其中，h表示不同结构的卷积核个数；

5)对两个训练样本的特征向量AL_h和BL_h，在多粒度卷积神经网络模型的池化层使用K-Block-Max池化和平均池化方法完成二次特征向量AO_lh和BO_lh的提取，l表示使用的池化方式个数；

6)对两个训练样本AS和BS的二次特征向量AO_lh和BO_lh，在多粒度卷积神经网络模型的相似度计算层使用融合方向与距离的计算方法得到两个训练样本的相似度向量；

7)在多粒度卷积神经网络模型的全连接层计算两个训练样本的相似度值，并与训练数据中标注的相似度值进行比较，误差值通过反向传播到多粒度卷积神经网络模型的卷积层和池化层，对模型进行更新；

所述计算步骤包括：

8)将需要计算相似度的两段短文本，输入到经过训练的多粒度卷积神经网络模型中，则在全连接层输出相似度值。

优选地，所述步骤3)中针对两个训练样本AS和BS，分别进行如下处理：

31)将训练样本AS分词得到字符数组

其中，w_j(j＝1,2,...n₁)表示分词后的词语，n₁表示AS分词后词语个数；

32)载入利用开源Skip-Gram模型获得的词向量表WordVectors；

33)依次判断Arr中每个词语w_j(j＝1,2,...n₁)是否在词向量表WordVectors中，如果在，则将词语w_j(j＝1,2,...n₁)的词向量WordVectors[w_j]放入词向量矩阵AM；如果不在，就将生僻词词向量WordVectors[unknown]放入词向量矩阵AM；

34)重复执行步骤33)，直到训练样本中的每个词语都转化完毕；

35)返回训练样本AS的词向量矩阵AM，AM是n₁×k的矩阵，其中n₁表示样本AS分词后词语个数，k表示词向量维度；

36)利用同样的方法，对训练样本BS做31)～35)同样的处理，并返回它的词向量矩阵BN，BN是n₂×k的矩阵，其中n₂表示样本BS分词后词语个数，k表示词向量维度。

优选地，所述步骤4)在多粒度卷积神经网络模型卷积层设计三种不同结构的卷积核以便从词语的不同组合粒度中提取短文本特征，三种卷积核结构为h×k，其中:h＝1,2,3，对于这三种卷积核，每次卷积运算时结合的词语个数分别是1,2,3个，k表示词向量维度。

优选地，所述步骤5)的具体处理包括：

51)对于两个训练样本在卷积层提取的特征向量AL_h和BL_h，初始化其分块数p＝0与每分块取得的特征个数m＝0；

52)判断若特征向量AL_h长度小于3或者特征向量BL_h长度小于3，将p赋值为1，m赋值为1；否则取特征向量AL_h和BL_h长度中的最小值l将其除以3赋值给p，m赋值为2；

53)依据分块数p值将特征向量AL_h和BL_h分块，并依据特征个数m值取特征值；

54)分别利用K-Block-Max池化和平均池化方法，完成两个训练样本的二次特征向量AO_lh和BO_lh的提取，分别生成池化特征向量。

优选地，所述步骤6)中两个训练样本AS和BS的相似度向量计算，是对于5)中获得的6种池化特征向量AO_lh和BO_lh，进行如下处理：

61)设X，Y分别表示任意一个池化特征向量AO_lh和BO_lh(l＝1,2,h＝1,2,3)，并且X＝(x₁,x₂,...,x_n),Y＝(y₁,y₂,...,y_n)(n表示每个特征向量中的特征项个数)，利用改进的余弦相似度计算X，Y在方向上相似度值Simc(X,Y),

其中，

62)利用欧式距离计算X，Y在距离上相似度值Simd(X,Y),

63)融合方向与距离计算X，Y的相似度Sim(X,Y),

Sim(X,Y)＝Simc(X,Y)*Simd(X,Y)

64)利用61)～63)所述方法，对所有池化特征向量AO_lh和BO_lh，对应求相似度，获得相似度向量V。

优选地，所述步骤7)在全连接层中使用Softmax函数进行映射，v_i表示V中的第i个元素，v_j表示V中第j个元素，则

其中,s_i表示元素v_i的Softmax值，Softmax函数将相似度向量中多个特征映射到(0,1)区间，并且映射后的特征值相加为1，经过Softmax函数处理，每一个映射后的特征值即视为概率，从而可以获得多个相似度分数的概率，取其中最大值作为两段训练样本相似度值并与训练数据中标注的相似度值进行比较，误差值通过反向传播到多粒度卷积神经网络模型的卷积层和池化层，对模型进行更新。

本发明提出的一种基于多维卷积特征的短文本相似度计算方法，构建了一种多粒度卷积神经网络模型。该模型卷积核结构以词向量维度为最小单位，保证词向量的完整性不被破坏；依据短文本特点，构造三种结构卷积核，以不同粒度提取词语上下文信息；同时，在最大池化方法的基础上，设计K-Block-Max池化方式，该方式取得了卷积后的多个特征值，同时保留了多个特征值之间的位置信息。通过三种结构的卷积核，以及K-Block-Max池化(K-Block-Max Pooling)和平均池化(Mean Pooling)两种方式，最终共产生六种不同结构的特征向量。在进行特征向量相似度计算时，设计融合方向与距离的多维卷积特征相似度计算方法，使用该方法对六种不同结构的特征向量对应求相似度。模型的这种设计保证了从特征提取到相似度计算的全面性，结果更加准确。

本发明的优点在于：

(1)本专利构造的多粒度卷积神经网络的卷积核结构以词向量维度为最小单位，保证词向量的完整性不被破坏。对于输入的词向量矩阵，依据短文本特点，构造三种结构卷积核，使得每次卷积运算所涉及的上下文词语数分别为1,2,3，从而以不同粒度提取词语上下文信息。这种卷积核构建方式保留了每个词语的词向量完整信息，同时，由于采用三种结构卷积核，可以提取到不同粒度的词语上下文信息。

(2)本专利所设计的K-Block-Max池化方式不仅取得了卷积后的多个特征值，同时保留了多个特征值之间的位置信息，这对于文本数据至关重要。

(3)本专利依据短文本特点，构建三种结构的卷积核，并使用K-Block-Max池化(K-Block-Max Pooling)和平均池化(Mean Pooling)两种方式，最终共产生六种不同结构的特征向量。在进行特征向量相似度计算时，设计融合方向与距离的多维卷积特征相似度计算方法，使用该方法对六种不同结构的特征向量对应求相似度，并通过归一函数得到相似度值。这种设计方式使得两段短文本的相似性度量更加全面、准确。

附图说明

图1为本发明所构建的多粒度卷积神经网络模型架构图。

图2为本发明所构建的多粒度卷积神经网络模型的卷积层示意图。

图3为本发明所构建的多粒度卷积神经网络模型的池化层示意图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步的详细描述。

普通的卷积神经网络对短文本处理存在以下几个问题：首先，普通卷积核无法直接对短文本数据进行特征提取；其次，最大池化方法会丢失部分重要特征以及词语之间的位置信息；最后，传统的卷积-池化特征提取是从单一粒度进行，提取到的特征向量不足以代表短文本语义。因此，本发明提出一种基于多维卷积特征的相似度计算方法，构建一种多粒度卷积神经网络模型，该模型采用不同粒度卷积核对短文本数据进行特征提取，采用K-Block-Max池化(K-Block-Max Pooling)和平均池化(Mean Pooling)两种方式进行池化操作，有效的解决了上述问题。

图1为本发明所构建的多粒度卷积神经网络模型架构图。该图展示了待比较相似度的两段短文本在多粒度卷积神经网络模型中特征提取以及相似度计算过程。多粒度卷积神经网络模型共包括五层，从左到右依次是：输入层、卷积层、池化层、相似度计算层以及全连接层。其中输入层、卷积层与池化层对两段短文本进行独立处理，分别输出二者的多维特征向量，随后相似度计算层对二者的特征向量进行相似性度量，最终全连接层输出两段短文本的相似度值。

本发明提出的一种基于多维卷积特征的短文本相似度计算方法，包括训练步骤和计算步骤。

训练步骤包括：

1)使用业内开放的标准短文本数据集(例如SemEval STS数据集)作为训练数据；

2)利用训练数据，构建多粒度卷积神经网络模型，该模型包括输入层、卷积层、池化层、相似度计算层和全连接层，经过步骤3)～7)，对模型进行训练。

3)输入用于短文本相似度计算的两个训练样本AS和BS，分别进行如下处理：

31)将训练样本AS分词得到字符数组

32)载入利用开源Skip-Gram模型获得的词向量表WordVectors(该词向量表利用维基百科作为语料训练)；

33)依次判断Arr中每个词语w_j(j＝1,2,...n₁)是否在词向量表WordVectors中，如果在，则将词语w_j(j＝1,2,...n₁)的词向量WordVectors[w_j]放入词向量矩阵AM；如果不在，就将生僻词词向量WordVectors[unknown](所有生僻词的词向量均用unknown的词向量代替)放入词向量矩阵AM；

35)返回训练样本AS的词向量矩阵AM，AM是n₁×k的矩阵，其中n₁表示样本AS分词后词语个数，k表示词向量维度。

36)利用同样的方法，对训练样本BS做31)～35)同样的处理，并返回它的词向量矩阵BN，BN是n₂×k的矩阵，其中n₂表示样本BS分词后词语个数，k表示词向量维度；

4)对于输入的两个训练样本AS和BS，利用3)获得各自的词向量矩阵AM和BM后，在多粒度卷积神经网络模型卷积层进行多粒度卷积操作，提取各自的特征向量AL_h和BL_h,其中，h表示不同结构的卷积核个数，即每次卷积运算所涉及的上下文词语数，对于短文本，h＝1,2,3。

普通的CNN结构中，一个卷积层往往只包含一种结构的多个卷积核。对于同种结构的卷积核，即使数量有多个，仍然只能提取出同一种类型的特征向量，因为卷积操作结合的上下文信息是相同的，这种方式对于上下文语义信息丰富的短文本并不适用。为了充分考虑短文本数据的上下文信息以及词语组合的情况，本发明设计三种不同结构的卷积核以便从词语的不同组合粒度中提取短文本特征。设三种卷积核结构为h×k，其中:h＝1,2,3，h为每次卷积运算所涉及的上下文词语数，即对于这三种卷积核，每次卷积运算时结合的词语个数分别是1,2,3个，k表示词向量维度。如图2所示，展示了h×k(其中：h＝2,k＝5)的卷积核结构。经过三种不同卷积核结构的卷积操作，提取到的短文本特征值更加全面，更具有代表性。

5)对两个训练样本AS和BS的特征向量，在多粒度卷积神经网络模型的池化层使用K-Block-Max池化(K-Block-Max Pooling)和平均池化(Mean Pooling)方法完成二次特征向量AO_lh和BO_lh的提取，其中，l＝1,2，表示使用的池化方式个数；h＝1,2,3，表示不同结构的卷积核个数：

普通的最大池化方式不能直接作用于短文本数据。为了提取多个重要特征值，并保留特征值之间的位置信息，本发明设计K-Block-Max池化方法对卷积层输出的特征向量(以下简称为卷积特征向量)进行特征的二次提取(池化层二次提取的特征向量以下简称为池化特征向量)。K-Block-Max方法对任意一个卷积特征向量，首先将其分块成若干块，然后对于每一个分块取其最大的若干个值并保持原有顺序依此放入池化特征向量中。K-Block-Max池化方法的关键在于分块数和每块取得特征值个数的确定，其具体步骤如下：

51)对于两个训练样本在卷积层提取的特征向量AL_h和BL_h(h＝1,2,3)，初始化其分块数p＝0与每分块取得的特征个数m＝0；

52)判断若特征向量AL_h(h＝1,2,3)长度小于3或者特征向量BL_h(h＝1,2,3)长度小于3，将p赋值为1，m赋值为1；否则取特征向量AL_h和BL_h(h＝1,2,3)长度中的最小值l将其除以3赋值给p，m赋值为2；

53)依据分块数p值将特征向量AL_h和BL_h(h＝1,2,3)分块，并依据特征个数m值取特征值；

54)分别利用K-Block-Max池化(K-Block-Max Pooling)和平均池化(MeanPooling)方法，完成两个训练样本的二次特征向量AO_lh和BO_lh(l＝1,2,h＝1,2,3)的提取，即生成6种池化特征向量；

6)对两个训练样本AS和BS的二次特征向量AO_lh和BO_lh(l＝1,2,h＝1,2,3)，在多粒度卷积神经网络模型的相似度计算层使用融合方向与距离的计算方法得到两个训练样本的相似度向量。

传统余弦相似度计算方法主要从方向角度衡量两个向量相似度，欧氏距离计算方法主要从距离的角度衡量两个向量相似度。单独应用两种相似度计算方法之一都不能全面和准确衡量向量相似度，因此本发明考虑从方向与距离两个角度共同衡量向量相似度，即融合余弦相似度计算方法与欧氏距离计算方法，使其从方向和距离两个角度衡量相似度，其具体步骤如下：

其中，

62)利用欧式距离计算X，Y在距离上相似度值Simd(X,Y),

63)融合方向与距离计算X，Y的相似度Sim(X,Y),

Sim(X,Y)＝Simc(X,Y)*Simd(X,Y)

64)利用61)～63)所述方法，对6个池化特征向量AO_lh和BO_lh(l＝1,2,h＝1,2,3)，对应求相似度，获得相似度向量V。

7)在多粒度卷积神经网络模型中的全连接层计算两个样本的相似度值得分，并与训练数据中标注的相似度值进行比较，误差值通过反向传播到多粒度卷积神经网络模型的卷积层和池化层，对模型进行更新。

卷积神经网络一般将卷积-池化后的特征向量直接输入全连接层。本方法针对短文本相似度计算任务，在池化层与全连接层中间加入相似度计算层。相似度计算层主要完成两段短文特征向量相似度度量，生成两段短文本的相似度向量。在全连接层中使用Softmax函数进行映射。v_i表示V中的第i个元素，v_j表示V中第j个元素，则

其中,s_i表示元素v_i的Softmax值。Softmax函数将相似度向量中多个特征映射到(0,1)区间，并且映射后的特征值相加为1。经过Softmax函数处理，每一个映射后的特征值即可视为概率，从而可以获得多个相似度分数的概率，取其中最大值作为两个样本的相似度值，并将与训练数据中标注的相似度值的误差通过反向传播到多粒度卷积神经网络模型，对模型进行更新。

多粒度卷积神经网络模型训练完成后，即可进行短文本相似度计算，计算步骤包括：

本领域的技术人员应当理解，此处所述的具体实施方案仅用解释本发明专利，并不用于限制本发明专利。在本发明专利的精神和原则之内作出的任何修改、等同替换和改进等，均应包含在本发明专利的保护范围之中。

Claims

1.一种基于多维卷积特征的短文本相似度计算方法，其特征在于：所述方法包括训练步骤和计算步骤，所述训练步骤包括：

1)使用业内开放的标准短文本数据集作为训练数据；

所述计算步骤包括：

2.根据权利要求1所述的基于多维卷积特征的短文本相似度计算方法，其特征在于：所述步骤3)中针对两个训练样本AS和BS，分别进行如下处理：

31)将训练样本AS分词得到字符数组

32)载入利用开源Skip-Gram模型获得的词向量表WordVectors；

3.根据权利要求1所述的基于多维卷积特征的短文本相似度计算方法，其特征在于：所述步骤4)在多粒度卷积神经网络模型卷积层设计三种不同结构的卷积核以便从词语的不同组合粒度中提取短文本特征，三种卷积核结构为h×k，其中:h＝1,2,3，对于这三种卷积核，每次卷积运算时结合的词语个数分别是1,2,3个，k表示词向量维度。

4.根据权利要求1述的基于多维卷积特征的短文本相似度计算方法，其特征在于：所述步骤5)的具体处理包括：

5.根据权利要求1所述的基于多维卷积特征的短文本相似度计算方法，其特征在于：所述步骤6)中两个训练样本AS和BS的相似度向量计算，是对于5)中获得的6种池化特征向量AO_lh和BO_lh，进行如下处理：

其中，

62)利用欧式距离计算X，Y在距离上相似度值Simd(X,Y),

63)融合方向与距离计算X，Y的相似度Sim(X,Y),

Sim(X,Y)＝Simc(X,Y)*Simd(X,Y)

6.根据权利要求1所述的基于多维卷积特征的短文本相似度计算方法，其特征在于：所述步骤7)在全连接层中使用Softmax函数进行映射，v_i表示V中的第i个元素，v_j表示V中第j个元素，则