CN109190117B

CN109190117B - 一种基于词向量的短文本语义相似度计算方法

Info

Publication number: CN109190117B
Application number: CN201810929693.0A
Authority: CN
Inventors: 胡琮亮; 吴培; 罗南杭; 万华庆; 方明杰
Original assignee: 719th Research Institute of CSIC
Current assignee: 719th Research Institute of CSIC
Priority date: 2018-08-10
Filing date: 2018-08-10
Publication date: 2023-06-23
Anticipated expiration: 2038-08-10
Also published as: CN109190117A

Abstract

本发明公开了一种基于词向量的短文本语义相似度计算方法，涉及短文本相似度技术领域，包括对获取的语料库进行分词，并对分词进行词向量模型处理，构建词向量库；对样本集中的两个短文本进行分词，并提取文本特征集合；计算样本集中的两个短文本的文本特征集合中各文本特征的相似度，选择最优相似度集合，并计算最优相似度集合中的各相似度的权重；以最优相似度集合中各相似度为计算项，对待测的两个短文本的各文本特征的相似度加权求和。本发明的基于词向量的短文本语义相似度计算方法，提取待测文本的词性特征、语意特征和文本结构特征，从中选择最优相似度集合进行匹配计算短文本语义相似度，提高短文本语义相似度计算的精度。

Description

一种基于词向量的短文本语义相似度计算方法

技术领域

本发明涉及短文本相似度技术领域，具体涉及一种基于词向量的短文本语义相似度计算方法。

背景技术

随着计算机科学技术和互联网的迅猛发展，各类信息资料的数量以惊人的速度增长，越来越多的数据以短文本的形式出现在互联网上。许多研究都表明短文本相似度计算能促进许多自然语言处理任务，克服语料库中的信息冗余，如事件检测，信息检索，文本正规化，自动文本摘要，文本分类和聚类等。

目前，短文本相似度的计算方法大多是直接利用原始短文本集合丰富的词对信息进行特征提取，这样可能会放大噪音特征产生的不利影响，因此具有很大的局限性，不能准确地表达短文本的语义含义。

发明内容

针对现有技术中存在的缺陷，本发明的目的在于提供一种基于词向量的短文本语义相似度计算方法，提高短文本语义相似度计算的精度。

为达到以上目的，本发明采取的技术方案是：一种基于词向量的短文本语义相似度计算方法，包括以下步骤：

获取语料库，对语料库进行分词，并对分词进行词向量模型处理，生成每个词的词向量，然后构建词向量库；

对样本集中的两个短文本进行分词，并提取文本特征集合，文本特征集合包括词性特征、语意特征和文本结构特征；

从词向量库中找到词性特征对应的词向量、语意特征对应的词长向量以及文本结构特征对应的词向量，并找出文本结构特征对应的最长公共子串；

根据词性特征对应的词向量、语意特征对应的词长向量、文本结构特征对应的词向量和最长公共子串，计算样本集中的两个短文本的文本特征集合中各文本特征的相似度，从各文本特征的相似度中选择超过阈值的相似度形成最优相似度集合，并计算最优相似度集合中的各相似度的权重；

以最优相似度集合中各相似度为计算项，计算待测的两个短文本的各文本特征的相似度，然后对各文本特征的相似度加权求和得出短文本语义相似度。

在上述技术方案的基础上，对语料库进行分词后还需进行数据清理，得到语料库中的中文分词。

在上述技术方案的基础上，词向量模型为word2vec模型。

在上述技术方案的基础上，构建词向量库的具体方法为：将word2vec模型生成的词向量写入Mysql数据库中，并对分词建立相应的索引。

在上述技术方案的基础上，选择最优相似度集合的具体方法为：样本集包括训练样本和测试样本，利用训练样本的两个短文本的各文本特征相似度分布建立混合高斯模型，每个高斯模型对应一个文本特征相似度，利用期望最大化算法估算各文本特征相似度分布的混合高斯模型参数，然后将测试样本输入混合高斯模型，计算实际相似度和理论相似度的欧式距离，去掉欧式距离大于预设阈值的文本特征的相似度，余下的为最优相似度集合。

在上述技术方案的基础上，词性特征的相似度包括：名词相似度、时间词相似度、动词相似度、数词相似度、介词相似度和量词相似度。

在上述技术方案的基础上，语意特征对应的词长向量是将短文本的主干词串联，结合相应的词向量，构成的词长向量。

在上述技术方案的基础上，语意特征的相似度包括：语意最小相似度、语意最大相似度、语意中值相似度和语意均值相似度。

在上述技术方案的基础上，文本结构相似度包括：第一词义最大相似度均值、第二词义最大相似度均值、最长公共子串最小耗费、第一最长公共子串特征、第二最长公共子串特征和字符长度比。

在上述技术方案的基础上，相似度计算的结果a的取值范围是[-1，1]，当a＝1时表示语义完全相似，当a＝-1时表示语义完全不同。

与现有技术相比，本发明的优点在于：

本发明的基于词向量的短文本语义相似度计算方法，提取待测文本的词性特征、语意特征和文本结构特征，结合词性相似度、语意相似度和文本结构相似度，从中选择最优相似度集合进行匹配计算短文本语义相似度，提高短文本语义相似度计算的精度。

附图说明

图1为本发明实施例中基于词向量的语义相似度计算的系统流程图。

具体实施方式

以下结合附图及实施例对本发明作进一步详细说明。

参见图1所示，本发明实施例提供一种基于词向量的短文本语义相似度计算方法，包括以下步骤：

S1、获取语料库，对语料库进行分词，并对分词进行词向量模型处理，生成每个词的词向量，然后构建词向量库；

S2、对样本集中的两个短文本进行分词，并提取文本特征集合，文本特征集合包括词性特征、语意特征和文本结构特征；

S3、从词向量库中找到词性特征对应的词向量、语意特征对应的词长向量以及文本结构特征对应的词向量，并采用最长公共子串算法找出文本结构特征对应的最长公共子串；

S4、根据词性特征对应的词向量、语意特征对应的词长向量、文本结构特征对应的词向量和最长公共子串，计算样本集中的两个短文本的文本特征集合中各文本特征的相似度，从各文本特征的相似度中选择超过阈值的相似度形成最优相似度集合，并计算最优相似度集合中的各相似度的权重；

S5、以最优相似度集合中各相似度为计算项，计算待测的两个短文本的各文本特征的相似度，然后对各文本特征的相似度加权求和得出短文本语义相似度。

具体地说，可以根据需要任意选择互联网语料库，本实施例选用搜狗实验室的2008版互联网语料库，由于语料库较大，选择使用的为sougouT2.0的第二份语料库。

较佳地，在对语料库进行分词后还需进行数据清理，以剔除语料库中的分词的词性标注、中文特殊字符、网页链接、无效数字等冗余信息，最终得到语料库中的中文分词。词向量模型为word2vec模型。Word2vec是为一群用来产生词向量的相关模型，这些模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本。网络以词表现，并且需猜测相邻位置的输入词，在word2vec中词袋模型假设下，词的顺序是不重要的。训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系，该向量为神经网络之隐藏层。使用word2vec对清洗过的分词构建词向量，词向量维度选为100维。

由于word2vec生成的词向量过多，直接在保存词向量的txt文本中对某个词进行索引的话，耗时过长，因此将词向量写入Mysql数据库中，并对分词建立相应的索引，大大提升了词向量的查询速度。

本实施例中，词性特征即词性相似的特征，使用分词工具后，待测文本被切分为一系列单词，同时给出了该词的词性。以此为依据，取一段文本中的名词、时间词、动词、数词、介词和量词，进行归类存储。通过词向量查询，将这些被提取出来的词进行数字化，以便于比较待匹配的两段文本中，同类词性词的相似性。例如“今天我在商店买了一本书”这个语句可以拆分为：今天(时间词)，我(名词)，在(介词)，商店(名词)，买(动词)，一(数词)，本(量词)，书(名词)，识别出词性的词为主干词，其中“了”为非主干词。

词性特征的相似度包括：名词相似度、时间词相似度、动词相似度、数词相似度、介词相似度和量词相似度。

其中，两文本的所有名词的词向量相互内积，取内积的均值即为名词相似度；两文本的所有时间词词向量相互内积，取内积的均值即为时间词相似度；两文本的所有动词词向量相互内积，取内积的均值即为动词相似度；两文本的所有数词词向量相互内积，取内积的均值即为数词相似度；两文本的所有介词词向量相互内积，取内积的均值即为介词相似度；两文本的所有量词词向量相互内积，取内积的均值即为量词相似度。

假设文本A有x个名词，文本B有y个名词，A中的名词与B中的名词逐个两两作内积，总共有x×y个内积，对x×y个内积求平均值，即为名词相似度。同理可得其它词性特征的相似度。

语意特征即语意相似的特征，将待计算文本的主干词串联，结合相应的词向量，构成该语意特征的词长向量。比较两个句子词长向量的相似性，即可进行语意相似性的评价。若两个句子中词的数量不一样，则以短句子为基准，对较多词的句子进行排列组合构成与短句子数量相同的词数，再进行相似性计算。

语意特征的相似度包括：语意最小相似度、语意最大相似度、语意中值相似度和语意均值相似度。

其中，两文本语意词长向量相互内积，取最小值即为语意最小相似度；两文本语意词长向量相互内积，取最大值即为语意最大相似度；两文本语意词长向量相互内积，取最中值即为语意最大相似度；两文本语意词长向量相互内积，取均值即为语意最大相似度。

假设有文本A和文本B，按文本的顺序提取主干词，若文本A和文本B提取的主干词数量不一致，以短句子为基准，长句子通过排列组合方式剔除一定数量的主干词，使主干词数量与短句子一致，每一种情况下的主干词句子形成一个词长向量，假设有x种剔除情况，计算文本A和文本B的词长向量内积，则共x个内积，取x个内积的最小值，即为语意最小相似度。同理可得其它语意特征的相似度。

文本结构特征是从文本的结构进行特征提取，通过词向量查询和最长公共子串算法，可将这些被提取出来的特征进行数字化，找到对应的词向量和最长公共字符串，以便于计算文本结构特征的相似度。

文本结构相似度包括：第一词义最大相似度均值、第二词义最大相似度均值、最长公共子串最小耗费、第一最长公共子串特征、第二最长公共子串特征和字符长度比。

其中，计算文本A中每个词向量和文本B所有词向量的内积，取最大值保留，对所有最大值进行求平均值即为第一词义最大相似度均值；计算文本B每个词向量和文本A所有词向量内积，取最大值保留，全部计算完成后，对所有最大值进行求平均值即为第二词义最大相似度均值。

假设第一文本为文本A，共有x个词，第二文本为文本B，共有y个词，取文本A中的第一个词与文本B中的每个词求内积，则一共有y个内积，记录其中最大值M1，然后取文本A中第二个词与文本B中的每个词求内积，记录其中最大值M2，重复上述内积至取文本A中的第x个词与文本B中的每个词求内积，记录其中最大值Mx，取x个最大值的平均值，即为第一词义最大相似度均值。同理可得第二词义最大相似度均值。

最长公共子串最小耗费为最长公共子串跨越的最小字符长度与第一文本字符串的长度比；其中，最长公共子串跨越的最小字符长度包括非主干词长度，若两文本之间无公共子串，则此相似度为-1。

第一最长公共子串特征为最长公共子串与第一文本字符串的长度比；第二最长公共子串特征为最长公共子串与第二文本字符串的长度比；字符长度比：较短字符串与较长字符串的长度比。

计算相似度时，首先需要对要计算的词向量作归一化处理，然后以内积结果作为输出。对由多个词向量串联成的代表主干词串联的词长向量，也作同样处理，即先归一化再以内积求相似性。相似度计算的结果a的取值范围是[-1，1]，当a＝1时表示语义完全相似，当a＝-1时表示语义完全不同，相似度a介于-1和1之间时，与1越靠近，相似性越高，与-1越靠近，表示二者越不相关。

选择最优相似度集合时，在样本集中取训练样本和测试样本，样本集中的每个样本均为两个短文本，且已知短文本的相似度。对训练样本和测试样本进行分词以及特征提取。计算训练样本的各文本特征的相似度，利用各文本特征的相似度分布建立混合高斯模型，每个高斯模型对应一个文本特征相似度，利用期望最大化算法估算各文本特征相似度分布的混合高斯模型参数，然后将测试样本输入混合高斯模型，计算实际相似度和理论相似度的欧式距离，去掉欧式距离大于预设阈值的文本特征的相似度，余下的为最优相似度集合。最后只需以最优相似度集合中各相似度为计算项，计算待测的两个短文本的各文本特征的相似度，然后对各文本特征的相似度加权求和，即可得出短文本语义相似度。

本发明不局限于上述实施方式，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围之内。本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种基于词向量的短文本语义相似度计算方法，其特征在于，包括以下步骤：

对样本集中的两个短文本进行分词，并提取文本特征集合，所述文本特征集合包括词性特征、语意特征和文本结构特征；

以所述最优相似度集合中各相似度为计算项，计算待测的两个短文本的各文本特征的相似度，然后对各文本特征的相似度加权求和得出短文本语义相似度；

所述词性特征的相似度包括：名词相似度、时间词相似度、动词相似度、数词相似度、介词相似度和量词相似度；

两文本的所有名词的词向量相互内积，取内积的均值即为名词相似度；两文本的所有时间词的词向量相互内积，取内积的均值即为时间词相似度；两文本的所有动词的词向量相互内积，取内积的均值即为动词相似度；两文本的所有数词的词向量相互内积，取内积的均值即为数词相似度；两文本的所有介词的词向量相互内积，取内积的均值即为介词相似度；两文本的所有量词的词向量相互内积，取内积的均值即为量词相似度；

所述语意特征对应的词长向量是将短文本的主干词串联，结合相应的词向量，构成的词长向量；若两个句子中词的数量不一样，则以短句子为基准，对较多词的句子进行排列组合构成与短句子数量相同的词数，再进行相似性计算；

所述语意特征的相似度包括：语意最小相似度、语意最大相似度、语意中值相似度和语意均值相似度；

两文本语意词长向量相互内积，取最小值即为语意最小相似度；两文本语意词长向量相互内积，取最大值即为语意最大相似度；两文本语意词长向量相互内积，取最中值即为语意中值相似度；两文本语意词长向量相互内积，取均值即语意均值相似度；

所述文本结构特征的相似度包括：第一词义最大相似度均值、第二词义最大相似度均值、最长公共子串最小耗费、第一最长公共子串特征、第二最长公共子串特征和字符长度比；

计算文本A中每个词向量和文本B所有词向量的内积，取最大值保留，对所有最大值进行求平均值即为第一词义最大相似度均值；计算文本B中每个词向量和文本A所有词向量内积，取最大值保留，全部计算完成后，对所有最大值进行求平均值即为第二词义最大相似度均值；最长公共子串最小耗费为最长公共子串跨越的最小字符长度与文本A字符串的长度比；第一最长公共子串特征为最长公共子串与文本A字符串的长度比；第二最长公共子串特征为最长公共子串与文本B字符串的长度比；字符长度比为较短字符串与较长字符串的长度比。

2.如权利要求1所述的基于词向量的短文本语义相似度计算方法，其特征在于：所述对语料库进行分词后还需进行数据清理，得到语料库中的中文分词。

3.如权利要求1所述的基于词向量的短文本语义相似度计算方法，其特征在于：所述词向量模型为word2vec模型。

4.如权利要求3所述的基于词向量的短文本语义相似度计算方法，其特征在于，所述构建词向量库的具体方法为：将word2vec模型生成的词向量写入Mysql数据库中，并对分词建立相应的索引。

5.如权利要求1所述的基于词向量的短文本语义相似度计算方法，其特征在于，选择所述最优相似度集合的具体方法为：所述样本集包括训练样本和测试样本，利用训练样本的两个短文本的各文本特征相似度分布建立混合高斯模型，每个高斯模型对应一个文本特征相似度，利用期望最大化算法估算各文本特征相似度分布的混合高斯模型参数，然后将测试样本输入混合高斯模型，计算实际相似度和理论相似度的欧式距离，去掉欧式距离大于预设阈值的文本特征的相似度，余下的为最优相似度集合。

6.如权利要求1所述的基于词向量的短文本语义相似度计算方法，其特征在于，所述相似度计算的结果a的取值范围是[-1，1]，当a＝1时表示语义完全相似，当a＝-1时表示语义完全不同。