CN104102626B

CN104102626B - 一种用于短文本语义相似度计算的方法

Info

Publication number: CN104102626B
Application number: CN201410319852.7A
Authority: CN
Inventors: 洪志令; 吴梅红
Original assignee: XIAMEN TUITE INFORMATION TECHNOLOGY Co Ltd
Current assignee: XIAMEN TUITE INFORMATION TECHNOLOGY Co Ltd
Priority date: 2014-07-07
Filing date: 2014-07-07
Publication date: 2017-08-15
Anticipated expiration: 2034-07-07
Also published as: CN104102626A

Abstract

本发明提供了一种用于短文本语义相似度计算的方法，该用于短文本语义相似度计算的方法包括以下步骤：1)提取短文本的特征；2)将提取的短文本的特征进行匹配，计算出短文本语义相似度。本发明的有益效果为：本发明提供的方法充分考虑了语义模糊性问题以及文本中词语的权重，能够准确的把握文本关键词的效果。

Description

一种用于短文本语义相似度计算的方法

技术领域

本发明涉及文本挖掘技术领域，尤其是涉及一种用于短文本语义相似度计算的方法。

背景技术

不同年龄段、不同职业背景的人们，每天在微博上就国内外新闻、影视娱乐和个人生活等等话题进行评论或分享。目前，对于微博话题的归类，完全依赖于用户手工在微博内容中使用“#”符号添加话题标签，对于共同话题的归类使用的是最简单的字符串匹配方法。在这种场景下，任何两个不能完全匹配的字符串都会被当作是不同的话题。例如，“去旅游”和“去旅行”这两个具有相同语义的话题标签，就会因为字符串无法匹配而被当作是不同的话题。再或者，假如用户没有为微博内容添加话题标签，那么这条微博就成了孤立内容，除了被粉丝评论和转发，用户得不到任何其它关于所发表内容的话题的反馈。

基于相似词语的文本相似度计算方法则利用WordNet、知网等本体论或语义词典，完成对两个文本中词语之间的相似度计算，在此基础上再通过某种计算公式得到文本之间的相似度。这种方法充分考虑了语义模糊性问题，但是却忽略了文本中词语的权重，对文本关键词的把握效果不好。

发明内容

本发明的目的是为了克服现有技术的不足，提供了一种高精度环保用于短文本语义相似度计算的方法笔头。

本发明是通过以上技术方案实现：

本发明提供了一种用于短文本语义相似度计算的方法，该用于短文本语义相似度计算的方法包括以下步骤：

1)提取短文本的特征；

2)将提取的短文本的特征进行匹配，计算出短文本语义相似度。

优选的，所述提取短文本的特征具体包括以下步骤：

将短文本中的中文分词；

在中文分词后的短文本中选择文本特征；

对选择的文本特征进行权值计算。

优选的，所述将短文本中的中文分词具体为：通过分词算法对短文本进行分词。

优选的，所述在中文分词后的短文本中选择文本特征具体为：根据设定的规则从特征集中选择部分最有效的特征，形成文本特征向量。

优选的，所述对选择的文本特征进行权值计算具体为：将文本特征向量转化成数学模型。

优选的，所述将文本特征向量转化成数学模型具体为：

首先使用TF-IDF加权方法，利用统计的方法评估某个字词对于文本数据集中某份特定文件的重要程度，步骤如下：

a)计算词在该文件中出现的频次、词频TF，具体公式如下：

其中，n_t，d表示词t在文件d中的出现次数，分母表示该文件中所有词的出现次数的总和；

b)计算逆向文件频率IDF，具体公式如下:

其中，N为文档库D中的文件数量，分母表示文档库D中包含有词t的文件的数量；

c)计算词语t对于文档库D中特定文件d的重要性TF-IDF，公式如下：

w＝tfidf(t，d，D)＝tf(t，d)×idf(t，D)；

对于一个输入的短文本，经过上述步骤处理后，将得到一个文本向量T及其对应的权重向量W，其中，

T＝{t₁，t₂，...，t_m}

W＝{w₁，w₂，...，w_m}。

优选的，所述将提取的短文本的特征进行匹配，计算出短文本语义相似度具体以下步骤：

1)词汇语义相似度计算；

2)词汇相似度矩阵；

3)短文本高相似词向量；

4)文本向量相似度计算。

优选的，所述词汇语义相似度计算具体为：利用相似度计算方法计算两个关键词之间的相似度，然后，把两个关键词之间的相似度问题归结为两个概念语义表达式之间的相似度问题，最后得到两个词汇的语义相似度。

优选的，所述步骤2)中词汇相似度矩阵，具体方法为对两个文本向量中的每个词分别计算它们之间的语义相似度，得到相似度矩阵。

优选的，其中步骤3)短文本高相似词向量，基于步骤2)中得到的相似度矩阵，获取高相似词向量；具体步骤如下：

首先遍历矩阵，取出相似度最大的词语组合，然后将其所属行和列从矩阵中删除，依次取余下矩阵中相似度最大的组合，直到矩阵为空，最后得到由k对相似度最高的词语组合构成的向量，其中，k为自然数；

其中步骤4)文本向量相似度计算，结合了向量空间模型和词汇语义相似度模型来计算文本的相似度，具体步骤如下：

首先，对于原文本向量中的部分词进行了重新排序，并找到了另一向量中与之最相似的对应词；

然后，结合传统通过测量两个向量内积空间的夹角余弦值来度量的相似性方法。

本发明的有益效果为：本发明提供的方法充分考虑了语义模糊性问题以及文本中词语的权重，能够准确的把握文本关键词的效果。

附图说明

图1是本发明中的用于短文本语义相似度计算的方法的流程图；

图2是本发明中的短文本特征提取流程图；

图3为本发明中的短文本特征匹配流图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以右结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明中的用于短文本语义相似度计算的方法的流程图。

本发明实施例提供了一种用于短文本语义相似度计算的方法，该用于短文本语义相似度计算的方法包括：本发明提供了一种用于短文本语义相似度计算的方法，该用于短文本语义相似度计算的方法包括以下步骤：

1)提取短文本的特征；

其中的提取短文本的特征具体包括以下步骤：

将短文本中的中文分词；

具体为：通过分词算法对短文本进行分词。

在中文分词后的短文本中选择文本特征；

具体的，根据设定的规则从特征集中选择部分最有效的特征，形成文本特征向量。

对选择的文本特征进行权值计算。

具体的，将文本特征向量转化成数学模型其中，将文本特征向量转化成数学模型具体为：

a)计算词在该文件中出现的频次、词频TF，具体公式如下：

b)计算逆向文件频率IDF，具体公式如下:

w＝tfidf(t，d，D)＝tf(t，d)×idf(t，D)；

T＝{t₁，t₂，...，t_m}

W＝{w₁，w₂，...，w_m}。

1)词汇语义相似度计算；

具体的，所述词汇语义相似度计算具体为：利用相似度计算方法计算两个关键词之间的相似度，然后，把两个关键词之间的相似度问题归结为两个概念语义表达式之间的相似度问题，最后得到两个词汇的语义相似度。

2)词汇相似度矩阵；

具体方法为对两个文本向量中的每个词分别计算它们之间的语义相似度，得到相似度矩阵。

3)短文本高相似词向量；

具体的，基于步骤2)中得到的相似度矩阵，获取高相似词向量；具体步骤如下；

首先遍历矩阵，取出相似度最大的词语组合，然后将其所属行和列从矩阵中删除，依次取余下矩阵中相似度最大的组合，直到矩阵为空，最后得到由k对相似度最高的词语组合构成的向量，其中，k为自然数。

4)文本向量相似度计算。

具体的，结合向量空间模型和词汇语义相似度模型来计算文本的相似度，具体步骤如下：

通过上述方法可以看出：本发明提供的方法充分考虑了语义模糊性问题以及文本中词语的权重，能够准确的把握文本关键词的效果。

为了对本发明提供的方法能够详细的了解，下面结合具体实施施力进行说明。

其中，文本的特征提取过程，如图2所示，包括如下步骤：

(1)中文分词

(2)特征选择

(3)权值计算

其中，步骤(1)中所描述的中文分词处理方法，具体描述如下:

中文分词是中文自然语言处理的首要步骤，目前中文分词的方法主要有基于语料库的正向或逆向最大匹配法、基于统计机器学习的方法等。经过多年发展，目前的中文分词技术已经较为成熟，国内外已有不少开源项目，这里可以选用任意一种较好的分词算法对短文本进行分词，如ICTCLAS，MMSeg等。

其中，步骤(2)的特征是根据一定的规则从特征集中选择部分最有效的特征，形成文本特征向量。

在本发明中步骤(2)可以运用两种特征选择方法来实现：一种是为分词器增加停用词词典，使其在分词过程中自动过滤掉这些无关词；另外一种是根据词频进行筛选，将出现频率非常高的单字或词进行过滤。

其中，步骤(3)权值计算的特征在于将文本转化为具有一定意义的数学模型。

本发明的实施例中，使用TF-IDF加权技术，利用统计的方法评估某个字词对于文本数据集中某份特定文件的重要程度。

所描述的TF-IDF加权技术，主要方法具体如下：

某个词语对于特定文件的重要程度，与它在该文件中出现的频次成正比，而与它在所有文件中出现的频次成反比，即某个词的权重与词频TF和逆向文件频率IDF两部分相关，分别如下列公式所示：

其中，n_t，d表示词t在文件d中的出现次数，分母表示该文件中所有词的出现次数的总和。

其中，N为文档库D中的文件数量，分母表示文档库D中包含有词t的文件的数量。最后，词语t对于文档库D中特定文件d的重要性TF-IDF如下所示：

w＝tfidf(t，d，D)＝tf(t，d)×idf(t，D) (3)

对于一个输入的短文本，经过上述步骤处理后，将得到一个文本向量T及其对应的权重向量W，即：

T＝{t₁，t₂，...，t_m}

W＝{w₁，w₂，...，w_m}

另一部分为短文本特征的匹配过程：

令两个短文本输入的文本向量分别为T₁，T₂，如下所示：

T₁＝{t₁₁，t₁₂，...，t_1m}

T₂＝{t₂₁，t₂₂，...，t_2n}

其中m≥n，它们对应的权重向量分别为W₁，W₂，

W₁＝{w₁₁，w₁₂，...，w_1m}

W₂＝{w₂₁，w₂₂，...，w_2n}

则这两个短文本特征的匹配流程如图3所示，具体步骤如下：

词汇语义相似度计算

词汇相似度矩阵

短文本高相似词向量

文本向量相似度计算

其中步骤1)中，词汇语义相似度的计算过程主要利用知网(HowNet)提供的计算方式。

在知网中，“概念”和“义原”是语义表达的两个重要方式。每个词可以表达为多个概念，而每个概念使用义原进行描述，义原是最基本的、不能再分割的用于描述概念的最小意义单位。

对于两个词语W1和W2，如果W1由概念集合{S11，S12，…，S1m}组成，W2由概念集合{S21，S22，…，S2n}组成，那么W1和W2的相似度如下所示：

这样，就把两个词之间的相似度问题归结为两个概念之间的相似度问题。知网中对实词的描述表示为一个特征结构，该特征结构含有以下四个特征：第一基本义原描述、其它基本义原描述、关系义原描述、关系符号描述。于是，两个概念语义表达式的整体相似度记为上述四个特征的部分相似度的加权和，即

其中，β_i是可调节的参数，满足：β₁≥β₂≥β₃≥β₄。而所有的概念又都是由义原来描述的，所以该问题最终归结为义原之间的相似度问题。由于所有的义原根据上下位关系构成了一个树状层次体系，对于树型结构，任何两个结点之间有且只有一条路径，因此可以根据义原之间的路径距离来计算两者的相似度。

其中步骤2)词汇相似度矩阵，具体表示过程如下：

设f为词的语义相似度函数，对两个文本向量中的每个词分别计算它们之间的语义相似度，可以得到如下的相似度矩阵：

该矩阵为对称矩阵，f(t_1i，t_2j)为利用上述词汇语义相似度方法计算所得值，f(t_1i，t_2j)∈[0，1]，并且当i＝j时，有f(t_1i，t_2j)＝1，即矩阵对角线上的值为1。

其中步骤3)短文本高相似词向量，具体步骤如下：

基于步骤2)中得到的相似度矩阵，获取高相似词向量。基本思想是：遍历矩阵，取出相似度最大的词语组合，然后将其所属行和列从矩阵中删除，依次取余下矩阵中相似度最大的组合，直到矩阵为空，最后得到由k对相似对最高的词语组合构成的向量。具体步骤如下：

①由于矩阵的对称性，对矩阵左下部分的相似度值进行排序，即对相似度值f(t₁₁，t₂₂)，f(t₁₂，t₂₂)，...，f(t_1m序列从大到小排序，并记录值对应于矩阵的位置；

②设定一个阈值，对于相似度排序序列的每个值，如果大于，则执行如下操作：取出对应的矩阵位置i和j，从文本向量，取得相应词汇，从权重向量，取得相应权重；同时划掉第j行和第j列。

最后得到k对最高相似词语组合构成的文本向量及其对应的权重向量。其中，向量中的每个元素为词在语义词典中的概念，且与原向量中词对应。

其中步骤4)文本向量相似度计算，具体步骤如下：

通过上述处理，对于原文本向量中的部分词进行了重新排序，并找到了另一向量中与之最相似的对应词。结合传统通过测量两个向量内积空间的夹角余弦值来度量的相似性方法，最后，和的相似度定义如下：

其中，w′为原向量中对应词的TF-IDF权重，f(t′_1i,t′_2i)为词的语义相似度函数。公式(6)的含义是，将两个文本向量的相似度看作是它们相似度最高的若干词组在向量空间上的相似度乘以语义偏差值，对于其中任意一组相似词而言，词的权重、语义偏差越大，对文本相似度的影响就越大。如果这些相似词组在语义上是完全相同的，那么在向量空间中就是可替换的。该方法结合了向量空间模型和词汇语义相似度模型来计算文本的相似度，与空间距离度量的关系如下所示：

其中，α是一个可调节的参数，表示当相似度为0.5时的距离值。

虽然本发明已以优选实例公开如上，然而所公开实例并非用以限制本发明的范围。可以理解：在不脱离本发明的精神的情况下，在此可以产生各种附加、修改和替换。本领域普通技术人员很清楚：在不脱离本发明的精神或本质特性的情况下，可以以其他特殊形式、结构、布置、比例、以及利用其他元件、材料和部件来实现本发明。本领域的技术人员将意识到：本发明可以使用发明实际中使用的结构、布置、比例、材料以及部件和其他的许多修改，这些修改在不脱离本发明的原理的情况下而特别适应于特殊环境和操作需求。因此，当前公开的实施例在所有方面应被理解为说明性的而非对其请求保护的范围的限制。

以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于短文本语义相似度计算的方法，其特征在于所述方法包括如下步骤：

（1）对短文本进行中文分词及特征选择后，以TF-IDF加权技术获取短文本特征；

（2）基于知网(HowNet)，将词分解为概念，进一步通过计算义原之间的路径距离来计算两个词之间的相似度；

（3）通过计算两个短文本的文本向量中每个词之间词汇的相似度，形成词汇相似度矩阵；并在此基础上抽取保留高相似的词，即语义上高相似的词，以及对应的TF-IDF特征向量值；

（4）通过相似度最高的若干词组在对应TF-IDF向量空间上的相似度乘以其语义偏差值，最终获得两个短文本的相似度。

2.根据权利要求1所述的一种用于短文本语义相似度计算的方法，其特征在于，权利1中步骤（3）抽取保留高相似度词的过程，即获取语义上高相似词的过程，是先对两个短文本之间的词两两之间基于知网的算法进行词相似度的计算，形成词汇相似度矩阵，在此基础上，通过遍历矩阵，取出相似度最大的词语组合，然后将其所属行和列从矩阵中删除的方式逐步获取k个相似对最高的词语，以及这些词语在原TF-IDF特征向量中高相似度词语所对应的权重，即：

。

3.根据权利要求1所述的一种用于短文本语义相似度计算的方法，其特征在于，权利1中步骤（4）获取短文本相似度的过程，最终的相似度计算，是在相似度最高的若干词组成的向量空间上展开的，是原始特征向量维度缩减的结果；同时，计算时综合考虑了统计的相似度和语义的偏差值，即

，

统计相似度和语义偏差值的计算仅需在缩减的特征向量上进行；对于其中任意一组相似词而言，词的权重、语义偏差越大，对文本相似度的影响就越大；该方法结合了向量空间模型和词汇语义相似度模型来计算文本的相似度。