CN106844350A

CN106844350A - 一种短文本语义相似度的计算方法

Info

Publication number: CN106844350A
Application number: CN201710080958.XA
Authority: CN
Inventors: 石忠民; 徐叶强; 林嘉亮; 唐海涛
Original assignee: GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD
Current assignee: GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD
Priority date: 2017-02-15
Filing date: 2017-02-15
Publication date: 2017-06-13

Abstract

本发明提供一种短文本语义相似度的计算方法，所述计算方法包括：对待计算短文本进行分词；通过连续词袋模型对经过所述分词后的词语进行扩展；通过机器翻译对经过所述扩展后的词语进行歧义消除；对经过所述歧义消除的词语的重要性进行计算，并对所述词语的词序进行加权；计算经过所述词序加权的词语的语义距离，并根据所述语义距离计算文本相似度。实施本发明实施例，可以快速、准确的计算短文本的相似度。

Description

一种短文本语义相似度的计算方法

技术领域

本发明涉及电数据处理领域，尤其涉及一种短文本语义相似度的计算方法。

背景技术

文本相似度计算主要是研究计算多个文本之间的相似程度，其在问答系统，版权检测等多个领域都有较为广泛的应用。常见的分类，聚类等机器学习算法，也涉及到文本之间相似度的比较。关于文本相似度计算的方法有很多，传统的方法是基于向量空间模型来做，也有改进的基于语义的相似度计算方法。

无论使用哪种计算方法，对于短文本来说，都存在以下几个问题：(1)、短文本内容通常都比较短，经过分词之后，可以用来进行相似度计算的信息较少。(2)、许多词语都具有多义性，如果只考虑词语本身，可能无法准确地理解这些词语在其上下文的具体含义。(3)、对于包含相同词汇的文本，如果词序不同，文本表达的意思仍然是不同的，因此在相似度计算方面我们还要考虑文本的词序问题。

发明内容

有鉴于此，本发明提供一种短文本语义相似度的计算方法，以解决现有技术分词信息少、词语具有歧义以及词序混乱的问题。

具体地，本发明是通过如下技术方案实现的：

本发明提供一种短文本语义相似度的计算方法，所述计算方法包括：

对待计算短文本进行分词；

通过连续词袋模型对经过所述分词后的词语进行扩展；

通过机器翻译对经过所述扩展后的词语进行歧义消除；

对经过所述歧义消除的词语的重要性进行计算，并对所述词语的词序进行加权；

计算经过所述词序加权的词语的语义距离，并根据所述语义距离计算文本相似度。

附图说明

图1是本发明一示例性实施例提供的一种短文本语义相似度的计算方法的流程图；

图2是本发明一示例性实施例提供的HMM的示意图；

图3是本发明一示例性实施例提供的Viterbi算法返回标注序列的示意图；

图4是本发明一示例性实施例提供的训练词向量通过n个词预测第m个词的示意图；

图5是本发明一示例性实施例提供的通过语义距离计算文本相似度的示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

如图1所示为本发明一示例性实施例提供的一种短文本语义相似度的计算方法的流程图，所述计算方法包括以下步骤：

步骤S101，对待计算短文本进行分词。

在本发明实施例中，单个汉字虽然是汉语的书写表达的最小单位，但在自然语言理解中，词是最小的能够独立运用的语言单元。如果不进行分词，计算机很难理解汉语中大量连续的字符串。并且中文分词是自然语言处理中一个关键的基础技术，是上层应用诸如词性标注、命名实体识别、句法分析、语义理解、信息检索、机器翻译、问答系统中最基础的且关键的处理环节，所以中文分词的性能好坏直接影响到其他应用的优劣。对汉语进行分词的方法包括很多种，本发明实施例对此不进行限定。优选的，通过HMM以及n-gram语言模型对待计算短文本进行分词。

所述通过HMM以及n-gram语言模型对待计算短文本进行分词，包括：

1、通过4-Tag标注法对所述待计算短文本进行标注。

在本发明实施例中，将待计算短文本标注为集合{S、B、M、E}，其中，S表示单个字构成的词，B表示多个字构成的词的起始字、M表示多个字构成的词的中间字，E表示多个字构成的词的结束字，如下：

词汇类型	标记选择
		单个字的词	{B}
两个字的词	{B,E}
		三个字的词	{B,M,E}
四个及以上字组成的词	{B,M,……,M,E}

如：“张三买了苹果笔记本”，根据4-Tag标注后的结果为：张/B三/M买/S了/S苹/B果/M笔/B记/M本E。

2、根据所述标注训练隐马尔科夫模型HMM。

在本发明实施例中，训练HMM模型，即从人工标注好的数据集中统计出HMM模型中的参数，主要包括隐变量(S，B，M，E)之间的转移概率(图中用a表示)，和隐变量到状态变量(单个汉字)的发射概率(图中用b表示)。由于训练集有限，不可能覆盖所有样本的概率，即训练集存在数据稀疏性问题，所以我们在计算上述概率时，使用了Witten-Bell平滑方法，有研究表明这种平滑方法比较适合中文文本。如图2所示为HMM的示意图，其中a表示隐变量之间的转移概率，b表示隐变量到状态变量的发射概率。

作为一个可选实施例，如果待计算短文本没有标注，则使用Viterbi算法返回其可能的标注序列中概率最大的一个标注序列，寻找一条最大概率的路径作为该短文本的标注结果，然后根据标注对短文本进行切割。如图3所示为Viterbi算法返回标注序列的示意图。

步骤S102，通过连续词袋模型对经过所述分词后的词语进行扩展。

在本发明实施例中，连续词袋模型可以计算任意两个词语的语义相似度，也可以找出与给定词语语义最相似的N个词。通过这种连续词袋模型，可以对分词后的每个词语进行语义扩充：

将词语表示成向量的最传统的方法是使用向量空间模型，其中最常见的是One-hot representation，不过它有一个很明显的缺点，那就是词语与词语之间没有语义关联。

深度学习中有一种考虑了词语和词语之间语义关联的词向量表示技术，它用Distributed Representation来描述一个词语，也被称为“Word Representation”或“WordEmbedding”，即每个词语被表示为一个浮点向量。该向量可由神经网络语言模型(NNLM，Neural Network Language Model)训练出来。而连续词袋模型(CBOW,Continuous Bag-of-Words Model)，是一种在NNLM基础上改进的模型。CBOW去除了NNLM中最耗时的非线性隐层，并且让所有词共享隐层，所有词都被映射到同一个位置。

如图4所示为本发明实施例提供的训练词向量通过n个词预测第m个词的示意图，其可以利用上下文进行预测。训练目标是给定一个词的上下文，预测该词出现的概率。如果窗口大小为k，则模型预测为：P(w_t|w_t-k,…,w_t-1，w_t+1,…,w_t+k)。

由上式可以看到，如果在该位置两个不同的词的上下文共现的次数越多，则这两个词出现的概率便非常接近，因此它们生成的词向量的距离也就越相近，语义相似度也越近。

如：

张三买了苹果”，“张三买了雪梨”，多组词作为语料放进CBOW训练后，P(苹果|张三,买,了)与P(雪梨|张三,买,了)的概率会非常接近，从而训练结果得到的词向量C(苹果)与C(雪梨)的距离也会非常接近。

通过CBOW训练好的词向量，便可以通过寻找该词最相近的词进行扩充，比如“张三买了苹果”去掉停用词后为“张三买苹果”，其扩充结果如下表所示：

步骤S103，通过机器翻译对经过所述扩展后的词语进行歧义消除。

在本发明实施例中，汉语中一词多义现象广泛存在，如：“金山”，既可以指以金山词霸闻名的在香港联交所上市的公司金山软件，也可以指上海市金山区，还可以指金山银山之类的有珍贵价值物品的地点。因此需要通过机器翻译对歧义进行消除。

调用在线机器翻译接口，将中文转换为英文，再将英文转换为中文，可以在相当大程度上解决一词多义的歧义问题。在这种双向翻译的过程中，机器翻译会对有歧义的句子进行缺失成分的补充或替换，从而对词义进行限定。如以百度在线翻译接口作为例：

原文：金山是一家总部位于北京的软件公司。

中译英：Kingsoft is a Beijing based software company.

将中译英的结果再译为中文：金山软件是一家总部位于北京的软件公司。

原文：我们拥有金山银山、丝绸、羊毛和红毡。

中译英：We have gold and silver mines,silk,wool and red carpets.

将中译英的结果再译为中文：我们有金银矿、丝绸、羊毛和红地毯。

在上面的例子中，原词金山在通过机器翻译的过程中，分别变为了金山公司和金(银)矿，变化后的词语意思明确，已经没有出现歧义的情况了。上述表明，机器翻译能够实现歧义消除的功能。

步骤S104，对经过所述歧义消除的词语的重要性进行计算，并对所述词语的词序进行加权。

在本发明实施例中，引入领域特征权重系数FCF，将FCF与TF权重结合组成FTF权重系数，综合FTF和IDF权重得出改进后的词语权重计算。具体FTF-IDF算法流程如下：

Step1：对文本进行中文分词

Step2：构建领域词语集合

其中,表示领域i词语集合，t_j表示j领域的词语集合，1<<j<<n。

Step3：计算领域词语权重FCF

表示某一个领域词语数量，表示所有领域的词语总数量

Step4：计算文本的TF值

以上式子中n_i，j是该词在文件d_j中的出现次数，而分母则是在文件d_j中所有字词的出现次数总和。

Step5：计算IDF值

其中D_n代表所有文档集合，d_i，k表示k领域包含词语就的文档

Step6：计算FTFi,k，其

FTFi,k＝TF_i，k+FCF_i，k

Step7：词语W_i，k权重计算如下

W_i，k＝FTF_i，k+IDF_i，k

当query中的词语在某一领域没有词频统计时，传统的TF-IDF＝0，而FTF则会计算每一个领域的FCF值以及TF值，每一个特征项的FCF值和TF值叠加，最后综合得到词语的权重值。

在实际文本相似度计算时，词语之间必然存在一定的联系，而这种联系主要表现为词序(具体为词语在文本中的位置信息)，且词序相似度的计算进一步为文本语义相似度衡量提供了参考。故本发明针对语序，提出一种基于统计的向量空间距离词序计算方法，详细算法流程如下：

Step1：输入领域数据(Training Data)

Step2：For循环每一段文本

Step3：对文本进行中文分词

Step4：给每一个未出现词初始化一个向量V(自定义为10维度，根据实际需要可调整)，其每一个维度代表该词在整个文本中代表的相对位置的统计，V＝(0,0,0,0,0,0,0,0,0,0)

注：第一维度代表(0-0.1]，第二维度(0.1,0.2],即词语在句子的相对位置，依此类推。

Step:5：计算每个词语在文本中的相对位置信息L

其中W_p表示词语W在整个文本的顺序位置信息，比如：你吃饭了么，这里的W＝“吃饭”的W_p值为2，而∑i_wj表示为词语的数目，引申为总体词语位置总数，上列的∑i_wj则为4，而L则代表了该词汇在文本的相对位置信息

Step6：更新向量V，如“吃饭”，其L＝0.2，则“吃饭”在对应相对位置的加1，其V向量变为(0,1,0,0,0,0,0,0,0,0)，以此类推

Step7：循环Step2-Step6，不断的更新V(V存在就做相应维度的+1操作，不存在则初始化并相应维度+1)，遍历完后即保存了每一个词语语序的向量信息

Step8：为了控制数据波动，对v中每个值采取以10为底的log函数变换，即v等于(log(0)，log(1)，log(0)，log(0)，log(0)，log(0)，log(0)，log(0)，log(0)，log(0))

Step9：由Step8，新文本来之后先计算每个词汇的L值，然后根据L值，从V中找出对应该位置的统计信息，最后合并所有词语(文本对应的词语)生成该文本的词序向量Vp

Step10：当两个文本相对比时，出现词语长度不一致的情况，以两段文本词语最长size为基础，对应较短的文本采取自动向右补零原则(补充长度即为两文本词汇向量维度差)，从而维护了语序向量空间维度的一致性

Step11：最后采用向量余弦相似度计算语序的相似性sim

其中n代表向量空间维度。

步骤S105，计算经过所述词序加权的词语的语义距离，并根据所述语义距离计算文本相似度。

在本发明实施例中，如图5所示为通过语义距离计算文本相似度的示意图，其具体的计算过程如下：

1、选取词语权重较大的n个词作为句子的关键词。假如句子s1关键词为{W1，W2，W3，…，Wn}，s2的关键词{T1，T2，T3，…，Tn}。

2、根据关键词在概念本体树中的上下位关系对关键词进行扩展

{W1，W2，W3，…，Wn}->{W1，M1，C1，C0，…}

{T1，T2，…，Tn}->{T1，C2，C0，P2，…}

3、利用广度优先搜索对2扩展词进行概念向量表示：

S1＝{a1，a2，…，am}

S2＝{b1，b2，…，bm}

在概念向量中，概念的权重计算如下：

对于1中的关键词与2中的扩展词，如果关键词是概念本体树中的一个节点，则取值为1，如果扩展词是概念本体树中的一个节点，则取值为w，w的取值范围为0<w<1,w表示扩展词的权重，

4、利用夹角余弦计算S1，S2的相似度sim(S1，S2)，句子S1和S2的相似度值为sim(S1,S2)+α，其中α表示句子S1，S2词序相似度。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种短文本语义相似度的计算方法，其特征在于，所述计算方法包括：

对待计算短文本进行分词；

通过连续词袋模型对经过所述分词后的词语进行扩展；

通过机器翻译对经过所述扩展后的词语进行歧义消除；

2.如权利要求1所述的计算方法，其特征在于，所述对待计算短文本进行分词，包括：

通过隐马尔科夫模型HMM以及n-gram语言模型对待计算短文本进行分词。

3.如权利要求2所述的计算方法，其特征在于，所述通过HMM以及n-gram语言模型对待计算短文本进行分词，包括：

通过4-Tag标注法对所述待计算短文本进行标注；

根据所述标注训练HMM。

4.如权利要求1所述的计算方法，其特征在于，如果待计算短文本没有标注，则使用Viterbi算法对所述待计算短文本进行分词。

5.如权利要求4所述的计算方法，其特征在于，所述使用Viterbi算法对所述待计算短文本进行分词，包括：

使用Viterbi算法返回待计算短文本的标注序列中概率最大的一个标注序列；

获取最大概率的路径作为所述短文本的标注结果；

根据所述标注结果进行分词。

6.如权利要求所述的计算方法，其特征在于，所述对所述词语的词序进行加权，包括：

通过向量空间距离对词序进行计算。

7.如权利要求1所述的计算方法，其特征在于，所述根据语义距离计算文本相似度，包括：

选取词语权重较大的n个词作为句子的关键词；

根据关键词在概念本体树中的上下位关系对关键词进行扩展；

利用广度优先搜索对2扩展词进行概念向量表示：

S1＝{a1，a2，…，am}

S2＝{b1，b2，…，bm}；

利用夹角余弦计算S1，S2的相似度sim(S1，S2)，句子S1和S2的相似度值为sim(S1,S2)+α，其中α表示句子S1，S2词序相似度。