CN106021223B

CN106021223B - 一种句子相似度的计算方法及系统

Info

Publication number: CN106021223B
Application number: CN201610305004.XA
Authority: CN
Inventors: 吴成龙
Original assignee: TCL Technology Group Co Ltd
Current assignee: TCL Technology Group Co Ltd
Priority date: 2016-05-09
Filing date: 2016-05-09
Publication date: 2020-06-23
Anticipated expiration: 2036-05-09
Also published as: CN106021223A

Abstract

本发明提供了一种句子相似度的计算方法及系统，通过利用word2vec算法，对预先建立的语料库进行训练，得到语料库中所有词语的向量；对待计算相似度的两个句子进行智能分词，并从语料库中查找出所述第一句子和第二句子中各个分词所对应的向量，依次计算第一句子每个分词与第二句子各个分词之间的相似度；获取分词之间的相似度超过预定阈值的两组分词集合，并根据所述每组分词位于句子位置的偏移量，计算每组分词在整个句子中相似度的贡献值；将两个句子中分词的贡献值相加，得到句子之间的相似度。本发明所述方法及系统利用word2vec计算词语的语义相似度，通过大量语料库自动训练，为更为准确的进行信息检索、文档分类或者回答系统提供方便。

Description

一种句子相似度的计算方法及系统

技术领域

本发明涉及语言信息处理领域，尤其涉及的是一种句子相似度的计算方法及系统。

背景技术

文本相似度计算在自然语言处理领域是一个重要部分，在信息检索，文档分类，问答系统等有重要的作用。文本相似度根据文本长度又可以分为长文本(篇章级别)，短文本(语句级别，词语级别)相似度计算。长度不同的文本使得各种计算方法各有优劣。对于句子级别的相似度，不仅要考虑到句子内各个词语的含义，还要考虑到词语组合的顺序，使得该类研究比较复杂。

传统计算句子相似度方法主要是将句子向量化，通过对每个词语在句子中的权重，构成权重向量，进而计算向量之间的相似度。还有仅仅考虑句子文本的编辑距离(Levenshtein距离)，该类计算方法没有考虑到词语的含义。从句法分析着手的方法，通过发现句子中词语之间的语法关系来计算其相似度，该类方法考虑到词语的语义，也更能体现句子的语义相似度，但是该类方法需要提前人工构建大量的语法训练库，工作量大。

因此，现有技术有待于进一步的改进。

发明内容

鉴于上述现有技术中的不足之处，本发明的目的在于为用户提供一种句子相似度的计算方法及系统，克服现有技术中句子相似度计算中工作量大或者相似度准确率低的缺陷。

本发明解决技术问题所采用的技术方案如下：

一种句子相似度的计算方法，其中，包括以下步骤：

步骤A、利用word2vec算法，对预先建立的语料库进行训练，得到语料库中所有词语的向量；

步骤B、对待计算相似度的第一句子和第二句子进行智能分词，并从语料库中查找出所述第一句子和第二句子中各个分词所对应的向量，依次计算第一句子中每个分词与第二句子各个分词之间的相似度；

步骤C、获取第一句子和第二句子中分词的相似度超过预定阈值的两组分词集合，并根据所述每组分词位于句子位置的偏移量，计算每组分词在整个句子中相似度的贡献值；

步骤D、将第一句子和第二句子中分词的贡献值相加后取平均，得到所述第一句子与第二句子之间的相似度。

所述句子相似度的计算方法，其中，所述步骤A之前还包括：

A0、通过网络爬虫获取海量词语，组建语料库。

所述句子相似度的检测方法，其特征在于，所述步骤D还包括：

D1、获取第一句子中分词相当于第二句子中分词的第一相似度贡献值，以及第二句子中分词相对于第一句子中分词的第二相似度贡献值；

D2、计算所述第一相似度贡献值和第二相似度贡献值所对应的第一相似度和第二相似度，取所述第一相似度和第二相似度的平均值作为所述第一句子和第二句子最终的相似度。

所述句子相似度的计算方法，其中，所述步骤B还包括：

通过以下公式计算分词之间的相似度:

其中，v_il和v_jl代表两个待计算相似度分词的向量，i和j表示所述两个待计算相似度分词分别排列在第一句子第i位置和第二句子的第j位置，Sim(word_i,word_j)代表待计算相似度分词的相似度。

所述句子相似度的计算方法，其中，所述步骤C中相似度贡献值的计算公式为：

其中，Sim(W_Ai,W_Bk)为第一句子和第二句子中任意两个分词W_Ai和W_Bk之间的相似度；

M(A,i,B)＝{k|Sim(W_Ai,W_Bk)＞α},0＜α＜1为第二句子中第k位分词W_Bk与第一句子中第i位分词W_Ai相似度大于预设阈值的分词位置集合；

为第二句子B中序号在M(A,i,B)的分词与第一句子A中分词W_Ai的偏移量；N为所述第一句子和第二句子中含有的分词数中较大的分词数。

一种句子相似度的计算系统，其中，包括：

语料库训练模块，用于利用word2vec算法，对预先建立的语料库进行训练，得到语料库中所有词语的向量；

词相似度计算模块，用于对待计算相似度的第一句子和第二句子进行智能分词，并从语料库中查找出所述第一句子和第二句子中各个分词所对应的向量，依次计算第一句子每个分词与第二句子各个分词之间的相似度；

贡献值计算模块，用于获取第一句子和第二句子中分词的相似度超过预定阈值的两组分词集合，并根据所述每组分词位于句子位置的偏移量，计算每组分词在整个句子中相似度的贡献值；

句间相似度计算模块，用于将第一句子和第二句子中分词的贡献值相加后取平均，得到所述第一句子与第二句子之间的相似度。

所述句子相似度的计算系统，其中，包括：

语料库组建模块，用于通过网络爬虫获取海量词语，组建语料库。

所述句子相似度的计算系统，其中，所述句间相似度计算模块还包括：

贡献值获取单元，用于获取第一句子中分词相当于第二句子中分词的第一相似度贡献值，以及第二句子中分词相对于第一句子中分词的第二相似度贡献值；

相似度平均单元，用于计算所述第一相似度贡献值和第二相似度贡献值所对应的第一相似度和第二相似度，取所述第一相似度和第二相似度的平均值作为所述第一句子和第二句子最终的相似度。

所述句子相似度的计算系统，其中，所述贡献值计算模块，用于通过以下公式计算分词之间的相似度:

所述句子相似度的计算系统，其中，所述句间相似度计算模块中相似度贡献值得计算公式为：

有益效果，本发明提供了一种句子相似度的计算方法及系统，通过利用word2vec算法，对预先建立的语料库进行训练，得到语料库中所有词语的向量；对待计算相似度的第一句子和第二句子进行智能分词，并从语料库中查找出所述第一句子和第二句子中各个分词所对应的向量，依次计算第一句子每个分词与第二句子各个分词之间的相似度；获取分词之间的相似度超过预定阈值的两组分词集合，并根据所述每组分词位于句子位置的偏移量，计算每组分词在整个句子中相似度的贡献值；将第一句子和第二句子中分词的贡献值相加，得到第一句子和第二句子之间的相似度。本发明所述方法及系统利用word2vec计算词语的语义相似度，较少的人工干预，通过大量语料库自动训练，为更为准确的进行信息检索、文档分类或者回答系统提供方便。

附图说明

图1是本发明的一种句子相似度的计算方法步骤流程图。

图2是本发明的一种句子相似度的计算系统的原理结构框图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

本发明提供了一种句子相似度的计算方法，如图1所示，所述方法包括：

S1、利用word2vec算法，对预先建立的语料库进行训练，得到语料库中所有词语的向量。

语料库训练

word2vec训练获取词语的向量，训练的语料库越大所获取的词向量也越准确；该步骤的语料库获取可以通过网上爬取相关新闻资讯等作为训练语料库。

可以想到的是，本领域技术人员可以根据需要，在设置专用某一个技术领域的语料库，只通过获取训练包含某一个或者多个领域可能会使用的词语的语料库，来提高训练的效率和提高匹配词语向量的准确度，实现更好的计算句子之间的相似度。

S2、对待计算相似度的第一句子和第二句子进行智能分词，并从语料库中查找出所述第一句子和第二句子中各个分词所对应的向量，依次计算第一句子每个分词与第二句子各个分词之间的相似度。

通过训练得到的结果格式：

词语	向量
		word1	v<sub>11</sub>,…,v<sub>1L</sub>
…	…
		wordn	v<sub>n1</sub>,…,v<sub>nL</sub>

L为每个词向量的长度。

通过上述训练结果，定义词与词之间的相似度如下:

分别将第一句子和第二句子中含有的词进行一一智能划分出，并从上述步骤S1中训练好的语料库中一一获取划分出的分词相对应的向量，并使用上式(1)计算两个句子之间每个分词之间的相似度。

S3、获取第一句子和第二句子中分词的相似度超过预定阈值的两组分词集合，并根据所述每组分词位于句子位置的偏移量，计算每组分词在整个句子中相似度的贡献值。

分别计算第一句子中每个分词与第二句子中各个分词之间的相似度，获取相似度超过预定阈值的两组分词集合，所述预定阈值可以根据需要自定义设置，也可以系统默认设置，较佳的，所述预定阈值可以设置为：70％-85％之间的任何值，优选的，可以设置为75％。

具体的，本步骤中相似度贡献值得计算公式为：

其中，Sim(W_Ai,W_Bk)为第一句子和第二句子中任意两个分词W_Ai和W_Bk之间的相似度；M(A,i,B)＝{k|Sim(W_Ai,W_Bk)＞α},0＜α＜1为第二句子中第k位分词W_Bk与第一句子中第i位分词W_Ai相似度大于预设阈值的分词位置集合；

本步骤中，首先获取相似度超过预定阈值的两组分词集合，然后根据所述两组分词集合中两组分词各个在句子中位置的偏移量计算该分词为该句子贡献的相似度分量，最后再将这个句子中分词贡献的相似度分量进行相加后，得到这个句子相对于另一个句子的相似度。

具体的，首先记{W_A1,...,W_Am}{W_B1,...,W_Bn}分别为句子A，B句子分词后的按先后顺序排列的词语，记第一句子A，第二句子B任意两个分词的相似度记为Sim(W_Ai,W_Bk)；

M(A,i,B)＝{k|Sim(W_Ai,W_Bk)＞α},0＜α＜1, (2)

M(A,i,B)为句子B中分词W_Bk与句子A中第i个词语W_Ai相似度大于α的词语位置集合。

并且记B中序号在M(A,i,B)中的分词与A中分词W_Ai的偏移量为：

定义：

其中，C(A,i,B)为第一句子A中分词A_i为句子A相对于第二句子B总体相似度的贡献值，其中N＝max(m,n)，为第一句子和第二句子中划分出的分词数较大的一个。

S4、将第一句子和第二句子中分词的贡献值相加后取平均，得到所述第一句子与第二句子之间的相似度。

在上述步骤S3中计算出了第一句子或者第二句子中分词为所属句子提供的相似度贡献值，则将每个分词所提供的相似度贡献值相加，得到句子与句子之间的相似度值。

因此，定义:

为句子A相对于句子B的相似度，它表征A相对于B的相似程度，用同样的方法计算得到Sim(B,A)，它表征B相对于A的相似程度。一般情况下，Sim(A,B)≠Sim(B,A)，最后定义句子A，B的总体相似度为：

也即是，为了更准确的得到第一句子和第二句子的相似度，本步骤取两个句子相对应相似度的平均值。

为了实现更好的组建语料库，所述步骤S1之前还包括：

S0、通过网络爬虫获取海量词语，组建语料库。由于网络上含有海量词语，而且还是实时更新，因此从网络中可以获取较多较新的词语信息，为准确的查找出待计算相似度句子中分词的向量提供技术支持。

所述步骤S4还包括：

S41、获取第一句子中分词相当于第二句子中分词的第一相似度贡献值，以及第二句子中分词相对于第一句子中分词的第二相似度贡献值。

S42、计算所述第一相似度贡献值和第二相似度贡献值所对应的第一相似度和第二相似度，取所述第一相似度和第二相似度的平均值作为所述第一句子和第二句子最终的相似度。

由于第一句子中分词相对于第二句子中分词在计算相似度贡献值时，排列的顺序不同，其相似度贡献值可能不同，因此为了更加准确的获取第一句子与第二句子的相似度，本步骤中分别计算第一句子相对于第二句子的相似度和第二句子相对于第一句子的相似度，并取两者的平均值作为第一句子和第二句子的最终相似度。

下面以网络商品评价相似度计算为例，对本发明所述方法及系统做进一步的说明。

计算评价A：“送货员也很赞”，B：“快递服务很给力”的相似度。

分词后分别为：A(“送货员”，“也”，“很”，“赞”)，B(“快递”，“服务”，“很”，“给力”)，通过网上爬取获得相关评价语料库，通过word2vec训练，获得词语间相似度如下。

以α＝0.75为例，通过公式(3)可以计算得到偏移量矩阵为：

通过公式(4)可以计算得到贡献值矩阵为：

同理可计算得到：

C(A,1,B)	C(A,2,B)	C(A,3,B)	C(A,4,B)
				0.84	0	1	0.95
C(B,1,A)	C(B,2,A)	C(B,3,A)	C(B,4,A)
				0.90	0	1	0.87

于是由公式(5)得到

于是由公式(6)得到

在上述方法的基础上，本发明还提供了一种句子相似度的计算系统，如图2所示，所述系统包括：

语料库训练模块100，用于利用word2vec算法，对预先建立的语料库进行训练，得到语料库中所有词语的向量；其功能如步骤S1所述。

词相似度计算模块200，用于对待计算相似度的第一句子和第二句子进行智能分词，并从语料库中查找出所述第一句子和第二句子中各个分词所对应的向量，依次计算第一句子每个分词与第二句子各个分词之间的相似度；其功能如步骤S2所述。

贡献值计算模块300，用于获取第一句子和第二句子中分词的相似度超过预定阈值的两组分词集合，并根据所述每组分词位于句子位置的偏移量，计算每组分词在整个句子中相似度的贡献值；其功能如步骤S3所述。

句间相似度计算模块400，用于将第一句子和第二句子中分词的贡献值相加后取平均，得到所述第一句子与第二句子之间的相似度，其功能如步骤S4所述。

所述句子相似度的计算系统，还包括：

所述句间相似度计算模块还包括：

所述贡献值计算模块，用于通过以下公式计算分词之间的相似度:

所述句间相似度计算模块中相似度贡献值得计算公式为：

可以理解的是，对本领域普通技术人员来说，可以根据本发明的技术方案及其发明构思加以等同替换或改变，而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。

Claims

1.一种句子相似度的计算方法，其特征在于，包括：

A、利用word2vec算法，对预先建立的语料库进行训练，得到语料库中所有词语的向量；

B、对待计算相似度的第一句子和第二句子进行智能分词，并从语料库中查找出所述第一句子和第二句子中各个分词所对应的向量，依次计算第一句子中每个分词与第二句子各个分词之间的相似度；

C、获取第一句子和第二句子中分词的相似度超过预定阈值的两组分词集合，并根据每组分词位于句子位置的偏移量，计算每组分词在整个句子中相似度的贡献值；

D、将第一句子和第二句子中分词的贡献值相加后取平均，得到所述第一句子与第二句子之间的相似度；

所述步骤C中相似度贡献值的计算公式为：

当M(A,i,B)≠Φ；

其中，Sim(W_Ai,W_Bk)为第一句子和第二句子中任意两个分词A和B之间的相似度；

M(A,i,B)＝{k|Sim(W_Ai,W_Bk)>α},0<α<1为第二句子中分词与第一句子中第i位分词W_Ai相似度大于预设阈值的分词位置集合；

2.根据权利要求1所述句子相似度的计算方法，其特征在于，所述步骤A之前还包括：

A0、通过网络爬虫获取海量词语，组建语料库。

3.根据权利要求1所述句子相似度的计算方法，其特征在于，所述步骤B还包括：

通过以下公式计算分词之间的相似度:

其中，v_il和v_jl代表两个待计算相似度分词的向量，i和j表示所述两个待计算相似度分词分别排列在第一句子第i位置和第二句子的第j位置，Sim(word_i,word_j)代表待计算相似度分词的相似度，L表示待计算相似度分词的向量v_il和v_jl的长度。

4.一种句子相似度的计算系统，其特征在于，包括：

贡献值计算模块，用于获取第一句子和第二句子中分词的相似度超过预定阈值的两组分词集合，并根据每组分词位于句子位置的偏移量，计算每组分词在整个句子中相似度的贡献值；

句间相似度计算模块，用于将第一句子和第二句子中分词的贡献值相加后取平均，得到所述第一句子与第二句子之间的相似度；

所述贡献值计算模块中相似度贡献值得计算公式为：

当M(A,i,B)≠Φ；

5.根据权利要求4所述句子相似度的计算系统，其特征在于，包括：

6.根据权利要求4所述句子相似度的计算系统，其特征在于，所述词相似度计算模块，用于通过以下公式计算分词之间的相似度: