CN109325229A

CN109325229A - 一种利用语义信息计算文本相似度的方法

Info

Publication number: CN109325229A
Application number: CN201811094368.3A
Authority: CN
Inventors: 郑志军; 程国艮
Original assignee: Chinese Translation Language Through Polytron Technologies Inc
Current assignee: Chinese Translation Language Through Polytron Technologies Inc
Priority date: 2018-09-19
Filing date: 2018-09-19
Publication date: 2019-02-12
Anticipated expiration: 2038-09-19
Also published as: CN109325229B

Abstract

本发明提供了一种利用语义信息计算文本相似度的方法，具体而言，该方法包括：将给定的文本进行分词处理得到对应的词序列，然后将上述词序列中的每个单词对应于训练好的词向量取出形成词向量序列，进一步确定给定文本中词序列的关键词，形成关键词序列；判定所述文本中的词是否属于关键词序列并分别赋予不同的权重；在获取了词向量和对应权重的基础上，将句子的词向量与权重值进行加权求和得到语义向量序列，最后利用文本间的语义向量的夹角余弦表示不同文本的相似度。该方法充分考虑了文本中每个词在文本相似度计算中的作用，强调每个词对相似度的贡献的区别，从语义的角度重新定义了求不同文本相似度的方法。

Description

一种利用语义信息计算文本相似度的方法

技术领域

本发明涉及文本相似度计算领域，具体而言，涉及一种充分利用文本中词语语义信息来计算文本相似度的方法。

背景技术

文本相似度计算即计算两个给定文本在语义上的近似程度。文本相似度计算在NLP(自然语言处理)领域中具有十分重要的科研价值和应用价值，其广泛应用于社区问答系统、聊天机器人、机器翻译、文本分类、词义排歧以及信息检索等。

传统文本相似度计算方法主要从词汇、语义、句法方面计算文本的相似度：基于词汇的方法利用两个文本中相同词汇的占比来衡量文本的相似度程度；基于语义的方法利用外部语义词典计算文本相似度；基于句法的方法借助文本编辑距离或句法树计算文本相似度。

深度学习模型在解决这一问题时，要么将两个文本抽象成同一空间的向量考虑，要么将两文本的词相似矩阵当成是图像中的点像素处理。

文本相似度计算的难点在于如何合理的表示句子的语义信息，传统方法最大的缺陷在于没有合理利用词汇的语义信息来表示句子。基于深度学习的方法虽然较好的利用了词汇的语义信息来表示句子，但训练语料的大小很大程度上影响了模型的性能，高成本的标记语料极大的限制了深度学习模型的实际应用。

发明内容

本发明的目的在于提供一种利用了语义信息的计算文本相似度的方法，进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。

本发明的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本发明的实践而习得。

本发明表示句子语义信息时利用了包含更多信息的词向量，且在句子的向量化表示过程中并没有对词向量直接求和而是在为其分配了不同的权重后求和，这样不仅考虑了每个词在计算文本相似度中的作用，也强调了不同的词的贡献是有差异的。

相对于传统文本相似度计算方法，本发明更加合理的表示句子语义，且更容易减少未登录词对文本相似度计算的影响。相对于深度学习方法，本发明不需要借助大规模的标记语料，也无需大量的训练时间。本发明更简单，适用性更强，更适合大规模使用。

本发明提供一种利用语义信息计算文本相似度的方法其特征在于，该方法包括如下步骤：

将给定的第一文本S₁和第二文本S₂分别进行分词处理，得到对应于第一文本S₁的第一词序列W₁和对应于第二文本S₂的第二词序列W₂；

将所述第一词序列W₁中的每个词对应于skip-gram中训练好的词向量取出形成第一词向量序列V₁；

将所述第二词序列W₂中的每个词对应于skip-gram中训练好的词向量取出形成第二词向量序列V₂；

进一步计算第一文本S₁和第二文本S₂的关键词序列，得到第一关键词序列K₁和第二关键词序列K₂；

判断第一词序列W₁中的每个词是否属于第一关键词序列K₁和第二词序列W₂中的每个词是否属于第二关键词序列K₂，按照属于和不属于，赋予不同的权重；

将获得的第一词向量序列V₁与该第一词向量序列中每个词的权重进行词向量加权求和，得到第一文本的第一语义向量SV₁；

将获得的第二词向量序列V₂与该第二词向量序列中每个词的权重进行词向量加权求和，得到第二文本的第二语义向量SV₂；

利用所述第一语义向量SV₁和第二语义向量SV₂的夹角的余弦计算所述第一文本S₁和第二文本S₂的相似度。

优选地，所述第一词序列W₁和第二词序列W₂分别表示为：

其中n和m分别是两个文本的单词数，分别表示第一词序列W₁中的第1至n个单词，分别表示第二词序列W₂中的第1至m个单词。

可以理解的，在第一词序列W₁和第二词序列W₂中可能存在未登录词，如果存在未登录词，则其生成随机的词向量，同时，第一文本和第二文本中相同的未登录词生成相同的词向量。

所述第一词向量序列V₁和第二词向量序列V₂分别表示为：

其中，分别表示第一词向量序列V₁中的第1至n个词向量，分别表示第二词向量序列V₂中的第1至m个词向量。

所述第一关键词序列K₁和第二关键词序列K₂分别表示为：

其中，t和T分别是第一文本和第二文本对应的关键词个数，分别表示第一关键词序列K₁中的第1至t个关键词，分别表示第二关键词序列K₂中的第1至T个关键词。

进一步地，判定第一文本中的每个词是否属于第一关键词序列K₁，同时判定第二文本中的每个词是否属于第二关键词序列K₂：

如果第一文本和第二文本中的一个词分别属于第一关键词序列和第二关键词序列，则为该词赋予权重α；

如果第一文本和第二文本中的一个词不属于第一关键词序列和第二关键词序列，则为该词赋予权重β；

则对应的权重采用下式表达：

其中，l∈[1,2]，当l＝1时，i在1至n之间；当l＝2时，i在1至m之间。

优选地，所述的第一语义向量和第二语义向量表示为：

所述相似度Sim的计算方法为：

Sim＝Cos(SV₁·SV₂)

其中Cos(·)为表示计算余弦值。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出利用语义信息计算文本相似度的流程图；

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本发明将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本发明的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

针对现有技术存在的问题，本发明提供了一种利用语义信息计算文本相似度的方法。

不同于传统方法简单的利用词汇、句法等表示句子也不同于深度学习模型借助于神经网络训练句子的表示，本发明将句子表示成自身词向量的加权和，两个语义向量夹角的余弦值即是给定两文本的相似度。本发明在较好的利用词汇语义信息的同时也避免了深度学习需要高成本语料的困扰。本发明中利用的词向量是基于skip-gram训练而成的，采用的训练语料来自互联网上的开源数据集。

本发明的流程图如图1所示，本发明将给定的两个文本＜S₁,S₂＞进行分词处理，得到对应的词序列W₁和W₂。其中，n和m分别是两个文本的单词数。

其中分别表示词序列W₁中的第1至n个单词，分别表示词序列W₂中的第1至m个单词。

对于词序列W₁和W₂，本发明将每个单词对应于skip-gram中训练好的词向量取出形成词向量序列V₁和V₂。未登录词对应的词向量是随机生成的，两个文本中相同的未登录词生成的词向量是一样的即只生成一次。

其中，分别表示词向量序列V₁中的第1至n个向量，分别表示词向量序列V₂中的第1至m个向量。

一个句子中含有不同成分的词汇，而不同的词汇对文本相似度计算的贡献是不同的。为了区分词汇的重要程度，本发明需为不同的词汇赋予不同的权重。

本发明首先分别计算两文本＜S₁,S₂＞的关键词序列K₁和K₂。其中，t和T分别是两个文本对应的关键词个数。

其中，分别表示关键词序列K₁中的第1至t个关键词，分别表示关键词序列K₂中的第1至T个关键词。

获取关键词后，本发明再根据文本的词是否属于关键词赋不同的权重。属于关键词则赋权重为α，不是关键词怎赋权重为β。其中，l∈[1,2]，当l＝1时，i在1至n之间；当l＝2时，i在1至m之间。

本发明在获取词向量和对应的权重的基础上将句子的语义向量表示为词向量的加权和，即SV₁和SV₂。

本发明在获得两个文本的语义向量之后，用这两个向量夹角的余弦值表示两个文本的相似度Sim，其中Cos(·)表示计算余弦值操作，

Sim＝Cos(SV₁·SV₂)。

下面从一个具体的实施例进一步解释本发明所阐述的方法：

对于输入的两个文本S₁(“ASF的攻击太厉害la”)和S₂(“ASF的攻击好强啊”)用统一的分词软件分词，得到对应的词序列W₁({“ASF”，“的”，“攻击”，“太”，“厉害”，“la”})和W₂({“ASF”，“的”，“攻击”，“好强”，“啊”})。

对于词序列W₁和W₂，将其在skip-gram中训练好的词向量抽取出来得到文本S₁和S₂对应的词向量序列V₁({v("ASF")，v("的")...v("la")})和V₂({v("ASF")，v("的")...v("啊")})。

词语“ASF”和“la”都属于未登录词，他们对应的词向量是随机生成的。虽然两个句子中都出现了词语“ASF”，但是其词向量只随机生成一次。

本发明将文本S₁和S₂中的词分为普通词和关键词，关键词的计算可以借助于统一的NLP工具。

对S₁和S₂分别计算关键词得到对应的关键词序列K₁({“攻击”，“ASF”，“厉害”})和K₂({“攻击”，“ASF”，“好强”})。

本发明对不同的词分配不同的权重，普通词的权重为β，关键词的权重为α。

在获得文本中的词对应的词向量和权重之后，将文本语义表示为词向量的加权和。S₁对应的句向量为SV₁和，S₂对应的句向量为SV₂。

SV₁＝v(“ASF”)*α+…+v(“la”)*β

SV₂＝v(“ASF”)*α+…+v(“啊”)*β

在获取文本S₁和S₂对应的语义向量之后，计算两个向量SV₁和SV₂夹角的余弦值并用这个余弦值表示句子的相似度。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种利用语义信息计算文本相似度的方法，其特征在于，该方法包括如下步骤：

2.根据权利要求1所述的方法，其特征在于：所述第一词序列W₁和第二词序列W₂分别表示为：

3.根据权利要求1-2中任一项所述的方法，其特征在于：在第一词序列W₁和第二词序列W₂中可能存在未登录词，如果存在未登录词，则其生成随机的词向量，同时，第一文本和第二文本中相同的未登录词生成相同的词向量。

4.根据权利要求1-3中任一项所述的方法，其特征在于：第一词向量序列V₁和第二词向量序列V₂分别表示为：

5.根据权利要求1-4中任一项所述的方法，其特征在于：所述第一关键词序列K₁和第二关键词序列K₂分别表示为：

6.根据权利要求5所述的方法，其特征在于：判定第一文本中的每个词是否属于第一关键词序列K₁，同时判定第二文本中的每个词是否属于第二关键词序列K₂：

则对应的权重采用下式表达：

7.根据权利要求6所述的方法，其特征在于：所述的第一语义向量和第二语义向量表示为：

8.根据权利要求7所述的方法，其特征在于：所述相似度Sim的计算方法为：

Sim＝Cos(SV₁·SV₂)

其中Cos(·)为表示计算余弦值。