CN107436864A

CN107436864A - 一种基于Word2Vec的中文问答语义相似度计算方法

Info

Publication number: CN107436864A
Application number: CN201710661607.8A
Authority: CN
Inventors: 王春辉
Original assignee: Yyi (beijing) Technology Co Ltd
Current assignee: Knowledge intelligence technology (Beijing) Co.,Ltd.
Priority date: 2017-08-04
Filing date: 2017-08-04
Publication date: 2017-12-05
Anticipated expiration: 2037-08-04
Also published as: CN107436864B

Abstract

本发明公开了一种基于Word2Vec的中文问答语义相似度计算方法，包括文本预处理、向量表示和相似度计算。本发明的有益效果是：提出的中文问答语义相似度计算方法结合了基于关键词的文本相似度以及基于Word2Vec的语义相似度，具有较高的效率和准确率，综合重合关键词的文本相似度与非重合关键词的语义相似度，一方面引入语义，解决了关键词高度重合的文本语义相似度计算问题，另一方面避免了短文本造成的语义相似度计算存在较大误差的问题，提高了中文语句相似度计算的准确性。

Description

一种基于Word2Vec的中文问答语义相似度计算方法

技术领域

本发明涉及一种相似度计算方法，具体为一种基于Word2Vec的中文问答语义相似度计算方法，属于计算机应用技术领域。

背景技术

当今社会，信息技术飞速发展。随着人们在信息社会中对信息检索的迫切需求的增加，普通的信息检索系统己经无法满足用户的需要，而发展在信息检索技术之上的智能问答系统可以满足人们的这一需求，智能问答系统允许用户以自然语言的形式输入一个问句，最终返回给用户的也是自然语言形式的简短而准确的答案。

在问答系统的信息检索中，极为重要并且基础的任务就是问句的相似度计算，相似度计算的效果好坏，对信息检索的结果准确性有直接的影响，文本的相似度计算，就是简单地进行文本之间的匹配，不考虑其表示的语义上下文以及语言结构。文本相似度计算是语义相似度计算的基础，语义分析就是要对自然语言进行理解，对客观世界进行描述，从自然语言中抽取出现实世界中的事物的概念和含义以及各个事物之间的关系，语义相似度就是两个词语在不同的上下文中可以互相替换使用而不改变文本的句法语义结构的程度。

语义相似度计算常用算法基本分为两类：一类是通过语义词典，把有关词语的概念组织在一个树形的结构中来计算；另一类主要是通过词语上下文信息，运用统计的方法进行求解，其中，Word2Vec是Google在2013年年中开源的一款将词表征为实数值向量的高效工具,其利用深度学习的思想，可以通过训练，把对文本内容的处理简化为K维向量空间中的向量运算，而向量空间上的相似度可以用来表示文本语义上的相似度。由于其高效性和便捷性，Word2Vec得到了广泛的关注。

发明内容

本发明的目的就在于为了解决上述问题而提供一种基于Word2Vec的中文问答语义相似度计算方法。

本发明通过以下技术方案来实现上述目的：一种基于Word2Vec的中文问答语义相似度计算方法，包括以下步骤：

步骤A,文本预处理，使用IKAnalyzer将一个汉字序列切分成一个一个单独的词，实现中文文本的分词；

步骤B,向量表示，假设有两个中文文本：S₁以及S₂。经预处理后得到两组关键词集合C_S1和C_S2，分别表示为C_S1：{w₁₁，w₁₂，...，w_1m}，C_S2：{w₂₁，w₂₂，...，w_2n}，通过计算两个集合C_S1和C_S2的并集得到C_S，

C_S＝C_S1∪C_S2＝{w₁，w₂，...，w_k}

其中k≤m+n；

步骤C,相似度计算，集合会存在重合的关键词以及非重合的关键词。基于重合的关键词，通过简单的匹配计算文本相似度；基于非重合的关键词，我们通过Word2Vec计算语义相似度，结合重合关键词文本相似度和非重合关键词语义相似度，得到中文文本S1及S2最终的相似度；

优选的，所述步骤A中，在信息检索时为提高搜索效率，在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词，这些字或词就被称为停用词，停用词大致可分为如下两类：一类是使用十分广泛，甚至是过于频繁的一些单词，如“我”、“是”等；另一类是文本中实际意义不大的词，这类词包括了语气助词、副词、介词、连词等，通常自身并无明确意义，只有将其放入一个完整的句子中才有一定作用的词语，如常见的“的”、“在”、“和”、“接着”之类。通过对问答所属领域的大量文本样本做特征分析，计算度量词重要性的值，如tf-idf、信息增益等，生成问答所属领域停用词集合，结合通用领域停用词，得到最终的停用词集合，停用词去除就是对分词后的词序列删除属于停用词集合中的词。

冗余词过滤是指将语义上重复冗余的词去掉，将两个中文文本分词后得到的各词语分别与预设的语义模板进行匹配，通过匹配到的语义模板识别出在一个句子中同时出现的上位和下位的词语，将所述上位的词语识别为语义冗余的词语，进一步滤除。

同义词映射是通过构建同义词库来解决的，在同义词库中，语义相同但表述不同的词会聚类在一起，每个聚类会选取一个词作为该类的中心词，同义词映射就是将分词后的每个词映射为其所属聚类的中心词。

优选的，所述步骤B中，中文文本S₁及S₂对应的向量V_S1和V_S2首先会被初始化为k维的向量(0,0,…,0)。接下来遍历集合C_S中的关键词，若某关键词在集合C_S1中存在，则将S₁对应向量中相应位置标记为1，否则为0，遍历完集合C_S后就得到了S₁的向量表示(记为V_S1＝{v₁₁，v₁₂，...，v_1k})，同理可以得到S₂的向量表示(记为V_S2＝{v₂₁，v₂₂，...，v_2k})。

优选的，所述步骤C中，相似度计算的结果表示为一个实数，取值范围是[0,1]，规定相似度为1表示语义完全相似，相似度为0表示语义完全不同，相似度介于0和1之间时，与1越靠近，表示两个文本越相似，与0越靠近，表示二者越不相关；

优选的，所述步骤C中，基于重合的关键词的文本相似度(Sim_text(S₁，S₂))计算如下：

其中，

优选的，所述步骤C中，非重合关键词语义相似度对比V_s1与V_s2，将所有v_1i≠v_2i所对应的关键词组成一个集合，记为C_s′＝{w′₁，...，w′_m+n-k}，进一步，分别计算：

C′_S1＝C_S1-(C_S1∩C_S2)

C′_S2＝C_S2-(C_S1∩C_S2)

对于C_s′中每个元素，通过Word2Vec计算与C′_s1中每个元素的相似度，取最大值，从而得到一个m+n-k维的向量V′_s1，同样对于C′_s2也会得到一个m+n-k维的向量V′_s2，计算得到的两个m+n-k维的向量V′_s1以及V′_s2的余弦相似度，从而得到非重合关键词语义相似度(Sim_semantic(S₁，S₂))，如下：

Sim_semantic(S₁，S₂)＝Sim_cos(V′_S1，V′_S2)

其中，

优选的，所述步骤C中，综合相似度在得到了重合关键词文本相似度和非重合关键词语义相似度，通过加权和即得到中文文本S1及S2最终的语义相似度(Sim(S₁，S₂))，如下：

Sim(S₁，S₂)＝θ₁·Sim_text(S_1，S₂)+θ₂·Sim_semantic(S₁，S₂)

其中，θ₁+θ₂＝1。

本发明的有益效果是：该基于Word2Vec的中文问答语义相似度计算方法设计合理，提出的中文问答语义相似度计算方法结合了基于关键词的文本相似度以及基于Word2Vec的语义相似度，具有较高的效率和准确率。

附图说明

图1为本发明结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，一种基于Word2Vec的中文问答语义相似度计算方法，包括以下步骤：

C_S＝C_S1∪C_S2＝{w₁，w₂，...，w_k}

其中k≤m+n；

步骤C,相似度计算，集合和会存在重合的关键词以及非重合的关键词。基于重合的关键词，通过简单的匹配计算文本相似度；基于非重合的关键词，我们通过Word2Vec计算语义相似度，结合重合关键词文本相似度和非重合关键词语义相似度，得到中文文本S1及S2最终的相似度；

所述步骤A中，在信息检索时为提高搜索效率，在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词，这些字或词就被称为停用词，停用词大致可分为如下两类：一类是使用十分广泛，甚至是过于频繁的一些单词，如“我”、“是”等；另一类是文本中实际意义不大的词，这类词包括了语气助词、副词、介词、连词等，通常自身并无明确意义，只有将其放入一个完整的句子中才有一定作用的词语，如常见的“的”、“在”、“和”、“接着”之类。通过对问答所属领域的大量文本样本做特征分析，计算度量词重要性的值，如tf-idf、信息增益等，生成问答所属领域停用词集合，结合通用领域停用词，得到最终的停用词集合，停用词去除就是对分词后的词序列删除属于停用词集合中的词。

所述步骤B中，中文文本S₁及S₂对应的向量V_S1和V_S2首先会被初始化为k维的向量(0,0,…,0)。接下来遍历集合C_S中的关键词，若某关键词在集合C_S1中存在，则将S₁对应向量中相应位置标记为1，否则为0，遍历完集合C_S后就得到了S₁的向量表示(记为V_S1＝{v₁₁，v₁₂，...，v_1k})，同理可以得到S₂的向量表示(记为V_S2＝{v₂₁，v₂₂，...，v_2k})。

所述步骤C中，相似度计算的结果表示为一个实数，取值范围是[0，1]，规定相似度为1表示语义完全相似，相似度为0表示语义完全不同，相似度介于0和1之间时，与1越靠近，表示两个文本越相似，与0越靠近，表示二者越不相关；

所述步骤C中，基于重合的关键词的文本相似度(Sim_text(S₁，S₂))计算如下：

其中，

非重合关键词语义相似度对比V_s1与V_s2，将所有v_1i≠v_2i所对应的关键词组成一个集合，记为C_s′＝{w′₁，...，w′_m+n-k}，进一步，分别计算：

C′_S1＝C_S1-(C_S1∩C_S2)

C′_S2＝C_S2-(C_S1∩C_S2)

Sim_semantic(S₁，S₂)＝Sim_cos(V′_S1，V′_S2)

其中，

综合相似度在得到了重合关键词文本相似度和非重合关键词语义相似度，通过加权和即得到中文文本S1及S2最终的语义相似度(Sim(S₁，S₂))，如下：

Sim(S₁，S₂)＝θ₁·Sim_text(S_1，S₂)+θ₂·Sim_semantic(S₁，S₂)

其中，θ₁+θ₂＝1。

实施例

有两个中文文本，

S₁＝东京有什么值得推荐的美食

S₂＝东京有什么值得推荐的景点

经预处理后得到两组关键词集合C_s1和C_s2，分别为C_s1：{东京，推荐，美食}，C_s2：{东京，推荐，景点}，并集C_s：{东京，推荐，美食，景点}，向量表示为：

V_s1＝{1，1，1，0}

Vs₂＝{1，1，0，1}

重合关键词文本相似度为：

对于非重合关键词语义相似度，首先计算，

C_S′＝{美食，景点}

C′_S1＝C_S1-(C_S1∩C_S2)＝{美食}

C′_S2＝C_S2-(X_S1∩C_S2)＝{景点}

V′_S1＝{max(Word2Vex(美食，美食))，max(Word2Vec(景点，美食))}

＝{1，0.15}

C′_S2＝{max(Word2Vec(美食，景点))，max(Word2Vec(景点，景点))}

＝{0.15，1}

非重合关键词语义相似度为：

Sim_semantic(S₁，S₂)＝Sim_cos(V′_S1，V′_S2)＝0.29

这里，设置θ₁＝0.3，θ₂＝0.7，最终，综合相似度为：

Sim(S₁，S₂)＝θ₁·Sim_text(S₁，S₂)+θ₂·Sim_semantic(S₁，S₂)

＝0.35

示例二、

有两个中文文本，

S₁＝东京的美食有哪些

S₂＝东京的美食天妇罗最正宗的门店是那个

经预处理后得到两组关键词集合Cs1和Cs2，分别为Cs1：{东京，美食}，Cs2：{东京，美食，天妇罗，正宗，门店}，并集Cs：{东京，美食，天妇罗，正宗，门店}，向量表示为：

V_s1＝{1，1，0，0，0}

Vs₂＝{1，1，1，1，1}

重合关键词文本相似度为：

非重合关键词语义相似度为：

Sim_semantic(S₁，S₂)＝Sim_cos(V′_S1，V′_S2)＝0

这里，设置θ₁＝0.3，θ₂＝0.7。最终，综合相似度为：

Sim(S₁，S₂)＝θ₁·Sim_text(S_1，S₂)+θ₂Sim_semantic(S₁，S₂)＝0.12

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于Word2Vec的中文问答语义相似度计算方法，其特征在于，包括以下步骤：

步骤B,向量表示，假设有两个中文文本：S₁以及S₂，经预处理后得到两组关键词集合C_S1和C_S2，分别表示为C_S1：{w₁₁，w₁₂，...，W_1m}，C_S2：{w₂₁，w₂₂，...，w_2n}，通过计算两个集合C_S1和C_S2的并集得到C_S，

C_S＝C_S1∪C_S2＝{w₁，w₂，...，w_k}

其中k≤m+n；

步骤C,相似度计算，集合会存在重合的关键词以及非重合的关键词。基于重合的关键词，通过简单的匹配计算文本相似度；基于非重合的关键词，通过Word2Vec计算语义相似度，结合重合关键词文本相似度和非重合关键词语义相似度，得到中文文本S1及S2最终的相似度。

2.根据权利要求1所述的一种基于Word2Vec的中文问答语义相似度计算方法，其特征在于：所述步骤A中，在信息检索时为提高搜索效率，在处理自然语言数据之前或之后会自动过滤停用词，通过对问答所属领域的大量文本样本做特征分析，计算度量词重要性的值，结合通用领域停用词，得到最终的停用词集合，停用词去除就是对分词后的词序列删除属于停用词集合中的词；

冗余词过滤是指将语义上重复冗余的词去掉，将两个中文文本分词后得到的各词语分别与预设的语义模板进行匹配，通过匹配到的语义模板识别出在一个句子中同时出现的上位和下位的词语，将所述上位的词语识别为语义冗余的词语，进一步滤除；

3.根据权利要求1所述的一种基于Word2Vec的中文问答语义相似度计算方法，其特征在于：所述步骤B中，中文文本S₁及S₂对应的向量V_S1和V_S2首先会被初始化为k维的向量(0,0,…,0)；遍历集合C_S中的关键词，若某关键词在集合C_S1中存在，则将S₁对应向量中相应位置标记为1，否则为0，遍历完集合C_S后就得到了S₁的向量表示(记为V_S1＝{v₁₁，v₁₂，...，v_1k})，同理可以得到S₂的向量表示(记为V_S2＝{v₂₁，v₂₂，...，v_2k})。

4.根据权利要求1所述的一种基于Word2Vec的中文问答语义相似度计算方法，其特征在于：所述步骤C中，相似度计算的结果表示为一个实数，取值范围是[0,1]，规定相似度为1表示语义完全相似，相似度为0表示语义完全不同，相似度介于0和1之间时，与1越靠近，表示两个文本越相似，与0越靠近，表示二者越不相关。

5.根据权利要求1所述的一种基于Word2Vec的中文问答语义相似度计算方法，其特征在于：所述步骤C中，基于重合的关键词的文本相似度(Sim_text(S₁，S₂))计算如下：

<mrow> <msub> <mi>Sim</mi> <mrow> <mi>t</mi> <mi>e</mi> <mi>x</mi> <mi>t</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>S</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mi>k</mi> </mfrac> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </msubsup> <mi>c</mi> <mi>o</mi> <mi>m</mi> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>v</mi> <mrow> <mn>1</mn> <mi>i</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>v</mi> <mrow> <mn>2</mn> <mi>i</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow>

其中，

6.根据权利要求1所述的一种基于Word2Vec的中文问答语义相似度计算方法，其特征在于：所述步骤C中，非重合关键词语义相似度对比V_s1与V_s2，将所有v_1i≠v_2i所对应的关键词组成一个集合，记为C′_S＝{w′₁，...，w′_m+n-k}，进一步，分别计算：

C′_S1＝C_S1-(C_S1∩C_S2)

C′_S2＝C_S2-(C_S1∩C_S2)

对于C_s'中每个元素，通过Word2Vec计算与C'_s1中每个元素的相似度，取最大值，从而得到一个m+n-k维的向量V'_s1，同样对于C'_s2也会得到一个m+n-k维的向量V'_s2，计算得到的两个m+n-k维的向量V'_s1以及V'_s2的余弦相似度，从而得到非重合关键词语义相似度(Sim_semantic(S₁，S₂))，如下：

Sim_semantic(S₁，S₂)＝Sim_cos(V′_S1,V′_S2)

其中，

7.根据权利要求1所述的一种基于Word2Vec的中文问答语义相似度计算方法，其特征在于：所述步骤C中，综合相似度在得到了重合关键词文本相似度和非重合关键词语义相似度，通过加权和即得到中文文本S1及S2最终的语义相似度(Sim(S₁，S₂))，如下：

其中，θ₁+θ₂＝1。