CN109062892A

CN109062892A - 一种基于Word2Vec的中文语句相似度计算方法

Info

Publication number: CN109062892A
Application number: CN201810747766.4A
Authority: CN
Inventors: 姜涛; 王庆; 宫俊
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2018-07-10
Filing date: 2018-07-10
Publication date: 2018-12-21

Abstract

本发明公开了一种基于Word2Vec的中文语句相似度计算方法。该方法基于大型语料库训练得到词向量模型，并且通过LTP句法分析器将句子表示成句法成分树结构。该计算方法包括：接受用户输入的问题Q；对用户输入的问题Q进行分词，词性分析以及句法分析；将用户输入的问题Q与问题模板中的每个问题A进行匹配计算，获得问题Q与问题A之间的相似度调节系数score1和语义相似度得分score2；根据相似度调节系数score1和语义相似度score2计算获得问题Q与问题A之间的语句相似度score。本发明通过将句子的结构信息添加到语句相似度计算中，以及通过计算词汇之间的句法关系有效提高了相似度计算的准确率。

Description

一种基于Word2Vec的中文语句相似度计算方法

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种中文语句相似度计算方法。

背景技术

句子相似度计算是文本信息处理中一项很重要的基础研究工作，该技术广泛应用于文本摘要、自动问答系统和机器翻译中。这些应用系统的准确性极大程度上取决于句子相似度计算的准确性。因此，提高句子相似度计算的准确性是当前研究要解决的首要问题。

统计语言模型现已成为自然语言处理研究领域的主流，但以往自然语言处理领域的统计学习方法大多属于浅层模型，对数据的表示学习能力较弱，相似度的计算是基于表层特征，如候选答案的词频、查询词和候选答案的距离，而表层特征没有考虑语法、语义的因素，特别是词相同，但词语不同的情况。随着深度学习在语音和图像领域上表现出优异的表示学习能力，尤其是Word2Vec模型的提出，使词向量的表示更加准确，基于句法语义分析方法的出现也弥补了表层特征的不足。

在先申请“一种基于词向量的句子相似度比较方法”(申请号：201711273188.7)公开了一种基于词向量的句子相似度比较方法，先构建句子成分向量树，然后通过softpartial tree kernel函数计算最终的句子相似度得分。但该方法对句子中词语之间的关联，以及句子中词语的序列关系、位置关系对句子语义的影响，并没有进行充分考虑和具体计算。

发明内容

针对在先技术存在的不足，本发明提出了一种基于Word2Vec的中文语句相似度计算方法，该方法基于大型语料库训练得到词向量模型，通过LTP句法分析器将句子表示成句法成分树结构，通过设置两个句子的相似度调节系数和语义相似度，使两个句子的语句相似度可通过句子相似度调节系数和句子语义相似度加权求和得到。

本发明的技术方案是这样实现的：

一种基于Word2Vec的中文语句相似度计算方法，该方法包括：

S1.1，通过Word2Vec训练一中文语料库，得到词向量模型；

S1.2，通过爬虫软件爬取网上语料，创建问题模板；

S1.3，对用户输入的问题Q和问题模板中的一个问题A进行分词，词性分析以及句法分析；

S1.4，将用户输入的问题Q与问题模板中的该问题A通过词向量模型进行匹配计算，获得用户输入的问题Q与问题模板中的该问题A之间的相似度调节系数score1和语义相似度score2；

S1.5，通过相似度调节系数score1和语义相似度score2计算获得用户输入的问题Q与问题模板中该问题A的语句相似度score，所述语句相似度score、相似度调节系数score1和语义相似度score2满足公式：score＝a₁*score1+a₂*score2,其中a₁+a₂＝1；

S1.6，重复上述步骤S1.3－S1.5，遍历问题模板库中的所有问题，得到用户输入问题Q与问题模板中所有问题的语句相似度score；

S1.7，从问题模板中选择与用户输入的问题Q语句相似度score值最大的问题的答案推送给用户。

进一步的，所述步骤S1.1中的中文语料库采用的是维基百科的中文语料。

进一步的，所述步骤S1.3中先使用LTP句法分析器对问题Q和问题A对应的中文语句做预处理，具体包括如下步骤：

S1.3.1，使用LTP句法分析器中的分词模型对所述中文语句进行分词，过滤停用词以及去除无意义词语的操作；

S1.3.2，根据分词的结果，使用LTP句法分析器中的词性标注模型对分词后的词语进行词性标注；

S1.3.3，根据词性标注的结果，使用LTP句法分析器中的依存句法分析模型对标注词性后的句子进行依存句法分析，得到语义依存树。

进一步的，所述步骤S1.4中相似度调节系数score1的计算公式Ⅰ为：score1＝k*λ*γ*β，语义相似度score2的计算公式Ⅱ为：score2＝b₁*Sim₁(Q,A)+b₂*Sim₂(Q,A)+b₃*Sim₃(Q,A)；公式Ⅰ中，k为句型调节系数，用于区分疑问句和陈述句，疑问句对陈述句的调节系数为0.1，句型相同时调节系数为1；λ为句子成分调节系数，用于在问题Q和问题A对应的两个句子划分的成分数量不等时进行调节，m、n分别代表问题Q和问题A对应句子划分的成分个数，i为问题Q和问题A对应句子划分成分后相同成分的个数；γ为否定调节系数，用于问题Q和问题A对应的两个句子的谓语中心词是反义词或者一个的谓语中心词是另一个的谓语中心词前面加否定词的情况时的调节，γ的值为-1，当语句相似度为负，表示两个句子的意思相反；β为词组位置调节系数，计算公式为其中R1和R2是问题Q和问题A的词组位置向量；公式Ⅱ中，Sim₁(Q,A)、Sim₂(Q,A)、Sim₃(Q,A)分别表示核心词语相似度、重要词语相似度、次要词语相似度，b1、b2、b3分别表示三个部分的权重系数，b1+b2+b3＝1；所述核心词语是指语义依存树的根节点，即全局核心词语，所述重要词语是指语义依存树中与核心词语直接相连的名词、动词、形容词和副词的集合，所述次要词语是指句子中除核心词语重要词语之外的名词、动词、形容词和副词的集合。

更进一步的，所述词组位置调节系数β计算步骤包括：

S1.4.1，对问题Q和问题A分别进行分词，分别得到多个词组或短语，记为向量T1和T2；

S1.4.2，合并T1和T2，得到它们的并集T，并集T包含的词组个数记为K；

S1.4.3，对于T中的每个词组Ti，查找与之相同的T1中的词组，提取该词组在T1中的下标j，然后构建词组位置向量R1，令R_1i＝j，同理构建向量R2；

S1.4.4，将R1、R2带入公式计算词组位置调节系数β。

本发明技术方案中所述的LTP句法分析器是基于哈尔滨工业大学语言技术平台(Language Technology Platform，LTP)的一种句法分析工具。

本发明的有益效果在于：

1.通过将句子的结构信息添加到语句相似度计算中，以及通过考虑词汇之间的句法关系，提高了复杂句式相似度计算的准确率。

2.通过采用LTP句法分析器对语句做预处理，使本发明计算方法处理对象的语句成分更加标准化、规范化，容易更快更好地得出计算结果。

3.相似度调节系数score1内部进一步引入了句型调节系数、句子成分调节系数、否定调节系数和词组位置调节系数，使相似度调节的作用更加准确可靠。

4.语义相似度score2内部进一步引入了核心词语相似度、重要词语相似度、次要词语相似度，及b1、b2、b3三个权重系数，使语义相似度的计算调更加准确。

附图说明

附图1为本发明中文语句相似度计算方法整体流程示意图；

附图2为本发明中文语句相似度计算方法的词性标注以及句法分析结果示意图；

附图3为本发明中文语句相似度计算方法的依存句法树示意图。

具体实施方式

下面结合附图对本发明具体实施方式做进一步说明：

如附图1－3所示，一种基于Word2Vec的中文语句相似度计算方法，该方法包括：

S1.1，通过Word2Vec训练一中文语料库，得到词向量模型；

S1.2，通过爬虫软件爬取网上语料，创建问题模板；

更进一步的，所述词组位置调节系数β计算步骤包括：

S1.4.4，将R1、R2带入公式计算词组位置调节系数β。

参照附图1－3，上述实施方式的一个具体实施例为：

步骤1：使用Word2Vec工具训练维基百科中文语料库，得到词向量模型；

步骤2：对用户输入的问题Q和问题模板库中的问题A进行分词，词性分析以及句法分析；

步骤2-1：使用LTP中的分词模型对中文语句进行分词，过滤停用词以及去除无意义词语等操作。

步骤2-2：根据分词的结果，使用LTP中的词性标注模型对分词后的词语进行词性标注。

步骤2-3：根据词性标注的结果，使用LTP中的依存句法分析模型对标注词性后的句子进行依存句法分析，得到语义依存树，如附图3。

步骤3：将所述用户输入的问题Q与所述问题模板中的每个问题A进行匹配计算，获得所述用户输入的问题Q与所述问题模板中的每个问题A之间的相似度调节系数score1＝k*λ*γ*β；

步骤3-1：计算句型调节系数k，主要是区分疑问句和陈述句，将疑问句对陈述句的调节系数设置为0.1，句型相同时k为1。

步骤3-2：计算句子成分系数λ，即句子划分的成分不等时的调节系数，其值设为m何n分别代表输入问题Q和问题模板中问题A所包含的成分个数，i为输入问题Q和问题模板中问题A中相对应成分的个数。

步骤3-3：计算否定系数γ，即两个句子中明显出现输入问题Q和问题模板中问题A的谓语中心词是反义词或対义词，或者输入问题Q和问题模板中问题A的谓语中心词前有“不”的情况，则将γ的值设置为-1，因此语句相似度为负说明两个句子的意思相反。

步骤3-4：计算词组位置调节系数β，计算公式为

其中R1和R2是输入问题Q和问题A的词组位置向量。

步骤3-4-1：对问题Q和问题A分别进行分词，分别得到若干个词组或短语，记为向量T1和T2。

步骤3-4-2：通过T1和T2，得到它们的并集T，包含k个词组。

步骤3-4-3：对于T中的每个词组Ti，查找T1中与之相同的词组，记下该词组在T1中的下标j，然后构建词组位置向量R1，令R_1i＝j；同理构建向量R2.

步骤3-4-4：通过R1和R2计算词组位置调节系数β。

步骤4：将所述用户输入的问题Q与所述问题模板中的每个问题A进行匹配计算，获得所述用户输入的问题Q与所述问题模板中的每个问题A之间的语义相似度得分score2＝b₁*Sim₁(Q,A)+b₂*Sim₂(Q,A)+b₃*Sim₃(Q,A)；

score2的值由Sim₁(Q,A)，Sim₂(Q,A)，Sim₃(Q,A)三部分共同构成

步骤4-1：计算核心词相似度Sim₁(Q,A)；

步骤4-2：计算重要词语相似度Sim₂(Q,A)；

步骤4-3：计算次要词语相似度Sim₃(Q,A)；

步骤5：根据所述相似度调节系数score1和语义相似度score2计算获得所述用户输入的问题Q与所述问题模板中的每个问题A之间的语句相似度score，计算公式为score＝a₁*score1+a₂*score2，a₁+a₂＝1；

步骤6：从所述问题模板中选择与所述用户输入的问题Q具有最高语句相似度的问题的答案推送给用户。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何利用本发明基于Word2Vec的中文语句相似度计算方法的思路均属于本发明技术构思的保护范围，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于Word2Vec的中文语句相似度计算方法，该方法包括：

S1.1，通过Word2Vec训练一中文语料库，得到词向量模型；

S1.2，通过爬虫软件爬取网上语料，创建问题模板；

2.根据权利要求1所述的计算方法，其特征在于：所述步骤S1.1中的中文语料库采用的是维基百科的中文语料。

3.根据权利要求1所述的计算方法，其特征在于，所述步骤S1.3中先使用LTP句法分析器对问题Q和问题A对应的中文语句做预处理，具体包括如下步骤：

4.根据权利要求1所述的计算方法，其特征在于，所述步骤S1.4中相似度调节系数score1的计算公式Ⅰ为：score1＝k*λ*γ*β，语义相似度score2的计算公式Ⅱ为：score2＝b₁*Sim₁(Q,A)+b₂*Sim₂(Q,A)+b₃*Sim₃(Q,A)；公式Ⅰ中，k为句型调节系数，用于区分疑问句和陈述句，疑问句对陈述句的调节系数为0.1，句型相同时调节系数为1；λ为句子成分调节系数，用于在问题Q和问题A对应的两个句子划分的成分数量不等时进行调节，m、n分别代表问题Q和问题A对应句子划分的成分个数，i为问题Q和问题A对应句子划分成分后相同成分的个数；γ为否定调节系数，用于问题Q和问题A对应的两个句子的谓语中心词是反义词或者一个的谓语中心词是另一个的谓语中心词前面加否定词的情况时的调节，γ的值为-1，当语句相似度为负，表示两个句子的意思相反；β为词组位置调节系数，计算公式为其中R1和R2是问题Q和问题A的词组位置向量；公式Ⅱ中，Sim₁(Q,A)、Sim₂(Q,A)、Sim₃(Q,A)分别表示核心词语相似度、重要词语相似度、次要词语相似度，b1、b2、b3分别表示三个部分的权重系数，b1+b2+b3＝1；所述核心词语是指语义依存树的根节点，即全局核心词语，所述重要词语是指语义依存树中与核心词语直接相连的名词、动词、形容词和副词的集合，所述次要词语是指句子中除核心词语重要词语之外的名词、动词、形容词和副词的集合。

5.根据权利要求4所述的计算方法，其特征在于，所述词组位置调节系数β计算步骤包括：

S1.4.4，将R1、R2带入公式计算词组位置调节系数β。