CN105893523B

CN105893523B - 利用答案相关性排序的评估度量来计算问题相似度的方法

Info

Publication number: CN105893523B
Application number: CN201610194522.9A
Authority: CN
Inventors: 兰曼; 吴国顺
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2016-03-31
Filing date: 2016-03-31
Publication date: 2019-05-17
Anticipated expiration: 2036-03-31
Also published as: CN105893523A

Abstract

本发明公开了一种利用答案相关性排序的评估度量来计算问题相似度的方法，该方法包括：步骤一：在问答知识库中的训练数据集上学习答案排序模型；步骤二：采用快速信息检索从问答知识库中检索出用户问题的相关问题；步骤三：根据学习出的答案排序模型分别对用户问题和相关问题的同一候选答案集进行排序；步骤四：计算问题‑答案相关性排序的评估度量，即斯皮尔曼、皮尔森和肯德尔相关系数；步骤五：将得到的相关系数直接作为问题的相似度得分；或加入到相似度特征集合中训练分类器，然后将分类器输出的概率置信得分作为问题的相似度得分。本发明通过答案的相似度来计算问题的相似度，克服了同一问题具有不同自然语言表述的词汇鸿沟难题。

Description

利用答案相关性排序的评估度量来计算问题相似度的方法

技术领域

本发明涉及到社区问答(CQA)系统中的问题检索技术，涉及利用问题-答案相关性排序的评估度量来计算检索问题相似度的方法。

背景技术

近年来，随着社区问答(Community-based Question Answering，CQA)网站，如Yahoo Answer、Wiki Answer、百度知道、搜搜问问等的蓬勃发展，越来越多的研究机构和研究者开始关注这一领域。一方面，用户可以提出各种问题，这些问题在社区问答网站上被有相关知识的用户或专家回答。另一方面，针对用户提出的查询问题(记作Q₀)，CQA系统检索现有的问答知识库找出已有答案的相关问题(记作Q₁)，并将相关问题的答案(记作A)返回作为用户查询问题的答案。CQA系统通常包括两个重要模块：(1)问题检索：以用户问题作为查询内容，从问题知识库中检索出相关问题；(2)答案排序：根据答案和问题的语义相关的匹配程度，对多个候选答案进行排序。目前问题检索采用的主要方法可归为以下几类：(1)基于信息检索的方法：采用传统信息检索的方法如TFIDF、BM25，把用户问题作为查询去检索出知识库中最相关的问题；(2)基于有监督的机器学习的方法：从问题之间抽取多种不同的特征如：词匹配、基于翻译、基于主题等的相似特征，然后使用机器学习方法去估计问题间的相似度，从而找出最相关的问题。然而，上述这些大多都是在问题之间采用基于词匹配或浅层语义分析检索相似问题，并没有考虑到与问题相关的答案信息，因此很难解决针对同一问题用户采用不同自然语言表述的实际情况。

发明内容

本发明的目的是针对现有技术的不足而提供的一种问题相似度计算方法，该方法利用了问题-答案相关性排序的评估度量来计算问题的相似度，提高问题相似度评估的准确性。

实现本发明目的的具体技术方案是：

一种利用答案相关性排序的评估度量来计算问题相似度的方法，该方法包括如下步骤：

步骤一：在CQA问答知识库中已有问题-答案排序信息的训练数据集上学习有监督的答案排序模型；

步骤二：采用快速信息检索方法，从问答知识库中检索出与用户问题相关的候选问题集合，其中包含噪声问题；

步骤三：根据构建的答案排序模型计算分别得到用户问题和各个相关候选问题针对同一答案集的相关性排序；

步骤四：计算相关性排序的评估度量，即斯皮尔曼(Spearman)、皮尔森(Pearson)和肯德尔(Kendall)相关系数；

步骤五：得到的相关系数直接作为用户问题和相关问题的相似度得分；或者加入到问题相似度特征集合中来训练分类器，然后将分类器输出的概率置信得分作为用户问题和相关问题的相似度得分。

所述步骤一中的训练数据集上学习有监督的答案排序模型，包括如下步骤：

步骤a1：从问答知识库中抽取已有的问题-答案对，根据用户对不同答案的评分，给予对应的问题-答案对不同的标签，构建训练数据集；

步骤a2：在训练数据集上采用机器学习模型学习出有监督的答案排序模型；其中，所述机器学习模型为逻辑回归或支持向量机。

所述步骤二中从问答知识库中检索出与用户问题相关的候选问题集合，包括如下步骤：

步骤b1：采用快速信息检索方法，以用户问题为查询内容，在问答知识库中进行查询检索；其中，所述快速信息检索方法为TFIDF或BM25；

步骤b2：返回的结果作为与用户问题相关的候选问题集合，其中包含噪声问题。

所述步骤三中计算分别得到用户问题和各个相关候选问题针对同一答案集的相关性排序，包括如下步骤：

步骤c1：使用步骤一中已训练的答案排序模型，计算用户问题与候选问题集的各个答案的相关得分进行相关性排序；

步骤c2：使用步骤一中已训练的答案排序模型，计算相关问题与候选问题集的各个答案的相关得分进行相关性排序。

所述步骤四中计算相关性排序的评估度量，包括如下步骤：

步骤d1：选择评估排序的度量，即斯皮尔曼(Spearman)、皮尔森(Pearson)和肯德尔(Kendall)相关系数；

步骤d2：针对步骤三得到的相关性排序，计算各个排序相关系数的值。

所述步骤五中用户问题和相关问题的相似度得分包括如下步骤：

步骤e1：将计算得到的相关系数值直接作为用户问题和相关问题的相似度得分；

步骤e2：将计算得到的相关系数值加入到问题相似度特征集合中，训练分类器，然后将分类器输出的概率置信得分作为用户问题和相关问题的相似度得分。

本发明与现有技术不同之处：⑴、本方法通过计算问题-答案相关性排序的评估度量即斯皮尔曼、皮尔森和肯德尔相关系数，将问题-答案的排序信息加入到问题相似性计算中，通过答案的相似度来估计问题的相似度，克服问题检索中同一问题具有不同自然语言表述的难题；⑵、本方法中提出使用相关性排序的度量，既可以直接作为问题的相关性得分，也可以与其他简单词匹配和浅层语义相似度特征结合，从多个角度捕获自然语言表述的不同问题之间的相似度，提高问题语义相似估计的准确性和全面性。

本发明的有益效果包括：本发明提出利用问题与答案之间的相关性排序的评估度量来计算问题相似度的方法，将答案排序信息通过计算排序相关系数的方式融入到问题检索中，克服了由于采用不同自然语言表达的词汇鸿沟问题，提高用户问题检索的准确性和全面性。并且该方法也可以应用在已有CQA问题知识库的管理，通过发现知识库中已有的相似问题，进行相似问题的答案的合并和优化，提升用户体验。

附图说明

图1为本发明的流程图。

具体实施方式

结合以下具体实施例和附图，对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等，除以下专门提及的内容之外，均为本领域的普遍知识和公知常识，本发明没有特别限制内容。

本发明中所涉及的专业术语的定义如下：

社区问答(community question answering)：一方面，用户可以提出任意主题的问题，这些问题在社区问答网站上被有相关知识的用户或专家回答，另一方面，社区问答系统针对用户问题，检索相关问题并返回相关问题的答案作为用户问题的答案。

问题检索(question retrieval)：输入一个查询问题，在社区问答知识库中检索出相似的问题。答案排序(answer ranking)：给定一个问题和多个候选答案，根据问题-答案的相关匹配程度对答案进行相关性排序。

排序相关系数(rank correlation coefficient)：表示两个排序之间的统计依存程度，常用的排序相关系数有斯皮尔曼(Spearman)、皮尔森(Pearson)、肯德尔(Kendall)排序相关系数等。

为了利用答案排序信息，社区问答中用户会给予不同质量的答案不同的评分，这一评分能够反映答案与问题的匹配程度，回答地越好的答案评分会越高。本发明的第一步就利用这种社区用户数据标记的方法，虽然社区用户标记数据的质量不如专家标记数据高，存在一些噪声，但减少了很多人工成本，并且可以获得大量足够的标记训练数据样本。在标记的训练集上训练有监督的排序模型有两种方式：一是基于两两比较的排序模型，即学习排序(Learning-to-rank)，然后用模型的输出直接作为排序得分；二是训练有监督的分类模型，即逻辑回归(Logistic Regression，LR)、支持向量机(Support VectorMachine,SVM)等，然后利用模型的概率输出置信得分作为排序得分。以第二种方式为例，模型训练过程描述如下：

输入：问题答案集合Q-A＝{q₁-a₁,q₂-a₂,…,q_n-a_n}，标记值集合T＝{t1,t2,…,tn}，分类算法及其相关参数

输出：训练好的答案排序模型

过程：

步骤a1：对Q-A集合的问题答案句子对抽取特征如：词匹配特征，基于翻译的特征，基于主题的特征。抽取的特征描述如下：

(1)、词匹配特征：该特征记录了问题和答案句子中共同出现的词的比例，以Q₁-A₁对为例，该特征采用了以下5种度量方法：

其中|Q₁|,|A₁|分别表示问题和答案中不重复词的数量。

(2)、基于翻译的特征：该特征将问题和答案相关性看作是统计机器翻译问题，即给定答案A₁,问题Q₁出现的概率值P(Q₁|A₁)。具体的计算方法如下：

P(w|A₁)＝(1-θ)P_tr(w|A₁)+θP_ml(w|C) (6)

其中P(w|A₁)表示问题Q₁中词w从答案A₁生成的概率，θ是平滑参数，C表示问答语料库，P_ml(w|C)可以通过最大似然计算，P_tr(w|A₁)通过训练数据计算得到，P(w|a)表示从A₁中的词a到Q₁中词w的翻译概率。

(3)、基于主题的特征：该特征使用LDA主题模型来训练问题和答案的主题向量，然后计算两个主题向量的余弦值。

步骤a2：初始化分类器参数，将抽取的特征和标记值T输入分类器，训练分类器模型。

本发明的第二步采用快速信息检索方法(即TFIDF、BM25)，从问答知识库中检索出大量与用户问题相关的候选问题集合(包含噪声)。

本发明的第三步利用构建的答案排序模型分别对用户问题Q₀和相关问题Q₁的同一答案集A＝{A₁,A₂,…A_n}进行排序，n为答案集A中答案的数量，得到排序结果得分为S₀＝{s₀₁,s₀₂,…,s_0n}和S₁＝{s₁₁,s₁₂,…,s_1n}。

本发明的第四步是在第三步得到的排序结果S₀和S₁上计算这两个排序的相关系数，采用斯皮尔曼(Spearman)、皮尔森(Pearson)、肯德尔(Kendall)这三种常用相关系数，如下：

(1)、斯皮尔曼相关系数：评估两个得分排序结果是否能用单调函数很好的描述出来，输出值在1和-1之间，正数表示正相关，负数表示负相关，值越大表示越相关，计算方法如下：

其中，d_i表示先将得分S₀和S₁转化为排序R₀＝{r₀₁,r₀₂,…,r_0n}和R₁＝{r₁₁,r₁₂,…,r_1n}，然后计算r_0i-r_1i的值。

(2)、皮尔森相关系数：评估两个得分排序结果是否线性相关，1表示正相关，0表示不相关，1表示负相关，计算方法如下，

其中，

(3)、肯德尔相关系数：评估两个得分排序结果是否序相关，计算方法如下：

假如，对于所有的得分s_0i和s_1i都是唯一的，如果s_0i>s_1i且s_0j>s_1j或者s_0i<s_1i且s_0j<s_1j,那么得分对(s_0i,s_1i)和(s_0j,s_1j)是一致的(concordant pairs)，反之是不一致的(disconcordant pairs)。最终，本发明第五步中将得到的相关系数直接作为用户问题和相关问题的相似度得分，或者加入到问题相似度特征集合中，常用的问题相似度特征有词匹配、基于翻译和基于主题的特征等，计算方法与在Q-A对上的计算方式一样，使用这些特征来训练分类器，然后将分类器的概率输出置信得分作为用户问题和相关问题的相似度得分。

表1一个包含相似问题与它们各自答案集的相关排序的示例表

Claims

1.一种利用答案相关性排序的评估度量来计算问题相似度的方法，其特征在于，该方法包括如下步骤：

步骤三：根据构建的答案排序模型计算分别得到用户问题和各个相关的候选问题针对同一答案集的相关性排序；

步骤四：计算相关性排序的评估度量，即斯皮尔曼、皮尔森和肯德尔相关系数；

步骤五：得到的相关系数直接作为用户问题和相关的候选问题的相似度得分；或者加入到问题相似度特征集合中来训练分类器，然后将分类器输出的概率置信得分作为用户问题和相关的候选问题的相似度得分。

2.如权利要求1所述的方法，其特征在于，所述步骤一中的训练数据集上学习有监督的答案排序模型，包括如下步骤：

3.如权利要求1所述的方法，其特征在于，所述步骤二中从问答知识库中检索出与用户问题相关的候选问题集合，包括如下步骤：

4.如权利要求1所述的方法，其特征在于，所述步骤三中计算分别得到用户问题和各个相关的候选问题针对同一答案集的相关性排序，包括如下步骤：

步骤c1：使用步骤一中已训练的答案排序模型，计算用户问题与相关的候选问题集的各个答案的相关得分进行相关性排序；

步骤c2：使用步骤一中已训练的答案排序模型，计算相关的候选问题集的各个答案的相关得分进行相关性排序。