CN112184021A

CN112184021A - 一种基于相似支持集的答案质量评估方法

Info

Publication number: CN112184021A
Application number: CN202011045765.9A
Authority: CN
Inventors: 李爱平; 贾焰; 江荣; 周斌; 涂宏魁; 王晔
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2021-01-05
Anticipated expiration: 2040-09-28
Also published as: CN112184021B

Abstract

本发明公开了一种基于相似支持集的答案质量评估方法，先在问答对集合支持库中检索相似问题，然后以相似问题的高质量答案主卧诶相似支持集，分别从内容和结构两个角度计算候选答案与相似支持集的相似度，再以二者的综合评估来衡量候选答案的质量，从而避免直接对问题和答案之间相似度进行计算，有效降低了问题和答案之间巨大语义距离造成的影响，从而提高答案质量评估的有效性。

Description

一种基于相似支持集的答案质量评估方法

技术领域

本发明属于问答系统技术领域，具体涉及一种基于相似支持集的答案质量评估方法。

背景技术

在搜索引擎中,人们习惯于优先点击排序靠前的几条结果,而且大部分用户都只会点击搜索引擎返回的第一个页面的链接，可见尽量把满足用户需求的结果排在前面可以有效地改善系统的用户体验。同样，对于自动问答系统，也应该把最能解决用户问题的答案排在最前面，特别是对于一些只返回少量答案的系统，排序的有效性更是决定了系统的准确率。答案质量评估就是要对候选答案能够合理回答用户问题的程度进行评估，并根据评估的结果对候选答案进行排序。答案质量评估模块是系统的最后一个模块，无论是只提交一个结果还是多个结果的问答系统,答案质量评估与排序都具有非常重要的意义。

目前,比较常用的方法是依靠文本之间的相似性来对答案的质量进行评估，但很多情况下问题和答案的之间的关系是非常稀疏的，而且不同类型问题与其答案之间的关系也不一而足，因此，这种方法常常难以取得令人满意的效果。

发明内容

针对上述存在的不足，本发明提出一种基于相似支持集的答案质量评估方法, 避免直接从问题和答案之间的关系进行分析,而是借助问答社区中的相似问题和答案,进行间接分析。

本发明采用的技术方案是：

一种基于相似支持集的答案质量评估方法

包括以下步骤：

步骤S1：对于每一个原问题，先从社区问答系统的问答对集合支持库中检索相似问题集合，相似问题集合对应的高质量答案集合形成相似支持集；

步骤S2：通过计算相似支持集中的答案与候选答案之间的相似度，对所有候选答案进行排名，并且排名越靠前的答案质量越高。

优选的，所述相似问题包括内容相似问题和结构相似问题；所述相似支持集包括相似内容支持集和相似结构支持集；所述相似内容支持集为内容相似问题对应的高质量答案集，所述相似结构支撑集为结构相似问题对应的高质量答案集。

优选的，所述内容相似问题的检索过程包括：

(1)首先，采用结合结构的改进型TF-IDF相似性模型对问答对集合支持库中待检索问题进行打分；

(2)然后，采用词性标注工具POs Tagger对原问题进行词性分析，查询问句中实词更高的权重；

(3)以问句的实词进行检索，获得与原问题在内容上相似的问题集合。

优选的，所述结构相似问题的检索过程包括：

(2)然后，采用词性标注工具POs Tagger对原问题进行词性分析，查询问句中实词更高的权重，将实词从问句中删除，得到问句的框架；

(3)以问句的框架进行检索，获得与原问句在结构上相似的问题集合。

优选的，所述TF-IDF相似性模型的表达式如下：

其中，q表示查询，即原问题；d表示被检索文档，即问答对集合支持库中的待检索问题；coord(q,d)表示打分因子,根据文档中出现的查询项的个数来确定；tf(t∈d)表示查询中词项的出现频率；boost(t)是查询中的词项t的权重, 由用户在查询的过程中确定；idf(t)表示逆向文件频率,其表达式如下：

其中，docFreg表示包含词项t的文档数量；numDocs表示待检索文档的总数量。

优选的，利用相似内容支持集和相似结构支持集对所有候选答案从结构和内容上分别进行评估，最后对两个评估结果进行综合评分和排序，其过程包括：

(1)对候选答案进行内容评估

对候选答案进行内容评估的过程是计算候选答案与相似内容支持集的相似度的过程，将相似度计算过程看作查询过程，在查询过程中，候选答案作为查询对象，相似内容支持集中的答案作为待检索文档，其相似度计算过程为：

采用BM25模型分别计算每个待检索文档与查询对象的相似度，然后对他们进行加权求和：

其中，q表示查询；t_i是查询中的项；W_i表示项t_i的权重,可用项的IDF值作为其权重；d表示待查询文档,即相似内容支持集中的答案；R(t_i,d)是项t_i与文档d之间的相似性：

其中，k和b是基于经验的调节因子，根据试验，将它们的值分别赋值为 k＝2和b＝0.75；f_i是项t_i在文档d中的出现频率；d1是文档d的长度,而avgd1 是所有文档的平均长度；

将公式(4)代入公式(3)中，BM25模型的计算公式为：

对于每一个候选答案A_i和高质量答案d^j都有一个相似度计算值，将候选答案与所有高质量答案的平均相似度作为其与相似内容支持集的相似度：

其中，Css_i是候选答案A_i所对应的相似内容支持集,s是Css_i的大小；

(2)对候选答案进行结构评估

a.从相似结构支持集的所有答案中提取数量特征和比例特征，然后计算每一个特征的平均值；

b.从候选答案中提取数量特征和比例特征，然后计算每个候选答案的特征值与相似结构支持集的平均特征值之间的差值，将差值按照从小到大的顺序对候选答案进行排序，得到排序矩阵：

上述矩阵中的Rif表示第i个候选答案在第f个特征值上的排序；采用计算排名的倒数和方式对这些特征值进行整合：

其中,scores(Ai)表示候选答案A_i的结构相似度评分结果；m表示特征的个数；

(3)对步骤(1)和(2)的评估结果进行综合，采用计算排名的倒数和方式：

其中，Rank(C)表示候选答案通过内容得分进行排序的编号；Rank(s)表示候选答案通过结构得分进行排序的编号；A是用于调节两个评分的权重的调节因子；

根据scores(A_i)对所有的候选答案进行排名，并排序越靠前的答案质量越高。

优选的，所述数量特征包括答案长度，答案中的名词数量、动词数量、形容词数量、句子数量；所述比例特征包括答案中名词的比例、动词的比例、形容词的比例，问题和答案的句子数量之比以及问题和句子的长度之比。

优选的，公式(8)中A的值为0.5。

优选的，问答对集合支持库中的问答对是从社区问答系统的历史问答对中提取的。

本发明的有益效果：本发明的基于相似支持集的答案质量评估方法，先在问答对集合支持库中检索相似问题，然后以相似问题的高质量答案主卧诶相似支持集，分别从内容和结构两个角度计算候选答案与相似支持集的相似度，再以二者的综合评估来衡量候选答案的质量，从而避免直接对问题和答案之间相似度进行计算，有效降低了问题和答案之间巨大语义距离造成的影响，从而提高答案质量评估的有效性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的基于相似支持集的答案质量评估原理结构图；

图2为三种评估方法的MAP＠K值；

图3为A取不同值时MRR值和MAP＠1的变化情况。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明具体提供了一种基于相似支持集的答案质量评估方法，如图1所示，包括以下步骤：

步骤S1：对于每一个原问题，先从问答对集合支持库中检索相似问题集合，相似问题集合对应的高质量答案集合形成相似支持集；

上述的问答对集合支持库中的问答对是从社区问答系统的历史问答对中获取的，当问答对集合支持库的问答对数量足够多时，对于绝大部分问题，都能从中找到内容和结构相似的问题。

上述所述的所述相似问题包括内容相似问题和结构相似问题，内容相似问题指的是两个问句的文本内容上是相似的,如具有相同的疑问词、提问对象、限定词等；所述相似内容支持集为内容相似问题对应的高质量答案集。

进行内容相似问题检索的关键问题在于如何衡量问题之间的相似性。因此，内容相似问题的检索过程包括：

结合结构的改进型TF-IDF相似性模型的表达式如下：

结合结构的改进型TF-IDF模型的特点在于:

若一个文档中包含的查询项越多,这个文档的得分越高；

项在一个文档中出现的次数越多,这个文档的得分越高；

在所有文档中出现次数越少的项的区分度越高,对得分的贡献也越大；

权重越高的项对得分的贡献越大。

上述所述相似支持集包括相似内容支持集和相似结构支持集，所述相似结构支撑集为结构相似问题对应的高质量答案集。

结构相似问题的检索与内容相似问题的检索过程相似，不同点在于,在对问句进行了词性分析之后,不是对实词的权重进行增强,而是将实词从问句中删除, 得到问句的框架，其过程如下：

通过上述过程，得到了相似内容支持集和相似结构支持集两个高质量答案集合，下面将利用相似内容支持集和相似结构支持集对候选答案分别从内容和结构两个方面进行质量评估，最后对两个评估结构进行综合评分和排序，具体过程如下：

(1)对候选答案进行内容评估

其中，k和b是基于经验的调节因子，根据试验，将它们的值分别赋值为 k＝2和b＝0.75；f_i是项t_i在文档d中的出现频率；dl是文档d的长度,而avgdl 是所有文档的平均长度；

将公式(4)代入公式(3)中，BM25模型的计算公式为：

对于每一个候选答案A_i和高质量答案

都有一个相似度计算值，将候选答案与所有高质量答案的平均相似度作为其与相似内容支持集的相似度：

(2)对候选答案进行结构评估

在对候选答案进行结构上的评分的过程中,主要通过提取和分析问答对中具有代表性的特征来对候选答案的质量进量化。其中,提取的特征主要分为以下两大类:

数量特征:结构相似的问题所对应的答案之间会有某些数量上的共同特征；比例特征:因为答案的长度可能不一样,因此除了考虑数量特征,还应该虑比例上的共同点。基于结构的评估所用到的特征如表1所示。

上述矩阵中的R_if表示第i个候选答案在第f个特征值上的排序；采用计算排名的倒数和方式对这些特征值进行整合：

其中,Score_s(A_i)表示候选答案A_i的结构相似度评分结果；m表示特征的个数；

根据Score_s(A_i)对所有的候选答案进行排名，并排序越靠前的答案质量越高。

本发明首先从问答对集合支持库中检索相似问题，然后以相似问题的高质量答案为支持集，分别从内容和结构两个角度计算候选答案与支持集的相似度，再以二者的综合评分来衡量候选答案的质量，通过利用历史问答对蕴含的知识,从而避免直接对问题和答案之间相关度进行计算,可以降低问题和答案之间巨大语义距离造成的影响,从而提高答案质量评估的有效性。

实验与分析

为了避免信息抽取等因素引入的误差,本实验将使用来自Yahoo！Answer上的问答对作为本实验的数据集，并以提问者选择的“最佳答案”作为问题的正确答案；从Yahoo！Answer提供的数据集上抽取了约178万个问答对作为本实验的“支持库”；将另外抽取1879个问题和它们对应的答案作为本实验的测试数据, 此数据集的相关情况如表2所示。

表2来自Yahoo！Answer的数据集情况

本实验将用平均正确率均值MAP和平均排序倒数MRR两个指标来验证答案质量评估方法的效果,并与基于Consine相似度的方法(COs)和基于线性回归的方法(LR)进行对比。

MRR的计算公式为：

其中，O是测试数据集中的问题集合,r_g是问题g的正确答案在评估结果中的排序。

在作为对比试验的线性回归方法中,抽取了15个特征，其中10个如上述表格1所示，另外5个特征如表3所示。

表3抽取的其他5个特征

实验得到三种方法在测试数据集上的MRR值如表4所示,MAP值如图2所示, 其中MAP＠K表示在取前K个候选答案为计算对象时候的平均正确率均值,K分别取1、5和10。

表4三种评估方法的MRR值

从表4和图2中可以看出，基于LR的方法效果比基于Consine相似度的方法效果好，而本发明采用的方法在MAP和MRR两个指标上都有较大的优势，由此可见，采用避免直接计算问题和答案之间的相似度，而利用历史数据提供的知识进行答案质量评估的方法是可行、且有效的。

另外，公式(8)中，A是用于调节基于内容评份和基于结构评分的权重的调节因子，当A取不同值时，系统在测试数据集上得到MRR值和MAP@1值的变化如图3所示。

从图3可以看出，当A为0时,表示只有基于结构的评分有效,而当A为1时只有基于内容的评分有效。从图中可以看到,当A从0逐渐增大到1时,MRR和M AP＠1两个值都是先增大后减小,当A为0.5的时候效果最好。

以上所述，仅用以说明本发明的技术方案而非限制，本领域普通技术人员对本发明的技术方案所做的其它修改或者等同替换，只要不脱离本发明技术方案的精神和范围，均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于相似支持集的答案质量评估方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于相似支持集的答案质量评估方法，其特征在于，所述相似问题包括内容相似问题和结构相似问题；所述相似支持集包括相似内容支持集和相似结构支持集；所述相似内容支持集为内容相似问题对应的高质量答案集，所述相似结构支撑集为结构相似问题对应的高质量答案集。

3.根据权利要求2所述的一种基于相似支持集的答案质量评估方法，其特征在于，所述内容相似问题的检索过程包括：

4.根据权利要求2所述的一种基于相似支持集的答案质量评估方法，其特征在于，所述结构相似问题的检索过程包括：

5.根据权利要求3或4所述的一种基于相似支持集的答案质量评估方法，其特征在于，所述结合结构的改进型TF-IDF相似性模型的表达式如下：

其中，q表示查询，即原问题；d表示被检索文档，即问答对集合支持库中的待检索问题；coord(q,d)表示打分因子,根据文档中出现的查询项的个数来确定；tf(t∈d)表示查询中词项的出现频率；boost(t)是查询中的词项t的权重,由用户在查询的过程中确定；idf(t)表示逆向文件频率,其表达式如下：