CN106909573A

CN106909573A - 一种评价问答对质量的方法和装置

Info

Publication number: CN106909573A
Application number: CN201510981511.0A
Authority: CN
Inventors: 孙林; 陈培军; 秦吉胜
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Priority date: 2015-12-23
Filing date: 2015-12-23
Publication date: 2017-06-30

Abstract

本申请公开了一种评价问答对质量的方法，用于提高评价问答对质量的准确性，该方法包括：获取待评价问答对的问题内容中的词语和答案内容中的词语；从问答知识库中选取与获取到的问题内容中的词语和答案内容中的词语均相匹配的问答记录；根据相匹配的问答记录中的问题词语和答案词语之间的语义相关度，对问答对的质量进行评价，相应地，本申请还公开了一种评价问答对质量的装置。

Description

一种评价问答对质量的方法和装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种评价问答对质量的方法和装置。

背景技术

随着互联网技术的蓬勃发展，用户在生活或工作遇到各种各样的问题时越来越倾向于在问答等社区或者是其他网页中搜索答案。问答社区的基本形式通常为用户根据自己的需求提出问题，并由其他的用户来给出答案。这种形式为用户在网络上获取答案信息提供了新的渠道。然而由于任何用户都可以随意地创建内容，即创建问题和创建答案，导致了问答社区中的信息质量差异非常大，致使问答社区中出现了大量的低质量问答对，降低了问答社区的质量。

为了解决上述问题，问答对质量评价方法的研究工作逐渐开展起来，目前主要是将问答对质量评价问题看作是高质量问答对和低质量问答对的二分类问题，使用文本特征对问题和答案分别建立分类模型，最终将两个分类模型的预测结果融合起来进而对问答对质量进行评价，这里的文本特征主要指文本视觉特征(例如标点符号密度，平均词长，文本熵等)和文本内容特征(例如文本内容词比例，疑问词密度，相关词覆盖等)。

使用文本特征来描述问题和答案时，对问题和答案分别提取出特征后，在训练集上分别学习出一个问题质量预测模型和答案质量预测模型，并使用两个模型的输出结果来评价问答对质量。该技术对问答对质量评价时，仅仅使用了相关词覆盖特征来描述问题和答案间的语义匹配度，这不但仅仅是停留在词法层面上的，而且很多问题和答案间并不存在相关词的覆盖，从而导致问题和答案间的语义匹配度为0，然而问题和答案间的语义匹配度恰恰是问答对质量的核心，例如问答社区中某一问题为“山东的省会是哪个城市”，相应的答案有以下两个“济南”，“山东的省会是北京”。现有技术利用相关词覆盖特征来评价问答对质量时，根据问题和答案间的语义匹配度则会将“山东的省会是哪个城市”和“山东的省会是北京”认为是一个高质量的问答对，这明显与实际不符，由此可以看出，现有技术在问答对进行质量评价时，评价的准确性较低。

发明内容

为解决上述技术问题，本申请实施例提供一种评价问答对质量的方法和装置，用于提高评价问答对质量的准确性。

本申请实施例采用下述技术方案：

一种评价问答对质量的方法，包括：获取待评价问答对的问题内容中的词语和答案内容中的词语；从问答知识库中选取与获取到的问题内容中的词语和答案内容中的词语均相匹配的问答记录，其中，一条问答记录包括一个问题词语、与所述问题词语相关联的多个答案词语，以及每个答案词语分别和所述问题词语之间的语义相关度；根据相匹配的问答记录中的问题词语和答案词语之间的语义相关度，对问答对的质量进行评价。

优选地，从问答知识库中选取与获取到的问题内容中的词语和答案内容中的词语均相匹配的问答记录，具体包括：

将获取到的问题内容中的词语与问答记录中的问题词语相匹配，如果匹配成功，则标记该问答记录；

然后将将获取到的答案内容中的词语与标记的问答记录中的答案词语相匹配，如果匹配成功，则选取该问答记录。

优选地，获取待评价问答对的问题内容中的词语和答案内容中的词语之前，所述方法还包括：

预先提取出多个问答对，并获取每个问答对对应的类别，构建包含有多条问答记录的问答知识库。

优选地，构建包含有多条问答记录的问答知识库，具体包括：

对提取的每一个问答对，提取该问答对的问题内容和答案内容中的词语，得到问题词语集合和答案词语集合；

令问题词语集合中的每个问题词语和答案词语集合中的每个答案词语分别在与该问答对对应的每个类别上形成一条信息记录；

对每一条信息记录，执行以下操作：

计算该答案词语属于该类别的概率，计算在该类别上该答案词语对该问题词语的解释的专一程度，计算在该类别上该问题词语用该答案词语进行解释的强度；

将上述概率、专一程度和强度相乘，所得到的乘积是该答案词语和该问题词语的语义相关度；

令该问题词语，多个答案词语，和，多个答案词语中的每个答案词语和所述问题词语之间的语义相关度形成一条对应于所述类别的问答记录。

优选地，计算该答案词语属于该类别的概率，具体包括：

计算在该类别上该答案词语对该问题词语的解释的专一程度，具体包括：

计算在该类别上该问题词语用该答案词语进行解释的强度，具体包括：

将概率、专一程度和强度相乘，具体包括：

weight(QW_i,AW_j|C＝C_k)＝P(C_k|AW_j)*specific(QW_i,AW_j|C＝C_k)*interpret(QW_i,AW_j|C＝C_k)

其中：

P(C_k|AW_j)为答案词语AW_j属于类别C_k的概率；

specific(QW_i,AW_j|C＝C_k)为在类别C_k上答案词语AW_j对问题词语QW_i的解释的专一程度；

interpret(QW_i,AW_j|C＝C_k)为在类别C_k上问题词语QW_i用答案词语AW_j进行解释的强度；

P(C_K)表示类别C_k出现的概率；P(AW_j)表示答案为AW_j的概率；P(AW_j|C_k)表示C_k类别属于AW_j的概率；#(QW_i,AW_j)表示问题词语为QW_i且答案词语为AW_j的次数；#(AW_j)表示答案词语为AW_j的次数。

优选地，根据相匹配的问答记录中的问题词语和答案词语之间的语义相关度，对问答对的质量进行评价，具体包括：

根据相匹配的问答记录中对应于相同类别下的问答记录，并根据相匹配的问答记录中的问题词语和答案词语之间的语义相关度，得到待分析的问答对针对各个类别的相关联程度；

选取上述该待分析的问答对针对各个类别的相关联程度的最大值，根据该最大值的大小对待分析的问答对进行评价。

本申请实施例还提供一种评价问答对质量的装置，包括：获取模块，选取模块和评价模块，其中：

所述获取模块，用于获取待评价问答对的问题内容中的词语和答案内容中的词语；

所述选取模块，从问答知识库中选取与获取到的问题内容中的词语和答案内容中的词语均相匹配的问答记录；

所述评价模块，用于根据相匹配的问答记录中的问题词语和答案词语之间的语义相关度，对问答对的质量进行评价。

优选地，所述选取模块具体包括有匹配单元，其中：

所述匹配单元，用于将获取到的问题内容中的词语与问答记录中的问题词语相匹配，如果匹配成功，则标记该问答记录；

优选地，所述装置还包括问答知识库创建模块，其中：

所述问答知识库创建模块，用于预先提取出多个问答对，并获取每个问答对对应的类别，构建包含有多条问答记录的问答知识库。

优选地，所述评价模块具体包括有评价单元，其中：

所述评价单元，用于根据相匹配的问答记录中对应于相同类别下的问答记录，并根据相匹配的问答记录中的问题词语和答案词语之间的语义相关度，得到待分析的问答对针对各个类别的相关联程度；

本申请实施例采用的上述至少一个技术方案能够达到以下有益效果：根据获取到的待评价问答对的问题内容中的词语和答案内容中的词语，从问答知识库中选取与获取到的问题内容中的词语和答案内容中的词语均相匹配的问答记录，根据相匹配的问答记录中的问题词语和答案词语之间的语义相关度，对问答对的质量进行评价，相对于现有技术中仅仅根据待评价的问题和答案的相关词覆盖特征来评价问答对质量，提高评价的准确性。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的一种评价问答对质量的方法的流程示意图；

图2为本申请实施例提供的一种问答知识库的构建流程示意图；

图3为本申请实施例提供的问答记录细节示意图；

图4为本申请实施例提供的一种评价问答对质量的装置示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例提供的一种评价问答对质量的方法的实现流程示意图，包括以下几个步骤：

步骤11：获取待评价问答对的问题内容中的词语和答案内容中的词语。

问答对通常为网络应用中，某些用户根据自己需求提出问题内容，由其他用户来给出答案内容，其中，一条问题内容可能对应多条答案内容，这里可以将一条问题内容和一条答案内容成为一个问答对。

对问答对的质量进行评价时，可以将其分为优，中，差三个级别，当然还可以用二分法分为高质量问答对和低质量问答对。对某一个问答对进行评价时，首先应获取该问答对问题内容中的词语和答案内容中的词语。具体的可以分别对问题内容和答案内容经过分词、去除停用词、word join、提取实体词等步骤，最终获取到的问题内容和答案内容中的词语信息可以按如下所示的格式：

(<QW₁,QW₂,…,QW_i,…,QW_m>，<AW₁,AW₂,…,AW_i,…,AW_n>)，

其中的QW为一个问题词语，AW为一个答案词语，右下角的标号则为问题词语或答案词语的编号。例如某一问答对的问题内容是“山东的省会是哪个城市”，相应的答案内容是：“山东的省会是济南”，则获取的问题内容中的词语答案内容中的词语可以为(<山东₁，省会₂，城市₃>，<山东₁，省会₂，济南₃>)。

步骤12：从问答知识库中选取与获取到的问题内容中的词语和答案内容中的词语均相匹配的问答记录。

问答知识库是预先建立好的，其中包括有大量的问答记录，其中一条问答记录包括一个问题词语、与所述问题词语相关联的多个答案词语，以及每个答案词语分别和所述问题词语之间的语义相关度。则从问答知识库中选取与获取到的问题内容中的词语和答案内容中的词语均相匹配的问答记录时，可以对于待评价问答对的问题词语中的每一个词语，均从问答记录的问题词语中选取出与其相匹配的问题词语。例如获取到的待评价问答对的问题内容中的词语为<山东，省会，城市>，则从选取与“山东”相匹配的问题词语，选取与“省会”相匹配的问题词语，选取与“城市”相匹配的问题词语，问题词语匹配完之后再将答案词语相匹配，答案词语的匹配过程与之类似，问题词语和答案词语完全匹配则选取出该问答记录。

步骤13：根据相匹配的问答记录中的问题词语和答案词语之间的语义相关度，对问答对的质量进行评价。

根据相匹配的问答记录中的问题词语和答案词语之间的语义相关度，得到具体的与语义相关度的相关的数值。还以之前所举的一个例子为例，对于待评价问答对的问题内容中的词语和答案内容中的词语(<山东，省会，城市>，<山东，省会，济南>)，选取出与其相匹配的问答记录，根据问答记录中的答案词语和问题词语之间的语义相关度。得到待评价问答对的语义相关度的相关的数值，根据上述语义相关度的数值，即可对问答对的质量进行评价。

例如待评价的问答对的质量总体可分为优，中，差三级，相应的与语义相关度的相关的数值范围为0至1，则根据上述级数将与语义相关度的相关的数值进行分区，如果某一与语义相关度的相关的数值落在[0，0.33]之间，则可认为该问答对的质量为“差”，落在[0.67，1]之间，则可认为该问答对的质量为“优”。

本申请实施例采用的上述技术方案，获取待评价问答对的问题内容中的词语和答案内容中的词语，从问答知识库中选取与获取到的问题内容中的词语和答案内容中的词语均相匹配的问答记录，根据相匹配的问答记录中的问题词语和答案词语之间的语义相关度，对问答对的质量进行评价。相对于现有技术中仅仅根据待评价的问题和答案的相关词覆盖特征来评价问答对质量，提高评价的准确性。

上述实施例的步骤12中提到“从问答知识库中选取与获取到的问题内容中的词语和答案内容中的词语均相匹配的问答记录”，具体可以按以下步骤进行选取：

需要说明的是，这里的匹配成功，可以是两个词语完全一致，还可以为两个词语为同义词或近义词，又或者是两个中的一个词语是另一个词语的子串等。

上述实施例的步骤12中提到问答知识库，接下来将对问答知识库的创建过程进行详细说明，具体参照图2。

创建问答知识库时，首先可以利用爬虫从互联网上抓取含有高质量问答对的网页，这些网页可以为cQA社区、各大专业论坛，对上述网页进行解析得到大量的高质量的问答对。另外在获取问答对的同时，还可以提取出该问答对所属类别信息，这些类别可以为问答社区对问答对整体的分类，例如分为游戏，医疗健康，运动，阅读，商业等等类别，最终获得的问答对内容和类别的具体格式可以如下公式所示：

<question:><content:><answer:><cate1:><cate2:><cate3:>

其次，获取问答对以及类别之后即可构建问答知识库，对于上述获取到的每条问答对，分别对问题内容和答案内容经过分词、去除停用词、word join、提取实体词等步骤得到问题词语集合和答案词语集合，其中集合的存储格式可以如下所示：

(<QW₁,QW₂,…,QW_i,…,QW_m>，<AW₁,AW₂,…,AW_i,…,AW_n>，cate1)

令问题词语集合中的每个问题词语和答案词语集合中的每个答案词语分别在与该问答对对应的每个类别上形成一条信息记录，对于上述的每个问题词语QW_i(i＝1,2,…,m)，均计算答案词语AW_j(j＝1,…,n)和问题词语QW_i的在类别cate1上的语义相关度，具体可以按如下公式:

计算该答案词语属于该类别的概率，具体可以按以下公式：

计算在该类别上该答案词语对该问题词语的解释的专一程度，具体可以按以下公式：

计算在该类别上该问题词语用该答案词语进行解释的强度，具体可以按以下公式：

将概率、专一程度和强度相乘，所得到的乘积是该答案词语和该问题词语的语义相关度，具体包括：

其中：

P(C_k|AW_j)为答案词语AW_j属于类别C_k的概率；

最终，对于每个QW_i，得到其对应的问答记录细节如图3所示。图3中只是显示出三个问答记录，需要说明的是，一个问答对可以包括多条问答记录，这里的一个问答记录包括一个问题词语、与所述问题词语相关联的多个答案词语，以及每个答案词语和所述问题词语之间的语义相关度。还需要说明的是，上述示例的语义相关度是问答记录在一个类别之下的语义相关度。另外，一个问答记录又包括多条记录信息，其中每个记录信息中包括一个问题词语，一个答案词语，以及答案词语和问题词语在所述问答记录归属的类别下的语义相关度。多个上述的问答记录构成问答知识库。

根据相匹配的问答记录中的问题词语和答案词语之间的语义相关度，对问答对的质量进行评价，具体包括：根据相匹配的问答记录中对应于相同类别下的问答记录，并根据相匹配的问答记录中的问题词语和答案词语之间的语义相关度，得到待分析的问答对针对各个类别的相关联程度；选取上述该待分析的问答对针对各个类别的相关联程度的最大值，根据该最大值的大小对待分析的问答对进行评价。

在具体计算根据问答知识库QAWordNet计算待评价问答对的问题和答案的相关联程度时，可以采用如下算法：

为了更清楚地说明本申请的技术方案，下面列举一个实例进行详细说明。该实例为对表1所示的问答对进行评价。

表1待评价的问答对

第一步：通过分词技术处理，获取待评价问答对的问题内容中的词语和答案内容中的词语，得到问题和答案中的词语如表2所示：

从分词结果可以看出，问题和答案中没有相关词覆盖，因此现有技术会认为该问答对没有语义相关度，最终将其分为一个低质量的问答对。

表2对待评价的问答对进行分词处理

第二步，根据表2中问题词语，从问答知识库中选取与表2中问题内容中的词语和答案内容中的词语均相匹配的问答记录，具体如表3所示。表3中的数值为相关联的答案词语与问题词语在类别为医疗健康下的语义相关度。

表3问题词语和相关联的答案词语

由表3可以看出，出现在的相关联的答案词语有[口服，咳喘，小儿感冒颗粒，检查，止咳，治疗，流感症状，感冒颗粒]。

第三步，根据[口服，咳喘，小儿感冒颗粒，检查，止咳，治疗，流感症状，感冒颗粒]与表3中的问题词语的语义相关度，得到待分析的问答对针对类别医疗健康的相关联程度；根据相关联程度的取值，对问答对的质量进行评价。经过问答对计算可以得出，该问答对的相关联程度的取值达到了0.9(相关联程度的取值范围为0-1)。因此可以看出本申请可以很好的解决这类无相关词覆盖但语义相似度很高的问答对。

上述几个实施例皆为本申请的方法实施例，相应地，本申请还提供了一种评价问答对质量的装置实施例，具体见图4，包括：获取模块21，选取模块22和评价模块23，其中：

所述获取模块21，可以用于获取待评价问答对的问题内容中的词语和答案内容中的词语；

所述选取模块22，可以用于从问答知识库中选取与获取到的问题内容中的词语和答案内容中的词语均相匹配的问答记录；

所述评价模块23，可以用于根据相匹配的问答记录中的问题词语和答案词语之间的语义相关度，对问答对的质量进行评价。

本装置实施例工作时，选取模块22根据获取模块21获取到的问题内容中的词语和答案内容中的词语，从问答知识库中选取与问题内容中的词语和答案内容中的词语均相匹配的问答记录，其中，一条问答记录包括一个问题词语、与所述问题词语相关联的多个答案词语，以及每个答案词语分别和所述问题词语之间的语义相关度；评价模块23根据相匹配的问答记录中的问题词语和答案词语之间的语义相关度，对问答对的质量进行评价，相对于现有技术中仅仅根据待评价的问题和答案的相关词覆盖特征来评价问答对质量，提高评价的准确性。

另外，选取模块22具体包括有匹配单元，其中：匹配单元可以用于将获取到的问题内容中的词语与问答记录中的问题词语相匹配，如果匹配成功，则标记该问答记录；然后将将获取到的答案内容中的词语与标记的问答记录中的答案词语相匹配，如果匹配成功，则选取该问答记录。

上述提到问答知识库，相应的，上述装置实施例还可以包括问答知识库创建模块，其中：所述问答知识库创建模块，可以用于预先提取出多个问答对，并获取每个问答对对应的类别，构建包含有多条问答记录的问答知识库。

所述评价模块23具体包括有评价单元，其中：所述评价单元，用于根据相匹配的问答记录中对应于相同类别下的问答记录，并根据相匹配的问答记录中的问题词语和答案词语之间的语义相关度，得到待分析的问答对针对各个类别的相关联程度；选取上述该待分析的问答对针对各个类别的相关联程度的最大值，根据该最大值的大小对待分析的问答对进行评价。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种评价问答对质量的方法，其特征在于，包括：

获取待评价问答对的问题内容中的词语和答案内容中的词语；

从问答知识库中选取与获取到的问题内容中的词语和答案内容中的词语均相匹配的问答记录，其中，一条问答记录包括一个问题词语、与所述问题词语相关联的多个答案词语，以及每个答案词语分别和所述问题词语之间的语义相关度；

根据相匹配的问答记录中的问题词语和答案词语之间的语义相关度，对问答对的质量进行评价。

2.根据权利要求1所述的方法，其特征在于，从问答知识库中选取与获取到的问题内容中的词语和答案内容中的词语均相匹配的问答记录，具体包括：

3.根据权利要求1所述的方法，其特征在于，获取待评价问答对的问题内容中的词语和答案内容中的词语之前，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，构建包含有多条问答记录的问答知识库，具体包括：

对每一条信息记录，执行以下操作：

令该问题词语，多个答案词语和多个答案词语中的每个答案词语和所述问题词语之间的语义相关度形成一条对应于所述类别的问答记录。

5.根据权利要求4所述的方法，其特征在于，

计算该答案词语属于该类别的概率，具体包括：

P (C_{k} | {AW}_{j}) = P ({AW}_{j} | C_{k}) * \frac{P (C_{k})}{P ({AW}_{j})}

s p e c i f i c ({QW}_{i}, {AW}_{j} | C = C_{k}) = P ({QW}_{i} | {AW}_{j}, C = C_{k}) = \frac{# ({QW}_{i}, {AW}_{j})}{# ({AW}_{j})} | C = C_{k}

int e r p r e t ({QW}_{i}, {AW}_{j} | C = C_{k}) = P ({AW}_{j} | {QW}_{i}, C = C_{k}) = \frac{# ({QW}_{i}, {AW}_{j})}{Σ_{j = 1}^{x} # ({QW}_{i}, {AW}_{j})} | C = C_{k}

将概率、专一程度和强度相乘，具体包括：

其中：

P(C_k|AW_j)为答案词语AW_j属于类别C_k的概率；

6.根据权利要求5所述的方法，其特征在于，根据相匹配的问答记录中的问题词语和答案词语之间的语义相关度，对问答对的质量进行评价，具体包括：

7.一种评价问答对质量的装置，其特征在于，包括：获取模块，选取模块和评价模块，其中：

8.根据权利要求7所述的装置，其特征在于，所述选取模块具体包括有匹配单元，其中：

9.根据权利要求7所述的装置，其特征在于，所述装置还包括问答知识库创建模块，其中：

10.根据权利要求9所述的装置，其特征在于，所述评价模块具体包括有评价单元，其中：