CN101609472B

CN101609472B - 一种基于问答平台的关键词评价方法和装置

Info

Publication number: CN101609472B
Application number: CN2009101626026A
Authority: CN
Inventors: 姜中博; 刘怀军; 方高林
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Shenzhen Shiji Guangsu Information Technology Co Ltd
Priority date: 2009-08-13
Filing date: 2009-08-13
Publication date: 2011-08-17
Anticipated expiration: 2029-08-13
Also published as: CN101609472A

Abstract

本发明公开了一种基于问答平台的关键词评价方法和装置，该方法包括以下步骤：使用特征选择算法获取关键词在问答平台的问答对中的特征信息；根据所述关键词的特征信息，通过权值计算公式获取所述关键词的具有区别度的权值，按照所述权值在类别间对所述关键词进行评价。本发明通过使用特征选择算法和权值计算公式获取关键词的具有区别度的权值，强化了关键词之间的差别，降低了问答平台中文字内容短和噪声大带来的对关键词评价的影响。

Description

一种基于问答平台的关键词评价方法和装置

技术领域

本发明涉及互联网技术领域，尤其涉及一种基于问答平台的关键词评价方法和装置。

背景技术

随着第二代互联网的逐渐成熟，用于互动交流的问答平台，越来越受到用户的欢迎。问答平台给用户提供了一个交流平台，用户可以通过问答平台接受专家和其他网民的帮助，同时也会尽力给其他网民提供有效的帮助，可广泛应用于行业知识库建设、垂直领域专家系统、行业交流网站问答板块、医学领域的医患交流、教育领域的师生交流等。专业的问答平台小到一个企业的客服，大到一个行业的专家知识库都逐渐体现了互动问答平台的价值。

问答平台集成了自动切分词、智能搜索和自动分类等一整套的自然语言处理和信息检索技术。有些特殊的问答平台还提供了如增加敏感词过滤(将涉及色情、政治等敏感词自动过滤)和舆情监控等功能模块。

具体地，问答平台可分为以下四个部分：(1)网页预处理部分，对所有网页进行正文提取，获取网页的标题文本以及其他网页指向该网页的链接文本信息；(2)索引部分，对全部文本信息分词和建立索引。(3)查询处理部分，实现对主题集的查询输入构造。(4)检索部分，实现对检索结果取出、排序和后处理。

在问答平台的应用过程中，需要对问答对中出现的关键词与各个类别之间的相关性进行评价，以便于用户更好地使用问答平台。现有技术中，一般使用TFIDF(Term Frequency Inverse Document Frequency，词频逆文档频率)方法或者按照词性重要度向关键词分配权值，关键词的具有区别度的权值越大，则关键词的类别相关性越高。

其中，TFIDF是一种自然语言处理中最基本的关键词权值计算方法，用于评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。TFIDF的主要思想为，如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TFIDF加权的各种形式常被搜寻引擎应用，作为文件与用户查询之间相关程度的度量或评级，TFIDF通常应用以下公式：

TFIDF (t) = TF (t) \times IDF (t) = TF (t) \times \log (\frac{N}{DF (t)})

其中，TF(t)为关键词在文本或者语料中出现的频率，该值越高，说明重要度越高；DF(t)为包含关键词的文档的频率，其值比较高，说明重要度越低；N为语料中的文档总数。

按照词性重要度分配权值的方法具体为，在自然语言处理中，一般认为名词、形容词和动词为比较重要的词性，并向具有上述词性的关键词分配较高的权值，而向具有其他词性的关键词分配较低的权值。

发明人在实现本发明的过程中，发现现有技术至少存在以下缺陷：

现有技术中，当使用TFIDF向关键词分配权值时，由于问答平台的问答对内的文字长度较短而大部分的关键词在问答对间的出现频率高，即问答对的文字长度明显短于网页，新闻等语料中的文字长度，而且除去停用词之后，大部分的关键词在问答对中的出现频度差异较小，此外，由于问答平台中的问答对来自于真实世界，导致问答平台中的噪声比例较高。对于具有上述文本特征的问答平台而言，TF和DF的作用都不够突出，甚至经常出现TF等于或者略大于DF的情况，无法对问答平台中的关键词与各个类别之间的相关性进行准确评价。

按照词性重要度分配权值时，由于不同词性仅能够在一定的程度上区分关键词之间的重要性，而对于关键词数量庞大、噪声比例较高的问答平台而言，少数的几个比较重要的词性难以准确地区分关键词之间的重要性差异。

发明内容

本发明提供了一种基于问答平台的关键词评价方法和装置，用于降低问答平台的噪声对关键词的相关性的影响。

本发明提供了一种基于问答平台的关键词评价方法，包括以下步骤：

使用特征选择算法获取关键词在问答平台的问答对中的特征信息；

根据所述关键词的特征信息，通过权值计算公式获取所述关键词的具有区别度的权值，按照所述权值在类别间对所述关键词进行评价；

所述特征选择算法包括卡方统计和信息熵；所述特征信息为卡方均值和熵值。

优选地，所述权值计算公式为

Wght (t) = \log (X_{avg}^{2} (t)) \times IDF (t) / Entropy (t)

其中，t为关键词，Wght(t)为所述关键词的具有区别度的权值，

为所述关键词在类别中的卡方均值，IDF(t)为所述关键词的逆文档频率，Entropy(t)为所述关键词与类别的熵值。

优选地，所述卡方统计的计算公式为：

X^{2} = Σ \frac{{(O_{ij} - E_{ij})}^{2}}{E_{ij}}

其中，X²为卡方值，O_ij为观测频度，E_ij为期望频度。

优选地，所述信息熵的计算公式为：

Entropy(t)＝-∑P(C_i|t)log(P(C_i|t))

其中，t为关键词，C_i为类别i，P(C_i|t)为t出现在C_i中的概率。

优选地，所述特征选择算法还包括平均互信息和信息增益。

本发明还提供了一种基于问答平台的关键词评价装置，包括：

特征获取模块，用于使用特征选择算法获取关键词在问答平台的问答对中的特征信息；

权值获取模块，与所述特征获取模块连接，用于根据所述特征获取模块获取的关键词的特征信息，通过权值计算公式获取所述关键词的具有区别度的权值，按照所述权值在类别间对所述关键词进行评价；

优选地，所述特征选择算法包括卡方统计和信息熵，所述特征信息为卡方均值和熵值；

所述特征获取模块，具体用于使用所述卡方统计和所述信息熵获取关键词在问答平台的问答对中的特征信息。

优选地，所述权值获取模块，具体用于通过以下权值计算公式获取所述关键词的具有区别度的权值：

Wght (t) = \log (X_{avg}^{2} (t)) \times IDF (t) / Entropy (t)

优选地，所述特征选择算法还包括平均互信息和信息增益，

所述特征获取模块，具体用于使用所述平均互信息和所述信息增益获取关键词在问答平台的问答对中的特征信息。

与现有技术相比，本发明具有以下优点：本发明通过特征选择算法和权值计算公式获取关键词的具有区别度的权值，强化了关键词之间的差别，降低了问答平台中文字内容短和噪声大带来的对关键词评价的影响。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对本发明或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明中的一种基于问答平台的关键词评价方法流程图；

图2为本发明中的基于问答平台的关键词评价的具体应用场景流程图；

图3为本发明中的一种基于问答平台的关键词评价装置结构示意图。

具体实施方式

本发明提供的技术方案中，其核心思想为针对问答平台的文本长度短、噪声高的特点，提出了一种利用特征选择算法和权值计算公式评价问答平台中的关键词的类别相关性的方法，避免了现有技术中的TFIDF和词性评价方法的缺点。通过对真实世界的问答平台的实验，本发明的方法可以简单、有效而健壮地评价关键词的类别相关性。

下面将结合本发明中的附图，对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，为本发明中的一种基于问答平台的关键词评价方法流程图，包括以下步骤：

步骤101，使用特征选择算法获取关键词在问答平台的问答对中的特征信息。

其中，特征选择算法可以包括卡方统计和信息熵，也可以包括平均互信息和信息增益，以及上述特征选择算法的各种组合，其中，平均互信息为互信息量I(X，Y)在联合概率空间P(XY)中的统计平均值，即事件Y对事件X的平均互信息量，而互信息(Mutual Information)是指两个事件集合之间的相关性，可以定义为：

I(X，Y)＝H(X)+H(Y)-H(X，Y)

其中，H(X)为事件X的熵值，H(Y)为事件Y的熵值，H(X，Y)为事件X和事件Y的联合熵。

另外，信息增益(Information Gain)是指期望信息或者信息熵的有效减少量(通常用“字节”衡量)，用于确定在什么样的层次上选择什么样的变量来分类。

步骤102，根据关键词的特征信息，通过权重计算公式获取该关键词的具有区别度的权值，按照该权值在类别间对关键词进行评价。

具体地，当步骤101中使用的特征选择算法为卡方统计和信息熵时，相应的权值计算公式为：

Wght (t) = \log (X_{avg}^{2} (t)) \times IDF (t) / Entropy (t)

其中，Wght(t)为关键词的具有区别度的权值，

为关键词在类别中的卡方均值，IDF(t)为关键词的逆文档频率，Entropy(t)为关键词与类别的熵值。

当上述特征选择算法为平均互信息和信息增益，以及上述特征选择算法的各种组合时，相应地，权值计算公式也可以进行适应性的调整，适当调整特征选择算法得到的值的比重，例如通过使用log、次方和常数因子等方式。

使用特征选择算法表示关键词与类别之间的相关性时，如果关键词与各个类别间都具有一定的相关性，则该关键词的类别相关性低，对于类别整体来说重要性较低，应该具有较低的权值；反之，如果关键词只与某几个类别的相关性大而与其他类别不相关，则该关键词的类别相关性高，应该具有较高的权值。

在根据所述权值确定所述关键词的类别相关性之后，还可以根据所述关键词的类别相关性对所述关键词进行分类。

本发明通过特征选择算法和权值计算公式获取问答平台中的关键词的具有区别度的权值，强化了关键词之间的重要性差异，降低了问答平台中文字内容短和噪声大带来的对关键词评价的影响，具备通用性和特定性。

以下结合具体的应用场景对本发明中的基于问答平台的关键词评价方法进行详细的描述。

如图2所示，为本发明中的基于问答平台的关键词评价的具体应用场景流程图，具体包括以下步骤：

步骤201，使用卡方统计和信息熵获取关键词在问答平台的问答对中的特征信息。

其中，卡方统计用于验证对比表中的观测频度和期望频度是否独立，当观测频度和期望频度之间差别很大时，可以否定独立的零假设。卡方值越大，两者的独立性越小，相关性越大。

卡方值可以通过以下公式计算得到：

X^{2} = Σ \frac{{(O_{ij} - E_{ij})}^{2}}{E_{ij}}

其中，X²为卡方值，O_ij为观测频度，E_ij为期望频度。

具体地，在文本处理中经常使用卡方统计的2×2表，如表1所示。

表1卡方统计的2×2表

	Class	～Class
			term	A	B
～term	C	D

其中，term为一个关键词，Class为一个类别，A表示类别Class中包含关键词term的文档数，B表示不属于类别Class但包含关键词term的文档数，C表示属于类别Class但不包含关键词term的文档数，D表示不属于类别Class也不包含关键词term的文档数。

对于卡方统计的2×2表，卡方值的计算公式可以简化为：

X^{2} = \frac{N {(AD - BC)}^{2}}{(A + B) (A + C) (D + B) (D + C)}

其中，X²为卡方值，N为文档总数。

以下通过举例，对上述公式进行详细说明：

假设在一个语料中，类别＝娱乐，关键词＝周杰伦，卡方统计的2×2表，如表2所示。

表2卡方统计的2×2表举例

	娱乐	～娱乐
			周杰伦	3421	1017
～周杰伦	75703	585068

则关键词的卡方值为：

此外，对于多类别问题，还可以进一步通过以下公式计算卡方均值：

{X^{2}}_{avg} (t) = Σ_{i = 1}^{m} P (C_{i}) X^{2} (t, C_{i})

其中，X² _avg(t)为卡方均值，P(C_i)为类别C_i的概率分布，X²(t，C_i)为关键词在类别C_i的卡方值。

另外，信息熵用于表示单个随机变量的不确定性的均值，随机变量的熵值越大，则不确定性越大，能正确估计该随机变量的概率越小。

关键词与类别的熵值的计算公式如下：

Entropy(t)＝-∑P(C_i|t)log(P(C_i|t))

步骤202，根据关键词的卡方值和熵值，通过权值计算公式获取该关键词的具有区别度的权值。

具体地，使用特征选择算法表示关键词与类别之间的相关性时，如果关键词与各个类别间都具有一定的相关性，则该关键词的类别相关性低，对于类别整体来说重要性较低，应该具有较低的权值；反之，如果关键词只与某几个类别的相关性大而与其他类别不相关，则该关键词的类别相关性高，应该具有较高的权值。

通过步骤201获取关键词的卡方均值和熵值后，可知关键词的卡方均值越大，则该关键词的类别相关性越高，应该具有较大的权值；关键词的熵值越大，则该关键词在类别间分布越均匀，即类别相关性越低，应该具有较小的权值。通过反复实验和分析问答平台的数据，可以确定权值计算公式为：

Wght (t) = \log (X_{avg}^{2} (t)) \times IDF (t) / Entropy (t)

其中，Wght(t)为关键词的具有区别度的权值，为关键词在类别中的卡方均值，IDF(t)为关键词的逆文档频率，Entropy(t)为关键词与类别的熵值。另外，

N为总的文档数，N(t)为包含关键词t的文档数。

需要说明的是，本发明方法可以根据实际需要对各个步骤顺序进行调整，本发明中的关键词可以为各种统计量，例如n-gram，包括bi-gram、tri-gram和trigger等。

本发明通过卡方统计和信息熵，以及对应的权值计算公式获取问答平台中的关键词的具有区别度的权值，强化了关键词之间的重要性差异，降低了问答平台中文字内容短和噪声大带来的对关键词评价的影响，具备通用性和特定性。

本发明在上述实施方式中提供了基于问答平台的关键词评价方法和应用场景，相应地，本发明还提供了应用上述基于问答平台的关键词评价方法的装置。

如图3所示，为本发明中的一种基于问答平台的关键词评价装置结构示意图，包括：

特征获取模块310，用于使用特征选择算法获取关键词在问答平台的问答对中的特征信息。

权值获取模块320，与特征获取模块320连接，用于根据特征获取模块320获取的关键词的特征信息，通过权值计算公式获取关键词的具有区别度的权值，按照该权值在类别间对关键词进行评价。

上述特征选择算法包括卡方统计和信息熵，上述特征获取模块310，具体用于使用所述卡方统计和所述信息熵获取关键词在问答平台的问答对中的特征信息。

卡方值可以通过以下公式计算得到：

X^{2} = Σ \frac{{(O_{ij} - E_{ij})}^{2}}{E_{ij}}

其中，X²为卡方值，O_ij为观测频度，E_ij为期望频度。

对于卡方统计的2×2表，卡方值的计算公式可以简化为：

X^{2} = \frac{N {(AD - BC)}^{2}}{(A + B) (A + C) (D + B) (D + C)}

其中，X²为卡方值，N为文档总数。

{X^{2}}_{avg} (t) = Σ_{i = 1}^{m} P (C_{i}) X^{2} (t, C_{i})

关键词与类别的熵值的计算公式如下：

Entropy(t)＝-∑P(C_i|t)log(P(C_i|t))

上述权值获取模块320，具体用于通过以下权值计算公式获取所述关键词的具有区别度的权值：

Wght (t) = \log (X_{avg}^{2} (t)) \times IDF (t) / Entropy (t)

其中，Wght(t)为所述关键词的具有区别度的权值，

上述特征选择算法还包括平均互信息和信息增益，以及上述特征选择算法的各种组合，其中，平均互信息为互信息量I(X，Y)在联合概率空间P(XY)中的统计平均值，即事件Y对事件X的平均互信息量，而互信息是指两个事件集合之间的相关性，可以定义为：

I(X，Y)＝H(X)+H(Y)-H(X，Y)

上述特征获取模块310，具体用于使用所述平均互信息和所述信息增益获取关键词在问答平台的问答对中的特征信息。

相应地，权值计算公式也可以进行适应性的调整，适当调整特征选择算法得到的值的比重，例如通过使用log、次方和常数因子等方式。

需要说明的是，本发明中的关键词可以为各种统计量，例如n-gram，包括bi-gram、tri-gram和trigger等。

本发明通过卡方统计和信息熵，以及对应的权值计算公式获取关键词的具有区别度的权值，强化了关键词之间的重要性差异，降低了问答平台中文字内容短和噪声大带来的对关键词评价的影响，具备通用性和特定性。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台终端设备(可以是手机，个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中，也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以集成于一体，也可以分离部署；可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上公开的仅为本发明的几个具体实施例，但是，本发明并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims

1.一种基于问答平台的关键词评价方法，其特征在于，包括以下步骤：

其中，所述特征选择算法包括卡方统计和信息熵；所述特征信息为卡方均值和熵值。

2.如权利要求1所述的方法，其特征在于，所述权值计算公式为

3.如权利要求1所述的方法，其特征在于，所述卡方统计的计算公式为：

其中，X²为卡方值，O_ij为观测频度，E_ij为期望频度。

4.如权利要求1所述的方法，其特征在于，所述信息熵的计算公式为：

Entropy(t)＝-∑P(C_i|t)log(P(C_i|t))

5.如权利要求1所述的方法，其特征在于，所述特征选择算法还包括平均互信息和信息增益。

6.一种基于问答平台的关键词评价装置，其特征在于，包括：

其中，所述特征选择算法包括卡方统计和信息熵，所述特征信息为卡方均值和熵值；

7.如权利要求6所述的装置，其特征在于，

所述权值获取模块，具体用于通过以下权值计算公式获取所述关键词的具有区别度的权值：

8.如权利要求6所述的装置，其特征在于，所述特征选择算法还包括平均互信息和信息增益，