发明内容
本发明提供了一种基于问答平台的关键词评价方法和装置,用于降低问答平台的噪声对关键词的相关性的影响。
本发明提供了一种基于问答平台的关键词评价方法,包括以下步骤:
使用特征选择算法获取关键词在问答平台的问答对中的特征信息;
根据所述关键词的特征信息,通过权值计算公式获取所述关键词的具有区别度的权值,按照所述权值在类别间对所述关键词进行评价;
所述特征选择算法包括卡方统计和信息熵;所述特征信息为卡方均值和熵值。
优选地,所述权值计算公式为
其中,t为关键词,Wght(t)为所述关键词的具有区别度的权值,
为所述关键词在类别中的卡方均值,IDF(t)为所述关键词的逆文档频率,Entropy(t)为所述关键词与类别的熵值。
优选地,所述卡方统计的计算公式为:
其中,X2为卡方值,Oij为观测频度,Eij为期望频度。
优选地,所述信息熵的计算公式为:
Entropy(t)=-∑P(Ci|t)log(P(Ci|t))
其中,t为关键词,Ci为类别i,P(Ci|t)为t出现在Ci中的概率。
优选地,所述特征选择算法还包括平均互信息和信息增益。
本发明还提供了一种基于问答平台的关键词评价装置,包括:
特征获取模块,用于使用特征选择算法获取关键词在问答平台的问答对中的特征信息;
权值获取模块,与所述特征获取模块连接,用于根据所述特征获取模块获取的关键词的特征信息,通过权值计算公式获取所述关键词的具有区别度的权值,按照所述权值在类别间对所述关键词进行评价;
优选地,所述特征选择算法包括卡方统计和信息熵,所述特征信息为卡方均值和熵值;
所述特征获取模块,具体用于使用所述卡方统计和所述信息熵获取关键词在问答平台的问答对中的特征信息。
优选地,所述权值获取模块,具体用于通过以下权值计算公式获取所述关键词的具有区别度的权值:
其中,t为关键词,Wght(t)为所述关键词的具有区别度的权值,
为所述关键词在类别中的卡方均值,IDF(t)为所述关键词的逆文档频率,Entropy(t)为所述关键词与类别的熵值。
优选地,所述特征选择算法还包括平均互信息和信息增益,
所述特征获取模块,具体用于使用所述平均互信息和所述信息增益获取关键词在问答平台的问答对中的特征信息。
与现有技术相比,本发明具有以下优点:本发明通过特征选择算法和权值计算公式获取关键词的具有区别度的权值,强化了关键词之间的差别,降低了问答平台中文字内容短和噪声大带来的对关键词评价的影响。
具体实施方式
本发明提供的技术方案中,其核心思想为针对问答平台的文本长度短、噪声高的特点,提出了一种利用特征选择算法和权值计算公式评价问答平台中的关键词的类别相关性的方法,避免了现有技术中的TFIDF和词性评价方法的缺点。通过对真实世界的问答平台的实验,本发明的方法可以简单、有效而健壮地评价关键词的类别相关性。
下面将结合本发明中的附图,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,为本发明中的一种基于问答平台的关键词评价方法流程图,包括以下步骤:
步骤101,使用特征选择算法获取关键词在问答平台的问答对中的特征信息。
其中,特征选择算法可以包括卡方统计和信息熵,也可以包括平均互信息和信息增益,以及上述特征选择算法的各种组合,其中,平均互信息为互信息量I(X,Y)在联合概率空间P(XY)中的统计平均值,即事件Y对事件X的平均互信息量,而互信息(Mutual Information)是指两个事件集合之间的相关性,可以定义为:
I(X,Y)=H(X)+H(Y)-H(X,Y)
其中,H(X)为事件X的熵值,H(Y)为事件Y的熵值,H(X,Y)为事件X和事件Y的联合熵。
另外,信息增益(Information Gain)是指期望信息或者信息熵的有效减少量(通常用“字节”衡量),用于确定在什么样的层次上选择什么样的变量来分类。
步骤102,根据关键词的特征信息,通过权重计算公式获取该关键词的具有区别度的权值,按照该权值在类别间对关键词进行评价。
具体地,当步骤101中使用的特征选择算法为卡方统计和信息熵时,相应的权值计算公式为:
其中,Wght(t)为关键词的具有区别度的权值,
为关键词在类别中的卡方均值,IDF(t)为关键词的逆文档频率,Entropy(t)为关键词与类别的熵值。
当上述特征选择算法为平均互信息和信息增益,以及上述特征选择算法的各种组合时,相应地,权值计算公式也可以进行适应性的调整,适当调整特征选择算法得到的值的比重,例如通过使用log、次方和常数因子等方式。
使用特征选择算法表示关键词与类别之间的相关性时,如果关键词与各个类别间都具有一定的相关性,则该关键词的类别相关性低,对于类别整体来说重要性较低,应该具有较低的权值;反之,如果关键词只与某几个类别的相关性大而与其他类别不相关,则该关键词的类别相关性高,应该具有较高的权值。
在根据所述权值确定所述关键词的类别相关性之后,还可以根据所述关键词的类别相关性对所述关键词进行分类。
本发明通过特征选择算法和权值计算公式获取问答平台中的关键词的具有区别度的权值,强化了关键词之间的重要性差异,降低了问答平台中文字内容短和噪声大带来的对关键词评价的影响,具备通用性和特定性。
以下结合具体的应用场景对本发明中的基于问答平台的关键词评价方法进行详细的描述。
如图2所示,为本发明中的基于问答平台的关键词评价的具体应用场景流程图,具体包括以下步骤:
步骤201,使用卡方统计和信息熵获取关键词在问答平台的问答对中的特征信息。
其中,卡方统计用于验证对比表中的观测频度和期望频度是否独立,当观测频度和期望频度之间差别很大时,可以否定独立的零假设。卡方值越大,两者的独立性越小,相关性越大。
卡方值可以通过以下公式计算得到:
其中,X2为卡方值,Oij为观测频度,Eij为期望频度。
具体地,在文本处理中经常使用卡方统计的2×2表,如表1所示。
表1卡方统计的2×2表
|
Class |
~Class |
term |
A |
B |
~term |
C |
D |
其中,term为一个关键词,Class为一个类别,A表示类别Class中包含关键词term的文档数,B表示不属于类别Class但包含关键词term的文档数,C表示属于类别Class但不包含关键词term的文档数,D表示不属于类别Class也不包含关键词term的文档数。
对于卡方统计的2×2表,卡方值的计算公式可以简化为:
其中,X2为卡方值,N为文档总数。
以下通过举例,对上述公式进行详细说明:
假设在一个语料中,类别=娱乐,关键词=周杰伦,卡方统计的2×2表,如表2所示。
表2卡方统计的2×2表举例
|
娱乐 |
~娱乐 |
周杰伦 |
3421 |
1017 |
~周杰伦 |
75703 |
585068 |
则关键词的卡方值为:
此外,对于多类别问题,还可以进一步通过以下公式计算卡方均值:
其中,X2 avg(t)为卡方均值,P(Ci)为类别Ci的概率分布,X2(t,Ci)为关键词在类别Ci的卡方值。
另外,信息熵用于表示单个随机变量的不确定性的均值,随机变量的熵值越大,则不确定性越大,能正确估计该随机变量的概率越小。
关键词与类别的熵值的计算公式如下:
Entropy(t)=-∑P(Ci|t)log(P(Ci|t))
其中,t为关键词,Ci为类别i,P(Ci|t)为t出现在Ci中的概率。
步骤202,根据关键词的卡方值和熵值,通过权值计算公式获取该关键词的具有区别度的权值。
具体地,使用特征选择算法表示关键词与类别之间的相关性时,如果关键词与各个类别间都具有一定的相关性,则该关键词的类别相关性低,对于类别整体来说重要性较低,应该具有较低的权值;反之,如果关键词只与某几个类别的相关性大而与其他类别不相关,则该关键词的类别相关性高,应该具有较高的权值。
通过步骤201获取关键词的卡方均值和熵值后,可知关键词的卡方均值越大,则该关键词的类别相关性越高,应该具有较大的权值;关键词的熵值越大,则该关键词在类别间分布越均匀,即类别相关性越低,应该具有较小的权值。通过反复实验和分析问答平台的数据,可以确定权值计算公式为:
其中,Wght(t)为关键词的具有区别度的权值,
为关键词在类别中的卡方均值,IDF(t)为关键词的逆文档频率,Entropy(t)为关键词与类别的熵值。另外,
N为总的文档数,N(t)为包含关键词t的文档数。
需要说明的是,本发明方法可以根据实际需要对各个步骤顺序进行调整,本发明中的关键词可以为各种统计量,例如n-gram,包括bi-gram、tri-gram和trigger等。
本发明通过卡方统计和信息熵,以及对应的权值计算公式获取问答平台中的关键词的具有区别度的权值,强化了关键词之间的重要性差异,降低了问答平台中文字内容短和噪声大带来的对关键词评价的影响,具备通用性和特定性。
本发明在上述实施方式中提供了基于问答平台的关键词评价方法和应用场景,相应地,本发明还提供了应用上述基于问答平台的关键词评价方法的装置。
如图3所示,为本发明中的一种基于问答平台的关键词评价装置结构示意图,包括:
特征获取模块310,用于使用特征选择算法获取关键词在问答平台的问答对中的特征信息。
权值获取模块320,与特征获取模块320连接,用于根据特征获取模块320获取的关键词的特征信息,通过权值计算公式获取关键词的具有区别度的权值,按照该权值在类别间对关键词进行评价。
上述特征选择算法包括卡方统计和信息熵,上述特征获取模块310,具体用于使用所述卡方统计和所述信息熵获取关键词在问答平台的问答对中的特征信息。
其中,卡方统计用于验证对比表中的观测频度和期望频度是否独立,当观测频度和期望频度之间差别很大时,可以否定独立的零假设。卡方值越大,两者的独立性越小,相关性越大。
卡方值可以通过以下公式计算得到:
其中,X2为卡方值,Oij为观测频度,Eij为期望频度。
对于卡方统计的2×2表,卡方值的计算公式可以简化为:
其中,X2为卡方值,N为文档总数。
此外,对于多类别问题,还可以进一步通过以下公式计算卡方均值:
其中,X2 avg(t)为卡方均值,P(Ci)为类别Ci的概率分布,X2(t,Ci)为关键词在类别Ci的卡方值。
另外,信息熵用于表示单个随机变量的不确定性的均值,随机变量的熵值越大,则不确定性越大,能正确估计该随机变量的概率越小。
关键词与类别的熵值的计算公式如下:
Entropy(t)=-∑P(Ci|t)log(P(Ci|t))
其中,t为关键词,Ci为类别i,P(Ci|t)为t出现在Ci中的概率。
上述权值获取模块320,具体用于通过以下权值计算公式获取所述关键词的具有区别度的权值:
其中,Wght(t)为所述关键词的具有区别度的权值,
为所述关键词在类别中的卡方均值,IDF(t)为所述关键词的逆文档频率,Entropy(t)为所述关键词与类别的熵值。
上述特征选择算法还包括平均互信息和信息增益,以及上述特征选择算法的各种组合,其中,平均互信息为互信息量I(X,Y)在联合概率空间P(XY)中的统计平均值,即事件Y对事件X的平均互信息量,而互信息是指两个事件集合之间的相关性,可以定义为:
I(X,Y)=H(X)+H(Y)-H(X,Y)
其中,H(X)为事件X的熵值,H(Y)为事件Y的熵值,H(X,Y)为事件X和事件Y的联合熵。
另外,信息增益(Information Gain)是指期望信息或者信息熵的有效减少量(通常用“字节”衡量),用于确定在什么样的层次上选择什么样的变量来分类。
上述特征获取模块310,具体用于使用所述平均互信息和所述信息增益获取关键词在问答平台的问答对中的特征信息。
相应地,权值计算公式也可以进行适应性的调整,适当调整特征选择算法得到的值的比重,例如通过使用log、次方和常数因子等方式。
使用特征选择算法表示关键词与类别之间的相关性时,如果关键词与各个类别间都具有一定的相关性,则该关键词的类别相关性低,对于类别整体来说重要性较低,应该具有较低的权值;反之,如果关键词只与某几个类别的相关性大而与其他类别不相关,则该关键词的类别相关性高,应该具有较高的权值。
需要说明的是,本发明中的关键词可以为各种统计量,例如n-gram,包括bi-gram、tri-gram和trigger等。
本发明通过卡方统计和信息熵,以及对应的权值计算公式获取关键词的具有区别度的权值,强化了关键词之间的重要性差异,降低了问答平台中文字内容短和噪声大带来的对关键词评价的影响,具备通用性和特定性。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台终端设备(可以是手机,个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。
本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以集成于一体,也可以分离部署;可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上公开的仅为本发明的几个具体实施例,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。