CN103838730A

CN103838730A - 一种特征评价选择方法

Info

Publication number: CN103838730A
Application number: CN201210475431.4A
Authority: CN
Inventors: 牟向伟
Original assignee: DALIAN LINGDONG TECHNOLOGY DEVELOPMENT Co Ltd
Current assignee: DALIAN LINGDONG TECHNOLOGY DEVELOPMENT Co Ltd
Priority date: 2012-11-21
Filing date: 2012-11-21
Publication date: 2014-06-04

Abstract

本发明公开了一种特征评价选择方法，包括以下步骤：特征选择就是从原始的特征向量空间中选取出一个子集来代替原始的向量空间。本发明提出了一种新的局部特征集与全局特征集选择方法，允许每个局部特征集抽取一定数量的特征做为特征子集，再用所有的局部特征子集组合成最终的全局特征集。这种基于杂质能级的特征评价选择方法使用了统计机器学习的方法，可以有效地解决信息检索中存在的这一问题。

Description

一种特征评价选择方法

技术领域

本发明涉及一种个性化商品推荐技术，特别是一种特征评价选择方法。

背景技术

随着信息时代的到来及互联网革命，个人生活已经发生了翻天覆地的变化，人们开始越来越多地依赖互联网进行购物。然而，电子商务网站上商品的数量却以几何爆炸的速度在增长，而且用户的信息需求日趋多元化和个性化，不同的用户之间存在着明显的个性差异。要从信息海洋中迅速准备地找出自己需要的商品变得越来越困难。早期依赖于商品分类的电子商务网站已经不能满足用户需求。为了增加销售、增加用户满意度、增加竞争力和理论研究，电子商务商品推荐系统便应运而生。它研究的主要内容是如何解决从海量的商品和信息中高效的获得有用知识，动态的分析顾客的个性化需求，实时、主动的为顾客提供符合其偏好的商品，以及有效的提高推荐水平等问题。

传统的个性化商品推荐技术多种多样。但是都只适用于特定的情况：基于内容的推荐技术只需要特定用户的数据而不需要其它用户的数据，但是在用户的偏好发生变化的情况下不能适用；协同过滤推荐技术使用最近邻技术，根据其他用户与当前用户之间的距离，利用其他用户对商品的评价来预测目标用户对特定商品的喜好程度，但要求数据量比较大才好；基于效用和基于知识的推荐技术都着眼于为每个用户创建一个效用函数或者效用知识从而为目标用户来推荐商品，但是基于效用的技术很大程度上依赖于效用函数的选择，效果太不稳定；基于用户统计信息的推荐方法首先对用户的个人属性进行分类，然后根据用户分类的不同进行推荐。但事实上用户的信息统计资料是很难得到的。基于关联规则的推荐没有上述技术的那些局限。它可以依靠网站原有的记录为用户提供推荐，而且这些推荐不但可以满足用户的个性化偏好，还可以在一定程度上预测用户的购买行为。但是，由于关联规则没有考虑规则中各个项的先后次序，而用户访问网站的时候是有严格的先后次序的，因此基于关联规则的推荐技术是存在一定的不足。

发明内容

为解决现有技术存在的上述问题，本发明要设计一种允许服务对象按照需要设定知识规则、可以提供大部分领域信息系统的个性化服务并可以推荐出新的服务对象感兴趣资源的互联网的个性化服务方法。

为了实现上述目的，本发明的技术方案如下：一种特征评价选择方法，包括以下步骤：

A、信息增益

在信息检索领域，研究者使用TF，DF，TFIDF来确定特征的相关性。本论文把TFIDF定义为：

TE - IDF = TF * \log (\frac{N}{DF})

其中N是语料库中所有文章的数量。可见特征t在文章d中的TF值越大，而在语料库所有文章中出现的次数DF越少，TFIDF的值就会越大，则可以为特征t具有很好的区分能力适合用来计算文本相似度。

信息论中的方法考虑了某一特征在不同类别文章中的分布情况。使用最多的方法是信息增益(Information gain，IG)，它包括了特征在某一类别中出现和不出现这两种情况。本文采用如下的定义式：

IG (t, c) = P (t) P (c | t) \log (\frac{P (c | t)}{P (c)}) + P (\overset{&OverBar;}{t}) P (c | \overset{&OverBar;}{t}) \log (\frac{P (c | \overset{&OverBar;}{t})}{P (c)})

其中：P(t)表示文章d包含特征t的概率；P(c|t)表示包含特征t的文章d属于类别c的概率；

表示文章d不包含特征t的概率；表示不包含特征t的文章d属于类别c的概率。通常而言，IG(t,c)中各个事件的概率可以用其相应的频率来估算。(例如：概率P(t)用属于类别c且包含特征t的文章数量占语料库中文章总数的比率来估算)，条件概率P(c|t)=P(t|c)/P(t)。特征t与类别c的信息增益越大，说明特征t中包含的与类别c有关的鉴别信息就越多，当然应该选择信息增益值大的特征。

期望交叉熵(Expected cross entropy for text，CET)只包含了特征出现在某一类别中的情况。其数学表达式如下：

CET (t, c) = P (t) P (c | t) \log (\frac{P (c | t)}{P (c)})

χ²统计量(CHI-square statistic，CHI)方法的数学表达式如下：

S - χ^{2} (t, c) = P (t, c) \cdot P (\overset{&OverBar;}{t}, \overset{&OverBar;}{c}) - P (t, \overset{&OverBar;}{c}) \cdot P (\overset{&OverBar;}{t}, c)

这个概念来自联表检验，它可以用来衡量特征t和类别c之间的统计相关性。在此基础上，提出了一种更为简化的χ²统计量，被称为S-χ²。IG的性能要优于CET和S-χ²。

B、基于杂质能级的特征评价选择

这一类的方法来自于机器学习的领域，它们原本都是用来评价机器学习算法生成的规则质量的。为了能够将其应用到文本相似度计算的属性评价和选择上，本发明要对其进行适当的修改。定义一个组合(t，c)，规则是：如果文章d包含特征t，那么文章d就属于类别c，本文用t →c来描述。这样以来，评价特征t在类别c中的重要程度问题就转换为衡量规则t→c质量的问题。为了便于进行讨论，本文引入如下的符号：

A_t，c表示属于类别c且包含特征t的文章数量

B_t，c表示不属于类别c(或属于类别且包含特征t的文章数量

C_t，c表示属于类别c且不包含特征t的文章数量

D_t，c表示不属于类别c且不包含特征t的文章数量

通常而言，规则质量的衡量标准是规则在应用过程中的成功率和失败率。本发明使用最常见的拉普拉斯修正(Laplace correction)方法修改原始的成功率计算方法，把训练成功的数量加1除以训练实例的总数(包含失败的和成功的)加2所得的商作为新的成功率。计算方法如下：

L (t &RightArrow; c) = \frac{A_{t, c} + 1}{A_{t, c} + B_{t, c} + 2}

这个方法只考虑了出现特征t的文章。

其它的方法还有Johannes等人给出的一种差分法(Difference)的简化计算方法如下所述：

D(t→c)=A_t,c-B_t,c

它把包含特征t属于类别

的文章数量B_t，c作为包含特征t属于类别c的文章数量A_t，c的惩罚而减去，目的是为了在A_t，c和B_t，c之间建立一种平衡。

提出了利用杂质能级(Impurity level，IL)的衡量方法。该方法不仅考虑到了属于类别c且包含特征t的文章，而且还考虑了文章在所有类别的分布情况。为了讨论文章的分布问题，本文引入无条件规则的概念，符号为→c，它表示属于类别c的任意一篇文章。这个规则作为其它规则的一个参考。本文要利用规则使用的次数n和规则成功的次数m来计算规则t→c的杂质能级。已知规则t →c的成功率的前提下，可以先求出规则的置信区间(Confident interval)：

{CI}_{l, u} = \frac{2 \cdot n \cdot p + Z_{α / 2}^{2} + Z_{α / 2} \sqrt{Z_{α / 2} + 4 \cdot n \cdot p - 4 \cdot n \cdot p^{2}}}{2 (n + Z_{α / 2}^{2})}

其中Z是置信水平为1-α(本文中的α=5%)的标准正态分布的Z值；p是规则使用的成功率，如下所述：

p = \frac{m}{n} = \frac{A_{t, c}}{A_{t, c} + B_{t, c}}

因此，杂质能级就可以定义成规则t →c的置信区间和无条件规则→c的重合程度，如下公式所述：

IL (t &RightArrow; c) = \frac{{CI}_{u} (&RightArrow; c) - {CI}_{l} (t &RightArrow; c)}{{CI}_{u} (t &RightArrow; c) - {CI}_{l} (t &RightArrow; c)}

如果杂质能级的值小于零，则说明规则t→c的成功率要高于无条件规则→c，因此要选择杂质能级小的特征。上面的方法仅仅考虑了包含特征t的文章。如果再考虑属于类别c但是不包含特征t的那些文章的话，应该会有助于特征的评价和选择。本文就把这些信息添加进来，可以得到如下计算方法：

L_{e} (t &RightArrow; c) = \frac{A_{t, c} + 1}{A_{t, c} + B_{t, c} + C_{t, c} + 2}

D_e(t→c)=A_t,c-B_t,c-C_t,c

此时规则使用的成功率用公式可以描述如下：

P_{e} = \frac{A_{t, c}}{A_{t, c} + B_{t, c} + C_{t, c}}

相应的置信区间如下：

{CIe}_{l, u} = \frac{2 \cdot n \cdot p_{e} + Z_{α / 2}^{2} + Z_{α / 2} \sqrt{Z_{α / 2} + 4 \cdot n \cdot p_{e} - 4 \cdot n \cdot p_{e}^{2}}}{2 (n + Z_{α / 2}^{2})}

就能得到新的杂质能级，如下：

{IL}_{e} (t &RightArrow; c) = \frac{{CIe}_{u} (&RightArrow; c) - {CIe}_{l} (t &RightArrow; c)}{{CIe}_{u} (t &RightArrow; c) - {CIe}_{l} (t &RightArrow; c)}

还有一个局部特征集和全局的选择问题。局部特征集由出现在某一类别文章中的特征组成，而全局特征集是由参与训练的文章中出现的所有特征组成的。也就是说有多少个类别就会有多少个局部特征集，只会有一个全局特征集。本论文在计算所有词条评估分数的基础上，先从每个局部特征集抽取出一定数量的特征作为局部特征子集，再用所有的局部特征子集组合成供计算相似度使用的最终特征集(如果局部特征子集是取每个类别特征集的全集，那么最终特征集就是全局特征集)。

与现有技术相比，本发明具有以下有益效果：

1、由于本发明提出了一种新的局部特征集与全局特征集选择方法，允许每个局部特征集抽取一定数量的特征做为特征子集，再用所有的局部特征子集组合成最终的全局特征集，比之前的技术更为稳定。

2、本发明中提出的基于杂质能级的特征评价选择方法是基于统计机器学习方法的一种特征选择方法，比传统的K近邻方法或者子空间特征选择更加有效。

附图说明

本发明共有附图1张，其中：

图1是本发明的特征选择流程图；

具体实施方式

如图1所示基于杂质能级的特征评价选择方法来自于机器学习的领域，它们原本都是用来评价机器学习算法生成的规则质量的。为了能够将其应用到文本相似度计算的属性评价和选择上，本发明要对其进行适当的修改。定义一个组合(t，c)，规则是：如果文章d包含特征t，那么文章d就属于类别c，本文用t→c来描述。这样以来，评价特征t在类别c中的重要程度问题就转换为衡量规则t →c质量的问题。为了便于进行讨论，本文引入如下的符号：

A_t，c表示属于类别c且包含特征t的文章数量

B_t，c表示不属于类别c(或属于类别

且包含特征t的文章数量

C_t，c表示属于类别c且不包含特征t的文章数量

D_t，c表示不属于类别c且不包含特征t的文章数量

L (t &RightArrow; c) = \frac{A_{t, c} + 1}{A_{t, c} + B_{t, c} + 2}

这个方法只考虑了出现特征t的文章。

D(t→c)=A_t,c-B_t,c

它把包含特征t属于类别

提出了利用杂质能级(Impurity level，IL)的衡量方法。该方法不仅考虑到了属于类别c且包含特征t的文章，而且还考虑了文章在所有类别的分布情况。为了讨论文章的分布问题，本文引入无条件规则的概念，符号为→c，它表示属于类别c的任意一篇文章。这个规则作为其它规则的一个参考。本文要利用规则使用的次数n和规则成功的次数m来计算规则t→c的杂质能级。已知规则t→c的成功率的前提下，可以先求出规则的置信区间(Confident interval)：

{CI}_{l, u} = \frac{2 \cdot n \cdot p + Z_{α / 2}^{2} + Z_{α / 2} \sqrt{Z_{α / 2} + 4 \cdot n \cdot p - 4 \cdot n \cdot p^{2}}}{2 (n + Z_{α / 2}^{2})}

其中Z是置信水平为1-α(本文中的α＝5%)的标准正态分布的Z值；p是规则使用的成功率，如下所述：

p = \frac{m}{n} = \frac{A_{t, c}}{A_{t, c} + B_{t, c}}

因此，杂质能级就可以定义成规则t→c的置信区间和无条件规则→c的重合程度，如下公式所述：

IL (t &RightArrow; c) = \frac{{CI}_{u} (&RightArrow; c) - {CI}_{l} (t &RightArrow; c)}{{CI}_{u} (t &RightArrow; c) - {CI}_{l} (t &RightArrow; c)}

L_{e} (t &RightArrow; c) = \frac{A_{t, c} + 1}{A_{t, c} + B_{t, c} + C_{t, c} + 2}

D_e(t→c)=A_t,c-B_t,c-C_t,c

此时规则使用的成功率用公式可以描述如下：

P_{e} = \frac{A_{t, c}}{A_{t, c} + B_{t, c} + C_{t, c}}

相应的置信区间如下：

{CIe}_{l, u} = \frac{2 \cdot n \cdot p_{e} + Z_{α / 2}^{2} + Z_{α / 2} \sqrt{Z_{α / 2} + 4 \cdot n \cdot p_{e} - 4 \cdot n \cdot p_{e}^{2}}}{2 (n + Z_{α / 2}^{2})}

就能得到新的杂质能级，如下：

{IL}_{e} (t &RightArrow; c) = \frac{{CIe}_{u} (&RightArrow; c) - {CIe}_{l} (t &RightArrow; c)}{{CIe}_{u} (t &RightArrow; c) - {CIe}_{l} (t &RightArrow; c)}

Claims

1.一种特征评价选择方法，其特征在于：包括以下步骤：

A、信息增益

在信息检索领域，研究者使用TF，DF，TFIDF来确定特征的相关性；本论文把TFIDF定义为：

TE - IDF = TF * \log (\frac{N}{DF})

其中N是语料库中所有文章的数量；可见特征t在文章d中的TF值越大，而在语料库所有文章中出现的次数DF越少，TFIDF的值就会越大，则可以为特征t具有很好的区分能力适合用来计算文本相似度；

信息论中的方法考虑了某一特征在不同类别文章中的分布情况；使用最多的方法是信息增益，它包括了特征在某一类别中出现和不出现这两种情况；本文采用如下的定义式：

IG (t, c) = P (t) P (c | t) \log (\frac{P (c | t)}{P (c)}) + P (\overset{&OverBar;}{t}) P (c | \overset{&OverBar;}{t}) \log (\frac{P (c | \overset{&OverBar;}{t})}{P (c)})

表示文章d不包含特征t的概率；

表示不包含特征t的文章d属于类别c的概率；通常而言，IG(t,c)中各个事件的概率可以用其相应的频率来估算；，条件概率P(c|t)=P(t|c)/P(t)；特征t与类别c的信息增益越大，说明特征t中包含的与类别c有关的鉴别信息就越多，当然应该选择信息增益值大的特征；

期望交叉熵只包含了特征出现在某一类别中的情况；其数学表达式如下：

CET (t, c) = P (t) P (c | t) \log (\frac{P (c | t)}{P (c)})

χ²统计量方法的数学表达式如下：

S - χ^{2} (t, c) = P (t, c) \cdot P (\overset{&OverBar;}{t}, \overset{&OverBar;}{c}) - P (t, \overset{&OverBar;}{c}) \cdot P (\overset{&OverBar;}{t}, c)

这个概念来自联表检验，它可以用来衡量特征t和类别c之间的统计相关性；在此基础上，提出了一种更为简化的χ²统计量，被称为S-χ²；IG的性能要优于CET和S-χ²；

B、基于杂质能级的特征评价选择

这一类的方法来自于机器学习的领域，它们原本都是用来评价机器学习算法生成的规则质量的；为了能够将其应用到文本相似度计算的属性评价和选择上，本发明要对其进行适当的修改；定义一个组合(t，c)，规则是：如果文章d包含特征t，那么文章d就属于类别c，本文用t→c来描述；这样以来，评价特征t在类别c中的重要程度问题就转换为衡量规则t →c质量的问题；为了便于进行讨论，本文引入如下的符号：

A_t，c表示属于类别c且包含特征t的文章数量

B_t，c表示不属于类别c且包含特征t的文章数量

C_t，c表示属于类别c且不包含特征t的文章数量

D_t，c表示不属于类别c且不包含特征t的文章数量

通常而言，规则质量的衡量标准是规则在应用过程中的成功率和失败率；本发明使用最常见的拉普拉斯修正方法修改原始的成功率计算方法，把训练成功的数量加1除以训练实例的总数加2所得的商作为新的成功率；计算方法如下：

L (t &RightArrow; c) = \frac{A_{t, c} + 1}{A_{t, c} + B_{t, c} + 2}

这个方法只考虑了出现特征t的文章；

其它的方法还有Johannes等人给出的一种差分法的简化计算方法如下所述：

D(t→c)=A_t，c-B_t,c

它把包含特征t属于类别

的文章数量B_t，c作为包含特征t属于类别c的文章数量A_t，c的惩罚而减去，目的是为了在A_t，c和B_t，c之间建立一种平衡；

提出了利用杂质能级的衡量方法；该方法不仅考虑到了属于类别c且包含特征t的文章，而且还考虑了文章在所有类别的分布情况；为了讨论文章的分布问题，本文引入无条件规则的概念，符号为→c，它表示属于类别c的任意一篇文章；这个规则作为其它规则的一个参考；本文要利用规则使用的次数n和规则成功的次数m来计算规则t→c的杂质能级；已知规则t→c的成功率的前提下，可以先求出规则的置信区间：

{CI}_{l, u} = \frac{2 \cdot n \cdot p + Z_{α / 2}^{2} + Z_{α / 2} \sqrt{Z_{α / 2} + 4 \cdot n \cdot p - 4 \cdot n \cdot p^{2}}}{2 (n + Z_{α / 2}^{2})}

其中Z是置信水平为1-α的标准正态分布的Z值；p是规则使用的成功率，如下所述：

p = \frac{m}{n} = \frac{A_{t, c}}{A_{t, c} + B_{t, c}}

IL (t &RightArrow; c) = \frac{{CI}_{u} (&RightArrow; c) - {CI}_{l} (t &RightArrow; c)}{{CI}_{u} (t &RightArrow; c) - {CI}_{l} (t &RightArrow; c)}

如果杂质能级的值小于零，则说明规则t→c的成功率要高于无条件规则→c，因此要选择杂质能级小的特征；上面的方法仅仅考虑了包含特征t的文章；如果再考虑属于类别c但是不包含特征t的那些文章的话，应该会有助于特征的评价和选择；本文就把这些信息添加进来，可以得到如下计算方法：

L_{e} (t &RightArrow; c) = \frac{A_{t, c} + 1}{A_{t, c} + B_{t, c} + C_{t, c} + 2}

D_e(t→c)=A_t,c-B_t,c-C_t,c

此时规则使用的成功率用公式可以描述如下：

P_{e} = \frac{A_{t, c}}{A_{t, c} + B_{t, c} + C_{t, c}}

相应的置信区间如下：

{CIe}_{l, u} = \frac{2 \cdot n \cdot p_{e} + Z_{α / 2}^{2} + Z_{α / 2} \sqrt{Z_{α / 2} + 4 \cdot n \cdot p_{e} - 4 \cdot n \cdot p_{e}^{2}}}{2 (n + Z_{α / 2}^{2})}

就能得到新的杂质能级，如下：

{IL}_{e} (t &RightArrow; c) = \frac{{CIe}_{u} (&RightArrow; c) - {CIe}_{l} (t &RightArrow; c)}{{CIe}_{u} (t &RightArrow; c) - {CIe}_{l} (t &RightArrow; c)}

还有一个局部特征集和全局的选择问题；局部特征集由出现在某一类别文章中的特征组成，而全局特征集是由参与训练的文章中出现的所有特征组成的；也就是说有多少个类别就会有多少个局部特征集，只会有一个全局特征集；本论文在计算所有词条评估分数的基础上，先从每个局部特征集抽取出一定数量的特征作为局部特征子集，再用所有的局部特征子集组合成供计算相似度使用的最终特征集。