CN104504583A

CN104504583A - 分类器的评价方法

Info

Publication number: CN104504583A
Application number: CN201410823063.7A
Authority: CN
Inventors: 徐诚浪; 武鹏程
Original assignee: GUANGZHOU VIP NETWORK TECHNOLOGY Co Ltd
Current assignee: Guangzhou Pinwei Software Co Ltd
Priority date: 2014-12-22
Filing date: 2014-12-22
Publication date: 2015-04-08
Anticipated expiration: 2034-12-22
Also published as: CN104504583B

Abstract

本发明涉及分类器的评价方法，其包括：获取分类器输出的数据，以形成评估数据集；根据以下公式一对评估数据集进行处理，以得到第一评价值；公式一：输出所述第一评价值。本发明采用基于ROC曲线下的AUC评价方法可以更加直观展现评价结果，甚至用肉眼就能判断分类器的性能好坏。

Description

分类器的评价方法

技术领域

本发明涉及计算机程序，具体涉及分类器的评价方法。

背景技术

目前，一些电子商务网站或移动端具有个性化推荐系统，个性化推荐是根据用户的兴趣特点和购买行为，向用户推荐用户感兴趣的信息和商品。随着电子商务网站或移动端的注册用户规模的不断扩大，商品个数和种类快速增长，顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题，个性化推荐系统应运而生。它是建立在海量数据挖掘基础上，以帮助顾客购物提供完全个性化的决策支持和信息服务，它为客户推荐商品，自动完成个性化选择商品的过程，满足客户的个性化需求。

实现个性化推荐的功能，底层技术中除了应用大量的规则外,模型也扮演着十分关键，它能对用户的订单数据或销售额数据等原始数据进行特征提取、目标函数设计和训练，产出最终能最大程度反映特定用户的爱好、心理、购买习惯及行为的排序模型(即采用分类器实现)。在训练过程中，如何评判一个模型的好坏至关重要，即模型可解释性。好的排序模型能带给用户方便舒适及愉悦感，相反，坏的排序模型往往给用户很差的体验导致用户的粘性不足，在充满竞争的电商行业里排序模型的好坏带来的结果更是明显。那如何更好评估一个模型的好坏呢？

目前的评估方法有以下几种：

在机器学习及检索领域中对分类器的分类效果的评估，常见有准确率(precision),召回率(Recall),精确度(accuracy)，PR(precision-recall)以及F值(F-Measure)等评价指标。

1、准确率与召回率(Precision&Recall)

准确率和召回率是广泛用于信息检索和统计学分类领域的两个度量值，用来评价结果的质量。其中准确率是检索出相关文档数与检索出的文档总数的比率，衡量的是检索系统的查准率；召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率，衡量的是检索系统的查全率。

一般来说，Precision就是检索出来的条目(比如：文档、网页等)有多少是准确的，Recall就是所有准确的条目有多少被检索出来了。

正确率和召回率定义如下：

1.正确率＝提取出的正确信息条数/提取出的信息条数。

2.召回率＝提取出的正确信息条数/样本中的信息条数。

两者取值在0和1之间，数值越接近1，查准率或查全率就越高。

注意：准确率和召回率是互相影响的，理想情况下肯定是做到两者都高，但是一般情况下准确率高、召回率就低，召回率低、准确率高，当然如果两者都低，那是什么地方出问题了。一般情况，用不同的阀值，统计出一组不同阀值下的精确率和召回率。

2、综合评价指标(F-Measure)

Precision(P)和Recall(R)指标有时候会出现矛盾的情况，这样就需要综合考虑他们，最常见的方法就是F-Measure(又称为F-Score)。

F-Measure是Precision和Recall加权调和平均：

F = \frac{(a^{2} + 1) P * R}{a^{2} (P + R)},

当参数a＝1时，就是最常见的F1，也即：

F 1 = \frac{2 * P * R}{P + R},

可知F1综合了P和R的结果，当F1较高时则能说明试验方法比较有效。

3、分类器的精确度(accuracy)是反映了分类器统对整个样本的判定能力，在某些如推荐或信息获取领域还会组合使用precision-recall作为评价指标。

现实中样本在不同类别上的不均衡分布(class distributionimbalance problem)，使得准确率、精确率这样的传统的度量标准不能恰当的反应分类器的性能。举个例子：测试样本中有A类样本95个，B类样本5个。若某个分类器简单的将所有样本都划分成A类，那么在这个测试样本中，它的准确率仍为95％，这是不合理的，这时的评价结果是不具有参考价值的。此外，现代分类器很多都不是简单地给出一个0或1的分类判定，而是给出一个分类的倾向程度，比如贝叶斯分类器输出的分类概率。

上述评估方法(如准确率)对正负样本不均匀的数据集敏感性强、不稳定，甚至有的评估方法(如precision-recall)不便于并行计算且没有量纲不好度量。

发明内容

本发明的目的在于提出一种分类器的评价方法，其能解决数据不平衡的问题。

为了达到上述目的，本发明所采用的技术方案如下：

分类器的评价方法，其包括以下步骤：

步骤1、获取分类器输出的数据，以形成评估数据集；

步骤2、根据以下公式对评估数据集进行处理，以得到第一评价值；

auc = Σ_{i = 1}^{n 1} ({buy}_{i} + old_buy_{sum}_{i}) * no_{buy}_{i} / 2,

其中，auc为第一评价值；

n1为评估数据集的数据记录的总条数；

buy_i为第i条数据记录的商品的购买数；

old_buy_sum_i为第i条数据记录之前的所有商品的购买数之和；

no_buy_i＝total_show_i-buy_i，total_show_i为第i条数据记录的商品的曝光数；

步骤3、输出所述第一评价值。

优选的，所述步骤2还根据以下公式对评估数据集进行处理，以得到第二评价值和第三评价值；

wq_auc = \frac{Σ_{qid = 1}^{n 2} (total_{show}_{qid} * {auc}_{qid})}{Σ_{qid = 1}^{n 2} (total_{show}_{qid})},

q_quc = \frac{Σ_{qid = 1}^{n 2} {auc}_{qid}}{n 2},

其中，wq_auc为第二评价值；

q_auc为第三评价值；

n2为评估数据集中某个子样本的数据记录的总条数；

total_show_qid为子样本的第qid条数据记录的商品的曝光数；

{auc}_{qid} = Σ_{qid = 1}^{n 2} ({buy}_{qid} + old_buy_{sum}_{qid}) * no_{buy}_{qid} / 2,

buy_qid为所述某个子样本中的第qid条数据记录的商品的购买数；old_buy_sum_qid为所述某个子样本中的第qid条数据记录之前的所有商品的购买数之和；no_buy_qid＝total_show_qid-buy_qid，total_show_qid为所述某个子样本中的第qid条数据记录的商品的曝光数；

所述步骤3还包括以下步骤：输出所述第二评价值和第三评价值。

优选的，所述步骤2还根据以下公式对评估数据集进行处理，以得到第四评价值；

loss_sum = Σ_{i = 1}^{n} \log_{e} ({predict}_{i} * {buy}_{i}) + Σ_{i = 1}^{n} \log_{e} [(1 - {predict}_{i}) * (total_{show}_{i} - {buy}_{i})]

，其中，predict_i为第i条数据记录的商品的预测值，所述预测值用于对评估数据集中所有的数据记录进行排序；predict_i>10^-15，且1-predict_i>10^-15；

所述步骤3还包括以下步骤：输出所述第四评价值。

优选的，分类器的输入数据包括训练数据和测试数据，并且训练数据和测试数据之间不存在交叉的数据。

本发明具有如下有益效果：

采用基于ROC曲线下的AUC评价方法可以更加直观展现评价结果，甚至用肉眼就能判断分类器的性能好坏，利用AUC的值能直接分析出一个分类的倾向程度，因为在ROC空间中能展现出曲线下面积的大小，并且它不固定分类界值，允许中间状态存在。

本发明比传统评价方法总体来说更加稳定及准确：当评估数据集中的正负样本的分布变化的时候，ROC曲线能够保持不变，而传统评价方法存在敏感于类先验分布和错分代价。

附图说明

图1为本发明较佳实施例的分类器的评价方法的流程图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述。

为了解决现有技术的评价方法在评估过程出现的问题，而且考虑到当前很多分类器都不是简单地给出一个0或1的分类判定，而是给出一个分类的倾向程度的事实，比如贝叶斯分类器输出的分类概率。对于这些分类器，当取不同阈值，就可以得到不同的分类结果及分类器评价指标，因此，发明人经研究，提出用AUC(曲线包围面积)指标来衡量分类器的总体可信度的评价方法。因为ROC曲线(receiveroperating characteristic curve，受试者工作特征曲线)有个很好的特性：当测试集中的正负样本的分布变化的时候，ROC曲线能够保持不变。在实际的数据集中经常会出现类不平衡(class imbalance)现象，即负样本比正样本多很多(或者相反)，而且测试数据中的正负样本的分布也可能随着时间变化。

对一个给定的分类器和一个待分类样本，存在4种可能的分类结果，即正类被分为正类(正确肯定TP)﹑正类被误分为负类(错误否定FN)﹑负类被分为负类(正确否定TN)和负类被误分为正类(错误肯定FP)。由此形成所谓的混淆矩阵(ConfusionMatrix)。分类目标通常为最大化TP或TN占总样本数的比率,从而衍生出一系列分类性能的评价指标,如常用的精度、敏感度(Sensitivity)和特异性(Specificity)、反馈率(Recall)和精确率(Precision)等.

另一重要的衍生指标ROC曲线则源自于ROC空间，ROC空间是以错误肯定率(FalsePositiveRate，FPR)为横轴,以正确肯定率(TruePositiveRate，TPR)为纵轴形成的二维空间或坐标系，用来刻画TP和FP间的折衷关系。离散或二值输出的分类器对应于ROC空间中的单个点，其中对应左上角点的分类器性能优于对应右下角点的分类器，点(0,1)代表离散输出分类器的最优分类。而对于连续输出的分类器,可通过阈值的选择获得一系列离散输出的分类器,从而对应于ROC空间中的一条ROC曲线，其中位于左上角的ROC曲线所对应的分类器性能优于位于右下角的ROC曲线所对应的分类器,从点(0,0)沿纵轴至点(0,1)，再沿横轴至点(1,1)的ROC(曲)折线代表着连续输出分类器的最优分类。

然而上述ROC曲线间常存在交叉，单纯的“优于”或“支配(Dominate)”关系通常并不存在，自然无法相互比较，因此代之以用标量型的ROC曲线下的面积(AUC)来实现分类算法间的性能比较。

高值AUC对应好的分类性能，0.5对应随机猜测性能,1对应最优性能。同时，AUC仍保持ROC曲线的众多优点:能刻画分类算法的整体性能，独立于类先验分布、类错分代价以及分类阈值,并能刻画分类算法的概率或排序输出特性等。留下的关键问题便是如何计算AUC,对其精确计算通常较困难,为此分别采用基于参数假定、半参数假定和非参数假定的估计方法。在机器学习领域较常用的是非参数假定的AUC估计它在数值上等价于排序的统计。

基于上述理论基础，如图1所示，本实施例的分类器的评价方法的流程如下：

步骤S1、获取分类器输出的数据，以形成评估数据集。为了保证评价结果的准确性，分类器的输入数据包括训练数据和测试数据，并且训练数据和测试数据之间不存在交叉的数据。

评估数据集的数据结构可如下表所示：

id	predict	total_show	buy	qid
					1	9	5	4	11
2	8	5	3	21
					3	7	4	1	11

其中，id为数据记录的序号。

predict为对应商品的预测值，表示排序时的权重值，预测值越高，排得越靠前。

total_show为对应商品的曝光数。

buy为对应商品的购买数。

qid为数据样本的归类标识，如表中，数据记录1和数据记录3的qid均为11，那么，数据记录1和数据记录3可构成评估数据集里面的一个子样本。

步骤S2、根据公式一、公式二、公式三和公式四对评估数据集进行处理，以得到第一评价值、第二评价值、第三评价值和第四评价值。

公式一：

auc = Σ_{i = 1}^{n 1} ({buy}_{i} + old_buy_{sum}_{i}) * no_{buy}_{i} / 2

其中，auc为第一评价值，其针对整个评估数据集进行计算；

n1为评估数据集的数据记录的总条数；

buy_i为第i条数据记录的商品的购买数；

old_buy_sum_i为第i条数据记录之前的所有商品的购买数之和，例如，数据记录1的购买数是4，数据记录2的购买数是3，那么，

对于数据记录3而言，其old_buy_sum₃＝4+3＝7；

no_buy_i＝total_show_i-buy_i，total_show_i为第i条数据记录的商品的曝光数，即第i条数据记录的商品没有被购买的次数。

公式二：

wq_auc = \frac{Σ_{qid = 1}^{n 2} (total_{show}_{qid} * {auc}_{qid})}{Σ_{qid = 1}^{n 2} (total_{show}_{qid})},

公式三：

q_auc = \frac{Σ_{qid = 1}^{n 2} {auc}_{qid}}{n 2},

其中，wq_auc为第二评价值，q_auc为第三评价值，wq_auc和q_auc都是针对评估数据集中特定的子样本进行计算；

n2为评估数据集中某个子样本的数据记录的总条数，所述某个子样本中的所有数据记录的归类标识都相同；

total_show_qid为子样本的第qid条数据记录的商品的曝光数；

{auc}_{qid} = Σ_{qid = 1}^{n 2} ({buy}_{qid} + old_buy_{sum}_{qid}) * no_{buy}_{qid} / 2,

公式四：

loss_sum = Σ_{i = 1}^{n} \log_{e} ({predict}_{i} * {buy}_{i}) + Σ_{i = 1}^{n} \log_{e} [(1 - {predict}_{i}) * (total_{show}_{i} - {buy}_{i})]

步骤S3：输出第一评价值、第二评价值、第三评价值和第四评价值。第一评价值、第二评价值、第三评价值和第四评价值都是直观的数据，第一评价值、第二评价值、第三评价值和第四评价值分别越接近1，则表示分类器越好，本实施例能够直观的确定当前分类器的性能及可优化的空间。

本实施例中，公式二和公式三能够更好的体现曝光数对排序的影响。公式四为损失函数，可进一步完善的直观体现出分类器的性能。

本实施例具有如下特点：

1、AUC方法主要在模型评估方面解决了正负样本不平衡等问题，这种问题利用传统评价体系(准确率、召回率及F1等)会出现不合理的结果。

2、目前行业内很多分类器都不是简单地给出一个0或1的分类判定，而是给出一个分类的倾向程度的事实，对于这些分类器，当取不同阈值，就可以得到不同的分类结果及分类器评价指标。ROC曲线能将灵敏度与特异性以图示方法结合在一起，可准确反映某分析方法特异性和敏感性的关系。它不固定分类界值，允许中间状态存在。提供不同分类模型之间在共同特征下的直观的比较,传统评价指标在这方面具有局限性。

3、ROC曲线下面积能度量模型在整个类先验分布及错分代价范围内的总体分类性能、后验概率和排序性能，准确率(或总体错分率)等这样的传统评价指标存在诸如敏感于类先验分布和错分代价,忽略分类算法所得的后验概率或排序信息等不足。与此同时，行业内Charles等证明了ROC曲线下的面积(Area under the ROC Curve,AUC)与准确率的一致性并在总体上是一个比准确率更好的度量的方法。

对于本领域的技术人员来说，可根据以上描述的技术方案以及构思，做出其它各种相应的改变以及变形，而所有的这些改变以及变形都应该属于本发明权利要求的保护范围之内。

Claims

1.分类器的评价方法，其特征在于，包括以下步骤：

步骤1、获取分类器输出的数据，以形成评估数据集；

auc = Σ_{i = 1}^{n 1} ({buy}_{i} + old_buy_{sum}_{i}) * no_{buy}_{i} / 2,

其中，auc为第一评价值；

n1为评估数据集的数据记录的总条数；

buy_i为第i条数据记录的商品的购买数；

old_buy_sum_i为第i条数据记录之前的所有商品的购买数之和；

步骤3、输出所述第一评价值。

2.如权利要求1所述的评价方法，其特征在于，所述步骤2还根据以下公式对评估数据集进行处理，以得到第二评价值和第三评价值；

wq_auc = \frac{Σ_{qid = 1}^{n 2} (total_{show}_{qid} * {auc}_{qid})}{Σ_{qid = 1}^{n 2} (total_{show}_{qid})},

q_auc = \frac{Σ_{qid = 1}^{n 2} {auc}_{qid}}{n 2},

其中，wq_auc为第二评价值；

q_auc为第三评价值；

n2为评估数据集中某个子样本的数据记录的总条数；

total_show_qid为子样本的第qid条数据记录的商品的曝光数；

au c_{qid} = Σ_{qid = 1}^{n 2} ({buy}_{qid} + old_buy_{sum}_{qid}) * no_{buy}_{qid} / 2,

3.如权利要求1所述的评价方法，其特征在于，所述步骤2还根据以下公式对评估数据集进行处理，以得到第四评价值；

loss_sum = Σ_{i = 1}^{n} \log_{e} ({predict}_{i} * {buy}_{i}) + Σ_{i = 1}^{n} \log_{e} [(1 - {predict}_{i}) * (total_{show}_{i} - {buy}_{i})]

，其中，predict_i为第i条数据记录的商品的预测值，所述预测值用于对评估数据集中所有的数据记录进行排序；

所述步骤3还包括以下步骤：输出所述第四评价值。

4.如权利要求3所述的评价方法，其特征在于，predict_i>10^-15，且1-predict_i>10^-15。

5.如权利要求1所述的评价方法，其特征在于，分类器的输入数据包括训练数据和测试数据，并且训练数据和测试数据之间不存在交叉的数据。