CN108388929A - 基于代价敏感和半监督分类的客户分类方法及装置 - Google Patents

基于代价敏感和半监督分类的客户分类方法及装置 Download PDF

Info

Publication number
CN108388929A
CN108388929A CN201810258062.0A CN201810258062A CN108388929A CN 108388929 A CN108388929 A CN 108388929A CN 201810258062 A CN201810258062 A CN 201810258062A CN 108388929 A CN108388929 A CN 108388929A
Authority
CN
China
Prior art keywords
data set
sample
class label
label data
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810258062.0A
Other languages
English (en)
Inventor
肖进
刘潇潇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN201810258062.0A priority Critical patent/CN108388929A/zh
Publication of CN108388929A publication Critical patent/CN108388929A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于代价敏感和半监督分类的客户分类方法及装置,其中方法包括:获取有类别标签数据集L、无类别标签数据集U和测试集Test;对有类别标签数据集L和无类别标签数据集U采用随机子空间法训练N个基本分类模型CS;分别使用所述N个基本分类模型CS对测试集Test中的样本进行分类,得到N个中间分类结果R1,R2,…,RN;对N个中间分类结果R1,R2,…,RN使用多数投票集成得到最终分类结果。本发明将代价敏感学习、半监督学习和随机子空间相结合,既能够使用代价敏感学习较好地处理类别不平衡的数据,又能够使用半监督学习将无类别标签样本中包含的大量信息加以利用,同时还能利用随机子空间提高模型的目标客户选择性能,从而具有更好的目标客户选择性能。

Description

基于代价敏感和半监督分类的客户分类方法及装置
技术领域
本发明涉及客户分类技术领域,特别是涉及一种基于代价敏感和半监督分类的客户分类方法及装置。
背景技术
随着大数据时代的来临,企业掌握的客户数据越来越多,同时企业的营销理念也从过去的“以产品为中心”向“以客户为中心”转变。由于传统营销手段具有低效率,高成本等弊端,客户响应率持续下降,企业的资金回收率也随之降低,因此是否具有高效的营销手段并能从海量客户数据中快速挖掘出客户多样化和个性化需求的能力,成为企业制胜的法宝。为了实现这一目的,一些企业开始将数据库营销(database marketing)作为强有力的手段来提高自身营销活动的有效性和针对性。不同于传统的直接营销手段,数据库营销是利用客户数据库,通过更有效的获得,保持和发展客户,以提高营销效率的技术。利用客户的多项相关信息来建立目标客户选择模型,如身份信息、消费偏好和历史购买记录等,进而预测哪些客户更有可能会对企业的营销手段做出响应。作为数据库营销中最重要的问题之一,目标客户选择建模用于从潜在客户中识别出企业的目标客户,即对企业营销手段最可能做出响应的客户,从而帮助企业制定营销战略。研究表明,运用目标客户选择建模的企业可有效增加收益,提高客户响应率,同时降低成本,提升客户亲密度。
在目标客户选择领域,不同类别客户的错分代价相差很大,误分一个会响应的少数类客户给企业造成的损失往往要比误分一个不响应的多数类客户的损失大很多。如果把一个不响应的客户误分成响应的客户给企业造成的损失仅仅是很少的邮寄相关宣传资料的营销费用,而如果把一个响应的客户误分成不响应的客户,那么企业就不会对该客户邮寄宣传资料,从而失去该客户因购买了产品或服务而给企业带来的利润。
目标客户选择建模实质上是属于客户分类的范畴,即将客户分为两类:一类是对企业产品的营销宣传活动(如发送邮件或者短信等)做出响应,进而购买产品的客户;另一类是对企业产品的营销宣传活动不响应的客户。目前,常用的目标客户选择模型主要包括人工神经网络(artificial neural networks,ANN)、决策树、Logistic回归、贝叶斯分类器、遗传算法(genetic algorithm,GA)、数据分组处理(group method of data handling,GMDH)神经元网络和支持向量机(support vector machine,SVM)等。在现实的目标客户选择建模中,客户数据的类别分布往往是高度不平衡的,即会对企业的营销活动做出响应的客户比不响应的客户少很多。如果直接用这样的数据来训练模型,上述传统的分类模型对属于少数类的响应客户的分类精度要比属于多数类的不响应客户的分类精度低得多,甚至可能会将所有的客户预测为不响应的客户。然而,在目标客户选择建模中,我们最关心的是响应类客户的分类精度,因为这类客户的准确预测能够给企业带来更多的利润。因此,当客户数据类别分布不平衡时,传统的分类模型很难取得令人满意的目标客户选择性能。
为了解决这一问题,目前常用的方法是重抽样技术,如随机向上抽样(over-sampling)和随机向下抽样(under-sampling),来平衡训练集的类别分布,再训练分类模型。随机向上抽样是将多数类客户(不响应类客户)样本固定,从少数类客户(响应类客户)数据样本中随机有放回地抽取若干样本,直到与多数类客户的样本数相等。随机向下抽样是将少数类客户(响应类客户)数据样本固定,从多数类客户(不响应类客户)中随机无放回地抽取与少数类客户相同数目的样本。如Kang等使用随机向下抽样来提高目标客户选择模型性能。上述研究对目标客户选择建模都做出了重要贡献,但通过仔细分析,还存在以下不足:
1)重抽样技术存在缺陷。不管是随机向上抽样,还是随机向下抽样都存在不足之处,前者将导致少数类中重复样本太多,而后者得到的结果就是最终的训练集样本数量往往很少,它们均可能会影响目标客户选择建模的性能。
2)目前,国内外关于目标客户选择的研究大都采用监督式分类建模的研究范式,即仅使用原始含类别标签的训练集来训练分类模型,然后利用训练好的分类模型来预测新的客户样本的类别。事实上,在实际的目标客户选择建模时,企业往往只针对少量客户进行营销宣传活动,同时记录客户对其是否响应,从而将这部分客户赋予响应或不响应的类别标签。而剩下大量没有进行营销宣传的客户,由于无法判断其是否响应,因此无法标记它们的类别。此时,如果仍然采用监督式客户分类建模研究范式,即仅使用少量有类别标签的样本来建模,通常都会由于训练样本个数太少而造成过拟合,反而导致模型性能的下降。实际上,无类别标签的客户数据也可为构建模型提供有用信息。因此,如何有效地使用大量没有类别标签的数据提高模型的学习性能,是目标客户选择建模中亟待解决的问题。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于代价敏感和半监督分类的客户分类方法及装置,具有更好的目标客户选择性能。
本发明的目的是通过以下技术方案来实现的:基于代价敏感和半监督分类的客户分类方法,包括:
S1.获取有类别标签数据集L、无类别标签数据集U和测试集Test;
S2.对有类别标签数据集L和无类别标签数据集U采用随机子空间法训练N个基本分类模型CS;
S3.分别使用所述N个基本分类模型CS对测试集Test中的样本进行分类,得到N个中间分类结果R1,R2,...,RN
S4.对N个中间分类结果R1,R2,...,RN使用多数投票集成得到最终分类结果。
优选的,所述步骤S2包括:
S21.从无类别标签数据集U中选择性标记一部分样本加入到有类别标签数据集L中,并将这部分样品从无类别标签数据集U中剔除;
S22.使用随机子空间法从有类别标签数据集L中抽取一个特征子集,并映射得到一个训练子集,使用代价敏感的SVM训练得到一个基本分类模型CS;
S23.重复步骤S21和步骤S22,得到N个基本分类模型CS。
优选的,所述步骤S21包括:
S211.设定阈值k,阈值k表示想从无类别标签数据集U标记的样本占无类别标签数据集U中全部样本的百分比;计算选择性标记样本集Q与无类别标签数据集U的样本百分比b=size(Q)/m,size表示用来计算Q中样本个数的函数,m为无类别标签数据集U的初始样本个数,选择性标记样本集Q初始为空;
S212.判断样本百分比b与样本百分比k的大小,若b≤k,则执行步骤S213,若b>k,则执行步骤S22;
S213.使用随机子空间法从有类别标签数据集L中抽取三个特征子集,并映射得到三个训练子集,使用代价敏感的SVM训练得到三个中间分类模型CS';
S214.分别使用三个中间分类模型CS'来预测无类别标签数据集U中全部样本的类别标签,并将三个中间分类模型CS'预测一致的样本放置在候选集Uj中;若候选集Uj为空,则执行步骤S213,否则从候选集Uj中根据有类别标签数据集L中初始的正负样本比例选取概率输出值Probi1大于标记阈值θ1的正类样本和概率输出值Probi1小于标记阈值θ2的负类样本作为选择性标记样本添加到有类别标签数据集L和选择性标记样本集Q中,并将该选择性标记样本从无类别标签数据集U中剔除。
优选的,所述基于代价敏感和半监督分类的客户分类方法还包括设置基本分类模型CS的数量N、标记阈值θ1和标记阈值θ2的步骤。
优选的,所述标记阈值θ1的值为1,所述标记阈值θ2的值为-1。
基于代价敏感和半监督分类的客户分类装置,包括:
数据获取模块,用于取有类别标签数据集L、无类别标签数据集U和测试集Test;
随机子空间模块,用于对有类别标签数据集L和无类别标签数据集U采用随机子空间法训练N个基本分类模型CS;
分类模块,用于分别使用N个基本分类模型CS对测试集Test中的样本进行分类,得到N个中间分类结果R1,R2,...,RN
投票集成模块,用于对N个中间分类结果R1,R2,...,RN使用多数投票集成得到最终分类结果。
优选的,所述随机子空间模块包括:
样本选择性标记子模块,用于从无类别标签数据集U中选择性标记一部分样本加入到有类别标签数据集L中,并将这部分样品从无类别标签数据集U中剔除;
随机子空间子模块,用于使用随机子空间法从有类别标签数据集L中抽取一个特征子集,并映射得到一个训练子集,使用代价敏感的SVM训练得到一个基本分类模型CS。
优选的,所述样本选择性标记子模块的工作过程为:设定阈值k,阈值k表示想从无类别标签数据集U标记的样本占无类别标签数据集U中全部样本的百分比;计算选择性标记样本集Q与无类别标签数据集U的样本百分比b=size(Q)/m,size表示用来计算Q中样本个数的函数,m为无类别标签数据集U的初始样本个数,选择性标记样本集Q初始为空;判断样本百分比b与样本百分比k的大小,若b≤k,则使用随机子空间法从有类别标签数据集L中抽取三个特征子集,并映射得到三个训练子集,使用代价敏感的SVM训练得到三个中间分类模型CS';分别使用三个中间分类模型CS'来预测无类别标签数据集U中全部样本的类别标签,并将三个中间分类模型CS'预测一致的样本放置在候选集Uj中,若候选集Uj为空,则重复前一步骤,否则从候选集Uj中根据有类别标签数据集L中初始的正负样本比例选取概率输出值Probi1大于标记阈值θ1的正类样本和概率输出值Probi1小于标记阈值θ2的负类样本作为选择性标记样本添加到有类别标签数据集L和选择性标记样本集Q中,并将该选择性标记样本从无类别标签数据集U中剔除。
优选的,所述的基于代价敏感和半监督分类的客户分类装置还包括:参数设置模块,用于设置基本分类模型CS的数量N、标记阈值θ1和标记阈值θ2
优选的,所述标记阈值θ1的值为1,所述标记阈值θ2的值为-1。
本发明的有益效果是:本发明将代价敏感学习(cost sensitive learning,CSL)、半监督学习(semi-supervised learning,SSL)和多分类器集成中的随机子空间(randomsubspace,RSS)相结合,既能够使用代价敏感学习较好地处理类别不平衡的数据,也能够使用半监督学习将无类别标签样本中包含的大量信息加以利用,同时还能利用集成方法随机子空间进一步提高模型的目标客户选择性能,从而具有更好的目标客户选择性能。
附图说明
图1为本发明中基于代价敏感和半监督分类的客户分类方法的流程图;
图2为本发明中基于代价敏感和半监督分类的客户分类装置的示意图;
图3为七种模型在不同比例下的AUC值;
图4为U和L之比为1比1时七种模型的命中率;
图5为U和L之比为2比1时七种模型的命中率;
图6为U和L之比为3比1时七种模型的命中率;
图7为U和L之比为4比1时七种模型的命中率;
图8为U和L之比为5比1时七种模型的命中率;
图9为七种模型的洛伦兹曲线;
图10为U和L之比为1比1时七种模型的提升指数;
图11为U和L之比为2比1时七种模型的提升指数;
图12为U和L之比为3比1时七种模型的提升指数;
图13为U和L之比为4比1时七种模型的提升指数;
图14为U和L之比为5比1时七种模型的提升指数。
具体实施方式
下面将结合实施例,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有付出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
参阅图1-14,本发明提供一种基于代价敏感和半监督分类的客户分类方法及装置:
实施例一
如图1所示,基于代价敏感和半监督分类的客户分类方法,包括:
S1.获取有类别标签数据集L、无类别标签数据集U和测试集Test,无类别标签数据集U中的初始样本个数为m。
S2.对有类别标签数据集L和无类别标签数据集U采用随机子空间法训练N个基本分类模型CS。
所述步骤S2包括:
S21.从无类别标签数据集U中选择性标记一部分样本加入到有类别标签数据集L中,并将这部分样品从无类别标签数据集U中剔除。
所述步骤S21包括:
S211.设定阈值k,阈值k表示想从无类别标签数据集U标记的样本占无类别标签数据集U中全部样本的百分比;计算选择性标记样本集Q与无类别标签数据集U的样本百分比b=size(Q)/m,size表示用来计算Q中样本个数的函数,m为无类别标签数据集U的初始样本个数,选择性标记样本集Q初始为空。
S212.判断样本百分比b与样本百分比k的大小,若b≤k,则执行步骤S213,若b>k,则执行步骤S22。
S213.使用随机子空间法从有类别标签数据集L中抽取三个特征子集,并映射得到三个训练子集,使用代价敏感的SVM训练得到三个中间分类模型CS'(训练代价敏感的SVM使用文献[1]中的工具箱)。
S214.分别使用三个中间分类模型CS'来预测无类别标签数据集U中全部样本的类别标签,并将三个中间分类模型CS'预测一致的样本放置在候选集Uj中;若候选集Uj为空,则执行步骤S213,否则从候选集Uj中根据有类别标签数据集L中的正负样本比例选取概率输出值Probi1(这个值可以在运行LibSVM工具箱时,增加参数b得到,Probi1的计算可参考文献[1]:Chih-Chung Chang and Chih-Jen Lin.LibSVM--A Library for Support VectorMachines.https://www.csie.ntu.edu.tw/~cjlin/libsvm/)大于标记阈值θ1的正类样本和概率输出值Probi1小于标记阈值θ2的负类样本作为选择性标记样本添加到有类别标签数据集L和选择性标记样本集Q中,并将该选择性标记样本从无类别标签数据集U中剔除。
S22.使用随机子空间法从有类别标签数据集L中抽取一个特征子集,并映射得到一个训练子集,使用代价敏感的SVM训练得到一个基本分类模型CS。
S23.重复步骤S21和步骤S22,得到N个基本分类模型CS。
S3.分别使用所述N个基本分类模型CS对测试集Test中的样本进行分类,得到N个中间分类结果R1,R2,...,RN
S4.对N个中间分类结果R1,R2,...,RN使用多数投票集成得到最终分类结果。
所述基于代价敏感和半监督分类的客户分类方法还包括设置基本分类模型CS的数量N、标记阈值θ1和标记阈值θ2的步骤。
优选的,所述标记阈值θ1的值为1,所述标记阈值θ2的值为-1。
实施例二
如图2所示,基于代价敏感和半监督分类的客户分类装置,包括数据获取模块、随机子空间模块、分类模块和投票集成模块。
所述数据获取模块用于取有类别标签数据集L、无类别标签数据集U和测试集Test,无类别标签数据集U中的初始样本个数为m。
所述随机子空间模块用于对有类别标签数据集L和无类别标签数据集U采用随机子空间法训练N个基本分类模型CS。
所述随机子空间模块包括样本选择性标记子模块和随机子空间子模块。所述样本选择性标记子模块,用于从无类别标签数据集U中选择性标记一部分样本加入到有类别标签数据集L中,并将这部分样品从无类别标签数据集U中剔除。所述随机子空间子模块,用于使用随机子空间法从有类别标签数据集L中抽取一个特征子集,并映射得到一个训练子集,使用代价敏感的SVM训练得到一个基本分类模型CS。
所述样本选择性标记子模块的工作过程为:设定阈值k,阈值k表示想从无类别标签数据集U标记的样本占无类别标签数据集U中全部样本的百分比;计算选择性标记样本集Q与无类别标签数据集U的样本百分比b=size(Q)/m,size表示用来计算Q中样本个数的函数,m为无类别标签数据集U的初始样本个数,选择性标记样本集Q初始为空;判断样本百分比b与样本百分比k的大小,若b≤k,则使用随机子空间法从有类别标签数据集L中抽取三个特征子集,并映射得到三个训练子集,使用代价敏感的SVM训练得到三个中间分类模型CS';分别使用三个中间分类模型CS'来预测无类别标签数据集U中全部样本的类别标签,并将三个中间分类模型CS'预测一致的样本放置在候选集Uj中,若候选集Uj为空,则重复前一步骤,否则从候选集Uj中根据有类别标签数据集L中的正负样本比例选取概率输出值Probi1大于标记阈值θ1的正类样本和概率输出值Probi1小于标记阈值θ2的负类样本作为选择性标记样本添加到有类别标签数据集L和选择性标记样本集Q中,并将该选择性标记样本从无类别标签数据集U中剔除。
所述分类模块用于分别使用N个基本分类模型CS对测试集Test中的样本进行分类,得到N个中间分类结果R1,R2,...,RN
所述投票集成模块用于对N个中间分类结果R1,R2,...,RN使用多数投票集成得到最终分类结果。
所述的基于代价敏感和半监督分类的客户分类装置还包括:参数设置模块,用于设置基本分类模型CS的数量N、标记阈值θ1和标记阈值θ2
优选的,所述标记阈值θ1的值为1,所述标记阈值θ2的值为-1。
下面对本发明所提出的方法的性能进行验证(以CSSE模型代表本发明的方法)。验证实验运用2000年的CoIL预测竞赛(CoIL2000数据集)中Benchmark保险公司推销大篷车保险的真实数据来进行实证分析。该数据集包含9822个样本,每个客户样本包含86个变量,其中1-85个变量是描述客户信息的特征变量,第86个变量是响应变量,表示客户所属的类别标签,该数据集将全部客户划分为会对企业营销活动做出响应的少数类客户(正类)和不会做出响应的多数类客户(负类),且正负类样本比例为1:7.55,由此可知该数据集属于类别分布不平衡数据集。
为了进行实验分析,从数据集中随机抽取30%的样本作为测试集Test,然后将剩余70%的样本按照从1:1、1:2、1:3、1:4到1:5的比例分为初始的有类别标签数据集L、无类别标签数据集U,并且要保证有类别标签数据集L、无类别标签数据集U和测试集Test中正负类样本的比例与原始数据集相同。
由于本实验所使用的数据集的维度较高(包含85个属性),可能存在特征冗余的问题,而特征选择一方面有助于建立更易解释、具有更好泛化能力的目标客户选择模型,另一方面使用降维后的数据也可减少计算时间,从而降低时间成本。本实验采取Fisher Score算法在有类别标签数据集L上进行特征选择:首先分别计算每个特征的得分,然后根据特征的得分从高到低进行排序,最后选取排在前面30%的特征来构建目标客户选择模型。
CSSE模型运用了林智仁教授开发设计的libsvm工具箱,同时为了训练代价敏感的SVM,需要在建模阶段调整模型的参数使得模型在运行时发挥出最优分类性能。经过反复实验,对于初始的有类别标签数据集L的最优参数设置为:惩罚系数C=100,正类样本惩罚系数的加权值W1=100,负类样本惩罚系数加权值W2=10,t=2(核函数类型选择RBF核函数)。在CSSE模型中,θ1、θ2、N和k是四个重要参数,经过反复实验,当取θ1=1、θ2=-1、N=40和k=60%时能够取得较好的目标客户选择性能。
为了分析本CSSE模型的目标客户选择性能,将CSSE模型的性能与下面六种目标客户选择模型进行了比较:1)Ho提出的监督式集成模型(random subspace,RSS);2)Breiman提出的监督式集成模型Bagging;3)王娇等提出的基于RSS的单一半监督协同训练模型RASCO;4)苏艳等提出的基于动态RSS的单一半监督协同训练模型DRSCO;5)Hady和Schwenker提出的基于Bagging的半监督集成协同训练模型CoBag;6)Li等出的半监督式集成模型Semi-Bagging。对于这六种对比模型,我们选择传统的SVM作为基本分类算法,且基本分类器个数与CSSE模型中设置一样,N=40。说要说明的是,这六种模型都没有考虑类别分布不平衡对模型性能的影响,因此考虑到比较的公平性,本实验采用随机向上抽样来平衡数据集的类别分布,再构建相应的模型。此外,在RASCO模型中,有一个重要参数q,表示模型在每次循环中标记的样本个数,而在CoBag模型中也有一个重要参数θ,表示该模型在每次循环中标记的样本个数。通过反复实验,并以AUC值作为评价标准,我们发现当q=100,θ=200时,两个对比模型均可取得最优性能。
最后,每一种方法的分类结果均是取10次实验结果的平均值,所有实验均是在MATLABR2010b软件平台上编程实现。
为了对目标客户选择模型的性能进行评估,本文采用四个评价指标:
(1)AUC准则。由于现实的目标客户选择数据集的类别分布都是高度不平衡的,正负类样本比例差距较大,此时若选择总体分类精度作为评价指标并不太实用,而ROC(receiver operating characteristic)曲线恰好能够很好地评价面向类别不平衡的分类模型的性能。为了更好的说明ROC曲线,我们首先引入目标客户选择混淆矩阵,如表1所示。其中,TP表示正确分类的正类样本个数,FN代表实际为正类预测为负类的样本个数,FP指实际为负类预测为正类的样本个数,TN表示正确分类的负类样本个数。针对两类问题的ROC曲线是一个真正率——伪正率图,其中横坐标表示伪正率=FP/(FP+TN)×100%,纵坐标表示真正率=TP/(TP+FN)×100%。由于直接比较不同模型的ROC曲线比较困难,因此使用AUC(area under the ROC curve)值来评价模型性能。
表1目标客户选择混淆矩阵
(2)命中率。在现实的目标客户选择中,企业最关注的是会对企业营销行为做出响应的客户,因此命中率是一个常用的评价指标。首先使用模型预测得到测试集中所有客户做出响应的概率,然后依据概率将其从大到小进行排序,最后选择前面r%的客户作为目标客户。命中率的计算公式如下:
其中,N表示所有潜在的目标客户数,即测试集中样本个数,Nr表示根据模型选择的目标客户数,Nr(y=1)表示选择的目标客户中真正会响应的客户数。
(3)洛伦兹曲线(Lorenz Curve)。作为另一个常用于评价目标客户选择模型性能的准则,洛伦兹曲线能够线性直观的展示出各个模型的比较结果。它的横轴表示选出的目标客户占所有客户数的比例r%,纵轴表示选择比例为r%时与之对应的累计命中率。图中的对角线仅表示在不同比例下随机选取的目标客户对应的累计命中率,并不涉及任何模型的使用。当洛伦兹曲线越凸向左上角,即与对角线围成的面积越大,则说明该模型的目标客户选择性能越好。
(4)提升图(Lift Chart)。提升指数衡量的是与不利用模型相比,当我们使用目标客户选择模型时,对潜在客户的正确预测能力“提升”了多少。本实验所使用的数据集的客户响应率是6%,即在不使用模型时目标客户的命中率是6%,那么当我们选取r%的客户作为目标客户时,提升指数lift=Hit rate/6%。提升图的横轴表示将客户依据预测出的响应概率从大到小排序后抽取的客户比例,纵轴表示的是与之对应的提升指数(lift)。显然,提升指数越大表明模型的目标客户选择性能越好。
模型的AUC值比较。图3展示了CSSE模型与其它六种模型在CoIL2000上的AUC值,其中横坐标表示U和L中的样本比例从1:1变化到5:1。仔细分析图3,我们可以得到以下结论:
(1)CSSE模型在五种不同比例下均具有最大的AUC值,因此,CSSE模型的整体目标客户选择性能要优于其他六种模型。六种对比模型均采用随机向上抽样的方法来平衡数据集类别分布,但它们的AUC值均低于CSSE模型,这说明与这六种模型相比,CSSE模型可以更有效地解决目标客户选择数据集中存在的类别分布不平衡问题。AUC值通常被用于评价模型在类别分布不平衡数据集上的总体分类性能,CSSE模型在该评价指标上表现优异,这也说明了和已有的模型相比,CSSE模型将CSL、SSL和RSS方法进行融合确实具有更好的整体性能;
(2)在七种模型中,CSSE模型、DRSCO模型、CoBag模型、RASCO模型以及Semi-Bagging模型都属于半监督分类模型,而RSS模型和Bagging模型属于监督式分类模型。从图3中可以看出大多数半监督分类模型如CSSE、DRSCO和CoBag的AUC值均大于两种监督式分类模型RSS和Bagging。然而,也有一些半监督分类模型的目标客户选择性能比较差,如RASCO模型和两种监督式分类模型的AUC值不相上下,而Semi-Bagging模型的AUC值更是低于两种监督式分类模型的AUC值。这表明,在多数情况下从大量无类别标签的数据集中选择性标记一部分样本加入到训练集中,确实能够提高目标客户选择的性能。但是如果模型的选择性标记的机制不够合理,导致大量被错误标记类别的样本加入到训练集中,从而很难提高模型的性能,有时甚至会损害模型的目标客户选择性能;
(3)随着U和L中的样本比例不断增大,半监督分类模型中的CSSE模型、DRSCO模型和CoBag模型的AUC值虽然存在较小波动,但总体上保持较高水平并优于监督式分类模型RSS模型和Bagging模型,因为后面两种模型的AUC值大体上呈现出逐渐减小的趋势。特别地,对于CSSE模型,当U和L中的比例不断增大时,它的AUC值与监督式分类模型的AUC值的差距在逐渐变大。这表明,当数据集包含大量无类别标签的样本时,相比于传统的监督式分类模型,CSSE模型更具优势。
模型的命中率比较。图4-8给出了CSSE模型和其他六种对比模型的命中率,其中,(a)—(e)分别表示U和L中的样本比例从1:1变化到5:1的结果,同时,在每个子图中,我们还给出了目标客户选择比例(r%)从10%增加到50%时,各个模型的命中率比较。根据图4-8,我们可以得出以下结论:
(1)当U和L中的样本比例从1:1增加到5:1时,CSSE模型的命中率在各种不同的目标客户选择比例时均大于其他模型,这说明CSSE模型的目标客户选择性能是优于对比模型的;
(2)在每个子图中,随着目标客户选择比例的增加,各个模型的命中率虽然存在一些波动,但是总体上均表现出逐渐下降的趋势。分析其原因,可能是因为我们是根据每个模型预测得到的测试集中所有客户做出响应的概率从大到小进行排序,最后选择前面r%的客户作为目标客户。因此,目标客户选择比例越小,就越可能选中那些真正的响应客户,命中率自然相对就越高;
(3)大多数半监督式集成模型的命中率要高于2种监督式集成模型,而且随着U和L中的样本比例增大,半监督模型的命中率仍能保持在较高水平,而RSS模型和Bagging模型的命中率值则呈下降趋势,这说明当数据集包含大量无类别标签的样本时,半监督分类模型具有明显优势。分析其原因,可能是因为监督式模型只使用少量有类别标签的数据集L来建模,而半监督分类模型则能够同时使用L和大量无类别标签数据集U中的样本来建模。
模型的洛伦兹曲线比较。由于篇幅所限,我们仅给出了U和L中的样本的比例为5:1时七种不同分类模型的洛伦兹曲线,如图9所示。从图9中可以看出,当目标客户选择比例为10%、20%和30%时,CSSE模型的洛伦兹曲线均在其他模型的曲线上方,此时CSSE模型的累计命中率明显高于其他六种模型。在现实企业的目标客户选择问题中,企业的潜在客户通常很多,但由于营销预算的限制,我们往往只能选择排在前面的很小一部分的客户作为目标客户,从而向他们邮寄宣传资料,即目标客户选择的比例通常比较小。因此,与其它模型相比,CSSE模型可望在现实企业的目标客户选择中取得更好的性能。
模型的提升图比较分析。图10-14展示了CSSE模型和其他六种模型的提升指数,其中,(a)—(e)分别表示U和L中的样本比例从1:1变化到5:1的结果。同时,在每个子图中,我们还给出了目标客户选择比例(r%)从10%增加到100%时,各个模型的提升指数的比较。仔细分析图10-14,我们能够得出与模型的命中率比较部分类似的结论:
(1)当U和L中的样本比例从1:1增加到5:1时,CSSE模型的提升指数在不同的目标客户选择比例时均明显大于其他模型的,这说明CSSE模型具有最好的目标客户选择性能;
(2)在每个子图中,随着目标客户选择比例的增加,各个模型的提升指数虽然存在一些波动,但是总体上均表现出逐渐下降的趋势;
(3)大多数半监督式集成模型的提升指数要高于2种监督式集成模型,而且随着U和L中的样本比例增大,半监督模型的优势更加明显。
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (10)

1.基于代价敏感和半监督分类的客户分类方法,其特征在于,包括:
S1.获取有类别标签数据集L、无类别标签数据集U和测试集Test;
S2.对有类别标签数据集L和无类别标签数据集U采用随机子空间法训练N个基本分类模型CS;
S3.分别使用所述N个基本分类模型CS对测试集Test中的样本进行分类,得到N个中间分类结果R1,R2,...,RN
S4.对N个中间分类结果R1,R2,...,RN使用多数投票集成得到最终分类结果。
2.根据权利要求1所述的基于代价敏感和半监督分类的客户分类方法,其特征在于,所述步骤S2包括:
S21.从无类别标签数据集U中选择性标记一部分样本加入到有类别标签数据集L中,并将这部分样品从无类别标签数据集U中剔除;
S22.使用随机子空间法从有类别标签数据集L中抽取一个特征子集,并映射得到一个训练子集,使用代价敏感的SVM训练得到一个基本分类模型CS;
S23.重复步骤S21和步骤S22,得到N个基本分类模型CS。
3.根据权利要求2所述的基于代价敏感和半监督分类的客户分类方法,其特征在于,所述步骤S21包括:
S211.设定阈值k,阈值k表示想从无类别标签数据集U标记的样本占无类别标签数据集U中全部样本的百分比;计算选择性标记样本集Q与无类别标签数据集U的样本百分比b=size(Q)/m,size表示用来计算Q中样本个数的函数,m为无类别标签数据集U的初始样本个数,选择性标记样本集Q初始为空;
S212.判断样本百分比b与样本百分比k的大小,若b≤k,则执行步骤S213,若b>k,则执行步骤S22;
S213.使用随机子空间法从有类别标签数据集L中抽取三个特征子集,并映射得到三个训练子集,使用代价敏感的SVM训练得到三个中间分类模型CS';
S214.分别使用三个中间分类模型CS'来预测无类别标签数据集U中全部样本的类别标签,并将三个中间分类模型CS'预测一致的样本放置在候选集Uj中;若候选集Uj为空,则执行步骤S213,否则从候选集Uj中根据有类别标签数据集L中初始的正负样本比例选取概率输出值Probi1大于标记阈值θ1的正类样本和概率输出值Probi1小于标记阈值θ2的负类样本作为选择性标记样本添加到有类别标签数据集L和选择性标记样本集Q中,并将该选择性标记样本从无类别标签数据集U中剔除。
4.根据权利要求3所述的基于代价敏感和半监督分类的客户分类方法,其特征在于,所述基于代价敏感和半监督分类的客户分类方法还包括设置基本分类模型CS的数量N、标记阈值θ1和标记阈值θ2的步骤。
5.根据权利要求4所述的基于代价敏感和半监督分类的客户分类方法,其特征在于,所述标记阈值θ1的值为1,所述标记阈值θ2的值为-1。
6.基于代价敏感和半监督分类的客户分类装置,其特征在于,包括:
数据获取模块,用于取有类别标签数据集L、无类别标签数据集U和测试集Test;
随机子空间模块,用于对有类别标签数据集L和无类别标签数据集U采用随机子空间法训练N个基本分类模型CS;
分类模块,用于分别使用N个基本分类模型CS对测试集Test中的样本进行分类,得到N个中间分类结果R1,R2,...,RN
投票集成模块,用于对N个中间分类结果R1,R2,...,RN使用多数投票集成得到最终分类结果。
7.根据权利要求6所述的基于代价敏感和半监督分类的客户分类装置,其特征在于,所述随机子空间模块包括:
样本选择性标记子模块,用于从无类别标签数据集U中选择性标记一部分样本加入到有类别标签数据集L中,并将这部分样品从无类别标签数据集U中剔除;
随机子空间子模块,用于使用随机子空间法从有类别标签数据集L中抽取一个特征子集,并映射得到一个训练子集,使用代价敏感的SVM训练得到一个基本分类模型CS。
8.根据权利要求7所述的基于代价敏感和半监督分类的客户分类装置,其特征在于,所述样本选择性标记子模块的工作过程为:设定阈值k,阈值k表示想从无类别标签数据集U标记的样本占无类别标签数据集U中全部样本的百分比;计算选择性标记样本集Q与无类别标签数据集U的样本百分比b=size(Q)/m,size表示用来计算Q中样本个数的函数,m为无类别标签数据集U的初始样本个数,选择性标记样本集Q初始为空;判断样本百分比b与样本百分比k的大小,若b≤k,则使用随机子空间法从有类别标签数据集L中抽取三个特征子集,并映射得到三个训练子集,使用代价敏感的SVM训练得到三个中间分类模型CS';分别使用三个中间分类模型CS'来预测无类别标签数据集U中全部样本的类别标签,并将三个中间分类模型CS'预测一致的样本放置在候选集Uj中,若候选集Uj为空,则重复前一步骤,否则从候选集Uj中根据有类别标签数据集L中初始的正负样本比例选取概率输出值Probi1大于标记阈值θ1的正类样本和概率输出值Probi1小于标记阈值θ2的负类样本作为选择性标记样本添加到有类别标签数据集L和选择性标记样本集Q中,并将该选择性标记样本从无类别标签数据集U中剔除。
9.根据权利要求8所述的基于代价敏感和半监督分类的客户分类装置,其特征在于,所述的基于代价敏感和半监督分类的客户分类装置还包括:参数设置模块,用于设置基本分类模型CS的数量N、标记阈值θ1和标记阈值θ2
10.根据权利要求9所述的基于代价敏感和半监督分类的客户分类装置,其特征在于,所述标记阈值θ1的值为1,所述标记阈值θ2的值为-1。
CN201810258062.0A 2018-03-27 2018-03-27 基于代价敏感和半监督分类的客户分类方法及装置 Pending CN108388929A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810258062.0A CN108388929A (zh) 2018-03-27 2018-03-27 基于代价敏感和半监督分类的客户分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810258062.0A CN108388929A (zh) 2018-03-27 2018-03-27 基于代价敏感和半监督分类的客户分类方法及装置

Publications (1)

Publication Number Publication Date
CN108388929A true CN108388929A (zh) 2018-08-10

Family

ID=63072586

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810258062.0A Pending CN108388929A (zh) 2018-03-27 2018-03-27 基于代价敏感和半监督分类的客户分类方法及装置

Country Status (1)

Country Link
CN (1) CN108388929A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522973A (zh) * 2019-01-17 2019-03-26 云南大学 基于生成式对抗网络与半监督学习的医疗大数据分类方法及系统
CN109933619A (zh) * 2019-03-13 2019-06-25 西南交通大学 一种半监督分类预测方法
CN110232405A (zh) * 2019-05-24 2019-09-13 东方银谷(北京)科技发展有限公司 用于个人信用评估的方法及装置
CN111652130A (zh) * 2020-06-02 2020-09-11 上海语识信息技术有限公司 一种非特定字体的数字、符号和字母组的识别方法
CN112257767A (zh) * 2020-10-16 2021-01-22 浙江大学 针对类不均衡数据的产品关键零部件状态分类方法
CN112329838A (zh) * 2020-11-02 2021-02-05 上海明略人工智能(集团)有限公司 一种目标集合类别标签的确定方法和装置
CN112926701A (zh) * 2021-05-10 2021-06-08 北京人人云图信息技术有限公司 一种基于gcn半监督的航空乘客的分类方法和系统及其设备
CN115587120A (zh) * 2022-09-30 2023-01-10 杭州雅拓信息技术有限公司 一种用户数据处理方法和系统
CN111178897B (zh) * 2019-12-18 2023-08-08 浙江大学 在不平衡数据上快速特征学习的代价敏感的动态聚类方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040220837A1 (en) * 2003-04-30 2004-11-04 Ge Financial Assurance Holdings, Inc. System and process for a fusion classification for insurance underwriting suitable for use by an automated system
CN104318242A (zh) * 2014-10-08 2015-01-28 中国人民解放军空军工程大学 一种高效的svm主动半监督学习算法
CN105005790A (zh) * 2015-07-06 2015-10-28 西南大学 基于半监督学习的电子鼻室内毒气智能识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040220837A1 (en) * 2003-04-30 2004-11-04 Ge Financial Assurance Holdings, Inc. System and process for a fusion classification for insurance underwriting suitable for use by an automated system
CN104318242A (zh) * 2014-10-08 2015-01-28 中国人民解放军空军工程大学 一种高效的svm主动半监督学习算法
CN105005790A (zh) * 2015-07-06 2015-10-28 西南大学 基于半监督学习的电子鼻室内毒气智能识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
曹鹏: "不均衡数据分类方法的研究", 《中国博士学位论文全文数据库(电子期刊)》 *
肖进等: "客户信用评估半监督协同训练模型研究", 《中国管理科学》 *
黄静,薛书田,肖进: "基于半监督学习的客户信用评估集成模型研究", 《软科学》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522973A (zh) * 2019-01-17 2019-03-26 云南大学 基于生成式对抗网络与半监督学习的医疗大数据分类方法及系统
CN109933619A (zh) * 2019-03-13 2019-06-25 西南交通大学 一种半监督分类预测方法
CN110232405A (zh) * 2019-05-24 2019-09-13 东方银谷(北京)科技发展有限公司 用于个人信用评估的方法及装置
CN111178897B (zh) * 2019-12-18 2023-08-08 浙江大学 在不平衡数据上快速特征学习的代价敏感的动态聚类方法
CN111652130A (zh) * 2020-06-02 2020-09-11 上海语识信息技术有限公司 一种非特定字体的数字、符号和字母组的识别方法
CN111652130B (zh) * 2020-06-02 2023-09-15 上海语识信息技术有限公司 一种非特定字体的数字、符号和字母组的识别方法
CN112257767A (zh) * 2020-10-16 2021-01-22 浙江大学 针对类不均衡数据的产品关键零部件状态分类方法
CN112329838A (zh) * 2020-11-02 2021-02-05 上海明略人工智能(集团)有限公司 一种目标集合类别标签的确定方法和装置
CN112329838B (zh) * 2020-11-02 2024-02-02 上海明略人工智能(集团)有限公司 一种目标集合类别标签的确定方法和装置
CN112926701A (zh) * 2021-05-10 2021-06-08 北京人人云图信息技术有限公司 一种基于gcn半监督的航空乘客的分类方法和系统及其设备
CN115587120A (zh) * 2022-09-30 2023-01-10 杭州雅拓信息技术有限公司 一种用户数据处理方法和系统

Similar Documents

Publication Publication Date Title
CN108388929A (zh) 基于代价敏感和半监督分类的客户分类方法及装置
CN110245981B (zh) 一种基于手机信令数据的人群类型识别方法
CN103632168B (zh) 一种机器学习中的分类器集成方法
CN103218435B (zh) 一种中文文本数据聚类方法及系统
CN110110335A (zh) 一种基于层叠模型的命名实体识别方法
CN108009643A (zh) 一种机器学习算法自动选择方法和系统
CN108363810A (zh) 一种文本分类方法及装置
CN112613552B (zh) 一种结合情感类别注意力损失的卷积神经网络情感图像分类方法
CN106651057A (zh) 一种基于安装包序列表的移动端用户年龄预测方法
CN110415111A (zh) 基于用户数据与专家特征合并逻辑回归信贷审批的方法
CN105373606A (zh) 一种改进c4.5决策树算法下的不平衡数据抽样方法
CN105069534A (zh) 客户流失预测方法以及装置
CN107507038A (zh) 一种基于stacking和bagging算法的电费敏感用户分析方法
CN106776884A (zh) 一种基于多标签组合多分类器的恐怖行为预测方法
CN101398846A (zh) 基于局部颜色空间特征的图像语义概念检测的方法
CN103218405A (zh) 基于维数约简的集成迁移文本分类方法
CN102129568A (zh) 利用改进的高斯混合模型分类器检测图像垃圾邮件的方法
CN104850868A (zh) 一种基于k-means和神经网络聚类的客户细分方法
CN108241867A (zh) 一种分类方法及装置
CN112734161A (zh) 精准识别空壳企业的方法、设备和存储介质
CN111986027A (zh) 基于人工智能的异常交易处理方法、装置
CN107291722B (zh) 一种描述词的分类方法及设备
CN114676253A (zh) 一种基于机器学习算法的元数据分级分类方法
CN108388913A (zh) 一种基于约束投影的多决策树信用卡欺诈检测方法及系统
Yifan et al. Design and implementation of tourism activity recognition and discovery system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180810