CN112288465A - 一种基于半监督聚类集成学习的客户细分方法 - Google Patents

一种基于半监督聚类集成学习的客户细分方法 Download PDF

Info

Publication number
CN112288465A
CN112288465A CN202011117305.2A CN202011117305A CN112288465A CN 112288465 A CN112288465 A CN 112288465A CN 202011117305 A CN202011117305 A CN 202011117305A CN 112288465 A CN112288465 A CN 112288465A
Authority
CN
China
Prior art keywords
clustering
samples
semi
client
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011117305.2A
Other languages
English (en)
Other versions
CN112288465B (zh
Inventor
孟明
庄栋
甘海涛
张肖辉
杨策程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202011117305.2A priority Critical patent/CN112288465B/zh
Publication of CN112288465A publication Critical patent/CN112288465A/zh
Application granted granted Critical
Publication of CN112288465B publication Critical patent/CN112288465B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Accounting & Taxation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Strategic Management (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于半监督聚类集成学习的客户细分方法,本发明首先收集客户的特征信息,将特征信息数字化,构建客户特征信息数据集;利用少量的标签样本来初始化聚类中心,并设置核模糊聚类算法的模糊度和高斯宽度两个参数,生成若干个差异性较大的基聚类;利用标签样本的聚类准确性来计算各基聚类的可信度;通过近邻法和各基聚类的可信度来构造质量函数;最后利用D‑S证据理论将质量函数进行证据融合,得到聚类结果。本发明将半监督集成学习引入到客户细分中,解决了算法参数敏感性的问题;利用了先验信息合理估计各基聚类的可信度,改变各基聚类在融合过程中所占的比重,解决了证据冲突问题,使得融合结果更加合理,提高了客户细分的准确性。

Description

一种基于半监督聚类集成学习的客户细分方法
技术领域
本发明属于生物特征分类领域,涉及一种基于D-S证据理论的半监督聚类集成学习的客户细分方法。
背景技术
近年来,随着大数据技术的发展,越来越多的企业将该技术运用到客户分类的应用中,即客户细分(Customer Segmentation)。客户细分是企业在明确的战略、业务模式和特定的市场中,根据客户的属性、偏好、行为、需要以及潜在价值等因素对客户进行分类,在此基础上提供具有针对性的产品、服务和营销方案。企业通过客户细分技术,将客户分为多类,并在此基础上评估各类客户的潜在价值,制定不同的营销方案和销售策略来服务各类客户,使得在有限的资源下,实现企业利益的最大化。因此如何对客户进行准确分类,实现同类中的客户相似度最高,异类中的客户相似度最低的这一问题成为人们研究的热点。在该背景下,本项目提出了一种基于D-S证据理论的半监督聚类集成算法的客户细分方法,旨在提高客户分类的准确性。
由于客户个体差异性比较大,而且存在小部分的异常点,这会给分类任务带来极大的困难。因此根据数据的特点,选取适当的分类方法,提高分类准确性,才是该任务的重点。在分类方法中,可以根据有无样本标签信息划分为监督学习、无监督学习和半监督学习。聚类分析则是解决无标记样本分类的方法,聚类目的是实现同簇差异性最小,异簇差异性最大。目前,主流的聚类算法有K均值(k-means)和模糊聚类(FCM),其中k-means算法是一种简单的迭代性聚类算法,采用距离作为相似性度量指标,k-means算法解决实际问题对噪声和离群点特别敏感,对非凸性数据集或数据差异较大的数据效果不好,并且结果不一定是全局最优解。在客户细分任务中,由于数据的差异大和少部分离群点的存在,因此该聚类算法不适用于该项目。FCM算法是根据样本的属于各个类的隶属度进行划分的,相比前面的“硬聚类”算法,FCM算法会计算每个样本属于各类的隶属度。FCM算法在进行迭代计算前需要设置模糊指数m,该参数的选取直接决定最终结果的优劣程度,并且该算法容易陷入局部最优解和对离群点敏感,因此该算法也不适用于客户细分任务。针对上述两种算法在客户细分应用中存在的问题,本项目将基于D-S证据理论的半监督聚类集成学习运用到客户细分任务中,该算法有着半监督学习和集成学习的优点,解决参数敏感性等问题,使得在处理客户分类问题上更具鲁棒性,从而提高了分类的准确性。
发明内容
本发明针对客户细分中存在的问题,提出了一种基于D-S证据理论的半监督聚类集成学习方法。首先收集客户各种特征信息,并数字化。利用半监督核模糊聚类(Semi-Supervised KFCM)算法对处理过的数据进行聚类,通过设置不同的模糊度和带宽参数,生成若干个差异性较大的基聚类。然后计算有标签样本在各基聚类中的聚类准确性,估计各基聚类的可信度,在此基础上利用近邻法生成质量函数(BPA),最后根据融合规则,将所有基聚类进行证据融合,得到最终的聚类结果。本发明一方面充分利用了标签样本的信息,能有效的初始化聚类中心,另一方面利用D-S证据理论进行集成学习,解决参数敏感性问题,降低了离群点对结果的影响,提高了客户分类的准确性。
技术方案:一种基于证据理论的半监督聚类集成学习及其在客户细分的方法,包含以下步骤:
步骤一:收集客户多个特征信息,将所有信息数字化,选取典型特征客户,作为先验信息,打上标签,构建客户信息数据集;
步骤二:利用部分标签样本初始化各基聚类的聚类中心;
步骤三:利用半监督核模糊聚类算法,对客户信息数据集进行聚类,生成若干个基聚类成员;
步骤四:计算各基聚类中标签样本的聚类准确性AC,根据可信度计算公式,得到各基聚类的可信度CL;
Figure BDA0002730753830000021
其中α为可信度指数,h表示基聚类成员个数,AC={AC1,AC2,…,ACh};
步骤五:通过近邻法,计算样本在各基聚类属于各个类的概率,并结合基聚类的可信度,生成质量函数;
在所有基聚类中,统计任意两个样本分在同一个类别的次数,当大于一定次数时,这两个样本就具有相似性,则称为邻居样本;如果样本xi和样本xj是邻居关系,则S′ij=1,否则S′ij=0;定义样本xi在聚类成员q中的质量函数为
Figure BDA0002730753830000022
具体形式如公式(2)所示:
Figure BDA0002730753830000031
式中
Figure BDA0002730753830000032
Figure BDA0002730753830000033
表示的是满足在聚类成员q中,与样本xi属于邻居关系,且出现在簇k中的所有样本组成的集合,
Figure BDA0002730753830000034
表示的是满足上述条件的个数,Θ表示全集;
步骤六:最后利用D-S证据理论将步骤五生成的质量函数进行融合,得到样本属于每个类的概率,即将客户分成c个类,取概率最大的类作为样本的类别,完成最终的分类。
作为优选,所述的收集客户多个特征信息,将所有信息数字化,构建客户信息数据集;具体为:收集客户特征信息组成n个样本数据集X,其中选取部分典型的客户作为先验信息,即打上类标签信息;设有n-l个标签样本且分为c个类别;X={x1,x2,…,xl,(xl+1,y1),(xl+2,y2),…,(xn,yn-l)};其中l表示无标签样本个数。
作为优选,所述的利用半监督核模糊聚类算法,对客户信息数据集进行聚类,生成若干个基聚类成员;具体为:
半监督核模糊聚类的目标函数为:
Figure BDA0002730753830000035
其中高斯核函数
Figure BDA0002730753830000036
m是模糊度,σ为高斯宽度;
通过迭代求解目标函数得到隶属度矩阵uij和聚类中心zi
Figure BDA0002730753830000037
Figure BDA0002730753830000041
本发明将少量的标签样本转化为半监督信息,进而用来辅助基聚类的生成和融合过程,利用可信度合理估计各基聚类的可信度,从而改变各基聚类在融合过程中所占的比重,解决了证据冲突问题,使得融合结果更加合理,让得到的结果更具有说服力。
附图说明
图1为本发明具体实施流程图;
具体实施方式
结合附图1进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,本发明的实施主要包含四个步骤:(1)客户信息预处理,构建数据集;(2)使用SSKFCM算法进行多次聚类生成多个基聚类;(3)构造质量函数;(4)最后,利用D-S证据理论融合得到最终结果,完成客户分类。
步骤一:收集客户的特征信息,将特征信息数字化,构建客户样本集;
收集客户特征信息组成n个样本数据集X,其中选取部分典型的客户作为先验信息,即打上类标签信息;设有n-l个标签样本且分为c个类别;X={x1,x2,…,xl,(xl+1,y1),(xl+2,y2),…,(xn,yn-l)};其中l表示无标签样本个数。
步骤二:利用部分标签样本初始化聚类中心;
将k个类得标签样本按照标签相同分为一类,通过计算具有相同标签的样本特征中心,作为初始聚类中心。
步骤三:利用半监督核模糊聚类算法,对样本集进行聚类,生成h个基聚类,;
KFCM的目标函数为:
Figure BDA0002730753830000042
其中高斯核函数
Figure BDA0002730753830000043
m是模糊度,σ为高斯宽度。
通过迭代求解目标函数得到隶属度矩阵uij和聚类中心zi
Figure BDA0002730753830000044
Figure BDA0002730753830000051
通过设置KFCM算法的模糊度m和高斯宽度σ两个参数,生成差异性较大的h组基聚类标签结果:π={π12,…,πh};
步骤四:根据有标签样本在各基聚类的聚类准确性AC={AC1,AC2,…,ACh},计算各基聚类可信度利用公式(1)计算各基聚类的可信度CL(Confidence Level),式中α为可信度指数
Figure BDA0002730753830000052
步骤五:通过近邻法,和步骤四得到的基聚类可信度,构造质量函数;
在所有基聚类中,统计任意两个样本分在同一个类别的次数,当大于一定次数时,这两个样本就具有相似性,则称为邻居样本。如果样本xi和样本xj是邻居关系S′ij=1,否则S′ij=0。定义样本xi在聚类成员q中的质量函数为
Figure BDA0002730753830000053
具体形式如公式(2)所示:
Figure BDA0002730753830000054
式中
Figure BDA0002730753830000055
Figure BDA0002730753830000056
表示的是满足在聚类成员q中,与样本xi属于邻居关系,且出现在簇k中的所有样本组成的集合,
Figure BDA0002730753830000057
表示的是满足上述条件的样本个数。
步骤六:最后利用DS证据理论将上数步骤所生成的质量函数进行融合,得到最后的聚类结果;
在辨识框架θ={A1,A2,…,An}上,对于n个证据体m1,m2,…,mn的融合规则为:
Figure BDA0002730753830000061
式中K为归一化常数:
Figure BDA0002730753830000062
将上述步骤所得到质量函数利用D-S证据理论进行融合,得到样本属于每个类的概率,取概率最大的类作为样本的类别,完成最终的分类。

Claims (3)

1.一种基于半监督聚类集成学习的客户细分方法,其特征在于,该方法具体包括以下步骤:
步骤一:收集客户多个特征信息,将所有信息数字化,选取典型特征客户,作为先验信息,打上标签,构建客户信息数据集;
步骤二:利用部分标签样本初始化各基聚类的聚类中心;
步骤三:利用半监督核模糊聚类算法,对客户信息数据集进行聚类,生成若干个基聚类成员;
步骤四:计算各基聚类中标签样本的聚类准确性AC,根据可信度计算公式,得到各基聚类的可信度CL;
Figure FDA0002730753820000011
其中α为可信度指数,h表示基聚类成员个数,AC={AC1,AC2,…,ACh};
步骤五:通过近邻法,计算样本在各基聚类属于各个类的概率,并结合基聚类的可信度,生成质量函数;
在所有基聚类中,统计任意两个样本分在同一个类别的次数,当大于一定次数时,这两个样本就具有相似性,则称为邻居样本;如果样本xi和样本xj是邻居关系,则S′ij=1,否则S′ij=0;定义样本xi在聚类成员q中的质量函数为
Figure FDA0002730753820000012
具体形式如公式(2)所示:
Figure FDA0002730753820000013
式中
Figure FDA0002730753820000014
Figure FDA0002730753820000015
表示的是满足在聚类成员q中,与样本xi属于邻居关系,且出现在簇k中的所有样本组成的集合,
Figure FDA0002730753820000021
表示的是满足上述条件的个数,Θ表示全集;
步骤六:最后利用D-S证据理论将步骤五生成的质量函数进行融合,得到样本属于每个类的概率,即将客户分成c个类,取概率最大的类作为样本的类别,完成最终的分类。
2.根据权力要求1所述的一种基于半监督聚类集成学习的客户细分方法,其特征在于:所述的收集客户多个特征信息,将所有信息数字化,构建客户信息数据集;具体为:收集客户特征信息组成n个样本数据集X,其中选取部分典型的客户作为先验信息,即打上类标签信息;设有n-l个标签样本且分为c个类别;X={x1,x2,…,xl,(xl+1,y1),(xl+2,y2),…,(xn,yn-l)};其中l表示无标签样本个数。
3.根据权力要求2所述的一种基于半监督聚类集成学习的客户细分方法,其特征在于:所述的利用半监督核模糊聚类算法,对客户信息数据集进行聚类,生成若干个基聚类成员;具体为:
半监督核模糊聚类的目标函数为:
Figure FDA0002730753820000022
其中高斯核函数
Figure FDA0002730753820000023
m是模糊度,σ为高斯宽度;
通过迭代求解目标函数得到隶属度矩阵uij和聚类中心zi
Figure FDA0002730753820000024
Figure FDA0002730753820000025
CN202011117305.2A 2020-10-19 2020-10-19 一种基于半监督聚类集成学习的客户细分方法 Active CN112288465B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011117305.2A CN112288465B (zh) 2020-10-19 2020-10-19 一种基于半监督聚类集成学习的客户细分方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011117305.2A CN112288465B (zh) 2020-10-19 2020-10-19 一种基于半监督聚类集成学习的客户细分方法

Publications (2)

Publication Number Publication Date
CN112288465A true CN112288465A (zh) 2021-01-29
CN112288465B CN112288465B (zh) 2024-04-09

Family

ID=74497606

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011117305.2A Active CN112288465B (zh) 2020-10-19 2020-10-19 一种基于半监督聚类集成学习的客户细分方法

Country Status (1)

Country Link
CN (1) CN112288465B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113128890A (zh) * 2021-04-26 2021-07-16 国网河北省电力有限公司营销服务中心 电力用户分类方法、装置及终端设备
CN115310879A (zh) * 2022-10-11 2022-11-08 浙江浙石油综合能源销售有限公司 一种基于半监督聚类算法的多加油站用电量能耗管控方法
CN118152950A (zh) * 2024-05-10 2024-06-07 山东德源电力科技股份有限公司 一种一二次融合柱上断路器的状态划分优化方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103456017A (zh) * 2013-09-08 2013-12-18 西安电子科技大学 基于种子集的半监督权重核模糊聚类的图像分割方法
CN110880006A (zh) * 2018-09-05 2020-03-13 广州视源电子科技股份有限公司 用户分类方法、装置、计算机设备和存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103456017A (zh) * 2013-09-08 2013-12-18 西安电子科技大学 基于种子集的半监督权重核模糊聚类的图像分割方法
CN110880006A (zh) * 2018-09-05 2020-03-13 广州视源电子科技股份有限公司 用户分类方法、装置、计算机设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨静雅等: "基于半监督谱聚类集成的售后客户细分", 计算机工程与应用, vol. 56, no. 2, 22 February 2019 (2019-02-22), pages 266 - 271 *
高伟;贺昌政;蒋晓毅;: "基于模糊聚类集成算法的客户细分研究", 情报杂志, no. 04, 18 April 2011 (2011-04-18) *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113128890A (zh) * 2021-04-26 2021-07-16 国网河北省电力有限公司营销服务中心 电力用户分类方法、装置及终端设备
CN115310879A (zh) * 2022-10-11 2022-11-08 浙江浙石油综合能源销售有限公司 一种基于半监督聚类算法的多加油站用电量能耗管控方法
CN115310879B (zh) * 2022-10-11 2022-12-16 浙江浙石油综合能源销售有限公司 一种基于半监督聚类算法的多加油站用电量能耗管控方法
CN118152950A (zh) * 2024-05-10 2024-06-07 山东德源电力科技股份有限公司 一种一二次融合柱上断路器的状态划分优化方法
CN118152950B (zh) * 2024-05-10 2024-07-19 山东德源电力科技股份有限公司 一种一二次融合柱上断路器的状态划分优化方法

Also Published As

Publication number Publication date
CN112288465B (zh) 2024-04-09

Similar Documents

Publication Publication Date Title
Sheng et al. Machine learning with crowdsourcing: A brief summary of the past research and future directions
Xu et al. A comprehensive survey of clustering algorithms
CN112288465B (zh) 一种基于半监督聚类集成学习的客户细分方法
CN111444342B (zh) 一种基于多重弱监督集成的短文本分类方法
WO2022166380A1 (zh) 一种基于meanshift优化的数据处理方法和装置
CN109815987B (zh) 一种人群分类方法和分类系统
CN110008365B (zh) 一种图像处理方法、装置、设备及可读存储介质
Reddy et al. An extensive analytical approach on human resources using random forest algorithm
CN110796159A (zh) 基于k-means算法的电力数据分类方法及系统
Pugazhenthi et al. Selection of optimal number of clusters and centroids for k-means and fuzzy c-means clustering: A review
Emadi et al. A selection metric for semi-supervised learning based on neighborhood construction
Sandhya et al. Comparative analysis of machine learning algorithms for Lip print based person identification
He et al. An effective information detection method for social big data
Alalyan et al. Model-based hierarchical clustering for categorical data
Wu et al. Learning from biased crowdsourced labeling with deep clustering
Hsieh et al. Adaptive structural co-regularization for unsupervised multi-view feature selection
Zhang et al. Instance redistribution-based label integration for crowdsourcing
Bhuvanya et al. Image Clustering and Feature Extraction by Utilizing an Improvised Unsupervised Learning Approach
Jiang et al. Improving positive unlabeled learning: Practical aul estimation and new training method for extremely imbalanced data sets
El Koufi et al. Artificial intelligence techniques applied in precision marketing: a survey
Bataineh et al. Fully Automated Density-Based Clustering Method.
CN112256964A (zh) 一种基于多维度数据学习的金融机构潜在客户推荐方法
Venkat et al. Clustering of huge data with fuzzy c-means and applying gravitational search algorithm for optimization
Cai et al. Motion recognition for 3D human motion capture data using support vector machines with rejection determination
Oner et al. Weakly supervised clustering by exploiting unique class count

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant