CN112288465A - 一种基于半监督聚类集成学习的客户细分方法 - Google Patents
一种基于半监督聚类集成学习的客户细分方法 Download PDFInfo
- Publication number
- CN112288465A CN112288465A CN202011117305.2A CN202011117305A CN112288465A CN 112288465 A CN112288465 A CN 112288465A CN 202011117305 A CN202011117305 A CN 202011117305A CN 112288465 A CN112288465 A CN 112288465A
- Authority
- CN
- China
- Prior art keywords
- clustering
- samples
- semi
- client
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000011218 segmentation Effects 0.000 title claims abstract description 18
- 230000006870 function Effects 0.000 claims abstract description 17
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000002372 labelling Methods 0.000 claims description 2
- 230000004927 fusion Effects 0.000 abstract description 7
- 238000007499 fusion processing Methods 0.000 abstract description 3
- 230000035945 sensitivity Effects 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- JHIVVAPYMSGYDF-UHFFFAOYSA-N cyclohexanone Chemical compound O=C1CCCCC1 JHIVVAPYMSGYDF-UHFFFAOYSA-N 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Accounting & Taxation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Strategic Management (AREA)
- Bioinformatics & Computational Biology (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Entrepreneurship & Innovation (AREA)
- Probability & Statistics with Applications (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于半监督聚类集成学习的客户细分方法,本发明首先收集客户的特征信息,将特征信息数字化,构建客户特征信息数据集;利用少量的标签样本来初始化聚类中心,并设置核模糊聚类算法的模糊度和高斯宽度两个参数,生成若干个差异性较大的基聚类;利用标签样本的聚类准确性来计算各基聚类的可信度;通过近邻法和各基聚类的可信度来构造质量函数;最后利用D‑S证据理论将质量函数进行证据融合,得到聚类结果。本发明将半监督集成学习引入到客户细分中,解决了算法参数敏感性的问题;利用了先验信息合理估计各基聚类的可信度,改变各基聚类在融合过程中所占的比重,解决了证据冲突问题,使得融合结果更加合理,提高了客户细分的准确性。
Description
技术领域
本发明属于生物特征分类领域,涉及一种基于D-S证据理论的半监督聚类集成学习的客户细分方法。
背景技术
近年来,随着大数据技术的发展,越来越多的企业将该技术运用到客户分类的应用中,即客户细分(Customer Segmentation)。客户细分是企业在明确的战略、业务模式和特定的市场中,根据客户的属性、偏好、行为、需要以及潜在价值等因素对客户进行分类,在此基础上提供具有针对性的产品、服务和营销方案。企业通过客户细分技术,将客户分为多类,并在此基础上评估各类客户的潜在价值,制定不同的营销方案和销售策略来服务各类客户,使得在有限的资源下,实现企业利益的最大化。因此如何对客户进行准确分类,实现同类中的客户相似度最高,异类中的客户相似度最低的这一问题成为人们研究的热点。在该背景下,本项目提出了一种基于D-S证据理论的半监督聚类集成算法的客户细分方法,旨在提高客户分类的准确性。
由于客户个体差异性比较大,而且存在小部分的异常点,这会给分类任务带来极大的困难。因此根据数据的特点,选取适当的分类方法,提高分类准确性,才是该任务的重点。在分类方法中,可以根据有无样本标签信息划分为监督学习、无监督学习和半监督学习。聚类分析则是解决无标记样本分类的方法,聚类目的是实现同簇差异性最小,异簇差异性最大。目前,主流的聚类算法有K均值(k-means)和模糊聚类(FCM),其中k-means算法是一种简单的迭代性聚类算法,采用距离作为相似性度量指标,k-means算法解决实际问题对噪声和离群点特别敏感,对非凸性数据集或数据差异较大的数据效果不好,并且结果不一定是全局最优解。在客户细分任务中,由于数据的差异大和少部分离群点的存在,因此该聚类算法不适用于该项目。FCM算法是根据样本的属于各个类的隶属度进行划分的,相比前面的“硬聚类”算法,FCM算法会计算每个样本属于各类的隶属度。FCM算法在进行迭代计算前需要设置模糊指数m,该参数的选取直接决定最终结果的优劣程度,并且该算法容易陷入局部最优解和对离群点敏感,因此该算法也不适用于客户细分任务。针对上述两种算法在客户细分应用中存在的问题,本项目将基于D-S证据理论的半监督聚类集成学习运用到客户细分任务中,该算法有着半监督学习和集成学习的优点,解决参数敏感性等问题,使得在处理客户分类问题上更具鲁棒性,从而提高了分类的准确性。
发明内容
本发明针对客户细分中存在的问题,提出了一种基于D-S证据理论的半监督聚类集成学习方法。首先收集客户各种特征信息,并数字化。利用半监督核模糊聚类(Semi-Supervised KFCM)算法对处理过的数据进行聚类,通过设置不同的模糊度和带宽参数,生成若干个差异性较大的基聚类。然后计算有标签样本在各基聚类中的聚类准确性,估计各基聚类的可信度,在此基础上利用近邻法生成质量函数(BPA),最后根据融合规则,将所有基聚类进行证据融合,得到最终的聚类结果。本发明一方面充分利用了标签样本的信息,能有效的初始化聚类中心,另一方面利用D-S证据理论进行集成学习,解决参数敏感性问题,降低了离群点对结果的影响,提高了客户分类的准确性。
技术方案:一种基于证据理论的半监督聚类集成学习及其在客户细分的方法,包含以下步骤:
步骤一:收集客户多个特征信息,将所有信息数字化,选取典型特征客户,作为先验信息,打上标签,构建客户信息数据集;
步骤二:利用部分标签样本初始化各基聚类的聚类中心;
步骤三:利用半监督核模糊聚类算法,对客户信息数据集进行聚类,生成若干个基聚类成员;
步骤四:计算各基聚类中标签样本的聚类准确性AC,根据可信度计算公式,得到各基聚类的可信度CL;
其中α为可信度指数,h表示基聚类成员个数,AC={AC1,AC2,…,ACh};
步骤五:通过近邻法,计算样本在各基聚类属于各个类的概率,并结合基聚类的可信度,生成质量函数;
在所有基聚类中,统计任意两个样本分在同一个类别的次数,当大于一定次数时,这两个样本就具有相似性,则称为邻居样本;如果样本xi和样本xj是邻居关系,则S′ij=1,否则S′ij=0;定义样本xi在聚类成员q中的质量函数为具体形式如公式(2)所示:
步骤六:最后利用D-S证据理论将步骤五生成的质量函数进行融合,得到样本属于每个类的概率,即将客户分成c个类,取概率最大的类作为样本的类别,完成最终的分类。
作为优选,所述的收集客户多个特征信息,将所有信息数字化,构建客户信息数据集;具体为:收集客户特征信息组成n个样本数据集X,其中选取部分典型的客户作为先验信息,即打上类标签信息;设有n-l个标签样本且分为c个类别;X={x1,x2,…,xl,(xl+1,y1),(xl+2,y2),…,(xn,yn-l)};其中l表示无标签样本个数。
作为优选,所述的利用半监督核模糊聚类算法,对客户信息数据集进行聚类,生成若干个基聚类成员;具体为:
半监督核模糊聚类的目标函数为:
通过迭代求解目标函数得到隶属度矩阵uij和聚类中心zi;
本发明将少量的标签样本转化为半监督信息,进而用来辅助基聚类的生成和融合过程,利用可信度合理估计各基聚类的可信度,从而改变各基聚类在融合过程中所占的比重,解决了证据冲突问题,使得融合结果更加合理,让得到的结果更具有说服力。
附图说明
图1为本发明具体实施流程图;
具体实施方式
结合附图1进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,本发明的实施主要包含四个步骤:(1)客户信息预处理,构建数据集;(2)使用SSKFCM算法进行多次聚类生成多个基聚类;(3)构造质量函数;(4)最后,利用D-S证据理论融合得到最终结果,完成客户分类。
步骤一:收集客户的特征信息,将特征信息数字化,构建客户样本集;
收集客户特征信息组成n个样本数据集X,其中选取部分典型的客户作为先验信息,即打上类标签信息;设有n-l个标签样本且分为c个类别;X={x1,x2,…,xl,(xl+1,y1),(xl+2,y2),…,(xn,yn-l)};其中l表示无标签样本个数。
步骤二:利用部分标签样本初始化聚类中心;
将k个类得标签样本按照标签相同分为一类,通过计算具有相同标签的样本特征中心,作为初始聚类中心。
步骤三:利用半监督核模糊聚类算法,对样本集进行聚类,生成h个基聚类,;
KFCM的目标函数为:
通过迭代求解目标函数得到隶属度矩阵uij和聚类中心zi;
通过设置KFCM算法的模糊度m和高斯宽度σ两个参数,生成差异性较大的h组基聚类标签结果:π={π1,π2,…,πh};
步骤四:根据有标签样本在各基聚类的聚类准确性AC={AC1,AC2,…,ACh},计算各基聚类可信度利用公式(1)计算各基聚类的可信度CL(Confidence Level),式中α为可信度指数
步骤五:通过近邻法,和步骤四得到的基聚类可信度,构造质量函数;
在所有基聚类中,统计任意两个样本分在同一个类别的次数,当大于一定次数时,这两个样本就具有相似性,则称为邻居样本。如果样本xi和样本xj是邻居关系S′ij=1,否则S′ij=0。定义样本xi在聚类成员q中的质量函数为具体形式如公式(2)所示:
步骤六:最后利用DS证据理论将上数步骤所生成的质量函数进行融合,得到最后的聚类结果;
在辨识框架θ={A1,A2,…,An}上,对于n个证据体m1,m2,…,mn的融合规则为:
式中K为归一化常数:
将上述步骤所得到质量函数利用D-S证据理论进行融合,得到样本属于每个类的概率,取概率最大的类作为样本的类别,完成最终的分类。
Claims (3)
1.一种基于半监督聚类集成学习的客户细分方法,其特征在于,该方法具体包括以下步骤:
步骤一:收集客户多个特征信息,将所有信息数字化,选取典型特征客户,作为先验信息,打上标签,构建客户信息数据集;
步骤二:利用部分标签样本初始化各基聚类的聚类中心;
步骤三:利用半监督核模糊聚类算法,对客户信息数据集进行聚类,生成若干个基聚类成员;
步骤四:计算各基聚类中标签样本的聚类准确性AC,根据可信度计算公式,得到各基聚类的可信度CL;
其中α为可信度指数,h表示基聚类成员个数,AC={AC1,AC2,…,ACh};
步骤五:通过近邻法,计算样本在各基聚类属于各个类的概率,并结合基聚类的可信度,生成质量函数;
在所有基聚类中,统计任意两个样本分在同一个类别的次数,当大于一定次数时,这两个样本就具有相似性,则称为邻居样本;如果样本xi和样本xj是邻居关系,则S′ij=1,否则S′ij=0;定义样本xi在聚类成员q中的质量函数为具体形式如公式(2)所示:
步骤六:最后利用D-S证据理论将步骤五生成的质量函数进行融合,得到样本属于每个类的概率,即将客户分成c个类,取概率最大的类作为样本的类别,完成最终的分类。
2.根据权力要求1所述的一种基于半监督聚类集成学习的客户细分方法,其特征在于:所述的收集客户多个特征信息,将所有信息数字化,构建客户信息数据集;具体为:收集客户特征信息组成n个样本数据集X,其中选取部分典型的客户作为先验信息,即打上类标签信息;设有n-l个标签样本且分为c个类别;X={x1,x2,…,xl,(xl+1,y1),(xl+2,y2),…,(xn,yn-l)};其中l表示无标签样本个数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011117305.2A CN112288465B (zh) | 2020-10-19 | 2020-10-19 | 一种基于半监督聚类集成学习的客户细分方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011117305.2A CN112288465B (zh) | 2020-10-19 | 2020-10-19 | 一种基于半监督聚类集成学习的客户细分方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112288465A true CN112288465A (zh) | 2021-01-29 |
CN112288465B CN112288465B (zh) | 2024-04-09 |
Family
ID=74497606
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011117305.2A Active CN112288465B (zh) | 2020-10-19 | 2020-10-19 | 一种基于半监督聚类集成学习的客户细分方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112288465B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113128890A (zh) * | 2021-04-26 | 2021-07-16 | 国网河北省电力有限公司营销服务中心 | 电力用户分类方法、装置及终端设备 |
CN115310879A (zh) * | 2022-10-11 | 2022-11-08 | 浙江浙石油综合能源销售有限公司 | 一种基于半监督聚类算法的多加油站用电量能耗管控方法 |
CN118152950A (zh) * | 2024-05-10 | 2024-06-07 | 山东德源电力科技股份有限公司 | 一种一二次融合柱上断路器的状态划分优化方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103456017A (zh) * | 2013-09-08 | 2013-12-18 | 西安电子科技大学 | 基于种子集的半监督权重核模糊聚类的图像分割方法 |
CN110880006A (zh) * | 2018-09-05 | 2020-03-13 | 广州视源电子科技股份有限公司 | 用户分类方法、装置、计算机设备和存储介质 |
-
2020
- 2020-10-19 CN CN202011117305.2A patent/CN112288465B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103456017A (zh) * | 2013-09-08 | 2013-12-18 | 西安电子科技大学 | 基于种子集的半监督权重核模糊聚类的图像分割方法 |
CN110880006A (zh) * | 2018-09-05 | 2020-03-13 | 广州视源电子科技股份有限公司 | 用户分类方法、装置、计算机设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
杨静雅等: "基于半监督谱聚类集成的售后客户细分", 计算机工程与应用, vol. 56, no. 2, 22 February 2019 (2019-02-22), pages 266 - 271 * |
高伟;贺昌政;蒋晓毅;: "基于模糊聚类集成算法的客户细分研究", 情报杂志, no. 04, 18 April 2011 (2011-04-18) * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113128890A (zh) * | 2021-04-26 | 2021-07-16 | 国网河北省电力有限公司营销服务中心 | 电力用户分类方法、装置及终端设备 |
CN115310879A (zh) * | 2022-10-11 | 2022-11-08 | 浙江浙石油综合能源销售有限公司 | 一种基于半监督聚类算法的多加油站用电量能耗管控方法 |
CN115310879B (zh) * | 2022-10-11 | 2022-12-16 | 浙江浙石油综合能源销售有限公司 | 一种基于半监督聚类算法的多加油站用电量能耗管控方法 |
CN118152950A (zh) * | 2024-05-10 | 2024-06-07 | 山东德源电力科技股份有限公司 | 一种一二次融合柱上断路器的状态划分优化方法 |
CN118152950B (zh) * | 2024-05-10 | 2024-07-19 | 山东德源电力科技股份有限公司 | 一种一二次融合柱上断路器的状态划分优化方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112288465B (zh) | 2024-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sheng et al. | Machine learning with crowdsourcing: A brief summary of the past research and future directions | |
Xu et al. | A comprehensive survey of clustering algorithms | |
CN112288465B (zh) | 一种基于半监督聚类集成学习的客户细分方法 | |
CN111444342B (zh) | 一种基于多重弱监督集成的短文本分类方法 | |
WO2022166380A1 (zh) | 一种基于meanshift优化的数据处理方法和装置 | |
CN109815987B (zh) | 一种人群分类方法和分类系统 | |
CN110008365B (zh) | 一种图像处理方法、装置、设备及可读存储介质 | |
Reddy et al. | An extensive analytical approach on human resources using random forest algorithm | |
CN110796159A (zh) | 基于k-means算法的电力数据分类方法及系统 | |
Pugazhenthi et al. | Selection of optimal number of clusters and centroids for k-means and fuzzy c-means clustering: A review | |
Emadi et al. | A selection metric for semi-supervised learning based on neighborhood construction | |
Sandhya et al. | Comparative analysis of machine learning algorithms for Lip print based person identification | |
He et al. | An effective information detection method for social big data | |
Alalyan et al. | Model-based hierarchical clustering for categorical data | |
Wu et al. | Learning from biased crowdsourced labeling with deep clustering | |
Hsieh et al. | Adaptive structural co-regularization for unsupervised multi-view feature selection | |
Zhang et al. | Instance redistribution-based label integration for crowdsourcing | |
Bhuvanya et al. | Image Clustering and Feature Extraction by Utilizing an Improvised Unsupervised Learning Approach | |
Jiang et al. | Improving positive unlabeled learning: Practical aul estimation and new training method for extremely imbalanced data sets | |
El Koufi et al. | Artificial intelligence techniques applied in precision marketing: a survey | |
Bataineh et al. | Fully Automated Density-Based Clustering Method. | |
CN112256964A (zh) | 一种基于多维度数据学习的金融机构潜在客户推荐方法 | |
Venkat et al. | Clustering of huge data with fuzzy c-means and applying gravitational search algorithm for optimization | |
Cai et al. | Motion recognition for 3D human motion capture data using support vector machines with rejection determination | |
Oner et al. | Weakly supervised clustering by exploiting unique class count |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |