CN112232930A - 一种基于加权rfm模型的电商平台客户细分方法 - Google Patents
一种基于加权rfm模型的电商平台客户细分方法 Download PDFInfo
- Publication number
- CN112232930A CN112232930A CN202011224439.4A CN202011224439A CN112232930A CN 112232930 A CN112232930 A CN 112232930A CN 202011224439 A CN202011224439 A CN 202011224439A CN 112232930 A CN112232930 A CN 112232930A
- Authority
- CN
- China
- Prior art keywords
- customer
- client
- point
- commerce platform
- weighted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000011218 segmentation Effects 0.000 title claims abstract description 17
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 16
- 238000004140 cleaning Methods 0.000 claims abstract description 12
- 230000009466 transformation Effects 0.000 claims abstract description 5
- 238000004364 calculation method Methods 0.000 claims description 10
- 239000002131 composite material Substances 0.000 claims description 3
- 238000002790 cross-validation Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000008901 benefit Effects 0.000 description 6
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000007621 cluster analysis Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- CLOMYZFHNHFSIQ-UHFFFAOYSA-N clonixin Chemical compound CC1=C(Cl)C=CC=C1NC1=NC=CC=C1C(O)=O CLOMYZFHNHFSIQ-UHFFFAOYSA-N 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000002759 z-score normalization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Human Resources & Organizations (AREA)
- Data Mining & Analysis (AREA)
- Finance (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- General Engineering & Computer Science (AREA)
- Educational Administration (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Computation (AREA)
- Operations Research (AREA)
- Tourism & Hospitality (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于加权RFM模型的电商平台客户细分方法,从电商平台客户数据库中提取客户消费数据,进行数据清理;根据数据清理后的电商平台客户消费数据,计算每位客户最近一次消费的时间间隔R、规定时间段的消费频率F、规定时间段的消费总金额M,并进行Z分数标准化变换;将所得数据作为输入数据,确定加权欧氏距离公式,去除客户集中所有孤立点,得到客户集X';使用Canopy算法对X'进行粗聚类得中心点集合;利用中心点集合作为K‑means算法初始聚类中心进行聚类,得k类电商平台客户群;计算聚类后不同电商平台客户群的各个指标的平均值,与全体电商平台客户的各个指标的平均值进行比较,得每类电商平台客户群的RFM类型。本发明能够高效精确地对电商平台进行客户分类。
Description
技术领域
本发明涉及数据挖掘与数据分析领域,具体是一种基于加权RFM模型的电商平台客户细分方法。
背景技术
随着我国电子商务行业的飞速发展,网络购物越来越受大众青睐,中小型电商企业间的竞争也愈发激烈,现代企业的营销理念已经从“以产品为中心”演变为“以客户为中心”,对于企业而言客户成为极具价值的资源。面对庞大的不同行为模式的客户群体,科学评价客户价值并进行精准客户细分,从而制定相应客户服务策略,提供差异化营销策略,是电商企业将有限资源利益最大化、高效提升客户忠诚度的重要途径,有助于电商企业在激烈的市场竞争中占据优势地位。
目前RFM模型在客户细分领域被广泛应用,但是传统RFM模型的客户细分主要是根据R、F、M三个指标的均值直接将客户划分为8类,导致客户分类常常存在分类模糊问题。K-means聚类分析算法作为一种经典的迭代求解的划分聚类算法,常与RFM模型结合使用以提高客户分类精度,然而传统K-means聚类分析算法存在一定局限性,k值需要预先人工经验设定,且k值的估计非常困难;初始聚类中心随机选取而成,易造成聚类结果不准确;孤立点的存在容易造成聚类迭代次数增加,且聚类陷入局部最优;当数据属性值种类多且重要性不一致时,所使用的欧氏距离对待每个属性的重要性权重相同,导致聚类精度产生偏差。
其次,在RFM模型中,各指标权重的选取是客户价值评估模型的关键,但是在大多数RFM模型应用中,识别客户价值时使用的各指标权重相同,对客户价值评价的准确性产生了负面影响。
发明内容
针对现有技术中存在的技术问题,本发明提供了一种基于加权RFM模型的电商平台客户细分方法,以高效精确地对电商平台进行客户分类。
为了解决上述技术问题,本发明通过以下技术方案予以实现:
一种基于加权RFM模型的电商平台客户细分方法,包括以下步骤:
步骤1、从电商平台客户数据库中提取客户消费数据,并对客户消费数据进行数据清理,对数据清理后的客户消费数据集进行向量化处理,获得客户集X={x1,x2,…xi,…xn},1≤i≤n,n为客户个数;所述客户消费数据包括客户编号、订单编号、购买时间和消费金额;
步骤2、根据数据清理后的电商平台客户消费数据,计算每位客户最近一次消费的时间间隔R指标、规定时间段的消费频率F指标和规定时间段的消费总金额M指标;对R、F和M指标分别进行Z分数标准化变换得到xir、xif和xim,记为客户xi的三个属性值;
步骤3、将步骤2得到的客户xi的三个属性值作为输入数据,确定加权欧氏距离公式,去除客户集X中所有孤立点,得到客户集X'={x1',x2',…xi',…xm'},1≤i≤m≤n;
步骤4、使用Canopy算法对步骤3得到的客户集X'进行粗聚类得到中心点集合;
步骤5、利用步骤4得到的中心点集合作为K-means算法的初始聚类中心进行聚类,得到k类电商平台客户群;
步骤6、计算聚类后每类电商平台客户群的R、F和M指标的平均值,将每类电商平台客户群的R、F和M指标的平均值与全体电商平台客户的R、F和M指标的平均值进行比较,得到每类电商平台客户群的RFM类型。
进一步地,还包括以下步骤:
步骤7、采用层次分析法计算R、F和M各指标权重系数分别为μr、μf和μm,确定每个客户的综合价值的加权计算公式,根据每个客户的综合价值的加权计算公式计算得到每个客户的综合价值。
进一步地,还包括以下步骤:
步骤8、计算每类电商平台客户群的综合价值平均值,并将k类电商平台客户群按照综合价值平均值由高到低进行排序。
进一步地,步骤3具体包括:
步骤3.1、确定加权欧式距离公式,如公式(1)所示,计算任意两个客户点之间的加权欧式距离;
其中,ωir、ωif和ωim为客户xi的三个属性值的权值,ωir、ωif和ωim的表达式分别为公式(2)、公式(3)和公式(4),如下:
使用公式(5)计算所有客户点之间的平均加权欧式距离:
使用公式(6)计算任何一个客户点xi的密度参数:
即以客户集X中任一客户点xi为圆心,平均加权欧式距离MeanDist(X)为半径,圆内客户点的个数即为xi的密度参数;其中,当z>0时,u(z)=1;当z≤0,u(z)=0;
使用公式(7)计算客户点密度的平均值:
步骤3.2、若客户点xi满足公式(8),则该客户点为孤立点,从客户集X中删除该点;
Dens(xi)≤a×MDens(X) (8)
步骤3.3、删除客户集X中所有孤立点后,得到客户数据分布相对集中不包含孤立点的客户集X'={x1',x2',…xi',…xm'},1≤i≤m≤n。
进一步地,步骤4具体包括:
步骤4.1、通过交叉验证法调参,设定初始距离阈值T1和T2,且T1>T2;
步骤4.2、初始化q=1;从客户集X'中随机选取一个客户点,作为第一个中心点c1,并将该客户点从客户集X'中删除;
步骤4.3、从客户集X'中再次随机抽取一个客户点xi,利用公式(1)计算客户点xi分别到所有中心点的加权欧式距离,记为Di={d1,d2,…,dq},找出相距最近中心点所在的Canopy集合,并记最近加权欧式距离为dmin;
步骤4.4、如果T2<dmin≤T1,则将客户点xi加入该Canopy集合;
如果dmin≤T2,则将客户点xi加入该Canopy集合;给客户点xi一个强标记,计算该Canopy集合中所有强标记客户点的均值,将与该均值点加权欧式距离最近的客户点设为该Canopy集合的新中心点;将客户点xi从客户集X'中删除;
如果dmin>T1,则将q+1赋值给q,客户点xi作为第q+1个中心点cq+1,并将客户点xi从客户集X'中删除;
步骤4.5、判断客户集X'是否为空,若为空,则表示获得中心点集合C={c1,c2,…,cq,…,ck},k表示中心点的个数;否则,返回步骤4.3执行。
进一步地,步骤5具体包括:
步骤5.1、将步骤4所得k个中心点作为初始聚类中心;
步骤5.2、根据公式(1)计算每个客户点xi分别到k个聚类中心的加权欧式距离,将每个客户点xi分配到与其加权欧式距离最近的聚类中心所在的簇中;
则k个聚类中心形成k个簇S,S={S1,S2,…Sj,…Sk};
步骤5.3、计算每一个簇中所有客户点的均值,将与该均值点加权欧式距离最近的客户点设为新的聚类中心;
步骤5.4、迭代步骤5.2和步骤5.3,直至聚类中心不再变化,得到的k个簇即为k类电商平台客户群。
进一步地,步骤7中,所述每个客户的综合价值的加权计算公式如公式(9)所示:
xirfm=μr×xir+μf×xif+μm×xim (9)。
与现有技术相比,本发明至少具有以下有益效果:
1.本发明面对客户数据属性值种类多且重要性不一致的情况,使用加权欧氏距离代替传统欧氏距离客观确定各属性权重,使聚类效果更显著且更精确。
2.本发明在聚类前去除了客户集中所有孤立点,可以有效避免孤立点或噪音点对聚类效果的负面影响,提升了聚类结果准确度。
3.本发明先使用canopy算法对电商平台客户进行粗聚类得到k个初始聚类中心,再结合K-means算法进一步聚类,得到k类电商平台客户群;有效避免了K-means算法需要人工预估k值和初始聚类中心点的局限性,节省人力资源的同时提高了聚类精度和效率,为电商平台的客户分类提供了更高效准确的方法。
4.本发明将聚类后每类电商平台客户群的各个指标的平均值,与全体电商平台客户的各个指标的平均值进行比较,得到每类电商平台客户群的RFM类型,使得客户分类更加细致,有利于电商平台针对不同行为模式的客户群体,制定相应客户服务策略,提供差异化营销策略,高效提升客户忠诚度。
5.本发明利用层次分析法确定R、F和M指标权重,加权计算出每个电商平台客户的综合价值,相比于传统RFM模型能够更客观准确地测算出客户综合价值;将k类电商平台客户群按照综合价值的平均值由高到低进行排序,可以为电商平台提供进一步地决策支持,面对综合价值更高的电商平台客户群投入更多资源,将有限资源利益最大化。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式中的技术方案,下面将对具体实施方式描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种基于加权RFM模型的电商平台客户细分方法的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本实施例所提供的一种基于加权RFM模型的农村电商平台客户细分方法,具体包括以下步骤:
步骤1、从农村电商平台客户数据库中提取客户消费数据,客户消费数据包括客户编号、订单编号、购买时间和消费金额,对客户消费数据进行数据清理;对数据清理后的客户消费数据集进行向量化处理,获得客户集X={x1,x2,…xi,…xn},1≤i≤n,客户个数为n;
步骤2、根据数据清理后的农村电商平台客户消费数据,计算每位客户最近一次消费的时间间隔R指标、规定时间段的消费频率F指标和规定时间段的消费总金额M指标;对R、F和M指标分别进行Z分数标准化变换得到xir、xif和xim,记为客户xi的三个属性值;
步骤3、将步骤2得到的客户xi的三个属性值作为输入数据,确定加权欧氏距离计算公式,去除客户集X中所有孤立点,得到客户集X'={x1',x2',…xi',…xm'},1≤i≤m≤n;具体如下:
步骤3.1、确定加权欧式距离公式,如公式(1)所示,计算任意两个客户点之间的加权欧式距离;
其中ωir、ωif和ωim为客户xi的三个属性值的权值,公式为(2)、(3)、(4):
使用公式(5)计算所有客户点之间的平均加权欧式距离:
使用公式(6)计算任何一个客户点xi的密度参数:
即以客户集X中任一客户点xi为圆心,平均加权欧式距离MeanDist(X)为半径,圆内客户点的个数即为xi的密度参数。其中,当z>0时,u(z)=1;当z≤0,u(z)=0。
使用公式(7)计算客户点密度的平均值:
步骤3.2、若客户点xi满足公式(8),则该客户点为孤立点,从客户集X中删除该点;
Dens(xi)≤a×MDens(X) (8)
步骤3.3、删除客户集X中所有孤立点后,得到客户数据分布相对集中不包含孤立点的客户集X'={x1',x2',…xi',…xm'},1≤i≤m≤n。
步骤4、使用Canopy算法对步骤3得到的客户集X'进行粗聚类得到中心点集合;具体如下:
步骤4.1、通过交叉验证法调参,设定初始距离阈值T1和T2,且T1>T2;
步骤4.2、初始化q=1;从客户集X'中随机选取一个客户点,作为第一个中心点c1,并将该客户点从客户集X'中删除;
步骤4.3、从客户集X'中再次随机抽取一个客户点xi,利用公式(1)计算客户点xi分别到所有中心点的加权欧式距离,记为Di={d1,d2,…,dq},找出相距最近中心点所在的Canopy集合,并记最近加权欧式距离为dmin;
步骤4.4、如果T2<dmin≤T1,则将客户点xi加入该Canopy集合;
如果dmin≤T2,则将客户点xi加入该Canopy集合;给客户点xi一个强标记,计算该Canopy集合中所有强标记客户点的均值,将与该均值点加权欧式距离最近的客户点设为该Canopy集合的新中心点;将客户点xi从客户集X'中删除;
如果dmin>T1,则将q+1赋值给q,客户点xi作为第q+1个中心点cq+1,并将客户点xi从客户集X'中删除;
步骤4.5、判断客户集X'是否为空,若为空,则表示获得中心点集合C={c1,c2,…,cq,…,ck},k表示中心点的个数;否则,返回步骤4.3执行;
步骤5、利用步骤4得到的中心点集合作为K-means算法初始聚类中心进行聚类,得到k类电商平台客户群;
步骤5.1、将步骤4所得k个中心点作为初始聚类中心;
步骤5.2、根据公式(1)计算每个客户点xi分别到k个聚类中心的加权欧式距离,将每个客户点xi分配到与其加权欧式距离最近的聚类中心所在的簇中;则k个聚类中心形成k个簇S,S={S1,S2,…Sj,…Sk};
步骤5.3、计算每一个簇中所有客户点的均值,将与该均值点加权欧式距离最近的客户点设为新的聚类中心;
步骤5.4、迭代步骤5.2和步骤5.3,直至聚类中心不再变化,得到的k个簇即为k类电商平台客户群;
步骤6、计算聚类后每类农村电商平台客户群的各个指标的平均值,与全体农村电商平台客户的各个指标的平均值进行比较,得到每类农村电商平台客户群的RFM类型;
步骤7、采用层次分析法计算R、F和M各指标权重系数分别为μr、μf和μm,确定每个客户的综合价值的加权计算公式:
xirfm=μr×xir+μf×xif+μm×xim (9)
根据每个客户的综合价值的加权计算公式计算得到每个客户的综合价值;
步骤8、计算每类农村电商平台客户群的综合价值平均值,并将k类农村电商平台客户群按照综合价值平均值由高到低进行排序。
在步骤1中,所述数据清理,具体指删除重复和无效数据、推导计算缺失值数据、校正错误数据。
在步骤2中,农村电商平台客户的R、F和M指标选取基于RFM模型;在众多客户关系管理的分析模式中,RFM模型是一种较为流行的客户价值模型,模型包括三种指标:R、F和M;R指标表示最近一次购买时间,最近一次购买时间越近的客户越有可能再次购买,因此R值越小越好;F指标表示消费者在某个规定时间中的购买次数,经常购买的客户越有意向再次购买,客户忠诚度高,因此F值越大越好;M指标表示消费者在某个时间段中客户购买的总金额,购买金额越大,带给企业的价值越大,因此M值越大越好。
在步骤2中,具体计算R指标、F指标和M指标的方法为,按照用户编号对各属性分组,分别计算每位客户最近一次消费时间点距离分析时间点的间隔天数,记为R指标;规定时间段中的订单编号个数,记为F指标;规定时间段中的全部订单金额总和,记为M指标。
在步骤2中,对RFM模型中R、F、M指标分别进行Z分数标准化变换的计算公式如式(10)-式(12)所示:
在步骤4.4中,当T2<dmin≤T1时,该客户点不会从客户集中被删除,而是继续参加下一轮迭代,直到成为新的中心点或某个Canopy集合的强标记成员。
在步骤6中,所述利用RFM模型对每类农村电商平台客户群进行RFM类型划分的具体方法为,计算聚类后每类农村电商平台客户群的各个指标的平均值,与全体农村电商平台客户的各个指标的平均值进行比较,每类农村电商平台客户群的RFM各指标平均值分别存在大于(等于)、小于全体农村电商平台客户的RFM各指标平均值两种情况,则三个指标一共有2×2×2=8种情况,因此每类农村电商平台客户群的RFM类型有8种可能,即重要保持客户(R↓F↑M↑)、重要发展客户(R↓F↓M↑)、重要挽留客户(R↑F↑M↑)、一般价值客户(R↑F↓M↑)、一般保持客户(R↓F↑M↓)、一般发展客户(R↓F↓M↓)、一般挽留客户(R↑F↑M↓)、无价值客户(R↑F↓M↓)。
在步骤7中,采用层次分析法确定R、F和M指标权重的具体做法为,邀请多名专家依据Santy的1-9标度法将R、F及M这三项指标的重要程度两两进行比较,构建多个判断矩阵,对每个判断矩阵计算最大特征值及其对应的特征向量,并对特征向量归一化处理;若判断矩阵通过一致性检验,则归一化后的特征向量作为各指标权重;赋予各专家相同权重,计算各专家三项指标权重的算术平均数,作为最终三项指标的权重。
本发明采用加权欧氏距离代替传统欧氏距离,去除数据孤立点,使用Canopy算法结合传统K-means算法优化客户聚类结果,提升了电商平台客户细分的精准度和效率;运用层次分析法对RFM模型加权,得到客户价值并进行排序,可以为电商平台提供进一步地决策支持,面对综合价值更高的电商平台客户群投入更多资源,将有限资源利益最大化。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (7)
1.一种基于加权RFM模型的电商平台客户细分方法,其特征在于,包括以下步骤:
步骤1、从电商平台客户数据库中提取客户消费数据,并对客户消费数据进行数据清理,对数据清理后的客户消费数据集进行向量化处理,获得客户集X={x1,x2,…xi,…xn},1≤i≤n,n为客户个数;所述客户消费数据包括客户编号、订单编号、购买时间和消费金额;
步骤2、根据数据清理后的电商平台客户消费数据,计算每位客户最近一次消费的时间间隔R指标、规定时间段的消费频率F指标和规定时间段的消费总金额M指标;对R、F和M指标分别进行Z分数标准化变换得到xir、xif和xim,记为客户xi的三个属性值;
步骤3、将步骤2得到的客户xi的三个属性值作为输入数据,确定加权欧氏距离公式,去除客户集X中所有孤立点,得到客户集X'={x1',x2',…xi',…xm'},1≤i≤m≤n;
步骤4、使用Canopy算法对步骤3得到的客户集X'进行粗聚类得到中心点集合;
步骤5、利用步骤4得到的中心点集合作为K-means算法的初始聚类中心进行聚类,得到k类电商平台客户群;
步骤6、计算聚类后每类电商平台客户群的R、F和M指标的平均值,将每类电商平台客户群的R、F和M指标的平均值与全体电商平台客户的R、F和M指标的平均值进行比较,得到每类电商平台客户群的RFM类型。
2.根据权利要求1所述的一种基于加权RFM模型的电商平台客户细分方法,其特征在于,还包括以下步骤:
步骤7、采用层次分析法计算R、F和M各指标权重系数分别为μr、μf和μm,确定每个客户的综合价值的加权计算公式,根据每个客户的综合价值的加权计算公式计算得到每个客户的综合价值。
3.根据权利要求2所述的一种基于加权RFM模型的电商平台客户细分方法,其特征在于,还包括以下步骤:
步骤8、计算每类电商平台客户群的综合价值平均值,并将k类电商平台客户群按照综合价值平均值由高到低进行排序。
4.根据权利要求1所述的一种基于加权RFM模型的电商平台客户细分方法,其特征在于,步骤3具体包括:
步骤3.1、确定加权欧式距离公式,如公式(1)所示,计算任意两个客户点之间的加权欧式距离;
其中,ωir、ωif和ωim为客户xi的三个属性值的权值,ωir、ωif和ωim的表达式分别为公式(2)、公式(3)和公式(4),如下:
使用公式(5)计算所有客户点之间的平均加权欧式距离:
使用公式(6)计算任何一个客户点xi的密度参数:
即以客户集X中任一客户点xi为圆心,平均加权欧式距离MeanDist(X)为半径,圆内客户点的个数即为xi的密度参数;其中,当z>0时,u(z)=1;当z≤0,u(z)=0;
使用公式(7)计算客户点密度的平均值:
步骤3.2、若客户点xi满足公式(8),则该客户点为孤立点,从客户集X中删除该点;
Dens(xi)≤a×MDens(X) (8)
步骤3.3、删除客户集X中所有孤立点后,得到客户数据分布相对集中不包含孤立点的客户集X'={x1',x2',…xi',…xm'},1≤i≤m≤n。
5.根据权利要求4所述的一种基于加权RFM模型的电商平台客户细分方法,其特征在于,步骤4具体包括:
步骤4.1、通过交叉验证法调参,设定初始距离阈值T1和T2,且T1>T2;
步骤4.2、初始化q=1;从客户集X'中随机选取一个客户点,作为第一个中心点c1,并将该客户点从客户集X'中删除;
步骤4.3、从客户集X'中再次随机抽取一个客户点xi,利用公式(1)计算客户点xi分别到所有中心点的加权欧式距离,记为Di={d1,d2,…,dq},找出相距最近中心点所在的Canopy集合,并记最近加权欧式距离为dmin;
步骤4.4、如果T2<dmin≤T1,则将客户点xi加入该Canopy集合;
如果dmin≤T2,则将客户点xi加入该Canopy集合;给客户点xi一个强标记,计算该Canopy集合中所有强标记客户点的均值,将与该均值点加权欧式距离最近的客户点设为该Canopy集合的新中心点;将客户点xi从客户集X'中删除;
如果dmin>T1,则将q+1赋值给q,客户点xi作为第q+1个中心点cq+1,并将客户点xi从客户集X'中删除;
步骤4.5、判断客户集X'是否为空,若为空,则表示获得中心点集合C={c1,c2,…,cq,…,ck},k表示中心点的个数;否则,返回步骤4.3执行。
6.根据权利要求5所述的一种基于加权RFM模型的电商平台客户细分方法,其特征在于,步骤5具体包括:
步骤5.1、将步骤4所得k个中心点作为初始聚类中心;
步骤5.2、根据公式(1)计算每个客户点xi分别到k个聚类中心的加权欧式距离,将每个客户点xi分配到与其加权欧式距离最近的聚类中心所在的簇中;
则k个聚类中心形成k个簇S,S={S1,S2,…Sj,…Sk};
步骤5.3、计算每一个簇中所有客户点的均值,将与该均值点加权欧式距离最近的客户点设为新的聚类中心;
步骤5.4、迭代步骤5.2和步骤5.3,直至聚类中心不再变化,得到的k个簇即为k类电商平台客户群。
7.根据权利要求2所述的一种基于加权RFM模型的电商平台客户细分方法,其特征在于,步骤7中,所述每个客户的综合价值的加权计算公式如公式(9)所示:
xirfm=μr×xir+μf×xif+μm×xim (9)。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011224439.4A CN112232930A (zh) | 2020-11-05 | 2020-11-05 | 一种基于加权rfm模型的电商平台客户细分方法 |
PCT/CN2021/128291 WO2022095864A1 (zh) | 2020-11-05 | 2021-11-03 | 一种基于加权rfm模型的电商平台客户细分方法 |
ZA2022/05541A ZA202205541B (en) | 2020-11-05 | 2022-05-19 | Customer segmentation method of e-commerce platform based on weighted rfm model |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011224439.4A CN112232930A (zh) | 2020-11-05 | 2020-11-05 | 一种基于加权rfm模型的电商平台客户细分方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112232930A true CN112232930A (zh) | 2021-01-15 |
Family
ID=74122191
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011224439.4A Pending CN112232930A (zh) | 2020-11-05 | 2020-11-05 | 一种基于加权rfm模型的电商平台客户细分方法 |
Country Status (3)
Country | Link |
---|---|
CN (1) | CN112232930A (zh) |
WO (1) | WO2022095864A1 (zh) |
ZA (1) | ZA202205541B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113554307A (zh) * | 2021-07-22 | 2021-10-26 | 华侨大学 | 一种基于rfm模型的用户分组方法、装置及可读介质 |
CN113781108A (zh) * | 2021-08-30 | 2021-12-10 | 武汉理工大学 | 一种电商平台客户细分方法、装置、电子设备及存储介质 |
CN113793061A (zh) * | 2021-09-27 | 2021-12-14 | 武汉众邦银行股份有限公司 | 融合层次分析法和rfm的商业银行客户评级方法及装置 |
CN113849730A (zh) * | 2021-09-06 | 2021-12-28 | 北京妙医佳健康科技集团有限公司 | 一种健康管理服务中用户价值分层的方法和相应的画像装置 |
CN113886442A (zh) * | 2021-09-30 | 2022-01-04 | 兰州交通大学 | 一种基于rfm模型和人工蜂群算法的铁路货运客户细分方法 |
CN114022194A (zh) * | 2021-10-26 | 2022-02-08 | 共享智能铸造产业创新中心有限公司 | 平台用户流失的预测方法 |
WO2022095864A1 (zh) * | 2020-11-05 | 2022-05-12 | 西安邮电大学 | 一种基于加权rfm模型的电商平台客户细分方法 |
CN114547446A (zh) * | 2022-02-15 | 2022-05-27 | 深圳闪回科技有限公司 | 一种订单推送方法及系统 |
CN116797253A (zh) * | 2022-12-13 | 2023-09-22 | 乖乖数字科技(苏州)有限公司 | 一种基于客户资源的分类管理方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117035948B (zh) * | 2023-10-10 | 2024-01-09 | 山东唐和智能科技有限公司 | 基于大数据的任务智能处理方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102049166B1 (ko) * | 2018-02-28 | 2019-11-26 | 세종대학교산학협력단 | RFM 기법과 K-Means 알고리즘을 이용한 고객 분류 방법 및 시스템 |
CN108776931A (zh) * | 2018-04-13 | 2018-11-09 | 上海琢学科技有限公司 | 基于RFM和Canopy的金融客户价值忠诚度细分方法 |
CN110503446A (zh) * | 2018-05-16 | 2019-11-26 | 江苏天智互联科技股份有限公司 | 基于聚类算法的电商平台的客户分类方法与决策方法 |
CN112232930A (zh) * | 2020-11-05 | 2021-01-15 | 西安邮电大学 | 一种基于加权rfm模型的电商平台客户细分方法 |
-
2020
- 2020-11-05 CN CN202011224439.4A patent/CN112232930A/zh active Pending
-
2021
- 2021-11-03 WO PCT/CN2021/128291 patent/WO2022095864A1/zh active Application Filing
-
2022
- 2022-05-19 ZA ZA2022/05541A patent/ZA202205541B/en unknown
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022095864A1 (zh) * | 2020-11-05 | 2022-05-12 | 西安邮电大学 | 一种基于加权rfm模型的电商平台客户细分方法 |
CN113554307A (zh) * | 2021-07-22 | 2021-10-26 | 华侨大学 | 一种基于rfm模型的用户分组方法、装置及可读介质 |
CN113554307B (zh) * | 2021-07-22 | 2023-05-26 | 华侨大学 | 一种基于rfm模型的用户分组方法、装置及可读介质 |
CN113781108A (zh) * | 2021-08-30 | 2021-12-10 | 武汉理工大学 | 一种电商平台客户细分方法、装置、电子设备及存储介质 |
CN113849730A (zh) * | 2021-09-06 | 2021-12-28 | 北京妙医佳健康科技集团有限公司 | 一种健康管理服务中用户价值分层的方法和相应的画像装置 |
CN113793061A (zh) * | 2021-09-27 | 2021-12-14 | 武汉众邦银行股份有限公司 | 融合层次分析法和rfm的商业银行客户评级方法及装置 |
CN113886442A (zh) * | 2021-09-30 | 2022-01-04 | 兰州交通大学 | 一种基于rfm模型和人工蜂群算法的铁路货运客户细分方法 |
CN113886442B (zh) * | 2021-09-30 | 2024-05-17 | 兰州交通大学 | 一种基于rfm模型和人工蜂群算法的铁路货运客户细分方法 |
CN114022194A (zh) * | 2021-10-26 | 2022-02-08 | 共享智能铸造产业创新中心有限公司 | 平台用户流失的预测方法 |
CN114547446A (zh) * | 2022-02-15 | 2022-05-27 | 深圳闪回科技有限公司 | 一种订单推送方法及系统 |
CN116797253A (zh) * | 2022-12-13 | 2023-09-22 | 乖乖数字科技(苏州)有限公司 | 一种基于客户资源的分类管理方法 |
CN116797253B (zh) * | 2022-12-13 | 2024-03-01 | 乖乖数字科技(苏州)有限公司 | 一种基于客户资源的分类管理方法 |
Also Published As
Publication number | Publication date |
---|---|
ZA202205541B (en) | 2022-10-26 |
WO2022095864A1 (zh) | 2022-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112232930A (zh) | 一种基于加权rfm模型的电商平台客户细分方法 | |
Aryuni et al. | Customer segmentation in XYZ bank using K-means and K-medoids clustering | |
CN112070125A (zh) | 一种基于孤立森林学习的不平衡数据集的预测方法 | |
US6834266B2 (en) | Methods for estimating the seasonality of groups of similar items of commerce data sets based on historical sales data values and associated error information | |
CN107563645A (zh) | 一种基于大数据的金融风险分析方法 | |
WO2015040790A1 (ja) | 払出量予測装置、払出量予測方法、記録媒体、及び払出量予測システム | |
CN115115265A (zh) | 一种基于rfm模型的消费者评估方法、装置及介质 | |
WO2015040789A1 (ja) | 商品推薦装置、商品推薦方法、及び、記録媒体 | |
Pramono et al. | Estimating customer segmentation based on customer lifetime value using two-stage clustering method | |
Daoud et al. | Combining RFM model and clustering techniques for customer value analysis of a company selling online | |
CN108230029A (zh) | 客户交易行为分析方法 | |
CN112749281A (zh) | 一种融合服务协作关系的Restful类型Web服务聚类方法 | |
Dzulhaq et al. | Customer segmentation based on RFM value using K-means algorithm | |
CN111967927A (zh) | 一种多准则计算满意度的商业采购方法 | |
Hu et al. | Classification method of internet catering customer based on improved RFM model and cluster analysis | |
CN115983622A (zh) | 一种内控协同管理系统的风险预警方法 | |
CN112418987B (zh) | 交通运输单位信用评级方法、系统、电子设备及存储介质 | |
CN117056761A (zh) | 一种基于x-dbscan算法的客户细分方法 | |
CN111339294A (zh) | 客户数据分类方法、装置及电子设备 | |
CN108268898A (zh) | 一种基于K-Means的电子发票用户聚类方法 | |
CN113554307B (zh) | 一种基于rfm模型的用户分组方法、装置及可读介质 | |
Idowu et al. | Customer Segmentation Based on RFM Model Using K-Means, Hierarchical and Fuzzy C-Means Clustering Algorithms | |
Ray et al. | AHP Based Data Mining for customer segmentation based on customer lifetime value | |
CN108805199B (zh) | 一种基于遗传算法的实体商业营销方法 | |
Dogan et al. | Fuzzy RFM analysis in car rental sector |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210115 |