CN113554307B - 一种基于rfm模型的用户分组方法、装置及可读介质 - Google Patents
一种基于rfm模型的用户分组方法、装置及可读介质 Download PDFInfo
- Publication number
- CN113554307B CN113554307B CN202110831035.XA CN202110831035A CN113554307B CN 113554307 B CN113554307 B CN 113554307B CN 202110831035 A CN202110831035 A CN 202110831035A CN 113554307 B CN113554307 B CN 113554307B
- Authority
- CN
- China
- Prior art keywords
- index
- user
- ordering
- calculating
- rfm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06311—Scheduling, planning or task assignment for a person or group
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/01—Customer relationship services
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Physics & Mathematics (AREA)
- Educational Administration (AREA)
- Data Mining & Analysis (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于RFM模型的用户分组方法、装置及可读介质,通过获取用户的订单数据,并对用户的订单数据进行数据清理;根据数据清理后的订单数据,计算用户的最近一次下单的时间间隔R、规定时间段内的下单频率F和规定时间段内的下单总金额M三个指标;基于时间间隔R、下单频率F、下单总金额M的数值区间设置指标分箱,并通过指标分箱对时间间隔R、下单频率F、下单总金额M进行归一化,得到对应的指标值RS、FS、MS;采用熵权法确定指标对应的权重系数,并根据指标值RS、FS、MS与权重系数计算出每个指标的最终得分;将每个指标的最终得分输入K‑means聚类算法,得到用户的最优分组结果。为企业的运营、决策和项目阶段总结提供数据支持。
Description
技术领域
本发明涉及数据分类领域,具体涉及一种基于RFM模型的用户分组方法、装置及可读介质。
背景技术
随着现代企业的营销理念的转变,从之前的“以产品为中心”转变为现在的“以客户为中心”,对于企业来说用户成为占比越来越重的资源。企业对处于不同阶段的用户制定不同的服务方案。由上可以看出科学的划分出用户的组别,从而制定相应的用户服务策略,提供差异化的用户服务策略实现个性化的服务,是企业将有限的资源利益最大化的重要途径,有助于企业在激烈的市场竞争中占据优势地位。
目前RFM模型在用户细分领域被广泛应用,但是传统RFM模型的用户细分主要是根据R、F、M三个指标的均值直接将用户划分为8类,导致用户分类常常存在分类模糊问题。K-means聚类分析算法作为一种经典的迭代求解的划分聚类算法,常与RFM模型结合使用以提高用户分类精度,然而传统K-means聚类分析算法存在一定局限性,k值需要预先人工经验设定,且k值的估计非常困难;初始聚类中心随机选取而成,易造成聚类结果不准确;孤立点的存在容易造成聚类迭代次数增加,且聚类陷入局部最优;当数据属性值种类多且重要性不一致时,所使用的欧氏距离对待每个属性的重要性权重相同,导致聚类精度产生偏差。
其次,在RFM模型中,好的指标权重是关乎RFM模型性能的关键,但是在大多数RFM模型应用中,识别用户价值时使用的各指标权重相同,对用户价值评价的准确性产生了负面影响。
发明内容
针对上述提到的技术问题。本申请的实施例的目的在于提出了一种基于RFM模型的用户分组方法、装置及可读介质,来解决以上背景技术部分提到的技术问题。
第一方面,本申请的实施例提供了一种基于RFM模型的用户分组方法,包括以下步骤:
S1,获取用户的订单数据,并对用户的订单数据进行数据清理;
S2,根据数据清理后的订单数据,计算用户的最近一次下单的时间间隔R、规定时间段内的下单频率F和规定时间段内的下单总金额M三个指标;
S3,基于时间间隔R、下单频率F、下单总金额M的数值区间设置指标分箱,并通过指标分箱对步骤S2计算得到的时间间隔R、下单频率F、下单总金额M进行归一化,得到对应的指标值RS、FS、MS;
S4,采用熵权法确定指标对应的权重系数,并根据指标值RS、FS、MS与权重系数计算出每个指标的最终得分;
S5,将每个指标的最终得分输入K-means聚类算法,得到用户的最优分组结果。
在一些实施例中,步骤S3中的指标分箱具体包括:将时间间隔R、下单频率F、下单总金额M按照数值区间划分为多个分箱,每个分箱分别设置对应的指标值。
在一些实施例中,步骤S3中的归一化具体包括:将步骤S2计算得到的时间间隔R、下单频率F、下单总金额M的数值映射到对应的分箱中,得到对应的指标值RS、FS、MS。
在一些实施例中,步骤S4具体包括:先计算第i个用户的第j个指标的比重pij,
isij表示第i个用户第j个指标值,n表示用户总数;
再计算第j个指标的信息熵Ej,
第j个指标权重记为Wj,
其中,m为指标总数,根据得到的权重系数重新计算用户每个指标的最终得分,
RZ=wrRS,FZ=wfFS,MZ=wmMS;
RFMS=RZ+FZ+MZ;
其中RZ,FZ,MZ为指标的最终得分,RFMS为最终得分。
在一些实施例中,步骤S5具体包括:
S51,根据指标总数构建多个K均值模型,分别计算每个K均值模型的轮廓系数值和SSE,根据轮廓系数值和SSE选择最优类数的K均值模型;
S52,基于最优类数的K均值模型计算每类跨城网约车平台用户群的R、F、M指标的平均值,将每类用户群组的R、F和M指标的聚类中心点值与每个R、F和M指标的聚类中心点值的平均值进行比较,得到用户的最优分组结果。
在一些实施例中,选择SSE拐点处且轮廓系数值最大的聚类数建立最优类数的K均值模型。
在一些实施例中,步骤S1中的订单数据来源为城际网约车平台数据库,订单数据包括订单编号、用户编号、下单时间和支付金额。
第二方面,本申请的实施例提供了一种基于RFM模型的用户分组装置,包括:
数据清理模块,被配置为获取用户的订单数据,并对用户的订单数据进行数据清理;
指标计算模块,被配置为根据数据清理后的订单数据,计算用户的最近一次下单的时间间隔R、规定时间段内的下单频率F和规定时间段内的下单总金额M三个指标;
指标分箱模块,被配置为基于时间间隔R、下单频率F、下单总金额M的数值区间设置指标分箱,并通过指标分箱对指标计算模块计算得到的时间间隔R、下单频率F、下单总金额M进行归一化,得到对应的指标值RS、FS、MS;
得分计算模块,被配置为采用熵权法确定指标对应的权重系数,并根据指标值RS、FS、MS与权重系数计算出最终得分;
分组模块,被配置为将每个指标的最终得分输入K-means聚类算法,得到用户的最优分组结果。
第三方面,本申请的实施例提供了一种电子设备,包括一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。
第四方面,本申请的实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。
与现有技术相比,本发明具有如下有益效果:
(1)本发明面对用户属性值种类多且重要性不一致的情况,使用熵权法确定各属性权重,使聚类效果更显著精确。
(2)本发明利用轮廓系数和SSE来评价聚类效果,在多个聚类数量中挑选聚类效果最优的一个K来聚类,提升了聚类结果的准确度。
(3)本发明将聚类后每类用户群的各个指标的平均值,与全体用户的各个指标的平均值进行比较,得到每类用户群的RFM类型,使得用户分类更加细致,有利于针对不同行为模式的用户群体,制定相应用户服务策略,提供差异化营销策略。
(4)本发明利用层次分析法确定R、F和M指标权重,加权计算出每个用户对应的综合分值,相比于传统RFM模型能够更客观准确地测算出用户综合价值;将k类用户群按照综合价值的平均值由高到低进行排序,可以为平台提供进一步地决策支持,将有限资源利益最大化。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请的一个实施例可以应用于其中的示例性装置架构图;
图2为本发明的实施例的基于RFM模型的用户分组方法的流程示意图;
图3为本发明的实施例的基于RFM模型的用户分组方法的用户订单数据的示意图;
图4为本发明的实施例的基于RFM模型的用户分组方法的用户R、F、M初始值的示意图;
图5为本发明的实施例的基于RFM模型的用户分组方法的用户R、F、M分箱后的指标值的示意图;
图6为本发明的实施例的基于RFM模型的用户分组方法的每个指标的最终得分的示意图;
图7为本发明的实施例的基于RFM模型的用户分组方法的不同K值的轮廓系数的示意图;
图8为本发明的实施例的基于RFM模型的用户分组方法的不同K值的SSE的示意图;
图9为本发明的实施例的基于RFM模型的用户分组方法的4类聚类中心点值和聚类中心点均值的示意图;
图10为本发明的实施例的基于RFM模型的用户分组方法的最终的用户分类结果的示意图;
图11为本发明的实施例的基于RFM模型的用户分组装置的示意图;
图12是适于用来实现本申请实施例的电子设备的计算机装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1示出了可以应用本申请实施例的基于RFM模型的用户分组方法或基于RFM模型的用户分组装置的示例性装置架构100。
如图1所示,装置架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种应用,例如数据处理类应用、文件处理类应用等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上传的文件或数据进行处理的后台数据处理服务器。后台数据处理服务器可以对获取的文件或数据进行处理,生成处理结果。
需要说明的是,本申请实施例所提供的基于RFM模型的用户分组方法可以由服务器105执行,也可以由终端设备101、102、103执行,相应地,基于RFM模型的用户分组装置可以设置于服务器105中,也可以设置于终端设备101、102、103中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。在所处理的数据不需要从远程获取的情况下,上述装置架构可以不包括网络,而只需服务器或终端设备。
本申请的实施例以城际网约车平台为例,提出一种基于RFM模型的用户分组方法及装置。当然也不限制在城际网约车平台这个场景,也可以在其他场景中使用。
图2示出了本申请的实施例提供的一种基于RFM模型的用户分组方法,包括以下步骤:
S1,获取用户的订单数据,并对用户的订单数据进行数据清理。
具体地,从城际网约车平台数据库中提取用户的订单数据,并对用户的订单数据进行数据清理只要完成单数据,用户的订单数据主要包括id(订单编号)、passenger_id(用户编号)、appoint_time(下单时间)、total(支付金额),具体内容如图3所示。
S2,根据数据清理后的订单数据,计算用户的最近一次下单的时间间隔R、规定时间段内的下单频率F和规定时间段内的下单总金额M三个指标。
具体地,设定分析日期,根据城际网约车平台用户订单数据计算用户的最近一次下单的时间间隔R、规定时间段内的下单频率F、和规定时间段内的下单总金额M。设定分析时间段为2019年6月1日-2019年9月30日,用户的R、F、M值如图4所示。
S3,基于时间间隔R、下单频率F、下单总金额M的数值区间设置指标分箱,并通过指标分箱对步骤S2计算得到的时间间隔R、下单频率F、下单总金额M进行归一化,得到对应的指标值RS、FS、MS。
在具体的实施例中,步骤S3中的指标分箱具体包括:将时间间隔R、下单频率F、下单总金额M按照数值区间划分为多个分箱,每个分箱分别设置对应的指标值。例如在设置指标分箱过程中可以将R、F、M三个指标的数据划分为5个分箱,每个等级分别赋值1-5分,目的是用指标分箱对这些指标进行归一化,把这些指标从不同的数量值统一映射到1至5的分数区间内。例如表1是在统计时间T的打分样式表。
表1统计时间T的打分样式表
分值 | R | F | M |
1 | >t3 | [f0,f1] | [m0,m1] |
2 | (t2,t3] | (f1,f2] | (m1,m2] |
3 | (t1,t2] | (f2,f3] | (m2,m3] |
4 | (t0,t1] | (f3,f4] | (m3,m4] |
5 | <=t0 | >f4 | >m4 |
其中t0~t3,f0~f4,m0~m4为具体的数据点。
具体地,将R、F、M三个指标的数据划分为5个分箱,每个等级分别赋值1-5分,表2为统计时间为90天的指标分箱标准。
表2统计时间为三个月的指标分箱标准
分值 | R | F | M |
1 | >60 | [1,2] | [0,60] |
2 | (45,60] | (2,4] | (60,120] |
3 | (30,45] | (4,6] | (120,200] |
4 | (15,30] | (6,8] | (200,350] |
5 | <=15 | >8 | >350 |
在具体的实施例中,步骤S3中的归一化具体包括:将步骤S2计算得到的时间间隔R、下单频率F、下单总金额M的数值映射到对应的分箱中,得到对应的指标值RS、FS、MS。由上述设置的分箱对用户的R,F,M指标进行打分,得出R、F、M指标对应的指标值RS、FS、MS,例如用户1的R值为r(t1<r<t2),那么用户R值的指标值RS为3,其他指标以此类推。
具体地,由表2设置的分箱对图4中用户的R、F、M指标进行赋值,得出R、F、M指标对应的指标值RS、FS、MS,具体内容如图5所示。
S4,采用熵权法确定指标对应的权重系数,并根据指标值RS、FS、MS与权重系数计算出每个指标的最终得分。
在具体的实施例中,步骤S4具体包括:先计算第i个用户的第j个指标的比重pij,
isij表示第i个用户第j个指标值,n表示用户总数;
再计算第j个指标的信息熵Ej,
第j个指标权重记为Wj,
其中,m为指标总数,根据得到的权重系数重新计算用户每个指标的最终得分,
Rz=wrRS,FZ=wfFS,MZ=wmMS;
RFMS=RZ+FZ+MZ;
其中RZ,FZ,MZ为指标的最终得分,RFMS为最终得分。最终结果如图6所示。
S5,将每个指标的最终得分输入K-means聚类算法,得到用户的最优分组结果。
在具体的实施例中,步骤S5具体包括:
S51,根据指标总数构建多个K均值模型,分别计算每个K均值模型的轮廓系数值和SSE,根据轮廓系数值和SSE选择最优类数的K均值模型;
S52,基于最优类数的K均值模型计算每类跨城网约车平台用户群的R、F、M指标的平均值,将每类用户群组的R、F和M指标的聚类中心点值与每个R、F和M指标的聚类中心点值的平均值进行比较,得到用户的最优分组结果。
在具体的实施例中,考虑到RFM模型有3个指标,每个指标得分存在大于(等于)平均值、小于平均值两种情况,一共有2×2×2=8种情况,因此最大的聚类数量为8,最小聚类个数为2。故构建7个K均值模型,分别计算每个聚类模型的轮廓系数值和SSE,轮廓系数是评价聚类好坏的一个指标,轮廓系数越大说明聚类结果越好。SSE是各个簇内的样本点到所在簇质心的距离平方和,SSE越小则说明各个类簇越收敛,通常取SSE的拐点最为最佳聚类值,利用轮廓系数值和SSE综合评价聚类模型的好坏,图7为不同K值的轮廓系数,图8为不同K值的SSE。
由图7和图8可知,在取K=2、8时聚类模型的轮廓系数最大,但是当K=2、8时聚类模型的SSE不是处在拐点处,当K=4时轮廓系数是一个峰值,聚类模型的SSE也处在拐点处聚类收敛,因此,该跨城网约车平台用户最佳划分为4类,然后建立K为4的聚类模型。
根据上步建立的K为4的聚类模型,聚类后得到每类跨城网约车平台用户群组的聚类中心点值Ri、Fi、Mi(i为第i个类,i<=4),将得到的每类跨城网约车平台用户群组的聚类中心点值Ri、Fi、Mi与每个聚类中心点值的平均值Ravg、Favg和Mavg进行比较。每个聚类中心点值的平均值Ravg、Favg和Mavg的计算公式如下:
例如图8中第一个聚类中心点值R1=0.9486比Ravg=0.9048大,那么R1的标识就是↑,同理可得F1为↓,M1为↑。在对照表3中↑↓↑可得出第一个聚类的用户为重要发展用户,依次类推得到其他用户聚类的用户类型,如表3所示,最终得到跨城网约车平台用户群组的RFM类型为一般发展用户、一般挽留用户、重要发展用户、重要价值用户。图9为4类聚类中心点的值和聚类中心点均值,图10为最终的用户分类结果。
表3根据RFM模型指标用户分类的结果
R | F | M | 用户类型 |
↑ | ↑ | ↑ | 重要价值用户 |
↑ | ↑ | ↓ | 一般价值用户 |
↑ | ↓ | ↑ | 重要发展用户 |
↓ | ↑ | ↑ | 重要保持用户 |
↑ | ↓ | ↓ | 一般发展用户 |
↓ | ↑ | ↓ | 一般保持用户 |
↓ | ↓ | ↑ | 重要挽留用户 |
↓ | ↓ | ↓ | 一般挽留用户 |
进一步参考图11,作为对上述各图所示方法的实现,本申请提供了一种基于RFM模型的用户分组装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
本申请实施例提供了一种基于RFM模型的用户分组装置,包括:
数据清理模块1,被配置为获取用户的订单数据,并对用户的订单数据进行数据清理;
指标计算模块2,被配置为根据数据清理后的订单数据,计算用户的最近一次下单的时间间隔R、规定时间段内的下单频率F和规定时间段内的下单总金额M三个指标;
指标分箱模块3,被配置为基于时间间隔R、下单频率F、下单总金额M的数值区间设置指标分箱,并通过指标分箱对指标计算模块计算得到的时间间隔R、下单频率F、下单总金额M进行归一化,得到对应的指标值RS、FS、MS;
得分计算模块4,被配置为采用熵权法确定指标对应的权重系数,并根据指标值RS、FS、MS与权重系数计算出每个指标的最终得分;
分组模块5,被配置为将每个指标的最终得分输入K-means聚类算法,得到用户的最优分组结果。
下面参考图12,其示出了适于用来实现本申请实施例的电子设备(例如图1所示的服务器或终端设备)的计算机装置1200的结构示意图。图12示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图12所示,计算机装置1200包括中央处理单元(CPU)1201和图形处理器(GPU)1202,其可以根据存储在只读存储器(ROM)1203中的程序或者从存储部分1209加载到随机访问存储器(RAM)1204中的程序而执行各种适当的动作和处理。在RAM 1204中,还存储有装置1200操作所需的各种程序和数据。CPU 1201、GPU1202、ROM 1203以及RAM 1204通过总线1205彼此相连。输入/输出(I/O)接口1206也连接至总线1205。
以下部件连接至I/O接口1206:包括键盘、鼠标等的输入部分1207;包括诸如、液晶显示器(LCD)等以及扬声器等的输出部分1208;包括硬盘等的存储部分1209;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1210。通信部分1210经由诸如因特网的网络执行通信处理。驱动器1211也可以根据需要连接至I/O接口1206。可拆卸介质1212,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1211上,以便于从其上读出的计算机程序根据需要被安装入存储部分1209。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1210从网络上被下载和安装,和/或从可拆卸介质1212被安装。在该计算机程序被中央处理单元(CPU)1201和图形处理器(GPU)1202执行时,执行本申请的方法中限定的上述功能。
需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。计算机可读介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的装置、装置或器件,或者任意以上的组合。计算机可读介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行装置、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行装置、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的装置来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取用户的订单数据,并对用户的订单数据进行数据清理;根据数据清理后的订单数据,计算用户的最近一次下单的时间间隔R、规定时间段内的下单频率F和规定时间段内的下单总金额M三个指标;基于时间间隔R、下单频率F、下单总金额M的数值区间设置指标分箱,并通过指标分箱对步骤S2计算得到的时间间隔R、下单频率F、下单总金额M进行归一化,得到对应的指标值RS、FS、MS;采用熵权法确定指标对应的权重系数,并根据指标值RS、Fs、Ms与权重系数计算出每个指标的最终得分;将每个指标的最终得分输入K-means聚类算法,得到用户的最优分组结果。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (9)
1.一种基于RFM模型的用户分组方法,其特征在于,包括以下步骤:
S1,获取用户的订单数据,并对用户的订单数据进行数据清理;
S2,根据数据清理后的订单数据,计算用户的最近一次下单的时间间隔R、规定时间段内的下单频率F和规定时间段内的下单总金额M三个指标;
S3,基于时间间隔R、下单频率F、下单总金额M的数值区间设置指标分箱,并通过指标分箱对所述步骤S2计算得到的所述时间间隔R、下单频率F、下单总金额M进行归一化,得到对应的指标值RS、FS、MS;
S4,采用熵权法确定所述指标对应的权重系数,并根据所述指标值RS、FS、MS与所述权重系数计算出每个指标的最终得分,所述步骤S4具体包括:先计算第i个用户的第j个指标的比重pij,
isij表示第i个用户第j个指标值,n表示用户总数;
再计算第j个指标的信息熵Ej,
第j个指标权重记为Wj,
其中,m为指标总数,根据得到的权重系数重新计算用户每个指标的最终得分,
RZ=wrRS,FZ=wfFS,MZ=wmMS;
RFMS=RZ+FZ+MZ;
其中RZ,FZ,MZ为指标的最终得分,RFMS为最终得分;
S5,将所述每个指标的最终得分输入K-means聚类算法,得到所述用户的最优分组结果。
2.根据权利要求1所述的基于RFM模型的用户分组方法,其特征在于,所述步骤S3中的指标分箱具体包括:将时间间隔R、下单频率F、下单总金额M按照数值区间划分为多个分箱,每个分箱分别设置对应的指标值。
3.根据权利要求2所述的基于RFM模型的用户分组方法,其特征在于,所述步骤S3中的归一化具体包括:将所述步骤S2计算得到的所述时间间隔R、下单频率F、下单总金额M的数值映射到对应的分箱中,得到对应的指标值RS、FS、MS。
4.根据权利要求3所述的基于RFM模型的用户分组方法,其特征在于,所述步骤S5具体包括:
S51,根据所述指标总数构建多个K均值模型,分别计算每个K均值模型的轮廓系数值和SSE,SSE是各个簇内的样本点到所在簇质心的距离平方和,根据所述轮廓系数值和SSE选择最优类数的K均值模型;
S52,基于所述最优类数的K均值模型计算每类跨城网约车平台用户群的R、F、M指标的平均值,将每类用户群组的R、F和M指标的聚类中心点值与每个R、F和M指标的所述聚类中心点值的平均值进行比较,得到所述用户的最优分组结果。
5.根据权利要求4所述的基于RFM模型的用户分组方法,其特征在于,选择所述SSE拐点处且所述轮廓系数值最大的聚类数建立最优类数的K均值模型。
6.根据权利要求1-5中任一项所述的基于RFM模型的用户分组方法,其特征在于,所述步骤S1中的订单数据来源为城际网约车平台数据库,所述订单数据包括订单编号、用户编号、下单时间和支付金额。
7.一种基于RFM模型的用户分组装置,其特征在于,包括:
数据清理模块,被配置为获取用户的订单数据,并对用户的订单数据进行数据清理;
指标计算模块,被配置为根据数据清理后的订单数据,计算用户的最近一次下单的时间间隔R、规定时间段内的下单频率F和规定时间段内的下单总金额M三个指标;
指标分箱模块,被配置为基于时间间隔R、下单频率F、下单总金额M的数值区间设置指标分箱,并通过指标分箱对所述指标计算模块计算得到的所述时间间隔R、下单频率F、下单总金额M进行归一化,得到对应的指标值RS、FS、MS;
得分计算模块,被配置为采用熵权法确定所述指标对应的权重系数,并根据所述指标值RS、FS、MS与所述权重系数计算出每个指标的最终得分,所述得分计算模块具体包括:先计算第i个用户的第j个指标的比重pij,
isij表示第i个用户第j个指标值,n表示用户总数;
再计算第j个指标的信息熵Ej,
第j个指标权重记为Wj,
其中,m为指标总数,根据得到的权重系数重新计算用户每个指标的最终得分,RZ=wrRS,FZ=wfFS,MZ=wmMS;
RFMS=RZ+FZ+MZ;
其中RZ,FZ,MZ为指标的最终得分,RFMS为最终得分;
分组模块,将所述每个指标的最终得分输入K-means聚类算法,得到所述用户的最优分组结果。
8.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110831035.XA CN113554307B (zh) | 2021-07-22 | 2021-07-22 | 一种基于rfm模型的用户分组方法、装置及可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110831035.XA CN113554307B (zh) | 2021-07-22 | 2021-07-22 | 一种基于rfm模型的用户分组方法、装置及可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113554307A CN113554307A (zh) | 2021-10-26 |
CN113554307B true CN113554307B (zh) | 2023-05-26 |
Family
ID=78132482
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110831035.XA Active CN113554307B (zh) | 2021-07-22 | 2021-07-22 | 一种基于rfm模型的用户分组方法、装置及可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113554307B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114331526A (zh) * | 2021-12-27 | 2022-04-12 | 商派软件有限公司 | 针对用户的建模和分析方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111275485A (zh) * | 2020-01-17 | 2020-06-12 | 国家电网有限公司客户服务中心 | 基于大数据分析的电网客户等级划分方法、系统、计算机设备及存储介质 |
CN112232930A (zh) * | 2020-11-05 | 2021-01-15 | 西安邮电大学 | 一种基于加权rfm模型的电商平台客户细分方法 |
CN112990358A (zh) * | 2021-04-17 | 2021-06-18 | 深圳市平行线信息科技有限公司 | 基于大数据计算的x-mfrt司机画像模型在物流领域中的应用 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9606530B2 (en) * | 2013-05-17 | 2017-03-28 | International Business Machines Corporation | Decision support system for order prioritization |
-
2021
- 2021-07-22 CN CN202110831035.XA patent/CN113554307B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111275485A (zh) * | 2020-01-17 | 2020-06-12 | 国家电网有限公司客户服务中心 | 基于大数据分析的电网客户等级划分方法、系统、计算机设备及存储介质 |
CN112232930A (zh) * | 2020-11-05 | 2021-01-15 | 西安邮电大学 | 一种基于加权rfm模型的电商平台客户细分方法 |
CN112990358A (zh) * | 2021-04-17 | 2021-06-18 | 深圳市平行线信息科技有限公司 | 基于大数据计算的x-mfrt司机画像模型在物流领域中的应用 |
Non-Patent Citations (1)
Title |
---|
基于灰色关联度和K-Means++的电子商务客户价值分类;冀慧杰;倪枫;刘姜;赵燚;;计算机系统应用(09);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113554307A (zh) | 2021-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2015040790A1 (ja) | 払出量予測装置、払出量予測方法、記録媒体、及び払出量予測システム | |
US20150302432A1 (en) | Classifying, Clustering, and Grouping Demand Series | |
CN112270545A (zh) | 基于迁移样本筛选的金融风险预测方法、装置和电子设备 | |
WO2015040789A1 (ja) | 商品推薦装置、商品推薦方法、及び、記録媒体 | |
CN109685537B (zh) | 用户行为的分析方法、装置、介质和电子设备 | |
CN108596637B (zh) | 一种电商服务问题自动发现系统 | |
CN113159355A (zh) | 数据预测方法、装置、物流货量预测方法、介质、设备 | |
CN110995459A (zh) | 异常对象识别方法、装置、介质及电子设备 | |
CN115115265A (zh) | 一种基于rfm模型的消费者评估方法、装置及介质 | |
CN111191731A (zh) | 数据处理的方法、装置、存储介质及电子设备 | |
WO2023134188A1 (zh) | 指标确定方法、装置、电子设备和计算机可读介质 | |
CN113554307B (zh) | 一种基于rfm模型的用户分组方法、装置及可读介质 | |
US20210357699A1 (en) | Data quality assessment for data analytics | |
CN116596576B (zh) | 目标推荐方法及装置 | |
CN111488517A (zh) | 用于训练点击率预估模型的方法和装置 | |
US11227288B1 (en) | Systems and methods for integration of disparate data feeds for unified data monitoring | |
CN107274043B (zh) | 预测模型的质量评价方法、装置及电子设备 | |
CN115147183A (zh) | 基于云平台的芯片资源管理方法、装置、设备及存储介质 | |
CN113822390B (zh) | 用户画像构建方法、装置、电子设备和存储介质 | |
CN110008974A (zh) | 行为数据预测方法、装置、电子设备及计算机存储介质 | |
CN109934604B (zh) | 销量数据的处理方法、系统、存储介质及电子设备 | |
CN115081515A (zh) | 能效评价模型构建方法、装置、终端及存储介质 | |
CN114528378A (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN113792952A (zh) | 用于生成模型的方法和装置 | |
CN112906723A (zh) | 一种特征选择的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |