CN111091282B - 一种基于用户行为数据的客户忠诚度细分方法 - Google Patents
一种基于用户行为数据的客户忠诚度细分方法 Download PDFInfo
- Publication number
- CN111091282B CN111091282B CN201911260963.4A CN201911260963A CN111091282B CN 111091282 B CN111091282 B CN 111091282B CN 201911260963 A CN201911260963 A CN 201911260963A CN 111091282 B CN111091282 B CN 111091282B
- Authority
- CN
- China
- Prior art keywords
- loyalty
- user
- customer
- behavior
- indexes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Evolutionary Biology (AREA)
- Educational Administration (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于用户行为数据的客户忠诚度细分方法,其特征在于,包括如下步骤:基于电子商务网站企业日志数据库中的访问日志数据和企业业务数据库中的业务数据来提取用户进入网站后的访问行为和购买行为;结合电子商务环境特征与企业数据库中的实际数据,构建客户忠诚度的评价指标体系;结合层次分析法和K‑means聚类法计算客户的忠诚度指数,并获取客户的忠诚度类别。本发明在对客户忠诚度进行计量时不仅考虑到了客户历史的购买行为,还结合了客户对网站的访问行为,能够更加准确的根据忠诚度对客户进行分类,分析各忠诚度组别间客户的行为差异,帮助电子商务企业识别各忠诚度类别下的客户行为特征,为电子商务企业如何建立和保持客户忠诚度提供决策支持。
Description
技术领域
本发明涉及互联网技术领域,特别是涉及一种基于用户行为数据的客户忠诚度细分方法。
背景技术
电子商务的稳步发展促使更多的传统企业和新型企业开始涌入电商行业,电商行业中企业间的竞争由此进一步加剧,如何在激烈的竞争市场中维持现有客户并不断吸引更多的新客户已成为电子商务企业共同的难题。客户忠诚度,被定义为客户对某一产品或服务的有利态度并最终导致购买,一直是传统消费者营销研究中营销理论和实践的核心主题。忠诚的客户会为企业带来诸如增加交叉销售、口碑传播、访问次数、购买与回购意愿等益处,对于电子商务企业提高其自身盈利能力,获得和保持竞争优势是至关重要的。然而,相比于传统环境,在线环境使得消费者可以更方便地搜集各种产品及其相似产品的信息,其较低的转换成本导致了消费者行为的不稳定性,因而,电子商务企业客户的忠诚度普通处于较低的水平,留住客户变得更为困难。因此,面对广阔的潜在客户市场和激烈的竞争环境,电子商务企业需要关注的主要目标在于如何建立和保持消费者的电子忠诚度。
现有的客户忠诚度评估相关的研究中(申请专利号:CN108776931A,CN106372670A),研究者一般基于客户购买行为数据,通过RFM模型提取少数客户行为指标,结合聚类、分类等方法将客户分为不同的忠诚度组。上述研究在衡量客户的忠诚度时,主要提取的客户购买行为指标为购买行为指标,不能更进一步的区分不同忠诚度客户行为模式之间的差异。因此需要构建一种更完善的客户忠诚度评价指标体系来为电子商务企业提供更为准确的客户忠诚度分类模型及行为特征分析。
发明内容
本发明所要解决的技术问题是克服现有技术的不足,提供一种基于用户行为数据的客户忠诚度细分方法。
为解决上述技术问题,
本发明公开了一种基于用户行为数据的客户忠诚度细分方法,其特征在于,包括如下步骤:基于电子商务网站企业日志数据库中的访问日志数据和企业业务数据库中的业务数据来提取用户进入网站后的访问行为和购买行为;结合电子商务环境特征与企业数据库中的实际数据,构建客户忠诚度的评价指标体系;结合层次分析法和K-means聚类法计算客户的忠诚度指数,并获取客户的忠诚度类别,更具体为:
步骤A,获取电子商务企业的业务数据库中记录的所有用户购买数据和网络日志数据库中存储的一个时间段内的用户访问数据;
步骤B,数据预处理,清除无效数据,所述无效数据包括爬虫、异常访问的数据,清除与客户忠诚度评价无关的冗余字段和数据;
步骤C,构建用于客户忠诚度细分的行为指标体系,所述行为指标体系中包括客户忠诚度评价指标,将所述客户忠诚度评价指标包括访问忠诚维度的指标和购买忠诚维度的指标,在不同维度下选取具体行为指标,得到初步的客户忠诚度评价指标体系,根据所述初步的客户忠诚度评价指标体系,分别从访问数据和购买数据中提取访问行为指标和购买行为指标,并匹配同一用户的访问行为特征与购买行为特征,剔除无效的用户记录,得到用户行为特征集;
步骤D,根据步骤C提取的初步的客户忠诚度评价指标体系,运用随机森林算法对用户行为指标进行特征选择,筛选出对忠诚度分类的影响程度达到设定阈值的指标,获得最终的客户忠诚度评价指标体系;
步骤E,根据步骤D中所获得的最终的客户忠诚度评价指标体系,采用层次分析法获取最终的客户忠诚度评价指标体系中各个指标的权重,并通过计算得到每个客户的忠诚度指数;
步骤F,根据客户忠诚度指数,采用K-means聚类算法划分客户类别;
步骤G,分析不同忠诚度组别下客户行为特征的差异,进行结果可视化分析。
所述步骤A中的用户购买数据提取的时间段为业务数据库中存储的所有购买数据,用户访问数据提取的时间段为网络日志数据库中存储的至少一年以上的访问数据,
所述步骤C中所提的客户忠诚度评价指标体系是多指标结构,采用层次化结构设置指标,将其划分为三个层次,每一层次的指标均是由上层指标展开,上层指标通过下层指标的结果反映得出,其中一级指标为客户忠诚度指数;二级指标为客户忠诚度评价维度,包括访问忠诚和购买忠诚;三级指标为所述二级指标对应的评估指标,共包含如下表所述的18个用户行为指标:
所述步骤C中所提的访问行为指标的提取步骤包括用户识别、会话识别和特征计算,具体步骤如下:
用户识别是通过网络日志数据中的VINFO字段区别不同用户的访问记录;
会话识别是对同一用户的多次访问进行划分,采用设定页面访问时间阈值的方式切分会话,即设定页面访问阈值为30分钟,单一页面访问时间超过30分钟时划分为两次会话;
特征计算是根据步骤C构建的客户忠诚度评价指标体系提取访问行为指标,通过VINFO字段联立各日志表,通过SQL程序计算每个用户的访问特征,合并特征获得用户访问行为特征数据集;
所述步骤C中所提的购买行为指标的提取步骤包括用户识别和特征计算,具体步骤如下:
用户识别是通过业务数据库中的LOGIN_ID字段区别不同用户的购买记录;
特征计算是根据步骤C构建的客户忠诚度评价指标体系提取购买行为指标,通过LOGIN_ID字段联立各业务表,通过SQL程序计算每个用户的购买特征,合并特征获得用户购买行为特征数据集;
所述步骤C中所提的用户访问行为特征和购买行为特征的匹配是指合并用户访问行为特征和购买行为特征获得用户行为特征数据集,具体指通过用户身份匹配表中记录的LOGIN_ID字段和VINFO字段关联用户访问行为特征数据集和用户购买行为特征数据集。
所述步骤D中所提的采用随机森林算法进行特征选择,筛选影响客户忠诚度的行为指标,具体过程为:
步骤D-1:通过选取用户未来半年内购买次数作为忠诚度分类替代指标对用户进行分类,分为未购买的用户组、购买一次的用户组以及购买一次以上的用户组,分别标记用户类别为1、2、3;
步骤D-2:采用随机森林算法进行特征选择,基于Gini不纯度的方法计算得到各个特征的平均精度下降重要性评分(mean decrease gini),移除指数小于设定阈值的特征,所述阈值根据平均精度下降重要性评分的下降趋势确定,其中Gini系数不纯度的计算公式为:
在上式中,Q表示目标变量的类别总数,p(k/t)表示在节点t中目标变量为第k类的条件概率,根据上式计算各特征在每棵树的Gini不纯度下降值,再计算所有结果的平均值得到平均精度下降重要性评分,即该值越大表示变量的重要性越大。
所述步骤E中所提的采用层次分析法确定指标权重,具体步骤如下:
步骤E-1:根据指标体系设计调查问卷,对从属于上一层每个因素的同一层次的因素进行客观判断,即利用1-9标度法对指标进行两两比较,对指标间的相对重要性打分,得到指标重要性的判断矩阵P1,P21,P22,其中P1为二级指标间重要性比较矩阵,P21为访问忠诚维度下的三级指标间重要性比较矩阵,P22为购买忠诚维度下的三级指标间重要性比较矩阵;
步骤E-2:通过各个判断矩阵分别计算权向量,设判断矩阵P*内有n个指标,则pij为第i个指标相对于第j个指标的重要性,其中i,j∈[1,n],对每一列进行归一化处理得:
其中,∑pij的值为各列的和,由此可得新矩阵Q*,对Q*中每一行求和,即得到特征向量,特征向量归一化处理后,即为各个指标的权重,具体公式如下:
步骤E-3,对各个判断矩阵分别进行一致性检验,即利用一致性指标、随机一致性指标和一致性比率检验矩阵的一致性,其中,一致性比率CR的具体计算公式为:
在上式中,CI表示一致性指标,RI表示随机一致性指标,具体计算公式如:
在上式中,λmax(P*)为判断矩阵P*的最大特征根,n为矩阵P*的维度,随机一致性指标RI根据矩阵的维度查表所得,具体参数如下表所示:
n | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
RI | 0.00 | 0.00 | 0.58 | 0.90 | 1.12 | 1.24 | 1.32 | 1.41 | 1.45 |
一致性检验是否通过的具体判断标准为:当CR<0.1时,认为判断矩阵通过一致性检验,可用其归一化特征向量作为权向量;否则,重新调整判断矩阵直到通过一致性检验,具体的调整方法为采用偏差最大项修正法重新构造判断矩阵,方法描述如下:
根据判断矩阵P*的权向量W=(w1,w2,…,wn)T,重新构建一个判断矩阵R*=(rij)=(wi/wj),计算偏差矩阵
Δ=(δij)=(|pij-rij|)
对δij最大项对应的pij进行修正,令pij=rij,pji=rji代入原来的矩阵P*,形成新的判断矩阵。按照此步骤逐步调整,一致性将不断改善,直到满足要求。
所述步骤E-1中所提的1-9标度法,数字标度的含义如下表所示:
重要性级别 | 含义 | 说明 |
1 | 同样重要 | 两因素比较,具有相同重要性 |
3 | 稍微重要 | 两因素比较,一个因素比另一个稍微重要 |
5 | 明显重要 | 两因素比较,一个因素比另一个明显重要 |
7 | 非常重要 | 两因素比较,一个因素比另一个重要的多 |
9 | 极端重要 | 两因素比较,一个因素比另一个极端重要 |
2、4、6、8 | —— | 上述相邻判断的中间值 |
。
所述步骤E中所提的客户忠诚度指数的计算,具体公式如下:
loyalt=αvisitt+βpurchaset
其中loyalt表示用户t的忠诚度评分,visitt表示访问忠诚评分,purchaset表示购买忠诚评分,α和β分别对应访问忠诚和购买忠诚的权重;其中visitt和purchaset的计算公式为:
visitt=α1A1t+α2A2t+…+αmAmt
purchaset=β1B1t+β2B2t+…+βnBnt
其中Ai(i=1,2,…m)和Bj(j=1,2,…n)分别表示用户访问行为特征和购买行为特征,即特征选择后筛选出的访问忠诚和购买忠诚维度下的三级指标;αi(i=1,2,…m)和βj(j=1,2,…n)表示各个行为特征的权重。
所述步骤F中所提的采用K-means算法对客户进行聚类,具体步骤如下:
步骤F-1,以D={x1,x2,…xt}表示用户集,k表示聚类的簇数,N表示最大迭代次数,C={C1,C2,…Ck}表示划分的簇;
步骤F-2,从数据集D中随机选择k个样本作为初始的聚类中心{μ1,μ2,…μk};
步骤F-3,对任意一个样本点xi(i=1,2,…,t),分别计算其到k个聚类中心μj(j=1,2,…,k)的距离,将其划分到距离它最近的中心点所代表的簇中,计算距离的具体公式为:
步骤F-4,对簇Cj(j=1,2,…,k)中所有样本点重新计算聚类中心μj(j=1,2,…,k),具体公式为:
步骤F-5,重复步骤F-3、F-4,对k个聚类中心μj(j=1,2,…,k)进行迭代更新,直到达到稳定状态,所述稳定状态包括聚类中心不变、达到最大迭代次数N和达到设定的容错范围,迭代结束,输出聚类结果。
所述步骤F-1中所提的聚类中心数目k值的确定采用样本聚类误差平方和SSE(sumof the squared errors),具体计算公式为:
其中,k为聚类数量,x为样本,μj为第j个簇的中心点;随着k值的增大,SSE值会迅速下降,当聚类效果达到最佳时,随着k值的增加SSE的下降会趋于平缓。因此,以k为x轴,以SSE为y轴,绘制SSE随k增加的下降趋势图,通过图形观察,选择SSE下降趋势图的拐点处所对应的k值为最佳聚类数。
所述步骤G中所提的不同忠诚度组别下客户行为特征的差异分析,具体为,利用单因素方差分析确定各特征在不同组别间是否存在显著差异,通过多重比较分析各组间具体在各个行为特征上存在的行为差异,对结果进行可视化分析。
本发明所达到的有益效果:本发明通过对企业网络访问日志数据和业务数据的利用和挖掘,结合客户的购买行为和访问行为来构建客户忠诚度评价的指标体系,并采用层次分析法确定各个行为指标对客户忠诚度的影响程度,得到各个企业客户的忠诚度指数及其所属的忠诚度组;更进一步,本发明分析不同忠诚度组的客户行为模式间的差异,为电子商务企业针对不同忠诚度客户优化营销策略提供科学的决策支持。本发明在对客户忠诚度进行细分时,不仅考虑了客户在企业所发生的购买行为,还考虑了客户对企业站点的访问行为数据,能更加准确的对客户忠诚度进行计算和分类,并且准确的分类使得电子商务企业能够更准确地了解不同忠诚度客户行为特征间的差异,为电子商务企业更好地制定营销策略提供决策支持。
附图说明
图1为本发明的示例性实施例的方法流程图;
图2为本发明的示例性实施例中的客户忠诚度评价指标体系的示意图;
图3为本发明的示例性实施例中的数据预处理的流程图。
具体实施方式
下面结合附图和示例性实施例对本发明作进一步的说明:
图1描述了如何基于用户访问数据来实现客户忠诚度细分的整个流程,具体实现如下:
步骤101:获取用户历史购买数据,获取一个时间段内(一年及以上)的用户访问数据,即获取一段时间内(一年及以上)的某家电子商务企业的网络日志数据库中记录的客户访问数据以及无时间段限制的业务数据库中记录的客户购买数据。具体地,客户指电子商务企业活跃的消费者,即在站点有过购买记录且在一段时间内(一年及以上)有访问记录的客户。其中,网络日志数据库和业务数据库中所记录的用户行为数据是企业直接记录的用户在访问企业网站期间所发生的一系列访问行为和购买行为,而非借助外部爬虫爬取的数据,因此,数据能真实且完整地反映客户在站点的访问路径和购买历史。
步骤102:数据清洗,清除爬虫等无效数据以及与客户忠诚度细分研究无关的字段和数据,得到基础数据集。具体来说,无效访问数据包括:爬虫访问、内部人员测试、页面跳转及提示等访问信息所产生的无效记录。需要保留的字段是与客户忠诚度细分研究提取指标相关的字段,包括ID、VINFO、访问日期、访问时间、访问页面名、购买金额、购买日期等。
步骤103:结合客户忠诚度细分相关的文献研究、电子商务环境的特点以及企业业务流程特征,构建电子商务企业客户忠诚度评价的指标体系,提取客户行为特征数据集。具体来说,客户忠诚度评价主要通过访问行为和购买行为两个维度展开,具体构建方式如图2所示,采用层次化结构设置指标,将其划分为三个层次,每一层次的指标均是由上层指标展开,上层指标通过下层指标的结果反映得出,其中一级指标为客户忠诚度指数;二级指标为客户忠诚度评价维度,包括访问忠诚和购买忠诚;三级指标为所述二级指标对应的评估指标,共包含如下表1所述的18个用户行为指标:
表1
需要说明的是,访问行为与购买行为指标提取时间段的不同是由于购买行为用于反映客户在企业所积累的创造价值,是一个长期的过程;而访问行为用于反映客户的活跃程度,是对客户近期企业活动的描述。此外,根据提取时间段的不同可以帮助排除潜在客户与流失客户对结果的干扰。
根据所构建的客户忠诚度评价指标体系,其行为特征提取的具体过程如图3所示。由于访问行为数据和购买行为数据记录的形式不同,分别从访问行为特征集和购买行为特征集中提取访问行为特征和购买行为特征。具体而言,访问行为数据以VINFO区分各个客户,属于点击流数据,以客户的单次点击行为表示单条记录,记录包括客户的访问日期、访问时长、访问来源等字段,因此,访问行为特征提取的具体步骤包括:
步骤301:根据VINFO字段进行用户识别,指区分网络日志数据库中属于同一用户的访问记录,通过VINFO字段区别不同用户的访问记录,即VINFO相同的记录属于同一用户,否则属于不同用户;
步骤302:会话识别,指对同一用户的多次访问进行划分,常见的会话切分的方式有设定会话持续时间阈值、设定页面访问时间阈值和访问参引页划分三种方式,本发明中采用设定页面访问时间阈值的方式切分会话,即设定页面访问阈值为30分钟,在同一用户的访问记录中,按照单一页面停留时间大于30分钟切分会话。也就是说,在本发明中,对一次访问的定义为在客户的连续页面访问中,单一页面停留时间不超过30分钟归为同一次访问;当单一页面停留时间超过30分钟,则划分为两次访问。
步骤303:计算每个用户的访问行为特征,指根据本发明所构建的客户忠诚度评价指标体系提取访问行为指标,通过VINFO字段联立各日志表,通过SQL程序计算每个用户的访问特征,每个用户的访问行为对应一条特征数据,合并获得用户访问行为特征数据集。
在购买行为特征的提取方面,客户购买数据存储在企业的业务数据库中,以LOGIN_ID区分各个客户,LOGIN_ID是客户注册时企业所生成的客户标识码,每条记录对应与单个客户单次的购买行为,由此,购买行为特征提取的具体步骤如下:
步骤304:根据LOGIN_ID字段进行用户识别,指区分业务数据库中属于同一客户的购买记录,通过LOGIN_ID字段区别不同客户的购买记录;
步骤305:计算每个用户的购买行为特征,指根据本发明构建的客户忠诚度评价指标体系提取购买行为指标,通过LOGIN_ID字段联立各业务表,通过SQL程序计算每个用户的购买特征,每个用户的购买行为对应一条特征数据,合并获得用户购买行为特征数据集。
步骤306在分别提取了客户的访问行为特征和购买行为特征后,合并属于同一用户的访问行为特征和购买行为特征,具体指根据用户日志匹配表中记录的LOGIN_ID和VINFO的对应关系,匹配属于同一用户的访问行为特征和购买行为特征。
步骤307剔除与本研究无关的用户记录,包括仅含访问行为特征的潜在客户记录和仅含购买行为特征的流失客户记录。由于本发明所针对的是电子商务企业的活跃用户,这一活跃表现为曾在企业发生过购买且近期对企业站点进行访问。因此,需要剔除的记录为仅含访问行为的潜在客户与仅含购买行为的流失客户,保留的客户记录构成用户行为特征集。
步骤104:根据提取的用户行为特征集,采用随机森林算法进行特征选择,确定客户忠诚度评价指标体系,具体过程为:
第一步:通过选取用户未来半年内购买次数作为忠诚度分类替代指标对用户进行分类,分为未购买的用户组、购买一次的用户组以及购买一次以上的用户组,分别标记用户类别为1、2、3;
第二步:采用随机森林算法进行特征选择,基于Gini不纯度的方法计算得到各个特征的平均精度下降重要性评分(mean decrease gini),移除指数小于设定阈值的特征,阈值根据平均精度下降重要性评分的下降趋势确定,具体而言,将平均精度下降重要性评分按从高到低排序,相邻两指标间的下降幅度相对均匀,当出现相邻两指标间平均精度下降重要性评分下降幅度明显增大时,以此为分界线,过滤分界线以下的指标。其中Gini系数不纯度的计算公式为:
在上式中,Q表示目标变量的类别总数,p(k/t)表示在节点t中目标变量为第k类的条件概率。根据上式计算各特征在每棵树的Gini不纯度下降值,再计算所有结果的平均值得到平均精度下降重要性评分,该值越大表示变量的重要性越大。
步骤105:根据筛选指标后确定的最终客户忠诚度评价指标体系,采用层次分析法获取客户忠诚度评价指标体系中各个指标的权重,并通过计算得到所有客户的忠诚度指数,具体步骤如下:
第一步:根据指标体系设计调查问卷,请专家对从属于上一层每个因素的同一层次的因素进行客观判断,即利用1-9标度法对指标进行两两比较,对指标间的相对重要性打分,得到指标重要性的判断矩阵P1,P21,P22,其中P1为二级指标间重要性比较矩阵,P21为访问忠诚维度下的三级指标间重要性比较矩阵,P22为购买忠诚维度下的三级指标间重要性比较矩阵;
第二步:通过各个判断矩阵分别计算权向量。设判断矩阵P*内有n个指标,则pij为第i个指标相对于第j个指标的重要性,其中i,j∈[1,n],对每一列进行归一化处理得:
其中,∑pij的值为各列的和,由此可得新矩阵Q*。对Q*中每一行求和,即得到特征向量,特征向量归一化处理后,即为各个指标的权重,具体公式如下:
第三步,对各个判断矩阵分别进行一致性检验,即利用一致性指标、随机一致性指标和一致性比率检验矩阵的一致性。其中,一致性比率CR的具体计算公式为:
在上式中,CI表示一致性指标,RI表示随机一致性指标,具体计算公式如:
在上式中,λmax(P*)为判断矩阵P*的最大特征根,n为矩阵P*的维度。而随机一致性指标RI根据矩阵的维度查表所得,具体参数如下表2所示:
表2
n | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
RI | 0.00 | 0.00 | 0.58 | 0.90 | 1.12 | 1.24 | 1.32 | 1.41 | 1.45 |
一致性检验是否通过的具体判断标准为:当CR<0.1时,认为判断矩阵通过一致性检验,可用其归一化特征向量作为权向量;否则,则需要重新调整判断矩阵直到通过一致性检验。
具体的调整方法为采用偏差最大项修正法重新构造判断矩阵,方法描述如下:
根据判断矩阵P*的权向量W=(w1,w2,…,wn)T,重新构建一个判断矩阵R*=(rij)=(wi/wj),计算偏差矩阵
Δ=(δij)=(|pij-rij|)
对δij最大项对应的pij进行修正,令pij=rij,pji=rji代入原来的矩阵P*,形成新的判断矩阵。按照此步骤逐步调整,一致性将不断改善,直到满足要求。
需要说明的是,在专家打分中所提及的1-9标度法的数字含义如下表3所示:
表3
重要性级别 | 含义 | 说明 |
1 | 同样重要 | 两因素比较,具有相同重要性 |
3 | 稍微重要 | 两因素比较,一个因素比另一个稍微重要 |
5 | 明显重要 | 两因素比较,一个因素比另一个明显重要 |
7 | 非常重要 | 两因素比较,一个因素比另一个重要的多 |
9 | 极端重要 | 两因素比较,一个因素比另一个极端重要 |
2、4、6、8 | —— | 上述相邻判断的中间值 |
根据通过一致性检验后,根据所得到的各个特征的权重计算每个客户的忠诚度指数,具体计算方法如下:
loyalt=αvisitt+βpurchaset
其中loyalt表示用户t的忠诚度评分,visitt表示访问忠诚评分,purchaset表示购买忠诚评分,α和β分别对应访问忠诚和购买忠诚的权重;其中visitt和purchaset的计算公式为:
visitt=α1A1t+α2A2t+…+αmAmt
purchaset=β1B1t+β2B2t+…+βnBnt
其中Ai(i=1,2,…m)和Bj(j=1,2,…n)分别表示用户访问行为特征和购买行为特征,即特征选择后筛选出的访问忠诚和购买忠诚维度下的三级指标;αi(i=1,2,…m)和βj(j=1,2,…n)表示各个行为特征的权重。
步骤106:根据客户忠诚度指数,采用K-means聚类算法划分客户类别,得到各个客户所属的忠诚度类别,具体步骤如下:
第一步,以D={x1,x2,…xt}表示用户集,k表示聚类的簇数,N表示最大迭代次数,C={C1,C2,…Ck}表示划分的簇。其中,聚类中心数目k值的确定采用样本聚类误差平方和,其核心指标为误差平方和SSE(sum of the squared errors),具体计算公式为:
其中,k为聚类数量,x为样本,μj为第j个簇的中心点;随着k值的增大,SSE值会迅速下降,当聚类效果达到最佳时,随着k值的增加SSE的下降会趋于平缓。因此,以k为x轴,以SSE为y轴,绘制SSE随k增加的下降趋势图,通过图形观察,选择SSE下降趋势图的拐点处所对应的k值为最佳聚类数。
第二步,从数据集D中随机选择k个样本作为初始的聚类中心{μ1,μ2,…μk};
第三步,对任意一个样本点xi(i=1,2,…,t),分别计算其到k个聚类中心μj(j=1,2,…,k)的距离,将其划分到距离它最近的中心点所代表的簇中,计算距离的具体公式为:
第四步,对簇Cj(j=1,2,…,k)中所有样本点重新计算聚类中心μj(j=1,2,…,k),具体公式为:
第五步,重复第三、四步对k个聚类中心μj(j=1,2,…,k)进行迭代更新,直到聚类中心不变或达到最大迭代次数N或达到设定的容错范围,认为达到稳定状态,迭代结束,输出聚类结果。
步骤107:根据所得到的客户忠诚度分类,采用方差分析、多重比较分析不同忠诚度组别下客户行为特征的差异与结果可视化,具体而言,利用单因素方差分析确定各特征在不同组别间是否存在显著差异,再通过多重比较分析各组间具体在哪些行为特征上存在哪些行为差异,以及结果的可视化分析。
本发明通过对企业网络访问日志数据和业务数据的利用和挖掘,结合客户的购买行为和访问行为来构建客户忠诚度评价的指标体系,并采用层次分析法确定各个行为指标对客户忠诚度的影响程度,得到各个企业客户的忠诚度指数及其所属的忠诚度组;更进一步,本发明分析不同忠诚度组的客户行为模式间的差异,为电子商务企业针对不同忠诚度客户优化营销策略提供科学的决策支持。本发明在对客户忠诚度进行细分时,不仅考虑了客户在企业所发生的购买行为,还考虑了客户对企业站点的访问行为数据,能更加准确的对客户忠诚度进行计算和分类,并且准确的分类使得电子商务企业能够更准确地了解不同忠诚度客户行为特征间的差异,为电子商务企业更好地制定营销策略提供决策支持。
以上实施例不以任何方式限定本发明,凡是对以上实施例以等效变换方式做出的其它改进与应用,都属于本发明的保护范围。
Claims (8)
1.一种基于用户行为数据的客户忠诚度细分方法,其特征在于,包括如下步骤:基于电子商务网站企业日志数据库中的访问日志数据和企业业务数据库中的业务数据来提取用户进入网站后的访问行为和购买行为;结合电子商务环境特征与企业数据库中的实际数据,构建客户忠诚度的评价指标体系;结合层次分析法和K-means聚类法计算客户的忠诚度指数,并获取客户的忠诚度类别,更具体为:
步骤A,获取电子商务企业的业务数据库中记录的所有用户购买数据和网络日志数据库中存储的一个时间段内的用户访问数据;
步骤B,数据预处理,清除无效数据,所述无效数据包括爬虫、异常访问的数据,清除与客户忠诚度评价无关的冗余字段和数据;
步骤C,构建用于客户忠诚度细分的行为指标体系,所述行为指标体系中包括客户忠诚度评价指标,所述客户忠诚度评价指标包括访问忠诚维度的指标和购买忠诚维度的指标,在不同维度下选取具体行为指标,得到初步的客户忠诚度评价指标体系,根据所述初步的客户忠诚度评价指标体系,分别从访问数据和购买数据中提取访问行为指标和购买行为指标,并匹配同一用户的访问行为特征与购买行为特征,剔除无效的用户记录,得到用户行为特征集;
所述步骤C中所提的客户忠诚度评价指标体系是多指标结构,采用层次化结构设置指标,将其划分为三个层次,每一层次的指标均是由上层指标展开,上层指标通过下层指标的结果反映得出,其中一级指标为客户忠诚度指数;二级指标为客户忠诚度评价维度,包括访问忠诚和购买忠诚;三级指标为所述二级指标对应的评估指标,共包含如下表所述的18个用户行为指标:
所述步骤C中所提的访问行为指标的提取步骤包括用户识别、会话识别和特征计算,具体步骤如下:
用户识别是通过网络日志数据中的VINFO字段区别不同用户的访问记录;
会话识别是对同一用户的多次访问进行划分,采用设定页面访问时间阈值的方式切分会话,即设定页面访问阈值为30分钟,单一页面访问时间超过30分钟时划分为两次会话;
特征计算是根据步骤C构建的客户忠诚度评价指标体系提取访问行为指标,通过VINFO字段联立各日志表,通过SQL程序计算每个用户的访问特征,合并特征获得用户访问行为特征数据集;
所述步骤C中所提的购买行为指标的提取步骤包括用户识别和特征计算,具体步骤如下:
用户识别是通过业务数据库中的LOGIN_ID字段区别不同用户的购买记录;
特征计算是根据步骤C构建的客户忠诚度评价指标体系提取购买行为指标,通过LOGIN_ID字段联立各业务表,通过SQL程序计算每个用户的购买特征,合并特征获得用户购买行为特征数据集;
所述步骤C中所提的用户访问行为特征和购买行为特征的匹配是指合并用户访问行为特征和购买行为特征获得用户行为特征数据集,具体指通过用户身份匹配表中记录的LOGIN_ID字段和VINFO字段关联用户访问行为特征数据集和用户购买行为特征数据集;
步骤D,根据步骤C提取的初步的客户忠诚度评价指标体系,运用随机森林算法对用户行为指标进行特征选择,筛选出对忠诚度分类的影响程度达到设定阈值的指标,获得最终的客户忠诚度评价指标体系;
步骤E,根据步骤D中所获得的最终的客户忠诚度评价指标体系,采用层次分析法获取最终的客户忠诚度评价指标体系中各个指标的权重,并通过计算得到每个客户的忠诚度指数;
步骤F,根据客户忠诚度指数,采用K-means聚类算法划分客户类别;
步骤G,分析不同忠诚度组别下客户行为特征的差异,进行结果可视化分析。
2.如权利要求1所述的一种基于用户行为数据的客户忠诚度细分方法,其特征在于:所述步骤A中的用户购买数据提取的时间段为业务数据库中存储的所有购买数据,用户访问数据提取的时间段为网络日志数据库中存储的至少一年以上的访问数据。
3.如权利要求1所述的一种基于用户行为数据的客户忠诚度细分方法,其特征在于:所述步骤D中所提的采用随机森林算法进行特征选择,筛选影响客户忠诚度的行为指标,具体过程为:
步骤D-1:通过选取用户未来半年内购买次数作为忠诚度分类替代指标对用户进行分类,分为未购买的用户组、购买一次的用户组以及购买一次以上的用户组,分别标记用户类别为1、2、3;
步骤D-2:采用随机森林算法进行特征选择,基于Gini不纯度的方法计算得到各个特征的平均精度下降重要性评分,移除指数小于设定阈值的特征,所述阈值根据平均精度下降重要性评分的下降趋势确定,其中Gini系数不纯度的计算公式为:
在上式中,Q表示目标变量的类别总数,p(k/t)表示在节点t中目标变量为第k类的条件概率,根据上式计算各特征在每棵树的Gini不纯度下降值,再计算所有结果的平均值得到平均精度下降重要性评分,即该平均精度下降重要性评分越大表示变量的重要性越大。
4.如权利要求1所述的一种基于用户行为数据的客户忠诚度细分方法,其特征在于:所述步骤E中所提的采用层次分析法确定指标权重,具体步骤如下:
步骤E-1:根据指标体系设计调查问卷,对从属于上一层每个因素的同一层次的因素进行客观判断,即利用1-9标度法对指标进行两两比较,对指标间的相对重要性打分,得到指标重要性的判断矩阵P1,P21,P22,其中P1为二级指标间重要性比较矩阵,P21为访问忠诚维度下的三级指标间重要性比较矩阵,P22为购买忠诚维度下的三级指标间重要性比较矩阵;
步骤E-2:通过各个判断矩阵分别计算权向量,设判断矩阵P*内有n个指标,则pij为第i个指标相对于第j个指标的重要性,其中i,j∈[1,n],对每一列进行归一化处理得:
其中,∑pij的值为各列的和,由此可得新矩阵Q*,对Q*中每一行求和,即得到特征向量,特征向量归一化处理后,即为各个指标的权重,具体公式如下:
步骤E-3,对各个判断矩阵分别进行一致性检验,即利用一致性指标、随机一致性指标和一致性比率检验矩阵的一致性,其中,一致性比率CR的具体计算公式为:
在上式中,CI表示一致性指标,RI表示随机一致性指标,具体计算公式如:
在上式中,λmax(P*)为判断矩阵P*的最大特征根,n为矩阵P*的维度,随机一致性指标RI根据矩阵的维度查表所得,具体参数如下表所示:
一致性检验是否通过的具体判断标准为:当CR<0.1时,认为判断矩阵通过一致性检验,用其归一化特征向量作为权向量;否则,重新调整判断矩阵直到通过一致性检验,具体的调整方法为采用偏差最大项修正法重新构造判断矩阵,方法描述如下:
根据判断矩阵P*的权向量W=(w1,w2,…,wn)T,重新构建一个判断矩阵R*=(rij)=(wi/wj),计算偏差矩阵
Δ=(δij)=(|pij-rij|)
对δij最大项对应的pij进行修正,令pij=rij,pji=rji代入原来的矩阵P*,形成新的判断矩阵,按照此步骤逐步调整,一致性将不断改善,直到满足要求,
所述步骤E-1中所提的1-9标度法,数字标度的含义如下表所示:
5.如权利要求1所述的一种基于用户行为数据的客户忠诚度细分方法,其特征在于:所述步骤E中所提的客户忠诚度指数的计算,具体公式如下:
loyalt=αvisitt+βpurchaset
其中loyalt表示用户t的忠诚度评分,visitt表示访问忠诚评分,purchaset表示购买忠诚评分,α和β分别对应访问忠诚和购买忠诚的权重;其中visitt和purchaset的计算公式为:
visitt=α1A1t+α2A2t+…+αmAmt
purchaset=β1B1t+β2B2t+…+βnBnt
其中Ai和Bj分别表示用户访问行为特征和购买行为特征,即特征选择后筛选出的访问忠诚和购买忠诚维度下的三级指标;αi和βj表示各个行为特征的权重,其中,i=1,2,…m;j=1,2,…n。
6.如权利要求1所述的一种基于用户行为数据的客户忠诚度细分方法,其特征在于:所述步骤F中所提的采用K-means算法对客户进行聚类,具体步骤如下:
步骤F-1,以D={x1,x2,…xt}表示用户集,k表示聚类的簇数,N表示最大迭代次数,C={C1,C2,…Ck}表示划分的簇;
步骤F-2,从数据集D中随机选择k个样本作为初始的聚类中心{μ1,μ2,…μk};
步骤F-3,对任意一个样本点xi分别计算其到k个聚类中心μj的距离,将其划分到距离它最近的中心点所代表的簇中,计算距离的具体公式为:
步骤F-4,对簇Cj中所有样本点重新计算聚类中心μj,具体公式为:
步骤F-5,重复步骤F-3、F-4,对k个聚类中心μj进行迭代更新,直到达到稳定状态,所述稳定状态包括聚类中心不变、达到最大迭代次数N和达到设定的容错范围,迭代结束,输出聚类结果,其中i=1,2,…,t;j=1,2,…,k。
8.如权利要求1所述的一种基于用户行为数据的客户忠诚度细分方法,其特征在于:所述步骤G中所提的不同忠诚度组别下客户行为特征的差异分析,具体为,利用单因素方差分析确定各特征在不同组别间是否存在显著差异,通过多重比较分析各组间具体在各个行为特征上存在的行为差异,对结果进行可视化分析。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911260963.4A CN111091282B (zh) | 2019-12-10 | 2019-12-10 | 一种基于用户行为数据的客户忠诚度细分方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911260963.4A CN111091282B (zh) | 2019-12-10 | 2019-12-10 | 一种基于用户行为数据的客户忠诚度细分方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111091282A CN111091282A (zh) | 2020-05-01 |
CN111091282B true CN111091282B (zh) | 2022-07-22 |
Family
ID=70396241
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911260963.4A Active CN111091282B (zh) | 2019-12-10 | 2019-12-10 | 一种基于用户行为数据的客户忠诚度细分方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111091282B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112070548B (zh) * | 2020-09-11 | 2024-02-20 | 上海秒针网络科技有限公司 | 一种用户分层的方法、装置、设备及存储介质 |
CN112435078A (zh) * | 2020-12-14 | 2021-03-02 | 四川长虹电器股份有限公司 | 一种用户忠诚度分类的方法 |
CN112598442A (zh) * | 2020-12-25 | 2021-04-02 | 中国建设银行股份有限公司 | 一种网络流量多维运营分析方法和装置 |
CN112700271A (zh) * | 2020-12-29 | 2021-04-23 | 长威信息科技发展股份有限公司 | 一种基于标签模型的大数据画像方法及系统 |
CN113077292A (zh) * | 2021-04-20 | 2021-07-06 | 北京沃东天骏信息技术有限公司 | 一种用户分类方法、装置、存储介质及电子设备 |
CN113793061A (zh) * | 2021-09-27 | 2021-12-14 | 武汉众邦银行股份有限公司 | 融合层次分析法和rfm的商业银行客户评级方法及装置 |
CN114022194A (zh) * | 2021-10-26 | 2022-02-08 | 共享智能铸造产业创新中心有限公司 | 平台用户流失的预测方法 |
CN114187048A (zh) * | 2021-12-14 | 2022-03-15 | 南京佰宏卓越科技有限公司 | 一种用于客户数据分析管理系统 |
CN115237876A (zh) * | 2022-05-16 | 2022-10-25 | 中航信移动科技有限公司 | 航旅用户分类方法、电子设备和计算机可读存储介质 |
CN115187344B (zh) * | 2022-09-13 | 2022-12-09 | 南通久拓智能装备有限公司 | 基于大数据的用户偏好分析识别方法 |
CN116090891A (zh) * | 2023-01-10 | 2023-05-09 | 扬州广源集团有限公司 | 一种基于大数据的电力施工企业客户行为分析方法 |
CN117437091B (zh) * | 2023-12-21 | 2024-02-23 | 南京市文化投资控股集团有限责任公司 | 一种面向元宇宙场景的操作交互管理系统及方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105488697A (zh) * | 2015-12-09 | 2016-04-13 | 焦点科技股份有限公司 | 一种基于客户行为特征的潜在客户挖掘方法 |
CN106372964A (zh) * | 2016-08-29 | 2017-02-01 | 北京红马传媒文化发展有限公司 | 一种行为忠诚度的识别及管理方法、系统和终端 |
CN108776931A (zh) * | 2018-04-13 | 2018-11-09 | 上海琢学科技有限公司 | 基于RFM和Canopy的金融客户价值忠诚度细分方法 |
-
2019
- 2019-12-10 CN CN201911260963.4A patent/CN111091282B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105488697A (zh) * | 2015-12-09 | 2016-04-13 | 焦点科技股份有限公司 | 一种基于客户行为特征的潜在客户挖掘方法 |
CN106372964A (zh) * | 2016-08-29 | 2017-02-01 | 北京红马传媒文化发展有限公司 | 一种行为忠诚度的识别及管理方法、系统和终端 |
CN108776931A (zh) * | 2018-04-13 | 2018-11-09 | 上海琢学科技有限公司 | 基于RFM和Canopy的金融客户价值忠诚度细分方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111091282A (zh) | 2020-05-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111091282B (zh) | 一种基于用户行为数据的客户忠诚度细分方法 | |
CN108564286B (zh) | 一种基于大数据征信的人工智能金融风控授信评定方法和系统 | |
CN110956273A (zh) | 融合多种机器学习模型的征信评分方法及系统 | |
CN111861698B (zh) | 一种基于贷款多头数据的贷前审批预警方法及系统 | |
CN112734559B (zh) | 企业信用风险评价方法、装置及电子设备 | |
CN107168995B (zh) | 一种数据处理方法及服务器 | |
Wu et al. | User Value Identification Based on Improved RFM Model and K‐Means++ Algorithm for Complex Data Analysis | |
WO2022247288A1 (zh) | 基于计算机系统的核心期刊量化评价系统和方法 | |
CN112446629B (zh) | 一种基于知识图谱的供应商选择方法 | |
CN115994271A (zh) | 心理测评量表的推荐方法 | |
KR101625124B1 (ko) | 특허 정량분석을 이용한 기술평가 방법 | |
Wu et al. | Research on Segmenting E‐Commerce Customer through an Improved K‐Medoids Clustering Algorithm | |
CN111507782A (zh) | 一种用户流失归因聚焦方法、装置、存储介质及电子设备 | |
US20160232376A1 (en) | Privacy fractal mirroring of transaction data | |
Aditya et al. | Comparative study of fuzzy c-means and k-means algorithm for grouping customer potential in brand limback | |
CN114399367A (zh) | 保险产品推荐方法、装置、设备及存储介质 | |
CN116664173B (zh) | 一种基于大数据模型的竞品分析方法、终端及存储介质 | |
Kumar et al. | Achieving market segmentation from B2B insurance client data using RFM & K-Means Algorithm | |
CN115438886A (zh) | 家政从业人员服务评价和匹配方法及系统 | |
CN113435713A (zh) | 基于gis技术和两模型融合的风险地图编制方法及系统 | |
CN112435078A (zh) | 一种用户忠诚度分类的方法 | |
Nie et al. | A methodology for classification and validation of customer datasets | |
Mosavi et al. | Customer value analysis in banks using data mining and fuzzy analytic hierarchy processes | |
CN115936841A (zh) | 一种构建信贷风险评估模型的方法及装置 | |
CN115344767A (zh) | 基于网络数据的供应商评价方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |