CN107977853A - 一种汽车企业客户流失建模与分析方法 - Google Patents
一种汽车企业客户流失建模与分析方法 Download PDFInfo
- Publication number
- CN107977853A CN107977853A CN201710994836.1A CN201710994836A CN107977853A CN 107977853 A CN107977853 A CN 107977853A CN 201710994836 A CN201710994836 A CN 201710994836A CN 107977853 A CN107977853 A CN 107977853A
- Authority
- CN
- China
- Prior art keywords
- mrow
- msub
- mtd
- formula
- variable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/285—Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
本发明公开了一种汽车企业客户流失建模与分析方法,主要步骤如下:1)构建汽车企业客户流失模型需要的变量。所述变量通过降维产生;降维方法主要包括主成分分析法、SOM网络学习算法和FCM聚类法。2)降维后的变量去解释原来的大部分变量,从而将相关性很高的变量转化成彼此相互独立或不相关的变量。3)所述彼此相互独立或不相关的变量制成样本集。4)利用Boosting算法输出的强分类器H(x)对所述汽车企业客户流失分析的分类回归树模型进行优化,得到汽车企业客户流失分析模型,从而分析汽车企业客户流失原因。
Description
技术领域
本发明涉及汽车运营领域,具体是一种汽车企业客户流失建模与分析方法。
背景技术
传统运营以产品为中心,在新的竞争态势下需要转换为以客户为核心。因此数据运营在企业整体经营中的作用变得越来越重要。经营时,需要逐步实现以客户为中心的企业战略,并在客户数据、洞见、渠道、营销、服务等多领域层层推进,以达到最佳效果。
汽车行业中,多家品牌已建立了大数据分析部门,并开展数据挖掘工作。其中福特设有卓越的分析部门,部门中包括负责收集数据和深度分析的200多名大数据分析专家。该分析部门利用分析所得的客户偏好结果(包括车型及配置、经销商地理区域等),对设计、生产及物流分配进行调整。福特根据客户需求推出25个新汽车产品线,从而使福特于2009年实现连续4年亏损后的首次盈利。国内的上汽通用设有的CRM及大数据团队已为三个品牌建立了数据挖掘,并负责汇聚企业内外部的各种数据、进行多维深入分析。
整个大数据分析为企业多个品牌业务部门提供各种数据分析业务及模型服务,支持了整个销售及服务过程,有效提升了业务水平。同时包括奥迪在内的多家豪车品牌都在数据分析及数据运营上加大投入并深化数据分析的应用。
目前长安汽车正稳步走向以客户为中心的运营思路,通过甄别高潜力客户来提升营销效率、延伸客户生命周期和忠诚度、提升再购及增购比例。随着长安汽车企业客户的快速增长,运营过程中需要对资源分配进行优化,同时也需要对客户需求洞察更加深刻。客户是企业的重要资源,也是企业的无形资产,客户的流失,也就意味着资产的流失,因此进行客户流失分析是十分重要的,
但是现有技术还无法对长安汽车的高潜力客户和流失客户进行有效甄别,也就无法通过分析流失客户的特点来提升延伸客户生命周期和忠诚度、营销效率。
发明内容
本发明的目的是解决现有技术中存在的问题。
为实现本发明目的而采用的技术方案是这样的,为实现本发明目的而采用的技术方案是这样的,一种汽车企业客户流失建模与分析方法,主要包括以下步骤:
1)构建汽车企业客户流失模型需要的变量;所述变量通过降维产生。
降维方法主要包括主成分分析法、SOM网络学习算法和FCM聚类法。
1.1)主成分分析法的主要步骤如下:
1.1.1)确定分析变量,并采集所述分析变量的原始数据。
采集出n个样本,每个样本有p个变量,所述n个样本和所述p个变量构成一个n×p型矩阵。
1.1.2)对原始数据进行标准化处理,以消除量纲对数据处理的影响。
标准化处理公式:yij=xij-xi/si (1)
式中,yij为标准化后的变量值,xij为实际变量值,xi为算术平均值,si为标准差,i为矩阵向量的行下标,j为矩阵向量的列下标。
处理后的数据矩阵为:
式中,n为样本个数,p为每个样本中的变量个数。
1.1.3)计算特征根和响应的标准正交特征向量。
相关系数矩阵Z为:
式中,zij为原变量zi与zj的相关系数,i为矩阵向量的行下标,j为矩阵向量的列下标,n为样本个数,p为每个样本中的变量个数。
zij=zji (4)
式中,zij为原变量zi与zj的相关系数,i为矩阵向量的行下标,j为矩阵向量的列下标,yki和ykiykj为标准化后的变量值,为yki的算术平均值,为yki的算术平均值,n为样本个数,整数k为任意样本,1≤k≤n。
|λE-Z|=0 (6)
式中,λ为矩阵Z的特征值,E为单位矩阵,Z为公式(3)表示的矩阵。
根据公式(6),可以求出矩阵Z的p个特征值,各主成分的方差贡献大小按特征根顺序递减排列。
利用每个特征值λj解出方程组Zb=λjb对应于每个特征值的特征变量bj。
式中,Z为公式(3)表示的矩阵,b为特征变量,λj为每一个特征值。
1.1.4)计算主成分贡献率和累计贡献率;
把所述p个变量y1,y2,...,yp的总方差分解为p个独立的变量g1,g2,...,gp的方差之和。
第j个主成分yj的方差贡献率为:
式中,λj为矩阵Z的每个特征值,j为主成分个数,j=1,2,…,p,p为原始变量个数。
第一主成分贡献率最大,即g1综合原始变量的能力最强。g2,g3,...,gp的综合能力依次递减。
如果只取其中的m个主成分,那么这m个主成分的累计贡献率为:
式中,λj是矩阵Z的每个特征值,j=1,2,…,p,p为所述独立变量个数,λk是矩阵Z的所有特征值,整数k为任意样本,1≤k≤m,m为主成分个数。
1.1.5)得到新的综合变量。
即,
式中,p为所述独立向量个数,y1、y2、y3......yp为标准化后的变量值,m为主成分个数,l11、l21、l31......lmp为主成分得分系数。
1.2)SOM网络学习算法的主步骤如下:
1.2.1)初始化。
将小权值设置为初始的权值向量。
设定学习效率的初值及学习总次数T。
1.2.2)给SOM网络提供一个输入模式
式中,x1、x2、x3......xh为输入,h为输入节点个数,a为输入样本个数。
1.2.3)通过竞争,确定样本输出神经元中的获胜神经元。
利用公式(10)计算欧式距离ds。
式中,ds为输入样本q与输出神经元s之间的距离,X为输入矩阵,Ws为输出神经元与所有输入神经元之间连接的权向量,N为输入样本总数,1≤q≤N,xq(t)为输入神经元的输入,t为时间,Wqs(t)为输入神经元与输出神经元的连接权值。
根据计算得到的欧式距离ds,找出最小值df。即:
df=min(ds) (11)
式中,ds为欧式距离。
j*是欧式距离为df的输出神经元,j*为样本输出神经元中的获胜神经元。
1.2.4)利用公式(12)和公式(13)修正输出神经元j*及其邻接神经元的权值。
Wqs(t+1)=Wqs(t)+η(t)(xq(t)-Wqs(t)) (12)
式中,Wqs(t)为输入神经元与输出神经元的连接权值,xq(t)为输入神经元的输入,η(t)是一个随时间变化逐渐减小到零的增益,t为时间。
η(t)=1/t (13)
式中,t为时间。
1.2.5)令t←t+1,重复步骤1.2.2至1.2.4,直到映射不再发生明显变化时停止训练,并输出聚类结果。
1.3)FCM聚类的主要步骤如下:
1.3.1)定义类别数c、模糊加权指数mf和容许误差ε。其中,mf∈[1,∞)。
1.3.2)随机产生一个聚类中心wr(u),r为任意类别,u为循环次数,u←1。
1.3.3)设置隶属度。
设定一个含有A个样本的集合{x1,x2,…,xA},将所述A个样本划分为c类,V={v1,v2,…,vc}表示所述c个类的中心。
设矩阵U=(uIJ)c×A,所述矩阵U的元素uIJ表示J个样本属于第I类的隶属度。
uIJ满足公式(14),即:
式中,A为样本总数,J为任意样本,1≤J≤A,c为类的总数,I为任意类,1≤I≤c,uIJ为J个样本属于第I类的隶属度。
隶属度uIJ计算公式如下:
式中,u为循环次数,1≤u≤c,mf为模糊加权指数,uIJ为J个样本属于第I类的隶属度,xJ为模糊组J中的向量,cI为第I类聚类中心,cu为第u类聚类中心,dIJ(xJ,cI)为xJ和cI的通用距离函数,duJ(xJ,cu)为xJ和cu的通用距离函数。
1.3.4)利用公式(16)修正聚类中心。
式中,u为循环次数,A为样本总数,J为任意样本,1≤J≤A,uIJ为J个样本属于第I类的隶属度,mf为模糊加权指数,xJ为模糊组J中的向量。
1.3.5)利用公式(17)计算误差。
式中,c为类的总数,I为任意类,1≤I≤c,u为循环次数,wI(u+1)为修正后的聚类中心,wI(u)为修正前的聚类中心。
1.3.6)如果e<ε,算法结束。如果e>ε,则令u←u+1,并重复步骤1.3.3至步骤1.3.5。其中,ε为理论误差,u为循环次数。
1.3.7)算法结束后,根据得到的隶属度矩阵确定数据所属的类,显示最后的聚类结果。
1.3.8)得到目标函数式:
式中,A为样本数,c为聚类类别个数,c∈[2,A],uIJ为第J个样本属于第I类的隶属度,dIJ为第J个样本和第I类聚类中心之间的距离,mf为模糊加权指数,mf∈[1,∞)。
2)用降维后的变量去解释原来的大部分变量,从而将相关性很高的变量转化成彼此相互独立或不相关的变量。
3)将所述彼此相互独立或不相关的变量制成样本集。
4)利用CART算法和Boosting算法,将所述样本集建立为汽车企业客户流失模型,从而对汽车企业客户流失问题进行分析。
主要包括以下步骤:
4.1)构造CART决策树,即建立汽车企业客户流失分析的分类回归树模型。
4.1.1)将所有样本集做为根节点。
4.1.2)通过分割函数选择分割变量,并确定分割阀值Si的值。
4.1.3)采用Gini指数法对P维空间的节点进行分割,从而将P维空间分为两个部分,P维空间一部分包含的点都满足Xi≤Si,另一部分包含的点满足Xi>Si,即得到根节点下面的2个子节点。
其中,X1,X2,...,Xp表示解释变量,Si为分割阀值。
4.1.4)通过再次选择分割变量和分割阀值,将步骤4.1.2和步骤4.1.3中得到的每个子节点以同样的方式再划分成两部分。
4.1.5)重复步骤4.1.2至步骤4.1.4,直至把整个P维空间划分成互不重叠的小矩形,从而减小子节点的不纯度。
Gini不纯度表达式:
式中,C为类的总数,K为任意类,K=1,2,...,C,PK为观测点中属于类K的比例。
4.2)对CART决策树剪枝。
4.2.1)利用成本复杂性标准产生连续的、节点数目减少的序列树。
成本复杂性标准为:
Err(F)+α|L(F)| (20)
式中,Err(F)为验证数据被CART决策树误分的部分,|L(F)|为树F的叶节点数,α为每个节点的惩罚成本,α∈[o,+∞)。
通过不断增加α值,产生连续的、节点数目减少的序列树。
4.2.2)获得最优树。
当剪枝序列含有的误差在最小错误树的一个标准差之内时,停止修剪,此时获得最优树。
最小误差率是一个带有标准差的随机变量的观测值,表达式为
式中,B为错误率,Bmin为最小错误树的错误率,S为验证数据集的数目。
4.3)根据CART算法和训练集(X1,Y1),(X2,Y2),...,(Xρ,Yρ),对训练集的分布进行初始化,训练集的分布表示如下:
D1(θ)=1/ρ (22)
式中,θ为任意训练集序号,ρ为训练集个数。
进行G轮训练。
在G轮循环中,CART算法在权值Dt下训练,得到弱分类器ht。
计算所述弱分类器ht在所述权值Dt下的错误率:
式中,S为验证数据集的数目,θ为任意训练集序号,Xθ和Yθ为序号θ对应的训练集,Dt(Xθ)为Xθ对应的权值,ht为弱分类器。
利用所述错误率ξt更新权值:
Dt+1(θ)=Dθ(t)exp(-αtYθht(Xθ))/Zt (24)
式中,Di(t)为更新前的权值,αt为误差率增益值,ht为弱分类器,Xθ和Yθ为序号θ对应的训练集,Zt为标准化因子。
式中,ξt为所述弱分类器ht在所述权值Dt下的错误率。
当ht(xθ)=yθ时,yθht(xθ)=1。
当ht(xθ)≠yθ时,yθht(xθ)=-1。
其中,Xθ和Yθ为序号θ对应的训练集,ht为弱分类器,
最后输出强分类器:
式中,θ为任意训练集序号,G为训练轮数,ht为弱分类器,x为训练集中的向量数据。
5)利用步骤4输出的强分类器H(x)对所述汽车企业客户流失分析的分类回归树模型进行优化,得到汽车企业客户流失分析模型,从而分析汽车企业客户流失原因。
本发明的技术效果是毋庸置疑的,以长安企业为例,利用汽车现有数据分析梳理出可用指标,通过主成分、聚类降维方法,结合长安现有业务,计算出适用于长安的数据指标,再将指标带入模型中生成流失预警名单,结合价值模型将客户群体划分为8类。再通过10家试点经销商,验证模型。
经过3个月验证,模型准确率为75%以上,被招揽客户回厂率达到36%以上。
因此,本发明可以通过精准定位需要挽留的客户问题,对长安汽车的运营服务等做出改进,从而有效的挽回长安汽车的客户。
附图说明
图1为主成分分析法的流程图。
图2为SOM网络结构图。
图3为CART算法和Boosting算法的流程图。
具体实施方式
下面结合实施例对本发明作进一步说明,但不应该理解为本发明上述主题范围仅限于下述实施例。在不脱离本发明上述技术思想的情况下,根据本领域普通技术知识和惯用手段,做出各种替换和变更,均应包括在本发明的保护范围内。
实施例1:
以长安企业为例,本实施例提供一种汽车企业客户流失建模与分析方法,利用CART算法和Boosting算法对长安汽车企业客户流失变量进行建模,从而准确、有效的分析长安汽车企业客户流失情况,并根据长安汽车流失情况作出适当的措施。
基于长安汽车企业客户流失分析模型统计方法主要包括以下步骤:
1)针对长安汽车企业客户流失问题,筛选调查对象,调查对象主要包括:长安汽车车型、客户职业、客户类型、客户所在区域的分布、车型价格等。
2)根据初步筛选的调查对象,构建长安汽车企业客户流失模型需要的变量;所述变量通过降维产生。
降维方法主要包括主成分分析法、SOM网络学习算法和FCM聚类法。
以上降维方法选出了比原始变量个数少、能解释大部分资料中变量的几个新变量,即所谓主成分。所述主成分可以用于解释资料的综合性指标。
3)用降维后的变量去解释原来的大部分变量,从而将相关性很高的变量转化成彼此相互独立或不相关的变量。
此时虽然变量减少,但并没有影响分析结果的准确性,反而提升了分析效率、节省了分析成本。
4)将所述彼此相互独立或不相关的变量制成样本集。
5)利用CART算法和Boosting算法,将所述样本集建立为长安汽车企业客户流失模型,从大量的与长安汽车企业客户相关的数据中,挖掘出长安汽车流失客户的共同特征,从而建立长安汽车企业客户流失模型,并根据该模型对长安汽车企业客户流失问题进行分析。
比如,可以从诸如客户对长安汽车公司工作人员服务的好恶、客户和长安汽车公司的交互、长安汽车车型及质量等方面分析客户流失的原因。
6)根据步骤5中的分析结果,明确长安汽车的优势和劣势,并制定具有针对性的整改措施防止客户流失。
7)执行整改措施。
进一步,在执行时,需要确定所述整改措施的优先次序、重要程度和整改的期限。
8)整改结束后,对整改措施的效果进行评估,改进效果不好的措施,进行施行效果良好的措施。
优选的,基于长安汽车企业客户流失分析模型统计方法的施行频率可以是一个季度一次。
实施例2:
参见图1,主成分分析法能对采集到的变量数据进行有效的降维,从而节约分析成本、提高分析效率。
主成分分析也称主分量分析,旨在利用降维的思想,把多个变量转化为少数几个变量(即主成分)。其中每个主成分都能够反映原始变量的大部分信息,且所含信息互不重复。这种方法在引进多方面变量的同时将复杂因素归结为几个主成分,使问题简单化,也使结果更加科学有效。
主成分分析法的主要步骤如下:
1)确定分析变量,并采集所述分析变量的原始数据;
进一步,采集原始数据时,需要结合长安汽车公司实际情况和随机采访客户的结果,初步确定分析变量。同时,还需要利用直方图检验和卡方检验等方式对初步确定的分析变量进行检验,从而筛选出长安汽车企业客户流失模型的最终分析变量。
所述最终的分析变量主要包括客户对长安汽车车型和颜色等外观的喜好、长安汽车性能要求和长安汽车优惠程度等。
采集出n个样本,每个样本有p个变量;所述n个样本和所述p个变量构成一个n×p型矩阵。
进一步,采集n个样本时采用随机方式对长安汽车所有客户的原始数据进行抽取。同时,因为原始数据中存在信息不完整的数据和错误数据,为了使分析结果更具有针对性和可信度,需要先对所述原始数据进行清洗,以确保纳入样本中的数据的完整性和可靠性。
2)对原始数据进行标准化处理,以消除量纲对数据处理的影响;
标准化处理公式:yij=xij-xi/si (1)
式中,yij为标准化后的变量值,xij为实际变量值,xi为算术平均值,si为标准差,i为矩阵向量的行下标,j为矩阵向量的列下标。
处理后的数据矩阵为:
式中,n为样本个数;p为每个样本中的变量个数。
3)计算特征根和响应的标准正交特征向量。
相关系数矩阵Z为:
式中,zij为原变量zi与zj的相关系数,i为矩阵向量的行下标,j为矩阵向量的列下标,n为样本个数,p为每个样本中的变量个数。
zij=zji (4)
式中,zij为原变量zi与zj的相关系数,i为矩阵向量的行下标,j为矩阵向量的列下标,yki和ykiykj为标准化后的变量值,为yki的算术平均值,为yki的算术平均值,n为样本个数,整数k为任意样本,1≤k≤n。
|λE-Z|=0 (6)
式中,λ为矩阵Z的特征值,E为单位矩阵,Z为公式(3)表示的矩阵。
根据公式(6),可以求出矩阵Z的p个特征值,各主成分的方差贡献大小按特征根顺序递减排列。
利用每个特征值λj解出方程组Zb=λjb对应于每个特征值的特征变量bj。
其中,Z为公式(3)表示的矩阵,b为特征变量,λj为每一个特征值。
4)计算主成分贡献率和累计贡献率。
把p个原始变量y1,y2,...,yp的总方差分解为p个独立的变量g1,g2,...,gp的方差之和。
第j个主成分yj的方差贡献率为
式中,λ为矩阵Z的特征值,j为主成分个数,j=1,2,…,p,p为原始变量个数。
进一步,方差贡献率是指单个变量引起的变异占总变异的比例,表示的是此变量对因变量的影响力大小。
根据方差贡献率,可以有效找出对长安汽车企业客户流失影响较大的多个变量。
第一主成分贡献率最大,即g1综合原始变量的能力最强,g2,g3,...,gp的综合能力依次递减。
如果只取其中的m个主成分,那么这m个主成分的累计贡献率为:
式中,λj是矩阵Z的所有特征值,j=1,2,…,p,p为原始变量个数,λk是矩阵Z的所有特征值,整数k为任意样本,1≤k≤m,m为主成分个数。
进一步,累计方差贡献率是所有变量引起的变异占总变异的比例,说明的是所有变量对因变量的合计影响力。
累计方差贡献率等于所有方差贡献率相加。
5)得到新的综合变量。
即,
式中,p代表原始向量个数,y1、y2、y3......yp为标准化后的变量值,m为主成分个数,l11、l21、l31......lmp为主成分得分系数。
实施例3:
参见图2,SOM算法能对采集到的变量数据进行有效的降维,从而节约分析成本、提高分析效率。
SOM算法是一种聚类和高维可视化方面的无监督学习算法,是通过模拟人脑对信号处理的特点而发展起来的一种人工神经网络。
SOM网络由输入层和输出层构成。输入层用于接受外界信息,并将输入模式向输出层传递。输出层负责对输入模式进行分析比较,寻找规律,并归类。
其中输入层的神经元个数的选取视输入网络的向量个数而定,输出层的神经元个数取决于最终要分区的类别的个数。SOM网络是全连接的,每个输入神经元节点通过权值Wij与所有的输出神经元节点相连接。
SOM算法的基本思想是通过网络训练,把想类似的输入映射到同一个输出节点上,从而实现对输入数据的聚类。
SOM网络学习算法的主要步骤如下:
1)初始化。
将较小权值设置为初始的权值向量。
设定学习效率的初值及学习总次数T。
2)给SOM网络提供一个输入模式
式中,x1、x2、x3......xh为输入,h为输入节点个数,a为输入样本个数。
3)通过竞争,确定样本输出神经元中的获胜神经元。
利用公式(10)计算欧式距离ds。
式中,ds为输入样本q与输出神经元s之间的距离,一般可设为欧式距离,X为输入矩阵,Ws为输出神经元与所有输入神经元之间连接的权向量,1≤q≤N,N为输入样本总数,xq(t)为输入神经元的输入,t为时间(s),Wqs(t)为输入神经元与输出神经元的连接权值。
根据计算得到的欧式距离ds,找出最小值df。即:
df=min(ds) (11)
式中,ds为欧式距离;
j*是欧式距离为df的输出神经元,j*为样本输出神经元中的获胜神经元。
4)利用公式(11)和公式(12)修正输出神经元j*及其邻接神经元的权值。
Wqs(t+1)=Wqs(t)+η(t)(xq(t)-Wqs(t)) (12)
式中,Wqs(t)为输入神经元与输出神经元的连接权值,xq(t)为输入神经元的输入,η(t)是一个随时间变化逐渐减小到零的增益,η(t)一般取值范围为0~1,t为时间(s)。
η(t)=1/t (13)
式中,t为时间(s)。
5)令t←t+1,重复步骤1.2.2至1.2.4,直到映射不再发生明显变化时停止训练,并输出聚类结果。
实施例4:
FCM聚类方法能对采集到的变量数据进行有效的降维,从而节约分析成本、提高分析效率。
FCM聚类方法是用隶属度确定每个数据点属于某个聚类的程度的一种聚类算法。FCM聚类方法可以通过迭代使各样本距离模糊聚类中心,从而使距离加权和最小。
FCM聚类的主要步骤如下:
1)定义类别数c、模糊加权指数mf和容许误差ε,其中,mf∈[1,∞),用于控制隶属矩阵的模糊程度。
2)随机产生一个聚类中心wr(u),r为任意类别,u为循环次数,u←1。
3)设置隶属度。
设定一个含有A个样本的集合{x1,x2,…,xA},将所述A个样本划分为c类,V={v1,v2,…,vc}表示所述c个类的中心。
设矩阵U=(uIJ)c×A,所述矩阵U的元素uIJ表示J个样本属于第I类的隶属度。
uIJ满足公式(14),即:
式中,A为样本总数,J为任意样本,1≤J≤A,c为类的总数。I为任意类,1≤I≤c,uIJ为J个样本属于第I类的隶属度。
隶属度uIJ计算公式如下:
式中,u为循环次数,1≤u≤c,mf为模糊加权指数,uIJ为J个样本属于第I类的隶属度,xJ为模糊组J中的向量,cI为第I类聚类中心,cu为第u类聚类中心,dIJ(xJ,cI)为xJ和cI的通用距离函数,duJ(xJ,cu)为xJ和cu的通用距离函数。
4)利用公式(16)修正聚类中心。
式中,u为循环次数,A为样本总数,J为任意样本,1≤J≤A,uIJ为J个样本属于第I类的隶属度,mf为模糊加权指数,xJ为模糊组J中的向量。
5)利用公式(17)计算误差;
式中,c为类的总数,I为任意类,1≤I≤c,u为循环次数,wI(u+1)为修正后的聚类中心,wI(u)为修正前的聚类中心。
6)如果e<ε,算法结束。如果e>ε,则令u←u+1,并重复步骤1.3.3至步骤1.3.5。其中,ε为理论误差,u为循环次数。
7)算法结束后,根据得到的隶属度矩阵确定数据所属的类,显示最后的聚类结果。
8)得到目标函数式:
式中,A为样本数,c为聚类类别个数,c∈[2,A],uIJ为第J个样本属于第I类的隶属度,dIJ为第J个样本和第I类聚类中心之间的距离,mf为模糊加权指数,mf∈[1,∞)。
实施例5:
参见图3,本实施例利用CART算法和Boosting算法建立长安汽车企业客户流失模型。
主要步骤如下:
1)构造CART决策树。
1.1)将所有样本集做为根节点。
1.2)通过分割函数选择分割变量,并确定分割阀值Si的值。
1.3)采用Gini指数法对P维空间的节点进行分割,从而将P维空间分为两个部分。
进一步,分割规则为Xi≤Si或Xi>Si。
P维空间一部分包含的点都满足Xi≤Si,另一部分包含的点满足Xi>Si,即得到根节点下面的2个子节点。
其中,X1,X2,...,Xp表示解释变量,Si为分割阀值。
1.4)通过再次选择分割变量和分割阀值,将步骤4.1.2和步骤4.1.3中得到的每个子节点以同样的方式再划分成两部分。
1.5)重复步骤4.1.2至步骤4.1.4,直至把整个P维空间划分成互不重叠的小矩形,从而减小子节点的不纯度。
Gini不纯度表达式:
式中,C为类的总数,K为任意类,K=1,2,...,C,PK为观测点中属于类K的比例。
2)对CART决策树剪枝。
2.1)利用成本复杂性标准产生产生连续的、节点数目减少的序列树。
成本复杂性标准为:
Err(F)+α|L(F)| (20)
式中,Err(F)为验证数据被CART决策树误分的部分,|L(F)|为树F的叶节点数,α为每个节点的惩罚成本,α∈[o,+∞)。
通过不断增加α值,产生连续的、节点数目减少的序列树。
2.2)获得最优树;
当剪枝序列含有的误差在最小错误树的一个标准差之内时,停止修剪,此时获得最优树。
最小误差率是一个带有标准差的随机变量的观测值,表达式为
式中,B为错误率,Bmin为最小错误树的错误率,S为验证数据集的数目。
3)根据CART算法和训练集(X1,Y1),(X2,Y2),...,(Xρ,Yρ),对训练集的分布进行初始化,训练集的分布表示如下:
D1(θ)=1/ρ (22)
式中,θ为任意训练集序号,ρ为训练集个数。
进行G轮训练。
在G轮循环中,CART算法在权值Dt下训练,得到弱分类器ht。
计算所述弱分类器ht在所述权值Dt下的错误率:
式中,S为验证数据集的数目,θ为任意训练集序号,Xθ和Yθ为序号θ对应的训练集,Dt(Xθ)为Xθ对应的权值,ht为弱分类器。
Dt+1(θ)=Dθ(t)exp(-αtYθht(Xθ))/Zt (24)
式中,Di(t)为更新前的权值,αt为误差率增益值,ht为弱分类器,Xθ和Yθ为序号θ对应的训练集,Zt为标准化因子。
式中,ξt为所述弱分类器ht在所述权值Dt下的错误率。
当ht(xθ)=yθ时,yθht(xθ)=1。
当ht(xθ)≠yθ时,yθht(xθ)=-1。
其中,Xθ和Yθ为序号θ对应的训练集,ht为弱分类器。
最后输出强分类器:
进一步,将该生成的强分类器应用于响应的数据集可以得到更好的预测精度。
4)利用步骤4输出的强分类器H(x)对所述长安汽车企业客户流失分析的分类回归树模型进行优化,得到长安汽车企业客户流失分析模型,从而分析长安汽车企业客户流失原因。
Claims (1)
1.一种汽车企业客户流失建模与分析方法,其特征在于,主要包括以下步骤:
1)构建汽车企业客户流失模型需要的变量;所述变量通过降维产生;
降维方法主要包括主成分分析法、SOM网络学习算法和FCM聚类法;
1.1)主成分分析法的主要步骤如下:
1.1.1)确定分析变量,并采集所述分析变量的原始数据;
采集出n个样本,每个样本有p个变量;所述n个样本和所述p个变量构成一个n×p型矩阵;
1.1.2)对原始数据进行标准化处理,以消除量纲对数据处理的影响;
标准化处理公式:yij=xij-xi/si (1)
式中,yij为标准化后的变量值;xij为实际变量值;xi为算术平均值;si为标准差;i为矩阵向量的行下标;j为矩阵向量的列下标;
处理后的数据矩阵为:
<mrow>
<msub>
<mi>Y</mi>
<mrow>
<mi>n</mi>
<mo>&times;</mo>
<mi>p</mi>
</mrow>
</msub>
<mo>=</mo>
<mfenced open = "[" close = "]">
<mtable>
<mtr>
<mtd>
<msub>
<mi>y</mi>
<mn>11</mn>
</msub>
</mtd>
<mtd>
<msub>
<mi>y</mi>
<mn>12</mn>
</msub>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<msub>
<mi>y</mi>
<mrow>
<mn>1</mn>
<mi>p</mi>
</mrow>
</msub>
</mtd>
</mtr>
<mtr>
<mtd>
<msub>
<mi>y</mi>
<mn>21</mn>
</msub>
</mtd>
<mtd>
<msub>
<mi>y</mi>
<mn>22</mn>
</msub>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<msub>
<mi>y</mi>
<mrow>
<mn>2</mn>
<mi>p</mi>
</mrow>
</msub>
</mtd>
</mtr>
<mtr>
<mtd>
<mo>.</mo>
</mtd>
<mtd>
<mo>.</mo>
</mtd>
<mtd>
<mrow></mrow>
</mtd>
<mtd>
<mo>.</mo>
</mtd>
</mtr>
<mtr>
<mtd>
<mo>.</mo>
</mtd>
<mtd>
<mo>.</mo>
</mtd>
<mtd>
<mrow></mrow>
</mtd>
<mtd>
<mo>.</mo>
</mtd>
</mtr>
<mtr>
<mtd>
<mo>.</mo>
</mtd>
<mtd>
<mo>.</mo>
</mtd>
<mtd>
<mrow></mrow>
</mtd>
<mtd>
<mo>.</mo>
</mtd>
</mtr>
<mtr>
<mtd>
<msub>
<mi>y</mi>
<mrow>
<mi>n</mi>
<mn>1</mn>
</mrow>
</msub>
</mtd>
<mtd>
<msub>
<mi>y</mi>
<mrow>
<mi>n</mi>
<mn>2</mn>
</mrow>
</msub>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<msub>
<mi>y</mi>
<mrow>
<mi>n</mi>
<mi>p</mi>
</mrow>
</msub>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
</mrow>
式中,n为样本个数;p为每个样本中的变量个数;
1.1.3)计算特征根和响应的标准正交特征向量;
相关系数矩阵Z为:
<mrow>
<msub>
<mi>Z</mi>
<mrow>
<mi>n</mi>
<mo>&times;</mo>
<mi>p</mi>
</mrow>
</msub>
<mo>=</mo>
<mfenced open = "[" close = "]">
<mtable>
<mtr>
<mtd>
<msub>
<mi>z</mi>
<mn>11</mn>
</msub>
</mtd>
<mtd>
<msub>
<mi>z</mi>
<mn>12</mn>
</msub>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<msub>
<mi>z</mi>
<mrow>
<mn>1</mn>
<mi>p</mi>
</mrow>
</msub>
</mtd>
</mtr>
<mtr>
<mtd>
<msub>
<mi>z</mi>
<mn>21</mn>
</msub>
</mtd>
<mtd>
<msub>
<mi>z</mi>
<mn>22</mn>
</msub>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<msub>
<mi>z</mi>
<mrow>
<mn>2</mn>
<mi>p</mi>
</mrow>
</msub>
</mtd>
</mtr>
<mtr>
<mtd>
<mo>.</mo>
</mtd>
<mtd>
<mo>.</mo>
</mtd>
<mtd>
<mrow></mrow>
</mtd>
<mtd>
<mo>.</mo>
</mtd>
</mtr>
<mtr>
<mtd>
<mo>.</mo>
</mtd>
<mtd>
<mo>.</mo>
</mtd>
<mtd>
<mrow></mrow>
</mtd>
<mtd>
<mo>.</mo>
</mtd>
</mtr>
<mtr>
<mtd>
<mo>.</mo>
</mtd>
<mtd>
<mo>.</mo>
</mtd>
<mtd>
<mrow></mrow>
</mtd>
<mtd>
<mo>.</mo>
</mtd>
</mtr>
<mtr>
<mtd>
<msub>
<mi>z</mi>
<mrow>
<mi>n</mi>
<mn>1</mn>
</mrow>
</msub>
</mtd>
<mtd>
<msub>
<mi>z</mi>
<mrow>
<mi>n</mi>
<mn>2</mn>
</mrow>
</msub>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<msub>
<mi>z</mi>
<mrow>
<mi>n</mi>
<mi>p</mi>
</mrow>
</msub>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>3</mn>
<mo>)</mo>
</mrow>
</mrow>
式中,zij为原变量zi与zj的相关系数;i为矩阵向量的行下标;j为矩阵向量的列下标;n为样本个数;p为每个样本中的变量个数;
zij=zji (4)
<mrow>
<msub>
<mi>z</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>=</mo>
<mfrac>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<mrow>
<mo>(</mo>
<msub>
<mi>y</mi>
<mrow>
<mi>k</mi>
<mi>i</mi>
</mrow>
</msub>
<mo>-</mo>
<mover>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<mo>&OverBar;</mo>
</mover>
<mo>)</mo>
</mrow>
<mrow>
<mo>(</mo>
<msub>
<mi>y</mi>
<mrow>
<mi>k</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>-</mo>
<mover>
<msub>
<mi>y</mi>
<mi>j</mi>
</msub>
<mo>&OverBar;</mo>
</mover>
<mo>)</mo>
</mrow>
</mrow>
<msqrt>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<mrow>
<mo>(</mo>
<msub>
<mi>y</mi>
<mrow>
<mi>k</mi>
<mi>i</mi>
</mrow>
</msub>
<mo>-</mo>
<mover>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<mo>&OverBar;</mo>
</mover>
<mo>)</mo>
</mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mi>y</mi>
<mrow>
<mi>k</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>-</mo>
<mover>
<msub>
<mi>y</mi>
<mi>j</mi>
</msub>
<mo>&OverBar;</mo>
</mover>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
</mrow>
</msqrt>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>5</mn>
<mo>)</mo>
</mrow>
</mrow>
式中,zij为原变量zi与zj的相关系数;i为矩阵向量的行下标;j为矩阵向量的列下标;yki和ykiykj为标准化后的变量值;为yki的算术平均值;为yki的算术平均值;n为样本个数;整数k为任意样本,1≤k≤n;
|λE-Z|=0 (6)
式中,λ为矩阵Z的特征值;E为单位矩阵;Z为公式(3)表示的矩阵;
根据公式(6),可以求出矩阵Z的p个特征值,各主成分的方差贡献大小按特征根顺序递减排列;
利用每个特征值λj解出方程组Zb=λjb对应于每个特征值的特征变量bj;
式中,Z为公式(3)表示的矩阵;b为特征变量;λj为每一个特征值;
1.1.4)计算主成分贡献率和累计贡献率;
把所述p个变量y1,y2,...,yp的总方差分解为p个独立的变量g1,g2,...,gp的方差之和;
第j个主成分yj的方差贡献率为
式中,λj为矩阵Z的每个特征值;j为主成分个数,j=1,2,…,p;p为原始变量个数;
第一主成分贡献率最大,即g1综合原始变量的能力最强;g2,g3,...,gp的综合能力依次递减;
如果只取其中的m个主成分,那么这m个主成分的累计贡献率为:
<mrow>
<msub>
<mi>&Psi;</mi>
<mi>m</mi>
</msub>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>m</mi>
</munderover>
<msub>
<mi>&lambda;</mi>
<mi>k</mi>
</msub>
<mo>/</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>p</mi>
</munderover>
<msub>
<mi>&lambda;</mi>
<mi>j</mi>
</msub>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>8</mn>
<mo>)</mo>
</mrow>
</mrow>
式中,λj是矩阵Z的每个特征值;j=1,2,…,p;p为所述独立变量个数;λk是矩阵Z的所有特征值;整数k为任意样本,1≤k≤m;m为主成分个数;
1.1.5)得到新的综合变量;
即,
式中,p为所述独立向量个数;y1、y2、y3......yp为标准化后的变量值;m为主成分个数;l11、l21、l31......lmp为主成分得分系数;
1.2)SOM网络学习算法的主步骤如下:
1.2.1)初始化;
将小权值设置为初始的权值向量;
设定学习效率的初值及学习总次数T;
1.2.2)给SOM网络提供一个输入模式
式中,x1、x2、x3......xh为输入,h为输入节点个数;a为输入样本个数;
1.2.3)通过竞争,确定样本输出神经元中的获胜神经元;
利用公式(10)计算欧式距离ds;
<mrow>
<msub>
<mi>d</mi>
<mi>s</mi>
</msub>
<mo>=</mo>
<mo>|</mo>
<mo>|</mo>
<mi>X</mi>
<mo>-</mo>
<msub>
<mi>W</mi>
<mi>s</mi>
</msub>
<mo>|</mo>
<mo>|</mo>
<mo>=</mo>
<msqrt>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>q</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>N</mi>
</munderover>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>q</mi>
</msub>
<mo>(</mo>
<mi>t</mi>
<mo>)</mo>
<mo>-</mo>
<msub>
<mi>W</mi>
<mrow>
<mi>q</mi>
<mi>s</mi>
</mrow>
</msub>
<mo>(</mo>
<mi>t</mi>
<mo>)</mo>
<mo>)</mo>
</mrow>
</mrow>
</msqrt>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>10</mn>
<mo>)</mo>
</mrow>
</mrow>
式中,ds为输入样本q与输出神经元s之间的距离;X为输入矩阵;Ws为输出神经元与所有输入神经元之间连接的权向量;N为输入样本总数;1≤q≤N;xq(t)为输入神经元的输入;t为时间;Wqs(t)为输入神经元与输出神经元的连接权值;
根据计算得到的欧式距离ds,找出最小值df;即:
df=min(ds) (11)
式中,ds为欧式距离;
j*是欧式距离为df的输出神经元;j*为样本输出神经元中的获胜神经元;
1.2.4)利用公式(12)和公式(13)修正输出神经元j*及其邻接神经元的权值;
Wqs(t+1)=Wqs(t)+η(t)(xq(t)-Wqs(t)) (12)
式中,Wqs(t)为输入神经元与输出神经元的连接权值;xq(t)为输入神经元的输入;η(t)是一个随时间变化逐渐减小到零的增益;t为时间;
η(t)=1/t (13)
式中,t为时间;
1.2.5)令t←t+1,重复步骤1.2.2至1.2.4,直到映射不再发生明显变化时停止训练,并输出聚类结果;
1.3)FCM聚类的主要步骤如下:
1.3.1)定义类别数c、模糊加权指数mf和容许误差ε;其中,mf∈[1,∞);
1.3.2)随机产生一个聚类中心wr(u);r为任意类别;u为循环次数,u←1;
1.3.3)设置隶属度;
设定一个含有A个样本的集合{x1,x2,…,xA};将所述A个样本划分为c类;V={v1,v2,…,vc}表示所述c个类的中心;
设矩阵U=(uIJ)c×A,所述矩阵U的元素uIJ表示J个样本属于第I类的隶属度;
uIJ满足公式(14),即:
<mrow>
<mfenced open = "" close = "}">
<mtable>
<mtr>
<mtd>
<mrow>
<mo>&ForAll;</mo>
<mi>J</mi>
</mrow>
</mtd>
<mtd>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>I</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>c</mi>
</munderover>
<msub>
<mi>u</mi>
<mrow>
<mi>I</mi>
<mi>J</mi>
</mrow>
</msub>
<mo>=</mo>
<mn>1</mn>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mo>&ForAll;</mo>
<mi>I</mi>
<mo>,</mo>
<mi>j</mi>
</mrow>
</mtd>
<mtd>
<mrow>
<msub>
<mi>u</mi>
<mrow>
<mi>I</mi>
<mi>J</mi>
</mrow>
</msub>
<mo>&Element;</mo>
<mo>&lsqb;</mo>
<mn>0</mn>
<mo>,</mo>
<mn>1</mn>
<mo>&rsqb;</mo>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mo>&ForAll;</mo>
<mi>I</mi>
</mrow>
</mtd>
<mtd>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>J</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>A</mi>
</munderover>
<msub>
<mi>u</mi>
<mrow>
<mi>I</mi>
<mi>J</mi>
</mrow>
</msub>
<mo>></mo>
<mn>0</mn>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>14</mn>
<mo>)</mo>
</mrow>
</mrow>
式中,A为样本总数;J为任意样本,1≤J≤A;c为类的总数;I为任意类,1≤I≤c;uIJ为J个样本属于第I类的隶属度;
隶属度uIJ计算公式如下:
<mrow>
<msub>
<mi>u</mi>
<mrow>
<mi>I</mi>
<mi>J</mi>
</mrow>
</msub>
<mo>=</mo>
<mn>1</mn>
<mo>/</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>u</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>c</mi>
</munderover>
<msup>
<mrow>
<mo>(</mo>
<mfrac>
<mrow>
<msubsup>
<mi>d</mi>
<mrow>
<mi>I</mi>
<mi>J</mi>
</mrow>
<mn>2</mn>
</msubsup>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>J</mi>
</msub>
<mo>,</mo>
<msub>
<mi>c</mi>
<mi>I</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msubsup>
<mi>d</mi>
<mrow>
<mi>u</mi>
<mi>J</mi>
</mrow>
<mn>2</mn>
</msubsup>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>J</mi>
</msub>
<mo>,</mo>
<msub>
<mi>c</mi>
<mi>u</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>)</mo>
</mrow>
<mfrac>
<mn>1</mn>
<mrow>
<msub>
<mi>m</mi>
<mi>f</mi>
</msub>
<mo>-</mo>
<mn>1</mn>
</mrow>
</mfrac>
</msup>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>15</mn>
<mo>)</mo>
</mrow>
</mrow>
式中,u为循环次数,1≤u≤c;mf为模糊加权指数;uIJ为J个样本属于第I类的隶属度;xJ为模糊组J中的向量;cI为第I类聚类中心;cu为第u类聚类中心;dIJ(xJ,cI)为xJ和cI的通用距离函数;duJ(xJ,cu)为xJ和cu的通用距离函数;
1.3.4)利用公式(16)修正聚类中心;
<mrow>
<msub>
<mi>w</mi>
<mi>I</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>+</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>J</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>A</mi>
</munderover>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mi>u</mi>
<mrow>
<mi>I</mi>
<mi>J</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<msub>
<mi>m</mi>
<mi>f</mi>
</msub>
</msup>
<msub>
<mi>x</mi>
<mi>J</mi>
</msub>
</mrow>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>J</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>A</mi>
</munderover>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mi>u</mi>
<mrow>
<mi>I</mi>
<mi>J</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<msub>
<mi>m</mi>
<mi>f</mi>
</msub>
</msup>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>16</mn>
<mo>)</mo>
</mrow>
</mrow>
式中,u为循环次数;A为样本总数;J为任意样本,1≤J≤A;uIJ为J个样本属于第I类的隶属度;mf为模糊加权指数;xJ为模糊组J中的向量;
1.3.5)利用公式(17)计算误差;
<mrow>
<mi>e</mi>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>I</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>c</mi>
</munderover>
<msup>
<mrow>
<mo>|</mo>
<msub>
<mi>w</mi>
<mi>I</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>+</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
<mo>-</mo>
<msub>
<mi>w</mi>
<mi>I</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>)</mo>
</mrow>
<mo>|</mo>
</mrow>
<mn>2</mn>
</msup>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>17</mn>
<mo>)</mo>
</mrow>
</mrow>
式中,c为类的总数;I为任意类,1≤I≤c;u为循环次数;wI(u+1)为修正后的聚类中心;wI(u)为修正前的聚类中心;
1.3.6)如果e<ε,算法结束;如果e>ε,则令u←u+1,并重复步骤1.3.3至步骤1.3.5;其中,ε为理论误差;u为循环次数;
1.3.7)算法结束后,根据得到的隶属度矩阵确定数据所属的类,显示最后的聚类结果;
1.3.8)得到目标函数式:
<mrow>
<mi>min</mi>
<mi> </mi>
<mi>J</mi>
<mrow>
<mo>(</mo>
<mi>U</mi>
<mo>,</mo>
<mi>V</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>I</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>c</mi>
</munderover>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>J</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>A</mi>
</munderover>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mi>u</mi>
<mrow>
<mi>I</mi>
<mi>J</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<msub>
<mi>m</mi>
<mi>f</mi>
</msub>
</msup>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mi>d</mi>
<mrow>
<mi>I</mi>
<mi>J</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>18</mn>
<mo>)</mo>
</mrow>
</mrow>
式中,A为样本数;c为聚类类别个数,c∈[2,A];uIJ为第J个样本属于第I类的隶属度;dIJ为第J个样本和第I类聚类中心之间的距离;mf为模糊加权指数,mf∈[1,∞);
2)用降维后的变量去解释原来的大部分变量,从而将相关性很高的变量转化成彼此相互独立或不相关的变量。
3)将所述彼此相互独立或不相关的变量制成样本集
4)利用CART算法和Boosting算法,将所述样本集建立为汽车企业客户流失模型,从而对汽车企业客户流失问题进行分析;
主要包括以下步骤:
4.1)构造CART决策树,即建立汽车企业客户流失分析的分类回归树模型;
4.1.1)将所有样本集做为根节点;
4.1.2)通过分割函数选择分割变量,并确定分割阀值Si的值;
4.1.3)采用Gini指数法对P维空间的节点进行分割,从而将P维空间分为两个部分;P维空间一部分包含的点都满足Xi≤Si,另一部分包含的点满足Xi>Si;即得到根节点下面的2个子节点;
其中,X1,X2,...,Xp表示解释变量;Si为分割阀值;
4.1.4)通过再次选择分割变量和分割阀值,将步骤4.1.2和步骤4.1.3中得到的每个子节点以同样的方式再划分成两部分;
4.1.5)重复步骤4.1.2至步骤4.1.4,直至把整个P维空间划分成互不重叠的小矩形,从而减小子节点的不纯度
Gini不纯度表达式:
<mrow>
<mi>Q</mi>
<mo>=</mo>
<mn>1</mn>
<mo>-</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>K</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>C</mi>
</munderover>
<msubsup>
<mi>P</mi>
<mi>K</mi>
<mn>2</mn>
</msubsup>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>19</mn>
<mo>)</mo>
</mrow>
</mrow>
式中,C为类的总数;K为任意类,K=1,2,...,C;PK为观测点中属于类K的比例;
4.2)对CART决策树剪枝;
4.2.1)利用成本复杂性标准产生连续的、节点数目减少的序列树;
成本复杂性标准为:
Err(F)+α|L(F)| (20)
式中,Err(F)为验证数据被CART决策树误分的部分;|L(F)|为树F的叶节点数;α为每个节点的惩罚成本,α∈[o,+∞);
通过不断增加α值,产生连续的、节点数目减少的序列树;
4.2.2)获得最优树;
当剪枝序列含有的误差在最小错误树的一个标准差之内时,停止修剪,此时获得最优树;
最小误差率是一个带有标准差的随机变量的观测值,表达式为
<mrow>
<msqrt>
<mrow>
<msub>
<mi>B</mi>
<mrow>
<mi>m</mi>
<mi>i</mi>
<mi>n</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<msub>
<mi>B</mi>
<mrow>
<mi>m</mi>
<mi>i</mi>
<mi>n</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>/</mo>
<mi>S</mi>
</mrow>
</msqrt>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>21</mn>
<mo>)</mo>
</mrow>
</mrow>
式中,B为错误率;Bmin为最小错误树的错误率;S为验证数据集的数目;
4.3)根据CART算法和训练集(X1,Y1),(X2,Y2),...,(Xρ,Yρ),对训练集的分布进行初始化;训练集的分布表示如下:
D1(θ)=1/ρ (22)
式中,θ为任意训练集序号;ρ为训练集个数;
进行G轮训练;
在G轮循环中,CART算法在权值Dt下训练,得到弱分类器ht;计算所述弱分类器ht在所述权值Dt下的错误率:
<mrow>
<msub>
<mi>&xi;</mi>
<mi>t</mi>
</msub>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>&theta;</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>S</mi>
</munderover>
<msub>
<mi>D</mi>
<mi>t</mi>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>X</mi>
<mi>&theta;</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>&lsqb;</mo>
<msub>
<mi>h</mi>
<mi>t</mi>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>X</mi>
<mi>&theta;</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>&NotEqual;</mo>
<msub>
<mi>Y</mi>
<mi>&theta;</mi>
</msub>
<mo>&rsqb;</mo>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>23</mn>
<mo>)</mo>
</mrow>
</mrow>
式中,S为验证数据集的数目;θ为任意训练集序号;Xθ和Yθ为序号θ对应的训练集;Dt(Xθ)为Xθ对应的权值;ht为弱分类器;
利用所述错误率ξt更新权值:
Dt+1(θ)=Dθ(t)exp(-αtYθht(Xθ))/Zt (24)
式中,Di(t)为更新前的权值;αt为误差率增益值;ht为弱分类器;Xθ和Yθ为序号θ对应的训练集;Zt为标准化因子;
<mrow>
<msub>
<mi>&alpha;</mi>
<mi>t</mi>
</msub>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<mn>2</mn>
</mfrac>
<mi>l</mi>
<mi>o</mi>
<mi>g</mi>
<mrow>
<mo>(</mo>
<mfrac>
<mrow>
<mn>1</mn>
<mo>-</mo>
<msub>
<mi>&xi;</mi>
<mi>t</mi>
</msub>
</mrow>
<msub>
<mi>&xi;</mi>
<mi>t</mi>
</msub>
</mfrac>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>25</mn>
<mo>)</mo>
</mrow>
</mrow>
式中,ξt为所述弱分类器ht在所述权值Dt下的错误率;
当ht(xθ)=yθ时,yθht(xθ)=1;
当ht(xθ)≠yθ时,yθht(xθ)=-1;
其中,Xθ和Yθ为序号θ对应的训练集;ht为弱分类器;
最后输出强分类器:
式中,θ为任意训练集序号;G为训练轮数;ht为弱分类器;x为训练集中的向量数据;
5)利用步骤4输出的强分类器H(x)对所述汽车企业客户流失分析的分类回归树模型进行优化,得到汽车企业客户流失分析模型,从而分析汽车企业客户流失原因。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710994836.1A CN107977853A (zh) | 2017-10-23 | 2017-10-23 | 一种汽车企业客户流失建模与分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710994836.1A CN107977853A (zh) | 2017-10-23 | 2017-10-23 | 一种汽车企业客户流失建模与分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107977853A true CN107977853A (zh) | 2018-05-01 |
Family
ID=62012609
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710994836.1A Pending CN107977853A (zh) | 2017-10-23 | 2017-10-23 | 一种汽车企业客户流失建模与分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107977853A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108876034A (zh) * | 2018-06-13 | 2018-11-23 | 重庆邮电大学 | 一种改进的Lasso+RBF神经网络组合预测模型 |
CN111159258A (zh) * | 2019-12-31 | 2020-05-15 | 科技谷(厦门)信息技术有限公司 | 一种基于聚类分析的客户分群实现方法 |
CN112017062A (zh) * | 2020-07-15 | 2020-12-01 | 北京淇瑀信息科技有限公司 | 基于客群细分的资源额度分配方法、装置及电子设备 |
CN116823014A (zh) * | 2023-04-06 | 2023-09-29 | 南京邮电大学 | 一种企业员工绩效自动评分服务实现方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104008402A (zh) * | 2014-05-12 | 2014-08-27 | 南京信息工程大学 | 一种基于改进som算法的地基云图识别方法 |
CN106203478A (zh) * | 2016-06-27 | 2016-12-07 | 南昌大学 | 一种用于智能电表大数据的负荷曲线聚类方法 |
-
2017
- 2017-10-23 CN CN201710994836.1A patent/CN107977853A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104008402A (zh) * | 2014-05-12 | 2014-08-27 | 南京信息工程大学 | 一种基于改进som算法的地基云图识别方法 |
CN106203478A (zh) * | 2016-06-27 | 2016-12-07 | 南昌大学 | 一种用于智能电表大数据的负荷曲线聚类方法 |
Non-Patent Citations (1)
Title |
---|
张玮: "(基于企业数据的预测与评价方法研究", 《中国博士学位论文全文数据库经济与管理科学辑》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108876034A (zh) * | 2018-06-13 | 2018-11-23 | 重庆邮电大学 | 一种改进的Lasso+RBF神经网络组合预测模型 |
CN108876034B (zh) * | 2018-06-13 | 2021-09-14 | 重庆邮电大学 | 一种改进的Lasso+RBF神经网络组合预测方法 |
CN111159258A (zh) * | 2019-12-31 | 2020-05-15 | 科技谷(厦门)信息技术有限公司 | 一种基于聚类分析的客户分群实现方法 |
CN112017062A (zh) * | 2020-07-15 | 2020-12-01 | 北京淇瑀信息科技有限公司 | 基于客群细分的资源额度分配方法、装置及电子设备 |
CN112017062B (zh) * | 2020-07-15 | 2024-06-07 | 北京淇瑀信息科技有限公司 | 基于客群细分的资源额度分配方法、装置及电子设备 |
CN116823014A (zh) * | 2023-04-06 | 2023-09-29 | 南京邮电大学 | 一种企业员工绩效自动评分服务实现方法 |
CN116823014B (zh) * | 2023-04-06 | 2024-02-13 | 南京邮电大学 | 一种企业员工绩效自动评分服务实现方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107977853A (zh) | 一种汽车企业客户流失建模与分析方法 | |
CN105335157B (zh) | 一种整合主观和客观评估的需求优先级排序方法及系统 | |
CN111722046B (zh) | 一种基于深度森林模型的变压器故障诊断方法 | |
CN109461025B (zh) | 一种基于机器学习的电能替代潜在客户预测方法 | |
Hong et al. | Rapid identification of the optimal product configuration and its parameters based on customer-centric product modeling for one-of-a-kind production | |
CN107688825A (zh) | 一种改进型的集成加权极限学习机污水处理故障诊方法 | |
CN106022480B (zh) | 基于d-s证据理论的机器人功能模块粒度划分评价方法 | |
CN112116058A (zh) | 一种基于粒子群算法优化多粒度级联森林模型的变压器故障诊断方法 | |
CN108537259A (zh) | 基于粗糙集-神经网络模型的列控车载设备故障分类与识别方法 | |
CN107909262A (zh) | 一种众包代价复杂度的获取方法 | |
CN110070116A (zh) | 基于深度树状训练策略的分段式选择集成图像分类方法 | |
CN112101574B (zh) | 一种机器学习有监督模型解释方法、系统及设备 | |
CN106056235A (zh) | 基于古林法物元可拓模型的输电网效率效益检测方法 | |
CN108647869A (zh) | 工程评估方法和装置 | |
CN109711424A (zh) | 一种基于决策树的行为规则获取方法、装置及设备 | |
CN112819322A (zh) | 基于改进模糊层次分析法的输电线路路径方案评估方法 | |
CN109754122A (zh) | 一种基于随机森林特征提取的bp神经网络的数值预测方法 | |
CN114638021A (zh) | 物联网轻量级区块链系统安全性评价方法 | |
CN114553671A (zh) | 一种电力通信网故障告警的诊断方法 | |
CN103970651A (zh) | 基于组件安全属性的软件体系结构安全性评估方法 | |
CN113159225A (zh) | 多变量工业过程故障分类方法 | |
CN111353525A (zh) | 一种不均衡不完整数据集的建模及缺失值填补方法 | |
CN107644285A (zh) | 售电市场盈利能力评估指标的筛选与权重确定方法及系统 | |
CN115734274A (zh) | 一种基于深度学习和知识图谱的蜂窝网络故障诊断方法 | |
CN107402984B (zh) | 一种基于主题的分类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180501 |
|
RJ01 | Rejection of invention patent application after publication |