CN107977853A

CN107977853A - 一种汽车企业客户流失建模与分析方法

Info

Publication number: CN107977853A
Application number: CN201710994836.1A
Authority: CN
Inventors: 胡朝晖; 牟必清; 吴劲浩; 吴映波; 王旭; 景笑飞; 幸杰; 鄢孟娟; 于丹; 戴翔; 胡渝虹; 胡林海; 姚建丰; 刘民娜
Original assignee: Chongqing University; Chongqing Changan Automobile Co Ltd
Current assignee: Chongqing University; Chongqing Changan Automobile Co Ltd
Priority date: 2017-10-23
Filing date: 2017-10-23
Publication date: 2018-05-01

Abstract

本发明公开了一种汽车企业客户流失建模与分析方法，主要步骤如下：1)构建汽车企业客户流失模型需要的变量。所述变量通过降维产生；降维方法主要包括主成分分析法、SOM网络学习算法和FCM聚类法。2)降维后的变量去解释原来的大部分变量，从而将相关性很高的变量转化成彼此相互独立或不相关的变量。3)所述彼此相互独立或不相关的变量制成样本集。4)利用Boosting算法输出的强分类器H(x)对所述汽车企业客户流失分析的分类回归树模型进行优化，得到汽车企业客户流失分析模型，从而分析汽车企业客户流失原因。

Description

一种汽车企业客户流失建模与分析方法

技术领域

本发明涉及汽车运营领域，具体是一种汽车企业客户流失建模与分析方法。

背景技术

传统运营以产品为中心,在新的竞争态势下需要转换为以客户为核心。因此数据运营在企业整体经营中的作用变得越来越重要。经营时，需要逐步实现以客户为中心的企业战略，并在客户数据、洞见、渠道、营销、服务等多领域层层推进，以达到最佳效果。

汽车行业中，多家品牌已建立了大数据分析部门，并开展数据挖掘工作。其中福特设有卓越的分析部门，部门中包括负责收集数据和深度分析的200多名大数据分析专家。该分析部门利用分析所得的客户偏好结果(包括车型及配置、经销商地理区域等)，对设计、生产及物流分配进行调整。福特根据客户需求推出25个新汽车产品线，从而使福特于2009年实现连续4年亏损后的首次盈利。国内的上汽通用设有的CRM及大数据团队已为三个品牌建立了数据挖掘，并负责汇聚企业内外部的各种数据、进行多维深入分析。

整个大数据分析为企业多个品牌业务部门提供各种数据分析业务及模型服务，支持了整个销售及服务过程，有效提升了业务水平。同时包括奥迪在内的多家豪车品牌都在数据分析及数据运营上加大投入并深化数据分析的应用。

目前长安汽车正稳步走向以客户为中心的运营思路，通过甄别高潜力客户来提升营销效率、延伸客户生命周期和忠诚度、提升再购及增购比例。随着长安汽车企业客户的快速增长，运营过程中需要对资源分配进行优化，同时也需要对客户需求洞察更加深刻。客户是企业的重要资源，也是企业的无形资产，客户的流失，也就意味着资产的流失，因此进行客户流失分析是十分重要的，

但是现有技术还无法对长安汽车的高潜力客户和流失客户进行有效甄别，也就无法通过分析流失客户的特点来提升延伸客户生命周期和忠诚度、营销效率。

发明内容

本发明的目的是解决现有技术中存在的问题。

为实现本发明目的而采用的技术方案是这样的，为实现本发明目的而采用的技术方案是这样的，一种汽车企业客户流失建模与分析方法，主要包括以下步骤：

1)构建汽车企业客户流失模型需要的变量；所述变量通过降维产生。

降维方法主要包括主成分分析法、SOM网络学习算法和FCM聚类法。

1.1)主成分分析法的主要步骤如下：

1.1.1)确定分析变量，并采集所述分析变量的原始数据。

采集出n个样本，每个样本有p个变量，所述n个样本和所述p个变量构成一个n×p型矩阵。

1.1.2)对原始数据进行标准化处理，以消除量纲对数据处理的影响。

标准化处理公式：y_ij＝x_ij-x_i/s_i (1)

式中，y_ij为标准化后的变量值，x_ij为实际变量值，x_i为算术平均值，s_i为标准差，i为矩阵向量的行下标，j为矩阵向量的列下标。

处理后的数据矩阵为：

式中，n为样本个数，p为每个样本中的变量个数。

1.1.3)计算特征根和响应的标准正交特征向量。

Claims

1.一种汽车企业客户流失建模与分析方法，其特征在于，主要包括以下步骤：

1)构建汽车企业客户流失模型需要的变量；所述变量通过降维产生；

降维方法主要包括主成分分析法、SOM网络学习算法和FCM聚类法；

1.1)主成分分析法的主要步骤如下：

1.1.1)确定分析变量，并采集所述分析变量的原始数据；

采集出n个样本，每个样本有p个变量；所述n个样本和所述p个变量构成一个n×p型矩阵；

1.1.2)对原始数据进行标准化处理，以消除量纲对数据处理的影响；

标准化处理公式：y_ij＝x_ij-x_i/s_i (1)

式中，y_ij为标准化后的变量值；x_ij为实际变量值；x_i为算术平均值；s_i为标准差；i为矩阵向量的行下标；j为矩阵向量的列下标；

处理后的数据矩阵为：

<mrow> <msub> <mi>Y</mi> <mrow> <mi>n</mi> <mo>&times;</mo> <mi>p</mi> </mrow> </msub> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <msub> <mi>y</mi> <mn>11</mn> </msub> </mtd> <mtd> <msub> <mi>y</mi> <mn>12</mn> </msub> </mtd> <mtd> <mn>...</mn> </mtd> <mtd> <msub> <mi>y</mi> <mrow> <mn>1</mn> <mi>p</mi> </mrow> </msub> </mtd> </mtr> <mtr> <mtd> <msub> <mi>y</mi> <mn>21</mn> </msub> </mtd> <mtd> <msub> <mi>y</mi> <mn>22</mn> </msub> </mtd> <mtd> <mn>...</mn> </mtd> <mtd> <msub> <mi>y</mi> <mrow> <mn>2</mn> <mi>p</mi> </mrow> </msub> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> <mtd> <mrow></mrow> </mtd> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> <mtd> <mrow></mrow> </mtd> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> <mtd> <mrow></mrow> </mtd> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <msub> <mi>y</mi> <mrow> <mi>n</mi> <mn>1</mn> </mrow> </msub> </mtd> <mtd> <msub> <mi>y</mi> <mrow> <mi>n</mi> <mn>2</mn> </mrow> </msub> </mtd> <mtd> <mn>...</mn> </mtd> <mtd> <msub> <mi>y</mi> <mrow> <mi>n</mi> <mi>p</mi> </mrow> </msub> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

式中，n为样本个数；p为每个样本中的变量个数；

1.1.3)计算特征根和响应的标准正交特征向量；

相关系数矩阵Z为：

<mrow> <msub> <mi>Z</mi> <mrow> <mi>n</mi> <mo>&times;</mo> <mi>p</mi> </mrow> </msub> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <msub> <mi>z</mi> <mn>11</mn> </msub> </mtd> <mtd> <msub> <mi>z</mi> <mn>12</mn> </msub> </mtd> <mtd> <mn>...</mn> </mtd> <mtd> <msub> <mi>z</mi> <mrow> <mn>1</mn> <mi>p</mi> </mrow> </msub> </mtd> </mtr> <mtr> <mtd> <msub> <mi>z</mi> <mn>21</mn> </msub> </mtd> <mtd> <msub> <mi>z</mi> <mn>22</mn> </msub> </mtd> <mtd> <mn>...</mn> </mtd> <mtd> <msub> <mi>z</mi> <mrow> <mn>2</mn> <mi>p</mi> </mrow> </msub> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> <mtd> <mrow></mrow> </mtd> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> <mtd> <mrow></mrow> </mtd> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> <mtd> <mrow></mrow> </mtd> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <msub> <mi>z</mi> <mrow> <mi>n</mi> <mn>1</mn> </mrow> </msub> </mtd> <mtd> <msub> <mi>z</mi> <mrow> <mi>n</mi> <mn>2</mn> </mrow> </msub> </mtd> <mtd> <mn>...</mn> </mtd> <mtd> <msub> <mi>z</mi> <mrow> <mi>n</mi> <mi>p</mi> </mrow> </msub> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

式中，z_ij为原变量z_i与z_j的相关系数；i为矩阵向量的行下标；j为矩阵向量的列下标；n为样本个数；p为每个样本中的变量个数；

z_ij＝z_ji (4)

<mrow> <msub> <mi>z</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mrow> <mi>k</mi> <mi>i</mi> </mrow> </msub> <mo>-</mo> <mover> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mrow> <mi>k</mi> <mi>j</mi> </mrow> </msub> <mo>-</mo> <mover> <msub> <mi>y</mi> <mi>j</mi> </msub> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> </mrow> <msqrt> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mrow> <mi>k</mi> <mi>i</mi> </mrow> </msub> <mo>-</mo> <mover> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msup> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mrow> <mi>k</mi> <mi>j</mi> </mrow> </msub> <mo>-</mo> <mover> <msub> <mi>y</mi> <mi>j</mi> </msub> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

式中，z_ij为原变量z_i与z_j的相关系数；i为矩阵向量的行下标；j为矩阵向量的列下标；y_ki和y_kiy_kj为标准化后的变量值；为y_ki的算术平均值；为y_ki的算术平均值；n为样本个数；整数k为任意样本，1≤k≤n；

|λE-Z|＝0 (6)

式中，λ为矩阵Z的特征值；E为单位矩阵；Z为公式(3)表示的矩阵；

根据公式(6)，可以求出矩阵Z的p个特征值，各主成分的方差贡献大小按特征根顺序递减排列；

利用每个特征值λ_j解出方程组Zb＝λ_jb对应于每个特征值的特征变量b_j；

式中，Z为公式(3)表示的矩阵；b为特征变量；λ_j为每一个特征值；

1.1.4)计算主成分贡献率和累计贡献率；

把所述p个变量y₁,y₂,...,y_p的总方差分解为p个独立的变量g₁,g₂,...,g_p的方差之和；

第j个主成分y_j的方差贡献率为

式中，λ_j为矩阵Z的每个特征值；j为主成分个数，j＝1,2,…,p；p为原始变量个数；

第一主成分贡献率最大，即g₁综合原始变量的能力最强；g₂,g₃,...,g_p的综合能力依次递减；

<mrow> <msub> <mi>&Psi;</mi> <mi>m</mi> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>&lambda;</mi> <mi>k</mi> </msub> <mo>/</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>p</mi> </munderover> <msub> <mi>&lambda;</mi> <mi>j</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>

式中，λ_j是矩阵Z的每个特征值；j＝1,2,…,p；p为所述独立变量个数；λ_k是矩阵Z的所有特征值；整数k为任意样本，1≤k≤m；m为主成分个数；

1.1.5)得到新的综合变量；

即，

式中，p为所述独立向量个数；y₁、y₂、y₃......y_p为标准化后的变量值；m为主成分个数；l₁₁、l₂₁、l₃₁......l_mp为主成分得分系数；

1.2)SOM网络学习算法的主步骤如下：

1.2.1)初始化；

将小权值设置为初始的权值向量；

设定学习效率的初值及学习总次数T；

1.2.2)给SOM网络提供一个输入模式

式中，x₁、x₂、x₃......x_h为输入，h为输入节点个数；a为输入样本个数；

1.2.3)通过竞争，确定样本输出神经元中的获胜神经元；

利用公式(10)计算欧式距离d_s；

<mrow> <msub> <mi>d</mi> <mi>s</mi> </msub> <mo>=</mo> <mo>|</mo> <mo>|</mo> <mi>X</mi> <mo>-</mo> <msub> <mi>W</mi> <mi>s</mi> </msub> <mo>|</mo> <mo>|</mo> <mo>=</mo> <msqrt> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>q</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>q</mi> </msub> <mo>(</mo> <mi>t</mi> <mo>)</mo> <mo>-</mo> <msub> <mi>W</mi> <mrow> <mi>q</mi> <mi>s</mi> </mrow> </msub> <mo>(</mo> <mi>t</mi> <mo>)</mo> <mo>)</mo> </mrow> </mrow> </msqrt> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>10</mn> <mo>)</mo> </mrow> </mrow>

式中，d_s为输入样本q与输出神经元s之间的距离；X为输入矩阵；W_s为输出神经元与所有输入神经元之间连接的权向量；N为输入样本总数；1≤q≤N；x_q(t)为输入神经元的输入；t为时间；W_qs(t)为输入神经元与输出神经元的连接权值；

根据计算得到的欧式距离d_s，找出最小值d_f；即：

d_f＝min(d_s) (11)

式中，d_s为欧式距离；

j^*是欧式距离为d_f的输出神经元；j^*为样本输出神经元中的获胜神经元；

1.2.4)利用公式(12)和公式(13)修正输出神经元j^*及其邻接神经元的权值；

W_qs(t+1)＝W_qs(t)+η(t)(x_q(t)-W_qs(t)) (12)

式中，W_qs(t)为输入神经元与输出神经元的连接权值；x_q(t)为输入神经元的输入；η(t)是一个随时间变化逐渐减小到零的增益；t为时间；

η(t)＝1/t (13)

式中，t为时间；

1.2.5)令t←t+1，重复步骤1.2.2至1.2.4，直到映射不再发生明显变化时停止训练，并输出聚类结果；

1.3)FCM聚类的主要步骤如下：

1.3.1)定义类别数c、模糊加权指数m_f和容许误差ε；其中，m_f∈[1,∞)；

1.3.2)随机产生一个聚类中心w_r(u)；r为任意类别；u为循环次数，u←1；

1.3.3)设置隶属度；

设定一个含有A个样本的集合{x₁,x₂,…,x_A}；将所述A个样本划分为c类；V＝{v₁,v₂,…,v_c}表示所述c个类的中心；

设矩阵U＝(u_IJ)_c×A，所述矩阵U的元素u_IJ表示J个样本属于第I类的隶属度；

u_IJ满足公式(14)，即：

<mrow> <mfenced open = "" close = "}"> <mtable> <mtr> <mtd> <mrow> <mo>&ForAll;</mo> <mi>J</mi> </mrow> </mtd> <mtd> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>I</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>c</mi> </munderover> <msub> <mi>u</mi> <mrow> <mi>I</mi> <mi>J</mi> </mrow> </msub> <mo>=</mo> <mn>1</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>&ForAll;</mo> <mi>I</mi> <mo>,</mo> <mi>j</mi> </mrow> </mtd> <mtd> <mrow> <msub> <mi>u</mi> <mrow> <mi>I</mi> <mi>J</mi> </mrow> </msub> <mo>&Element;</mo> <mo>&lsqb;</mo> <mn>0</mn> <mo>,</mo> <mn>1</mn> <mo>&rsqb;</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>&ForAll;</mo> <mi>I</mi> </mrow> </mtd> <mtd> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>J</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>A</mi> </munderover> <msub> <mi>u</mi> <mrow> <mi>I</mi> <mi>J</mi> </mrow> </msub> <mo>></mo> <mn>0</mn> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>14</mn> <mo>)</mo> </mrow> </mrow>

式中，A为样本总数；J为任意样本，1≤J≤A；c为类的总数；I为任意类，1≤I≤c；u_IJ为J个样本属于第I类的隶属度；

隶属度u_IJ计算公式如下：

<mrow> <msub> <mi>u</mi> <mrow> <mi>I</mi> <mi>J</mi> </mrow> </msub> <mo>=</mo> <mn>1</mn> <mo>/</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>u</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>c</mi> </munderover> <msup> <mrow> <mo>(</mo> <mfrac> <mrow> <msubsup> <mi>d</mi> <mrow> <mi>I</mi> <mi>J</mi> </mrow> <mn>2</mn> </msubsup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>J</mi> </msub> <mo>,</mo> <msub> <mi>c</mi> <mi>I</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msubsup> <mi>d</mi> <mrow> <mi>u</mi> <mi>J</mi> </mrow> <mn>2</mn> </msubsup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>J</mi> </msub> <mo>,</mo> <msub> <mi>c</mi> <mi>u</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>)</mo> </mrow> <mfrac> <mn>1</mn> <mrow> <msub> <mi>m</mi> <mi>f</mi> </msub> <mo>-</mo> <mn>1</mn> </mrow> </mfrac> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>15</mn> <mo>)</mo> </mrow> </mrow>

式中，u为循环次数，1≤u≤c；m_f为模糊加权指数；u_IJ为J个样本属于第I类的隶属度；x_J为模糊组J中的向量；c_I为第I类聚类中心；c_u为第u类聚类中心；d_IJ(x_J,c_I)为x_J和c_I的通用距离函数；d_uJ(x_J,c_u)为x_J和c_u的通用距离函数；

1.3.4)利用公式(16)修正聚类中心；

<mrow> <msub> <mi>w</mi> <mi>I</mi> </msub> <mrow> <mo>(</mo> <mi>u</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>J</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>A</mi> </munderover> <msup> <mrow> <mo>(</mo> <msub> <mi>u</mi> <mrow> <mi>I</mi> <mi>J</mi> </mrow> </msub> <mo>)</mo> </mrow> <msub> <mi>m</mi> <mi>f</mi> </msub> </msup> <msub> <mi>x</mi> <mi>J</mi> </msub> </mrow> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>J</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>A</mi> </munderover> <msup> <mrow> <mo>(</mo> <msub> <mi>u</mi> <mrow> <mi>I</mi> <mi>J</mi> </mrow> </msub> <mo>)</mo> </mrow> <msub> <mi>m</mi> <mi>f</mi> </msub> </msup> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>16</mn> <mo>)</mo> </mrow> </mrow>

式中，u为循环次数；A为样本总数；J为任意样本，1≤J≤A；u_IJ为J个样本属于第I类的隶属度；m_f为模糊加权指数；x_J为模糊组J中的向量；

1.3.5)利用公式(17)计算误差；

<mrow> <mi>e</mi> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>I</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>c</mi> </munderover> <msup> <mrow> <mo>|</mo> <msub> <mi>w</mi> <mi>I</mi> </msub> <mrow> <mo>(</mo> <mi>u</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>-</mo> <msub> <mi>w</mi> <mi>I</mi> </msub> <mrow> <mo>(</mo> <mi>u</mi> <mo>)</mo> </mrow> <mo>|</mo> </mrow> <mn>2</mn> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>17</mn> <mo>)</mo> </mrow> </mrow>

式中，c为类的总数；I为任意类，1≤I≤c；u为循环次数；w_I(u+1)为修正后的聚类中心；w_I(u)为修正前的聚类中心；

1.3.6)如果e＜ε，算法结束；如果e＞ε，则令u←u+1，并重复步骤1.3.3至步骤1.3.5；其中，ε为理论误差；u为循环次数；

1.3.7)算法结束后，根据得到的隶属度矩阵确定数据所属的类，显示最后的聚类结果；

1.3.8)得到目标函数式：

<mrow> <mi>min</mi> <mi> </mi> <mi>J</mi> <mrow> <mo>(</mo> <mi>U</mi> <mo>,</mo> <mi>V</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>I</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>c</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>J</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>A</mi> </munderover> <msup> <mrow> <mo>(</mo> <msub> <mi>u</mi> <mrow> <mi>I</mi> <mi>J</mi> </mrow> </msub> <mo>)</mo> </mrow> <msub> <mi>m</mi> <mi>f</mi> </msub> </msup> <msup> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mrow> <mi>I</mi> <mi>J</mi> </mrow> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>18</mn> <mo>)</mo> </mrow> </mrow>

式中，A为样本数；c为聚类类别个数,c∈[2,A]；u_IJ为第J个样本属于第I类的隶属度；d_IJ为第J个样本和第I类聚类中心之间的距离；m_f为模糊加权指数，m_f∈[1,∞)；

3)将所述彼此相互独立或不相关的变量制成样本集

4)利用CART算法和Boosting算法，将所述样本集建立为汽车企业客户流失模型，从而对汽车企业客户流失问题进行分析；

主要包括以下步骤：

4.1)构造CART决策树，即建立汽车企业客户流失分析的分类回归树模型；

4.1.1)将所有样本集做为根节点；

4.1.2)通过分割函数选择分割变量，并确定分割阀值S_i的值；

4.1.3)采用Gini指数法对P维空间的节点进行分割，从而将P维空间分为两个部分；P维空间一部分包含的点都满足X_i≤S_i，另一部分包含的点满足X_i＞S_i；即得到根节点下面的2个子节点；

其中，X₁,X₂,...,X_p表示解释变量；S_i为分割阀值；

4.1.4)通过再次选择分割变量和分割阀值，将步骤4.1.2和步骤4.1.3中得到的每个子节点以同样的方式再划分成两部分；

4.1.5)重复步骤4.1.2至步骤4.1.4，直至把整个P维空间划分成互不重叠的小矩形，从而减小子节点的不纯度

Gini不纯度表达式：

<mrow> <mi>Q</mi> <mo>=</mo> <mn>1</mn> <mo>-</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>K</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>C</mi> </munderover> <msubsup> <mi>P</mi> <mi>K</mi> <mn>2</mn> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>19</mn> <mo>)</mo> </mrow> </mrow>

式中，C为类的总数；K为任意类，K＝1,2,...,C；P_K为观测点中属于类K的比例；

4.2)对CART决策树剪枝；

4.2.1)利用成本复杂性标准产生连续的、节点数目减少的序列树；

成本复杂性标准为：

Err(F)+α|L(F)| (20)

式中，Err(F)为验证数据被CART决策树误分的部分；|L(F)|为树F的叶节点数；α为每个节点的惩罚成本，α∈[o,+∞)；

通过不断增加α值，产生连续的、节点数目减少的序列树；

4.2.2)获得最优树；

当剪枝序列含有的误差在最小错误树的一个标准差之内时，停止修剪，此时获得最优树；

式中，B为错误率；B_min为最小错误树的错误率；S为验证数据集的数目；

4.3)根据CART算法和训练集(X₁,Y₁),(X₂,Y₂),...,(X_ρ,Y_ρ)，对训练集的分布进行初始化；训练集的分布表示如下：

D₁(θ)＝1/ρ (22)

式中，θ为任意训练集序号；ρ为训练集个数；

进行G轮训练；

在G轮循环中，CART算法在权值D_t下训练，得到弱分类器h_t；计算所述弱分类器h_t在所述权值D_t下的错误率：

<mrow> <msub> <mi>&xi;</mi> <mi>t</mi> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>&theta;</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>S</mi> </munderover> <msub> <mi>D</mi> <mi>t</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mi>&theta;</mi> </msub> <mo>)</mo> </mrow> <mo>&lsqb;</mo> <msub> <mi>h</mi> <mi>t</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mi>&theta;</mi> </msub> <mo>)</mo> </mrow> <mo>&NotEqual;</mo> <msub> <mi>Y</mi> <mi>&theta;</mi> </msub> <mo>&rsqb;</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>23</mn> <mo>)</mo> </mrow> </mrow>

式中，S为验证数据集的数目；θ为任意训练集序号；X_θ和Y_θ为序号θ对应的训练集；D_t(X_θ)为X_θ对应的权值；h_t为弱分类器；

利用所述错误率ξ_t更新权值：

D_t+1(θ)＝D_θ(t)exp(-α_tY_θh_t(X_θ))/Z_t (24)

式中，D_i(t)为更新前的权值；α_t为误差率增益值；h_t为弱分类器；X_θ和Y_θ为序号θ对应的训练集；Z_t为标准化因子；

<mrow> <msub> <mi>&alpha;</mi> <mi>t</mi> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mfrac> <mrow> <mn>1</mn> <mo>-</mo> <msub> <mi>&xi;</mi> <mi>t</mi> </msub> </mrow> <msub> <mi>&xi;</mi> <mi>t</mi> </msub> </mfrac> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>25</mn> <mo>)</mo> </mrow> </mrow>

式中，ξ_t为所述弱分类器h_t在所述权值D_t下的错误率；

当h_t(x_θ)＝y_θ时，y_θh_t(x_θ)＝1；

当h_t(x_θ)≠y_θ时，y_θh_t(x_θ)＝-1；

其中，X_θ和Y_θ为序号θ对应的训练集；h_t为弱分类器；

最后输出强分类器：

式中，θ为任意训练集序号；G为训练轮数；h_t为弱分类器；x为训练集中的向量数据；