CN113962740A

CN113962740A - 汽车4s店客户流失的预警方法和装置

Info

Publication number: CN113962740A
Application number: CN202111255502.5A
Authority: CN
Inventors: 黄亮
Original assignee: Rainbow Wireless Beijing New Technology Co ltd
Current assignee: Rainbow Wireless Beijing New Technology Co ltd
Priority date: 2021-10-27
Filing date: 2021-10-27
Publication date: 2022-01-21

Abstract

本申请涉及一种汽车4S店客户流失的预警方法和装置；所述方法包括：获取客户的历史数据，生成数据集；根据所述历史数据构建初始自变量和因变量；对初始自变量进行逻辑回归建模，并从所述初始自变量中筛选出若干个最终自变量；采用所述最终自变量再次建立逻辑回归模型，获得预警模型；将待预测的客户数据输入到所述预警模型中进行处理，获得预警结果。本申请的方案根据门店积累的与客户消费行为有关的大量数据，进行深入的分析和挖掘，通过模型的方法克服了传统手段分析维度单一的问题，从而有效增加了预警的准确度和及时性。

Description

汽车4S店客户流失的预警方法和装置

技术领域

本申请涉及数据挖掘技术领域，具体涉及一种汽车4S店客户流失的预警方法和装置。

背景技术

汽车市场的激烈竞争已经转移到汽车售后市场，在此背景下，争夺客户并保持客户忠诚成了4S站的主要课题。然而面对激烈的竞争，客户关系变得愈加脆弱。因此，对客户是否即将流失进行预测，进而更准确的掌握客户的行为，提高整体客户的留存率，甚至找出影响客户流失的关键因子，对于车企来说显得极为重要了。

相关技术中，目前4S店对于客户是否即将流失的判断主要是基于客户最近一次进店的时间，此方法分析维度单一，无法有效利用车企和4S店内积累的大量数据，导致对车主的流失预警不及时、不准确。

发明内容

为至少在一定程度上克服相关技术中存在的问题，本申请提供一种汽车4S店客户流失的预警方法和装置。

根据本申请实施例的第一方面，提供一种汽车4S店客户流失的预警方法，包括：

获取客户的历史数据，生成数据集；

根据所述历史数据构建初始自变量和因变量；

对初始自变量进行逻辑回归建模，并从所述初始自变量中筛选出若干个最终自变量；

采用所述最终自变量再次建立逻辑回归模型，获得预警模型；

将待预测的客户数据输入到所述预警模型中进行处理，获得预警结果。

进一步地，所述历史数据包括：预设时间范围内的基础行车数据、DMS数据，维保状态数据；

根据所述基础行车数据构建的自变量包括：每月平均里程、车型、车龄；

根据所述DMS数据构建的自变量包括：维保指标值、客户历史消费总金额、客户事故金额、客户索赔金额；

根据所述维保状态数据构建的自变量包括：维保期是否到期、到店平均时间间隔、维保期结束后月份数。

进一步地，根据所述历史数据构建的因变量Y为：客户是否流失；当客户为流失客户时，因变量Y＝1；

如果当前时间距离客户上次进店的时间超过预设的时间阈值，则将用户定义为流失客户；否则将用户定义为未流失客户。

进一步地，所述生成数据集，包括：

对所述历史数据进行数据质量控制，清洗掉噪声数据；

将清洗掉噪声后的数据进行标准化处理；

将标准化处理后的数据分为训练集和测试集。

进一步地，所述对初始自变量进行逻辑回归建模，包括：

建立如下逻辑回归模型：

其中，P为客户流失的概率，即因变量Y＝1的概率；X₁、X₂…X_n为初始自变量；β₀、β₁…β_n为截距项及各自变量对应的回归系数，β₀、β₁…β_n通过最大似然估计进行求解。

进一步地，所述通过最大似然估计进行求解，包括：

建立似然函数；

对似然函数取对数；

将取对数后的函数求导，令导数为0；

采用Newton-Raphson迭代获得参数β_i的估计值；i取值为0至n。

进一步地，所述从所述初始自变量中筛选出若干个最终自变量，包括：

对模型中各个初始自变量的显著性进行检验，筛选出与因变量有着显著关系的自变量，获得最终自变量。

进一步地，所述对模型中各个初始自变量的显著性进行检验，包括：

获取设定的显著性水平ɑ值；

计算每个初始自变量的t检验的p值；

只保留p值小于ɑ的初始自变量，以获得最终自变量。

进一步地，所述初始自变量包括：每月平均里程、车龄、车型、客户历史消费总金额、客户事故金额、客户索赔金额、索赔服务类指标值、事故服务类指标值、小修服务类指标值、一般保养服务类指标值、免费保养服务类指标值、维保期是否到期、到店平均时间间隔、维保期结束后月份数；

所述最终自变量包括：每月平均里程、索赔服务类指标值、小修服务类指标值、一般保养服务类指标值、免费保养服务类指标值、到店平均时间间隔、维保期结束后月份数。

根据本申请实施例的第二方面，提供一种汽车4S店客户流失的预警装置，包括：

获取模块，用于获取客户的历史数据，生成数据集；

构建模块，用于根据所述历史数据构建初始自变量和因变量；

筛选模块，用于对初始自变量进行逻辑回归建模，并从所述初始自变量中筛选出若干个最终自变量；

模型模块，用于采用所述最终自变量再次建立逻辑回归模型，获得预警模型；

预测模块，用于将待预测的客户数据输入到所述预警模型中进行处理，获得预警结果。

本申请的实施例提供的技术方案具备以下有益效果：

本申请的方案根据门店积累的与客户消费行为有关的大量数据，进行深入的分析和挖掘，通过模型的方法克服了传统手段分析维度单一的问题，从而有效增加了预警的准确度和及时性；从大量的维保数据中，构建了可能导致客户流失的特征，并对这些特征按照影响客户满意度程度的不同，做了不同的权重处理，增加了模型的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是根据一示例性实施例示出的一种汽车4S店客户流失的预警方法的流程图。

图2是根据一示例性实施例示出的一种汽车4S店客户流失的预警装置的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的方法和装置的例子。

图1是根据一示例性实施例示出的一种汽车4S店客户流失的预警方法的流程图。该方法可以包括以下步骤：

步骤S1：获取客户的历史数据，生成数据集；

步骤S2：根据所述历史数据构建初始自变量和因变量；

步骤S3：对初始自变量进行逻辑回归建模，并从所述初始自变量中筛选出若干个最终自变量；

步骤S4：采用所述最终自变量再次建立逻辑回归模型，获得预警模型；

步骤S5：将待预测的客户数据输入到所述预警模型中进行处理，获得预警结果。

本申请的方案通过对4S店内积累的在维修保养领域影响客户满意度的大量数据进行深入的分析和挖掘，通过模型的方法，克服了传统手段分析维度单一的问题，从而有效增加了预警的准确度和及时性。从大量的维保数据中，构建了可能导致客户流失的特征，并对这些特征按照影响客户满意度程度的不同，做了不同的权重处理，增加了模型的准确性。

应当理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

下面结合具体的应用场景，对本申请的方案进行拓展说明。

1、获取用户历史数据，构建自变量和因变量，生成数据集。

历史数据包括：预设时间范围内的基础行车数据、DMS(Dealer ManagementSystem汽车经销商管理系统)数据，客户维保状态数据。

通过历史数据构建的自变量(自变量用X表示)包括以下三类：

(1)通过基础行车数据构建的自变量：每月平均里程、车型、车龄；

(2)通过DMS数据构建的自变量：M类维保指标值、客户历史消费总金额、客户事故金额、客户索赔金额。

其中，M类维保指标值里的M，针对不同车企维保数据的存储习惯，主要有两种类型：

A：依车辆部件名称划分，这里的M包括：动力系统、电子设备、空调系统、内饰、磨损、事故处理、汽车零配件更换、保养、其他。

M类维保指标值＝M类维保次数×其客户满意程度影响值；为增加模型准确度，对不同的部件设定了不同的影响值，各部件客户满意程度影响值设定如下：

部件	影响值
		动力系统	9
电子设备	8
		空调系统	7
内饰	6
		磨损	5
事故处理	4
		汽车零配件更换	3
其他	2
		保养	1

比如：动力系统类维保指标值＝动力系统类维保次数×其客户满意程度影响值＝动力系统类维保次数×9。

B：依服务类型划分，这里的M包括：小修服务、事故服务、索赔服务、一般保养服务、免费保养服务。一些实施例中，车企维保数据的存储采用的是B方法。

M类维保指标值＝M类维保次数×其客户满意程度影响值，各服务类型满意程度影响值如下：

服务类型	影响值
		索赔服务	5
事故服务	4
		小修服务	3
一般保养服务	2
		免费保养服务	1

比如：索赔服务类维保指标值＝索赔服务类维保次数×其客户满意程度影响值＝索赔服务类维保次数×5。

(3)通过客户维保状态数据构建的自变量：维保期是否到期、到店平均时间间隔、维保期结束后月份数。

通过历史数据构建的因变量Y为：客户是否流失。当客户为流失客户时，因变量Y＝1。

如果当前时间距离客户上次进店的时间超过预设的时间阈值，则将用户定义为流失客户；否则将用户定义为未流失客户。比如超过一年未进店则定义为流失客户。

一些实施例中，构建的初始自变量(用X表示)包括：每月平均里程(X₁)、车龄(X₂)、车型(X₃)、客户历史消费总金额(X₄)、客户事故金额(X₅)、客户索赔金额(X₆)、索赔服务类指标值(X₇)、事故服务类指标值(X₈)、小修服务类指标值(X₉)、一般保养服务类指标值(X₁₀)、免费保养服务类指标值(X₁₁)、维保期是否到期(X₁₂)、到店平均时间间隔(X₁₃)、维保期结束后月份数(X₁₄)。

2、对数据集进行数据质量控制，并做标准化处理。

清洗去掉下列人群：1)非乘用车个人用户：2)没有售后服务记录或售后服务记录明显有误的个人用户。

将清洗掉噪音的数据进行z-score标准化处理。

z-score标准化(zero-mean normalization)也叫标准差标准化，经过z-score标准化处理的数据符合正态分布，即均值为0，标准差为1，其转化函数为：

其中μ为所有样本数据的均值，σ为所有样本数据的标准差。

将标准化后的数据分成训练集和测试集，按照随机原则，70％数据为训练集进行模型的拟合，30％数据为测试集进行验证。

3、自变量筛选和逻辑回归建模，得到客户流失预警模型。

对全部变量进行逻辑回归建模，并对回归系数进行参数估计，通过t检验对变量进行筛选。

逻辑回归模型如下：

其中，P为客户流失的概率(即Y＝1的概率)，将P变换为ln(P/(1-P))称为logit变换，记作logit(P)，logit变换使得在[0,1]范围内的P变换到(-∞，+∞)，X₁、X₂......X_n为自变量，β₀、β₁……β_n为截距项及各自变量对应的回归系数，β₀、β₁、……β_n这些参数可通过最大似然估计进行求解。

一些实施例中，将各自变量X_i代入得，ln(P/(1-P))＝β₀+β₁×每月平均里程+β₂×车龄+β₃×车型+β₄×客户历史消费总金额+β₅×客户事故金额+β₆×客户索赔金额+β₇×索赔服务类指标值+β₈×事故服务类指标值+β₉×小修服务类指标值+β₁₀×一般保养服务类指标值+β₁₁×免费保养服务类指标值+β₁₂×维保期是否到期+β₁₃×到店平均时间间隔+β₁₄×维保期结束后月份数。

最大似然法的基本思想是先建立似然函数和对数似然函数，再求导，令导数为0，再采用Newton-Raphson迭代便可得参数βi的估计值；i取值为0至n。

最大似然法的基本思想是先建立似然函数，如下：

其中，P_i为根据逻辑回归模型得出的第i个客户流失的概率值，Y_i为第i个客户是否为流失客户。

对似然函数取对数：

再求导，令导数为0，

再采用Newton-Raphson迭代便可得参数β_i的估计值。

仅仅得到这些自变量的参数估计是不够的，还需要对模型的各个自变量的显著性进行检验，也就是通过t检验，来筛选出对模型有用的变量。

对一个给定的自变量X_ij，它的原假设以及对立假设给定如下：

H₀：β_j＝0 Vs H₁：β_j≠0

检验统计量t为：

其中，

为估计的标准差，

为估计的回归系数，v_j(X)是(X’X)^-1的第j个对角元素。如果原假设正确，t服从自由度为(n-p-1)的t分布，因此，对于一个给定的显著性水平α，通常定为0.05，如果某自变量的t检验的p值小于该α，则说明此自变量X同因变量Y有着显著的关系。在此，我们计算每个自变量的t检验的p值，只保留p值小于0.05的自变量。

此例子全部自变量的参数估计值和t检验的p值如下：

	参数估计值	t检验p值
			截距项	1.303×10<sup>1</sup>	0.933003
每月平均里程	-1.958×10<sup>-3</sup>	0.000734
			车龄	-5.285×10<sup>-4</sup>	0.987188
车型	-3.934×10<sup>-3</sup>	0.432788
			客户历史消费总金额	1.731×10<sup>-2</sup>	0.673452
客户事故金额	-6.427×10<sup>-3</sup>	0.132212
			客户索赔金额	4.353×10<sup>-3</sup>	0.092319
索赔服务类指标值	2.148×10<sup>-2</sup>	0.001238
			事故服务类指标值	-1.625×10<sup>-2</sup>	0.140923
小修服务类指标值	-1.534×10<sup>-2</sup>	6.91×10<sup>-14</sup>
			一般保养服务类指标值	-9.914×10<sup>-2</sup>	＜2×10<sup>-16</sup>
免费保养服务类指标值	-5.718×10<sup>-1</sup>	＜2×10<sup>-16</sup>
			维保期是否到期	1.766×10<sup>1</sup>	0.909325
到店平均时间间隔	1.586×10<sup>-1</sup>	＜2×10<sup>-16</sup>
			维保期结束后月份数	2.533×10<sup>-1</sup>	＜2×10<sup>-16</sup>

只保留t检验p值小于0.05的自变量，用筛选后的自变量建立逻辑回归模型，逻辑回归模型如下：

一些实施例中，将筛选后的最终自变量X代入得：

ln(P/(1-P))＝β₀+β₁×每月平均里程+β₂×索赔服务类指标值+β₃×小修服务类指标值+β₄×一般保养服务类指标值+β₅×免费保养服务类指标值+β₆×到店平均时间间隔+β₇×维保期结束后月份数。

通过最大似然法对自变量的参数进行估计，并进行t检验，结果如下：

	参数估计值	t检验p值
			截距项	1.797×10<sup>1</sup>	0.64813
每月平均里程	-8.561×10<sup>-4</sup>	3.11×10<sup>-12</sup>
			索赔服务类指标值	3.043×10<sup>-2</sup>	＜2×10<sup>-16</sup>
小修服务类指标值	-8.534×10<sup>-2</sup>	4.18×10<sup>-14</sup>
			一般保养服务类指标值	-8.885×10<sup>-2</sup>	＜2×10<sup>-16</sup>
免费保养服务类指标值	-5.905×10<sup>-1</sup>	＜2×10<sup>-16</sup>
			到店平均时间间隔	1.668×10<sup>-1</sup>	＜2×10<sup>-16</sup>
维保期结束后月份数	2.662×10<sup>-1</sup>	＜2×10<sup>-16</sup>

故此客户流失预警的模型为：

-8.561×10^-4×每月平均里程

+3.043×10^-2×索赔服务类指标值

-8.534×10^-2×小修服务类指标值

-8.885×10^-2×一般保养服务类指标值

-5.905×10^-1×免费保养服务类指标值

+1.668×10^-1×到店平均时间间隔

+2.662×10^-1×维保期结束后月份数

用筛选后的自变量再次建立逻辑回归模型。通过最大似然法对筛选后的自变量的参数进行估计，并进行t检验，方法同上，得到客户流失预警模型。

4、依据模型对需要预测的客户进行数据分析，判断其是否会流失。

将待预测的客户的数据代入模型，判断β₀+β₁X₁+β₂X₂+…+β_nX_n的值是否大于0，若大于0，则说明客户流失的概率P大于0.5，若小于0，则说明客户流失的概率P小于0.5，对流失概率大于0.5的客户，即为模型预测出来的即将流失的客户，4S店可采取进一步的挽留措施，以避免其流失。

若

则

则P＞0.5。

因此将待预测的客户的数据代入模型，判断(1.797×10¹-8.561×10^-4×每月平均里程+3.043×10^-2×索赔服务类指标值-8.534×10^-2×小修服务类指标值-8.885×10^-2×一般保养服务类指标值-5.905×10^-1×免费保养服务类指标值+1.668×10^-1×到店平均时间间隔+2.662×10^-1×维保期结束后月份数)的值是否大于0。若大于0，则说明客户流失的概率P大于0.5；若小于0，则说明客户流失的概率P小于0.5。对流失概率大于0.5的客户，即为模型预测出来的即将流失的客户，4S店可采取进一步的挽留措施，以避免其流失。

图2是根据一示例性实施例示出的一种汽车4S店客户流失的预警装置的结构框图。参照图2，该装置包括：

获取模块，用于获取客户的历史数据，生成数据集；

关于上述实施例中的装置，其中各个模块执行操作的具体步骤已经在有关该方法的实施例中进行了详细描述，此处不再详细阐述说明。上述预警装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种汽车4S店客户流失的预警方法，其特征在于，包括：

获取客户的历史数据，生成数据集；

根据所述历史数据构建初始自变量和因变量；

2.根据权利要求1所述的方法，其特征在于，所述历史数据包括：预设时间范围内的基础行车数据、DMS数据，维保状态数据；

3.根据权利要求1所述的方法，其特征在于，根据所述历史数据构建的因变量Y为：客户是否流失；当客户为流失客户时，因变量Y＝1；

4.根据权利要求1-3任一项所述的方法，其特征在于，所述生成数据集，包括：

对所述历史数据进行数据质量控制，清洗掉噪声数据；

将清洗掉噪声后的数据进行标准化处理；

将标准化处理后的数据分为训练集和测试集。

5.根据权利要求1-3任一项所述的方法，其特征在于，所述对初始自变量进行逻辑回归建模，包括：

建立如下逻辑回归模型：

6.根据权利要求5所述的方法，其特征在于，所述通过最大似然估计进行求解，包括：

建立似然函数；

对似然函数取对数；

将取对数后的函数求导，令导数为0；

采用Newton-Raphson迭代获得参数β_i的估计值；i取值为0至n。

7.根据权利要求5所述的方法，其特征在于，所述从所述初始自变量中筛选出若干个最终自变量，包括：

8.根据权利要求7所述的方法，其特征在于，所述对模型中各个初始自变量的显著性进行检验，包括：

获取设定的显著性水平ɑ值；

计算每个初始自变量的t检验的p值；

只保留p值小于ɑ的初始自变量，以获得最终自变量。

9.根据权利要求7所述的方法，其特征在于，所述初始自变量包括：每月平均里程、车龄、车型、客户历史消费总金额、客户事故金额、客户索赔金额、索赔服务类指标值、事故服务类指标值、小修服务类指标值、一般保养服务类指标值、免费保养服务类指标值、维保期是否到期、到店平均时间间隔、维保期结束后月份数；

10.一种汽车4S店客户流失的预警装置，其特征在于，包括：

获取模块，用于获取客户的历史数据，生成数据集；