CN104504460A

CN104504460A - 预测叫车平台的用户流失的方法和装置

Info

Publication number: CN104504460A
Application number: CN201410748736.7A
Authority: CN
Inventors: 陈国宝
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2014-12-09
Filing date: 2014-12-09
Publication date: 2015-04-08
Also published as: CN111325416A

Abstract

本发明的实施例提供了一种预测叫车平台的用户流失的方法，包括：基于用户的行为变量来获得预定的预测模型的输入变量；将判断用户是否将会流失的变量确定为预测模型的输出变量；将输入变量和输出变量作为历史数据，对预测模型进行训练；以及基于经训练的预测模型，来预测用户是否将会流失。本发明的实施例还提供了一种预测叫车平台的用户是否将会流失的装置。使用本发明的实施例的方法和装置，可以在预测用户是否将会流失时，能够提前一定时间给出流失用户清单并且保证高准确率、高覆盖率，降低维系难度；缩小目标用户群，降低维系活动成本。

Description

预测叫车平台的用户流失的方法和装置

技术领域

本公开的实施例一般涉及一种预测方法和装置，并且更特别地，涉及一种预测叫车平台的用户流失的方法和装置。

背景技术

随着移动互联网的高速发展，大多数司机已经习惯用软件接单、乘客习惯用软件叫单。以当下流行的在移动终端上使用的叫车平台应用软件为例，乘客打开软件发出打车需求，消息被推送到叫车平台的服务器，叫车平台的服务器利用大数据在线分析，把订单精准推送给附近的司机。这样一来有利于降低司机空驶，提升司机收入等。但可能由于对软件操作方法不熟、软件定位信息不准、抢单成功率低等原因，导致司机流失。

司机流失过多将导致叫车平台的供求不均衡，不利于乘客叫单成功以及叫车平台的稳定。发展一个新司机用户的成本远远高于维系一个老司机用户的成本。运营人员为了挽回流失的司机，只能在司机已经不使用软件一段时间后，才会采取相应措施，但此时挽回难度极大；若是对全部司机进行挽留活动则成本极高。例如，司机张师傅在8月常使用某叫车平台软件，由于某些问题导致张师傅在9月已经不再使用，运营人员在10月才知道张师傅在9月未使用后，便会对张师傅发放一些回归奖励金额等。但由于司机较长时间未用，可能已经使用竞争对手软件等，很难挽回。

如果能在司机用户即将流失前进行挽留活动，则可以极大地提高了挽留的成功率并且可以极大地降低挽留活动的成本。继续以上面的张师傅为例，如果能根据张师傅在8月中使用某叫车平台软件的数据分析预测出张师傅将在9月份不再使用该叫车平台软件，则对于维护和挽留用户张师傅是极为有利的。

发明内容

鉴于现有技术中存在的上述问题，本发明的实施例的目的在于：提供一种预测叫车平台的用户流失的方法和装置，以便于在预测用户是否将会流失时，能够提前一定时间给出流失用户清单并且保证高准确率、高覆盖率，降低维系难度；缩小目标用户群，降低维系活动成本。

根据本发明的第一方面，提供了一种预测叫车平台的用户流失的方法，包括：基于用户的行为变量来获得预定的预测模型的输入变量；将判断用户是否将会流失的变量确定为所述预测模型的输出变量；将所述输入变量和所述输出变量作为历史数据，对所述预测模型进行训练；以及基于经训练的所述预测模型，来预测用户是否将会流失。

根据本发明的一些实施例，所述预定的预测模型包括：基于神经网络算法的模型、基于决策树的模型、或者基于逻辑回归算法的模型。

根据本发明的一些实施例，基于用户的行为变量来获得预定的预测模型的输入变量包括：基于用户的多个行为变量中的每个用户行为变量在不同时间段中的取值来获得多个所述输入变量。

根据本发明的一些实施例，基于用户的多个行为变量中的每个用户行为变量在不同时间段中的取值来获得多个所述输入变量包括：通过用户的所述多个行为变量中的每个用户行为变量在不同时间段中的取值、这些取值之间的差值、这些取值之间的比值、这些取值的平均值、以及这些取值的方差值中的至少一项，来获得多个所述输入变量。

根据本发明的一些实施例，用户的所述行为变量包括：接单次数和在线时长。

根据本发明的一些实施例，将判断用户是否将会流失的变量确定为所述预测模型的输出变量包括：将只有两种可能取值的变量作为所述输出变量，所述两种可能取值分别对应于用户将会流失和用户将不会流失。

根据本发明的一些实施例，该方法进一步包括：基于对输入变量和输出变量所进行的相关性分析或数据分布分析，来进一步筛选所述预定的预测模型的输入变量。

根据本发明的一些实施例，将所述输入变量和所述输出变量作为历史数据，对预测模型进行训练包括：将所述输入变量输入所述预测模型，计算得出所述输出变量的取值；将计算得出所述输出变量的取值与所述输出变量的已知值相比较而得到误差；根据所述误差来调整所述预测模型；以及迭代进行所述计算、所述比较和所述调整，直到所述误差为零或者迭代次数达到预定最大次数。

根据本发明的一些实施例，如果所述预测模型是基于神经网络算法的模型，则根据所述误差来调整所述预测模型包括：根据所述误差来调整所述基于神经网络算法的模型的输入变量的数量、隐层的数量、隐层神经元的数量、隐层的传递函数、以及输出层的传递函数中的至少一项。

根据本发明的一些实施例，该方法进一步包括对所述预测模型进行评价。

根据本发明的一些实施例，使用以下各项中至少一项作为评价指标来评价所述预测模型的预测结果：准确率、覆盖率、在所有实际为流失的样本中被正确判断为流失之比率、以及在所有实际为流失的样本中被错误判断为流失之比率；并且基于所述评价来调整优化所述预测模型，或者从多个经训练的预测模型中选出最优的预测模型。

根据本发明的一些实施例，使用ROC空间的方法来评价所述预测模型的预测结果。

根据本发明的第二方面，提供了一种预测叫车平台的用户流失的装置，包括：输入变量确定单元，被配置为基于用户的行为变量来获得预定的预测模型的输入变量；输出变量确定单元，被配置为将判断用户是否将会流失的变量确定为所述预测模型的输出变量；训练单元，被配置为将所述输入变量和所述输出变量作为历史数据，对所述预测模型进行训练；以及预测单元，被配置为基于经训练的所述预测模型，来预测用户是否将会流失。

总之，为了提前挽回用户、降低维系成本，使用本发明的实施例，能够以司机历史的在线、听单、抢单等使用行为信息预测出一定时间内司机是否即将流失的预测模型。该预测模型利用历史上已流失司机、未流失司机行为做样本，通过选取预测模型算法(诸如，BP神经网络算法)进行模型训练，将现有司机数据输入模型，可输出即将流失司机的清单。利用清单，业务人员马上可以进行维系挽留工作，以提高成功率。

附图说明

通过参考附图阅读下文的详细描述，本发明的实施例的上述以及其他目的、特征和优点将变得容易理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施例，其中：

图1示出了根据本发明的一个实施例的一种预测叫车平台的用户流失的方法的流程图；

图2示出了根据本发明的一个实施例的一种预测叫车平台的用户流失的装置的框图；

图3示出了根据本发明的一个实施例的基于神经网络算法的预测模型的结构框图；

图4示出了根据本发明的一个实施例的预测模型的输入参数之间的相关性分析结果的示意图；

图5示出了根据本发明的一个实施例的预测模型的数据分布观察的示意图；

图6示出了根据本发明的一个实施例的预测模型的准确率和命中率的示意图；以及

图7示出了根据本发明的一个实施例的预测模型的ROC曲线的示意图。

具体实施方式

下面将参考附图中所示出的若干示例性实施例来描述本发明的原理和精神。应当理解，描述这些实施例仅是为了使本领域的技术人员能够更好地理解并实现本发明，而并非以任何方式限制本发明的范围。

参考图1，图1示出了根据本发明的一个实施例的一种预测叫车平台的用户流失的方法100的流程图。根据本发明的一个实施例的方法100需要解决的预测问题是，根据叫车平台的已知的关于用户使用叫车平台的使用数据来预测该用户未来还是否会继续使用该叫车平台。以下详细地介绍方法100的各个步骤。

方法100开始于步骤101，在步骤101中，基于用户的行为变量来获得预定的预测模型的输入变量。

本领域的技术人员可以理解，在预测叫车平台的用户是否流失的这个问题中，预测问题是一个二分类问题，即流失或者不流失。而用来预测的基础是用户使用叫车平台的历史数据，也就是用户的行为变量。对于这样一个二分类的预测问题，可以基于各种算法来建立预测模型，这些算法包括但不限于：神经网络、决策树、或者逻辑回归算法等，其中神经网络可以是BP神经网络。应当理解，本领域的技术人员还可以根据具体的应用环境以及其他的相关背景来选取本文中没有提到的其他预测模型，本发明的实施并不限于特定的预测模型。

在确定了预定的预测模型之后，接下来的问题是如何获得用于该预定的预测模型的输入变量。根据本发明的一些实施例，在方法100中，基于用户的行为变量来获得预定的预测模型的输入变量。如此，用户使用该叫车平台的历史行为特征被考虑在该预定的预测模型中，从而实现了基于用户的历史使用行为特征来预测用户未来是否会流失的预测方案。

根据本发明的一些实施例，方法100可以基于用户的多个行为变量中的每个用户行为变量在不同时间段中的取值来获得多个输入变量。例如，如果预测模型需要N个输入变量，而被考虑的行为变量包括两个行为变量，即行为变量A和行为变量B，则可以根据行为变量A在上个月的上旬的取值A1、行为变量A在上个月的中旬的取值A2、行为变量A在上个月的下旬的取值A3；以及行为变量B在上个月的上旬的取值B1、行为变量B在上个月的中旬的取值B2、行为变量B在上个月的下旬的取值B3来获得这N个输入变量，具体的方法可以是对行为变量在不同时间段中的取值进行预定的运算，从而可以得到比三个更多的输入变量值。

本领域的技术人员应当理解，上面的示例仅是用于解释和说明本发明的实施例的具体示例。本发明的范围并不限于该具体的示例，例如，本发明的输入变量的个数N可以根据具体的预测要求或者预测结构的好坏进行适应性地设置。此外，用户行为变量的个数也不限于两个，可以根据实际的应用情况来选择更多或者更少个数的行为变量来产生N个输入变量。进一步地，上面的示例中的“上个月”、“上旬”、“中旬”、“下旬”也都是对于方法100中的“不同时间段”的具体示例，在实际的应用中，本领域的技术人员可以根据实际情况进行其他选取，例如，“上两个月”、“上周”、或者更长或更短的时间范围，本发明的保护范围不限于此。最后，如下面进一步讨论的，对行为变量在不同时间段中的取值进行的预定运算并不限于某一种特定的运算，而是只要能够根据行为变量在不同时间段中的取值而产生N个输入变量以输入预测模型的运算都是这里所谓的“预定的运算”。

根据本发明的一些实施例，方法100可以通过用户的所述多个行为变量中的每个用户行为变量在不同时间段中的取值、这些取值之间的差值、这些取值之间的比值、这些取值的平均值、以及这些取值的方差值中的至少一项，来获得多个所述输入变量。例如，还是接着采用上面提到的示例，方法100可以使用A1、A2、A3和B1、B2、B3本身，以及类似(A1-A2)、(B1-B2)、(A1-B2)等差值，类似A1/A2、B1/B3、A1/B1等的比值，A1至A3和B1至B3的平均值和方差等来形成N个输入变量。应当理解，本领域的技术人员还可以采用本发明的实施例中未提到的其他运算来从每个用户行为变量在不同时间段中的取值获得多个输入变量。

根据本发明的一些实施例，方法100中所采用的用户的行为变量包括接单次数和在线时长。预测将流失的用户在流失前的使用行为会下降，即用户行为变量的取值通常会下降，因此可以首选接单次数、在线时长等使用行为变量来进行方法100，因为在线时长和接单次数可能是其他间接原因导致的直接结果变量。但是，本领域的技术人员可以理解，如果通过这两个变量的变化不能很好的得出预测流失的预测模型，则可添加其他直接体验参数对预测模型调优，例如，未使用叫车平台的天数等。

接着，方法100前进至步骤102。在步骤102中，将判断用户是否将会流失的变量确定为预测模型的输出变量。如上面所提到的，预测叫车平台的用户是否流失的这个问题中，预测问题是一个二分类问题，即流失或者不流失。因此，预测模型的输出变量应当是一个只有两种可能取值的变量，并且该两种可能取值分别对应于用户将会流失和用户将不会流失。

根据本发明的一些实施例，方法100还可以基于对输入变量和输出变量所进行的相关性分析或数据分布分析，来进一步筛选预定的预测模型的输入变量。例如，可以首选对输入变量、输出变量进行相关性、数据分布等基础分析，意在剔除输入参数之间相关性大的、输入变量与输出变量相关性较小的、数据分布趋于集中的等，并进行不规则数据的清洗。

接着，方法100前进至步骤103。在步骤103中，将输入变量和输出变量作为历史数据，对预测模型进行训练。根据本发明的一些实施例，这样的训练包括如下的具体步骤：将输入变量输入预测模型，计算得出输出变量的取值；将计算得出输出变量的取值与输出变量的已知值相比较而得到误差；根据该误差来调整预测模型；以及迭代进行计算、比较和调整，直到该误差为零或者迭代次数达到预定最大次数。本领域的技术人员可以理解，该最大次数可以由技术人员根据具体的应用环境来设置。

根据本发明的一些实施例，如果预测模型是基于神经网络算法的模型，则根据该误差来调整预测模型包括：根据该误差来调整基于神经网络算法的模型的输入变量的数量、隐层的数量、隐层神经元的数量、隐层的传递函数、以及输出层的传递函数中的至少一项。其中，调整隐层的传递函数还包括调整各个神经元的权系数。

在使用历史数据对预测模型训练完毕之后，接下来，方法100前进至步骤104。在步骤104中，基于经训练的所述预测模型，来预测用户是否将会流失。根据本发明的一些实施例，根据用户最近使用叫车平台而新产生的行为变量来得到N个输入变量的值，将输入变量的值输入到经训练预测模型，经过经训练预测模型的计算，可以得出用户是否将会流失的预测结果。

在得到了经训练的预测模型，以及使用经训练的预测模型来进行预测的预测结果之后，可以对该预测模型进行模型的评估和调优。

根据本发明的一些实施例，可以使用以下各项中至少一项作为评价指标来评价预测模型的预测结果：准确率、覆盖率、在所有实际为流失的样本中被正确判断为流失之比率、以及在所有实际为流失的样本中被错误判断为流失之比率；并且基于该评价来调整优化预测模型，或者从多个经训练的预测模型中选出最优的预测模型。

下面详细地介绍各个评价指标，准确率＝预测的准确流失司机数/预测的所有流失司机数，准确率越高，模型效果越好。覆盖率＝预测的准确流失司机数/全部实际流失司机数，覆盖率越高，模型效果越好。TPR：在所有实际为流失的样本中，被正确地判断为流失之比率，TPR＝TP/(TP+FN)。FPR：在所有实际为非流失的样本中，被错误地判断为流失之比率，FPR＝FP/(FP+TN)。其中，TP是被正确地判断为流失的样本，(TP+FN)是所有实际为流失的样本；FP是被错误地判断为流失的样本，(FP+TN)是所有实际为非流失的样本。图6中示出了根据本公开内容稍后描述的一个具体实施例的预测模型的准确率和命中率的示意图。

根据本发明的一些实施例，可以使用ROC空间的方法来评价预测模型的预测结果。

图7示出了根据本公开内容稍后描述的一个具体实施例的预测模型的ROC曲线的示意图。如图7所示，ROC空间将FPR定义为X轴，TPR定义为Y轴。给定一个的阈值，就能从所有样本的(流失/非流失)真实值和预测值计算出一个(X＝FPR,Y＝TPR)坐标点。所有坐标点绘制出了这条曲线，ROC曲线下方的面积称为AUC，AUC值越大的分类器，正确率越高。

根据本发明的一些实施例，如果预测模型是基于神经网络的模型，则调优可以通过对输入样本的精准筛选，输入变量的增加、减少，对隐层神经元个数的设置等等来进行。

根据本发明的一些实施例，对预测模型的评估包括，例如：以6月有使用量、7月上旬无使用量用户司机做输入样本训练，训练得到三组最优的流失预测模型。通过7月有使用量、8月上旬无使用司机作为样本输入到模型，输出得到标记清单，对比实际流失数据，得到命中率、准确率分别进行对比，可选出最优的一组作为最终模型。

图2示出了根据本发明的一个实施例的一种预测叫车平台的用户流失的装置200的框图。如图2所示出的，装置200可以包括输入变量确定单元201、输出变量确定单元202、训练单元203、以及预测单元204。

根据本发明的一些实施例，输入变量确定单元201可以被配置为，基于用户的行为变量来获得预定的预测模型的输入变量；输出变量确定单元202被配置为，将判断用户是否将会流失的变量确定为预测模型的输出变量；训练单元203被配置为，将输入变量和输出变量作为历史数据，对预测模型进行训练；并且预测单元204被配置为，基于经训练的预测模型，来预测用户是否将会流失。

根据本发明的一些实施例，预定的预测模型可以包括：基于神经网络算法的模型、基于决策树的模型、或者基于逻辑回归算法的模型。

根据本发明的一些实施例，输入变量确定单元201可以进一步被配置为：基于用户的多个行为变量中的每个用户行为变量在不同时间段中的取值来获得多个输入变量。

根据本发明的一些实施例，输入变量确定单元201可以进一步被配置为：通过用户的多个行为变量中的每个用户行为变量在不同时间段中的取值、这些取值之间的差值、这些取值之间的比值、这些取值的平均值、以及这些取值的方差值中的至少一项，来获得多个输入变量。

根据本发明的一些实施例，用户的行为变量可以包括：接单次数和在线时长。

根据本发明的一些实施例，输出变量确定单元202可以进一步被配置为：将只有两种可能取值的变量作为输出变量，两种可能取值分别对应于用户将会流失和用户将不会流失。

根据本发明的一些实施例，输入变量确定单元201可以进一步被配置为：基于对输入变量和输出变量所进行的相关性分析或数据分布分析，来进一步筛选预定的预测模型的输入变量。

根据本发明的一些实施例，训练单元203可以进一步被配置为：将输入变量输入所述预测模型，计算得出输出变量的取值；将计算得出输出变量的取值与输出变量的已知值相比较而得到误差；根据误差来调整预测模型；以及迭代进行计算、比较和调整，直到误差为零或者迭代次数达到预定最大次数。

根据本发明的一些实施例，如果预测模型是基于神经网络算法的模型，则训练单元203可以进一步被配置为：根据误差来调整基于神经网络算法的模型的输入变量的数量、隐层的数量、隐层神经元的数量、隐层的传递函数、以及输出层的传递函数中的至少一项。

根据本发明的一些实施例，装置200可以进一步包括评价单元，该评价单元可以被配置为对预测模型进行评价。

根据本发明的一些实施例，可以使用以下各项中至少一项作为评价指标来评价预测模型的预测结果：准确率、覆盖率、在所有实际为流失的样本中被正确判断为流失之比率、以及在所有实际为流失的样本中被错误判断为流失之比率；并且基于所述评价来调整优化所述预测模型，或者从多个经训练的预测模型中选出最优的预测模型。根据本发明的一些实施例，可以使用ROC空间的方法来评价预测模型的预测结果。

下面以基于神经网络的预测模型为例来具体地描述根据本发明的一个具体实施例的实施方式。

图3示出了根据本发明的一个实施例的基于神经网络算法的预测模型的结构框图。如图3所示出的，该预测模型包括：包括多个输入节点的输入层，在图中以Input示出；包括多个隐层神经元的隐层，在图中以Hidden示出；以及包括多个输出节点的输出层，在图中以Output示出。

首先举例定义几组数据进行说明，负样本：8月有使用行为，8月上旬无使用行为的司机。正样本：8月有使用行为，8月上旬依然有使用行为的司机。待预测样本：假设今天是10月1日，可以得到9月有使用行为司机数据，但在10月1日的时间点上不知道有多少在10月上旬会流失，要基于现有数据进行预测司机是否流失。

将历史上的正样本、负样本数据进行训练，评估后得到一组最优模型。该模型是将正样本、负样本司机在8月的不同使用行为作为各自特征，可以对新输入数据的特征与正样本、负样本相比较，再把新输入数据归类为正样本或负样本的同类。即待预测样本作为输入，通过训练好的流失模型进行一系列计算，输出结果会对输入的司机清单进行两种标记，1会流失，-1不会流失。这样便在10月1日提前知道了在10月上旬即将流失的司机清单。

预测模型的训练计算过程如下，在图3中，Xl，X2，…，Xn是输入样本的各个变量，W1，W2，…，Wn是权系数。

Hi＝∑Wi*Xi＝W1 X1+W2 X2+…+Wn Xn,

其中H1，H2，…，Hn是隐层神经元，WH1，WH2，…，WHn是Hn的各个权系数。

Y(t)＝f(∑WHi*Hi-θ)，θ是偏移量

f[u]是阶跃函数：

f [u] = \{\begin{matrix} 1, & u = Σ_{i = 1}^{n} W_{i} X_{i} - θ &GreaterEqual; 0 \\ - 1, & u = Σ_{i = 1}^{n} W_{i} X_{i} - θ < 0 \end{matrix}

通过该阶跃函数以及根据具体应用环境所选取的偏移量θ，使得输出变量是一个只有两种可能取值(在本例中是1和-1)的变量。输出Y(t)会和输入的Y(t)已知期望值进行比较，产生误差e。第二次迭代会对各个Wi、WHi进行修改，修改方向应使误差e变小，不断迭代下去，使到误差e趋于零或达到最大迭代次数，则训练过程结束。如果结果仍不满意，也可调节隐层神经元的i的个数等预测模型的其他参数，重新开始迭代。其中1即代表流失，-1即代表非流失。

如上面所提到的，预测流失用户在流失前的使用行为会下降，因此首选接单次数、在线时长等使用行为变量进行训练，因为在线和接单次数可能是其他间接原因导致的直接结果变量。如果通过这两个变量的变化不能很好的得出流失预测模型，则可添加其他直接体验参数对预测模型调优，例如，未使用叫车平台的天数等。

首选对输入变量、输出变量进行相关性、数据分布等基础分析，意在剔除输入参数之间相关性大的、输入变量与输出变量相关性较小的、数据分布趋于集中的等，并进行不规则数据的清洗。

图4示出了根据本公开内容的采用神经网络的预测模型的具体实施例的输入参数之间的相关性分析结果的示意图。在图4中，相关性采用泊松(Pearson)相关性来表现。其中，num_online_ratio表示用户在某两个时间段内的在线次数的比率，num_online_chazhi表示用户在某两个时间段内的在线次数的差值，ratio_1_3表示用户在编号为1、3的两个时间段内接单次数的比率，chazhi_1_3表示用户在编号为1、3的两个时间段内接单次数的差值，ratio_1_2表示用户在编号为1、2的两个时间段内接单次数的比率，chazhi_2_3表示用户在编号为2、3的两个时间段内接单次数的差值，ratio_2_3表示用户在编号为2、3的两个时间段内接单次数的比率，chazhi_2_3(1)表示用户在编号为2、3的两个时间段内在线时间的差值，unused_day表示用户在某个时间段内的未使用叫车平台的天数，avg_num表示用户在某个时间段内的在线时长的平均值，cv表示变异系数。

图5示出了该具体实施例的数据分布观察的示意图。其中，num_online_ratio、num_online_chazhi、ratio_1_3、chazhi_1_3、ratio_1_2、chazhi_2_3的含义与图4中相同。

从图4-5可以看出，通过对用户在各个时间段的接单次数和在线时间之间的部分相关性分析和数据分布观察，从而可以剔除输入参数之间相关性大的、输入变量与输出变量相关性较小的、数据分布趋于集中的等，并进行不规则数据的清洗。因此可以得出更有效率的输入参数，减少不必要的高度相关的输入变量，简化了预测模型的复杂度，降低了预测模型的预测量并且提高了运算速度。

图6示出了该具体实施例的预测模型的准确率和命中率的示意图，其含义具体解释如下。正例代表：判断为流失的；负例代表：判断为非流失的。9宫格第一行依次为：判断为正例中正确的数、占比总数；判断为正例中错误的数、占比总数；第3列上面的数字：正例判断的准确率＝判断为正例中正确的/判断为正例的，第3列下面的数字：正例判断的错误率＝1-正例判断的准确率。9宫格第二行依次为：判断为负例中错误的数、占比总数；判断为负例中正确的数、占比总数；第2列上面的数字：负例判断的准确率＝判断为负例中正确的/判断为负例的，第2列下面的数字：负例判断的错误率＝1-负例判断的准确率。9宫格第三行依次为：第1列上面的数字：正例判断的覆盖率＝判断为正例中正确的/实际的正例，第1列下面的数字：正例判断未的覆盖率＝1-正例判断的覆盖率；第2列上面的数字：负例判断的覆盖率＝判断为负例中正确的/实际的负例，第2列下面的数字：负例判断未的覆盖率＝1-正例判断的覆盖率；第3例上面的数字：整体准确率＝正例、负例一共判断正确的/全部样本，第3列下面的数字：整体错误率＝1-整体准确率

图7示出了根据本公开内容的采用神经网络的预测模型的具体实施例的ROC曲线的示意图。如图7所示，ROC空间将FPR定义为X轴，TPR定义为Y轴。给定一个的阈值，就能从所有样本的(流失/非流失)真实值和预测值计算出一个(X＝FPR,Y＝TPR)坐标点。所有坐标点绘制出了这条曲线，ROC曲线下方的面积称为AUC，AUC值越大的分类器，正确率越高。

从图6-7中可以看出，根据本发明的实施例的预测叫车平台的用户流失的方法和装置取得了良好的预测效果，从而可以在进行司机的流失营销活动时，能够提前一定时间给出流失用户清单并且保证高准确率、高覆盖率，降低维系难度；缩小目标用户群，降低维系活动成本。解决了现有技术中存在的技术问题。

根据本发明的实施例的预测叫车平台的用户流失的方法和装置的应用部署如下：预测模型可使用matlab、R或者其他数据挖掘工具进行建模，调优后输出预测模型的特征参数，将含有训练好的模型参数以及计算过程写入程序，如python、java等，若待预测样本数据量较大，需要在hadoop集群上应用mapreduce计算框架，改写为mapreduce程序后进行运算，以输出预测结果。最后用shell脚本定时调度，每日定时产出预测流失司机清单。

因此，采用根据本发明的实施例的预测叫车平台的用户流失的方法和装置，在准确率、覆盖率上有非常好的优势，较传统的基于规则划定用户群再营销的方法，无需人为筛选规则、验证，大大提高了维系挽留活动效率，且从维系目标司机的时间提前量上有绝对的优势。与基于用户流失后的清单筛选相比，一是可以提前时间预知流失的司机用户，在这段时间采取措施，维系效果相比流失后要好；二是可以缩小营销用户范围，减少营销动作成本。

应当注意，尽管上文中使用神经网络模型为例详述了本发明的实施例的技术方案，但是本领域的技术人员可以根据具体的应用环境以及其他的相关背景来选取其他的预测模型来实施本发明的实施例，本发明并不限于特定的预测模型。

在这个方面，例如，当采用决策树作为预测模型时，可以将根据本发明的实施例的基于用户的行为变量所获得的输入变量作为决策树的输入的属性值向量，将判断用户是否将会流失的变量确定为决策树的输出的两个类，利用训练决策树的方法来训练决策树，调整决策树的节点个数和层数以及属性的个数，最后基于经训练的决策树来预测用户是否将会流失。

再例如，当使用逻辑回归模型作为预测模型时，可以将根据本发明的实施例的基于用户的行为变量所获得的输入变量作为逻辑回归模型的输入变量，将判断用户是否将会流失的变量确定为逻辑回归模型的输出，利用训练逻辑回归模型的方法来训练逻辑回归模型，调整逻辑回归模型的参数，最后基于经训练的逻辑回归模型来预测用户是否将会流失。

因此，本领域的技术人员可以理解，根据本发明的实施例的预测叫车平台的用户流失的方法和装置可以基于可以训练的任何预测模型算法。

应当注意，本发明的实施例可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤组合为一个步骤执行，和/或将一个步骤分解为多个步骤执行。还应当注意，根据本发明的两个或更多装置的特征和功能可以在一个装置中具体化。反之，上文描述的一个装置的特征和功能可以进一步划分为由多个装置来具体化。

虽然已经参考若干具体实施例描述了本发明，但是应当理解，本发明不限于所公开的具体实施例。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等效布置。

Claims

1.一种预测叫车平台的用户流失的方法，包括：

基于用户的行为变量来获得预定的预测模型的输入变量；

将判断用户是否将会流失的变量确定为所述预测模型的输出变量；

将所述输入变量和所述输出变量作为历史数据，对所述预测模型进行训练；以及

基于经训练的所述预测模型，来预测用户是否将会流失。

2.根据权利要求1所述的方法，其中所述预定的预测模型包括：

基于神经网络算法的模型、基于决策树的模型、或者基于逻辑回归算法的模型。

3.根据权利要求1所述的方法，其中基于用户的行为变量来获得预定的预测模型的输入变量包括：

基于用户的多个行为变量中的每个用户行为变量在不同时间段中的取值来获得多个所述输入变量。

4.根据权利要求3所述的方法，其中基于用户的多个行为变量中的每个用户行为变量在不同时间段中的取值来获得多个所述输入变量包括：

通过用户的所述多个行为变量中的每个用户行为变量在不同时间段中的取值、这些取值之间的差值、这些取值之间的比值、这些取值的平均值、以及这些取值的方差值中的至少一项，来获得多个所述输入变量。

5.根据权利要求1所述的方法，其中用户的所述行为变量包括：接单次数和在线时长。

6.根据权利要求1所述的方法，其中将判断用户是否将会流失的变量确定为所述预测模型的输出变量包括：

将只有两种可能取值的变量作为所述输出变量，所述两种可能取值分别对应于用户将会流失和用户将不会流失。

7.根据权利要求1所述的方法，进一步包括：

基于对输入变量和输出变量所进行的相关性分析或数据分布分析，来进一步筛选所述预定的预测模型的输入变量。

8.根据权利要求1所述的方法，其中将所述输入变量和所述输出变量作为历史数据，对预测模型进行训练包括：

将所述输入变量输入所述预测模型，计算得出所述输出变量的取值；

将计算得出所述输出变量的取值与所述输出变量的已知值相比较而得到误差；

根据所述误差来调整所述预测模型；以及

迭代进行所述计算、所述比较和所述调整，直到所述误差为零或者迭代次数达到预定最大次数。

9.根据权利要求8所述的方法，其中在所述预测模型是基于神经网络算法的模型时，根据所述误差来调整所述预测模型包括：

根据所述误差来调整所述基于神经网络算法的模型的输入变量的数量、隐层的数量、隐层神经元的数量、隐层的传递函数、以及输出层的传递函数中的至少一项。

10.根据权利要求1所述的方法，进一步包括对所述预测模型进行评价。

11.根据权利要求10所述的方法，其中使用以下各项中至少一项作为评价指标来评价所述预测模型的预测结果：准确率、覆盖率、在所有实际为流失的样本中被正确判断为流失之比率、以及在所有实际为流失的样本中被错误判断为流失之比率；并且基于所述评价来调整优化所述预测模型，或者从多个经训练的预测模型中选出最优的预测模型。

12.根据权利要求10所述的方法，其中使用ROC空间的方法来评价所述预测模型的预测结果。

13.一种预测叫车平台的用户流失的装置，包括：

输入变量确定单元，被配置为基于用户的行为变量来获得预定的预测模型的输入变量；

输出变量确定单元，被配置为将判断用户是否将会流失的变量确定为所述预测模型的输出变量；

训练单元，被配置为将所述输入变量和所述输出变量作为历史数据，对所述预测模型进行训练；以及

预测单元，被配置为基于经训练的所述预测模型，来预测用户是否将会流失。

14.根据权利要求13所述的装置，其中所述预定的预测模型包括：基于神经网络算法的模型、基于决策树的模型、或者基于逻辑回归算法的模型。

15.根据权利要求13所述的装置，其中所述输入变量确定单元进一步被配置为：

16.根据权利要求15所述的装置，其中所述输入变量确定单元进一步被配置为：

17.根据权利要求13所述的装置，其中用户的所述行为变量包括：接单次数和在线时长。

18.根据权利要求13所述的装置，其中所述输出变量确定单元进一步被配置为：

19.根据权利要求13所述的装置，其中所述输入变量确定单元进一步被配置为：

20.根据权利要求13所述的装置，其中所述训练单元进一步被配置为：

根据所述误差来调整所述预测模型；以及

21.根据权利要求20所述的装置，其中在所述预测模型是基于神经网络算法的模型时，所述训练单元进一步被配置为：

22.根据权利要求13所述的装置，进一步包括：评价单元，被配置为对所述预测模型进行评价。

23.根据权利要求22所述的装置，其中使用以下各项中至少一项作为评价指标来评价所述预测模型的预测结果：准确率、覆盖率、在所有实际为流失的样本中被正确判断为流失之比率、以及在所有实际为流失的样本中被错误判断为流失之比率；并且基于所述评价来调整优化所述预测模型，或者从多个经训练的预测模型中选出最优的预测模型。

24.根据权利要求22所述的装置，其中使用ROC空间的方法来评价所述预测模型的预测结果。