CN109242539A

CN109242539A - 基于流失用户的潜在用户预测方法、装置和计算机设备

Info

Publication number: CN109242539A
Application number: CN201810925280.5A
Authority: CN
Inventors: 韦雨露
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2018-08-14
Filing date: 2018-08-14
Publication date: 2019-01-18

Abstract

本申请涉及数据处理技术，提供了一种基于流失用户的潜在用户预测方法、装置和计算机设备。所述方法包括：获取流失用户在指定时间段内的数据；根据获取的所述数据，通过多种潜在用户预测模型进行预测，获得与所述潜在用户预测模型对应的预测标签；确定各预测标签中满足预设条件的目标预测标签；当所述目标预测标签为指定目标标签时，将所述流失用户确定为潜在用户。采用本方法能够保证潜在用户的预测结果的稳定性，从而保证预测准确性。

Description

基于流失用户的潜在用户预测方法、装置和计算机设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种基于流失用户的潜在用户预测方法、装置和计算机设备。

背景技术

在保险行业中，流失用户是指曾经购买或使用过指定保险企业的保险产品，由于对该指定保险企业的保险产品失去兴趣等原因，而不再购买或使用该指定保险企业的保险产品的用户。对于保险企业而言，用户的流失无疑会导致用户资源的减少，从而导致收益值的下降。而实际中，流失用户可能会转化为新用户，即流失用户可能会重新成为新用户。因而，如何从众多的流失用户中确定可能转化为新用户的潜在用户，并对该潜在用户进行再营销，以将该潜在用户转化为新用户是至关重要的。

目前，从流失用户中确定潜在用户的常用方式，是通过业务员主动收集流失用户的保险数据，并基于自身经验判断各流失用户转化为新用户的可能性，将可能性高的流失用户确定为潜在用户，以将该潜在用户转化为新用户。然而，该种方式不仅增加了人力成本，且受业务员自身经验的影响，导致潜在用户的预测结果不稳定，从而不能保证潜在用户的预测准确性。

发明内容

基于此，有必要针对上述技术问题，提供一种能够保证潜在用户的预测准确性的基于流失用户的潜在用户预测方法、装置、计算机设备和存储介质。

一种基于流失用户的潜在用户预测方法，所述方法包括：

获取流失用户在指定时间段内的数据；

根据获取的所述数据，通过多种潜在用户预测模型进行预测，获得与所述潜在用户预测模型对应的预测标签；

确定各预测标签中满足预设条件的目标预测标签；

当所述目标预测标签为指定目标标签时，将所述流失用户确定为潜在用户。

一种基于流失用户的潜在用户预测装置，所述装置包括：

数据获取模块，用于获取流失用户在指定时间段内的数据；

预测模块，用于根据获取的所述数据，通过多种潜在用户预测模型进行预测，获得与所述潜在用户预测模型对应的预测标签；

输出标签确定模块，用于确定各预测标签中满足预设条件的目标预测标签；

潜在用户确定模块，用于当所述目标预测标签为指定目标标签时，将所述流失用户确定为潜在用户。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取流失用户在指定时间段内的数据；

确定各预测标签中满足预设条件的目标预测标签；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取流失用户在指定时间段内的数据；

确定各预测标签中满足预设条件的目标预测标签；

上述基于流失用户的潜在用户预测方法、装置、计算机设备和存储介质，获取流失用户在指定时间段内的数据，并将该数据分别输入多种潜在用户预测模型进行预测，获得多个预测标签。按照预设条件根据该多个预测标签确定目标预测标签，进而根据目标预测标签对应确定该流失用户是否为潜在用户。这样，通过潜在用户预测模型预测流失用户中的潜在用户，能够有效保证预测结果的稳定性，从而保证潜在用户的预测准确性，而且，通过多个潜在用户预测模型来共同预测，能够有效防止因单个潜在用户预测模型过拟合导致预测结果不准确的问题，进一步保证了预测准确性。

附图说明

图1为一个实施例中基于流失用户的潜在用户预测方法的应用场景图；

图2为一个实施例中基于流失用户的潜在用户预测方法的流程示意图；

图3为一个实施例中流失用户确定步骤的流程示意图；

图4为一个实施例中潜在用户预测模型训练步骤的流程示意图；

图5为另一个实施例中基于流失用户的潜在用户预测方法的流程示意图；

图6为一个实施例中基于流失用户的潜在用户预测装置的结构框图；

图7为另一个实施例中基于流失用户的潜在用户预测装置的结构框图；

图8为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的基于流失用户的潜在用户预测方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104通过网络进行通信。终端102用于生成用户属性、用户保单属性、用户保单理赔数据和保险售后数据等数据，并发送至服务器104。服务器104用于获取指定时间段内的数据，通过多种潜在用户预测模型基于该数据分别进行预测，并根据各预测标签确定最终的目标预测标签，进而根据该目标预测标签预测潜在用户。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种基于流失用户的潜在用户预测方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

S202，获取流失用户在指定时间段内的数据。

其中，流失用户是指曾经购买过保险产品，由于指定原因，比如对保险产品失去兴趣，不再购买保险产品、且不再享受所购买保险产品对应的保险服务的用户。对于保险企业而言，流失用户用于描述曾经是企业用户，经过一段时间后又不再是企业用户的用户。指定时间段是预先指定的时间区间，比如2018年1月1日至2018年6月1日。指定时间段由指定的起始时间和结束时间对应确定。指定时间段由指定的起始时间和结束时间之间的各个时间点组成。指定时间段可以根据实际情况自定义，比如指定时间段可以是以当前时间为结束时间、且时间长度为指定时间长度的时间段。指定时间长度比如1年。

具体地，服务器从本地获取流失用户在指定时间段内的数据。服务器所获取的指定时间段内的数据，可以是服务器预先生成并存储在本地的数据，也可以是服务器从其他计算机设备获取并存储在本地的数据，其他计算机设备比如终端。

在一个实施例中，服务器接收终端发送的、流失用户在指定时间段内的数据。在一个实施例中，服务器按照预设周期执行获取流失用户在指定时间段内的数据的相关步骤。其中，预设周期是预先设定的时间周期，用于表示服务器相邻两次获取流失用户在指定时间段内的数据的时间间隔。

在一个实施例中，服务器接收终端发送的潜在用户预测指令，根据所接收到的潜在用户预测指令确定指定时间段，进而获取流失用户在指定时间段内的数据，并根据所获取的数据进行潜在用户预测操作。

在一个实施例中，数据包括用户属性、用户保单属性、用户保单理赔数据和保险售后数据。

其中，用户属性是用户的基本信息，用于表征用户基本情况。用户属性包括用户的姓名、年龄、性别、年收入、受教育情况、婚姻状态和是否为VIP(Very Important Person，会员)用户等。保单是指保险单，保险单是保险人与投保人签订保险合同的书面证明。用户保单信息是用户所对应的保单的相关信息。用户保单信息用于描述保单基本信息和保单的变更信息，比如保单的总保额、保单加保、保单减保和退保等。

用户保单理赔数据是依据用户已有保单所生成的理赔数据。用户保单理赔数据用于描述用户根据已有保单申请理赔时所产生的相关数据，比如用户申请理赔的次数、理赔成功的次数、理赔成功的总金额和理赔失败的总金额等。保险售后数据是用户购买保险产品后享受该保险产品的售后服务时所产生的数据，比如用户投诉次数、用户咨询次数和用户更换代理人次数等。

具体地，服务器从本地获取在指定时间段内，流失用户的用户属性、用户保单属性、用户保单理赔数据和保险售后数据等数据。

S204，根据获取的数据，通过多种潜在用户预测模型进行预测，获得与潜在用户预测模型对应的预测标签。

其中，潜在用户预测模型是预先根据包括流失用户的历史数据和相应目标标签的训练样本集进行模型训练获得的预测模型，用于根据流失用户的已知数据预测该流失用户是否为潜在用户。潜在用户预测模型是按照指定的机器学习算法，根据预先获取的训练样本集进行模型训练获得的。其中，机器学习算法包括决策树、随机森林、神经网络和Logistic回归(逻辑回归)等。

预测标签是潜在用户预测模型根据输入的数据进行预测获得的预测结果。预测标签具体可以是有价值或无价值。有价值用于表示相应流失用户在从当前时间起的预设时间段内可能会再次购买保险产品，再次成为新用户。无价值用于表示相应流失用户在从当前时间起的预设时间段内不会再购买任何保险产品。换而言之，有价值表示相应流失用户为潜在用户。

具体地，服务器将所获取的数据作为输入特征分别输入到预先训练完成的多种潜在用户预测模型，通过该多种潜在用户预测模型分别进行预测，获得各潜在用户预测模型各自对应的预测标签。

在一个实施例中，服务器获取到流失用户在指定时间段内的数据之后，对所获取的数据进行预处理，将预处理后的数据分别输入多种潜在用户预测模型进行预测。

具体地，服务器所获取到的数据主要有信息冗余、存在机器学习算法和模型不能直接应用的定性特征、存在缺失值和信息利用率低等问题。服务器通过对数据进行预处理来解决上述问题。预处理过程具体包括：对于存在信息冗余的定量特征，如其有效信息为区间划分，则对该定量特征进行二值化转换以减少冗余信息，例如对于只关心“加保”和“不加保”的加保情况，可以用1和0分别表示“加保”和“不加保”；对于不能直接使用的定性特征，可以通过onehot编码方式转换成定量特征；当存在缺失值时，可使用平均值或出现概率较高的值对该缺失值进行补充；当信息利用效率低时可通过转换达到非线性的效果，从而提高信息利用率。

S206，确定各预测标签中满足预设条件的目标预测标签。

其中，目标预测标签是潜在用户预测过程中最终输出的预测标签。目标预测标签由多种潜在用户预测模型各自对应的预测标签对应确定。目标预测标签用户表示流失用户是否为潜在用户，目标预测标签具体可以是有价值或无价值。预设条件用于根据预测获得的多个预测标签确定目标预测标签。预设条件具体可以是将多个预测标签中数量最多的预测标签确定为目标预测标签。比如预测获得的预测标签可以是有价值或无价值，分别统计预测标签为有价值和无价值的预测标签的数量，将统计数量最多的预测标签确定为目标预测标签。

具体地，服务器通过多种潜在用户预测模型预测获得相应的多个预测标签时，按照预设条件从所获得的多个预测标签中筛选目标预测标签。

在一个实施例中，服务器获得各潜在用户预测模型各自对应的预测标签时，对该多个预测标签进行分类，统计各类别各自对应的预测标签的数量，根据统计的数量确定数量最多的类别，将属于所确定的类别的预测标签确定为目标预测标签。

在一个实施例中，服务器获得多个预测标签后，通过投票方式根据该多个预测标签确定目标预测标签。投票方式是指分别确定各类别预测标签各自对应的票数(即预测标签数量)，将票数最多的类别的预测标签确定为目标预测标签。

举例说明，假设服务器通过5个潜在用户预测模型分别进行预测，对应获得的5个预测标签分别为有价值、有价值、无价值、有价值和无价值。服务器将该五个预测标签分类为有价值类别和无价值类别，则有价值类别的预测标签的数量为3，无价值类别的预测标签为2。数量最多的类别为有价值类别，服务器将属于有价值类别的预测标签(有价值)确定为目标预测标签(有价值)。

S208，当目标预测标签为指定目标标签时，将流失用户确定为潜在用户。

其中，指定目标标签是预先指定的目标标签，比如有价值。指定目标标签是判定流失用户是否为潜在用户的依据。

具体地，服务器将目标预测标签与指定目标标签进行匹配，当匹配成功时，表明目标预测标签为指定目标标签，则将相应流失用户确定为潜在用户。

上述基于流失用户的潜在用户预测方法，获取流失用户在指定时间段内的数据，并将该数据分别输入多种潜在用户预测模型进行预测，获得多个预测标签。按照预设条件根据该多个预测标签确定目标预测标签，进而根据目标预测标签对应确定该流失用户是否为潜在用户。这样，通过潜在用户预测模型预测流失用户中的潜在用户，能够有效保证预测结果的稳定性，从而保证潜在用户的预测准确性，而且，通过多个潜在用户预测模型来共同预测，能够有效防止因单个潜在用户预测模型过拟合导致预测结果不准确的问题，进一步保证了预测准确性。

如图3所示，在一个实施例中，上述基于流失用户的潜在用户预测方法中，确定流失用户的步骤包括：

S302，获取候选用户的多个最新保单状态标识。

其中，保单状态是保单对应的状态。单个保单可对应有多个保单状态，比如保单加保、保单减保、续缴费时间期限内未缴费、联系信息变更、保单贷款、受益人资料变更、退保和保单到期且未续签等。保单状态标识用于唯一标识相应的保单状态。保单状态标识具体是由数字、字母和符号等字符中的至少一种组成，比如保单状态标识A表示保单加保、B表示保单减保、C表示联系信息变更、D表示保单贷款、E表示续缴费时间期限内未缴费和F标识退保等。候选用户是根据相应保单状态标识判定该用户是否为流失用户的备选用户。

具体地，服务器按照预设周期从本地获取候选用户的多个最新的保单状态标识。其中，候选用户可以是已有用户中的任一用户，也可以是预先指定的用户。服务器接收到终端发送的潜在用户预测指令时，根据该潜在用户预测指令从本地或其他计算机设备获取候选用户对应的多个最新保单状态标识。

在一个实施例中，服务器接收到潜在用户预测指令时，根据所接收到的潜在用户预测指令确定相应的多个候选用户。对于每个候选用户，服务器分别获取各候选用户各自对应的多个最新保单状态标识，并根据所获取到的保单状态标识，按照下述流失用户确定方式分别确定各候选用户是否为流失用户。

S304，确定与保单状态标识对应的流失风险等级标签值。

其中，流失风险等级是用户流失的可能性大小，用于表示当前用户成为流失用户的可能性大小。流失风险等级包括高流失风险等级和低流失风险等级。流失风险等级标签值是用于表示流失风险等级的参数值，比如用X或0表示低流失风险等级，用Y或1表示高流失风险等级。

具体地，服务器按照预设对应关系分别确定各保单状态标识各自对应的流失风险等级标签值。其中，预设对应关系是预定义的保单状态标识和流失风险等级标签值之间的对应关系。在本实施例中，预设对应关系是多对一的对应关系，即多个保单状态标识可对应于同一个流失风险等级标签值。根据保单状态标识按照预设对应关系即可确定相应的流失风险等级标签值。

S306，将所确定的流失风险等级标签值与指定高流失风险等级标签值进行匹配，获得匹配结果。

S308，当至少一个的匹配结果表示匹配成功时，将候选用户确定为流失用户。

其中，指定高流失风险等级标签值是预先指定的用于表示高流失风险等级的参数值。匹配结果包括匹配成功和匹配失败。匹配成功则表明相应保单当前处于失效状态。

具体地，服务器通过将各保单状态标识各自对应的流失风险等级标签值分别与指定高流失风险等级标签值进行匹配，获得各保单状态标识各自对应的匹配结果。当所获得的匹配结果中存在至少一个表示匹配成功的匹配结果时，将相应候选用户确定为流失用户。当所获得的匹配结果均表示匹配失败，则判定相应候选用户为非流失用户，即处于正常状态的用户。

举例说明，假设指定高流失风险等级标签值用Y表示，候选用户a对应有保单状态标识A、B、C、D、E和F，候选用户b对应有保单状态标识A、B和C。其中，按照预设对应关系可确定保单状态标识A、B和C对应的流失风险等级标签值均为X，保单状态标识E和F对应的流失风险等级标签值均为Y。服务器通过分别匹配可确定候选用户a对应有2个表示匹配成功和3个表示匹配失败的匹配结果，则将候选用户a确定为流失用户。类似地，确定候选用户b没有表示匹配成功的匹配结果，则将候选用户b确定为非流失用户。

上述实施例中，通过确定候选用户的各保单状态标识各自对应的流失风险等级标签值，再根据所确定的各流失风险等级标签值与指定高风险等级标签值的匹配结果，对应判定该候选用户是否为流失用户，提高了流失用户的确定准确性，从而提高了潜在用户的预测准确性。

在一个实施例中，候选用户对应多于一个的保单；步骤S302包括：获取候选用户对应的每个保单所对应的多个最新保单状态标识；步骤S308包括：当候选用户对应的每个保单所对应的匹配结果中，均至少存在一个表示匹配成功的匹配结果时，将候选用户确定为流失用户。

具体地，当候选用户对应有多个保单时，对于该候选用户所对应的每个保单，服务器分别获取该保单对应的多个最新保单状态标识，并分别确定各保单状态标识各自对应的流失风险等级标签值，将所确定的流失风险等级标签值分别与指定高风险等级标签值进行匹配，获得该保单对应的多个匹配结果。服务器获得该候选用户的每个保单各自对应的匹配结果时，分别查询每个保单所对应的匹配结果中是否存在表示匹配成功的匹配结果。

进一步地，当该候选用户对应的每个保单所对应的匹配结果中，均至少存在一个表示匹配成功的匹配结果时，将该候选用户确定为流失用户。当该候选用户对应的多个保单中，存在至少一个保单所对应的各匹配结果均为匹配失败时，将该候选用户确定为非流失用户。换而言之，当候选用户对应的多个保单均处于失效状态时，将该候选用户确定为流失用户。当候选用户的对应的多个保单中，存在尚未失效的保单时，将该候选用户确定为非流失用户。

在一个实施例中，服务器根据候选用户的最新保单状态标识判定该候选用户是否为流失用户时，首先确定该候选用户对应的保单数量。当候选用户仅对应有一个保单时，根据该保单对应的多个最新保单状态标识确定该候选用户是否为流失用户。当候选用户对应有多于一个的保单时，根据各保单各自对应的最新保单状态标识共同确定该候选用户是否为流失用户。

举例说明，假设候选用户a对应有保单T1和T2，当T1对应有至少一个表示匹配成功的匹配结果、且T2对应有至少一个表示匹配成功的匹配结果时，将该候选用户a确定为流失用户。

上述实施例中，当候选用户对应有多个保单时，当该多个保单各自对应的匹配结果均至少存在一个表示匹配成功的匹配结果时，即当该多个保单均处于失效状态时，将该候选用户确定为流失用户，提高了流失用户的确定准确性。

在一个实施例中，步骤S308包括：当至少一个的匹配结果表示匹配成功时，确定匹配结果表示匹配成功的流失风险等级标签值所对应的保单状态标识；获取所确定的保单状态标识对应的新增时间；当新增时间处于指定时间段内时，将候选用户确定为流失用户。

其中，新增时间是指保单状态标识的生成时间。在本实施例中，新增时间是指该保单状态标识所对应的保单状态的更新时间。新增时间用于表示相应保单由正常状态变更为失效状态的变更时间。

具体地，当候选用户的多个保单状态标识各自对应的流失风险等级标签值所对应的匹配结果中，存在表示匹配成功的匹配结果时，服务器根据各匹配结果对应确定匹配结果表示匹配成功的流失风险等级标签值所对应的保单状态标识。服务器查询所确定的该保单状态标识所对应的新增时间，将所查询到的新增时间与指定时间段进行匹配。当匹配成功时，表明该新增时间处于指定时间段内，即表明相应保单状态的变更时间处于该指定时间段内，也即表明相应保单的失效时间处于该指定时间段内，服务器则将该候选用户确定为流失用户。

在一个实施例中，当候选用户的多个保单状态标识各自对应的流失风险等级标签值所对应的匹配结果中，存在多个表示匹配成功的匹配结果时，服务器分别确定该多个表示匹配成功的匹配结果各自对应的保单状态标识，并分别获取所确定的该多个保单状态标识各自对应的新增时间。服务器将所获取多个新增时间分别与指定时间段进行匹配，当该多个新增时间各自对应的匹配结果中存在表示匹配成功的匹配结果时，将候选用户确定为流失用户。

在一个实施例中，服务器将所获取的多个新增时间按照时间先后顺序进行排序，将时间最早的新增时间与指定时间进行匹配。服务器也可以将时间最晚的新增时间与指定时间进行匹配。

在一个实施例中，当候选用户对应有多个保单时，服务器根据上述方式分别确定各保单各自对应的新增时间，以及各新增时间与指定时间段的匹配结果。当各保单各自对应的新增时间均存在表示匹配成功的匹配结果时，即当各保单各自对应的新增时间中均存在处于指定时间段内的新增时间时，服务器将相应候选用户确定为流失用户。

在一个实施例中，当候选用户对应有多个保单、且该多个保单对应的新增时间中，存在至少一个处于指定时间段内的新增时间时，服务器将相应候选用户确定为流失用户。

上述实施例中，在潜在用户预测过程中，根据候选用户的多个保单状态标识确定该候选用户是否为指定时间段内的流失用户，进而基于所确定的流失用户执行潜在用户预测的相关步骤，从而预测所确定的流失用户是否为潜在用户。借助于新增时间从大量流失用户中筛选最近流失的流失用户，避免对流失时间过长的流失用户进行预测，降低了潜在用户的预测效率。

如图4所示，在一个实施例中，多种潜在用户预测模型的训练步骤，包括：

S402，确定第一预设时间段内的历史流失用户。

其中，第一预设时间段是预定义的由起始时间和结束时间对应确定的时间段，比如2016年1月1日至2016年12月31日。历史流失用户是指在当前时间之前流失的用户。在本实施例中，历史流失用户是指第一预设时间段内流失的用户。

具体地，类似于上述确定指定时间段内的流失用户的方式，服务器分别确定候选用户的多个历史保单状态标识各自对应的流失风险等级标签值，并分别获得所确定的流失风险等级标签值与指定高风险等级标签值的匹配结果。当所获得的匹配结果中存在至少一个表示匹配成功的匹配结果时，服务器对应确定表示匹配成功的匹配结果所对应的保单状态标识，并获取该保单状态标识对应的新增时间，进而根据新增时间确定该候选用户是否为第一预设时间段内的历史流失用户。服务器按照上述方式确定第一预设时间段内的多个历史流失用户。

S404，获取历史流失用户在第一预设时间段内的历史数据。

其中，历史数据是当前时间之前的数据。在本实施例中，历史数据具体是第一预设时间段内的流失用户在该第一预设时间段内的数据。在一个实施例中，服务器对所获取的历史数据进行预处理，将预处理后的历史数据作为训练样本集中的输入特征。

在一个实施例中，第一预设时间段内的历史流失用户有多个，服务器分别获取各历史流失用户在所述第一预设时间段内的历史数据。

在一个实施例中，服务器所获取的历史数据包括历史用户属性、历史用户保单属性、历史用户保单理赔数据和历史保险售后数据。

S406，根据历史流失用户在第二预设时间段内的保险行为数据，确定各历史流失用户对应的目标标签。

其中，第二预设时间段是指由指定的起始时间和结束时间对应确定的预设时间段。保险行为数据是用户购买保险产品时所产生的行为数据，如保单标识和保单创建时间等。目标标签具体可以是有价值或无价值。目标标签为有价值表示相应流失用户为第一预设时间段内的流失用户、且在第二预设时间段内再次购买保险产品成为新用户。目标标签为无价值表示相应流失用户为第一预设时间段内的流失用户、且在第二预设时间段内未再购买任何保险产品。

具体地，当第一预设时间段内的历史流失用户在第二预设时间段内再次购买保险产品时，服务器对应生成并记录保险行为数据。服务器获取第一预设时间段内的历史流失用户在该第一预设时间段内的历史数据时，对应获取该历史流失用户在第二预设时间段内的保险行为数据。当获取到保险行为数据时，服务器将该保险行为数据对应的历史流失用户所对应的目标标签确定为有价值。当没有获取到对应于历史流失用户的保险行为数据时，将该历史流失用户对应的目标标签确定为无价值。

在一个实施例中，第一预设时间段的结束时间是第二预设时间段的起始时间。具体地，第一预设时间段是以第一指定时间为结束时间的时间段，第二预设时间是以第二指定时间为起始时间的时间段，第一指定时间和第二指定时间可以是同一时间，也可以是不同时间。

举例说明，第一预设时间段为2016年1月1日至2016年12月31日，即2016年，第二预设时间段为2016年12月31日至2017年12月31，即2017年。服务器获取2016年的历史流失用户在2016年内的历史数据作为输入特征，并获取2016年的历史流失用户在2017年内的保险行为数据。当2016年的历史流失用户在2017年内购买了保险产品时，则将该历史流失用户的目标标签确定为有价值。当2016年的历史流失用户在2017年内未购买任何保险产品时，则将该历史流失用户的目标标签确定为无价值。

在一个实施例中，第一预设时间段内的历史流失用户有多个。服务器分别获取第一预设时间段内的各流失用户在该第一预设时间段内的历史数据时，分别获取各流失用户在第二预设时间段内的保险行为数据。服务器根据所获取的保险行为数据，分别确定各历史流失用户各自对应的目标标签。

S408，根据历史数据和相应的目标标签，获得训练样本集。

S410，根据训练样本集，按照指定的多种机器学习算法分别进行模型训练，获得与各机器学习算法对应的潜在用户预测模型。

其中，机器学习算法包括决策树、随机森林、神经网络和Logistic回归(逻辑回归)等。具体地，服务器接收终端发送的模型训练指令，根据所接收的模型训练指令获取指定的多种机器学习算法。对于每种机器学习算法，服务器根据包括历史数据和相应目标标签的训练样本集进行模型训练，训练完成时获得与该机器学习算法对应的潜在用户预测模型。

在一个实施例中，以深度神经网络为例，深度神经网络包括输入层、隐含层和输出层，层与层之间是全连接关系，前一层的输出作为后一层的输入，且同一层的神经元对应的输入相同。每个神经元获取到输入后，先做一个线性运算，线性运算的函数可表示为其中，W是权重参数，X是输入特征，b是偏置，y是输入特征的对应的目标输出。线性运算后将目标输出输入激活函数进行非线性运算，将非线性运算的输出作为下一层的输入。激活函数可选用sigmoid函数，具体函数可表示为：

进一步地，将下一层隐含层作为当前处理的隐含层，重复执行上述非线性运行过程，直至输出层，并根据输出层的输出与相应输入特征所对应的目标标签逐层调整各神经元的权重参数。基于训练样本集重复执行上述调整各神经元的权重参数的相关步骤，直至各权重参数趋于稳定，则将趋于稳定的各权重参数作为训练获得的权重参数，从而获得训练完成的潜在用户预测模型。

上述实施例中，根据所获取的训练样本集对指定的多种机器学习算法分别进行模型训练，获得相应的多个潜在用户预测模型，以基于该多个潜在用户预测模型预测已知流失用户是否为潜在用户，提高了潜在用户的预测准确性。

在一个实施例中，步骤S408包括：根据历史数据和相应的目标标签，获得训练样本集和测试样本集；上述基于流失用户的潜在用户预测方法，还包括：基于测试样本集，对训练获得的多种潜在用户预测模型进行测试；将测试结果符合预设模型筛选条件的潜在用户预测模型，确定为用于预测潜在用户的潜在用户预测模型。

其中，训练样本集是用于进行模型训练的历史数据和目标标签组成的集合。测试样本集是用于对通过模型训练获得的潜在用户预测模型进行检测的历史数据和目标标签组成的集合。

具体地，服务器分别获得各流失用户各自对应的历史数据和目标标签时，将各流失用户各自对应的历史数据和目标标签划分为训练样本集和测试样本集。即服务器将部分流失用户对应的历史数据和目标标签确定为训练样本集，将另一部分流失用户对应的历史数据和目标标签确定为测试样本集。服务器基于训练样本集进行模型训练，获得训练完成的多种潜在用户预测模型后，基于测试样本集对该多种潜在用户预测模型进行测试，根据测试结果筛选用于预测潜在用户的潜在用户预测模型。

以基于深度神经网络算法训练获得的潜在用户预测模型的测试为例，基于测试样本集对训练获得的潜在用户预测模型进行测试的具体步骤包括：将测试样本集中的各历史数据作为输入特征分别输入已训练完成的潜在用户预测模型进行预测，获得各历史数据各自对应的预测标签，并将预测获得的预测标签与相应的目标标签进行匹配。服务器累计计算匹配成功率。当匹配成功率达到匹配成功率阈值时，服务器将相应潜在用户预测模型确定为用于预测潜在用户的潜在用户预测模型。对于已训练完成的多种潜在用户预测模型，服务器分别执行上述测试的相关步骤，以从已训练完成的多种潜在用户预测模型中筛选用于预测潜在用户的潜在用户预测模型。

举例说明，假设测试样本集中包括10万个流失用户各自对应的历史数据和目标标签，匹配成功率阈值为98％。服务器将该10万个历史数据分别输入已训练完成的潜在用户预测模型进行预测，获得相应的10万个预测标签，将所获得的该10万个预测标签分别与相应的10万个目标标签进行匹配，当匹配成功的预测标签为9.9万时，匹配成功率为99％，超过匹配成功率阈值98％，则将该潜在用户预测模型确定为用于预测潜在用户的潜在用户预测模型。

上述实施例中，基于测试样本集从已训练完成的潜在用户预测模型中筛选用于预测潜在用户的潜在用户预测模型，提高了预测准确性。

在一个实施例中，服务器按照预设周期重复执行上述基于流失用户的潜在用户预测方法的相关步骤，以及时预测出流失用户中的潜在用户，针对潜在用户确定相应的再营销策略参数，并推送至终端，从而有效降低了流失用户比率。

在一个实施例中，服务器预测出流失用户中的潜在用户后，将该潜在用户的用户标识推送至营业厅终端或指定业务员终端，以便于业务员根据接收到的用户标识获取该潜在用户的相关数据，并根据所获取的数据制定相应的再营销策略，并在指定时间以指定渠道推送至该潜在用户对应的终端。其中，指定渠道包括短信推送、邮件推送、短话回访推送、网站或线下活动推送等。

如图5所示，在一个实施例中，提供了一种基于流失用户的潜在用户预测方法，该方法具体包括以下步骤：

S502，获取候选用户的多个最新保单状态标识。

S504，确定与保单状态标识对应的流失风险等级标签值。

S506，将所确定的流失风险等级标签值与指定高流失风险等级标签值进行匹配，获得匹配结果。

S508，当至少一个的匹配结果表示匹配成功时，确定匹配结果表示匹配成功的流失风险等级标签值所对应的保单状态标识。

S510，获取所确定的保单状态标识对应的新增时间。

S512，当新增时间处于指定时间段内时，将候选用户确定为流失用户。

S514，获取流失用户在指定时间段内的数据。

S516，根据获取的数据，通过多种潜在用户预测模型进行预测，获得与潜在用户预测模型对应的预测标签。

S518，确定各预测标签中满足预设条件的目标预测标签。

S520，当目标预测标签为指定目标标签时，将流失用户确定为潜在用户。

上述实施例中，根据候选用户的多个保单状态标识初步确定该候选用户是否为流失用户，当确定为流失用户时，根据指定保单状态标识对应的新增时间确定该候选用户是否为指定时间段内的流失用户，提高了流失用户的确定准确性，从而提高了潜在用户的预测准确性。基于所确定的流失用户通过多种已训练完成的潜在用户预测模型进行潜在用户预测，进一步提高了预测准确性。

应该理解的是，虽然图2-5的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-5中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图6所示，提供了一种基于流失用户的潜在用户预测装置600，包括：数据获取模块601、预测模块602、输出标签确定模块603和潜在用户确定模块604，其中：

数据获取模块601，用于获取流失用户在指定时间段内的数据。

预测模块602，用于根据获取的数据，通过多种潜在用户预测模型进行预测，获得与潜在用户预测模型对应的预测标签。

输出标签确定模块603，用于确定各预测标签中满足预设条件的目标预测标签。

潜在用户确定模块604，用于当目标预测标签为指定目标标签时，将流失用户确定为潜在用户。

如图7所示，在一个实施例中，基于流失用户的潜在用户预测装置600，还包括：状态标识获取模块605、标签值确定模块606、匹配模块607和流失用户确定模块608。

状态标识获取模块605，用于获取候选用户的多个最新保单状态标识。标签值确定模块606，用于确定与保单状态标识对应的流失风险等级标签值。匹配模块607，用于将所确定的流失风险等级标签值与指定高流失风险等级标签值进行匹配，获得匹配结果。流失用户确定模块608，用于当至少一个的匹配结果表示匹配成功时，将候选用户确定为流失用户。

在一个实施例中，候选用户对应多于一个的保单；状态标识获取模块605，还用于获取候选用户对应的每个保单所对应的多个最新保单状态标识；流失用户确定模块608，还用于当候选用户对应的每个保单所对应的匹配结果中，均至少存在一个表示匹配成功的匹配结果时，将候选用户确定为流失用户。

在一个实施例中，流失用户确定模块608，还用于当至少一个的匹配结果表示匹配成功时，确定匹配结果表示匹配成功的流失风险等级标签值所对应的保单状态标识；获取所确定的保单状态标识对应的新增时间；当新增时间处于指定时间段内时，将候选用户确定为流失用户。

在一个实施例中，基于流失用户的潜在用户预测装置600，还包括：模型训练模块609。

模型训练模块609，用于确定第一预设时间段内的历史流失用户；获取历史流失用户在第一预设时间段内的历史数据；根据历史流失用户在第二预设时间段内的保险行为数据，确定各历史流失用户对应的目标标签；根据历史数据和相应的目标标签，获得训练样本集；根据训练样本集，按照指定的多种机器学习算法分别进行模型训练，获得与各机器学习算法对应的潜在用户预测模型。

在一个实施例中，模型训练模块609，还用于根据历史数据和相应的目标标签，获得训练样本集和测试样本集；基于测试样本集，对训练获得的多种潜在用户预测模型进行测试；将测试结果符合预设模型筛选条件的潜在用户预测模型，确定为用于预测潜在用户的潜在用户预测模型。

关于基于流失用户的潜在用户预测装置的具体限定可以参见上文中对于基于流失用户的潜在用户预测方法的限定，在此不再赘述。上述基于流失用户的潜在用户预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储流失用户对应的数据和预先训练完成的多种潜在用户预测模型。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于流失用户的潜在用户预测方法。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：获取流失用户在指定时间段内的数据；根据获取的数据，通过多种潜在用户预测模型进行预测，获得与潜在用户预测模型对应的预测标签；确定各预测标签中满足预设条件的目标预测标签；当目标预测标签为指定目标标签时，将流失用户确定为潜在用户。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取候选用户的多个最新保单状态标识；确定与保单状态标识对应的流失风险等级标签值；将所确定的流失风险等级标签值与指定高流失风险等级标签值进行匹配，获得匹配结果；当至少一个的匹配结果表示匹配成功时，将候选用户确定为流失用户。

在一个实施例中，候选用户对应多于一个的保单；获取候选用户的多个最新保单状态标识，包括：获取候选用户对应的每个保单所对应的多个最新保单状态标识；当至少一个的匹配结果表示匹配成功时，将候选用户确定为流失用户，包括：当候选用户对应的每个保单所对应的匹配结果中，均至少存在一个表示匹配成功的匹配结果时，将候选用户确定为流失用户。

在一个实施例中，当至少一个的匹配结果表示匹配成功时，将候选用户确定为流失用户，包括：当至少一个的匹配结果表示匹配成功时，确定匹配结果表示匹配成功的流失风险等级标签值所对应的保单状态标识；获取所确定的保单状态标识对应的新增时间；当新增时间处于指定时间段内时，将候选用户确定为流失用户。

在一个实施例中，处理器执行计算机程序时还实现多种潜在用户预测模型的训练步骤，包括：确定第一预设时间段内的历史流失用户；获取历史流失用户在第一预设时间段内的历史数据；根据历史流失用户在第二预设时间段内的保险行为数据，确定各历史流失用户对应的目标标签；根据历史数据和相应的目标标签，获得训练样本集；根据训练样本集，按照指定的多种机器学习算法分别进行模型训练，获得与各机器学习算法对应的潜在用户预测模型。

在一个实施例中，根据历史数据和相应的目标标签，获得训练样本集，包括：根据历史数据和相应的目标标签，获得训练样本集和测试样本集；处理器执行计算机程序时还实现以下步骤：基于测试样本集，对训练获得的多种潜在用户预测模型进行测试；将测试结果符合预设模型筛选条件的潜在用户预测模型，确定为用于预测潜在用户的潜在用户预测模型。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取流失用户在指定时间段内的数据；根据获取的数据，通过多种潜在用户预测模型进行预测，获得与潜在用户预测模型对应的预测标签；确定各预测标签中满足预设条件的目标预测标签；当目标预测标签为指定目标标签时，将流失用户确定为潜在用户。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取候选用户的多个最新保单状态标识；确定与保单状态标识对应的流失风险等级标签值；将所确定的流失风险等级标签值与指定高流失风险等级标签值进行匹配，获得匹配结果；当至少一个的匹配结果表示匹配成功时，将候选用户确定为流失用户。

在一个实施例中，计算机程序被处理器执行时还实现多种潜在用户预测模型的训练步骤，包括：确定第一预设时间段内的历史流失用户；获取历史流失用户在第一预设时间段内的历史数据；根据历史流失用户在第二预设时间段内的保险行为数据，确定各历史流失用户对应的目标标签；根据历史数据和相应的目标标签，获得训练样本集；根据训练样本集，按照指定的多种机器学习算法分别进行模型训练，获得与各机器学习算法对应的潜在用户预测模型。

在一个实施例中，根据历史数据和相应的目标标签，获得训练样本集，包括：根据历史数据和相应的目标标签，获得训练样本集和测试样本集；多种潜在用户预测模型的训练基于测试样本集，对训练获得的多种潜在用户预测模型进行测试；将测试结果符合预设模型筛选条件的潜在用户预测模型，确定为用于预测潜在用户的潜在用户预测模型。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于流失用户的潜在用户预测方法，所述方法包括：

获取流失用户在指定时间段内的数据；

确定各预测标签中满足预设条件的目标预测标签；

2.根据权利要求1所述的方法，其特征在于，所述数据包括用户属性、用户保单属性、用户保单理赔数据和保险售后数据。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取候选用户的多个最新保单状态标识；

确定与所述保单状态标识对应的流失风险等级标签值；

将所确定的流失风险等级标签值与指定高流失风险等级标签值进行匹配，获得匹配结果；

当至少一个的匹配结果表示匹配成功时，将所述候选用户确定为流失用户。

4.根据权利要求3所述的方法，其特征在于，所述候选用户对应多于一个的保单；所述获取候选用户的多个最新保单状态标识，包括：

获取候选用户对应的每个保单所对应的多个最新保单状态标识；

所述当至少一个的匹配结果表示匹配成功时，将所述候选用户确定为流失用户，包括：

当所述候选用户对应的每个保单所对应的匹配结果中，均至少存在一个表示匹配成功的匹配结果时，将所述候选用户确定为流失用户。

5.根据权利要求3所述的方法，其特征在于，所述当至少一个的匹配结果表示匹配成功时，将所述候选用户确定为流失用户，包括：

当至少一个的匹配结果表示匹配成功时，确定匹配结果表示匹配成功的流失风险等级标签值所对应的保单状态标识；

获取所确定的保单状态标识对应的新增时间；

当所述新增时间处于指定时间段内时，将所述候选用户确定为流失用户。

6.根据权利要求1至5任意一项所述的方法，其特征在于，所述多种潜在用户预测模型的训练步骤，包括：

确定第一预设时间段内的历史流失用户；

获取所述历史流失用户在所述第一预设时间段内的历史数据；

根据所述历史流失用户在第二预设时间段内的保险行为数据，确定各所述历史流失用户对应的目标标签；

根据所述历史数据和相应的所述目标标签，获得训练样本集；

根据所述训练样本集，按照指定的多种机器学习算法分别进行模型训练，获得与各所述机器学习算法对应的潜在用户预测模型。

7.根据权利要求6所述的方法，其特征在于，所述根据所述历史数据和相应的所述目标标签，获得训练样本集，包括：

根据所述历史数据和相应的所述目标标签，获得训练样本集和测试样本集；

所述方法还包括：

基于所述测试样本集，对训练获得的所述多种潜在用户预测模型进行测试；

将测试结果符合预设模型筛选条件的潜在用户预测模型，确定为用于预测潜在用户的潜在用户预测模型。

8.一种基于流失用户的潜在用户预测装置，其特征在于，所述装置包括：

数据获取模块，用于获取流失用户在指定时间段内的数据；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。