CN111680382A

CN111680382A - 等级预测模型训练方法、等级预测方法、装置及电子设备

Info

Publication number: CN111680382A
Application number: CN201910143858.6A
Authority: CN
Inventors: 石贤芝; 丁建栋; 杨育
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2019-02-25
Filing date: 2019-02-25
Publication date: 2020-09-18

Abstract

本申请提供了一种等级预测模型训练方法、等级预测方法、装置及电子设备，其中，该方法包括获取历史用户数据；从所述历史用户数据中确定出训练数据，所述训练数据包括多个用户在周期内的周期起点至周期中间指定时间节点的用户数据；将所述训练数据输入待训练模型中进行训练，得到等级预测模型，所述等级预测模型用于预测用户在当前周期的下一周期中的等级状态。

Description

等级预测模型训练方法、等级预测方法、装置及电子设备

技术领域

本申请涉及数据处理技术领域，具体而言，涉及一种等级预测模型训练方法、等级预测方法、装置及电子设备。

背景技术

各类网约服务的服务状况的最主要的指标是用户群体的活跃程度。因此，网约服务的运行状况可以通过用户活跃状态了解。基于此，相关技术人员可以统计用户当前使用状态，了解网约服务中的用户活跃度。但是，针对用户的未来可能的状态还处于未知，也就导致了网约服务的维护存在障碍。

发明内容

有鉴于此，本申请实施例的目的在于提供一种等级预测模型训练方法、等级预测方法、装置及电子设备，能够通过周期内的一段时间中的数据进行训练可以得到用于预测后面周期的用户的等级情况，解决现有技术中存在的对用户的未来的状况不了解，导致的用户管理方便的问题，达到等级预测模型用于预测用户在当前周期的下一周期中的等级状态，实现对用户的状态有效预测的效果。

根据本申请的一个方面，提供一种电子设备，可以包括一个或多个存储介质和一个或多个与存储介质通信的处理器。一个或多个存储介质存储有处理器可执行的机器可读指令。当电子设备运行时，处理器与存储介质之间通过总线通信，处理器执行所述机器可读指令，以执行一个或多个以下操作：

获取历史用户数据；

从所述历史用户数据中确定出训练数据，所述训练数据包括多个用户在周期内的周期起点至周期中间指定时间节点的用户数据；

将所述训练数据输入待训练模型中进行训练，得到等级预测模型，所述等级预测模型用于预测用户在当前周期的下一周期中的等级状态。

本申请实施例提供的等级预测模型训练方法，采用用户在一周期的一段时间的数据对模型进行训练，可以训练出用于预测用户在下一周期的用户等级，与现有技术中的对未来的状况不了解相比，其可以得到有效预测用户在未来的时间段的等级状态。

在一些实施例中，所述从所述历史用户数据中确定出训练数据的步骤，包括：

根据预先设定的预测参数量从所述历史用户数据中确定出训练数据，所述预测参数量表示作为待训练模型的任意一项输入数据覆盖时间范围占一周期时间总长的比例。

进一步，本申请实施例提供的等级预测模型训练方法，还可以通过预先设定的预测参数量选择训练数据，可以使等级预测模型的训练灵活性更高，适应对不同预测参数量的选择。

在一些实施例中，所述待训练模型包括二分类模型，所述将所述训练数据输入待训练模型中进行训练，得到等级预测模型的步骤，包括：

将所述训练数据输入所述二分类模型中进行分类训练，得到输出结果；

将所述输出结果与所述训练数据的标记数据进行损失计算，得到当前损失误差；

判断所述损失误差是否小于设定值；

若否，则调整所述二分类模型中的待确定参数，得到更新的二分类模型；

若是；则将当前的二分类模型作为等级预测模型。

在一些实施例中，所述二分类模型是Spark Mlib中的分类模块；所述将所述训练数据输入待训练模型中进行训练，得到等级预测模型的步骤，包括：

使用Spark Mlib中的分类模块进行单机式训练，得到等级预测模型；或者，

使用Spark Mlib中的分类模块进行分布式训练，得到等级预测模型。

通过选择Spark Mlib模型可以使等级预测模型的灵活性更高，可以适用于训练数据量较大的模型的训练，也可以适应于训练数据量较小的模型的训练。

在一些实施例中，所述获取历史用户数据的步骤，包括：

从所述用户数据服务器中随机筛选出设定数量的用户的历史用户数据。

采用简单随机抽样方式从所述用户数据服务器中筛选出设定数量的用户的历史用户数据；或者，

采用哈希加盐算法从所述用户数据服务器中筛选出设定数量的用户的历史用户数据。

采用随机的方式选择一些用户数据作为训练数据，可以使用训练数据不存在偏向性，可以使训练出来的等级预测模型适应性更强。

从所述用户数据服务器中筛选出第一设定数量的第一类用户的历史用户数据，所述第一类用户为所述第一类用户的历史用户数据对应周期的下一周期将被降低等级的用户；

从所述用户数据服务器中筛选出第二设定数量的第二类用户的历史用户数据，所述第二类用户为所述第二类用户的历史用户数据对应周期的下一周期将被升高等级或保持等级的用户。

在一些实施例中，所述第一设定数量与所述第二设定数量的比值在设定范围内。

选择一定量的所述第一类用户的历史用户数据和所述第二类用户的历史用户数据作为训练数据，可以使用训练的等级预测模型更加均衡，从而使用训练出来的等级预测模型对用户的预测的准确度更高。

在另一方面，本申请实施例提供一种等级预测方法，包括：

获取待预测用户在当前周期的设定时间段内的目标用户数据；

将所述目标用户数据输入上述的等级预测模型中进行计算，得到所述待预测用户在当前周期的下一周期的等级预测结果。

在一些实施例中，所述将所述目标用户数据输入上述的等级预测模型中进行计算，得到所述待预测用户在当前周期的下一周期的等级预测结果的步骤，包括：

将所述目标用户数据输入所述等级预测模型中进行计算，得到所述目标用户下一周期将被降低等级的第一概率；

将所述第一概率与设定概率进行比较，得出所述待预测用户下一周期的预测等级，将所述第一概率及所述预测等级作为所述待预测用户的等级预测结果。

在一些实施例中，所述将所述目标用户数据输入上述的等级预测模型中进行计算，得到所述待预测用户在当前周期的下一周期的等级的步骤，包括：

将所述目标用户数据中的第一组目标用户数据输入第一等级预测模型中进行计算，得到第一等级预测结果；或/及，

将所述目标用户数据中的第二组目标用户数据输入第二等级预测模型中进行计算，得到第二等级预测结果，所述第一组目标用户数据覆盖的时间长度小于所述第二组目标用户数据覆盖的时间长度，所述第一等级预测结果或/及第二等级预测结果作为所述待预测用户的等级预测结果。

在一些实施例中，所述方法还包括：

将所述等级预测结果发送给所述待预测用户对应的用户终端。

通过将等级预测结果发送给用户，可以使用户能够了解到自己下一周期可能的等级，促使用户可能采取一些补救措施，避免自己被降级。

在一些实施例中，所述方法还包括：

根据所述等级预测结果为所述待预测用户生成激励策略，所述激励策略包括抵用券、服务赠送中的至少一种；

将所述激励策略发送给所述待预测用户对应的用户终端。

通过给用户发送激励策略可以调动用户的活跃度，从而可以提高网约服务平台的活跃度。

在一些实施例中，所述方法还包括：

根据所述等级预测结果为所述待预测用户生成预测标签；

将所述预测标签发送给用户标签数据库。

将用户的预测标签存储在标签数据库中，可以方便平台了解用户在未来的周期的等级情况，从而可以采用一些补救措施。

在另一方面，本申请实施例还提供一种等级预测模型训练装置，包括：

第一获取模块，用于获取历史用户数据；

确定模块，用于从所述历史用户数据中确定出训练数据，所述训练数据包括多个用户在周期内的周期起点至周期中间指定时间节点的用户数据；

训练模块，用于将所述训练数据输入待训练模型中进行训练，得到等级预测模型，所述等级预测模型用于预测用户在当前周期的下一周期中的等级状态。

在一些实施例中，所述确定模块，还用于：

在一些实施例中，所述待训练模型包括二分类模型，所述训练模块，还用于：

判断所述损失误差是否小于设定值；

若是；则将当前的二分类模型作为等级预测模型。

在一些实施例中，所述二分类模型是Spark Mlib中的分类模块；所述训练模块，还用于：

在一些实施例中，所述第一获取模块，还用于：

在另一方面，本申请实施例还提供一种等级预测装置，包括：

第二获取模块，用于获取待预测用户在当前周期的设定时间段内的目标用户数据；

计算模块，用于将所述目标用户数据输入上述的等级预测模型中进行计算，得到所述待预测用户在当前周期的下一周期的等级预测结果。

在一些实施例中，所计算模块，还用于：

在一些实施例中，所述装置还包括：

第一发送模块，用于将所述等级预测结果发送给所述待预测用户对应的用户终端。

在一些实施例中，所述装置还包括：第二发送模块，用于：

将所述激励策略发送给所述待预测用户对应的用户终端。

在一些实施例中，所述装置还包括：第三发送模块，用于：

根据所述等级预测结果为所述待预测用户生成预测标签；

将所述预测标签发送给用户标签数据库。

在另一方面，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述任一种可能的实施方式中等级预测模型训练方法的步骤。

在另一方面，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述任一种可能的实施方式中等级预测方法的步骤。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种电子设备的结构示意图；

图2示出了本申请实施例所提供的一种等级预测模型训练方法的流程图；

图3示出了本申请实施例所提供的等级预测模型训练方法中，步骤S203具体方法的流程图；

图4示出了本申请实施例所提供的一种等级预测方法的流程图；

图5示出了本申请实施例所提供的一种等级预测模型训练装置的结构示意图；

图6示出了本申请实施例所提供的另一种等级预测装置的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。

本申请的一个方面涉及一种等级预测模型训练系统。该系统可以通过根据获取的历史用户数据，对神经网络模型进行训练，可以得到用于预测用户下一周期的等级状态。从而可以实现对用户的有效了解，从而更好地管理用户。

在一些可选的实施方式中，上述的用户可以是网约车服务中的乘客、司机等用户。上述的用户也可以是外卖服务中的配送员和下外卖单的用户等。上述的用户还可以是快递服务中的快递员和寄快递用户等。上述的几个实施方式中的用户数据中都可能存在一些累计参数，其中，乘客、司机、配送员、快递员的累计参数包括服务或者被服务的里程数据。上述的下外卖单的用户、寄快递用户的累计参数包括：发送服务请求的次数。

为了使得本领域技术人员能够使用本申请内容，结合特定应用场景“网约车服务”，给出以下实施方式。对于本领域技术人员来说，在不脱离本申请的精神和范围的情况下，可以将这里定义的一般原理应用于其他实施例和应用场景。虽然本申请主要围绕网约车服务进行描述，但是应该理解，这仅是一个示例性实施例。本申请可以应用于任何其他交通运输类型。例如，本申请可以应用于不同的运输系统环境，包括陆地，海洋，或航空等，或其任意组合。运输系统的交通工具可以包括出租车、私家车、顺风车、公共汽车、火车、子弹头列车、高速铁路、地铁、船只、飞机、宇宙飞船、热气球、或无人驾驶车辆等，或其任意组合。本申请还可以包括用于存在服务累计参数的任何服务系统，例如，用于发送和/或接收快递的系统、用于买卖双方交易的服务系统。本申请的方法的应用可以包括网页、浏览器的插件、客户端终端、定制系统、内部分析系统、或人工智能机器人等，或其任意组合。

本申请中的术语“乘客”、“请求方”、“服务人员”、“服务请求方”和“客户”可互换使用，以指代可以请求或订购服务的个人、实体或工具。本申请中的术语“司机”、“提供方”、“服务提供方”和“供应商”可互换使用，以指代可以提供服务的个人、实体或工具。本申请中的术语“用户”可以指代请求服务、订购服务、提供服务或促成服务的提供的个人、实体或工具。例如，用户可以是乘客、驾驶员、操作员等，或其任意组合。在本申请中，“乘客”和“乘客终端”可以互换使用，“驾驶员”和“驾驶员终端”可以互换使用。

本申请中的术语“服务请求”和“订单”可互换使用，以指代由乘客、服务请求方、司机、服务提供方、或供应商等、或其任意组合发起的请求。接受该“服务请求”或“订单”的可以是乘客、服务请求方、司机、服务提供方、或供应商等、或其任意组合。服务请求可以是收费的或免费的。

下面以网约车服务为例，描述在一些可实施的情况下用户的等级的划分情况。在一种可选的实施方式中，用户在下一周期的等级由上一周期使用网约车的情况确定。例如，用户在当前周期使用的里程数据在第一区间[d1,d2]，则该用户在下一周期的等级为第一等级；用户在当前周期使用的里程数据在第二区间(d2,d3]，则该用户在下一周期的等级为第二等级；用户在当前周期使用的里程数据在第三区间(d3,d4]，则该用户在下一周期的等级为第三等级；用户在当前周期使用的里程数据在第四区间(d4,d5]，则该用户在下一周期的等级为第四等级；用户在当前周期使用的里程数据在第五区间(d5,∞)，则该用户在下一周期的等级为第五等级。

下面就网约车服务为例，对本申请实施例提供的等级预测模型训练方法或等级预测方法进行详细描述。

实施例一

图1示出根据本申请的一些实施例的可以实现用于执行本申请思想的等级预测模型训练方法或等级预测方法中的各个步骤的示例性硬件和软件组件的电子设备100的示意图。

电子设备100可以是通用计算机或特殊用途的计算机，两者都可以用于实现本申请的等级预测模型训练方法或等级预测方法。本申请尽管仅示出了一个计算机，但是为了方便起见，可以在多个类似平台上以分布式方式实现本申请描述的功能，以均衡处理负载。

例如，电子设备100可以包括连接到网络的网络端口110、用于执行程序指令的一个或多个处理器120、通信总线130、和不同形式的存储介质140，例如，磁盘、ROM、或RAM，或其任意组合。示例性地，计算机平台还可以包括存储在ROM、RAM、或其他类型的非暂时性存储介质、或其任意组合中的程序指令。根据这些程序指令可以实现本申请的方法。电子设备100还包括计算机与其他输入输出设备(例如键盘、显示屏)之间的输入/输出(Input/Output，I/O)接口150。

上述的存储介质140中可以存储有用于实现本申请实施例中的等级预测模型训练方法和/或本申请实施例中的等级预测方法的功能模块。

为了便于说明，在电子设备100中仅描述了一个处理器。然而，应当注意，本申请中的电子设备100还可以包括多个处理器，因此本申请中描述的一个处理器执行的步骤也可以由多个处理器联合执行或单独执行。例如，若电子设备100的处理器执行步骤A和步骤B，则应该理解，步骤A和步骤B也可以由两个不同的处理器共同执行或者在一个处理器中单独执行。例如，第一处理器执行步骤A，第二处理器执行步骤B，或者第一处理器和第二处理器共同执行步骤A和B。

实施例二

本实施例提供一种等级预测模型训练方法。本实施例中的方法可以由图1所示的电子设备100执行。本实施例中的电子设备100可以是存储有历史用户数据的数据服务器，也可以是与该数据服务器通信连接的其它服务器。图2示出了本申请一个实施例中的等级预测模型训练方法的流程图。下面对图2所示的等级预测模型训练方法的流程进行详细描述。

步骤S201，获取历史用户数据。

上述的历史数据可以存储在与上述的电子设备连接的数据存储服务器中，也可以存储在上述的电子设备的本地存储器中。需要使用时，可以从上述的数据存储服务器或本地存储器中。

步骤S202，从所述历史用户数据中确定出训练数据。

上述的训练数据包括多个用户在周期内的周期起点至周期中间指定时间节点的用户数据。

上述的周期中间指定时间节点具体可以根据用户设置的数值确定。

上述的周期中间指定时间节点具体还可以数据分布情况设置。例如，如果一类服务的用户的获取服务订单主要集中在一个周期的前面半个周期，则上述的周期中间指定时间节点可以是周期的中点；如果一类服务的用户的获取服务订单大致均匀地分布在一个周期内，则上述的周期中间指定时间节点可以是周期的三分之二时间点处。

上述的周期的长度可以按照需求设置。例如，一个周期可以是一个月、三个月等时间长度。

在一些可选的实施方式中，上述的步骤S202可以包括：根据预先设定的预测参数量从所述历史用户数据中确定出训练数据，所述预测参数量表示作为待训练模型的任意一项输入数据覆盖时间范围占一周期时间总长的比例。

在一些实例中，上述的预测参数量可以是全周期中前二分之一的数据量、也可以是全周期中前三分之二的数据量、还可以是四分之三的数据量等。具体可以根据用户使用当前的服务的频率设置不同的预测参数量。

进一步地，还可以将筛选出来的数据进行标记：对于每个等级的乘客，按其在历史周期后的升降级状态设置“降级”或“升保级”类别标签，此标签作为Y。其中，“降级”为正类标签，“升保级”为负类标签。比如，一用户在历史周期第二季度时是第三等级用户，第三季度第一天时用户等级会根据其在第二季度的使用服务情况发生变化，比如，降为第二等级，则将该用户对应的样本数据标记上“降级”标签。

进一步地，训练数据中包括多个样本特征，每个样本特征表示其中一个用户的数据情况。每个样本特征可以包含但不限于以下信息：城市级别、服务平台生命周期价值相关、消费能力相关、价格敏感度相关(如，用户有券时完单量更多，无券时完单量更少)、出行频率和体验相关指标(比如单均应答时长、司机取消订单的占比等)、出行里程数等。进一步地，在网约车服务领域中，在上述的信息的基础上，还可以包括：贡献成交总额(GrossMerchandise Volume，英文简称：GMV)、用户积分、用户成单量、用户消费指数、用户订单单均应答时长、用户订单单均接驾时长、用户信用分、用户订单单均里程、用户订单单均成交总额(Gross Merchandise Volume，英文简称：GMV)等。

有时候直接由用户数据转换的样本特征可能会存在一些不能满足训练条件，则可以提前对数据进行一些处理，使样本特征能够满足用户需求。具体可以包括：1)由于可能会存在有些样本特征的信息不完整，对部分特征缺失值样本的处理方式包含但不限于如下方式：缺失值样本删除、缺失值使用0值补齐、缺失值使用均值补齐。2)对样本特征数据在使用某些分类算法训练时，可能还会有如下处理：特征数据标准化、数据降维。

为了防止选出的数据向一类数据偏移，则在选择不同类型的用户数据时，可以将样本数据均衡问题进行考虑。具体地，由于每个等级的用户数量庞大(千万甚至上亿级别)，很多乘客的用户数据类似，考虑到模型训练的时间复杂度，以及各等级中两种类别(即降级和升保级)用户数量不均衡等因素，在进行等级预测模型训练时可以只选取整体历史用户数据中的一部分作为训练数据。在进行训练数据的选取时可以基于以下几个因素进行选取：1)从整体各类别用户中随机筛选用户，随机筛选的方法包含但不限于：简单随机抽样、Hash加盐算法等；2)为提高模型分类准确率，两类别样本应做到样本量均衡，两类别样本保持同等级别，例如，正负样本均在两万个上下。

上述的步骤S201可以包括：从所述用户数据服务器中随机筛选出设定数量的用户的历史用户数据。

可选地，上述的从所述用户数据服务器中随机筛选出设定数量的用户的历史用户数据的步骤，包括：采用简单随机抽样方式从所述用户数据服务器中筛选出设定数量的用户的历史用户数据；或者，采用哈希加盐算法从所述用户数据服务器中筛选出设定数量的用户的历史用户数据。

上述的步骤S201可以包括：从所述用户数据服务器中筛选出第一设定数量的第一类用户的历史用户数据，所述第一类用户为所述第一类用户的历史用户数据对应周期的下一周期将被降低等级的用户；从所述用户数据服务器中筛选出第二设定数量的第二类用户的历史用户数据，所述第二类用户为所述第二类用户的历史用户数据对应周期的下一周期将被升高等级或保持等级的用户。

进一步地，第一设定数量与所述第二设定数量的比值在设定范围内。

上述的设定范围可以限定第一类用户的历史用户数据和第二类用户的历史用户数据的相对采集量。为了使两类用户的用户数据均衡，可以选择数据量差不多的第一类用户的历史用户数据和第二类用户的历史用户数据。例如，上述的设定范围可以是(1-ε1，1+ε2)。其中，ε1和ε2是两个较小的数字，例如，ε1和ε2可以均小于0.05，ε1和ε2可以相等也可以不等。

在一个实例中，上述的第一类用户的历史用户数据和第二类用户的历史用户数据可以均选择两万左右条数据。

步骤S203，将所述训练数据输入待训练模型中进行训练，得到等级预测模型。

上述的等级预测模型用于预测用户在当前周期的下一周期中的等级状态。

在网约车服务的应用场景中，司机或者乘客均对应多个等级，每个等级均包括大量的用户数据。在不同的等级划分制度下。由于每个等级的用户在一个周期内接受服务或者提供服务的数据不同，但是同一等级的用户接收到的接受服务或者提供服务的数据可能在同一数值范围内。

下面以乘客为例对其中一种情况下的等级划分进行描述：

第一等级：在上一周期内乘坐网约车的里程数在[0,10]内；

第二等级：在上一周期内乘坐网约车的里程数在(10,50]内；

第三等级：在上一周期内乘坐网约车的里程数在(50,150]内；

第四等级：在上一周期内乘坐网约车的里程数在(150,600]内；

第五等级：在上一周期内乘坐网约车的里程数在(600,+∞)内。

由于每个等级的用户状态、用户数据分布不一样，因此，为了提高等级预测模型对用户的等级的预测的准确性质，可以每个等级用户的等级预测使用不同的等级预测模型。本申请实施例中的等级预测模型训练方法训练得到的每个模型用于对其中一个等级的用户在当前周期的下一周期中的等级状态。在一个实例中，网约车服务的乘客或司机一共被划分成N级，由于最低等级不存在降级行为，因此，本申请实施例中的方法可以对较高的N-1个等级分别训练出等级预测模型。具体地，对于N-1个等级的每个等级的用户群体，利用此等级用户在历史周期(比如当前为第三季度，历史周期即为第二季度)在周期内的周期起点至周期中间指定时间节点的用户数据，训练等级预测模型。

在一个实例中，当前处于第三季度，需要训练对第三等级用户在进行预测的等级预测模型。则可以获取在第二季度属于第三等级用户的部分用户数据。部分用户数据是第三等级用户在第二季度的起点至第二季度中间指定时间节点的用户数据。

在一种可选的实施方式中，上述的待训练模型包括二分类模型，如图3所示，上述的步骤S203可以包括以下步骤。

步骤S2031，将所述训练数据输入所述二分类模型中进行分类训练，得到输出结果。

上述的训练数据中的每个样本特征的输出可以表示为(x,y)。其中，x为样本点的特征向量；y为样本点的类别标签；在一个实例中，y＝1可以表示样本特征下个周期降级，y＝0可以表示样本特征下个周期升保级。升保级表示样本特征对应的用户在下一周期中的等级与当前等级相比更高或者相同。

上述的输出结果可以表示为：f(x)以及每个样本特征将要降级的概率值。

其中，在一个实例中，f(x)为1表示预测为降级，f(x)为0表示预测为升保级。

概率参考值可以作为模型的一个参数，可以按照具体需求调整，例如，对精度要求要的可以设置更大的概率参考值，如果精度要求小的可以设置更小的概率参考值。在一个实例中，概率参考值的默认值可以是0.5，即当模型输出的概率值大等于0.5时，可认为对应样本特征的用户等级将降级，当模型输出的概率值小于0.5时，可认为对应样本特征的用户等级将升保级。

步骤S2032，将所述输出结果与所述训练数据的标记数据进行损失计算，得到当前损失误差。

在一个实例中，可以使用预选的损失函数计算损失误差。

损失函数可以平方损失函数，基于损失函数不断回传调优网络参数：

L(Y,f(X))＝(Y-f(X))²；

其中，L()表示损失函数；Y表示标记数据；f(X)表示输出结果。

步骤S2033，判断所述损失误差是否小于设定值。

上述的设定值可以是一个较小的数，具体可以按照需求设置。例如，设定值可以是0.1、0.05、0.03等。

若是；则将当前的二分类模型作为等级预测模型。若否，则执行步骤S2034。

步骤S2034，调整所述二分类模型中的待确定参数，得到更新的二分类模型。

则在一个训练数据集上的经验损失最小问题可以表示为：

进一步地，本申请实施例所使用的二分类模型可以是随机森林分类模型。针对不同等级用户的等级预测的模型可以是不同的随机森林模型。具体地，关于随机森林分类模型中分叉树、以及每棵树的特征的数量可以根据不同等级用户数据的复杂程度确定。例如，用户数据越复杂，可以选择更多的分叉树、每棵树可以选择更多的特征。

进一步地，在训练二分类模型之后还可以对二分类模型进行验证。具体的验证方法包括但不限于以下方式：k-folder交叉验证、正则化、网格遍历参数、准确率和召回率(precision vs recall，英文简称：P-R)曲线、受试者工作特征曲线(receiver operatingcharacteristic curve，英文简称：ROC)、Roc曲线下的面积(Area Under Curve，英文简称：AUC)、Bagging。bagging是一种用来提高学习算法准确度的方法，这种方法通过构造一个预测函数系列，然后以一定的方式将它们组合成一个预测函数。

对于上述的等级预测模型的训练：当训练数据的量比较小时，单机存储样本数据，使用Spark Mlib中的分类模块进行单机式训练；当训练数据的量比较大时，在分布式文件系统(Hadoop Distributed File System，英文简称：HDFS)上分布式存储数据，使用SparkMlib中的分类模块进行分布式训练。

基于上述描述，上述的二分类模型可以是Spark Mlib中的分类模块；所述将所述训练数据输入待训练模型中进行训练，得到等级预测模型的步骤，包括：使用Spark Mlib中的分类模块进行单机式训练，得到等级预测模型；或者，使用Spark Mlib中的分类模块进行分布式训练，得到等级预测模型。具体根据数据量的大小选择单机式或分布式训练。

实施例三

本实施例提供一种等级预测方法。执行本实施例中的等级预测方法的执行设备可以与实施例二中的等级预测模型训练方法的执行设备可以相同，也可以不同。图4示出了本申请一个实施例中的等级预测方法的流程图。下面对图4所示的等级预测方法的流程进行详细描述。

步骤S301，获取待预测用户在当前周期的设定时间段内的目标用户数据。

上述的设定时间段由实施例二中的预测参数量确定。也就是，可以根据训练等级预测模型时，使用的训练数据确定。

例如，训练等级预测模型时，使用了一个周期的前二分之一的数据量作为训练数据，则需要对待预测用户进行等级预测时，则需要获取待预测用户在当前周期的前二分之一的数据。

上述的目标用户数据可以包括但不限于：限于如下方面的指标：城市级别、服务平台生命周期价值相关、消费能力相关、价格敏感度相关(如，用户有券时完单量更多，无券时完单量更少)、出行频率和体验相关指标(比如单均应答时长、司机取消订单的占比等)、出行里程数等。

步骤S302，将所述目标用户数据输入上述的等级预测模型中进行计算，得到所述待预测用户在当前周期的下一周期的等级预测结果。

上述的步骤S302可以包括：将所述目标用户数据输入所述等级预测模型中进行计算，得到所述目标用户下一周期将被降低等级的第一概率；将所述第一概率与设定概率进行比较，得出所述待预测用户下一周期的预测等级，将所述第一概率及所述预测等级作为所述待预测用户的等级预测结果。

上述的步骤S302可以包括：将所述目标用户数据中的第一组目标用户数据输入第一等级预测模型中进行计算，得到第一等级预测结果，第一等级预测结果作为所述待预测用户的等级预测结果。

上述的步骤S302可以包括：将所述目标用户数据中的第二组目标用户数据输入第二等级预测模型中进行计算，得到第二等级预测结果，第二等级预测结果作为所述待预测用户的等级预测结果。

上述的步骤S302可以包括：将所述目标用户数据中的第一组目标用户数据输入第一等级预测模型中进行计算，得到第一等级预测结果；及，将所述目标用户数据中的第二组目标用户数据输入第二等级预测模型中进行计算，得到第二等级预测结果，所述第一组目标用户数据覆盖的时间长度小于所述第二组目标用户数据覆盖的时间长度，所述第一等级预测结果及第二等级预测结果作为所述待预测用户的等级预测结果。

使用不同时间长度用于预测可以分别达到不同的效果，使用时间较短的对应的数据量作为预测基数可以更早知道用户下个周期可能的等级，从而可以提前采取措施，使用时间较长的对应的数据量作为预测基数可以相对更准确地识别出用户下个周期可能的等级。具体可以根据需求选择合适的预测基数及对应的等级预测模型。

进一步地，也可以分别使用两个时间段对应的数据量作为预测基数，分别预测可以实现双重预测。从而在不同阶段可以采取不同的措施。

在步骤S301及步骤S302的基础上，还可以将上述的等级预测结果发送给相关人员对应的终端，以使相关人员能够了解到用户在下一周期的情况。上述的相关人员可以是用户本人、也可以是后台服务人员。还可以将上述的等级预测结果发送给相关数据存储设备，用于将上述的等级预测结果进行存储，方便管理对用户进行预测的数据。

在一些实施例中，等级预测方法在图4所示的流程的基础上，还可以还包括：将所述等级预测结果发送给所述待预测用户对应的用户终端。

上述的等级预测结果可能包括保持当前等级、升高等级、降低等级。进一步地，上述的等级预测结果还可以包括升高等级的概率、降低等级的概率以及保持当前等级的概率。

在一些实施例中，等级预测方法在图4所示的流程的基础上，还可以还包括：根据所述等级预测结果为所述待预测用户生成激励策略，所述激励策略包括抵用券、服务赠送中的至少一种；将所述激励策略发送给所述待预测用户对应的用户终端。

通过激励策略可以促使用户发送服务请求，从而可以提高用户在对应服务平台的活跃程度。

在一些实施例中，等级预测方法在图4所示的流程的基础上，还可以还包括：根据所述等级预测结果为所述待预测用户生成预测标签；将所述预测标签发送给用户标签数据库。

在需要使用时，可以从用户标签数据库获取各个用户的标签，从而可以根据标签为用户配置合适的激励策略，从而提高用户的活跃度。

另外，还可以根据用户标签数据库中各个用户的标签了解各个用户的当前情况，从而可以方便相关服务平台对用户数据的管理。

实施例四

基于同一申请构思，本申请实施例中还提供了与等级预测模型训练方法对应的等级预测模型训练装置，由于本申请实施例中的装置解决问题的原理与本申请实施例上述的等级预测模型训练方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

图5是示出本申请的一些实施例的等级预测模型训练装置的框图，该等级预测模型训练装置实现的功能对应上述方法执行的步骤。该装置可以理解为上述服务器，或服务器的处理器，也可以理解为独立于上述服务器或处理器之外的在服务器控制下实现本申请功能的组件，如图所示，等级预测模型训练装置可以包括：第一获取模块401、确定模块402及训练模块403，其中：

第一获取模块401，用于获取历史用户数据；

确定模块402，用于从所述历史用户数据中确定出训练数据，所述训练数据包括多个用户在周期内的周期起点至周期中间指定时间节点的用户数据；

训练模块403，用于将所述训练数据输入待训练模型中进行训练，得到等级预测模型，所述等级预测模型用于预测用户在当前周期的下一周期中的等级状态。

在一些可选的实施方式中，确定模块402，还用于：

在一些可选的实施方式中，待训练模型包括二分类模型，所述训练模块403，还用于：

判断所述损失误差是否小于设定值；

若是；则将当前的二分类模型作为等级预测模型。

在一些可选的实施方式中，二分类模型是Spark Mlib中的分类模块；训练模块403，还用于：

在一些可选的实施方式中，第一获取模块401，还用于：

在一些可选的实施方式中，第一设定数量与所述第二设定数量的比值在设定范围内。

上述模块可以经由有线连接或无线连接彼此连接或通信。有线连接可以包括金属线缆、光缆、混合线缆等，或其任意组合。无线连接可以包括通过LAN、WAN、蓝牙、ZigBee、或NFC等形式的连接，或其任意组合。两个或更多个模块可以组合为单个模块，并且任何一个模块可以分成两个或更多个单元。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

实施例五

基于同一申请构思，本申请实施例中还提供了与等级预测方法对应的等级预测装置，由于本申请实施例中的装置解决问题的原理与本申请实施例上述等级预测方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

图6是示出本申请的一些实施例的等级预测装置的框图，该等级预测装置实现的功能对应上述方法执行的步骤。该装置可以理解为上述服务器，或服务器的处理器，也可以理解为独立于上述服务器或处理器之外的在服务器控制下实现本申请功能的组件，如图所示，等级预测装置可以包括：第二获取模块501、计算模块502，其中：

第二获取模块501，用于获取待预测用户在当前周期的设定时间段内的目标用户数据；

计算模块502，用于将所述目标用户数据输入上述的等级预测模型中进行计算，得到所述待预测用户在当前周期的下一周期的等级预测结果。

在一些实施例中，所计算模块502，还用于：

在一些实施例中，所述装置还包括：

在一些实施例中，所述装置还包括：第二发送模块，用于：

将所述激励策略发送给所述待预测用户对应的用户终端。

在一些实施例中，所述装置还包括：第三发送模块，用于：

根据所述等级预测结果为所述待预测用户生成预测标签；

将所述预测标签发送给用户标签数据库。

此外，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的等级预测模型训练方法的步骤。

此外，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的等级预测方法的步骤。

本申请实施例所提供的等级预测模型训练方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行上述方法实施例中所述的等级预测模型训练方法的步骤，具体可参见上述方法实施例，在此不再赘述。

本申请实施例所提供的等级预测方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行上述方法实施例中所述的等级预测方法的步骤，具体可参见上述方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考方法实施例中的对应过程，本申请中不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种等级预测模型训练方法，其特征在于，包括：

获取历史用户数据；

2.如权利要求1所述的方法，其特征在于，所述从所述历史用户数据中确定出训练数据的步骤，包括：

3.如权利要求1所述的方法，其特征在于，所述待训练模型包括二分类模型，所述将所述训练数据输入待训练模型中进行训练，得到等级预测模型的步骤，包括：

判断所述损失误差是否小于设定值；

若是；则将当前的二分类模型作为等级预测模型。

4.如权利要求3所述的方法，其特征在于，所述二分类模型是Spark Mlib中的分类模块；所述将所述训练数据输入待训练模型中进行训练，得到等级预测模型的步骤，包括：

5.如权利要求1-4任意一项所述的方法，其特征在于，所述获取历史用户数据的步骤，包括：

从用户数据服务器中随机筛选出设定数量的用户的历史用户数据。

6.如权利要求1-4任意一项所述的方法，其特征在于，所述从所述历史用户数据中确定出训练数据的步骤，包括：

采用简单随机抽样方式从用户数据服务器中筛选出设定数量的用户的历史用户数据；或者，

7.如权利要求1-4任意一项所述的方法，其特征在于，所述从所述历史用户数据中确定出训练数据的步骤，包括：

8.如权利要求7所述的方法，其特征在于，所述第一设定数量与所述第二设定数量的比值在设定范围内。

9.一种等级预测方法，其特征在于，包括：

将所述目标用户数据输入权利要求1-8任意一项所述的等级预测模型中进行计算，得到所述待预测用户在当前周期的下一周期的等级预测结果。

10.如权利要求9所述的方法，其特征在于，所述将所述目标用户数据输入权利要求1-8任意一项所述的等级预测模型中进行计算，得到所述待预测用户在当前周期的下一周期的等级预测结果的步骤，包括：

11.如权利要求9所述的方法，其特征在于，所述将所述目标用户数据输入权利要求1-8任意一项所述的等级预测模型中进行计算，得到所述待预测用户在当前周期的下一周期的等级的步骤，包括：

12.如权利要求9-11任意一项所述的方法，其特征在于，所述方法还包括：

13.如权利要求9-11任意一项所述的方法，其特征在于，所述方法还包括：

将所述激励策略发送给所述待预测用户对应的用户终端。

14.如权利要求9-11任意一项所述的方法，其特征在于，所述方法还包括：

根据所述等级预测结果为所述待预测用户生成预测标签；

将所述预测标签发送给用户标签数据库。

15.一种等级预测模型训练装置，其特征在于，包括：

第一获取模块，用于获取历史用户数据；

16.如权利要求15所述的装置，其特征在于，所述确定模块，还用于：

17.如权利要求15所述的装置，其特征在于，所述待训练模型包括二分类模型，所述训练模块，还用于：

判断所述损失误差是否小于设定值；

若是；则将当前的二分类模型作为等级预测模型。

18.如权利要求17所述的装置，其特征在于，所述二分类模型是Spark Mlib中的分类模块；所述训练模块，还用于：

所述将所述训练数据输入待训练模型中进行训练，得到等级预测模型的步骤，包括：

19.如权利要求15-18任意一项所述的装置，其特征在于，所述第一获取模块，还用于：

20.如权利要求15-18任意一项所述的装置，其特征在于，所述第一获取模块，还用于：

21.如权利要求15-18任意一项所述的装置，其特征在于，所述第一获取模块，还用于：

从用户数据服务器中筛选出第一设定数量的第一类用户的历史用户数据，所述第一类用户为所述第一类用户的历史用户数据对应周期的下一周期将被降低等级的用户；

22.如权利要求21所述的装置，其特征在于，所述第一设定数量与所述第二设定数量的比值在设定范围内。

23.一种等级预测装置，其特征在于，包括：

计算模块，用于将所述目标用户数据输入权利要求1-8任意一项所述的等级预测模型中进行计算，得到所述待预测用户在当前周期的下一周期的等级预测结果。

24.如权利要求23所述的装置，其特征在于，所计算模块，还用于：

25.如权利要求23所述的装置，其特征在于，所计算模块，还用于：

26.如权利要求23-25任意一项所述的装置，其特征在于，所述装置还包括：

27.如权利要求23-25任意一项所述的装置，其特征在于，所述装置还包括：第二发送模块，用于：

将所述激励策略发送给所述待预测用户对应的用户终端。

28.如权利要求23-25任意一项所述的装置，其特征在于，所述装置还包括：第三发送模块，用于：

根据所述等级预测结果为所述待预测用户生成预测标签；

将所述预测标签发送给用户标签数据库。

29.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至14任一所述的方法的步骤。

30.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至14任一所述的方法的步骤。