CN107507036A

CN107507036A - 一种数据预测的方法及终端

Info

Publication number: CN107507036A
Application number: CN201710753174.9A
Authority: CN
Inventors: 黄程波
Original assignee: Shenzhen One Cheng Technology Co Ltd
Current assignee: Shenzhen One Cheng Technology Co Ltd
Priority date: 2017-08-28
Filing date: 2017-08-28
Publication date: 2017-12-22

Abstract

本发明实施例公开了一种数据预测方法及终端，其中方法包括：获取第一标识在应用中的第一日志文件；对所述第一日志文件进行解析，得到所述第一标识对应的第一操作参数；根据流失预测模型和所述第一操作参数对所述第一标识进行流失预测，所述流失预测模型是预先根据特征参数得到的，所述特征参数为对第二日志文件集合进行解析得到的，所述第二日志文件集合包括多个第二标识在应用中的第二日志文件，可以对可能流失的用户进行提前预测。

Description

一种数据预测的方法及终端

技术领域

本发明涉及电子技术领域，尤其涉及一种数据预测方法及终端。

背景技术

随着电子技术的不断发展，用户使用应用(例如游戏应用、社交应用、购物应用等)的频率也日渐频繁。而应用市场中，在创造新用户的难度远大于挽留老用户的情况下，采取各种运营策略挽留住可能流失的老用户，以提高用户留存率是各大厂商、开发商等的最主要做法。

目前，对于可能流失的老用户的认定有两种方式。第一种是认为所有的用户均为可能流失的老用户，第二种是粗略的认为一定时间内无登录，无消费的沉默用户为可能流失的用户。

然而，认为所有的老用户均为可能流失的用户时，采取对所有的用户进行挽留的方式往往没有针对性，且挽留效果也不明显。认为一定时间内无登录，无消费的沉默用户为可能流失的用户时，这种沉默用户往往已是真实流失的用户，再对该沉默用户进行挽留也于事无补。因此，如何针对可能流失的用户进行提前预测，以便于准确有效的对这部分用户采取合适的运营策略进行挽留，提高用户留存率，成为了一个亟待解决的问题。

发明内容

本发明实施例提供一种数据预测方法及终端，可以较为精确地对可能流失的用户进行提前预测。

第一方面，本发明实施例提供了一种数据预测方法，该方法包括：

获取第一标识在应用中的第一日志文件；

对所述第一日志文件进行解析，得到所述第一标识对应的第一操作参数，所述第一操作参数包括第一用户操作参数以及第一运行环境参数；

根据流失预测模型和所述第一操作参数对所述第一标识进行流失预测，所述流失预测模型是预先根据特征参数得到的，所述特征参数为对第二日志文件集合进行解析得到的，所述第二日志文件集合包括多个第二标识在应用中的第二日志文件。

第二方面，本发明实施例提供了一种终端，该终端包括：

第一获取单元，用于获取第一标识在应用中的第一日志文件；

第一解析单元，用于对所述第一日志文件进行解析，得到所述第一标识对应的第一操作参数，所述第一操作参数包括第一用户操作参数以及第一运行环境参数；

预测单元，用于根据流失预测模型和所述第一操作参数对所述第一标识进行流失预测，所述流失预测模型是预先根据特征参数得到的，所述特征参数为对第二日志文件集合进行解析得到的，所述第二日志文件集合包括多个第二标识在应用中的第二日志文件。

第三方面，本发明实施例提供了另一种终端，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储支持终端执行上述方法的应用程序代码，所述处理器被配置用于执行上述第一方面的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。

本发明实施例通过首先获取第一标识在应用中的第一日志文件，然后对该日志文件进行解析，得到该第一标识对应的第一操作参数，最后根据流失预测模型和该第一操作参数对第一标识进行流失预测，可以利用流失预测模型较为精确地对可能流失的用户进行提前预测，以便于采取合适的运营策略提高用户留存率。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种数据预测方法的示意流程图；

图2是本发明另一实施例提供的一种数据预测方法的示意流程图；

图3是本发明另一实施例提供的一种数据预测方法的情景示意图；

图4是本发明实施例提供的一种终端的示意性框图；

图5是本发明另一实施例提供的一种终端的示意性框图；

图6是本发明又一实施例提供的一种终端的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

具体实现中，本发明实施例中描述的终端包括但不限于诸如具有触摸敏感表面(例如，触摸屏显示器和/或触摸板)的移动电话、膝上型计算机或平板计算机之类的其它便携式设备。还应当理解的是，在某些实施例中，所述设备并非便携式通信设备，而是具有触摸敏感表面(例如，触摸屏显示器和/或触摸板)的台式计算机。

在接下来的讨论中，描述了包括显示器和触摸敏感表面的终端。然而，应当理解的是，终端可以包括诸如物理键盘、鼠标和/或控制杆的一个或多个其它物理用户接口设备。

终端支持各种应用程序，例如以下中的一个或多个：绘图应用程序、演示应用程序、文字处理应用程序、网站创建应用程序、盘刻录应用程序、电子表格应用程序、游戏应用程序、电话应用程序、视频会议应用程序、电子邮件应用程序、即时消息收发应用程序、锻炼支持应用程序、照片管理应用程序、数码相机应用程序、数字摄影机应用程序、web浏览应用程序、数字音乐播放器应用程序和/或数字视频播放器应用程序。

可以在终端上执行的各种应用程序可以使用诸如触摸敏感表面的至少一个公共物理用户接口设备。可以在应用程序之间和/或相应应用程序内调整和/或改变触摸敏感表面的一个或多个功能以及终端上显示的相应信息。这样，终端的公共物理架构(例如，触摸敏感表面)可以支持具有对用户而言直观且透明的用户界面的各种应用程序。

需要说明的是，本发明实施例的执行主体可以为各种类型的终端，例如可以是智能手机、平板电脑、可穿戴设备、计算机、个人数字助理(英文：Personal DigitalAssistant，缩写：PDA)、移动互联网设备(英文：Mobile Internet Device，缩写：MID)等可进行数据处理的终端。

请参见图1，是本发明实施例提供一种数据预测方法的示意流程图，如图1所示的数据预测方法可包括：

S101、获取第一标识在应用中的第一日志文件。

需要说明的是，该第一标识可以是需要进行流失预测的用户的标识，用于识别用户的身份。例如，该第一标识可以为用户在该应用中的账号、该用户在该应用中的头像、该用户的电话号码、该用户在注册该应用时使用的身份号码的任意一个或多个，本发明对此不作限制。

还需要说明的是，该第一日志文件可以是用于记录该第一标识在该应用中的操作事件的记录文件。其中，该第一日志文件中可以包括该第一标识的历史数据、出现过的系统故障、各类即时通讯消息等等，本发明实施例对此不作限制。

还需要说明的是，该应用可以为各种类型的应用。例如游戏应用、即时通讯类应用、购物应用、理财应用、学习工具类应用等等，本发明实施例对此不作任何限制。

具体实现中，终端可以首先确定需要进行流失预测的标识，然后将该流失预测的标识确定为第一标识。进一步的，该终端获取该第一标识在该应用中的第一日志文件。

其中，该终端也可以确定所有在该应用中的标识均为该第一标识。

其中，该第一标识的数量可以是一个，也可以是多个。

S102、对所述第一日志文件进行解析，得到所述第一标识对应的第一操作参数。

其中，所述第一操作参数包括第一用户操作参数以及第一运行环境参数。

需要说明的是，该第一用户操作参数可以是该第一标识对应的用户在该应用中的各种操作所对应的参数。例如，该用户在预设的时间周期内的登录天数、登录次数、总在线时长、付费次数、付费金额、关卡过关数、等级晋级数、过关耗费时长、用户活跃度等等。

还需要说明的是，该第一运行环境参数可以用于表示该第一标识在运行该应用时的运行环境。例如，运行该应用时，所使用的终端的操作系统、内存大小、终端型号、终端的屏幕参数(例如分辨率、显示屏大小等)等等，当然，上述第一运行参数只是举例，而非穷举，包含但不限于上述可选参数。

可选的，该终端可以按照时间周期对该第一日志文件进行解析，得到该第一标识对应的第一操作参数。

具体实现中，该第一日志文件中记录的数据可以为零散的数据，终端可以对该第一日志文件中的零散的数据，按照时间周期进行解析，得到该时间周期内该第一标识对应的第一操作参数。

其中，该时间周期的数量可以为一个，也可以为多个。在该时间周期为多个时，各个时间周期内的总时长可以相同，例如，该时间周期分别为T1、T2，该T1时间周期内可以包括5天的时长，该T2的时间周期内也可以包括5天的时长。

举例来说，该时间周期为T1、T2，终端可以分别提取该第一日志文件所记录的T1、T2时间周期内的数据，然后分别对各个时间周期内的数据进行解析，得到该第一标识在T1时间周期内的第一操作参数、该第一标识在T2时间周期内的第一操作参数。

举例来说，终端可以利用该第一日志文件构建出按照时间周期的第一用户操作参数。例如，终端可以用Aij1(t)表示某用户i在应用j上第t个时间周期内的登录天数，用Aij2(t)表示某用户i在应用j上第t个时间周期内的登录次数，{x(t)，t＝1，2，…}是一时间周期。同样的，该终端可以构造出一系列的第一用户操作参数Aij2(t)，Aij3(t)……Aijn(t)，这些第一用户操作参数可以分别表示为某个时间周期内的登录次数，在线时长，关卡过关数，等级晋级数，付费次数和付费金额等数据。

S103、根据流失预测模型和所述第一操作参数对所述第一标识进行流失预测。

其中，所述流失预测模型是预先根据特征参数得到的，所述特征参数为对第二日志文件集合进行解析得到的，所述第二日志文件集合包括多个第二标识在应用中的第二日志文件。

需要说明的是，该流失预测模型可以是预先根据多个第二标识在该应用中的日志文件组成的第二日志文件集合进行解析，得到该多个第二标识的特征参数，并利用该特征参数进行构建的模型。

其中，该多个第二标识可以为多个该应用的用户分别对应的标识。该多个第二标识中可以包括该第一标识，也可以不包括该第一标识，本发明实施例对此不作任何限制。

其中，该特征参数包括第二操作参数以及该应用的总体特征参数。

具体的，该终端可以首先选择出该多个第二标识，并提取该多个第二标识分别对应的第二日志文件，并将该多个第二标识的第二日志文件组成第二日志文件集合。该终端对该第二日志文件集合进行解析，得到该多个第二标识的特征参数。根据各个第二标识的特征参数，该终端还可以进一步对该多个第二标识进行分类，例如按照该特征参数中的第二用户操作参数，将该多个第二标识分类为正样本以及负样本。进一步的，该终端可以利用该正样本以及该负样本，以及该正样本和该负样本各自对应的特征参数，通过算法构建出流失预测模型。

其中，该算法可以为随机森林分类算法。终端可以将该正样本、该负样本，以及该正样本和该负样本各自对应的特征参数作为数据，输入到该随机森林分类算法中，该随机森林分类算法可以利用对数据进行训练并分类，以便于构建的流失预测模型进行预测时的准确性较高。

具体实现中，该终端可以在构建了该流失预测模型之后，利用该流失预测模型对该第一标识进行预测。

举例来说，该终端可以得到该第一标识按照时间周期所对应的第一操作参数中，可以包括该第一用户操作参数，以及第一运行环境参数。

其中，该第一用户操作参数中，包括在T1时间周期内的登录天数为5天，T2时间周期内的登录天数为3天，T1时间周期内的总在线时长为20h，T2时间周期内的总在线时长为15h，T1时间周期内的关卡过关数为4，T2时间周期内的关卡过关数为3。

其中，该第一运行环境参数中，可以包括在T1时间周期、T2时间周期内，该第一标识运行该应用的终端均为xx型号手机、该手机的屏幕大小为4.0英寸等。

在一个实施例中，该终端可以利用模型中的正样本和负样本对该第一标识的第一操作参数进行匹配，得到该第一标识是属于正样本，还是属于负样本。举例来说，该流失预测模型可以根据该流失预测模型中的正样本预测该第一标识为正样本，还是负样本，然后，该流失预测模型还可以根据该流失预测模型中的正样本预测该第一标识为正样本，还是负样本，然后对流失预测模型中的正样本预测的结果以及流失预测模型中的负样本预测的结果进行加权，得到该第一标识属于正样本还是负样本。

举例来说，该终端可以根据该流失预测模型中的正样本，以及该第一标识的第一操作参数进行预测，得到该第一标识为正样本的概率为80％。然后，该终端可以根据该流失预测模型中的负样本，以及该第一标识的第一操作参数进行预测，得到该第一标识为正样本的概率为70％，然后按照公式80％*0.5+70％*0.5＝75％，得到该第一标识为正样本的概率为75％，也就是说，该第一标识的流失率可以为75％。

在一些可行的实施方式中，该终端还可以利用该流失预测模型中的特征参数，将该第一标识的第一操作参数与该特征参数进行匹配，得到匹配得分，然后可以根据该匹配得分计算出流失率。

可以看出，在本发明实施例中，终端可以首先获取第一标识在应用中的第一日志文件，然后对该第一日志文件进行解析，得到该第一标识对应的第一操作参数，最后根据流失预测模型和该第一操作参数对第一标识进行流失预测，可以利用流失预测模型对可能流失的用户进行提前预测，以便于采取合适的运营策略提高用户留存率。

请参阅图2，是本发明另一实施例提高的一种数据预测方法的示意流程图。如图2所示数据预测方法可包括：

S201、获取多个第二标识在所述应用中各自对应的第二日志文件，并组成第二日志文件集合。

需要说明的是，该第二日志文件可以是指该第二标识所对应的日志文件。各个第二标识均可以唯一对应一份日志文件，该终端可以首先确定该多个第二标识，然后获取该多个第二标识在该应用中所唯一对应的第二日志文件，并将该第二日志文件组成该第二日志文件集合。

其中，该终端可以按照时间周期来确定该多个第二标识。举例来说，该终端可以取T1周期内，活跃程度较高(例如活跃程度在60％及其以上)的多个标识为该多个第二标识。

S202、对所述第二日志文件集合进行解析，得到所述多个第二标识的特征参数。

可选的，该特征参数包括第二操作参数以及该应用的总体特征参数；所述第二操作参数，包括第二用户操作参数以及第二运行环境参数；所述第二用户操作参数，包括：用户活跃度；其中，所述应用的总体特征参数，是对所述第二日志文件集合进行总体解析得到的；其中，所述第二操作参数，是对所述第二日志文件集合中的各个第二日志文件分别解析而得到的。

需要说明的是，该特征参数可以是该终端对该第二日志文件集合进行解析后所得到的参数。其中，该特征参数可以包括第二操作参数以及该应用的总体特征参数。

还需要说明的是，该第二用户操作参数可以是第二标识各自对应的用户在该应用中的各种操作所对应的参数。

其中，该第二操作参数，可以对该第二日志文件集合中的各个第二日志文件分别解析而得到。也就是说，该第二操作参数以第二标识的不同而不同，各个第二标识所对应的第二操作参数的具体值可以各不相同。

可选的，所述对第二日志文件集合中的各个第二日志文件分别解析，包括：按照时间周期对第二日志文件集合中的各个第二日志文件分别解析，所述时间周期包括：第一时间周期以及第二时间周期。

具体实现中，该终端可以按照该第一时间周期解析出第二日志文件各自在该第一时间周期所对应的第二操作参数，以及在该第二时间周期所对应的第二操作参数。

其中，该第一时间周期以及该第二时间周期，可以用于表示各不相同的两个时间周期。例如，该第一时间周期可以为T1周期，该第二时间周期可以为T2时间周期，T1周期不同于T2周期。

其中，该第二操作参数具体可以是第二标识所对应的用户在预设的时间周期内的登录天数、登录次数、总在线时长、付费次数、付费金额、关卡过关数、等级晋级数、过关耗费时长、用户活跃度等等。

其中，该用户活跃度可以根据该登录天数、登录天数、总在线时长等参数进行计算后得到。举例来说，该终端如果获取到其中一个第二标识在T1周期(5天)内的登录天数为4天、登录次数为10次、总在线时长15h，便可以根据公式4*0.3+10*0.3+15*0.4＝10.2得到该其中一个第二标识在T1周期内的用户活跃度为10.2。

在一些可行的实施方式中，该用户活跃度还可以通过付费次数，付费金额，关卡过关数、等级晋级数、过关耗费时长等参数来进行计算得到，本发明对此不作限制。

还需要说明的是，该第二运行环境参数可以用于表示各个第二标识在运行该应用时的运行环境。例如，运行该应用时，所使用的终端的操作系统、内存大小、终端型号、终端的屏幕参数(例如分辨率、显示屏大小等)等等，当然，上述第二运行参数只是举例，而非穷举，包含但不限于上述可选参数。

其中，该应用的总体特征参数，可以是对该第二日志文件集合进行总体解析得到的。也就是说，各个第二标识所对应的总体特征参数可以均相同，该总体特征参数的具体值可以不因第二标识的不同而改变。

还需要说明的是，该总体特征参数可以是关卡难度，等级难度和应用难度等参数。其中，关卡难度即关卡失败率,具体的计算方式可以是所有第二标识所对应的用户在此关卡中的失败次数/此关卡的总启动次数；等级难度即等级失败率,具体的计算方式可以是所有第二标识所对应的用户在此等级中的失败次数/此等级的总启动次数；应用难度即该应用的整体难度，具体计算方式可以为关卡难度的平均值和等级难度的平均值之和。

具体的，该终端可以对该第二日志文件集合进行总体解析，得到该应用的总体特征参数。并且，该终端可以对该第二日志文件集合中的各个第二日志文件按照时间周期进行分别解析，得到该多个第二标识在该时间周期内的各自对应的第二操作参数。进一步，该终端可以将该第二操作参数以及该应用的总体特征参数组成该多个第二标识的特征参数。

S203、从所述多个第二标识中选取满足预设条件的第二标识组成训练集合，并将选取的所述第二标识的特征参数加入到所述训练集合中。

可选的，所述预设条件包括：第一预设条件以及第二预设条件。

在一些可行的实施方式中，该终端可以按照目标时间周期内用户的活跃程度来选取第二标识组成训练集合。

可选的，所述从所述多个第二标识中选取满足预设条件的第二标识组成训练集合，并将选取的所述第二标识的特征参数加入到所述训练集合中，可以包括：若所述多个第二标识中，存在所述第一时间周期的用户活跃度达到预设值、且所述第二时间周期的用户活跃度未达到预设值的第三标识，则确定所述第三标识满足第一预设条件；若所述多个第二标识中，存在所述第一时间周期的用户活跃度达到预设值、且在第二时间周期的用户活跃度也达到预设值的第四标识，则确定所述第三标识满足第二预设条件；选取所述第三标识以及所述第四标识组成训练集合，并将所述第三标识的特征参数以及所述第四标识的特征参数加入到所述训练集合中。

需要说明的是，该预设值可以是终端预先设置的任意值，例如50％、60％、70％等，本发明实施例对此不作任何限制。

还需要说明的是，该第一预设条件，可以是指在所述第一时间周期的用户活跃度达到预设值、且在第二时间周期的用户活跃度未达到预设值。

还需要说明的是，该第二预设条件，可以是指在所述第一时间周期的用户活跃度达到预设值、且在第二时间周期的用户活跃度也达到预设值。

具体实现中，该终端可以按照第一时间周期，选择在该第一时间周期内的用户活跃度达到预设值的第二标识。进一步的，该终端可以按照第二时间周期对上述达到预设值的第二标识做分类，具体的，该终端可以将在该第一时间周期的用户活跃度达到预设值、且该第二时间周期的用户活跃度未达到预设值的第二标识作为第三标识，并可以将该第三标识组成正样本；该终端可以将在该第一时间周期的用户活跃度达到预设值、且该第二时间周期的用户活跃度也达到预设值的第二标识作为第四标识，并可以将该第四标识组成负样本。

需要说明的是，当用户活跃程度达到预设值时，终端便可以认为该第二标识所对应的用户的活跃程度高，当用户活跃程度未达到预设值时，终端便可以认为该第二标识所对应的用户的活跃程度低，且可能流失。

其中，该正样本可以表示在第一时间周期内活跃、且在第二时间周期内可能流失的第二标识，即流失率大的样本。该负样本可以表示在第一时间周期内活跃、且在第二时间周期内也活跃的第二标识，即流失率小的样本。

在一个实施例中，该终端可以将该正样本以及负样本共同组成训练集合，并将该正样本中的第三标识的特征参数以及该负样本中的第四标识的特征参数加入到该训练集合中。

举例来说，如图3所示，为本发明另一实施例提供的一种数据预测方法的情景示意图。从图3可以看出终端在构建正负样本的构建过程。具体的，在301中，该终端取该第一时间周期为T1周期，该第二时间周期为T2周期。在304中，该终端可以取T1周期内用户活跃程度达到预设值的第二标识组成训练集合S1，S1训练集合在T1周期内用户活跃程度高且在T2内用户活跃程度低的第二标识为正样本，S1训练集合在T1周期内用户活跃程度高且在T2内用户活跃程度也高的第二标识为负样本。然后，该终端可以结合构建的第二操作参数和应用的总体特征作为训练集合S1的正负样本的特征集合。

S204、利用所述训练集合构建流失预测模型。

具体实现中，该终端可以将训练集合作为数据，输入到随机森林分类算法中，并通过该随机森林分类算法训练出该流失预测模型。

S205、利用验证集合对所述流失预测模型进行验证。

可选的，所述时间周期，还包括：第三时间周期。

可选的，所述验证集合包括所述第二时间周期的用户活跃度达到预设值、且所述第三时间周期的用户活跃度未达到预设值的标识，以及所述第二时间周期的用户活跃度达到预设值、且所述第三时间周期的用户活跃度达到预设值的标识。

具体实现中，该终端可以按照第二时间周期，选择在该第二时间周期内的用户活跃度达到预设值的标识。进一步的，该终端可以按照第三时间周期对上述在第二时间周期内达到预设值的标识做分类，具体的，该终端可以将在该第二时间周期的用户活跃度达到预设值、且该第三时间周期的用户活跃度未达到预设值的标识组成验证正样本；该终端可以将在该第二时间周期的用户活跃度达到预设值、且该第三时间周期的用户活跃度也达到预设值的标识组成验证负样本。

举例来说，如图3所示，在302中，该终端取该第二时间周期为T2周期，该第三时间周期为T3周期。在305中，该终端可以取T2周期内用户活跃程度达到预设值的标识组成验证集合S2，S2验证集合在T2周期内用户活跃程度高且在T3内用户活跃程度低的标识为验证正样本，S2验证集合在T2周期内用户活跃程度高且在T3内用户活跃程度也高的标识为验证负样本。然后，该终端可以结合构建的验证正负样本各自对应的第二操作参数和应用的总体特征作为验证集合S2的正负样本的特征集合。

其中，该验证集合为终端预先得到该验证集合S2中的标识的真实流失情况的集合。

需要说明的是，该终端利用该验证集合对该流失预测模型进行验证的具体方式，可以是终端根据验证集合中的真实流失情况，和利用流失预测模型对该验证集合进行提前预测的流失情况作对比评估，以便于衡量该流失预测模型的表现优劣。

其中，评估指标可以为正样本的精度，召回率和总体准确率。

其中，正样本的精度可以为流失预测模型预测为验证正样本的标识数/(验证正样本预测为正样本的标识数+验证负样本预测为正样本的标识数)。

其中，召回率可以为验证正样本预测为正样本的标识数/(验证正样本预测为正样本的标识数+验证正样本预测为负样本的标识数)。

其中，准确率可以为(验证正样本预测为正样本的标识数+验证负样本预测为负样本的标识数)/验证正负样本标识数。

举例来说，如图3所示，在306中，该终端可以利用该训练集合S1来构建该流失预测模型，然后利用该验证集合S2验证该流失预测模型。具体的，该终端可以首先通过流失预测模型中的验证正样本来预测验证集合S2中为正样本的标识，例如该标识数为10个，其中，该验证正样本中的标识数例如为20个。然后通过流失预测模型中的验证负样本来预测验证集合S2中为正样本的标识，例如该标识数为12个，进一步的，该终端可以计算出正样本的精度为验证正样本的标识数20/(验证正样本预测为正样本的标识数10+验证负样本预测为正样本的标识数12)＝90.9％。

在一个实施例中，该终端可以通过流失预测模型中的验证正样本来预测验证集合S2中为正样本的标识，例如该标识数为10个。然后通过流失预测模型中的验证正样本来预测验证集合S2中为负样本的标识，例如该标识数为8个，进一步的，该终端可以计算出召回率为验证正样本预测为正样本的标识数10/(验证正样本预测为正样本的标识数10+验证正样本预测为负样本的标识数8)＝55.55％。

在一个实施例中，该终端可以通过流失预测模型中的验证正样本来预测验证集合S2中为正样本的标识，例如该标识数为10个。然后通过流失预测模型中的验证负样本来预测验证集合S2中为负样本的标识，例如该标识数为8个。其中，该验证正样本的标识数例如为20个，该验证负样本的标识数例如为10个。进一步的，该终端可以计算出准确率可以为(验证正样本预测为正样本的标识数10+验证负样本预测为负样本的标识数8)/验证正负样本标识数30＝60％。

S206、若验证的结果中表示所述流失率的精度在预设范围内，则保存所述流失预测模型。

需要说明的是，该流失率的精度可以是按照正样本的精度、召回率和总体准确率进行综合计算得到的精度。具体的，该终端可以对该正样本的精度、召回率以及总体准确率分别设置相应的权重。

举例来说，如图3所示，终端可以设置该正样本的精度的权重为0.5，该召回率的权重为0.2，该总体准确率的权重为0.3。那么，该流失率的精度可以为90.9％*0.5+55.55％*0.2+60％*0.3＝74.56％。

在一个实施例中，该终端可以设置该流失率的精度的预设范围为60％至100％。那么，该流失率的精度74.56％在该预设范围内，该终端就可以保存该流失预测模型。

在一些可行的实施方式中，该终端还可以将该正样本的精度、召回率和总体准确率中的任一个参数作为该流失率的精度，本发明实施例对此不作任何限制。

在一些可行的实施方式中，如果该终端确定该流失率的精度不在该预设范围内，就可以重新构建该流失预测模型，或者对该流失预测模型进行校准等处理，本发明实施例对此不作限制。

S207、获取第一标识在应用中的第一日志文件。

S208、用于对所述第一日志文件进行解析，得到所述第一标识对应的第一操作参数。

S209、根据流失预测模型和所述第一操作参数对所述第一标识进行流失预测。

举例来说，如图3所示，在306中，该终端可以利用保存的该流失预测模型来预测未来T4周期，该第一标识是否会流失。具体的，该终端可以将该第一标识以及该第一标识的第一操作参数输入到该保存的流失预测模型中，然后该流失预测模型可以根据该第一操作参数，以及该流失预测模型内的应用的总体特征参数、训练集合、验证集合等共同对该第一标识进行流失预测，得出该第一标识的流失率、流失情况评分、留存率等预测的结果。

需要说明的是，本发明实施例中的S207步骤至S209步骤可根据上述方法实施例中的S101步骤至S103步骤实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

可以看出，在本发明实施例中，该终端可以通过训练集合构建流失预测模型，然后通过验证集合来对该流失预测模型进行验证，然后可以获取第一标识在应用中的第一日志文件，对该第一日志文件进行解析，得到该第一标识对应的第一操作参数，最后根据流失预测模型和该第一操作参数对第一标识进行流失预测，可以通过训练集合和验证集合得到该流失预测模型，并且利用流失预测模型对可能流失的用户进行提前预测，以便于采取合适的运营策略提高用户留存率。

请参见图4，是本发明实施例提供的一种终端的示意性框图。如图4所示的终端，可以包括：

第一获取单元401，用于获取第一标识在应用中的第一日志文件。

第一解析单元402，用于对所述第一日志文件进行解析，得到所述第一标识对应的第一操作参数。

预测单元403，用于根据流失预测模型和所述第一操作参数对所述第一标识进行流失预测。

可以看出，在本发明实施例中，可以首先获取第一标识在应用中的第一日志文件，然后对该第一日志文件进行解析，得到该第一标识对应的第一操作参数，最后根据流失预测模型和该第一操作参数对第一标识进行流失预测，可以利用流失预测模型对可能流失的用户进行提前预测，以便于采取合适的运营策略提高用户留存率。

请参见图5，是本发明另一实施例所提供的终端的示意性框图。如图5所示的终端，可包括：

第一获取单元501，用于获取第一标识在应用中的第一日志文件。

第一解析单元502，用于对该第一日志文件进行解析，得到该第一标识对应的第一操作参数。

其中，该第一操作参数包括第一用户操作参数以及第一运行环境参数。

预测单元503，用于根据流失预测模型和该第一操作参数对该第一标识进行流失预测。

其中，该流失预测模型是预先根据特征参数得到的，该特征参数为对第二日志文件集合进行解析得到的，该第二日志文件集合包括多个第二标识在应用中的第二日志文件。

可选的，该终端还包括：第二获取单元504，用于获取多个第二标识在该应用中各自对应的第二日志文件，并组成第二日志文件集合。

第二解析单元505，用于对该第二日志文件集合进行解析，得到该多个第二标识的特征参数。

选取单元506，用于从该多个第二标识中选取满足预设条件的第二标识组成训练集合，并将选取的该第二标识的特征参数加入到该训练集合中。

构建单元507，用于利用该训练集合构建流失预测模型。

可选的，该特征参数包括第二操作参数以及该应用的总体特征参数；该第二操作参数，包括第二用户操作参数以及第二运行环境参数；该第二用户操作参数，包括：用户活跃度。

其中，该应用的总体特征参数，是该第二解析单元505对该第二日志文件集合进行总体解析得到的。

其中，该第二操作参数，是该第二解析单元505对该第二日志文件集合中的各个第二日志文件分别解析而得到的。

可选的，该第二解析单元505，具体用于按照时间周期对第二日志文件集合中的各个第二日志文件分别解析，该时间周期包括：第一时间周期以及第二时间周期。

可选的，该预设条件包括：第一预设条件以及第二预设条件。

可选的，该选取单元506，具体用于若该多个第二标识中，存在该第一时间周期的用户活跃度达到预设值、且该第二时间周期的用户活跃度未达到预设值的第三标识，则确定该第三标识满足第一预设条件；若该多个第二标识中，存在该第一时间周期的用户活跃度达到预设值、且在第二时间周期的用户活跃度也达到预设值的第四标识，则确定该第三标识满足第二预设条件；选取该第三标识以及该第四标识组成训练集合，并将该第三标识的特征参数以及该第四标识的特征参数加入到该训练集合中。

可选的，该时间周期，还包括：第三时间周期。

可选的，该终端还包括：验证单元508，用于利用验证集合对该流失预测模型进行验证。

其中，该验证集合包括该第二时间周期的用户活跃度达到预设值、且该第三时间周期的用户活跃度未达到预设值的标识，以及该第二时间周期的用户活跃度达到预设值、且该第三时间周期的用户活跃度达到预设值的标识。

保存单元509，用于若验证的结果中表示该流失率的精度在预设范围内，则保存该流失预设模型。

可以看出，在本发明实施例中，可以通过训练集合构建流失预测模型，然后通过验证集合来对该流失预测模型进行验证，然后可以获取第一标识在应用中的第一日志文件，对该第一日志文件进行解析，得到该第一标识对应的第一操作参数，最后根据流失预测模型和该第一操作参数对第一标识进行流失预测，可以通过训练集合和验证集合得到该流失预测模型，并且利用流失预测模型对可能流失的用户进行提前预测，以便于采取合适的运营策略提高用户留存率。

请参阅图6，是本发明又一实施例提供的一种终端的示意性框图。本发明实施例所描述的终端，包括：至少一个输入设备1000；至少一个处理器2000，例如CPU；至少一个存储器3000；至少一个输出设备4000，上述输入设备1000、处理器2000、存储器3000和输出设备4000通过总线连接。

应当理解，在本发明实施例中，上述输入设备1000可以为向终端输入信号的设备，可以包括触控面板，该触控面板中可以包括触摸屏和触控屏等。上述输出设备4000可以包括显示器(LCD等)。

上述处理器2000可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

上述存储器3000可以包括只读存储器和随机存取存储器，并向处理器2000提供指令和数据。存储器3000的一部分还可以包括非易失性随机存取存储器。例如，存储器3000还可以存储设备类型的信息。

具体的，处理器2000，用于获取第一标识在应用中的第一日志文件；对该第一日志文件进行解析，得到该第一标识对应的第一操作参数，其中，该第一操作参数包括第一用户操作参数以及第一运行环境参数；根据流失预测模型和该第一操作参数对该第一标识进行流失预测。

可选的，该处理器2000，还用于获取多个第二标识在该应用中各自对应的第二日志文件，并组成第二日志文件集合；对该第二日志文件集合进行解析，得到该多个第二标识的特征参数；从该多个第二标识中选取满足预设条件的第二标识组成训练集合，并将选取的该第二标识的特征参数加入到该训练集合中；利用该训练集合构建流失预测模型。

其中，该应用的总体特征参数，是该处理器2000对该第二日志文件集合进行总体解析得到的。

其中，该第二操作参数，是该处理器2000对该第二日志文件集合中的各个第二日志文件分别解析而得到的。

可选的，该处理器2000，具体用于按照时间周期对第二日志文件集合中的各个第二日志文件分别解析，该时间周期包括：第一时间周期以及第二时间周期。

可选的，该处理器2000，具体用于若该多个第二标识中，存在该第一时间周期的用户活跃度达到预设值、且该第二时间周期的用户活跃度未达到预设值的第三标识，则确定该第三标识满足第一预设条件；若该多个第二标识中，存在该第一时间周期的用户活跃度达到预设值、且在第二时间周期的用户活跃度也达到预设值的第四标识，则确定该第三标识满足第二预设条件；选取该第三标识以及该第四标识组成训练集合，并将该第三标识的特征参数以及该第四标识的特征参数加入到该训练集合中。

可选的，该时间周期，还包括：第三时间周期。

可选的，该处理器2000，还用于利用验证集合对该流失预测模型进行验证，若验证的结果中表示该流失率的精度在预设范围内，则保存该流失预设模型。

在本发明的另一实施例中提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时，可以实现：获取第一标识在应用中的第一日志文件；对所述第一日志文件进行解析，得到所述第一标识对应的第一操作参数；根据流失预测模型和所述第一操作参数对所述第一标识进行流失预测，所述流失预测模型是预先根据特征参数得到的，所述特征参数为对第二日志文件集合进行解析得到的，所述第二日志文件集合包括多个第二标识在应用中的第二日志文件。

需要说明的是，该计算机可读存储介质被处理器执行的具体过程可参见第一实施例和第二实施例中所描述的方法，在此不再赘述。

所述计算机可读存储介质可以是前述任一实施例所述的终端的内部存储单元，例如终端的硬盘或内存。所述计算机可读存储介质也可以是所述终端的外部存储设备，例如所述终端上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)等。进一步地，所述计算机可读存储介质还可以既包括所述终端的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述终端所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的终端和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的终端和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种数据预测方法，其特征在于，包括：

获取第一标识在应用中的第一日志文件；

对所述第一日志文件进行解析，得到所述第一标识对应的第一操作参数；

2.如权利要求1所述的方法，其特征在于，所述根据流失预测模型和所述第一操作参数对所述第一标识进行流失预测之前，所述方法还包括：

获取多个第二标识在所述应用中各自对应的第二日志文件，并组成第二日志文件集合；

对所述第二日志文件集合进行解析，得到所述多个第二标识的特征参数；

从所述多个第二标识中选取满足预设条件的第二标识组成训练集合，并将选取的所述第二标识的特征参数加入到所述训练集合中；

利用所述训练集合构建流失预测模型。

3.如权利要求2所述的方法，其特征在于，所述特征参数包括第二操作参数以及所述应用的总体特征参数；所述第二操作参数，包括第二用户操作参数以及第二运行环境参数；所述第二用户操作参数，包括：用户活跃度；

其中，所述应用的总体特征参数，是对所述第二日志文件集合进行总体解析得到的；

其中，所述第二操作参数，是对所述第二日志文件集合中的各个第二日志文件分别解析而得到的。

4.如权利要求3所述的方法，其特征在于，所述对第二日志文件集合中的各个第二日志文件分别解析，包括：

按照时间周期对第二日志文件集合中的各个第二日志文件分别解析，所述时间周期包括：第一时间周期以及第二时间周期；

所述预设条件包括：第一预设条件以及第二预设条件；所述从所述多个第二标识中选取满足预设条件的第二标识组成训练集合，并将选取的所述第二标识的特征参数加入到所述训练集合中，包括：

若所述多个第二标识中，存在所述第一时间周期的用户活跃度达到预设值、且所述第二时间周期的用户活跃度未达到预设值的第三标识，则确定所述第三标识满足第一预设条件；

若所述多个第二标识中，存在所述第一时间周期的用户活跃度达到预设值、且在第二时间周期的用户活跃度也达到预设值的第四标识，则确定所述第三标识满足第二预设条件；

选取所述第三标识以及所述第四标识组成训练集合，并将所述第三标识的特征参数以及所述第四标识的特征参数加入到所述训练集合中。

5.如权利要求4所述的方法，其特征在于，所述时间周期，还包括：第三时间周期；

所述利用所述训练集合构建流失预测模型之后，还包括：

利用验证集合对所述流失预测模型进行验证，所述验证集合包括所述第二时间周期的用户活跃度达到预设值、且所述第三时间周期的用户活跃度未达到预设值的标识，以及所述第二时间周期的用户活跃度达到预设值、且所述第三时间周期的用户活跃度达到预设值的标识；

若验证的结果中表示所述流失率的精度在预设范围内，则保存所述流失预设模型。

6.一种终端，其特征在于，包括：

7.如权利要求6所述的终端，其特征在于，所述终端还包括：

第二获取单元，用于获取多个第二标识在所述应用中各自对应的第二日志文件，并组成第二日志文件集合；

第二解析单元，用于对所述第二日志文件集合进行解析，得到所述多个第二标识的特征参数；

选取单元，用于从所述多个第二标识中选取满足预设条件的第二标识组成训练集合，并将选取的所述第二标识的特征参数加入到所述训练集合中；

构建单元，用于利用所述训练集合构建流失预测模型。

8.如权利要求7所述的终端，其特征在于，所述特征参数包括第二操作参数以及所述应用的总体特征参数；所述第二操作参数，包括第二用户操作参数以及第二运行环境参数；所述第二用户操作参数，包括：用户活跃度；

其中，所述应用的总体特征参数，是所述第二解析单元对所述第二日志文件集合进行总体解析得到的；

其中，所述第二操作参数，是所述第二解析单元对所述第二日志文件集合中的各个第二日志文件分别解析而得到的。

9.一种终端，其特征在于，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储应用程序代码，所述处理器被配置用于调用所述程序代码，执行如权利要求1-5任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-5任一项所述的方法。