CN109299265B

CN109299265B - 潜在回流用户筛选方法、装置以及电子设备

Info

Publication number: CN109299265B
Application number: CN201811198444.5A
Authority: CN
Inventors: 曹木水; 仇贲
Original assignee: Guangzhou Huya Information Technology Co Ltd
Current assignee: Guangzhou Huya Information Technology Co Ltd
Priority date: 2018-10-15
Filing date: 2018-10-15
Publication date: 2020-08-21
Anticipated expiration: 2038-10-15
Also published as: CN109299265A

Abstract

本发明提供一种潜在回流用户筛选方法，包括步骤：获取待筛选的沉默用户的历史运营数据，其中所述沉默用户为指定时间内未活跃的用户；从所述沉默用户的历史运营数据中提取特定指标对应的特征信息；将所述特征信息输入预先训练的分类器模型对沉默用户进行分类识别，其中所述分类器模型为对所述特定指标参数进行分类的模型；根据所述分类器模型输出的沉默用户分类结果，筛选出潜在回流用户。本发明还提供一种对应潜在回流用户筛选方法的装置和电子设备。本发明筛选得到的潜在回流用户与历史运营数据中高度匹配，可预期潜在回流用户具有高质量、再次活跃可能性高、用户粘性强的特点，能带来流量，为后续营销推广降低成本，提升收益。

Description

潜在回流用户筛选方法、装置以及电子设备

技术领域

本发明涉及互联网大数据领域，具体而言，本发明涉及一种潜在回流用户筛选方法、装置以及电子设备。

背景技术

在互联网领域，流量是非常重要的指标，直接决定营收、利润、投资等。目前获取新的用户流量越来越难。经过近几年的互联网高速发展，几乎所有的用户都已经是某些互联网产品的用户，此时再直接获取新用户流量的边际成本急剧上升，边际效用明显降低。

现有技术中一般是将不活跃或者一段时间内没有使用产品、没有登陆的用户定义为沉默用户。针对这种沉默用户，往往需要进行用户流量的再挖掘，通常的做法是选择大部分的用户进行回流推广，通过投放广告、推送信息或者发放优惠等等营销推广方式，对沉默用户进行唤醒。

但是，对大部分沉默用户推广营销的推送成本非常高，而沉默用户中含有很大一部分质量较低的沉默用户，这部分沉默用户的粘性不高，即使唤醒了也会很容易再次沉默转化为沉默用户；现有方法也无法将这部分低质量的沉默用户剔除，难以获得高质量的沉默用户来执行回流推广。

发明内容

本发明的目的旨在至少能解决上述的技术缺陷之一，特别是无法将这部分低质量的沉默用户剔除，难以获得高质量的沉默用户来执行回流推广的技术缺陷。

本发明提供一种潜在回流用户筛选方法，包括如下步骤：

获取待筛选的沉默用户的历史运营数据，其中所述沉默用户为指定时间内未活跃的用户；

从所述沉默用户的历史运营数据中提取特定指标对应的特征信息；

将所述特征信息输入预先训练的分类器模型对沉默用户进行分类识别，其中所述分类器模型为对所述特定指标参数进行分类的模型；

根据所述分类器模型输出的沉默用户分类结果，筛选出潜在回流用户。

在其中一个实施例中，所述特定指标为自然回流用户的各项指标相似的指标。

在其中一个实施例中，将所述特征信息输入预先训练的分类器模型对沉默用户进行分类识别的步骤之前，还包括：

获取设定时间段内自然回流的沉默用户和未自然回流的沉默用户；

利用所述自然回流的沉默用户和未自然回流的沉默用户的特定指标对应的特征信息为样本构建并训练得到分类器模型。

在其中一个实施例中，其特征在于，利用所述自然回流的沉默用户和未自然回流的沉默用户的特定指标对应的特征信息为样本构建并训练得到分类器模型的步骤包括：

从自然回流的沉默用户和未自然回流的沉默用户的历史运营数据中提取特定指标对应的特征信息；

分别提取部分自然回流的沉默用户和部分未自然回流的沉默用户对应的特定指标对应的特征信息，构建训练集合；

分别提取剩余自然回流的沉默用户和剩余未自然回流的沉默用户对应的特定指标对应的特征信息，构建测试集合；

采用多种分类方法并根据所述训练集合构建待测分类器模型；

将测试集合分别输入各个待测分类器模型，对各个待测分类器模型的验证结果排序，根据所述排序选取若干待测分类器模型作为分类器模型。

在其中一个实施例中，所述待测分类器模型包括采用支持向量机、随机森林、逻辑回归、决策树、人工神经网络的分类方法构建的模型。

在其中一个实施例中，还包括：

分别对自然回流用户与未自然回流用户的特征信息标识标签；

获取准确率达到设定阈值的标签传播模型，对所述标签和输入的特征信息进行聚类分析，获得聚类结果；

分类器模型输出的沉默用户分类结果与所述聚类结果合并，筛选得到潜在回流用户。

在其中一个实施例中，获取准确率达到设定阈值的标签传播模型的步骤，包括：

分别将自然回流用户与未回流用户的特征的平均值作为有标签的第一样本和第二样本，构建待测标签传播模型；

利用待测的标签传播模型，对未标签的沉默用户的样本进行聚类分析，计算准确率，直至准确率达到设定阈值，得到标签传播模型。

在其中一个实施例中，所述从所述沉默用户的历史运营数据中提取特定指标对应的特征信息的步骤，包括：

从所述沉默用户的历史运营数据中提取行为数据；

对所述行为数据通过衰减量化、回归量化或正态分布标准化，转化为特征信息。

在其中一个实施例中，所述行为数据包括指定时间内的在线时长、活跃天数、多媒体播放时长、播放天数、浏览用户数量、发表数量、发表天数、用户等级、活跃频次和最后活跃时间、最后播放时间。

在其中一种实施例中，从所述沉默用户的历史运营数据中提取特定指标对应的特征信息的步骤之前，所述潜在回流用户筛选方法还包括：

根据所述历史运营数据，提取沉默用户的初步特征信息；

筛选共线性的初步特征信息，并生成主成分特征信息；

分别获取主成分特征信息和剩余的初步特征信息的特征值；

根据所述特征值的由大至小的排序筛选，筛选得到的特征值对应的主成分特征信息和初步特征信息以及沉默用户的身份信息组合，生成所述特征信息。

本发明还提供一种潜在回流用户筛选装置包括：

获取单元，用于获取待筛选的沉默用户的历史运营数据，其中所述沉默用户为指定时间内未活跃的用户；

提取单元，用于从所述沉默用户的历史运营数据中提取特定指标对应的特征信息；

识别单元，用于将所述特征信息输入预先训练的分类器模型对沉默用户进行分类识别，其中所述分类器模型为对所述特定指标参数进行分类的模型；

筛选单元，用于根据所述分类器模型输出的沉默用户分类结果，筛选出潜在回流用户。

本发明还提供一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行上述的潜在回流用户筛选方法。

本发明还提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述潜在回流用户筛选方法。

本发明还提供一种计算机程序产品，包括计算机程序代码，所述计算机程序代码包括程序指令，当所述程序指令被电子设备执行时，使所述电子设备执行上述潜在回流用户筛选方法。

上述的潜在回流用户筛选方法、装置、电子设备以及计算机可读存储介质，通过获取待筛选的沉默用户的历史运营数据；从沉默用户的历史运营数据中提取特定指标对应的特征信息；将特征信息输入预先训练的分类器模型对沉默用户进行分类识别；根据分类器模型输出的沉默用户分类结果，筛选出潜在回流用户。该筛选方案，可以得到与历史运营数据高度匹配的潜在回流用户，可以预期潜在回流用户具有高质量、再次活跃可能性高、用户粘性强的特点，筛选得到的潜在回流用户比较容易唤醒，从沉默用户转化为活跃用户的难度较小，而且对平台的用户粘性强，能够带来一定的流量，为后续营销推广降低成本，提升收益。

另外，潜在回流用户筛选方法、装置、电子设备以及计算机可读存储介质还通过提取历史运营数据中自然回流的沉默用户和未自然回流的沉默用户的特定指标对应的特征信息，使筛选得到的潜在回流用户与历史运营数据中的自然回流的沉默用户，具有高度相关性。从而可以预期潜在回流用户与自然回流的沉默用户具有相似的回流特性。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为一个实施例的应用环境图；

图2为一个实施例的潜在回流用户筛选方法流程图；

图3为一个实施例的应用分类器模型的方法流程图；

图4为一个实施例的训练分类器模型的方法流程图；

图5为一个实施例的聚类分析的方法流程图；

图6为一个实施例的训练标签传播模型的方法流程图；

图7为一个实施例的特征信息提取的方法流程图；

图8为一个实施例的应用主成分分析法提取特征信息的方法流程图；

图9为一个实施例的潜在回流用户筛选装置结构图；

图10为一个实施例的电子设备结构图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，这里所使用的远端网络设备、装置，其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此，云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。本发明的实施例中，远端网络设备、终端设备与WNS服务器之间可通过任何通讯方式实现通讯，包括但不限于，基于3GPP、LTE、WIMAX的移动通讯、基于TCP/IP、UDP协议的计算机网络通讯以及基于蓝牙、红外传输标准的近距无线传输方式。

参考图1所示，图1是本发明实施例方案的应用环境图；该实施例中，本发明技术方案可以基于移动终端上实现，如图1中，第一终端12、第二终端13、第三终端14以及第四终端15，可以通过internet网络访问服务器11，在第一终端12、第二终端13、第三终端14以及第四终端15上，分别可以通过APP等形式安装相应的客户端，用户通过登录客户端与服务器11进行数据交互，在客户端上实现用户一侧的相关功能，在本发明实施例中，第一用户可以通过第一终端12登录，第二用户可以通过第二终端13登录，第三用户可以通过第三终端14登录，第四用户可以通过第四终端15登录；这里所指的服务器11是指实现各种后台功能的服务器设备，考虑到目前服务器处理的实际情况，这里所说的设备也可以是指一个设备或多个设备的集群。图1中，以四名用户以及对应的移动终端示例性地展示，在其他使用场景中可以应用到其他数量用户的场景中。

请参考图2，在本实施例中，提供一种潜在回流用户筛选方法，包括如下步骤：

在步骤S21中，获取待筛选的沉默用户的历史运营数据，其中所述沉默用户为指定时间内未活跃的用户。

在上述步骤中，在历史运营数据中根据预设条件筛选出沉默用户以及沉默用户对应的特征信息等，可以反映沉默用户行为并可供分析的数据。所述指定时间根据具体需求，可以是自然月度计算也可以自然周为周期计算，也可以采用连续的7天作为指定时间分析用户数据，以适应目前数据分析短平快的分析趋势。

所述沉默用户可以是指定时间内未活跃的注册用户，未活跃可以通过登录、参与营销活动、观看直播、观看视频、评论、发弹幕、发表作品等活动，进而界定用户是否属于未活跃用户，若未活跃用户在指定的周期内仍处于未活跃状态，该用户将标识为沉默用户。

在步骤S22中，从所述沉默用户的历史运营数据中提取特定指标对应的特征信息。

作为实施例，在上述历史运营数据中提取所述的特征信息，可以是指所述特征信息包括指定时间内的在线时长、活跃天数、多媒体播放时长、播放天数、浏览用户数量、发表数量、发表天数、用户等级、活跃频次和最后活跃时间、最后播放时间等可以反映用户行为的数据。

在步骤S23中，将所述特征信息输入预先训练的分类器模型对沉默用户进行分类识别，其中所述分类器模型为对所述特定指标参数进行分类的模型。

在上述步骤中，应用的分类器模型可以是预先训练的分类器模型，通过该分类器模型能够准确地在对沉默用户中分类识别出高质量的潜在回流用户，分类器模型可以是对特定指标参数具有偏好的模型。在应用时，可以根据不同的特定指标参数对应的特征信息选择不同的分类器模型。其中，预先训练完毕的分类器模型就是只根据需求选择的分类器模型。

在步骤S24中，根据所述分类器模型输出的沉默用户分类结果，筛选出潜在回流用户。

在上述过程中，沉默用户分类结果指示部分的沉默用户属于高质量的潜在回流用户，部分用户属于低质量的潜在回流用户。高质量的潜在回流用户指的是通过有限的推广、营销可以唤醒，并且唤醒后用户粘性强的用户，这类用户相对于低质量的潜在回流用户更具有开发价值，能够快速、持久地为平台带来流量。在上述过程中通过将低质量的潜在回流用户筛选出来，可以降低推广成本，使资源针对高质量的潜在回流用户倾斜，提升平台的效益。

在上述实施例的基础上，请参考图3，将所述特征信息输入预先训练的分类器模型对沉默用户进行分类识别的步骤S23之前，还包括步骤：

在步骤S31中，获取设定时间段内自然回流的沉默用户和未自然回流的沉默用户。

在上述步骤中，根据需要限定指定时间段内的沉默用户数据作为数据源，例如是针对近三个自然月度的历史运营数据中的沉默用户作为数据源。对这部分的沉默用户，通过预设条件分类，将部分沉默用户识别为自然回流的沉默用户，另一部分的沉默用户识别为未自然回流的用户。其中，自然回流的沉默用户是指在上述三个自然月度的时间段内，先出现长时间没有登陆、缺乏有效互动行为、缺乏有效发表内容等有效用户行为的用户，其后通过某些营销手段或者推广策略的唤醒，对应用户出现多次登陆、发布有效内容、有效互动等等有效用户行为，则对应用户就是自然回流的沉默用户，反之就是未自然回流的沉默用户。

结合具体的应用场景，具体到一个用户，例如是A用户，在一月份至三月份的统计周期内，A用户在一月份登陆次数为25次，观看直播52场次，发表弹幕37条，与主播互动9次；A用户在二月份登陆次数为3次，观看直播1场次，发表弹幕2条，与主播互动0次；通过积分签到激励措施，A用户在三月份登陆次数为30次，观看直播45场次，发表弹幕20条，与主播互动11次，说明A用户在统计周期内符合自然回流的沉默用户的识别条件。

例如B用户，在一月份至三月份的统计周期内，B用户在一月份登陆次数为12次，观看直播33场次，发表弹幕27条，与主播互动3次；B用户在二月份登陆次数为5次，观看直播2场次，发表弹幕3条，与主播互动1次；通过积分签到激励措施，A用户在三月份登陆次数为1次，观看直播0场次，发表弹幕0条，与主播互动0次，说明B用户在统计周期内不符合自然回流的沉默用户的识别条件，而是符合未自然回流的沉默用户的识别条件。

在其它可能的方式中，还可以通过指定时间内的在线时长、活跃天数、多媒体播放时长、播放天数、浏览用户数量、发表数量、发表天数、用户等级、活跃频次和最后活跃时间、最后播放时间等特征信息以及上述特征信息进行衰减量化、回归量化或正态分布标准化处理后形成的特征信息，也可以识别出自然回流的沉默用户和未自然回流的沉默用户。

在步骤S32中，利用所述自然回流的沉默用户和未自然回流的沉默用户的特定指标对应的特征信息为样本构建并训练得到分类器模型。

上述特定指标对应的特征信息的筛选可以参考PCA，筛选出影响较大的特征值，进一步构建以及训练分类器模型。

在上述实施例的基础上，请参考图4，利用所述自然回流的沉默用户和未自然回流的沉默用户的特定指标对应的特征信息为样本构建并训练得到分类器模型的步骤S32，包括：

在步骤S41中，从自然回流的沉默用户和未自然回流的沉默用户的历史运营数据中提取特定指标对应的特征信息。

在上述步骤中，根据上述已经分类识别的自然回流的沉默用户和未自然回流的沉默用户对应的历史运营数据，可以提取特定指标对应的特征信息，例如是指定时间内的在线时长、活跃天数、多媒体播放时长、播放天数、浏览用户数量、发表数量、发表天数、用户等级、活跃频次和最后活跃时间、最后播放时间等特征信息。

在步骤S42中，分别提取部分自然回流的沉默用户和部分未自然回流的沉默用户对应的特定指标对应的特征信息，构建训练集合。

在步骤S43中，分别提取剩余自然回流的沉默用户和剩余未自然回流的沉默用户对应的特定指标对应的特征信息，构建测试集合。

在上述步骤中，将占总数80％的自然回流的沉默用户和占总数80％的未自然回流的沉默用户以及其对应的特征信息归入训练集合，将占总数20％的自然回流的沉默用户和占总数20％的未自然回流的沉默用户以及其对应的特征信息归入测试集合。训练集合与测试集合占总沉默用户体量的比例可以适当地调节，训练集合比重越大，训练获得模型会更准确。

在步骤S44中，采用多种分类方法并根据所述训练集合构建待测分类器模型。

在上述步骤中，所述待测分类器模型，可以采用支持向量机、随机森林、逻辑回归、决策树、人工神经网络的分类方法构建的模型。根据所述训练集合构建待测分类器模型。应用分类方法的种类，对应构建生成待测分类器模型的数量。不同的分类方法和待测分类器模型对不同的特征信息具有一定的数据偏好，具体表现为准确率和覆盖率等验证结果。

在步骤S45中，将测试集合分别输入各个待测分类器模型，对各个待测分类器模型的验证结果排序，根据所述排序选取若干待测分类器模型作为分类器模型。

在上述步骤中，应用所述测试集合输入上述五种分类方法对应构建的待测分类器模型中。由于输入的沉默用户来自于历史运营数据，因此沉默用户后续的行为是已知的。具体到本实施例中，以单个用户和随机森林分类器模型展示具体地验证过程。针对C用户和对应的特征信息，将特征信息输入随机森林分类器模型，随机森林分类器模型输出C用户属于自然回流的沉默用户，此时在历史运营数据调取C用户后续的行为，在后续的统计时间内可以判断C用户的行为符合自然回流的沉默用户的判断，说明随机森林分类器模型是准确的。若另一D用户，通过随机森林分类器模型的识别结果，判断为未自然回流的沉默用户，但是D用户的对应历史运营数据显示D用户属于自然回流的沉默用户，说明针对D用户随机森林分类器模型不准确。通过验证集合和历史运营数据中多用户的反复验证，可以统计得到随机森林分类器模型的准确率和覆盖率。

在上述步骤中，经过验证，可以发现利用决策树分类方法构建的决策树分类器模型和利用支持向量机分类方法构建的支持向量机分类器模型的准确率可以达到85％，覆盖率可以达到75％。说明决策树分类器模型和支持向量机分类器模型在特征信息偏好和预测结果上具有良好的表现，所以可以作为预先训练的分类器模型，应用到本方法中。

在上述实施例的基础上，请参考图5，所述潜在回流用户筛选方法还包括步骤：

在步骤S51中，分别对自然回流用户与未自然回流用户的特征信息标识标签。

在上述过程中，例如将自然回流用户识别标签为“1”，将未自然回流用户识别标签为“0”。相应地，自然回流用户的特征信息也标记为“1”，未自然回流用户的特征信息也标记为“0”。自然回流用户与未自然回流用户的特征信息可以从历史运营数据中提取，也可以通过人工筛选。

在步骤S52中，获取准确率达到设定阈值的标签传播模型，对所述标签和输入的特征信息进行聚类分析，获得聚类结果。

在上述步骤中，将已知样本的标签和相应的特征信息，还有未知标签的样本和对应的特征信息，输入所述标签传播模型中，标签传播模型对未知的样本聚类分析，获取聚类结果。根据聚类分析，若未知样本中的某个样本，其特征信息与自然回流用户的特征信息比较近似，那么该未知样本会聚集在识别标签“1”附近，若未知样本中的某个样本，其特征信息与未自然回流用户的特征信息比较近似，那么该未知样本会聚集在识别标签“0”附近。通过上述的聚类方式可以获得与自然回流用户的特征信息比较近似的未知样本，此时可以判断该未知样本具有与自然回流用户相似的性质，对应该未知样本的用户有较大概率与自然回流用户作出相似或一致的行为。其中未知样本就是指需要通过标签传播模型识别的沉默用户。

在步骤S53中，分类器模型输出的沉默用户分类结果与所述聚类结果合并，筛选得到潜在回流用户。

在上述步骤中，分类器模型输出的沉默用户分类结果中提取可回流的沉默用户的第一名单，从上述聚类结果中提取可回流的沉默用户的第二名单。将第一名单和第二名单匹配比对，可以获取潜在回流用户。通过上述分类器模型和标签传播模型的双重筛选，可以获得结果比较可靠的潜在回流用户。针对这部分潜在回流用户，可以有针对性地进行流量推广。

在上述实施例中，所述标签传播模型可以采用半监督的聚类方法，在一些可能的实施方式中，还可以采用无监督的聚类方法替代半监督的聚类方法。所述半监督是指有部分数据已经带有标签，而无监督是指全部数据未经标签标识。上述以标签传播模型为例的半监督的聚类方法可以进行三个假设：平滑假设，相似的数据具有相同的标签；聚类假设，处于同一聚类下的数据具有相同的标签；流形假设，处于同一流形结构下的数据具有相同的标签。基于以上三大假设，半监督的聚类方法相对于其他聚类方法来说具有更好的聚类效果。

在上述实施例的基础上，请参考图6，所述步骤S52获取准确率达到设定阈值的标签传播模型，包括：

在步骤S61中，分别将自然回流用户与未回流用户的特征的平均值作为有标签的第一样本和第二样本，构建待测标签传播模型。

在上述过程中，对自然回流用户与未回流用户的特征可以进行平均值处理，将所述自然回流用户作为第一样本，将未回流用户作为第二样本，第一样本中包括自然回流用户的特征平均值，第二样本中包括未回流用户的特征平均值。将第一样本标签为“1”，将第二样本标签为“0”，并构建待测的标签传播模型。

在步骤S62中，利用待测的标签传播模型，对未标签的沉默用户的样本进行聚类分析，计算准确率，直至准确率达到设定阈值，得到标签传播模型。

在上述过程中，从历史运营数据中获取未标签的沉默用户，并利用待测的标签传播模型对未标签的沉默用户进行聚类分析。进而根据历史运营数据计算准确率。例如，在本实施例中，准确率的设定阈值是80％。那么根据待测的标签传播模型的准确率，调整待测的标签传播模型中的相关参数，使准确率大于设定阈值。当待测的标签传播模型符合设定阈值要求时，此时的待测的标签传播模型可以作为标签传播模型，应用到筛选潜在回流用户。

请参考图7，所述从所述沉默用户的历史运营数据中提取特定指标对应的特征信息的步骤S22，包括：

在步骤S71中，从所述沉默用户的历史运营数据中提取行为数据。

其中行为数据，可以是指定时间内的在线时长、活跃天数、多媒体播放时长、播放天数、浏览用户数量、发表数量、发表天数、用户等级、活跃频次和最后活跃时间、最后播放时间等直接反映用户行为的行为数据。

在步骤S72中，对所述行为数据通过衰减量化、回归量化或正态分布标准化，转化为特征信息。

在本实施例中，对上述部分的行为数据可以通过衰减量化、回归量化或正态分布标准化的转化方法，转化为特征信息。以在线时长结合标准正态分布为例，例如将所述沉默用户根据在线时长分为20小时以下、20小时至30小时、30小时以上区间的三类，对应三类在线时长的用户数量分别是32768人、1048576人、512人。对三类用户数量执行log₂转化，分别转化为15、20、9。由于上述在线时长行为数据偏态分布，将通过标准正态分布公式，使其符合标准正态分布：

其中，Z′_i表示经过标准正态分布转换的行为数据，Z_i表示原始未经标准正态分布转换的行为数据，Z_m表示原始未经标准正态分布转换的行为数据的平均值，Z_s表示原始未经标准正态分布转换的行为数据的标准偏差。

通过上述标准正态分布转换，对应三类在线时长的用户数量转换的特征值为0.074124932、1.185998907、-1.260123838。

本实施例中以活跃天数结合衰减量化为例，活跃天数结合衰减量化可以获得活跃天数衰减度的表征指标。例如，获取批量的沉默用户在最近90天和最近180天的活跃天数，该批量的沉默用户近90天的活跃天数是30天，近180天的活跃天数是90天。通过衰减量化获得活跃天数衰减度，具体是：

上式中，P表示活跃天数衰减度，D₉₀表示近90天活跃天数，D₁₈₀表示近180天活跃天数。上述例子中，计算得到活跃天数衰减度P为-0.333333333。将所述计算得到的活跃天数衰减度P作为特定指标对应的特征信息，便于后续对沉默用户行为的分析。值得注意的是，上述采用的90天和180天两个时间周期仅为举例，在其他可能的实施方式中，还可以选择例如30天、120天等的周期进行特征信息的分析。

在上述过程中，特定指标可以指自然回流用户的各项指标相似的指标。自然回流用户可以是经过预设的一段时间沉默后的沉默用户自然地回归本平台或者本软件，重新登陆、发布作品、产生互动等用户行为的用户。上述自然回流用户的很多行为信息具有非常重要的参考意义，因此将上述自然回流用户的相关行为信息提取后，在历史经营数据中，针对沉默用户提取获得的特征信息联合自然回流用户的相关行为信息进行匹配，能够获得与自然回流用户的相关行为信息具有一定相似性的特征信息。这些特征信息由于与自然回流用户的相关行为信息具有高度相似性，因此可以大概率模拟自然回流用户的行为。

请参考图8，本实施例还可以应用主成分分析法(PCA)将在历史经营数据中进行主成分分析，针对沉默用户提取，并获得的特征信息。具体包括以下步骤：

在步骤S81中，根据所述历史运营数据，提取沉默用户的初步特征信息。

其中，初步特征信息包括行为信息、用户属性等特征信息，其中行为信息可以包括在线时长、活跃天数、多媒体播放时长、播放天数、浏览用户数量、发表数量、发表天数、用户等级、活跃频次和最后活跃时间、最后播放时间，用户属性可以包括职业、收入、性别、年龄等反映用户本身属性的信息。

在步骤S82中，筛选共线性的初步特征信息，并生成主成分特征信息。

其中，共线性的初步特征信息是指初步特征信息之间具有相关性，例如用户等级与活跃天数之间具有很强的相关性，用户等级越高，活跃天数越大，那么筛选用户等级与活跃天数这一组具有共线性关系的初步特征信息，组成主成分特征信息。组成主成分特征信息的还可以是多种特征信息，例如发表数量、发表天数、用户等级、活跃频次、职业之间具有强相关性，将前述的特征信息组成主成分特征信息。

在步骤S83中，分别获取主成分特征信息和剩余的初步特征信息的特征值。

对主成分特征信息和剩余的初步特征信息量的重要程度、相关性量化分析，获得指示主成分特征信息和剩余的初步特征信息的特征值。例如，组成主成分特征信息的用户等级与活跃天数可以综合量化为对应主成分特征信息的特征值。相应地，对剩余没有组成主成分特征信息的初步特征信息，同样进行量化处理，生成初步特征信息的特征值。

在步骤S84中，根据所述特征值的由大至小的排序筛选，筛选得到的特征值对应的主成分特征信息和初步特征信息以及沉默用户的身份信息组合，生成所述特征信息。

通过针对具有共线性关系的初步特征信息组合形成主成分特征信息，和对主成分特征信息、初步特征信息量化形成的特征值等步骤，可在众多的特征信息中筛选出对潜在回流用户筛选具有较大影响的特征信息，还可以将一部分具有共线性关系的初步特征信息进行组合处理，降低具共线性关系的初步特征信息对后续建模等步骤产生影响，提升建模的准确性。除了上述衰减量化、主成分分析法之外，还可以针对特征信息采用例如线性回归等回归量化的方法，对特征信息进行处理。

在其他实施方式中，应用主成分分析法的过程中，还可以将主成分特征信息与剩余初步特征信息的特征值共同构建协方差矩阵，通过协方差矩阵筛选特征值最大的若干特征值。

请参考图9，本实施例还提供一种潜在回流用户筛选装置，包括：

获取单元91，用于获取待筛选的沉默用户的历史运营数据，其中所述沉默用户为指定时间内未活跃的用户。

提取单元92，用于从所述沉默用户的历史运营数据中提取特定指标对应的特征信息。

识别单元93，用于将所述特征信息输入预先训练的分类器模型对沉默用户进行分类识别，其中所述分类器模型为对所述特定指标参数进行分类的模型。

筛选单元94，用于根据所述分类器模型输出的沉默用户分类结果，筛选出潜在回流用户。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图10是根据一示例性实施例示出的一种执行潜在回流用户筛选方法的电子设备的框图。例如，电子设备1000可以被提供为一服务器。参照图10，电子设备1000包括处理组件1022，其进一步包括一个或多个处理器，以及由存储器1032所代表的存储器资源，用于存储可由处理组件1022的执行的指令，例如应用程序。存储器1032中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1022被配置为执行指令，以执行上述潜在回流用户筛选方法。

电子设备1000还可以包括一个电源组件1026被配置为执行电子设备1000的电源管理，一个有线或无线网络接口1050被配置为将电子设备1000连接到网络，和一个输入输出(I/O)接口1058。电子设备1000可以操作基于存储在存储器1032的操作系统，例如Windows ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTM或类似。

在本实施例中，所述电子设备被提供为一服务器，所述服务器上执行上述潜在回流用户筛选方法，可以对服务器筛选出潜在回流用户对应的客户端相应推送营销信息。

在一些实施方式中，还提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述潜在回流用户筛选方法。

在一些实施方式中，还提供一种计算机程序产品，包括计算机程序代码，所述计算机程序代码包括程序指令，当所述程序指令被电子设备执行时，使所述电子设备执行上述潜在回流用户筛选方法。

上述的潜在回流用户筛选方法、装置、电子设备以及计算机可读存储介质，通过获取待筛选的沉默用户的历史运营数据，其中所述沉默用户为指定时间内未活跃的用户；从所述沉默用户的历史运营数据中提取特定指标对应的特征信息；将所述特征信息输入预先训练的分类器模型对沉默用户进行分类识别，其中所述分类器模型为对所述特定指标参数进行分类的模型；根据所述分类器模型输出的沉默用户分类结果，筛选出潜在回流用户。筛选得到的潜在回流用户与历史运营数据高度匹配。本实施例可以预期，筛选得到的潜在回流用户比较容易唤醒，从沉默用户转化为活跃用户的难度较小，而且对平台的用户粘性比较强，能够带来一定的流量。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种潜在回流用户筛选方法，其特征在于，包括如下步骤：

获取待筛选的沉默用户的历史运营数据，其中所述沉默用户为指定时间内未活跃的用户，所述沉默用户包括自然回流的沉默用户和未自然回流的沉默用户；

将所述特征信息输入预先训练的分类器模型对沉默用户进行分类识别，其中所述分类器模型为利用所述自然回流的沉默用户和未自然回流的沉默用户的特定指标对应的特征信息为样本构建并训练得到分类器模型；

2.根据权利要求1所述的潜在回流用户筛选方法，其特征在于，所述特定指标为自然回流用户的各项指标相似的指标。

3.根据权利要求1所述的潜在回流用户筛选方法，其特征在于，利用所述自然回流的沉默用户和未自然回流的沉默用户的特定指标对应的特征信息为样本构建并训练得到分类器模型的步骤包括：

4.根据权利要求3所述的潜在回流用户筛选方法，其特征在于，所述待测分类器模型包括采用支持向量机、决策树的分类方法构建的模型。

5.根据权利要求1所述的潜在回流用户筛选方法，其特征在于，还包括：

6.根据权利要求5所述的潜在回流用户筛选方法，其特征在于，获取准确率达到设定阈值的标签传播模型的步骤，包括：

7.根据权利要求1所述的潜在回流用户筛选方法，其特征在于，所述从所述沉默用户的历史运营数据中提取特定指标对应的特征信息的步骤，包括：

从所述沉默用户的历史运营数据中提取行为数据；

8.根据权利要求7所述的潜在回流用户筛选方法，其特征在于，所述行为数据包括指定时间内的在线时长、活跃天数、多媒体播放时长、播放天数、浏览用户数量、发表数量、发表天数、用户等级、活跃频次和最后活跃时间、最后播放时间。

9.根据权利要求1所述的潜在回流用户筛选方法，其特征在于，从所述沉默用户的历史运营数据中提取特定指标对应的特征信息的步骤之前，还包括：

根据所述历史运营数据，提取沉默用户的初步特征信息；

筛选共线性的初步特征信息，并生成主成分特征信息；

分别获取主成分特征信息和剩余的初步特征信息的特征值；

10.一种潜在回流用户筛选装置，其特征在于，包括：

获取单元，用于获取待筛选的沉默用户的历史运营数据，其中所述沉默用户为指定时间内未活跃的用户，所述沉默用户包括自然回流的沉默用户和未自然回流的沉默用户；

识别单元，用于将所述特征信息输入预先训练的分类器模型对沉默用户进行分类识别，其中所述分类器模型为利用所述自然回流的沉默用户和未自然回流的沉默用户的特定指标对应的特征信息为样本构建并训练得到分类器模型；

11.一种电子设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行权利要求1至9任意一项所述的潜在回流用户筛选方法。

12.一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行权利要求1至9任意一项所述的潜在回流用户筛选方法。