CN111401433A

CN111401433A - 用户信息获取方法、装置、电子设备及存储介质

Info

Publication number: CN111401433A
Application number: CN202010172307.5A
Authority: CN
Inventors: 林岳; 刘洪�; 张洁
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-03-12
Filing date: 2020-03-12
Publication date: 2020-07-10
Anticipated expiration: 2040-03-12
Also published as: CN111401433B

Abstract

本申请公开了一种用户信息获取方法、装置、电子设备及存储介质，属于网络技术领域。本申请通过获取用户的个人特征、用户活跃度的时间序列以及该时间序列的统计特征，将该个人特征、该时间序列以及该统计特征输入信息获取模型，通过该信息获取模型预测该用户属于不同活跃标签的预测概率，将预测概率符合目标条件的活跃标签确定为该用户的活跃信息，不仅能够在预测过程中综合用户的个人特征、用户活跃度随着时间推移的变化规律以及上述变换规律的统计特征，而且信息获取模型能够精准地分类出用户的活跃标签，无需在聚类后进行人工标注，使得用户的活跃信息的获取方式具有更高的准确性，从而满足业务发展的需求。

Description

用户信息获取方法、装置、电子设备及存储介质

技术领域

本申请涉及网络技术领域，特别涉及一种用户信息获取方法、装置、电子设备及存储介质。

背景技术

随着网络技术的发展，用户信息对于互联网产品及业务的增长起着基石作用，随着产品的更新迭代以及用户对产品的使用时长的增长，用户针对产品的用户类型、活跃度以及参与度都会随之发生变化，与之相关的用户信息衡量指标包括用户活跃周期，是指用户从开始接触产品到离开产品的整个过程，是用户信息中至关重要的一项信息，用户活跃周期可以划分为成长、活跃、衰退、流失以及回流这五个阶段。

目前，在针对用户活跃周期进行分析时，通常会统计用户在最近一段时间内在产品上的活跃度数据，通过对活跃度数据聚类的方式对用户进行分类，并为聚类后的用户添加用户生命周期的标注，在上述过程中，由于聚类方式是无法事先定义分类结果的，只能在聚类完成之后针对聚类后的用户添加标注，导致容易存在错分、漏分的情况，也即是说，获取用户信息的过程准确性不高，无法满足业务发展的需求。

发明内容

本申请实施例提供了一种用户信息获取方法、装置、电子设备及存储介质，能够提供获取用户信息过程的准确性，满足业务发展的需求。该技术方案如下：

一方面，提供了一种用户信息获取方法，该方法包括：

获取用户的个人特征、用户活跃度的时间序列以及所述时间序列的统计特征，所述时间序列用于表示用户活跃度在统计周期内的变化规律，所述统计特征用于表示所述时间序列在统计学上的数据特征；

将所述个人特征、所述时间序列以及所述统计特征输入信息获取模型，通过所述信息获取模型预测所述用户属于不同活跃标签的预测概率，所述活跃标签用于表示所述用户在用户活跃周期中所处的阶段；

将预测概率符合目标条件的活跃标签确定为所述用户的活跃信息。

一方面，提供了一种用户信息获取装置，该装置包括：

获取模块，用于获取用户的个人特征、用户活跃度的时间序列以及所述时间序列的统计特征，所述时间序列用于表示用户活跃度在统计周期内的变化规律，所述统计特征用于表示所述时间序列在统计学上的数据特征；

预测模块，用于将所述个人特征、所述时间序列以及所述统计特征输入信息获取模型，通过所述信息获取模型预测所述用户属于不同活跃标签的预测概率，所述活跃标签用于表示所述用户在用户活跃周期中所处的阶段；

确定模块，用于将预测概率符合目标条件的活跃标签确定为所述用户的活跃信息。

在一种可能实施方式中，所述装置还包括：

训练模块，用于获取样本用户的样本个人特征、样本时间序列、所述样本时间序列的样本统计特征以及所述样本用户的参考标签；基于所述样本个人特征、所述样本时间序列、所述样本统计特征以及所述参考标签，对初始获取模型进行训练，得到所述信息获取模型。

一方面，提供了一种电子设备，该电子设备包括一个或多个处理器和一个或多个存储器，该一个或多个存储器中存储有至少一条程序代码，该至少一条程序代码由该一个或多个处理器加载并执行以实现如上述任一种可能实现方式的用户信息获取方法所执行的操作。

一方面，提供了一种存储介质，该存储介质中存储有至少一条程序代码，该至少一条程序代码由处理器加载并执行以实现如上述任一种可能实现方式的用户信息获取方法所执行的操作。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过获取用户的个人特征、用户活跃度的时间序列以及该时间序列的统计特征，将该个人特征、该时间序列以及该统计特征输入信息获取模型，通过该信息获取模型预测该用户属于不同活跃标签的预测概率，这些活跃标签是能够在信息获取模型的训练过程中预先定义的，使得预测过程具有更高的可控性，将预测概率符合目标条件的活跃标签确定为该用户的活跃信息，不仅能够在预测过程中综合用户的个人特征、用户活跃度随着时间推移的变化规律以及上述变换规律的统计特征，而且信息获取模型能够精准地分类出用户的活跃标签，而无需在聚类后进行人工标注，使得用户的活跃信息的获取方式具有更高的准确性，从而满足业务发展的需求。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种用户信息获取方法的实施环境示意图；

图2是本申请实施例提供的一种用户信息获取方法的流程图；

图3是本申请实施例提供的一种初始序列的示意图；

图4至图6是本申请实施例提供的一种时间序列的示意图；

图7是本申请实施例提供的一种LSTM模型的原理图；

图8是本申请实施例提供的一种信息获取模型的训练方法流程图；

图9是本申请实施例提供的一种样本时间序列的示意图；

图10是本申请实施例提供的一种信息获取模型的部署流程图；

图11是本申请实施例提供的一种用户信息获取装置的结构示意图；

图12是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。

本申请中术语“至少一个”是指一个或多个，“多个”的含义是指两个或两个以上，例如，多个第一位置是指两个或两个以上的第一位置。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括音频处理技术、计算机视觉技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例涉及到人工智能领域中的机器学习方向，具体涉及到一种用于处理多分类问题的LSTM(Long Short-Term Memory，长短期记忆网络)模型，LSTM模型具有永久的记忆能力，能够通过输入门、输出门、遗忘门的复杂交互，以解决RNN(Recurrent NeuralNetwork，循环神经网络)模型所固有的梯度消失问题，具有良好的分类效果。

图1是本申请实施例提供的一种用户信息获取方法的实施环境示意图。请参见图1，在该实施环境中包括终端101和服务器102，终端101和服务器102均为一种电子设备。

终端101用于向服务器102上报用户的活跃度数据，在终端101上可以安装有应用程序，每当用户运行应用程序时终端101可以将本次的在线时长发送至服务器102，服务器102可以选定一个统计单位，比如以周作为统计单位，可以统计出任一周内用户的周在线时长、活跃次数、活跃天数等信息，这些信息即可构成用户的活跃度数据。

终端101和服务器102可以通过有线网络或无线网络相连。

服务器102可以用于获取用户信息，其中该用户信息可以指用户的活跃信息，用于衡量用户在应用程序上的活跃程度，服务器102可以包括一台服务器、多台服务器、云计算平台或者虚拟化中心中的至少一种。可选地，服务器102可以承担主要计算工作，终端101可以承担次要计算工作；或者，服务器102承担次要计算工作，终端101承担主要计算工作；或者，终端101和服务器102两者之间采用分布式计算架构进行协同计算。

可选地，终端101可以泛指多个终端中的一个，终端101的设备类型包括但不限于：智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio LayerIII，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts GroupAudio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机或者台式计算机中的至少一种。以下实施例，以终端包括智能手机来进行举例说明。

本领域技术人员可以知晓，上述终端101的数量可以更多或更少。比如上述终端101可以仅为一个，或者上述终端101为几十个或几百个，或者更多数量。本申请实施例对终端101的数量和设备类型不加以限定。

图2是本申请实施例提供的一种用户信息获取方法的流程图。参见图2，该实施例应用于电子设备，在本申请实施例中以电子设备为服务器为例进行说明，该实施例包括：

201、服务器获取用户的个人特征、用户活跃度的时间序列以及该时间序列的统计特征。

其中，该个人特征基于用户的资料信息抽取得到，该时间序列用于表示用户活跃度在统计周期内的变化规律，该统计特征用于表示该时间序列在统计学上的数据特征。

在一些实施例中，在获取用户的个人特征时，服务器可以先获取用户的资料信息，在根据用户的资料信息抽取用户的个人特征。可选地，该资料信息可以包括用户的基本属性或者活跃特征中至少一项，基本属性包括用户的年龄、性别、职业或者地理位置中至少一项，该活跃特征可以包括用户的平台活跃度，平台活跃度是指用户在任一网络平台上的活跃等级，需要说明的是，这里的资料信息是经过用户重复授权之后才进行获取的。

可选地，在基于资料信息抽取个人特征的过程中，服务器可以对资料信息进行独热(one-hot)编码或者词嵌入(word embedding)处理，从而得到该个人特征。在上述过程中，独热编码处理能够将资料信息编码成一个多维的二值向量，向量中每个元素的取值要么为0要么为1，能够减少抽取个人特征过程的计算量，而词嵌入处理能够将资料信息编码成嵌入空间内的一个嵌入向量，从而能够表达更加丰富的个人特征，使得个人特征具有更好地表达能力。

在一些实施例中，在进行词嵌入处理时可以采用词向量模型来执行嵌入操作，比如，根据资料信息的语种不同，该词向量模型可以是中文词向量模型，也可以是外文词向量模型，本公开实施例不对词向量模型的类型进行具体限定。

在一些实施例中，在获取用户活跃度的时间序列时，服务器可以执行下述子步骤2011-2013：

2011、服务器抽样采集用户在统计周期内多个统计单位中的活跃度数据。

在上述过程中，服务器可以获取预先设置的统计周期以及统计单位，或者服务器可以获取技术人员输入的统计周期以及统计单位，本申请实施例不对统计周期以及统计单位的获取方式进行具体限定，例如，统计周期可以是当前时刻之前的2年，统计单位可以一周(一星期)。

在一些实施例中，该活跃度数据可以包括用户的在线时长、活跃次数或者活跃天数中至少一项，当然，该活跃度数据还可以包括用户的消费金额、消费次数等，本申请实施例不对活跃度数据的内容进行具体限定。

在一些实施例中，终端可以在用户每次运行应用程序时，向服务器上报本次运行日志，在运行日志中携带本次在线时长，服务器获取统计周期内的历史运行日志，针对每个统计单位，获取该统计单位内历史运行日志中在线时长的总和，即可得到本统计单位的在线时长，可选地，还可以将该统计单位内历史运行日志的数量确定为本统计单位的活跃次数，将该统计单位内存在历史运行日志的天数确定为本统计单位的活跃天数。

在一些实施例中，终端可以每隔目标时长向服务器上报一次用户在目标时长内的活跃度数据，该目标时长可以是小于或等于统计单位的任一数值，比如，当统计单位为一周时，目标时长可以为一周，也可以为一天。这样相当于终端统计各个目标时长内的活跃度数据，并上报给服务器，由服务器基于终端上报的各个目标时长内的活跃度数据来获取各个统计单位中的活跃度数据，从而能够将服务器的统计负载分担一部分给终端，避免了终端向服务器频繁发送运行日志，能够降低终端与服务器之间的通信开销。

2012、服务器基于该多个统计单位中的活跃度数据生成初始序列。

在一些实施例中，对任一个统计单位，服务器可以对该统计单位中的在线时长、活跃次数或者活跃天数中至少一项进行加权以及归一化处理，得到用户在该统计单位内的活跃度指标，再按照该用户在不同统计单位内的活跃度指标，构建初始序列，该初始序列中一个元素用于表示用户在一个统计单位内的活跃度指标。

在上述进行加权处理的过程中，可以为在线时长、活跃次数以及活跃天数各自分配不同的权重，将在线时长、活跃次数以及活跃天数分别与各自的权重相乘之后再进行相加，将相加所得的数值通过归一化函数映射到一个数值区间内，即可得到一个活跃度指标，上述数值区间也即是活跃度指标的取值范围，例如，该数值区间可以是[0,1]、[0,25]、[0,100]等，本申请实施例不对活跃度指标的取值范围进行具体限定。

可选地，上述在线时长、活跃次数以及活跃天数的权重可以依据业务需求来确定，比如针对一些社交应用来说，在线时长具有更高的权重，针对一些支付应用来说，活跃次数具有更高的权重，针对一些日历应用来说，活跃天数具有更高的权重，本申请实施例不对权重分配方式进行具体限定。

在上述构建初始序列的过程中，该初始序列可以具有不同的表现形式，比如该初始序列可以是列表、数组、队列、折线图等，以初始序列为折线图为例进行说明，可以以统计单位为横坐标、活跃度指标为纵坐标绘制出用户的初始活跃折线图。

图3是本申请实施例提供的一种初始序列的示意图，请参考图3，服务器统计了过去的100个统计单位内用户的活跃度指标，并按照统计单位与活跃度指标之间的关系绘制了折线图300，折线图300中的每个数据点均代表一个统计单位内的活跃度指标。

在上述过程中，终端采用在线时长、活跃次数以及活跃天数作为用户活跃度指标的刻画因素，对各个因素进行归一化后融合多个因素构建出了初始序列，相当于构建一个活跃度指标体系，以此可以衡量用户在整个统计周期内的活跃度。

在一些实施例中，服务器也可以不对活跃度数据进行加权和归一化处理，而是对用户的活跃度数据进行一些指数映射、对数映射等非线性映射，这样可以通过对活跃度数据进行更加复杂的映射处理，将活跃度数据转化为更易观察其变化趋势的活跃度指标。

2013、服务器对该初始序列进行平滑处理，得到时间序列。

其中，时间序列是指将某种现象的某一个统计指标在不同时间上的各个数值，按照时间先后顺序进行排序而形成的队列，在本申请实施例中，统计指标也即是活跃度指标，时间序列分析是一种动态数据处理的统计方法，脱胎于随机过程理论和数理统计学方法，通过研究时间序列所遵从的统计规律，能够有利于获取更加准确地用户的活跃信息。

在上述过程中，平滑处理的方式可以包括差值平均、移动平均或者指数平均中至少一项，本申请实施例不对平滑处理的方式进行具体限定。由于时间序列常常呈现出较强的周期性，波动也较大，活跃度指标(也称为观察值)有可能会受到周期波动的干扰，通过对初始序列进行平滑处理，能够在保留时间序列自身的变化趋势的同时降低波动干扰，有利于获取出更加准确的用户活跃信息。

如图4至图6所示，图4至图6是针对图3中初始序列采用不同的平滑方式进行平滑处理之后所得的时间序列，其中，图4对应于差值平均400的平滑方式，图5对应于移动平均500的平滑方式，其中，采取的参数为lag＝4，图6对应于指数平均600的平滑方式，其中，采取的平滑指数为0.2。可以看出，三种不同的平滑方式均能够达到降低波动干扰的目的，且三种不同的平滑方式中活跃度指标的变化趋势基本保持一致。

在一些实施例中，服务器在获取时间序列之后，还可以对时间序列进行数据分析，得到时间序列的统计特征，可选地，该统计特征可以包括该时间序列的均值、方差、极大值、极小值、增长率、下降率、波动率或者周期性中至少一项，上述各个统计项的取值可以构成一个多维向量，该多维向量也即是时间序列的统计特征，当然，该统计特征还可以包括中位数、众数等，本申请实施例不对时间序列的统计特征所包含的内容进行具体限定。

202、服务器将该个人特征、该时间序列以及该统计特征输入信息获取模型，通过该信息获取模型预测用户属于不同活跃标签的预测概率，该活跃标签用于表示该用户在用户活跃周期中所处的阶段。

用户活跃周期是指用户从开始接触互联网产品(比如应用程序)到离开互联网产品的整个过程，例如，可以划分为成长、活跃、衰退、流失、回流等五个阶段，对于互联网产品以及业务的增长起着至关重要的基石作用，是针对用户进行精细化运营的基础。对于互联网产品来说，随着产品的发展以及用户对产品的使用时长的变换，用户的类型、活跃度、参与度都在发生变化，通过对用户在用户活跃周期所处阶段的划分，能够进一步地分析和挖掘出用户的行为以及特征属性，从而能够针对用户指定个性化的运营策略，从而完成用户引导以及最大化地提升用户价值，达到用户增长的效果。

在上述过程中，信息获取模型在本质上属于一种用于处理多分类任务的机器学习模型，可选地，该信息获取模型可以是基于传统学习的树模型(比如决策树)或者LR(Logistic Regression，逻辑回归)模型，也可以是基于集成学习的XGBoost(eXtremeGradient Boosting，极限梯度提升)模型或者随机森林模型，还可以是基于深度学习的LSTM模型或者其他神经网络，本申请实施例不对信息获取模型的类型进行具体限定。

以信息获取模型为LSTM模型为例进行说明，在基于LSTM模型进行预测的过程中，服务器可以将该个人特征、该时间序列以及该统计特征输入LSTM模型中的至少一个记忆单元，通过该至少一个记忆单元对该个人特征、该时间序列以及该统计特征进行加权变换，得到该用户的特征向量，该特征向量的维度等于活跃标签的数量，对该特征向量进行指数归一化(softmax)处理，得到该用户属于不同活跃标签的预测概率。

在上述过程中，个人特征、时间序列以及统计特征可以融合成为一个输入序列，比如，个人特征是50维向量，时间序列对应于100个统计单位的活跃度指标，统计特征是10维向量，那么个人特征、时间序列以及统计特征可以融合成为一个50+100+10＝160维的输入序列，也即是说，在输入序列中包括160的元素。

进一步地，服务器在获取输入序列之后，将该输入序列输入到LSTM模型中的至少一个记忆单元中，一个记忆单元对应于输入序列中的一个元素，基于上述示例，在LSTM模型中可以包括160个记忆单元，分别将输入序列中的160个元素输入到这160个记忆单元中。

对任一个记忆单元而言，响应于该记忆单元所对应的元素以及上一个记忆单元的处理结果，该记忆单元可以对该元素以及上一个记忆单元的处理结果进行加权变换，得到本记忆单元的处理结果，将本记忆单元的处理结果输入给下一个记忆单元，对每个记忆单元均重复执行上述步骤，即可得到所有记忆单元的处理结果，将所有记忆单元的处理结果进行融合处理即可得到用户的特征向量，需要说明的是，由于融合处理之后的向量维度可以与活跃标签的数量不一致，此时可以通过一个1×1的卷积层进行维度变换，将融合处理之后的向量维度转换为与活跃标签的数量相同。

进一步地，在获取到用户的特征向量之后，由于特征向量的维度和活跃标签的数量是相同的，通过softmax函数对特征向量进行指数归一化处理，即可得到各个活跃标签的预测概率。

图7是本申请实施例提供的一种LSTM模型的原理图，请参考图7，以t(t≥1)时刻为例进行说明，对于第t个记忆单元700而言，向第t个记忆单元中输入第t-1个记忆单元的处理结果h^t-1以及输入序列中的第t个元素x^t，基于h^t-1和x^t进行变换能够得到四个中间值z、z^o、zⁱ以及z^f，将z^f以及第t-1个记忆单元的特征c^t-1输入到遗忘门中进行映射，将z以及zⁱ输入到输入门中进行映射，对遗忘门和输入门的映射值进行加权变换，可以得到第t个记忆单元的特征c^t，并将c^t输入到第t+1个记忆单元中，另外，通过tanh激活函数对c^t进行激活处理，并将激活处理之后的结果以及z^o输入到输出门中进行映射，可以得到第t个记忆单元的处理结果h^t，并将h^t输入到第t+1个记忆单元中，另外，通过对h^t进行进一步加权映射和激活处理还可以得到t时刻的预测值y^t。

其中，上述记忆单元中的映射关系可以表示为下述公式：

c^t＝z^f⊙c^t-1+zⁱ⊙z

h^t＝z°⊙tanh(c^t)

y^t＝σ(W′h^t)

在上述公式中，σ表示激活函数，W′表示加权处理的权重矩阵，t_anh表示激活函数，⊙表示向量点乘运算。

在上述过程中，由于时间序列中各个活跃度指标具有一定的时间先后关系，因此LSTM这种时间循环神经网络具有较好的预测性能，能够解决传统的RNN模型中存在的长期依赖以及梯度消失问题。

在一些实施例中，信息获取模型还可以是多层LSTM模型，此时在LSTM模型中具有多个隐藏层，每个隐藏层中均包含至少一个记忆单元，各个隐藏层中记忆单元处理逻辑与单层LSTM模型类似，只是上一个隐藏层中记忆单元的处理结果会输入到下一个隐藏层中对应位置的记忆单元中再次进行加权变换，这里不做赘述。

在一些实施例中，还可以采用双向LSTM模型，此时每个记忆单元不仅会考虑到上一个记忆单元的处理结果，还会考虑到下一个记忆单元的处理结果，从而不仅能够引入输入序列中的历史元素，而且还可以引入输入序列中未来元素，能够具有更好的分类性能。

203、服务器将预测概率符合目标条件的活跃标签确定为用户的活跃信息。

可选地，该目标条件可以是预测概率最高，或者，该目标条件还可以是预测概率大于概率阈值，本申请实施例不对目标条件的内容进行具体限定。

在一个示例中，比如活跃标签包括成长、活跃、衰退、流失、回流，其分别对应的预测概率为0.9、0.8、0.5、0.3、0.1，由于预测概率最高的数值是0.9，那么将预测概率为0.9的活跃标签“成长”确定为用户的活跃信息，也即是说，服务器将这个用户的用户活跃周期确定为成长阶段。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

本申请实施例提供的方法，通过获取用户的个人特征、用户活跃度的时间序列以及该时间序列的统计特征，将该个人特征、该时间序列以及该统计特征输入信息获取模型，通过该信息获取模型预测该用户属于不同活跃标签的预测概率，这些活跃标签是能够在信息获取模型的训练过程中预先定义的，使得预测过程具有更高的可控性，将预测概率符合目标条件的活跃标签确定为该用户的活跃信息，不仅能够在预测过程中综合用户的个人特征、用户活跃度随着时间推移的变化规律以及上述变换规律的统计特征，而且信息获取模型能够精准地分类出用户的活跃标签，而无需在聚类后进行人工标注，使得用户的活跃信息的获取方式具有更高的准确性，从而满足业务发展的需求。

在上述实施例中，提供了基于信息获取模型来获取用户的活跃信息的实现过程，在本申请实施例中将对信息获取模型的训练过程进行详细说明，图8是本申请实施例提供的一种信息获取模型的训练方法流程图，请参考图8，该训练方法可以应用于电子设备，以电子设备为服务器为例进行说明，该训练方法包括：

801、服务器获取样本用户的样本个人特征、样本时间序列、该样本时间序列的样本统计特征以及该样本用户的参考标签。

在上述过程中，获取样本用户的样本个人特征、样本时间序列以及样本统计特征的过程与上述步骤201类似，这里不做赘述。需要说明的是，样本用户的数量可以为至少一个，例如100个，本申请实施例不对样本用户的数量进行具体限定。

图9是本申请实施例提供的一种样本时间序列的示意图，请参考图9，901～906中分别示出了6个用户的样本时间序列，在901～906中，较为平滑的曲线为样本时间序列，而具有较多波动干扰的曲线为样本初始序列，其中，针对样本初始序列采取的平滑方式为指数平均，且横坐标均为统计单位，纵坐标均为活跃度指标(未示出)。

在获取样本用户的参考标签时，可以派遣业务人员对平滑后的样本时间序列进行人工标注，从而标注出当前的样本用户在用户活跃周期中所处的阶段，将标注出的阶段确定为样本用户的参考标签。假设标注数量为25000张，而每人在11分钟内可以对100个样本时间序列完成标注，那么最终合计需要的标注成本为46小时的人力。

在一些实施例中，还可以对每个样本时间序列派遣多人分别进行标注，根据多人的标注结果计算各个样本时间序列的标注结果的一致性，针对标注结果的一致性进行数据筛选，筛选得到标注结果的一致率高于目标阈值的样本用户，从而能够筛选出更具有代表性、活跃信息更加明显的优质样本。其中，该目标阈值可以是任一大于或等于0且小于或等于1的数值。例如，假设随机抽取了100个样本时间序列，每个样本时间序列安排两人以上进行盲标，在进行数据清洗时，可以将标注一致率大于90％的样本时间序列确定为达标样本，从而仅将达标样本投入到后续的模型训练过程中。

在一些实施例中，在获取到各个样本用户的样本个人特征、样本时间序列以及样本统计特征之后，即可将上述各个样本用户的样本个人特征、样本时间序列以及样本统计特征获取为一个用户特征集，在用户特征集中可以按照一定比例随机划分出训练集和测试集，例如，在用户特征集中随机选取70％的样本用户的相关特征作为训练集，剩余的30％的样本用户的相关特征作为测试集。

802、服务器基于该样本个人特征、该样本时间序列、该样本统计特征以及该参考标签，对初始获取模型进行训练，得到信息获取模型。

在上述训练过程中，对训练集中任一样本用户，服务器可以将该样本用户的样本个人特征、样本时间序列以及样本统计特征输入初始获取模型，通过该初始获取模型预测样本用户属于不同活跃标签的预测概率，将预测概率符合目标条件的活跃标签确定为样本用户的预测标签，上述过程与上述步骤202-203类似，这里不做赘述。对训练集中每个样本用户重复执行获取预测标签的过程，可以得到各个样本用户的预测标签，根据各个样本用户的预测标签以及参考标签之间的差异，可以得到本次迭代过程中的损失函数值，若不符合停止训练条件，可以对初始获取模型进行参数调整，基于调整后的模型迭代执行上述操作，直到符合停止训练条件时，将当前的模型确定为信息获取模型。

可选地，该停止训练条件可以是迭代次数大于次数阈值，该次数阈值可以是任一大于或等于1的数值，可选地，该停止训练条件还可以是损失函数值小于损失阈值，该损失阈值可以是任一大于或等于0且小于或等于1的数值，本申请实施例不对次数阈值和损失阈值的取值进行具体限定。

在一些实施例中，在获取到信息获取模型之后，由于将用户特征集划分成了训练集和测试集，训练集用于训练初始获取模型，而测试集则用于对训练得到的信息获取模型进行质量评估，评估过程与训练过程类似，仍然是将测试集中样本用户的样本个人特征、样本时间序列以及样本统计特征输入到信息获取模型中，通过该信息获取模型预测样本用户属于不同活跃标签的预测概率，将预测概率符合目标条件的活跃标签确定为样本用户的预测标签，上述过程与上述步骤202-203类似，这里不做赘述。进一步地，基于样本用户的预测标签与参考标签之间的差异，可以得到本次测试过程中的模型质量信息，该模型质量信息可以包括训练集的召回率或者精准率中至少一项，从而能够用来平均信息获取模型的分类效果。

在一些实施例中，由于信息获取模型可以采用多种不同的类型，此时可以分别对不同类型的信息获取模型均进行建模的训练，最后采用相同的测试集进行测试，得到不同类型的信息获取模型各自的模型质量信息，将模型指令信息最高的信息获取模型投入到实际的分类任务中。

图10是本申请实施例提供的一种信息获取模型的部署流程图，请参考图10，在数据准备阶段1001中，需要对样本用户进行活跃度指标构建，并生成样本用户的样本初始序列，在数据处理阶段1002中，需要对样本初始序列进行时序平滑处理，得到样本时间序列，并由业务人员对样本时间序列进行人工标注，得到样本用户的参考标签，在特征构建阶段1003中，需要获取样本用户的样本个人特征，并且获取各个样本时间序列的样本统计特征，结合样本个人特征、样本时间序列、样本统计特征来构建用户特征集，将用户特征集随机划分为训练集和测试集，在模型调优阶段1004中，采用训练集对初始获取模型进行训练，得到信息获取模型，采用测试集对信息获取模型进行质量评估，得到模型质量信息，在模型部署阶段1005中，通过模型质量信息最高的信息获取模型来进行实际的部署预测任务，将全量的未标注的用户的个人特征、时间序列以及统计特征输入到信息获取模型中，能够通过信息获取模型精准获取到各个用户的活跃信息，预测出全量用户在用户活跃周期中所处的阶段，相当于完成了对用户活跃周期的多分类任务。

在本申请实施例中，通过对样本初始序列进行平滑处理，能够提升样本时间序列的准确性和一致性，而由人工标注得到参考标签之后，对训练集中的样本用户进行多分类任务的预测建模，可以达到对用户活跃周期进行多分类的效果，基于活跃标签的选取，可以对用户活跃周期进行精细化的分类，有利于产品及业务团队针对不同活跃标签的用户制定差异化的产品策略，从而提升精细化的运营程度，能够带动产品的增长。

具体地，在使用本申请实施例所提供的信息获取模型来获取用户的活跃信息的过程中，信息获取模型的预测准确率能够达到90％以上，对于产品的差异化运营以及产品增长的任务中起到了至关重要的作用。

图11是本申请实施例提供的一种用户信息获取装置的结构示意图，请参考图11，该装置包括：

获取模块1101，用于获取用户的个人特征、用户活跃度的时间序列以及该时间序列的统计特征，该时间序列用于表示用户活跃度在统计周期内的变化规律，该统计特征用于表示该时间序列在统计学上的数据特征；

预测模块1102，用于将该个人特征、该时间序列以及该统计特征输入信息获取模型，通过该信息获取模型预测该用户属于不同活跃标签的预测概率，该活跃标签用于表示该用户在用户活跃周期中所处的阶段；

确定模块1103，用于将预测概率符合目标条件的活跃标签确定为该用户的活跃信息。

本申请实施例提供的装置，通过获取用户的个人特征、用户活跃度的时间序列以及该时间序列的统计特征，将该个人特征、该时间序列以及该统计特征输入信息获取模型，通过该信息获取模型预测该用户属于不同活跃标签的预测概率，这些活跃标签是能够在信息获取模型的训练过程中预先定义的，使得预测过程具有更高的可控性，将预测概率符合目标条件的活跃标签确定为该用户的活跃信息，不仅能够在预测过程中综合用户的个人特征、用户活跃度随着时间推移的变化规律以及上述变换规律的统计特征，而且信息获取模型能够精准地分类出用户的活跃标签，而无需在聚类后进行人工标注，使得用户的活跃信息的获取方式具有更高的准确性，从而满足业务发展的需求。

在一种可能实施方式中，该信息获取模型为长短期记忆网络LSTM模型；

该预测模块1102用于：

将该个人特征、该时间序列以及该统计特征输入LSTM模型中的至少一个记忆单元，通过该至少一个记忆单元对该个人特征、该时间序列以及该统计特征进行加权变换，得到该用户的特征向量，该特征向量的维度等于活跃标签的数量；

对该特征向量进行指数归一化处理，得到该用户属于不同活跃标签的预测概率。

在一种可能实施方式中，基于图11的装置组成，该获取模块1101包括：

采集单元，用于抽样采集该用户在统计周期内多个统计单位中的活跃度数据；

生成单元，用于基于该多个统计单位中的活跃度数据生成初始序列；

平滑单元，用于对该初始序列进行平滑处理，得到该时间序列。

在一种可能实施方式中，该活跃度数据包括在线时长、活跃次数或者活跃天数中至少一项；

该生成单元用于：

对任一个统计单位，对该统计单位中的在线时长、活跃次数或者活跃天数中至少一项进行加权以及归一化处理，得到该用户在该统计单位内的活跃度指标；

按照该用户在不同统计单位内的活跃度指标，构建该初始序列，该初始序列中一个元素用于表示该用户在一个统计单位内的活跃度指标。

在一种可能实施方式中，平滑处理的方式包括差值平均、移动平均或者指数平均中至少一项。

在一种可能实施方式中，该统计特征包括该时间序列的均值、方差、极大值、极小值、增长率、下降率、波动率或者周期性中至少一项。

在一种可能实施方式中，基于图11的装置组成，该装置还包括：

训练模块，用于获取样本用户的样本个人特征、样本时间序列、该样本时间序列的样本统计特征以及该样本用户的参考标签；基于该样本个人特征、该样本时间序列、该样本统计特征以及该参考标签，对初始获取模型进行训练，得到该信息获取模型。

需要说明的是：上述实施例提供的用户信息获取装置在获取用户信息时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将电子设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的用户信息获取装置与用户信息获取方法实施例属于同一构思，其具体实现过程详见用户信息获取方法实施例，这里不再赘述。

图12是本申请实施例提供的一种电子设备的结构示意图，该电子设备1200可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(CentralProcessing Units，CPU)1201和一个或一个以上的存储器1202，其中，该存储器1202中存储有至少一条程序代码，该至少一条程序代码由该处理器1201加载并执行以实现上述各个实施例提供的用户信息获取方法。当然，该电子设备1200还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该电子设备1200还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括至少一条程序代码的存储器，上述至少一条程序代码可由终端中的处理器执行以完成上述实施例中的用户信息获取方法。例如，该计算机可读存储介质可以是ROM(Read-Only Memory，只读存储器)、RAM(Random-Access Memory，随机存取存储器)、CD-ROM(Compact Disc Read-OnlyMemory，只读光盘)、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种用户信息获取方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述信息获取模型为长短期记忆网络LSTM模型；

所述将所述个人特征、所述时间序列以及所述统计特征输入信息获取模型，通过所述信息获取模型预测所述用户属于不同活跃标签的预测概率包括：

将所述个人特征、所述时间序列以及所述统计特征输入LSTM模型中的至少一个记忆单元，通过所述至少一个记忆单元对所述个人特征、所述时间序列以及所述统计特征进行加权变换，得到所述用户的特征向量，所述特征向量的维度等于活跃标签的数量；

对所述特征向量进行指数归一化处理，得到所述用户属于不同活跃标签的预测概率。

3.根据权利要求1所述的方法，其特征在于，获取用户活跃度的时间序列包括：

抽样采集所述用户在统计周期内多个统计单位中的活跃度数据；

基于所述多个统计单位中的活跃度数据生成初始序列；

对所述初始序列进行平滑处理，得到所述时间序列。

4.根据权利要求3所述的方法，其特征在于，所述活跃度数据包括在线时长、活跃次数或者活跃天数中至少一项；

所述基于所述多个统计单位中的活跃度数据生成初始序列包括：

对任一个统计单位，对所述统计单位中的在线时长、活跃次数或者活跃天数中至少一项进行加权以及归一化处理，得到所述用户在所述统计单位内的活跃度指标；

按照所述用户在不同统计单位内的活跃度指标，构建所述初始序列，所述初始序列中一个元素用于表示所述用户在一个统计单位内的活跃度指标。

5.根据权利要求3所述的方法，其特征在于，平滑处理的方式包括差值平均、移动平均或者指数平均中至少一项。

6.根据权利要求1所述的方法，其特征在于，所述统计特征包括所述时间序列的均值、方差、极大值、极小值、增长率、下降率、波动率或者周期性中至少一项。

7.根据权利要求1所述的方法，其特征在于，所述信息获取模型的训练过程包括：

获取样本用户的样本个人特征、样本时间序列、所述样本时间序列的样本统计特征以及所述样本用户的参考标签；

基于所述样本个人特征、所述样本时间序列、所述样本统计特征以及所述参考标签，对初始获取模型进行训练，得到所述信息获取模型。

8.一种用户信息获取装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，所述信息获取模型为长短期记忆网络LSTM模型；

所述预测模块用于：

10.根据权利要求8所述的装置，其特征在于，所述获取模块包括：

采集单元，用于抽样采集所述用户在统计周期内多个统计单位中的活跃度数据；

生成单元，用于基于所述多个统计单位中的活跃度数据生成初始序列；

平滑单元，用于对所述初始序列进行平滑处理，得到所述时间序列。

11.根据权利要求10所述的装置，其特征在于，所述活跃度数据包括在线时长、活跃次数或者活跃天数中至少一项；

所述生成单元用于：

12.根据权利要求10所述的装置，其特征在于，平滑处理的方式包括差值平均、移动平均或者指数平均中至少一项。

13.根据权利要求8所述的装置，其特征在于，所述统计特征包括所述时间序列的均值、方差、极大值、极小值、增长率、下降率、波动率或者周期性中至少一项。

14.一种电子设备，其特征在于，所述电子设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条程序代码，所述至少一条程序代码由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求7任一项所述的用户信息获取方法所执行的操作。

15.一种存储介质，其特征在于，所述存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行以实现如权利要求1至权利要求7任一项所述的用户信息获取方法所执行的操作。