CN110825969B

CN110825969B - 数据处理方法、装置、终端和存储介质

Info

Publication number: CN110825969B
Application number: CN201911081949.8A
Authority: CN
Inventors: 陈峭霖; 邓金涛; 庞炳之
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-11-07
Filing date: 2019-11-07
Publication date: 2024-05-14
Anticipated expiration: 2039-11-07
Also published as: CN110825969A

Abstract

本发明实施例公开了一种数据处理方法、装置、终端及存储介质，所述方法包括：获取目标用户的历史行为数据，历史行为数据包括目标用户对第一应用程序集中的各应用程序的使用数据，解析历史行为数据得到目标用户的特征数据及用户标签，调用目标预测模型对目标用户的特征数据以及用户标签进行计算，得到目标用户的预测数据，预测数据包括目标用户对第二应用程序集中的各应用程序的使用概率。通过实施上述方法，可以基于用户的特征数据以及用户标签对用户喜好的应用程序进行预测，且一次性输出多个预测结果，提升了数据处理的效率。

Description

数据处理方法、装置、终端和存储介质

技术领域

本发明涉及计算机应用技术领域，尤其涉及一种数据处理方法、装置、终端和存储介质。

背景技术

随着互联网技术的发展，各种各样的应用程序层出不穷，在丰富了终端(手机、电脑、平板电脑等)的功能时，也为用户的选择带来了困扰，用户可能难以从众多应用程序中选择出适合自己的应用程序。特别在游戏应用选择场景中，用户可以难以从众多游戏应用中筛选出适合自身的游戏。因此，可以根据用户的喜好向用户推荐一些游戏应用。

现有的根据用户喜好推荐游戏应用的方式中，往往针对单个游戏设置预测模型，并通过预测模型判断用户是否喜好该游戏，在游戏应用过多的情况下，设置多个模型来进行游戏喜好判断，效率低下，且各模型输出结果无法进行比较，也即无法设置评判指标评判用户对各个游戏的喜好程度。

发明内容

本发明实施例提供了一种数据处理方法、装置、终端及介质，可以基于用户的特征数据以及用户标签对用户喜好的应用程序进行预测，且一次性输出多个预测结果，提升数据处理的效率。

第一方面，本发明实施例提供了一种数据处理方法，所述方法包括：

获取目标用户的历史行为数据，所述历史行为数据包括所述目标用户对第一应用程序集中的各应用程序的使用数据，所述第一应用程序集中包含N个第一应用程序，所述N为正整数；

解析所述历史行为数据得到所述目标用户的特征数据及用户标签，所述用户标签包括N+1维数据，所述N+1维数据中前N维数据是由所述目标用户对所述N个第一应用程序的使用数据对应的N个数值构成的，所述第N+1维数据由所述前N维数据对应的N个数值确定；

调用目标预测模型对所述目标用户的特征数据以及用户标签进行计算，得到所述目标用户的预测数据，所述预测数据包括所述目标用户对第二应用程序集中的各应用程序的使用概率，所述第二应用程序集中包含M个第二应用程序，所述M为正整数。

第二方面，本发明实施例提供了一种数据处理装置，所述装置包括：

获取模块，用于获取目标用户的历史行为数据，所述历史行为数据包括所述目标用户对第一应用程序集中的各应用程序的使用数据，所述第一应用程序集中包含N个第一应用程序，所述N为正整数；

解析模块，用于解析所述历史行为数据得到所述目标用户的特征数据及用户标签，所述用户标签包括N+1维数据，所述N+1维数据中前N维数据是由所述目标用户对所述N个第一应用程序的使用数据对应的N个数值构成的，所述第N+1维数据由所述前N维数据对应的N个数值确定；

调用模块，用于调用目标预测模型对所述目标用户的特征数据以及用户标签进行计算，得到所述目标用户的预测数据，所述预测数据包括所述目标用户对第二应用程序集中的各应用程序的使用概率，所述第二应用程序集中包含M个第二应用程序，所述M为正整数。

第三方面，本发明实施例提供了一种终端，包括处理器、输入接口、输出接口和存储器，所述处理器、输入接口、输出接口和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行第一方面所述的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行第一方面所述的方法。

本发明实施例中，终端获取目标用户的历史行为数据，历史行为数据包括目标用户对第一应用程序集中的各应用程序的使用数据，终端解析历史行为数据得到目标用户的特征数据及用户标签，并调用目标预测模型对目标用户的特征数据以及用户标签进行计算，得到目标用户的预测数据，预测数据包括所述目标用户对第二应用程序集中的各应用程序的使用概率。通过实施上述方法，可以基于游戏特征以及用户标签对用户喜好的应用程序进行预测，并且，模型采用多输出的方式，可以一次性对多个应用程序进行预测，并基于输出结果预测用户对各个应用程序的喜好程度，提升数据处理的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种数据处理方法的流程示意图；

图2是本发明实施例提供的一种目标预测模型的结构示意图；

图3是本发明实施例提供的一种模型训练方法的流程示意图；

图4是本发明实施例提供的一种基于预测模型进行数据预测的流程示意图；

图5是本发明实施例的一种数据处理装置的结构示意图；

图6是本发明实施例的一种终端的结构示意图。

具体实施方式

多分类：机器学习概念，指目标因变量可能有多种离散取值，但互相排斥，即观测值只能属于其中的一类。

多标签：机器学习概念，是多分类的拓展形式，多标签目标的因变量可以同时属于多种类别。

BP_MLL模型：Back Propagation Multi-Label Learning，是一种旨在使用神经网络，并对传统分类模型损失函数进行改写，从而考虑了标签之间弱相关性的多标签算法。

ML_DT模型：Multi-Label Decision Tree，是一种以决策树为基础，使用多标签交叉熵作为损失建立的多标签模型，缺点是在高维度标签中无法考虑标签相关性。

ML_KNN模型:Multi-Label K近邻，是一种在K近邻方法上，使用最大后验概率以及贝叶斯公式计算目标样本所属标签概率的多标签模型。

混合类型数据(Mixed Type Date)：指特征中既包含了连续性数据，又包含了分类型数据，甚至更复杂的数据形式。

AUC(Area Under Curve)：是评价二分类模型的重要指标。

随着终端的普及，人们在沟通、社交、娱乐等活动中越来越依赖于终端中的应用程序，然而，对于用户而言，在用户对应用程序使用的过程中，由于应用程序的种类繁多，用户可能从众多的应用程序中难以挑选出自己喜好的应用程序，则用户可以基于应用程序推广广告获取到自身喜好的应用程序，对于应用程序开发者而言，在应用程序开发完成后需要将其推广至喜好该应用程序的用户，因此，如何预测用户的喜好，进而判断用户是否会使用该应用程序，成为亟待解决的问题。例如，针对游戏类应用程序，目标游戏的开发者可以获取到不同用户玩过的游戏的特征，并结合每个用户玩过的游戏特征确定每个用户的喜好，以预测各个用户是否会注册该目标游戏，并基于上述预测数据进行游戏推广。

本发明实施例的相关技术提及，针对单个应用程序的预测方案，可以采用二分类模型预测用户使用该应用程序的概率，即从用户的历史行为数据中提取特征数据输入至二分类模型中，由该二分类模型输出针对用户使用应用程序的概率。针对多个应用程序的预测方案，可以采用以下四种方案确定用户对于多个应用程序中每个应用程序的使用概率。具体包括第一类问题转化型方法、第二类问题转化型方法、压缩预测时间段方法和算法适应型方法，其中，第一类问题转化型方法将针对多个应用程序预测方案转变为多个针对单个应用程序的预测方案，即针对多个应用程序中的每个应用程序，都建立一个二分类模型，并根据多个二分类模型的输出结果确定上述多个应用程序的预测结果。第二类问题转化型方法将针对多个应用程序的预测方案视为多分类问题，并使用多分类模型解决问题，该种思维将多个应用程序对应的每一种排列组合都视为新的类别。压缩预测时间段方法在第二类问题转化型方法的基础上忽略掉用户在一定时间内注册多个游戏的可能，即减少多个应用程序对应的排列组合的数量，将样本压缩后再使用多分类模型解决问题。算法适应型方法即采用以ML_KNN，ML_DT，BP_MLL为代表的多标签模型，直接预测用户针对多个应用程序中每个应用程序的使用概率。

针对第一类问题转化型方法，当需要预测的应用程序的数量过多，每增加一款应用程序就需要增加一个预测模型，十分消耗运算资源，并且，由于多模型之间互不干涉，因此需要极强的独立性假设。针对第二类问题转化型方法，当需要预测的应用程序的数量过多时，会带来超高的维度分类，对数据存储以及模型计算都带来极大困难。针对压缩预测时间段方法，压缩预测时间段带来的利弊是显然的，缩小时间段能解决多个应用程序带来的高维度问题，使其成为多分类，然而，样本量也同时被压缩了很多，从而预测质量的下降。针对算法适应型方法，目前可用的通用多标签算法中，大多对于预测用户应用程序使用场景有着不适应的状况，譬如ML_KNN在计算近邻距离时对混合类型数据表现不好；ML_DT在标签维度较高时需要忽略标签间的相关性；BP_MLL算法对于本场景适应最好，但是仍有一定缺陷，例如其原生形式无法解决应用程序对应的标签的稀疏问题，无法引进不使用预设程序集中的应用程序的用户(即无标签用户)样本学习。具体体现在，BP_MLL模型不适应高度稀疏场景：与深度学习种的图片多标签识别场景不同，用户对于应用程序的使用场景往往有着极大的标签稀疏性，一张图片可以包含很多元素从而拥有较多标签，但是用户对于应用程序通常只会在已上线的众多应用程序中注册使用少量应用程序。并且，BP_MLL模型不适用于预测无标签或者全标签情况，而用户对于应用程序的使用场景却拥有着极大部分的无标签用户，即用户不会使用预设应用程序集中的使用任何一款应用程序，其中，预设应用程序集可以为包括多个游戏应用程序的集合。

基于此，本发明实施例提出了一种数据处理方法，由终端获取目标用户的历史行为数据，并解析历史行为数据得到目标用户的特征数据及用户标签，终端调用目标预测模型对目标用户的特征数据以及用户标签进行计算，得到目标用户的预测数据，其中，历史行为数据包括目标用户对第一应用程序集中的各应用程序的使用数据，预测数据包括目标用户对第二应用程序集中的各应用程序的使用概率，目标预测模型为利用适当激活函数构建的前馈神经网络模型，且该神经网络模型中的多标签反向转播损失函数相较于传统BP_MLL模型中的函数做了优化，目标预测模型的结构也适应与应用程序的使用预测，在预测过程中考虑到了标签检测相关性。因此，本方案通过改进BP_MLL算法，并调整标签结构使其可以学习不使用预设应用程序集中的使用任何一款应用程序的用户样本，且更少给出自相矛盾的结果。本发明实施例提出的数据处理方法在考虑了标签相关性时，同时解决了预测稀疏标签的问题。另外由于只建立了一个前馈神经网络模型，模型运算消耗资源低，维护成本低。

基于上述描述，本发明实施例提供一种数据处理方法，请参见图1，该数据处理过程可包括以下步骤S101-S103：

S101、终端获取目标用户的历史行为数据。

本发明实施例中，历史行为数据包括目标用户对第一应用程序集中的各应用程序的使用数据，第一应用程序集中包含N个第一应用程序，N为正整数。例如，第一应用程序为游戏应用程序，则第一应用程序集中包括了N个不同的游戏应用程序，终端可以从上述N个游戏应用程序的后台服务器中获取到目标用户针对上述N个游戏应用程序的使用数据，具体可以包括目标用户的个人信息(如性别、年龄、地址、付费能力等)、针对游戏应用程序使用情况(如已使用或未使用、使用时长等)、用户的游戏应用程序偏好特征(如用户在某种游戏应用程序下月平均在线时长、充值总金额等)、游戏应用程序的特征(如游戏应用程序的画风，游戏应用程序的类别等)、游戏应用程序集中的各游戏应用程序中的注册数据等。终端可以从游戏应用程序的后台服务器中获取到上述历史行为数据。

S202、终端解析历史行为数据得到目标用户的特征数据及用户标签。

本发明实施例中，终端获取目标用户的历史行为数据之后，将对历史行为数据进行解析，得到目标用户的特征数据以及用户标签。具体的，终端可以先对历史行为数据进行清洗，如删除历史行为数据中的部分异常值、缺失值等，然后基于清洗后的数据进行解析，得到特征数据和用户标签，其中，特征数据具体可以包括目标用户的属性数据和第一应用程序集中的各应用程序的属性数据，其中，目标对象属性数据包含年龄、性别、地址和偏好，其中，偏好包括用户对于第一应用程序的月均使用时长、充值金额等。第一应用程序集中的各应用程序的属性数据包括类型、占用空间和主题。

具体实现中，历史行为数据还包括了包括目标用户在所述第一应用程序集中的各应用程序中的注册数据，终端解析历史行为数据得到目标用户的用户标签的具体方式为，终端根据注册数据，从N个第一应用程序中确定目标用户已注册的a个第一应用程序和未注册的N-a个第一应用程序，并根据已注册的第一应用程序和未注册的第一应用程序进行标签化处理，得到目标用户的用户标签，用户标签包括N+1个字符，N+1个字符中前N个字符按序排列，且N+1个字符中前N个字符与所述N个第一应用程序一一对应；其中，若a为非零，则N+1个字符中前N个字符中包括a个第一字符和N-a个第二字符，已注册的第一应用程序对应第一字符，未注册的第一应用程序对应第二字符，第N+1个字符为第二字符；若a为零，则N+1个字符中前N个字符对应第二字符，第N+1个字符为第一字符。即终端在用户标签中新引入了一维标签，如目标用户未注册任何第一应用程序，则目标用户的用户标签中最后一维新引入标签则为第一字符，目标用户注册了一个或多个第一应用程序，则目标用户的用户标签中最后一维新引入标签为第二字符。

举例说明，第一应用程序为游戏应用程序，则第一应用程序集中存储了5个游戏应用程序，第一字符为1，第二字符为-1，若目标用户注册N个游戏应用程序中的第一个和第二个，则目标用户对应的用户标签为(1，1，-1，-1，-1，-1)，即用户标签中前5位字符与5个游戏应用程序的注册情况相对应，最后一位字符为-1。若目标用户没有注册N个应用程序中的任意一个，则目标用户对应的用户标签为(-1，-1，-1，-1，-1，1)，即用户标签中前5位字符与5个游戏应用程序的注册情况相对应，最后一位字符为1。

本发明实施中，针对传统BP_MLL算法进行改进，传统做法此处剔除了没有任何标签的用户，否则训练模型时会导致因损失函数出现正无穷而失败。而此处，我们新引入了一维标签，如若出现没有任何标签的用户，那么最后一维新引入标签则为1，否则为-1。

S203、终端调用目标预测模型对目标用户的特征数据以及用户标签进行计算，得到目标用户的预测数据。

本发明实施例中，预测数据包括目标用户对第二应用程序集中的各应用程序的使用概率，第二应用程序集中包含M个第二应用程序，M为正整数。第一应用程序集与第二应用程序集之间存在非空交集，或者，第一应用程序集与第二应用程序集之间存在空交集。终端解析历史行为数据得到目标用户的特征数据及用户标签之后，将调用目标预测模型对目标用户的特征数据以及用户标签进行计算，得到目标用户的预测数据。

具体实现中，目标预测模型包括输入层、隐含层和输出层，终端调用目标预测模型对目标用户的特征数据以及用户标签进行计算的具体方式可以为，终端调用输入层将目标用户的特征数据以及用户标签传输至隐含层，在隐含层中对目标用户的特征数据以及用户标签进行激活处理，得到目标数据；以及，在输出层中将所述激活处理后的目标数据的值域映射到预设概率区间内，得到目标用户的预测数据。其中，隐含层包括第一隐含层、第二隐含层和第三隐含层；在隐含层中对目标用户的特征数据以及用户标签进行激活处理，得到目标数据的具体方式可以为，在第一隐含层中采用双曲正切函数对目标用户的特征数据以及用户标签进行激活处理，得到第一数据；在第二隐含层中采用双曲正切函数对第一数据进行激活处理，得到第二数据；在第三隐含层采用线性函数对所述第二数据进行激活处理，得到目标数据。

如图3所示，为本发明实施例提供的一种目标预测模型的结构示意图，图3的模型结构中，输入层用于接收目标用户的特征数据以及标签数据，第一隐含层可以包括K个隐藏神经元，且搭配有双曲正切函数，第二隐含层可以包括K个隐藏神经元，也搭配有双曲正切函数，第二隐含层可以包括L个隐藏神经元，且搭配有线性函数，输出层搭配有sigmoid函数，用于将第二应用程序集中每一个第二应用程序对应的输出映射为0-1的概率值，输出层可以搭配有M+1个输出元。其中，K和L为正整数，如512、1024等，具体可以由研发人员预先设定，M具体可以为第二应用程序集中第二应用程序的数量，目标预测模型通过M+1个输出元可以输出M+1维数据，其中，M+1维数据中前M个字符与第二应用程序集中M个第二应用程序一一对应，具体表示目标用户对于每个第二应用程序的使用概率，当前M个字符都为第二字符时，第M+1个字符为第一字符，当前M个字符不全为第二字符时，第M+1个字符为第二字符。进一步的，终端可以基于模型输出的概率值进行比较，确定出目标用户对于第二应用程序集中不同应用程序的喜好程度，即第二应用程序对应的概率值越高，喜好程度越高。

需要说明的是，目标预测模型具体可以为优化后的预测模型，对预测模型进行训练优化的方式具体可以如步骤S201-S204所示。

本发明实施例中，终端获取目标用户的历史行为数据，历史行为数据包括所述目标用户对第一应用程序集中的各应用程序的使用数据，终端解析历史行为数据得到目标用户的特征数据及用户标签，终端调用目标预测模型对目标用户的特征数据以及用户标签进行计算，得到目标用户的预测数据，预测数据包括所述目标用户对第二应用程序集中的各应用程序的使用概率。通过实施上述方法，可以基于游戏特征以及用户标签对用户喜好的应用程序进行预测，并且，模型采用多输出的方式，可以一次性对多个应用程序进行预测，并基于输出结果确定用户对各个应用程序的喜好程度。

请参见图2，为步骤S103中预测模型训练方法的流程示意图，该模型训练过程具体可包括以下步骤S201-S204：

S201、终端获取初始预测模型及目标损失函数。

本发明实施例中，初始预测模型可以为一个神经网络模型，其模型结构如图2所示，包括输入层、第一隐含层、第二隐含层、第三隐含层和输出层，该神经网络模型中网络结构的权重为随机的，目标损失函数包括反向传播多标签学习函数因子、正比例控制因子和指数损失控制因子，正比例控制因子用于提高所述目标损失函数的召回率，指数损失控制因子用于化解标签之间的强相关性带来的矛盾结果，其中，反向传播多标签学习函数因子具体可以为BP_MLL损失函数，其形式如下图所示：

其中，N为总样本数，分母中Y_i为第i样本所具有的标签集合，为第i样本所具有标签的补集，#代表集合元素中的个数，指数项中f(x_i)_l代表模型在第i样本第l标签的输出值，f(x_i)_h代表模型在第i样本第h标签的输出值。

然而，在用户对于应用程序使用场景下发现该损失函数对于极度稀疏标签效果不好(即应用程序个数很多，但是用户在短时间内也只会使用一两个应用程序)，于是本发明实施例在反向传播多标签学习函数因子增添了正比例控制因子α，以控制模型预测标签为正的比例，添加正比例控制因子α后的损失函数如下所示：

容易验证加入权重后，损失函数的反向传播链式求导法则并不会受到影响，若参数权重大于1，则模型会倾向于加大标签所在位置的预测值，而一定程度上忽略标签不在位置的预测值优化，亦即强化了召回率，但是牺牲了准确率，通过加入正比例控制因子α，使得此权重可根据场景调整，而在用户对应用程序的使用预测场景中，召回率显然更为重要。

解决了稀疏问题后，由于引入了强相关的标签(新加入的“无”标签)，模型有时会给出自相矛盾的结果(例如最后输出用户既无标签，又具有其他标签)使其输出更具迷惑性，而难以解释。为了避免这样的矛盾，因此，本发明实施例在对损失函数添加指数损失控制因子exp(-y_m+1f(x_i)_m+1)+1，即得到最终的目标损失函数：

其中，y_m+1表示i个样本对应的向量中的第m+1维向量，f(x_i)_m+1表示第i个样本中第m+1个元素的输出，上述损失函数引入了新加入标签的指数损失，当模型对新加入标签预测较准时，那么上述损失将会逼近未调整前的损失，否则将会受到较严厉的惩罚。由于在放入模型学习的标签中是真实情况，不可能存在自相矛盾的样本，因此根据这样的较强惩罚，能够有效降低模型误输出的概率。另外，由于引入乘子为指数函数加1，函数性质良好，同样对神经网络的反向传播求导，以及BP_MLL损失函数的优良性质有所保留。

S202、终端按照最小化目标损失函数的原则对初始预设模型进行训练，得到优化的预测模型。

本发明实施例中，终端获取初始预测模型及目标损失函数之后，将按照最小化目标损失函数的原则对初始预设模型进行训练，得到优化的预测模型。

具体实现中，终端获取样本特征数据和样本用户标签，并将样本特征数据以及样本用户标签输入至初始预测模型进行预测处理，得到输出结果，具体的，终端使用目标损失函数计算损失，并根据反向传播法则(链式求导以及梯度下降)更新上述初始网络模型中网络结构权重，并保存该更新后的网络结构权重，最后达到预设的迭代次数后返回最新的输出结果，以及根据该最新的输出结果确定最终的网络结构权重。终端将最终的网络结构权重对应的预测模型确定为优化的预测模型。

举例说明，训练时采用N个样本用户进行训练，则预测模型的输入对于每个样本用户来说是样本用户的样本特征数据样本标签数据，其中，每个样本用户的样本特征数据样本标签数据可以首先被向量化为一个H维矩阵，那么对于全部N个用户，就是N乘H的矩阵X1，终端将X1输入模型后，经过下图的网络结构，输出第一个f(X1)，终端使用目标损失函数计算损失L(f(X1),y)，并根据反向传播法则(链式求导以及梯度下降)更新上述网络结构权重，并保存更新的网络结构权重，最后达到预设的迭代次数后返回最新的f(X1)，以及得到最终的网络结构权重。终端将最终的网络结构权重对应的预测模型确定为优化的预测模型。

S203、终端获取测试特征数据和测试用户标签，并将测试特征数据以及测试用户标签输入至优化的预测模型进行预测处理，得到测试输出结果。

本发明实施例中，终端确定优化的预测模型之后，将获取测试特征数据和测试用户标签，并将测试特征数据以及测试用户标签输入至优化的预测模型进行预测处理，得到测试输出结果。

S204、终端采用评估损失函数评估测试输出结果的预测损失，若预测损失小于预设阈值，则将优化的预测模型确定为目标预测模型。

本发明实施例中，终端得到测试输出结果之后，将采用评估损失函数评估测试输出结果的预测损失，由于引入“无”标签，本发明实施例重新设计了针对预测模型的评估损失函数，以正确的评价目标预测模型的输出。具体的，本发明实施例将“无”标签视为一个二分类问题，产出其AUC，由于损失函数调整的原因，对该AUC要求较高，只有在AUC较高的情况下，其余标签给出的结果才是可信的。因此，本发明实施例将其余多标签指标乘上AUC，以此评价目标预测模型，其中，计算预测损失HLoos_auc的评估损失函数具体可以为：

其中，AUC为评价二分类模型的重要指标，m为标签的数量，f(x_i)表示第i个样本的输出，由该公式输出针对测试输出结果的预测损失，ΔY_i表示Y_i为第i样本所具有的标签集合的梯度，若预测损失小于预设阈值，则将优化的预测模型确定为目标预测模型。若预测损失大于或等于预设阈值，则对该优化的预测模型进行重新调参训练，直至预测损失小于该预设阈值。

本发明实施例中，在训练目标预测模型时针对目标配置的损失函数以及评估模型的预测损失评估损失函数，使得训练得到的目标网络模型更为适用于较为稀疏的多输出场景，并有效地抑制了模型输出不正常结果的可能性，增强了模型可解释性。

在一种实施场景中，应用程序为游戏，本发明实施提供的数据方法用于预测将来某一时间段内用户注册游戏的预测。如图3所示，为对用户进行游戏注册预测的流程示意图，该预测流程包括特征工程部分、训练模型部分和预测部分。其中，特征工程部分用于提取样本用户的样本对象特征和样本用户标签，训练模型部分用于根据提取的样本对象特征和样本用户标签对模型进行训练，预测部分用于获取到线上用户数据后对用户可能注册的游戏进行预测。具体的，特征工程部分包括以下流程，获取至少一个样本用户历史游戏数据，对数据进行清洗后提取特征数据和用户标签。其中，提取的数据部分用于模型训练，部分用于模型测试，即提取的特征数据和用户标签包括训练用的训练集标签和训练集特征，以及测试用的测试集标签和测试集特征，将训练集标签和训练集特征输入至神经网络模型中，并基于目标损失函数对神经网络模型进行训练，以及将测试集标签和测试集特征输入至神经网络模型中，以对神经网络模型进行测试，进一步的，模型输出预测结果之后，将输出结果进行存储，并采用评估损失函数对预测结果进行损失计算，以评估模型效果，当模型效果达到预期时，将此时的模型确定为目标预测模型。进一步的，当需要对用户进行游戏注册预测时，获取到线上用户数据，并提取线上用户的特征数据和用户标签，将特征数据和用户标签输入值目标预测模型中，使得目标预测模型输出预测标签，其中，预测标签中包括了用户对于每一个游戏的注册概率。进一步的，还可以基于用户的真实注册数据对该目标预测模型的效果进行评估。

本发明实施例中，终端可以基于游戏特征以及用户标签对用户喜好的游戏进行预测，并且，模型采用多输出的方式，可以一次性对多个游戏进行预测，并基于输出结果确定用户对各个游戏的喜好程度。

基于上述数据处理方法实施例的描述，本发明实施例还公开了一种数据处理装置，该数据处理装置可以是运行于终端中的一个计算机程序(包括程序代码)，也可以是包含在终端中的一个实体装置。该数据处理装置可以执行图1和图2所示的方法。请参见图5，该数据处理装50包括：获取模块501、解析模块502、调用模块503、训练模块504、确定模块505。

获取模块501，用于获取目标用户的历史行为数据，所述历史行为数据包括所述目标用户对第一应用程序集中的各应用程序的使用数据，所述第一应用程序集中包含N个第一应用程序，所述N为正整数；

解析模块502，用于解析所述历史行为数据得到所述目标用户的特征数据及用户标签，所述用户标签包括N+1维数据，所述N+1维数据中前N维数据是由所述目标用户对所述N个第一应用程序的使用数据对应的N个数值构成的，所述第N+1维数据由所述前N维数据对应的N个数值确定；

调用模块503，用于调用目标预测模型对所述目标用户的特征数据以及用户标签进行计算，得到所述目标用户的预测数据，所述预测数据包括所述目标用户对第二应用程序集中的各应用程序的使用概率，所述第二应用程序集中包含M个第二应用程序，所述M为正整数。

在一种实现方式中，所述特征数据包括所述目标用户的属性数据和所述第一应用程序集中的各应用程序的属性数据，所述目标对象属性数据包含年龄、性别、地址和偏好，所述第一应用程序集中的各应用程序的属性数据包括类型、占用空间和主题。

在一种实现方式中，所述历史行为数据包括所述目标用户在所述第一应用程序集中的各应用程序中的注册数据，所述第一应用程序集中的N个第一应用程序按序排列，所述解析模块502，具体用于：

根据所述注册数据，从所述N个第一应用程序中确定所述目标用户已注册的a个第一应用程序和未注册的N-a个第一应用程序，所述a为正整数；

根据所述已注册的第一应用程序和未注册的第一应用程序进行标签化处理，得到所述目标用户的用户标签，所述用户标签包括N+1个字符，所述N+1个字符中前N个字符按序排列，且所述N+1个字符中前N个字符与所述N个第一应用程序一一对应；

其中，若a为非零，则所述N+1个字符中前N个字符中包括a个第一字符和N-a个第二字符，已注册的第一应用程序对应第一字符，未注册的第一应用程序对应第二字符，第N+1个字符为第二字符；若a为零，则所述N+1个字符中前N个字符对应第二字符，第N+1个字符为第一字符。

在一种实现方式中，所述目标预测模型包括输入层、隐含层和输出层，所述调用模块503具体用于：

调用所述输入层将所述目标用户的特征数据以及所述用户标签传输至所述隐含层；

在所述隐含层中对所述目标用户的特征数据以及用户标签进行激活处理，得到目标数据；以及，

在所述输出层中将所述激活处理后的目标数据的值域映射到预设概率区间内，得到所述目标用户的预测数据。

在一种实现方式中，所述隐含层包括第一隐含层、第二隐含层和第三隐含层，所述调用模块503具体用于：

在所述第一隐含层中采用双曲正切函数对所述目标用户的特征数据以及用户标签进行激活处理，得到第一数据；

在所述第二隐含层中采用双曲正切函数对所述第一数据进行激活处理，得到第二数据；

在所述第三隐含层采用线性函数对所述第二数据进行激活处理，得到所述目标数据。

在一种实现方式中，所述获取模块501，还用于获取初始预测模型及目标损失函数，所述目标损失函数包括反向传播多标签学习函数因子、正比例控制因子和指数损失控制因子，所述正比例控制因子用于提高所述目标损失函数的召回率，所述指数损失控制因子用于化解标签之间的强相关性带来的矛盾结果；

所述训练模块504，用于按照最小化目标损失函数的原则对所述初始预设模型进行训练，得到优化的预测模型；

在一种实现方式中，确定模块505，用于：

获取测试特征数据和测试用户标签；

将所述测试特征数据以及所述测试用户标签输入至所述优化的预测模型进行预测处理，得到测试输出结果；

采用评估损失函数评估所述测试输出结果的预测损失；

若所述预测损失小于预设阈值，则将所述优化的预测模型确定为目标预测模型。

本发明实施例中，获取模块501获取目标用户的历史行为数据，历史行为数据包括目标用户对第一应用程序集中的各应用程序的使用数据，解析模块502解析历史行为数据得到目标用户的特征数据及用户标签，调用模块503调用目标预测模型对目标用户的特征数据以及用户标签进行计算，得到目标用户的预测数据，预测数据包括所述目标用户对第二应用程序集中的各应用程序的使用概率。通过实施上述方法，可以基于游戏特征以及用户标签对用户喜好的应用程序进行预测，并且，模型采用多输出的方式，可以一次性对多个应用程序进行预测，并基于输出结果预测用户对各个应用程序的喜好程度，提升数据处理的效率。

请参见图6，为本发明实施例提供的一种终端的结构示意图。如图6所示，该终端包括：至少一个处理器601，输入设备603，输出设备604，存储器605，至少一个通信总线602。其中，通信总线602用于实现这些组件之间的连接通信。其中，存储器605可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器605可选的还可以是至少一个位于远离前述处理器601的存储装置。其中处理器601可以结合图5所描述的装置，存储器605中存储一组程序代码，且处理器601，输入设备603，输出设备604调用存储器605中存储的程序代码，用于执行以下操作：

处理器601，用于获取目标用户的历史行为数据，所述历史行为数据包括所述目标用户对第一应用程序集中的各应用程序的使用数据，所述第一应用程序集中包含N个第一应用程序，所述N为正整数；

处理器601，用于解析所述历史行为数据得到所述目标用户的特征数据及用户标签，所述用户标签包括N+1维数据，所述N+1维数据中前N维数据是由所述目标用户对所述N个第一应用程序的使用数据对应的N个数值构成的，所述第N+1维数据由所述前N维数据对应的N个数值确定；

处理器601，用于调用目标预测模型对所述目标用户的特征数据以及用户标签进行计算，得到所述目标用户的预测数据，所述预测数据包括所述目标用户对第二应用程序集中的各应用程序的使用概率，所述第二应用程序集中包含M个第二应用程序，所述M为正整数。

在一种实现方式中，所述历史行为数据包括所述目标用户在所述第一应用程序集中的各应用程序中的注册数据，所述第一应用程序集中的N个第一应用程序按序排列，处理器601，具体用于：

在一种实现方式中，所述目标预测模型包括输入层、隐含层和输出层，处理器601，具体用于：

在一种实现方式中，述隐含层包括第一隐含层、第二隐含层和第三隐含层，处理器601，具体用于：

在一种实现方式中，处理器601，具体用于：

获取初始预测模型及目标损失函数，所述目标损失函数包括反向传播多标签学习函数因子、正比例控制因子和指数损失控制因子，所述正比例控制因子用于提高所述目标损失函数的召回率，所述指数损失控制因子用于化解标签之间的强相关性带来的矛盾结果；

按照最小化目标损失函数的原则对所述初始预设模型进行训练，得到优化的预测模型

在一种实现方式中，处理器601，具体用于：

获取测试特征数据和测试用户标签；

采用评估损失函数评估所述测试输出结果的预测损失；

本发明实施例中，处理器601获取目标用户的历史行为数据，历史行为数据包括目标用户对第一应用程序集中的各应用程序的使用数据，处理器601解析历史行为数据得到目标用户的特征数据及用户标签，处理器601调用目标预测模型对目标用户的特征数据以及用户标签进行计算，得到目标用户的预测数据，预测数据包括所述目标用户对第二应用程序集中的各应用程序的使用概率。通过实施上述方法，可以基于游戏特征以及用户标签对用户喜好的应用程序进行预测，并且，模型采用多输出的方式，可以一次性对多个应用程序进行预测，并基于输出结果预测用户对各个应用程序的喜好程度，提升数据处理的效率。

本发明实施例中所述模块，可以通过通用集成电路，例如CPU(CentralProcessing Unit，中央处理器)，或通过ASIC(Application Specific IntegratedCircuit，专用集成电路)来实现。

应当理解，在本发明实施例中，所称处理器601可以是中央处理模块(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

总线602可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互联(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等，该总线602可以分为地址总线、数据总线、控制总线等，为便于表示，图6仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的计算机可读存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccess Memory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种数据处理方法，其特征在于，包括：

获取目标用户的历史行为数据，所述历史行为数据包括所述目标用户对第一应用程序集中的各应用程序的使用数据，所述第一应用程序集中包含N个第一应用程序，所述N为正整数；所述使用数据包括注册数据；

解析所述历史行为数据得到所述目标用户的特征数据及用户标签，所述用户标签包括N+1维数据，所述N+1维数据中前N维数据是由所述目标用户对所述N个第一应用程序的使用数据对应的N个数值构成的，所述第N+1维数据由所述前N维数据对应的N个数值确定，且所述前N维数据与所述N个第一应用程序一一对应；其中，所述前N维数据中任一维数据对应的数值用于指示：所述目标用户对所述任一维数据对应的第一应用程序的注册情况；所述N+1维数据中的第N+1维数据用于指示：所述N个第一应用程序均未被注册，或者所述N个第一应用程序中存在第一应用程序被注册；所述N+1维数据的数据结构能够让目标预测模型学习不使用所述第一应用程序集中的任一第一应用程序的用户样本；

调用目标预测模型对所述目标用户的特征数据以及用户标签进行计算，得到所述目标用户的预测数据，所述预测数据包括所述目标用户对第二应用程序集中的各应用程序的使用概率，所述第二应用程序集中包含M个第二应用程序，所述M为正整数；其中，所述目标预测模型的目标损失函数包括指数损失控制因子，所述指数损失控制因子用于化解标签之间的强相关性带来的矛盾结果；标签之间的强相关性带来的矛盾结果是指：由于N+1维数据中引入第N+1维数据所引起的所述目标预测模型的输出结果自相矛盾。

2.根据权利要求1所述的方法，其特征在于，所述特征数据包括所述目标用户的属性数据和所述第一应用程序集中的各应用程序的属性数据，所述目标对象属性数据包含年龄、性别、地址和偏好，所述第一应用程序集中的各应用程序的属性数据包括类型、占用空间和主题。

3.根据权利要求1所述的方法，其特征在于，所述第一应用程序集中的N个第一应用程序按序排列，所述解析所述历史行为数据得到所述目标用户的用户标签，包括：

根据所述已注册的第一应用程序和未注册的第一应用程序进行标签化处理，得到所述目标用户的用户标签，所述用户标签包括N+1个字符，所述N+1个字符中前N个字符按序排列，且所述N+1个字符中前N个字符与所述N个第一应用程序一一对应；所述N+1个字符为所述N+1维数据对应的N+1个数值；

4.根据权利要求1所述的方法，其特征在于，所述目标预测模型包括输入层、隐含层和输出层，所述调用目标预测模型对所述目标用户的特征数据以及用户标签进行计算，包括：

5.根据权利要求4所述的方法，其特征在于，所述隐含层包括第一隐含层、第二隐含层和第三隐含层，所述在所述隐含层中对所述目标用户的特征数据以及用户标签进行激活处理，得到目标数据，包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取初始预测模型及目标损失函数，所述目标损失函数包括反向传播多标签学习函数因子和正比例控制因子，所述正比例控制因子用于提高所述目标损失函数的召回率；

按照最小化目标损失函数的原则对所述初始预设模型进行训练，得到优化的预测模型。

7.根据权利要求6所述的方法，其特征在于，所述按照最小化目标损失函数的原则对所述初始预设模型进行训练，得到优化的预测模型之后，所述方法还包括：

获取测试特征数据和测试用户标签；

采用评估损失函数评估所述测试输出结果的预测损失；

8.一种数据处理装置，其特征在于，所述装置包括：

获取模块，用于获取目标用户的历史行为数据，所述历史行为数据包括所述目标用户对第一应用程序集中的各应用程序的使用数据，所述第一应用程序集中包含N个第一应用程序，所述N为正整数；所述使用数据包括注册数据；

解析模块，用于解析所述历史行为数据得到所述目标用户的特征数据及用户标签，所述用户标签包括N+1维数据，所述N+1维数据中前N维数据是由所述目标用户对所述N个第一应用程序的使用数据对应的N个数值构成的，所述第N+1维数据由所述前N维数据对应的N个数值确定，且所述前N维数据与所述N个第一应用程序一一对应；其中，所述前N维数据中任一维数据对应的数值用于指示：所述目标用户对所述任一维数据对应第一应用程序的注册情况；所述N+1维数据中的第N+1维数据用于指示：所述N个第一应用程序均未被注册，或者所述N个第一应用程序中存在第一应用程序被注册；所述N+1维数据的数据结构能够让目标预测模型学习不使用所述第一应用程序集中的任一第一应用程序的用户样本；

调用模块，用于调用目标预测模型对所述目标用户的特征数据以及用户标签进行计算，得到所述目标用户的预测数据，所述预测数据包括所述目标用户对第二应用程序集中的各应用程序的使用概率，所述第二应用程序集中包含M个第二应用程序，所述M为正整数；其中，所述目标预测模型的目标损失函数包括指数损失控制因子，所述指数损失控制因子用于化解标签之间的强相关性带来的矛盾结果；标签之间的强相关性带来的矛盾结果是指：由于N+1维数据中引入第N+1维数据所引起的所述目标预测模型的输出结果自相矛盾。

9.一种终端，其特征在于，包括处理器、输入接口、输出接口和存储器，所述处理器、输入接口、输出接口和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。