CN106203473A

CN106203473A - 一种基于安装包列表的移动用户性别预测方法

Info

Publication number: CN106203473A
Application number: CN201610486432.7A
Authority: CN
Inventors: 周涛; 李百川; 陈第; 李展铿; 蔡锐涛; 甄勇
Original assignee: Umi-Tech Co Ltd
Current assignee: Umi-Tech Co Ltd
Priority date: 2016-06-24
Filing date: 2016-06-24
Publication date: 2016-12-07
Anticipated expiration: 2036-06-24
Also published as: CN106203473B

Abstract

本发明公开的一种基于安装包列表的移动用户性别预测方法，包含以下步骤：获取有性别标签的用户设备号；从安装列表库中筛选出有性别标签的用户设备号所对应的用户，获取这些用户的安装包列表；将安装包列表数量小于M或者大于N的用户剔除；将安装包列表信息转换为特征数据集；将特征数据集按设定比例随机划分为训练集和测试集；根据训练集数据，使用GBDT模型训练，然后通过测试集进行验证，得到用户性别预测模型；从安装包列表库中获取没有性别标签的用户及其安装列表，做同样的特征转换利用已训练的性别模型预测。本发明的方法，移动用户性别预测的准确率高。

Description

一种基于安装包列表的移动用户性别预测方法

技术领域

本发明涉及移动互联网领域，特别涉及一种基于安装包列表的移动用户性别预测方法。

背景技术

现有技术中，如Your Installed Apps Reveal Your Gender and More！(ACMSIGMOBILE Mobile Computing and Communications Review,2015)公开了一种移动用户性别的预测方法，具体为：通过提取安装包数量和付费的数值特征、安装包类别特征、安装包性别概率特征和安装包内容描述特征来独自或组合作为每个用户的特征，然后利用机器学习中的朴素贝叶斯和支持向量机方法来判断用户的性别。

上述方法，在特征提取时选取了很多不同且有效的特征来预测性别，但是在运用特征和组合特征时过于简单，仍有较大的改进空间；而且在无法提供全部特征时，移动用户性别的预测无法实现，较为复杂。

而在Predicting user traits from a snapshot of apps installed on asmartphone(ACM SIGMOBILE Mobile Computing and Communications Review,2014,18(2):1-8.)也公开了一种移动用户性别的预测方法，具体为：通过分析安装包数量和付费信息，安装包的类别信息等，但最终选定安装包的描述信息来抽取tfidf特征，结合从应用市场获取的相关查询的Top50的安装包描述，利用机器学习中的支持向量机方法来判断用户的宗教信仰，单身与否，父母与否等用户属性。该方法合理利用应用市场的查询功能，预先获取相关的app描述作为正样例的参照，再提取训练和测试样本的tfidf特征，特征提取有较好的表现，但是安装包的其他相关特征并未得到合理的充分运用。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种基于安装包列表的移动用户性别预测方法。

一种基于安装包列表的移动用户性别预测方法，包含以下步骤：

S1.获取有性别标签的用户设备号；

S2.从安装列表库中筛选出有性别标签的用户设备号所对应的用户，获取这些用户的安装包列表；性别和安装包列表称为原始数据集；

S3.将安装包列表数量小于M或者大于N的用户剔除；其中M小于N，M、N的值根据实际需要设定；

S4.将安装包列表信息转换为特征数据集：

(1)假定原始数据集中男女比例为x:1，安装包P在a个男性用户的安装列表中出现过，在b个女性用户中出现过，则安装包P的性别特征值为

\frac{a + 1}{(b + 1) x};

由此得到每个安装包的性别特征值，并将每个安装包映射为性别偏向值，记为字典D1；其中安装包的性别偏向值即为安装包的性别特征值，当安装包的性别特征值为1时，表明该安装包没有性别偏向；

a加1、b加1的原因是做拉普拉斯平滑；

(2)根据已有的安装包类别库，将每个安装包映射为一个或多个类别，记为字典D2；

(3)对于每个用户，根据字典D1将其所有安装包映射为性别偏向值，取偏离1最大的K个值(2和0.5、10和0.1偏离1的程度都相同)作为用户的第一特征；

(4)对于每个用户，将其所有性别偏向值映射到预先划分好的十个区间中，计算每个区间中性别偏向值的个数的比例作为用户的第二特征；

(5)对于每个用户，根据字典D2将其所有安装包映射为类别，计算每个类别出现次数的比例作为用户的第三特征；

(6)将每个用户的性别标签、第一特征、第二特征、第三特征记为特征数据集；所述第一特征为topK特征，第二特征为性别特征，第三特征为类别特征；

S5.将特征数据集按设定比例随机划分为训练集和测试集；根据训练集数据，使用GBDT模型训练，然后通过测试集进行验证，得到用户性别预测模型；

S6.从安装包列表库中获取没有性别标签的用户及其安装列表，做同样的特征转换利用已训练的性别模型预测。

其实步骤S4中的子步骤(1)和子步骤(2)是一样的，都是为安装包建立某种字典，(1)中是建立安装包到性别偏向值的字典D1，而(2)是建立安装包到安装包类别的字典D2，D1和D2字典建立后是固定不变的，不再依赖任何数据，并同时服务于训练阶段和预测阶段。因此，严格来说，子步骤(1)和(2)只是预处理的阶段，不算特征转换阶段，子步骤(3)-(5)才是特征转换，因为D1和D2只是提供特征转换时所需要用到的字典。因此，在预测阶段，只需要实施子步骤(3)-(5)即可，不再计算(1)和(2)，直接调用D1和D2。

步骤S5中，所述GBDT是一种迭代的决策树算法，采用了Boost思想，该算法由多棵决策树组成，所有树的结论累加起来做最终答案。与传统的Boost的区别是，每一次的计算是为了减少上一次的残差，为消除残差，在残差减少的梯度方向上建立一个新的模型。因此在GBDT中，每个新的模型的建立是为了使得之前模型的残差往梯度方向减少。GBDT的主要公式如下：

F(X)＝F₀+β₁T₁(X)+β₂T₂(X)+...+β_MT_M(X)

其中F0是初始值，Ti是一棵棵的决策树，β是每棵树的权重。

步骤S3中，所述M＝15，N＝1000。

本发明与现有技术相比，具有如下优点和有益效果：

本发明的模型在测试集的分布上(男女比约为2:1)能达到的准确率达到80％，其中男性准确率为82％，女性准确率为76％。比现有技术提高约10％的准确率；模型基于百万级别的训练数据和测试数据的验证，相比于现有技术的几千级别的训练和测试，模型对未知新数据的预测更为置信，实用价值颇高。

附图说明

图1为本发明所述一种基于安装包列表的移动用户性别预测方法的流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例一

S1.获取有性别标签的用户设备号；

S4.将安装包列表信息转换为特征数据集：

\frac{a + 1}{(b + 1) x};

a加1、b加1的原因是做拉普拉斯平滑；

(6)将每个用户的性别标签、第一特征、第二特征、第三特征记为特征数据集；

F(X)＝F₀+β₁T₁(X)+β₂T₂(X)+...+β_MT_M(X)

其中F0是初始值，Ti是一棵棵的决策树，β是每棵树的权重。

实施例二

如图1，一种基于安装包列表的移动用户性别预测方法，包含以下步骤：

1、从性别标签库中获取有性别标签的用户设备号。

2、从安装列表库中筛选出符合上述用户设备号的用户，获取这些用户的安装列表。

3、异常过滤。若一个用户的安装包列表少于15个或者多于300个，将其剔除。

4、特征转换。将安装包列表信息转换为一些有用的特征。

(1)安装包性别特征。原始数据集中男女比例为1.8:1，根据公式(a+1)/(1.8*(b+1))计算每个安装包P的性别偏向值。

(2)安装包类别特征。根据已有的安装包—类别库(从应用宝和豌豆荚应用市场爬取)，将每个安装包映射为一个或多个类别。如将com.tencent.mobileqq映射为“聊天社交”。

(3)对于每个用户，根据D1将其所有安装包映射为性别偏向值，取偏离1最大的15个值作为特征。如[6.0,3.0,2.5,0.5,1.8,0.6,1.5,1.4,……]

(4)对于每个用户，将其所有性别偏向值映射到预先划分好的十个区间中((0,0.1],(0.1,0.2],(0.2,0.5],(0.5,0.8],(0.8,1),[1,1.25),[1.25,2),[2,5),[5,10),[10,∞))，计算每个区间中性别偏向值的个数的比例作为特征。如用户的100个安装包的性别偏向值为99个20，1个0.005，那么特征为[0.99,0,0,…,0,0,0.01]。

(5)对于每个用户，根据D2将其所有安装包映射为56个类别中的一个或多个，计算每个类别出现次数的比例作为特征。如某一用户只安装了10个社交软件，10个游戏，则特征为[0,0,0.5,0,0,…,0,0.5,0,0,…]。

(6)将每个用户的性别标签和所有特征记为特征数据集。

5、将特征数据集按一定比例随机划分为训练集和测试集。根据训练集数据，使用GBDT模型训练，测试集验证，得到性别模型。

6、从安装包列表库中获取没有性别标签的用户及其安装列表，做同样的特征转换，利用已训练的性别模型预测。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于安装包列表的移动用户性别预测方法，其特征在于，包含以下步骤：

S1.获取有性别标签的用户设备号；

S4.将安装包列表信息转换为特征数据集：

\frac{a + 1}{(b + 1) x};

(3)对于每个用户，根据字典D1将其所有安装包映射为性别偏向值，取偏离1最大的K个值作为用户的第一特征；

2.根据权利要求1所述基于安装包列表的移动用户性别预测方法，其特征在于，步骤S5中，所述GBDT是一种迭代的决策树算法，采用了Boost思想，该算法由多棵决策树组成，所有树的结论累加起来做最终答案。

3.根据权利要求1所述基于安装包列表的移动用户性别预测方法，其特征在于，步骤S3中，所述M＝15，N＝1000。