CN106203473A - 一种基于安装包列表的移动用户性别预测方法 - Google Patents

一种基于安装包列表的移动用户性别预测方法 Download PDF

Info

Publication number
CN106203473A
CN106203473A CN201610486432.7A CN201610486432A CN106203473A CN 106203473 A CN106203473 A CN 106203473A CN 201610486432 A CN201610486432 A CN 201610486432A CN 106203473 A CN106203473 A CN 106203473A
Authority
CN
China
Prior art keywords
installation kit
user
sex
list
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610486432.7A
Other languages
English (en)
Other versions
CN106203473B (zh
Inventor
周涛
李百川
陈第
李展铿
蔡锐涛
甄勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Umi-Tech Co Ltd
Original Assignee
Umi-Tech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Umi-Tech Co Ltd filed Critical Umi-Tech Co Ltd
Priority to CN201610486432.7A priority Critical patent/CN106203473B/zh
Publication of CN106203473A publication Critical patent/CN106203473A/zh
Application granted granted Critical
Publication of CN106203473B publication Critical patent/CN106203473B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开的一种基于安装包列表的移动用户性别预测方法,包含以下步骤:获取有性别标签的用户设备号;从安装列表库中筛选出有性别标签的用户设备号所对应的用户,获取这些用户的安装包列表;将安装包列表数量小于M或者大于N的用户剔除;将安装包列表信息转换为特征数据集;将特征数据集按设定比例随机划分为训练集和测试集;根据训练集数据,使用GBDT模型训练,然后通过测试集进行验证,得到用户性别预测模型;从安装包列表库中获取没有性别标签的用户及其安装列表,做同样的特征转换利用已训练的性别模型预测。本发明的方法,移动用户性别预测的准确率高。

Description

一种基于安装包列表的移动用户性别预测方法
技术领域
本发明涉及移动互联网领域,特别涉及一种基于安装包列表的移动用户性别预测方法。
背景技术
现有技术中,如Your Installed Apps Reveal Your Gender and More!(ACMSIGMOBILE Mobile Computing and Communications Review,2015)公开了一种移动用户性别的预测方法,具体为:通过提取安装包数量和付费的数值特征、安装包类别特征、安装包性别概率特征和安装包内容描述特征来独自或组合作为每个用户的特征,然后利用机器学习中的朴素贝叶斯和支持向量机方法来判断用户的性别。
上述方法,在特征提取时选取了很多不同且有效的特征来预测性别,但是在运用特征和组合特征时过于简单,仍有较大的改进空间;而且在无法提供全部特征时,移动用户性别的预测无法实现,较为复杂。
而在Predicting user traits from a snapshot of apps installed on asmartphone(ACM SIGMOBILE Mobile Computing and Communications Review,2014,18(2):1-8.)也公开了一种移动用户性别的预测方法,具体为:通过分析安装包数量和付费信息,安装包的类别信息等,但最终选定安装包的描述信息来抽取tfidf特征,结合从应用市场获取的相关查询的Top50的安装包描述,利用机器学习中的支持向量机方法来判断用户的宗教信仰,单身与否,父母与否等用户属性。该方法合理利用应用市场的查询功能,预先获取相关的app描述作为正样例的参照,再提取训练和测试样本的tfidf特征,特征提取有较好的表现,但是安装包的其他相关特征并未得到合理的充分运用。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种基于安装包列表的移动用户性别预测方法。
一种基于安装包列表的移动用户性别预测方法,包含以下步骤:
S1.获取有性别标签的用户设备号;
S2.从安装列表库中筛选出有性别标签的用户设备号所对应的用户,获取这些用户的安装包列表;性别和安装包列表称为原始数据集;
S3.将安装包列表数量小于M或者大于N的用户剔除;其中M小于N,M、N的值根据实际需要设定;
S4.将安装包列表信息转换为特征数据集:
(1)假定原始数据集中男女比例为x:1,安装包P在a个男性用户的安装列表中出现过,在b个女性用户中出现过,则安装包P的性别特征值为
a + 1 ( b + 1 ) x ;
由此得到每个安装包的性别特征值,并将每个安装包映射为性别偏向值,记为字典D1;其中安装包的性别偏向值即为安装包的性别特征值,当安装包的性别特征值为1时,表明该安装包没有性别偏向;
a加1、b加1的原因是做拉普拉斯平滑;
(2)根据已有的安装包类别库,将每个安装包映射为一个或多个类别,记为字典D2;
(3)对于每个用户,根据字典D1将其所有安装包映射为性别偏向值,取偏离1最大的K个值(2和0.5、10和0.1偏离1的程度都相同)作为用户的第一特征;
(4)对于每个用户,将其所有性别偏向值映射到预先划分好的十个区间中,计算每个区间中性别偏向值的个数的比例作为用户的第二特征;
(5)对于每个用户,根据字典D2将其所有安装包映射为类别,计算每个类别出现次数的比例作为用户的第三特征;
(6)将每个用户的性别标签、第一特征、第二特征、第三特征记为特征数据集;所述第一特征为topK特征,第二特征为性别特征,第三特征为类别特征;
S5.将特征数据集按设定比例随机划分为训练集和测试集;根据训练集数据,使用GBDT模型训练,然后通过测试集进行验证,得到用户性别预测模型;
S6.从安装包列表库中获取没有性别标签的用户及其安装列表,做同样的特征转换利用已训练的性别模型预测。
其实步骤S4中的子步骤(1)和子步骤(2)是一样的,都是为安装包建立某种字典,(1)中是建立安装包到性别偏向值的字典D1,而(2)是建立安装包到安装包类别的字典D2,D1和D2字典建立后是固定不变的,不再依赖任何数据,并同时服务于训练阶段和预测阶段。因此,严格来说,子步骤(1)和(2)只是预处理的阶段,不算特征转换阶段,子步骤(3)-(5)才是特征转换,因为D1和D2只是提供特征转换时所需要用到的字典。因此,在预测阶段,只需要实施子步骤(3)-(5)即可,不再计算(1)和(2),直接调用D1和D2。
步骤S5中,所述GBDT是一种迭代的决策树算法,采用了Boost思想,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。与传统的Boost的区别是,每一次的计算是为了减少上一次的残差,为消除残差,在残差减少的梯度方向上建立一个新的模型。因此在GBDT中,每个新的模型的建立是为了使得之前模型的残差往梯度方向减少。GBDT的主要公式如下:
F(X)=F01T1(X)+β2T2(X)+...+βMTM(X)
其中F0是初始值,Ti是一棵棵的决策树,β是每棵树的权重。
步骤S3中,所述M=15,N=1000。
本发明与现有技术相比,具有如下优点和有益效果:
本发明的模型在测试集的分布上(男女比约为2:1)能达到的准确率达到80%,其中男性准确率为82%,女性准确率为76%。比现有技术提高约10%的准确率;模型基于百万级别的训练数据和测试数据的验证,相比于现有技术的几千级别的训练和测试,模型对未知新数据的预测更为置信,实用价值颇高。
附图说明
图1为本发明所述一种基于安装包列表的移动用户性别预测方法的流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例一
一种基于安装包列表的移动用户性别预测方法,包含以下步骤:
S1.获取有性别标签的用户设备号;
S2.从安装列表库中筛选出有性别标签的用户设备号所对应的用户,获取这些用户的安装包列表;性别和安装包列表称为原始数据集;
S3.将安装包列表数量小于M或者大于N的用户剔除;其中M小于N,M、N的值根据实际需要设定;
S4.将安装包列表信息转换为特征数据集:
(1)假定原始数据集中男女比例为x:1,安装包P在a个男性用户的安装列表中出现过,在b个女性用户中出现过,则安装包P的性别特征值为
a + 1 ( b + 1 ) x ;
由此得到每个安装包的性别特征值,并将每个安装包映射为性别偏向值,记为字典D1;其中安装包的性别偏向值即为安装包的性别特征值,当安装包的性别特征值为1时,表明该安装包没有性别偏向;
a加1、b加1的原因是做拉普拉斯平滑;
(2)根据已有的安装包类别库,将每个安装包映射为一个或多个类别,记为字典D2;
(3)对于每个用户,根据字典D1将其所有安装包映射为性别偏向值,取偏离1最大的K个值(2和0.5、10和0.1偏离1的程度都相同)作为用户的第一特征;
(4)对于每个用户,将其所有性别偏向值映射到预先划分好的十个区间中,计算每个区间中性别偏向值的个数的比例作为用户的第二特征;
(5)对于每个用户,根据字典D2将其所有安装包映射为类别,计算每个类别出现次数的比例作为用户的第三特征;
(6)将每个用户的性别标签、第一特征、第二特征、第三特征记为特征数据集;
S5.将特征数据集按设定比例随机划分为训练集和测试集;根据训练集数据,使用GBDT模型训练,然后通过测试集进行验证,得到用户性别预测模型;
S6.从安装包列表库中获取没有性别标签的用户及其安装列表,做同样的特征转换利用已训练的性别模型预测。
其实步骤S4中的子步骤(1)和子步骤(2)是一样的,都是为安装包建立某种字典,(1)中是建立安装包到性别偏向值的字典D1,而(2)是建立安装包到安装包类别的字典D2,D1和D2字典建立后是固定不变的,不再依赖任何数据,并同时服务于训练阶段和预测阶段。因此,严格来说,子步骤(1)和(2)只是预处理的阶段,不算特征转换阶段,子步骤(3)-(5)才是特征转换,因为D1和D2只是提供特征转换时所需要用到的字典。因此,在预测阶段,只需要实施子步骤(3)-(5)即可,不再计算(1)和(2),直接调用D1和D2。
步骤S5中,所述GBDT是一种迭代的决策树算法,采用了Boost思想,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。与传统的Boost的区别是,每一次的计算是为了减少上一次的残差,为消除残差,在残差减少的梯度方向上建立一个新的模型。因此在GBDT中,每个新的模型的建立是为了使得之前模型的残差往梯度方向减少。GBDT的主要公式如下:
F(X)=F01T1(X)+β2T2(X)+...+βMTM(X)
其中F0是初始值,Ti是一棵棵的决策树,β是每棵树的权重。
实施例二
如图1,一种基于安装包列表的移动用户性别预测方法,包含以下步骤:
1、从性别标签库中获取有性别标签的用户设备号。
2、从安装列表库中筛选出符合上述用户设备号的用户,获取这些用户的安装列表。
3、异常过滤。若一个用户的安装包列表少于15个或者多于300个,将其剔除。
4、特征转换。将安装包列表信息转换为一些有用的特征。
(1)安装包性别特征。原始数据集中男女比例为1.8:1,根据公式(a+1)/(1.8*(b+1))计算每个安装包P的性别偏向值。
(2)安装包类别特征。根据已有的安装包—类别库(从应用宝和豌豆荚应用市场爬取),将每个安装包映射为一个或多个类别。如将com.tencent.mobileqq映射为“聊天社交”。
(3)对于每个用户,根据D1将其所有安装包映射为性别偏向值,取偏离1最大的15个值作为特征。如[6.0,3.0,2.5,0.5,1.8,0.6,1.5,1.4,……]
(4)对于每个用户,将其所有性别偏向值映射到预先划分好的十个区间中((0,0.1],(0.1,0.2],(0.2,0.5],(0.5,0.8],(0.8,1),[1,1.25),[1.25,2),[2,5),[5,10),[10,∞)),计算每个区间中性别偏向值的个数的比例作为特征。如用户的100个安装包的性别偏向值为99个20,1个0.005,那么特征为[0.99,0,0,…,0,0,0.01]。
(5)对于每个用户,根据D2将其所有安装包映射为56个类别中的一个或多个,计算每个类别出现次数的比例作为特征。如某一用户只安装了10个社交软件,10个游戏,则特征为[0,0,0.5,0,0,…,0,0.5,0,0,…]。
(6)将每个用户的性别标签和所有特征记为特征数据集。
5、将特征数据集按一定比例随机划分为训练集和测试集。根据训练集数据,使用GBDT模型训练,测试集验证,得到性别模型。
6、从安装包列表库中获取没有性别标签的用户及其安装列表,做同样的特征转换,利用已训练的性别模型预测。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (3)

1.一种基于安装包列表的移动用户性别预测方法,其特征在于,包含以下步骤:
S1.获取有性别标签的用户设备号;
S2.从安装列表库中筛选出有性别标签的用户设备号所对应的用户,获取这些用户的安装包列表;性别和安装包列表称为原始数据集;
S3.将安装包列表数量小于M或者大于N的用户剔除;其中M小于N,M、N的值根据实际需要设定;
S4.将安装包列表信息转换为特征数据集:
(1)假定原始数据集中男女比例为x:1,安装包P在a个男性用户的安装列表中出现过,在b个女性用户中出现过,则安装包P的性别特征值为
a + 1 ( b + 1 ) x ;
由此得到每个安装包的性别特征值,并将每个安装包映射为性别偏向值,记为字典D1;其中安装包的性别偏向值即为安装包的性别特征值,当安装包的性别特征值为1时,表明该安装包没有性别偏向;
(2)根据已有的安装包类别库,将每个安装包映射为一个或多个类别,记为字典D2;
(3)对于每个用户,根据字典D1将其所有安装包映射为性别偏向值,取偏离1最大的K个值作为用户的第一特征;
(4)对于每个用户,将其所有性别偏向值映射到预先划分好的十个区间中,计算每个区间中性别偏向值的个数的比例作为用户的第二特征;
(5)对于每个用户,根据字典D2将其所有安装包映射为类别,计算每个类别出现次数的比例作为用户的第三特征;
(6)将每个用户的性别标签、第一特征、第二特征、第三特征记为特征数据集;
S5.将特征数据集按设定比例随机划分为训练集和测试集;根据训练集数据,使用GBDT模型训练,然后通过测试集进行验证,得到用户性别预测模型;
S6.从安装包列表库中获取没有性别标签的用户及其安装列表,做同样的特征转换利用已训练的性别模型预测。
2.根据权利要求1所述基于安装包列表的移动用户性别预测方法,其特征在于,步骤S5中,所述GBDT是一种迭代的决策树算法,采用了Boost思想,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。
3.根据权利要求1所述基于安装包列表的移动用户性别预测方法,其特征在于,步骤S3中,所述M=15,N=1000。
CN201610486432.7A 2016-06-24 2016-06-24 一种基于安装包列表的移动用户性别预测方法 Active CN106203473B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610486432.7A CN106203473B (zh) 2016-06-24 2016-06-24 一种基于安装包列表的移动用户性别预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610486432.7A CN106203473B (zh) 2016-06-24 2016-06-24 一种基于安装包列表的移动用户性别预测方法

Publications (2)

Publication Number Publication Date
CN106203473A true CN106203473A (zh) 2016-12-07
CN106203473B CN106203473B (zh) 2018-06-26

Family

ID=57461477

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610486432.7A Active CN106203473B (zh) 2016-06-24 2016-06-24 一种基于安装包列表的移动用户性别预测方法

Country Status (1)

Country Link
CN (1) CN106203473B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844687A (zh) * 2017-01-23 2017-06-13 炫彩互动网络科技有限公司 一种基于游戏日志确定用户性别的方法及系统
CN107886366A (zh) * 2017-11-22 2018-04-06 深圳市金立通信设备有限公司 性别分类模型的生成方法、性别填充方法、终端及存储介质
CN108256537A (zh) * 2016-12-28 2018-07-06 北京酷我科技有限公司 一种用户性别预测方法和系统
CN109389138A (zh) * 2017-08-09 2019-02-26 武汉安天信息技术有限责任公司 一种用户画像方法及装置
CN111144936A (zh) * 2019-12-19 2020-05-12 有米科技股份有限公司 基于用户标签的相似人群扩展方法及装置
CN111898738A (zh) * 2020-07-30 2020-11-06 北京智能工场科技有限公司 一种基于全连接神经网络实现的移动终端用户性别预测方法和系统
CN112132209A (zh) * 2020-09-19 2020-12-25 北京智能工场科技有限公司 一种基于偏向性特征的属性预测方法
CN112132209B (zh) * 2020-09-19 2024-05-31 北京智能工场科技有限公司 一种基于偏向性特征的属性预测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140279785A1 (en) * 2013-03-15 2014-09-18 Quova, Inc. Methods, systems, and apparatus for predicting characteristics of a user
CN104102819A (zh) * 2014-06-27 2014-10-15 北京奇艺世纪科技有限公司 一种用户自然属性的确定方法和装置
CN104281634A (zh) * 2014-03-13 2015-01-14 电子科技大学 一种基于邻居关系的移动用户基础属性预测方法
CN105528652A (zh) * 2015-12-03 2016-04-27 北京金山安全软件有限公司 一种预测模型的建立方法及终端
CN105678381A (zh) * 2016-01-08 2016-06-15 浙江宇视科技有限公司 一种性别分类网络训练方法、性别分类方法及相关装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140279785A1 (en) * 2013-03-15 2014-09-18 Quova, Inc. Methods, systems, and apparatus for predicting characteristics of a user
CN104281634A (zh) * 2014-03-13 2015-01-14 电子科技大学 一种基于邻居关系的移动用户基础属性预测方法
CN104102819A (zh) * 2014-06-27 2014-10-15 北京奇艺世纪科技有限公司 一种用户自然属性的确定方法和装置
CN105528652A (zh) * 2015-12-03 2016-04-27 北京金山安全软件有限公司 一种预测模型的建立方法及终端
CN105678381A (zh) * 2016-01-08 2016-06-15 浙江宇视科技有限公司 一种性别分类网络训练方法、性别分类方法及相关装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108256537A (zh) * 2016-12-28 2018-07-06 北京酷我科技有限公司 一种用户性别预测方法和系统
CN106844687A (zh) * 2017-01-23 2017-06-13 炫彩互动网络科技有限公司 一种基于游戏日志确定用户性别的方法及系统
CN109389138A (zh) * 2017-08-09 2019-02-26 武汉安天信息技术有限责任公司 一种用户画像方法及装置
CN107886366A (zh) * 2017-11-22 2018-04-06 深圳市金立通信设备有限公司 性别分类模型的生成方法、性别填充方法、终端及存储介质
CN111144936A (zh) * 2019-12-19 2020-05-12 有米科技股份有限公司 基于用户标签的相似人群扩展方法及装置
CN111144936B (zh) * 2019-12-19 2024-01-05 有米科技股份有限公司 基于用户标签的相似人群扩展方法及装置
CN111898738A (zh) * 2020-07-30 2020-11-06 北京智能工场科技有限公司 一种基于全连接神经网络实现的移动终端用户性别预测方法和系统
CN112132209A (zh) * 2020-09-19 2020-12-25 北京智能工场科技有限公司 一种基于偏向性特征的属性预测方法
CN112132209B (zh) * 2020-09-19 2024-05-31 北京智能工场科技有限公司 一种基于偏向性特征的属性预测方法

Also Published As

Publication number Publication date
CN106203473B (zh) 2018-06-26

Similar Documents

Publication Publication Date Title
CN106203473A (zh) 一种基于安装包列表的移动用户性别预测方法
CN106651057B (zh) 一种基于安装包序列表的移动端用户年龄预测方法
CN103761254B (zh) 多领域服务主题匹配推荐方法
US9002852B2 (en) Mining semi-structured social media
CN107862022B (zh) 文化资源推荐系统
WO2021042826A1 (zh) 一种视频播放完整度预测方法及装置
CN105787025B (zh) 网络平台公共账号分类方法及装置
US10769223B1 (en) Systems and methods for identification and classification of social media
CN104966031A (zh) 安卓应用程序中非权限相关隐私数据的识别方法
CN103324666A (zh) 一种基于微博数据的话题跟踪方法及装置
CN107766585A (zh) 一种面向社交网络的特定事件抽取方法
CN103116648B (zh) 基于图形式上下文语境和机器学习的单词记忆方法及其装置
CN106202294A (zh) 基于关键词和主题模型融合的相关新闻计算方法及装置
CN110046251A (zh) 社区内容风险评估方法及装置
CN106204103B (zh) 一种移动广告平台寻找相似用户的方法
CN102955813A (zh) 一种信息搜索方法和系统
CN106227743B (zh) 广告目标群体触达比率评估方法及装置
CN104572915B (zh) 一种基于内容环境增强的用户事件相关度计算方法
CN113139043B (zh) 问答样本生成方法、装置、电子设备和存储介质
CN113051911B (zh) 提取敏感词的方法、装置、设备、介质及程序产品
CN105045868B (zh) 一种搜索热门事件的方法及装置
CN113392920A (zh) 生成作弊预测模型的方法、装置、设备、介质及程序产品
CN111325255B (zh) 特定人群圈定方法、装置、电子设备及存储介质
US20190065987A1 (en) Capturing knowledge coverage of machine learning models
CN109885504B (zh) 推荐系统的测试方法、装置、介质及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant