CN106651057B - 一种基于安装包序列表的移动端用户年龄预测方法 - Google Patents
一种基于安装包序列表的移动端用户年龄预测方法 Download PDFInfo
- Publication number
- CN106651057B CN106651057B CN201710000817.2A CN201710000817A CN106651057B CN 106651057 B CN106651057 B CN 106651057B CN 201710000817 A CN201710000817 A CN 201710000817A CN 106651057 B CN106651057 B CN 106651057B
- Authority
- CN
- China
- Prior art keywords
- age
- user
- token
- app
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- Finance (AREA)
- Entrepreneurship & Innovation (AREA)
- Accounting & Taxation (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开的一种基于安装包序列表的移动端用户年龄预测方法,包含以下步骤:获取设备用户的真实年龄标签及其APP安装列表,以及无真实年龄标签的设备用户及其APP安装列表;获取所有APP的描述信息;提取特征关键词;剔除没有上述特征关键词的用户;对于每个训练集用户,计算其拥有的所有特征关键词的平均条件概率分布作为特征;训练一个逻辑回归模型;对于每个预测集中的用户,同样计算其所有特征关键词的平均条件概率分布作为特征,输入到逻辑回归模型进行预测,得到用户的年龄段。本发明的方法,在只能获得用户安装包列表的情况下,通过移动终端用户的安装列表信息能够准确预测用户的年龄段属性。
Description
技术领域
本发明涉及移动互联网领域,特别涉及一种基于安装包序列表的移动端用户年龄预测方法。
背景技术
现有技术中,对移动终端用户的分析主要是通过以下方法:(1)通过提取安装包数量和付费的数值特征、安装包类别特征、安装包性别概率特征和安装包内容描述特征来独自或组合作为每个用户的特征,然后利用机器学习中的朴素贝叶斯和支持向量机方法来判断用户的性别。(2)通过one-of-bag方法将安装包列表映射成0-1向量,分别用逻辑回归和支持向量机的分类方法分别对多种人口属性分类预测,如年龄,性别,收入,婚否等,将其中的每个属性都二分预测。
在该方法中,无论是onehot特征还是类别特征,在对性别的预测方面都有较为显著的划分,但是通过统计分析,这些特征对年龄的划分显著性较低,区分度不明显,尤其是对于多年龄段分类的任务,而非简单的二分类问题。
当需要对用户的年龄段有一个较为准确的预测时,该方法并不能很好地满足需求;而且该方法要求获取的参数较多,包括安装包数量和付费的数值特征、安装包类别特征、安装包性别概率特征和安装包内容,这样至少有两个缺点:第一是参数较多会增大计算量,占用处理器的内存资源,增加了计算时间;第二是较多的参数并不一定能同时获取到,当缺少某个或某几个参数时,该方法就不能实用,适用范围相对较窄,具有局限性。
因此,有必要提供一种新的移动端用户年龄预测方法来满足需求。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种基于安装包序列表的移动端用户年龄预测方法,该方法通过移动终端用户的安装列表信息,通过训练建立一个基于APP描述信息的分类模型,来判断一个用户所处的年龄段,在只能获得用户安装包列表的情况下,准确预测用户的年龄段属性。
本发明的目的通过以下的技术方案实现:
一种基于安装包序列表的移动端用户年龄预测方法,包含以下步骤:
S1、标签用户准备:获取设备用户的真实年龄标签及其APP安装列表,称之为训练集;获取无真实年龄标签的设备用户及其APP安装列表,称之为预测集;
S2、APP描述准备:获取所有APP的描述信息;
S3、特征关键词提取:将每条APP描述信息做分词处理,计算每个分词token在不同年龄段的条件概率分布,分别对每个年龄段取熵值并由小到大进行排序,取前K个分词token作为特征关键词(keywords);若有T个年龄段,则共有T*K个特征关键词;
S4、用户过滤:剔除没有上述特征关键词的用户;
S5、特征提取:对于每个训练集用户,计算其拥有的所有特征关键词的平均条件概率分布作为特征;
S6、建立模型:根据用户特征和获取的设备用户的真实年龄标签,训练一个逻辑回归模型;
S7、模型预测:对于每个预测集中的用户,同样计算其所有特征关键词的平均条件概率分布作为特征,输入到逻辑回归模型进行预测,得到用户的年龄段。
步骤S2中,所述APP的描述信息,是通过爬虫各大APP应用市场获取。
所述步骤S3,在进行特征关键词提取之前,先进行APP过滤:剔除无法获取描述信息或者覆盖设备数少于设定值的APP。
步骤S3中,所述每个分词token在不同年龄段的条件概率分布的计算公式为:
其中P(age=j丨token=i)为条件概率,即当token给定为i时,age取值为j的概率;例如当token为“邮件”时,age取值为[18,23]岁的概率,即用“邮件”筛选人群后,age为[18,23]岁的概率。P(age=j,token=i)为联合概率,即token取值为i并且age取值为j的概率,即在整体人群中两者同时出现的概率;P(token=i)为token取值为i的概率。
步骤S3中,所述对每个年龄段取熵值,其中对于某个确定的分词token,当token给定为i时,其分布的熵值为:
其中H(age丨token=i)为条件熵,即当token给定为i时,age的信息熵大小;P(age=j丨token=i)为条件概率,即当token给定为i时,age取值为j的概率。
步骤S6中,所述逻辑回归模型是一种线性分类模型,它是在线性回归的基础上,套用了一个逻辑函数来得到最后的概率描述,是通过优化方法极小化以下损失函数:
其中J为损失函数,θ为逻辑回归的参数,m为所述训练集的用户个数,xi为训练集中第i个用户的特征,yi为训练集中第i个用户的年龄段标签,h是逻辑斯蒂模型,hθ(xi)是逻辑回归的参数为θ时模型对于样本xi的预测,Cost定义为交叉熵。
所述优化方法包括牛顿方法、梯度下降。
本发明与现有技术相比,具有如下优点和有益效果:
本发明的模型在多年龄段和样本极不均衡的数据集上表现出良好的分类效果:在4个年龄段比例约为14:28:4:1的训练样本下,模型的总体准确率达到70%,各年龄段的recall较为均匀地围绕准确率浮动(53%到78%)。模型基于百万级别的训练数据和测试数据的验证,相比于现有的几万级别的训练和测试,模型对未知新数据的预测更为置信,实用价值颇高。
本发明通过移动终端用户的安装列表信息,通过训练建立一个基于APP描述信息的分类模型,来判断一个用户所处的年龄段,在只能获得用户安装包列表的情况下,准确预测用户的年龄段属性。
附图说明
图1为本发明所述一种基于安装包序列表的移动端用户年龄预测方法的流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例一
如图1,一种基于安装包序列表的移动端用户年龄预测方法,包含以下步骤:
S1、标签用户准备:获取设备用户的真实年龄标签及其APP安装列表,称之为训练集;获取无真实年龄标签的设备用户及其APP安装列表,称之为预测集;
S2、APP描述准备:获取所有APP的描述信息;所述APP的描述信息,是通过爬虫各大APP应用市场获取。
S3、特征关键词提取:将每条APP描述信息做分词处理,计算每个分词token在不同年龄段的条件概率分布,分别对每个年龄段取熵值并由小到大进行排序,取前K个分词token作为特征关键词(keywords);若有T个年龄段,则共有T*K个特征关键词;
在进行特征关键词提取之前,先进行APP过滤:剔除无法获取描述信息或者覆盖设备数少于设定值的APP。
所述每个分词token在不同年龄段的条件概率分布的计算公式为:
其中P(age=j丨token=i)为条件概率,即当token给定为i时,age取值为j的概率;例如当token为“邮件”时,age取值为[18,23]岁的概率,即用“邮件”筛选人群后,age为[18,23]岁的概率。P(age=j,token=i)为联合概率,即token取值为i并且age取值为j的概率,即在整体人群中两者同时出现的概率;P(token=i)为token取值为i的概率。
所述对每个年龄段取熵值,其中对于某个确定的分词token,当token给定为i时,其分布的熵值为:
其中H(age丨token=i)为条件熵,即当token给定为i时,age的信息熵大小;P(age=j丨token=i)为条件概率,即当token给定为i时,age取值为j的概率。
S4、用户过滤:剔除没有上述特征关键词的用户;
S5、特征提取:对于每个训练集用户,计算其拥有的所有特征关键词的平均条件概率分布作为特征;
S6、建立模型:根据用户特征和获取的设备用户的真实年龄标签,训练一个逻辑回归模型;
所述逻辑回归模型是一种线性分类模型,它是在线性回归的基础上,套用了一个逻辑函数来得到最后的概率描述,是通过优化方法极小化以下损失函数:
其中J为损失函数,θ为逻辑回归的参数,m为所述训练集的用户个数,xi为训练集中第i个用户的特征,yi为训练集中第i个用户的年龄段标签,h是逻辑斯蒂模型,hθ(xi)是逻辑回归的参数为θ时模型对于样本xi的预测,Cost定义为交叉熵。
所述优化方法包括牛顿方法、梯度下降;
S7、模型预测:对于每个预测集中的用户,同样计算其所有特征关键词的平均条件概率分布作为特征,输入到逻辑回归模型进行预测,得到用户的年龄段。
实施例二
对拥有400万标签,4个年龄段的训练集,首先计算每个分词的条件概率分布,根据熵值选取每个年龄段的特征词,本例中各选取2000个,但由于第三个年龄段的特征词相对不明显,改增为2500,即(2000,2000,2500,2000),再将用户安装的APP转换成特征词,计算其拥有的特征词的平均条件概率分布,如用户A拥有特征词a,b,c,其条件概率分布分别为(0.1,0.2,0.3,0.4)、(0.7,0.1,0.1,0.1)和(0.4,0.4,0.2,0),则用户A的平均条件概率分布为三个向量的平均(0.4,0.23,0.2,0.17)。将其作为特征输入逻辑回归模型。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (6)
1.一种基于安装包序列表的移动端用户年龄预测方法,其特征在于,包含以下步骤:
S1、标签用户准备:获取设备用户的真实年龄标签及其APP安装列表,称之为训练集;获取无真实年龄标签的设备用户及其APP安装列表,称之为预测集;
S2、APP描述准备:获取所有APP的描述信息;
S3、特征关键词提取:将每条APP描述信息做分词处理,计算每个分词token在不同年龄段的条件概率分布,分别对每个年龄段取熵值并由小到大进行排序,取前K个分词token作为特征关键词;若有T个年龄段,则共有T*K个特征关键词;
所述每个分词token在不同年龄段的条件概率分布的计算公式为:
其中P(age=j丨token=i)为条件概率,即当token给定为i时,age取值为j的概率;P(age=j,token=i)为联合概率,即token取值为i并且age取值为j的概率;P(token=i)为token取值为i的概率;
S4、用户过滤:剔除没有上述特征关键词的用户;
S5、特征提取:对于每个训练集用户,计算其拥有的所有特征关键词的平均条件概率分布作为特征;
S6、建立模型:根据用户特征和获取的设备用户的真实年龄标签,训练一个逻辑回归模型;
S7、模型预测:对于每个预测集中的用户,同样计算其所有特征关键词的平均条件概率分布作为特征,输入到逻辑回归模型进行预测,得到用户的年龄段。
2.根据权利要求1所述基于安装包序列表的移动端用户年龄预测方法,其特征在于,步骤S2中,所述APP的描述信息,是通过爬虫各大APP应用市场获取。
3.根据权利要求1所述基于安装包序列表的移动端用户年龄预测方法,其特征在于,所述步骤S3,在进行特征关键词提取之前,先进行APP过滤:剔除无法获取描述信息或者覆盖设备数少于设定值的APP。
6.根据权利要求5所述基于安装包序列表的移动端用户年龄预测方法,其特征在于,所述优化方法包括牛顿方法、梯度下降。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710000817.2A CN106651057B (zh) | 2017-01-03 | 2017-01-03 | 一种基于安装包序列表的移动端用户年龄预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710000817.2A CN106651057B (zh) | 2017-01-03 | 2017-01-03 | 一种基于安装包序列表的移动端用户年龄预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106651057A CN106651057A (zh) | 2017-05-10 |
CN106651057B true CN106651057B (zh) | 2020-04-10 |
Family
ID=58838305
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710000817.2A Active CN106651057B (zh) | 2017-01-03 | 2017-01-03 | 一种基于安装包序列表的移动端用户年龄预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106651057B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107705156B (zh) * | 2017-10-16 | 2021-02-05 | 深圳大宇无限科技有限公司 | 用户特征分析方法及装置 |
CN107918825A (zh) * | 2017-11-13 | 2018-04-17 | 珠海金山网络游戏科技有限公司 | 一种基于应用安装偏好判定用户年龄段的方法和装置 |
CN108335131B (zh) * | 2018-01-19 | 2022-06-03 | 北京奇艺世纪科技有限公司 | 一种预估用户年龄段的方法、装置及电子设备 |
CN108197592B (zh) * | 2018-01-22 | 2022-05-27 | 百度在线网络技术(北京)有限公司 | 信息获取方法和装置 |
CN109117889A (zh) * | 2018-08-23 | 2019-01-01 | 北京小米智能科技有限公司 | 标签预测方法及装置 |
CN111325372A (zh) * | 2018-12-13 | 2020-06-23 | 北京京东尚科信息技术有限公司 | 预测模型的建立方法、预测方法、装置、介质及设备 |
CN111031362B (zh) * | 2019-11-13 | 2022-01-25 | 广州荔支网络技术有限公司 | 一种声音直播用户的年龄预测方法 |
CN111191677B (zh) * | 2019-12-11 | 2023-09-26 | 北京淇瑀信息科技有限公司 | 用户特征数据生成方法、装置及电子设备 |
CN111291798B (zh) * | 2020-01-21 | 2021-04-20 | 北京工商大学 | 一种基于集成学习的用户基础属性预测方法 |
CN111310814A (zh) * | 2020-02-07 | 2020-06-19 | 支付宝(杭州)信息技术有限公司 | 利用不平衡正负样本对业务预测模型训练的方法及装置 |
CN111639966A (zh) * | 2020-05-19 | 2020-09-08 | 上海连尚网络科技有限公司 | 用户年龄信息预测方法、装置、电子设备及介质 |
CN112132209B (zh) * | 2020-09-19 | 2024-05-31 | 北京智能工场科技有限公司 | 一种基于偏向性特征的属性预测方法 |
CN112967802A (zh) * | 2021-01-28 | 2021-06-15 | 安徽华米健康科技有限公司 | 估计生理年龄的线性融合模型训练、年龄估计方法和装置 |
CN112783950B (zh) * | 2021-02-01 | 2024-04-23 | 西北工业大学 | 一种基于信息熵的人类移动可预测性量化方法 |
CN113012713A (zh) * | 2021-03-02 | 2021-06-22 | 哈尔滨理工大学 | 一种基于机器学习中逻辑回归算法的音乐流派分类方法 |
CN113469244B (zh) * | 2021-06-30 | 2023-07-04 | 杭州云深科技有限公司 | 小众app分类系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103927675A (zh) * | 2014-04-18 | 2014-07-16 | 北京京东尚科信息技术有限公司 | 判断用户年龄段的方法及装置 |
CN104573048A (zh) * | 2015-01-20 | 2015-04-29 | 电子科技大学 | 一种基于智能手机流量数据的用户基础属性预测方法 |
CN106126597A (zh) * | 2016-06-20 | 2016-11-16 | 乐视控股(北京)有限公司 | 用户属性预测方法及装置 |
-
2017
- 2017-01-03 CN CN201710000817.2A patent/CN106651057B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103927675A (zh) * | 2014-04-18 | 2014-07-16 | 北京京东尚科信息技术有限公司 | 判断用户年龄段的方法及装置 |
CN104573048A (zh) * | 2015-01-20 | 2015-04-29 | 电子科技大学 | 一种基于智能手机流量数据的用户基础属性预测方法 |
CN106126597A (zh) * | 2016-06-20 | 2016-11-16 | 乐视控股(北京)有限公司 | 用户属性预测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN106651057A (zh) | 2017-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106651057B (zh) | 一种基于安装包序列表的移动端用户年龄预测方法 | |
CN110069709B (zh) | 意图识别方法、装置、计算机可读介质及电子设备 | |
CN109492772B (zh) | 生成信息的方法和装置 | |
CN109471944B (zh) | 文本分类模型的训练方法、装置及可读存储介质 | |
CN106682686A (zh) | 一种基于手机上网行为的用户性别预测方法 | |
CN103761254A (zh) | 多领域服务主题匹配推荐方法 | |
CN107832338B (zh) | 一种识别核心产品词的方法和系统 | |
CN110555451A (zh) | 信息识别方法和装置 | |
CN110334356A (zh) | 文章质量的确定方法、文章筛选方法、以及相应的装置 | |
CN112948575B (zh) | 文本数据处理方法、装置和计算机可读存储介质 | |
CN110598070A (zh) | 应用类型识别方法及装置、服务器及存储介质 | |
CN110674312A (zh) | 构建知识图谱方法、装置、介质及电子设备 | |
CN111191825A (zh) | 用户违约预测方法、装置及电子设备 | |
CN110990563A (zh) | 一种基于人工智能的传统文化素材库构建方法及系统 | |
CN115168590A (zh) | 文本特征提取方法、模型训练方法、装置、设备及介质 | |
CN113051911B (zh) | 提取敏感词的方法、装置、设备、介质及程序产品 | |
CN113327132A (zh) | 多媒体推荐方法、装置、设备及存储介质 | |
CN112948526A (zh) | 用户画像的生成方法及装置、电子设备、存储介质 | |
CN105677827B (zh) | 一种表单的获取方法及装置 | |
CN114528378A (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN116861226A (zh) | 一种数据处理的方法以及相关装置 | |
CN109885504B (zh) | 推荐系统的测试方法、装置、介质及电子设备 | |
CN103761433A (zh) | 一种网络服务资源分类方法 | |
CN114119142A (zh) | 信息推荐方法、装置和系统 | |
CN113688232A (zh) | 招标文本分类方法、装置、存储介质及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |