CN112084402A - 一种分析应用程序使用数据预测用户属性的方法 - Google Patents
一种分析应用程序使用数据预测用户属性的方法 Download PDFInfo
- Publication number
- CN112084402A CN112084402A CN202010856153.1A CN202010856153A CN112084402A CN 112084402 A CN112084402 A CN 112084402A CN 202010856153 A CN202010856153 A CN 202010856153A CN 112084402 A CN112084402 A CN 112084402A
- Authority
- CN
- China
- Prior art keywords
- user
- users
- application program
- application
- different
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000006399 behavior Effects 0.000 claims abstract description 14
- 230000006870 function Effects 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims description 22
- DWDGSKGGUZPXMQ-UHFFFAOYSA-N OPPO Chemical compound OPPO DWDGSKGGUZPXMQ-UHFFFAOYSA-N 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 8
- 238000005065 mining Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000002790 cross-validation Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 238000007477 logistic regression Methods 0.000 claims description 4
- 238000007637 random forest analysis Methods 0.000 claims description 4
- 238000012706 support-vector machine Methods 0.000 claims description 4
- 239000013598 vector Substances 0.000 claims description 4
- 235000007189 Oryza longistaminata Nutrition 0.000 claims description 3
- 240000007594 Oryza sativa Species 0.000 claims description 3
- 235000007164 Oryza sativa Nutrition 0.000 claims description 3
- 244000062793 Sorghum vulgare Species 0.000 claims description 3
- 235000019713 millet Nutrition 0.000 claims description 3
- 208000025174 PANDAS Diseases 0.000 claims description 2
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 claims description 2
- 240000004718 Panda Species 0.000 claims description 2
- 235000016496 Panda oleosa Nutrition 0.000 claims description 2
- 230000008094 contradictory effect Effects 0.000 claims description 2
- 230000009286 beneficial effect Effects 0.000 abstract description 4
- 230000008859 change Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 230000000630 rising effect Effects 0.000 description 2
- 208000001613 Gambling Diseases 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000036578 sleeping time Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种分析应用程序使用数据预测用户属性的方法。本方法以真实用户应用程序使用记录数据集为基础,通过分析用户应用程序的使用情况与应用程序使用行为和用户属性的关系,对应用程序的使用频率、应用程序的使用时间、功能的变化进行分析,获得不同属性用户的使用行为差异;之后从应用使用记录中提取相应的特征以预测每个用户的属性。本发明不仅有利于开发人员针对用户的个人需求和喜好定制服务,实现应用程序的个性化,还促进用户通过客观地了解智能手机应用程序的使用行为,更全面客观的了解自己,改善不良生活习惯,提高工作效率与生活质量,本发明方法具有较强的实用性、理论性与应用性。
Description
技术领域
本发明涉及一种基于移动应用程序使用数据的用户画像获取算法,特别是通过分析应用程序使用数据预测用户属性的方法。
背景技术
随着移动互联网的快速普及,智能手机市场发展迅速,据统计,到目前全球发达国家成年人群中,智能手机的普及率已经超过85%,人们每天平均看手机50次,十分频繁。迅速发展及普及的智能手机影响改变了人们的生活,智能手机从一个简单的通讯工具逐渐演变成了集学习、工作、商务、娱乐为一体的多样化平台,智能手机上的应用程序已成为人们日常生活中必不可少的一部分,无论是衣、食、住、行,应用程序都可以给我们提供便捷的服务,它们是用户获取各种服务、满足各种需求的入口。智能手机用户们根据个人需求与喜好来安装和使用应用程序,不同的用户有不同的需求或兴趣,安装和使用应用程序的行为也不同,因此智能手机应用程序使用数据可有效的传递很多个人信息,具有不同属性的用户安装使用的应用程序自然也不同,应用程序使用记录必然有差异。例如,不同地区用户由于语言、文化以及生活习性的不同,移动APP使用习惯大不相同,不同性别和年龄的用户使用习惯也有差异,女性用户可能会更频繁的使用与购物消费有关的应用程序,年龄较大的用户可能对金融与阅读更感兴趣,即使是相同的应用程序,不用用户的使用行为例如使用频率也大不同。
通过智能手机数据挖掘出的信息具有很强的商业价值,识别用户行为、挖掘用户属性在精准营销、精准广告投放、个性化推荐、用户身份识别等方面具有重要意义。利用识别挖掘到的信息,开发人员可针对用户的个人需求和喜好定制服务,实现应用程序的个性化,例如个性化的网页搜索,个性化的推荐,合理预安装手机应用程序等,实现智慧化服务,改善用户体验等。从用户自身的角度出发,他们可通过客观地了解了智能手机应用程序的行为,更全面客观的了解自己,例如了解个人生活作息时间,娱乐占比等,改善不良生活习惯,提高工作效率与生活质量。
发明内容
本发明目的在于对现有使用较少的应用程序使用数据进行利用,提出一种分析应用程序使用数据预测用户属性的方法。该方法提出了预测用户属性的完整流程,通过预测用户属性实现用户画像分析,有利于个性化商业服务以及促进用户更全面认识自我。
本发明的目的通过以下的技术方案实现:一种分析应用程序使用数据预测用户属性的方法,该方法包括以下步骤:
1)数据集预处理:根据获取的用户应用程序使用数据集,对数据集进行基本过滤,删去ID矛盾、年龄可疑用户的数据信息,删去使用记录过少的用户的数据信息,只保留拥有大于10条使用记录的用户的数据信息;在预处理后的数据集中,69.6%用户的使用记录在10条至50条,所有剩下工作将在预处理后的数据集上展开;
2)数据集基础分析:根据预处理后所得数据集,分析数据集基本情况,包括数据集中用户的男女分布与年龄分布情况,以及用户使用应用程序的基本情况,分析得到:
2.1不同应用程序的使用频率存在较大差异:符合齐夫定律,即只有少量应用程序被高频使用,大部分应用程序很少被使用;
2.2 24小时内用户应用程序使用情况:用户在10点和21点有两个使用峰值,使用应用程序频率最高,从21点开始用户使用频率下降,至凌晨4点达到谷底,而从5点开始,使用人数逐渐增加,与普通用户作息相符合;
3)用户应用程序使用差异分析:分析用户应用程序使用行为,利用LDA模型挖掘用户使用主题,利用XGBoost模型挖掘用户在各个应用程序层面上的使用差异,比较不同的应用程序或不同主题在区分用户属性中的重要性,从而获得不同属性用户的使用行为差异,用户使用差异具体有:
3.1用户应用程序使用频率差异:男性用户倾向于使用与地图、信息阅读、理财有关的应用程序,女性更倾向于使用与消费购物、摄像有关的应用程序,而年长用户倾向于使用和新闻、科技信息有关的应用程序,年轻用户更倾向于使用社交娱乐有关的应用程序;
3.2用户应用程序使用时间差异:不同属性用户应用程序总体上的使用时间差异为女性用户在深夜凌晨使用应用程序频率略低于男性用户,女性用户熬夜更少,而年轻用户相比其他年龄段的用户深夜使用应用程序频率更高,熬夜更多;而更具体地分析得到,不同属性用户对相同应用程序的使用时间存在明显差异,例如对消费导航应用程序,女性全天使用频率较高且有变化,而男性的使用频率全天处于较低水平,对出租车应用程序,24-34岁的用户全天使用频率相比其他两个年龄段的用户高,且在一天的较长时间内都处于使用高峰;
3.3用户应用程序使用功能差异:利用LDA模型,从各个文档(文档由用户使用过的应用程序名称组成)中提取若干主题,每个主题由词构成,不同用户属于不同主题的概率不同,男性用户对理财金融主题的概率更高,年轻用户对学习娱乐主题的概率更高;
3.4用户手机品牌机型使用差异:使用人数排名前五的手机品牌分别为华为、小米、三星、魅族、OPPO;而使用人数排名前五的手机机型分别为MI4、红米note、荣耀6、mate7和Galaxy Note 3;女性用户使用OPPO、vivo较多,男性用户使用荣耀较多,年轻用户使用魅族、OPPO较多,年长用户使用华为、三星较多;
4)用户特征提取及表示:由步骤3)用户应用程序使用差异可得,用户使用过的应用程序、用户使用过的应用程序与使用时间相结合、用户应用程序使用主题以及用户使用的手机的品牌与机型可作为良好的区分用户性别和年龄段的特征;为了通过应用程序使用数据挖掘预测用户属性,首先需要表示用户,使用基于特征的向量来表示用户,用户表示为xi,用户表示具体为:
4.1基于所有应用程序为特征的用户表示:x1=(u1,u2,u3...,uj),其中,uj表示所有应用程序中第j个应用程序,若用户使用过该应用程序,则uj的值为1,否则为0;
4.2基于应用程序类别为特征的用户表示:x2=(v1,v2,v3...,vk),为了加快运算速度,根据应用程序功能的不同,将用户使用过的所有应用程序进行分类,例如,分成以下31类:Finance、News and reading、Navigation、Photo and beauty、Car、Business、Canlender、System tool、SON and IM、Shopping、Weather、Home、Health and fitness、Travel、Media and videos、Transportation、Theme、Parent and child、entertainment、Game casual and puzzle、Game other、Game card and chess、stock、Clock、Education、Phone and SMS、Music and audio、Game stategy、Gambling、Browser and searching、Unknown。将每个应用程序类别作为一个维度,如果用户使用过该类别应用程序,则对应的vk值为1,否则为0;
4.3基于用户主题为特征的用户表示:x3=(w1,w2,w3...,wl),其中,wl表示所有主题中第l个主题,wl的值为用户属于第l个主题的概率;
4.4基于应用程序类别使用时间为特征的用户表示:x4=(y1,y2,y3...,ym),其中,ym的值为用户在某小时使用某类别应用程序的使用百分比,利用该用户某小时使用某类别应用程序的使用记录除以该用户应用程序记录数目得到;
4.5基于手机品牌和型号为特征的用户表示:x5=(z1,z2,z3...,zn),其中,zn表示某个品牌或某个机型,如用户使用的手机为该品牌或该机型,则zn的值为1,否则为0;
4.6基于全部特征的用户表示:x6=(uj,vk,wl,ym,zn),将上述涉及的全部特征相结合,形成组合特征,作为推测用户属性的特征;
5)用户属性预测:对于一个给定的用户表示,通过已经过训练的分类器,即可预测具备特定特征的用户属性,预测式如下:
y=f(xi)
其中,xi表示具备特定特征的用户,f表示分类器,y即为预测的用户特征,包括性别、年龄段;
在训练过程中利用步骤4)提取得到的特征,训练不同的分类器来预测用户性别、年龄(3个年龄段),分类器包括XGBoost、逻辑回归、GBDT、随机森林和支持向量机,并且在训练过程中,对数据集,采用五折交叉验证的方法,提高训练效果;在训练样本以及调节模型参数获得更好训练效果过程中,选用F1分数作为样本训练指标来选择参数;参数调节包括调节模型的深度、叶子节点样本数、叶子节点权重、正则化程度、样本权重以及样本不均衡程度等;在完成分类器训练后,将测试集样本通过分类器,获得预测的用户属性;
6)结果汇总:将通过不同特征、不同分类器的用户预测结果汇总在表格中体现。
进一步地,所述步骤1)数据集预处理步骤中,首先根据数据集中的信息,将用户使用的手机品牌信息与用户个人信息相结合,筛选过滤同一个用户ID有矛盾用户信息的重复项;其次根据数据集中用户的年龄统计信息,筛选过滤年龄较可疑的用户;之后,将用户应用程序使用记录与用户个人信息相结合,筛选过滤缺少用户个人信息的用户应用程序使用记录;最后筛选过滤小于等于10条使用记录(即只有小于等于十个时间点的使用记录)的用户,只保留了使用应用程序更频繁的用户即可信度更高的用户,得到预处理后的数据集。
进一步地,所述步骤2)数据集基础分析步骤中,利用python中的pandas和numpy库,统计不同应用程序的使用频率、24小时内用户应用程序使用情况以及用户的男女分布和年龄分布情况,实现数据集基础分析。
进一步地,所述步骤3)用户应用程序使用差异分析步骤中,利用LDA模型,从所有用户使用过的应用程序名称集合中提取一定数量描述学习语义的主题;利用XGBoost模型挖掘用户在各个应用程序层面上的使用差异,比较不同的应用程序或不同主题在区分用户属性中的重要性,分析得到不同属性用户应用程序使用频率差异、不同属性用户应用程序使用时间差异、不同属性用户应用程序使用功能的差异以及不同属性用户所使用的手机品牌及其型号差异。
进一步地,所述步骤4)用户特征提取及表示步骤中,从应用程序使用数据中提取出特征,分别为单个特征与不同特征的组合方式,将每个特征的某一项作为一个维度,将每个用户表示为基于特征的矢量表示。
进一步地,所述步骤5)用户属性预测步骤中,首先训练不同的分类器来预测用户性别、年龄(3个年龄段),分类器包括XGBoost、逻辑回归、GBDT、支持向量机和随机森林,并且在训练过程中,对数据集采用五折交叉验证的方法,更充分利用数据集,提高训练效果;在训练完成后,将测试集数据通过已经过训练的分类器,得到预测结果,并以Accuracy、F1-macro、Recall-macro作为指标来衡量分类结果。
本发明的有益效果是:本发明方法以真实用户应用程序使用记录数据集为基础,数据集信息包含用户智能手机使用记录与用户所使用的智能手机品牌与机型。通过分析用户的应用程序的使用情况与应用程序使用行为和用户属性(性别、年龄)的关系,对应用程序的使用频率、应用程序的使用时间、功能的变化进行研究,发现了不同属性用户在应用程序使用频率、使用时间和功能方面存在显著差异。之后从应用使用记录中提取相应的特征以预测每个用户的属性,实现对性别、年龄的推断。最终对用户属性(性别、年龄)进行推断。本发明不仅有利于开发人员针对用户的个人需求和喜好定制服务,实现应用程序的个性化,还促进用户通过客观地了解了智能手机应用程序的行为,更全面客观的了解自己,改善不良生活习惯,提高工作效率与生活质量,本发明方法数据处理思路便捷,具有较强的实用性、理论性与应用性。
附图说明
图1是本发明的分析应用程序使用数据预测用户属性的方法流程图;
图2是本发明数据集具体信息图;
图3是本发明应用程序使用频率排名分布图;
图4是本发明24小时内用户应用程序使用频率图;
图5是本发明不同性别用户排名前15应用程序使用频率差异图;
图6是本发明不同年龄段用户排名前15应用程序使用频率差异图;
图7是本发明不同性别用户应用程序使用时间差异图;
图8是本发明不同年龄段用户应用程序使用时间差异图;
图9是本发明不同性别用户使用在线消费导航应用程序频率差异图;
图10是本发明不同年龄段用户使用出租车应用程序频率差异图;
图11是本发明用户主题1词云图;
图12是本发明用户主题2词云图。
具体实施方式
以下结合附图对本发明的具体实施方法与工作原理作如下详述:
实施例
本实施例使用的数据集包含了用户2016年4月30日至2016年5月8日内的智能手机使用记录与用户所使用的智能手机品牌与机型。每条使用记录包含了用户ID,时间点,地理位置,应用程序列表,及应用程序是否活跃等信息,数据集包括的具体信息如图2所示。
本实施例中默认数据集信息为一个用户使用产生的,预测用户属性的详细实施步骤如图1所示,具体如下:
1)根据过滤后的数据集对数据集进行基础分析。据统计,在数据集中,男性用户有7511名,女性用户有3469名,男女比例为2.17:1;其中0-24岁用户有1901名,占17.3%,24-34岁用户有5348名,占48.7%,34-60岁用户有3731名,占34.0%。由于不同的应用程序使用用户数目存在明显区别,根据应用程序的安装多少与使用频率,对应用程序进行了排序,如图3所示。其中,横坐标为应用程序排名的对数,纵坐标为应用程序出现频次的对数。从图中可以看出,点的分布大致构成一条直线,只有少数应用程序被频繁使用,大部分应用程序很少被使用,符合齐夫定律。之后统计分析了24小时内用户应用程序使用情况,如图4所示,其中横坐标为24小时时间点,纵坐标为在该时段用户应用程序使用频率。可以观察到,曲线在24小时内不断变化。曲线在10点和21点有两个峰值,从21点开始下降,至凌晨4点达到谷底,此时使用智能手机应用程序的人最少,而从5点开始,使用人数逐渐增加。用户24小时内应用程序使用频率与普通用户作息相符合。
2)在用户应用程序使用差异分析中,利用XGBoost模型挖掘用户在各个应用程序层面上的使用差异,比较不同的应用程序或不同主题在区分用户属性中的重要性,利用LDA模型,从所有用户使用过的应用程序名称集合中提取一定数量描述学习语义的主题,提取主题数目为35个,每个主题由20个词构成。
2.1 XGBoost模型:是一个树集成模型,它使用的是K(树的总数为K)株树中每株树对样本的预测值的和作为该样本在XGBoost模型中的最终预测,下一次预测都在上一次的预测基础上取最优进一步分类。XGBoost模型的核心算法思想为持续地添加树,持续地特征分裂用于生长树,每次新添加树,就去拟合上次预测的残差,最后将每棵树对应的预测结果加起来就是该样本的预测值。
2.2 LDA模型:是一种文档主题生成模型,也被称为三层贝叶斯概率模型,模型具体包含了词、主题和文档三层结构。其中,每一篇文档由主题构成,每一个主题由词构成。文档到主题服从了多项式分布,主题到词同样服从多项式分布。LDA模型在主题模型中占有非常重要的地位,常用来进行文本分类、关键词提取等工作。
2.3具体用户使用差异有:
2.3.1用户应用程序使用频率差异:利用XGBoost模型,获得男女用户使用频率差异最大的排名前15的应用程序,如图5所示,图中横坐标为应用程序名称,纵坐标为用户对该应用程序的使用频率。男性女性使用频率差异排名第一的应用程序为地图应用程序,排名第二的应用程序为在线购物应用程序,排名第三的应用程序为科技信息应用程序。总体上看,男性女性用户对不同应用程序的使用频率差异是明显的,男性女性用户在应用程序使用上有不同的偏好。男性用户更倾向于使用与地图、信息阅读、理财有关的应用程序,而女性更趋于使用与消费购物、摄像等有关的应用程序。在得到不同性别用户应用程序使用频率差异之后,同样利用XGBoost模型构建决策树,对不同年龄段的用户使用应用程序的频率差异进行了研究,不同年龄段用户使用频率差异最大的排名前15的移动APP,如图6所示,图中横坐标为应用程序名称,纵坐标为用户对该应用程序的使用频率。年轻用户使用智能手机应用程序的频率远高于年长的用户,年轻用户使用智能手机更频繁。总体上看,不同年龄段用户对不同应用程序的使用频率的差异也是十分明显的。年轻用户更倾向于使用与社交、娱乐有关的应用程序,而年长的用户则更多的使用与新闻、科技信息有关的应用程序,与年轻用户相比,在日常生活中,年长用户阅读得更多,更加理性。
2.3.2用户应用程序使用时间差异:在这一部分,首先分析了不同属性用户应用程序总体上的使用时间差异。不用性别用户应用程序总体上的使用时间差异如图7所示,图中横坐标为24小时时间点,纵坐标为用户应用程序使用频率。从图7中可以得出,整体上看,男性女性用户24小时内应用程序使用频率都与24小时内用户应用程序使用情况基本相符合;而更具体的来看,相比较男性用户,女性用户熬夜更少,更注重睡眠,男性用户熬夜更多。之后分析了不用年龄段用户应用程序总体上的使用时间差异,如图8所示,图中横坐标为24小时时间点,纵坐标为用户应用程序使用频率。从图8中可以得出,图中三条曲线,每条曲线相对于另一条曲线有明显的位置平移趋势,年龄越大的用户的曲线相对年龄较小的用户的曲线左移,年长用户熬夜更少,清晨早起的更多,而年轻用户有熬夜趋势,且清晨起床较晚。
为了进一步发现用户应用程序使用时间差异,在上述分析的基础上,进一步研究了不用属性用户对相同应用程序的使用时间差异。选取了男性女性使用频率区别较大的在线消费导航应用程序,分析了不同性别用户在使用该应用程序时,24小时内的使用时间差异,如图9所示,图中横坐标为24小时时间点,纵坐标为不同性别用户对该应用程序的使用频率。图9中,对在线消费导航应用程序,女性用户在24小时内,从凌晨4点开始,使用频率逐渐上升,从晚上21点开始,使用频率逐渐下降,曲线在10点和21点有两个使用频率峰值点。与女性相比,男性很少使用在线消费导航应用程序,曲线幅值较低,从凌晨4点开始,曲线略有上升,男性对该应用程序的使用频率增加,而在大多数时间段,男性对该应用程序的使用频率基本保持不变,曲线波动小。之后,选取了不同年龄段(24岁以下,24-34岁,34-60岁)使用频率区别较大的出租车应用程序,分别分析了不同年龄段用户在使用该应用程序时,24小时内的使用时间差异,如图10所示。图10中横坐标均为24小时时间点,纵坐标分别为不同年龄段用户对该应用程序的使用频率。从图10中可以看出,与其他年龄段用户相比,24-34的用户使用出租车应用程序的频率最高,使用频率从早晨8点开始一直保持在一个较高的水平,在下午16点曲线略有下降随即再次上升,与其他应用程序相比,出租车应用程序的使用频率在较长时间内保持在一定范围内,可能原因为除了睡眠时间,其余时间都不断有人因为各种需求打车。
2.3.3用户应用程序使用功能差异:不同用户根据兴趣选择使用不同功能应用程序,利用LDA模型,从各个文档(文档由用户使用过的应用程序名称组成)中一共提取出了35个主题,每个主题由20个词构成。例如,主题3为:“0.048*"babies"+0.043*"Families"+0.043*"with"+0.031*"Maternal"+0.031*"child"+0.024*"Parenting"+0.024*"Low"+0.022*"population"+0.022*"stage"+0.019*"Industry"+0.016*"High"+0.016*"online"+0.014*"P2P"+0.014*"profitability"+0.014*"Property"+0.013*"shopping"+0.013*"income"+0.012*"Internet"+0.011*"Technology"+0.011*"risk"”,分析可看出该主题与家庭育儿等有关,女性或年长的用户对该主题的概率可能高于男性或年轻用户。
为了进一步区分用户应用程序使用功能的差异,通过XGBoost构建模型,选取了区分男女属性最有效前15个主题中的两个主题,其词云分布分别如图11和图12所示。从图11和图12中可看出,这两个主题的类型是完全不同的,图11中的主题更倾向于理财金融,而图12中的主题更倾向于学习与娱乐。不同性别用户属于每个主题的概率是不同的。
2.3.4用户手机品牌机型使用差异:使用人数排名前五的手机品牌分别为:华为、小米、三星、魅族、OPPO;而使用人数排名前五的手机机型分别为:MI4、红米note、荣耀6、mate7和Galaxy Note 3。女性用户使用OPPO、vivo较多,男性用户使用荣耀较多,年轻用户使用魅族、OPPO较多,年长用户使用华为、三星较多。
3)根据步骤2)中用户应用程序使用差异分析,分析得到用户使用过的应用程序、用户使用过的应用程序与使用时间相结合、用户应用程序使用主题以及用户使用的手机的品牌与机型可作为良好的区分用户性别和年龄段的特征。利用这些特征,可进一步将用户表示为:
3.1基于所有应用程序为特征的用户表示:x1=(u1,u2,u3...,uj),其中,uj表示所有应用程序中第j个应用程序,若用户使用过该应用程序,则uj的值为1,否则为0。在数据集中的10980位用户共使用过455个应用程序,即每个被表示的用户共有455个维度;
3.2基于应用程序类别为特征的用户表示:x2=(v1,v2,v3...,vk),其中,vk表示所有应用程序中第k类应用程序,如果用户使用过该类别应用程序,则vk的值为1,否则为0。所有应用程序被归类为了31类,在推测过程中,去除了Unknown类,最终每个被表示的用户共有30维;
3.3基于用户主题为特征的用户表示:x3=(w1,w2,w3...,wl),其中,wl表示所有主题中第l个主题,wl的值为用户属于第l个主题的概率,基于主题的用户表示有35维;
3.4基于应用程序类别使用时间为特征的用户表示:x4=(y1,y2,y3...,ym),其中,ym的值为用户在某小时使用某应用程序的使用百分比,利用该用户某小时使用某应用程序的使用记录除以该用户应用程序记录数目得到,共有30(类别)*24(小时)维;
3.5基于手机品牌和型号为特征的用户表示:x5=(z1,z2,z3...,zn),其中,zn表示某个品牌或某个机型,如用户使用的手机为该品牌或该机型,则zn的值为1,否则为0。
3.6基于全部特征的用户表示:x6=(uj,vk,wl,ym,zn),根据上述中提到的所有特征,将上述涉及的全部特征相结合,作为推测用户属性的特征,其特征维度为上述全部特征维度之和。
4)根据步骤3)中的用户特征提取及表示,首先训练了不同的分类器来预测用户性别、年龄(3个年龄段),分类器包括XGBoost、逻辑回归、GBDT、支持向量机和随机森林,并且在训练过程中,对测试数据集采用了五折交叉验证的方法,更充分利用数据集。在训练样本以及调节模型参数获得更好训练效果过程中,选用了F1分数作为样本训练指标来选择参数。参数调节包括调节模型的深度、叶子节点样本数、叶子节点权重、正则化程度、样本权重以及样本不均衡程度等。在完成分类器训练后,将测试集样本通过分类器,获得预测的用户特征。
在训练完成后,将测试集数据通过已经过训练的分类器,得到预测结果,在预测结果时,选择准确率、召回率和F1分数作为评价指标。准确率是分类器正确分类的样本数与给定测试数据集中的样本总数之比。召回率则表示测试数据集中分类器正确分类的样本数占样本中应该被检索到的正确样本数的比率。而F1分数是一个统计指标,用来衡量二分类模型的精度,F1分数综合考虑分类模型的准确率和召回率,可以看作是模型的召回率和准确率的调和平均值。
5)根据步骤4)中的用户属性预测,将预测进行汇总,结果如表1、表2所示。
表1不同特征、不同分类器用户性别推测结果表
表2不同特征、不同分类器用户年龄推测结果表
以上所述仅是本发明的实施方式,虽然本发明已以较佳实施例披露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。
Claims (8)
1.一种分析应用程序使用数据预测用户属性的方法,其特征在于,包括以下步骤:
1)数据集预处理:根据获取的用户应用程序使用数据集,对数据集进行基本过滤,删去ID矛盾、年龄可疑用户的数据信息,删去使用记录过少的用户的数据信息;
2)数据集基础分析:根据预处理后所得数据集,分析数据集基本情况,包括数据集中用户的男女分布与年龄分布情况,以及用户使用应用程序的基本情况;
3)用户应用程序使用差异分析:分析用户应用程序使用行为,利用LDA模型挖掘用户使用主题,利用XGBoost模型挖掘用户在各个应用程序层面上的使用差异,比较不同的应用程序或不同主题在区分用户属性中的重要性,从而获得不同属性用户的使用行为差异,包括:不同属性用户应用程序使用频率差异、不同属性用户应用程序使用时间差异、不同属性用户应用程序使用功能的差异以及不同属性用户所使用的手机品牌及其型号差异;
4)用户特征提取及表示:将用户使用过的应用程序、用户使用过的应用程序与使用时间相结合、用户应用程序使用主题以及用户使用的手机的品牌与机型作为区分用户性别和年龄段的特征;使用基于特征的向量来表示用户,用户表示为xi,用户表示具体为:
4.1基于所有应用程序为特征的用户表示:x1=(u1,u2,u3...,uj),其中,uj表示所有应用程序中第j个应用程序,若用户使用过该应用程序,则uj的值为1,否则为0;
4.2基于应用程序类别为特征的用户表示:x2=(v1,v2,v3...,vk),根据应用程序功能的不同,将用户使用过的所有应用程序进行分类;将每个应用程序类别作为一个维度,若用户使用过该类别应用程序,则对应的vk值为1,否则为0;
4.3基于用户主题为特征的用户表示:x3=(w1,w2,w3...,wl),其中,wl表示所有主题中第l个主题,wl的值为用户属于第l个主题的概率;
4.4基于应用程序类别使用时间为特征的用户表示:x4=(y1,y2,y3...,ym),其中,ym的值为用户在某小时使用某类别应用程序的使用百分比;
4.5基于手机品牌和型号为特征的用户表示:x5=(z1,z2,z3...,zn),其中,zn表示某个品牌或某个机型,若用户使用的手机为该品牌或该机型,则zn的值为1,否则为0;
4.6基于全部特征的用户表示:x6=(uj,vk,wl,ym,zn),将上述涉及的全部特征相结合,形成组合特征,作为推测用户属性的特征;
5)用户属性预测:对于一个给定的用户表示,通过已经过训练的分类器,即可预测具备特定特征的用户属性,预测式如下:
y=f(xi)
其中,xi表示具备特定特征的用户,f表示分类器,y即为预测的用户特征,包括性别和年龄段;
6)结果汇总:将通过不同特征、不同分类器的用户预测结果汇总在表格中体现。
2.根据权利要求1所述的一种分析应用程序使用数据预测用户属性的方法,其特征在于,所述步骤1)数据集预处理步骤中,首先根据数据集中的信息,将用户使用的手机品牌信息与用户个人信息相结合,筛选过滤同一个用户ID有矛盾用户信息的重复项;其次根据数据集中用户的年龄统计信息,筛选过滤年龄较可疑的用户;之后,将用户应用程序使用记录与用户个人信息相结合,筛选过滤缺少用户个人信息的用户应用程序使用记录;最后筛选过滤使用记录少于设定阈值的用户,只保留了使用应用程序更频繁的用户即可信度更高的用户,得到预处理后的数据集。
3.根据权利要求1所述的一种分析应用程序使用数据预测用户属性的方法,其特征在于,所述步骤2)数据集基础分析步骤分析得到:
2.1不同应用程序的使用频率存在较大差异:符合齐夫定律,即只有少量应用程序被高频使用,大部分应用程序很少被使用;
2.2 24小时内用户应用程序使用情况:用户在10点和21点有两个使用峰值,使用应用程序频率最高,从21点开始用户使用频率下降,至凌晨4点达到谷底,而从5点开始,使用人数逐渐增加,与普通用户作息相符合。
4.根据权利要求1所述的一种分析应用程序使用数据预测用户属性的方法,其特征在于,所述步骤2)数据集基础分析步骤中,利用python中的pandas和numpy库,统计不同应用程序的使用频率、24小时内用户应用程序使用情况以及用户的男女分布和年龄分布情况,实现数据集基础分析。
5.根据权利要求1所述的一种分析应用程序使用数据预测用户属性的方法,其特征在于,所述步骤3)用户应用程序使用差异分析步骤中,具体差异如下:
3.1用户应用程序使用频率差异:男性用户倾向于使用与地图、信息阅读、理财有关的应用程序,女性更倾向于使用与消费购物、摄像有关的应用程序,而年长用户倾向于使用和新闻、科技信息有关的应用程序,年轻用户更倾向于使用社交娱乐有关的应用程序;
3.2用户应用程序使用时间差异:不同属性用户应用程序总体上的使用时间差异为女性用户在深夜凌晨使用应用程序频率略低于男性用户,女性用户熬夜更少,而年轻用户相比其他年龄段的用户深夜使用应用程序频率更高,熬夜更多;
3.3用户应用程序使用功能差异:利用LDA模型,从各个文档(文档由用户使用过的应用程序名称组成)中提取若干主题,每个主题由词构成,不同用户属于不同主题的概率不同,男性用户对理财金融主题的概率更高,年轻用户对学习娱乐主题的概率更高;
3.4用户手机品牌机型使用差异:使用人数排名前五的手机品牌分别为华为、小米、三星、魅族、OPPO;而使用人数排名前五的手机机型分别为MI4、红米note、荣耀6、mate7和Galaxy Note 3;女性用户使用OPPO、vivo较多,男性用户使用荣耀较多,年轻用户使用魅族、OPPO较多,年长用户使用华为、三星较多。
6.根据权利要求1所述的一种分析应用程序使用数据预测用户属性的方法,其特征在于,所述步骤4)用户特征提取及表示步骤中,从应用程序使用数据中提取出特征,分别为单个特征与不同特征的组合方式,将每个特征的某一项作为一个维度,将每个用户表示为基于特征的矢量表示。
7.根据权利要求1所述的一种分析应用程序使用数据预测用户属性的方法,其特征在于,所述步骤5)用户属性预测步骤中,首先利用步骤4)提取得到的特征,训练不同的分类器来预测用户性别、年龄,分类器包括XGBoost、逻辑回归、GBDT、随机森林和支持向量机,在训练过程中,对数据集采用五折交叉验证的方法,更充分利用数据集,提高训练效果;在训练样本以及调节模型参数获得更好训练效果过程中,选用F1分数作为样本训练指标来选择参数;参数调节包括调节模型的深度、叶子节点样本数、叶子节点权重、正则化程度、样本权重以及样本不均衡程度等。
8.根据权利要求1所述的一种分析应用程序使用数据预测用户属性的方法,其特征在于,所述步骤5)用户属性预测步骤中,在完成分类器训练后,将测试集样本通过已经过训练的分类器,获得预测的用户属性,并以Accuracy、F1-macro、Recall-macro作为指标来衡量分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010856153.1A CN112084402A (zh) | 2020-08-24 | 2020-08-24 | 一种分析应用程序使用数据预测用户属性的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010856153.1A CN112084402A (zh) | 2020-08-24 | 2020-08-24 | 一种分析应用程序使用数据预测用户属性的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112084402A true CN112084402A (zh) | 2020-12-15 |
Family
ID=73729217
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010856153.1A Pending CN112084402A (zh) | 2020-08-24 | 2020-08-24 | 一种分析应用程序使用数据预测用户属性的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112084402A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113344432A (zh) * | 2021-06-29 | 2021-09-03 | 云南电网有限责任公司信息中心 | 一种区域性客户服务风险的判断方法及装置 |
CN115147963A (zh) * | 2022-07-30 | 2022-10-04 | 重庆长安汽车股份有限公司 | 车辆数字钥匙数据变化分析方法、系统、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108090607A (zh) * | 2017-12-13 | 2018-05-29 | 中山大学 | 一种基于多模型堆栈融合的社交媒体用户人口属性预测方法 |
CN109345263A (zh) * | 2018-08-02 | 2019-02-15 | 北京天元创新科技有限公司 | 预测客户满意度的方法和系统 |
CN110012060A (zh) * | 2019-02-13 | 2019-07-12 | 平安科技(深圳)有限公司 | 移动终端的信息推送方法、装置、存储介质和服务器 |
CN111291798A (zh) * | 2020-01-21 | 2020-06-16 | 北京工商大学 | 一种基于集成学习的用户基础属性预测方法 |
CN111309936A (zh) * | 2019-12-27 | 2020-06-19 | 上海大学 | 一种电影用户画像的构建方法 |
-
2020
- 2020-08-24 CN CN202010856153.1A patent/CN112084402A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108090607A (zh) * | 2017-12-13 | 2018-05-29 | 中山大学 | 一种基于多模型堆栈融合的社交媒体用户人口属性预测方法 |
CN109345263A (zh) * | 2018-08-02 | 2019-02-15 | 北京天元创新科技有限公司 | 预测客户满意度的方法和系统 |
CN110012060A (zh) * | 2019-02-13 | 2019-07-12 | 平安科技(深圳)有限公司 | 移动终端的信息推送方法、装置、存储介质和服务器 |
CN111309936A (zh) * | 2019-12-27 | 2020-06-19 | 上海大学 | 一种电影用户画像的构建方法 |
CN111291798A (zh) * | 2020-01-21 | 2020-06-16 | 北京工商大学 | 一种基于集成学习的用户基础属性预测方法 |
Non-Patent Citations (1)
Title |
---|
程豪;吕晓玲;范超;赵昱;: "大数据下智能手机用户行为特征与选择偏好预测", 统计与决策, no. 02 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113344432A (zh) * | 2021-06-29 | 2021-09-03 | 云南电网有限责任公司信息中心 | 一种区域性客户服务风险的判断方法及装置 |
CN113344432B (zh) * | 2021-06-29 | 2022-05-13 | 云南电网有限责任公司信息中心 | 一种区域性客户服务风险的判断方法及装置 |
CN115147963A (zh) * | 2022-07-30 | 2022-10-04 | 重庆长安汽车股份有限公司 | 车辆数字钥匙数据变化分析方法、系统、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109359244B (zh) | 一种个性化信息推荐方法和装置 | |
Hiniker et al. | Why would you do that? predicting the uses and gratifications behind smartphone-usage behaviors | |
Zhu et al. | Exploiting enriched contextual information for mobile app classification | |
US9710540B2 (en) | Systems and methods for classifying electronic documents | |
CN110942337A (zh) | 一种基于互联网大数据的精准旅游营销方法 | |
US11176142B2 (en) | Method of data query based on evaluation and device | |
CN102929873B (zh) | 一种基于情境搜索提取搜索价值词的方法及装置 | |
CN110222267A (zh) | 一种游戏平台信息推送方法、系统、存储介质及设备 | |
CN105718579A (zh) | 一种基于上网日志挖掘和用户活动识别的信息推送方法 | |
CN108648010B (zh) | 用于向用户提供内容的方法、系统及相应介质 | |
US20130036121A1 (en) | System and method for recommending blog | |
CN110532379B (zh) | 一种基于lstm的用户评论情感分析的电子资讯推荐方法 | |
CN102576438A (zh) | 用于执行推荐的方法和设备 | |
CN103235824A (zh) | 根据浏览网页确定用户感兴趣的网页文本的方法和系统 | |
CN107391582B (zh) | 基于上下文本体树计算用户偏好相似度的信息推荐方法 | |
CN104133817A (zh) | 网络社区交互方法、装置及网络社区平台 | |
CN103678618A (zh) | 一种基于社交网络平台的Web服务推荐方法 | |
CN106682686A (zh) | 一种基于手机上网行为的用户性别预测方法 | |
CN111309936A (zh) | 一种电影用户画像的构建方法 | |
US20130318021A1 (en) | Information processing apparatus, information processing method, and program | |
CN113934941A (zh) | 一种基于多维度信息的用户推荐系统及方法 | |
CN112084402A (zh) | 一种分析应用程序使用数据预测用户属性的方法 | |
CN112231593B (zh) | 一种金融资讯智能推荐系统 | |
CN107977445A (zh) | 应用程序推荐方法及装置 | |
CN116501840B (zh) | 一种用于获客营销的nlp智能分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |