CN112084402A

CN112084402A - 一种分析应用程序使用数据预测用户属性的方法

Info

Publication number: CN112084402A
Application number: CN202010856153.1A
Authority: CN
Inventors: 陈积明; 张莹倩; 李超; 贺诗波; 李可汉
Original assignee: Zhejiang Yunhe Data Technology Co ltd
Current assignee: Zhejiang Yunhe Data Technology Co ltd
Priority date: 2020-08-24
Filing date: 2020-08-24
Publication date: 2020-12-15

Abstract

本发明公开了一种分析应用程序使用数据预测用户属性的方法。本方法以真实用户应用程序使用记录数据集为基础，通过分析用户应用程序的使用情况与应用程序使用行为和用户属性的关系，对应用程序的使用频率、应用程序的使用时间、功能的变化进行分析，获得不同属性用户的使用行为差异；之后从应用使用记录中提取相应的特征以预测每个用户的属性。本发明不仅有利于开发人员针对用户的个人需求和喜好定制服务，实现应用程序的个性化，还促进用户通过客观地了解智能手机应用程序的使用行为，更全面客观的了解自己，改善不良生活习惯，提高工作效率与生活质量，本发明方法具有较强的实用性、理论性与应用性。

Description

一种分析应用程序使用数据预测用户属性的方法

技术领域

本发明涉及一种基于移动应用程序使用数据的用户画像获取算法，特别是通过分析应用程序使用数据预测用户属性的方法。

背景技术

随着移动互联网的快速普及，智能手机市场发展迅速，据统计，到目前全球发达国家成年人群中，智能手机的普及率已经超过85％，人们每天平均看手机50次，十分频繁。迅速发展及普及的智能手机影响改变了人们的生活，智能手机从一个简单的通讯工具逐渐演变成了集学习、工作、商务、娱乐为一体的多样化平台，智能手机上的应用程序已成为人们日常生活中必不可少的一部分，无论是衣、食、住、行，应用程序都可以给我们提供便捷的服务，它们是用户获取各种服务、满足各种需求的入口。智能手机用户们根据个人需求与喜好来安装和使用应用程序，不同的用户有不同的需求或兴趣，安装和使用应用程序的行为也不同，因此智能手机应用程序使用数据可有效的传递很多个人信息，具有不同属性的用户安装使用的应用程序自然也不同，应用程序使用记录必然有差异。例如，不同地区用户由于语言、文化以及生活习性的不同，移动APP使用习惯大不相同，不同性别和年龄的用户使用习惯也有差异，女性用户可能会更频繁的使用与购物消费有关的应用程序，年龄较大的用户可能对金融与阅读更感兴趣，即使是相同的应用程序，不用用户的使用行为例如使用频率也大不同。

通过智能手机数据挖掘出的信息具有很强的商业价值，识别用户行为、挖掘用户属性在精准营销、精准广告投放、个性化推荐、用户身份识别等方面具有重要意义。利用识别挖掘到的信息，开发人员可针对用户的个人需求和喜好定制服务，实现应用程序的个性化，例如个性化的网页搜索，个性化的推荐，合理预安装手机应用程序等，实现智慧化服务，改善用户体验等。从用户自身的角度出发，他们可通过客观地了解了智能手机应用程序的行为，更全面客观的了解自己，例如了解个人生活作息时间，娱乐占比等，改善不良生活习惯，提高工作效率与生活质量。

发明内容

本发明目的在于对现有使用较少的应用程序使用数据进行利用，提出一种分析应用程序使用数据预测用户属性的方法。该方法提出了预测用户属性的完整流程，通过预测用户属性实现用户画像分析，有利于个性化商业服务以及促进用户更全面认识自我。

本发明的目的通过以下的技术方案实现：一种分析应用程序使用数据预测用户属性的方法，该方法包括以下步骤：

1)数据集预处理：根据获取的用户应用程序使用数据集，对数据集进行基本过滤，删去ID矛盾、年龄可疑用户的数据信息，删去使用记录过少的用户的数据信息，只保留拥有大于10条使用记录的用户的数据信息；在预处理后的数据集中，69.6％用户的使用记录在10条至50条，所有剩下工作将在预处理后的数据集上展开；

2)数据集基础分析：根据预处理后所得数据集，分析数据集基本情况，包括数据集中用户的男女分布与年龄分布情况，以及用户使用应用程序的基本情况，分析得到：

2.1不同应用程序的使用频率存在较大差异：符合齐夫定律，即只有少量应用程序被高频使用，大部分应用程序很少被使用；

2.2 24小时内用户应用程序使用情况：用户在10点和21点有两个使用峰值，使用应用程序频率最高，从21点开始用户使用频率下降，至凌晨4点达到谷底，而从5点开始，使用人数逐渐增加，与普通用户作息相符合；

3)用户应用程序使用差异分析：分析用户应用程序使用行为，利用LDA模型挖掘用户使用主题，利用XGBoost模型挖掘用户在各个应用程序层面上的使用差异，比较不同的应用程序或不同主题在区分用户属性中的重要性，从而获得不同属性用户的使用行为差异，用户使用差异具体有：

3.1用户应用程序使用频率差异：男性用户倾向于使用与地图、信息阅读、理财有关的应用程序，女性更倾向于使用与消费购物、摄像有关的应用程序，而年长用户倾向于使用和新闻、科技信息有关的应用程序，年轻用户更倾向于使用社交娱乐有关的应用程序；

3.2用户应用程序使用时间差异：不同属性用户应用程序总体上的使用时间差异为女性用户在深夜凌晨使用应用程序频率略低于男性用户，女性用户熬夜更少，而年轻用户相比其他年龄段的用户深夜使用应用程序频率更高，熬夜更多；而更具体地分析得到，不同属性用户对相同应用程序的使用时间存在明显差异，例如对消费导航应用程序，女性全天使用频率较高且有变化，而男性的使用频率全天处于较低水平，对出租车应用程序，24-34岁的用户全天使用频率相比其他两个年龄段的用户高，且在一天的较长时间内都处于使用高峰；

3.3用户应用程序使用功能差异：利用LDA模型，从各个文档(文档由用户使用过的应用程序名称组成)中提取若干主题，每个主题由词构成，不同用户属于不同主题的概率不同，男性用户对理财金融主题的概率更高，年轻用户对学习娱乐主题的概率更高；

3.4用户手机品牌机型使用差异：使用人数排名前五的手机品牌分别为华为、小米、三星、魅族、OPPO；而使用人数排名前五的手机机型分别为MI4、红米note、荣耀6、mate7和Galaxy Note 3；女性用户使用OPPO、vivo较多，男性用户使用荣耀较多，年轻用户使用魅族、OPPO较多，年长用户使用华为、三星较多；

4)用户特征提取及表示：由步骤3)用户应用程序使用差异可得，用户使用过的应用程序、用户使用过的应用程序与使用时间相结合、用户应用程序使用主题以及用户使用的手机的品牌与机型可作为良好的区分用户性别和年龄段的特征；为了通过应用程序使用数据挖掘预测用户属性，首先需要表示用户，使用基于特征的向量来表示用户，用户表示为x_i，用户表示具体为：

4.1基于所有应用程序为特征的用户表示：x₁＝(u₁,u₂,u₃...,u_j)，其中，u_j表示所有应用程序中第j个应用程序，若用户使用过该应用程序，则u_j的值为1，否则为0；

4.2基于应用程序类别为特征的用户表示：x₂＝(v₁,v₂,v₃...,v_k)，为了加快运算速度，根据应用程序功能的不同，将用户使用过的所有应用程序进行分类，例如，分成以下31类：Finance、News and reading、Navigation、Photo and beauty、Car、Business、Canlender、System tool、SON and IM、Shopping、Weather、Home、Health and fitness、Travel、Media and videos、Transportation、Theme、Parent and child、entertainment、Game casual and puzzle、Game other、Game card and chess、stock、Clock、Education、Phone and SMS、Music and audio、Game stategy、Gambling、Browser and searching、Unknown。将每个应用程序类别作为一个维度，如果用户使用过该类别应用程序，则对应的v_k值为1，否则为0；

4.3基于用户主题为特征的用户表示：x₃＝(w₁,w₂,w₃...,w_l)，其中，w_l表示所有主题中第l个主题，w_l的值为用户属于第l个主题的概率；

4.4基于应用程序类别使用时间为特征的用户表示：x₄＝(y₁,y₂,y₃...,y_m)，其中，y_m的值为用户在某小时使用某类别应用程序的使用百分比，利用该用户某小时使用某类别应用程序的使用记录除以该用户应用程序记录数目得到；

4.5基于手机品牌和型号为特征的用户表示：x₅＝(z₁,z₂,z₃...,z_n)，其中，z_n表示某个品牌或某个机型，如用户使用的手机为该品牌或该机型，则z_n的值为1，否则为0；

4.6基于全部特征的用户表示：x₆＝(u_j,v_k,w_l,y_m,z_n)，将上述涉及的全部特征相结合，形成组合特征，作为推测用户属性的特征；

5)用户属性预测：对于一个给定的用户表示，通过已经过训练的分类器，即可预测具备特定特征的用户属性，预测式如下：

y＝f(x_i)

其中，x_i表示具备特定特征的用户，f表示分类器，y即为预测的用户特征，包括性别、年龄段；

在训练过程中利用步骤4)提取得到的特征，训练不同的分类器来预测用户性别、年龄(3个年龄段)，分类器包括XGBoost、逻辑回归、GBDT、随机森林和支持向量机，并且在训练过程中，对数据集，采用五折交叉验证的方法，提高训练效果；在训练样本以及调节模型参数获得更好训练效果过程中，选用F1分数作为样本训练指标来选择参数；参数调节包括调节模型的深度、叶子节点样本数、叶子节点权重、正则化程度、样本权重以及样本不均衡程度等；在完成分类器训练后，将测试集样本通过分类器，获得预测的用户属性；

6)结果汇总：将通过不同特征、不同分类器的用户预测结果汇总在表格中体现。

进一步地，所述步骤1)数据集预处理步骤中，首先根据数据集中的信息，将用户使用的手机品牌信息与用户个人信息相结合，筛选过滤同一个用户ID有矛盾用户信息的重复项；其次根据数据集中用户的年龄统计信息，筛选过滤年龄较可疑的用户；之后，将用户应用程序使用记录与用户个人信息相结合，筛选过滤缺少用户个人信息的用户应用程序使用记录；最后筛选过滤小于等于10条使用记录(即只有小于等于十个时间点的使用记录)的用户，只保留了使用应用程序更频繁的用户即可信度更高的用户，得到预处理后的数据集。

进一步地，所述步骤2)数据集基础分析步骤中，利用python中的pandas和numpy库，统计不同应用程序的使用频率、24小时内用户应用程序使用情况以及用户的男女分布和年龄分布情况，实现数据集基础分析。

进一步地，所述步骤3)用户应用程序使用差异分析步骤中，利用LDA模型，从所有用户使用过的应用程序名称集合中提取一定数量描述学习语义的主题；利用XGBoost模型挖掘用户在各个应用程序层面上的使用差异，比较不同的应用程序或不同主题在区分用户属性中的重要性，分析得到不同属性用户应用程序使用频率差异、不同属性用户应用程序使用时间差异、不同属性用户应用程序使用功能的差异以及不同属性用户所使用的手机品牌及其型号差异。

进一步地，所述步骤4)用户特征提取及表示步骤中，从应用程序使用数据中提取出特征，分别为单个特征与不同特征的组合方式，将每个特征的某一项作为一个维度，将每个用户表示为基于特征的矢量表示。

进一步地，所述步骤5)用户属性预测步骤中，首先训练不同的分类器来预测用户性别、年龄(3个年龄段)，分类器包括XGBoost、逻辑回归、GBDT、支持向量机和随机森林，并且在训练过程中，对数据集采用五折交叉验证的方法，更充分利用数据集，提高训练效果；在训练完成后，将测试集数据通过已经过训练的分类器，得到预测结果，并以Accuracy、F1-macro、Recall-macro作为指标来衡量分类结果。

本发明的有益效果是：本发明方法以真实用户应用程序使用记录数据集为基础，数据集信息包含用户智能手机使用记录与用户所使用的智能手机品牌与机型。通过分析用户的应用程序的使用情况与应用程序使用行为和用户属性(性别、年龄)的关系，对应用程序的使用频率、应用程序的使用时间、功能的变化进行研究，发现了不同属性用户在应用程序使用频率、使用时间和功能方面存在显著差异。之后从应用使用记录中提取相应的特征以预测每个用户的属性，实现对性别、年龄的推断。最终对用户属性(性别、年龄)进行推断。本发明不仅有利于开发人员针对用户的个人需求和喜好定制服务，实现应用程序的个性化，还促进用户通过客观地了解了智能手机应用程序的行为，更全面客观的了解自己，改善不良生活习惯，提高工作效率与生活质量，本发明方法数据处理思路便捷，具有较强的实用性、理论性与应用性。

附图说明

图1是本发明的分析应用程序使用数据预测用户属性的方法流程图；

图2是本发明数据集具体信息图；

图3是本发明应用程序使用频率排名分布图；

图4是本发明24小时内用户应用程序使用频率图；

图5是本发明不同性别用户排名前15应用程序使用频率差异图；

图6是本发明不同年龄段用户排名前15应用程序使用频率差异图；

图7是本发明不同性别用户应用程序使用时间差异图；

图8是本发明不同年龄段用户应用程序使用时间差异图；

图9是本发明不同性别用户使用在线消费导航应用程序频率差异图；

图10是本发明不同年龄段用户使用出租车应用程序频率差异图；

图11是本发明用户主题1词云图；

图12是本发明用户主题2词云图。

具体实施方式

以下结合附图对本发明的具体实施方法与工作原理作如下详述：

实施例

本实施例使用的数据集包含了用户2016年4月30日至2016年5月8日内的智能手机使用记录与用户所使用的智能手机品牌与机型。每条使用记录包含了用户ID，时间点，地理位置，应用程序列表，及应用程序是否活跃等信息，数据集包括的具体信息如图2所示。

本实施例中默认数据集信息为一个用户使用产生的，预测用户属性的详细实施步骤如图1所示，具体如下：

1)根据过滤后的数据集对数据集进行基础分析。据统计，在数据集中，男性用户有7511名，女性用户有3469名，男女比例为2.17：1；其中0-24岁用户有1901名，占17.3％，24-34岁用户有5348名，占48.7％，34-60岁用户有3731名，占34.0％。由于不同的应用程序使用用户数目存在明显区别，根据应用程序的安装多少与使用频率，对应用程序进行了排序，如图3所示。其中，横坐标为应用程序排名的对数，纵坐标为应用程序出现频次的对数。从图中可以看出，点的分布大致构成一条直线，只有少数应用程序被频繁使用，大部分应用程序很少被使用，符合齐夫定律。之后统计分析了24小时内用户应用程序使用情况，如图4所示，其中横坐标为24小时时间点，纵坐标为在该时段用户应用程序使用频率。可以观察到，曲线在24小时内不断变化。曲线在10点和21点有两个峰值，从21点开始下降，至凌晨4点达到谷底，此时使用智能手机应用程序的人最少，而从5点开始，使用人数逐渐增加。用户24小时内应用程序使用频率与普通用户作息相符合。

2)在用户应用程序使用差异分析中，利用XGBoost模型挖掘用户在各个应用程序层面上的使用差异，比较不同的应用程序或不同主题在区分用户属性中的重要性，利用LDA模型，从所有用户使用过的应用程序名称集合中提取一定数量描述学习语义的主题，提取主题数目为35个，每个主题由20个词构成。

2.1 XGBoost模型：是一个树集成模型，它使用的是K(树的总数为K)株树中每株树对样本的预测值的和作为该样本在XGBoost模型中的最终预测，下一次预测都在上一次的预测基础上取最优进一步分类。XGBoost模型的核心算法思想为持续地添加树，持续地特征分裂用于生长树，每次新添加树，就去拟合上次预测的残差，最后将每棵树对应的预测结果加起来就是该样本的预测值。

2.2 LDA模型：是一种文档主题生成模型，也被称为三层贝叶斯概率模型，模型具体包含了词、主题和文档三层结构。其中，每一篇文档由主题构成，每一个主题由词构成。文档到主题服从了多项式分布，主题到词同样服从多项式分布。LDA模型在主题模型中占有非常重要的地位，常用来进行文本分类、关键词提取等工作。

2.3具体用户使用差异有：

2.3.1用户应用程序使用频率差异：利用XGBoost模型，获得男女用户使用频率差异最大的排名前15的应用程序，如图5所示，图中横坐标为应用程序名称，纵坐标为用户对该应用程序的使用频率。男性女性使用频率差异排名第一的应用程序为地图应用程序，排名第二的应用程序为在线购物应用程序，排名第三的应用程序为科技信息应用程序。总体上看，男性女性用户对不同应用程序的使用频率差异是明显的，男性女性用户在应用程序使用上有不同的偏好。男性用户更倾向于使用与地图、信息阅读、理财有关的应用程序，而女性更趋于使用与消费购物、摄像等有关的应用程序。在得到不同性别用户应用程序使用频率差异之后，同样利用XGBoost模型构建决策树，对不同年龄段的用户使用应用程序的频率差异进行了研究，不同年龄段用户使用频率差异最大的排名前15的移动APP，如图6所示，图中横坐标为应用程序名称，纵坐标为用户对该应用程序的使用频率。年轻用户使用智能手机应用程序的频率远高于年长的用户，年轻用户使用智能手机更频繁。总体上看，不同年龄段用户对不同应用程序的使用频率的差异也是十分明显的。年轻用户更倾向于使用与社交、娱乐有关的应用程序，而年长的用户则更多的使用与新闻、科技信息有关的应用程序，与年轻用户相比，在日常生活中，年长用户阅读得更多，更加理性。

2.3.2用户应用程序使用时间差异：在这一部分，首先分析了不同属性用户应用程序总体上的使用时间差异。不用性别用户应用程序总体上的使用时间差异如图7所示，图中横坐标为24小时时间点，纵坐标为用户应用程序使用频率。从图7中可以得出，整体上看，男性女性用户24小时内应用程序使用频率都与24小时内用户应用程序使用情况基本相符合；而更具体的来看，相比较男性用户，女性用户熬夜更少，更注重睡眠，男性用户熬夜更多。之后分析了不用年龄段用户应用程序总体上的使用时间差异，如图8所示，图中横坐标为24小时时间点，纵坐标为用户应用程序使用频率。从图8中可以得出，图中三条曲线，每条曲线相对于另一条曲线有明显的位置平移趋势，年龄越大的用户的曲线相对年龄较小的用户的曲线左移，年长用户熬夜更少，清晨早起的更多，而年轻用户有熬夜趋势，且清晨起床较晚。

为了进一步发现用户应用程序使用时间差异，在上述分析的基础上，进一步研究了不用属性用户对相同应用程序的使用时间差异。选取了男性女性使用频率区别较大的在线消费导航应用程序，分析了不同性别用户在使用该应用程序时，24小时内的使用时间差异，如图9所示，图中横坐标为24小时时间点，纵坐标为不同性别用户对该应用程序的使用频率。图9中，对在线消费导航应用程序，女性用户在24小时内，从凌晨4点开始，使用频率逐渐上升，从晚上21点开始，使用频率逐渐下降，曲线在10点和21点有两个使用频率峰值点。与女性相比，男性很少使用在线消费导航应用程序，曲线幅值较低，从凌晨4点开始，曲线略有上升，男性对该应用程序的使用频率增加，而在大多数时间段，男性对该应用程序的使用频率基本保持不变，曲线波动小。之后，选取了不同年龄段(24岁以下，24-34岁，34-60岁)使用频率区别较大的出租车应用程序，分别分析了不同年龄段用户在使用该应用程序时，24小时内的使用时间差异，如图10所示。图10中横坐标均为24小时时间点，纵坐标分别为不同年龄段用户对该应用程序的使用频率。从图10中可以看出，与其他年龄段用户相比，24-34的用户使用出租车应用程序的频率最高，使用频率从早晨8点开始一直保持在一个较高的水平，在下午16点曲线略有下降随即再次上升，与其他应用程序相比，出租车应用程序的使用频率在较长时间内保持在一定范围内，可能原因为除了睡眠时间，其余时间都不断有人因为各种需求打车。

2.3.3用户应用程序使用功能差异：不同用户根据兴趣选择使用不同功能应用程序，利用LDA模型，从各个文档(文档由用户使用过的应用程序名称组成)中一共提取出了35个主题，每个主题由20个词构成。例如，主题3为：“0.048*"babies"+0.043*"Families"+0.043*"with"+0.031*"Maternal"+0.031*"child"+0.024*"Parenting"+0.024*"Low"+0.022*"population"+0.022*"stage"+0.019*"Industry"+0.016*"High"+0.016*"online"+0.014*"P2P"+0.014*"profitability"+0.014*"Property"+0.013*"shopping"+0.013*"income"+0.012*"Internet"+0.011*"Technology"+0.011*"risk"”，分析可看出该主题与家庭育儿等有关，女性或年长的用户对该主题的概率可能高于男性或年轻用户。

为了进一步区分用户应用程序使用功能的差异，通过XGBoost构建模型，选取了区分男女属性最有效前15个主题中的两个主题，其词云分布分别如图11和图12所示。从图11和图12中可看出，这两个主题的类型是完全不同的，图11中的主题更倾向于理财金融，而图12中的主题更倾向于学习与娱乐。不同性别用户属于每个主题的概率是不同的。

2.3.4用户手机品牌机型使用差异：使用人数排名前五的手机品牌分别为：华为、小米、三星、魅族、OPPO；而使用人数排名前五的手机机型分别为：MI4、红米note、荣耀6、mate7和Galaxy Note 3。女性用户使用OPPO、vivo较多，男性用户使用荣耀较多，年轻用户使用魅族、OPPO较多，年长用户使用华为、三星较多。

3)根据步骤2)中用户应用程序使用差异分析，分析得到用户使用过的应用程序、用户使用过的应用程序与使用时间相结合、用户应用程序使用主题以及用户使用的手机的品牌与机型可作为良好的区分用户性别和年龄段的特征。利用这些特征，可进一步将用户表示为：

3.1基于所有应用程序为特征的用户表示：x₁＝(u₁,u₂,u₃...,u_j)，其中，u_j表示所有应用程序中第j个应用程序，若用户使用过该应用程序，则u_j的值为1，否则为0。在数据集中的10980位用户共使用过455个应用程序，即每个被表示的用户共有455个维度；

3.2基于应用程序类别为特征的用户表示：x₂＝(v₁,v₂,v₃...,v_k)，其中，v_k表示所有应用程序中第k类应用程序，如果用户使用过该类别应用程序，则v_k的值为1，否则为0。所有应用程序被归类为了31类，在推测过程中，去除了Unknown类，最终每个被表示的用户共有30维；

3.3基于用户主题为特征的用户表示：x₃＝(w₁,w₂,w₃...,w_l)，其中，w_l表示所有主题中第l个主题，w_l的值为用户属于第l个主题的概率，基于主题的用户表示有35维；

3.4基于应用程序类别使用时间为特征的用户表示：x₄＝(y₁,y₂,y₃...,y_m)，其中，y_m的值为用户在某小时使用某应用程序的使用百分比，利用该用户某小时使用某应用程序的使用记录除以该用户应用程序记录数目得到，共有30(类别)*24(小时)维；

3.5基于手机品牌和型号为特征的用户表示：x₅＝(z₁,z₂,z₃...,z_n)，其中，z_n表示某个品牌或某个机型，如用户使用的手机为该品牌或该机型，则z_n的值为1，否则为0。

3.6基于全部特征的用户表示：x₆＝(u_j,v_k,w_l,y_m,z_n)，根据上述中提到的所有特征，将上述涉及的全部特征相结合，作为推测用户属性的特征，其特征维度为上述全部特征维度之和。

4)根据步骤3)中的用户特征提取及表示，首先训练了不同的分类器来预测用户性别、年龄(3个年龄段)，分类器包括XGBoost、逻辑回归、GBDT、支持向量机和随机森林，并且在训练过程中，对测试数据集采用了五折交叉验证的方法，更充分利用数据集。在训练样本以及调节模型参数获得更好训练效果过程中，选用了F1分数作为样本训练指标来选择参数。参数调节包括调节模型的深度、叶子节点样本数、叶子节点权重、正则化程度、样本权重以及样本不均衡程度等。在完成分类器训练后，将测试集样本通过分类器，获得预测的用户特征。

在训练完成后，将测试集数据通过已经过训练的分类器，得到预测结果，在预测结果时，选择准确率、召回率和F1分数作为评价指标。准确率是分类器正确分类的样本数与给定测试数据集中的样本总数之比。召回率则表示测试数据集中分类器正确分类的样本数占样本中应该被检索到的正确样本数的比率。而F1分数是一个统计指标，用来衡量二分类模型的精度，F1分数综合考虑分类模型的准确率和召回率，可以看作是模型的召回率和准确率的调和平均值。

5)根据步骤4)中的用户属性预测，将预测进行汇总，结果如表1、表2所示。

表1不同特征、不同分类器用户性别推测结果表

表2不同特征、不同分类器用户年龄推测结果表

以上所述仅是本发明的实施方式，虽然本发明已以较佳实施例披露如上，然而并非用以限定本发明。任何熟悉本领域的技术人员，在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

Claims

1.一种分析应用程序使用数据预测用户属性的方法，其特征在于，包括以下步骤：

1)数据集预处理：根据获取的用户应用程序使用数据集，对数据集进行基本过滤，删去ID矛盾、年龄可疑用户的数据信息，删去使用记录过少的用户的数据信息；

2)数据集基础分析：根据预处理后所得数据集，分析数据集基本情况，包括数据集中用户的男女分布与年龄分布情况，以及用户使用应用程序的基本情况；

3)用户应用程序使用差异分析：分析用户应用程序使用行为，利用LDA模型挖掘用户使用主题，利用XGBoost模型挖掘用户在各个应用程序层面上的使用差异，比较不同的应用程序或不同主题在区分用户属性中的重要性，从而获得不同属性用户的使用行为差异，包括：不同属性用户应用程序使用频率差异、不同属性用户应用程序使用时间差异、不同属性用户应用程序使用功能的差异以及不同属性用户所使用的手机品牌及其型号差异；

4)用户特征提取及表示：将用户使用过的应用程序、用户使用过的应用程序与使用时间相结合、用户应用程序使用主题以及用户使用的手机的品牌与机型作为区分用户性别和年龄段的特征；使用基于特征的向量来表示用户，用户表示为x_i，用户表示具体为：

4.2基于应用程序类别为特征的用户表示：x₂＝(v₁,v₂,v₃...,v_k)，根据应用程序功能的不同，将用户使用过的所有应用程序进行分类；将每个应用程序类别作为一个维度，若用户使用过该类别应用程序，则对应的v_k值为1，否则为0；

4.4基于应用程序类别使用时间为特征的用户表示：x₄＝(y₁,y₂,y₃...,y_m)，其中，y_m的值为用户在某小时使用某类别应用程序的使用百分比；

4.5基于手机品牌和型号为特征的用户表示：x₅＝(z₁,z₂,z₃...,z_n)，其中，z_n表示某个品牌或某个机型，若用户使用的手机为该品牌或该机型，则z_n的值为1，否则为0；

y＝f(x_i)

其中，x_i表示具备特定特征的用户，f表示分类器，y即为预测的用户特征，包括性别和年龄段；

2.根据权利要求1所述的一种分析应用程序使用数据预测用户属性的方法，其特征在于，所述步骤1)数据集预处理步骤中，首先根据数据集中的信息，将用户使用的手机品牌信息与用户个人信息相结合，筛选过滤同一个用户ID有矛盾用户信息的重复项；其次根据数据集中用户的年龄统计信息，筛选过滤年龄较可疑的用户；之后，将用户应用程序使用记录与用户个人信息相结合，筛选过滤缺少用户个人信息的用户应用程序使用记录；最后筛选过滤使用记录少于设定阈值的用户，只保留了使用应用程序更频繁的用户即可信度更高的用户，得到预处理后的数据集。

3.根据权利要求1所述的一种分析应用程序使用数据预测用户属性的方法，其特征在于，所述步骤2)数据集基础分析步骤分析得到：

2.2 24小时内用户应用程序使用情况：用户在10点和21点有两个使用峰值，使用应用程序频率最高，从21点开始用户使用频率下降，至凌晨4点达到谷底，而从5点开始，使用人数逐渐增加，与普通用户作息相符合。

4.根据权利要求1所述的一种分析应用程序使用数据预测用户属性的方法，其特征在于，所述步骤2)数据集基础分析步骤中，利用python中的pandas和numpy库，统计不同应用程序的使用频率、24小时内用户应用程序使用情况以及用户的男女分布和年龄分布情况，实现数据集基础分析。

5.根据权利要求1所述的一种分析应用程序使用数据预测用户属性的方法，其特征在于，所述步骤3)用户应用程序使用差异分析步骤中，具体差异如下：

3.2用户应用程序使用时间差异：不同属性用户应用程序总体上的使用时间差异为女性用户在深夜凌晨使用应用程序频率略低于男性用户，女性用户熬夜更少，而年轻用户相比其他年龄段的用户深夜使用应用程序频率更高，熬夜更多；

3.4用户手机品牌机型使用差异：使用人数排名前五的手机品牌分别为华为、小米、三星、魅族、OPPO；而使用人数排名前五的手机机型分别为MI4、红米note、荣耀6、mate7和Galaxy Note 3；女性用户使用OPPO、vivo较多，男性用户使用荣耀较多，年轻用户使用魅族、OPPO较多，年长用户使用华为、三星较多。

6.根据权利要求1所述的一种分析应用程序使用数据预测用户属性的方法，其特征在于，所述步骤4)用户特征提取及表示步骤中，从应用程序使用数据中提取出特征，分别为单个特征与不同特征的组合方式，将每个特征的某一项作为一个维度，将每个用户表示为基于特征的矢量表示。

7.根据权利要求1所述的一种分析应用程序使用数据预测用户属性的方法，其特征在于，所述步骤5)用户属性预测步骤中，首先利用步骤4)提取得到的特征，训练不同的分类器来预测用户性别、年龄，分类器包括XGBoost、逻辑回归、GBDT、随机森林和支持向量机，在训练过程中，对数据集采用五折交叉验证的方法，更充分利用数据集，提高训练效果；在训练样本以及调节模型参数获得更好训练效果过程中，选用F1分数作为样本训练指标来选择参数；参数调节包括调节模型的深度、叶子节点样本数、叶子节点权重、正则化程度、样本权重以及样本不均衡程度等。

8.根据权利要求1所述的一种分析应用程序使用数据预测用户属性的方法，其特征在于，所述步骤5)用户属性预测步骤中，在完成分类器训练后，将测试集样本通过已经过训练的分类器，获得预测的用户属性，并以Accuracy、F1-macro、Recall-macro作为指标来衡量分类结果。