CN110309307A - 一种基于应用程序预测用户文化水平的方法和系统 - Google Patents

一种基于应用程序预测用户文化水平的方法和系统 Download PDF

Info

Publication number
CN110309307A
CN110309307A CN201910536175.7A CN201910536175A CN110309307A CN 110309307 A CN110309307 A CN 110309307A CN 201910536175 A CN201910536175 A CN 201910536175A CN 110309307 A CN110309307 A CN 110309307A
Authority
CN
China
Prior art keywords
application program
user
classification
eigenmatrix
disaggregated model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910536175.7A
Other languages
English (en)
Inventor
蒋健宏
严锐
胡宏辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Lake Information Technology Co Ltd
Original Assignee
Shanghai Lake Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Lake Information Technology Co Ltd filed Critical Shanghai Lake Information Technology Co Ltd
Priority to CN201910536175.7A priority Critical patent/CN110309307A/zh
Publication of CN110309307A publication Critical patent/CN110309307A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种基于应用程序预测用户文化水平的方法和系统,方法包括:获取用户安装的应用程序并进行分类处理;根据分类后的应用程序构建特征矩阵;其中,特征矩阵的行代表按照时间段统计得到的不同类别的应用程序的个数,列代表时间段;将特征矩阵输入至预设的分类模型中,预测得到用户的学历类别。本发明通过提取用户安装的应用程序的名称、安装时间等信息,构建特征矩阵输入至分类模型中,从而完成用户的文化水平预测,该方案简单易行,并且准确率高,通过获取应用程序的来预测用户的文化水平,为后期对用户进行信息推荐、服务指定等提供决策支持。

Description

一种基于应用程序预测用户文化水平的方法和系统
技术领域
本发明属于计算机领域,尤其涉及一种基于应用程序预测用户文化水平的方法和系统。
背景技术
学历信息对于很多方面的业务的决策都非常的重要,随着学信网对外输出学历查询的服务越来越严,这块的信息越来越难获取到。然而,随着智能移动设备日渐融入人们的日常生活,人们越来越依赖手机,人们根据自己的兴趣爱好或者生活需要在手机上安装各种应用,不同的人群安装的应用是有区别的,手机成为反映一个人特征的信息载体。因此,可以通过手机来间接获取用户的学历信息,从而为各方面的业务提供参考。
发明内容
为了解决现有技术的问题,本发明通过提取用户安装的应用程序的名称、安装时间等信息,构建特征矩阵输入至分类模型中,从而完成用户的文化水平预测,该方案简单易行,并且准确率高,通过获取应用程序的来预测用户的文化水平,为后期对用户进行信息推荐、服务指定等提供决策支持。
本发明实施例提供的具体技术方案如下:
第一方面,本发明提供一种基于应用程序预测用户文化水平的方法,所述方法包括:
获取用户安装的应用程序并进行分类处理;
根据所述分类后的应用程序构建特征矩阵;其中,所述特征矩阵的行代表按照时间段统计得到的不同类别的应用程序的个数,列代表时间段;
将所述特征矩阵输入至预设的分类模型中,预测得到用户的学历类别。
在一些实施例中,所述分类模型为随机森林分类模型,将所述特征矩阵输入至预设的分类模型中,预测得到用户的学历类别具体包括:
将所述特征矩阵输入至随机森林的每颗决策树,得到关于所述应用程序的分类结果;
汇总每颗决策树的分类结果,进行分类投票,预测得到所述应用程序的最终分类,从而得到该用户的学历类别。
在一些实施例中,所述分类模型的构建过程包括:
获取用户安装的应用程序作为输入信息、获取用户的学历类别作为输出信息,确定所述输入信息与输出信息之间的映射关系,从而构建所述分类模型。
在一些实施例中,所述方法还包括:
对所述特征矩阵进行数据处理,将其转化成高维稀疏矩阵。
在一些实施例中,所述获取用户安装的应用程序并进行分类处理具体包括:
获取用户安装的应用程序的名称及安装时间,对应用程序进行分类。
第二方面,本发明提供了一种基于应用程序预测用户文化水平的系统,所述系统包括:
数据处理模块:用于获取用户安装的应用程序并进行分类处理;
特征构建模块:用于根据所述分类后的应用程序构建特征矩阵;其中,所述特征矩阵的行代表按照时间段统计得到的不同类别的应用程序的个数,列代表时间段;
预测模块:用于将所述特征矩阵输入至预设的分类模型中,预测得到用户的学历类别。
在一些实施例中,所述分类模型为随机森林分类模型,所述预测模块具体包括:
分类模块:用于将所述特征矩阵输入至随机森林的每颗决策树,得到关于所述应用程序的分类结果;
投票模块:用于汇总每颗决策树的分类结果,进行分类投票,预测得到所述应用程序的最终分类,从而得到该用户的学历类别。
在一些实施例中,所述系统还包括分类模型构建模块,所述分类模型构建模块用于获取用户安装的应用程序作为输入信息、获取用户的学历类别作为输出信息,确定所述输入信息与输出信息之间的映射关系,从而构建所述分类模型。
在一些实施例中,所述系统还包括:
特征转化模块:用于对所述特征矩阵进行数据处理,将其转化成高维稀疏矩阵。
在一些实施例中,所述数据处理模块具体用于:
获取用户安装的应用程序的名称及安装时间,对应用程序进行分类。
本发明实施例具有如下有益效果:本发明通过提取用户安装的应用程序的名称、安装时间等信息,构建特征矩阵输入至分类模型中,从而完成用户的文化水平预测,该方案简单易行,并且准确率高,通过获取应用程序的来预测用户的文化水平,为后期对用户进行信息推荐、服务指定等提供决策支持。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是一个实施例中一种基于应用程序预测用户文化水平的方法的流程图;
图2是一个实施例中将特征矩阵输入至预设的分类模型中,预测得到用户的学历类别步骤的流程图;
图3是一个实施例中一种基于应用程序预测用户文化水平的系统的框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种基于应用程序预测用户文化水平的方法,包括如下步骤:
S101、获取用户安装的应用程序并进行分类处理。
具体的,获取应用程序的相关信息,如:应用程序的名称、安装时间,根据应用程序的名称对应用程序进行分类。对应用程序进行分可以包括以下步骤:
1、根据应用程序的名称,获取其在应用商店中的分类标签;
2、对不同应用程序的分类标签进行归类整理,得到应用程序的分类类别。
示例性的,若某个用户手机客户端界面的应用程序包括:宜人贷借款、拍拍贷借款、微信、微博等。
根据宜人贷借款程序的名称,获取其在应用商店中的分类标签,其分类标签为:金融理财、信用卡、证券、借贷、金融、贷款、购物、信用;根据拍拍贷借款程序的名称,获取其在应用商店中的分类标签,其分类标签为:金融理财、借贷、借款、贷款、信用卡;
根据宜人贷借款和拍拍贷借款的分类标签,进行归类整理,将宜人贷借款和拍拍贷借款划分为“金融理财类应用程序”。
根据微信程序的名称,获取其在应用商店中的分类标签,其分类标签为:社交通讯、聊天、扫一扫、陌生人、二维码、表情、朋友圈、社交;根据微博的名称,获取其在应用商店中的分类标签,其分类标签为:社交通讯、博客、社区、明星、直播、社交;
根据微信和微博的分类标签,进行归类整理,将微信和微博划分为“社交通讯类应用程序”。当应用程序有n个,分类类别有m个时,分类后的应用程序如下表1所示:
表1
如此,便可完成对应用程序的初步分类整理。
S102、根据分类后的应用程序构建特征矩阵;其中,特征矩阵的行代表按照时间段统计得到的不同类别的应用程序的个数,列代表时间段。
特征矩阵如下表2所示:
表2
其中,W=[W1,W2,W3,…,Wk]为安装时间的离散分段方式,k指时间段的个数;分段方式可以根据月份划分,或者根据自定义的天数划分,本实施例对此不加以限定。
X=[X1,X2,X3……Xm]为应用程序的分类类别;A11~Akm为衍生特征,代表按照不同时间段统计得到的不同类别的应用程序的个数,如:A11代表了在第一个时间段内,第一类别的应用程序的个数。
S103、将特征矩阵输入至预设的分类模型中,预测得到用户的学历类别。
其中,学历类别包括:小学、初中、高中、专科、本科、硕士、博士等。
发明通过提取用户安装的应用程序的名称、安装时间等信息,构建特征矩阵输入至分类模型中,从而完成用户的文化水平预测,该方案简单易行,并且准确率高,通过获取应用程序的来预测用户的文化水平,为后期对用户进行信息推荐、服务指定等提供决策支持。
在其中一个实施例中,如图2所示,上述分类模型为随机森林分类模型,上述将特征矩阵输入至预设的分类模型中,预测得到用户的学历类别可以包括如下步骤:
S201、将特征矩阵输入至随机森林的每颗决策树,得到关于应用程序的分类结果。
具体的,获取特征矩阵中的每一个特征元素,将特征元素输入至随机森林的每颗决策树,标记其到达的叶节点,得到关于应用程序的分类结果。
其中,特征元素根据分类后的应用程序衍生得到,特征元素为按照不同时间段统计得到的不同类别的应用程序的个数,即,包括A11~Akm。
此外,上述应用程序的分类结果指应用程序对应的学历类别。
S202、汇总每颗决策树的分类结果,进行分类投票,预测得到应用程序的最终分类,从而得到该用户的学历类别。
其中,进行分类投票的公式为:
其中:Pi(c|s)表示决策树i对特征矩阵s判断为类别c的概率;P(c|s)表示特征矩阵为s时,T棵决策树判定其为类别c的平均值;最大平均值对应的类别为预测得到应用程序的最终分类,即,应用程序对应的最终学历类别。
在其中一个实施例中,上述分类模型的构建可以包括如下步骤:
S301、获取用户安装的应用程序作为输入信息、获取用户的学历类别作为输出信息,确定输入信息与输出信息之间的映射关系,从而构建分类模型。
当分类模型为随机森林分类模型时,其构建过程如下:
1、获取用户安装的应用程序的相关信息,构建样本集;其中,应用程序的相关信息包括应用程序的名称、安装时间等;
2、提取样本集中的特征数据,构建特征集;
3、根据样本集和特征集不剪枝构建决策树;
4、将决策树集成,采用多数投票的准则,完成随机森林分类模型的构建。
在其中一个实施例中,上述基于应用程序预测用户文化水平的方法还包括如下步骤:
S401、对特征矩阵进行数据处理,将其转化成高维稀疏矩阵。
当时间段划分很大、应用程序分类别很多时,形成的特征矩阵就很大。当某个用户在某个比较短的时间内安装某类的应用概率比较低此时,特征矩阵中有很多元素为0,因此,可将特征矩阵转化成高维稀疏矩阵进行存储与使用。
应该理解的是,虽然图1-2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一些实施例中,如图3所示,提供了一种基于应用程序预测用户文化水平的系统,系统包括:
数据处理模块51:用于获取用户安装的应用程序并进行分类处理;
特征构建模块52:用于根据分类后的应用程序构建特征矩阵;其中,特征矩阵的行代表按照时间段统计得到的不同类别的应用程序的个数,列代表时间段;
预测模块53:用于将特征矩阵输入至预设的分类模型中,预测得到用户的学历类别。
具体的,数据处理模块51在获取用户安装的应用程序后,根据应用程序的相关信息,获取其在应用商店中的分类标签;随后对不同应用程序的分类标签进行归类整理,得到应用程序的分类类别,从而完成应用程序的分类。
其中,应用程序的相关信息包括应用程序的名称、安装时间等。此外,分类后的应用程序可示例性的表示为:
拍拍贷借款→类别一:金融理财类应用程序;
微信→类别二:社交通讯类应用程序。
数据处理模块51将分类后的应用程序的相关信息传输至特征构建模块52,特征构建模块52根据分类后的应用程序的相关信息构建特征矩阵,并把构成完成的特征矩阵传输至预测模块53,作为预测模块53的输入信息。预测模块53 根据预设的分类模型,完成应用程序的分类,即,将用户安装的应用程序与用户的学历类别匹配,预测得到用户的文化水平。
在其中一个实施例中,上述分类模型为随机森林分类模型,预测模块53具体包括:
分类模块531:用于将特征矩阵输入至随机森林的每颗决策树,得到关于应用程序的分类结果;
投票模块532:用于汇总每颗决策树的分类结果,进行分类投票,预测得到应用程序的最终分类,从而得到该用户的学历类别。
具体的,分类模块531获取获取特征矩阵中的每一个特征元素,将特征元素输入至随机森林的每颗决策树,标记其到达的叶节点,得到关于应用程序的初步分类结果。其中,应用程序的初步分类结果指应用程序对应的学历类别。投票模块532将每颗决策树的分类结果汇集之后进行投票计算,得到应用程序对应的最终学历类别。
在其中一个实施例中,上述基于应用程序预测用户文化水平的系统还包括分类模型构建模块54,分类模型构建模块54用于获取用户安装的应用程序作为输入信息、获取用户的学历类别作为输出信息,确定输入信息与输出信息之间的映射关系,从而构建分类模型。
在其中一个实施例中,上述基于应用程序预测用户文化水平的系统还包括:
特征转化模块55:用于对特征矩阵进行数据处理,将其转化成高维稀疏矩阵。
在其中一个实施例中,上述数据处理模块51具体用于获取用户安装的应用程序的名称及安装时间,对应用程序进行分类。
尽管已描述了本发明实施例中的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例中范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种基于应用程序预测用户文化水平的方法,其特征在于,所述方法包括:
获取用户安装的应用程序并进行分类处理;
根据所述分类后的应用程序构建特征矩阵;其中,所述特征矩阵的行代表按照时间段统计得到的不同类别的应用程序的个数,列代表时间段;
将所述特征矩阵输入至预设的分类模型中,预测得到用户的学历类别。
2.根据权利要求1所述的方法,其特征在于,所述分类模型为随机森林分类模型,将所述特征矩阵输入至预设的分类模型中,预测得到用户的学历类别具体包括:
将所述特征矩阵输入至随机森林的每颗决策树,得到关于所述应用程序的分类结果;
汇总每颗决策树的分类结果,进行分类投票,预测得到所述应用程序的最终分类,从而得到该用户的学历类别。
3.根据权利要求1所述的方法,其特征在于,所述分类模型的构建过程包括:
获取用户安装的应用程序作为输入信息、获取用户的学历类别作为输出信息,确定所述输入信息与输出信息之间的映射关系,从而构建所述分类模型。
4.根据权利要求1~3任意一项所述的方法,其特征在于,所述方法还包括:
对所述特征矩阵进行数据处理,将其转化成高维稀疏矩阵。
5.根据权利要求1~3任意一项所述的方法,其特征在于,所述获取用户安装的应用程序并进行分类处理具体包括:
获取用户安装的应用程序的名称及安装时间,对应用程序进行分类。
6.一种基于应用程序预测用户文化水平的系统,其特征在于,所述系统包括:
数据处理模块:用于获取用户安装的应用程序并进行分类处理;
特征构建模块:用于根据所述分类后的应用程序构建特征矩阵;其中,所述特征矩阵的行代表按照时间段统计得到的不同类别的应用程序的个数,列代表时间段;
预测模块:用于将所述特征矩阵输入至预设的分类模型中,预测得到用户的学历类别。
7.根据权利要求6所述的系统,其特征在于,所述分类模型为随机森林分类模型,所述预测模块具体包括:
分类模块:用于将所述特征矩阵输入至随机森林的每颗决策树,得到关于所述应用程序的分类结果;
投票模块:用于汇总每颗决策树的分类结果,进行分类投票,预测得到所述应用程序的最终分类,从而得到该用户的学历类别。
8.根据权利要求6所述的系统,其特征在于,所述系统还包括分类模型构建模块,所述分类模型构建模块用于获取用户安装的应用程序作为输入信息、获取用户的学历类别作为输出信息,确定所述输入信息与输出信息之间的映射关系,从而构建所述分类模型。
9.根据权利要求6~8任意一项所述的系统,其特征在于,所述系统还包括:
特征转化模块:对所述特征矩阵进行数据处理,将其转化成高维稀疏矩阵。
10.根据权利要求6~8任意一项所述的系统,其特征在于,所述数据处理模块具体用于:
获取用户安装的应用程序的名称及安装时间,对应用程序进行分类。
CN201910536175.7A 2019-06-20 2019-06-20 一种基于应用程序预测用户文化水平的方法和系统 Pending CN110309307A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910536175.7A CN110309307A (zh) 2019-06-20 2019-06-20 一种基于应用程序预测用户文化水平的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910536175.7A CN110309307A (zh) 2019-06-20 2019-06-20 一种基于应用程序预测用户文化水平的方法和系统

Publications (1)

Publication Number Publication Date
CN110309307A true CN110309307A (zh) 2019-10-08

Family

ID=68076078

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910536175.7A Pending CN110309307A (zh) 2019-06-20 2019-06-20 一种基于应用程序预测用户文化水平的方法和系统

Country Status (1)

Country Link
CN (1) CN110309307A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126597A (zh) * 2016-06-20 2016-11-16 乐视控股(北京)有限公司 用户属性预测方法及装置
CN107918825A (zh) * 2017-11-13 2018-04-17 珠海金山网络游戏科技有限公司 一种基于应用安装偏好判定用户年龄段的方法和装置
US20180107923A1 (en) * 2016-10-19 2018-04-19 InAuth, Inc. Systems and methods for recognizing a device and/or an instance of an app invoked on a device
CN108920156A (zh) * 2018-05-29 2018-11-30 Oppo广东移动通信有限公司 应用程序预测模型建立方法、装置、存储介质及终端
CN109711865A (zh) * 2018-12-07 2019-05-03 恒安嘉新(北京)科技股份公司 一种基于用户行为挖掘的移动通信网流量精细化预测的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126597A (zh) * 2016-06-20 2016-11-16 乐视控股(北京)有限公司 用户属性预测方法及装置
US20180107923A1 (en) * 2016-10-19 2018-04-19 InAuth, Inc. Systems and methods for recognizing a device and/or an instance of an app invoked on a device
CN107918825A (zh) * 2017-11-13 2018-04-17 珠海金山网络游戏科技有限公司 一种基于应用安装偏好判定用户年龄段的方法和装置
CN108920156A (zh) * 2018-05-29 2018-11-30 Oppo广东移动通信有限公司 应用程序预测模型建立方法、装置、存储介质及终端
CN109711865A (zh) * 2018-12-07 2019-05-03 恒安嘉新(北京)科技股份公司 一种基于用户行为挖掘的移动通信网流量精细化预测的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李映坤: "《大数据背景下用户画像的统计方法实践研究》", 《中国优秀硕士学位论文全文数据库 社会科学Ⅱ辑》 *

Similar Documents

Publication Publication Date Title
CN103714139B (zh) 一种移动海量客户群识别的并行数据挖掘方法
CN103761254B (zh) 多领域服务主题匹配推荐方法
CN106651424A (zh) 基于大数据技术的电力用户画像建立与分析方法
CN103984775A (zh) 一种推荐好友的方法和设备
EP1866851A2 (en) Constrained tree structure method and system
CN107153847A (zh) 预测用户是否存在恶意行为的方法和计算设备
US8255392B2 (en) Real time data collection system and method
CN110516057B (zh) 一种信访问题答复方法及装置
Ahmed et al. Discovering diverse, high quality design ideas from a large corpus
CN107507088A (zh) 催收管理方法及服务器
CN102083010A (zh) 一种用户信息筛选方法和设备
CN109389501A (zh) 一种计算设备、计算系统
CN117436679B (zh) 一种元宇宙资源匹配方法及其系统
CN112116103A (zh) 基于联邦学习的个人资质评估方法、装置及系统及存储介质
CN115130711A (zh) 一种数据处理方法、装置、计算机及可读存储介质
CN109145050A (zh) 一种计算设备
CN110197426A (zh) 一种信用评分模型的建立方法、装置及可读存储介质
CN106649743A (zh) 一种创意分类脑库资源存储与分享方法及系统
CN107368499A (zh) 一种客户标签建模及推荐方法及装置
CN112734142B (zh) 基于深度学习的资源学习路径规划方法及装置
CN111062422B (zh) 一种套路贷体系化识别方法及装置
Droftina et al. A diffusion model for churn prediction based on sociometric theory
Niu Sports Training Strategies Based on Data Mining Technology
CN110309307A (zh) 一种基于应用程序预测用户文化水平的方法和系统
CN113486933B (zh) 模型训练方法、用户身份信息预测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191008