CN104573048B - 一种基于智能手机流量数据的用户基础属性预测方法 - Google Patents
一种基于智能手机流量数据的用户基础属性预测方法 Download PDFInfo
- Publication number
- CN104573048B CN104573048B CN201510027957.XA CN201510027957A CN104573048B CN 104573048 B CN104573048 B CN 104573048B CN 201510027957 A CN201510027957 A CN 201510027957A CN 104573048 B CN104573048 B CN 104573048B
- Authority
- CN
- China
- Prior art keywords
- user
- app
- mobile phone
- flows
- smart mobile
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 14
- 239000013598 vector Substances 0.000 claims abstract description 20
- 238000012360 testing method Methods 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 3
- 238000002474 experimental method Methods 0.000 abstract description 3
- 238000004458 analytical method Methods 0.000 abstract description 2
- 230000011218 segmentation Effects 0.000 abstract description 2
- 238000012706 support-vector machine Methods 0.000 description 9
- 239000000284 extract Substances 0.000 description 5
- 238000013145 classification model Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mobile Radio Communication Systems (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明通过分析用户智能手机的流量数据,预测用户的年龄和性别等基础属性。获取智能手机上所有APP的流量精确使用情况,分析用户对每个APP流量的使用特征,并计算相应特征值。将所有APP的流量特征值作为特征向量,通过用户ID将用户的基础属性和特征向量关联起来,分析智能手机流量数据与用户基础属性之间的关系,从而达到依据智能手机的流量数据预测用户的基础属性的目的。采用SVM模型实现对用户的基础属性的分类预测。本发明将用户的性别作为男和女的二分类问题处理,年龄分段之后作为多分类问题处理。本发明实施例的有益效果是,通过分析用户智能手机的流量数据可以对用户的性别、年龄等基础属性做出预测,经过实验能够获得有效的预测效果。
Description
技术领域
本发明涉及移动互联网技术,具体涉及一种基于智能手机流量数据的用户基础属性预测方法的实现方法。
背景技术
随着web2.0的到来和移动互联网的飞速发展,用户的基础属性在网络应用中扮演的角色越来越重要,例如:Google提供的个性化搜索服务(是根据用户的地理位置信息和用户的搜索历史记录为用户返回个性化的搜索列表,给用户提供个性化的搜索服务)。用户基础属性预测就是通过分析用户的浏览行为和搜索内容来预测用户的年龄、性别、收入状况、地理位置、文化程度、宗教信仰等基础属性。
对用户基础属性预测的研究主要集中在用户的网络日志和用户的搜索内容上。对用户的网络日志的研究主要是通过研究用户网络日志的书写习惯和用语习惯预测作者的性别和年龄,采取的方法主要是基于文本的分类方法。对用户的搜索内容研究主要是分析用户的搜索内容和用户的基础属性之间的联系,以实现对用户的基础属性预测目的,采取的方法一般是统计分析和关联规则分析。然而,随着移动互联网的飞速发展,基于移动终端的对用户基础属性的预测也越来越重要。
发明内容
本发明的目的是提供基于智能手机流量数据的用户基础属性预测方法的实现方法。使用本发明提供的实施例,可以通过分析用户智能手机的流量数据对用户的基础属性进行预测。
本发明通过分析用户智能手机的流量数据,预测用户的年龄和性别等基础属性。从用户智能手机安装的所有APP(Application)出发,根据智能手机操作系统提供的API(Application Programming Interface),获取所有APP流量的精确使用情况,包括记录每个APP每次产生的流量及其时间。同时实时监测手机屏幕的状态(开屏或锁屏),若处于锁屏状态,则不记录;若处于开屏状态,则记录当前手机前台所运行的APP名称,并按开屏产生流量和锁屏产生流量,分别计算出用户对每个APP流量的使用特征。由于不同属性的用户对同一APP具有不同的使用特征,同一属性的用户对不同APP具有不同的使用特征,且同一属性的用户对同一APP具有类似的使用特征,故本发明以此为依据来预测用户的基础属性。
具体计算过程如下:分别计算各APP每次从产生流量到下一次使用该APP(手机屏幕处于开屏状态且该APP处于前台)的时间间隔,每个APP得到一组时间间隔,提取每一组时间间隔的特征值。将用户智能手机所有APP的特征值作为特征向量,通过用户ID(Identity)将用户的基础属性和用户智能手机得到的特征向量关联起来,分析用户智能手机流量数据与用户基础属性之间的关系,从而达到依据用户智能手机的流量数据预测用户的基础属性的目的。采用SVM(Support Vector Machine)模型实现对用户的基础属性的分类预测。本发明将用户的性别作为男和女的二分类问题处理,年龄分段之后作为多分类问题处理。
该方法的步骤包括:
1、使用智能手机操作系统提供的API,记录智能手机一段时间里使用流量的详细情况;
2、根据用户在这一段时间里智能手机的使用情况,计算各APP从每次产生流量到下一次该APP被使用的时间间隔,按APP名称将其分组,每个APP分别对应一组时间间隔;
3、对各组时间间隔统计分析,计算并提取其特征值。一组时间间隔提取m个特征值,构成特征向量(特征值1,特征值2,…,特征值m)1×m,用户使用n个APP,可得到向量(用户ID,APP1特征向量,APP2特征向量,…,APPn特征向量)1×(mn+1);
4、将向量(用户ID,APP1特征向量,APP2特征向量,…,APPn特征向量)转化为用户的特征值矩阵R;
5、通过关键字用户ID,将用户的特征值矩阵和用户的基础属性关联,将用户的基础属性设置为类标;
6、用训练数据训练SVM分类模型;
7、训练好的SVM模型分类预测测试样本;
8、输出对测试样本的测试结果。
最后,实施本发明具有以下有益效果:
本发明实施例的有益效果是,通过分析用户智能手机的流量数据可以对用户的性别、年龄等基础属性做出预测,经过实验能够获得有效的预测效果。
附图说明
附图是本发明提出的一种基于智能手机流量数据的用户基础属性预测方法的算法流程。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。
在本实施例中,如图所示,提供本发明提出的方法的算法流程:
步骤101、使用智能手机操作系统提供的API,记录智能手机一段时间里使用流量的详细情况。
通过Android操作系统(实验采用的手机操作系统)提供的网络API接口,实时监测一段时间里智能手机所有APP使用流量的情况,并且记录下来。
步骤102、根据用户在这一段时间里智能手机的使用情况,计算各APP从每次产生流量到下一次该APP被使用的时间间隔,按APP名称将其分组,每个APP分别对应一组时间间隔。
分别计算用户智能手机里所有APP从每次产生流量到下一次打开该APP(即手机屏幕处于开屏状态且该APP处于前台)的时间间隔,每个APP得到一组时间间隔,故用户按所安装的APP得到多组时间间隔。
步骤103、对各组时间间隔统计分析,计算并提取其特征值。一组时间间隔提取m个特征值,构成特征向量(特征值1,特征值2,…,特征值m)1×m,用户使用n个APP,可得到向量(用户ID,APP1特征向量,APP2特征向量,…,APPn特征向量)1×(mn+1)。
用户智能手机安装有n个APP,则有n组时间间隔,对每一组时间间隔提取m个特征值,故用户智能手机可以得到mn个特征值,即向量(用户ID,APP1特征向量,APP2特征向量,…,APPn特征向量)1×(mn+1)。其中每一个APPk(1<=k<=n)特征向量代表该用户对此APP的使用特征,不同用户属性的用户对同一APP具有不同的特征向量,同一用户属性的用户对不同APP具有不同的特征向量,但同一用户属性的用户对同一APP具有类似的特征向量。
步骤104、将向量(用户ID,APP1特征向量,APP2特征向量,…,APPn特征向量)转化为用户的特征值矩阵R。
计算得到向量(用户ID,APP1特征向量,APP2特征向量,…,APPn特征向量),APP数量为n,将同一个用户智能手机的APP特征向量统计到一行,按用户ID统计成一列,最后得到用户的特征值矩阵。
步骤105、通过关键字用户ID,将用户的特征值矩阵和用户的基础属性关联,将用户的基础属性设置为类标。
用户的性别为男和女两类,用户的年龄为青少年(<18岁)、少年(18-24)、青年(25-34)、中年(35-49)和老年(>50)五类。
步骤106、将数据随机等分为训练集和测试集,训练集用于训练SVM分类模型。
将数据随机等分,一份用于训练,一分用于测试,SVM采用RBF核函数,对于性别和年龄分别训练SVM模型。
步骤107、训练好的SVM模型预测测试集。
用训练的SVM性别分类模型和年龄分类模型分别测试测试集的数据。
步骤108、输出对测试样本的预测测试结果。
对预测结果进行输出。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利求限定和确定的本发明精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (1)
1.一种基于智能手机流量数据的用户基础属性预测方法:其特征在于,首先使用智能手机操作系统提供的API,记录智能手机一段时间里使用流量的详细情况;计算出这一段时间里各APP从每次产生流量到下一次该APP被使用的时间间隔,每个APP分别对应一组时间间隔;对每一组时间间隔提取特征值,一组时间间隔提取m个特征值,用户使用n个APP,可得到向量(用户ID,APP1特征向量,APP2特征向量,…,APPn特征向量)1×(mn+1);将向量(用户ID,APP1特征向量,APP2特征向量,…,APPn特征向量)转化为用户的特征值矩阵;通过用户ID关联用户的基础属性,将用户的基础属性作为类标;将数据随机分为训练集和测试集,对性别和年龄分别训练SVM预测模型,SVM模型中采用RBF核函数;用训练的模型预测测试集,并对测试结果输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510027957.XA CN104573048B (zh) | 2015-01-20 | 2015-01-20 | 一种基于智能手机流量数据的用户基础属性预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510027957.XA CN104573048B (zh) | 2015-01-20 | 2015-01-20 | 一种基于智能手机流量数据的用户基础属性预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104573048A CN104573048A (zh) | 2015-04-29 |
CN104573048B true CN104573048B (zh) | 2018-10-12 |
Family
ID=53089110
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510027957.XA Expired - Fee Related CN104573048B (zh) | 2015-01-20 | 2015-01-20 | 一种基于智能手机流量数据的用户基础属性预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104573048B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105279266B (zh) * | 2015-10-26 | 2018-07-10 | 电子科技大学 | 一种基于移动互联网社交图片预测用户上下文信息的方法 |
CN106899446B (zh) * | 2015-12-21 | 2019-12-10 | 中国移动通信集团内蒙古有限公司 | 一种流量预测方法及装置 |
CN106503745A (zh) * | 2016-10-26 | 2017-03-15 | 郑州埃文计算机科技有限公司 | 基于社交图片sift特征的上下文信息预测方法 |
CN106651057B (zh) * | 2017-01-03 | 2020-04-10 | 有米科技股份有限公司 | 一种基于安装包序列表的移动端用户年龄预测方法 |
CN109948633A (zh) * | 2017-12-20 | 2019-06-28 | 广东欧珀移动通信有限公司 | 用户性别预测方法、装置、存储介质及电子设备 |
CN109818820A (zh) * | 2018-12-21 | 2019-05-28 | 上海瑞家信息技术有限公司 | 流量数据监控方法、装置、电子设备及存储介质 |
CN110012060B (zh) * | 2019-02-13 | 2023-04-18 | 平安科技(深圳)有限公司 | 移动终端的信息推送方法、装置、存储介质和服务器 |
CN111291798B (zh) * | 2020-01-21 | 2021-04-20 | 北京工商大学 | 一种基于集成学习的用户基础属性预测方法 |
CN112422755B (zh) * | 2020-11-19 | 2021-10-15 | 中国联合网络通信集团有限公司 | 电话拨打方法、装置及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103870550A (zh) * | 2014-03-03 | 2014-06-18 | 同济大学 | 基于Android系统的用户行为模式获取方法及其系统 |
CN103886323A (zh) * | 2013-09-24 | 2014-06-25 | 清华大学 | 基于移动终端的行为识别方法及移动终端 |
-
2015
- 2015-01-20 CN CN201510027957.XA patent/CN104573048B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103886323A (zh) * | 2013-09-24 | 2014-06-25 | 清华大学 | 基于移动终端的行为识别方法及移动终端 |
CN103870550A (zh) * | 2014-03-03 | 2014-06-18 | 同济大学 | 基于Android系统的用户行为模式获取方法及其系统 |
Non-Patent Citations (2)
Title |
---|
TaintDroid: an information-flow tracking system for realtime privacy monitoring on smartphones;W.Enck et al.;《ACM Transactions on Computer Systems(TOCS)2014》;20140602;第32卷;全文 * |
基于数据挖掘的手机上网流量经营分析与策略研究;王静;《中国优秀硕士学位论文全文数据库 信息科技辑》;20131215;第2013年卷(第12期);正文第7,46-47页,图4-5 * |
Also Published As
Publication number | Publication date |
---|---|
CN104573048A (zh) | 2015-04-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104573048B (zh) | 一种基于智能手机流量数据的用户基础属性预测方法 | |
CN109446430B (zh) | 产品推荐的方法、装置、计算机设备及可读存储介质 | |
CN106651057B (zh) | 一种基于安装包序列表的移动端用户年龄预测方法 | |
US11803872B2 (en) | Creating meta-descriptors of marketing messages to facilitate in delivery performance analysis, delivery performance prediction and offer selection | |
CN104601817A (zh) | 一种基于智能手机加速度传感器的用户基础属性预测方法 | |
CN106339507B (zh) | 流媒体消息推送方法和装置 | |
CN105446988B (zh) | 预测类别的方法和装置 | |
WO2017107422A1 (zh) | 一种用户性别识别方法及装置 | |
CN105069041A (zh) | 基于视频用户性别分类的广告投放方法 | |
CN108090216B (zh) | 一种标签预测方法、装置及存储介质 | |
CN106055661A (zh) | 基于多Markov链模型的多兴趣资源推荐方法 | |
CN110096617B (zh) | 视频分类方法、装置、电子设备及计算机可读存储介质 | |
CN112347361B (zh) | 推荐对象的方法、神经网络及其训练方法、设备和介质 | |
CN104281635A (zh) | 基于隐私反馈预测移动用户基础属性的方法 | |
CN109766435A (zh) | 弹幕类别识别方法、装置、设备及存储介质 | |
CN105787662A (zh) | 基于属性的移动应用软件性能预测方法 | |
CN104281634A (zh) | 一种基于邻居关系的移动用户基础属性预测方法 | |
CN111914060A (zh) | 一种基于在线点评数据的商户多视图特征提取及模型构建方法 | |
CN107392392A (zh) | 基于深度学习的微博转发预测方法 | |
CN115935257A (zh) | 分类识别方法、计算机设备和存储介质 | |
TW202022641A (zh) | 嵌入結果的解釋方法和裝置 | |
TW202038217A (zh) | 資料標籤產生、模型訓練、事件識別方法和裝置 | |
CN105574105A (zh) | 一种文本分类模型的确定方法 | |
Zhang et al. | Semi-autonomous data enrichment based on cross-task labelling of missing targets for holistic speech analysis | |
JP7013329B2 (ja) | 学習装置、学習方法および学習プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20181012 Termination date: 20200120 |