CN104573048B - 一种基于智能手机流量数据的用户基础属性预测方法 - Google Patents

一种基于智能手机流量数据的用户基础属性预测方法 Download PDF

Info

Publication number
CN104573048B
CN104573048B CN201510027957.XA CN201510027957A CN104573048B CN 104573048 B CN104573048 B CN 104573048B CN 201510027957 A CN201510027957 A CN 201510027957A CN 104573048 B CN104573048 B CN 104573048B
Authority
CN
China
Prior art keywords
user
app
mobile phone
smart mobile
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510027957.XA
Other languages
English (en)
Other versions
CN104573048A (zh
Inventor
秦臻
唐远洋
程红蓉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201510027957.XA priority Critical patent/CN104573048B/zh
Publication of CN104573048A publication Critical patent/CN104573048A/zh
Application granted granted Critical
Publication of CN104573048B publication Critical patent/CN104573048B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明通过分析用户智能手机的流量数据,预测用户的年龄和性别等基础属性。获取智能手机上所有APP的流量精确使用情况,分析用户对每个APP流量的使用特征,并计算相应特征值。将所有APP的流量特征值作为特征向量,通过用户ID将用户的基础属性和特征向量关联起来,分析智能手机流量数据与用户基础属性之间的关系,从而达到依据智能手机的流量数据预测用户的基础属性的目的。采用SVM模型实现对用户的基础属性的分类预测。本发明将用户的性别作为男和女的二分类问题处理,年龄分段之后作为多分类问题处理。本发明实施例的有益效果是,通过分析用户智能手机的流量数据可以对用户的性别、年龄等基础属性做出预测,经过实验能够获得有效的预测效果。

Description

一种基于智能手机流量数据的用户基础属性预测方法
技术领域
本发明涉及移动互联网技术,具体涉及一种基于智能手机流量数据的用户基础属性预测方法的实现方法。
背景技术
随着web2.0的到来和移动互联网的飞速发展,用户的基础属性在网络应用中扮演的角色越来越重要,例如:Google提供的个性化搜索服务(是根据用户的地理位置信息和用户的搜索历史记录为用户返回个性化的搜索列表,给用户提供个性化的搜索服务)。用户基础属性预测就是通过分析用户的浏览行为和搜索内容来预测用户的年龄、性别、收入状况、地理位置、文化程度、宗教信仰等基础属性。
对用户基础属性预测的研究主要集中在用户的网络日志和用户的搜索内容上。对用户的网络日志的研究主要是通过研究用户网络日志的书写习惯和用语习惯预测作者的性别和年龄,采取的方法主要是基于文本的分类方法。对用户的搜索内容研究主要是分析用户的搜索内容和用户的基础属性之间的联系,以实现对用户的基础属性预测目的,采取的方法一般是统计分析和关联规则分析。然而,随着移动互联网的飞速发展,基于移动终端的对用户基础属性的预测也越来越重要。
发明内容
本发明的目的是提供基于智能手机流量数据的用户基础属性预测方法的实现方法。使用本发明提供的实施例,可以通过分析用户智能手机的流量数据对用户的基础属性进行预测。
本发明通过分析用户智能手机的流量数据,预测用户的年龄和性别等基础属性。从用户智能手机安装的所有APP(Application)出发,根据智能手机操作系统提供的API(Application Programming Interface),获取所有APP流量的精确使用情况,包括记录每个APP每次产生的流量及其时间。同时实时监测手机屏幕的状态(开屏或锁屏),若处于锁屏状态,则不记录;若处于开屏状态,则记录当前手机前台所运行的APP名称,并按开屏产生流量和锁屏产生流量,分别计算出用户对每个APP流量的使用特征。由于不同属性的用户对同一APP具有不同的使用特征,同一属性的用户对不同APP具有不同的使用特征,且同一属性的用户对同一APP具有类似的使用特征,故本发明以此为依据来预测用户的基础属性。
具体计算过程如下:分别计算各APP每次从产生流量到下一次使用该APP(手机屏幕处于开屏状态且该APP处于前台)的时间间隔,每个APP得到一组时间间隔,提取每一组时间间隔的特征值。将用户智能手机所有APP的特征值作为特征向量,通过用户ID(Identity)将用户的基础属性和用户智能手机得到的特征向量关联起来,分析用户智能手机流量数据与用户基础属性之间的关系,从而达到依据用户智能手机的流量数据预测用户的基础属性的目的。采用SVM(Support Vector Machine)模型实现对用户的基础属性的分类预测。本发明将用户的性别作为男和女的二分类问题处理,年龄分段之后作为多分类问题处理。
该方法的步骤包括:
1、使用智能手机操作系统提供的API,记录智能手机一段时间里使用流量的详细情况;
2、根据用户在这一段时间里智能手机的使用情况,计算各APP从每次产生流量到下一次该APP被使用的时间间隔,按APP名称将其分组,每个APP分别对应一组时间间隔;
3、对各组时间间隔统计分析,计算并提取其特征值。一组时间间隔提取m个特征值,构成特征向量(特征值1,特征值2,…,特征值m)1×m,用户使用n个APP,可得到向量(用户ID,APP1特征向量,APP2特征向量,…,APPn特征向量)1×(mn+1)
4、将向量(用户ID,APP1特征向量,APP2特征向量,…,APPn特征向量)转化为用户的特征值矩阵R;
5、通过关键字用户ID,将用户的特征值矩阵和用户的基础属性关联,将用户的基础属性设置为类标;
6、用训练数据训练SVM分类模型;
7、训练好的SVM模型分类预测测试样本;
8、输出对测试样本的测试结果。
最后,实施本发明具有以下有益效果:
本发明实施例的有益效果是,通过分析用户智能手机的流量数据可以对用户的性别、年龄等基础属性做出预测,经过实验能够获得有效的预测效果。
附图说明
附图是本发明提出的一种基于智能手机流量数据的用户基础属性预测方法的算法流程。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。
在本实施例中,如图所示,提供本发明提出的方法的算法流程:
步骤101、使用智能手机操作系统提供的API,记录智能手机一段时间里使用流量的详细情况。
通过Android操作系统(实验采用的手机操作系统)提供的网络API接口,实时监测一段时间里智能手机所有APP使用流量的情况,并且记录下来。
步骤102、根据用户在这一段时间里智能手机的使用情况,计算各APP从每次产生流量到下一次该APP被使用的时间间隔,按APP名称将其分组,每个APP分别对应一组时间间隔。
分别计算用户智能手机里所有APP从每次产生流量到下一次打开该APP(即手机屏幕处于开屏状态且该APP处于前台)的时间间隔,每个APP得到一组时间间隔,故用户按所安装的APP得到多组时间间隔。
步骤103、对各组时间间隔统计分析,计算并提取其特征值。一组时间间隔提取m个特征值,构成特征向量(特征值1,特征值2,…,特征值m)1×m,用户使用n个APP,可得到向量(用户ID,APP1特征向量,APP2特征向量,…,APPn特征向量)1×(mn+1)
用户智能手机安装有n个APP,则有n组时间间隔,对每一组时间间隔提取m个特征值,故用户智能手机可以得到mn个特征值,即向量(用户ID,APP1特征向量,APP2特征向量,…,APPn特征向量)1×(mn+1)。其中每一个APPk(1<=k<=n)特征向量代表该用户对此APP的使用特征,不同用户属性的用户对同一APP具有不同的特征向量,同一用户属性的用户对不同APP具有不同的特征向量,但同一用户属性的用户对同一APP具有类似的特征向量。
步骤104、将向量(用户ID,APP1特征向量,APP2特征向量,…,APPn特征向量)转化为用户的特征值矩阵R。
计算得到向量(用户ID,APP1特征向量,APP2特征向量,…,APPn特征向量),APP数量为n,将同一个用户智能手机的APP特征向量统计到一行,按用户ID统计成一列,最后得到用户的特征值矩阵。
步骤105、通过关键字用户ID,将用户的特征值矩阵和用户的基础属性关联,将用户的基础属性设置为类标。
用户的性别为男和女两类,用户的年龄为青少年(<18岁)、少年(18-24)、青年(25-34)、中年(35-49)和老年(>50)五类。
步骤106、将数据随机等分为训练集和测试集,训练集用于训练SVM分类模型。
将数据随机等分,一份用于训练,一分用于测试,SVM采用RBF核函数,对于性别和年龄分别训练SVM模型。
步骤107、训练好的SVM模型预测测试集。
用训练的SVM性别分类模型和年龄分类模型分别测试测试集的数据。
步骤108、输出对测试样本的预测测试结果。
对预测结果进行输出。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利求限定和确定的本发明精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (1)

1.一种基于智能手机流量数据的用户基础属性预测方法:其特征在于,首先使用智能手机操作系统提供的API,记录智能手机一段时间里使用流量的详细情况;计算出这一段时间里各APP从每次产生流量到下一次该APP被使用的时间间隔,每个APP分别对应一组时间间隔;对每一组时间间隔提取特征值,一组时间间隔提取m个特征值,用户使用n个APP,可得到向量(用户ID,APP1特征向量,APP2特征向量,…,APPn特征向量)1×(mn+1);将向量(用户ID,APP1特征向量,APP2特征向量,…,APPn特征向量)转化为用户的特征值矩阵;通过用户ID关联用户的基础属性,将用户的基础属性作为类标;将数据随机分为训练集和测试集,对性别和年龄分别训练SVM预测模型,SVM模型中采用RBF核函数;用训练的模型预测测试集,并对测试结果输出。
CN201510027957.XA 2015-01-20 2015-01-20 一种基于智能手机流量数据的用户基础属性预测方法 Expired - Fee Related CN104573048B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510027957.XA CN104573048B (zh) 2015-01-20 2015-01-20 一种基于智能手机流量数据的用户基础属性预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510027957.XA CN104573048B (zh) 2015-01-20 2015-01-20 一种基于智能手机流量数据的用户基础属性预测方法

Publications (2)

Publication Number Publication Date
CN104573048A CN104573048A (zh) 2015-04-29
CN104573048B true CN104573048B (zh) 2018-10-12

Family

ID=53089110

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510027957.XA Expired - Fee Related CN104573048B (zh) 2015-01-20 2015-01-20 一种基于智能手机流量数据的用户基础属性预测方法

Country Status (1)

Country Link
CN (1) CN104573048B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279266B (zh) * 2015-10-26 2018-07-10 电子科技大学 一种基于移动互联网社交图片预测用户上下文信息的方法
CN106899446B (zh) * 2015-12-21 2019-12-10 中国移动通信集团内蒙古有限公司 一种流量预测方法及装置
CN106503745A (zh) * 2016-10-26 2017-03-15 郑州埃文计算机科技有限公司 基于社交图片sift特征的上下文信息预测方法
CN106651057B (zh) * 2017-01-03 2020-04-10 有米科技股份有限公司 一种基于安装包序列表的移动端用户年龄预测方法
CN109948633A (zh) * 2017-12-20 2019-06-28 广东欧珀移动通信有限公司 用户性别预测方法、装置、存储介质及电子设备
CN109818820A (zh) * 2018-12-21 2019-05-28 上海瑞家信息技术有限公司 流量数据监控方法、装置、电子设备及存储介质
CN110012060B (zh) * 2019-02-13 2023-04-18 平安科技(深圳)有限公司 移动终端的信息推送方法、装置、存储介质和服务器
CN111291798B (zh) * 2020-01-21 2021-04-20 北京工商大学 一种基于集成学习的用户基础属性预测方法
CN112422755B (zh) * 2020-11-19 2021-10-15 中国联合网络通信集团有限公司 电话拨打方法、装置及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870550A (zh) * 2014-03-03 2014-06-18 同济大学 基于Android系统的用户行为模式获取方法及其系统
CN103886323A (zh) * 2013-09-24 2014-06-25 清华大学 基于移动终端的行为识别方法及移动终端

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103886323A (zh) * 2013-09-24 2014-06-25 清华大学 基于移动终端的行为识别方法及移动终端
CN103870550A (zh) * 2014-03-03 2014-06-18 同济大学 基于Android系统的用户行为模式获取方法及其系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TaintDroid: an information-flow tracking system for realtime privacy monitoring on smartphones;W.Enck et al.;《ACM Transactions on Computer Systems(TOCS)2014》;20140602;第32卷;全文 *
基于数据挖掘的手机上网流量经营分析与策略研究;王静;《中国优秀硕士学位论文全文数据库 信息科技辑》;20131215;第2013年卷(第12期);正文第7,46-47页,图4-5 *

Also Published As

Publication number Publication date
CN104573048A (zh) 2015-04-29

Similar Documents

Publication Publication Date Title
CN104573048B (zh) 一种基于智能手机流量数据的用户基础属性预测方法
US10042865B2 (en) System and method for creating a preference profile from shared images
Muthukumar et al. Understanding unequal gender classification accuracy from face images
CN108229341A (zh) 分类方法和装置、电子设备、计算机存储介质、程序
CN106651057A (zh) 一种基于安装包序列表的移动端用户年龄预测方法
Zhu et al. Identifying transportation modes from raw GPS data
CN106021376A (zh) 用于处理用户信息的方法和设备
KR102364533B1 (ko) 인공 지능 기반의 인테리어 서비스 방법 및 이러한 방법을 수행하는 장치
US20210192552A1 (en) Clothing design attribute identification for geographical regions
US11275994B2 (en) Unstructured key definitions for optimal performance
JP2017168057A (ja) 画像分類装置、画像分類システム及び画像分類方法
CN108629358A (zh) 对象类别的预测方法及装置
CN113051911B (zh) 提取敏感词的方法、装置、设备、介质及程序产品
CN104281635A (zh) 基于隐私反馈预测移动用户基础属性的方法
Razavi Personality segmentation of users through mining their mobile usage patterns
US20200073683A1 (en) Automated user interface analysis
CN107392311A (zh) 序列切分的方法和装置
KR20190094068A (ko) 온라인 게임에서 게이머 행동 유형을 분류하는 분류기의 학습 방법 및 상기 분류기를 포함하는 장치
CN115456043A (zh) 分类模型处理、意图识别方法、装置和计算机设备
CN114302157A (zh) 属性标签识别、代播事件检测方法及其装置、设备、介质
CN112767038B (zh) 基于美学特征的海报ctr预测方法及装置
US11216730B2 (en) Utilizing machine learning to perform a merger and optimization operation
CN112135175A (zh) 一种基于大数据与智慧城市的广告推送方法、系统及云平台
US20180039863A1 (en) Neural network classification through decomposition
CN116955788A (zh) 一种内容处理的方法、装置、设备、存储介质及程序产品

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20181012

Termination date: 20200120

CF01 Termination of patent right due to non-payment of annual fee