CN104281634A - 一种基于邻居关系的移动用户基础属性预测方法 - Google Patents
一种基于邻居关系的移动用户基础属性预测方法 Download PDFInfo
- Publication number
- CN104281634A CN104281634A CN201410092544.5A CN201410092544A CN104281634A CN 104281634 A CN104281634 A CN 104281634A CN 201410092544 A CN201410092544 A CN 201410092544A CN 104281634 A CN104281634 A CN 104281634A
- Authority
- CN
- China
- Prior art keywords
- user
- subscriber
- matrix
- neighborhood
- forecasting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明通过分析移动用户的浏览内容,预测用户的年龄和性别等基础属性。从用户的浏览日志出发,将用户的浏览行为分类,得出用户的点击矩阵,采用SVD方法得到用户的关系反馈矩阵。分析用户的浏览行为和用户之间的关系,从而通过用户的浏览行为预测用户的基础属性。采用SVM模型实现对用户的基础属性的分类预测。本发明将用户的性别作为男和女的二分类问题处理,年龄分段之后作为多分类问题处理。本发明实施例的有益效果是,通过分析移动用户的浏览行为可以对用户的性别、年龄等基础属性做出预测,其中对年龄的预测能够达到80%以上的准确率,对性别的预测能够达到85%以上的准确率。
Description
技术领域
本发明涉及互联网技术,具体涉及一种基于邻居关系的移动用户基础属性预测方法的实现方法。
背景技术
在网络应用中用户的基础属性扮演着重要的角色,用户基础属性预测就是通过分析用户的浏览行为和搜索内容来预测用户的年龄、性别、收入状况、地理位置、文化程度、宗教信仰等用户的基础属性。随着web2.0的到来和移动互联的飞速发展,用户的基础属性在网络应用中越来越重要,而与之相关的研究内容成为研究的一个热点。例如Google提供的个性化搜索服务,根据用户的地理位置信息和用户的搜索历史记录为用户返回个性化的搜索列表,以为用户提供个性化的搜索服务。
对用户基础属性预测的研究主要集中在用户的网络日志和用户的搜索内容上。对用户的网络日志的研究主要是通过研究用户网络日志的书写习惯和用语习惯预测作者的性别和年龄,采取的方法主要是基于文本的分类方法,如SVM文本分类。对用户的搜索内容研究主要是分析用户的搜索内容和用户的基础属性之间的联系,已实现对用户的基础属性预测目的,采取的方法一般是统计分析和关联规则分析。然而,不管是基于搜索内容关联分析和还是基于习惯的分类预测都不能达到理想的效果,召回率和准确率依然很低。
发明内容
本发明的目的是提供基于邻居关系的移动用户基础属性预测方法的实现方法。使用本发明提供的实施例,可以通过分析移动用户的浏览行为对用户的基础属性进行预测。
本发明通过分析移动用户的浏览内容,预测用户的年龄和性别等基础属性。从用户的浏览日志出发,根据用户浏览的网页的内容将网页归类,用户对该类网页的一次浏览视为用户对该类网页的一次投票,从而得到用户的网页类别点击矩阵。从用户的点击矩阵得出用户的相似性矩阵,采用SVD方法分解用户的关系矩阵得到用户的关系反馈矩阵。拼接用户的点击矩阵和关系反馈矩阵。通过用户的ID将用户的基础属性和点击浏览请求关联起来,分析用户的浏览行为和用户之间的关系,从而通过用户的浏览行为预测用户的基础属性。采用SVM模型实现对用户的基础属性的分类预测。本发明将用户的性别作为男和女的二分类问题处理,年龄分段之后作为多分类问题处理。
该方法的步骤包括:
1、爬取用户访问的URL的内容,通过关键字匹配将网页归类,得到(用户ID,网页类别)值对;
2、将(用户ID,网页类别)值对转化为用户的点击矩阵R;
3、由用户的点击矩阵计算用户的相似性,得出用户的相似性矩阵;
4、对相似性做行归一化,采用SVD方法分解处理后的用户相似性矩阵,得到用户关系的隐私反馈矩阵;
5、合并点击矩阵和用户的关系隐私反馈矩阵;
6、通过关键字用户ID,将用户点击矩阵和用户的基础属性关联,将用户的基础属性设置为类标;
7、用训练数据训练SVM分类模型;
8、训练好的SVM模型分类预测测试样本;
9、输出对测试样本的预测结果
最后,实施本发明具有以下有益效果:
本发明实施例的有益效果是,通过分析移动用户的浏览行为可以对用户的性别、年龄等基础属性做出预测,其中对性别的预测能够达到80%以上的准确率,对性别的预测能够达到85%以上的准确率。
附图说明
附图是本发明提出的一种基于邻居关系的移动用户基础属性预测方法的算法流程。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。
在本实施例中,如图所示,提供了本发明提出的方法的算法流程:
步骤101、爬取用户访问的URL的内容,通过关键字匹配将网页归类,得到(用户ID,网页类别)值对;
经过关键字处理,一条访问记录转化为一个(用户ID,网页类别)值对。
步骤102、将(用户ID,网页类别)值对转化为用户的点击矩阵R;
统计由访问日志得到的(用户ID,网页类别)值对,得到网页类别的总数n,将同一个用户访问的网页类别统计到一行,一次访问视为对该类网页的一次投票,多次访问则为多次投票,最后得到用户的点击矩阵。
步骤103、计算出用户的相似性矩阵;
从用户的点击矩阵出发,用户对某一类网页的点击视为用户在该方面的属性,因此点击矩阵的每一行视为一个用户在不同网页类别的属性分布,两个用户之间采用皮尔森相关系数计算出用户之间的相似度,最终得到用户的相似性矩阵S。
步骤104、对矩阵S做行归一化处理,采用SVD方法分解归一化之后的相似矩阵得到用户隐性关系反馈矩阵P;
对归一化之后的相似性矩阵做SVD分解,采用随机梯度下降法求解用户隐性关系反馈矩阵P,在求解的过程中可以根据需要选着合适的迭代次数和数据维度K。
步骤105、按行拼接点击矩阵和用户隐性关系反馈矩阵;
点击矩阵R和用户隐性关系反馈矩阵P具有相同的行数,点击矩阵的每一行代表用户的访问偏好分布,用户隐性关系反馈矩阵的每一行反应用户的特定关系,将两个矩阵按行拼接起来,作为用户的空间向量的元,即用户的属性值。
步骤106、通过关键字用户ID,将用户点击矩阵和用户的基础属性关联,将用户的基础属性设置为类标;
用户的性别为男和女两类,用户的年龄为青少年(<18岁)、少年(18-24)、青年(25-34)、中年(35-49)和老年(>50)五类。
步骤107、将数据随机等分为训练集和测试集,训练集用于训练SVM分类模型;
将数据随机等分,一份用于训练,一份用于测试,SVM采用RBF核函数,对于性别和年龄分别训练SVM模型。
步骤108、用训练好的SVM模型预测测试集;
用训练的SVM性别分类模型和年龄分类模型分别测试测试集的数据。
步骤109、输出对预测测试样本的预测结果。
对预测结果进行输出。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (1)
1.一种基于邻居关系的移动用户基础属性预测方法:其特征在于,从手机用户浏览和搜索的日志出发,根据浏览的URL内容,按关键字将其归类,将一次用户的访问转化为(用户ID,网页类别)值对;将(用户ID,网页类别)转化为点击矩阵;从用户的点击矩阵出发计算出用户的相似性,得到用户的相似性矩阵;采用SVD分解用户相似度矩阵,得到用户隐私关系反馈矩阵;按行拼接用户点击矩阵和用户隐性关系反馈矩阵,将用户的属性扩展为用户访问偏好和邻居关系;通过用户ID关联用户的基础属性,将用户的基础属性作为类标;将数据随机等分为训练集和测试集,对性别和年龄分别训练SVM预测模型,SVM模型中采用RBF核函数;用训练的模型预测测试集,并对去其结果输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410092544.5A CN104281634B (zh) | 2014-03-13 | 2014-03-13 | 一种基于邻居关系的移动用户基础属性预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410092544.5A CN104281634B (zh) | 2014-03-13 | 2014-03-13 | 一种基于邻居关系的移动用户基础属性预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104281634A true CN104281634A (zh) | 2015-01-14 |
CN104281634B CN104281634B (zh) | 2018-04-20 |
Family
ID=52256510
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410092544.5A Expired - Fee Related CN104281634B (zh) | 2014-03-13 | 2014-03-13 | 一种基于邻居关系的移动用户基础属性预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104281634B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105224681A (zh) * | 2015-10-23 | 2016-01-06 | 武汉大学 | 基于家庭工作地上下文环境的用户需求获取方法及系统 |
CN106203473A (zh) * | 2016-06-24 | 2016-12-07 | 有米科技股份有限公司 | 一种基于安装包列表的移动用户性别预测方法 |
CN106682686A (zh) * | 2016-12-09 | 2017-05-17 | 北京拓明科技有限公司 | 一种基于手机上网行为的用户性别预测方法 |
CN106954207A (zh) * | 2017-04-25 | 2017-07-14 | 腾讯科技(深圳)有限公司 | 一种获取目标终端的帐号属性值的方法及装置 |
CN112232197A (zh) * | 2020-10-15 | 2021-01-15 | 武汉微派网络科技有限公司 | 基于用户行为特征的未成年人识别方法、装置和设备 |
CN115578132A (zh) * | 2022-12-08 | 2023-01-06 | 智慧足迹数据科技有限公司 | 年龄校准方法、装置、电子设备及可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663027A (zh) * | 2012-03-22 | 2012-09-12 | 浙江盘石信息技术有限公司 | 一种网页人群属性的预测方法 |
CN103164470A (zh) * | 2011-12-15 | 2013-06-19 | 盛大计算机(上海)有限公司 | 基于用户性别判别结果的定向应用方法及其系统 |
CN103345512A (zh) * | 2013-07-06 | 2013-10-09 | 北京品友互动信息技术有限公司 | 一种基于用户属性的网络广告点击率预测方法和装置 |
-
2014
- 2014-03-13 CN CN201410092544.5A patent/CN104281634B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103164470A (zh) * | 2011-12-15 | 2013-06-19 | 盛大计算机(上海)有限公司 | 基于用户性别判别结果的定向应用方法及其系统 |
CN102663027A (zh) * | 2012-03-22 | 2012-09-12 | 浙江盘石信息技术有限公司 | 一种网页人群属性的预测方法 |
CN103345512A (zh) * | 2013-07-06 | 2013-10-09 | 北京品友互动信息技术有限公司 | 一种基于用户属性的网络广告点击率预测方法和装置 |
Non-Patent Citations (2)
Title |
---|
JIAN HU等: "Demographic Prediction Based on User"s Browsing Behavior", 《INTERNATIONAL CONFERENCE ON WORLD WIDE WEB》 * |
SANTOSH KABBUR: "Content-Based Methods for Predicting Web-Site Demographic Attributes", 《2010 IEEE INTERNATIONAL CONFERENCE ON DATA MINING》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105224681A (zh) * | 2015-10-23 | 2016-01-06 | 武汉大学 | 基于家庭工作地上下文环境的用户需求获取方法及系统 |
CN105224681B (zh) * | 2015-10-23 | 2018-07-27 | 武汉大学 | 基于家庭工作地上下文环境的用户需求获取方法及系统 |
CN106203473A (zh) * | 2016-06-24 | 2016-12-07 | 有米科技股份有限公司 | 一种基于安装包列表的移动用户性别预测方法 |
CN106203473B (zh) * | 2016-06-24 | 2018-06-26 | 有米科技股份有限公司 | 一种基于安装包列表的移动用户性别预测方法 |
CN106682686A (zh) * | 2016-12-09 | 2017-05-17 | 北京拓明科技有限公司 | 一种基于手机上网行为的用户性别预测方法 |
CN106954207A (zh) * | 2017-04-25 | 2017-07-14 | 腾讯科技(深圳)有限公司 | 一种获取目标终端的帐号属性值的方法及装置 |
CN106954207B (zh) * | 2017-04-25 | 2018-06-05 | 腾讯科技(深圳)有限公司 | 一种获取目标终端的帐号属性值的方法及装置 |
CN112232197A (zh) * | 2020-10-15 | 2021-01-15 | 武汉微派网络科技有限公司 | 基于用户行为特征的未成年人识别方法、装置和设备 |
CN115578132A (zh) * | 2022-12-08 | 2023-01-06 | 智慧足迹数据科技有限公司 | 年龄校准方法、装置、电子设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN104281634B (zh) | 2018-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107315759B (zh) | 归类关键字的方法、装置和处理系统、分类模型生成方法 | |
CN104281635A (zh) | 基于隐私反馈预测移动用户基础属性的方法 | |
US20180158078A1 (en) | Computer device and method for predicting market demand of commodities | |
US9910930B2 (en) | Scalable user intent mining using a multimodal restricted boltzmann machine | |
CN103295145B (zh) | 一种基于用户消费特征向量的手机广告投放方法 | |
Chen et al. | Multimodal named entity recognition with image attributes and image knowledge | |
CN104281634A (zh) | 一种基于邻居关系的移动用户基础属性预测方法 | |
Zhang et al. | Enabling kernel-based attribute-aware matrix factorization for rating prediction | |
CN108021651B (zh) | 一种网络舆情风险评估方法及装置 | |
Shi et al. | Sentiment analysis of Chinese microblogging based on sentiment ontology: a case study of ‘7.23 Wenzhou Train Collision’ | |
CN106682686A (zh) | 一种基于手机上网行为的用户性别预测方法 | |
US20110040769A1 (en) | Query-URL N-Gram Features in Web Ranking | |
JP6719399B2 (ja) | 解析装置、解析方法、およびプログラム | |
CN103914478A (zh) | 网页训练方法及系统、网页预测方法及系统 | |
CN101127042A (zh) | 一种基于语言模型的情感分类方法 | |
JP6509718B2 (ja) | 文書分類装置、文書分類方法、及び文書分類プログラム | |
US9344507B2 (en) | Method of processing web access information and server implementing same | |
CN103903164A (zh) | 基于领域信息的半监督方面自动提取方法及其系统 | |
US20130212095A1 (en) | System and method for mark-up language document rank analysis | |
EP3639163A1 (en) | Systems and methods for optimizing and simulating webpage ranking and traffic | |
Manikandan et al. | Deep sentiment learning for measuring similarity recommendations in twitter data | |
CN104573048A (zh) | 一种基于智能手机流量数据的用户基础属性预测方法 | |
Chang et al. | Improving recency ranking using twitter data | |
Olatunji et al. | Context-aware helpfulness prediction for online product reviews | |
US20130332440A1 (en) | Refinements in Document Analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180420 Termination date: 20190313 |
|
CF01 | Termination of patent right due to non-payment of annual fee |