CN104281634B - 一种基于邻居关系的移动用户基础属性预测方法 - Google Patents
一种基于邻居关系的移动用户基础属性预测方法 Download PDFInfo
- Publication number
- CN104281634B CN104281634B CN201410092544.5A CN201410092544A CN104281634B CN 104281634 B CN104281634 B CN 104281634B CN 201410092544 A CN201410092544 A CN 201410092544A CN 104281634 B CN104281634 B CN 104281634B
- Authority
- CN
- China
- Prior art keywords
- user
- matrix
- click
- primary attribute
- gender
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明通过分析移动用户的浏览内容,预测用户的年龄和性别等基础属性。从用户的浏览日志出发,根据用户浏览的网页的内容将网页归类,用户对该类网页的一次浏览视为用户对该类网页的一次投票,从而得到用户的网页类别点击矩阵。从用户的点击矩阵得出用户的相似性矩阵,采用SVD方法分解用户的关系矩阵得到用户的关系反馈矩阵。拼接用户的点击矩阵和关系反馈矩阵,将用户的邻居相似度作为用户的特征属性。通过用户的ID将用户的基础属性和点击浏览请求关联起来,分析用户的浏览行为和用户之间的关系,从而通过用户的浏览行为预测用户的基础属性。采用SVM模型实现对用户的基础属性的分类预测。本发明将用户的性别作为男和女的二分类问题处理,年龄分段之后作为多分类问题处理。本发明实施例的有益效果是,通过分析移动用户的浏览行为可以对用户的性别、年龄等基础属性做出预测,其中对性别的预测能够达到80%以上的准确率,对年龄组的预测能够达到70%以上的准确率。
Description
技术领域
本发明涉及互联网技术,具体涉及一种基于邻居关系的移动用户基础属性预测方法的实现方法。
背景技术
在网络应用中用户的基础属性扮演着重要的角色,用户基础属性预测就是通过分析用户的浏览行为和搜索内容来预测用户的年龄、性别、收入状况、地理位置、文化程度、宗教信仰等用户的基础属性。随着 web2.0 的到来和移动互联的飞速发展,用户的基础属性在网络应用中越来越重要,而与之相关的研究内容成为研究的一个热点。例如 Google 提供的个性化搜索服务,根据用户的地理位置信息和用户的搜索历史记录为用户返回个性化的搜索列表,以为用户提供个性化的搜索服务。
对用户基础属性预测的研究主要集中在用户的网络日志和用户的搜索内容上。对用户的网络日志的研究主要是通过研究用户网络日志的书写习惯和用语习惯预测作者的性别和年龄,采取的方法主要是基于文本的分类方法,如 SVM 文本分类。对用户的搜索内容研究主要是分析用户的搜索内容和用户的基础属性之间的联系,已实现对用户的基础属性预测目的,采取的方法一般是统计分析和关联规则分析。然而,不管是基于搜索内容关联分析和还是基于习惯的分类预测都不能达到理想的效果,召回率和准确率依然很低。
发明内容
本发明的目的是提供基于邻居关系的移动用户基础属性预测方法的实现方法。使用本发明提供的实施例,可以通过分析移动用户的浏览行为对用户的基础属性进行预测。
本发明通过分析移动用户的浏览内容,预测用户的年龄和性别等基础属性。从用户的浏览日志出发,根据用户浏览的网页的内容将网页归类,用户对该类网页的一次浏览视为用户对该类网页的一次投票,从而得到用户的网页类别点击矩阵。从用户的点击矩阵得出用户的相似性矩阵,采用 SVD 方法分解用户的关系矩阵得到用户的关系反馈矩阵。拼接用户的点击矩阵和关系反馈矩阵。通过用户的 ID 将用户的基础属性和点击浏览请求关联起来,分析用户的浏览行为和用户之间的关系,从而通过用户的浏览行为预测用户的基础属性。采用SVM 模型实现对用户的基础属性的分类预测。本发明将用户的性别作为男和女的二分类问题处理,年龄分段之后作为多分类问题处理。
该方法的步骤包括:
1、爬取用户访问的 URL 的内容,通过关键字匹配将网页归类,得到(用户ID,网页类别)值对;
2、将(用户ID,网页类别)值对转化为用户的点击矩阵R;
3、由用户的点击矩阵计算用户的相似性,得出用户的相似性矩阵;
4、相似性做行归一化,采用SVD方法分解处理后的用户相似性矩阵,根据SVD分解的物理意义,得到分解矩阵可以隐性的反映用户间的相互关系,即用户关系反馈矩阵;
5、合并点击矩阵和用户的关系反馈矩阵;
6、通过关键字用户 ID,将用户点击矩阵和用户的基础属性关联,将用户的基础属性设置为类标;
7、用训练数据训练SVM分类模型;
8、训练好的SVM模型分类预测测试样本;
9、输出对测试样本的预测结果;
最后,实施本发明具有以下有益效果:
本发明实施例的有益效果是,通过分析移动用户的浏览行为可以对用户的性别、年龄等基础属性做出预测,其中对性别的预测能够达到 80%以上的准确率,对年龄组的预测能够达到 70%以上的准确率。
附图说明
附图是本发明提出的一种基于邻居关系的移动用户基础属性预测方法的算法流程。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。
在本实施例中,如图所示,提供了本发明提出的方法的算法流程:
步骤 101、爬取用户访问的 URL 的内容,通过关键字匹配将网页归类,得到(用户ID,网页类别)值对;
经过关键字处理,一条访问记录转化为一个(用户 ID,网页类别)值对。
步骤 102 、将(用户 ID ,网页类别)值对转化为用户的点击矩阵 R;
统计由访问日志得到的(用户 ID,网页类别)值对,得到网页类别的总数 n,将同个用户访问的网页类别统计到一行,一次访问视为对该类网页的一次投票,多次访问则为多次投票,最后得到用户的点击矩阵。
步骤 103、计算出用户的相似性矩阵;
从用户的点击矩阵出发,用户对某一类网页的点击视为用户在该方面的属性,因此点击矩阵的每一行视为一个用户在不同网页类别的属性分布,两个用户之间采用皮尔森相关系数计算出用户之间的相似度,最终得到用户的相似性矩阵 S。
步骤 104、对矩阵 S 做行归一化处理,采用 SVD 方法分解归一化之后的相似矩阵得到用户的关系反馈矩阵 P;
对归一化之后的相似性矩阵做 SVD 分解,采用随机梯度下降法求解用户关系反馈矩阵P,在求解的过程中可以根据需要选择合适的迭代次数和数据维度 K。
步骤105、按行拼接点击矩阵和用户的关系反馈矩阵;
点击矩阵 R 和用户的关系反馈矩阵 P 具有相同的行数,点击矩阵的每一行代表用户的访问偏好分布,用户隐性关系反馈矩阵的每一行反映用户的特定关系,将两个矩阵按行拼接起来,作为用户的空间向量的元,即用户的属性值。
步骤 106 、通过关键字用户 ID ,将用户点击矩阵和用户的基础属性关联,将用户的基础属性设置为类标;
用户的性别为男和女两类,用户的年龄为青少年(<18 岁)、少年(18-24 岁)、青年(25 -34 岁)、中年(35-49 岁)和老年(>50 岁)五类。
步骤 107、将数据随机等分为训练集和测试集,训练集用于训练 SVM 分类模型;
将数据随机等分,一份用于训练,一份用于测试,SVM 采用 RBF 核函数,对于性别和年龄分别训练SVM 模型。
步骤 108、用训练好的 SVM 模型预测测试试集;
用训练的 SVM 性别分类模型和年龄分类模型分别测试测试集的数据。
步骤 109、输出对预测试样本的结果。
对预测结果进行输出。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。。
Claims (1)
1.一种基于邻居关系的移动用户基础属性预测方法:其特征在于,从手机用户浏览和搜索的日志出发,根据浏览的 URL 内容,按关键字将其归类,将一次用户的访问转化为(用户 ID,网页类别)值对;将(用户ID,网页类别)转化为点击矩阵;从用户的点击矩阵出发计算出用户的相似性,得到用户的相似性矩阵;采用SVD分解用户相似度矩阵,根据SVD分解的物理意义,得到分解矩阵可以隐性的反映用户间的相互关系,即用户关系反馈矩阵;按行拼接用户点击矩阵和用户关系反馈矩阵,将用户的属性扩展为用户访问偏好和邻居关系;通过用户ID 关联用户的基础属性,将用户的基础属性作为类标;将数据随机等分为训练集和测试集,对性别和年龄分别训练SVM 预测模型,SVM 模型中采用 RBF 核函数;用训练的模型预测测试集,并输出其结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410092544.5A CN104281634B (zh) | 2014-03-13 | 2014-03-13 | 一种基于邻居关系的移动用户基础属性预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410092544.5A CN104281634B (zh) | 2014-03-13 | 2014-03-13 | 一种基于邻居关系的移动用户基础属性预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104281634A CN104281634A (zh) | 2015-01-14 |
CN104281634B true CN104281634B (zh) | 2018-04-20 |
Family
ID=52256510
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410092544.5A Expired - Fee Related CN104281634B (zh) | 2014-03-13 | 2014-03-13 | 一种基于邻居关系的移动用户基础属性预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104281634B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105224681B (zh) * | 2015-10-23 | 2018-07-27 | 武汉大学 | 基于家庭工作地上下文环境的用户需求获取方法及系统 |
CN106203473B (zh) * | 2016-06-24 | 2018-06-26 | 有米科技股份有限公司 | 一种基于安装包列表的移动用户性别预测方法 |
CN106682686A (zh) * | 2016-12-09 | 2017-05-17 | 北京拓明科技有限公司 | 一种基于手机上网行为的用户性别预测方法 |
CN106954207B (zh) * | 2017-04-25 | 2018-06-05 | 腾讯科技(深圳)有限公司 | 一种获取目标终端的帐号属性值的方法及装置 |
CN112232197A (zh) * | 2020-10-15 | 2021-01-15 | 武汉微派网络科技有限公司 | 基于用户行为特征的未成年人识别方法、装置和设备 |
CN115578132A (zh) * | 2022-12-08 | 2023-01-06 | 智慧足迹数据科技有限公司 | 年龄校准方法、装置、电子设备及可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663027A (zh) * | 2012-03-22 | 2012-09-12 | 浙江盘石信息技术有限公司 | 一种网页人群属性的预测方法 |
CN103164470A (zh) * | 2011-12-15 | 2013-06-19 | 盛大计算机(上海)有限公司 | 基于用户性别判别结果的定向应用方法及其系统 |
CN103345512A (zh) * | 2013-07-06 | 2013-10-09 | 北京品友互动信息技术有限公司 | 一种基于用户属性的网络广告点击率预测方法和装置 |
-
2014
- 2014-03-13 CN CN201410092544.5A patent/CN104281634B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103164470A (zh) * | 2011-12-15 | 2013-06-19 | 盛大计算机(上海)有限公司 | 基于用户性别判别结果的定向应用方法及其系统 |
CN102663027A (zh) * | 2012-03-22 | 2012-09-12 | 浙江盘石信息技术有限公司 | 一种网页人群属性的预测方法 |
CN103345512A (zh) * | 2013-07-06 | 2013-10-09 | 北京品友互动信息技术有限公司 | 一种基于用户属性的网络广告点击率预测方法和装置 |
Non-Patent Citations (2)
Title |
---|
Content-Based Methods for Predicting Web-Site Demographic Attributes;Santosh Kabbur;《2010 IEEE International Conference on Data Mining》;20101213;第863-868页 * |
Demographic Prediction Based on User"s Browsing Behavior;Jian Hu等;《International Conference on World Wide Web》;20070512;第151-160页 * |
Also Published As
Publication number | Publication date |
---|---|
CN104281634A (zh) | 2015-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | A sentiment‐enhanced hybrid recommender system for movie recommendation: a big data analytics framework | |
CN104281634B (zh) | 一种基于邻居关系的移动用户基础属性预测方法 | |
Zhao et al. | Exploring demographic information in social media for product recommendation | |
WO2022116537A1 (zh) | 一种资讯推荐方法、装置、电子设备和存储介质 | |
Liu et al. | Analyzing changes in hotel customers’ expectations by trip mode | |
CN101216825B (zh) | 标引关键词提取/预测方法 | |
CN103914478B (zh) | 网页训练方法及系统、网页预测方法及系统 | |
CN106682686A (zh) | 一种基于手机上网行为的用户性别预测方法 | |
WO2017190610A1 (zh) | 目标用户定向方法、装置和计算机存储介质 | |
CN103294815B (zh) | 基于关键字分类并有多种呈现方式的搜索引擎装置与方法 | |
CN107784092A (zh) | 一种推荐热词的方法、服务器及计算机可读介质 | |
Chen et al. | Multimodal named entity recognition with image attributes and image knowledge | |
US9798820B1 (en) | Classification of keywords | |
CN106445988A (zh) | 一种大数据的智能处理方法和系统 | |
CN108885624A (zh) | 信息推荐系统及方法 | |
JP2023533475A (ja) | キーワード推薦のための人工知能 | |
CN111177559B (zh) | 文旅服务推荐方法、装置、电子设备及存储介质 | |
CN104281635A (zh) | 基于隐私反馈预测移动用户基础属性的方法 | |
CN107357793A (zh) | 信息推荐方法和装置 | |
JP6719399B2 (ja) | 解析装置、解析方法、およびプログラム | |
Manikandan et al. | Deep sentiment learning for measuring similarity recommendations in twitter data | |
CN109255012A (zh) | 一种机器阅读理解的实现方法以及装置 | |
WO2019196259A1 (zh) | 一种虚假消息的识别方法及其设备 | |
Raghuvanshi et al. | A brief review on sentiment analysis | |
Tan et al. | Recommendation Based on Users’ Long‐Term and Short‐Term Interests with Attention |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180420 Termination date: 20190313 |