CN104281718B - 一种基于用户群体行为数据挖掘智能推荐的方法 - Google Patents
一种基于用户群体行为数据挖掘智能推荐的方法 Download PDFInfo
- Publication number
- CN104281718B CN104281718B CN201410611460.8A CN201410611460A CN104281718B CN 104281718 B CN104281718 B CN 104281718B CN 201410611460 A CN201410611460 A CN 201410611460A CN 104281718 B CN104281718 B CN 104281718B
- Authority
- CN
- China
- Prior art keywords
- information
- user
- click
- behavior
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Abstract
本发明公开了一种根据用户群体行为计算资讯相似度并对用户进行数据挖掘智能推荐的解决方法,通过收集用户行为数据并进行权重处理,把用户进行区间划分,通过大量的矩阵计算获取任意资讯之间的相似度,结合历史最近的点击资讯列表,从相关资讯库中选取和其历史偏好相似度高、时效性好的资讯实时推荐,同时对离线、缓存资讯进行分析,如此即可快速推荐相似的和相关度极高的资讯给用户。
Description
技术领域
本发明涉及智能手机资讯软件的资讯相关度推荐,特别地涉及一种互联网应用软件的用户兴趣推荐的技术方法。
背景技术
随着互联网技术的发展,每天在我们都生活在大量的信息中,新闻、广告、科技、销售等等。大多都不是用户想看的,也无法接受那么多的信息量,更加无法有效的找到自身感兴趣的内容。
互联网时代资讯更新极快,海量的资讯展示到不同的用户面前,采用传统的曝光形式很难引起用户的兴趣,一般的将资讯进行分门别类的方法难以确定用户感兴趣的类别。
我们需要把资讯过滤,排序,最终展示给用户的是优质的内容,否则用户就会很难在海量的资讯里,找到自己感兴趣的、热点的内容。目前应用市场有很多适用于智能手机的资讯软件,但能根据用户的行为结合群体行为,针对不同的用户提供不同侧重点的资讯的应用还未有先例。
基于用户群体数据挖掘的资讯智能推荐技术方法,解决了目前市场上无法进行海量资讯过滤和推荐的问题,效果明显,大大吸引了用户的阅读兴趣,给用户更好的体验。
发明内容
本发明的主要目的是提供一种用户群体行为计算资讯相似度并对用户进行数据挖掘智能推荐的方法,以解决现有智能设备无法进行海量资讯过滤和推荐的问题,从而实现个性化精准推荐问题。
为解决上述问题,提供如下解决方案:
1、收集用户的点击行为、赞、收藏、分享、打开原文、浏览时长等海量用户行为数据,通过对这些不同行为数据进行权重处理,整合成用户对资讯的评分值。特别的针对用户的活跃度不同,喜好点击的偏重不同,使得用户对资讯的单次行为产生的评分值权重是不一致的,整体原则采用随之用户活跃度增加单次行为分值递减。同时由于资讯的热度会大量影响资讯的被评分次数,采用和用户行为相一致的反递减原则进行综合评分计算。
2、在评分计算时将所有点击用户分成20个区间,赋值(1,2,3,...,19,20)使得绝大部分的用户在7-15分区间,对资讯根据其被点击数据获得资讯热度值,采用TF-IDF的思想,对这两个分数进行综合计算:式中i表示用户i,j表示资讯j,n j表示用户i的点击得分,m j表示资讯j的点击热度分数,a为权重参数,通过实验优化。对有赞、收藏、分享、查看原文等行为的用户评分进行权重累积。最后将用户浏览时长t归一化处理:,式中t表示时长,a表示字数,b表示图片数,β为权重参数,通过实验优化。将一段时间内的用户对每一条资讯的评分数据整理成用户-资讯评分矩阵A(m,n),其中m为用户数,n为资讯数,第i行第j列值Rü表示用户i对资讯j的综合评分,该评分通过步骤1算法获得。
3、 资讯的相似度可以通过对不同资讯向量的相似度来表示,普遍采用的计算方法有欧几里得距离、余弦相似度、皮尔森相关性、对数似然法等。由于我们是通过用户的群体行为来挖掘资讯的相似度,所以通过采用皮尔森相关性的方法来计算:。
4、通过大量的矩阵计算可以获取任意资讯之间的相似度,为了获得好的推荐结果,选取每一条资讯的最相关N条资讯,组成一个在线的资讯相似度关联库以供在线Server使用。
5、根据用户的当前资讯浏览行为智能推荐相关资讯,如果是点击资讯,则推荐和当前资讯最相关的资讯到用户浏览页中,如果是下拉刷新,则结合历史最近的点击资讯列表,从相关资讯库中选取和其历史偏好相似度高、时效性好的资讯实时推荐给用户。
6、通过收集多种用户的行为数据来计算用户对某一条资讯的喜爱程度,通过不同用户对某一条资讯的喜爱程度评分能计算出两条资讯间的相似程度;可以离线计算解决了海量行为数据问题;缓存资讯相关性表,从而可以使得用户有相应点击/刷新行为的时候快速推荐相似的和相关的资讯给用户。
附图说明:
图1:整体算法原理简化图
图2:算法流程图
具体实施方式:
1.采集用户行为数据,通过用户行为日志,记录用户的行为数据,针对不同的行为日志进行一定的权重整合,比如:点击行为<赞<收藏<分享<打开原文,对于浏览时长需要单独处理,由于每一条有点击行为的资讯都有浏览时长,将不同行为的数据整合成一个评分值。对于群体用户来说,他们的行为总是符合正态分布的,点击行为也是这样,在评分计算时将所有点击用户分成20个区间,赋值(1,2,3,...,19,20)使得绝大部分的用户在7-15分区间,对资讯根据其被点击数据获得资讯热度值,采用TF-IDF的思想,对这2个分数进行综合计算:,式中i表示用户i,j表示资讯j,n i表示用户i的点击得分,m j表示资讯j的点击热度分数α为权重参数,通过实验优化。对有赞、收藏、分享、查看原文等行为的用户评分进行权重累积。最后将用户浏览时长t归一化处理:,式中t表示时长,α表示字数,b表示图片数,β为权重参数,通过实验优化。
2.生成资讯-用户评分矩阵。由于资讯一般都有一点的时效性,所以在收集用户行为数据的时候并不需要过期太久的数据,采集最近一段时间的用户行为数据,采用步骤1的算法计算产生用户对资讯的评分值,聚合所一个用户对每一条资讯的评分,对没有相关行为的资讯进行置0操作,按资讯ID顺序排列就可以获得资讯的评分向量: 其中p 1表示用户j对资讯1的喜好分值。将所有的资讯的评分向量聚合就形成了一个用户-资讯评分矩阵其中P ij表示第j个用户对i条资讯的评分值,可以看出从该矩阵中取任意的一行代表的就是对应资讯的评分值向量。
3.通过评分值矩阵计算资讯相似度。从矩阵A(m,n)中任意取1行都代表的是一条资讯的评分值向量,对两两向量计算相似度就可以获得资讯间的相似度值。计算公式采用皮尔森相关性公式:式中x表示一条资讯的评分值向量,y表示另一条资讯的评分值向量,等于两个向量的协方差除以两个向量的标准差。
4..通过资讯相似度结合用户点击列表进行用户个性化推荐。通过上面的步骤将任一条资讯和所有其他资讯的相似度值计算出来,取相似度值最高的10条备用,将所有资讯的最相关资讯计算完成后就获得了一个相关资讯库,从中可以获取到任意资讯的相关资讯。最后,当用户再次进入资讯APP主界面刷新资讯的时候,先查找该用户的最近有点击资讯列表,通过该列表中的资讯ID,查询相应资讯的相关性资讯,按相关度值高低取10条资讯推荐给用户浏览。当用户有点击行为的时候,立刻取相应点击资讯的前4条相关资讯附在该条资讯的相关推荐栏中。
该技术方法有效的解决了将用户的行为转化为兴趣评分值数据,通过群体行为计算资讯的相似度来解决用户兴趣偏好问题,从而在无法采集用户兴趣标签的情况下挖掘用户的潜在兴趣偏好。
Claims (3)
1.一种基于用户群体行为数据挖掘的资讯智能推荐技术方法,其特征在于:
根据用户行为数据计算用户对资讯的感兴趣程度评分值,收集群体用户行为评分数据建立资讯-用户评分值矩阵,资讯相似度计算步骤,计算所有有关联的资讯向量间的相关性值P(x,y),计算获取所有资讯的相关资讯库,计算获得任一条资讯最相似的N条资讯,收集所有资讯的最相似资讯存放到在线Server,根据用户当前不同的浏览行为,推荐最相似或最可能感兴趣的资讯信息给用户;
其中,所述根据用户行为数据计算用户对资讯的感兴趣程度评分值,包括:
收集用户行为数据,所述用户行为数据包括用户对资讯的点击、赞、收藏、分享、打开原文、浏览时长;
根据每个用户的点击次数将用户分成20个区间,赋值1,2,3,...,19,20,使得绝大部分的用户在7-15分区间,得到每个用户的点击得分;
根据每条资讯的被点击数据获得资讯热度值;
通过公式对所述点击得分和所述资讯热度值进行综合计算,其中,i表示用户i,j表示资讯j,ni表示用户i的点击得分,mj表示资讯j的点击热度分数,a为权重参数;
对有赞、收藏、分享、查看原文行为的用户评分进行权重累积;
将用户的浏览时长归一化处理:式中t表示时长,a表示字数,b表示图片数,β为权重参数;
将综合计算结果Pij、权重累积结果和归一化结果P进行权重整合得到每个用户对每条资讯的综合评分,即感兴趣程度评分值。
2.根据权利要求1所述的基于用户群体行为数据挖掘的资讯智能推荐技术方法,其特征还在于,还包括:
计算资讯相关度值时采用群体用户对资讯的评分向量间的相关性值来表示,计算两个向量的协方差除以两个变量的标准差。
3.根据权利要求1所述的基于用户群体行为数据挖掘的资讯智能推荐技术方法,其特征还在于,还包括:
根据当前用户的浏览行为智能的推荐资讯给用户,在用户刷新拉取时根据用户历史最近的点击记录来获取推荐资讯,在用户点击操作值获取和当前选择资讯最相似的资讯推荐。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410611460.8A CN104281718B (zh) | 2014-11-04 | 2014-11-04 | 一种基于用户群体行为数据挖掘智能推荐的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410611460.8A CN104281718B (zh) | 2014-11-04 | 2014-11-04 | 一种基于用户群体行为数据挖掘智能推荐的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104281718A CN104281718A (zh) | 2015-01-14 |
CN104281718B true CN104281718B (zh) | 2018-03-02 |
Family
ID=52256591
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410611460.8A Active CN104281718B (zh) | 2014-11-04 | 2014-11-04 | 一种基于用户群体行为数据挖掘智能推荐的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104281718B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104794207B (zh) * | 2015-04-23 | 2018-04-10 | 山东大学 | 一种基于协作的推荐系统及其工作方法 |
CN104809228A (zh) * | 2015-05-07 | 2015-07-29 | 上海电信科技发展有限公司 | 个性化手机报发送方法及系统 |
CN106484747A (zh) * | 2015-09-02 | 2017-03-08 | 阿里巴巴集团控股有限公司 | 一种基于交互事件的网页项目推荐方法和装置 |
CN105224646A (zh) * | 2015-09-29 | 2016-01-06 | 北京金山安全软件有限公司 | 一种对象关系分析方法、装置及电子设备 |
CN106815216A (zh) * | 2015-11-30 | 2017-06-09 | 北京云莱坞文化传媒有限公司 | 一种故事筛选及精准展现的方法和装置 |
CN106919580B (zh) * | 2015-12-25 | 2021-04-13 | 腾讯科技(深圳)有限公司 | 一种信息推送方法及装置 |
CN108304853B (zh) * | 2017-10-10 | 2022-11-08 | 腾讯科技(深圳)有限公司 | 游戏相关度的获取方法、装置、存储介质和电子装置 |
CN107844525A (zh) * | 2017-10-12 | 2018-03-27 | 广州艾媒数聚信息咨询股份有限公司 | 一种基于用户行为的资讯个性化推荐方法、系统及装置 |
CN109002491A (zh) * | 2018-06-26 | 2018-12-14 | 深圳市爱的网络科技有限公司 | 用户兴趣采集方法、装置、计算机装置及计算机可读存储介质 |
WO2020000207A1 (zh) * | 2018-06-26 | 2020-01-02 | 深圳市爱的网络科技有限公司 | 用户兴趣采集方法、装置、计算机装置及计算机可读存储介质 |
CN108875092B (zh) * | 2018-08-22 | 2022-07-12 | 成都理工大学 | 一种基于协方差的商品推荐方法 |
CN109145222A (zh) * | 2018-09-11 | 2019-01-04 | 合肥汇众知识产权管理有限公司 | 专利交易信息的推送方法及装置 |
CN112100221B (zh) * | 2019-06-17 | 2024-02-13 | 深圳市雅阅科技有限公司 | 一种资讯推荐方法、装置、推荐服务器及存储介质 |
CN110507294B (zh) * | 2019-08-07 | 2022-02-08 | 北京安龙脉德医学科技有限公司 | 基于互联网信息传递的急救系统 |
CN110727856A (zh) * | 2019-09-04 | 2020-01-24 | 福州智永信息科技有限公司 | 一种基于低龄用户的优化协同推荐方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103425799A (zh) * | 2013-09-04 | 2013-12-04 | 北京邮电大学 | 基于主题的个性化研究方向推荐系统和推荐方法 |
CN104021233A (zh) * | 2014-06-30 | 2014-09-03 | 电子科技大学 | 一种基于社区发现的社交网络好友推荐方法 |
CN104090912A (zh) * | 2014-06-10 | 2014-10-08 | 腾讯科技(深圳)有限公司 | 信息推送方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102982042B (zh) * | 2011-09-07 | 2015-08-19 | 中国移动通信集团公司 | 一种个性化内容推荐方法、平台以及系统 |
US9122678B2 (en) * | 2012-12-05 | 2015-09-01 | Business Objects Software Ltd. | Method and system for recommending enterprise collaboration data |
CN103886001A (zh) * | 2013-09-22 | 2014-06-25 | 天津思博科科技发展有限公司 | 一种个性化商品推荐系统 |
CN104063481B (zh) * | 2014-07-02 | 2017-11-14 | 山东大学 | 一种基于用户实时兴趣向量的电影个性化推荐方法 |
-
2014
- 2014-11-04 CN CN201410611460.8A patent/CN104281718B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103425799A (zh) * | 2013-09-04 | 2013-12-04 | 北京邮电大学 | 基于主题的个性化研究方向推荐系统和推荐方法 |
CN104090912A (zh) * | 2014-06-10 | 2014-10-08 | 腾讯科技(深圳)有限公司 | 信息推送方法及装置 |
CN104021233A (zh) * | 2014-06-30 | 2014-09-03 | 电子科技大学 | 一种基于社区发现的社交网络好友推荐方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104281718A (zh) | 2015-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104281718B (zh) | 一种基于用户群体行为数据挖掘智能推荐的方法 | |
TWI636416B (zh) | 內容個人化之多相排序方法和系統 | |
CN102831234B (zh) | 基于新闻内容和主题特征的个性化新闻推荐装置和方法 | |
US9706008B2 (en) | Method and system for efficient matching of user profiles with audience segments | |
CN109559208A (zh) | 一种信息推荐方法、服务器及计算机可读介质 | |
US8990208B2 (en) | Information management and networking | |
CN104050258B (zh) | 一种基于兴趣群组的群体推荐方法 | |
WO2015192667A1 (zh) | 推荐广告的方法及广告推荐服务器 | |
CN104391999B (zh) | 信息推荐方法和装置 | |
CN104166668A (zh) | 基于folfm模型的新闻推荐系统及方法 | |
CN107066476A (zh) | 一种基于物品相似度的实时推荐方法 | |
CN103714084A (zh) | 推荐信息的方法和装置 | |
CN106503014A (zh) | 一种实时信息的推荐方法、装置和系统 | |
CN101482884A (zh) | 一种基于用户偏好评分分布的协作推荐系统 | |
CN104834686A (zh) | 一种基于混合语义矩阵的视频推荐方法 | |
CN105469263A (zh) | 一种商品推荐方法及装置 | |
TW201543238A (zh) | 使用者會話之使用者滿意度評估方法與系統 | |
CN102332006A (zh) | 一种信息推送控制方法及装置 | |
CN103019550A (zh) | 关联内容实时展现方法及系统 | |
US20170262447A1 (en) | Topical analytics for online articles | |
CN104899229A (zh) | 基于群体智能的行为聚类系统 | |
CN103383702A (zh) | 一种基于用户投票排名的个性化新闻推荐的方法及系统 | |
CN105930507A (zh) | 一种获得用户的Web浏览兴趣的方法及装置 | |
CN107277115A (zh) | 一种内容推送方法及装置 | |
US10289624B2 (en) | Topic and term search analytics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |