CN108664564B - 一种基于物品内容特征的改进协同过滤推荐方法 - Google Patents

一种基于物品内容特征的改进协同过滤推荐方法 Download PDF

Info

Publication number
CN108664564B
CN108664564B CN201810332332.8A CN201810332332A CN108664564B CN 108664564 B CN108664564 B CN 108664564B CN 201810332332 A CN201810332332 A CN 201810332332A CN 108664564 B CN108664564 B CN 108664564B
Authority
CN
China
Prior art keywords
item
user
items
similarity
click
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810332332.8A
Other languages
English (en)
Other versions
CN108664564A (zh
Inventor
陈毅
任正云
文盼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Donghua University
Original Assignee
Donghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Donghua University filed Critical Donghua University
Priority to CN201810332332.8A priority Critical patent/CN108664564B/zh
Publication of CN108664564A publication Critical patent/CN108664564A/zh
Application granted granted Critical
Publication of CN108664564B publication Critical patent/CN108664564B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0255Targeted advertisements based on user history

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于物品内容特征的改进协同过滤推荐方法,包括以下步骤:读取数据集,并拆分数据集,获取用户评分记录以及物品点击量数据;计算物品与物品之间的共现矩阵以及每个物品点击量均值;计算物品点击量影响因子,该因子与物品之间的点击量差值成反相关;物品相似度与物品点击量因子相乘得到改进后的物品相似度,最终生成相似度矩阵;针对目标用户,找到K个相似的物品,根据兴趣度计算公式计算用户对物品的兴趣程度;最后根据用户对物品的兴趣度排序,推荐最感兴趣的前N个物品。本发明有效提高推荐的覆盖率,增加了推荐物品的多样性。

Description

一种基于物品内容特征的改进协同过滤推荐方法
技术领域
本发明涉及商品推荐技术领域,特别是涉及一种基于物品内容特征的改进协同过滤推荐方法。
背景技术
推荐系统(Recommendation System,RS),简单来说就是根据用户的日常行为,自动预测用户的喜好,为用户提供更多完善的服务。协同过滤技术是目前推荐系统中最成功和应用最广泛的技术,在理论研究和实践中都取得了快速的发展,它根据用户的历史选择信息和相似性关系,收集与用户兴趣爱好相同的其他用户的评价信息来产生推荐。推荐系统使用了一系列不同的技术,主要可以分为以下两类:基于内容(content-based)的推荐,主要依据的是推荐项的性质。基于协同过滤(collaborative filtering)的推荐,主要依据的是用户或者物品之间的相似性。而基于协同过滤的推荐系统用可以分为两类:基于物品(item-based)的推荐系统,主要依据的是物品与物品之间的相似性。基于用户(user-based)的推荐系统,主要依据的是用户与用户之间的相似性。
发明内容
本发明所要解决的技术问题是提供一种基于物品内容特征的改进协同过滤推荐方法,能够增加推荐物品的多样性。
本发明解决其技术问题所采用的技术方案是:提供一种基于物品内容特征的改进协同过滤推荐方法,包括以下步骤:
(1)读取数据集,并拆分数据集,获取用户评分记录以及物品点击量数据;
(2)计算物品与物品之间的共现矩阵以及每个物品点击量均值;
(3)计算物品点击量影响因子;
(4)物品相似度与物品点击量影响因子相乘得到改进后的物品相似度,最终生成相似度矩阵;
(5)针对目标用户,找到K个相似的物品,计算用户对相似的物品的兴趣程度;
(6)根据用户对相似的物品的兴趣度进行排序,推荐最感兴趣的前N个物品。
所述步骤(4)中物品相似度计算方式为:
Figure GDA0003243462790000021
其中,N(i)是喜欢物品i的用户集合,N(j)是喜欢物品j的用户集合,N(u)表示用户喜欢的物品集合,S为物品点击量影响因子。
所述步骤(5)中用户对相似的物品的兴趣程度的计算方式为:
Figure GDA0003243462790000022
其中,Puj表示用户u对物品j的兴趣,N(u)表示用户喜欢的物品集合,S(j,k)表示和物品j最相似的K个物品集合,wji表示物品j和物品i的相似度,rui表示用户u对物品i的兴趣。
有益效果
由于采用了上述的技术方案,本发明与现有技术相比,具有以下的优点和积极效果:本发明通过引入用户活跃度对数的倒数和物品特征内容影响因子来修正物品相似度,从而有效提高推荐的覆盖率,即增加了推荐物品的多样性。
附图说明
图1是本发明的流程图;
图2是本发明与现有技术在不同k值下的评测指标对比图。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
本发明的实施方式涉及一种基于物品内容特征的改进协同过滤推荐方法,如图1所示,包括以下步骤:读取数据集,并拆分数据集,获取用户评分记录以及物品点击量数据;计算物品与物品之间的共现矩阵以及每个物品点击量均值;计算物品点击量影响因子,该因子与物品之间的点击量差值成反相关;物品相似度与物品点击量因子相乘得到改进后的物品相似度,最终生成相似度矩阵;针对目标用户,找到K个相似的物品,根据兴趣度计算公式计算用户对物品的兴趣程度;最后根据用户对物品的兴趣度排序,推荐最感兴趣的前N个物品。
本实施方式的主要内容如下:
1)物品相似度初步定义:
Figure GDA0003243462790000031
其中,N(i)是喜欢物品i的用户集合,|N(i)∩N(j)|是同时喜欢物品i和物品j的用户集合。分母是惩罚物品i和j的权重,因此惩罚了热门物品和很多物品相似的可能性。
2)在得到物品相似度之后,ItemCF通过以下公式计算用户u对未产生行为的物品j的感兴趣程度。
Figure GDA0003243462790000032
其中,Puj表示用户u对物品j的兴趣,N(u)表示用户喜欢的物品集合,S(j,k)表示和物品j最相似的k个物品集合(j是这个集合中的某一个物品),wji表示物品j和物品i的相似度,rui表示用户u对物品i的兴趣(对于隐反馈数据集,如果用户u对物品i有过行为,即可令rui=1。)该公式的含义是,和用户历史上感兴趣的物品越相似的物品,越有可能在用户的推荐列表中获得比较高的排名。
3)两个物品之间相似度的产生是由于用户同时对它们都感兴趣,仅仅计算余弦相似度显得过于粗糙。本实施方式引入用户活跃度对数的倒数和物品特征内容(点击量)影响因子S来修正物品相似度Wij
Figure GDA0003243462790000033
从公式中可以看出,
Figure GDA0003243462790000034
对活跃用户做出了相应的惩罚。
4)利用改进的相似度计算公式计算物品与物品之间的相似度矩阵,并进行归一化处理。
5)最后根据Puj计算用户对物品的兴趣程度,并推荐用户最感兴趣的N的物品。
下面通过一个具体的实施例来进一步说明本发明。
相似度计算是协同过滤算法的核心步骤之一,采用不同的相似度计算方式,最终的推荐结果均不一致。但是在实际购物中,有些商品是用户经常需要购买的,比如蔬菜、肉类、常见水果等,如果每个用户每天都喜欢购买一种商品,那么不同种类商品中最热门的两个商品相似度会很高。这类问题被称为哈利波特问题,因为《哈利波特》这本书实在太过于热门。
为了继续优化基于物品的协同过滤算法,本实施例提出了引入与物品相关的内容数据来解决该问题。根据普通用户购物习惯,在登录网上商城首页后,首先会浏览整个商城有哪些商品,然后选择自己需要或者喜欢的商品,最终实际购买的商品并不会很多。但是用户却在购物的过程点击浏览了很多商品,用户的点击量一定程度也反映了该商品的受关注程度。基于上述分析,在计算商品相似度过程中引入商品点击量影响因子。假设物品A和物品B的用户点击量分别是ca和cb,A和B的点击量越相近,物品相似度的影响因子越大,反之,影响因子则变小。为了提高推荐结果的准确性和多样性,在较为冷门的商品中,最应该推荐的是点击量较高的商品。定义商品点击量均值为
Figure GDA0003243462790000041
商品点击量影响因子定义为:
Figure GDA0003243462790000042
则改进后的物品相似度计算公式为:
Figure GDA0003243462790000043
如图2所示,与现有技术对比来看,在使得现有算法性能最好的K值下,改进后的推荐方法准确率和召回率相近,但是覆盖率要比现有算法的指标好的多,因此具有良好的应用价值。

Claims (3)

1.一种基于物品内容特征的改进协同过滤推荐方法,其特征在于,包括以下步骤:
(1)读取数据集,并拆分数据集,获取用户评分记录以及物品点击量数据;
(2)计算物品与物品之间的共现矩阵以及基于每个物品的点击量计算物品点击量均值;
(3)通过
Figure FDA0003243462780000011
计算物品点击量影响因子,其中,S为物品点击量影响因子,Ca为物品A的用户点击量,Cb为物品B的用户点击量,Cavg为物品点击量均值;
(4)将所述物品与物品之间的共现矩阵与所述物品点击量影响因子相乘得到改进后的物品相似度,最终生成相似度矩阵;
(5)针对目标用户,找到K个相似的物品,计算用户对相似的物品的兴趣程度;
(6)根据用户对相似的物品的兴趣度进行排序,推荐最感兴趣的前N个物品。
2.根据权利要求1所述的基于物品内容特征的改进协同过滤推荐方法,其特征在于,所述步骤(4)中物品相似度计算方式为:
Figure FDA0003243462780000012
其中,N(i)是喜欢物品i的用户集合,N(j)是喜欢物品j的用户集合,N(u)表示用户喜欢的物品集合。
3.根据权利要求1所述的基于物品内容特征的改进协同过滤推荐方法,其特征在于,所述步骤(5)中用户对相似的物品的兴趣程度的计算方式为:
Figure FDA0003243462780000013
其中,Puj表示用户u对物品j的兴趣,N(u)表示用户喜欢的物品集合,S(j,k)表示和物品j最相似的K个物品集合,wji表示物品j和物品i的相似度,rui表示用户u对物品i的兴趣。
CN201810332332.8A 2018-04-13 2018-04-13 一种基于物品内容特征的改进协同过滤推荐方法 Active CN108664564B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810332332.8A CN108664564B (zh) 2018-04-13 2018-04-13 一种基于物品内容特征的改进协同过滤推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810332332.8A CN108664564B (zh) 2018-04-13 2018-04-13 一种基于物品内容特征的改进协同过滤推荐方法

Publications (2)

Publication Number Publication Date
CN108664564A CN108664564A (zh) 2018-10-16
CN108664564B true CN108664564B (zh) 2021-12-21

Family

ID=63782393

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810332332.8A Active CN108664564B (zh) 2018-04-13 2018-04-13 一种基于物品内容特征的改进协同过滤推荐方法

Country Status (1)

Country Link
CN (1) CN108664564B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109862431B (zh) * 2019-01-23 2023-09-29 重庆第二师范学院 一种基于mcl-hcf算法的电视节目混合推荐方法
CN110188267A (zh) * 2019-05-19 2019-08-30 青岛民航凯亚系统集成有限公司 一种基于旅客市场行为特征建立自助服务的系统
CN110210905A (zh) * 2019-05-31 2019-09-06 拉扎斯网络科技(上海)有限公司 特征相似度计算方法、装置、电子设备及计算机存储介质
CN111695005A (zh) * 2020-06-02 2020-09-22 武汉大势智慧科技有限公司 一种互联网用户访问轨迹行为大数据分析算法的应用方法
CN112115379A (zh) * 2020-09-18 2020-12-22 吉林农业大学 基于知识图谱的水稻品种选择方法和装置
CN112182397A (zh) * 2020-10-12 2021-01-05 北京自如信息科技有限公司 物品推荐方法、装置、电子设备及可读存储介质
CN112861019A (zh) * 2021-01-27 2021-05-28 山东师范大学 基于惩罚课程热力度和用户活跃度的课程推荐方法及系统
CN113254789B (zh) * 2021-06-30 2021-09-17 中国气象局公共气象服务中心(国家预警信息发布中心) 一种推送气象服务内容的方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103309967A (zh) * 2013-06-05 2013-09-18 清华大学 基于相似性传递的协同过滤方法及系统
CN103440335A (zh) * 2013-09-06 2013-12-11 北京奇虎科技有限公司 视频推荐方法及装置
CN103559206A (zh) * 2013-10-10 2014-02-05 Tcl集团股份有限公司 一种信息推荐方法及系统
CN103824213A (zh) * 2014-03-13 2014-05-28 北京理工大学 一种基于用户偏好与商品属性的个性化推荐方法
CN104598643A (zh) * 2015-02-13 2015-05-06 成都品果科技有限公司 一种物品相似度贡献系数、相似度获取方法及物品推荐方法及其系统
CN105404700A (zh) * 2015-12-30 2016-03-16 山东大学 一种基于协同过滤的视频栏目推荐系统及推荐方法
CN107451882A (zh) * 2017-06-30 2017-12-08 昆明理工大学 一种基于Copeland社会选择理论的在线商品群体评价方法
CN107451267A (zh) * 2017-08-01 2017-12-08 东北大学 一种基于Spark平台的分布式推荐方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9519859B2 (en) * 2013-09-06 2016-12-13 Microsoft Technology Licensing, Llc Deep structured semantic model produced using click-through data

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103309967A (zh) * 2013-06-05 2013-09-18 清华大学 基于相似性传递的协同过滤方法及系统
CN103440335A (zh) * 2013-09-06 2013-12-11 北京奇虎科技有限公司 视频推荐方法及装置
CN103559206A (zh) * 2013-10-10 2014-02-05 Tcl集团股份有限公司 一种信息推荐方法及系统
CN103824213A (zh) * 2014-03-13 2014-05-28 北京理工大学 一种基于用户偏好与商品属性的个性化推荐方法
CN104598643A (zh) * 2015-02-13 2015-05-06 成都品果科技有限公司 一种物品相似度贡献系数、相似度获取方法及物品推荐方法及其系统
CN105404700A (zh) * 2015-12-30 2016-03-16 山东大学 一种基于协同过滤的视频栏目推荐系统及推荐方法
CN107451882A (zh) * 2017-06-30 2017-12-08 昆明理工大学 一种基于Copeland社会选择理论的在线商品群体评价方法
CN107451267A (zh) * 2017-08-01 2017-12-08 东北大学 一种基于Spark平台的分布式推荐方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Hybrid recommendation model based on incremental collaborative filtering and content-based algorithms";Haiming Wang 等;《2017 IEEE 21st International Conference on Computer Supported Cooperative Work in Design (CSCWD)》;20171016;第337-342页 *
"基于评分差异度和用户偏好的协同过滤算法";党博 等;《计算机应用》;20160410;第36卷(第4期);第1050-1053页 *
"基于评分矩阵填充与用户兴趣的协同过滤推荐算法";韩亚楠 等;《计算机工程》;20160131;第42卷(第1期);第36-40页 *

Also Published As

Publication number Publication date
CN108664564A (zh) 2018-10-16

Similar Documents

Publication Publication Date Title
CN108664564B (zh) 一种基于物品内容特征的改进协同过滤推荐方法
CN108629665B (zh) 一种个性化商品推荐方法和系统
US10846775B1 (en) Identifying item recommendations through recognized navigational patterns
Sivapalan et al. Recommender systems in e-commerce
CN109064285B (zh) 一种获得商品推荐序列及商品推荐方法
CN107833117B (zh) 一种考虑标签信息的贝叶斯个性化排序推荐方法
US10290039B2 (en) System and method for automating market analysis from anonymous behavior profiles
CN108876537B (zh) 一种用于网上商场系统的混合推荐方法
CN103886487A (zh) 基于分布式的b2b平台的个性化推荐方法与系统
Shih et al. Hybrid recommendation approaches: collaborative filtering via valuable content information
CN102902691A (zh) 推荐方法及系统
TW201501059A (zh) 訊息推薦方法及裝置
CN110473040B (zh) 一种产品推荐方法及装置,电子设备
CN110175895B (zh) 一种物品推荐方法及装置
CN103246980A (zh) 信息输出方法及服务器
CN108109058B (zh) 一种融合人格特质和物品标签的单分类协同过滤方法
CN103559622A (zh) 基于特征的协同过滤推荐方法
CN105630836A (zh) 搜索结果的排序方法和装置
CN116385048B (zh) 一种农产品智慧营销方法和系统
CN113065062A (zh) 一种基于用户阅读时间行为的新闻推荐方法及系统
CN111310046A (zh) 对象推荐方法及装置
Bhat et al. Item-based hybrid recommender system for newly marketed pharmaceutical drugs
KR101637986B1 (ko) 최적 상품 제공 시스템 및 그 방법
CN112734511A (zh) 一种基于电商系统商品搜索推荐方法及应用
CN112381627B (zh) 育儿知识下的商品评分处理推荐方法、装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant