CN106844433A - 基于用户数量调整系数的推荐方法 - Google Patents

基于用户数量调整系数的推荐方法 Download PDF

Info

Publication number
CN106844433A
CN106844433A CN201611152463.5A CN201611152463A CN106844433A CN 106844433 A CN106844433 A CN 106844433A CN 201611152463 A CN201611152463 A CN 201611152463A CN 106844433 A CN106844433 A CN 106844433A
Authority
CN
China
Prior art keywords
item
user
users
represent
regulation coefficient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611152463.5A
Other languages
English (en)
Inventor
尹云飞
严宽
曾亚飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Inspur Electronic Information Industry Co Ltd
Original Assignee
Chongqing University
Langchao Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University, Langchao Electronic Information Industry Co Ltd filed Critical Chongqing University
Priority to CN201611152463.5A priority Critical patent/CN106844433A/zh
Publication of CN106844433A publication Critical patent/CN106844433A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Accounting & Taxation (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Finance (AREA)
  • Artificial Intelligence (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Human Computer Interaction (AREA)
  • Marketing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于用户数量调整系数的推荐方法,属于智能推荐领域,来源于智能搜索系统的构建和使用实践。该方法对基于Item的推荐进行改进,通过对Item之间的相似度计算以及用户的喜好模型的建立,提出了一种用户数量自适应的推荐方法。它的特点是可以针对用户数量来动态调整Item之间的相似度。

Description

基于用户数量调整系数的推荐方法
技术领域
本发明属于智能推荐领域,来源于用户特性与行为分析的智能搜索系统的构建和使用实践。本发明既可以用于改进智能搜索引擎又可以用于商业产品和服务的促销分析。
背景技术
信息时代显著的特点是产生的数据规模不断上升,如何在这些海量数据中找出用户最感兴趣的信息并展示在用户面前成了当今比较热门的技术。在海量数据中,如果用户不能很确切的用关键字描述出自己的需求,则很难筛选和检索出自己真正感兴趣的信息。正是在这种需求背景下,智能推荐系统就应运而生了。智能推荐系统不仅仅能快速准确地找到用户需要的信息,而且还能找出信息与用户之间的某种潜在联系。
在智能推荐领域中,目前常用的推荐方法有三种:
(1)基于内容的推荐
基于内容的推荐主要是在信息过滤发展的基础上对文本进行自然语言处理,实现对文本的挖掘。它不需要根据用户的评价意见来实现推荐,一般是通过对文本分析找出内容的关键字并根据关键字计算出文章的相似度矩阵,只要知道用户喜欢什么就能很快地推荐出与用户相关的内容。
基于内容的推荐存在以下优点:它不需要得到用户的其他数据,比如评价信息、打分信息,就能对用户进行相关推荐;它可以推荐出那些没有被用户评价过的新项目;针对用户特征明显的用户能进行一个比较好的推荐。
(2)基于用户的推荐
基于用户的推荐采用最近邻技术,通过对用户历史的评价信息计算出用户与用户之间的相似程度,利用与目标用户相似程度最大的邻居用户对Item(指商品或服务,下同)的评价来得出目标用户对该Item的预测打分。它的基本思想就是找到与目标用户相似的用户,通过选出相似用户喜欢的Item推荐给目标用户,但由于用户信息往往是不断增长、数据量较大的,所以必须较为频繁地计算用户与用户的相似矩阵,这样的计算量是非常大的。
基于用户的推荐存在以下优点:它可以推荐出文本内容较为复杂、不容易做文本分析的Item;它可以更为精准的向用户推荐相关信息;它的处理方式较为简单,不需要做非常复杂的文本处理和分析。
(3)基于Item的推荐
基于Item的推荐是计算Item与Item之间的相似矩阵,选择相似的Item进行推荐。由于Item的增长速度远远不如用户的增长速度,Item之间相似矩阵的计算量也远远低于用户之间相似矩阵的计算量,所以Item之间的相似矩阵可以通过离线的方式进行计算以提供给线上服务接近实时的推荐。
基于Item的推荐存在以下优点:它可以通过用户对Item的评价信息计算出Item与Item之间的相似矩阵,可以有效的推荐出与用户潜在相关的Item;相似度的计算量大大减小。
通过对各种推荐方法的调研,发现当前大部分的推荐方法都有改进的空间,尤其是基于Item的推荐忽略了用户数量不断增长的事实造成了在实际应用中不理想的现象。我们发明一种基于用户数量调整系数的推荐方法,在实际推荐时,提高了推荐的准确度。
发明内容
本发明公开了一种基于用户数量调整系数的推荐方法。本发明对基于Item的推荐进行改进,通过对Item之间的相似度计算以及用户的喜好模型的建立,提出了一种用户数量自适应的推荐方法。它的特点是可以针对用户数量来动态调整Item之间的相似度计算。
下面具体设计这种基于用户数量调整系数的推荐方法:
(1)用户数量调整系数
针对用户u同时对m、n两个Item评过分的用户集合大小和总的用户集合大小是随机变换的,引进用户数量调整系数α:
其中u∈m,n表示同时对m、n两个Item评过分的用户集合;u∈m表示只对m这个Item评过分的用户集合;u∈n表示只对n这个Item评过分的用户集合。
(2)相似度的计算
对于相似度的计算,如果距离越小表明相似度越小,距离越大表明相似度越大。在基于Item的推荐方法中,我们通过计算Item与Item之间的向量距离来表明Item与Item的相似度。
(3)欧几里德距离(Educlidean Distance)
欧几里德距离也称为欧式距离,其计算公式如下:
当用欧几里德距离表示相似度时,其公式为:
(4)皮尔逊相关系数(Pearson Correlation Similarity)
皮尔森相关系数也称为皮尔逊积矩相关系数,它主要用于衡量两个变量间的线性相关度的强弱。它的取值在[-1,+1]之间,若取值大于0则表明两个变量是正相关的,即一个变量的值随着另一个变量的值的增大而增大;若取值小于0则表明两个变量是负相关的,即一个变量的值随着另一个变量的值的增大而减小。皮尔逊相关系数的计算公式如下:
其中,n表示了X、Y集合的大小;xi表示数据集X中的第i个点;yi表示数据集Y中的第i个点。
(5)Cosine相似度
Cosine相似度又称为余弦函数,它的计算公式如下:
其中,A和B表示两个向量。
一种基于用户数量调整系数的推荐方法包括如下步骤:
第一步:在用户评论数据中找到了用户进行评论过的Item以及还没有评论过的Item,前者主要用于对没有评论过的Item进行推荐训练,后者作为一个产生推荐的集合;
第二步:对数据进行清洗过滤、针对用户属性进行属性约减,使得后面的推荐计算更加高效、准确;
第三步:根据用户的评论数据,计算出关系矩阵,通过计算两个Item间的共同用户以及共同用户的评价的接近度,来实现关系数据的计算;
第四步:计算Item之间的相似度sim(m,n),相似度的计算方式为:
其中u∈m,n表示同时对m、n两个Item评过分的用户集合;u∈m表示只对m这个Item评过分的用户集合;u∈n表示只对n这个Item评过分的用户集合;Ru,m表示用户u对m这个Item的评分;Ru,n表示用户u对n这个Item的评分;表示对n的平均得分,表示对m的平均得分;
第五步:计算用户数量调整系数α。
第六步:计算动态相似度α*sim(m,n)。
第七步:计算用户userIdi对itemIdi的预测评分,计算公式如下:
其中rate(u,m)表示用户u对m的预测评分;表示商品m的所有评分的平均评分;n∈Nu表示用户u评过分的商品中,与商品m相似度最高的前topN个Item的集合;sim(m,n)′表示商品m和商品n的动态相似度;Ru,n表示用户u对商品n的评分;
第八步:按照预测评分从大到小进行排序,选取前topN个作为推荐Item。
附图说明
以下参考附图是对本发明的结构和工作流程进行说明,其中:
图1是基于用户数量调整系数的推荐方法的流程图
具体实施方式
下面结合附图来对本发明所述的“基于用户数量调整系数的推荐方法”的实施方式作进一步的说明。
(1)读入训练数据到userData、itemData
训练数据包括userId、itemId和rate。每个用户对所有Item的评分情况保存在userCollect中,userData记录了所有用户对所有Item的评分情况;每个用户对所有Item评分的平均值保存在userCollectAvg中;每个Item被所有用户评分的情况保存在itemCollect中;itemData记录了每个Item被所有用户评分的情况;每个Item被所有用户评分的平均值保存在itemCollectAvg中。
(2)读入预测数据到predictData
预测数据包括userId,itemId,realRate,其中realRate用于与预测值做对比。
(3)设置系统参数
系统参数包括用户评价过的Item与目标Item相似度最高的前topN个,例如topN=30;默认用户对item的评分default_m,例如default_m=3;最终选出的最高预测得分的Item数目sug_num,例如sug_num=5。
(4)预测用户对predictData中的每个itemId的评分
对于每一个predictData中每一个sug_num、itemIdi、realRatei
如果itemData中是否不包含itemIdi的评分,即没有用户对itemIdi评分且userData中不包含userIdi的评分,即userIdi没有对任何Item评分,那么此时的评分为default_m;
否则,若itemData中不包含对itemIdi的评分,即没有用户对itemIdi评分且userData中包含userIdi的评分,即userIdi对某些Item评分,但不包含对itemIdi的评分,那么此时的评分取userCollectAvgi,即对itemIdi的预测的评分为userIdi做过所有评分的平均值;
否则,如果itemData中包含了对itemIdi的评分,即有用户对itemIdi评分且userIdi对itemIdi有评分,则此时的评分为该用户对该itemIdi的评分;
否则计算Item之间的相似度sim(m,n),即:
其中u∈m,n表示同时对m、n两个Item评过分的用户集合;u∈m表示只对m这个Item评过分的用户集合;u∈n表示只对n这个Item评过分的用户集合;Ru,m表示用户u对m这个Item的评分;Ru,n表示用户u对n这个Item的评分;表示商品n的平均得分;表示商品m的平均得分
由于用户u同时对m、n两个Item评过分的用户集合大小和总的用户集合大小是随机变化的,通过用户系数调整因子α来反映这种变化:
计算新的相似度:
计算用户userIdi对itemIdi的预测评分,计算公式如下:
其中rate(u,m)表示用户u对m的预测评分;表示商品m的所有评分的平均评分;n∈Nu表示用户u评过分的商品中,与商品m相似度最高的前topN个Item的集合;sim(m,n)表示商品m和商品n的相似度;Ru,n表示用户u对商品n的评分;
(5)得到rate最高的前topN个Item,推荐给用户。

Claims (3)

1.基于用户数量调整系数的推荐方法,改进了基于Item的推荐方法,增加了用户数量调整系数[1],提出用户集合动态变化的相似度计算方法[2]。
2.根据权利要求1所述的基于用户数量调整系数的推荐方法,其特征在于:增加了用户数量调整系数[1],用户调整系数α计算方法如下:
α = | u ∈ m , n | | u ∈ m ∪ u ∈ n |
其中,u∈m,n表示同时对m、n两个Item评过分的用户集合;u∈m表示只对m这个Item评过分的用户集合;u∈n表示只对n这个Item评过分的用户集合。
3.根据权利要求1所述的基于用户数量调整系数的推荐方法,其特征在于:用户集合动态变化的相似度计算方法[2]为:
s i m ( m , n ) = α × Σ u ∈ m , n ( R u , m - R m ‾ ) ( R u , n - R n ‾ ) Σ u ∈ m , n ( R u , m - R m ‾ ) 2 Σ u ∈ m , n ( R u , n - R n ‾ ) 2
其中,α为用户调整系数;u∈m,n表示同时对m、n两个Item评过分的用户集合;u∈m表示只对m这个Item评过分的用户集合;u∈n表示只对n这个Item评过分的用户集合;Ru,m表示用户u对m这个Item的评分;Ru,n表示用户u对n这个Item的评分;表示n这个Item的平均得分;表示m这个Item的平均得分。
CN201611152463.5A 2016-11-30 2016-11-30 基于用户数量调整系数的推荐方法 Pending CN106844433A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611152463.5A CN106844433A (zh) 2016-11-30 2016-11-30 基于用户数量调整系数的推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611152463.5A CN106844433A (zh) 2016-11-30 2016-11-30 基于用户数量调整系数的推荐方法

Publications (1)

Publication Number Publication Date
CN106844433A true CN106844433A (zh) 2017-06-13

Family

ID=59139948

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611152463.5A Pending CN106844433A (zh) 2016-11-30 2016-11-30 基于用户数量调整系数的推荐方法

Country Status (1)

Country Link
CN (1) CN106844433A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111652669A (zh) * 2020-04-15 2020-09-11 珠海小礼鱼科技有限公司 一种智能终端导购系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130103609A1 (en) * 2011-10-20 2013-04-25 Evan R. Kirshenbaum Estimating a user's interest in an item
CN104899246A (zh) * 2015-04-12 2015-09-09 西安电子科技大学 基于模糊机制用户评分邻域信息的协同过滤推荐方法
CN106021329A (zh) * 2016-05-06 2016-10-12 西安电子科技大学 基于用户相似度的稀疏数据协同过滤推荐方法
CN106056476A (zh) * 2016-06-06 2016-10-26 国家电网公司 一种电力市场多层协同信息服务的推荐方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130103609A1 (en) * 2011-10-20 2013-04-25 Evan R. Kirshenbaum Estimating a user's interest in an item
CN104899246A (zh) * 2015-04-12 2015-09-09 西安电子科技大学 基于模糊机制用户评分邻域信息的协同过滤推荐方法
CN106021329A (zh) * 2016-05-06 2016-10-12 西安电子科技大学 基于用户相似度的稀疏数据协同过滤推荐方法
CN106056476A (zh) * 2016-06-06 2016-10-26 国家电网公司 一种电力市场多层协同信息服务的推荐方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
张小红: "协同过滤中的相似性度量方法的研究", 《无线电通信技术》 *
李镇东等: "基于增加相似度系数的加权二部图推荐算法", 《计算机科学》 *
滕少华等: "一种基于混合相似度的用户多兴趣推荐算法", 《江西师范大学学报(自然科学版)》 *
王晓堤等: "基于云模型的时间修正协同过滤推荐算法", 《计算机工程与科学》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111652669A (zh) * 2020-04-15 2020-09-11 珠海小礼鱼科技有限公司 一种智能终端导购系统及方法

Similar Documents

Publication Publication Date Title
CN104935963B (zh) 一种基于时序数据挖掘的视频推荐方法
CN102929928B (zh) 基于多维相似度的个性化新闻推荐方法
US9104733B2 (en) Web search ranking
CN102253982B (zh) 一种基于查询语义和点击流数据的查询建议方法
CN104866474B (zh) 个性化数据搜索方法及装置
CN109543109B (zh) 一种融合时间窗技术和评分预测模型的推荐算法
CN103246980B (zh) 信息输出方法及服务器
CN104834686A (zh) 一种基于混合语义矩阵的视频推荐方法
CN104050258B (zh) 一种基于兴趣群组的群体推荐方法
CN105426528A (zh) 一种商品数据的检索排序方法及系统
CN104063481A (zh) 一种基于用户实时兴趣向量的电影个性化推荐方法
CN106471491A (zh) 一种时变的协同过滤推荐方法
CN104281956A (zh) 基于时间信息的适应用户兴趣变化的动态推荐方法
CN105843799B (zh) 一种基于多源异构信息图模型的学术论文标签推荐方法
CN104899246A (zh) 基于模糊机制用户评分邻域信息的协同过滤推荐方法
CN106021329A (zh) 基于用户相似度的稀疏数据协同过滤推荐方法
Aiolli A Preliminary Study on a Recommender System for the Million Songs Dataset Challenge.
CN102609533A (zh) 一种基于核方法的协同过滤推荐系统及方法
CN107274242A (zh) 一种基于关联分析算法的商品推荐方法
CN101853470A (zh) 一种基于社会化标签的协同过滤方法
CN108198045A (zh) 基于电子商务网站数据挖掘的混合推荐系统的设计方法
CN114399251B (zh) 基于语义网和簇偏好的冷链物流推荐方法及装置
CN105095476A (zh) 基于Jaccard均衡距离的协同过滤推荐方法
CN105338408B (zh) 基于时间因子的视频推荐方法
CN108874916A (zh) 一种层叠组合协同过滤推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170613