CN114510645A - 一种基于提取有效多目标群组来解决长尾推荐问题的方法 - Google Patents

一种基于提取有效多目标群组来解决长尾推荐问题的方法 Download PDF

Info

Publication number
CN114510645A
CN114510645A CN202210363831.XA CN202210363831A CN114510645A CN 114510645 A CN114510645 A CN 114510645A CN 202210363831 A CN202210363831 A CN 202210363831A CN 114510645 A CN114510645 A CN 114510645A
Authority
CN
China
Prior art keywords
user
long
tail
recommendation
items
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210363831.XA
Other languages
English (en)
Other versions
CN114510645B (zh
Inventor
金苍宏
邵育华
何琴芳
缪锋
王硕苹
吴明晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University City College ZUCC
Original Assignee
Zhejiang University City College ZUCC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University City College ZUCC filed Critical Zhejiang University City College ZUCC
Priority to CN202210363831.XA priority Critical patent/CN114510645B/zh
Publication of CN114510645A publication Critical patent/CN114510645A/zh
Application granted granted Critical
Publication of CN114510645B publication Critical patent/CN114510645B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于提取有效多目标群组来解决长尾推荐问题的方法,S1:获取历史评分数据集:S2:基于修正的余弦距离与欧氏距离构建用户二维加权相似度:S3:基于多目标优化器的重新排序模型寻找最佳的相似用户群组进行推荐。本发明充分挖掘了用户偏好,不仅仅是关注整体推荐的准确率,还考虑了长尾项目的准确率和覆盖率。

Description

一种基于提取有效多目标群组来解决长尾推荐问题的方法
技术领域
本发明涉及推荐决策系统技术领域,可用于商品推荐、行为决策、风险预警等领域。具体涉及一种基于提取有效多目标群组来解决长尾推荐问题的方法。
背景技术
在商品推荐、决策支持、风险预警等领域,如果存在大量的候选项时,如何选择合适的行为是一个难点,需要使用推荐系统。大多数传统推荐算法往往追求较高的推荐准确率,这导致热门选项的推荐率甚至超过了其实际受欢迎程度,而非热门选项的资源利用率和销售潜力则被忽略,这就是典型的长尾问题。例如,长尾商品往往代表了一些用户的个性化需求,而对于推荐算法来说,是否能够帮助系统挖掘出长尾商品也成为衡量的标准之一。近年来,人们提出了许多方法来解决长尾问题,包括多目标优化、图模型、聚类以及引入神经网络框架的深度学习方法。与传统的过于注重推荐的准确性而忽略长尾推荐能力的协同过滤算法相比,近年来的一些方法对长尾覆盖率有所提高,但进一步提高仍有挑战。在多目标优化中,增加目标函数会导致迭代次数多,训练速度慢,且难以调整多个目标之间的关系。在与神经网络相结合的协同过滤模型中,调整模型结构不可避免地会导致复杂模型下样本训练的难度和时间复杂度增加。而且,这两种方法在面对小样本数据时都不可避免地会遇到难以训练的问题。
发明内容
针对现有技术中存在的不足,本发明的目的在于提供一种基于提取有效多目标群组来解决长尾推荐问题的方法。本发明在用户决策偏好基础上,不仅仅是关注整体推荐的准确率,还考虑了长尾项目的准确率和覆盖率。
为解决上述技术问题,本发明通过下述技术方案实现:
一种基于提取有效多目标群组来解决长尾推荐问题的方法,包括以下步骤:
S1:获取历史评分数据集,提取出其中的用户评分记录,计算项目出现在用户评分记录中的频率,构建用户-项目评分矩阵,统计每个项目的评分次数,将长尾项目定义为:项目的评分次数低于用户对项目评分次数平均值的项目;
S2:构建用户二维加权相似度,并在每个用户的相似用户列表中按照二维加权相似度进行降序排序;
S3:基于多目标优化器的重新排序模型寻找最佳的相似用户群组进行推荐:
根据二维加权相似度降序排序后选定k个相似用户添加到列表中,将用户群组列表作为初始种群对象;
提出并选择流行度函数和长尾关注度函数作为多目标优化问题的目标函数,得到多目标优化方程组,从而构建多目标优化模型;
对多目标优化模型进行运算,在运算达到指定的迭代次数后,得到一组最优的pareto解即最优相似用户群组,利用这组解为目标用户生成推荐列表进行推荐。
进一步的:根据步骤S1中用户-项目评分矩阵,通过修正过的余弦相似度公式,计 算原始的用户相似度
Figure 469906DEST_PATH_IMAGE001
针对用户评分记录,根据评分降序排序后划分出长尾项目集,在长尾项目集中根据项目评分次数降序排序后,按照替换比例将列表中评分较低的热门项目替换为排序后的长尾项目集中评分较好的用户感兴趣的项目,从而得到重新构建的用户-项目评分矩阵;
根据重新构建的用户-项目评分矩阵,利用修正过的余弦相似度公式,计算替换后 的用户相似度
Figure 918205DEST_PATH_IMAGE002
Figure 340352DEST_PATH_IMAGE001
Figure 266720DEST_PATH_IMAGE003
Figure 487617DEST_PATH_IMAGE002
Figure 575659DEST_PATH_IMAGE004
构造二维加权相似度,坐标中的单个点
Figure 373850DEST_PATH_IMAGE005
代表为 单独个体用户,而点
Figure 713696DEST_PATH_IMAGE005
到原点
Figure 648154DEST_PATH_IMAGE006
的距离被视为二维相似距离;
为二维相似距离分配夹角角度的权重
Figure 172676DEST_PATH_IMAGE007
,对权重进行优化,根据优化后的 权重,按照二维相似距离对用户进行排序;
所述修正过的余弦相似度公式为:
Figure 333530DEST_PATH_IMAGE008
其中
Figure 336121DEST_PATH_IMAGE009
为项目
Figure 764566DEST_PATH_IMAGE010
的流行度,
Figure 459990DEST_PATH_IMAGE011
Figure 232774DEST_PATH_IMAGE012
分别表示两个用户,
Figure 648843DEST_PATH_IMAGE013
Figure 823472DEST_PATH_IMAGE014
分别表 示用户
Figure 565163DEST_PATH_IMAGE015
和用户
Figure 559664DEST_PATH_IMAGE016
曾经有过正反馈的物品集合;
综合考虑推荐的有效性,所述替换比例优化公式为:
Figure 904058DEST_PATH_IMAGE017
其中
Figure 808560DEST_PATH_IMAGE018
是用户集合,
Figure 845786DEST_PATH_IMAGE019
是用户
Figure 327583DEST_PATH_IMAGE020
评分过的项目集,
Figure 118078DEST_PATH_IMAGE021
是项目的长尾权重,
Figure 736141DEST_PATH_IMAGE022
是项目
Figure 85214DEST_PATH_IMAGE023
在项目集中出现的次数。
进一步的:通过余弦相似度计算替换前后的相似度
Figure 788728DEST_PATH_IMAGE024
Figure 740503DEST_PATH_IMAGE025
,并且以
Figure 354018DEST_PATH_IMAGE026
Figure 733047DEST_PATH_IMAGE003
Figure 189436DEST_PATH_IMAGE027
Figure 820269DEST_PATH_IMAGE028
构造二维加权相似度,利用欧几里得距离来计算构造得出的所述二维加权 相似度,所述欧几里得距离为:
Figure 412924DEST_PATH_IMAGE029
其中,坐标中的单个点
Figure 336755DEST_PATH_IMAGE030
代表为一个个体用户,
Figure 14861DEST_PATH_IMAGE031
Figure 574019DEST_PATH_IMAGE032
的距离被视为二 维相似距离。
进一步的:所述步骤S3中,为了找到最佳的相似用户群,在保证整体准确率的前提 下提高长尾推荐的覆盖率和准确率,提出并选择流行度
Figure 896547DEST_PATH_IMAGE033
函数和长尾关注度
Figure 617378DEST_PATH_IMAGE034
函数 作为多目标优化问题的目标函数;
所述流行度
Figure 923726DEST_PATH_IMAGE033
函数为:
Figure 755415DEST_PATH_IMAGE035
其中
Figure 588242DEST_PATH_IMAGE036
是相似用户组推荐的项目集,
Figure 89762DEST_PATH_IMAGE037
是项目
Figure 8039DEST_PATH_IMAGE038
在数据集中被评分的数 目,
Figure 643420DEST_PATH_IMAGE039
表示
Figure 442005DEST_PATH_IMAGE038
是热门商品或长尾商品时的权重;
所述长尾关注度
Figure 770218DEST_PATH_IMAGE034
函数为:
Figure 520000DEST_PATH_IMAGE040
其中
Figure 959071DEST_PATH_IMAGE036
是相似用户组推荐的项目集,
Figure 500911DEST_PATH_IMAGE041
是项目的权重函数,
Figure 875392DEST_PATH_IMAGE042
是 用户对项目的评分;
所述多目标优化方程组为:
Figure 237103DEST_PATH_IMAGE043
其中,
Figure 355232DEST_PATH_IMAGE044
表示其中一个目标函数以长尾关注度
Figure 485999DEST_PATH_IMAGE034
函数的负值为优化方向,
Figure 156014DEST_PATH_IMAGE045
表示另一个目标函数以流行度
Figure 378923DEST_PATH_IMAGE046
函数的正值为优化方向,构建
Figure 159797DEST_PATH_IMAGE044
Figure 410650DEST_PATH_IMAGE045
的方程组,
Figure 126933DEST_PATH_IMAGE047
表示多目标优化要能够让两个目标函数都达到最小值,即增加对长尾的关注,降低整体的 流行度。
进一步的:所述步骤S3中,融入Non dominated sorting genetic algorithm -II算法进行运算,加入群组的概念,将种群对象初始化为N个不同的相似用户群组,每个种群都是个群组向量,将寻找最优相似用户群组转化为求解pareto最优解。
本发明的第二个目的在于,提供一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述中任一所述的方法。
本发明的第三个目的在于,提供一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述中任一所述的方法。
本发明与现有技术相比,具有以下优点及有益效果:
本发明通过构建二维加权相似度充分探索用户偏好以挖掘更多的可能感兴趣的长尾项目,并结合基于多目标优化器的重新排序模型寻找最佳的相似用户群组进行推荐,考虑了长尾项目的准确率和覆盖率,而不是仅仅关注整体推荐的准确率,本发明在预测精度和覆盖率指标上同其他方法相比效果提升明。
附图说明
图1是本发明基于提取有效的多目标群组来解决长尾推荐问题的推荐方法的推荐模型示意图;
图2是本发明与现有技术在不同
Figure 463237DEST_PATH_IMAGE048
值下的评测指标
Figure 923168DEST_PATH_IMAGE049
对比图;
图3是本发明与现有技术在不同
Figure 28527DEST_PATH_IMAGE050
值下的评测指标
Figure 774766DEST_PATH_IMAGE051
对比图。
具体实施方式
为了使本领域的技术人员更好地理解本发明的技术方案,下面结合具体实施例对本发明的优选实施方案进行描述,但是应当理解,附图仅用于示例性说明,不能理解为对本发明的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明,不能理解为对本发明的限制。
下面结合附图和实施例对本发明作进一步的说明,但并不作为对本发明限制的依据。
如图1至图3所示,一种基于提取有效多目标群组来解决长尾推荐问题的方法,包括如下步骤:
S1:获取历史评分数据集,提取出其中的用户评分记录,
在本发明中历史评分数据集可以采用公开的Movielens 1M数据集与Yahoo 数据集;
读取数据集,获取用户评分记录以及项目评分记录;
计算项目出现在用户评分记录中的频率,统计每个项目的评分次数,将长尾项目定义为: 项目的评分次数低于用户对项目评分次数平均值的项目;
S2:构建用户二维加权相似度,并在每个用户的相似用户列表中按照二维加权相似度进行降序排序;
根据步骤S1中用户-项目评分矩阵,通过修正过的余弦相似度公式,计算原始的用 户相似度
Figure 473732DEST_PATH_IMAGE052
针对用户评分记录,根据评分降序排序后划分出长尾项目集,在长尾项目集中根据项目评分次数降序排序后,按照替换比例将列表中评分较低的热门项目替换为排序后的长尾项目集中评分较好的用户感兴趣的项目,从而得到重新构建的用户-项目评分矩阵;
设置替换比例旨在通过替换用户-项目列表中的热门项,使得产生一个新的用户-项目列表,根据两个列表进行推荐能够关注到更多的长尾项而不只会过多的关注热门项,但是比例的优化需要考虑到最终推荐的覆盖率和准确率,衡量推荐的新颖性,设置过高或过低的比例都会导致低效益的推荐;
根据重新构建的用户-项目评分矩阵,利用修正过的余弦相似度公式,计算替换后 的用户相似度
Figure 596409DEST_PATH_IMAGE053
给定用户
Figure 821854DEST_PATH_IMAGE054
Figure 369686DEST_PATH_IMAGE055
Figure 680581DEST_PATH_IMAGE056
,
Figure 482315DEST_PATH_IMAGE014
分别表示他们有正反馈的项目集。修正的余 弦距离公式表示为:
Figure 296688DEST_PATH_IMAGE057
其中
Figure 915888DEST_PATH_IMAGE058
为项目
Figure 323866DEST_PATH_IMAGE059
的流行度。当两个用户在长尾项目上具有相似的行为,可以认 为两个用户的兴趣更加相似;
Figure 53925DEST_PATH_IMAGE060
Figure 722804DEST_PATH_IMAGE061
Figure 388271DEST_PATH_IMAGE062
Figure 673759DEST_PATH_IMAGE063
构造二维加权相似度,坐标中的单个点
Figure 50252DEST_PATH_IMAGE064
代表为一个个 体用户,
Figure 104795DEST_PATH_IMAGE065
Figure 800219DEST_PATH_IMAGE066
的距离被视为二维相似距离,二维相似距离使用欧几里得距离公式;
Figure 182790DEST_PATH_IMAGE067
为二维相似距离分配了夹角角度的权重
Figure 254651DEST_PATH_IMAGE068
,对权重进行优化(优化的过程 为通过随机分配多组夹角权重进行综合性试验),根据优化后的权重,按照二维相似距离对 用户进行排序;当权重越接近0时,二维加权相似度与原始的用户相似度
Figure 39067DEST_PATH_IMAGE024
越相似,更容 易推荐出热门项目从而忽视了长尾项目,反之当权重越接近90时,二维加权相似度与替换 后的用户相似度
Figure 639813DEST_PATH_IMAGE069
越相似,更容易推荐出长尾项目但降低了推荐的准确率;
S3:基于多目标优化器的重新排序模型寻找最佳的相似用户群组进行推荐:
提出相似用户群组的概念,即根据二维加权相似度降序排序后选定k个相似用户添加到列表中,将用户群组列表作为初始种群对象,对比单一的种群向量增加了多目标优化后求解的多样性;
为了找到最佳的相似用户群,在保证整体准确率的前提下提高长尾推荐的覆盖率 和准确率,提出并选择流行度
Figure 899893DEST_PATH_IMAGE070
函数和长尾关注度
Figure 119653DEST_PATH_IMAGE071
函数作为多目标优化问题的目标 函数,得到多目标优化方程组,从而构建多目标优化模型;
所述流行度
Figure 148789DEST_PATH_IMAGE072
函数为:
Figure 562846DEST_PATH_IMAGE073
其中
Figure 44643DEST_PATH_IMAGE074
是相似用户组推荐的项目集,
Figure 458307DEST_PATH_IMAGE075
是项目
Figure 951736DEST_PATH_IMAGE076
在数据集中被评分的数目,
Figure 425443DEST_PATH_IMAGE077
表示
Figure 128957DEST_PATH_IMAGE010
是热门商品或长尾商品时的权重;
所述长尾关注度
Figure 956098DEST_PATH_IMAGE078
函数为:
Figure 694247DEST_PATH_IMAGE079
其中
Figure 948642DEST_PATH_IMAGE080
是相似用户组推荐的项目集,
Figure 139452DEST_PATH_IMAGE081
是项目的权重函数,
Figure 894918DEST_PATH_IMAGE042
是用 户对项目的评分;
所述多目标优化方程组为:
Figure 861475DEST_PATH_IMAGE043
其中,
Figure 676984DEST_PATH_IMAGE044
表示其中一个目标函数以长尾关注度
Figure 496036DEST_PATH_IMAGE034
函数的负值为优化方向,
Figure 524035DEST_PATH_IMAGE045
表示另一个目标函数以流行度
Figure 236776DEST_PATH_IMAGE046
函数的正值为优化方向,构建
Figure 832973DEST_PATH_IMAGE044
Figure 263955DEST_PATH_IMAGE045
的方程组,
Figure 95644DEST_PATH_IMAGE047
表示多目标优化要能够让两个目标函数都达到最小值,即增加对长尾的关注,降低整体的 流行度。
融入Non dominated sorting genetic algorithm -II算法(即一个快速和精英机制的多目标遗传算法),加入群组的概念,将种群对象初始化为N个不同的相似用户群,每个种群都是个群组向量;
将寻找最优相似用户群组转化为求解pareto 最优解,同时考虑了整体的准确率和覆盖率;
在数据带入算法进行优化计算之前,需要对数据表示进行归一化,即编码,个体的 编码采用实数编码,例:一个相似群组实数编码为
Figure 538258DEST_PATH_IMAGE082
,这更易于理解和进行种群迭 代操作。最优相似用户组的解由列表向量表示;
计算目标函数值
Figure 429991DEST_PATH_IMAGE083
Figure 725099DEST_PATH_IMAGE084
非支配排序与拥挤距离计算,选择支配等级高且拥挤距离大的个体进入下一代;
选择算子使用基于拥挤度比较算子
Figure 94901DEST_PATH_IMAGE085
的用户组选择策略。交叉算子采用均匀 交叉对列表进行对称交叉,交叉概率为 0.5;变异算子采用单点变异算子,变异概率为0.1;
求解最优二维相似用户群的过程如下:
算法:求解最优二维相似用户群
输入:
Figure 782234DEST_PATH_IMAGE086
,相似度矩阵、用户集、目标用户、种群规模、迭代次数、推荐列表长 度、相似用户数。
输出:最优相似用户组
Figure 985813DEST_PATH_IMAGE087
1. 从用户集中生成候选集 S。
2.从S生成N个相似用户组的初始个体,形成种群
Figure 860229DEST_PATH_IMAGE088
,计算种群中个体的
Figure 440246DEST_PATH_IMAGE089
Figure 716506DEST_PATH_IMAGE090
的值。
3. 对
Figure 950041DEST_PATH_IMAGE091
(第一代为
Figure 452698DEST_PATH_IMAGE092
)进行快速非支配排序,通过拥挤比较算子
Figure 429881DEST_PATH_IMAGE093
选择相同 大小 N 的种群
Figure 826228DEST_PATH_IMAGE094
4. 根据上述遗传算子对
Figure 870145DEST_PATH_IMAGE095
进行交叉变异操作,得到后代种群
Figure 984731DEST_PATH_IMAGE096
(初始代为
Figure 375392DEST_PATH_IMAGE097
),大小也为 N。
5. 将
Figure 891824DEST_PATH_IMAGE098
Figure 608108DEST_PATH_IMAGE099
组合成
Figure 944411DEST_PATH_IMAGE100
,大小为 2N ,对
Figure 263397DEST_PATH_IMAGE100
进行快速非支配排序,得到层级
Figure 509702DEST_PATH_IMAGE101
,
Figure 255941DEST_PATH_IMAGE102
,
Figure 79540DEST_PATH_IMAGE103
,.... 首先将
Figure 844627DEST_PATH_IMAGE104
中的个体添加到下一个迭代种群
Figure 804493DEST_PATH_IMAGE105
。如果
Figure 862579DEST_PATH_IMAGE106
,继续将
Figure 173475DEST_PATH_IMAGE107
中的个体添加到
Figure 99842DEST_PATH_IMAGE108
直到
Figure 789581DEST_PATH_IMAGE109
6. 根据前面介绍的拥挤距离算法计算
Figure 143202DEST_PATH_IMAGE110
,删除拥挤度最大的个体,每次更新拥 挤距离,直到
Figure 941393DEST_PATH_IMAGE111
个体仍留在
Figure 281239DEST_PATH_IMAGE112
中。
判断是否达到迭代次数,如果没有,返回3,否则终止迭代。
在运算达到指定的迭代次数后,得到一组最优的pareto解,即找到算法最相似的用户群,利用这组解为目标用户生成推荐列表进行推荐。
将上述步骤S1至S3所提出的模型(MDOS)及算法与其他各种方法NSGA-II-RS、CF(UserCF and ItemCF)和 LFM(MF)进行评估对比,验证长尾挖掘能力是否有所提升。即:将替换比例设置为0.8,选取1000个具有代表性因素的用户作为训练用户集,选取300个测试用户进行指标评价。在第一组实验中,通过控制相似用户组的数量来比较整体准确率和覆盖率。在另一组实验中,只测试了长尾项目,关注测试集上推荐的长尾项目的命中率。两组算法均通过调整不同N值,以探索不同N值对推荐效果的影响。当设置 LFM 模型的参数时,学习率和正则化参数均设置为0.05,负采样正负比设置为 30,隐式语义数为 50。由于 LFM的最优值需要多次迭代,将迭代次数设置为 150,其他迭代次数设置为 100。对于评估的指标主要有:
Precision(精度):评估系统推荐的项目的整体准确性;
Figure 215697DEST_PATH_IMAGE113
其中
Figure 379700DEST_PATH_IMAGE114
是用户集,
Figure 134029DEST_PATH_IMAGE020
是某一个用户,
Figure 667779DEST_PATH_IMAGE115
是根据用户在训练集上的行为给用户 推荐的推荐列表,
Figure 332109DEST_PATH_IMAGE116
是用户在测试集上的行为列表;
Coverage(覆盖率):评估系统推荐项目的整体覆盖率;
Figure 27533DEST_PATH_IMAGE117
其中
Figure 675683DEST_PATH_IMAGE118
是每个用户
Figure 481965DEST_PATH_IMAGE119
的推荐列表中的项目数,
Figure 125436DEST_PATH_IMAGE120
是数据集中的项目总数;
长尾精度(Ltp):通过优化,提升了推荐的整体准确率和覆盖率,但这并不能绝对证明长尾项目被有效推荐,即使覆盖率的增加也可能仅仅意味着推荐项目的种类增加。因此,在精度的基础上,定义长尾精度(Ltp)来评估长尾推荐的准确性;
Figure 132706DEST_PATH_IMAGE121
其中
Figure 861628DEST_PATH_IMAGE122
是基于相似用户推荐的长尾商品集合,
Figure 737180DEST_PATH_IMAGE123
是用户有评分记录的长 尾商品集合;
Popularity(流行度):除了长尾精度(Ltp),推荐列表的平均流行度也可用来比较长尾推荐能力。如果人气越低,推荐越多的长尾单品;
Figure 154866DEST_PATH_IMAGE124
其中
Figure 926513DEST_PATH_IMAGE125
是用户
Figure 549255DEST_PATH_IMAGE126
的推荐列表,
Figure 697340DEST_PATH_IMAGE127
是数据集中评分的项目
Figure 580982DEST_PATH_IMAGE128
的数 量。
将实验结果汇总,第一组实验结果如表1所示。算法的精度高于Movielens数据集上的其他算法,但略低于CF。这是因为CF更喜欢专注于提高精度,更偏向于同时对多个目标进行优化。它略低于Yahoo中的LFM,因为Yahoo的数据稀疏,特征不集中,在有限的迭代次数内没有达到最佳效果。当N的值增加到80时,甚至会出现由于项目样本少而导致全覆盖的问题。但是,Coverage在两个数据集上的表现都优于其他算法,并且随着N的增加,改善程度越大,这表明算法在挖掘长尾项目和提高多样性方面发挥了重要作用;
第二组实验结果如图2和图3所示,显然,N值的变化也会影响实验的性能。结合第一组实验中覆盖率随N值增加的规律,传统的CF和LFM没有表现出Ltp的效果(注:即使覆盖率增加,也只能证明推荐的物品更多,并不能体现推荐的长尾能力)。而且本发明算法在Ltp中优于传统方法,并且随着N值的增加,它优于NSGA-II-RS,并可以解决长尾问题。这说明随着覆盖率的增加,长尾的准确率也在提高,推荐长尾的能力也更强。比起流行度,MDOS的推荐平均流行度比其他算法要略低,这也说明本发明的算法(MDOS)在长尾推荐上发挥了一定作用。
Figure 398896DEST_PATH_IMAGE129
表1 精度和覆盖率的实验结果
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明的设施可借助软件加必需的通用硬件平台的方式来实现。本发明的实施例可以使用现有的处理器来实现,或者由被用于此目的或其他目的用于适当系统的专用处理器来实现,或者由硬接线系统来实现。本发明的实施例还包括非暂态计算机可读存储介质,其包括用于承载或具有存储在其上的机器可执行指令或数据结构的机器可读介质;这种机器可读介质可以是可由通用或专用计算机或具有处理器的其他机器访问的任何可用介质。举例来说,这种机器可读介质可以包括RAM、ROM、EPROM、EEPROM、CD-ROM或其他光盘存储器、磁盘存储器或其他磁存储设备,或任何其他可用于以机器可执行指令或数据结构的形式携带或存储所需的程序代码,并可被由通用或专用计算机或其它带有处理器的机器访问的介质。当信息通过网络或其他通信连接(硬接线、无线或硬接线或无线的组合)传输或提供给机器时,该连接也被视为机器可读介质。
依据本发明的描述及附图,本领域技术人员很容易制造或使用本发明的一种基于提取有效多目标群组来解决长尾推荐问题的方法,并且能够产生本发明所记载的积极效果。
以上所述,仅是本发明的较佳实施例,并非对本发明做任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化,均落入本发明的保护范围之内。

Claims (7)

1.一种基于提取有效多目标群组来解决长尾推荐问题的方法,其特征在于:包括以下步骤:
S1:获取历史评分数据集,提取出其中的用户评分记录,计算项目出现在用户评分记录中的频率,构建用户-项目评分矩阵,统计每个项目的评分次数,将长尾项目定义为:项目的评分次数低于用户对项目评分次数平均值的项目;
S2:构建用户二维加权相似度,并在每个用户的相似用户列表中按照二维加权相似度进行降序排序;
S3:基于多目标优化器的重新排序模型寻找最佳的相似用户群组进行推荐:
根据二维加权相似度降序排序后选定k个相似用户添加到列表中,将用户群组列表作为初始种群对象;
提出并选择流行度函数和长尾关注度函数作为多目标优化问题的目标函数,得到多目标优化方程组,从而构建多目标优化模型;
对多目标优化模型进行运算,在运算达到指定的迭代次数后,得到一组最优的pareto解即最优相似用户群组,利用这组解为目标用户生成推荐列表进行推荐。
2.根据权利要求1所述的一种基于提取有效多目标群组来解决长尾推荐问题的方法, 其特征在于:根据步骤S1中用户-项目评分矩阵,通过修正过的余弦相似度公式,计算原始 的用户相似度
Figure 846539DEST_PATH_IMAGE001
针对用户评分记录,根据评分降序排序后划分出长尾项目集,在长尾项目集中根据项目评分次数降序排序后,按照替换比例将列表中评分较低的热门项目替换为排序后的长尾项目集中评分较好的用户感兴趣的项目,从而得到重新构建的用户-项目评分矩阵;
根据重新构建的用户-项目评分矩阵,利用修正过的余弦相似度公式,计算替换后的用 户相似度
Figure 91575DEST_PATH_IMAGE002
Figure 871312DEST_PATH_IMAGE001
Figure 266522DEST_PATH_IMAGE003
Figure 883491DEST_PATH_IMAGE002
Figure 705953DEST_PATH_IMAGE004
构造二维加权相似度,坐标中的单个点
Figure 972987DEST_PATH_IMAGE005
代表为单独 个体用户,而点
Figure 234204DEST_PATH_IMAGE005
到原点
Figure 903083DEST_PATH_IMAGE006
的距离被视为二维相似距离;
为二维相似距离分配夹角角度的权重
Figure 896446DEST_PATH_IMAGE007
,对权重进行优化,根据优化后的权重, 按照二维相似距离对用户进行排序;
所述修正过的余弦相似度公式为:
Figure 978672DEST_PATH_IMAGE008
其中
Figure 715684DEST_PATH_IMAGE009
为项目
Figure 239069DEST_PATH_IMAGE010
的流行度,
Figure 668913DEST_PATH_IMAGE011
Figure 707276DEST_PATH_IMAGE012
分别表示两个用户,
Figure 982400DEST_PATH_IMAGE013
Figure 625871DEST_PATH_IMAGE014
分别表示用 户
Figure 23354DEST_PATH_IMAGE015
和用户
Figure 752276DEST_PATH_IMAGE016
曾经有过正反馈的物品集合;
综合考虑推荐的有效性,所述替换比例优化公式为:
Figure 831090DEST_PATH_IMAGE017
其中
Figure 391385DEST_PATH_IMAGE018
是用户集合,
Figure 163031DEST_PATH_IMAGE019
是用户
Figure 113670DEST_PATH_IMAGE020
评分过的项目集,
Figure 58492DEST_PATH_IMAGE021
是项目的长尾权重,
Figure 410976DEST_PATH_IMAGE022
是 项目
Figure 353524DEST_PATH_IMAGE023
在项目集中出现的次数。
3.根据权利要求2所述的一种基于提取有效多目标群组来解决长尾推荐问题的方法, 其特征在于:通过余弦相似度计算替换前后的相似度
Figure 119355DEST_PATH_IMAGE024
Figure 539972DEST_PATH_IMAGE025
,并且以
Figure 12542DEST_PATH_IMAGE026
Figure 125991DEST_PATH_IMAGE003
Figure 847960DEST_PATH_IMAGE027
Figure 72268DEST_PATH_IMAGE028
构造二维加权相似度,利用欧几里得距离来计算构造得出的所述二维加权相似 度,所述欧几里得距离为:
Figure 133764DEST_PATH_IMAGE029
其中,坐标中的单个点
Figure 480432DEST_PATH_IMAGE030
代表为一个个体用户,
Figure 892959DEST_PATH_IMAGE031
Figure 920958DEST_PATH_IMAGE032
的距离被视为二维相 似距离。
4.根据权利要求1所述的一种基于提取有效多目标群组来解决长尾推荐问题的方法, 其特征在于:所述步骤S3中,以流行度
Figure 430437DEST_PATH_IMAGE033
函数和长尾关注度
Figure 620109DEST_PATH_IMAGE034
函数作为多目标优化问 题的目标函数;
所述流行度
Figure 519932DEST_PATH_IMAGE033
函数为:
Figure 882781DEST_PATH_IMAGE035
其中
Figure 184449DEST_PATH_IMAGE036
是相似用户组推荐的项目集,
Figure 545023DEST_PATH_IMAGE037
是项目
Figure 932142DEST_PATH_IMAGE038
在数据集中被评分的数目,
Figure 629840DEST_PATH_IMAGE039
表示
Figure 520435DEST_PATH_IMAGE038
是热门商品或长尾商品时的权重;
所述长尾关注度
Figure 317490DEST_PATH_IMAGE034
函数为:
Figure 723064DEST_PATH_IMAGE040
其中
Figure 896556DEST_PATH_IMAGE036
是相似用户组推荐的项目集,
Figure 907237DEST_PATH_IMAGE041
是项目的权重函数,
Figure 937510DEST_PATH_IMAGE042
是用户 对项目的评分;
所述多目标优化方程组为:
Figure 33642DEST_PATH_IMAGE043
其中,
Figure 745246DEST_PATH_IMAGE044
表示其中一个目标函数以长尾关注度
Figure 938330DEST_PATH_IMAGE034
函数的负值为优化方向,
Figure 77187DEST_PATH_IMAGE045
表示另 一个目标函数以流行度
Figure 660616DEST_PATH_IMAGE046
函数的正值为优化方向,构建
Figure 910331DEST_PATH_IMAGE044
Figure 522421DEST_PATH_IMAGE045
的方程组,
Figure 832179DEST_PATH_IMAGE047
表示多 目标优化要能够让两个目标函数都达到最小值,即增加对长尾的关注,降低整体的流行度。
5.根据权利要求1所述的一种基于提取有效多目标群组来解决长尾推荐问题的方法,其特征在于:所述步骤S3中,融入Non dominated sorting genetic algorithm -II算法进行运算,加入群组的概念,将种群对象初始化为N个不同的相似用户群组,每个种群都是个群组向量,将寻找最优相似用户群组转化为求解pareto最优解。
6.一种电子设备,其特征在于:包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。
7.一种计算机可读介质,其上存储有计算机程序,其特征在于:该程序被处理器执行时实现如权利要求1-5中任一所述的方法。
CN202210363831.XA 2022-04-08 2022-04-08 一种基于提取有效多目标群组来解决长尾推荐问题的方法 Active CN114510645B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210363831.XA CN114510645B (zh) 2022-04-08 2022-04-08 一种基于提取有效多目标群组来解决长尾推荐问题的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210363831.XA CN114510645B (zh) 2022-04-08 2022-04-08 一种基于提取有效多目标群组来解决长尾推荐问题的方法

Publications (2)

Publication Number Publication Date
CN114510645A true CN114510645A (zh) 2022-05-17
CN114510645B CN114510645B (zh) 2022-07-15

Family

ID=81555270

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210363831.XA Active CN114510645B (zh) 2022-04-08 2022-04-08 一种基于提取有效多目标群组来解决长尾推荐问题的方法

Country Status (1)

Country Link
CN (1) CN114510645B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116992155A (zh) * 2023-09-20 2023-11-03 江西财经大学 一种利用nmf的不同活跃度用户长尾推荐方法与系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809243A (zh) * 2015-05-15 2015-07-29 东南大学 一种基于对用户行为复合因子进行挖掘的混合推荐方法
CN106980646A (zh) * 2017-02-27 2017-07-25 上海大学 基于流行度对用户兴趣的影响机制分析及其在推荐算法中应用的方法
CN107491813A (zh) * 2017-08-29 2017-12-19 天津工业大学 一种基于多目标优化的长尾群组推荐方法
US20180232794A1 (en) * 2017-02-14 2018-08-16 Idea Labs Inc. Method for collaboratively filtering information to predict preference given to item by user of the item and computing device using the same
CN109597747A (zh) * 2017-09-30 2019-04-09 南京大学 一种基于多目标优化算法nsga-ⅱ推荐跨项目关联缺陷报告的方法
CN110532471A (zh) * 2019-08-27 2019-12-03 华侨大学 基于门控循环单元神经网络的主动学习协同过滤方法
KR20200093170A (ko) * 2019-01-28 2020-08-05 하트미디어(주) 온라인 마켓 시장을 위한 지능형 데이터분석 및 패턴 추출, 추천 자동화 기술을 활용한 마케팅 장치 및 방법
CN111695039A (zh) * 2020-06-12 2020-09-22 江苏海洋大学 一种基于多目标优化的个性化推荐方法
US20200311159A1 (en) * 2019-03-31 2020-10-01 Td Ameritrade Ip Company, Inc. Recommendation System for Providing Personalized and Mixed Content on a User Interface based on Content and User Similarity
CN111753215A (zh) * 2020-06-28 2020-10-09 海南大学 一种多目标推荐优化方法及可读介质
CN114117306A (zh) * 2021-11-30 2022-03-01 安徽大学绿色产业创新研究院 一种基于本地化差分隐私保护的多目标推荐方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809243A (zh) * 2015-05-15 2015-07-29 东南大学 一种基于对用户行为复合因子进行挖掘的混合推荐方法
US20180232794A1 (en) * 2017-02-14 2018-08-16 Idea Labs Inc. Method for collaboratively filtering information to predict preference given to item by user of the item and computing device using the same
CN106980646A (zh) * 2017-02-27 2017-07-25 上海大学 基于流行度对用户兴趣的影响机制分析及其在推荐算法中应用的方法
CN107491813A (zh) * 2017-08-29 2017-12-19 天津工业大学 一种基于多目标优化的长尾群组推荐方法
CN109597747A (zh) * 2017-09-30 2019-04-09 南京大学 一种基于多目标优化算法nsga-ⅱ推荐跨项目关联缺陷报告的方法
KR20200093170A (ko) * 2019-01-28 2020-08-05 하트미디어(주) 온라인 마켓 시장을 위한 지능형 데이터분석 및 패턴 추출, 추천 자동화 기술을 활용한 마케팅 장치 및 방법
US20200311159A1 (en) * 2019-03-31 2020-10-01 Td Ameritrade Ip Company, Inc. Recommendation System for Providing Personalized and Mixed Content on a User Interface based on Content and User Similarity
CN110532471A (zh) * 2019-08-27 2019-12-03 华侨大学 基于门控循环单元神经网络的主动学习协同过滤方法
CN111695039A (zh) * 2020-06-12 2020-09-22 江苏海洋大学 一种基于多目标优化的个性化推荐方法
CN111753215A (zh) * 2020-06-28 2020-10-09 海南大学 一种多目标推荐优化方法及可读介质
CN114117306A (zh) * 2021-11-30 2022-03-01 安徽大学绿色产业创新研究院 一种基于本地化差分隐私保护的多目标推荐方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
SIYI LIU 等: "Long-tail Session-based Recommendation", 《ACM》 *
YUYA SHIRAISHI 等: "Proposal on matrix-based collaborative filtering using personal values", 《IEEE》 *
张展: "基于社交网络综合信任度和商品流行度的个性化推荐", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
郑苏洋: "基于用户体验度和长尾理论的推荐算法", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116992155A (zh) * 2023-09-20 2023-11-03 江西财经大学 一种利用nmf的不同活跃度用户长尾推荐方法与系统
CN116992155B (zh) * 2023-09-20 2023-12-12 江西财经大学 一种利用nmf的不同活跃度用户长尾推荐方法与系统

Also Published As

Publication number Publication date
CN114510645B (zh) 2022-07-15

Similar Documents

Publication Publication Date Title
Eroglu et al. A novel Hybrid Genetic Local Search Algorithm for feature selection and weighting with an application in strategic decision making in innovation management
CN111768285A (zh) 信贷风控模型构建系统、方法、风控系统及存储介质
CN110110225B (zh) 基于用户行为数据分析的在线教育推荐模型及构建方法
CN109710835B (zh) 一种带有时间权重的异构信息网络推荐方法
CN107622072A (zh) 一种针对网页操作行为的识别方法及服务器、终端
CN112100512A (zh) 一种基于用户聚类和项目关联分析的协同过滤推荐方法
CN109948125A (zh) 改进的Simhash算法在文本去重中的方法及系统
CN108596276A (zh) 基于特征加权的朴素贝叶斯微博用户分类方法
CN109726747A (zh) 基于社交网络推荐平台的数据融合排序方法
CN114510645B (zh) 一种基于提取有效多目标群组来解决长尾推荐问题的方法
CN115062732A (zh) 基于大数据用户标签信息的资源共享合作推荐方法及系统
CN111681084A (zh) 一种基于社交关系影响因素的电商平台推荐方法
CN111209469A (zh) 一种个性化推荐方法、装置、计算机设备及存储介质
WO2023024408A1 (zh) 用户特征向量确定方法、相关设备及介质
Wei et al. Online education recommendation model based on user behavior data analysis
Zhang et al. Temporal burstiness and collaborative camouflage aware fraud detection
CN116739794B (zh) 基于大数据及机器学习的用户个性化方案推荐方法及系统
Zhang et al. A generative adversarial network–based method for generating negative financial samples
CN111612583B (zh) 一种基于聚类的个性化导购系统
Fan et al. An improved quantum clustering algorithm with weighted distance based on PSO and research on the prediction of electrical power demand
Zhang et al. Multi-domain clustering pruning: Exploring space and frequency similarity based on GAN
CN115829683A (zh) 一种基于逆奖赏学习优化的电力积分商品推荐方法及系统
CN110717103B (zh) 基于堆栈降噪编码器改进的协同过滤方法
CN110297977B (zh) 一种面向众筹平台的个性化推荐单目标进化方法
Kawamura et al. A new filter evaluation function for feature subset selection with evolutionary computation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant