CN116186421B - 消除流行度偏差的推荐方法、系统、设备及存储介质 - Google Patents

消除流行度偏差的推荐方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN116186421B
CN116186421B CN202310487681.8A CN202310487681A CN116186421B CN 116186421 B CN116186421 B CN 116186421B CN 202310487681 A CN202310487681 A CN 202310487681A CN 116186421 B CN116186421 B CN 116186421B
Authority
CN
China
Prior art keywords
user
layer
node
characterization
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310487681.8A
Other languages
English (en)
Other versions
CN116186421A (zh
Inventor
何向南
陈佳佳
吴剑灿
陈佳伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202310487681.8A priority Critical patent/CN116186421B/zh
Publication of CN116186421A publication Critical patent/CN116186421A/zh
Application granted granted Critical
Publication of CN116186421B publication Critical patent/CN116186421B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Abstract

本发明公开了一种消除流行度偏差的推荐方法、系统、设备及存储介质,它们是一一对应的方案,仿真中:针对图推荐模型进行流行度偏差消除,具体是基于训练图推荐模型后获得的初始表征,再进行后处理式的去偏操作,可以直接应用于不同的图推荐模型,具有较好的普适性。相比于其他消除流行度偏差的技术,本发明具有更好的整体推荐性能,提升了尾部冷门物品的推荐效果同时,又较好的保留了高热门物品的推荐性能。

Description

消除流行度偏差的推荐方法、系统、设备及存储介质
技术领域
本发明涉及推荐系统技术领域,尤其涉及一种消除流行度偏差的推荐方法、系统、设备及存储介质。
背景技术
推荐系统目前已广泛应用于互联网相关场景中,有效解决了信息过载等问题。然而,当前的推荐系统面临着严重的偏差问题,例如流行度偏差。流行度偏差是指受欢迎的物品(高热门的物品)被推荐的频率超过了它们本身的受欢迎程度,部分高热门的物品占据了绝大部分曝光和点击,这使得推荐系统基于有偏数据训练后,对高热门物品更容易给出高预测得分,而简单地将不流行的物品(尾部冷门物品)给予较低的预测得分。流行度偏差问题主要有三种负面影响:1)影响了用户个性化推荐结果,损害了用户体验,尤其是小众偏好的用户;2)影响了大量尾部物品的曝光率;3)影响了电商平台针对性的物品推荐;总体来说,以上负面影响严重制约了推荐效果。因此,解决流行度偏差问题迫在眉睫。
基于图的推荐模型(即图推荐模型)是目前最为先进的协同过滤推荐模型,为用户和物品学习了更好的表征。图推荐模型核心模块是邻居聚合(亦称图卷积)模块,该核心模块在用户物品交互二部图上通过聚合邻居信息对目标用户/物品进行表征学习,以实现更加有效的协同效应捕捉。然而理论证明显示,图推荐模型的邻居聚合更容易放大流行度偏差效应,这使得应用图推荐模型时面临更加严重的流行度偏差问题。
当前解决流行度偏差问题的技术,主要有:(1)倾向性权重方法:根据物品流行度估计倾向性权重,对每条数据数据样本进行加权;(2)填充无偏数据:通过添加额外的无偏数据进行学习以纠正流行度偏差;(3)解耦表征:将用户点击行为分解为兴趣偏好和流行度两类效应并嵌入对应表征模型中,使得模型学习到更加鲁棒的兴趣偏好。这些技术虽然起到了有效的缓解流行度偏差的效应,提升了尾部冷门物品的推荐效果,但同时又极大降低了整体推荐性能,不适用于现实的推荐场景。
发明内容
本发明的目的是提供一种消除流行度偏差的推荐方法、系统、设备及存储介质,不仅提升尾部冷门物品的推荐效果,同时保证整体推荐性能提升,能够很好的适用于现实的推荐场景。
本发明的目的是通过以下技术方案实现的:
一种消除流行度偏差的推荐方法,包括:
利用用户集合与物品集合构造用户物品交互二部图,并利用用户物品交互二部图训练图推荐模型,完成训练后,获得所有用户与所有物品的初始表征;
将所有用户与所有物品的初始表征分别输入至训练后的图推荐模型,训练后的图推荐模型的每一层中,通过聚类确定当前用户或当前物品所在聚类簇,结合聚类簇中邻居用户和/或物品的表征预测当前用户或当前物品的偏差放大效应,通过去除偏差放大效应,获得当前用户或当前物品的理想表征,完成每一层的去偏操作;所有用户与所有物品完成所有层的去偏操作后,获得所有用户与所有物品的最终表征;
对于每一用户,利用相应用户的最终表征与所有物品的最终表征,生成每一用户对应的物品推荐列表。
一种消除流行度偏差的推荐系统,包括:
图数据构造与初始表征获取单元,用于利用用户集合与物品集合构造用户物品交互二部图,并利用用户物品交互二部图训练图推荐模型,完成训练后,获得所有用户与所有物品的初始表征;
去偏操作与最终表征获取单元,用于将所有用户与所有物品的初始表征分别输入至训练后的图推荐模型,训练后的图推荐模型的每一层中,通过聚类确定当前用户或当前物品所在聚类簇,结合聚类簇中邻居用户和/或物品的表征预测当前用户或当前物品的偏差放大效应,通过去除偏差放大效应,获得当前用户或当前物品的理想表征,完成每一层的去偏操作;所有用户与所有物品完成所有层的去偏操作后,获得所有用户与所有物品的最终表征;
物品推荐列表生成单元,用于对于每一用户,利用相应用户的最终表征与所有物品的最终表征,生成每一用户对应的物品推荐列表。
一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。
一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述的方法。
由上述本发明提供的技术方案可以看出,针对图推荐模型进行流行度偏差消除,具体是基于训练图推荐模型后获得的初始表征,再进行后处理式的去偏操作,可以直接应用于不同的图推荐模型,具有较好的普适性。相比于其他消除流行度偏差的技术,本发明具有更好的整体推荐性能,提升了尾部冷门物品的推荐效果同时,又较好的保留了高热门物品的推荐性能。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种消除流行度偏差的推荐方法的流程图;
图2为本发明实施例提供的Gowalla数据集中LightGCN模型与LightGCN+DAP生成的物品推荐列表上Top20中尾部物品占比结果图;
图3为本发明实施例提供的Amazon-book数据集中LightGCN模型与LightGCN+DAP生成的物品推荐列表上Top20中尾部物品占比结果图;
图4为本发明实施例提供的一种消除流行度偏差的推荐系统的示意图;
图5为本发明实施例提供的一种处理设备的示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
首先对本文中可能使用的术语进行如下说明:
术语“和/或”是表示两者任一或两者同时均可实现,例如,X和/或Y表示既包括“X”或“Y”的情况也包括“X和Y”的三种情况。
术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。
下面对本发明所提供的一种消除流行度偏差的推荐方法、系统、设备及存储介质进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。
实施例一
本发明实施例提供一种消除流行度偏差的推荐方法,如图1所示,其主要包括如下步骤:
步骤1、利用用户集合与物品集合构造用户物品交互二部图,并利用用户物品交互二部图训练图推荐模型,完成训练后,获得所有用户与所有物品的初始表征。
步骤2、将所有用户与所有物品的初始表征分别输入至训练后的图推荐模型,训练后的图推荐模型的每一层中,通过聚类确定当前用户或当前物品所在聚类簇,结合聚类簇中邻居用户或物品的表征预测当前用户或当前物品的偏差放大效应,通过去除偏差放大效应,获得当前用户或当前物品的理想表征,完成每一层的去偏操作;所有用户与所有物品完成所有层的去偏操作后,获得所有用户与所有物品的最终表征。
步骤3、对于每一用户,利用相应用户的最终表征与所有物品的最终表征,生成每一用户对应的物品推荐列表。
本发明实施例提供的上述方案基于训练图推荐模型后获得的初始表征,再进行后处理式的去偏操作,可以直接应用于不同的图推荐模型,具有较好的普适性。相比于其他消除流行度偏差的技术,本发明具有更好的整体推荐性能,提升了尾部冷门物品的推荐效果同时,又较好的保留了高热门物品的推荐性能。
为了更加清晰地展现出本发明所提供的技术方案及所产生的技术效果,下面以具体实施例对本发明实施例所提供的方法进行详细描述。
一、构造用户物品交互二部图。
本发明实施例中,将给定数据集D中用户集合U记为
Figure SMS_1
,物品集合I记为/>
Figure SMS_2
,其中,u表示用户,u的下标数字为用户序号,M为用户数目,i表示物品,i的下标数字为物品序号,N为物品数目。
构造用户物品交互二部图时,将每一用户与每一物品分别作为一个节点,根据用户与物品的交互记录,可以确定每一用户与每一物品是否存在交互,当用户与物品之间存在交互时,则构建一条边连接用户与物品对应的节点。也就是说,用户物品交互二部图中连边只存在于不同类别的节点之间,此处所述的不同类别的节点主要包括:用户对应的节点(用户节点)与物品对应的节点(物品节点)两类节点。
本发明实施例中,物品的类别可根据具体应用场景来确定,例如,商品,短视频,新闻等。
二、训练图推荐模型获得初始表征。
本发明实施例中,针对图推荐模型进行流行度偏差消除,可以部署于不同的图推荐模型上。
以LightGCN模型(轻量级图卷积模型)为例,它是多层结构,用户与物品的第
Figure SMS_8
层表征表示为:/>
Figure SMS_4
,/>
Figure SMS_18
;其中,/>
Figure SMS_7
表示用户u的第/>
Figure SMS_13
层表征,/>
Figure SMS_12
为用户u一阶邻居/>
Figure SMS_19
的第/>
Figure SMS_9
层表征,Nu表示用户u的一阶邻居集合,du表示用户u的度,/>
Figure SMS_14
表示用户u的一阶邻居/>
Figure SMS_3
的度;/>
Figure SMS_17
表示物品i的第/>
Figure SMS_5
层表征,/>
Figure SMS_16
为物品i的一阶邻居/>
Figure SMS_10
的第/>
Figure SMS_11
层表征,Ni表示物品i的一阶邻居集合,di表示物品i的度,/>
Figure SMS_6
表示物品i的一阶邻居/>
Figure SMS_15
的度。在用户物品交互二部图中,用户与物品均为节点,度是指节点的一阶邻居数量。
利用用户物品交互二部图训练图推荐模型,训练完毕后,可以得到所有用户与所有物品的初始表征,记为初始表征集合
Figure SMS_20
,其中,/>
Figure SMS_21
表示实数集,d表示初始表征的维度。此处所涉及的训练方式可参照常规技术实现,本发明不做赘述。
二、去偏操作。
本发明实施例中,所述去偏操作是指消除流行度偏差的操作。由理论分析可知,图推荐模型中每一层图卷积后存在流行度偏差放大效应,流行度偏差放大效应可分解为比目标节点度高的邻居和度低的邻居分别引入的效应。
本发明实施例中,对于第
Figure SMS_24
层,去偏操作包括:第/>
Figure SMS_27
层中,先获得所有用户与所有物品的第/>
Figure SMS_30
层表征再进行聚类,对于当前用户或当前物品,确定所在的聚类簇,通过聚类簇中邻居用户和/或物品的表征预测当前用户或当前物品的第/>
Figure SMS_23
层偏差放大效应,再结合当前用户或当前物品的第/>
Figure SMS_26
层表征,获得当前用户或当前物品的第/>
Figure SMS_29
层理想表征,最终得到所有用户与所有物品的第/>
Figure SMS_32
层理想表征;其中,当/>
Figure SMS_22
=1时,当前用户或当前物品的第/>
Figure SMS_25
层表征通过当前用户或当前物品的初始表征获得,当/>
Figure SMS_28
>1,当前用户或当前物品的第/>
Figure SMS_31
层表征通过当前用户或当前物品的理想表征获得。
本发明实施例中,当前用户与当前物品均对应于用户物品交互二部图的一个节点,取任一节点记为节点v(也即节点v可以对应一个物品,也可以对应一个用户),在第
Figure SMS_40
层中,首先获得所有节点的第/>
Figure SMS_36
层表征,其中,每一节点对应一个用户或一个物品,以/>
Figure SMS_45
>1为例,节点v的第/>
Figure SMS_34
层表征/>
Figure SMS_46
表示为:/>
Figure SMS_44
,/>
Figure SMS_48
为节点v的第/>
Figure SMS_38
层理想表征,/>
Figure SMS_42
作为一个整体,表示来自比节点v的度高的邻居节点的偏差效应,/>
Figure SMS_33
作为一个整体,表示来自比节点v的度低的邻居节点的偏差效应,/>
Figure SMS_43
表示来自比节点v的度高的邻居节点的所有偏差影响,/>
Figure SMS_37
表示来自比节点v的度低的邻居节点的所有偏差影响,/>
Figure SMS_47
Figure SMS_35
均为调整偏差影响的超参数,因为偏差效应并不总是有害的,因此,需要通过调整超参数/>
Figure SMS_41
与/>
Figure SMS_39
以得到最好的预测效果。此部分中,邻居节点不仅包含了节点v的一阶邻居,还存在其他高阶邻居,也就是说,邻居节点既包含了与节点v不同类型的节点,也包含了与节点v相同类型的节点。
为了从
Figure SMS_49
中获得理想表征/>
Figure SMS_50
,需要估计两部分偏差效应。为了更加鲁棒地做出估计,考虑到图推荐模型学习得到的节点表征在空间中存在簇状现象,各个簇潜在地表明了节点之间的语义关系和偏好相关程度,因此本发明利用节点所在的簇估计流行度偏差效应。
具体的:对所有节点的第
Figure SMS_51
层表征进行聚类,表示为/>
Figure SMS_52
,其中,P为聚类簇数目,记节点v处于第p个聚类簇/>
Figure SMS_53
,p=1,2,…,P。示例性的可以采用聚类工具Kmeans(K均值聚类算法)对节点表征进行自动地聚类,/>
Figure SMS_54
,其中,
Figure SMS_55
表示所有节点的第/>
Figure SMS_56
层表征形成的集合。此处的聚类过程是针对所有节点进行的,也即某一个聚类簇中可以包含用户与物品两类节点。
为了干预节点v在第
Figure SMS_60
层图卷积后所受到的流行度偏差放大效应,在第p个聚类簇
Figure SMS_64
,确定度比节点v高的所有邻居节点,形成集合/>
Figure SMS_67
,以及度比节点v低的所有邻居节点,形成集合/>
Figure SMS_58
,其中,dv表示节点v的度,j表示度高于节点v的节点j,dj表示节点j的度,/>
Figure SMS_62
表示度低于节点v的节点/>
Figure SMS_66
,/>
Figure SMS_69
表示节点/>
Figure SMS_57
的度。此部分中,度比节点v高的所有邻居节点,度比节点v低的所有邻居节点包含邻居用户和/或物品对应的节点,简而言之,不仅包含一阶邻居,还包含一阶以上的邻居。利用比节点v的度高的所有邻居节点的第/>
Figure SMS_61
层表征,以及比节点v的度低的所有邻居节点的第/>
Figure SMS_65
层表征,分别计算出相应的平均表征,结合两个平均表征预测节点v的第/>
Figure SMS_68
层偏差放大效应。此部分平均表征计算可采用常规方式实现,即按照元素对应相加,再将每一元素处于相应的节点数目,以利用比节点v的度高的所有邻居节点的第/>
Figure SMS_59
层表征计算出相应的平均表征为例,假设共有S个邻居节点,则S个邻居节点的第/>
Figure SMS_63
层表征按照元素位置对应的相加后,每一个元素位置相加的结果均分别处以S,得到平均表征,此处的S为正整数,具体数值可根据实际情况确定。
将利用比节点v的度高的所有邻居节点的第
Figure SMS_70
层表征计算出的平均表征记为/>
Figure SMS_71
;将利用比节点v的度低的所有邻居节点的第/>
Figure SMS_72
层表征计算出的平均表征记为/>
Figure SMS_73
;通过如下公式预测出节点v的第/>
Figure SMS_74
层偏差放大效应:
Figure SMS_75
其中,
Figure SMS_76
表示节点v的第/>
Figure SMS_77
层偏差放大效应,S(.)表示余弦相似度函数,/>
Figure SMS_78
和/>
Figure SMS_79
代表干预偏差效应的系数,因为流行度偏差并不总是有害的。
在第
Figure SMS_80
层中,对于节点v,将节点v的第/>
Figure SMS_81
层表征/>
Figure SMS_82
减去预测的节点v的第/>
Figure SMS_83
层偏差放大效应/>
Figure SMS_84
,获得节点v的第/>
Figure SMS_85
层理想表征,表示为:
Figure SMS_86
在第
Figure SMS_87
层中,所有的节点都通过相同的方式进行去偏操作,可以得到所有节点(即所有用户与所有用户)的第/>
Figure SMS_88
层理想表征。
同理,所有层也采用相同的去偏操作,且将去偏操作得到理想表征继续传递至下一层,最终完成每一层的去偏,并按照图推荐基模型的表征组合方式,例如LightGCN将各层节点表征加权平均,对于每一节点,将各层去偏后获得的理想表征组合起来得到最终表征。
三、生成推荐列表。
本发明实施例中,对于每一用户,利用相应用户的最终表征与所有物品的最终表征,计算出每一用户对所有物品的预测得分;按照每一用户对所有物品的预测得分,以从大到小的顺序对物品进行排序,生成每一用户对应的物品推荐列表。
示例性的,以用户u为例,它的最终表征记为
Figure SMS_89
,物品i的最终表征记为/>
Figure SMS_90
,则用户u对物品i的预测得分/>
Figure SMS_91
为:/>
Figure SMS_92
,其中,T为转置符号。用户u对于所有物品都能够计算出相应的预测得分,按照预测得分降序排列相应的物品,之后,可以从得到的物品排列中截取前端的一部分,生成物品推荐列表反馈给用户u。其余用户也是如此操作,生成每一用户对应的物品推荐列表。
本发明实施例提供的上述方案中,对模型训练到的初始表征进行后处理式的去偏操作,可以直接应用于不同的图推荐模型,具有较好的普适性。相比于其他消除流行度偏差的算法,本发明具有更好的整体推荐性能,提升了尾部物品的推荐效果同时,又较好的保留了头部物品的推荐性能。
本发明实施例提供的上述方案本发明可以广泛地应用到图推荐系统场景中,比如在电商、短视频平台都可以采用本发明提升整体推荐性能和尾部物品的推荐性能,缓解流行度偏差问题。
为了说明本发明的推荐性能在Gowalla与Amazon-book这两个真实数据集上开展了实验,数据集的统计信息如表1所示。对数据集按照8:2随机划分训练集和测试集,并根据训练集中物品流行度的分布,划分出尾部不流行物品(占比80%)的用户交互,将测试集整体称为Overall,测试集中尾部不流行物品(占比80%)为尾部测试集,称为Tail。
表1:数据集的统计信息
数据集 Gowalla Amazon-book
用户数 29858 52643
物品数 40981 91599
交互数 1,027,370 2,984,108
稠密度 0.084% 0.062%
以Recall@20(推荐列表前20名的召回率)及NDCG@20(基于推荐列表前20名计算的归一化折损累计增益)作为度量。
1、推荐性能具有明显提升。以LightGCN为基础模型,分别在其上部署了多种当前最优对比方法与本发明提出的方法,包括:DICE采用因果学习策略解耦用户兴趣与物品流行度,以实现对用户兴趣的捕捉并对流行度偏差进行消除;MACR通过反事实推理技术对流行度偏差进行估计并消除;Tailed通过将高度节点的信息迁移到低度节点上,以增强低度节点的表征能力并实现去偏;BxQuAD则使用后处理方法提升对不流行物品的推荐达到去除流行度偏差效果。如表2所示,为性能对比结果。
表2:性能对比结果
Figure SMS_93
DAP即代表本发明提供的方案,其中DAP-o指在验证集上调整表征以提升Overall性能目标,而DAP-t是在验证集上调整表征以提升Tail性能为目标,此处所述的调整表征即为通过前文介绍的去偏操作获得最终表征的过程。从表2中可以看到,本发明的方案可以在整体上和尾部上分别取得最好的性能,表明了本发明的鲁棒性和有效性。
为了验证本发明在其他图推荐模型上的作用,以当前最优图推荐模型UltraGCN为基础模型,UltraGCN模型进一步简化了图卷积推荐模型,通过跳过无限层的消息传递方式实现高效训练与推荐。将本发明部署在UltraGCN模型上,并在验证集上调整表征以提升Overall性能目标,记为UltraGCN-DAP-o,得到表3所示性能对比结果。
表3:性能对比结果
Figure SMS_94
由结果可知,本发明可以在当前最优图推荐模型上取得最佳性能,进一步验证了本发明的有效性。
2、提升了尾部物品的推荐占比。
此部分更进一步观察本发明对尾部物品的推荐效果。图2与3展示了在两个数据集中LightGCN模型与LightGCN+DAP(即在LightGCN模型中部署本发明)生成的物品推荐列表上Top20(即物品推荐列表的前20)中尾部物品占比结果,3展现了本发明可以有效地缓解LightGCN模型所面临的流行度偏差问题。LightGCN随着图卷积层数的增加,对尾部物品的推荐比例逐渐减少,而本发明可以在不损失推荐性能的情况下,提升尾部物品的推荐占比。其中,图2与图3中横坐标即是图推荐模型LightGCN的层数,比如3是指三层的LightGCN模型,0层是指不进行图卷积操作,纵坐标为LightGCN模型与LightGCN+DAP生成的物品推荐列表上Top20(即物品推荐列表的前20)中尾部物品占比结果。
3、聚类簇数目P对对性能的影响。
表4:聚类簇数目P对对性能的影响
Figure SMS_95
表4表明了聚类簇数目P对推荐性能的影响,随着P的增大,整体的推荐性能逐渐上升后下降,证明聚类簇数目P对性能有重要的影响,当P较小时,不能准确的进行聚类,容易混淆节点偏差的来源,较大时又容易损失偏差信息,导致估计不准确。因此需要选择适当的P对偏差效应进行更加准确的估计。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例二
本发明还提供一种消除流行度偏差的推荐系统,其主要基于前述实施例提供的方法实现,如图4所示,该系统主要包括:
图数据构造与初始表征获取单元,用于利用用户集合与物品集合构造用户物品交互二部图,并利用用户物品交互二部图训练图推荐模型,完成训练后,获得所有用户与所有物品的初始表征;
去偏操作与最终表征获取单元,用于将所有用户与所有物品的初始表征分别输入至训练后的图推荐模型,训练后的图推荐模型的每一层中,通过聚类确定当前用户或当前物品所在聚类簇,结合聚类簇中邻居用户和/或物品的表征预测当前用户或当前物品的偏差放大效应,通过去除偏差放大效应,获得当前用户或当前物品的理想表征,完成每一层的去偏操作;所有用户与所有物品完成所有层的去偏操作后,获得所有用户与所有物品的最终表征;
物品推荐列表生成单元,用于对于每一用户,利用相应用户的最终表征与所有物品的最终表征,生成每一用户对应的物品推荐列表。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
实施例三
本发明还提供一种处理设备,如图5所示,其主要包括:一个或多个处理器;存储器,用于存储一个或多个程序;其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述实施例提供的方法。
进一步的,所述处理设备还包括至少一个输入设备与至少一个输出设备;在所述处理设备中,处理器、存储器、输入设备、输出设备之间通过总线连接。
本发明实施例中,所述存储器、输入设备与输出设备的具体类型不做限定;例如:
输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等;
输出设备可以为显示终端;
存储器可以为随机存取存储器(Random Access Memory,RAM),也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。
实施例四
本发明还提供一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述实施例提供的方法。
本发明实施例中可读存储介质作为计算机可读存储介质,可以设置于前述处理设备中,例如,作为处理设备中的存储器。此外,所述可读存储介质也可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (8)

1.一种消除流行度偏差的推荐方法,其特征在于,包括:
利用用户集合与物品集合构造用户物品交互二部图,并利用用户物品交互二部图训练图推荐模型,完成训练后,获得所有用户与所有物品的初始表征;
将所有用户与所有物品的初始表征分别输入至训练后的图推荐模型,训练后的图推荐模型的每一层中,通过聚类确定当前用户或当前物品所在聚类簇,结合聚类簇中邻居用户和/或物品的表征预测当前用户或当前物品的偏差放大效应,通过去除偏差放大效应,获得当前用户或当前物品的理想表征,完成每一层的去偏操作;所有用户与所有物品完成所有层的去偏操作后,获得所有用户与所有物品的最终表征;
对于每一用户,利用相应用户的最终表征与所有物品的最终表征,生成每一用户对应的物品推荐列表;
其中,预测当前用户或当前物品的偏差放大效应的步骤包括:
当前用户与当前物品均分别对应于用户物品交互二部图的一个节点,取任一节点记为节点v,在第
Figure QLYQS_1
层中,首先获得所有节点的第/>
Figure QLYQS_4
层表征,其中,每一节点对应一个用户或一个物品,当/>
Figure QLYQS_7
>1时,节点v的第/>
Figure QLYQS_3
层表征/>
Figure QLYQS_5
表示为:/>
Figure QLYQS_8
,/>
Figure QLYQS_10
为节点v的第
Figure QLYQS_2
层理想表征,/>
Figure QLYQS_6
作为一个整体,表示来自比节点v的度高的邻居节点的偏差效应,
Figure QLYQS_9
作为一个整体,表示来自比节点v的度低的邻居节点的偏差效应,度是指节点的一阶邻居数量;
对所有节点的第
Figure QLYQS_11
层表征进行聚类,表示为/>
Figure QLYQS_12
,其中,P为聚类簇数目,记节点v处于第p个聚类簇/>
Figure QLYQS_13
,p=1,2,…,P;
在第p个聚类簇
Figure QLYQS_14
,利用比节点v的度高的所有邻居节点的第/>
Figure QLYQS_15
层表征,以及比节点v的度低的所有邻居节点的第/>
Figure QLYQS_16
层表征,分别计算出相应的平均表征,结合两个平均表征预测节点v的第/>
Figure QLYQS_17
层偏差放大效应;
对于第
Figure QLYQS_18
层,去偏操作包括:
Figure QLYQS_19
层中,获得所有用户与所有物品的第/>
Figure QLYQS_20
层表征再进行聚类,对于当前用户或当前物品,确定所在的聚类簇,通过聚类簇中邻居用户和/或物品的表征预测当前用户或当前物品的第/>
Figure QLYQS_21
层偏差放大效应,再结合当前用户或当前物品的第/>
Figure QLYQS_22
层表征,获得当前用户或当前物品的第/>
Figure QLYQS_23
层理想表征,最终得到所有用户与所有物品的第/>
Figure QLYQS_24
层理想表征;
其中,当
Figure QLYQS_25
=1时,当前用户或当前物品的第/>
Figure QLYQS_26
层表征通过当前用户或当前物品的初始表征获得;当/>
Figure QLYQS_27
>1,当前用户或当前物品的第/>
Figure QLYQS_28
层表征通过当前用户或当前物品的理想表征获得。
2.根据权利要求1所述的一种消除流行度偏差的推荐方法,其特征在于,所述利用用户集合与物品集合构造用户物品交互二部图包括:
将用户集合U记为
Figure QLYQS_29
,将物品集合I记为/>
Figure QLYQS_30
,其中,M为用户数目,N为物品数目;
构造用户物品交互二部图:将每一用户与每一物品分别作为一个节点,当用户与物品之间存在交互时,构建一条边连接用户与物品对应的节点。
3.根据权利要求1所述的一种消除流行度偏差的推荐方法,其特征在于,所述结合两个平均表征预测节点v的第
Figure QLYQS_31
层偏差放大效应包括:
将利用比节点v的度高的所有邻居节点的第
Figure QLYQS_32
层表征计算出的平均表征记为/>
Figure QLYQS_33
;将利用比节点v的度低的所有邻居节点的第/>
Figure QLYQS_34
层表征计算出的平均表征记为/>
Figure QLYQS_35
通过如下公式预测出节点v的第
Figure QLYQS_36
层偏差放大效应:
Figure QLYQS_37
其中,
Figure QLYQS_38
表示节点v的第/>
Figure QLYQS_39
层偏差放大效应,S(.)表示余弦相似度函数,/>
Figure QLYQS_40
和/>
Figure QLYQS_41
代表干预偏差效应的系数。
4.根据权利要求1所述的一种消除流行度偏差的推荐方法,其特征在于,获得理想表征的方式包括:
在第
Figure QLYQS_42
层中,对于节点v,将节点v的第/>
Figure QLYQS_43
层表征/>
Figure QLYQS_44
减去预测的节点v的第/>
Figure QLYQS_45
层偏差放大效应/>
Figure QLYQS_46
,获得节点v的第/>
Figure QLYQS_47
层理想表征,表示为:
Figure QLYQS_48
5.根据权利要求1所述的一种消除流行度偏差的推荐方法,其特征在于,生成每一用户对应的物品推荐列表的步骤包括:
对于每一用户,利用相应用户的最终表征与所有物品的最终表征,计算出每一用户对所有物品的预测得分;
按照每一用户对所有物品的预测得分,以从大到小的顺序对物品进行排序,生成每一用户对应的物品推荐列表。
6.一种消除流行度偏差的推荐系统,其特征在于,基于权利要求1~5任一项所述的方法实现,该系统包括:
图数据构造与初始表征获取单元,用于利用用户集合与物品集合构造用户物品交互二部图,并利用用户物品交互二部图训练图推荐模型,完成训练后,获得所有用户与所有物品的初始表征;
去偏操作与最终表征获取单元,用于将所有用户与所有物品的初始表征分别输入至训练后的图推荐模型,训练后的图推荐模型的每一层中,通过聚类确定当前用户或当前物品所在聚类簇,结合聚类簇中邻居用户和/或物品的表征预测当前用户或当前物品的偏差放大效应,通过去除偏差放大效应,获得当前用户或当前物品的理想表征,完成每一层的去偏操作;所有用户与所有物品完成所有层的去偏操作后,获得所有用户与所有物品的最终表征;
物品推荐列表生成单元,用于对于每一用户,利用相应用户的最终表征与所有物品的最终表征,生成每一用户对应的物品推荐列表。
7.一种处理设备,其特征在于,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1~5任一项所述的方法。
8.一种可读存储介质,存储有计算机程序,其特征在于,当计算机程序被处理器执行时实现如权利要求1~5任一项所述的方法。
CN202310487681.8A 2023-05-04 2023-05-04 消除流行度偏差的推荐方法、系统、设备及存储介质 Active CN116186421B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310487681.8A CN116186421B (zh) 2023-05-04 2023-05-04 消除流行度偏差的推荐方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310487681.8A CN116186421B (zh) 2023-05-04 2023-05-04 消除流行度偏差的推荐方法、系统、设备及存储介质

Publications (2)

Publication Number Publication Date
CN116186421A CN116186421A (zh) 2023-05-30
CN116186421B true CN116186421B (zh) 2023-07-14

Family

ID=86446688

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310487681.8A Active CN116186421B (zh) 2023-05-04 2023-05-04 消除流行度偏差的推荐方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116186421B (zh)

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6687696B2 (en) * 2000-07-26 2004-02-03 Recommind Inc. System and method for personalized search, information filtering, and for generating recommendations utilizing statistical latent class models
EP2960849A1 (en) * 2014-06-26 2015-12-30 Deutsche Telekom AG Method and system for recommending an item to a user
US10255244B2 (en) * 2014-08-01 2019-04-09 Facebook, Inc. Search results based on user biases on online social networks
US11645695B2 (en) * 2020-03-12 2023-05-09 Intuit Inc. Computing personalized recommendations by modeling interactions as a bipartite graph
CN112364242B (zh) * 2020-11-10 2024-04-02 中国科学技术大学 针对上下文感知型的图卷积推荐系统
CN113407861B (zh) * 2021-05-19 2022-07-15 中国科学技术大学 基于去中心化图神经网络的社交推荐方法
CN113987358A (zh) * 2021-11-15 2022-01-28 中国科学技术大学 一种推荐模型的训练方法、推荐方法及推荐系统
CN114519147A (zh) * 2022-02-17 2022-05-20 云南大学 一种基于gcn增强影响扩散的社交推荐方法
CN115018573A (zh) * 2022-03-18 2022-09-06 浙江大学 一种基于异构图和对比学习的会话推荐方法
CN115935079A (zh) * 2022-11-15 2023-04-07 山东省人工智能研究院 一种基于簇的图协同过滤推荐方法
CN115688907B (zh) * 2022-12-30 2023-04-21 中国科学技术大学 基于图传播的推荐模型训练方法及基于图传播的推荐方法
CN115809374B (zh) * 2023-02-13 2023-04-18 四川大学 纠正推荐系统主流偏差的方法、系统、设备及存储介质

Also Published As

Publication number Publication date
CN116186421A (zh) 2023-05-30

Similar Documents

Publication Publication Date Title
Huang et al. Data poisoning attacks to deep learning based recommender systems
Mehta et al. Robust collaborative filtering
Liu et al. Cloud-enabled privacy-preserving collaborative learning for mobile sensing
Bilge et al. A scalable privacy-preserving recommendation scheme via bisecting k-means clustering
CN107133865B (zh) 一种信用分的获取、特征向量值的输出方法及其装置
Fontanini et al. Web video popularity prediction using sentiment and content visual features
Bilge et al. An improved privacy-preserving DWT-based collaborative filtering scheme
Wang et al. Aspect-ratio-preserving multi-patch image aesthetics score prediction
Li et al. A slope one collaborative filtering recommendation algorithm using uncertain neighbors optimizing
WO2020135642A1 (zh) 一种基于生成对抗网络的模型训练方法及设备
Patra et al. Exploiting Bhattacharyya similarity measure to diminish user cold-start problem in sparse data
CN114266361A (zh) 基于模型权重更迭的联邦学习搭便车防御方法和装置
Zheng Situation-aware multi-criteria recommender system: using criteria preferences as contexts
CN116186421B (zh) 消除流行度偏差的推荐方法、系统、设备及存储介质
Liu et al. Securing online reputation systems through trust modeling and temporal analysis
Okkalioglu et al. Reconstructing rated items from perturbed data
Zeng et al. A framework of camera source identification Bayesian game
Chen et al. Densepure: Understanding diffusion models towards adversarial robustness
CN114239049A (zh) 基于参数压缩的面向联邦学习隐私推理攻击的防御方法
Turk et al. A robust multi-criteria collaborative filtering algorithm
Birgin et al. Genetic algorithm-based privacy preserving collaborative filtering
CN113724023B (zh) 媒介资源的推送方法、装置、电子设备及存储介质
WO2023004730A1 (en) Creating a target model for detecting legitimacy of data collection
Jahn et al. Detecting Coordinated Inauthentic Behavior in Likes on Social Media: Proof of Concept
CN110516084B (zh) 多媒体关联信息确定方法、装置、存储介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant