CN115525819A - 一种面向信息茧房的跨领域推荐方法 - Google Patents

一种面向信息茧房的跨领域推荐方法 Download PDF

Info

Publication number
CN115525819A
CN115525819A CN202210337382.1A CN202210337382A CN115525819A CN 115525819 A CN115525819 A CN 115525819A CN 202210337382 A CN202210337382 A CN 202210337382A CN 115525819 A CN115525819 A CN 115525819A
Authority
CN
China
Prior art keywords
domain
user
cross
item
formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210337382.1A
Other languages
English (en)
Inventor
孙见山
张吉
姜元春
许增辉
宋靖达
袁昆
钱洋
柴一栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Zhejiang Lab
Original Assignee
Hefei University of Technology
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology, Zhejiang Lab filed Critical Hefei University of Technology
Priority to CN202210337382.1A priority Critical patent/CN115525819A/zh
Publication of CN115525819A publication Critical patent/CN115525819A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向信息茧房的跨领域推荐方法,包括:1、获取用户对产品评分的数据集并进行数据预处理;2、构建跨领域知识迁移推荐模型的跨域知识迁移模块;3、构建跨领域知识迁移推荐模型的目标域意外性提取模块;4、利用训练集的数据对模型进行训练,并根据测试结果调整优化模型的超参数;5、将测试集数据输入到训练好的模型中,对输出的全部物品预测得分排序,最后选择前N项产品推荐给用户。本发明可产生对于用户而言感到既相关又意外的推荐产品,在保证推荐准确性的同时也能提升推荐的意外性,从而能提升用户满意度。

Description

一种面向信息茧房的跨领域推荐方法
技术领域
本发明属于推荐技术领域,具体涉及一种面向信息茧房的跨领域推荐方法。
背景技术
随着基于Web的社交媒体的发展,推荐系统已经变得无处不在,并逐渐成为用户与互联网交互过程中不可或缺的一部分。推荐系统过滤掉多余的信息,为消费者提供个性化的网络体验,并根据用户的个人兴趣或与用户近邻人群的历史偏好提供相关推荐内容。如今,推荐系统被用于多种类型的社交媒体平台中,如新闻、书籍和音乐等。同时,它们也是电子商务公司的重要营销技术,如豆瓣、亚马逊、阿里巴巴和Netflix等都在使用大量与推荐相关的技术。综上,推荐系统面向信息过载问题,有效地降低了消费者的搜寻成本和决策成本,提高了用户满意度,推动了社会商务的发展。
推荐系统可以准确地为用户找到相关物品。但是如果一味地向用户推荐相关性强的物品,久而久之,由于推荐系统的正强化作用,在线用户获得的信息或内容可能会越来越少,相应的用户的信息体验也会被逐渐削弱,最终导致视野窄化以及社会粘性缺失等现象,信息检索研究人员把这种现象称为信息茧房问题。而现有的推荐算法通常更多地关注于如何提高推荐的准确性,而较少关注其所可能引发的信息茧房问题。
针对信息茧房的问题,研究人员注意到推荐新颖多样的物品也会影响用户满意度,故认为推荐系统的“偶然发现”能力可以解决信息茧房的问题。但是,这些主要基于单个领域,旨在提升推荐系统“偶然发现”能力的研究,虽然在一定程度上可以避免用户陷入信息窄化的风险,从而缓解信息茧房问题,但是却往往存在推荐准确性不足的情况。目前,跨领域推荐系统正在迅速发展。
跨领域推荐系统可以将知识从源域迁移到目标域,既缓解数据稀疏性问题,还提高了推荐的准确性。而在实际应用中,例如电影和办公用品、电影和电子产品等语义关联不大,且语义异构性较强的这类弱语义匹配领域往往更为常见。此外,推荐准确性与推荐意外性的协同优化可以极大地提升顾客满意度,并且还可以有效缓解信息茧房问题。因此,引入跨领域推荐方法来全面平衡推荐准确性与多样性/意外性,以缓解信息茧房问题,正逐渐成为一个重要的研究主题。
发明内容
本发明针对现有面向信息茧房的推荐方法中存在的不足,提出了一种面向信息茧房的跨领域推荐方法,以期能在保证推荐准确性的前提下,同时提升推荐系统的“偶然发现”能力,从而平衡推荐准确性与推荐意外性,最终缓解信息茧房问题,为用户推荐感到既相关又意外的产品。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种面向信息茧房的跨领域推荐方法的特点在于,包括以下步骤:
步骤1、获取用户对产品的评分数据并进行数据预处理:
步骤1.1、确定两类属于不同领域的物品,并获得公共用户数据集U在两个领域物品上的评分数据集,其中,公共用户总数记为m;
步骤1.2、选择其中一个领域作为源域DS,另一个作为目标域DT,目标域DT和源域DS中的物品集分别表示为P和M,目标域DT和源域中DS的物品总数分别记为nT和nS
步骤1.3、令公共用户集U对目标域物品集P的评分矩阵记为
Figure BDA0003574870710000021
RT中任意用户u对目标域DT中任意物品i的评分记为ru,i,若用户u评价了物品i,则令ru,i为1,否则,令ru,i为0,同理,令公共用户集U对源域物品集M的评分矩阵记为
Figure BDA0003574870710000022
RS中任意用户u对源域DS中任意物品j的评分记为ru,j,若用户u评价了物品j,则令ru,j为1,否则,令ru,j为0;
步骤2、构建跨领域知识迁移推荐模型的跨域知识迁移模块:
步骤2.1、提取目标域DT中用户u-物品i的特征
Figure BDA0003574870710000023
步骤2.1.1、对用户u和目标域DT中物品i进行one-hot编码,分别将其映射为独热编码向量Iu∈{0,1}m
Figure BDA0003574870710000029
其中,每个独热编码向量仅在id索引位置时取值为1,其余位置均取值为0;
步骤2.1.2、对用户u和物品i分别进行嵌入化操作,构建用户u的嵌入矩阵
Figure BDA0003574870710000024
和物品i的嵌入矩阵
Figure BDA0003574870710000025
其中,d为嵌入后的维度;
步骤2.1.3、将用户u及物品i的嵌入表示XIu和YTIi进行横向拼接,得到目标域DT的用户u-物品i的特征
Figure BDA0003574870710000026
Figure BDA0003574870710000027
步骤2.2、提取目标域DT中用户u的历史行为会话特征Ou,t
步骤2.2.1、从目标域DT中选择固定长度的、任意用户u历史点击任意物品i的表示向量,共计K个,并将其汇集成用户行为序列Λu,且Λu=[λ1,λ2,...,λk,...,λK],其中,λk表示第k个表示向量;
步骤2.2.2、利用长短期记忆网络对用户行为序列Λu进行序列嵌入,得到t时刻下LSTM输出的隐藏状态hu,t
步骤2.2.3、根据式(1)计算得到用户u的历史行为会话特征Ou,t
Figure BDA0003574870710000028
式(1)中,at,b表示使用Softmax函数计算得到的第b个权重系数;
步骤2.3、将所提取的用户u-物品i的特征
Figure BDA0003574870710000031
及用户u的历史行为会话特征Ou,t进行拼接,得到目标域DT的组合特征Iu,i,且
Figure BDA0003574870710000032
步骤2.4、提取源域DS中用户u-物品j的特征Iu,j
步骤2.4.1、对于用户u和源域DS中的物品j,按照步骤2.1.1到步骤2.1.3的过程进行相同操作,最终得到源域DS的用户u-物品j的特征
Figure BDA0003574870710000033
Figure BDA0003574870710000034
其中,
Figure BDA0003574870710000035
表示对源域DS中的物品j进行编码映射后的独热编码向量,
Figure BDA0003574870710000036
表示物品j的嵌入矩阵;
步骤2.4.2、对源域DS的用户u-物品j的特征
Figure BDA0003574870710000037
先复制后拼接,得到与目标域DT的组合特征Iu,i维度对齐的源域DS的用户u-物品j的嵌入表示特征Iu,j,且
Figure BDA0003574870710000038
步骤2.5、构建由目标域DT部分和源域DS部分所共同组成的跨领域交叉网络,并以组合特征Iu,i和嵌入表示特征Iu,j分别作为跨领域交叉网络中目标域DT部分和源域DS部分的输入,然后通过知识迁移学习域间迁移特征
Figure BDA0003574870710000039
再将其与领域内特征
Figure BDA00035748707100000310
进行结合,最终得到跨领域交叉网络的输出
Figure BDA00035748707100000311
步骤2.5.1、跨领域交叉网络在目标域DT部分,利用式(2)和式(3)分别得到第l+1隐藏层的领域内特征
Figure BDA00035748707100000312
和域间迁移特征
Figure BDA00035748707100000313
Figure BDA00035748707100000314
Figure BDA00035748707100000315
式(2)和式(3)中,跨领域交叉网络在目标域DT部分的第l到第l+1隐藏层的权重矩阵表示为
Figure BDA00035748707100000316
第l隐藏层的输入表示为
Figure BDA00035748707100000317
当l=1时,初始化
Figure BDA00035748707100000318
第l隐藏层的偏置项表示为
Figure BDA00035748707100000319
跨领域交叉网络在源域DS部分的第l隐藏层的输入表示为
Figure BDA00035748707100000320
当l=1时,初始化
Figure BDA00035748707100000321
Ml为第l隐藏层从源域DS到目标域DT共享的知识迁移矩阵;
步骤2.5.2、根据式(4)计算跨领域交叉网络的输出
Figure BDA00035748707100000322
Figure BDA00035748707100000323
式(4)中,σ(·)表示激活函数,
Figure BDA00035748707100000324
Figure BDA00035748707100000325
表示通过Softmax函数计算得到的两种特征的权重系数,跨领域交叉网络的输出
Figure BDA00035748707100000326
表示特征权重系数
Figure BDA00035748707100000327
Figure BDA00035748707100000328
对第l+1隐藏层的领域内特征
Figure BDA0003574870710000041
和域间迁移特征
Figure BDA0003574870710000042
进行加权和后的激活值;
步骤2.5.3、利用式(5)建立损失函数
Figure BDA0003574870710000043
Figure BDA0003574870710000044
式(5)中,
Figure BDA0003574870710000045
分别表示
Figure BDA0003574870710000046
的分布,sup表示求上界,E表示求期望,f(·)表示高斯核映射函数,||f||<1表示函数f在再生希尔伯特空间中的范数应不大于1;
步骤3、构建跨领域知识迁移推荐模型的目标域意外性提取模块:
步骤3.1、计算用户u对新物品inew的意外性
Figure BDA0003574870710000047
步骤3.1.1、根据式(6)对目标域DT中用户u历史点击物品i的表示向量进行聚类,直至密度加权平均值m(i)收敛,最终得到N个聚类簇{F1,F2,...,FZ,...,FN},其中,FZ表示第Z个簇;
Figure BDA0003574870710000048
式(6)中,ig表示目标域DT中除任意物品i外,用户u的历史点击物品,N(i)表示目标域DT中物品i的所有邻居物品的集合,K(ig-i)表示均值偏移算法使用的核函数;
步骤3.1.2、利用式(7)得到用户u对新物品inew的意外性
Figure BDA0003574870710000049
Figure BDA00035748707100000410
式(7)中,d(inew,FZ)表示新物品inew到第Z个聚类簇FZ的聚类边缘的距离;
步骤3.2、提取用户u的意外性感知向量unexp_facu
步骤3.2.1、从目标域DT中选择固定长度的、用户u历史点击物品i的表示向量,共计K′个,且K′<K,并将其汇集成用户短历史行为序列Λ′u,按照步骤2.2.2到步骤2.2.3的过程,使用LSTM进行相同操作,根据式(8)最终得到用户u的短历史行为会话特征O′u,t
Figure BDA00035748707100000411
式(8)中,a′t,b表示使用Softmax函数计算得到的第b个权重系数,h′u,t表示利用LSTM对用户短历史行为序列Λ′u进行序列嵌入后所得到的t时刻下LSTM输出的隐藏状态;
步骤3.2.2、以目标域DT中用户u的短历史行为会话特征O′u,t作为输入,使用L层全连接网络输出用户u的意外性感知向量unexp_facu
步骤4、利用所获取的数据集对跨领域知识迁移推荐模型进行训练,并根据测试结果调整优化跨领域知识迁移推荐模型的超参数;
步骤4.1、使用交叉熵作为基础损失函数,以用户u与物品i的交互行为作为区分正负样本的标准,并根据式(9)建立目标函数,根据式(10)建立联合损失函数,训练跨领域知识迁移推荐模型:
Figure BDA0003574870710000051
式(9)中,θ表示跨领域知识迁移推荐模型中的所有参数,R+、R-为用户u-物品i评分矩阵中的正样本与负样本,r′u,i为样本中用户u对物品i的真实评分,
Figure BDA0003574870710000052
为跨领域知识迁移推荐模型用户u对物品i的预测得分;
Figure BDA0003574870710000053
式(10)中,
Figure BDA0003574870710000054
分别为目标域DT的交叉熵损失、目标域DT的最大均值差异约束损失和源域DS的交叉熵损失,令
Figure BDA0003574870710000055
Figure BDA0003574870710000056
代表跨领域知识迁移推荐模型所有参数,且
Figure BDA0003574870710000057
之间共享用户u及知识迁移矩阵M;
步骤4.2、使用Tensorflow框架,并根据式(11)和式(12)更新和学习跨领域知识迁移推荐模型参数:
Figure BDA0003574870710000058
Figure BDA0003574870710000059
式(11)和式(12)中,μ表示学习率,
Figure BDA00035748707100000510
Figure BDA00035748707100000511
分别表示跨领域知识迁移推荐模型在源域上和目标域上更新前和更新后的参数;
步骤5、按照固定比例随机抽取每个用户的评分数据用于划分训练集和测试集,将测试集数据输入到训练好的跨领域知识迁移推荐模型中,输出用户u对任意物品i的预测得分
Figure BDA00035748707100000512
从而获得用户u对目标域DT物品集P中全部物品的预测得分后进行降序排序,最终选择前N项产品推荐给用户u:
步骤5.1、根据式(13)计算跨域知识迁移模块中用户u-物品i的相关性预测得分
Figure BDA00035748707100000513
Figure BDA00035748707100000514
式(13)中,f(·)是交互函数,θ是跨领域知识迁移推荐模型中的所有参数;
步骤5.2、根据式(14)计算目标域DT意外性提取模块的意外性得分
Figure BDA0003574870710000061
Figure BDA0003574870710000062
式(14)中,f(·)表示交互函数,unexp_facu表示用户u的意外性感知向量,
Figure BDA0003574870710000063
表示用户u对新物品inew的意外性;
步骤5.3、根据式(15)计算物品i预测得分
Figure BDA0003574870710000064
Figure BDA0003574870710000065
式(15)中,
Figure BDA0003574870710000066
表示目标域DT意外性提取模块的意外性得分,
Figure BDA0003574870710000067
表示跨域知识迁移模块中用户u-物品i的相关性预测得分。
与现有技术相比,本发明的有益效果在于:
1、本发明提出的方法扩展了传统的深度迁移学习跨领域推荐方法,对不同领域的用户偏好的相关性及意外性进行了建模与优化,可以很好地学习复杂领域间的用户物品的相似关系,使得推荐准确性提升的同时,推荐意外性也得到提升。
2、本发明利用深度迁移学习方法,通过使用深度迁移学习中的共享知识矩阵、MMD约束以及领域注意力机制构建知识迁移网络,同时引入意外性提取模块来保证推荐意外性,为用户推荐更具意外性的产品。
附图说明
图1为本发明的面向信息茧房的跨领域推荐方法的整体流程图;
图2为本发明中跨领域知识迁移推荐模型的模型图;
图3为本发明中跨领域知识迁移推荐模型的跨域知识迁移模块结构图。
具体实施方式
本实施例中,一种面向信息茧房的跨领域推荐方法,是能够在保证推荐准确度的前提下,提升推荐的意外性,最终为用户推荐感到既相关又意外的产品。如图1所示,本发明主要包括以下阶段:首先获取用户对产品的评分数据并进行数据的预处理。之后建模了一个考虑推荐意外性的跨领域知识迁移推荐系统,此阶段由跨域知识迁移模块和目标域意外性提取模块组成,如图2所示。最后生成推荐列表,将物品的预测总得分的大小由高到低排序,选择前N项产品推荐给用户。具体的说,该方法包括以下步骤:
步骤1、获取用户对产品的评分数据并进行数据预处理:
步骤1.1、确定两类属于不同领域的物品,即两个领域在产品类型或风格上相差较大,且领域间无明显语义上的联系,然后对这两类语义异构性很强的领域中的公共用户,通过设置每个用户拥有评分记录的最低条数进行筛选,最终获得公共用户数据集U在两个领域物品上的评分数据集,其中,公共用户总数记为m;
步骤1.2、选择其中数据稠密度较高的一个领域作为源域DS,另一个作为目标域DT,目标域DT和源域DS中的物品集分别表示为P和M,目标域DT和源域中DS的物品总数分别记为nT和nS
步骤1.3、令公共用户集U对目标域物品集P的评分矩阵记为
Figure BDA0003574870710000071
RT中任意用户u对目标域DT中任意物品i的评分记为ru,i,若用户u评价了物品i,则令ru,i为1,否则,令ru,i为0,同理,令公共用户集U对源域物品集M的评分矩阵记为
Figure BDA0003574870710000072
RS中任意用户u对源域DS中任意物品j的评分记为ru,j,若用户u评价了物品j,则令ru,j为1,否则,令ru,j为0;
步骤2、构建跨领域知识迁移推荐模型的跨域知识迁移模块:
步骤2.1、提取目标域DT中用户u-物品i的特征
Figure BDA0003574870710000073
步骤2.1.1、对用户u和目标域DT中物品i进行one-hot编码,分别将其映射为独热编码向量Iu∈{0,1}m
Figure BDA0003574870710000074
其中,每个独热编码向量仅在id索引位置时取值为1,其余位置均取值为0;
步骤2.1.2、对用户u和物品i分别进行嵌入化操作,构建用户u的嵌入矩阵
Figure BDA0003574870710000075
和物品i的嵌入矩阵
Figure BDA0003574870710000076
其中,d为嵌入后的维度;
步骤2.1.3、将用户u及物品i的嵌入表示XIu和YTIi进行横向拼接,得到目标域DT的用户u-物品i的特征
Figure BDA0003574870710000077
Figure BDA0003574870710000078
步骤2.2、提取目标域DT中用户u的历史行为会话特征Ou,t
步骤2.2.1、从目标域DT中选择固定长度的、任意用户u历史点击任意物品i的表示向量,共计K个,并将其汇集成用户行为序列Λu,且Λu=[λ1,λ2,...,λk,...,λK],其中,λk表示第k个表示向量;
步骤2.2.2、利用长短期记忆网络对用户行为序列Λu进行序列嵌入,得到t时刻下LSTM输出的隐藏状态hu,t
步骤2.2.3、根据式(1)计算得到用户u的历史行为会话特征Ou,t
Figure BDA0003574870710000079
式(1)中,at,b表示使用Softmax函数计算得到的第b个权重系数;
步骤2.3、将所提取的用户u-物品i的特征
Figure BDA00035748707100000710
受用户u的历史行为会话特征Ou,t进行拼接,得到目标域DT的组合特征Iu,i,且
Figure BDA0003574870710000081
步骤2.4、提取源域DS中用户u-物品j的特征Iu,j
步骤2.4.1、对于用户u和源域DS中的物品j,按照步骤2.1.1到步骤2.1.3的过程进行相同操作,最终得到源域DS的用户u-物品j的特征
Figure BDA0003574870710000082
Figure BDA0003574870710000083
其中,
Figure BDA0003574870710000084
表示对源域DS中的物品j进行编码映射后的独热编码向量,
Figure BDA0003574870710000085
表示物品j的嵌入矩阵;
步骤2.4.2、对源域DS的用户u-物品j的特征
Figure BDA0003574870710000086
先复制后拼接,得到与目标域DT的组合特征Iu,i维度对齐的源域DS的用户u-物品j的嵌入表示特征Iu,j,且
Figure BDA0003574870710000087
步骤2.5、构建由目标域DT部分和源域DS部分所共同组成的跨领域交叉网络,如图3所示,并以组合特征Iu,i和嵌入表示特征Iu,j分别作为跨领域交叉网络中目标域DT部分和源域DS部分的输入,然后通过知识迁移学习域间迁移特征
Figure BDA0003574870710000088
再将其与领域内特征
Figure BDA0003574870710000089
进行结合,最终得到跨领域交叉网络的输出
Figure BDA00035748707100000810
步骤2.5.1、跨领域交叉网络在目标域DT部分,利用式(2)和式(3)分别得到第l+1隐藏层的领域内特征
Figure BDA00035748707100000811
和域间迁移特征
Figure BDA00035748707100000812
Figure BDA00035748707100000813
Figure BDA00035748707100000814
式(2)和式(3)中,跨领域交叉网络在目标域DT部分的第l到第l+1隐藏层的权重矩阵表示为
Figure BDA00035748707100000815
第l隐藏层的输入表示为
Figure BDA00035748707100000816
当l=1时,初始化
Figure BDA00035748707100000817
第l隐藏层的偏置项表示为
Figure BDA00035748707100000818
跨领域交叉网络在源域DS部分的第l隐藏层的输入表示为
Figure BDA00035748707100000819
特别地,当l=1时,初始化
Figure BDA00035748707100000820
Figure BDA00035748707100000821
Ml为第l隐藏层从源域DS到目标域DT共享的知识迁移矩阵,对应着交叉连线的线性投影,控制从源域DS到目标域DT的输入,且跨领域交叉网络的每一层都可分为领域内独有和领域间交叉两部分;
步骤2.5.2、根据式(4)计算跨领域交叉网络的输出
Figure BDA00035748707100000822
Figure BDA00035748707100000823
式(4)中,σ(·)表示激活函数,
Figure BDA00035748707100000824
Figure BDA00035748707100000825
表示使用域级别的注意力机制学习的,通过Softmax函数计算得到的,两种特征的权重系数,跨领域交叉网络的输出
Figure BDA00035748707100000826
表示特征权重系数
Figure BDA00035748707100000827
Figure BDA0003574870710000091
对第l+1隐藏层的领域内特征
Figure BDA0003574870710000092
和域间迁移特征
Figure BDA0003574870710000093
进行加权和后的激活值;
步骤2.5.3、利用式(5)建立损失函数
Figure BDA0003574870710000094
Figure BDA0003574870710000095
式(5)中,
Figure BDA0003574870710000096
分别表示
Figure BDA0003574870710000097
的分布,sup表示求上界,E表示求期望,f(·)表示高斯核映射函数,可将从源域DS迁移至目标域DT的域间迁移特征
Figure BDA0003574870710000098
与目标域DT原有的领域内特征
Figure BDA0003574870710000099
映射到高维的再生希尔伯特空间,然后再利用最大均值差异对这两个特征进行约束,||f||<1表示函数f在再生希尔伯特空间中的范数应不大于1;
步骤3、构建跨领域知识迁移推荐模型的目标域意外性提取模块:
步骤3.1、计算用户u对新物品inew的意外性
Figure BDA00035748707100000910
步骤3.1.1、根据式(6)使用无监督的MeanShift聚类算法,对目标域DT中用户u历史点击物品i的表示向量进行聚类,直至密度加权平均值m(i)收敛,最终得到N个聚类簇{F1,F2,...,FZ,...,FN},其中,FZ表示第Z个簇;
Figure BDA00035748707100000911
式(6)中,ig表示目标域DT中除任意物品i外,用户u的历史点击物品,N(i)表示目标域DT中物品i的所有邻居物品的集合,K(ig-i)表示均值偏移算法使用的核函数;
步骤3.1.2、利用式(7)得到用户u对新物品inew的意外性
Figure BDA00035748707100000912
Figure BDA00035748707100000913
式(7)中,d(inew,FZ)表示新物品inew到第Z个聚类簇FZ的聚类边缘的距离,为防止意外性
Figure BDA00035748707100000914
到达一定的阀值后造成相关性的大量损失,采用y(x)=x·e-x为激活函数,对
Figure BDA00035748707100000915
进行单峰激活,使得当意外性
Figure BDA00035748707100000916
上升至一定阀值就不会再继续上升,从而保证稳定的相关性,因此,某个新物品inew对于用户u的意外性
Figure BDA00035748707100000917
可以定义为该新物品inew到用户u聚类边缘的加权距离之和;
步骤3.2、提取用户u的意外性感知向量unexp_facu
步骤3.2.1、从目标域DT中选择固定长度的、用户u历史点击物品i的表示向量,共计K′个,且K′<K,并将其汇集成用户短历史行为序列Λ′u,按照步骤2.2.2到步骤2.2.3的过程,使用LSTM进行相同操作,根据式(8)最终得到用户u的短历史行为会话特征O′u,t
Figure BDA0003574870710000101
式(8)中,a′t,b表示使用Softmax函数计算得到的第b个权重系数,h′u,t表示利用LSTM对用户短历史行为序列Λ′u进行序列嵌入,所得到的t时刻下LSTM输出的隐藏状态;
步骤3.2.2、以目标域DT中用户u的短历史行为会话特征O′u,t作为输入,使用L层全连接网络,输出用户u的意外性感知向量unexp_facu
步骤4、利用所获取的数据集对跨领域知识迁移推荐模型进行训练,并根据测试结果调整优化跨领域知识迁移推荐模型的超参数;
步骤4.1、使用交叉熵作为基础损失函数,以用户u与物品i的交互行为作为区分正负样本的标准,并根据式(9)建立目标函数,根据式(10)建立联合损失函数来训练跨领域知识迁移推荐模型:
Figure BDA0003574870710000102
式(9)中,θ表示跨领域知识迁移推荐模型中的所有参数,R+、R-为用户u-物品i评分矩阵中的正样本与负样本,r′u,i为样本中用户u对物品i的真实评分,
Figure BDA0003574870710000103
为跨领域知识迁移推荐模型用户u对物品i的预测得分,
Figure BDA0003574870710000104
式(10)中,
Figure BDA0003574870710000105
分别为目标域DT的交叉熵损失、目标域DT的最大均值差异约束损失和源域DS的交叉熵损失,令
Figure BDA0003574870710000106
Figure BDA0003574870710000107
代表跨领域知识迁移推荐模型所有参数,且
Figure BDA0003574870710000108
之间共享用户u及知识迁移矩阵M,目标函数可以通过随机下降梯度来进行优化;
步骤4.2、使用Tensorflow框架,根据式(11)和式(12)更新和学习跨领域知识迁移推荐模型参数:
Figure BDA0003574870710000109
Figure BDA00035748707100001010
式(11)和式(12)中,μ表示学习率,
Figure BDA00035748707100001011
Figure BDA00035748707100001012
分别表示跨领域知识迁移推荐模型在源域上和目标域上更新前和更新后的参数,
步骤5、按照固定比例随机抽取每个用户的评分数据用于划分训练集和测试集,将测试集数据输入到训练好的跨领域知识迁移推荐模型中,输出得到用户u对任意物品i的预测分数
Figure BDA0003574870710000111
然后获得用户u对目标域DT物品集P中全部物品的预测得分,并进行降序排序,最终选择前N项产品推荐给用户u:
步骤5.1、根据式(13)计算跨域知识迁移模块中用户u-物品i的相关性预测得分
Figure BDA0003574870710000112
Figure BDA0003574870710000113
式(13)中,f(·)是交互函数,θ是跨领域知识迁移推荐模型中的所有参数;
步骤5.2、根据式(14)计算目标域DT意外性提取模块的意外性得分
Figure BDA0003574870710000114
Figure BDA0003574870710000115
式(14)中,f(·)表示交互函数,,unexp_facu表示用户u的意外性感知向量,
Figure BDA0003574870710000116
表示用户u对新物品inew的意外性;
步骤5.3、根据式(15)计算物品i预测得分
Figure BDA0003574870710000117
Figure BDA0003574870710000118
式(15)中,
Figure BDA0003574870710000119
表示目标域DT意外性提取模块的意外性得分,
Figure BDA00035748707100001110
表示跨域知识迁移模块中用户u-物品i的相关性预测得分。

Claims (1)

1.一种面向信息茧房的跨领域推荐方法,其特征在于,包括以下步骤:
步骤1、获取用户对产品的评分数据并进行数据预处理:
步骤1.1、确定两类属于不同领域的物品,并获得公共用户数据集U在两个领域物品上的评分数据集,其中,公共用户总数记为m;
步骤1.2、选择其中一个领域作为源域DS,另一个作为目标域DT,目标域DT和源域DS中的物品集分别表示为P和M,目标域DT和源域中DS的物品总数分别记为nT和nS
步骤1.3、令公共用户集U对目标域物品集P的评分矩阵记为
Figure FDA0003574870700000011
RT中任意用户u对目标域DT中任意物品i的评分记为ru,i,若用户u评价了物品i,则令ru,i为1,否则,令ru,i为0,同理,令公共用户集U对源域物品集M的评分矩阵记为
Figure FDA0003574870700000012
RS中任意用户u对源域DS中任意物品j的评分记为ru,j,若用户u评价了物品j,则令ru,j为1,否则,令ru,j为0;
步骤2、构建跨领域知识迁移推荐模型的跨域知识迁移模块:
步骤2.1、提取目标域DT中用户u-物品i的特征
Figure FDA0003574870700000013
步骤2.1.1、对用户u和目标域DT中物品i进行one-hot编码,分别将其映射为独热编码向量Iu∈{0,1}m
Figure FDA0003574870700000014
其中,每个独热编码向量仅在id索引位置时取值为1,其余位置均取值为0;
步骤2.1.2、对用户u和物品i分别进行嵌入化操作,构建用户u的嵌入矩阵
Figure FDA0003574870700000015
和物品i的嵌入矩阵
Figure FDA0003574870700000016
其中,d为嵌入后的维度;
步骤2.1.3、将用户u及物品i的嵌入表示XIu和YTIi进行横向拼接,得到目标域DT的用户u-物品i的特征
Figure FDA0003574870700000017
Figure FDA0003574870700000018
步骤2.2、提取目标域DT中用户u的历史行为会话特征Ou,t
步骤2.2.1、从目标域DT中选择固定长度的、任意用户u历史点击任意物品i的表示向量,共计K个,并将其汇集成用户行为序列Λu,且Λu=[λ1,λ2,...,λk,...,λK],其中,λk表示第k个表示向量;
步骤2.2.2、利用长短期记忆网络对用户行为序列Λu进行序列嵌入,得到t时刻下LSTM输出的隐藏状态hu,t
步骤2.2.3、根据式(1)计算得到用户u的历史行为会话特征Ou,t
Figure FDA0003574870700000019
式(1)中,at,b表示使用Softmax函数计算得到的第b个权重系数;
步骤2.3、将所提取的用户u-物品i的特征
Figure FDA0003574870700000021
及用户u的历史行为会话特征Ou,t进行拼接,得到目标域DT的组合特征Iu,i,且
Figure FDA0003574870700000022
步骤2.4、提取源域DS中用户u-物品j的特征Iu,j
步骤2.4.1、对于用户u和源域DS中的物品j,按照步骤2.1.1到步骤2.1.3的过程进行相同操作,最终得到源域DS的用户u-物品j的特征
Figure FDA0003574870700000023
Figure FDA0003574870700000024
其中,
Figure FDA0003574870700000025
表示对源域DS中的物品j进行编码映射后的独热编码向量,
Figure FDA0003574870700000026
表示物品j的嵌入矩阵;
步骤2.4.2、对源域DS的用户u-物品j的特征
Figure FDA0003574870700000027
先复制后拼接,得到与目标域DT的组合特征Iu,i维度对齐的源域DS的用户u-物品j的嵌入表示特征Iu,j,且
Figure FDA0003574870700000028
步骤2.5、构建由目标域DT部分和源域DS部分所共同组成的跨领域交叉网络,并以组合特征Iu,i和嵌入表示特征Iu,j分别作为跨领域交叉网络中目标域DT部分和源域DS部分的输入,然后通过知识迁移学习域间迁移特征
Figure FDA0003574870700000029
再将其与领域内特征
Figure FDA00035748707000000210
进行结合,最终得到跨领域交叉网络的输出
Figure FDA00035748707000000211
步骤2.5.1、跨领域交叉网络在目标域DT部分,利用式(2)和式(3)分别得到第l+1隐藏层的领域内特征
Figure FDA00035748707000000212
和域间迁移特征
Figure FDA00035748707000000213
Figure FDA00035748707000000214
Figure FDA00035748707000000215
式(2)和式(3)中,跨领域交叉网络在目标域DT部分的第l到第l+1隐藏层的权重矩阵表示为
Figure FDA00035748707000000216
第l隐藏层的输入表示为
Figure FDA00035748707000000217
当l=1时,初始化
Figure FDA00035748707000000218
第l隐藏层的偏置项表示为
Figure FDA00035748707000000219
跨领域交叉网络在源域DS部分的第l隐藏层的输入表示为
Figure FDA00035748707000000220
当l=1时,初始化
Figure FDA00035748707000000221
Ml为第l隐藏层从源域DS到目标域DT共享的知识迁移矩阵;
步骤2.5.2、根据式(4)计算跨领域交叉网络的输出
Figure FDA00035748707000000222
Figure FDA00035748707000000223
式(4)中,σ(·)表示激活函数,
Figure FDA00035748707000000224
Figure FDA00035748707000000225
表示通过Softmax函数计算得到的两种特征的权重系数,跨领域交叉网络的输出
Figure FDA00035748707000000226
表示特征权重系数
Figure FDA00035748707000000227
Figure FDA00035748707000000228
对第l+1隐藏层的领域内特征
Figure FDA00035748707000000229
和域间迁移特征
Figure FDA00035748707000000230
进行加权和后的激活值;
步骤2.5.3、利用式(5)建立损失函数
Figure FDA0003574870700000031
Figure FDA0003574870700000032
式(5)中,
Figure FDA0003574870700000033
分别表示
Figure FDA0003574870700000034
的分布,sup表示求上界,E表示求期望,f(·)表示高斯核映射函数,||f||<1表示函数f在再生希尔伯特空间中的范数应不大于1;
步骤3、构建跨领域知识迁移推荐模型的目标域意外性提取模块:
步骤3.1、计算用户u对新物品inew的意外性
Figure FDA0003574870700000035
步骤3.1.1、根据式(6)对目标域DT中用户u历史点击物品i的表示向量进行聚类,直至密度加权平均值m(i)收敛,最终得到N个聚类簇{F1,F2,...,FZ,...,FN},其中,FZ表示第Z个簇;
Figure FDA0003574870700000036
式(6)中,ig表示目标域DT中除任意物品i外,用户u的历史点击物品,N(i)表示目标域DT中物品i的所有邻居物品的集合,K(ig-i)表示均值偏移算法使用的核函数;
步骤3.1.2、利用式(7)得到用户u对新物品inew的意外性
Figure FDA0003574870700000037
Figure FDA0003574870700000038
式(7)中,d(inew,FZ)表示新物品inew到第Z个聚类簇FZ的聚类边缘的距离;
步骤3.2、提取用户u的意外性感知向量unexp_facu
步骤3.2.1、从目标域DT中选择固定长度的、用户u历史点击物品i的表示向量,共计K′个,且K′<K,并将其汇集成用户短历史行为序列Λ′u,按照步骤2.2.2到步骤2.2.3的过程,使用LSTM进行相同操作,根据式(8)最终得到用户u的短历史行为会话特征O′u,t
Figure FDA0003574870700000039
式(8)中,a′t,b表示使用Softmax函数计算得到的第b个权重系数,h′u,t表示利用LSTM对用户短历史行为序列Λ′u进行序列嵌入后所得到的t时刻下LSTM输出的隐藏状态;
步骤3.2.2、以目标域DT中用户u的短历史行为会话特征O′u,t作为输入,使用L层全连接网络输出用户u的意外性感知向量unexp-facu
步骤4、利用所获取的数据集对跨领域知识迁移推荐模型进行训练,并根据测试结果调整优化跨领域知识迁移推荐模型的超参数;
步骤4.1、使用交叉熵作为基础损失函数,以用户u与物品i的交互行为作为区分正负样本的标准,并根据式(9)建立目标函数,根据式(10)建立联合损失函数,训练跨领域知识迁移推荐模型:
Figure FDA0003574870700000041
式(9)中,θ表示跨领域知识迁移推荐模型中的所有参数,R+、R-为用户u-物品i评分矩阵中的正样本与负样本,r′u,i为样本中用户u对物品i的真实评分,
Figure FDA0003574870700000042
为跨领域知识迁移推荐模型用户u对物品i的预测得分;
Figure FDA0003574870700000043
式(10)中,
Figure FDA0003574870700000044
分别为目标域DT的交叉熵损失、目标域DT的最大均值差异约束损失和源域DS的交叉熵损失,令
Figure FDA0003574870700000045
Figure FDA0003574870700000046
代表跨领域知识迁移推荐模型所有参数,且
Figure FDA0003574870700000047
之间共享用户u及知识迁移矩阵M;
步骤4.2、使用Tensorflow框架,并根据式(11)和式(12)更新和学习跨领域知识迁移推荐模型参数:
Figure FDA0003574870700000048
Figure FDA0003574870700000049
式(11)和式(12)中,μ表示学习率,
Figure FDA00035748707000000410
Figure FDA00035748707000000411
分别表示跨领域知识迁移推荐模型在源域上和目标域上更新前和更新后的参数;
步骤5、按照固定比例随机抽取每个用户的评分数据用于划分训练集和测试集,将测试集数据输入到训练好的跨领域知识迁移推荐模型中,输出用户u对任意物品i的预测得分
Figure FDA00035748707000000412
从而获得用户u对目标域DT物品集P中全部物品的预测得分后进行降序排序,最终选择前N项产品推荐给用户u:
步骤5.1、根据式(13)计算跨域知识迁移模块中用户u-物品i的相关性预测得分
Figure FDA00035748707000000413
Figure FDA00035748707000000414
式(13)中,f(·)是交互函数,θ是跨领域知识迁移推荐模型中的所有参数;
步骤5.2、根据式(14)计算目标域DT意外性提取模块的意外性得分
Figure FDA00035748707000000415
Figure FDA0003574870700000051
式(14)中,f(·)表示交互函数,unexp_facu表示用户u的意外性感知向量,
Figure FDA0003574870700000052
表示用户u对新物品inew的意外性;
步骤5.3、根据式(15)计算物品i预测得分
Figure FDA0003574870700000053
Figure FDA0003574870700000054
式(15)中,
Figure FDA0003574870700000055
表示目标域DT意外性提取模块的意外性得分,
Figure FDA0003574870700000056
表示跨域知识迁移模块中用户u-物品i的相关性预测得分。
CN202210337382.1A 2022-03-31 2022-03-31 一种面向信息茧房的跨领域推荐方法 Pending CN115525819A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210337382.1A CN115525819A (zh) 2022-03-31 2022-03-31 一种面向信息茧房的跨领域推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210337382.1A CN115525819A (zh) 2022-03-31 2022-03-31 一种面向信息茧房的跨领域推荐方法

Publications (1)

Publication Number Publication Date
CN115525819A true CN115525819A (zh) 2022-12-27

Family

ID=84695703

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210337382.1A Pending CN115525819A (zh) 2022-03-31 2022-03-31 一种面向信息茧房的跨领域推荐方法

Country Status (1)

Country Link
CN (1) CN115525819A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116645121A (zh) * 2023-05-05 2023-08-25 国网浙江省电力有限公司 基于多维度数据融合的营销模型迁移迭代方法及处理方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116645121A (zh) * 2023-05-05 2023-08-25 国网浙江省电力有限公司 基于多维度数据融合的营销模型迁移迭代方法及处理方法
CN116645121B (zh) * 2023-05-05 2023-11-03 国网浙江省电力有限公司 基于多维度数据融合的营销模型迁移迭代方法及处理方法

Similar Documents

Publication Publication Date Title
CN111177575B (zh) 一种内容推荐方法、装置、电子设备和存储介质
CN111797321B (zh) 一种面向不同场景的个性化知识推荐方法及系统
CN108647251B (zh) 基于宽深度门循环联合模型的推荐排序方法
CN111222332B (zh) 一种结合注意力网络和用户情感的商品推荐方法
CN109785062B (zh) 一种基于协同过滤模型的混合神经网络推荐系统
CN110717098B (zh) 基于元路径的上下文感知用户建模方法、序列推荐方法
CN110362738B (zh) 一种基于深度学习的结合信任和影响力的个性化推荐方法
CN111061962A (zh) 一种基于用户评分分析的推荐方法
CN111127146A (zh) 基于卷积神经网络与降噪自编码器的信息推荐方法及系统
He et al. Collaborative additional variational autoencoder for top-N recommender systems
Duma et al. Sparseness reduction in collaborative filtering using a nearest neighbour artificial immune system with genetic algorithms
CN111241394A (zh) 数据处理方法、装置、计算机可读存储介质及电子设备
CN111523055A (zh) 一种基于农产品特征属性评论倾向的协同推荐方法及系统
CN111723285A (zh) 一种基于评分的深度谱卷积协同过滤推荐方法
CN115270004B (zh) 一种基于场因子分解的教育资源推荐方法
Ge et al. Helpfulness-aware review based neural recommendation
CN116680363A (zh) 一种基于多模态评论数据的情感分析方法
Hwang et al. Using genetic algorithms for personalized recommendation
CN115525819A (zh) 一种面向信息茧房的跨领域推荐方法
CN111949894B (zh) 一种基于多空间交互的协同过滤个性化推荐方法
Wang et al. Online course recommendation algorithm based on multilevel fusion of user features and item features
Bunga et al. From implicit preferences to ratings: Video games recommendation based on collaborative filtering
CN115840853A (zh) 一种基于知识图谱和图注意力网络的课程推荐系统
CN113159976B (zh) 一种微博网络重要用户的识别方法
Xiao et al. A better understanding of the interaction between users and items by knowledge graph learning for temporal recommendation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination