CN116244501B

CN116244501B - 基于一阶元学习和多监督者关联网络的冷启动推荐方法

Info

Publication number: CN116244501B
Application number: CN202211664300.0A
Authority: CN
Inventors: 刘小洋; 张子扬
Original assignee: Chongqing University of Technology
Current assignee: Chongqing University of Technology
Priority date: 2022-12-23
Filing date: 2022-12-23
Publication date: 2023-08-08
Anticipated expiration: 2042-12-23
Also published as: CN116244501A

Abstract

本发明提出了一种基于一阶元学习和多监督者关联网络的冷启动推荐方法，包括：S1，将原始特征通过嵌入层转化为稠密向量，得到用户的稠密表示和物品的稠密表示；S2，将用户的稠密表示输入到多监督者网络当中；S3，通过多监督者网络生成的用户表示以及物品的稠密表示输入到关联网络计算每个用户和物品的重要性，进行一个细粒度的用户‑物品交互建模，得到加权之后的用户表示和物品表示；S4，将经过细粒度建模生成的用户表示和物品表示输入到基于FOMAML的个性化用户偏好估计模型当中输出最终的结果。本发明方法有效缓解了模型训练开销过大的问题和用户爱好偏差问题，提升了模型冷启动推荐的准确性。

Description

基于一阶元学习和多监督者关联网络的冷启动推荐方法

技术领域

本发明涉及冷启动推荐领域，特别是涉及一种基于一阶元学习和多监督者关联网络的冷启动推荐方法。

背景技术

随着信息科技的迅速发展，互联网信息数量呈现指数性增长，并且低熵信息在互联网上所占的比例越来越大，互联网用户想要根据自身需求获取对应的信息的难度越来越大。推荐系统作为解决信息超载现象的有效工具可以帮助用户在繁杂的信息当中找出满足需求的信息。传统的推荐系统通常可以分为基于协同过滤的推荐系统和基于内容的推荐系统，基于协同过滤的推荐系统通过从大量用户中收集用户的历史偏好信息来评估用户响应，这种预测方式是建立在与目标用户具有相似性的其他用户对物品的评级之上的。所以当有新用户或者新物品时这类系统就无法处理，因为缺乏用户-物品的交互历史，无法判定新用户或者新物品与其他用户或者其他物品的相似度。为此引入了基于内容的推荐系统来解决冷启动问题，此类推荐系统是根据用户的个人资料信息和物品的内容来提出建议的，它向新用户推荐和其具有相似内容的用户所喜爱的物品。但是当用户-物品交互历史数据稀疏时，此类系统在实际运用当中并没有很好的表现。另外由于大众网络安全意识的提升，获取用户的个人资料信息也是越来越困难，推荐系统面临着冷启动问题。

为了缓解冷启动问题，业界做了很多努力。近年来研究人员将基于优化的元学习引入到了推荐系统当中，基于优化的参数初始化的基本思想是将元知识w，定义为基础推荐模型的初始参数，然后以双层优化的形式更新参数初始化。除了基于推荐模型的参数初始化之外，一些工作还利用元学习来学习不同冷启动任务的自适应超参数。

目前基于元学习范式的模型还是存在一些问题，例如MeLU仅使用到了用户和物品的相关属性，没有使用到富有价值的用户历史交互序列，同时每一类属性生成的嵌入向量(embedding)都是固定的，没有考虑到可能存在相同属性的用户偏爱不同类型的物品的这种情况。MAMO为每个用户构建独有的嵌入向量生成器和推荐器，但是效果不是很稳定，这可能由于过拟合导致的。除此之外多数元学习范式模型的均是引入MAML元学习框架，但是其内部分二阶导运算会导致收敛速度慢、梯度退化和训练开销大等缺点。

此外，在工业界中对推荐系统的时延性有很高的要求，同时在实际应用中用户的潜在喜好是难以琢磨的，对于拥有相似特征的用户来说，他们所喜欢的物品可能会有细微的区别。

发明内容

本发明旨在至少解决现有技术中存在的技术问题，特别创新地提出了一种基于一阶元学习和多监督者关联网络的冷启动推荐方法。

为了实现本发明的上述目的，本发明提供了一种基于一阶元学习和多监督者关联网络的冷启动推荐方法，包括：

S1，将原始特征通过嵌入层转化为稠密向量，得到用户的稠密表示和物品的稠密表示；用户和物品的稠密表示分别为其中k表示嵌入维度，表示用户第N个特征的稠密化向量表示，表示物品第M个特征的稠密化表示；

S2，将用户的稠密表示输入到多监督者网络当中；

S3，通过多监督者网络生成的用户表示以及物品的稠密表示输入到关联网络计算每个用户和物品的重要性，进行一个细粒度的用户-物品交互建模，得到加权之后的用户表示和物品表示；

S4，将经过细粒度建模生成的用户表示和物品表示输入到基于FOMAML的个性化用户偏好估计模型当中输出最终的结果。

为了提高推荐系统的时延性和捕捉用户细微的区别，本发明专利引入FOMAML元学习框架并构建了多监督者关联网络来解决上述问题。

进一步地，采用驱动门指导所述多监督者网络中各个监督者的监督力度。

进一步地，所述驱动门表示为：

a^supervisor＝softmax(σ(i,Γ(u))) (6)

其中a^supervisor表示任务物品驱动门使用softmax函数对前馈神经网络的结果归一化后的权重向量；所述前馈神经网络为监督者网络；

σ(.)是一个三层的前馈神经网络；

i和u分别表示物品i和用户u；本文的物品i和用户u均是集合。

Γ(.)是聚合函数；

最后的结果是权重向量可以表示不同监督者的监督倾向。

在最后经过驱动门的用户表示为：

r表示经过驱动门生成的权重向量做点积操作的用户表示；

a^supervisor表示不同监督者的监督倾向，为权重向量；

s_i(u)表示第i个监督者对用户u进行监督指导后的用户表示；

n表示监督者的个数。

每个监督者能够监督不同类型的物品，多监督者网络能够对物品关系进行建模，如果物品高度相关，则驱动门将选择类似的监督者网络来督促用户对其加强关注度，如果物品的相关性较小，驱动门将学习利用不同的监督者网络对用户进行督促。

进一步地，所述聚合函数采用均值操作。对用户特征进行均值操作是想让模型更专注于物品信息的同时引入用户信息。

进一步地，所述S3包括：

S3-1，计算关联矩阵：

其中表示关联矩阵；

tanh是非线性激活函数；

r表示经过驱动门生成的权重向量做点积操作的用户表示；

·^T表示矩阵的转置；

是一个权重矩阵；

i表示物品i；

关联矩阵表示在交互级别上对应的一对用户和物品表示之间的关联程度。

S3-2，使用S3-1求得的关联矩阵计算用户-物品关联程度的特征计算用户和物品的注意力分数：

其中，c_u表示用户注意力分数；

c_i表示物品注意力分数；

W₁、W₂表示注意力权重矩阵；

通过关联矩阵关联网络能关联用户和物品来计算其相应的重要性。

使用softmax函数对上述分数进行归一化得到：

R＝softmax(c_uV₁) (11)

I＝softmax(c_iV₂) (12)

其中V₁,V₂表示重要性权重矩阵；

R和I分别表示估计的用户和物品重要度。

S3-3，计算加权之后的用户表示和物品表示为：

其中表示加权之后的用户表示；

表示加权之后的物品表示；

R_n表示估计的第n个用户重要度；

r_n表示第n个用户；

I_m表示估计的第m个物品重要度；

i_m表示第m个物品；

N表示用户的特征数；

M表示物品的特征数。

最后将加权之后的用户表示和物品表示连接起来送入到个性化用户偏好估计网络当中进行预测。

进一步地，所述基于FOMAML的个性化用户偏好估计模型包括决策层和输出层，所述决策层是一个N层的全连接神经网络；

所述决策层为：

所述输出层为：

其中p₀是决策层的输入，为步骤S3得到的用户表示和物品表示连接起来的总体向量表示；

表示对进行连接操作；

p₁表示p₀经第一层决策层生成的融合用户和物品信息的向量表示；

p_N表示经第N层决策层生成的融合用户和物品信息的向量表示；

·^T表示矩阵的转置；

W_N和b_N是第N层决策的权重矩阵和偏差向量；

W_o和b_o是输出层的权重矩阵和偏差向量；

是用户对物品的偏好；

a和σ分别表示决策层和输出层的激活函数。这些激活函数的选取取决于用户偏好的定义方式。

综上所述，由于采用了上述技术方案，本发明具有以下优点：

(1)本发明专利提出了一种基于一阶元学习和多监督者关联网络的冷启动推荐方法，有效缓解了模型训练开销过大的问题和用户爱好偏差问题，提升了模型冷启动推荐的准确性。

(2)为了缓解元学习范式模型在大型数据集上收敛速度慢和二阶梯度更新导致的梯度退化问题，本发明专利将一阶元学习框架FOMAML引入到推荐方法当中，将以往元学习范式内部的二阶导运算转换成一阶导运算。

(3)为了缓解用户爱好偏差问题，本发明专利提出了一种多监督者关联网络学习可转移的知识提高用户表示质量和提取用户-物品更加细粒度的表示，通过多监督者网络生成用户高质量表示，然后关联网络对用户和物品进行一个细粒度建模，增强用户和物品的特征表示。

(4)本发明专利在MovieLens-100K和Bookcrossing两个不同量级的基准数据集上进行了广泛的实验，以评估所提出的冷启动推荐方法的性能。实验结果表明，FO-MSAN方法在冷启动推荐方面优于现有的元学习范式模型。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是基于优化的元学习算法示意图。

图2是本发明FO-MSAN推荐框架图。

图3是FO-MSAN和基线模型在排序任务上的对比结果图。

图4是FO-MSAN和基线模型在评分预测方面的对比结果图。

图5是FO-MSAN在多监督者网络和关联网络两个不同网络组件上的消融实验结果图。

图6是不同嵌入维度在评分预测方面对FO-MSAN的影响示意图。

图7是不同嵌入维度在排序任务方面对FO-MSAN方法的影响示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

1.相关工作

1.1基于优化的元学习

元学习也叫作学习如何去学习，其目的是训练一个模型，这个模型能够利用很少的样本就能快速适应一个新进任务。元学习主要是受到人类学习过程的启发，人类在学习过程中面对新任务能够利用以前学习到的知识通过更少的学习样本来对新任务进行学习。元学习可以分为三种不同类型：基于度量的、基于模型的和基于优化的元学习。在以前的元学习工作中，基于度量的方法学习度量或任务上的距离函数，而基于模型的方法旨在设计一个架构或训练流程以快速概括任务。最后，基于优化的方法直接调整优化算法。近年来元学习框架引起了许多领域的兴趣，例如推荐、自然语言处理和计算机视觉。其中基于度量和基于模型的元学习在以往的研究当中都是主要应用在分类问题上面，但是推荐系统当中要根据用户的个人需求从而为用户提供不同的个性化商品，所以基于优化的元学习就引入到了推荐系统当中。基于优化的元学习在推荐系统中主要是通过跨任务学习各类知识，也就是模型参数的全局共享初始化，通过学习一个全局化的初始化参数可以让模型更快的适应一个具有少量任务数据的新任务，许多研究人员的大量实验已经证明了元学习在改善推荐系统冷启动方面有很好的效果。

1.FOMAML

当前元学习框架有不同的类型，比如MAML、FOMAML、Reptile等。MAML在方法论上可以适用于不同的模型甚至不同的任务类型，这是因为当前的机器学习方法都会进行梯度更新，而MAML的关注点就在梯度更新上。MAML的核心思想很简单：假如数据分为Meta_train和Meta_test，其中Meta_train包含多个任务的数据，又可以分为支持集(Support set)和查询集(Query set)，分别用于训练和测试。在每个迭代中，会有一个初始参数θ，分别针对k个任务使用支持集进行梯度更新并得到不同任务相应的新参数θ_i'，接着再在k个任务上使用查询集对全局的初始参数θ更新，基于优化的元学习算法如图1所示。

图中灰色分支线代表不同任务的更新方向，而黑色的主轴线代表模型参数的最终走向，这样可以防止参数不会过拟合到某一个任务上。最后的虚线代表的是对新任务的适应，也是对模型参数的微调。适应的过程可以是简单的几步梯度更新就可以使模型适应到新的任务上。但是MAML在每一次迭代过程中要计算两次梯度，这意味着需要消耗更多的计算时间。

FOMAML是为了解决MAML中二次迭代需要消耗更多计算时间的问题而提出来的，FOMAML不会进行二次梯度更新。在MAML中，优化目标是：

minimize_θ表示寻找一个使L_τ(·)损失最小的初始化参数θ；

表示在任务τ上的期望；

L_τ(·)表示在任务τ上对应的损失函数；

其中表示对全局化初始参数θ使用任务τ的k个样本进行参数更新也即是进行k次梯度更新，因此梯度为：

表示更新操作的雅克比矩阵；

g_MAML表示MAML的梯度；

L′_τ(·)表示在任务τ对应的损失函数的导数；

θ_new表示经过梯度更新之后得到的参数，相当于在初始参数向量θ上加上一个梯度向量序列，即θ_new＝θ+g₁+g₂+...+g_k，g_i表示不同任务的梯度更新结果。

其中涉及到求二阶导，会相对耗时。FOMAML在对k个任务进行梯度计算时不再是分成k个不同的θ′_i'，i表示第几个任务，而是在下一个任务梯度计算时运用上一个任务计算得到的梯度，最终的全局梯度更新也是对计算完k个任务之后得到的参数θ_i进行更新，其梯度为：

g_FOMAML表示FOMAML的梯度；

L′_τ(·)表示在任务τ对应的损失函数的导数；θ_i表示经过梯度更新之后得到的参数，与θ_new不同的是，θ_i相当于在初始参数向量θ上加上一个常数梯度向量序列。

实验结果表明MAML和FOMAML最终的效果相差无几，但是梯度更新从二阶运算变成了一阶运算，节约了计算成本。所以本发明专利引入FOMAML元学习框架作为冷启动推荐方法FO-MSAN的参数更新方式，有效减少模型训练时的开销。

1.3冷启动推荐

基于深度学习的推荐算法在提高推荐精度方面表明了其优越性。但是，上述基于深度学习的推荐算法由于其历史数据有限，以及个人差异导致的用户偏好的偏差，很难对预测模型训练后出现的新用户和新物品做出像样的推荐。以上冷启动问题一般存在推荐系统中。为了缓解缺乏历史数据的问题，在推荐系统中使用了辅助信息来描述新用户和新物品。例如，Bansal等人应用了单词级别的嵌入来表示从其描述语句中提取的语义特征的新物品。Li等人介绍了行为密集型神经网络，该网络还利用项目的文本内容来学习语义潜在项目向量，并通过聚合其交互的项目来表示新用户。除了上述基于文本特征的推荐系统之外，Cheng等人利用稀疏特征，并提出了Wide&Deep来共同学习这些特征的线性和深层关系。为了更好地学习特征嵌入之间的关系，Cheng等人开发了自适应分解网络(AFN)。AFN提出了一种对数变换网络，以有效地从数据中学习任意阶交叉特征。但是，即使用户具有不同的历史交互数据，上述基于内容的推荐系统始终为具有相同侧面信息的用户提供相同的建议。这些推荐系统忽略了用户交互中的个体差异，无法准确提供个人推荐。同时，跨域推荐(CDR)利用来自外部域的数据来提供目标域中不足的交互。CDR被视为缓解缺乏互动问题的有前途的解决方案。但是使用CDR需要数据集存在用户共享或上下文功能共享的外部域，大部分的数据集不存在这些关系，为了使冷启动推荐模型更具通用性，本发明专利采用了元学习这一概念，同时替换常用的MAML元学习框架，将FOMAML元学习框架引入到了本发明专利的模型当中，减少模型在训练时的开销。

2.提出的冷启动推荐方法

2.1总体框架

在本发明专利中，本方法所解决的问题可以定义如下：假设有U、I、R三个集合，U表示用户(物品)集，I表示物品集，R表示用户-物品的交互集。对于每一个用户u∈U，需要来预测对于每一个物品的一个偏好分数其中表示没有与用户u进行过交互的物品集。这个偏好分数由用户-物品模型计算得出：

最后根据其偏好得分进行排序，并将排序后列表中的前K个项目推荐给用户u。假设用户x表示特征，N表示用户的特征数，表示用户的第N个特征，物品其中M表示物品的特征数，表示物品的第M个特征。将用户和物品内容特征作为输入，使用基于一阶元学习和多监督者关联网络的冷启动推荐方法来设计冷启动推荐框架，最后的形成的FO-MSAN推荐框架如图2所示。

图2中，FO-MSAN推荐框架执行的整体步骤如下：首先将原始特征通过嵌入层转化为稠密向量e，用户和物品的表示变为其中k表示嵌入维度，表示用户第N个特征的稠密化向量表示，表示物品第M个特征的稠密化表示。随后将用户的稠密表示输入到多监督者网络当中，单一的监督者注意力有限，视野范围只能覆盖到用户的部分信息，不能完全涵盖用户特征，为此本发明专利使用了多监督者网络。考虑到监督者给定的监督力度应当不同，所以设定了一个驱动门来指导监督者的监督力度应当如何给定。然后将通过多监督者网络生成的用户表示以及物品的稠密表示输入到关联网络来计算每个用户和物品的重要性，进行一个细粒度的用户-物品交互建模。最后，将经过细粒度建模生成的用户和物品表示输入到基于FOMAML的个性化用户偏好估计模型当中输出最终的结果。在参数更新方面，FO-MSAN推荐框架根据每个用户的支持及更新决策层和输出层(标有蓝色框)，在为用户进行本地更新之后，所有模块(标有紫色款)将根据查询及进行全局更新。

2.2多监督者网络

要增强推荐系统的推荐能力，必须生成高质量的用户表示形式来表示用户对不同物品的意图。通常可以采用监督者网络(a feed-forward network)来监督生成的用户表示在物品上的倾向性。但是单个监督者的视野范围是有限的，不能起到充分的监督和指导作用。因此，采用多监督者网络对用户进行监督和指导。在形式上将所有监督者指导后的用户表示平均为：

其中r表示多个监督者指导后的用户表示平均；

s_i(u)表示第i个监督者对用户u进行监督指导后的用户表示；

s_i表示第i个监督者；

n表示监督者的个数。

但是这种平均操作可能会在一定程度上影响到某种物品的特定信息，会导致最后生成的用户表示r对某种物品任务是不敏感的。其实不同的监督者在物品任务上的理解的程度也会不同，他们擅长的程度也会不同。现在希望监督者能够在他擅长的物品任务上对用户表示的倾向性进行监督，而不是统揽全局，全而不精。

根据这个需要，本发明专利设计了一个驱动门以物品特征作为输入来指导监督过程，但是监督者对不同物品任务的理解程度不同，对生成的用户表示的处理能力也不同。因此，驱动门除了将物品特征作为输入，还应该将用户特征作为输入来保证监督者网络能够正确的监督生成的用户表示对物品的倾向性。在这个定义下，任务物品驱动门可以表示为：

a^supervisor＝softmax(σ(i,Γ(u))) (6)

其中a^supervisor表示任务物品驱动门使用softmax函数对前馈神经网络的结果归一化后的权重向量。单一的监督者网络是多层前馈神经网络，多监督者网络就是多个单一监督者网络的集合。

σ(.)是一个简单的前馈神经网络；

i和u是物品i和用户u的特征嵌入，特征嵌入就是稠密表示；使用softmax函数是为了归一化σ(.)的输出。

Γ(.)是聚合函数，这里采用了均值操作，对用户特征进行均值操作是想让模型更专注于物品信息的同时引入用户信息。

最后的结果是权重向量可以表示不同监督者的监督倾向。

在最后经过驱动门的用户表示被重述为：

r表示经过驱动门生成的权重向量做点积操作的用户表示；

a^supervisor表示不同监督者的监督倾向，为权重向量；

s_i(u)表示第i个监督者对用户u进行监督指导后的用户表示；

n表示监督者的个数。

2.3关联网络

关联网络主要目的是建立一个物品和用户表示的一个更加细粒度的模型表示。本发明专利设计了关联网络来计算机每个用户和物品的重要性。具体来说，关联网络使用经过多监督者网络后的用户表示的影响来估计物品的重要性，同样的，使用物品的影响来估计用户的重要性。为了实现在计算用户重要性时引入物品表示或者在计算物品重要性时引入用户表示，计算过程中采用了关联矩阵。前面已经计算的用户表示可以为物品表示为那么这个关联矩阵的计算方式如下：

其中是一个权重矩阵；

tanh是非线性激活函数；

r表示经过多个网络的最终生成的r，即经过驱动门生成的权重向量做点积操作的用户表示；

·^T表示矩阵的转置；

关联矩阵表示了在交互级别上对应的一对用户和物品表示之间的关联程度。

在计算完这个关联矩阵之后，可以使用它作为神经网络计算用户-物品关联程度的特征来计算用户/物品的注意力分数：

其中，c_u表示用户注意力分数；

c_i表示物品注意力分数；

W₁、W₂表示注意力权重矩阵；

通过关联矩阵模型就可以关联用户和物品来计算其相应的重要性，最后的用户-物品重要度的最终权重可以使用softmax函数对上述得分进行归一化得到：

R＝softmax(c_uV₁) (11)

I＝softmax(c_iV₂) (12)

其中V₁,V₂表示重要性权重矩阵；

R和I分别表示估计的用户和物品重要度。

由此可以计算加权之后的用户表示和物品表示为：

R_n表示估计的第n个用户重要度；

r_n表示第n个用户；

I_m表示估计的第m个物品重要度；

i_m表示第m个物品；

N表示用户的特征数；

M表示物品的特征数；

最后将处理后的用户表示和物品表示连接起来送入到个性化用户偏好估计网络当中进行预测。

2.4基于FOMAML的个性化用户偏好估计模型

个性化用户偏好估计模型有模型的决策层和输出层构成，决策层本质上是一个N层的全连接神经网络，输出层是决策层的后续层，它输出一个分数来描述用户和物品交互的概率。这些层可以配置为：

其中p₀是用户表示和物品表示连接起来的总体向量表示；

表示对进行连接操作；

·^T表示矩阵的转置；

W_N和b_N是第N层决策的权重矩阵和偏差向量；

W_o和b_o是输出层的权重矩阵和偏差向量；

是用户对物品的偏好；

受一阶元学习的启发，本发明专利将FOMAML引入到个性化用户偏好估计网络当中，基于FOMAML的参数梯度更新方式如算法1所示。本发明的梯度更新方法采用SGD或者Adam。

图2是FO-MSAN推荐框架结合算法1使用FOMAML进行参数更新的具体过程，在模型本地更新过程中使用用户的物品消费历史和偏好充当本地更新的支持集，同时不更新用户和项目的向量表示，以保证学习过程的稳定性。

4.实验分析

接下来将进行大量的对比分析实验，目的是回答以下的研究问题：

问题1：提出的冷启动推荐FO-MSAN方法在实际测试中是否优于其他算法？

问题2：FO-MSAN中的各个网络模块对整个模型的影响程度如何？

问题3：超参数在设置上会对FO-MSAN产生怎样的影响？

4.1数据集

本发明专利采用了MovieLens-100K和Bookcrossing两个基准数据集对FO-MSAN算法进行验证。这两个数据集都提供了基本的用户和物品信息，例如用户的年龄和物品的出版日期，同时这两个数据集都具有明确的反馈信息，表1总结了两个数据集的特征。

表1MovieLens-100K和Book crossing数据集的基本统计数据和使用的内容

此外，这两个数据集之间的数据量之间差别较大，也能作为小数据集和大数据集之间的对比。对两个数据集的处理如下:

MovieLens-100K:MovieLens数据集包含多个用户对多部电影的评级数据，也包括电影的元数据信息和用户属性信息，MovieLens-100K是从MovieLens这个著名的基准数据集中随机提取构造的100000次交互的小型数据集，在预处理中将数据集格式化为任务，每个用户单独表示成一个任务。同时划分训练集：验证集：测试集的任务比例为8:1:1。对于每一个任务，随机选择10个交互作为查询集(Query set)，其他交互作为支持集(Supportset)。为了更加充分验证模型的性能，使用Movie-100K分别对模型进行了评分预测和排名任务两个方面的性能测试。对于评分设置，使用原始的评分数据。对于排名任务设置，设定评分大于等于4分的是积极标签，小于4分的是消极标签。

Bookcrossing:Bookcrossing是图书评分数据集，同MovieLens-100K数据集预处理操作相同，将数据集格式化为任务，每个用户单独表示成一个任务。同时将每个数据集分为8:1:1的比例分别用于训练、测试和验证。对于每一个任务，随机选择10个交互作为查询集(query set)，其他交互作为支持集(support set)。和MovieLens-100K数据集一样，使用Bookcrossing分别对模型进行了评分预测和排名任务两个方面的性能测试。对于评分设置，使用原始的评分数据。对于排名任务设置，设定评分大于等于8分的是积极标签，小于8分的是消极标签。

4.2评价指标

从评分预测和排序任务两个方面来验证FO-MSAN方法的性能，评分预测的性能评价指标采用平均绝对误差(MAE)：

其中表示预测的评分值，y_ij表示真实的评分值，N为样本的个数，MAE评价指标越小表示模型效果越好。

为了评价项目的排名质量，采用归一化折损累计增益(Normalized DiscountedCumulative Gain)、平均倒数排名(Mean Reciprocal Rank)和精度(Precision)这三个性能指标来量化模型的性能。

NDCG@N的表达式如下：

DCG@N是折损累计增益，它的表达式为：

其中rel(i)表示的是项目在位置i上的相关程度。

IDCG为理想的DCG，它的表达式为：

其中|REL|表示按照相关性大小排序，取前N个结果的集合。

MRR@N是指多个项目在正确位置排名的倒数，公式如下：

其中rank_i表示第i个项目的第一个正确位置的排名，N表示取前N个结果。

Precision@N表示最终的推荐列表中有多少比例是发生过的用户物品交互记录：

其中L_N是实际给用户推荐的N个物品的集合，T表示模型预测推荐列表中的前N项。

4.3对比方法

为了评估提出的FO-MSAN方法的合理性与有效性，与NeuMF、NNCF等8种经典算法进行对比分析。

·基于深度学习的模型：

(1)NeuMF.NeuMF提出了一种神经网络来模拟用户和项目的潜在特征，并利用多层感知器来赋予模型高水平的非线性建模能力。

(2)NNCF.NNCF将邻域信息集成到神经协同过滤方法中，通过这种方式来补充用户-商品的交互数据，增强了模型对推荐任务的有效性。

(3)NGCF.NGCF建立了一个高阶连通性嵌入层，通过聚合交互项的嵌入来细化用户的嵌入，叠加多重嵌入传播层捕获协作信号的高阶连通性并将其集成到有预测模型当中。

(4)LightGCN.LightGCN消解了GCN当中的特征变换和非线性激活两个部分，通过在用户和物品交互图上线性传播来学习用户和物品嵌入，并使用在所有层学习的嵌入的加权和作为最终嵌入，使得模型更加容易实现和训练。

·基于元学习的模型：

(1)MeLU.MeLU通过神经网络学习到一个全局化的初始化参数作为先验知识，利用这个先验知识为每个用户生成单个模型来提供特定于用户的建议。

(2)LWA.LWA基于元学习策略实现一种线性分类器，让其权重由项目历史决定，其测试结果显著由于MF。

(3)TaNP.TaNP能够学习不同任务的相关性并将元学习学到的全局知识定制为于任务相关的参数以估计用户偏好，它将每一个任务看成是一个随机过程。从用户的历史行为学到条件先验，将历史行为映射成预测分布。

(4)MAMO.该方法在MeLU上做了改进，增加了User Profile-aware Memories网络来保存用户、物品及任务的一些信息，利用这些信息来为用户提供一个个性化的初始化参数。

4.4实验环境及参数设置

在实验环节，实验配置为Windows11、CPU i9-10980XE、64GB内存、NVIDIA QuadroRTX 5000，实验所需环境为Python≥3.7.0、Recbole≥1.1.1、numpy≥1.20.3、torch≥1.11.0、tqdm≥4.62.3。

在实验参数设置上，本发明专利对比的模型包括基于深度学习的模型和基于元学习范式的模型。这两种模型在学习率上设置有较大区别，基于深度学习的模型只有一个学习率，基于元学习的模型有全局学习率和局部学习率两个学习率。对于基于深度学习的模型，学习率统一设定为0.01。对于基于元学习的模型，局部学习率设定为5×10^-6，全局学习率设定为5×10^-5。

4.5实验结果与分析

4.5.1对比实验

为了验证提出的冷启动推荐方法FO-MSAN在排序任务上相较于基线模型提升的效果，进行了FO-MSAN与基线模型的对比实验，指标MRR@N、NDCG@N、Precision@N均取N＝5，最终的实验结果取5次实验结果的均值。采用上述指标，不同模型在不同数据集下的MRR、NDCG、Precision结果如表2所示。

表2在MovieLens-100K和Bookcrossing数据集上进行排序任务的实验结果，加粗的是最好的指标结果，斜体的是次好的指标结果

从表2中可以看出，在MovieLens-100K数据集上，本发明专利提出的FO-MSAN在各个指标上均优于对比模型，其中MRR@5指标为0.7618，相比于MeLU模型的结果提高了3％，NDCG@5指标为0.6371，相比于MAMO模型的结果提高了4.42％，Precision@5指标为0.6269，相较于MAMO模型的结果提高了1.63％。在Bookcrossing数据集上，FO-MSAN在NDCG@5和Precision@5指标上优于对比模型，MMR@5指标只是略低于MAMO模型，其中NDCG@5指标结果相较于对比模型中最好的结果提高了1.13％，Precision@5指标结果相较于对比模型中最好的结果提高了1.07％。排序任务的性能指标总体对比见图3，该结果表明关联网络利用更加细粒度的用户-物品信息来增强特征表示强度能够有效的提高排名任务的准确性，尤其是在小型数据集上的效果更好，多监督者网络的使得模型能够提取各类物品特定信息，帮助模型更好生成高质量用户表示。

数据集基本信息可以从表1中得出，可以看到MovieLens-100K在数据量和Bookcrossing有着很大的区别，所以FO-MSAN在大数据集上的提升效果会趋向于稳定的一个提升，在数据量比较小的数据集的提升效果方面上会出现一个突兀性的提升，但是无论数据集的大小，本发明专利中提出的方法的效果相比于基线模型均有一个提升。同时实验结果显示基于深度学习的方法在两个数据集上的结果都是差于基于元学习的方法，这其实和评价指标的设置有关，表2是排序任务的实验结果，所用的3个评价指标都是与排序任务相关的，而基线模型中基于深度学习的方法偏向于评分预测。为了验证在评分预测方面FO-MSAN方法的性能，本发明专利使用MAE指标进行了实验，实验结果如表3所示。

表3在MovieLens-100K和Bookcrossing数据集上的进行评分预测的实验结果，深度学习模型的最好结果用下划线表示，元学习模型的最好结果加粗表示

从表3数据以及图4中可以看到，FO-MSAN在评分预测方面优于基于元学习的方法，在MovieLens-100K数据集上相比于MeLU的0.7661提升了2.38％，在Bookcrossing数据集上相比于MeLU的0.7661提升了2.38％。这得益于多监督网络优秀的特征提取和学习能力，使得FO-MASN能够生成高质量的用户表示来提升模型模型推荐效果。但是对比基于深度学习的方法，除了NGCF和LightGCN这两个基于图深度学习的方法，FO-MSAN的效果并不是最好的，这表明本发明专利的方法结构更倾向于排序任务，但是有了多监督者网络的兜底作用，FO-MSAN在评分预测任务上相比于部分基于深度学习的模型和元学习范式模型有个很大的提升。

4.5.2消融实验

为了更好的了解FO-MSAN中不同网络结构的贡献，本发明专利在两个数据集上进行了消融实验。制定了FO-MSAN的两种变体：(1)没有多监督者网络的模型，名为FO-MSAN-MS；(2)没有关联网络的模型，名为FO-MSAN-AN。两者的超参数设置相同，嵌入维度设置32，本地更新学习率为5×10^-6，全局更新学习率为5×10^-5。为了综合考虑不同网络结构在评分预测和排序任务两方面的影响效果，采用MAE指标对评分预测方面进行评价，采用NDCG@5指标对排序任务进行评价，最后消融实验的对比结果如图5所示。

在图5中可以观察到两个不同的网络结构在两个数据集上都起到了一定的增益作用，在增益幅度上MovieLens-100K要大于Bookcrossing，同时可以观察到在MovieLens-100K数据集上关联网络对模型效果的影响要比多监督者网络的影响大。这可能是因为对于小型数据集来说，没有足够的数据供多监督者网络学习充分的可转移的知识，而关联网络因为对数据量不敏感，它的特征增强作用能够在小型数据集上提供更多的增益效果。与Bookcrossing数据集上的效果进行对比，可以发现当数据充分的时候，多监督者网络和关联网络对整个模型提供的增益效果是相差不大的。

4.5.3参数敏感性分析

最后，本发明专利对评分预测和排序任务两个方面进行了参数敏感性分析。主要是探讨模型在不同的特征嵌入维度上表现如何。嵌入维度的取值为8、16、32、64、128、256，在评分预测方面不同嵌入维度的对比结果如图6所示，在排序任务方面不同嵌入维度的对比结果如图7所示。

在图6中可以看到，当嵌入维度取32时，MAE的值处于整个曲线的最低点，其左右两侧的值都远远大于这个点的值，说明在评分预测任务上选择嵌入维度为32可以更好的体现FO-MSAN方法的效果。

在图7中可以看到当嵌入维度取32时，FO-MSAN虽然在MRR@5上的效果不是最好的，但是在NDCG@5和Precision@5指标上表现很好，由此可以确定当嵌入维度取32时，FO-MASN在排序任务方面的综合性能是最好的，并且在这个维度周围模型的性能较稳定，这表明了FO-MSAN方法是具有鲁棒性的。

综上所述，本发明专利提出了基于一阶元学习和多监督者关联网络的冷启动推荐方法(FO-MSAN)。该方法引入了元学习的思想使得模型能够仅根据少量物品估计用户偏好，同时考虑到梯度更新算法复杂性，将FOMAML框架引入到本发明方法当中，降低了模型训练时的开销。为了保证模型的鲁棒性和对各类物品的适应性以及学习潜在的用户聚类消除过拟合情况，设计了多监督者网络来保证生成的用户表示能够在不同物品上具有倾向性，同时模型的关联网络能够在用户-物品的尺度上给予更加细粒度的表示，对用户和物品的特征表示进行增强，提升模型推荐效果。为了评估FO-MSAN的有效性，在MovieLens-100K和Bookcrossing两个数据集上进行了广泛的实验。实验结果表明，FO-MSAN模型综合来说优于本发明专利中所用的基线模型，尤其是在排序任务方面。另外，消融实验中所用数据集的大小不同也侧面验证了FO-MSAN的关联网络模块的特征增强作用在小型数据集上的效果很好，但是由于没有充足的数据，多监督者网络没有足够的数据学习可转移知识，导致其在小型数据集上的作用效果不是很明显；在大型数据集上，多监督者网络和关联网络的综合作用使得模型的效果有个很好的提升。最后的参数敏感性分析也表明了当模型的嵌入维度在大于某个数值时整个模型的效果呈现一定的稳定性，表明了提出的FO-MSAN方法具有鲁棒性。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于一阶元学习和多监督者关联网络的冷启动推荐方法，其特征在于，包括：

S1，将原始特征通过嵌入层转化为稠密向量，得到用户的稠密表示和物品的稠密表示；

S2，将用户的稠密表示输入到多监督者网络当中；

S3-1，计算关联矩阵：

其中表示关联矩阵；

tanh是非线性激活函数；

r表示经过驱动门生成的权重向量做点积操作的用户表示；

表示矩阵的转置；

是一个权重矩阵；

i表示物品i；

其中，c_u表示用户注意力分数；

c_i表示物品注意力分数；

W₁、W₂表示注意力权重矩阵；

使用softmax函数对上述分数进行归一化得到：

R＝softmax(c_uV₁) (11)

I＝softmax(c_iV₂) (12)

其中V₁,V₂表示重要性权重矩阵；

R和I分别表示估计的用户和物品重要度；

S3-3，计算加权之后的用户表示和物品表示为：

其中表示加权之后的用户表示；

表示加权之后的物品表示；

R_n表示估计的第n个用户重要度；

r_n表示第n个用户；

I_m表示估计的第m个物品重要度；

i_m表示第m个物品；

N表示用户的特征数；

M表示物品的特征数；

S4，将经过细粒度建模生成的用户表示和物品表示输入到基于FOMAML的个性化用户偏好估计模型当中输出最终的结果；

所述基于FOMAML的个性化用户偏好估计模型包括决策层和输出层，所述决策层是一个N层的全连接神经网络；

所述决策层为：

p₁＝a(W₁ ^Tp₀+b₁),

...

所述输出层为：

表示对进行连接操作；

表示矩阵的转置；

W_N和b_N是第N层决策的权重矩阵和偏差向量；

W_o和b_o是输出层的权重矩阵和偏差向量；

是用户对物品的偏好；

a和σ分别表示决策层和输出层的激活函数。

2.根据权利要求1所述的一种基于一阶元学习和多监督者关联网络的冷启动推荐方法，其特征在于，采用驱动门指导所述多监督者网络中各个监督者的监督力度。

3.根据权利要求2所述的一种基于一阶元学习和多监督者关联网络的冷启动推荐方法，其特征在于，所述驱动门表示为：

a^supervisor＝softmax(σ(i,Γ(u))) (6)

σ(.)是一个三层的前馈神经网络；

i和u分别表示物品i和用户u；

Γ(.)是聚合函数；

在最后经过驱动门的用户表示为：

r表示经过驱动门生成的权重向量做点积操作的用户表示；

a^supervisor表示不同监督者的监督倾向，为权重向量；

s_i(u)表示第i个监督者对用户u进行监督指导后的用户表示；

n表示监督者的个数。

4.根据权利要求3所述的一种基于一阶元学习和多监督者关联网络的冷启动推荐方法，其特征在于，所述聚合函数采用均值操作。