CN118210916B

CN118210916B - 一种基于超图注意力和增强对比学习的科技文献推荐方法

Info

Publication number: CN118210916B
Application number: CN202410623377.6A
Authority: CN
Inventors: 谢昕; 郑晗欣; 郑文彬; 熊申平; 郑星鹏; 杨志坚; 刘昭阳
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2024-05-20
Filing date: 2024-05-20
Publication date: 2024-09-06
Anticipated expiration: 2044-05-20
Also published as: CN118210916A

Abstract

本发明公开了一种基于超图注意力和增强对比学习的科技文献推荐方法，从科技文献系统中采集用户与科技文献之间的交互行为，得到非结构化的数据集；构建用户科技文献交互二部图；引入超图注意力机制，将每一个节点与聚类后的质心进行注意力分数的计算，通过注意力分数更新用户和科技文献的特征表示，建立科技文献推荐主模型；通过聚类方法构建对比对，利用对比学习的方法更新用户科技文献交互二部图的节点特征表示，建立对比学习辅助模型；使用总体损失函数对科技文献推荐主模型与对比学习辅助模型进行联合训练，得到训练好的科技文献推荐模型并用于向用户推荐科技文献。本发明可解决数据稀疏问题、满足个性化需求和提高科技文献推荐准确率。

Description

一种基于超图注意力和增强对比学习的科技文献推荐方法

技术领域

本发明属于科技文献信息处理技术领域，具体涉及一种基于超图注意力和增强对比学习的科技文献推荐方法。

背景技术

随着科技文献的快速增长，人们面临着海量的科技文献信息。在这种情况下，用户往往难以找到符合其需求和兴趣的科技文献，容易陷入信息过载的困境。科技文献推荐系统能够帮助用户过滤和筛选科技文献，提供个性化的推荐服务，从而解决信息过载问题。不同用户对科技文献的需求和兴趣可能存在差异，例如不同领域的研究者对科技文献的关注点不同，或同一领域的研究者在不同阶段对科技文献的需求有所不同。科技文献推荐系统可以根据用户的个性化需求和兴趣，为其提供符合其研究方向和学术水平的科技文献推荐，提高信息检索的效率和准确率。除此之外，科研人员需要不断阅读、借鉴和引用相关的科技文献，以支撑其研究工作。科技文献推荐系统可以帮助科研人员更快速地找到与其研究主题相关的科技文献，节省检索时间，提高科研效率。并且科技文献推荐系统可以为学术界提供一个便捷的交流平台，促进学术界的信息共享和学术交流。通过推荐系统，研究者可以发现与其研究领域相关的新成果和研究动态，从而加深对该领域的理解，并与其他研究者展开深入交流和合作。科技文献推荐系统还可以根据研究者的历史行为和兴趣，为其推荐新领域的研究成果和前沿进展，引导研究者发现新的研究方向和研究思路，推动学术创新和学科发展。

近些年，基于图的推荐模型表现出突出的性能，图神经网络既可以用于表示节点关系，又能传递节点与节点之间的连接信息。但是，大部分图网络模型在处理图数据时，依旧仅将图数据构造为简单的二部图进行处理，没有充分地捕捉到节点间复杂的高阶信息，也没有体现出不同节点对推荐结果的影响差异。超图作为一种特殊的图结构，已被用来对数据之间的高阶相关性进行建模，可运用在推荐系统中表示丰富的节点交互信息，基于超图的注意力机制通过关注节点之间不同的重要性，较好表示了图数据的潜在信息。同时，对比学习在图表示学习方面取得了突出成绩，它通过从原始数据中获得的未标记样本来提高表示学习的质量，使用数据增强的方式增加数据标签，可以学习到比有监督学习更为通用的数据特征。

在现有的科技文献推荐系统当中，在构建图网络阶段未能充分利用数据之间的潜在关系，忽略了用户与科技文献之间的交互关系，影响节点的最佳特征表示，因而无法获取用户的兴趣以进行个性化推荐。并且大多数模型为了缓解数据标签稀疏性问题而采用自监督训练时，通常采用随机采样或简单交换邻接矩阵行和列的方式构建对比对，无法利用对比学习的优势训练网络，影响了推荐结构的准确率。

发明内容

针对现有技术的不足，本发明提出了一种基于超图注意力和增强对比学习的科技文献推荐方法，可解决数据稀疏问题、满足个性化需求和提高科技文献推荐准确率。

本发明通过下述技术方案来实现：基于超图注意力和增强对比学习的科技文献推荐方法，包括以下步骤：

步骤S1、从科技文献系统中采集用户与科技文献之间的交互行为，得到非结构化的数据集；

步骤S2、构建用户科技文献交互二部图：从非结构化的数据集中抽取用户和科技文献之间的交互关系，将每一个用户和每一篇科技文献视为图的节点，建立一个统一的用户科技文献交互二部图；以用户科技文献交互二部图为基础，把每一个用户所交互过的科技文献分别构造成一个超边，即同一条超边包括某一用户所交互过的全部科技文献；同时把与每一篇科技文献交互过的用户分别构造成一个超边，即同一条超边包括某一科技文献被交互过的全部用户；

步骤S3、引入超图注意力机制，将每一个节点与聚类后的质心进行注意力分数的计算，通过注意力分数更新用户和科技文献的特征表示，建立科技文献推荐主模型；

步骤S4、通过聚类方法构建对比对，利用对比学习的方法更新用户科技文献交互二部图的节点特征表示，建立对比学习辅助模型；

步骤S5、使用总体损失函数对科技文献推荐主模型与对比学习辅助模型进行联合训练，得到节点的最佳特征表示，并保存训练好的科技文献推荐主模型、对比学习辅助模型及参数，得到训练好的科技文献推荐模型；

步骤S6、使用训练好的科技文献推荐模型计算每位用户对其它所有未交互过科技文献的交互概率，根据概率对科技文献进行排序，选取前k篇推荐给用户。

进一步优选，步骤S3的科技文献推荐主模型包含两个聚合过程，用于获得用户和科技文献的特征表示；第一个聚合过程基于超图注意力机制，将节点信息聚合到超边上以更新超边表示，第二个聚合过程，将超边信息聚合到节点上以更新节点表示。

进一步优选，第一个聚合过程为：

首先使用k均值算法对所有的节点进行聚类，得到k个节点簇类与k个节点簇类的质心集合，表示第1个节点簇类的质心，表示第2个节点簇类的质心，表示第k个节点簇类的质心，计算所有节点与节点簇类的质心的注意力分数：

（1）；

式中，是节点i与第t个节点簇类的质心的注意力分数，是节点i的特征信息，是第一个聚合过程的可训练的权重参数，是可训练参数矩阵的转置矩阵，是第t个节点簇类的质心，C表示质心集合，为拼接操作，表示LeakyReLu函数；

将通过注意力分数加权后的节点信息聚合到超边，通过下述公式：

（2）；

式中，是第层超边j聚合节点信息后的表示，σ(·)是Sigmoid函数，是可训练的权重矩阵，表示科技文献推荐系统主模型计算出来的第层节点i信息，表示超边j上的节点集合。

进一步优选，第二个聚合过程为：

计算所有超边上节点的注意力分数：

（3）；

式中，是节点i在超边j上的注意力分数，是第二个聚合过程的可训练的权重参数，表示由节点i连接的所有超边集合；

将通过注意力分数加权后超边信息聚合到节点，通过下述公式：

（4）；

其中，是当前第层节点i更新后的特征信息，表示可训练的权重矩阵，通过科技文献推荐主模型得到节点的特征表示。

进一步优选，采用贝叶斯个性化排名（BPR）损失对科技文献推荐主模型的节点表示进行更新，贝叶斯个性化排名损失的目标函数如下：

（5）；

其中，为科技文献推荐主模型的损失，σ(·)是Sigmoid函数，表示数据集中所有成对的训练数据，表示用户u与科技文献b交互过，表示用户u与科技文献d未交互过。

进一步优选，步骤S4中，通过聚类方法构建对比对的过程包括：

用户的对比对通过使用k-means算法对所有用户特征信息进行聚类得到的，将所有用户都分为k类，得到k个聚类和聚类质心，每一个用户的对比对为其所属聚类的质心；用户对比学习目标是基于噪声熵的对比估计损失（InfoNCE）最小化以下函数：

（6）；

式中，是基于用户的对比学习目标，u表示用户， U表示用户集，是通过科技文献推荐主模型更新后得到的用户u的特征表示，是用户u的对比对，是用户u所有邻居节点集合，为用户u的邻居节点p 的对比对，为温度系数；

科技文献的对比对通过使用k-means算法对所有用户特征信息进行聚类得到的，将所有科技文献都分为k类，得到k个聚类和聚类质心，每一篇科技文献的对比对为其所属聚类的质心；科技文献对比学习目标是基于噪声熵的对比估计损失（InfoNCE）最小化以下函数：

（7）；

式中，是基于科技文献的对比学习目标，z表示科技文献， Z表示科技文献集，是通过科技文献推荐主模型更新后得到的科技文献z的特征表示，是科技文献z的对比对，是科技文献z所有邻居节点集合，为科技文献z的邻居节点q的对比对，为温度系数；

最终的对比目标是用户目标和科技文献目标的加权和，对比学习辅助模型的对比学习损失为：

（8）；

其中，为可指定的比重系数。

进一步优选，科技文献推荐模型的总体损失函数为科技文献推荐主模型的损失与对比学习辅助模型的对比学习损失的加权和，如下式所示：

（9）；

其中，是超参数，为科技文献推荐模型的总体损失，最后利用总体损失函数对科技文献推荐主模型和对比学习辅助模型进行联合训练，得到用户和科技文献的最佳特征表示。

本发明的有益效果：

一方面，基于图的科技文献推荐模型表现出突出的性能，大多数现有科技文献推荐模型只利用数据中简单的成对交互关系来挖掘潜在的用户偏好，然而，现实情况中用户与科技文献之间的交互非常复杂，用户关系或科技文献关系甚至用户与科技文献关系可能是高阶的。而忽略了用户或者科技文献之间更为复杂的高阶关系。因此，直接采用图的方式对数据信息进行建模，容易丢失用户的一些潜在偏好，影响科技文献推荐系统对用户兴趣的判断，从而推荐用户不感兴趣的科技文献。现有的图卷积神经网络技术大多不能充分利用节点之间的交互关系，只能构建一对一的节点交互关系，无法提取更全面更完整的特征信息。超图结构比图卷积神经网络更具有解释性，超图结构不仅可以捕获一对一的节点交互关系，还可以捕获一对多、多对多的交互信息，因此超图结构相对于一般图结构能够更加准确地捕获数据信息之间的潜在关系。所以，本发明利用超图来构建数据结构，通过超图对用户与科技文献的交互进行建模，来训练更新数据中用户和科技文献的特征表示，并采用简化的超图注意力计算不同节点之间的权重，从而更好的获取节点的特征表示，有利于推荐结果的计算。将超图神经网络引入科技文献推荐系统中，利用超图构建用户和科技文献的交互关系，能够更加准确的获取用户与科技文献交互的高阶信息。

另一方面，图协同过滤作为一种有效的推荐方法，它可以通过对用户-项目交互图进行建模来捕获用户对项目的偏好。尽管有效，但这些方法在实际场景中存在数据稀疏的问题。为了增加数据标签，图协同过滤采用对比学习来提高性能。然而，这些方法通常以随机采样的方式来构建对比对，忽略了用户或科技文献之间的邻近关系，无法充分利用对比学习进行推荐的潜力。针对此问题，本发明采取聚类的方法获取空间中具有相似信息的节点，以此来构建对比对，同时利用对比学习增加数据标签的方法解决数据稀疏的问题，从而增强对比学习的性能。

当前的图自监督学习模型，在构建对比对时，通常采用节点丢失、边丢失或随机交换关联矩阵行和列的方式，虽然通过此类数据增强的方法可增加数据标签，但也存在一些缺陷，例如对数据信息引入了大量的噪声、对于采样的样本不能保证和原始视图具有相反的结构信息。因此采用聚类的方法构建对比对，在保留原始数据信息的基础上，通过聚类算法筛选出与原视图具有不同结构信息的对比对，再同时拉进具有相似表示的用户或科技文献视图，从此提高对比学习对推荐模型的辅助训练效果，以更新节点的特征表示，提高推荐结果的准确率。

附图说明

图1为本发明的方法流程图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

参照图1，基于超图注意力和增强对比学习的科技文献推荐方法，包括以下步骤：

步骤S1、从学术科技文献库、科研之友等科技文献系统中采集用户与科技文献之间的交互行为，得到非结构化的数据集；

本实施例步骤S3的科技文献推荐主模型包含两个聚合过程，用于获得用户和科技文献的特征表示。

第一个聚合过程基于超图注意力机制，将节点信息聚合到超边上以更新超边表示，首先使用k均值算法对所有的节点进行聚类，得到k个节点簇类与k个节点簇类的质心集合，表示第1个节点簇类的质心，表示第2个节点簇类的质心，表示第k个节点簇类的质心，计算所有节点与节点簇类的质心的注意力分数：

（1）；

式中，是节点i与第t个节点簇类的质心的注意力分数，是节点i的特征信息，是第一个聚合过程的可训练的权重参数，是可训练参数矩阵的转置矩阵，是第t个节点簇类的质心，C表示质心集合，为拼接操作，表示LeakyReLu函数。

（2）；

接下来，进行第二个聚合过程，将超边信息聚合到节点上以更新节点表示，计算所有超边上节点的注意力分数：

（3）；

式中，是节点i在超边j上的注意力分数，是第二个聚合过程的可训练的权重参数，表示由节点i连接的所有超边集合。

（4）；

为了直接从用户与科技文献的交互中捕获信息，采用贝叶斯个性化排名（BPR）损失对科技文献推荐主模型的节点表示进行更新，BPR损失的目标函数如下：

（5）；

图的对比学习是一个判别任务，它将正对（同一图的增强对）聚集在一起并推开负对（不同图的增强对）以进行无监督表示学习。然而，由于对于对比对来说，其负对是从所有图中统一采样的，现有方法面临严重的采样偏差问题，即负对可能与对比对具有相似的特征信息，或者手动选择对比对的方法受到主观意识的影响，会导致性能下降。

通过合并具有相似信息的节点来扩展对比对，虽然通过聚类得到的质心可能是图上无法到达的节点，但具有相似的特征（科技文献节点）或偏好（用户节点）。基于这个想法，提出了聚类对比目标来探索潜在的特征信息相似节点并将其纳入对比学习中，以更好地捕获协同过滤中用户和科技文献的特征。相似的用户/科技文献往往落在相邻的特征空间中，因此，对用户和科技文献的特征表示使用聚类算法，以获得用户或科技文献的中心节点，以此来构建对比学习辅助模型。

通过聚类方法构建对比对的过程包括：

用户的对比对通过使用k-means算法对所有用户特征信息进行聚类得到的，将所有用户都分为k类，得到k个聚类和聚类质心，每一个用户的对比对为其所属聚类的质心。那么，提出的用户对比学习目标是基于噪声熵的对比估计损失（InfoNCE）最小化以下函数：

（6）；

式中，是基于用户的对比学习目标，u表示用户， U表示用户集，是通过科技文献推荐主模型更新后得到的用户u的特征表示，是用户u的对比对，是用户u所有邻居节点集合，为用户u的邻居节点p 的对比对，为温度系数。

科技文献的对比对通过使用k-means算法对所有用户特征信息进行聚类得到的，将所有科技文献都分为k类，得到k个聚类和聚类质心，每一篇科技文献的对比对为其所属聚类的质心。那么，提出的科技文献对比学习目标是基于噪声熵的对比估计损失（InfoNCE）最小化以下函数：

（7）；

式中，是基于科技文献的对比学习目标，z表示科技文献， Z表示科技文献集，是通过科技文献推荐主模型更新后得到的科技文献z的特征表示，是科技文献z的对比对，是科技文献z所有邻居节点集合，为科技文献z的邻居节点q的对比对，为温度系数。

最终的对比目标是用户目标和科技文献目标的加权和，因此，对比学习辅助模型的对比学习损失为：

（8）；

其中，为可指定的比重系数。

由于科技文献推荐模型的主要目标是对用户和科技文献之间的交互进行建模，因此将所提出的对比学习损失视为补充，总体损失函数为科技文献推荐主模型的损失与对比学习辅助模型的对比学习损失的加权和，如下：

（9）；

在科技文献推荐主模型和对比学习辅助模型的参数优化后，可以使用科技文献推荐主模型和对比学习辅助模型组成训练好的科技文献推荐模型，训练好的科技文献推荐模型对用户进行科技文献推荐；将用户和科技文献的最佳特征表示进行内积以获得该用户对目标科技文献的交互概率，具体而言根据训练好的科技文献推荐模型得到的用户的最佳特征表示和科技文献的最佳特征表示，使用内积计算用户对目标科技文献的评分，最后，依据评分选择排名前k的目标科技文献作为对用户的推荐。

相较于一般的科技文献推荐，由于科技文献具有不同的研究领域和高度专业性，且其更新速度也非常快，这就要求对用户推荐的科技文献具有专业性和时效性，因此科技文献的推荐工作更为复杂。以往普通的科技文献推荐效果不能有效区分科技文献的具体研究领域和发表时间，无法满足用户对不同科技领域的科技文献需求。因此，采用基于聚类的超图注意力方法计算不同科技文献对用户的影响程度，一方面可以更加简便的计算不同节点之间的注意力系数，避免计算的冗余性；另一方面给不同的科技文献分配不同的权重，使推荐系统识别用户感兴趣的研究方向以满足其个性化需求。

本发明使用聚类算法进行超图注意力运算，减少注意力权重计算的冗余性，降低复杂度，更关注于与用户或科技文献相关联的节点，准确识别用户对不同研究方向科技文献的需求，提高模型的推荐效果。

本发明通过对比学习来辅助训练，通过聚类的方式生成对比对，确保原始图与对比负对之间存在差异，能够有效地拉近正对并推远负对，缓解因对比对设置不合适导致的模型准确率不高的问题，同时增加数据标签减轻数据稀疏问题。

具体来说，一方面利用超图注意力模型在用户与科技文献之间捕获高阶信息，以便更深入地挖掘他们的行为模式。同时，利用自监督对比学习来构建辅助分支，通过构建合适的对比对进行自监督训练，挖掘了图数据空间中潜在的相似节点关系，帮助提升推荐系统的有效性。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该本发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于超图注意力和增强对比学习的科技文献推荐方法，其特征在于，包括以下步骤：

步骤S6、使用训练好的科技文献推荐模型计算每位用户对其它所有未交互过科技文献的交互概率，根据概率对科技文献进行排序，选取前k篇推荐给用户；

步骤S3的科技文献推荐主模型包含两个聚合过程，用于获得用户和科技文献的特征表示；第一个聚合过程基于超图注意力机制，将节点信息聚合到超边上以更新超边表示，第二个聚合过程，将超边信息聚合到节点上以更新节点表示；

第一个聚合过程为：

（1）；

（2）；

式中，是第层超边j聚合节点信息后的表示，σ(·)是Sigmoid函数，是可训练的权重矩阵，表示科技文献推荐系统主模型计算出来的第层节点i信息，表示超边j上的节点集合；

第二个聚合过程为：

计算所有超边上节点的注意力分数：

（3）；

（4）；

2.根据权利要求1所述的基于超图注意力和增强对比学习的科技文献推荐方法，其特征在于，采用贝叶斯个性化排名损失对科技文献推荐主模型的节点表示进行更新，贝叶斯个性化排名损失的目标函数如下：

（5）；

3.根据权利要求2所述的基于超图注意力和增强对比学习的科技文献推荐方法，其特征在于，步骤S4中，通过聚类方法构建对比对的过程包括：

用户的对比对通过使用k-means算法对所有用户特征信息进行聚类得到的，将所有用户都分为k类，得到k个聚类和聚类质心，每一个用户的对比对为其所属聚类的质心；用户对比学习目标是基于噪声熵的对比估计损失最小化以下函数：

（6）；

科技文献的对比对通过使用k-means算法对所有用户特征信息进行聚类得到的，将所有科技文献都分为k类，得到k个聚类和聚类质心，每一篇科技文献的对比对为其所属聚类的质心；科技文献对比学习目标是基于噪声熵的对比估计损失最小化以下函数：

（7）；

（8）；

其中，为可指定的比重系数。

4.根据权利要求3所述的基于超图注意力和增强对比学习的科技文献推荐方法，其特征在于，科技文献推荐模型的总体损失函数为科技文献推荐主模型的损失与对比学习辅助模型的对比学习损失的加权和，如下式所示：

（9）；

其中，是超参数，为科技文献推荐模型的总体损失，利用总体损失函数对科技文献推荐主模型和对比学习辅助模型进行联合训练，得到用户和科技文献的最佳特征表示。