CN113326443A

CN113326443A - 一种高效的图卷积神经网络重训练方法

Info

Publication number: CN113326443A
Application number: CN202110587163.4A
Authority: CN
Inventors: 何向南; 丁斯昊; 冯福利; 廖勇; 石珺; 张勇东
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2021-08-31
Anticipated expiration: 2041-05-27
Also published as: CN113326443B

Abstract

本发明公开了一种高效的图卷积神经网络重训练方法，包括：对于上一时刻已经训练好的图卷积神经网络，获取每个节点历史时刻总的积累度；对于每个节点，利用其邻接节点历史时刻总的积累度，计算能够概括历史数据中知识的各节点表征表示；再利用当前时刻收集到的新数据构建增量图，结合增量图以及各节点表征表示，采用增量图卷积操作更新图卷积神经网络的参数。该方法利用图卷积神经网络自身的邻居聚合机制，直接从旧模型参数中提取旧知识，在只使用新数据的条件下精确、高效地完成重训练任务，该方法使得重训练模型的成本大大降低，模型性能比较原始的重训练方法显著提高。

Description

一种高效的图卷积神经网络重训练方法

技术领域

本发明涉及机器学习技术领域，尤其涉及一种高效的图卷积神经网络重训练方法。

背景技术

近年来，随着图卷积神经网络的优异表现，图卷积神经网络模型被广泛应用于机器学习任务中，由于其良好的协同关系建模能力使得其被越来越多地运用在协同过滤推荐系统中。真实推荐场景下，新数据不断产生，用户兴趣持续变化，为了保证推荐系统的性能往往需要维持模型的不断更新。桎梏于图卷积神经网络远高于传统机器模型的训练成本，以及大数据背景下庞大的数据增量，想要高效地、高频率地更新图推荐模型非常困难，传统的重训练方法成本过高几乎不可能实现。

部分研究尝试只使用新增数据，或在此基础上额外增加少量历史数据参与模型重训练。虽然这一方法很好地避免了高昂的重训练成本，使得高频率更新图推荐模型成为可能，但是由于其对历史数据的抛弃、采样等操作，必然导致旧数据中蕴含的历史知识遭受损失，很难在重训练旧图卷积神经网络保障模型的性能。

发明内容

本发明的目的是提供一种高效的图卷积神经网络重训练方法，可以从旧的图卷积神经网络模型中提取知识，使得在重训练图推荐模型时仅利用新数据就可以保留用户的长期兴趣并使得模型的重训练成本大大下降，同时能够使得模型性能达到最优。

本发明的目的是通过以下技术方案实现的：

一种高效的图卷积神经网络重训练方法，包括：

对于上一时刻已经训练好的图卷积神经网络，获取每个节点历史时刻总的积累度；对于每个节点，利用其邻接节点历史时刻总的积累度，计算能够概括历史数据中知识的各节点表征表示；

再利用当前时刻收集到的新数据构建增量图，结合增量图以及各节点表征表示，采用增量图卷积操作更新图卷积神经网络的参数；

其中，当图卷积神经网络为图推荐模型时，当前时刻收集到的新数据为产生于上一时刻至当前时刻之间的用户与商品的交互数据。

由上述本发明提供的技术方案可以看出，利用图卷积神经网络自身的邻居聚合机制，直接从旧模型参数中提取旧知识，在只使用新数据的条件下精确、高效地完成重训练任务，该方法使得重训练模型的成本大大降低，模型性能比较原始的重训练方法显著提高。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种高效的图卷积神经网络重训练方法的流程图；

图2为本发明实施例提供的增量图生成示意图；

图3为本发明实施例提供的增量图卷积操作(IGC)示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

考虑到图卷积神经网络虽然有强劲的性能，但是由于其将数据显式建模在模型框架中的缘故而难以被重训练，因此，本发明实施例提供一种高效的图卷积神经网络重训练方法，如图1所示，其主要包括：对于上一时刻已经训练好的图卷积神经网络，获取每个节点历史时刻总的积累度；对于每个节点，利用其邻接节点历史时刻总的积累度，计算能够概括历史数据中知识的各节点表征表示；再利用当前时刻收集到的新数据构建增量图，结合增量图以及各节点表征表示，采用增量图卷积操作更新图卷积神经网络的参数。

上述重训练流程与传统训练方式最大的不同点就是其流式结构，借助这一流式结构可以保证随着数据的不断更新模型参数持续更新，并为系统提供持续不断的服务；假设上一时刻t-1已经训练好的图卷积神经网络的参数是W_t-1，可以利用W_t-1和历史积累的度d_i,0～t-1直接计算出各节点表征表示

再结合增量图G_Δt，更新得到t时刻的图卷积神经网络的参数W_t，参数W_t可对下一时刻t+1的数据D_t+1服务，可以利用数据D_t+1进行网络模型的性能测试；同时，可以采用相同的方式利用数据D_t+1对W_t进行更新，实现流式训练。对于图卷积神经网络而言，神经网络模型的权重W_t即为t时刻图中所有节点的第0层表征表示

拼接而成的矩阵

构成，及

本发明实施例提供的上述方案，可以应用到大型电商或短视频平台的图推荐模型(属于一种卷积神经网络)中，在不改变原推荐模型的基础上，加速对原模型的重训练，并使模型可以兼顾用户长短期兴趣，在上线时取得更优的推荐效果。

为了便于理解，下面针对结合模型新旧知识的增量图卷积操作进行详细的介绍。

结合模型新旧知识的增量图卷积操作是通过跨时间阶段的节点新旧表征融合框架来实现，框架的输入是

和G_Δt。

代表上一时间节点t-1时刻旧的图卷积神经网络模型输出的i节点在图卷积神经网络(GCN)第l层的表征，G_Δt表示当前时刻新收集到的数据所构建成的图数据。主要分为如下三个阶段：

1、节点表征表示计算。

本发明实施例中，直接从旧的GCN(图卷积神经网络)模型参数中获取足以概括历史数据中知识的各节点表征表示，其公式为：

其中，

表示节点i到t-1时刻为止的全体邻居节点；d_i,0～t-1、d_j,0～t-1各自表示从0时刻到t-1时刻为止，节点i、节点j总的积累度；

表示t-1时刻图卷积神经网络输出的节点i在图卷积神经网络第l+1层的表征；

表示表示t-1时刻图卷积神经网络输出的节点i在图卷积神经网络第l层的表征。

2、构建增量图。

如图2所示，直接利用当前时刻t新收集到的数据D_t构建增量图G_Δt。

如图2所示，本专利使用新收集到的仅产生于t-1和t时刻之间的用户、商品交互数据D_t来构建增量图G_Δt。G_Δt为用户商品二部图，即用户和商品都会以“节点”的形式表示在图中，某一用户和某一商品间如果存在交互记录，则对应的两个节点间会存在一条“边”。

本领域技术人员可以理解，用户、商品交互数据通常以(UserID，ItemID)这样的U/I对的格式用文本记录在txt中。

本领域技术人员可以理解，增量图G_Δt可以采用常规方式的图构建方式来构建，增量图的构建与普通图的构建的区别在于：增量图只涉及新数据，普通图涉及全部的数据。

3、增量图卷积操作(IGC)。

如图3所示，在从历史GCN模型参数中获得可以概括历史知识的表征表示的前提下，通过结合增量图G_Δt，即可直接使用增量图卷积操作来进行对模型的重训练。

由于当前时刻t收集的新数据D_t构建的增量图G_Δt只包含新数据D_t的节点信息，因此，为了弥补对旧数据中蕴含知识的缺失直接在增量图卷积中引入历史节点表征表示

所述增量图卷积操作的公式为：

其中，

表示通过增量图卷积操作得到的当前时刻t图卷积神经网络输出的节点i在图卷积神经网络第l+1层的表征，

表示节点i的表征表示，

表示节点i到t-1时刻为止的全体邻居节点；d_i,0～t-1表示从0时刻到t-1时刻为止节点i总的积累度，

表示表示当前时刻t图卷积神经网络输出的节点j在图卷积神经网络第l层的表征，d′_i,t、d_j′_,t各自表示对增量图中节点i、节点j的图卷积约束程度。

值得注意的是在上述增量图卷积操作的公式中代表历史知识的部分(即

)是不参与训练的固定参数，这一操作可以很好地避免历史数据被新数据的持续引入不断稀释，同时很好大大降低了重训练的成本。公式中的Agg(·)代表任意的一种邻居聚合方式，示例性的，可以使用一层结构的卷积神经网络(CNN)来实现这一操作，在保证复杂度不增加的前提下达到了最优表现。公式中的d′_i,t可以由增量图卷积操作的度同步器(DS)生成。

大量的图学习研究表明，对于图卷积神经网络框架来说一个合适的度约束框架对模型的性能起着决定性的影响。考虑到在动态的图结构数据中，不同的节点既会有不同的当前时刻度d_i,t，又会有不同的历史积累度d_i,0～t-1，本发明提出了一种端到端的度同步器来捕获这一差异，通过如下公式来生成对增量图中节点的图卷积约束程度：

d′_i,t＝β·d_i,0～t-1+d_i，t

其中，β为可学习的参数，由推荐系统原本的误差直接进行监督；d_i，t为通过增量图得到的当前时刻t节点i的度。这样，可以保证在不增加训练成本的前提下，直接通过机器学习的方法智能地、灵活地捕获不同数据中的不同特点，生成合适的d′_i，t用来约束在增量图中进行的增量图卷积操作。

通过上述增量图卷积操作的公式可以得到当前时刻t各节点在每个层(第1层至最后一层)的表征，综合所有层的表征，结合图卷积神经网络的损失函数进行反向传播，从而得到当前时刻t各节点在第0层表征表示向量

再拼接为矩阵

作为更新后的网络权重参数

此处所涉及的损失函数以及反向传播可直接参照常规技术，本发明不做赘述。

本领域技术人员可以理解，图卷积神经网络第0层是指“l＝0”。每一次迭代中，图神经网络中第l层的输入是第l-1层的输出，第l层的输出作为第l+1层的输入，也就是说，l＝1时，输入的是来自第0层的数据

输出的

作为第2层的输入。考虑到l的取值是从0开始，但是，运算是从第1层开始，因此，图3从第1层开始绘制。

本发明实施例上述方案，利用图卷积神经网络自身的邻居聚合机制，直接从旧模型参数中提取旧知识，在只使用新数据的条件下精确、高效地完成重训练任务，该方法使得重训练模型的成本大大降低，模型性能比较原始的重训练方法显著提高。

为了验证本发明的性能，进行了相关实验。

实验中，以SOTA的图推荐模型LightGCN为基础推荐模型，选取两个公开不同类型的数据集Yelp，Gowalla进行实验。以Full-Retrain LightGCN以及Caser作为对比模型。按照时间顺序将Yelp和Gowalla数据集划分为40份，到达阶段t时，在D_t中训练Caser及IGC-LightGCN模型，在{D₀，D₁…，D_t}中训练Full-Retrain LightGCN模型，并在D_t+1中进行测试。分别统计Yelp和Gowalla最后10个阶段的平均性能，以Recall@5及NDCG@5作为度量，比较结果如表1所示。

表1不同方法在两个数据集上的性能比较

从表1中，可以发现：在两种不同类型的数据集上，本发明在所有指标都超越Full-RetrainLightGCN，说明本发明可以利用更少的数据、更少的训练时间开销和存储开销却可以获得更优的推荐效果。与SOTA的非图推荐模型Caser、SML-MF和SOTA的图推荐模型Full-Retrain LightGCN比较，本发明都获得了更优秀的结果，这说明本发明对于不同的推荐场景具有自适应性，且比起非图框架的重训练方法、以及Full-retrain的图训练方法都可以实现更好的重训练结果。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。