CN116011551B

CN116011551B - 优化数据加载的图采样训练方法、系统、设备及存储介质

Info

Publication number: CN116011551B
Application number: CN202310040431.XA
Authority: CN
Inventors: 马煜昕; 李�诚; 吴思; 龚平; 徐伟; 吕敏; 许胤龙
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2022-12-01
Filing date: 2023-01-13
Publication date: 2023-08-29
Anticipated expiration: 2043-01-13
Also published as: CN116011551A

Abstract

本发明公开了一种优化数据加载的图采样训练方法、系统、设备及存储介质，其中，方法、系统、设备及存储介质是一一对应的方案，方案中在训练之前通过压缩特征数据，减少了数据量，大幅降低数据加载的开销，并在不同规模的图数据集上均能维持恒定的效果，同时减少训练过程中的内存占用，并且还可以降低数据传输量以缓解PCI‑e带宽瓶颈，以及提升GPU资源利用率，使得训练大规模的图成为可能；并且，通过在GPU上解压缩恢复其格式，将数据加载方法与模型解耦，在保留原有图神经网络模型不变的情况下提供加速，兼容各种图神经网络模型。结合以上方案，本发明能够大大提升图采样训练过程中的数据加载速度。

Description

优化数据加载的图采样训练方法、系统、设备及存储介质

技术领域

本发明涉及图神经网络训练技术领域，尤其涉及一种优化数据加载的图采样训练方法、系统、设备及存储介质。

背景技术

近年来，随着深度学习技术的发展，图神经网络已经成为了处理图数据的重要方法。图神经网络被广泛应用于风控系统、推荐系统和药物研发等领域。早期的图神经网络如图卷积网络(GCN)因其较大的内存需求难以在大规模图上训练，直到GraphSAGE方法(它是基于采样的图神经网络训练方法)的提出，该方法在不影响最终训练精度的前提下，大幅降低训练内存需求，因此，图采样训练方法被广泛应用于图神经网络的训练中。

图采样训练方法将图神经网络的训练分为采样、数据加载和前向反向计算三部分，并使用CPU(中央处理器)和GPU(图形处理器)协同进行训练。传统图采样训练流程如图1所示，包括采样(①)、数据加载和模型计算(④)三个阶段；其中，数据记载可以细分为特征收集②和数据传输③(包含子图特征传输与子图结构传输)两步，模型计算包含前向反向计算。

训练过程中，根据每一批次的种子节点，先在CPU上从原始图数据中采样得到其邻域构成的子图(即采样阶段)，然后从CPU内存中收集子图中各节点对应的特征数据(即特征收集阶段)，再经由PCI-e总线将特征和子图结构传输到GPU(即数据传输阶段)，最后在GPU上依据子图进行图神经网络的前向计算和反向传播(即模型计算阶段)。此处的种子节点是迭代过程中需要预测的节点，每次迭代从训练集中随机选取一定数量的种子节点，为了对这些种子节点进行预测，会需要采样其他一些外围节点构成子图。

在一台使用双路E5-2620的计算机上使用一张NVIDIA GTX1080Ti GPU进行训练时，数据加载阶段开销可占据训练总耗时的80％-90％，是主要瓶颈，其主要原因在于需加载的数据量大，加载频繁，而采样和模型计算复杂度相对较低。随着GPU数量的增多，由于PCI-e(一种高速串行计算机扩展总线标准)带宽资源的竞争，数据加载的性能问题也更加凸出，在使用4张GTX1080TiGPU进行训练时，其数据加载耗时占比可达90％以上，GPU资源利用不充分。

数据加载过程包括特征收集和数据传输两部分，各占约一半的耗时，且数据传输的绝大多数耗时来自于特征数据。庞大的特征数据量是导致数据加载缓慢的主要原因，且受限于PCI-e带宽等因素，利用预取或异步等方式较难取得好的效果。也有一些技术试图缓解数据加载问题，PaGraph(图神经网络训练原型系统)、GNNLab(基于GPU的图神经网络采样训练系统)采用的图缓存方法在空闲的GPU内存中缓存部分图特征数据，但是在图规模扩大时缓存命中率降低，在大图上效果不佳，在训练700GB的图数据集时的加速效果仅有不到5％。因此，有必要对现有方案进行优化，以提升GPU资源利用率，降低数据传输量以缓解PCI-e带宽瓶颈，以及提升训练效率。

发明内容

本发明的目的是提供一种优化数据加载的图采样训练方法、系统、设备及存储介质，可以减少内存占用，可以降低数据传输量以缓解PCI-e带宽瓶颈，可以提升GPU资源利用率，可以提升训练效率。

本发明的目的是通过以下技术方案实现的：

一种优化数据加载的图采样训练方法，包括：

在训练开始之前，对图数据中的原始特征进行压缩，将压缩后的特征保存在CPU中；

训练时的每次迭代过程中，先对图数据进行采样，获得子图结构，并根据子图结构在CPU中查找对应的压缩后的特征数据，将子图结构与对应的压缩后的特征数据一并发送至GPU中；GPU对压缩后的特征数据进行解压缩，并利用解压缩后的特征数据与子图结构进行图神经网络的前向计算和反向传播。

一种优化数据加载的图采样训练系统，包括：

特征压缩与存储单元，用于在训练开始之前，对图数据中的原始特征进行压缩，将压缩后的特征保存在CPU中；

图采样训练单元，用于训练时的每次迭代过程中，先对图数据进行采样，获得子图结构，并根据子图结构在CPU中查找对应的压缩后的特征数据，将子图结构与对应的压缩后的特征数据一并发送至GPU中；GPU对压缩后的特征数据进行解压缩，并利用解压缩后的特征数据与子图结构进行图神经网络的前向计算和反向传播。

一种处理设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述的方法。

一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述的方法。

由上述本发明提供的技术方案可以看出，在训练之前通过压缩特征数据，减少了数据量，大幅降低数据加载的开销，并在不同规模的图数据集上均能维持恒定的效果，同时减少训练过程中的内存占用，并且还可以降低数据传输量以缓解PCI-e带宽瓶颈，以及提升GPU资源利用率，使得训练大规模的图成为可能；并且，通过在GPU上解压缩恢复其格式，将数据加载方法与模型解耦，在保留原有图神经网络模型不变的情况下提供加速，兼容各种图神经网络模型。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明背景技术提供的传统图采样训练流程示意图；

图2为本发明实施例提供的一种优化数据加载的图采样训练方法的示意图；

图3为本发明实施例提供的一种优化数据加载的图采样训练系统的示意图；

图4为本发明实施例提供的一种处理设备的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

首先对本文中可能使用的术语进行如下说明：

术语“和/或”是表示两者任一或两者同时均可实现，例如，X和/或Y表示既包括“X”或“Y”的情况也包括“X和Y”的三种情况。

术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述，应被解释为非排它性的包括。例如：包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等)，应被解释为不仅包括明确列出的某技术特征要素，还可以包括未明确列出的本领域公知的其它技术特征要素。

下面对本发明所提供的一种优化数据加载的图采样训练方法、系统、设备及存储介质进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者，按照本领域常规条件或制造商建议的条件进行。

实施例一

本发明实施例提供一种优化数据加载的图采样训练方法，如图2所示，主要包括：

一、预先压缩特征数据。

本发明实施例中，在训练开始之前在训练开始之前，对图数据中的原始特征进行压缩，将压缩后的特征保存在CPU中，即图2中的特征压缩。

本发明实施例中，将图数据中每一个节点的原始特征分别采用量化方法进行压缩，即，将每一个节点的原始特征中每一个浮点数(32位浮点数)量化至k位的整数。使用较高的压缩率以尽可能减少特征数据量，压缩过程只需要在训练前执行一次，此后在CPU内存中只保留压缩后的特征。

本发明实施例中，量化方法为数均匀的标量量化方法，步骤如下：对每一节点原始特征每一维的数值的绝对值取对数，将所有节点所有维度原始特征的对数值从大到小排序，获取排在m％和1-m％的对数值，称为上界值和下界值，即所有维度共享相同的上界值和下界值，其中，m为设定值，例如设置m＝1；对于每一个节点的原始特征中的每一维，如果相应维度的对数值大于上界值，则使用上界值表示，如果相应维度的对数值小于下界值，则使用下界值表示。在上界值和下界值之间的范围均匀取2^k-1个值，将每一节点每一维对应的对数值就近映射到相应的值上，值的序号使用k-1位表示，再加上1位记录符号，用来标识量化后的值是否为正值(正值为1，负值和零为0)，使浮点数量化至k位的整数。这样，对于32位浮点数，压缩后特征数据尺寸为原来的k/32，当然，此处的k小于32。

此处在上界值和下界值之间的范围均匀取2^k-1个值后，所有节点所的对数值均就近映射到相应的值上，也就是说，不同的对数值可能映射到相同的值上，2^k-1个值的序号可以用k-1个二进制位来表示。

此外，额外存储此部分得到的所有维度共享的上界值和下界值，用于接下来的解压缩过程，其尺寸与节点数无关，远小于压缩后的特征尺寸，并不会影响压缩效果。

上述的量化公式表示为：

其中，与/>分别为向上和向下取整函数，x表示量化前的某一维原始特征的数值，Q(x)表示量化后的相应维的数值，e_max与e_min分别表示上界值与下界值；Clip(.)为裁剪函数，即：如果相应维度的对数值大于上界值，则使用上界值表示，如果相应维度的对数值小于下界值，则使用下界值表示，裁剪函数表示为：

其中，y表示某一维原始特征数值的绝对值的对数值。

本发明实施例中使用的量化方法虽然是有损的，会带来一些误差，但是由于图神经网络的聚合步骤将不同邻居的特征取均值，因此，可以有效地将大部分误差抵消，使得使用压缩后的特征训练依然可以达到理想的模型精度。

二、图采样训练。

1、采样与数据加载。

训练时的每次迭代过程中，先对图数据进行采样(图2中的①采样)，获得子图结构，并根据子图结构在CPU中查找对应的压缩后的特征数据(图2中的②特征收集)，将子图结构与对应的压缩后的特征数据一并发送至GPU中(图2中的③GPU子图特征传输与③GPU子图结构传输)。此部分中，先确定子图结构中的节点序号，再利用节点序号在CPU的内存中查找对应的压缩后的特征数据；最后，将查找到的对应的压缩后的特征数据与子图结构(一般为CSR格式)经由PCI-e总线传输至GPU内存中。

2、在GPU上解压缩特征并用于训练。

本发明实施例中，每次迭代过程中，在完成数据加载(收集和传输特征与子图结构)后，GPU对压缩后的特征数据进行解压缩(图2中的④特征解压缩)，恢复其原本的特征向量维度和数据类型，并利用解压缩后的特征数据与子图结构进行图神经网络的前向计算和反向传播(图2中的⑤模型计算)。

本发明实施例中，GPU对压缩后的特征数据进行解压缩的方式包括：

针对每一节点每一维压缩后的特征数据，利用压缩时使用的上界值与下界值，得到对应的对数值，最终得到每一个节点所有维度的对数值，再进行指数操作得到解压缩后特征的数值，同时恢复为原始特征的数据类型(浮点数)，解压缩时的公式为：

其中，k为压缩后特征数据的位数，q为量化后的某一维的数值(即前文的Q(x))，Q^-1(q)表示解压缩后的相应维特征的数值，此处的Q^-1为前文量化压缩时的逆向操作。

本发明实施例以上方案无需对待训练的图神经网络模型进行改动，并可以兼容各种图神经网络模型。

3、迭代训练。

重复上述第1～2步，直到模型收敛或者达到指定的训练步数。

本发明实施例提供的上述方案，在训练之前通过压缩特征数据，减少了数据量，大幅降低数据加载的开销，并在不同规模的图数据集上均能维持恒定的效果，同时减少训练过程中的内存占用，并且还可以降低数据传输量以缓解PCI-e带宽瓶颈，以及提升GPU资源利用率，使得训练大规模的图成为可能；并且，通过在GPU上解压缩恢复其格式，将数据加载方法与模型解耦，在保留原有图神经网络模型不变的情况下提供加速，兼容各种图神经网络模型。

实施例二

本发明还提供一种优化数据加载的图采样训练系统，其主要基于前述实施例提供的方法实现，如图3所示，该系统主要包括：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将系统的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

实施例三

本发明还提供一种处理设备，如图4所示，其主要包括：一个或多个处理器；存储器，用于存储一个或多个程序；其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述实施例提供的方法。

进一步的，所述处理设备还包括至少一个输入设备与至少一个输出设备；在所述处理设备中，处理器、存储器、输入设备、输出设备之间通过总线连接。

本发明实施例中，所述存储器、输入设备与输出设备的具体类型不做限定；例如：

输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等；

输出设备可以为显示终端；

存储器可以为随机存取存储器(Random Access Memory，RAM)，也可为非不稳定的存储器(non-volatile memory)，例如磁盘存储器。

实施例四

本发明还提供一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述实施例提供的方法。

本发明实施例中可读存储介质作为计算机可读存储介质，可以设置于前述处理设备中，例如，作为处理设备中的存储器。此外，所述可读存储介质也可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种优化数据加载的图采样训练方法，其特征在于，包括：

训练时的每次迭代过程中，先对图数据进行采样，获得子图结构，并根据子图结构在CPU中查找对应的压缩后的特征数据，将子图结构与对应的压缩后的特征数据一并发送至GPU中；GPU对压缩后的特征数据进行解压缩，并利用解压缩后的特征数据与子图结构进行图神经网络的前向计算和反向传播；

所述对图数据中的原始特征进行压缩包括：将图数据中每一个节点的原始特征分别采用量化方法进行压缩，即，将每一个节点的原始特征中每一个浮点数量化至k位的整数；

将每一个节点的原始特征中每一个浮点数量化至k位的整数步骤包括：

对每一节点原始特征每一维的数值的绝对值取对数，将所有节点所有维度原始特征的对数值从大到小排序，获取排在m%和1-m%的对数值，称为上界值和下界值，所有维度共享相同的上界值和下界值，其中，m为设定值；对于每一个节点的原始特征中的每一维，如果相应维度的对数值大于上界值，则使用上界值表示，如果相应维度的对数值小于下界值，则使用下界值表示；

在上界值和下界值之间的范围均匀取2^k-1个值，将每一节点每一维对应的对数值就近映射到相应的值上，2^k-1个值的序号使用k-1个二进制位来表示，再加上1位记录符号，用来标识量化后的值是否为正值，使浮点数量化至k位的整数；

量化公式表示为：

；

其中，与/>分别为向上和向下取整函数，x表示量化前的某一维原始特征的数值，Q(x)表示量化后的相应维的数值，e_max与e_min分别表示上界值与下界值；Clip(.)为裁剪函数，如果相应维度的对数值大于上界值，则使用上界值表示，如果相应维度的对数值小于下界值，则使用下界值表示。

2.根据权利要求1所述的一种优化数据加载的图采样训练方法，其特征在于，裁剪函数表示为：

；

其中，y表示某一维原始特征数值的绝对值的对数值。

3.根据权利要求1所述的一种优化数据加载的图采样训练方法，其特征在于，所述根据子图结构在CPU中查找对应的压缩后的特征数据，将子图结构与对应的压缩后的特征数据一并发送至GPU中包括：

确定子图结构中的节点序号，利用节点序号在CPU的内存中查找对应的压缩后的特征数据；

将查找到的对应的压缩后的特征数据与子图结构经由PCI-e总线传输至GPU内存中。

4.根据权利要求1所述的一种优化数据加载的图采样训练方法，其特征在于， GPU对压缩后的特征数据进行解压缩的方式包括：

针对每一节点每一维压缩后的特征数据，利用压缩时使用的上界值与下界值，得到对应的对数值，最终得到每一个节点所有维度的对数值，再进行指数操作得到解压缩后特征的数值，同时恢复为原始特征的数据类型，解压缩时的公式为：

；

其中，k为压缩后特征数据的位数，q为量化后的某一维的数值，Q^-1(q)表示解压缩后的相应维特征的数值，e_max与e_min分别表示上界值与下界值。

5.一种优化数据加载的图采样训练系统，其特征在于，基于权利要求1~4任一项所述的方法实现，该系统包括：

6.一种处理设备，其特征在于，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1~4任一项所述的方法。

7.一种可读存储介质，存储有计算机程序，其特征在于，当计算机程序被处理器执行时实现如权利要求1~4任一项所述的方法。