CN116011551A - 优化数据加载的图采样训练方法、系统、设备及存储介质 - Google Patents

优化数据加载的图采样训练方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN116011551A
CN116011551A CN202310040431.XA CN202310040431A CN116011551A CN 116011551 A CN116011551 A CN 116011551A CN 202310040431 A CN202310040431 A CN 202310040431A CN 116011551 A CN116011551 A CN 116011551A
Authority
CN
China
Prior art keywords
value
graph
data
sub
compressed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310040431.XA
Other languages
English (en)
Other versions
CN116011551B (zh
Inventor
马煜昕
李�诚
吴思
龚平
徐伟
吕敏
许胤龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Publication of CN116011551A publication Critical patent/CN116011551A/zh
Application granted granted Critical
Publication of CN116011551B publication Critical patent/CN116011551B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Image Generation (AREA)

Abstract

本发明公开了一种优化数据加载的图采样训练方法、系统、设备及存储介质,其中,方法、系统、设备及存储介质是一一对应的方案,方案中在训练之前通过压缩特征数据,减少了数据量,大幅降低数据加载的开销,并在不同规模的图数据集上均能维持恒定的效果,同时减少训练过程中的内存占用,并且还可以降低数据传输量以缓解PCI‑e带宽瓶颈,以及提升GPU资源利用率,使得训练大规模的图成为可能;并且,通过在GPU上解压缩恢复其格式,将数据加载方法与模型解耦,在保留原有图神经网络模型不变的情况下提供加速,兼容各种图神经网络模型。结合以上方案,本发明能够大大提升图采样训练过程中的数据加载速度。

Description

优化数据加载的图采样训练方法、系统、设备及存储介质
技术领域
本发明涉及图神经网络训练技术领域,尤其涉及一种优化数据加载的图采样训练方法、系统、设备及存储介质。
背景技术
近年来,随着深度学习技术的发展,图神经网络已经成为了处理图数据的重要方法。图神经网络被广泛应用于风控系统、推荐系统和药物研发等领域。早期的图神经网络如图卷积网络(GCN)因其较大的内存需求难以在大规模图上训练,直到GraphSAGE方法(它是基于采样的图神经网络训练方法)的提出,该方法在不影响最终训练精度的前提下,大幅降低训练内存需求,因此,图采样训练方法被广泛应用于图神经网络的训练中。
图采样训练方法将图神经网络的训练分为采样、数据加载和前向反向计算三部分,并使用CPU(中央处理器)和GPU(图形处理器)协同进行训练。传统图采样训练流程如图1所示,包括采样(①)、数据加载和模型计算(④)三个阶段;其中,数据记载可以细分为特征收集②和数据传输③(包含子图特征传输与子图结构传输)两步,模型计算包含前向反向计算。
训练过程中,根据每一批次的种子节点,先在CPU上从原始图数据中采样得到其邻域构成的子图(即采样阶段),然后从CPU内存中收集子图中各节点对应的特征数据(即特征收集阶段),再经由PCI-e总线将特征和子图结构传输到GPU(即数据传输阶段),最后在GPU上依据子图进行图神经网络的前向计算和反向传播(即模型计算阶段)。此处的种子节点是迭代过程中需要预测的节点,每次迭代从训练集中随机选取一定数量的种子节点,为了对这些种子节点进行预测,会需要采样其他一些外围节点构成子图。
在一台使用双路E5-2620的计算机上使用一张NVIDIA GTX1080Ti GPU进行训练时,数据加载阶段开销可占据训练总耗时的80%-90%,是主要瓶颈,其主要原因在于需加载的数据量大,加载频繁,而采样和模型计算复杂度相对较低。随着GPU数量的增多,由于PCI-e(一种高速串行计算机扩展总线标准)带宽资源的竞争,数据加载的性能问题也更加凸出,在使用4张GTX1080TiGPU进行训练时,其数据加载耗时占比可达90%以上,GPU资源利用不充分。
数据加载过程包括特征收集和数据传输两部分,各占约一半的耗时,且数据传输的绝大多数耗时来自于特征数据。庞大的特征数据量是导致数据加载缓慢的主要原因,且受限于PCI-e带宽等因素,利用预取或异步等方式较难取得好的效果。也有一些技术试图缓解数据加载问题,PaGraph(图神经网络训练原型系统)、GNNLab(基于 GPU 的图神经网络采样训练系统)采用的图缓存方法在空闲的GPU内存中缓存部分图特征数据,但是在图规模扩大时缓存命中率降低,在大图上效果不佳,在训练700GB的图数据集时的加速效果仅有不到5%。因此,有必要对现有方案进行优化,以提升GPU资源利用率,降低数据传输量以缓解PCI-e带宽瓶颈,以及提升训练效率。
发明内容
本发明的目的是提供一种优化数据加载的图采样训练方法、系统、设备及存储介质,可以减少内存占用,可以降低数据传输量以缓解PCI-e带宽瓶颈,可以提升GPU资源利用率,可以提升训练效率。
本发明的目的是通过以下技术方案实现的:
一种优化数据加载的图采样训练方法,包括:
在训练开始之前,对图数据中的原始特征进行压缩,将压缩后的特征保存在CPU中;
训练时的每次迭代过程中,先对图数据进行采样,获得子图结构,并根据子图结构在CPU中查找对应的压缩后的特征数据,将子图结构与对应的压缩后的特征数据一并发送至GPU中;GPU对压缩后的特征数据进行解压缩,并利用解压缩后的特征数据与子图结构进行图神经网络的前向计算和反向传播。
一种优化数据加载的图采样训练系统,包括:
特征压缩与存储单元,用于在训练开始之前,对图数据中的原始特征进行压缩,将压缩后的特征保存在CPU中;
图采样训练单元,用于训练时的每次迭代过程中,先对图数据进行采样,获得子图结构,并根据子图结构在CPU中查找对应的压缩后的特征数据,将子图结构与对应的压缩后的特征数据一并发送至GPU中;GPU对压缩后的特征数据进行解压缩,并利用解压缩后的特征数据与子图结构进行图神经网络的前向计算和反向传播。
一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。
一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述的方法。
由上述本发明提供的技术方案可以看出,在训练之前通过压缩特征数据,减少了数据量,大幅降低数据加载的开销,并在不同规模的图数据集上均能维持恒定的效果,同时减少训练过程中的内存占用,并且还可以降低数据传输量以缓解PCI-e带宽瓶颈,以及提升GPU资源利用率,使得训练大规模的图成为可能;并且,通过在GPU上解压缩恢复其格式,将数据加载方法与模型解耦,在保留原有图神经网络模型不变的情况下提供加速,兼容各种图神经网络模型。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明背景技术提供的传统图采样训练流程示意图;
图2为本发明实施例提供的一种优化数据加载的图采样训练方法的示意图;
图3为本发明实施例提供的一种优化数据加载的图采样训练系统的示意图;
图4为本发明实施例提供的一种处理设备的示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
首先对本文中可能使用的术语进行如下说明:
术语“和/或”是表示两者任一或两者同时均可实现,例如,X和/或Y表示既包括“X”或“Y”的情况也包括“X和Y”的三种情况。
术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。
下面对本发明所提供的一种优化数据加载的图采样训练方法、系统、设备及存储介质进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。
实施例一
本发明实施例提供一种优化数据加载的图采样训练方法,如图2所示,主要包括:
一、预先压缩特征数据。
本发明实施例中,在训练开始之前在训练开始之前,对图数据中的原始特征进行压缩,将压缩后的特征保存在CPU中,即图2中的特征压缩。
本发明实施例中,将图数据中每一个节点的原始特征分别量化方法进行压缩,即,将每一个节点的原始特征中每一个浮点数(32位浮点数)量化至k位的整数。使用较高的压缩率以尽可能减少特征数据量,压缩过程只需要在训练前执行一次,此后在CPU内存中只保留压缩后的特征。
本发明实施例中,量化方法为数均匀的标量量化方法,步骤如下:对每一节点原始特征每一维的数值的绝对值取对数,将所有节点所有维度原始特征的对数值从大到小排序,获取排在m%和(1-m)%的对数值,称为上界值和下界值,即所有维度共享相同的上界值和下界值,其中,m为设定值,例如设置m=1;对于每一个节点的原始特征中的每一维,如果相应维度的对数值大于上界值,则使用上界值表示,如果相应维度的对数值小于下界值,则使用下界值表示。在上界值和下界值之间的范围均匀取2k-1个值,将每一节点每一维对应的对数值就近映射到相应的值上,值的序号使用k-1位表示,再加上1位记录符号,用来标识量化后的值是否为正值(正值为1,负值和零为0),使浮点数量化至k位的整数。这样,对于32位浮点数,压缩后特征数据尺寸为原来的k/32,当然,此处的k小于32。
此处在上界值和下界值之间的范围均匀取2k-1个值后,所有节点所的对数值均就近映射到相应的值上,也就是说,不同的对数值可能映射到相同的值上,2k-1个值的序号可以用k-1个二进制位来表示。
此外,额外存储此部分得到的所有维度共享的上界值和下界值,用于接下来的解压缩过程,其尺寸与节点数无关,远小于压缩后的特征尺寸,并不会影响压缩效果。
上述的量化公式表示为:
其中,分别为向上和向下取整函数, x表示量化前的某一维原始特征的数值,Q( x)表示量化后的相应维的数值, e max e min 分别表示上界值与下界值;Clip(.)为裁剪函数,即:如果相应维度的对数值大于上界值,则使用上界值表示,如果相应维度的对数值小于下界值,则使用下界值表示,裁剪函数表示为:
其中, y表示某一维原始特征数值的绝对值的对数值。
本发明实施例中使用的量化方法虽然是有损的,会带来一些误差,但是由于图神经网络的聚合步骤将不同邻居的特征取均值,因此,可以有效地将大部分误差抵消,使得使用压缩后的特征训练依然可以达到理想的模型精度。
二、图采样训练。
1、采样与数据加载。
训练时的每次迭代过程中,先对图数据进行采样(图2中的①采样),获得子图结构,并根据子图结构在CPU中查找对应的压缩后的特征数据(图2中的②特征收集),将子图结构与对应的压缩后的特征数据一并发送至GPU中(图2中的③GPU子图特征传输与③GPU子图结构传输)。此部分中,先确定子图结构中的节点序号,再利用节点序号在CPU的内存中查找对应的压缩后的特征数据;最后,将查找到的对应的压缩后的特征数据与子图结构(一般为CSR格式)经由PCI-e总线传输至GPU内存中。
2、在GPU上解压缩特征并用于训练。
本发明实施例中,每次迭代过程中,在完成数据加载(收集和传输特征与子图结构)后,GPU对压缩后的特征数据进行解压缩(图2中的④特征解压缩),恢复其原本的特征向量维度和数据类型,并利用解压缩后的特征数据与子图结构进行图神经网络的前向计算和反向传播(图2中的⑤模型计算)。
本发明实施例中,GPU对压缩后的特征数据进行解压缩的方式包括:
针对每一节点每一维压缩后的特征数据,利用压缩时使用的上界值与下界值,得到对应的对数值,最终得到每一个节点所有维度的对数值,再进行指数操作得到解压缩后特征的数值,同时恢复为原始特征的数据类型(浮点数),解压缩时的公式为:
其中,k为压缩后特征数据的位数, q为量化后的某一维的数值(即前文的Q( x)),Q-1( q)表示解压缩后的相应维特征的数值,此处的Q-1为前文量化压缩时的逆向操作。
本发明实施例以上方案无需对待训练的图神经网络模型进行改动,并可以兼容各种图神经网络模型。
3、迭代训练。
重复上述第1~2步,直到模型收敛或者达到指定的训练步数。
本发明实施例提供的上述方案,在训练之前通过压缩特征数据,减少了数据量,大幅降低数据加载的开销,并在不同规模的图数据集上均能维持恒定的效果,同时减少训练过程中的内存占用,并且还可以降低数据传输量以缓解PCI-e带宽瓶颈,以及提升GPU资源利用率,使得训练大规模的图成为可能;并且,通过在GPU上解压缩恢复其格式,将数据加载方法与模型解耦,在保留原有图神经网络模型不变的情况下提供加速,兼容各种图神经网络模型。
实施例二
本发明还提供一种优化数据加载的图采样训练系统,其主要基于前述实施例提供的方法实现,如图3所示,该系统主要包括:
特征压缩与存储单元,用于在训练开始之前,对图数据中的原始特征进行压缩,将压缩后的特征保存在CPU中;
图采样训练单元,用于训练时的每次迭代过程中,先对图数据进行采样,获得子图结构,并根据子图结构在CPU中查找对应的压缩后的特征数据,将子图结构与对应的压缩后的特征数据一并发送至GPU中;GPU对压缩后的特征数据进行解压缩,并利用解压缩后的特征数据与子图结构进行图神经网络的前向计算和反向传播。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
实施例三
本发明还提供一种处理设备,如图4所示,其主要包括:一个或多个处理器;存储器,用于存储一个或多个程序;其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述实施例提供的方法。
进一步的,所述处理设备还包括至少一个输入设备与至少一个输出设备;在所述处理设备中,处理器、存储器、输入设备、输出设备之间通过总线连接。
本发明实施例中,所述存储器、输入设备与输出设备的具体类型不做限定;例如:
输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等;
输出设备可以为显示终端;
存储器可以为随机存取存储器(Random Access Memory,RAM),也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。
实施例四
本发明还提供一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述实施例提供的方法。
本发明实施例中可读存储介质作为计算机可读存储介质,可以设置于前述处理设备中,例如,作为处理设备中的存储器。此外,所述可读存储介质也可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (10)

1.一种优化数据加载的图采样训练方法,其特征在于,包括:
在训练开始之前,对图数据中的原始特征进行压缩,将压缩后的特征保存在CPU中;
训练时的每次迭代过程中,先对图数据进行采样,获得子图结构,并根据子图结构在CPU中查找对应的压缩后的特征数据,将子图结构与对应的压缩后的特征数据一并发送至GPU中;GPU对压缩后的特征数据进行解压缩,并利用解压缩后的特征数据与子图结构进行图神经网络的前向计算和反向传播。
2.根据权利要求1所述的一种优化数据加载的图采样训练方法,其特征在于,所述对图数据中的原始特征进行压缩包括:将图数据中每一个节点的原始特征分别量化方法进行压缩,即,将每一个节点的原始特征中每一个浮点数量化至k位的整数。
3.根据权利要求2所述的一种优化数据加载的图采样训练方法,其特征在于,将每一个节点的原始特征中每一个浮点数量化至k位的整数步骤包括:
对每一节点原始特征每一维的数值的绝对值取对数,将所有节点所有维度原始特征的对数值从大到小排序,获取排在m%和(1-m)%的对数值,称为上界值和下界值,所有维度共享相同的上界值和下界值,其中,m为设定值;对于每一个节点的原始特征中的每一维,如果相应维度的对数值大于上界值,则使用上界值表示,如果相应维度的对数值小于下界值,则使用下界值表示;
在上界值和下界值之间的范围均匀取2k-1个值,将每一节点每一维对应的对数值就近映射到相应的值上,2k-1个值的序号使用k-1个二进制位来表示,再加上1位记录符号,用来标识量化后的值是否为正值,使浮点数量化至k位的整数。
4.根据权利要求3所述的一种优化数据加载的图采样训练方法,其特征在于,量化公式表示为:
其中,分别为向上和向下取整函数,x表示量化前的某一维原始特征的数值, Q(x)表示量化后的相应维的数值,e max e min 分别表示上界值与下界值;Clip(.)为裁剪函数,如果相应维度的对数值大于上界值,则使用上界值表示,如果相应维度的对数值小于下界值,则使用下界值表示。
5.根据权利要求4所述的一种优化数据加载的图采样训练方法,其特征在于,裁剪函数表示为:
其中,y表示某一维原始特征数值的绝对值的对数值。
6.根据权利要求1所述的一种优化数据加载的图采样训练方法,其特征在于,所述根据子图结构在CPU中查找对应的压缩后的特征数据,将子图结构与对应的压缩后的特征数据一并发送至GPU中包括:
确定子图结构中的节点序号,利用节点序号在CPU的内存中查找对应的压缩后的特征数据;
将查找到的对应的压缩后的特征数据与子图结构经由PCI-e总线传输至GPU内存中。
7.根据权利要求1所述的一种优化数据加载的图采样训练方法,其特征在于, GPU对压缩后的特征数据进行解压缩的方式包括:
针对每一节点每一维压缩后的特征数据,利用压缩时使用的上界值与下界值,得到对应的对数值,最终得到每一个节点所有维度的对数值,再进行指数操作得到解压缩后特征的数值,同时恢复为原始特征的数据类型,解压缩时的公式为:
其中,k为压缩后特征数据的位数,q为量化后的某一维的数值,Q-1(q)表示解压缩后的相应维特征的数值,e max e min 分别表示上界值与下界值。
8.一种优化数据加载的图采样训练系统,其特征在于,基于权利要求1~7任一项所述的方法实现,该系统包括:
特征压缩与存储单元,用于在训练开始之前,对图数据中的原始特征进行压缩,将压缩后的特征保存在CPU中;
图采样训练单元,用于训练时的每次迭代过程中,先对图数据进行采样,获得子图结构,并根据子图结构在CPU中查找对应的压缩后的特征数据,将子图结构与对应的压缩后的特征数据一并发送至GPU中;GPU对压缩后的特征数据进行解压缩,并利用解压缩后的特征数据与子图结构进行图神经网络的前向计算和反向传播。
9.一种处理设备,其特征在于,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1~7任一项所述的方法。
10.一种可读存储介质,存储有计算机程序,其特征在于,当计算机程序被处理器执行时实现如权利要求1~7任一项所述的方法。
CN202310040431.XA 2022-12-01 2023-01-13 优化数据加载的图采样训练方法、系统、设备及存储介质 Active CN116011551B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2022115411398 2022-12-01
CN202211541139 2022-12-01

Publications (2)

Publication Number Publication Date
CN116011551A true CN116011551A (zh) 2023-04-25
CN116011551B CN116011551B (zh) 2023-08-29

Family

ID=86035409

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310040431.XA Active CN116011551B (zh) 2022-12-01 2023-01-13 优化数据加载的图采样训练方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116011551B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7599975B1 (en) * 2005-03-04 2009-10-06 Nvidia Corporation Decompression of compressed 16 bit data
US20180322383A1 (en) * 2017-05-02 2018-11-08 International Business Machines Corporation Storage controller accelaration for neural network training and inference
CN110895715A (zh) * 2018-09-12 2020-03-20 辉达公司 存储高效的神经网络
CN111967598A (zh) * 2020-08-21 2020-11-20 深圳前海微众银行股份有限公司 神经网络压缩方法、装置、设备及计算机可读存储介质
WO2020238603A1 (zh) * 2019-05-24 2020-12-03 上海肇观电子科技有限公司 深度神经网络的压缩方法、芯片、电子设备及介质
CN113196305A (zh) * 2018-12-18 2021-07-30 微软技术许可有限责任公司 使用混合精度数据格式训练神经网络加速器
CN113377998A (zh) * 2021-06-28 2021-09-10 北京百度网讯科技有限公司 数据加载的方法、装置、电子设备及存储介质
CN113657577A (zh) * 2021-07-21 2021-11-16 阿里巴巴达摩院(杭州)科技有限公司 模型训练方法及计算系统
CN114895985A (zh) * 2022-06-08 2022-08-12 华东师范大学 一种面向基于采样的图神经网络训练的数据加载系统
CN115357554A (zh) * 2022-10-24 2022-11-18 浪潮电子信息产业股份有限公司 一种图神经网络压缩方法、装置、电子设备及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7599975B1 (en) * 2005-03-04 2009-10-06 Nvidia Corporation Decompression of compressed 16 bit data
US20180322383A1 (en) * 2017-05-02 2018-11-08 International Business Machines Corporation Storage controller accelaration for neural network training and inference
CN110895715A (zh) * 2018-09-12 2020-03-20 辉达公司 存储高效的神经网络
CN113196305A (zh) * 2018-12-18 2021-07-30 微软技术许可有限责任公司 使用混合精度数据格式训练神经网络加速器
WO2020238603A1 (zh) * 2019-05-24 2020-12-03 上海肇观电子科技有限公司 深度神经网络的压缩方法、芯片、电子设备及介质
CN111967598A (zh) * 2020-08-21 2020-11-20 深圳前海微众银行股份有限公司 神经网络压缩方法、装置、设备及计算机可读存储介质
CN113377998A (zh) * 2021-06-28 2021-09-10 北京百度网讯科技有限公司 数据加载的方法、装置、电子设备及存储介质
CN113657577A (zh) * 2021-07-21 2021-11-16 阿里巴巴达摩院(杭州)科技有限公司 模型训练方法及计算系统
CN114895985A (zh) * 2022-06-08 2022-08-12 华东师范大学 一种面向基于采样的图神经网络训练的数据加载系统
CN115357554A (zh) * 2022-10-24 2022-11-18 浪潮电子信息产业股份有限公司 一种图神经网络压缩方法、装置、电子设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YOUHUI BAI, CHENG LI等: "Efficient Data Loader for Fast Sampling-Based GNN Training on Large Graphs", 《IEEE TRANSACTIONS ON PARALLEL AND DISTRIBUTED SYSTEMS》, pages 2541 - 2556 *
李相桥;李晨;田丽华;张玉龙;: "卷积神经网络并行训练的优化研究", 计算机技术与发展, no. 08, pages 19 - 23 *
白有辉: "并行与分布式神经网络训练中数据通路的优化", 《中国博士学位论文全文数据库 信息科技辑》, pages 1 - 133 *

Also Published As

Publication number Publication date
CN116011551B (zh) 2023-08-29

Similar Documents

Publication Publication Date Title
WO2020233130A1 (zh) 一种深度神经网络压缩方法及相关设备
CN106549673B (zh) 一种数据压缩方法及装置
CN111008230B (zh) 数据存储方法、装置、计算机设备及存储介质
WO2023236365A1 (zh) 数据处理方法、装置、ai芯片、电子设备及存储介质
CN110602178B (zh) 一种基于边缘压缩计算处理温度传感器数据的方法
CN111752691B (zh) Ai计算图的排序方法、装置、设备及存储介质
CN111898698B (zh) 对象的处理方法及装置、存储介质和电子设备
CN113660113B (zh) 面向分布式机器学习的自适应稀疏参数模型设计与量化传输方法
CN113792621B (zh) 一种基于fpga的目标检测加速器设计方法
CN115567589B (zh) Json数据的压缩传输方法、装置、设备及存储介质
Shahshahani et al. Memory optimization techniques for fpga based cnn implementations
CN112101543A (zh) 神经网络模型确定方法、装置、电子设备及可读存储介质
CN116227599A (zh) 一种推理模型的优化方法、装置、电子设备及存储介质
CN116011551B (zh) 优化数据加载的图采样训练方法、系统、设备及存储介质
CN111539519A (zh) 一种面向海量数据的卷积神经网络训练引擎方法及系统
CN114895985B (zh) 一种面向基于采样的图神经网络训练的数据加载系统
CN115905168A (zh) 自适应压缩方法和压缩装置、计算机设备、存储介质
CN115811317A (zh) 一种基于自适应不解压直接计算的流处理方法和系统
CN117391160A (zh) 加速方法、加速器和存储介质
CN112685271A (zh) 压测数据处理方法、装置、电子设备及可读存储介质
CN113554149A (zh) 神经网络处理单元npu、神经网络的处理方法及其装置
Yanbiao et al. Flower recognition based on an improved convolutional neural network mobilenetv3
US20240220541A1 (en) Fpga-based method and system for accelerating graph construction
CN112734021A (zh) 一种基于位稀疏计算的神经网络加速方法
CN117932280B (zh) 长序列数据预测方法、装置、计算机设备、介质和产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant