CN114048816B - 一种图神经网络数据采样方法、装置、设备及存储介质 - Google Patents

一种图神经网络数据采样方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114048816B
CN114048816B CN202111354483.1A CN202111354483A CN114048816B CN 114048816 B CN114048816 B CN 114048816B CN 202111354483 A CN202111354483 A CN 202111354483A CN 114048816 B CN114048816 B CN 114048816B
Authority
CN
China
Prior art keywords
training
vertex
vertexes
cluster
sampling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111354483.1A
Other languages
English (en)
Other versions
CN114048816A (zh
Inventor
李东升
张立志
赖志权
刘锋
黄震
乔林波
梅松竹
牛新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202111354483.1A priority Critical patent/CN114048816B/zh
Publication of CN114048816A publication Critical patent/CN114048816A/zh
Application granted granted Critical
Publication of CN114048816B publication Critical patent/CN114048816B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Neurology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种图神经网络数据采样方法、装置、设备及存储介质;在本方案中,通过对原图数据集的各顶点进行聚类,并根据训练顶点的聚类类别进行排序的方式,使得采样进程在采样时,可在同一聚类内对一批训练顶点同时进行采样,从而提高采样的数据局部性;并且,由于同一个聚类内的训练顶点通常有更相似的属性,是紧密连接的部分,而不同聚类之间的连接很少,因此在同一个聚类内扩展的邻域顶点集中在相同的聚类内,相同聚类内的顶点在存储上是接近的,从而可以提高采样的数据局部性,并且限制邻域扩展的范围,提高子图采样的效率。

Description

一种图神经网络数据采样方法、装置、设备及存储介质
技术领域
本发明涉及图数据采样技术领域,更具体地说,涉及一种图神经网络数据采样方法、装置、设备及存储介质。
背景技术
目前,图数据作为一种非结构化的数据,已经广泛应用到推荐系统、社交网络、知识图谱等领域中。图神经网络已经成为处理图数据的有力工具。不同于图像识别和语句处理,现有的图神经网络模型训练过程,需要在数据加载之前在CPU(Central processingunit,中央处理器)上采样每一批次的训练样本,并在GPU(graphics processing unit,图形处理器)上进行模型计算。但是,现实世界的图数据是复杂且不规则的结构,对图数据的采样和遍历过程涉及不规则的内存访问,导致图数据访问随机化并且数据局部性差,而较差的局部性将导致频繁的全局数据访问,并显著增加内存访问时间,进而导致CPU上的样本批次采样时间比GPU上的模型计算时间更长,这导致基于CPU-GPU架构的流水线单元的工作负载不平衡,损害了流水线训练性能。并且,样本批次采样带来的另一个问题是邻域扩展引入了显著的计算开销。如:在训练L层图神经网络模型时,需要依次对目标顶点的1到L阶邻域进行采样,这导致时间复杂度随图神经网络深度呈指数增长。这种邻域爆炸问题涉及大量随机内存访问,导致数据局部性差,采样数据甚至可能超出GPU内存。
因此,如何提高数据访问的局部性,限制采样邻域的扩展范围,提高采样速度,是本领域技术人员需要解决的问题。
发明内容
本发明的目的在于提供一种图神经网络数据采样方法、装置、设备及存储介质,以提高数据访问的局部性,限制采样邻域的扩展范围,提高采样速度。
为实现上述目的,本发明提供一种图神经网络数据采样方法,包括:
通过图聚类算法对原图数据集的各顶点进行聚类,生成目标图数据集;
在所述目标图数据集的每个聚类中确定训练顶点,根据每个聚类中每个训练顶点的聚类类别对所有训练顶点进行排序,得到训练顶点集合;
通过采样进程按照预定顺序从所述训练顶点集合中获取目标训练顶点,并采集所述目标训练顶点的邻域顶点;
根据所述目标训练顶点和所述邻域顶点生成本批次的训练数据,并将所述训练数据发送至对应的图形处理器。
其中,所述在所述目标图数据集的每个聚类中确定训练顶点,包括:
记录所述原图数据集中各顶点与所述目标图数据集中各顶点的对应关系,生成顶点映射表;
根据所述原图数据集中各顶点的顶点类型以及所述顶点映射表,从所述目标图数据集的每个聚类中确定训练顶点。
其中,所述根据每个聚类中每个训练顶点的聚类类别对所有训练顶点进行排序,得到训练顶点集合,包括:
根据每个聚类中每个训练顶点的聚类类别号的从小到大的顺序,对所有训练顶点进行排序得到顶点排序表;其中,所述顶点排序表中属于同一聚类的训练顶点的排序相邻;
在每次获取训练数据之前,对所述顶点排序表执行全局打乱操作和/或局部打乱操作,得到训练顶点集合;其中,所述全局打乱操作为随机打乱所述顶点排序表中各个聚类的排序,所述局部打乱操作为随机打乱所述顶点排序表中每个聚类内各个训练顶点的排序。
其中,所述通过采样进程按照预定顺序从所述训练顶点集合中获取目标训练顶点,包括:
通过预定数量个采样进程,按照预定顺序从所述训练顶点集合中获取同一聚类内的目标训练顶点。
为实现上述目的,本发明进一步提供一种图神经网络数据采样装置,包括:
聚类模块,用于通过图聚类算法对原图数据集的各顶点进行聚类,生成目标图数据集;
确定模块,用于在所述目标图数据集的每个聚类中确定训练顶点;
排序模块,用于根据每个聚类中每个训练顶点的聚类类别对所有训练顶点进行排序,得到训练顶点集合;
采样模块,用于通过采样进程按照预定顺序从所述训练顶点集合中获取目标训练顶点;
采集模块,用于采集所述目标训练顶点的邻域顶点;
发送模块,用于根据所述目标训练顶点和所述邻域顶点生成本批次的训练数据,并将所述训练数据发送至对应的图形处理器。
其中,所述确定模块包括:
记录单元,用于记录所述原图数据集中各顶点与所述目标图数据集中各顶点的对应关系,生成顶点映射表;
确定单元,用于根据所述原图数据集中各顶点的顶点类型以及所述顶点映射表,从所述目标图数据集的每个聚类中确定训练顶点。
其中,所述排序模块,包括:
排序单元,用于根据每个聚类中每个训练顶点的聚类类别号的从小到大的顺序,对所有训练顶点进行排序得到顶点排序表;其中,所述顶点排序表中属于同一聚类的训练顶点的排序相邻;
操作单元,用于在每次获取训练数据之前,对所述顶点排序表执行全局打乱操作和/或局部打乱操作,得到训练顶点集合;其中,所述全局打乱操作为随机打乱所述顶点排序表中各个聚类的排序,所述局部打乱操作为随机打乱所述顶点排序表中每个聚类内各个训练顶点的排序。
其中,所述采样模块具体用于:通过预定数量个采样进程,按照预定顺序从所述训练顶点集合中获取同一聚类内的目标训练顶点。
为实现上述目的,本发明进一步提供一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述图神经网络数据采样方法的步骤。
为实现上述目的,本发明进一步提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述图神经网络数据采样方法的步骤。
通过以上方案可知,本发明实施例提供的一种图神经网络数据采样方法,包括:通过图聚类算法对原图数据集的各顶点进行聚类,生成目标图数据集;在目标图数据集的每个聚类中确定训练顶点,根据每个聚类中每个训练顶点的聚类类别对所有训练顶点进行排序,得到训练顶点集合;通过采样进程按照预定顺序从训练顶点集合中获取目标训练顶点,并采集目标训练顶点的邻域顶点;根据目标训练顶点和邻域顶点生成本批次的训练数据,并将训练数据发送至对应的图形处理器。可见,本方案通过对原图数据集的各顶点进行聚类,并根据训练顶点的聚类类别进行排序的方式,使得采样进程在采样时,可在同一聚类内对一批训练顶点同时进行采样,从而提高采样的数据局部性;并且,由于同一个聚类内的训练顶点通常有更相似的属性,是紧密连接的部分,而不同聚类之间的连接很少,因此在同一个聚类内扩展的邻域顶点集中在相同的聚类内,相同聚类内的顶点在存储上是接近的,从而可以提高采样的数据局部性,并且限制邻域扩展的范围,提高子图采样的效率。本发明还公开了一种图神经网络数据采样装置、设备及存储介质,同样能实现上述技术效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例公开的一种图神经网络数据采样方法流程示意图;
图2为本发明实施例公开的一种图神经网络数据采样装置结构示意图;
图3为本发明实施例公开的一种电子设备结构示意图。
具体实施方式
目前,现有加速图神经网络(Graph Neural Network,GNN)训练中子图采样的方法主要包括流水线重叠法及多进程采样法;其中,流水线重叠法是指:在CPU上进行子图采样,在GPU进行图神经网络模型计算,两者以流水线的方式运行。这样可以重叠部分子图采样的时间。但是这种方法的不足是:由于采样时随机的内存访问和指数扩展的邻域,子图采样时间比图神经网络模型计算时间长很多,导致流水线单元很不均衡,影响流水线运行的效率。多进程采样法是指:一些图神经网络训练框架在CPU-GPU流水线训练架构的基础上使用了多进程采样的方法。子进负责采样,将采样的子图放入一个队列。主进程从队列中依次取出子图,发送到GPU进行图神经网络模型训练。利用CPU的多核结构,多个子进程同时进行子图采样,提高了采样的速度。但是增加子进程数量带来的收益会受到CPU的资源的限制。同时单个子进程为了保证采样的泛化性,随机在图中选择顶点采样,使得数据访问的局部性很差。因此,本发明实施例公开了一种图神经网络数据采样方法、装置、设备及存储介质,以使采样的样本批次顶点尽量集中,提高采样过程中数据的局部性,限制采样的邻域扩展范围,从而提高采样效率。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,本发明实施例提供的一种图神经网络数据采样方法流程示意图,包括:
S101、通过图聚类算法对原图数据集的各顶点进行聚类,生成目标图数据集;
需要说明的是,本实施例中的图数据集通常包括两个部分,一部分是图结构,包括顶点和连接顶点的边,每个顶点有一个编号,顶点表示各个实体,边表示实体之间的关系;另一部分是顶点和边对应的特征,每个顶点的特征表示为一个一维向量。每个顶点都有一个自然数标签,表示该顶点所属的类别。以引文数据集为例,图数据集中每个顶点是一篇论文,边表示论文之间的引用关系。在训练开始前,本方案首先需要对图数据集中整个图结构运行图聚类算法,在该过程中,可根据已知顶点的类别及其关系去预测一些未知顶点所属的类别,从而得到所有顶点所属的聚类类别,生成目标图数据集。
在目标图数据集中,每个顶点都具有对应的聚类类别,该聚类类别代表了该顶点所属的聚类,如:顶点的聚类类别为计算机类,则该顶点的聚类为计算机类;顶点的聚类类别为生物医药类,则该顶点的聚类为生物医药类;顶点的聚类类别为材料类,则该顶点的聚类为材料类;其中,该图聚类算法可以为Metis图聚类算法,也可以为其他图聚类算法,在此并不具体限定。因此通过S101,即可确定图数据集的图结构中,每个顶点所属的聚类类别,也可以确定不同聚类中具体包括哪些顶点。
S102、在目标图数据集的每个聚类中确定训练顶点,根据每个聚类中每个训练顶点的聚类类别对所有训练顶点进行排序,得到训练顶点集合;
其中,本申请在目标图数据集的每个聚类中确定训练顶点的过程具体为:记录原图数据集中各顶点与目标图数据集中各顶点的对应关系,生成顶点映射表;根据原图数据集中各顶点的顶点类型以及顶点映射表,从目标图数据集的每个聚类中确定训练顶点。
需要说明的是,原图数据集会记录每个顶点所属的类型,该类型具体为:训练顶点、验证顶点、测试顶点,以及与训练测试无关的顶点。在聚类前每个顶点均有各自的编号,但是,在图聚类后生成的目标图数据集中,相似的顶点在一起,会打乱原图数据集中的顶点顺序。因此在顶点聚类后,需要通过顶点映射表记录聚类前各顶点和聚类后各顶点的对应关系。本方案仅在预处理阶段确定顶点聚类及顶点映射表,该过程只需要在开始前对图数据集处理一次,后续训练不需要再进行预处理。本方案从每个聚类中确定训练顶点时,便可根据该顶点映射表查找聚类后每个聚类中的训练顶点,例如:聚类前的顶点1为聚类后的顶点4,聚类前的顶点2为聚类后的顶点3,聚类前的顶点3为聚类后的顶点1,聚类前的顶点4为聚类后的顶点2,并且聚类前的4个顶点中,顶点2和顶点4为训练顶点,则根据顶点映射表即可得知聚类前的顶点2为聚类后的顶点3,聚类前的顶点4为聚类后的顶点2,因此便可知道聚类后顶点2和顶点3为训练顶点。
在聚类后每个训练顶点都有对应的聚类类别,因此本申请可根据每个训练顶点的聚类类别对所有训练顶点进行排序,得到训练顶点集合,通过该方式,即可让采样进程顺序采样属于同一聚类的训练顶点,提高采样过程中数据的局部性,从而提高采样效率。并且,本方案中的每个顶点具有对应的聚类类别号,同一聚类的训练顶点的聚类类别号是连续排在一起的,因此本方案在对各训练节点进行排序时,可直接根据每个聚类中每个训练顶点的聚类类别号的从小到大的顺序,对所有训练顶点进行排序得到顶点排序表,该顶点排序表中属于同一聚类的训练顶点的排序相邻,这样得到的训练顶点集合中,同一聚类的训练顶点自然是连续排在一起的。
进一步的,由于聚类后顶点的分布会和原图数据集不同,为了克服有偏差估计,保证顶点聚类采样后每批次训练顶点的随机性和多样性,确保训练的泛化性。本申请在每次获取训练数据之前,还需要对顶点排序表执行全局打乱操作和/或局部打乱操作,得到训练顶点集合;该全局打乱操作为随机打乱顶点排序表中各个聚类的排序,该局部打乱操作为随机打乱顶点排序表中每个聚类内各个训练顶点的排序。可见,本申请在每次训练迭代开始前,通过结合全局打乱和局部打乱的方式,可保证每次迭代训练样本都是随机的。全局打乱会随机地打乱各个顶点聚类的顺序,而不影响各聚类内的顶点;局部打乱会对每个聚类内的训练顶点进行随机排序,并没有跨聚类的顶点交换,从而保证训练顶点的随机性和训练样本的泛化能力。
S103、通过采样进程按照预定顺序从训练顶点集合中获取目标训练顶点,并采集目标训练顶点的邻域顶点;
其中,本申请得到训练顶点集合之后,可通过预定数量个采样进程,按照预定顺序从训练顶点集合中获取同一聚类内的目标训练顶点,并采集目标训练顶点的邻域顶点。具体来说,本申请中的采样进程的数量可以根据实际情况自定义设置,在此并不具体限定,该预定顺序可以为聚类类别号的从小到大的顺序;也即:本申请通过多个采样进程按训练顶点集合的排列顺序,从训练顶点集合中取一定数目的训练顶点,然后在整个图中随机采样训练顶点的邻域。由于聚类内的连接紧密,聚类间的连接稀疏,因此如果从训练顶点集合中取出的训练顶点属于某个聚类,同时扩展这些训练顶点的邻域,就会在同一个聚类内采样到大量重复的顶点,因此可以提高数据的局部性,并且限制邻域的扩展范围。
S104、根据目标训练顶点和邻域顶点生成本批次的训练数据,并将训练数据发送至对应的图形处理器。
本申请采样到目标训练顶点和邻域顶点后,会生成本批次的训练数据,并将采样得到的训练数据传输到图形处理器GPU,GPU使用训练数据进行图神经网络模型训练。
综上可见,本方案为了提高子图采样的数据局部性,并且限制采样期间的邻域爆炸问题,对训练顶点进行聚类,在同一个聚类内对一批训练顶点同时进行采样。由于同一个聚类内的顶点通常有更相似的属性,是紧密连接的部分。而不同聚类之间的连接很少。因此在同一个聚类内扩展的邻域顶点集中在相同的聚类内。相同聚类内的顶点在存储上是接近的,从而可以提高采样的数据局部性,并且限制邻域扩展的范围,提高子图采样的效率。
下面对本发明实施例提供的采样装置、设备及存储介质进行介绍,下文描述的采样装置、设备及存储介质与上文描述的采样方法可以相互参照。
参见图2,本发明实施例提供的一种图神经网络数据采样装置结构示意图,包括:
聚类模块11,用于通过图聚类算法对原图数据集的各顶点进行聚类,生成目标图数据集;
确定模块12,用于在所述目标图数据集的每个聚类中确定训练顶点;
排序模块13,用于根据每个聚类中每个训练顶点的聚类类别对所有训练顶点进行排序,得到训练顶点集合;
采样模块14,用于通过采样进程按照预定顺序从所述训练顶点集合中获取目标训练顶点;
采集模块15,用于采集所述目标训练顶点的邻域顶点;
发送模块16,用于根据所述目标训练顶点和所述邻域顶点生成本批次的训练数据,并将所述训练数据发送至对应的图形处理器。
其中,所述确定模块包括:
记录单元,用于记录所述原图数据集中各顶点与所述目标图数据集中各顶点的对应关系,生成顶点映射表;
确定单元,用于根据所述原图数据集中各顶点的顶点类型以及所述顶点映射表,从所述目标图数据集的每个聚类中确定训练顶点。
其中,所述排序模块,包括:
排序单元,用于根据每个聚类中每个训练顶点的聚类类别号的从小到大的顺序,对所有训练顶点进行排序得到顶点排序表;其中,所述顶点排序表中属于同一聚类的训练顶点的排序相邻;
操作单元,用于在每次获取训练数据之前,对所述顶点排序表执行全局打乱操作和/或局部打乱操作,得到训练顶点集合;其中,所述全局打乱操作为随机打乱所述顶点排序表中各个聚类的排序,所述局部打乱操作为随机打乱所述顶点排序表中每个聚类内各个训练顶点的排序。
其中,所述采样模块具体用于:通过预定数量个采样进程,按照预定顺序从所述训练顶点集合中获取同一聚类内的目标训练顶点。
参见图3,本发明实施例提供的一种电子设备结构示意图,包括:
存储器21,用于存储计算机程序;
处理器22,用于执行所述计算机程序时实现上述方法实施例所述的图神经网络数据采样方法的步骤。
该设备可以包括存储器21、处理器22和总线23。
其中,存储器21至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器21在一些实施例中可以是设备的内部存储单元,例如该设备的硬盘。存储器21在另一些实施例中也可以是设备的外部存储设备,例如设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器21还可以既包括设备的内部存储单元也包括外部存储设备。存储器21不仅可以用于存储安装于设备的应用软件及各类数据,例如执行采样方法的程序代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器22在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器21中存储的程序代码或处理数据,例如执行采样方法的程序代码等。
该总线23可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
进一步地,设备还可以包括网络接口24,网络接口24可选的可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该设备与其他电子设备之间建立通信连接。
可选地,该设备还可以包括用户接口25,用户接口25可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口25还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在设备中处理的信息以及用于显示可视化的用户界面。
图3仅示出了具有组件21-25的设备,本领域技术人员可以理解的是,图3示出的结构并不构成对设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法实施例所述的图神经网络数据采样方法的步骤。
其中,该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (6)

1.一种图神经网络数据采样方法,其特征在于,包括:
通过图聚类算法对原引文数据集的各顶点进行聚类,生成目标引文数据集;所述原引文数据集中的每个顶点表示一篇论文,并且所述原引文数据集中的边表示论文之间的引用关系;
在所述目标引文数据集的每个聚类中确定训练顶点,根据每个聚类中每个训练顶点的聚类类别对所有训练顶点进行排序,得到训练顶点集合;
通过采样进程按照预定顺序从所述训练顶点集合中获取目标训练顶点,并采集所述目标训练顶点的邻域顶点;
根据所述目标训练顶点和所述邻域顶点生成本批次的训练数据,并将所述训练数据发送至对应的图形处理器;
其中,所述在所述目标引文数据集的每个聚类中确定训练顶点,包括:记录所述原引文数据集中各顶点与所述目标引文数据集中各顶点的对应关系,生成顶点映射表;根据所述原引文数据集中各顶点的顶点类型以及所述顶点映射表,从所述目标引文数据集的每个聚类中确定训练顶点;
所述根据每个聚类中每个训练顶点的聚类类别对所有训练顶点进行排序,得到训练顶点集合,包括:根据每个聚类中每个训练顶点的聚类类别号的从小到大的顺序,对所有训练顶点进行排序得到顶点排序表;其中,所述顶点排序表中属于同一聚类的训练顶点的排序相邻;在每次获取训练数据之前,对所述顶点排序表执行全局打乱操作或局部打乱操作,得到训练顶点集合;其中,所述全局打乱操作为随机打乱所述顶点排序表中各个聚类的排序,所述局部打乱操作为随机打乱所述顶点排序表中每个聚类内各个训练顶点的排序。
2.根据权利要求1所述的图神经网络数据采样方法,其特征在于,所述通过采样进程按照预定顺序从所述训练顶点集合中获取目标训练顶点,包括:
通过预定数量个采样进程,按照预定顺序从所述训练顶点集合中获取同一聚类内的目标训练顶点。
3.一种图神经网络数据采样装置,其特征在于,包括:
聚类模块,用于通过图聚类算法对原引文数据集的各顶点进行聚类,生成目标引文数据集;所述原引文数据集中的每个顶点表示一篇论文,并且所述原引文数据集中的边表示论文之间的引用关系;
确定模块,用于在所述目标引文数据集的每个聚类中确定训练顶点;
排序模块,用于根据每个聚类中每个训练顶点的聚类类别对所有训练顶点进行排序,得到训练顶点集合;
采样模块,用于通过采样进程按照预定顺序从所述训练顶点集合中获取目标训练顶点;
采集模块,用于采集所述目标训练顶点的邻域顶点;
发送模块,用于根据所述目标训练顶点和所述邻域顶点生成本批次的训练数据,并将所述训练数据发送至对应的图形处理器;
其中,所述确定模块包括:记录单元,用于记录所述原引文数据集中各顶点与所述目标引文数据集中各顶点的对应关系,生成顶点映射表;确定单元,用于根据所述原引文数据集中各顶点的顶点类型以及所述顶点映射表,从所述目标引文数据集的每个聚类中确定训练顶点;
所述排序模块,包括:排序单元,用于根据每个聚类中每个训练顶点的聚类类别号的从小到大的顺序,对所有训练顶点进行排序得到顶点排序表;其中,所述顶点排序表中属于同一聚类的训练顶点的排序相邻;操作单元,用于在每次获取训练数据之前,对所述顶点排序表执行全局打乱操作或局部打乱操作,得到训练顶点集合;其中,所述全局打乱操作为随机打乱所述顶点排序表中各个聚类的排序,所述局部打乱操作为随机打乱所述顶点排序表中每个聚类内各个训练顶点的排序。
4.根据权利要求3所述的图神经网络数据采样装置,其特征在于,所述采样模块具体用于:通过预定数量个采样进程,按照预定顺序从所述训练顶点集合中获取同一聚类内的目标训练顶点。
5.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至2任一项所述的图神经网络数据采样方法的步骤。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至2任一项所述的图神经网络数据采样方法的步骤。
CN202111354483.1A 2021-11-16 2021-11-16 一种图神经网络数据采样方法、装置、设备及存储介质 Active CN114048816B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111354483.1A CN114048816B (zh) 2021-11-16 2021-11-16 一种图神经网络数据采样方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111354483.1A CN114048816B (zh) 2021-11-16 2021-11-16 一种图神经网络数据采样方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN114048816A CN114048816A (zh) 2022-02-15
CN114048816B true CN114048816B (zh) 2024-04-30

Family

ID=80209236

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111354483.1A Active CN114048816B (zh) 2021-11-16 2021-11-16 一种图神经网络数据采样方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114048816B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114757225B (zh) * 2022-03-31 2023-05-30 北京百度网讯科技有限公司 信号采样质量的确定方法、装置、设备及存储介质
CN114895985B (zh) * 2022-06-08 2023-06-09 华东师范大学 一种面向基于采样的图神经网络训练的数据加载系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113255798A (zh) * 2021-06-02 2021-08-13 苏州浪潮智能科技有限公司 一种分类模型训练方法、装置、设备及介质
CN113515519A (zh) * 2020-12-25 2021-10-19 腾讯科技(深圳)有限公司 图结构估计模型的训练方法、装置、设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113515519A (zh) * 2020-12-25 2021-10-19 腾讯科技(深圳)有限公司 图结构估计模型的训练方法、装置、设备及存储介质
CN113255798A (zh) * 2021-06-02 2021-08-13 苏州浪潮智能科技有限公司 一种分类模型训练方法、装置、设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
2PGraph: Accelerating GNN Training over Large Graphs on GPU Clusters;Lizhi Zhang, Zhiquan Lai, Shengwei Li, Yu Tang, Feng Liu, DongSheng Li;2021 IEEE International Conference on Cluster Computing(CLUSTER);20211013;全文 *

Also Published As

Publication number Publication date
CN114048816A (zh) 2022-02-15

Similar Documents

Publication Publication Date Title
CN112434721B (zh) 一种基于小样本学习的图像分类方法、系统、存储介质及终端
US11210569B2 (en) Method, apparatus, server, and user terminal for constructing data processing model
CN114048816B (zh) 一种图神经网络数据采样方法、装置、设备及存储介质
WO2022068623A1 (zh) 一种模型训练方法及相关设备
CN108595583A (zh) 动态图表类页面数据爬取方法、装置、终端及存储介质
CN111461164B (zh) 样本数据集的扩容方法及模型的训练方法
CN108595211B (zh) 用于输出数据的方法和装置
CN114398557A (zh) 基于双画像的信息推荐方法、装置、电子设备及存储介质
CN103870563B (zh) 确定给定文本的主题分布的方法和装置
CN110472246A (zh) 工单分类方法、装置及存储介质
CN110532448B (zh) 基于神经网络的文档分类方法、装置、设备及存储介质
CN112416301A (zh) 深度学习模型开发方法及装置、计算机可读存储介质
US20210173656A1 (en) Hardware accelerator having reconfigurable instruction set and reconfigurable decoder
CN113419951B (zh) 人工智能模型优化方法、装置、电子设备及存储介质
CN110716778A (zh) 应用兼容性测试方法、装置及系统
CN111859985B (zh) Ai客服模型测试方法、装置、电子设备及存储介质
CN115392361A (zh) 一种智能排序方法、装置、计算机设备及存储介质
CN113656586A (zh) 情感分类方法、装置、电子设备及可读存储介质
CN111178373B (zh) 运算方法、装置及相关产品
CN114330675A (zh) 一种芯片、加速卡、电子设备和数据处理方法
CN113537392A (zh) 相似图像的识别方法、装置、计算设备及计算机存储介质
CN113704623A (zh) 一种数据推荐方法、装置、设备及存储介质
CN111400050A (zh) 一种分配资源执行任务的方法及装置
Hasanaj et al. Cooperative edge deepfake detection
CN111753111A (zh) 图片搜索方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant