CN115809686B

CN115809686B - 提升循环图结构数据处理系统处理效率方法、设备及介质

Info

Publication number: CN115809686B
Application number: CN202310053879.5A
Authority: CN
Inventors: 王杰; 石志皓; 梁锡泽; 吴枫; 张勇东
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-02-03
Filing date: 2023-02-03
Publication date: 2023-06-16
Anticipated expiration: 2043-02-03
Also published as: CN115809686A

Abstract

本发明公开了一种提升循环图结构数据处理系统处理效率方法、设备及介质，属于图结构数据处理领域，方法包括：步骤1，训练循环图结构数据处理系统的循环图神经网络；步骤2，分别存储每个节点的历史节点均衡表示与历史辅助变量，并通过采样子图方式更新历史节点均衡表示与历史辅助变量；步骤3，在子图消息传递中，用历史节点均衡表示与历史辅助变量近似子图外的精确节点均衡表示与精确辅助变量；步骤4，通过精确辅助变量求出随机梯度并优化循环图神经网络参数，直到完成训练；步骤5，用训练好的循环图神经网络处理图结构数据。该方法通过子图近似随机梯度，只需计算子图节点的均衡表示与梯度，极大提升处理效率，减少了内存和计算开销。

Description

提升循环图结构数据处理系统处理效率方法、设备及介质

技术领域

本发明涉及图结构数据处理系统领域，尤其涉及一种提升图结构数据处理系统处理效率方法、设备和存储介质。

背景技术

循环图结构数据处理系统采用的循环图神经网络能表达很多传统图迭代算法，在涉及图形数据的许多实际应用中取得了巨大成功，例如社交网络、知识图谱、生物网络、分子性质预测。

循环图结构数据处理系统的循环图神经网络循环使用相同的消息传递层来迭代地学习节点表示，能有效地抽取图中的长程依赖。然而，循环图神经网络中的循环消息传递结构给它的高效计算带来挑战。当计算梯度时，循环图神经网络需要迭代地在节点和邻居之间进行消息交换，直到这一过程收敛到全局均衡点。这种结构相当于无穷层的图神经网络。因此，当图很大且连通时，每个节点的感受野会覆盖整张图，使得相应的均衡点能编码长程信息。由于这巨大的感受野，大部分研究应用会同时计算所有节点上的均衡节点表示与梯度计算需要的辅助变量，然后用全梯度来优化。然而，当图很大时，现有这种方法面临昂贵的运行内存和计算开销，因此限制了循环图神经网络在许多大规模实际问题中的应用。

为了将循环图结构数据处理系统的循环图神经网络拓展到大图上，现有技术提出一种采样方法来寻找全局均衡点，是通过交替地随机采样小部分节点并更新它们的信息来替代更新全部节点信息的求解方式。通过选择足够小的采样规模，这一技术能在有限的存储条件下应用到大图中。然而，为了确保收敛到全局均衡点，它持续地采样直到所有节点都被更新足够多次，这不仅降低了采用循环图神经网络的循环图结构数据处理系统的处理效率，也导致了昂贵的计算开销，提高了循环图神经网络的计算资源需求。

有鉴于此，特提出本发明。

发明内容

本发明的目的是提供一种提升循环图结构数据处理系统处理效率方法、设备和存储介质，能在提高循环图结构数据处理系统的循环图神经网络的处理效率的同时，降低循环图结构数据处理系统训练的存储需求与计算开销，进而解决现有技术中存在的上述技术问题。

本发明的目的是通过以下技术方案实现的：

一种提升循环图结构数据处理系统处理效率方法，包括：

步骤1，获取循环图结构数据处理系统需要处理的图结构数据作为训练数据，对所述循环图结构数据处理系统的循环图神经网络进行训练；

步骤2，分别存储所述步骤1获取的图结构数据中的每个节点的历史节点均衡表示与历史辅助变量，并通过采样子图的方式更新该子图中的历史节点均衡表示与历史辅助变量；

步骤3，在子图消息传递中，用历史均衡表示与历史辅助变量近似子图外的精确节点均衡表示与精确辅助变量；

步骤4，通过所述步骤3得出的精确辅助变量求解得出随机梯度，根据所述随机梯度利用随机梯度下降算法优化所述循环图结构数据处理系统的循环图神经网络的参数，直到满足训练结束条件，完成所述循环图神经网络的训练；

步骤5，所述循环图结构数据处理系统利用训练好的循环图神经网络对需要处理的图结构数据进行处理。

一种处理设备，包括：

至少一个存储器，用于存储一个或多个程序；

至少一个处理器，能执行所述存储器所存储的一个或多个程序，在一个或多个程序被处理器执行时，使得所述处理器能实现本发明所述的方法。

一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时能实现本发明所述的方法。

与现有技术相比，本发明所提供的提升循环图结构数据处理系统处理效率方法、设备及介质，其有益效果包括：

在以循环图结构数据处理系统的图结构数据训练循环图神经网络中，将子图外的精确节点均衡表示和精确辅助变量直接用历史节点均衡表示与历史辅助变量代替，即用历史节点均衡表示与历史辅助变量近似子图外的精确节点均衡表示与精确辅助变量，由于这样的求解过程不需要遍历整张图的节点，提升了循环图结构数据处理系统计算资源的处理效率，极大地节约了计算资源；另外，历史信息会存储到外部存储中，只有小部分历史信息会放到内存中参与计算，因此不会导致内存不足的情况，降低了循环图结构数据处理系统计算资源的要求。本发明的方法通过子图来近似随机梯度，只需要计算子图中的节点的均衡表示与梯度，不需要像现有全梯度方法那样在计算梯度时，考虑整张图中所有节点的均衡表示与梯度，极大地减少了循环图结构数据处理系统运行内存和计算开销，节省了昂贵的运行内存和计算资源。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的提升循环图结构数据处理系统处理效率方法的流程图。

图2为本发明实施例提供的提升循环图结构数据处理系统处理效率方法的原始图结构示意图，其中，A节点为子图中的节点，B为子图外的一跳邻居。

图3为现有的面向循环图神经网络的全梯度方法的图结构示意图，其中，A节点为子图中的节点，B为子图外的一跳邻居，2号线表示前向传播中的消息传递，1号线表示反向传播中的消息传递。

图4为本发明实施例提供的提升循环图结构数据处理系统处理效率方法的图结构示意图，其中，A节点为子图中的节点，B为子图外的一跳邻居，2号线表示前向传播中的消息传递，1号线表示反向传播中的消息传递，3号线表示前向传播中用历史消息近似的消息传递，4号线表示反向传播中用历史消息近似的消息传递。

具体实施方式

下面结合本发明的具体内容，对本发明实施例中的技术方案进行清楚、完整地描述；显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，这并不构成对本发明的限制。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

首先对本文中可能使用的术语进行如下说明：

术语“和/或”是表示两者任一或两者同时均可实现，例如，X和/或Y表示既包括“X”或“Y”的情况也包括“X和Y”的三种情况。

术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述，应被解释为非排它性的包括。例如：包括某技术特征要素（如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等），应被解释为不仅包括明确列出的某技术特征要素，还可以包括未明确列出的本领域公知的其它技术特征要素。

术语“由……组成”表示排除任何未明确列出的技术特征要素。若将该术语用于权利要求中，则该术语将使权利要求成为封闭式，使其不包含除明确列出的技术特征要素以外的技术特征要素，但与其相关的常规杂质除外。如果该术语只是出现在权利要求的某子句中，那么其仅限定在该子句中明确列出的要素，其他子句中所记载的要素并不被排除在整体权利要求之外。

除另有明确的规定或限定外，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如：可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本文中的具体含义。

当浓度、温度、压力、尺寸或者其它参数以数值范围形式表示时，该数值范围应被理解为具体公开了该数值范围内任何上限值、下限值、优选值的配对所形成的所有范围，而不论该范围是否被明确记载；例如，如果记载了数值范围“2～8”时，那么该数值范围应被解释为包括“2～7”、“2～6”、“5～7”、“3～4和6～7”、“3～5和7”、“2和5～7”等范围。除另有说明外，本文中记载的数值范围既包括其端值也包括在该数值范围内的所有整数和分数。

术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述和简化描述，而不是明示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本文的限制。

下面对本发明所提供的提升循环图结构数据处理系统处理效率方法进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者，按照本领域常规条件或制造商建议的条件进行。本发明实施例中所用试剂或仪器未注明生产厂商者，均为可以通过市售购买获得的常规产品。

如图1所示，本发明实施例提供一种提升循环图结构数据处理系统处理效率方法，包括：

上述方法的步骤3中，在子图消息传递时，通过以下两个均衡方程组求解子图内部节点V_i的精确节点均衡表示

和精确辅助变量，两个均衡方程组为：

(1)

(2)

和，

(3)

(4)

上述式(1)中的各参数含义为：

是子图内部节点V_i的精确节点均衡表示；/>

是循环图神经网络的消息更新函数；/>

表示在循环图神经网络中传递到子图内部节点V_i的消息；/>

表示子图内部节点V_i的特征；

上述式(2)中的各参数含义为：

表示在循环图神经网络中传递到子图内部节点V_i的消息；/>

表示循环图神经网络的消息聚合函数；/>

表示循环图神经网络的消息生成函数；/>

表示子图内部节点V_i的子图内部邻居节点V_k的序号，/>

表示子图内部节点V_i的全部邻居节点构成的集合，/>

表示子图内部节点构成的集合；/>

是子图内部邻居节点V_k的精确节点均衡表示；/>

表示子图外部的邻居节点V_j的序号，/>

表示子图内部节点V_i的邻居节点构成的集合，/>

表示子图内部节点构成的集合；/>

是子图外部的邻居节点V_j的历史节点均衡表示；

上述式(3)中的各参数含义为：

表示子图内部节点V_i的精确辅助变量；

表示子图内部邻居节点V_k的序号，/>

表示子图内部节点V_i的全部邻居节点构成的集合，/>

表示子图内部节点构成的集合；/>

表示对子图内部节点V_i的精确节点均衡表示计算梯度；/>

是循环图神经网络的消息更新函数；/>

表示子图内部邻居节点V_k的精确节点均衡表示；/>

表示在循环图神经网络中传递到子图内部邻居节点V_k的消息；/>

表示子图内部节点V_i的特征；/>

表示子图内部邻居节点V_k的精确辅助变量；/>

表示补偿消息：/>

表示循环图神经网络的目标函数；

上述式(4)中的各参数含义为：

表示补偿消息；/>

表示子图外部的邻居节点V_j的序号，/>

表示子图内部节点V_i的全部邻居节点构成的集合，/>

表示子图内部节点构成的集合；/>

表示对子图内部节点V_i的历史节点均衡表示计算梯度；/>

是子图内部节点V_i的历史节点均衡表示；/>

表示在循环图神经网络中传递到子图外部的邻居节点V_j的消息；/>

表示子图外部的邻居节点V_j的历史辅助变量。

上述方法的步骤1中，循环图结构数据处理系统为社交网络中的谣言检测与风险控制系统、知识图谱补全系统、医药研发中的化学分子表征系统中的任一种。

上述方法的步骤1中，所述循环图结构数据处理系统为社交网络中的谣言检测与风险控制系统时，需要处理的图结构数据中的节点为用户、边为用户之间的社交关系。

上述方法的步骤1中，所述循环图结构数据处理系统为知识图谱补全系统时，需要处理的图结构数据中的节点为实体、边为实体间的关系。

上述方法的步骤1中，所述循环图结构数据处理系统为医药研发中的化学分子表征系统时，图结构数据中的节点为分子、边为分子间的化学键。

上述方法的步骤4中，按以下公式通过精确辅助变量求解得出随机梯度，为：

(5)

上述式(5)中各参数的含义为：

是训练循环图神经网络的梯度下降算法使用的随机梯度；/>

是全图的节点个数/>

除以子图的节点个数/>

；/>

表示子图内部节点；/>

表示子图内部节点构成的集合；/>

是循环图神经网络消息传递层的梯度，其中，/>

表示对循环图神经网络的消息更新函数u的参数θ计算梯度；/>

表示子图内部节点V_i的精确节点均衡表示；/>

表示循环图神经网络中传递到子图内部节点V_i的消息；/>

表示子图内部节点V_i的特征；/>

表示子图内部节点V_i的精确辅助变量。

本发明实施例还提供一种处理设备，包括：

至少一个存储器，用于存储一个或多个程序；

至少一个处理器，能执行所述存储器所存储的一个或多个程序，在一个或多个程序被处理器执行时，使得所述处理器能实现上述的方法。

本发明实施例进一步提供一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时能实现上述的方法。

综上可见，本发明实施例的提升模型处理效率方法，通过将子图外的节点均衡表示和辅助变量直接用历史信息（即历史节点均衡表示和求解随机梯度用的辅助变量）代替，涉及的两个均衡方程组只需要求解子图中的均衡表示和辅助变量，这一求解过程不需要遍历整张图的节点，提升了循环图结构数据处理系统的处理效率，也极大地节约了计算资源；另外，历史信息会存储到外部存储中，只有小部分历史信息会放到内存中参与计算，因此不会导致循环图结构数据处理系统的内存不足的情况。

为了更加清晰地展现出本发明所提供的技术方案及所产生的技术效果，下面以具体实施例对本发明实施例所提供的提升循环图结构数据处理系统处理效率方法进行详细描述。

实施例1

本发明实施例提供一种提升循环图结构数据处理系统处理效率方法，其通过高效近似现有面向循环图神经网络的循环消息传递全梯度方法，来提升循环图结构数据处理系统处理效率。

该方法应用于采用循环图神经网络（即循环图神经网络模型）的循环图结构数据处理系统，循环图结构数据处理系统可以是社交网络中的谣言检测与风险控制系统、知识图谱补全系统、医药研发中的化学分子表征系统中的任一种。当循环图结构数据处理系统为社交网络中的谣言检测与风险控制系统时，图结构数据中的节点为用户、边为用户之间的社交关系；当循环图结构数据处理系统为知识图谱补全系统时，图结构数据中的节点为实体、边为实体间的关系；当循环图结构数据处理系统为医药研发中的化学分子表征系统时，图结构数据中的节点为分子、边为分子间的化学键。

该提升循环图结构数据处理系统处理效率方法，包括如下步骤：

步骤1，获取循环图结构数据处理系统需要处理的图结构数据作为训练数据，对该循环图结构数据处理系统的循环图神经网络进行训练。

目前现有的面向循环图结构数据处理系统的循环图神经网络的全梯度方法中，图中每个节点

上都有特征/>

，训练循环图神经网络需要求解以下优化问题：

（6）

（2）

（1）

其中，精确节点均衡表示

通过消息传递中的更新函数u和消息生成函数g，与邻居节点/>

的精确节点均衡表示/>

构成了均衡方程组；上述式（6）中涉及的参数含义为：

表示优化循环图神经网络模型参数/>

；/>

表示全图中有标签的节点集合；/>

表示交叉熵损失函数；/>

表示子图内部节点V_i的精确节点均衡表示；/>

表示子图内部节点V_i的标签；

上述式（2）和式（1）中的参数含义与之前式（2）和式（1）的参数含义相同，在此不再重复说明。

在连通图中，这一关于所有节点的均衡方程组无法被分解为多个小规模的独立方程组，给循环图结构数据处理系统的高效计算均衡表示带来困难。

同时，循环图神经网络的随机梯度通过求解上述式（3）和式（4）得到精确辅助变量

，再通过精确辅助变量/>

求得随机梯度：

然后，通过以下式（5）

求得随机梯度，其中各参数的含义为：

是训练循环图神经网络的梯度下降算法使用的随机梯度；/>

是全图的节点个数除以子图的节点个数；/>

表示子图内部节点；/>

表示子图内部节点构成的集合；/>

是循环图神经网络消息传递层的梯度，其中，/>

表示对循环图神经网络的消息更新函数u的参数/>

计算梯度；/>

表示子图内部节点V_i的精确节点均衡表示；/>

表示循环图神经网络中传递到子图内部节点V_i的消息；/>

表示子图内部节点V_i的特征；/>

表示子图内部节点V_i的精确辅助变量。

上述全梯度方法（GD）需要在全图进行消息传递，参见图2、图3，也降低了循环图结构数据处理系统的处理效率。

本发明的提升循环图结构数据处理系统处理效率的方法，利用局部消息补偿训练方法，可称为LMC，是通过子图消息传递，在一个子图

上近似节点均衡表示和随机梯度。具体为，存储一个历史节点均衡表示/>

与历史辅助变量/>

，并在每次采样子图时更新该子图中的历史节点均衡表示与历史辅助变量信息，子图的规模小于整张图结构数据，在消息传递中，用历史节点均衡表示与历史辅助变量来近似子图外的精确均衡表示与精确辅助变量，解决子图外的精确均衡表示与精确辅助变量难以获得的问题，由于绝大部分历史节点均衡表示与历史辅助变量会存储到便宜的外部存储中，只有小部分历史节点均衡表示与历史辅助变量会放到内存中参与计算，因此不会导致内存不足的情况。该子图消息传递的两个均衡方程组为：

（1）

（2）

和

（3）

（4）

上述式(1)、式（2）、式（3）、式（4）中的各参数含义与之前的式(1)、式（2）、式（3）、式（4）中对应参数的含义相同，在此不再重复。

上述这两个均衡方程组只需要求解子图中的均衡表示和辅助变量，子图外的直接用历史节点均衡表示与历史辅助变量代替。因此，这一求解过程不需要遍历整张图的节点，提升了循环图结构数据处理系统的处理效率，也极大地节约了循环图结构数据处理系统的内存需求和计算资源。

由于现有全梯度方法在计算梯度时需要考虑整张图中所有节点表示与梯度，导致了循环图结构数据处理系统昂贵的计算开销，本发明的方法利用局部消息补偿方法通过子图来近似随机梯度，只需要计算子图中的节点的表示与梯度，极大地减少了循环图结构数据处理系统的内存和计算开销。

本发明利用局部消息补偿方法只需要在子图上进行，参见图4。

现有全梯度方法和本发明子图消息传递方法的计算效率对比如下表，其中GD为全梯度方法，LMC为本发明的方法：

本发明的提升循环图结构数据处理系统处理效率方法的运行时间是全梯度方法（GD）的22%左右，内存开销是GD的24%左右，极大地提升了处理效率以及节约了计算资源。

实施例2

本实施例提供一种提升循环图结构数据处理系统处理效率方法，该循环图结构数据处理系统为社交网络中的谣言检测与风险控制系统，能提升社交网络中的谣言检测与风险控制系统的循环图神经网络的处理效率并降低计算资源需求，包括以下步骤：

步骤1，获取社交网络中的谣言检测与风险控制系统需要处理的图结构数据，图结构数据中的节点为用户、边为用户之间的社交关系，输入节点特征为用户的特征；

步骤2，训练阶段：

给定一个与步骤1的图结构数据相关的性质预测数据集与该图结构数据相应的循环图神经网络，将预测数据集分为一个训练数据集和一个验证数据集；先将该图结构数据划分为多个子图，每次随机挑选一个子图，利用本发明的方法（LMC）计算随机梯度；然后，用这一随机梯度来更新循环图神经网络的参数；当其在验证数据集上的性能稳定后，保存循环图神经网络的模型参数；

步骤3，预测阶段：

在进行图结构数据相关的性质预测时，针对一个给定的谣言检测与风险控制系统需要处理的图结构数据，直接利用训练阶段中存储的历史节点均衡表示进行节点性质或者整张图的性质预测。

实施例3

本实施例提供一种提升循环图结构数据处理系统处理效率方法，该循环图结构数据处理系统为知识图谱补全系统，能提升知识图谱补全系统的循环图神经网络的处理效率并降低计算资源需求，包括以下步骤：

步骤1，获取知识图谱补全系统需要处理的图结构数据，图结构数据中的节点为实体、边为实体之间的关系，输入节点特征包含实体的文本描述等信息；

步骤2，训练阶段：

给定一个与步骤1的图结构数据相关的性质预测数据集与该图结构数据相应的循环图神经网络，将预测数据集分为一个训练数据集和一个验证数据集；先将该图结构数据划分为多个子图，每次随机挑选一个子图，利用本发明的方法计算随机梯度；然后，用这一随机梯度来更新循环图神经网络的参数；当其在验证数据集上的性能稳定后，保存循环图神经网络的模型参数；

步骤3，预测阶段：

在进行图结构数据相关的性质预测时，针对一个给定的知识图谱补全系统需要处理的图结构数据，直接利用训练阶段中存储的历史节点均衡表示进行节点性质或者整张图的性质预测。

实施例4

本实施例提供一种提升循环图结构数据处理系统处理效率方法，该循环图结构数据处理系统为医药研发中的化学分子表征系统，能提升医药研发中的化学分子表征系统的循环图神经网络的处理效率并降低计算资源需求，包括以下步骤：

步骤1，获取医药研发中的化学分子表征系统需要处理的图结构数据，图结构数据中的节点为分子、边为分子之间的化学键；

步骤2，训练阶段：

给定一个与步骤1的图结构数据相关的性质预测数据集与该图结构数据相应的循环图神经网络，将预测数据集分为一个训练数据集和一个验证数据集；先将该图结构数据划分为多个子图，每次随机挑选一个子图，利用本发明的方法计算随机梯度；然后，用这一随机梯度通过来更新循环图神经网络的参数；当其在验证数据集上的性能稳定后，保存循环图神经网络的模型参数；

步骤3，预测阶段：

在进行图结构数据相关的性质预测时，针对一个给定的医药研发中的化学分子表征系统需要处理的图结构数据，直接利用训练阶段中存储的历史节点均衡表示进行节点性质或者整张图的性质预测。

本领域普通技术人员可以理解：实现上述实施例方法中的全部或部分流程是可以通过程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-OnlyMemory，ROM）或随机存储记忆体（Random Access Memory，RAM）等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。本文背景技术部分公开的信息仅仅旨在加深对本发明的总体背景技术的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。