CN115809686B - 提升循环图结构数据处理系统处理效率方法、设备及介质 - Google Patents

提升循环图结构数据处理系统处理效率方法、设备及介质 Download PDF

Info

Publication number
CN115809686B
CN115809686B CN202310053879.5A CN202310053879A CN115809686B CN 115809686 B CN115809686 B CN 115809686B CN 202310053879 A CN202310053879 A CN 202310053879A CN 115809686 B CN115809686 B CN 115809686B
Authority
CN
China
Prior art keywords
graph
node
representing
cyclic
structure data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310053879.5A
Other languages
English (en)
Other versions
CN115809686A (zh
Inventor
王杰
石志皓
梁锡泽
吴枫
张勇东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202310053879.5A priority Critical patent/CN115809686B/zh
Publication of CN115809686A publication Critical patent/CN115809686A/zh
Application granted granted Critical
Publication of CN115809686B publication Critical patent/CN115809686B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种提升循环图结构数据处理系统处理效率方法、设备及介质,属于图结构数据处理领域,方法包括:步骤1,训练循环图结构数据处理系统的循环图神经网络;步骤2,分别存储每个节点的历史节点均衡表示与历史辅助变量,并通过采样子图方式更新历史节点均衡表示与历史辅助变量;步骤3,在子图消息传递中,用历史节点均衡表示与历史辅助变量近似子图外的精确节点均衡表示与精确辅助变量;步骤4,通过精确辅助变量求出随机梯度并优化循环图神经网络参数,直到完成训练;步骤5,用训练好的循环图神经网络处理图结构数据。该方法通过子图近似随机梯度,只需计算子图节点的均衡表示与梯度,极大提升处理效率,减少了内存和计算开销。

Description

提升循环图结构数据处理系统处理效率方法、设备及介质
技术领域
本发明涉及图结构数据处理系统领域,尤其涉及一种提升图结构数据处理系统处理效率方法、设备和存储介质。
背景技术
循环图结构数据处理系统采用的循环图神经网络能表达很多传统图迭代算法,在涉及图形数据的许多实际应用中取得了巨大成功,例如社交网络、知识图谱、生物网络、分子性质预测。
循环图结构数据处理系统的循环图神经网络循环使用相同的消息传递层来迭代地学习节点表示,能有效地抽取图中的长程依赖。然而,循环图神经网络中的循环消息传递结构给它的高效计算带来挑战。当计算梯度时,循环图神经网络需要迭代地在节点和邻居之间进行消息交换,直到这一过程收敛到全局均衡点。这种结构相当于无穷层的图神经网络。因此,当图很大且连通时,每个节点的感受野会覆盖整张图,使得相应的均衡点能编码长程信息。由于这巨大的感受野,大部分研究应用会同时计算所有节点上的均衡节点表示与梯度计算需要的辅助变量,然后用全梯度来优化。然而,当图很大时,现有这种方法面临昂贵的运行内存和计算开销,因此限制了循环图神经网络在许多大规模实际问题中的应用。
为了将循环图结构数据处理系统的循环图神经网络拓展到大图上,现有技术提出一种采样方法来寻找全局均衡点,是通过交替地随机采样小部分节点并更新它们的信息来替代更新全部节点信息的求解方式。通过选择足够小的采样规模,这一技术能在有限的存储条件下应用到大图中。然而,为了确保收敛到全局均衡点,它持续地采样直到所有节点都被更新足够多次,这不仅降低了采用循环图神经网络的循环图结构数据处理系统的处理效率,也导致了昂贵的计算开销,提高了循环图神经网络的计算资源需求。
有鉴于此,特提出本发明。
发明内容
本发明的目的是提供一种提升循环图结构数据处理系统处理效率方法、设备和存储介质,能在提高循环图结构数据处理系统的循环图神经网络的处理效率的同时,降低循环图结构数据处理系统训练的存储需求与计算开销,进而解决现有技术中存在的上述技术问题。
本发明的目的是通过以下技术方案实现的:
一种提升循环图结构数据处理系统处理效率方法,包括:
步骤1,获取循环图结构数据处理系统需要处理的图结构数据作为训练数据,对所述循环图结构数据处理系统的循环图神经网络进行训练;
步骤2,分别存储所述步骤1获取的图结构数据中的每个节点的历史节点均衡表示与历史辅助变量,并通过采样子图的方式更新该子图中的历史节点均衡表示与历史辅助变量;
步骤3,在子图消息传递中,用历史均衡表示与历史辅助变量近似子图外的精确节点均衡表示与精确辅助变量;
步骤4,通过所述步骤3得出的精确辅助变量求解得出随机梯度,根据所述随机梯度利用随机梯度下降算法优化所述循环图结构数据处理系统的循环图神经网络的参数,直到满足训练结束条件,完成所述循环图神经网络的训练;
步骤5,所述循环图结构数据处理系统利用训练好的循环图神经网络对需要处理的图结构数据进行处理。
一种处理设备,包括:
至少一个存储器,用于存储一个或多个程序;
至少一个处理器,能执行所述存储器所存储的一个或多个程序,在一个或多个程序被处理器执行时,使得所述处理器能实现本发明所述的方法。
一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时能实现本发明所述的方法。
与现有技术相比,本发明所提供的提升循环图结构数据处理系统处理效率方法、设备及介质,其有益效果包括:
在以循环图结构数据处理系统的图结构数据训练循环图神经网络中,将子图外的精确节点均衡表示和精确辅助变量直接用历史节点均衡表示与历史辅助变量代替,即用历史节点均衡表示与历史辅助变量近似子图外的精确节点均衡表示与精确辅助变量,由于这样的求解过程不需要遍历整张图的节点,提升了循环图结构数据处理系统计算资源的处理效率,极大地节约了计算资源;另外,历史信息会存储到外部存储中,只有小部分历史信息会放到内存中参与计算,因此不会导致内存不足的情况,降低了循环图结构数据处理系统计算资源的要求。本发明的方法通过子图来近似随机梯度,只需要计算子图中的节点的均衡表示与梯度,不需要像现有全梯度方法那样在计算梯度时,考虑整张图中所有节点的均衡表示与梯度,极大地减少了循环图结构数据处理系统运行内存和计算开销,节省了昂贵的运行内存和计算资源。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的提升循环图结构数据处理系统处理效率方法的流程图。
图2为本发明实施例提供的提升循环图结构数据处理系统处理效率方法的原始图结构示意图,其中,A节点为子图中的节点,B为子图外的一跳邻居。
图3为现有的面向循环图神经网络的全梯度方法的图结构示意图,其中,A节点为子图中的节点,B为子图外的一跳邻居,2号线表示前向传播中的消息传递,1号线表示反向传播中的消息传递。
图4为本发明实施例提供的提升循环图结构数据处理系统处理效率方法的图结构示意图,其中,A节点为子图中的节点,B为子图外的一跳邻居,2号线表示前向传播中的消息传递,1号线表示反向传播中的消息传递,3号线表示前向传播中用历史消息近似的消息传递,4号线表示反向传播中用历史消息近似的消息传递。
具体实施方式
下面结合本发明的具体内容,对本发明实施例中的技术方案进行清楚、完整地描述;显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,这并不构成对本发明的限制。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
首先对本文中可能使用的术语进行如下说明:
术语“和/或”是表示两者任一或两者同时均可实现,例如,X和/或Y表示既包括“X”或“Y”的情况也包括“X和Y”的三种情况。
术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。
术语“由……组成”表示排除任何未明确列出的技术特征要素。若将该术语用于权利要求中,则该术语将使权利要求成为封闭式,使其不包含除明确列出的技术特征要素以外的技术特征要素,但与其相关的常规杂质除外。如果该术语只是出现在权利要求的某子句中,那么其仅限定在该子句中明确列出的要素,其他子句中所记载的要素并不被排除在整体权利要求之外。
除另有明确的规定或限定外,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如:可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本文中的具体含义。
当浓度、温度、压力、尺寸或者其它参数以数值范围形式表示时,该数值范围应被理解为具体公开了该数值范围内任何上限值、下限值、优选值的配对所形成的所有范围,而不论该范围是否被明确记载;例如,如果记载了数值范围“2~8”时,那么该数值范围应被解释为包括“2~7”、“2~6”、“5~7”、“3~4和6~7”、“3~5和7”、“2和5~7”等范围。除另有说明外,本文中记载的数值范围既包括其端值也包括在该数值范围内的所有整数和分数。
术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述和简化描述,而不是明示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本文的限制。
下面对本发明所提供的提升循环图结构数据处理系统处理效率方法进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。本发明实施例中所用试剂或仪器未注明生产厂商者,均为可以通过市售购买获得的常规产品。
如图1所示,本发明实施例提供一种提升循环图结构数据处理系统处理效率方法,包括:
步骤1,获取循环图结构数据处理系统需要处理的图结构数据作为训练数据,对所述循环图结构数据处理系统的循环图神经网络进行训练;
步骤2,分别存储所述步骤1获取的图结构数据中的每个节点的历史节点均衡表示与历史辅助变量,并通过采样子图的方式更新该子图中的历史节点均衡表示与历史辅助变量;
步骤3,在子图消息传递中,用历史均衡表示与历史辅助变量近似子图外的精确节点均衡表示与精确辅助变量;
步骤4,通过所述步骤3得出的精确辅助变量求解得出随机梯度,根据所述随机梯度利用随机梯度下降算法优化所述循环图结构数据处理系统的循环图神经网络的参数,直到满足训练结束条件,完成所述循环图神经网络的训练;
步骤5,所述循环图结构数据处理系统利用训练好的循环图神经网络对需要处理的图结构数据进行处理。
上述方法的步骤3中,在子图消息传递时,通过以下两个均衡方程组求解子图内部节点Vi的精确节点均衡表示
Figure SMS_1
和精确辅助变量,两个均衡方程组为:
Figure SMS_2
(1)
Figure SMS_3
(2)
和,
Figure SMS_4
(3)
Figure SMS_5
(4)
上述式(1)中的各参数含义为:
Figure SMS_6
是子图内部节点Vi的精确节点均衡表示;/>
Figure SMS_7
是循环图神经网络的消息更新函数;/>
Figure SMS_8
表示在循环图神经网络中传递到子图内部节点Vi的消息;/>
Figure SMS_9
表示子图内部节点Vi的特征;
上述式(2)中的各参数含义为:
Figure SMS_12
表示在循环图神经网络中传递到子图内部节点Vi的消息;/>
Figure SMS_14
表示循环图神经网络的消息聚合函数;/>
Figure SMS_17
表示循环图神经网络的消息生成函数;/>
Figure SMS_10
表示子图内部节点Vi的子图内部邻居节点Vk的序号,/>
Figure SMS_15
表示子图内部节点Vi的全部邻居节点构成的集合,/>
Figure SMS_18
表示子图内部节点构成的集合;/>
Figure SMS_20
是子图内部邻居节点Vk的精确节点均衡表示;/>
Figure SMS_11
表示子图外部的邻居节点Vj的序号,/>
Figure SMS_13
表示子图内部节点Vi的邻居节点构成的集合,/>
Figure SMS_16
表示子图内部节点构成的集合;/>
Figure SMS_19
是子图外部的邻居节点Vj的历史节点均衡表示;
上述式(3)中的各参数含义为:
Figure SMS_23
表示子图内部节点Vi的精确辅助变量;
Figure SMS_25
表示子图内部邻居节点Vk的序号,/>
Figure SMS_28
表示子图内部节点Vi的全部邻居节点构成的集合,/>
Figure SMS_24
表示子图内部节点构成的集合;/>
Figure SMS_26
表示对子图内部节点Vi的精确节点均衡表示计算梯度;/>
Figure SMS_29
是循环图神经网络的消息更新函数;/>
Figure SMS_31
表示子图内部邻居节点Vk的精确节点均衡表示;/>
Figure SMS_21
表示在循环图神经网络中传递到子图内部邻居节点Vk的消息;/>
Figure SMS_27
表示子图内部节点Vi的特征;/>
Figure SMS_30
表示子图内部邻居节点Vk的精确辅助变量;/>
Figure SMS_32
表示补偿消息:/>
Figure SMS_22
表示循环图神经网络的目标函数;
上述式(4)中的各参数含义为:
Figure SMS_33
表示补偿消息;/>
Figure SMS_37
表示子图外部的邻居节点Vj的序号,/>
Figure SMS_39
表示子图内部节点Vi的全部邻居节点构成的集合,/>
Figure SMS_34
表示子图内部节点构成的集合;/>
Figure SMS_36
表示对子图内部节点Vi的历史节点均衡表示计算梯度;/>
Figure SMS_38
是子图内部节点Vi的历史节点均衡表示;/>
Figure SMS_40
表示在循环图神经网络中传递到子图外部的邻居节点Vj的消息;/>
Figure SMS_35
表示子图外部的邻居节点Vj的历史辅助变量。
上述方法的步骤1中,循环图结构数据处理系统为社交网络中的谣言检测与风险控制系统、知识图谱补全系统、医药研发中的化学分子表征系统中的任一种。
上述方法的步骤1中,所述循环图结构数据处理系统为社交网络中的谣言检测与风险控制系统时,需要处理的图结构数据中的节点为用户、边为用户之间的社交关系。
上述方法的步骤1中,所述循环图结构数据处理系统为知识图谱补全系统时,需要处理的图结构数据中的节点为实体、边为实体间的关系。
上述方法的步骤1中,所述循环图结构数据处理系统为医药研发中的化学分子表征系统时,图结构数据中的节点为分子、边为分子间的化学键。
上述方法的步骤4中,按以下公式通过精确辅助变量求解得出随机梯度,为:
Figure SMS_41
(5)
上述式(5)中各参数的含义为:
Figure SMS_43
是训练循环图神经网络的梯度下降算法使用的随机梯度;/>
Figure SMS_46
是全图的节点个数/>
Figure SMS_49
除以子图的节点个数/>
Figure SMS_45
;/>
Figure SMS_48
表示子图内部节点;/>
Figure SMS_51
表示子图内部节点构成的集合;/>
Figure SMS_53
是循环图神经网络消息传递层的梯度,其中,/>
Figure SMS_42
表示对循环图神经网络的消息更新函数u的参数θ计算梯度;/>
Figure SMS_47
表示子图内部节点Vi的精确节点均衡表示;/>
Figure SMS_50
表示循环图神经网络中传递到子图内部节点Vi的消息;/>
Figure SMS_52
表示子图内部节点Vi的特征;/>
Figure SMS_44
表示子图内部节点Vi的精确辅助变量。
本发明实施例还提供一种处理设备,包括:
至少一个存储器,用于存储一个或多个程序;
至少一个处理器,能执行所述存储器所存储的一个或多个程序,在一个或多个程序被处理器执行时,使得所述处理器能实现上述的方法。
本发明实施例进一步提供一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时能实现上述的方法。
综上可见,本发明实施例的提升模型处理效率方法,通过将子图外的节点均衡表示和辅助变量直接用历史信息(即历史节点均衡表示和求解随机梯度用的辅助变量)代替,涉及的两个均衡方程组只需要求解子图中的均衡表示和辅助变量,这一求解过程不需要遍历整张图的节点,提升了循环图结构数据处理系统的处理效率,也极大地节约了计算资源;另外,历史信息会存储到外部存储中,只有小部分历史信息会放到内存中参与计算,因此不会导致循环图结构数据处理系统的内存不足的情况。
为了更加清晰地展现出本发明所提供的技术方案及所产生的技术效果,下面以具体实施例对本发明实施例所提供的提升循环图结构数据处理系统处理效率方法进行详细描述。
实施例1
本发明实施例提供一种提升循环图结构数据处理系统处理效率方法,其通过高效近似现有面向循环图神经网络的循环消息传递全梯度方法,来提升循环图结构数据处理系统处理效率。
该方法应用于采用循环图神经网络(即循环图神经网络模型)的循环图结构数据处理系统,循环图结构数据处理系统可以是社交网络中的谣言检测与风险控制系统、知识图谱补全系统、医药研发中的化学分子表征系统中的任一种。当循环图结构数据处理系统为社交网络中的谣言检测与风险控制系统时,图结构数据中的节点为用户、边为用户之间的社交关系;当循环图结构数据处理系统为知识图谱补全系统时,图结构数据中的节点为实体、边为实体间的关系;当循环图结构数据处理系统为医药研发中的化学分子表征系统时,图结构数据中的节点为分子、边为分子间的化学键。
该提升循环图结构数据处理系统处理效率方法,包括如下步骤:
步骤1,获取循环图结构数据处理系统需要处理的图结构数据作为训练数据,对该循环图结构数据处理系统的循环图神经网络进行训练。
目前现有的面向循环图结构数据处理系统的循环图神经网络的全梯度方法中,图中每个节点
Figure SMS_54
上都有特征/>
Figure SMS_55
,训练循环图神经网络需要求解以下优化问题:
Figure SMS_56
(6)
Figure SMS_57
(2)
Figure SMS_58
(1)
其中,精确节点均衡表示
Figure SMS_59
通过消息传递中的更新函数u和消息生成函数g,与邻居节点/>
Figure SMS_60
的精确节点均衡表示/>
Figure SMS_61
构成了均衡方程组;上述式(6)中涉及的参数含义为:
Figure SMS_62
表示优化循环图神经网络模型参数/>
Figure SMS_63
;/>
Figure SMS_64
表示全图中有标签的节点集合;/>
Figure SMS_65
表示交叉熵损失函数;/>
Figure SMS_66
表示子图内部节点Vi的精确节点均衡表示;/>
Figure SMS_67
表示子图内部节点Vi的标签;
上述式(2)和式(1)中的参数含义与之前式(2)和式(1)的参数含义相同,在此不再重复说明。
在连通图中,这一关于所有节点的均衡方程组无法被分解为多个小规模的独立方程组,给循环图结构数据处理系统的高效计算均衡表示带来困难。
同时,循环图神经网络的随机梯度通过求解上述式(3)和式(4)得到精确辅助变量
Figure SMS_68
,再通过精确辅助变量/>
Figure SMS_69
求得随机梯度:
然后,通过以下式(5)
Figure SMS_70
求得随机梯度,其中各参数的含义为:
Figure SMS_73
是训练循环图神经网络的梯度下降算法使用的随机梯度;/>
Figure SMS_74
是全图的节点个数除以子图的节点个数;/>
Figure SMS_77
表示子图内部节点;/>
Figure SMS_72
表示子图内部节点构成的集合;/>
Figure SMS_75
是循环图神经网络消息传递层的梯度,其中,/>
Figure SMS_78
表示对循环图神经网络的消息更新函数u的参数/>
Figure SMS_80
计算梯度;/>
Figure SMS_71
表示子图内部节点Vi的精确节点均衡表示;/>
Figure SMS_76
表示循环图神经网络中传递到子图内部节点Vi的消息;/>
Figure SMS_79
表示子图内部节点Vi的特征;/>
Figure SMS_81
表示子图内部节点Vi的精确辅助变量。
上述全梯度方法(GD)需要在全图进行消息传递,参见图2、图3,也降低了循环图结构数据处理系统的处理效率。
本发明的提升循环图结构数据处理系统处理效率的方法,利用局部消息补偿训练方法,可称为LMC,是通过子图消息传递,在一个子图
Figure SMS_82
上近似节点均衡表示和随机梯度。具体为,存储一个历史节点均衡表示/>
Figure SMS_83
与历史辅助变量/>
Figure SMS_84
,并在每次采样子图时更新该子图中的历史节点均衡表示与历史辅助变量信息,子图的规模小于整张图结构数据,在消息传递中,用历史节点均衡表示与历史辅助变量来近似子图外的精确均衡表示与精确辅助变量,解决子图外的精确均衡表示与精确辅助变量难以获得的问题,由于绝大部分历史节点均衡表示与历史辅助变量会存储到便宜的外部存储中,只有小部分历史节点均衡表示与历史辅助变量会放到内存中参与计算,因此不会导致内存不足的情况。该子图消息传递的两个均衡方程组为:
Figure SMS_85
(1)
Figure SMS_86
(2)
Figure SMS_87
(3)
Figure SMS_88
(4)
上述式(1)、式(2)、式(3)、式(4)中的各参数含义与之前的式(1)、式(2)、式(3)、式(4)中对应参数的含义相同,在此不再重复。
上述这两个均衡方程组只需要求解子图中的均衡表示和辅助变量,子图外的直接用历史节点均衡表示与历史辅助变量代替。因此,这一求解过程不需要遍历整张图的节点,提升了循环图结构数据处理系统的处理效率,也极大地节约了循环图结构数据处理系统的内存需求和计算资源。
由于现有全梯度方法在计算梯度时需要考虑整张图中所有节点表示与梯度,导致了循环图结构数据处理系统昂贵的计算开销,本发明的方法利用局部消息补偿方法通过子图来近似随机梯度,只需要计算子图中的节点的表示与梯度,极大地减少了循环图结构数据处理系统的内存和计算开销。
本发明利用局部消息补偿方法只需要在子图上进行,参见图4。
现有全梯度方法和本发明子图消息传递方法的计算效率对比如下表,其中GD为全梯度方法,LMC为本发明的方法:
Figure SMS_89
本发明的提升循环图结构数据处理系统处理效率方法的运行时间是全梯度方法(GD)的22%左右,内存开销是GD的24%左右,极大地提升了处理效率以及节约了计算资源。
实施例2
本实施例提供一种提升循环图结构数据处理系统处理效率方法,该循环图结构数据处理系统为社交网络中的谣言检测与风险控制系统,能提升社交网络中的谣言检测与风险控制系统的循环图神经网络的处理效率并降低计算资源需求,包括以下步骤:
步骤1,获取社交网络中的谣言检测与风险控制系统需要处理的图结构数据,图结构数据中的节点为用户、边为用户之间的社交关系,输入节点特征为用户的特征;
步骤2,训练阶段:
给定一个与步骤1的图结构数据相关的性质预测数据集与该图结构数据相应的循环图神经网络,将预测数据集分为一个训练数据集和一个验证数据集;先将该图结构数据划分为多个子图,每次随机挑选一个子图,利用本发明的方法(LMC)计算随机梯度;然后,用这一随机梯度来更新循环图神经网络的参数;当其在验证数据集上的性能稳定后,保存循环图神经网络的模型参数;
步骤3,预测阶段:
在进行图结构数据相关的性质预测时,针对一个给定的谣言检测与风险控制系统需要处理的图结构数据,直接利用训练阶段中存储的历史节点均衡表示进行节点性质或者整张图的性质预测。
实施例3
本实施例提供一种提升循环图结构数据处理系统处理效率方法,该循环图结构数据处理系统为知识图谱补全系统,能提升知识图谱补全系统的循环图神经网络的处理效率并降低计算资源需求,包括以下步骤:
步骤1,获取知识图谱补全系统需要处理的图结构数据,图结构数据中的节点为实体、边为实体之间的关系,输入节点特征包含实体的文本描述等信息;
步骤2,训练阶段:
给定一个与步骤1的图结构数据相关的性质预测数据集与该图结构数据相应的循环图神经网络,将预测数据集分为一个训练数据集和一个验证数据集;先将该图结构数据划分为多个子图,每次随机挑选一个子图,利用本发明的方法计算随机梯度;然后,用这一随机梯度来更新循环图神经网络的参数;当其在验证数据集上的性能稳定后,保存循环图神经网络的模型参数;
步骤3,预测阶段:
在进行图结构数据相关的性质预测时,针对一个给定的知识图谱补全系统需要处理的图结构数据,直接利用训练阶段中存储的历史节点均衡表示进行节点性质或者整张图的性质预测。
实施例4
本实施例提供一种提升循环图结构数据处理系统处理效率方法,该循环图结构数据处理系统为医药研发中的化学分子表征系统,能提升医药研发中的化学分子表征系统的循环图神经网络的处理效率并降低计算资源需求,包括以下步骤:
步骤1,获取医药研发中的化学分子表征系统需要处理的图结构数据,图结构数据中的节点为分子、边为分子之间的化学键;
步骤2,训练阶段:
给定一个与步骤1的图结构数据相关的性质预测数据集与该图结构数据相应的循环图神经网络,将预测数据集分为一个训练数据集和一个验证数据集;先将该图结构数据划分为多个子图,每次随机挑选一个子图,利用本发明的方法计算随机梯度;然后,用这一随机梯度通过来更新循环图神经网络的参数;当其在验证数据集上的性能稳定后,保存循环图神经网络的模型参数;
步骤3,预测阶段:
在进行图结构数据相关的性质预测时,针对一个给定的医药研发中的化学分子表征系统需要处理的图结构数据,直接利用训练阶段中存储的历史节点均衡表示进行节点性质或者整张图的性质预测。
本领域普通技术人员可以理解:实现上述实施例方法中的全部或部分流程是可以通过程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。本文背景技术部分公开的信息仅仅旨在加深对本发明的总体背景技术的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。

Claims (7)

1.一种提升循环图结构数据处理系统处理效率方法,其特征在于,包括:
步骤1,获取循环图结构数据处理系统需要处理的图结构数据作为训练数据,对所述循环图结构数据处理系统的循环图神经网络进行训练;
步骤2,分别存储所述步骤1获取的图结构数据中的每个节点的历史节点均衡表示与历史辅助变量,并通过采样子图的方式更新该子图中的历史节点均衡表示与历史辅助变量;
步骤3,在子图消息传递中,用历史均衡表示与历史辅助变量近似子图外的精确节点均衡表示与精确辅助变量;通过以下两个均衡方程组求解子图内部节点Vi的精确节点均衡表示
Figure QLYQS_1
和精确辅助变量/>
Figure QLYQS_2
,两个均衡方程组为:
Figure QLYQS_3
(1)
Figure QLYQS_4
(2)
和,
Figure QLYQS_5
(3)
Figure QLYQS_6
(4)
上述式(1)中的各参数含义为:
Figure QLYQS_7
是子图内部节点Vi的精确节点均衡表示;/>
Figure QLYQS_8
是循环图神经网络的消息更新函数;/>
Figure QLYQS_9
表示在循环图神经网络中传递到子图内部节点Vi的消息;
Figure QLYQS_10
表示子图内部节点Vi的特征;
上述式(2)中的各参数含义为:
Figure QLYQS_12
表示在循环图神经网络中传递到子图内部节点Vi的消息;/>
Figure QLYQS_14
表示循环图神经网络的消息聚合函数;/>
Figure QLYQS_17
表示循环图神经网络的消息生成函数;/>
Figure QLYQS_13
是子图内部邻居节点Vk的精确节点均衡表示;/>
Figure QLYQS_15
表示子图内部节点Vi的子图内部邻居节点Vk的序号,/>
Figure QLYQS_18
表示子图内部节点Vi的全部邻居节点构成的集合,/>
Figure QLYQS_20
表示子图内部节点构成的集合;/>
Figure QLYQS_11
是子图外部的邻居节点Vj的历史节点均衡表示;/>
Figure QLYQS_16
表示子图外部的邻居节点Vj的序号,/>
Figure QLYQS_19
表示子图内部节点的全部邻居节点构成的集合,/>
Figure QLYQS_21
表示子图内部节点构成的集合;
上述式(3)中的各参数含义为:
Figure QLYQS_24
表示子图内部节点Vi的精确辅助变量;/>
Figure QLYQS_28
表示子图内部节点Vi的子图内部邻居节点Vk的序号,/>
Figure QLYQS_31
表示子图内部节点Vi的全部邻居节点构成的集合,/>
Figure QLYQS_25
表示子图内部节点构成的集合; />
Figure QLYQS_27
表示对子图内部节点Vi的精确节点均衡表示计算梯度;/>
Figure QLYQS_30
是循环图神经网络的消息更新函数;/>
Figure QLYQS_33
表示子图内部邻居节点Vk的精确均衡表示; />
Figure QLYQS_22
表示在循环图神经网络中传递到子图内部邻居节点Vk的消息;/>
Figure QLYQS_26
表示子图内部节点Vi的特征;/>
Figure QLYQS_29
表示子图内部邻居节点Vk的精确辅助变量;/>
Figure QLYQS_32
表示补偿消息:/>
Figure QLYQS_23
表示循环图神经网络的目标函数;
上述式(4)中的各参数含义为:
Figure QLYQS_35
表示补偿消息;/>
Figure QLYQS_39
表示子图外部的邻居节点Vj的序号,/>
Figure QLYQS_41
表示子图内部节点Vi的全部邻居节点构成的集合,/>
Figure QLYQS_36
表示子图内部节点构成的集合;/>
Figure QLYQS_38
表示对子图内部节点Vi的历史节点均衡表示计算梯度;/>
Figure QLYQS_40
是子图内部节点Vi的历史节点均衡表示;/>
Figure QLYQS_42
是循环图神经网络的消息更新函数;/>
Figure QLYQS_34
表示在循环图神经网络中传递到子图外部的邻居节点Vj的消息;/>
Figure QLYQS_37
表示子图外部的邻居节点Vj的历史辅助变量;
步骤4,通过所述步骤3得出的精确辅助变量求解得出随机梯度,根据所述随机梯度利用随机梯度下降算法优化所述循环图结构数据处理系统的循环图神经网络的参数,直到满足训练结束条件,完成所述循环图神经网络的训练;按以下公式通过精确辅助变量求解得出随机梯度,为:
Figure QLYQS_43
(5)
上述式(5)中各参数的含义为:
Figure QLYQS_46
是训练循环图神经网络的梯度下降算法使用的随机梯度;/>
Figure QLYQS_50
是全图的节点个数/>
Figure QLYQS_53
除以子图的节点个数/>
Figure QLYQS_45
; />
Figure QLYQS_49
表示子图内部的节点;/>
Figure QLYQS_52
表示子图内部节点构成的集合;/>
Figure QLYQS_55
是循环图神经网络消息传递层的梯度,其中,/>
Figure QLYQS_44
表示对循环图神经网络的消息更新函数u的参数θ计算梯度;/>
Figure QLYQS_48
表示子图内部节点Vi的精确节点均衡表示;/>
Figure QLYQS_51
表示循环图神经网络中传递到子图内部节点Vi的消息;
Figure QLYQS_54
表示子图内部节点Vi的特征;/>
Figure QLYQS_47
表示子图内部节点Vi的精确辅助变量;
步骤5,所述循环图结构数据处理系统利用训练好的循环图神经网络对需要处理的图结构数据进行处理。
2.根据权利要求1所述的提升循环图结构数据处理系统处理效率方法,其特征在于,所述步骤1中,循环图结构数据处理系统为社交网络中的谣言检测与风险控制系统、知识图谱补全系统、医药研发中的化学分子表征系统中的任一种。
3.根据权利要求2所述的提升循环图结构数据处理系统处理效率方法,其特征在于,所述步骤1中,所述循环图结构数据处理系统为社交网络中的谣言检测与风险控制系统时,需要处理的图结构数据中的节点为用户、边为用户之间的社交关系。
4.根据权利要求2所述的提升循环图结构数据处理系统处理效率方法,其特征在于,所述步骤1中,所述循环图结构数据处理系统为知识图谱补全系统时,需要处理的图结构数据中的节点为实体、边为实体间的关系。
5.根据权利要求2所述的提升循环图结构数据处理系统处理效率方法,其特征在于,所述步骤1中,所述循环图结构数据处理系统为医药研发中的化学分子表征系统时,图结构数据中的节点为分子、边为分子间的化学键。
6.一种处理设备,其特征在于,包括:
至少一个存储器,用于存储一个或多个程序;
至少一个处理器,能执行所述存储器所存储的一个或多个程序,在一个或多个程序被处理器执行时,使得所述处理器能实现权利要求1-5任一项所述的方法。
7.一种可读存储介质,存储有计算机程序,其特征在于,当计算机程序被处理器执行时能实现权利要求1-5任一项所述的方法。
CN202310053879.5A 2023-02-03 2023-02-03 提升循环图结构数据处理系统处理效率方法、设备及介质 Active CN115809686B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310053879.5A CN115809686B (zh) 2023-02-03 2023-02-03 提升循环图结构数据处理系统处理效率方法、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310053879.5A CN115809686B (zh) 2023-02-03 2023-02-03 提升循环图结构数据处理系统处理效率方法、设备及介质

Publications (2)

Publication Number Publication Date
CN115809686A CN115809686A (zh) 2023-03-17
CN115809686B true CN115809686B (zh) 2023-06-16

Family

ID=85487770

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310053879.5A Active CN115809686B (zh) 2023-02-03 2023-02-03 提升循环图结构数据处理系统处理效率方法、设备及介质

Country Status (1)

Country Link
CN (1) CN115809686B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108683738B (zh) * 2018-05-16 2020-08-14 腾讯科技(深圳)有限公司 图数据处理方法和图数据的计算任务发布方法
CN111144577B (zh) * 2019-12-26 2022-04-22 北京百度网讯科技有限公司 异构图之中节点表示的生成方法、装置和电子设备
CN114078243A (zh) * 2020-08-11 2022-02-22 湖南大学 基于循环图卷积网络的驾驶员驾驶行为识别方法及系统
CN113778648B (zh) * 2021-08-31 2023-07-11 重庆理工大学 分层边缘计算环境中基于深度强化学习的任务调度方法
CN115293332A (zh) * 2022-08-09 2022-11-04 中国平安人寿保险股份有限公司 一种图神经网络的训练方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN115809686A (zh) 2023-03-17

Similar Documents

Publication Publication Date Title
Hu et al. A distributed framework for large-scale protein-protein interaction data analysis and prediction using mapreduce
CN112613602A (zh) 基于知识感知超图神经网络的推荐方法及系统
CN113627479B (zh) 一种基于半监督学习的图数据异常检测方法
CN113378938B (zh) 一种基于边Transformer图神经网络的小样本图像分类方法及系统
CN114282122A (zh) 一种高效非采样的图卷积网络推荐方法
Hu et al. A novel network-based algorithm for predicting protein-protein interactions using gene ontology
Plarre et al. Extended message passing algorithm for inference in loopy Gaussian graphical models
Ma et al. Graph Neural Networks: Scalability
CN113887698B (zh) 基于图神经网络的整体知识蒸馏方法和系统
CN115809686B (zh) 提升循环图结构数据处理系统处理效率方法、设备及介质
CN111738516B (zh) 通过局部距离和节点秩优化函数的社交网络社区发现系统
CN111738514B (zh) 利用局部距离和节点秩优化函数的社交网络社区发现方法
Liu et al. Asymptotic properties of blow-up solutions in reaction–diffusion equations with nonlocal boundary flux
Sivangi et al. NoAS-DS: Neural optimal architecture search for detection of diverse DNA signals
Guo et al. Intrusion-free graph mixup
CN114900435B (zh) 一种连接关系预测方法及相关设备
CN114842247B (zh) 基于特征累加的图卷积网络半监督节点分类方法
Guo et al. THGNCDA: circRNA–disease association prediction based on triple heterogeneous graph network
Ye et al. Skeleton‐based action recognition with JRR‐GCN
CN115271207A (zh) 一种基于门控图神经网络的序列关系预测方法以及装置
Xu et al. An improved Hara-Takamura procedure by sharing computations on junction tree in Gaussian graphical models
Safarinejadian et al. Distributed density estimation in sensor networks based on variational approximations
Ji et al. Solving the 0-1 knapsack problem based on a parallel intelligent molecular computing model system
Li et al. Graph4Rec: a universal toolkit with graph neural networks for recommender systems
Wang et al. The graph-guided group lasso for genome-wide association studies

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant