CN117688425A - 面向Non-IID图数据的多任务图分类模型构建方法及系统 - Google Patents

面向Non-IID图数据的多任务图分类模型构建方法及系统 Download PDF

Info

Publication number
CN117688425A
CN117688425A CN202311684880.4A CN202311684880A CN117688425A CN 117688425 A CN117688425 A CN 117688425A CN 202311684880 A CN202311684880 A CN 202311684880A CN 117688425 A CN117688425 A CN 117688425A
Authority
CN
China
Prior art keywords
graph
node
map data
local map
local
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311684880.4A
Other languages
English (en)
Other versions
CN117688425B (zh
Inventor
胡春强
张程曦
张今革
邓绍江
夏晓峰
蔡斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202311684880.4A priority Critical patent/CN117688425B/zh
Priority claimed from CN202311684880.4A external-priority patent/CN117688425B/zh
Publication of CN117688425A publication Critical patent/CN117688425A/zh
Application granted granted Critical
Publication of CN117688425B publication Critical patent/CN117688425B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及人工智能技术领域,揭露了面向Non‑IID图数据的多任务图分类模型构建方法,包括:客户端获取本地图数据,并对本地图数据配置混合图神经网络模型;利用混合图神经网络模型对所述本地图数据的分类预测,得到本地图数据的图预测结果,并提取当前混合图神经网络模型的融合层参数,并将融合层参数上传至中央服务器;中央服务器接收混合图神经网络模型中融合层参数,并利用聚合函数将所述融合层参数进行聚合,得到聚合融合层参数,中央服务器将聚合融合层参数分发至所述客户端。本发明还提出一种面向Non‑IID图数据的多任务图分类模型构建系统。本发明可以提高面向Non‑IID图数据的多任务图分类模型构建的准确率以及泛化能力。

Description

面向Non-IID图数据的多任务图分类模型构建方法及系统
技术领域
本发明涉及人工智能技术领域,尤其涉及面向Non-IID图数据的多任务图分类模型构建方法及系统。
背景技术
联邦图学习(Federated Graph Learning,FGL)是将联邦学习(FederatedLearning,FL)框架应用到图数据上的一种新兴技术,可以在保护客户端图数据隐私的前提下进行协作学习。联邦图学习面临的一个重要挑战是客户端本地图数据的非独立同分布(Non-Independently and Identically Distributed,Non-IID)问题,不同客户端往往拥有不同的本地图数据可能具有异质数据(如不同的特征空间和连接规则)。尤其当客户端的数据来自不同的域时,这些差异很有可能导致联邦学习系统不稳定的训练和严重的性能下降。现有的Non-IID数据场景下的FGL,主要考虑多个拥有异构数据的本地客户端、一个中央服务器之间的协作场景,各个客户端端本地拥有规模不同、分布异构的图数据集。各客户端使用其本地图数据集,训练本地的图神经网络(Graph Neural Network,GNN)模型,学习增强的特征表达,然后在中央客户端从手机到的所有客户端收集本地模型参数,加权聚合生成全局模型,帮助本地客户端训练本地GNN模型。此种方法客户端在处理某一领域图数据集中具有较高的准确率。
目前,现有绝大部分FGL的研究工作关注基于特征的方案,主要思路是将各种技术手段应用于本地客户端的模型训练过程或中央服务器的全局模型聚合过程,以缓解Non-IID图数据带来的问题。例如在本地模型使用聚类算法将节点划分为不同簇,在各簇内分别训练子模型;中央服务器给予样本量或性能较好的本地模型更大权重以弱化分布差异等。
上述工作都侧重于从特征表达层面进行优化,而没有考虑到图结构本身的变化。然而,仅从特征表达层面进行优化是不够的,因为图结构自身的变化也会对模型产生重要影响。当前有少量尝试更直接地建模图结构信息,以获得更本质的改进。这类方法不再仅仅隐式地编码结构到特征表示中,而是试图在数据预处理阶段,直接提取节点的结构嵌入(Structure Embedding),以更清晰地表示节点在图拓扑结构中的位置信息。这样可以获得依赖图连接关系的结构化节点表示,并与基于节点属性的异构特征表示隔离。
现有技术在面向Non-IID图数据分布场景下联邦图学习的研究和应用还非常有限,相关工作基本集中在图特征进行增强或其他处理操作,即使有少量工作开始考虑图结构信息,也仅是简单地采用如FedAvg等传统加权聚合模型参数的方式,例如:
(1)现有大多数技术过于依赖节点的特征表达,没有考虑图结构变化的影响。当前的大多联邦图学习方法中本地客户端仅使用传统的GNN层学习节点特征表示,提取节点嵌入,然后直接在此基础上进行下游任务。然而,这种过度依赖节点特征的建模方式忽略了不同客户端图之间的结构分布差异对模型的影响,无法捕捉结构异质性中的共性知识。
(2)直接基于GNN层的模型参数的简单聚合方式无法处理不同客户端的结构差异。当前联邦图学习中的参数聚合策略大多简单采用类似FedAvg的均值融合,或人为设置预设权重。这种直接基于参数空间的聚合并没有建模不同客户端子图之间在结构分布等方面的差异,将导致在语义上不匹配的集成图表示。
(3)现有框架没有考虑从多角度对图结构进行抽象与提取。当前技术仅将图结构信息作为补充的节点特征输入,而没有在模型训练过程中对图结构进行处理。简单提取节点局部或全局结构信息的方式,没有实现对图的逐步抽象与约简。在面对Non-IID图分布的时候,这将降低模型对图结构表示的稳定性和泛化性。
现有的研究基于图中节点特征方式本身忽略了图存在的丰富且重要的结构信息,而图结构特征提取的方式,都是基于经验主义的提取,需要对所有客户端现有图数据有整体分析,才能选取相对有效的图结构特征指标,因此,上述方法在图结构特征的获取上存在精确度较低,而且在模型表达能力、泛化能力上都较为不足。
此外,当前研究表示,在PTC_MR(生物小分子)图结构数据、ENZYMES(蛋白质)图结构数据、IMDB-BINARY(社交网络)图结构数据和超像素网络图结构数据中,这四类图结构数据的统计参数分析了跨域图结构数据之间的共性,发现其结构相比具有相同数量节点和边的随机图。在图分类时,这些图属性可以成为影响分类结果的关键图模式,例如,蛋白质和超像素网络图结构数据集,虽然它们来自完全不同的领域,但都是由空间结构形成的,它们在度分布、最短路径长度和聚类系数上具有非常接近的值;对于蛋白质,其三级结构对其生物活性是必需的,并且紧密结合的基团是将酶分类为不同催化水平的重要信号,对于超像素网络,邻居信息对于描述图像中的对象必不可少。所以,存在这样的情况,即两个跨域图结构数据集包含某些重要的图形模式,这些图形模式对应于不同的特定于数据集的含义和任务,但可以在数据集之间共享。因此,综合解决上述跨域图结构数据集的非共性问题和图结构特征的获取上存在精确度较低的问题,可以实现客户端本地模型表达能力和泛化能力。
发明内容
本发明提供一种面向Non-IID图数据的多任务图分类模型构建方法及系统,可以提高面向Non-IID图数据的多任务图分类模型构建的准确率以及泛化能力。
为实现上述目的,本发明提供的一种面向Non-IID图数据的多任务图分类模型构建方法,包括:
客户端获取本地图数据,并对所述本地图数据配置混合图神经网络模型,所述本地图数据包括生物小分子图结构数据、蛋白质图结构数据、社交网络图结构数据以及超像素网络图结构数据四者中至少一者;
利用所述混合图神经网络模型对所述本地图数据的分类预测,得到本地图数据的图预测结果,并提取当前混合图神经网络模型的融合层参数,并将所述融合层参数上传至中央服务器;
中央服务器接收所述混合图神经网络模型中融合层参数,并利用预设的聚合函数将所述融合层参数进行聚合,得到聚合融合层参数,所述中央服务器将所述聚合融合层参数分发至所述客户端。
可选地,所述在所述对所述本地图数据配置混合图神经网络模型之前,还包括:
获取客户端的数量,并获取每个客户端的本地图数据集;
根据所述本地图数据集中的节点将所述本地图数据集转化为节点特征;
将所有节点的节点特征进行汇总,得到多维度节点特征矩阵。
可选地,所述对所述本地图数据配置混合图神经网络模型,包括:
对每个所述客户端构建图神经网络模型,其中,所述图神经网络模型包括一层预处理层,三层图编码层、两层混合自注意力图粗化模块以及一层读出层。
可选地,所述对每个所述客户端构建图神经网络模型,包括:
预处理层:定义图编码层的隐藏维度,并将所有客户端设置为相同的隐藏维度,其中,所述预处理层包括一层神经网络线性层,所述预处理层将所述客户端的多维度节点特征矩阵映射到所述图编码层的隐藏维度;
图编码层:查询所述本地图数据集中的节点的邻近节点,并根据预设的邻居特征聚合函数提取邻近节点的特征表示,得到邻近节点信息;利用预设的消息传递方案框架对所述本地图数据集中的节点进行信息提取,得到节点信息;根据所述邻近节点信息对所述节点信息进行更新,得到更新节点信息;
混合自注意力图粗化模块:采用混合自注意力打分模块对所述节点特征进行打分,得到多个打分结果;根据动态自适应的融合模块对所述多个打分结果进行加权组合,得到最终融合分数;利用KMIS拓扑感知采样模块对所述本地图数据集进行采样,得到本地图数据集的粗化图;
读出层:对本地图数据集的粗化图进行分类预测,得到分类预测结果。
可选地,所述采用混合自注意力打分模块对所述节点特征进行打分,得到多个打分结果,包括:
利用第一自注意力打分模型对所述本地图数据集中的节点特征进行平均池化处理,得到所述本地图数据集的全局平均特征;
根据点积运算计算节点特征在预设投影空间中的相似度,得到第一自注意力打分结果;
利用第二自注意力打分模型提取所述本地图数据集中的节点特征以及所述节点的局部结构特征,并根据所述节点特征和所述局部结构特征计算第二自注意力打分结果;
利用预设的链接分析算法分析所述本地图数据集中的节点的全局中心性,得到所述本地图数据集的全局中心性指标;
将所述全局中心性指标作为偏置项计算所述本地图数据集中的节点的中心性节点特征;
利用第三自注意力打分模型计算所述中心性节点特征的第三自注意力打分结果。
可选地,所述根据动态自适应的融合模块对所述多个打分结果进行加权组合,得到最终融合分数,包括:
利用所述混合图神经网络模型中的全连接层和非线性激活函数生成权重系数矩阵;
根据所述权重系数矩阵对所述多个打分结果进行融合,得到所述最终融合分数。
可选地,所述利用KMIS拓扑感知采样模块对所述本地图数据集进行采样,得到本地图数据集的粗化图,包括:
基于所述最终融合分数的最小值选择互不相连的预设距离的节点作为中心节点集;
根据预设的优化算法计算每个节点的重要性得分,并根据所述重要性得分更新所述中心节点集,在所述中心节点集中每个中心节点拓展到预设数量的节点,得到多个独立节点集;
连接所述多个独立节点集中的中心节点得到所述粗化图。
为了解决上述问题,本发明还提供一种面向Non-IID图数据的多任务图分类模型构建系统,所述系统包括:包括客户端和中央服务器;所述中央服务器和所述客户端通信,并基于所述的面向Non-IID图数据的多任务图分类模型构建方法构建多任务图分类模型。
可选地,所述中央服务器接收所述客户端混合图神经网络模型的融合层参数,并通过预设的聚合函数将所述融合层参数进行聚合,得到融合层参数。
可选地,所述中央服务器将所述聚合融合层参数分发至所述客户端后,所述客户端保存所述融合层参数至本地模型。
本发明实施例对所述本地图数据配置混合图神经网络模型,可以实现对本地图数据集的特征进行增强和增强本地图数据集的结构建模能力,再者,提取当前混合图神经网络模型的融合层参数,并将所述融合层参数上传至中央服务器,可以实现利用共享融合层参数替代共享模型参数,进一步保护本地模型和样本数据的隐私安全,融合层作为抽象的特征结构相关性建模模块,根据其参数无法反向推导出特定客户端的模型结构和样本数据集的具体信息,另外,融合层参数是利用本地图数据包括生物小分子图结构数据、蛋白质图结构数据、社交网络图结构数据以及超像素网络图结构数据四者中至少一者训练得到的,可以实现跨域图结构数据的协同,进而实现跨域多任务图分类,另外,利用预设的聚合函数将所述融合层参数进行聚合后再分发至各客户端,可以实现各客户端融合层参数的跨域表达性,进而可以提高客户端本地模型的泛化能力和准确率。
附图说明
图1为本发明一实施例提供的面向Non-IID图数据的多任务图分类模型构建方法的流程示意图;
图2为本发明一实施例提供的面向Non-IID图数据的多任务图分类模型构建方法的图编码层处理过程图
图3为本发明一实施例提供的一种面向Non-IID图数据的多任务图分类模型构建方法的混合自注意力打分模块的处理流程图;
图4为本发明一实施例提供的实现所述一种面向Non-IID图数据的多任务图分类模型构建方法的最终融合分数获取流程图;
图5为本发明一实施例提供的实现所述一种面向Non-IID图数据的多任务图分类模型构建方法的图粗化处理流程图;
图6为本发明一实施例提供的面向Non-IID图数据的多任务图分类模型构建方法的客户端本地图数据处理过程图;
图7为本发明一实施例提供的面向Non-IID图数据的多任务图分类模型构建方法的客户端和中央处理器通信过程图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1所示,为本发明一实施例提供的面向Non-IID图数据的多任务图分类模型构建方法的流程示意图。在本实施例中,所述面向Non-IID图数据的多任务图分类模型构建方法包括:
S1、客户端获取本地图数据,并对所述本地图数据配置混合图神经网络模型,所述本地图数据包括生物小分子图结构数据、蛋白质图结构数据、社交网络图结构数据以及超像素网络图结构数据四者中至少一者。
本发明实施例中,所述客户端是指参与联邦学习的各个设备或节点,其中,设备和节点可以是手机、电脑、服务器或其他任何可以进行计算和通信的设备。
本发明实施例中,所述超像素网络图结构数据是指将图像中相邻且具有相似特性的像素聚合成一个更大的、统一的像素块数据,超像素能够保留图像的结构信息,同时减少了后续处理所需的计算量。
示例性地,在PTC_MR(生物小分子)图结构数据、ENZYMES(蛋白质)图结构数据、IMDB-BINARY(社交网络)图结构数据和超像素网络图结构数据中,这四类图结构数据的统计参数分析了跨域图结构数据之间的共性,发现相比与具有相同数量节点和边的随机图。在图分类时,这些图属性可以成为影响分类结果的关键图模式,例如,蛋白质和超像素网络图结构数据集,虽然它们来自完全不同的领域,但都是由空间结构形成的,它们在度分布、最短路径长度和聚类系数上具有非常接近的值:对于蛋白质,其三级结构对其生物活性是必需的,并且紧密结合的基团是将酶分类为不同催化水平的重要信号,对于超像素网络,邻居信息对于描述图像中的对象必不可少。所以,存在这样的情况,即两个跨域图结构数据集包含某些重要的图形模式,这些图形模式对应于不同的特定于数据集的含义和任务,但可以在数据集之间共享。
作为本发明一实施例,所述在所述对所述本地图数据配置混合图神经网络模型之前,还包括:
获取客户端的数量,并获取每个客户端的本地图数据集;
根据所述本地图数据集中的节点将所述本地图数据集转化为节点特征;
将所有节点的节点特征进行汇总,得到多维度节点特征矩阵。
本发明实施例中,所述本地图数据集是指设备或节点的本地数据的图表达。
本发明实施例中,所述节点特征是指将本地图数据集中的每个节点转换成的特征向量。
示例性地,定义客户端数目为K,第k个客户端的图数据集为Gk=(Vk,Ek),其中,Gk是一由一组节点Vk和连接节点的一组边Ek组成的图。每个节点v∈Vk都具有节点特征向量,构成特征矩阵Nk为客户端k节点数,Fk为特征维度数。
具体地,所述对所述本地图数据配置混合图神经网络模型,包括:
对每个所述客户端构建混合图神经网络模型,其中,所述混合图神经网络模型包括一层预处理层,三层图编码层、两层混合自注意力图粗化模块以及一层读出层。
进一步地,所述对每个所述客户端构建图神经网络模型,包括:
预处理层:定义图编码层的隐藏维度,并将所有客户端设置为相同的隐藏维度,其中,所述预处理层包括一层神经网络线性层,所述预处理层将所述客户端的多维度节点特征矩阵映射到所述图编码层的隐藏维度;
图编码层:查询所述本地图数据集中的节点的邻近节点,并根据预设的邻居特征聚合函数提取邻近节点的特征表示,得到邻近节点信息;利用预设的消息传递方案框架对所述本地图数据集中的节点进行信息提取,得到节点信息;根据所述邻近节点信息对所述节点信息进行更新,得到更新节点信息;
混合自注意力图粗化模块:采用混合自注意力打分模块对所述节点特征进行打分,得到多个打分结果;根据动态自适应的融合模块对所述多个打分结果进行加权组合,得到最终融合分数;利用KMIS拓扑感知采样模块对所述本地图数据集进行采样,得到本地图数据集的粗化图;
读出层:对本地图数据集的粗化图进行分类预测,得到分类预测结果。
示例性地,所述定义图编码层的隐藏维度,并将所有客户端设置为相同的隐藏维度,包括:定义图编码层的隐藏维度为D维,所有客户端都采用相同的隐藏维度,预处理层包括一层神经网络线性层,实现将客户端k拥有的原始输入特征xk映射到dk维的线性变换。
其中为客户端k经过映射后的特征矩阵,Wk为权重矩阵,bk为偏置向量,/>为线性映射函数。
本发明实施例中,通过上述线性变换提取输入特征中的有用信息,可以实现为后续的GNN图编码层提供更优的输入表示。
本发明实施例中,所述预设的邻居特征聚合函数是指用于数据聚合的函数,可以应用于一组数据或数据库。例如,所述预设的邻居特征聚合函数可以采用AGGREGATE函数,一般为简单的加和操作。
本发明实施例中,所述预设的消息传递方案框架是指图神经网网络工作机制的通用框架,可以实现通过传递消息来更新节点的特征表示。
参照图2所示,对于客户端k,消息传递方案框架的层数索引为l=0,...,L-1,其中第l层可公式化如下:
其中为客户端k的节点特征表示,l为层索引,AGGREGATE为邻居特征聚合函数,/>为节点v的邻居节点集合,∈为可学习的缩放参数,UPDATE为特征更新函数,常采用多层感知机(MLP)。
参照图3所示,所述采用混合自注意力打分模块对所述节点特征进行打分,得到多个打分结果,包括:
利用第一自注意力打分模型对所述本地图数据集中的节点特征进行平均池化处理,得到所述本地图数据集的全局平均特征;
根据点积运算计算节点特征在预设投影空间中的相似度,得到第一自注意力打分结果;
利用第二自注意力打分模型提取所述本地图数据集中的节点特征以及所述节点的局部结构特征,并根据所述节点特征和所述局部结构特征计算第二自注意力打分结果;
利用预设的链接分析算法分析所述本地图数据集中的节点的全局中心性,得到所述本地图数据集的全局中心性指标;
将所述全局中心性指标作为偏置项计算所述本地图数据集中的节点的中心性节点特征;
利用第三自注意力打分模型计算所述中心性节点特征的第三自注意力打分结果。
本发明实施例中,所述第一自注意力打分模型采用全局特征上下文自注意力打分模型,第二自注意力打分模型采用局部结构自注意力打分模型,所述第三自注意力打分模型采用局部结构自注意力打分模型。
本发明实施例中,所述预设的链接分析算法是指计算其他节点到某一节点的链接数量和链接质量来衡量一个节点的重要性的分析算法。例如,所述预设的链接分析算法可采用PageRank分析算法。
进一步地,所述利用第一自注意力打分模型对所述本地图数据集中的节点特征进行平均池化处理,可采用下述公式:
其中hk为客户端k的节点特征,为全局平均特征,W1 Q为线性映射的第一查询参数矩阵,/>为线性映射的第一键参数矩阵,/>为线性映射的第一值参数矩阵,Q1为第一查询矩阵,K1为第一键矩阵,V1为第一值矩阵。
进一步地,根据点积运算计算节点特征在预设投影空间中的相似度,得到第一自注意力打分结果S1,可采用下述公式:
进一步地,利用第二自注意力打分模型提取所述本地图数据集中的节点特征以及所述节点的局部结构特征,可采用下述公式:
其中Ak为邻接矩阵,为一阶图邻域表示,/>为二阶图邻域表示,W2 Q为线性映射的第二查询参数矩阵,/>为线性映射的第二键参数矩阵,/>为线性映射的第二值参数矩阵,Q2为第二查询矩阵,K2为第二键矩阵,V2为第二值矩阵。
进一步地,所述根据所述节点特征和所述局部结构特征计算第二自注意力打分结果S2,可采用下述公式:
进一步地,将所述全局中心性指标作为偏置项计算所述本地图数据集中的节点的中心性节点特征,可采用下述公式:
h_prk=Concat(hk,MPR)
其中d为阻尼系数,为归一化向量,/>表示转换为度矩阵(degree matrix)的逆矩阵,Ak为邻接矩阵,/>表示第t+1轮迭代后计算得到的链接分析算法分数矩阵,h_prk为加入偏置项后的节点特征表示,Concat函数为拼接操作函数,/>为线性映射的第三查询参数矩阵,/>为线性映射的第三键参数矩阵,/>为线性映射的第三值参数矩阵,Q3为第三查询矩阵,K3为第三键矩阵,V3为第三值矩阵。
进一步地,所述利用第三自注意力打分模型计算所述中心性节点特征的第三自注意力打分结果S3,可采用下述公式:
作为本发明一实施例,所述根据动态自适应的融合模块对所述多个打分结果进行加权组合,得到最终融合分数,包括:
利用所述混合图神经网络模型中的全连接层和非线性激活函数生成权重系数矩阵;
根据所述权重系数矩阵对所述多个打分结果进行融合,得到所述最终融合分数。
参照图4所示,所述根据动态自适应的融合模块对所述多个打分结果进行加权组合,得到最终融合分数可采用下述公式:
Sfus=[S1,S2,S3]
Wg=σ(WfusSfus+bfus)
其中,Wfus为可学习的第一参数,初始化为正态分布,bfus为可学习的第一参数,初始化为0,σ代表激活函数,Wg=[w1,w2,w3]为融合权重系数矩阵。
本发明实施例中,所述得到最终的融合分数可采用下述公式:
其中,⊙为点乘运算。
本发明实施例中,激活函数通常采用Sigmoid,激活函数将加权输入值映射到(0,1)。
作为本发明一实施例,所述利用KMIS拓扑感知采样模块对所述本地图数据集进行采样,得到本地图数据集的粗化图,包括:
基于所述最终融合分数的最小值选择互不相连的预设距离的节点作为中心节点集;
根据预设的优化算法计算每个节点的重要性得分,并根据所述重要性得分更新所述中心节点集,在所述中心节点集中每个中心节点拓展到预设数量的节点,得到多个独立节点集;
连接所述多个独立节点集中的中心节点得到所述粗化图。
本发明实施例中,所述预设的优化算法是指在每一步选择中都采取在当前状态下最好或最优(即最有利)的选择,从而希望导致结果是最好或最优的算法。例如,本发明实施例中可采用并行贪心算法。
参照图5所示,所述利用KMIS拓扑感知采样模块对所述本地图数据集进行采样,得到本地图数据集的粗化图,可采用下述方式:
基于最终融合分数的最小值Smix选择中心节点的目的是选择一组互不相连的距离至少为K的节点作为中心节点。为了减少时间复杂度,采用并行贪心的计算方式,根据所得到的节点重要性得分和输入节点集O,迭代更新中心节点集,直到输入的节点集为空。初始输入的节点集为V,每个节点v会在其1跳邻居中选出重要性最高(/>值最大)的一个节点u更新自己的值,直到扩展到K跳邻居,保持重要性不变的节点构成独立节点集U0,并入独立节点集未包含的1跳邻居节点一直到K跳邻居节点,组成目前的独立节点集能覆盖的K跳邻域节点集UK,更新O为O′去掉已经覆盖的UK继续重复该流程,如下式所示:
O=O′\UK
其中为节点重要性打分,Ek(v)为节点v的邻居节点集,K为设置的最大独立集阶数,Uk为中心节点集,/>是经过K次更新后的分数,最终得到最大独立集为U。然后,根据所选取的U重新更新每个节点的重要性分数,先将非中心节点的分数设置为0,按中心节点的K跳邻域赋值,最终依照更新的值将节点分区,如下式所示:
其中是重新经过K次更新后的分数,Cv表示中心节点v分区内的节点集,即分区结果。基于分区结果,遍历图中的所有边,添加边的连接节点所在分区的中心节点间的新边,如果添加重复边,则合并为单条边,如下式所示:
其中cu和cv为所遍历的边的连接节点u和v所在分区的中心节点,和/>为包含节点u和v的分区,E为构建的新边集,初始化是空集/>最后,通过获取的中心节点构建粗化图,即构建的边集为新的边集,所选取的中心节点集为新的节点集,如下式所示:
Ek′=E
Vk′=U
进一步地,所述对本地图数据集的粗化图进行分类预测,得到分类预测结果,可采用下述公式:
其中是图分类预测输出,L为图编码层的层数,Rδ表示池化函数和全连接层的组合模块,/>表示节点最后一层的输出编码表示。
本发明实施例通过混合注意力机制对特征上下文、全局和局部结构进行多维度打分,动态融合模块依据服务器端聚合情况,可以实时评估不同客户端图之间在结构分布等方面的相关性,而KMIS拓扑感知图采样过程可以有选择地提取对下游任务更加关键的样本子集,可以更好地处理Non-IID图中存在的结构和分布不平衡问题,提升模型的表达和融合效果,另外,动态自适应加权融合模块过程实现了自动、灵活地调控不同客户端图的数据采样策略。相比使用预先硬编码的均值或固定的人工设定的权重,该机制可以根据不同客户端图的数据分布情况,动态学习共同的融合权重策略,这样自适应的训练策略选择更加智能和个性化;此外,构建的混合注意力机制可以实现对图节点进行多维度的打分,通过KMIS拓扑感知图采样方法提取更加关键且泛化的图样本子集。相较单一粒度的建模,本发明实现了结构知识的多层次学习,显著增强了模型对完全新颖的未知结构图进行表达和迁移的能力。
S2、利用所述混合图神经网络模型对所述本地图数据的分类预测,得到本地图数据的图预测结果,并提取当前混合图神经网络模型的融合层参数,并将所述融合层参数上传至中央服务器。
本发明实施例中,所述中央服务器是指是负责协调各个客户端进行模型训练和更新的服务器。
本发明实施例通过采用本地图神经网络模型参数不会被上传,在训练过程中仅上传融合层参数。融合层作为抽象的特征结构相关性建模模块,根据其参数无法反向推导出特定客户端的模型结构和样本数据集的具体信息。这种隔离式设计相较直接上传模型参数,大大增强了对客户端隐私的保护力度和安全性。
S3、中央服务器接收所述混合图神经网络模型中融合层参数,并利用预设的聚合函数将所述融合层参数进行聚合,得到聚合融合层参数,所述中央服务器将所述聚合融合层参数分发至所述客户端。
作为本发明一实施例,利用预设的聚合函数将所述融合层参数进行聚合,得到聚合融合层参数,可采用下述公式:
对于客户端k,在第t轮训练时,本地的模型中的融合层参数设为发起联邦学习的机构和各个客户端通信,收到各个客户端本地模型的融合层参数,通过联邦聚合函数FedAvg进行聚合:
本发明实施例中,所述联邦聚合函数通常采用的是常用的FedAvg函数。
本发明实施例对所述本地图数据配置混合图神经网络模型,可以实现对本地图数据集的特征进行增强和增强本地图数据集的结构建模能力,再者,提取当前混合图神经网络模型的融合层参数,并将所述融合层参数上传至中央服务器,可以实现利用共享融合层参数替代共享模型参数,进一步保护本地模型和样本数据的隐私安全,融合层作为抽象的特征结构相关性建模模块,根据其参数无法反向推导出特定客户端的模型结构和样本数据集的具体信息,另外,融合层参数是利用本地图数据包括生物小分子图结构数据、蛋白质图结构数据、社交网络图结构数据以及超像素网络图结构数据四者中至少一者训练得到的,可以实现跨域图结构数据的协同,进而实现跨域多任务图分类,另外,利用预设的聚合函数将所述融合层参数进行聚合后再分发至各客户端,可以实现各客户端融合层参数的跨域表达性,进而可以提高客户端本地模型的泛化能力和准确率。
参照图6所示,为本发明一实施例提供的面向Non-IID图数据的多任务图分类模型构建方法的客户端本地图数据处理过程图;
参照图7所示,为本发明一实施例提供的面向Non-IID图数据的多任务图分类模型构建方法的客户端和中央处理器通信过程图。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种面向Non-IID图数据的多任务图分类模型构建方法,其特征在于,所述方法包括:
客户端获取本地图数据,并对所述本地图数据配置混合图神经网络模型,所述本地图数据包括生物小分子图结构数据、蛋白质图结构数据、社交网络图结构数据以及超像素网络图结构数据四者中至少一者;
利用所述混合图神经网络模型对所述本地图数据的分类预测,得到本地图数据的图预测结果,并提取当前混合图神经网络模型的融合层参数,并将所述融合层参数上传至中央服务器;
中央服务器接收所述混合图神经网络模型中融合层参数,并利用预设的聚合函数将所述融合层参数进行聚合,得到聚合融合层参数,所述中央服务器将所述聚合融合层参数分发至所述客户端。
2.如权利要求1所述的面向Non-IID图数据的多任务图分类模型构建方法,其特征在于,所述在所述对所述本地图数据配置混合图神经网络模型之前,还包括:
获取客户端的数量,并获取每个客户端的本地图数据集;
根据所述本地图数据集中的节点将所述本地图数据集转化为节点特征;
将所有节点的节点特征进行汇总,得到多维度节点特征矩阵。
3.如权利要求1或2所述的面向Non-IID图数据的多任务图分类模型构建方法,其特征在于,所述对所述本地图数据配置混合图神经网络模型,包括:
对每个所述客户端构建图神经网络模型,其中,所述图神经网络模型包括一层预处理层,三层图编码层、两层混合自注意力图粗化模块以及一层读出层。
4.如权利要求3所述的面向Non-IID图数据的多任务图分类模型构建方法,其特征在于,所述对每个所述客户端构建图神经网络模型,包括:
预处理层:定义图编码层的隐藏维度,并将所有客户端设置为相同的隐藏维度,其中,所述预处理层包括一层神经网络线性层,所述预处理层将所述客户端的多维度节点特征矩阵映射到所述图编码层的隐藏维度;
图编码层:查询所述本地图数据集中的节点的邻近节点,并根据预设的邻居特征聚合函数提取邻近节点的特征表示,得到邻近节点信息;利用预设的消息传递方案框架对所述本地图数据集中的节点进行信息提取,得到节点信息;根据所述邻近节点信息对所述节点信息进行更新,得到更新节点信息;
混合自注意力图粗化模块:采用混合自注意力打分模块对所述节点特征进行打分,得到多个打分结果;根据动态自适应的融合模块对所述多个打分结果进行加权组合,得到最终融合分数;利用KMIS拓扑感知采样模块对所述本地图数据集进行采样,得到本地图数据集的粗化图;
读出层:对本地图数据集的粗化图进行分类预测,得到分类预测结果。
5.如权利要求4所述的面向Non-IID图数据的多任务图分类模型构建方法,其特征在于,所述采用混合自注意力打分模块对所述节点特征进行打分,得到多个打分结果,包括:
利用第一自注意力打分模型对所述本地图数据集中的节点特征进行平均池化处理,得到所述本地图数据集的全局平均特征;
根据点积运算计算节点特征在预设投影空间中的相似度,得到第一自注意力打分结果;
利用第二自注意力打分模型提取所述本地图数据集中的节点特征以及所述节点的局部结构特征,并根据所述节点特征和所述局部结构特征计算第二自注意力打分结果;
利用预设的链接分析算法分析所述本地图数据集中的节点的全局中心性,得到所述本地图数据集的全局中心性指标;
将所述全局中心性指标作为偏置项计算所述本地图数据集中的节点的中心性节点特征;
利用第三自注意力打分模型计算所述中心性节点特征的第三自注意力打分结果。
6.如权利要求4所述的面向Non-IID图数据的多任务图分类模型构建方法,其特征在于,所述根据动态自适应的融合模块对所述多个打分结果进行加权组合,得到最终融合分数,包括:
利用所述混合图神经网络模型中的全连接层和非线性激活函数生成权重系数矩阵;
根据所述权重系数矩阵对所述多个打分结果进行融合,得到所述最终融合分数。
7.如权利要求4所述的面向Non-IID图数据的多任务图分类模型构建方法,其特征在于,所述利用KMIS拓扑感知采样模块对所述本地图数据集进行采样,得到本地图数据集的粗化图,包括:
基于所述最终融合分数的最小值选择互不相连的预设距离的节点作为中心节点集;
根据预设的优化算法计算每个节点的重要性得分,并根据所述重要性得分更新所述中心节点集,在所述中心节点集中每个中心节点拓展到预设数量的节点,得到多个独立节点集;
连接所述多个独立节点集中的中心节点得到所述粗化图。
8.一种基于如权利要求1至7中任意一项所述的面向Non-IID图数据的多任务图分类模型构建方法的系统,其特征在于,包括客户端和中央服务器;所述中央服务器和所述客户端通信,并基于权利要求1至7中任意一项所述的面向Non-IID图数据的多任务图分类模型构建方法构建多任务图分类模型。
9.如权利要求8所述的面向Non-IID图数据的多任务图分类模型构建方法的系统,其特征在于,所述中央服务器接收所述客户端混合图神经网络模型的融合层参数,并通过预设的聚合函数将所述融合层参数进行聚合,得到融合层参数。
10.如权利要求9所述的面向Non-IID图数据的多任务图分类模型构建方法的系统,其特征在于,所述中央服务器将所述聚合融合层参数分发至所述客户端后,所述客户端保存所述融合层参数至本地模型。
CN202311684880.4A 2023-12-07 面向Non-IID图数据的多任务图分类模型构建方法及系统 Active CN117688425B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311684880.4A CN117688425B (zh) 2023-12-07 面向Non-IID图数据的多任务图分类模型构建方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311684880.4A CN117688425B (zh) 2023-12-07 面向Non-IID图数据的多任务图分类模型构建方法及系统

Publications (2)

Publication Number Publication Date
CN117688425A true CN117688425A (zh) 2024-03-12
CN117688425B CN117688425B (zh) 2024-07-16

Family

ID=

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014032008A2 (en) * 2012-08-23 2014-02-27 Old Dominion University Reasearch Foundation Method and system for generating mesh from images
CN113255720A (zh) * 2021-04-13 2021-08-13 国家计算机网络与信息安全管理中心 基于分层图池化的多视角聚类方法及系统
WO2021169577A1 (zh) * 2020-02-27 2021-09-02 山东大学 一种基于加权联邦学习的无线业务流量预测方法
WO2021189906A1 (zh) * 2020-10-20 2021-09-30 平安科技(深圳)有限公司 基于联邦学习的目标检测方法、装置、设备及存储介质
WO2021190638A1 (zh) * 2020-11-24 2021-09-30 平安科技(深圳)有限公司 基于非均匀分布数据的联邦建模方法及相关设备
CN115688913A (zh) * 2022-12-29 2023-02-03 中南大学 一种云边端协同个性化联邦学习方法、系统、设备及介质
CN116011597A (zh) * 2023-02-06 2023-04-25 中山大学 一种基于图数据的个性化联邦学习方法及装置
CN116306323A (zh) * 2023-05-19 2023-06-23 中南大学 一种数字孪生模型的确定方法、装置、终端设备及介质
CN116362329A (zh) * 2023-04-21 2023-06-30 上海电力大学 一种融合参数优化的集群联邦学习方法及设备
CN116363449A (zh) * 2023-03-07 2023-06-30 沈阳理工大学 一种基于分层联邦学习的图像识别方法
CN116416478A (zh) * 2023-06-06 2023-07-11 福建工程学院 一种基于图结构数据特征的生物信息学分类模型
CN116542323A (zh) * 2023-05-22 2023-08-04 成都理工大学 一种多价值链演化的训练预测方法、系统及存储介质
CN116664930A (zh) * 2023-05-29 2023-08-29 南京理工大学 基于自监督对比学习的个性化联邦学习图像分类方法及系统
WO2023185539A1 (zh) * 2022-03-28 2023-10-05 华为技术有限公司 机器学习模型训练方法、业务数据处理方法、装置及系统
CN116992980A (zh) * 2023-09-28 2023-11-03 中国人民解放军总医院 一种基于超网络和联邦学习的预后预测预警模型训练方法、系统及设备
CN117035061A (zh) * 2023-08-14 2023-11-10 湖南工商大学 一种自适应联邦学习权重聚合方法
CN117034100A (zh) * 2023-04-14 2023-11-10 西安邗曦智慧科技有限公司 基于分层池化架构自适应图分类方法、系统、设备和介质
CN117093885A (zh) * 2023-06-06 2023-11-21 中国人民解放军国防科技大学 融合分层聚类和粒子群的联邦学习多目标优化方法

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014032008A2 (en) * 2012-08-23 2014-02-27 Old Dominion University Reasearch Foundation Method and system for generating mesh from images
WO2021169577A1 (zh) * 2020-02-27 2021-09-02 山东大学 一种基于加权联邦学习的无线业务流量预测方法
WO2021189906A1 (zh) * 2020-10-20 2021-09-30 平安科技(深圳)有限公司 基于联邦学习的目标检测方法、装置、设备及存储介质
WO2021190638A1 (zh) * 2020-11-24 2021-09-30 平安科技(深圳)有限公司 基于非均匀分布数据的联邦建模方法及相关设备
CN113255720A (zh) * 2021-04-13 2021-08-13 国家计算机网络与信息安全管理中心 基于分层图池化的多视角聚类方法及系统
WO2023185539A1 (zh) * 2022-03-28 2023-10-05 华为技术有限公司 机器学习模型训练方法、业务数据处理方法、装置及系统
CN115688913A (zh) * 2022-12-29 2023-02-03 中南大学 一种云边端协同个性化联邦学习方法、系统、设备及介质
CN116011597A (zh) * 2023-02-06 2023-04-25 中山大学 一种基于图数据的个性化联邦学习方法及装置
CN116363449A (zh) * 2023-03-07 2023-06-30 沈阳理工大学 一种基于分层联邦学习的图像识别方法
CN117034100A (zh) * 2023-04-14 2023-11-10 西安邗曦智慧科技有限公司 基于分层池化架构自适应图分类方法、系统、设备和介质
CN116362329A (zh) * 2023-04-21 2023-06-30 上海电力大学 一种融合参数优化的集群联邦学习方法及设备
CN116306323A (zh) * 2023-05-19 2023-06-23 中南大学 一种数字孪生模型的确定方法、装置、终端设备及介质
CN116542323A (zh) * 2023-05-22 2023-08-04 成都理工大学 一种多价值链演化的训练预测方法、系统及存储介质
CN116664930A (zh) * 2023-05-29 2023-08-29 南京理工大学 基于自监督对比学习的个性化联邦学习图像分类方法及系统
CN116416478A (zh) * 2023-06-06 2023-07-11 福建工程学院 一种基于图结构数据特征的生物信息学分类模型
CN117093885A (zh) * 2023-06-06 2023-11-21 中国人民解放军国防科技大学 融合分层聚类和粒子群的联邦学习多目标优化方法
CN117035061A (zh) * 2023-08-14 2023-11-10 湖南工商大学 一种自适应联邦学习权重聚合方法
CN116992980A (zh) * 2023-09-28 2023-11-03 中国人民解放军总医院 一种基于超网络和联邦学习的预后预测预警模型训练方法、系统及设备

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
CHUNQIANG HU: "An efficient and secure recommendation system based on federated matrix factorization in digital economy", PERSONAL AND UBIQUITOUS COMPUTING, 30 January 2022 (2022-01-30) *
徐梦炜;刘渊强;黄康;刘譞哲;黄罡;: "面向移动终端智能的自治学习系统", 软件学报, no. 10, 14 October 2020 (2020-10-14) *
曹步清;肖巧翔;张祥平;刘建勋;: "融合SOM功能聚类与DeepFM质量预测的API服务推荐方法", 计算机学报, no. 06, 18 March 2019 (2019-03-18) *
王佳;苗璐;: "联邦学习浅析", 现代计算机, no. 25, 5 September 2020 (2020-09-05) *
黄颖;解梅;李伟生;高靖淞;: "使用代数多重网格进行多聚焦图像融合", 电子科技大学学报, no. 02, 30 March 2015 (2015-03-30) *

Similar Documents

Publication Publication Date Title
CN110263280B (zh) 一种基于多视图的动态链路预测深度模型及应用
CN112508085B (zh) 基于感知神经网络的社交网络链路预测方法
US20220351039A1 (en) Federated learning using heterogeneous model types and architectures
CN113326377A (zh) 一种基于企业关联关系的人名消歧方法及系统
CN111191709A (zh) 深度神经网络的持续学习框架及持续学习方法
CN114817663A (zh) 一种基于类别感知图神经网络的服务建模与推荐方法
CN111563770A (zh) 一种基于特征差异化学习的点击率预估方法
CN112667824B (zh) 基于多语义学习的知识图谱补全方法
CN112115967A (zh) 一种基于数据保护的图像增量学习方法
CN117237559B (zh) 面向数字孪生城市的三维模型数据智能分析方法及系统
Wang et al. Deep joint source-channel coding for multi-task network
CN112884045A (zh) 基于多视角的随机删边嵌入模型的分类方法
CN117893807A (zh) 基于知识蒸馏的联邦自监督对比学习图像分类系统及方法
Zhou et al. Low rank communication for federated learning
CN117688425B (zh) 面向Non-IID图数据的多任务图分类模型构建方法及系统
CN116467415A (zh) 基于GCNsformer混合网络和多通道语义的双向跨域会话推荐方法
CN110020379B (zh) 一种基于深度动态网络嵌入表示模型的链路预测方法
Gao et al. Web services classification based on intelligent clustering techniques
CN114265954B (zh) 基于位置与结构信息的图表示学习方法
CN117688425A (zh) 面向Non-IID图数据的多任务图分类模型构建方法及系统
CN115587187A (zh) 基于小样本的知识图谱补全方法
Jia et al. Lightweight CNN-Based Image Recognition with Ecological IoT Framework for Management of Marine Fishes
CN117094381B (zh) 一种兼顾高效通信和个性化的多模态联邦协同方法
CN116756343A (zh) 一种基于图注意力机制的知识图谱关系预测方法
Wang et al. VR User Preference Recommendation Strategy Based on Improved BP Neural Network Algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant