CN118036706A - 基于图子树差异实现图联邦迁移学习的多任务处理系统 - Google Patents
基于图子树差异实现图联邦迁移学习的多任务处理系统 Download PDFInfo
- Publication number
- CN118036706A CN118036706A CN202410162920.7A CN202410162920A CN118036706A CN 118036706 A CN118036706 A CN 118036706A CN 202410162920 A CN202410162920 A CN 202410162920A CN 118036706 A CN118036706 A CN 118036706A
- Authority
- CN
- China
- Prior art keywords
- graph
- client
- training
- gcn
- parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013508 migration Methods 0.000 title claims description 17
- 230000005012 migration Effects 0.000 title claims description 17
- 238000012549 training Methods 0.000 claims abstract description 86
- 238000000034 method Methods 0.000 claims abstract description 35
- 238000013526 transfer learning Methods 0.000 claims abstract description 13
- 230000008569 process Effects 0.000 claims abstract description 11
- 239000000284 extract Substances 0.000 claims abstract description 5
- 230000002776 aggregation Effects 0.000 claims description 11
- 238000004220 aggregation Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 11
- 230000001419 dependent effect Effects 0.000 abstract description 4
- 230000009467 reduction Effects 0.000 abstract description 2
- 238000012545 processing Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 238000009826 distribution Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/098—Distributed learning, e.g. federated learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9027—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于图子树差异实现图联邦迁移学习的多任务处理系统,其中客户端上部署有基于图联邦迁移学习方法训练的网络模型,训练过程包括:客户端从服务器下载网络模型(包括第一和第二GCN)的参数,用第一GCN预测图数据的分类,用第二GCN提取图子树序列,计算自身和其他客户端的图子树序列的差异,根据最小差异和分类损失计算总损失,基于总损失调整参数,将更新的参数和图子树序列上传至服务器;服务器聚合各客户端上传的参数,并更新参数,如此不断训练直至完成训练。本发明通过让客户端动态地从结构相近的图数据中学习知识,在保护数据隐私的基础上解决非独立同分布数据引起的模型精度下降问题。
Description
技术领域
本发明属于人工智能领域,具体涉及基于图子树差异实现图联邦迁移学习的多任务处理系统。
背景技术
随着机器学习技术的发展和其在工商业领域的广泛运用,随之产生的隐私数据泄露问题也越来越受到重视。此外,由于世界各国政府法规和行业公约的限制,不同数据所有者之间的共享变得困难,在保护隐私的同时不可避免地造成了数据孤岛问题。为了解决以上问题,谷歌团队提出了联邦学习技术,将机器学习的数据存储和模型训练阶段转移至本地客户端,仅与中心服务器交互模型更新,这种将模型训练与访问原始数据解耦的方式既有效保护了用户隐私,又能够无须源数据聚合就形成训练数据共享。受此启发,图联邦学习将网络模型与联邦学习技术结合起来,使用联邦学习框架训练分布式图数据,在医疗分析、社交网络分析、推荐系统、知识图谱等领域拥有良好的潜力。
然而,实际中基于联邦学习的系统面临着一个关键问题:每个客户端的训练数据很大程度上依赖于本地设备的使用情况,因此客户端之间的数据分布可能出现显著差异,这种现象被称为非独立同分布。比如,不同医院存储的医学图像数据会由于病人的样本分布不同而存在差异;边缘计算设备上的社交媒体数据也会由于用户习惯不同而表现出很大区别。传统的分布式框架算法只有在处理独立同分布数据时表现良好,而在处理非独立同分布数据时会造成训练过程难以收敛、客户端与服务器间通信轮数过多等问题,还可能导致客户端之间的不公平。此外,联邦学习框架中采用的FedAvg算法依赖于随机梯度下降,非独立同分布抽样无法保证随机梯度是全梯度的无偏估计,从而导致局部模型出现权值偏离,收敛到不同模型。
综上可见,由于现有算法的缺陷和实际应用的需求,在联邦学习系统中处理非独立同分布数据成为了一个新的挑战。特别是对于基于图数据的联邦学习系统,由于来自不同领域的图数据具有很强的异质性,因此基于图数据的联邦学习系统更是面临着非独立同分布问题的挑战。
发明内容
为了解决现有技术中所存在的上述问题,本发明提供了基于图子树差异实现图联邦迁移学习的多任务处理系统。
本发明要解决的技术问题通过以下技术方案实现:
一种基于图子树差异实现图联邦迁移学习的多任务处理系统,包括:多个客户端和服务器;每个客户端上均部署有在该客户端上训练好的网络模型;所述多个客户端上的网络模型是基于图联邦迁移学习方法训练得到的;
其中,基于图联邦迁移学习方法训练各个所述网络模型的过程,包括:
参数下载步骤、客户端从所述服务器下载网络模型的参数,并将该参数加载至其本地的网络模型;所述网络模型包括第一GCN和第二GCN;
联合训练步骤、客户端在执行完所述参数下载步骤之后,利用其第一GCN预测其图数据的分类,利用其第二GCN对其图数据提取图子树序列;从所述服务器获取其他客户端上的图子树序列,计算其他客户端上的图子树序列和其图子树序列之间的差异,根据其中最小的差异和其第一GCN的分类损失计算总损失;根据所述总损失调整其网络模型的参数,并将当前训练得到的参数和其图子树序列上传至所述服务器;
参数聚合步骤、服务器对各个客户端上传的参数进行聚合,用聚合后的参数更新服务器上存储的旧参数,继续进行下一轮训练。
可选地,所述基于图联邦迁移学习方法训练各个所述网络模型的过程,还包括:
本地训练步骤、客户端利用其第一GCN预测其图数据的分类;根据其第一GCN的分类损失调整其第一GCN的参数,继续进行下一轮训练;
其中,客户端在每次执行完所述参数下载步骤之后,若训练轮数达到预定轮数,则执行所述联合训练步骤,并清零训练轮数,否则执行所述本地训练步骤。
可选地,执行所述联合训练步骤的客户端是所述服务器随机指定的部分客户端。
可选地,所述总损失表示为:
其中,wi,h表示第i个客户端的第一GCN的参数,wi,f表示第i个客户端的第二GCN的参数,wj,f表示第j个客户端的第二GCN的参数,h(·)代表第一GCN,f(·)代表第二GCN;yi表示图数据的分类标签,Gi表示第i个客户端的图数据,Gj表示第j个客户端的图数据,dGSD(f(Gi;wi,f),f(Gj;wi,f))表示第i个客户端的图子树序列和第j个客户端的图子树序列之间的差异,dGSD(Gi,Gj)示第i个客户端的图数据和第j个客户端的图数据之间的差异,K表示参与执行所述联合训练步骤的客户端集合,是计算所述分类损失的损失函数,λ是对客户端数量和客户端的数据量均不敏感的超参数,∩表示求交集。
可选地,客户端基于所述总损失调整其网络模型的参数的方式如下:
其中,表示第i个客户端在第t轮训练后的网络模型的参数,/>表示第i个客户端在第t-1轮训练后的网络模型的参数,η表示学习率,/>表示求梯度,/>表示第i个客户端在第t-1轮训练中的分类损失,/>表示第i个客户端在第t-1轮训练中,其图子树序列和第j个客户端的图子树序列之间的差异。
可选地,服务器对各个客户端上传的参数进行聚合的方式如下:
其中,|Di|是第i个客户端的数据量,|D|是所述客户端集合中所有客户端的总数据量。
本发明提供的基于图子树差异实现图联邦迁移学习的多任务处理系统具有如下有益效果:
第一,本发明使用图子树序列的差异(可简称为图子树差异)作为图数据之间的结构差异度量,相比现有技术能够更准确地衡量图数据之间的结构相似性。同时,在本地训练阶段考虑引入其它图数据的结构信息,在确保隐私的基础上实现跨客户端的合作,提高网络模型在非独立同分布数据场景下的准确率和收敛性。
第二,本发明为系统中的每个客户端在邻居客户端中选择结构最相近的图数据,在其损失函数上添加对应的图子树序列差异项,克服了现有技术无法训练个性化模型的缺陷,提高了客户端上的网络模型的泛化能力,能够在图数据内部关系更复杂、客户端更多的情况下拥有更好的性能。
第三,本发明在客户端之间仅传递经过第二子网络提取后的图子树序列,不会破坏数据隐私,且不增加额外的通信开销。相比现有方法,本发明将计算工作分担到各个客户端上,而不是依赖于服务器,减轻了服务器的计算开销。
以下将结合附图及对本发明做进一步详细说明。
附图说明
图1是本发明实施例提供的一种基于图子树差异实现图联邦迁移学习的多任务处理系统的结构示意图;
图2是本发明实施例中基于图联邦迁移学习方法训练各个客户端上的网络模型的一个流程图;
图3是本发明实施例中基于图联邦迁移学习方法训练各个客户端上的网络模型的另一个流程图;
图4是本发明实施例中基于图联邦迁移学习方法训练各个客户端上的网络模型的另一个流程图。
具体实施方式
下面结合具体实施例对本发明做进一步详细的描述,但本发明的实施方式不限于此。
现有的图联邦学习方法面临在处理非独立同分布数据时出现模型性能下降的问题:一是在依赖于随机梯度下降的方法中,非独立同分布抽样无法保证随机梯度是全梯度的无偏估计,从而导致局部模型出现权值偏离,收敛到不同模型;二是仅考虑各个客户端上的图数据自身的结构信息,而忽略了从其它图数据中学习结构信息,导致不能很好地实现模型个性化。为了解决上述问题,本发明实施例提供了一种基于图子树差异实现图联邦迁移学习的多任务处理系统,将迁移学习方法与图联邦学习框架相结合,利用图数据之间的结构信息实现客户端之间的协作学习,提高了数据非独立同分布场景下网络模型的准确度和收敛性;同时,本发明实施例中客户端在训练过程中动态地修改自身的损失函数,使得每个客户端能够训练出自己的个性化模型。
如图1所示,本发明实施例提供的基于图子树差异实现图联邦迁移学习的多任务处理系统包括:多个客户端和服务器;每个客户端上均部署有在该客户端上训练好的网络模型;多个客户端上的网络模型是基于图联邦迁移学习方法训练得到的。
其中,如图2所示,基于图联邦迁移学习方法训练各个网络模型的过程,包括:
参数下载步骤、客户端从服务器下载网络模型的参数,并将该参数加载至其本地的网络模型;网络模型包括第一GCN(图卷积网络)和第二GCN。
可以理解的是,客户端将从服务器下载的参数加载至其本地的网络模型,便相当于从服务器下载了系统的全局网络模型。
联合训练步骤、客户端在执行完参数下载步骤之后,利用其第一GCN预测其图数据的分类,利用其第二GCN对其图数据提取图子树序列;从服务器获取其他客户端上的图子树序列,计算其他客户端上的图子树序列和其图子树序列之间的差异,根据其中最小的差异和其第一GCN的分类损失计算总损失;根据总损失调整其网络模型的参数,并将当前训练得到的参数和其图子树序列上传至服务器。
图数据是一种图的特殊形式,它包括图中包含的多个节点以及代表节点之间连接关系的边。图子树序列是一种表征图数据的结构信息的数据形式。通常可以利用Weisfeiler-Lehman检验算法来获取图数据的图子树序列,Weisfeiler-Lehman检验算法是一种判断两个图数据是否同构的算法。该算法中,针对图数据的每个节点,聚合该节点及其邻居节点的标签信息,使用哈希函数将聚合结果映射后重新赋给该节点,这一步骤被称为“重标签”,经过多次迭代后,通过判断最终聚合出的两个图数据的节点标签是否一致来判断图书据是否同构。其中,一个节点的m层Weisfeiler-Lehman子树(以下简称“WL子树”)是在WL检验的第m次迭代中,以该节点为根,高为m的一个子树结构,可以表示为以下形式:
fm(v)=fm(fm-1(v);∪u∈N(v)fm-1(u));
其中,fm(v)表示节点v的m层WL子树,N(v)是v的邻居集合,fm(·)是重标签函数,∪表示求交集。
本发明实施例中,考虑到WL检验和网络模型的聚合流程类似,因此用网络模型来实例化WL检验,以利用第二GCN学习连续的节点表示,具体操作即是利用第二GCN从客户端的图数据中提取图子树序列。具体的,以v为根节点、深度为m的图子树序列可以表示为:
其中,σ(·)表示激活函数,Wm是第二GCN的第m层卷积的可训练矩阵,为第二GCN中归一化后添加自环的邻接矩阵;M是第二GCN的卷积层网络层数,因此第二GCN经过M轮迭代后可以得到以v为根节点的图子树序列:f0(v),...,fM(v)。
传统的迁移学习的目标是利用训练样本数据对模型训练后应用到新的数据上。和传统的迁移学习不同的是,本发明实施例中训练模型的目的并不仅仅是后续利用第一GCN完成分类任务,更重要的是通过联邦迁移学习使得客户端上的第一GCN能够学习来自其他客户端上的结构相似的图数据知识,从而让客户端能够更好地识别自己图数据中每个节点的类别。由此,本发明实施例在联合训练步骤中,根据最小的图子树序列的差异和第一GCN的分类损失计算总损失,该总损失表示为:
其中,wi,h表示第i个客户端的第一GCN的参数,wi,f表示第i个客户端的第二GCN的参数,wj,f表示第j个客户端的第二GCN的参数,h(·)代表第一GCN,f(·)代表第二GCN;yi表示图数据的分类标签,Gi表示第i个客户端的图数据,Gj表示第j个客户端的图数据,dGSD(f(Gi;wi,f),f(Gj;wi,f))表示第i个客户端的图子树序列和第j个客户端的图子树序列之间的差异,dGSD(Gi,Gj)示第i个客户端的图数据和第j个客户端的图数据之间的差异,K表示参与执行联合训练步骤的客户端集合,是计算分类损失的函数,λ是对客户端数量和客户端的数据量均不敏感的超参数,客户端的数据量具体是客户端的图数据的节点数,∩表示求交集。
其中,λ例如可以设置为0.02,当然并不局限于此。需要说明的是,现有技术通过简单的聚类减轻数据异质性,聚类条件、类别数等信息根据客户端数量和数据量变化,难以提前确定超参数,且无法在客户端上训练个性化模型,而本发明实施例中超参数可以提前确定,且对于客户端数量和客户端的数据量均不敏感。
本发明实施例中使用图神经网络提取图数据的图子树序列,并在损失函数中添加一个基于图子树序列的差异的正则化项,从而有助于提高网络模型的泛化能力,并使每个客户端能够从其他客户端数据中学到更多的结构知识,从而实现客户端上的个性化模型的训练,更好地适应客户端本地的图数据。
本发明实施例中,计算图子树序列之间的差异,可以是基于JS散度的计算来得到图子树序列之间的差异。或者,考虑到图神经网络的迭代次数只与其层数有关,也可以利用下式计算图子树序列之间的差异:
其中,M表示第二GCN的卷积层网络层数,表示第i个客户端的图数据和第j个客户端的图数据之间的基域差异。
客户端计算出总损失后,基于总损失调整其网络模型的参数的方式如下:
该表达式的含义是,客户端计算出总损失后,使其网络模型的参数在本地进行梯度下降。其中,表示第i个客户端在第t轮训练后的网络模型的参数,/>表示第i个客户端在第t-1轮训练后的网络模型的参数,η表示学习率,/>表示求梯度,/>表示第i个客户端在第t-1轮训练时的分类损失,/>表示第i个客户端在第t-1轮训练时,其图子树序列和第j个客户端的图子树序列之间的差异。
客户端将其网络模型的参数更新完成后,将更新后的参数上传回服务器进行聚合。
在一种实现方式中,如图3所示,基于图联邦迁移学习方法训练各个网络模型的过程,还可以包括:
本地训练步骤、客户端利用其第一GCN预测其图数据的分类;根据其第一GCN的分类损失判断是否完成训练;若未完成训练,基于该分类损失调整其第一GCN的参数,继续进行下一轮训练。
其中,如图3所示,客户端在每次执行完参数下载步骤之后,若当前客户端与服务器之间的通信轮数达到预定轮数,则执行联合训练步骤,并清零训练轮数,否则执行本地训练步骤,本地训练步骤完成后,继续进入下一轮训练,也即重新开始执行参数下载步骤。
具体的,在第1轮训练中,客户端通过从服务器下载参数下载全局模型并执行第1轮训练,将其图子树序列上传至服务器(图4中未示出此操作)。只有在第2轮通信和训练轮数达到预定轮数(t%I=0)时,客户端才会按照联合训练步骤执行相应操作,否则客户端便只会按照本地训练步骤执行相应操作。其中,t表示训练轮数,%表示取余运算,I表示训练轮数间隔,例如当I=4时,则会在第2,4,8,12…轮训练时客户端会按照联合训练步骤执行相应操作。
优选地,执行联合训练步骤的客户端可以是服务器随机指定的部分客户端。此时未被服务器指定的客户端不训练。
这里,本发明实施例沿用了FedAvg(联邦平均)算法的基本框架,使得服务器在每一轮随机选择一部分客户端参与联邦学习训练。可以理解的是,由于每个客户端上进行图子树序列的差异计算都需要遍历其它客户端的图子树序列,因此让所有客户端都执行此差异计算会达到O(n2)的时间复杂度,这一步骤会大大增加时间开销和计算成本,其中n表示输入规模,O(·)表示计算时间复杂度的函数。
接续参见图2或图3,客户端通过执行联合训练步骤完成训练之后,进入参数聚合步骤。
参数聚合步骤、服务器对各个客户端上传的参数进行聚合,用聚合后的参数更新服务器上存储的旧参数,以重新触发参数下载步骤。
具体的,服务器对各个客户端上传的参数进行聚合的方式如下:
其中,|Di|是第i个客户端的数据量,|D|是客户端集合中所有客户端的总数据量。
由此,经过T轮迭代后,服务器上最终得到全局的网络模型,各个客户端从服务器上获取该模型的参数,整个系统中的网络模型部署完成。
本发明提供的基于图子树差异实现图联邦迁移学习的多任务处理系统具有如下有益效果:
第一,本发明使用图子树序列的差异作为图数据之间的结构差异度量,相比现有技术能够更准确地衡量图数据之间的结构相似性。同时,在本地训练阶段考虑引入其它图数据的结构信息,在确保隐私的基础上实现跨客户端的合作,提高网络模型在非独立同分布数据场景下的准确率和收敛性。
第二,本发明为系统中的每个客户端在邻居客户端中选择结构最相近的图数据,在其损失函数上添加对应的图子树序列差异项,克服了现有技术无法训练个性化模型的缺陷,提高了客户端上的网络模型的泛化能力,能够在图数据内部关系更复杂、客户端更多的情况下拥有更好的性能。
第三,本发明在客户端之间仅传递经过二子网络提取后的图子树序列,不会破坏数据隐私,且不增加额外的通信开销。相比现有方法,本发明将计算工作分担到各个客户端上,而不是依赖于服务器,减轻了服务器的计算开销。
下面结合相关现有技术对本发明实施例的有益效果做对比分析。
相关技术中,Xie等人在其发表的论文“Federated graph classificationovernon-iid graphs”(Advances in Neural Information Processing Systems 34,2021)中提出,现实中的图即使来自不同领域,也依然可能存在相近的结构属性。该文章发现模型参数及其梯度可以反应图的结构和特征信息,于是提出了GCFL算法,在每一轮中将客户端按照梯度的余弦相似度进行聚类,不同的类再分别进行聚合。该文章还在此基础上提出了改进版的GCFL+算法,使用动态时间规整技术对客户端梯度的时间矩阵进行聚类,以此捕捉较长时间段的客户端行为,实现更加均匀的聚类。该文章中的实验表明,聚类后的类中数据的结构异质性相比聚类前得到了降低,在非独立同分布场景下的表现优于传统的联邦学习算法。然而,该文章中方案还存在着不足之处:第一,该方案中客户端仅用于二分类,在拥有较多客户端的联邦学习系统中表现不佳,也无法实现模型的个性化;第二,梯度在联邦学习训练过程会出现波动,不能直观、稳定地反应图的结构信息,在图结构更复杂的数据集上帮助有限。
对比而言,本发明实施例中对于客户端的分类任务不作限制,可以是二分类,也可以是多分类,且对客户端数量不作限制。其次,本发明在基于梯度逼近实现联邦学习训练过程中,使用了图子树序列的差异性,从而使梯度逼近能够更直观、稳定地反应图的结构信息,减小梯度波动。
相关技术中,Tan等人在其发表的论文“Federated learning on non-iidgraphsvia structural knowledge sharing”(Proceedings of the AAAI conferenceonartificial intelligence,2023)中提出了一种基于模型的方法,设计了一个结构-特征解耦的网络模型,将图的结构信息从特征信息中显式地提取出来,客户端在本地学习图的特征信息,同时仅把图的结构信息共享到服务器进行聚合。该框架能使来自不同领域的客户端在学习个性化模型的同时,全局地学习领域无关的结构知识。然而这一方法只进行结构信息的聚合,忽视了特征信息对模型的影响,且让服务器在聚合模型之外,还承担了过多的特征训练的工作。
对比而言,本发明充分利用了图数据在结构信息和特征信息两方面的特征,且本发明将大部分计算工作分担到各个客户端上,而不是依赖于服务器,减轻了服务器的计算开销。
综上可见,现有的图联邦学习技术在面对非独立同分布数据时存在图结构信息利用不足、无法实现模型个性化、缺少客户端之间的合作,而本发明实施例提供的基于图子树差异实现图联邦迁移学习的多任务处理系统,通过让客户端动态地从结构相近的图数据中学习知识,充分利用图数据的结构信息,在保护数据隐私的基础上解决非独立同分布数据引起的网络模型精度下降问题,实现客户端之间的合作,有效提升网络模型在异质性较强的场景下的性能。
需要说明的是,术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与本公开的一些方面相一致的装置和方法的例子。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。此外,本领域的技术人员可以将本说明书中描述的不同实施例或示例进行接合和组合。
尽管在此结合各实施例对本申请进行了描述,然而,在实施所要求保护的本申请过程中,本领域技术人员通过查看所述附图以及公开内容,可理解并实现所述公开实施例的其他变化。在本发明的描述中,“包括”一词不排除其他组成部分或步骤,“一”或“一个”不排除多个的情况,“多个”的含义是两个或两个以上,除非另有明确具体的限定。此外,相互不同的实施例中记载了某些措施,但这并不表示这些措施不能组合起来产生良好的效果。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (6)
1.一种基于图子树差异实现图联邦迁移学习的多任务处理系统,其特征在于,包括:多个客户端和服务器;每个客户端上均部署有在该客户端上训练好的网络模型;所述多个客户端上的网络模型是基于图联邦迁移学习方法训练得到的;
其中,基于图联邦迁移学习方法训练各个所述网络模型的过程,包括:
参数下载步骤、客户端从所述服务器下载网络模型的参数,并将该参数加载至其本地的网络模型;所述网络模型包括第一GCN和第二GCN;
联合训练步骤、客户端在执行完所述参数下载步骤之后,利用其第一GCN预测其图数据的分类,利用其第二GCN对其图数据提取图子树序列;从所述服务器获取其他客户端上的图子树序列,计算其他客户端上的图子树序列和其图子树序列之间的差异,根据其中最小的差异和其第一GCN的分类损失计算总损失;根据所述总损失调整其网络模型的参数,并将当前训练得到的参数和其图子树序列上传至所述服务器;
参数聚合步骤、服务器对各个客户端上传的参数进行聚合,用聚合后的参数更新服务器上存储的旧参数,继续进行下一轮训练。
2.根据权利要求1所述的多任务处理系统,其特征在于,所述基于图联邦迁移学习方法训练各个所述网络模型的过程,还包括:
本地训练步骤、客户端利用其第一GCN预测其图数据的分类;根据其第一GCN的分类损失调整其第一GCN的参数,继续进行下一轮训练;
其中,客户端在每次执行完所述参数下载步骤之后,若训练轮数达到预定轮数,则执行所述联合训练步骤,并清零训练轮数,否则执行所述本地训练步骤。
3.根据权利要求2所述的多任务处理系统,其特征在于,执行所述联合训练步骤的客户端是所述服务器随机指定的部分客户端。
4.根据权利要求2所述的多任务处理系统,其特征在于,所述总损失表示为:
其中,wi,h表示第i个客户端的第一GCN的参数,wi,f表示第i个客户端的第二GCN的参数,wj,f表示第j个客户端的第二GCN的参数,h(·)代表第一GCN,f(·)代表第二GCN;yi表示图数据的分类标签,Gi表示第i个客户端的图数据,Gj表示第j个客户端的图数据,dGSD(f(Gi;wi,f),f(Gj;wi,f))表示第i个客户端的图子树序列和第j个客户端的图子树序列之间的差异,dGSD(Gi,Gj)示第i个客户端的图数据和第j个客户端的图数据之间的差异,K表示参与执行所述联合训练步骤的客户端集合,是计算所述分类损失的损失函数,λ是对客户端数量和客户端的数据量均不敏感的超参数,∩表示求交集。
5.根据权利要求4所述的多任务处理系统,其特征在于,客户端基于所述总损失调整其网络模型的参数的方式如下:
其中,表示第i个客户端在第t轮训练后的网络模型的参数,/>表示第i个客户端在第t-1轮训练后的网络模型的参数,η表示学习率,/>表示求梯度,/>表示第i个客户端在第t-1轮训练中的分类损失,/>表示第i个客户端在第t-1轮训练中,其图子树序列和第j个客户端的图子树序列之间的差异。
6.根据权利要求5所述的多任务处理系统,其特征在于,服务器对各个客户端上传的参数进行聚合的方式如下:
其中,|Di|是第i个客户端的数据量,|D|是所述客户端集合中所有客户端的总数据量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410162920.7A CN118036706A (zh) | 2024-02-05 | 2024-02-05 | 基于图子树差异实现图联邦迁移学习的多任务处理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410162920.7A CN118036706A (zh) | 2024-02-05 | 2024-02-05 | 基于图子树差异实现图联邦迁移学习的多任务处理系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118036706A true CN118036706A (zh) | 2024-05-14 |
Family
ID=91000272
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410162920.7A Pending CN118036706A (zh) | 2024-02-05 | 2024-02-05 | 基于图子树差异实现图联邦迁移学习的多任务处理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118036706A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118230136A (zh) * | 2024-05-24 | 2024-06-21 | 浙江大学 | 一种支持图像动态任务的个性化联邦学习训练方法和系统 |
-
2024
- 2024-02-05 CN CN202410162920.7A patent/CN118036706A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118230136A (zh) * | 2024-05-24 | 2024-06-21 | 浙江大学 | 一种支持图像动态任务的个性化联邦学习训练方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2023000574A1 (zh) | 一种模型训练方法、装置、设备及可读存储介质 | |
US20200073968A1 (en) | Sketch-based image retrieval techniques using generative domain migration hashing | |
CN110334264B (zh) | 一种针对异构动态信息网络的社区检测方法及装置 | |
CN109033107A (zh) | 图像检索方法和装置、计算机设备和存储介质 | |
CN118036706A (zh) | 基于图子树差异实现图联邦迁移学习的多任务处理系统 | |
CN113095575B (zh) | 一种基于迁移学习的车流量预测方法和系统 | |
CN105718999B (zh) | 一种启发式代谢共表达网络的构建方法及系统 | |
Litany et al. | Federated learning with heterogeneous architectures using graph hypernetworks | |
WO2023178793A1 (zh) | 双视角图神经网络模型的训练方法、装置、设备及介质 | |
WO2023207013A1 (zh) | 一种基于图嵌入的关系图谱关键人员分析方法及系统 | |
CN112131403B (zh) | 一种动态环境下的知识图谱表示学习方法 | |
Wu et al. | Uncertainty-aware label rectification for domain adaptive mitochondria segmentation | |
Ni et al. | Learning epidemic threshold in complex networks by convolutional neural network | |
CN114463540A (zh) | 使用神经网络对图像进行分割 | |
CN114997374A (zh) | 一种针对数据倾斜的快速高效联邦学习方法 | |
CN110830291A (zh) | 一种基于元路径的异质信息网络的节点分类方法 | |
Du et al. | A dynamic adaptive iterative clustered federated learning scheme | |
CN111506832B (zh) | 一种基于块矩阵补全的异构对象补全方法 | |
Ben Amma et al. | The existence and uniqueness of intuitionistic fuzzy solutions for intuitionistic fuzzy partial functional differential equations | |
Kang et al. | FedNN: Federated learning on concept drift data using weight and adaptive group normalizations | |
Yang et al. | Efficient knowledge management for heterogeneous federated continual learning on resource-constrained edge devices | |
US20240111807A1 (en) | Embedding and Analyzing Multivariate Information in Graph Structures | |
CN111091198B (zh) | 一种数据处理方法及装置 | |
US11210792B2 (en) | Avoiding catastrophic interference while training an artificial neural network on an additional task | |
CN116310545A (zh) | 一种基于深度层次化最优传输的跨域舌头图像分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |