CN114866599B - 基于最优联邦方选择的联邦学习方法、设备及系统 - Google Patents

基于最优联邦方选择的联邦学习方法、设备及系统 Download PDF

Info

Publication number
CN114866599B
CN114866599B CN202210465770.8A CN202210465770A CN114866599B CN 114866599 B CN114866599 B CN 114866599B CN 202210465770 A CN202210465770 A CN 202210465770A CN 114866599 B CN114866599 B CN 114866599B
Authority
CN
China
Prior art keywords
federation
party
federal
data set
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210465770.8A
Other languages
English (en)
Other versions
CN114866599A (zh
Inventor
马兴敏
蒋鑫龙
陈益强
杨晓东
赵绪浩
李宜兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan Zhongke Ubiquitous Intelligent Computing Research Institute
Original Assignee
Jinan Zhongke Ubiquitous Intelligent Computing Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan Zhongke Ubiquitous Intelligent Computing Research Institute filed Critical Jinan Zhongke Ubiquitous Intelligent Computing Research Institute
Priority to CN202210465770.8A priority Critical patent/CN114866599B/zh
Publication of CN114866599A publication Critical patent/CN114866599A/zh
Application granted granted Critical
Publication of CN114866599B publication Critical patent/CN114866599B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/2866Architectures; Arrangements
    • H04L67/30Profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/02Topology update or discovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/34Network arrangements or protocols for supporting network services or applications involving the movement of software or configuration parameters 
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开了基于最优联邦方选择的联邦学习方法及系统,所述方法包括:获取所有联邦方计算设备的数据集元信息,存放至联邦方状态数据库中;接收数据使用方提交的数据集选择指令;其中,被选择的数据集用于执行本次联邦训练任务;根据数据使用方所选择的数据集以及联邦方状态数据库中的信息,采用最优联邦方计算设备选择算法,选择若干个联邦方计算设备进行本次联邦学习任务;判断被选择的各个联邦方计算设备的工作状态,若工作状态正常,就生成配置文件,并将配置文件发送给联邦方计算设备,联邦方计算设备根据配置文件进行联邦训练,输出联邦训练后的模型,将联邦训练后的模型反馈给数据使用方;若工作状态不正常,就返回上一步。

Description

基于最优联邦方选择的联邦学习方法、设备及系统
技术领域
本发明涉及机器学习技术领域,特别是涉及基于最优联邦方选择的联邦学习方法、设备及系统。
背景技术
本部分的陈述仅仅是提到了与本发明相关的背景技术,并不必然构成现有技术。
联邦学习作为机器学习新兴研究方向,融合了分布式系统、密码学等多学科知识,能帮助多个机构在满足用户隐私保护、数据使用合规合法的要求下,进行机器学习建模,实现多个参与者模型的协同训练与优化更新。联邦学习保证各个参与方的私有数据不出本地,参与者仅需在本地执行联邦学习模型的训练任务,通过加密机制下的参数交换方式,在不违反数据隐私保护法律法规的情况下,建立公共模型,并保证此模型的效果优于各个参与方独自训练的模型。因建立模型时数据本身不移动,并不会泄露用户隐私或影响数据安全,且建好的模型在各自的区域仅为本地的目标服务。
联邦学习虽然可以有效缓解数据安全问题、合理利用分散在各个企业内部数据及硬件资源,但是自身也面临数据异构、联邦学习不易使用的问题。首先是数据异构问题。联邦学习中不同联邦方通常拥有不同规模、不同分布的数据集,因此不能对联邦环境下的分布式数据集进行IID假设等,在联邦学习过程中非IID、非平衡的数据集会产生非常不同的模型参数。其次是联邦学习不易使用的问题。在进行联邦学习训练任务前需要指定参与本次联邦训练的联邦方,目前主要有两种方式,一种是随机选择合适的联邦方进行联邦训练,如谷歌GBoard的联邦学习;另一种是手动指定联邦方进行联邦训练,如FATE框架提供的联邦学习。无论哪种方式都对联邦学习的效果或易用性产生影响,尤其是在有多个联邦方(大于20个)可用的情况下。
发明内容
为了解决现有技术的不足,本发明提供了基于最优联邦方选择的联邦学习方法、设备及系统;
第一方面,本发明提供了基于最优联邦方选择的联邦学习方法;
基于最优联邦方选择的联邦学习方法,应用于云端计算设备,包括:
获取所有联邦方计算设备的数据集元信息,存放至联邦方状态数据库中;
接收数据使用方提交的数据集选择指令;其中,被选择的数据集用于执行本次联邦训练任务;
根据数据使用方所选择的数据集以及联邦方状态数据库中的信息,采用最优联邦方计算设备选择算法,选择若干个联邦方计算设备进行本次联邦学习任务;
判断被选择的各个联邦方计算设备的工作状态,若工作状态正常,就生成配置文件,并将配置文件发送给联邦方计算设备,联邦方计算设备根据配置文件进行联邦训练,输出联邦训练后的模型,将联邦训练后的模型反馈给数据使用方;若工作状态不正常,就返回上一步。
第二方面,本发明提供了云端计算设备;
云端计算设备,包括:
获取模块,其被配置为:获取所有联邦方计算设备的数据集元信息,存放至联邦方状态数据库中;
接收模块,其被配置为:接收数据使用方提交的数据集选择指令;其中,被选择的数据集用于执行本次联邦训练任务;
选择模块,其被配置为:根据数据使用方所选择的数据集以及联邦方状态数据库中的信息,采用最优联邦方计算设备选择算法,选择若干个联邦方计算设备;
判断模块,其被配置为:判断被选择的各个联邦方计算设备的工作状态,若工作状态正常,就生成配置文件,并将配置文件发送给联邦方计算设备,联邦方计算设备根据配置文件进行联邦训练,输出联邦训练后的模型,将联邦训练后的模型反馈给数据使用方;若工作状态不正常,就返回选择模块。
第三方面,本发明提供了基于最优联邦方选择的联邦学习系统;
基于最优联邦方选择的联邦学习系统,包括:云端计算设备和若干个联邦方计算设备;
云端计算设备,获取所有联邦方计算设备的数据集元信息,存放至联邦方状态数据库中;所述数据集元信息包括若干种数据集;
云端计算设备,接收数据使用方提交的数据集选择指令;其中,被选择的数据集用于执行本次联邦训练任务;
云端计算设备,根据数据使用方所选择的数据集以及联邦方状态数据库中的信息,采用最优联邦方计算设备选择算法,选择若干个联邦方计算设备;
云端计算设备,判断被选择的各个联邦方计算设备的工作状态,若工作状态正常,就生成配置文件,并将配置文件发送给联邦方计算设备,联邦方计算设备根据配置文件进行联邦训练,输出联邦训练后的模型,将联邦训练后的模型反馈给数据使用方;若工作状态不正常,就重新采用采用最优联邦方计算设备选择算法进行选择。
与现有技术相比,本发明的有益效果是:
本发明拟通过对联邦方进行自动筛选解决上述问题,通过数据集及硬件资源质量、邻居间网络质量等信息选择最优联邦方进行联邦任务。选择后的联邦方间具有数据集质量高、分布较为接近、网络质量较好等特点,能有效缓解数据异构问题;同时无需用户手动选择执行联邦任务的联邦方,极大减少了用户心智负担;可以此为基础进行自动化、定时执行的联邦训练任务,提高联邦学习效率。
本发明借鉴计算机网络协议,尤其是OSPF(Open Shortest Path First开放式最短路径优先)协议路由选择的设计思想,进行联邦方筛选及最优选择。OSPF协议,其核心是一个使用洪泛链路状态信息的链路状态协议和一个Dijkstra最低费用路径算法。OSPF协议通过将网络中泛洪的LSA(链路状态通告)搜集到自己的LSDB(链路状态数据库)中,以了解整张网络拓扑,并以此为基础使用SPF最短路径算法计算以自己为根的、到达网络各个角落的无环的树,并装载到路由表中。OSPF协议作为TCP/IP协议栈核心IP层的主流内部路由选择协议,支撑了数以万计的网络设备的互联互通。
本发明结合OSPF协议及联邦学习自身特性,提出将联邦方看做路由器,联邦方所拥有的数据集看做路由器接口,通过引入联邦方状态数据库并以此为基础设计一种最优联邦方选择算法进行联邦方选择。使其不仅能够通过最优联邦方的选择缓解数据异构、联邦学习使用困难等问题,还具有极强的灵活性、扩展性。
本发明联邦学习系统根据各联邦方数据集、网络及硬件等资源信息自动选取合适的联邦方执行联邦任务,降低了用户使用联邦学习系统的门槛,提高易用性;本发明联邦学习系统选取的联邦方具有数据质量高、数据分布接近等特点,通过联邦训练获得的模型指标更优;本发明联邦学习系统提供了一种可进行最优联邦方选择的思路及框架,开发者可进行灵活定制开发,如根据实际需求替换最优联邦方选择算法。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为根据本发明一个实施例的联邦学习系统联邦方计算设备的主要硬件模块示意图;
图2为根据本发明一个实施例的联邦学习系统的软件模块示意图;
图3为根据本发明一个实施例的联邦训练任务流程示意图;
图4为根据本发明一个实施例的联邦方元信息表;
图5为根据本发明一个实施例的邻居表;
图6为根据本发明一个实施例的最优联邦方表。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
本实施例所有数据的获取都在符合法律法规和用户同意的基础上,对数据的合法应用。
实施例一
本实施例提供了基于最优联邦方选择的联邦学习方法;
如图3所示,基于最优联邦方选择的联邦学习方法,应用于云端计算设备,包括:
S101:获取所有联邦方计算设备的数据集元信息,存放至联邦方状态数据库中;
S102:接收数据使用方提交的数据集选择指令;其中,被选择的数据集用于执行本次联邦训练任务;
S103:根据数据使用方所选择的数据集以及联邦方状态数据库中的信息,采用最优联邦方计算设备选择算法,选择若干个联邦方计算设备进行本次联邦学习任务;
S104:判断被选择的各个联邦方计算设备的工作状态,若工作状态正常,就生成配置文件,并将配置文件发送给联邦方计算设备,联邦方计算设备根据配置文件进行联邦训练,输出联邦训练后的模型,将联邦训练后的模型反馈给数据使用方;若工作状态不正常,就返回上一步S103。
进一步地,所述S101:获取所有联邦方计算设备的数据集元信息,存放至联邦方状态数据库中;所述数据集元信息包括数据集名称、数据集属性名以及数据集中数据条数。
进一步地,所述数据集元信息,用于规定联邦方数据集应具备的元信息内容及格式,数据集元信息,包括强制类元信息、可选类元信息和自生成类元信息,各类元信息经过处理后存放至联邦方状态数据库中。
其中,强制类元信息和自生成类元信息,规定了实现最优联邦方选择方法所必备的元信息,可选类元信息通过加权方式影响最优联邦方计算设备的选择。
进一步地,所述强制类元信息,包括:目标特征列名、问题分类(以数据字典形式呈现,会根据实际业务领域变化,比如医疗领域疾病诊断可使用GB/T14396-2016标准)、数据集地址URL(各联邦方可通过此URL获取到本地存储的数据集)。
进一步地,所述自生成类元信息,包括:数据集质量评分、网络质量评分和硬件资源评分。
进一步地,所述可选类元信息,包括:数据集名称和数据集大小。系统定义可选包括数据集名称、数据集大小等。此类元信息可通过加权方式加到数据集质量评分上,进而影响最优联邦方的选择。
进一步地,所述联邦方状态数据库(FMSDB,Federal Member State Database),存储各个联邦方计算设备的状态,用于为选择最优联邦方计算设备提供计算数据。
进一步地,所述联邦方状态数据库,存储各个联邦方计算设备所拥有的数据集元信息及评分信息,供最优联邦方计算设备选择算法使用;联邦方状态数据库,包括:联邦方元信息表、邻居表、最优联邦方表。其既可以统一存储在中心化云端设备,也可以分布式形式存放在各个边缘端设备。
进一步地,如图4所示,所述联邦方元信息表,用于存储所有联邦方拥有数据集的元信息,联邦方元信息的字段,包括:联邦方标识、数据集标识、数据集所属问题分类、数据集质量评分。
其中,联邦方标识,用于标识各个联邦方计算设备;
其中,数据集标识,用于标识联邦方内的各个数据集;
其中,数据集质量评分,使用公式(1)进行评分,根据实际需求进行替换,问题类别字段用于表示数据集所属问题类别,此处使用医疗领域的GB/T 14396-2016标准分类。
Qds=wi*(1-Merror/Mtotal)+wj*(1-Nerror/Ntotal); (1)
其中,Merror、Nerror分别代表本联邦方及邻居联邦方的数据集中含有异常值和空值的行数,Mtotal、Ntotal分别代表本联邦方及邻居联邦方的数据集总行数,wi、wj分别代表本联邦方及邻居联邦方数据集质量所占权重,Qds代表联邦方元信息表中的数据集质量评分。
进一步地,如图5所示,所述邻居表,以联邦方为单位进行存储,即不同联邦方具有不同的邻居。邻居表中维护其所属联邦方的邻居关系。
邻居表的字段,包括:联邦方标识、数据集标识、邻居联邦方标识、邻居数据集标识、所属问题分类、是否可用邻居、连通性、网络质量评分。
其中,所属问题分类,是确定如何建立相邻关系的主要因素,两个联邦方间网络联通或具有同属某一类问题的数据集不足以保证双方称为邻居关系,需要对数据集进行字段名称、字段类型匹配,匹配成功则表示双方为可用邻居。
联邦方标识,用于标识各个联邦方;
数据集标识,用于标识联邦方内的各个数据集;
邻居联邦方标识,用于表示该联邦方的邻居联邦方;
邻居数据集标识,用于标识该联邦方邻居联邦方内的数据集;
连通性,表示该联邦方数据集是否可与其邻居联邦方数据集匹配以共同进行联邦学习;
网络质量评分,使用公式(2)对联邦方到邻居联邦方的网络进行评分。
Qnet=wb*Bcurr/Bdefault+wl*(1-Rloss); (2)
其中,Bcurr代表该联邦方到其邻居联邦方的带宽,Bdefault代表默认带宽,此处使用1000,代表默认带宽为1000Mb/s;Rloss代表该联邦方到其邻居联邦方的丢包率;wb、wl分别为带宽和丢包率的权重,此处使用0.6、0.4,Qnet代表邻居表中的网络质量评分。
进一步地,如图6所示,所述最优联邦方表,存储通过最优联邦方选择算法计算后的最优联邦方;最优联邦方表的字段,包括:联邦方标识、数据集标识、邻居联邦方标识、邻居数据集标识、距离评分、所属问题分类、最优联邦方标识、邻居间距离。
其中,联邦方标识,用于标识各个联邦方;
数据集标识,用于标识联邦方内的各个数据集;
邻居联邦方标识,用于表示该联邦方的邻居联邦方;
邻居数据集标识,用于标识该联邦方邻居联邦方内的数据集;
距离评分,使用公式(3)对联邦方到邻居联邦方的距离进行评分,此评分值即作为最优联邦方的选择依据。
Qdis=ωm*Qds+ωn*Qnet; (3)
其中,Qds代表联邦方元信息表中的数据集质量评分,Qnet代表邻居表中的网络质量评分,Qdis代表距离评分,wm、wn分别为数据集质量和网络质量权重,此处使用0.6、0.4。
进一步地,所述S102:接收数据使用方提交的数据集选择指令;其中,数据使用方根据模型运算需求,选择对应数据属性和业务领域的数据集。
进一步地,所述S103:根据数据使用方所选择的数据集以及联邦方状态数据库中的信息,采用最优联邦方计算设备选择算法,选择若干个联邦方计算设备进行本次联邦学习任务;具体包括:
S1031:根据数据使用方所在联邦方标识及所选择的数据集,从联邦方状态数据库中选择所有联邦方信息;
S1032:根据联邦方状态数据库中的距离评分信息对S1031选择出来的联邦方进行排序;
S1033:根据用户自定义或默认的联邦方数量K,选择距离评分Top K的联邦方作为最终进行联邦学习的所有联邦方。
进一步地,所述最优联邦方计算设备选择算法,基于联邦方状态数据库中存储的各个联邦方计算设备的状态,计算各个联邦方的最近邻居作为联邦学习训练任务的最优多个联邦方。
所述最优联邦方计算设备选择算法,基于邻居表中数据集及硬件资源质量、邻居间网络质量等信息进行加权求和,获取并存储邻居间距离。
进一步地,多个联邦方计算设备,包括:分散在不同物理位置的数据中心、边缘服务器、移动终端等,其执行指令并在本地存储数据,实现联邦学习的训练及推理过程。
进一步地,所述云端计算设备,用于实现联邦学习的调度以及参数聚合,无法获取联邦方计算设备的真实数据。
进一步地,所述云端计算设备,仅可获取联邦方计算设备数据集元信息,比如数据集名称、大小、目标特征列名等,无法获取联邦方计算设备的真实数据;根据数据集元信息及用户发送的联邦任务配置文件,驱动相关联邦方计算设备共同执行联邦训练任务。
联邦学习框架可使用任意开源或商业化联邦框架,用户通过框架提供的API驱动联邦训练任务的执行,API的参数包括经过选择的最优联邦方、默认或手动选择的联邦模型及超参数等。
本发明硬件环境包括云端计算设备和边缘端计算设备(联邦方计算设备)。云端计算设备可使用阿里云、华为云等云服务器实例或通过自有服务器实现。边缘端计算设备,如图1所示,除CPU、RAM、输入/输出设备、网络设备及存储器外,还可配置GPU集群或FPGA集群,以提高模型训练或推理速度。
本发明的软件模块同时运行在云端和联邦方端,数据集仅存在于联邦方端,如图2所示。其中,联邦学习框架可选择FATE、PySyft等框架,以快速搭建联邦学习底层计算平台。联邦学习训练及推理模块部署至联邦方计算设备,负责模型训练及推理任务;联邦学习参数聚合模块部署到云端计算设备,负责训练过程中参数聚合等。联邦方状态数据库既可通过集中形式存放在云端计算设备上,也可类似路由器中的路由表以分布式形式存放在联邦方计算设备上。
联邦方数据集仅存放在各个联邦方计算设备上,不会在训练或推理过程中在各个联邦方间共享,更不会存放在云端计算设备上。数据集在使用前需根据数据集元信息协议补充强制类元信息,可选类元信息可填可不填,自生成类元信息会根据其他元信息自动生成。强制类元信息包括目标特征列名、问题类别、数据集URL;自生成类元信息包括数据集质量评分、网络质量评分等。相关元信息最终会存放至联邦方状态数据库内,供其他模块使用。
实施例二
本实施例提供了云端计算设备;
如图3所示,云端计算设备,包括:
获取模块,其被配置为:获取所有联邦方计算设备的数据集元信息,存放至联邦方状态数据库中;
接收模块,其被配置为:接收数据使用方提交的数据集选择指令;其中,被选择的数据集用于执行本次联邦训练任务;
选择模块,其被配置为:根据数据使用方所选择的数据集以及联邦方状态数据库中的信息,采用最优联邦方计算设备选择算法,选择若干个联邦方计算设备;
判断模块,其被配置为:判断被选择的各个联邦方计算设备的工作状态,若工作状态正常,就生成配置文件,并将配置文件发送给联邦方计算设备,联邦方计算设备根据配置文件进行联邦训练,输出联邦训练后的模型,将联邦训练后的模型反馈给数据使用方;若工作状态不正常,就返回选择模块。
进一步地,所述联邦方状态数据库,存储各个联邦方计算设备所拥有的数据集元信息及评分信息,供最优联邦方计算设备选择算法使用;联邦方状态数据库,包括:联邦方元信息表、邻居表、最优联邦方表。其既可以统一存储在中心化云端设备,也可以分布式形式存放在各个边缘端设备。
进一步地,如图4所示,所述联邦方元信息表,用于存储所有联邦方拥有数据集的元信息,联邦方元信息的字段,包括:联邦方标识、数据集标识、数据集所属问题分类、数据集质量评分。
其中,联邦方标识,用于标识各个联邦方计算设备;
其中,数据集标识,用于标识联邦方内的各个数据集;
其中,数据集质量评分,使用公式(1)进行评分,根据实际需求进行替换,问题类别字段用于表示数据集所属问题类别,此处使用医疗领域的GB/T14396-2016标准分类。
Qds=wi*(1-Merror/Mtotal)+wj*(1-Nerror/Ntotal); (1)
其中,Merror、Nerror分别代表本联邦方及邻居联邦方的数据集中含有异常值和空值的行数,Mtotal、Ntotal分别代表本联邦方及邻居联邦方的数据集总行数,wi、wj分别代表本联邦方及邻居联邦方数据集质量所占权重,Qds代表联邦方元信息表中的数据集质量评分。
进一步地,如图5所示,所述邻居表,以联邦方为单位进行存储,即不同联邦方具有不同的邻居。邻居表中维护其所属联邦方的邻居关系。
邻居表的字段,包括:联邦方标识、数据集标识、邻居联邦方标识、邻居数据集标识、所属问题分类、是否可用邻居、连通性、网络质量评分。
其中,所属问题分类,是确定如何建立相邻关系的主要因素,两个联邦方间网络联通或具有同属某一类问题的数据集不足以保证双方称为邻居关系,需要对数据集进行字段名称、字段类型匹配,匹配成功则表示双方为可用邻居。
联邦方标识,用于标识各个联邦方;
数据集标识,用于标识联邦方内的各个数据集;
邻居联邦方标识,用于表示该联邦方的邻居联邦方;
邻居数据集标识,用于标识该联邦方邻居联邦方内的数据集;
连通性,表示该联邦方数据集是否可与其邻居联邦方数据集匹配以共同进行联邦学习;
网络质量评分,使用公式(2)对联邦方到邻居联邦方的网络进行评分。
Qnet=wb*Beurr/Bdefault+wl*(1-Rloss); (2)
其中,Bcurr代表该联邦方到其邻居联邦方的带宽,Bdefault代表默认带宽,此处使用1000,代表默认带宽为1000Mb/s;Rloss代表该联邦方到其邻居联邦方的丢包率;wb、wl分别为带宽和丢包率的权重,此处使用0..6、0.4,Qnet代表邻居表中的网络质量评分。
进一步地,如图6所示,所述最优联邦方表,存储通过最优联邦方选择算法计算后的最优联邦方;最优联邦方表的字段,包括:联邦方标识、数据集标识、邻居联邦方标识、邻居数据集标识、距离评分、所属问题分类、最优联邦方标识、邻居间距离。
其中,联邦方标识,用于标识各个联邦方;
数据集标识,用于标识联邦方内的各个数据集;
邻居联邦方标识,用于表示该联邦方的邻居联邦方;
邻居数据集标识,用于标识该联邦方邻居联邦方内的数据集;
距离评分,使用公式(3)对联邦方到邻居联邦方的距离进行评分,此评分值即作为最优联邦方的选择依据。
Qdis=ωm*Qds+ωn*Qnet; (3)
其中,Qds代表联邦方元信息表中的数据集质量评分,Qnet代表邻居表中的网络质量评分,Qdis代表距离评分,wm、wn分别为数据集质量和网络质量权重,此处使用0.6、0.4。
进一步地,根据数据使用方所选择的数据集以及联邦方状态数据库中的信息,采用最优联邦方计算设备选择算法,选择若干个联邦方计算设备进行本次联邦学习任务;具体包括:
根据数据使用方所在联邦方标识及所选择的数据集,从联邦方状态数据库中选择所有联邦方信息;
根据联邦方状态数据库中的距离评分信息对选择出来的联邦方进行排序;
根据用户自定义或默认的联邦方数量K,选择距离评分Top K的联邦方作为最终进行联邦学习的所有联邦方。
实施例三
本实施例提供了基于最优联邦方选择的联邦学习系统;
基于最优联邦方选择的联邦学习系统,包括:云端计算设备和若干个联邦方计算设备;
云端计算设备,获取所有联邦方计算设备的数据集元信息,存放至联邦方状态数据库中;所述数据集元信息包括若干种数据集;
云端计算设备,接收数据使用方提交的数据集选择指令;其中,被选择的数据集用于执行本次联邦训练任务;
云端计算设备,根据数据使用方所选择的数据集以及联邦方状态数据库中的信息,采用最优联邦方计算设备选择算法,选择若干个联邦方计算设备;
云端计算设备,判断被选择的各个联邦方计算设备的工作状态,若工作状态正常,就生成配置文件,并将配置文件发送给联邦方计算设备,联邦方计算设备根据配置文件进行联邦训练,输出联邦训练后的模型,将联邦训练后的模型反馈给数据使用方;若工作状态不正常,就重新采用采用最优联邦方计算设备选择算法进行选择。
进一步地,所述联邦方计算设备,包括:
数据集,用于联邦学习训练或推理任务的输入,以分布式形式存放在各个联邦方存储设备内。
联邦方选择模块,用于选取联邦学习任务的最优联邦方,可通过数据集及硬件资源质量、邻居间网络质量等信息进行选择。
联邦学习训练及推理模块,用于联邦学习训练或推理任务的实际执行,以分布式进程形式驻留在各个联邦方计算设备内。
进一步地,所述联邦方状态数据库,存储各个联邦方计算设备所拥有的数据集元信息及评分信息,供最优联邦方计算设备选择算法使用;联邦方状态数据库,包括:联邦方元信息表、邻居表、最优联邦方表。其既可以统一存储在中心化云端设备,也可以分布式形式存放在各个边缘端设备。
进一步地,如图4所示,所述联邦方元信息表,用于存储所有联邦方拥有数据集的元信息,联邦方元信息的字段,包括:联邦方标识、数据集标识、数据集所属问题分类、数据集质量评分。
其中,联邦方标识,用于标识各个联邦方计算设备;
其中,数据集标识,用于标识联邦方内的各个数据集;
其中,数据集质量评分,使用公式(1)进行评分,根据实际需求进行替换,问题类别字段用于表示数据集所属问题类别,此处使用医疗领域的GB/T14396-2016标准分类。
Qds=wi*(1-Merror/Mtotal)+wj*(1-Nerror/Ntotal); (1)
其中,Merror、Nerror分别代表本联邦方及邻居联邦方的数据集中含有异常值和空值的行数,Mtotal、Ntotal分别代表本联邦方及邻居联邦方的数据集总行数,wi、wj分别代表本联邦方及邻居联邦方数据集质量所占权重,Qds代表联邦方元信息表中的数据集质量评分。
进一步地,如图5所示,所述邻居表,以联邦方为单位进行存储,即不同联邦方具有不同的邻居。邻居表中维护其所属联邦方的邻居关系。
邻居表的字段,包括:联邦方标识、数据集标识、邻居联邦方标识、邻居数据集标识、所属问题分类、是否可用邻居、连通性、网络质量评分。
其中,所属问题分类,是确定如何建立相邻关系的主要因素,两个联邦方间网络联通或具有同属某一类问题的数据集不足以保证双方称为邻居关系,需要对数据集进行字段名称、字段类型匹配,匹配成功则表示双方为可用邻居。
联邦方标识,用于标识各个联邦方;
数据集标识,用于标识联邦方内的各个数据集;
邻居联邦方标识,用于表示该联邦方的邻居联邦方;
邻居数据集标识,用于标识该联邦方邻居联邦方内的数据集;
连通性,表示该联邦方数据集是否可与其邻居联邦方数据集匹配以共同进行联邦学习;
网络质量评分,使用公式(2)对联邦方到邻居联邦方的网络进行评分。
Qnetwb*Bcurr/Bdefault+wl*(1-Rloss); (2)
其中,Bcurr代表该联邦方到其邻居联邦方的带宽,Bdefault代表默认带宽,此处使用1000,代表默认带宽为1000Mb/s;Rloss代表该联邦方到其邻居联邦方的丢包率;wb、wl分别为带宽和丢包率的权重,此处使用0..6、0.4,Qnet代表邻居表中的网络质量评分。
进一步地,如图6所示,所述最优联邦方表,存储通过最优联邦方选择算法计算后的最优联邦方;最优联邦方表的字段,包括:联邦方标识、数据集标识、邻居联邦方标识、邻居数据集标识、距离评分、所属问题分类、最优联邦方标识、邻居间距离。
其中,联邦方标识,用于标识各个联邦方;
数据集标识,用于标识联邦方内的各个数据集;
邻居联邦方标识,用于表示该联邦方的邻居联邦方;
邻居数据集标识,用于标识该联邦方邻居联邦方内的数据集;
距离评分,使用公式(3)对联邦方到邻居联邦方的距离进行评分,此评分值即作为最优联邦方的选择依据。
Qdis=ωm*Qds+ωn*Qnet; (3)
其中,Qds代表联邦方元信息表中的数据集质量评分,Qnet代表邻居表中的网络质量评分,Qdis代表距离评分,wm、wn分别为数据集质量和网络质量权重,此处使用0.6、0.4。
进一步地,根据数据使用方所选择的数据集以及联邦方状态数据库中的信息,采用最优联邦方计算设备选择算法,选择若干个联邦方计算设备进行本次联邦学习任务;具体包括:
根据数据使用方所在联邦方标识及所选择的数据集,从联邦方状态数据库中选择所有联邦方信息;
根据联邦方状态数据库中的距离评分信息对选择出来的联邦方进行排序;
根据用户自定义或默认的联邦方数量K,选择距离评分Top K的联邦方作为最终进行联邦学习的所有联邦方。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.基于最优联邦方选择的联邦学习方法,其特征是,应用于云端计算设备,包括:
获取所有联邦方计算设备的数据集元信息,存放至联邦方状态数据库中;
接收数据使用方提交的数据集选择指令;其中,被选择的数据集用于执行本次联邦训练任务;
根据数据使用方所选择的数据集以及联邦方状态数据库中的信息,采用最优联邦方计算设备选择算法,选择若干个联邦方计算设备进行本次联邦学习任务;
具体包括:
根据数据使用方所在联邦方标识及所选择的数据集,从联邦方状态数据库中选择所有联邦方信息;
根据联邦方状态数据库中的距离评分信息对选择出来的联邦方进行排序;
根据用户自定义或默认的联邦方数量K,选择距离评分Top K的联邦方作为最终进行联邦学习的所有联邦方;
判断被选择的各个联邦方计算设备的工作状态,若工作状态正常,就生成配置文件,并将配置文件发送给联邦方计算设备,联邦方计算设备根据配置文件进行联邦训练,输出联邦训练后的模型,将联邦训练后的模型反馈给数据使用方;若工作状态不正常,就返回上一步。
2.如权利要求1所述的基于最优联邦方选择的联邦学习方法,其特征是,获取所有联邦方计算设备的数据集元信息,存放至联邦方状态数据库中;所述数据集元信息包括数据集名称、数据集属性名以及数据集中数据条数。
3.如权利要求1所述的基于最优联邦方选择的联邦学习方法,其特征是,所述数据集元信息,用于规定联邦方数据集应具备的元信息内容及格式,数据集元信息,包括强制类元信息、可选类元信息和自生成类元信息,各类元信息经过处理后存放至联邦方状态数据库中。
4.如权利要求1所述的基于最优联邦方选择的联邦学习方法,其特征是,所述联邦方状态数据库,存储各个联邦方计算设备所拥有的数据集元信息及评分信息,供最优联邦方计算设备选择算法使用;联邦方状态数据库,包括:联邦方元信息表、邻居表、最优联邦方表。
5.如权利要求4所述的基于最优联邦方选择的联邦学习方法,其特征是,所述联邦方元信息表,用于存储所有联邦方拥有数据集的元信息,联邦方元信息的字段,包括:联邦方标识、数据集标识、数据集所属问题分类、数据集质量评分;
其中,联邦方标识,用于标识各个联邦方计算设备;
其中,数据集标识,用于标识联邦方内的各个数据集;
其中,数据集质量评分,使用公式(1)进行评分,根据实际需求进行替换,问题类别字段用于表示数据集所属问题类别,此处使用医疗领域的GB/T14396-2016标准分类;
Qds=wi*(1-Merror/Mtotal)+wj*(1-Nerror/Ntotal); (1)
其中,Merror、Nerror分别代表本联邦方及邻居联邦方的数据集中含有异常值和空值的行数,Mtotal、Ntotal分别代表本联邦方及邻居联邦方的数据集总行数,wi、wj分别代表本联邦方及邻居联邦方数据集质量所占权重,Qds代表联邦方元信息表中的数据集质量评分。
6.如权利要求4所述的基于最优联邦方选择的联邦学习方法,其特征是,所述邻居表,以联邦方为单位进行存储,即不同联邦方具有不同的邻居;邻居表中维护其所属联邦方的邻居关系;
邻居表的字段,包括:联邦方标识、数据集标识、邻居联邦方标识、邻居数据集标识、所属问题分类、是否可用邻居、连通性、网络质量评分;
其中,所属问题分类,是确定如何建立相邻关系的主要因素,两个联邦方间网络联通或具有同属某一类问题的数据集不足以保证双方称为邻居关系,需要对数据集进行字段名称、字段类型匹配,匹配成功则表示双方为可用邻居;
联邦方标识,用于标识各个联邦方;
数据集标识,用于标识联邦方内的各个数据集;
邻居联邦方标识,用于表示该联邦方的邻居联邦方;
邻居数据集标识,用于标识该联邦方邻居联邦方内的数据集;
连通性,表示该联邦方数据集是否可与其邻居联邦方数据集匹配以共同进行联邦学习;
网络质量评分,使用公式(2)对联邦方到邻居联邦方的网络进行评分;
Qnet=wb*Bcurr/Bdefault+wl*(1-Rloss); (2)
其中,Bcurr代表该联邦方到其邻居联邦方的带宽,Bdefault代表默认带宽,此处使用1000,代表默认带宽为1000Mb/s;Rloss代表该联邦方到其邻居联邦方的丢包率;wb、wl分别为带宽和丢包率的权重,此处使用0.6、0.4,Qnet代表邻居表中的网络质量评分。
7.如权利要求4所述的基于最优联邦方选择的联邦学习方法,其特征是,所述最优联邦方表,存储通过最优联邦方选择算法计算后的最优联邦方;最优联邦方表的字段,包括:联邦方标识、数据集标识、邻居联邦方标识、邻居数据集标识、距离评分、所属问题分类、最优联邦方标识、邻居间距离;
其中,联邦方标识,用于标识各个联邦方;
数据集标识,用于标识联邦方内的各个数据集;
邻居联邦方标识,用于表示该联邦方的邻居联邦方;
邻居数据集标识,用于标识该联邦方邻居联邦方内的数据集;
距离评分,使用公式(3)对联邦方到邻居联邦方的距离进行评分,此评分值即作为最优联邦方的选择依据;
Qdis=ωm*Qdsn*Qnet; (3)
其中,Qds代表联邦方元信息表中的数据集质量评分,Qnet代表邻居表中的网络质量评分,Qdis代表距离评分,wm、wn分别为数据集质量和网络质量权重,此处使用0.6、0.4。
8.基于权利要求1所述的最优联邦方选择的联邦学习方法的云端计算设备,其特征是,包括:
获取模块,其被配置为:获取所有联邦方计算设备的数据集元信息,存放至联邦方状态数据库中;
接收模块,其被配置为:接收数据使用方提交的数据集选择指令;其中,被选择的数据集用于执行本次联邦训练任务;
选择模块,其被配置为:根据数据使用方所选择的数据集以及联邦方状态数据库中的信息,采用最优联邦方计算设备选择算法,选择若干个联邦方计算设备;
判断模块,其被配置为:判断被选择的各个联邦方计算设备的工作状态,若工作状态正常,就生成配置文件,并将配置文件发送给联邦方计算设备,联邦方计算设备根据配置文件进行联邦训练,输出联邦训练后的模型,将联邦训练后的模型反馈给数据使用方;若工作状态不正常,就返回选择模块。
9.基于权利要求1所述的最优联邦方选择的联邦学习方法的学习系统,其特征是,包括:云端计算设备和若干个联邦方计算设备;
云端计算设备,获取所有联邦方计算设备的数据集元信息,存放至联邦方状态数据库中;所述数据集元信息包括若干种数据集;
云端计算设备,接收数据使用方提交的数据集选择指令;其中,被选择的数据集用于执行本次联邦训练任务;
云端计算设备,根据数据使用方所选择的数据集以及联邦方状态数据库中的信息,采用最优联邦方计算设备选择算法,选择若干个联邦方计算设备;
云端计算设备,判断被选择的各个联邦方计算设备的工作状态,若工作状态正常,就生成配置文件,并将配置文件发送给联邦方计算设备,联邦方计算设备根据配置文件进行联邦训练,输出联邦训练后的模型,将联邦训练后的模型反馈给数据使用方;若工作状态不正常,就重新采用采用最优联邦方计算设备选择算法进行选择。
CN202210465770.8A 2022-04-29 2022-04-29 基于最优联邦方选择的联邦学习方法、设备及系统 Active CN114866599B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210465770.8A CN114866599B (zh) 2022-04-29 2022-04-29 基于最优联邦方选择的联邦学习方法、设备及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210465770.8A CN114866599B (zh) 2022-04-29 2022-04-29 基于最优联邦方选择的联邦学习方法、设备及系统

Publications (2)

Publication Number Publication Date
CN114866599A CN114866599A (zh) 2022-08-05
CN114866599B true CN114866599B (zh) 2024-03-29

Family

ID=82635483

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210465770.8A Active CN114866599B (zh) 2022-04-29 2022-04-29 基于最优联邦方选择的联邦学习方法、设备及系统

Country Status (1)

Country Link
CN (1) CN114866599B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115329032B (zh) * 2022-10-14 2023-03-24 杭州海康威视数字技术股份有限公司 基于联邦字典学习数据传输方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931242A (zh) * 2020-09-30 2020-11-13 国网浙江省电力有限公司电力科学研究院 一种数据共享方法以及应用其的计算机设备及可读存储介质
CN112598132A (zh) * 2020-12-04 2021-04-02 光大科技有限公司 模型训练方法及装置、存储介质、电子装置
WO2021115480A1 (zh) * 2020-06-30 2021-06-17 平安科技(深圳)有限公司 联邦学习方法、装置、设备和存储介质
CN113204795A (zh) * 2021-07-07 2021-08-03 数据堂(北京)科技股份有限公司 基于联邦数据及联邦服务的数据共享方法及装置
WO2022007321A1 (zh) * 2020-07-10 2022-01-13 深圳前海微众银行股份有限公司 纵向联邦建模优化方法、装置、设备及可读存储介质
CN114301935A (zh) * 2021-12-10 2022-04-08 重庆邮电大学 一种基于声誉的物联网边云协同联邦学习节点选择方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021115480A1 (zh) * 2020-06-30 2021-06-17 平安科技(深圳)有限公司 联邦学习方法、装置、设备和存储介质
WO2022007321A1 (zh) * 2020-07-10 2022-01-13 深圳前海微众银行股份有限公司 纵向联邦建模优化方法、装置、设备及可读存储介质
CN111931242A (zh) * 2020-09-30 2020-11-13 国网浙江省电力有限公司电力科学研究院 一种数据共享方法以及应用其的计算机设备及可读存储介质
CN112598132A (zh) * 2020-12-04 2021-04-02 光大科技有限公司 模型训练方法及装置、存储介质、电子装置
CN113204795A (zh) * 2021-07-07 2021-08-03 数据堂(北京)科技股份有限公司 基于联邦数据及联邦服务的数据共享方法及装置
CN114301935A (zh) * 2021-12-10 2022-04-08 重庆邮电大学 一种基于声誉的物联网边云协同联邦学习节点选择方法

Also Published As

Publication number Publication date
CN114866599A (zh) 2022-08-05

Similar Documents

Publication Publication Date Title
Akbar Neghabi et al. Nature‐inspired meta‐heuristic algorithms for solving the load balancing problem in the software‐defined network
US20240056510A1 (en) Systems and methods for data routing management
CN105122772B (zh) 一种通过头部交换服务器状态和客户端信息的方法及设备
US20170187649A1 (en) Ruled-based network traffic interception and distribution scheme
Sun et al. The cost-efficient deployment of replica servers in virtual content distribution networks for data fusion
CN103412875B (zh) 基于ahp决策模型的cdn策略调整方法
CN106791235B (zh) 一种选择服务座席的方法、装置及系统
CN103338252A (zh) 一种分布式数据库并发存储虚拟请求机制
CN108768692A (zh) 一种网络创建方法、相关设备及系统
Tajiki et al. CECT: computationally efficient congestion-avoidance and traffic engineering in software-defined cloud data centers
CN114866599B (zh) 基于最优联邦方选择的联邦学习方法、设备及系统
CN112019870A (zh) 消息分级处理方法、装置及电子设备
Morillo et al. A latency-aware partitioning method for distributed virtual environment systems
CN110262988A (zh) 用于控制网络路由的方法和系统
CN116997889A (zh) 分布式人工智能结构控制器
US11394637B1 (en) Methods, apparatuses and computer program products for generating transmission path objects based on data object transmissions in a network service cloud
Chao et al. Bacteria-inspired network for 5G mobile communication
Marinakis et al. A hybrid discrete artificial bee colony algorithm for the multicast routing problem
CN108027902B (zh) 用于互连设施的互连引擎
CN110351204A (zh) 云数据中心网络资源动态分配的方法及系统
Salehi et al. Incremental topology transformation for publish/subscribe systems using integer programming
Agosti et al. P2pam: a framework for peer-to-peer architectural modeling based on peersim
CN110493068B (zh) 一种网络路由生成方法及系统
Singh Efficient network selection using game theory in a heterogeneous wireless network
Franco et al. Networks, R&D Projects and subsidiary behavior in a host country

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant