CN116910527A - 主题数据集的创建方法及装置、联邦学习方法及装置 - Google Patents
主题数据集的创建方法及装置、联邦学习方法及装置 Download PDFInfo
- Publication number
- CN116910527A CN116910527A CN202310084092.5A CN202310084092A CN116910527A CN 116910527 A CN116910527 A CN 116910527A CN 202310084092 A CN202310084092 A CN 202310084092A CN 116910527 A CN116910527 A CN 116910527A
- Authority
- CN
- China
- Prior art keywords
- data
- data set
- federal learning
- node
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 136
- 238000012545 processing Methods 0.000 claims abstract description 57
- 238000007781 pre-processing Methods 0.000 claims abstract description 12
- 238000013075 data extraction Methods 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims description 111
- 239000013598 vector Substances 0.000 claims description 48
- 230000002776 aggregation Effects 0.000 claims description 37
- 238000004220 aggregation Methods 0.000 claims description 37
- 238000011156 evaluation Methods 0.000 claims description 36
- 238000004422 calculation algorithm Methods 0.000 claims description 32
- 238000004891 communication Methods 0.000 claims description 32
- 238000012217 deletion Methods 0.000 claims description 28
- 230000037430 deletion Effects 0.000 claims description 28
- 239000011159 matrix material Substances 0.000 claims description 27
- 230000009467 reduction Effects 0.000 claims description 27
- 238000012216 screening Methods 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 18
- 238000012544 monitoring process Methods 0.000 claims description 11
- 239000000725 suspension Substances 0.000 claims description 10
- 238000003860 storage Methods 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 4
- 238000007726 management method Methods 0.000 description 69
- 230000008569 process Effects 0.000 description 24
- 230000006870 function Effects 0.000 description 23
- 238000010801 machine learning Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 13
- 238000002372 labelling Methods 0.000 description 8
- 230000007774 longterm Effects 0.000 description 8
- 238000005457 optimization Methods 0.000 description 8
- 238000002360 preparation method Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 238000012935 Averaging Methods 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 6
- 238000009826 distribution Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000013441 quality evaluation Methods 0.000 description 5
- 230000004931 aggregating effect Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000007418 data mining Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000004445 quantitative analysis Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 108010028984 3-isopropylmalate dehydratase Proteins 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 230000003631 expected effect Effects 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000001303 quality assessment method Methods 0.000 description 2
- 238000012502 risk assessment Methods 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000011157 data evaluation Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011049 filling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明公开了一种主题数据集的创建方法及装置、联邦学习方法及装置;其中主题数据集的创建方法包括:对采集的原始数据进行数据预处理,得到预处理后的第一数据集;根据联邦学习中心下发的主题数据集的创建要求,从所述第一数据集中进行数据抽取,得到第二数据集;对所述第二数据集中数据的缺失部分进行插补处理,得到第三数据集;根据数据集标注要求对所述第三数据集中的数据进行数据标注,得到主题数据集。本发明充分考虑了数据缺失的情况,且对数据缺失情况进行插补处理,能够更为有效的改善园区数据类型来源不足的情况,插补之后的数据更为精准。
Description
技术领域
本发明涉及大数据边缘计算技术领域,具体涉及一种主题数据集的创建方法及装置、联邦学习方法及装置、计算设备及计算机存储介质。
背景技术
分布式数据采集系统和基于联邦学习的数据隐私保护装置已经有了长足的发展,目前将联邦学习技术应用到数据安全领域中已经成为了一种在制造业和工业界重要且关键的方法。
针对在利用模型进行训练前,各数据拥有方需要对本地数据进行处理以使得本地数据达到可用于训练的标准这一需求,现有技术公开了一种应用于跨样本联邦学习的数据处理方法,其中数据处理一般包括归一化、标准化、缺失值处理等操作。该方案基于各参与方发送的基于本地数据的统计值集合触发服务器联邦计算出全局统计值集合,进而各参与方可以基于全局统计值集合实现对于样本数据的预处理,若发现某个字段的缺失率超过了阈值,则采取直接删除法,若没有超过阈值,则用平均数、中位数或众数等统计值进行填充,该方案优点在于实现了在联邦学习场景下,结合各个数据拥有方的数据信息进行数据处理,但由于该方案对缺失值的处理采用了直接删除的方式,因此该方案可能存在使得数据集丢失重要信息的缺点,降低了数据集的利用率且可能使得数据的正确性和客观性受到严重影响。另外,由于需要给中心节点上传本地的统计结果,该方案在一定程度上面临着数据安全性的问题。
针对传统的模型聚合方式要么直接对参数进行平均要么只考虑到了数据量的影响这一缺陷,现有技术公开了一种基于动态调整模型聚合权重的联邦学习方法,该方法首先通过云端服务器从各客户端接收局部训练模型和数据质量指标,若达到客户端权重更新条件,则根据数据质量、模型精度和模型差异指标对模型训练精度的贡献为每个客户端计算贡献分数,并加权平均生成全局模型,该方法相对于传统的平均联邦聚合方式有了很大的进步,在设计聚合参数时,不仅考虑到了数据量而且考虑到了数据质量,给予数据质量良好的用户以更大的权重,使得模型获得更高准确率,但该方法是通过一个全局的均衡数据分布与各局部数据分布做两个概率分布之间的距离(Wasserstein距离)计算来量化各个局部数据的数据质量,而一个全局的均衡数据分布难以获取,因此该方案存在使用困难的缺陷。
针对目前传统数据采集系统采用单点采集容易造成采集资源的浪费这一问题,现有技术提出了一种分布式数据采集系统运行方法,该方法根据分配式采集参数配置的配置信息执行分配式采集主题,得到对应的采集数据,最终每个采集单元采集后的数据将被广播到整个局域网,通过任一采集单元服务皆可查询整个数据采集系统中所有采集主题的当前数据结果,满足了分布式数据采集系统对数据采集实时性、可靠性和资源有效利用等的需求,提升了系统稳定性,但是在该方案没有考虑到在各种数据保护法规逐渐完善的今天,将采集到的数据进行集中共享可能会面临法律风险,给数据带来不必要的安全隐患。
随着电信行业业务的快速发展,运营商通信网络不断扩大,网管数据不断海量化、复杂化和多样化。如何合理地处理数据缺失情况、有效地筛选和确定这些数据的重要程度并且解决数据管理和安全问题,是当前面临的挑战。
首先,现有的在联邦学习场景下处理数据缺失值采用直接删除法或者用众数、中位数、平均值等统计值进行填充,该处理方案可能导致数据集中的重要信息被丢弃使得数据集的客观性和正确性受到影响,也有可能由于用特定值填充而造成数据偏离。而且,现有的关于联邦学习模型聚合的方法要么完全不考虑各数据拥有方的差异,要么只考虑到了数据拥有方在数据量上的差异,而相对改进的版本考虑到了各个数据拥有方的数据质量的影响,然而其仅采用数据分布来衡量数据质量,忽略了数据价值评估与不同联邦主题之间的联系,没有做到在采用不同的机器学习算法时,有针对性的对数据质量进行评估,导致现有方案在在不同的联邦主题下依旧沿用同一套模型聚合权重,没有做到面向主题的模型聚合。
其次,目前对于园区质量的风险评估方法还没有指导性的标准和规范可参考,倘若按照一般网络设备的评估方法来评估园区质量,会因为检测维度不够全面、缺乏定量分析等问题,导致风险评估结果不够准确,那么联邦学习对各个园区的训练参数进行聚合和更新的结果也会出现较大偏差。
最后,当前的方案在数据采集部分存在诸多问题,采集效率直接影响网管向用户提供数据的及时性,采集的稳定性决定了网管提供服务的可靠性,现有的技术方案,采集机与网管服务器为一对多关系,每个采集机固定采集一个或者多个网管,通过检测厂家网管侧数据的完整性,触发自动采集。这种固定采集模式易于发现问题、查找问题,但也存在弊端,首先是这种方法不能对综合网管提供灵活的数据共享定制功能,同时随着各种应用的接入,用户对系统数据的完整性、一致性、合理性等有着更高的要求,需要更好地监控和保证数据质量。而且,现有的方案针对网管系统的安全体系架构研究较少,在现有的分布式网管系统设计中没有很好地考虑数据安全和隐私保护的问题。
根据上述分析,由于当前的技术方案在设计上不够完善,因此急需要一个融合了智能数据缺失值处理方法、高效模型聚合机制、安全网管体系架构等优点的网络管理系统,实现对数据的隐私和安全的严格保护,同时使得各个数据拥有者都能够更加公平更加合理的参与到联邦学习过程当中,发挥大数据优势提高模型的泛化性和准确率。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种主题数据集的创建方法及装置、联邦学习方法及装置、计算设备及计算机存储介质。
根据本发明的第一方面,提供了一种主题数据集的创建方法,包括:
对采集的原始数据进行数据预处理,得到预处理后的第一数据集;
根据联邦学习中心下发的主题数据集的创建要求,从所述第一数据集中进行数据抽取,得到第二数据集;
对所述第二数据集中数据的缺失部分进行插补处理,得到第三数据集;
根据数据集标注要求对所述第三数据集中的数据进行数据标注,得到主题数据集。
进一步的,所述对所述第二数据集中数据的缺失部分进行插补处理,得到第三数据集进一步包括:
对缺失程度大于零小于缺失门限的所述第二数据集中的缺失数据进行监测,根据所述监测结果判断所述缺失数据的缺失类型;
根据所述缺失类型选取相应的数据进行降维聚类处理,得到聚类结果;
对所述聚类结果进行特征矩阵转化,得到所述聚类结果对应的原数据点,根据所述原数据点利用牛顿插值法得到应该插入的数据点;
将所述应该插入的数据点插补至所述第二数据集,得到第三数据集。
进一步的,所述根据所述缺失类型选取相应的数据进行降维聚类处理,得到聚类结果进一步包括:
根据所述缺失类型选取相应的数据组成数据集,对所述数据集进行去中心化处理后计算得到对应的协方差矩阵;
根据所述协方差矩阵计算得到对应的特征值和特征向量,根据所述特征值和特征向量对所述数据集进行降维处理,得到降维处理之后的数据集;
针对所述降维处理之后的数据集,采用基于密度的聚类算法进行聚类处理,得到聚类结果。
根据本发明的第二方面,提供了一种联邦学习方法,包括:
接收用户提交的联邦学习任务,将所述联邦学习任务下发至各个联邦学习节点,以便所述各个联邦学习节点基于各自主题数据集确定是否参加所述联邦学习任务,以及以便参加所述联邦学习任务的初选节点利用其主题数据集对所述联邦学习任务的全局模型进行训练得到训练权重;所述主题数据集通过以上任一项所述的创建方法创建得到;
根据进行训练的初选节点的训练时延和数据质量评分对参加所述联邦学习任务的初选节点进行筛选,得到需要聚合的目标节点及所述目标节点相应的训练权重;
根据每个所述目标节点的数据质量评分以及所述目标节点相应的训练权重进行聚合计算,得到全局参数;
判断所述全局参数对应的全局模型是否收敛,如果所述全局模型收敛,则得到所述联邦学习任务的结果,反之,则将所述全局模型下发至参加所述联邦学习任务的初选节点,以便参加所述联邦学习任务的初选节点利用其主题数据集对所述全局模型重新训练。
进一步的,所述根据进行训练的初选节点的训练时延和数据质量评分对参加所述联邦学习任务的初选节点进行筛选,得到需要聚合的目标节点及所述目标节点相应的训练权重进一步包括:
在参加所述联邦学习任务的各个所述初选节点进行训练的同时启动计时,统计各个所述初选节点的训练时间;
若所述训练时间超过所述时延阈值,则发送中止反馈信号至各个所述初选节点,以便尚未完成训练的初选节点接到所述中止反馈信号后暂停训练;
计算得到剩余所述初选节点的数据质量评分;
根据剩余的所述初选节点的数据质量评分和预设的分数阈值对剩余的所述初选节点进行筛选,得到需要聚合的目标节点及所述目标节点相应的训练权重。
进一步的,所述初选节点的数据质量评分的计算方法进一步包括:
接收各个所述初选节点存储的各自主题数据集的统计信息,以及从各自主题数据集中抽取的示例数据,所述示例数据是由所述初选节点对各自主题数据集中的部分数据添加拉普拉斯噪声进行模糊化处理后得到的;
根据所述统计信息以及所述示例数据进行计算,得到所述初选节点对应主题数据集的数据量权重向量、数据质量权重向量和数据维度权重向量;
根据所述数据量权重向量、数据质量权重向量和数据维度权重向量,计算得到所述初选节点的综合评估矩阵;
根据所述初选节点的综合评估矩阵计算得到所述初选节点的正理想解和负理想解;
根据所述正理想解计算得到所述初选节点到所述正理想解之间的第一距离,以及根据所述负理想解计算得到所述初选节点到所述负理想解之间的第二距离;
根据所述第一距离和所述第二距离计算得到所述初选节点的数据质量评分。
根据本发明的第三方面,提供了一种主题数据集的创建装置,包括:
数据预处理模块,用于对采集的原始数据进行数据预处理,得到预处理后的第一数据集;
数据抽取模块,用于根据联邦学习中心下发的主题数据集的创建要求,从所述第一数据集中进行数据抽取,得到第二数据集;
插补处理模块,用于对所述第二数据集中数据的缺失部分进行插补处理,得到第三数据集;
主题数据集获取模块,用于根据数据集标注要求对所述第三数据集中的数据进行数据标注,得到主题数据集。
根据本发明的第四方面,提供了一种联邦学习装置,包括:
任务下发模块,用于接收用户提交的联邦学习任务,将所述联邦学习任务下发至各个联邦学习节点,以便所述各个联邦学习节点基于各自主题数据集确定是否参加所述联邦学习任务,以及以便参加所述联邦学习任务的初选节点利用其主题数据集对所述联邦学习任务的全局模型进行训练得到训练权重;所述主题数据集通过上面所述的创建装置创建得到;
节点选择模块,用于根据进行训练的初选节点的训练时延和数据质量评分对参加所述联邦学习任务的初选节点进行筛选,得到需要聚合的目标节点及所述目标节点相应的训练权重;
聚合模块,用于根据每个所述目标节点的数据质量评分以及所述目标节点相应的训练权重进行聚合计算,得到全局参数;
判断模块,用于判断所述全局参数对应的全局模型是否收敛,如果所述全局模型收敛,则得到联邦学习结果,反之,则将所述全局模型下发至参加所述联邦学习任务的初选节点,以便参加所述联邦学习任务的初选节点利用其主题数据集对所述全局模型重新训练。
根据本发明的第五方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行以上任一项所述的主题数据集的创建方法对应的操作,和/或执行以上任一项所述的联邦学习方法对应的操作。
根据本发明的第六个方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行以上任一项所述的主题数据集的创建方法对应的操作,和/或执行以上任一项所述的联邦学习方法对应的操作。
根据本发明的一种主题数据集的创建方法及装置,具有如下有益效果:
充分考虑了数据缺失的情况,且对数据缺失情况进行插补处理,能够更为有效的改善园区数据类型来源不足的情况,插补之后的数据更为精准;
对于不同的数据缺失情况:短期缺失或者长期缺失选取不同的数据进行降维聚类处理,得到应该插入到数据点,从而将其插补至数据缺失位置,从而使插补至后的数据集更加准确,主题数据集的创建更加的准确。
根据本发明的一种联邦学习方法及装置,具有如下有益效果:
根据进行训练的联邦学习节点的训练时延和数据质量评分对参加所述联邦学习任务的联邦学习节点进行筛选,从而可以删除计算效率地下及数据质量较低的节点,提高整个联邦学习过程的效率;
在根据节点的权重进行聚合得到全局参数的过程中,考虑了节点的数据质量评分,使各节点的权重分配更加合理,有利于提升整体模型的性能。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例的系统构架示意图;
图2示出了本发明实施例的园区侧网管系统的架构图;
图3示出了本发明实施例提供的一种主题数据集的创建方法的流程示意图;
图4示出了本发明一个具体实施例提供的一种主题数据集的创建方法的流程示意图;
图5示出了本发明实施例的数据仓库模块的架构图;
图6示出了本发明实施例提供的一种联邦学习方法的流程示意图;
图7示出了本发明一个具体实施例提供的一种联邦学习方法的流程示意图;
图8示出了本发明实施例的数据质量评分的计算方法的方法流程图;
图9示出了本发明实施例提供的一种主题数据集的创建装置的结构示意图;
图10示出了本发明实施例提供的一种联邦学习装置的结构示意图;
图11示出了本发明实施例提供的一种计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
联邦学习是一种分布式机器学习技术,其核心思想是通过在多个拥有本地数据的数据源之间进行分布式模型训练,在不需要交换本地个体或样本数据的前提下,仅通过交换模型参数或中间结果的方式,构建基于虚拟融合数据下的全局模型。具体来说,联邦学习过程就是联邦学习参与者对本地数据进行训练后,将训练得到的参数上传到中心服务器,服务器聚合得到整体参数。联邦学习有效地解决了数据孤岛问题,实现了数据隐私保护和数据共享计算的平衡。
本发明将联邦学习叠加在一个分布式的5G专网网管系统之上,5G专网网管系统为主从架构的、跨地域的分布式系统,包括若干“园区侧”网管系统和省级集中管理系统(中心侧)构成的分布式架构,每个园区侧的网管系统对应一套专网系统,并对其进行管理,其中包括对专网系统中各类数据进行采集;受一些条件的制约,所采集数据可能存在一定缺陷,例如缺失某些维度(数据的列)等。中心侧负责对园区侧系统进行统一的监控和管理。“中心侧”和“园区侧”之间建立了可信的通信通道,可以实现中心和园区侧之间的身份认证与数据安全传输,即数据不会被非法仿冒、篡改和窃取,因此联邦学习无需考虑传输的通信安全问题,但该通信通道不能解决数据隐私问题。
图1示出了本发明的系统构架示意图,如图1所示,本申请在现有分布式的5G专网网管系统之上,在中心侧增加了联邦学习中心(联邦学习的中心服务器),在园区侧叠加了联邦学习节点(拥有本地数据的服务器),联邦学习中心能够利用“中心侧”系统和园区侧系统之间的可信通信通道(图1中的双向箭头),与联邦学习节点之间进行安全的传输数据,不用额外考虑认证、加密等安全机制;联邦学习中心主要用于指令的下发及进行聚合等;联邦学习节点和园区侧系统的数据采集模块连接,即可以获取所采集的网管数据,并进行独立的存储和使用。由于园区侧采集的网管数据(原始数据集)不能直接适合联邦学习,且可能存在数据缺失等质量问题,因此联邦学习节点还负责对采集的网管数据进行整理。
具体的,联邦学习中心叠加在“中心侧”省级集中管理系统之上,能够利用“中心侧”系统和园区侧系统之间的可信通信通道,与联邦学习节点之间进行安全的传输数据,不用额外考虑认证、加密等安全机制。联邦学习中心主要负责接收用户提交的学习任务,并进行权重值的聚合;具体包括联邦学习任务的任务主题、算法要求和数据要求。其中联邦学习任务的任务主题包括但不限于对各园区网络的故障定位、性能优化和攻击识别等。算法要求指算法代码,数据需求指主题数据集的主题和维度等。此外,联邦学习中心还负责对不同园区侧建立的面向主题的主题数据集进行质量评估,得到数据质量分数。
如图1所示,联邦学习中心主要包含任务调度模块、节点选择模块、模型聚合模块和数据集评估模块,具体的:
任务调度模块负责整个系统的主题学习任务的下发和任务进度管理。是中心侧与园区侧各节点的联系纽带;节点选择模块的主要作用是在联邦学习任务中进行节点筛选,以提升整个联邦学习过程的效率;模型聚合模块接受来自节点选择模块筛选后的节点参数,该模块主要负责全局模型的聚合及判断模型是否收敛,若模型收敛则向任务调度模块发送终止信号,任务调度模块进一步将信号发送给各个联邦学习节点,任务结束,并将最终得到的全局聚合模型存储在联邦学习中心中,若判断模型不收敛则将参数下发至各联邦节点,新一轮训练开始;对单个学习任务来说,各个参与训练的联邦学习节点所使用的主题数据集的数据质量可能有所不同,因此对于学习任务的贡献也有所不同,因此需要数据集评估模块负责对各个联邦学习节点的数据集质量进行评估,评估结果用于筛选参与训练任务的联邦学习节点。
图2示出了本发明的园区侧网管系统实施例的架构图;如图2所示,虚线部分表示已有的园区侧专网网管系统,联邦学习节点叠加在园区侧专网网管系统上,和园区侧系统的网管数据采集模块接口,即可以获取所采集的网管数据,并进行独立的存储和使用。由于园区侧采集的网管数据(原始数据集)不能直接适合联邦学习,且可能存在数据缺失等质量问题,因此联邦学习节点还负责对采集的网管数据进行整理。图2中联邦学习节点包括联邦学习模块和数据准备模块。
具体的,联邦学习模块的作用主要是完成行本地联邦训练。当接收到园区侧专网网管系统发出的主题任务后,园区侧联邦学习模块首先对指令进行解析,选择相应的训练模型,然后根据数据需求调用主题数据集完成本地训练。一轮训练结束后,该模块将训练后的模型参数发送给省级集中管理系统的节点选择模块;数据准备模块负责对接已有的专网网管数据采集模块,并对所采集的网管数据进行统一存储,形成“原始数据集”。同时还负责从“原始数据集”中提取数据,并根据要求主题数据集的创建要求创建主题数据集,以及负责主题数据集的存储、管理和访问。抽取数据的要求和主题数据集的创建要求(可以看作后续联邦学习的不同领域)有关,具体要求由联邦学习中心下发。
图3-图4示出了本发明一种主题数据集的创建方法实施例的流程图,该方法应用于计算设备中。计算设备包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行联邦学习方法对应的操作。该方法应用于各个联邦学习节点,具体为先由数据准备模块进行原始数据的整理,之后根据联邦学习中心下发的主题数据集的创建要求创建并管理主题数据集。其原因为:
首先,原始数据集无法被各类联邦学习任务直接使用,一方面数据过于繁杂、没有经过必要的处理和标注,另一方面,没有进行过缺失数据的处理,例如某个采集器没有或无法采集某个维度的信息,这种缺失可能是短期或长期的。缺失数据如果直接填写空值或零值等,可能造成联邦学习任务出错或效果下降。其次,对于不同主题的学习任务,其数据要求是不同的,因此联邦学习节点需要根据联邦学习任务的任务主题,预先从原始数据中抽取数据,建立多个面向主题的主题数据集。
具体的,如图3-图4所示,所述主题数据集的创建方法包括以下步骤:
步骤S110:对采集的原始数据进行数据预处理,得到预处理后的第一数据集;
对于专网网管系统,其数据采集器包括但不限于:IPMI采集器、Agent管理中心、SSH采集器、SNMP采集器、文件接口采集器以及消息/Restful接口采集器;其次专网网管数据均为时序数据,即每条信息具有时间戳,因此可以按照时间范围进行查询和处理等。
该处数据预处理具体包括将数据按照目录分级存储,其中第一级为分类别存储(类别即网管数据的采集类型、例如IPMI采集器、Agent管理中心、SSH采集器、SNMP采集器、文件接口采集器以及消息/Restful接口采集器),第二级为分来源存储(即区分不同的采集接口);不同类别下,所有来源的数据格式是统一的,为多份“原始数据”(Data1),这些原始数据的总集即为预处理后得到的第一数据集(Datesets1);具体的,图5示出了本发明实施例的数据仓库模块的架构图,如图5所示,对于某一个联邦学习节点的数据仓库,按照类别将数据仓库模块中的数据分为了数据类别1、数据类别2……数据类别m;对于任意一个数据类别,按照来源可以再次分为来源1、来源2……来源n。
步骤S120:根据联邦学习中心下发的主题数据集的创建要求,从所述第一数据集中进行数据抽取,得到第二数据集;
主题数据集是通过从第一数据集中抽取数据、插补数据和聚合、标注数据后得到,只面向某个特定的联邦学习领域(即分布式的机器学习或数据挖掘主题),可以被相关算法直接使用的数据集。主题数据集的创建要求由人工确定,通过联邦学习中心也即联邦学习的中心服务器下发至各个联邦学习节点。
具体的创建要求包括:数据集的名称和编号,该信息全局唯一,即建立的不同数据集的编号不同,在不同联邦学习节点上,相同数据集具有相同的名称和编号;数据类别要求;数据的时间范围要求;数据维度要求,不是所有数据维度都需要被使用或被处理,可能只需要一个维度的子集;数据标注要求,数据可以被标注为不同的类别,这里统一规定各个类别的名称和编号。
数据抽取具体是指:各个联邦学习节点根据创建要求从数据仓库中抽取指定类别或者多个类别,以及具体时间范围的原始数据,并从原始数据集中删掉不需要的维度(列),并存在到本地数据仓库中,通过数据抽取即得到第二数据集(Dataset2)。通过抽取的数据可以对数据维度缺失程度进行检查。第二数据集(Dataset2)中可能存在数据缺失的情况,当第二数据集(Dataset2)中数据缺失情况较为严重时,由于联邦学习不能读取空值,读取空值会导致算法出错,同时缺失数据过多会导致结果分析不准确,所以需要进行插补处理。
步骤S130:对所述第二数据集中数据的缺失部分进行插补处理,得到第三数据集;
在进行插补处理之前,需要对第二数据集的数据的缺失情况进行评估,从而通过评估的具体情况决定执行插补处理或者执行其他处理。
对第二数据集的缺失情况进行评估具体为:获取第二数据集中每一个来源对应数据的缺失程度,并将所述缺失程度和预设的缺失门限(最大缺失比例θ)比较,如果某一个来源对应数据的缺失程度超过所述缺失门限,则直接将该来源对应的数据删除,如果某一个来源对应的数据没有缺失,则直接将该来源对应的数据输出,如果某一个来源对应数据的缺失程度大于零小于缺失门限,则需要执行所述步骤S130对应的插补处理;从而通过上述评估和相应的处理得到第三数据集(Dataset3)。
步骤S140:根据数据集标注要求对所述第三数据集中的数据进行数据标注,得到主题数据集。
该步骤中,数据集的标注要求是步骤S120中主题数据集的创建要求的一项具体内容,在主题数据集的创建要求中存在标注内容的规范,但标注过程和标准由各个园区人工执行,这里不做规定。
标注完成后,主题数据集Dataset4建立完成。对于不同的联邦学习节点,Dataset4中的数据维度(结构)完全一致,且具有基本相似的数据标签集合(可能一些节点中不存在某个标签的对应数据)。
主题数据集创建完成后,主题数据集的名称、编号和相关参数需要被保存,后续会传输到联邦学习中心,以便联邦学习中心根据各个联邦学习节点的相关参数对各个联邦学习节点的数据进行数据质量评分。
在一种可选方式中,步骤S130中对所述第二数据集中数据的缺失部分进行插补处理,得到第三数据集进一步包括:
对缺失程度大于零小于缺失门限的所述第二数据集中的缺失数据进行监测,根据所述监测结果判断所述缺失数据的缺失类型;
由前述可知,需要进行插补处理的情况为某一个来源对应数据的缺失程度大于零小于缺失门限的情况,具体的,需要对该种情况的所述第二数据集中的缺失数据进行时间段为μ的监测,根据所述监测结果判断所述缺失数据的缺失类型,该处所述缺失类型包括长期缺失和一段时间段内缺失的短期缺失两种。
根据所述缺失类型选取相应的数据进行降维聚类处理,得到聚类结果;该步骤具体为:当缺失情况为短期缺失时,对数据缺失部分进行确定,确定缺失数据的列位置以及范围,通过获取缺失日期部分数据前后时间段内的数据并将两段数据进行合并取平均值得到一组数据;若缺失情况是可能由于物理设备损坏导致的长期缺失时,通过将n个相似设备的n组数据进行合并再取平均值,最终合并为一组数据;从而通过对得到的一组数据进行降维聚类处理,得到聚类结果。
对所述聚类结果进行特征矩阵转化,得到所述聚类结果对应的原数据点,根据所述原数据点利用牛顿插值法得到应该插入的数据点。
将所述应该插入的数据点插补至所述第二数据集,得到第三数据集。通过插补处理,得到的是一个没有数据缺失的第三数据集Dataset3。第三数据集的结构与第二数据集的结构相同,但不存在数据缺失情况。
在一种可选方式中,所述根据所述缺失类型选取相应的数据进行降维聚类处理,得到聚类结果进一步包括:
根据所述缺失类型选取相应的数据组成数据集,对所述数据集进行去中心化处理后计算得到对应的协方差矩阵;
该步骤中相应的数据即为前述合并取平均值后得到的数据;数据降维是指:通过将数据中的n维数据映射到k(k<n)维上,之后从原始空间顺序找出一组相互正交的坐标轴,其中第一个坐标轴是初级数据中方差最大的方向,第二个新坐标轴是与第一个坐标轴正交的平面中使得方差最大的,第三个坐标轴是与第一第二坐标轴正交的平面中方差最大的,以及类推获得n个坐标轴,但大部分方差都包含在前k个坐标轴中,所以可以仅保留前k个坐标轴,从而实现对数据的降维;
具体的,选取相应的数据组成数据集为(d1,d2,di……dn),通过去中心化处理后可以计算得到协方差矩阵
根据所述协方差矩阵计算得到对应的特征值和特征向量,根据所述特征值和特征向量对所述数据集进行降维处理,得到降维处理之后的数据集;
该步骤中得到协方差矩阵后,利用特征值分解法可以求出对应的特征值和特征向量,选取其中最大的k个特征值,并将k个特征值对应的特征向量作为行向量组成特征矩阵P,之后根据Y=PX将数据转换到k个特征向量构建的新空间中,得到降维处理之后的数据集Y。
针对所述降维处理之后的数据集,采用基于密度的聚类算法进行聚类处理,得到聚类结果。
具体的,在数据集完成降维之后,通过采用基于密度的聚类方法能够很好的解决时间序列数据曲线模式多样的问题。本申请采用基于密度聚类的DBSCAN聚类算法。通过邻域最大半径Eps划定的邻域范围,当某一样本的邻域范围内的密度(数据点的个数)超过阈值τ(人为确定),则将该样本加到其领域范围对应的聚类中。
通过给定Eps邻域,对于p∈D,其Eps邻域包含数据集D中与p的距离不大于Eps的子样本集,即NEps(p)={q∈D|dist(p,q)≤Eps},其中数据集D为已降维至维数为k的空间上的数据集,dist(p,q)表示数据集D内两个对象p与q之间的距离,该距离通过计算p与q两个数据间的欧式距离L=||p-q||2得到;如果NEps(p)中包含的数据集D中的数据点的个数超过阈值τ,则数据集D中的点p为核心点,对于非核心点的数据点b,若数据点b在任意核心点的Eps领域内,那么数据点b称为边界点,之后对k维数据集D内所有数据进行该操作,最终形成聚类结果。
目前针对数据缺失而进行的数据插补方式,大多数只是在利用插值算法等方面进行数据处理,而本申请中充分考虑了数据集缺失部分的情况,针对数据长期/短期缺失的情况,基于联邦学习技术而进行的数据聚类处理、插补缺失值的方法,能够更为有效的改善园区数据类型来源不足的情况,插补之后的数据更为精准。同时本专利中针对时间序列数据的操作采用了降维再聚类的处理,大大节省了数据处理时间,提高了系统的效率。
本申请中,针对数据缺失情况进行了划分,通过阈值时间段来判断数据缺失情况是长期缺失/短期缺失,由于数据缺失会使得数据集中存在大量空值,这导致联邦学习算法无法正常工作,同时缺失值过多会导致数据分析结果准确率下降。所以针对不同情况采用不同策略进行数据聚合和插补。本申请中采用将时间序列先降维,再聚类的聚类方法,通过降维大大节省了系统的计算成本,从而提高了数据处理效率。
通过上述步骤创建了主题数据集,主题数据集面向某个特定的联邦学习领域(即分布式的机器学习或数据挖掘主题),可以被相关算法直接使用。
图6-7示出了本发明提供的一种联邦学习方法实施例的流程示意图;该方法应用于计算设备中。计算设备包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行联邦学习方法对应的操作。该方法应用于联邦学习中心,如图6-7所示,该方法包括以下步骤:
步骤S210:接收用户提交的联邦学习任务,将所述联邦学习任务下发至各个联邦学习节点,以便所述各个联邦学习节点基于各自主题数据集确定是否参加所述联邦学习任务,以及以便参加所述联邦学习任务的初选节点利用其主题数据集对所述联邦学习任务的全局模型进行训练得到训练权重;所述主题数据集通过以上任一项实施例所述的创建方法创建得到;
步骤S210中的联邦学习任务一般为机器学习任务,其特征为利用特定数据对算法模型进行训练,最终得到优化的算法模型,可以完成分类、预测、聚类等方面的任务。任务的可能主题包括但不限于对各园区网络的故障定位、性能优化和网络攻击识别等,本申请的联邦学习任务为可以用于多种机器学习的任务,不限制机器学习的类型。
学习任务的内容包括:所用机器学习的全局模型及其实现代码;主题数据集的名称或编号,每个学习任务应对应一个主题数据集;全局模型训练的最大轮数;数据内容、数据维度要求等,即在主题数据集中选择一个子集,可能是部分数据、部分行和部分维度(列)。
具体的,如图7所示,联邦学习中心(图7中的中心节点)的任务调度模块接收用户提交的联邦学习任务,将所述联邦学习任务下发至园区侧的各个联邦学习节点的联邦学习模块;园区侧各个联邦学习节点的联邦学习模块接收到任务指令后,对指令进行解析,同时从数据集市调用主题数据集Dataset4,对照任务中的数据需求进行系列检查。
具体的首先检查主题数据集是否满足任务要求,若数据满足要求且算法成功运行则得到初选节点,园区侧的初选节点按照要求上传数据集和相关参数,以便联邦学习中心根据各个联邦学习节点的相关参数对各个初选节点的数据进行数据质量评分。
具体的,联邦学习任务的训练过程为:参加所述联邦学习任务的联邦学习节点利用其主题数据集对所述联邦学习任务的全局模型进行本地训练得到训练权重,因此完成联邦学习任务后,产出结果为对应的一组权重值,T1个联邦学习节点基于本地数据进行训练,训练完一轮之后,将权重集合W提交到联邦学习中心,并最终将结果(权重值)反馈给用户。
定义每个联邦学习节点在本地训练时的损失函数为该联邦学习节点训练时数据集上预测值与实际值的差,则该联邦学习过程在所有数据集上的损失函数可定义为:
其中,Ci表示该联邦学习节点的数据集的大小,表示当前训练的全局模型的权值,联邦学习的目标是通过最小化每个子数据集上训练的损失函数最后使全局模型的损失函数收敛,即:
ω=argminLi(ω)
在参数更新上,联邦学习的参数更新方法采用一般化的随机梯度下降算法(SGD),第n次迭代模型参数更新公式为:
其中,hn表示第n次训练时的学习率,▽l是梯度算子;
经过训练,园区侧每个联邦学习节点的产出结果均为一组权重值,T1个联邦学习节点基于本地数据进行训练,训练完一轮之后,将权重集合W提交到联邦学习中心。
最终,联邦学习中心得到S个初选节点上传的评估所需信息,则视为本次任务由S个初选节点执行,记为T1。
步骤S220:根据进行训练的初选节点的训练时延和数据质量评分对参加所述联邦学习任务的初选节点进行筛选,得到需要聚合的目标节点及所述目标节点相应的训练权重;
对于当前学习任务所涉及的主题数据集,各个初选节点所使用的主题数据集应具有相同的格式(类型),但其数据成分存在差异,对全局模型进行训练时的效果和贡献也相应地存在差异。因此,联邦学习中心需要对各个初选节点上的相关数据集进行聘雇,由联邦学习中心的数据集评估模块给出数据质量评分该结果为一个S维向量,即对于每个节点给出一个数值,该数值一方面作为聚合参数之一使用,另一方面用于目标节点的筛选。
为了提高整个联邦学习过程的效率,在进行模型聚合之前对各个初选节点进行节点筛选操作得到参与训练任务的目标节点,节点筛选主要考虑训练时延和数据质量评分两个因素。
步骤S230:根据每个所述目标节点的数据质量评分以及所述目标节点相应的训练权重进行聚合计算,得到全局参数;
具体的,经过节点选择模块筛选得到需要聚合的目标节点,此时将所得节点的权重值进行聚合计算。考虑传统的联邦平均算法没有考虑到各联邦学习节点的数据量、数据质量、数据维度、数据多样性和数据平衡性等问题,在进行全局模型聚合时,模型聚合模块从联邦学习中心访问数据质量评分基于该值对核心聚合公式进行改进,定义模型聚合的核心公式如下:
其中,ω′n表示第n次本地训练得到的全局参数(权值),C表示所有数据集的大小,Ci表示为第i个子模型的数据集大小,其中表示在第i个子模型上进行本地训练时,第n+1次训练上传的权值参数与第n次上传的权值参数之差,/>表示第i个联邦学习节点的数据质量评分。
经过上述聚合计算,得到了全局参数,相较于传统的简单加权平均,改进后的聚合公式引入了数据质量评分充分考虑了各联邦学习节点的数据量、数据质量、数据维度、数据多样性和数据平衡性,使各节点的权重分配更加合理,有利于提升整体模型的性能。
步骤S240:判断所述全局参数对应的全局模型是否收敛,如果所述全局模型收敛,则得到所述联邦学习任务的结果,反之,则将所述全局模型下发至参加所述联邦学习任务的初选节点,以便参加所述联邦学习任务的初选节点利用其主题数据集对所述全局模型重新训练。
模型聚合模块完成聚合工作之后,进一步判断全局模型是否收敛,若模型聚合模块未检测到全局模型收敛,则直接将全局模型下发到园区侧的各个初选节点,重复上述步骤,新一轮训练开始,直至全局模型达到收敛(收敛条件由所提交的全局模型代码确定),或者达到最大训练轮数;若模型收敛,或者达到最大训练轮数,则此次任务结束,存储最终结果,并向任务调度模块发送通知。完成联邦学习任务后,产出结果为所用全局模型对应的一组权重值,任务调度模块负责将最终结果(权重值)反馈给用户。
在一可选方式中,步骤S220根据进行训练的初选节点的训练时延和数据质量评分对参加所述联邦学习任务的初选节点进行筛选,得到需要聚合的目标节点及所述目标节点相应的训练权重进一步包括:
在参加所述联邦学习任务的各个初选节点进行训练的同时启动计时,统计各个所述初选节点的训练时间;具体的,设置一个时延阈值Tmax,联邦学习中心的节点选择模块在联邦学习节点的本地训练启动的同时开始计时,统计各个所述初选节点的训练时间。
若所述训练时间超过所述时延阈值Tmax,则发送中止反馈信号至所述初选节点,以便尚未完成训练的初选节点接到所述中止反馈信号后暂停训练;具体为:当节点选择模块统计的所述训练时间超过所述时延阈值Tmax时,节点选择模块将给任务调度模块发送一个中止反馈信号,任务调度模块再将该信号下发到各个初选节点,若此时某些初选节点还未完成参数上传,则接收到中止反馈信号之后将暂停本地训练。
计算得到剩余初选节点的数据质量评分,数据质量评分由数据集评估模块计算得到存储在联邦学习中心。
根据剩余的所述初选节点的数据质量评分和预设的分数阈值对剩余的所述初选节点进行筛选,得到需要聚合的目标节点及所述目标节点相应的训练权重。具体的,当接收到来自剩余的初选节点的模型参数后,节点选择模块对剩余初选节点的数据质量评分进行检索和访问,设定一个最小评分阈值Cmin,当数据集评估模块检测到某一个初选节点的数据质量评分/><Cmin时,则认为该初选节点的数据质量过低,其模型不具备参考性,此类节点上传的权重值将被丢弃。经过筛选后剩下节点即为参与联邦学习任务的目标节点,目标节点的参数集合为W1,节点选择模块完成节点筛选之后将得到的新的权重集合W1发送给模型聚合模块。
在一可选方式中,图8示出了本发明的数据质量评分的计算方法实施例的方法流程图,如图8所示,所述初选节点的数据质量评分的计算方法进一步包括:
接收各个所述初选节点存储的各自主题数据集的统计信息,以及从各自主题数据集中抽取的示例数据,所述示例数据是由所述初选节点对各自主题数据集中的部分数据添加拉普拉斯噪声进行模糊化处理后得到的;
具体的,在园区侧的联邦学习节点选出参加训练任务的初选节点后,联邦学习中心的数据集评估模块会要求园区侧各个初选节点的数据准备模块从其主题数据集中随机抽样上传少量示例数据,以及上传主题数据集的相关统计信息,上传的示例数据和统计信息用于作为数据评估的依据。
首先,上传的示例数据的数据量为整个联邦学习系统中的一个全局参数,由人工确定。园区侧各个初选节点的数据准备模块在对主题数据集进行随机抽样得到抽样数据集后,数据准备模块使用差分隐私策略对随机抽样的数据进行转换,从园区侧数据准备模块获取抽样数据集的相关统计信息,得到各个联邦学习节点的抽样数据集的原始统计频数,在数据的原始统计频数中添加特定分布的拉普拉斯噪声来将原始数据模糊化得到示例数据,通过上传模糊化处理后得到的示例数据从而保证了数据的隐私性,该过程中示例数据上传到联邦学习中心后无需进行“解码”或“解密”等操作。
其次,园区侧各个初选节点的数据准备模块上传主题数据集的相关统计信息具体包括:
主题数据集的数据总量M;
主题数据集中数据的数据缺失度参数M′,具体的,园区侧各个初选节点不缺少数据时,M′标记为M;缺少1种数据时,M′标记为M-1;缺少n种数据时,M′标记为当缺少数据种类大于/>时,M′标记为0;
进行数据标注处理后存在的标签列表k,以及各个标签列数据的数量k′;
主题数据集各个维度的缺失度向量S′j,(j=1,2,...,m);
主题数据集的维度数量m,由于不同联邦学习节点构建主题数据集的方法是由联邦学习中心确定的,因此联邦学习中心知道各个主题数据集的维度总数;
参与联邦学习任务的初选节点的总数S。
根据所述统计信息以及所述示例数据进行计算,得到所述初选节点对应的主题数据集的数据量权重向量、数据质量权重向量和数据维度权重向量;
具体的,联邦学习中心的数据集评估模块通过熵值法等算法确定数据集在不同维度下的权重,包括:数据量权重P=(P1,P2,P3,...,PS)、数据质量权重Q=(Q1,Q2,Q3,...,QS)和数据维度权重R=(R1,R2,R3,...,RS)。
首先,数据量权重通过如下步骤计算:
第一步:对于第i个初选节点对应的主题数据集的数据总量M和数据缺失度参数M′,利用公式得到第i个初选节点对应主题数据集的数据平衡性权重;
第二步:依次计算每一个初选节点对应的主题数据集的数据平衡性权重,即得到权值向量P=(P1,P2,P3,...,PS),权重向量P即为各个初选节点对应的主题数据集的数据量权重向量。
其次,数据质量权重通过如下步骤计算:
第一步:求所有初选节点上传的数据标签列表的并集K,假设并集中共存在n种标签,即K=(K1,K2,...,Kn);
第二步:将各个初选节点在并集中每个标签下的数据量写为向量形式,即K′=(K′1,K′2,...,K′n),如果该节点数据集中不存在某一标签,则将该标签下的数据记为0;
第三步:求各个初选节点数据质量占比Q′:
第四步:将Q′进行归一化处理,得到各个初选节点的数据质量权重Q:
第五步:依次计算每一个初选节点的数据质量权重,得到权值向量Q=(Q1,Q2,Q3,...,QS),权值向量Q=(Q1,Q2,Q3,...,QS)即为流程输出的各个初选节点的数据质量权重向量。
再次,数据维度权重的计算原理及步骤如下:
根据前述上传的主题数据集的维度数量m,设定主题数据集D中维度集合为X=(X1,X2......,Xm),设定标签集为Y=(y1,y2......,yn)T,其中X1,X2......,Xm均为n×1的列向量,每一个列向量对应一个维度,Y为n×1的列向量,y1,y2,......,yn均为常数值。广义上来讲,若一个维度Xj(j=1,2,3...,m)被认为对预测Y来说很重要的话,那么如果打破Xj和Y之间的联系,会导致最终的预测误差增大。定义置换重要性为随机打乱维度Xj前后,得到的模型在数据集上的评分的差值,置换重要性可以用来评价维度的重要程度,维度越重要,随机打乱后的评分变化越大,置换重要性也越大。
在数据维度权重计算中,输入的是示例数据集D和选定的监督学习模型Model,输出为维度集X=(X1,X2......,Xm)中每一个维度的权重值所组成的权值向量S=(S1,S2,S3,...,Sm),具体的:
第一步:将数据集D送入有监督学习模型Model中,得到模型Model在数据集D上的性能评分,
记模型Model在数据集D上的性能评分为其中,性能评分权重wq由人工依使用场景进行确定,/>为模型的不同评分函数,每一个评分函数与对应的性能评分权重wq之积的和即为模型Model在数据集D上的性能评分,所述评分函数可由人工选取,具体的将除被选择的评分函数之外的其他函数的性能评分权重置为0即可。
举例来说:对于分类问题,评分函数包括但不限于准确率函数精确率函数召回率函数/>F1-score函数/>可扩展其他评分函数,设为/>选取评分函数为准确率函数/>则将其他的精确率函数/>召回率函数/>F1-score函数可扩展其他评分函数,设为/>的权重均设为0,将准确率函数/>的权重设为1即可。
对于回归问题,评分函数包括但不限于平均绝对误差函数均方误差函数r-平方函数/>均方误差根函数/>可扩展其他评分函数,设为/>
第二步:对维度集X=(X1,X2......,Xm)中的Xj进行随机打乱,同时保持其他维度以及标签不变,得到打乱后的数据集
计算模型Model经过K折交叉验证后在数据集上的性能评分,记为/>则/>
第四步:为了更加直观从置换重要性中看出维度的权重值,用归一化指数函数(softmax函数)对置换重要性进行归一化,将其映射到(0,1)内。记的softmax函数值为Sj,则/>
第五步:将维度Xj恢复原状,打乱维度Xj+1得到打乱后的数据集重复第三、四步,计算维度Xj+1的置换重要性/>以及相应的Sj+1。
不断进行以上流程,直到得到了最后一个维度Xm的置换重要度以及相应的Sm。最终输出为维度集X=(X1,X2......,Xm)中每一个维度的权重值所组成的权值向量Sj=(S1,S2,S3,...,Sm),其中每一个元素都分布在(0,1)之间,元素值越大,对应的维度越重要。
权值向量Sj=(S1,S2,S3,...,Sm)即为流程输出节点的各个维度的权重值。
用数据集各个维度的缺失度向量S′j乘以各个维度的权重值Sj,进行归一化,得出联邦学习节点的数据维度权重R:
最后,权值向量R=(R1,R2,R3,...,RS)即为流程输出的各个初选节点的数据维度权重向量。
得到所述初选节点的数据量权重向量、数据质量权重向量和数据维度权重向量之后,根据所述初选节点的数据量权重向量、数据质量权重向量和数据维度权重向量,计算得到所述初选节点的综合评估矩阵;
具体的,将权重向量P、Q和R进行相乘,即可得到园区初选节点的综合评估矩阵V:
根据所述初选节点的综合评估矩阵计算得到所述初选节点的正理想解和负理想解,其中正理想解S+为各个节点的最优值,负理想解S-为各个节点的最差值:
根据所述正理想解计算得到所述初选节点到所述正理想解之间的第一距离 以及根据所述负理想解计算得到所述初选节点到所述负理想解之间的第二距离/> 根据所述第一距离和所述第二距离计算得到所述初选节点的数据质量评分/>
最终输出各初选节点的数据质量评分 在(0,1)之间,越趋近于1,说明被评估的节点质量越优。评分结果存储在联邦学习中心,可被联邦学习中心的其他模块检索和访问。
园区侧专网网管系统所采集数据一般具有一定隐私性,因此从效率和隐私保护等方面考虑不适合进行全局汇总和存储。另一方面,网管数据具有很大的利用价值,通过机器学习等方式挖掘其规律、或训练相关算法模型,有利于在故障预测、网络优化、网络安全监控等领域实现技术进步,如果将各个区域孤立起来进行机器学习,则个大多数区域得到的算法模型可能不是最佳的,本申请基于现有的5G专网网管系统,叠加联邦学习架构,实现了在保护用户隐私的情况下,利用全部可用数据进行机器学习,可以得到全局最优的算法模型。并且,充分利用了已有网管系统的组件和架构,避免了重复建设。
本申请通过为联邦学习节点设置风险维度,通过计算得出联邦学习节点的数据在多个不同维度下的权重,包括数据量权重、数据质量权重、数据维度权重,使用改进的Topsis多属性决策方法进行风险等级评估,有效解决了传统数据检测维度不够全面、缺乏定量分析等问题,大大提高了风险评估结果的准确度,使园区数据质量评估达到多维度、多层次、全方位的目标。
此外,在联邦学习节点向联邦学习中心传输评估数据集的过程中,引入差分隐私技术,通过在数据分布直方图中添加拉普拉斯噪声的方式,模糊化原始数据,在充分考虑了数据安全和隐私的前提下为用户提供一个灵活的定制服务,更好的满足用户需求。
同时,本申请对可以对数据集中的数据进行系统的分析,通过对重要数据赋较大的权值提高数据在评估中的重要性占比,由园区侧上传少量数据,减少冗余,达到数据质量评估的预期效果。与传统的Topsis思想不同的是,本申请考虑了数据在多个维度下的权重值,对各个权重矩阵进行乘积后得出了综合评估矩阵V,而后再利用传统的Topsis思想得出各节点到理想正负解的距离,最终计算得到节点评分。
本申请从数据安全和数据隐私保护角度出发,引入联邦学习框架,依托省级中央管理系统,由中央灵活发起网管系统故障定位、网络优化和攻击识别等主题任务;在园区侧部署联邦学习节点,实现在数据不出园区、不聚集和保障数据隐私的前提下完成各项主题任务。同时借助数据质量评分值,对联邦学习的核心聚合公式进行改进,与传统的将各节点的模型参数进行简单的加权平均做法不同,本发明充分考虑数据体量、数据维度和数据分布等多方角度,对数据质量进行评分,并基于此评分对联邦学习节点进行权重分配,使各节点的权重分配更加合理,有利于提升整体模型的性能。
全方位、多层次地进行园区数据质量评估。在园区侧上传少量参数的前提下,充分考虑到各指标之间的离散性、相关性和对比强度。利用算法确定数据在数据量、数据质量、数据维度方面的权重,给出维度的重要性排序,将复杂的问题层次化,使其更符合实际园区系统的评价。使用改进的Topsis多属性决策方法进行园区风险等级评估,可以将各维度的数据权重进行融合,有效避免了传统数据评估方法对数据集得不到合理利用等问题,避免了在数据评估过程中出现的有失偏颇的现象。
随着5G行业应用的加快落地,5G专网系统也走向普及推广阶段,本申请可以直接依托于网管系统本身,构建深度学习模型,在保障数据隐私的同时,充分挖掘网管数据的价值,有助于提升网管系统的分析能力、预测能力和管理能力,以及有助于通过人工智能、机器学习等方式、提升5G专网的各种性能,增强竞争力。
本申请基于分布式联邦学习系统的网络管理框架依托现有的网络管理系统,一方面借助数据仓库技术以及通过创建主题数据集对数据进行分布式管理,实现网络运维数据的统一采集和灵活调度,提升了数据采集效率。另一方面,针对数据缺失、数据质量参差不齐等问题引入网管数据评分系统,从数据量权重、数据质量权重、数据维度权重、数据多样性和平衡性权重等多个角度挖掘数据价值,提升系统效率。最后引入联邦学习框架,依托省级集中管理系统,由中央灵活发起网管系统故障定位、网络优化和攻击识别等主题任务;在园区侧部署联邦学习节点,园区节点接收任务后在本地进行模型训练,然后上传模型参数到联邦学习中心,由联邦学习中心进行参数融合,实现在数据不出园区、不聚集和保障数据隐私的前提下完成各项主题任务。
图9示出了本发明一种主题数据集的创建装置实施例的结构示意图。如图9所示,该装置包括:
数据预处理模块310,用于对采集的原始数据进行数据预处理,得到预处理后的第一数据集;
数据抽取模块320,用于根据联邦学习中心下发的主题数据集的创建要求,从所述第一数据集中进行数据抽取,得到第二数据集;
插补处理模块330,用于对所述第二数据集中数据的缺失部分进行插补处理,得到第三数据集;
主题数据集获取模块340,用于根据数据集标注要求对所述第三数据集中的数据进行数据标注,得到主题数据集。
在一种可选的方式中,插补处理模块330对所述第二数据集中数据的缺失部分进行插补处理,得到第三数据集进一步包括:
插补处理模块330对缺失程度大于零小于缺失门限的所述第二数据集中的缺失数据进行监测,根据所述监测结果判断所述缺失数据的缺失类型;
插补处理模块330根据所述缺失类型选取相应的数据进行降维聚类处理,得到聚类结果;
插补处理模块330对所述聚类结果进行特征矩阵转化,得到所述聚类结果对应的原数据点,根据所述原数据点利用牛顿插值法得到应该插入的数据点;
插补处理模块330将所述应该插入的数据点插补至所述第二数据集,得到第三数据集。通过插补处理,得到的是一个没有数据缺失的第三数据集Dataset3。第三数据集的结构与第二数据集的结构相同,但不存在数据缺失情况。
在一种可选方式中,插补处理模块330根据所述缺失类型选取相应的数据进行降维聚类处理,得到聚类结果进一步包括:
插补处理模块330根据所述缺失类型选取相应的数据组成数据集,对所述数据集进行去中心化处理后计算得到对应的协方差矩阵;
插补处理模块330根据所述协方差矩阵计算得到对应的特征值和特征向量,根据所述特征值和特征向量对所述数据集进行降维处理,得到降维处理之后的数据集;
插补处理模块330针对所述降维处理之后的数据集,采用基于密度的聚类算法进行聚类处理,得到聚类结果。
目前针对数据缺失而进行的数据插补方式,大多数只是在利用插值算法等方面进行数据处理,而本申请中充分考虑了数据集缺失部分的情况,针对数据长期/短期缺失的情况,基于联邦学习技术而进行的数据聚类处理、插补缺失值的方法,能够更为有效的改善园区数据类型来源不足的情况,插补之后的数据更为精准。同时本专利中针对时间序列数据的操作采用了降维再聚类的处理,大大节省了数据处理时间,提高了系统的效率。
本申请中,针对数据缺失情况进行了划分,通过阈值时间段来判断数据缺失情况是长期缺失/短期缺失,由于数据缺失会使得数据集中存在大量空值,这导致联邦学习算法无法正常工作,同时缺失值过多会导致数据分析结果准确率下降。所以针对不同情况采用不同策略进行数据聚合和插补。本申请中采用将时间序列先降维,再聚类的聚类方法,通过降维大大节省了系统的计算成本,从而提高了数据处理效率。
通过上述步骤创建了主题数据集,主题数据集面向某个特定的联邦学习领域(即分布式的机器学习或数据挖掘主题),可以被相关算法直接使用。
图10示出了本发明一种联邦学习装置实施例的结构示意图,如图10所示,该装置包括:
任务下发模块350,用于接收用户提交的联邦学习任务,将所述联邦学习任务下发至各个联邦学习节点,以便所述各个联邦学习节点基于各自主题数据集确定是否参加所述联邦学习任务,以及以便参加所述联邦学习任务的初选节点利用其主题数据集对所述联邦学习任务的全局模型进行训练得到训练权重;所述主题数据集通过上面所述的创建装置创建得到;
节点选择模块360,用于根据进行训练的初选节点的训练时延和数据质量评分对参加所述联邦学习任务的初选节点进行筛选,得到需要聚合的目标节点及所述目标节点相应的训练权重;
聚合模块370,用于根据每个所述目标节点的数据质量评分以及所述目标节点相应的训练权重进行聚合计算,得到全局参数;
判断模块380,用于判断所述全局参数对应的全局模型是否收敛,如果所述全局模型收敛,则得到联邦学习结果,反之,则将所述全局模型下发至参加所述联邦学习任务的初选节点,以便参加所述联邦学习任务的初选节点利用其主题数据集对所述全局模型重新训练。
在一可选方式中,节点选择模块360根据进行训练的初选节点的训练时延和数据质量评分对参加所述联邦学习任务的初选节点进行筛选,得到需要聚合的目标节点及所述目标节点相应的训练权重进一步包括:
节点选择模块360在参加所述联邦学习任务的各个初选节点进行训练的同时启动计时,统计各个所述初选节点的训练时间;
若所述训练时间超过所述时延阈值Tmax,则节点选择模块360发送中止反馈信号至所述初选节点,以便尚未完成训练的初选节点接到所述中止反馈信号后暂停训练;
节点选择模块360计算得到剩余初选节点的数据质量评分;
节点选择模块360根据剩余的所述初选节点的数据质量评分和预设的分数阈值对剩余的所述初选节点进行筛选,得到需要聚合的目标节点及所述目标节点相应的训练权重。
在一可选方式中,初选节点的数据质量评分的计算方法进一步包括:
接收各个所述初选节点存储的各自主题数据集的统计信息,以及从各自主题数据集中抽取的示例数据,所述示例数据是由所述初选节点对各自主题数据集中的部分数据添加拉普拉斯噪声进行模糊化处理后得到的;
根据所述统计信息以及所述示例数据进行计算,得到所述初选节点对应的主题数据集的数据量权重向量、数据质量权重向量和数据维度权重向量;
根据所述初选节点的数据量权重向量、数据质量权重向量和数据维度权重向量,计算得到所述初选节点的综合评估矩阵;
根据所述初选节点的综合评估矩阵计算得到所述初选节点的正理想解和负理想解;
根据所述正理想解计算得到所述初选节点到所述正理想解之间的第一距离,以及根据所述负理想解计算得到所述初选节点到所述负理想解之间的第二距离;
根据所述第一距离和所述第二距离计算得到所述初选节点的数据质量评分。
园区侧专网网管系统所采集数据一般具有一定隐私性,因此从效率和隐私保护等方面考虑不适合进行全局汇总和存储。另一方面,网管数据具有很大的利用价值,通过机器学习等方式挖掘其规律、或训练相关算法模型,有利于在故障预测、网络优化、网络安全监控等领域实现技术进步,如果将各个区域孤立起来进行机器学习,则个大多数区域得到的算法模型可能不是最佳的,本申请基于现有的5G专网网管系统,叠加联邦学习架构,实现了在保护用户隐私的情况下,利用全部可用数据进行机器学习,可以得到全局最优的算法模型。并且,充分利用了已有网管系统的组件和架构,避免了重复建设。
本申请通过为联邦学习节点设置风险维度,通过计算得出联邦学习节点的数据在多个不同维度下的权重,包括数据量权重、数据质量权重、数据维度权重,使用改进的Topsis多属性决策方法进行风险等级评估,有效解决了传统数据检测维度不够全面、缺乏定量分析等问题,大大提高了风险评估结果的准确度,使园区数据质量评估达到多维度、多层次、全方位的目标。
此外,在联邦学习节点向联邦学习中心传输评估数据集的过程中,引入差分隐私技术,通过在数据分布直方图中添加拉普拉斯噪声的方式,模糊化原始数据,在充分考虑了数据安全和隐私的前提下为用户提供一个灵活的定制服务,更好的满足用户需求。
同时,本申请对可以对数据集中的数据进行系统的分析,通过对重要数据赋较大的权值提高数据在评估中的重要性占比,由园区侧上传少量数据,减少冗余,达到数据质量评估的预期效果。与传统的Topsis思想不同的是,本申请考虑了数据在多个维度下的权重值,对各个权重矩阵进行乘积后得出了综合评估矩阵V,而后再利用传统的Topsis思想得出各节点到理想正负解的距离,最终计算得到节点评分。
本申请从数据安全和数据隐私保护角度出发,引入联邦学习框架,依托省级中央管理系统,由中央灵活发起网管系统故障定位、网络优化和攻击识别等主题任务;在园区侧部署联邦学习节点,实现在数据不出园区、不聚集和保障数据隐私的前提下完成各项主题任务。同时借助数据质量评分值,对联邦学习的核心聚合公式进行改进,与传统的将各节点的模型参数进行简单的加权平均做法不同,本发明充分考虑数据体量、数据维度和数据分布等多方角度,对数据质量进行评分,并基于此评分对联邦学习节点进行权重分配,使各节点的权重分配更加合理,有利于提升整体模型的性能。
全方位、多层次地进行园区数据质量评估。在园区侧上传少量参数的前提下,充分考虑到各指标之间的离散性、相关性和对比强度。利用算法确定数据在数据量、数据质量、数据维度方面的权重,给出维度的重要性排序,将复杂的问题层次化,使其更符合实际园区系统的评价。使用改进的Topsis多属性决策方法进行园区风险等级评估,可以将各维度的数据权重进行融合,有效避免了传统数据评估方法对数据集得不到合理利用等问题,避免了在数据评估过程中出现的有失偏颇的现象。
随着5G行业应用的加快落地,5G专网系统也走向普及推广阶段,本申请可以直接依托于网管系统本身,构建深度学习模型,在保障数据隐私的同时,充分挖掘网管数据的价值,有助于提升网管系统的分析能力、预测能力和管理能力,以及有助于通过人工智能、机器学习等方式、提升5G专网的各种性能,增强竞争力。
本申请基于分布式联邦学习系统的网络管理框架依托现有的网络管理系统,一方面借助数据仓库技术以及通过创建主题数据集对数据进行分布式管理,实现网络运维数据的统一采集和灵活调度,提升了数据采集效率。另一方面,针对数据缺失、数据质量参差不齐等问题引入网管数据评分系统,从数据量权重、数据质量权重、数据维度权重、数据多样性和平衡性权重等多个角度挖掘数据价值,提升系统效率。最后引入联邦学习框架,依托省级集中管理系统,由中央灵活发起网管系统故障定位、网络优化和攻击识别等主题任务;在园区侧部署联邦学习节点,园区节点接收任务后在本地进行模型训练,然后上传模型参数到联邦学习中心,由联邦学习中心进行参数融合,实现在数据不出园区、不聚集和保障数据隐私的前提下完成各项主题任务。
本发明实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的主题数据集的创建方法对应的操作,和/或执行上述任意方法实施例中的联邦学习方法对应的操作。
图11示出了本发明一种计算设备实施例的结构示意图,本发明具体实施例并不对计算设备的具体实现做限定。
如图11所示,该计算设备可以包括:处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、以及通信总线408。
其中:处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。通信接口404,用于与其它设备比如客户端或其它服务器等的网元通信。处理器402,用于执行程序410,具体可以执行上述用于计算设备的主题数据集的创建方法实施例中的相关步骤,和或执行上述用于计算设备的联邦学习方法实施例中的相关步骤。
具体地,程序410可以包括程序代码,该程序代码包括计算机操作指令。
存储器406,用于存放程序410。存储器406可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
处理器402可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。主题数据集的创建装置包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC;程序410具体可以用于使得处理器402执行上述任意方法实施例中的主题数据集的创建方法;和/或联邦学习装置包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC;程序410具体可以用于使得处理器402执行上述任意方法实施例中的联邦学习方法。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。
Claims (10)
1.一种主题数据集的创建方法,其特征在于,包括:
对采集的原始数据进行数据预处理,得到预处理后的第一数据集;
根据联邦学习中心下发的主题数据集的创建要求,从所述第一数据集中进行数据抽取,得到第二数据集;
对所述第二数据集中数据的缺失部分进行插补处理,得到第三数据集;
根据数据集标注要求对所述第三数据集中的数据进行数据标注,得到主题数据集。
2.根据权利要求1所述的方法,其特征在于,所述对所述第二数据集中数据的缺失部分进行插补处理,得到第三数据集进一步包括:
对缺失程度大于零小于缺失门限的所述第二数据集中的缺失数据进行监测,根据所述监测结果判断所述缺失数据的缺失类型;
根据所述缺失类型选取相应的数据进行降维聚类处理,得到聚类结果;
对所述聚类结果进行特征矩阵转化,得到所述聚类结果对应的原数据点,根据所述原数据点利用牛顿插值法得到应该插入的数据点;
将所述应该插入的数据点插补至所述第二数据集,得到第三数据集。
3.根据权利要求2所述的方法,其特征在于,所述根据所述缺失类型选取相应的数据进行降维聚类处理,得到聚类结果进一步包括:
根据所述缺失类型选取相应的数据组成数据集,对所述数据集进行去中心化处理后计算得到对应的协方差矩阵;
根据所述协方差矩阵计算得到对应的特征值和特征向量,根据所述特征值和特征向量对所述数据集进行降维处理,得到降维处理之后的数据集;
针对所述降维处理之后的数据集,采用基于密度的聚类算法进行聚类处理,得到聚类结果。
4.一种联邦学习方法,其特征在于,包括:
接收用户提交的联邦学习任务,将所述联邦学习任务下发至各个联邦学习节点,以便所述各个联邦学习节点基于各自主题数据集确定是否参加所述联邦学习任务,以及以便参加所述联邦学习任务的初选节点利用其主题数据集对所述联邦学习任务的全局模型进行训练得到训练权重;所述主题数据集通过权利要求1-3任一项所述的创建方法创建得到;
根据进行训练的初选节点的训练时延和数据质量评分对参加所述联邦学习任务的初选节点进行筛选,得到需要聚合的目标节点及所述目标节点相应的训练权重;
根据每个所述目标节点的数据质量评分以及所述目标节点相应的训练权重进行聚合计算,得到全局参数;
判断所述全局参数对应的全局模型是否收敛,如果所述全局模型收敛,则得到所述联邦学习任务的结果,反之,则将所述全局模型下发至参加所述联邦学习任务的初选节点,以便参加所述联邦学习任务的初选节点利用其主题数据集对所述全局模型重新训练。
5.根据权利要求4所述的方法,其特征在于,所述根据进行训练的初选节点的训练时延和数据质量评分对参加所述联邦学习任务的初选节点进行筛选,得到需要聚合的目标节点及所述目标节点相应的训练权重进一步包括:
在参加所述联邦学习任务的各个所述初选节点进行训练的同时启动计时,统计各个所述初选节点的训练时间;
若所述训练时间超过所述时延阈值,则发送中止反馈信号至各个所述初选节点,以便尚未完成训练的初选节点接到所述中止反馈信号后暂停训练;
计算得到剩余所述初选节点的数据质量评分;
根据剩余的所述初选节点的数据质量评分和预设的分数阈值对剩余的所述初选节点进行筛选,得到需要聚合的目标节点及所述目标节点相应的训练权重。
6.根据权利要求4所述的方法,其特征在于,所述初选节点的数据质量评分的计算方法进一步包括:
接收各个所述初选节点存储的各自主题数据集的统计信息,以及从各自主题数据集中抽取的示例数据,所述示例数据是由所述初选节点对各自主题数据集中的部分数据添加拉普拉斯噪声进行模糊化处理后得到的;
根据所述统计信息以及所述示例数据进行计算,得到所述初选节点对应主题数据集的数据量权重向量、数据质量权重向量和数据维度权重向量;
根据所述数据量权重向量、数据质量权重向量和数据维度权重向量,计算得到所述初选节点的综合评估矩阵;
根据所述初选节点的综合评估矩阵计算得到所述初选节点的正理想解和负理想解;
根据所述正理想解计算得到所述初选节点到所述正理想解之间的第一距离,以及根据所述负理想解计算得到所述初选节点到所述负理想解之间的第二距离;
根据所述第一距离和所述第二距离计算得到所述初选节点的数据质量评分。
7.一种主题数据集的创建装置,其特征在于,包括:
数据预处理模块,用于对采集的原始数据进行数据预处理,得到预处理后的第一数据集;
数据抽取模块,用于根据联邦学习中心下发的主题数据集的创建要求,从所述第一数据集中进行数据抽取,得到第二数据集;
插补处理模块,用于对所述第二数据集中数据的缺失部分进行插补处理,得到第三数据集;
主题数据集获取模块,用于根据数据集标注要求对所述第三数据集中的数据进行数据标注,得到主题数据集。
8.一种联邦学习装置,其特征在于,包括:
任务下发模块,用于接收用户提交的联邦学习任务,将所述联邦学习任务下发至各个联邦学习节点,以便所述各个联邦学习节点基于各自主题数据集确定是否参加所述联邦学习任务,以及以便参加所述联邦学习任务的初选节点利用其主题数据集对所述联邦学习任务的全局模型进行训练得到训练权重;所述主题数据集通过权利要求7所述的创建装置创建得到;
节点选择模块,用于根据进行训练的初选节点的训练时延和数据质量评分对参加所述联邦学习任务的初选节点进行筛选,得到需要聚合的目标节点及所述目标节点相应的训练权重;
聚合模块,用于根据每个所述目标节点的数据质量评分以及所述目标节点相应的训练权重进行聚合计算,得到全局参数;
判断模块,用于判断所述全局参数对应的全局模型是否收敛,如果所述全局模型收敛,则得到联邦学习结果,反之,则将所述全局模型下发至参加所述联邦学习任务的初选节点,以便参加所述联邦学习任务的初选节点利用其主题数据集对所述全局模型重新训练。
9.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-3中任一项所述的主题数据集的创建方法对应的操作,和/或执行如权利要求4-6中任一项所述的联邦学习方法对应的操作。
10.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-3中任一项所述的主题数据集的创建方法对应的操作,和/或执行如权利要求4-6中任一项所述的联邦学习方法对应的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310084092.5A CN116910527A (zh) | 2023-01-16 | 2023-01-16 | 主题数据集的创建方法及装置、联邦学习方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310084092.5A CN116910527A (zh) | 2023-01-16 | 2023-01-16 | 主题数据集的创建方法及装置、联邦学习方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116910527A true CN116910527A (zh) | 2023-10-20 |
Family
ID=88361543
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310084092.5A Pending CN116910527A (zh) | 2023-01-16 | 2023-01-16 | 主题数据集的创建方法及装置、联邦学习方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116910527A (zh) |
-
2023
- 2023-01-16 CN CN202310084092.5A patent/CN116910527A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tuor et al. | Overcoming noisy and irrelevant data in federated learning | |
CN109309630B (zh) | 一种网络流量分类方法、系统及电子设备 | |
CN108629413A (zh) | 神经网络模型训练、交易行为风险识别方法及装置 | |
CN111858123B (zh) | 基于有向图网络的故障根因分析方法和装置 | |
BR102018068976A2 (pt) | Sistemas e métodos para inferência automatizada de alterações nas imagens espaço-temporais | |
WO2023185539A1 (zh) | 机器学习模型训练方法、业务数据处理方法、装置及系统 | |
WO2022105336A1 (zh) | 图像分类方法及电子设备 | |
WO2021012894A1 (zh) | 获取神经网络测试报告的方法、装置、设备和存储介质 | |
CN110046297B (zh) | 运维违规操作的识别方法、装置和存储介质 | |
CN112420187A (zh) | 一种基于迁移联邦学习的医疗疾病分析方法 | |
US10972703B2 (en) | Method, device, and storage medium for processing webcam data | |
CN112115957A (zh) | 数据流识别方法及装置、计算机存储介质 | |
US20230215125A1 (en) | Data identification method and apparatus | |
EP3890312B1 (en) | Distributed image analysis method and system, and storage medium | |
US10853689B2 (en) | Methods for more effectively moderating one or more images and devices thereof | |
CN115600128A (zh) | 一种半监督加密流量分类方法、装置及存储介质 | |
WO2021081741A1 (zh) | 一种基于多关系社交网络的图像分类方法及系统 | |
CN112115994A (zh) | 图像识别模型的训练方法、装置、服务器及存储介质 | |
CN116910527A (zh) | 主题数据集的创建方法及装置、联邦学习方法及装置 | |
US20180081970A1 (en) | Data retrieval system and data retrieval method | |
CN110544182A (zh) | 一种基于机器学习技术的配电通信网融合控制方法及系统 | |
CN113239126A (zh) | 一种基于bor方法的业务活动信息标准化方案 | |
CN106530199A (zh) | 基于窗口式假设检验的多媒体综合隐写分析方法 | |
CN105516283B (zh) | 一种提高云计算环境稳定性的装置 | |
CN111611981A (zh) | 信息识别方法和装置及信息识别神经网络训练方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |