CN114782668A - 模型聚合方法、装置、系统及电子设备 - Google Patents

模型聚合方法、装置、系统及电子设备 Download PDF

Info

Publication number
CN114782668A
CN114782668A CN202110005363.4A CN202110005363A CN114782668A CN 114782668 A CN114782668 A CN 114782668A CN 202110005363 A CN202110005363 A CN 202110005363A CN 114782668 A CN114782668 A CN 114782668A
Authority
CN
China
Prior art keywords
data
model
participating nodes
node
participating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110005363.4A
Other languages
English (en)
Inventor
于路
信伦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Communications Ltd Research Institute filed Critical China Mobile Communications Group Co Ltd
Priority to CN202110005363.4A priority Critical patent/CN114782668A/zh
Publication of CN114782668A publication Critical patent/CN114782668A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种模型聚合方法、装置、系统及电子设备,属于通信技术领域。该方法包括:协调节点生成特征数据集合;将所述特征数据集合发送至多个参与节点;由所述多个参与节点获取多个均衡度量值,所述均衡度量值是所述多个参与节点基于所述特征数据集合对其本地样本数据进行补充之后生成的;由所述多个参与节点获取多个初始模型;基于所述多个均衡度量值对所述多个初始模型进行模型聚合。本申请能够解决现有技术中存在的数据非独立分布现象,提高了模型聚合的效果和速度,也大大提高了模型计算的精度和准确度。

Description

模型聚合方法、装置、系统及电子设备
技术领域
本申请实施例涉及通信技术领域,具体涉及一种模型聚合方法、装置、系统及电子设备。
背景技术
近年来,人工智能进入以深度学习为主导的大数据时代,大数据是当前人工智能应用的基本元素。然而,在实际应用中,我们面对的数据现状是:小规模、碎片化、缺乏数据标签、数据分散、由用户隐私保护和数据安全引发的数据孤岛现象等。传统的方法是将分散在各处的数据聚合到数据中心,在数据中心进行建模。随着应用领域的不断扩大和用户隐私保护各项法律法规的不断完善,传统的数据聚合后再建模的方法越来越难以实施,于是,联邦学习应运而生。
联邦学习的基本思想是在保证用户隐私和数据安全的条件下,构建多个参与方共享的高性能模型,旨在解决隐私保护和数据孤岛问题。具体方法是使用多方的数据联合建模,建模过程中各方数据不离开本地,不暴露给各参与建模方,以达到保护用户隐私和数据安全的目的,同时利用各方数据建立高性能模型。实际应用中,会出现模型效果不佳等问题,各节点数据非独立同分布是其中的一个重要原因。目前尚未见到解决此类问题的较为成熟的方法。
在所述背景技术部分公开的上述信息仅用于加强对本申请的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本申请实施例的目的是提供一种模型聚合方法、装置、系统及电子设备,能够解决现有技术中存在的数据非独立分布现象,导致模型效果不佳的问题,并通过对样本数据进行补充和均衡计算的方式,提高了模型聚合的效果和速度,也大大提高了模型计算的精度和准确度。
为了解决上述技术问题,本申请是这样实现的:
根据本申请的第一方面,提出一种模型聚合方法,应用于协调节点,包括:
协调节点生成特征数据集合;
将所述特征数据集合发送至多个参与节点;
由所述多个参与节点获取多个均衡度量值,所述均衡度量值是所述多个参与节点基于所述特征数据集合对其本地样本数据进行补充之后生成的;
由所述多个参与节点获取多个初始模型;
基于所述多个均衡度量值对所述多个初始模型进行模型聚合。
可选地,所述协调节点生成特征数据集合,包括:
由所述多个参与节点分别获取m个数据的特征值;
根据所述多个参与节点分别获取的m个数据的特征值,生成所述特征数据集合;
其中,m为正整数。
可选地,所述由所述多个参与节点分别获取m个数据的特征值之前,还包括:
由所述多个参与节点获取其本地样本数据的数据量;
基于所述多个参与节点的本地样本数据的数据量,计算所述参与节点的数据量平均值;
基于所述数据量平均值和所述参与节点的个数,确定m的值。
可选地,所述协调节点生成特征数据集合之前,还包括:
由所述多个参与节点分别获取其本地样本数据的多个样本类别;
根据所述样本类别,生成样本类别集合;
将所述样本类别集合发送至所述多个参与节点;
接收所述参与节点根据所述样本类别集合反馈的对比结果,所述对比结果用于指示所述参与节点是否有数据缺失;
所述协调节点生成特征数据集合,包括:
在接收到所述参与节点反馈的用于指示所述参与节点有数据缺失的对比结果的情况下,所述协调节点生成特征数据集合。
可选地,所述基于所述多个均衡度量值对所述多个初始模型进行模型聚合,包括:
根据所述多个参与节点的均衡度量值,确定所述多个参与节点对应的权重;
所述多个参与节点对应的权重,对所述多个初始模型进行模型聚合。
可选地,所述根据所述多个参与节点的均衡度量值,确定所述多个参与节点对应的权重,包括:
根据所述多个参与节点的均衡度量值确定总均衡度量值;
根据每个参与节点的均衡度量值在总均衡度量值中的比重,确定所述多个参与节点对应的权重。
可选地,所述基于所述多个均衡度量值对所述多个初始模型进行模型聚合之后,还包括:
将模型聚合后生成的全局模型发送给所述多个参与节点。
根据本申请的第二方面,提出一种模型聚合装置,应用于协调节点,包括:
第一生成模块,用于生成特征数据集合;
第一发送模块,用于将所述特征数据集合发送至多个参与节点;
第一获取模块,用于由所述多个参与节点获取多个均衡度量值,所述均衡度量值是所述多个参与节点基于所述特征数据集合对其本地样本数据进行补充之后生成的;
第二获取模块,用于由所述多个参与节点获取多个初始模型;
聚合模块,用于基于所述多个均衡度量值对所述多个初始模型进行模型聚合。
可选地,所述第一生成模块包括:
第一获取子模块,用于由所述多个参与节点分别获取m个数据的特征值;
第一生成子模块,用于根据所述多个参与节点分别获取的m个数据的特征值,生成所述特征数据集合;
其中,m为正整数。
可选地,所述第一生成模块还包括:
第二获取子模块,用于由所述多个参与节点获取其本地样本数据的数据量;
计算子模块,用于基于所述多个参与节点的本地样本数据的数据量,计算所述参与节点的数据量平均值;
第一确定子模块,用于基于所述数据量平均值和所述参与节点的个数,确定m的值。
可选地,所述装置还包括:
第三获取模块,用于由所述多个参与节点分别获取其本地样本数据的多个样本类别;
第二生成模块,用于根据所述样本类别,生成样本类别集合;
第二发送模块,用于将所述样本类别集合发送至所述多个参与节点;
接收模块,用于接收所述参与节点根据所述样本类别集合反馈的对比结果,所述对比结果用于指示所述参与节点是否有数据缺失;
所述第一生成模块包括:
第二生成子模块,用于在接收到所述参与节点反馈的用于指示所述参与节点有数据缺失的对比结果的情况下,所述协调节点生成特征数据集合。
可选地,所述聚合模块包括:
第二确定子模块,用于根据所述多个参与节点的均衡度量值,确定所述多个参与节点对应的权重;
聚合子模块,用于所述多个参与节点对应的权重,对所述多个初始模型进行模型聚合。
可选地,所述第二确定子模块包括:
第一确定单元,用于根据所述多个参与节点的均衡度量值确定总均衡度量值;
第二确定单元,用于根据每个参与节点的均衡度量值在总均衡度量值中的比重,确定所述多个参与节点对应的权重。
可选地,所述装置还包括:
第三发送模块,用于将模型聚合后生成的全局模型发送给所述多个参与节点。
根据本申请的第三方面,提出一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的模型聚合方法的步骤。
根据本申请的第四方面,提出一种可读介质,其上存储有程序,所述程序被处理器执行时实现如上所述的模型聚合方法的步骤。
根据本申请的第五方面,提出一种模型聚合方法,应用于参与节点,包括:
参与节点由协调节点获取特征数据集合;
根据所述特征数据集合,对本地样本数据进行补充;
计算补充之后的本地样本数据的均衡度量值;
基于补充之后的本地样本数据对机器学习模型进行训练,生成初始模型;
将所述均衡度量值和所述初始模型发送至所述协调节点。
可选地,所述参与节点由协调节点获取特征数据集合之前,还包括:
所述参与节点将本地样本数据的数据量发送给所述协调节点;
由所述协调节点获取m的值;
提取本地样本数据中的m个数据的特征值,并将所述m个数据的特征值发送给所述协调节点;
其中,m为正整数。
可选地,所述参与节点由协调节点获取特征数据集合之前,还包括:
所述参与节点统计其本地样本数据的样本类别;
将所述本地样本数据的样本类别发送至所述协调节点;
接收所述协调节点根据所述样本类别反馈的样本类别集合;
将所述样本类别集合与所述本地样本数据的样本类别进行对比,并将对比结果反馈至所述协调节点,所述对比结果用于指示所述参与节点是否有数据缺失。
可选地,所述根据所述特征数据集合,对本地样本数据进行补充,包括:
从所述特征数据结合中抽取所述本地样本数据的样本类别所缺失类别的样本数据;
根据所述本地样本数据和所抽取的样本数据,确定补充之后的本地样本数据。
可选地,所述将所述均衡度量值和所述初始模型发送至所述协调节点之后,还包括:
由所述协调节点获取对所述初始模型进行模型聚合后的全局模型;
对所述全局模型进行本地化更新。
根据本申请的第六方面,提供一种模型聚合装置,应用于参与节点,包括:
第一获取模块,用于由协调节点获取特征数据集合;
补充模块,用于根据所述特征数据集合,对本地样本数据进行补充;
计算模块,用于计算补充之后的本地样本数据的均衡度量值;
模型训练模块,用于基于补充之后的本地样本数据对机器学习模型进行训练,生成初始模型;
第一发送模块,用于将所述均衡度量值和所述初始模型发送至所述协调节点。
可选地,所述装置还包括:
第二发送模块,用于所述参与节点将本地样本数据的数据量发送给所述协调节点;
第二获取模块,用于由所述协调节点获取m的值;
第三发送模块,用于提取本地样本数据中的m个数据的特征值,并将所述m个数据的特征值发送给所述协调节点;
其中,m为正整数。
可选地,所述装置还包括:
统计模块,用于所述参与节点统计其本地样本数据的样本类别;
第四发送模块,用于将所述本地样本数据的样本类别发送至所述协调节点;
接收模块,用于接收所述协调节点根据所述样本类别反馈的样本类别集合;
反馈模块,用于将所述样本类别集合与所述本地样本数据的样本类别进行对比,并将对比结果反馈至所述协调节点,所述对比结果用于指示所述参与节点是否有数据缺失。
可选地,所述补充模块包括:
抽取子模块,用于从所述特征数据结合中抽取所述本地样本数据的样本类别所缺失类别的样本数据;
补充子模块,用于根据所述本地样本数据和所抽取的样本数据,确定补充之后的本地样本数据。
可选地,所述装置还包括:
获取模块,用于由所述协调节点获取对所述初始模型进行模型聚合后的全局模型;
更新模块,用于对所述全局模型进行本地化更新。
根据本申请的第七方面,提供一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的模型聚合方法的步骤。
根据本申请的第八方面,提供一种可读介质,其上存储有程序,所述程序被处理器执行时实现如上所述的模型聚合方法的步骤。
根据本申请的第九方面,提供一种模型聚合系统,包括:
协调节点,用于生成特征数据集合;将所述特征数据集合发送至多个参与节点;由所述多个参与节点获取多个均衡度量值,所述均衡度量值是所述多个参与节点基于所述特征数据集合对其本地样本数据进行补充之后生成的;由所述多个参与节点获取多个初始模型;基于所述多个均衡度量值对所述多个初始模型进行模型聚合;
多个参与节点,用于由协调节点获取特征数据集合;根据所述特征数据集合,对本地样本数据进行补充;计算补充之后的本地样本数据的均衡度量值;基于补充之后的本地样本数据对机器学习模型进行训练,生成初始模型;将所述均衡度量值和所述初始模型发送至所述协调节点。
本申请的上述技术方案的有益效果如下:
本申请的上述方案,在模型训练开始前,增加各节点数据检测环节,根据检测结果,进行数据补充和均衡性计算,根据各节点均衡性结果,确定模型聚合策略的方式,能够解决现有技术中存在的数据非独立分布现象,提高了模型聚合的效果和速度,以及提高了模型计算的精度和准确度。
附图说明
通过参照附图详细描述其示例实施例,本申请的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是现有技术中的联邦学习方法的示意图。
图2是根据一示例性实施例示出的一种模型聚合方法的流程图。
图3是根据另一示例性实施例示出的一种模型聚合方法的流程图。
图4是根据又一示例性实施例示出的一种模型聚合方法的示意图。
图5是根据再一示例性实施例示出的一种模型聚合方法的示意图。
图6是根据一示例性实施例示出的一种模型聚合装置的框图。
图7是根据另一示例性实施例示出的一种模型聚合装置的框图。
图8是根据一示例性实施例示出的一种模型聚合系统的框图。
图9是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
横向联邦学习是联邦学习的重要组成部分,主要应用于多个参与方的数据结构相同,但数据量不足,在互相不暴露数据隐私的条件下,通过联合建模,得到高性能模型。横向联邦学习中各参与方算法模型与数据特征一致,各个参与方利用本地数据训练局部模型,并将参数加密传给协调方,由协调方将各方上传的加密模型参数解密并合并为全局模型,再将全局模型加密传输给各个参与方进行本地化更新。基本流程如图1所示。
①本地训练任务配置;
②本地模型训练并提取参数;
③模型参数加密传输;
④参数化模型合并;
⑤合并后模型参数下发;
⑥本地化更新;
上述过程是目前业界通用的横向联邦学习流程,实际应用中,会出现模型效果不佳等问题,其中联邦学习过程中,各节点数据非独立同分布是造成模型效果不佳一个重要原因。在横向联邦学习的实施过程中,各参与节点数据非独立同分布是普遍存在的现象。这里非独立同分布有两个层面的意义:
1.不同节点各类别数据的样本量的分布不同;
2.不同节点同一类别数据特征的分布不同。
各节点非独立同分布的数据进行联邦建模,会严重影响模型精度,达不到通过联邦学习建立模型解决问题的目的。目前,业界并无较为成熟的方法解决联邦学习各节点数据非独立同分布问题。
针对上述问题,本申请从非独立同分布数据特点出发,提出了节点数据补充修正方法和基于数据分布均衡性的模型聚合策略。本申请的模型聚合方法,能够在各参与方数据非独立同分布情况下,提高模型精度。基本思想是在模型训练开始前,增加各节点数据检测环节,根据检测结果,进行数据补充和均衡性计算,根据各节点均衡性结果,确定模型聚合策略。下面借助于具体的实施例,对本申请的内容进行详细说明。
图2是根据一示例性实施例示出的一种模型聚合方法的流程图。模型聚合方法20可应用于协调节点,至少包括步骤S202至S210。
如图2所示,在S202中,协调节点生成特征数据集合。
可例如,由所述多个参与节点分别获取m个数据的特征值;根据所述多个参与节点分别获取的m个数据的特征值,生成所述特征数据集合;其中,m为正整数。
其中,所述由所述多个参与节点分别获取m个数据的特征值之前,还包括:由所述多个参与节点获取其本地样本数据的数据量;基于所述多个参与节点的本地样本数据的数据量,计算所述参与节点的数据量平均值;基于所述数据量平均值和所述参与节点的个数,确定m的值。
其中,所述协调节点生成特征数据集合之前,还包括:由所述多个参与节点分别获取其本地样本数据的多个样本类别;根据所述样本类别,生成样本类别集合;将所述样本类别集合发送至所述多个参与节点。
在一个实施例中,可例如,接收所述参与节点根据所述样本类别集合反馈的对比结果,所述对比结果用于指示所述参与节点是否有数据缺失;所述协调节点生成特征数据集合,包括:在接收到所述参与节点反馈的用于指示所述参与节点有数据缺失的对比结果的情况下,所述协调节点生成特征数据集合。
在S204中,将所述特征数据集合发送至多个参与节点。
例如,数据分布不均衡会对模型精度有很大影响。因此,在将数据类别补充完整后,首先对各节点数据分布的均衡性进行度量,然后根据度量结果确定该节点在模型聚合时的权重,以达到提高联邦模型精度的目的。
在S206中,由所述多个参与节点获取多个均衡度量值,所述均衡度量值是所述多个参与节点基于所述特征数据集合对其本地样本数据进行补充之后生成的。
其中,所述根据所述多个参与节点的均衡度量值,确定所述多个参与节点对应的权重,包括:根据所述多个参与节点的均衡度量值确定总均衡度量值;根据每个参与节点的均衡度量值在总均衡度量值中的比重,确定所述多个参与节点对应的权重。
在S208中,由所述多个参与节点获取多个初始模型。
在S210中,基于所述多个均衡度量值对所述多个初始模型进行模型聚合。
可例如,根据所述多个参与节点的均衡度量值,确定所述多个参与节点对应的权重;所述多个参与节点对应的权重,对所述多个初始模型进行模型聚合。
其中,所述基于所述多个均衡度量值对所述多个初始模型进行模型聚合之后,还包括:将模型聚合后生成的全局模型发送给所述多个参与节点。
更具体的,全局模型可例如用户画像模型,多个参与方可为多个用户通信平台,多个用户通信平台中的每个均可以通过全局模型对线上获得的用户数据进行分析,得到用户画像,还可通过用户画像为用户提供更加有针对性的服务。
本申请的模型聚合方法,从各参与建模节点数据完整性和分布均衡性出发,提出了各节点数据非独立同分布条件下,提高联邦建模精度和效率的方法和策略。
应清楚地理解,本申请描述了如何形成和使用特定示例,但本申请的原理不限于这些示例的任何细节。相反,基于本申请公开的内容的教导,这些原理能够应用于许多其它实施例。
图3是根据一示例性实施例示出的一种模型聚合方法的流程图。模型聚合方法20可应用于参与节点,至少包括步骤S302至S210。
如图3所示,在S302中,参与节点由协调节点获取特征数据集合。
在一个实施例中,还包括:所述参与节点将本地样本数据的数据量发送给所述协调节点;由所述协调节点获取m的值;提取本地样本数据中的m个数据的特征值,并将所述m个数据的特征值发送给所述协调节点;其中,m为正整数。
在S304中,根据所述特征数据集合,对本地样本数据进行补充。
其中,所述参与节点由协调节点获取特征数据集合之前,还包括:所述参与节点统计其本地样本数据的样本类别;将所述本地样本数据的样本类别发送至所述协调节点;接收所述协调节点根据所述样本类别反馈的样本类别集合;将所述样本类别集合与所述本地样本数据的样本类别进行对比以确定是否存在缺失类别。
更进一步的,存在缺失类别的参与节点可从所述特征数据结合中抽取所述本地样本数据的样本类别所缺失类别的样本数据;根据所述本地样本数据和所抽取的样本数据,确定补充之后的本地样本数据。
在S306中,计算补充之后的本地样本数据的均衡度量值。
可选地,均衡度量值可为信息熵/基尼指数。
在S308中,基于补充之后的本地样本数据对机器学习模型进行训练,生成初始模型。
在S310中,将所述均衡度量值和所述初始模型发送至所述协调节点。
可选地,所述方法还可以包括:由所述协调节点获取对所述初始模型进行模型聚合后的全局模型;对所述全局模型进行本地化更新。
本申请的上述方案,在模型训练开始前,增加各节点数据检测环节,根据检测结果,进行数据补充和均衡性计算,根据各节点均衡性结果,确定模型聚合策略的方式,能够解决现有技术中存在的数据非独立分布现象,提高了模型聚合的效果和速度,以及提高了模型计算的精度和准确度。
图4是根据另一示例性实施例示出的一种模型聚合方法的示意图。图4示出了模型聚合方法的全过程。本申请从两方面考察各节点数据的分布情况:一方面,是否包含所有类别的数据;另一方面,如果包含所有类别的数据,各类别数据的均衡性。首先,给各节点补充完整所有类别的数据,然后,计算补充后的数据的均衡性度量值,根据该度量值确定相关节点在模型聚合中的权重。具体方法如图4所示:
1.参与建模节点数据类别不完整解决方案:
(1)所有节点统计自身数据的类别,给出自身数据类别列表,发送给协调节点;
(2)对于每个类别,各参与节点提取该类别每个样本数据的特征,作为后续建模的输入,同时,找到对建模结果影响最大的特征,称为关键特征,并求得其均值;
(3)协调节点收到各参与节点的类别列表,合并后得到全体数据的类别集,发送给各参与节点;
(4)各参与节点把自己的类别集与协调节点发送的整体结果对比,确定自己数据是否有缺失,并把是否缺失发给协调节点。
(5)协调节点在建模流程开始之前,统计各参与节点样本量,计算平均值M,再用M除以节点个数,设商为m。每个参与节点在自己数据集中随机抽取m条数据,提取其特征,将m条数据的特征值发送给协调节点,合并组成特征数据集S。
(6)协调节点给数据有缺失的参与节点发送数据集S,该参与节点从中抽取自己缺失的类别的样本,组成类别完整的数据集。在抽取时,参与节点选择与自己相关类别关键特征均值差别较大的样本。
2.基于各节点数据均衡性的模型聚合方案:
用来建模的数据集各类别分布越均衡,建模效果越好。因此,协调节点在进行模型聚合时,依据各参与节点建模数据的均衡性,对其提供的模型参数进行加权求和。权重的确定与建模数据的均衡性度量值相关,均衡性越强,权重越大。
具体实施时,在各参与节点数据补充完整后,建模开始前,各参与节点计算自己数据的均衡性度量值(如:信息熵/基尼指数),并发送给协调节点。协调节点计算所有参与节点的均衡性度量值的和,将每个参与节点的度量值在总和中的占比作为该参与节点模型在全局模型聚合时的权重。上述准备工作完成后,开始建模。
在一个具体的实施例中,在运营商业务办理过程中,常常需要用户签字以及手动填写相关信息,为保证用户权益,需要进行手写文字的识别。由于相关数据是在各地市公司保存的,为保护用户隐私数据不能外传,因此,使用横向联邦学习的方法进行手写文字识别建模。以下针对手写体数字识别联邦学习模型的构建,给出上述方法的实施例。
本实施例的数据选取MNIST数据集,它由手写体数字的图片和对应的标签组成,图5所示。
MNIST数据集分为训练图像和测试图像。每一个图片代表0-9中的一个数字,且图片大小均为28*28的矩阵。
现从训练图像中每个类别随机抽取600个样本,共计6000个样本,随机分布在50个节点上,各节点包含的数字类别非独立同分布,部分节点包含全部10个数字的样本,其它只包含10个数字中的一部分的样本,各节点的样本量随机;另一方面,从实际的数据看,不同节点的数据中同一个数字的样本有些也有较大差异,如:手写数字“1”,有直接就是一条竖直短线的,也有类似印刷体,上面带钩下面带一短横线的。数据实验表明:这种情况下联邦学习建模效果较差,当所有节点包含的数字均不完整,且数字类别交集较小时,对于同样的测试样本,联邦学习模型的识别准确率与各节点单节点建模的准确率差别很小,达不到多节点联邦学习建立精准模型的目的。
为解决上述问题,根据图4所示的流程,操作如下:
协调节点向各建模节点发布样本量、样本类别数和样本各类别特征提取统计通知;
各建模节点统计自己的样本量和样本包含的类别数后,对自己的每个类别样本做降维PCA处理,统计第一主成分的均值和标准差,然后将样本量、类别数发给协调节点;
协调节点对各节点的样本量求和后取平均,得到每个节点的平均样本量120。然后给每个节点发送消息,要求它们随机抽取3个样本,将其降维后的数据以及标签发给协调节点:
协调节点合并各节点发来的样本形成样本集S,统计其类别分布,若有类别样本不足8个,则向各节点发布消息,要求各节点随机抽取2个样本,并将其降维后的数据和标签发给协调节点;
重复过程4,直到S中所有类别样本量都不少于8;
协调节点给需要补充样本的节点发送数据集S,并告知其补充缺失样本;
数据类别有缺失的节点收到S后,选取自己缺失类别的样本,注意选择第一主分量与自己样本集的第一主分量差异较大的样本,合并到自己的样本集中。
协调节点给各节点发送消息,要求其计算其样本的GINI指数,并发送给协调节点。公式可如下:
Figure BDA0002883090880000151
其中,k是样本包含的类别数,可例如为10,pk是类别k所占比例。
协调节点收到各节点的GINI指数后,求和并计算每个节点的指数所占比例wi,i=1,2,…,50作为其在模型聚合时参数求和对应的权重;
协调节点向各节点发布模型参数初始值,开始联邦学习建模,建模过程中使用上述权重进行模型聚合。
在联邦学习的实施过程中,各节点数据非独立同分布是普遍存在的现象,严重影响了联邦学习模型的精度。目前,现有技术对于这一问题还没有成熟的解决方法。
根据本申请的模型聚合方法,可以从节点样本分布出发,首先给样本有缺失的节点补充缺失类别样本,解决部分节点样本类别缺失可能对联邦学习模型带来的负面影响;进一步把各节点样本分布的均衡性作为其训练的参数在后续模型聚合中的权重,有效提高了整体模型的精度。
本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时,执行本申请提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中,该存储介质可以是只读存储器,磁盘或光盘等。
此外,需要注意的是,上述附图仅是根据本申请示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
图6是根据一示例性实施例示出的一种模型聚合装置的框图。如图6所示,模型聚合装置60,可用于协调节点,包括:
第一生成模块601,用于生成特征数据集合;
第一发送模块602,用于将所述特征数据集合发送至多个参与节点;
第一获取模块603,用于由所述多个参与节点获取多个均衡度量值,所述均衡度量值是所述多个参与节点基于所述特征数据集合对其本地样本数据进行补充之后生成的;
第二获取模块604,用于由所述多个参与节点获取多个初始模型;
聚合模块605,用于基于所述多个均衡度量值对所述多个初始模型进行模型聚合。
可选地,所述第一生成模块601包括:
第一获取子模块,用于由所述多个参与节点分别获取m个数据的特征值;
第一生成子模块,用于根据所述多个参与节点分别获取的m个数据的特征值,生成所述特征数据集合;
其中,m为正整数。
可选地,所述第一生成模块601还包括:
第二获取子模块,用于由所述多个参与节点获取其本地样本数据的数据量;
计算子模块,用于基于所述多个参与节点的本地样本数据的数据量,计算所述参与节点的数据量平均值;
第一确定子模块,用于基于所述数据量平均值和所述参与节点的个数,确定m的值。
可选地,所述装置60还包括:
第三获取模块,用于由所述多个参与节点分别获取其本地样本数据的多个样本类别;
第二生成模块,用于根据所述样本类别,生成样本类别集合;
第二发送模块,用于将所述样本类别集合发送至所述多个参与节点;
接收模块,用于接收所述参与节点根据所述样本类别集合反馈的对比结果,所述对比结果用于指示所述参与节点是否有数据缺失;
所述第一生成模块601包括:
第二生成子模块,用于在接收到所述参与节点反馈的用于指示所述参与节点有数据缺失的对比结果的情况下,所述协调节点生成特征数据集合。
可选地,所述聚合模块605包括:
第二确定子模块,用于根据所述多个参与节点的均衡度量值,确定所述多个参与节点对应的权重;
聚合子模块,用于所述多个参与节点对应的权重,对所述多个初始模型进行模型聚合。
可选地,所述第二确定子模块包括:
第一确定单元,用于根据所述多个参与节点的均衡度量值确定总均衡度量值;
第二确定单元,用于根据每个参与节点的均衡度量值在总均衡度量值中的比重,确定所述多个参与节点对应的权重。
可选地,所述装置60还包括:
第三发送模块,用于将模型聚合后生成的全局模型发送给所述多个参与节点。
上述方案中,在模型训练开始前,增加各节点数据检测环节,根据检测结果,进行数据补充和均衡性计算,根据各节点均衡性结果,确定模型聚合策略的方式,能够解决现有技术中存在的数据非独立分布现象,提高了模型聚合的效果和速度,以及提高了模型计算的精度和准确度。
图7是根据一示例性实施例示出的一种模型聚合装置的框图。如图7所示,模型聚合装置70,可用于参与节点,包括:
第一获取模块701,用于由协调节点获取特征数据集合;
补充模块702,用于根据所述特征数据集合,对本地样本数据进行补充;
计算模块703,用于计算补充之后的本地样本数据的均衡度量值;
模型训练模块704,用于基于补充之后的本地样本数据对机器学习模型进行训练,生成初始模型;
第一发送模块705,用于将所述均衡度量值和所述初始模型发送至所述协调节点。
可选地,所述装置70还包括:
第二发送模块,用于所述参与节点将本地样本数据的数据量发送给所述协调节点;
第二获取模块,用于由所述协调节点获取m的值;
第三发送模块,用于提取本地样本数据中的m个数据的特征值,并将所述m个数据的特征值发送给所述协调节点;
其中,m为正整数。
可选地,所述装置70还包括:
统计模块,用于所述参与节点统计其本地样本数据的样本类别;
第四发送模块,用于将所述本地样本数据的样本类别发送至所述协调节点;
接收模块,用于接收所述协调节点根据所述样本类别反馈的样本类别集合;
反馈模块,用于将所述样本类别集合与所述本地样本数据的样本类别进行对比,并将对比结果反馈至所述协调节点,所述对比结果用于指示所述参与节点是否有数据缺失。
可选地,所述补充模块702包括:
抽取子模块,用于从所述特征数据结合中抽取所述本地样本数据的样本类别所缺失类别的样本数据;
补充子模块,用于根据所述本地样本数据和所抽取的样本数据,确定补充之后的本地样本数据。
可选地,所述装置70还包括:
获取模块,用于由所述协调节点获取对所述初始模型进行模型聚合后的全局模型;
更新模块,用于对所述全局模型进行本地化更新。
本申请的上述方案,在模型训练开始前,增加各节点数据检测环节,根据检测结果,进行数据补充和均衡性计算,根据各节点均衡性结果,确定模型聚合策略的方式,能够解决现有技术中存在的数据非独立分布现象,提高了模型聚合的效果和速度,以及提高了模型计算的精度和准确度。
需要说明的是,本申请实施例提供的模型聚合方法,执行主体可以为模型聚合装置,或者该模型聚合装置中的用于执行模型聚合方法的控制模块。本申请实施例中以模型聚合装置执行模型聚合方法为例,说明本申请实施例提供的基于联邦学习的模型聚合装置。
本申请实施例中的模型聚合装置可以是装置,也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备,也可以为非移动电子设备,本申请实施例不作具体限定。
本申请实施例提供的模型聚合装置能够实现图2至图6的方法实施例实现的各个过程,为避免重复,这里不再赘述。
图8是根据一示例性实施例示出的一种模型聚合系统的框图。如图8所示,模型聚合装置80,包括:协调节点801和多个参与节点802。
协调节点801,用于生成特征数据集合;将所述特征数据集合发送至多个参与节点;由所述多个参与节点获取多个均衡度量值,所述均衡度量值是所述多个参与节点基于所述特征数据集合对其本地样本数据进行补充之后生成的;由所述多个参与节点获取多个初始模型;基于所述多个均衡度量值对所述多个初始模型进行模型聚合;
参与节点802,用于由协调节点获取特征数据集合;根据所述特征数据集合,对本地样本数据进行补充;计算补充之后的本地样本数据的均衡度量值;基于补充之后的本地样本数据对机器学习模型进行训练,生成初始模型;将所述均衡度量值和所述初始模型发送至所述协调节点。
图9是根据一示例性实施例示出的一种电子设备的框图。
下面参照图9来描述根据本申请的这种实施方式的电子设备900。图9显示的电子设备900仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图9所示,电子设备900以通用计算设备的形式表现。电子设备900的组件可以包括但不限于:至少一个处理单元910、至少一个存储单元920、连接不同系统组件(包括存储单元920和处理单元910)的总线930、显示单元940等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元910执行,使得所述处理单元910执行本说明书中描述的根据本申请各种示例性实施方式的步骤。例如,所述处理单元910可以执行如图2,图3中所示的步骤。
所述存储单元920可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)9201和/或高速缓存存储单元9202,还可以进一步包括只读存储单元(ROM)9203。
所述存储单元920还可以包括具有一组(至少一个)程序模块9205的程序/实用工具9204,这样的程序模块9205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线930可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备900也可以与一个或多个外部设备900’(例如键盘、指向设备、蓝牙设备等)通信,使得用户能与该电子设备900交互的设备通信,和/或该电子设备900能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口950进行。并且,电子设备900还可以通过网络适配器960与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器960可以通过总线930与电子设备900的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备900使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本申请实施方式的上述方法。
所述软件产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
上述可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该可读介质实现如下功能:
生成特征数据集合;将所述特征数据集合发送至多个参与节点;由所述多个参与节点获取多个均衡度量值,所述均衡度量值是所述多个参与节点基于所述特征数据集合对其本地样本数据进行补充之后生成的;由所述多个参与节点获取多个初始模型;基于所述多个均衡度量值对所述多个初始模型进行模型聚合。
该可读介质还可实现如下功能:由协调节点获取特征数据集合;根据所述特征数据集合,对本地样本数据进行补充;计算补充之后的本地样本数据的均衡度量值;基于补充之后的本地样本数据对机器学习模型进行训练,生成初始模型;将所述均衡度量值和所述初始模型发送至所述协调节点。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

Claims (17)

1.一种模型聚合方法,其特征在于,应用于协调节点,包括:
协调节点生成特征数据集合;
将所述特征数据集合发送至多个参与节点;
由所述多个参与节点获取多个均衡度量值,所述均衡度量值是所述多个参与节点基于所述特征数据集合对其本地样本数据进行补充之后生成的;
由所述多个参与节点获取多个初始模型;
基于所述多个均衡度量值对所述多个初始模型进行模型聚合。
2.如权利要求1所述的模型聚合方法,其特征在于,所述协调节点生成特征数据集合,包括:
由所述多个参与节点分别获取m个数据的特征值;
根据所述多个参与节点分别获取的m个数据的特征值,生成所述特征数据集合;其中,m为正整数。
3.如权利要求2所述的模型聚合方法,其特征在于,所述由所述多个参与节点分别获取m个数据的特征值之前,还包括:
由所述多个参与节点获取其本地样本数据的数据量;
基于所述多个参与节点的本地样本数据的数据量,计算所述参与节点的数据量平均值;
基于所述数据量平均值和所述参与节点的个数,确定m的值。
4.如权利要求1所述的模型聚合方法,其特征在于,所述协调节点生成特征数据集合之前,还包括:
由所述多个参与节点分别获取其本地样本数据的多个样本类别;
根据所述样本类别,生成样本类别集合;
将所述样本类别集合发送至所述多个参与节点;
接收所述参与节点根据所述样本类别集合反馈的对比结果,所述对比结果用于指示所述参与节点是否有数据缺失;
所述协调节点生成特征数据集合,包括:
在接收到所述参与节点反馈的用于指示所述参与节点有数据缺失的对比结果的情况下,所述协调节点生成特征数据集合。
5.如权利要求1所述的模型聚合方法,其特征在于,所述基于所述多个均衡度量值对所述多个初始模型进行模型聚合,包括:
根据所述多个参与节点的均衡度量值,确定所述多个参与节点对应的权重;
所述多个参与节点对应的权重,对所述多个初始模型进行模型聚合。
6.如权利要求5所述的模型聚合方法,其特征在于,所述根据所述多个参与节点的均衡度量值,确定所述多个参与节点对应的权重,包括:
根据所述多个参与节点的均衡度量值确定总均衡度量值;
根据每个参与节点的均衡度量值在总均衡度量值中的比重,确定所述多个参与节点对应的权重。
7.如权利要求1所述的模型聚合方法,其特征在于,所述基于所述多个均衡度量值对所述多个初始模型进行模型聚合之后,还包括:
将模型聚合后生成的全局模型发送给所述多个参与节点。
8.一种模型聚合方法,其特征在于,应用于参与节点,包括:
参与节点由协调节点获取特征数据集合;
根据所述特征数据集合,对本地样本数据进行补充;
计算补充之后的本地样本数据的均衡度量值;
基于补充之后的本地样本数据对机器学习模型进行训练,生成初始模型;
将所述均衡度量值和所述初始模型发送至所述协调节点。
9.如权利要求8所述的模型聚合方法,其特征在于,所述参与节点由协调节点获取特征数据集合之前,还包括:
所述参与节点将本地样本数据的数据量发送给所述协调节点;
由所述协调节点获取m的值;
提取本地样本数据中的m个数据的特征值,并将所述m个数据的特征值发送给所述协调节点;其中,m为正整数。
10.如权利要求8所述的模型聚合方法,其特征在于,所述参与节点由协调节点获取特征数据集合之前,还包括:
所述参与节点统计其本地样本数据的样本类别;
将所述本地样本数据的样本类别发送至所述协调节点;
接收所述协调节点根据所述样本类别反馈的样本类别集合;
将所述样本类别集合与所述本地样本数据的样本类别进行对比,并将对比结果反馈至所述协调节点,所述对比结果用于指示所述参与节点是否有数据缺失。
11.如权利要求10所述的模型聚合方法,其特征在于,所述根据所述特征数据集合,对本地样本数据进行补充,包括:
从所述特征数据结合中抽取所述本地样本数据的样本类别所缺失类别的样本数据;
根据所述本地样本数据和所抽取的样本数据,确定补充之后的本地样本数据。
12.如权利要求8所述的模型聚合方法,其特征在于,所述将所述均衡度量值和所述初始模型发送至所述协调节点之后,还包括:
由所述协调节点获取对所述初始模型进行模型聚合后的全局模型;
对所述全局模型进行本地化更新。
13.一种模型聚合装置,其特征在于,应用于协调节点,包括:
第一生成模块,用于生成特征数据集合;
第一发送模块,用于将所述特征数据集合发送至多个参与节点;
第一获取模块,用于由所述多个参与节点获取多个均衡度量值,所述均衡度量值是所述多个参与节点基于所述特征数据集合对其本地样本数据进行补充之后生成的;
第二获取模块,用于由所述多个参与节点获取多个初始模型;
聚合模块,用于基于所述多个均衡度量值对所述多个初始模型进行模型聚合。
14.一种模型聚合装置,其特征在于,应用于参与节点,包括:
第一获取模块,用于由协调节点获取特征数据集合;
补充模块,用于根据所述特征数据集合,对本地样本数据进行补充;
计算模块,用于计算补充之后的本地样本数据的均衡度量值;
模型训练模块,用于基于补充之后的本地样本数据对机器学习模型进行训练,生成初始模型;
第一发送模块,用于将所述均衡度量值和所述初始模型发送至所述协调节点。
15.一种模型聚合系统,其特征在于,包括:
协调节点,用于生成特征数据集合;将所述特征数据集合发送至多个参与节点;由所述多个参与节点获取多个均衡度量值,所述均衡度量值是所述多个参与节点基于所述特征数据集合对其本地样本数据进行补充之后生成的;由所述多个参与节点获取多个初始模型;基于所述多个均衡度量值对所述多个初始模型进行模型聚合;
多个参与节点,用于由协调节点获取特征数据集合;根据所述特征数据集合,对本地样本数据进行补充;计算补充之后的本地样本数据的均衡度量值;基于补充之后的本地样本数据对机器学习模型进行训练,生成初始模型;将所述均衡度量值和所述初始模型发送至所述协调节点。
16.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-12中任一项所述的模型聚合方法的步骤。
17.一种可读介质,其上存储有程序,其特征在于,所述程序被处理器执行时实现如权利要求1-12中任一项所述的模型聚合方法的步骤。
CN202110005363.4A 2021-01-05 2021-01-05 模型聚合方法、装置、系统及电子设备 Pending CN114782668A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110005363.4A CN114782668A (zh) 2021-01-05 2021-01-05 模型聚合方法、装置、系统及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110005363.4A CN114782668A (zh) 2021-01-05 2021-01-05 模型聚合方法、装置、系统及电子设备

Publications (1)

Publication Number Publication Date
CN114782668A true CN114782668A (zh) 2022-07-22

Family

ID=82407649

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110005363.4A Pending CN114782668A (zh) 2021-01-05 2021-01-05 模型聚合方法、装置、系统及电子设备

Country Status (1)

Country Link
CN (1) CN114782668A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115186285A (zh) * 2022-09-09 2022-10-14 闪捷信息科技有限公司 联邦学习的参数聚合方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115186285A (zh) * 2022-09-09 2022-10-14 闪捷信息科技有限公司 联邦学习的参数聚合方法和装置

Similar Documents

Publication Publication Date Title
TWI712981B (zh) 風險辨識模型訓練方法、裝置及伺服器
CN107168854B (zh) 互联网广告异常点击检测方法、装置、设备及可读存储介质
CN107391359B (zh) 一种业务测试方法及装置
WO2021254027A1 (zh) 一种可疑社团的识别方法、装置、存储介质和计算机设备
CN109345417B (zh) 基于身份认证的业务人员的在线考核方法及终端设备
CN111371767B (zh) 恶意账号识别方法、恶意账号识别装置、介质及电子设备
CN111814910B (zh) 异常检测方法、装置、电子设备及存储介质
CN108961087A (zh) 保险推荐方法、装置、计算机设备和计算机可读存储介质
CN106874253A (zh) 识别敏感信息的方法及装置
EP4167194A1 (en) Key point detection method and apparatus, model training method and apparatus, device and storage medium
CN110276243B (zh) 分数映射方法、人脸比对方法、装置、设备及存储介质
WO2019242627A1 (zh) 一种数据处理方法及其装置
CN113516417A (zh) 基于智能建模的业务评估方法、装置、电子设备及介质
CN104867017A (zh) 电子商务客户虚假评价识别系统
CN115049397A (zh) 识别社交网络中的风险账户的方法及装置
CN106604281A (zh) 一种确定手机号码稳定性的方法及设备
CN114782668A (zh) 模型聚合方法、装置、系统及电子设备
CN113420789A (zh) 一种预测风险账号的方法、装置、存储介质和计算机设备
CN105184170A (zh) 一种基于形式化程度的领域软件可信性评估方法
CN104867032A (zh) 电子商务客户评价鉴别系统
CN116307736A (zh) 风险画像自动生成的方法、装置、设备及存储介质
US20230154077A1 (en) Training method for character generation model, character generation method, apparatus and storage medium
CN115564423A (zh) 基于大数据的留学缴费的分析处理方法
CN114285896A (zh) 信息推送方法、装置、设备、存储介质及程序产品
CN113761145A (zh) 语言模型训练方法、语言处理方法和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination