CN112329820B - 联邦学习下不均衡数据的采样方法与装置 - Google Patents

联邦学习下不均衡数据的采样方法与装置 Download PDF

Info

Publication number
CN112329820B
CN112329820B CN202011135027.3A CN202011135027A CN112329820B CN 112329820 B CN112329820 B CN 112329820B CN 202011135027 A CN202011135027 A CN 202011135027A CN 112329820 B CN112329820 B CN 112329820B
Authority
CN
China
Prior art keywords
data
training
local
model
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011135027.3A
Other languages
English (en)
Other versions
CN112329820A (zh
Inventor
李剑
欧中洪
宋美娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202011135027.3A priority Critical patent/CN112329820B/zh
Publication of CN112329820A publication Critical patent/CN112329820A/zh
Application granted granted Critical
Publication of CN112329820B publication Critical patent/CN112329820B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种联邦学习下不均衡数据的采样方法与装置,其中,装置包括数据监控模块、数据平衡模块、本地训练模块和中心服务器,基于混合采样的不均衡数据平衡方案,根据不同数据集的不平衡比例,基于合成少数样本与聚类下采样集成方法结合的混合采样方法,获得平衡数据集;结合数据集实时监控,在联邦学习场景下对不均衡数据集的自动处理和及时更新;从而通过结合数据级和集成方式的不均衡数据集处理方法,充分利用数据集的能力,并利用数据变动检测通过检测数据集,实现不均衡数据集的自动均衡和更新。

Description

联邦学习下不均衡数据的采样方法与装置
技术领域
本发明涉及数据处理技术领域,特别涉及一种联邦学习下不均衡数据的采样方法与装置。
背景技术
目前针对联邦学习下不均衡数据的问题主要依赖于参与方各自自觉地在联合建模前对本地数据进行,对保证本地数据质量。处理样本不均衡问题的方法主要有三种,(1)通过对数据集进行修改来获得均衡的数据集;(2)通过对机器算法进行修改,来减少对多数类的倾向;(3)将前两种方法之一和集成学习相结合,来获得能力较强的集成分类器:
(1)数据级方式。该方法通过欠采样,即删除多数类别,使其和少数类别数量相同,或者过采样,即增加少数类别,使其和多数类别数量相同,来获得样本均衡的数据集。
(2)算法级方式。该方法通过修改现有的标准机器学习算法以修正他们对多数类的偏好。如代价敏感学习,建立一个代价矩阵,代价矩阵中的数值代表样本被误分类之后的惩罚。设置少数类的样本误分类所产生的代价大于多数类样本的误分类代价。通过最小化整个训练集上的代价,来增加模型对于少数类的分类能力。
(3)集成方式。通过将上述两种方法和集成学习结合,来获得能力较强的集成分类器。如BalanceCascade算法,将Adaboost作为基分类器,在每一轮训练时都使用多数类与少数类数量相等的训练集,然后使用该分类器对全体多数类进行预测,通过控制分类阈值来控制假阳率(FP),将所有判断正确的类删除,然后进入下一轮迭代继续降低多数类样本的数量。
然而,由于算法级的不均衡数据处理方法代价敏感学习中的代价矩阵需要由领域专家根据任务的先验知识提供,这在许多现实问题中显然是不可用的。并且不能泛化到不同任务,对于特定问题设计的代价矩阵只能用于该特定任务,在其他任务上使用时并不能保证良好的性能表现。
因此目前联邦学习下数据不均衡问题的处理方法为各参与方在联合建模前通过采用数据级或集成方式的不均衡数据处理方法,对本地数据集进行数据预处理。
由于在真实的联邦学习协同建模的场景下,各参与方的数据分布各有差异,且其所采用的不均衡数据处理方法也会各有差异,难以保证每个参与方的数据均衡。并且在有新数据加入的时候难以保证各参与方都能够及时更新。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种联邦学习下不均衡数据的采样装置,通过结合数据级和集成方式的不均衡数据集处理方法,充分利用数据集的能力,并利用数据变动检测通过检测数据集,实现不均衡数据集的自动均衡和更新。
本发明的另一个目的在于提出一种联邦学习下不均衡数据的采样方法。
为达到上述目的,本发明一方面实施例提出了一种联邦学习下不均衡数据的采样装置,包括数据监控模块、数据平衡模块、本地训练模块和中心服务器,其中,所述数据监控模块,用于负责对各联邦学习参与方本地训练数据进行监控,并且与所述数据平衡模块和所述本地训练模块交互,以协调联邦学习中本地训练过程中各步骤的进行,均衡训练数据集的样本;所述数据平衡模块,用于根据所述样本的不平衡比例进行相应程度的不平衡处理,以使各参与方基于满足预设均衡条件的数据集进行模型的训练;所述本地训练模块和所述中心服务器之间的工作流程采用预设联邦学习机制,其中,基于本地数据训练得到本地分类模型,将加密之后的模型参数上传给所述中心服务器,所述中心服务器对所有参与方上传的模型信息进行融合,得到全局模型,并将所述全局模型分发到所述各参与方,作为下一轮训练的本地模型,以及基于所述本地数据进行训练,以通过迭代训练使模型收敛,并部署最终模型到所述各参与方。
本发明实施例的联邦学习下不均衡数据的采样装置,基于混合采样的不均衡数据平衡方案,根据不同数据集的不平衡比例,基于合成少数样本与聚类下采样集成方法结合的混合采样方法,获得平衡数据集;结合数据集实时监控,在联邦学习场景下对不均衡数据集的自动处理和及时更新;从而通过结合数据级和集成方式的不均衡数据集处理方法,充分利用数据集的能力,并利用数据变动检测通过检测数据集,实现不均衡数据集的自动均衡和更新。
另外,根据本发明上述实施例的联邦学习下不均衡数据的采样装置还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述数据监控模块具体用于对数据总量和数据类别的统计信息进行维护,其中,数据监控配置表头由当前时间点、当前数据总量、多数类样本数、少数类样本数、与上一时间点总量差值、上一时间点IR值和当前IR值组成。
进一步地,在本发明的一个实施例中,所述数据监控模块进一步用于对所述本地训练模块发出暂停训练的指令,调用所述数据平衡模块,对数据集进行平衡处理,在收到所述数据平衡模块的处理反馈之后,向所述本地训练模块发出启动训练的指令,并在所述本地训练模块收到暂停指令时,若有训练任务正在进行,则需完成当前训练任务,且完成后直到再次收到所述数据监控模块发来的启动命令后进行下一轮的训练。
进一步地,在本发明的一个实施例中,所述数据平衡模块进一步用于对于多数类,首先使用k-means聚类算法,将多数类样本分为n组,并在每一组多数类的样本中随机选择α%的实例进行保留,删除其余样本,获得欠采样后的多数类样本集;根据降采样处理之后的IR值,对部分样本进行基于Smote算法的过采样,并与获得的多数类样本集合并,获得处理后的训练数据集;在得到的数据上基于Adaboost,构建分类模型,其中,对于分类正确的样本降低权重,对分类错误的样本保持权重不变,以在模型融合的过程中,根据错误率对基分类器进行加权融合。
为达到上述目的,本发明另一方面实施例提出了一种联邦学习下不均衡数据的采样方法,包括以下步骤:对各联邦学习参与方本地训练数据进行监控,并协调联邦学习中本地训练过程中各步骤的进行,均衡训练数据集的样本;根据所述样本的不平衡比例进行相应程度的不平衡处理,以使各参与方基于满足预设均衡条件的数据集进行模型的训练;基于本地数据训练得到本地分类模型,将加密之后的模型参数上传给中心服务器,所述中心服务器对所有参与方上传的模型信息进行融合,得到全局模型,并将所述全局模型分发到所述各参与方,作为下一轮训练的本地模型,以及基于所述本地数据进行训练,以通过迭代训练使模型收敛,并部署最终模型到所述各参与方。
本发明实施例的联邦学习下不均衡数据的采样方法,基于混合采样的不均衡数据平衡方案,根据不同数据集的不平衡比例,基于合成少数样本与聚类下采样集成方法结合的混合采样方法,获得平衡数据集;结合数据集实时监控,在联邦学习场景下对不均衡数据集的自动处理和及时更新;从而通过结合数据级和集成方式的不均衡数据集处理方法,充分利用数据集的能力,并利用数据变动检测通过检测数据集,实现不均衡数据集的自动均衡和更新。
另外,根据本发明上述实施例的联邦学习下不均衡数据的采样方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述对各联邦学习参与方本地训练数据进行监控,并协调联邦学习中本地训练过程中各步骤的进行,均衡训练数据集的样本,进一步包括:对数据总量和数据类别的统计信息进行维护,其中,数据监控配置表头由当前时间点、当前数据总量、多数类样本数、少数类样本数、与上一时间点总量差值、上一时间点IR值和当前IR值组成。
进一步地,在本发明的一个实施例中,所述对各联邦学习参与方本地训练数据进行监控,并协调联邦学习中本地训练过程中各步骤的进行,均衡训练数据集的样本,进一步包括:对本地训练模块发出暂停训练的指令,调用数据平衡模块,对数据集进行平衡处理,在收到所述数据平衡模块的处理反馈之后,向所述本地训练模块发出启动训练的指令,并在所述本地训练模块收到暂停指令时,若有训练任务正在进行,则需完成当前训练任务,且完成后直到再次收到数据监控模块发来的启动命令后进行下一轮的训练。
进一步地,在本发明的一个实施例中,所述根据所述样本的不平衡比例进行相应程度的不平衡处理,以使各参与方基于满足预设均衡条件的数据集进行模型的训练,进一步包括:对于多数类,首先使用k-means聚类算法,将多数类样本分为n组,并在每一组多数类的样本中随机选择α%的实例进行保留,删除其余样本,获得欠采样后的多数类样本集;根据降采样处理之后的IR值,对部分样本进行基于Smote算法的过采样,并与获得的多数类样本集合并,获得处理后的训练数据集;在得到的数据上基于Adaboost,构建分类模型,其中,对于分类正确的样本降低权重,对分类错误的样本保持权重不变,以在模型融合的过程中,根据错误率对基分类器进行加权融合。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的联邦学习下不均衡数据的采样装置的结构示意图;
图2为根据本发明一个实施例的联邦学习下不均衡数据的采样装置的结构示意图;
图3为根据本发明实施例的数据平衡模块流程图;
图4为根据本发明实施例的联邦学习下不均衡数据的采样方法的流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
联邦学习是旨在通过分散、独立的数据来构建机器学习模型的一种分布式机器学习方法。避免了集中数据所带来的相关利益冲突以及隐私数据泄漏风险,并结合加密技术进一步保护数据安全,促进人工智能技术的推广与落地。
在联邦学习下,各参与方基于本地数据训练模型,并将加密的模型参数上传给中心服务器,联合所有参与方形成一个模型,最终训练好的模型再部署到各参与方供其使用。在这个联邦学习训练过程中,各参与方本地训练的模型效果决定着最终模型的效果。而往往现实场景中,如医疗辅助诊断、网络攻击检测以及金融欺诈检测等,数据存在样本不均衡的问题,会降低模型的分类性能。因此如何通过处理联邦学习中参与方数据不均衡的问题,提升各参与方模型的效果,对于提升联邦学习整体的模型训练效率和性能有重要意义。
当前对于联邦学习下的数据不均衡问题没有系统的解决方法,存在各参与方数据处理方法难以统一,以及在加入新训练数据时不能及时更新等问题。为解决这些问题,本发明提出了一种基于混合采样的联邦学习下不均衡数据集的处理方法与装置,通过结合数据级和集成方式的不均衡数据集处理方法,充分利用数据集的能力,并利用数据变动检测通过检测数据集,实现不均衡数据集的自动均衡和更新。
下面参照附图描述根据本发明实施例提出的联邦学习下不均衡数据的采样方法与装置,首先将参照附图描述根据本发明实施例提出的联邦学习下不均衡数据的采样装置。
图1是本发明一个实施例的联邦学习下不均衡数据的采样装置的结构示意图。
如图1所示,该联邦学习下不均衡数据的采样装置10包括:数据监控模块100、数据平衡模块200、本地训练模块300和中心服务器400。
其中,数据监控模块100,用于负责对各联邦学习参与方本地训练数据进行监控,并且与数据平衡模块200和本地训练模块300交互,以协调联邦学习中本地训练过程中各步骤的进行,均衡训练数据集的样本;数据平衡模块200,用于根据样本的不平衡比例进行相应程度的不平衡处理,以使各参与方基于满足预设均衡条件的数据集进行模型的训练;本地训练模块300和中心服务器400之间的工作流程采用预设联邦学习机制,其中,基于本地数据训练得到本地分类模型,将加密之后的模型参数上传给中心服务器,中心服务器400对所有参与方上传的模型信息进行融合,得到全局模型,并将全局模型分发到各参与方,作为下一轮训练的本地模型,以及基于本地数据进行训练,以通过迭代训练使模型收敛,并部署最终模型到各参与方。
具体而言,如图2所示,本方案系统包含四个模块,分别是数据监控模块100、数据平衡模块200、本地训练模块300和中心服务器400。其中数据监控模块100和数据平衡模块200为本系统的核心模块。下面将分别进行详细阐述,具体如下:
1.数据监控模块
数据监控模块主要负责对各联邦学习参与方本地训练数据的增加进行监控,并且可以与数据平衡模块和本地训练模块交互。协调联邦学习中本地训练过程中各步骤的进行,保证训练数据集的样本均衡。
首先,需要确定数据监控模块需要监控的数据库的内容。考虑到数据隐私安全问题,以及对于不平衡数据集处理的需求,数据监控模块无需监控数据的全部字段。只需要对数据总量和数据类别的统计信息进行维护。因此数据监控配置表头由当前时间点、当前数据总量、多数类样本数、少数类样本数、与上一时间点总量差值、上一时间点IR值、当前IR值组成。其中IR值为不平衡比(ImbalanceRatio):
Figure BDA0002736388530000061
其中,
Figure BDA0002736388530000062
情况下,
Figure BDA0002736388530000063
数据监控模块的工作流程为:当检测到数据总量和IR值与相比于上一时间发生较大变化时,首先对本地训练模块发出暂停训练的指令。然后调用数据平衡模块,对数据集进行平衡处理。在收到数据平衡模块的处理反馈之后,向本地训练模块发出启动训练的指令。本地训练模块收到暂停指令时,若有训练任务正在进行,则需完成当前训练任务。完成后直到再次收到数据监控模块发来的启动命令才进行下一轮的训练。
2.数据平衡模块
由于联邦学习下的各参与方是相互独立的,存在部分参与方新增数据,而其余参与方无新增数据。并且有训练数据更新的参与方的数据IR值也存在差异。因此数据平衡模块可以根据不同参与方本地的数据的实际情况,即样本不平衡比例,进行相应程度的不平衡处理。最终使得各参与方都能基于较为均衡的数据集进行模型的训练,进一步提升联邦学习的效率。
数据平衡模块中的平衡方法基于混合采样来实现,其流程图如图3所示。首先对于每个参与方将其数据划分为训练数据集和测试数据集。对于训练数据使用混合采样法,分为三步进行:
第一步,对于多数类,首先使用k-means聚类算法,将多数类样本分为n组,然后在每一组多数类的样本中随机选择α%的实例进行保留,删除其余样本。获得欠采样后的多数类样本集。
第二步,根据第一步降采样处理之后的IR值,对少数类样本进行基于Smote算法的过采样。并与第一步获得的多数类样本集合并,获得处理后的训练数据集。
第三步,在第二步得到的数据上基于Adaboost,构建分类模型。共需进行N次迭代,每次迭代重复第一步和第二步获得数据集Di,基于数据集Di构建决策树作为基分类器hi,计算出hi的错误率ei。如果错误率大于0.5,则重新通过前面的步骤获得新的数据集。根据错误率ei,更新Di中的每个被正确分类样本点的权重。即对于分类正确的样本降低权重,对分类错误的样本保持权重不变。最后在模型融合的过程中,也根据错误率对基分类器进行加权融合。错误率低的分类器在决策中的作用更明显。
3.本地训练模块和中心服务器
本地训练模块和中心服务器之间的工作流程采用普遍使用的联邦学习机制。即基于本地数据训练得到本地分类模型,将加密之后的模型参数上传给中心服务器,中心服务器对所有参与方上传的模型信息进行融合,得到一个全局模型后,将全局模型分发到各参与方,作为下一轮训练的本地模型,再次基于本地数据进行训练。通过迭代训练,使模型收敛,即可部署最终模型到各参与方。
综上,针对联邦学习场景下数据不均衡问题的处理,目前没有系统性的方法,主要依靠各参与联邦学习的数据方自己通过不同的采样方法完成。与这种方式相比,本发明的优势在于:
1)及时性。现有的方式,往往会由于各种因素,不能对新增数据进行及时的均衡处理。而本发明通过数据监控模块,能够对数据的更新作出及时的处理。
2)统一性。联邦学习下个参与方往往是不同的机构、单位,互相独立。对于样本数据不均衡问题采用的解决方法难以统一,甚至不会去处理。本发明提供了统一的不均衡数据处理方法,可以适用于IR值不同的数据集。保证个参与方都是基于尽可能均衡的数据集构建模型,保证了联邦学习的效率。
3)可靠性。数据级的不均衡数据处理方法有比较明显的不足,当应用于大规模且高度不平衡的数据集时,过采样的方法会生成大量的少数类样本以平衡数据集。这会进一步增大训练集的样本数量,增大计算开销,减慢训练速度,并可能导致过拟合。欠采样的则会丢弃大量样本,从而导致模型可能产生新的偏差。集成方法基于数据级方法,其缺点也同样存在于使用他们的集成方法中。而本发明使用的混合采样方法,属于“集成的集成”。通过对多数样本聚类,随机降采样结果则获得更具有代表性的,减少模型偏差的同时,也减少了生产新的少数样本的数量。
根据本发明实施例提出的联邦学习下不均衡数据的采样装置,基于混合采样的不均衡数据平衡方案,根据不同数据集的不平衡比例,基于合成少数样本与聚类下采样集成方法结合的混合采样方法,获得平衡数据集;结合数据集实时监控,在联邦学习场景下对不均衡数据集的自动处理和及时更新;从而通过结合数据级和集成方式的不均衡数据集处理方法,充分利用数据集的能力,并利用数据变动检测通过检测数据集,实现不均衡数据集的自动均衡和更新。
其次参照附图描述根据本发明实施例提出的联邦学习下不均衡数据的采样方法。
图4是本发明一个实施例的联邦学习下不均衡数据的采样方法的流程图。
如图4所示,该联邦学习下不均衡数据的采样方法包括以下步骤:
在步骤S101中,对各联邦学习参与方本地训练数据进行监控,并协调联邦学习中本地训练过程中各步骤的进行,均衡训练数据集的样本;
在步骤S102中,根据样本的不平衡比例进行相应程度的不平衡处理,以使各参与方基于满足预设均衡条件的数据集进行模型的训练;
在步骤S103中,基于本地数据训练得到本地分类模型,将加密之后的模型参数上传给中心服务器,中心服务器对所有参与方上传的模型信息进行融合,得到全局模型,并将全局模型分发到各参与方,作为下一轮训练的本地模型,以及基于本地数据进行训练,以通过迭代训练使模型收敛,并部署最终模型到各参与方。
进一步地,在本发明的一个实施例中,对各联邦学习参与方本地训练数据进行监控,并协调联邦学习中本地训练过程中各步骤的进行,均衡训练数据集的样本,进一步包括:对数据总量和数据类别的统计信息进行维护,其中,数据监控配置表头由当前时间点、当前数据总量、多数类样本数、少数类样本数、与上一时间点总量差值、上一时间点IR值和当前IR值组成。
进一步地,在本发明的一个实施例中,对各联邦学习参与方本地训练数据进行监控,并协调联邦学习中本地训练过程中各步骤的进行,均衡训练数据集的样本,进一步包括:对本地训练模块发出暂停训练的指令,调用数据平衡模块,对数据集进行平衡处理,在收到数据平衡模块的处理反馈之后,向本地训练模块发出启动训练的指令,并在本地训练模块收到暂停指令时,若有训练任务正在进行,则需完成当前训练任务,且完成后直到再次收到数据监控模块发来的启动命令后进行下一轮的训练。
进一步地,在本发明的一个实施例中,根据样本的不平衡比例进行相应程度的不平衡处理,以使各参与方基于满足预设均衡条件的数据集进行模型的训练,进一步包括:对于多数类,首先使用k-means聚类算法,将多数类样本分为n组,并在每一组多数类的样本中随机选择α%的实例进行保留,删除其余样本,获得欠采样后的多数类样本集;根据降采样处理之后的IR值,对部分样本进行基于Smote算法的过采样,并与获得的多数类样本集合并,获得处理后的训练数据集;在得到的数据上基于Adaboost,构建分类模型,其中,对于分类正确的样本降低权重,对分类错误的样本保持权重不变,以在模型融合的过程中,根据错误率对基分类器进行加权融合。
需要说明的是,前述对联邦学习下不均衡数据的采样装置实施例的解释说明也适用于该实施例的联邦学习下不均衡数据的采样方法,此处不再赘述。
根据本发明实施例提出的联邦学习下不均衡数据的采样方法,基于混合采样的不均衡数据平衡方案,根据不同数据集的不平衡比例,基于合成少数样本与聚类下采样集成方法结合的混合采样方法,获得平衡数据集;结合数据集实时监控,在联邦学习场景下对不均衡数据集的自动处理和及时更新;从而通过结合数据级和集成方式的不均衡数据集处理方法,充分利用数据集的能力,并利用数据变动检测通过检测数据集,实现不均衡数据集的自动均衡和更新。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不是必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (4)

1.一种联邦学习下不均衡数据的采样装置,其特征在于,包括数据监控模块、数据平衡模块、本地训练模块和中心服务器,其中,
所述数据监控模块,用于负责对各联邦学习参与方本地训练数据进行监控,并且与所述数据平衡模块和所述本地训练模块交互,以协调联邦学习中本地训练过程中各步骤的进行,均衡训练数据集的样本;
所述数据平衡模块,用于根据所述样本的不平衡比例进行相应程度的不平衡处理,以使各参与方基于满足预设均衡条件的数据集进行模型的训练;以及
所述本地训练模块和所述中心服务器之间的工作流程采用预设联邦学习机制,其中,基于本地数据训练得到本地分类模型,将加密之后的模型参数上传给所述中心服务器,所述中心服务器对所有参与方上传的模型信息进行融合,得到全局模型,并将所述全局模型分发到所述各参与方,作为下一轮训练的本地模型,以及基于所述本地数据进行训练,以通过迭代训练使模型收敛,并部署最终模型到所述各参与方;
所述数据监控模块具体用于对数据总量和数据类别的统计信息进行维护,其中,数据监控配置表头由当前时间点、当前数据总量、多数类样本数、少数类样本数、与上一时间点总量差值、上一时间点IR值和当前IR值组成;
所述数据监控模块进一步用于对所述本地训练模块发出暂停训练的指令,调用所述数据平衡模块,对数据集进行平衡处理,在收到所述数据平衡模块的处理反馈之后,向所述本地训练模块发出启动训练的指令,并在所述本地训练模块收到暂停指令时,若有训练任务正在进行,则需完成当前训练任务,且完成后直到再次收到所述数据监控模块发来的启动命令后进行下一轮的训练。
2.根据权利要求1所述的装置,其特征在于,所述数据平衡模块进一步用于对于多数类,首先使用k-means聚类算法,将多数类样本分为n组,并在每一组多数类的样本中随机选择α%的实例进行保留,删除其余样本,获得欠采样后的多数类样本集;根据降采样处理之后的IR值,对部分样本进行基于Smote算法的过采样,并与获得的多数类样本集合并,获得处理后的训练数据集;在得到的数据上基于Adaboost,构建分类模型,其中,对于分类正确的样本降低权重,对分类错误的样本保持权重不变,以在模型融合的过程中,根据错误率对基分类器进行加权融合。
3.一种联邦学习下不均衡数据的采样方法,其特征在于,包括以下步骤:
对各联邦学习参与方本地训练数据进行监控,并协调联邦学习中本地训练过程中各步骤的进行,均衡训练数据集的样本;
根据所述样本的不平衡比例进行相应程度的不平衡处理,以使各参与方基于满足预设均衡条件的数据集进行模型的训练;以及
基于本地数据训练得到本地分类模型,将加密之后的模型参数上传给中心服务器,所述中心服务器对所有参与方上传的模型信息进行融合,得到全局模型,并将所述全局模型分发到所述各参与方,作为下一轮训练的本地模型,以及基于所述本地数据进行训练,以通过迭代训练使模型收敛,并部署最终模型到所述各参与方;
所述对各联邦学习参与方本地训练数据进行监控,并协调联邦学习中本地训练过程中各步骤的进行,均衡训练数据集的样本,进一步包括:
对数据总量和数据类别的统计信息进行维护,其中,数据监控配置表头由当前时间点、当前数据总量、多数类样本数、少数类样本数、与上一时间点总量差值、上一时间点IR值和当前IR值组成;
所述对各联邦学习参与方本地训练数据进行监控,并协调联邦学习中本地训练过程中各步骤的进行,均衡训练数据集的样本,进一步包括:
对本地训练模块发出暂停训练的指令,调用数据平衡模块,对数据集进行平衡处理,在收到所述数据平衡模块的处理反馈之后,向所述本地训练模块发出启动训练的指令,并在所述本地训练模块收到暂停指令时,若有训练任务正在进行,则需完成当前训练任务,且完成后直到再次收到数据监控模块发来的启动命令后进行下一轮的训练。
4.根据权利要求3所述的方法,其特征在于,所述根据所述样本的不平衡比例进行相应程度的不平衡处理,以使各参与方基于满足预设均衡条件的数据集进行模型的训练,进一步包括:
对于多数类,首先使用k-means聚类算法,将多数类样本分为n组,并在每一组多数类的样本中随机选择α%的实例进行保留,删除其余样本,获得欠采样后的多数类样本集;根据降采样处理之后的IR值,对部分样本进行基于Smote算法的过采样,并与获得的多数类样本集合并,获得处理后的训练数据集;在得到的数据上基于Adaboost,构建分类模型,其中,对于分类正确的样本降低权重,对分类错误的样本保持权重不变,以在模型融合的过程中,根据错误率对基分类器进行加权融合。
CN202011135027.3A 2020-10-21 2020-10-21 联邦学习下不均衡数据的采样方法与装置 Active CN112329820B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011135027.3A CN112329820B (zh) 2020-10-21 2020-10-21 联邦学习下不均衡数据的采样方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011135027.3A CN112329820B (zh) 2020-10-21 2020-10-21 联邦学习下不均衡数据的采样方法与装置

Publications (2)

Publication Number Publication Date
CN112329820A CN112329820A (zh) 2021-02-05
CN112329820B true CN112329820B (zh) 2022-12-27

Family

ID=74311215

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011135027.3A Active CN112329820B (zh) 2020-10-21 2020-10-21 联邦学习下不均衡数据的采样方法与装置

Country Status (1)

Country Link
CN (1) CN112329820B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112580826B (zh) * 2021-02-05 2021-06-08 支付宝(杭州)信息技术有限公司 业务模型训练方法、装置及系统
CN113362042B (zh) * 2021-07-05 2022-06-17 重庆市规划和自然资源信息中心 政务业务一体化管理工作流设计建模方法
CN114818972A (zh) * 2022-05-19 2022-07-29 北京瑞莱智慧科技有限公司 一种模型构建方法、装置及存储介质
CN114969669B (zh) * 2022-07-27 2022-11-15 深圳前海环融联易信息科技服务有限公司 数据平衡度处理方法、联合建模系统、设备和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108921208A (zh) * 2018-06-20 2018-11-30 天津大学 基于深度学习的不平衡数据的均衡采样及建模方法
CN109447118A (zh) * 2018-09-26 2019-03-08 中南大学 一种基于Adaboost和欠采样的不平衡学习方法
CN110956202A (zh) * 2019-11-13 2020-04-03 重庆大学 基于分布式学习的图像训练方法、系统、介质及智能设备
CN111340614A (zh) * 2020-02-28 2020-06-26 深圳前海微众银行股份有限公司 基于联邦学习的样本采样方法、设备及可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180210944A1 (en) * 2017-01-26 2018-07-26 Agt International Gmbh Data fusion and classification with imbalanced datasets
US20200202243A1 (en) * 2019-03-05 2020-06-25 Allegro Artificial Intelligence Ltd Balanced federated learning

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108921208A (zh) * 2018-06-20 2018-11-30 天津大学 基于深度学习的不平衡数据的均衡采样及建模方法
CN109447118A (zh) * 2018-09-26 2019-03-08 中南大学 一种基于Adaboost和欠采样的不平衡学习方法
CN110956202A (zh) * 2019-11-13 2020-04-03 重庆大学 基于分布式学习的图像训练方法、系统、介质及智能设备
CN111340614A (zh) * 2020-02-28 2020-06-26 深圳前海微众银行股份有限公司 基于联邦学习的样本采样方法、设备及可读存储介质

Also Published As

Publication number Publication date
CN112329820A (zh) 2021-02-05

Similar Documents

Publication Publication Date Title
CN112329820B (zh) 联邦学习下不均衡数据的采样方法与装置
CN110610242B (zh) 一种联邦学习中参与者权重的设置方法及装置
Fan et al. Federated generative adversarial learning
CN108733508A (zh) 用于控制数据备份的方法和系统
CN109033471A (zh) 一种信息资产识别方法及装置
CN108965014A (zh) QoS感知的服务链备份方法及系统
CN114970886B (zh) 一种基于聚类的自适应鲁棒协作学习方法和装置
CN108062243A (zh) 执行计划的生成方法、任务执行方法及装置
CN114297935A (zh) 基于数字孪生的机场航站楼离港优化运行仿真系统及方法
CN113037783B (zh) 一种异常行为检测方法及系统
CN116933318A (zh) 一种基于联邦学习的用电数据隐私保护方法
CN116050540A (zh) 一种基于联合双维度用户调度的自适应联邦边缘学习方法
CN107644268B (zh) 一种基于多特征的开源软件项目孵化状态预测方法
US20220222242A1 (en) Artificial intelligence device and program creation method
CN115640846A (zh) 一种基于区块链的面向数据不平衡问题的联邦学习方法
CN108809680A (zh) 一种设备管理的方法及设备
CN116010832A (zh) 联邦聚类方法、装置、中心服务器、系统和电子设备
CN113505064B (zh) 一种基于异构信息流的电力大数据业务系统测试方法
Xu et al. Federated traffic synthesizing and classification using generative adversarial networks
CN115396335A (zh) 基于微服务的工业无线网络设备接入IPv6测试系统及方法
CN108304879A (zh) 一种船舶轨迹聚类方法及装置
CN114329026A (zh) 图像检索方法、装置、电子设备和计算机可读存储介质
CN113723499A (zh) 一种锂电池极耳焊接异常检测方法及系统
CN115269126B (zh) 一种基于余弦相似度的云平台反亲和调度系统
CN106686076B (zh) 资源服务网络中基于聚类的关键特征序列选取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant