CN114021464A - 数据处理方法、装置和存储介质 - Google Patents

数据处理方法、装置和存储介质 Download PDF

Info

Publication number
CN114021464A
CN114021464A CN202111321197.5A CN202111321197A CN114021464A CN 114021464 A CN114021464 A CN 114021464A CN 202111321197 A CN202111321197 A CN 202111321197A CN 114021464 A CN114021464 A CN 114021464A
Authority
CN
China
Prior art keywords
value evaluation
members
evaluation quantity
model
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111321197.5A
Other languages
English (en)
Inventor
张立平
王希予
宋红花
赵国梁
孙中伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingdong Technology Information Technology Co Ltd
Original Assignee
Jingdong Technology Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingdong Technology Information Technology Co Ltd filed Critical Jingdong Technology Information Technology Co Ltd
Priority to CN202111321197.5A priority Critical patent/CN114021464A/zh
Publication of CN114021464A publication Critical patent/CN114021464A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开提出一种数据处理方法、装置和存储介质,涉及机器学习技术领域。本公开的一种数据处理方法,包括:根据联邦学习的成员集合中所有成员的训练数据,获取第一联合建模模型;根据第一联合建模模型和测试数据集合,获取第一价值评估量;针对每个成员:根据成员集合中除当前的成员的训练数据以外的数据,获取第二联合建模模型;根据第二联合建模模型和测试数据集合,获取第二价值评估量;根据第一价值评估量和第二价值评估量,确定当前的成员的边际价值评估量;根据各个成员的边际价值评估量确定待剔除的成员。通过这样的方法,能够提高联邦学习中多方合作的成员的可靠度,进而便于实现提升模型的准确度。

Description

数据处理方法、装置和存储介质
技术领域
本公开涉及机器学习技术领域,特别是一种数据处理方法、装置和存储介质。
背景技术
联邦学习概念最早于2016年由Google提出,当时Google为了充分利用海量移动设备(例如手机、平板电脑、相机等)用户所产生的大量私人数据而设计了联邦学习框架。该方法在充分利用海量数据提升模型效果的同时,因不需传输用户私人数据,有效克服了数据隐私问题。
国内联邦学习技术研究最早由微众银行开展,并分别于2018年9月和2020年4月发表了《联邦学习白皮书》V1.0和V2.0版,成功将联邦学习概念由最初的解决数据隐私问题拓展到解决跨机构的数据孤岛问题,让行业看到了该技术极大的应用前景。根据数据和任务特点,联邦学习有三种模式:纵向联邦学习(Vertical Federated Learning)、横向联邦学习(Horizontal Federated Learning)与联邦迁移学习(Federated Transfer Learning)。
由于联邦学习能够从技术的角度保证各方数据安全,同时可实现联合建模,因此极大促进了多方数据合作的发展。
发明内容
本公开的一个目的在于提高联邦学习中参与成员的可靠度。
根据本公开的一些实施例的一个方面,提出一种数据处理方法,包括:根据联邦学习的成员集合中所有成员的训练数据,基于联邦学习算法生成并训练模型,获取第一联合建模模型;根据第一联合建模模型和测试数据集合,获取第一联合建模模型的价值评估量,作为第一价值评估量;
针对每个成员:
根据成员集合中除当前的成员的训练数据以外的数据,基于联邦学习算法生成并训练模型,获取第二联合建模模型;
根据第二联合建模模型和测试数据集合,获取第二联合建模模型的价值评估量,作为第二价值评估量;
根据第一价值评估量和第二价值评估量,确定当前的成员的边际价值评估量;
根据各个成员的边际价值评估量确定待剔除的成员。
在一些实施例中,根据各个成员的边际价值评估量确定待剔除的成员包括:判断是否存在边际价值评估量小于预定阈值的成员;在存在边际价值评估量小于预定阈值的成员的情况下,确定待剔除的成员。
在一些实施例中,数据处理方法还包括:通过在成员集合中剔除待剔除的成员更新成员集合。
在一些实施例中,数据处理方法还包括:根据更新后的成员集合,执行获取第一联合建模模型的操作,并更新更新后的成员集合中每个成员的边际价值评估量;判断更新后的成员集合中是否存在边际价值评估量小于预定阈值的成员;在存在边际价值评估量小于预定阈值的成员的情况下,确定待剔除的成员,执行通过剔除待剔除的成员更新成员集合的操作,并更新更新后的成员集合中每个成员的边际价值评估量,直至不存在边际价值评估量小于预定阈值的成员;在不存在边际价值评估量小于预定阈值的成员的情况下,确定成员集合中的成员为稳定成员。
在一些实施例中,数据处理方法还包括:根据稳定成员的边际价值评估量确定稳定成员的权重,其中,稳定成员的权重与对应的边际价值评估量正相关。
在一些实施例中,根据稳定成员的边际价值评估量确定稳定成员的权重包括:通过将稳定成员的边际价值评估量做归一化运算,获取稳定成员的权重。
在一些实施例中,获取模型的价值评估量包括:获取模型的损失函数值;通过计算损失函数值的绝对值的倒数,获取模型的价值评估量。
在一些实施例中,根据第一价值评估量和第二价值评估量,确定当前的成员的边际价值评估量包括:确定第一价值量与第二价值评估量的差,作为当前的成员的边际价值评估量。
根据本公开的一些实施例的一个方面,提出一种数据处理装置,包括:第一模型获取单元,被配置为根据联邦学习的成员集合中所有成员的训练数据,基于联邦学习算法生成并训练模型,获取第一联合建模模型;第一确定单元,被配置为根据第一联合建模模型和测试数据集合,获取第一联合建模模型的价值评估量,作为第一价值评估量;第二模型获取单元,被配置为针对每个成员,根据成员集合中除当前的成员的训练数据以外的数据,基于联邦学习算法生成并训练模型,获取第二联合建模模型;第二确定单元,被配置为根据第二联合建模模型和测试数据集合,获取第二联合建模模型的价值评估量,作为第二价值评估量;第三确定单元,被配置为根据第一价值评估量和第二价值评估量,确定当前的成员的边际价值评估量;剔除确定单元,被配置为根据各个成员的边际价值评估量确定待剔除的成员。
在一些实施例中,剔除确定单元被配置为:判断是否存在边际价值评估量小于预定阈值的成员;在存在边际价值评估量小于预定阈值的成员的情况下,确定待剔除的成员。
在一些实施例中,数据处理装置还包括:更新单元,被配置为通过在成员集合中剔除待剔除的成员更新成员集合。
在一些实施例中,更新单元还被配置为根据更新后的成员集合触发第一模型获取单元,直至剔除确定单元确定成员集合中的成员为稳定成员。
在一些实施例中,数据处理装置还包括权重确定单元,被配置为根据稳定成员的边际价值评估量确定稳定成员的权重,其中,稳定成员的权重与对应的边际价值评估量正比相关。
根据本公开的一些实施例的一个方面,提出一种数据处理装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器的指令执行上文中提出的任意一种数据处理方法。
根据本公开的一些实施例的一个方面,提出一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现上文中提出的任意一种数据处理方法的步骤。
附图说明
此处所说明的附图用来提供对本公开的进一步理解,构成本公开的一部分,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。在附图中:
图1为本公开的数据处理方法的一些实施例的流程图。
图2为本公开的数据处理方法的另一些实施例的流程图。
图3为本公开的数据处理装置的一些实施例的示意图。
图4为本公开的数据处理装置的另一些实施例的示意图。
图5为本公开的数据处理装置的又一些实施例的示意图。
具体实施方式
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
相关技术中,联邦学习的各合作方主要采用主观评估的方法,通过讨论协商确定各自数据价值以及建模收益分配。由于缺少客观、定量的评估方法,难以确定各个合作方都能为联邦学习模型带来正向效果。另外,也存在难以公平合理界定各方权益的问题。
本公开的数据处理方法的一些实施例的流程图如图1所示。
在步骤110中,根据联邦学习的成员集合中所有成员的训练数据,基于联邦学习算法生成并训练模型,获取第一联合建模模型。在一些实施例中,可以基于相关技术中任意的联邦学习算法,获得来自各个成员的局部计算模型;将来自各成员的局部计算模型聚合,得到第一联合建模模型。在一些实施例中,本公开中的联邦学习模式可以为横向、纵向以及迁移等所有联邦学习模式。
在步骤120中,从每个成员获取一部分测试数据,作为完整的测试数据集合。采用完整的测试数据集合对第一联合建模模型进行测试,获取第一联合建模模型的价值评估量,作为第一价值评估量。在一些实施例中,可以通过各成员的协商,确定从各自数据中抽取一定比例组成测试数据集合。
在一些实施例中,模型的价值评估量可以为体现模型价值的参数,例如,体现模型针对测试数据的处理正确率的参数。在一些实施例中,鉴于损失函数为体现事件的“风险”或“损失”的函数,可以将损失函数值的绝对值的倒数作为模型的价值评估量,从而提高处理效率。
在步骤130中,针对每个成员,根据成员集合中除当前的成员的训练数据以外的数据,基于联邦学习算法生成并训练模型,获取第二联合建模模型,因此,每个成员对应一个第二联合建模模型。在一些实施例中,获取第二联合建模模型的运算方式与步骤110中相同。在一些实施例中,可以将步骤110中得到的各个成员的局部计算模型中,排除当前正在处理的成员的局部计算模型,将其他成员的局部计算模型聚合,得到第二联合建模模型。
在步骤140中,使用步骤120中使用的测试数据对步骤130中得到的联合建模模型进行测试,得到第二联合建模模型的价值评估量,作为第二价值评估量,每个成员对应一个第二联合建模模型。
在一些实施例中,模型的价值评估量的获取方法与步骤120中相同,因此第二价值评估量与第一价值评估量的区别在于被测试的模型本身不同。
在步骤150中,根据第一价值评估量和第二价值评估量,确定当前正在处理的成员的边际价值评估量。在一些实施例中,将第一价值量与第二价值评估量的差值作为当前的成员的边际价值评估量。
在一些实施例中,上述步骤130~150的操作为针对每个成员独立进行,例如可以通过循环的方式,每次获取一个成员的第二价值评估量,进而获得其边际价值评估量;在另一些实施例中,可以并行获取每个成员的第二价值评估量,进而获得其边际价值评估量。
当获得每个成员的边际价值评估量后,执行步骤160中的操作。
在步骤160中,根据各个成员的边际价值评估量确定待剔除的成员。在一些实施例中,可以设定预定阈值作为成员参与联邦学习合作的门槛,边际价值评估量低于预定阈值的成员为待剔除的成员。在一些实施例中,边际价值评估量不低于预定阈值的成员将保留参与接下来的联邦学习合作,可以作为稳定成员。
在一些实施例中,预定阈值可以为0,即将产生负价值的成员作为待剔除的成员,从而避免成员对联合建模模型产生负效果,提高模型的准确度。
通过这样的方法,能够通过客观的计算分析,得到每个成员在联合建模模型中的价值,进而利用该价值确定需要剔除出合作范围的成员,提高联邦学习中多方合作的成员的可靠度,进而便于实现提升模型的准确度。
在一些实施例中,如图1所示,本公开的数据处理方法还可以包括步骤170。在步骤170中,在联邦学习的成员集合中剔除待剔除的成员,实现对联邦学习的成员集合的更新。在一些实施例中,若剔除的成员只有一个,可以将处理该成员过程中步骤130获得的第二联合建模模型作为最终模型,从而实现对于模型的更新。在一些实施例中,若剔除的成员数量大于1,则可以对更新后的成员集合重新进行基于联邦学习算法生成并训练联合建模模型的操作,实现对于模型的更新。通过这样的方法,能够剔除产生价值较小、或者产生负价值的合作成员,使联合建模模型更具可靠性,提高模型的准确度。
在一些实施例中,在更新成员集合后,可以重新执行上述步骤110~160中的操作,并在确定存在待剔除的成员的情况下,执行步骤170。循环以上操作,直至不存在待剔除的成员。
通过这样的方法,能够通过循环执行,确定在每次更新成员集合的情况下各成员在联合建模模型中的价值,提高对于成员价值评估的合理性和准确度;通过多次剔除操作进一步提高联邦学习中多方合作的参与成员的可靠度,进而便于实现提升模型的准确度。
在一些实施例中,上述步骤120~140中的操作对于成员价值评估的客观性可以基于Shapley-Value(夏普利值)原理确定。在Shapley-Value公式中,v(s)-v(s\{i})是成员i在他参与的合作s中做出的价值,其中,v(s)为合作成员集合s产出的价值,v(s\{i})为集合s中除成员i以外的成员所产出的价值。从而无论成员i是否带来了价值,或是否带来了正向的价值,通过v(s)-v(s\{i})均能够客观、明确的得出。联邦合作中,各方有明确的取得最大联邦建模效果的意愿,因此计算各方对其他所有方的边际价值(即互补性),不需要如Shapley-Value中计算各方对其他合作方的各种组合的边际价值,从而大幅减少计算复杂度。
通过这样的方法,能够提高对于联邦学习中成员价值评估的准确性、客观性,从而为模型优化提供准确的数据基础和方向,有利于提高模型的准确度。
本公开的数据处理方法的另一些实施例的流程图如图2所示。
在步骤210中,根据联邦学习的成员集合中所有成员的训练数据,基于联邦学习算法生成并训练模型,获取第一联合建模模型M(S),其中,M为模型标识,S表示当前的所有成员。在一些实施例中,可以基于相关技术中任意的联邦学习算法,获得来自各个成员的局部计算模型;将来自各成员的局部计算模型聚合,得到第一联合建模模型。
在步骤220中,从每个成员获取一部分测试数据,作为完整的测试数据集合。采用完整的测试数据集合对第一联合建模模型进行测试,获取第一联合建模模型的价值评估量,作为第一价值评估量V(S)。在一些实施例中,可以通过各成员的协商,确定从各自数据中抽取一定比例组成测试数据集合。
在一些实施例中,V表示模型在测试集上的准确率,也可根据实际需要确定,模型的V≥0,且与模型价值成正相关,例如在回归等问题建模时可采用损失函数Loss(正数)的倒数作为模型价值。在一些实施例中,为确保V≥0,可以使V=1/|Loss|。
在步骤230中,针对每个成员i,根据成员集合中除当前的成员的训练数据以外的数据,基于联邦学习算法生成并训练模型,获取第二联合建模模型M(S\{i})(其中S\{i}表示成员集合中除成员i外的的所有成员)。在一些实施例中,可以将步骤210中得到的各个成员的局部计算模型中排除当前正在处理的成员的局部计算模型,将其他成员的局部计算模型聚合,得到第二联合建模模型。
在步骤240中,使用步骤220中使用的测试数据对步骤230中得到的联合建模模型进行测试,得到第二联合建模模型的价值评估量,作为第二价值评估量V(S\{i})。
在步骤250中,针对每个成员,根据第一价值评估量和第二价值评估量,确定成员的边际价值评估量V(i)。在一些实施例中,将确定第一价值量与第二价值评估量的差作为成员的边际价值评估量,即如下公式(1)所示。
V(i)=V(S)-V(S\{i}) (1)
在一些实施例中,若成员i的边际价值评估量大于0,相当于成员i的第二价值评估量小于第一价值评估量。从物理意义角度考虑,即通过全部成员的数据进行训练的模型对于测试数据的处理准确度,高于用除成员i的数据进行训练的模型对于测试数据的处理准确度,也就是说在模型的生成中,成员i的数据对于模型优化能够起到正向的作用。
在一些实施例中,若成员i的边际价值评估量小于0,相当于成员i的第二价值评估量大于第一价值评估量。从物理意义角度考虑,即通过全部成员的数据进行训练的模型对于测试数据的处理准确度,低于用除成员i的数据进行训练的模型对于测试数据的处理准确度,也就是说在模型的生成中,成员i的数据对于模型优化能够起到负向的作用。
在一些实施例中,若成员i的边际价值评估量等于0,相当于成员i的第二价值评估量等于第一价值评估量。从物理意义角度考虑,即通过全部成员的数据进行训练的模型对于测试数据的处理准确度,等于除成员i的数据进行训练的模型对于测试数据的处理准确度,也就是说在模型的生成中,成员i的数据对于模型优化不起作用。在一些实施例中,不具备价值的成员也可以作为待剔除的成员。
进一步的,基于上述的推演可得,成员i的边际价值评估量的大小能够体现成员i的数据对于模型优化起到的作用大小,即边际价值评估量越大的成员,在联合建模中的相对价值越大。
在步骤261中,判断是否存在边际价值评估量小于预定阈值的成员。若存在边际价值评估量小于预定阈值的成员,则执行步骤262;否则,执行步骤263。
在步骤262中,确定边际价值评估量小于预定阈值的成员为待剔除的成员,进而执行步骤270。
在步骤263中,确定当前成员集合中的全部成员为稳定成员,进而执行步骤280。
在步骤270中,在成员集合中剔除步骤262中确定的待剔除的成员,实现对联邦学习的成员的更新。
在步骤280中,根据稳定成员的边际价值评估量确定各个稳定成员的权重,稳定成员的权重与对应的边际价值评估量正相关。在一些实施例中,该权重可以作为成员在合作中获利的比例参考值,或作为合作中话语权的参考值。
在一些实施例中,可以通过将稳定成员的边际价值评估量做归一化运算的方式确定稳定成员的权重,归一化运算值即为该稳定成员对应的权重。例如,采用如下公式(2)计算:
Figure BDA0003345286260000091
其中,n为成员集合中的成员个数,φ为权重标识,φ(i)为成员i的权重。
通过这样的方法,能够通过循环执行,提高对于成员价值评估的合理性和准确度;通过多次剔除操作进一步提高联邦学习中多方合作的成员的可靠度,进而便于实现提升模型的准确度;基于最终的边际价值估计量确定每个成员的权重,为各个成员的价值评估和收益分配提供客观、可靠的依据,提高公平性,有利于推动合作的持续进行和良性循环。
本公开的数据处理装置的一些实施例的示意图如图3所示。
第一模型获取单元301能够根据联邦学习的成员集合中所有成员的训练数据,基于联邦学习算法生成并训练模型,获取第一联合建模模型。在一些实施例中,可以基于相关技术中任意的联邦学习算法,获得来自各个成员的局部计算模型;将来自各成员的局部计算模型聚合,得到第一联合建模模型。
第一确定单元302能够从每个成员获取一部分测试数据,作为完整的测试数据集合。采用完整的测试数据集合对第一联合建模模型进行测试,获取第一联合建模模型的价值评估量,作为第一价值评估量。在一些实施例中,可以通过各成员的协商,确定从各自数据中抽取一定比例组成测试数据集合。
第二模型获取单元303能够针对每个成员,根据成员集合中除当前的成员的训练数据以外的数据,基于联邦学习算法生成并训练模型,获取第二联合建模模型。在一些实施例中,可以将步骤110中得到的各个成员的局部计算模型中,排除当前正在处理的成员的局部计算模型,将其他成员的局部计算模型聚合,得到第二联合建模模型。
第二确定单元304能够使用第一确定单元302使用的测试数据,对第二模型获取单元303得到的联合建模模型进行测试,得到第二联合建模模型的价值评估量,作为第二价值评估量。
第三确定单元305能够根据第一价值评估量和第二价值评估量,确定第二价值评估量对应的成员的边际价值评估量。在一些实施例中,将第一价值量与第二价值评估量的差值作为当前的成员的边际价值评估量。
剔除确定单元306能够根据各个成员的边际价值评估量确定待剔除的成员。在一些实施例中,可以设定预定阈值作为成员参与联邦学习合作的门槛,边际价值评估量低于预定阈值的成员为待剔除的成员。在一些实施例中,边际价值评估量不低于预定阈值的成员将保留参与接下来的联邦学习合作,可以作为稳定成员。
这样的装置能够通过客观的计算分析,得到每个成员在联合建模模型中的价值,进而利用该价值确定需要剔除出合作范围的成员,提高联邦学习中多方合作的成员的可靠度,进而便于实现提升模型的准确度。
在一些实施例中,如图3所示,数据处理装置还可以包括更新单元307,能够在联邦学习的成员中剔除待剔除的成员,实现对联邦学习的成员集合的更新。在一些实施例中,若剔除的成员只有一个,可以将处理该成员过程中第二模型获取单元303获得的第二联合建模模型作为最终模型,从而实现对于模型的更新。在一些实施例中,若剔除的成员数量大于1,则可以对更新后的成员集合,利用第一模型获取单元301重新进行基于联邦学习算法生成并训练联合建模模型的操作,实现对于模型的更新。
这样的装置能够剔除产生价值较小、或者产生负价值的合作成员,使联合建模模型更具可靠性,提高模型的准确度。
在一些实施例中,更新单元307可以在每次执行成员集合的更新操作后,触发第一模型获取单元301基于更新后的成员集合进行第一点和建模模型的更新,而第一确定单元302、第二模型获取单元303、第二确定单元304、第三确定单元305和剔除确定单元306也依序执行其功能,确定更新后的成员集合中是否存在待剔除的成员。在存在待剔除的成员的情况下,剔除确定单元306再次触发更新单元307。循环上述操作,直至剔除确定单元306确定更新后的成员集合中不存在待剔除的成员。
这样的装置能够通过循环执行,确定在每次更新成员集合的情况下各成员在联合建模模型中的价值,提高对于成员价值评估的合理性和准确度;通过多次剔除操作进一步提高联邦学习中多方合作的参与成员的可靠度,进而便于实现提升模型的准确度。
在一些实施例中,如图3所示,数据处理装置还可以包括权重确定单元308,能够在剔除确定单元306确定成员集合中的成员均为稳定成员的情况下,根据稳定成员的边际价值评估量确定各个稳定成员的权重,稳定成员的权重与对应的边际价值评估量正相关。在一些实施例中,该权重可以作为成员在合作中获利的比例参考值,或作为合作中话语权的参考值。
这样的装置能够基于最终的边际价值估计量确定每个成员的权重,为各个成员的价值评估和收益分配提供客观、可靠的依据,提高公平性,有利于推动合作的持续进行和良性循环。
本公开数据处理装置的一个实施例的结构示意图如图4所示。数据处理装置包括存储器401和处理器402。其中:存储器401可以是磁盘、闪存或其它任何非易失性存储介质。存储器用于存储上文中数据处理方法的对应实施例中的指令。处理器402耦接至存储器401,可以作为一个或多个集成电路来实施,例如微处理器或微控制器。该处理器402用于执行存储器中存储的指令,能够提高联邦学习中多方合作的成员的可靠度,进而便于实现提升模型的准确度。
在一个实施例中,还可以如图5所示,数据处理装置500包括存储器501和处理器502。处理器502通过BUS总线503耦合至存储器501。该数据处理装置500还可以通过存储接口504连接至外部存储装置505以便调用外部数据,还可以通过网络接口506连接至网络或者另外一台计算机系统(未标出)。此处不再进行详细介绍。
在该实施例中,通过存储器存储数据指令,再通过处理器处理上述指令,能够提高联邦学习中多方合作的成员的可靠度,进而便于实现提升模型的准确度。
在另一个实施例中,一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现数据处理方法对应实施例中的方法的步骤。本领域内的技术人员应明白,本公开的实施例可提供为方法、装置、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
至此,已经详细描述了本公开。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
可能以许多方式来实现本公开的方法以及装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法以及装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
最后应当说明的是:以上实施例仅用以说明本公开的技术方案而非对其限制;尽管参照较佳实施例对本公开进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本公开的具体实施方式进行修改或者对部分技术特征进行等同替换;而不脱离本公开技术方案的精神,其均应涵盖在本公开请求保护的技术方案范围当中。

Claims (15)

1.一种数据处理方法,包括:
根据联邦学习的成员集合中所有成员的训练数据,基于联邦学习算法生成并训练模型,获取第一联合建模模型;
根据所述第一联合建模模型和测试数据集合,获取所述第一联合建模模型的价值评估量,作为第一价值评估量;
针对每个成员:
根据所述成员集合中除当前的成员的训练数据以外的数据,基于联邦学习算法生成并训练模型,获取第二联合建模模型;
根据所述第二联合建模模型和所述测试数据集合,获取所述第二联合建模模型的价值评估量,作为第二价值评估量;
根据所述第一价值评估量和所述第二价值评估量,确定当前的成员的边际价值评估量;
根据各个成员的边际价值评估量确定待剔除的成员。
2.根据权利要求1所述的方法,其中,所述根据各个成员的边际价值评估量确定待剔除的成员包括:
判断是否存在所述边际价值评估量小于预定阈值的成员;
在存在所述边际价值评估量小于预定阈值的成员的情况下,确定所述待剔除的成员。
3.根据权利要求1或2所述的方法,还包括:
通过在所述成员集合中剔除所述待剔除的成员更新所述成员集合。
4.根据权利要求3所述的方法,还包括:
根据更新后的所述成员集合,执行所述获取第一联合建模模型的操作,并更新更新后的所述成员集合中每个成员的所述边际价值评估量;
判断更新后的所述成员集合中是否存在边际价值评估量小于预定阈值的成员;
在存在所述边际价值评估量小于预定阈值的成员的情况下,确定所述待剔除的成员,执行通过剔除所述待剔除的成员更新所述成员集合的操作,并更新更新后的所述成员集合中每个成员的所述边际价值评估量,直至不存在所述边际价值评估量小于预定阈值的成员;
在不存在所述边际价值评估量小于预定阈值的成员的情况下,确定当前的成员为稳定成员。
5.根据权利要求2或4所述的方法,还包括:
根据所述稳定成员的边际价值评估量确定所述稳定成员的权重,其中,所述稳定成员的权重与对应的边际价值评估量正相关。
6.根据权利要求5所述的方法,其中,所述根据所述稳定成员的边际价值评估量确定所述稳定成员的权重包括:
通过将所述稳定成员的边际价值评估量做归一化运算,获取所述稳定成员的权重。
7.根据权利要求1所述的方法,其中,获取模型的价值评估量包括:
获取模型的损失函数值;
通过计算所述损失函数值的绝对值的倒数,获取模型的所述价值评估量。
8.根据权利要求1所述的方法,其中,所述根据所述第一价值评估量和所述第二价值评估量,确定当前的成员的边际价值评估量包括:
确定所述第一价值量与所述第二价值评估量的差,作为当前的成员的边际价值评估量。
9.一种数据处理装置,包括:
第一模型获取单元,被配置为根据联邦学习的成员集合中所有成员的训练数据,基于联邦学习算法生成并训练模型,获取第一联合建模模型;
第一确定单元,被配置为根据所述第一联合建模模型和测试数据集合,获取所述第一联合建模模型的价值评估量,作为第一价值评估量;
第二模型获取单元,被配置为针对每个成员,根据所述成员集合中除当前的成员的训练数据以外的数据,基于联邦学习算法生成并训练模型,获取第二联合建模模型;
第二确定单元,被配置为根据所述第二联合建模模型和所述测试数据集合,获取所述第二联合建模模型的价值评估量,作为第二价值评估量;
第三确定单元,被配置为根据所述第一价值评估量和所述第二价值评估量,确定当前的成员的边际价值评估量;
剔除确定单元,被配置为根据各个成员的边际价值评估量确定待剔除的成员。
10.根据权利要求9所述的装置,其中,所述剔除确定单元被配置为:
判断是否存在所述边际价值评估量小于预定阈值的成员;
在存在所述边际价值评估量小于预定阈值的成员的情况下,确定所述待剔除的成员。
11.根据权利要求9或10所述的装置,还包括:
更新单元,被配置为通过在所述成员集合中剔除所述待剔除的成员更新所述成员集合。
12.根据权利要求11所述的装置,其中,所述更新单元还被配置为根据更新后的所述成员集合触发所述第一模型获取单元,直至所述剔除确定单元确定当前的成员为稳定成员。
13.根据权利要求10或12所述的装置,还包括权重确定单元,被配置为根据所述稳定成员的边际价值评估量确定所述稳定成员的权重,其中,所述稳定成员的权重与对应的边际价值评估量正比相关。
14.一种数据处理装置,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器的指令执行如权利要求1至8任一项所述的方法。
15.一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现权利要求1至8任意一项所述的方法的步骤。
CN202111321197.5A 2021-11-09 2021-11-09 数据处理方法、装置和存储介质 Pending CN114021464A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111321197.5A CN114021464A (zh) 2021-11-09 2021-11-09 数据处理方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111321197.5A CN114021464A (zh) 2021-11-09 2021-11-09 数据处理方法、装置和存储介质

Publications (1)

Publication Number Publication Date
CN114021464A true CN114021464A (zh) 2022-02-08

Family

ID=80063108

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111321197.5A Pending CN114021464A (zh) 2021-11-09 2021-11-09 数据处理方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN114021464A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115116240A (zh) * 2022-06-27 2022-09-27 中国科学院电工研究所 一种无信号灯交叉路口车辆协同控制方法及系统
WO2024032031A1 (zh) * 2022-08-09 2024-02-15 华为技术有限公司 一种数据分析方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060229896A1 (en) * 2005-04-11 2006-10-12 Howard Rosen Match-based employment system and method
US20180365595A1 (en) * 2016-03-04 2018-12-20 Alibaba Group Holding Limited Training Method and Training System for Machine Learning System
CN111340453A (zh) * 2020-02-28 2020-06-26 深圳前海微众银行股份有限公司 联邦学习开发方法、装置、设备及存储介质
CN112132198A (zh) * 2020-09-16 2020-12-25 建信金融科技有限责任公司 数据处理方法、装置、系统和服务器
CN112734045A (zh) * 2020-01-16 2021-04-30 支付宝(杭州)信息技术有限公司 一种联邦学习的异常处理方法、装置及电子设备
CN112818369A (zh) * 2021-02-10 2021-05-18 中国银联股份有限公司 一种联合建模方法及装置
WO2021208720A1 (zh) * 2020-11-19 2021-10-21 平安科技(深圳)有限公司 基于强化学习的业务分配方法、装置、设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060229896A1 (en) * 2005-04-11 2006-10-12 Howard Rosen Match-based employment system and method
US20180365595A1 (en) * 2016-03-04 2018-12-20 Alibaba Group Holding Limited Training Method and Training System for Machine Learning System
CN112734045A (zh) * 2020-01-16 2021-04-30 支付宝(杭州)信息技术有限公司 一种联邦学习的异常处理方法、装置及电子设备
CN111340453A (zh) * 2020-02-28 2020-06-26 深圳前海微众银行股份有限公司 联邦学习开发方法、装置、设备及存储介质
CN112132198A (zh) * 2020-09-16 2020-12-25 建信金融科技有限责任公司 数据处理方法、装置、系统和服务器
WO2021208720A1 (zh) * 2020-11-19 2021-10-21 平安科技(深圳)有限公司 基于强化学习的业务分配方法、装置、设备及存储介质
CN112818369A (zh) * 2021-02-10 2021-05-18 中国银联股份有限公司 一种联合建模方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LI LI: "A review of applications in Fererated learning", COMPUTER & INDUSTRIAL ENGINEERING, no. 149, 18 September 2020 (2020-09-18), pages 1 - 15 *
席酉民、张维主编: "系统工程与和谐管理 第十届全国青年系统科学与管理科学学术会议论文集", 31 October 2009, 西安:西安交通大学出版社, pages: 244 - 245 *
贾延延;张昭;冯键;王春凯;: "联邦学习模型在涉密数据处理中的应用", 中国电子科学研究院学报, no. 01, 20 January 2020 (2020-01-20), pages 47 - 53 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115116240A (zh) * 2022-06-27 2022-09-27 中国科学院电工研究所 一种无信号灯交叉路口车辆协同控制方法及系统
WO2024032031A1 (zh) * 2022-08-09 2024-02-15 华为技术有限公司 一种数据分析方法及装置

Similar Documents

Publication Publication Date Title
CN104778173B (zh) 目标用户确定方法、装置及设备
CN114021464A (zh) 数据处理方法、装置和存储介质
WO2020140377A1 (zh) 神经网络模型训练方法、装置、计算机设备及存储介质
CN108491302B (zh) 一种检测spark集群节点状态的方法
TW201947463A (zh) 模型測試的方法及裝置
CN109583594B (zh) 深度学习训练方法、装置、设备及可读存储介质
CN105869022B (zh) 一种应用流行度预测方法和装置
CN112686385B (zh) 面向多站点三维影像的联邦深度学习方法及系统
CN111537884B (zh) 获取动力电池寿命数据的方法、装置、计算机设备及介质
CN108696486B (zh) 一种异常操作行为检测处理方法及装置
US10467221B2 (en) Software function verification system and software function verification method
JP2014203228A (ja) プロジェクト管理支援システム
CN103559205A (zh) 基于MapReduce的并行特征选择方法
CN110309060A (zh) 识别算法更新的检测方法、装置、存储介质及计算机设备
Rezaei et al. Effect of cloud computing systems in terms of service quality of knowledge management systems
CN106951963B (zh) 一种知识精炼的方法以及装置
JP6190802B2 (ja) 項目応答理論に基づいて多数の受験者の能力値を推定するコンピューティング
CN108038131A (zh) 数据质量分析预处理方法及装置、存储介质、终端
CN110222734B (zh) 贝叶斯网络学习方法、智能设备及存储装置
CN110825466A (zh) 一种程序卡顿的处理方法以及卡顿处理装置
CN109190757B (zh) 任务处理方法、装置、设备及计算机可读存储介质
CN110348215A (zh) 异常对象识别方法、装置、电子设备及介质
CN112269937B (zh) 一种计算用户相似度的方法、系统及装置
CN112598534A (zh) 评估电力消费量与国内生产总值相关性的方法及装置
JP2015103221A (ja) 来店者属性分布情報推定装置およびプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination