CN111310819A - 数据筛选方法、装置、设备及可读存储介质 - Google Patents

数据筛选方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN111310819A
CN111310819A CN202010086989.8A CN202010086989A CN111310819A CN 111310819 A CN111310819 A CN 111310819A CN 202010086989 A CN202010086989 A CN 202010086989A CN 111310819 A CN111310819 A CN 111310819A
Authority
CN
China
Prior art keywords
data
coordinator
participant
error
detection model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010086989.8A
Other languages
English (en)
Other versions
CN111310819B (zh
Inventor
程勇
刘洋
陈天健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202010086989.8A priority Critical patent/CN111310819B/zh
Publication of CN111310819A publication Critical patent/CN111310819A/zh
Application granted granted Critical
Publication of CN111310819B publication Critical patent/CN111310819B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种数据筛选方法,包括以下步骤:本发明第一参与方接收协调方发送的数据检测模型,并基于所述数据检测模型对所述第一参与方拥有的数据集进行检测,得到所述数据集对应的重构误差集,而后基于所述重构误差集以及所述协调方配置的误差范围,得到所述第一参与方对应的数据筛选结果。本发明还公开了一种装置、设备及可读存储介质。通过数据检测模型对参与方拥有的数据集进行检测,从而筛选出与数据检测模型的训练集具有相同统计分布的参与方以及训练数据进行联邦训练,这些参与方的训练数据相似而又有差异,可以充分利用参与方拥有的训练数据的多样性,最大利用联邦学习的优势,训练更好的模型。

Description

数据筛选方法、装置、设备及可读存储介质
技术领域
本发明涉及机器学习技术领域,尤其涉及一种数据筛选方法、装置、设备及可读存储介质。
背景技术
在横向联邦学习中,如果其他参与方拥有的训练数据并不能对自己有所帮助,那么该参与方参与横向联邦学习就不会有什么收获,因此,在进行横向联邦学习模型训练之前,需要选择横向联邦学习的参与方。
现有技术中,一种常见方案:协调方从备选的参与方(或者潜在的参与方)中随机的选择横向联邦学习的参与方,期望能选择到统计分布比较均衡的训练数据。这个方案很简单,但是没有任何保证可以选择到统计分布比较均衡的训练数据。因为随机选择,所以出现重复数据、异常数据或者脏数据的可能性很大,也是实际应用横向联邦学习经常遇到的问题;另外一种方案:协调方不能查看备选的参与方(或者潜在的参与方)拥有的训练数据,但是可以获得备选的参与方(或者潜在的参与方)拥有的训练数据的一些统计信息。协调方可以通过这些统计信息来帮助选择参与方。这个方案有助于选择统计分布比较均衡的训练数据集。但是在某些场景下,训练数据的统计信息可能会泄露用户隐私或者商业秘密,因而这个方案的应用场景有限。此外,很多情况下,备选的参与方(或者潜在的参与方)拥有的训练数据并没有明显的统计特征(或者是无法获得统计特征),那么就无法应用这个方案。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种数据筛选方法、装置、设备及可读存储介质,旨在解决现有横向联邦学习中,协调方不能为横向联邦学习选择很好的训练数据或者参与方的技术问题。
为实现上述目的,本发明提供一种数据筛选方法,应用于第一参与方,所述的数据筛选方法包括以下步骤:
第一参与方接收协调方发送的数据检测模型,并基于所述数据检测模型对所述第一参与方拥有的数据集进行检测,得到所述数据集对应的重构误差集;
基于所述重构误差集以及所述协调方配置的误差范围,得到所述第一参与方对应的数据筛选结果。
进一步地,在一实施方式中,所述第一参与方接收协调方发送的数据检测模型,并基于所述数据检测模型对所述第一参与方拥有的数据集进行检测,得到所述数据集对应的重构误差集的步骤包括:
将所述第一参与方拥有的数据集输入所述数据检测模型,以对所述数据集的数据特征进行检测,输出第一参与方拥有的数据集对应的重构数据集;
基于所述第一参与方拥有的数据集以及所述重构数据集,计算得到所述重构误差集。
进一步地,在一实施方式中,所述基于所述重构误差集以及所述协调方配置的误差范围,得到所述第一参与方对应的数据筛选结果的步骤包括:
发送所述重构误差集至所述协调方,以供所述协调方反馈所述第一参与方对应的数据筛选结果,其中,所述协调方将接收到的所述重构误差集中各个重构误差分别与所述误差范围进行比对,基于比对结果确定数据筛选结果。
进一步地,在一实施方式中,所述基于所述重构误差集以及所述协调方配置的误差范围,得到所述第一参与方对应的数据筛选结果的步骤,还包括:
接收到所述协调方发送的误差范围,将所述重构误差集中各个重构误差分别与所述误差范围进行比对,将比对结果发送至所述协调方,以供所述协调方反馈数据筛选结果。
进一步地,在一实施方式中,所述基于所述重构误差集以及所述协调方配置的误差范围,得到所述第一参与方对应的数据筛选结果的步骤,还包括:
基于所述重构误差集中各个重构误差确定所述数据集对应的总重构误差;
基于所述总重构误差以及所述协调方配置的误差范围,得到所述第一参与方对应的数据筛选结果。
进一步地,在一实施方式中,所述基于所述总重构误差以及所述协调方配置的误差范围,得到所述第一参与方对应的数据筛选结果的步骤包括:
发送所述总重构误差至所述协调方,以供所述协调方反馈所述第一参与方对应的数据筛选结果,其中,所述协调方将接收到的所述总重构误差与所述误差范围进行比对,基于比对结果确定数据筛选结果。
进一步地,在一实施方式中,所述基于所述总重构误差以及所述协调方配置的误差范围,得到所述第一参与方对应的数据筛选结果的步骤包括:
接收到所述协调方发送的所述误差范围,将所述总重构误差与所述误差范围进行比对,将比对结果发送至所述协调方,以供所述协调方反馈数据筛选结果。
进一步地,在一实施方式中,所述第一参与方接收协调方发送的数据检测模型的步骤包括:
所述第一参与方接收协调方发送的数据检测模型,其中,在接收到数据检测模型训练指令时,第二参与方基于所述第二参与方拥有的数据集对初始模型进行训练,得到所述数据检测模型,并发送所述数据检测模型至所述协调方,以供所述协调方发送数据检测模型至所述第一参与方。
进一步地,在一实施方式中,所述数据筛选装置包括:
处理模块,用于第一参与方接收协调方发送的数据检测模型,并基于所述数据检测模型对所述第一参与方拥有的数据集进行检测,得到所述数据集对应的重构误差集;
判断模块,用于基于所述重构误差集以及所述协调方配置的误差范围,得到所述第一参与方对应的数据筛选结果。
此外,为实现上述目的,本发明还提供一种数据筛选设备,所述数据筛选设备包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的数据筛选程序,所述数据筛选程序被所述处理器执行时实现如上所述的数据筛选方法的步骤。
此外,为实现上述目的,本发明还提供一种可读存储介质,所述可读存储介质上存储有数据筛选程序,所述数据筛选程序被处理器执行时实现如上所述的数据筛选方法的步骤。
本发明第一参与方接收协调方发送的数据检测模型,并基于所述数据检测模型对所述第一参与方拥有的数据集进行检测,得到所述数据集对应的重构误差集,而后基于所述重构误差集以及所述协调方配置的误差范围,得到所述第一参与方对应的数据筛选结果。通过数据检测模型对参与方拥有的数据集进行检测,从而筛选出与数据检测模型的训练集具有相同统计分布的参与方以及训练数据进行联邦训练,这些参与方的训练数据相似而又有差异,可以充分利用参与方拥有的训练数据的多样性,最大利用联邦学习的优势,训练更好的模型。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的结构示意图;
图2为本发明数据筛选方法第一实施例的流程示意图;
图3为本发明一实施例中数据筛选的流程示意图;
图4为本发明数据筛选装置实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的结构示意图。
需要说明的是,图1即可为数据筛选设备的硬件运行环境的结构示意图。本发明实施例数据筛选备可以是PC,也可以是智能手机、智能电视机、平板电脑、便携计算机等具有显示功能的终端设备。
如图1所示,该数据筛选设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的系统结构并不构成对终端系统的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及数据筛选程序。
在图1所示的系统中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(客户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的数据筛选程序。
在本实施例中,终端系统包括:存储器1005、处理器1001及存储在所述存储器1005上并可在所述处理器1001上运行的数据筛选程序,其中,处理器1001调用存储器1005中存储的数据筛选程序时,执行本申请各个实施例提供的数据筛选方法的步骤。
本发明还提供一种数据筛选方法,参照图2,图2为本发明数据筛选方法第一实施例的流程示意图。
本发明实施例提供了数据筛选方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中,该数据筛选方法包括:
步骤S10,第一参与方接收协调方发送的数据检测模型,并基于所述数据检测模型对所述第一参与方拥有的数据集进行检测,得到所述数据集对应的重构误差集;
在本实施例中,数据检测模型可以学习用于训练数据检测模型的训练数据的统计特征,然后利用数据检测模型来识别出具有相近的统计特征的数据集,数据检测模型可以是异常检测模型、数据检测模型等,例如AutoEncoder、生成对抗网络(GenerativeAdversarial Network)等。需要说明的是,数据检测模型可以由协调方训练得到,也可以由一个被选定的参与方训练得到。为了描述方便,本发明中以选定的参与方进行数据检测模型训练为例,进行说明。
具体地,协调方确定一个参与方A是可信任的,并且A拥有的训练数据也较多,数据质量较好,例如,可以选择参与方A为规模较大、信用度较好的公司,协调方可以请参与方A使用A的训练数据集训练一个数据检测模型,记为GA。参与方A将数据检测模型GA发送给协调方,协调方再将参与方A训练好的数据检测模型GA发送给备选的参与方,即第一参与方。一个备选的参与方B可以使用数据检测模型GA计算B的训练数据对应的重构误差(每条训练数据都对应一个重构误差),根据B的训练数据对应的重构误差来检测B的训练数据的质量和统计分布特征。需要说明的是,B的训练数据包含一条或者多条数据。
具体地,步骤S10包括:
步骤S11,将所述第一参与方拥有的数据集输入所述数据检测模型,以对所述数据集的数据特征进行检测,输出第一参与方拥有的数据集对应的重构数据集;
步骤S12,基于所述第一参与方拥有的数据集以及所述重构数据集,计算得到所述重构误差集。
在本实施例中,训练好的数据检测模型已经学习到了训练数据集的统计分布特征,例如,使用参与方A训练好的数据检测模型来检测备选的参与方B的训练数据集与参与方A的训练数据集的相似度。数据检测模型可以用来重构输入数据,在训练数据集上训练数据检测模型,目标是希望重构的数据和输入的数据之间的差异最小。例如基于自编码器(Autoencoder)的数据检测模型,输入一张图片,该模型可以重构输入的图片,输出一张重构的图片。这里重构的数据与输入数据之间的差异就称为重构误差。
具体地,第一参与方在接收到协调方发送的数据检测模型后,将第一参与方拥有的数据集输入数据检测模型,以对该数据集的数据特征进行检测,输出第一参与方拥有的数据集对应的重构数据集。常用的重构误差有均方误差(mean square error,MSE),交叉熵,和常见的距离度量(重构输出d’与输入数据d之间的距离度量)等,重构误差表征重构输出d’与输入数据d之间的差异。根据实际情况选取一种计算重构误差的计算方案,计算参与方拥有的数据集对应的重构数据集。
举例说明,使用参与方A拥有的训练数据训练好的一个数据检测模型,该数据检测模型就可以很好的重构参与方A的训练数据。也就是说,输入参与方A的一个训练数据d,该自编码器的重构输出d’与输入数据d会很接近,即重构误差会很小。如果一个输入数据e与参与方A的训练数据的差异很大,即输入数据e不服从参与方A的训练数据的统计分布,那么数据检测模型对输入数据e的重构输出(记为e’)就会与输入数据e有很大的差异,即重构误差会很大。
步骤S20,基于所述重构误差集以及所述协调方配置的误差范围,得到所述第一参与方对应的数据筛选结果。
在本实施例中,协调方可以使用参与方A训练好的数据检测模型GA来对备选的参与方B的训练数据进行检查。协调方可以依次对备选的参与方B、C、D和E等的训练数据进行检查,进而筛选出备选的参与方,确定横向联邦学习的参与方和他们的训练数据。协调方预先设置好重构误差的误差范围,将重构误差集中的重构误差与误差范围比较,进而确定参与方对应的数据筛选结果,其中,数据筛选结果包括确定参与方是否可以参与联邦训练,以及该参与方参与联邦训练的数据。
具体地,步骤S20包括:
步骤S21,发送所述重构误差集至所述协调方,以供所述协调方反馈所述第一参与方对应的数据筛选结果,其中,所述协调方将接收到的所述重构误差集中各个重构误差分别与所述误差范围进行比对,基于比对结果确定数据筛选结果。
在本实施例中,筛选的标准是选择数据相似,但又有差异的参与方。协调方可以根据模型特征来设置或者由系统配置重构误差的误差范围,误差范围可以用上下限表示,例如,误差范围用下限RL和上限RU表示,需要说明的是,上下限可以相同,当上下限相同时,误差范围成为一个值,通常情况下,下限和上限是不同的。如果备选的参与方B的一条训练数据对应的重构误差大于上限RU,则认为该数据差异太大,或者是完全不相关的数据,或者是异常的数据,因此确定不选择该数据;如果该数据对应的重构误差小于下限RL,则认为该数据是过于相似的数据或者是重复数据,因此也不选择该数据。
具体地,第一参与方发送重构误差集至协调方,协调方在接收到该重构误差集时,根据误差范围(重构误差下限RL和上限RU)对重构误差集中的各个重构误差进行判断,当重构误差在误差范围内时,说明该重构误差对应的数据符合筛选标准,反之,重构误差不在误差范围内时,说明该重构误差对应的数据不符合筛选标准。协调方统计符合筛选标准的数据数量,进而根据预设规则来确定参与方对应的数据筛选结果,数据筛选结果包括确定参与方是否可以参与联邦训练,以及该参与方参与联邦训练的数据。
进一步地,步骤S20还包括:
步骤S22,接收到所述协调方发送的误差范围,将所述重构误差集中各个重构误差分别与所述误差范围进行比对,将比对结果发送至所述协调方,以供所述协调方反馈数据筛选结果。
在本实施例中,协调方还可以将误差范围也发送到参与方,参与方根据重构误差集和误差范围的下限RL和上限RU来检查自己的数据,并确定有多少数据符合协调方的筛选标准(即重构误差在下限RL和上限RU之间的数据)。然后,协调方根据备选的参与方汇报的符合筛选标准的数据来筛选备选的参与方和数据。
具体地,参与方接收到协调方发送的误差范围,将重构误差集中各个重构误差分别与误差范围进行比对,将比对结果(例如参与方汇报的符合筛选标准的数据数量)发送至协调方,协调方根据比对结果及预设规则来确定参与方对应的数据筛选结果,并反馈给参与方,其中,数据筛选结果包括确定参与方是否可以参与联邦训练,以及该参与方参与联邦训练的数据。
进一步地,步骤S10还包括:
步骤S30,所述第一参与方接收协调方发送的数据检测模型,其中,在接收到数据检测模型训练指令时,第二参与方基于所述第二参与方拥有的数据集对初始模型进行训练,得到所述数据检测模型,并发送所述数据检测模型至所述协调方,以供所述协调方发送数据检测模型至所述第一参与方。
在本实施例中,协调方确定一个参与方是可信任的,并且拥有的训练数据也较多,数据质量较好,例如,可以选择第二参与方为规模较大、信用度较好的公司,协调方可以请第二参与方使用其训练数据集训练一个数据检测模型,例如自动编码器(Autoencoder)。第二参与方在接收到数据检测模型训练指令时,基于其拥有的数据集对初始模型进行训练,当初始模型收敛时,模型训练结束,得到数据检测模型。
第二参与方将数据检测模型发送给协调方,协调方再将训练好的数据检测模型发送给备选的第一参与方。例如,一个备选的参与方B可以使用数据检测模型计算B的训练数据对应的重构误差(每条训练数据都对应一个重构误差),根据B的训练数据对应的重构误差来检测B的训练数据的质量和统计分布特征。
本实施例提出的数据筛选方法,第一参与方接收协调方发送的数据检测模型,并基于所述数据检测模型对所述第一参与方拥有的数据集进行检测,得到所述数据集对应的重构误差集,而后基于所述重构误差集以及所述协调方配置的误差范围,得到所述第一参与方对应的数据筛选结果。通过数据检测模型对参与方拥有的数据集进行检测,从而筛选出与数据检测模型的训练集具有相同统计分布的参与方以及训练数据进行联邦训练,这些参与方的训练数据相似而又有差异,可以充分利用参与方拥有的训练数据的多样性,最大利用联邦学习的优势,训练更好的模型。
基于第一实施例,提出本发明命令行字符串处理方法的第二实施例,在本实施例中,步骤S20还包括:
步骤S23,基于所述重构误差集中各个重构误差确定所述数据集对应的总重构误差;
在本实施例中,还可以根据参与方拥有的数据集对应的总重构误差来确定参与方对应的数据筛选结果。一个备选的参与方拥有很多条的数据(即拥有一个训练数据集),每条训练数据都对应一个重构误差,一个备选的参与方的数据集对应的总重构误差,可以是参与方所有数据对应的重构误差中的最小重构误差,或者是最大重构误差,或者是平均重构误差,或者是重构误差的中位数等。根据实际情况选取一种计算总重构误差的计算方案,计算参与方拥有的数据集对应的总重构数据。
步骤S24,基于所述总重构误差以及所述协调方配置的误差范围,得到所述第一参与方对应的数据筛选结果。
在本实施例中,协调方可以根据备选的参与方的训练数据集对应的总重构误差来检测参与方的训练数据的质量。根据总重构误差以及协调方配置的误差范围,确定参与方对应的数据筛选结果,其中,数据筛选结果包括确定参与方可以参加联邦训练或参与方不可以参加联邦训练。
具体地,步骤S24包括:
步骤a,发送所述总重构误差至所述协调方,以供所述协调方反馈所述第一参与方对应的数据筛选结果,其中,所述协调方将接收到的所述总重构误差与所述误差范围进行比对,基于比对结果确定数据筛选结果。
在本实施例中,筛选的标准可以是选择训练数据相似,但又有差异的参与方。协调方可以根据模型特征来设置或者由系统配置重构误差的误差范围,误差范围可以用上下限表示,例如,误差范围用下限RL和上限RU表示,需要说明的是,上下限可以相同,当上下限相同时,误差范围成为一个值,通常情况下,下限和上限是不同的。如果备选的参与方B的一条训练数据对应的重构误差大于上限RU,则认为该数据差异太大,或者是完全不相关的数据,或者是异常的数据,因此确定不选择该数据;如果该数据对应的重构误差小于下限RL,则认为该数据是过于相似的数据或者是重复数据,因此也可以不选择该数据。
具体地,参与方发送总重构误差集至协调方,协调方在接收到该总重构误差时,根据误差范围(重构误差下限RL和上限RU)对总重构误差进行判断,当总重构误差在误差范围内时,说明该参与方符合筛选标准,反之,总重构误差不在误差范围内时,说明该参与方不符合筛选标准。最后,协调方反馈数据筛选结果至参与方。
进一步地,确定参与方的数据筛选结果的完整流程如图3所示,协调方确定第一个横向联邦学习的参与方A;协调方请参与方A使用A的训练数据训练数据检测模型GA;参与方A将训练好的数据检测模型GA发送给协调方;协调方将数据检测模型GA发送给备选的参与方B;备选的参与方B使用数据检测模型GA计算B的数据集对应的重构误差;备选的参与方B将B的数据集对应的重构误差发送给协调方;协调方根据接收到的备选参与方B发送的重构误差确定是否选择B作为横向联邦学习的参与方。
进一步地,步骤S24还包括:
步骤b,接收到所述协调方发送的所述误差范围,将所述总重构误差与所述误差范围进行比对,将比对结果发送至所述协调方,以供所述协调方反馈数据筛选结果。
在本实施例中,协调方获还可以将误差范围发送到参与方,参与方根据重构误差集和误差范围的下限RL和上限RU来检查自己的数据,将总重构误差与误差范围进行比对,将比对结果发送至协调方。协调方根据备选的参与方汇报的比对结果来确定数据筛选结果。
需要说明的是,协调方可以逐个确定横向联邦学习的参与方。例如,协调方先确定第一个参与方A,请A训练数据检测模型,然后协调方使用A训练好的数据检测模型来筛选出参与方B和参与方B的训练数据,然后继续筛选出参与方C和参与方C的训练数据。
另一种可能的实现方式是,协调方随机选择参与方,然后将重构误差下限RL和上限RU,以及训练好的数据检测模型发送给所有参与方,参与方只使用符合筛选标准的数据进行联邦学习模型训练。
又一种可能的实现方式是,协调方先确定参与方A,请A训练数据检测模型,然后协调方使用A训练好的数据检测模型来筛选出参与方B和参与方B的训练数据。接着,协调方请A和B一起联合训练一个新的数据检测模型,然后协调方再利用这个新的数据检测模型来筛选出参与方C,D和E,等等。进一步地,协调方可以请A、B和C一起联合训练一个新的数据检测模型,协调方再使用这个新的数据检测模型筛选出参与方D,以此类推。
本实施例提出的数据筛选方法,基于所述重构误差集中各个重构误差确定所述数据集对应的总重构误差,而后基于所述总重构误差以及所述协调方配置的误差范围,得到所述第一参与方对应的数据筛选结果。根据参与方的数据集对应的总重构误差实现对参与方拥有的数据集进行检测,丰富了数据筛选方式,同时实现了筛选出与数据检测模型的训练集具有相同统计分布的参与方以及训练数据进行联邦训练,这些参与方的训练数据相似而又有差异,可以充分利用参与方拥有的训练数据的多样性,最大利用联邦学习的优势,训练更好的模型。
本发明进一步提供一种数据筛选装置,参照图4,图4为本发明数据筛选装置实施例的功能模块示意图。
处理模块10,用于第一参与方接收协调方发送的数据检测模型,并基于所述数据检测模型对所述第一参与方拥有的数据集进行检测,得到所述数据集对应的重构误差集;
判断模块20,用于基于所述重构误差集以及所述协调方配置的误差范围,得到所述第一参与方对应的数据筛选结果。
进一步地,所述处理模块10还用于:
将所述第一参与方拥有的数据集输入所述数据检测模型,以对所述数据集的数据特征进行检测,输出第一参与方拥有的数据集对应的重构数据集;
基于所述第一参与方拥有的数据集以及所述重构数据集,计算得到所述重构误差集。
进一步地,所述判断模块20还用于:
发送所述重构误差集至所述协调方,以供所述协调方反馈所述第一参与方对应的数据筛选结果,其中,所述协调方将接收到的所述重构误差集中各个重构误差分别与所述误差范围进行比对,基于比对结果确定数据筛选结果。
进一步地,所述判断模块20还用于:
接收到所述协调方发送的误差范围,将所述重构误差集中各个重构误差分别与所述误差范围进行比对,将比对结果发送至所述协调方,以供所述协调方反馈数据筛选结果。
进一步地,所述判断模块20还用于:
基于所述重构误差集中各个重构误差确定所述数据集对应的总重构误差;
基于所述总重构误差以及所述协调方配置的误差范围,得到所述第一参与方对应的数据筛选结果。
进一步地,所述判断模块20还用于:
发送所述总重构误差至所述协调方,以供所述协调方反馈所述第一参与方对应的数据筛选结果,其中,所述协调方将接收到的所述总重构误差与所述误差范围进行比对,基于比对结果确定数据筛选结果。
进一步地,所述判断模块20还用于:
接收到所述协调方发送的所述误差范围,将所述总重构误差与所述误差范围进行比对,将比对结果发送至所述协调方,以供所述协调方反馈数据筛选结果。
进一步地,所述数据筛选装置还包括:
训练模块,用于所述第一参与方接收协调方发送的数据检测模型,其中,在接收到数据检测模型训练指令时,第二参与方基于所述第二参与方拥有的数据集对初始模型进行训练,得到所述数据检测模型,并发送所述数据检测模型至所述协调方,以供所述协调方发送数据检测模型至所述第一参与方。
此外,本发明实施例还提出一种可读存储介质,所述可读存储介质上存储有数据筛选程序,所述数据筛选程序被处理器执行时实现上述各个实施例中数据筛选方法的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。根据这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个可读存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台系统设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (11)

1.一种数据筛选方法,其特征在于,应用于第一参与方,所述的数据筛选方法包括以下步骤:
第一参与方接收协调方发送的数据检测模型,并基于所述数据检测模型对所述第一参与方拥有的数据集进行检测,得到所述数据集对应的重构误差集;
基于所述重构误差集以及所述协调方配置的误差范围,得到所述第一参与方对应的数据筛选结果。
2.如权利要求1所述的数据筛选方法,其特征在于,所述第一参与方接收协调方发送的数据检测模型,并基于所述数据检测模型对所述第一参与方拥有的数据集进行检测,得到所述数据集对应的重构误差集的步骤包括:
将所述第一参与方拥有的数据集输入所述数据检测模型,以对所述数据集的数据特征进行检测,输出第一参与方拥有的数据集对应的重构数据集;
基于所述第一参与方拥有的数据集以及所述重构数据集,计算得到所述重构误差集。
3.如权利要求1所述的数据筛选方法,其特征在于,所述基于所述重构误差集以及所述协调方配置的误差范围,得到所述第一参与方对应的数据筛选结果的步骤包括:
发送所述重构误差集至所述协调方,以供所述协调方反馈所述第一参与方对应的数据筛选结果,其中,所述协调方将接收到的所述重构误差集中各个重构误差分别与所述误差范围进行比对,基于比对结果确定数据筛选结果。
4.如权利要求1所述的数据筛选方法,其特征在于,所述基于所述重构误差集以及所述协调方配置的误差范围,得到所述第一参与方对应的数据筛选结果的步骤,还包括:
接收到所述协调方发送的误差范围,将所述重构误差集中各个重构误差分别与所述误差范围进行比对,将比对结果发送至所述协调方,以供所述协调方反馈数据筛选结果。
5.如权利要求1所述的数据筛选方法,其特征在于,所述基于所述重构误差集以及所述协调方配置的误差范围,得到所述第一参与方对应的数据筛选结果的步骤,还包括:
基于所述重构误差集中各个重构误差确定所述数据集对应的总重构误差;
基于所述总重构误差以及所述协调方配置的误差范围,得到所述第一参与方对应的数据筛选结果。
6.如权利要求5所述的数据筛选方法,其特征在于,所述基于所述总重构误差以及所述协调方配置的误差范围,得到所述第一参与方对应的数据筛选结果的步骤包括:
发送所述总重构误差至所述协调方,以供所述协调方反馈所述第一参与方对应的数据筛选结果,其中,所述协调方将接收到的所述总重构误差与所述误差范围进行比对,基于比对结果确定数据筛选结果。
7.如权利要求5所述的数据筛选方法,其特征在于,所述基于所述总重构误差以及所述协调方配置的误差范围,得到所述第一参与方对应的数据筛选结果的步骤包括:
接收到所述协调方发送的所述误差范围,将所述总重构误差与所述误差范围进行比对,将比对结果发送至所述协调方,以供所述协调方反馈数据筛选结果。
8.如权利要求1至7中任一项所述的数据筛选方法,其特征在于,所述第一参与方接收协调方发送的数据检测模型的步骤包括:
所述第一参与方接收协调方发送的数据检测模型,其中,在接收到数据检测模型训练指令时,第二参与方基于所述第二参与方拥有的数据集对初始模型进行训练,得到所述数据检测模型,并发送所述数据检测模型至所述协调方,以供所述协调方发送数据检测模型至所述第一参与方。
9.一种数据筛选装置,其特征在于,所述数据筛选装置包括:
处理模块,用于第一参与方接收协调方发送的数据检测模型,并基于所述数据检测模型对所述第一参与方拥有的数据集进行检测,得到所述数据集对应的重构误差集;
判断模块,用于基于所述重构误差集以及所述协调方配置的误差范围,得到所述第一参与方对应的数据筛选结果。
10.一种设备,其特征在于,所述数据筛选设备包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的数据筛选程序,所述数据筛选程序被所述处理器执行时实现如权利要求1至8中任一项所述的数据筛选方法的步骤。
11.一种可读存储介质,其特征在于,所述可读存储介质上存储有数据筛选程序,所述数据筛选程序被处理器执行时实现如权利要求1至8中任一项所述的数据筛选方法的步骤。
CN202010086989.8A 2020-02-11 2020-02-11 数据筛选方法、装置、设备及可读存储介质 Active CN111310819B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010086989.8A CN111310819B (zh) 2020-02-11 2020-02-11 数据筛选方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010086989.8A CN111310819B (zh) 2020-02-11 2020-02-11 数据筛选方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN111310819A true CN111310819A (zh) 2020-06-19
CN111310819B CN111310819B (zh) 2021-07-09

Family

ID=71161773

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010086989.8A Active CN111310819B (zh) 2020-02-11 2020-02-11 数据筛选方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN111310819B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112231308A (zh) * 2020-10-14 2021-01-15 深圳前海微众银行股份有限公司 横向联邦建模样本数据的去重方法、装置、设备及介质
CN113179250A (zh) * 2021-03-26 2021-07-27 北京六方云信息技术有限公司 web未知威胁检测方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105787428A (zh) * 2016-01-08 2016-07-20 上海交通大学 基于稀疏编码的唇语特征身份认证方法
CN107169410A (zh) * 2017-03-31 2017-09-15 南京邮电大学 用于人脸识别的基于lbp特征的结构型稀疏表示分类方法
CN109584225A (zh) * 2018-11-23 2019-04-05 聚时科技(上海)有限公司 一种基于自编码器的无监督缺陷检测方法
CN110084377A (zh) * 2019-04-30 2019-08-02 京东城市(南京)科技有限公司 用于构建决策树的方法和装置
CN110309923A (zh) * 2019-07-03 2019-10-08 深圳前海微众银行股份有限公司 横向联邦学习方法、装置、设备及计算机存储介质
CN110633806A (zh) * 2019-10-21 2019-12-31 深圳前海微众银行股份有限公司 纵向联邦学习系统优化方法、装置、设备及可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105787428A (zh) * 2016-01-08 2016-07-20 上海交通大学 基于稀疏编码的唇语特征身份认证方法
CN107169410A (zh) * 2017-03-31 2017-09-15 南京邮电大学 用于人脸识别的基于lbp特征的结构型稀疏表示分类方法
CN109584225A (zh) * 2018-11-23 2019-04-05 聚时科技(上海)有限公司 一种基于自编码器的无监督缺陷检测方法
CN110084377A (zh) * 2019-04-30 2019-08-02 京东城市(南京)科技有限公司 用于构建决策树的方法和装置
CN110309923A (zh) * 2019-07-03 2019-10-08 深圳前海微众银行股份有限公司 横向联邦学习方法、装置、设备及计算机存储介质
CN110633806A (zh) * 2019-10-21 2019-12-31 深圳前海微众银行股份有限公司 纵向联邦学习系统优化方法、装置、设备及可读存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112231308A (zh) * 2020-10-14 2021-01-15 深圳前海微众银行股份有限公司 横向联邦建模样本数据的去重方法、装置、设备及介质
CN112231308B (zh) * 2020-10-14 2024-05-03 深圳前海微众银行股份有限公司 横向联邦建模样本数据的去重方法、装置、设备及介质
CN113179250A (zh) * 2021-03-26 2021-07-27 北京六方云信息技术有限公司 web未知威胁检测方法及系统

Also Published As

Publication number Publication date
CN111310819B (zh) 2021-07-09

Similar Documents

Publication Publication Date Title
CN110309923B (zh) 横向联邦学习方法、装置、设备及计算机存储介质
US20230237141A1 (en) Security verification method and relevant device
CN111310819B (zh) 数据筛选方法、装置、设备及可读存储介质
US10289375B2 (en) Verification of shared display integrity in a desktop sharing system
CN107995370B (zh) 通话控制方法、装置及存储介质和移动终端
CN110766167B (zh) 交互式特征选择方法、设备及可读存储介质
KR20170118094A (ko) 사용자 신원 확인을 위한 시스템 및 방법 및 상기 시스템과 방법의 사용에 의한 클라이언트 및 서버
CN112801670B (zh) 针对支付操作的风险评估方法及装置
CN111815169B (zh) 业务审批参数配置方法及装置
WO2019052169A1 (zh) 坐席监控方法、装置、设备及计算机可读存储介质
CN111401906A (zh) 转账风险检测方法及系统
CN115185760A (zh) 异常检测方法以及装置
CN111612085B (zh) 一种对等组中异常点的检测方法及装置
CN112785418B (zh) 信贷风险建模方法、装置、设备及计算机可读存储介质
CN114202018A (zh) 一种模块化的联合学习方法及系统
CN116431929B (zh) 基于隐私计算的信息推荐方法、装置、设备及介质
CN111047146B (zh) 一种企业用户的风险识别方法、装置及设备
Gallardo et al. An unexpected digital divide? A look at internet speeds and socioeconomic groups
CN111191143A (zh) 应用推荐方法及装置
CN116226116A (zh) 联合学习任务查看方法、装置、电子设备及存储介质
CN111354122A (zh) 一种交互式电子投票方法、设备、电子设备及存储介质
CN111210279A (zh) 一种目标用户预测方法、装置和电子设备
CN118042065B (zh) 基于人脸识别的校园音视频话机系统
CN116760653B (zh) 一种远程视频会议智能运维方法及系统
Ramlan et al. ICT, human capital and TFP in Malaysia: A statistical approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant