CN113807736A

CN113807736A - 一种数据质量评估方法、计算机设备及存储介质

Info

Publication number: CN113807736A
Application number: CN202111153966.5A
Authority: CN
Inventors: 伊人; 金可乔; 杨雪松
Original assignee: Henan Xinghuan Zhongzhi Information Technology Co ltd
Current assignee: Henan Xinghuan Zhongzhi Information Technology Co ltd
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2021-12-17

Abstract

本发明公开了一种数据质量评估方法、计算机设备及存储介质，该方法包括：根据至少一项数据评价指标，分别对联邦学习中的参与方与发起方中的样本数据进行质量评估，得到与所述参与方以及发起方分别对应的本地数据评估结果；根据所述参与方与发起方之间的样本数据影响情况，确定所述参与方与发起方之间的联邦数据评估结果；根据与所述参与方以及发起方分别对应的本地数据评估结果，以及所述联邦数据评估结果，确定与所述参与方以及发起方分别对应的样本数据质量评估结果。本发明实施例的技术方案提供了一种适用于联邦学习中的数据质量评估方法，可以实现客观、准确地对联邦学习环境中的样本数据进行评估。

Description

一种数据质量评估方法、计算机设备及存储介质

技术领域

本发明实施例涉及人工智能技术领域，尤其涉及一种数据质量评估方法、计算机设备及存储介质。

背景技术

随着人工智能技术和大数据技术的发展及大规模应用，企业与政府组织越来越重视数据隐私的保护，使得庞大的数据彼此之间难以形成有价值的流通和交流。

目前，联邦学习作为一种新型的人工智能技术，能够在保证数据隐私安全的前提下进行多方参与的机器学习训练。联邦学习主要包括横向联邦学习和纵向联邦学习，纵向联邦学习将多个参与方中的数据特征汇总到一起，通过同态加密等方式保证数据的安全。如果不能在联邦学习前对参与方的数据质量做好评估，就无法保证联邦学习的效果，并且联邦学习的整体效率通常低于传统机器学习的效率，重新学习的代价巨大。因此，在联邦学习之前对参与联邦学习的数据进行质量评估尤为重要。

但是，当前联邦学习环境下缺乏完善的数据质量评估方法，影响了联邦学习技术的应用普及，限制了跨行业跨领域的人工智能技术及产业的发展。

发明内容

本发明实施例提供了一种数据质量评估方法、计算机设备及存储介质，可以实现客观、准确地对联邦学习环境中的样本数据进行评估。

第一方面，本发明实施例提供了一种数据质量评估方法，所述方法包括：

根据至少一项数据评价指标，分别对联邦学习中的参与方与发起方中的样本数据进行质量评估，得到与所述参与方以及发起方分别对应的本地数据评估结果；

根据所述参与方与发起方之间的样本数据影响情况，确定所述参与方与发起方之间的联邦数据评估结果；

根据与所述参与方以及发起方分别对应的本地数据评估结果，以及所述联邦数据评估结果，确定与所述参与方以及发起方分别对应的样本数据质量评估结果。

第二方面，本发明实施例还提供了一种计算机设备，包括处理器和存储器，存储器用于存储指令，当指令执行时使得处理器执行以下操作：

第三方面，本发明实施例还提供了一种存储介质，存储介质用于存储指令，指令用于执行：

本发明实施例通过根据至少一项数据评价指标，分别对联邦学习中的参与方与发起方中的样本数据进行质量评估，得到与所述参与方以及发起方分别对应的本地数据评估结果，根据所述参与方与发起方之间的样本数据影响情况，确定所述参与方与发起方之间的联邦数据评估结果，根据与所述参与方以及发起方分别对应的本地数据评估结果，以及所述联邦数据评估结果，确定与所述参与方以及发起方分别对应的样本数据质量评估结果的技术手段，提供了一种新型的适用于联邦学习环境中的数据质量评估方法，可以保证样本数据质量评估结果的准确性。

附图说明

图1为本发明实施例一提供的一种数据质量评估方法的流程图；

图2a为本发明实施例二提供的一种数据质量评估方法的流程图；

图2b为本发明实施例二提供的一种数据质量评估方法所适用的场景示意图；

图3为本发明实施例三提供的一种数据质量评估装置的结构示意图；

图4为本发明实施例五提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

本文使用的术语“联邦学习”是指联邦机器学习，是一个机器学习框架，能够有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下，进行数据使用和机器学习建模。

本文使用的术语“数据评价指标”可以是人为预先根据对样本数据的质量要求设定的评价指标。

为了便于理解，将本发明实施例的主要发明构思进行简述。

联邦学习主要包括横向联邦学习和纵向联邦学习，纵向联邦学习将多个参与方中的数据特征汇总到一起，通过同态加密等方式保证数据的安全。如果不能在联邦学习前对参与方的数据质量做好评估，就无法保证联邦学习的效果，并且联邦学习的整体效率通常低于传统机器学习的效率，重新学习的代价巨大。因此，在联邦学习之前对参与联邦学习的数据进行质量评估尤为重要。但是，当前联邦学习环境下缺乏完善的数据质量评估方法，影响了联邦学习技术的应用普及，限制了跨行业跨领域的人工智能技术及产业的发展。

发明人针对现有技术中针对联邦学习环境，缺乏有效的数据质量评估方法的问题，考虑是否可以通过一种方法可以准确对联邦学习对应的样本数据进行质量评估，以减缓数据不共享时劣质数据对学习效果的影响。

基于上述思考，发明人创造性地提出，同时考虑对发起方与参与方中本地样本数据和联邦学习数据进行质量评估，用多个维度的综合评分度量数据质量的技术手段，提供了一种新型的适用于联邦学习环境中的数据质量评估方法，可以保证样本数据质量评估结果的准确性。

实施例一

图1为本发明实施例一提供的一种数据质量评估方法流程图。本发明实施例可适用于对参与联邦学习的数据进行质量评估的情况，该方法可以由本发明实施例提供的数据质量评估装置来执行，该装置可采用软件和/或硬件的方式实现，并一般可集成在计算机设备中。如图1所示，本发明实施例的方法具体包括：

步骤110、根据至少一项数据评价指标，分别对联邦学习中的参与方与发起方中的样本数据进行质量评估，得到与所述参与方以及发起方分别对应的本地数据评估结果。

在本实施例中，所述发起方可以为发起联邦学习的机构或者企业，所述参与方可以为所述发起方希望合作的机构或者企业。在此步骤之前，所述发起方和所述参与方分别准备了待学习的样本数据。

在此步骤中，可以根据至少一项数据评价指标，分别对联邦学习中的参与方与发起方中的样本数据进行质量评估。其中，所述数据评价指标可以包括数据完整性以及数据准确性等。

在一个具体的实施例中，可以分别对参与方与发起方中的样本数据包括的缺失值的个数进行统计，根据统计结果对各样本数据的数据完整性进行评分；然后分别对各样本数据中的异常值的个数进行统计，根据统计结果对各样本数据的数据准确性进行评分；最后将各样本数据对应的上述两个评分进行累加，得到与所述参与方对应的本地数据评估结果，以及与所述发起方对应的本地数据评估结果。

步骤120、根据所述参与方与发起方之间的样本数据影响情况，确定所述参与方与发起方之间的联邦数据评估结果。

在本实施例中，为了衡量参与方的样本数据是否对联邦学习的整体数据质量具备提升作用，还提供了一种根据参与方与发起方之间的样本数据影响情况，确定所述参与方与发起方之间的联邦数据评估结果的实施方式。

在此步骤中，可选的，可以根据所述参与方与发起方中样本数据之间的关联性，确定所述参与方与发起方之间的联邦数据评估结果，所述联邦数据评估结果可以为用于表征联邦数据质量优劣的评分。

在一个具体的实施例中，可以根据所述参与方中样本数据所属的数据类别，所述发起方中样本数据所属的数据类别，确定所述参与方与发起方中样本数据之间的关联性。具体的，如果所述参与方与发起方中样本数据之间的关联性越高，则可以确认所述参与方与发起方中的样本数据越满足设定业务场景的训练需求，也即所述参与方与发起方之间的联邦数据评估结果越好。

在本实施例中，步骤110和步骤120可以通过串行或者并行的方式进行执行，对于具体的先后执行顺序，本实施例并不进行限制。

步骤130、根据与所述参与方以及发起方分别对应的本地数据评估结果，以及所述联邦数据评估结果，确定与所述参与方以及发起方分别对应的样本数据质量评估结果。

在本实施例中，可选的，可以将与所述参与方对应的本地数据评估结果，与所述联邦数据评估结果进行相加，得到与所述参与方对应的最终的样本数据质量评估结果；将与所述发起方对应的本地数据评估结果，与所述联邦数据评估结果进行相加，得到与所述发起方对应的最终的样本数据质量评估结果。

在本实施例中，在保护参与方与发起方数据隐私的前提下，建立了本地数据评估与联邦数据评估两个层级的评估体系，同时结合本地数据评估结果与联邦数据评估结果，确定参与方以及发起方分别对应的最终的样本数据质量评估结果，提供了一种新型的适用于联邦学习环境中的数据质量评估方法，一方面可以保证样本数据质量评估结果的准确性；另一方面可以减小由于数据不共享导致劣质数据对训练模型效果的影响，促进联邦学习技术的应用普及。

实施例二

本实施例是对上述实施例一的进一步细化，与上述实施例相同或相应的术语解释，本实施例不再赘述。图2a为本发明实施例二提供的一种数据质量评估方法的流程图，在本实施例中，本实施例的技术方案可以与上述实施例的方案中的一种或者多种方法进行组合，在本实施例中，如图2a所示，本发明实施例提供的方法还可以包括：

步骤210、根据至少一项数据评价指标，分别对联邦学习中的参与方与发起方中的样本数据进行质量评估，得到与所述参与方以及发起方分别对应的本地数据评估结果。

在本发明实施例的一个实施方式中，所述数据评价指标可以包括：数据重复情况、数据缺失情况、数据异常情况以及数据单一情况。根据至少一项数据评价指标，对联邦学习中的参与方中的样本数据进行质量评估，得到与所述参与方对应的本地数据评估结果，包括：

步骤211、根据各所述数据评价指标，以及所述参与方中的样本数据，分别计算与所述参与方对应的重复数据评分结果、缺失数据评分结果、异常数据评分结果，以及单一数据评分结果；

在此步骤中，可以对参与方中的样本数据进行去重，然后计算去重后的样本数量与原始样本数量的比值λ,假设重复数据评分结果为a，则有：a＝round(λ，1)。

在此步骤中，可以统计所述样本数据中特征缺失或者数值类型为“NULL”的样本数量，与总体样本数量的比值σ，假设缺失数据评分结果为b，则有：b＝1-σ。

在此步骤中，可以统计所述样本数据中特征属于异常值的样本数量，与总体样本数量的比值γ，假设异常数据评分结果为c，则有：c＝round(1-γ，1)。

其中，对于连续型的样本数据，定义IQR为上四分位数与下四分位数的差值，t为预设阈值，则可以将超过上限值(上四分位数+t*IQR)或者小于下限值(下四分位数-t*IQR)的值定义为异常值。对于离散型的样本数据，如果样本数据是编码类型的，则将位于编码类型上下限区间之外的值定义为异常值。

在此步骤中，可以根据所述参与方中的样本数据，计算不同数据类别分别对应的样本数据标准差；根据各所述样本数据标准差与预设阈值的大小关系，确定与各所述数据类别分别对应的单一指标评估结果，对各所述单一指标评估结果取平均值，得到与所述参与方对应的单一数据评分结果。

其中，所述预设阈值可以为10e-8，具体的，如果所述样本数据标准差小于所述预设阈值，则与该样本数据标准差对应的单一指标评估结果可以设为0；反之，如果所述样本数据标准差大于或者等于所述预设阈值，则与该样本数据标准差对应的单一指标评估结果可以设为1。

步骤212、对所述参与方对应的重复数据评分结果、缺失数据评分结果、异常数据评分结果，以及单一数据评分结果进行累加，得到与所述参与方对应的本地数据评估结果。

在本实施例中，对所述发起方的本地数据评估结果的确定方式，与所述参与方相同，具体流程可以参见上述步骤211-212，本实施例对此不再进行赘述。

在本实施例中，可选的，如果所述参与方对应的本地数据评估结果低于设定门限值，则可以说明所述参与方的样本数据质量不佳，所述发起方可拒绝与所述参与方共同进行联邦学习。

在本实施例中，可选的，除上述数据评价指标外，还可以考虑数据有效性、时效性、一致性、基于P值的显著性检验和多重共线性VIF(variance inflation factor，方差膨胀系数)检验等指标来评估本地数据质量。

步骤220、根据所述参与方与发起方中样本数据的重合比例，计算所述参与方与发起方之间的样本数据评分结果。

在此步骤之前，为了提高联邦数据评估结果的准确性，可以使用隐私保护集合交集技术将参与方的样本数据和发起方的样本数据进行样本对齐处理。

在此步骤中，假设所述发起方的样本数据为A，参与方的样本数据为B，所述参与方与发起方中样本数据的重合比例为|A∩B|/|B|，τ为预设阈值，所述参与方与发起方之间的样本数据评分结果为d，则有：

步骤230、根据所述参与方与发起方中样本数据的标签以及数量，计算所述参与方与发起方之间的数据信息量评分结果。

在此步骤中，可以先将所述参与方与发起方中的样本数据，划分得到多个样本分组，然后对每个样本分组中的样本数据按照发起方中指定的标签进行划分，统计每种标签对应的样本数量，最后根据每种标签对应的样本数量，以及每个样本分组对应的样本数量，计算所述参与方与发起方之间的数据信息量(Information Value，IV)评分结果。

在一个具体的实施例中，假设将所述参与方与发起方中的样本数据，划分得到i个样本分组，y_i是分组中属于标签1的样本数量，y_s是属于标签1的样本总数，n_i是分组中属于标签2的样本数量，n_s是属于标签2的样本总数，则可以通过下述公式计算所述参与方与发起方之间的IV值：

在计算出所述参与方与发起方之间的IV值后，可以通过下述公式计算所述参与方与发起方之间的IV评分结果e：

步骤240、根据所述参与方与发起方中样本数据的数据特征，计算所述参与方与发起方之间的数据相关性评分结果。

在此步骤中，假设所述参与方中样本数据的数据特征为α_i，所述发起方中样本数据的数据特征为β_i，m为参与方和发起方中各自包括的样本数量，则可以通过下述公式计算所述参与方与发起方之间的线性相关系数Corr：

在此步骤中，计算出线性相关系数Corr之后，可以通过下述公式计算所述参与方与发起方之间的数据相关性评分结果f：

步骤250、对所述参与方与发起方之间的样本数据评分结果、数据信息量评分结果，以及数据相关性评分结果进行累加，得到所述联邦数据评估结果。

步骤260、根据与所述参与方以及发起方分别对应的本地数据评估结果，所述联邦数据评估结果，以及预设的加权比例，计算与所述参与方以及发起方分别对应的样本数据质量评估结果。

在此步骤中，假设预设的加权比例为w₁:w₂，与所述参与方对应的本地数据评估结果为p，所述联邦数据评估结果为q，所述参与方对应的样本数据质量评估结果为u，则有：u＝w₁*p+w₂*q。

优选的，w₁可以设为40％，w₂可以设为60％，具体数值以实际情况进行预设，本实施例对此并不进行限制。

在本实施例中，对发起方的样本数据质量评估结果的计算方式，与所述参与方相同，本实施例对此不再进行赘述。

在本实施例中，可选的，在确定与所述参与方以及发起方分别对应的样本数据质量评估结果之后，还包括：判断所述样本数据质量评估结果是否小于预设评估阈值；若是，则对所述样本数据质量评估结果匹配的样本数据进行优化。

其中，可选的，可以对所述样本数据质量评估结果匹配的样本数据中的缺失值、异常值以及重复值进行优化。这样做的好处在于，通过将质量评估结果较低的样本数据进行优化，可以减小劣质数据对训练模型效果的影响。

在本实施例中，通过从数据重复情况、缺失情况、异常情况以及单一情况等多个维度出发，分别评估样本数据的完整性及准确性，得到与参与方以及发起方分别对应的本地数据评估结果；然后考虑参与方与发起方之间的样本数据影响情况，从数据重合度、信息量和线性相关性等维度确定联邦数据评估结果，最后结合本地数据评估结果与联邦数据评估结果，最终确定了参与方以及发起方分别对应的样本数据质量评估结果，可以实现客观、准确地对联邦学习环境中的样本数据进行评估。

本发明实施例通过根据数据评价指标分别对联邦学习中的参与方与发起方中的样本数据进行质量评估，得到与参与方以及发起方分别对应的本地数据评估结果，根据参与方与发起方中样本数据的重合比例，计算样本数据评分结果，根据参与方与发起方中样本数据的标签以及数量，计算数据信息量评分结果，根据参与方与发起方中样本数据的数据特征，计算数据相关性评分结果，对样本数据评分结果、数据信息量评分结果，以及数据相关性评分结果进行累加，得到联邦数据评估结果，最后根据参与方以及发起方分别对应的本地数据评估结果，联邦数据评估结果以及预设的加权比例，计算与参与方以及发起方分别对应的样本数据质量评估结果的技术手段，提供了一种新型的适用于联邦学习环境中的数据质量评估方法，可以保证样本数据质量评估结果的准确性。

为了更好的对本发明实施例提供的技术方案进行介绍，图2b是本实施例中一种数据质量评估方法所适用的场景示意图，本发明实施例可以参考下述的实施方式：

在本实施案例中，假设保险公司A拥有用户资产估值数据，运动手环公司B拥有用户的心率数据、血压数据、运动量数据和运动事故数据，现保险公司A希望与运动手环公司B合作，对用户的风险等级做评估，则可以将保险公司A作为联邦学习的发起方，将运动手环公司B作为联邦学习的参与方。其中，可以根据目标训练模型(二分类模型)将用户划分为高风险用户和低风险用户。

在图2b所示的场景中，发起方对应的客户端为FL-A，参与方对应的客户端为FL-B，其中FL-A中包括用户资产估值数据样本Dataset-A及样本标签Tag，Dataset-A共有2000名用户的数据，Tag标记用户是否为高风险用户，数值为0或1。FL-B仅有样本数据Dataset-B，Dataset-B为用户的心率数据、血压数据、运动量数据和是否出过意外运动事故。Dataset-B中共有3000名用户的数据。FL-Server-C为联邦学习服务器，对外提供参数服务。FL-Server-C、FL-A、FL-B通过网络进行通讯，网络可以是以太网或IB网络(InfiniBandnetwork)。本实施例以纵向联邦学习为例，训练的参与方与发起方之间不可互相传输原始数据，仅可传输加密后的数据。本实施中目标模型在实际应用中可为任意模型，本实施例对所述目标模型的框架或结构并不进行限制。

如图2b所示，所述数据质量评估方法的具体实施步骤可以包括：

步骤271、联邦学习准备工作：FL-A、FL-B分别准备数据集Dataset-A和Dataset-B，FL-A发起联邦学习任务，FL-B加入联邦学习任务。

步骤272、FL-A和FL-B分别进行本地数据质量评估，计算重复数据评分、缺失数据评分、异常数据评分和单一数据评分。其具体处理如下：

步骤2721、假设Dataset-A中包括2000个样本，其中有87个重复样本，按照重复值计算公式round((2000-87)/2000，1)计算得到重复数据评分为＝0.9，Dataset-B中包括3000个样本，其中有337个重复样本，按照重复值计算公式round((3000-645)/3000，1)计算得重复数据评分为0.8。

步骤2723、分别对Dataset-A和Dataset-B中的样本数据计算缺失数据评分、异常数据评分和单一数据评分：假设Dataset-A中用户资产估值数据列有39个null缺失值，按照公式计算得缺失数据评分为(2000-39)/2000＝0.9805；Dataset-A中用户风险等级数据列有12个null缺失值，按照公式计算得缺失数据评分为(2000-12)/2000＝0.994；Dataset-B中用户心率数据列有72个null缺失值，按照公式计算得缺失数据评分为(3000-72)/3000＝0.976；Dataset-B中用户血压数据列有75个null缺失值，按照公式计算得缺失数据评分为(3000-75)/3000＝0.975；Dataset-B中用户运动量数据列有157个null缺失值计算得缺失数据评分为(3000-157)/3000＝0.947。Dataset-B中用户运动事故数据列有394个null缺失值，计算得缺失数据评分为(3000-394)/3000＝0.868。

在本实施例中，对于连续型的样本数据，定义IQR为上四分位数与下四分位数的差值，t为预设阈值，则可以将超过上限值(上四分位数+t*IQR)或者小于下限值(下四分位数-t*IQR)的值定义为异常值。对于离散型的样本数据，如果样本数据是编码类型的，则将位于编码类型上下限区间之外的值定义为异常值，其中，t可以取1.5。

在本实施例中，具体的异常值的数量已知，可以按照公式round((2000-658/2000)，1)可以计算得到Dataset-A中用户资产估值数据列异常数据评分为0.7；按照公式round((2000-426/2000)，1)计算得Dataset-A中用户风险等级数据列异常数据评分为0.8；按照公式round((3000-665/3000)，1)计算得Dataset-B中用户心率数据列异常数据评分为0.8；按照公式round((3000-649/3000)，1)计算得Dataset-B中用户血压数据列异常数据评分为0.8；按照公式round((3000-232/3000)，1)计算得Dataset-B中用户运动量数据列异常数据评分为0.9，按照公式round((3000-0/3000)，1)计算得Dataset-B中用户运动事故数据列异常数据评分为1。

计算单一数据评分：如果样本数据标准差小于所述预设阈值，则单一指标评估结果为0，反之为1。在本实施例中，根据标准差公式计算Dataset-A中用户资产估值数据列标准差为1836，大于10e-8，单一数据评分为1；Dataset-A中用户风险等级数据列标准差为82，大于10e-8，单一数据评分为1；Dataset-B中用户心率数据列标准差为178，大于10e-8，单一数据评分为1；Dataset-B中用户血压数据列标准差为317，大于10e-8，单一数据评分为1；Dataset-中用户运动量数据列标准差为9×10e-9，小于10e-8，单一数据评分为1。所述标准差公式可以为：

s＝sqrt(((x₁-x)^2+(x₂-x)^2+…(x_n-x)^2)/(n-1))

综合上述指标的评分，可以计算本地数据评分，所述本地数据评分可以根据重复数据评分、缺失数据评分、异常数据评分和单一数据评分经过平均计算得来。通过上述计算过程可以得到发起方本地数据评分为：

0.9+(0.9805+0.994)/2+(0.7+0.8)/2+(1+1)/2＝3.637

参与方本地数据评分为：

0.8+(0.976+0.975+0.947+0.868)/4+(0.8+0.8+0.9+1)/4+(1+1+1+0)/4＝3.366在本实施例中，可以将本地数据评分总分设置为100，所以发起方本地数据评分可以为90.925，参与方本地数据评分可以为84.15。由于发起方和参与方本地评分都较为优秀，所以FL-A和FL-B可以相互接受对方进行联邦学习。

步骤273、进行联邦数据质量评估。联邦学习前还需要对多方数据进行综合的质量评估，通过联邦数据质量评估判断参与方是否对总体数据质量起到提升作用，具体做法为先将数据进行样本对齐处理，再计算多维度评分评估联邦环境下的数据质量。在本实施例中，可以使用隐私保护集合交集技术进行样本对齐，然后计算联邦环境下的多方数据质量评分：样本数据评分、IV值评分和数据相关性评分，通过将上述三种评分相加得到联邦数据评估结果。本实施例中，联邦数据评分总分为100，样本数据评分、IV值评分和数据相关性评分各占三分之一。初始计算得的样本数据评分、IV值评分和数据相关性评分满分都为2，需乘上比例系数为50/3。

其中，可以通过下述公式计算样本数据评分，τ＝0.8：

本实施例中，|A|代表FL-A中Dataset-A中的样本量，|B|代表FL-B中Dataset-B中的样本量，|A∩B|为Dateset-A和Dataset-B中相同用户的数量，具体的，|A∩B|为1956，|B|为3000，由于|A∩B|/|B|为0.652小于0.8，属于第一种情况，按照上述公式计算得到d为1.624，然后需要乘上总比占比系数50/3，最终样本数据评分为27.066。

FL-Server-C创建密钥对，并将公钥发送给FL-A和FL-B，FL-A对每一个样本ID进行Paillier加密[[y_i]],[[1-y_i]]，然后将明文ID发送给FL-B。FL-B进行特征分箱操作，对每个分箱中的ID对应的密文标签值进行加法同态求和：

[[∑y_i]]＝∑[[y_i]],[[∑(1-y_i)]]＝∑[[1-y_i]]

然后将每个ID对应的分箱发送给FL-Server-C。FL-Server-C解密得到∑y_i,∑(1-y_i)，然后对数据的每一列计算IV值：

其中y_i是分组中属于标签1的样本数量，y_s是属于标签1的样本总数，n_i是分组中属于标签2的样本数量，n_s是属于标签2的样本总数。本实施例中，共将样本分为4组，y_s为属于低风险用户的样本总量为1136，n_s为属于高风险用户的样本总量为820，分组1共431个样本，y₁为分组1中属于低风险用户样本数为138，n₁为分组1中属于高风险的用户样本数为293，分组2共846个样本，y₂为分组2中属于低风险用户样本数为708，n₂为分组2中属于高风险的用户样本数为138，分组3共511个样本，y₃为分组3中属于低风险用户样本数为254，n₃为分组3中属于高风险的用户样本数为257，分组4共168个样本，y₄为分组4中属于低风险用户样本数为36，n₄为分组4中属于高风险的用户样本数为132，可以根据下述公式计算IV值：

在计算出所述参与方与发起方之间的IV值后，可以根据下述公式确定参与方与发起方之间的IV评分结果e：

由于IV值大于0.3，所以e为2，还需要乘上总比占比系数50/3，最终IV评分结果为33.333。

FL-Server-C创建密钥对，并将公钥发送给FL-A和FL-B，FL-B根据公式

计算每一列的Var(X)，并通过Paillier加密得到[[Var(X)]]发送给FL-A，FL-A计算Var(Y)，计算[[Var(X)]]Var(Y)并发给FL-Server-C，FL-Server-C接收[[V a(r)X]](V a)后进行解密得到Var(X)Var(Y)。FL-B计算Diff(X)，其中，

然后通过Paillier加密得到[[Diff(X)]]，并发送给FL-A。FL-A生成随机掩码Rin(0,1)，[[ffDiX()]]与Diff(Y)的向量内积为[[sum(x_i-\barx)(y_i-\bary)]]，计算R[[Di(ff)X]](Di)f并发送给FL-Server-C，FL-Server-C接收R[[Di(ff)X]](Di)f，解密可得到RCov(X,Y)，然后计算Corr，其中：Corr＝RCov(X,Y)/(Var(X)Var(Y))^(1/2)，并将结果发送给FL-A，FL-A接受RCorr(X,Y)后，计算得到Corr(X,Y)。本实施例中Corr(X,Y)计算结果为1.74，还需要乘上比例系数50/3，最终Corr评分(也即数据相关性评分)为29.166。

综上，基于上述指标评分可以计算联邦数据评分，具体计算方法为：将样本数据评分、IV评分以及Corr评分相加，本实施例中联邦数据评分为27.066+33.333+29.166＝89.565。

步骤274、计算本地数据质量和联邦数据质量的综合评分，其中本地数据质量评分占40％，联邦数据质量评分占60％。本实施例中FL-A综合评分为90.925×0.4+89.565×0.6＝90.119；FL-B综合评分为84.15×0.4+89.565×0.6＝87.399。根据此综合评分可以对联邦学习过程进行优化，如果评分过低，可以对评分较低的那一方的样本数据进行调整。

本发明实施例提供的方法提供了一种新型的适用于联邦学习环境中的数据质量评估方法，可以保证样本数据质量评估结果的准确性。

实施例三

图3为本发明实施例三提供的一种数据质量评估装置的结构示意图。该装置可采用软件和/或硬件的方式实现，并一般可集成在计算机设备中。如图3所示，所述装置包括：本地评估模块310、联邦评估模块320以及样本质量评估模块330。

其中，本地评估模块310，用于根据至少一项数据评价指标，分别对联邦学习中的参与方与发起方中的样本数据进行质量评估，得到与所述参与方以及发起方分别对应的本地数据评估结果；

联邦评估模块320，用于根据所述参与方与发起方之间的样本数据影响情况，确定所述参与方与发起方之间的联邦数据评估结果；

样本质量评估模块330，用于根据与所述参与方以及发起方分别对应的本地数据评估结果，以及所述联邦数据评估结果，确定与所述参与方以及发起方分别对应的样本数据质量评估结果。

在上述各实施例的基础上，本地评估模块310可以包括：

指标评分计算单元，用于根据各所述数据评价指标，以及所述参与方中的样本数据，分别计算与所述参与方对应的重复数据评分结果、缺失数据评分结果、异常数据评分结果，以及单一数据评分结果；所述数据评价指标包括：数据重复情况、数据缺失情况、数据异常情况以及数据单一情况；

指标评分累加单元，用于对所述参与方对应的重复数据评分结果、缺失数据评分结果、异常数据评分结果，以及单一数据评分结果进行累加，得到与所述参与方对应的本地数据评估结果；

标准差计算单元，用于根据所述参与方中的样本数据，计算不同数据类别分别对应的样本数据标准差；

单一结果处理单元，用于根据各所述样本数据标准差与预设阈值的大小关系，确定与各所述数据类别分别对应的单一指标评估结果，对各所述单一指标评估结果取平均值，得到与所述参与方对应的单一数据评分结果。

可选的，联邦评估模块320可以包括：

样本数据评分计算单元，用于根据所述参与方与发起方中样本数据的重合比例，计算所述参与方与发起方之间的样本数据评分结果；

信息量评分计算单元，用于根据所述参与方与发起方中样本数据的标签以及数量，计算所述参与方与发起方之间的数据信息量评分结果；

相关性评分计算单元，用于根据所述参与方与发起方中样本数据的数据特征，计算所述参与方与发起方之间的数据相关性评分结果；

联邦评估结果确定单元，用于对所述参与方与发起方之间的样本数据评分结果、数据信息量评分结果，以及数据相关性评分结果进行累加，得到所述联邦数据评估结果。

可选的，样本质量评估模块330可以包括：

加权处理单元，用于根据与所述参与方以及发起方分别对应的本地数据评估结果，所述联邦数据评估结果，以及预设的加权比例，计算与所述参与方以及发起方分别对应的样本数据质量评估结果。

可选的，所述数据质量评估装置还可以包括：

评估结果判断单元，用于判断所述样本数据质量评估结果是否小于预设评估阈值；

数据优化单元，用于所述样本数据质量评估结果小于预设评估阈值时，对所述样本数据质量评估结果匹配的样本数据进行优化。

上述数据质量评估装置可执行本发明任意实施例所提供的数据质量评估方法，具备执行数据质量评估方法相应的功能模块和有益效果。

实施例四

图4为本发明实施例四提供的一种计算机设备的结构示意图，如图4所示，该计算机设备包括处理器410、存储器420、输入装置430和输出装置440；计算机设备中处理器410的数量可以是一个或多个，图4中以一个处理器410为例；计算机设备中的处理器410、存储器420、输入装置430和输出装置440可以通过总线或其他方式连接，图4中以通过总线连接为例。

存储器420作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的一种数据质量评估方法对应的程序指令/模块(例如，一种数据质量评估装置中的本地评估模块310、联邦评估模块320以及样本质量评估模块330)。处理器410通过运行存储在存储器420中的软件程序、指令以及模块，从而执行计算机设备的各种功能应用以及数据处理，即实现上述的一种数据质量评估方法。也即，该程序被处理器执行时实现：

存储器420可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器420可进一步包括相对于处理器410远程设置的存储器，这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置430可用于接收输入的数字或字符信息，以及产生与计算机设备的用户设置以及功能控制有关的键信号输入，可以包括键盘和鼠标等。输出装置440可包括显示屏等显示设备。

在上述各实施例的基础上，所述数据评价指标包括：数据重复情况、数据缺失情况、数据异常情况以及数据单一情况；

所述处理器410是设置为通过以下方式根据至少一项数据评价指标，对联邦学习中的参与方中的样本数据进行质量评估，得到与所述参与方对应的本地数据评估结果：

根据各所述数据评价指标，以及所述参与方中的样本数据，分别计算与所述参与方对应的重复数据评分结果、缺失数据评分结果、异常数据评分结果，以及单一数据评分结果；

对所述参与方对应的重复数据评分结果、缺失数据评分结果、异常数据评分结果，以及单一数据评分结果进行累加，得到与所述参与方对应的本地数据评估结果。

所述处理器410是设置为通过以下方式根据所述参与方与发起方之间的样本数据影响情况，确定所述参与方与发起方之间的联邦数据评估结果：

根据所述参与方与发起方中样本数据的重合比例，计算所述参与方与发起方之间的样本数据评分结果；

根据所述参与方与发起方中样本数据的标签以及数量，计算所述参与方与发起方之间的数据信息量评分结果；

根据所述参与方与发起方中样本数据的数据特征，计算所述参与方与发起方之间的数据相关性评分结果；

对所述参与方与发起方之间的样本数据评分结果、数据信息量评分结果，以及数据相关性评分结果进行累加，得到所述联邦数据评估结果。

所述处理器410是设置为通过以下方式根据与所述参与方以及发起方分别对应的本地数据评估结果，以及所述联邦数据评估结果，确定与所述参与方以及发起方分别对应的样本数据质量评估结果：

根据与所述参与方以及发起方分别对应的本地数据评估结果，所述联邦数据评估结果，以及预设的加权比例，计算与所述参与方以及发起方分别对应的样本数据质量评估结果。

所述处理器410在确定与所述参与方以及发起方分别对应的样本数据质量评估结果之后，还执行以下操作：

判断所述样本数据质量评估结果是否小于预设评估阈值；

若是，则对所述样本数据质量评估结果匹配的样本数据进行优化。

所述处理器410是设置为通过以下方式根据所述数据评价指标，以及所述参与方中的样本数据，计算与所述参与方对应的单一数据评分结果：

根据所述参与方中的样本数据，计算不同数据类别分别对应的样本数据标准差；

根据各所述样本数据标准差与预设阈值的大小关系，确定与各所述数据类别分别对应的单一指标评估结果，对各所述单一指标评估结果取平均值，得到与所述参与方对应的单一数据评分结果。

实施例五

本发明实施例五还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明任意实施例所述方法。当然，本发明实施例所提供的一种计算机可读存储介质，其可以执行本发明任意实施例提供的一种数据质量评估方法中的相关操作。也即，该程序被处理器执行时实现：

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述一种数据质量评估装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种数据质量评估方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述数据评价指标包括：数据重复情况、数据缺失情况、数据异常情况以及数据单一情况；

根据至少一项数据评价指标，对联邦学习中的参与方中的样本数据进行质量评估，得到与所述参与方对应的本地数据评估结果，包括：

3.根据权利要求1所述的方法，其特征在于，根据所述参与方与发起方之间的样本数据影响情况，确定所述参与方与发起方之间的联邦数据评估结果，包括：

4.根据权利要求1所述的方法，其特征在于，根据与所述参与方以及发起方分别对应的本地数据评估结果，以及所述联邦数据评估结果，确定与所述参与方以及发起方分别对应的样本数据质量评估结果，包括：

5.根据权利要求1所述的方法，其特征在于，在确定与所述参与方以及发起方分别对应的样本数据质量评估结果之后，还包括：

判断所述样本数据质量评估结果是否小于预设评估阈值；

6.根据权利要求2所述的方法，其特征在于，根据所述数据评价指标，以及所述参与方中的样本数据，计算与所述参与方对应的单一数据评分结果，包括：

7.一种计算机设备，包括处理器和存储器，所述存储器用于存储指令，当所述指令执行时使得所述处理器执行以下操作：

8.根据权利要求7所述的计算机设备，其特征在于，所述数据评价指标包括：数据重复情况、数据缺失情况、数据异常情况以及数据单一情况；

所述处理器是设置为通过以下方式根据至少一项数据评价指标，对联邦学习中的参与方中的样本数据进行质量评估，得到与所述参与方对应的本地数据评估结果：

9.根据权利要求7所述的计算机设备，其特征在于，所述处理器是设置为通过以下方式根据所述参与方与发起方之间的样本数据影响情况，确定所述参与方与发起方之间的联邦数据评估结果：

10.根据权利要求7所述的计算机设备，其特征在于，所述处理器是设置为通过以下方式根据与所述参与方以及发起方分别对应的本地数据评估结果，以及所述联邦数据评估结果，确定与所述参与方以及发起方分别对应的样本数据质量评估结果：

11.根据权利要求7所述的计算机设备，其特征在于，所述处理器在确定与所述参与方以及发起方分别对应的样本数据质量评估结果之后，还执行以下操作：

判断所述样本数据质量评估结果是否小于预设评估阈值；

12.根据权利要求8所述的计算机设备，其特征在于，所述处理器是设置为通过以下方式根据所述数据评价指标，以及所述参与方中的样本数据，计算与所述参与方对应的单一数据评分结果：

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一所述的一种数据质量评估方法。