CN113807736A - 一种数据质量评估方法、计算机设备及存储介质 - Google Patents
一种数据质量评估方法、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN113807736A CN113807736A CN202111153966.5A CN202111153966A CN113807736A CN 113807736 A CN113807736 A CN 113807736A CN 202111153966 A CN202111153966 A CN 202111153966A CN 113807736 A CN113807736 A CN 113807736A
- Authority
- CN
- China
- Prior art keywords
- data
- participant
- initiator
- evaluation
- sample data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013441 quality evaluation Methods 0.000 title claims abstract description 96
- 238000000034 method Methods 0.000 title claims abstract description 50
- 239000003999 initiator Substances 0.000 claims abstract description 177
- 238000011157 data evaluation Methods 0.000 claims abstract description 145
- 230000002159 abnormal effect Effects 0.000 claims description 32
- 238000011156 evaluation Methods 0.000 claims description 30
- 238000001303 quality assessment method Methods 0.000 claims description 16
- 238000012935 Averaging Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 230000000977 initiatory effect Effects 0.000 description 19
- 238000004364 calculation method Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 5
- 230000036772 blood pressure Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种数据质量评估方法、计算机设备及存储介质,该方法包括:根据至少一项数据评价指标,分别对联邦学习中的参与方与发起方中的样本数据进行质量评估,得到与所述参与方以及发起方分别对应的本地数据评估结果;根据所述参与方与发起方之间的样本数据影响情况,确定所述参与方与发起方之间的联邦数据评估结果;根据与所述参与方以及发起方分别对应的本地数据评估结果,以及所述联邦数据评估结果,确定与所述参与方以及发起方分别对应的样本数据质量评估结果。本发明实施例的技术方案提供了一种适用于联邦学习中的数据质量评估方法,可以实现客观、准确地对联邦学习环境中的样本数据进行评估。
Description
技术领域
本发明实施例涉及人工智能技术领域,尤其涉及一种数据质量评估方法、计算机设备及存储介质。
背景技术
随着人工智能技术和大数据技术的发展及大规模应用,企业与政府组织越来越重视数据隐私的保护,使得庞大的数据彼此之间难以形成有价值的流通和交流。
目前,联邦学习作为一种新型的人工智能技术,能够在保证数据隐私安全的前提下进行多方参与的机器学习训练。联邦学习主要包括横向联邦学习和纵向联邦学习,纵向联邦学习将多个参与方中的数据特征汇总到一起,通过同态加密等方式保证数据的安全。如果不能在联邦学习前对参与方的数据质量做好评估,就无法保证联邦学习的效果,并且联邦学习的整体效率通常低于传统机器学习的效率,重新学习的代价巨大。因此,在联邦学习之前对参与联邦学习的数据进行质量评估尤为重要。
但是,当前联邦学习环境下缺乏完善的数据质量评估方法,影响了联邦学习技术的应用普及,限制了跨行业跨领域的人工智能技术及产业的发展。
发明内容
本发明实施例提供了一种数据质量评估方法、计算机设备及存储介质,可以实现客观、准确地对联邦学习环境中的样本数据进行评估。
第一方面,本发明实施例提供了一种数据质量评估方法,所述方法包括:
根据至少一项数据评价指标,分别对联邦学习中的参与方与发起方中的样本数据进行质量评估,得到与所述参与方以及发起方分别对应的本地数据评估结果;
根据所述参与方与发起方之间的样本数据影响情况,确定所述参与方与发起方之间的联邦数据评估结果;
根据与所述参与方以及发起方分别对应的本地数据评估结果,以及所述联邦数据评估结果,确定与所述参与方以及发起方分别对应的样本数据质量评估结果。
第二方面,本发明实施例还提供了一种计算机设备,包括处理器和存储器,存储器用于存储指令,当指令执行时使得处理器执行以下操作:
根据至少一项数据评价指标,分别对联邦学习中的参与方与发起方中的样本数据进行质量评估,得到与所述参与方以及发起方分别对应的本地数据评估结果;
根据所述参与方与发起方之间的样本数据影响情况,确定所述参与方与发起方之间的联邦数据评估结果;
根据与所述参与方以及发起方分别对应的本地数据评估结果,以及所述联邦数据评估结果,确定与所述参与方以及发起方分别对应的样本数据质量评估结果。
第三方面,本发明实施例还提供了一种存储介质,存储介质用于存储指令,指令用于执行:
根据至少一项数据评价指标,分别对联邦学习中的参与方与发起方中的样本数据进行质量评估,得到与所述参与方以及发起方分别对应的本地数据评估结果;
根据所述参与方与发起方之间的样本数据影响情况,确定所述参与方与发起方之间的联邦数据评估结果;
根据与所述参与方以及发起方分别对应的本地数据评估结果,以及所述联邦数据评估结果,确定与所述参与方以及发起方分别对应的样本数据质量评估结果。
本发明实施例通过根据至少一项数据评价指标,分别对联邦学习中的参与方与发起方中的样本数据进行质量评估,得到与所述参与方以及发起方分别对应的本地数据评估结果,根据所述参与方与发起方之间的样本数据影响情况,确定所述参与方与发起方之间的联邦数据评估结果,根据与所述参与方以及发起方分别对应的本地数据评估结果,以及所述联邦数据评估结果,确定与所述参与方以及发起方分别对应的样本数据质量评估结果的技术手段,提供了一种新型的适用于联邦学习环境中的数据质量评估方法,可以保证样本数据质量评估结果的准确性。
附图说明
图1为本发明实施例一提供的一种数据质量评估方法的流程图;
图2a为本发明实施例二提供的一种数据质量评估方法的流程图;
图2b为本发明实施例二提供的一种数据质量评估方法所适用的场景示意图;
图3为本发明实施例三提供的一种数据质量评估装置的结构示意图;
图4为本发明实施例五提供的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
本文使用的术语“联邦学习”是指联邦机器学习,是一个机器学习框架,能够有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下,进行数据使用和机器学习建模。
本文使用的术语“数据评价指标”可以是人为预先根据对样本数据的质量要求设定的评价指标。
为了便于理解,将本发明实施例的主要发明构思进行简述。
联邦学习主要包括横向联邦学习和纵向联邦学习,纵向联邦学习将多个参与方中的数据特征汇总到一起,通过同态加密等方式保证数据的安全。如果不能在联邦学习前对参与方的数据质量做好评估,就无法保证联邦学习的效果,并且联邦学习的整体效率通常低于传统机器学习的效率,重新学习的代价巨大。因此,在联邦学习之前对参与联邦学习的数据进行质量评估尤为重要。但是,当前联邦学习环境下缺乏完善的数据质量评估方法,影响了联邦学习技术的应用普及,限制了跨行业跨领域的人工智能技术及产业的发展。
发明人针对现有技术中针对联邦学习环境,缺乏有效的数据质量评估方法的问题,考虑是否可以通过一种方法可以准确对联邦学习对应的样本数据进行质量评估,以减缓数据不共享时劣质数据对学习效果的影响。
基于上述思考,发明人创造性地提出,同时考虑对发起方与参与方中本地样本数据和联邦学习数据进行质量评估,用多个维度的综合评分度量数据质量的技术手段,提供了一种新型的适用于联邦学习环境中的数据质量评估方法,可以保证样本数据质量评估结果的准确性。
实施例一
图1为本发明实施例一提供的一种数据质量评估方法流程图。本发明实施例可适用于对参与联邦学习的数据进行质量评估的情况,该方法可以由本发明实施例提供的数据质量评估装置来执行,该装置可采用软件和/或硬件的方式实现,并一般可集成在计算机设备中。如图1所示,本发明实施例的方法具体包括:
步骤110、根据至少一项数据评价指标,分别对联邦学习中的参与方与发起方中的样本数据进行质量评估,得到与所述参与方以及发起方分别对应的本地数据评估结果。
在本实施例中,所述发起方可以为发起联邦学习的机构或者企业,所述参与方可以为所述发起方希望合作的机构或者企业。在此步骤之前,所述发起方和所述参与方分别准备了待学习的样本数据。
在此步骤中,可以根据至少一项数据评价指标,分别对联邦学习中的参与方与发起方中的样本数据进行质量评估。其中,所述数据评价指标可以包括数据完整性以及数据准确性等。
在一个具体的实施例中,可以分别对参与方与发起方中的样本数据包括的缺失值的个数进行统计,根据统计结果对各样本数据的数据完整性进行评分;然后分别对各样本数据中的异常值的个数进行统计,根据统计结果对各样本数据的数据准确性进行评分;最后将各样本数据对应的上述两个评分进行累加,得到与所述参与方对应的本地数据评估结果,以及与所述发起方对应的本地数据评估结果。
步骤120、根据所述参与方与发起方之间的样本数据影响情况,确定所述参与方与发起方之间的联邦数据评估结果。
在本实施例中,为了衡量参与方的样本数据是否对联邦学习的整体数据质量具备提升作用,还提供了一种根据参与方与发起方之间的样本数据影响情况,确定所述参与方与发起方之间的联邦数据评估结果的实施方式。
在此步骤中,可选的,可以根据所述参与方与发起方中样本数据之间的关联性,确定所述参与方与发起方之间的联邦数据评估结果,所述联邦数据评估结果可以为用于表征联邦数据质量优劣的评分。
在一个具体的实施例中,可以根据所述参与方中样本数据所属的数据类别,所述发起方中样本数据所属的数据类别,确定所述参与方与发起方中样本数据之间的关联性。具体的,如果所述参与方与发起方中样本数据之间的关联性越高,则可以确认所述参与方与发起方中的样本数据越满足设定业务场景的训练需求,也即所述参与方与发起方之间的联邦数据评估结果越好。
在本实施例中,步骤110和步骤120可以通过串行或者并行的方式进行执行,对于具体的先后执行顺序,本实施例并不进行限制。
步骤130、根据与所述参与方以及发起方分别对应的本地数据评估结果,以及所述联邦数据评估结果,确定与所述参与方以及发起方分别对应的样本数据质量评估结果。
在本实施例中,可选的,可以将与所述参与方对应的本地数据评估结果,与所述联邦数据评估结果进行相加,得到与所述参与方对应的最终的样本数据质量评估结果;将与所述发起方对应的本地数据评估结果,与所述联邦数据评估结果进行相加,得到与所述发起方对应的最终的样本数据质量评估结果。
在本实施例中,在保护参与方与发起方数据隐私的前提下,建立了本地数据评估与联邦数据评估两个层级的评估体系,同时结合本地数据评估结果与联邦数据评估结果,确定参与方以及发起方分别对应的最终的样本数据质量评估结果,提供了一种新型的适用于联邦学习环境中的数据质量评估方法,一方面可以保证样本数据质量评估结果的准确性;另一方面可以减小由于数据不共享导致劣质数据对训练模型效果的影响,促进联邦学习技术的应用普及。
本发明实施例通过根据至少一项数据评价指标,分别对联邦学习中的参与方与发起方中的样本数据进行质量评估,得到与所述参与方以及发起方分别对应的本地数据评估结果,根据所述参与方与发起方之间的样本数据影响情况,确定所述参与方与发起方之间的联邦数据评估结果,根据与所述参与方以及发起方分别对应的本地数据评估结果,以及所述联邦数据评估结果,确定与所述参与方以及发起方分别对应的样本数据质量评估结果的技术手段,提供了一种新型的适用于联邦学习环境中的数据质量评估方法,可以保证样本数据质量评估结果的准确性。
实施例二
本实施例是对上述实施例一的进一步细化,与上述实施例相同或相应的术语解释,本实施例不再赘述。图2a为本发明实施例二提供的一种数据质量评估方法的流程图,在本实施例中,本实施例的技术方案可以与上述实施例的方案中的一种或者多种方法进行组合,在本实施例中,如图2a所示,本发明实施例提供的方法还可以包括:
步骤210、根据至少一项数据评价指标,分别对联邦学习中的参与方与发起方中的样本数据进行质量评估,得到与所述参与方以及发起方分别对应的本地数据评估结果。
在本发明实施例的一个实施方式中,所述数据评价指标可以包括:数据重复情况、数据缺失情况、数据异常情况以及数据单一情况。根据至少一项数据评价指标,对联邦学习中的参与方中的样本数据进行质量评估,得到与所述参与方对应的本地数据评估结果,包括:
步骤211、根据各所述数据评价指标,以及所述参与方中的样本数据,分别计算与所述参与方对应的重复数据评分结果、缺失数据评分结果、异常数据评分结果,以及单一数据评分结果;
在此步骤中,可以对参与方中的样本数据进行去重,然后计算去重后的样本数量与原始样本数量的比值λ,假设重复数据评分结果为a,则有:a=round(λ,1)。
在此步骤中,可以统计所述样本数据中特征缺失或者数值类型为“NULL”的样本数量,与总体样本数量的比值σ,假设缺失数据评分结果为b,则有:b=1-σ。
在此步骤中,可以统计所述样本数据中特征属于异常值的样本数量,与总体样本数量的比值γ,假设异常数据评分结果为c,则有:c=round(1-γ,1)。
其中,对于连续型的样本数据,定义IQR为上四分位数与下四分位数的差值,t为预设阈值,则可以将超过上限值(上四分位数+t*IQR)或者小于下限值(下四分位数-t*IQR)的值定义为异常值。对于离散型的样本数据,如果样本数据是编码类型的,则将位于编码类型上下限区间之外的值定义为异常值。
在此步骤中,可以根据所述参与方中的样本数据,计算不同数据类别分别对应的样本数据标准差;根据各所述样本数据标准差与预设阈值的大小关系,确定与各所述数据类别分别对应的单一指标评估结果,对各所述单一指标评估结果取平均值,得到与所述参与方对应的单一数据评分结果。
其中,所述预设阈值可以为10e-8,具体的,如果所述样本数据标准差小于所述预设阈值,则与该样本数据标准差对应的单一指标评估结果可以设为0;反之,如果所述样本数据标准差大于或者等于所述预设阈值,则与该样本数据标准差对应的单一指标评估结果可以设为1。
步骤212、对所述参与方对应的重复数据评分结果、缺失数据评分结果、异常数据评分结果,以及单一数据评分结果进行累加,得到与所述参与方对应的本地数据评估结果。
在本实施例中,对所述发起方的本地数据评估结果的确定方式,与所述参与方相同,具体流程可以参见上述步骤211-212,本实施例对此不再进行赘述。
在本实施例中,可选的,如果所述参与方对应的本地数据评估结果低于设定门限值,则可以说明所述参与方的样本数据质量不佳,所述发起方可拒绝与所述参与方共同进行联邦学习。
在本实施例中,可选的,除上述数据评价指标外,还可以考虑数据有效性、时效性、一致性、基于P值的显著性检验和多重共线性VIF(variance inflation factor,方差膨胀系数)检验等指标来评估本地数据质量。
步骤220、根据所述参与方与发起方中样本数据的重合比例,计算所述参与方与发起方之间的样本数据评分结果。
在此步骤之前,为了提高联邦数据评估结果的准确性,可以使用隐私保护集合交集技术将参与方的样本数据和发起方的样本数据进行样本对齐处理。
在此步骤中,假设所述发起方的样本数据为A,参与方的样本数据为B,所述参与方与发起方中样本数据的重合比例为|A∩B|/|B|,τ为预设阈值,所述参与方与发起方之间的样本数据评分结果为d,则有:
步骤230、根据所述参与方与发起方中样本数据的标签以及数量,计算所述参与方与发起方之间的数据信息量评分结果。
在此步骤中,可以先将所述参与方与发起方中的样本数据,划分得到多个样本分组,然后对每个样本分组中的样本数据按照发起方中指定的标签进行划分,统计每种标签对应的样本数量,最后根据每种标签对应的样本数量,以及每个样本分组对应的样本数量,计算所述参与方与发起方之间的数据信息量(Information Value,IV)评分结果。
在一个具体的实施例中,假设将所述参与方与发起方中的样本数据,划分得到i个样本分组,yi是分组中属于标签1的样本数量,ys是属于标签1的样本总数,ni是分组中属于标签2的样本数量,ns是属于标签2的样本总数,则可以通过下述公式计算所述参与方与发起方之间的IV值:
在计算出所述参与方与发起方之间的IV值后,可以通过下述公式计算所述参与方与发起方之间的IV评分结果e:
步骤240、根据所述参与方与发起方中样本数据的数据特征,计算所述参与方与发起方之间的数据相关性评分结果。
在此步骤中,假设所述参与方中样本数据的数据特征为αi,所述发起方中样本数据的数据特征为βi,m为参与方和发起方中各自包括的样本数量,则可以通过下述公式计算所述参与方与发起方之间的线性相关系数Corr:
在此步骤中,计算出线性相关系数Corr之后,可以通过下述公式计算所述参与方与发起方之间的数据相关性评分结果f:
步骤250、对所述参与方与发起方之间的样本数据评分结果、数据信息量评分结果,以及数据相关性评分结果进行累加,得到所述联邦数据评估结果。
步骤260、根据与所述参与方以及发起方分别对应的本地数据评估结果,所述联邦数据评估结果,以及预设的加权比例,计算与所述参与方以及发起方分别对应的样本数据质量评估结果。
在此步骤中,假设预设的加权比例为w1:w2,与所述参与方对应的本地数据评估结果为p,所述联邦数据评估结果为q,所述参与方对应的样本数据质量评估结果为u,则有:u=w1*p+w2*q。
优选的,w1可以设为40%,w2可以设为60%,具体数值以实际情况进行预设,本实施例对此并不进行限制。
在本实施例中,对发起方的样本数据质量评估结果的计算方式,与所述参与方相同,本实施例对此不再进行赘述。
在本实施例中,可选的,在确定与所述参与方以及发起方分别对应的样本数据质量评估结果之后,还包括:判断所述样本数据质量评估结果是否小于预设评估阈值;若是,则对所述样本数据质量评估结果匹配的样本数据进行优化。
其中,可选的,可以对所述样本数据质量评估结果匹配的样本数据中的缺失值、异常值以及重复值进行优化。这样做的好处在于,通过将质量评估结果较低的样本数据进行优化,可以减小劣质数据对训练模型效果的影响。
在本实施例中,通过从数据重复情况、缺失情况、异常情况以及单一情况等多个维度出发,分别评估样本数据的完整性及准确性,得到与参与方以及发起方分别对应的本地数据评估结果;然后考虑参与方与发起方之间的样本数据影响情况,从数据重合度、信息量和线性相关性等维度确定联邦数据评估结果,最后结合本地数据评估结果与联邦数据评估结果,最终确定了参与方以及发起方分别对应的样本数据质量评估结果,可以实现客观、准确地对联邦学习环境中的样本数据进行评估。
本发明实施例通过根据数据评价指标分别对联邦学习中的参与方与发起方中的样本数据进行质量评估,得到与参与方以及发起方分别对应的本地数据评估结果,根据参与方与发起方中样本数据的重合比例,计算样本数据评分结果,根据参与方与发起方中样本数据的标签以及数量,计算数据信息量评分结果,根据参与方与发起方中样本数据的数据特征,计算数据相关性评分结果,对样本数据评分结果、数据信息量评分结果,以及数据相关性评分结果进行累加,得到联邦数据评估结果,最后根据参与方以及发起方分别对应的本地数据评估结果,联邦数据评估结果以及预设的加权比例,计算与参与方以及发起方分别对应的样本数据质量评估结果的技术手段,提供了一种新型的适用于联邦学习环境中的数据质量评估方法,可以保证样本数据质量评估结果的准确性。
为了更好的对本发明实施例提供的技术方案进行介绍,图2b是本实施例中一种数据质量评估方法所适用的场景示意图,本发明实施例可以参考下述的实施方式:
在本实施案例中,假设保险公司A拥有用户资产估值数据,运动手环公司B拥有用户的心率数据、血压数据、运动量数据和运动事故数据,现保险公司A希望与运动手环公司B合作,对用户的风险等级做评估,则可以将保险公司A作为联邦学习的发起方,将运动手环公司B作为联邦学习的参与方。其中,可以根据目标训练模型(二分类模型)将用户划分为高风险用户和低风险用户。
在图2b所示的场景中,发起方对应的客户端为FL-A,参与方对应的客户端为FL-B,其中FL-A中包括用户资产估值数据样本Dataset-A及样本标签Tag,Dataset-A共有2000名用户的数据,Tag标记用户是否为高风险用户,数值为0或1。FL-B仅有样本数据Dataset-B,Dataset-B为用户的心率数据、血压数据、运动量数据和是否出过意外运动事故。Dataset-B中共有3000名用户的数据。FL-Server-C为联邦学习服务器,对外提供参数服务。FL-Server-C、FL-A、FL-B通过网络进行通讯,网络可以是以太网或IB网络(InfiniBandnetwork)。本实施例以纵向联邦学习为例,训练的参与方与发起方之间不可互相传输原始数据,仅可传输加密后的数据。本实施中目标模型在实际应用中可为任意模型,本实施例对所述目标模型的框架或结构并不进行限制。
如图2b所示,所述数据质量评估方法的具体实施步骤可以包括:
步骤271、联邦学习准备工作:FL-A、FL-B分别准备数据集Dataset-A和Dataset-B,FL-A发起联邦学习任务,FL-B加入联邦学习任务。
步骤272、FL-A和FL-B分别进行本地数据质量评估,计算重复数据评分、缺失数据评分、异常数据评分和单一数据评分。其具体处理如下:
步骤2721、假设Dataset-A中包括2000个样本,其中有87个重复样本,按照重复值计算公式round((2000-87)/2000,1)计算得到重复数据评分为=0.9,Dataset-B中包括3000个样本,其中有337个重复样本,按照重复值计算公式round((3000-645)/3000,1)计算得重复数据评分为0.8。
步骤2723、分别对Dataset-A和Dataset-B中的样本数据计算缺失数据评分、异常数据评分和单一数据评分:假设Dataset-A中用户资产估值数据列有39个null缺失值,按照公式计算得缺失数据评分为(2000-39)/2000=0.9805;Dataset-A中用户风险等级数据列有12个null缺失值,按照公式计算得缺失数据评分为(2000-12)/2000=0.994;Dataset-B中用户心率数据列有72个null缺失值,按照公式计算得缺失数据评分为(3000-72)/3000=0.976;Dataset-B中用户血压数据列有75个null缺失值,按照公式计算得缺失数据评分为(3000-75)/3000=0.975;Dataset-B中用户运动量数据列有157个null缺失值计算得缺失数据评分为(3000-157)/3000=0.947。Dataset-B中用户运动事故数据列有394个null缺失值,计算得缺失数据评分为(3000-394)/3000=0.868。
在本实施例中,对于连续型的样本数据,定义IQR为上四分位数与下四分位数的差值,t为预设阈值,则可以将超过上限值(上四分位数+t*IQR)或者小于下限值(下四分位数-t*IQR)的值定义为异常值。对于离散型的样本数据,如果样本数据是编码类型的,则将位于编码类型上下限区间之外的值定义为异常值,其中,t可以取1.5。
在本实施例中,具体的异常值的数量已知,可以按照公式round((2000-658/2000),1)可以计算得到Dataset-A中用户资产估值数据列异常数据评分为0.7;按照公式round((2000-426/2000),1)计算得Dataset-A中用户风险等级数据列异常数据评分为0.8;按照公式round((3000-665/3000),1)计算得Dataset-B中用户心率数据列异常数据评分为0.8;按照公式round((3000-649/3000),1)计算得Dataset-B中用户血压数据列异常数据评分为0.8;按照公式round((3000-232/3000),1)计算得Dataset-B中用户运动量数据列异常数据评分为0.9,按照公式round((3000-0/3000),1)计算得Dataset-B中用户运动事故数据列异常数据评分为1。
计算单一数据评分:如果样本数据标准差小于所述预设阈值,则单一指标评估结果为0,反之为1。在本实施例中,根据标准差公式计算Dataset-A中用户资产估值数据列标准差为1836,大于10e-8,单一数据评分为1;Dataset-A中用户风险等级数据列标准差为82,大于10e-8,单一数据评分为1;Dataset-B中用户心率数据列标准差为178,大于10e-8,单一数据评分为1;Dataset-B中用户血压数据列标准差为317,大于10e-8,单一数据评分为1;Dataset-中用户运动量数据列标准差为9×10e-9,小于10e-8,单一数据评分为1。所述标准差公式可以为:
s=sqrt(((x1-x)^2+(x2-x)^2+…(xn-x)^2)/(n-1))
综合上述指标的评分,可以计算本地数据评分,所述本地数据评分可以根据重复数据评分、缺失数据评分、异常数据评分和单一数据评分经过平均计算得来。通过上述计算过程可以得到发起方本地数据评分为:
0.9+(0.9805+0.994)/2+(0.7+0.8)/2+(1+1)/2=3.637
参与方本地数据评分为:
0.8+(0.976+0.975+0.947+0.868)/4+(0.8+0.8+0.9+1)/4+(1+1+1+0)/4=3.366在本实施例中,可以将本地数据评分总分设置为100,所以发起方本地数据评分可以为90.925,参与方本地数据评分可以为84.15。由于发起方和参与方本地评分都较为优秀,所以FL-A和FL-B可以相互接受对方进行联邦学习。
步骤273、进行联邦数据质量评估。联邦学习前还需要对多方数据进行综合的质量评估,通过联邦数据质量评估判断参与方是否对总体数据质量起到提升作用,具体做法为先将数据进行样本对齐处理,再计算多维度评分评估联邦环境下的数据质量。在本实施例中,可以使用隐私保护集合交集技术进行样本对齐,然后计算联邦环境下的多方数据质量评分:样本数据评分、IV值评分和数据相关性评分,通过将上述三种评分相加得到联邦数据评估结果。本实施例中,联邦数据评分总分为100,样本数据评分、IV值评分和数据相关性评分各占三分之一。初始计算得的样本数据评分、IV值评分和数据相关性评分满分都为2,需乘上比例系数为50/3。
其中,可以通过下述公式计算样本数据评分,τ=0.8:
本实施例中,|A|代表FL-A中Dataset-A中的样本量,|B|代表FL-B中Dataset-B中的样本量,|A∩B|为Dateset-A和Dataset-B中相同用户的数量,具体的,|A∩B|为1956,|B|为3000,由于|A∩B|/|B|为0.652小于0.8,属于第一种情况,按照上述公式计算得到d为1.624,然后需要乘上总比占比系数50/3,最终样本数据评分为27.066。
FL-Server-C创建密钥对,并将公钥发送给FL-A和FL-B,FL-A对每一个样本ID进行Paillier加密[[yi]],[[1-yi]],然后将明文ID发送给FL-B。FL-B进行特征分箱操作,对每个分箱中的ID对应的密文标签值进行加法同态求和:
[[∑yi]]=∑[[yi]],[[∑(1-yi)]]=∑[[1-yi]]
然后将每个ID对应的分箱发送给FL-Server-C。FL-Server-C解密得到∑yi,∑(1-yi),然后对数据的每一列计算IV值:
其中yi是分组中属于标签1的样本数量,ys是属于标签1的样本总数,ni是分组中属于标签2的样本数量,ns是属于标签2的样本总数。本实施例中,共将样本分为4组,ys为属于低风险用户的样本总量为1136,ns为属于高风险用户的样本总量为820,分组1共431个样本,y1为分组1中属于低风险用户样本数为138,n1为分组1中属于高风险的用户样本数为293,分组2共846个样本,y2为分组2中属于低风险用户样本数为708,n2为分组2中属于高风险的用户样本数为138,分组3共511个样本,y3为分组3中属于低风险用户样本数为254,n3为分组3中属于高风险的用户样本数为257,分组4共168个样本,y4为分组4中属于低风险用户样本数为36,n4为分组4中属于高风险的用户样本数为132,可以根据下述公式计算IV值:
在计算出所述参与方与发起方之间的IV值后,可以根据下述公式确定参与方与发起方之间的IV评分结果e:
由于IV值大于0.3,所以e为2,还需要乘上总比占比系数50/3,最终IV评分结果为33.333。
FL-Server-C创建密钥对,并将公钥发送给FL-A和FL-B,FL-B根据公式计算每一列的Var(X),并通过Paillier加密得到[[Var(X)]]发送给FL-A,FL-A计算Var(Y),计算[[Var(X)]]Var(Y)并发给FL-Server-C,FL-Server-C接收[[V a(r)X]](V a)后进行解密得到Var(X)Var(Y)。FL-B计算Diff(X),其中,然后通过Paillier加密得到[[Diff(X)]],并发送给FL-A。FL-A生成随机掩码Rin(0,1),[[ffDiX()]]与Diff(Y)的向量内积为[[sum(x_i-\barx)(y_i-\bary)]],计算R[[Di(ff)X]](Di)f并发送给FL-Server-C,FL-Server-C接收R[[Di(ff)X]](Di)f,解密可得到RCov(X,Y),然后计算Corr,其中:Corr=RCov(X,Y)/(Var(X)Var(Y))^(1/2),并将结果发送给FL-A,FL-A接受RCorr(X,Y)后,计算得到Corr(X,Y)。本实施例中Corr(X,Y)计算结果为1.74,还需要乘上比例系数50/3,最终Corr评分(也即数据相关性评分)为29.166。
综上,基于上述指标评分可以计算联邦数据评分,具体计算方法为:将样本数据评分、IV评分以及Corr评分相加,本实施例中联邦数据评分为27.066+33.333+29.166=89.565。
步骤274、计算本地数据质量和联邦数据质量的综合评分,其中本地数据质量评分占40%,联邦数据质量评分占60%。本实施例中FL-A综合评分为90.925×0.4+89.565×0.6=90.119;FL-B综合评分为84.15×0.4+89.565×0.6=87.399。根据此综合评分可以对联邦学习过程进行优化,如果评分过低,可以对评分较低的那一方的样本数据进行调整。
本发明实施例提供的方法提供了一种新型的适用于联邦学习环境中的数据质量评估方法,可以保证样本数据质量评估结果的准确性。
实施例三
图3为本发明实施例三提供的一种数据质量评估装置的结构示意图。该装置可采用软件和/或硬件的方式实现,并一般可集成在计算机设备中。如图3所示,所述装置包括:本地评估模块310、联邦评估模块320以及样本质量评估模块330。
其中,本地评估模块310,用于根据至少一项数据评价指标,分别对联邦学习中的参与方与发起方中的样本数据进行质量评估,得到与所述参与方以及发起方分别对应的本地数据评估结果;
联邦评估模块320,用于根据所述参与方与发起方之间的样本数据影响情况,确定所述参与方与发起方之间的联邦数据评估结果;
样本质量评估模块330,用于根据与所述参与方以及发起方分别对应的本地数据评估结果,以及所述联邦数据评估结果,确定与所述参与方以及发起方分别对应的样本数据质量评估结果。
本发明实施例通过根据至少一项数据评价指标,分别对联邦学习中的参与方与发起方中的样本数据进行质量评估,得到与所述参与方以及发起方分别对应的本地数据评估结果,根据所述参与方与发起方之间的样本数据影响情况,确定所述参与方与发起方之间的联邦数据评估结果,根据与所述参与方以及发起方分别对应的本地数据评估结果,以及所述联邦数据评估结果,确定与所述参与方以及发起方分别对应的样本数据质量评估结果的技术手段,提供了一种新型的适用于联邦学习环境中的数据质量评估方法,可以保证样本数据质量评估结果的准确性。
在上述各实施例的基础上,本地评估模块310可以包括:
指标评分计算单元,用于根据各所述数据评价指标,以及所述参与方中的样本数据,分别计算与所述参与方对应的重复数据评分结果、缺失数据评分结果、异常数据评分结果,以及单一数据评分结果;所述数据评价指标包括:数据重复情况、数据缺失情况、数据异常情况以及数据单一情况;
指标评分累加单元,用于对所述参与方对应的重复数据评分结果、缺失数据评分结果、异常数据评分结果,以及单一数据评分结果进行累加,得到与所述参与方对应的本地数据评估结果;
标准差计算单元,用于根据所述参与方中的样本数据,计算不同数据类别分别对应的样本数据标准差;
单一结果处理单元,用于根据各所述样本数据标准差与预设阈值的大小关系,确定与各所述数据类别分别对应的单一指标评估结果,对各所述单一指标评估结果取平均值,得到与所述参与方对应的单一数据评分结果。
可选的,联邦评估模块320可以包括:
样本数据评分计算单元,用于根据所述参与方与发起方中样本数据的重合比例,计算所述参与方与发起方之间的样本数据评分结果;
信息量评分计算单元,用于根据所述参与方与发起方中样本数据的标签以及数量,计算所述参与方与发起方之间的数据信息量评分结果;
相关性评分计算单元,用于根据所述参与方与发起方中样本数据的数据特征,计算所述参与方与发起方之间的数据相关性评分结果;
联邦评估结果确定单元,用于对所述参与方与发起方之间的样本数据评分结果、数据信息量评分结果,以及数据相关性评分结果进行累加,得到所述联邦数据评估结果。
可选的,样本质量评估模块330可以包括:
加权处理单元,用于根据与所述参与方以及发起方分别对应的本地数据评估结果,所述联邦数据评估结果,以及预设的加权比例,计算与所述参与方以及发起方分别对应的样本数据质量评估结果。
可选的,所述数据质量评估装置还可以包括:
评估结果判断单元,用于判断所述样本数据质量评估结果是否小于预设评估阈值;
数据优化单元,用于所述样本数据质量评估结果小于预设评估阈值时,对所述样本数据质量评估结果匹配的样本数据进行优化。
上述数据质量评估装置可执行本发明任意实施例所提供的数据质量评估方法,具备执行数据质量评估方法相应的功能模块和有益效果。
实施例四
图4为本发明实施例四提供的一种计算机设备的结构示意图,如图4所示,该计算机设备包括处理器410、存储器420、输入装置430和输出装置440;计算机设备中处理器410的数量可以是一个或多个,图4中以一个处理器410为例;计算机设备中的处理器410、存储器420、输入装置430和输出装置440可以通过总线或其他方式连接,图4中以通过总线连接为例。
存储器420作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的一种数据质量评估方法对应的程序指令/模块(例如,一种数据质量评估装置中的本地评估模块310、联邦评估模块320以及样本质量评估模块330)。处理器410通过运行存储在存储器420中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述的一种数据质量评估方法。也即,该程序被处理器执行时实现:
根据至少一项数据评价指标,分别对联邦学习中的参与方与发起方中的样本数据进行质量评估,得到与所述参与方以及发起方分别对应的本地数据评估结果;
根据所述参与方与发起方之间的样本数据影响情况,确定所述参与方与发起方之间的联邦数据评估结果;
根据与所述参与方以及发起方分别对应的本地数据评估结果,以及所述联邦数据评估结果,确定与所述参与方以及发起方分别对应的样本数据质量评估结果。
存储器420可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器420可进一步包括相对于处理器410远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置430可用于接收输入的数字或字符信息,以及产生与计算机设备的用户设置以及功能控制有关的键信号输入,可以包括键盘和鼠标等。输出装置440可包括显示屏等显示设备。
在上述各实施例的基础上,所述数据评价指标包括:数据重复情况、数据缺失情况、数据异常情况以及数据单一情况;
所述处理器410是设置为通过以下方式根据至少一项数据评价指标,对联邦学习中的参与方中的样本数据进行质量评估,得到与所述参与方对应的本地数据评估结果:
根据各所述数据评价指标,以及所述参与方中的样本数据,分别计算与所述参与方对应的重复数据评分结果、缺失数据评分结果、异常数据评分结果,以及单一数据评分结果;
对所述参与方对应的重复数据评分结果、缺失数据评分结果、异常数据评分结果,以及单一数据评分结果进行累加,得到与所述参与方对应的本地数据评估结果。
所述处理器410是设置为通过以下方式根据所述参与方与发起方之间的样本数据影响情况,确定所述参与方与发起方之间的联邦数据评估结果:
根据所述参与方与发起方中样本数据的重合比例,计算所述参与方与发起方之间的样本数据评分结果;
根据所述参与方与发起方中样本数据的标签以及数量,计算所述参与方与发起方之间的数据信息量评分结果;
根据所述参与方与发起方中样本数据的数据特征,计算所述参与方与发起方之间的数据相关性评分结果;
对所述参与方与发起方之间的样本数据评分结果、数据信息量评分结果,以及数据相关性评分结果进行累加,得到所述联邦数据评估结果。
所述处理器410是设置为通过以下方式根据与所述参与方以及发起方分别对应的本地数据评估结果,以及所述联邦数据评估结果,确定与所述参与方以及发起方分别对应的样本数据质量评估结果:
根据与所述参与方以及发起方分别对应的本地数据评估结果,所述联邦数据评估结果,以及预设的加权比例,计算与所述参与方以及发起方分别对应的样本数据质量评估结果。
所述处理器410在确定与所述参与方以及发起方分别对应的样本数据质量评估结果之后,还执行以下操作:
判断所述样本数据质量评估结果是否小于预设评估阈值;
若是,则对所述样本数据质量评估结果匹配的样本数据进行优化。
所述处理器410是设置为通过以下方式根据所述数据评价指标,以及所述参与方中的样本数据,计算与所述参与方对应的单一数据评分结果:
根据所述参与方中的样本数据,计算不同数据类别分别对应的样本数据标准差;
根据各所述样本数据标准差与预设阈值的大小关系,确定与各所述数据类别分别对应的单一指标评估结果,对各所述单一指标评估结果取平均值,得到与所述参与方对应的单一数据评分结果。
实施例五
本发明实施例五还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例所述方法。当然,本发明实施例所提供的一种计算机可读存储介质,其可以执行本发明任意实施例提供的一种数据质量评估方法中的相关操作。也即,该程序被处理器执行时实现:
根据至少一项数据评价指标,分别对联邦学习中的参与方与发起方中的样本数据进行质量评估,得到与所述参与方以及发起方分别对应的本地数据评估结果;
根据所述参与方与发起方之间的样本数据影响情况,确定所述参与方与发起方之间的联邦数据评估结果;
根据与所述参与方以及发起方分别对应的本地数据评估结果,以及所述联邦数据评估结果,确定与所述参与方以及发起方分别对应的样本数据质量评估结果。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述一种数据质量评估装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (13)
1.一种数据质量评估方法,其特征在于,包括:
根据至少一项数据评价指标,分别对联邦学习中的参与方与发起方中的样本数据进行质量评估,得到与所述参与方以及发起方分别对应的本地数据评估结果;
根据所述参与方与发起方之间的样本数据影响情况,确定所述参与方与发起方之间的联邦数据评估结果;
根据与所述参与方以及发起方分别对应的本地数据评估结果,以及所述联邦数据评估结果,确定与所述参与方以及发起方分别对应的样本数据质量评估结果。
2.根据权利要求1所述的方法,其特征在于,所述数据评价指标包括:数据重复情况、数据缺失情况、数据异常情况以及数据单一情况;
根据至少一项数据评价指标,对联邦学习中的参与方中的样本数据进行质量评估,得到与所述参与方对应的本地数据评估结果,包括:
根据各所述数据评价指标,以及所述参与方中的样本数据,分别计算与所述参与方对应的重复数据评分结果、缺失数据评分结果、异常数据评分结果,以及单一数据评分结果;
对所述参与方对应的重复数据评分结果、缺失数据评分结果、异常数据评分结果,以及单一数据评分结果进行累加,得到与所述参与方对应的本地数据评估结果。
3.根据权利要求1所述的方法,其特征在于,根据所述参与方与发起方之间的样本数据影响情况,确定所述参与方与发起方之间的联邦数据评估结果,包括:
根据所述参与方与发起方中样本数据的重合比例,计算所述参与方与发起方之间的样本数据评分结果;
根据所述参与方与发起方中样本数据的标签以及数量,计算所述参与方与发起方之间的数据信息量评分结果;
根据所述参与方与发起方中样本数据的数据特征,计算所述参与方与发起方之间的数据相关性评分结果;
对所述参与方与发起方之间的样本数据评分结果、数据信息量评分结果,以及数据相关性评分结果进行累加,得到所述联邦数据评估结果。
4.根据权利要求1所述的方法,其特征在于,根据与所述参与方以及发起方分别对应的本地数据评估结果,以及所述联邦数据评估结果,确定与所述参与方以及发起方分别对应的样本数据质量评估结果,包括:
根据与所述参与方以及发起方分别对应的本地数据评估结果,所述联邦数据评估结果,以及预设的加权比例,计算与所述参与方以及发起方分别对应的样本数据质量评估结果。
5.根据权利要求1所述的方法,其特征在于,在确定与所述参与方以及发起方分别对应的样本数据质量评估结果之后,还包括:
判断所述样本数据质量评估结果是否小于预设评估阈值;
若是,则对所述样本数据质量评估结果匹配的样本数据进行优化。
6.根据权利要求2所述的方法,其特征在于,根据所述数据评价指标,以及所述参与方中的样本数据,计算与所述参与方对应的单一数据评分结果,包括:
根据所述参与方中的样本数据,计算不同数据类别分别对应的样本数据标准差;
根据各所述样本数据标准差与预设阈值的大小关系,确定与各所述数据类别分别对应的单一指标评估结果,对各所述单一指标评估结果取平均值,得到与所述参与方对应的单一数据评分结果。
7.一种计算机设备,包括处理器和存储器,所述存储器用于存储指令,当所述指令执行时使得所述处理器执行以下操作:
根据至少一项数据评价指标,分别对联邦学习中的参与方与发起方中的样本数据进行质量评估,得到与所述参与方以及发起方分别对应的本地数据评估结果;
根据所述参与方与发起方之间的样本数据影响情况,确定所述参与方与发起方之间的联邦数据评估结果;
根据与所述参与方以及发起方分别对应的本地数据评估结果,以及所述联邦数据评估结果,确定与所述参与方以及发起方分别对应的样本数据质量评估结果。
8.根据权利要求7所述的计算机设备,其特征在于,所述数据评价指标包括:数据重复情况、数据缺失情况、数据异常情况以及数据单一情况;
所述处理器是设置为通过以下方式根据至少一项数据评价指标,对联邦学习中的参与方中的样本数据进行质量评估,得到与所述参与方对应的本地数据评估结果:
根据各所述数据评价指标,以及所述参与方中的样本数据,分别计算与所述参与方对应的重复数据评分结果、缺失数据评分结果、异常数据评分结果,以及单一数据评分结果;
对所述参与方对应的重复数据评分结果、缺失数据评分结果、异常数据评分结果,以及单一数据评分结果进行累加,得到与所述参与方对应的本地数据评估结果。
9.根据权利要求7所述的计算机设备,其特征在于,所述处理器是设置为通过以下方式根据所述参与方与发起方之间的样本数据影响情况,确定所述参与方与发起方之间的联邦数据评估结果:
根据所述参与方与发起方中样本数据的重合比例,计算所述参与方与发起方之间的样本数据评分结果;
根据所述参与方与发起方中样本数据的标签以及数量,计算所述参与方与发起方之间的数据信息量评分结果;
根据所述参与方与发起方中样本数据的数据特征,计算所述参与方与发起方之间的数据相关性评分结果;
对所述参与方与发起方之间的样本数据评分结果、数据信息量评分结果,以及数据相关性评分结果进行累加,得到所述联邦数据评估结果。
10.根据权利要求7所述的计算机设备,其特征在于,所述处理器是设置为通过以下方式根据与所述参与方以及发起方分别对应的本地数据评估结果,以及所述联邦数据评估结果,确定与所述参与方以及发起方分别对应的样本数据质量评估结果:
根据与所述参与方以及发起方分别对应的本地数据评估结果,所述联邦数据评估结果,以及预设的加权比例,计算与所述参与方以及发起方分别对应的样本数据质量评估结果。
11.根据权利要求7所述的计算机设备,其特征在于,所述处理器在确定与所述参与方以及发起方分别对应的样本数据质量评估结果之后,还执行以下操作:
判断所述样本数据质量评估结果是否小于预设评估阈值;
若是,则对所述样本数据质量评估结果匹配的样本数据进行优化。
12.根据权利要求8所述的计算机设备,其特征在于,所述处理器是设置为通过以下方式根据所述数据评价指标,以及所述参与方中的样本数据,计算与所述参与方对应的单一数据评分结果:
根据所述参与方中的样本数据,计算不同数据类别分别对应的样本数据标准差;
根据各所述样本数据标准差与预设阈值的大小关系,确定与各所述数据类别分别对应的单一指标评估结果,对各所述单一指标评估结果取平均值,得到与所述参与方对应的单一数据评分结果。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的一种数据质量评估方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111153966.5A CN113807736A (zh) | 2021-09-29 | 2021-09-29 | 一种数据质量评估方法、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111153966.5A CN113807736A (zh) | 2021-09-29 | 2021-09-29 | 一种数据质量评估方法、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113807736A true CN113807736A (zh) | 2021-12-17 |
Family
ID=78938954
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111153966.5A Pending CN113807736A (zh) | 2021-09-29 | 2021-09-29 | 一种数据质量评估方法、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113807736A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114398671A (zh) * | 2021-12-30 | 2022-04-26 | 翼健(上海)信息科技有限公司 | 基于特征工程iv值的隐私计算方法、系统和可读存储介质 |
CN115001953A (zh) * | 2022-05-30 | 2022-09-02 | 中国第一汽车股份有限公司 | 一种电动汽车数据质量评估方法、装置、终端及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110210719A (zh) * | 2019-05-10 | 2019-09-06 | 中国电力科学研究院有限公司 | 一种电力设备静态数据质量评估方法及系统 |
CN112214342A (zh) * | 2020-09-14 | 2021-01-12 | 德清阿尔法创新研究院 | 一种联邦学习场景中高效的错误数据检测方法 |
CN112308720A (zh) * | 2019-08-02 | 2021-02-02 | 深圳前海微众银行股份有限公司 | 一种确定联邦学习联盟中参与方的方法及装置 |
CN112328617A (zh) * | 2020-11-19 | 2021-02-05 | 杭州趣链科技有限公司 | 纵向联邦学习的学习模式参数更新方法和电子装置 |
CN112784994A (zh) * | 2020-12-31 | 2021-05-11 | 浙江大学 | 基于区块链的联邦学习数据参与方贡献值计算和激励方法 |
CN113254943A (zh) * | 2021-05-25 | 2021-08-13 | 深圳市洞见智慧科技有限公司 | 一种基于纵向联邦学习的模型贡献度评估系统 |
CN113342939A (zh) * | 2021-06-24 | 2021-09-03 | 中国平安人寿保险股份有限公司 | 数据质量监控方法、装置及相关设备 |
-
2021
- 2021-09-29 CN CN202111153966.5A patent/CN113807736A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110210719A (zh) * | 2019-05-10 | 2019-09-06 | 中国电力科学研究院有限公司 | 一种电力设备静态数据质量评估方法及系统 |
CN112308720A (zh) * | 2019-08-02 | 2021-02-02 | 深圳前海微众银行股份有限公司 | 一种确定联邦学习联盟中参与方的方法及装置 |
CN112214342A (zh) * | 2020-09-14 | 2021-01-12 | 德清阿尔法创新研究院 | 一种联邦学习场景中高效的错误数据检测方法 |
CN112328617A (zh) * | 2020-11-19 | 2021-02-05 | 杭州趣链科技有限公司 | 纵向联邦学习的学习模式参数更新方法和电子装置 |
CN112784994A (zh) * | 2020-12-31 | 2021-05-11 | 浙江大学 | 基于区块链的联邦学习数据参与方贡献值计算和激励方法 |
CN113254943A (zh) * | 2021-05-25 | 2021-08-13 | 深圳市洞见智慧科技有限公司 | 一种基于纵向联邦学习的模型贡献度评估系统 |
CN113342939A (zh) * | 2021-06-24 | 2021-09-03 | 中国平安人寿保险股份有限公司 | 数据质量监控方法、装置及相关设备 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114398671A (zh) * | 2021-12-30 | 2022-04-26 | 翼健(上海)信息科技有限公司 | 基于特征工程iv值的隐私计算方法、系统和可读存储介质 |
CN115001953A (zh) * | 2022-05-30 | 2022-09-02 | 中国第一汽车股份有限公司 | 一种电动汽车数据质量评估方法、装置、终端及存储介质 |
CN115001953B (zh) * | 2022-05-30 | 2023-11-14 | 中国第一汽车股份有限公司 | 一种电动汽车数据质量评估方法、装置、终端及存储介质 |
WO2023231733A1 (zh) * | 2022-05-30 | 2023-12-07 | 中国第一汽车股份有限公司 | 一种电动汽车数据质量评估方法、装置、终端及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tiberius et al. | Impacts of digitization on auditing: A Delphi study for Germany | |
WO2022206510A1 (zh) | 联邦学习的模型训练方法、装置、设备及存储介质 | |
CN113807736A (zh) | 一种数据质量评估方法、计算机设备及存储介质 | |
CN108428061B (zh) | 基于dea-ga-bp的智能评标决策系统和评标方法 | |
CN112380572B (zh) | 一种多方数据协同场景下的隐私保护量化评估方法和系统 | |
Liu et al. | A special Partial Least Squares (PLS) path decision modeling for bid evaluation of large construction projects | |
CN114492605A (zh) | 联邦学习特征选择方法、装置、系统以及电子设备 | |
CN112737772B (zh) | 私有集合交集数据的安全统计方法、终端设备及系统 | |
US20180300289A1 (en) | Information Determining Method and Apparatus | |
CN113902037A (zh) | 非正常银行账户识别方法、系统、电子设备及存储介质 | |
CN114742239B (zh) | 基于联邦学习的金融保险理赔风险模型训练方法及装置 | |
CN114362948B (zh) | 一种联邦衍生特征逻辑回归建模方法 | |
CN112101577A (zh) | 基于XGBoost的跨样本联邦学习、测试方法、系统、设备和介质 | |
CN106604281A (zh) | 一种确定手机号码稳定性的方法及设备 | |
CN114036581A (zh) | 基于神经网络模型的隐私计算方法 | |
CN106971107A (zh) | 一种数据交易的安全定级方法 | |
CN116896452B (zh) | 基于数据处理的计算机网络信息安全管理方法及系统 | |
CN112308720A (zh) | 一种确定联邦学习联盟中参与方的方法及装置 | |
Mulenga et al. | Impact of Digital Services Trade on Economic Growth of Developing, Emerging and Developed Countries: P-VAR Approach. | |
CN114723239A (zh) | 一种多方协同建模方法、装置、设备、介质及程序产品 | |
Xue et al. | Research on comprehensive evaluation of network marketing performance in O2O model-measuring by GIOWA operator | |
CN114422147A (zh) | 基于区块链的多方安全计算方法 | |
CN114782668A (zh) | 模型聚合方法、装置、系统及电子设备 | |
CN112541540A (zh) | 数据融合方法、装置、设备及存储介质 | |
Chan et al. | Multilateral trade and export-led growth in the world economy: some post-war evidence |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |