CN117196069A - 联邦学习方法 - Google Patents
联邦学习方法 Download PDFInfo
- Publication number
- CN117196069A CN117196069A CN202311469508.1A CN202311469508A CN117196069A CN 117196069 A CN117196069 A CN 117196069A CN 202311469508 A CN202311469508 A CN 202311469508A CN 117196069 A CN117196069 A CN 117196069A
- Authority
- CN
- China
- Prior art keywords
- data
- federal learning
- task
- federal
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 89
- 238000012549 training Methods 0.000 claims abstract description 76
- 230000008569 process Effects 0.000 claims abstract description 41
- 238000012545 processing Methods 0.000 claims abstract description 30
- 238000011161 development Methods 0.000 claims abstract description 18
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 230000006978 adaptation Effects 0.000 claims description 15
- 230000004927 fusion Effects 0.000 claims description 8
- 238000012544 monitoring process Methods 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 8
- 238000004140 cleaning Methods 0.000 claims description 6
- 230000010354 integration Effects 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 description 11
- 238000009825 accumulation Methods 0.000 description 10
- 238000013475 authorization Methods 0.000 description 9
- 238000007477 logistic regression Methods 0.000 description 9
- 238000007726 management method Methods 0.000 description 8
- 238000011156 evaluation Methods 0.000 description 7
- 238000003066 decision tree Methods 0.000 description 5
- 238000003860 storage Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 238000002360 preparation method Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000012550 audit Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000011423 initialization method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种联邦学习方法,该方法包括:签订联邦学习合作协议,所述联邦学习合作协议中包括多方的联邦学习权限及使用规则;根据所述合作协议,建立联邦学习计算环境;各数据参与方在本地按照统一的数据处理规则准备联邦学习训练数据;启动联邦学习开发任务,进行联邦学习过程。利用本发明方案,不仅可以提高数据利用率,而且可以提高模型训练精度和训练效率。
Description
技术领域
本发明涉及人工智能技术领域,具体涉及一种联邦学习方法。
背景技术
在大数据与信息经济并发的时代,数据和信息成为全世界公认的重要资源。开发利用现有数据资源有利于推动经济发展,但是由于缺乏政策和规则向导,各部门、企业之间信任度较低,数据聚合和流通存在重大问题。为了顺应时代与潮流的发展,数据资源的开发利用必须从技术上进行突破,采用联邦学习的方式在保证数据安全的前提下可以最大程度提高数据使用效率。
联邦学习(Federated Learning,FL)的核心思想就是在数据不出本地的情况下多方联合完成建模任务,然而目前的联邦学习在利用数据资源过程中缺乏一套完整的联邦学习合作体系,使得各参与方没有统一的行为准则,比如:对本地数据处理参差不齐,特征字段命名千奇百怪,数据量大小相差甚远等都会影响联邦学习任务的开启;并且由于数据的可见不可用,对待训练数据的选择上也是仅凭需求方的主观判断,往往选出的数据并不是最优参选数据,使得需求方对训练出来的模型不满意,导致需要反复试验参与数据建立模型的现象,使得试错成本较高,联邦学习效率降低,无法实现数据资源的合理利用。
发明内容
本发明提供一种联邦学习方法,以解决现有联邦学习中数据处理不统一、盲目数据选择以及训练数据不均衡,影响模型训练精度和训练效率的问题。
为此,本发明提供如下技术方案:
一种联邦学习方法,所述方法包括:
签订联邦学习合作协议,所述联邦学习合作协议中包括多方的联邦学习权限及使用规则;
根据所述合作协议,建立联邦学习计算环境;
各数据参与方在本地按照统一的数据处理规则准备联邦学习训练数据;
启动联邦学习开发任务,进行联邦学习过程;所述启动联邦学习开发任务包括:服务状态检查、任务信息配置、联邦学习任务审核、数据样本加密对齐、开启建模服务;所述任务信息配置包括:模型选择,所述模型选择包括需求方选择本次联邦学习使用的模型、以及训练标签不均衡调整方式。
可选地,所述签订联邦学习合作协议包括:
申请提交:需求方向监管方提交联邦学习申请,并对本地参与模型构建的数据集进行描述;
需求审核:监管方对需求方提交的申请进行审核;
协议签订:监管方通过需求方提出的申请后,针对本次申请中建模任务的细节签订协议。
可选地,所述联邦学习申请包括以下信息:节点类型、业务需求、本地数据名称、数据类型、数据来源、数据量大小、字段名称。
可选地,所述申请提交包括:多个数据资源需求方同时向监管方提出建模申请。
可选地,所述根据所述合作协议,建立联邦学习计算环境包括:
根据所述合作协议,评估联邦学习硬件环境,部署联邦学习软件环境,测试联邦学习软件环境。
可选地,所述联邦学习计算环境中预设多个算法。
可选地,所述准备联邦学习训练数据包括数据处理,所述数据处理包括以下任意一种或多种:数据集成、数据清洗、数据标准化、数据规约。
可选地,所述任务信息配置中还包括:需求任务提交、数据适配度计算、数据选择、参数配置。
可选地,所述方法还包括:所述联邦学习过程中包括任务调度过程,所述任务调度过程包括:任务启动、任务监控、性能监测、故障定位四个阶段。可选地,所述训练标签不均衡调整方式包括以下任意一种:动态阈值设定、融合模型;
所述动态阈值设定是指根据正负样本标签比例确定动态调整预测概率阈值;
所述融合模型选择是指将正负样本以1:1的标签数量拆分为多套训练集,每套训练集单独训练一个模型,基于多个模型的输出结果确定最终输出结果。
可选地,所述进行联邦学习过程包括:
根据需求方提交的建模需求运行特征工程组件,执行特征工程,筛选出参与联邦学习的特征数据;
开启建模任务,需求方与各参与方之间交互加密的模型参数,直到达到最大迭代次数或者收敛,得到模型训练结果。
本发明提供的联邦学习方法,通过建立多方合作协议,在提供联邦学习权限的前提下,统一数据处理,提高联邦学习待训练数据质量,从而提高了模型训练精度;另外,增加数据适配度计算,针对需求方提交的任务需求,计算适用于本次联邦学习任务的其他参与方数据,并采用分值倒序排列供需求方选择,极大程度降低了试错成本,提高了数据利用率。
进一步地,通过在模型选择过程中增加动态阈值和融合模型解决训练标签不均衡的问题,可以在有限的数据条件下,有效提高模型训练精度。
附图说明
图1是本发明提供的联邦学习方法中需求方、参与方和监管方的关系示意图;
图2是本发明提供的联邦学习方法的流程图;
图3是本发明提供的联邦学习方法中的任务调度过程。
具体实施方式
为了更清楚地说明本发明实施方式或现有技术中的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
在针对本发明的实施方式进行描述时,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底” “内”、“外”所表达的方位或位置关系是基于相关附图所示的方位或位置关系,其仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此上述术语不能理解为对本发明的限制。
下面结合附图和具体实施方式对本发明作详细地描述,实施方式不能在此一一赘述,但本发明的实施方式并不因此限定于以下实施方式。
联邦学习旨在建立一个基于分布式数据集的联邦学习模型,在模型训练过程中,模型参数信息能够在各方之间交换(或者以加密形式进行交换),但数据不能参与交换。这一交换并不会暴露每个站点上数据的任何受保护的隐私部分,已训练好的全局模型以分割不同的半模型形式置于联邦学习各参与方,实现多方共同受益。在联邦学习体系下,各用户可以是联邦学习的需求方,也可以是联邦学习的参与方。联邦学习最突出的两大优势在于:由于是被设计为不需要直接数据交换或者收集的形式,保护了用户的隐私安全和数据安全;联邦学习还允许若干个参与方协同训练一个机器学习模型,从而使各方都能得到一个比自己训练得更好的模型。
现有的联邦学习方法中缺乏对所有参与方的约束,从而导致各参与方之间数据处理标准不统一,导致联邦学习模型训练数据质量不高,影响模型精度;同时,现有的联邦学习方法中通常由需求方选择相应数据进行模型训练,然而所选择的数据并非是最适合联邦学习的训练数据集,导致需求方反复开启联邦学习服务,从而得到最优模型,这往往增加了需求方的试错成本。
针对上述现有联邦学习方法中存在的问题,本发明提出了一种联邦学习方法,通过建立多方合作协议,在提供联邦学习权限的前提下,统一数据处理,提高联邦学习待训练数据质量,从而提高模型训练精度;另外,通过增加数据适配度计算,针对需求方提交的任务需求,计算适用于本次联邦学习任务的其他参与方数据,并采用分值倒序排列供需求方选择,极大程度降低试错成本,提高数据利用率。
在本发明方案中存在三个角色,即:需求方、参与方和监管方。其中,需求方是向监管方提起联邦建模申请并最终得以使用联合模型的一方;参与方是为联邦建模提供训练数据的一方或多方;监管方是审核联邦学习申请并监控整个联邦建模过程的一方。每一次任务只能有一个需求方,但可以有多个参与方。参与方与需求方的角色可互换,即本次任务的需求方可以作为下一个任务的参与方。
如图1中所示,需求方的主要工作就是完成需求申请,与联邦学习监管方完成合作协议、准备联邦学习训练数据、启动联邦学习开发任务;监管方的工作是负责数据资源的管理、联邦学习需求的审核、联邦学习协议的签订及联邦学习环境的建立;参与方的主要工作是依据需求方的需求申请提供相应待训练数据,并在本地完成半模型训练。
参照图1,需求方开启联邦学习任务后,进入联邦学习任务调度,完成整个建模任务。将任务调度交由需求方这种方式的优势是可以实时监控模型训练情况,若在调度过程中出现故障,也可以快速定位任务编号,进而了解故障原因,降低模型训练故障率。
需要说明的是,本地有数据资源的单位或企业部门都可以作为联邦学习的参与方,各单位或部门因为业务需求需要利用其他参与方的本地数据来共同训练模型,从而达到业务目的。同时,其他参与方也需要利用该单位或部门的数据进行模型训练的情况下,可以通过向联邦学习监管方提出联邦学习申请。为了扩大联邦学习的数据量,各节点向联邦学习监管方提出申请的同时还需要贡献一定数量的本地数据作为交换条件,其目的是促进联邦学习社区的良性数据共享。
利用图1所示的模式,可以实现两方或者多方共同建模。在各参与方本地可以根据需求采用数据融合模式进行数据处理,在需求方和参与方之间为保证数据安全采用联邦学习方式,通过将传统的数据集中式建模和联邦学习建模相结合的方式既提升了建模效率和用户满意度又考虑到了数据资源的安全性和合规性。
参见图2,图2是本发明提供的联邦学习方法的流程图,该方法包括以下步骤:
在步骤201、签订联邦学习合作协议,所述联邦学习合作协议中包括多方的联邦学习权限及使用规则。
签订联邦学习合作协议的目的是确保数据提供方及需求方的合法权益,是进行多方联合建模的前提。联邦学习合作协议中包括多方的联邦学习权限及使用规则,用以约束所述各方的行为规范,同时也为各方进行联邦学习授权,是作为参与联邦学习的必备条件,基于签订联邦学习合作协议的操作,建立多方合作关系。
签订联邦学习合作协议的过程包括:申请提交、需求审核、协议签订。
各需求方先向联邦学习监管方提出联邦学习申请,并对本地参与模型构建的数据集进行详细描述,联邦学习申请包括但不限于以下任意一项或多项信息:节点类型、业务需求、本地数据名称、数据类型、数据来源、数据量大小、字段名称等内容。
联邦学习监管方审核各需求方提交的联邦学习申请是否合理合法,数据用量是否合规,数据授权是否完善等,正式向各需求方发出联邦学习合作协议。监管方对需求方提交的申请的审核主要从使用类型、使用途径、数据量等方面进行审核。
步骤201中,所有联邦学习参与方均与联邦学习监管方签订协议,协议内容包括:联邦学习监管方对各需求方的联邦学习授权,真正成为联邦学习参与方,规定各联邦学习参与方的行为准则及规范,并统一参与方本地数据的处理规则。
在本发明实施例中,联邦学习授权可以由联邦学习监管方对提供本地数据的各需求方进行联邦学习授权的过程,各需求方只有通过授权才能参与联合建模,上述联邦学习授权包括:查看数据描述、数据选择、模型参数设定、开启联邦建模任务、查看已训练的模型、使用已训练好的模型完成预测任务等权限。限制权限包括:查看参与方具体数据、查看模型参数以及对所有数据的增删改查等,通过相应的权限设定来规范各参与方的行为准备。
所述数据描述是各需求方与联邦学习监管方签订合作协议时提供的本地数据描述,其内容包括:数据名称、数据类型、数据来源、数据量大小、字段名称、数据用途等,需求方通过查看参与方的数据描述,决定是否选择该数据一同实现联邦学习模型构建。
步骤201中,联邦学习监管方对各需求方的联邦学习授权只进行一次,通过授权后,该需求方即可按照协议建立计算环境,并进行数据处理,随后可发起多次联邦建模任务。
例如,A银行想要通过本地的个人贷款数据与当地公积金数据、社区房屋数据共同完成联邦学习,得到A银行方的个人信用评估,作为A银行放贷额度的主要参考指标。在公积金数据、社区房屋数据已纳入联邦学习系统的前提下,A银行向联邦学习监管方提交联邦学习申请,描述提交申请的原因及业务需求,并描述来源于A银行放贷系统中某地区2019年1月1日至2023年8月31日的A银行个人贷款数据,数据特征有n维,字段包括:姓名、性别、年龄、职业、月收入、贷款额度、月还款额度、欠款金额、月支出等,共30000条数据,数据用途为A银行贷款评估。联邦学习监管方对A银行提出的申请进行审核,审核内容包括:业务需求是否合理,本地数据量是否满足联邦学习,公积金及社区房屋数据是否满足A银行进行联邦学习的需要。通过以上审核后,联邦学习监管方与A银行签订联邦学习合作协议。
需要说明的是,可有多个需求方同时向监管方发出申请,每个需求方都需要与监管方签订合作协议,监管方授权各需求方的联邦学习权限,并按所述合作协议规范各需求方的数据处理及使用。
在步骤202、依据所述合作协议,建立联邦学习计算环境。
联邦学习监管方与各参与方签订联邦学习合作协议后,需要在各参与方建立联邦学习计算环境。建立联邦学习计算环境统一由联邦学习监管方完成,并对联合建模的过程进行统一管控。
建立联邦学习计算环境主要指在参与方的计算资源上部署支持联邦学习的底层环境,在部署完成后与监管方计算资源上的联邦学习环境进行通信测试,以实现各参与方之间的信息互联互通,为联邦学习提供基础的学习环境,确保联邦学习的正常运行。
在一种非限制性实施例中,建立联邦学习计算环境步骤具体可以包括:评估联邦学习硬件环境,部署联邦学习软件环境,测试联邦学习软件环境。
由联邦学习监管方对各参与方的硬件环境进行评估,评估参与方的硬件环境是否满足联邦学习的硬件需求,是否支持联邦学习中的加密交互及联合建模,均满足需求后开始部署联邦学习软件环境,部署软件环境采用容器的形式,打包拷贝到目标服务器,并与其他参与方保持相同的联邦学习底层环境,最后进行联邦学习环境测试。所述联邦学习环境测试是在多方部署好联邦学习环境后对各自的基础服务和交互通信进行测试,以保证与各参与方信息的互联互通,进而保证联邦学习的正常运行。
需要说明的是,每一次有新节点(即参与方)加入后,该参与方只需与联邦学习监管方单独签订合作协议,并为该节点建立联邦学习计算环境,不需要重新建立各参与方的计算环境,保证快捷高效的实现环境搭建。
另外,需要说明的是,建立的联邦学习计算环境中可以预设常用算法,如逻辑回归、决策树、神经网络等算法,以满足大部分分类与回归问题。在实际应用场景中,由于需求方和参与方数据资源的属性及ID并不完全重合,这样在预设联邦学习算法时需要考虑纵向联邦学习算法和横向联邦学习算法。
比如,A银行需要建立一个个人信用评估模型,在A银行与联邦学习监管方签订了合作协议后,监管方评估该A银行的硬件条件,提供的联邦学习硬件环境有:Intel(R) Xeon(R) CPU E5-2658 v4 @ 2.30GHz、8G内存、集成显卡、500G机械硬盘等,通过评估该硬件条件满足联邦学习后,通过Docker容器的方式将联邦学习环境拷贝到该A银行的计算资源上,包括:Python3.6、TesnsorFlow1.15.2、Torch1.4.0、联邦学习框架、联邦学习算法等,部署成功后测试与各参与方之间的信息联通。本例子中,A银行需要通过本地的个人贷款数据与当地公积金数据、社区房屋数据共同完成联邦学习,数据均来自本地区,因此ID(身份证号)重合度较高,适用于纵向联邦学习算法;若参与模型训练的数据来自于不同地区的银行,此时数据特征重合度较高,则适用于横向联邦学习算法。
在步骤203、各参与方在本地按照统一的数据处理规则准备联邦学习训练数据。
各参与方与联邦学习监管方签订的合作协议中规定了标准的数据处理规范,因此,各参与方可以按照合作协议中的数据处理规范对本地数据实现统一标准化处理,实现数据集成、数据清洗、数据标准化、数据规约等标准化数据处理的过程。通过标准化数据处理,可以优化待训练数据,提高数据质量,降低模型训练的计算量,提高模型精度。通过各参与方对本地数据的统一标准化处理,可以降低建模时数据差异性,提高模型精度。
由于各参与方数据的敏感性,准备联邦学习训练数据是各参与方在本地统一对自身数据进行标准化数据处理的过程,避免数据集中化处理导致数据泄露、危害个人或单位隐私安全等问题。
准备联邦学习训练数据是各参与方在本地按照所述合作协议实现数据处理的过程,所述数据处理包括但不限于以下任意一种或多种:数据集成、数据清洗、数据标准化、数据规约等,为联邦学习提供高质量的数据资源。其中:
所述数据集成是各参与方在本地进行数据融合的过程,即将各自不同来源、格式、特点的数据进行有效集合,并转换为单一一致的数据存储的过程;比如,不同领域的数据集可以根据唯一标识码合并成一个文件。
所述数据清洗是删除掉重复信息、纠正错误信息、处理无效值及缺失值的过程。
所述数据标准化是为了解决特征的量纲及数值的量级差异等问题,差异太大通常会导致学习算法性能表现不佳,因此需要标准化步骤对数据进行预处理。
所述数据规约是通过数据的相似性分析,对数据特征进行压缩,并保持信息量不变的过程,其目的是优化待训练数据,减少模型训练过程中的无效计算量。
各数据参与方将本地数据按照统一标准进行数据处理后生成统一数据格式,并将这些数据存放在联邦学习服务器指定目录中,便于联邦学习系统对参与方数据的调用。
比如,A银行需要建立一个个人信用评估模型,在建立联邦学习计算环境后,A银行方需要按照联邦学习合作协议上规定的统一数据处理标准处理某地区2019年1月1日至2023年8月31日的A银行个人贷款数据。通过数据清洗删除掉月收入、贷款额度均为空的无效数据,并对欠款金额为空的数据进行自动补充,并将性别字符型数据转化为数字型,通过特征归一化将所有数据压缩在特定区间,以减少特征漂移等问题,同时按照统一标准对字段及数据集进行命名,最后将处理好的数据以csv格式存放在联邦学习服务器的指定路径下。
在经过上述步骤201-203后,完成了联邦学习的准备工作,即可开启联邦学习开发任务,联合多个参与方的本地数据共同完成模型训练。
在步骤204、启动联邦学习开发任务,进行联邦学习过程。
在启动联邦学习开发任务之前,需要需求方、其他数据参与方及监管方的协同工作,协同工作完成后,正式开启多方联合建模任务。启动联邦学习开发任务是由需求方发起,用于开启基于多个参与方的联邦学习任务,需求方需提供适用于所述任务的本地数据并选择适配数据进行联合建模。
启动联邦学习开发任务具体可以包括但不限于以下任意一种或多种:服务状态检查、任务信息配置、联邦学习任务审核、数据样本加密对齐、开启建模服务。其中:
所述服务状态检查是各参与方在收到开启联邦学习的命令后,自行检查本地服务器联邦建模服务的启动情况及待训练数据状态,是否符合联邦学习要求。相应地,监管方确认所有参与方与需求方的建模服务正常开启后才进行任务信息配置。
需求方需要进行任务信息配置,确定所述任务信息配置合理后,确定所述任务有效。所述任务信息配置包括:需求任务提交、数据适配度计算、数据选择、模型选择、参数配置。其中,所述需求任务提交是需求方提交本次联邦建模的任务描述、每条待训练数据的唯一标识ID、标签特征、数据特征、数据量大小及加密对齐数据阈值设定,用于计算数据适配度。
所述数据适配度计算是监管方根据需求方提交的信息,对所有参与方的数据进行适应性评估的过程。适配度计算会综合考虑数据特征的重合量、唯一标识ID的重合量、以及总的求交数据量是否达到设定阈值。当需求方提交任务需求后,监管方依据需求任务中的数据特征字段名提取所有参与方含有该数据特征的所有数据集名称,求取需求方本地数据特征字段与各参与方数据特征字段的重合量及唯一标识ID重合量,当唯一标识ID重合量大于设定阈值时,数据特征字段重合量越高适配度分值越低;相反,当唯一标识ID重合量小于等于设定阈值时,数据特征字段重合量越高适配度分值越高。
所述适配度公式如下:
其中,表示ID重合量,/>表示设定的阈值,/>表示数据特征字段重合量,/>表示需求方参与模型训练的数据特征量。
通过对上述信息的衡量,统计一个评分并进行相应分值降序排列,便于需求方选择高质量数据进行联合建模。在需求方无法查看参与方数据内容的情况下,针对本次联邦学习任务对各参与方的所有数据进行评估,为需求方的数据选择提供有力支撑。
所述数据选择和模型选择是指需求方对所需数据和模型进行选择,并设定与模型对应的参数,即需求方依据适配度选择最适用于本次联邦学习的参与方待训练数据,并同时提交模型选择和参数配置。所述模型可以包括但不限于:逻辑回归、线性回归、神经网络、决策树等,每种模型均包括横向联邦和纵向联邦。所述数据选择支持两方或多方数据参与,所述模型选择会根据各需求方提供的任务信息自行判断模型类型(即数据特征重合度较高时采用横向建模或,ID重合度较高时采用纵向建模)。需要说明的是,每种模型对应的模型参数不同,需求方需要根据选择的模型设定模型参数,并且保证每次联邦学习任务的开启只允许训练一种联邦学习模型。
针对训练数据标签不均衡的问题,所述模型选择除了提供常规的算法模型外,还增加了动态阈值设定和融合模型选择,需求方针对所选择的训练集确定是否需要采用上述两种方法来改善因数据标签不均衡导致的模型精度低,且两种方法只能选其一。以个人信用评估为例,正负样本的比例大于10:1,说明实际数据更偏向于预测为正样本,假设需求方选择逻辑回归模型+动态阈值设定,逻辑回归模型经Sigmod函数的输出通常以0.5作为阈值,大于0.5被归为正样本,小于0.5被归为负样本,此时的动态阈值设定是指模型动态调整预测概率阈值,逻辑回归按训练集标签的比例调整自身阈值,个人信用评估中该阈值可调整为0.1,即大于0.1被归为正样本,反之为负样本,一定程度上符合模型对正样本的预测。
所述融合模型是指将正负样本以1:1的标签数量拆分为多套训练集,每套训练集单独训练一个模型,然后将多个模型的结果求平均得到最终结果,以个人信用评估为例,负样本只占10%,假设需求方选择了决策树模型+融合模型,可以将正样本拆分为九等份,每一份都与负样本组合成一套训练集,得到九套标签均衡数据集,每套训练集分别训练一个决策树模型,得到九个决策树模型,再对九个模型的结果求取平均,以0.5作为分类阈值得到最终结果。动态阈值设定和融合模型选择都是通过优化模型提升模型精度,解决训练标签不均衡带来的模型预测偏差。
所述联邦学习任务审核是针对需求方发起的联邦学习请求,其余数据参与方决定是否通过审核的过程,待所有参与方都通过审核后才能进行模型训练。
所述数据样本加密对齐是需求方和参与方通过使用非对称加密算法在不暴露各自原始数据信息的前提下筛选出共同样本的过程。
所述开启建模服务就是正式开启联邦学习任务。基于该操作,开启联邦学习模型训练任务,并返回训练模型及模型评估结果,提供给需求方选择性建立数据预测任务。
需求方启动联邦学习任务后,首先根据需求方提交的建模需求运行特征工程组件,特征工程过程包括:特征分箱、特征归一化、特征选择,筛选最有价值的特征数据参与联邦学习,过滤掉重复特征或相关性极强的特征数据,在减少联邦学习的计算量的同时,提高模型训练精度。特征工程筛选好特征数据后,正式开启建模任务,需求方与各参与方之间交互加密的模型参数,直到达到最大迭代次数或者收敛,任务结束完成后系统返回模型训练结果,包括对模型的评估结果以及模型参数,需求方通过查看模型训练的情况,衡量其可用性,针对合格的模型提供数据预测。
以个人信用评估为例,上述启动联邦学习开发任务,进行联邦学习过程如下:
1)A银行启动联邦学习任务后,A银行、住房公积金管理部门、地方人民政府房产管理部门收到开启联邦学习的命令后检查本地服务器中联邦建模服务的启动情况,确认所有参与方与需求方的建模服务正常开启;
2)A银行向联邦学习监管方提交任务信息配置,需求任务提交包括:联邦建模的任务描述(个人信用评估模型训练)、每条待训练数据的唯一标识ID(身份证号码ID)、标签特征(个人信用评估标签)、本地数据特征(性别、年龄、职业、月收入、贷款额度、月还款额度、欠款金额、月支出)、期望数据特征(公积金汇缴状态、公积金月缴纳值、房屋面积、坐落、使用期限、房屋所有权、抵押权人、抵押期限等)、数据量大小(比如30000条)及加密对齐数据阈值设定(比如5000条);通过需求方提交的任务信息以及各参与方的数据信息进行适配度计算,发现住房公积金管理部门的个人住房公积金数据及地方人民政府房产管理部门的房屋财产所有权数据与本次联邦学习任务有较强适配度,并将这两个数据信息推送给需求方,供需求方选择;同时,选择合适算法及相应参数,个人信用评估可以归为一个分类问题,可以选择逻辑回归算法,逻辑回归算法中需要配置的参数包括:一次训练所选取的样本数(batch_size)、学习率(learning_rate)、初始化方法(init_mothod),一般使用随机平均分布或者高斯分布、优化器(optimizer),一般选择sgd、总的收敛阈值(tol)、最大迭代次数(iter)等。
基础参数设置完成后还需要确定损失函数,所述损失函数如下:
其中,m表示训练样本数量,表示第i个样本的真实标签,/>表示预测出第i个样本的概率值。
任务相关的所有参数设置完成后生成参数文件config.xml。
3)数据样本加密对齐:某地区2019年1月1日到2023年8月31日公积金数据所覆盖的人数应该远大于A银行2019年1月1日到2023年8月31日的客户贷款人数及房屋所有权人数,使用非对称加密算法在密文状态下对样本数据求交,得到共同的客户数据,使用这部分数据进行联邦学习。数据准备完成后,最后一步就是开启建模服务,启动时系统向住房公积金管理部门、地方人民政府房产管理部门及A银行的计算资源上发送开始训练的指令,任务启动成功后,会得到一个任务编号,通过任务编号可以监控该任务的状态,查看任务训练进度。当任务状态显示训练成功后,A银行可以在指定位置的路径下查看评估结果,如果指标性能达到预期目标则该联邦学习任务结束,如果指标性能未能达到预期目标则该联邦学习任务继续。
需要说明的是,在上述步骤204中,所有调度指令在调用接口的过程中只传输任务操作成功与否的指示信息,不包含任何敏感信息。
进一步地,当任务完成后,需求方可在自身的计算资源上查看任务结果,通过任务结果判断是否达到预期目标。如若没有达到预期目标,需求方可以分析上次任务失败的原因,可能的原因有:数据自身质量原因、迭代次数太少、学习步长太大或者太小等。通过提高数据质量或者修改参数配置后重新提交训练。
如图3所示,是本发明提供的联邦学习方法中的任务调度过程,整个调度过程包括任务启动301、状态检查304、性能监测305、故障定位306等阶段。下面对各阶段进行详细说明。
任务启动301阶段包括三个步骤:第一步为服务状态检查,检查参与方计算资源上联邦学习服务是否运行正常、数据状态是否正常;第二步为数据样本加密对齐,首先检查各自的训练数据集是否存在并将数据集通过加密形式实现数据对齐,从而确定对齐后的数据能否开启模型训练、以及通过哪种联邦学习类型开启模型训练;第三步为任务启动,监管方发起任务开始的命令,多个参与方开始联邦学习模型训练任务。
图3中的联邦学习计算资源1表示各参与方的计算资源,该计算资源已经在前期完成了联邦学习训练环境的建设,固定了联邦学习各服务的端口、对外接口等内容。联邦学习计算资源2表示需求方的计算资源,当需求方签订联邦学习协议后需要在该计算资源建立联邦学习训练环境,环境建立的过程中可以向监管方寻求技术支持,监管方可以将自身计算资源上已经部署好的训练环境以容器的形式拷贝到需求方,帮助需求方快速高效完成环境搭建。
状态检查304阶段:在任务启动完成后对任务状态的查询,实时监控,如果出现故障,通过监控信息能第一时间发现问题,及时解决问题,保证任务顺利完成。
性能监测305阶段:当状态检查显示联邦学习任务已经完成,则可以查看建模结果,通过指标评价分析模型性能是否达到预期效果。如果性能指标未能达到预期,则可以修改任务配置信息重新进行联合训练任务。
故障定位306阶段:通过对日志管理库中的任务日志进行分析,定位故障,及时修改问题,降低时间成本。
本发明提供的联邦学习方法,既可以最大程度上挖掘公共数据资源的价值,又可以保证公众的敏感信息不泄露不滥用。这种方式可以有效帮助保密等级较高的企业和个人通过数据资源的开发利用提升业务效能。
与现有技术相比,本发明具有以下有益效果:
(1)本发明方案中,多方签订联邦学习合作协议,为各参与方进行联邦学习授权,在联邦学习过程中监控更易实现,故障更易定位,联邦学习的效率更高。
(2)本发明提出的联邦学习方法及系统中,按联邦学习合作协议,准备联邦学习训练数据,统一各参与方的本地数据处理,形成一套规范的处理流程,实现数据集成、数据清洗、数据标准化、数据规约等标准化数据处理的过程,通过标准化数据处理,优化待训练数据,降低了模型训练的计算量。
(3)本发明方案中,数据适配度计算是依据需求方提交的联邦学习任务信息配置,包括待训练任务的任务描述、唯一标识ID、标签特征、数据特征及加密对齐数据阈值设定,根据所述需求方提交的相关信息,对所有参与方的数据进行适配度计算,并进行相应分值降序排列,便于所述需求方选择高质量数据进行联合建模,降低需求方的试错成本,大大提高了联邦学习的效率。
(4)本发明方案为数据资源开发利用建立了新的技术思路,数据资源作为联邦学习的数据支撑,具有可选择性和覆盖性,为联合模型构建奠定了很好的数据基础;联邦学习作为数据资源开发利用的技术模式,保证了数据资源的安全性和隐私性,同时也最大化公共数据资源的利用价值。前者为后者提供数据支持,后者为前者提供技术保障。
本发明实施例还公开了一种存储介质,所述存储介质为计算机可读存储介质,其上存储有计算机程序,所述计算机程序运行时可以执行图1或图2或图3中所示方法的部分或全部步骤。所述存储介质可以包括只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁盘或光盘等。存储介质还可以包括非挥发性存储器(non-volatile)或者非瞬态(non-transitory)存储器等。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语 “包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。而且,以上所描述的系统实施例仅仅是示意性的,其中作为分离部件说明的模块和单元可以是或者也可以不是物理上分开的,即可以位于一个网络单元上,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及系统,其仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围,本说明书内容不应理解为对本发明的限制。因此,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种联邦学习方法,其特征在于,所述方法包括:
签订联邦学习合作协议,所述联邦学习合作协议中包括多方的联邦学习权限及使用规则;
根据所述合作协议,建立联邦学习计算环境;
各数据参与方在本地按照统一的数据处理规则准备联邦学习训练数据;
启动联邦学习开发任务,进行联邦学习过程;所述启动联邦学习开发任务包括:服务状态检查、任务信息配置、联邦学习任务审核、数据样本加密对齐、开启建模服务;所述任务信息配置包括:模型选择,所述模型选择包括需求方选择本次联邦学习使用的模型、以及训练标签不均衡调整方式;
其中,所述任务信息配置中还包括:需求任务提交、数据适配度计算、数据选择和参数配置;所述需求任务提交是需求方提交本次联邦建模的任务描述、每条待训练数据的唯一标识ID、标签特征、数据特征、数据量大小及加密对齐数据阈值设定,用于计算数据适配度;
所述签订联邦学习合作协议包括:
申请提交:需求方向监管方提交联邦学习申请,并对本地参与模型构建的数据集进行描述;
需求审核:监管方对需求方提交的申请进行审核;
协议签订:监管方通过需求方提出的申请后,针对本次申请中建模任务的细节签订协议;
其中,所述训练标签不均衡调整方式包括以下任意一种:动态阈值设定、融合模型;
所述动态阈值设定是指根据正负样本标签比例确定动态调整预测概率阈值;
所述融合模型选择是指将正负样本以1:1的标签数量拆分为多套训练集,每套训练集单独训练一个模型,基于多个模型的输出结果确定最终输出结果。
2.根据权利要求1所述的联邦学习方法,其特征在于,所述联邦学习申请包括以下信息:节点类型、业务需求、本地数据名称、数据类型、数据来源、数据量大小、字段名称。
3.根据权利要求2所述的联邦学习方法,其特征在于,所述申请提交包括:多个数据资源需求方同时向监管方提出建模申请。
4.根据权利要求3所述的联邦学习方法,其特征在于,所述根据所述合作协议,建立联邦学习计算环境包括:
根据所述合作协议,评估联邦学习硬件环境,部署联邦学习软件环境,测试联邦学习软件环境。
5.根据权利要求1所述的联邦学习方法,其特征在于,所述联邦学习计算环境中预设多个算法。
6.根据权利要求1所述的联邦学习方法,其特征在于,所述准备联邦学习训练数据包括数据处理,所述数据处理包括以下任意一种或多种:数据集成、数据清洗、数据标准化、数据规约。
7.根据权利要求1所述的联邦学习方法,其特征在于,
所述联邦学习过程中包括任务调度过程,所述任务调度过程包括:任务启动、任务监控、性能监测、故障定位四个阶段。
8.根据权利要求1至7任一项所述的联邦学习方法,其特征在于,所述进行联邦学习过程包括:
根据需求方提交的建模需求运行特征工程组件,执行特征工程,筛选出参与联邦学习的特征数据;
开启建模任务,需求方与各参与方之间交互加密的模型参数,直到达到最大迭代次数或者收敛,得到模型训练结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311469508.1A CN117196069B (zh) | 2023-11-07 | 2023-11-07 | 联邦学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311469508.1A CN117196069B (zh) | 2023-11-07 | 2023-11-07 | 联邦学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117196069A true CN117196069A (zh) | 2023-12-08 |
CN117196069B CN117196069B (zh) | 2024-01-30 |
Family
ID=89003857
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311469508.1A Active CN117196069B (zh) | 2023-11-07 | 2023-11-07 | 联邦学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117196069B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663202A (zh) * | 2012-04-25 | 2012-09-12 | 清华大学 | 基于联邦模式的动态产品协同开发平台及方法 |
CN112150280A (zh) * | 2020-10-16 | 2020-12-29 | 北京百度网讯科技有限公司 | 提升匹配效率的联邦学习方法及设备、电子设备和介质 |
WO2021115480A1 (zh) * | 2020-06-30 | 2021-06-17 | 平安科技(深圳)有限公司 | 联邦学习方法、装置、设备和存储介质 |
CN113112029A (zh) * | 2021-04-22 | 2021-07-13 | 中国科学院计算技术研究所 | 一种应用于异构计算设备的联邦学习系统和方法 |
CN113240509A (zh) * | 2021-05-18 | 2021-08-10 | 重庆邮电大学 | 一种基于多源数据联邦学习的贷款风险评估方法 |
US20220108177A1 (en) * | 2019-05-16 | 2022-04-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Concepts for federated learning, client classification and training data similarity measurement |
CN114580011A (zh) * | 2022-01-29 | 2022-06-03 | 国网青海省电力公司电力科学研究院 | 基于联邦隐私训练的电力设施安全态势感知方法及系统 |
CN114724729A (zh) * | 2021-12-28 | 2022-07-08 | 万达信息股份有限公司 | 一种基于联邦学习重大传染病联合风险评估方法 |
CN115238806A (zh) * | 2022-07-29 | 2022-10-25 | 平安科技(深圳)有限公司 | 样本类别不平衡的联邦学习方法以及相关设备 |
CN115865705A (zh) * | 2022-11-29 | 2023-03-28 | 广发银行股份有限公司 | 基于监管机构的多方联邦学习系统、方法、设备及介质 |
CN116108934A (zh) * | 2023-04-13 | 2023-05-12 | 中电科大数据研究院有限公司 | 联邦学习系统、联邦学习方法和装置 |
CN116910541A (zh) * | 2023-06-30 | 2023-10-20 | 东华大学 | 一种基于集群训练与梯度稀疏的联邦学习方法和装置 |
-
2023
- 2023-11-07 CN CN202311469508.1A patent/CN117196069B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663202A (zh) * | 2012-04-25 | 2012-09-12 | 清华大学 | 基于联邦模式的动态产品协同开发平台及方法 |
US20220108177A1 (en) * | 2019-05-16 | 2022-04-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Concepts for federated learning, client classification and training data similarity measurement |
WO2021115480A1 (zh) * | 2020-06-30 | 2021-06-17 | 平安科技(深圳)有限公司 | 联邦学习方法、装置、设备和存储介质 |
CN112150280A (zh) * | 2020-10-16 | 2020-12-29 | 北京百度网讯科技有限公司 | 提升匹配效率的联邦学习方法及设备、电子设备和介质 |
CN113112029A (zh) * | 2021-04-22 | 2021-07-13 | 中国科学院计算技术研究所 | 一种应用于异构计算设备的联邦学习系统和方法 |
CN113240509A (zh) * | 2021-05-18 | 2021-08-10 | 重庆邮电大学 | 一种基于多源数据联邦学习的贷款风险评估方法 |
CN114724729A (zh) * | 2021-12-28 | 2022-07-08 | 万达信息股份有限公司 | 一种基于联邦学习重大传染病联合风险评估方法 |
CN114580011A (zh) * | 2022-01-29 | 2022-06-03 | 国网青海省电力公司电力科学研究院 | 基于联邦隐私训练的电力设施安全态势感知方法及系统 |
CN115238806A (zh) * | 2022-07-29 | 2022-10-25 | 平安科技(深圳)有限公司 | 样本类别不平衡的联邦学习方法以及相关设备 |
CN115865705A (zh) * | 2022-11-29 | 2023-03-28 | 广发银行股份有限公司 | 基于监管机构的多方联邦学习系统、方法、设备及介质 |
CN116108934A (zh) * | 2023-04-13 | 2023-05-12 | 中电科大数据研究院有限公司 | 联邦学习系统、联邦学习方法和装置 |
CN116910541A (zh) * | 2023-06-30 | 2023-10-20 | 东华大学 | 一种基于集群训练与梯度稀疏的联邦学习方法和装置 |
Non-Patent Citations (4)
Title |
---|
FENG YU等: "Blockchain-empowered secure federated learning system: Architecture and applications", 《COMPUTER COMMUNICATIONS》, vol. 196, pages 55 - 65 * |
何杨: "物联网中基于联邦学习的数据共享关键技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 2, pages 136 - 1293 * |
朱建明等: "基于区块链的隐私保护可信联邦学习模型", 《计算机学报》, vol. 44, no. 12, pages 2464 - 2484 * |
汤凌韬等: "基于安全多方计算和差分隐私的联邦学习方案", 《计算机科学》, vol. 49, no. 9, pages 297 - 305 * |
Also Published As
Publication number | Publication date |
---|---|
CN117196069B (zh) | 2024-01-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111476548B (zh) | 一种基于区块链的职称评审方法及系统 | |
CN110990871A (zh) | 基于人工智能的机器学习模型训练方法、预测方法及装置 | |
CN112257873A (zh) | 机器学习模型的训练方法、装置、系统、设备及存储介质 | |
CN111860864A (zh) | 纵向联邦建模优化方法、设备及可读存储介质 | |
Wang et al. | Impact and user perception of sandwich attacks in the defi ecosystem | |
US9946984B2 (en) | System and method for transporting a document between a first service provider and a second service provider | |
CN111797999A (zh) | 纵向联邦建模优化方法、装置、设备及可读存储介质 | |
Goswami et al. | E-governance: A tendering framework using blockchain with active participation of citizens | |
CN111815169A (zh) | 业务审批参数配置方法及装置 | |
US20060190319A1 (en) | Realtime, structured, paperless research methodology for focus groups | |
Marella et al. | Document Verification using Blockchain for Trusted CV Information. | |
CN113726890A (zh) | 面向区块链数据服务的联邦预言方法及系统 | |
Mustafa et al. | A governance framework with permissioned blockchain for the transparency in e-tendering process | |
Zhang et al. | A node selection algorithm with a genetic method based on PBFT in consortium blockchains | |
CN113706091B (zh) | 智能远程审核方法、装置、系统、计算机设备和存储介质 | |
CN114547658A (zh) | 数据处理方法、装置、设备及计算机可读存储介质 | |
CN117196069B (zh) | 联邦学习方法 | |
CN109285068A (zh) | 在线贷款查询方法、装置、设备及存储介质 | |
Xu et al. | BIT: A blockchain integrated time banking system for community exchange economy | |
JP2022516160A (ja) | スマートコントラクト基盤の論文審査システム | |
CN110705817A (zh) | 对企业融资数据进行风控评估管理的方法和装置 | |
Obinkyereh | Cloud computing adoption in Ghana: A quantitative study based on technology acceptance model (TAM) | |
TWI720606B (zh) | 資料處理方法、裝置、計算設備及儲存媒體 | |
WO2022016093A9 (en) | Collaborative, multi-user platform for data integration and digital content sharing | |
US10216830B2 (en) | Multicomputer processing of client device request data using centralized event orchestrator and link discovery engine |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |