CN112328617A - 纵向联邦学习的学习模式参数更新方法和电子装置 - Google Patents
纵向联邦学习的学习模式参数更新方法和电子装置 Download PDFInfo
- Publication number
- CN112328617A CN112328617A CN202011301700.6A CN202011301700A CN112328617A CN 112328617 A CN112328617 A CN 112328617A CN 202011301700 A CN202011301700 A CN 202011301700A CN 112328617 A CN112328617 A CN 112328617A
- Authority
- CN
- China
- Prior art keywords
- learning
- initiator
- participants
- task
- participant
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/64—Protecting data integrity, e.g. using checksums, certificates or signatures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- General Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Computer Hardware Design (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及一种纵向联邦学习的学习模式参数更新方法和电子装置,其中,该纵向联邦学习的学习模式参数更新方法包括:发起方在区块链中发布学习任务,区块链中的节点对学习任务完成共识,发起方获取与学习任务对应的参与方,并将参与方的信息上链,区块链中的节点对学习任务的任务信息和参与方的信息完成共识,发起方和参与方确定学习模式,发起方将学习模式上链,在区块链中的节点对学习模式完成共识之后,区块链向发起方和参与方返回训练开始信号。通过本申请,解决了基于区块链实现的学习模式参数更新的方法,对于纵向联邦学习中的复杂场景适应性较低的问题,为纵向联邦学习提供了一种实现方案,提高纵向联邦学习的场景适应性。
Description
技术领域
本申请涉及联邦学习技术领域,特别是涉及纵向联邦学习的学习模式参数更新方法和电子装置。
背景技术
随着人工智能技术的发展,人们为解决数据孤岛的问题,提出了“联邦学习”的概念,联邦学习中的双方在不用给出己方数据的情况下,也可进行模型训练得到模型参数,并且可以避免数据隐私泄露的问题。
其中,纵向联邦学习是在成员方的数据特征重叠较小,而用户重叠较多的情况下,将成员方中用户相同而用户数据特征不同的部分用户以及用户数据取出,进行机器学习模型框架的联合训练。例如,有属于同一个地区的两个成员方A和B,其中成员方A是一家银行,成员方B是一个电商平台。成员方A和B在同一地区拥有较多相同的用户,但是A与B的业务不同,记录的用户数据特征是不同的,特别地,A和B记录的用户数据特征可能是互补的。在这样的场景下,可以使用纵向联邦学习来帮助A和B构建联合机器学习预测模型,帮助A和B向他们的客户提供更好的服务。
在相关技术中,可以基于区块链平台实现联邦学习,以区块链作为公信协调第三方,为联邦学习中的多个成员方实现数据交换、处理与传递,但是相关技术中的联邦学习框架仍限制于横向联邦学习,仅能用于数据特征重叠较多、用户重叠较少的场景,不能对于纵向联邦学习中场景较为复杂的情况进行处理。
目前针对相关技术中基于区块链实现的学习模式参数更新的方法仅适用于横向联邦学习,对于纵向联邦学习中的复杂场景适应性较低的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种纵向联邦学习的学习模式参数更新方法、电子装置和存储介质,以至少解决相关技术中基于区块链实现的联邦学习方案对于纵向联邦学习中的复杂场景适应性较低的问题。
第一方面,本申请实施例提供了一种纵向联邦学习的学习模式参数更新方法,包括:
发起方在区块链中发布学习任务,所述区块链中的节点对所述学习任务完成共识;
所述发起方获取与所述学习任务对应的参与方,并将所述参与方的信息上链,所述区块链中的节点对所述参与方的信息完成共识;
所述发起方和所述参与方确定学习模式,并由所述发起方将所述学习模式上链;
在所述区块链中的节点对所述学习模式完成共识之后,所述区块链向所述发起方和所述参与方返回训练开始信号。
在其中一些实施例中,在所述发起方具有与所述学习任务对应的总模型,且仅需要所述参与方的数据特征的情况下,所述学习模式包括:
所述发起方将所述学习任务拆分得到多个并行的分布式学习任务,并根据所述参与方的数据特征将所述分布式学习任务分配至不同的所述参与方执行。
在其中一些实施例中,在所述发起方具有与所述学习任务对应的总模型,且需要所述参与方的子模型和数据的情况下,所述学习模式包括:
每个成员方的本地训练结果作为隐藏信息,其中,所述成员方包括所述发起方和所述参与方;
每个所述成员方将所有的所述隐藏信息再次进行机器学习训练,得到所述总模型的参数。
在其中一些实施例中,在所述发起方具有与所述学习任务对应的总模型,且需要所述参与方的数据特征和子模型的情况下,所述学习模式包括:
所述发起方将所述学习任务拆分得到多个并行的分布式学习任务,并根据所述参与方的数据特征将所述分布式学习任务分配至不同的所述参与方执行,得到初始学习模型;
所述发起方将所述初始学习模型作为所述发起方的子模型,并根据所述子模型获取本地训练结果;
每个成员方的本地训练结果作为隐藏信息,每个所述成员方将所有的所述隐藏信息再次进行机器学习训练,得到所述总模型的参数,其中,所述成员方包括所述发起方和所述参与方。
在其中一些实施例中,在所述发起方不具有与所述学习任务对应的总模型的情况下,所述学习模式还包括:
每个成员方在对应成员方本地将训练结果输入基准模型进行融合,获取融合度,其中,所述成员方包括所述发起方和所述参与方;
在所述融合度大于或者等于融合阈值的情况下,每个所述成员方将所有所述成员方的训练结果输入上级训练模型进行训练。
在其中一些实施例中,所述发起方获取与所述学习任务对应的参与方包括以下至少之一:
所述发起方根据所述任务信息中的任务需求,获取所述参与方;
所述发起方获取申请信息,将所述申请信息对应的申请方作为所述参与方。
在其中一些实施例中,所述发起方获取申请信息,将所述申请信息对应的申请方作为所述参与方之后包括:
所述发起方对所述参与方的数据和数据特征进行清洗和审核,剔除所述数据和/或数据特征与所述任务需求不一致的参与方。
在其中一些实施例中,所述发起方获取申请信息,将所述申请信息对应的申请方作为所述参与方之后还包括:
所述发起方和所述参与方对各自的数据进行加密,所述发起方剔除加密后所述数据与所述任务需求不一致的参与方。
第二方面,本申请实施例提供了一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的纵向联邦学习的学习模式参数更新方法。
第三方面,本申请实施例提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的纵向联邦学习的学习模式参数更新方法。
相比于相关技术,本申请实施例提供的纵向联邦学习的学习模式参数更新方法,通过发起方在区块链中发布学习任务,区块链中的节点对学习任务完成共识,发起方获取与学习任务对应的参与方,并将参与方的信息上链,区块链中的节点对学习任务的任务信息和参与方的信息完成共识,发起方和参与方确定学习模式,发起方将学习模式上链,在区块链中的节点对学习模式完成共识之后,区块链向发起方和参与方返回训练开始信号,解决了基于区块链实现的学习模式参数更新的方法仅适用于横向联邦学习,对于纵向联邦学习中的复杂场景适应性较低的问题,为纵向联邦学习提供了一种实现方案,提高纵向联邦学习的场景适应性。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的纵向联邦学习的学习模式参数更新方法的应用环境示意图;
图2是根据本申请实施例的纵向联邦学习的学习模式参数更新方法的流程图;
图3是根据本申请实施例的分布式学习模式的示意图;
图4是根据本申请实施例的集成学习的示意图;
图5是根据本申请实施例的学习模式确定的方法的流程图;
图6是根据本申请优选实施例的学习模式确定方法的流程图;
图7为本申请实施例的纵向联邦学习的学习模式参数更新方法的终端的硬件结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指大于或者等于两个。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
本申请提供的纵向联邦学习的学习模式参数更新方法,可以应用于如图1所示的应用环境中,图1是根据本申请实施例的纵向联邦学习的学习模式参数更新方法的应用环境示意图,如图1所示。数据可以分为用户维度和特征维度,例如,在数据分别来自于银行和一个电商平台的情况下,银行和电商平台的用户可能会有较大程度的重叠,但是银行获取到的用户数据特征和电商平台获取到的用户数据特征会有不同,例如,银行可以获取到用户的月收入、家庭成员、年纪等数据特征,电商平台可以获取到用户的商品消费情况等数据特征,在银行需要对用户数据进行分析时,可以作为发起方在区块链中发布纵向联邦学习的学习任务,电商平台可以作为参与方加入学习任务,银行和电商平台共同确定学习任务的学习模式,以进行学习任务的模型训练。
本实施例提供了一种纵向联邦学习的学习模式参数更新方法。图2是根据本申请实施例的纵向联邦学习的学习模式参数更新方法的流程图,如图2所示,该方法包括如下步骤:
步骤S210,发起方在区块链中发布学习任务,区块链中的节点对学习任务完成共识。
本申请中发起方为纵向联邦学习的发起者,任何有联邦学习需求的机构或者平台都可以作为发起方来发起一个纵向联邦学习任务,参与方为接受发起方邀请或者主动进入纵向联邦学习的参与者,本实施例中,发起方和参与方需要通过区块链进行交互,因此发起方需要将学习任务发布至区块链中。
学习任务与发起方的实际需求有关,该实际需求可以划分为两种情况共计7个场景,第一种情况为发起方拥有一个明确的业务场景,且发起方有与业务场景相关的数据,包括4个场景,分别为:场景1、发起方拥有自己数据的子模型和与学习任务对应的总模型,需要其他参与方提供模总型中对应的数据特征;场景2、发起方拥有自己数据的子模型和与学习任务对应的总模型,需要其他参与方提供与总模型对应的子模型与数据;场景3、发起方拥有自己数据的子模型和与学习任务对应的总模型,需要其他参与方提供与总模型中对应的数据特征、子模型和数据;场景4、发起方拥有自己数据的子模型,但是没有总模型,对其他参与方没有明确的数据特征和子模型的需求。第二种情况为发起方拥有一个明确的业务场景,但是没有相应的数据,包括3个场景,分别为:场景5、发起方拥有总模型,且对所有参与方有明确的数据特征的需求;场景6、发起方拥有总模型,且对所有参与方有明确的子模型和数据的需求;场景7、发起方没有总模型,且对所有参与方没有明确的数据特征和子模型需求。需要说明的是,本申请中的数据特征为数据的类型,例如身高、体重和血型等等,数据为具体的数值,例如,身高的数据为160cm,体重的数据为50kg,血型的数据为A型,子模型为发起方在本地的模型和参与方在本地的模型,总模型为与学习任务对应的学习模型框架,在得到总模型的过程中,需要将不同成员方的数据、数据特征和子模型中的至少一个进行融合。
发起方根据上述共7个场景确定学习任务,该学习任务包括任务类型和任务需求,任务类型用于定义发起方是否拥有数据、子模型和/或总模型,任务需求用于定义参与方的数量,发起方对参与方是否有明确的数据、子模型和/或数据特征的需求,然后发起方将学习任务发布至区块链,区块链中的节点为区块链中的不同机构或者平台,需要大部分的节点认同该学习任务,才能在区块链中完成对该学习任务的共识,进而完成学习任务的发布过程。
步骤S220,发起方获取与学习任务对应的参与方,并将参与方的信息上链,区块链中的节点对参与方的信息完成共识。
本实施例中的参与方可以为任何一个与发起方有共同用户的机构或者平台,该用户可以来自于区块链中的节点,也可以为区块链之外的机构或者平台,发起方可以主动寻找机构或者平台作为参与方,机构或者平台也可以申请称为纵向联邦学习的参与方。其中,参与方的数量由发起方根据场景实际需求确定。
在获取到参与方之后,需要将参与方的信息进行上链,其中,参与方的信息包括参与方的身份信息,例如,参与方的机构名称和营业执照信息等,还包括参与方提供的数据特征。在将参与方的信息上链之后,同样需要在区块链中的节点对参与方的信息完成共识的条件下,发起方和参与方才能进行学习模式的确定。
步骤S230,发起方和参与方确定学习模式,并由发起方将学习模式上链。
其中,任务信息包括学习任务的任务类型和任务需求,任务类型和任务需求均与参与方具体的场景对应。本实施例中,发起方的总模型为一个简单的机器学习模型的架构,学习模式需要确定的是总模型的上层训练模型的实现方式,例如,上层训练模型的训练任务是否需要拆分,输入如何确定,不同参与方的子模型如何进行融合等等。在发起方和参与方共同确定学习模式之后,需要将确定好的学习模式上链进行共识。
步骤S240,在区块链中的节点对学习模式完成共识之后,区块链向发起方和参与方返回训练开始信号。
在区块链中的节点对学习模式完成共识之后,发起方和参与方可以根据确定好的学习模式对总模型进行训练。
通过上述步骤S210至步骤S240,发起方在将学习任务发布至区块链之后,与参与方进行交互,共同确定学习模式,并于区块链中进行共识,完成学习任务的建立,实现成员方在用户重叠较多的情况下,进行联邦学习,基于区块链对数据进行加密,提高了数据的隐私性,同时解决了数据孤岛的问题,进一步地,针对相关技术中基于区块链实现的学习模式参数更新的方法,对于纵向联邦学习中的复杂场景适应性较低的问题,本实施例还为纵向联邦学习提供了一种实现方案,提高纵向联邦学习的场景适应性。
在发起方具有总模型的情况下,由发起者确定学习模式,具体如下:
在其中一些实施例中,发起方具有与学习任务对应的总模型,且仅需要参与方的数据特征,此时学习模式可以为分布式学习模式,其中,分布式学习模式为在总的学习任务中,发起方和参与方各自完成部分任务的方法,具体为:发起方将学习任务拆分得到多个并行的分布式学习任务,并根据参与方的数据特征将分布式学习任务分配至不同的参与方执行。本实施例中,发起者需要的参与方的数据特征为发起方不具有的、额外的数据特征,例如,银行作为发起方时仅能获取到用户的收入,在参与方中包括医院的情况下,银行可以通过医院获取同一用户的身高或者血型来完成模型训练。在发起方仅需要额外数据特征的情况下,可以将学习任务视作一个分布式学习任务,将中心化的学习任务随机拆分成多个并行的分布式学习任务,交于不同的参与方去执行。图3是根据本申请实施例的分布式学习模式的示意图,如图3所示,将发起方和参与方均看做纵向联邦学习中的成员方,A、B和C均为成员方,输入层为各个成员方在本地完成的分布式学习任务,将分布式学习任务的结果输入总模型中进行训练,在输出层中得到最后的训练结果,yG即为输出结果。需要说明的是,分布式学习任务中的数据属于哪一个参与方,该分布式学习任务就交于该参与方来执行。每个参与方接受部分的学习任务并进行训练,所有参与方的训练结果共同组成完整的上层训练模型,完成对总模型的训练,提高总模型训练的速度。本实施例中的学习模式确定的方式适用于场景1和场景5。
在其中一些实施例中,在发起方具有与学习任务对应的总模型,且需要参与方的子模型和数据的情况下,学习模式为集成学习模式,其中,集成学习模式是根据多个机器学习的结果组成一个预测模型的方法,本实施例中具体为:将发起方和参与方均看做纵向联邦学习中的成员方,每个成员方的本地训练结果作为隐藏信息,每个成员方将所有的隐藏信息再次进行机器学习训练,得到总模型的参数。本实施例中发起者确定以集成学习的学习模式进行总模型的训练,图4是根据本申请实施例的集成学习的示意图,如图4所示,如果发起者需要参与方的子模型和数据,则需要对各个子模型和数据进行融合,在集成学习的模式下,每个成员方都具有自己的子模型,A、B和C均为成员方,每个成员方先在本地各自进行子模型的训练,子模型的输入层为各个成员方的本地数据,本地数据在经过子模型的隐藏层处理之后,各个成员方的子模型均会输出隐藏信息,每个成员方将所有成员方的隐藏信息作为总模型隐藏层的输入,在本地对总模型进行训练,在最终输出层中得到最终的训练结果,具体地,对总模型的训练可以通过分类器或者神经网络模型实现。本实施例中,由于发起方拥有总模型,因此各个参与方所需输出的隐藏信息和上层神经网络都是预先确定的,不会造成数据异构无法执行模型的问题。本实施例中的学习模式确定的方式适用于场景2和场景6。
在其中一些实施例中,发起方具有与学习任务对应的总模型,且需要参与方的数据特征和子模型,则发起方通过同时使用分布式学习和集成学习的混合模式对总模型进行训练,例如,发起方将各个参与方的子模型和自己的子模型通过分布式学习进行融合,得到初始学习模型,然后发起方再将初始学习模型与各个参与方的子模型通过集成学习的方式进行融合。图5是根据本申请实施例的学习模式确定的方法的流程图,如图5所示,该方法包括如下步骤:
步骤S510,发起方将学习任务拆分得到多个并行的分布式学习任务,并根据参与方的数据特征将分布式学习任务分配至不同的参与方执行,得到初始学习模型。
步骤S520,发起方将初始学习模型作为发起方的子模型,并根据子模型获取本地训练结果。
步骤S530,每个成员方的本地训练结果作为隐藏信息,每个成员方将所有的隐藏信息再次进行机器学习训练,得到总模型的参数,其中,成员方包括发起方和参与方。
通过上述步骤S510至步骤S530,在发起方同时需要额外的数据特征和子模型的情况下,通过使用分布式学习和集成学习得到的最终总模型中,融合了各个参与方的子模型和数据特征,可以提高总模型的训练准确度。本实施例中的学习模式确定的方式适用于场景3。
在发起方不具有总模型的情况下,学习模式的确定过程具体如下。
在其中一些实施例中,在发起方不具有与学习任务对应的总模型的情况下,学习模式为固定基准模式,在固定基准模式下,发起方和参与方均作为纵向联邦学习的成员方,每个成员方在对应成员方本地将训练结果输入基准模型进行融合,获取融合度,其中,训练结果为所有成员方的训练结果,在融合度大于或者等于融合阈值的情况下,每个成员方将所有成员方的训练结果输入上级训练模型进行训练,融合度阈值用于表征各个成员方的数据特征或者子模型的一致程度,一致程度越高,最后得到的总模型的训练效果越好,该融合度阈值可以由发起方根据经验设置,上级训练模型可以根据发起方的需求进行选择,例如多层感知机(Multilayer Perceptron,简称为MLP)或者线性回归(Linear Regression,简称为LR)。本实施例中的固定基准模式不需要发起方和参与方之间进行商讨,在所有成员方提供的都是数据特征的情况下,可以将所有成员方的数据特征输入MLP中进行预测,得到最终的结果;在所有成员方提供的都是子模型的情况下,各个成员方在预测出本地训练结果后,可以将预测结果输入上级模型,例如LR进行训练得到最终结果,可选地,各个成员方还可以将预测结果统筹作为新的MLP的输入进行学习,得到最终的预测结果。
本实施例中,在各个成员方的数据特征或者子模型的融合度较高的情况下,可以将各个成员方的本地训练结果输入预先确定的上层训练模型进行训练,从而得到最终的预测结果,提供了一种在发起者没有总模型的情况下,纵向联邦学习的学习模式参数更新的方法,本实施例中的方法适用于场景4和场景7。
在其中一些实施例中,在发起方不具有总模型的情况下,学习模式为协商模式。具体为,在发起方在确认了所有的参与方之后,由于发起方自己没有总模型,故发起方会和参与方可以进行商讨,直至共识一个公认可用的总模型。在得到总模型之后,学习模式也会转化为分布式学习模式和/或集成学习模式。
上述实施例为不同情况下学习模式确定的方法。
在其中一些实施例中,发起方获取与学习任务对应的参与方包括:发起方根据任务信息中的任务需求,主动寻找并获取参与方,或者,其他机构或者平台在获取到学习任务的任务信息之后,主动向发起方提出申请,成为学习任务的参与方,发起方在接收到申请之后,可以获取申请信息,将申请信息对应的申请方作为参与方,其中,参与方不限于区块链中的节点。本实施例中给出了多种获取参与方的方法,扩大了参与方的选取范围,可以为总模型的训练提供更多数据,最后提高总模型的准确度。
进一步地,发起方主动获取的参与方和申请方不是学习任务的最终参与方,而是被视作预备参与方,发起方需要对这些预备参与方进行审核。
在其中一些实施例中,发起方对参与方的审核方式可以为,发起方对参与方的数据和数据特征进行清洗和审核,剔除数据和/或数据特征与任务需求不一致的参与方。例如,在发起方需要身高大于160cm的数据的情况下,参与方提供的数据特征为体重,则该数据特征不符合任务需求,参与方会被剔除,或者参与方提供的身高为小于160cm的数据,则该参与方也会被剔除,可选地,发起方还可以对参与方的数据量进行审核,在参与方的数据量较小的情况下,参与方也不符合要求。
审核方式还可以为,发起方和参与方对各自的数据进行加密,即发起方只对属于自己的数据进行加密,参与方也只对属于自己的数据进行加密,然后发起方剔除加密后数据与任务需求不一致的参与方。本实施例中的数据多种多样,在发起方为金融企业的情况下,数据可以包括用户的存款、流水、个人信息等,在参与方为医院的情况下,数据可以为用户的血型、身高等等。本实施例中,发起方和所有的参与方执行加密文本对齐,来确定一个共用的数据的交集,例如,发起方和参与方拥有共同的用户群体,也各自拥有只属于自己的用户,在用户的数据被加密之后,对加密后的数据进行判断,如果共同的用户过少,则认为参与方的数据不符合任务需求,将该参与方剔除。
发起方对参与方进行审核,可以筛选出符合要求的参与方作为最终的参与方,由更加符合要求的参与方一起进行模型训练,可以提高总模型精度。
通过筛选,发起方选出最终的参与方,将参与方信息记录上链,然后发起方和参与方共同确定最终的学习模式,由发起方将学习模式记录上链。
下面通过优选实施例对本申请实施例进行描述和说明。例如,在一个预测股票价格场景中,机构A拥有一组数据特征,并使用门控循环单元(Gated Recurrent Unit,简称为GRU)模型来进行股票价格预测。但是此时A对自身子模型和数据的训练效果不满意,从而于区块链平台上发起一个纵向联邦学习任务,图6是根据本申请优选实施例的学习模式确定方法的流程图,如图6所示,该方法包括如下步骤:
步骤S610,由A方作为发起方,确定一个股票价值预估的纵向联邦学习任务,并定义任务类型和任务需求,包含参与方个数为N,需求的场景为股票价格预测场景,特征数据与对应的股票相关,并将学习任务记录上链。
步骤S620,区块链中的节点对学习任务完成共识,确认学习任务的任务信息上链。
步骤S630,任务信息上链后,任务完成发布。A方根据自己的需求去寻找预备参与方加入自己的纵向联邦学习任务,同时与A方具有合作关系的机构也可以根据具体的任务的需求来主动申请作为预备参与方加入学习任务。且不同的机构拥有不同的数据特征。
步骤S640,A方接收到预备参与方的信息后,对预备参与方进行审核筛选,审核的方式可以为,A方对合作机构的数据、数据特征进行清洗,还可以为A方和所有预备参与方执行加密文本对齐,以此确定一个通用的数据交集。
步骤S650,A方对预备参与方完成筛选,确定最后学习任务的参与方,并将参与方的信息一并记录上链。
步骤S660,区块链中的节点对参与方的信息完成共识,确认所有参与方信息与任务信息共同上链。
步骤S670,根据学习任务的任务类型,A方和参与方进行商讨确定最终的学习模式,即上层训练模型,例如GRU模型,并由发起方记录上链。
步骤S680,区块链中的节点对学习模式完成共识,确认学习模式信息上链。
步骤S690,共识完成后,区块链返还给A方和所有参与方训练开始的信号。
通过上述步骤S610至步骤S690,本实施例提供了一种纵向联邦学习的学习模式参数更新的方法,基于区块链对数据进行了隐私加密,发起方与参与方彼此之间都保护了原始数据和部分易泄露信息的中间数据,同时解决了数据不流通的问题,很好的应对了数据孤岛的情况,进一步地,还解决了对于纵向联邦学习中的复杂场景适应性较低的问题。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请提供的方法实施例可以在终端、计算机或者类似的运算装置中执行。以运行在终端上为例,图7为本申请实施例的纵向联邦学习的学习模式参数更新方法的终端的硬件结构框图。如图7所示,终端70可以包括一个或多个(图7中仅示出一个)处理器702(处理器702可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器704,可选地,上述终端还可以包括用于通信功能的传输设备706以及输入输出设备708。本领域普通技术人员可以理解,图7所示的结构仅为示意,其并不对上述终端的结构造成限定。例如,终端70还可包括比图7中所示更多或者更少的组件,或者具有与图7所示不同的配置。
存储器704可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本申请实施例中的新出现实体的检测方法对应的计算机程序,处理器702通过运行存储在存储器704内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器704可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器704可进一步包括相对于处理器702远程设置的存储器,这些远程存储器可以通过网络连接至终端70。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备706用于经由一个网络接收或者发送数据。上述的网络具体实例可包括终端70的通信供应商提供的无线网络。在一个实例中,传输设备706包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备706可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
本实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,发起方在区块链中发布学习任务,区块链中的节点对学习任务完成共识;
S2,发起方获取与学习任务对应的参与方,并将参与方的信息上链,区块链中的节点对参与方的信息完成共识;
S3,发起方和参与方根据学习任务的任务信息确定学习模式,并将学习模式上链;
S4,在区块链中的节点对学习模式完成共识之后,区块链向发起方和参与方返回训练开始信号。
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
另外,结合上述实施例中的纵向联邦学习的学习模式参数更新方法,本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种纵向联邦学习的学习模式参数更新方法。
本领域的技术人员应该明白,以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种纵向联邦学习的学习模式参数更新方法,其特征在于,包括:
发起方在区块链中发布学习任务,所述区块链中的节点对所述学习任务完成共识;
所述发起方获取与所述学习任务对应的参与方,并将所述参与方的信息上链,所述区块链中的节点对所述参与方的信息完成共识;
所述发起方和所述参与方确定学习模式,并由所述发起方将所述学习模式上链;
在所述区块链中的节点对所述学习模式完成共识之后,所述区块链向所述发起方和所述参与方返回训练开始信号。
2.根据权利要求1所述的纵向联邦学习的学习模式参数更新方法,其特征在于,在所述发起方具有与所述学习任务对应的总模型,且仅需要所述参与方的数据特征的情况下,所述学习模式包括:
所述发起方将所述学习任务拆分得到多个并行的分布式学习任务,并根据所述参与方的数据特征将所述分布式学习任务分配至不同的所述参与方执行。
3.根据权利要求1所述的纵向联邦学习的学习模式参数更新方法,其特征在于,在所述发起方具有与所述学习任务对应的总模型,且需要所述参与方的子模型和数据的情况下,所述学习模式包括:
每个成员方的本地训练结果作为隐藏信息,其中,所述成员方包括所述发起方和所述参与方;
每个所述成员方将所有的所述隐藏信息再次进行机器学习训练,得到所述总模型的参数。
4.根据权利要求1所述的纵向联邦学习的学习模式参数更新方法,其特征在于,在所述发起方具有与所述学习任务对应的总模型,且需要所述参与方的数据特征和子模型的情况下,所述学习模式包括:
所述发起方将所述学习任务拆分得到多个并行的分布式学习任务,并根据所述参与方的数据特征将所述分布式学习任务分配至不同的所述参与方执行,得到初始学习模型;
所述发起方将所述初始学习模型作为所述发起方的子模型,并根据所述子模型获取本地训练结果;
每个成员方的本地训练结果作为隐藏信息,每个所述成员方将所有的所述隐藏信息再次进行机器学习训练,得到所述总模型的参数,其中,所述成员方包括所述发起方和所述参与方。
5.根据权利要求1所述的纵向联邦学习的学习模式参数更新方法,其特征在于,在所述发起方不具有与所述学习任务对应的总模型的情况下,所述学习模式还包括:
每个成员方在对应成员方本地将训练结果输入基准模型进行融合,获取融合度,其中,所述成员方包括所述发起方和所述参与方;
在所述融合度大于或者等于融合阈值的情况下,每个所述成员方将所有所述成员方的训练结果输入上级训练模型进行训练。
6.根据权利要求1所述的纵向联邦学习的学习模式参数更新方法,其特征在于,所述发起方获取与所述学习任务对应的参与方包括以下至少之一:
所述发起方根据所述任务信息中的任务需求,获取所述参与方;
所述发起方获取申请信息,将所述申请信息对应的申请方作为所述参与方。
7.根据权利要求6所述的纵向联邦学习的学习模式参数更新方法,其特征在于,所述发起方获取申请信息,将所述申请信息对应的申请方作为所述参与方之后包括:
所述发起方对所述参与方的数据和数据特征进行清洗和审核,剔除所述数据和/或数据特征与所述任务需求不一致的参与方。
8.根据权利要求6所述的纵向联邦学习的学习模式参数更新方法,其特征在于,所述发起方获取申请信息,将所述申请信息对应的申请方作为所述参与方之后还包括:
所述发起方和所述参与方对各自的数据进行加密,所述发起方剔除加密后所述数据与所述任务需求不一致的参与方。
9.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至8中任一项所述的纵向联邦学习的学习模式参数更新方法。
10.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1至8中任一项所述的纵向联邦学习的学习模式参数更新方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011301700.6A CN112328617A (zh) | 2020-11-19 | 2020-11-19 | 纵向联邦学习的学习模式参数更新方法和电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011301700.6A CN112328617A (zh) | 2020-11-19 | 2020-11-19 | 纵向联邦学习的学习模式参数更新方法和电子装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112328617A true CN112328617A (zh) | 2021-02-05 |
Family
ID=74321480
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011301700.6A Pending CN112328617A (zh) | 2020-11-19 | 2020-11-19 | 纵向联邦学习的学习模式参数更新方法和电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112328617A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113032817A (zh) * | 2021-05-21 | 2021-06-25 | 北京百度网讯科技有限公司 | 基于区块链的数据对齐方法、装置、设备和介质 |
CN113033652A (zh) * | 2021-03-23 | 2021-06-25 | 电子科技大学 | 一种基于区块链与联邦学习的图像识别系统及方法 |
CN113094761A (zh) * | 2021-04-25 | 2021-07-09 | 中山大学 | 一种联邦学习数据防篡改监测方法及相关装置 |
CN113709014A (zh) * | 2021-08-10 | 2021-11-26 | 深圳致星科技有限公司 | 联邦学习审计的数据收集方法、介质、装置及程序产品 |
CN113704776A (zh) * | 2021-07-15 | 2021-11-26 | 杭州医康慧联科技股份有限公司 | 基于联邦学习的机器学习方法 |
CN113704810A (zh) * | 2021-04-01 | 2021-11-26 | 华中科技大学 | 一种面向联邦学习的跨链共识方法及系统 |
CN114004363A (zh) * | 2021-10-27 | 2022-02-01 | 支付宝(杭州)信息技术有限公司 | 联合更新模型的方法、装置及系统 |
CN114328432A (zh) * | 2021-12-02 | 2022-04-12 | 京信数据科技有限公司 | 一种大数据联邦学习处理方法及系统 |
CN114996317A (zh) * | 2022-07-05 | 2022-09-02 | 中国电信股份有限公司 | 基于纵向联邦学习的异步优化方法、装置及存储介质 |
CN114004363B (zh) * | 2021-10-27 | 2024-05-31 | 支付宝(杭州)信息技术有限公司 | 联合更新模型的方法、装置及系统 |
-
2020
- 2020-11-19 CN CN202011301700.6A patent/CN112328617A/zh active Pending
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113033652B (zh) * | 2021-03-23 | 2023-03-24 | 电子科技大学 | 一种基于区块链与联邦学习的图像识别系统及方法 |
CN113033652A (zh) * | 2021-03-23 | 2021-06-25 | 电子科技大学 | 一种基于区块链与联邦学习的图像识别系统及方法 |
CN113704810A (zh) * | 2021-04-01 | 2021-11-26 | 华中科技大学 | 一种面向联邦学习的跨链共识方法及系统 |
CN113704810B (zh) * | 2021-04-01 | 2024-04-26 | 华中科技大学 | 一种面向联邦学习的跨链共识方法及系统 |
CN113094761A (zh) * | 2021-04-25 | 2021-07-09 | 中山大学 | 一种联邦学习数据防篡改监测方法及相关装置 |
CN113032817A (zh) * | 2021-05-21 | 2021-06-25 | 北京百度网讯科技有限公司 | 基于区块链的数据对齐方法、装置、设备和介质 |
CN113704776A (zh) * | 2021-07-15 | 2021-11-26 | 杭州医康慧联科技股份有限公司 | 基于联邦学习的机器学习方法 |
CN113709014A (zh) * | 2021-08-10 | 2021-11-26 | 深圳致星科技有限公司 | 联邦学习审计的数据收集方法、介质、装置及程序产品 |
CN114004363A (zh) * | 2021-10-27 | 2022-02-01 | 支付宝(杭州)信息技术有限公司 | 联合更新模型的方法、装置及系统 |
CN114004363B (zh) * | 2021-10-27 | 2024-05-31 | 支付宝(杭州)信息技术有限公司 | 联合更新模型的方法、装置及系统 |
CN114328432A (zh) * | 2021-12-02 | 2022-04-12 | 京信数据科技有限公司 | 一种大数据联邦学习处理方法及系统 |
CN114996317A (zh) * | 2022-07-05 | 2022-09-02 | 中国电信股份有限公司 | 基于纵向联邦学习的异步优化方法、装置及存储介质 |
CN114996317B (zh) * | 2022-07-05 | 2024-02-23 | 中国电信股份有限公司 | 基于纵向联邦学习的异步优化方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112328617A (zh) | 纵向联邦学习的学习模式参数更新方法和电子装置 | |
CN109165725B (zh) | 基于迁移学习的神经网络联邦建模方法、设备及存储介质 | |
Qiu et al. | Blockchain-based secure spectrum trading for unmanned-aerial-vehicle-assisted cellular networks: An operator’s perspective | |
Chatzopoulos et al. | Flopcoin: A cryptocurrency for computation offloading | |
CN110263936B (zh) | 横向联邦学习方法、装置、设备及计算机存储介质 | |
CN110633806B (zh) | 纵向联邦学习系统优化方法、装置、设备及可读存储介质 | |
CN109325584B (zh) | 基于神经网络的联邦建模方法、设备及可读存储介质 | |
CN111860864A (zh) | 纵向联邦建模优化方法、设备及可读存储介质 | |
Asheralieva et al. | Reputation-based coalition formation for secure self-organized and scalable sharding in iot blockchains with mobile-edge computing | |
CN110417558A (zh) | 签名的验证方法和装置、存储介质及电子装置 | |
US20170024748A1 (en) | Guided discussion platform for multiple parties | |
CN116745780A (zh) | 用于去中心化联邦学习的方法和系统 | |
CN111797999A (zh) | 纵向联邦建模优化方法、装置、设备及可读存储介质 | |
CN111369260A (zh) | 保护隐私的风险预测方法及装置 | |
CN109286678A (zh) | 完全去中心化和闭环的区块链群生态系统及可读存储介质 | |
CN112686370A (zh) | 网络结构搜索方法、装置、设备、存储介质及程序产品 | |
CN115499379B (zh) | 一种基于区块链的信息交互方法、装置、设备及介质 | |
Lin et al. | A Blockchain-enabled decentralized settlement model for IoT data exchange services | |
Antoniou | Game theory, the internet of things and 5G networks | |
Wang et al. | Reputation-enabled federated learning model aggregation in mobile platforms | |
CN114168295A (zh) | 混合架构系统及基于历史任务效果的任务调度方法 | |
CN110610098A (zh) | 数据集生成方法及装置 | |
Karunarathna et al. | The role of network slicing and edge computing in the metaverse realization | |
CN112328698A (zh) | 纵向联邦学习激励的训练方法、电子装置和存储介质 | |
CN113420323B (zh) | 数据共享方法及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |