CN113052333A - 基于联邦学习进行数据分析的方法及系统 - Google Patents
基于联邦学习进行数据分析的方法及系统 Download PDFInfo
- Publication number
- CN113052333A CN113052333A CN202110359726.4A CN202110359726A CN113052333A CN 113052333 A CN113052333 A CN 113052333A CN 202110359726 A CN202110359726 A CN 202110359726A CN 113052333 A CN113052333 A CN 113052333A
- Authority
- CN
- China
- Prior art keywords
- model
- data
- local
- local task
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000007405 data analysis Methods 0.000 title claims abstract description 17
- 238000012549 training Methods 0.000 claims abstract description 40
- 238000004458 analytical method Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 238000003860 storage Methods 0.000 claims description 7
- 238000004220 aggregation Methods 0.000 claims description 6
- 230000002776 aggregation Effects 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 4
- 238000003062 neural network model Methods 0.000 claims description 3
- 230000036541 health Effects 0.000 description 18
- 230000006870 function Effects 0.000 description 12
- 230000008569 process Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000010801 machine learning Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 208000015181 infectious disease Diseases 0.000 description 6
- 208000035473 Communicable disease Diseases 0.000 description 5
- 230000008901 benefit Effects 0.000 description 5
- 201000010099 disease Diseases 0.000 description 5
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000007418 data mining Methods 0.000 description 4
- 238000003745 diagnosis Methods 0.000 description 4
- 239000008280 blood Substances 0.000 description 3
- 210000004369 blood Anatomy 0.000 description 3
- 230000036772 blood pressure Effects 0.000 description 3
- 230000036760 body temperature Effects 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 3
- 210000002458 fetal heart Anatomy 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 208000028399 Critical Illness Diseases 0.000 description 1
- 206010061819 Disease recurrence Diseases 0.000 description 1
- 208000012661 Dyskinesia Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 208000013403 hyperactivity Diseases 0.000 description 1
- 230000002458 infectious effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于联邦学习进行数据分析的方法和系统,该方法采用了基于联邦学习建立的本地任务模型,其中,本地任务模型通过以下方法建立:基于训练样本数据构建面向指定特征的数据子图;利用数据子图训练本地任务模型;提取本地任务模型的模型参数上传至服务器以更新服务器模型参数,并利用更新后的服务器模型优化本地任务模型;重复上述步直至服务器模型收敛,基于收敛后的服务器模型优化本地任务模型。通过本发明的方法,能够在保护用户隐私的前提下,挖掘不同用户数据之间特异性特征与深度关联,利用图数据结构信息优化本地模型,实现对本地数据的精确分析和判断。
Description
技术领域
本发明涉及计算机数据挖掘领域,尤其涉及基于联邦学习进行数据分析的方法及系统。
背景技术
在人工智能时代,机器学习依赖于大量的优质数据。然而受行业规范、数据安全标准和用户隐私担忧的约束,不同企业之间缺乏有效的信息互通与协作,彼此数据封闭孤立,以“信息孤岛”的形式存在。甚至即使是在同一个企业的不同部门之间,实现数据集中整合也面临着重重阻力。以医疗保健体系为例,各医疗机构拥有的用户数据相互隔离,单一医疗机构获得的用户数据量有限,难以训练得到优质的机器学习模型,因此无法采用传统集中式方法训练机器学习模型,导致大量数据无法被充分利用和准确分析。
联邦学习可以使得各参与方的自有数据不出本地,即在不违反数据隐私法规情况下,最大化发掘数据的价值,实现安全多方联合建模、多方共同获益。然而,现有的联邦学习在学习过程中数据隐私保护级别不高,建立的本地任务模型的性能非常有限。
因此,亟需一种更加安全、准确的进行数据分析的方法和系统。
发明内容
因此,本发明实施例的目的在于克服上述现有技术的缺陷,提供一种基于联邦学习训练服务器模型的方法,包括:获取多个本地任务模型的模型参数;通过同态加密和差分扰动的方法将所述多个本地任务模型的模型参数进行安全聚合;以及利用聚合后的模型参数更新当前的服务器模型。
本发明另一方面提供一种基于联邦学习建立本地任务模型的方法,包括:基于训练样本数据构建面向指定特征的数据子图;利用所述数据子图训练本地任务模型;提取所述本地任务模型的模型参数上传至服务器以更新服务器模型参数,并利用根据上述方法获得的更新后的服务器模型优化所述本地任务模型;重复上述步骤直至所述服务器模型收敛,基于收敛后的所述服务器模型优化所述本地任务模型。
在一个实施例中,所述基于所述训练样本数据构建面向指定特征的数据子图包括:依据所述指定特征,以所述训练样本数据中相关用户的用户属性信息作为结点,以所述相关用户之间的关联关系作为边,构建面向所述指定特征的数据子图。
在一个实施例中,上述方法包括:基于所述数据子图,计算面向指定特征的特征描述以训练本地任务模型,所述特征描述包括用户属性信息、关联关系的统计特征以及图层面特征,所述本地任务模型为卷积神经网络模型。
在一个实施例中,上述方法包括:将所述数据子图输入本地任务模型进行训练,所述本地任务模型为图神经网络模型。
在一个实施例中,上述方法还包括:依据所述预定的任务需求,利用本地训练样本数据对优化后的所述本地任务模型进行微调。
本发明另一方面提供一种基于联邦学习进行数据分析的方法,包括:获取待分析的数据;以及利用根据上述任一方法获得的本地任务模型分析所述数据。
在一个实施例中,上述方法还包括:对所述待分析的数据进行本地化差分隐私保护。
本发明另一方面提供一种基于联邦学习进行数据分析的系统,包括:接口模块,用于获取待分析的数据;以及分析模块,用于利用根据上述方法获得的本地任务模型分析所述数据。
本发明另一方面提供一种存储介质,其中存储有计算机程序,在所述计算机程序被处理器执行时,能够用于实现上述任一项所述的方法。
本发明另一方面提供一种电子设备,包括处理器和存储器,所述存储器中存储有计算机程序,在所述计算机程序被处理器执行时,能够用于实现上述任一项所述的方法。
本发明实施例的技术方案可以包括以下有益效果:
通过联邦学习、图学习和隐私保护技术(差分隐私、同态加密等)在保护用户隐私的前提下,挖掘不同用户数据之间特异性特征与深度关联,利用图数据结构信息优化本地模型,使不同参与方在不共享数据的基础上实现联邦建模和协作更新,从技术上打破数据孤岛壁垒,满足数据安全法规要求和终端用户个性化需求,达成多参与方机器学习模型的联合优化和共同获益,并实现对本地数据的精确分析和判断。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了本发明一个实施例的一种基于联邦学习进行数据分析的方法的示意图。
图2示出了本发明一个实施例的一种基于联邦学习进行数据分析的方法的流程图。
图3示出了本发明一个实施例的基于联邦学习建立本地任务模型的方法的示意图。
图4示出了本发明一个实施例的基于联邦学习建立本地任务模型的方法的流程图。
图5示出了本发明一个实施例的构建面向指定特征的数据子图的示意图。
图6示出了本发明一个实施了的基于联邦学习训练服务器模型的方法的流程图。
图7示出了本发明一个实施例的一种基于联邦学习识别用户数据的系统的结构示意图。
具体实施方式
为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动下获得的所有其他实施例,都属于本发明保护的范围。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
联邦学习(Federated Leaming)是一种分布式机器学习技术或机器学习框架,其目标是在保证数据隐私安全及合法合规的基础上,实现共同建模,以提升AI模型的性能。联邦学习包括两个关键部分:服务器模型(又称共有模型或云端模型,在本文中三者可以互换)学习和本地任务模型(又称本地模型或用户模型,在本文中三者可以互换)学习。在联邦学习中,首先各参与方利用本地数据分别学习(训练)本地模型,并传送给服务器其各自的本地模型参数;服务器聚合各参与方传送的本地模型参数进行融合并更新云端模型,再把更新后的云端模型反馈到各参与方;各参与方基于更新后的云端模型优化其各自本地模型并再次训练;如此循环往复、不断迭代,直至云端模型收敛,并基于收敛后的云端模型优化本地模型,最终获得训练好的本地模型。
通常情况下,可以采用深度神经网络作为云端模型和本地模型。深度神经网络通过将用户数据的原始输入作为输入数据来进行端到端特征学习和训练分类器。
当所有参与方的本地模型都完成本周期的训练后,会将模型参数上传到云端服务器进行融合以更新云端模型,通常采用平均值的融合方法。考虑到模型融合的计算复杂度,在每一次训练周期都只从所有用户模型中随机挑取K个参与方的本地模型上传云端进行模型融合以更新云端模型。更新云端模型可以表示为:
其中,f′s表示更新后的云端模型,w′s表示更新后的云端模型参数,表示第k个参与方的本地模型,表示第k个参与方的本地模型参数,K表示随机挑取的参与方数量。经过若干训练周期后,更新的云端模型f′s可以涵盖几乎所有的用户本地模型,达到更好的泛化能力。
通过联邦学习可以使得各参与方的自有数据不出本地,即在不违反数据隐私法规情况下,最大化发掘数据的价值,实现安全多方联合建模、多方共同获益。然而,现有的联邦学习在学习过程中数据隐私保护级别不高,数据分析的准确度有限。
为此,本发明一个实施例提供了一种基于联邦学习进行数据分析的方法,该方法利用了通过联邦学习、图数据分析和隐私保护技术建立的本地任务模型,在保护用户隐私的前提下,通过挖掘不同用户数据之间特异性特征与深度关联,利用图数据结构信息优化本地模型,以实现对本地数据的精确判断和分析。
下文示例中以医院为参与方,以通过智能可穿戴设备采集的用户健康数据为待分析数据来介绍本发明的实施例,但可以理解,本发明的方案同样适用于其他任何其他的场景参与方以。
图1示出了本发明一个实施例的一种基于联邦学习进行数据分析的方法的示意图。如图1所示,用户群A、用户群B和用户群C分别使用智能手表、智能腰带、运动手环等智能可穿戴设备监测其日常健康情况;智能可穿戴设备将各自采集到的用户敏感健康数据(例如用户的体温、心率、睡眠、血压、血糖、胎心等)先进行本地化隐私保护处理,然后分别上传至本地医院A、医院B和医院C,在此过程中,不同的可穿戴设备采集的用户敏感健康数据(以下简称用户数据)之间相互隔离,不同医院之间的用户数据也相互隔离;医院A、医院B和医院C分别利用训练好的本地模型,即模型A、模型B和模型C,对各自的用户数据进行分析。其中,本地模型A、模型B和模型C是基于联邦学习、图数据学习和隐私保护技术建立的,根据本发明的一个实施例,其包括:医院A、医院B和医院C先分别利用各自的本地用户数据进行图数据学习,获得各自本地用户数据的特征描述,并将特征对齐后训练模型A、模型B和模型C,然后提取训练好的模型A、模型B和模型C的模型参数上传至云端服务器;云端服务器通过同态加密和差分扰动的方法将模型A、模型B和模型C的模型参数进行安全聚合以更新云端模型,并将更新后的云端模型下发至医院A、医院B和医院C;医院A、医院B和医院C利用更新后云端模型分别优化各自的本地模型A、模型B和模型C,并再次利用各自的本地用户数据进行图数据学习,获得各自本地用户数据的特征描述,将特征对齐后训练模型A、模型B和模型C…如此不断更新迭代直至云端模型收敛,获得最终的本地模型A、模型B和模型C。
图2示出了本发明一个实施例的一种基于联邦学习进行数据分析的方法的流程图。如图2所示,该方法包括以下步骤:
S210,获取用户数据。
在一个实施例中,可以采用智能可穿戴设备获取用户的健康数据。智能可穿戴设备迎合了当今时代人们对医疗健康的日常监测需求,使得有关身体生理体征的监测(例如体温、心率、睡眠、血压、血糖、胎心等)变得更加便捷。对比传统的医疗检测设备,智能可穿戴设备能够实时采集用户大量的健康医疗数据信息及行为习惯,并且可以通过数据挖掘、机器学习、边缘计算等技术与智能终端(如智能手机、平板电脑等)协同联动,对用户健康数据分析、健康异常预警、个性化健康定制服务等应用提供关键支持。
在一个实施例中,为了保证通过智能可穿戴设备采集的用户数据在健康监测应用中的隐私安全,可以在可穿戴设备终端对用户数据进行本地化差分隐私保护处理。在一个实施例中,在上传医院前,可以先对采集到的非数值型用户数据编码量化进行数值化处理,然后在用户根据自身数据敏感程度预设的隐私保护预算下,向处理后的数值数据x添加满足差分隐私理论约束的可控随机噪声对原始用户数据进行差分扰动,本地化差分隐私保护的公式可表示为:
x′=x+Laplace(Δf/εu) (4)
其中,x为原始用户数据,Laplace(·)为满足拉普拉斯分布的可控随机噪声,εu为分配给用户在终端设备上进行差分扰动的隐私保护预算,Δf为敏感度。在差分隐私理论中,Δf指一个随机函数在相邻数据集上输出的最大的距离,这个距离通过一范数、二范数来衡量,即每一个用户对输出所能造成的最大影响,εu表示分配给用户在终端设备上进行差分扰动的隐私保护预算。Δf计算如下:
x=reshape(x,width,height) (5)
Δf=|max(mean(x,axis=1))-min(mean(x,axis=1)) (6)
其中reshape(,)表示在不改变列表内容的情况下对列表进行重新排列,reshape(x,width,height)表示将一维的原始用户数据x转换为一个width*height的二维数组,max(,)表示求元素的中最大值、min(,)表示求元素的中最小值、mean(,)表示求元素的均值。
由智能可穿戴设备采集到每一条用户数据都会被记录、扰动、存储在该智能可穿戴设备,并上传至医院。
S220,利用基于联邦学习建立的本地模型分析用户数据。
将通过智能可穿戴设备采集到的用户数据输入训练好的本地模型,即可实现对用户数据的分析、预测或评估。
图3示出了本发明一个实施例的基于联邦学习建立本地任务模型的方法的示意图;图4示出了本发明一个实施例的基于联邦学习建立本地任务模型的方法的流程图。如图3、4所示,该方法包括以下步骤:
S410,获取训练样本数据。
有关用户的健康训练样本数据例如可以包括不同用户的体温、心率、睡眠、血压、血糖、胎心等。训练样本数据可以从数据库平台中获取,也可以从已确定健康状况的不同用户处采集,例如可以使用智能可穿戴设备(如智能手表、智能腰带、运动手环等)监测其日常健康数据,并发送至医院。
S420,基于训练样本数据构建面向指定特征的数据子图。
在一个实施例中,医院可以根据自身任务需求设定随机响应阈值,随机地对训练样本数据进行去除元数据、时间戳和/或重新排序等操作,以增加数据多样性与敌手攻击的复杂性;然后面向指定特征(例如用户的健康状况(如传染疾病、行动障碍、多动症等)),以训练样本数据中相关用户的属性信息(例如用户的年龄、患病种类、病情分级等),以相关用户之间的关联关系(例如传染病接触关系、群体关系、地缘关系等)作为边,构建面向不同指定特征的数据子图。由于不同的用户具有不同的特征,且不同特征的相关用户之间具有各自不同的关联关系,因此可以针对不同用户及其关联关系将构建不同的数据子图。在一个实施例中,还可以将构建的不同数据子图关联起来,构成用户数据图(也称多关系型图或称为多关系图,本发明中三者可以互换)。一个数据子图可以表示为G=(V,E),其中G表示一个具体的数据子图,V表示结点集合,E表示结点之间的关联关系,即数据图中的边,对于任意存在关联关系的两个结点i,j∈V,eij∈E。一个数据图可以表示为G=(V,E,R),其中R表示边的种类,一般要求|R|>1。rij∈R。
图5示出了本发明一个实施例的构建面向指定特征的数据子图的示意图。如图5所示,若医院A需要分析与某特定传染疾病相关的数据,则可以针对患有该特定传染疾病的用户数据(例如用户V1-V6)间不同的关联关系(例如关联A1和关联A2)构建不同的数据子图。例如,关联A1为传染病接触关系,则将具有接触关系的用户结点连接起来构成数据子图GA1,该数据子图GA1中包含有6个结点(即V1、V2、V3、V4、V5和V6)以及5条边(即EA1(1,2),EA1(2,3),EA1(2,4),EA1(4,5)和EA1(1,6),参见图中的实线边);关联A2为地缘关系,则将居住在同一小区的用户结点连接起来构成数据子图G A2,该数据子图G A2中包含有4个结点(即V2、V3、V4和V6)以及2条边(即EA2(2,6)和EA2(3,4),参见图中的虚线边)。由于数据子图G A1和数据子图G A2具有相同的结点(即V2、V3、V4和V6),因此可以将相同的结点其合并,构成用户群体A的数据图GA。
在一个实施例中,还可以利用用户的公开信息,可以针对用户之间特定的跨机构关联关系(例如分级就诊、转院、流行病学调查)构建跨机构的数据图。如图5所示,医院A和医院B根据各自的用户群体A和用户群体B之间各自的关联关系(例如关联A1、关联A2和关联B1和关联B2)分别构建数据子图G A1、数据子图G A2和数据子图G B1、数据子图G B2,针对用户群体A、B之间特定的跨机构关系(例如转院),可以将用户群体A中的用户V2与用户群体B中的用户V6相连接,构建跨机构数据图G A-B。
S430,从面向指定特征的数据子图中获取特征描述。
在一个实施例中,从数据子图中获取面向指定特征的特征描述以训练本地任务模型,特征描述可以包括用户属性信息、关联关系的统计特征以及图层面特征等。
在一个实施例中,可以通过计算获取数据子图本地局部特征描述以训练本地模型。例如,面向指定特征的数据子图,可以分别计算可穿戴采集到的用户数据(例如心率、脉搏、肌电等)的统计特征(例如频率、均值、中位数等)、用户群体属性信息(例如年龄、病情分级、用药量等)和结构信息(例如病情相似性、旧病复发、传染范围等)的统计特征(例如最大值、最小值、均值、标准差等)以及构建的数据图层面的特征(环/时序环、自我中心网络(EgoNet)、度分布等)。
在一个实施例中,还可以通过计算获得数据图的全局特征描述。例如,面向跨医院信息的数据图,可以计算用来提取患者群体的统计特征描述,包括患者的分级就诊、转院、流行病学调查等记录的统计特征,也可以计算重点患者群体的统计信息,如传染病患者数量、各机构患者收纳数量、危重病患者数量等。
特征描述的计算如表1所示:
表1计算特征描述
在一个实施例中,在训练本地模型前,需要对提取到的各类特征进行对齐,以保证样本特征数量与排序的一致性。基于数据子图计算的特征描述能够很大程度上丰富训练样本的特征空间,提高模型的准确度。
S440,利用特征描述训练本地模型。
将计算得到的特征描述输入卷积神经网络模型进行训练,以获得本任务模型。在一个实施例中,本地模型的网络结构包含两个卷积层,一个池化层和两个全连接层,其中卷积层采用的卷积核大小为3×3。
在另一个实施例中,还可以直接将面向指定特征的数据子图或数据图神经网络(Graph Neural Networks,GNN)模型进行训练,以获得本任务模型。可以对每一种面向指定特征的数据子图使用一种编码器(Encoder)进行编码,此类编码器属于一种特定的图神经网络。图神经网络编码器Encoder可表示为:
Encoder=f(G,X) (7)
其中,G表示数据子图或数据图,X表示数据子图或数据图中结点特征,X∈RN×F,其中R代表实数集,N代表结点数量,F代表结点特征维度,f代表该编码器的函数。
在一个实施例中,f可以为一个两层的图卷积神经网络(Graph ConvolutionalNetwork,GCN),公式如下:
其中,SoftMax为柔性最大值函数,ReLU为修正线性激活函数,为A的正则化形式,例如A为图的邻接矩阵(即特征描述),形式为一个N×N,其中N为整数,代表数据子图或数据图中结点的数量,D代表度矩阵,为一个对角矩阵,I代表单位矩阵,D和I的维度与邻接矩阵A相同,X为结点特征,W1、W2分别图卷积网络模型第一层和第二层的变换矩阵。
在训练过程中,可采用60%的样本数据作为训练集、10%的样本数据作为验证集、30%的样本数据作为测试集。可采用自适应梯度算法(Adaptive gradient algorithm,Adagrad)及其改进算法Adadelta、随机梯度下降(Stochastic Gradient Descent,SGD)或者差分私有的随机梯度下降(Differentially Private Stochastic Gradient Descent,DPSGD)等优化器作为优化策略。本地模型的损失函数可采用上述公式(2)中的损失函数。
S450,提取本地模型的模型参数上传至服务器以更新云端模型参数,并利用更新后的云端模型优化本地模型。
如上所述,在联邦学习中云端模型的训练和本地模型的建立是一个循环往复、协同进化的过程。
图6示出了本发明一个实施了的基于联邦学习训练服务器模型的方法的流程图。如图6所示,该方法包括:
S610,获取各参与方的本地模型的模型参数。
联邦学习是多个参与方联合建模、共同获益的过程。根据本发明的一个实施例,在云端模型的建立过程中,可以从每个参与方的本地模型中获取模型参数;根据本发明的其他实施例,当参与方过多时,也可以随机选取若干个参与方的本地模型从中获取模型参数。
S620,通过同态加密和差分扰动的方法将各参与方的本地模型的模型参数进行安全聚合。
考虑到在联邦学习过程中可能发生针对参与方的推理攻击,可以在云端进行模型聚合时对各参与方的贡献进行模糊化处理,以提供相应的隐私信息保护。
在一个实施例中,云端服务器接收来自N个不同参与方上传的本地模型后(其中N是大于等于2的整数),可以通过采用同态加密方法对共享的模型参数进行保护处理,并在密文状态下对这些模型进行满足差分隐私保护的聚合和更新操作(即差分扰动后加密)。
S630,利用聚合后的模型参数更新当前的云端模型。
利用聚合后的模型参数更新当前的云端模型可以表示为:
其中,w′s表示更新后的云端模型参数,wi表示第i个参与方的本地模型参数,N表示获取的各参与方的本地模型的数量,εs表示分配给服务器进行差分扰动的隐私保护预算,Δf表示指一个随机函数在相邻数据集上输出的最大的距离。
通过上述方法训练云端模型,可以防止攻击者通过对比观察每一轮模型更新效果和输出差异来恶意获取参与方在上传和下载更新模型参数时训练数据集和模型信息,确保端侧数据、模型训练和优化更新过程的隐私安全。
利用更新后的云端模型对本地模型进行协同优化和更新。
S460,重复步骤S440-S450,直至云端模型收敛,基于收敛后的云端模型优化本地模型。
在密文状态下重复进行本地模型训练、模型参数提取并上传服务器、更新云端模型参数继而利用更新后的云端模型再次优化本地模型,实现模型参数的不断迭代更新,直至云端损失函数收敛。最后基于收敛后的云端模型优化本地模型,获得最终的本地模型。
在一个实施例中,基于收敛后的云端模型优化本地模型后,还可以依据参与方预定的任务需求,利用本地训练样本数据对优化后的本地模型进行微调。例如,医院可以选择与诊断任务相同的病例样本输入至服务器下达的云端模型,利用诊断目标、重点病例和特定病症强相关的测试样本对云端模型进行微调(fine-tuning)。根据本发明的一个实施例,微调主要通过以下三步实现:
(1)在本地创建一个新的神经网络模型作为目标本地模型。目标本地模型复制源模型(即服务器下达的云端模型)上除了输出层外的所有模型设计与参数。这些模型参数包含了源数据集上学习到的知识,并且这些知识同样适用于目标数据集。
(2)为目标本地模型添加输出大小为目标数据集类别数的输出层,随机初始化该层的模型参数。
(3)在目标数据集上训练目标本地模型的输出层,其余层参数都基于源模型的参数微调得到,将训练好的目标本地模型作为最终的本地模型。
本地模型在经过上述微调之后能够受益于多方联邦建模的知识聚合和本地样本的个性化适配,帮助后续不同诊断任务和稀疏病症诊断工作的开展,避免耗费大量时间成本重新训练模型。
通过采用上述基于联邦学习方法获得的本地模型进行数据分析,能够在保护用户隐私的前提下,挖掘不同用户数据之间特异性特征与深度关联,进而对用户数据进行更加准确、全面的分析和研究。
图7示出了本发明一个实施例的一种基于联邦学习识别用户数据的系统的结构示意图。如图7所示,该系统700包括接口模块701和分析模块702。尽管该框图以功能上分开的方式来描述组件,但这样的描述仅为了说明的目的。图中所示的组件可以任意地进行组合或被分为独立的软件、固件和/或硬件组件。而且,无论这样的组件是如何被组合或划分的,它们都可以在同一计算装置或多个计算装置上执行,其中多个计算装置可以是由一个或多个网络连接。
其中接口模块701用于获取用户数据,分析模块702如上文介绍的那样利用采用上述联邦学习方法获得的本地任务模型识别获取的用户数据。
在本发明的又一个实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序或可执行指令,当所述计算机程序或可执行指令被执行时实现如前述实施例中所述的技术方案,其实现原理类似,此处不再赘述。在本发明的实施例中,计算机可读存储介质可以是任何能够存储数据且可以被计算装置读取的有形介质。计算机可读存储介质的实例包括硬盘驱动器、网络附加存储器(NAS)、只读存储器、随机存取存储器、CD-ROM、CD-R、CD-RW、磁带以及其它光学或非光学数据存储装置。计算机可读存储介质也可以包括分布在网络耦合计算机系统上的计算机可读介质,以便可以分布式地存储和执行计算机程序或指令。
本说明书中针对“各个实施例”、“一些实施例”、“一个实施例”、或“实施例”等的参考指代的是结合所述实施例所描述的特定特征、结构、或性质包括在至少一个实施例中。因此,短语“在各个实施例中”、“在一些实施例中”、“在一个实施例中”、或“在实施例中”等在整个说明书中各地方的出现并非必须指代相同的实施例。此外,特定特征、结构、或性质可以在一个或多个实施例中以任何合适方式组合。因此,结合一个实施例中所示出或描述的特定特征、结构或性质可以整体地或部分地与一个或多个其他实施例的特征、结构、或性质无限制地组合,只要该组合不是非逻辑性的或不能工作。
本说明书中“包括”和“具有”以及类似含义的术语表达,意图在于覆盖不排他的包含,例如包含了一系列步骤或单元的过程、方法、系统、产品或设备并不限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。“一”或“一个”也不排除多个的情况。另外,本申请附图中的各个元素仅仅为了示意说明,并非按比例绘制。
虽然本发明已经通过上述实施例进行了描述,然而本发明并非局限于这里所描述的实施例,在不脱离本发明范围的情况下还包括所做出的各种改变以及变化。
Claims (11)
1.一种基于联邦学习训练服务器模型的方法,包括:
步骤1-1)获取多个本地任务模型的模型参数;
步骤1-2)通过同态加密和差分扰动的方法将所述多个本地任务模型的模型参数进行安全聚合;以及
步骤1-3)利用聚合后的模型参数更新当前的服务器模型。
2.一种基于联邦学习建立本地任务模型的方法,包括:
步骤2-1)基于训练样本数据构建面向指定特征的数据子图;
步骤2-2)利用所述数据子图训练本地任务模型;
步骤2-3)提取所述本地任务模型的模型参数上传至服务器以更新服务器模型参数,并通过权利要求1所述的方法获得更新后的服务器模型以优化所述本地任务模型;
步骤2-4)重复步骤2-2)-步骤2-3),直至所述服务器模型收敛,基于收敛后的所述服务器模型优化所述本地任务模型。
3.根据权利要求2所述的方法,其中,所述基于所述训练样本数据构建面向指定特征的数据子图包括:
依据所述指定特征,以所述训练样本数据中相关用户的用户属性信息作为结点,以所述相关用户之间的关联关系作为边,构建面向所述指定特征的数据子图。
4.根据权利要求2所述的方法,其中,所述步骤2-2)包括:
基于所述数据子图,计算面向指定特征的特征描述以训练本地任务模型,所述特征描述包括用户属性信息、关联关系的统计特征以及图层面特征,其中所述本地任务模型为卷积神经网络模型。
5.根据权利要求2所述的方法,其中,所述步骤2-2)包括:
将所述数据子图输入本地任务模型进行训练,其中,所述本地任务模型为图神经网络模型。
6.根据权利要求2所述的方法,其中,所述步骤2-4)还包括:
依据所述预定的任务需求,利用本地训练样本数据对优化后的所述本地任务模型进行微调。
7.一种基于联邦学习进行数据分析的方法,包括:
获取待分析的数据;以及
利用根据权利要求2-6中任一方法获得的本地任务模型分析所述数据。
8.根据权利要求7所述的方法,还包括:
对所述待分析的数据进行本地化差分隐私保护。
9.一种基于联邦学习进行数据分析的系统,包括:
接口模块,用于获取待分析的数据;以及
分析模块,用于根据采用权利要求2-6中任一方法获得的本地任务模型分析所述数据。
10.一种存储介质,其中存储有计算机程序,在所述计算机程序被处理器执行时,能够用于实现权利要求1-8中任一项所述的方法。
11.一种电子设备,包括处理器和存储器,所述存储器中存储有计算机程序,在所述计算机程序被处理器执行时,能够用于实现权利要求1-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110359726.4A CN113052333A (zh) | 2021-04-02 | 2021-04-02 | 基于联邦学习进行数据分析的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110359726.4A CN113052333A (zh) | 2021-04-02 | 2021-04-02 | 基于联邦学习进行数据分析的方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113052333A true CN113052333A (zh) | 2021-06-29 |
Family
ID=76517664
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110359726.4A Pending CN113052333A (zh) | 2021-04-02 | 2021-04-02 | 基于联邦学习进行数据分析的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113052333A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113571169A (zh) * | 2021-09-23 | 2021-10-29 | 杭州医康慧联科技股份有限公司 | 医疗数据管理方法、装置、电子设备和存储介质 |
CN113726561A (zh) * | 2021-08-18 | 2021-11-30 | 西安电子科技大学 | 利用联邦学习训练卷积神经网络的业务类型识别方法 |
US11276001B1 (en) * | 2021-06-10 | 2022-03-15 | Orbsurgical Ltd. | Machine learning for interconnected surgical theater architecture |
CN114530028A (zh) * | 2022-02-14 | 2022-05-24 | 大连理工大学 | 一种基于LoRa通信与联邦学习的校园学生智能手环监控系统及方法 |
CN114638998A (zh) * | 2022-03-07 | 2022-06-17 | 支付宝(杭州)信息技术有限公司 | 模型更新方法、装置、系统及设备 |
CN115310130A (zh) * | 2022-08-15 | 2022-11-08 | 南京航空航天大学 | 一种基于联邦学习的多站点医学数据分析方法及系统 |
WO2023134076A1 (zh) * | 2022-01-12 | 2023-07-20 | 平安科技(深圳)有限公司 | 数据保护方法、系统及存储介质 |
TWI812293B (zh) * | 2022-06-20 | 2023-08-11 | 英業達股份有限公司 | 使用資料摘要的聯邦學習系統及其方法 |
CN116760528A (zh) * | 2023-08-21 | 2023-09-15 | 成都乐超人科技有限公司 | 一种基于多密钥同态共享下的多方资产交付方法和装置 |
TWI829558B (zh) * | 2023-03-17 | 2024-01-11 | 英業達股份有限公司 | 保護資料摘要的聯邦學習系統及其方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190227980A1 (en) * | 2018-01-22 | 2019-07-25 | Google Llc | Training User-Level Differentially Private Machine-Learned Models |
CN110929870A (zh) * | 2020-02-17 | 2020-03-27 | 支付宝(杭州)信息技术有限公司 | 图神经网络模型训练方法、装置及系统 |
CN111190487A (zh) * | 2019-12-30 | 2020-05-22 | 中国科学院计算技术研究所 | 一种建立数据分析模型的方法 |
CN111553470A (zh) * | 2020-07-10 | 2020-08-18 | 成都数联铭品科技有限公司 | 适用于联邦学习的信息交互系统及方法 |
CN111866869A (zh) * | 2020-07-07 | 2020-10-30 | 兰州交通大学 | 面向边缘计算的联邦学习室内定位隐私保护方法 |
CN112015749A (zh) * | 2020-10-27 | 2020-12-01 | 支付宝(杭州)信息技术有限公司 | 基于隐私保护更新业务模型的方法、装置及系统 |
CN112464290A (zh) * | 2020-12-17 | 2021-03-09 | 浙江工业大学 | 一种基于自编码器的垂直联邦学习防御方法 |
-
2021
- 2021-04-02 CN CN202110359726.4A patent/CN113052333A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190227980A1 (en) * | 2018-01-22 | 2019-07-25 | Google Llc | Training User-Level Differentially Private Machine-Learned Models |
CN111190487A (zh) * | 2019-12-30 | 2020-05-22 | 中国科学院计算技术研究所 | 一种建立数据分析模型的方法 |
CN110929870A (zh) * | 2020-02-17 | 2020-03-27 | 支付宝(杭州)信息技术有限公司 | 图神经网络模型训练方法、装置及系统 |
CN111866869A (zh) * | 2020-07-07 | 2020-10-30 | 兰州交通大学 | 面向边缘计算的联邦学习室内定位隐私保护方法 |
CN111553470A (zh) * | 2020-07-10 | 2020-08-18 | 成都数联铭品科技有限公司 | 适用于联邦学习的信息交互系统及方法 |
CN112015749A (zh) * | 2020-10-27 | 2020-12-01 | 支付宝(杭州)信息技术有限公司 | 基于隐私保护更新业务模型的方法、装置及系统 |
CN112464290A (zh) * | 2020-12-17 | 2021-03-09 | 浙江工业大学 | 一种基于自编码器的垂直联邦学习防御方法 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11276001B1 (en) * | 2021-06-10 | 2022-03-15 | Orbsurgical Ltd. | Machine learning for interconnected surgical theater architecture |
CN113726561A (zh) * | 2021-08-18 | 2021-11-30 | 西安电子科技大学 | 利用联邦学习训练卷积神经网络的业务类型识别方法 |
CN113571169A (zh) * | 2021-09-23 | 2021-10-29 | 杭州医康慧联科技股份有限公司 | 医疗数据管理方法、装置、电子设备和存储介质 |
WO2023134076A1 (zh) * | 2022-01-12 | 2023-07-20 | 平安科技(深圳)有限公司 | 数据保护方法、系统及存储介质 |
CN114530028B (zh) * | 2022-02-14 | 2023-04-25 | 大连理工大学 | 一种基于LoRa通信与联邦学习的校园学生智能手环监控系统及方法 |
CN114530028A (zh) * | 2022-02-14 | 2022-05-24 | 大连理工大学 | 一种基于LoRa通信与联邦学习的校园学生智能手环监控系统及方法 |
CN114638998A (zh) * | 2022-03-07 | 2022-06-17 | 支付宝(杭州)信息技术有限公司 | 模型更新方法、装置、系统及设备 |
TWI812293B (zh) * | 2022-06-20 | 2023-08-11 | 英業達股份有限公司 | 使用資料摘要的聯邦學習系統及其方法 |
CN115310130A (zh) * | 2022-08-15 | 2022-11-08 | 南京航空航天大学 | 一种基于联邦学习的多站点医学数据分析方法及系统 |
CN115310130B (zh) * | 2022-08-15 | 2023-11-17 | 南京航空航天大学 | 一种基于联邦学习的多站点医学数据分析方法及系统 |
TWI829558B (zh) * | 2023-03-17 | 2024-01-11 | 英業達股份有限公司 | 保護資料摘要的聯邦學習系統及其方法 |
CN116760528A (zh) * | 2023-08-21 | 2023-09-15 | 成都乐超人科技有限公司 | 一种基于多密钥同态共享下的多方资产交付方法和装置 |
CN116760528B (zh) * | 2023-08-21 | 2023-10-27 | 成都乐超人科技有限公司 | 一种基于多密钥同态共享下的多方资产交付方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113052333A (zh) | 基于联邦学习进行数据分析的方法及系统 | |
US20210125732A1 (en) | System and method with federated learning model for geotemporal data associated medical prediction applications | |
Li et al. | Applying various algorithms for species distribution modelling | |
CN110957015B (zh) | 电子医疗记录数据的缺失值填充方法 | |
WO2020220545A1 (zh) | 基于长短期记忆模型的疾病预测方法、装置和计算机设备 | |
CN109034960B (zh) | 一种基于用户节点嵌入的多属性推断的方法 | |
CN108921286B (zh) | 一种免阈值设定的静息态功能脑网络构建方法 | |
JP2022547595A (ja) | 顔属性認識方法、装置、電子機器及び記憶媒体 | |
CN107292751B (zh) | 一种时序网络中节点重要性的挖掘方法和装置 | |
CN112580902B (zh) | 对象数据处理方法、装置、计算机设备和存储介质 | |
CN109242250A (zh) | 一种基于模糊熵权法与云模型的用户行为可信度检测方法 | |
CN108682457A (zh) | 患者长期预后定量预测和干预系统及方法 | |
WO2023226186A1 (zh) | 神经网络训练方法、人体运动识别方法及设备、存储介质 | |
CN110321805A (zh) | 一种基于时序关系推理的动态表情识别方法 | |
CN114999635A (zh) | 一种基于图卷积神经网络和node2vec的circRNA-疾病关联关系预测方法 | |
Lewis et al. | Cooperative learning: Decentralized data neural network | |
CN109948242A (zh) | 基于特征哈希的网络表示学习方法 | |
Liu et al. | Multilevel Federated Learning based Intelligent Traffic Flow Forecasting for Transportation Network Management | |
CN109597944B (zh) | 一种基于深度信念网络的单分类微博谣言检测模型 | |
CN113345564A (zh) | 一种基于图神经网络的患者住院时长早期预测方法及装置 | |
CN110993121A (zh) | 一种基于双协同线性流形的药物关联预测方法 | |
CN108021873B (zh) | 一种聚类非对称互信息的脑电信号癫痫分类方法及系统 | |
Yuan et al. | An efficient digital twin assisted clustered federated learning algorithm for disease prediction | |
CN112084935B (zh) | 一种基于扩充高质量脑电样本的情绪识别方法 | |
Angayarkanni | Predictive analytics of chronic kidney disease using machine learning algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210629 |
|
WD01 | Invention patent application deemed withdrawn after publication |