CN112102939B - 心脑血管疾病参考信息预测系统、方法、装置及电子设备 - Google Patents

心脑血管疾病参考信息预测系统、方法、装置及电子设备 Download PDF

Info

Publication number
CN112102939B
CN112102939B CN202010725702.1A CN202010725702A CN112102939B CN 112102939 B CN112102939 B CN 112102939B CN 202010725702 A CN202010725702 A CN 202010725702A CN 112102939 B CN112102939 B CN 112102939B
Authority
CN
China
Prior art keywords
user
data
hospital
summarizing
terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010725702.1A
Other languages
English (en)
Other versions
CN112102939A (zh
Inventor
公茂果
高原
王钊
王善峰
武越
张明阳
李豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202010725702.1A priority Critical patent/CN112102939B/zh
Publication of CN112102939A publication Critical patent/CN112102939A/zh
Application granted granted Critical
Publication of CN112102939B publication Critical patent/CN112102939B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

本发明公开心脑血管疾病参考信息预测方法,第一客户端获取目标用户的第一标识数据和第一特征数据组;利用对偶模型预测第一特征数据组在第二客户端的第二预测特征数据组,将第一标识数据和第二预测特征数据组的加密数据发给第二客户端;获得第一特征数据组的第一加密加权值并发给服务端;第二客户端利用接收的加密数据确定目标用户在第二客户端的第二目标特征数据组,获得第二目标特征数据组的第二加密加权值并发给服务端;服务端对接收到的第一加密加权值和第二加密加权值求和,对求和结果解密得到表征目标用户心脑血管疾病参考信息的目标标签数据并发给第一客户端;第一客户端为用户汇总端或医院端之一,第二客户端为用户汇总端或医院端之另一。

Description

心脑血管疾病参考信息预测系统、方法、装置及电子设备
技术领域
本发明属于医疗健康领域,具体涉及心脑血管疾病参考信息预测系统、方法、装置及电子设备。
背景技术
近年来,在全球范围内,心脑血管疾病已经成为威胁人类最严重的疾病之一。随着社会经济的发展,国民生活方式发生了深刻的变化,尤其是人口老龄化及城镇化进程的加速,导致我国心脑血管疾病的发病人数持续高速增长,严重危害国民的健康和生命安全。
权威医疗意见显示,心脑血管疾病的日常预防与监测非常关键,良好的预防监测手段不仅可以实现无病防病发生,还可以实现患病后防止复发。由于心脑血管疾病的发病因素和人类的日常生活状态密切相关,比如饮食结构、运动情况等;同时,心脑血管疾病的临床确认通常需要参考医院相关的检测数据。那么,如果可以将个人的日常生活状态数据和医院记录的个人检测数据相结合,应该能够有力帮助个人进行心脑血管疾病预防与监测,同时为医生提供治疗参考或进行医学研究等工作,比如分析、预测得到关于患者心脑血管疾病的复发可能性的参考信息,等等。但个人的日常生活状态数据属于个人的隐私数据,而医院的用户检测数据也属于不可公开的数据,两方无法公开交互数据进行分析、预测。
近年来,随着“联邦学习”概念的出现,其可以有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下,进行数据使用和机器学习建模,解决各方的“数据孤岛”的问题。联邦学习实际上是一种加密的分布式机器学习技术,各参与方可以在不披露底层数据的前提下共建联邦学习模型,实现数据分类、预测等目的。
但是,由于用户方和医院方共有的用户数据极其有限,若利用联邦学习预测用户心脑血管疾病相关的参考信息,将面临预测效果较差的问题。
发明内容
为了解决用户方和医院方在少量的共有用户数据集上,如何有效利用联邦学习预测用户心脑血管疾病的参考信息的问题,本发明实施例提供了心脑血管疾病参考信息预测系统、方法、装置、电子设备及存储介质,以及一种联邦学习模型训练方法。
本发明要解决的技术问题通过以下技术方案实现:
本发明实施例提供了一种心脑血管疾病参考信息预测系统,包括第一客户端、第二客户端,以及服务端:所述第一客户端,用于获取待预测标签数据的目标用户的第一标识数据和第一特征数据组;利用所述第一客户端的对偶模型,预测所述第一特征数据组在所述第二客户端的第二预测特征数据组,将所述第一标识数据和所述第二预测特征数据组的加密数据发送给所述第二客户端;并且,利用所述第一客户端训练得到的联邦学习模型参数,获得所述第一特征数据组的第一加密加权值,并将所述第一加密加权值发送给所述服务端;所述第二客户端,用于利用接收到的加密数据,确定所述目标用户在所述第二客户端的第二目标特征数据组,利用所述第二客户端训练得到的联邦学习模型参数,获得所述第二目标特征数据组的第二加密加权值,并将所述第二加密加权值发送给所述服务端;所述服务端,用于对接收到的所述第一加密加权值和所述第二加密加权值求和,并对求和结果进行解密,得到所述目标用户的目标标签数据,并将所述目标标签数据返回给所述第一客户端;其中,所述目标标签数据表征所述目标用户心脑血管疾病的参考信息;其中,所述第一客户端为用户汇总端或医院端之一,所述第二客户端为用户汇总端或医院端之另一;所述用户汇总端、所述医院端各自拥有预先训练的对偶模型;所述用户汇总端汇总有多个用户的用户数据;所述服务端拥有预先训练的联邦学习模型;所述联邦学习模型是所述用户汇总端和所述医院端经过加密对偶训练扩展共有用户数据集后,借助所述服务端进行联邦学习得到的;所述用户汇总端用于联邦学习模型训练的用户数据包括用户的标识数据、由用户多个日常生活状态数据构成的特征数据组;所述医院端用于联邦学习模型训练的用户数据包括用户的标识数据、由用户多个检测数据构成的特征数据组、表征用户心脑血管疾病参考信息的标签数据。
本发明实施例提供了一种心脑血管疾病参考信息预测方法,所述方法包括:第一客户端获取待预测标签数据的目标用户的第一标识数据和第一特征数据组;利用所述第一客户端的对偶模型,预测所述第一特征数据组在所述第二客户端的第二预测特征数据组,将所述第一标识数据和所述第二预测特征数据组的加密数据发送给所述第二客户端;并且,利用所述第一客户端训练得到的联邦学习模型参数,获得所述第一特征数据组的第一加密加权值,并将所述第一加密加权值发送给所述服务端;第二客户端利用接收到的加密数据,确定所述目标用户在所述第二客户端的第二目标特征数据组,利用所述第二客户端训练得到的联邦学习模型参数,获得所述第二目标特征数据组的第二加密加权值,并将所述第二加密加权值发送给所述服务端;服务端对接收到的所述第一加密加权值和所述第二加密加权值求和,并对求和结果进行解密,得到所述目标用户的目标标签数据,并将所述目标标签数据返回给所述第一客户端;其中,所述目标标签数据表征所述目标用户心脑血管疾病的参考信息;其中,所述第一客户端为用户汇总端或医院端之一,所述第二客户端为用户汇总端或医院端之另一;所述用户汇总端、所述医院端各自拥有预先训练的对偶模型;所述用户汇总端汇总有多个用户的用户数据;所述服务端拥有预先训练的联邦学习模型;所述联邦学习模型是所述用户汇总端和所述医院端经过加密对偶训练扩展共有用户数据集后,借助所述服务端进行联邦学习得到的;所述用户汇总端用于联邦学习模型训练的用户数据包括用户的标识数据、由用户多个日常生活状态数据构成的特征数据组;所述医院端用于联邦学习模型训练的用户数据包括用户的标识数据、由用户多个检测数据构成的特征数据组、表征用户心脑血管疾病参考信息的标签数据。
本发明实施例提供了另一种心脑血管疾病参考信息预测方法,应用于心脑血管疾病参考信息预测系统的第一客户端,所述系统还包括第二客户端,以及服务端,所述方法包括:获取待预测标签数据的目标用户的第一标识数据和第一特征数据组;利用所述第一客户端的对偶模型,预测所述第一特征数据组在所述第二客户端的第二预测特征数据组;将所述第一标识数据和所述第二预测特征数据组的加密数据发送给所述第二客户端;以使得所述第二客户端利用接收到的加密数据,确定所述目标用户在所述第二客户端的第二目标特征数据组,利用所述第二客户端训练得到的联邦学习模型参数,获得所述第二目标特征数据组的第二加密加权值,并将所述第二加密加权值发送给所述服务端;利用所述第一客户端训练得到的联邦学习模型参数,获得所述第一特征数据组的第一加密加权值,并将所述第一加密加权值发送给所述服务端;以使得所述服务端对接收到的所述第一加密加权值和所述第二加密加权值求和,并对求和结果进行解密,得到所述目标用户的目标标签数据,并将所述目标标签数据返回给所述第一客户端;其中,所述目标标签数据表征所述目标用户心脑血管疾病的参考信息;接收所述服务端返回的所述目标标签数据;其中,所述第一客户端为用户汇总端或医院端之一,所述第二客户端为用户汇总端或医院端之另一;所述用户汇总端、所述医院端各自拥有预先训练的对偶模型;所述用户汇总端汇总有多个用户的用户数据;所述服务端拥有预先训练的联邦学习模型;所述联邦学习模型是所述用户汇总端和所述医院端经过加密对偶训练扩展共有用户数据集后,借助所述服务端进行联邦学习得到的;所述用户汇总端用于联邦学习模型训练的用户数据包括用户的标识数据、由用户多个日常生活状态数据构成的特征数据组;所述医院端用于联邦学习模型训练的用户数据包括用户的标识数据、由用户多个检测数据构成的特征数据组、表征用户心脑血管疾病参考信息的标签数据。
本发明实施例提供了一种心脑血管疾病参考信息预测装置,应用于心脑血管疾病参考信息预测系统的第一客户端,所述系统还包括第二客户端,以及服务端,所述装置包括:获取模块,用于获取待预测标签数据的目标用户的第一标识数据和第一特征数据组;预测模块,用于利用所述第一客户端的对偶模型,预测所述第一特征数据组在所述第二客户端的第二预测特征数据组;第一加密发送模块,用于将所述第一标识数据和所述第二预测特征数据组的加密数据发送给所述第二客户端;以使得所述第二客户端利用接收到的加密数据,确定所述目标用户在所述第二客户端的第二目标特征数据组,利用所述第二客户端训练得到的联邦学习模型参数,获得所述第二目标特征数据组的第二加密加权值,并将所述第二加密加权值发送给所述服务端;第二加密发送模块,用于利用所述第一客户端训练得到的联邦学习模型参数,获得所述第一特征数据组的第一加密加权值,并将所述第一加密加权值发送给所述服务端;以使得所述服务端对接收到的所述第一加密加权值和所述第二加密加权值求和,并对求和结果进行解密,得到所述目标用户的目标标签数据,并将所述目标标签数据返回给所述第一客户端;其中,所述目标标签数据表征所述目标用户心脑血管疾病的参考信息;接收模块,用于接收所述服务端返回的所述目标标签数据;其中,所述第一客户端为用户汇总端或医院端之一,所述第二客户端为用户汇总端或医院端之另一;所述用户汇总端、所述医院端各自拥有预先训练的对偶模型;所述用户汇总端汇总有多个用户的用户数据;所述服务端拥有预先训练的联邦学习模型;所述联邦学习模型是所述用户汇总端和所述医院端经过加密对偶训练扩展共有用户数据集后,借助所述服务端进行联邦学习得到的;所述用户汇总端用于联邦学习模型训练的用户数据包括用户的标识数据、由用户多个日常生活状态数据构成的特征数据组;所述医院端用于联邦学习模型训练的用户数据包括用户的标识数据、由用户多个检测数据构成的特征数据组、表征用户心脑血管疾病参考信息的标签数据。
本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现上述第一种心脑血管疾病参考信息预测方法的步骤。
本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第一种心脑血管疾病参考信息预测方法的步骤。
本发明实施例提供了一种联邦学习模型训练方法,所述方法包括:参与联邦学习模型训练的用户汇总端和医院端分别获取各自的用户数据;所述用户汇总端汇总有多个用户的用户数据;所述用户汇总端的用户数据包括用户的标识数据、由用户多个日常生活状态数据构成的特征数据组;所述医院端的用户数据包括用户的标识数据、由用户多个检测数据构成的特征数据组、表征用户心脑血管疾病参考信息的标签数据。所述用户汇总端和所述医院端确定共有用户,得到共有用户数据集;所述用户汇总端和所述医院端基于所述共有用户数据集进行加密对偶学习,将各自的标识数据增加至所述用户汇总端和所述医院端的标识数据的并集,并补全各自的特征数据组,得到所述用户汇总端和所述医院端扩展的共有用户数据集;所述用户汇总端和所述医院端基于所述扩展的共有用户数据集,在所述服务端的协助下,进行联邦学习模型训练,直至达到联邦学习模型收敛条件,获得训练完成的联邦学习模型。
本发明实施例中,拥有联邦学习模型的所述服务端,从第二客户端接收到的所述第二加密加权值是,待预测心脑血管疾病参考信息的所述第一客户端获取待预测标签数据的目标用户的第一标识数据和第一特征数据组后,针对所述第二客户端,利用所述第一客户端的对偶模型,预测所述第一特征数据组在所述第二客户端的第二预测特征数据组,将所述第一标识数据和所述第二预测特征数据组的加密数据发送给所述第二客户端,再由所述第二客户端利用接收到的加密数据,确定所述目标用户在该第二客户端的第二目标特征数据组,利用所述第二客户端训练得到的联邦学习模型参数,获得的所述第二目标特征数据组的加密加权值。因此,可以在所述第二客户端没有目标用户的特征数据组时,利用所述第一客户端对偶预测的第二预测特征数据组作为所述第二客户端的第二目标特征数据组,即在数据缺失的情况下补充数据,增加了联邦学习模型的用户数据。
本发明实施例中,通过对偶学习的方式,可以学习用户汇总端和医院端双方共有用户数据之间的内在联系,通过对偶学习可以从一方准确地推断另一方加密的数据,而不泄露隐私或导致原始数据丢失。对偶模型经过训练并采用对偶交叉验证来提高补充数据的可靠性,使得训练得到的对偶模型具有一定的对偶预测准确性,可以利用独属于一方的非共有用户数据,推测另一方的用户数据,由于推测得到的用户数据在另一方中并不存在,即第二预测特征数据组在所述第二客户端中并未真实存在,因此,不会泄露所述第二客户端的用户隐私,避免了隐私泄露问题。通过对偶预测,利用一方独有的用户数据和由这部分用户数据预测的对方用户数据,可以大幅补充原有的共有用户数据集,为联邦学习模型增加可靠的样本数据,从而能够有效解决用户汇总端和医院端的纵向联邦学习中共有用户少引发的共有用户数据集不足的问题,能够提升关于用户心脑血管疾病参考信息的标签数据的预测效果,达到与非分布式学习媲美的预测准确率。而且,由于本发明实施例实施过程中数据结构几乎无损,应用该联邦对偶学习框架的预测方案可扩展到各种有效的模型,具有广泛的应用前景。
以下将结合附图及对本发明做进一步详细说明。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所提供的一种联邦学习模型训练方法的流程示意图;
图2为本发明实施例所提供的一种心脑血管疾病参考信息预测系统的结构示意图;
图3为本发明实施例所提供的一种心脑血管疾病参考信息预测方法的流程示意图;
图4为本发明实施例所提供的另一种心脑血管疾病参考信息预测方法的流程示意图;
图5为本发明实施例所提供的一种心脑血管疾病参考信息预测装置的结构示意图;
图6为本发明实施例所提供的一种关于心脑血管疾病参考信息预测的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了解决用户方和医院方在少量的共有用户数据集上,如何有效利用联邦学习预测用户心脑血管疾病的参考信息的问题,本发明实施例提供了心脑血管疾病参考信息预测系统、方法、装置、电子设备及存储介质,以及一种联邦学习模型训练方法。
为了便于理解方案,首先对本发明实施例提供的一种联邦学习模型训练方法予以介绍。
第一方面,本发明实施例提供了一种联邦学习模型训练方法,用于后续的用户心脑血管疾病参考信息的标签数据的预测,请参见图1,图1为本发明实施例所提供的一种联邦学习模型训练方法的流程示意图。可以包括以下步骤:
S101,参与联邦学习模型训练的用户汇总端和医院端分别获取各自的用户数据;
本发明实施例中,参与联邦学习模型训练的用户汇总端和医院端之间地位平等;用户汇总端汇总有多个用户的用户数据;比如,每个用户可以拥有家庭式或者便携式的用户端,用户端可以是家庭内的服务器,也可以是用户的智能健康设备,比如,手环、手表、手机等;用户端负责采集、记录该用户的用户数据,并将该用户的用户数据发送给用户汇总端,或者可以由用户汇总端主动获取各个用户端的用户数据,当然,用户数据的传输可以采用一定的加密方式;用户汇总端负责汇总多个用户端的用户数据,对用户数据采取一定的保密措施进行保存,防止用户数据泄露。用户汇总端所属的机构可以为用户信赖的机构,比如社区等区域性的便民健康机构、政府机构等等,用户汇总端具体可以为一个服务器或数据库等。
医院端为隶属于医院的客户端,具体可以为医院的一个服务器或数据库等。医院端获取用户数据的方式可以是接收医生输入的就医用户的用户数据,也可以是从医院预设存储地址获取预先存储的就医用户的用户数据等等,当然,医院端获取用户数据可以采用一定的加密方式,这都是合理的。
在此,并不对本发明实施例中用户汇总端和医院端的形式,以及获取用户数据的方式进行限定。可以理解的是,两者获取的用户数据属于自身机构的隐私数据。
用户汇总端获取到的用户数据包括:用户的标识数据和特征数据组;医院端获取到的用户数据包括:用户的标识数据、特征数据组以及标签数据。
其中,标识数据为区别用户身份的数据,包括ID(Identity document,身份标识号),具体可以为数字、符号、图形、图像等形式,具体可以为用户的身份证号、姓名等。在此,并不对本发明实施例的标识数据的形式进行限制,任何可以区别用户身份的数据形式均可以作为本发明实施例的标识数据的形式。
用户汇总端的特征数据组包括用户多个日常生活状态数据,这些数据体现用户日常的一些生活状态情况和基础体征情况,这些数据是用户可以自己记录,以及通过一些简便的检测设备检测得到的,比如利用智能手环采集到的,而并非采用医院特有检测手段才能获取到的。
可选的,多个日常生活状态数据至少包括:饮食结构特征数据、运动特征数据、心率特征数据;
饮食结构特征数据可以包括预定时间段内卡路里摄入量、预定时间段内酒精摄入量、预定时间段内脂肪摄入量、预定时间段内钠盐摄入量等特征数据。运动特征数据可以包括预定时间段内运动频次、预定时间段内运动时长、预定时间段内卡路里消耗量等特征数据;预定时间段可以为一日、一周等。心率特征数据表征安静状态下每分钟心跳次数。当然,多个日常生活状态数据还可以包括脉搏特征数据、预定时间段内睡眠特征数据等等。
医院端的特征数据组包括用户多个检测数据,也就是一般在医院才可以获得的检测数值或者图表,这些检测数据通常需要专业的仪器、设备以及检测人员才可以获得。
可选的,多个检测数据至少包括:心电图特征数据、血常规特征数据、尿常规特征数据、血脂特征数据、血糖特征数据;需要说明的是,上述每一个特征数据中又可以包括多种具体的特征数据,比如,血脂特征数据可以包括甘油三酯含量、胆固醇含量,血糖特征数据可以包括空腹全血血糖含量、餐后预定时间后的血糖含量等。
当然,多个检测数据还可以包括血液流变学测定、头颅CT、头颅MRI、脑血管造影、经颅彩色多普勒超声等特征数据;
可选的一种方式中,日常生活状态数据或者检测数据中的任意一个还可以包括血压特征数据,这都是合理的。
可以理解的是,特征数据可以以数值、向量等形式表征。
在本发明实施例中,医院端的标签数据表征用户心脑血管疾病参考信息;训练阶段的标签数据可以是由医生标注的,当然也可以是医院方使用其他算法自动标注的。
可选的,用户心脑血管疾病参考信息可以包括:用户患心脑血管疾病的可能性,或者用户的心脑血管疾病复发可能性。其中,可能性可以是一个概率值,也可以是一个分类结果,比如是或者否。
当然,用户心脑血管疾病参考信息也可以是医生评定的患者等级、用户是否需要住院、用户是否需要药物治疗等信息。以上用户心脑血管疾病参考信息均可以为用户提供关于心脑血管疾病的一些参考,比如,用户获得患心脑血管疾病的可能性后可以进行一些预防或者自我治疗手段,或者帮助用户决策是否立即就医;同时,这些用户心脑血管疾病参考信息也可以辅助医生进行心脑血管疾病确诊、治疗,以及进行医学研究等医学工作。
一种常用的情况下,标签数据可以为一个概率值;比如表征用户患心脑血管疾病的可能性的标签数据可以为用户患心脑血管疾病的概率值,比如0.5或者50%,表示用户患心脑血管疾病的概率为0.5或者50%;另一种常用的情况下,标签数据可以为一个二分类结果,表示“是”/“否”,或者表示“高”/“低”等。比如表征用户是否需要住院的标签数据可以为“是”,其表示用户需要住院治疗。又比如表征用户的心脑血管疾病复发可能性的标签数据可以为“高”,其表示复发可能性较高;当然,标签数据也可以用数字、字母、符号、图形等表示,比如,以“1”表示是,“0”表示否;或者以“Y”表示是,以“N”表示否;或者以圆形表示是,以三角形表示否;或者以“1”表示高,“0”表示低;或者以圆形表示高,以三角形表示低;或者以不同形状、数值表示不同患者等级等等,这都是合理的。
需要说明的是,用户汇总端和医院端的用户数据中,标识数据有重叠,也就是说,用户汇总端和医院端具有部分重叠用户,但因为两者的类型和业务不同,两者的特征数据组完全不同。
S102,用户汇总端和医院端确定共有用户,得到共有用户数据集;
可选的一种实现方式中,用户汇总端和医院端利用加密的用户对齐技术,确定共有的标识数据;将用户汇总端和医院端中,包含共有的标识数据的用户数据的合集,确定为共有用户数据集。
比如,用户汇总端A的用户数据为医院端B的用户数据为其中,x为特征数据组,y为标签数据。通过加密的用户对齐技术可以得到A和B的共有用户数据集为/>需要说明的是,在本文中后续的A均代表用户汇总端,B均代表医院端。
在该步骤中,用户汇总端和医院端在不公开各自用户数据的前提下,确认共有用户,并且不暴露不互相重叠的用户,以便联合共有用户的用户数据进行后续的训练。
当然,本发明实施例中,确定共有用户的方法不限于加密的用户对齐技术。关于加密的用户对齐技术,可以参见现有技术中的相关介绍,在此不做赘述。
S103,用户汇总端和医院端基于共有用户数据集进行加密对偶学习,将各自的标识数据增加至用户汇总端和医院端的标识数据的并集,并补全各自的特征数据组,得到用户汇总端和医院端扩展的共有用户数据集;
现有联邦学习模型的训练过程,是直接在共有用户数据集上进行,但在实际应用中,共有用户数据集通常极其有限,无法实现较好的训练效果,且属于用户汇总端和医院端的大量独有的用户数据被浪费。
目前机器学习领域内,对偶学习广泛应用于机器翻译模型的修正,对偶学习基本思想是两个对偶的任务能形成一个闭环反馈系统,可以从未标注的数据上获得反馈信息,进而利用该反馈信息提高对偶任务中的两个机器学习模型。本发明实施例考虑是否能够在联邦学习中引入对偶学习的思想,利用对偶学习增强用户汇总端和医院端的用户数据之间的内在概率联系,实现从一方预测对方的用户数据,从而扩展共有用户数据集。具体的,S103可以包括以下步骤:
S1031,用户汇总端和医院端各自建立对偶模型;
在可选的一种实现方式中,对偶模型可以为一个由编码器和解码器组成的神经网络,在可选的其他实现方式中,对偶模型还可以为长短期记忆网络、卷积神经网络等,在此,并不对本发明实施例中的对偶模型的结构进行限定。
对偶模型用于预测本端用户的特征数据组在另一端的特征数据组。以A和B之间的对偶预测举例说明:
针对A的对偶模型MA,其任务是找到一个映射函数f,实现f:xA→xB,即通过输入A的特征数据组xA来计算对B的特征数据组xB的预测值针对B的对偶模型MB,其任务是找到一个映射函数g,实现g:xB→xA,即通过输入B的特征数据组xB来计算对A的特征数据组xA的预测值/>
可以理解的是,xA至少包括饮食结构特征数据、运动特征数据、心率特征数据;xB和/>至少包括心电图特征数据、血常规特征数据、尿常规特征数据、血脂特征数据、血糖特征数据。
S1032,用户汇总端和医院端将共有用户数据集划分为训练集和测试集,并对训练集中属于本端的用户数据进行加密,得到用户汇总端和医院端各自的加密用户数据;
首先,用户汇总端和医院端将共有用户数据集划分为训练集和测试集,以在训练集上进行后续的对偶模型训练,在测试集上验证对偶模型的训练效果。具体的,可以采用以下任意一种实现方式进行共有用户数据集的划分:
可选的一种实现方式中,可以将共有用户数据集任意划分为两部分,一部分为训练集,一部分为测试集;
可选的另一种实现方式中,可以将共有用户数据集平均划分为两部分,一部分为训练集,一部分为测试集;
可选的又一种实现方式中,可以将共有用户数据集平均划分为K份,其中K为大于1的自然数。将其中一份作为测试集,将其余部分作为训练集。在该种实现方式中,训练集的用户数据多于测试集的用户数据,可以保证对偶模型训练具有足够的样本数,提升训练的准确性,同时利用少量数据进行验证以简化验证的复杂度。
其次,用户汇总端和医院端对训练集中属于本端的用户数据进行加密,得到用户汇总端和医院端各自的加密用户数据。
如前,本发明实施例将在训练集上进行后续的对偶模型训练,因此,用户汇总端和医院端为了后续训练过程中用户数据的隐私保护,需要将属于本端的用户数据进行加密,得到加密用户数据。加密方式可以采用归一化、标准化、基于相关性的差分加密等方式中的任意一种,当然,本发明实施例中用户数据的加密方式不限于以上。
为了简化理解,在后续步骤的对偶模型训练过程中,xA表示A的加密用户数据,xB表示B的加密用户数据。
需要补充说明的是,在涉及对偶模型的部分,针对每个对偶模型的输入数据和输出数据均进行有加密/解密操作,以保证数据传输的隐私性和安全性。
S1033,用户汇总端和医院端迭代性地基于各自的加密用户数据和对偶模型,进行对偶预测、梯度数据计算,并加密互传各自的计算结果,更新各自的对偶模型参数,直至利用训练集和测试集进行联邦对偶交叉验证,判定满足对偶模型收敛条件时停止迭代,获得各自训练完成的对偶模型;
在本步骤中,用户汇总端和医院端基于各自的加密用户数据和对偶模型,进行对偶预测、梯度数据计算,并加密互传各自的计算结果,更新各自的对偶模型参数,即进行对偶模型训练过程。也就是由A和B进行上述交互的对偶模型训练,更新MA和MB的对偶模型参数,当A和B均完成对偶模型参数的一次更新时,视为用户汇总端和医院端完成一次对偶模型的训练。
可以在迭代N次上述训练过程后,执行验证过程,即利用训练集和测试集进行联邦对偶交叉验证,判定是否满足对偶模型收敛条件,如果是,则停止对偶模型的迭代训练,获得各自训练完成的对偶模型,如果否,则继续对偶模型的迭代训练,直至对偶模型收敛。其中,N为大于等于1的自然数,N可以根据需要合理选择,比如,可以在迭代3次后执行验证过程,也可以在每次迭代后均执行验证过程,这都是合理的。
为了便于理解,将步骤S1033划分为对偶模型的训练过程和验证过程。
1)针对于对偶模型的训练过程的介绍如下:
在A和B的对偶学习中,训练(f,g)的方法可以是使A和B用户数据空间中的经验风险最小化,即:
其中,Nc是共有用户数据集;i表示某个用户;f是MA的任务函数,是A中用户i的用户数据,θAB是MA的模型参数,如果MA为神经网络则θAB可以为神经网络的权重;g是MB的任务函数,/>是B中用户i的用户数据;θBA是MB的模型参数,如果MB为神经网络则θBA可以为神经网络的权重;lalign是直接预测的损失函数,即经验风险,用于表征对偶模型的预测值和真实值之间的差值。
然而,上述公式(1)和(2)中的损失函数没有考虑到f和g映射之间的概率对偶性,概率对偶性可以保证同一用户在双方产生的数据的内在联系,基于此,由任意一方的数据可以推测另一方的数据。概率对偶性以公式体现即为:
P(xA)P(xB|xA;θAB)=P(xB)P(xA|xB;θBA)=P(xA,xB) (3)
其中,P(xA)表示xA在A的用户数据中的概率;P(xB)表示xB在B的用户数据中的概率;P(xB|xA;θAB)表示在A的用户数据中出现xA时,B的用户数据中同一用户的xB出现的概率;P(xA|xB;θBA)表示在B的用户数据中出现xB时,A的用户数据中同一用户的xA出现的概率;P(xA,xB)表示同一用户的xA和xB同时出现在AB用户数据中的概率。
因此,引入公式(3)的概率对偶性作为约束条件,并利用拉格朗日乘数法将其转化为正则项,可以得到对偶损失函数的表达式为:
其中,ldual表示对偶损失函数;表示对偶模型输出的预测值,即预测的特征数据组;/>表示B的用户数据中出现xB时,A的用户数据中出现/>的概率;/>表示A的用户数据中出现xA时,B的用户数据中出现的概率。
为了简便,将记为/>将/>记为/>则公式(4)可以变为:
因此,对于对偶模型MA和MB,各自的损失函数可以利用以下公式计算:
其中λ为加权值。
在对偶模型的训练过程中,需要最小化以上损失函数L,来提高预测数据的可靠性。以对偶模型MA为例,其任务是通过输入xA得到预测值可以理解的是,未经训练的模型MA输出的预测值/>与真实值xB之间存在误差,由于MA的输入xA与真实值xB为固定值,因此,只能通过改变MA的模型参数,来调整MA输出的预测值/>通过将预测值/>和真实值xB之间的误差(即模型损失)最小化,实现预测值逼近真实值的目的,以完成MA的训练。
上述模型损失最小化的问题可以近似成一个在损失空间寻找最小值的过程,可以采用梯度下降法等方法求解,求得模型损失对于输出的梯度,即损失函数的梯度值,将其作为优化方向。因此,实际上,本发明实施例的对偶模型训练中,需要最小化的损失函数可以为:
那么,对偶模型的训练过程实际上可以为:用户汇总端和医院端基于各自的加密用户数据和对偶模型,进行对偶预测、梯度数据计算,并加密互传各自的计算结果,分别基于接收到的计算结果,获得各自的损失函数的梯度值;分别利用各自的损失函数的梯度值,更新各自的对偶模型参数,以完成一次对偶模型的训练过程。
以下具体说明A和B的一次对偶模型训练过程,其中,A和B预先初始化模型参数θAB和θBA,并在共有用户数据集中的训练集上进行对偶训练。
针对A来说,具体为:
针对B来说,具体为:
其中,表示MA的输出层的梯度,λB为B的加权值,可以预先由B设定,/>表示MB的输出层的梯度,λA为A的加权值,可以预先由A设定。
为了便于理解,先对A和B的对偶训练过程中,MA的一次训练过程进行说明,MA的一次训练过程具体可以包括以下步骤:
①A将xA输入MA中,利用MA的函数进行计算,输出预测值/>并将/>发送给B;
②B接收到后,计算/>与自身用户数据中xB的差值/>由于对偶模型MA和MB分别由A和B独立设计并保存在本地,B对MA的网络结构并不了解,因此B只能计算出MA输出层的梯度/>而无法得到MA其它网络层的梯度,即B将/>对MA的输出层/>求梯度,得到梯度/>
并且,B计算xB的概率P(xB)、以及的概率/>从而计算
继而,B将上述两个计算结果求和,得到
并将其发送给A;
③A计算xA的概率P(xA)、以及的概率/>继而计算/>但由于/>涉及到A的概率分布信息,不能直接发送给B,因此,A将其进行加法同态加密为/>并将/>发送给B;
④B接收到后,由于对加法同态加密进行乘法不会影响解密,因此B计算/>并将/>返回给A;
⑤A将接收到的解密,得到
⑥A将接收到的和/>求和,得到梯度:
之后A可以利用链式法则进一步计算MA各层的梯度,在MA中进行反向传播来更新模型参数θAB,完成MA的一次训练过程。可以理解的是,MB的一次训练过程与MA类似。
实际上A和B是交互完成各自的对偶训练,实现双方对偶模型的参数更新。为了对双方交互过程进行整体认知,以下将AB对偶训练的数据交互过程整体进行简要介绍,具体可以包括以下步骤:
A初始化θAB,B初始化θBA;在共有用户数据集中的训练集中重复执行以下过程:
A针对每个i,输入一用户特征数据组利用/>计算得到/>并将/>发送给B;
B针对每个i,输入一用户特征数据组利用/>计算得到/>并将/>发送给A;
并且,B根据接收到的计算
并将其发送给A;/>
并且,B计算并加法同态加密得到/>将其发送给A;
A根据接收到的计算
并将其发送给B;
并且,A计算并加法同态加密得到/>将其发送给B;
并且,A计算将其发送给B;
B计算将其发送给A;
并且,B对每一个i,解密得到/>继而求和计算得到/>
A对每一个i,解密得到继而求和计算得到/>
A利用反向传播算法计算MA每一层的梯度值,更新θAB;B利用反向传播算法计算MB每一层的梯度值,更新θBA,至此完成A和B的一次对偶训练。
可见,在上述对偶训练中,双方进行对偶预测、梯度数据计算,加密互传各自的计算结果,获得各自损失函数的梯度值,更新各自的对偶模型参数,但并未泄露各自的隐私数据。
共有用户数据集中的训练集都训练完一次称作一个epoch,每个epoch后,可以执行验证过程。
2)针对于对偶模型的验证过程的介绍如下:
在本发明实施例中,利用训练集和测试集进行联邦对偶交叉验证,可以包括以下步骤:
医院端从自身多个用户数据中选取含有标签数据,且不属于共有用户数据集的所有用户数据作为新增用户数据,利用医院端的对偶模型获得新增用户数据在用户汇总端的新增预测用户数据;
用户汇总端和医院端基于训练集进行第一次联邦学习模型训练,并在测试集上验证标签数据的预测准确率,获得第一预测准确率;
用户汇总端和医院端基于在训练集加入新增用户数据、新增预测用户数据之后的数据集,进行第二次联邦学习模型训练,并在测试集上验证标签数据的预测准确率,获得第二预测准确率;
用户汇总端和医院端判断第二预测准确率与第一预测准确率的差值是否小于预设阈值,若是,则满足对偶模型收敛条件。
可以理解的是,如果第二预测准确率与第一预测准确率的差值未小于预设阈值,则重新迭代对偶模型的训练过程。
其中,预设阈值T根据经验值选取,比如T=0.1~0.15中的任意值。
为了便于理解上述验证过程,以下举例说明:
A和B的共有用户数据集为其中共有用户的标识数据为U1、U2、U3;训练集由双方U1、U2对应的用户数据构成,在训练集上进行对偶训练过程;测试集由双方U3对应的用户数据构成。B的用户中,不属于DC用户且含有标签数据的用户仅有U4
⑴,B选取U4的用户数据,作为新增用户数据利用MB预测U4在A的特征数据组,得到新增预测用户数据/>
⑵,基于AB的U1、U2用户数据构成的训练集,进行第一次联邦学习模型训练,即进行联邦学习模型MF1的训练,并在AB的U3用户数据构成的测试集上验证标签数据的预测准确率,获得第一预测准确率;
⑶,在训练集中加入B的新增用户数据以及B预测的A方的新增预测用户数据即为训练集补充样本,并在补充样本后的训练集上进行第二次联邦学习模型训练,即进行联邦学习模型MF2的训练,并在测试集上验证标签数据的预测准确率,获得第二预测准确率;
⑷,判断第二预测准确率与第一预测准确率的差值是否小于预设阈值T=0.12,若是,则满足对偶模型收敛条件。即如果使用了补充样本的联邦学习模型MF2的训练效果比未使用补充样本的联邦学习模型MF1的训练效果好,则可以认为对偶模型是有效的,即实现收敛。
其中,预测准确率是在测试集上,比较联邦学习模型预测的标签数据与真实的标签数据的差异程度确定的,差异程度越小表示联邦学习模型对于用户心脑血管疾病参考信息的标签数据的预测准确率越高。
本发明实施例中,通过联邦对偶交叉验证的方式,可以提高对偶模型预测样本的可靠性。
S1034,用户汇总端和医院端利用各自训练完成的对偶模型进行相互预测,获得各自补充后的标识数据,补充后的标识数据为用户汇总端和医院端的标识数据的并集;以及,通过预测本端的特征数据组在另一端的特征数据组,获得用户汇总端和医院端各自补全的特征数据组;
可以理解的是,当步骤S1033判定满足对偶模型收敛条件后,用户汇总端和医院端得到各自训练完成的对偶模型。此时,用户汇总端和医院端利用各自的对偶模型进行相互预测,可以实现自身标识数据和特征数据组的补充。即通过对偶预测,用户汇总端和医院端的标识数据补充为两者的标识数据的并集。比如上述A和B各自的标识数据均补充成为AB所有标识数据。
同时,通过预测本端的特征数据组在另一端的特征数据组,可以使得新增的用户标识数据对应的特征数据组由空白得到了补充,获得用户汇总端和医院端各自补全的特征数据组。可见,相比于S102中确定的共有用户,在S1034后,共有的用户标识数据和特征数据组都有明显增加。
S1035,根据用户汇总端和医院端各自的补充后的标识数据和补全的特征数据组,得到用户汇总端和医院端扩展的共有用户数据集。
用户汇总端或者医院端的补充后的标识数据和补全的特征数据组构成该端的扩展的用户数据;由于用户汇总端或者医院端的补充后的标识数据一致,因此,集合两者的扩展的用户数据,可以得到两者扩展的共有用户数据集。
S104,用户汇总端和医院端基于扩展的共有用户数据集,在服务端的协助下,进行联邦学习模型训练,直至达到联邦学习模型收敛条件,获得训练完成的联邦学习模型。
可以理解的是,通过S103步骤,获得了用户汇总端和医院端的扩展的共有用户数据集,针对纵向联邦学习来说,共有用户的标识数据增加,有利于提高模型训练效果。之后,可以利用扩展的共有用户数据集训练纵向联邦学习模型。该过程可以参考现有技术中纵向联邦学习模型的训练过程。以下进行概要介绍。
为了保证训练过程中数据的保密性,需要借助第三方协作者进行加密训练。第三方协作者C可以由政府或Intel的安全计算节点担任。
以线性回归模型为例,S104的联邦学习模型的训练过程可以包括以下步骤:
第一步:C把公钥分发给A和B,用以对训练过程中需要交换的数据进行加密;
第二步:A和B之间以加密形式交互用于计算梯度的中间结果;
第三步:A和B分别基于加密的梯度值进行计算,同时B根据其标签数据计算损失,并把这些结果汇总给C。C通过汇总结果计算总梯度并将其解密。
第四步:C将解密后的梯度分别回传给A和B;A和B根据梯度更新各自模型的参数。
迭代上述步骤直至损失函数收敛,则完成联邦学习模型的训练,A和B拥有训练得到的联邦学习模型参数,C中保存有训练好的联邦学习模型。
需要说明的是,本发明实施例中,联邦学习模型可以为逻辑回归模型、树形结构模型和神经网络模型等众多机器学习模型中的任意一种,在此,并不对本发明实施例中的联邦学习模型进行限制。
本发明实施例提供的联邦学习模型训练方法,在联邦学习问题中引入了对偶学习,提出一种联邦对偶学习框架。用户汇总端和医院端通过对偶学习,可以准确地从一方推断另一方加密的数据,而不泄露隐私或导致原始数据丢失,并采用联邦对偶交叉验证来提高补充数据的可靠性。从而能够有效解决用户汇总端和医院端在纵向联邦学习中共有用户少引发的共有用户数据集不足的问题,有利于后续心脑血管疾病参考信息的标签数据预测的准确率。此外,由于本发明实施例实施过程中数据结构几乎无损,该联邦对偶学习框架可扩展到各种有效的模型,具有广泛的应用前景。
在上述训练完成的联邦学习模型基础上,第二方面,本发明实施例提供了一种心脑血管疾病参考信息预测系统,请参见图2,图2为本发明实施例所提供的一种疾病参考信息预测系统的结构示意图。关于联邦学习模型的训练过程参见前文,在此不做赘述。
如图2所示,本发明实施例所提供的一种心脑血管疾病参考信息预测系统100可以包括:第一客户端110、第二客户端120,以及服务端130;第一客户端110、第二客户端120对应训练阶段的用户汇总端和医院端。
第一客户端110,用于获取待预测标签数据的目标用户的第一标识数据和第一特征数据组;利用第一客户端110的对偶模型,预测第一特征数据组在第二客户端120的第二预测特征数据组,将第一标识数据和第二预测特征数据组的加密数据发送给第二客户端120;并且,利用第一客户端110训练得到的联邦学习模型参数,获得第一特征数据组的第一加密加权值,并将第一加密加权值发送给服务端130;
第二客户端120,用于利用接收到的加密数据,确定目标用户在第二客户端120的第二目标特征数据组,利用第二客户端120训练得到的联邦学习模型参数,获得第二目标特征数据组的第二加密加权值,并将第二加密加权值发送给服务端130;
服务端130,用于对接收到的第一加密加权值和第二加密加权值求和,并对求和结果进行解密,得到目标用户的目标标签数据,并将目标标签数据返回给第一客户端110;其中,目标标签数据表征目标用户心脑血管疾病的参考信息;
其中,第一客户端110为用户汇总端或医院端之一,第二客户端120为用户汇总端或医院端之另一;用户汇总端、医院端各自拥有预先训练的对偶模型;用户汇总端汇总有多个用户的用户数据;服务端130拥有预先训练的联邦学习模型;联邦学习模型是用户汇总端和医院端经过加密对偶训练扩展共有用户数据集后,借助服务端130进行联邦学习得到的;用户汇总端用于联邦学习模型训练的用户数据包括用户的标识数据、由用户多个日常生活状态数据构成的特征数据组;医院端用于联邦学习模型训练的用户数据包括用户的标识数据、由用户多个检测数据构成的特征数据组、表征用户心脑血管疾病参考信息的标签数据。
为了方案清楚,下面对心脑血管疾病参考信息预测系统100中的各个组成部分分别进行介绍:
第一客户端110为用户汇总端或医院端之一,第二客户端120为用户汇总端或医院端之另一;
当第一客户端110为用户汇总端,第二客户端120为医院端时,第一特征数据组至少包括饮食结构特征数据、运动特征数据、心率特征数据,第二特征数据组至少包括心电图特征数据、血常规特征数据、尿常规特征数据、血脂特征数据、血糖特征数据;
当第一客户端110为医院端,第二客户端120为用户汇总端时,第一特征数据组至少包括心电图特征数据、血常规特征数据、尿常规特征数据、血脂特征数据、血糖特征数据,第二特征数据组至少包括饮食结构特征数据、运动特征数据、心率特征数据。关于用户汇总端和医院端的内容、用户多个日常生活状态数据、用户多个检测数据的内容参见前文所述,在此不再赘述。
以下,以第一客户端110为用户汇总端,第二客户端120为医院端进行介绍,另一种方案与此类似,在此不做赘述。
1)针对于第一客户端110的介绍内容如下:
本发明实施例中,第一客户端110为需要进行用户心脑血管疾病参考信息的标签数据预测的用户汇总端A。第一客户端110具体执行以下步骤:
①,第一客户端110,用于获取待预测标签数据的目标用户的第一标识数据和第一特征数据组;利用第一客户端110的对偶模型,预测第一特征数据组在第二客户端120的第二预测特征数据组,将第一标识数据和第二预测特征数据组的加密数据发送给第二客户端120;具体的:
A获取待预测标签数据的目标用户U的第一标识数据U和第一特征数据组其中,至少包括饮食结构特征数据/>运动特征数据/>心率特征数据/>A利用其对偶模型MA,预测/>在B的第二预测特征数据组/>至少包括心电图特征数据/>血常规特征数据尿常规特征数据/>血脂特征数据/>血糖特征数据/>
A分别对U和加密,加密方式可以采用归一化、标准化、基于相关性的差分加密等方式中的任意一种。
A将U的加密数据和的加密数据发送给B。
②,第一客户端110利用第一客户端110训练得到的联邦学习模型参数,获得第一特征数据组的第一加密加权值,并将第一加密加权值发送给服务端130;
需要说明的是,第一客户端110训练得到的联邦学习模型参数为,与第一客户端110的第一特征数据组中的多个特征数据一一对应的权重;即,A训练得到的联邦学习模型参数为:与对应的权重/>与/>对应的权重/>与/>对应的权重/>
那么,相应的,利用第一客户端110训练得到的联邦学习模型参数,获得第一特征数据组的第一加密加权值,可以包括:
利用与第一客户端110的第一特征数据组中的多个特征数据一一对应的权重,对第一特征数据组中的各个特征数据对应加权,并对所有加权后的特征数据求和,得到第一加权值;对第一加权值进行同态加密,得到第一加密加权值。
针对该步骤具体的:
A计算并将上述三个加权后的特征数据求和,得到第一加权值为/>
A对第一加权值进行同态加密,得到第一加密加权值[[uA]]。
A将第一加密加权值[[uA]]发送给服务端130。
2)针对于第二客户端120的介绍内容如下:
本发明实施例中,第二客户端120为医院端B。第二客户端120具体执行以下步骤:
①,第二客户端120利用接收到的加密数据,确定目标用户在第二客户端120的第二目标特征数据组;具体包括以下步骤:
第二客户端120,利用第一标识数据的加密数据,判断第二客户端120是否存在第一标识数据;
如果是,将第二客户端120中第一标识数据对应的特征数据组确定为目标用户在第二客户端120的第二目标特征数据组,如果否,对接收到的第二预测特征数据组的加密数据进行解密,得到第二预测特征数据组,并将第二预测特征数据组确定为目标用户在第二客户端120的第二目标特征数据组。
具体的:
B利用U的加密数据,通过加密的用户对齐技术,确定自身的标识数据中是否有U,如果是,B将自身的用户数据中,U对应的特征数据组确定为U在B中的第二目标特征数据组,可以理解的是,/>也包括/>这五个特征数据;如果否,B对接收到的/>的加密数据进行解密,得到/>并将/>确定为U在B中的第二目标特征数据组。
②,第二客户端120利用第二客户端120训练得到的联邦学习模型参数,获得第二目标特征数据组的第二加密加权值,并将第二加密加权值发送给服务端130。
需要说明的是,第二客户端120训练得到的联邦学习模型参数为,与第二客户端120的特征数据组中的多个特征数据一一对应的权重;即B训练得到的联邦学习模型参数为:与对应的权重/>与/>对应的权重/>与/>对应的权重/>与/>对应的权重/>与/>对应的权重/>可以理解的是,第二客户端120训练得到的联邦学习模型参数与第二客户端120的第二目标特征数据组中的多个特征数据是一一对应的。
那么,相应的,利用第二客户端120训练得到的联邦学习模型参数,获得第二目标特征数据组的第二加密加权值,可以包括:
利用与第二客户端120的第二目标特征数据组中的多个特征数据一一对应的权重,对第二目标特征数据组中的各个特征数据对应加权,并对所有加权后的特征数据求和,得到第二加权值;对第二加权值进行同态加密,得到第二加密加权值。
针对该步骤具体的:
B计算并将上述五个加权后的特征数据求和,得到第二加权值为/>
B对第二加权值进行同态加密,得到第二加密加权值[[uB]]。
B将第二加密加权值[[uB]]发送给服务端130。
3)针对于服务端130的介绍内容如下:
本发明实施例中,服务端130为,协助第一客户端110、第二客户端120完成联邦学习模型训练的一个服务端,即为前文的第三方协作者C。
服务端130对接收到的第一加密加权值和第二加密加权值求和,并对求和结果进行解密,得到目标用户的目标标签数据,并将目标标签数据返回给第一客户端110。其中,目标标签数据表征目标用户的心脑血管疾病参考信息。至此完成对目标用户的目标标签数据的预测过程。
举例说明:服务端130,也就是C,对接收到的第一加密加权值和第二加密加权值求和,得到
并对上述求和结果解密,得到目标用户U的目标标签数据并把标签数据y返回给A。至此完成目标用户U的标签数据的预测。
可选的,在第一客户端110接收到目标标签数据后,可以进行显示,也可以将目标标签数据发送给目标用户。
本发明实施例的心脑血管疾病参考信息预测系统,拥有联邦学习模型的服务端,从第二客户端接收到的第二加密加权值是,待预测用户心脑血管疾病参考信息的第一客户端获取待预测标签数据的目标用户的第一标识数据和第一特征数据组后,针对第二客户端,利用第一客户端的对偶模型,预测第一特征数据组在第二客户端的第二预测特征数据组,将第一标识数据和第二预测特征数据组的加密数据发送给第二客户端,再由第二客户端利用接收到的加密数据,确定目标用户在该第二客户端的第二目标特征数据组,利用第二客户端训练得到的联邦学习模型参数,获得的第二目标特征数据组的加密加权值。因此,可以在第二客户端没有目标用户的特征数据组时,利用第一客户端对偶预测的第二预测特征数据组作为第二客户端的第二目标特征数据组,即在数据缺失的情况下补充数据,增加了联邦学习模型的用户数据。
本发明实施例中,通过对偶学习的方式,可以学习用户汇总端和医院端双方共有用户数据之间的内在联系,通过对偶学习可以从一方准确地推断另一方加密的数据,而不泄露隐私或导致原始数据丢失。对偶模型经过训练并采用对偶交叉验证来提高补充数据的可靠性,使得训练得到的对偶模型具有一定的对偶预测准确性,可以利用独属于一方的非共有用户数据,推测另一方的用户数据,由于推测得到的用户数据在另一方中并不存在,即第二预测特征数据组在第二客户端中并未真实存在,因此,不会泄露第二客户端的用户隐私,避免了隐私泄露问题。通过对偶预测,利用一方独有的用户数据和由这部分用户数据预测的对方用户数据,可以大幅补充原有的共有用户数据集,为联邦学习模型增加可靠的样本数据,从而能够有效解决用户汇总端和医院端的纵向联邦学习中共有用户少引发的共有用户数据集不足的问题,能够提升用户心脑血管疾病参考信息的标签数据的预测效果,达到与非分布式学习媲美的预测准确率。而且,由于本发明实施例实施过程中数据结构几乎无损,应用该联邦对偶学习框架的预测系统可扩展到各种有效的模型,具有广泛的应用前景。
在上述训练完成的联邦学习模型基础上,第三方面,本发明实施例提供了一种心脑血管疾病参考信息预测方法,请参见图3,图3为本发明实施例所提供的一种心脑血管疾病参考信息预测方法的流程示意图。如图3所示,方法可以包括如下步骤:
S301,第一客户端获取待预测标签数据的目标用户的第一标识数据和第一特征数据组;利用第一客户端的对偶模型,预测第一特征数据组在第二客户端的第二预测特征数据组,将第一标识数据和第二预测特征数据组的加密数据发送给第二客户端;并且,利用第一客户端训练得到的联邦学习模型参数,获得第一特征数据组的第一加密加权值,并将第一加密加权值发送给服务端;
S302,第二客户端利用接收到的加密数据,确定目标用户在第二客户端的第二目标特征数据组,利用第二客户端训练得到的联邦学习模型参数,获得第二目标特征数据组的第二加密加权值,并将第二加密加权值发送给服务端;
S303,服务端对接收到的第一加密加权值和第二加密加权值求和,并对求和结果进行解密,得到目标用户的目标标签数据,并将目标标签数据返回给第一客户端;其中,目标标签数据表征目标用户心脑血管疾病的参考信息;
其中,第一客户端为用户汇总端或医院端之一,第二客户端为用户汇总端或医院端之另一;用户汇总端、医院端各自拥有预先训练的对偶模型;用户汇总端汇总有多个用户的用户数据;服务端拥有预先训练的联邦学习模型;联邦学习模型是用户汇总端和医院端经过加密对偶训练扩展共有用户数据集后,借助服务端进行联邦学习得到的;用户汇总端用于联邦学习模型训练的用户数据包括用户的标识数据、由用户多个日常生活状态数据构成的特征数据组;医院端用于联邦学习模型训练的用户数据包括用户的标识数据、由用户多个检测数据构成的特征数据组、表征用户心脑血管疾病参考信息的标签数据。
其中,本发明实施例中的第一客户端和第二客户端为前述的联邦学习模型训练过程中的用户汇总端和医院端。
可选的,多个日常生活状态数据至少包括:饮食结构特征数据、运动特征数据、心率特征数据;多个检测数据至少包括:心电图特征数据、血常规特征数据、尿常规特征数据、血脂特征数据、血糖特征数据;
相应的,
当第一客户端为用户汇总端,第二客户端为医院端时,第一特征数据组至少包括饮食结构特征数据、运动特征数据、心率特征数据,第二特征数据组至少包括心电图特征数据、血常规特征数据、尿常规特征数据、血脂特征数据、血糖特征数据;
当第一客户端为医院端,第二客户端为用户汇总端时,第一特征数据组至少包括心电图特征数据、血常规特征数据、尿常规特征数据、血脂特征数据、血糖特征数据,第二特征数据组至少包括饮食结构特征数据、运动特征数据、心率特征数据。
可选的,用户心脑血管疾病参考信息包括:
用户患心脑血管疾病的可能性,或者用户的心脑血管疾病复发可能性。
可选的,利用第一客户端训练得到的联邦学习模型参数,获得第一特征数据组的第一加密加权值,可以包括:
利用与第一客户端的第一特征数据组中的多个特征数据一一对应的权重,对第一特征数据组中的各个特征数据对应加权,并对所有加权后的特征数据求和,得到第一加权值;
对第一加权值进行同态加密,得到第一加密加权值。
其中,第一客户端训练得到的联邦学习模型参数为,与第一客户端的第一特征数据组中的多个特征数据一一对应的权重。
可选的,在第一客户端接收到目标标签数据后,可以进行显示,也可以将目标标签数据发送给目标用户。
可选的,利用第二客户端训练得到的联邦学习模型参数,获得第二目标特征数据组的第二加密加权值,可以包括:
利用与第二客户端的第二目标特征数据组中的多个特征数据一一对应的权重,对第二目标特征数据组中的各个特征数据对应加权,并对所有加权后的特征数据求和,得到第二加权值;
对第二加权值进行同态加密,得到第二加密加权值。
其中,第二客户端训练得到的联邦学习模型参数为,与第二客户端的第二目标特征数据组中的多个特征数据一一对应的权重。
可选的,第二客户端利用接收到的加密数据,确定目标用户在第二客户端的第二目标特征数据组,包括:
第二客户端利用第一标识数据的加密数据,判断第二客户端是否存在第一标识数据;
如果是,将第二客户端中第一标识数据对应的特征数据组确定为目标用户在第二客户端的第二目标特征数据组,如果否,对接收到的第二预测特征数据组的加密数据进行解密,得到第二预测特征数据组,并将第二预测特征数据组确定为目标用户在第二客户端的第二目标特征数据组。
关于联邦学习模型的训练过程以及其他内容,请参见前文,在此不做赘述。
本发明实施例的心脑血管疾病参考信息预测方法,拥有联邦学习模型的服务端,从第二客户端接收到的第二加密加权值是,待预测用户心脑血管疾病参考信息的第一客户端获取待预测标签数据的目标用户的第一标识数据和第一特征数据组后,针对第二客户端,利用第一客户端的对偶模型,预测第一特征数据组在第二客户端的第二预测特征数据组,将第一标识数据和第二预测特征数据组的加密数据发送给第二客户端,再由第二客户端利用接收到的加密数据,确定目标用户在该第二客户端的第二目标特征数据组,利用第二客户端训练得到的联邦学习模型参数,获得的第二目标特征数据组的加密加权值。因此,可以在第二客户端没有目标用户的特征数据组时,利用第一客户端对偶预测的第二预测特征数据组作为第二客户端的第二目标特征数据组,即在数据缺失的情况下补充数据,增加了联邦学习模型的用户数据。
本发明实施例中,通过对偶学习的方式,可以学习用户汇总端和医院端双方共有用户数据之间的内在联系,通过对偶学习可以从一方准确地推断另一方加密的数据,而不泄露隐私或导致原始数据丢失。对偶模型经过训练并采用对偶交叉验证来提高补充数据的可靠性,使得训练得到的对偶模型具有一定的对偶预测准确性,可以利用独属于一方的非共有用户数据,推测另一方的用户数据,由于推测得到的用户数据在另一方中并不存在,即第二预测特征数据组在第二客户端中并未真实存在,因此,不会泄露第二客户端的用户隐私,避免了隐私泄露问题。通过对偶预测,利用一方独有的用户数据和由这部分用户数据预测的对方用户数据,可以大幅补充原有的共有用户数据集,为联邦学习模型增加可靠的样本数据,从而能够有效解决用户汇总端和医院端的纵向联邦学习中共有用户少引发的共有用户数据集不足的问题,能够提升用户心脑血管疾病参考信息的标签数据的预测效果,达到与非分布式学习媲美的预测准确率。而且,由于本发明实施例实施过程中数据结构几乎无损,应用该联邦对偶学习框架的预测方法可扩展到各种有效的模型,具有广泛的应用前景。
在上述训练完成的联邦学习模型基础上,第四方面,本发明实施例提供了另一种心脑血管疾病参考信息预测方法,请参见图4,图4为本发明实施例所提供的另一种心脑血管疾病参考信息预测方法的流程示意图。
本发明实施例所提供的该种心脑血管疾病参考信息预测方法,应用于心脑血管疾病参考信息预测系统的第一客户端,该系统还包括一个第二客户端,以及服务端。本发明实施例的第一客户端和第二客户端为前述的联邦学习模型训练过程中的用户汇总端和医院端。如图4所示,方法可以包括如下步骤:
S401,获取待预测标签数据的目标用户的第一标识数据和第一特征数据组;
S402,利用第一客户端的对偶模型,预测第一特征数据组在第二客户端的第二预测特征数据组;
S403,将第一标识数据和第二预测特征数据组的加密数据发送给第二客户端;以使得第二客户端利用接收到的加密数据,确定目标用户在第二客户端的第二目标特征数据组,利用第二客户端训练得到的联邦学习模型参数,获得第二目标特征数据组的第二加密加权值,并将第二加密加权值发送给服务端;
S404,利用第一客户端训练得到的联邦学习模型参数,获得第一特征数据组的第一加密加权值,并将第一加密加权值发送给服务端;以使得服务端对接收到的第一加密加权值和第二加密加权值求和,并对求和结果进行解密,得到目标用户的目标标签数据,并将目标标签数据返回给第一客户端;其中,目标标签数据表征目标用户心脑血管疾病的参考信息;
S405,接收服务端返回的目标标签数据;
其中,第一客户端为用户汇总端或医院端之一,第二客户端为用户汇总端或医院端之另一;用户汇总端、医院端各自拥有预先训练的对偶模型;用户汇总端汇总有多个用户的用户数据;服务端拥有预先训练的联邦学习模型;联邦学习模型是用户汇总端和医院端经过加密对偶训练扩展共有用户数据集后,借助服务端进行联邦学习得到的;用户汇总端用于联邦学习模型训练的用户数据包括用户的标识数据、由用户多个日常生活状态数据构成的特征数据组;医院端用于联邦学习模型训练的用户数据包括用户的标识数据、由用户多个检测数据构成的特征数据组、表征用户心脑血管疾病参考信息的标签数据。
针对S401-S405的内容,参见前文第一方面的联邦学习模型训练方法、第二方面的心脑血管疾病参考信息预测系统、第三方面的心脑血管疾病参考信息预测方法的相关内容,在此不做赘述。关于联邦学习模型的训练过程不再赘述。
本发明实施例的心脑血管疾病参考信息预测方法,拥有联邦学习模型的服务端,从第二客户端接收到的第二加密加权值是,待预测用户心脑血管疾病参考信息的第一客户端获取待预测标签数据的目标用户的第一标识数据和第一特征数据组后,针对第二客户端,利用第一客户端的对偶模型,预测第一特征数据组在第二客户端的第二预测特征数据组,将第一标识数据和第二预测特征数据组的加密数据发送给第二客户端,再由第二客户端利用接收到的加密数据,确定目标用户在该第二客户端的第二目标特征数据组,利用第二客户端训练得到的联邦学习模型参数,获得的第二目标特征数据组的加密加权值。因此,可以在第二客户端没有目标用户的特征数据组时,利用第一客户端对偶预测的第二预测特征数据组作为第二客户端的第二目标特征数据组,即在数据缺失的情况下补充数据,增加了联邦学习模型的用户数据。
本发明实施例中,通过对偶学习的方式,可以学习用户汇总端和医院端双方共有用户数据之间的内在联系,通过对偶学习可以从一方准确地推断另一方加密的数据,而不泄露隐私或导致原始数据丢失。对偶模型经过训练并采用对偶交叉验证来提高补充数据的可靠性,使得训练得到的对偶模型具有一定的对偶预测准确性,可以利用独属于一方的非共有用户数据,推测另一方的用户数据,由于推测得到的用户数据在另一方中并不存在,即第二预测特征数据组在第二客户端中并未真实存在,因此,不会泄露第二客户端的用户隐私,避免了隐私泄露问题。通过对偶预测,利用一方独有的用户数据和由这部分用户数据预测的对方用户数据,可以大幅补充原有的共有用户数据集,为联邦学习模型增加可靠的样本数据,从而能够有效解决用户汇总端和医院端的纵向联邦学习中共有用户少引发的共有用户数据集不足的问题,能够提升用户心脑血管疾病参考信息的标签数据的预测效果,达到与非分布式学习媲美的预测准确率。而且,由于本发明实施例实施过程中数据结构几乎无损,应用该联邦对偶学习框架的预测方法可扩展到各种有效的模型,具有广泛的应用前景。
为了对本发明实施例所提出的心脑血管疾病参考信息预测系统,和心脑血管疾病参考信息预测方法进行形象理解,以下以一个具体实例进行说明。
具体的,首先,用户汇总端A和医院端B建立纵向联邦学习模型并完成训练。具体包括以下步骤:
(1)A和B获取各自的用户数据,如下表1所示;
A的用户数据中,标识数据为用户的ID,具体为用户身份证号;特征数据组包括每日钠盐摄入量特征数据(单位:g)x1、每日运动时长特征数据(单位:小时)x2、心率特征数据(单位:次/分钟)x3
B的用户数据中,标识数据为用户的ID,具体为用户身份证号;特征数据组包括心电图特征数据x4、血常规特征数据x5、尿常规特征数据x6、血脂特征数据(单位:mmol/L)x7、血糖特征数据(单位:mmol/L)x8,B还拥有标签数据y,y表示用户患有心脑血管疾病的概率。
需要说明的是,表1中的数据仅仅作为示例,并不代表实际数值。
表1用户汇总端A和医院端B的原始用户数据
(2)A和B确定共有用户,得到共有用户数据集;
A和B通过加密的用户对齐技术,确定双方共有的ID是U1~U3,从而确定共有用户数据集为双方U1~U3对应的用户数据集合,即
(3)A建立对偶模型MA,B建立对偶模型MB,将共有用户数据集划分为训练集和测试集,其中,训练集为双方U1~U2对应的用户数据集合,测试集为双方U3对应的用户数据集合,并且A和B对训练集中的自身用户数据加密,得到各自的加密用户数据;
(4)A和B在训练集上进行对偶模型的训练过程,参见前文步骤S1033的训练过程,具体过程不再赘述。通过N次对偶模型的训练,A和B的对偶模型参数被更新,但各自的用户数据并未发生变化;
(5)A和B进行对偶模型的验证过程:
B选取不属于DC且含有标签数据的所有用户数据,即U4的用户数据,作为新增用户数据,即为ZB=(U4,340,5238,8345,3.1,5.8,0.76),利用MB预测U4在A的特征数据x1~x3,得到新增预测用户数据
基于训练集,进行联邦学习模型MF1的训练,并在测试集上验证标签数据y的预测准确率,获得第一预测准确率;
在加入ZB以及的训练集上进行联邦学习模型MF2的训练,并在测试集上验证标签数据y的预测准确率,获得第二预测准确率;
判断第二预测准确率与第一预测准确率的差值是否小于预设阈值T=0.14,若是,则满足对偶模型收敛条件,若否,则继续进行对偶模型训练,直至通过联邦对偶交叉验证满足对偶模型收敛条件,得到A和B训练完成的对偶模型;
(6)A和B利用各自训练完成的对偶模型互相进行对偶预测,以补充各自的标识数据和特征数据组;如表2所示,粗体字为预测补充的特征数据。
表2对偶预测后AB的用户数据
(7)A和B确定扩展的共有用户数据集;
如表2所示,A和B的U1~U9的用户数据即为扩展的共有用户数据集,可见,表2所示的扩展的共有用户数据集相比表1的共有用户数据集,双方共有的ID大大增加,特征数据也有明显的补充。
(8)A和B基于扩展的共有用户数据集,在服务端C的协助下,进行联邦学习模型训练,直至达到联邦学习模型收敛条件,获得训练完成的联邦学习模型。
关于该步骤的联邦学习模型训练过程,参见S104以及现有技术有关描述,在此不再赘述。训练结束后,C保存有联邦学习模型,A有联邦学习模型权重和/>分别与x1、x2和x3对应,B有联邦学习模型权重/> 分别与x4~x8对应。
其次,A期望对一个新增用户U10,预测表征用户患有心脑血管疾病概率的标签数据y,具体过程可以包括:
A获取U10的ID和第一特征数据组其中,/>包括/>三个特征数据。A利用其对偶模型MA,预测/>在B的第二预测特征数据组/> 包括特征数据x4~x8
A分别对U10加密,并将U10的加密数据和/>的加密数据发送给B;
A计算第一加权值为对其进行同态加密,得到第一加密加权值[[uA]],并将[[uA]]发送给C;
B对U10的加密数据利用加密的用户对齐技术,确定自身的ID中是否有U10,如果是,B将自身的用户数据中,U10对应的特征数据组确定为U10在B中的第二目标特征数据组,如果否,B对接收到的/>的加密数据进行解密,得到/>并将/>确定为U10在B中的第二目标特征数据组;
针对于表2,很显然,B中不存在U10,那么,B将接收到的的加密数据进行解密,得到/>并将/>确定为U10在B中的第二目标特征数据组;
B计算第二加权值为对其进行同态加密,得到第二加密加权值[[uB]],并将[[uB]]发送给C;
C计算并对上述求和结果解密,得到目标用户U10的标签数据并将标签数据y返回给A。即A得到了预测到的关于U10表征其患有心脑血管疾病概率的标签数据,比如预测到的U10的标签数据为“0.65”,表示U10患有心脑血管疾病的概率为0.65。
当然,B也可以对表2中未出现的一个新用户的ID进行上述预测过程,预测过程与上述过程类似;A或者B也可以对其已有的用户数据中,不具有标签数据的一个ID进行上述预测过程,比如,ID可以为U5~U9中的一个。具体预测过程与前文的过程类似,在此不再赘述。
相应于第四方面的心脑血管疾病参考信息预测方法,第五方面,本发明实施例提供了一种心脑血管疾病参考信息预测装置,应用于心脑血管疾病参考信息预测系统的第一客户端,该系统还包括第二客户端,以及服务端。其中,关于联邦学习模型的训练过程参见前文,在此不做赘述。
请参见图5,图5为本发明实施例所提供的一种疾病参考信息预测装置的结构示意图。第一客户端、第二客户端对应训练阶段的用户汇总端和医院端。该装置包括:
获取模块510,用于获取待预测标签数据的目标用户的第一标识数据和第一特征数据组;
预测模块520,用于利用第一客户端的对偶模型,预测第一特征数据组在第二客户端的第二预测特征数据组;
第一加密发送模块530,用于将第一标识数据和第二预测特征数据组的加密数据发送给第二客户端;以使得第二客户端利用接收到的加密数据,确定目标用户在第二客户端的第二目标特征数据组,利用第二客户端训练得到的联邦学习模型参数,获得第二目标特征数据组的第二加密加权值,并将第二加密加权值发送给服务端;
第二加密发送模块540,用于利用第一客户端训练得到的联邦学习模型参数,获得第一特征数据组的第一加密加权值,并将第一加密加权值发送给服务端;以使得服务端对接收到的第一加密加权值和第二加密加权值求和,并对求和结果进行解密,得到目标用户的目标标签数据,并将目标标签数据返回给第一客户端;其中,目标标签数据表征目标用户心脑血管疾病的参考信息;
接收模块550,用于接收服务端返回的目标标签数据;
其中,第一客户端为用户汇总端或医院端之一,第二客户端为用户汇总端或医院端之另一;用户汇总端、医院端各自拥有预先训练的对偶模型;用户汇总端汇总有多个用户的用户数据;服务端拥有预先训练的联邦学习模型;联邦学习模型是用户汇总端和医院端经过加密对偶训练扩展共有用户数据集后,借助服务端进行联邦学习得到的;用户汇总端用于联邦学习模型训练的用户数据包括用户的标识数据、由用户多个日常生活状态数据构成的特征数据组;医院端用于联邦学习模型训练的用户数据包括用户的标识数据、由用户多个检测数据构成的特征数据组、表征用户心脑血管疾病参考信息的标签数据。
针对心脑血管疾病参考信息预测装置各个模块的内容,参见前文的联邦学习模型的训练过程和心脑血管疾病参考信息预测系统,以及心脑血管疾病参考信息预测方法的相关内容,在此不做赘述。
可选的,第二加密发送模块540包括:
加密子模块,用于利用第一客户端训练得到的联邦学习模型参数,获得第一特征数据组的第一加密加权值;
发送子模块,用于将第一加密加权值发送给服务端。
可选的,加密子模块具体包括:
加权单元,用于利用与第一客户端的第一特征数据组中的多个特征数据一一对应的权重,对第一特征数据组中的各个特征数据对应加权,并对所有加权后的特征数据求和,得到第一加权值;
加密单元,用于对第一加权值进行同态加密,得到第一加密加权值。
其中,第一客户端训练得到的联邦学习模型参数为,与第一客户端的第一特征数据组中的多个特征数据一一对应的权重。
本发明实施例的心脑血管疾病参考信息预测装置,拥有联邦学习模型的服务端,从第二客户端接收到的第二加密加权值是,待预测用户心脑血管疾病参考信息的第一客户端获取待预测标签数据的目标用户的第一标识数据和第一特征数据组后,针对第二客户端,利用第一客户端的对偶模型,预测第一特征数据组在第二客户端的第二预测特征数据组,将第一标识数据和第二预测特征数据组的加密数据发送给第二客户端,再由第二客户端利用接收到的加密数据,确定目标用户在该第二客户端的第二目标特征数据组,利用第二客户端训练得到的联邦学习模型参数,获得的第二目标特征数据组的加密加权值。因此,可以在第二客户端没有目标用户的特征数据组时,利用第一客户端对偶预测的第二预测特征数据组作为第二客户端的第二目标特征数据组,即在数据缺失的情况下补充数据,增加了联邦学习模型的用户数据。
本发明实施例中,通过对偶学习的方式,可以学习用户汇总端和医院端双方共有用户数据之间的内在联系,通过对偶学习可以从一方准确地推断另一方加密的数据,而不泄露隐私或导致原始数据丢失。对偶模型经过训练并采用对偶交叉验证来提高补充数据的可靠性,使得训练得到的对偶模型具有一定的对偶预测准确性,可以利用独属于一方的非共有用户数据,推测另一方的用户数据,由于推测得到的用户数据在另一方中并不存在,即第二预测特征数据组在第二客户端中并未真实存在,因此,不会泄露第二客户端的用户隐私,避免了隐私泄露问题。通过对偶预测,利用一方独有的用户数据和由这部分用户数据预测的对方用户数据,可以大幅补充原有的共有用户数据集,为联邦学习模型增加可靠的样本数据,从而能够有效解决用户汇总端和医院端的纵向联邦学习中共有用户少引发的共有用户数据集不足的问题,能够提升用户心脑血管疾病参考信息的标签数据的预测效果,达到与非分布式学习媲美的预测准确率。而且,由于本发明实施例实施过程中数据结构几乎无损,应用该联邦对偶学习框架的预测装置可扩展到各种有效的模型,具有广泛的应用前景。
相应于第三方面的心脑血管疾病参考信息预测方法,第六方面,本发明实施例还提供了一种电子设备,用于表征用户关于心脑血管疾病参考信息的标签数据的预测。请参见图6,图6为本发明实施例所提供的一种关于心脑血管疾病参考信息预测的电子设备的结构示意图。如图6所示,包括处理器601、通信接口602、存储器603和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通信,
存储器603,用于存放计算机程序;
处理器601,用于执行存储器603上所存放的程序时,实现如第三方面的心脑血管疾病参考信息预测方法的步骤。在此不做赘述。
具体的,该电子设备可以为:台式计算机、便携式计算机、智能移动终端、服务器等。在此不作限定,任何可以实现本发明的电子设备,均属于本发明的保护范围。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
通过上述电子设备实现的心脑血管疾病参考信息预测方法:拥有联邦学习模型的服务端,从第二客户端接收到的第二加密加权值是,待预测用户心脑血管疾病参考信息的第一客户端获取待预测标签数据的目标用户的第一标识数据和第一特征数据组后,针对第二客户端,利用第一客户端的对偶模型,预测第一特征数据组在第二客户端的第二预测特征数据组,将第一标识数据和第二预测特征数据组的加密数据发送给第二客户端,再由第二客户端利用接收到的加密数据,确定目标用户在该第二客户端的第二目标特征数据组,利用第二客户端训练得到的联邦学习模型参数,获得的第二目标特征数据组的加密加权值。因此,可以在第二客户端没有目标用户的特征数据组时,利用第一客户端对偶预测的第二预测特征数据组作为第二客户端的第二目标特征数据组,即在数据缺失的情况下补充数据,增加了联邦学习模型的用户数据。
本发明实施例中,通过对偶学习的方式,可以学习用户汇总端和医院端双方共有用户数据之间的内在联系,通过对偶学习可以从一方准确地推断另一方加密的数据,而不泄露隐私或导致原始数据丢失。对偶模型经过训练并采用对偶交叉验证来提高补充数据的可靠性,使得训练得到的对偶模型具有一定的对偶预测准确性,可以利用独属于一方的非共有用户数据,推测另一方的用户数据,由于推测得到的用户数据在另一方中并不存在,即第二预测特征数据组在第二客户端中并未真实存在,因此,不会泄露第二客户端的用户隐私,避免了隐私泄露问题。通过对偶预测,利用一方独有的用户数据和由这部分用户数据预测的对方用户数据,可以大幅补充原有的共有用户数据集,为联邦学习模型增加可靠的样本数据,从而能够有效解决用户汇总端和医院端的纵向联邦学习中共有用户少引发的共有用户数据集不足的问题,能够提升用户心脑血管疾病参考信息的标签数据的预测效果,达到与非分布式学习媲美的预测准确率。而且,由于本发明实施例实施过程中数据结构几乎无损,应用该联邦对偶学习框架的预测方法可扩展到各种有效的模型,具有广泛的应用前景。
相应于第三方面的心脑血管疾病参考信息预测方法,第七方面,本发明实施例还提供了一种计算机可读存储介质,用于表征用户关于心脑血管疾病参考信息的标签数据的预测;该计算机可读存储介质内存储有计算机程序,计算机程序被处理器执行时,可以实现本发明实施例第三方面所提供的心脑血管疾病参考信息预测方法的步骤。
上述计算机可读存储介质存储在运行时,执行本发明实施例第三方面所提供的心脑血管疾病参考信息预测方法的应用程序,因此能够实现:拥有联邦学习模型的服务端,从第二客户端接收到的第二加密加权值是,待预测用户心脑血管疾病参考信息的第一客户端获取待预测标签数据的目标用户的第一标识数据和第一特征数据组后,针对第二客户端,利用第一客户端的对偶模型,预测第一特征数据组在第二客户端的第二预测特征数据组,将第一标识数据和第二预测特征数据组的加密数据发送给第二客户端,再由第二客户端利用接收到的加密数据,确定目标用户在该第二客户端的第二目标特征数据组,利用第二客户端训练得到的联邦学习模型参数,获得的第二目标特征数据组的加密加权值。因此,可以在第二客户端没有目标用户的特征数据组时,利用第一客户端对偶预测的第二预测特征数据组作为第二客户端的第二目标特征数据组,即在数据缺失的情况下补充数据,增加了联邦学习模型的用户数据。
本发明实施例中,通过对偶学习的方式,可以学习用户汇总端和医院端双方共有用户数据之间的内在联系,通过对偶学习可以从一方准确地推断另一方加密的数据,而不泄露隐私或导致原始数据丢失。对偶模型经过训练并采用对偶交叉验证来提高补充数据的可靠性,使得训练得到的对偶模型具有一定的对偶预测准确性,可以利用独属于一方的非共有用户数据,推测另一方的用户数据,由于推测得到的用户数据在另一方中并不存在,即第二预测特征数据组在第二客户端中并未真实存在,因此,不会泄露第二客户端的用户隐私,避免了隐私泄露问题。通过对偶预测,利用一方独有的用户数据和由这部分用户数据预测的对方用户数据,可以大幅补充原有的共有用户数据集,为联邦学习模型增加可靠的样本数据,从而能够有效解决用户汇总端和医院端的纵向联邦学习中共有用户少引发的共有用户数据集不足的问题,能够提升用户心脑血管疾病参考信息的标签数据的预测效果,达到与非分布式学习媲美的预测准确率。而且,由于本发明实施例实施过程中数据结构几乎无损,应用该联邦对偶学习框架的预测方法可扩展到各种有效的模型,具有广泛的应用前景。
对于电子设备以及计算机可读存储介质实施例而言,由于其所涉及的方法内容基本相似于前述的方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,本发明实施例的装置、电子设备及存储介质分别是应用上述心脑血管疾病参考信息预测方法的装置、电子设备及存储介质,则上述心脑血管疾病参考信息预测方法的所有实施例均适用于该装置、电子设备及存储介质,且均能达到相同或相似的有益效果。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (15)

1.一种心脑血管疾病参考信息预测系统,其特征在于,包括第一客户端、第二客户端,以及服务端:
所述第一客户端,用于获取待预测标签数据的目标用户的第一标识数据和第一特征数据组;利用所述第一客户端的对偶模型,预测所述第一特征数据组在所述第二客户端的第二预测特征数据组,将所述第一标识数据和所述第二预测特征数据组的加密数据发送给所述第二客户端;并且,利用所述第一客户端训练得到的联邦学习模型参数,获得所述第一特征数据组的第一加密加权值,并将所述第一加密加权值发送给所述服务端;
所述第二客户端,用于利用接收到的加密数据,确定所述目标用户在所述第二客户端的第二目标特征数据组,利用所述第二客户端训练得到的联邦学习模型参数,获得所述第二目标特征数据组的第二加密加权值,并将所述第二加密加权值发送给所述服务端;
所述服务端,用于对接收到的所述第一加密加权值和所述第二加密加权值求和,并对求和结果进行解密,得到所述目标用户的目标标签数据,并将所述目标标签数据返回给所述第一客户端;其中,所述目标标签数据表征所述目标用户心脑血管疾病的参考信息;
其中,所述第一客户端为用户汇总端或医院端之一,所述第二客户端为用户汇总端或医院端之另一;所述用户汇总端、所述医院端各自拥有预先训练的对偶模型;所述用户汇总端汇总有多个用户的用户数据;所述服务端拥有预先训练的联邦学习模型;所述联邦学习模型是所述用户汇总端和所述医院端经过加密对偶训练扩展共有用户数据集后,借助所述服务端进行联邦学习得到的;所述用户汇总端用于联邦学习模型训练的用户数据包括用户的标识数据、由用户多个日常生活状态数据构成的特征数据组;所述医院端用于联邦学习模型训练的用户数据包括用户的标识数据、由用户多个检测数据构成的特征数据组、表征用户心脑血管疾病参考信息的标签数据;
所述联邦学习模型的训练过程包括:
参与联邦学习模型训练的所述用户汇总端和所述医院端分别获取各自的用户数据;
所述用户汇总端和所述医院端确定共有用户,得到共有用户数据集;
所述用户汇总端和所述医院端基于所述共有用户数据集进行加密对偶学习,将各自的标识数据增加至所述用户汇总端和所述医院端的标识数据的并集,并补全各自的特征数据组,得到所述用户汇总端和所述医院端扩展的共有用户数据集;
所述用户汇总端和所述医院端基于所述扩展的共有用户数据集,在所述服务端的协助下,进行联邦学习模型训练,直至达到联邦学习模型收敛条件,获得训练完成的联邦学习模型;
其中,所述用户汇总端和所述医院端基于所述共有用户数据集进行加密对偶学习,将各自的标识数据增加至所述用户汇总端和所述医院端的标识数据的并集,并补全各自的特征数据组,得到所述用户汇总端和所述医院端扩展的共有用户数据集,包括:
所述用户汇总端和所述医院端各自建立对偶模型,所述对偶模型用于预测本端用户的特征数据组在另一端的特征数据组;
所述用户汇总端和所述医院端将所述共有用户数据集划分为训练集和测试集,并对所述训练集中属于本端的用户数据进行加密,得到所述用户汇总端和所述医院端各自的加密用户数据;
所述用户汇总端和所述医院端迭代性地基于各自的加密用户数据和对偶模型,进行对偶预测、梯度数据计算,并加密互传各自的计算结果,更新各自的对偶模型参数,直至利用所述训练集和所述测试集进行联邦对偶交叉验证,判定满足对偶模型收敛条件时停止迭代,获得各自训练完成的对偶模型;
所述用户汇总端和所述医院端利用各自训练完成的对偶模型进行相互预测,获得各自补充后的标识数据,所述补充后的标识数据为所述用户汇总端和所述医院端的标识数据的并集;以及,通过预测本端的特征数据组在另一端的特征数据组,获得所述用户汇总端和所述医院端各自补全的特征数据组;
根据所述用户汇总端和所述医院端各自的所述补充后的标识数据和所述补全的特征数据组,得到所述用户汇总端和所述医院端扩展的共有用户数据集。
2.根据权利要求1所述的系统,其特征在于,
所述多个日常生活状态数据至少包括:饮食结构特征数据、运动特征数据、心率特征数据;
所述多个检测数据至少包括:心电图特征数据、血常规特征数据、尿常规特征数据、血脂特征数据、血糖特征数据;
相应的,
当所述第一客户端为用户汇总端,所述第二客户端为医院端时,所述第一特征数据组至少包括饮食结构特征数据、运动特征数据、心率特征数据,所述第二预测特征数据组至少包括心电图特征数据、血常规特征数据、尿常规特征数据、血脂特征数据、血糖特征数据;
当所述第一客户端为医院端,所述第二客户端为用户汇总端时,所述第一特征数据组至少包括心电图特征数据、血常规特征数据、尿常规特征数据、血脂特征数据、血糖特征数据,所述第二预测特征数据组至少包括饮食结构特征数据、运动特征数据、心率特征数据。
3.根据权利要求1所述的系统,其特征在于,所述用户心脑血管疾病参考信息包括:
所述用户患心脑血管疾病的可能性,或者所述用户的心脑血管疾病复发可能性。
4.根据权利要求1-3任一项所述的系统,其特征在于,所述第二客户端利用接收到的加密数据,确定所述目标用户在所述第二客户端的第二目标特征数据组,包括:
所述第二客户端,利用所述第一标识数据的加密数据,判断所述第二客户端是否存在所述第一标识数据;
如果是,将所述第二客户端中所述第一标识数据对应的特征数据组确定为所述目标用户在所述第二客户端的第二目标特征数据组,如果否,对接收到的所述第二预测特征数据组的加密数据进行解密,得到所述第二预测特征数据组,并将所述第二预测特征数据组确定为所述目标用户在所述第二客户端的第二目标特征数据组。
5.根据权利要求1或2所述的系统,其特征在于,所述利用所述训练集和所述测试集进行联邦对偶交叉验证,包括:
所述医院端从自身多个用户数据中选取含有标签数据,且不属于所述共有用户数据集的所有用户数据作为新增用户数据,利用所述医院端的对偶模型获得所述新增用户数据在所述用户汇总端的新增预测用户数据;
所述用户汇总端和所述医院端基于所述训练集进行第一次联邦学习模型训练,并在所述测试集上验证标签数据的预测准确率,获得第一预测准确率;
所述用户汇总端和所述医院端基于在所述训练集加入所述新增用户数据、所述新增预测用户数据之后的数据集,进行第二次联邦学习模型训练,并在所述测试集上验证标签数据的预测准确率,获得第二预测准确率;
所述用户汇总端和所述医院端判断所述第二预测准确率与所述第一预测准确率的差值是否小于预设阈值,若是,则满足对偶模型收敛条件。
6.一种心脑血管疾病参考信息预测方法,其特征在于,所述方法包括:
第一客户端获取待预测标签数据的目标用户的第一标识数据和第一特征数据组;利用所述第一客户端的对偶模型,预测所述第一特征数据组在第二客户端的第二预测特征数据组,将所述第一标识数据和所述第二预测特征数据组的加密数据发送给所述第二客户端;并且,利用所述第一客户端训练得到的联邦学习模型参数,获得所述第一特征数据组的第一加密加权值,并将所述第一加密加权值发送给服务端;
第二客户端利用接收到的加密数据,确定所述目标用户在所述第二客户端的第二目标特征数据组,利用所述第二客户端训练得到的联邦学习模型参数,获得所述第二目标特征数据组的第二加密加权值,并将所述第二加密加权值发送给所述服务端;
服务端对接收到的所述第一加密加权值和所述第二加密加权值求和,并对求和结果进行解密,得到所述目标用户的目标标签数据,并将所述目标标签数据返回给所述第一客户端;其中,所述目标标签数据表征所述目标用户心脑血管疾病的参考信息;
其中,所述第一客户端为用户汇总端或医院端之一,所述第二客户端为用户汇总端或医院端之另一;所述用户汇总端、所述医院端各自拥有预先训练的对偶模型;所述用户汇总端汇总有多个用户的用户数据;所述服务端拥有预先训练的联邦学习模型;所述联邦学习模型是所述用户汇总端和所述医院端经过加密对偶训练扩展共有用户数据集后,借助所述服务端进行联邦学习得到的;所述用户汇总端用于联邦学习模型训练的用户数据包括用户的标识数据、由用户多个日常生活状态数据构成的特征数据组;所述医院端用于联邦学习模型训练的用户数据包括用户的标识数据、由用户多个检测数据构成的特征数据组、表征用户心脑血管疾病参考信息的标签数据;
所述联邦学习模型的训练过程包括:
参与联邦学习模型训练的所述用户汇总端和所述医院端分别获取各自的用户数据;
所述用户汇总端和所述医院端确定共有用户,得到共有用户数据集;
所述用户汇总端和所述医院端基于所述共有用户数据集进行加密对偶学习,将各自的标识数据增加至所述用户汇总端和所述医院端的标识数据的并集,并补全各自的特征数据组,得到所述用户汇总端和所述医院端扩展的共有用户数据集;
所述用户汇总端和所述医院端基于所述扩展的共有用户数据集,在所述服务端的协助下,进行联邦学习模型训练,直至达到联邦学习模型收敛条件,获得训练完成的联邦学习模型;
其中,所述用户汇总端和所述医院端基于所述共有用户数据集进行加密对偶学习,将各自的标识数据增加至所述用户汇总端和所述医院端的标识数据的并集,并补全各自的特征数据组,得到所述用户汇总端和所述医院端扩展的共有用户数据集,包括:
所述用户汇总端和所述医院端各自建立对偶模型,所述对偶模型用于预测本端用户的特征数据组在另一端的特征数据组;
所述用户汇总端和所述医院端将所述共有用户数据集划分为训练集和测试集,并对所述训练集中属于本端的用户数据进行加密,得到所述用户汇总端和所述医院端各自的加密用户数据;
所述用户汇总端和所述医院端迭代性地基于各自的加密用户数据和对偶模型,进行对偶预测、梯度数据计算,并加密互传各自的计算结果,更新各自的对偶模型参数,直至利用所述训练集和所述测试集进行联邦对偶交叉验证,判定满足对偶模型收敛条件时停止迭代,获得各自训练完成的对偶模型;
所述用户汇总端和所述医院端利用各自训练完成的对偶模型进行相互预测,获得各自补充后的标识数据,所述补充后的标识数据为所述用户汇总端和所述医院端的标识数据的并集;以及,通过预测本端的特征数据组在另一端的特征数据组,获得所述用户汇总端和所述医院端各自补全的特征数据组;
根据所述用户汇总端和所述医院端各自的所述补充后的标识数据和所述补全的特征数据组,得到所述用户汇总端和所述医院端扩展的共有用户数据集。
7.根据权利要求6所述的方法,其特征在于,
所述多个日常生活状态数据至少包括:饮食结构特征数据、运动特征数据、心率特征数据;
所述多个检测数据至少包括:心电图特征数据、血常规特征数据、尿常规特征数据、血脂特征数据、血糖特征数据;
相应的,
当所述第一客户端为用户汇总端,所述第二客户端为医院端时,所述第一特征数据组至少包括饮食结构特征数据、运动特征数据、心率特征数据,所述第二预测特征数据组至少包括心电图特征数据、血常规特征数据、尿常规特征数据、血脂特征数据、血糖特征数据;
当所述第一客户端为医院端,所述第二客户端为用户汇总端时,所述第一特征数据组至少包括心电图特征数据、血常规特征数据、尿常规特征数据、血脂特征数据、血糖特征数据,所述第二预测特征数据组至少包括饮食结构特征数据、运动特征数据、心率特征数据。
8.根据权利要求6所述的方法,其特征在于,所述用户心脑血管疾病参考信息包括:
所述用户患心脑血管疾病的可能性,或者所述用户的心脑血管疾病复发可能性。
9.根据权利要求6-8任一项所述的方法,其特征在于,所述第二客户端利用接收到的加密数据,确定所述目标用户在所述第二客户端的第二目标特征数据组,包括:
所述第二客户端利用所述第一标识数据的加密数据,判断所述第二客户端是否存在所述第一标识数据;
如果是,将所述第二客户端中所述第一标识数据对应的特征数据组确定为所述目标用户在所述第二客户端的第二目标特征数据组,如果否,对接收到的所述第二预测特征数据组的加密数据进行解密,得到所述第二预测特征数据组,并将所述第二预测特征数据组确定为所述目标用户在所述第二客户端的第二目标特征数据组。
10.根据权利要求9所述的方法,其特征在于,所述利用所述训练集和所述测试集进行联邦对偶交叉验证,包括:
所述医院端从自身多个用户数据中选取含有标签数据,且不属于所述共有用户数据集的所有用户数据作为新增用户数据,利用所述医院端的对偶模型获得所述新增用户数据在所述用户汇总端的新增预测用户数据;
所述用户汇总端和所述医院端基于所述训练集进行第一次联邦学习模型训练,并在所述测试集上验证标签数据的预测准确率,获得第一预测准确率;
所述用户汇总端和所述医院端基于在所述训练集加入所述新增用户数据、所述新增预测用户数据之后的数据集,进行第二次联邦学习模型训练,并在所述测试集上验证标签数据的预测准确率,获得第二预测准确率;
所述用户汇总端和所述医院端判断所述第二预测准确率与所述第一预测准确率的差值是否小于预设阈值,若是,则满足对偶模型收敛条件。
11.一种心脑血管疾病参考信息预测方法,其特征在于,应用于心脑血管疾病参考信息预测系统的第一客户端,所述系统还包括第二客户端,以及服务端,所述方法包括:
获取待预测标签数据的目标用户的第一标识数据和第一特征数据组;
利用所述第一客户端的对偶模型,预测所述第一特征数据组在所述第二客户端的第二预测特征数据组;
将所述第一标识数据和所述第二预测特征数据组的加密数据发送给所述第二客户端;以使得所述第二客户端利用接收到的加密数据,确定所述目标用户在所述第二客户端的第二目标特征数据组,利用所述第二客户端训练得到的联邦学习模型参数,获得所述第二目标特征数据组的第二加密加权值,并将所述第二加密加权值发送给所述服务端;
利用所述第一客户端训练得到的联邦学习模型参数,获得所述第一特征数据组的第一加密加权值,并将所述第一加密加权值发送给所述服务端;以使得所述服务端对接收到的所述第一加密加权值和所述第二加密加权值求和,并对求和结果进行解密,得到所述目标用户的目标标签数据,并将所述目标标签数据返回给所述第一客户端;其中,所述目标标签数据表征所述目标用户心脑血管疾病的参考信息;
接收所述服务端返回的所述目标标签数据;
其中,所述第一客户端为用户汇总端或医院端之一,所述第二客户端为用户汇总端或医院端之另一;所述用户汇总端、所述医院端各自拥有预先训练的对偶模型;所述用户汇总端汇总有多个用户的用户数据;所述服务端拥有预先训练的联邦学习模型;所述联邦学习模型是所述用户汇总端和所述医院端经过加密对偶训练扩展共有用户数据集后,借助所述服务端进行联邦学习得到的;所述用户汇总端用于联邦学习模型训练的用户数据包括用户的标识数据、由用户多个日常生活状态数据构成的特征数据组;所述医院端用于联邦学习模型训练的用户数据包括用户的标识数据、由用户多个检测数据构成的特征数据组、表征用户心脑血管疾病参考信息的标签数据;
所述联邦学习模型的训练过程包括:
参与联邦学习模型训练的所述用户汇总端和所述医院端分别获取各自的用户数据;
所述用户汇总端和所述医院端确定共有用户,得到共有用户数据集;
所述用户汇总端和所述医院端基于所述共有用户数据集进行加密对偶学习,将各自的标识数据增加至所述用户汇总端和所述医院端的标识数据的并集,并补全各自的特征数据组,得到所述用户汇总端和所述医院端扩展的共有用户数据集;
所述用户汇总端和所述医院端基于所述扩展的共有用户数据集,在所述服务端的协助下,进行联邦学习模型训练,直至达到联邦学习模型收敛条件,获得训练完成的联邦学习模型;
其中,所述用户汇总端和所述医院端基于所述共有用户数据集进行加密对偶学习,将各自的标识数据增加至所述用户汇总端和所述医院端的标识数据的并集,并补全各自的特征数据组,得到所述用户汇总端和所述医院端扩展的共有用户数据集,包括:
所述用户汇总端和所述医院端各自建立对偶模型,所述对偶模型用于预测本端用户的特征数据组在另一端的特征数据组;
所述用户汇总端和所述医院端将所述共有用户数据集划分为训练集和测试集,并对所述训练集中属于本端的用户数据进行加密,得到所述用户汇总端和所述医院端各自的加密用户数据;
所述用户汇总端和所述医院端迭代性地基于各自的加密用户数据和对偶模型,进行对偶预测、梯度数据计算,并加密互传各自的计算结果,更新各自的对偶模型参数,直至利用所述训练集和所述测试集进行联邦对偶交叉验证,判定满足对偶模型收敛条件时停止迭代,获得各自训练完成的对偶模型;
所述用户汇总端和所述医院端利用各自训练完成的对偶模型进行相互预测,获得各自补充后的标识数据,所述补充后的标识数据为所述用户汇总端和所述医院端的标识数据的并集;以及,通过预测本端的特征数据组在另一端的特征数据组,获得所述用户汇总端和所述医院端各自补全的特征数据组;
根据所述用户汇总端和所述医院端各自的所述补充后的标识数据和所述补全的特征数据组,得到所述用户汇总端和所述医院端扩展的共有用户数据集。
12.一种心脑血管疾病参考信息预测装置,其特征在于,应用于心脑血管疾病参考信息预测系统的第一客户端,所述系统还包括第二客户端,以及服务端,所述装置包括:
获取模块,用于获取待预测标签数据的目标用户的第一标识数据和第一特征数据组;
预测模块,用于利用所述第一客户端的对偶模型,预测所述第一特征数据组在所述第二客户端的第二预测特征数据组;
第一加密发送模块,用于将所述第一标识数据和所述第二预测特征数据组的加密数据发送给所述第二客户端;以使得所述第二客户端利用接收到的加密数据,确定所述目标用户在所述第二客户端的第二目标特征数据组,利用所述第二客户端训练得到的联邦学习模型参数,获得所述第二目标特征数据组的第二加密加权值,并将所述第二加密加权值发送给所述服务端;
第二加密发送模块,用于利用所述第一客户端训练得到的联邦学习模型参数,获得所述第一特征数据组的第一加密加权值,并将所述第一加密加权值发送给所述服务端;以使得所述服务端对接收到的所述第一加密加权值和所述第二加密加权值求和,并对求和结果进行解密,得到所述目标用户的目标标签数据,并将所述目标标签数据返回给所述第一客户端;其中,所述目标标签数据表征所述目标用户心脑血管疾病的参考信息;
接收模块,用于接收所述服务端返回的所述目标标签数据;
其中,所述第一客户端为用户汇总端或医院端之一,所述第二客户端为用户汇总端或医院端之另一;所述用户汇总端、所述医院端各自拥有预先训练的对偶模型;所述用户汇总端汇总有多个用户的用户数据;所述服务端拥有预先训练的联邦学习模型;所述联邦学习模型是所述用户汇总端和所述医院端经过加密对偶训练扩展共有用户数据集后,借助所述服务端进行联邦学习得到的;所述用户汇总端用于联邦学习模型训练的用户数据包括用户的标识数据、由用户多个日常生活状态数据构成的特征数据组;所述医院端用于联邦学习模型训练的用户数据包括用户的标识数据、由用户多个检测数据构成的特征数据组、表征用户心脑血管疾病参考信息的标签数据;
所述联邦学习模型的训练过程包括:
参与联邦学习模型训练的所述用户汇总端和所述医院端分别获取各自的用户数据;
所述用户汇总端和所述医院端确定共有用户,得到共有用户数据集;
所述用户汇总端和所述医院端基于所述共有用户数据集进行加密对偶学习,将各自的标识数据增加至所述用户汇总端和所述医院端的标识数据的并集,并补全各自的特征数据组,得到所述用户汇总端和所述医院端扩展的共有用户数据集;
所述用户汇总端和所述医院端基于所述扩展的共有用户数据集,在所述服务端的协助下,进行联邦学习模型训练,直至达到联邦学习模型收敛条件,获得训练完成的联邦学习模型;
其中,所述用户汇总端和所述医院端基于所述共有用户数据集进行加密对偶学习,将各自的标识数据增加至所述用户汇总端和所述医院端的标识数据的并集,并补全各自的特征数据组,得到所述用户汇总端和所述医院端扩展的共有用户数据集,包括:
所述用户汇总端和所述医院端各自建立对偶模型,所述对偶模型用于预测本端用户的特征数据组在另一端的特征数据组;
所述用户汇总端和所述医院端将所述共有用户数据集划分为训练集和测试集,并对所述训练集中属于本端的用户数据进行加密,得到所述用户汇总端和所述医院端各自的加密用户数据;
所述用户汇总端和所述医院端迭代性地基于各自的加密用户数据和对偶模型,进行对偶预测、梯度数据计算,并加密互传各自的计算结果,更新各自的对偶模型参数,直至利用所述训练集和所述测试集进行联邦对偶交叉验证,判定满足对偶模型收敛条件时停止迭代,获得各自训练完成的对偶模型;
所述用户汇总端和所述医院端利用各自训练完成的对偶模型进行相互预测,获得各自补充后的标识数据,所述补充后的标识数据为所述用户汇总端和所述医院端的标识数据的并集;以及,通过预测本端的特征数据组在另一端的特征数据组,获得所述用户汇总端和所述医院端各自补全的特征数据组;
根据所述用户汇总端和所述医院端各自的所述补充后的标识数据和所述补全的特征数据组,得到所述用户汇总端和所述医院端扩展的共有用户数据集。
13.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求6-10任一所述的方法步骤。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求6-10任一所述的方法步骤。
15.一种联邦学习模型训练方法,其特征在于,所述方法包括:
参与联邦学习模型训练的用户汇总端和医院端分别获取各自的用户数据;所述用户汇总端汇总有多个用户的用户数据;所述用户汇总端的用户数据包括用户的标识数据、由用户多个日常生活状态数据构成的特征数据组;所述医院端的用户数据包括用户的标识数据、由用户多个检测数据构成的特征数据组、表征用户心脑血管疾病参考信息的标签数据;
所述用户汇总端和所述医院端确定共有用户,得到共有用户数据集;
所述用户汇总端和所述医院端基于所述共有用户数据集进行加密对偶学习,将各自的标识数据增加至所述用户汇总端和所述医院端的标识数据的并集,并补全各自的特征数据组,得到所述用户汇总端和所述医院端扩展的共有用户数据集;
所述用户汇总端和所述医院端基于所述扩展的共有用户数据集,在服务端的协助下,进行联邦学习模型训练,直至达到联邦学习模型收敛条件,获得训练完成的联邦学习模型;
其中,所述用户汇总端和所述医院端基于所述共有用户数据集进行加密对偶学习,将各自的标识数据增加至所述用户汇总端和所述医院端的标识数据的并集,并补全各自的特征数据组,得到所述用户汇总端和所述医院端扩展的共有用户数据集,包括:
所述用户汇总端和所述医院端各自建立对偶模型,所述对偶模型用于预测本端用户的特征数据组在另一端的特征数据组;
所述用户汇总端和所述医院端将所述共有用户数据集划分为训练集和测试集,并对所述训练集中属于本端的用户数据进行加密,得到所述用户汇总端和所述医院端各自的加密用户数据;
所述用户汇总端和所述医院端迭代性地基于各自的加密用户数据和对偶模型,进行对偶预测、梯度数据计算,并加密互传各自的计算结果,更新各自的对偶模型参数,直至利用所述训练集和所述测试集进行联邦对偶交叉验证,判定满足对偶模型收敛条件时停止迭代,获得各自训练完成的对偶模型;
所述用户汇总端和所述医院端利用各自训练完成的对偶模型进行相互预测,获得各自补充后的标识数据,所述补充后的标识数据为所述用户汇总端和所述医院端的标识数据的并集;以及,通过预测本端的特征数据组在另一端的特征数据组,获得所述用户汇总端和所述医院端各自补全的特征数据组;
根据所述用户汇总端和所述医院端各自的所述补充后的标识数据和所述补全的特征数据组,得到所述用户汇总端和所述医院端扩展的共有用户数据集。
CN202010725702.1A 2020-07-24 2020-07-24 心脑血管疾病参考信息预测系统、方法、装置及电子设备 Active CN112102939B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010725702.1A CN112102939B (zh) 2020-07-24 2020-07-24 心脑血管疾病参考信息预测系统、方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010725702.1A CN112102939B (zh) 2020-07-24 2020-07-24 心脑血管疾病参考信息预测系统、方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN112102939A CN112102939A (zh) 2020-12-18
CN112102939B true CN112102939B (zh) 2023-08-04

Family

ID=73749913

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010725702.1A Active CN112102939B (zh) 2020-07-24 2020-07-24 心脑血管疾病参考信息预测系统、方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN112102939B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113133768A (zh) * 2021-04-21 2021-07-20 东南大学 基于联邦学习的心血管疾病辅助诊断模型及训练方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007077984A1 (ja) * 2005-12-28 2007-07-12 Takashi Suzuki 情報処理装置及び情報処理方法可否評価装置
CN109886417A (zh) * 2019-03-01 2019-06-14 深圳前海微众银行股份有限公司 基于联邦学习的模型参数训练方法、装置、设备及介质
CN110288094A (zh) * 2019-06-10 2019-09-27 深圳前海微众银行股份有限公司 基于联邦学习的模型参数训练方法及装置
CN110704860A (zh) * 2019-11-18 2020-01-17 深圳前海微众银行股份有限公司 提升安全性的纵向联邦学习方法、设备、系统及存储介质
CN110807528A (zh) * 2019-10-30 2020-02-18 深圳前海微众银行股份有限公司 特征相关性计算方法、设备及计算机可读存储介质
CN111178524A (zh) * 2019-12-24 2020-05-19 中国平安人寿保险股份有限公司 基于联邦学习的数据处理方法、装置、设备及介质
CN111176929A (zh) * 2019-11-29 2020-05-19 广东工业大学 一种面向边缘联邦学习的高能效计算通信联合优化方法
CN111178538A (zh) * 2019-12-17 2020-05-19 杭州睿信数据科技有限公司 垂直数据的联邦学习方法及装置
CN111275207A (zh) * 2020-02-10 2020-06-12 深圳前海微众银行股份有限公司 基于半监督的横向联邦学习优化方法、设备及存储介质
CN111428881A (zh) * 2020-03-20 2020-07-17 深圳前海微众银行股份有限公司 识别模型的训练方法、装置、设备及可读存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007077984A1 (ja) * 2005-12-28 2007-07-12 Takashi Suzuki 情報処理装置及び情報処理方法可否評価装置
CN109886417A (zh) * 2019-03-01 2019-06-14 深圳前海微众银行股份有限公司 基于联邦学习的模型参数训练方法、装置、设备及介质
CN110288094A (zh) * 2019-06-10 2019-09-27 深圳前海微众银行股份有限公司 基于联邦学习的模型参数训练方法及装置
CN110807528A (zh) * 2019-10-30 2020-02-18 深圳前海微众银行股份有限公司 特征相关性计算方法、设备及计算机可读存储介质
CN110704860A (zh) * 2019-11-18 2020-01-17 深圳前海微众银行股份有限公司 提升安全性的纵向联邦学习方法、设备、系统及存储介质
CN111176929A (zh) * 2019-11-29 2020-05-19 广东工业大学 一种面向边缘联邦学习的高能效计算通信联合优化方法
CN111178538A (zh) * 2019-12-17 2020-05-19 杭州睿信数据科技有限公司 垂直数据的联邦学习方法及装置
CN111178524A (zh) * 2019-12-24 2020-05-19 中国平安人寿保险股份有限公司 基于联邦学习的数据处理方法、装置、设备及介质
CN111275207A (zh) * 2020-02-10 2020-06-12 深圳前海微众银行股份有限公司 基于半监督的横向联邦学习优化方法、设备及存储介质
CN111428881A (zh) * 2020-03-20 2020-07-17 深圳前海微众银行股份有限公司 识别模型的训练方法、装置、设备及可读存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于联邦学习的通信诈骗识别模型的实现;陈国润;母美荣;张蕊;孙丹;钱栋军;;电信科学(第S1期);全文 *
联邦学习在保险行业的应用研究;王春凯;冯键;;保险职业学院学报(第01期);全文 *
联邦学习在泛在电力物联网人工智能领域的应用;谢丰;卞建玲;王楠;郑倩;;中国高新科技(第23期);全文 *

Also Published As

Publication number Publication date
CN112102939A (zh) 2020-12-18

Similar Documents

Publication Publication Date Title
Hicks et al. Best practices for analyzing large-scale health data from wearables and smartphone apps
Chatterjee et al. Constrained maximum likelihood estimation for model calibration using summary-level information from external big data sources
CN112085159B (zh) 一种用户标签数据预测系统、方法、装置及电子设备
Linden et al. Estimating causal effects for multivalued treatments: a comparison of approaches
Ozel et al. The odd log-logistic Lindley Poisson model for lifetime data
Antolini et al. Inference on correlated discrimination measures in survival analysis: a nonparametric approach
Zhang et al. Modeling longitudinal binomial responses: implications from two dueling paradigms
Zhang et al. Fitting a bivariate measurement error model for episodically consumed dietary components
CN112992375A (zh) 一种疾病的预警方法、预警装置、设备及介质
CN110147498A (zh) 一种知识推送方法、装置及存储设备、程序产品
CN112102939B (zh) 心脑血管疾病参考信息预测系统、方法、装置及电子设备
Su et al. Multi-party diabetes mellitus risk prediction based on secure federated learning
CN111832583A (zh) 基于区块链的健康管理方法、装置、介质及电子设备
Tian et al. Bayesian composite quantile regression for linear mixed-effects models
CN113220895A (zh) 基于强化学习的信息处理方法、装置、终端设备
Chan et al. Semiparametric modeling and estimation of the terminal behavior of recurrent marker processes before failure events
Roy An application of linear mixed effects model to assess the agreement between two methods with replicated observations
Feddag et al. Generalized estimating equations (GEE) for mixed logistic models
Davis‐Plourde et al. Power analyses for stepped wedge designs with multivariate continuous outcomes
Qi et al. Strategies for imputing missing covariates in accelerated failure time models
Choi et al. Efficient inferences for linear transformation models with doubly censored data
Ghosh et al. Secure Bayesian model averaging for horizontally partitioned data
Gandhi et al. A Bayesian approach for inference from a bridging study with binary outcomes
Mitra et al. Analysis of interval-censored competing risks data under missing causes
Bang et al. Sample size calculation for simulation-based multiple-testing procedures

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant