CN116305289B - 医疗隐私数据处理方法、装置、计算机设备及存储介质 - Google Patents
医疗隐私数据处理方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN116305289B CN116305289B CN202310538534.9A CN202310538534A CN116305289B CN 116305289 B CN116305289 B CN 116305289B CN 202310538534 A CN202310538534 A CN 202310538534A CN 116305289 B CN116305289 B CN 116305289B
- Authority
- CN
- China
- Prior art keywords
- medical
- data
- sample
- processing
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
Landscapes
- Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Bioethics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明公开了一种医疗隐私数据处理方法、装置、计算机设备及存储介质,所述方法包括:全局控制中心将全局参数传送给所有医疗客户端;每个医疗客户端对少数类样本进行边界不变过采样处理,确定均衡化数据;医疗客户端根据全局参数对本地模型进行初始化,得到局部模型,并通过局部模型对均衡化数据进行处理,得到分类结果;全局控制中心对分类结果进行匹配平均处理,并更新全局参数,以使医疗客户端根据更新的全局参数更新其局部模型;当全局控制中心接收到的所有分类结果满足预设条件时,则基于目标医疗客户端的局部模型,对待分析医疗隐私数据进行分析处理,得到分析结果。采用本发明提高对医疗数据进行分析的准确率。
Description
技术领域
本发明涉及医疗隐私数据处理领域,尤其涉及一种医疗隐私数据处理方法、装置、计算机设备及存储介质。
背景技术
近年来,随着经济的全球化发展和科学技术的变革,大数据开始应用于人们生活的各个方面,医疗领域也不例外。大数据在医疗领域上应用广泛,一是各大医疗机构可以利用大数据系统分析医疗机构积累的已有临床数据,为患者提供精准的治疗方案;二是能够将患者病历文档信息化,将患者与对应的医护人员进行绑定,使患者得到有效治疗;三是能够通过云计算技术,统筹协调医疗资源,将医疗资源使用得到最大化;四是通过数据挖掘技术分析个体差异性特征数据,从而根据不同患者自身情况提供个性化医疗服务。随着大数据的积累以及云计算的普及,对医疗数据进行处理分析正成为医疗研究领域的热点,并有望为智慧医疗和健康决策提供强有力的支撑。
但在现实中,在各大医疗机构的信息化建设过程中,对医疗数据进行分析处理仍然面临着一些问题。首先,存在医疗数据孤岛的问题,各大医疗机构的医疗数据均为隐私数据,不能直接用于研究。其次,每个医疗机构内部的数据集在处理的时候存在样本不均衡问题。某些常见疾病病例来源非常多,这部分患者个体在整体病例中占比很大,但是不常见的如“白化病”、“血友病”、“重症肌无力”等罕见病病例样本在各大医疗机构的数据库中却只有极少数,有时只能从文本教材中获取这些病例样本,从而导致了对医疗数据进行分析的时候,存在分析结果准确率不高的问题。
因此,现有的医疗领域,存在如何解决医疗数据孤岛并提高对医疗数据进行分析的准确率的技术问题。
发明内容
本发明实施例提供一种医疗隐私数据处理方法、装置、计算机设备和存储介质,以解决医疗数据孤岛并提高对医疗数据进行分析的准确率。
为了解决上述技术问题,本申请实施例提供一种医疗隐私数据处理方法,包括:
当全局控制中心接收到目标医疗客户端的数据处理请求时,所述全局控制中心将全局参数传送给所有医疗客户端,其中,所述数据处理请求是指对待分析医疗隐私数据进行分析处理的请求,所述目标医疗客户端的本地医疗数据集包括所述待分析医疗隐私数据;
在每个所述医疗客户端中,所述医疗客户端对本地医疗数据集中的少数类样本进行过采样处理,生成新样本,并根据所述新样本确定均衡化数据;
所述医疗客户端根据所述全局参数对本地模型进行初始化,得到局部模型;
所述医疗客户端通过所述局部模型对所述均衡化数据进行隐私分类处理,得到分类结果,并将所述分类结果传送给所述全局控制中心;
所述全局控制中心对接收到的所有所述分类结果进行匹配平均处理,根据得到的结果更新所述全局参数,并将更新后的全局参数传送给所有所述医疗客户端,以使所述医疗客户端根据所述更新后的全局参数更新对应的局部模型;
当所述全局控制中心接收到的所有所述分类结果满足预设条件时,则基于所述目标医疗客户端的局部模型,对所述待分析医疗隐私数据进行分析处理,得到分析结果。
为了解决上述技术问题,本申请实施例还提供一种医疗隐私数据处理装置,包括:
参数传送模块,用于当全局控制中心接收到目标医疗客户端的数据处理请求时,所述全局控制中心将全局参数传送给所有医疗客户端,其中,所述数据处理请求是指对待分析医疗隐私数据进行分析处理的请求,所述目标医疗客户端的本地医疗数据集包括所述待分析医疗隐私数据;
均衡化模块,用于在每个所述医疗客户端中,所述医疗客户端对本地医疗数据集中的少数类样本进行过采样处理,生成新样本,并根据所述新样本确定均衡化数据;
局部模型确定模块,用于所述医疗客户端根据所述全局参数对本地模型进行初始化,得到局部模型;
分类结果确定模块,用于所述医疗客户端通过所述局部模型对所述均衡化数据进行隐私分类处理,得到分类结果,并将所述分类结果传送给所述全局控制中心;
局部模型更新模块,用于所述全局控制中心对接收到的所有所述分类结果进行匹配平均处理,根据得到的结果更新所述全局参数,并将更新后的全局参数传送给所有所述医疗客户端,以使所述医疗客户端根据所述更新后的全局参数更新对应的局部模型;
分析模块,用于当所述全局控制中心接收到的所有所述分类结果满足预设条件时,则基于所述目标医疗客户端的局部模型,对所述待分析医疗隐私数据进行分析处理,得到分析结果。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述医疗隐私数据处理方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述医疗隐私数据处理方法的步骤。
本发明实施例提供的医疗隐私数据处理方法、装置、计算机设备及存储介质,通过边界不变过采样算法 对医疗客户端的本地医疗数据集进行平衡化处理,主要是对少数类样本进行边界划分边界,动态调整插值范围来生成具备有效信息的新样本,让整个样本数据集达到平衡,然后使用联邦匹配平均算法 来解决各个医疗客户端之间的数据隐私问题,从而解决医疗数据孤岛并提高对医疗数据进行分析的准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性系统架构图;
图2是本申请的医疗隐私数据处理方法的一个实施例的流程图;
图3是根据本申请的医疗隐私数据处理装置的一个实施例的结构示意图;
图4是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,如图1所示,联邦学习系统包括全局控制中心10和至少两个医疗客户端20,全局控制中心10设置有全局模型,每一个医疗客户端20设置有本地模型和本地医疗数据集。
其中,联邦学习系统是一种使用分布式优化方法来保护多个医疗客户端20合作时数据隐私的系统,核心点在于:分布式和数据隐私。联邦学习是一种训练机器学习模型的方法,它允许在多个医疗客户端20上进行本地训练,然后将局部更新的模型共享到全局模型中,从而保护用户数据的隐私。
具体来说,全局控制中心10通过聚合医疗客户端经过本地训练获得的本地模型梯度,获得更新全局模型的全局模型梯度。然后,全局控制中心10使用该全局模型梯度和全局模型学习率对全局模型进行更新。该联邦学习全局模型更新过程迭代进行,直到满足确定的训练终止条件。用户可以通过本地医疗客户端向全局控制中心10发起的数据处理请求,该数据处理请求是用于对该医疗客户端的医疗隐私数据进行分析处理的请求。通过全局控制中心10的全局模型与其他医疗客户端交互,以完成对本地医疗客户端的本地模型的训练,并基于训练好的本地模型对医疗隐私数据进行分析,得到分析结果。该医疗客户端的本地模型可采用多层的神经网络,此处不做具体限制。
为保证不同医疗客户端数据共享的隐私安全,通过联邦学习技术使得各医疗客户端在保护自身数据隐私的前提下,进行联合安全数据建模,从而解决医疗数据孤岛问题。
需要说明的是,本申请实施例所提供的医疗隐私数据处理方法由联邦学习系统执行,相应地,医疗隐私数据处理装置设置于联邦学习系统中。
应该理解,图1中的全局控制中心只有一个,而医疗客户端的数目仅仅是示意性的。根据实现需要,可以具有任意数目的医疗客户端,本申请实施例中的医疗客户端可以对应的是实际中不同医院对应的医院系统。
请参阅图2,图2示出本发明实施例提供的一种医疗隐私数据处理方法,以该方法应用在图1中的联邦学习系统为例进行说明,详述如下:
S201、当全局控制中心接收到目标医疗客户端的数据处理请求时,全局控制中心将全局参数传送给所有医疗客户端,其中,数据处理请求是指对待分析医疗隐私数据进行分析处理的请求,目标医疗客户端的本地医疗数据集包括待分析医疗隐私数据。
具体地,上述目标医疗客户端是指发起数据处理请求的医疗客户端。应理解,该目标医疗客户端可为一个医疗客户端或者多个医疗客户端。当目标客户端为多个医疗客户端时,全局控制中心依照请求发起时序进行响应。
上述全局参数是指全局控制中心的全局模型的初始参数。
上述待分析医疗隐私数据是指目标医疗客户端上需要进行分析的医疗隐私数据。该待分析医疗隐私数据包括类别,类别包括少数类数据和多数类数据。也就是说,当类别为少数类数据时,该待分析医疗隐私数据为少数类数据。
通过全局控制中心将全局参数传送给所有医疗客户端,使得各医疗客户端在保护自身数据隐私的前提下,可进行联合安全数据建模,从而解决医疗数据孤岛问题。
S202、在每个医疗客户端中,医疗客户端对本地医疗数据集中的少数类样本进行过采样处理,生成新样本,并根据新样本,确定均衡化数据。
具体地,上述过采样是指边界不变过采样,用于对本地医疗数据集中的少数类样本划分稳定不变边界并生成样本点的处理方式。
该边界不变过采样处理是指通过对少数类样本进行边界划分,对划分好边界的样本进行插值,并不断进行调整插值范围,生成新样本,其中,插值用于防止产生噪声数据。
上述少数类样本是指不常见疾病的病例样本。不常见疾病的病例样本如白化病样本数据、血友病样本数据、重症肌无力样本数据。
上述均衡化数据是指样本分布均衡的数据,例如,经过边界不变过采样处理后的均衡化数据中少数类样本和新样本的数量与多数类样本的数量得到预设比例,或者,经过边界不变过采样处理后的均衡化数据中少数类样本和新样本的数量与多数类样本的数量相等。
通过边界不变过采样,对医疗客户端的本地医疗数据集进行均衡化处理,解决了样本不均衡导致分析精度下降的问题,从而提高对医疗隐私数据进行分析的准确率。
S203、医疗客户端根据全局参数对本地模型进行初始化,得到局部模型。
具体地,局部模型是用于对医疗客户端上的本地医疗数据集进行分类的模型。
S204、医疗客户端通过局部模型对均衡化数据进行分类处理,得到分类结果,并将分类结果传送给全局控制中心。
具体地,上述分类处理是指对均衡化数据中的样本进行分类处理的过程。
也就是说,将均衡化数据中的样本输入到局部模型中,通过局部模型对该样本进行分类处理,得到样本对应的分类结果。
应理解,每个医疗客户端都具有一个分配的权重,医疗客户端根据自己所分配的权重将分类结果传送到全局控制中心上。
通过医疗客户端和全局控制中心的交互,使得各医疗客户端在保护自身数据隐私的前提下,可进行联合安全数据建模,从而解决医疗数据孤岛问题。
S205、全局控制中心对接收到的所有分类结果进行匹配平均处理,根据得到的结果更新全局参数,并将更新后的全局参数传送给所有医疗客户端,以使医疗客户端根据更新后的全局参数更新对应的局部模型。
具体地,上述匹配平均是指联邦匹配平均方法。
应理解,上述联邦匹配平均方法是指全局控制中心只从医疗客户端收集第一层的权重,并执行单层匹配以获得全局模型的第一层权重。然后全局控制中心将这些权重广播给医疗客户端,医疗客户端根据自身权重继续训练其数据集上的所有连续层,同时保持已经匹配的联邦层冻结。然后,将此过程重复到最后一层,根据每个医疗客户端数据的类比例对其进行加权平均。联邦匹配平均方法的通信轮数等于网络中的层数。
由于每个医疗客户端上用于独立模型训练的数量不足,因为采用联邦匹配平均算法对每个医疗客户端的模型预测,即分类结果进行平均来得到最终预测。
通过医疗客户端和全局控制中心的交互,使得各医疗客户端在保护自身数据隐私的前提下,可进行联合安全数据建模,从而解决医疗数据孤岛问题。
S206、当全局控制中心接收到的所有分类结果满足预设条件时,则基于目标医疗客户端的局部模型,对待分析医疗隐私数据进行分析处理,得到分析结果。
具体地,上述预设条件是指全局控制中心接收到医疗客户端上传的分类结果保持不变。
当全局控制中心接收到医疗客户端上传的分类结果保持不变时,说明每个医疗客户端的局部模型以训练获得最优解,此时,应该停止更新每个医疗客户端的局部模型。
上述分析结果是指基于训练好的目标医疗客户端的局部模型对待分析医疗隐私数据进行分析得到的结果。
在本实施例中,通过边界不变过采样算法 对医疗客户端的本地医疗数据集进行平衡化处理,主要是对少数类样本进行边界划分边界,动态调整插值范围来生成具备有效信息的新样本,让整个样本数据集达到平衡,然后使用联邦匹配平均算法 来解决各个医疗客户端之间的数据隐私问题,从而解决医疗数据孤岛并提高对医疗数据进行分析的准确率。
在本实施例的一些可选的实现方式中,步骤S202包括步骤S2021至步骤S2026:
S2021、在每个医疗客户端中,医疗客户端将本地医疗数据集划分为少数类样本集和多数类样本集。
S2022、从少数类样本集中任意选取一个少数类样本作为目标样本。
S2023、对目标样本进行边界划分,得到划分结果。
S2024、根据划分结果,判断目标样本的种类。
S2025、当目标样本为稳定边界样本时,对目标样本进行插值处理,生成新样本,并将新样本加入新样本集中。
S2026、当新样本集和少数类样本集的样本数量等于多数类样本集的样本数量时,将新样本集合、少数类样本集和多数类样本集作为均衡化数据,否则,返回从少数类样本集中任意选取一个少数类样本作为目标样本的步骤继续执行。
对于步骤S2021,上述少数类样本集是指不常见疾病的病例样本对应的集合。不常见疾病的病例样本如白化病样本数据、血友病样本数据、重症肌无力样本数据。
多数类样本集是指常见疾病的病例样本对应的集合,常见的疾病的病例样本如高血压样本数据、心绞痛样本数据。
对于步骤S2022,上述目标样本用于生成新样本,从而使得多数类样本集合和少数类样本集合的数据均衡的样本数据。
对于步骤S2023,上述边界划分采用的是边界不变过采样算法。
应理解,传统解决数据分布不均衡的方法为SMOTE算法(Synthetic MinorityOver-Sampling Technique ,人工少数类过采样法),SMOTE算法是对数据分布不均衡提出的智能过采样算法。该算法在随机过采样算法基础上的通过对原有少数类样本进行分析并根据原有少数类样本人工合成新样本。但SMOTE算法生成的新样本比较容易出现在少数类样本较为集中的区域,导致样本不均衡问题并没有得到明显改善。
本申请采用的边界不变过采样算法通过对目标样本,即少数类样本进行边界划分,对划分好边界的样本进行插值,并不断进行调整插值范围,生成新样本。
进一步地,步骤S2023还包括:
对目标样本与本地医疗数据集中所有数据进行距离计算,并根据计算得到的距离结果形成目标样本的领域集合。
基于领域集合,对目标样本进行边界划分,得到划分结果。
上述距离计算包括但不限于欧式距离,余弦距离。
优选地,本申请采用欧式距离。
上述领域集合用于存放该目标样本的K近邻样本数据。其中,K为预设的常数,K为正整数,例如,K取10,则领域集合存放该目标样本的10近邻样本数据。
基于领域集合,将目标样本与领域集合中的K近邻样本数据划分到同一个区域内,得到划分结果。在目标样本的领域集合中,多数类样本的数量为N1,少数类样本的数量为N2。其中,N1和N2为正整数,且N1+N2=K+1。对于步骤S2024,上述划分结果包括稳定边界样本和不稳定边界样本。
具体地,在领域集合中,当该目标样本满足时,则该目标样本为稳定边界样本,否则,该目标样本为不稳定边界样本。
对于步骤S2025,上述插值是指对目标样本进行随机线性插值的方法。
进一步地,步骤S2025还包括:
当目标样本为稳定边界样本时,则根据预设采样率,确定目标样本的相邻集合,其中,采样率通过计算少数类样本集和多数类样本集比例确定。
从相邻集合中选取样本,对目标样本进行插值处理,生成新样本,并将新样本加入新样本集,其中,当从相邻集合中选取的样本为多数类样本,则修改生成随机数范围,生成随机数范围用于生成随机数,并基于随机数对目标样本进行插值。
具体地,上述预设采样率是指确定目标样本的相邻集合的比例。
预设采样率的获取方式可通过经验值设定,或者,通过计算少数类样本集和多数类样本集比例确定。
例如,假设存在少数类样本集中具有2个少数类样本,多数类样本集中具有200个多数类样本,则采样率为1/100 。
其中,当从相邻集合中选取的样本为少数类样本时,按照如下公式(1)生成新样本:
(1)
其中,Xnew是指新样本,X是指目标样本,Xi是指领域集合中选出出来的样本,rand(0,1)是指随机取0到1之间任意小数,
其中,当从相邻集合中选取的样本为多数类样本时,按照如下公式(2)生成新样本:
(2)
其中,Xnew是指新样本,X是指目标样本,Xi是指领域集合中选出出来的样本,rand(0,y)是指随机取0到y之间任意小数,y小于1,且y为小数,优选地,此处的y选取0.7。
在本实施例中,通过边界不变过采样算法对本地医疗数据集进行处理,对其少数类进行边界划分,计算每个少数类样本与本地医疗数据集中所有数据的距离得到K近邻,并动态插值进行筛选若干样本构成新样本,将新样本添加到本地医疗数据集中形成分布均衡的数据集,解决了样本不均衡导致分析精度下降的问题,从而提高对医疗隐私数据进行分析的准确率。
在本实施例的一些可选的实现方式中,步骤204包括S2041至S2043:
S2041、医疗客户端通过局部模型的特征提取模块,对均衡化数据进行特征提取,得到数据特征。
S2041、医疗客户端通过局部模型的分类器,对数据特征进行隐私分类,进行隐私分类处理,得到分类结果。
S2043、医疗客户端将分类结果传送给全局控制中心。
对于步骤S2041,上述数据特征是指经过局部模型的特征提取模块进行特征提取的特征。
应理解,此部分的特征提取模块可根据实际情况具体调整。
优选地,局部模型的特征提取模块包括人工蜂群算法单元和萤火虫算法单元。
当局部模型的特征提取模块包括人工蜂群算法单元和萤火虫算法单元时,进一步地,步骤S2041包括:
医疗客户端通过人工蜂群算法单元,对均衡化数据进行特征提取,得到局部特征。
医疗客户端通过萤火虫算法单元,对局部特征进行迭代处理,直到满足预设条件,将迭代后得到的特征作为数据特征。
具体地,上述人工蜂群算法单元采用人工蜂群算法,用于对均衡化数据进行特征提取,生成局部特征。上述萤火虫算法单元采用萤火虫算法,用于对人工蜂群算法生成的局部特征进行迭代改进,得到最优解。
上述预设条件是指在给定时间轮数获得优化解,即最优特征。
应理解,在本申请中的人工蜂群算法是一种模仿蜜蜂蜂群协同合作寻找食物行为的方法,其寻找问题可能存在的解就是模拟蜜蜂寻找花蜜的行为,将这种行为称为蜜蜂,共有三种类型的人工蜜蜂,分别是雇佣蜂、观察蜂和侦察蜂,每个雇佣蜂对应一个确定的蜜源即解向量,并不断迭代在解空间中搜索,根据适应度函数观察蜂进行新蜜源的搜索即寻找更优的解向量,而适应度函数的主要目标是降低客户端上本地模型的最佳分类误差和提高通讯效率。萤火虫算法随机选择一个蜜源,即雇佣蜂设定为侦察蜂,并对该雇佣蜂进行评估,若该雇佣蜂不能再给定时间轮数内得到优化解,则将其转换为侦察蜂,迭代得到最优特征。
通过人工蜂群算法单元,对均衡化数据进行特征提取,生成一组潜在的解决方案,再由萤火虫算法单元通过模拟萤火虫的闪烁行为来改进解决方案,进而得出最优的特征选择方案。
对于步骤S2042,上述分类器包括但不限于逻辑回归分类器、朴素贝叶斯分类器、最近邻分类器、支持向量机。
优选地,本申请采用支持向量机。
进一步地,步骤S2042包括:
医疗客户端通过局部模型的支持向量机,对数据特征进行隐私分类,进行隐私分类处理,得到分类结果,其中,支持向量机的核函数为径向基函数。
易理解,支持向量机使用凸优化给出全局最小值的同时能够防止程序陷入局部最小值,主要使用核函数来进行数据转换,能够将低维输入空间转换为高维空间,将不可分问题转换为可分问题。支持向量机算法的核心在于核函数的选取,而为了解决具有高维特征集的本地医疗数据集的分类问题,本申请实施例中的支持向量机的核函数为径向基函数。
具体地,径向基函数如下列公式(3)所示:
(3)
其中,RBF(d,dj)代表径向基函数,d是指输入的数据集,dj是指数据集中的第j个样本,j为正整数,e是指自然常数,σ是指超参。
在本实施例中,通过上述人工蜂群算法、萤火虫算法和支持向量机,对均衡化数据进行分类处理,提高了分类结果的准确率,从而提高对医疗数据进行分析的准确率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
图3示出与上述实施例医疗隐私数据处理方法一一对应的医疗隐私数据处理装置的原理框图。如图3所示,该医疗隐私数据处理装置包括参数传送模块31、均衡化模块32、局部模型确定模块33、分类结果确定模块34、局部模型更新模块35和分析模块36。各功能模块详细说明如下:
参数传送模块31,用于当全局控制中心接收到目标医疗客户端的数据处理请求时,全局控制中心将全局参数传送给所有医疗客户端,其中,数据处理请求是指对待分析医疗隐私数据进行分析处理的请求,目标医疗客户端的本地医疗数据集包括待分析医疗隐私数据。
均衡化模块32,用于在每个医疗客户端中,医疗客户端对本地医疗数据集中的少数类样本进行过采样处理,生成新样本,并根据新样本确定均衡化数据。
局部模型确定模块33,用于医疗客户端根据全局参数对本地模型进行初始化,得到局部模型。
分类结果确定模块34,用于医疗客户端通过局部模型对均衡化数据进行隐私分类处理,得到分类结果,并将分类结果传送给全局控制中心。
局部模型更新模块35,用于全局控制中心对接收到的所有分类结果进行匹配平均处理,根据得到的结果更新全局参数,并将更新后的全局参数传送给所有医疗客户端,以使医疗客户端根据更新后的全局参数更新对应的局部模型。
分析模块36,用于当全局控制中心接收到的所有分类结果满足预设条件时,则基于目标医疗客户端的局部模型,对待分析医疗隐私数据进行分析处理,得到分析结果。
可选地,均衡化模块32包括:
划分单元,用于在每个医疗客户端中,医疗客户端将本地医疗数据集划分为少数类样本集和多数类样本集。
目标样本选取单元,用于从少数类样本集中任意选取一个少数类样本作为目标样本。
划分结果获取单元,用于对目标样本进行边界划分,得到划分结果。
种类判断单元,用于根据划分结果,判断目标样本的种类。
插值单元,用于当目标样本为稳定边界样本时,对目标样本进行插值处理,生成新样本,并将新样本加入新样本集中。
均衡化数据获取单元,用于当新样本集和少数类样本集的样本数量等于多数类样本集的样本数量时,将新样本集合、少数类样本集和多数类样本集作为均衡化数据,否则,返回从少数类样本集中任意选取一个少数类样本作为目标样本的步骤继续执行。
可选地,划分结果获取单元包括:
领域集合获取单元,用于对目标样本与本地医疗数据集中所有数据进行距离计算,并根据计算得到的距离结果形成目标样本的领域集合。
边界划分单元,用于基于领域集合,对目标样本进行边界划分,得到划分结果。
可选地,插值单元包括:
相邻集合确定单元,用于当目标样本为稳定边界样本时,则根据预设采样率,确定目标样本的相邻集合。
新样本确定单元,用于从相邻集合中选取样本,对目标样本进行插值处理,生成新样本,并将新样本加入新样本集,其中,当从相邻集合中选取的样本为多数类样本,则修改生成随机数范围,生成随机数范围用于生成随机数,并基于随机数对目标样本进行插值。
可选地,分类结果确定模块34包括:
数据特征确定单元,用于医疗客户端通过局部模型的特征提取模块,对均衡化数据进行特征提取,得到数据特征。
分类结果确定单元,用于医疗客户端通过局部模型的分类器,对所述数据特征进行隐私分类,进行隐私分类处理,得到分类结果。
传送单元,用于所述医疗客户端将所述分类结果传送给所述全局控制中心。
可选地,所述局部模型的特征提取模块包括人工蜂群算法单元和萤火虫算法单元,数据特征确定单元包括:
局部特征确定单元,用于医疗客户端通过人工蜂群算法单元,对均衡化数据进行特征提取,得到局部特征。
迭代单元,用于医疗客户端通过萤火虫算法单元,对局部特征进行迭代处理,直到满足预设条件,将迭代后得到的特征作为数据特征。
可选地,分类结果确定单元包括:
隐私分类单元,用于医疗客户端通过局部模型的支持向量机,对数据特征进行隐私分类,进行隐私分类处理,得到分类结果,其中,支持向量机的核函数为径向基函数。
关于医疗隐私数据处理装置的具体限定可以参见上文中对于医疗隐私数据处理方法的限定,在此不再赘述。上述医疗隐私数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是,图中仅示出了具有组件连接存储器41、处理器42、网络接口43的计算机设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器 (Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或D界面显示存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41也可以是所述计算机设备4的外部存储设备,例如该计算机设备4上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件,例如电子文件的控制的程序代码等。此外,所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的程序代码或者处理数据,例如运行电子文件的控制的程序代码。
所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有界面显示程序,所述界面显示程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的医疗隐私数据处理方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。
Claims (9)
1.一种医疗隐私数据处理方法,其特征在于,应用于联邦学习系统中,所述联邦学习系统包括全局控制中心和至少两个医疗客户端;所述医疗隐私数据处理方法包括:
当全局控制中心接收到目标医疗客户端的数据处理请求时,所述全局控制中心将全局参数传送给所有医疗客户端,其中,所述数据处理请求是指对待分析医疗隐私数据进行分析处理的请求,所述目标医疗客户端的本地医疗数据集包括所述待分析医疗隐私数据;
在每个所述医疗客户端中,所述医疗客户端对本地医疗数据集中的少数类样本进行过采样处理,生成新样本,并根据所述新样本确定均衡化数据;
所述医疗客户端根据所述全局参数对本地模型进行初始化,得到局部模型;
所述医疗客户端通过所述局部模型对所述均衡化数据进行隐私分类处理,得到分类结果,并将所述分类结果传送给所述全局控制中心;
所述全局控制中心对接收到的所有所述分类结果进行匹配平均处理,根据得到的结果更新所述全局参数,并将更新后的全局参数传送给所有所述医疗客户端,以使所述医疗客户端根据所述更新后的全局参数更新对应的局部模型;
当所述全局控制中心接收到的所有所述分类结果满足预设条件时,则基于所述目标医疗客户端的局部模型,对所述待分析医疗隐私数据进行分析处理,得到分析结果;
其中,所述在每个所述医疗客户端中,所述医疗客户端对本地医疗数据集中的少数类样本进行过采样处理,生成新样本,并根据所述新样本确定均衡化数据的步骤包括:
在每个所述医疗客户端中,所述医疗客户端将本地医疗数据集划分为少数类样本集和多数类样本集;
从所述少数类样本集中任意选取一个少数类样本作为目标样本;
对所述目标样本进行边界划分,得到划分结果,其中,边界划分采用边界不变过采样算法;
根据所述划分结果,判断所述目标样本的种类;
当所述目标样本为稳定边界样本时,对所述目标样本进行插值处理,生成新样本,并将所述新样本加入新样本集中;
当所述新样本集和所述少数类样本集的样本数量等于所述多数类样本集的样本数量时,将所述新样本集合、所述少数类样本集和所述多数类样本集作为均衡化数据,否则,返回所述从所述少数类样本集中任意选取一个少数类样本作为目标样本的步骤继续执行。
2.如权利要求1所述的医疗隐私数据处理方法,其特征在于,所述对所述目标样本进行边界划分,得到划分结果的步骤包括:
对目标样本与本地医疗数据集中所有数据进行距离计算,并根据计算得到的距离结果形成所述目标样本的领域集合;
基于所述领域集合,对所述目标样本进行边界划分,得到划分结果。
3.如权利要求1所述的医疗隐私数据处理方法,其特征在于,所述当所述目标样本为稳定边界样本时,对所述目标样本进行插值处理,生成新样本,并将所述新样本加入新样本集中的步骤包括:
当目标样本为稳定边界样本时,则根据预设采样率,确定所述目标样本的相邻集合;
从所述相邻集合中选取样本,对所述目标样本进行插值处理,生成新样本,并将所述新样本加入新样本集,其中,当从所述相邻集合中选取的样本为多数类样本,则修改生成随机数范围,所述生成随机数范围用于生成随机数,并基于所述随机数对所述目标样本进行插值。
4.如权利要求1所述的医疗隐私数据处理方法,其特征在于,所述医疗客户端通过所述局部模型对所述均衡化数据进行隐私分类处理,得到分类结果,并将所述分类结果传送给所述全局控制中心的步骤包括:
所述医疗客户端通过所述局部模型的特征提取模块,对所述均衡化数据进行特征提取,得到数据特征;
所述医疗客户端通过所述局部模型的分类器,对所述数据特征进行隐私分类,进行隐私分类处理,得到分类结果;
所述医疗客户端将所述分类结果传送给所述全局控制中心。
5.如权利要求4所述的医疗隐私数据处理方法,其特征在于,所述局部模型的特征提取模块包括人工蜂群算法单元和萤火虫算法单元,所述医疗客户端通过所述局部模型的特征提取模块,对所述均衡化数据进行特征提取,得到数据特征的步骤包括:
所述医疗客户端通过所述人工蜂群算法单元,对所述均衡化数据进行特征提取,得到局部特征;
所述医疗客户端通过所述萤火虫算法单元,对所述局部特征进行迭代处理,直到满足预设条件,将迭代后得到的特征作为数据特征。
6.如权利要求4所述的医疗隐私数据处理方法,其特征在于,所述医疗客户端通过所述局部模型的分类器,对所述数据特征进行隐私分类,进行隐私分类处理,得到分类结果包括:
医疗客户端通过局部模型的支持向量机,对所述数据特征进行隐私分类,进行隐私分类处理,得到分类结果,其中,所述支持向量机的核函数为径向基函数。
7.一种医疗隐私数据处理装置,其特征在于,所述医疗隐私数据处理装置包括:
参数传送模块,用于当全局控制中心接收到目标医疗客户端的数据处理请求时,所述全局控制中心将全局参数传送给所有医疗客户端,其中,所述数据处理请求是指对待分析医疗隐私数据进行分析处理的请求,所述目标医疗客户端的本地医疗数据集包括所述待分析医疗隐私数据;
均衡化模块,用于在每个所述医疗客户端中,所述医疗客户端对本地医疗数据集中的少数类样本进行过采样处理,生成新样本,并根据所述新样本确定均衡化数据;
局部模型确定模块,用于所述医疗客户端根据所述全局参数对本地模型进行初始化,得到局部模型;
分类结果确定模块,用于所述医疗客户端通过所述局部模型对所述均衡化数据进行隐私分类处理,得到分类结果,并将所述分类结果传送给所述全局控制中心;
局部模型更新模块,用于所述全局控制中心对接收到的所有所述分类结果进行匹配平均处理,根据得到的结果更新所述全局参数,并将更新后的全局参数传送给所有所述医疗客户端,以使所述医疗客户端根据所述更新后的全局参数更新对应的局部模型;
分析模块,用于当所述全局控制中心接收到的所有所述分类结果满足预设条件时,则基于所述目标医疗客户端的局部模型,对所述待分析医疗隐私数据进行分析处理,得到分析结果;
其中,所述均衡化模块包括:
划分单元,用于在每个所述医疗客户端中,所述医疗客户端将本地医疗数据集划分为少数类样本集和多数类样本集;
目标样本选取单元,用于从所述少数类样本集中任意选取一个少数类样本作为目标样本;
划分结果获取单元,用于对所述目标样本进行边界划分,得到划分结果,其中,边界划分采用边界不变过采样算法;
种类判断单元,用于根据所述划分结果,判断所述目标样本的种类;
插值单元,用于当所述目标样本为稳定边界样本时,对所述目标样本进行插值处理,生成新样本,并将所述新样本加入新样本集中;
均衡化数据获取单元,用于当所述新样本集和所述少数类样本集的样本数量等于所述多数类样本集的样本数量时,将所述新样本集合、所述少数类样本集和所述多数类样本集作为均衡化数据,否则,返回所述从所述少数类样本集中任意选取一个少数类样本作为目标样本的步骤继续执行。
8.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的医疗隐私数据处理方法。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的医疗隐私数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310538534.9A CN116305289B (zh) | 2023-05-15 | 2023-05-15 | 医疗隐私数据处理方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310538534.9A CN116305289B (zh) | 2023-05-15 | 2023-05-15 | 医疗隐私数据处理方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116305289A CN116305289A (zh) | 2023-06-23 |
CN116305289B true CN116305289B (zh) | 2023-08-15 |
Family
ID=86832711
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310538534.9A Active CN116305289B (zh) | 2023-05-15 | 2023-05-15 | 医疗隐私数据处理方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116305289B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116541407B (zh) * | 2023-07-07 | 2023-10-10 | 之江实验室 | 一种数据处理的方法、装置、存储介质及电子设备 |
CN117933427B (zh) * | 2024-03-19 | 2024-05-28 | 南京邮电大学 | 一种智能电网双重采样优化的差分隐私联邦学习方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112632620A (zh) * | 2020-12-30 | 2021-04-09 | 支付宝(杭州)信息技术有限公司 | 一种增强隐私保护的联邦学习方法和系统 |
CN113691594A (zh) * | 2021-08-11 | 2021-11-23 | 杭州电子科技大学 | 一种基于二阶导数解决联邦学习中数据不平衡问题的方法 |
CN113792856A (zh) * | 2021-09-09 | 2021-12-14 | 电子科技大学 | 基于vae医疗保健联邦学习框架的确定方法 |
CN115114988A (zh) * | 2022-07-05 | 2022-09-27 | 中国电子系统技术有限公司 | 一种面向不均衡数据分布的隐私保护k均值聚类方法 |
CN115811402A (zh) * | 2022-11-14 | 2023-03-17 | 吉林大学 | 基于隐私保护联邦学习的医疗数据分析方法及存储介质 |
-
2023
- 2023-05-15 CN CN202310538534.9A patent/CN116305289B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112632620A (zh) * | 2020-12-30 | 2021-04-09 | 支付宝(杭州)信息技术有限公司 | 一种增强隐私保护的联邦学习方法和系统 |
CN113691594A (zh) * | 2021-08-11 | 2021-11-23 | 杭州电子科技大学 | 一种基于二阶导数解决联邦学习中数据不平衡问题的方法 |
CN113792856A (zh) * | 2021-09-09 | 2021-12-14 | 电子科技大学 | 基于vae医疗保健联邦学习框架的确定方法 |
CN115114988A (zh) * | 2022-07-05 | 2022-09-27 | 中国电子系统技术有限公司 | 一种面向不均衡数据分布的隐私保护k均值聚类方法 |
CN115811402A (zh) * | 2022-11-14 | 2023-03-17 | 吉林大学 | 基于隐私保护联邦学习的医疗数据分析方法及存储介质 |
Non-Patent Citations (1)
Title |
---|
Oversampling for Imbalanced Learning Based on K-means and SMOTE;Felix Last;Information Science;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116305289A (zh) | 2023-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116305289B (zh) | 医疗隐私数据处理方法、装置、计算机设备及存储介质 | |
CN110796190B (zh) | 具有深度学习特征的指数建模 | |
WO2019144892A1 (zh) | 数据处理方法、装置、存储介质和电子装置 | |
CN111506723B (zh) | 问答响应方法、装置、设备及存储介质 | |
CN111950596A (zh) | 一种用于神经网络的训练方法以及相关设备 | |
CN111950622B (zh) | 基于人工智能的行为预测方法、装置、终端及存储介质 | |
US11423307B2 (en) | Taxonomy construction via graph-based cross-domain knowledge transfer | |
CN110674636B (zh) | 一种用电行为分析方法 | |
CN111816300A (zh) | 基于深度强化学习的数据分类方法、装置、设备及介质 | |
WO2024067373A1 (zh) | 一种数据处理方法及相关装置 | |
WO2024001806A1 (zh) | 一种基于联邦学习的数据价值评估方法及其相关设备 | |
CN116684330A (zh) | 基于人工智能的流量预测方法、装置、设备及存储介质 | |
CN110335160B (zh) | 一种基于分组和注意力改进Bi-GRU的就医迁移行为预测方法及系统 | |
CN108629381A (zh) | 基于大数据的人群筛选方法及终端设备 | |
JP7276483B2 (ja) | 学習装置、分類装置、学習方法及び学習プログラム | |
CN116705196A (zh) | 基于符号图神经网络的药物靶标互作用预测方法及装置 | |
Sahoo | Study of parametric performance evaluation of machine learning and statistical classifiers | |
Mishra et al. | A decision support system in healthcare prediction | |
CN117010480A (zh) | 模型训练方法、装置、设备、存储介质及程序产品 | |
Kattan et al. | GP made faster with semantic surrogate modelling | |
CN116994764A (zh) | 一种健康行为模型构建方法、装置及电子设备及存储介质 | |
CN112036641B (zh) | 基于人工智能的留存预测方法、装置、计算机设备及介质 | |
CN116307742B (zh) | 一种细分客群的风险识别方法、装置、设备及存储介质 | |
CN116701972B (zh) | 业务数据处理方法、装置、设备以及介质 | |
US20240169187A1 (en) | Systems and Methods for Supplementing Data With Generative Models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |