CN116361859B - 基于深度隐私编码器的跨机构患者记录链接方法及系统 - Google Patents
基于深度隐私编码器的跨机构患者记录链接方法及系统 Download PDFInfo
- Publication number
- CN116361859B CN116361859B CN202310646247.XA CN202310646247A CN116361859B CN 116361859 B CN116361859 B CN 116361859B CN 202310646247 A CN202310646247 A CN 202310646247A CN 116361859 B CN116361859 B CN 116361859B
- Authority
- CN
- China
- Prior art keywords
- privacy
- data
- depth
- encoder
- coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/098—Distributed learning, e.g. federated learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/21—Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/2107—File encryption
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Bioethics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种基于深度隐私编码器的跨机构患者记录链接方法及系统,该方法包括:各机构从本地数据源中提取用于记录链接的属性数据,利用各机构属性数据基于联邦学习技术训练深度隐私编码器,利用完成训练的深度隐私编码器对属性数据进行编码,生成各机构的隐私编码库,各请求接收机构基于隐私编码库获取记录链接请求的匹配结果。本发明利用联邦学习技术训练深度隐私编码器,能够从根本上解决数据隐私泄露问题;本发明提出的深度隐私编码器生成的隐私编码不仅能够达到与布隆编码同样的隐私保护效果,更能够反映原始数据的特征;本发明在深度隐私编码器中引入对比损失,能够确保记录链接的准确性。
Description
技术领域
本发明属于医疗信息技术领域,尤其涉及一种基于深度隐私编码器的跨机构患者记录链接方法及系统。
背景技术
记录链接是从一个或多个数据集中识别和聚合同一实体所有记录的过程,尤其是当同一实体的数据分布在多个数据集时,记录链接是必不可少的。个人健康医疗数据包括健康医疗服务数据、生物医学数据、医疗保险数据、医药研发与管理数据、公共卫生数据、健康相关行为与情绪数据、人口统计数据等,这些数据往往碎片化地分散在多个不同类型的健康医疗相关机构中,如大型综合三甲医院、社区卫生服务中心、养老机构、基本医疗保险经办机构、疾病预防控制机构、基因检测公司、医药企业、零售药店等。个人全生命周期的健康医疗数据对于疾病预防、辅助诊疗、医保合理付费等相关研究十分重要,基于患者个人信息的记录链接是跨机构整合个人全生命周期健康医疗数据的基础。由于各机构间的数据系统相互独立及对个人隐私保护的考虑,导致个人健康医疗数据常常局限在各机构内部,很难实现有效整合,因此,亟需一种能够在不泄露个人隐私的前提下打通各机构的数据系统实现记录链接的方法及系统。
专利CN110866283B《基于区块链和部分同态加密多方可验证数据记录链接方法》中各数据源使用差分隐私技术对用于记录链接的属性信息进行扰动,再利用布隆过滤器对扰动后的属性信息进行编码,通过同态加密技术对布隆过滤器编码加密后发布至链接者,由链接者计算记录间的汉明距离完成记录链接。该专利在差分隐私扰动原始数据的基础上使用布隆过滤器,即使两条完全相同的原始记录,也能生成不同的布隆编码,从而保证原始记录的安全,再加上同态加密对布隆编码进行二次加密后传输至链接点解密后完成相似度计算,能够有效抵抗传输过程中的攻击,该方案将差分隐私、布隆过滤器与同态加密技术相结合,在很大程度上保证原始数据的安全。但是该专利具有如下缺点:① 哈希算法碰撞引起的误判问题:布隆过滤器是一种牺牲查询准确率来换取空间效率的数据结构,基于哈希算法在有限大小的维向量下必然存在碰撞,即原始数据不同但布隆编码相同,基于该编码计算相似度将会得到与真实情况截然不同的判断结果,从而降低记录链接的准确率;② 对同一实体原始数据差异较大的记录对判断容错率较低:同一实体在药店、社区卫生服务中心等数字化程度较低的机构的个人健康医疗数据与大型综合三甲医院、基本医疗保险经办机构等数字化程度较高的机构相比,存在大量数据缺失、错填的情况,直接将该专利提出的方案应用于这两种机构的记录链接上,必然会导致同一实体存储在不同机构的记录对应的布隆编码差异较大,相似度较低,从而降低记录链接准确率。
专利CN113946871A 《隐私保护数据记录集成方法、系统和计算机可读存储介质》中各数据源同样使用布隆过滤器对选定的准标识符进行编码,将编码后的数据分发到链接节点,对除准标识符外的公共属性进行哈希编码,并基于该哈希编码分块,构造正负样本通过双向长短期记忆网络提取特征、全连接然后计算余弦相似度完成孪生神经网络的训练,最后利用该孪生神经网络完成分块数据中同属一个患者的候选记录对识别。该专利将布隆过滤器与双向长短期记忆网络、孪生神经网络相结合,通过对正负样本的构造及对正负样本布隆编码中的隐藏特征的提取和学习,再借助梯度下降方法调节孪生神经网络的参数优化模型效果,能够弥补专利CN110866283B对同一实体原始数据差异较大的记录对判断容错率较低的问题。但是该专利具有如下缺点:①哈希算法碰撞引起的误判问题:尽管该专利通过对布隆编码的隐藏特征进行提取减弱了对布隆编码的直接依赖,但对同样的布隆编码进行特征提取一定会得到同样的特征向量,因此仍然无法解决布隆过滤器中哈希算法的碰撞问题;② 隐私泄露风险:该专利中各数据源使用公共的布隆过滤器参数,且直接将布隆编码发布至链接节点,然后在链接节点中进行正负样本标注,较难抵御半诚实链接节点的攻击,存在较大的隐私泄露风险;③ 训练集正负样本不均衡:多个数据源中同属一个实体的记录在全集中的占比与非同属一个实体的记录相比要小得多,即正负样本不均衡,该专利直接使用这样的样本数据进行模型训练,将会使得分类边界会偏向负判断,从而影响模型的鲁棒性。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于深度隐私编码器的跨机构患者记录链接方法及系统。
本发明的目的是通过以下技术方案实现的:
根据本说明书的第一方面,提供一种基于深度隐私编码器的跨机构患者记录链接方法,该方法包括以下步骤:
S1, 各机构从本地数据源中提取用于记录链接的属性数据,对属性数据进行数据预处理;
S2,构建深度隐私编码器,利用各机构经数据预处理后的属性数据,基于联邦学习技术训练深度隐私编码器;
S3,利用完成训练的深度隐私编码器对属性数据进行编码,生成各机构的隐私编码库;
S4,各请求接收机构基于隐私编码库获取记录链接请求的匹配结果。
进一步地,各机构提取的属性数据为能够确定患者身份的个人属性字段数据,并为个人属性字段数据添加患者标识,将每条属性数据记录及其患者标识作为一个样本,其中患者标识作为属性数据记录的标签,构建各机构本地数据源矩阵。
进一步地,所述深度隐私编码器包括数据抽取层、数据增强层、特征提取层、隐私编码层和对比学习层;
所述数据抽取层用于从各机构本地数据源矩阵中抽取训练子集;
所述数据增强层用于对训练子集进行数据增强得到增强训练子集;
所述特征提取层用于使用词嵌入算法提取属性数据记录各个人属性字段的特征向量;
所述隐私编码层用于对特征向量进行隐私编码;
所述对比学习层用于通过计算对比损失,优化特征提取层的词嵌入算法参数。
进一步地,所述数据增强层中,对训练子集中的属性数据记录进行数据增强,直至属性数据记录的标签对应的样本量达到设定值,生成增强训练子集;
数据增强单位行为包括随机删除字段、随机删除字符串、随机重复字符串和随机字符串替换;根据数据增强单位行为生成若干数据增强行为模式,结合数据增强单位行为的发生概率得到各数据增强行为模式的绝对发生概率和相对发生概率,生成数据增强行为模式概率表。
进一步地,所述隐私编码层由最大池化层、双曲正切激活层和随机差分层组成;
所述最大池化层用于对增强训练子集对应的特征向量矩阵进行最大池化操作;
所述双曲正切激活层使用双曲正切激活函数生成池化后的特征向量矩阵对应的编码矩阵;
所述随机差分层基于随机生成的隐私预算及随机应答机制对编码矩阵进行扰动,生成隐私编码矩阵。
进一步地,所述对比学习层中,将隐私编码矩阵中标签对应的所有隐私编码向量视作所述标签的正样本,将其余的隐私编码向量均视作所述标签的负样本,计算正负样本的对比损失,利用反向传播算法优化特征提取层的词嵌入算法参数。
进一步地,所述对比损失的计算包括:
将隐私编码矩阵按照标签拆分为若干子隐私编码矩阵,所述子隐私编码矩阵的数量与训练子集中包含的患者数量相同;标签对应的子隐私编码矩阵为所述标签的正样本矩阵,其余子隐私编码矩阵均为所述标签的负样本矩阵;
计算标签的正样本矩阵的距离矩阵,以及标签的正样本矩阵与负样本矩阵的距离矩阵;计算所有正样本矩阵内的距离矩阵的均值向量,以及所有正负样本矩阵间的距离矩阵的均值向量;根据均值向量计算正负样本的对比损失。
进一步地,基于联邦学习技术训练深度隐私编码器,包括:
(1)云服务器初始化特征提取层的全局参数;
(2)云服务器随机选择若干机构下发特征提取层的全局参数及训练任务;
(3)接收到训练任务的机构训练本地深度隐私编码器,完成训练后将本地特征提取层的局部参数上传至云服务器;
(4)云服务器接收到各机构上传的局部参数后,对全局参数进行更新;循环执行步骤(2)至步骤(4)进行深度隐私编码器特征提取层的全局参数迭代直至收敛。
进一步地,各请求接收机构基于隐私编码库获取记录链接请求的匹配结果,包括:
请求机构发起记录链接请求,将属性数据记录对应的隐私编码发送至接收机构;
接收机构将本地隐私编码库中的隐私编码逐一与接收的隐私编码组成隐私编码对,计算各隐私编码对之间的相似度,根据设定阈值对隐私编码对的相似度计算结果进行筛选,返回匹配结果。
根据本说明书的第二方面,提供一种基于深度隐私编码器的跨机构患者记录链接系统,该系统包括以下模块:
数据采集模块,用于各机构从本地数据源中提取用于记录链接的属性数据,对属性数据进行数据预处理;
深度隐私编码器构建及训练模块,用于构建深度隐私编码器,利用各机构经数据预处理后的属性数据,基于联邦学习技术训练深度隐私编码器;
隐私编码库生成模块,利用完成训练的深度隐私编码器对属性数据进行编码,生成各机构的隐私编码库;
记录链接请求响应模块,用于各请求接收机构基于隐私编码库获取记录链接请求的匹配结果,并返回给请求机构。
本发明的有益效果是:
1. 本发明利用联邦学习技术训练深度隐私编码器,在数据不出门的情况下整合多数据源的数据,充分学习各数据源的隐藏数据特征完成模型训练,能够从根本上解决数据发布至中心服务器及集中标注带来的隐私泄露问题。
2. 本发明提出的深度隐私编码器在特征提取层提取原始数据的特征向量、在隐私编码层使用双曲正切激活函数对特征向量进行转码后经随机生成的隐私参数扰动最终生成隐私编码,该隐私编码不仅能够实现对原始数据的加密,还能够反映原始数据的内容及上下文关系,在解决布隆过滤器哈希算法碰撞问题的同时达到同样的隐私保护效果。
3. 本发明利用能够模拟机构间数据差异的数据增强技术扩充正样本的占比,能够解决训练集正负样本不均衡的问题,此外,数据增强后的训练集能够充分反映机构间真实数据存在的问题,从而增强模型的鲁棒性。
4. 本发明提出的深度隐私编码器在对比学习层引入对比损失,在训练过程中以此为基础优化其特征提取层的参数,确保同一实体的隐私编码相似,不同实体的隐私编码相异,在最大程度上解决同一实体原始数据差异较大的记录对判断容错率较低的问题。
附图说明
图1为一示例性实施例提供的基于深度隐私编码器的跨机构患者记录链接方法流程图;
图2为一示例性实施例提供的深度隐私编码器结构图;
图3为一示例性实施例提供的深度隐私编码器内部数据流向图;
图4为一示例性实施例提供的数据增强机制示意图;
图5为一示例性实施例提供的基于深度隐私编码器的跨机构患者记录链接系统结构图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
如图1所示,本发明实施例提供一种基于深度隐私编码器的跨机构患者记录链接方法,该方法主要包括数据采集、深度隐私编码器训练、隐私编码库生成及记录链接请求响应四个步骤,下面详细阐述每个步骤的具体实现流程。
步骤S1,数据采集:各机构从本地数据源中提取用于记录链接的属性数据并对提取到的属性数据进行数据预处理操作;具体包括以下子步骤:
步骤S11,数据提取:各机构分别从本地数据源中提取用于记录链接的属性数据,通常为可以确定患者身份的个人属性字段,例如姓名、性别、出生年月等,但也可以不限于个人属性字段,例如诊断名称、手术名称等,主要由各机构共同确定。
步骤S12,添加患者标识:在提取个人属性字段数据的基础上新增患者ID字段,记为PID,为患者的唯一标识,主要是由于患者的某些个人属性例如婚姻状况、生存情况等会随着时间变化,或是在数据填写过程中存在错填、漏填等问题,导致同一患者在机构的本地数据源中存在多条内容不一致的属性数据记录,PID的作用在于确保同属一个患者的多条属性数据记录具有相同的标签。
步骤S13,矩阵化:将每一条属性数据记录及其患者标识作为一个样本,其中患者标识作为属性数据记录的标签,将各机构本地的原始数据源矩阵化表示为,其中,/>,n为样本量,/>表示第i个样本的属性数据记录,m为各机构共同确定用于记录链接的个人属性字段数量,/>为第i个样本第j个个人属性字段数据,/>表示第i个样本的标签,即所属患者的PID。
步骤S14,预处理:对每一个个人属性字段数据进行数据预处理,包括数据清洗和数据标准化,具体地,数据清洗包括去除特殊符号、异常值校正等,但对缺失值不进行特殊处理,主要是为了反映更真实的数据情况,增强后续训练模型的鲁棒性;数据标准化包括统一书写格式、统一字段值域等。
步骤S2,构建深度隐私编码器,利用各机构经数据预处理后的属性数据,基于联邦学习技术训练深度隐私编码器。
步骤S21,构建深度隐私编码器,具体地,如图2、图3所示,深度隐私编码器的结构包括数据抽取层、数据增强层、特征提取层、隐私编码层和对比学习层,各层具体实现如下:
① 数据抽取层:将各机构本地的原始数据源矩阵作为训练集,该层主要用于从训练集中随机抽取训练子集/>,B的样本量小于或等于D的样本量。
② 数据增强层:该层针对真实数据中存在的问题设计数据增强机制,对训练子集B中的执行数据增强机制,直至/>对应的样本量达到设定值g个,g的默认值为10,用户可根据自身需求进行修改,生成增强训练子集/>,其中,表示第i个样本经数据增强后的第e个增强样本的属性数据记录,/>,由于训练子集B中可能会抽到一个患者的多条内容不一致的属性数据记录,因此,/>,现有属性数据记录依然按照原始数据依次存储于增强训练子集/>中,如图4所示,具体数据增强机制如下:
数据增强单位行为包括:
1) 随机删除字段:随机将设定比例(默认值为30%)的个人属性字段置空,,其中,Floor为向下取整函数,用于模拟真实数据中存在的漏填问题;
2) 随机删除字符串:随机选择一个个人属性字段,删除该字段中长度为字段数据总长设定比例(默认值为30%)的字符串,删除的起始位置随机生成,,其中,Floor为向下取整函数,但当起始位置到字段数据末尾的长度与该字段数据总长的比例小于设定比例时,则只删除起始位置至字段数据末尾的字符串,即/>,用于模拟真实数据中存在的少填问题;
3) 随机重复字符串:随机选择一个个人属性字段,重复该字段中长度为字段数据总长设定比例(默认值为30%)的字符串,重复的起始位置随机生成,,其中,Floor为向下取整函数,但当起始位置到字段数据末尾的长度与字段数据总长的比例小于设定比例,则只重复起始位置至字段数据末尾的字符串,即/>,用于模拟真实数据中存在的重复填写问题;
4) 随机字符串替换:随机选择一个个人属性字段,将该字段中长度为字段数据总长设定比例(默认值为30%)的字符串替换为下一条属性数据记录的相同字段对应位置的字符串,待替换字符串的起始位置随机生成,,其中,Floor为向下取整函数,但当起始位置到字段数据末尾的长度与字段数据总长的比例小于设定比例,则待替换字符串为起始位置至字段数据末尾的字符串,即;对于用于替换的字符串,当替换字段数据的起始位置至该字段数据末尾的长度大于/>时,/>,替换字符串为该字段对应位置的字符串,当替换字段数据总长小于起始位置时,替换字符串为空字符串,否则,替换字符串为起始位置至该字段数据末尾的字符串,即,用于模拟真实数据中存在的错填问题。
数据增强行为模式执行概率:
1) 确定数据增强单位行为的发生概率,随机删除字段发生的概率设定值为,默认值为30%,随机删除字符串发生的概率设定值为/>,默认值为30%,随机重复字符串发生的概率设定值为/>,默认值为20%,随机字符串替换的概率设定值为/>,默认值为20%,需满足;
2) 分别对四种数据增强单位行为有放回地选取一种、两种、三种和四种行为进行排列生成对应的数据增强行为模式,最终数据增强行为模式的个数为个;
3) 根据数据增强行为模式所包含的数据增强单位行为所对应的发生概率计算各数据增强行为模式的绝对发生概率,例如由随机删除字符串和随机字符串替换两个单位行为组成的行为模式的绝对发生概率为;计算各数据增强行为模式的相对发生概率,相对发生概率=各数据增强行为模式的绝对发生概率/所有数据增强行为模式绝对发生概率总和,生成最终的数据增强行为模式概率表,如图4所示,根据此表执行数据增强单位行为。
③ 特征提取层:该层使用词嵌入算法逐一提取属性数据记录各个人属性字段的特征向量,本发明不对词嵌入算法进行限制,包括但不限于word2vec、GloVe等,生成增强训练子集/>的特征向量矩阵/>,其中,/>表示第i个样本的第e个增强样本对应的特征向量矩阵,/>表示第i个样本的第e个增强样本的第j个个人属性字段对应的特征向量,每个字段对应的特征向量维度数相等且均为q,/>表示第i个样本的第e个增强样本的第j个个人属性字段对应特征向量在第p维的取值,/>是/>的矩阵,记作:
④ 隐私编码层:该层由最大池化层、双曲正切激活层和随机差分层组成,主要用于对特征向量矩阵进行隐私编码,具体包括以下步骤:
首先,最大池化层用于将特征向量矩阵从/>的矩阵转换为/>的矩阵,表示为/>,通过依次取m个个人属性字段的特征向量每个维度的最大值作为对应维度的最终取值获得池化后的/>,其中;
然后,在双曲正切激活层使用双曲正切激活函数对特征向量进行处理生成相应的编码矩阵/>,其中/>表示第i个样本的第e个增强样本的编码向量,经过双曲正切激活函数处理将/>映射至/>之间,若/>,则;若
,则/>;
最后,由随机差分层基于随机生成的隐私预算及随机应答机制对编码矩阵C进行扰动以达到数据保护的目的,最终生成隐私编码矩阵,其中,表示第i个样本的第e个增强样本的隐私编码向量。
⑤ 对比学习层:将隐私编码矩阵中标签/>对应的所有隐私编码向量视作/>的正样本,将其余的隐私编码向量均视作/>的负样本,该层通过计算正负样本的对比损失,借助反向传播算法以优化特征提取层的词嵌入算法参数,计算对比损失的步骤如下:
首先,将隐私编码矩阵S按照标签拆分为U个,U为抽取到的训练子集B中包含的患者数量,由于经数据增强层处理后每个标签/>对应的样本量均为g个,因此每个子隐私编码矩阵/>均为/>的矩阵,/>为标签/>的正样本矩阵,其余的子隐私编码矩阵均为标签/>的负样本矩阵;
然后,计算标签的正样本矩阵的距离矩阵/>,/>是/>的方阵,T表示转置,计算标签/>的正样本矩阵/>与负样本矩阵/>
的距离矩阵,再将所有的计算结果进行横向连接,即,其中/>表示横向连接,即将所有不同患者样本间的距离矩阵进行横向连接,/>是/>的矩阵,其中/>且/>;
之后,计算所有正样本矩阵内的距离矩阵的均值向量:,计算所有正负样本矩阵间的距离矩阵的均值向量:/>,其中/>表示纵向连接,/>表示指数变换,/>表示求均值,/>和/>均为长度为/>的向量;
最后,计算对比损失:
其中,N为和/>的维度,即/>,/>为/>第l维的取值,/>为/>
第l维的取值。
步骤S22,基于联邦学习技术进行深度隐私编码器训练,具体步骤如下:
① 全局初始化模型参数生成:云服务器初始化特征提取层的全局参数;
② 训练任务及参数下发:云服务器随机选择A个机构下发特征提取层的全局参数及训练任务;
③ 本地深度隐私编码器训练及参数上传:接收到训练任务的机构a根据上述的深度隐私编码器结构进行模型训练直至模型收敛,之后将本地特征提取层的局部参数上传至云服务器;
④ 全局参数更新:云服务器接收到各机构本地上传的局部参数后,对全局参数进行更新:
其中,为第/>轮迭代后更新的全局参数,/>为学习率,A为参与模型训练的机构数量,/>为机构a在第/>轮迭代后上传的局部参数,/>为第t轮迭代后更新的全局参数;
循环执行上述步骤②至步骤④进行深度隐私编码器特征提取层的全局参数迭代直至收敛。
步骤S3,隐私编码库生成:利用完成训练的深度隐私编码器对属性数据进行编码并生成相应的隐私编码库。
具体地,将各机构本地的原始数据源矩阵D输入完成训练的深度隐私编码器,得到对应的隐私编码库,其中,/>是属性数据记录/>对应的隐私编码。
步骤S4,记录链接请求响应:各请求接收机构基于隐私编码库获取记录链接请求的匹配结果,具体包括以下子步骤:
步骤S41,发起记录链接请求:请求机构Q将想要链接的属性数据记录对应的隐私编码/>发送至接收机构R;
步骤S42,记录链接请求响应:接收机构R将本地隐私编码库中的隐私编码/>逐一与/>组成用于记录链接匹配的隐私编码对,计算各隐私编码对之间的相似度,不限于Jaccard相似度,根据设定阈值对隐私编码对的相似度计算结果进行筛选,若存在高于设定阈值的隐私编码对,则返回匹配结果“接收机构R存在与记录链接请求同属一个患者的记录”至请求机构Q,否则,返回“接收机构R不存在与记录链接请求同属一个患者的记录”。记录链接匹配往往是跨机构联合分析的第一步,该匹配结果可以作为输入参与至更深入的联合分析中,如基于多方安全计算的患者健康相关总费用计算等。
如图5所示,本发明还提供一种基于上述方法实现的基于深度隐私编码器的跨机构患者记录链接系统, 该系统包括以下模块:
数据采集模块,用于各机构从本地数据源中提取用于记录链接的属性数据,对属性数据进行数据预处理;
深度隐私编码器构建及训练模块,用于构建深度隐私编码器,利用各机构经数据预处理后的属性数据,基于联邦学习技术训练深度隐私编码器;
隐私编码库生成模块,利用完成训练的深度隐私编码器对属性数据进行编码,生成各机构的隐私编码库;
记录链接请求响应模块,用于各请求接收机构基于隐私编码库获取记录链接请求的匹配结果,并返回给请求机构。
与前述基于深度隐私编码器的跨机构患者记录链接方法的实施例相对应,本发明还提供了基于深度隐私编码器的跨机构患者记录链接装置的实施例。本发明实施例提供的基于深度隐私编码器的跨机构患者记录链接装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,用于实现上述实施例中的基于深度隐私编码器的跨机构患者记录链接方法。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于深度隐私编码器的跨机构患者记录链接方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述仅为本说明书一个或多个实施例的较佳实施例而已,并不用以限制本说明书一个或多个实施例,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例保护的范围之内。
Claims (6)
1.一种基于深度隐私编码器的跨机构患者记录链接方法,其特征在于,包括以下步骤:
S1, 各机构从本地数据源中提取用于记录链接的属性数据,对属性数据进行数据预处理;各机构提取的属性数据为能够确定患者身份的个人属性字段数据,并为个人属性字段数据添加患者标识,将每条属性数据记录及其患者标识作为一个样本,其中患者标识作为属性数据记录的标签,构建各机构本地数据源矩阵;
S2,构建深度隐私编码器,利用各机构经数据预处理后的属性数据,基于联邦学习技术训练深度隐私编码器;所述深度隐私编码器包括数据抽取层、数据增强层、特征提取层、隐私编码层和对比学习层;
所述数据抽取层用于从各机构本地数据源矩阵中抽取训练子集;
所述数据增强层用于对训练子集进行数据增强得到增强训练子集;
所述特征提取层用于使用词嵌入算法提取属性数据记录各个人属性字段的特征向量;
所述隐私编码层用于对特征向量进行隐私编码,由最大池化层、双曲正切激活层和随机差分层组成;
所述最大池化层用于对增强训练子集对应的特征向量矩阵进行最大池化操作;
所述双曲正切激活层使用双曲正切激活函数生成池化后的特征向量矩阵对应的编码矩阵;
所述随机差分层基于随机生成的隐私预算及随机应答机制对编码矩阵进行扰动,生成隐私编码矩阵;
所述对比学习层用于通过计算对比损失,优化特征提取层的词嵌入算法参数;所述对比学习层中,将隐私编码矩阵中标签对应的所有隐私编码向量视作所述标签的正样本,将其余的隐私编码向量均视作所述标签的负样本,计算正负样本的对比损失,利用反向传播算法优化特征提取层的词嵌入算法参数;
S3,利用完成训练的深度隐私编码器对属性数据进行编码,生成各机构的隐私编码库;
S4,各请求接收机构基于隐私编码库获取记录链接请求的匹配结果。
2.根据权利要求1所述的基于深度隐私编码器的跨机构患者记录链接方法,其特征在于,所述数据增强层中,对训练子集中的属性数据记录进行数据增强,直至属性数据记录的标签对应的样本量达到设定值,生成增强训练子集;
数据增强单位行为包括随机删除字段、随机删除字符串、随机重复字符串和随机字符串替换;根据数据增强单位行为生成若干数据增强行为模式,结合数据增强单位行为的发生概率得到各数据增强行为模式的绝对发生概率和相对发生概率,生成数据增强行为模式概率表。
3.根据权利要求1所述的基于深度隐私编码器的跨机构患者记录链接方法,其特征在于,所述对比损失的计算包括:
将隐私编码矩阵按照标签拆分为若干子隐私编码矩阵,所述子隐私编码矩阵的数量与训练子集中包含的患者数量相同;标签对应的子隐私编码矩阵为所述标签的正样本矩阵,其余子隐私编码矩阵均为所述标签的负样本矩阵;
计算标签的正样本矩阵的距离矩阵,以及标签的正样本矩阵与负样本矩阵的距离矩阵;计算所有正样本矩阵内的距离矩阵的均值向量,以及所有正负样本矩阵间的距离矩阵的均值向量;根据均值向量计算正负样本的对比损失。
4.根据权利要求1-3任一项所述的基于深度隐私编码器的跨机构患者记录链接方法,其特征在于,基于联邦学习技术训练深度隐私编码器,包括:
(1)云服务器初始化特征提取层的全局参数;
(2)云服务器随机选择若干机构下发特征提取层的全局参数及训练任务;
(3)接收到训练任务的机构训练本地深度隐私编码器,完成训练后将本地特征提取层的局部参数上传至云服务器;
(4)云服务器接收到各机构上传的局部参数后,对全局参数进行更新;循环执行步骤(2)至步骤(4)进行深度隐私编码器特征提取层的全局参数迭代直至收敛。
5.根据权利要求1所述的基于深度隐私编码器的跨机构患者记录链接方法,其特征在于,各请求接收机构基于隐私编码库获取记录链接请求的匹配结果,包括:
请求机构发起记录链接请求,将属性数据记录对应的隐私编码发送至接收机构;
接收机构将本地隐私编码库中的隐私编码逐一与接收的隐私编码组成隐私编码对,计算各隐私编码对之间的相似度,根据设定阈值对隐私编码对的相似度计算结果进行筛选,返回匹配结果。
6.一种基于权利要求1-5中任一项所述方法实现的基于深度隐私编码器的跨机构患者记录链接系统,其特征在于,包括:
数据采集模块,用于各机构从本地数据源中提取用于记录链接的属性数据,对属性数据进行数据预处理;
深度隐私编码器构建及训练模块,用于构建深度隐私编码器,利用各机构经数据预处理后的属性数据,基于联邦学习技术训练深度隐私编码器;
隐私编码库生成模块,利用完成训练的深度隐私编码器对属性数据进行编码,生成各机构的隐私编码库;
记录链接请求响应模块,用于各请求接收机构基于隐私编码库获取记录链接请求的匹配结果,并返回给请求机构。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310646247.XA CN116361859B (zh) | 2023-06-02 | 2023-06-02 | 基于深度隐私编码器的跨机构患者记录链接方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310646247.XA CN116361859B (zh) | 2023-06-02 | 2023-06-02 | 基于深度隐私编码器的跨机构患者记录链接方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116361859A CN116361859A (zh) | 2023-06-30 |
CN116361859B true CN116361859B (zh) | 2023-08-25 |
Family
ID=86905460
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310646247.XA Active CN116361859B (zh) | 2023-06-02 | 2023-06-02 | 基于深度隐私编码器的跨机构患者记录链接方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116361859B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109871861A (zh) * | 2018-12-27 | 2019-06-11 | 航天信息股份有限公司 | 一种用于为目标数据提供编码的系统及方法 |
CN110609831A (zh) * | 2019-08-27 | 2019-12-24 | 浙江工商大学 | 基于隐私保护和安全多方计算的数据链接方法 |
CN110866283A (zh) * | 2019-11-25 | 2020-03-06 | 浙江工商大学 | 基于区块链和部分同态加密多方可验证数据记录链接方法 |
CN111046422A (zh) * | 2019-12-09 | 2020-04-21 | 支付宝(杭州)信息技术有限公司 | 防止隐私数据泄漏的编码模型训练方法及装置 |
WO2021262140A1 (en) * | 2020-06-22 | 2021-12-30 | Hewlett-Packard Development Company, L.P. | Machine learning model training |
CN113946871A (zh) * | 2021-11-22 | 2022-01-18 | 杭州电子科技大学 | 隐私保护数据记录集成方法、系统和计算机可读存储介质 |
CN114398681A (zh) * | 2022-01-20 | 2022-04-26 | 支付宝(杭州)信息技术有限公司 | 训练隐私信息分类模型、识别隐私信息的方法和装置 |
CN115146670A (zh) * | 2022-05-30 | 2022-10-04 | 西安交通大学 | 基于数据增强和对比学习的射频指纹识别方法及系统 |
CN115526236A (zh) * | 2022-09-01 | 2022-12-27 | 浙江大学 | 一种基于多模态对比学习的文本网络图分类方法 |
CN116070591A (zh) * | 2023-03-03 | 2023-05-05 | 成都瑞贝英特信息技术有限公司 | 一种基于对比学习的自然文本编码方法 |
-
2023
- 2023-06-02 CN CN202310646247.XA patent/CN116361859B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109871861A (zh) * | 2018-12-27 | 2019-06-11 | 航天信息股份有限公司 | 一种用于为目标数据提供编码的系统及方法 |
CN110609831A (zh) * | 2019-08-27 | 2019-12-24 | 浙江工商大学 | 基于隐私保护和安全多方计算的数据链接方法 |
CN110866283A (zh) * | 2019-11-25 | 2020-03-06 | 浙江工商大学 | 基于区块链和部分同态加密多方可验证数据记录链接方法 |
CN111046422A (zh) * | 2019-12-09 | 2020-04-21 | 支付宝(杭州)信息技术有限公司 | 防止隐私数据泄漏的编码模型训练方法及装置 |
WO2021262140A1 (en) * | 2020-06-22 | 2021-12-30 | Hewlett-Packard Development Company, L.P. | Machine learning model training |
CN113946871A (zh) * | 2021-11-22 | 2022-01-18 | 杭州电子科技大学 | 隐私保护数据记录集成方法、系统和计算机可读存储介质 |
CN114398681A (zh) * | 2022-01-20 | 2022-04-26 | 支付宝(杭州)信息技术有限公司 | 训练隐私信息分类模型、识别隐私信息的方法和装置 |
CN115146670A (zh) * | 2022-05-30 | 2022-10-04 | 西安交通大学 | 基于数据增强和对比学习的射频指纹识别方法及系统 |
CN115526236A (zh) * | 2022-09-01 | 2022-12-27 | 浙江大学 | 一种基于多模态对比学习的文本网络图分类方法 |
CN116070591A (zh) * | 2023-03-03 | 2023-05-05 | 成都瑞贝英特信息技术有限公司 | 一种基于对比学习的自然文本编码方法 |
Non-Patent Citations (1)
Title |
---|
A Transformer-based Contrastive Semi-Supervised Learning Framework for Automatic Modulation Recognition;Weisi Kong等;IEEE Transactions on Cognitive Communications and Networking ( Early Access );全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116361859A (zh) | 2023-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gutman et al. | A Bayesian procedure for file linking to analyze end-of-life medical costs | |
US11238364B2 (en) | Learning from distributed data | |
CN109478222A (zh) | 保护服务使用者和服务提供者之间交换的数据的方法 | |
JP6892454B2 (ja) | データの秘匿性−実用性間のトレードオフを算出するためのシステムおよび方法 | |
Desarkar et al. | Big-data analytics, machine learning algorithms and scalable/parallel/distributed algorithms | |
CN112765370A (zh) | 知识图谱的实体对齐方法、装置、计算机设备和存储介质 | |
CN116340793A (zh) | 一种数据处理方法、装置、设备以及可读存储介质 | |
Gaudio et al. | DeepFixCX: Explainable privacy‐preserving image compression for medical image analysis | |
CN112991079B (zh) | 多卡共现就医欺诈行为检测方法、系统、云端及介质 | |
Chu et al. | Privacy-preserving self-taught federated learning for heterogeneous data | |
CN108122613B (zh) | 基于健康预测模型的健康预测方法和装置 | |
CN113946871A (zh) | 隐私保护数据记录集成方法、系统和计算机可读存储介质 | |
CN116361859B (zh) | 基于深度隐私编码器的跨机构患者记录链接方法及系统 | |
CN116305294B (zh) | 数据泄露溯源方法、装置、电子设备及存储介质 | |
CN113345564A (zh) | 一种基于图神经网络的患者住院时长早期预测方法及装置 | |
CN116805039A (zh) | 特征筛选方法、装置、计算机设备和数据扰动方法 | |
CN116502261A (zh) | 保留数据特性的数据脱敏方法及装置 | |
WO2019223082A1 (zh) | 客户类别分析方法、装置、计算机设备和存储介质 | |
Liu et al. | Subverting privacy-preserving gans: Hiding secrets in sanitized images | |
Ren et al. | A novel federated multi-view clustering method for unaligned and incomplete data fusion | |
Wu et al. | VertiBench: Advancing feature distribution diversity in vertical federated learning benchmarks | |
KR102663767B1 (ko) | Ai기반 가상자산 고위험 지갑주소 db 자동 업데이트 방법 | |
Stavarache et al. | Exploring Multi-Banking Customer-to-Customer Relations in AML Context with Poincar\'e Embeddings | |
Wang et al. | Data-driven regularized inference privacy | |
EP4174738B1 (en) | Systems and methods for protecting trainable model validation datasets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |