CN114169007A - 基于动态神经网络的医疗隐私数据识别方法 - Google Patents
基于动态神经网络的医疗隐私数据识别方法 Download PDFInfo
- Publication number
- CN114169007A CN114169007A CN202111509434.0A CN202111509434A CN114169007A CN 114169007 A CN114169007 A CN 114169007A CN 202111509434 A CN202111509434 A CN 202111509434A CN 114169007 A CN114169007 A CN 114169007A
- Authority
- CN
- China
- Prior art keywords
- data
- parameter
- calculating
- neural network
- sample set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 81
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 35
- 238000012795 verification Methods 0.000 claims abstract description 15
- 238000012360 testing method Methods 0.000 claims abstract description 11
- 239000011159 matrix material Substances 0.000 claims description 38
- 230000006870 function Effects 0.000 claims description 20
- 230000004044 response Effects 0.000 claims description 15
- 238000007906 compression Methods 0.000 claims description 6
- 210000002569 neuron Anatomy 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000006835 compression Effects 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 230000000379 polymerizing effect Effects 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 230000001131 transforming effect Effects 0.000 claims description 2
- 230000001052 transient effect Effects 0.000 claims description 2
- 239000000284 extract Substances 0.000 claims 1
- 238000003745 diagnosis Methods 0.000 abstract description 4
- 230000006806 disease prevention Effects 0.000 abstract description 4
- 238000000586 desensitisation Methods 0.000 abstract description 3
- 108090000623 proteins and genes Proteins 0.000 abstract description 3
- 238000004088 simulation Methods 0.000 description 8
- 201000010099 disease Diseases 0.000 description 7
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 7
- 238000012644 addition polymerization Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000005180 public health Effects 0.000 description 2
- 208000035473 Communicable disease Diseases 0.000 description 1
- 208000031662 Noncommunicable disease Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000010353 genetic engineering Methods 0.000 description 1
- 230000005182 global health Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 201000004792 malaria Diseases 0.000 description 1
- 230000035764 nutrition Effects 0.000 description 1
- 235000016709 nutrition Nutrition 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
- 201000008827 tuberculosis Diseases 0.000 description 1
- 229960005486 vaccine Drugs 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/008—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols involving homomorphic encryption
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Bioethics (AREA)
- Public Health (AREA)
- Computer Security & Cryptography (AREA)
- Databases & Information Systems (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明公开了一种基于动态神经网络的医疗隐私数据识别方法,主要解决现有识别方法隐私泄露多、数据可用性低的问题。其方案是:采集原始数据、目标数据,从原始数据中选易受攻击数据,将噪声加入易受攻击数据得到差分隐私数据;根据差分隐私数据计算特征数据;根据特征数据计算参考数据;将目标数据加到参考数据中得到联合数据,根据联合数据计算标记数据;对标记数据按比例抽取组成训练样本集、测试样本集和验证样本集;搭建一个动态神经网络,利用训练样本集和测试样本集对该网络进行训练;将验证样本集输入到训练好的该网络中,获得医疗隐私数据识别结果。本发明能够减少隐私泄露,提升数据可用性,可用于数据脱敏、基因诊断、疾病预防。
Description
技术领域
本发明属于安全网络技术领域,更进一步涉及一种医疗隐私数据识别方法,可用于数据脱敏、基因诊断、疾病预防。
背景技术
医疗数据只有经过分析处理,才能将其中对于疾病的诊断、治疗和医学研究方面有价值的知识和规则挖掘出来,从而帮助进行基因工程、疾病治疗、病群特性的研究。然而,医疗数据作为个体最主要的识别符,其包含了大量的个人隐私敏感信息,比如某种疾病倾向和家族病史信息,故医疗数据的使用引起了广泛的隐私关注。医疗数据利用的局限主要体现在两个方面,一是医疗数据利用的安全性取决于攻击者所掌握的背景知识多少,二是无法提供一种严格的数学证明来衡量其隐私保护程度。医疗隐私数据识别是一个非常关键的研究课题。当攻击者得到带噪声的数据后,需要有效的技术限制攻击者对原数据的推导能力,使得攻击者无法通过观察计算结果而获取准确的个体信息。另外,医疗隐私数据也存在非独立同分布的情况,其全局表征程度也影响结果的准确性。医疗隐私数据识别可以应用于数据脱敏,支持敏感数据自动发现并生成数据字典,保留原数据关系,提升医疗数据共享安全性和可用性。医疗隐私数据识别也可用于基因诊断,可以对正常用户的医疗数据进行有效保护和利用,从而避免了隐私泄露和昂贵加密技术的使用,具有更高的安全性、更高效的动态数据管理性能。医疗隐私数据识别还可用于疾病预防,识别个人身份的关键信息,通过对隐私信息加密匿名化存储,从而减少隐私泄露程度。
钟爱健康科技(广东)有限公司在申请号为202110422402.0的专利申请文献公开了“一种基于联邦学习张量因子分解的医疗隐私数据保护方法”。其实施步骤是:首先,各个医疗机构需维护本地分解的张量因子矩阵和全局张量非病患因子矩阵,并在联邦过程开始时对其进行初始化;其次,各个医疗机构进行本地的张量因子分解训练,通过利用损失函数进行梯度下降;然后,根据本地分解的因子矩阵和全局非病患因子矩阵求出对应的因子矩阵更新梯度。该方法由于攻击者可以在联邦过程中获得医疗隐私数据标签和结构,甚至可以很容易地从参数服务器中下载目标模型的参数,从而导致医疗隐私数据的泄露程度变大。
武汉大学在申请号为202010510983.9的专利申请文献公开了“一种医疗自相关时序数据差分隐私发布方法”。其实施步骤是:首先,构建个人医疗时序数据;其次,将个人医疗时序数据通过设定的滑动窗口划分为多个互不相交且等长的个人医疗时序数据子序列;然后,根据子序列计算得到该子序列归一化后的自相关函数,并根据查询函数计算得到该子序列的周期敏感度;最后产生与子序列对应的拉普拉斯噪声序列,并将所有噪声序列拼接得到子序列对应的拉普拉斯噪声序列,将其与原始时序数据相加得到最终要发布的结果。该方法由于将拉普拉斯噪声序列与原始时序数据相加得到最终要发布的结果,造成在单独使用差分隐私技术时会引入大量的噪声,数据失真程度变大,全局训练精度降低,数据的可利用性变小。
发明内容
本发明的目的在于针对上述现有技术的不足,提出一种基于动态神经网络的医疗隐私数据识别方法,以抵御成员推理攻击,在提高全局训练精度的同时进一步保护数据隐私,并在实现低隐私泄露的基础上提高医疗隐私数据的可用性。
本发明的技术关键是:采集医疗数据,计算特征数据,计算参考数据,利用联邦学习进行训练,构建动态神经网络,训练动态神经网络,得到隐私数据识别结果,其实现方案包括如下:
A)从医疗隐私数据库中依次采集原始数据p、目标数据q,从原始数据p中选取易受攻击数据r,在易受攻击数据r上加入服从拉普拉斯分布的随机噪声,得到差分隐私数据μ;
B)从差分隐私数据μ中提取特征向量γ,根据特征向量γ计算得到嵌入数据z,并根据嵌入数据z计算得到特征数据s;
C)对特征数据s通过正参考模型法计算得到参考数据ξ;
D)构建标记数据t:
D1)将目标数据q加入到参考数据ξ中得到联合数据u;
D2)根据联合数据u,分别利用联合建模法和联邦学习法计算得到建模数据j和联邦数据g,并用这两种数据组成标记数据t;
E)对标记数据t分别按照70%,20%,10%进行抽取,组成训练样本集,测试样本集,验证样本集,获得验证样本集中的真实标签值a;
F)构建依次由输入层,隐藏层,输出层级联组成的动态神经网络;
G)设置最大迭代轮次数为100,将训练样本集和测试样本集输入到动态神经网络中,利用动态学习方法进行动态神经网络的训练,直到动态神经网络达到最大迭代轮次数,得到训练好的动态神经网络;
H)将验证样本集中标记数据输入到已经训练好的动态神经网络中,得到医疗隐私数据识别结果。
本发明与现有技术相比,具有以下优点:
第一,本发明由于在易受攻击数据上加入服从拉普拉斯分布的随机噪声,有效捕捉数据的动态性,以有效减少数据重复利用,高效反映数据特征,从而增强了数据的隐私保护程度;
第二,本发明由于根据联合数据,分别利用联合建模法和联邦学习法计算得到建模数据和联邦数据,不仅提升了医疗隐私数据识别模型的学习能力以及泛化能力,而且避免了分析冗余信息,满足医疗大数据场景需要,从而提升数据可用性;
第三,本发明由于构建依次由输入层,隐藏层,输出层级联组成的动态神经网络,对动态神经网络的大规模并行分布式结构进行了有效利用,可在降低数据维度的同时合理分析数据的内在结构,提升了全局训练精度,从而提升数据的可用性。
附图说明
图1为本发明的实现流程图;
图2为用本发明和现有3种方法分别在2个数据集上的得到医疗隐私数据识别数据可用性仿真图。
具体实施方式
下面结合附图对本发明的实施例和效果做进一步详细的描述。
参照图1,本实例的实现包括如下步骤:
步骤1,获取原始数据和目标数据,计算差分隐私数据。
1.1)从医疗隐私数据库中依次采集原始数据p、目标数据q;
本实例采取但不限于跨平台集成采集法从从医疗隐私数据库中采集数据,即从不同平台采集满足应用的结构化数据后自动集成;
1.2)从原始数据p中选取易受攻击数据r;
本实例采取但不限于阈值比较法从原始数据中选择易受攻击数据,即利用易受攻击数据和一般数据在安全漏洞多少上的差异,通过设置阈值来把安全漏洞分成若干类,从而实现易受攻击数据和一般数据的分离;
1.3)在易受攻击数据r上加入服从拉普拉斯分布的随机噪声,得到差分隐私数据μ,该服从拉普拉斯分布的随机噪声,表示如下:
其中,λ表示位置参数,m表示尺度参数。
步骤2,计算特征数据。
2.3)根据特征向量γ计算得到嵌入数据:z=α(γ,θ),其中,α表示嵌入函数,θ表示嵌入参数;
步骤3,根据特征数据计算参考数据。
3.1)将特征数据s变换为行正交数据τ;
本实例采取但不限于矩阵方向变换法从将特征数据变换为行正交数据,即将矩阵方向沿任意轴旋转及变换为行正交;
步骤4,根据目标数据和参考数据利用联合建模法和联邦学习法计算得到标记数据。
4.1)将目标数据q加入到参考数据ξ中得到联合数据u;
4.2)根据联合数据u求出对应的因子矩阵参数梯度R;
本实例采取但不限于随机梯度下降法求出对应的因子矩阵参数梯度,即沿着梯度向量相反的方向,梯度减少最快,以找到梯度下降函数的最小值,该最小值对应的因子矩阵参数梯度R;
4.3)对因子矩阵参数梯度R进行梯度压缩,得到建模参数梯度Ψ;
本实例采取但不限于采用动量修正的梯度压缩进行梯度压缩,即在梯度压缩过程中对因子矩阵参数梯度R进行梯度压缩时,根据平均梯度下降速度调整参数梯度动量的误差修正系数,得到建模参数梯度Ψ;
4.4)聚合建模参数梯度Ψ,得到建模因子矩阵Θ,根据建模因子矩阵计算得到建模数据:j=2ω∑ΘΩ,其中,ω表示建模参数,Ω表示建模矩阵;
本实例采取但不限于采用同态加法聚合进行聚合建模参数梯度,即进行非对称性的加法聚合以得到建模因子矩阵Θ;
4.5)将4.4)得到的建模因子矩阵Θ进行加密,得到因子矩阵加密参数梯度Φ,并发送到中心服务器;
4.6)中心服务器对因子矩阵加密参数梯度Φ进行聚合,返回聚合后的全局加密参数梯度Γ;
本实例采取但不限于采用同态加法聚合对因子矩阵加密参数梯度进行聚合,即进行非对称性的加法聚合以得到全局加密参数梯度Γ;
4.7)对全局加密参数梯度Γ解密,得到全局因子矩阵Λ;
4.8)重复执行4.6)和4.7),直到全局因子矩阵Λ收敛时停止;
4.9)利用收敛时的全局因子矩阵Λ计算得到联邦数据:g=2ω∑ΛΩ;
4.10)用建模数据j和联邦数据g组成标记数据t:t=j∪g,其中,∪为拼接运算符;
步骤5,生成训练样本集,测试样本集和验证样本集。
对标记数据t分别按照70%,20%,10%的比例进行抽取,组成训练样本集,测试样本集,验证样本集,获得验证样本集中的真实标签值a;
本实例采取但不限于回溯法抽取标记数据组成训练样本集,测试样本集,验证样本集,即以深度优先的方式来抽取标记数据。
步骤6,构建动态神经网络。
6.1)建立输入层:其由从上至下的20个输入子层级联组成,用以对步骤4中标记数据T利用双线性插值法进行采样运算,得到采样向量φ;
6.2)建立隐藏层:其由从上至下的80个隐藏子层级联组成,用以对采样向量φ,进行映射计算,得到隐藏向量ζ,设置隐藏子层之间的激活函数为Softmax函数;
6.3)建立输出层:其由从上至下的26个输出子层级联组成,设置输出子层之间的激活函数为Softmax函数,在每个输出子层计算期望标签值h:
其中,σ表示输出函数,l表示当前神经元次序,p表示神经元记忆深度,w表示输出层权重,n表示神经元总个数,b表示期望偏置;
6.4)将输入层,隐藏层及输出层依次级联组成的动态神经网络。
步骤7,训练动态神经网络。
7.1)设置最大迭代轮次数为100;
7.2)将训练样本集和测试样本集输入到步骤6中设计的动态神经网络中,得到动态神经网络的期望标签值h;
7.3)根据期望标签值h计算期望响应:y=∑wh+μi,其中μi表示当前轮次的响应参数;
7.6)根据当前轮次梯度值χi和上一轮次梯度值χi-1计算当前轮次的响应参数μi和当前轮次的学习率ηi,完成当前轮次训练;
本实例采用但不限于梯度下降法计算当前轮次的响应参数μi和当前轮次的学习率ηi,即沿着当前轮次的梯度下降(χi-1-χi)的负方向计算对当前轮次的响应参数μi和当前轮次的学习率ηi:
7.7)判断当前训练轮次数是否达到设置的最大训练轮次数:
若是,则停止训练,得到训练好的动态神经网络;
否则,将训练轮次数增加1,返回7.1)。
步骤8,获得医疗隐私数据识别结果。
将验证样本集中标记数据t输入到已经训练好的动态神经网络中,得到验证样本集的期望标签值h;
将验证样本集的期望标签值h与验证样本集中的真实标签值a进行比较,得到医疗隐私数据识别结果:
若h=a,则认为是被正确识别的医疗隐私数据;
若h≠a,则认为是被错误识别的医疗隐私数据。
下面结合仿真实验,对本发明的效果做进一步的说明。
1.仿真实验条件:
本发明的仿真实验的运行环境是:处理器为Intel(R)Core(TM)i3-9100 CPU@3.60GHz,内存为8.00GB,硬盘为929G,操作系统为Windows 10,编程环境为Python 3.8,编程软件为PyCharm Community Edition 2020.2.3 x64。
仿真所使用的数据集为CDC数据集和WHO数据集,其中:
CDC数据集是美国疾病预防中心公布的公共健康数据,主要包括传染病案例数据、相关疾病统计数据、环境数据、人口数据。
WHO数据集是全球卫生观察站公布的公共健康数据,主要包括人口数据、营养数据、疫苗数据、肺结核数据、疟疾数据和非传染性疾病数据。
2.仿真实验内容:
仿真实验1,使用本发明与现有三种识别方法匿名模型方法、多样性模型方法、邻近度模型方法对上述CDC数据集进行医疗隐私数据的仿真识别:
首先,用本发明和现有三种识别方法从上述CDC数据集中获得医疗隐私数据识别结果,统计这四种方法被正确识别的医疗隐私数据数目,计算被正确识别的医疗隐私数据数目占全体医疗隐私数据数目的比率为该方法的置信度;
接着,使用本发明医疗隐私数据识别方法,获得本发明的验证样本集的期望标签值h,将这四种方法的置信度和本发明的验证样本集的期望标签值h分别相乘作为这四种方法的攻击者预测结果,将这四种方法的攻击者预测结果与攻击者验证结果进行比较,计算这四种方法的攻击者预测结果与攻击者验证结果一致的情况占所有预测结果的比率,即攻击成功率,结果如表1。
表1各方法的攻击成功率
方法名称 | 攻击成功率 | 成功率由小至大排序 |
现有匿名模型方法 | 71.8 | 4 |
现有多样性模型方法 | 66.2 | 3 |
现有邻近度模型方法 | 51.4 | 2 |
本发明方法 | 19.3 | 1 |
由表1可以看出,现有3种方法进行识别后攻击成功率均较大,本发明进行识别后攻击成功率较小,表明本发明的攻击成功率小于现有的3种方法的攻击成功率,攻击成功率大小可以表示医疗隐私数据隐私泄露程度的多少,本发明的医疗隐私数据隐私泄露程度少于现有的3种方法的医疗隐私数据隐私泄露程度。
仿真实验2,使用本发明与现有逻辑回归方法、决策树方法、梯度跟踪方法对上述CDC数据集和WHO数据集进行医疗隐私数据的仿真识别:
首先,分别从CDC数据集和WHO数据集中获取原始数据和目标数据,使用本发明和现有逻辑回归方法、决策树方法、梯度跟踪方法,得到医疗隐私数据识别结果;
其次,根据医疗隐私数据识别结果统计被正确识别的目标医疗隐私数据数目TP,被正确识别的其它医疗隐私数据数目TN,被错误识别的目标医疗隐私数据数目FP,被错误识别的其它医疗隐私数据数目FN;再分别计算每种方法的准确率和召回率根据准确率和召回率的计算结果,计算F1得分F1得分的高低可表示医疗隐私数据识别数据可用性的高低;
最后,比较各方法的F1得分,结果如图2所示,其中横轴表示不同方法,纵轴表示F1得分。
由图2可以看出,本发明标示的柱状图对应的F1得分位于现有3种方法标示的柱状图对应的F1得分的上方,即本发明的F1得分是4种方法中最高的,表明本发明的医疗隐私数据识别数据可用性高于现有的3种方法。
以上描述仅是本发明的一个具体实例,并未构成对本发明的任何限制,显然对于本领域的专业人员来说,在了解了本发明内容和原理后都可在不背离本发明原理,结构的情况下,进行形式和细节上的各种修改和改变,但是这些基于本发明思想的修正和改变仍在本发明的要求保护范围之内。
Claims (7)
1.一种基于动态神经网络的医疗隐私数据识别方法,其特征在于,包括:
A)从医疗隐私数据库中依次采集原始数据p、目标数据q,从原始数据p中选取易受攻击数据r,在易受攻击数据r上加入服从拉普拉斯分布的随机噪声,得到差分隐私数据μ;
B)从差分隐私数据μ中提取特征向量γ,根据特征向量γ计算得到嵌入数据z,并根据嵌入数据z计算得到特征数据s;
C)根据特征数据s通过正参考模型法计算得到参考数据ξ;
D)构建标记数据t:
D1)将目标数据q加入到参考数据ξ中得到联合数据u;
D2)根据联合数据u,分别利用联合建模法和联邦学习法计算得到建模数据j和联邦数据g,并用这两种数据组成标记数据t;
E)对标记数据t分别按照70%,20%,10%进行抽取,组成训练样本集,测试样本集,验证样本集,获得验证样本集中的真实标签值a;
F)构建依次由输入层,隐藏层,输出层级联组成的动态神经网络;
G)设置最大迭代轮次数为100,将训练样本集和测试样本集输入到动态神经网络中,利用动态学习方法进行动态神经网络的训练,直到动态神经网络达到最大迭代轮次数,得到训练好的动态神经网络;
H)将验证样本集中标记数据输入到已经训练好的动态神经网络中,得到医疗隐私数据识别结果。
5.根据权利要求1所述的方法,其特征在于,D2)根据联合数据u,分别利用联合建模法和联邦学习法计算得到建模数据j和联邦数据g,实现如下:
D2.1)根据联合数据u求出对应的因子矩阵参数梯度R;
D2.2)对因子矩阵参数梯度R进行梯度压缩,得到建模参数梯度Ψ;
D2.3)聚合建模参数梯度Ψ,得到建模因子矩阵Θ,根据建模因子矩阵计算得到建模数据:j=2ω∑ΘΩ,其中,ω表示建模参数,Ω表示建模矩阵;
D2.4)将D2.3)得到的建模因子矩阵Θ进行加密,得到因子矩阵加密参数梯度Φ,并发送到中心服务器;
D2.5)中心服务器对因子矩阵加密参数梯度Φ进行聚合,返回聚合后的全局加密参数梯度Γ;
D2.6)对全局加密参数梯度Γ解密,得到全局因子矩阵Λ;
D2.7)重复执行D2.5)和D2.6),直到全局因子矩阵Λ收敛时停止;
D2.8)利用收敛时的全局因子矩阵Λ计算得到联邦数据:g=2ω∑ΛΩ。
6.根据权利要求1所述的方法,其特征在于,F)中构建的动态神经网络,其各层结构、功能与参数设置如下:
所述输入层:采用从上至下的20个输入子层级联组成,用以对D)中标记数据t利用双线性插值法进行采样运算,得到采样向量φ;
所述输出层:采用从上至下的26个输出子层级联组成,设置输出子层之间的激活函数为Softmax函数,在每个输出子层计算期望标签值h:
其中,σ表示输出函数,l表示当前神经元次序,p表示神经元记忆深度,w表示输出层权重,n表示神经元总个数,b表示期望偏置。
7.根据权利要求1所述的方法,其特征在于,G)中利用动态学习方法对动态神经网络进行训练,实现如下:
G1)将训练样本集和测试样本集输入到F)中设计的动态神经网络中,得到动态神经网络的期望标签值h;
G2)根据期望标签值h计算期望响应:y=∑wh+μi,其中,w表示输出层权重,i表示轮次序数,μi表示当前轮次的响应参数;
G5)根据当前轮次梯度值χi和上一轮次梯度值χi-1更新当前轮次的响应参数μi和当前轮次的学习率ηi,完成当前轮次训练;
G6)判断当前训练轮次数是否达到设置的最大训练轮次数:
若是,则停止训练,得到训练好的动态神经网络;
否则,将训练轮次数增加1,返回G1)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111509434.0A CN114169007B (zh) | 2021-12-10 | 2021-12-10 | 基于动态神经网络的医疗隐私数据识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111509434.0A CN114169007B (zh) | 2021-12-10 | 2021-12-10 | 基于动态神经网络的医疗隐私数据识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114169007A true CN114169007A (zh) | 2022-03-11 |
CN114169007B CN114169007B (zh) | 2024-05-14 |
Family
ID=80485509
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111509434.0A Active CN114169007B (zh) | 2021-12-10 | 2021-12-10 | 基于动态神经网络的医疗隐私数据识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114169007B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114978467A (zh) * | 2022-05-12 | 2022-08-30 | 南通大学 | 一种基于全同态加密的医疗数据共享的隐私保护方法 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107368752A (zh) * | 2017-07-25 | 2017-11-21 | 北京工商大学 | 一种基于生成式对抗网络的深度差分隐私保护方法 |
WO2020206695A1 (en) * | 2019-04-12 | 2020-10-15 | Hangzhou Nuowei Information Technology Co., Ltd. | System for decentralized ownership and secure sharing of personalized health data |
CN112183612A (zh) * | 2020-09-24 | 2021-01-05 | 重庆邮电大学 | 一种基于参数扩充的联合学习方法、装置及系统 |
CN112199717A (zh) * | 2020-09-30 | 2021-01-08 | 中国科学院信息工程研究所 | 一种基于少量公共数据的隐私模型训练方法及装置 |
CN112668044A (zh) * | 2020-12-21 | 2021-04-16 | 中国科学院信息工程研究所 | 面向联邦学习的隐私保护方法及装置 |
CN112733967A (zh) * | 2021-03-30 | 2021-04-30 | 腾讯科技(深圳)有限公司 | 联邦学习的模型训练方法、装置、设备及存储介质 |
CN112836830A (zh) * | 2021-02-01 | 2021-05-25 | 广西师范大学 | 一种联邦梯度提升决策树投票并行训练方法 |
CN112967812A (zh) * | 2021-04-20 | 2021-06-15 | 钟爱健康科技(广东)有限公司 | 一种基于联邦学习的防窃取攻击医疗诊断模型保护方法 |
CN113239404A (zh) * | 2021-06-04 | 2021-08-10 | 南开大学 | 一种基于差分隐私和混沌加密的联邦学习方法 |
CN113435583A (zh) * | 2021-07-05 | 2021-09-24 | 平安科技(深圳)有限公司 | 基于联邦学习的对抗生成网络模型训练方法及其相关设备 |
CN113434873A (zh) * | 2021-06-01 | 2021-09-24 | 内蒙古大学 | 一种基于同态加密的联邦学习隐私保护方法 |
CN113469376A (zh) * | 2021-05-20 | 2021-10-01 | 杭州趣链科技有限公司 | 基于区块链的联邦学习后门攻击的防御方法和装置 |
CN113536382A (zh) * | 2021-08-09 | 2021-10-22 | 北京理工大学 | 利用联邦学习基于区块链的医疗数据共享隐私保护方法 |
US11170786B1 (en) * | 2020-09-04 | 2021-11-09 | Harbin Institute Of Technology (Shenzhen) (Shenzhen Institute Of Science And Technology Innovation, Harbin Institute Of Technology) | Federated speaker verification method based on differential privacy |
CN113642715A (zh) * | 2021-08-31 | 2021-11-12 | 西安理工大学 | 自适应分配动态隐私预算的差分隐私保护深度学习算法 |
CN113642717A (zh) * | 2021-08-31 | 2021-11-12 | 西安理工大学 | 一种基于差分隐私的卷积神经网络训练方法 |
-
2021
- 2021-12-10 CN CN202111509434.0A patent/CN114169007B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107368752A (zh) * | 2017-07-25 | 2017-11-21 | 北京工商大学 | 一种基于生成式对抗网络的深度差分隐私保护方法 |
WO2020206695A1 (en) * | 2019-04-12 | 2020-10-15 | Hangzhou Nuowei Information Technology Co., Ltd. | System for decentralized ownership and secure sharing of personalized health data |
US11170786B1 (en) * | 2020-09-04 | 2021-11-09 | Harbin Institute Of Technology (Shenzhen) (Shenzhen Institute Of Science And Technology Innovation, Harbin Institute Of Technology) | Federated speaker verification method based on differential privacy |
CN112183612A (zh) * | 2020-09-24 | 2021-01-05 | 重庆邮电大学 | 一种基于参数扩充的联合学习方法、装置及系统 |
CN112199717A (zh) * | 2020-09-30 | 2021-01-08 | 中国科学院信息工程研究所 | 一种基于少量公共数据的隐私模型训练方法及装置 |
CN112668044A (zh) * | 2020-12-21 | 2021-04-16 | 中国科学院信息工程研究所 | 面向联邦学习的隐私保护方法及装置 |
CN112836830A (zh) * | 2021-02-01 | 2021-05-25 | 广西师范大学 | 一种联邦梯度提升决策树投票并行训练方法 |
CN112733967A (zh) * | 2021-03-30 | 2021-04-30 | 腾讯科技(深圳)有限公司 | 联邦学习的模型训练方法、装置、设备及存储介质 |
CN112967812A (zh) * | 2021-04-20 | 2021-06-15 | 钟爱健康科技(广东)有限公司 | 一种基于联邦学习的防窃取攻击医疗诊断模型保护方法 |
CN113469376A (zh) * | 2021-05-20 | 2021-10-01 | 杭州趣链科技有限公司 | 基于区块链的联邦学习后门攻击的防御方法和装置 |
CN113434873A (zh) * | 2021-06-01 | 2021-09-24 | 内蒙古大学 | 一种基于同态加密的联邦学习隐私保护方法 |
CN113239404A (zh) * | 2021-06-04 | 2021-08-10 | 南开大学 | 一种基于差分隐私和混沌加密的联邦学习方法 |
CN113435583A (zh) * | 2021-07-05 | 2021-09-24 | 平安科技(深圳)有限公司 | 基于联邦学习的对抗生成网络模型训练方法及其相关设备 |
CN113536382A (zh) * | 2021-08-09 | 2021-10-22 | 北京理工大学 | 利用联邦学习基于区块链的医疗数据共享隐私保护方法 |
CN113642715A (zh) * | 2021-08-31 | 2021-11-12 | 西安理工大学 | 自适应分配动态隐私预算的差分隐私保护深度学习算法 |
CN113642717A (zh) * | 2021-08-31 | 2021-11-12 | 西安理工大学 | 一种基于差分隐私的卷积神经网络训练方法 |
Non-Patent Citations (6)
Title |
---|
DANNI YUAN 等: "Collaborative deep learning for medical image analysis with differential privacy", 2019 IEEE GLOBAL COMMUNICATIONS CONFERENCE(GLOBECOM), 27 February 2020 (2020-02-27), pages 1 - 6 * |
MOHAMMAD MALEKZADEH DENG: "Dopamine:differentially Private Secure Federated Learning on Medical Data", THE SECOND AAAI WORKSHOP ON PRIVACY-PRESERVING ARTIFICIAL INTELLIGENCE, 27 January 2021 (2021-01-27), pages 1 - 9 * |
刘睿瑄 等: "机器学习中的隐私攻击与防御", 软件学报, vol. 31, no. 03, 5 December 2019 (2019-12-05), pages 866 - 892 * |
邓蔚 等: "基于树模型的差分隐私保护算法", 重庆邮电大学学报(自然科学版), vol. 32, no. 05, 15 October 2020 (2020-10-15), pages 848 - 856 * |
陈国润 等: "基于联邦学习的通信诈骗识别模型的实现", 电信科学, vol. 36, no. 1, 30 April 2020 (2020-04-30), pages 300 - 306 * |
陈天荣 等: "基于特征映射的差分隐私保护机器学习方法", 计算机科学, vol. 48, no. 07, 8 July 2021 (2021-07-08), pages 33 - 39 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114978467A (zh) * | 2022-05-12 | 2022-08-30 | 南通大学 | 一种基于全同态加密的医疗数据共享的隐私保护方法 |
CN114978467B (zh) * | 2022-05-12 | 2024-05-14 | 南通大学 | 一种基于全同态加密的医疗数据共享的隐私保护方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114169007B (zh) | 2024-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111414461B (zh) | 一种融合知识库与用户建模的智能问答方法及系统 | |
CN110309863B (zh) | 一种基于层次分析法和灰色关联分析的身份可信评价方法 | |
CN106060008B (zh) | 一种网络入侵异常检测方法 | |
Navaz et al. | Face recognition using principal component analysis and neural networks | |
Adhao et al. | Feature selection using principal component analysis and genetic algorithm | |
CN115688024B (zh) | 基于用户内容特征和行为特征的网络异常用户预测方法 | |
CN109190698B (zh) | 一种网络数字虚拟资产的分类识别系统及方法 | |
CN113723238A (zh) | 一种人脸轻量网络模型构建方法和人脸识别方法 | |
CN111625789B (zh) | 基于多核学习融合鼠标和键盘行为特征的用户识别方法 | |
CN109190521B (zh) | 一种基于知识提纯的人脸识别模型的构建方法及应用 | |
CN112529638B (zh) | 基于用户分类和深度学习的服务需求动态预测方法及系统 | |
CN113628059A (zh) | 一种基于多层图注意力网络的关联用户识别方法及装置 | |
CN111047173A (zh) | 基于改进d-s证据理论的社团可信度评估方法 | |
CN114169007A (zh) | 基于动态神经网络的医疗隐私数据识别方法 | |
CN114499957A (zh) | 一种网络信息安全动态评价系统及其方法 | |
Harun et al. | Performance of keystroke biometrics authentication system using Multilayer Perceptron neural network (MLP NN) | |
CN113098862A (zh) | 一种基于混合采样与膨胀卷积相结合的入侵检测方法 | |
CN112487406A (zh) | 一种基于机器学习的网络行为分析方法 | |
CN108121912B (zh) | 一种基于神经网络的恶意云租户识别方法和装置 | |
CN111310838A (zh) | 一种基于深度Gabor网络的药效图像分类识别方法 | |
Anifowose | A comparative study of gaussian mixture model and radial basis function for voice recognition | |
CN115083511A (zh) | 基于图表示学习与注意力的外围基因调控特征提取方法 | |
CN111402953B (zh) | 基于层次注意力网络的蛋白质序列分类方法 | |
CN111400685B (zh) | 一种采用竞争匹配的安全身份验证方法 | |
Moga et al. | Study on fingerprint authentication systems using convolutional neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |