CN114169007A

CN114169007A - 基于动态神经网络的医疗隐私数据识别方法

Info

Publication number: CN114169007A
Application number: CN202111509434.0A
Authority: CN
Inventors: 朱笑岩; 张琳杰; 冯鹏斌; 马建峰
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-12-10
Filing date: 2021-12-10
Publication date: 2022-03-11
Anticipated expiration: 2041-12-10
Also published as: CN114169007B

Abstract

本发明公开了一种基于动态神经网络的医疗隐私数据识别方法，主要解决现有识别方法隐私泄露多、数据可用性低的问题。其方案是：采集原始数据、目标数据，从原始数据中选易受攻击数据，将噪声加入易受攻击数据得到差分隐私数据；根据差分隐私数据计算特征数据；根据特征数据计算参考数据；将目标数据加到参考数据中得到联合数据，根据联合数据计算标记数据；对标记数据按比例抽取组成训练样本集、测试样本集和验证样本集；搭建一个动态神经网络，利用训练样本集和测试样本集对该网络进行训练；将验证样本集输入到训练好的该网络中，获得医疗隐私数据识别结果。本发明能够减少隐私泄露，提升数据可用性，可用于数据脱敏、基因诊断、疾病预防。

Description

基于动态神经网络的医疗隐私数据识别方法

技术领域

本发明属于安全网络技术领域，更进一步涉及一种医疗隐私数据识别方法，可用于数据脱敏、基因诊断、疾病预防。

背景技术

医疗数据只有经过分析处理，才能将其中对于疾病的诊断、治疗和医学研究方面有价值的知识和规则挖掘出来，从而帮助进行基因工程、疾病治疗、病群特性的研究。然而，医疗数据作为个体最主要的识别符，其包含了大量的个人隐私敏感信息，比如某种疾病倾向和家族病史信息，故医疗数据的使用引起了广泛的隐私关注。医疗数据利用的局限主要体现在两个方面，一是医疗数据利用的安全性取决于攻击者所掌握的背景知识多少，二是无法提供一种严格的数学证明来衡量其隐私保护程度。医疗隐私数据识别是一个非常关键的研究课题。当攻击者得到带噪声的数据后，需要有效的技术限制攻击者对原数据的推导能力，使得攻击者无法通过观察计算结果而获取准确的个体信息。另外，医疗隐私数据也存在非独立同分布的情况，其全局表征程度也影响结果的准确性。医疗隐私数据识别可以应用于数据脱敏，支持敏感数据自动发现并生成数据字典，保留原数据关系，提升医疗数据共享安全性和可用性。医疗隐私数据识别也可用于基因诊断，可以对正常用户的医疗数据进行有效保护和利用，从而避免了隐私泄露和昂贵加密技术的使用，具有更高的安全性、更高效的动态数据管理性能。医疗隐私数据识别还可用于疾病预防，识别个人身份的关键信息，通过对隐私信息加密匿名化存储，从而减少隐私泄露程度。

钟爱健康科技(广东)有限公司在申请号为202110422402.0的专利申请文献公开了“一种基于联邦学习张量因子分解的医疗隐私数据保护方法”。其实施步骤是：首先，各个医疗机构需维护本地分解的张量因子矩阵和全局张量非病患因子矩阵，并在联邦过程开始时对其进行初始化；其次，各个医疗机构进行本地的张量因子分解训练，通过利用损失函数进行梯度下降；然后，根据本地分解的因子矩阵和全局非病患因子矩阵求出对应的因子矩阵更新梯度。该方法由于攻击者可以在联邦过程中获得医疗隐私数据标签和结构，甚至可以很容易地从参数服务器中下载目标模型的参数，从而导致医疗隐私数据的泄露程度变大。

武汉大学在申请号为202010510983.9的专利申请文献公开了“一种医疗自相关时序数据差分隐私发布方法”。其实施步骤是：首先，构建个人医疗时序数据；其次，将个人医疗时序数据通过设定的滑动窗口划分为多个互不相交且等长的个人医疗时序数据子序列；然后，根据子序列计算得到该子序列归一化后的自相关函数，并根据查询函数计算得到该子序列的周期敏感度；最后产生与子序列对应的拉普拉斯噪声序列，并将所有噪声序列拼接得到子序列对应的拉普拉斯噪声序列，将其与原始时序数据相加得到最终要发布的结果。该方法由于将拉普拉斯噪声序列与原始时序数据相加得到最终要发布的结果，造成在单独使用差分隐私技术时会引入大量的噪声，数据失真程度变大，全局训练精度降低，数据的可利用性变小。

发明内容

本发明的目的在于针对上述现有技术的不足，提出一种基于动态神经网络的医疗隐私数据识别方法，以抵御成员推理攻击，在提高全局训练精度的同时进一步保护数据隐私，并在实现低隐私泄露的基础上提高医疗隐私数据的可用性。

本发明的技术关键是：采集医疗数据，计算特征数据，计算参考数据，利用联邦学习进行训练，构建动态神经网络，训练动态神经网络，得到隐私数据识别结果，其实现方案包括如下：

A)从医疗隐私数据库中依次采集原始数据p、目标数据q，从原始数据p中选取易受攻击数据r，在易受攻击数据r上加入服从拉普拉斯分布的随机噪声，得到差分隐私数据μ；

B)从差分隐私数据μ中提取特征向量γ，根据特征向量γ计算得到嵌入数据z，并根据嵌入数据z计算得到特征数据s；

C)对特征数据s通过正参考模型法计算得到参考数据ξ；

D)构建标记数据t：

D1)将目标数据q加入到参考数据ξ中得到联合数据u；

D2)根据联合数据u，分别利用联合建模法和联邦学习法计算得到建模数据j和联邦数据g，并用这两种数据组成标记数据t；

E)对标记数据t分别按照70％，20％，10％进行抽取，组成训练样本集，测试样本集，验证样本集，获得验证样本集中的真实标签值a；

F)构建依次由输入层，隐藏层，输出层级联组成的动态神经网络；

G)设置最大迭代轮次数为100，将训练样本集和测试样本集输入到动态神经网络中，利用动态学习方法进行动态神经网络的训练，直到动态神经网络达到最大迭代轮次数，得到训练好的动态神经网络；

H)将验证样本集中标记数据输入到已经训练好的动态神经网络中，得到医疗隐私数据识别结果。

本发明与现有技术相比，具有以下优点：

第一，本发明由于在易受攻击数据上加入服从拉普拉斯分布的随机噪声，有效捕捉数据的动态性，以有效减少数据重复利用，高效反映数据特征，从而增强了数据的隐私保护程度；

第二，本发明由于根据联合数据，分别利用联合建模法和联邦学习法计算得到建模数据和联邦数据，不仅提升了医疗隐私数据识别模型的学习能力以及泛化能力，而且避免了分析冗余信息，满足医疗大数据场景需要，从而提升数据可用性；

第三，本发明由于构建依次由输入层，隐藏层，输出层级联组成的动态神经网络，对动态神经网络的大规模并行分布式结构进行了有效利用，可在降低数据维度的同时合理分析数据的内在结构，提升了全局训练精度，从而提升数据的可用性。

附图说明

图1为本发明的实现流程图；

图2为用本发明和现有3种方法分别在2个数据集上的得到医疗隐私数据识别数据可用性仿真图。

具体实施方式

下面结合附图对本发明的实施例和效果做进一步详细的描述。

参照图1，本实例的实现包括如下步骤：

步骤1，获取原始数据和目标数据，计算差分隐私数据。

1.1)从医疗隐私数据库中依次采集原始数据p、目标数据q；

本实例采取但不限于跨平台集成采集法从从医疗隐私数据库中采集数据，即从不同平台采集满足应用的结构化数据后自动集成；

1.2)从原始数据p中选取易受攻击数据r；

本实例采取但不限于阈值比较法从原始数据中选择易受攻击数据，即利用易受攻击数据和一般数据在安全漏洞多少上的差异，通过设置阈值来把安全漏洞分成若干类，从而实现易受攻击数据和一般数据的分离；

1.3)在易受攻击数据r上加入服从拉普拉斯分布的随机噪声，得到差分隐私数据μ，该服从拉普拉斯分布的随机噪声，表示如下：

其中，λ表示位置参数，m表示尺度参数。

步骤2，计算特征数据。

2.1)根据差分隐私数据μ计算聚类簇：

2.2)根据聚类簇

计算特征向量：

其中，k表示特征类别数,β表示特征函数，λ表示平滑参数；

2.3)根据特征向量γ计算得到嵌入数据：z＝α(γ,θ)，其中，α表示嵌入函数，θ表示嵌入参数；

2.4)根据嵌入数据z计算得到特征数据：

其中，f表示特征函数，δ表示类别参数，

表示标准参数。

步骤3，根据特征数据计算参考数据。

3.1)将特征数据s变换为行正交数据τ；

本实例采取但不限于矩阵方向变换法从将特征数据变换为行正交数据，即将矩阵方向沿任意轴旋转及变换为行正交；

3.2)根据行正交数据τ计算得到参考数据：

其中，

表示优化率，c表示分类器行参数，c′表示与c不同行的分类器行参数，d表示分类列参数。

步骤4，根据目标数据和参考数据利用联合建模法和联邦学习法计算得到标记数据。

4.1)将目标数据q加入到参考数据ξ中得到联合数据u；

4.2)根据联合数据u求出对应的因子矩阵参数梯度R；

本实例采取但不限于随机梯度下降法求出对应的因子矩阵参数梯度，即沿着梯度向量相反的方向，梯度减少最快，以找到梯度下降函数的最小值，该最小值对应的因子矩阵参数梯度R；

4.3)对因子矩阵参数梯度R进行梯度压缩，得到建模参数梯度Ψ；

本实例采取但不限于采用动量修正的梯度压缩进行梯度压缩，即在梯度压缩过程中对因子矩阵参数梯度R进行梯度压缩时，根据平均梯度下降速度调整参数梯度动量的误差修正系数，得到建模参数梯度Ψ；

4.4)聚合建模参数梯度Ψ，得到建模因子矩阵Θ，根据建模因子矩阵计算得到建模数据：j＝2ω∑ΘΩ，其中，ω表示建模参数，Ω表示建模矩阵；

本实例采取但不限于采用同态加法聚合进行聚合建模参数梯度，即进行非对称性的加法聚合以得到建模因子矩阵Θ；

4.5)将4.4)得到的建模因子矩阵Θ进行加密，得到因子矩阵加密参数梯度Φ，并发送到中心服务器；

4.6)中心服务器对因子矩阵加密参数梯度Φ进行聚合，返回聚合后的全局加密参数梯度Γ；

本实例采取但不限于采用同态加法聚合对因子矩阵加密参数梯度进行聚合，即进行非对称性的加法聚合以得到全局加密参数梯度Γ；

4.7)对全局加密参数梯度Γ解密，得到全局因子矩阵Λ；

4.8)重复执行4.6)和4.7)，直到全局因子矩阵Λ收敛时停止；

4.9)利用收敛时的全局因子矩阵Λ计算得到联邦数据：g＝2ω∑ΛΩ；

4.10)用建模数据j和联邦数据g组成标记数据t：t＝j∪g，其中，∪为拼接运算符；

步骤5，生成训练样本集，测试样本集和验证样本集。

对标记数据t分别按照70％，20％，10％的比例进行抽取，组成训练样本集，测试样本集，验证样本集，获得验证样本集中的真实标签值a；

本实例采取但不限于回溯法抽取标记数据组成训练样本集，测试样本集，验证样本集，即以深度优先的方式来抽取标记数据。

步骤6，构建动态神经网络。

6.1)建立输入层：其由从上至下的20个输入子层级联组成，用以对步骤4中标记数据T利用双线性插值法进行采样运算，得到采样向量φ；

6.2)建立隐藏层：其由从上至下的80个隐藏子层级联组成，用以对采样向量φ，进行映射计算，得到隐藏向量ζ，设置隐藏子层之间的激活函数为Softmax函数；

6.3)建立输出层：其由从上至下的26个输出子层级联组成，设置输出子层之间的激活函数为Softmax函数，在每个输出子层计算期望标签值h：

其中，σ表示输出函数，l表示当前神经元次序，p表示神经元记忆深度，w表示输出层权重，n表示神经元总个数，b表示期望偏置；

6.4)将输入层，隐藏层及输出层依次级联组成的动态神经网络。

步骤7，训练动态神经网络。

7.1)设置最大迭代轮次数为100；

7.2)将训练样本集和测试样本集输入到步骤6中设计的动态神经网络中，得到动态神经网络的期望标签值h；

7.3)根据期望标签值h计算期望响应：y＝∑wh+μ_i，其中μ_i表示当前轮次的响应参数；

7.4)根据期望响应y计算训练误差：

其中x表示瞬时响应；

7.5)根据训练误差ε计算当前轮次梯度值：

其中，i表示轮次序数，χ_i-1表示上一轮次的梯度值，初始轮次的梯度值为0，η_i表示当前轮次的学习率；

7.6)根据当前轮次梯度值χ_i和上一轮次梯度值χ_i-1计算当前轮次的响应参数μ_i和当前轮次的学习率η_i，完成当前轮次训练；

本实例采用但不限于梯度下降法计算当前轮次的响应参数μ_i和当前轮次的学习率η_i，即沿着当前轮次的梯度下降(χ_i-1-χ_i)的负方向计算对当前轮次的响应参数μ_i和当前轮次的学习率η_i：

计算当前轮次的响应参数：

其中，

表示当前轮次的梯度下降的负方向，～表示方向运算符，i表示轮次序数，*表示点乘运算符，μ_i-1表示上一轮次的响应参数，初始轮次的响应参数为1；

计算当前轮次的学习率：

其中，η_i-1表示上一轮次的学习率，初始轮次的学习率为0.1；

7.7)判断当前训练轮次数是否达到设置的最大训练轮次数：

若是，则停止训练，得到训练好的动态神经网络；

否则，将训练轮次数增加1，返回7.1)。

步骤8，获得医疗隐私数据识别结果。

将验证样本集中标记数据t输入到已经训练好的动态神经网络中，得到验证样本集的期望标签值h；

将验证样本集的期望标签值h与验证样本集中的真实标签值a进行比较，得到医疗隐私数据识别结果：

若h＝a，则认为是被正确识别的医疗隐私数据；

若h≠a，则认为是被错误识别的医疗隐私数据。

下面结合仿真实验，对本发明的效果做进一步的说明。

1.仿真实验条件：

本发明的仿真实验的运行环境是：处理器为Intel(R)Core(TM)i3-9100 CPU@3.60GHz，内存为8.00GB，硬盘为929G，操作系统为Windows 10，编程环境为Python 3.8，编程软件为PyCharm Community Edition 2020.2.3 x64。

仿真所使用的数据集为CDC数据集和WHO数据集，其中：

CDC数据集是美国疾病预防中心公布的公共健康数据，主要包括传染病案例数据、相关疾病统计数据、环境数据、人口数据。

WHO数据集是全球卫生观察站公布的公共健康数据，主要包括人口数据、营养数据、疫苗数据、肺结核数据、疟疾数据和非传染性疾病数据。

2.仿真实验内容：

仿真实验1，使用本发明与现有三种识别方法匿名模型方法、多样性模型方法、邻近度模型方法对上述CDC数据集进行医疗隐私数据的仿真识别：

首先，用本发明和现有三种识别方法从上述CDC数据集中获得医疗隐私数据识别结果，统计这四种方法被正确识别的医疗隐私数据数目，计算被正确识别的医疗隐私数据数目占全体医疗隐私数据数目的比率为该方法的置信度；

接着，使用本发明医疗隐私数据识别方法，获得本发明的验证样本集的期望标签值h，将这四种方法的置信度和本发明的验证样本集的期望标签值h分别相乘作为这四种方法的攻击者预测结果，将这四种方法的攻击者预测结果与攻击者验证结果进行比较，计算这四种方法的攻击者预测结果与攻击者验证结果一致的情况占所有预测结果的比率，即攻击成功率，结果如表1。

表1各方法的攻击成功率

方法名称	攻击成功率	成功率由小至大排序
			现有匿名模型方法	71.8	4
现有多样性模型方法	66.2	3
			现有邻近度模型方法	51.4	2
本发明方法	19.3	1

由表1可以看出，现有3种方法进行识别后攻击成功率均较大，本发明进行识别后攻击成功率较小，表明本发明的攻击成功率小于现有的3种方法的攻击成功率，攻击成功率大小可以表示医疗隐私数据隐私泄露程度的多少，本发明的医疗隐私数据隐私泄露程度少于现有的3种方法的医疗隐私数据隐私泄露程度。

仿真实验2，使用本发明与现有逻辑回归方法、决策树方法、梯度跟踪方法对上述CDC数据集和WHO数据集进行医疗隐私数据的仿真识别：

首先，分别从CDC数据集和WHO数据集中获取原始数据和目标数据，使用本发明和现有逻辑回归方法、决策树方法、梯度跟踪方法，得到医疗隐私数据识别结果；

其次，根据医疗隐私数据识别结果统计被正确识别的目标医疗隐私数据数目TP，被正确识别的其它医疗隐私数据数目TN，被错误识别的目标医疗隐私数据数目FP，被错误识别的其它医疗隐私数据数目FN；再分别计算每种方法的准确率

和召回率

根据准确率和召回率的计算结果，计算F1得分

F1得分的高低可表示医疗隐私数据识别数据可用性的高低；

最后，比较各方法的F1得分，结果如图2所示，其中横轴表示不同方法，纵轴表示F1得分。

由图2可以看出，本发明标示的柱状图对应的F1得分位于现有3种方法标示的柱状图对应的F1得分的上方，即本发明的F1得分是4种方法中最高的，表明本发明的医疗隐私数据识别数据可用性高于现有的3种方法。

以上描述仅是本发明的一个具体实例，并未构成对本发明的任何限制，显然对于本领域的专业人员来说，在了解了本发明内容和原理后都可在不背离本发明原理，结构的情况下，进行形式和细节上的各种修改和改变，但是这些基于本发明思想的修正和改变仍在本发明的要求保护范围之内。

Claims

1.一种基于动态神经网络的医疗隐私数据识别方法，其特征在于，包括：

C)根据特征数据s通过正参考模型法计算得到参考数据ξ；

D)构建标记数据t：

D1)将目标数据q加入到参考数据ξ中得到联合数据u；

2.根据权利要求1所述的方法，其特征在于，A)中服从拉普拉斯分布的随机噪声，表示如下：

其中，v表示服从拉普拉斯分布的随机噪声，λ表示位置参数，m表示尺度参数。

3.根据权利要求1所述的方法，其特征在于，B)中从差分隐私数据μ中提取特征向量γ，根据特征向量γ计算得到嵌入数据z，根据嵌入数据z计算得到特征数据s，实现如下：

B1)根据差分隐私数据μ计算聚类簇：

其中，μ表示差分隐私数据；

B2)根据聚类簇

计算特征向量：

其中，k表示特征类别数,β表示特征函数，λ表示平滑参数；

B3)根据特征向量γ计算得到嵌入数据：z＝α(γ,θ)，其中，α表示嵌入函数，θ表示嵌入参数；

B4)根据嵌入数据z计算得到特征数据：

其中，f表示特征函数，δ表示类别参数，

表示标准参数。

4.根据权利要求1所述的方法，其特征在于，C)中根据特征数据s通过正参考模型法计算得到参考数据ξ，实现如下：

C1)将特征数据s变换为行正交数据τ；

C2)根据行正交数据τ计算得到参考数据：

其中，

表示优化率，c表示分类行参数，c′表示与c不同行的分类行参数，d表示分类列参数。

5.根据权利要求1所述的方法，其特征在于，D2)根据联合数据u，分别利用联合建模法和联邦学习法计算得到建模数据j和联邦数据g，实现如下：

D2.1)根据联合数据u求出对应的因子矩阵参数梯度R；

D2.2)对因子矩阵参数梯度R进行梯度压缩，得到建模参数梯度Ψ；

D2.3)聚合建模参数梯度Ψ，得到建模因子矩阵Θ，根据建模因子矩阵计算得到建模数据：j＝2ω∑ΘΩ，其中，ω表示建模参数，Ω表示建模矩阵；

D2.4)将D2.3)得到的建模因子矩阵Θ进行加密，得到因子矩阵加密参数梯度Φ，并发送到中心服务器；

D2.5)中心服务器对因子矩阵加密参数梯度Φ进行聚合，返回聚合后的全局加密参数梯度Γ；

D2.6)对全局加密参数梯度Γ解密，得到全局因子矩阵Λ；

D2.7)重复执行D2.5)和D2.6)，直到全局因子矩阵Λ收敛时停止；

D2.8)利用收敛时的全局因子矩阵Λ计算得到联邦数据：g＝2ω∑ΛΩ。

6.根据权利要求1所述的方法，其特征在于，F)中构建的动态神经网络，其各层结构、功能与参数设置如下：

所述输入层：采用从上至下的20个输入子层级联组成，用以对D)中标记数据t利用双线性插值法进行采样运算，得到采样向量φ；

所述隐藏层：采用从上至下的80个隐藏子层级联组成，用以对采样向量φ，进行映射计算，得到隐藏向量

设置隐藏子层之间的激活函数为Softmax函数；

所述输出层：采用从上至下的26个输出子层级联组成，设置输出子层之间的激活函数为Softmax函数，在每个输出子层计算期望标签值h：

其中，σ表示输出函数，l表示当前神经元次序，p表示神经元记忆深度，w表示输出层权重，n表示神经元总个数，b表示期望偏置。

7.根据权利要求1所述的方法，其特征在于，G)中利用动态学习方法对动态神经网络进行训练，实现如下：

G1)将训练样本集和测试样本集输入到F)中设计的动态神经网络中，得到动态神经网络的期望标签值h；

G2)根据期望标签值h计算期望响应：y＝∑wh+μ_i，其中，w表示输出层权重，i表示轮次序数，μ_i表示当前轮次的响应参数；

G3)根据期望响应y计算训练误差：

其中，x表示瞬时响应；

G4)根据训练误差ε计算当前轮次梯度值：

其中，χ_i-1表示上一轮次的梯度值，初始轮次的梯度值为0，η_i表示当前轮次的学习率；

G5)根据当前轮次梯度值χ_i和上一轮次梯度值χ_i-1更新当前轮次的响应参数μ_i和当前轮次的学习率η_i，完成当前轮次训练；

G6)判断当前训练轮次数是否达到设置的最大训练轮次数：

若是，则停止训练，得到训练好的动态神经网络；

否则，将训练轮次数增加1，返回G1)。