CN115187576B

CN115187576B - 一种基于双机制差分隐私的联邦学习肺结节检测方法

Info

Publication number: CN115187576B
Application number: CN202210930904.9A
Authority: CN
Inventors: 范科峰; 刘立新; 陈海; 董建; 张士宗
Original assignee: China Electronics Standardization Institute
Current assignee: China Electronics Standardization Institute
Priority date: 2022-08-04
Filing date: 2022-08-04
Publication date: 2024-02-09
Anticipated expiration: 2042-08-04
Also published as: CN115187576A

Abstract

本发明公开了一种基于双机制差分隐私的联邦学习肺结节检测方法，具体步骤为：将肺部CT图像分割出肺实质；对肺实质进行数据增强，用于训练和测试；构建联邦学习模型；将训练集样本分发给本地客户端；构建肺结节检测模型；初始化本地客户端参数；本地客户端模型训练进行本地权重参数更新，将权重参数进行本地双机制差分隐私加密并上传中央服务器；中央服务器聚合本地客户端权重参数，全局更新后分发给本地客户端；获得肺结节检测结果。本发明通过本地客户端对权重参数差分扰动，上传给中央服务器进行聚合，避免了加密解密的繁琐过程，降低了计算开销，在保证数据隐私和安全的前提下，不损失肺结节检测的精准度。

Description

一种基于双机制差分隐私的联邦学习肺结节检测方法

技术领域

本发明属于图像处理技术领域，具体涉及一种基于双机制差分隐私的联邦学习肺结节检测方法。

背景技术

在过去的几年里，随着人工智能领域迅猛发展，人工智能在医疗领域得到了广泛的应用。例如，肺癌是最常见的诊断癌症，是世界范围内死亡率最高的癌症。肺癌早期常常以肺结节形式出现，因此肺结节检测非常重要。近些年，肺部CT图像肺结节检测成为人工智能领域的热点研究方向。目前，肺结节检测主要使用卷积神经网络实现。肺结节数据总是小规模、碎片化的分布在各个医疗机构，呈现孤岛分布。在隐私安全、道德伦理等因素制约下，各个独立的医疗机构拥有的数据难以聚合在一起，传统机器学习方式面对数据源不足和标签缺乏往往难以训练出理想模型，成为智慧医疗的主要瓶颈。

由于各方面原因造成的数据孤岛，阻碍了人工智能模型的数据使用，于是许多研究学者寻求一种不需要数据集中就能训练机器学习模型。在2016年，谷歌McMahan等人提出了联邦学习(Federated Learning)，将其用于智能手机上的语言预测模型更新。采用客户端-服务器架构，通过聚合本地模型计算更新学习共享模型，不传输本地原始数据一定程度上保护了数据隐私和安全，打破了数据孤岛。然而，半诚实敌手和恶意敌手采用遵循参与方协议尽可能获取数据去挖掘其他参与方隐私和恶意参与改变协议甚至攻击参与方获得隐私。因此，如何保护参与方共享模型参数，防止参与方隐私泄露是一个重要的问题。

但是在现有技术中，肺结节检测主要解决的技术问题是如何提高检测的准确度，申请号为202010047558.0的中国发明专利公开了一种肺结节检测模型的训练方法和肺结节检测方法，申请号为202110937349.8的中国发明专利公开了一种肺结节检测模型构建优化方法、设备、存储介质及产品，都是致力于提高检测结果的准确度。因此，如何在保证数据的隐私和安全前提下，不影响检测结果的精准度，是一个亟待解决的问题。

发明内容

针对现有技术中的上述不足，本发明提供一种基于双机制差分隐私的联邦学习肺结节检测方法。

为了达到上述发明目的，本发明采用的技术方案为：

提供一种基于双机制差分隐私的联邦学习肺结节检测方法，包括以下步骤：

步骤1、胸部CT图像预处理：

采用阈值分割、图像形态学和图像连通方法获得肺实质图像；将肺实质及肺部组织数据进行归一化处理；

步骤2、数据增强：

将肺实质图像使用双三次插值进行随机缩放，通过定位肺结节中心点坐标，对不同尺寸的肺结节进行随机剪裁，根据不同结节半径设置不同翻转采样次数，每次采样随机翻转，得到肺结节立方体；

步骤3、构建联邦学习模型：

构建包括中央服务器和客户端设备集合为S＝{s₁，s₂，s₃…s_n}的联邦学习模型，其中n≥2；

步骤4、向本地客户端分发数据集：

在Luna16数据集中，选取一定比例数据作为训练集并打乱，使其符合Non-IID分布，平均分发给本地客户端，剩余部分数据作为测试集；

步骤5、构建肺结节检测模型：

构建一个基于ResNet的双路径肺结节检测模型，采用了H层的3D残差网络作为编码器子网络；

步骤6、本地客户端参数初始化：

选择每轮参加训练的本地客户端占比为σ，初始化全局聚合迭代次数t，全局聚合T轮，初始化权值参数ω，本地客户端迭代次数为s次，本地客户端训练批大小为B，学习率为η；

步骤7、本地客户端对肺结节检测模型训练：

(1)构建本地客户端数据集为T_n＝{t₁，t₂，t₃…t_k}，选择部分样本数据作为模型输入；

(2)根据数据集之间的平均成对距离来量化内容多样性，确定本地客户端样本数据T_n的内容多样性为

(3)假设成对的距离满足一定的分布，则采样少量的成对距离，使用哈希函数H＝{h₁，h₂，h₃…h_k}将每个客户端的数据映射到单独的存储桶；

(4)在每个存储桶中随机抽取一定比例M个数据，得到一个采样集γ；其平均成对距离V^γ近似于

(5)获取本地客户端损失函数Loss，其为结节的分类损失L_cl和候选结节坐标(x，y，z)与结节尺寸d的回归损失L_reg之和，公式为Loss＝L_cl+L_reg；其中，L_cl为BEC损失函数，L_reg为Smooth L1损失函数；

(6)利用随机梯度下降法更新权值参数，权值参数使用双机制差分隐私加密并上传给中央服务器；

步骤8、中央服务器聚合权值参数：

(1)中央服务器接收本地模型参数，使用加权平均算法聚合权值参数；

(2)中央服务器将聚合后模型参数发送给本地客户端；

(3)判断t＜T是否成立，若是t＝t+1，继续训练模型；否则，模型训练完成，获得训练好的双机制差分隐私的联邦学习肺结节检测；

步骤9、获得肺结节检测结果：

将测试样本输入到训练好的双机制差分隐私的联邦学习肺结节检测模型中，得到所有测试样本的预测标签。

进一步地，步骤1中，归一化公式为：其中x为样本的数据值，x_max为肺实质及肺部组织数据的最大值，x_min为肺实质及肺部组织数据的最小值。

进一步地，步骤5中，基于ResNet的双路径肺结节检测模型，构建一个基于3DResNet18双路径网络，采用18层的3D残差网络作为编码器子网络。

进一步地，步骤7中，采样集保持γ≤T_n，根据霍夫丁不等式，当θ＞0时，

进一步地，步骤7中，设权值参数空间为R，分别选择占比20％两个子空间m和n，m∈R，n∈R，m∪n∈R；子空间m使用差分隐私拉普拉斯机制扰动，公式为子空间n使用差分隐私高斯机制扰动，公式为F(x)＝f(x)+N(σ²)，其中/>

本发明的有益效果为：

1、本发明通过本地客户端对权重参数差分扰动，上传给中央服务器进行聚合，避免了加密解密的繁琐过程，降低了计算开销，在保证数据隐私和安全的前提下，不损失肺结节检测的精准度，具有广泛的适用性。

2、在权重参数空间中选择两个非交集的子空间，且两个子空间之和不等于权重参数空间，在两个子空间分别使用拉普拉斯机制和高斯机制进行扰动。扰动后的权重参数空间既保留了一部分原始性，又通过双机制扰动增强了数据隐私和安全。

附图说明

图1为本发明方法流程图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

参照图1，本发明包括以下步骤：

(1)肺部CT图像预处理：

步骤1：将原始CT图像经双三次插值重采样至体素尺度(1，1，1)。双三次插值首先构造BiCubic函数：(a一般取值为-0.5)。双三次插值将近邻的16个点来加权，插值计算的公式为：

步骤2：将重采样的CT图像二值化分割出肺实质区域。

步骤3：分割出的肺实质区域还保留CT检查床和空气等无关边界，通过将灰度图边界灰度值为1的部分清除，获得去除无关边界的肺实质区域。

步骤4：在去除无关边界的肺实质区域中标记所有连通区域，保留左右肺叶最大两片连通区域。腐蚀肺部细小血管和结节得到规则的黑色空洞，闭运算去除肺叶黑点区域保留肺壁相连接的结节。使用凸包运算修补肺叶边缘区域凹陷得到肺部掩码，与原始CT图像运算得到肺实质图像。

步骤5：由于CT影像中结节信号强度不同，为防止特征提取不准确，将肺实质及肺部组织数值区间归一化处理为[-1200，600]，归一化公式为：(x为样本的数据值，x_max为该数据的最大值，x_min为该数据的最小值)。

步骤6：将归一化处理后的肺实质及肺部组织数值区间经过线性变换至[0，255]，完成预处理操作。

(2)数据增强：

将肺实质图像使用双三次插值，随机缩放至[0.75，1.25]。通过定位结节中心点坐标，对不同尺寸的肺结节进行随机剪裁。根据不同结节半径设置不同翻转采样次数，每次采样随机翻转，得到肺结节立方体作为网络的输入。

(3)构建联邦学习模型：

构建包括中央服务器和客户端设备集合为S＝{s₁，s₂，s₃…s_n}的联邦学习模型，其中n≥2，在本实施例中n＝10。

(4)向本地客户端分发数据集：

在Luna16数据集中，选取80％作为训练集并打乱，使其符合Non-IID分布，平均分发给本地客户端，剩余部分数据作为测试集。

(5)构建3D ResNet18 Dual Path Faster R-CNN肺结节检测模型：

构建一个基于3D ResNet18双路径网络，采用18层的3D残差网络作为编码器子网络。

(6)本地客户端参数初始化：

本实施例中，每轮选择参加训练的本地客户端占比为50％，初始化全局聚合迭代次数t＝0，全局聚合200轮，初始化权值参数ω，本地客户端迭代次数为4次，本地客户端训练批大小为4，初始学习率设置为0.01，经过一定轮数减少学习率大小。

(7)本地客户端对肺结节检测模型训练：

步骤1：构建本地客户端数据集为T_n＝{t₁，t₂，t₃…t_k}，基于本地客户端数据集提出一种数据抽样的多样性计算方法，选择部分样本数据作为模型输入。

步骤2：根据数据集之间的平均成对距离来量化内容多样性，本地客户端样本数据T_n的内容多样性为/>

步骤3：假设成对的距离满足一定的分布，则采样少量的成对距离。使用哈希函数H＝{h₁，h₂，h₃…h_k}将每个客户端的数据映射到单独的存储桶。

步骤4：在每个存储桶中随机抽取50％数据，得到一个采样集γ。其平均成对距离V^γ近似于实际应用中，我们选择适当的采样率保持γ≤T_n。根据霍夫丁不等式，当θ＞0时，/>

步骤5：获取本地客户端损失函数Loss，其为结节的分类损失L_cl和候选结节坐标(x，y，z)与结节尺寸d的回归损失L_reg之和，公式为Loss＝L_cl+L_reg。

其中，L_cl为BEC损失函数，L_reg为Smooth L1损失函数。

步骤6：使用随机梯度下降法更新权值参数，权值参数使用双机制差分隐私加密并上传给中央服务器。

在本实施例中，双机制差分隐私在权值参数空间中加入拉普拉斯噪声和高斯噪声。设权值参数空间为R，分别选择占比20％两个子空间m和n，m∈R，n∈R，m∪n∈R。子空间m使用差分隐私拉普拉斯机制扰动，拉普拉斯噪声符合∈-差分隐私，公式为其中s是f的敏感度，∈表示隐私预算，Lap(S)表示从中心为0且比例为S的拉普拉斯分布中采样；子空间n使用差分隐私高斯机制扰动，高斯噪声符合(∈，δ)-差分隐私，公式为F(x)＝f(x)+N(σ²)，其中/>s是f的敏感度，∈表示隐私预算，N(σ²)表示从中心为0且方差σ²的高斯(正态)分布抽样。隐私预算∈在[0.1，10]。

隐私预算∈调节隐私保护程度，∈越小，数据效用越低，隐私保护程度越高；∈越大，数据效用越高，隐私保护程度越低。本实施例考虑到模型的可用性，选取∈＝1。

(8)中央服务器聚合权值参数：

步骤1：中央服务器接收本地模型参数，使用加权平均算法聚合权值参数。加权平均算法公式为为中央服务器聚合后模型参数，ω_t+1为本地客户端权值参数。

步骤2：中央服务器将聚合后模型参数发送给本地客户端。

步骤3：判断t＜T是否成立，若是t＝t+1，继续训练模型；否则，模型训练完成，获得练好的双机制差分隐私的联邦学习肺结节检测模型。

(9)获得肺结节检测结果：

本发明使用3D ResNet18 Dual Path Faster R-CNN模型，其中双路径连接受益于残差网络和密集连接。双路径连接使用一部分特征映射进行密集连接，其中一部分用于残差网络。残差网络是消除深度学习网络中梯度消失现象的一种有效方法。从学习到特性共享的角度来看，残余学习可以实现特性重用，而密集连接具有利用新特性的优势。此外，不需要重新学习冗余特征图，密集连接网络的参数少于残余特征图。

在本申请中，模型肺结节检测获得了80.146％的准确度，80.09％的AUC，79.686％的灵敏度，80.054％的查准率和81.687％的F1分数。本发明通过数据抽样的多样性计算方法提高模型训练的泛化能力和鲁棒性，采用一种双机制差分隐私加密方法保留了一定数据原始性还增强了噪声扰动，再进行全局更新，提高了训练效率，降低了计算开销，在保证数据隐私和安全的前提下，不损失肺结节检测的精准度，具有广泛的适用性。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于双机制差分隐私的联邦学习肺结节检测方法，其特征在于，包括以下步骤：

步骤1、胸部CT图像预处理：

1)：将原始CT图像经双三次插值重采样至体素尺度(1，1，1)，双三次插值首先构造BiCubic函数：a取值为-0.5，双三次插值将近邻的16个点来加权，插值计算的公式为：/>

2)：将重采样的CT图像二值化分割出肺实质区域；

3)：分割出的肺实质区域还保留CT检查床和空气无关边界，通过将灰度图边界灰度值为1的部分清除，获得去除无关边界的肺实质区域；

4)：在去除无关边界的肺实质区域中标记所有连通区域，保留左右肺叶最大两片连通区域；腐蚀肺部细小血管和结节得到规则的黑色空洞，闭运算去除肺叶黑点区域保留肺壁相连接的结节；使用凸包运算修补肺叶边缘区域凹陷得到肺部掩码，与原始CT图像运算得到肺实质图像；

5)：将肺实质及肺部组织数值区间归一化处理为[-1200，600]，归一化公式为：x为样本的数据值，x_max为该数据的最大值，x_min为该数据的最小值；

6)：将归一化处理后的肺实质及肺部组织数值区间经过线性变换至[0，255]，完成预处理操作；

步骤2、数据增强：

步骤3、构建联邦学习模型：

构建包括中央服务器和客户端设备集合为S＝{s₁,s₂,s₃…s_n}的联邦学习模型，其中n≥2；

步骤4、向本地客户端分发数据集：

步骤5、构建肺结节检测模型：

步骤6、本地客户端参数初始化：

步骤7、本地客户端对肺结节检测模型训练：

(1)构建本地客户端数据集为T_n＝{t₁,t₂,t₃…t_k}，选择部分样本数据作为模型输入；

(3)假设成对的距离满足一定的分布，则采样少量的成对距离，使用哈希函数H＝{h₁,h₂,h₃…h_k}将每个客户端的数据映射到单独的存储桶；

(5)获取本地客户端损失函数Loss，其为结节的分类损失L_cl和候选结节坐标(x,y,z)与结节尺寸d的回归损失L_reg之和，公式为Loss＝L_cl+L_reg；其中，L_cl为BEC损失函数，L_reg为Smooth L1损失函数；

(6)利用随机梯度下降法更新权值参数，权值参数使用双机制差分隐私加密并上传给中央服务器，其中，双机制差分隐私在权值参数空间中加入拉普拉斯噪声和高斯噪声，设权值参数空间为R，分别选择占比20％两个子空间m和n，m∈R，n∈R，m∪n∈R，子空间m使用差分隐私拉普拉斯机制扰动，拉普拉斯噪声符合∈-差分隐私，公式为其中s是f的敏感度，∈表示隐私预算，Lap(S)表示从中心为0且比例为S的拉普拉斯分布中采样；子空间n使用差分隐私高斯机制扰动，高斯噪声符合(∈，δ)-差分隐私，公式为F(x)＝f(x)+N(σ²)，其中/>s是f的敏感度，∈表示隐私预算，N(σ²)表示从中心为0且方差σ²的高斯(正态)分布抽样，隐私预算∈在[0.1，10]；

步骤8、中央服务器聚合权值参数：

(2)中央服务器将聚合后模型参数发送给本地客户端；

(3)判断t<T是否成立，若是t＝t+1，继续训练模型；否则，模型训练完成，获得训练好的双机制差分隐私的联邦学习肺结节检测模型；

步骤9、获得肺结节检测结果：

2.根据权利要求1所述的基于双机制差分隐私的联邦学习肺结节检测方法，其特征在于，步骤5中，基于ResNet的双路径肺结节检测模型，构建一个基于3D ResNet18双路径网络，采用18层的3D残差网络作为编码器子网络。

3.根据权利要求1所述的基于双机制差分隐私的联邦学习肺结节检测方法，其特征在于，步骤7中，采样集保持γ≤T_n，根据霍夫丁不等式，当θ>0时，