CN115187576B - 一种基于双机制差分隐私的联邦学习肺结节检测方法 - Google Patents
一种基于双机制差分隐私的联邦学习肺结节检测方法 Download PDFInfo
- Publication number
- CN115187576B CN115187576B CN202210930904.9A CN202210930904A CN115187576B CN 115187576 B CN115187576 B CN 115187576B CN 202210930904 A CN202210930904 A CN 202210930904A CN 115187576 B CN115187576 B CN 115187576B
- Authority
- CN
- China
- Prior art keywords
- lung
- local client
- data
- nodule detection
- differential privacy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 206010056342 Pulmonary mass Diseases 0.000 title claims abstract description 45
- 238000001514 detection method Methods 0.000 title claims abstract description 44
- 210000004072 lung Anatomy 0.000 claims abstract description 43
- 238000012549 training Methods 0.000 claims abstract description 28
- 238000000034 method Methods 0.000 claims abstract description 14
- 230000002776 aggregation Effects 0.000 claims abstract description 10
- 238000004220 aggregation Methods 0.000 claims abstract description 10
- 238000012360 testing method Methods 0.000 claims abstract description 10
- 238000004364 calculation method Methods 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 14
- 238000005070 sampling Methods 0.000 claims description 11
- 238000009826 distribution Methods 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 8
- 230000002685 pulmonary effect Effects 0.000 claims description 8
- 230000035945 sensitivity Effects 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 4
- 230000007306 turnover Effects 0.000 claims description 4
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 3
- 206010027146 Melanoderma Diseases 0.000 claims description 2
- 238000005520 cutting process Methods 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 230000001131 transforming effect Effects 0.000 claims description 2
- 238000012952 Resampling Methods 0.000 claims 1
- 210000004204 blood vessel Anatomy 0.000 claims 1
- 239000007788 liquid Substances 0.000 claims 1
- 238000011002 quantification Methods 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 2
- 230000009977 dual effect Effects 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 2
- 201000011510 cancer Diseases 0.000 description 2
- 201000005202 lung cancer Diseases 0.000 description 2
- 208000020816 lung neoplasm Diseases 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005530 etching Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/60—Rotation of whole images or parts thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/136—Segmentation; Edge detection involving thresholding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/155—Segmentation; Edge detection involving morphological operators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/187—Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
- G06T7/66—Analysis of geometric attributes of image moments or centre of gravity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30061—Lung
- G06T2207/30064—Lung nodule
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Geometry (AREA)
- Quality & Reliability (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Apparatus For Radiation Diagnosis (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于双机制差分隐私的联邦学习肺结节检测方法,具体步骤为:将肺部CT图像分割出肺实质;对肺实质进行数据增强,用于训练和测试;构建联邦学习模型;将训练集样本分发给本地客户端;构建肺结节检测模型;初始化本地客户端参数;本地客户端模型训练进行本地权重参数更新,将权重参数进行本地双机制差分隐私加密并上传中央服务器;中央服务器聚合本地客户端权重参数,全局更新后分发给本地客户端;获得肺结节检测结果。本发明通过本地客户端对权重参数差分扰动,上传给中央服务器进行聚合,避免了加密解密的繁琐过程,降低了计算开销,在保证数据隐私和安全的前提下,不损失肺结节检测的精准度。
Description
技术领域
本发明属于图像处理技术领域,具体涉及一种基于双机制差分隐私的联邦学习肺结节检测方法。
背景技术
在过去的几年里,随着人工智能领域迅猛发展,人工智能在医疗领域得到了广泛的应用。例如,肺癌是最常见的诊断癌症,是世界范围内死亡率最高的癌症。肺癌早期常常以肺结节形式出现,因此肺结节检测非常重要。近些年,肺部CT图像肺结节检测成为人工智能领域的热点研究方向。目前,肺结节检测主要使用卷积神经网络实现。肺结节数据总是小规模、碎片化的分布在各个医疗机构,呈现孤岛分布。在隐私安全、道德伦理等因素制约下,各个独立的医疗机构拥有的数据难以聚合在一起,传统机器学习方式面对数据源不足和标签缺乏往往难以训练出理想模型,成为智慧医疗的主要瓶颈。
由于各方面原因造成的数据孤岛,阻碍了人工智能模型的数据使用,于是许多研究学者寻求一种不需要数据集中就能训练机器学习模型。在2016年,谷歌McMahan等人提出了联邦学习(Federated Learning),将其用于智能手机上的语言预测模型更新。采用客户端-服务器架构,通过聚合本地模型计算更新学习共享模型,不传输本地原始数据一定程度上保护了数据隐私和安全,打破了数据孤岛。然而,半诚实敌手和恶意敌手采用遵循参与方协议尽可能获取数据去挖掘其他参与方隐私和恶意参与改变协议甚至攻击参与方获得隐私。因此,如何保护参与方共享模型参数,防止参与方隐私泄露是一个重要的问题。
但是在现有技术中,肺结节检测主要解决的技术问题是如何提高检测的准确度,申请号为202010047558.0的中国发明专利公开了一种肺结节检测模型的训练方法和肺结节检测方法,申请号为202110937349.8的中国发明专利公开了一种肺结节检测模型构建优化方法、设备、存储介质及产品,都是致力于提高检测结果的准确度。因此,如何在保证数据的隐私和安全前提下,不影响检测结果的精准度,是一个亟待解决的问题。
发明内容
针对现有技术中的上述不足,本发明提供一种基于双机制差分隐私的联邦学习肺结节检测方法。
为了达到上述发明目的,本发明采用的技术方案为:
提供一种基于双机制差分隐私的联邦学习肺结节检测方法,包括以下步骤:
步骤1、胸部CT图像预处理:
采用阈值分割、图像形态学和图像连通方法获得肺实质图像;将肺实质及肺部组织数据进行归一化处理;
步骤2、数据增强:
将肺实质图像使用双三次插值进行随机缩放,通过定位肺结节中心点坐标,对不同尺寸的肺结节进行随机剪裁,根据不同结节半径设置不同翻转采样次数,每次采样随机翻转,得到肺结节立方体;
步骤3、构建联邦学习模型:
构建包括中央服务器和客户端设备集合为S={s1,s2,s3…sn}的联邦学习模型,其中n≥2;
步骤4、向本地客户端分发数据集:
在Luna16数据集中,选取一定比例数据作为训练集并打乱,使其符合Non-IID分布,平均分发给本地客户端,剩余部分数据作为测试集;
步骤5、构建肺结节检测模型:
构建一个基于ResNet的双路径肺结节检测模型,采用了H层的3D残差网络作为编码器子网络;
步骤6、本地客户端参数初始化:
选择每轮参加训练的本地客户端占比为σ,初始化全局聚合迭代次数t,全局聚合T轮,初始化权值参数ω,本地客户端迭代次数为s次,本地客户端训练批大小为B,学习率为η;
步骤7、本地客户端对肺结节检测模型训练:
(1)构建本地客户端数据集为Tn={t1,t2,t3…tk},选择部分样本数据作为模型输入;
(2)根据数据集之间的平均成对距离来量化内容多样性,确定本地客户端样本数据Tn的内容多样性为
(3)假设成对的距离满足一定的分布,则采样少量的成对距离,使用哈希函数H={h1,h2,h3…hk}将每个客户端的数据映射到单独的存储桶;
(4)在每个存储桶中随机抽取一定比例M个数据,得到一个采样集γ;其平均成对距离Vγ近似于
(5)获取本地客户端损失函数Loss,其为结节的分类损失Lcl和候选结节坐标(x,y,z)与结节尺寸d的回归损失Lreg之和,公式为Loss=Lcl+Lreg;其中,Lcl为BEC损失函数,Lreg为Smooth L1损失函数;
(6)利用随机梯度下降法更新权值参数,权值参数使用双机制差分隐私加密并上传给中央服务器;
步骤8、中央服务器聚合权值参数:
(1)中央服务器接收本地模型参数,使用加权平均算法聚合权值参数;
(2)中央服务器将聚合后模型参数发送给本地客户端;
(3)判断t<T是否成立,若是t=t+1,继续训练模型;否则,模型训练完成,获得训练好的双机制差分隐私的联邦学习肺结节检测;
步骤9、获得肺结节检测结果:
将测试样本输入到训练好的双机制差分隐私的联邦学习肺结节检测模型中,得到所有测试样本的预测标签。
进一步地,步骤1中,归一化公式为:其中x为样本的数据值,xmax为肺实质及肺部组织数据的最大值,xmin为肺实质及肺部组织数据的最小值。
进一步地,步骤5中,基于ResNet的双路径肺结节检测模型,构建一个基于3DResNet18双路径网络,采用18层的3D残差网络作为编码器子网络。
进一步地,步骤7中,采样集保持γ≤Tn,根据霍夫丁不等式,当θ>0时,
进一步地,步骤7中,设权值参数空间为R,分别选择占比20%两个子空间m和n,m∈R,n∈R,m∪n∈R;子空间m使用差分隐私拉普拉斯机制扰动,公式为子空间n使用差分隐私高斯机制扰动,公式为F(x)=f(x)+N(σ2),其中/>
本发明的有益效果为:
1、本发明通过本地客户端对权重参数差分扰动,上传给中央服务器进行聚合,避免了加密解密的繁琐过程,降低了计算开销,在保证数据隐私和安全的前提下,不损失肺结节检测的精准度,具有广泛的适用性。
2、在权重参数空间中选择两个非交集的子空间,且两个子空间之和不等于权重参数空间,在两个子空间分别使用拉普拉斯机制和高斯机制进行扰动。扰动后的权重参数空间既保留了一部分原始性,又通过双机制扰动增强了数据隐私和安全。
附图说明
图1为本发明方法流程图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
参照图1,本发明包括以下步骤:
(1)肺部CT图像预处理:
步骤1:将原始CT图像经双三次插值重采样至体素尺度(1,1,1)。双三次插值首先构造BiCubic函数:(a一般取值为-0.5)。双三次插值将近邻的16个点来加权,插值计算的公式为:
步骤2:将重采样的CT图像二值化分割出肺实质区域。
步骤3:分割出的肺实质区域还保留CT检查床和空气等无关边界,通过将灰度图边界灰度值为1的部分清除,获得去除无关边界的肺实质区域。
步骤4:在去除无关边界的肺实质区域中标记所有连通区域,保留左右肺叶最大两片连通区域。腐蚀肺部细小血管和结节得到规则的黑色空洞,闭运算去除肺叶黑点区域保留肺壁相连接的结节。使用凸包运算修补肺叶边缘区域凹陷得到肺部掩码,与原始CT图像运算得到肺实质图像。
步骤5:由于CT影像中结节信号强度不同,为防止特征提取不准确,将肺实质及肺部组织数值区间归一化处理为[-1200,600],归一化公式为:(x为样本的数据值,xmax为该数据的最大值,xmin为该数据的最小值)。
步骤6:将归一化处理后的肺实质及肺部组织数值区间经过线性变换至[0,255],完成预处理操作。
(2)数据增强:
将肺实质图像使用双三次插值,随机缩放至[0.75,1.25]。通过定位结节中心点坐标,对不同尺寸的肺结节进行随机剪裁。根据不同结节半径设置不同翻转采样次数,每次采样随机翻转,得到肺结节立方体作为网络的输入。
(3)构建联邦学习模型:
构建包括中央服务器和客户端设备集合为S={s1,s2,s3…sn}的联邦学习模型,其中n≥2,在本实施例中n=10。
(4)向本地客户端分发数据集:
在Luna16数据集中,选取80%作为训练集并打乱,使其符合Non-IID分布,平均分发给本地客户端,剩余部分数据作为测试集。
(5)构建3D ResNet18 Dual Path Faster R-CNN肺结节检测模型:
构建一个基于3D ResNet18双路径网络,采用18层的3D残差网络作为编码器子网络。
(6)本地客户端参数初始化:
本实施例中,每轮选择参加训练的本地客户端占比为50%,初始化全局聚合迭代次数t=0,全局聚合200轮,初始化权值参数ω,本地客户端迭代次数为4次,本地客户端训练批大小为4,初始学习率设置为0.01,经过一定轮数减少学习率大小。
(7)本地客户端对肺结节检测模型训练:
步骤1:构建本地客户端数据集为Tn={t1,t2,t3…tk},基于本地客户端数据集提出一种数据抽样的多样性计算方法,选择部分样本数据作为模型输入。
步骤2:根据数据集之间的平均成对距离来量化内容多样性,本地客户端样本数据Tn的内容多样性为/>
步骤3:假设成对的距离满足一定的分布,则采样少量的成对距离。使用哈希函数H={h1,h2,h3…hk}将每个客户端的数据映射到单独的存储桶。
步骤4:在每个存储桶中随机抽取50%数据,得到一个采样集γ。其平均成对距离Vγ近似于实际应用中,我们选择适当的采样率保持γ≤Tn。根据霍夫丁不等式,当θ>0时,/>
步骤5:获取本地客户端损失函数Loss,其为结节的分类损失Lcl和候选结节坐标(x,y,z)与结节尺寸d的回归损失Lreg之和,公式为Loss=Lcl+Lreg。
其中,Lcl为BEC损失函数,Lreg为Smooth L1损失函数。
步骤6:使用随机梯度下降法更新权值参数,权值参数使用双机制差分隐私加密并上传给中央服务器。
在本实施例中,双机制差分隐私在权值参数空间中加入拉普拉斯噪声和高斯噪声。设权值参数空间为R,分别选择占比20%两个子空间m和n,m∈R,n∈R,m∪n∈R。子空间m使用差分隐私拉普拉斯机制扰动,拉普拉斯噪声符合∈-差分隐私,公式为其中s是f的敏感度,∈表示隐私预算,Lap(S)表示从中心为0且比例为S的拉普拉斯分布中采样;子空间n使用差分隐私高斯机制扰动,高斯噪声符合(∈,δ)-差分隐私,公式为F(x)=f(x)+N(σ2),其中/>s是f的敏感度,∈表示隐私预算,N(σ2)表示从中心为0且方差σ2的高斯(正态)分布抽样。隐私预算∈在[0.1,10]。
隐私预算∈调节隐私保护程度,∈越小,数据效用越低,隐私保护程度越高;∈越大,数据效用越高,隐私保护程度越低。本实施例考虑到模型的可用性,选取∈=1。
(8)中央服务器聚合权值参数:
步骤1:中央服务器接收本地模型参数,使用加权平均算法聚合权值参数。加权平均算法公式为 为中央服务器聚合后模型参数,ωt+1为本地客户端权值参数。
步骤2:中央服务器将聚合后模型参数发送给本地客户端。
步骤3:判断t<T是否成立,若是t=t+1,继续训练模型;否则,模型训练完成,获得练好的双机制差分隐私的联邦学习肺结节检测模型。
(9)获得肺结节检测结果:
将测试样本输入到训练好的双机制差分隐私的联邦学习肺结节检测模型中,得到所有测试样本的预测标签。
本发明使用3D ResNet18 Dual Path Faster R-CNN模型,其中双路径连接受益于残差网络和密集连接。双路径连接使用一部分特征映射进行密集连接,其中一部分用于残差网络。残差网络是消除深度学习网络中梯度消失现象的一种有效方法。从学习到特性共享的角度来看,残余学习可以实现特性重用,而密集连接具有利用新特性的优势。此外,不需要重新学习冗余特征图,密集连接网络的参数少于残余特征图。
在本申请中,模型肺结节检测获得了80.146%的准确度,80.09%的AUC,79.686%的灵敏度,80.054%的查准率和81.687%的F1分数。本发明通过数据抽样的多样性计算方法提高模型训练的泛化能力和鲁棒性,采用一种双机制差分隐私加密方法保留了一定数据原始性还增强了噪声扰动,再进行全局更新,提高了训练效率,降低了计算开销,在保证数据隐私和安全的前提下,不损失肺结节检测的精准度,具有广泛的适用性。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (3)
1.一种基于双机制差分隐私的联邦学习肺结节检测方法,其特征在于,包括以下步骤:
步骤1、胸部CT图像预处理:
1):将原始CT图像经双三次插值重采样至体素尺度(1,1,1),双三次插值首先构造BiCubic函数:a取值为-0.5,双三次插值将近邻的16个点来加权,插值计算的公式为:/>
2):将重采样的CT图像二值化分割出肺实质区域;
3):分割出的肺实质区域还保留CT检查床和空气无关边界,通过将灰度图边界灰度值为1的部分清除,获得去除无关边界的肺实质区域;
4):在去除无关边界的肺实质区域中标记所有连通区域,保留左右肺叶最大两片连通区域;腐蚀肺部细小血管和结节得到规则的黑色空洞,闭运算去除肺叶黑点区域保留肺壁相连接的结节;使用凸包运算修补肺叶边缘区域凹陷得到肺部掩码,与原始CT图像运算得到肺实质图像;
5):将肺实质及肺部组织数值区间归一化处理为[-1200,600],归一化公式为:x为样本的数据值,xmax为该数据的最大值,xmin为该数据的最小值;
6):将归一化处理后的肺实质及肺部组织数值区间经过线性变换至[0,255],完成预处理操作;
步骤2、数据增强:
将肺实质图像使用双三次插值进行随机缩放,通过定位肺结节中心点坐标,对不同尺寸的肺结节进行随机剪裁,根据不同结节半径设置不同翻转采样次数,每次采样随机翻转,得到肺结节立方体;
步骤3、构建联邦学习模型:
构建包括中央服务器和客户端设备集合为S={s1,s2,s3…sn}的联邦学习模型,其中n≥2;
步骤4、向本地客户端分发数据集:
在Luna16数据集中,选取一定比例数据作为训练集并打乱,使其符合Non-IID分布,平均分发给本地客户端,剩余部分数据作为测试集;
步骤5、构建肺结节检测模型:
构建一个基于ResNet的双路径肺结节检测模型,采用了H层的3D残差网络作为编码器子网络;
步骤6、本地客户端参数初始化:
选择每轮参加训练的本地客户端占比为σ,初始化全局聚合迭代次数t,全局聚合T轮,初始化权值参数ω,本地客户端迭代次数为s次,本地客户端训练批大小为B,学习率为η;
步骤7、本地客户端对肺结节检测模型训练:
(1)构建本地客户端数据集为Tn={t1,t2,t3…tk},选择部分样本数据作为模型输入;
(2)根据数据集之间的平均成对距离来量化内容多样性,确定本地客户端样本数据Tn的内容多样性为
(3)假设成对的距离满足一定的分布,则采样少量的成对距离,使用哈希函数H={h1,h2,h3…hk}将每个客户端的数据映射到单独的存储桶;
(4)在每个存储桶中随机抽取一定比例M个数据,得到一个采样集γ;其平均成对距离Vγ近似于
(5)获取本地客户端损失函数Loss,其为结节的分类损失Lcl和候选结节坐标(x,y,z)与结节尺寸d的回归损失Lreg之和,公式为Loss=Lcl+Lreg;其中,Lcl为BEC损失函数,Lreg为Smooth L1损失函数;
(6)利用随机梯度下降法更新权值参数,权值参数使用双机制差分隐私加密并上传给中央服务器,其中,双机制差分隐私在权值参数空间中加入拉普拉斯噪声和高斯噪声,设权值参数空间为R,分别选择占比20%两个子空间m和n,m∈R,n∈R,m∪n∈R,子空间m使用差分隐私拉普拉斯机制扰动,拉普拉斯噪声符合∈-差分隐私,公式为其中s是f的敏感度,∈表示隐私预算,Lap(S)表示从中心为0且比例为S的拉普拉斯分布中采样;子空间n使用差分隐私高斯机制扰动,高斯噪声符合(∈,δ)-差分隐私,公式为F(x)=f(x)+N(σ2),其中/>s是f的敏感度,∈表示隐私预算,N(σ2)表示从中心为0且方差σ2的高斯(正态)分布抽样,隐私预算∈在[0.1,10];
步骤8、中央服务器聚合权值参数:
(1)中央服务器接收本地模型参数,使用加权平均算法聚合权值参数;
(2)中央服务器将聚合后模型参数发送给本地客户端;
(3)判断t<T是否成立,若是t=t+1,继续训练模型;否则,模型训练完成,获得训练好的双机制差分隐私的联邦学习肺结节检测模型;
步骤9、获得肺结节检测结果:
将测试样本输入到训练好的双机制差分隐私的联邦学习肺结节检测模型中,得到所有测试样本的预测标签。
2.根据权利要求1所述的基于双机制差分隐私的联邦学习肺结节检测方法,其特征在于,步骤5中,基于ResNet的双路径肺结节检测模型,构建一个基于3D ResNet18双路径网络,采用18层的3D残差网络作为编码器子网络。
3.根据权利要求1所述的基于双机制差分隐私的联邦学习肺结节检测方法,其特征在于,步骤7中,采样集保持γ≤Tn,根据霍夫丁不等式,当θ>0时,
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210930904.9A CN115187576B (zh) | 2022-08-04 | 2022-08-04 | 一种基于双机制差分隐私的联邦学习肺结节检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210930904.9A CN115187576B (zh) | 2022-08-04 | 2022-08-04 | 一种基于双机制差分隐私的联邦学习肺结节检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115187576A CN115187576A (zh) | 2022-10-14 |
CN115187576B true CN115187576B (zh) | 2024-02-09 |
Family
ID=83521159
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210930904.9A Active CN115187576B (zh) | 2022-08-04 | 2022-08-04 | 一种基于双机制差分隐私的联邦学习肺结节检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115187576B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113127931A (zh) * | 2021-06-18 | 2021-07-16 | 国网浙江省电力有限公司信息通信分公司 | 基于瑞丽散度进行噪声添加的联邦学习差分隐私保护方法 |
CN113793298A (zh) * | 2021-08-16 | 2021-12-14 | 深圳致星科技有限公司 | 肺结节检测模型构建优化方法、设备、存储介质及产品 |
CN114462090A (zh) * | 2022-02-18 | 2022-05-10 | 北京邮电大学 | 一种针对联邦学习中差分隐私预算计算的收紧方法 |
CN114821179A (zh) * | 2022-05-05 | 2022-07-29 | 安徽大学 | 一种基于联邦模型蒸馏的混合隐私保护图像分类方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11139961B2 (en) * | 2019-05-07 | 2021-10-05 | International Business Machines Corporation | Private and federated learning |
-
2022
- 2022-08-04 CN CN202210930904.9A patent/CN115187576B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113127931A (zh) * | 2021-06-18 | 2021-07-16 | 国网浙江省电力有限公司信息通信分公司 | 基于瑞丽散度进行噪声添加的联邦学习差分隐私保护方法 |
CN113793298A (zh) * | 2021-08-16 | 2021-12-14 | 深圳致星科技有限公司 | 肺结节检测模型构建优化方法、设备、存储介质及产品 |
CN114462090A (zh) * | 2022-02-18 | 2022-05-10 | 北京邮电大学 | 一种针对联邦学习中差分隐私预算计算的收紧方法 |
CN114821179A (zh) * | 2022-05-05 | 2022-07-29 | 安徽大学 | 一种基于联邦模型蒸馏的混合隐私保护图像分类方法 |
Non-Patent Citations (6)
Title |
---|
《联邦学习(FL)+差分隐私(DP)》;celine_lee;《blog.csdn.net/m0_50609661/article/details/125731399》;20220711;第2页 * |
《面向特定任务的大规模数据集质量高效评估》;李安然;《信息科技》;20210915(第9期);第27页 * |
《面向隐私保护联邦学习的医学影像目标检测算法》;王生生,等;《计算机辅助设计与图形学学报》;20211031;第33卷(第10期);第1556-1561页第2-3节 * |
Federated learning and differential privacy for medical image analysis;Mohammed Adnan et al;Scientific Reports;第12卷;全文 * |
李星新 等.MATLAB 2020 GUI程序设计从入门到精通.机械工业出版社,2021,第243页. * |
武玉伟.深度学习基础与应用.北京理工大学出版社,2020,第315-316页. * |
Also Published As
Publication number | Publication date |
---|---|
CN115187576A (zh) | 2022-10-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230177682A1 (en) | Systems and methods for characterizing a tumor microenvironment using pathological images | |
CN109272512B (zh) | 一种自动分割左心室内外膜的方法 | |
Ding et al. | Unsupervised self-correlated learning smoothy enhanced locality preserving graph convolution embedding clustering for hyperspectral images | |
WO2021203795A1 (zh) | 一种基于显著性密集连接扩张卷积网络的胰腺ct自动分割方法 | |
CN112733800B (zh) | 基于卷积神经网络的遥感图像道路信息提取方法和装置 | |
CN110084824B (zh) | 基于对称水平集的舌体图像分割方法、系统、设备及介质 | |
Yang et al. | Cell image segmentation with kernel-based dynamic clustering and an ellipsoidal cell shape model | |
CN113011509B (zh) | 肺部支气管的分类方法、装置、电子设备和存储介质 | |
CN113095333B (zh) | 无监督特征点检测方法及装置 | |
WO2020248096A1 (zh) | 基于局部特征的三维人脸识别方法和系统 | |
Yuan et al. | Watershed-based superpixels with global and local boundary marching | |
CN110473224B (zh) | 一种基于kl熵的rsf水平集图像自动分割方法 | |
CN116092134A (zh) | 一种基于深度学习和特征融合的指纹活体检测方法 | |
CN112364881A (zh) | 一种进阶采样一致性图像匹配算法 | |
Yang et al. | Retinal vessel segmentation based on an improved deep forest | |
CN105809200B (zh) | 一种生物启发式自主抽取图像语义信息的方法及装置 | |
CN115187576B (zh) | 一种基于双机制差分隐私的联邦学习肺结节检测方法 | |
CN116311387B (zh) | 一种基于特征交集的跨模态行人重识别方法 | |
Wang et al. | Comparison and Analysis of Several Clustering Algorithms for Pavement Crack Segmentation Guided by Computational Intelligence | |
Ding et al. | Segmentation algorithm of medical exercise rehabilitation image based on HFCNN and IoT | |
CN104766085B (zh) | 一种多尺度图形识别方法 | |
CN109614952B (zh) | 一种基于瀑布图的目标信号检测识别方法 | |
CN111507992A (zh) | 一种基于内外应力的低分化腺体分割方法 | |
CN110188757A (zh) | 基于重要性加权的肿瘤检测模型构建方法及构建系统 | |
Capitani et al. | ClusterFix: A Cluster-Based Debiasing Approach without Protected-Group Supervision |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |