CN116977325A - 一种融合注意力机制的3DV-Net肺结节检测方法 - Google Patents
一种融合注意力机制的3DV-Net肺结节检测方法 Download PDFInfo
- Publication number
- CN116977325A CN116977325A CN202311085874.7A CN202311085874A CN116977325A CN 116977325 A CN116977325 A CN 116977325A CN 202311085874 A CN202311085874 A CN 202311085874A CN 116977325 A CN116977325 A CN 116977325A
- Authority
- CN
- China
- Prior art keywords
- image
- stage
- lung
- attention
- steps
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 206010056342 Pulmonary mass Diseases 0.000 title claims abstract description 35
- 230000007246 mechanism Effects 0.000 title claims abstract description 32
- 238000001514 detection method Methods 0.000 title claims abstract description 24
- 238000012360 testing method Methods 0.000 claims abstract description 16
- 238000012795 verification Methods 0.000 claims abstract description 13
- 238000005070 sampling Methods 0.000 claims abstract description 9
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000000034 method Methods 0.000 claims description 34
- 210000004072 lung Anatomy 0.000 claims description 27
- 238000011176 pooling Methods 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 13
- 238000010586 diagram Methods 0.000 claims description 11
- 230000004927 fusion Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 230000006835 compression Effects 0.000 claims description 4
- 238000007906 compression Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000012952 Resampling Methods 0.000 claims description 3
- 101100108191 Vibrio parahaemolyticus serotype O3:K6 (strain RIMD 2210633) add gene Proteins 0.000 claims description 3
- 230000003213 activating effect Effects 0.000 claims description 3
- 238000002591 computed tomography Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 230000009191 jumping Effects 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 18
- 238000005516 engineering process Methods 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004195 computer-aided diagnosis Methods 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000003902 lesion Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 208000019693 Lung disease Diseases 0.000 description 1
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 208000017804 lesions in lung Diseases 0.000 description 1
- 201000005202 lung cancer Diseases 0.000 description 1
- 208000020816 lung neoplasm Diseases 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
- G06T7/62—Analysis of geometric attributes of area, perimeter, diameter or volume
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10072—Tomographic images
- G06T2207/10081—Computed x-ray tomography [CT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30061—Lung
- G06T2207/30064—Lung nodule
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Geometry (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Quality & Reliability (AREA)
- Apparatus For Radiation Diagnosis (AREA)
Abstract
本发明属于计算机视觉领域,且公开了一种融合注意力机制的3DV‑Net肺结节检测方法,包括如下步骤:步骤1:数据输入阶段;步骤2:数据预处理阶段;步骤3:下采样卷积阶段;步骤4:注意力机制阶段;步骤5:上采样卷积阶段;步骤6:分类输出阶段;步骤7:模型验证测试阶段。本发明解决了目前的肺结节检测算法存在的漏检误检问题,在肺结节检测方面提升了检测性能。
Description
技术领域
本发明属于计算机视觉领域,具体为一种融合注意力机制的3DV-Net肺结节检测方法。
背景技术
当今时代,计算机技术飞速发展,被广泛渗透于各行各业,尤其是在医学领域,计算机辅助诊断系统的应用备受关注。计算机辅助诊断系统在多个医学学科得到了广泛应用,并且在肺癌检测中发挥了重要作用。计算机辅助诊断系统充分结合医学影像学、模式识别、机器学习和人工智能等一系列科技前沿技术,能够快速而准确地识别肺部CT图像中的可疑病灶,自动进行分割和特征提取,并通过对比大量的临床数据,对病变的形状、密度、纹理等特征进行分析综合,预测肺结节位置,将其结果作为最终诊断的参考,从而辅助医生在医学影像中准确定位肺结节并诊断肺部异常病变。有效的肺结节检测方法对于提供准确的诊断和个体化的治疗方案具有关键性作用。
3DV-Net是一种由编码器、解码器、跳跃连接和残差连接等组件组成的,用于三维医学图像分割的网络模型,它在U-Net的基础上进行了扩展改进,以处理三维数据。本发明模型通过对3DV-Net网络模型及进行改进,将输入特征图通过多层的卷积和反卷积等操作来提取图像特征并通过注意力机制进行加权,以实现准确的肺结节检测任务。本发明模型在3DV-Net网络模型的解码器部分,每一层的都使用三重卷积进行特征图处理,可以有效地提取多尺度特征、增加感受野、增强非线性能力,并在保持网络性能的同时减少参数数量。
编码器由3D卷积层、残差块、下采样层、和批归一化等组件组成,通过逐步提取特征和降低特征图的尺寸,实现对输入图像的高层次表示和语义理解。解码器由反卷积层、跳跃连接、残差连接和激活函数等组件组成,通过逐步上采样和特征提取来生成最终结果。编码器的设计可以帮助网络从输入中提取高层次抽象特征,并逐渐减小特征图尺寸,为解码器提供更多上下文信息,逐步恢复图像的细节信息,从而实现准确的图像分割。在这个过程中,由于层与层之间的信息传递限制,网络可能会丢失一些重要的细节信息,导致恢复图像质量下降,跳跃连接的引入有效地减轻梯度消失问题。跳跃连接在网络模型的不同层级建立直接连接,并将信息进行整合,使得网络能够同时捕捉到全局和局部的特征,从而提高对图像细节的恢复能力,有助于改善网络模型的性能和准确度。
残差连接(Residual Connections)通过引入跨层的直接连接,使得网络更容易地学习残差部分,即输入与输出之间的差异,能够保留高层特征图中的低分辨率信息。这种方法使网络更容易地进行训练和优化,能够在训练过程中学习到结节的微小变化和细微属性,从而更好地捕捉和表达结节的关键特征,提高了结节识别的敏感度和准确性。
注意力模型(Attention Model)是深度学习领域中广泛应用的重要模型。在深度学习中,注意力机制能够关注特定的元素,从而更好地处理复杂的任务,提高模型的性能和表现能力。
由于现有其他模型在面对复杂的肺部病变和多样化的影像特征时,仍然存在鲁棒性和泛化能力较低的问题,在临床上可能导致漏诊和误诊的情况。本发明模型对V-Net网络模型进行优化,在其基础上添加CBAM注意力机制以增强对肺部关键位置的特征提取,提出了一种融合注意力机制的三维V-Net肺结节检测模型。首先,构建3DV-Net网络模型用于肺结节的基础检测,将特征图输入到模型中,进行卷积下采样操作,减少数据的维度和采样率,对数据进行降维压缩,以便更高效地处理和分析数据。其次,通过引入综合考虑通道和空间信息的CBAM注意力机制来增强生成的图像特征质量。然后,将由注意力机制增强的特征图进行卷积上采样,恢复特征图信息并提高分辨率。最后,经过激活函数处理得到最终输出结果。
本发明解决了当前肺结节检测算法存在的漏检误检问题,在医学图像分析中的重要性和价值,为肺结节检测的自动化和精确性提供了有力支持。
发明内容
本发明的目的在于提供一种基融合注意力机制的3DV-Net肺结节检测方法,以解决上述背景技术中提出的问题。
为了实现上述目的,本发明提供如下技术方案:一种融合注意力机制的3DV-Net肺结节检测方法,包括如下步骤:
步骤1:数据输入阶段;
步骤2:数据预处理阶段;
步骤3:下采样卷积阶段;
步骤4:注意力机制阶段;
步骤5:上采样卷积阶段;
步骤6:分类输出阶段;
步骤7:模型验证测试阶段。
优选地,所述步骤1中的数据输入阶段,具体步骤为:
步骤1_1:该输入阶段主要对肺部CT图像进行数据筛选。共有888例不同患者的肺部CT图像数据,存储在subset0.zip至subset9.zip这10个文件中。每个CT扫描图像包含多个切片,需要将一些不含有重要信息的切片进行筛除,最终可以完整显示整个肺部区域;
步骤1_2:考虑一个带有N种数据的数据集
其中将80%作为训练数据,
将20%作为测试数据
优选地,所述步骤2中的预处理阶段,具体步骤为:
步骤2_1:根据肺部CT图像和结节标注数据.csv文件,以坐标为中心,直径为长,生成正方体区域,输出相应的结节掩膜;
步骤2_2:处理分析CT图像,并得到切片厚度和窗口宽度和位置,计算图像中符合阈值范围的像素点的比例,并获取图像的尺寸和像素间距信息;
步骤2_3:处理原始的肺部CT图像和结节掩膜数据,将其裁剪、重采样、扩展,并保存为训练数据,生成肺结节CT图像和掩膜;
步骤2_4:生成原始的肺部CT图像和结节掩膜的补丁(96,96,16),即肺结节子图像和子掩膜,并保存文件。
优选地,所述步骤3中的下采样卷积阶段,具体步骤为:
步骤3_1:将预处理阶段得到的大小为96×96×16的图像输入到3DV-Net网络模型的编码器,首先,将其进行卷积操作,得到一个大小不变通道数为16的特征图;
layer1=Conv(X,3×3×3,stride=1,padding=2)
其中,X为特征图输入参数,stride为滑动步长,padding为边界填充,Conv为卷积操作。
步骤3_2:将特征图与原输入残差连接后,进行下采样,使用卷积核大小为2×2×2,步长为2的卷积,将特征图大小减半。重复这个过程多次,每次卷积次数,但操作方式相同,直到获得一个大小为6×6×1,通道数为256的特征图。
add1=X+layer1
down1=Conv(add1,2×2×2,stride=2,padding=2)
优选地,所述步骤4中的注意力机制阶段,具体步骤为:
步骤4_1:将特征图F(H×W×C)输入到通道注意力模块,经过系列操作得到通道注意力权重MC(F),将其与F相乘得到F1。通过全局平均池化、全局最大池化处理输入图像,得到通道注意力权值(取值范围为0到1),和/>分别表示全局平均池化特征和全局最大池化特征:
其中,Fk表示输入特征的第k个通道,[]C表示C次运算,即在每个通道上进行操作。然后,将和/>这两个特征并行地前向传播到两个共享的全连接层。最后,使用元素求和操作将结果合并,并通过激活函数生成通道注意力特征图MC(F)为:
其中,σ定义为Sigmoid函数,FCS定义为共享的两层全连接层,W0和W1代表两个全连接层的权重,表示元素矩阵乘法,得到的通道注意力权重与输入特征F经过元素矩阵乘法,得到通道注意力特征F1。
步骤4_2:将F1输入到空间注意力模块中,得到空间注意力权重MS(F1),再将F1和MS(F1)相乘,得到最终特征图F2。F1可表示为一种空间切片方式其中,i∈[1,2,...,H]和j∈[1,2,...,W]。首先,对输入特征图在每一个特征点上进行最大值和平均值计算,同时应用平均池化和最大池化操作来生成两个映射:/>和/>分别表示通道上的平均池化特征和最大池化特征,计算为:
然后将结果堆叠组合,利用1x1卷积调整通道数,经过激活函数,输出权重值MS(F1)(取值范围为0到1),将其与输入特征图F1逐元素相乘,得到通过空间注意力加权后的特征图F2。
其中,σ定义为Sigmoid函数,Conv1×1表示滤波器大小为1x1的卷积运算。
优选地,所述步骤5中的下采样卷积阶段,具体步骤为:
步骤5_1:首先,将注意力模块的输出结果经过一次反卷积操作,使用卷积核大小为3×3×3,步长为2的卷积,得到大小为12×12×2,通道数为128的特征图;
步骤5_2:将特征图与压缩路径中相应层级的特征图进行跳跃连接,得到大小为12×12×2,通道为256的特征图,经过三次卷积操作,将其结果与反卷积操作结果相加,重复过程,直到得到大小为96×96×16,通道数为32的特征图;
步骤5_3:将步骤5_2中的特征图经过1×1×1卷积得到大小不变,通道数为1的特征图。
优选地,所述步骤6中的分类输出阶段,具体步骤为:
步骤6_1:将由上采样卷积得到的输出,输入到Sigmoid函数进行归一化,得到最终分割图像,计算公式如下:
其中,exp是自然指数函数,x是输入值。Sigmoid函数具有S形的曲线,单调递增,在两端变化速度较缓慢。
优选地,所述步骤7中的模型验证测试阶段,具体步骤为:
步骤7_1:训练集训练之后,使用测试集进行测试评估,用本发明采用性能指标进行验证,将验证结果的最佳值进行保留;
Dice函数是用于衡量两个集合的相似性常用的评估指标。Dice损失取Dice系数相反数,结果越接近-1,结果越准确。其中,A表示预测图像,B表示真实图像,|A|表示A的元素数量,|B|表示B的元素数量,|A∩B|表示即为A和B同为正样本的像素数量,smooth值为1e-5。
IOU是通过计算交集与并集的比值来量化预测结果,用于判定预测框和真实框之间的准确度。IOU越接近1,表示两个集合的重叠程度越高。A和B分别代表两个集合,|A∩B|表示集合A和B的交集的面积(或体积),|A∪B|表示集合A和B的并集的面积(或体积)。
步骤7_2:将当前最佳值保留之后,进行不断地迭代验证,直到将所有迭代次数进行完毕之后,将最优值进行保留;
步骤7_3:将所得到的性能指标结果进行输出,并与其他模型进行对比。
本发明的有益效果如下:
1、本发明通过对3DV-Net网络及进行改进,将输入特征图通过多层的卷积和反卷积等操作来提取图像特征并通过注意力机制进行加权,实现准确的肺结节检测任务,有效解决临床肺部疾病的漏检误检问题。
2、本发明在编码器及解码器的卷积层和反卷积层中添加了dropout层。由于神经元连接方式使得网络中的神经元高度依赖于彼此,容易导致过拟合问题,故引入了dropout技术,削弱神经元之间的相互影响,从而减少网络的参数依赖性。dropout将随机性和不确定性引入到网络模型,可以减少特定神经元对于特定输入的依赖,使网络更加灵活,进而提高模型的泛化能力。
3、本发明使用的是CBAM注意力机制,将通道注意力和空间注意力相结合,动态调整特征图的权重,并将它们整合到模型的不同层级,使得网络模型能够自适应地在不同的空间位置和通道上聚焦,从而提取出更具区分性的特征。CBAM机制能够增强对关键目标的感知和区分能力,提取更全面、更准确、更可靠的特征表示,改善模型的性能。
附图说明
图1为本发明的流程图;
图2为本发明的方法流程图;
图3为本发明的具体执行图。
图4为本发明的模型架构图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1至图4所示,本发明实施例提供了一种融合注意力机制的3DV-Net肺结节检测方法,包括如下步骤:
步骤1:数据输入阶段;
步骤2:预处理阶段;
步骤3:下采样卷积阶段;
步骤4:注意力机制阶段;
步骤5:下采样卷积阶段;
步骤6:分类输出阶段;
步骤7:模型验证测试阶段。
在一个实施例中所述步骤1中的数据输入阶段,具体步骤为:
步骤1_1:该输入阶段主要对肺部CT图像进行数据筛选。共有888例不同患者的肺部CT图像数据,存储在subset0.zip至subset9.zip这10个文件中。每个CT扫描图像包含多个切片,需要将一些不含有重要信息的切片进行筛除,最终可以完整显示整个肺部区域;
步骤1_2:考虑一个带有N种数据的数据集
其中将80%作为训练数据,
将20%作为测试数据
在一个实施例中所述步骤2中的预处理阶段,具体步骤为:
步骤2_1:根据肺部CT图像和结节标注数据.csv文件,以坐标为中心,直径为长,生成正方体区域,输出相应的结节掩膜;
步骤2_2:处理分析CT图像,并得到切片厚度和窗口宽度和位置,计算图像中符合阈值范围的像素点的比例,并获取图像的尺寸和像素间距信息;
步骤2_3:处理原始的肺部CT图像和结节掩膜数据,将其裁剪、重采样、扩展,并保存为训练数据,生成肺结节CT图像和掩膜;
步骤2_4:生成原始的肺部CT图像和结节掩膜的补丁(96,96,16),即肺结节子图像和子掩膜,并保存文件。
在一个实施例中所述步骤3中的下采样卷积阶段,具体步骤为:
步骤3_1:将预处理阶段得到的大小为96×96×16的图像输入到3DV-Net网络模型的编码器,首先,将其进行卷积操作,得到一个大小不变通道数为16的特征图;
layer1=Conv(X,3×3×3,stride=1,padding=2)
其中,X为特征图输入参数,stride为滑动步长,padding为边界填充,Conv为卷积操作。
步骤3_2:将特征图与原输入残差连接后,进行下采样,使用卷积核大小为2×2×2,步长为2的卷积,将特征图大小减半。重复这个过程多次,每次卷积次数,但操作方式相同,直到获得一个大小为6×6×1,通道数为256的特征图。
add1=X+layer1
down1=Conv(add1,2×2×2,stride=2,padding=2)
在一个实施例中所述步骤4中的注意力机制阶段,具体步骤为:
步骤4_1:将特征图F(H×W×C)输入到通道注意力模块,经过系列操作得到通道注意力权重MC(F),将其与F相乘得到F1。通过全局平均池化、全局最大池化处理输入图像,得到通道注意力权值(取值范围为0到1),和/>分别表示全局平均池化特征和全局最大池化特征:
其中,Fk表示输入特征的第k个通道,[]C表示C次运算,即在每个通道上进行操作。然后,将和/>这两个特征并行地前向传播到两个共享的全连接层。最后,使用元素求和操作将结果合并,并通过激活函数生成通道注意力特征图MC(F)为:
其中,σ定义为Sigmoid函数,FCS定义为共享的两层全连接层,W0和W1代表两个全连接层的权重,表示元素矩阵乘法,得到的通道注意力权重与输入特征F经过元素矩阵乘法,得到通道注意力特征F1。
步骤4_2:将F1输入到空间注意力模块中,得到空间注意力权重MS(F1),再将F1和MS(F1)相乘,得到最终特征图F2。F1可表示为一种空间切片方式其中,i∈[1,2,...,H]和j∈[1,2,...,W]。首先,对输入特征图在每一个特征点上进行最大值和平均值计算,同时应用平均池化和最大池化操作来生成两个映射:/>和/>分别表示通道上的平均池化特征和最大池化特征,计算为:
然后将结果堆叠组合,利用1x1卷积调整通道数,经过激活函数,输出权重值MS(F1)(取值范围为0到1),将其与输入特征图F1逐元素相乘,得到通过空间注意力加权后的特征图F2。
其中,σ定义为Sigmoid函数,Conv1×1表示滤波器大小为1x1的卷积运算。
在一个实施例中所述步骤5中的下采样卷积阶段,具体步骤为:
步骤5_1:首先,将注意力模块的输出结果经过一次反卷积操作,使用卷积核大小为3×3×3,步长为2的卷积,得到大小为12×12×2,通道数为128的特征图;
步骤5_2:将特征图与压缩路径中相应层级的特征图进行跳跃连接,得到大小为12×12×2,通道为256的特征图,经过三次卷积操作,将其结果与反卷积操作结果相加,重复过程,直到得到大小为96×96×16,通道数为32的特征图;
步骤5_3:将步骤5_2中的特征图经过1×1×1卷积得到大小不变,通道数为1的特征图。
在一个实施例中所述步骤6中的分类输出阶段,具体步骤为:
步骤6_1:将由上采样卷积得到的输出,输入到Sigmoid函数进行归一化,得到最终分割图像,计算公式如下:
其中,exp是自然指数函数,x是输入值。Sigmoid函数具有S形的曲线,单调递增,在两端变化速度较缓慢。
在一个实施例中所述步骤7中的模型验证测试阶段,具体步骤为:
步骤7_1:训练集训练之后,使用测试集进行测试评估,用本发明采用性能指标进行验证,将验证结果的最佳值进行保留;
Dice函数是用于衡量两个集合的相似性常用的评估指标。Dice损失取Dice系数相反数,结果越接近-1,结果越准确。其中,A表示预测图像,B表示真实图像,|A|表示A的元素数量,|B|表示B的元素数量,|A∩B|表示即为A和B同为正样本的像素数量,smooth值为1e-5。
IOU是通过计算交集与并集的比值来量化预测结果,用于判定预测框和真实框之间的准确度。IOU越接近1,表示两个集合的重叠程度越高。A和B分别代表两个集合,|A∩B|表示集合A和B的交集的面积(或体积),|A∪B|表示集合A和B的并集的面积(或体积)。
步骤7_2:将当前最佳值保留之后,进行不断地迭代验证,直到将所有迭代次数进行完毕之后,将最优值进行保留;
步骤7_3:将所得到的性能指标结果进行输出,并与其他模型进行对比。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (8)
1.融合注意力机制的3DV-Net肺结节检测方法,其特征在于:在3DV-Net网络模型检测的基础上,引入综合考虑通道和空间信息的CBAM注意力机制来增强生成的图像特征质量,包括如下步骤:
步骤1:数据输入阶段;
步骤2:数据预处理阶段;
步骤3:下采样卷积阶段;
步骤4:注意力机制阶段;
步骤5:上采样卷积阶段;
步骤6:分类输出阶段;
步骤7:模型验证测试阶段。
2.根据权利要求1所述的一种融合注意力机制的3DV-Net肺结节检测方法,其特征在于:所述步骤1中的数据输入阶段,具体步骤为:
步骤1_1:该输入阶段主要对肺部CT图像进行数据筛选。共有888例不同患者的肺部CT图像数据,存储在subset0.zip至subset9.zip这10个文件中。每个CT扫描图像包含多个切片,需要将一些不含有重要信息的切片进行筛除,最终可以完整显示整个肺部区域;
步骤1_2:考虑一个带有N种数据的数据集
其中将80%作为训练数据,
将20%作为测试数据
3.根据权利要求1所述的一种融合注意力机制的3DV-Net肺结节检测方法,其特征在于:所述步骤2中的数据预处理阶段,具体步骤为:
步骤2_1:根据肺部CT图像和结节标注数据.csv文件,以坐标为中心,直径为长,生成正方体区域,输出相应的结节掩膜;
步骤2_2:处理分析CT图像,并得到切片厚度和窗口宽度和位置,计算图像中符合阈值范围的像素点的比例,并获取图像的尺寸和像素间距信息;
步骤2_3:处理原始的肺部CT图像和结节掩膜数据,将其裁剪、重采样、扩展,并保存为训练数据,生成肺结节CT图像和掩膜;
步骤2_4:生成原始的肺部CT图像和结节掩膜的补丁(96,96,16),即肺结节子图像和子掩膜,并保存文件。
4.根据权利要求1所述的一种融合注意力机制的3DV-Net肺结节检测方法,其特征在于:所述步骤3中的下采样卷积阶段,具体步骤为:
步骤3_1:将预处理阶段得到的大小为96×96×16的图像输入到3DV-Net网络模型的编码器,首先,将其进行卷积操作,得到一个大小不变通道数为16的特征图;
layer1=Conv(X,3×3×3,stride=1,padding=2)
其中,X为特征图输入参数,stride为滑动步长,padding为边界填充,Conv为卷积操作。
步骤3_2:将特征图与原输入残差连接后,进行下采样,使用卷积核大小为2×2×2,步长为2的卷积,将特征图大小减半。重复这个过程多次,每次卷积次数,但操作方式相同,直到获得一个大小为6×6×1,通道数为256的特征图。
add1=X+layer1
down1=Conv(add1,2×2×2,stride=2,padding=2)。
5.根据权利要求1所述的一种融合注意力机制的3DV-Net肺结节检测方法,其特征在于:所述步骤4中的注意力机制阶段,具体步骤为:
步骤4_1:将特征图F(H×W×C)输入到通道注意力模块,经过系列操作得到通道注意力权重MC(F),将其与F相乘得到F1。通过全局平均池化、全局最大池化处理输入图像,得到通道注意力权值(取值范围为0到1),和/>分别表示全局平均池化特征和全局最大池化特征:
其中,Fk表示输入特征的第k个通道,[]C表示C次运算,即在每个通道上进行操作。然后,将和/>这两个特征并行地前向传播到两个共享的全连接层。最后,使用元素求和操作将结果合并,并通过激活函数生成通道注意力特征图MC(F)为:
其中,σ定义为Sigmoid函数,FCS定义为共享的两层全连接层,W0和W1代表两个全连接层的权重,表示元素矩阵乘法,得到的通道注意力权重与输入特征F经过元素矩阵乘法,得到通道注意力特征F1。
步骤4_2:将F1输入到空间注意力模块中,得到空间注意力权重MS(F1),再将F1和MS(F1)相乘,得到最终特征图F2。F1可表示为一种空间切片方式其中,i∈[1,2,...,H]和j∈[1,2,...,W]。首先,对输入特征图在每一个特征点上进行最大值和平均值计算,同时应用平均池化和最大池化操作来生成两个映射:/>和/>分别表示通道上的平均池化特征和最大池化特征,计算为:
然后将结果堆叠组合,利用1x1卷积调整通道数,经过激活函数,输出权重值MS(F1)(取值范围为0到1),将其与输入特征图F1逐元素相乘,得到通过空间注意力加权后的特征图F2。
其中,σ定义为Sigmoid函数,Conv1×1表示滤波器大小为1x1的卷积运算。
6.根据权利要求1所述的一种融合注意力机制的3DV-Net肺结节检测方法,其特征在于:所述步骤5中的上采样卷积阶段,具体步骤为:
步骤5_1:首先,将注意力模块的输出结果经过一次反卷积操作,使用卷积核大小为3×3×3,步长为2的卷积,得到大小为12×12×2,通道数为128的特征图;
步骤5_2:将特征图与压缩路径中相应层级的特征图进行跳跃连接,得到大小为12×12×2,通道为256的特征图,经过三次卷积操作,将其结果与反卷积操作结果相加,重复过程,直到得到大小为96×96×16,通道数为32的特征图;
步骤5_3:将步骤5_2中的特征图经过1×1×1卷积得到大小不变,通道数为1的特征图。
7.根据权利要求1所述的一种融合注意力机制的3DV-Net肺结节检测方法,其特征在于:所述步骤6中的分类输出阶段,具体步骤为:
步骤6_1:将由上采样卷积得到的输出,输入到Sigmoid函数进行归一化,得到最终分割图像,计算公式如下:
其中,exp是自然指数函数,x是输入值。Sigmoid函数具有S形的曲线,单调递增,在两端变化速度较缓慢。
8.根据权利要求1所述的一种融合注意力机制的3DV-Net肺结节检测方法,其特征在于:所述步骤7中的模型验证测试阶段,具体步骤为:
步骤7_1:训练集训练之后,使用测试集进行测试评估,本发明采用性能指标进行验证,保留验证结果的最佳值;
Dice函数是用于衡量两个集合的相似性常用的评估指标。Dice损失取Dice系数相反数,结果越接近-1,结果越准确。其中,A表示预测图像,B表示真实图像,|A|表示A的元素数量,|B|表示B的元素数量,|A∩B|表示即为A和B同为正样本的像素数量,smooth值为1e-5。
IOU是通过计算交集与并集的比值来量化预测结果,用于判定预测框和真实框之间的准确度。IOU越接近1,表示两个集合的重叠程度越高。A和B分别代表两个集合,|A∩B|表示集合A和B的交集的面积(或体积),|A∪B|表示集合A和B的并集的面积(或体积)。
步骤7_2:将当前最佳值保留之后,进行不断地迭代验证,直到将所有迭代次数进行完毕之后,将最优值进行保留;
步骤7_3:将所得到的性能指标结果进行输出,并与其他模型进行对比。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311085874.7A CN116977325A (zh) | 2023-08-27 | 2023-08-27 | 一种融合注意力机制的3DV-Net肺结节检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311085874.7A CN116977325A (zh) | 2023-08-27 | 2023-08-27 | 一种融合注意力机制的3DV-Net肺结节检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116977325A true CN116977325A (zh) | 2023-10-31 |
Family
ID=88483243
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311085874.7A Pending CN116977325A (zh) | 2023-08-27 | 2023-08-27 | 一种融合注意力机制的3DV-Net肺结节检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116977325A (zh) |
-
2023
- 2023-08-27 CN CN202311085874.7A patent/CN116977325A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2019213369B2 (en) | Non-local memory network for semi-supervised video object segmentation | |
Ayalew et al. | Detection and classification of COVID-19 disease from X-ray images using convolutional neural networks and histogram of oriented gradients | |
CN112288011B (zh) | 一种基于自注意力深度神经网络的图像匹配方法 | |
CN112801169B (zh) | 一种基于改进yolo算法的伪装目标检测方法、系统、装置及存储介质 | |
CN115018824A (zh) | 一种基于CNN和Transformer融合的结肠镜息肉图像分割方法 | |
CN110930378B (zh) | 基于低数据需求的肺气肿影像处理方法及系统 | |
CN114170184A (zh) | 一种基于嵌入特征向量的产品图像异常检测方法及装置 | |
CN114445715A (zh) | 一种基于卷积神经网络的农作物病害识别方法 | |
CN114022462A (zh) | 实现多参数核磁共振图像病灶分割的方法、系统、装置、处理器及其计算机可读存储介质 | |
CN115797929A (zh) | 基于双注意力机制的小型农田图像分割方法、装置 | |
CN117015796A (zh) | 处理组织图像的方法和用于处理组织图像的系统 | |
CN113421240A (zh) | 一种基于超声自动乳腺全容积成像的乳腺分类方法及装置 | |
CN113838067A (zh) | 肺结节的分割方法和装置、计算设备、可存储介质 | |
CN117710760B (zh) | 残差的注意神经网络用于胸部x线病灶检测的方法 | |
CN114445356A (zh) | 基于多分辨率的全视野病理切片图像肿瘤快速定位方法 | |
CN116935044B (zh) | 一种多尺度引导和多层次监督的内镜息肉分割方法 | |
CN113850796A (zh) | 基于ct数据的肺部疾病识别方法及装置、介质和电子设备 | |
CN113592769A (zh) | 异常图像的检测、模型的训练方法、装置、设备及介质 | |
CN116563285A (zh) | 一种基于全神经网络的病灶特征识别与分割方法及系统 | |
CN110414562B (zh) | X光片的分类方法、装置、终端及存储介质 | |
CN112488996A (zh) | 非齐次三维食管癌能谱ct弱监督自动标注方法与系统 | |
CN116258877A (zh) | 土地利用场景相似度变化检测方法、装置、介质及设备 | |
Adegun et al. | Deep convolutional network-based framework for melanoma lesion detection and segmentation | |
CN116977325A (zh) | 一种融合注意力机制的3DV-Net肺结节检测方法 | |
CN114649092A (zh) | 基于半监督学习和多尺度特征融合的辅助诊断方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |