CN116091490A - 一种基于YOLOv4-CA-CBAM-K-means++-SIOU的肺结节检测方法 - Google Patents
一种基于YOLOv4-CA-CBAM-K-means++-SIOU的肺结节检测方法 Download PDFInfo
- Publication number
- CN116091490A CN116091490A CN202310251319.0A CN202310251319A CN116091490A CN 116091490 A CN116091490 A CN 116091490A CN 202310251319 A CN202310251319 A CN 202310251319A CN 116091490 A CN116091490 A CN 116091490A
- Authority
- CN
- China
- Prior art keywords
- detection
- feature
- yolov4
- siou
- lung
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 146
- 206010056342 Pulmonary mass Diseases 0.000 title claims abstract description 97
- 230000007246 mechanism Effects 0.000 claims abstract description 49
- 238000000034 method Methods 0.000 claims abstract description 38
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 35
- 238000000605 extraction Methods 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 25
- 238000005070 sampling Methods 0.000 claims abstract description 24
- 238000004364 calculation method Methods 0.000 claims abstract description 23
- 230000008569 process Effects 0.000 claims abstract description 17
- 210000004072 lung Anatomy 0.000 claims abstract description 11
- 238000005516 engineering process Methods 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 76
- 238000011176 pooling Methods 0.000 claims description 45
- 238000010586 diagram Methods 0.000 claims description 17
- 230000004913 activation Effects 0.000 claims description 14
- 238000005457 optimization Methods 0.000 claims description 12
- 230000003014 reinforcing effect Effects 0.000 claims description 8
- 230000004927 fusion Effects 0.000 claims description 7
- 230000002708 enhancing effect Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 230000007547 defect Effects 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000001174 ascending effect Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 210000005036 nerve Anatomy 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 238000000844 transformation Methods 0.000 claims description 3
- 238000012512 characterization method Methods 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 claims description 2
- 238000012795 verification Methods 0.000 claims description 2
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 4
- 201000005202 lung cancer Diseases 0.000 description 4
- 208000020816 lung neoplasm Diseases 0.000 description 4
- 238000007667 floating Methods 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000002591 computed tomography Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000012014 frustrated Lewis pair Substances 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 229910052582 BN Inorganic materials 0.000 description 1
- PZNSFCLAULLKQX-UHFFFAOYSA-N Boron nitride Chemical compound N#B PZNSFCLAULLKQX-UHFFFAOYSA-N 0.000 description 1
- 241000764238 Isis Species 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 230000002939 deleterious effect Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002685 pulmonary effect Effects 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
- G06V10/763—Non-hierarchical techniques, e.g. based on statistics of modelling distributions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10072—Tomographic images
- G06T2207/10081—Computed x-ray tomography [CT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30061—Lung
- G06T2207/30064—Lung nodule
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本发明公开了一种基于YOLOv4‑CA‑CBAM‑K‑means++‑SIOU的肺结节检测方法。采集公开肺部图像数据集LUNA16并进行处理;通过引入CA注意力机制,辅助检测网络捕获结节的位置信息和空间信息,这使得模型更准确地定位到感兴趣区域的目标,提升对肺结节的检测精度;通过引入CBAM注意力机制,辅助检测网络捕获在上采样和下采样过程中丢失的特征信息,以及提升检测网络特征提取能力;通过采用K‑means++聚类算法针对肺结节进行锚框优化,降低了漏检的概率;通过采用SIoU损失函数替换YOLOv4中的CIoU损失函数,SIoU损失函数相比于CIoU损失函数多考虑了两框之间的角度问题,提高了训练收敛的速度和检测精度。本发明将以上技术进行结合,实现了精准、快速、模型的计算复杂度低和计算资源消耗较小的肺结节检测。
Description
技术领域
本发明涉及医学图像处理领域,具体涉及一种针对肺结节检测精度偏低、易错检及漏检、模型计算复杂度较高情况下的一种基于YOLOv4-CA-CBAM-K-means++-SIOU的肺结节检测方法,适用于肺结节检测。
背景技术
在计算机断层扫描(Computed Tomography,CT)成像上,早期肺癌表现为直径小于30mm的圆形或类圆形致密影,即肺结节。定期使用CT筛查高危人群可降低肺癌患者的死亡率,由于肺癌高危人群众多,无论是否有第二位读者的协助,定期筛查都可能给放射科医生和临床工作人员带来巨大的工作流程和工作量挑战,癌症诊断错误是最昂贵和最有害的诊断错误类型。相反,计算机辅助检测(CAD,computer aided detection))系统能通过减少阅读时间或充当第二阅读器来帮助放射科医生进行肺癌筛查。其中肺CAD系统中的肺结节检测是至关重要的步骤,它能够为医生提供第三方检测辅助意见,有效降低漏检和误检的风险。
基于CT图像检测肺结节的技术主要包括传统检测技术和基于深度学习技术。传统肺结节检测技术主要采用人工捕捉肺结节特征信息进行训练,存在步骤繁琐、速度慢、准确率低的缺点。随着深度学习技术在目标检测中得到了广泛的应用,其中基于回归分析的单阶段检测算法算法可以一步完成目标的定位和分类,实现端到端的检测。但是目前的肺结节检测技术仍面临着多个挑战,例如上采样(Upsample)和下采样(Downsample)可能会导致关键特征信息的丢失、难以精确捕捉结节的位置特征、以及损失函数需要优化等问题。这些因素综合起来,都可能导致肺结节检测精度不高。
发明内容
为了解决现有技术的上述问题,本发明在YOLOv4中插入坐标注意力机制(CA,Coordinate Attention)捕捉肺结节的位置信息,插入卷积块注意力机制模块(CBAM,Convolutional Block Attention Module)捕捉肺结节的特征信息,并采用K-means++聚类算法对目标进行锚框优化,使用三个聚类中心替换原来的九个聚类中心生成更适合LUNA16数据集肺结节检测的锚点框,最后采用SIoU损失函数优化损失函数,从而提高YOLOv4对肺结节的检测能力,提供了一种基于YOLOv4-CA-CBAM-K-means++-SIOU的肺结节检方法。
所述技术方案如下:
步骤1. 数据集的获取:
获取肺部CT图像数据,来源于公开数据集LUNA16;
步骤2. 数据集的处理:
将LUNA16数据集处理为VOC格式的数据集并进行肺实质分割以供后续检测网络使用,最后将LUNA16数据集中的1186张图像随机打散,并按照训练集:测试集:验证集为8:1:1进行划分;
步骤3. CSPDarknet53特征提取网络提取原始图像特征:
将原始图像输入到YOLOv4中,经过CSPDarknet53骨干网络(Backbone)提取图像的有效特征;
步骤4. YOLOv4检测框架中结合CA注意力机制:
在YOLOv4检测框架的CSPDarknet53-Conv3后引入CA注意力机制,捕捉肺结节的位置信息;
步骤5. 颈部(Neck)网络进行加强特征提取及特征融合:
在颈部网络中使用空间金字塔池化(SPP,Spatial Pyramid Pooling Network)在特征图上进行不同大小的池化操作,扩大感受野,捕获不同尺度的信息,从而增强网络对目标的感知能力,以及使用路径聚合网络(PANet,Path Aggregation Network)将来自骨干网络的不同尺度的特征图进行特征融合;
步骤6. YOLOv4检测框架中结合CBAM注意力机制:
在YOLOv4检测框架中CSPDarknet53骨干网络输出的三个有效特征层后及颈部加强特征提取网络中上采样和下采样后加入CBAM注意力机制减少特征信息丢失,捕捉肺结节的特征信息;
步骤7. 运用K-means++聚类算法进行锚框优化:
在LUNA16训练集上采用K-means++聚类算法进行锚框优化,使用三个聚类中心替换原来的九个聚类中心生成更适合LUNA16数据集肺结节检测的锚点框;
步骤8. 损失函数的优化:
在YOLOv4中引入新的边界框回归损失函数SIoU损失函数替换原来的CIoU损失函数,提高训练的收敛速度和推理的准确性;
步骤9. 肺结节检测:
在YOLOv4中头部检测网络中,有三个不同尺度的检测头(YOLO Head),分别用于检测小、中、大尺度的目标,这些检测头的作用是生成目标检测的输出结果,包括预测框的坐标和类别概率,从而完成肺结节的检测。
可选地,所述步骤4的具体操作过程如下:
S1)为了使注意力模块能够捕捉具有精确位置信息的远程空间交互,我们将全局池化操作分解为一对特征编码操作,全局池化表达式如下
其中,和是特征图的高和宽,为输入特征向量;
S2) 给定输入 ,首先使用尺寸为或 的池化核分别沿着水平坐标和垂直坐标对每个通道进行编码;
S3) 得到高度为的第个通道的输出表达式如下:
其中,是特征图的宽,为输入特征向量;
S4) 宽度为的第个通道的输出表达式如下:
其中,是特征图的宽,为输入特征向量;
S5) 上述两种变换分别沿两个空间方向聚合特征,得到一对方向感知的特征图,对其进行连接操作,再采用卷积将其通道数以收缩率从压缩至,并使用ReLU函数进行非线性激活,表达式如下:
f=\delta \left ( {{F}_{1}\left ( \left [ {{z}^{h},{z}^{w}} \right ] \right )} \right )
式中,是在水平方向和垂直方向对空间信息进行编码的中间特征图,是ReLU激活函数,是卷积变换函数;
S6) 将获取到的结果沿着空间维数分解为的张量和的张量,之后,再使用的卷积将通道数从升至,并使用sigmoid函数进行非线性激活,表达式如下:
式中,是sigmoid激活函数,,,和是卷积变换分别用于转换和为与输入一样通道的张量,与分别表示两个坐标轴上的注意力特征图,与分别展开用作注意权重;
S7) CA注意力机制的最终输出表达式如下:
式中,和分别表示输入特征和输出特征的特征向量;
S8) 本发明将即插即用的CA注意力机制添加到 YOLOv4检测框架的CSPDarknet53-Conv3后,以精准捕捉肺结节的位置信息。
可选地,所述步骤6的具体操作过程如下:
S1) 将特征图输入到通道注意力模块, 分别进行最大池化和平均池化,得到两个的特征图;
S2) 将得到的两个通道特征分别输入到多层感知机(Multilayer Perceptron,MLP)中,第一层神经元个数为,为下降率,激活函数为ReLU,第二层神经单元个数为,这两个层的神经网络是共享的,完成后将结果相加,后经过Sigmoid函数,得到通道注意力特征图,表达式如下:
式中, 表示Sigmoid函数;表示全局平均池化;表示最大池化;;;表示的平均池化特征;表示的最大池化特征;
S3) 将通道注意力特征图与输入特征图做乘法操作,得到融合后的特征图,表达式如下:
式中,表示element-wise乘法操作(两个特征图对应值直接相乘);
S4) 将得到的特征图输入到空间注意力机制模块中,首先,在通道轴上应用平均池化和最大池化操作得到两个的特征图,再进行Concatenation操作得到一个有效的特征层,再通过一个的卷积层和Sigmoid函数生成大小为的空间特征注意力图,表达式如下:
{M}_{S}\left ( {F} \right )=\sigma \left ( {{f}^{7\times 7}\left ( \left [ {AvgPool\left ( {F} \right );MaxPool\left ( {F} \right )} \right ] \right )} \right )=\sigma \left ( {{f}^{7\times 7}\left ( \left [ {{F}^{S}_{avg};{F}^{S}_{max}} \right ] \right )} \right )
式中,表示Sigmoid函数;表示全局平均池化;表示最大池化;是大小为的平均池化特征,是大小为的最大池化特征,表示卷积核为的卷积;
S5) 最后将得到的空间特征注意力图和输入特征图进行乘法操作,得到缩放后的特征图,即CBAM注意力机制最终输出表达式如下:
式中,表示element-wise乘法操作,两个特征图对应值直接相乘;
S6) 本发明在YOLOv4检测框架中CSPDarknet53骨干网络输出的三个有效特征层后及颈部加强特征提取网络中上采样和下采样后加入即插即用的CBAM注意力机制减少特征信息丢失,捕捉肺结节的特征信息。
可选地,步骤7的具体过程如下:
S1) 输入训练集中所有目标框的宽高集合及聚类中心数,从中随机选取一个样本作为初始聚类中心;
S2) 计算中每个样本与当前已有聚类中心之间的最短距离,即与最近一个聚类中心的距离,用表示,接着计算每个样本被选为下一个聚类中心的概率,选取下一个聚类中心;
S3) 重复步骤S2),直到找到个聚类中心;
S4) 对数据集中的每个样本,计算到个聚类中心的距离并将其分到距离最小的聚类中心所对应的类中;
S5) 针对每个类别,重新计算它的聚类中心;
S6) 重复步骤S4) 和S5) ,直到聚类中心的位置不再变化,输出最终的聚类中心;
S7) 通过K-means++聚类算法,最终生成3个适合LUNA16数据集的锚框,分别为。
可选地,所述步骤8的具体操作过程如下:
S1) 计算角度损失,添加这种角度感知LF组件的想法是为了最大限度地减少与距离相关未知变量的数量。模型首先尝试在轴和轴做预测,以最接近的为准,然后沿着相关轴继续接近。为了实现这一点,如果,收敛过程将尝试最小化,否则最小化,LF组件被引入并定义如下:
,
,
,
,
式中,为真实框中心坐标,为预测框中心坐标;
S2) 计算距离损失,考虑到上面定义的角度损失,重新定义了距离损失:
,
,,,
式中,为真实框和预测框的最小外接矩形的宽和高;
S3) 计算形状损失,定义如下:
其中和分别为预测框和真实框的宽高,的值控制对形状损失的关注程度,这里;
S4) 计算IoU损失,定义如下:
S5) 最终计算SIoU损失函数,定义如下:
其中为SIoU损失,为损失,为距离损失,为形状损失;
S6) 本发明用SIoU损失函数替换YOLOv4中的CIoU损失函数;
本发明提供的技术方案带来的有益效果是:
本发明提出了一种基于YOLOv4-CA-CBAM-K-means++-SIOU的肺结节检测方法,将CA注意力结合到YOLOv4检测框架的CSPDarknet53-Conv3后,提升了YOLO-V4的CSPDarknet53骨干网络特征提取能力,以及为了更好的捕捉结节的位置信息和空间信息,这使得模型更准确地定位到感兴趣区域的目标,提升对肺结节的检测精度,降低漏检的概率。再将CBAM注意力机制结合到YOLOv4检测框架中CSPDarknet53骨干网络输出的三个有效特征层及颈部加强特征提取网络中上采样和下采样后,辅助检测网络捕获在上采样和下采样过程中丢失的特征信息,以及更好的捕捉肺结节的特征信息,提升对肺结节的检测精度。针对LUNA16数据集类别单一、目标较小,采用K-means++聚类算法针对肺结节进行锚框优化,使用三个聚类中心替换原来的九个聚类中心,这样对小目标肺结节聚类效果较优,解决了因为锚框的尺寸与检测肺结节的尺寸差距过大而导致锚框正样本数偏少产生漏检概率增加的问题,降低了漏检的概率和计算复杂度。最后,用SIoU损失函数替换YOLOv4中的CIoU损失函数,SIoU损失函数相比于CIoU损失函数除了考虑真实框和预测框重叠区域、距离、和长宽,还多考虑了两框之间的角度问题,这种添加极大地优化了训练过程,它使得预测框相当快地移动到最近的轴,有效地减少了预测框的自由度,提高了训练收敛的速度和检测精度。本发明将以上技术进行结合,实现了精准、快速、模型的计算复杂度和计算资源消耗较小的肺结节检测。
下面结合附图说明和具体实施方式对本发明进行进一步说明。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的一种基于YOLOv4-CA-CBAM-K-means++-SIOU算法用于肺结节检测的实施流程图;
图2是本发明实例的CA注意力机制结构示意图;
图3是本发明实例的CBAM注意力机制中通道注意力机制结构示意图;
图4是本发明实例的CBAM注意力机制中空间注意力机制结构示意图;
图5是本发明实例的CBAM注意力机制结构示意图;
图6是本发明实例的SIoU损失函数的角度损失计算过程图;
图7是本发明实例的SIoU损失函数预测框和真实框之间的距离计算过程图;
图8是本发明实例的SIoU损失函数的IoU组件贡献关系示意图;
图9 是本发明实例的一种基于YOLOv4-CA-CBAM-K-means++-SIOU算法的肺结节检测框架图;
图10 是本发明实例的一种基于YOLOv4-CA-CBAM-K-means++-SIOU算法的肺结节检测结果图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本发明提供了一种基于YOLOv4-CA-CBAM-K-means++-SIOU的肺结节检测方法,检测的具体实施流程参见图1,包括:
S1:数据集的获取。获取肺部CT图像的数据集,本发明的实验采用公开数据集LIDC-IDRI数据集的子集LUNA16;
S2:数据集的处理。在肺结节检测中,肺结节只存在于肺实质内部并不需要肺实质以外的部分,故进行肺实质分割,然后将数据集处理为VOC格式的数据集以供YOLOv4检测框架读取。最后将LUNA16数据集中的1186张图像随机打散,并按照训练集:测试集:验证集为8:1:1进行划分;
S3: CSPDarknet53特征提取网络提取原始图像特征。将原始图像输入到YOLOv4中,经过CSPDarknet53骨干网络提取图像的有效特征;
S4:YOLOv4检测框架中结合CA注意力机制。在YOLOv4检测框架的CSPDarknet53-Conv3后引入CA注意力机制,加强骨干网络的特征提取能力,捕捉捕捉肺结节的位置信息;
S5:颈部网络进行加强特征提取与特征融合。在颈部网络中使用SPP通过在不同尺度上执行池化操作,增加了感受野,可以生成固定大小的特征图,并且可以处理不同大小的输入图像,从而避免了目标检测中的尺度问题,从而更好地捕捉目标的上下文信息。以及使用PANet将来自骨干网络的不同尺度的特征图进行特征融合,从而增强检测模型的表征能力和检测精度;
S6:YOLOv4检测框架中结合CBAM注意力机制。在YOLOv4检测框架中CSPDarknet53骨干网络输出的三个有效特征层后及颈部加强特征提取网络中上采样和下采样后加入CBAM注意力机制,减少上采样及下采样肺结节特征信息丢失,捕捉肺结节的特征信息,加强网络特征提取能力;
S7:运用K-means++聚类算法进行锚框优化。在肺结节检测过程中,由于LUNA16数据集类别单一、目标较小,故在LUNA16训练集上采用K-means++聚类算法进行锚框优化,使用三个聚类中心替换原来的九个聚类中心生成更适合LUNA16数据集肺结节检测的锚点框;
S8:损失函数的优化。在YOLOv4中引入新的边界框回归损失函数SIoU损失函数替换原来的CIoU损失函数,提高训练的收敛速度和推理的准确性;
S9: 肺结节检测。在YOLOv4中头部(Head)检测网络中,有三个不同尺度的检测头,分别用于检测小、中、大尺度的目标,这些检测头的作用是对预测结果进行筛选和调整以及生成目标检测的输出结果,包括预测框的坐标和类别概率,从而完成目标检测的任务;
具体地,所述基于YOLOv4-CA-CBAM-K-means++-SIOU的肺结节检测方法具体为:将CA注意力结合到YOLOv4检测框架的CSPDarknet53-Conv3后,辅助网络更好的捕捉结节的位置信息和空间信息。再将CBAM注意力机制结合到YOLOv4检测框架中CSPDarknet53骨干网络输出的三个有效特征层及颈部加强特征提取网络中上采样和下采样后,辅助网络更好的捕捉肺结节的特征信息,提升对肺结节的检测精度。针对LUNA16数据集类别单一、目标较小,采用K-means++聚类算法针对肺结节进行锚框优化,使用三个聚类中心替换原来的九个聚类中心,这样对小目标肺结节聚类效果较优,降低了漏检的概率和计算复杂度。最后,用SIoU损失函数替换YOLOv4中的CIoU损失函数,提高了训练收敛的速度和检测精度。
进一步的,参见图2,将CA注意力结合到YOLOv4检测框架的CSPDarknet53-Conv3后,所述基于YOLOv4-CA-CBAM-K-means++-SIOU的肺结节检测方法中CA注意力机制步骤具体包括:
S1)为了使注意力模块能够捕捉具有精确位置信息的远程空间交互,我们将全局池化操作分解为一对特征编码操作,全局池化表达式如下
其中,和是特征图的高和宽,为输入特征向量;
S2) 给定输入 ,首先使用尺寸为或 的池化核分别沿着水平坐标和垂直坐标对每个通道进行编码;
S3) 得到高度为 的第个通道的输出表达式如下:
其中,是特征图的宽,为输入特征向量;
S4) 宽度为的第个通道的输出表达式如下:
其中,是特征图的宽,为输入特征向量;
S5) 上述两种变换分别沿两个空间方向聚合特征,得到一对方向感知的特征图,对其进行连接操作,再采用卷积将其通道数以收缩率从压缩至,并使用ReLU函数进行非线性激活,表达式如下:
f=\delta \left ( {{F}_{1}\left ( \left [ {{z}^{h},{z}^{w}} \right ] \right )} \right )
式中,是在水平方向和垂直方向对空间信息进行编码的中间特征图,是ReLU激活函数,是卷积变换函数;
S6) 将获取到的结果沿着空间维数分解为的张量和的张量,之后,再使用的卷积将通道数从升至,并使用sigmoid函数进行非线性激活,表达式如下:
式中,是sigmoid激活函数,,,和是卷积变换分别用于转换和为与输入一样通道的张量,与分别表示两个坐标轴上的注意力特征图,与分别展开用作注意权重;
S7) CA注意力机制的最终输出表达式如下:
式中,和分别表示输入特征和输出特征的特征向量;
S8) 本发明将即插即用的CA注意力机制添加到 YOLOv4检测框架的CSPDarknet53-Conv3后,以精准捕捉肺结节的位置信息;
进一步的,参见图3,CBAM注意力机制中通道注意力模块(Channel AttentionModule)步骤具体包括:
S1) 将特征图输入到通道注意力模块, 分别进行最大池化和平均池化,得到两个的特征图;
S2) 将得到的两个通道特征分别输入到多层感知机(Multilayer Perceptron,MLP)中,第一层神经元个数为,为下降率,激活函数为ReLU,第二层神经单元个数为,这两个层的神经网络是共享的,完成后将结果相加,后经过Sigmoid函数,得到通道注意力特征图,表达式如下:
式中, 表示Sigmoid函数;表示全局平均池化;表示最大池化;;;表示的平均池化特征;表示的最大池化特征;
进一步的,参见图4,CBAM注意力机制中空间注意力模块(Spatial AttentionModule)步骤具体包括:
S1) 将通道注意力特征图与输入特征图做乘法操作,得到融合后的特征图,表达式如下:
式中,表示element-wise乘法操作,两个特征图对应值直接相乘;
S2) 将得到的特征图输入到空间注意力机制模块中,首先,在通道轴上应用平均池化和最大池化操作得到两个的特征图,再进行Concatenation操作得到一个有效的特征层,再通过一个的卷积层和Sigmoid函数生成大小为的空间特征注意力图,表达式如下:
{M}_{S}\left ( {F} \right )=\sigma \left ( {{f}^{7\times 7}\left ( \left [ {AvgPool\left ( {F} \right );MaxPool\left ( {F} \right )} \right ] \right )} \right )=\sigma \left ( {{f}^{7\times 7}\left ( \left [ {{F}^{S}_{avg};{F}^{S}_{max}} \right ] \right )} \right )
式中,表示Sigmoid函数;表示全局平均池化;表示最大池化;是大小为的平均池化特征,是大小为的最大池化特征,表示卷积核为的卷积。
进一步的,参见图5,CBAM注意力机制将通道注意力机制模块和空间注意力机制进行结合,CBAM注意力机制步骤具体包括:
S1) 最后将得到的空间特征注意力图和输入特征图进行乘法操作,得到缩放后的特征图,即CBAM注意力机制最终输出表达式如下:
式中,表示element-wise乘法操作,两个特征图对应值直接相乘;
S2) 本发明在YOLOv4检测框架中CSPDarknet53骨干网络输出的三个有效特征层后及颈部加强特征提取网络中上采样和下采样后加入即插即用的CBAM注意力机制减少特征信息丢失,捕捉肺结节的特征信息。
进一步的,所述K-means++聚类算法进行锚框优化的具体步骤包括:
S1) 输入训练集中所有目标框的宽高集合及聚类中心数,从中随机选取一个样本作为初始聚类中心;
S2) 计算中每个样本与当前已有聚类中心之间的最短距离,即与最近一个聚类中心的距离,用表示,接着计算每个样本被选为下一个聚类中心的概率,选取下一个聚类中心;
S3) 重复步骤S2),直到找到个聚类中心;
S4) 对数据集中的每个样本,计算到个聚类中心的距离并将其分到距离最小的聚类中心所对应的类中;
S5) 针对每个类别,重新计算它的聚类中心;
S6) 重复步骤S4) 和S5) ,直到聚类中心的位置不再变化,输出最终的聚类中心;
S7) 通过K-means++聚类算法,最终生成3个适合LUNA16数据集的锚框,分别为。
进一步的,参见图6,所述SIoU损失函数的角度损失计算过程的步骤具体包括:
S1) 计算角度损失,添加这种角度感知LF组件的想法是为了最大限度地减少与距离相关未知变量的数量。模型首先尝试在轴和轴做预测,以最接近的为准,然后沿着相关轴继续接近。为了实现这一点,如果,收敛过程将尝试最小化,否则最小化,LF组件被引入并定义如下:
这里,
式中,为真实框中心坐标,为预测框中心坐标。
进一步的,参见图7,所述SIoU损失函数的距离损失计算过程的步骤具体包括:
S1) 计算距离损失,考虑到上面定义的角度损失,重新定义了距离损失:
这里,
{\rho }_{x}=\left [ {\frac {{b}^{gt}_{{c}_{x}}-{b}_{{c}_{x}}} {{c}_{w}}} \right ]^{2},{\rho }_{y}=\left [ {\frac {{b}^{gt}_{{c}_{y}}-{b}_{{c}_{y}}} {{c}_{h}}} \right ]^{2},
式中,为真实框和预测框的最小外接矩形的宽和高。
进一步的,所述SIoU损失函数的形状损失计算过程的步骤具体包括:
S1) 计算形状损失,定义如下:
这里,
,
其中, 和分别为预测框和真实框的宽高,的值控制对形状损失的关注程度,这里。
进一步的,参见图8,所述SIoU损失函数的 IoU损失计算过程的步骤具体包括:
S1) 计算IoU损失,定义如下:
其中,是检测框,是真实框。
进一步的,所述SIoU损失函数计算过程的步骤具体包括:
S1) 最终计算SIoU损失函数,定义如下:
进一步的,参见图9,图9为基于YOLOv4-CA-CBAM-K-means++-SIOU算法的肺结节检测框架图,其骨干网络使用CSPDarknet53从图像中提取特征。其颈部网络结合了SPP、CA注意力机制、PANet、CBAM注意力机制,用于对多尺度特征图进行特征融合以及加强特征提取。其头部检测网络结合了K-means++聚类算法进行锚框优化和SIoU损失函数进行优化,其有三个不同尺度的检测头,分别用于检测小、中、大尺度的目标,这些检测头的作用是生成目标检测的输出结果,包括预测框的坐标和类别概率,从而完成肺结节的检测。
进一步的,参见图10,图10中nodule代表检测到物体的类别是肺结节,红色方框的位置是模型检测到肺结节的位置。数字代表检测到该物体是肺结节的置信度(ConfidenceScore),在目标检测中,置信度是指模型对于检测到的目标的确定程度,通常是一个介于0和1之间的浮点数,表示该检测结果的可信度,置信度越高,意味着模型越确信该检测结果是正确的。可以看出基于YOLOv4-CA-CBAM-K-means++-SIOU算法检测效果最佳。
本实施例中,还提供了实验选用数据及所述基于YOLOv4-CA-CBAM-K-means++-SIOU的肺结节检测算法分析:
实验数据采用公开肺结节数据集LIDC-IDRI的子集LUNA16数据集,有888套肺CT图像,数据集由四名专业放射科专家中至少三个专家手工标注的确定为肺结节的1186个肺结节数据,结节直径大于3mm。在肺结节检测部分,首先将LUNA16数据集随机打散,并按照的比例划分为训练集(948张图像)、验证集(119张图像)、测试集(119张图像)。
本实验采用准确率(Precision)、召回率(recall)、F1-Score、平均精度均值(MeanAverage Precision,mAP)、浮点运算次数(FLOPs,floating point operations persecond)、参数量(Params)六个评价指标。其中用FLOPs指标来衡量模型的复杂度;Params指模型含有多少参数。F1-Score是precision和recall的调和平均评估指标,取值范围在之间。计算公式如下:
式中:分别表示预测结果为真阳性结节、真阴性结节、假阳性结节、假阴性结节。又称为敏感度(Sensibility),反映了被正确判定为真阳部分占所有真阳的比重。反映了判定为阳性中真阳样本的比重。平均精度值(Average Precision,AP)是以为横轴、为纵轴绘制曲线并对其积分求出曲线下的面积得到的,式中为曲线函数表达,是对每个类别的值求和然后取平均,代表第类的平均精度值,本发明只针对肺结节进行单类别检测,故。
表1 不同算法的实验结果
检测方法 | Precision | Recall | F1 | mAP | FLOPs(G为10^9) | Param(M为million) |
YOLOv4 | 0.8707 | 0.8487 | 0.85957 | 0.8872 | 127.6495G | 63.9377M |
YOLOv5 | 0.8729 | 0.8655 | 0.8692 | 0.9088 | 196.1352G | 87.2444M |
YOLOv4-K-means++ | 0.8720 | 0.9160 | 0.8934 | 0.9169 | 127.5872G | 63.9161M |
YOLOv4-CA-CBAM-K-means++ | 0.9098 | 0.9328 | 0.9212 | 0.9371 | 127.5916G | 64.1524M |
YOLOv4-CA-CBAM-K-means++-SIOU | 0.9333 | 0.9412 | 0.9372 | 0.9586 | 127.5916G | 64.1524M |
由表1可知,采用YOLOv4-CA-CBAM-K-means++-SIOU算法进行肺结节检测,检测指标较其他算法漏检率低、准确率高、平均精度值高、计算复杂度较低,这说明了所提算法可以更加精确地检测肺结节。
本发明实施例提供的技术方案带来的有益效果是:
本发明提出了一种基于YOLOv4-CA-CBAM-K-means++-SIOU的肺结节检测方法,将CA注意力结合到YOLOv4检测框架的CSPDarknet53-Conv3后,提升了YOLO-V4的CSPDarknet53骨干网络特征提取能力,以及为了更好的捕捉结节的位置信息和空间信息,这使得模型更准确地定位到感兴趣区域的目标,提升对肺结节的检测精度,降低漏检的概率。再将CBAM注意力机制结合到YOLOv4检测框架中CSPDarknet53骨干网络输出的三个有效特征层及颈部加强特征提取网络中上采样和下采样后,辅助检测网络捕获在上采样和下采样过程中丢失的特征信息,以及更好的捕捉肺结节的特征信息,提升对肺结节的检测精度。针对LUNA16数据集类别单一、目标较小,采用K-means++聚类算法针对肺结节进行锚框优化,使用三个聚类中心替换原来的九个聚类中心,这样对小目标肺结节聚类效果较优,解决了因为锚框的尺寸与检测肺结节的尺寸差距过大而导致锚框正样本数偏少产生漏检概率增加的问题,降低了漏检的概率和计算复杂度。最后,用SIoU损失函数替换YOLOv4中的CIoU损失函数,SIoU损失函数相比于CIoU损失函数除了考虑真实框和预测框重叠区域、距离、和长宽,还多考虑了两框之间的角度问题,这种添加极大地优化了训练过程,它使得预测框相当快地移动到最近的轴,有效地减少了预测框的自由度,提高了训练收敛的速度和检测精度。本发明将以上技术进行结合,实现了精准、快速、模型的计算复杂度低和计算资源消耗较小的结节检测。
以上仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于YOLOv4-CA-CBAM-K-means++-SIOU的肺结节检测方法,其特征在于,包括以下步骤:
S1:数据集的获取:获取肺部CT图像的数据集,本发明的实验采用公开数据集LIDC-IDRI数据集的子集LUNA16;
S2:数据集的处理:在肺结节检测中,肺结节只存在于肺实质内部并不需要肺实质以外的部分,故进行肺实质分割,然后将数据集处理为VOC格式的数据集以供YOLOv4检测框架读取。最后将LUNA16数据集中的1186张图像随机打散,并按照训练集:测试集:验证集为进行划分;
S3: CSPDarknet53特征提取网络提取原始图像特征:将原始图像输入到YOLOv4中,经过CSPDarknet53骨干网络提取图像的有效特征;
S4:YOLOv4检测框架中结合CA注意力机制:在YOLOv4检测框架的CSPDarknet53-Conv3后引入CA注意力机制,加强骨干网络的特征提取能力,捕捉捕捉肺结节的位置信息;
S5:颈部网络进行加强特征提取与特征融合。在颈部网络中使用SPP通过在不同尺度上执行池化操作,增加了感受野,可以生成固定大小的特征图,并且可以处理不同大小的输入图像,从而避免了目标检测中的尺度问题,从而更好地捕捉目标的上下文信息。以及使用PANet将来自骨干网络的不同尺度的特征图进行特征融合,从而增强检测模型的表征能力和检测精度;
S6:YOLOv4检测框架中结合CBAM注意力机制:在YOLOv4检测框架中CSPDarknet53骨干网络输出的三个有效特征层后及颈部加强特征提取网络中上采样和下采样后加入CBAM注意力机制,减少上采样及下采样肺结节特征信息丢失,捕捉肺结节的特征信息,加强网络特征提取能力;
S7:运用K-means++聚类算法进行锚框优化:在肺结节检测过程中,由于LUNA16数据集类别单一、目标较小,故在LUNA16训练集上采用K-means++聚类算法进行锚框优化,使用三个聚类中心替换原来的九个聚类中心生成更适合LUNA16数据集肺结节检测的锚点框;
S8:损失函数的优化:在YOLOv4中引入新的边界框回归损失函数SIoU损失函数替换原来的CIoU损失函数,提高训练的收敛速度和推理的准确性;
S9: 肺结节检测:在YOLOv4中头部检测网络中,有三个不同尺度的检测头,分别用于检测小、中、大尺度的目标,这些检测头的作用是对预测结果进行筛选和调整以及生成目标检测的输出结果,包括预测框的坐标和类别概率,从而完成目标检测的任务。
2.根据权利要求1所述的一种基于YOLOv4-CA-CBAM-K-means++-SIOU的肺结节检测方法,其特征在于,所述步骤S4的具体过程如下:
S1)为了使注意力模块能够捕捉具有精确位置信息的远程空间交互,我们将全局池化操作分解为一对特征编码操作,全局池化表达式如下:
其中,和是特征图的高和宽,为输入特征向量;
S2) 给定输入 ,首先使用尺寸为或 的池化核分别沿着水平坐标和垂直坐标对每个通道进行编码;
S3) 得到高度为 的第个通道的输出表达式如下:
其中,是特征图的宽,为输入特征向量;
S4) 宽度为的第个通道的输出表达式如下:
其中,是特征图的宽,为输入特征向量;
S5) 上述两种变换分别沿两个空间方向聚合特征,得到一对方向感知的特征图,对其进行连接操作,再采用卷积将其通道数以收缩率从压缩至,并使用ReLU函数进行非线性激活,表达式如下:
式中,是在水平方向和垂直方向对空间信息进行编码的中间特征图,是ReLU激活函数,是卷积变换函数;
S6) 将获取到的结果沿着空间维数分解为的张量和的张量,之后,再使用的卷积将通道数从升至,并使用sigmoid函数进行非线性激活,表达式如下:
式中,是sigmoid激活函数,,,和是卷积变换分别用于转换和为与输入一样通道的张量,与分别表示两个坐标轴上的注意力特征图,与分别展开用作注意权重;
S7)CA注意力机制的最终输出表达式如下:
式中,和分别表示输入特征和输出特征的特征向量。
3.根据权利要求1和权利要求2所述方法,其特征在于,所属算法将即插即用的CA注意力机制添加到 YOLOv4检测框架的CSPDarknet53-Conv3后,以精准捕捉肺结节的位置信息。
4.根据权利要求1所述的一种基于YOLOv4-CA-CBAM-K-means++-SIOU的肺结节检测方法,其特征在于,所述步骤S6的具体过程如下:
S1) 将特征图输入到通道注意力模块, 分别进行最大池化和平均池化,得到两个的特征图;
S2) 将得到的两个通道特征分别输入到多层感知机(Multilayer Perceptron, MLP)中,第一层神经元个数为,为下降率,激活函数为ReLU,第二层神经单元个数为,这两个层的神经网络是共享的,完成后将结果相加,后经过Sigmoid函数,得到通道注意力特征图,表达式如下:
式中, 表示Sigmoid函数;表示全局平均池化;表示最大池化;;;表示的平均池化特征;表示的最大池化特征;
S3) 将通道注意力特征图与输入特征图做乘法操作,得到融合后的特征图,表达式如下:
式中,表示element-wise乘法操作(两个特征图对应值直接相乘);
S4) 将得到的特征图输入到空间注意力机制模块中,首先,在通道轴上应用平均池化和最大池化操作得到两个的特征图,再进行Concatenation操作得到一个有效的特征层,再通过一个的卷积层和Sigmoid函数生成大小为的空间特征注意力图,表达式如下:
式中,表示Sigmoid函数;表示全局平均池化;表示最大池化;是大小为的平均池化特征,是大小为的最大池化特征,表示卷积核为的卷积;
S5) 最后将得到的空间特征注意力图和输入特征图进行乘法操作,得到缩放后的特征图,即CBAM注意力机制最终输出表达式如下:
式中,表示element-wise乘法操作,两个特征图对应值直接相乘。
5.根据权利要求1和权利要求4所述方法,其特征在于,所属算法在YOLOv4检测框架中CSPDarknet53骨干网络输出的三个有效特征层后及颈部加强特征提取网络中上采样和下采样后加入即插即用的CBAM注意力机制减少特征信息丢失,捕捉肺结节的特征信息。
6.根据权利要求1所述的一种基于YOLOv4-CA-CBAM-K-means++-SIOU的肺结节检测方法,其特征在于,所述步骤S7的具体过程如下:
S1) 输入训练集中所有目标框的宽高集合及聚类中心数,从中随机选取一个样本作为初始聚类中心;
S2) 计算中每个样本与当前已有聚类中心之间的最短距离,即与最近一个聚类中心的距离,用表示,接着计算每个样本被选为下一个聚类中心的概率,选取下一个聚类中心;
S3) 重复步骤S2),直到找到个聚类中心;
S4) 对数据集中的每个样本,计算到个聚类中心的距离并将其分到距离最小的聚类中心所对应的类中;
S5) 针对每个类别,重新计算它的聚类中心;
S6) 重复步骤S4) 和S5) ,直到聚类中心的位置不再变化,输出最终的聚类中心;
S7) 通过K-means++聚类算法,最终生成3个适合LUNA16数据集的锚框,分别为。
7.根据权利要求1和权利要求6所述方法,其特征在于,所属算法在YOLOv4检测框架中头部检测网络中使用了K-means++聚类算法优化锚框。
8.根据权利要求1所述的一种基于YOLOv4-CA-CBAM-K-means++-SIOU的肺结节检测方法,其特征在于,所述步骤S8的具体过程如下:
S1) 计算角度损失,添加这种角度感知LF组件的想法是为了最大限度地减少与距离相关未知变量的数量。模型首先尝试在轴和轴做预测,以最接近的为准,然后沿着相关轴继续接近。为了实现这一点,如果,收敛过程将尝试最小化,否则最小化,LF组件被引入并定义如下:
,
,
,
,
式中,为真实框中心坐标,为预测框中心坐标;
S2) 计算距离损失,考虑到上面定义的角度损失,重新定义了距离损失:
,
,,,
式中,为真实框和预测框的最小外接矩形的宽和高;
S3)计算形状损失,定义如下:
其中和分别为预测框和真实框的宽高,的值控制对形状损失的关注程度,这里;
S4) 计算IoU损失,定义如下:
S5) 最终计算SIoU损失函数,定义如下:
其中为SIoU损失,为损失,为距离损失,为形状损失。
9.根据权利要求1和权利要求8所述方法,其特征在于,所属算法在YOLOv4检测框架中头部检测网络中用SIoU损失函数替换YOLOv4中的CIoU损失函数,SIoU损失函数相比于CIoU损失函数多考虑了两框之间的角度问题,提高了训练收敛的速度和检测精度。
10.根据权利要求1所述方法,其特征在于,所述基于YOLOv4-CA-CBAM-K-means++-SIOU算法具体为:将CA注意力结合到YOLOv4检测框架的CSPDarknet53-Conv3后,提升了YOLO-V4的CSPDarknet53骨干网络特征提取能力,以及为了更好的捕捉结节的位置信息和空间信息,这使得模型更准确地定位到感兴趣区域的目标,提升对肺结节的检测精度,降低漏检的概率;再将CBAM注意力机制结合到YOLOv4检测框架中CSPDarknet53骨干网络输出的三个有效特征层及颈部加强特征提取网络中上采样和下采样后,辅助检测网络捕获在上采样和下采样过程中丢失的特征信息,以及更好的捕捉肺结节的特征信息,提升对肺结节的检测精度;针对LUNA16数据集类别单一、目标较小,采用K-means++聚类算法针对肺结节进行锚框优化,使用三个聚类中心替换原来的九个聚类中心,这样对小目标肺结节聚类效果较优,解决了因为锚框的尺寸与检测肺结节的尺寸差距过大而导致锚框正样本数偏少产生漏检概率增加的问题,降低了漏检的概率和计算复杂度;采用SIoU损失函数替换YOLOv4中的CIoU损失函数,SIoU损失函数相比于CIoU损失函数除了考虑真实框和预测框重叠区域、距离、和长宽,还多考虑了两框之间的角度问题,这种添加极大地优化了训练过程,它使得预测框相当快地移动到最近的轴,有效地减少了预测框的自由度,提高了训练收敛的速度和检测精度;将以上技术进行结合得到了YOLOv4-CA-CBAM-K-means++-SIOU算法,对训练集进行训练,并在测试集进行测试,实现肺结节检测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310251319.0A CN116091490A (zh) | 2023-03-16 | 2023-03-16 | 一种基于YOLOv4-CA-CBAM-K-means++-SIOU的肺结节检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310251319.0A CN116091490A (zh) | 2023-03-16 | 2023-03-16 | 一种基于YOLOv4-CA-CBAM-K-means++-SIOU的肺结节检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116091490A true CN116091490A (zh) | 2023-05-09 |
Family
ID=86188080
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310251319.0A Pending CN116091490A (zh) | 2023-03-16 | 2023-03-16 | 一种基于YOLOv4-CA-CBAM-K-means++-SIOU的肺结节检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116091490A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116630720A (zh) * | 2023-06-09 | 2023-08-22 | 中国电子技术标准化研究院 | 一种基于YoloV7的抗原检测结果识别方法 |
CN117270545A (zh) * | 2023-11-21 | 2023-12-22 | 合肥工业大学 | 基于卷积神经网络的变电所轮式巡检机器人及方法 |
-
2023
- 2023-03-16 CN CN202310251319.0A patent/CN116091490A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116630720A (zh) * | 2023-06-09 | 2023-08-22 | 中国电子技术标准化研究院 | 一种基于YoloV7的抗原检测结果识别方法 |
CN117270545A (zh) * | 2023-11-21 | 2023-12-22 | 合肥工业大学 | 基于卷积神经网络的变电所轮式巡检机器人及方法 |
CN117270545B (zh) * | 2023-11-21 | 2024-03-29 | 合肥工业大学 | 基于卷积神经网络的变电所轮式巡检机器人及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107016665B (zh) | 一种基于深度卷积神经网络的ct肺结节检测方法 | |
CN107886514B (zh) | 基于深度残差网络的乳腺钼靶图像肿块语义分割方法 | |
CN109919230B (zh) | 基于循环特征金字塔的医学图像肺结节检测方法 | |
WO2021203795A1 (zh) | 一种基于显著性密集连接扩张卷积网络的胰腺ct自动分割方法 | |
CN110503630B (zh) | 一种基于三维深度学习模型的脑出血分类、定位与预测方法 | |
CN112418329B (zh) | 一种基于多尺度纹理特征融合宫颈oct图像分类方法及系统 | |
CN116091490A (zh) | 一种基于YOLOv4-CA-CBAM-K-means++-SIOU的肺结节检测方法 | |
CN112001218B (zh) | 一种基于卷积神经网络的三维颗粒类别检测方法及系统 | |
WO2020087838A1 (zh) | 血管壁斑块识别设备、系统、方法及存储介质 | |
CN112101451A (zh) | 一种基于生成对抗网络筛选图像块的乳腺癌组织病理类型分类方法 | |
Yao et al. | Pneumonia detection using an improved algorithm based on faster r-cnn | |
WO2021209887A1 (en) | Rapid, accurate and machine-agnostic segmentation and quantification method and device for coronavirus ct-based diagnosis | |
CN113139568B (zh) | 一种基于主动学习的类别预测模型建模方法及装置 | |
Xu et al. | An improved faster R-CNN algorithm for assisted detection of lung nodules | |
CN111798424B (zh) | 一种基于医学图像的结节检测方法、装置及电子设备 | |
CN110570425B (zh) | 一种基于深度强化学习算法的肺结节分析方法及装置 | |
Liang et al. | Dense networks with relative location awareness for thorax disease identification | |
CN115409815A (zh) | 一种基于三维可变形transformer的肺结节检测方法 | |
CN113764101B (zh) | 基于cnn的乳腺癌新辅助化疗多模态超声诊断系统 | |
CN114581698A (zh) | 一种基于空间交叉注意力机制特征融合的目标分类方法 | |
CN113052857A (zh) | 一种基于CovSegNet的肺部病变图像分割方法 | |
CN110717916B (zh) | 一种基于卷积神经网络的肺栓塞检测系统 | |
CN112508884A (zh) | 一种癌变区域综合检测装置及方法 | |
CN117036288A (zh) | 一种面向全切片病理图像的肿瘤亚型诊断方法 | |
CN112017161A (zh) | 一种基于中心点回归的肺结节检测方法和检测装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |