CN116580017A - 融合双路径通道注意力和空洞空间注意力的改进Mask-R-CNN肺结节辅助检测方法 - Google Patents
融合双路径通道注意力和空洞空间注意力的改进Mask-R-CNN肺结节辅助检测方法 Download PDFInfo
- Publication number
- CN116580017A CN116580017A CN202310610943.5A CN202310610943A CN116580017A CN 116580017 A CN116580017 A CN 116580017A CN 202310610943 A CN202310610943 A CN 202310610943A CN 116580017 A CN116580017 A CN 116580017A
- Authority
- CN
- China
- Prior art keywords
- attention
- lung
- nodule
- improved
- cnn
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 206010056342 Pulmonary mass Diseases 0.000 title claims abstract description 60
- 238000001514 detection method Methods 0.000 title claims abstract description 58
- 210000004072 lung Anatomy 0.000 claims abstract description 52
- 230000011218 segmentation Effects 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 15
- 238000012216 screening Methods 0.000 claims abstract description 7
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 230000003631 expected effect Effects 0.000 claims abstract description 4
- 238000000605 extraction Methods 0.000 claims abstract description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 28
- 230000009977 dual effect Effects 0.000 claims description 15
- 238000000034 method Methods 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 11
- 239000011800 void material Substances 0.000 claims description 11
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 10
- 230000007246 mechanism Effects 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 8
- 230000002685 pulmonary effect Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000007797 corrosion Effects 0.000 claims description 4
- 238000005260 corrosion Methods 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 4
- 238000003064 k means clustering Methods 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000005284 excitation Effects 0.000 claims description 3
- 238000001125 extrusion Methods 0.000 claims description 3
- 230000035945 sensitivity Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 15
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 8
- 201000005202 lung cancer Diseases 0.000 description 8
- 208000020816 lung neoplasm Diseases 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 239000012855 volatile organic compound Substances 0.000 description 7
- 210000001519 tissue Anatomy 0.000 description 5
- 208000019693 Lung disease Diseases 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 201000011510 cancer Diseases 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 3
- 206010016256 fatigue Diseases 0.000 description 3
- 210000000056 organ Anatomy 0.000 description 3
- 230000004083 survival effect Effects 0.000 description 3
- 206010028980 Neoplasm Diseases 0.000 description 2
- 210000004204 blood vessel Anatomy 0.000 description 2
- 210000000038 chest Anatomy 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 230000003902 lesion Effects 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 206010021143 Hypoxia Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 210000000621 bronchi Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000013399 early diagnosis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003628 erosive effect Effects 0.000 description 1
- 239000005337 ground glass Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 239000011796 hollow space material Substances 0.000 description 1
- 230000007954 hypoxia Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000003211 malignant effect Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000241 respiratory effect Effects 0.000 description 1
- 210000000115 thoracic cavity Anatomy 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/28—Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
- G06V10/763—Non-hierarchical techniques, e.g. based on statistics of modelling distributions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10072—Tomographic images
- G06T2207/10081—Computed x-ray tomography [CT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30061—Lung
- G06T2207/30064—Lung nodule
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/03—Recognition of patterns in medical or anatomical images
- G06V2201/031—Recognition of patterns in medical or anatomical images of internal organs
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Quality & Reliability (AREA)
- Radiology & Medical Imaging (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种融合双路径通道注意力和空洞空间注意力的改进Mask‑R‑CNN肺结节辅助检测方法,属于图像处理领域,包括如下步骤:S1:数据集预处理;S2:肺实质分割;S3:构建改进的候选结节检测与分割模型;S4:针对肺结节特征修改RPN;S5:针对数据不均衡改进损失函数;S6:构建三维ResNet去假阳性模型,进行假阳性筛除;S7:利用所选数据集对改进后的肺结节检测模型进行训练,将训练后最佳的权重文件加载至模型中进行特征提取,生成一系列候选区域,然后根据候选区域与图片上物体真实框之间的位置关系对候选框进行标注,生成肺结节预测框和肺结节预测置信度,达到预期的效果。
Description
技术领域
本发明属于图像处理领域,涉及一种融合双路径通道注意力和空洞空间注意力的改进Mask-R-CNN肺结节辅助检测方法。
背景技术
肺是人体的呼吸器官,一旦肺部出现问题,人体就无法正常地与外界进行气体交换,从而导致缺氧甚至危及生命。目前,肺部疾病对人们的生命健康构成巨大的威胁。其中,肺癌是备受关注的肺部疾病之一,也是全球发病率最高、致死率最高的癌症。肺癌的早期表现是肺部产生肺结节,但检测出肺结节不一定意味着患有癌症,还需要进一步精确分析每一个可疑的结节。肺癌患者如若能尽早检测出并第一时间积极治疗,可以大大提高其生存率。
肺结节是指在肺部增殖的圆形或不规则形状的病变区域。在肺CT图像上一般表现为密度增大的阴影,边界清晰或者不清晰的区域。根据研究发现肺癌的早期诊断和治疗可以显著提高患者的生存几率。根据肺结节的空间位置,可以把肺结节分为孤立型肺结节、靠近胸腔内壁的肺结节以及靠近血管的肺结节。根据结节密度,可以将肺结节可分为三类:实性结节、亚实性结节和磨玻璃样结节。其中磨玻璃样的肺结节发展成为恶性肿瘤也就是肺癌的可能性最大。如果及早发现肺结节并及时治疗,五年生存率可提高至55%。如何快速而又准确的通过肺部CT图像诊断肺结节对于肺癌的治疗起到了至关重要的作用。
通常传统的人工诊断方法,放射科的医生需要逐张的观察患者胸部CT影像并判断有无肺结节的病灶存在。但是对于有经验的医生来说,有些结节也很难被发现,而且这样的方法不但检测效率不高,会给医生带来疲劳而影响判断,进而发生误检或者漏检的情况。为了有效应对这种情况,需要一种高检测准确率的辅助检测系统向医生提供宝贵的“第二意见”,以减轻医生的工作量,从而提高肺部疾病诊断的准确率。
发明内容
有鉴于此,本发明的目的在于提供一种融合双路径通道注意力和空洞空间注意力的改进Mask-R-CNN肺结节辅助检测方法。
为达到上述目的,本发明提供如下技术方案:
一种融合双路径通道注意力和空洞空间注意力的改进Mask-R-CNN肺结节辅助检测方法,包括如下步骤:
S1:数据集预处理;
S2:肺实质分割;
S3:融合双路径通道注意力和空洞空间注意力,基于改进的Mask-R-CNN构建改进的候选结节检测与分割模型;
S4:针对肺结节特征修改RPN;
S5:针对数据不均衡改进损失函数;
S6:构建三维ResNet去假阳性模型,进行假阳性筛除;
S7:利用所选数据集对改进后的肺结节检测模型进行训练,将训练后最佳的权重文件加载至改进的Mask-R-CNN构建改进的候选结节检测与分割模型中,进行特征提取,生成一系列候选区域,然后根据候选区域与图片上物体真实框之间的位置关系对候选框进行标注,生成肺结节预测框和肺结节预测置信度,达到预期的效果。
进一步,所述步骤S1中,使用Luna16数据集,首先对数据集CT图像进行预处理,包括图像翻转、坐标转换、像素值截断处理,之后转化为VOC格式数据集,并划分为训练集和验证集。
进一步,所述步骤S2中所述肺实质分割,具体包括以下步骤:
S21:通过阈值法对CT切片图像的像素值进行标准化;
S22:可视化亮度分布直方图,找出肺部附近的平均像素值,对洗掉的图像进行重新正规化;
S23:使用K-means聚类算法分离前景和背景,得到二值像素之后,使用膨胀运算扩大肺实质区域,并将区域内部填满,生成一个连通的区域,再用腐蚀将肺实质区域变窄,最后肺实质部分为白色,其余区域为黑色,从而生成对应的肺实质二值掩模;
S24:将得到的肺实质掩膜与原始图像进行加叠,得到肺实质图像。
进一步,步骤S3所述构建改进的候选结节检测与分割模型,为在Mask-R-CNN网络的主干网络每一个Stage之后加入双路径通道注意力模块DPCA;在特征融合网络的横向连接阶段引入由不同空洞率的空洞卷积和空间注意力机制CAM融合而成的空洞空间注意力模块ESA;包括以下步骤:
S31:Squeeze挤压(Fsq(·))将特征图进行全局平均池化,生成一个1×1×C的向量,将每个通道用一个数值表示:
H和W分别表示特征图的高和宽,uc表示卷积后的特征图;
S32:激励Excitation(Fex(·,))通过两层全连接层完成,通过权重生成我们我所要的权重信息:
s=Fex(z,W)=σ(g(z,W))=σ(W2δ(W1)) (2)
W1和W2分别表示第一和第二个全连接层,δ表示ReLU激活函数,σ表示sigmoid激活函数;
S33:Scale(Fscale)是将步骤S32生成权重向量对特征图进行权重赋值,得到特征图:
uc表示卷积后的特征图,sc表示第二步得到的特征图;
S34:将两条路径得到的不同特征图进行融合;空洞空间注意力模块ESA由不同空洞率的空洞卷积和空间注意力机制CAM融合而成;空洞卷积的卷积核的计算方法为:
K=k+(k-1)×(r-1) (4)
其中,K是空洞卷积的实际卷积核大小,k是原卷积核大小,r是空洞卷积参数空洞率——卷积核的间隔数量,标准卷积r=1;
空洞卷积的感受野的计算方法为:
其中,rn为第n层每个点的感受野,rn-1为第n-1层每个点的感受野,kn是第n层卷积的卷积核大小,Si是第i层卷积的步长;
空间注意力模块CAM:空间维度不变,压缩通道维度,空间注意力模块关注的是目标的位置信息,空间注意力公式如下:
其中,和/>分别为对空间上的特征进行全局平均池化和最大池化操作,f为对两个拼接融合的特征使用1×1的卷积操作,σ为sigmoid激活函数。
进一步,步骤S4中,将所述改进的候选结节检测与分割模型的锚框生成长宽比和大小进行更改。
进一步,步骤S5中,引入focal loss作为所述改进的候选结节检测与分割模型的损失函数,focal loss的定义如下所示:
FL(Pt)=-α(1-Pt)γlog(Pt) (9)
式中α和γ是参数,表明其对分类样本的敏感度,α用于调节正负样本不均衡,γ用于减少易分类样本中的损耗;P为样本的预测概率;y为样本标签。
进一步,步骤S6中,将检测到的候选结节根据检测位置裁剪送入三维ResNet卷积神经网络,首先经过一个5×5×5的Conv,然后使用第一种Bottleneck结构的残差块,该结构带有1×1×1的Conv调整通道和分辨率,第二种Bottleneck结构的残差块没有所述1×1×1的Conv,这两个Bottleneck结构的残差块按顺序反复堆叠三次,接一个全局平池化和全连接相接,最后使用Softmax二分类判定是否为结节,进行假阳性的筛除。
本发明的有益效果在于:
一、引入的双路径通道注意力模块(DPCA)和空洞空间注意力模块(ESA)。可以增强网络获得多尺度上下文的能力和特征表达能力和网络对于小结节以及近血管结节等非显著性目标的检测性能的同时使模型更加关注有效的关键特征,减少或忽略一些无效的特征信息,提高肺结节检测的精度。
二、修改了模型中RPN网络的锚框生成机制,使得检测框更贴合肺结节大小。
三、引入focal loss作为改进网络的损失函数来解决训练样本的非均衡性。
四、使用三维ResNet卷积神经网络作为去假阳性算法,将检测到的候选结节进行假阳性筛除,提高整个系统的肺结节检测精度。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1是本发明提供的实施例肺结节辅助检测系统流程图。
图2是改进后的Mask-R-CNN肺结节检测与分割网络结构示意图。
图3是双路径通道注意力模块(DPCA)模块示意图。
图4是空洞空间注意力模块(ESA)模块示意图。
图5是三维ResNet去假阳性算法示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
包括在图像中所占像素值小于8×8像素的小肺结节。肺结节检测的主要流程如图1所示。针对该流程,本设计主要的研究内容有:
(1)、数据集预处理研究:首先对数据集CT图像进行预处理,转化为VOC格式数据集,并划分为训练集和验证集。
(2)、肺实质分割研究:通过阈值法对转换为VOC格式的CT切片图像的像素值进行标准化,并可视化亮度分布直方图。找出肺部附近的平均像素值,对洗掉的图像进行重新正规化。使用K-means聚类算法分离前景和背景,得到二值像素之后,使用形态学中膨胀操作扩大肺实质区域,内孔缩小,并将区域内部填满,生成一个连通的区域,再用腐蚀操作将肺实质区域变窄,使肺实质图像更精确。肺实质部分保留白色,其余区域填充为黑色,从而为每张图像生成对应的肺实质二值掩模。将得到的肺实质掩膜与原始图像上进行加叠,得到肺实质图像。
(3)、改进候选结节检测与分割算法研究:
虽然CT图像中的一部分小结节可能属于良性,但也有一部分小结节属于恶性,如果检测不到发展为大结节会导致肺癌。针对小目标检测困难问题,本发明在其主干网络每一个Stage之后加入双路径通道注意力模块(DPCA)。在特征融合网络的横向连接阶段引入由不同空洞率的空洞卷积和空间注意力机制(CAM)融合而成的空洞空间注意力模块(ESA)。增强网络获得多尺度上下文的能力和特征表达能力和网络对于小结节以及近血管结节等非显著性目标的检测性能的同时使模型更加关注有效的关键特征,减少或忽略一些无效的特征信息,提高肺结节检测的精度。
(4)、针对肺结节特征修改RPN研究:
原始Mask-R-CNN中RPN网络生成的锚框(Anchor)长宽比为2:1,1:1,1:2三种比例,大小为128*128,256*256,512*512共9个锚框,锚框尺寸过大,与实际检测目标尺寸不太吻合,根据肺结节的形态和特征,对原模型中的锚框机制进行改进。
(5)、针对数据不均衡改进损失函数研究:
在肺结节检测模型的训练过程中会存在正样本与负样本比率严重失衡的问题,即数据集中各个类别的样本数量极不均衡,从而使得分类模型产生严重的偏向性,导致模型无法学习少例样本的特征最终产生预测失误的结果。本发明引入focal loss作为改进网络的损失函数来解决训练样本的非均衡性。
(6)、三维ResNet去假阳性算法研究:
将检测到的候选结节根据检测位置裁剪送入三维ResNet卷积神经网络,进行假阳性的筛除,提高整个系统的肺结节检测精度。
(7)、模型训练研究:
利用所选数据集对改进后的肺结节检测模型进行训练,保存权重文件,进行预测,生成肺结节预测框和肺结节预测置信度。
实施例:本实施例的方案如下:
参见图1至图5,一种融合双路径通道注意力和空洞空间注意力的改进Mask-R-CNN肺结节辅助检测方法。其特征在于:包括如下步骤:步骤一:数据集预处理;步骤二:肺实质分割;步骤三:改进候选结节检测与分割算法;步骤四:针对肺结节特征修改RPN;步骤五:针对数据不均衡改进损失函数;步骤六:三维ResNet去假阳性算法;步骤七:模型训练;
所述步骤一中,本发明使用的Luna16数据集最大公用肺结节数据集LIDC-IDRI的子集,包括888低剂量肺部CT影像(mhd格式)数据,每个影像包含一系列胸腔的多个轴向切片。首先对数据集CT图像进行预处理,包括图像翻转、坐标转换、像素值截断处理,之后转化为VOC格式数据集,并划分为训练集和验证集。
所述步骤二中,本数据集中读取到的CT图像为整个肺部图像,主要包括肺部及其周围组织器官,其中诸如血管、支气管和骨骼等组织可能对后续肺结节检测造成一定的影响,因此需要分割肺实质,去除肺部以外的其他组织器官。首先通过阈值法对转换为VOC格式的CT切片图像的像素值进行标准化,并可视化亮度分布直方图。找出肺部附近的平均像素值,对洗掉的图像进行重新正规化。使用K-means聚类算法分离前景(不透明组织)和背景(透明组织,即肺),其中K=2。得到二值像素之后,用形态学方法中的腐蚀与膨胀的计算法来提取肺实质区域。使用膨胀运算可以扩大肺实质区域,内孔缩小,并将区域内部填满,防止因外部因素导致的肺实质信息丢失,从而生成一个连通的区域,再用腐蚀将肺实质区域变窄,使肺实质图像更精确。最后根据设置好的图像大小选择肺实质区域。肺实质部分保留白色,其余区域填充为黑色,从而为每张图像生成对应的肺实质二值掩模。将得到的肺实质掩膜与原始图像上进行加叠,黑色区域将原图掩盖,白色区域显示原始图像,得到肺实质图像。
所述步骤三中,由于原始的Mask-R-CNN对于体积较小的结节,不能提取到足够的通道和空间特征进行肺结节检测,本发明在其主干网络每一个Stage之后加入双路径通道注意力模块(DPCA),如图3所示。在特征融合网络的横向连接阶段引入由不同空洞率的空洞卷积和空间注意力机制(CAM)融合而成的空洞空间注意力模块(ESA),如图4所示。
双路径通道注意力模块(DPCA)首先分别使用Kernel Size为3和5的两个不同大小的卷积核对特征图进行卷积,分两个路径提取特征,两个路径操作步骤一样。
第一步、Squeeze挤压(Fsq(·))将特征图进行全局平均池化,生成一个1×1×C的向量,将每个通道用一个数值表示。
H和W分别表示特征图的高和宽,uc表示卷积后的特征图。
第二步、激励Excitation(Fex(·,))通过两层全连接层完成,通过权重W生成我们我所要的权重信息,其中W是通过学习得到的,用来显示的建模我们我需要的特征相关性。通过两个全连接层W1和W2对上一步得到的向量z进行处理,得到我们想要的通道权重值s,经过两层全连接层后,s中不同的数值表示不同通道的权重信息,赋予通道不同的权重。两层全连接层之间存在一个超参数R,向量z(1×1×C)经过第一层全连接层后维度由(1×1×C)变为(1×1×C/R),再经过第二层全连接层为度由(1×1×C/R)变为(1×1×C)。第一层全连接层的激活函数为ReLU,第二层全连接层的激活函数为Sigmoid。
s=Fex(z,W)=δ(g(z,W))=δ(W2δ(W1)) (2)
W1和W2分别表示第一和第二个全连接层,δ表示ReLU激活函数,σ表示sigmoid激活函数。
第三步、Scale(Fscale)是将第二步生成权重向量s对特征图进行权重赋值,得到我们想要的特征图其尺寸大小与特征图完全一样,SE模块不改变特征图的小大。通过生成的特征向量s(1×1×C)与特征图(H×W×C),对应通道相乘,即特征图中每个通道的H×W个数值都乘s中对应通道的权值。
uc表示卷积后的特征图,sc表示第二步得到的特征图。
第四步、将两条路径得到的不同特征图进行融合。
空洞空间注意力模块(ESA)由不同空洞率的空洞卷积和空间注意力机制(CAM)融合而成。
空洞卷积的卷积核的计算方法为:
K=k+(k-1)×(r-1) (4)
其中,K是空洞卷积的实际卷积核大小,k是原卷积核大小,r是空洞卷积参数空洞率——卷积核的间隔数量,标准卷积r=1。当r=2时,3×3卷积核尺寸扩大为3+(3-1)*(2-1)=5,即5×5;r=4,扩大为9×9。
空洞卷积的感受野的计算方法为:
其中,rn为第n层每个点的感受野,rn-1为第n-1层每个点的感受野,kn是第n层卷积的卷积核大小,Si是第i层卷积的步长。
空间注意力模块(CAM):空间维度不变,压缩通道维度。该模块关注的是目标的位置信息。将通道注意力模块的输出结果通过最大池化和平均池化得到两个1*H*W的特征图,然后经过拼接操作对两个特征图进行拼接,通过7*7卷积变为1通道的特征图,再经过一个sigmoid得到空间注意力的特征图,最后将输出结果乘原图变回C*H*W大小。
空间注意力公式如下:
其中,和/>分别为对空间上的特征进行全局平均池化和最大池化操作,f为对两个拼接融合的特征使用1×1的卷积操作,σ为sigmoid激活函数。
所述步骤四中,原始Mask-R-CNN中RPN网络生成的锚框(Anchor)长宽比为2:1,1:1,1:2三种比例,大小为128*128,256*256,512*512共9个锚框,锚框尺寸过大,与实际检测目标尺寸不太吻合,根据肺结节的形态和特征,对原模型中的锚框机制进行改进。由于肺结节尺寸较小,且均为类球形实体,因此将原模型中的三种不同长宽比均改为1:1。其次根据肺结节的像素大小,设计了尺寸为8,16,24,32,40,48,56,64的8种锚框进行区域建议生成。
所述步骤五中,在肺结节检测模型的训练过程中会存在正样本与负样本比率严重失衡的问题,即数据集中各个类别的样本数量极不均衡,从而使得分类模型产生严重的偏向性,导致模型无法学习少例样本的特征最终产生预测失误的结果。为解决上述问题,本发明引入focal loss作为改进网络的损失函数来解决训练样本的非均衡性。focal loss的定义如下所示:
FL(Pt)=-α(1-Pt)γlog(Pt) (9)
式中:α和γ是参数,表明其对分类样本的敏感度,α用于调节正负样本不均衡,γ用于减少易分类样本中的损耗;P为样本的预测概率;y为样本标签。
所述步骤六中,学习复杂的肺结节特征通常需要深度网络,ResNet旨在克服网络深度增加时的精度下降。将检测到的候选结节根据检测位置裁剪送入三维ResNet卷积神经网络,首先经过一个5×5×5的Conv,接下来使用第一种Bottleneck结构的残差块,该结构带有1×1×1的Conv调整通道和分辨率,第二种Bottleneck结构的残差块没有这个1×1×1的Conv。这两个Bottleneck结构的残差块按顺序反复堆叠三次,接一个全局平池化和全连接相接,最后使用Softmax二分类判定是否为结节,进行假阳性的筛除,提高整个系统的肺结节检测精度。
所述步骤七中,利用所选数据集对改进后的肺结节检测模型进行训练,将训练后最佳的权重文件加载至本发明的模型中,进行特征提取,生成一系列候选区域,然后根据候选区域与图片上物体真实框之间的位置关系对候选框进行标注,生成肺结节预测框和肺结节预测置信度,达到预期的效果。
本发明提供的一种融合双路径通道注意力和空洞空间注意力的改进Mask-R-CNN肺结节辅助检测方法旨在从临床真实CT病例中精准并快速检测出肺结节,节省放射科医生大量阅片时间,向医生提供宝贵的“第二意见”,以减轻医生的工作量,从而提高肺部疾病诊断的准确率和工作效率。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (7)
1.一种融合双路径通道注意力和空洞空间注意力的改进Mask-R-CNN肺结节辅助检测方法,其特征在于:包括如下步骤:
S1:数据集预处理;
S2:肺实质分割;
S3:融合双路径通道注意力和空洞空间注意力,基于改进的Mask-R-CNN构建改进的候选结节检测与分割模型;
S4:针对肺结节特征修改RPN;
S5:针对数据不均衡改进损失函数;
S6:构建三维ResNet去假阳性模型,进行假阳性筛除;
S7:利用所选数据集对改进后的肺结节检测模型进行训练,将训练后最佳的权重文件加载至改进的Mask-R-CNN构建改进的候选结节检测与分割模型中进行特征提取,生成一系列候选区域,然后根据候选区域与图片上物体真实框之间的位置关系对候选框进行标注,生成肺结节预测框和肺结节预测置信度,达到预期的效果。
2.根据权利要求1所述的融合双路径通道注意力和空洞空间注意力的改进Mask-R-CNN肺结节辅助检测方法,其特征在于:所述步骤S1中,使用Luna16数据集,首先对数据集CT图像进行预处理,包括图像翻转、坐标转换、像素值截断处理,之后转化为VOC格式数据集,并划分为训练集和验证集。
3.根据权利要求1所述的融合双路径通道注意力和空洞空间注意力的改进Mask-R-CNN肺结节辅助检测方法,其特征在于:所述步骤S2中所述肺实质分割,具体包括以下步骤:
S21:通过阈值法对CT切片图像的像素值进行标准化;
S22:可视化亮度分布直方图,找出肺部附近的平均像素值,对洗掉的图像进行重新正规化;
S23:使用K-means聚类算法分离前景和背景,得到二值像素之后,使用膨胀运算扩大肺实质区域,并将区域内部填满,生成一个连通的区域,再用腐蚀将肺实质区域变窄,最后肺实质部分为白色,其余区域为黑色,从而生成对应的肺实质二值掩模;
S24:将得到的肺实质掩膜与原始图像进行加叠,得到肺实质图像。
4.根据权利要求1所述的融合双路径通道注意力和空洞空间注意力的改进Mask-R-CNN肺结节辅助检测方法,其特征在于:步骤S3所述构建改进的候选结节检测与分割模型,为在Mask-R-CNN网络的主干网络每一个Stage之后加入双路径通道注意力模块DPCA;在特征融合网络的横向连接阶段引入由不同空洞率的空洞卷积和空间注意力机制CAM融合而成的空洞空间注意力模块ESA;包括以下步骤:
S31:Squeeze挤压(Fsq(·))将特征图进行全局平均池化,生成一个1×1×C的向量,将每个通道用一个数值表示:
H和W分别表示特征图的高和宽,uc表示卷积后的特征图;
S32:激励Excitation(Fex(·,))通过两层全连接层完成,通过权重生成我们我所要的权重信息:
s=Fex(z,W)=σ(g(z,W))=σ(W2δ(W1)) (2)
W1和W2分别表示第一和第二个全连接层,δ表示ReLU激活函数,σ表示sigmoid激活函数;
S33:Scale(Fscale)是将步骤S32生成权重向量对特征图进行权重赋值,得到特征图:
uc表示卷积后的特征图,sc表示第二步得到的特征图;
S34:将两条路径得到的不同特征图进行融合;空洞空间注意力模块ESA由不同空洞率的空洞卷积和空间注意力机制CAM融合而成;空洞卷积的卷积核的计算方法为:
K=k+(k-1)×(r-1) (4)
其中,K是空洞卷积的实际卷积核大小,k是原卷积核大小,r是空洞卷积参数空洞率——卷积核的间隔数量,标准卷积r=1;
空洞卷积的感受野的计算方法为:
其中,rn为第n层每个点的感受野,rn-1为第n-1层每个点的感受野,kn是第n层卷积的卷积核大小,Si是第i层卷积的步长;
空间注意力模块CAM:空间维度不变,压缩通道维度,空间注意力模块关注的是目标的位置信息,空间注意力公式如下:
其中,和/>分别为对空间上的特征进行全局平均池化和最大池化操作,f为对两个拼接融合的特征使用1×1的卷积操作,σ为sigmoid激活函数。
5.根据权利要求1所述的融合双路径通道注意力和空洞空间注意力的改进Mask-R-CNN肺结节辅助检测方法,其特征在于:步骤S4中,将所述改进的候选结节检测与分割模型的锚框生成长宽比和大小进行更改。
6.根据权利要求1所述的融合双路径通道注意力和空洞空间注意力的改进Mask-R-CNN肺结节辅助检测方法,其特征在于:步骤S5中,引入focal loss作为所述改进的候选结节检测与分割模型的损失函数,focal loss的定义如下所示:
FL(Pt)=-α(1-Pt)γlog(Pt) (9)
式中α和γ是参数,表明其对分类样本的敏感度,α用于调节正负样本不均衡,γ用于减少易分类样本中的损耗;P为样本的预测概率;y为样本标签。
7.根据权利要求1所述的融合双路径通道注意力和空洞空间注意力的改进Mask-R-CNN肺结节辅助检测方法,其特征在于:步骤S6中,将检测到的候选结节根据检测位置裁剪送入三维ResNet卷积神经网络,首先经过一个5×5×5的Conv,然后使用第一种Bottleneck结构的残差块,该结构带有1×1×1的Conv调整通道和分辨率,第二种Bottleneck结构的残差块没有所述1×1×1的Conv,这两个Bottleneck结构的残差块按顺序反复堆叠三次,接一个全局平池化和全连接相接,最后使用Softmax二分类判定是否为结节,进行假阳性的筛除。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310610943.5A CN116580017A (zh) | 2023-05-26 | 2023-05-26 | 融合双路径通道注意力和空洞空间注意力的改进Mask-R-CNN肺结节辅助检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310610943.5A CN116580017A (zh) | 2023-05-26 | 2023-05-26 | 融合双路径通道注意力和空洞空间注意力的改进Mask-R-CNN肺结节辅助检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116580017A true CN116580017A (zh) | 2023-08-11 |
Family
ID=87539470
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310610943.5A Pending CN116580017A (zh) | 2023-05-26 | 2023-05-26 | 融合双路径通道注意力和空洞空间注意力的改进Mask-R-CNN肺结节辅助检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116580017A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117951485A (zh) * | 2024-03-22 | 2024-04-30 | 南京信息工程大学 | 一种基于深度学习的温度廓线反演方法 |
-
2023
- 2023-05-26 CN CN202310610943.5A patent/CN116580017A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117951485A (zh) * | 2024-03-22 | 2024-04-30 | 南京信息工程大学 | 一种基于深度学习的温度廓线反演方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109493308B (zh) | 基于条件多判别生成对抗网络的医疗图像合成与分类方法 | |
CN108364006B (zh) | 基于多模式深度学习的医学图像分类装置及其构建方法 | |
CN109584252B (zh) | 基于深度学习的ct影像的肺叶段分割方法、装置 | |
Li et al. | Automatic cardiothoracic ratio calculation with deep learning | |
CN109087703B (zh) | 基于深度卷积神经网络的腹腔ct图像腹膜转移标记方法 | |
Li et al. | Attention-guided convolutional neural network for detecting pneumonia on chest x-rays | |
Xie et al. | Computer‐Aided System for the Detection of Multicategory Pulmonary Tuberculosis in Radiographs | |
Li et al. | Lung nodule detection with deep learning in 3D thoracic MR images | |
Yao et al. | Pneumonia Detection Using an Improved Algorithm Based on Faster R‐CNN | |
Pant et al. | Pneumonia detection: An efficient approach using deep learning | |
Chen et al. | LDNNET: towards robust classification of lung nodule and cancer using lung dense neural network | |
CN112241948A (zh) | 一种自适应层厚的肺结节检测分析方法及系统 | |
CN110738662B (zh) | 基于细粒度医学图像分割与真值发现数据扩增的垂体瘤质地影像分级方法 | |
CN116580017A (zh) | 融合双路径通道注意力和空洞空间注意力的改进Mask-R-CNN肺结节辅助检测方法 | |
JP2024027079A (ja) | 腫瘍微小環境を考慮した全スライド病理画像分類システム及び構築方法 | |
CN115131280A (zh) | 一种融合注意力机制的改进YOLO v4肺结节检测方法 | |
Li et al. | COVID‐19 diagnosis on CT scan images using a generative adversarial network and concatenated feature pyramid network with an attention mechanism | |
Hao et al. | Lung adenocarcinoma diagnosis in one stage | |
CN114299080A (zh) | 一种基于空洞残差特征金字塔的咽喉器官分割方法 | |
CN117710760B (zh) | 残差的注意神经网络用于胸部x线病灶检测的方法 | |
Li et al. | PNet: An efficient network for pneumonia detection | |
Almutairi et al. | An Efficient USE‐Net Deep Learning Model for Cancer Detection | |
CN115631387B (zh) | 基于图卷积神经网络的肺癌病理高危因素预测方法和装置 | |
Sousa et al. | Cnn filter learning from drawn markers for the detection of suggestive signs of covid-19 in ct images | |
CN115439471A (zh) | 一种面向肠道部位ct影像的图像处理方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |