CN115331024A - 一种基于深度监督和逐步学习的肠道息肉检测方法 - Google Patents
一种基于深度监督和逐步学习的肠道息肉检测方法 Download PDFInfo
- Publication number
- CN115331024A CN115331024A CN202211007876.XA CN202211007876A CN115331024A CN 115331024 A CN115331024 A CN 115331024A CN 202211007876 A CN202211007876 A CN 202211007876A CN 115331024 A CN115331024 A CN 115331024A
- Authority
- CN
- China
- Prior art keywords
- features
- dimension
- scale
- layer
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度监督和逐步学习的肠道息肉检测方法,利用PVT_V2对肠镜拍摄图像进行多尺度特征提取;将提取到的多尺度特征输入细节增强模块,输出细节增强后的特征;将细节增强后的特征输入指导融合模块,使低层特征在高层特征的指导下与高层特征进行融合;将最高层的特征输入多分支解码器模块,得到多尺度信息融合解码后的特征;将细节增强后的特征与前一个多尺度解码器的输出结果输入多尺度解码器,逐步学习得到每一层多尺度解码器的输出特征;将多尺度解码器的输出特征通过一个一层卷积层,得到检测结果。本发明在多尺度解码器中继续突出多尺度的细节信息,实现了对肠道息肉的精准定位和准确检测,并具有良好的泛化能力。
Description
技术领域
本申请属于图像处理技术领域,具体涉及一种基于深度监督和逐步学习的肠道息肉检测方法。
背景技术
医学图像检测是人工智能辅助诊断的重要组成部分,它可以为医生提供一些细节信息,辅助医生进行诊断。对于常见的癌症结肠癌来说,早期发现并切除息肉是预防癌症发作的有效手段。在肠镜捕获图像中检测息肉对于预防结肠癌有重要意义。最近,自然图像的图像检测取得了很大的进展,相比之下,医学图像中的检测问题仍面临着巨大的挑战。由于医学图像的数据集一般比较小,检测目标的形状又具有很大区别,所以很难将自然图像的检测方法的直接迁移应用到医学图像检测中去。因此,如何准确捕捉图像特征,提高模型的泛化能力,对医学图像检测的进一步探索至关重要。
最近,基于卷积神经网络(CNN)的医学图像检测方法在许多数据集中取得了良好的表现。其中最具代表性的方法是U-Net,它通过跳跃连接很好地捕获了上下文信息。但是由于CNN模型的自顶向下建模方法以及息肉形态的多变性,这些模型缺乏对全局信息的捕获能力和泛化能力,很多时候会识别不出一些不明显的息肉。Xie等人在2021年提出了SegFormer,将Transformer应用到图像检测领域,并提出了一种多阶段特征聚合多分支解码器,通过简单的上采样然后并行融合分别预测不同尺度和深度的特征。Ange等人提出的CaraNet利用反向注意力提取小物体的细节信息,然后通过Transformer对全局关系进行建模。CaraNet对于小物体的检测非常精准,在医学图像检测任务中创造了新的记录。这些基于Transformer的方法对检测的主体把握的很好,但是对于低级纹理信息的处理还有所欠缺,导致检测结果的边界并不精准。
发明内容
本发明要克服现有技术的缺点,提供基于深度监督和逐步学习的肠道息肉检测方法。通过Transformer中的变体PVT来提取特征,用卷积层来捕获多尺度的细节信息,通过深度监督的方式逐层进行学习,逐步融合各层特征以获得精确的检测结果。
为实现上述目的,本发明所采取的技术方案为:
一种基于深度监督和逐步学习的肠道息肉检测方法,包括:
输入待检测的352×352×3的肠道息肉图像,使用PVT_V2对肠镜拍摄图像进行特征提取,提取四个尺度特征,四个尺度分别为88×88×64、44×44×128、22×22×320和11×11×512;
将提取到的四个尺度的特征输入细节增强模块,输出细节增强并压缩通道数为64后的第一至第四增强特征;
将细节增强后的第一、二、三个增强特征与第二、三、四个增强特征成对输入指导融合模块,输出融合后的第一至第三融合特征;
将第一至第三融合特征和第四增强特征分别输入第一至第四层多分支解码器,第一至第四层各个多分支解码器依次连接,后一层多分支解码器的输出同时作为其前一层多分枝解码器的输入,得到多分支解码器解码后的第一至第四解码特征;
将第一至第四解码特征分别通过一个3×3的卷积,得到四个通道数为1的检测结果,以第一解码特征对应的检测结果作为最终检测结果。
进一步的,所述细节增强模块,执行如下操作:
进一步的,所述指导融合模块,执行如下操作:
其中,SA(·)为空间注意力;
进一步的,所述第四层多分支解码器,执行如下操作:
所述第一至第三层多分支解码器,解码过程如下:
本申请提供的基于深度监督和逐步学习的肠道息肉检测方法,利用利用深度监督对PVT_V2提取的特征进行逐层学习。通过细节增强捕获细节信息并去除冗余的通道信息,利用指导融合模块逐步融合高语义信息和低语义信息,让高层学习结果指导低层的学习。并通过多分支解码器进行检测,得到更准确的肠道息肉检测结果。
附图说明
图1为本申请基于深度监督和逐步学习的肠道息肉检测方法的流程图;
图2为本申请网络模型整体架构图;
图3为本申请实施例细节增强模块结构示意图;
图4为本申请指导融合模块结构示意图;
图5为本申请多分支解码器模块结构示意图;
图6为本申请空间注意SA模块结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅用以解释本申请,并不用于限定本申请。
在一个实施例中,提供了一种基于深度监督和逐步学习的肠道息肉检测方法,充分利用了Transformer的全局依赖捕获能力和CNN的细节捕获能力,实现肠道息肉图像的准确检测。
具体的,如图1所示,本实施例中基于深度监督和逐步学习的肠道息肉检测方法,包括:
步骤S1、输入待检测的352×352×3的肠道息肉图像,使用PVT_V2对肠镜拍摄图像进行特征提取,提取四个尺度特征,四个尺度分别为88×88×64、44×44×128、22×22×320和11×11×512。
首先,获取待检测肠道息肉图像,然后缩放为352×352×3,作为后续处理的输入图像。
本实例中,为了更好利用Transformer的自注意力机制更好的捕获图像中的全局依赖关系,使用PVT_V2骨干网络对图像进行特征提取。利用PVT_V2对输入的353×352×3肠道息肉图像进行特征提取,旨在提取不同尺度的特征,高层次的网络的感受野比较大,语义信息表征能力强,能够准确的定位目标位置;低层次的网络的感受野比较小,几何细节信息表征能力强,有助于补全边界细节信息。
经过PVT_V2进行特征提取后,得到的四个尺度的特征分别为88×88×64、44×44×128、22×22×320和11×11×512,在图2中对应PVT1、PVT2、PVT3和PVT4的输出。
步骤S2、将提取到的四个尺度的特征输入细节增强模块,输出细节增强并压缩通道数为64后的第一至第四增强特征。
本实例中,如图2所示,对于四个不同尺度的特征输出先通道压缩以去除通道冗余信息并提高模型计算速度,然后分别通过四个大小不一的卷积核提取不同尺度的细节特征,再将这些不同尺度的特征在通道维度上连接起来,通过两层3×3的卷积核融合各尺度的信息并降低通道数。
肠镜拍摄图像通过PVT_V2的特征提取得到四个尺度的特征其尺度分别为88×88×64,44×44×128,22×22×320,11×11×512,将其分别输入细节增强模块。本实施例中细节增强模块如图3所示,过程如下:
S21、将提取得到的任一特征fi o通过一层1×1卷积,使其压缩到64个通道并保持原有空间尺度,去除检测任务中冗余的通道信息,输出尺度为Hi×Wi×64,Hi、Hi分别为特征fi o的高度和宽度。
步骤S3、将细节增强后的第一、二、三个增强特征与第二、三、四个增强特征成对输入指导融合模块,输出融合后的第一至第三融合特征。
本实例中,如图4所示,对于输入特征和由上采样后通过SA模块生成空间注意力图smapi+1,用空间注意力图与低层特征进行元素乘法,得到凸显显著区域的并于作跳跃连接。将结果与拼接后用3×3的卷积层融合,得到输出
本实施例中指导融合模块过程如下:
其中,SA(·)为空间注意力,SA模块结构如图6所示。
步骤S4、将第一至第三融合特征和第四增强特征分别输入第一至第四层多分支解码器,第一至第四层各个多分支解码器依次连接,后一层多分支解码器的输出同时作为其前一层多分枝解码器的输入,得到多分支解码器解码后的第一至第四解码特征。
本实例中,分别将第一至第三融合特征和第四增强特征输入到各自对应的多分支解码器,第四增强特征输入到第四层多分支解码器,第一至第三融合特征依次输入到第一至第三层多分支解码器。
本实施例中,第一至第三层多分支解码器,解码过程如下:
步骤S5、将第一至第四解码特征分别通过一个3×3的卷积,得到四个通道数为1的检测结果,以第一解码特征对应的检测结果作为最终检测结果。
本步骤将解码后的特征分别通过一个3×3的卷积,得到四个通道数为1的检测结果。
在训练时,还将检测结果用插值法上采样的原图大小,计算损失函数并执行反向传播,来完成整个网络模型的训练。在训练好网络模型之后,采用训练好的网络模型,对输入的肠道息肉图像进行检测,输出检测结果。
本实例中利用BCE损失和IOU损失来计算最终的显著目标检测结果与真实标签之间的损失。
本实例中利用二进制交叉熵(BCE)计算真实标签和检测结果之间的差距。BCE是分类中一种广泛使用的损失,计算的公式如下:
IOU损失主要用于测量两幅图像在整体上的相似性,计算公式如下:
其中,g(x,y)∈[0,1]是检测图片的真实标签,p(x,y)∈[0,1]是模型对检测图片的检测结果。
在使用训练好的模型时,只使用第一层的多分支解码器的输出结果,将其用3×3卷积把通道数降为1,得到每一个像素是息肉目标的概率值。将概率值大于等于0.5的标注为是息肉目标的白色像素,将概率值小于等于0.5的像素标注为不是息肉目标的黑色像素,得到最终的检测结果,即以白色像素标注息肉目标的黑白图像。
本实例中,利用交互编码器融合了主体特征和边缘特征,再反馈给主体编码器和边缘编码器进行二次迭代,二次迭代的输出将具有更清晰的边缘特征,更符合实际标签。
本实施例利用多分支融合网络,将主体与边缘分开进行特征的多尺度提取和融合,有利于显著目标的边缘刻画。在实例中引入标签解耦的方法,该方法对肠道息肉图像标签进行解耦,利用距离变换法将原有标签解耦为主体标签和边缘标签,解耦后的标签有利于对模型的监督和评估。
本实施例设计了细节增强模块、指导融合模块和多分支解码模块。在使用Transformer骨干网络提取特征的基础上,用卷积神经网络进行局部信息的增强和特征融合。用深度监督使每一层的特征融合结果都得到学习,逐步融合得到清晰准确的最终结果。在Transformer的自注意力机制准确定位检测区域的基础上,用卷积神经网络捕捉细节信息并进行融合,充分利用两者的优势,得到清晰准确的结果。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (4)
1.一种基于深度监督和逐步学习的肠道息肉检测方法,其特征在于,所述基于深度监督和逐步学习的肠道息肉检测方法,包括:
输入待检测的352×352×3的肠道息肉图像,使用PVT_V2对肠镜拍摄图像进行特征提取,提取四个尺度特征,四个尺度分别为88×88×64、44×44×128、22×22×320和11×11×512;
将提取到的四个尺度的特征输入细节增强模块,输出细节增强并压缩通道数为64后的第一至第四增强特征;
将细节增强后的第一、二、三个增强特征与第二、三、四个增强特征成对输入指导融合模块,输出融合后的第一至第三融合特征;
将第一至第三融合特征和第四增强特征分别输入第一至第四层多分支解码器,第一至第四层各个多分支解码器依次连接,后一层多分支解码器的输出同时作为其前一层多分枝解码器的输入,得到多分支解码器解码后的第一至第四解码特征;
将第一至第四解码特征分别通过一个3×3的卷积,得到四个通道数为1的检测结果,以第一解码特征对应的检测结果作为最终检测结果。
2.根据权利要求1所述的基于深度监督和逐步学习的肠道息肉检测方法,其特征在于,所述细节增强模块,执行如下操作:
S21、将提取得到的任一尺度特征fi o通过一层1×1卷积,使其压缩到64个通道并保持原有空间尺度,去除检测任务中冗余的通道信息,输出尺度为Hi×Wi×64,Hi、Wi分别为特征fi o的高度和宽度;
S23、将S22的结果在通道维度上进行拼接,得到尺度为Hi×Wi×256的融合特征fi decat;
S24、将获得的特征fi decat通过两层3×3卷积,融合捕获了不同尺度信息的特征,生成增强特征fi de,其尺度为Hi×Wi×64。
3.根据权利要求1所述的基于深度监督和逐步学习的肠道息肉检测方法,其特征在于,所述指导融合模块,执行如下操作:
其中,SA(·)为空间注意力;
S34、令特征fi de和smapi+1进行元素乘法,突出显著区域的特征,计算公式如下:
S35、将fi de与fi sa进行残差连接,使之保留低层特征的信息,提高训练稳定性,计算公式如下:
fl gf=fi sa+fi de;
S37、将获得的特征fi gf通过一层3×3卷积,融合捕获不同尺度信息的特征,输出融合特征fi gfout,其尺度为Hi×Wi×64。
4.根据权利要求1所述的基于深度监督和逐步学习的肠道息肉检测方法,其特征在于,所述第四层多分支解码器,执行如下操作:
所述第一至第三层多分支解码器,解码过程如下:
S422、将fi bdin输入一个1×1卷积,融合该层特征和上层特征的结果得到尺度为Hi×Wi×64的结果fi bdpre;
S423、将fi bdpre分别通过1×1,3×3,5×5的3个卷积核,得到捕获了不同尺度信息的3个特征fi bd1,fi bd2,fi bd3,三个特征的尺度均为Hi×Wi×64;
S424、将特征fi bd1,fi bd2,fi bd3在通道维度上进行拼接,得到尺度为Hi×Wi×192的融合特征fi bdcat;
S425、将获得的特征fi bdcat通过两层3×3卷积,融合捕获了不同尺度信息的特征,生成解码特征fi bd,其尺度为Hi×Wi×64。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211007876.XA CN115331024A (zh) | 2022-08-22 | 2022-08-22 | 一种基于深度监督和逐步学习的肠道息肉检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211007876.XA CN115331024A (zh) | 2022-08-22 | 2022-08-22 | 一种基于深度监督和逐步学习的肠道息肉检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115331024A true CN115331024A (zh) | 2022-11-11 |
Family
ID=83926725
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211007876.XA Pending CN115331024A (zh) | 2022-08-22 | 2022-08-22 | 一种基于深度监督和逐步学习的肠道息肉检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115331024A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116823833A (zh) * | 2023-08-30 | 2023-09-29 | 山东科技大学 | 全方位mip图像颅内动脉瘤检测方法、系统及设备 |
CN117132774A (zh) * | 2023-08-29 | 2023-11-28 | 河北师范大学 | 一种基于pvt的多尺度息肉分割方法及系统 |
-
2022
- 2022-08-22 CN CN202211007876.XA patent/CN115331024A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117132774A (zh) * | 2023-08-29 | 2023-11-28 | 河北师范大学 | 一种基于pvt的多尺度息肉分割方法及系统 |
CN117132774B (zh) * | 2023-08-29 | 2024-03-01 | 河北师范大学 | 一种基于pvt的多尺度息肉分割方法及系统 |
CN116823833A (zh) * | 2023-08-30 | 2023-09-29 | 山东科技大学 | 全方位mip图像颅内动脉瘤检测方法、系统及设备 |
CN116823833B (zh) * | 2023-08-30 | 2023-11-10 | 山东科技大学 | 全方位mip图像颅内动脉瘤检测方法、系统及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kim et al. | Self-supervised video representation learning with space-time cubic puzzles | |
US20200250436A1 (en) | Video object segmentation by reference-guided mask propagation | |
Ye et al. | PMBANet: Progressive multi-branch aggregation network for scene depth super-resolution | |
Xu et al. | Learning deep structured multi-scale features using attention-gated crfs for contour prediction | |
CN111401384B (zh) | 一种变电设备缺陷图像匹配方法 | |
CN112347859B (zh) | 一种光学遥感图像显著性目标检测方法 | |
Yin et al. | FD-SSD: An improved SSD object detection algorithm based on feature fusion and dilated convolution | |
CN110175986B (zh) | 一种基于卷积神经网络的立体图像视觉显著性检测方法 | |
CN115331024A (zh) | 一种基于深度监督和逐步学习的肠道息肉检测方法 | |
CN109726718B (zh) | 一种基于关系正则化的视觉场景图生成系统及方法 | |
CN114782694A (zh) | 无监督异常检测方法、系统、设备及存储介质 | |
CN114119975A (zh) | 一种语言引导的跨模态实例分割方法 | |
CN116309648A (zh) | 一种基于多注意力融合的医学图像分割模型构建方法 | |
CN114724155A (zh) | 基于深度卷积神经网络的场景文本检测方法、系统及设备 | |
CN114549574A (zh) | 一种基于掩膜传播网络的交互式视频抠图系统 | |
CN117078930A (zh) | 基于边界感知和注意力机制的医学图像分割方法 | |
CN112036260A (zh) | 一种自然环境下多尺度子块聚合的表情识别方法及系统 | |
CN115953582B (zh) | 一种图像语义分割方法及系统 | |
Chen et al. | SARAS-net: scale and relation aware siamese network for change detection | |
CN113903022A (zh) | 基于特征金字塔与注意力融合的文本检测方法及系统 | |
CN112528782A (zh) | 水下鱼类目标检测方法及装置 | |
Wang et al. | Thermal images-aware guided early fusion network for cross-illumination RGB-T salient object detection | |
Yao et al. | Transformers and CNNs fusion network for salient object detection | |
Wang et al. | Msfnet: multistage fusion network for infrared and visible image fusion | |
CN113393434A (zh) | 一种基于非对称双流网络架构的rgb-d显著性检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |