CN115331024A - 一种基于深度监督和逐步学习的肠道息肉检测方法 - Google Patents

一种基于深度监督和逐步学习的肠道息肉检测方法 Download PDF

Info

Publication number
CN115331024A
CN115331024A CN202211007876.XA CN202211007876A CN115331024A CN 115331024 A CN115331024 A CN 115331024A CN 202211007876 A CN202211007876 A CN 202211007876A CN 115331024 A CN115331024 A CN 115331024A
Authority
CN
China
Prior art keywords
features
dimension
scale
layer
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211007876.XA
Other languages
English (en)
Inventor
郑建炜
严亦东
全玥芊
邵安昊
潘翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202211007876.XA priority Critical patent/CN115331024A/zh
Publication of CN115331024A publication Critical patent/CN115331024A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度监督和逐步学习的肠道息肉检测方法,利用PVT_V2对肠镜拍摄图像进行多尺度特征提取;将提取到的多尺度特征输入细节增强模块,输出细节增强后的特征;将细节增强后的特征输入指导融合模块,使低层特征在高层特征的指导下与高层特征进行融合;将最高层的特征输入多分支解码器模块,得到多尺度信息融合解码后的特征;将细节增强后的特征与前一个多尺度解码器的输出结果输入多尺度解码器,逐步学习得到每一层多尺度解码器的输出特征;将多尺度解码器的输出特征通过一个一层卷积层,得到检测结果。本发明在多尺度解码器中继续突出多尺度的细节信息,实现了对肠道息肉的精准定位和准确检测,并具有良好的泛化能力。

Description

一种基于深度监督和逐步学习的肠道息肉检测方法
技术领域
本申请属于图像处理技术领域,具体涉及一种基于深度监督和逐步学习的肠道息肉检测方法。
背景技术
医学图像检测是人工智能辅助诊断的重要组成部分,它可以为医生提供一些细节信息,辅助医生进行诊断。对于常见的癌症结肠癌来说,早期发现并切除息肉是预防癌症发作的有效手段。在肠镜捕获图像中检测息肉对于预防结肠癌有重要意义。最近,自然图像的图像检测取得了很大的进展,相比之下,医学图像中的检测问题仍面临着巨大的挑战。由于医学图像的数据集一般比较小,检测目标的形状又具有很大区别,所以很难将自然图像的检测方法的直接迁移应用到医学图像检测中去。因此,如何准确捕捉图像特征,提高模型的泛化能力,对医学图像检测的进一步探索至关重要。
最近,基于卷积神经网络(CNN)的医学图像检测方法在许多数据集中取得了良好的表现。其中最具代表性的方法是U-Net,它通过跳跃连接很好地捕获了上下文信息。但是由于CNN模型的自顶向下建模方法以及息肉形态的多变性,这些模型缺乏对全局信息的捕获能力和泛化能力,很多时候会识别不出一些不明显的息肉。Xie等人在2021年提出了SegFormer,将Transformer应用到图像检测领域,并提出了一种多阶段特征聚合多分支解码器,通过简单的上采样然后并行融合分别预测不同尺度和深度的特征。Ange等人提出的CaraNet利用反向注意力提取小物体的细节信息,然后通过Transformer对全局关系进行建模。CaraNet对于小物体的检测非常精准,在医学图像检测任务中创造了新的记录。这些基于Transformer的方法对检测的主体把握的很好,但是对于低级纹理信息的处理还有所欠缺,导致检测结果的边界并不精准。
发明内容
本发明要克服现有技术的缺点,提供基于深度监督和逐步学习的肠道息肉检测方法。通过Transformer中的变体PVT来提取特征,用卷积层来捕获多尺度的细节信息,通过深度监督的方式逐层进行学习,逐步融合各层特征以获得精确的检测结果。
为实现上述目的,本发明所采取的技术方案为:
一种基于深度监督和逐步学习的肠道息肉检测方法,包括:
输入待检测的352×352×3的肠道息肉图像,使用PVT_V2对肠镜拍摄图像进行特征提取,提取四个尺度特征,四个尺度分别为88×88×64、44×44×128、22×22×320和11×11×512;
将提取到的四个尺度的特征输入细节增强模块,输出细节增强并压缩通道数为64后的第一至第四增强特征;
将细节增强后的第一、二、三个增强特征与第二、三、四个增强特征成对输入指导融合模块,输出融合后的第一至第三融合特征;
将第一至第三融合特征和第四增强特征分别输入第一至第四层多分支解码器,第一至第四层各个多分支解码器依次连接,后一层多分支解码器的输出同时作为其前一层多分枝解码器的输入,得到多分支解码器解码后的第一至第四解码特征;
将第一至第四解码特征分别通过一个3×3的卷积,得到四个通道数为1的检测结果,以第一解码特征对应的检测结果作为最终检测结果。
进一步的,所述细节增强模块,执行如下操作:
S21、将提取得到的任一尺度特征
Figure BDA0003809737630000021
通过一层1×1卷积,使其压缩到64个通道并保持原有空间尺度,去除检测任务中冗余的通道信息,输出尺度为Hi×Wi×64,Hi、Wi分别为特征
Figure BDA0003809737630000022
的高度和宽度;
S22、将S21的结果分别通过1×1,3×3,5×5,7×7的4个卷积核,得到捕获了不同尺度信息的四个特征
Figure BDA0003809737630000023
尺度均为Hi×Wi×64;
S23、将S22的结果在通道维度上进行拼接,得到尺度为Hi×Wi×256的融合特征
Figure BDA0003809737630000024
S24、将获得的特征
Figure BDA0003809737630000025
通过两层3×3卷积,融合捕获了不同尺度信息的特征,生成增强特征
Figure BDA0003809737630000031
其尺度为Hi×Wi×64。
进一步的,所述指导融合模块,执行如下操作:
S31、对于提取到的四个增强特征
Figure BDA0003809737630000032
将其以
Figure BDA0003809737630000033
的对应关系输入指导融合模块;
S32、将
Figure BDA0003809737630000034
用双线性插值的方式进行上采样,得到与
Figure BDA0003809737630000035
的空间维度相同的特征
Figure BDA0003809737630000036
S33、将上采样后的特征
Figure BDA0003809737630000037
通过空间注意处理,得到注意力权重smapi+1表示,计算公式如下:
Figure BDA0003809737630000038
其中,SA(·)为空间注意力;
S34、令特征
Figure BDA0003809737630000039
和smapi+1进行元素乘法,突出显著区域的特征,计算公式如下:
Figure BDA00038097376300000310
其中,
Figure BDA00038097376300000322
为元素乘法;
S35、将
Figure BDA00038097376300000311
Figure BDA00038097376300000312
进行残差连接,使之保留低层特征的信息,提高训练稳定性,计算公式如下:
Figure BDA00038097376300000313
S36、将
Figure BDA00038097376300000314
Figure BDA00038097376300000315
在通道维度上拼接融合,得到尺度为Hi×Wi×128的结果
Figure BDA00038097376300000316
S37、将获得的特征
Figure BDA00038097376300000317
通过一层3×3卷积,融合捕获不同尺度信息的特征,输出融合特征
Figure BDA00038097376300000318
其尺度为Hi×Wi×64。
进一步的,所述第四层多分支解码器,执行如下操作:
S411、将第四增强特征
Figure BDA00038097376300000319
输入一个1×1卷积,进一步学习不同通道上的信息得到尺度为11×11×64结果;
S412、将S41的结果分别通过1×1,3×3,5×5的4个卷积核,得到捕获了不同尺度信息的3个特征
Figure BDA00038097376300000320
三个特征的尺度均为Hi×Wi×64;
S413、将S42的三个结果在通道维度上进行拼接,得到尺度为Hi×Wi×192的融合特征
Figure BDA00038097376300000321
S414、将获得的特征
Figure BDA0003809737630000041
通过两层3×3卷积,融合捕获了不同尺度信息的特征,生成解码特征
Figure BDA0003809737630000042
其尺度为Hi×Wi×64;
所述第一至第三层多分支解码器,解码过程如下:
S421、将融合特征
Figure BDA0003809737630000043
和前一个多分支解码器输出的解码特征
Figure BDA0003809737630000044
在通道维度上进行拼接,得到尺度为Hi×Wi×64的融合特征
Figure BDA0003809737630000045
S422、将
Figure BDA0003809737630000046
输入一个1×1卷积,融合该层特征和上层特征的结果得到尺度为Hi×Wi×64的结果
Figure BDA0003809737630000047
S423、将
Figure BDA0003809737630000048
分别通过1×1,3×3,5×5的3个卷积核,得到捕获了不同尺度信息的3个特征
Figure BDA0003809737630000049
三个特征的尺度均为Hi×Wi×64;
S424、将特征
Figure BDA00038097376300000410
在通道维度上进行拼接,得到尺度为Hi×Wi×192的融合特征
Figure BDA00038097376300000411
S425、将获得的特征
Figure BDA00038097376300000412
通过两层3×3卷积,融合捕获了不同尺度信息的特征,生成解码特征
Figure BDA00038097376300000413
其尺度为Hi×Wi×64。
本申请提供的基于深度监督和逐步学习的肠道息肉检测方法,利用利用深度监督对PVT_V2提取的特征进行逐层学习。通过细节增强捕获细节信息并去除冗余的通道信息,利用指导融合模块逐步融合高语义信息和低语义信息,让高层学习结果指导低层的学习。并通过多分支解码器进行检测,得到更准确的肠道息肉检测结果。
附图说明
图1为本申请基于深度监督和逐步学习的肠道息肉检测方法的流程图;
图2为本申请网络模型整体架构图;
图3为本申请实施例细节增强模块结构示意图;
图4为本申请指导融合模块结构示意图;
图5为本申请多分支解码器模块结构示意图;
图6为本申请空间注意SA模块结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅用以解释本申请,并不用于限定本申请。
在一个实施例中,提供了一种基于深度监督和逐步学习的肠道息肉检测方法,充分利用了Transformer的全局依赖捕获能力和CNN的细节捕获能力,实现肠道息肉图像的准确检测。
具体的,如图1所示,本实施例中基于深度监督和逐步学习的肠道息肉检测方法,包括:
步骤S1、输入待检测的352×352×3的肠道息肉图像,使用PVT_V2对肠镜拍摄图像进行特征提取,提取四个尺度特征,四个尺度分别为88×88×64、44×44×128、22×22×320和11×11×512。
首先,获取待检测肠道息肉图像,然后缩放为352×352×3,作为后续处理的输入图像。
本实例中,为了更好利用Transformer的自注意力机制更好的捕获图像中的全局依赖关系,使用PVT_V2骨干网络对图像进行特征提取。利用PVT_V2对输入的353×352×3肠道息肉图像进行特征提取,旨在提取不同尺度的特征,高层次的网络的感受野比较大,语义信息表征能力强,能够准确的定位目标位置;低层次的网络的感受野比较小,几何细节信息表征能力强,有助于补全边界细节信息。
经过PVT_V2进行特征提取后,得到的四个尺度的特征分别为88×88×64、44×44×128、22×22×320和11×11×512,在图2中对应PVT1、PVT2、PVT3和PVT4的输出。
步骤S2、将提取到的四个尺度的特征输入细节增强模块,输出细节增强并压缩通道数为64后的第一至第四增强特征。
本实例中,如图2所示,对于四个不同尺度的特征输出
Figure BDA0003809737630000051
先通道压缩以去除通道冗余信息并提高模型计算速度,然后分别通过四个大小不一的卷积核提取不同尺度的细节特征,再将这些不同尺度的特征在通道维度上连接起来,通过两层3×3的卷积核融合各尺度的信息并降低通道数。
肠镜拍摄图像通过PVT_V2的特征提取得到四个尺度的特征
Figure BDA0003809737630000052
其尺度分别为88×88×64,44×44×128,22×22×320,11×11×512,将其分别输入细节增强模块。本实施例中细节增强模块如图3所示,过程如下:
S21、将提取得到的任一特征fi o通过一层1×1卷积,使其压缩到64个通道并保持原有空间尺度,去除检测任务中冗余的通道信息,输出尺度为Hi×Wi×64,Hi、Hi分别为特征fi o的高度和宽度。
S22、将S21的结果分别通过1×1,3×3,5×5,7×7的4个卷积核,得到捕获了不同尺度信息的四个特征
Figure BDA0003809737630000061
尺度均为Hi×Wi×64。
S23、将S22的结果在通道维度上进行拼接,得到尺度为Hi×Wi×256的融合特征
Figure BDA0003809737630000062
S24、将获得的特征
Figure BDA0003809737630000063
通过两层3×3卷积,融合捕获了不同尺度信息的特征,生成增强特征
Figure BDA0003809737630000064
其尺度为Hi×Wi×64。
步骤S3、将细节增强后的第一、二、三个增强特征与第二、三、四个增强特征成对输入指导融合模块,输出融合后的第一至第三融合特征。
本实例中,如图4所示,对于输入特征
Figure BDA0003809737630000065
Figure BDA0003809737630000066
Figure BDA0003809737630000067
上采样后通过SA模块生成空间注意力图smapi+1,用空间注意力图与低层特征
Figure BDA0003809737630000068
进行元素乘法,得到凸显显著区域的
Figure BDA0003809737630000069
并于
Figure BDA00038097376300000610
作跳跃连接。将结果
Figure BDA00038097376300000611
Figure BDA00038097376300000612
拼接后用3×3的卷积层融合,得到输出
Figure BDA00038097376300000613
本实施例中指导融合模块过程如下:
S31、对于提取到的四个增强特征
Figure BDA00038097376300000614
将其以
Figure BDA00038097376300000615
的对应关系输入指导融合模块。
S32、将
Figure BDA00038097376300000616
用双线性插值的方式进行上采样,得到与
Figure BDA00038097376300000617
的空间维度相同的特征
Figure BDA00038097376300000618
S33、将上采样后的特征
Figure BDA00038097376300000619
通过空间注意处理,得到注意力权重,用smapi+1表示,计算公式如下:
Figure BDA00038097376300000620
其中,SA(·)为空间注意力,SA模块结构如图6所示。
S34、令特征
Figure BDA00038097376300000621
和smapi+1进行元素乘法,突出显著区域的特征,计算公式如下:
Figure BDA00038097376300000622
其中,
Figure BDA00038097376300000716
为元素乘法。
S35、将
Figure BDA0003809737630000071
Figure BDA0003809737630000072
进行残差连接,使之保留低层特征的信息,提高训练稳定性,计算公式如下:
Figure BDA0003809737630000073
S36、将
Figure BDA0003809737630000074
Figure BDA0003809737630000075
在通道维度上拼接融合,得到尺度为Hi×Wi×128的结果
Figure BDA0003809737630000076
S37、将获得的特征
Figure BDA0003809737630000077
通过一层3×3卷积,融合捕获不同尺度信息的特征,输出融合特征
Figure BDA0003809737630000078
其尺度为Hi×Wi×64。
步骤S4、将第一至第三融合特征和第四增强特征分别输入第一至第四层多分支解码器,第一至第四层各个多分支解码器依次连接,后一层多分支解码器的输出同时作为其前一层多分枝解码器的输入,得到多分支解码器解码后的第一至第四解码特征。
本实例中,分别将第一至第三融合特征和第四增强特征输入到各自对应的多分支解码器,第四增强特征输入到第四层多分支解码器,第一至第三融合特征依次输入到第一至第三层多分支解码器。
如图5所示,多分支解码器对于输入特征,先通过1×1卷积,进一步学习不同通道上的信息为,再通过三个不同的卷积分支提取不同尺度的信息,再次拼接融合得到最后的结果
Figure BDA0003809737630000079
本实施例,将第四增强特征
Figure BDA00038097376300000710
输入第四层多分支解码器,其尺度为11×11×64,解码过程如下:
S411、将第四增强特征
Figure BDA00038097376300000711
输入一个1×1卷积,进一步学习不同通道上的信息得到尺度为11×11×64结果。
S412、将S41的结果分别通过1×1,3×3,5×5的4个卷积核,得到捕获了不同尺度信息的3个特征
Figure BDA00038097376300000712
三个特征的尺度均为Hi×Wi×64。
S413、将S42的三个结果在通道维度上进行拼接,得到尺度为Hi×Wi×192的融合特征
Figure BDA00038097376300000713
S414、将获得的特征
Figure BDA00038097376300000714
通过两层3×3卷积,融合捕获了不同尺度信息的特征,生成解码特征
Figure BDA00038097376300000715
其尺度为Hi×Wi×64。
本实施例中,对于第一至第三层多分支解码器,输入特征为融合特征
Figure BDA0003809737630000081
和上一个多分支解码器输出的解码特征
Figure BDA0003809737630000082
先拼接通道后融合为
Figure BDA0003809737630000083
再通过三个不同的卷积分支提取不同尺度的信息,再次拼接融合得到最后的结果
Figure BDA0003809737630000084
本实施例中,第一至第三层多分支解码器,解码过程如下:
S421、将融合特征
Figure BDA0003809737630000085
和前一个多分支解码器输出的解码特征
Figure BDA0003809737630000086
在通道维度上进行拼接,得到尺度为Hi×Wi×64的融合特征
Figure BDA0003809737630000087
本实施例将前一个多分支解码器的输出
Figure BDA0003809737630000088
用双线性插值的方式进行上采样,得到与
Figure BDA0003809737630000089
的空间维度相同的特征
Figure BDA00038097376300000810
然后将
Figure BDA00038097376300000811
Figure BDA00038097376300000812
在通道维度上进行拼接,得到尺度为Hi×Wi×64的融合特征
Figure BDA00038097376300000813
S422、将
Figure BDA00038097376300000814
输入一个1×1卷积,融合该层特征和上层特征的结果得到尺度为Hi×Wi×64的结果
Figure BDA00038097376300000815
S423、将
Figure BDA00038097376300000816
分别通过1×1,3×3,5×5的3个卷积核,得到捕获了不同尺度信息的3个特征
Figure BDA00038097376300000817
三个特征的尺度均为Hi×Wi×64。
S424、将特征
Figure BDA00038097376300000818
在通道维度上进行拼接,得到尺度为Hi×Wi×192的融合特征
Figure BDA00038097376300000819
S425、将获得的特征
Figure BDA00038097376300000820
通过两层3×3卷积,融合捕获了不同尺度信息的特征,生成解码特征
Figure BDA00038097376300000821
其尺度为Hi×Wi×64。
步骤S5、将第一至第四解码特征分别通过一个3×3的卷积,得到四个通道数为1的检测结果,以第一解码特征对应的检测结果作为最终检测结果。
本步骤将解码后的特征分别通过一个3×3的卷积,得到四个通道数为1的检测结果。
在训练时,还将检测结果用插值法上采样的原图大小,计算损失函数并执行反向传播,来完成整个网络模型的训练。在训练好网络模型之后,采用训练好的网络模型,对输入的肠道息肉图像进行检测,输出检测结果。
本实例中利用BCE损失和IOU损失来计算最终的显著目标检测结果与真实标签之间的损失。
本实例中利用二进制交叉熵(BCE)计算真实标签和检测结果之间的差距。BCE是分类中一种广泛使用的损失,计算的公式如下:
Figure BDA0003809737630000091
IOU损失主要用于测量两幅图像在整体上的相似性,计算公式如下:
Figure BDA0003809737630000092
其中,g(x,y)∈[0,1]是检测图片的真实标签,p(x,y)∈[0,1]是模型对检测图片的检测结果。
在使用训练好的模型时,只使用第一层的多分支解码器的输出结果,将其用3×3卷积把通道数降为1,得到每一个像素是息肉目标的概率值。将概率值大于等于0.5的标注为是息肉目标的白色像素,将概率值小于等于0.5的像素标注为不是息肉目标的黑色像素,得到最终的检测结果,即以白色像素标注息肉目标的黑白图像。
本实例中,利用交互编码器融合了主体特征和边缘特征,再反馈给主体编码器和边缘编码器进行二次迭代,二次迭代的输出将具有更清晰的边缘特征,更符合实际标签。
本实施例利用多分支融合网络,将主体与边缘分开进行特征的多尺度提取和融合,有利于显著目标的边缘刻画。在实例中引入标签解耦的方法,该方法对肠道息肉图像标签进行解耦,利用距离变换法将原有标签解耦为主体标签和边缘标签,解耦后的标签有利于对模型的监督和评估。
本实施例设计了细节增强模块、指导融合模块和多分支解码模块。在使用Transformer骨干网络提取特征的基础上,用卷积神经网络进行局部信息的增强和特征融合。用深度监督使每一层的特征融合结果都得到学习,逐步融合得到清晰准确的最终结果。在Transformer的自注意力机制准确定位检测区域的基础上,用卷积神经网络捕捉细节信息并进行融合,充分利用两者的优势,得到清晰准确的结果。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (4)

1.一种基于深度监督和逐步学习的肠道息肉检测方法,其特征在于,所述基于深度监督和逐步学习的肠道息肉检测方法,包括:
输入待检测的352×352×3的肠道息肉图像,使用PVT_V2对肠镜拍摄图像进行特征提取,提取四个尺度特征,四个尺度分别为88×88×64、44×44×128、22×22×320和11×11×512;
将提取到的四个尺度的特征输入细节增强模块,输出细节增强并压缩通道数为64后的第一至第四增强特征;
将细节增强后的第一、二、三个增强特征与第二、三、四个增强特征成对输入指导融合模块,输出融合后的第一至第三融合特征;
将第一至第三融合特征和第四增强特征分别输入第一至第四层多分支解码器,第一至第四层各个多分支解码器依次连接,后一层多分支解码器的输出同时作为其前一层多分枝解码器的输入,得到多分支解码器解码后的第一至第四解码特征;
将第一至第四解码特征分别通过一个3×3的卷积,得到四个通道数为1的检测结果,以第一解码特征对应的检测结果作为最终检测结果。
2.根据权利要求1所述的基于深度监督和逐步学习的肠道息肉检测方法,其特征在于,所述细节增强模块,执行如下操作:
S21、将提取得到的任一尺度特征fi o通过一层1×1卷积,使其压缩到64个通道并保持原有空间尺度,去除检测任务中冗余的通道信息,输出尺度为Hi×Wi×64,Hi、Wi分别为特征fi o的高度和宽度;
S22、将S21的结果分别通过1×1,3×3,5×5,7×7的4个卷积核,得到捕获了不同尺度信息的四个特征
Figure FDA0003809737620000011
尺度均为Hi×Wi×64;
S23、将S22的结果在通道维度上进行拼接,得到尺度为Hi×Wi×256的融合特征fi decat
S24、将获得的特征fi decat通过两层3×3卷积,融合捕获了不同尺度信息的特征,生成增强特征fi de,其尺度为Hi×Wi×64。
3.根据权利要求1所述的基于深度监督和逐步学习的肠道息肉检测方法,其特征在于,所述指导融合模块,执行如下操作:
S31、对于提取到的四个增强特征
Figure FDA0003809737620000021
将其以fi de
Figure FDA0003809737620000022
的对应关系输入指导融合模块;
S32、将
Figure FDA0003809737620000023
用双线性插值的方式进行上采样,得到与fi de的空间维度相同的特征
Figure FDA0003809737620000024
S33、将上采样后的特征
Figure FDA0003809737620000025
通过空间注意处理,得到注意力权重smapi+1表示,计算公式如下:
Figure FDA0003809737620000026
其中,SA(·)为空间注意力;
S34、令特征fi de和smapi+1进行元素乘法,突出显著区域的特征,计算公式如下:
Figure FDA0003809737620000027
其中,
Figure FDA0003809737620000028
为元素乘法;
S35、将fi de与fi sa进行残差连接,使之保留低层特征的信息,提高训练稳定性,计算公式如下:
fl gf=fi sa+fi de
S36、将fl gf
Figure FDA0003809737620000029
在通道维度上拼接融合,得到尺度为Hi×Wi×128的结果fi gf
S37、将获得的特征fi gf通过一层3×3卷积,融合捕获不同尺度信息的特征,输出融合特征fi gfout,其尺度为Hi×Wi×64。
4.根据权利要求1所述的基于深度监督和逐步学习的肠道息肉检测方法,其特征在于,所述第四层多分支解码器,执行如下操作:
S411、将第四增强特征
Figure FDA00038097376200000210
输入一个1×1卷积,进一步学习不同通道上的信息得到尺度为11×11×64结果;
S412、将S41的结果分别通过1×1,3×3,5×5的4个卷积核,得到捕获了不同尺度信息的3个特征
Figure FDA00038097376200000211
三个特征的尺度均为Hi×Wi×64;
S413、将S42的三个结果在通道维度上进行拼接,得到尺度为Hi×Wi×192的融合特征
Figure FDA00038097376200000212
S414、将获得的特征
Figure FDA0003809737620000031
通过两层3×3卷积,融合捕获了不同尺度信息的特征,生成解码特征
Figure FDA0003809737620000032
其尺度为Hi×Wi×64;
所述第一至第三层多分支解码器,解码过程如下:
S421、将融合特征fi gfout和前一个多分支解码器输出的解码特征
Figure FDA0003809737620000033
在通道维度上进行拼接,得到尺度为Hi×Wi×64的融合特征fi bdin
S422、将fi bdin输入一个1×1卷积,融合该层特征和上层特征的结果得到尺度为Hi×Wi×64的结果fi bdpre
S423、将fi bdpre分别通过1×1,3×3,5×5的3个卷积核,得到捕获了不同尺度信息的3个特征fi bd1,fi bd2,fi bd3,三个特征的尺度均为Hi×Wi×64;
S424、将特征fi bd1,fi bd2,fi bd3在通道维度上进行拼接,得到尺度为Hi×Wi×192的融合特征fi bdcat
S425、将获得的特征fi bdcat通过两层3×3卷积,融合捕获了不同尺度信息的特征,生成解码特征fi bd,其尺度为Hi×Wi×64。
CN202211007876.XA 2022-08-22 2022-08-22 一种基于深度监督和逐步学习的肠道息肉检测方法 Pending CN115331024A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211007876.XA CN115331024A (zh) 2022-08-22 2022-08-22 一种基于深度监督和逐步学习的肠道息肉检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211007876.XA CN115331024A (zh) 2022-08-22 2022-08-22 一种基于深度监督和逐步学习的肠道息肉检测方法

Publications (1)

Publication Number Publication Date
CN115331024A true CN115331024A (zh) 2022-11-11

Family

ID=83926725

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211007876.XA Pending CN115331024A (zh) 2022-08-22 2022-08-22 一种基于深度监督和逐步学习的肠道息肉检测方法

Country Status (1)

Country Link
CN (1) CN115331024A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116823833A (zh) * 2023-08-30 2023-09-29 山东科技大学 全方位mip图像颅内动脉瘤检测方法、系统及设备
CN117132774A (zh) * 2023-08-29 2023-11-28 河北师范大学 一种基于pvt的多尺度息肉分割方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117132774A (zh) * 2023-08-29 2023-11-28 河北师范大学 一种基于pvt的多尺度息肉分割方法及系统
CN117132774B (zh) * 2023-08-29 2024-03-01 河北师范大学 一种基于pvt的多尺度息肉分割方法及系统
CN116823833A (zh) * 2023-08-30 2023-09-29 山东科技大学 全方位mip图像颅内动脉瘤检测方法、系统及设备
CN116823833B (zh) * 2023-08-30 2023-11-10 山东科技大学 全方位mip图像颅内动脉瘤检测方法、系统及设备

Similar Documents

Publication Publication Date Title
Kim et al. Self-supervised video representation learning with space-time cubic puzzles
US20200250436A1 (en) Video object segmentation by reference-guided mask propagation
Ye et al. PMBANet: Progressive multi-branch aggregation network for scene depth super-resolution
Xu et al. Learning deep structured multi-scale features using attention-gated crfs for contour prediction
CN111401384B (zh) 一种变电设备缺陷图像匹配方法
CN112347859B (zh) 一种光学遥感图像显著性目标检测方法
Yin et al. FD-SSD: An improved SSD object detection algorithm based on feature fusion and dilated convolution
CN110175986B (zh) 一种基于卷积神经网络的立体图像视觉显著性检测方法
CN115331024A (zh) 一种基于深度监督和逐步学习的肠道息肉检测方法
CN109726718B (zh) 一种基于关系正则化的视觉场景图生成系统及方法
CN114782694A (zh) 无监督异常检测方法、系统、设备及存储介质
CN114119975A (zh) 一种语言引导的跨模态实例分割方法
CN116309648A (zh) 一种基于多注意力融合的医学图像分割模型构建方法
CN114724155A (zh) 基于深度卷积神经网络的场景文本检测方法、系统及设备
CN114549574A (zh) 一种基于掩膜传播网络的交互式视频抠图系统
CN117078930A (zh) 基于边界感知和注意力机制的医学图像分割方法
CN112036260A (zh) 一种自然环境下多尺度子块聚合的表情识别方法及系统
CN115953582B (zh) 一种图像语义分割方法及系统
Chen et al. SARAS-net: scale and relation aware siamese network for change detection
CN113903022A (zh) 基于特征金字塔与注意力融合的文本检测方法及系统
CN112528782A (zh) 水下鱼类目标检测方法及装置
Wang et al. Thermal images-aware guided early fusion network for cross-illumination RGB-T salient object detection
Yao et al. Transformers and CNNs fusion network for salient object detection
Wang et al. Msfnet: multistage fusion network for infrared and visible image fusion
CN113393434A (zh) 一种基于非对称双流网络架构的rgb-d显著性检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination