CN115578341A - 基于注意力引导金字塔上下文网络的大肠息肉分割方法 - Google Patents
基于注意力引导金字塔上下文网络的大肠息肉分割方法 Download PDFInfo
- Publication number
- CN115578341A CN115578341A CN202211214108.1A CN202211214108A CN115578341A CN 115578341 A CN115578341 A CN 115578341A CN 202211214108 A CN202211214108 A CN 202211214108A CN 115578341 A CN115578341 A CN 115578341A
- Authority
- CN
- China
- Prior art keywords
- layer
- feature
- context
- convolution
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10068—Endoscopic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30028—Colon; Small intestine
- G06T2207/30032—Colon polyp
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Quality & Reliability (AREA)
- Radiology & Medical Imaging (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开一种基于注意力引导金字塔上下文网络的大肠息肉分割方法,包括:数据集获取:根据公开的息肉分割数据集中的内窥镜图像划分训练集和测试集;网络搭建:提取多层具有不同空间分辨率的特征图,并进行采样以获取各层的采样结果,提取各层的特征图的上下文特征,通过注意力引导多层聚合策略探索各层的串联特征,获取各层的初步预测图,并聚合获取最终预测图;网络监督:采用损失函数分别对采样结果、初步预测图及最终预测图进行深监督学习;网络训练:将训练集输入至网络模型进行训练,获取对应的初步预测图并计算其对应的息肉区域分布概率图,采用损失函数结合预存的真实分割图计算误差,记录网络性能达到最佳时的参数的权重;网络测试。
Description
技术领域
本发明涉及医学图像处理技术领域,尤其涉及一种基于注意力引导金字塔上下文网络的大肠息肉分割方法。
背景技术
近年来,结直肠癌(CRC)对公共健康产生了严重威胁。根据美国癌症协会的一份研究报告显示,CRC在所有癌症中发病率中位居第三,CRC的发病率和死亡率急剧增长,随着病情的加重,大肠癌患者的生存率急剧下降。在临床工作中,结直肠癌的早期筛查对大肠癌预防至关重要,能够及时诊断和去除CRC的早期病灶(例如息肉)对于提高患者生存率具有重要意义。
在临床上,内窥镜检查是息肉筛查的主要方法,通过内窥镜检查,医生可以清楚地观察整个结肠的长度,并移除可能转化为CRC的息肉。但是,即便是一个有丰富经验的医生进行的视觉上的息肉检查,其工作量繁重且带有一定主观性,仍有可能会导致高达25%的漏检率,而漏诊的息肉可诱发为晚期CRC,导致其存活率低于10%。因此,临床上急切需要设计自动、可靠的计算机辅助诊断方法来准确定位结肠镜图像中的息肉,减少大肠息肉的漏检率,帮助医生做出正确的决策,提高患者的生存率。
过去的几十年中,深度卷积神经网络(CNN)由于其强大的目标相关特征提取和集成能力,在医学图像分割中显示出巨大的潜力。大多数基于CNN的分割方法主要遵循编码器-解码器框架,以端到端的方式完成分割任务。在编码器阶段,通过特征提取单元获得低层空间细节和高层语义概念来提取目标特征。在解码器阶段,从编码器获得的特征生成预测掩码。一般而言,现有的基于CNN的分割方法可以根据其应用范围大致分为两类,即通用型方法和专用型方法。通用方法通常关注多个分割任务的共同特征,从不同方面进行相应处理。虽然通用型方法在同时处理多个分割任务时具有明显的优势,并且具有相当的鲁棒性,但它们不可避免地忽略了每个分割任务的特定特征,并且通常在某些任务上实现了中等的性能。相反,专用型方法被用于处理息肉分割任务。这些方法的共性就是在网络设计中充分考虑息肉的具体特征,且具有自动息肉感知特征提取和集成的优势,在息肉分割任务中取得了较好的效果。
现有的息肉分割方法存在以下问题:息肉在临床中表现的特征形状和大小差别很大,且形状边缘不规则的特性;大肠粘膜与息肉边界的颜色特征较为接近,使得息肉和周围背景难以区分。上述问题导致现有的息肉自动分割算法的精度不够高,甚至会存在息肉漏检。
发明内容
本发明所要解决的技术问题是提供一种基于注意力引导金字塔上下文网络的大肠息肉分割方法以精确识别息肉,降低息肉漏检风险。
为解决上述技术问题,本发明的目的是通过以下技术方案实现的:提供一种基于注意力引导金字塔上下文网络的大肠息肉分割方法,包括以下步骤:数据集获取:根据公开的息肉分割数据集中的内窥镜图像划分训练集和测试集;网络搭建:提取多层具有不同空间分辨率的特征图,对各层提取的特征图进行采样,获取各层的采样结果,提取各层的特征图的上下文特征,通过注意力引导多层聚合策略探索各层的串联特征,获取各层的初步预测图,聚合各层的初步预测图,获取最终预测图;网络监督:采用损失函数分别对各层的采样结果、各层的初步预测图及最终输出的最终预测图进行深监督学习;网络训练:将训练集中的各样本依次输入至基于注意力引导金字塔上下文网络模型进行训练,根据获得的各样本的各层的初步预测图采用Softmax函数计算获取各样本的息肉区域分布概率图,采用损失函数结合各样本的息肉区域分布概率图及预存的标注好的真实分割图计算误差损失,调整参数,记录网络性能达到最佳时的参数的权重;网络测试:对测试集中的各样本进行裁剪,以将测试图像统一裁剪为352×352的尺寸,对裁剪后的测试图像采用记录的网络性能达到最佳时的参数的权重进行测试,获取裁剪后的测试图像的各层的初步预测图并根据其采用Softmax函数计算获取测试图像的息肉区域分布概率图,结合预设概率阈值,于裁剪后的测试图像中划分息肉区域及背景区域,获得分割图像。
本发明的有益技术效果在于:本发明基于注意力引导金字塔上下文网络的大肠息肉分割方法通过根据公开的息肉分割数据集的内窥镜图像划分训练集和测试集,提取多层特征图,采用上下文提取模块获取各层的上下文特征,利用注意力引导的多层聚合策略通过根据不同层的互补信息细化各层的上下文特征,以探索各层的串联特征,实现从粗到细的息肉分割,提高息肉识别的精确度,降低息肉漏检风险;同时,采用损失函数对中间隐藏层及最终输出层进行深监督学习,以采用分级监督的方式提高后续网络训练的效率。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于注意力引导金字塔上下文网络的大肠息肉分割方法的流程示意图;
图2为本发明实施例提供的基于注意力引导金字塔上下文网络的大肠息肉分割方法的第一子流程示意图;
图3为本发明实施例提供的基于注意力引导金字塔上下文网络的大肠息肉分割方法的第二子流程示意图;
图4为本发明实施例提供的基于注意力引导金字塔上下文网络的大肠息肉分割方法的第三子流程示意图;
图5为本发明实施例提供的基于注意力引导金字塔上下文网络的大肠息肉分割方法的第四子流程示意图;
图6为本发明实施例提供的基于注意力引导金字塔上下文网络的大肠息肉分割方法的第五子流程示意图;
图7为本发明实施例提供的基于注意力引导金字塔上下文网络的大肠息肉分割方法的基于注意力引导金字塔上下文网络模型的框架结构示意图;
图8为本发明实施例提供的基于注意力引导金字塔上下文网络的大肠息肉分割方法的上下文特征提取模块的结构示意图;
图9为本发明实施例提供的基于注意力引导金字塔上下文网络的大肠息肉分割方法的多层聚合模块的结构示意图;
图10为本发明实施例提供的基于注意力引导金字塔上下文网络的大肠息肉分割方法的注意力模块的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1所示,图1为本发明实施例提供的基于注意力引导金字塔上下文网络的大肠息肉分割方法的流程示意图,所述基于注意力引导金字塔上下文网络的大肠息肉分割方法,包括以下步骤:
步骤S11、数据集获取:根据公开的息肉分割数据集中的内窥镜图像划分训练集和测试集。
其中,公开的息肉分割数据集可包括CVC-ClinicDB、Kvasir-SEG、ETIS、CVC-ColonDB和CVC-T,训练集包括550个来自CVC-ClinicDB的样本及900个来自Kvasir-SEG的样本,测试集为公开的息肉分割数据集中除训练集外的所有样本,即包括CVC-ClinicDB和Kvasir-SEG的剩余样本及ETIS、CVC-ColonDB和CVC-T的所有样本。样本是指各公开的息肉分割数据集中的内窥镜图像。因训练集源于CVC-ClinicDB和Kvasir-SEG,则CVC-ClinicDB和Kvasir-SEG的实验结果属于域内测试,反映了每种分割方法的有效性,而ETIS、CVC-ColonDB和CVC-T的实验结果属于域外测试,反映了每种分割方法的泛化能力,域内测试是指对同一中心(域)进行训练和测试,即训练集和测试集源自相同的中心(域),域外测试是指在一个中心(域)进行训练而在另一个中心(域)进行测试,即训练集和测试集分别源自不同的中心(域)。
下表给出本实施例中各公开的息肉分割数据集的信息:
当然,在一些实施例中,还可通过数据增强方法增加样本数据的多样性,数据增强方法包括随机翻转、随机旋转和/或随机裁剪等。
步骤S12、网络搭建:提取多层具有不同空间分辨率的特征图,对各层提取的特征图进行采样,获取各层的采样结果,提取各层的特征图的上下文特征,通过注意力引导多层聚合策略(AMAS)探索各层的串联特征,获取各层的初步预测图,聚合各层的初步预测图,获取最终预测图,以完成基于注意力引导金字塔上下文网络模型的搭建。
其中,基于注意力引导金字塔上下文网络模型实际是指基于注意力引导的金字塔结构的上下文网络模型,具有不同空间分辨率的特征图的层数为五层,各层依序组合呈金字塔结构,所述步骤S12可具体为:使用ResNet50提取多层具有不同空间分辨率的特征图,对各层提取的特征图进行采样,获取各层的采样结果,通过上下文提取(CEM)模块提取各层的特征图的上下文特征,通过注意力引导多层聚合策略(AMAS)探索各层的串联特征,获取各层的初步预测图,聚合各层的初步预测图,获取最终预测图。所述基于注意力引导金字塔上下文网络模型可在PyTorch深度学习框架下实现,可采用配备有NVIDIA GeForce RTX3090GPU和两个Intel Xeon Silver 4210R CPU的工作站上进行实验获得。
步骤S13、网络监督:采用损失函数分别对各层的采样结果、各层的初步预测图及最终输出的最终预测图进行深监督学习。
其中,初步预测图及最终预测图均为二值掩码图。通过对最终输出层中各层的初步预测图和最终输出的最终预测图以及中间隐藏层中各层的采样结果同时使用损失函数进行监督,以采用分级监督的方式提高后续网络训练的效率,从而分别对最终输出层的输出及中间隐藏层的输出进行反向传播,提高网络的性能。通过损失函数可计算预测图与预存的标注好的真实分割图的误差,配合梯度下降法调整参数,以可减小损失值。损失函数包括加权的二进制交叉熵(BCE)损失函数和加权的交并比(IoU)损失函数,以将不同的权值分配给不同的像素,扩展二进制交叉熵,每个像素的权重可由该像素周围的像素决定,难区分的特征图的像素会获得更大的权重,而容易区分的特征图的像素会获得更小的权重。加权的IoU损失函数通过增加难区分的特征图的像素的权重突出该特征图的重要性,而加权的BCE损失函数更关注难区分的特征图的像素。损失函数可采用公式(1)表示:
步骤S14、网络训练:将训练集中的各样本依次输入至基于注意力引导金字塔上下文网络模型进行训练,根据获得的各样本的各层的初步预测图采用Softmax函数计算获取各样本的息肉区域分布概率图,采用损失函数结合各样本的息肉区域分布概率图及预存的标注好的真实分割图计算误差损失,调整参数,记录网络性能达到最佳时的参数的权重。
其中,所述步骤S14具体为:网络训练:将训练集中的各样本依次输入至基于注意力引导金字塔上下文网络模型进行训练,根据获得的各样本的各层的初步预测图采用Softmax函数计算获取各样本的息肉区域分布概率图,采用损失函数结合各样本的息肉区域分布概率图及预存的标注好的真实分割图计算误差损失,进行反向传播训练,获取所述基于注意力引导金字塔上下文网络模型中的参数的梯度,采用梯度下降法调整参数以减小损失值,通过训练集的多个样本以对基于注意力引导金字塔上下文网络进行多次训练直至网络性能达到最佳,记录网络性能达到最佳时的参数的权重。
步骤S15、网络测试:对测试集中的各样本进行裁剪,以将测试图像统一裁剪为352×352的尺寸,对裁剪后的测试图像采用记录的网络性能达到最佳时的参数的权重及对应的基于注意力引导金字塔上下文网络模型进行测试,获取裁剪后的测试图像的各层的初步预测图,根据获得的裁剪后的测试图像的各层的初步预测图采用Softmax函数计算获取测试图像的息肉区域分布概率图,结合预设概率阈值,于裁剪后的测试图像中划分息肉区域及背景区域,获得分割图像。
其中,通过对测试图像经基于注意力引导金字塔上下文网络模型获得的各层的初步预测图采用Softmax函数计算获取测试图像的息肉区域分布概率图,结合预设概率阈值以对测试图像进行息肉区域和背景区域的划分,以更好地进行息肉分割。测试图像是指测试集中的样本,即测试集中的内窥镜图像,预设概率阈值可为0.5,当根据测试图像的息肉区域分布概率图获知裁剪后的测试图像中的该区域为息肉区域的概率不小于0.5时,则该概率对应的区域划分为息肉区域;当根据测试图像的息肉区域分布概率图获知裁剪后的测试图像中的该区域为息肉区域的概率小于0.5时,则该概率对应的区域划分为背景区域;根据区域划分结果对裁剪后的测试图像进行分割,获得分割图像。裁剪获得统一的测试图像的尺寸可获得更多的局部特征,从而提高精度。
其中,所述基于注意力引导金字塔上下文网络的大肠息肉分割方法通过根据公开的息肉分割数据集的内窥镜图像划分训练集和测试集,提取多层特征图,对各层的特征图采样,采用上下文提取模块获取各层的上下文特征,利用注意力引导的多层聚合策略通过根据不同层的互补信息细化各层的上下文特征,以探索各层的串联特征,实现从粗到细的息肉分割,提高息肉识别的精确度,降低息肉漏检风险,且在不同数据集上测试仍能保持较好的鲁棒性;同时,采用损失函数对中间隐藏层及最终输出层进行深监督学习,以采用分级监督的方式提高后续网络训练的效率。不同层的互补信息是指低层(第二层)丰富的细节信息和空间特征以及高层(第三层至第五层)丰富的语义信息。
具体地,在一些实施例中,所述步骤S11后还可包括:
尺寸裁剪:统一将所有内窥镜图像裁剪至352×352的尺寸。通过将所有内窥镜图像裁剪至统一的352×352的尺寸,以可获得更多的局部特征。
具体地,在一些实施例中,所述步骤S15后还包括:
性能验证:计算分割图像的平均Dice相似度系数作为图像分割度量指标,验证分割性能。
结合图2和图7,所述步骤S12具体包括以下步骤:
步骤S121、特征编码:采用ResNet50提取第一层至第五层的具有不同空间分辨率的特征图。
步骤S122、特征处理采样:对第二层至第四层生成的特征映射分别采用CBR模块进行处理,以将第二层至第四层的通道数均降为256,并提取第二层至第四层的通道数为256的特征图;采用空洞空间卷积池化金字塔(ASPP)模块于第五层中提取通道数为256的特征图并获取该特征图的多尺度语义信息;对获得的第二层至第五层中通道数为256的对应的特征图进行采样,获取各层的采样结果。其中,经ResNet50提取的各层的特征图依序呈金字塔结构,第二层至第五层的特征图可采用公式(2)表示:
式中,i表示层序号,Ci表示第i层的通道数,H表示输入图像的高度,W表示输入图像的宽度,Fi表示第i层的特征图,R表示提取的特征。
由于第一层包含的有用信息较少,不对第一层的特征进行特征处理采样操作可避免在有限信息探索期间增加网络参数的数量,以可降低计算复杂度,并提高整体效率。
采样结果可采用公式(3)表示:
式中,i表示层序号,Ci表示第i层的通道数,此时,Ci为256,H表示输入图像的高度,W表示输入图像的宽度,表示第i层的采样结果,R表示提取的特征。各层的采样结果的空间分辨率均与初始采用ResNet50提取第二层的特征图(F2)的空间分辨率相同。
步骤S123、上下文特征提取:将各层的采样结果作为各层的待提取特征映射,采用上下文特征提取(CEM)模块对各层的待提取特征映射进行提取操作,保留各层的待提取特征映射的局部信息并压缩各层的待提取特征映射的全局信息,捕获各层的待提取特征映射的上下文特征作为各层的映射图。
步骤S124、串联特征探索:将各层的采样结果通过金字塔结构连接,获取组合采样特征,根据获得的组合采样特征及各层的映射图通过注意力引导多层聚合策略(AMAS)探索各层的串联特征。其中,所述注意力引导多层聚合策略(AMAS)包括一个多层聚合(MAM)模块和四个注意力(LAM)模块,多层聚合(MAM)模块用于从各层提取的特征图中提取鉴别特征,注意力(LAM)模块用于采用注意力机制细化各层的上下文特征。注意力模块与层级一一对应。
步骤S125、预测图获取:将各层的串联特征从高层到低层逐层沿梯度方向相加,获取各层的梯度串联特征,对各层的梯度串联特征分别采用CBR模块进行处理,获取各层的初步预测图,聚合各层的初步预测图,生成并输出最终预测图。其中,各层的初步预测图随着层级的增高逐渐精细。
具体地,所述步骤S122和步骤S125中的所述CBR模块包括一内核尺寸为3×3的卷积层运算单元、一批量归一化(BN)单元和一ReLU激活函数单元。
具体地,所述步骤S123中的所述上下文特征提取(CEM)模块包括二内核尺寸为3×3的卷积层运算单元和一自适应最大池化单元。
结合图3和图8,所述步骤S123具体包括以下步骤:
步骤S1231、局部保留特征获取:对各层的待提取特征映射进行连续两次内核尺寸为3×3的卷积层运算,获取各层的待提取特征映射的局部保留特征。其中,经过第一次内核尺寸为3×3的卷积层运算后通道维数被压缩至四分之一,随后经过第二次内核尺寸为3×3的卷积层运算后通道维数扩展恢复至第一次内核尺寸为3×3的卷积层运算前的通道维数,整个过程受压缩和激励网络的影响,能很好地保留局部特征。
步骤S1232、全局信息获取:采用自适应最大池化对各层的待提取特征映射进行处理,获取压缩后的各层的待提取特征映射的全局信息。
步骤S1233、局部保留特征校准:根据获得的压缩后的各层的待提取特征映射的全局信息校准各层的待提取特征映射的局部保留特征,获取各层的校准结果特征。其中,校准可为将压缩后的各层的待提取特征映射的全局信息与各层的待提取特征映射的局部保留特征进行元素乘法计算。
步骤S1234、映射图获取:将各层的校准结果特征与各层的待提取特征映射相加后通过Sigmoid函数激活,获取各层的映射图。其中,各层的映射图的空间分辨率可与各层的待提取特征映射的空间分辨率相同。
优选地,捕获获得的各层的待提取特征映射的上下文特征即上下文特征提取的步骤可采用公式(4)表示:
式中,conv3(·)表示连续两次的内核尺寸为3×3的卷积层运算,⊙表示元素乘法,GMP(·)表示自适应最大池化操作,δ(·)表示Sigmoid函数,表示第i层的采样结果即第i层的待提取特征映射,表示第i层的待提取特征映射的上下文特征,即第i层的映射图。
结合图4和图7,所述步骤S124具体包括以下步骤:
步骤S1241、组合采样特征获取:将各层的采样结果通过金字塔结构连接,获取组合采样特征。
其中,各层的采样结果通过金字塔结构连接后获得的组合采样特征可采用公式(5)表示:
c∈R4 4C×H×W(5)
式中,c表示组合采样特征,C表示通道数,此时,C为256,H表示输入图像的高度,W表示输入图像的宽度,R4 4C×H×W表示四层(第二层至第五层)的通道数为C的特征进行通道维度拼接后获得的融合特征。
步骤S1242、卷积采样特征关联:对组合采样特征进行内核尺寸为1×1的卷积层运算后进行批量归一化运算,关联各层的卷积采样特征,获得关联特征。
步骤S1243、卷积采样特征分组:根据通道数及层级将关联特征中各层的卷积采样特征均分至四个特征组,其中,每一所述特征组的纬度均为256,每一所述特征组对应一个层级,一个层级即为一个层。
步骤S1244、鉴别特征提取:于各特征组内的对应层的卷积采样特征中提取各层的鉴别特征。其中,组合采样特征输入至所述多层聚合(MAM)模块,经处理后输出各层的鉴别特征,各层的鉴别特征为各层的鉴别补充信息。
步骤S1245、上下文特征细化:各层的鉴别特征和各层的映射图通过注意力模块进行计算,获取各层的重塑特征矩阵,对所有的重塑特征矩阵采用Softmax函数进行连接后通过内核尺寸为1×1的卷积层进行集成,获得最终细化上下文特征作为各层的串联特征。其中,各层的鉴别特征和各层的映射图输入至对应的注意力模块,以细化各层的映射图(即各层的待提取特征映射的上下文特征),获取各层的最终细化上下文特征。
结合图5和图9,所述步骤S1244具体包括以下步骤:
步骤S4401、卷积采样处理:对该特征组内的对应层的卷积采样特征进行单独的两次内核尺寸为1×1的卷积层运算,分别获得两个卷积结果;其中,两个卷积结果相同,均为卷积采样特征进行一次内核尺寸为1×1的卷积层运算后的卷积结果。
其中,卷积结果可采用公式(6)表示:
θi∈Ri C×H×W(i∈{2,3,4,5})(6)
式中,H表示输入图像的高度,W表示输入图像的宽度,i表示层序号,θi表示第i层的卷积采样特征进行一次内核尺寸为1×1的卷积层运算后的卷积结果,C表示通道数,此时,C为256,R表示提取的特征。
步骤S4402、卷积乘积:将其中一个卷积结果与另一个卷积结果的转置相乘,获取卷积乘积;
步骤S4403、卷积乘积归一化:采用Softmax函数对获得的卷积乘积进行处理,生成层信息。
其中,层信息可采用公式(7)表示:
Φ∈R1×C×C(7)
式中,Φ表示层信息,C表示通道数,此时为256,R表示提取的特征,上角标1表示通道维度为1。
步骤S4404、鉴别特征获取:对层信息进行内核尺寸为1×1的卷积层运算,获取各层的鉴别特征。
其中,各层的鉴别特征可采用公式(8)表示:
χ∈R4×C×C(8)
式中,χ表示各层的鉴别特征,C表示通道数,此时为256,R表示提取的特征,上角标4表示通道维度为4,是指对四层特征进行通道维度上的拼接。
结合图6和图10,所述步骤S1245具体包括以下步骤:
步骤S4501、鉴别特征分组:根据通道维度将各层的鉴别特征均分至四个鉴别组;
步骤S4502、上下文特征重塑:对各层的映射图进行内核尺寸为1×1的卷积层运算,获取重塑上下文特征;
步骤S4503、鉴别特征重塑:将重塑上下文特征与各鉴别组中的鉴别特征相乘,获取重塑鉴别特征;
步骤S4504、重塑特征矩阵获取:将重塑鉴别特征与各层的映射图相加,获取各层的重塑特征矩阵;
步骤S4505、上下文特征最终细化:对所有的重塑特征矩阵采用Softmax函数进行连接后通过内核尺寸为1×1的卷积层进行集成,获得各层的最终细化上下文特征作为各层的串联特征。
综上所述,本发明基于注意力引导金字塔上下文网络的大肠息肉分割方法通过根据公开的息肉分割数据集的内窥镜图像划分训练集和测试集,提取多层特征图,对各层的特征图采样,采用上下文提取模块获取各层的上下文特征,利用注意力引导的多层聚合策略通过根据不同层的互补信息细化各层的上下文特征,以探索各层的串联特征,实现从粗到细的息肉分割,提高息肉识别的精确度,降低息肉漏检风险,且在不同数据集上测试仍能保持较好的鲁棒性;同时,采用损失函数对中间隐藏层及最终输出层进行深监督学习,以采用分级监督的方式提高后续网络训练的效率。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种基于注意力引导金字塔上下文网络的大肠息肉分割方法,其特征在于,包括以下步骤:
数据集获取:根据公开的息肉分割数据集中的内窥镜图像划分训练集和测试集;
网络搭建:提取多层具有不同空间分辨率的特征图,对各层提取的特征图进行采样,获取各层的采样结果,提取各层的特征图的上下文特征,通过注意力引导多层聚合策略探索各层的串联特征,获取各层的初步预测图,聚合各层的初步预测图,获取最终预测图;
网络监督:采用损失函数分别对各层的采样结果、各层的初步预测图及最终输出的最终预测图进行深监督学习;
网络训练:将训练集中的各样本依次输入至基于注意力引导金字塔上下文网络模型进行训练,根据获得的各样本的各层的初步预测图采用Softmax函数计算获取各样本的息肉区域分布概率图,采用损失函数结合各样本的息肉区域分布概率图及预存的标注好的真实分割图计算误差损失,调整参数,记录网络性能达到最佳时的参数的权重;
网络测试:对测试集中的各样本进行裁剪,以将测试图像统一裁剪为352×352的尺寸,对裁剪后的测试图像采用记录的网络性能达到最佳时的参数的权重进行测试,获取裁剪后的测试图像的各层的初步预测图并根据其采用Softmax函数计算获取测试图像的息肉区域分布概率图,结合预设概率阈值,于裁剪后的测试图像中划分息肉区域及背景区域,获得分割图像。
2.根据权利要求1所述的基于注意力引导金字塔上下文网络的大肠息肉分割方法,其特征在于,所述数据集获取的步骤后还包括:
尺寸裁剪:统一将所有内窥镜图像裁剪至352×352的尺寸。
3.根据权利要求1所述的基于注意力引导金字塔上下文网络的大肠息肉分割方法,其特征在于,所述网络搭建的步骤具体包括:
特征编码:采用ResNet50提取第一层至第五层的具有不同空间分辨率的特征图;
特征处理采样:对第二层至第四层生成的特征映射分别采用CBR模块进行处理,以将第二层至第四层的通道数均降为256,并提取第二层至第四层的通道数为256的特征图;采用空洞空间卷积池化金字塔模块于第五层中提取通道数为256的特征图并获取其多尺度语义信息;对获得的第二层至第五层中通道数为256的对应的特征图进行采样,获取各层的采样结果;
上下文特征提取:将各层的采样结果作为各层的待提取特征映射,采用上下文特征提取模块对各层的待提取特征映射进行提取操作,保留各层的待提取特征映射的局部信息并压缩各层的待提取特征映射的全局信息,捕获各层的待提取特征映射的上下文特征作为各层的映射图;
串联特征探索:将各层的采样结果通过金字塔结构连接,获取组合采样特征,根据获得的组合采样特征及各层的映射图通过注意力引导多层聚合策略(AMAS)探索各层的串联特征;
预测图获取:将各层的串联特征从高层到低层逐层沿梯度方向相加,获取各层的梯度串联特征,对各层的梯度串联特征分别采用CBR模块进行处理,获取各层的初步预测图,聚合各层的初步预测图,生成并输出最终预测图。
4.根据权利要求3所述的基于注意力引导金字塔上下文网络的大肠息肉分割方法,其特征在于,所述特征处理采样的步骤及所述预测图获取的步骤中的所述CBR模块包括一内核尺寸为3×3的卷积层运算单元、一批量归一化单元和一ReLU激活函数单元。
5.根据权利要求3所述的基于注意力引导金字塔上下文网络的大肠息肉分割方法,其特征在于,所述上下文特征提取的步骤中的所述上下文特征提取模块包括二内核尺寸为3×3的卷积层运算单元和一自适应最大池化单元。
6.根据权利要求5所述的基于注意力引导金字塔上下文网络的大肠息肉分割方法,其特征在于,所述上下文特征提取的步骤具体包括以下步骤:
局部保留特征获取:对各层的待提取特征映射进行连续两次内核尺寸为3×3的卷积层运算,获取各层的待提取特征映射的局部保留特征;
全局信息获取:采用自适应最大池化对各层的待提取特征映射进行处理,获取压缩后的各层的待提取特征映射的全局信息;
局部保留特征校准:根据获得的压缩后的各层的待提取特征映射的全局信息校准各层的待提取特征映射的局部保留特征,获取各层的校准结果特征;
映射图获取:将各层的校准结果特征与各层的待提取特征映射相加后通过Sigmoid函数激活,获取各层的映射图。
7.根据权利要求3所述的基于注意力引导金字塔上下文网络的大肠息肉分割方法,其特征在于,所述串联特征探索的步骤具体包括以下步骤:
组合采样特征获取:将各层的采样结果通过金字塔结构连接,获取组合采样特征;
卷积采样特征关联:对组合采样特征进行内核尺寸为1×1的卷积层运算后进行批量归一化运算,关联各层的卷积采样特征,获得关联特征;
卷积采样特征分组:根据通道数及层级将关联特征中各层的卷积采样特征均分至四个特征组;
鉴别特征提取:于各特征组内的对应层的卷积采样特征中提取各层的鉴别特征;
上下文特征细化:各层的鉴别特征和各层的映射图通过注意力模块进行计算,获取各层的重塑特征矩阵,对所有的重塑特征矩阵采用Softmax函数进行连接后通过内核尺寸为1×1的卷积层进行集成,获得最终细化上下文特征作为各层的串联特征。
8.根据权利要求7所述的基于注意力引导金字塔上下文网络的大肠息肉分割方法,其特征在于,所述鉴别特征提取的步骤具体包括:
卷积采样处理:对该特征组内的对应层的卷积采样特征进行单独的两次内核尺寸为1×1的卷积层运算,分别获得两个卷积结果;
卷积乘积:将其中一个卷积结果与另一个卷积结果的转置相乘,获取卷积乘积;
卷积乘积归一化:采用Softmax函数对获得的卷积乘积进行处理,生成层信息;
鉴别特征获取:对层信息进行内核尺寸为1×1的卷积层运算,获取各层的鉴别特征。
9.根据权利要求7所述的基于注意力引导金字塔上下文网络的大肠息肉分割方法,其特征在于,所述上下文特征细化的步骤具体包括:
鉴别特征分组:根据通道维度将各层的鉴别特征均分至四个鉴别组;
上下文特征重塑:对各层的映射图进行内核尺寸为1×1的卷积层运算,获取重塑上下文特征;
鉴别特征重塑:将重塑上下文特征与各鉴别组中的鉴别特征相乘,获取重塑鉴别特征;
重塑特征矩阵获取:将重塑鉴别特征与各层的映射图相加,获取各层的重塑特征矩阵;
上下文特征最终细化:对所有的重塑特征矩阵采用Softmax函数进行连接后通过内核尺寸为1×1的卷积层进行集成,获得各层的最终细化上下文特征作为各层的串联特征。
10.根据权利要求1所述的基于注意力引导金字塔上下文网络的大肠息肉分割方法,其特征在于,所述网络测试的步骤后还包括:
性能验证:计算分割图像的平均Dice相似度系数作为图像分割度量指标,验证分割性能。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211214108.1A CN115578341B (zh) | 2022-09-30 | 2022-09-30 | 基于注意力引导金字塔上下文网络的大肠息肉分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211214108.1A CN115578341B (zh) | 2022-09-30 | 2022-09-30 | 基于注意力引导金字塔上下文网络的大肠息肉分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115578341A true CN115578341A (zh) | 2023-01-06 |
CN115578341B CN115578341B (zh) | 2023-05-12 |
Family
ID=84582794
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211214108.1A Active CN115578341B (zh) | 2022-09-30 | 2022-09-30 | 基于注意力引导金字塔上下文网络的大肠息肉分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115578341B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116935044A (zh) * | 2023-06-14 | 2023-10-24 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种多尺度引导和多层次监督的内镜息肉分割方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090016589A1 (en) * | 2007-07-10 | 2009-01-15 | Siemens Medical Solutions Usa, Inc. | Computer-Assisted Detection of Colonic Polyps Using Convex Hull |
CN113538313A (zh) * | 2021-07-22 | 2021-10-22 | 深圳大学 | 一种息肉分割方法、装置、计算机设备及存储介质 |
CN114170167A (zh) * | 2021-11-29 | 2022-03-11 | 深圳职业技术学院 | 基于注意力引导上下文校正的息肉分割方法和计算机设备 |
CN114419056A (zh) * | 2022-01-24 | 2022-04-29 | 重庆邮电大学 | 一种逐步精细的医学图像分割系统 |
CN114511508A (zh) * | 2022-01-11 | 2022-05-17 | 浙江工业大学 | 融合卷积与多层感知机神经网络的结直肠息肉分割方法 |
-
2022
- 2022-09-30 CN CN202211214108.1A patent/CN115578341B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090016589A1 (en) * | 2007-07-10 | 2009-01-15 | Siemens Medical Solutions Usa, Inc. | Computer-Assisted Detection of Colonic Polyps Using Convex Hull |
CN113538313A (zh) * | 2021-07-22 | 2021-10-22 | 深圳大学 | 一种息肉分割方法、装置、计算机设备及存储介质 |
CN114170167A (zh) * | 2021-11-29 | 2022-03-11 | 深圳职业技术学院 | 基于注意力引导上下文校正的息肉分割方法和计算机设备 |
CN114511508A (zh) * | 2022-01-11 | 2022-05-17 | 浙江工业大学 | 融合卷积与多层感知机神经网络的结直肠息肉分割方法 |
CN114419056A (zh) * | 2022-01-24 | 2022-04-29 | 重庆邮电大学 | 一种逐步精细的医学图像分割系统 |
Non-Patent Citations (3)
Title |
---|
GUANGHUI YUE ET AL.: "Adaptive Context Exploration Network for Polyp Segmentation in Colonoscopy Images", 《IEEE TRANSACTION ON EMERGING TOPICS IN COMPUTATIONAL INTELLIGENCE》 * |
JUNXU CAO ET AL.: "Attention-guided Context Feature Pyramid Network for Object Detection", 《ARXIV》 * |
徐昌佳等: "采用DoubleUNet网络的结直肠息肉分割算法", 《光学精密工程》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116935044A (zh) * | 2023-06-14 | 2023-10-24 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种多尺度引导和多层次监督的内镜息肉分割方法 |
CN116935044B (zh) * | 2023-06-14 | 2024-05-14 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种多尺度引导和多层次监督的内镜息肉分割方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115578341B (zh) | 2023-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111145170B (zh) | 一种基于深度学习的医学影像分割方法 | |
CN111667489A (zh) | 基于双分支注意力深度学习的癌症高光谱图像分割方法及系统 | |
CN111127412B (zh) | 一种基于生成对抗网络的病理图像识别装置 | |
CN107492071A (zh) | 医学图像处理方法及设备 | |
CN110517253B (zh) | 基于3d多目标特征学习的肺结节良恶性分类的方法 | |
CN111784671A (zh) | 基于多尺度深度学习的病理图像病灶区域检测方法 | |
CN110889853A (zh) | 基于残差-注意力深度神经网络的肿瘤分割方法 | |
CN110889852A (zh) | 基于残差-注意力深度神经网络的肝脏分割方法 | |
Ghosh et al. | Effective deep learning for semantic segmentation based bleeding zone detection in capsule endoscopy images | |
EP4276684A1 (en) | Capsule endoscope image recognition method based on deep learning, and device and medium | |
Souaidi et al. | A new automated polyp detection network MP-FSSD in WCE and colonoscopy images based fusion single shot multibox detector and transfer learning | |
CN114266786A (zh) | 基于生成对抗网络的胃病变分割方法及系统 | |
CN114332572B (zh) | 基于显著图引导分层密集特征融合网络用于提取乳腺病变超声图像多尺度融合特征参数方法 | |
CN113012163A (zh) | 一种基于多尺度注意力网络的视网膜血管分割方法、设备及存储介质 | |
CN111260639A (zh) | 多视角信息协作的乳腺良恶性肿瘤分类方法 | |
KR20220144687A (ko) | 듀얼 어텐션 다중 인스턴스 학습 방법 | |
CN113781489A (zh) | 一种息肉影像语义分割方法及装置 | |
CN117152433A (zh) | 一种基于多尺度跨层注意力融合网络的医学图像分割方法 | |
CN115578341B (zh) | 基于注意力引导金字塔上下文网络的大肠息肉分割方法 | |
CN115661029A (zh) | 基于YOLOv5的肺结节检测与识别系统 | |
Mohapatra et al. | Efficiency of transfer learning for abnormality detection using colonoscopy images: a critical analysis | |
CN116825363B (zh) | 基于融合深度学习网络的早期肺腺癌病理类型预测系统 | |
KR102407248B1 (ko) | 데이터 증대 및 이미지 분할을 활용한 딥러닝 기반 위 병변 분류시스템 | |
Alam et al. | Rat-capsnet: A deep learning network utilizing attention and regional information for abnormality detection in wireless capsule endoscopy | |
Yang et al. | Lesion classification of wireless capsule endoscopy images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |