CN113642581B - 基于编码多路径语义交叉网络的图像语义分割方法及系统 - Google Patents
基于编码多路径语义交叉网络的图像语义分割方法及系统 Download PDFInfo
- Publication number
- CN113642581B CN113642581B CN202110925736.XA CN202110925736A CN113642581B CN 113642581 B CN113642581 B CN 113642581B CN 202110925736 A CN202110925736 A CN 202110925736A CN 113642581 B CN113642581 B CN 113642581B
- Authority
- CN
- China
- Prior art keywords
- semantic
- module
- image
- network
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明涉及一种基于编码多路径语义交叉网络的图像语义分割方法及系统,该方法包括:将图像数据集划分为训练集、验证集和测试集,对训练集中图像进行图像预处理;构建编码多路径语义交叉网络,编码端网络包括用于提取原始图像特征的主路径和用于提取经过预处理图像特征的辅助路径;编码端网络中嵌入语义交叉模块,以让两条路径的信息相互传递;解码端网络用于恢复图像的分辨率,其中嵌入边缘注意力模块;将训练集图像输入编码多路径语义交叉网络进行训练,并通过验证集进行验证;通过测试集对训练好的网络模型进行测试;通过最终的网络模型对新的图像进行语义分割,得到图像语义分割结果。该方法及系统有利于提高对图像中对象进行分割的准确性。
Description
技术领域
本发明属于图像处理领域,具体涉及一种基于编码多路径语义交叉网络的图像语义分割方法及系统。
背景技术
结肠癌是(CRC)是世界上排名第三的常见癌症,占所有癌症类型的10%。在早期检测到结肠癌可以被治愈,晚期的存活率只有10%,早期的存活率有90%。早期的诊断和干涉治疗在结肠癌预防和诊断中扮演一个重要的角色。结直肠息肉是结肠表面隆起的肿块,它是结肠癌的前兆。如果结肠息肉能被发现和切除,那么结肠癌的早期诊断和治疗是可以实现的。结肠镜检查是筛查和预防结肠癌的有效手段,它可以提供结直肠息肉的位置和外观信息,使医生能够在息肉发展为结肠癌之前将其切除。大量的研究表明,结肠镜检查可使结肠癌的发病率下降30%。但结肠镜检查是一种依赖于操作员的方法,人为的错误以及敏感性的缺乏导致息肉的漏检率很高,平均息肉失误漏检率在4%-12%左右。所以需要一种能够从结肠镜图像中自动、准确分割所有息肉的方法。息肉分割是一个具有挑战性的任务,有两方面的原因,首先息肉常会表现出不同的大小、颜色、纹理、第二,在结肠镜中,息肉边界和它周围正常组织的粘膜通常是模糊的,息肉边界和背景的对比度低。
早期研究通常设计形状、纹理、颜色的描述符用于结肠镜图像中息肉的分割。然而这些依赖于手动设计特征的模型,只能表示部分图像特征,这些模型只能在特定的情况下表现出较好的性能,且分割的精度较低。
近些年随着深度学习的发展,有很多人提出了基于深度学习的息肉图像语义分割方法。虽然深度学习的方法取得了一些成果,但是精度还是满足不了临床的要求,同时对于息肉的边缘,细小息肉的分割,以及息肉形状的预测还存在着困难。
发明内容
本发明的目的在于提供一种基于编码多路径语义交叉网络的图像语义分割方法及系统,该方法及系统有利于提高对图像中对象进行分割的准确性。
为实现上述目的,本发明采用的技术方案是:一种基于编码多路径语义交叉网络的图像语义分割方法,包括以下步骤:
S1、将图像数据集划分为训练集、验证集和测试集,然后对训练集中图像进行图像预处理;
S2、构建编码多路径语义交叉网络,包括编码端网络和解码端网络;所述编码端网络用于提取图像的特征,其有两条路径,主路径用于提取原始图像的特征,辅助路径用于提取经过预处理的训练集图像的特征;所述编码端网络中嵌入语义交叉模块,以让两条路径的信息重复的相互传递,相互补充;所述解码端网络用于恢复图像的分辨率达到和原始图像同样大小的尺寸,其包含两次迭代,并在第二次迭代时嵌入边缘注意力模块;
S3、将原始训练集图像及经过预处理的训练集图像同时输入构建好的编码多路径语义交叉网络进行训练,并通过验证集进行验证,得到学习好的网络模型;
S4、通过测试集对训练好的网络模型进行测试,得到最终的网络模型;
S5、通过步骤S4得到的最终的网络模型,对新的图像进行语义分割,得到图像语义分割结果。
进一步地,步骤S1具体包括以下步骤:
S11、按照8:1:1的比例对图像数据集中图像进行划分,形成训练集、验证集和测试集;
S12、使用伽马校准对图像进行预处理;伽马校准的计算公式如下:
f(I)=Iγ
其中,I是原始像素点,f(I)是伽马校正过后的像素点,γ是伽马校准的参数;当γ>1时高灰度值区域的对比度提升,当γ<1时低灰度值区域的对比度提升;
S13、对图像进行对比度受限的直方图均衡算法处理。
进一步地,步骤S2中,所述编码端网络包括5个结构相同的语义交叉模块,分别为第一语义交叉模块、第二语义交叉模块、第三语义交叉模块、第四语义交叉模块和第五语义交叉模块;第一语义交叉模块两个输入,其中一个输入为原始图像,另外一个输入为经过预处理的图像,第一语义交叉模块有三个输出,其中两个输出经过下采样操作以后作为第二语义交叉模块的输入,另外一个输出作为侧边输出到相应的解码层;第二语义交叉模块、第三语义交叉模块、第四语义交叉模块的输入都是上一个模块输入下采样得到的,其中两个输出经过下采样以后作为下一个模块的输入,另外一个输出作为侧边输出到相应的解码层;第五语义交叉模块的输入来自于第四语义交叉模块的输出,其输出作为解码端网络第一次迭代时,第四整合卷积块的输入,以及第二次迭代时,边缘注意力模块的输入。
进一步地,步骤S2中,所述语义交叉模块有两个输入,输入经过下采样以后进入到模块中,两个输入都要经过3*3的卷积操作,通道数不变,然后再经过1*1的卷积操作通道数降为原来的一半,经过3*3的卷积操作通道数也降低为原来的一半;然后两个路径经过1*1的卷积操作得到的特征图和相邻路径通过3*3卷积操作的特征图进行整合,得到两个输出作为下一个语义交叉模块的输入,将这两个输出再进行整合作为侧边连接的输出。
进一步地,步骤S2中,所述解码端网络包括4个结构相同的整合卷积块和3个结构相同的边缘注意力模块,分别为第四整合卷积块、第三整合卷积块、第二整合卷积块、第一整合卷积块以及第三边缘注意力模块、第二边缘注意力模块、第一边缘注意力模块;所述解码端网络分为两次迭代,第一次迭代时,第四整合卷积块的输入来自第五语义交叉模块的输出上采样,第三整合卷积块、第二整合卷积块、第一整合卷积块的输入均来自上一层整合卷积块的输出上采样,第四整合卷积块、第三整合卷积块、第二整合卷积块的输出作为第三边缘注意力模块、第二边缘注意力模块第一边缘注意力模块的输入,第一整合卷积块的输出经过连续整除2的下采样后,作为第一边缘注意力模块、第二边缘注意力模块、第三边缘注意力模块的输入;
第二次迭代时,第三边缘注意力模块的输入分别来自第五语义交叉模块的输出上采样、第一次迭代时对应整合卷积块的侧边输出以及第一整合卷积块的输出下采样;第二边缘注意力模块的输入分别来自第四整合卷积块的输出上采样,第一次迭代时对应整合卷积层的侧边输出,以及第一次迭代时第一整合卷积块的输出下采样;第一边缘注意力模块的输入分别来自第三整合卷积块的输出上采样,第一次迭代时对应整合卷积块的侧边输出,以及第一次迭代时第一整合卷积块的输出下采样。
进一步地,所述整合卷积块有两个输入,这两个输入进行整合后,通过两组3*3的卷积操作、批归一化层、激活层。
进一步地,所述边缘注意力模块有三个输入,分别为上一层的特征映射输入、对应整合卷积块的侧边输出以及第一整合卷积块的输出;将第一整合卷积块的输出下采样到和对应整合卷积块相同的大小尺寸,再进行像素级的减法得到边缘注意力图,然后再将得到的边缘注意力图和特征映射输入进行像素级的乘法得到增强后的特征图,再将原始特征映射和增强后的特征图进行像素级的加法,得到最终边缘增强特征图。
进一步地,步骤S3具体包括以下步骤:
S31、在搭建好网络后,对卷积核和权重进行初始化;
S32、将原始图像输入网络的主路径,将经过预处理的图像输入网络的辅助路径;使用SGD优化器对网络进行优化;学习率采用自动更新的方法,更新函数为其中base_lr为初始的学习率,nEpoch为总共的学习轮数,不少于200轮,epoch目前所在的学习轮数,power为学习率的下降指数;模型的损失函数设置为二元交叉熵损失函数;
S33、网络总共训练不少于200轮,在网络训练过程中,记录每一轮模型在验证集上的损失,最后保存损失最小的模型,作为最后训练好的模型。
本发明还提供了一种基于编码多路径语义交叉网络的图像语义分割系统,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现上述的方法步骤。
与现有技术相比,本发明具有以下有益效果:提供了一种基于编码多路径语义交叉网络的图像语义分割方法及系统,在编码端的两条路径分别实现了对原始图像和预处理后的图像的信息提取,相对于单路径的网络提取了更加多有益于息肉分割的信息,提取了更加多有差异的信息,可以提升网络对于息肉整体形状的预测能力;在编码端嵌入的语义交叉模块,最大程度的让两个路径之间的信息相互传递,相互补充,有利于提取对息肉分割有益的信息;在模型的解码端嵌入了边缘注意力模块,使得网络关注于息肉边缘的学习,有利于网络提取息肉的边缘信息,解决了网络对于边缘分割困难的问题。
附图说明
图1是本发明实施例的方法实现流程图。
图2是本发明实施例中编码多路径语义交叉网络的结构示意图。
图3是本发明实施例中语义交叉模块的结构示意图。
图4是本发明实施例中边缘注意力模块的结构示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1所示,本实施例提供了一种基于编码多路径语义交叉网络的图像语义分割方法,包括以下步骤:
S1、将图像数据集划分为训练集、验证集和测试集,然后对训练集中图像进行图像预处理。步骤S1具体包括以下步骤:
S11、按照8:1:1的比例对图像数据集中图像进行划分,形成训练集、验证集和测试集。
S12、使用伽马校准对图像进行预处理;伽马校准的计算公式如下:
f(I)=Iγ
其中,I是原始像素点,f(I)是伽马校正过后的像素点,γ是伽马校准的参数;当γ>1时高灰度值区域的对比度提升,当γ<1时低灰度值区域的对比度提升。
S13、对图像进行对比度受限的直方图均衡算法处理。
在本实施例中,通过MATLAB软件进行Gamma Correction和CLAHE图像预处理。Gamma校准中γ=1/0.9,对于CLAHE,采用MATLAB中的adapthisteq函数来实现,其中NumTiles=[8,8],ClipLimit=0.002。
S2、构建编码多路径语义交叉网络,其结构如图2所示,包括编码端网络和解码端网络;所述编码端网络用于提取图像的特征,其有两条路径,主路径用于提取原始图像的特征,辅助路径用于提取经过预处理的训练集图像的特征;所述编码端网络中嵌入语义交叉模块,以让两条路径的信息重复的相互传递,相互补充;所述解码端网络用于恢复图像的分辨率达到和原始图像同样大小的尺寸,其包含两次迭代,并在第二次迭代时嵌入边缘注意力模块。
其中,所述编码端网络包括5个结构相同的语义交叉模块,分别为第一语义交叉模块、第二语义交叉模块、第三语义交叉模块、第四语义交叉模块和第五语义交叉模块;第一语义交叉模块两个输入,其中一个输入为原始图像,另外一个输入为经过预处理的图像,第一语义交叉模块有三个输出,其中两个输出经过下采样操作以后作为第二语义交叉模块的输入,另外一个输出作为侧边输出到相应的解码层;第二语义交叉模块、第三语义交叉模块、第四语义交叉模块的输入都是上一个模块输入下采样得到的,其中两个输出经过下采样以后作为下一个模块的输入,另外一个输出作为侧边输出到相应的解码层;第五语义交叉模块的输入来自于第四语义交叉模块的输出,其输出作为解码端网络第一次迭代时,第四整合卷积块的输入,以及第二次迭代时,边缘注意力模块的输入。
在本实施例中,所述语义交叉模块有两个输入,输入经过下采样以后进入到模块中,两个输入都要经过3*3的卷积操作,通道数不变,然后再经过1*1的卷积操作通道数降为原来的一半,经过3*3的卷积操作通道数也降低为原来的一半;然后两个路径经过1*1的卷积操作得到的特征图和相邻路径通过3*3卷积操作的特征图进行整合,得到两个输出作为下一个语义交叉模块的输入,将这两个输出再进行整合作为侧边连接的输出。
所述解码端网络包括4个结构相同的整合卷积块和3个结构相同的边缘注意力模块,分别为第四整合卷积块、第三整合卷积块、第二整合卷积块、第一整合卷积块以及第三边缘注意力模块、第二边缘注意力模块、第一边缘注意力模块;所述解码端网络分为两次迭代,第一次迭代时,第四整合卷积块的输入来自第五语义交叉模块的输出上采样,第三整合卷积块、第二整合卷积块、第一整合卷积块的输入均来自上一层整合卷积块的输出上采样,第四整合卷积块、第三整合卷积块、第二整合卷积块的输出作为第三边缘注意力模块、第二边缘注意力模块第一边缘注意力模块的输入,第一整合卷积块的输出经过连续整除2的下采样后,作为第一边缘注意力模块、第二边缘注意力模块、第三边缘注意力模块的输入;
第二次迭代时,第三边缘注意力模块的输入分别来自第五语义交叉模块的输出上采样、第一次迭代时对应整合卷积块的侧边输出以及第一整合卷积块的输出下采样;第二边缘注意力模块的输入分别来自第四整合卷积块的输出上采样,第一次迭代时对应整合卷积层的侧边输出,以及第一次迭代时第一整合卷积块的输出下采样;第一边缘注意力模块的输入分别来自第三整合卷积块的输出上采样,第一次迭代时对应整合卷积块的侧边输出,以及第一次迭代时第一整合卷积块的输出下采样。
在本实施例中,所述整合卷积块有两个输入,这两个输入进行整合后,通过两组3*3的卷积操作、批归一化层、激活层。所述边缘注意力模块有三个输入,分别为上一层的特征映射输入、对应整合卷积块的侧边输出以及第一整合卷积块的输出;将第一整合卷积块的输出下采样到和对应整合卷积块相同的大小尺寸,再进行像素级的减法得到边缘注意力图,然后再将得到的边缘注意力图和特征映射输入进行像素级的乘法得到增强后的特征图,再将原始特征映射和增强后的特征图进行像素级的加法,得到最终边缘增强特征图。
在本实施例中,构建编码多路径语义交叉网络,具体包括以下步骤:
S21、构建网络的编码端,编码端的基本模块是语义交叉模块,且编码端有两条路径。
S22、如图3所示,编码端有SCM1、SCM2、SCM3、SCM4、SCM5这5个语义交叉模块,SCM1有两个输入接口,其中一个接口输入原始图像,另外一个接口输入经过数据预处理的图像,SCM1、SCM2、SCM3、SCM4、SCM5的输入都是上一层的语义交叉模块的输出经过下采样的得到的,同时SCM1、SCM2、SCM3、SCM4都有侧边输出将特征图输出到解码端对应CatConv1、CatConv2、CatConv3、CatConv4层。SCM5的输出上采样以后,输入到CatConv1,EAM。
S23、语义交叉模块的结构图如图2所示,网络中第一个语义交叉模块的两个输入是[h,w,3],输出是尺寸为[h,w,64k]的特征映射,从第二个输入模块开始输入的特征映射和/>尺寸为[h/2k,w/2k,64k],其中{k=1,2,3,4}(k表示当前编码端的k+1层),/>与/>都经过两个核为3×3的卷积块得到尺寸为[h/2k,w/2k,128k]的特征映射。/>都经过两个核为3×3的卷积块和一个1×1的卷积得到了尺寸为[h/2k,w/2k,64k]的/>与/>与接着将/>与/>与/>进行整合得到尺寸为[h/2k,w/2k,128k]的/>作为下一个语义交叉模块的输入。同时将/>整合后通过2个核为3×3的卷积块得到侧边输出LateralOut的特征映射的尺寸为[h/2k,w/2k,128k]。
S24、边缘注意力模块如图4所示,边缘注意力模块使得网络关注于息肉边缘特征的学习,提升了网络边缘分割的能力。顶层的输出通过下采样操作和侧边的输出进行像素级的减法得到边缘注意力图,然后将边缘注意力图和当前的特征映射进行像素级的乘法得边缘增强后的特征映射图,将边缘增强后的特征映射和原始的特征映射进行像素级的加法,最终得到增强后的模块输出。
S3、将原始训练集图像及经过预处理的训练集图像同时输入构建好的编码多路径语义交叉网络进行训练,并通过验证集进行验证,得到学习好的网络模型。步骤S3具体包括以下步骤:
S31、训练集中共有486张图像,本实施例在使用python3.6和pytorch1.7搭建好网络后,对卷积核和权重进行初始化。
S32、将原始图像输入网络的主路径,将经过预处理的图像输入网络的辅助路径;网络的训练批次设置为3,使用SGD优化器对网络进行优化,momentum设置为0.9,weight_decay设置为0.00001;学习率采用自动更新的方法,更新函数为其中base_lr为初始的学习率,nEpoch为总共的学习轮数,epoch目前所在的学习轮数,power为学习率的下降指数。在本实施例中,base_lr=0.001,nEpoch=200,power=0.9。模型的损失函数设置为二元交叉熵损失函数。
S33、网络总共训练200轮,在网络训练过程中,记录每一轮模型在验证集上的损失,最后保存损失最小的模型,作为最后训练好的模型。
S4、通过测试集对训练好的网络模型进行测试,得到最终的网络模型。
S5、通过步骤S4得到的最终的网络模型,对新的图像进行语义分割,得到图像语义分割结果。
在本发明中,只有训练集图像经过图像预处理,训练时,主路径输入原始图像,而辅助路径输入经过预处理的图像。而通过验证集进行验证,通过测试集进行测试,或者对新的图像进行语义分割时,主路径和辅助路径都是输入未经预处理的图像,而无需输入经过预处理的图像。
本实施例还提供了一种基于编码多路径语义交叉网络的图像语义分割系统,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现上述的方法步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。
Claims (4)
1.一种基于编码多路径语义交叉网络的图像语义分割方法,其特征在于,包括以下步骤:
S1、将图像数据集划分为训练集、验证集和测试集,然后对训练集中图像进行图像预处理;
S2、构建编码多路径语义交叉网络,包括编码端网络和解码端网络;所述编码端网络用于提取图像的特征,其有两条路径,主路径用于提取原始图像的特征,辅助路径用于提取经过预处理的训练集图像的特征;所述编码端网络中嵌入语义交叉模块,以让两条路径的信息重复的相互传递,相互补充;所述解码端网络用于恢复图像的分辨率达到和原始图像同样大小的尺寸,其包含两次迭代,并在第二次迭代时嵌入边缘注意力模块;
S3、将原始训练集图像及经过预处理的训练集图像同时输入构建好的编码多路径语义交叉网络进行训练,并通过验证集进行验证,得到学习好的网络模型;
S4、通过测试集对训练好的网络模型进行测试,得到最终的网络模型;
S5、通过步骤S4得到的最终的网络模型,对新的图像进行语义分割,得到图像语义分割结果;
步骤S2中,所述编码端网络包括5个结构相同的语义交叉模块,分别为第一语义交叉模块、第二语义交叉模块、第三语义交叉模块、第四语义交叉模块和第五语义交叉模块;第一语义交叉模块两个输入,其中一个输入为原始图像,另外一个输入为经过预处理的图像,第一语义交叉模块有三个输出,其中两个输出经过下采样操作以后作为第二语义交叉模块的输入,另外一个输出作为侧边输出到相应的解码层;第二语义交叉模块、第三语义交叉模块、第四语义交叉模块的输入都是上一个模块输入下采样得到的,其中两个输出经过下采样以后作为下一个模块的输入,另外一个输出作为侧边输出到相应的解码层;第五语义交叉模块的输入来自于第四语义交叉模块的输出,其输出作为解码端网络第一次迭代时,第四整合卷积块的输入,以及第二次迭代时,边缘注意力模块的输入;
步骤S2中,所述语义交叉模块有两个输入,输入经过下采样以后进入到模块中,两个输入都要经过3*3的卷积操作,通道数不变,然后再经过1*1的卷积操作通道数降为原来的一半,经过3*3的卷积操作通道数也降低为原来的一半;然后两个路径经过1*1的卷积操作得到的特征图和相邻路径通过3*3卷积操作的特征图进行整合,得到两个输出作为下一个语义交叉模块的输入,将这两个输出再进行整合作为侧边连接的输出;
步骤S2中,所述解码端网络包括4个结构相同的整合卷积块和3个结构相同的边缘注意力模块,分别为第四整合卷积块、第三整合卷积块、第二整合卷积块、第一整合卷积块以及第三边缘注意力模块、第二边缘注意力模块、第一边缘注意力模块;所述解码端网络分为两次迭代,第一次迭代时,第四整合卷积块的输入来自第五语义交叉模块的输出上采样,第三整合卷积块、第二整合卷积块、第一整合卷积块的输入均来自上一层整合卷积块的输出上采样,第四整合卷积块、第三整合卷积块、第二整合卷积块的输出作为第三边缘注意力模块、第二边缘注意力模块第一边缘注意力模块的输入,第一整合卷积块的输出经过连续整除2的下采样后,作为第一边缘注意力模块、第二边缘注意力模块、第三边缘注意力模块的输入;
第二次迭代时,第三边缘注意力模块的输入分别来自第五语义交叉模块的输出上采样、第一次迭代时对应整合卷积块的侧边输出以及第一整合卷积块的输出下采样;第二边缘注意力模块的输入分别来自第四整合卷积块的输出上采样,第一次迭代时对应整合卷积层的侧边输出,以及第一次迭代时第一整合卷积块的输出下采样;第一边缘注意力模块的输入分别来自第三整合卷积块的输出上采样,第一次迭代时对应整合卷积块的侧边输出,以及第一次迭代时第一整合卷积块的输出下采样;
所述整合卷积块有两个输入,这两个输入进行整合后,通过两组3*3的卷积操作、批归一化层、激活层;
所述边缘注意力模块有三个输入,分别为上一层的特征映射输入、对应整合卷积块的侧边输出以及第一整合卷积块的输出;将第一整合卷积块的输出下采样到和对应整合卷积块相同的大小尺寸,再进行像素级的减法得到边缘注意力图,然后再将得到的边缘注意力图和特征映射输入进行像素级的乘法得到增强后的特征图,再将原始特征映射和增强后的特征图进行像素级的加法,得到最终边缘增强特征图。
2.根据权利要求1所述的基于编码多路径语义交叉网络的图像语义分割方法,其特征在于,步骤S1具体包括以下步骤:
S11、按照8:1:1的比例对图像数据集中图像进行划分,形成训练集、验证集和测试集;
S12、使用伽马校准对图像进行预处理;伽马校准的计算公式如下:
f(I)=Iγ
其中,I是原始像素点,f(I)是伽马校正过后的像素点,γ是伽马校准的参数;当γ>1时高灰度值区域的对比度提升,当γ<1时低灰度值区域的对比度提升;
S13、对图像进行对比度受限的直方图均衡算法处理。
3.根据权利要求1所述的基于编码多路径语义交叉网络的图像语义分割方法,其特征在于,步骤S3具体包括以下步骤:
S31、在搭建好网络后,对卷积核和权重进行初始化;
S32、将原始图像输入网络的主路径,将经过预处理的图像输入网络的辅助路径;使用SGD优化器对网络进行优化;学习率采用自动更新的方法,更新函数为其中base_lr为初始的学习率,nEpoch为总共的学习轮数,不少于200轮,epoch目前所在的学习轮数,power为学习率的下降指数;模型的损失函数设置为二元交叉熵损失函数;
S33、网络总共训练不少于200轮,在网络训练过程中,记录每一轮模型在验证集上的损失,最后保存损失最小的模型,作为最后训练好的模型。
4.一种基于编码多路径语义交叉网络的图像语义分割系统,其特征在于,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如权利要求1-3任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110925736.XA CN113642581B (zh) | 2021-08-12 | 2021-08-12 | 基于编码多路径语义交叉网络的图像语义分割方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110925736.XA CN113642581B (zh) | 2021-08-12 | 2021-08-12 | 基于编码多路径语义交叉网络的图像语义分割方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113642581A CN113642581A (zh) | 2021-11-12 |
CN113642581B true CN113642581B (zh) | 2023-09-22 |
Family
ID=78421337
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110925736.XA Active CN113642581B (zh) | 2021-08-12 | 2021-08-12 | 基于编码多路径语义交叉网络的图像语义分割方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113642581B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018035805A1 (en) * | 2016-08-25 | 2018-03-01 | Intel Corporation | Coupled multi-task fully convolutional networks using multi-scale contextual information and hierarchical hyper-features for semantic image segmentation |
CN110490082A (zh) * | 2019-07-23 | 2019-11-22 | 浙江科技学院 | 一种有效融合神经网络特征的道路场景语义分割方法 |
CN111681252A (zh) * | 2020-05-30 | 2020-09-18 | 重庆邮电大学 | 一种基于多路径注意力融合的医学图像自动分割方法 |
WO2020192471A1 (zh) * | 2019-03-26 | 2020-10-01 | 腾讯科技(深圳)有限公司 | 一种图像分类模型训练的方法、图像处理的方法及装置 |
CN112927255A (zh) * | 2021-02-22 | 2021-06-08 | 武汉科技大学 | 一种基于上下文注意力策略的三维肝脏影像语义分割方法 |
CN113192073A (zh) * | 2021-04-06 | 2021-07-30 | 浙江科技学院 | 基于交叉融合网络的服装语义分割方法 |
-
2021
- 2021-08-12 CN CN202110925736.XA patent/CN113642581B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018035805A1 (en) * | 2016-08-25 | 2018-03-01 | Intel Corporation | Coupled multi-task fully convolutional networks using multi-scale contextual information and hierarchical hyper-features for semantic image segmentation |
WO2020192471A1 (zh) * | 2019-03-26 | 2020-10-01 | 腾讯科技(深圳)有限公司 | 一种图像分类模型训练的方法、图像处理的方法及装置 |
CN110490082A (zh) * | 2019-07-23 | 2019-11-22 | 浙江科技学院 | 一种有效融合神经网络特征的道路场景语义分割方法 |
CN111681252A (zh) * | 2020-05-30 | 2020-09-18 | 重庆邮电大学 | 一种基于多路径注意力融合的医学图像自动分割方法 |
CN112927255A (zh) * | 2021-02-22 | 2021-06-08 | 武汉科技大学 | 一种基于上下文注意力策略的三维肝脏影像语义分割方法 |
CN113192073A (zh) * | 2021-04-06 | 2021-07-30 | 浙江科技学院 | 基于交叉融合网络的服装语义分割方法 |
Non-Patent Citations (1)
Title |
---|
多尺度特征融合工件目标语义分割;和超;张印辉;何自芬;;中国图象图形学报(第03期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113642581A (zh) | 2021-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114612479B (zh) | 基于全局与局部特征重建网络的医学图像分割方法和装置 | |
CN108520503B (zh) | 一种基于自编码器和生成对抗网络修复人脸缺损图像的方法 | |
CN113658051B (zh) | 一种基于循环生成对抗网络的图像去雾方法及系统 | |
Song et al. | Global and local feature reconstruction for medical image segmentation | |
CN113283435A (zh) | 一种基于多尺度注意力融合的遥感图像语义分割方法 | |
CN113392711B (zh) | 一种基于高层语义与噪声抑制的烟雾语义分割方法及系统 | |
US11935213B2 (en) | Laparoscopic image smoke removal method based on generative adversarial network | |
Zhang et al. | Feature pyramid network for diffusion-based image inpainting detection | |
CN113129212B (zh) | 图像超分辨率重建方法、装置、终端设备及存储介质 | |
CN113450290A (zh) | 基于图像修补技术的低照度图像增强方法及系统 | |
US11887218B2 (en) | Image optimization method, apparatus, device and storage medium | |
CN114445715A (zh) | 一种基于卷积神经网络的农作物病害识别方法 | |
CN115546171A (zh) | 一种基于关注阴影边界和特征校正的阴影检测方法及设备 | |
CN112270366A (zh) | 基于自适应多特征融合的微小目标检测方法 | |
CN116757986A (zh) | 一种红外与可见光图像融合方法及装置 | |
CN111986204B (zh) | 一种息肉分割方法、装置及存储介质 | |
Chen et al. | SCPA‐Net: Self‐calibrated pyramid aggregation for image dehazing | |
CN113642581B (zh) | 基于编码多路径语义交叉网络的图像语义分割方法及系统 | |
CN116935044A (zh) | 一种多尺度引导和多层次监督的内镜息肉分割方法 | |
CN116091458A (zh) | 一种基于互补注意力的胰腺图像分割方法 | |
CN116309545A (zh) | 一种面向医学显微图像的单阶段细胞核实例分割方法 | |
Zhang et al. | Global guidance-based integration network for salient object detection in low-light images | |
CN112634224B (zh) | 基于目标影像的病灶检测方法和装置 | |
CN116543246A (zh) | 图像去噪模型的训练方法、图像去噪方法、装置及设备 | |
CN113744158A (zh) | 图像生成方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |