CN117521742B - 基于深度神经网络模型的轻量化部署图像处理方法 - Google Patents
基于深度神经网络模型的轻量化部署图像处理方法 Download PDFInfo
- Publication number
- CN117521742B CN117521742B CN202311319045.0A CN202311319045A CN117521742B CN 117521742 B CN117521742 B CN 117521742B CN 202311319045 A CN202311319045 A CN 202311319045A CN 117521742 B CN117521742 B CN 117521742B
- Authority
- CN
- China
- Prior art keywords
- feature map
- image
- convolution
- layer
- channel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003062 neural network model Methods 0.000 title claims abstract description 80
- 238000003672 processing method Methods 0.000 title claims abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 84
- 238000000605 extraction Methods 0.000 claims description 54
- 238000010586 diagram Methods 0.000 claims description 31
- 238000000034 method Methods 0.000 claims description 29
- 230000007246 mechanism Effects 0.000 claims description 27
- 238000013528 artificial neural network Methods 0.000 claims description 21
- 230000004913 activation Effects 0.000 claims description 19
- 238000010606 normalization Methods 0.000 claims description 16
- 238000011176 pooling Methods 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 11
- 230000009467 reduction Effects 0.000 claims description 9
- 230000006835 compression Effects 0.000 claims description 8
- 238000007906 compression Methods 0.000 claims description 8
- 238000003709 image segmentation Methods 0.000 abstract description 22
- 230000000694 effects Effects 0.000 abstract description 16
- 230000006870 function Effects 0.000 description 45
- 230000011218 segmentation Effects 0.000 description 26
- 230000008569 process Effects 0.000 description 15
- 238000012549 training Methods 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 11
- 230000009286 beneficial effect Effects 0.000 description 7
- 238000001514 detection method Methods 0.000 description 7
- 238000010276 construction Methods 0.000 description 6
- 230000003993 interaction Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000000052 comparative effect Effects 0.000 description 4
- 230000002708 enhancing effect Effects 0.000 description 4
- 230000001965 increasing effect Effects 0.000 description 4
- 238000007634 remodeling Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000002604 ultrasonography Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000002679 ablation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000012633 leachable Substances 0.000 description 2
- 210000005246 left atrium Anatomy 0.000 description 2
- 210000005240 left ventricle Anatomy 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 230000001746 atrial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000005242 cardiac chamber Anatomy 0.000 description 1
- 230000000747 cardiac effect Effects 0.000 description 1
- 230000000739 chaotic effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000004165 myocardium Anatomy 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002195 synergetic effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000002861 ventricular Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0495—Quantised networks; Sparse networks; Compressed networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于深度神经网络模型的轻量化部署图像处理方法,方法包括:获取待处理图像,通过训练好的改进神经网络模型对待处理图像进行图像处理,得到待处理图像的目标区域;模型包括用于对待处理图像进行分组卷积,得到待编码特征图的分组输入模块、用于对待编码特征图进行下采样和卷积处理的编码器模块、用于对编码器模块的输出进行上采样和转置卷积处理,得到待重塑特征图的解码器模块和用于对待重塑特征图进行分组重塑,得到待处理图像的目标区域的重塑输出模块。本发明显著降低了神经网络模型的参量和部署成本,实现模型的轻量化部署,并提高了模型在图像处理任务上的处理效果和效率,可应用于如图像分割、目标识别等图像处理任务。
Description
技术领域
本发明涉及图像处理技术领域,特别涉及基于深度神经网络模型的轻量化部署图像处理方法。
背景技术
计算机视觉是一个通过技术帮助计算机看到并看懂图像的研究领域,计算机视觉主要应用于人脸识别、图像识别等方面,可以分为图像分类、目标定位、目标检测、图像分割等图像处理方面。目前计算机视觉领域中常用于进行图像处理的神经网络模型有FasterRCNN、MobileNet、Sufflenet等,它们在如图像分割、目标识别等图像处理任务上均表现出较佳的处理效果和性能。
然而,在面对复杂情境下的目标检测、图像分割等图像处理任务时,大部分现有的神经网络模型存在有无法捕捉到长距离相邻特征之间的依赖关系、卷积核感受野太小、神经网络模型参量和计算量较高等问题,导致它们只能感受局部输入而忽略了特征,不仅使得多个特征之间的信息交流存在严重的局限性,限制了神经网络模型的特征表示能力,而且它们在面对目标检测、图像分割等图像处理任务上的精准度和表现不佳,图像处理的精准度和效率有待进一步地提高。
发明内容
本发明的目的是提供基于深度神经网络模型的轻量化部署图像处理方法,以解决现有技术中所存在的一个或多个技术问题,至少提供一种有益的选择或创造条件。
本发明解决其技术问题的解决方案是:本申请提供基于深度神经网络模型的轻量化部署图像处理方法,包括如下步骤:
获取待处理图像,所述待处理图像包括至少一个目标区域;
通过训练好的改进神经网络模型对所述待处理图像进行图像处理,得到所述待处理图像的目标区域;
其中,所述训练好的改进神经网络模型包括:
分组输入模块,用于对所述待处理图像进行分组卷积,得到待编码特征图;
编码器模块,用于对所述待编码特征图进行下采样和卷积处理;
解码器模块,用于对所述编码器模块的输出进行上采样和转置卷积处理,得到待重塑特征图;
重塑输出模块,用于对所述待重塑特征图进行分组重塑,得到所述待处理图像的目标区域。
进一步地,所述分组输入模块包括顺次连接的输入卷积单元、通道分组层和通道拼接层,所述输入卷积单元包括至少两层CBL层;所述对所述待处理图像进行分组卷积,得到待编码特征图,包括:
通过所述输入卷积单元对所述待处理图像进行卷积运算,得到卷积特征图;通过所述通道分组层将所述卷积特征图按照通道维度进行分组,得到若干组子特征图;通过所述通道拼接层按照分组的顺序沿着宽和高的方向将若干组子特征图拼接成待编码特征图。
进一步地,所述重塑输出模块包括顺次连接的通道重塑层、输出卷积单元和输出层,所述输出卷积单元与所述输入卷积单元进行残差连接,所述输出卷积单元包括至少两层CBL层;所述对所述待重塑特征图进行分组重塑,得到所述待处理图像的目标区域,包括:
通过所述通道重塑层将所述待重塑特征图按照通道维度进行重塑,得到重塑特征图;通过所述输出卷积单元对所述重塑特征图和所述卷积特征图进行卷积运算,得到所述待处理图像的目标区域并通过所述输出层输出。
进一步地,所述编码器模块包括顺次连接的第一下采样层、第一编码器、第二下采样层、第二编码器和第三下采样层;所述对所述待编码特征图进行下采样和卷积处理,包括:
通过所述第一下采样层对所述待编码特征图进行下采样,生成下采样后的待编码特征图;通过所述第一编码器对下采样后的待编码特征图进行卷积处理,得到第一编码特征图;通过所述第二下采样层对所述第一编码特征图进行下采样,生成下采样后的第一编码特征图;通过所述第二编码器对下采样后的第一编码特征图进行卷积处理,得到第二编码特征图;通过所述第三下采样层对所述第二编码特征图进行下采样,生成第三编码特征图。
进一步地,所述解码器模块包括顺次连接的第一上采样层、第一解码器、第二上采样层和第二解码器,所述第一解码器的输出端与所述第二编码器的输出端残差连接,所述第二解码器的输出端与所述第一编码器的输出端残差连接;所述对所述编码器模块的输出进行上采样和转置卷积处理,得到待重塑特征图,包括:
通过所述第一上采样层对所述第三编码特征图进行上采样,生成上采样后的第三编码特征图;通过所述第一解码器对上采样后的第三编码特征图进行转置卷积处理,生成第一反卷积特征图,所述第一反卷积特征图与所述第二编码特征图进行残差连接,生成第一解码特征图;通过所述第二上采样层对所述第一解码特征图进行上采样,生成上采样后的第一解码特征图;通过所述第二解码器对上采样后的第一解码特征图进行转置卷积处理,生成第二反卷积特征图,将所述第二反卷积特征图与所述第一编码特征图进行残差连接,生成待重塑特征图。
进一步地,所述第一编码器、所述第二编码器、所述第一解码器和所述第二解码器均包括顺次连接的多尺度提取结构、移位空间注意力层、压缩通道注意力层和注意力输出层,所述卷积并接结构由三个子卷积层构成,其中,所述多尺度提取结构用于对输入至所述第一编码器、所述第二编码器、所述第一解码器或者所述第二解码器的特征图进行分组卷积和通道混洗,生成多尺度特征图;所述移位空间注意力层用于基于抽值移位和空间注意力机制对所述多尺度特征图进行空间特征的提取,得到空间特征图;所述压缩通道注意力层用于基于卷积运算和通道注意力机制对所述空间特征图进行通道特征的提取,得到通道特征图;所述注意力输出层用于将当前注意力机制单元的输入与所述通道特征图相加,得到所述第一编码特征图、所述第二编码特征图、所述第一反卷积特征图或者所述第二反卷积特征图。
进一步地,所述基于抽值移位和空间注意力机制对所述多尺度特征图进行空间特征的提取,得到空间特征图,包括:在所述多尺度特征图的空间维度上,通过抽值移位的方式对所述多尺度特征图进行位置混洗,得到四个抽值特征图,并拼接四个所述抽值特征图,得到拼接特征图;按照所述拼接特征图的通道维度,对所述拼接特征图进行组归一化和线性组合处理,得到第一线性特征图;对所述第一线性特征图进行去线性化处理,通过抽值移位的方式对去线性化后的所述第一线性特征图的像素点进行位置还原,得到空间特征图。
进一步地,所述基于卷积运算和通道注意力机制对所述空间特征图进行通道特征的提取,得到通道特征图,包括:在所述空间特征图的通道维度上,对所述空间特征图进行全局平均池化和线性组合处理,得到第二线性特征图;对所述第二线性特征图进行去线性化处理和通道压缩,生成通道特征图。
进一步地,所述压缩通道注意力层与所述注意力输出层之间连接有批标准化层,所述批标准化层的前面设置有激活函数。
进一步地,所述重塑输出模块的后面还设置有分类模块,所述方法还包括如下步骤:根据所述待处理图像的目标区域,通过分类模块计算得到所述目标区域所属类别的最大概率,并根据所述最大概率输出所述待处理图像的目标区域的分类结果。
本发明的有益效果是:提供基于深度神经网络模型的轻量化部署图像处理方法,此方法基于改进的神经网络模型实现,改进的神经网络模型采用了编码器-解码器架构,引入了新的卷积操作和新的特征提取操作,这两者的协同作用能够显著降低神经网络模型所需的内存空间和计算资源,降低神经网络模型的部署成本,进而实现轻量化部署,同时,可以有效地提高神经网络模型在图像分割等图像处理任务上的准确率和处理效率,保证高效的模型性能,可应用于如图像分割、目标识别等图像处理任务。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
图1是本发明的基于深度神经网络的轻量化部署图像处理方法的流程图;
图2是本发明的改进神经网络模型的一种结构图;
图3是本发明的改进神经网络模型的另一种结构图;
图4是本发明的MSC-Shuffle模块的结构图;
图5是本发明的多尺度提取结构的结构图;
图6是本发明提供的移位空间注意力的原理图;
图7是本发明的压缩通道注意力的原理图;
图8A是MSC-ShuffleNet及对比网络在LLUMC数据集上的其一分割效果图;
图8B是MSC-ShuffleNet及对比网络在LLUMC数据集上的其二分割效果图;
图9A是MSC-ShuffleNet及对比网络在Camus数据集上的其一分割效果图;
图9B是MSC-ShuffleNet及对比网络在Camus数据集上的其二分割效果图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
目前,在计算机视觉领域中,为了降低神经网络模型的参数量和计算复杂度,主要引入深度可分离卷积和分组卷积两种操作,本领域常见的引入了深度可分离卷积的神经网络模型有MobileNet、Xception、EfficientNet等,而引入了分组卷积的代表性神经网络模型则有ShuffleNet。
对于深度可分离卷积,深度可分离卷积将卷积操作分解为两个步骤,它将通道间的交互限制在逐点卷积阶段,逐点卷积主要关注通道之间的相关性,并独立地卷积处理每个通道,而忽略了空间维度上的相关性,因而导致一些空间维度上的特征模式无法被充分利用,造成输入特征图中的空间相关性信息的损失,进而对某些需要较强特征交互的任务产生一定的负面影响。
此外,逐点卷积无法捕捉到像大卷积核那样的更广阔的局部感受野,而在依赖于空间结构的任务或者某些具有细粒度结构或语义信息的任务上,不同特征之间存在更远距离的依赖关系,逐点卷积无法有效地建模这种长距离的关联,同时也无法捕捉更丰富的特征表示。因此,MobileNet在依赖于空间结构的任务或者某些具有细粒度结构或语义信息的任务(如图像分割任务)上的表现并不佳。
而分组卷积则是指将输入通道分成多个较小的组,并对每个组应用独立的卷积操作,这意味着每个组都有自己的一组卷积核,并且每个组的卷积核只与该组的输入通道进行卷积运算,最后,将每个组的输出连接在一起形成最终的输出。分组卷积的主要目的是减少模型中的参数数量和计算量。
对于分组卷积,示例性地, ShuffleNet通过分组卷积和通道混洗使其具有更小的神经网络模型尺寸和更低的计算复杂度,使其在资源受限的设备上具有更好的性能。然而,ShuffleNet仍存在如下缺点:
一方面,由于模型引入了通道混洗操作,使得特征图的通道顺序发生了变化,这会导致一部分原始通道之间的关联信息被打乱或分散到不同的组中,特别是在图像分割任务中,通道之间的相关性对于神经网络模型的性能至关重要,通道混洗操作会破坏这种相关性。另一方面,由于分组卷积将卷积核分为多个组进行卷积,不仅使得每个卷积核只能感受到部分输入特征,导致特征表示能力下降,而且使得每个组之间的信息交流受到限制,导致信息交流的局部性,进而影响神经网络模型的准确性和限制了神经网络模型的特征表达能力。
综上可见,在面对复杂情境下的目标检测、图像分割等图像处理任务时,大部分现有的神经网络模型存在有无法捕捉到长距离相邻特征之间的依赖关系、卷积核感受野太小、神经网络模型参量和计算量较高等问题,导致它们只能感受局部输入而忽略了特征,不仅使得多个特征之间的信息交流存在严重的局限性,限制了神经网络模型的特征表示能力,而且它们在面对目标检测、图像分割等图像处理任务上的精准度和表现不佳,图像处理的精准度和效率有待进一步地提高。
对此,针对神经网络在模型性能和计算成本之间取得平衡的难题,本发明实施例提供了基于深度神经网络的轻量化部署图像处理方法,此方法基于改进的神经网络模型实现,改进的神经网络模型采用了编码器-解码器架构,可应用于目标检测、目标识别、图像分割等图像处理任务。本发明能够显著降低神经网络模型所需的内存空间和计算资源,从而使得神经网络能够轻松地部署在移动设备上,即实现轻量化部署,同时可以有效地提高神经网络模型在图像分割等图像处理任务上的准确率和处理效率。
参照图1,本申请的一个实施例,下面将详细描述本发明实施例提供的基于深度神经网络的轻量化部署图像处理方法。
本发明实施例提供的方法,可应用于终端中,也可应用于服务器中,还可以是运行于终端或服务器中的软件等。终端可以是平板电脑、笔记本电脑、台式计算机等,但并不局限于此。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
所述图像处理方法可以包括但不限于如下步骤:
S101,获取待处理图像。
需要说明的是,待处理图像包括至少一个目标区域。
可选地,待处理图像可以是如CT影像、超声影像等医学影像,也可以是其他如遥感图像、高光谱图像等图像,本发明提供的图像处理方法可以应用于任何应用场景下的待处理图像。此外,图像的目标区域可以是待分割区域,也可以是其他如待识别区域、待定位区域等感兴趣区域。本发明对待处理图像及其目标区域的类型不作具体限定。
S102,通过训练好的改进神经网络模型对待处理图像进行图像处理,得到待处理图像的目标区域。
本步骤中,以编码器-解码器作为基础架构来构建神经网络模型,利用已标记的样本图像和对应的标记结果进行训练得到。例如,改进神经网络模型应用于图像分割,目标对象为船只,则此改进神经网络模型可利用已标记的包含船只的样本图像和对应的标记结果进行训练得到,其中,标记结果为样本图像中的船只。
参照图2和图3,本申请的一个实施例,下面将描述本发明实施例提供的改进神经网络模型的构造和功能。
本发明实施例提供的改进神经网络模型主要采用编码器-解码器架构,其主要包括分组输入模块、编码器模块、解码器模块和重塑输出模块,分组输入模块的输出与编码器模块的输入连接,解码器模块的输出与重塑输出模块的输入连接,编码器模块和解码器模块之间引入有跳跃连接。可选地,跳跃连接以残差连接的方式来表现。
具体地,本发明实施例提供的改进神经网络模型的每个模块的功能如下:分组输入模块的作用包括对待处理图像进行分组卷积,得到待编码特征图;编码器模块的作用包括对待编码特征图进行下采样和卷积处理;解码器模块的作用包括对编码器模块的输出进行上采样和转置卷积处理,得到待重塑特征图;重塑输出模块的作用包括对待重塑特征图进行分组重塑,得到待处理图像的目标区域。
本发明实施例中,待处理图像被输入至分组输入模块。首先,通过分组输入模块对待处理图像进行分组卷积和通道混洗的预处理。然后,通过编码器模块进行下采样和深层特征的提取,编码器模块的输出通过上采样或者残差连接进入解码器模块。之后,通过解码器模块将编码器模块提取得到的特征映射转换为与输入图像相同的分辨率,实现转置卷积。最后,通过重塑输出模块将解码器模块的输出进行分组重塑和卷积处理,进而得到待处理图像的图像处理结果。
下面将结合附图进一步地描述和说明本发明实施例提供的改进神经网络模型中每个模块的构造与功能。
1、分组输入模块的构造与功能如下:
参照图2和图3,分组输入模块包括顺次连接的输入卷积单元、通道分组层和通道拼接层,其中,输入卷积单元的主要作用是对待处理图像进行卷积运算,得到卷积特征图;通道分组层的主要作用是将卷积特征图按照通道维度进行分组,得到若干组子特征图;通道拼接层的主要作用是按照分组的顺序沿着宽和高的方向将若干组子特征图拼接成待编码特征图。
进一步地,输入卷积单元包括至少两层顺次连接的CBL层。
示例性地,输入卷积单元包括顺次连接的第一CBL层和第二CBL层。
更进一步地,每层CBL层均包括顺次连接的卷积层和批标准化层,批标准化层的后面设置有激活函数,卷积层负责特征提取,批标准化层用于加速训练过程,减少梯度消失和梯度爆炸等问题,而激活函数用于增强神经网络模型的表现能力,使得神经网络模型更好地拟合特征。CBL层的能够有效地减少过拟合,同时也可以提高模型的泛化能力,加速模型的训练过程;而且,相对于一些传统的卷积模块,它可以更快地收敛到最优解,训练速度更快。
可选地,考虑到模型拟合问题,本发明实施例以LeakyReLU作为激活函数。但在本发明的其他实施例中,还可以采用其他如PReLU、Tanh等激活函数,本发明对此不作具体限定。可选地,在CBL层中,其卷积层的卷积核为33。
本发明实施例中,待处理图像被输入至分组输入模块中。首先,通过由至少两层CBL层构成的输入卷积单元对待处理图像进行卷积运算,得到卷积特征图。然后,通过所述通道分组层将卷积特征图按照通道维度进行分组,得到若干组子特征图,将每一组子特征图均位于同一通道维度,使得每一组内的特征通道来自不同位置,同时也使得所有子特征图之间不再有通道的先后顺序。最后,通过通道拼接层按照分组的顺序沿着宽和高的方向将若干组子特征图拼接成待编码特征图。
相比于传统的分组卷积操作,本发明实施例通过分组输入模块对输入图像进行分组卷积和通道拼接的操作,将图像重塑为一种新的形状或者结构。一方面,这种重塑操作增加了相邻特征之间的距离,扩大每个特征位置的感受野,有助于捕获更加全面、丰富的上下文信息;另一方面,这种重塑操作增强了特征的多样性,使得不同组中的特征更加专注于不同的空间信息和语义内容。
此外,这种重塑操作使得不同组特征之间能够有效地共享卷积核的权重,同时减少了输入至编码器模块的特征图的通道数,进而可以减少神经网络模型的参数量和计算复杂度。具体地,当子特征图的分组数为时,通过分组输入模块处理后得到的待编码特征图的通道数为待处理图像的,待编码特征图的宽和高为待处理图像的倍。
可选地,在训练改进神经网络模型时,可将子特征图的分组数设定为神经网络模型的其一超参数。针对较大的深层神经网络模型,可将此超参数设置为16,针对较小的浅层神经网络模型,可将此超参数设置为4,以得到最佳的处理效果。
2、编码器模块和编码器模块的构造和功能如下:
参照图2和图3,编码器模块包括顺次连接的第一下采样层、第一编码器、第二下采样层、第二编码器和第三下采样层。在编码器模块中,下采样层的作用是对输入的特征图进行下采样,编码器的作用是对上一层的输出进行卷积处理,得到对应的编码特征图。
需要说明的是,下采样通常被称为池化,是将输入特征图中的某一区域合并为一个值。下采样可以减少特征图的尺寸,从而减少计算复杂度和计算量。
可选地,池化操作可以是最大池化,也可以是其他如平均池化、最小池化等池化操作,本发明实施例对此不作具体限定。
本发明实施例中,经过前面所述的分组输入模块处理后得到的待编码特征图被输入至第一下采样层中。首先,通过第一下采样层对待编码特征图进行下采样,通过第一编码器对下采样后的待编码特征图进行卷积处理,得到第一编码特征图。然后,通过第二下采样层对第一编码特征图进行下采样,通过第二编码器对下采样后的第一编码特征图进行卷积处理,得到第二编码特征图。最后,通过第三下采样层对第二编码特征图进行下采样,生成第三编码特征图。
参照图2和图3,解码器模块对应于编码器模块而设,解码器模块包括顺次连接的第一上采样层、第一解码器、第二上采样层和第二解码器,其中,第二编码器的输出端残差连接有第一解码器的输出端,第一编码器的输出端残差连接有第二解码器的输出端。在解码器模块中,上采样层的作用是对输入的特征图进行上采样,解码器的作用是对上一层的输出进行转置卷积处理,生成对应的反卷积特征图,之后将对应的反卷积特征图与解码器对应的编码器的输出进行残差连接,生成对应的解码特征图。
需要说明的是,上采样是将特征图的尺寸放大,即用于将低分辨率的特征图恢复到原始图像大小,通常通过插值来实现。上采样操作可以增加特征的感受野,从而增强神经网络模型的表达能力。
需要说明的是,转置卷积处理又称为反卷积处理,其是卷积操作的逆处理,通常通过将卷积操作中的卷积核矩阵进行转置来实现。
本发明实施例中,经过前面所述的第三下采样层输出的第三编码特征图被输入至第一上采样层。首先,通过第一上采样层对所述第三编码特征图进行上采样,通过第一解码器对上采样后的第三编码特征图进行转置卷积处理,生成第一反卷积特征图。然后,获取由第二编码器输出的第二编码特征图,将其与第一反卷积特征图进行残差连接,得到第一解码特征图。之后,通过第二上采样层对第一解码特征图进行上采样,通过第二解码器对上采样后的第一解码特征图进行转置卷积处理,生成第二反卷积特征图。最后,获取由第一编码器输出的第一编码特征图,将其与第二反卷积特征图进行残差连接,得到待重塑特征图。
可选地,在每个编码器和每个解码器的后面均设置有激活函数和池化层。
3、第一编码器、第二编码器、第一解码器和第二解码器的构造及功能如下:
本发明实施例中,第一编码器、第二编码器、第一解码器和第二解码器的卷积或者反卷积操作均通过同一个模块来构成,本发明实施例定义此模块为MSC-Shuffle模块。参照图3和图4,MSC-Shuffle模块依次设置有多尺度提取结构、移位空间注意力层、压缩通道注意力层和注意力输出层,其中:
多尺度提取结构的作用是对输入至第一编码器、第二编码器、第一解码器或第二解码器的特征图进行分组卷积和通道混洗,生成多尺度特征图。移位空间注意力层的作用是基于抽值移位和空间注意力机制对多尺度特征图进行空间特征的提取,得到空间特征图。压缩通道注意力层的作用是基于卷积运算和通道注意力机制对空间特征图进行通道特征的提取,得到通道特征图。注意力输出层的作用是将当前注意力机制单元的输入与通道特征图相加,得到第一编码特征图、第二编码特征图、第一反卷积特征图或第二反卷积特征图。
3.1、多尺度提取结构的构造及功能如下:
相关神经网络ShuffleNet中也提出了分组卷积和通道混洗,对于ShuffleNet而言,其是将输入特征图分成几个较小的组,并在组内执行卷积操作,卷积操作采用的是逐点卷积的方式来实现,逐点卷积是指使用11的卷积核对每个通道进行独立的卷积运算。这种设计虽然减少了参数数量,同时保持了模型的表达能力,但是同时这些操作也可能会导致信息的流动受到一定的限制,尤其是在进行通道混洗操作时引入了信息交换,而使得某些特征可能无法充分传递给后续层,从而影响模型的性能。
针对分组卷积缺乏组与组之间信息交互而导致模型性能下降的问题,本发明实施例采用多尺度提取结构来进行特征提取,参照图5,多尺度提取结构包括顺次连接的卷积分组层、分组卷积结构、卷积拼接层、卷积混洗层和降维卷积层,卷积分组结构由三个子卷积层并接构成。
可选地,三个子卷积层分别为卷积核为33的卷积层、卷积核为55的卷积层和卷积核为77的卷积层,降维卷积层的卷积核为11。
需要说明的是,分组卷积结构的子卷积层的数量可以是三个及其以上,也可以是三个及其以下,本申请对其他实施例不作具体限定。
具体地,采用多尺度提取结构来进行特征提取的实现过程为:
首先,通过卷积分组层将输入至第一编码器、第二编码器、第一解码器或第二解码器的特征图沿着通道维度切分为三组子数据,三组子数据与三个子卷积层一一对应。然后,在分组卷积结构中,每个子卷积层根据其填充像素对输入到子卷积层的子数据进行卷积操作,以生成对应的子卷积层。
可以理解的是,子数据的组别的数量与子卷积层的数量一致,且一一对应。
需要说明的是,分组卷积将输入的特征沿通道维度切分成多组,并在每一组中进行独立的卷积运算,分组卷积有利于降低模型的参量。
之后,在完成分组卷积后通过卷积拼接层将三个子卷积层输出的子特征图进行通道拼接,然后将通道拼接的结果输入到卷积混洗层中,通过卷积混洗层对拼接后的三个子特征图进行通道混洗和重组的操作。通道混洗的操作可以将不同组的特征图打散进行通道混洗,最后再将所有组合并成一个特征图进行输出,这样可以获得更全局和复杂的特征信息并使其在通道维度流动,弥补分组卷积所带来的组与组之间信息交互不足的缺点,增加网络的非线性能力和泛化能力。
最后,将操作结果输出到降维卷积层中。降维卷积层的主要作用是降维,即对卷积混洗层的输出进行通道降维,生成多尺度特征图。
本发明实施例采用多尺度提取结构来进行特征提取,使用了33、55、77三个不同尺度的卷积核来对每个组进行卷积,并将得到的输出沿着通道维度进行拼接,得到通道数为原来输入特征的三倍的输出特征,以三倍的通道数特征进行通道混洗操作,将多尺度的特征通道充分混合,加强了不同尺度特征信息的交流。这种多尺度的卷积有助于提取到不同尺度的特征,增加模型的感受野,提取更全局和复杂的特征信息,增强特征的表达能力和多样性。此外,在增加了模型对不同感受野的特征信息获取能力的同时,加强了特征信息的传递,弥补了现有的通道混洗操作的不足;而后再经过11卷积操作进行维度降低,进一步筛选和压缩了特征表示,保留了最相关和有用的信息。本发明实施例既保留了多尺度的特征,也解决了因分组卷积带来的特征信息交互问题。
3.2、移位空间注意力层的构造和功能如下:
传统的空间注意力只能局限于一个窗口内的像素权重计算,而远距离的特征关系无法通过其表现出来,而经过重塑分组卷积后的特征结构更加需要这种特征关系进行表达。为了弥补跨通道相关性的缺失,本发明提出了一种移位空间注意力,能够计算不同组之间的特征信息权重,很好地弥补了上述缺陷。
参照图6,在移位空间注意力层中基于抽值移位和空间注意力机制对所述多尺度特征图进行空间特征的提取,得到空间特征图的实现主要包括如下步骤:
首先,在多尺度特征图的空间维度上,通过抽值移位的方式对多尺度特征图的像素点进行位置混洗,得到四个抽值特征图。然后,拼接四个抽值特征图,得到拼接特征图。
需要说明的是,每个抽值特征图由若干个像素值相同的像素点构成,每个抽值特征图的像素值均不同。
本步骤中,定义多尺度特征图为,在的空间维度上每隔一个位置抽取出来像素点进行拼接,可以得到四部分拼接出来的特征图,此过程称为抽值移位。之后,将抽值移位得到的多个特征图拼接为一个特征图。
之后,按照拼接特征图的通道维度,对拼接特征图进行组归一化和线性组合处理,得到第一线性特征图。
本步骤中,组归一化的操作流程为首先将通道划分成多个组,每个组包含连续的若干通道,之后分别计算每一组特征的均值和标准差,最后利用组内均值和标准差,对该组的特征进行归一化。组归一化之后的数据可以引入通道间的信息,加速神经网络模型的收敛。在组归一化操作后,对组归一化后的拼接特征图进行线性组合处理。具体地,通过函数对组归一化后的拼接特征图进行计算,和分别为函数用于加权的参数,函数能够按照比例强化重要的空间特征,将需要终点关注的空间特征部分进行重新加权,经过函数可以得到重新加权后的特征图,即第一线性特征图。
最后,对第一线性特征图进行去线性化处理,通过抽值移位的方式对去线性化后的第一线性特征图的像素点进行位置还原,得到空间特征图。
本步骤中,通过Sigmoid激活函数对第一线性特征图进行去线性化处理,根据权重对空间进行可学习的权重赋予,完成基于空间重要性的空间注意力机制,此时特征图的每个像素均带有空间注意力权重。但是,由于前面第一步执行了抽值移位的操作,这导致此时特征图的特征信息是混乱的,因此需要将像素还原到原来的位置,同样地,通过抽值移位的方式进行实现,还原后的特征信息才是完整的、正确的。
综上所述,移位空间注意力层的计算可表示为如下公式:
,
其中,作为输入,其表示为多尺度特征图;GN表示为组归一化操作,和分别为移位空间注意力层中的函数用于加权的参数,是sigmoid激活函数,为空间特征图。
本发明实施例的移位空间注意力层中,一方面,通过抽值移位和组归一化的方式使得特征图的像素跨越不同组进行移位,以实现空间维度上的特征交叉,使得不同分组之间的特征信息可以同时在通道维度和空间维度流动,以此弥补跨通道相关性的缺失问题。另一方面,通过函数进行线性组合处理并通过激活函数进行非线性激活,可以赋予多个特征不同的注意力权重,增强重要的空间特征的表达的同时弱化非重点的空间特征的表达,并且可以促使相关性更高的特征显著地对神经网络模型的输出产生影响,提高特征提取的效果。此外,在赋予注意力权重之后,将特征中的像素点还原回原位,消除位置变换带来的负面影响,恢复原始的空间局部性和连续性,保留了特征图中空间的上下文信息,能够更准确地反映不同像素点之间的关系,更好地表达特征之间远距离的依赖关系。
3.3、压缩通道注意力层的构造和功能如下:
参照图7,在压缩通道注意力层中,基于卷积运算和通道注意力机制对所述空间特征图进行通道特征的提取,得到通道特征图的实现过程可以包括如下步骤:
首先,在空间特征图的通道维度上,对空间特征图进行全局平均池化和线性组合处理,得到第二线性特征图。
本步骤中,将空间特征图进行全局平均池化,对空间特征图的每个通道进行平均池化操作得到每个通道的平均值,将所有平均值组成一个全局向量,最后通过全连接层将向量映射到注意力权重,这有助于捕获每个通道的全局重要性。之后,采用函数对全局平均池化后的空间特征图进行线性组合处理,和分别为函数用于加权的参数,函数能够按照比例强化重要的通道特征,将需要终点关注的通道特征部分进行重新加权,经过函数可以得到重新加权后的特征图,即第二线性特征图。
然后,对第二线性特征图进行去线性化处理和通道压缩,生成通道特征图。
本步骤中,通过Sigmoid激活函数对第二线性特征图进行去线性化处理,根据权重对通道进行可学习的权重赋予,完成基于通道重要性的通道注意力机制,此时特征图的每个像素均带有通道注意力权重。由于拼接了三个不同尺度的卷积输出,这导致去线性化处理后的第二线性特征图的通道数是原来的待处理图像的三倍,因而需要将去线性化处理后的第二线性特征图的通道数压缩,使其通道数减少为原来的三分之一,进一步地压缩特征表示。
更为具体地,本发明实施例采用卷积核为11的卷积层对去线性化处理后的第二线性特征图的通道数进行压缩。
进一步地,压缩通道注意力层与注意力输出层之间连接有批标准化层,批标准化层的前面设置有激活函数。
综上所述,压缩通道注意力层的计算可表示为如下公式:
,
,
其中,表示压缩通道注意力机制,表示全局平局池化操作,和分别为压缩通道注意力层中的函数用于加权的参数,是sigmoid激活函数,为空间特征图,为经过批标准化处理和去线性化后的通道特征图,其为压缩通道注意力层的最终输出,表示批标准化处理,表示通过LeakyReLU激活函数进行去线性化处理。
本发明实施例的压缩通道注意力层中,一方面,通过函数进行线性组合处理并通过激活函数进行非线性激活,可以赋予多个特征不同的注意力权重,增强重要的通道特征的表达的同时弱化非重点的通道特征的表达,并且可以促使相关性更高的特征显著地对神经网络模型的输出产生影响,提高特征提取的效果;另一方面,与传统结构的输入特征不一样的是,输入到压缩通道注意力层的特征图具有三倍的通道数以及更大的宽和高的尺寸,因此本发明实施例在原始的通道注意力计算机制上添加了一个11卷积来将特征图的通道数降低为输入特征图的三分之一,可以有效地增强特征图的各个通道之间的相关性,进一步地筛选和压缩了特征表示,保留了最相关和有用的信息。
本发明提供的MSC-Shuffle模块,通过多尺度特征提取部分可以从不同的尺度上提取和融合特征,增强特征的多样性和表达能力;移位空间注意力机制部分则可以根据输入特征的空间分布,动态地调整每个位置的感受野大小和实现更有效的信息交互;压缩通道注意力机制部分可以通过学习通道之间的相关性,压缩冗余的通道信息,提高特征的鉴别性。通过这三个部分的协同作用,MSC-Shuffle模块可以在降低参数数量和计算量的同时保持高效的模型性能。
4、重塑输出模块的构造和功能如下:
本发明实施例的重塑输出模块与前面所述的分组输入模块相对应。参照图2和图3,重塑输出模块包括顺次连接的通道重塑层、输出卷积单元和输出层,输出卷积单元与分组输入模块的输入卷积单元进行残差连接。其中,通道重塑层的作用包括将待重塑特征图按照通道维度进行重塑,得到重塑特征图,输出卷积单元的作用包括对重塑特征图和卷积特征图进行卷积运算,得到待处理图像的目标区域。可选地,输出层为卷积核为11的卷积层。
进一步地,输出卷积单元包括至少两层CBL层。
示例性地,输出卷积单元包括第三CBL层和第四CBL层。其中,第三CBL层的输出端与第二CBL层的输出端进行残差连接,第四CBL层的输出端与第一CBL层的输出端进行残差连接。
定义在分组输入模块中的第一CBL层输出的数据为第一卷积特征图,第二CBL层输出的数据为第二卷积特征图。在第三CBL层中,获取重塑特征图并对其进行卷积处理,生成第三卷积特征图,然后获取由第二CBL层输出的第二卷积特征图,将第二卷积特征图与第三卷积特征图进行残差连接,生成第一输出特征图。第一输出特征图被输入至第四CBL层中。在第四CBL层中,对第一输出特征图进行卷积处理,生成第四卷积特征图,然后获取由第一CBL层输出的第一卷积特征图,将第一卷积特征图与第四卷积特征图进行残差连接,得到待处理图像的目标区域。最后,通过卷积核为11的卷积层输出所得到的目标区域。
本发明实施例在解码器模块的输出添加重塑输出模块,以使得待重塑特征图被重塑为一种新的形状或者结构。一方面,这种重塑操作增加了相邻特征之间的距离,扩大每个特征位置的感受野,有助于捕获更加全面、丰富的上下文信息;另一方面,这种重塑操作增强了特征的多样性,使得不同组中的特征更加专注于不同的空间信息和语义内容。此外,这种重塑操作使得不同组特征之间能够有效地共享卷积核的权重,同时减少了输入至编码器模块的特征图的通道数,进而可以减少神经网络模型的参数量和计算复杂度。
本申请的一个实施例,本发明提供的改进神经网络模型还可以用于处理其他如目标检测、目标定位等图像处理任务。
示例性地,当图像处理任务为目标识别任务时,本发明提供的改进神经网络模型中,在重塑输出模块的后面还设置有分类模块,所述图像处理方法还可以包括如下步骤:
根据待处理图像的目标区域,通过分类模块计算得到目标区域所属类别的最大概率,并根据最大概率输出待处理图像的目标区域的分类结果,以此实现待处理图像的目标识别。
需要说明的是,最大概率大于等于0且小于等于1。
可选地,分类模块可以是基于Softmax分类器的分类模块,也可以是基于其他如最近邻分类器、贝叶斯分类器、朴素贝叶斯分类器等分类器的分类模块,本发明对此不作具体限定。
本领域技术人员可以理解的是,当本发明提供的改进神经网络模型需应用于处理除图像分割以外的图像处理任务时,只需对本发明的改进神经网络模型的输出作出适当的改动即可实现其他图像处理任务。
在本发明的一些实施例中,所述图像处理方法中,在获取待处理图像之后,还可以包括如下步骤:
将待处理图像的像素尺寸修改为神经网络模型的可输入尺寸。
本步骤中,将待处理图像的尺寸修改为2562563的可输入尺寸。
基于上述实施例,请再次参照图3,下面以如下实施例来阐述本发明实施例提出的基于深度神经网络的轻量化部署图像处理方法的实现原理。
获取待处理图像并将其尺寸修改为2562563,之后将待处理图像输入至改进神经网络模型中。在改进神经网络模型中,有:通过分组输入模块对待处理图像进行分组卷积,得到尺寸为1281288的待编码特征图。分组输入模块用于降低模型参数量和计算复杂度,使每个位置的感受野增大,并使得全局信息更丰富。
待编码特征图通过第一下采样层进入到第一编码器,第一编码器主要用来提取各种不同尺度的特征。较小的卷积核可以捕捉图像的局部细节和边缘信息,而较大的卷积核则可以关注更大范围的结构和纹理,待编码特征图通过第一编码器后可以更加关注细化和进一步抽象化的特征。经过第一编码器和后续的激活函数、池化层输出尺寸为323240的第一编码特征图。
第一编码特征图进入第二编码器,第二编码器主要用来进一步地提取更高级别和更抽象的特征。由于第一编码器已经捕捉了图像从低级到中级的特征,例如边缘、纹理、形状等,第二编码器可以进一步地组合和抽象化这些特征,以提取更复杂的语义信息,例如物体部件、整体结构、语义概念等。经过第二编码器和后续的激活函数、池化层以及第三下采样层输出尺寸为161664的第三编码特征图。
第三编码特征图进入解码器模块。在解码器模块中,按照如编码器模块同样的处理方式进行上采样和卷积处理。与编码器模块不同的是,在解码器模块中发生的卷积处理是转置卷积处理。尺寸为161664的第三编码特征图通过第一解码器生成尺寸为323240的第一解码特征图,第一解码特征图通过第二解码器生成尺寸为646432的待重塑特征图。
待重塑特征图进入重塑输出模块,重塑输出模块对待重塑特征图进行分组重塑后得到尺寸为3232128的重塑特征图。重塑特征图通过至少两层CBL层恢复到尺寸为12812816的特征图,最后经过11的卷积输出尺寸为256256M的目标区域。这里的M定义为通道数,其取决于数据集的类别。
下面将以医学图像分割任务为例,通过以下三个实施例对本发明实施例提出的改进神经网络模型进行验证。
第一实施例:
本具体实施例选择U-Net、U-Net++、FastSCNN、MobileNetV2、TransUNet、UneXt、ShuffleNetV2++和ShuffleNetV2作为对比网络,选取LLUMC数据集,其包括多个心脏超声图像。本具体实施例选取LLUMC医学数据集中的1395张注释图像来作为本实施例的数据集,用于训练、测试与验证MSC-ShuffleNet及对比网络。所有对比网络和MSC-ShuffleNet的训练、测试和验证均基于Pytorch框架进行,数据集采用留出法划分为10%验证集、80%训练集和10%测试集。所有网络训练时均采用超参数。
另外,神经网络模型在图像分割任务上的评价指标有:
GFLOPs,用于衡量神经网络模型的计算复杂度和计算效率。通过计算模型的GFLOPs,可以评估模型在特定硬上的计算速度较高的GFLOPs意味着模型可以更快地进行计算,从而加快训练和推理过程。
HD(Hausdorff)距离,用于测量预测分割结果和地面实况(Ground Truth)之间的偏差。它度量了两个点云之间的最大距离,反映了分割误差的绝对值。
Dice相似系数,又称为DSC或者骰子相似系数,DSC测量图像的预测分割和真实分割之间的重叠,它提供了算法在空间一致性方面表现如何的定量测量。DSC的范围从0到1,其中,取值为1表示预测分割和基本事实分割之间的完全重叠,而取值为0表示没有重叠。
参照下表1,从参数量、GFLOPs、HD指标来看,MSC-ShuffleNet呈现了最佳的结果。从DSC指标来看,在对图像的左心房目标、右心房目标的分割任务上,MSC-ShuffleNet取得了最佳值,但在对图像的左心室目标、右心室目标的分割任务上,MobileNetv2取得了最优值,MSC-ShuffleNet取得了次优值。可见,相比于大部分现有的神经网络模型,MSC-ShuffleNet在图像分割任务上的参数量和计算复杂度更低,分割误差的绝对值也更低,图像分割的表现和效果也更佳。
表1 MSC-ShuffleNet及对比网络在LLUMC数据集上的其一分割效果表
参照图8A和图8B,图8A和图8B中的“Ground Truth”为地面实况,即标签图,图8A所示为MSC-ShuffleNet以及其他对比网络的分割结果、输入图像和标签图的示意图,图8B所示为将MSC-ShuffleNet以及其他对比网络的分割结果分别与标签图进行叠加的示意图。通过图8A和图8B可见:MSC-ShuffleNet的分割轮廓是最接近地面实况的,尤其是在分割结果的边缘细节处理方面明显优于其他神经网络。较其他如Unet等轻量化网络以及TransUNet这种加入了Transformer模块的大型网络,MSC-ShuffleNet在心脏腔室边缘分割任务上的分割效果和表现更佳。
第二实施例:
本具体实施例选择FastSCNN、UneXt、MobileNetV2、ShuffleNetV2++、ShuffleNetV2、TransUNet作为对比网络,选取Camus数据集,数据集包括心脏四腔室的超声图像以及二腔室的超声图像,但仅给出了左心室、左心房以及心肌的分割标签。MSC-ShuffleNet及对比网络的训练和评价指标的选取同前第一实施例。
参照下表2,MSC-ShuffleNet在HD距离呈现了最佳的效果。从DSC指标来看,在对图像的左心房目标、左心室目标的分割任务上,MSC-ShuffleNet取得了最佳值,同时MSC-ShuffleNet取得了DSC指标的最佳平均值。可见,相比于大部分现有的神经网络模型,MSC-ShuffleNet在图像分割任务上的分割误差的绝对值也更低,图像分割的表现和效果更佳。
表2 MSC-ShuffleNet及对比网络在LLUMC数据集上的其二分割效果表
参照图9A和图9B,图9A和图9B中的“Ground Truth”是地面实况,即标签图,图9A所示为MSC-ShuffleNet以及其他对比网络的分割结果、输入图像和标签图的示意图,图9B所示为将MSC-ShuffleNet以及其他对比网络的分割结果分别与标签图进行叠加的示意图。通过图9A和图9B可见:MSC-ShuffleNet的分割轮廓是最接近地面实况的,尤其是在分割结果的边缘细节处理方面明显优于其他神经网络。较其他如ShuffleNet等轻量化网络以及TransUNet这种加入了Transformer模块的大型网络,MSC-ShuffleNet在心脏单侧腔室边缘分割任务上的分割效果和表现更佳。
第三实施例:
为了更好地评估MSC-ShuffleNet中每个模块的性能,本实施例进行消融实验,以了解MSC-ShuffleNet中不同构造的作用,以及重塑分组卷积中组别的划分和选择。本实施例的数据集选择、训练阶段和评价指标同前第一实施例。
通过前面第一实施例的图8A和图8B的分析以及第二实施例的图9A和图9B的分析可见,MSC-ShuffleNet的分割轮廓是最接近地面实况的,尤其是在分割结果的边缘细节处理方面明显优于其他神经网络。
参照下表3,对于MSC-ShuffleNet中不同构造的作用,有:
表3 消融试验对照表
对于重塑分组卷积(相当于卷积输入模块和重塑输出模块),首先,从最基础的U-Net开始,减少深度,只采用三层深度架构,得到网络ReducedUNet,可以看到ReducedUNet的模型参数量和计算量显著下降,但与此同时其性能并不出众,并且在轻量化上并没有超越UneXt和FastSCNN。为此,在ReducedUNet引入重塑分组卷积,得到网络ReducedUNet+ReshapeConv,可以看到重塑分组卷积使得模型进一步地轻量化的同时提高了模型性能。
对于MSC-Shuffle模块中的多尺度提取结构,在ReducedUNet+ReshapeConv上添加多尺度提取结构以得到网络ReducedUNet+ReshapeConv+MEF,可以看到模型性能进一步提升。
对于MSC-Shuffle模块中的移位空间注意力机制和压缩通道注意力机制,将抽值移位引入空间注意力机制,得到网络ReducedUNet+ReshapeConv+MEF+SSA,这一操作并不会增加任何计算复杂度和参数量,可以注意到,在空间维度上进行像素移动后,模型的性能再次得到了提升。本发明还将移位空间注意力机制替换为压缩通道注意力机制,得到网络ReducedUNet+ReshapeConv+MEF+CCA,它带来了与抽值移位相似的性能提升,并且仅仅以最小值增加了计算复杂度。最后,将移位空间注意力机制和压缩通道注意力机制进行结合,实现在空间和通道维度上的特征交叉产生最佳性能,进而得到MSC-Shuffle模块。
此外,对于重塑分组卷积中组别的划分和选择,在重塑卷积阶段,本发明实施例对特征图进行分组并重新组合成新的结构,分组的组数是MSC-ShuffleNet的一个主要超参数,它影响网络的参数量、计算复杂度和模型性能。本发明设置了在不同组数划分情况下的实验,参照下表4,可以观察到,当划分为9组时,性能有所降低,但是得到了一个更加轻量化的模型,当划分为16组时,性能有小幅度的降低,但是模型的参数量和计算量达到了最低。
表4 组别划分对照表
由此证明本申请提出的MSC-ShuffleNet具有优越性、先进性和有效性。
综上可见,本发明实施例提出了一种基于深度神经网络的轻量化部署图像处理方法,基于改进神经网络模型MSC-ShuffleNet实现,可应用于如图像分割、目标识别等图像处理任务。MSC-ShuffleNet中设置有新的卷积操作,即重塑卷积操作,以及新的特征提取模块,即MSC-Shuffle模块,这两者的协同作用使得神经网络模型可以实现轻量化部署,降低了模型的参数数量和计算量的同时可以大幅降低神经网络模型的部署成本和资源消耗,且不影响神经网络模型的处理准确率和处理速度,保持高效的模型性能。此外,本发明的方法具有优异的泛化性能,并不局限于医学场景,可应用于多个应用场景,具有高可用性。
此外,本发明还提供了一种轻量化部署图像处理系统,包括获取模块和搭载有前面所述的训练好的改进神经网络模型的处理模块,获取模块用于获取待处理图像,处理模块用于通过训练好的改进神经网络模型对所述待处理图像进行图像处理,得到所述待处理图像的目标区域。
上述方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
上面结合附图对本发明实施例作了详细说明,但是本发明不限于上述实施例,在技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (10)
1.基于深度神经网络的轻量化部署图像处理方法,其特征在于,包括如下步骤:
获取待处理图像,所述待处理图像包括至少一个目标区域;
通过训练好的改进神经网络模型对所述待处理图像进行图像处理,得到所述待处理图像的目标区域;
其中,所述训练好的改进神经网络模型包括:
分组输入模块,用于对所述待处理图像进行分组卷积,得到待编码特征图;
编码器模块,用于对所述待编码特征图进行下采样和卷积处理;
解码器模块,用于对所述编码器模块的输出进行上采样和转置卷积处理,得到待重塑特征图;
重塑输出模块,用于对所述待重塑特征图进行分组重塑,得到所述待处理图像的目标区域;
其中,所述编码器模块包括顺次连接的第一下采样层、第一编码器、第二下采样层、第二编码器和第三下采样层,所述解码器模块包括顺次连接的第一上采样层、第一解码器、第二上采样层和第二解码器,所述第一解码器的输出端与所述第二编码器的输出端残差连接,所述第二解码器的输出端与所述第一编码器的输出端残差连接;
其中,所述第一编码器、所述第二编码器、所述第一解码器和所述第二解码器均包括顺次连接的多尺度提取结构、移位空间注意力层、压缩通道注意力层和注意力输出层,所述多尺度提取结构由三个子卷积层构成,所述移位空间注意力层用于基于抽值移位和空间注意力机制对所述多尺度特征图进行空间特征的提取,得到空间特征图;所述压缩通道注意力层用于基于卷积运算和通道注意力机制对所述空间特征图进行通道特征的提取,得到通道特征图。
2.根据权利要求1所述的基于深度神经网络的轻量化部署图像处理方法,其特征在于,所述分组输入模块包括顺次连接的输入卷积单元、通道分组层和通道拼接层,所述输入卷积单元包括至少两层CBL层;所述对所述待处理图像进行分组卷积,得到待编码特征图,包括:
通过所述输入卷积单元对所述待处理图像进行卷积运算,得到卷积特征图;
通过所述通道分组层将所述卷积特征图按照通道维度进行分组,得到若干组子特征图;
通过所述通道拼接层按照分组的顺序沿着宽和高的方向将若干组子特征图拼接成待编码特征图。
3.根据权利要求2所述的基于深度神经网络的轻量化部署图像处理方法,其特征在于,所述重塑输出模块包括顺次连接的通道重塑层、输出卷积单元和输出层,所述输出卷积单元与所述输入卷积单元进行残差连接,所述输出卷积单元包括至少两层CBL层;所述对所述待重塑特征图进行分组重塑,得到所述待处理图像的目标区域,包括:
通过所述通道重塑层将所述待重塑特征图按照通道维度进行重塑,得到重塑特征图;
通过所述输出卷积单元对所述重塑特征图和所述卷积特征图进行卷积运算,得到所述待处理图像的目标区域并通过所述输出层输出。
4.根据权利要求1所述的基于深度神经网络的轻量化部署图像处理方法,其特征在于,所述对所述待编码特征图进行下采样和卷积处理,包括:
通过所述第一下采样层对所述待编码特征图进行下采样,生成下采样后的待编码特征图;
通过所述第一编码器对下采样后的待编码特征图进行卷积处理,得到第一编码特征图;
通过所述第二下采样层对所述第一编码特征图进行下采样,生成下采样后的第一编码特征图;
通过所述第二编码器对下采样后的第一编码特征图进行卷积处理,得到第二编码特征图;
通过所述第三下采样层对所述第二编码特征图进行下采样,生成第三编码特征图。
5.根据权利要求4所述的基于深度神经网络的轻量化部署图像处理方法,其特征在于,所述对所述编码器模块的输出进行上采样和转置卷积处理,得到待重塑特征图,包括:
通过所述第一上采样层对所述第三编码特征图进行上采样,生成上采样后的第三编码特征图;
通过所述第一解码器对上采样后的第三编码特征图进行转置卷积处理,生成第一反卷积特征图,所述第一反卷积特征图与所述第二编码特征图进行残差连接,生成第一解码特征图;
通过所述第二上采样层对所述第一解码特征图进行上采样,生成上采样后的第一解码特征图;
通过所述第二解码器对上采样后的第一解码特征图进行转置卷积处理,生成第二反卷积特征图,将所述第二反卷积特征图与所述第一编码特征图进行残差连接,生成待重塑特征图。
6.根据权利要求5所述的基于深度神经网络的轻量化部署图像处理方法,其特征在于,所述多尺度提取结构用于对输入至所述第一编码器、所述第二编码器、所述第一解码器或者所述第二解码器的特征图进行分组卷积和通道混洗,生成多尺度特征图;
所述注意力输出层用于将当前注意力机制单元的输入与所述通道特征图相加,得到所述第一编码特征图、所述第二编码特征图、所述第一反卷积特征图或者所述第二反卷积特征图。
7.根据权利要求6所述的基于深度神经网络的轻量化部署图像处理方法,其特征在于,所述基于抽值移位和空间注意力机制对所述多尺度特征图进行空间特征的提取,得到空间特征图,包括:
在所述多尺度特征图的空间维度上,通过抽值移位的方式对所述多尺度特征图进行位置混洗,得到四个抽值特征图,并拼接四个所述抽值特征图,得到拼接特征图;
按照所述拼接特征图的通道维度,对所述拼接特征图进行组归一化和线性组合处理,得到第一线性特征图;
对所述第一线性特征图进行去线性化处理,通过抽值移位的方式对去线性化后的所述第一线性特征图的像素点进行位置还原,得到空间特征图。
8.根据权利要求6所述的基于深度神经网络的轻量化部署图像处理方法,其特征在于,所述基于卷积运算和通道注意力机制对所述空间特征图进行通道特征的提取,得到通道特征图,包括:
在所述空间特征图的通道维度上,对所述空间特征图进行全局平均池化和线性组合处理,得到第二线性特征图;
对所述第二线性特征图进行去线性化处理和通道压缩,生成通道特征图。
9.根据权利要求6所述的基于深度神经网络的轻量化部署图像处理方法,其特征在于,所述压缩通道注意力层与所述注意力输出层之间连接有批标准化层,所述批标准化层的前面设置有激活函数。
10.根据权利要求1所述的基于深度神经网络的轻量化部署图像处理方法,其特征在于,所述重塑输出模块的后面还设置有分类模块,所述方法还包括如下步骤:
根据所述待处理图像的目标区域,通过分类模块计算得到所述目标区域所属类别的最大概率,并根据所述最大概率输出所述待处理图像的目标区域的分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311319045.0A CN117521742B (zh) | 2023-10-12 | 2023-10-12 | 基于深度神经网络模型的轻量化部署图像处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311319045.0A CN117521742B (zh) | 2023-10-12 | 2023-10-12 | 基于深度神经网络模型的轻量化部署图像处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117521742A CN117521742A (zh) | 2024-02-06 |
CN117521742B true CN117521742B (zh) | 2024-04-30 |
Family
ID=89757425
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311319045.0A Active CN117521742B (zh) | 2023-10-12 | 2023-10-12 | 基于深度神经网络模型的轻量化部署图像处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117521742B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118521572B (zh) * | 2024-07-18 | 2024-09-20 | 南昌大学第二附属医院 | 一种基于数据增强detr的隐球菌识别方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111091130A (zh) * | 2019-12-13 | 2020-05-01 | 南京邮电大学 | 基于轻量级卷积神经网络的实时图像语义分割方法及系统 |
WO2022022001A1 (zh) * | 2020-07-27 | 2022-02-03 | 百果园技术(新加坡)有限公司 | 对风格迁移网络进行压缩的方法及风格迁移的方法、装置和系统 |
CN114998958A (zh) * | 2022-05-11 | 2022-09-02 | 华南理工大学 | 一种基于轻量化卷积神经网络的人脸识别方法 |
CN115049941A (zh) * | 2022-06-27 | 2022-09-13 | 无锡学院 | 一种改进的ShuffleNet卷积神经网络及其遥感图像的分类方法 |
CN115457021A (zh) * | 2022-09-30 | 2022-12-09 | 云南大学 | 基于联合注意卷积神经网络的皮肤病图像分割方法及系统 |
CN116758609A (zh) * | 2023-05-24 | 2023-09-15 | 淮阴工学院 | 一种基于特征模型改进的轻量化人脸识别方法 |
-
2023
- 2023-10-12 CN CN202311319045.0A patent/CN117521742B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111091130A (zh) * | 2019-12-13 | 2020-05-01 | 南京邮电大学 | 基于轻量级卷积神经网络的实时图像语义分割方法及系统 |
WO2022022001A1 (zh) * | 2020-07-27 | 2022-02-03 | 百果园技术(新加坡)有限公司 | 对风格迁移网络进行压缩的方法及风格迁移的方法、装置和系统 |
CN114998958A (zh) * | 2022-05-11 | 2022-09-02 | 华南理工大学 | 一种基于轻量化卷积神经网络的人脸识别方法 |
CN115049941A (zh) * | 2022-06-27 | 2022-09-13 | 无锡学院 | 一种改进的ShuffleNet卷积神经网络及其遥感图像的分类方法 |
CN115457021A (zh) * | 2022-09-30 | 2022-12-09 | 云南大学 | 基于联合注意卷积神经网络的皮肤病图像分割方法及系统 |
CN116758609A (zh) * | 2023-05-24 | 2023-09-15 | 淮阴工学院 | 一种基于特征模型改进的轻量化人脸识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117521742A (zh) | 2024-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111210443B (zh) | 基于嵌入平衡的可变形卷积混合任务级联语义分割方法 | |
Jin et al. | Pedestrian detection with super-resolution reconstruction for low-quality image | |
CN109685819B (zh) | 一种基于特征增强的三维医学图像分割方法 | |
CN109472270A (zh) | 图像风格转换方法、装置及设备 | |
CN111950649A (zh) | 基于注意力机制与胶囊网络的低照度图像分类方法 | |
CN111612008A (zh) | 基于卷积网络的图像分割方法 | |
CN117521742B (zh) | 基于深度神经网络模型的轻量化部署图像处理方法 | |
CN113222824B (zh) | 一种红外图像超分辨率及小目标检测方法 | |
CN114399510B (zh) | 结合图像和临床元数据的皮肤病灶分割和分类方法及系统 | |
CN113505634B (zh) | 一种双流解码跨任务交互网络的光学遥感图像显著目标检测方法 | |
CN116246110A (zh) | 基于改进胶囊网络的图像分类方法 | |
CN114596503A (zh) | 一种基于遥感卫星影像的道路提取方法 | |
Zhang et al. | SegNet Network Architecture for Deep Learning Image Segmentation and Its Integrated Applications and Prospects | |
CN115375548A (zh) | 一种超分辨率的遥感图像生成方法、系统、设备和介质 | |
CN112149526A (zh) | 一种基于长距离信息融合的车道线检测方法及系统 | |
Pang et al. | Lightweight multi-scale aggregated residual attention networks for image super-resolution | |
CN113807354B (zh) | 图像语义分割方法、装置、设备和存储介质 | |
CN117876679A (zh) | 一种基于卷积神经网络的遥感图像场景分割方法 | |
CN117576483A (zh) | 基于多尺度卷积自编码器的多源数据融合地物分类方法 | |
Luo et al. | A fast denoising fusion network using internal and external priors | |
CN116912268A (zh) | 一种皮肤病变图像分割方法、装置、设备及存储介质 | |
CN116012349A (zh) | 基于最小单形体体积约束及Transformer结构的高光谱图像解混方法 | |
CN117036658A (zh) | 一种图像处理方法及相关设备 | |
CN116486184B (zh) | 一种乳腺病理图像识别分类方法、系统、设备及介质 | |
Wang et al. | [Retracted] A Secure and Efficient Multi‐Object Grasping Detection Approach for Robotic Arms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |