CN114037874A

CN114037874A - 一种三维图像的分类网络、方法及图像处理设备

Info

Publication number: CN114037874A
Application number: CN202111342365.9A
Authority: CN
Inventors: 征博文; 高昂; 黄晓娜; 李宇涵; 梁栋; 隆晓菁
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2021-11-12
Filing date: 2021-11-12
Publication date: 2022-02-11
Anticipated expiration: 2041-11-12
Also published as: CN114037874B

Abstract

本发明适用图像处理技术领域，提供了一种三维图像的分类网络、方法及图像处理设备，该网络包括第一三维卷积层、三维最大池化层、多个三维移动倒置瓶颈模块、第二三维卷积层以及全连接模块，通过第一三维卷积层对待分类图像进行卷积，通过三维最大池化层对第一三维卷积层输出的三维特征图进行压缩，通过多个三维移动倒置瓶颈模块对三维最大池化层输出的三维特征图进行处理，通过第二三维卷积层对多个三维移动倒置瓶颈模块中最后一个模块输出的三维特征图的通道维度进行提升，最后通过全连接模块将第二三维卷积层输出的特征连接起来，根据连接得到的特征确定待分类图像的类别，实现了三维图像的直接处理，提高了三维图像的分类效率。

Description

一种三维图像的分类网络、方法及图像处理设备

技术领域

本发明属于图像处理技术领域，尤其涉及一种三维图像的分类网络、方法及图像处理设备。

背景技术

核磁共振成像也称磁共振成像(Magnetic Resonance Imaging，缩写为MRI)，该技术是利用核磁共振原理，依据所释放的能量在物质内部不同结构环境中不同的衰减，通过外加梯度磁场检测所发射出的电磁波，即可得知构成这一物体原子核的位置和种类，据此可以绘制成物体内部的结构图像。该技术在临床诊断、科学研究的应用已成为现实，极大地推动了医学和认知神经等学科的发展。

目前，大多数对图像进行分类的卷积神经网络只能识别二维的图像，不能直接处理三维的核磁共振成像。为了获取三维结构磁共振影像的全部信息，需要将二维的卷积神经网络三维化。EfficientNet网络是谷歌于2019年提出的深度卷积神经网络，此后基于该网络的模型及其各种变体称霸了包括图像网络(ImageNet)的各项二维自然图像分类竞赛榜单，然而EfficientNet仍然只能针对二维图像的分类。

发明内容

本发明的目的在于提供一种三维图像的分类网络、方法及图像处理设备，旨在解决由于现有技术无法提供一种有效的三维图像分类方法，导致三维图像分类效率低下的问题。

一方面，本发明提供了一种三维图像的分类网络，所述分类网络包括：

第一三维卷积层，用于对输入的待分类图像进行卷积操作，以得到多个通道的三维特征图，所述三维特征图为所述待分类图像的局部特征图，所述待分类图像为三维图像；

三维最大池化层，用于对所述第一三维卷积层输出的三维特征图进行压缩，得到压缩的、且通道维度不变的三维特征图；

依次连接的多个三维移动倒置瓶颈模块，用于对所述三维最大池化层输出的三维特征图进行处理，得到包含所述待分类图像全局信息的三维特征图；

第二三维卷积层，用于对所述多个三维移动倒置瓶颈模块中最后一个三维移动倒置瓶颈模块输出的三维特征图的通道维度进行提升；以及

全连接模块，用于将所述第二三维卷积层输出的特征连接起来，根据连接得到的特征确定待分类图像的类别。

另一方面，本发明提供了一种三维图像的分类方法，包括：

通过上述分类网络对输入的三维图像进行分类。

另一方面，本发明还提供了一种图像处理设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述分类网络的功能。

本发明提供的三维图像的分类网络包括第一三维卷积层、三维最大池化层、依次连接的多个三维移动倒置瓶颈模块、第二三维卷积层以及全连接模块，通过第一三维卷积层对输入的待分类图像进行卷积，通过三维最大池化层对第一三维卷积层输出的三维特征图进行压缩，得到压缩的、且通道维度不变的三维特征图，通过依次连接的多个三维移动倒置瓶颈模块对三维最大池化层输出的三维特征图进行处理，得到包含待分类图像全局信息的三维特征图，通过第二三维卷积层对多个三维移动倒置瓶颈模块中最后一个三维移动倒置瓶颈模块输出的三维特征图的通道维度进行提升，最后通过连接模块将第二三维卷积层输出的特征连接起来，根据连接得到的特征确定待分类图像的类别，实现了三维图像的直接处理，提高了三维图像的分类效率。

附图说明

图1是本发明实施例一提供的三维图像的分类网络的结构示意图；

图2是本发明实施例二提供的三维图像的分类网络的结构示意图；

图3是本发明实施例二提供的三维图像的分类网络中三维移动倒置瓶颈模块的结构示意图；

图4是本发明实施例三提供的三维图像的分类方法的实现流程图；以及

图5是本发明实施例四提供的图像处理设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述：

实施例一：

图1示出了本发明实施例一提供的三维图像的分类网络的结构，为了便于说明，仅示出了与本发明实施例相关的部分。

本发明实施例提供的三维图像的分类网络1包括第一三维卷积层11、三维最大池化层12、依次连接的多个三维移动倒置瓶颈模块13、第二三维卷积层14以及全连接模15，其中：

第一三维卷积层11，用于对输入的待分类图像进行卷积操作，以得到多个通道的三维特征图，该三维特征图为待分类图像的局部特征图，待分类图像为三维图像；

三维最大池化层12，用于对第一三维卷积层11输出的三维特征图进行压缩，得到压缩的、且通道维度不变的三维特征图；

依次连接的多个三维移动倒置瓶颈模块13，用于对三维最大池化层12输出的三维特征图进行处理，得到包含待分类图像全局信息的三维特征图；

第二三维卷积层14，用于对多个三维移动倒置瓶颈模块中最后一个三维移动倒置瓶颈模块输出的三维特征图的通道维度进行提升；以及

全连接模块15，用于将第二三维卷积层14输出的特征连接起来，根据连接得到的特征确定待分类图像的类别。

本发明实施例适用于具有计算能力的图像处理设备，在该图像处理设备上运行该三维图像的分类网络，以实现三维图像的分类。其中，三维图像可以为磁共振图像，也可以为其它三维图像。第一三维卷积层11提取的三维特征图为待分类图像的简单局部特征，具体是将输入的三维图像抽象成空间尺度更低、通道数更多的三维特征图，即该层对待分类三维图像添加了一个维度，即通道维度，第一三维卷积层11输出的是多个通道的三维特征图，每个通道的三维特征图的长宽高尺寸减半。三维最大池化层12对第一三维卷积层11输出的三维特征图进行压缩时，主要是去除冗余信息、减少参数量、扩大感受野，缓解卷积层对位置的过度敏感性，从而得到空间尺度更低、通道维度尺度不变的三维特征图。多个三维移动倒置瓶颈模块13依次连接，三维移动倒置瓶颈模块13的数量预先设定，每个三维移动倒置瓶颈模块的构建参数可以不同，依次连接的三维移动倒置瓶颈模块13通过对三维最大池化层12输出的图像特征进行处理，从而综合图像的简单局部特征，得到图像的复杂全局信息。全连接模块15将第二三维卷积层14输出的特征连接起来，将连接得到的特征映射到分类标记空间，从而确定待分类图像的类别。

本发明实施例提供的三维图像的分类网络包括第一三维卷积层、三维最大池化层、依次连接的多个三维移动倒置瓶颈模块、第二三维卷积层以及全连接模块，通过第一三维卷积层对输入的待分类图像进行卷积操作，得到多个通道的三维特征图，通过三维最大池化层对第一三维卷积层输出的三维特征图进行压缩，得到压缩的、且通道维度不变的三维特征图，通过依次连接的多个三维移动倒置瓶颈模块对三维最大池化层输出的三维特征图进行处理，得到包含待分类图像全局信息的三维特征图，通过第二三维卷积层对多个三维移动倒置瓶颈模块中最后一个三维移动倒置瓶颈模块输出的三维特征图的通道维度进行提升，最后通过全连接模块将第二三维卷积层输出的特征连接起来，根据连接得到的特征确定待分类图像的类别，实现了三维图像的直接处理，提高了三维图像的分类效率。

实施例二：

图2示出了本发明实施例二提供的三维图像的分类网络的结构，为了便于说明，仅示出了与本发明实施例相关的部分。

本发明实施例提供的三维图像的分类网络2包括第一三维卷积层21、三维最大池化层22、依次连接的多个三维移动倒置瓶颈模块23、第二三维卷积层24以及全连接模25，其中，第一三维卷积层21用于对输入的待分类图像进行卷积操作，以得到多个通道的三维特征图，该三维特征图为待分类图像的局部特征图，待分类图像为三维图像，三维最大池化层22用于对第一三维卷积层21输出的三维特征图进行压缩，得到压缩的、且通道维度不变的三维特征图，依次连接的多个三维移动倒置瓶颈模块23用于对三维最大池化层22输出的三维特征图进行处理，得到包含待分类图像全局信息的三维特征图，第二三维卷积层24用于对多个三维移动倒置瓶颈模块中最后一个三维移动倒置瓶颈模块输出的三维特征图的通道维度进行提升，全连接模块25用于将第二三维卷积层24输出的特征连接起来，根据连接得到的特征确定待分类图像的类别。

如图所示，在本发明实施例的一优选实施方式中，第一三维卷积层21包括卷积操作211、批正则化操作212以及一个ReLu激活函数213，优选地，卷积操作211的卷积核大小为7×7×7、卷积步长为2×2×2。其中，批正则化操作212用于加快分类网络的收敛，减少梯度爆炸和梯度消失问题，使得分类网络学习过程受到初始化的影响更少，以对抗过拟合，激活函数213用于给分类网络引入非线性。第一三维卷积层21提取的三维特征图为待分类图像的简单局部特征，具体是将输入的三维图像抽象成空间尺度更低、通道数更多的三维特征图，即该层对待分类三维图像添加了一个维度，即通道维度，第一三维卷积层21输出的是多个通道的三维特征图，但每个通道的三维特征图的长宽高尺寸减半。

在本发明实施例的另一优选实施方式中，三维最大池化层22包括一个池化核大小为2×2×2、步长为2×2×2的池化操作。三维最大池化层22对第一三维卷积层21输出的三维特征图进行压缩时，主要是去除冗余信息、减少参数量、扩大感受野，缓解卷积层对位置的过度敏感性，从而得到空间尺度更低、通道维度尺度不变的三维特征图。

在本发明实施例的另一优选实施方式中，三维移动倒置瓶颈模块23包括三维扩张卷积模块231、三维深度卷积模块232、紧缩与激励模块233以及三维逐点卷积模块234，其中，三维扩张卷积模块231用于对输入特征图进行通道维度上的扩张，以得到通道维度扩张后的特征图，三维深度卷积模块232用于对三维扩张卷积模块231输出的特征图进行特征处理，以得到通道数目不变的特征图，紧缩与激励模块233用于对三维深度卷积模块232输出的特征图进行通道维度上的加权，以得到添加注意力的特征图，三维逐点卷积模块234用于对紧缩与激励模块233输出的特征图进行通道维度的更改，以得到通道数符合输出要求的特征图。

进一步地，三维扩张卷积模块231包括卷积核大小、步长均为1×1×1的三维逐点卷积、批正则化操作和Swish激活函数。三维深度卷积模块232包括卷积核大小为k×k×k、卷积步长为s×s×s的三维深度卷积、批正则化操作和Swish激活函数，k和s表示整数。紧缩与激励模块233包括紧缩单元和激励单元，其中，紧缩单元用于对输入特征图进行特征压缩，激励单元用于对压缩过后的特征图在通道维度进行特征扩张，将扩张后的特征作为权值，对三维深度卷积模块输出的特征图的通道维度进行加权，得到重新加权的特征图。进一步地，三维逐点卷积模块234包括卷积核大小、步长均为1×1×1的三维逐点卷积、批正则化和可选择的跨层连接机制。具体地，紧缩与激励模块233的紧缩单元包括池化核为输入特征图空间尺寸的三维全局平均池化层、三维逐点卷积以及Swish激活函数，激励单元包括三维逐点卷积、Sigmoid激活函数以及加权操作。

在本发明实施例的另一优选实施方式中，第二三维卷积层24包括一个卷积核大小、步长均为1×1×1的三维逐点卷积操作241以及批正则化操作242。第二三维卷积层24用于对多个三维移动倒置瓶颈模块中最后一个三维移动倒置瓶颈模块输出的三维特征图的通道维度进行提升。

在本发明实施例的另一优选实施方式中，全连接模块25包括三个ReLu激活函数251、253、255以及三个经元个数分别为400、64、2的全连接层252、254、256。全连接模块25用于将第二三维卷积层24输出的特征连接起来，根据连接得到的特征确定待分类图像的类别。

本发明实施例中的三维移动倒置瓶颈模块23的参数数量较少，当三维移动倒置瓶颈模块23处理一个(C_in，D，H，W)大小的输入特征图L_i来获得一个(C_out，D，H，W)大小的输出特征图L_i+1时，只需要C_in·C_in·r_expand+k³·C_in·r_expand+2·C_in·r_expand·C_in·r_squeeze+C_in·r_expannd·C_out个参数(忽略批标准化参数和偏置参数)，从而可加快三维图像的分类网络的学习速度，减少训练及推理时的计算机内存占用，其中，D、H、W分别表示输入特征图的长、高、宽，C_in、C_out、r_expand、k、r_sequeeze分别表示三维移动倒置瓶颈模块输入图像的通道数、输出图像的通道数、图像或特征图通道扩张率、卷积核尺寸以及图像或特征图通道压缩率。

作为图2所示三维图像分类网络的一优选结构，表1示出了一优选的三维图像分类网络的组成结构，通过该三维图像分类网络实现了三维图像的直接处理，提高了三维图像的分类效率。

表1

如上表所示，第一行为三维图像分类网络结构的名称及参数，其中，分辨率表示输入到层或模块的图像(特征图)的分辨率，卷积核尺寸和卷积核步长表示层或模块中卷积操作的卷积核尺寸和卷积核步长，通道数表示每个层或模块输入特征图及输出特征图的通道数，扩张率表示通道数的扩张率，压缩率表示通道数的压缩率，层数表示组成三维图像分类网络的当前层或模块首尾相接重复几次，如果不等于1，那么第一个层或模块的输入输出通道数如表所示，而之后重复的层或模块的输入输出通道数均为表内的C_out，其他参数与该编号的第一个层或模块相同。

作为示例地，图3示出了一个三维移动倒置瓶颈模块的结构，其中，三维扩张卷积模块中的三维逐点卷积的卷积核大小、步长均为1×1×1，在图中表示将大小为(Cin,D,H,W)的特征图在通道维度(Cin)上扩张r_expand倍(这里r_expand＝6)，得到(Cin×r_expand,D,H,W)大小的特征图，这种通道维度的扩张可以减少卷积过程中的信息损失，如果r_expand＝1，那么这部分会被跳过。三维深度卷积模块包括卷积核大小为k×k×k、卷积步长为s×s×s的三维深度卷积、批正则化操作和Swish激活函数，k和s表示整数，如果卷积步长不是1，就会改变输入特征图的空间维度，即深度卷积得到(C_in×r_expand,D^*,H^*,W^*)大小的特征图，

H^*和W^*同理，stride表示卷积核步长，三维深度卷积可使用更少的参数来进行卷积操作，对特征图进行特征处理。紧缩与激励模块包括紧缩单元和激励单元，紧缩单元首先使用池化核为输入特征图空间尺寸的三维全局平均池化来获得每个通道的特征，池化后特征图的大小为(C_in×r_expand,1,1,1)，然后使用一个三维逐点卷积将通道个数减少为C_in×r_squeeze(这里r_sequeeze＝0.25)，特征图大小变化为(C_in×r_squeeze,1,1,1)，然后跟上一个Swish激活函数。激励单元使用另一个三维逐点卷积将通道个数恢复成C_in×r_expand，特征图大小变回(C_in×r_expand,1,1,1)，相当于对原来的输入特征图的每一个通道都计算了一个值，这个值为注意力分数，之后跟上一个Sigmoid激活函数，最后将C_in×r_expand个通道的注意力分数分别逐元素乘回三维深度卷积模块输出的C_in×r_expand个(D^*,H^*,W^*)大小的特征图上去，即相当于对三维深度卷积模块输出的特征图的通道赋予不同的权重。紧缩与激励模块的作用是动态调整每个通道的权重，从而重新校准特征，对特征施加注意力机制，提高网络的表达能力。三维逐点卷积模块包括卷积核大小、步长均为1×1×1的三维逐点卷积、批正则化和可选择的跨层连接机制，其中，三维逐点卷积用于将通道数目从C_in×r_expand个变成C_out个，此时输出特征图的大小为(C_out,D^*,H^*,W^*)，如果C_in＝C_out且三维深度卷积的步长为1，那么输出特征图将和输入到该三维移动倒置瓶颈模块的特征图尺寸一致，此时通过添加跨层连接机制，以使输出特征图与输入特征图逐元素相加，从而使得梯度流可以更高效地向后传播。

实施例三：

图4示出了本发明实施例三提供的三维图像的分类方法的实现流程，该三维图像的分类方法通过上述实施例中的三维图像分类网络对输入的三维图像进行分类，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

在步骤S401中，通过第一三维卷积层对输入的待分类图像进行卷积操作，以得到多个通道的三维特征图，该三维特征图为待分类图像的局部特征图，待分类图像为三维图像；

在步骤S402中，通过三维最大池化层对第一三维卷积层输出的三维特征图进行压缩，得到压缩的、且通道维度不变的三维特征图；

在步骤S403中，通过依次连接的多个三维移动倒置瓶颈模块对三维最大池化层输出的三维特征图进行处理，得到包含待分类图像全局信息的三维特征图；

在步骤S404中，通过第二三维卷积层对多个三维移动倒置瓶颈模块中最后一个三维移动倒置瓶颈模块输出的三维特征图的通道维度进行提升；

在步骤S405中，通过全连接模块将第二三维卷积层输出的特征连接起来，根据连接得到的特征确定待分类图像的类别。

本发明实施例通过前述实施例中的三维图像分类网络对输入的三维图像进行分类，具体实施过程可参考前述实施例关于分类网络的描述，在此不再赘述。

实施例四：

图5示出了本发明实施例四提供的图像处理设备的结构，为了便于说明，仅示出了与本发明实施例相关的部分。

本发明实施例的图像处理设备5包括处理器50、存储器51以及存储在存储器51中并可在处理器50上运行的计算机程序52。该处理器50执行计算机程序52时实现上述各个分类网络实施例中的功能，例如图1所示的分类网络。或者，处理器50执行计算机程序52时实现实施例三提供的三维图像的分类方法的步骤，如图4所示的步骤S401至S405。

本发明实施例的图像处理设备可以为医疗设备。该图像处理设备5中处理器50执行计算机程序52时实现分类网络时实现的功能可参考前述分类网络实施例的描述，在此不再赘述。

本发明实施例的计算机可读存储介质可以包括能够携带计算机程序代码的任何实体或装置、记录介质，例如，ROM/RAM、磁盘、光盘、闪存等存储器。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种三维图像的分类网络，其特征在于，所述分类网络包括：

2.如权利要求1所述的分类网络，其特征在于，所述第一三维卷积层包括一个卷积核大小为7×7×7、卷积步长为2×2×2的卷积操作、批正则化操作以及一个ReLu激活函数。

3.如权利要求1所述的分类网络，其特征在于，所述三维最大池化层包括一个池化核大小为2×2×2、步长为2×2×2的池化操作。

4.如权利要求1所述的分类网络，其特征在于，所述三维移动倒置瓶颈模块包括：

三维扩张卷积模块，用于对输入特征图进行通道维度上的扩张，以得到通道维度扩张后的特征图；

三维深度卷积模块，用于对所述三维扩张卷积模块输出的特征图进行特征处理，以得到通道数目不变的特征图；

紧缩与激励模块，用于对所述三维深度卷积模块输出的特征图进行通道维度上的加权，以得到添加注意力的特征图；以及

三维逐点卷积模块，用于对所述紧缩与激励模块输出的特征图进行通道维度的更改，以得到通道数符合输出要求的特征图。

5.如权利要求4所述的分类网络，其特征在于：

所述三维扩张卷积模块包括卷积核大小、步长均为1×1×1的三维逐点卷积、批正则化操作和Swish激活函数；

所述三维深度卷积模块包括卷积核大小为k×k×k、卷积步长为s×s×s的三维深度卷积、批正则化操作和Swish激活函数，k和s表示整数；

所述紧缩与激励模块包括紧缩单元和激励单元，所述紧缩单元用于对输入特征图进行特征压缩，所述激励单元用于对压缩过后的特征图在通道维度进行特征扩张，将扩张后的特征作为权值，对所述三维深度卷积模块输出的特征图的通道维度进行加权，得到重新加权的特征图；

所述三维逐点卷积模块包括卷积核大小、步长均为1×1×1的三维逐点卷积、批正则化和可选择的跨层连接机制。

6.如权利要求5所述的分类网络，其特征在于，所述紧缩单元包括池化核为输入特征图空间尺寸的三维全局平均池化层、三维逐点卷积以及Swish激活函数，所述激励单元包括三维逐点卷积、Sigmoid激活函数以及加权操作。

7.如权利要求1所述的分类网络，其特征在于，所述第二三维卷积层包括一个卷积核大小、步长均为1×1×1的三维逐点卷积操作以及批正则化操作。

8.如权利要求1所述的分类网络，其特征在于，所述全连接模块包括三个ReLu激活函数以及三个经元个数分别为400、64、2的全连接层。

9.一种三维图像的分类方法，其特征在于，包括：

通过权利要求1-8任一所述分类网络对输入的三维图像进行分类。

10.一种图像处理设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述分类网络的功能。