CN115984666A - 跨通道金字塔池化方法、系统、卷积神经网络及处理方法 - Google Patents
跨通道金字塔池化方法、系统、卷积神经网络及处理方法 Download PDFInfo
- Publication number
- CN115984666A CN115984666A CN202211741702.6A CN202211741702A CN115984666A CN 115984666 A CN115984666 A CN 115984666A CN 202211741702 A CN202211741702 A CN 202211741702A CN 115984666 A CN115984666 A CN 115984666A
- Authority
- CN
- China
- Prior art keywords
- channel
- cross
- pooling
- layer
- pixel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011176 pooling Methods 0.000 title claims abstract description 203
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 60
- 238000003672 processing method Methods 0.000 title claims abstract description 19
- 238000010586 diagram Methods 0.000 claims abstract description 39
- 238000013178 mathematical model Methods 0.000 claims description 7
- 230000007547 defect Effects 0.000 abstract description 9
- 239000010410 layer Substances 0.000 description 64
- 230000000694 effects Effects 0.000 description 12
- 238000001514 detection method Methods 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000003709 image segmentation Methods 0.000 description 4
- 230000004807 localization Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000002356 single layer Substances 0.000 description 2
- 208000002177 Cataract Diseases 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种跨通道金字塔池化方法、系统、卷积神经网络及处理方法,方法包括设置多种不同的通道尺度,多种不同的通道尺度分别对应多种不同的跨通道池化操作;获取每种通道尺度下的多个通道,以得到多个通道集;获取多层特征图,多层特征图由输入图像经卷积层处理后得到;对多层特征图在多个通道集下分别进行跨通道池化操作,以得到池化结果。通过将空间金字塔池化方法进行改进,并结合跨通道池化的原理,获得了本发明实施例的跨通道金字塔池化方法,使得在通道维度上提取同一像素位置的不同通道尺度的像素语义特征,考虑了像素语义特征在通道间的分布差异性,有利于突出重要的像素位置,解决了现有的空间金字塔池化方法存在的缺陷。
Description
技术领域
本发明涉及计算机图像处理技术领域,尤其是涉及一种跨通道金字塔池化方法、系统、卷积神经网络及处理方法。
背景技术
在计算机视觉和医学图像分析中,分类是一个基本且重要的任务,例如,在白内障分类任务中,通常卷积神经网络利用去自动提取眼科影像的表征信息从而输出分类结果。在卷积神经网络中,如经典的残差神经网络架构(ResNet)中通常利用全局平均池化方法(Global Average Pooling,GAP)对特征图进行压缩,但GAP通常将特征图压缩成一个全局特征表示,容易造成特征图的不同子区域间上下文信息的丢失和未考虑到同一像素位置在通道维度上的像素间上下文信息的差异性。
为了减少特征图中的不同子区域间上下文信息的丢失,空间金字塔池化方法(Spatial Pyramid Pooling,SPP)被研究学者提出,其作用是从特征图提取不同尺度区域的特征表示,进一步减少不同子区域间上下文信息的丢失。例如,从一个H×W特征图沿着空间维度提取3个不同尺度的特征图并基于均值池化如:1x1、2x2、4x4。但是,现有空间金字塔池化方法只考虑空间维度的区域间上下文信息重要性,没有考虑同一像素位置在通道维度上像素间上下文信息的差异性。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种跨通道金字塔池化方法,解决了现有的空间金字塔池化方法缺乏考虑同一像素位置在通道维度上像素间上下文信息差异性的问题。
本发明还提供一种跨通道金字塔池化系统、一种卷积神经网络、一种卷积神经网络处理方法及一种计算机可读存储介质。
根据本发明的第一方面实施例的跨通道金字塔池化方法,包括以下步骤:
设置多种不同的通道尺度,多种不同的所述通道尺度分别对应多种不同的跨通道池化操作;
获取每种所述通道尺度下的多个通道,以得到多个通道集;
获取多层特征图,所述多层特征图由输入图像经卷积层处理后得到;
对所述多层特征图在多个所述通道集下分别进行跨通道池化操作,以得到池化结果。
根据本发明实施例的跨通道金字塔池化方法,至少具有如下有益效果:
通过将空间金字塔池化方法进行改进,具体结合了跨通道池化的原理,从而获得本发明实施例的跨通道金字塔池化方法。对于本发明实施例的跨通道金字塔池化方法,其在通道维度上提取同一像素位置的不同通道尺度的像素语义特征,考虑了像素语义特征在通道间的分布差异性,有利于突出重要的像素位置,解决了现有的空间金字塔池化方法存在的缺陷。因此,本发明实施例的跨通道金字塔池化方法可以应用至神经网络架构中,如卷积神经网络、Transformer、多层感知机(MLP),以提高性能;并且一方面可用于二维和三维图像分类,另一方面可以用于图像分割、目标检测和定位、以及其他计算机视觉任务;同时通过嵌入至卷积神经网络框架中来作为主要模块,可实现部署到服务器、工作站、超算中心、云计算中心、个人电脑、手机、边缘设备和医疗设备的功能。
根据本发明的一些实施例,第N通道集对应的通道尺度为2(-1),N为正整数;所述对所述多层特征图在多个所述通道集下分别进行跨通道池化操作,包括以下步骤:
将所述多层特征图划分为M个像素区域,M个所述像素区域共同组成所述多层特征图,M为正整数;
对第一像素区域在N个通道集下进行跨通道池化操作,以得到2N-1数量的像素语义特征;
继续对剩余M-1个像素区域皆在N个所述通道集下进行跨通道池化操作,以得到M(2N-1)数量的像素语义特征;
对M(2N-1)数量的像素语义特征进行合并,以得到像素语义特征数据,所述像素语义特征数据表征跨通道金字塔池化结果。
根据本发明的一些实施例,所述跨通道池化操作采用均值跨通道池化操作。
根据本发明的一些实施例,所述均值跨通道池化操作由以下数学模型所约束:
K=W/2(-1),
其中,W为每个通道集的通道数;2(-1)表示第N通道集对应的通道尺度;x(k,i,j)表示第k像素区域,k为正整数且不大于K;μ(i,j)表示像素语义特征。
根据本发明的一些实施例,所述跨通道池化操作采用最大值跨通道池化操作。
根据本发明的一些实施例,所述最大值跨通道池化操作由以下数学模型所约束:
μ(i,j)=max{x(k,i,j)|k∈[1,K],K∈N};
K=W/2(-1);
其中,W为每个通道集的通道数;2(-1)表示第N通道集对应的通道尺度;x(k,i,j)表示第k像素区域,k为正整数且不大于K;μ(i,j)表示像素语义特征。
根据本发明的第二方面实施例的跨通道金字塔池化系统,包括:
通道尺度设置单元,用于设置多种通道尺度,多种所述通道尺度分别表征不同的跨通道池化操作;
通道集获取单元,用于获取每种所述通道尺度下的多个通道,以得到多个通道集;
特征图获取单元,用于获取多层特征图,所述多层特征图由输入图像经卷积层处理后得到;
跨通道池化单元,用于对所述多层特征图在多个所述通道集下分别进行跨通道池化操作,以得到池化结果。
根据本发明实施例的跨通道金字塔池化系统,至少具有如下有益效果:
通过将空间金字塔池化方法进行改进,具体结合了跨通道池化的原理,从而获得本发明实施例的跨通道金字塔池化系统。对于本发明实施例的跨通道金字塔池化系统,其在通道维度上提取同一像素位置的不同通道尺度的像素语义特征,考虑了像素语义特征在通道间的分布差异性,有利于突出重要的像素位置,解决了现有的空间金字塔池化方法存在的缺陷。因此,本发明实施例的跨通道金字塔池化系统可以应用至神经网络架构中,如卷积神经网络、Transformer、多层感知机(MLP),以提高性能;并且一方面可用于二维和三维图像分类,另一方面可以用于图像分割、目标检测和定位、以及其他计算机视觉任务;同时通过嵌入至卷积神经网络框架中来作为主要模块,可实现部署到服务器、工作站、超算中心、云计算中心、个人电脑、手机、边缘设备和医疗设备的功能。
根据本发明的第三方面实施例的卷积神经网络,包括输入层、卷积层、池化层、跨通道金字塔池化层、全连接层、输出层,所述跨通道金字塔池化层用于执行如本发明第一方面实施例任一所述的跨通道金字塔池化方法。
根据本发明实施例的卷积神经网络,至少具有如下有益效果:
通过利用本发明实施例的卷积神经网络,从而可以得到优化的输出结果,优化效果具体体现在利用了跨通道金字塔池化层,通过在通道维度上提取同一像素位置的不同通道尺度的像素语义特征,考虑了像素语义特征在通道间的分布差异性,有利于突出重要的像素位置,解决了现有的空间金字塔池化方法存在的缺陷。因此,本发明实施例的卷积神经网络可以部署到实际的图像分类、目标检测、分割等应用中,并能获得较好的预测效果。
根据本发明的第四方面实施例的卷积神经网络处理方法,应用于如第三方面实施例所述的卷积神经网络,包括以下步骤:
利用所述输入层、所述卷积层、所述池化层对输入的图像数据进行处理,以得到高级特征数据,所述高级特征数据表征对图像所提取的高级特征;
利用所述跨通道金字塔池化层对所述高级特征数据进行处理,以得到像素语义特征数据,所述像素语义特征数据表征跨通道金字塔池化结果;
利用所述全连接层、所述输出层对所述像素语义特征数据进行处理,以得到卷积神经网络的预测结果。
根据本发明实施例的卷积神经网络处理方法,至少具有如下有益效果:
通过在本发明实施例的卷积神经网络上运用本发明实施例的卷积神经网络处理方法,从而可以得到优化的输出结果,优化效果具体体现在利用了跨通道金字塔池化层,通过在通道维度上提取同一像素位置的不同通道尺度的像素语义特征,考虑了像素语义特征在通道间的分布差异性,有利于突出重要的像素位置,解决了现有的空间金字塔池化方法存在的缺陷。因此,通过将本发明实施例的卷积神经网络处理方法应用至实际的图像分类、目标检测、分割等应用中,可以获得较好的预测效果。
根据本发明的第五方面实施例的计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如本发明第一方面实施例所述的跨通道金字塔池化方法或如本发明第四方面实施例所述的卷积神经网络处理方法。
可以理解的是,上述第五方面与相关技术相比存在的有益效果与上述第一方面或第四方面与相关技术相比存在的有益效果相同,可以参见上述第一方面或第四方面中的相关描述,在此不再赘述。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一种实施例的空间金字塔池化方法的示意图;
图2是本发明一种实施例的跨通道金字塔池化方法的流程图;
图3是本发明一种实施例的跨通道金字塔池化方法的示意图;
图4是本发明一种实施例的卷积神经网络的示意图;
图5是本发明一种实施例的卷积神经网络处理方法的流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表征相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,如果有描述到第一、第二等只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
本发明的描述中,需要说明的是,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
下面将结合附图对本发明的技术方案进行清楚、完整的描述,显然,以下所描述的实施例是本发明一部分实施例,并非全部实施例。
需要先说明的是,为了更好地理解本发明实施例的跨通道金字塔池化方法的改进,这里先介绍空间金字塔池化方法。
在R-CNN这类卷积神经网络中,其需要一个固定大小,例如224×224的图像作为输入图像,因此在输入前要求对所有图像进行一个Warp操作,以使得一致大小的输入图像,但经过这种处理后可能会导致任意大小、尺度的图像或子图像的识别精度降低。为了解决这种矛盾,空间金字塔池化方法(Spatial Pyramid Pooling,SPP)被研究学者提出。
空间金字塔池化的思想源自空间金字塔模型(Spatial Pyramid Model),它将一个池化变成了多个规格的池化,用不同大小池化窗口作用于上层的卷积特征。也就是说空间金字塔池化层就是把前一卷积层输出的多层特征图(Feature Maps)的每一个图片上进行了多个池化操作,并把结果输出给全连接层,其中每一个池化操作可以看成是一个空间金字塔的一层。
具体地,参考图1,图1为空间金字塔池化方法的示意图。可以理解的是,图1中对多层特征图进行了三层的空间金字塔池化操作,即三个池化窗口分别为4×4、2×2、1×1大小。假设卷积神经网络中最后一个卷积层是conv5,使用了256个过滤器(Filter),生成的多层特征图即为(W,H,256)的大小,每层特征图的大小即为(W,H)。然后输入至空间金字塔池化层后,分别经过4×4、2×2、1×1三个不同大小的池化窗口进行最大值池化或均值池化后,得到单层特征图的池化结果分别为16、4、1三个级别的特征向量,由于一共有256层特征图,所以再将每层特征图的池化结果组合起来,以得到16×256-d、4×256-d、1×256-d三个级别的特征向量。最后将所有特征向量拼接起来,以作为最终的空间金字塔池化结果。
参见图2所示,为本发明实施例提供的一种跨通道金字塔池化方法的流程图,方法包括以下步骤:
设置多种不同的通道尺度,多种不同的通道尺度分别对应多种不同的跨通道池化操作;
获取每种通道尺度下的多个通道,以得到多个通道集;
获取多层特征图,多层特征图由输入图像经卷积层处理后得到;
对多层特征图在多个通道集下分别进行跨通道池化操作,以得到池化结果。
具体地,如图2所示,可以理解的是,设置多种通道尺度等同于设置空间金字塔池化方法中池化窗口的不同大小;进一步地,对于获取每种通道尺度下的多个通道,以得到多个通道集,其等同于获取空间金字塔池化方法中不同大小的池化窗口;而获取多层特征图的目的在于获取进行跨通道金字塔池化的输入图像数据。
进一步地,对多层特征图在多个通道集下分别进行跨通道池化操作,其具体理解为:对于常规的池化操作,例如空间金字塔池化,是对单层特征图进行池化操作,即对单个图片划分区域内的所有像素数据进行池化。而跨通道池化(Cross Channel Pooling)操作是对多层特征图上同一坐标位置下的连续多个像素进行池化,可以理解的是,每个通道集的多个通道对应特征图的多层。因此,通过不同通道集的池化后,也可以得到对应的“特征向量”,这里称为像素语义特征,将若干个像素语义特征组合后得到像素语义特征数据,以作为最终的池化结果。具体地,结合参考图1和图3是可以理解本发明实施例的跨通道金字塔池化方法的改进特点。
本实施例中,通过将空间金字塔池化方法进行改进,具体结合了跨通道池化的原理,从而获得本发明实施例的跨通道金字塔池化方法。对于本发明实施例的跨通道金字塔池化方法,其在通道维度上提取同一像素位置的不同通道尺度的像素语义特征,考虑了像素语义特征在通道间的分布差异性,有利于突出重要的像素位置,解决了现有的空间金字塔池化方法存在的缺陷。因此,本发明实施例的跨通道金字塔池化方法可以应用至神经网络架构中,如卷积神经网络、Transformer、多层感知机(MLP),以提高性能;并且一方面可用于二维和三维图像分类,另一方面可以用于图像分割、目标检测和定位、以及其他计算机视觉任务;同时通过嵌入至卷积神经网络框架中来作为主要模块,可实现部署到服务器、工作站、超算中心、云计算中心、个人电脑、手机、边缘设备和医疗设备的功能。
在一些实施例中,第N通道集对应的通道尺度为2(-1),N为正整数;对多层特征图在多个通道集下分别进行跨通道池化操作,包括以下步骤:
将多层特征图划分为M个像素区域,M个像素区域共同组成多层特征图,M为正整数;
对第一像素区域在N个通道集下进行跨通道池化操作,以得到2N-1数量的像素语义特征;
继续对剩余M-1个像素区域皆在N个通道集下进行跨通道池化操作,以得到M(2N-1)数量的像素语义特征;
对M(2N-1)数量的像素语义特征进行合并,以得到像素语义特征数据,像素语义特征数据表征跨通道金字塔池化结果。
具体地,参考图3,图3为本发明实施例的跨通道金字塔池化方法的示意图。可以理解的是,图3以三个通道集为例,按照本实施例的定义,三个通道集所对应的通道尺度分别为1、2、4。进一步地,图3图示的上方以一个像素区域x(i,j)为例,来分别通过上述三个通道集进行池化操作,像素区域表示多层特征图上同一坐标位置下的连续多个像素。该像素区域分别经过通道尺度为1、2、4的池化操作后,得到对应数量为1、2、4的像素语义特征,即对于第N通道集,经过池化后可得到2(-1)数量的像素语义特征。因此,该像素区域最终经过跨通道金字塔池化后,可以得到1+2+4=7数量的像素语义特征,从数学表达上来看则为:将公比为2的等比数列进行求和,即任意一个像素区域经过金字塔池化后可得到2N-1数量的像素语义特征。
继续参考图3图示的下方,可以理解的是,对于一个多层特征图,其构成的所有像素区域,最终能获得M×7数量的像素语义特征,即像素语义特征数据,具体地,像素语义特征数据由像素语义特征集表示,其数学模型为Y∈R7×H×W,其中M=H×W。可以理解的是,本实施例的图3仅以三个通道集为例,在其他实施例中,基于本实施例的通道尺度的定义,可以设置更多数量的通道集,来进行跨通道金字塔池化,同时对应可获得M(2N-1)数量的像素语义特征。
在一些实施例中,跨通道池化操作采用均值跨通道池化操作。
具体地,可以理解的是,根据相关理论,特征提取的误差主要来自两个方面,其中一个方面为邻域大小受限造成的估计值方差增大。为了解决此种情况下的特征提取的误差,可以采用均值池化,以更多地保留图像的背景信息。可以理解的是,均值跨通道池化和均值池化本质原理相似,因此可以获得相类似的技术效果。
在一些实施例中,均值跨通道池化操作由以下数学模型所约束:
K=W/2(-1),
其中,W为每个通道集的通道数;2(-1)表示第N通道集对应的通道尺度;x(k,i,j)表示第k像素区域,k为正整数且不大于K;μ(i,j)表示像素语义特征。
具体地,参考图3,以通道尺度为4的通道集为例,假设该通道集的通道数为20,即包括20个通道,则20个通道经过等分后得到4个通道子集,每个通道子集包括K=5数量的通道。同时,多层特征图对应有20层,每连续5层将依次经过4个通道子集进行均值跨通道池化,例如x(1,i,j)、x(2,i,j)、x(3,i,j)、x(4,i,j)、x(5,i,j),经过第一个通道子集的5个通道进行均值跨通道池化,即本质上进行均值计算,以输出一个像素语义特征μ(i,j)。因此,对于该通道尺度为4的通道集,最终便可得到4个像素语义特征。
在一些实施例中,跨通道池化操作采用最大值跨通道池化操作。
具体地,可以理解的是,根据相关理论,特征提取的误差主要来自两个方面,其中另一个方面为卷积层参数误差造成估计均值的偏移。为了解决此种情况下的特征提取的误差,可以采用最大值池化,以更多地保留纹理信息。可以理解的是,最大值跨通道池化和最大值池化本质原理相似,因此可以获得相类似的技术效果。
在一些实施例中,最大值跨通道池化操作由以下数学模型所约束:
μ(i,j)=max{x(k,i,j)|k∈[1,K],K∈N};
K=W/2(-1);
其中,W为每个通道集的通道数;2(-1)表示第N通道集对应的通道尺度;x(k,i,j)表示第k像素区域,k为正整数且不大于K;μ(i,j)表示像素语义特征。
具体地,参考图3,以通道尺度为4的通道集为例,假设该通道集的通道数为20,即包括20个通道,则20个通道经过等分后得到4个通道子集,每个通道子集包括K=5数量的通道。同时,多层特征图对应有20层,每连续5层将依次经过4个通道子集进行最大值跨通道池化,例如x(1,i,j)、x(2,i,j)、x(3,i,j)、x(4,i,j)、x(5,i,j),经过第一个通道子集的5个通道进行最大值跨通道池化,即本质上进行取最大值处理,以输出一个像素语义特征μ(i,j)。因此,对于该通道尺度为4的通道集,最终便可得到4个像素语义特征。
另外,本发明实施例还提供了一种跨通道金字塔池化系统,包括:通道尺度设置单元、通道集获取单元、特征图获取单元、跨通道池化单元。通道尺度设置单元用于设置多种不同的通道尺度,多种不同的通道尺度分别对应多种不同的跨通道池化操作;通道集获取单元用于获取每种通道尺度下的多个通道,以得到多个通道集;特征图获取单元用于获取多层特征图,多层特征图由输入图像经卷积层处理后得到;跨通道池化单元用于对多层特征图在多个通道集下分别进行跨通道池化操作,以得到池化结果。
具体地,结合参考图2和图3,可以理解的是,本申请实施例的跨通道金字塔池化系统用于实现跨通道金字塔池化方法,本申请实施例的跨通道金字塔池化系统与前述的跨通道金字塔池化方法相对应,具体的处理过程请参照前述的跨通道金字塔池化方法,在此不再赘述。
本实施例中,通过将空间金字塔池化方法进行改进,具体结合了跨通道池化的原理,从而获得本发明实施例的跨通道金字塔池化系统。对于本发明实施例的跨通道金字塔池化系统,其在通道维度上提取同一像素位置的不同通道尺度的像素语义特征,考虑了像素语义特征在通道间的分布差异性,有利于突出重要的像素位置,解决了现有的空间金字塔池化方法存在的缺陷。因此,本发明实施例的跨通道金字塔池化系统可以应用至神经网络架构中,如卷积神经网络、Transformer、多层感知机(MLP),以提高性能;并且一方面可用于二维和三维图像分类,另一方面可以用于图像分割、目标检测和定位、以及其他计算机视觉任务;同时通过嵌入至卷积神经网络框架中来作为主要模块,可实现部署到服务器、工作站、超算中心、云计算中心、个人电脑、手机、边缘设备和医疗设备的功能。
另外,参考图4,本发明实施例还提供了一种卷积神经网络,包括输入层、卷积层、池化层、跨通道金字塔池化层、全连接层、输出层,跨通道金字塔池化层用于执行如本发明实施例的跨通道金字塔池化方法。
具体地,参考图4,以图4为例,可以理解的是,本发明实施例是将跨通道金字塔池化方法封装成一个金字塔方法模块,即得到跨通道金字塔池化层,并插入到一些卷积神经网络中,例如VGGNet11网络,来作为现代卷积神经网络基本组成,构建跨通道金字塔卷积神经网络。
进一步地,结合参考图4,首先VGGNet11利用常规的卷积层和池化层来提取输入图像的高级特征,然后利用跨通道金字塔池化层,沿着通道维度去提取不同尺度的像素语义特征,以得到像素语义特征数据,最后利用GAP去提取像素语义特征数据的全局特征,并输入到分类器Softmax中,以最终输出卷积神经网络的预测结果。
本实施例中,通过利用本发明实施例的卷积神经网络,从而可以得到优化的输出结果,优化效果具体体现在利用了跨通道金字塔池化层,通过在通道维度上提取同一像素位置的不同通道尺度的像素语义特征,考虑了像素语义特征在通道间的分布差异性,有利于突出重要的像素位置,解决了现有的空间金字塔池化方法存在的缺陷。因此,本发明实施例的卷积神经网络可以部署到实际的图像分类、目标检测、分割等应用中,并能获得较好的预测效果。
此外,参考图5,本发明实施例还提供了一种卷积神经网络处理方法,应用于本发明实施例的卷积神经网络,包括以下步骤:
利用输入层、卷积层、池化层对输入的图像数据进行处理,以得到高级特征数据,高级特征数据表征对图像所提取的高级特征;
利用跨通道金字塔池化层对高级特征数据进行处理,以得到像素语义特征数据,像素语义特征数据表征跨通道金字塔池化结果;
利用全连接层、输出层对像素语义特征数据进行处理,以得到卷积神经网络的预测结果。
具体地,结合参考图4和图5,可以理解的是,本申请实施例的卷积神经网络处理方法用于在本申请实施例的卷积神经网络中执行,本申请实施例的卷积神经网络处理方法与前述的卷积神经网络相对应,具体的处理过程请参照前述的卷积神经网络,在此不再赘述。
本实施例中,通过在本发明实施例的卷积神经网络上运用本发明实施例的卷积神经网络处理方法,从而可以得到优化的输出结果,优化效果具体体现在利用了跨通道金字塔池化层,通过在通道维度上提取同一像素位置的不同通道尺度的像素语义特征,考虑了像素语义特征在通道间的分布差异性,有利于突出重要的像素位置,解决了现有的空间金字塔池化方法存在的缺陷。因此,通过将本发明实施例的卷积神经网络处理方法应用至实际的图像分类、目标检测、分割等应用中,可以获得较好的预测效果。
此外,本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个控制处理器执行,可使得上述一个或多个控制处理器执行上述方法实施例中的一种跨通道金字塔池化方法或一种卷积神经网络处理方法,例如,执行以上描述的图2或图5中的方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
上面结合附图对本发明实施例作了详细说明,但本发明不限于上述实施例,在所属技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (10)
1.一种跨通道金字塔池化方法,其特征在于,包括以下步骤:
设置多种不同的通道尺度,多种不同的所述通道尺度分别对应多种不同的跨通道池化操作;
获取每种所述通道尺度下的多个通道,以得到多个通道集;
获取多层特征图,所述多层特征图由输入图像经卷积层处理后得到;
对所述多层特征图在多个所述通道集下分别进行跨通道池化操作,以得到池化结果。
2.根据权利要求1所述的跨通道金字塔池化方法,其特征在于,第N通道集对应的通道尺度为2(-1),N为正整数;所述对所述多层特征图在多个所述通道集下分别进行跨通道池化操作,包括以下步骤:
将所述多层特征图划分为M个像素区域,M个所述像素区域共同组成所述多层特征图,M为正整数;
对第一像素区域在N个通道集下进行跨通道池化操作,以得到2N-1数量的像素语义特征;
继续对剩余M-1个像素区域皆在N个所述通道集下进行跨通道池化操作,以得到M(2N-1)数量的像素语义特征;
对M(2N-1)数量的像素语义特征进行合并,以得到像素语义特征数据,所述像素语义特征数据表征跨通道金字塔池化结果。
3.根据权利要求2所述的跨通道金字塔池化方法,其特征在于,所述跨通道池化操作采用均值跨通道池化操作。
5.根据权利要求2所述的跨通道金字塔池化方法,其特征在于,所述跨通道池化操作采用最大值跨通道池化操作。
6.根据权利要求5所述的跨通道金字塔池化方法,其特征在于,所述最大值跨通道池化操作由以下数学模型所约束:
μ(i,j)=max{x(k,i,j)|k∈[1,K],K∈N};
K=W/2(-1);
其中,W为每个通道集的通道数;2(-1)表示第N通道集对应的通道尺度;x(k,i,j)表示第k像素区域,k为正整数且不大于K;μ(i,j)表示像素语义特征。
7.一种跨通道金字塔池化系统,其特征在于,包括:
通道尺度设置单元,用于设置多种不同的通道尺度,多种不同的所述通道尺度分别对应多种不同的跨通道池化操作;
通道集获取单元,用于获取每种所述通道尺度下的多个通道,以得到多个通道集;
特征图获取单元,用于获取多层特征图,所述多层特征图由输入图像经卷积层处理后得到;
跨通道池化单元,用于对所述多层特征图在多个所述通道集下分别进行跨通道池化操作,以得到池化结果。
8.一种卷积神经网络,其特征在于,包括输入层、卷积层、池化层、跨通道金字塔池化层、全连接层、输出层,所述跨通道金字塔池化层用于执行如权利要求1至6任一所述的跨通道金字塔池化方法。
9.一种卷积神经网络处理方法,应用于如权利要求8所述的卷积神经网络,其特征在于,包括以下步骤:
利用所述输入层、所述卷积层、所述池化层对输入的图像数据进行处理,以得到高级特征数据,所述高级特征数据表征对图像所提取的高级特征;
利用所述跨通道金字塔池化层对所述高级特征数据进行处理,以得到像素语义特征数据,所述像素语义特征数据表征跨通道金字塔池化结果;
利用所述全连接层、所述输出层对所述像素语义特征数据进行处理,以得到卷积神经网络的预测结果。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1至6任一项所述的跨通道金字塔池化方法或如权利要求9所述的卷积神经网络处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211741702.6A CN115984666A (zh) | 2022-12-30 | 2022-12-30 | 跨通道金字塔池化方法、系统、卷积神经网络及处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211741702.6A CN115984666A (zh) | 2022-12-30 | 2022-12-30 | 跨通道金字塔池化方法、系统、卷积神经网络及处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115984666A true CN115984666A (zh) | 2023-04-18 |
Family
ID=85959384
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211741702.6A Pending CN115984666A (zh) | 2022-12-30 | 2022-12-30 | 跨通道金字塔池化方法、系统、卷积神经网络及处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115984666A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117033270A (zh) * | 2023-10-08 | 2023-11-10 | 腾讯科技(深圳)有限公司 | 一种芯片、设备以及数据处理方法 |
CN117173100A (zh) * | 2023-07-31 | 2023-12-05 | 东莞市言科新能源有限公司 | 聚合物锂离子电池生产控制系统及其方法 |
-
2022
- 2022-12-30 CN CN202211741702.6A patent/CN115984666A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117173100A (zh) * | 2023-07-31 | 2023-12-05 | 东莞市言科新能源有限公司 | 聚合物锂离子电池生产控制系统及其方法 |
CN117173100B (zh) * | 2023-07-31 | 2024-04-05 | 东莞市言科新能源有限公司 | 聚合物锂离子电池生产控制系统及其方法 |
CN117033270A (zh) * | 2023-10-08 | 2023-11-10 | 腾讯科技(深圳)有限公司 | 一种芯片、设备以及数据处理方法 |
CN117033270B (zh) * | 2023-10-08 | 2024-01-26 | 腾讯科技(深圳)有限公司 | 一种芯片、设备以及数据处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115984666A (zh) | 跨通道金字塔池化方法、系统、卷积神经网络及处理方法 | |
CN108764039B (zh) | 神经网络、遥感影像的建筑物提取方法、介质及计算设备 | |
CN110163207B (zh) | 一种基于Mask-RCNN船舶目标定位方法及存储设备 | |
CN107688783B (zh) | 3d图像检测方法、装置、电子设备及计算机可读介质 | |
CN114359851A (zh) | 无人驾驶目标检测方法、装置、设备及介质 | |
CN113065645B (zh) | 孪生注意力网络、图像处理方法和装置 | |
CN109145747A (zh) | 一种水面全景图像语义分割方法 | |
CN111754531A (zh) | 图像实例分割方法和装置 | |
CN110825900A (zh) | 特征重构层的训练方法、图像特征的重构方法及相关装置 | |
CN112749666B (zh) | 一种动作识别模型的训练及动作识别方法与相关装置 | |
CN112348116B (zh) | 利用空间上下文的目标检测方法、装置和计算机设备 | |
CN115035295B (zh) | 一种基于共享卷积核和边界损失函数的遥感图像语义分割方法 | |
CN112101359B (zh) | 文本公式的定位方法、模型训练方法及相关装置 | |
CN113822287B (zh) | 一种图像处理方法、系统、设备以及介质 | |
CN110399882A (zh) | 一种基于可变形卷积神经网络的文字检测方法 | |
CN113362338A (zh) | 铁轨分割方法、装置、计算机设备和铁轨分割处理系统 | |
CN114708172A (zh) | 图像融合方法、计算机程序产品、存储介质及电子设备 | |
CN113284055A (zh) | 一种图像处理的方法以及装置 | |
CN114998610A (zh) | 一种目标检测方法、装置、设备及存储介质 | |
CN114821087A (zh) | 一种深度图像关键点的检测与描述模型及方法 | |
CN114708173A (zh) | 图像融合方法、计算机程序产品、存储介质及电子设备 | |
CN115761552B (zh) | 面向无人机机载平台的目标检测方法、设备及介质 | |
CN117392508A (zh) | 一种基于坐标注意力机制的目标检测方法和装置 | |
CN111667495A (zh) | 一种图像场景解析方法和装置 | |
CN116957999A (zh) | 深度图优化方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |