CN109829506B - 图像处理方法、装置、电子设备和计算机存储介质 - Google Patents
图像处理方法、装置、电子设备和计算机存储介质 Download PDFInfo
- Publication number
- CN109829506B CN109829506B CN201910124385.5A CN201910124385A CN109829506B CN 109829506 B CN109829506 B CN 109829506B CN 201910124385 A CN201910124385 A CN 201910124385A CN 109829506 B CN109829506 B CN 109829506B
- Authority
- CN
- China
- Prior art keywords
- feature map
- channel
- feature
- pooling layer
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明提供了一种图像处理方法、装置、电子设备和计算机存储介质,该方法包括:获取待处理图像,并对待处理图像进行特征提取,得到特征图;通过权重计算网络确定用于表示特征图的全局图像特征和局部图像特征的中间描述子,并基于中间描述子确定通道权重向量;利用通道权重向量对特征图进行通道加权处理,得到通道加权的特征图。在本发明中,权重计算网络确定的中间描述子即包含特征图的全局图像特征,又包含特征图的局部图像特征,进而基于该中间描述子确定的通道权重向量更加准确、科学,基于该科学、准确的通道权重向量确定的通道加权的特征图的效果好、准确性好,缓解了现有的通过SE网络改善特征图的方式效果差,准确性不好的技术问题。
Description
技术领域
本发明涉及图像处理的技术领域,尤其是涉及一种图像处理方法、装置、电子设备和计算机存储介质。
背景技术
卷积神经网络(CNN)是计算机视觉任务(如图像分类、目标检测和语音分割)解决方案的核心。CNN已经被学术界和工业界从不同的方面进行了广泛的研究,这些研究成果极大地推动了CNN的性能。
其中一个研究课题是显式地重构卷积层输出的特征图的通道权重,以提高CNN的表示能力。其中,“挤压与激励”(Squeeze-and-Excitation,SE)网络通过引入SE模块(如图1),对CNN的表示能力表现出显著的改进。SE是一个计算单元,它选择性地增强特征通道上有用的特征通道并抑制不太有用的特征通道。
在图1中:将卷积层输出的特征图U先进行全局平均池化(S操作,即图1中的Fsq(.)),得到通道描述子(即图1中的前面的1×1×C的向量,用于表征特征通道上响应的全局分布),然后把通道描述子输入给两层的全连接层(E操作,即图1中的Fex(.,W)),得到通道权重向量(即图1中后面的1×1×C的向量),最后将通道权重向量与原来卷积层输出的特征图相乘(即图1中的Fscale(.,.)),进行数值的放缩来达到重新调整通道权重的效果。重新调整通道权重后,得到的特征图的表现提升,后续基于表现提升的特征图进行图像分析(比如,分类、检测和分割)时,也使得分析的结果更加准确。
但是,SE模块的一个缺点是S操作执行的是全局平均池化(Global AveragePooling,GAP),而全局平均池化所掩盖的局部特征对于识别不同通道是至关重要的。如图2所示,在没有局部信息的情况下,一些激活不当的噪声通道(如图2中的285通道和588通道)也可能具有高权重。如图2所示,图2中每行的中间图像和右边图像为不同的一对特征通道图像(其中,每行的中间图像为噪声通道,每行的右边图像为有用通道),但是全局平均池化后拥有相近的压缩响应,导致E模块难以区分这两个特征通道,从而对两个特征通道输出了相近的权重,这显然是不科学的(应该是让有用通道(比如,595通道和660通道)得到高的权重,噪声通道得到低(比如,285通道和588通道)的权重),采用不科学的权重与原来卷积层输出的特征图相乘时,将无法提升特征图的表现,最终得到的特征图也并无任何改善。
综上,现有的通过SE网络改善特征图的方式效果差,准确性不好。
发明内容
有鉴于此,本发明的目的在于提供一种图像处理方法、装置、电子设备和计算机存储介质,以缓解现有的通过SE网络改善特征图的方式效果差,准确性不好的技术问题。
第一方面,本发明实施例提供了一种图像处理方法,包括:获取待处理图像,并对所述待处理图像进行特征提取,得到特征图;通过权重计算网络确定用于表示所述特征图的全局图像特征和局部图像特征的中间描述子,并基于所述中间描述子确定通道权重向量;所述全局图像特征用于表示所述特征图的整体特征,所述局部图像特征用于表示所述特征图的局部特征,所述通道权重向量用于表示各个特征通道的重要程度;利用所述通道权重向量对所述特征图进行通道加权处理,得到通道加权的特征图,以根据所述通道加权的特征图进行图像分析。
进一步地,所述权重计算网络包括:池化层、全连接层和非线性激活层,其中,所述全连接层分别与所述池化层和所述非线性激活层相连接。
进一步地,所述池化层为空间金字塔池化层;通过权重计算网络确定用于表示所述特征图的全局图像特征和局部图像特征的中间描述子包括:利用所述权重计算网络中的空间金字塔池化层对所述特征图进行空间金字塔池化处理,得到多种尺度的特征图;所述多种尺度的特征图中包含所述全局图像特征和所述局部图像特征;将所述多种尺度的特征图进行拼接处理,得到所述特征图的中间描述子。
进一步地,将所述多种尺度的特征图进行拼接处理,得到所述特征图的中间描述子包括:对每种尺度的特征图进行重塑处理,得到多种重塑处理后的特征图;将所述多种重塑处理后的特征图进行连接处理,得到所述特征图的中间描述子。
进一步地,所述池化层为预设平均池化层;通过权重计算网络确定用于表示所述特征图的全局图像特征和局部图像特征的中间描述子还包括:通过所述权重计算网络中的预设平均池化层对所述特征图进行池化处理,得到池化后的特征图;所述池化后的特征图中包含所述局部图像特征;对所述池化后的特征图进行重塑处理,得到所述特征图的中间描述子。
进一步地,所述预设平均池化层的窗口大小为k×k,步长为k的平均池化层,其中,k为所述待处理图像被降采样多次后得到的分辨率最小的特征图的边长。
进一步地,所述全连接层包括:第一预设全连接层;基于所述中间描述子确定通道权重向量包括:通过所述权重计算网络中的第一预设全连接层对所述中间描述子进行信息融合,得到第一通道描述子;所述第一通道描述子表示各个特征通道的特征信息;通过所述权重计算网络中的非线性激活层对所述第一通道描述子进行非线性激活处理,得到所述通道权重向量。
进一步地,所述全连接层包括:第二预设全连接层;基于所述中间描述子确定通道权重向量还包括:通过所述权重计算网络中的第二预设全连接层对所述中间描述子进行信息融合,得到第二通道描述子;所述第二通道描述子表示各个特征通道的特征信息;通过所述权重计算网络中的非线性激活层对所述第二通道描述子进行非线性激活处理,得到所述通道权重向量。
第二方面,本发明实施例还提供了一种图像处理装置,包括:特征提取单元,用于获取待处理图像,并对所述待处理图像进行特征提取,得到特征图;确定单元,用于通过权重计算网络确定用于表示所述特征图的全局图像特征和局部图像特征的中间描述子,并基于所述中间描述子确定通道权重向量;所述全局图像特征用于表示所述特征图的整体特征,所述局部图像特征用于表示所述特征图的局部特征,所述通道权重向量用于表示各个特征通道的重要程度;通道加权处理单元,用于利用所述通道权重向量对所述特征图进行通道加权处理,得到通道加权的特征图,以根据所述通道加权的特征图进行图像分析。
第三方面,本发明实施例提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面任一项所述的方法的步骤。
第四方面,本发明实施例提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行上述第一方面任一项所述的方法的步骤。
在本发明实施例中,首先,获取待处理图像,并对待处理图像进行特征提取,得到特征图;然后,通过权重计算网络确定用于表示特征图的全局图像和局部图像特征的中间描述子,并基于中间描述子确定权重向量;最后,利用通道权重向量对特征图进行通道加权处理,得到通道加权的特征图,以根据通道加权的特征图进行图像分析。通过上述描述可知,在本发明实施例中,权重计算网络确定的中间描述子即包含特征图的全局图像特征,又包含特征图的局部图像特征,进而基于该中间描述子确定的通道权重向量更加准确、科学,基于该科学、准确的通道权重向量确定的通道加权的特征图的效果好、准确性好,缓解了现有的通过SE网络改善特征图的方式效果差,准确性不好的技术问题。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的传统的SE模块的处理流程图;
图2为本发明实施例提供的SE模块中全局平均池化的缺点示意图;
图3为本发明实施例提供的一种电子设备的示意图;
图4为本发明实施例提供的一种图像处理方法的流程图;
图5为本发明实施例提供的SPSE权重计算的方法的流程示意图;
图6为本发明实施例提供的包含SPSE权重计算方法的图像处理方法的示意图;
图7为本发明实施例提供的RGSE权重计算的方法的流程示意图;
图8为本发明实施例提供的包含RGSE权重计算方法的图像处理方法的示意图;
图9为本发明实施例提供的一种图像处理装置的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
首先,参照图3来描述用于实现本发明实施例的电子设备100,该电子设备可以用于运行本发明各实施例的图像处理方法。
如图3所示,电子设备100包括一个或多个处理器102、一个或多个存储器104、输入装置106、输出装置108以及摄像机110,这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意,图3所示的电子设备100的组件和结构只是示例性的,而非限制性的,根据需要,所述电子设备也可以具有其他组件和结构。
所述处理器102可以采用数字信号处理器(DSP,Digital Signal Processing)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)、可编程逻辑阵列(PLA,Programmable Logic Array)和ASIC(Application Specific Integrated Circuit)中的至少一种硬件形式来实现,所述处理器102可以是中央处理单元(CPU,Central ProcessingUnit)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元,并且可以控制所述电子设备100中的其它组件以执行期望的功能。
所述存储器104可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器102可以运行所述程序指令,以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据,例如所述应用程序使用和/或产生的各种数据等。
所述输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。
所述输出装置108可以向外部(例如,用户)输出各种信息(例如,图像或声音),并且可以包括显示器、扬声器等中的一个或多个。
所述摄像机110用于进行待处理图像的采集,其中,摄像机所采集的待处理图像经过所述图像处理方法进行处理之后得到通道加权的特征图,例如,摄像机可以拍摄用户期望的图像(例如照片、视频等),然后,将该图像经过所述图像处理方法进行处理之后得到通道加权的特征图,摄像机还可以将所拍摄的图像存储在所述存储器104中以供其它组件使用。
示例性地,用于实现根据本发明实施例的图像处理方法的电子设备可以被实现为诸如智能手机、平板电脑等智能移动终端。
实施例2:
根据本发明实施例,提供了一种图像处理方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图4是根据本发明实施例的一种图像处理方法的流程图,如图4所示,该方法包括如下步骤:
步骤S402,获取待处理图像,并对待处理图像进行特征提取,得到特征图;
在本发明实施例中,待处理图像可根据具体的处理任务而确定。比如,处理任务为人脸特征点检测任务,那么该处理图像即为人脸图像,本发明实施例对待处理图像不进行具体限定。
在获取得到待处理图像后,对待处理图像进行特征提取,从而得到特征图。具体的,可以通过卷积层(具体为多个堆叠的卷积层,即block(模块))对待处理图像进行特征提取,从而得到待处理图像的特征图。如果后续网络结构中还存在多个堆叠的卷积层,那么这多个堆叠的卷积层输出的图也都是本发明中的特征图。
步骤S404,通过权重计算网络确定用于表示特征图的全局图像特征和局部图像特征的中间描述子,并基于中间描述子确定通道权重向量;全局图像特征用于表示特征图的整体特征,局部图像特征用于表示特征图的局部特征,通道权重向量用于表示各个特征通道的重要程度;
在得到特征图后,通过权重计算网络确定用于表示特征图的中间描述子,该中间描述子不仅可以表示特征图的全局图像特征,还可以表示特征图的局部图像特征,进而基于上述中间描述子确定通道权重向量,该通道权重向量表示各个特征通道的重要程度。下文中再对该过程进行详细描述,在此不再赘述。
步骤S406,利用通道权重向量对特征图进行通道加权处理,得到通道加权的特征图,以根据通道加权的特征图进行图像分析。
在得到通道权重向量后,利用通道权重向量对特征图进行通道加权处理,得到通道加权的特征图。所谓的通道加权处理是指将通道权重向量与特征图进行乘积运算。具体的,在计算机进行计算时,特征图实际为多通道矩阵(每个通道矩阵为二维矩阵),在得到通道权重向量后,将通道权重向量中的元素与对应的通道矩阵中的各个元素进行乘积运算,乘积运算后得到的多通道矩阵即为通道加权的特征图。该通道加权的特征图相较于原来的特征图有了明显的改善,其中的有用的特征通道得到了增强,而无用的特征通道(即噪声特征通道)得到了抑制,这样在后继根据该通道加权的特征图进行图像分析时,也使得分析的结果更加准确。
需要说明的是,这里的图像分析也是根据具体的处理任务而确定。上述的图像分析可以是目标检测、图像分类或语义分割中的任一种,本发明实施例对其不进行具体限制。
在本发明实施例中,首先,获取待处理图像,并对待处理图像进行特征提取,得到特征图;然后,通过权重计算网络确定用于表示特征图的全局图像和局部图像特征的中间描述子,并基于中间描述子确定权重向量;最后,利用通道权重向量对特征图进行通道加权处理,得到通道加权的特征图,以根据通道加权的特征图进行图像分析。通过上述描述可知,在本发明实施例中,权重计算网络确定的中间描述子即包含特征图的全局图像特征,又包含特征图的局部图像特征,进而基于该中间描述子确定的通道权重向量更加准确、科学,基于该科学、准确的通道权重向量确定的通道加权的特征图的效果好、准确性好,缓解了现有的通过SE网络改善特征图的方式效果差,准确性不好的技术问题。
上述内容对本发明的图像处理方法进行了简要介绍,下面对其中涉及到的具体内容进行详细介绍。
在本发明的一个可选实施例中,权重计算网络包括:池化层、全连接层和非线性激活层,其中,全连接层分别与池化层和非线性激活层相连接。
下文中再对该权重计算网络中各个结构的图像处理过程进行详细介绍。
在本发明实施例中,具体包含两种权重计算的方法,下面分别对这两种权重计算的方法进行介绍。
第一种权重计算的方法(简称为SPSE权重计算的方法,包括如下的步骤S4041至步骤S4044):
在本发明的一个可选实施例中,池化层为空间金字塔池化层;步骤S404,通过权重计算网络确定用于表示特征图的全局图像特征和局部图像特征的中间描述子包括如下步骤:
步骤S4041,利用权重计算网络中的空间金字塔池化层对特征图进行空间金字塔池化处理,得到多种尺度的特征图;多种尺度的特征图中包含全局图像特征和局部图像特征;
在本发明实施例中,空间金字塔池化层为由三尺度的ROI池化层所组成的金字塔,一个尺度的ROI池化层可以将特征图划分为一种尺度,如此上述的空间金字塔池化层可以将特征图划分为三种尺度。当然,本发明实施例对上述空间金字塔池化层的尺度不进行具体限制,还可以为其它尺度的金字塔。
下面以一具体实例进行说明:如图5所示,将h×w×c的特征图输入到空间金字塔池化层中(即将h×w×c的特征图同时输入到三尺度的ROI池化层)进行金子塔池化(SP-Pool),得到4×4×c、2×2×c和1×1×c三种尺度的特征图(还可以划分为其它尺度的特征图,本发明实施例对具体的划分尺度不进行具体限制)。
步骤S4042,将多种尺度的特征图进行拼接处理,得到特征图的中间描述子。
具体包括如下步骤:
步骤S40421,对每种尺度的特征图进行重塑处理,得到多种重塑处理后的特征图;
继续以步骤S4041中实例进行说明,参考图5,在得到上述4×4×c、2×2×c和1×1×c三种尺度的特征图,对每种尺度的特征图进行重塑处理,将上述的三种尺度的特征图reshape(重塑)成1×16×c、1×4×c和1×1×c的特征图(即多种重塑处理后的特征图)。
步骤S40422,将多种重塑处理后的特征图进行连接处理,得到特征图的中间描述子。
在得到1×16×c、1×4×c和1×1×c的特征图(即多种重塑处理后的特征图)后,将上述多种重塑处理后的特征图连接起来,得到一个1×21×c的特征图(参考图5),该1×21×c的特征图即为特征图的中间描述子。将该中间描述子(1×21×c的特征图)与现有技术的全局平均池化后得到的1×1×C的通道描述子进行比较可知,本发明这里得到的中间描述子的特征信息量更加全面,这样,后续基于该特征信息全面的中间描述子确定得到的通道描述子也更加准确。
在本发明的一个可选实施例中,全连接层包括:第一预设全连接层;步骤S404,基于中间描述子确定通道权重向量包括如下步骤:
步骤S4043,通过权重计算网络中的第一预设全连接层对中间描述子进行信息融合,得到第一通道描述子;第一通道描述子表示各个特征通道的特征信息;
如步骤S40422所示,在得到特征图的中间描述子(1×21×c的特征图)后,将该中间描述子输入至c个21×1的全连接层(即第一预设全连接层,可以称之为信息融合全连接层,information-fusion fully connect,IF-FC,当然,第一预设全连接层根据中间描述子的信息而确定,如果中间描述子为1×32×c的特征图,那么,第一预设全连接层即为c个32×1的全连接层,本发明实施例对上述第一预设全连接层不进行具体限制)中,得到第一通道描述子。具体的,将上述中间描述子的各个特征通道(即1×21×c的特征图的各个特征通道,实质上是c个21维的向量)输入至c个21×1的全连接层中的各个21×1的全连接层中(也即一个特征通道输入给一个21×1的全连接层),得到第一通道描述子(如图5中的1×1×c的向量)。由于中间描述子的特征信息量全面,所以基于该中间描述子确定得到的第一通道描述子更加准确,能够对不同的特征通道进行很好的区分。
步骤S4044,通过权重计算网络中的非线性激活层对第一通道描述子进行非线性激活处理,得到通道权重向量。
在得到上述第一通道描述子后,进一步对第一通道描述子进行非线性激活(Excitation处理)处理,得到通道权重向量。
参考图6,图6为包含SPSE权重计算方法的图像处理方法的示意图,其中的虚线框为上述步骤S4041至步骤S4043的过程,虚线框右侧为非线性激活处理的过程,最下方的表示通道权重向量与特征图进行乘积运算。
第二种权重计算的方法(简称为RGSE权重计算的方法,包括如下的步骤S’4041至步骤S’4044):
在本发明的一个可选实施例中,池化层为预设平均池化层;步骤S404,通过权重计算网络确定用于表示特征图的全局图像特征和局部图像特征的中间描述子还包括如下步骤:
步骤S’4041,通过权重计算网络中的预设平均池化层对特征图进行池化处理,得到池化后的特征图;池化后的特征图中包含局部图像特征;
在本发明实施例中,预设平均池化层的窗口大小为k×k,步长为k的平均池化层,其中,k为待处理图像被降采样多次后得到的分辨率最小的特征图的边长(例如,ResNet系列的卷积神经网络,k的值为7,对于不同的卷积神经网络,k的值固定)。当然,k还可以为其它值,比如,待处理图像被降采样多次后得到的分辨率最小的特征图的边长的2倍等等,本发明实施例对其不进行具体限制。
下面以一具体实例进行说明:如图7所示,将h×w×c的特征图输入至窗口大小为k×k,步长为k的平均池化层(即预设平均池化层),通过该预设平均池化层对输入的上述h×w×c的特征图进行无重复的池化操作(可以把这里的池化操作称为分辨率导向池化,Resolution-Guided Pool,RG-Pool),得到分辨率缩小k倍后的特征图(池化后的特征图),即图7中(h/k)×(h/k)×c的特征图。
步骤S’4042,对池化后的特征图进行重塑处理,得到特征图的中间描述子。
继续以步骤S’4041中实例进行说明,参考图7,在得到池化后的特征图后,将上述池化后的特征图((h/k)×(h/k)×c的特征图)reshape(即重塑)成1×h2/k2×c的特征图,该1×h2/k2×c的特征图即为特征图的中间描述子。将该中间描述子(1×h2/k2×c的特征图)与现有技术的全局平均池化后得到的1×1×C的通道描述子进行比较可知,本发明这里得到的中间描述子的特征信息量更加全面,这样,后续基于该特征信息全面的中间描述子确定得到的通道描述子也更加准确。
在本发明的一个可选实施例中,全连接层包括:第二预设全连接层;步骤S404,基于中间描述子确定通道权重向量还包括如下步骤:
步骤S’4043,通过权重计算网络中的第二预设全连接层对中间描述子进行信息融合,得到第二通道描述子;第二通道描述子表示各个特征通道的特征信息;
如步骤S’4042所示,在得到特征图的中间描述子(1×h2/k2×c的特征图)后,将该中间描述子输入至c个h2/k2×1的全连接层(即第二预设全连接层,可以称之为信息融合全连接层,information-fusion fully connect,IF-FC)中,得到第二通道描述子。具体的,将上述中间描述子的各个特征通道(即1×h2/k2×c的特征图的各个特征通道,实质上是c个h2/k2维的向量)输入至c个h2/k2×1的全连接层中的各个h2/k2×1的全连接层中(也即一个特征通道输入给一个h2/k2×1的全连接层),得到第二通道描述子(如图7中的1×1×c的向量)。由于中间描述子的特征信息量全面,所以基于该中间描述子确定得到的第二通道描述子更加准确,能够对不同的特征通道进行很好的区分。
步骤S’4044,通过权重计算网络中的非线性激活层对第二通道描述子进行非线性激活处理,得到通道权重向量。
在得到上述第二通道描述子后,进一步对第二通道描述子进行非线性激活(Excitation处理)处理,得到通道权重向量。
参考图8,图8为包含RGSE权重计算方法的图像处理方法的示意图,其中的虚线框为上述步骤S’4041至步骤S’4043的过程,虚线框右侧为非线性激活处理的过程,最下方的表示通道权重向量与特征图进行乘积运算。
发明人对SE-Net(即传统的SE模块辅助的网络)、SPSE-Net(即本发明第一种权重计算的方法辅助的网络)和RGSE-Net(即本发明第二种权重计算的方法辅助的网络)在图像分类、目标检测和语义分割三大图像处理任务中的处理结果进行了对比,分别如下表一、表二和表三所示:
表一:SE-Net、SPSE-Net和RGSE-Net在ImageNet(一种数据库)上面的1000类图像分类结果的对比表
表二:SE-Net、SPSE-Net和RGSE-Net在MSCOCO(一种数据集)上面的目标检测结果的对比表
表三:SE-Net、SPSE-Net和RGSE-Net在MSCOCO上面的实例分割结果的对比表
通过上述的对比表可知,SPSE-Net和RGSE-Net相较于SE-Net,可以得到更加准确的结果。
实施例3:
本发明实施例还提供了一种图像处理装置,该图像处理装置主要用于执行本发明实施例上述内容所提供的图像处理方法,以下对本发明实施例提供的图像处理装置做具体介绍。
图9是根据本发明实施例的一种图像处理装置的示意图,如图9所示,该图像处理装置主要包括特征提取单元10,确定单元20和通道加权处理单元30,其中:
特征提取单元,用于获取待处理图像,并对待处理图像进行特征提取,得到特征图;
确定单元,用于通过权重计算网络确定用于表示特征图的全局图像特征和局部图像特征的中间描述子,并基于中间描述子确定通道权重向量;全局图像特征用于表示特征图的整体特征,局部图像特征用于表示特征图的局部特征,通道权重向量用于表示各个特征通道的重要程度;
通道加权处理单元,用于利用通道权重向量对特征图进行通道加权处理,得到通道加权的特征图,以根据通道加权的特征图进行图像分析。
在本发明实施例中,首先,获取待处理图像,并对待处理图像进行特征提取,得到特征图;然后,通过权重计算网络确定用于表示特征图的全局图像和局部图像特征的中间描述子,并基于中间描述子确定权重向量;最后,利用通道权重向量对特征图进行通道加权处理,得到通道加权的特征图,以根据通道加权的特征图进行图像分析。通过上述描述可知,在本发明实施例中,权重计算网络确定的中间描述子即包含特征图的全局图像特征,又包含特征图的局部图像特征,进而基于该中间描述子确定的通道权重向量更加准确、科学,基于该科学、准确的通道权重向量确定的通道加权的特征图的效果好、准确性好,缓解了现有的通过SE网络改善特征图的方式效果差,准确性不好的技术问题。
可选地,权重计算网络包括:池化层、全连接层和非线性激活层,其中,全连接层分别与池化层和非线性激活层相连接。
可选地,池化层为空间金字塔池化层;确定单元还用于:利用权重计算网络中的空间金字塔池化层对特征图进行空间金字塔池化处理,得到多种尺度的特征图;多种尺度的特征图中包含全局图像特征和局部图像特征;将多种尺度的特征图进行拼接处理,得到特征图的中间描述子。
可选地,确定单元还用于:对每种尺度的特征图进行重塑处理,得到多种重塑处理后的特征图;将多种重塑处理后的特征图进行连接处理,得到特征图的中间描述子。
可选地,池化层为预设平均池化层;确定单元还用于:通过权重计算网络中的预设平均池化层对特征图进行池化处理,得到池化后的特征图;池化后的特征图中包含局部图像特征;对池化后的特征图进行重塑处理,得到特征图的中间描述子。
可选地,预设平均池化层的窗口大小为k×k,步长为k的平均池化层,其中,k为待处理图像被降采样多次后得到的分辨率最小的特征图的边长。
可选地,全连接层包括:第一预设全连接层;确定单元还用于:通过权重计算网络中的第一预设全连接层对中间描述子进行信息融合,得到第一通道描述子;第一通道描述子表示各个特征通道的特征信息;通过权重计算网络中的非线性激活层对第一通道描述子进行非线性激活处理,得到通道权重向量。
可选地,全连接层包括:第二预设全连接层;确定单元还用于:通过权重计算网络中的第二预设全连接层对中间描述子进行信息融合,得到第二通道描述子;第二通道描述子表示各个特征通道的特征信息;通过权重计算网络中的非线性激活层对第二通道描述子进行非线性激活处理,得到通道权重向量。
本发明实施例所提供的图像处理装置,其实现原理及产生的技术效果和前述实施例2中的方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
在另一个实施例中,还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行上述权实施例2中任意实施例所述的方法的步骤。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (7)
1.一种图像处理方法,其特征在于,包括:
获取待处理图像,并对所述待处理图像进行特征提取,得到特征图;
通过权重计算网络确定用于表示所述特征图的全局图像特征和局部图像特征的中间描述子,并基于所述中间描述子确定通道权重向量;所述全局图像特征用于表示所述特征图的整体特征,所述局部图像特征用于表示所述特征图的局部特征,所述通道权重向量用于表示各个特征通道的重要程度;
利用所述通道权重向量对所述特征图进行通道加权处理,得到通道加权的特征图,以根据所述通道加权的特征图进行图像分析;
其中,所述权重计算网络包括:池化层、全连接层和非线性激活层,其中,所述全连接层分别与所述池化层和所述非线性激活层相连接;
其中,所述池化层为空间金字塔池化层,或,预设平均池化层;
当所述池化层为空间金字塔池化层时,通过权重计算网络确定用于表示所述特征图的全局图像特征和局部图像特征的中间描述子包括:利用所述权重计算网络中的空间金字塔池化层对所述特征图进行空间金字塔池化处理,得到多种尺度的特征图;所述多种尺度的特征图中包含所述全局图像特征和所述局部图像特征;将所述多种尺度的特征图进行拼接处理,得到所述特征图的中间描述子;
当所述池化层为预设平均池化层时,通过权重计算网络确定用于表示所述特征图的全局图像特征和局部图像特征的中间描述子还包括:通过所述权重计算网络中的预设平均池化层对所述特征图进行池化处理,得到池化后的特征图;所述池化后的特征图中包含所述局部图像特征;对所述池化后的特征图进行重塑处理,得到所述特征图的中间描述子。
2.根据权利要求1所述的方法,其特征在于,当所述池化层为空间金字塔池化层时,将所述多种尺度的特征图进行拼接处理,得到所述特征图的中间描述子包括:
对每种尺度的特征图进行重塑处理,得到多种重塑处理后的特征图;
将所述多种重塑处理后的特征图进行连接处理,得到所述特征图的中间描述子。
3.根据权利要求1所述的方法,其特征在于,当所述池化层为预设平均池化层时,所述预设平均池化层的窗口大小为k×k,步长为k的平均池化层,其中,k为所述待处理图像被降采样多次后得到的分辨率最小的特征图的边长。
4.根据权利要求1所述的方法,其特征在于,所述全连接层包括:第一预设全连接层;
基于所述中间描述子确定通道权重向量包括:
通过所述权重计算网络中的第一预设全连接层对所述中间描述子进行信息融合,得到第一通道描述子;所述第一通道描述子表示各个特征通道的特征信息;
通过所述权重计算网络中的非线性激活层对所述第一通道描述子进行非线性激活处理,得到所述通道权重向量。
5.一种图像处理装置,其特征在于,包括:
特征提取单元,用于获取待处理图像,并对所述待处理图像进行特征提取,得到特征图;
确定单元,用于通过权重计算网络确定用于表示所述特征图的全局图像特征和局部图像特征的中间描述子,并基于所述中间描述子确定通道权重向量;所述全局图像特征用于表示所述特征图的整体特征,所述局部图像特征用于表示所述特征图的局部特征,所述通道权重向量用于表示各个特征通道的重要程度;
通道加权处理单元,用于利用所述通道权重向量对所述特征图进行通道加权处理,得到通道加权的特征图,以根据所述通道加权的特征图进行图像分析;
其中,权重计算网络包括:池化层、全连接层和非线性激活层,其中,全连接层分别与池化层和非线性激活层相连接;
所述池化层为空间金字塔池化层,或,预设平均池化层;
当所述池化层为空间金字塔池化层时,确定单元还用于:利用权重计算网络中的空间金字塔池化层对特征图进行空间金字塔池化处理,得到多种尺度的特征图;多种尺度的特征图中包含全局图像特征和局部图像特征;将多种尺度的特征图进行拼接处理,得到特征图的中间描述子;
当所述池化层为预设平均池化层时,确定单元还用于:通过权重计算网络中的预设平均池化层对特征图进行池化处理,得到池化后的特征图;池化后的特征图中包含局部图像特征;对池化后的特征图进行重塑处理,得到特征图的中间描述子。
6.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至4中任一项所述的方法的步骤。
7.一种具有处理器可执行的非易失的程序代码的计算机可读介质,其特征在于,所述程序代码使所述处理器执行上述权利要求1至4中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910124385.5A CN109829506B (zh) | 2019-02-18 | 2019-02-18 | 图像处理方法、装置、电子设备和计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910124385.5A CN109829506B (zh) | 2019-02-18 | 2019-02-18 | 图像处理方法、装置、电子设备和计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109829506A CN109829506A (zh) | 2019-05-31 |
CN109829506B true CN109829506B (zh) | 2021-03-23 |
Family
ID=66863821
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910124385.5A Active CN109829506B (zh) | 2019-02-18 | 2019-02-18 | 图像处理方法、装置、电子设备和计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109829506B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110211205B (zh) | 2019-06-14 | 2022-12-13 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备和存储介质 |
CN110598717B (zh) * | 2019-09-12 | 2022-06-21 | 北京迈格威科技有限公司 | 图像特征的提取方法、装置及电子设备 |
CN112784090A (zh) * | 2019-11-04 | 2021-05-11 | 阿里巴巴集团控股有限公司 | 图像处理方法、对象搜索方法、计算机设备、存储介质 |
CN111027670B (zh) * | 2019-11-04 | 2022-07-22 | 重庆特斯联智慧科技股份有限公司 | 特征图处理方法、装置、电子设备及存储介质 |
CN113191480A (zh) * | 2020-01-14 | 2021-07-30 | 北京地平线机器人技术研发有限公司 | 一种用于神经网络的池化方法及装置 |
CN111242229A (zh) * | 2020-01-17 | 2020-06-05 | 南京航空航天大学 | 一种基于两阶段信息融合的图像识别方法 |
CN111274999B (zh) * | 2020-02-17 | 2024-04-19 | 北京迈格威科技有限公司 | 数据处理、图像处理方法、装置及电子设备 |
CN111369568B (zh) * | 2020-02-20 | 2022-12-23 | 苏州浪潮智能科技有限公司 | 一种图像分割的方法、系统、设备及可读存储介质 |
CN111598103A (zh) * | 2020-06-18 | 2020-08-28 | 上海眼控科技股份有限公司 | 车架号码识别方法、装置、计算机设备和存储介质 |
CN111667058A (zh) * | 2020-06-23 | 2020-09-15 | 新疆爱华盈通信息技术有限公司 | 卷积神经网络的多尺度特征通道的动态选择方法 |
CN111860374A (zh) * | 2020-07-24 | 2020-10-30 | 苏州浪潮智能科技有限公司 | 一种行人重识别方法、装置、设备及存储介质 |
CN113065426B (zh) * | 2021-03-19 | 2023-10-17 | 浙江理工大学 | 基于通道感知的手势图像特征融合方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108710826A (zh) * | 2018-04-13 | 2018-10-26 | 燕山大学 | 一种交通标志深度学习模式识别方法 |
CN109034044A (zh) * | 2018-06-14 | 2018-12-18 | 天津师范大学 | 一种基于融合卷积神经网络的行人再识别方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9940539B2 (en) * | 2015-05-08 | 2018-04-10 | Samsung Electronics Co., Ltd. | Object recognition apparatus and method |
CN105868774A (zh) * | 2016-03-24 | 2016-08-17 | 西安电子科技大学 | 基于选择性搜索和卷积神经网络的车标识别方法 |
US20190205758A1 (en) * | 2016-12-30 | 2019-07-04 | Konica Minolta Laboratory U.S.A., Inc. | Gland segmentation with deeply-supervised multi-level deconvolution networks |
CN106611169B (zh) * | 2016-12-31 | 2018-10-23 | 中国科学技术大学 | 一种基于深度学习的危险驾驶行为实时检测方法 |
US10635927B2 (en) * | 2017-03-06 | 2020-04-28 | Honda Motor Co., Ltd. | Systems for performing semantic segmentation and methods thereof |
CN109063778A (zh) * | 2018-08-09 | 2018-12-21 | 中共中央办公厅电子科技学院 | 一种图像美学质量确定方法及系统 |
-
2019
- 2019-02-18 CN CN201910124385.5A patent/CN109829506B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108710826A (zh) * | 2018-04-13 | 2018-10-26 | 燕山大学 | 一种交通标志深度学习模式识别方法 |
CN109034044A (zh) * | 2018-06-14 | 2018-12-18 | 天津师范大学 | 一种基于融合卷积神经网络的行人再识别方法 |
Non-Patent Citations (4)
Title |
---|
Diabetic Retinopathy Detection Based on Deep Convolutional Neural Networks for Localization of Discriminative Regions;Junjun Pan 等;《2018 International Conference on Virtual Reality and Visualization(ICVRV)》;20181024;第46-52页 * |
Squeeze-and-Excitation Networks;Jie Hu等;《2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition》;20180623;第7132-7141页第3.1节、图3 * |
车辆型号的精细识别方法研究;金强;《中国优秀硕士学位论文全文数据库信息科技辑》;20190215;第I138-2029页正文第33页第3段-第40页第1段、图4.4-4.6 * |
金强.车辆型号的精细识别方法研究.《中国优秀硕士学位论文全文数据库信息科技辑》.2019,第I138-2029页. * |
Also Published As
Publication number | Publication date |
---|---|
CN109829506A (zh) | 2019-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109829506B (zh) | 图像处理方法、装置、电子设备和计算机存储介质 | |
CN109255352B (zh) | 目标检测方法、装置及系统 | |
US11126862B2 (en) | Dense crowd counting method and apparatus | |
CN110569721A (zh) | 识别模型训练方法、图像识别方法、装置、设备及介质 | |
CN114549913B (zh) | 一种语义分割方法、装置、计算机设备和存储介质 | |
CN109816659B (zh) | 图像分割方法、装置及系统 | |
CN111105017B (zh) | 神经网络量化方法、装置及电子设备 | |
CN111274999B (zh) | 数据处理、图像处理方法、装置及电子设备 | |
CN112580668B (zh) | 一种背景欺诈检测方法、装置及电子设备 | |
CN111652054A (zh) | 关节点检测方法、姿态识别方法及装置 | |
CN111062324A (zh) | 人脸检测方法、装置、计算机设备和存储介质 | |
CN113781164B (zh) | 虚拟试衣模型训练方法、虚拟试衣方法和相关装置 | |
CN112419342A (zh) | 图像处理方法、装置、电子设备和计算机可读介质 | |
CN111382791B (zh) | 深度学习任务处理方法、图像识别任务处理方法和装置 | |
CN111709415A (zh) | 目标检测方法、装置、计算机设备和存储介质 | |
CN112749576B (zh) | 图像识别方法和装置、计算设备以及计算机存储介质 | |
CN109871814B (zh) | 年龄的估计方法、装置、电子设备和计算机存储介质 | |
CN111476741A (zh) | 图像的去噪方法、装置、电子设备和计算机可读介质 | |
CN116975828A (zh) | 一种人脸融合攻击检测方法、装置、设备及存储介质 | |
CN116258873A (zh) | 一种位置信息确定方法、对象识别模型的训练方法及装置 | |
CN116258906A (zh) | 一种对象识别方法、特征提取模型的训练方法及装置 | |
CN114399497A (zh) | 文本图像质量检测方法、装置、计算机设备及存储介质 | |
CN113822871A (zh) | 基于动态检测头的目标检测方法、装置、存储介质及设备 | |
CN112418244A (zh) | 目标检测方法、装置和电子系统 | |
CN111967579A (zh) | 使用卷积神经网络对图像进行卷积计算的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |