CN110533161A

CN110533161A - 一种基于分层组卷积神经网络的特征图处理方法

Info

Publication number: CN110533161A
Application number: CN201910673494.2A
Authority: CN
Inventors: 贾琳; 赵磊
Original assignee: Terminus Beijing Technology Co Ltd
Current assignee: Terminus Beijing Technology Co Ltd
Priority date: 2019-07-24
Filing date: 2019-07-24
Publication date: 2019-12-03
Anticipated expiration: 2039-07-24
Also published as: CN110533161B

Abstract

一种基于分层组卷积神经网络的特征图处理方法，包括：沿着通道维对输入特征图进行分组，得到若干组第一代子特征图；对第一组第一代子特征图进行第一1×1卷积处理，得到第一组第二代子特征图；对所述第一组第二代子特征图执行通道选择操作得到第一组第三代子特征图；依次从第二组起到最后一组对每组第一代子特征图进行拼接卷积处理；将每组的第二代子特征图沿着通道维拼接在一起，得到输出特征图。本发明的方法将输入特征图分组进行处理，使用通道选择处理后得到的通道选择掩模来表征通道是否被选择作为后续分组所需要拼接的特征图，减少了融合到后续分组的前一分组特征图通道依赖所产生的冗余信息，使卷积计算更加高效。

Description

一种基于分层组卷积神经网络的特征图处理方法

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种基于分层组卷积神经网络的特征图处理方法。

背景技术

近年来，卷积神经网络(CNN)在许多领域取得了重大进展，得益于优秀的性能表现，主要是因为CNN通过大量训练数据可以学习到输入和输出之间复杂的非线性映射关系。在CNN堆叠的卷积模块中，前一层产生的所有通道被下一层相同对待，这种均匀分布可能不是最优的，因为对某层来说，有些特征的重要性可能大于其它特征，对于CNN的高层更是如此，高层中仅有少量通道被激活，其它通道中神经元的激活值接近于零。

目前许多轻量级网络使用了分组卷积操作，不仅减少了计算量，而且更好地表达了特定区域的语义特征信息，其中起到主要作用的是1×1卷积操作，其主要目标是对前一层不同通道的特征信息进行重组融合，如果对通道分组后再1×1卷积，那么分组后可融合的通道信息就会减少，减少了输出通道的多样性。虽然可以像ShuffleNet那样通过强制重排通道或改变通道顺序，然后对每个分组再使用3×3卷积操作来减弱前面1×1卷积处理分组操作所带来的影响，但是还会存在一定的组内信息损失，也阻挡了有效特征的重复使用。

为了获得更好性能，一方面CNN网络通常被构建的更深更宽，然而参数量和计算量也相应增加；另一方面设计复杂算法导致相应的计算资源和成本变得高昂。例如分层组卷积神经网络(Hierarchical Group Convolution，HGC)是现有技术中的一种CNN网络。

如图1所示，现有技术中，针对分层组卷积神经网络(HierarchicalGroupConvolution，HGC)使用1×1卷积对每组特征图处理后直接拼接到下一分组作为输入特征图，这种操作存在冗余信息，忽略了高层通道中只有少数被激活的分布规律，在一定程度上降低了HGC结构中卷积模块的计算效率。

发明内容

针对上述现有技术存在的问题，本发明实施例提供了一种解决至少部分上述技术问题的分层组卷积神经网络的特征图处理方法。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。

根据本发明实施例的一个方面，提供一种基于通道选择的高效卷积模块设计方法，包括：

一种基于分层组卷积神经网络的特征图处理方法，包括：

沿着通道维对输入特征图进行分组，得到若干组第一代子特征图；

对第一组第一代子特征图进行第一1×1卷积处理，得到第一组第二代子特征图；

对所述第一组第二代子特征图执行通道选择操作得到第一组第三代子特征图；

依次从第二组起到最后一组对每组第一代子特征图进行拼接卷积处理；所述拼接卷积处理为第一代子特征图接受其前一组第三代子特征图的拼接后再进行第一1×1卷积处理得到第二代子特征图；所述第三代子特征图为对本组第二代子特征图执行通道选择操作得到的；

将每组的第二代子特征图沿着通道维拼接在一起，得到输出特征图。

进一步地，所述通道选择操作的步骤包括：

对第二代子特征图分别进行平均池化卷积及激活处理、最大池化卷积及激活处理，得到两个并行输出向量，将所述两个并行输出向量相加得到通道激活值；

对所述通道激活值进行归一化处理得到激活置信度，对所述激活置信度进行阈值化，得到若干二元掩模向量，将所述若干二元掩模向量组成通道选择掩模；

把所述通道选择掩模与本组第二代子特征图相乘得到该组第三代子特征图。

进一步地，所述归一化处理为通过Softmax函数实现的。

进一步地，所述平均池化卷积及激活处理包括依次进行的全局平均池化处理、第二1×1卷积处理和ReLU激活函数激活处理。

进一步地，所述平均池化卷积及激活处理得到输出向量e_i的计算公式为：

e_i＝ReLU(a_i*U_i)

其中，*表示第二1×1卷积操作，U_i表示第二1×1卷积操作的权重矩阵；ReLU(·)代表ReLU激活函数；

a_i表示对第i组第二代子特征图进行全局平均池化操作后得到的结果。

进一步地，所述最大池化卷积及激活处理包括依次进行的全局最大池化处理、1×1卷积处理和ReLU激活函数激活处理。

进一步地，所述最大池化卷积及激活处理得到输出向量f_i的计算公式为：

f_i＝ReLU(b_i*V_i)

其中，*表示第三1×1卷积操作，V_i表示第三1×1卷积操作的权重矩阵，ReLU(·)代表ReLU激活函数；b_i表示对第i组第二代子特征图进行全局最大池化操作后得到的结果。

进一步地，所述二元掩模向量的二元掩模值在对应的激活置信度大于等于预设阈值时为1，在对应的激活置信度小于预设阈值时为0。

一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现所述的方法。

一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，以实现所述的方法。

本发明实施例提供的技术方案可以包括以下有益效果：

本发明的方法将输入特征图分组进行处理，使用通道选择处理后得到的通道选择掩模来表征通道是否被选择作为后续分组所需要拼接的特征图，减少了融合到后续分组的前一分组特征图通道依赖所产生的冗余信息，使卷积计算更加高效，并且处理的特征语义信息更加有效。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者，部分特征和优点可以从说明书中推知或毫无疑义地确定，或者通过实施本发明实施例了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术中HGC处理过程的流程图；

图2为本公开一实施例的详细步骤流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图和具体实施例对本发明做进一步说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

如图2所示，本申请的一个实施例提供了一种基于分层组卷积神经网络的特征图处理方法，包括：

步骤S1:沿着通道维对输入特征图进行分组，得到若干组第一代子特征图；

具体地：沿着通道维将前一层的输入特征图X分为G组第一代子特征图，按顺序依次称为第一组、第二组、……第G组；X＝{X₁,X₂,…,X_i,…,X_G}，其中的元素i＝1,2,3,…G；X_i代表第i组第一代子特征图；其中，代表X所对应的实数域，代表X_i所对应的实数域，C、H和W分别表示所述输入特征图X所对应的总通道数、长和宽；C/G代表每组第一代子特征图所对应的通道数。

步骤S2:对第一组第一代子特征图X₁进行第一1×1卷积处理，得到第一组第二代子特征图Y₁；

步骤S3:对Y₁执行通道选择操作，得到第一组第三代子特征图Z₁；

步骤S3:依次从第二组第一代子特征图X₂起到最后一组第一代子特征图X_G中的每组第一代子特征图X_i进行拼接卷积处理；所述拼接卷积处理为第一代子特征图X_i接受其前一组第三代子特征图Z_i-1的拼接，然后进行第一1×1卷积处理，得到第二代子特征图Y_i；所述第三代子特征图Z_i-1为对本组第二代子特征图Y_i-1执行通道选择操作得到的；

步骤S4:将每组的第二代子特征图Y_i沿着通道维拼接在一起，得到输出特征图Y，Y＝{Y₁,Y₂,…,Y_G}。

其中，对每组第一代子特征图X_i进行第一1×1卷积操作后得到的每组的子特征图称为第二代子特征图，记为Y_i,i＝1,2,…,G，其中以W_i表示第i组第一代子特征图X_i进行第一1×1卷积操作时的1×1卷积权重矩阵。

第i组第二代子特征图的计算公式如下：

其中*表示1×1卷积操作，concat(·)表示沿着通道维拼接特征图操作；X₁表示分组子特征图；W_i表示第i组第一代子特征图进行第一次1×1卷积操作时的1×1卷积权重矩阵；Y_i表示第i组的第二代子特征图；Z_i-1表示第i-1组的第三代子特征图，所述第三代子特征图即为执行通道选择操作后得到的子特征图。

当i-1时，当i＝2,3,…,G时，其中K代表第i组第二代子特征图Y_i的通道数，N_i表示为第i组第三代子特征图Z_i的通道数。

所述通道选择操作的步骤包括：

对第二代子特征图Y_i分别进行平均池化卷积及激活处理、最大池化卷积及激活处理，得到两个并行输出向量e_i和f_i，将所述两个并行输出向量e_i和f_i相加得到通道激活值t_i；所述平均池化卷积及激活处理包括依次进行的全局平均池化处理、第二1×1卷积处理和激活处理；所述最大池化卷积及激活处理处理包括依次进行的全局最大池化处理、第三1×1卷积处理和激活处理；

通过Softmax函数(Softmax(·))对所述通道激活值t_i进行归一化处理得到激活置信度p_i，并对所述激活置信度p_i进行阈值化，得到若干二元掩模向量，将所述若干二元掩模向量组成通道选择掩模mask_i；

把所述通道选择掩模mask_i与本组第二代子特征图Y_i相乘得到该组第三代子特征图Z_i。

将所述第三代子特征图Z_i拼接到后一组第一代子特征图X_i+1中，得到所述后一组的分组输入特征图{Z_i,X_i+1}，1≤i≤G-1。第一代子特征图X_i+1接受其前一组第三代子特征图Z_i的拼接，得到{Z_i,X_i+1}，1≤i≤G-1。

经过全局平均池化处理和全局最大池化处理后得到的结果分别表示为：

或

其中，mean(·)表示取平均响应操作，max(·)表示取最大响应操作；Y_i，j表示第i组第二代子特征图Y_i的第j个子通道，j＝1,2,…,C/G。P_gap(Y_i)代表对Y_i进行全局平均池化处理；P_gmp(Y_i)代表对Y_i进行全局最大池化处理。a_i表示对第i组第二代子特征图进行全局平均池化操作后得到的结果。b_i表示对第i组第二代子特征图进行全局最大池化操作后得到的结果。

所述两个并行输出向量的计算公式分别为：

e_i＝ReLU(a_i*U_i)

f_i＝ReLU(b_i*V_i)

其中，*表示1×1卷积操作，U_i和V_i分别表示第二1×1卷积处理和第三1×1卷积处理的权重矩阵，ReLU(·)代表ReLU激活函数。

所述通道激活值的计算公式为：

t_i＝e_i+f_i，

所述激活置信度的计算公式为：

p_i＝Softmax(t_i)，

其中，此处的Softmax函数(Softmax(·))，表示对该组中所有通道的通道激活值组成的向量作归一化操作，表示前一组的每个通道被后一组选择激活的概率。

所述通过Softmax函数(Softmax(·))对所述通道激活值t_i进行归一化处理得到激活置信度p_i，然后对所述激活置信度p_i进行阈值化，得到若干(C/G个)二元掩模向量，将所述若干二元掩模向量组成通道选择掩模，每组子特征图的所述通道选择掩模mask_i包括C/G个二元掩模向量，所述二元掩模向量的二元掩模值在对应的激活置信度大于等于预设阈值时为1，在对应的激活置信度小于预设阈值时为0。所述二元掩模向量的二元掩模值的表达式为：

其中表示每一组子特征图的通道序号，threshold表示第i组的预设阈值；

通道选择掩模向量记为：

第三代子特征图的计算公式为：

Z_i＝mask_i·Y_i。

第一组第二代子特征图Y₁执行通道选择操作后得到第三代子特征图Z₁，然后Z₁与X₂拼接得到第二组的分组输入特征图{Z₁,X₂}，将前一组的执行通道选择操作后得到的第三代子特征图Z_i-1与后一组的X_i沿着通道维拼接得到第i组的分组输入特征图{Z_i-1,X_i}。对分组输入特征图执行第一1×1卷积处理后得到第二代子特征图。

本发明用全局池化操作获取代表每个通道的全局信息的激活值，并使用1×1卷积和SoftMax归一化处理将通道间的依赖关系转化为每个通道的激活置信度，表征刻画了每个分组内各个特征通道之间相关性和重要性的量度；

本发明重新设计混合分组卷积(HGC)模块的结构，使用通道选择处理后得到的通道选择掩模(通道选择掩模由若干二元掩模向量组成)来表征通道是否被选择作为后续分组所需要拼接的特征图，一定程度上减少了融合到后续分组的前一分组特征图通道依赖所产生的冗余信息，设计出了高效的HGC结构；

本发明在HGC结构中加入了通道选择掩模操作，对每组特征图沿通道维产生二元掩模向量，用于表示相应的通道是否被选择作为下一分组的拼接通道，这使得HGC结构的卷积计算更加高效，并且处理的特征语义信息更加有效。

需要说明的是：

术语“模块”并非意图受限于特定物理形式。取决于具体应用，模块可以实现为硬件、固件、软件和/或其组合。此外，不同的模块可以共享公共组件或甚至由相同组件实现。不同模块之间可以存在或不存在清楚的界限。

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，在本申请的描述中，如果存在“第一”、“第二”、“第三”、“第四”等术语，则该类术语仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的虚拟机的创建装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述实施例仅表达了本发明的实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于分层组卷积神经网络的特征图处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述通道选择操作的步骤包括：

3.根据权利要求2所述的方法，其特征在于，所述归一化处理为通过Softmax函数实现的。

4.根据权利要求2所述的方法，其特征在于，所述平均池化卷积及激活处理包括依次进行的全局平均池化处理、第二1×1卷积处理和ReLU激活函数激活处理。

5.根据权利要求2所述的方法，其特征在于，所述平均池化卷积及激活处理得到输出向量e_i的计算公式为：

e_i＝ReLU(a_i*U_i)

6.根据权利要求2所述的方法，其特征在于，所述最大池化卷积及激活处理包括依次进行的全局最大池化处理、1×1卷积处理和ReLU激活函数激活处理。

7.根据权利要求2所述的方法，其特征在于，所述最大池化卷积及激活处理得到输出向量f_i的计算公式为：

f_i＝ReLU(b_i*V_i)

8.根据权利要求2所述的方法，其特征在于，所述二元掩模向量的二元掩模值在对应的激活置信度大于等于预设阈值时为1，在对应的激活置信度小于预设阈值时为0。

9.一种电子设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如权利要求1-8中任一所述的方法。

10.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行，以实现如权利要求1-8中任一所述的方法。