CN112052861A

CN112052861A - 深度卷积神经网络有效感受野的计算方法及存储介质

Info

Publication number: CN112052861A
Application number: CN201910488271.9A
Authority: CN
Inventors: 王祥雪; 毛亮; 朱婷婷; 林焕凯; 魏颖慧; 黄仝宇; 汪刚; 宋一兵; 侯玉清; 刘双广
Original assignee: Gosuncn Technology Group Co Ltd
Current assignee: Gosuncn Technology Group Co Ltd
Priority date: 2019-06-05
Filing date: 2019-06-05
Publication date: 2020-12-08

Abstract

本发明提供一种深度卷积神经网络有效感受野的计算方法及计算机存储介质，所述方法包括以下步骤：S1、获取目标图像，并计算目标图像的理论感受野，得到理论感受野的集合；S2、以所述理论感受野的尺寸在目标图像中生成子图像集；S3、以所述子图像集为运算区域，计算深度卷积神经网络每一层的输出响应，得到所述子图像集的响应值；S4、确定深度卷积神经网络每一层的所述响应值最大值的坐标，并根据该坐标计算有效感受野。根据本发明实施例的计算方法，能够有效提高SSD的目标检测精度和有效感受野的准确率，进一步增强深度卷积神经网络在视频图像检测和处理领域的应用效果。

Description

深度卷积神经网络有效感受野的计算方法及存储介质

技术领域

本发明涉及深度卷积神经网络技术领域，更具体地，涉及一种深度卷积神经网络有效感受野的计算方法及计算机存储介质。

背景技术

感受野是指卷积神经网络每一层输出的特征图(feature map)上的像素点在原始图像上映射的区域大小。研究感受野的相关理论和方法，量化深度卷积神经网络(DeepConvolutional Neural Network，DCNN)中每层的感受野大小，可以为目标检测等图像处理任务提供可靠的优化方向，对于提升目标检测的精度具有重要的意义。基于SSD(SingleShot Multibox Detector)目标检测框架的深度卷积神经网络算法在视频图像处理领域的应用越来越广泛，因此，关于SSD感受野的研究逐渐受到关注。现有的关于感受野的研究成果主要包含以下几点：

1.感受野的分类

感受野分为理论感受野(Theoretical Receptive Field，TRF)和有效感受野(Effective Receptive Field，ERF)，TRF可以根据DCNN的结构参数直接计算，而ERF的大小不是确定的数值，而是方差和均值与其层数相关的高斯分布。研究表明ERF和TRF都会随着网络层数增加而扩大，但是每层的ERF与TRF之间始终存在一个衰减系数。

2.TRF的量化

TRF与DCNN的结构参数直接相关，在已知网络结构的情况下可以从网络顶端逐层向后推导计算，更改网络结构参数也会直接影响TRF的大小。

目前，相关技术已经可以实现深度卷积神经网络中每层TRF的计算，但是以TRF作为参考对以SSD为基础框架的目标检测模型进行优化存在以下问题：

1.基于anchor的目标检测网络会预设一组大小不同的anchor，依据感受野的大小将anchor放置在不同的层，例如SSD目标检测框架。放置anchor层的感受野应该跟anchor大小相匹配，若感受野比anchor小很多，会造成难以判断类别的问题；若感受野比anchor大很多，会造成难以检测的问题。

2.TRF是感受野的理论计算值，与实际情况存在较大差别。DCNN在计算过程中，每一层的有效感受野都相比于TRF存在衰减，也就是说ERF是小于TRF的，而且这种衰减程度会随着网络的加深不断加大。因此参考TRF对网络参数进行优化势必会带来较大的误差，无法保证模型的检测精度得到有效提高。

3.在DCNN中，ERF是每一层的特征图在输入图像上的真实映射区域，其大小服从一个期望和方差确定的高斯分布。在网络逐层的迭代过程中，ERF和TRF一样，都是单调增加的，区别是两者始终存在一个衰减系数，由此可见两者之间存在必然的联系，但这种联系仍然是未知的。

发明内容

有鉴于此，本发明提供一种深度卷积神经网络有效感受野的计算方法及计算机存储介质。

为解决上述技术问题，一方面，本发明提供一种深度卷积神经网络有效感受野的计算方法，所述方法包括以下步骤：S1、获取目标图像，并计算目标图像的理论感受野，得到理论感受野的集合；S2、以所述理论感受野的尺寸在目标图像中生成子图像集；S3、以所述子图像集为运算区域，计算深度卷积神经网络每一层的输出响应，得到所述子图像集的响应值；S4、确定深度卷积神经网络每一层的所述响应值最大值的坐标，并根据该坐标计算有效感受野。

根据本发明实施例的深度卷积神经网络有效感受野的计算方法，以TRF大小为依据在目标图像中生成子图像集，以这些子图像集为感兴趣的区域，得到DCNN的每一层的输出响应，在计算ERF时，引入了ERF和TRF的比例关系，对TRF和ERF的相关性进行了充分挖掘，在分析DCNN输出特性的基础上，对ERF进行量化，更符合实际情况中DCNN的感受野随着网络加深而展现出的变化规律，该方法能够有效提高SSD的目标检测精度和有效感受野的准确率，进一步增强深度卷积神经网络在视频图像检测和处理领域的应用效果。

根据本发明的一些实施例，在步骤S1之前，获取输入数据集U_i，U_i∈R_H×W×3,i＝1,LN。

根据本发明的一些实施例，在步骤S1中，根据公式(1)逐层计算深度卷积神经网络的尺寸，得到理论感受野的集合

公式(1)如下：

其中，第i层的TRF大小为H_i×W_i，S_i为输入图像尺寸与第i层特征图尺寸的比例，D_i为卷积核的膨胀系数，K_i为卷积核的大小。

根据本发明的一些实施例，在步骤S2中，按照深度卷积神经网络中每一层的T_i的尺寸生成掩膜

以步长stride对每一张输入图片U_i进行掩膜操作，生成一个子图像集P_j∈R_H×W×3,j＝1,L M。

根据本发明的一些实施例，步骤S3包括：

S31、将所述子图像集输入深度卷积神经网络模型，得到输出响应；

S32、累加深度卷积神经网络中每一层所有通道的响应值；

S33、累加并计算所述子图像集的响应值。

根据本发明的一些实施例，在步骤S31中，将U_i及其对应的子图像集P_j输入已训练好的深度卷积神经网络模型，对于第m层的第n个通道，得到激活响应

根据本发明的一些实施例，在步骤S32中，按照公式(2)求和得到输入子图像集P_j和U_i在该层的激活响应的差值，式中C为该层的通道数，公式(2)如下：

根据本发明的一些实施例，在步骤S33中，根据公式(3)计算U在第n层的总激活响应值，公式(3)如下：

根据本发明的一些实施例，根据公式(4)找到

中激活响应最大的点x_l,max的坐标，当x_l,max的坐标位于理论感受野的中心处，根据公式(5)计算确定有效感受野的尺寸，σ为衰减系数，公式(4)和公式(5)分别如下：

x_l,max＝argmaxD_U,l (4)

第二方面，本发明实施例提供一种计算机存储介质，包括一条或多条计算机指令，所述一条或多条计算机指令在执行时实现如上述实施例任何一项所述的方法。

附图说明

图1为本发明实施例的深度卷积神经网络有效感受野的计算方法的总流程图；

图2为本发明实施例的深度卷积神经网络有效感受野的计算方法的一部分流程图；

图3为本发明实施例的深度卷积神经网络有效感受野的计算方法的另一部分流程图；

图4为本发明实施例的深度卷积神经网络有效感受野的计算方法的又一部分流程图；

图5为本发明实施例的深度卷积神经网络有效感受野的计算方法中有效感受野的有效面积示意图；

图6为本发明实施例的电子设备的示意图。

附图标记：

深度卷积神经网络有效感受野的计算方法100；

电子设备300；

存储器310；操作系统311；应用程序312；

处理器320；网络接口330；输入设备340；硬盘350；显示设备360。

具体实施方式

下面将结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

近年来，随着计算机算力的增强，基于深度卷积神经网络的视频图像目标检测技术已经趋于成熟，并在视频监控等安防领域获得大范围的推广应用，但在实际的应用中，为了优化目标检测等图像处理任务，需要量化深度卷积神经网络(Deep ConvolutionalNeural Network，DCNN)中每层的感受野大小。本实施例提出有效感受野的计算方法，以提高SSD的目标检测精度，进一步增强深度卷积神经网络在视频图像检测和处理领域的应用效果。下面首先结合附图具体描述根据本发明实施例的深度卷积神经网络有效感受野的计算方法100。

如图1至图4所示，根据本发明实施例的深度卷积神经网络有效感受野的计算方法包括以下步骤：

S1、获取目标图像，计算目标图像的理论感受野，得到理论感受野的集合。

S2、以所述理论感受野的尺寸在目标图像中生成子图像集。

S3、以所述子图像集为运算区域，计算深度卷积神经网络每一层的输出响应，得到所述子图像集的响应值。

S4、确定深度卷积神经网络每一层的所述响应值最大值的坐标，并根据该坐标计算有效感受野。

换言之，根据本发明实施例的深度卷积神经网络有效感受野的计算方法可以分为三个子流程和一个主流程，其中，步骤S1、步骤S2和步骤S3的方法可以分别作为一个子流程，而步骤S4结合步骤S1、步骤S2和步骤S3可以作为一个主流程，步骤S1作为一个子流程，首先获取一个目标图像，进行目标图像的理论感受野计算，即计算TRF，得到TRF集合，步骤S2以TRF大小为依据，在该目标图像中生成子图像集，步骤S3以步骤S2的子图像集作为感兴趣的区域，得到DCNN的每一层的输出响应，最后在计算ERF时，结合ERF和TRF的比例关系，确定DCNN每一层的所述响应值最大值的坐标，并根据该坐标计算ERF。

由此，根据本发明实施例的深度卷积神经网络有效感受野的计算方法，以TRF大小为依据在目标图像中生成子图像集，以这些子图像集为感兴趣的区域，得到DCNN的每一层的输出响应，在计算ERF时，引入了ERF和TRF的比例关系，对TRF和ERF的相关性进行了充分挖掘，在分析DCNN输出特性的基础上，对ERF进行量化，更符合实际情况中DCNN的感受野随着网络加深而展现出的变化规律，该方法能够有效提高SSD的目标检测精度和有效感受野的准确率，进一步增强深度卷积神经网络在视频图像检测和处理领域的应用效果。

根据本发明的一个实施例，在步骤S1之前，获取输入数据集U_i，U_i∈R_H×W×3,i＝1,LN。也就是说，在对ERF进行计算之前，首先定义输入数据集为U_i∈R_H×W×3,i＝1,L N，并且假设数据已进行去噪处理，之后再进行ERF的计算流程。

可选地，在本发明的一些具体实施方式中，在步骤S1中，根据公式(1)逐层计算深度卷积神经网络的尺寸，得到理论感受野的集合

公式(1)如下：

具体地，如图2所示，图2示出了步骤S1的流程，在该流程中，根据公式(1)逐层计算DCNN的TRF尺寸，最终得到TRF的集合T。

如图3所示，根据本发明的一些实施例，在步骤S2中，按照深度卷积神经网络中每一层的T_i的尺寸生成掩膜

进一步地，步骤S3包括：

S31、将所述子图像集输入深度卷积神经网络模型，得到输出响应。

S32、累加深度卷积神经网络中每一层所有通道的响应值。

S33、累加并计算所述子图像集的响应值。

具体地，如图4所示，步骤S3作为子流程，用于计算每一层的激活响应，步骤S3主要可以由三个步骤组成，其中，在步骤S31中，将U_i及其对应的子图像集P_j输入已训练好的深度卷积神经网络模型，对于第m层的第n个通道，得到激活响应

接着，在步骤S32中，按照公式(2)求和得到输入子图像集P_j和U_i在该层的激活响应的差值，式中C为该层的通道数，公式(2)如下：

然后，在步骤S33中，根据公式(3)计算U在第n层的总激活响应值，公式(3)如下：

由此，通过该步骤S3可以计算由TRF生成的子图像集在DCNN每一层的输出响应和。

在本发明的一些具体实施方式中，在步骤S4中，基于前述三个子流程的结果，根据公式(4)找到D_Ui,l中激活响应最大的点x_l,max的坐标，左上角为坐标原点(如图5中图5(a)所示)，当x_l,max的坐标位于理论感受野的中心处，即在

的ε邻域内，可以根据公式(5)计算确定有效感受野的尺寸，其中，σ为衰减系数，公式(4)和公式(5)分别如下：

x_l,max＝argmaxD_U,l (4)

在本发明的另一些具体实施方式中，ERF的范围还存在另外四种情况，具体如图5中5(b)、5(c)、5(d)和5(e)中虚线所示，具体不再详细描述。

总而言之，根据本发明实施例的深度卷积神经网络有效感受野的计算方法，以优化SSD目标检测框架为目的，提出了一种有效感受野的计算方法，能够提高SSD的目标检测精度，进一步增强深度卷积神经网络在视频图像检测和处理领域的应用效果。

根据本发明实施例的深度卷积神经网络有效感受野的计算方法对TRF和ERF的相关性进行了充分挖掘，在分析DCNN输出特性的基础上，对ERF进行量化，更符合实际情况中DCNN的感受野随着网络加深而展现出的变化规律。

并且本申请提出的ERF量化方法可以针对某一类广泛运用的网络进行ERF的离线计算并保存，基于这类网络进行相关的图像处理任务时可以直接利用ERF的值进行模型优化。例如，在优化基于SSD框架的目标检测模型时，利用已经计算好的ERF可以设计更适合数据集特点的预选框，加强模型对不同尺度目标的可检测性。

此外，本发明还提供一种计算机存储介质，所述计算机存储介质包括一条或多条计算机指令，所述一条或多条计算机指令在执行时实现上述任一所述的深度卷积神经网络有效感受野的计算方法100。

也就是说，所述计算机存储介质存储有计算机程序，所述计算机程序被处理器运行时，使得所述处理器执行上述任一所述的深度卷积神经网络有效感受野的计算方法100。

如图6所示，本发明实施例提供了一种电子设备300，包括存储器310和处理器320，所述存储器310用于存储一条或多条计算机指令，所述处理器320用于调用并执行所述一条或多条计算机指令，从而实现上述任一所述的方法。

也就是说，电子设备300包括：处理器320和存储器310，在所述存储器310中存储有计算机程序指令，其中，在所述计算机程序指令被所述处理器运行时，使得所述处理器320执行上述任一所述的方法100。

进一步地，如图6所示，电子设备300还包括网络接口330、输入设备340、硬盘350、和显示设备360。

上述各个接口和设备之间可以通过总线架构互连。总线架构可以是可以包括任意数量的互联的总线和桥。具体由处理器320代表的一个或者多个中央处理器(CPU)，以及由存储器310代表的一个或者多个存储器的各种电路连接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其它电路连接在一起。可以理解，总线架构用于实现这些组件之间的连接通信。总线架构除包括数据总线之外，还包括电源总线、控制总线和状态信号总线，这些都是本领域所公知的，因此本文不再对其进行详细描述。

所述网络接口330，可以连接至网络(如因特网、局域网等)，从网络中获取相关数据，并可以保存在硬盘350中。

所述输入设备340，可以接收操作人员输入的各种指令，并发送给处理器320以供执行。所述输入设备340可以包括键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等。

所述显示设备360，可以将处理器320执行指令获得的结果进行显示。

所述存储器310，用于存储操作系统运行所必须的程序和数据，以及处理器320计算过程中的中间结果等数据。

可以理解，本发明实施例中的存储器310可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM)，其用作外部高速缓存。本文描述的装置和方法的存储器310旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器310存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集：操作系统311和应用程序312。

其中，操作系统311，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序312，包含各种应用程序，例如浏览器(Browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序312中。

本发明上述实施例揭示的方法可以应用于处理器320中，或者由处理器320实现。处理器320可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器320中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器320可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器310，处理器320读取存储器310中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ASIC)、数字信号处理器DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

具体地，处理器320还用于读取所述计算机程序，执行上述任一所述的方法。

在本申请所提供的几个实施例中，应该理解到，所揭露方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述收发方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。