CN110781845A

CN110781845A - 基于图像统计目标对象的方法、装置和电子系统

Info

Publication number: CN110781845A
Application number: CN201911043212.7A
Authority: CN
Inventors: 吴伟群
Original assignee: Beijing Maigewei Technology Co Ltd
Current assignee: Beijing Maigewei Technology Co Ltd
Priority date: 2019-10-29
Filing date: 2019-10-29
Publication date: 2020-02-11
Anticipated expiration: 2039-10-29
Also published as: CN110781845B

Abstract

本发明提供了一种基于图像统计目标对象的方法、装置和电子系统；该方法包括：将目标图像输入卷积神经网络，得到第N‑1个卷积块对应的初始特征；通过第M个门控级联模块对初始特征进行回归处理，得到回归密度图；对回归密度图进行特征提取，得到差异性特征，并融合差异性特征和初始特征，得到优化特征；将优化特征输入至第N个卷积块，以使卷积神经网络输出目标对象的统计结果。该方法中，除了提取初始特征外，还对初始特征回归的回归密度图提取了差异特征，并将两次提取的特征进行融合，两次提取特征保持了目标图像的尺度适应性，将融合后的优化特征输入第N个卷积块，可以缓解退化问题，提升了目标对象的统计精度。

Description

基于图像统计目标对象的方法、装置和电子系统

技术领域

本发明涉及图像处理技术领域，尤其是涉及一种基于图像统计目标对象的方法、装置和电子系统。

背景技术

人群计数是近年来计算机视觉中的一项热门研究课题，尤其是随着视频监控和智慧安防场景下相关需求的日益增长，人群计数获得广泛的关注。相关技术中，可以采用基于密度图回归的深度卷积神经网络的方法来回归得到描述人群分布与密度的密度图并通过对密度图进行积分得到人群数目。

然而，这种人群计数方法的模型对于连续变化的目标尺度的不适应性导致了统计精度的下降。上述方法通过回归得到的密度图来获得人群数目，但是由于上述深度卷积神经网络中不同层级的特征对不同场景具有不同的适应性，在深度卷积神经网络的特征提取过程中，有些场景的尺度适应性会由于过拟合而发生退化导致统计精度下降。

发明内容

有鉴于此，本发明的目的在于提供一种基于图像统计目标对象的方法、装置和电子系统，以提升目标对象的统计精度。

第一方面，本发明实施例提供了一种基于图像统计目标对象的方法，上述方法中的卷积神经网络包括多个卷积块，以及至少一个门控级联模块，第M个门控级联模块位于第N-1个卷积块和第N个卷积块之间，其中，M为大于等于2的整数，N为大于等于1的整数，上述方法包括：将目标图像输入卷积神经网络，得到第N-1个卷积块对应的初始特征；通过第M个门控级联模块对初始特征进行回归处理，得到回归密度图；对回归密度图进行特征提取，得到差异性特征，并融合差异性特征和初始特征，得到优化特征，差异性特征用于保持目标图像的尺度适应性；将优化特征输入至第N个卷积块，以使卷积神经网络输出目标对象的统计结果。

在本发明较佳的实施例中，上述门控级联模块包括：回归器模块、级联模块和门控模块；上述通过第M个门控级联模块对初始特征进行回归处理，得到回归密度图；对回归密度图进行特征提取，得到差异性特征，并融合差异性特征和初始特征，得到优化特征的步骤，包括：通过回归器模块对初始特征进行回归处理，得到回归密度图；通过级联模块对回归密度图进行特征提取，得到差异性特征；通过门控模块融合差异性特征和初始特征，得到优化特征。

在本发明较佳的实施例中，上述通过回归器模块对初始特征进行回归处理，得到回归密度图的步骤，包括：对初始特征进行残差连接，得到残差特征；将残差特征输入回归器模块中，输出回归密度图；其中，回归器模块包括多个卷积层和ReLu激活函数。

在本发明较佳的实施例中，上述门控模块包括第一门控模块和第二门控模块；上述通过门控模块融合差异性特征和初始特征，得到优化特征的步骤，包括：基于第一门控模块确定差异性特征对应的第一权重；基于第二门控模块确定初始特征对应的第二权重；根据差异性特征对应的第一权重与初始特征对应的第二权重，融合差异性特征和初始特征，得到优化特征。

在本发明较佳的实施例中，在上述将优化特征输入至第N个卷积块的步骤之后，上述方法还包括：通过第N个卷积块对优化特征进行卷积，输出第N个卷积块对应的特征。

第二方面，本发明实施例还提供一种基于图像统计目标对象的装置，上述装置中的卷积神经网络包括多个卷积块，以及至少一个门控级联模块，第M个门控级联模块位于第N-1个卷积块和第N个卷积块之间，其中，M为大于等于2的整数，N为大于等于1的整数，上述装置包括：初始特征输出模块，用于将目标图像输入卷积神经网络，得到第N-1个卷积块对应的初始特征；优化特征确定模块，用于通过第M个门控级联模块对初始特征进行回归处理，得到回归密度图；对回归密度图进行特征提取，得到差异性特征，并融合差异性特征和初始特征，得到优化特征，差异性特征用于保持目标图像的尺度适应性；统计结果输出模块，用于将优化特征输入至第N个卷积块，以使卷积神经网络输出目标对象的统计结果。

第三方面，本发明实施例还提供一种电子系统，电子系统包括：图像采集设备、处理设备和存储装置；图像采集设备，用于获取目标图像；存储装置上存储有计算机程序，计算机程序在被处理设备运行时执行如上述基于图像统计目标对象的方法。

第四方面，本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理设备运行时执行如上述基于图像统计目标对象的方法的步骤。

本发明实施例带来了以下有益效果：

本发明实施例提供了一种基于图像统计目标对象的方法、装置和电子系统，在卷积神经网络的卷积块之间设置门控级联模块，门控级联模块基于第N-1个卷积块输出的初始特征得到回归密度图，并提取用于保持目标图像的尺度适应性的差异性特征，将差异性特征和初始特征融合后得到的优化特征输入到第N个卷积块，进而得到目标对象的统计结果。该方式中，除了提取初始特征外，还对初始特征回归的回归密度图提取了差异特征，并将两次提取的特征进行融合，两次提取特征保持了目标图像的尺度适应性，将融合后的优化特征进行后续处理，可以缓解退化问题，提升了目标对象的统计精度。

本公开的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本公开的上述技术即可得知。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种电子系统的结构示意图；

图2为本发明实施例提供的一种具有一个门控级联模块的卷积神经网络结构示意图；

图3为本发明实施例提供的一种具有两个门控级联模块的卷积神经网络结构示意图；

图4为本发明实施例提供的一种基于图像统计目标对象的方法的流程图；

图5为本发明实施例提供的一种卷积神经网络的结构示意图；

图6为本发明实施例提供的另一种基于图像统计目标对象的方法的流程图；

图7为本发明实施例提供的一种门控级联模块的结构示意图；

图8为本发明实施例提供的另一种卷积神经网络的结构示意图；

图9为本发明实施例提供的一种基于图像统计目标对象的装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了提升目标对象的统计精度，本发明实施例提供了一种基于图像统计目标对象的方法、装置和电子系统，该技术可以应用于服务器、计算机、相机、手机、平板电脑、车辆中控设备等多种设备中，该技术可采用相应的软件和硬件实现，以下对本发明实施例进行详细介绍。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种基于图像统计目标对象的方法进行详细介绍。

实施例一：

首先，参照图1来描述用于实现本发明实施例的基于图像统计目标对象的方法、装置和电子系统的示例电子系统100。

如图1所示的一种电子系统的结构示意图，电子系统100包括一个或多个处理设备102、一个或多个存储装置104、输入装置106、输出装置108以及一个或多个图像采集设备110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子系统100的组件和结构只是示例性的，而非限制性的，根据需要，电子系统也可以具有其他组件和结构。

处理设备102可以为智能终端，或者是包含中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元的设备，可以对电子系统100中的其它组件的数据进行处理，还可以控制电子系统100中的其它组件以执行目标对象统计的功能。

存储装置104可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理设备102可以运行程序指令，以实现下文的本发明实施例中(由处理设备实现)的客户端功能以及/或者其它期望的功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据，例如应用程序使用和/或产生的各种数据等。

输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

输出装置108可以向外部(例如，用户)输出各种信息(例如，图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

图像采集设备110可以采集预览视频帧或图片数据(如目标图像)，并且将采集到的预览视频帧或图像数据存储在存储装置104中以供其它组件使用。

示例性地，用于实现根据本发明实施例的基于图像统计目标对象的方法、装置和电子系统中的各器件可以集成设置，也可以分散设置，诸如将处理设备102、存储装置104、输入装置106和输出装置108集成设置于一体，而将图像采集设备110设置于可以采集到图片的指定位置。当上述电子系统中的各器件集成设置时，该电子系统可以被实现为诸如相机、智能手机、平板电脑、计算机、车载终端等智能终端。

实施例二：

本实施例提供了一种基于图像统计目标对象的方法，该方法对传统的卷积神经网络进行了改进，在本实施例中，卷积神经网络包括多个卷积块，以及至少一个门控级联模块，其中，第M个门控级联模块位于第N-1个卷积块和第N个卷积块之间，其中，M为大于等于2的整数，N为大于等于1的整数。

本发明实施例中，将与第M个门控级联模块相邻的卷积块称为第N-1个卷积块和第N个卷积块，卷积块用于对输入的特征进行卷积计算，第N-1个卷积块的输出特征是门控级联模块的输入特征，门控级联模块的输出特征是第N个卷积块的输入特征。其中，第N-1卷积块和第N卷积块中的N仅仅是为了表明两个不同的相邻的卷积块，不对卷积块做其他限定，只需要N为大于等于2的整数即可，传统的卷积神经网络中，这两个卷积块为直接相连的关系，在本发明实施例中，这两个卷积块之间添加了门控级联模块。在具体应用中，可以根据需要选择一组或多组卷积块，如图2所示的一种具有一个门控级联模块的卷积神经网络结构示意图和图3所示的一种具有两个门控级联模块的卷积神经网络结构示意图。其中，图2中的门控级联模块设置在了卷积块2和卷积块3之间，这种结构中，卷积块2为第N-1个卷积块，卷积块3为第N个卷积块；同理，在图3中，门控级联模块设置在了卷积块2和卷积块3，以及卷积块4和卷积块5之间，这种结构中，卷积块2和卷积块4均为第N-1个卷积块，卷积块3和卷积块5均为第N个卷积块。上述卷积神经网络可以是一类包含卷积计算且具有深度结构的前馈神经网络，卷积块用于特征提取，卷积神经网络将前一个卷积块输出的特征输入到后一个卷积块中，后一个卷积块用于对输入的特征作进一步的特征提取。

基于上述描述，如图4所示的一种基于图像统计目标对象的方法的流程图，该基于图像统计目标对象的方法包括如下步骤：

步骤S402，将目标图像输入卷积神经网络，得到第N-1个卷积块对应的初始特征。

目标图像可以是上述图像采集设备110可以采集到的图像，实际使用时，通常将该图像采集设备110安放在指定场景，例如重要的交通枢纽场景或者重要的建筑物场景中，目标图像可以是照片、图片等各种类型和格式的图形文件，也可以是视频流中的图像帧。

上述目标对象是指需要通过卷积神经网络统计数目的对象，例如：人、车辆、动物等可能存在于目标图像中的需要被统计的对象。目标图像中可能包括若干数目的目标对象，也可能不包括目标对象。以人为例，目标图像(某一张照片)可能包括几个目标对象(人)，也可能不包括目标对象(人)。

第N-1个卷积块的输出端与第M个门控级联模块的输入端连接，每个卷积块对于输入的特征进行特征提取，输出特征提取后的特征。这里将第N-1个卷积块输出的特征称作目标对象的初始特征。

步骤S404，通过第M个门控级联模块对初始特征进行回归处理，得到回归密度图，对上述回归密度图进行特征提取，得到差异性特征，并融合差异性特征和初始特征，得到优化特征；差异性特征用于保持目标图像的尺度适应性。

首先，第M个门控级联模块根据初始特征进行回归处理，得到回归密度图。回归处理是指根据初始特征估计目标对象的位置、大小和覆盖区域，将该区域转化为可能为目标对象的概率，转化后的概率图就是回归密度图。例如，当目标对象为人的情况下，根据初始特征估计人的位置、大小和覆盖区域，通过回归密度图的形式说明该区域可能为人的概率，或者说明回归密度图中的每个像素可能有多少人，图像中是否有人，以及人的位置、大小和覆盖区域等参数可以通过人脸识别技术或人脸检测技术等实现。

在确定回归密度图之后，需要提取回归密度图的差异性特征，差异性特征是指用于保持目标图像的尺度适应性的特征。通过对应的模型提取出的回归密度图中的差异性特征，即可以保持目标图像的尺度适应性。

不同的尺度适应性是指不同层级的卷积层由于感受野不同，对于大的目标和小的目标有不同的适应性。在一张人群场景图片中，由于目标的大小是连续多变的，所以这就导致综合起来，不同层级的特征对不同场景的目标对象统计的适应性的不同。

在提取差异性特征之后，需要将差异性特征和初始特征融合为优化特征。因为一般的卷积神经网络的一个卷积块只有一次特征提取得到初始特征，在提取初始特征的过程中可能存在过拟合；本实施例中会对初始特征进行回归处理并再次提取差异性特征，只要两次特征提取中存在的过拟合的情况不同，即可保证融合后的优化特征不存在过拟合的问题。也就是说，一次特征提取可能过拟合，但是两个特征提取都过拟合的概率很低，只要在两次特征提取中有一个不存在过拟合，或者两次特征提取过拟合存在差异，在融合的时候都可以解决这些问题，保证尺度适应性。

例如，初始特征和差异性特征为相同尺寸的特征图，A区域和B区域为特征图的一部分区域；初始特征中对A区域存在过拟合，初始特征中对B区域没有过拟合，差异性特征中对B区域存在过拟合，差异性特征中对A区域没有过拟合，那么融合后的优化特征的对A区域和B区域就都不存在过拟合的问题。因此优化特征也可以保持目标图像的尺度适应性。这里需要说明的是，差异性特征通过回归密度图进行特征提取得到，差异性特征有可能与初始特征存在不同的特征，也可能与初始特征不存在不同的特征。也就是说，在初始特征保持了目标图像的尺度适应性的情况下，差异性特征可能与初始特征不存在不同的特征，此时融合后的优化特征也即初始特征。

步骤S406，将优化特征输入至第N个卷积块，以使卷积神经网络输出目标对象的统计结果。

第N个卷积块与第M个门控级联模块的输出端连接，用于对优化特征进行特征提取，因为优化特征也可以保证尺度适应性，所以第N个卷积块卷积的过程中保证了尺度适应性，卷积神经网络输出的统计结果也会具有更高的准确率；其中，统计结果是指卷积神经网络输出的目标图像包括的目标对象的数目。

本发明实施例提供的一种基于图像统计目标对象的方法，在卷积神经网络的卷积块之间设置门控级联模块，门控级联模块基于第N-1个卷积块输出的初始特征得到回归密度图，并提取用于保持目标图像的尺度适应性的差异性特征，将差异性特征和初始特征融合后得到的优化特征输入到第N个卷积块，进而得到目标对象的统计结果。该方式中，除了提取初始特征外，还对初始特征回归的回归密度图提取了差异特征，并将两次提取的特征进行融合，两次提取特征保持了目标图像的尺度适应性，将融合后的优化特征输入第N个卷积块，可以缓解退化问题，提升了目标对象的统计精度。

实施例三：

本实施例提供了另一种基于图像统计目标对象的方法，该方法在上述实施例的基础上实现；本实施例重点描述第M个门控级联模块确定优化特征的步骤。上述门控级联模块包括：回归器模块、级联模块和门控模块，分别进行对应的步骤以确定优化特征。

参见图5所示的一种卷积神经网络的结构示意图，如图5所示，目标图像输入到卷积神经网络之后，首先输入到前端卷积神经网络模型中，本实施例中的前端卷积神经网络模型例如可以是VGG16模型的前10层卷积层，但本申请实施例对此不作限定。例如，经过前端卷积神经网络模型后，本实施例中的卷积神经网络还包括若干卷积块，图5中的卷积块1为连接前端卷积神经网络模型的第一个卷积块，第N-1个卷积块和第N个卷积块中间设置了门控级联模块，门控级联模块包括回归器模块、级联模块和门控模块。门控模块输出的特征输入到第N个卷积块中，经过卷积神经网络计算得到统计结果。

举例来说，目标图像输入可以到VGG16模型中，VGG16模型之后级联3个空洞卷积块，VGG16模型和级联的3个密集空洞卷积块用做主要特征提取器，称为主干网络(密集尺度网络)。门控级联模块可以设置在第2个密集空洞卷积块和第3个密集空洞卷积块之间，用于保证尺度适应性，有效地缓解特征提取过程中尺度适应性的下降问题。

基于以上描述，如图6所示的另一种基于图像统计目标对象的方法的流程图，本实施例中的基于图像统计目标对象的方法包括如下步骤：

步骤S602，将目标图像输入卷积神经网络，得到第N-1个卷积块对应的初始特征。

如图5所示，目标图像输入卷积神经网后，首先经过前端卷积神经网络模型提取目标图像的特征，然后经过第N-1个卷积块前的若干个卷积块，对特征进一步提取，之后由第N-1个卷积块输出的目标对象的初始特征。

步骤S604，通过回归器模块对初始特征进行回归处理，得到回归密度图。

如图5所示，第N-1个卷积块输出的初始特征分为两路，一路输入门控模块，一路输入回归器模块。回归器模块的主要作用是将输入的初始特征回归处理，得到回归密度图，也就是说将特征回归为密度图。其中，将初始特征分为两路的步骤称为残差连接，可以按照步骤A1-步骤A2执行：

步骤A1，对初始特征进行残差连接，得到残差特征。

这里残差连接的作用包括将初始特征分为多路的残差特征，分别输入到不同的模块中。残差连接的主要作用是增加卷积神经网络的对损失的敏感性，防止深层网络梯度消失，以及打破了网络对称性，使得网络表征学习能力提升。初始特征一般通过预先设定的残差网络进行残差连接，得到残差特征，将残差特征分为多路，其中一路输入到回归器模块中。

步骤A2，将残差特征输入回归器模块中，输出回归密度图；其中，回归器模块包括多个卷积层和ReLu激活函数。

分流后的残差特征进入回归器模块中，回归器模块由多层卷积和ReLU激活函数组成，其中，回归器模块可以由3层卷积和ReLU激活函数组成。

可以应用以下函数确定回归密度图：d_r＝R_r(f_r)；其中，d_r为回归密度图，f_r为残差特征；R_r为回归器模块对应的模型，R_r包括多层卷积和ReLU激活函数。

ReLU激活函数为：f(x)＝max(0,x)，也就是说取0和自变量x的较大值作为函数的值。ReLU激活函数使模型能够更好地挖掘出特征，拟合数据。

本发明实施例提供的上述方法，回归器模块首先对初始特征进行残差连接得到残差特征，然后通过函数d_r＝R_r(f_r)确定回归密度图，将初始特征准确地转化为回归密度图。

步骤S606，通过级联模块对回归密度图进行特征提取，得到差异性特征。

如图5所示，回归器模块输出的回归密度图输入至级联模块中，由级联模块提取回归密度图的差异性特征。级联模块提取差异性特征的步骤可以通过步骤B1-步骤B2执行：

步骤B1，将回归密度图输入至预先设置的级联模块中。

级联模块对应的模型只是提取差异性特征的模型，上文已经提到差异性特征是指用于保持目标图像的尺度适应性的特征。可以预先训练完成一个专门用于提取差异性特征的级联模块，可以提取回归密度图的差异性特征。

步骤B2，输出回归密度图的差异性特征。

级联模块对提取回归密度图进行特征提取，得到差异性特征。其中，主要通过以下函数确定差异性特征cr_r＝CR_r(d_r)；其中，cr_r为差异性特征，CR_r为级联模块对应的模型，d_r为回归密度图。上述公式中，级联模块对应的模型CR_r对于输入的回归密度图d_r，提取回归密度图d_r对应的差异性特征cr_r。

本发明实施例提供的上述方法，级联模块对应的模型提取的回归密度图的差异性特征中，获得维持尺度适应性相关的信息，保持了目标图像的尺度适应性，可以提升了目标对象的统计精度，提升下个阶段的密度图质量。

步骤S608，通过门控模块融合差异性特征和初始特征，得到优化特征。

门控模块用于融合差异性特征和初始特征，在融合之前，需要控制主干网络特征信息(即初始特征)的传播与级联模块特征(即差异性特征)的传播，具体来说，可以将门控模块内部划分为第一门控模块和第二门控模块，并通过步骤C1-步骤C3实现：

步骤C1，基于第一门控模块确定差异性特征对应的第一权重。

第一门控模块通过对主干网络特征进行卷积操作生成，用于控制级联模块信息的传播，第一门控模块对于输入的初始特征输出对应的第一权重，通过以下函数确定：g_1r＝G_1r(f_r)；其中，g_1r为第一权重；G_1r为第一门控模块对应的模型；f_r为初始特征。也就是说，第一门控模块对应的模型G_1r根据输入的初始特征f_r进行卷积，输出第一权重g_1r，以此控制级联模块信息的传播。

参见图7所示的一种门控级联模块的结构示意图，如图7所示，门控模块包括第一门控模块和第二门控模块，其中，第N-1个卷积块输出的初始特征输入至第一门控模块中。

需要说明的是，第一门控模块中的最后一层卷积可以使用Tanh激活函数。Tanh激活函数通过以下算式表达：tanhx＝sinhx/coshx＝(e^x-e^-x)/(e^x+e^-x)，将最后一层卷积输入的值带入上述算式中的x，即可以确定输出值tanhx。Tanh激活函数的优点在于对于特征较为明显的情况，输出的特征效果较好。

步骤C2，通过第二门控模块对差异性特征进行第二卷积，得到第二权重。

第二门控模块通过对级联模块的特征进行卷积操作生成，用于控制主干网络信息的传播，第二门控模块对于输入的差异性特征输出对应的第二权重，通过以下函数确定：g_2r＝G_2r(cr_r)；其中，g_2r为第二权重；G_2r为第二门控模块对应的模型；cr_r为差异性特征。也就是说，第二门控模块对应的模型G_2r根据输入的差异性特征cr_r进行卷积，输出第二权重g_2r，以此控制级联模块信息的传播。如图7所示，级联模块输出的差异性特征输入至第二门控模块中。另外，第二门控模块中的最后一层卷积同样可以使用Tanh激活函数。

步骤C3，根据差异性特征对应的第一权重与初始特征对应的第二权重，融合差异性特征和初始特征，得到优化特征。

具体地，可以通过以下函数融合差异性特征和初始特征，得到优化特征：Y_r＝f_r⊙g_2r+cr_r⊙g_1r；其中，Y_r为优化特征；f_r为初始特征；g_2r为第二权重；cr_r为差异性特征；g_1r为第一权重；⊙为元素级相乘符号；+为元素级相加符号。

如图7所示，第一门控模块输出的第一权重g_1r和级联模块输出的差异性特征cr_r进行元素级相乘，得到第一相乘结果。元素级相乘是元素级运算的一种，元素级运算是指同一个数据类型之间的每一个元素进行对应的运算。例如，对数组[1,2,3]和数组[4,5,6]来说，元素级相加为[1+4,2+5,3+6]＝[5,7,9]，元素级相乘为[1×4,2×5,3×6]＝[4,10,18]。又例如，对于矩阵

和

元素级相加为

元素级相乘为

此外，对第二门控模块输出的第二权重g_2r和第N-1个卷积块输出的初始特征f_r进行元素级相乘，得到第二相乘结果。最后将第一相乘结果与第二相乘结果相加，得到最后的优化特征，并将优化特征输入至第N个卷积块，由神经网络进行接下来的卷积操作。

本发明实施例提供的上述方法，门控模块包括第一门控模块和第二门控模块，第一门控模块用于控制级联模块信息的传播，第二门控模块用于控制主干网络信息的传播，最后融合差异性特征和初始特征得到优化特征，从而实现了差异性特征和初始特征的可控信息传播，优化特征也包括一定的尺度适应性，具有很好的鲁棒性，可以用于生成下个阶段更高质量的密度图。

步骤S610，将优化特征输入至第N个卷积块，以使卷积神经网络输出目标对象的统计结果。

第N个卷积块对优化特征进行特征提取的步骤，可以通过以下步骤执行：通过第N个卷积块对优化特征进行卷积，输出第N个卷积块对应的特征。

也就是说，将优化特征输入到第N个卷积块进行卷积，然后输入第N个卷积块对应的特征，如果第N个卷积块与第N+1个卷积块之间存在第M+1个门控级联模块，则由第M+1个门控级联模块确定下一个优化特征；如果第N个卷积块与第N+1个卷积块之间不存在第M+1个门控级联模块，则由第N+1个卷积块对第N个卷积块输出的特征进行卷积。

因为优化特征也包括一定的尺度适应性，所以上述卷积神经网络进行卷积计算的过程中具有更好的尺度适应性，可以缓解退化问题，提升了目标对象的统计精度。

上述方法通过将一个卷积块输出的初始特征输入至回归器模块，由回归器模块对该初始特征进行回归处理，得到回归密度图；之后将回归密度图输入级联模块，级联模块提取该回归密度图的用于保持目标图像的尺度适应性的差异性特征，并将该差异性特征与该初始特征融合，得到优化特征，最后将优化特征输入至下一个卷积块，以使卷积神经网络输出目标对象的统计结果。这种方式中的两次特征提取保持了尺度适应性，因而融合后的优化特征也保持了尺度适应性，因此可以通过多个门控级联模块对神经网络中的特征不断进行优化，使其不断保持尺度适应性，可以缓解过拟合导致的退化问题，提升了目标对象的统计精度。

需要说明的是，初始特征也可能保持了尺度适应性，即级联模块对回归密度图提取的差异性特征可能属于初始特征，导致融合后的优化特征与初始特征相同或相似。这样就说明该初始特征也保持了尺度适应性，直接使用初始特征输入至第N个卷积块，也可以缓解退化问题，不会使目标对象的统计精度下降。

对于卷积神经网络输出目标对象的统计结果的精度，可以参见表1所示的一种统计结果精度比较表。

表1

如表1所示，本发明上述实施例的方法中的MSE(Mean Square Error，均方误差)和RMSE(Root Mean Squared Error，均方根误差)在四个数据集上均有良好的表现，其中，数据集1的MSE和数据集3的RMSE在上述集中方法中均为最小们可以说明本方法输出的统计结果具有很好的鲁棒性。

需要说明的是，表1中的数据集1来自数据集ShanghaiTech Part A，数据集2来自ShanghaiTech PartB，数据集3来自UCF-QNRF，数据集4来自UCFF_CC_50。方法MCNN(Multi-column Convolutional Neural Network)称为多列卷积神经网络；方法SwitchCNN(Switching Convolutional Neural Network for Crowd Counting)称为用于人群计数的开关卷积神经网络；方法CSRNet(network for Congested Scene Recognition)称为拥挤场景识别网络，方法PACNN(Perspective-Aware Convolutional Neural Network)称为透视感知卷积神经网络；方法SPN(Sum-Product Network)称为积网络；方法DSNet(DrivingSegmentation Network)称为驱动分割网络；方法S-DCNet(S-Decoupled Networks)称为S-解耦网络。

本发明实施例提供的上述方法，针对深度卷积神经网络来统计目标对象导致的退化问题，通过门控级联多阶段密度图回归的方式来维持特征提取过程中的尺度适应性，缓解退化问题，即在卷积神经网络不同层级中由回归器模块回归相应密度图(称为多阶段回归)，之后通过对前一阶段回归得到密度图由级联模块进行提取差异性特征，级联该差异性特征与主干网络的初始特征来生成下一阶段更高质量的密度图。由门控模块在这级联过程中增加像素级别的门控设置，有助于进一步从来维持这种尺度适应性，缓解退化问题。

对于在卷积神经网络中设置多个门控级联模块的情况，可以参见图8所示的另一种卷积神经网络的结构示意图，对于门控级联模块N以及门控级联模块I，分别设置在卷积块n和卷积块n+1以及卷积块i和卷积块i+1之间，实现对于卷积神经网络的多次优化。

需要说明的是，门控级联模块的数量不宜过多，因为过多的门控级联模块会需要更多的计算能力支持，需要更多的时间进行优化，如果有过多的门控级联模块进行优化，虽然可以保证更好的尺度适应性，但是会消耗更多的时间和较多的计算能力。基于此，本发明实施例中的门控级联模块的数量优选1-3个，对于要求较高精度的应用场景，可以扩展至4或5个。

本发明实施例提供的上述方法，在卷积神经网络中可以设置多个包括回归器模块、级联模块和门控模块的门控级联模块，每一个门控级联模块都可以对上一个卷积块输出的初始特征进行优化，使其维持尺度适应性，缓解退化问题，以增加目标对象统计的精度，但是，门控级联模块的个数不宜过多，以节约计算能力，防止卷积神经网络的计算时间过长。

实施例四：

本实施例提供了一种基于图像统计目标对象的装置，对应于上述方法实施例，该装置中的卷积神经网络包括多个卷积块，以及至少一个门控级联模块，第M个门控级联模块位于第N-1个卷积块和第N个卷积块之间，其中，M为大于等于2的整数，N为大于等于1的整数。

基于上述描述，参见图9所示的一种基于图像统计目标对象的装置的结构示意图，该装置包括：

初始特征输出模块91，用于将目标图像输入卷积神经网络，得到第N-1个卷积块对应的初始特征；

优化特征确定模块92，用于通过第M个门控级联模块对初始特征进行回归处理，得到回归密度图；对回归密度图进行特征提取，得到差异性特征，并融合差异性特征和初始特征，得到优化特征，差异性特征用于保持目标图像的尺度适应性第M个门控级联模块；

统计结果输出模块93，用于将优化特征输入至第N个卷积块，以使卷积神经网络输出目标对象的统计结果。

进一步地，上述第M个门控级联模块包括：回归器模块、级联模块和门控模块；上述优化特征确定模块，用于：通过回归器模块对初始特征进行回归处理，得到回归密度图；通过级联模块对回归密度图进行特征提取，得到差异性特征；通过门控模块融合差异性特征和初始特征，得到优化特征。

进一步地，上述优化特征确定模块，用于：对初始特征进行残差连接，得到残差特征；将残差特征输入回归器模块中，输出回归密度图；其中，回归器模块包括多个卷积层和ReLu激活函数。

进一步地，上述门控模块包括第一门控模块和第二门控模块；上述优化特征确定模块，用于：第一门控模块确定差异性特征对应的第一权重；基于第二门控模块确定初始特征对应的第二权重；根据差异性特征对应的第一权重与初始特征对应的第二权重，融合差异性特征和初始特征，得到优化特征。

进一步地，上述装置还包括第N卷积模块，用于：通过第N个卷积块对优化特征进行卷积，输出第N个卷积块对应的特征。

本发明实施例提供的一种基于图像统计目标对象的装置，在卷积神经网络的卷积块之间设置门控级联模块，门控级联模块基于第N-1个卷积块输出的初始特征得到回归密度图，并提取用于保持目标图像的尺度适应性的差异性特征，将差异性特征和初始特征融合后得到的优化特征输入到第N个卷积块，进而得到目标对象的统计结果。该方式中，除了提取初始特征外，还对初始特征回归的回归密度图提取了差异特征，并将两次提取的特征进行融合，两次提取特征保持了目标图像的尺度适应性，将融合后的优化特征输入第N个卷积块，可以缓解退化问题，提升了目标对象的统计精度。

实施例五：

本发明实施例提供了一种电子系统，该电子系统包括：图像采集设备、处理设备和存储装置；图像采集设备，用于获取目标图像；存储装置上存储有计算机程序，计算机程序在被处理设备运行时执行如上述基于图像统计目标对象的方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的电子系统的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理设备运行时执行如上述基于图像统计目标对象的方法的步骤。

本发明实施例所提供的对图像进行基于图像统计目标对象的方法、装置和电子系统的计算机程序产品，包括存储了程序代码的计算机可读存储介质，程序代码包括的指令可用于执行前面方法实施例中的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和/或装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于图像统计目标对象的方法，其特征在于，所述方法中的卷积神经网络包括多个卷积块，以及至少一个门控级联模块，第M个门控级联模块位于第N-1个卷积块和第N个卷积块之间，其中，M为大于等于1的整数，N为大于等于2的整数，所述方法包括：

将目标图像输入所述卷积神经网络，得到所述第N-1个卷积块对应的初始特征；

通过所述第M个门控级联模块对所述初始特征进行回归处理，得到回归密度图；对所述回归密度图进行特征提取，得到差异性特征，并融合所述差异性特征和所述初始特征，得到优化特征，所述差异性特征用于保持所述目标图像的尺度适应性；

将所述优化特征输入至所述第N个卷积块，以使所述卷积神经网络输出所述目标对象的统计结果。

2.根据权利要求1所述的方法，其特征在于，所述门控级联模块包括：回归器模块、级联模块和门控模块；

通过所述第M个门控级联模块对所述初始特征进行回归处理，得到回归密度图；对所述回归密度图进行特征提取，得到差异性特征，并融合所述差异性特征和所述初始特征，得到优化特征的步骤，包括：

通过所述回归器模块对所述初始特征进行回归处理，得到回归密度图；

通过所述级联模块对所述回归密度图进行特征提取，得到差异性特征；

通过所述门控模块融合所述差异性特征和所述初始特征，得到优化特征。

3.根据权利要求2所述的方法，其特征在于，通过所述回归器模块对所述初始特征进行回归处理，得到回归密度图的步骤，包括：

对所述初始特征进行残差连接，得到残差特征；

将所述残差特征输入所述回归器模块中，输出所述回归密度图；其中，所述回归器模块包括多个卷积层和ReLu激活函数。

4.根据权利要求2所述的方法，其特征在于，所述门控模块包括第一门控模块和第二门控模块；

通过所述门控模块融合所述差异性特征和所述初始特征，得到优化特征的步骤，包括：

基于所述第一门控模块确定所述差异性特征对应的第一权重；

基于所述第二门控模块确定所述初始特征对应的第二权重；

根据所述差异性特征对应的所述第一权重与所述初始特征对应的所述第二权重，融合所述差异性特征和所述初始特征，得到优化特征。

5.根据权利要求1所述的方法，其特征在于，在将所述优化特征输入至所述第N个卷积块的步骤之后，所述方法还包括：

通过所述第N个卷积块对所述优化特征进行卷积，输出所述第N个卷积块对应的特征。

6.一种基于图像统计目标对象的装置，其特征在于，所述装置中的卷积神经网络包括多个卷积块，以及至少一个门控级联模块，第M个门控级联模块位于第N-1个卷积块和第N个卷积块之间，其中，M为大于等于2的整数，N为大于等于1的整数，所述装置包括：所述第M个门控级联模块

初始特征输出模块，用于将目标图像输入所述卷积神经网络，得到所述第N-1个卷积块对应的初始特征；

优化特征确定模块，用于通过所述第M个门控级联模块对所述初始特征进行回归处理，得到回归密度图；对所述回归密度图进行特征提取，得到差异性特征，并融合所述差异性特征和所述初始特征，得到优化特征，所述差异性特征用于保持所述目标图像的尺度适应性所述第M个门控级联模块；

统计结果输出模块，用于将所述优化特征输入至所述第N个卷积块，以使所述卷积神经网络输出所述目标对象的统计结果。

7.一种电子系统，其特征在于，所述电子系统包括：图像采集设备、处理设备和存储装置；

所述图像采集设备，用于获取目标图像；

所述存储装置上存储有计算机程序，所述计算机程序在被所述处理设备运行时执行如权利要求1至5任一项所述的基于图像统计目标对象的方法。

8.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理设备运行时执行如权利要求1至5任一项所述的基于图像统计目标对象的方法的步骤。