CN109614941B

CN109614941B - 一种基于卷积神经网络模型的嵌入式人群密度估计方法

Info

Publication number: CN109614941B
Application number: CN201811534938.6A
Authority: CN
Inventors: 陈景宇; 谢晓华; 郑伟诗
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-12-14
Filing date: 2018-12-14
Publication date: 2023-02-03
Anticipated expiration: 2038-12-14
Also published as: CN109614941A

Abstract

本发明公开一种基于卷积神经网络模型的嵌入式人群密度估计方法及嵌入式人群密度估计的卷积神经网络模型，本模型用于实现本方法，本方法包括通过3个具有生成人群密度图输出能力的卷积神经分支的结构嵌套，使得模型具有3个运行模式，对训练图像预处理后，训练卷积神经网络模型，输入图像至训练好的卷积神经网络模型，选择三个运行模式的其中之一，输出所选模式对应的人群密度图，对所输出的密度图进行积分操作，获得对图像的总人数估计。本发明的卷积神经网络模型轻量化，准确度高于同量级卷积神经网络模型，部署三个模式可以任意切换，每个模式的速度不同，速度可根据实际情况选择。

Description

一种基于卷积神经网络模型的嵌入式人群密度估计方法

技术领域

本发明涉及计算机视觉领域，特别涉及一种基于卷积神经网络模型的嵌入式人群密度估计方法及一种面向嵌入式人群密度估计的卷积神经网络模型。

背景技术

依托嵌入式进行本地化的实时计算，能够克服现有基于卷积神经网络的方法的缺陷。基于服务器端GPU和基于嵌入式人群密度估计方法对比如图3所示，相比之下，后者更方便易用且有利于节约成本。而将模型应用到嵌入式设备中，设备的性能、成像的尺寸以及客户对实时性的需求都是有可能发生变化的，根据不同状况分别设计网络是不切实际的。

为此我们需要面向嵌入式设备设计出一款轻量化、速度可调的人群密度估计卷积神经网络模型，能够在低运算量的前提下保持较高的准确率，同时可随时切换运行模式，根据需要调整模型的复杂度和占用的内存，以适应不同的设备性能和实时性需要。模型结构不限制输入尺寸，以满足不同设备的画幅和不同场景中的需要。最终实现人群密度估计的边缘计算，解决现有方法需要将数据回传服务器的缺陷。

发明内容

本发明的主要目的是提出一种基于卷积神经网络模型的嵌入式人群密度估计方法和一种面向嵌入式人群密度估计的卷积神经网络模型，本模型用于实现本方法，旨在克服以上问题。

为实现上述目的，本发明提出的一种基于卷积神经网络模型的嵌入式人群密度估计方法，包括如下步骤：

S10嵌入3个运行模式：通过3个具有生成人群密度图输出能力的卷积神经分支的结构嵌套，使得卷积网络模型具有3个运行模式，其中所述3个模式所使用卷积网络模型的参数由低到高数量逐渐递增且能够进行复用；

S20模型训练：对训练图像进行预处理，用激励函数δ(x-x_i)表示图像像素点的标注，生成图像的标记图

将标记图与高斯核G_σ(x)进行卷积，获得对应的密度图真值F(x)＝H(x)*G_σ(x)，x为密度图中的像素，σ表示高斯核G_σ(x)的标准差，使用预处理好的训练数据对所述卷积神经网络模型进行训练，其中使用密度图真值和模型输出密度图之间的欧氏距离作为网络训练的损失函数；

S30输入图像至训练好的卷积神经网络模型，根据设备性能和速度要求，选择三个运行模式的其中之一，输出所选模式对应的人群密度图；

S40对所输出的密度图进行积分操作，获得对图像的总人数估计。

优选地，所述S30中所述卷积神经网络模型的高斯核G_σ(x)的获得根据输入图像中表示图像特征的不同数据集有且不限于以下三种方法：

(1)固定σ：对每个图像像素点的标注使用固定σ值获得高斯核G_σ(x)；

(2)透视图σ：依据不同透视图图像分别标记或根据经验标记特征图象的σ值获得高斯核G_σ(x)；

(3)几何自适应σ：根据某标注点到K个最近毗邻标注点之间像素平均距离调整该标注点高斯核的σ值获取高斯核G_σ(x)。

优选地，所述几何自适应σ方法生成密度图的函数如下：

其中

是

生成的高斯核，

是第i个标注点与最近k个标注点之间的像素平均距离，β通常根据经验设置在0.3左右。

优选地，所述多个模型模式包括快速模式、平衡模式和精准模式，所述多个模型模式所利用的参数量由低到高逐层递增的方法具体为：

快速模式利用源自原始图像的基础参数快速获取密度图，该密度图根据运算需要直接作为输出或者给平衡模式提供信息；

平衡模式利用源自原始图像的基础参数和由快速模式获得的密度图的参数，并对其进行补充和修正；

精准模式利用源自原始图像的基础参数、快速模式及平衡模式所获取的密度图的参数，并对其进行了补充和修正。

优选地，所述使用密度图真值和模型输出密度图之间的欧氏距离作为网络训练的损失函数表示如下：

其中X_i表示序列号为i的输入图像，G_i为对应的密度图真值，F(X_i；Θ)表示图像X_i输入到参数设置为Θ的网络而得到的输出，N是训练集的图像数量，为了得到一个端到端训练且速度可切换的网络，我们将三个模式的输出结合起来，得到最终的损失函数为：L_combine(Θ)＝λ₁L_fast+λ₂L_balance+λ₃L_accurate，其中λ₁、λ₂和λ₃表示每种模式损失函数的比例系数，满足条件：

根据需要适当调整，L_combine(Θ)表示考虑所有三种模式后的损失函数，用以训练网络。

本发明还公开了一种面向嵌入式人群密度估计的卷积神经网络模型，包括一个图像输入口和多个卷积神经分支，每个卷积神经分支均设有对应的图像输出口，每个卷积神经分支包括：

高度和宽度相等的卷积核，其中卷积核的高和宽为1、3、5或7；

高度和宽度均相等且高与宽相等步长的最大值池化层MP；

用于提取每个特征图像平均值的全局平均池化层G-A-P；

用于将所有的均值点连接起来形成的四个全连接层；

由上述四个全连接层和每个全连接层各自的激活层叠加得到的缩放分支结构：FC(G-A-P)-R-FC(12)-R-FC(8)-R-FC(1)-T，其中FC为全连接层，R为ReLU激活层，T为Tanh激活层，每个括号内的数字为神经元的数量；

每个卷积神经分支通过卷积层、MP层和激活层得到各自的特征图；通过假设Tanh激活层的输出为Δ，使用1+Δ作为缩放因子，对每个特征图进行缩放得到缩放后的特征图；每个缩放后的特征图根据模型模式的选择来决定作为输出或者是下个卷积神经分支的特征图像。

优选地，所述最大值池化层MP的数目为4，得到高度和宽度均为输入图像1/16的密度图。

优选地，所述最大值池化层MP的高度和宽度均为2。

优选地，每个所述卷积神经分支还包括sigmoid激活层，所述缩放分支结构的Tanh激活层的输出通过乘法缩放与sigmoid激活层融合，输出缩放后的特征图。

优选地，所述全连接层之间增加比率大致为0.2的Dropout层，且采用随机梯度下降SGD优化器进行迭代训练。

本发明的方法利用不同的卷积神经网络分支，设计其参数由低到高数量逐渐递增且能够进行复用的3种模式嵌入具有卷积神经网络模型的设备，以获得输入图像的密度图进而得到所输入图像的总人数估计，本方法实现准确率和运算速度之间的可调平衡性，不同模式之间共享参数，不会浪费存储空间；模型部署在嵌入式设备上，有效地避免使用基于服务器端的人群密度估计方法所带来的缺陷。进一步地，通过每个卷积神经分支结构使用全卷积的形式，以使得结构不会限制输入图像的尺寸，有助于适应多种嵌入式设备和不同需求。进一步地，本发明中每个卷积神经分支的结构和参数量与通常卷积神经分支相比都偏小，模型的每个模式分支都尽量压缩了特征图的层数，同时利用最大值池化层(MP)降低特征图大小，进一步减小运算量，全局平均池化层操作利用较少参数完成修改作用，获得更为准确的结果，整体来讲，模型在保证准确率的前提下，对模型结构进行了优化，使用了很少的参数和运算量。本发明的模型轻量化，准确度高于同量级卷积神经网络模型，部署后三种模式可以任意切换，无需重新训练。而且不固定输入图像尺寸，能够适应各种性能的设备和不同实时性需求。不同模式之间共享参数，不会浪费存储空间。综上，模型适合部署在嵌入式终端，能够避免使用基于服务器端的人群密度估计方法所带来的缺陷。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明公开方法一实施例的方法流程图；

图2为本发明公开模型的结构图；

图3为基于服务器端GPU和基于嵌入式终端的人群密度估计方法对比图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后……)，则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，若本发明实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

如图1-3所示，本发明提出的一种基于卷积神经网络模型的嵌入式人群密度估计方法，包括如下步骤：

在本发明实施例中，本方法利用不同的卷积神经分支，设计其参数由低到高数量逐渐递增且能够进行复用的3种模式嵌入具有卷积神经网络模型的设备，以获得输入图像的密度图进而得到所输入图像的总人数估计，本方法实现准确率和运算速度之间的可调平衡性，不同模式之间共享参数，节省了嵌入式设备的存储空间。

密度图的生成：现有人群密度估计数据集一般标记了人体或头部的坐标值。设图像中人体头部的标注点在像素x_i，我们在用激励函数δ(x-x_i)表示在该像素点的标注，这样整幅标记图就表示为:

为了更适合于模型回归和人群分布观测，我们将标记图与高斯核G_σ(x)卷积，得到的密度图真值可以表示为F(x)＝H(x)*G_σ(x)，其中x为密度图中的像素，σ表示高斯核G_σ(x)的标准差。

优选地，所述几何自适应σ方法生成密度图的函数如下：

其中

是

生成的高斯核，

在本发明实施例中，上述三种方法的共同目的是使密度图尽可能反映实际的人员分布，实际使用视训练集的具体情况而定。

在本发明实施例中，几何自适应σ可以根据某标注点到最近k个标注点的像素平均距离来调整该标注点高斯核的σ值。例如，对于透视距离较远的人来说，头部之间的平均像素距离一般较小，因此较小的σ值可以更好地描述透视关系。与另外两种方法相比，该方法更适用于没有视角信息的人群密集且透视角度变化剧烈的数据集。由几何自适应σ方法生成密度图的函数如下:

其中

是

生成的高斯核，

在本发明实施例中，快速模式能够利用较少的参数量快速产生初步准确的密度图，该密度图可以根据运算需要的直接作为输出或者给平衡模式提供信息；平衡模式利用新的参数从原始图像和从快速模式获取的初步准确的密度图进行补充和修正，从而实现更准确地密度图估计，但是新的参数运算也不可避免地增加了运算时间。；精准模式增加了更多的参数从原始图像和快速模式和平衡模式的密度图再次补充和修正，准确率得到再次提高，同时运算时间也增加了很多。

快速模式只使用计算量非常小的分支，保持一定准确率的同时可以快速得到人群的密度图和人数，适合应用在性能较差的设备上或需要高实时性人群密度估计的场景中，比如人数激增报警等。平衡模式使用了被黄色背景包围和覆盖的两个分支，增加了计算量和运行时间来提高精度，相当于在精度和速度之间做了平衡。精准模式使用了三个分支的所有参数，以实现更高的计数准确率，而较低的计数速度意味着它只能应用在高性能设备上或对实时性要求不高的场景中。

高度和宽度均相等且高与宽相等步长的最大值池化层MP；

用于提取每个特征图像平均值的全局平均池化层G-A-P；

用于将所有的均值点连接起来形成的四个全连接层；

在本发明实施例中，如图2所示，本模型输入静态图像，输出为可积分出总人数的密度图，在整个模型训练后，用户可以根据设备性能和速度要求，在3个模式中择其一，模式可切换，完成进行人群密度估计。

在本发明实施例中，由于一定程度上较小的密度图能够减少计算量和提高准确率，而且能够提供基本的人群分布信息，所以采用了4个最大值池化层，所以生成的密度图真值的高度和宽度都是原始图像的1/16。

优选地，所述最大值池化层MP的高度和宽度均为2。

在本发明实施例中，本模型在训练过程中，分别将模型设置为精准模式，同时提取平衡模式和快速模式的输出密度图。使用三种密度图与密度图真值之间的欧氏距离L_combine(Θ)作为损失函数来训练整个网络。如果训练集数量不足，可对其进行局部裁剪或者添加噪声等数据扩增方法增加图像数量，密度图真值依据扩增方法做相应处理。在全连接层适当增加Dropout层以减少过拟合，使用随机梯度下降SGD优化器进行迭代训练。

实际部署应用时，模型可根据需要随时切换模式，来平衡人群密度估计的速度和准确率，切换后不需要重新训练。任何一种模式的实际输出都是一幅密度图，可以积分得到人数，同时不同模式之间的参数可以共享，节省了存储空间。

模型轻量化指的是3个卷积神经分支，每个卷积神经分支的结构和参数量与通常卷积神经分支相比都偏小；速度可调指的是三个模式的计算速度不同，并且可随时切换。

模型的每个模式分支都尽量压缩了特征图的层数，同时利用最大值池化层(MP)降低特征图大小，进一步减小运算量，全局平均池化(G-A-P)操作利用很少的参数量起到修正结果的作用，使结果更准确。整体来讲，模型在保证准确率的前提下，对模型结构进行了优化，使用了很少的参数和运算量。

本发明的方法利用不同的卷积神经分支，设计其参数由低到高数量逐渐递增且能够进行复用的3种模式嵌入具有卷积神经网络模型的设备，以获得输入图像的密度图进而得到所输入图像的总人数估计，本方法实现准确率和运算速度之间的可调平衡性，不同模式之间共享参数，不会浪费存储空间；模型部署在嵌入式设备上，有效地避免使用基于服务器端的人群密度估计方法所带来的缺陷。进一步地，通过每个卷积神经分支结构使用全卷积的形式，以使得结构不会限制输入图像的尺寸，有助于适应多种嵌入式设备和不同需求。进一步地，本发明中每个卷积神经分支的结构和参数量与通常卷积神经分支相比都偏小，模型的每个模式分支都尽量压缩了特征图的层数，同时利用最大值池化层(MP)降低特征图大小，进一步减小运算量，全局平均池化层操作利用较少参数完成修改作用，获得更为准确的结果，整体来讲，模型在保证准确率的前提下，对模型结构进行了优化，使用了很少的参数和运算量。本发明的模型轻量化，准确度高于同量级卷积神经网络模型，部署后三种模式可以任意切换，无需重新训练。而且不固定输入图像尺寸，能够适应各种性能的设备和不同实时性需求。不同模式之间共享参数，不会浪费存储空间。综上，模型适合部署在嵌入式终端，能够避免使用基于服务器端的人群密度估计方法所带来的缺陷。

本发明在3个卷积神经分支的协作下，达到速度可调，在具体实操作中，基于相同的发明构思，这3个可以更换成其它网络架构。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种基于卷积神经网络模型的嵌入式人群密度估计方法，其特征在于，包括如下步骤：

S10嵌入3个运行模式：通过3个具有生成人群密度图输出能力的卷积神经分支的结构嵌套，使得卷积网络模型具有3个运行模式，其中所述3个运行模式所使用卷积网络模型的参数由低到高数量逐渐递增且能够进行复用；

S40对所输出的密度图进行积分操作，获得对图像的总人数估计；

所述3个运行模式包括快速模式、平衡模式和精准模式，所述3个运行模式所利用的参数量由低到高逐层递增的方法具体为：

精准模式利用源自原始图像的基础参数、快速模式及平衡模式所获取的密度图的参数，并对其进行了补充和修正；

所述卷积神经网络模型包括一个图像输入口和多个卷积神经分支，每个卷积神经分支均设有对应的图像输出口，每个卷积神经分支包括：

高度和宽度均相等且高与宽相等步长的最大值池化层MP；

用于提取每个特征图像平均值的全局平均池化层G-A-P；

用于将所有的均值点连接起来形成的四个全连接层；

2.如权利要求1所述的基于卷积神经网络模型的嵌入式人群密度估计方法，其特征在于，所述S30中所述卷积神经网络模型的高斯核G_σ(x)的获得根据输入图像中表示图像特征的不同数据集有且不限于以下三种方法：

(2)透视图σ：依据不同透视图图像分别标记或根据经验标记特征图像的σ值获得高斯核G_σ(x)；

3.如权利要求2所述的基于卷积神经网络模型的嵌入式人群密度估计方法，其特征在于，所述几何自适应σ方法生成密度图的函数如下：

其中

是

生成的高斯核，

是第i个标注点与最近k个标注点之间的像素平均距离，β设置为0.3。

4.如权利要求1所述的基于卷积神经网络模型的嵌入式人群密度估计方法，其特征在于，所述使用密度图真值和模型输出密度图之间的欧氏距离作为网络训练的损失函数表示如下：

其中X_i表示序列号为i的输入图像，G_i为对应的密度图真值，F(X_i；Θ)表示图像X_i输入到参数设置为Θ的网络而得到的输出，N是训练集的图像数量，为了得到一个端到端训练且速度可切换的网络，将三个模式的输出结合起来，得到最终的损失函数为：L_combine(Θ)＝λ₁L_fast+λ₂L_balance+λ₃L_accurate，其中λ₁、λ₂和λ₃表示每种模式损失函数的比例系数，满足条件：

5.如权利要求1所述的基于卷积神经网络模型的嵌入式人群密度估计方法，其特征在于，所述最大值池化层MP的数目为4，得到高度和宽度均为输入图像1/16的密度图。

6.如权利要求5所述的基于卷积神经网络模型的嵌入式人群密度估计方法，其特征在于，所述最大值池化层MP的高度和宽度均为2。

7.如权利要求1所述的基于卷积神经网络模型的嵌入式人群密度估计方法，其特征在于，每个所述卷积神经分支还包括sigmoid激活层，所述缩放分支结构的Tanh激活层的输出通过乘法缩放与sigmoid激活层融合，输出缩放后的特征图。

8.如权利要求1所述的基于卷积神经网络模型的嵌入式人群密度估计方法，其特征在于，所述全连接层之间增加比率为0.2的Dropout层，且采用随机梯度下降SGD优化器进行迭代训练。