CN110705698A

CN110705698A - 尺度自适应感知的目标计数深度网络设计方法

Info

Publication number: CN110705698A
Application number: CN201910984593.2A
Authority: CN
Inventors: 成锋娜; 周宏平; 张镜洋; 程卫国; 徐亮
Original assignee: Nanjing Forestry University
Current assignee: Nanjing Forestry University
Priority date: 2019-10-16
Filing date: 2019-10-16
Publication date: 2020-01-17
Anticipated expiration: 2039-10-16
Also published as: CN110705698B

Abstract

本发明公开了一种尺度自适应感知的目标计数深度网络设计方法，所述包括以下步骤：步骤1：制作训练和测试样本集合；将每个图片的目标标注生成真实标签，步骤2：将训练集和测试集的图片及其对应的真实标签进行尺寸调整，步骤3：建立尺度自适应感知目标计数深度网络模型；步骤4：将步骤2获得训练样本输入到步骤3建立的卷积网络模型中，通过Adam优化策略对网络进行参数学习，步骤5：深度网络模型测试。本发明设计了一种尺度自适应感知的目标计数深度网络设计方法，其在公共安全、交通、林业、农业等多个领域有着极其重要的应用价值。

Description

尺度自适应感知的目标计数深度网络设计方法

技术领域

本发明涉及图像处理和模式识别技术领域，尤其涉及尺度自适应感知的目标计数深度网络设计方法。

背景技术

目标计数是对图片或视频帧中场景内容的一种理解，其在生产生活中变得越来越重要。例如，对公共场所中人群的密度统计，会帮助工作人员及时管理、便于疏导人群，以防拥挤、踩踏事件的发生。对某些果树的果实或者植物进行统计，会帮助果农或者大型养殖场了解植物的生长密度以及产量情况。上述的目标统计将会对生产生活起着指导作用，帮助人们更好的处理存在的问题。

在图片或者视频帧中，由于拍摄视角的缘故，目标通常会有不同的视角。例如距离拍摄镜头近的物体尺度较大，相反较远的目标在图片中的尺度较小。这就需要设计的模型考虑目标多尺度的变化。但是由于不同的物体尺度不一样，所以在网络设计模型也需要自适应地条件感知的条件。基于以上分析，本发明提出了尺度自适应感知的目标计数深度网络设计方法。

发明内容

为了解决上述问题，本发明设计了尺度自适应感知的目标计数深度网络设计方法，该方法设计了自适应的尺度感知模块，使得网络可以自适应地调节尺度感知的范围，同时设计了分块的损失函数，以便更准确地预测更鲁棒的密度图。

为了实现上述目的，本发明采用了如下技术方案：

一种尺度自适应感知的目标计数深度网络设计方法，所述方法包括以下步骤：

步骤1：制作训练和测试样本集合；将每个图片的目标标注生成真实标签，其具体包括：

步骤101：通过搜索引擎搜集一个特定目标有关的词汇搜索目标图片，例如，通过‘人山人海’搜索人群，搜索‘汽车’搜索车辆等。或自行拍摄N张带有目标的图片。

步骤102：通过人工方式对步骤101的每张图片的每个目标进行标注，记录每个标注点的位置，进而建立一个特定目标相关数据集。

步骤103：首先将步骤102制作的数据集分为训练集和测试集；设数据集合总共有N个图片和与之对应的目标标注，记数据集合中的图片Dateset＝{I₁,I₂,...,I_N}和与之对应的目标标注Labelset＝{l₁,l₂,...,l_N}；将前M个图片和它对应的目标标注设为训练集合，记训练图片为Traindate＝{I₁,I₂,...,I_M}与之对应的标注Labeltrain＝{l₁,l₂,...,l_M}；同时将后N-M个图片和它对应的目标标注设为测试集合；记测试图片为Testdate＝{I_M+1,I_M+2,...,I_N}与之对应的标注Labeltest＝{l_M+1,l_M+2,...,l_N}；

步骤104：将步骤103中第i个图片I_i转换成高斯密度图den_i(x)，可通过下述的公式进行计算：

其中表示给定图片的坐标，x_j表示标注的目标位置；

表示高斯核，其中x_j是均值向量和σ²是方差项；如果x不在x_j的领域范围内，令

此时第i个图片的标签l_i变换为den_i(x)；

步骤105：依次对步骤102中的第1张图片直至第N个图片执行步骤104的操作，将图片的标注转换成高斯密度图；从而将训练的标注Labeltrain映射为训练真实标签Labeltrain_new：Labeltrain_new＝{den₁,den₂,...,den_M}，将测试的标注Labeltest映射为测试真实标签Labeltest_new：Labletest_new＝{den_M+1,den_M+2,...,den_N}；

步骤2：将训练集和测试集的图片及其对应的真实标签进行尺寸调整，其具体包括：

步骤201：将图片的尺寸调整为8的整数倍；记第i个图片I_i的尺寸大小为(p_i,q_i)；图片通过插值的方式将尺寸大小调整为8的整数倍，记图片I_i调整后的尺寸大小(x_i,y_i)；调整的计算公式为x_i＝(p_i％8)×8和y_i＝(q_i％8)×8，其中％表示整除操作；

步骤202：将与图片对应的高斯密度图也进行尺度调整；第i个图片I_i对应的真实标签den_i(m)的尺寸大小为(p_i,q_i)，通过步骤201中的调整计算公式后得到调整后真实标签den_new_i(m)的大小(x_i,y_i)；为了使得目标数量保持不变，对调整后的真实标签进行如下操作：

步骤203：依次对步骤105中的第1张图片直至第N个图片的真实标签执行步骤202的操作；

步骤3：建立尺度自适应感知目标计数深度网络模型。网络的具体的模型给出如下：

卷积层1：使用64个3×3的卷积核去卷积输入为x×y×3的图像，经过ReLU激活函数后得到x×y×64的特征；

卷积层2：使用64个3×3的卷积核去卷积卷积层1的输出，经过ReLU激活函数和2×2的最大值池化层后得到(x％2)×(y％2)×64的特征；

卷积层3：使用128个3×3的卷积核去卷积卷积层2的输出，经过ReLU激活函数后得到(x％2)×(y％2)×128的特征；

卷积层4：使用128个3×3的卷积核去卷积卷积层3的输出，经过ReLU激活函数和2×2的最大值池化层后得到(x％2)×(y％2)×128的特征；

卷积层5：使用256个3×3的卷积核去卷积卷积层4的输出，经过ReLU激活函数后得到(x％4)×(y％4)×256的特征；

卷积层6：使用256个3×3的卷积核去卷积卷积层5的输出，经过ReLU激活函数后得到(x％4)×(y％4)×256的特征；

卷积层6_0_1：使用64个1×1的卷积核去卷积卷积层6的输出，经过ReLU激活函数后得到(x％4)×(y％4)×64的特征；

卷积层6_0_2：使用64个3×3的卷积核去卷积卷积层6_0_1的输出，经过ReLU激活函数后得到(x％4)×(y％4)×64的特征；

卷积层6_0_3：使用exp(a₁)/(exp(a₁)+exp(a₂)+exp(a₃))乘以卷积层6_0_2的输出后得到(x％4)×(y％4)×64的特征；

卷积层6_1_1：使用64个1×1的卷积核去卷积卷积层6的输出，经过ReLU激活函数后得到(x％4)×(y％4)×64的特征；

卷积层6_1_2：使用64个5×5的卷积核(padding的大小为2)去卷积卷积层6_1_1的输出，经过ReLU激活函数后得到(x％4)×(y％4)×64的特征；

卷积层6_1_3：使用exp(a₂)/(exp(a₁)+exp(a₂)+exp(a₃))乘以卷积层6_1_2的输出后得到(x％4)×(y％4)×64的特征；

卷积层6_2_1：使用64个1×1的卷积核去卷积卷积层6的输出，经过ReLU激活函数后得到(x％4)×(y％4)×64的特征；

卷积层6_2_2：使用64个7×7的卷积核(padding的大小为3)去卷积卷积层6_2_1的输出，经过ReLU激活函数后得到(x％4)×(y％4)×64的特征；

卷积层6_2_3：使用exp(a₃)/(exp(a₁)+exp(a₂)+exp(a₃))乘以卷积层6_2_2的输出后得到(x％4)×(y％4)×64的特征；

聚集层1：将卷积层6_0_3的输出、卷积层6_1_3的输出和卷积层6_2_3的输出，沿着通道维级联，得到(x％4)×(y％4)×192的特征；

卷积层7：使用256个3×3的卷积核去卷积聚集层1的输出，经过ReLU激活函数层和2×2的最大值池化层后得到(x％8)×(y％8)×256的特征；

卷积层8：使用256个3×3的卷积核去卷积卷积层7的输出，经过ReLU激活函数后得到(x％8)×(y％8)×256的特征；

卷积层8_0_1：使用64个1×1的卷积核去卷积卷积层8的输出，经过ReLU激活函数后得到(x％8)×(y％8)×64的特征；

卷积层8_0_2：使用64个3×3的卷积核去卷积卷积层8_0_1的输出，经过ReLU激活函数后得到(x％8)×(y％8)×64的特征；

卷积层8_0_3：使用exp(b₁)/(exp(b₁)+exp(b₂)+exp(b₃))乘以卷积层8_0_2的输出后得到(x％8)×(y％8)×64的特征；

卷积层8_1_1：使用64个1×1的卷积核去卷积卷积层8的输出，经过ReLU激活函数后得到(x％8)×(y％8)×64的特征；

卷积层8_1_2：使用64个5×5的卷积核(padding的大小为2)去卷积卷积层8_1_1的输出，经过ReLU激活函数后得到(x％8)×(y％8)×64的特征；

卷积层8_1_3：使用exp(b₂)/(exp(b₁)+exp(b₂)+exp(b₃))乘以卷积层8_1_2的输出后得到(x％8)×(y％8)×64的特征；

卷积层8_2_1：使用64个1×1的卷积核去卷积卷积层8的输出，经过ReLU激活函数后得到(x％8)×(y％8)×64的特征；

卷积层8_2_2：使用64个7×7的卷积核(padding的大小为3)去卷积卷积层8_2_1的输出，经过ReLU激活函数后得到(x％8)×(y％8)×64的特征；

卷积层8_2_3：使用exp(b₃)/(exp(b₁)+exp(b₂)+exp(b₃))乘以卷积层8_2_2的输出后得到(x％8)×(y％8)×64的特征；

聚集层2：将卷积层8_0_3的输出、卷积层8_1_3的输出和卷积层8_2_3的输出，沿着通道维级联，得到(x％8)×(y％8)×192的特征；

卷积层9：使用256个3×3的卷积核去卷积聚集层2的输出，经过ReLU激活函数层和3×1×1的最大值池化层后得到(x％8)×(y％8)×256的特征；

卷积层10：使用256个3×3的卷积核去卷积聚集层2的输出，经过ReLU激活函数后得到(x％8)×(y％8)×256的特征；

卷积层11：使用256个3×3的卷积核去卷积卷积层10的输出，经过ReLU激活函数后得到(x％8)×(y％8)×256的特征；

卷积层12：使用256个3×3的卷积核去卷积卷积层11的输出，经过ReLU激活函数后得到(x％8)×(y％8)×256的特征；

卷积层13：使用256个3×3的卷积核去卷积卷积层12的输出，经过ReLU激活函数后得到(x％8)×(y％8)×256的特征；

卷积层14：使用256个3×3的卷积核去卷积卷积层13的输出，经过ReLU激活函数后得到(x％8)×(y％8)×256的特征；

卷积层15：使用256个3×3的卷积核去卷积卷积层14的输出，经过ReLU激活函数后得到(x％8)×(y％8)×256的特征；

卷积层16：使用1个1×1的卷积核去卷积卷积层15的输出，得到(x％8)×(y％8×)的特征。在该网络中，本发明设计了尺度归一化的操作，以帮助网络学习归一化的尺度特征，使得网络可以从不同的分辨率中学习不同尺度的特征。

步骤4：将步骤2获得训练样本输入到步骤3建立的卷积网络模型中，通过Adam优化策略对网络进行参数学习，具体包含如下的步骤：

步骤401：本发明设计的网络采取多任务的方式对网络参数进行训练，设置网络的初始学习率为l；

步骤402：记步骤3建立的网络模型的参数为Θ，其中步骤3中卷积层16的输出为Pre_net，网络中的运算表示为f(g)，则网络的输出可表示为Pre_net＝f(Θ)

使用步骤203给出的标签，对网络的参数进行学习，损失函数记为：

其中先将den_i和den_new_i(x)等同地平分成U个块，T_k、GT_k分别表示den_i和den_new_i(x)第k个块；T_k.sum()表示对T_k里的元素求加和；abs(g)表示求绝对值；λ₁，λ₂是超参数。该损失函数使得网络可以关注整体的密度分布，也可以学习局部人数的变化，这有助于网络从两个不同的角度回归更加准确的人数。

步骤5：深度网络模型测试；网络经步骤4训练完成后，保留网络的卷积层的参数；将测试图片通过步骤1和步骤2操作后输入网络中，将步骤3中卷积层16的输出Pre_net求和，记为当前图片的目标数量。

相对于现有技术，本发明的有益效果如下：

1)本发明设计了自适应的尺度感知模块，通过学习不同的参数帮助网络提取更加鲁棒的尺度特征，同时该参数经过归一化，避免参数过大或者过小，以影响网络的鲁棒性；

2)本发明设计了分块的损失函数，使得网络不仅关注整体的密度，而且也关注局部的密度，这帮助网络获取更加鲁棒的密度图。

附图说明

图1为本发明中深度网络模型的框架图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

实施例1：参照图1，一种尺度自适应感知的目标计数深度网络设计方法，包括以下步骤：

步骤102：通过人工方式对步骤101的每张图片的每个目标进行标注，记录每个标注点的位置，进而建立一个特定目标相关数据集；

其中表示给定图片的坐标，x_j表示标注的目标位置；

此时第i个图片的标签l_i变换为den_i(x)；

步骤3：建立尺度自适应感知目标计数深度网络模型，网络的具体的模型给出如下：

卷积层16：使用1个1×1的卷积核去卷积卷积层15的输出，得到(x％8)×(y％8×)的特征；

步骤402：记步骤3建立的网络模型的参数为Θ，其中步骤3中卷积层16的输出为Pre_net，网络中的运算表示为f(g)，则网络的输出可表示为

Pre_net＝f(Θ)

其中先将den_i和den_new_i(x)等同地平分成U个块，T_k、GT_k分别表示den_i和den_new_i(x)第k个块；T_k.sum()表示对T_k里的元素求加和；abs(g)表示求绝对值；λ₁，λ₂是超参数；

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种尺度自适应感知的目标计数深度网络设计方法，其特征在于，所述方法包括以下步骤：

步骤1：制作训练和测试样本集合，将每个图片的目标标注生成真实标签；

步骤2：将训练集和测试集的图片及其对应的真实标签进行尺寸调整；

步骤3：建立尺度自适应感知目标计数深度网络模型；

步骤4：将步骤2获得训练样本输入到步骤3建立的卷积网络模型中，通过Adam优化策略对网络进行参数学习；

2.根据权利要求1所述的尺度自适应感知的目标计数深度网络设计方法，其特征在于，所述步骤1具体如下：

步骤101：通过搜索引擎搜集一个特定目标有关的词汇搜索目标图片，或自行拍摄N张带有目标的图片；

其中

表示给定图片的坐标，x_j表示标注的目标位置；

表示高斯核，其中x_j是均值向量和σ²是方差项；如果x不在x_j的领域范围内，令此时第i个图片的标签l_i变换为den_i(x)；

步骤105：依次对步骤102中的第1张图片直至第N个图片执行步骤104的操作，将图片的标注转换成高斯密度图；从而将训练的标注Labeltrain映射为训练真实标签Labeltrain_new：Labeltrain_new＝{den₁,den₂,...,den_M}，将测试的标注Labeltest映射为测试真实标签Labeltest_new：Labletest_new＝{den_M+1,den_M+2,...,den_N}。

3.根据权利要求1所述的尺度自适应感知的目标计数深度网络设计方法，其特征在于，所述步骤2具体如下，

步骤202：将与图片对应的高斯密度图也进行尺度调整；第i个图片I_i对应的真实标签den_i(m)的尺寸大小为(p_i,q_i)，通过步骤201中的调整计算公式后得到调整后真实标签den_new_i(m)的大小(x_i,y_i)；为了使得目标数量保持不变，对调整后的真实标签进行如下操作；

步骤203：依次对步骤105中的第1张图片直至第N个图片的真实标签执行步骤202的操作。

4.根据权利要求1所述的尺度自适应感知的目标计数深度网络设计方法，其特征在于，所述步骤3建立尺度自适应感知目标计数深度网络模型，网络的具体的模型给出如下：

卷积层16：使用1个1×1的卷积核去卷积卷积层15的输出，得到(x％8)×(y％8)×1的特征。

5.根据权利要求1所述的尺度自适应感知的目标计数深度网络设计方法，其特征在于，所述步骤4：将步骤2获得训练样本输入到步骤3建立的卷积网络模型中，通过Adam优化策略对网络进行参数学习，具体包含如下的步骤：

步骤401：网络采取多任务的方式对网络参数进行训练，设置网络的初始学习率为l；

Pre_net＝f(Θ)；

其中先将den_i和den_new_i(x)等同地平分成U个块，T_k、GT_k分别表示den_i和den_new_i(x)第k个块；T_k.sum()表示对T_k里的元素求加和；abs(g)表示求绝对值；λ₁，λ₂是超参数。

6.根据权利要求5所述的尺度自适应感知的目标计数深度网络设计方法，其特征在于，网络经步骤4训练完成后，保留网络的卷积层的参数；将测试图片通过步骤1和步骤2操作后输入网络中，将步骤3中卷积层16的输出Pre_net求和，记为当前图片的目标数量。