CN113947732B

CN113947732B - 基于强化学习图像亮度调节的空中视角人群计数方法

Info

Publication number: CN113947732B
Application number: CN202111570830.4A
Authority: CN
Inventors: 周家柳; 罗喜伶; 王珺珺
Original assignee: Hangzhou Innovation Research Institute of Beihang University
Current assignee: Hangzhou Innovation Research Institute of Beihang University
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2022-05-31
Anticipated expiration: 2041-12-21
Also published as: CN113947732A

Abstract

本发明公开了一种基于强化学习图像亮度调节的空中视角人群计数方法，首先获取经标注的训练集，对其预处理，得到原始分辨率图像块和低分辨率图像块的标注数据集；基于得到的数据集训练得到原始人群计数模型和粗糙人群计数模型；然后构建并训练强化策略网络模型。工作时，对于待处理的无人机实时图像，利用训练得到的强化策略网络模型选取对应分辨率的图像块并进行亮度值的调整，根据选择结果调取对应的人群计数模型得到各图像块的人群计数结果，综合得到整张图像的人群计数结果。本发明不仅能够在只有空中视觉信息的条件下实现人群计数，还能够基于训练的强化学习模型对原始模型进行加速。

Description

基于强化学习图像亮度调节的空中视角人群计数方法

技术领域

本发明属于图像识别计数技术领域，具体涉及一种基于强化学习图像亮度调节的空中视角人群计数方法。

背景技术

当前随着城市化进程的加快以及国际通信的兴起，人群聚集频率越来越高，因此存在大量的安全隐患。在城市地区和大型活动中，人群监控变得非常重要，无人机目前广泛用于人群监控区域，以提高人群数量及动态方面的安全性。无人机具有部署方便快捷、成本低、效率高等优点，但是与常规的基于摄像头的人群计数场景相比，基于空中视角在人群计数场景中的使用存在一些挑战，例如实时性要求、有限的内存和电池资源以及鸟瞰图。

CN202110658605.X公开了一种基于空中视角的跨场景视频人群理解双通道网络方法，其通过建立双通道人群计数网络模型，以及通过双路径流的RGB图像充分利用帧间信息和输入对鸟瞰人群下分析人与背景的关系，判断人群数量，属于图像识别计数技术领域，但主要研究的是空间上下文信息以及光流和帧差信息，未对空中视角的单张图像的人群计数方法进行深入研究。

发明内容

为了考虑空中视角人群计数具有较高的实时性需求，本发明提供一种基于强化学习图像亮度调节的空中视角人群计数方法，该方法不仅能基于图像信息对切割好的图像块作出使用原始分辨率还是降低分辨率的选择，而且能够对图像块进行亮度调节操作，然后对图像块处理后使用相对应的人群计数模型得到结果。

本发明的技术方案如下：

本发明首先提供了一种基于强化学习图像亮度调节的空中视角人群计数方法，其包括如下步骤：

1）获取已经进行标注的无人机人群计数数据集，对于其中的空中视角人群图像和标注进行图像块切割和降低分辨率预处理，得到原始分辨率图像块的数据集和低分辨率图像块的数据集；

2）分别用原始分辨率图像块的数据集和低分辨率图像块的数据集训练机器学习人群计数模型，得到原始人群计数模型和粗糙人群计数模型；

3）构建和训练强化策略网络模型，所述强化策略网络模型的输出为是否使用低分辨率图像块，以及低分辨率图像块需要增减的亮度值；

4）对于待处理的无人机实时图像，进行图像块切割和降低分辨率预处理，利用步骤3）训练得到的强化策略网络模型选取对应分辨率的图像块并进行亮度值的调整，其中将选择原始分辨率的每个图像块，使用步骤2）已经训练好的原始人群计数模型得到该图像块的人群计数结果；将选择低分辨率的每个图像块，使用步骤2）已经训练好的粗糙人群计数模型得到该图像块的人群计数结果，最终得到整张图像的人群计数结果。

作为本发明的优选方案，步骤1）中所述的对于其中的空中视角人群图像和标注进行图像块切割和降低分辨率预处理，包括如下步骤：

1.1）将空中视角人群图像均分为n²个图像块，得到原始分辨率图像块，并将每张图像对应的真值标注映射到切割后的图像块上，得到原始分辨率图像块的标注，即每个图像块可以得到对应的一个标注文件；原始分辨率图像块和其标注构成原始分辨率图像块的数据集；其中n为大于等于2的整数；

1.2）对原始分辨率图像块的数据集，做降低分辨率处理，得到低分辨率图像块的数据集。

作为本发明的优选方案，所述步骤1.2）中，降低分辨率的倍数由预先设定。

作为本发明的优选方案，所述步骤1.2）中，所述低分辨率图像块的数据集包括低分辨率图像块及其标注，其中，低分辨率图像块的标注通过将每张图像对应的真值标注映射到切割后的低分辨率图像块上得到，每个低分辨图像块对应的一个标注文件。

作为本发明的优选方案，所述步骤3）中的强化策略网络模型得到的结果为每个图像块的选择结果和每个图像块需要调整的亮度值；

对于数据集中的每个图像，以HR表示原始分辨率版本，以LR表示低分辨率版本，每个原始分辨率图像或低分辨率图像均由n²个相等大小的非重叠图像块组成，第i个图像块表示为

或

；

强化策略网络模型通过观察每个图像，输出一个二元数组

，其中

表示模型倾向于选取HR的第i个图像块

，

表示模型倾向于选取LR的第i个图像块

；

同时，强化策略网络模型通过观察每个图像，输出

，

表示将第i个图像块

或

的图像转换成HSV图像，将V通道的值进行增减的值；图像转换成HSV图像并将V通道的值进行增减后转换回RGB图像。

作为本发明的优选方案，强化策略网络模型选择HR图像块则使用原始人群计数模型进行人群计数，选择LR图像块则使用粗糙人群计数模型进行人群计数；各图像块的计数结果之和即为输入图像经估算的人群计数结果；

利用经标注的训练集对强化策略网络模型进行训练，强化策略网络模型的奖励函数包括精度部分和时间成本部分；奖励函数促使模型在考虑精度要求的同时选择更少的HR图像块以节约计算成本。

作为本发明的优选方案，所述的将V通道的值进行增减为：对每个图像块中的像素点进行相同的亮度调整，

为正则增加亮度，负则降低亮度。

与现有技术相比，本发明采用了强化策略网络与人群计数卷积神经网络相结合的网络设计结构，因此改进了现有技术中的人群计数模型；通过强化学习的训练手段，在低分辨率图像块中增减亮度的手段，提升了方法的准确率和推理速度，从而能够实现在只有空中视觉信息的条件下快速有效的人群计数。

附图说明

图1为实施例中示例的本发明方法的流程框图。

具体实施方式

下面结合具体实施方式对本发明做进一步阐述和说明。本发明中各个实施方式的技术特征在没有相互冲突的前提下，均可进行相应组合。

本方法的整体流程如图1所示，为了便于说明，本发明的实施例均以将图像均匀切分为9个图像块、降低分辨率的倍数为16倍进行说明，需要注意的是，以上设置仅是为了便于说明，并不构成对本发明的限制。事实上，图像可以切分为n²个图像块，n为大于2的整数，降低分辨率的倍数也可以根据实际情况进行调整。

在本实施例中，所采用的技术方案是：基于已经进行标注过的空中视角的人群计数数据集，按照约4:1的比例分成训练集与测试集；对于训练集中的图像和标注，通过数据处理方法，将图像均分为9个图像块，并将标注作对应的处理（将每张图像对应的真值标注映射到切割后的图像块上，即每个图像块可以得到对应的一个标注文件），得到原始分辨率图像块的数据集；基于原始分辨率图像块的数据集，做降低分辨率的处理（降低16倍），并对标注也作出对应的处理（将每张图像对应的真值标注映射到切割后的低分辨率图像块上，即每个低分辨图像块也可以得到对应的一个标注文件），得到低分辨率图像块的标注数据集；基于两个不同分辨率的数据集，训练机器学习人群计数模型，得到原始人群计数模型和粗糙人群计数模型；通过两个不同的人群计数模型可以得到训练数据集的结果。采用强化学习的训练手段，训练得到一个强化策略网络模型，该模型的输出为是否使用低分辨率图像块，以及需要增减的亮度值；综合基于强化策略网络模型、原始人群计数模型与粗糙人群计数模型，得到整张图像的人群计数结果；基于图像更高的准确率和倾向于更多的低分辨率图像被使用这样的奖励机制，反馈到强化策略网络，直到奖励最大化。本发明可以在保障计数准确率的前提下，提升运行速度，实现空中视角人群计数的实时性能。

本方法中的两个人群计数模型（原始人群计数模型和粗糙人群计数模型）是两个基于密度估计的人群计数神经网络算法。人群计数旨在计算拥挤场景中的人数，而密度估计旨在将输入人群图像映射到相应的密度图，密度图则表示图像中每个像素的人数。

通常来说，更深更大的神经网络能够带来更高的算法性能，但是随之而来的是计算成本的增加。因此，本发明可以选取强大且轻量的神经网络算法来完成密度图估计这个任务，这里以DM-count算法（Boyu Wang, Huidong Liu, Dimitris Samaras, and MinhHoai. Distribution matching for crowd counting. arXiv preprint arXiv:2009.13077, 2020. 2, 3）为例，该算法将人群计数视为分布匹配问题，并提出新的损失函数，结合简单的人群计数神经网络从输入图像到生成密度估计图。整体损失函数可以写为：

其中，

表示预测的人群计数与真值之间的差，

表示从预测计数的概率分布转换成真值的代价（OT为Optimal Transport，用于测量预测密度图与真值之间的相似性），

用于增加训练过程的稳定性。具体的释义这里不做详细说明，可参考论文。

以DM-count为例，作为人群计数模型的基础算法，主要有几点原因：它是目前最先进的人群计数算法之一；与其他非常大型的神经网络算法不同，DM-count基于简单的多层卷积神经神经网络，非常省时；另外，DM-count没有使用会损害模型泛华边界的高斯平滑滤波器。除了DM-count以外，这里的人群计数模型可以使用不同的算法，本发明的基于强化学习的强化策略网络能够在算法原有的基础上对算法性能有所提升。

本实施例分别用原始分辨率图像块的数据集和低分辨率图像块的数据集训练机器学习人群计数模型，得到原始人群计数模型和粗糙人群计数模型。

强化学习是在环境中作出随机选择，并学习在所有候选中选择最佳选项以实现预设目标。策略网络是一个简单的神经网络，可以通过给定的输入给出确定的输出。

本实施例的强化策略网络模型包含2个部分，首先是卷积层，其次是池化层，池化层的最后总共得到18个数值。

在本发明的强化策略网络模型中，有两组不同的状态：

和

。对于数据集中的每个图像，本发明准备了两个不同的版本，原始分辨率版本（用HR表示）和低分辨率版本（用 LR表示）。每个原始分辨率图像或低分辨率图像由9个相等大小的非重叠图像块组成，第i 个图像块

可以表示为

或

，光亮调整值

表示每个图像块中的每个像素点调整的亮度值，正的则增加亮度，负的则降低亮度。预测值

表示各图像块中的预测得到的人数。

（1）强化策略网络模型通过观察输入图像，输出一个二元数组

，当

的时候表示模型倾向于选取HR图像块的第i个图像块

，当

的时候表示模型倾向于选取LR图像块的第i个图像块

。因此，存在一个映射：从LR图像块到

。

（2）同样的，模型通过观察输入图像，输出

，

表示第i 个图像块

或

的图像转换成HSV图像，将V通道的值进行增减（这里需要说明，一般V通道的取值范围在0~1之间，但由于opencv库的关系，V通道的取值范围为0~255，如果增减后的数值小于0，则直接取0，大于255则取255），通过增减后再将HSV图像转换回原图像进行后续处理。因此，存在一个映射：从LR图像块到

。

（3）模型根据第（1）（2）步的结果跑相应的人群计数算法（选择HR图像块则使用原始人群计数模型，选择LR图像块则使用粗糙人群计数模型），模型会选择输出

，其中

表示

或

通过人群计数算法估计的得到的计数。

总体目标J可以定义为最大化期望效用R,可以表示为：

，奖励机制的函数的直觉是对LR图像块进行亮度调节的方法，以选择更少的HR图像块，因为这样可以节约计算成本，从而减少推理的时间，保障更好的实时性能。但是，还是需要关注整体的算法性能，因此在奖励函数中需要加入性能指标。

在本发明的一个具体实施例中，奖励函数R包含两个部分，第一部分表示精度部分，第二部分表示运行的时间成本。其中公式中的数字9表示本发明将图像切分为9个图像块。

其中，

表示预测的误差值，

表示估计的时间成本。

表示原始人群计数模型得到的预测结果，

表示粗糙人群计数模型得到的预测结果。

、

、

表示三个超参数，在训练的过程中需要进行人为的设置及调整，其中

值对于模型最终选择更多的LR图像块还是HR图像块的影响较大。

表示一组蒙特卡洛采样生成的二进制数，

表示一张图像中使用HR图像块的数量。

以下结合仿真结果对本发明的效果作进一步说明。

本发明的仿真实验基于公开的空中视角人群计数数据集VisDrone（DroneCrowd）数据集，带有标注标签和无人机收集的高清RGB图像。因测试需要，将数据集中带有标注的数据按sequence分为：1980张图像作为训练集和480张图像作为测试集。

本发明的仿真实验的硬件测试平台是： linux服务器（CPU：Intel(R) Xeon(R)Gold 5218 CPU @ 2.30GHz -16 cores，GPU：NVIDIA Quadro V100）。

仿真实验1：

本发明的仿真实验1用于证明亮度对不同分辨率图像进行人群计数的准确率存在一定影响。

测试集共480张图像，按照本发明的方法每张图像分为9张不重叠的图像块，图像块总数为4320。将4320张图像块的原始分辨率图像块（HR）在原始人群计数模型中运行，并且跟标注的真值进行对比得到error值，再将4320张图像块处理后变成低分辨率图像块（LR）在粗糙人群计数模型中运行，并且跟标注的真值经过处理后（对应到低分辨率图像像素点中）对比得到error值。

通过比较error值，按照比例2：8分为LR更优、效果差不多以及HR更优三种类型的图像块，比较每类图像块的亮度均值，结果见下表1。

表1

表中，LR更优的图像块是指使用低分辨率图像块通过粗糙人群计数模型得到的精度优于使用原始分辨率图像块经过原始人群计数模型得到的结果，且在LR更优的结果中根据error的差值在数值上按照2：8取，将差值较大的20%的图像块定义为LR更优的图像块，剩余的80%定义为效果差不多类型的图像块。同理，HR更优指的是原始分辨率图像块表现更好。

根据仿真实验表格中的实验结果，证明亮度值对于图像块选择原始还是低分辨率在精度上的表现是有影响的。

仿真实验2：

首先在没有加入强化推荐网络的仅有人群计数模型下进行测试，得到如下表2所示基准，评价指标：平均绝对误差（MAE），每秒处理帧数（FPS）：

表2

其次在加入强化推荐网络的进行整个模型的推理测试，得到如下表3所示结果，评价指标：平均绝对误差（MAE），每秒处理帧数（FPS），通过参数调整可以得到不同的使用低分辨率图像块（LR）的比例：

表3

仿真实验2的结果表明，基于强化学习图像亮度调节的空中视角人群计数方法不仅能够提高人群计数方法的速度，并且比原始分辨率图像进行检测的准确率更高。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明的保护范围应以所附权利要求为准。

Claims

1.基于强化学习图像亮度调节的空中视角人群计数方法，其特征在于包括如下步骤：

3）构建和训练强化策略网络模型，所述强化策略网络模型的输出为是否使用低分辨率图像块，以及使用低分辨率图像块时，低分辨率图像块需要增减的亮度值；

对于步骤1）所得数据集中的每个图像，以HR表示原始分辨率版本，以LR表示低分辨率版本，每个原始分辨率图像或低分辨率图像均由n²个相等大小的非重叠图像块组成，第i个图像块表示为

或

；

强化策略网络模型通过观察每个图像，输出一个二元数组

，其中

表示模型倾向于选取HR的第i个图像块

，

表示模型倾向于选取LR的第i个图像块

；

同时，强化策略网络模型通过观察每个图像，输出

，

表示将第i 个图像块

或

的图像转换成HSV图像，将V通道的值进行增减的值；图像转换成HSV图像并将V通道的值进行增减后转换回RGB图像；

4）对于待处理的无人机实时图像，进行图像块切割和降低分辨率预处理，利用步骤3）训练得到的强化策略网络模型选取对应分辨率的图像块并进行亮度值的调整，其中将选择原始分辨率的每个图像块，使用步骤2）已经训练好的原始人群计数模型得到该图像块的人群计数结果；将选择低分辨率的每个图像块，使用步骤2）已经训练好的粗糙人群计数模型得到该图像块的人群计数结果，各图像块的计数结果之和即为输入图像经估算的人群计数结果最终得到整张图像的人群计数结果。

2.根据权利要求1所述的基于强化学习图像亮度调节的空中视角人群计数方法，其特征在于，步骤1）中所述的对于其中的空中视角人群图像和标注进行图像块切割和降低分辨率预处理，包括如下步骤：

3.根据权利要求2所述的基于强化学习图像亮度调节的空中视角人群计数方法，其特征在于，所述步骤1.2）中，降低分辨率的倍数由预先设定。

4.根据权利要求2所述的基于强化学习图像亮度调节的空中视角人群计数方法，其特征在于，所述步骤1.2）中，所述低分辨率图像块的数据集包括低分辨率图像块及其标注，其中，低分辨率图像块的标注通过将每张图像对应的真值标注映射到切割后的低分辨率图像块上得到，每个低分辨图像块对应的一个标注文件。

5.根据权利要求1所述的基于强化学习图像亮度调节的空中视角人群计数方法，其特征在于，

6.根据权利要求5所述的基于强化学习图像亮度调节的空中视角人群计数方法，其特征在于，强化策略网络模型的奖励函数R示为：