CN114140659A

CN114140659A - 一种基于无人机视角下人体检测的社交距离监控方法

Info

Publication number: CN114140659A
Application number: CN202111227686.4A
Authority: CN
Inventors: 肖阳; 李帅; 曹治国; 张明阳
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2021-10-21
Filing date: 2021-10-21
Publication date: 2022-03-04
Anticipated expiration: 2041-10-21

Abstract

本发明公开了一种基于无人机视角下人体检测的社交距离监控方法，属于数字图像识别领域，包括：将无人机图像输入至行人检测模型，以获得各行人目标对应的边界框；对于每两个行人目标，分别获得预设的人体关键点在边界框中的位置坐标后，变换至世界坐标系下，以此计算两个行人目标之间的距离；人体关键点在边界框中的二维坐标(u,v)和在世界坐标系下的三维坐标(X,Y,Z)之间的变换关系为：

Δh为先验身高，Δv为边界框高度；a_x、a_y、u₀、v₀为相机内参矩阵中的参数，θ为俯仰角。本发明无需在无人机飞行过程中对两个坐标系间的转换矩阵进行测量和矫正，减少了无人机测距的复杂度，从而针对低成本的无人机实现有效的社交距离监控。

Description

一种基于无人机视角下人体检测的社交距离监控方法

技术领域

本发明属于数字图像识别领域，更具体地，涉及一种基于无人机视角下人体检测的社交距离监控方法。

背景技术

部分研究人员尝试利用计算机视觉的方式通过固定的摄像头监控系统对街道或者商场等场景进行主动地社交距离监控。但是固定的摄像监控系统有一定的局限，如需要额外的安装或者只能对特定的场景进行监察。而目前随着无人机技术的飞快发展，利用无人机进行一些特殊的工作作业已经渐渐地成为了趋势。这也使得基于计算机视觉的无人机视角下的社交距离自动监控的发展有了重要的价值。

目前的研究尝试将该任务划分成行人的检测和距离测定两个部分。无人机下的行人检测问题目前仍没有被很好的解决。因为无人机比常规的监控摄像头高度高很多，可以进行大视角广范围的区域监视，所以拍摄的图像中观测目标就会偏小，占据更小的像素值，不易定位和分类。目前解决的主要手段即将图像裁剪，进行区域性的检测然后将裁剪后每张图的检测结果合并到一起。但是这种方式会增加测试时间，在实际应用中过于复杂繁琐。对于测距的问题，目前大多方法仍采用反投影变化，即单应性映射，通过相机内参和坐标系的转换矩阵将拍摄图像转换到俯视图视角，再进行测量。但是这种方式更适合于固定摄像头，因为相机坐标系和世界坐标系的转换矩阵可以固定下来。但是对于无人机而言，其中搭载的相机多为低成本的单目相机，而由于该转换关系需要实时地进行测量和矫正，这对于低成本的无人机是很复杂而困难的任务。

总体而言，如何提高无人机视角下社交距离的测量精度和实时性，以有效监控社交距离，达到防治传染病的目的，是一个亟待解决的问题。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了一种基于无人机视角下人体检测的社交距离监控方法，旨在提高无人机视角下社交距离的测量精度和实时性，以有效监控社交距离，达到防治传染病的目的。

为实现上述目的，按照本发明的一个方面，提供了一种基于无人机视角下人体检测的社交距离监控方法，包括：

将包含行人目标的无人机图像输入至已训练好的行人检测模型，以获得各行人目标对应的边界框；对于每两个行人目标，分别获得预设的人体关键点在对应的两个边界框中的位置坐标后，变换至世界坐标系下，以计算世界坐标系下这两个行人目标中人体关键点之间的距离，作为社交距离；

对于任意一个行人目标，其中人体关键点在边界框中的二维坐标(u,v) 和在世界坐标系下的三维坐标(X,Y,Z)之间的变换关系为：

其中，

表示人体关键点的尺度因子；Δh 为预设的先验身高，Δv为边界框的高度；a_x和a_y分别表示实际三维空间与二维图像空间在x轴和y轴上的比例，(u₀,v₀)表示无人机中相机光轴在图像坐标系中的偏移量，θ表示俯仰角。

本发明在行人检测结果的基础上，借助身高的先验信息计算每个行人目标中预设人体关键点的尺度因子，即可完成行人之间距离的测定，并且在距离测定的过程中无需在无人机飞行过程中对相机坐标系和世界坐标系间的转换矩阵进行测量和矫正。

进一步地，若无人机图像对应的翻滚角不为0，则在将该无人机图像输入至行人检测模型之前，还包括：对该无人机图像进行变换，使其翻滚角为0。

本发明利用行人检测结果和身高先验信息完成行人距离的计算，在输入的无人机图像翻滚角为0时，计算精度最高，因此，本发明在将无人机图像输入至行人检测模型之前，通过变换保证其翻滚角为0，能够进一步保证距离测量精度。

进一步地，计算两个行人目标之间的社交距离时，所选取的人体关键点位于不同行人的同一位置。

本发明所选取的用于计算行人距离的人体关键点，位于不同行人的同一位置，能够进一步保证行人距离的计算精度。

进一步地，行人检测模型的训练方法包括：

在训练过程中，采用ATSS对预定义的锚框进行正、负样本分配，并且，使用GIoU作为损失函数。

本发明在对行人检测模型的训练过程中，基于ATSS(Adaptive Training SampleSelection，自适应选择正负训练样本)动态地对预定义的锚框进行正负样本分配并利用GIoU进行回归损失监督，能够提高网络对小目标的召回率和定位精度，从而提高无人机视角下行人检测的精度，进一步提高后续行人距离的测定精度。

进一步地，行人检测模型的训练方法还包括：

利用预设大小的裁剪框在训练图像上滑动，以裁剪得到相同大小的图片；裁剪过程中，裁剪框的滑动步长小于其边长；

将裁剪得到的各图片在1～1.5倍范围内随机放大后，对行人检测模型进行训练。

本发明利用裁剪得到的图片作为训练样本对行人检测模型进行训练，能够节约模型训练所需的资源，具体采用重叠式裁剪，则可以在节约训练资源的基础上，进一步提高模型的训练效果；由于无人机视角下的行人目标较小，本发明在裁剪图片的基础上，在适当范围(1～1.5倍)内进行随机放大，能够从图像层面进行分辨率的提高，使图像中的小目标更容易被模型检测出来，从而有效提高模型的训练效果。

进一步地，在行人检测模型的验证和/或测试阶段，输入行人检测模型的图像均被放缩至固定分辨率，且该分辨率大于预设阈值。

本发明在模型验证、测试阶段，利用较高分辨率(高于预设阈值)的图片进行验证、测试，能够保证模型对于小目标的检测精度。

进一步地，行人检测模型中包括四层的多尺度特征金字塔，且多尺度特征金字塔中各层的输出分辨率分别为输入图像尺寸的4、8、16、32倍降采样大小。

传统的多尺度特征金字塔中，各层的降采样倍数一般为8、16、32、 64……，本发明将行人检测模型中的多尺度特征金字塔的各层的降采样倍数修改为4、8、16、32，相比于传统的多尺度特征金字塔，从较小的降采样倍数开始降采样，能够增加输出特征的分辨率，由此从特征层面上增加了分辨率，增强小目标的特征表达能力，从而有效提高模型的测试效果。

进一步地，行人检测模型为Faster R-CNN。

按照本发明的另一个方面，提供了一种计算机可读存储介质，包括存储的计算机程序，计算机程序被处理器执行时，控制计算机可读存储介质执行本发明提供的基于无人机视角下人体检测的社交距离监控方法。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

(1)本发明利用行人的身高先验，与行人检测得到的边界框的高度间的关系求解出每个位置的尺度因子，即可完成行人间三维距离的测量，在相机内参标定好的情况下，该三维测距过程无需在无人机飞行过程中对相机坐标系和世界坐标系间的转换矩阵进行测量和矫正，减少了搭载单目摄像头的无人机进行测距的复杂度，从而针对低成本的无人机实现有效的社交距离监控，达到防治传染病的目的。

(2)本发明通过高分辨的训练、验证和测试策略，从图像层面增加图像分辨率，提高了行人检测模型对小目标的适应性；通过修改特征金字塔中输出分辨率的方式，在特征层面上亦增加了特征图像的分辨率，提高网络所学习到的特征对小目标的表达能力，即提高了网络对小目标的适应性；在训练过程中通过动态地调整正负样本划分的阈值，增加网络对小目标的召回率；通过GIoU的损失函数的监督加强网络对小目标的定位能力；因此，本发明可有效提高在无人机视角下对小目标行人的检测精度，为后续的三维测距提供更为准确的边界框，进一步提高社交距离的测量精度。

附图说明

图1为本发明实施例提供的社交距离测定示意图；

图2为本发明实施例提供的基于无人机视角下人体检测的社交距离监控方法流程图；

图3为本发明实施例提供的行人检测模型示意图；

图4为本发明实施例提供的重叠式裁剪示意图；

图5为本发明提供的行人检测和距离测定示例图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

在本发明中，本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

为了解决现有的社交距离监控方法在无人机下需要根据无人机状态不断地复杂地重新测量转移矩阵才能完成距离测定的技术问题，本发明提供了一种基于无人机视角下人体检测的社交距离监控方法，其整体思路在于：通过建立针孔摄像机模型，通过预定行人的身高先验，结合行人检测得到的边界框的高度，求解出边界框中每个位置的尺度因子，从而在飞行过程中不需要改变相机坐标系和世界坐标系间转换矩阵的情况下实现行人距离的测量，从而在保证社交距离测定精度的情况下，有效提高测量实时性；在此基础上，对行人检测模型的结构和训练方法进行改进，提高网络模型对小目标的适应性，为三维测距提供更为准确的边界框，进一步提高社交距离的测量精度。

本发明提供的基于无人机视角下人体检测的社交距离监控方法，对于单目图像、双目图像、深度图像等都可完成行人距离测定，考虑到目前广泛采用的无人机成本较低，其中搭载的相机多为低成本的单目相机，不失一般性地，在以下实施例中，均以单目图像为例进行说明。

在详细解释本发明的技术方案之前，先对本发明实现行人间距离测定的基本原理简要介绍如下：

在具体进行社交距离监控之前，需要先对无人机中相机的内参矩阵P 与无人机俯仰角θ进行标定；可选地，本实施例中，使用的无人机具体是大疆无人机DJI Tello，飞行过程中的俯仰角度θ＝15°。

首先建立针孔摄像机模型，相应地，相机的内参矩阵P定义如下：

其中，a_x和a_y分别表示实际三维空间与二维图像空间在x轴和y轴上的比例，(u₀,v₀)表示无人机中相机光轴在图像坐标系中的偏移量；使用张正友标定法测得上述内参矩阵具体如下：

应当理解的是，上述参数标定结果仅为一种示例性的描述，不应理解为对本发明的为一限定，在实际应用中，可根据所选用的无人机进行相对应的测量。

本发明将无人机视角下的社交距离监控系统看作两个子任务，即行人检测任务和基于二维图像数据的三维测距任务，先进行行人检测，再转换到三维坐标系下进行测距，如图1所示。

基于上述标定结果，及行人检测得到的边界框，借助身高先验，可估计行人在世界坐标系下的三维坐标，具体过程如下：

翻滚角为无人机在飞行过程中，相机摄像头以光轴旋转产生的角度，在实际应用中，可直接设置翻滚角为0，或者通过简单的变换，将所拍摄的图像变换为翻滚角为0时的图像，基于此，本发明限定无人机飞行时翻滚角度为0，并按以下规则定义世界坐标系和相机坐标系的关系：

即相机坐标系和世界坐标系原点重合，并且二者的XY面重合(航向角为0)，由于基于位置坐标所计算的距离为相对距离，故此限定不会影响距离的测量结果；如此限定之后，相机在世界坐标系中位移为0，航向角为 0，又由于翻滚角为0，故而相机坐标系和世界坐标系之间的转换矩阵Q仅仅与俯仰角θ有关，即如下定义：

基于以上论述，针对针孔相机模型的图像坐标系到世界坐标系的投影变换定义如下：

其中，(u,v)和(X,Y,Z)分别表示某点在图像坐标系中的像素位置和世界坐标系下的三维坐标，s表示该点在两个坐标系中的尺度因子；

现由翻滚角为0，即行人目标在图像中为直立状态，定义头部和脚部的关键点在图像中的坐标分别为(u,v)和(u,v+Δv)；在世界坐标系中的坐标分别为(X,Y-Δh,Z)和(X,Y,Z)。其中Δv为上述行人检测算法所预测的边界框的高度；Δh为预设的先验身高，具体可根据所监控的区域范围内的行人平均身高设定。

基于上述描述，可以求解脚部的尺度因子：

据此，可以求解出脚部的关键点在世界坐标系下的值：

通过上述关于尺度因子s的计算公式，以及同一点在相机坐标系和世界坐标系中的位置坐标转换关系，即可求出行人中各点在世界坐标系下的位置坐标；

针对同一个关键点，每个行人中该关键点在世界坐标系下的真实三维坐标都可求解出来。

至此，每个行人脚部的关键点在世界坐标系下的真实三维坐标可以求解出来。

最终对于通过如下距离公式即可求出两两行人之间的社交距离 distance，完成对社交距离的监控：

其中，(X_i,Y_i,Z_i)和(X_j,Y_j,Z_j)分别表示两个不同行人中对应点在世界坐标系下的三维坐标。

根据以上分析可知，本发明通过建立针孔摄像机模型，发现可以通过预定行人的身高先验，利用边界框的高度的关系求解出每个位置的尺度因子，最终完成三维测距的目的，该方法仅仅需要标定一次无人机摄像头的内参数据以及飞行过程中的俯仰角度，无需在测量过程中对相机坐标系和世界坐标系间的转换矩阵进行测量和矫正，相较于之前的方法大大地减少了无人机测距的复杂度。

以下为实施例。

实施例1：

一种基于无人机视角下人体检测的社交距离监控方法，如图2所示，包括：

将包含行人目标的无人机图像输入至已训练好的行人检测模型，以获得各行人目标对应的边界框；

对于每两个行人目标，分别获得预设的人体关键点在对应的两个边界框中的位置坐标后，变换至世界坐标系下，以计算世界坐标系下这两个行人目标中人体关键点之间的距离，作为社交距离；

其中，

表示人体关键点的尺度因子；Δh 为预设的先验身高，可选地，本实施例中，Δh＝1.7m；Δv为边界框的高度； a_x和a_y分别表示实际三维空间与二维图像空间在x轴和y轴上的比例，(u₀,v₀) 表示无人机中相机光轴在图像坐标系中的偏移量，基于以上相机内参矩阵P 的标定结果可知，本实施例中，a_x＝1851.1，a_y＝1847.0，(u₀,v₀)＝(1298.3,965.3)；θ表示俯仰角，本实施例中，θ＝15°。

为了进一步保证行人间距离的计算精度，本实施例中，若无人机图像对应的翻滚角不为0，则在将该无人机图像输入至行人检测模型之前，还包括：对该无人机图像进行变换，使其翻滚角为0；

计算两个行人目标之间的社交距离时，所选取的人体关键点位于不同行人的同一位置；可选地，本实施例对于每一对行人所选取的人体关键点均为脚部关键点；应当说明的是，人体关键点的选取，需要参考参与计算的具体行人目标的检测结果，不同的行人对在计算距离时，所选取的人体关键点可能不同；所选取的人体关键点，除了脚部关键点外，还可以是头顶关键点等其他合适的关键点。

作为一中可选的实施方式，本实施例中，所使用的行人检测模型为 Faster R-CNN，其结构如图3所示；

为了提高行人检测模型对小目标的适应性，以为后续的距离测定提供更为精确的边界框，以进一步提高距离测定的精度，本实施例对行人检测模型的结构和训练方法做出了进一步的改进；

考虑到无人机视角下的行人目标偏小的特性，保持通用目标的检测方法的设置会降低对小目标的召回率，故而本实施例将多尺度特征金字塔的输出分辨率修改为输入图像尺寸的4，8，16，32倍降采样大小，如图3所示，由此能够从特征层面上增加了分辨率，使图像中的小目标更容易被模型检测出来，从而有效提高模型的训练效果；

行人检测模型的训练方法包括：

利用预设大小的裁剪框在已标注行人目标边界框的图像上滑动，以裁剪得到相同大小的图片；裁剪过程中，裁剪框的滑动步长小于其边长，由此能够实现一种重叠式的裁剪；具体地，本实施例中，将训练用的图像重叠式地裁剪到416*416的分辨率大小，在裁剪过程中，对于不足的无法补充的区域用零填充，对于裁剪不足但可以补充的区域，向有图像的位置平移，如图4所示；通过裁剪，使用小图片进行模型训练，能够节约模型训练所需的资源，具体采用重叠式裁剪，则可以在节约训练资源的基础上，进一步提高模型的训练效果；

为了进一步提高模型对于小目标的检测能力，可选地，本实施例还包括：将裁剪得到的各图片在1～1.5倍范围内随机放大后，对行人检测模型进行训练；

本实施例通过在裁剪图片的基础上，在适当范围(1～1.5倍)内进行随机放大，能够从图像层面进行分辨率的提高，使图像中的小目标更容易被模型检测出来，从而有效提高模型的训练效果；

可选地，本实施例模型训练的过程中基于ATSS(Adaptive Training SampleSelection，自适应选择正负训练样本)动态地对预定义的锚框进行正负样本分配并利用GIoU进行回归损失监督，能够提高网络对小目标的召回率和定位精度，具体过程如下：

(S1)基于动态阈值的标签分配机制：对于特征金字塔的每层特征图 F_l(1≤l≤L,L＝4)，网络会设置不同的锚框组作为预测框的预定义，记作

其中，T_l为l层设置的锚框数量，针对不同的分辨率会有不同的取值；分配标签时，对于每个真实标注G_j(1≤j≤N,N为该张图像中目标个数)，网络从每层中选择与G_j的IoU最大的K(K＝9)个锚框，构成候选框组

IoU的定义如下：

即两个框的面积的并集和交集的比值，用于描述二者的重叠程度。

然后计算C_j和G_j的IoU的均值m_j和方差v_j。则用于分配的IoU阈值即

thr_j＝m_j+v_j

则对于G_j而言，最后选择的正样本的锚框组{P_j|IoU(G_j,P_j)≥thr_j,P_j∈ C_j}，其余均为负样本锚框；

对每一个真实标注均执行上述步骤，得到该张训练图像中的正负样本分配结果；

(S2)基于准确定位的回归损失函数应用：对于分配的正样本，需要对其预测的定位框进行监督，假定某个正样本锚框为

以及对应的真实标注框为G_j，二者的最小闭包框为P_G，则使用的损失函数定义为：

上式中第二项的物理含义即二者最小闭包框中没有被二者占比的部分和闭包框的比值；

本实施例在对行人检测模型的训练过程中，基于ATSS(Adaptive TrainingSample Selection，自适应选择正负训练样本)动态地对预定义的锚框进行正负样本分配并利用GIoU进行回归损失监督，能够提高网络对小目标的召回率和定位精度，从而提高无人机视角下行人检测的精度，进一步提高后续行人距离的测定精度。

为了进一步提高模型对小目标的适应性，本实施例还包括：利用高分辨率图像对行人检测模型进行验证和测试，具体地，在行人检测模型的验证和测试阶段，输入行人检测模型的图像均被放缩至固定分辨率，且该分辨率大于预设阈值；可选地，本实施例中，该固定分辨率具体为2000*1500，相比于其他通用行人检测算法多以1000*800分辨率的图像进行模型的验证和测试，本实施例在模型验证、测试阶段，利用较高分辨率的图片进行验证、测试，能够保证模型对于小目标的检测精度；在实际应用中，相关阈值可根据具体的检测效果相应设置。

本发明还基于上述实施例所提供的方法对实际的无人机图像进行了距离测量，测量结果如图5所示；根据图5可知，在无人机视角下，整个场景中行人目标较小，测量所得的行人间距离为1.48m，实际的距离为1.5m，该测量结果说明了本实施例所提供的方法可以达到有效检测和精确测距的目的。

总体而言，本实施例能够针对低成本的无人机实现有效的社交距离监控，达到防治传染病的目的。具体地，在行人检测阶段，通过高分辨的训练和测试策略，从图像层面增加图像分辨率，提高了行人检测模型对小目标的适应性；通过修改特征金字塔中输出分辨率的方式，在特征层面上亦增加了特征图像的分辨率，提高网络模型对小目标的适应性；在训练过程中通过动态地调整正负样本划分的阈值，增加网络对小目标的召回率；通过GIoU的损失函数的监督加强网络对小目标的定位能力；因此，本实施例可有效提高在无人机视角下对小目标行人的检测精度，为后续的三维测距提供更为准确的边界框，进一步提高社交距离的测量精度；在距离测量阶段，利用行人的身高先验，与行人检测得到的边界框的高度间的关系求解出每个位置的尺度因子，完成行人间三维距离的测量，在保证距离测量精度的情况下，能够提高距离测量的实时性。

实施例2：

一种计算机可读存储介质，包括存储的计算机程序，计算机程序被处理器执行时，控制计算机可读存储介质执行上述实施例1提供的基于无人机视角下人体检测的社交距离监控方法。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于无人机视角下人体检测的社交距离监控方法，其特征在于，包括：

对于任意一个行人目标，其中人体关键点在边界框中的二维坐标(u,v)和在世界坐标系下的三维坐标(X,Y,Z)之间的变换关系为：

其中，

表示人体关键点的尺度因子；Δh为预设的先验身高，Δv为边界框的高度；a_x和a_y分别表示实际三维空间与二维图像空间在x轴和y轴上的比例，(u₀,v₀)表示无人机中相机光轴在图像坐标系中的偏移量，θ表示俯仰角。

2.如权利要求1所述的基于无人机视角下人体检测的社交距离监控方法，其特征在于，若无人机图像对应的翻滚角不为0，则在将该无人机图像输入至所述行人检测模型之前，还包括：对该无人机图像进行变换，使其翻滚角为0。

3.如权利要求1所述的基于无人机视角下人体检测的社交距离监控方法，其特征在于，计算两个行人目标之间的社交距离时，所选取的人体关键点位于不同行人的同一位置。

4.如权利要求1-3任一项所述的基于无人机视角下人体检测的社交距离监控方法，其特征在于，所述行人检测模型的训练方法包括：

5.如权利要求4所述的基于无人机视角下人体检测的社交距离监控方法，其特征在于，所述行人检测模型的训练方法还包括：

利用预设大小的裁剪框在训练图像上滑动，以裁剪得到相同大小的图片；裁剪过程中，所述裁剪框的滑动步长小于其边长；

将裁剪得到的各图片在1～1.5倍范围内随机放大后，对所述行人检测模型进行训练。

6.如权利要求4所述的基于无人机视角下人体检测的社交距离监控方法，其特征在于，在所述行人检测模型的验证和/或测试阶段，输入所述行人检测模型的图像均被放缩至固定分辨率，且该分辨率大于预设阈值。

7.如权利要求4所述的基于无人机视角下人体检测的社交距离监控方法，其特征在于，所述行人检测模型中包括四层的多尺度特征金字塔，且所述多尺度特征金字塔中各层的输出分辨率分别为输入图像尺寸的4、8、16、32倍降采样大小。

8.如权利要求7所述的基于无人机视角下人体检测的社交距离监控方法，其特征在于，所述行人检测模型为Faster R-CNN。

9.一种计算机可读存储介质，其特征在于，包括存储的计算机程序，所述计算机程序被处理器执行时，控制所述计算机可读存储介质执行权利要求1～8任一项所述的基于无人机视角下人体检测的社交距离监控方法。