CN111523495B

CN111523495B - 基于深度强化学习的监控场景中的端到端主动式人体跟踪方法

Info

Publication number: CN111523495B
Application number: CN202010341817.0A
Authority: CN
Inventors: 张堃博; 孙哲南; 张雅帆
Original assignee: Tianjin Zhongke Intelligent Identification Industry Technology Research Institute Co ltd
Current assignee: Tianjin Zhongke Intelligent Identification Co ltd
Priority date: 2020-04-27
Filing date: 2020-04-27
Publication date: 2023-09-01
Anticipated expiration: 2040-04-27
Also published as: CN111523495A

Abstract

本发明公开了一种基于深度强化学习的监控场景中的端到端主动式人体跟踪方法，包括以下步骤：S1：搭建多种虚拟环境用于训练和测试；S2：构建卷积神经网络和Actor‑Critic网络；S3：卷积神经网络的输入为摄像头获取的目标视频流，训练网络模型，直到模型收敛；S4：在虚拟测试环境中测试人体目标跟踪效果，满足指标要求；S5：将达到要求的模型迁移到现实场景中进行测试验证，满足指标要求。本发明可以在室内外监控场景中的自动人员目标跟踪，服务机器人的视觉跟踪控制，空巢老人监护系统，跨场景相机联网目标布控等多种应用中场景取代现有的人工控制和复杂控制算法，实现高效、准确和智能的机器视觉自主人员跟踪相关应用。

Description

基于深度强化学习的监控场景中的端到端主动式人体跟踪方法

技术领域

本发明涉及计算机视觉和机器学习技术领域，特别涉及人体跟踪领域，可用于空巢老人监护系统，具体涉及一种基于深度强化学习的监控场景中的端到端主动式人体跟踪方法。

背景技术

人体跟踪是指以连续的视频序列作为输入，从复杂环境中精确地检测出人体的位置并进行跟踪的过程。在现实生活中的商场监控、交通管制等领域中，摄像头一般处于静止状态，即跟踪背景在一定时间段内不会发生变化，称为静态人体跟踪，该方法多用于功能简单、环境单一的跟踪识别领域。近年来社会发展对人体跟踪提出了新的要求，当摄像头的水平和竖直方向的角度发生改变时，摄像头抓取到的图像背景是不断变化的，被称为动态人体跟踪。后者是目前人体跟踪领域的主要攻克难点。

动态人体跟踪技术不仅在科学研究中有重要意义，还在诸多社会领域具有实用价值。传统的人体跟踪包括基于颜色特征的人体跟踪、基于纹理的人体跟踪、基于方向梯度直方图特征的人体跟踪和基于卷积神经网络的人体跟踪等。其主要通过两步走的方式完成人体跟踪，即人体检测和相机控制，先在序列化视频数据中检测到人体，然后运算得到的相机应采取的动作并发送给相机控制系统。

随着GPU等硬件运算力的不断发展，基于深度学习的方法逐渐显示出不可比拟的优势：第一，通过数据训练，深度网络模型可以自动提取对后续工作有利的特征，无需人工参与；第二，深度学习简化了传统识别方法中特征抽取再分类的复杂流程。卷积神经网络（CNNs）作为深度学习的一个重要分支，具有权值共享和稀疏连接等特点，已经被成功应用于人脸识别、物体检测等领域；第三，深度强化学习算法结合深度学习在图像处理方面的优势，在处理复杂和序列化的问题方面表现优异。如果能将深度强化学习应用于人体跟踪工作中，将进一步提升人体跟踪的实时性和高效性。

发明内容

本发明的目的是提出一种基于深度强化学习的监控场景中的端到端主动式人体跟踪方法，以视频流为输入，无需进行人体检测，直接输出相机需要采取的旋转动作，是一种端到端的主动式人体跟踪方法。本发明利用低成本无需人工标注的虚拟环境进行训练，丰富的训练样本有效缓解了训练卷积神经网络过程中易出现的过拟合问题，从而获得更好的泛化能力以应对在非可控场景中的应用。

为了实现上述目的，本发明提出的一种基于深度强化学习的监控场景中的端到端主动式人体跟踪方法，该方法的具体步骤包括：

步骤S1，搭建UE4虚拟训练和测试环境，虚拟环境会有丰富的光照变化、背景和人体表面纹理的变化，这将有效抑制训练时过拟合现象的发生；

步骤S2，构建用于提取特征的卷积神经网络并连接Actor-Critic网络；

步骤S3，将相机抓取的视频流输入到步骤S2构建的网络中，直到成功跟踪时间达到300秒以上，即模型收敛；

步骤S4，使用UE4虚拟测试环境测试按照步骤S3的方法训练好的模型，输出成功跟踪时间；

步骤S5，为了验证模型在真实世界中的表现，将在虚拟环境中测试后达到要求的模型迁移到现实场景中，根据输出的成功跟踪时间，配合人为观察相机画面评定跟踪效果。

其中，所述步骤S1中，鉴于真实场景中数据采集和标注难的问题，使用UE4软件搭建与现实场景类似的虚拟环境用于训练和测试模型。为了有效抑制训练时发生过拟合现象，本发明在虚拟环境中增加了丰富的光照变化，随机更换不同的人体目标以及多种图像背景纹理。

其中，所述步骤S2中，由于输入神经网络的数据为连续的视频流，所以神经网络在多层卷积神经网络后连接了LSTM结构，将网络提取的特征传入之后的Actor-Critic网络模块，直接输出相机应该执行的旋转动作以实现人体目标一直处于相机画面的中心区域。

其中，所述步骤S3中，强化学习算法通过自主学习，最大化最终奖励值实现人体跟踪，下式为本发明设定的奖惩函数：；

其中，r为模型对相机执行的每一个动作所给出的奖惩值，A为人为设定的奖惩值上限，和/>为要使人体目标处于画面中心区域，相机分别在水平和竖直方向要旋转的角度，/>和/>为规范化参数。本发明通过调用UE4软件提供的与虚拟环境交互的方法函数获取到目标和相机在虚拟环境中的实时位置和欧拉角，借以计算得到相机所需旋转的水平和竖直方向的角度。因为本发明使用的是端到端的人体跟踪方法，网络会以相机抓取的视频流为输入，不需要进行人体检测，直接输出相机在水平和竖直方向需要旋转的角度，所以没有其他可以利用的信息作为跟踪是否成功的判据，实际训练过程中可以配合人为观察UE4虚拟环境可视化显示的相机视角评估跟踪效果，另外，在一次训练迭代中，能维持300秒以上的跟踪被认为是比较稳定和成功的跟踪。综上，配合训练过程中人为观察相机画面，模型收敛的判据为成功跟踪时长是否超过300秒；

其中，通过同时缩小相机视角与人体目标在水平和竖直方向的夹角以达到相机一直跟踪人体目标的目的。本发明提出一种基于深度强化学习的监控场景中的端到端主动式人体跟踪方法。

本发明所述方法有助于减少人力投入和提高生活质量，其有益效果体现在以下几个方面：

1.本发明将深度强化学习用在人体跟踪中，能够自动学习得到相机实现人体跟踪而需要采取的动作，无需人工参与。

2.本发明使用的是端到端的跟踪方法，简化了传统人体跟踪的复杂流程，无需分别处理目标检测和相机控制两个模块，能够直接从输入的视频流得到相机所需采取的动作。

3.与以往训练卷积神经网络需要大量有标签的数据不同，本发明通过使用UE4虚拟环境训练模型，丰富的训练样本使得训练卷积神经网络容易出现的过拟合问题得到有效抑制。

得益于上述优点，本发明可以对人体目标进行跟踪，可以应用于空巢老人监护系统，可以一定程度上减少人力投入。

附图说明

图1是本发明基于深度强化学习的监控场景中的端到端主动式人体跟踪方法流程图；

图2是本发明中使用的虚拟训练环境示例，实际训练时会有光照、人物和背景的纹理变化，右下角窗口为相机视角；

图3和图4是相机为了跟踪人体目标，分别在水平和竖直方向上需要旋转角度的计算图解；

图5是在现实世界中使用本发明提出的方法跟踪人体目标流程图。

实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在实际应用中，人体跟踪技术还有很多挑战，尤其是图像背景会实时变化的动态人体跟踪领域。例如，整个跟踪系统需要同时兼顾图像处理模块和旋转控制模块，图像处理模块需要处理光照和背景纹理变化，旋转控制模块需要注意旋转指令发送和执行的实时性。

传统的运动人体跟踪方法基于将图像处理和相机控制两个模块分离开来处理，而本发明设计的深度强化学习方法将二者统一考虑，使用端到端的学习方法简化了中间繁琐的流程。同时使用UE4软件搭建虚拟训练和测试环境，丰富的数据量可以有效缓解训练过程中的过拟合问题。

本发明提出的基于深度强化学习的监控场景中的端到端主动式人体跟踪方法，如图1所示，包括以下几个步骤：

步骤S1，搭建UE4虚拟训练和测试环境（如图2所示），虚拟环境会有丰富的光照变化、人体表面纹理和背景的变化，这将有效抑制训练过程中发生的过拟合问题；

所述步骤S1具体为：鉴于真实场景中数据采集和标注难的问题，使用UE4软件搭建与现实场景类似的虚拟环境用于训练和测试深度强化学习模型。为了有效抑制训练时发生过拟合现象，本发明在虚拟环境中增加了丰富的光照变化，随机更换不同的人体目标以及多种背景纹理，另一方面，虚拟环境也为训练提供了丰富的低成本的无需人工标注的数据。

步骤S2，构建卷积神经网络并联结Actor-Critic网络；

所述步骤S2具体为：由于输入神经网络的数据为相机抓取的实时视频流，所以神经网络在多层卷积神经网络后连接了适合学习序列化数据的LSTM结构，提取的特征输入之后的Actor-Critic网络模块，最后的输出为相机应该在水平和竖直方向旋转的角度，以实现目标人体处于相机画面的中心区域。

步骤S3，将相机抓取的视频流输入到S2构建的网络中，直到成功跟踪时间达到300秒以上，即模型收敛；

所述步骤S3具体为：强化学习算法通过最大化最终奖励值来实现人体跟踪，下式为本发明设定的奖惩函数：；

其中，r为模型对相机所执行的每一个动作给出的奖惩值，A为人为设定的奖惩值上限，和/>分别为使得人体目标处于画面中心区域相机在水平和竖直方向所需要旋转的角度，/>和/>为规范化参数。本发明可以通过调用UE4软件提供的与虚拟环境交互的方法函数，获取到目标和相机在虚拟环境中的实时位置坐标和欧拉角，通过同时缩小公式中的两个旋转角度（详见图3和图4）以最大化奖励值，鼓励相机一直跟踪人体目标，图3中，A箭头表示相机水平方向的朝向。在实际训练中，可能会出现目标丢失的情况，如果相机在执行20个旋转动作内成功跟踪到目标，在本发明中仍认为该次跟踪为成功的跟踪，跟踪时间仍被计入成功跟踪总时长，如若没有，虚拟环境会恢复初始化状态并开始新的一次迭代训练。因为本发明使用的是端到端的人体跟踪方法，网络会以相机抓取的视频流为输入，不需要进行人体检测，直接输出相机在水平和竖直方向需要旋转的角度，所以没有其他可以利用的信息作为跟踪是否成功的判据，但是在实际训练过程中，可以配合人为观察UE4虚拟软件可视化显示的相机视角画面判定跟踪过程中人体目标是否处于相机画面中心区域，另外，在一次训练迭代中，能维持300秒以上的跟踪被认为是比较稳定和成功的跟踪。综上，配合训练过程中人为观察相机画面，模型收敛的判据为成功跟踪时间达到300秒。

所述步骤S4具体为：本阶段使用与训练环境截然不同的测试环境测试已经收敛的模型的泛化能力，通过相机旋转使得人体目标一直处于画面中心区域，在本发明中被认为是成功的跟踪。测试时，配合人为观察相机画面，以成功跟踪的总时长作为模型是否达到迁移到真实环境的判据。

步骤S5，为了验证模型在真实世界中的表现，将在虚拟环境中测试后达到要求的模型迁移到现实场景中，根据输出的成功跟踪时长和人为观察人体目标是否处于相机画面中心区域评定跟踪效果。

具体的，本发明在现实世界中使用一种支持深度学习算法、360°水平旋转和垂直方向上支持-20°到90°旋转的双自由度球型摄像机。摄像机被搭载在一个静止的柱杆支架上（简易示意图见图4），将相机采集到的视频流传入训练好的网络模型中，再将输出的水平和竖直方向的旋转角度发送给相机控制模块。在真实环境中，和在虚拟环境中训练和测试时相似地，相机可能会出现丢失目标的情况，此时相机会执行旋转动作以尝试寻找目标，如果相机在20个动作内成功跟踪到目标，那么该次跟踪仍被认为是成功的跟踪，跟踪时间仍计入成功跟踪总时长。因为本发明使用的是端到端的人体跟踪方法，不需要进行人体检测的步骤，模型读入视频流会直接输出相机应该采取的动作，所以最后可以参考跟踪时长并配合人为观察相机画面评估人体跟踪的效果。本阶段流程图见图5。

本发明的应用示例列举如下：

基于深度强化学习的监控场景中的端到端主动式人体跟踪方法在空巢老人监护系统中的应用。

本发明可应用于空巢老人监护系统中。2012年，我国进入了第一个老年人口增长的高峰，空巢老人的人口规模持续上升，预计到2030年我国65岁以上的老年人口将达到15.98%。随着城市化进程的不断深入，家庭结构的小型化以及子女的减少和代际居住的分离倾向，导致多数老人独居。针对老年人口的正规长期健康服务的需求越来越迫切，空巢老年人在发生跌倒、昏迷等紧急情况下的监护和生活辅助显得越来越重要。不同于传统的运动人体跟踪工作将图像处理和相机控制分为两个模块处理，本发明使用的基于深度强化学习的监控场景中的端到端主动式人体跟踪方法将二者统一考虑，充分结合深度学习在图像处理方面的优势和强化学习在处理复杂、多方面和序列化的数据在此问题方面的优异表现，使用端到端的方法解决人体跟踪问题。

需要说明的是，本申请中未详述的技术方案，采用公知技术。

以上所述仅是本发明的优选实施方式，应当指出的是，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于深度强化学习的监控场景中的端到端主动式人体跟踪方法，其特征在于，所述方法的具体步骤包括：

步骤S1，搭建UE4虚拟训练和测试环境；

步骤S5，为了验证模型在真实世界中的表现，将在虚拟环境中测试后达到要求的模型迁移到现实场景中，根据输出的成功跟踪时间，配合人为观察相机画面评定跟踪效果；

在所述步骤S3中，强化学习算法通过自主学习，最大化最终奖励值实现人体跟踪，下式为设定的奖惩函数：；

其中，r为模型对相机执行的每一个动作所给出的奖惩值，A为人为设定的奖惩值上限，和/>为要使人体目标处于画面中心区域，相机分别在水平和竖直方向要旋转的角度，/>和为规范化参数；

通过调用UE4软件提供的与虚拟环境交互的方法函数，获取到目标和相机在虚拟环境中的实时位置坐标和欧拉角，通过同时缩小公式中的两个旋转角度以最大化奖励值，鼓励相机一直跟踪人体目标；如果相机在执行20个旋转动作内成功跟踪到目标，仍认为该次跟踪为成功的跟踪，跟踪时间仍被计入成功跟踪总时长，如若没有，虚拟环境会恢复初始化状态并开始新的一次迭代训练。

2.根据权利要求1所述的基于深度强化学习的监控场景中的端到端主动式人体跟踪方法，其特征在于，所述步骤S1中，在虚拟环境中增加了丰富的光照变化，随机更换不同的人体目标以及多种图像背景纹理。

3.根据权利要求1所述的基于深度强化学习的监控场景中的端到端主动式人体跟踪方法，其特征在于，所述步骤S2中，神经网络在多层卷积神经网络后连接了LSTM结构，将网络提取的特征传入之后的Actor-Critic网络模块，直接输出相机应该执行的旋转动作以实现人体目标一直处于相机画面的中心区域。

4.根据权利要求1所述的基于深度强化学习的监控场景中的端到端主动式人体跟踪方法，其特征在于，通过同时缩小相机视角与人体目标在水平和竖直方向的夹角以达到相机一直跟踪人体目标的目的。