CN113421287A

CN113421287A - 一种基于视觉主动目标跟踪的机器人及其控制方法、系统

Info

Publication number: CN113421287A
Application number: CN202110807203.1A
Authority: CN
Inventors: 侯晓楠; 杨亚; 王春雷; 范春辉; 王欣然; 刘齐轩; 詹明昊
Original assignee: Shanghai Micro Motor Research Institute 21st Research Institute Of China Electronics Technology Corp
Current assignee: Shanghai Micro Motor Research Institute 21st Research Institute Of China Electronics Technology Corp
Priority date: 2021-07-16
Filing date: 2021-07-16
Publication date: 2021-09-21

Abstract

本申请提供了一种基于视觉主动目标跟踪的机器人及其控制方法、系统。机器人上搭载有视觉系统，视觉系统部署有多自由度的相机云台及视觉主动跟踪模型，相机云台用于对机器人视野中出现的目标对象进行检测，基于视觉主动目标跟踪的机器人控制方法包括：根据检测到的视野中出现的目标对象，提取目标对象的运动特征图像；基于视觉主动跟踪模型，根据目标对象的运动特征图像，对目标对象的运动进行预判，以对机器人本体和/或相机云台的位姿进行调整。籍此，由视觉主动跟踪模型通过强化学习对跟踪的目标对象的运动做出预判，从而控制机器人本体和/或相机云台根据预判提前做出调整，有效避免跟踪延时。

Description

一种基于视觉主动目标跟踪的机器人及其控制方法、系统

技术领域

本申请涉及机器人控制技术领域，特别涉及一种基于视觉主动目标跟踪的机器人及其控制方法、系统。

背景技术

机器人对目标对象的跟踪在智能跟随(跟随目标自主移动)、智能监控(基于运动识别，自动化监测一个场景以检测可以行为)、视觉导航(计算拍摄物体的运动轨迹)等应用场景有着广大的需求。

传统的实现方法是将图像中的目标跟踪和相机控制分成两个独立的任务，这导致系统在进行联调优化时变得繁琐复杂，要单独实现这两个任务的代价也是高昂的，既需要大量人工标注目标位置用于训练跟踪模块，也需要在真实系统中通过试错整定相机控制器参数。此外，传统的视觉跟踪方法仅仅专注于从连续帧中提取出关于目标的2D包围框，而没有考虑如何主动控制机器人和其相机云台的移动，属于“被动”跟踪，这将在跟踪物体时导致延时。

因此，需要提供一种针对上述现有技术不足的改进技术方案。

发明内容

本申请的目的在于提供一种基于视觉主动目标跟踪的机器人及其控制方法、系统，以解决或缓解上述现有技术中存在的问题。

为了实现上述目的，本申请提供如下技术方案：

本申请提供了一种基于视觉主动目标跟踪的机器人控制方法，所述机器人上搭载有视觉系统，所述视觉系统部署有多自由度的相机云台及视觉主动跟踪模型，所述相机云台用于对所述机器人视野中出现的目标对象进行检测，所述基于视觉主动目标跟踪的机器人控制方法包括：步骤S101、根据检测到的视野中出现的目标对象，提取所述目标对象的运动特征图像；步骤S102、基于所述视觉主动跟踪模型，根据所述目标对象的运动特征图像，对所述目标对象的运动进行预判，以对所述机器人本体和/或所述相机云台的位姿进行调整。

可选的，所述相机云台对检测到的视野中出现的目标对象进行拍摄，得到所述目标对象的拍摄图片；对应的，步骤S101具体为：基于卷积神经网络，对所述目标对象的拍摄图片进行特征提取，得到所述目标对象的运动特征图像。

可选的，在步骤S102中，基于所述视觉主动跟踪模型，根据所述目标对象的运动特征，对所述目标对象的运动进行预判，得到所述机器人本体和所述相机云台的调整策略；对所述调整策略与预设策略阈值进行对比，根据对比结果对所述机器人本体和/或所述相机云台的位姿进行调整。

可选的，所述预设策略阈值小于等于所述相机云台的调整范围；对应的，所述对所述调整策略与预设策略阈值进行对比，根据对比结果对所述机器人本体和/或所述相机云台的位姿进行调整，包括：响应于所述对比结果小于等于所述预设策略阈值，则根据所述调整策略对所述相机云台的位姿进行调整；响应于所述对比结果大于所述相机云台的调整范围，则根据所述调整策略同时对所述机器人本体和所述相机云台的位姿进行调整。

可选的，在步骤S101之前，还包括：对所述相机云台的历史拍摄图像进行特征提取，得到历史观测特征；其中，所述历史观测特征为对应的所述历史拍摄图像中拍摄对象的特征图像，所述历史拍摄图像有多个，每个所述历史拍摄图像对应一个所述历史观测特征；对多个所述历史观测特征进行融合，得到融合特征；其中，所述融合特征包含所述历史拍摄图像中拍摄对象的时序特征，所述时序特征包括所述历史拍摄图像中拍摄对象的速度和移动方向；根据所述融合特征，基于演员评论家算法构建所述视觉主动跟踪模型。

可选的，所述对所述相机云台的历史拍摄图像进行特征提取，得到历史观测特征，具体为：基于卷积神经网络，对所述相机云台的历史拍摄图像进行特征提取，得到所述历史观测特征。

可选的，所述对多个所述历史观测特征进行融合，得到融合特征，具体为：基于长短期记忆人工神经网络，对多个所述历史观测特征进行融合，得到所述融合特征。

本申请实施例还提供一种基于视觉主动目标跟踪的机器人控制系统，所述机器人上搭载有视觉系统，所述视觉系统部署有多自由度的相机云台及视觉主动跟踪模型，所述相机云台用于对所述机器人视野中出现的目标对象进行检测，所述基于视觉主动目标跟踪的机器人控制系统包括：特征提取单元，配置为根据检测到的视野中出现的目标对象，提取所述目标对象的运动特征图像；位姿调整单元，配置为基于所述视觉主动跟踪模型，根据所述目标对象的运动特征图像，对所述目标对象的运动进行预判，以对所述机器人本体和/或所述相机云台的位姿进行调整。

本申请实施例还提供一种基于视觉主动目标跟踪的机器人，所述基于视觉主动目标跟踪的机器人上部署有上述任一实施例所述的基于视觉主动目标跟踪的机器人控制方法。

与最接近的现有技术相比，本申请实施例的技术方案具有如下有益效果：

本申请实施例提供的技术方案中，在机器人上搭载有视觉系统，所述视觉系统部署有多自由度的相机云台及视觉主动跟踪模型，视觉系统中部署有多自由度的相机云台及视觉主动跟踪模型，相机云台用于对所述机器人视野中出现的目标对象进行检测，当通过视觉系统检测到机器人的视野中出现目标对象时，对目标对象进行图像拍摄，并根据目标对象的拍摄图片提取目标对象的运动特征；然后，将运动特征输入视觉主动跟踪模型，对目标对象的运动进行预判，以便及时的对机器人本体和/或相机云台的位姿进行调整，籍此，由视觉主动跟踪模型通过强化学习对跟踪的目标对象的运动做出预判，从而控制机器人本体和/或相机云台根据预判提前做出调整，有效避免跟踪延时。

在此过程中，一方面，根据机器人的视觉系统对目标对象的跟踪结果来控制机器人本体和/或相机云台，不再需要通过人工调整机器人本体和/或相机云台，在减少人力成本的同时大幅度提高了机器人本体和相机云台的反应速度；另一方面，通过主动控制调整机器人本体和/或相机云台的运动、姿态，大幅提升拍摄视野，减少相机需求数量，提高拍摄灵活性。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。其中：

图1为根据本申请的一些实施例提供的一种基于视觉主动目标跟踪的机器人控制方法的流程示意图；

图2为根据本申请的一些实施例提供的一种基于视觉主动目标跟踪的机器人控制方法的逻辑示意图；

图3为根据本申请的一些实施例提供的基于演员评论家算法构建视觉主动跟踪模型的流程示意图；

图4为根据本申请的一些实施例提供的一种基于视觉主动目标跟踪的机器人控制系统。

具体实施方式

下面将参考附图并结合实施例来详细说明本申请。各个示例通过本申请的解释的方式提供而非限制本申请。实际上，本领域的技术人员将清楚，在不脱离本申请的范围或精神的情况下，可在本申请中进行修改和变型。例如，示为或描述为一个实施例的一部分的特征可用于另一个实施例，以产生又一个实施例。因此，所期望的是，本申请包含归入所附权利要求及其等同物的范围内的此类修改和变型。

在本申请实施例中，机器人上搭载有视觉系统，在视觉系统中部署有多自由度的相机云台以及视觉主动跟踪模型，所述相机云台用于对所述机器人视野中出现的目标对象进行检测。

示例性方法

图1为根据本申请的一些实施例提供的一种基于视觉主动目标跟踪的机器人控制方法的流程示意图；如图1所示，该基于视觉主动目标跟踪的机器人控制方法包括：

步骤S101、根据检测到的视野中出现的目标对象，提取目标对象的运动特征图像；

在本申请实施例中，机器人通过视觉系统实现对目标对象的跟踪，通过机器人本体的位姿和/或相机云台的位姿的调整，实现对视野中出现的目标对象进行图像拍摄。具体的，通过控制机器人本体的位置及姿态的改变，实现对机器人本体的位姿调整，相机云台部署在机器人本体上，随机器人本体的位置和姿态的变化而变换；通过控制多自由度的相机云台的姿态，实现对相机云台的姿态调整。籍此，通过主动控制，调整机器人本体和相机云台的运动、姿态的协同，大幅提升拍摄视野，减少相机需求数量，提高拍摄灵活性。

在本申请实施例中，通过相机云台对监测到的视野中出现的目标对象进行拍摄，得到目标对象的拍摄图像，然后，对拍摄图片中的运动特征进行提取，得到拍摄图片的运动特征图像。具体的，基于卷积神经网络，对目标对象的拍摄图像进行特征提取，得到目标对象的运动特征图像。

在本申请实施例中，由基于卷积神经网络(ConvNet)结构的观测编码器对目标对象的拍摄图像进行特征向量提取，得到目标对象的运动特征图像。具体的，由卷积层和池化层对目标对象的拍摄图像进行特征向量提取，由全链接层对提取到的特征向量进行合并，得到目标对象的运动特征图像。

步骤S102、基于视觉主动跟踪模型，根据目标对象的运动特征图像，对目标对象的运动进行预判，以对机器人本体和/或相机云台的位姿进行调整。

具体的，基于视觉主动跟踪模型，根据目标对象的运动特征图像，对目标对象的运动进行预判，得到机器人本体和相机云台的调整策略。

在本申请实施例中，将目标对象的运动特征图像输入视觉主动跟踪模型，经过计算分析，视觉主动跟踪模型对目标对象的动作趋势进行判断，输出为预判结果，作为机器人或云台相机的控制信号，使机器人本体和/或云台相机做出相应的位移(比如云台相机或机器人本体向上转动25度，向左转动15度等)，以便更好的跟踪目标对象。

在一些可选实施例中，对调整策略与预设策略阈值进行对比，根据对比结果对机器人本体和/或相机云台的位姿进行调整。具体的，响应于对比结果小于等于预设策略阈值，则根据调整策略对相机云台的位姿进行调整；响应于对比结果大于相机云台的调整范围，则根据调整策略同时对机器人本体和相机云台的位姿进行调整。

在本申请实施例中，预设策略阈值小于等于相机云台的调整范围。当调整策略与预设策略阈值的比较结果小于等于预设策略阈值时，通过相机云台的自由度即可满足调整策略，因而，根据调整策略对相机云台的位姿进行调整即可；当调整策略与预设策略阈值的比较结果大于预设策略阈值时，通过相机云台的自由度不能满足调整策略，实现不了调整策略要达到的目标，因而，通过机器人本体的位姿调整与相机云台的位姿调整相协同，使满足调整策略的需求，达到调整策略的目的。

在一些可选实施例中，通过相机云台的历史拍摄图像，基于演员评论家算法构建视觉主动跟踪模型。如图3所示，基于演员评论家算法构建视觉主动跟踪模型包括：

步骤S301、对相机云台的历史拍摄图像进行特征提取，得到历史观测特征；其中，历史观测特征为对应的历史拍摄图像中拍摄对象的特征图像，历史拍摄图像有多个，每个历史拍摄图像对应一个历史观测特征；

在本申请实施例中，基于卷积神经网络，对相机云台的历史拍摄图像进行特征提取，得到历史观测特征。具体步骤、流程请参考上述步骤S101中得到目标对象的运动特征图像的步骤、流程，在此不再一一赘述。

步骤S302、对多个历史观测特征进行融合，得到融合特征；其中，融合特征包含历史拍摄图像中拍摄对象的时序特征，时序特征包括历史拍摄图像中拍摄对象的速度和移动方向；

具体的，基于长短期记忆人工神经网络(Long Short-Term Memory，简称LSTM)，对多个历史观测特征进行融合，得到融合特征。融合特征为长短期记忆人工神经网络对多个历史观测特征进行融合输出的时序特征。

在本申请实施例中，通过将多个历史拍摄图像中拍摄对象的特征图像(历史观测特征)输入时序编码器基于长短期记忆人工神经网络(LSTM)结构的中，由时序编码器对多个历史拍摄图像中拍摄对象的特征图像进行融合，即可得到拍摄对象的融合特征。在此，需要说明的是，拍摄对象和目标对象可以为同一物体，也可以为同一类的不同物体。

在本申请实施例中，通过拍摄对象的时序特征(拍摄对象的速度、方向等)对视觉主动跟踪模型进行训练，使训练完成的视觉主动跟踪模型不但能够对目标对象进行有效识别和定位，同时可以对目标对象下一步的动作进行有效预判。

步骤S303、根据融合特征，基于演员评论家算法构建视觉主动跟踪模型。

在本申请实施例中，在基于演员评论家算法构建的视觉主动跟踪模型中包括演员网络和评论家网络，演员网络和评论家网络共享时序编码器的输出(融合特征)。当融合特征的动作空间离散时，演员网络根据融合特征输出拍摄对象的每种动作的概率；让融合特征的动作空间连续时，演员网络输出拍摄对象的每一维动作的平均值和标准差，并用高斯分布来表示拍摄对象的动作分布。评论家网络通过价值函数来计算演员网络输出的策略梯度，实现演员网络和评论家网络的更新。其中，价值函数代表期望的累计奖赏值。

在本申请实施例中，利用不完全零和的奖赏函数，鼓励相机云台和目标对象在一定范围内进行零和博弈，当目标对象到达一定距离外时给予其额外的惩罚。在观测范围内，目标对象与相机云台进行零和博弈，即奖赏函数为相机云台的奖赏，直接取负；在观测范围外，将在原来的基础上得到一个额外的惩罚项，惩罚项的取值取决于目标对象与相机云台的观测边界的距离。

在本申请实施例中，视觉主动跟踪模型基于对抗博弈的跟踪框架构建，鼓励跟踪器(相机云台)和目标对象在一定范围内进行博弈，当目标到达一定距离外时时给予其额外的惩罚。通过不断的对抗博弈训练，使视觉主动跟踪模型针对跟踪策略学会更优的对抗策略。

在本申请实施例中，训练完成后的视觉主动跟踪模型，根据目标对象的拍摄突现实现对目标对象的动作进行预判，将相应的控制信号发送至机器人的控制部分，对机器人本体和/或相机云台进行控制，实现机器人本体和/或相机云台的位姿的调整。

在本申请实施例中，通过相机云台对目标对象进行图像拍摄，提取目标对象的运动特征图像；将拍摄对象的历史观测特征、相机云台对目标对象的观测特征(运动特征图像)、以及相机云台的动作输出特征进行融合，作为训练完成的视觉主动跟踪模型中LSTM网络的输入，得到目标对象的时序特征，以便对目标对象下一步的动作趋势进行预判。

在本申请实施例中，在机器人上搭载有视觉系统，视觉系统部署有多自由度的相机云台及视觉主动跟踪模型，视觉系统中部署有多自由度的相机云台及视觉主动跟踪模型，相机云台用于对机器人视野中出现的目标对象进行检测，当通过视觉系统检测到机器人的视野中出现目标对象时，对目标对象进行图像拍摄，并根据目标对象的拍摄图片提取目标对象的运动特征；然后，将运动特征输入视觉主动跟踪模型，对目标对象的运动进行预判，以便及时的对机器人本体和/或相机云台的位姿进行调整，籍此，由视觉主动跟踪模型通过强化学习对跟踪的目标对象的运动做出预判，从而控制机器人本体和/或相机云台根据预判提前做出调整，有效避免跟踪延时。

示例性系统

图4为根据本申请的一些实施例提供的一种基于视觉主动目标跟踪的机器人控制系统；如图4所示，该基于视觉主动目标跟踪的机器人控制系统包括：特征提取单元401和位姿调整单元402。特征提取单元401配置为根据检测到的视野中出现的目标对象，提取目标对象的运动特征图像；位姿调整单元402配置为基于视觉主动跟踪模型，根据目标对象的运动特征图像，对目标对象的运动进行预判，以对机器人本体和/或相机云台的位姿进行调整。

在本申请实施例中，机器人上搭载有视觉系统，视觉系统部署有多自由度的相机云台及视觉主动跟踪模型，相机云台用于对机器人视野中出现的目标对象进行检测。

在一些可选实施例中，相机云台对检测到的视野中出现的目标对象进行拍摄，得到目标对象的拍摄图片；对应的，特征提取单元401进一步配置为基于卷积神经网络，对目标对象的拍摄图片进行特征提取，得到目标对象的运动特征图像。

在一些可选实施例中，位姿调整单元402包括：策略生成子单元和调整子单元。策略生成子单元配置为基于视觉主动跟踪模型，根据目标对象的运动特征，对目标对象的运动进行预判，得到机器人本体和/或相机云台的调整策略；调整子单元配置为对调整策略与预设策略阈值进行对比，根据对比结果对机器人本体和/或相机云台的位姿进行调整。

在一些可选实施例中，预设策略阈值小于等于相机云台的调整范围；对应的，调整子单元进一步配置为：响应于对比结果小于等于预设策略阈值，则根据调整策略对相机云台的位姿进行调整；响应于对比结果大于相机云台的调整范围，则根据调整策略同时对机器人本体和相机云台的位姿进行调整。

在一些可选实施例中，该基于视觉主动目标跟踪的机器人控制系统还包括：特征观测单元、特征融合单元和模型构建单元。特征观测单元配置为对相机云台的历史拍摄图像进行特征提取，得到历史观测特征；其中，历史观测特征为对应的历史拍摄图像中拍摄对象的特征图像，历史拍摄图像有多个，每个历史拍摄图像对应一个历史观测特征；特征融合单元配置为对多个历史观测特征进行融合，得到融合特征；其中，融合特征包含历史拍摄图像中拍摄对象的时序特征，时序特征包括历史拍摄图像中拍摄对象的速度和移动方向；模型构建子单元配置为根据融合特征，基于演员评论家算法构建视觉主动跟踪模型。

在一些可选实施例中，特征观测单元进一步配置为基于卷积神经网络，对相机云台的历史拍摄图像进行特征提取，得到历史观测特征。

在一些可选实施例中，特征融合单元进一步配置为基于长短期记忆人工神经网络，对多个历史观测特征进行融合，得到融合特征。

本申请实施例提供的基于视觉主动目标跟踪的机器人控制系统能够实现上述任一所述的基于视觉主动目标跟踪的机器人控制方法实施例的步骤、流程，并达到相同的有益效果，在此不再一一赘述。

本申请实施例还提供一种基于视觉主动目标跟踪的机器人，该于视觉主动目标跟踪的机器人上部署有上述任一所述的基于视觉主动目标跟踪的机器人控制方法。

以上所述仅为本申请的优选实施例，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于视觉主动目标跟踪的机器人控制方法，其特征在于，所述机器人上搭载有视觉系统，所述视觉系统部署有多自由度的相机云台及视觉主动跟踪模型，所述相机云台用于对所述机器人视野中出现的目标对象进行检测，所述基于视觉主动目标跟踪的机器人控制方法包括：

步骤S101、根据检测到的视野中出现的目标对象，提取所述目标对象的运动特征图像；

步骤S102、基于所述视觉主动跟踪模型，根据所述目标对象的运动特征图像，对所述目标对象的运动进行预判，以对所述机器人本体和/或所述相机云台的位姿进行调整。

2.根据权利要求1所述的基于视觉主动目标跟踪的机器人控制方法，其特征在于，所述相机云台对检测到的视野中出现的目标对象进行拍摄，得到所述目标对象的拍摄图片；

对应的，

步骤S101具体为：基于卷积神经网络，对所述目标对象的拍摄图片进行特征提取，得到所述目标对象的运动特征图像。

3.根据权利要求1所述的基于视觉主动目标跟踪的机器人控制方法，其特征在于，在步骤S102中，

基于所述视觉主动跟踪模型，根据所述目标对象的运动特征，对所述目标对象的运动进行预判，得到所述机器人本体和所述相机云台的调整策略；

对所述调整策略与预设策略阈值进行对比，根据对比结果对所述机器人本体和/或所述相机云台的位姿进行调整。

4.根据权利要求3所述的基于视觉主动目标跟踪的机器人控制方法，其特征在于，所述预设策略阈值小于等于所述相机云台的调整范围；

对应的，

所述对所述调整策略与预设策略阈值进行对比，根据对比结果对所述机器人本体和/或所述相机云台的位姿进行调整，包括：

响应于所述对比结果小于等于所述预设策略阈值，则根据所述调整策略对所述相机云台的位姿进行调整；

响应于所述对比结果大于所述相机云台的调整范围，则根据所述调整策略同时对所述机器人本体和所述相机云台的位姿进行调整。

5.根据权利要求1-4任一所述的基于视觉主动目标跟踪的机器人控制方法，其特征在于，在步骤S101之前，还包括：

对所述相机云台的历史拍摄图像进行特征提取，得到历史观测特征；其中，所述历史观测特征为对应的所述历史拍摄图像中拍摄对象的特征图像，所述历史拍摄图像有多个，每个所述历史拍摄图像对应一个所述历史观测特征；

对多个所述历史观测特征进行融合，得到融合特征；其中，所述融合特征包含所述历史拍摄图像中拍摄对象的时序特征，所述时序特征包括所述历史拍摄图像中拍摄对象的速度和移动方向；

根据所述融合特征，基于演员评论家算法构建所述视觉主动跟踪模型。

6.根据权利要求5所述的基于视觉主动目标跟踪的机器人控制方法，其特征在于，所述对所述相机云台的历史拍摄图像进行特征提取，得到历史观测特征，具体为：

基于卷积神经网络，对所述相机云台的历史拍摄图像进行特征提取，得到所述历史观测特征。

7.根据权利要求5所述的基于视觉主动目标跟踪的机器人控制方法，其特征在于，所述对多个所述历史观测特征进行融合，得到融合特征，具体为：

基于长短期记忆人工神经网络，对多个所述历史观测特征进行融合，得到所述融合特征。

8.一种基于视觉主动目标跟踪的机器人控制系统，其特征在于，所述机器人上搭载有视觉系统，所述视觉系统部署有多自由度的相机云台及视觉主动跟踪模型，所述相机云台用于对所述机器人视野中出现的目标对象进行检测，所述基于视觉主动目标跟踪的机器人控制系统包括：

特征提取单元，配置为根据检测到的视野中出现的目标对象，提取所述目标对象的运动特征图像；

位姿调整单元，配置为基于所述视觉主动跟踪模型，根据所述目标对象的运动特征图像，对所述目标对象的运动进行预判，以对所述机器人本体和/或所述相机云台的位姿进行调整。

9.一种基于视觉主动目标跟踪的机器人，其特征在于，所述基于视觉主动目标跟踪的机器人上部署有权利要求1-7任一所述的基于视觉主动目标跟踪的机器人控制方法。