CN111241940B

CN111241940B - 一种机器人的远程控制方法、人体边界框确定方法及系统

Info

Publication number: CN111241940B
Application number: CN201911411898.0A
Authority: CN
Inventors: 杨灿军; 武鑫; 朱元超; 吴威涛; 许桢; 魏谦笑
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2022-07-26
Anticipated expiration: 2039-12-31
Also published as: CN111241940A

Abstract

本发明涉及一种机器人的远程控制方法、人体边界框确定方法及系统，属于图像处理技术与机器人控制技术领域。该远程控制方法包括以下步骤：(1)在操作端显示机器人现场图像，并接收操作人员的操作视频数据；(2)在视频数据的图像中，基于上一帧图像中关节点坐标数据，生成用于对当前帧图像中人体图像的裁剪边界框；(3)并对基于该裁剪边界框裁切出当前人体图像并转换成标准待识别图像；(4)基于预先训练好的人体姿态估计网络模型，获取当前帧图像中人体关节坐标数据，并依据该关节坐标数据生成机器人控制指令。该方法通过简化其人体边界框确定方法，更好地确保控制指令生成的实时性，其可广泛应用于机器人远程控制等领域。

Description

一种机器人的远程控制方法、人体边界框确定方法及系统

技术领域

本发明涉及一种基于图像处理技术的机器人控制领域，具体地说，涉及一种能迅速地对视频图像中的人体边界框进行确定的方法与系统及基于该方法的机器人控制方法与虚拟动画的生成方法。

背景技术

随着机器人技术的发展，其在越来越多的工业领域替代操作人员执行相关工作，例如应用于汽车生产的工业机器人；此外，也在一些危险作业环境中直接替代操作人员执行相关工作，例如进入深海作业环境、拆弹及扫雷等会对操作人员的安全造成影响的作业环境中；在这些领域中普及使用机器人，能很好地确保操作人员的人身安全，但是由于机器人的控制技术还未达到真正智能化水平，其通常需要操作人员进行远程操控。

在具体操作控制过程中，通过布设在操作现场的摄像头或搭载在机器人上的摄像头获取环境场景图像后，操作人员基于操作端所显示的视频，并由人手臂模拟现场操作动作，并通过获取该现场操作动作过程中人手臂的关节角度数据，例如，可采用公开号为CN107967687A的专利文献所公开的获取目标物行走姿态的方法；并基于该关节角度数据控制机器人进行现场操作。该技术方案基于贴设在人体上的标记对关节坐标进行识别，从而可基于识别出的关节坐标数据控制现场操作机器人；此外，也可基于该技术在识别出人体关节坐标后，进行实时虚拟动画的生成；但是，该技术需利用标记物进行关节点标记并进行图像识别，其计算过程较为复杂，且易出现因标记被遮挡而存在一定的误判率；且其获取人体边界框的计算方法较为复杂。

此外，在公开号为CN109345504A等专利文献中公开了利用卷积神经网络等模型进行人体边界框的确定，以达到准备并快速的获取人体图像区域，但是其计算方法过于臃肿，实现时计算耗时较大，难以满足机器人控制的实时性要求。

发明内容

本发明的主要目的是提供一种机器人的远程控制方法及系统，以通过简化其人体边界框确定方法，更好地确保控制指令生成的实时性；

本发明的另一目的为提供一种适于上述远程控制方法使用的人体边界框确定方法及系统；

本发明的再一目的是提供一种以上述人体边界框确定方法所构建的实时虚拟动画的生成方法。

为了实现上述目的，本发明提供的机器人的远程控制方法包括以下步骤：

获取步骤，获取机器人的工作场景图像，并在控制端显示工作场景图像；

接收步骤，接收针对操作人员的动作所拍摄的视频数据；

边界确定步骤，在视频数据的图像中，基于上一帧图像中关节点坐标数据，生成用于对当前帧图像中人体图像的裁剪边界框，裁剪边界框为能围住上一帧图像的所有关节点的最小矩形框的外扩矩形框；

标准化步骤，基于外扩矩形框从当前帧图像中裁剪出当前人体图像，并将当前人体图像缩放并填充为标准待识别图像；

识别步骤，基于预先训练好的人体姿态估计网络模型，获取标准待识别图像中人体关节的初始坐标，并将初始坐标变换为在当前帧图像的坐标系中的标准坐标，作为后续处理所用的人体关节坐标数据；

控制步骤，基于所获取的人体关节坐标数据，生成用于控制机器人的关节电机转动的控制指令。

由以上方案可见，优化了边界框确定方法所需的迭代策略，加速了边界框更新速度，为实时输出关节坐标数据提供保障，从而能够更好地降低机器人控制的延时，以确保控制的准确性与实时性；且基于训练模型进行关节坐标的识别，能有效提高识别准确性。

具体的方案为对最小矩形框在其四个方向上均进行等比扩大，经等比扩大后的矩形框所围区域与当前帧图像的交集区域的边界构成裁剪边界框；将当前人体图像等比缩放至一对侧边与标准尺寸边界重合，且另一对侧边与标准尺寸边界重合或存有间隙空间，再对存有的间隙空间进行填充，而获取标准待识别图像。

优选的方案为对被抽检的当前帧图像的边界框按预定比例外扩成临时边界框，以所述临时边界框所围区域与所述抽检帧图像的交集区域的边界构成所述抽检边界框；基于所述抽检边界框从被抽检的当前帧图像中裁剪出当抽检体图像，并将所述抽检人体图像缩放并填充为基准比对图像；基于所述人体姿态估计网络模型，获取所述基准比对图像中人体关节的初始坐标，并将该初始坐标变换为在所述当前帧图像的坐标系中的基准坐标；若被抽检的所述当前帧图像的标准坐标与其基准坐标的偏差超出预设阈值，则以该基准坐标替换标准坐标，作为所述当前帧图像的人体关节坐标数据。有效地避免因前后两帧图像坐标数据相差太多而存在误差累积，提高该方法的准确性。

为了实现上述主要目的，本发明提供的机器人的远程控制系统包括处理器与存储器，存储器存储有计算机程序，计算机程序被处理器执行时，能实现上述任一技术方案所描述的远程控制方法的步骤。

为了实现上述另一目的，本发明提供的视频图像中人体边界框确定方法包括以下步骤：在所述视频数据的图像中，基于上一帧图像中关节点坐标数据，生成用于对当前帧图像中人体图像区域进行表征的边界框，所述边界框为能围住所述上一帧图像的所有关节点的最小矩形框或针对该最小矩形框进行外扩的外扩矩形框；获取所述上一帧图像中关节点坐标数据的步骤包括基于该上一帧图像的外扩矩形框从其上裁剪出人体图像，并将该人体图像缩放并填充为标准待识别图像，基于预先训练好的人体姿态估计网络模型，获取标准待识别图像中人体关节的初始坐标，并将所述初始坐标变换为在所述上一帧图像的坐标系中的标准坐标，构成所述上一帧图像的关节点坐标数据。

具体的方案为对最小矩形框在其四个方向上均进行等比扩大，经等比扩大后的矩形框所围区域与当前帧图像的交集区域的边界构成裁剪边界框；将人体图像等比缩放至一对侧边与标准尺寸边界重合，且另一对侧边与标准尺寸边界重合或存有间隙空间，再对存有的间隙空间进行填充，而获取标准待识别图像。

优选的方案为对被抽检的当前帧图像的边界框按预定比例外扩成临时边界框，以所述临时边界框所围区域与所述抽检帧图像的交集区域的边界构成所述抽检边界框；基于所述抽检边界框从被抽检的当前帧图像中裁剪出当抽检体图像，并将所述抽检人体图像缩放并填充为基准比对图像；基于所述人体姿态估计网络模型，获取所述基准比对图像中人体关节的初始坐标，并将该初始坐标变换为在所述当前帧图像的坐标系中的基准坐标；若被抽检的所述当前帧图像的标准坐标与其基准坐标的偏差超出预设阈值，则以该基准坐标替换标准坐标，作为所述当前帧图像的人体关节坐标数据。

优选的方案为对视频数据的起始部分的图像中的人体图像边界框进行标定。

为了实现上述另一目的，本发明提供的视频图像中人体边界框确定系统包括处理器与存储器，存储器存储有计算机程序，计算机程序被处理器执行时，能实现上述任一技术方案所描述的人体边界框确定方法的步骤。

为了实现上述再一目的，本发明提供的基于实时拍摄视频生成虚拟动画的方法包括以下步骤：

接收步骤，接收针对人体动作所拍摄的视频数据；

边界框确定步骤，包括上述任一技术方案所描述的人体边界框确定方法的步骤；

基于获取随时间变化的人体关节坐标数据，生成虚拟动画。

附图说明

图1为本发明实施例中人体边界框确定方法的工作流程图；

图2为本发明实施例中获取边界框的过程示意图；

图3为本发明实施例中机器人远程控制方法的工作流程图。

以下结合实施例及其附图对本发明作进一步说明。

具体实施方式

实施例

如图1所示，本发明视频图像中人体边界框确定方法用于对视频数据中多帧连续拍摄的图像中人体边界框进行确定，从而构建出实时性稿的人体检测器，具体包括接收步骤S11、边界框初始化步骤S12、裁切步骤S13、标准化步骤S14、识别步骤S15及边界确定步骤S16，具体过程如下：

接收步骤S11，接收实时拍摄的视频数据。

主要为通过安装在拍摄现场的摄像头所获取的数据，摄像头的安装位置与视角朝向具体根据所使用的人体姿态估计网络模型在训练时样本的要求进行拍摄，在本实施例中为采用单目摄像头进行拍摄，且用于拍摄人体在预定区域内直行的视频数据，该单目摄像头布设在人行走过程中的一个侧向，且视角能覆盖该行程区域。

对于获取视频数据中的每帧图像采用现有去噪方法进行去噪，即对该视频数据中的每帧图像进行初始化之前，先对其进行去噪处理。

边界框初始化步骤S12，对视频数据的起始部分的图像中的人体图像边界框进行标定。

在该人体边界框确定程序开始运行时，没有历史关节点坐标数据以供边界框快速更新，此时就是需要进行边界框初始化的时候。

该标定可以为人工进行标定，例如，对该视频数据中的第一帧图像中的人体边界框直接进行标定，具体为接受操作人员通过光标在图像上的所画四边形的操作，并以该四边形作为该帧图像的人体边界框，以裁切出人体图像区域。

也可以采用现有检测器进行自动标定，并基于人工确认而结束初始化过程，对于现有检测器可以采用公开号为CN109345504A的专利文献所采用的深度卷积神经网络YOLOv2，也可采用公开号为CN106778614A的专利文献所公开的深度卷积神经网络DeepCNN，还可以使用传统一些的HOG特征提取与SVM分类相结合的方法，这也是本系统在实现过程中所使用的方法，具体过程如下：

基于初始帧图像，利用人体检测器进行多次运算，而获取包含该初始帧图像中人体图像的多个边界框，对这些多个边界框进行去重操作，而获取目标边界框作为该初始帧图像的人体边界框，并对其进行可视化而供人工认定是否标定完成。

在接收到人工确定可行指令后，结束初始化步骤。

在程序的每一次循环中，都会采集一帧新的图像，对其进行前面所述去噪等基本预处理后，然后交给一个人体检测器，在本实施例中为HOG+SVM人体检测器。该人体检测器对图片进行检测，得到一组可能含有人体的多个边界框；然后，要对多个边界框进行去重操作，得到一个最好的边界框，因此通过非极大值抑制的方式，从这组边界框中选出置信度最高，即最有可能包含人体的一个边界框，作为当前图像最后选定的边界框。

这个“选定的边界框”不是初始化的最终结果，只是对于当前图像来说的最优结果。这个边界框确定之后，接下来在程序循环中还会将其可视化，在图像中将边界框区域画出来，具体为将边界框的四个边用彩色线条画出来，软件的操作人员便可以监视边界框的计算结果。程序不断循环，界面上就会以视频流的形式实时显示每一帧图像的边界框计算结果。

在此过程中，操作人员可以随时进行干预，当操作人员认为当前的边界框比较准确、满足要求，便可以主动触发跳出循环的信号，例如鼠标点击、键盘按键等形式。程序接收到信号，跳出循环，结束对边界框的初始化工作。

在边界框初始化程序结束后，传递出来的参数是最后操作人员认为满意的边界框的相关参数，具体来讲，是方框左上角顶点的坐标(x₀，y₀)，还有边界框的宽w和高h，这些参数就代表了这个边界框。

裁切步骤S13，基于初始化所获取的边界框从当前初始帧图像中裁剪出当前人体图像。

标准化步骤S14，将该当前人体图像缩放并填充为标准待识别图像。

不管是初始化还是更新得到的边界框，在裁剪得到对应的包含人体的图像切片之后，需要进一步做缩放与填充的操作，以使其满足卷积神经网络输入图像的大小要求。具体处理过程包括以下步骤：

首先，计算边界框的高度/宽度之比h/w，与神经网络输入端所需的高度/宽度比h_net/w_net进行比较，若前者大于后者，则将边界框按高度缩放到与网络输入端对齐，即缩放至使h＝h_net，否则就将边界框按宽度缩放到与网络输入端对齐，即缩放到使w＝w_net；然后，将缩放后的图像切片移动到网络输入图像的中间区域；最后，对于网络输入图像中除之前的图像切片之外的其它区域，可以使用RGB颜色中纯黑色[0，0，0]或纯灰色[128，128，128]来填充，也可以使用其它颜色，优选为便于与内容部分相区分的颜色，及使用纯色填充可以避免噪声干扰，有助于神经网络的计算。如图2所示为前者大于后的一个图像操作示例。

即将当前人体图像等比缩放至一对侧边与标准尺寸边界重合，且另一对侧边与标准尺寸边界重合或存有间隙空间，再对存有的间隙空间进行填充，而获取标准待识别图像。

识别步骤S15，基于预先训练好的人体姿态估计网络模型，获取标准待识别图像中人体关节的初始坐标，并将初始坐标变换为在当前帧图像的坐标系中的标准坐标，作为后续处理所用的人体关节坐标数据。

围绕提前训练好且用于人体姿态估计的卷积神经网络，在本实施例中采用基于ResNet-50的VNect，当然，也可以使用其它已完成训练的网络，获取标准待识别图像中人体关节的初始坐标。

由于获取的坐标为标准待识别图像的基础坐标系下的坐标数据，根据前述缩放方式的反向将关节点的坐标还原至裁切出的前人体图像的坐标系下的坐标数据，接着利用该前人体图像与裁切之前的图像的坐标之间的关系，将对应坐标数据还原至位于当前帧图像的坐标系下的坐标数据。

边界确定步骤S16，在视频数据的图像中，基于初始帧图像中关节点坐标数据，生成用于对当前帧图像中人体图像的裁剪边界框，所述裁剪边界框为能围住所述上一帧图像的所有关节点的最小矩形框的外扩矩形框。

假设更新的关节点坐标可以用J_i(i＝1～N)来表示，N为关节点的数量。每一个J_i是一个三维向量，对应关节点的XYZ坐标。首先遍历所有关节点J_i，找出图像平面的X、Y方向上的最大的和最小的值X_max、X_min、Y_max、Y_min，通过这几个参数可以得到包含人体所有待测关节的最小的边界框。

X_max＝MIN(MAX(J_i[0]；i＝1～N)，W)

X_min＝MAX(MIN(J_i[0]；i＝1～N)，0)

Y_max＝MIN(MAX(J_i[1]；i＝1～N)，H)

Y_min＝MIN(MAX(J_i[1]；i＝1～N)，0)

w₀＝X_max-X_min

h₀＝Y_max-Y_min

W和H分别是输入图像的宽和高；w₀和h₀分别是最小边界框的宽和高。

然后在此最小边界框的基础上，在水平和竖直方向分别延展一定长度，来作为更新的边界框。其中长度的延展都是对称的，例如在水平方向，方框的左边与右边要延展同样的长度。在本系统实现中，水平方向延长方框宽度的0.4倍，竖直方向延长方框高度的0.2倍，即水平方向左右各延长宽度的0.2倍，竖直方向上下各延长高度的0.1倍。最后得到的是宽为w、高为h的边界框。即在本实施例中为对最小矩形框在其四个方向上进行等比扩大。

如果当前人体位于图像的边缘，导致延展之后的方框边界超出了图像本身的边界，则将此处的取值改为图像边界对应的值，即在本实施例中，无论是否有超出图像的边界，经等比扩大后的矩形框所围区域与当前帧图像的交集区域的边界构成裁剪边界框。

对于当前帧图像，在获取其边界框之后，重复步骤裁切步骤S13、裁切步骤S13、标准化步骤S14及识别步骤S15而获取其上的坐标数据，再重复边界确定步骤S16而获取下一帧图像的边界框。

在上述实施例中，由于要获取用于表征人体图像的边界框，而能围住所有关节点的最小矩形框并不能完全覆盖整个人体图像，因此需按照经验值并额外留有冗余量进行放大该边界框，且边界框的左右两侧通常等比放大，对于上下两侧可以根据人员对象的体型进行对应地放大，对于其放大比例根据实际情况进行处理，并不局限于上述实施例中的具体数据。

基于上述方式，具有以下好处，边界框更新策略本身可广泛应用于深度学习研究中，尤其是人体姿态估计、行人追踪等，这些研究的特点是需要先从一个大的图像区域中划分出较小的感兴趣区域。

参见图3，本发明机器人的远程控制方法包括获取步骤S21、接收步骤S22、边界确定步骤S23、标准化步骤S24、识别步骤S25及控制步骤S26，具体步骤如下：

获取步骤S21，获取机器人的工作场景图像，并在控制端显示该工作场景图像。

在本实施例中，机器人为仿人机器人，且为同构机器人，即尺寸与关节等与操作人员相同或成等比例结构，此时可以直接基于操作人员的关节角度数据进行直接控制；此外，也可以为异构机器人，此时也可基于常用异构机器人的控制方法，利用所获取操作人员的额关节角度数据进行控制。在本实施例中为同构机器人，且仅通过控制仿人机械臂动作，从而控制该机械臂完成一定的动作，或者用于控制仿人机器人完成一些动作。

在工作过程中，通过搭载在机器人上摄像头或者布设在工作现场的相机获取工作场景图像，并传回控制端并进行显示，以便于操作人员根据其所显示场景图像，而在控制端进行现场模拟操作。摄像头可以是单目摄像头，也可采用能获取纵深信息的摄像头，从而可获取三维信息。

接收步骤S22，接收针对操作人员的动作所拍摄的视频数据。

主要为通过安装在拍摄现场的摄像头所获取的数据，摄像头的安装位置与视角朝向具体根据所使用的人体姿态估计网络模型在训练时样本的要求进行拍摄，在本实施例中为采用单目摄像头进行拍摄，且用于拍摄人体在预定区域内直行的视频数据，该单目摄像头布设在人体的操作手臂一侧；或者布设摄像头获取人体在操作过程中的整体动作图像，且可以为含有纵深信息的图像。

边界确定步骤S23，在所述视频数据的图像中，基于上一帧图像中关节点坐标数据，生成用于对当前帧图像中人体图像的裁剪边界框，所述裁剪边界框为能围住所述上一帧图像的所有关节点的最小矩形框的外扩矩形框。

标准化步骤S24，基于所述外扩矩形框从所述当前帧图像中裁剪出当前人体图像，并将所述当前人体图像缩放并填充为标准待识别图像。

识别步骤S25，基于预先训练好的人体姿态估计网络模型，获取所述标准待识别图像中人体关节的初始坐标，并将所述初始坐标变换为在所述当前帧图像的坐标系中的标准坐标，作为后续处理所用的人体关节坐标数据。

控制步骤S26，基于所获取的人体关节坐标数据，生成用于控制所述机器人的关节电机转动的控制指令。

在该机器人的远程控制方法，各步骤的具体细节内容参照上述边界框的确定步骤，在此不再赘述。

控制指令除了发送给机器人，也可以广泛应用于其它领域，如虚拟角色控制、人机交互等，只要可以利用到人体姿态信息即可。优化了边界框的迭代策略，加速了边界框更新速度，为系统的实时输出提供保障。

此外，上述边界框的确定方法还可以用于实时虚拟动画的生产，即一边对人体动作进行实时拍摄，另一边就可以基于该方法实时地生成虚拟动画，具体步骤包括以下步骤：

接收步骤S31，接收针对人体动作所拍摄的视频数据。

边界框确定步骤S32，包括权利要求5至8任一项权利要求所述的人体边界框确定方法的步骤。

标准化步骤S33，基于所述外扩矩形框从所述当前帧图像中裁剪出当前人体图像，并将所述当前人体图像缩放并填充为标准待识别图像。

识别步骤S34，基于预先训练好的人体姿态估计网络模型，获取所述标准待识别图像中人体关节的初始坐标，并将所述初始坐标变换为在所述当前帧图像的坐标系中的标准坐标，作为后续处理所用的人体关节坐标数据.

生成步骤，基于获取随时间变化的人体关节坐标数据，生成所述虚拟动画。

各个步骤的具体内容，请参见上述边界框的确定方法步骤，在此不再赘述。

在本发明中，还公开可机器人远程控制系统、边界框确定系统及虚拟动画实时生成系统，这些系统均包括处理器与存储器，在存储器存储有计算机程序，所述计算机程序被所述处理器执行时，均能实现上述对应方法的步骤。

此外，为了防止经放大之后的边界框无法完全围住所有关节点，而出现数据偏差，可在上述方法中增设抽检步骤，具体包括以下步骤：

步骤S41，对被抽检的当前帧图像的边界框按预定比例外扩成临时边界框，以所述临时边界框所围区域与所述抽检帧图像的交集区域的边界构成所述抽检边界框。

步骤S42，基于所述抽检边界框从被抽检的当前帧图像中裁剪出当抽检体图像，并将所述抽检人体图像缩放并填充为基准比对图像。

步骤S42，基于所述人体姿态估计网络模型，获取所述基准比对图像中人体关节的初始坐标，并将该初始坐标变换为在所述当前帧图像的坐标系中的基准坐标。

步骤S44，若被抽检的所述当前帧图像的标准坐标与其基准坐标的偏差超出预设阈值，则以该基准坐标替换标准坐标，作为所述当前帧图像的人体关节坐标数据。

Claims

1.一种机器人的远程控制方法，其特征在于，所述远程控制方法包括以下步骤：

获取步骤，获取所述机器人的工作场景图像，并在控制端显示所述工作场景图像；

接收步骤，接收针对操作人员的动作所拍摄的视频数据；

边界确定步骤，在所述视频数据的图像中，基于上一帧图像中关节点坐标数据，生成用于对当前帧图像中人体图像的裁剪边界框，所述裁剪边界框为能围住所述上一帧图像的所有关节点的最小矩形框的外扩矩形框；

标准化步骤，基于所述外扩矩形框从所述当前帧图像中裁剪出当前人体图像，并将所述当前人体图像缩放并填充为标准待识别图像；

识别步骤，基于预先训练好的人体姿态估计网络模型，获取所述标准待识别图像中人体关节的初始坐标，并将所述初始坐标变换为在所述当前帧图像的坐标系中的标准坐标，作为后续处理所用的人体关节坐标数据；

控制步骤，基于所获取的人体关节坐标数据，生成用于控制所述机器人的关节电机转动的控制指令；

所述边界确定步骤包括以下步骤：在所述视频数据的图像中，基于上一帧图像中关节点坐标数据，生成用于对当前帧图像中人体图像区域进行表征的边界框，所述边界框为能围住所述上一帧图像的所有关节点的最小矩形框或针对该最小矩形框进行外扩的外扩矩形框；获取所述上一帧图像中关节点坐标数据的步骤包括基于该上一帧图像的外扩矩形框从其上裁剪出人体图像，并将该人体图像缩放并填充为标准待识别图像，基于预先训练好的人体姿态估计网络模型，获取标准待识别图像中人体关节的初始坐标，并将所述初始坐标变换为在所述上一帧图像的坐标系中的标准坐标，构成所述上一帧图像的关节点坐标数据；

对所述最小矩形框在其四个方向上均进行扩大，经扩大后的矩形框所围区域与所述当前帧图像的交集区域的边界构成所述边界框；将所述人体图像等比缩放至一对侧边与标准尺寸边界重合，且另一对侧边与所述标准尺寸边界重合或存有间隙空间，再对存有的所述间隙空间进行填充，而获取所述标准待识别图像；

对被抽检的当前帧图像的边界框按预定比例外扩成临时边界框，以所述临时边界框所围区域与被抽检的当前帧图像的交集区域的边界构成抽检边界框；

基于所述抽检边界框从被抽检的当前帧图像中裁剪出抽检人体图像，并将所述抽检人体图像缩放并填充为基准比对图像；

基于所述人体姿态估计网络模型，获取所述基准比对图像中人体关节的初始坐标，并将该初始坐标变换为在被抽检的当前帧图像的坐标系中的基准坐标；

若被抽检的所述当前帧图像的标准坐标与其基准坐标的偏差超出预设阈值，则以该基准坐标替换标准坐标，作为所述当前帧图像的人体关节坐标数据；

对所述视频数据的起始部分的图像中的人体图像边界框进行标定。

2.一种机器人的远程控制系统，包括处理器与存储器，所述存储器存储有计算机程序，其特征在于，所述计算机程序被所述处理器执行时，能实现权利要求1所述的远程控制方法的步骤。

3.一种基于实时拍摄视频生成虚拟动画的方法，其特征在于，所述方法包括以下步骤：

接收步骤，接收针对人体动作所拍摄的视频数据；

边界框确定步骤；

标准化步骤，基于外扩矩形框从当前帧图像中裁剪出当前人体图像，并将所述当前人体图像缩放并填充为标准待识别图像；

生成步骤，基于获取随时间变化的人体关节坐标数据，生成所述虚拟动画；

所述边界框确定步骤包括以下步骤：在视频数据的图像中，基于上一帧图像中关节点坐标数据，生成用于对当前帧图像中人体图像区域进行表征的边界框，所述边界框为能围住所述上一帧图像的所有关节点的最小矩形框或针对该最小矩形框进行外扩的外扩矩形框；获取所述上一帧图像中关节点坐标数据的步骤包括基于该上一帧图像的外扩矩形框从其上裁剪出人体图像，并将该人体图像缩放并填充为标准待识别图像，基于预先训练好的人体姿态估计网络模型，获取标准待识别图像中人体关节的初始坐标，并将所述初始坐标变换为在所述上一帧图像的坐标系中的标准坐标，构成所述上一帧图像的关节点坐标数据；

若被抽检的所述当前帧图像的标准坐标与其基准坐标的偏差超出预设阈值，则以该基准坐标替换标准坐标，作为所述当前帧图像的人体关节坐标数据。