CN116523962A

CN116523962A - 针对目标对象的视觉跟踪方法、装置、系统、设备和介质

Info

Publication number: CN116523962A
Application number: CN202310430961.5A
Authority: CN
Inventors: 李龙腾; 卢飞翔; 吕以豪; 张良俊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-04-20
Filing date: 2023-04-20
Publication date: 2023-08-01

Abstract

本公开提供了一种针对目标对象的视觉跟踪方法、装置、设备和介质，涉及人工智能领域，具体涉及计算机视觉、图像处理和深度学习等技术领域。针对目标对象的视觉跟踪方法的具体实现方案为：根据事件相机采集的事件数据，确定执行体操类运动的目标对象的运动信息；响应于根据运动信息确定目标对象的运动满足视觉跟踪条件，获取针对目标对象在至少两个视角下同步采集的视频数据；以及根据视频数据，生成描述目标对象所执行的体操类运动的待播放数据。

Description

针对目标对象的视觉跟踪方法、装置、系统、设备和介质

技术领域

本公开涉及人工智能领域，具体涉及计算机视觉、图像处理和深度学习等技术领域，尤其涉及一种针对目标对象的视觉跟踪方法、装置、系统、设备和介质。

背景技术

随着电子技术的发展，计算机视觉技术在越来越多的场景中得到广泛应用。例如，在运动员的训练场景中，可以采用视频采集设备来跟踪运动员，以记录运动员训练中实施的动作，便于进行动作复盘，提高动作的执行精度等。

发明内容

本公开旨在提供一种利于提高视觉跟踪精度、降低跟踪成本的针对目标对象的视觉跟踪方法、装置、系统、设备和介质。

根据本公开的第一个方面，提供了一种针对目标对象的视觉跟踪方法，包括：根据事件相机采集的事件数据，确定执行体操类运动的目标对象的运动信息；响应于根据运动信息确定目标对象的运动满足视觉跟踪条件，获取针对目标对象在至少两个视角下同步采集的视频数据；以及根据视频数据，生成描述目标对象所执行的体操类运动的待播放数据。

根据本公开的第二个方面，提供了一种针对目标对象的视觉跟踪装置，包括：运动信息确定模块，用于根据事件相机采集的事件数据，确定执行体操类运动的目标对象的运动信息；数据获取模块，用于响应于根据运动信息确定目标对象的运动满足视觉跟踪条件，获取针对目标对象在至少两个视角下同步采集的视频数据；以及数据生成模块，用于根据视频数据，生成描述目标对象所执行的体操类运动的待播放数据。

根据本公开的第三个方面，提供了一种针对目标对象的视觉跟踪系统，包括：至少两个视频采集设备，一一对应地设置在执行体操类运动所依赖的器械的至少两个视角的位置处；事件相机，设置于至少两个视频采集设备中其中一个视频采集设备的周边位置；控制设备，与至少两个视频采集设备和事件相机通信连接，以获取至少两个视频采集设备和事件相机采集的数据；其中，控制设备被配置为：执行本公开第一个方面提供的针对目标对象的视觉跟踪方法。

根据本公开的第四个方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开提供的针对目标对象的视觉跟踪方法。

根据本公开的第五个方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开提供的针对目标对象的视觉跟踪方法。

根据本公开的第六个方面，提供了一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令存储于可读存储介质和电子设备其中至少之一上，所述计算机程序/指令在被处理器执行时实现本公开提供的针对目标对象的视觉跟踪方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的针对目标对象的视觉跟踪方法、装置、系统的应用场景示意图；

图2是根据本公开实施例的针对目标对象的视觉跟踪方法的流程示意图；

图3是根据本公开实施例的获取针对目标对象采集的视频数据的原理示意图；

图4是根据本公开实施例的确定针对目标对象的包围框信息的原理示意图；

图5是根据本公开实施例的确定针对体操类运动的评估值的原理示意图；

图6是根据本公开第一实施例的确定三维关键点信息的原理示意图；

图7是根据本公开第二实施例的确定三维关键点信息的原理示意图；

图8是根据本公开实施例的确定目标对象的运动速度的原理示意图；

图9是根据本公开实施例的针对目标对象的视觉跟踪装置的结构框图；

图10是根据本公开第一实施例的针对目标对象的视频跟踪系统的结构示意图；

图11是根据本公开第二实施例的针对目标对象的视频跟踪系统的结构示意图；以及

图12是用来实施本公开实施例的针对目标对象的视频跟踪方法的示例电子设备的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在体操类运动的训练中，通常需要对运动员的细节动作进行不断地调整优化。除了依赖教练的临场指导外，还可以通过对运动员的动作进行视觉跟踪并将跟踪结果反馈给运动员和教练，来使得运动员能够对执行的体操类运动中的动作有更清晰的感知。例如，在进行视觉跟踪时，可以采用固定相机进行全景拍摄，或者利用相机支架借由人工的移动来实现对运动视频的跟踪录制。其中，体操类运动例如可以包括竞技体操、艺术体操和蹦床等。

其中，在采用固定相机进行全景延时拍摄的场景中，由于需要顾及全景，因此运动员在画面中通常较小，对于细节动作的识别和复盘会造成困难。而在采用相机支架借由人工的移动来进行跟踪录制时，则需要较大的人力成本。

另外，在视觉跟踪中，视频录制的时机通常是由人工控制的。或者可以采用目标检测算法、姿态识别算法等深度网络的方式来对实时采集的图像中的运动员进行识别，根据识别结果来确定视频录制的时机。人工控制的方式存在人工成本高，训练效率低的问题。而采用深度网络对运动员进行识别的方式则存在对设备的算力要求高，识别的结果存在延迟的问题。再者，在确定背景复杂、运动高速的动作的录制触发时机时，触发时机的选取误差较大，容易出现误触发的情况。

为了解决上述问题，本公开提供了一种针对目标对象的视觉跟踪方法、装置、系统、设备和介质。以下先结合图1对本公开提供的方法、系统和装置的应用场景进行描述。

图1是根据本公开实施例的针对目标对象的视觉跟踪方法、系统、装置的应用场景示意图。

如图1所示，以体操类运动的训练中的蹦床训练为例，该应用场景100中可以包括蹦床110和目标对象120。目标对象120例如可以借助蹦床110的弹性执行蹦床运动。

在该应用场景100中，还可以包括视觉跟踪系统，该视觉跟踪系统至少可以包括视频采集设备131和处理设备132。视频采集设备131用于采集目标对象120在执行蹦床运动的过程中的视频数据。视频采集设备131可以与处理设备132通信连接，如此，处理设备132可以获取视频采集设备131采集的视频数据，并对视频数据进行处理。其中，视频采集设备131例如可以为各种类型的摄像机，处理设备132例如可以为便携式计算机、台式机或服务器等各种具有处理功能的电子设备。

在一实施例中，视频采集设备131的数量可以为至少两个，至少两个视频采集设备设置在蹦床110的不同视角位置处，以便于从多个视角采集在蹦床110上执行蹦床运动的目标对象的视频数据。

在一实施例中，该应用场景100中还可以设置有事件相机133，用于观测场景中的“运动”，确切地说用于观察场景中亮度的变化，当检测范围内某个像素对应的空间位置处的亮度值发生变化，事件相机133就会回传一个向量(x_i，y_i，t_i，p_i)。其中，(x_i，y_i)表示像素的位置，t_i表示亮度值发生变化的时间戳，p_i表示极性值，代表亮度值是由低至高发生变化还是由高至低发生变化。事件相机133在预定时段内采集到的向量可以形成一组事件数据。该事件相机133例如可以通过网络与处理设备132通信连接。处理设备132还可以用于根据事件相机133采集的事件数据来检测目标对象120并跟踪目标对象120的运动，处理设备132例如可以将目标对象120的运动满足视觉跟踪条件的时机作为视频采集设备131的触发时机，开始获取针对目标对象120采集的视频数据。该事件相机133例如可以设置在至少两个视频采集设备中的任一个视频采集设备的周边位置。

可以理解的是，本公开提供的针对目标对象的视觉跟踪方法例如可以由视觉跟踪系统中的处理设备132执行，本公开提供的针对目标对象的视觉跟踪装置可以设置在处理设备132中。

应该理解，图1中视频采集设备、处理设备的数目和类型仅仅是示意性的。根据实现需要，可以具有任意数目和类型的视频采集设备、处理设备。

以下将结合图2～图8对本公开提供的针对目标对象的视觉跟踪方法进行详细描述。

图2是根据本公开实施例的针对目标对象的视觉跟踪方法的流程示意图。

如图2所示，该实施例的方法200可以包括操作S210～操作S230。

在操作S210，根据事件相机采集的事件数据，确定执行体操类运动的目标对象的运动信息。

根据本公开的实施例，事件相机的检测周期例如可以为μm级别的，该实施例可以将预定周期(例如1ms)内事件相机回传的向量汇总为一个尺寸为H×W的图像数据。其中，H为事件相机在高度方向的分辨率，W为事件相机在宽度方向的分辨率，图像数据中的每个像素的特征可以由向量序列表示，向量序列中的向量为事件相机回传的针对该每个像素的向量。该实施例可以将图像数据作为事件相机采集的事件数据。

该实施例中，可以实时地获取事件相机采集的事件数据。该实施例可以先根据事件数据确定亮度值发生变化的像素，该亮度值发生变化的像素可以理解为是与运动的目标对象所在的位置相对应的像素。如此，该实施例可以根据各个预定周期内亮度值发生变化的像素，定位到每个预定周期内目标对象的位置。随后，可以根据不同预定周期内目标对象的位置的变化，来确定目标对象的运动信息。该运动信息例如可以包括运动速率、运动方向、运动趋势等，本公开对此不做限定。可以理解的是，可以将一个预定周期理解为事件相机采集尺寸为H×W的事件数据的采集周期。

在操作S220，响应于根据运动信息确定目标对象的运动满足视觉跟踪条件，获取针对目标对象在至少两个视角下同步采集的视频数据。

根据本公开的实施例，视觉跟踪条件可以根据实际需求进行设定。例如，在体操类运动中，需要重点关注的是运动员首次跳起之后至停止跳跃之间的运动。则可以将视觉跟踪条件设定为运动趋势为竖直向上，或者竖直向上的速率不为0，且不为负值等，本公开对此不做限定。

该操作S220可以将运动信息与视觉跟踪条件相比较。若运动信息中竖直向上的运动速率为大于0的值，则可以确定运动趋势为竖直向上，达到了视觉跟踪条件。相应地，处理设备可以开始获取在执行体操类运动所依赖的器械的至少两个视角位置处设置的视频采集设备所采集的视频数据。处理设备可以将获取的至少两个采集设备所采集的视频数据作为针对目标对象采集的视频数据。可以理解的是，至少两个采集设备的采集范围包括执行体操类运动所依赖的器械所在的区域。

在操作S230，根据视频数据，生成描述目标对象所执行的体操类运动的待播放数据。

根据本公开的实施例，可以将至少两个视角下同步采集的视频数据进行数据级融合。例如可以采用空间域算法或变换域算法来进行数据级的融合。其中，空间域算法采用的融合规则可以包括：逻辑滤波法、灰度加权平均法、对比调制法等。变换域算法采用的融合规则可以包括：金字塔分解融合法、小波变换法等。

该实施例还可以对数据级融合所得到的数据进行格式转换或编码，生成视频播放设备可以识别的数据，并将该视频播放设备可以识别的数据作为待播放数据。

本公开实施例中，通过根据事件相机采集的事件数据来确定目标对象的运动信息，可以实现目标对象的自动跟踪，且可以避免背景颜色复杂等对目标对象的定位精度的影响，且无需依赖于大量的标注数据和计算量复杂且识别存在延迟的深度网络。如此，可以提高确定的视觉跟踪的触发时机的精度。再者，通过获取在至少两个视角下采集的视频数据的技术方案，可以使得视觉跟踪无需依赖于广角相机，从而可以提高采集的视频数据中目标对象的清晰度等。

根据本公开的实施例，可以通过跟踪针对目标对象的包围框的方式来对目标对象进行跟踪。具体地，可以实时地获取事件相机采集的事件数据。根据事件相机在每个采集周期所采集的事件数据，可以确定在该每个采集周期内针对目标对象的包围框信息。该实施例可以根据多个采集周期内针对目标对象的多个包围框信息，来确定执行体操类运动的目标对象的运动信息。

例如，可以根据相邻两个采集周期内针对目标对象的两个包围框信息及该相邻两个采集周期之间的时间间隔，确定目标对象的运动速率和运动方向。可以根据多个包围框信息，确定目标对象的运动趋势。

其中，可以从各个采集周期采集到的事件数据选出极性值为1的像素，并将极性值为1的像素中排列紧凑的预定比例的像素的外接矩形框，作为各个采集周期内目标对象的包围框。该实施例可以将包围框的中心点所在的像素，包围框所占的像素宽度和像素高度作为针对目标对象的包围框信息。例如，排列紧凑的像素中的每个像素可以与其他像素中的至少一个像素相邻。例如，还可以采用下文图4描述的原理来确定包围框信息，在此不再详述。

其中，可以根据按时间顺序排列的多个包围框信息中，多个中心点所在像素的位置的移动作为目标对象的移动轨迹，从而确定目标对象的运动信息。

图3是根据本公开实施例的获取针对目标对象采集的视频数据的原理示意图。

根据本公开的实施例，在针对目标对象采集视频数据的过程中，例如可以根据事件相机采集的事件数据继续跟踪目标对象，并根据目标对象的位置来调节视频采集设备的采集角度，以使得目标对象处于采集的视频帧的中心位置，而无需视频采集设备进行全景图像的采集，利于提高采集的视频帧中目标对象的清晰度，如此便于更为清晰的辨识技术动作细节。

例如，如图3所示，该实施例300在响应于根据运动信息确定目标对象的运动满足视觉跟踪条件的情况下，可以先根据事件相机已采集的事件数据310，来确定目标对象的预测位置信息320。例如，该实施例可以对各个采集周期采集到的事件数据中极性值为1的像素进行聚类，将聚类中心作为目标对象在各个采集周期内的位置。如此，根据已采集的事件数据310即可确定目标对象在历史上各个采集周期的位置，从而推理得到目标对象的运动速度。该实施例可以根据目标对象的前一采集周期内的运动速度来预测目标对象在当前采集周期及在后采集周期内的位置。

在确定了预测位置信息320后，该实施例可以根据该预测位置信息320来确定分别搭载至少两个视频采集设备341的至少两个机械臂342的转动参数330。例如，可以根据空间位置与每个视频采集设备341的视线中心之间的线性关系，来确定搭载该每个视频采集设备的机械臂342的转动参数330，以尽可能地使得目标对象的位置位于该每个视频采集设备341的中心视线上。可以理解的是，至少两个机械臂的转动参数例如可以为相同的转动参数。

在确定了转动参数330后，该实施例可以经由处理设备来控制至少两个机械臂根据该转动参数330转动，同时保持视频采集设备处于数据采集的状态。如此，获取的视频采集设备所采集的视频数据350中，目标对象位于视频帧的中心位置。

可以理解的是，确定预测位置信息和转动参数的步骤可以实时地执行，以实时地调整机械臂的转动，实现视频采集设备对目标对象的跟踪，使得目标对象位于采集的视频数据中每个视频帧的中心位置。

在一实施例中，每个机械臂能够以两个或更多个轴为中心进行转动。例如，机械臂可以以竖直轴为中心进行转动，以改变视频采集设备的偏航角。机械臂也可以以在水平方向上从机械臂延伸至水面的轴为中心进行转动，以改变视频采集设备的俯仰角。可以理解的是，机械臂可以转动的方向仅作为示例以利于理解本公开，本公开对此不做限定。

通过本公开实施例的获取视频数据的原理，可以实现针对运动的目标对象的跟踪视频的录制，而无需人工介入。由于预测位置信息是根据事件数据来确定的，且事件相机的采集频率高，因此，可以提高确定的预测位置信息的精度，提高机械臂的控制精度，提高针对高速运动的目标对象的视频数据的采集准确性。

在一实施例中，以蹦床训练为例，机械臂342的个数可以为三个，相对于蹦床中心而言，三个机械臂342中相邻两个机械臂之间的中心视线的夹角例如可以为30°、60°、90°等，该夹角的大小可以根据实际需求进行设定，本公开对此不做限定。可以理解的是，在竞技体操场景中，可以以竞技体操执行时所依赖的器械为中心，设置多个机械臂。在艺术体操场景中，则可以以艺术体操执行时所在场地的中心为中心，设置多个机械臂。即，可以将多个机械臂设置在执行体操类运动所依赖的器械的至少两个视角的位置处。对于蹦床训练，所依赖的器械为蹦床；对于竞技体操训练，所依赖的器械可以为鞍马等；对于艺术体操训练，所依赖的器械可以为场地。

在一实施例中，还可以通过根据事件数据确定目标对象的包围框的方式来确定目标对象在历史上各个采集周期的位置。如此，根据多个历史采集周期内针对目标对象的多个包围框，即可确定目标对象的预测位置信息。例如，可以从各个采集周期采集到的事件数据中选出极性值为1的像素，并将极性值为1的像素中排列紧凑的预定比例的像素的外接矩形框，作为各个采集周期内目标对象的包围框。例如，还可以采用下文图4描述的原理来确定包围框信息，在此不再详述。

图4是根据本公开实施例的确定针对目标对象的包围框信息的原理示意图。

在一实施例中，在确定目标对象的包围框时，可以先将各个采集周期采集到的事件数据划分为多个像素块。随后，确定多个像素块中处于被激活状态的像素块。根据处于被激活状态的像素块来确定包围框。具体地，对事件数据以预定尺寸的像素块为单位进行划分，并根据像素块内的事件数据确定像素块的激活状态，仅根据处于激活状态的像素块来确定包围框。如此，可以剔除掉一些干扰事件对确定包围框的影响，利于提高确定的包围框信息的精度。

例如，如图4所示，该实施例中，可以将各个采集周期采集得到的事件数据400划分为尺寸为预定尺寸a×b的多个像素块。其中，a为小于H的数值，且H为a的整数倍，b为小于W的数值，且W为b的整数倍。例如，a与b的取值可以均为2，则划分得到的像素块数量为H/2*W/2，本公开对此不做限定。

随后，该实施例可以根据每个像素块中的事件数据，确定每个像素块的激活状态。例如，若像素块中的多个事件数据中，极性值的取值为1或-1的事件数据的个数大于等于事件数量阈值，即像素块中的事件数据所指示的事件数量大于等于事件数量阈值，则可以确定该像素块的激活状态为被激活状态，否则，确定该像素块的激活状态为未被激活状态。例如，如图4所示，具有实心圈的像素为事件数据中极性值的取值为1或-1的像素。例如，通过统计可以确定处于被激活状态的像素块包括像素块401～像素块406。

该实施例中，例如可以将该像素块401～像素块406的外接矩形框，作为目标对象的包围框，并将该包围框的像素位置作为针对目标对象的包围框信息。包围框的像素位置例如可以包括包围框的中心点所在的像素的位置，以及包围框占据的像素的宽度和高度。

在一实施例中，还可以对处于被激活状态的像素块进行聚类，得到聚类中心。随后，以该聚类中心为中心，根据预定半径划定预定范围410。该实施例可以将处于被激活状态的像素块中位于该预定范围内的像素块作为目标像素块。例如，位于预定范围内的像素块可以理解为像素块所占区域中预定比例的区域被圈入该预定范围的像素块。例如，处于被激活状态的像素块401～像素块406中，目标像素块可以包括像素块401～像素块405。随后，可以根据目标像素块的外接矩形框420，来确定目标对象的包围框信息。如此，该实施例可以通过聚类中心对处于被激活状态的像素块进行进一步地筛选，可以进一步地提高确定的包围框信息的精度。

例如，可以将目标像素块的外接矩形框420作为目标对象的包围框，相应地，将外接矩形框420的像素位置作为针对目标对象的包围框信息。外接矩形框420的像素位置例如可以包括外接矩形框420的中心点所在的像素的位置，以及外接矩形框420占据的像素的宽度和高度。

例如，在得到目标像素块的外接矩形框420之后，该实施例还可以根据预先设定的尺寸对外接矩形框420进行外扩，将外扩得到的矩形框430作为目标对象的包围框。其中，预先设定的尺寸可以根据实际需求进行选择，本公开对此不做限定。通过对外接矩形框420进行外扩，可以避免剔除过程中的误剔除导致的包围框无法完整覆盖目标对象的情况，提高确定的包围框信息的精度。

例如，在得到了在多个历史采集周期内针对目标对象的包围框信息之后，可以根据相邻两个历史采集周期内的包围框信息之间的差异及相邻两个历史采集周期之间的时间间隔，来确定目标对象的运动速度。基于类似的方式，可以确定目标对象在各个历史采集周期的运动速度。根据最新采集周期的运动速度，即可预测目标对象在下一采集周期的位置信息。

例如，在得到多个包围框信息之后，可以先对多个包围框信息按多个历史采集周期的先后顺序进行平滑处理，具体可以对多个包围框信息包括的包围框的中心点位置进行平滑处理。随后，根据平滑处理后的多个中心点位置来确定目标对象的运动速度。最后，再根据运动速度，来确定目标对象的预测位置信息。通过平滑处理，可以提高确定的运动速度和预测位置信息的精度。

在实际场景中，每天会产生大量的待播放数据，若直接存储该大量的待播放数据，不利于对该大量的待播放数据的后续处理。例如不利于后期定位到需要播放的数据，不利于对待播放数据描述的体操类运动的细节评估等。

在一实施例中，在得到视频数据后，例如可以先对视频数据中的目标对象进行身份识别，得到目标对象的身份信息。随后将身份信息和待播放数据进行关联地存储。其中，例如可以采用行人重识别算法(Re-Identification，简称为Re-ID)或人脸识别算法等来对待播放数据中的目标对象进行身份识别，本公开对此不做限定。识别得到的身份信息例如可以为唯一表示目标对象的ID信息等，本公开对此不做限定。如此，便于依据身份信息，从存储的大量待播放数据中筛选出描述所关注对象执行的体操类运动的待播放数据，并对筛选出的待播放数据进行解码播放。

例如，对于在至少两个视角下同步采集的视频数据，该实施例可以对任一视角下的视频数据中的目标对象进行身份识别，得到身份信息。或者，可以对每个视角下的视频数据中的目标对象进行身份识别，得到与至少两个视角对应的身份识别信息，随后，对与该至少两个视角对应的身份识别信息进行加权，根据加权后的身份识别信息来确定识别得到的身份信息。或者，可以先对至少两个视角下同步采集的视频数据进行融合，得到融合后视频数据，随后对融合后视频数据中的目标对象进行身份识别，得到身份信息。

在一实施例中，在获取得到视频数据后，例如可以对视频数据中的目标对象进行姿态识别，来得到待播放数据描述的体操类运动的动作信息。则在存储待播放数据时，将动作信息和待播放数据进行关联地存储。如此，便于依据动作信息，从存储的大量待播放数据中筛选出所关注动作的数据进行播放。

图5是根据本公开实施例的确定针对体操类运动的评估值的原理示意图。

根据本公开的实施例，每个视角下采集的视频数据中包括在各时间点采集的视频帧。该实施例可以采用姿态识别模型来对各时间点采集的至少两个视角下的视频帧中的目标对象进行姿态识别。其中，姿态识别模型例如可以包括关键点识别模型。该实施例可以将识别得到的关键点信息作为针对每个时间点的动作信息。例如通过将针对多个时间点的动作信息按时间顺序排列，得到待播放数据描述的体操类运动的动作信息。

例如，如图5所示，该实施例500在对目标对象进行姿态识别时，例如可以先针对各时间点，对至少两个视角下同步采集的至少两个视频帧中的目标对象进行姿态识别，得到目标对象在该各时间点的三维关键点信息。随后，根据该三维关键点信息，确定目标对象在该各时间点的姿态信息。基于此，可以得到目标对象在各时间点的三维关键点信息和姿态信息。最后，该实施例可以根据目标对象在采集视频数据的多个时间点的姿态信息，来确定目标对象执行的体操类运动的动作信息。

例如，若采集的视频数据包括在第一时间点511采集的视频帧、在第二时间点512采集的视频帧和在第三时间点513采集的视频帧。则根据在第一时间点511采集的至少两个视频帧521-1～521-2，可以得到目标对象在第一时间点511的三维关键点信息531，并基于此得到目标对象在第一时间点511的姿态信息541。类似地，根据在第二时间点512采集的至少两个视频帧522-1～522-2，可以得到目标对象在第二时间点512的三维关键点信息532和姿态信息542；根据在第三时间点513采集的至少两个视频帧523-1～523-2，可以得到目标对象在第三时间点513的三维关键点信息533和姿态信息543。最后，该实施例可以根据姿态信息541～543，来确定动作信息550。

其中，例如以目标对象为运动员为例，可以通过人体骨骼关键点检测算法等来进行姿态识别，得到三维关键点信息。或者，可以采用知识蒸馏的轻量级3D人体姿态估计网络(Lightweight 3D Human Pose Estimation Network Training Using Teacher-StudentLearning，MovNect)或者2D-3D人体姿态识别算法等来进行目标对象的三维关键点信息的检测。检测得到的三维关键点例如可以包括24个关键点，以目标对象为人体为例，该24个关键点例如可以用于描述以下人体部位的位置：下巴中心点、脖子中心点、左右侧肩的中心点、左右侧手肘的中心点、左右侧手腕的中心点、左右侧手掌的掌心、左右胸的中心点，脊柱的四个关键点、左右侧髋部的中心点、左右侧膝部的中心点、左右侧脚踝的中心点和左右侧脚掌的中心点。可以理解的是，根据采用的算法的不同，检测得到的三维关键点的数量也有所不同。

在得到三维关键点信息后，该实施例可以根据髋部的中心点与膝部的中心点之间的第一空间向量、膝部的中心点与脚腕的中心点之间的第二空间向量，确定目标对象腿部的姿态信息(例如可以由第一空间向量与第二空间向量之间的夹角来表示)。该实施例还可以根据脊柱的四个关键点中相邻关键点连接形成的三个空间向量彼此之间的夹角，来确定目标对象背部的姿态信息。该实施例还可以将背部四个关键点的连线与左腿(或右腿)上三个关键点的连线之间的夹角，作为目标对象的姿态信息。该实施例还可以将左臂上三个关键点的连线与右臂上三个关键点的连线之间的位置关系，或者左腿上三个关键点的连线与右腿上三个关键点的连线之间的位置关系，作为目标对象的姿态信息。可以理解的是，根据实际需求，可以确定上述提及的多个姿态信息中的两个或多个，本公开对此不做限定。

在得到各时间点的姿态信息后，该实施例可以根据相邻两个或多个视频帧中目标对象的姿态信息的差异，来确定目标对象的转体角度、转体方向等，并将该转体角度、转体方向等作为动作信息。或者，该实施例可以将多个时间点的姿态信息与预定的特殊动作的姿态信息进行比较，确定目标对象在多个时间点所执行的动作是否包括特殊动作。若包括，则将包括的特殊动作作为动作信息。例如，特殊动作可以包括前空翻、后空翻、侧空翻、前空翻接侧空翻、后空翻接侧空翻等。

可以理解的是，上述确定姿态信息和动作信息的方式仅作为示例以利于理解本公开，本公开对此不做限定。该实施例通过上述动作信息的识别和确定，可以实现对目标对象的动作的量化分析，便于对目标对象所执行的体操类运动中的动作进行细节评估。

根据本公开的实施例，如图5所示，该实施例500在得到待播放数据描述的体操类运动的动作信息550后，例如还可以将确定的动作信息550与预定的标准动作信息560进行比较，并根据两个动作信息之间的相似度570，来确定针对体操类运动的评估值580。例如，可以将确定的动作信息550与标准动作信息560进行向量化表示。随后根据向量化表示得到的两个向量之间的距离，确定两个动作信息之间的相似度。例如，若两个向量之间的距离越小，则相似度570越大，评估值580的取值越高。例如，动作信息550可以包括动作的属性信息，动作的属性信息可以包括上文描述的目标对象腿部的姿态信息和/或背部的姿态信息等。该实施例可以针对某个动作，根据动作信息550中该某个动作的属性信息与预定的标准动作信息中该某个动作的属性信息之间的相似度，来确定该某个动作的评估值。则针对体操类运动包括的多个动作，可以得到多个动作的评估值。该实施例可以将多个动作的评估值构成的评估值向量，作为体操类运动的评估值。或者，该实施例可以将多个动作的评估值的加权和或者平均值等，作为目标对象执行的体操类运动的评估值。

该实施例通过确定评估值，还可以在一定程度上反映体操类运动的完成度，反映体操类运动执行的标准程度。如此，可以在一定程度上为人工对目标对象所执行的体操类运动的分析提供参考，利于提高人工分析的效率。

在一实施例中，根据各时间点的姿态信息确定动作信息时，例如还可以根据姿态信息对体操类运动包括的多个动作对视频数据进行切分。随后，根据采集切分后视频片段的时间点的姿态信息，来确定动作信息。如此，可以对体操类运动包括的动作进行拆分，并得到体操类运动包括的每个动作的动作信息，以利于更好地对每个动作进行量化分析，并分析每个动作的难度系数。

例如，可以根据目标对象在各时间点的姿态信息，确定目标对象执行的体操类运动中包括的至少一个动作。其中，以蹦床训练的场景为例，可以将腿部和背部均竖直向下延伸，且左右侧脚掌的中心点与蹦床表面之间的距离小于预定距离的姿态信息作为目标对象接触蹦床的目标姿态信息。该实施例可以根据目标姿态信息的个数，确定蹦床运动包括的动作的个数。例如，若目标姿态信息为M个，则动作的个数为(M-1)。该实施例可以根据目标姿态信息对应的时间点，对视频数据进行切分。例如，可以将目标姿态信息对应的时间点中相邻两个时间点之间所采集的视频数据作为与一个动作对应的视频片段，从而得到(M-1)个视频片段。

在得到(M-1)个视频片段后，该实施例可以根据采集每个视频片段的各时间点的姿态信息，来确定每个动作的动作信息。例如，在蹦床训练的场景中，每个动作的动作信息可以包括是否有空翻动作、空翻动作的类型、空翻动作的次数等，本公开对此不做限定。其中，空翻动作的类型可以包括：前空翻类型、后空翻类型、侧空翻类型等。

图6是根据本公开第一实施例的确定三维关键点信息的原理示意图。

如图6所示，该实施例600在对各时间点采集的至少两个视角下的视频帧中的目标对象进行姿态识别时，可以先对每个视角下的视频帧进行姿态识别，得到目标对象针对每个视角的三维关键点信息。则针对至少两个视角可以得到至少两个三维关键点信息，该实施例可以对该至少两个三维关键点信息进行融合，从而得到目标对象在各时间点的三维关键点信息。

例如，若至少两个视角包括第一视角611～第三视角613，则可以通过对在某个时间点采集的第一视角611下的视频帧621进行姿态识别，得到针对该第一视角611的三维关键点信息，并将该三维关键点信息作为一个初始关键点信息631。类似地，可以分别根据第二视角612下的视频帧622和第三视角613下的视频帧623，得到针对第二视角612的三维关键点信息以及针对第三视角613的三维关键点信息，共计得到与第一视角611～第三视角613分别对应的三个初始关键点信息，即初始关键点信息631～初始关键点信息633。通过融合该初始关键点信息631～初始关键点信息633，可以得到目标对象在该某个时间点的三维关键点信息。

其中，在对每个视角下的视频帧进行姿态识别得到初始关键点信息时，例如可以先采用目标检测算法从每个视角下的视频帧中检测出目标对象的包围框。随后，在包围框的基础上针对单个目标对象做人体骨骼关键点检测，从而得到针对该每个视角的初始关键点信息。或者，可以采用上文描述的MovNect或者2D-3D人体姿态识别算法等来对每个视角下的视频帧进行目标对象的三维关键点信息的检测，从而得到针对该每个视角的初始关键点信息。

其中，在得到针对至少两个视角中每个视角的三维关键点信息后，例如可以对至少两个三维关键点信息进行加权，从而实现对三维关键点信息的融合。其中，加权时所采用的权重可以根据实际需求进行设定。例如，对于沿器械的宽度方向正对器械的视角，可以设置较大的权重，而对于其他视角，可以设置较小的权重，本公开对此不做限定。

在一实施例中，可以将对至少两个三维关键点信息融合所得到的信息作为融合关键点信息640，随后，采用深度相机650采集的点云数据660来对融合关键点信息640进行校正，将校正后的关键点信息作为目标对象在各时间点的三维关键点信息670。其中，深度相机650例如可以设置在目标视角的视频采集设备的周边位置。其中，目标视角例如可以为沿器械的宽度方向正对器械的视角，或者可以为其他视角中的任一视角，本公开对此不做限定。例如，深度相机650与事件相机可以均设置于正对器械的视角，以便于对器械及器械上的目标对象进行更为完整的检测。

可以理解的是，深度相机采集的点云数据至少包括各时间点的点云数据。该实施例可以先获取深度相机在采集视频帧的时间点所采集的点云数据，随后根据获取的点云数据对与该时间点对应的融合关键点信息进行校正。例如，对于某个关键点，可以对深度数据中该某个关键点所对应部位的多个点云数据进行加权融合，得到融合后点云数据。随后，例如将融合后点云数据与融合关键点信息中该某个关键点的信息进行加权，得到目标对象在该各时间点的三维关键点信息。或者，可以将融合后点云数据与融合关键点信息中该某个关键点的信息进行比较。若融合关键点信息表示的某个关键点的位置与融合点云数据表示的位置之间的距离大于距离阈值，则可以对至少两个初始关键点信息进行重新融合，例如，可以通过调整融合至少两个初始关键点信息时所采用的权重来进行重新融合。若某个关键点的位置与融合点云数据表示的位置之间的距离小于等于距离阈值，则确定融合关键点信息即为目标对象在该各时间点的三维关键点信息。

其中，在对某个关键点所对应部位的多个点云数据进行加权融合时，例如可以为靠近对应部位中心点的点云数据设置较大的权重。

通过采用深度相机采集的点云数据来校正融合关键点信息，可以提高最终得到的各时间点的三维关键点信息的精度。

图7是根据本公开第二实施例的确定三维关键点信息的原理示意图。

如图7所示，该实施例700在对各时间点采集的至少两个视角下的视频帧中的目标对象进行姿态识别时，例如可以先根据至少两个视角下的至少两个视频帧，生成各时间点的点云数据。随后，通过对点云数据进行处理，得到三维关键点信息。

例如，设定至少两个视角的数量为N，该实施例可以将至少两个视角中的某个视角作为目标视角。例如，该实施例700中，至少两个视角为三个，可以将沿器械的宽度方向正对器械的视角(具体可以为第二视角712)作为目标视角。随后，该实施例可以根据目标视角下的视频帧与其他视角中任意一个视角下的视频帧，生成一组点云数据，作为初始点云数据。例如，可以根据预先标定的第一视角711下视频采集设备的外参与第二视角712下视频采集设备的外参之间的转换关系，对第一视角711下的视频帧721与第二视角712下的视频帧722进行匹配，生成视差矩阵。随后，基于视差矩阵计算每一个像素点的深度。随后，通过相机模型计算每一个像素点对应的三维坐标，从而得到一组初始点云数据731。类似地，可以根据预先标定的第二视角712下视频采集设备的外参与第三视角713下视频采集设备的外参之间的转换关系，对第二视角712下的视频帧722与第三视角713下的视频帧723进行匹配，得到一组初始点云数据732。则对于N个视角，可以得到(N-1)组初始点云数据。随后，该实施例可以对该(N-1)组初始点云数据进行配准，从而得到各时间点的点云数据740。例如，可以采用迭代最近点算法(Iterative closest Point，简称为ICP)或点到线的ICP算法等对(N-1)组初始点云数据进行配准。该实施例可以将配准得到的点云数据作为各时间点的点云数据。

在得到各时间点的点云数据后，例如可以采用深度网络750对该点云数据进行特征提取等，从而得到三维关键点信息760。例如，深度网络可以包括Point Net网络或PointCNN网络等，本公开对此不做限定。

在一实施例中，在根据点云数据740得到三维关键点信息760的过程中，例如还可以根据事件相机在各实际时间点采集的事件数据，来确定点云的权重。例如，可以将事件相机770采集的事件数据780转换至点云数据740所在的坐标空间中，将事件数据780与点云数据740中各点云对应的像素对齐。例如，点云数据中的三维坐标中，(x，y)可以表示点云对应的像素位置。该实施例可以将对齐后的事件数据与点云数据在通道维度拼接后输入深度网络750，由深度网络750基于注意力机制来根据事件数据对点云数据进行加权，并进行特征的提取，并由深度网络750输出目标对象的三维关键点信息。

该实施例通过根据事件相机采集的事件数据来对点云数据进行加权，可以提高得到的三维关键点信息的精度。这是由于事件数据可以反映出空间中目标对象所在的位置，通过根据事件数据来加权，可以减少空间中除目标对象的点云外其他点云对关键点检测的干扰。

图8是根据本公开实施例的确定目标对象的运动速度的原理示意图。

在一实施例中，为了更为全面的反馈目标对象的运动，该实施例还可以将目标对象的运动速度作为输出信息，以便于在播放待播放数据时，实时地显示该目标对象的运动速度。

考虑到在体操类运动的训练场景中，目标对象通常距离视频采集设备距离较近，则目标对象在执行体操类运动的过程中最高点通常较高，需要视频采集设备俯仰较大的角度。若根据视频采集设备采集的视频帧来预估运动速度，会存在误差较大的问题。且目标对象在执行体操类运动时，由于空翻动作等较多，包围框的形状变化较大，根据前述的二维包围框来确定运动速度同样存在误差较大的问题。

基于此，本实施例可以结合事件相机采集的事件数据和深度相机采集的点云数据，来确定目标对象的运动速度。以此提高确定的运动速度的精度。

例如，如图8所示，该实施例800可以先从各采集周期内采集的事件数据810中，确定出与器械所在区域相对应的目标事件数据。例如，可以根据事件相机的采集范围及器械在该采集范围内的位置，确定事件数据810中与器械所在位置对应的像素区域的事件数据，作为目标事件数据811。

在得到目标事件数据后，该实施例可以根据目标事件数据811的取值，确定指示存在事件变化的事件数据所在的目标像素。例如，可以将目标事件数据811所在的像素中，取值为1或-1的像素作为目标像素820。在得到目标像素820后，还可以确定深度相机采集的点云数据830中与该目标像素820对应的点云数据，作为目标点云数据840。需要说明的是，可以预先对事件相机与深度相机进行了标定，使得事件数据可以与深度数据逐像素地对齐。则该实施例可以根据对齐结果和目标像素820，得到目标点云数据840。

随后，该实施例可以对目标点云数据840进行聚类，将聚类中心850作为目标对象的重心。如此，针对各个采集周期，均可以得到目标对象的重心的三维坐标。该实施例可以根据针对多个采集周期确定的多个聚类中心的差异，来确定目标对象的运动速度860。例如，该实施例800可以将针对相邻两个采集周期的两个聚类中心之间的向量方向作为与相邻两个采集周期中较早的采集周期相对应的运动方向，将两个聚类中心之间的距离与采集周期的长度的比值，作为运动速率。

在得到运动速度860后，该实施例可以将运动速度所对应的采集周期与该采集周期下采集的视频数据进行关联，以在播放该采集周期下采集的视频数据时，关联地展示该采集周期的运动速度。

基于本公开提供的针对目标对象的视觉跟踪方法，本公开还提供了一种针对目标对象的视觉跟踪装置。以下将结合图9对该装置进行详细描述。

图9是根据本公开实施例的针对目标对象的视觉跟踪装置的结构框图。

如图9所示，该实施例的针对目标对象的视觉跟踪装置900可以包括运动信息确定模块910、数据获取模块920和数据生成模块930。

运动信息确定模块910用于根据事件相机采集的事件数据，确定执行体操类运动的目标对象的运动信息。在一实施例中，运动信息确定模块910可以用于执行上文描述的操作S210，在此不再赘述。

数据获取模块920用于响应于根据运动信息确定目标对象的运动满足视觉跟踪条件，获取针对目标对象在至少两个视角下同步采集的视频数据。在一实施例中，数据获取模块920可以用于执行上文描述的操作S220，在此不再赘述。

数据生成模块930用于根据视频数据，生成描述目标对象所执行的体操类运动的待播放数据。在一实施例中，数据生成模块930可以用于执行上文描述的操作S230，在此不再赘述。

根据本公开的实施例，上述针对目标对象的视觉跟踪装置900还可以包括动作识别模块，用于对待播放数据中的目标对象进行姿态识别，得到待播放数据所描述的体操类运动的动作信息；以及存储模块，用于将动作信息和待播放数据关联地存储。

根据本公开的实施例，上述动作识别模块包括：关键点确定子模块，用于根据视频数据中在至少两个视角下同步采集的各时间点的视频帧，确定目标对象在各时间点的三维关键点信息；姿态确定子模块，用于根据三维关键点信息，确定目标对象在各时间点的姿态信息；以及动作信息确定子模块，用于根据目标对象在各时间点的姿态信息，确定动作信息。

根据本公开的实施例，上述动作信息确定子模块包括：动作确定单元，用于根据目标对象在各时间点的姿态信息，确定目标对象执行的体操类运动中包括的至少一个动作；片段确定单元，用于针对至少一个动作中的每个动作，确定视频数据中与每个动作对应的视频片段；以及动作确定单元，用于根据目标对象在采集视频片段的各时间点的姿态信息，确定每个动作的动作信息。

根据本公开的实施例，上述关键点确定子模块包括：识别单元，用于对每个视角下各时间点的视频帧进行姿态识别，得到目标对象在各时间点针对每个视角的三维关键点信息，作为针对每个视角的初始关键点信息；融合单元，用于对在各时间点针对至少两个视角的至少两个三维关键点信息进行融合，得到融合关键点信息；以及信息确定单元，用于根据融合关键点信息，确定目标对象在各时间点的三维关键点信息。

根据本公开的实施例，上述信息确定单元包括：参考数据获取子单元，用于获取深度相机在各时间点采集的点云数据，作为参考点云数据；以及校正子单元，用于根据参考点云数据对融合关键点信息进行校正，得到目标对象在各时间点的三维关键点信息，其中，深度相机设置于至少两个视角中的目标视角所对应的位置处；目标视角为至少两个视角中的任一视角。

根据本公开的实施例，上述关键点确定子模块包括：点云生成单元，用于根据在至少两个视角下同步采集的各时间点的视频帧，生成各时间点的点云数据；权重生成单元，用于根据事件相机在各时间点采集的事件数据，生成针对点云数据的权重数据；以及信息确定单元，用于根据权重数据和点云数据，确定目标对象在各时间点的三维关键点信息。

根据本公开的实施例，点云生成单元包括：点云生成子单元，用于针对各时间点，根据在至少两个视角中的目标视角下的视频帧与至少两个视角中除目标视角外的每一个视角下的视频帧，生成一组初始点云数据；以及点云配准子单元，用于对生成的(N-1)组初始点云数据进行配准，得到各时间点的点云数据，其中，目标视角为至少两个视角中的任一视角，N为大于1的自然数。

根据本公开的实施例，上述针对目标对象的视觉跟踪装置900还可以包括评估值确定模块，用于根据动作信息与预定标准动作信息之间的相似度，确定针对体操类运动的评估值。

根据本公开的实施例，上述针对目标对象的视觉跟踪装置900还可以包括：目标像素确定模块，用于针对多个采集周期中的各采集周期，根据事件相机在各采集周期内采集的事件数据中与执行体操类运动所依赖的器械所在区域相对应的目标事件数据，确定指示存在事件变化的事件数据所在的目标像素；目标点云确定模块，用于确定深度相机采集的点云数据中与目标像素对应的目标点云数据；聚类中心确定模块，用于确定目标点云数据的聚类中心，作为针对各采集周期的聚类中心；以及速度确定模块，用于根据针对多个采集周期所确定的目标点云数据的多个聚类中心的差异，确定目标对象的运动速度。

根据本公开的实施例，上述运动信息确定模块910可以包括：包围框确定子模块，用于针对多个采集周期中的各采集周期，根据事件相机在各采集周期内采集的事件数据，确定针对目标对象的包围框信息；以及运动信息确定子模块，用于根据在多个采集周期内针对目标对象的多个包围框信息，确定执行体操类运动的目标对象的运动信息。

根据本公开的实施例，上述数据获取模块920可以包括：位置预测子模块，用于响应于根据运动信息确定目标对象的运动满足视觉跟踪条件，根据事件相机已采集的事件数据，确定目标对象的预测位置信息；转动参数确定子模块，用于根据预测位置信息，确定与至少两个视角对应的至少两个机械臂的转动参数；至少两个机械臂中的每个机械臂搭载有视频采集设备；以及数据获取子模块，用于在至少两个机械臂在转动参数下转动的过程中，获取至少两个机械臂搭载的至少两个视频采集设备所采集的视频数据。

根据本公开的实施例，上述位置预测子模块包括：包围框确定单元，用于针对多个历史采集周期中的各历史采集周期，根据事件相机在各历史采集周期内采集的事件数据，确定针对目标对象的包围框信息；以及位置预测单元，用于根据在多个历史采集周期内针对目标对象的多个包围框信息，确定针对目标对象的预测位置信息。

根据本公开的实施例，上述包围框确定子模块和包围框确定单元中的至少之一用于：根据预定尺寸和事件数据所在的像素位置，将事件数据划分为多个像素块；根据每个像素块中的事件数据，确定每个像素块的激活状态；激活状态包括被激活状态和未被激活状态；以及根据处于被激活状态的像素块，确定针对目标对象的包围框信息。

根据本公开的实施例，上述根据处于被激活状态的像素块，确定针对目标对象的包围框信息包括：对处于被激活状态的像素块进行聚类，得到聚类中心；确定处于被激活状态的像素块中位于以聚类中心为中心的预定范围内的目标像素块；以及根据目标像素块的外接矩形框，确定针对目标对象的包围框信息。

根据本公开的实施例，上述根据每个像素块中的事件数据，确定每个像素块的激活状态包括：响应于每个像素块中的事件数据所指示的事件数量大于等于事件数量阈值，确定每个像素块为被激活状态；以及响应于每个像素块中的事件数据所指示的事件数量小于事件数量阈值，确定每个像素块为未被激活状态。

根据本公开的实施例，上述根据在多个历史采集周期内针对目标对象的多个包围框信息，确定针对目标对象的预测位置信息包括：对多个包围框信息按多个历史采集周期的先后顺序进行平滑处理，确定目标对象的运动速度；以及根据运动速度，确定针对目标对象的预测位置信息。

根据本公开的实施例，上述针对目标对象的视觉跟踪装置900还可以包括：身份识别模块，用于对视频数据中的目标对象进行身份识别，得到目标对象的身份信息；以及存储模块，用于将身份信息和待播放数据关联地存储。

图10是根据本公开第一实施例的针对目标对象的视频跟踪系统的结构示意图。

如图10所示，该实施例的视频跟踪系统1000可以包括至少两个视频采集设备1010、事件相机1020和处理设备1030。该视频跟踪系统1000例如还可以包括有机柜，处理设备1030设置于机柜中，事件相机1020和至少两个视频采集设备1010中的其中一个固定于机柜的上表面。

事件相机1020可以设置于其中一个视频采集设备的周边的任意位置，该事件相机1020观测场景中的“运动”，确切地说用于观察场景中亮度的变化。该事件相机1020的工作原理与上文描述的事件相机的工作原理类似，在此不再赘述。

在一实施例中，至少两个视频采集设备1010可以一一对应地设置于执行体操类运动所依赖的器械的至少两个视角的位置处。例如，若视频采集设备1010可以为三个，则三个视频采集设备1010可以围绕器械设置。且其中一个视频采集设备1010可以沿器械的宽度方向上设置在正对器械的位置，另外两个视频采集设备设置位置的视角例如与该正对器械的位置处的视角之间的夹角为30°、60°、90°等，本公开对此不做限定。

处理设备1030例如可以为便携式计算机、台式计算机、服务器等。该处理设备1030与至少两个视频采集设备1010通信连接，以获取至少两个视频采集设备1010采集的视频数据，并根据视频数据生成待播放数据。该处理设备1030还可以与事件相机1020通信连接，以获取事件相机1020采集的事件数据，并根据事件数据确定目标对象的运动信息。

在一实施例中，处理设备1030具体可以用于执行上文描述的针对目标对象的视觉跟踪方法，在此不再赘述。

在一实施例中，如图10所示，针对目标对象的视频跟踪系统还可以包括至少两个机械臂1040，该至少两个机械臂一一对应地设置在器械的至少两个视角的位置处，至少两个视频采集设备1010一一对应地搭载于至少两个机械臂1040上。至少两个机械臂可以为上文描述的能够以两个或更多个轴为中心进行转动的机械臂。视频采集设备1010可以在搭载其的机械臂1040的转动的带动下，改变偏航角和/或俯仰角等。该视频采集设备1010用于采集视线范围内的视频数据。

在一实施例中，该处理设备1030例如还可以与机械臂1 040通信连接，用于根据目标对象的预测位置信息，控制机械臂的转动。

图11是根据本公开第二实施例的针对目标对象的视频跟踪系统的结构示意图。

在一实施例中，如图11所示，针对目标对象的视觉跟踪系统1100除了机械臂1140、视频采集设备1110、事件相机1120和处理设备1130外，还可以包括深度相机1150，该深度相机1150可以与事件相机1120类似，设置于其中一个视频采集设备的周边的任意位置。或者，该深度相机也可以与其中一个视频采集设备类似，固定于其中一个机械臂1140，以在机械臂的带动下转动。其中，固定深度相机的机械臂可以为在任一视角的位置处设置的目标机械臂。在该实施例中，处理设备1130例如也可以与深度相机通信连接，以获取深度相机采集的点云数据，并根据点云数据对上文描述的三维关键点信息进行校正，或者根据点云数据确定运动速度，在此不再赘述。

在一实施例中，深度相机1150、事件相机1120、机柜和处理设备1130可以设置在正对器械的位置，且正对器械的位置处设置其中的一个视频采集设备和其中的一个机械臂。

在一实施例中，针对目标对象的视觉跟踪系统例如还可以包括播放设备。例如，如图11所示，该播放设备1160可以经由有线通信链路等与处理设备1130通信连接。该播放设备1160例如可以设置于处理设备的周边区域，也可以与处理设备设置于不同的物理空间中。例如，该播放设备1160例如可以设置在比赛场地所设置的休息室，而处理设备设置在比赛场景所设置的执行体操类运动所依赖的器械旁。

例如，该播放设备1160可以设置有视频解码器和播放器。处理设备1130例如可以将编码得到的待播放数据经由网络发送给播放设备1160，播放设备的视频解码器可以对接收的待播放数据进行解码，得到视频数据。如此，播放器即可对解码得到的视频数据进行播放。在一实施例中，视频解码器例如可以采用GPU，以提高解码效率。相应地，处理设备1130例如可以利用GPU，采用上文描述的并行编码方法对视频数据进行编码。如此，视频录制后，自编码到解码并播放所需的时长，可以大大缩减，可以提高视频播放的时效性。

在一实施例中，针对目标对象的视觉跟踪系统例如还可以包括控制台，该控制台例如可以设置有多个控制按键，且该控制台可以与处理设备1130通信连接。控制台例如可以响应于对多个控制按键中第一控制按键的操作，向处理设备1130发送第一控制信号。则处理设备1130可以在接收到该第一控制信号后，根据该第一控制信号来控制至少两个机械臂1140的转动。例如，该控制台例如可以与播放设备1160设置于相同的物理空间。如此，在教练等观看播放设备1160所播放的视频数据时，可以根据采集的视频数据的情况，通过对控制台上的控制按键的操作，实现对机械臂的远程控制。如此，便于根据实际需求实时地更改视频采集设备跟踪拍摄的位置，可以使得至少两个机械臂上搭载的至少两个视频采集设备1110所采集的视频数据更为符合实际需求，提高视频数据的采集准确性。

例如，控制台向处理设备发送第一控制信号时，可以经由IO转TCP模块等进行发送，以使得发送的第一控制信号为处理设备1130可以识别、且处理设备1130能够处理的预定格式的信号。

例如，经由对控制台中控制按键的操作，还可以使得至少两个机械臂处于自动跟踪模式，以使得视觉跟踪系统可以实现对目标对象的自动跟踪。例如，经由对控制台中控制按键的操作，还可以实现对处理设备的远程重启，以在处理设备出现故障时，使得处理设备可以重启并恢复至正常工作状态。

在一实施例中，控制台例如还可以与播放设备1160通信连接，控制台例如还可以响应于对多个控制按键中第二控制按键的操作，向播放设备1160发送第二控制信号，以经由该第二控制信号调整播放设备所播放的视频数据。例如，播放设备1160可以在接收到第二控制信号后，调整播放设备所播放的视频数据。具体例如可以调整视频数据的播放速度，并且/或者，切换播放的视频数据。可以理解的是，针对不同的调整方式，对应操作的第二控制按键为不同的按键。

通过该第二控制按键的设置，在教练等观看播放设备1160所播放的视频数据时，可以根据播放的视频数据的情况，通过对控制台上的控制按键的操作，实现对播放设备的控制。如此，便于根据实际需求实时地调整播放设备所播放的视频数据，可以使得播放设备所播放的视频数据更为符合实际需求。

在一实施例中，针对目标对象的视觉跟踪系统例如还可以设置有遥控设备，遥控设备可以与处理设备通信连接。例如，遥控设备可以包括可以遥控信号发送模块和随身携带的遥控器，遥控器上可以设置有多个按钮。在响应于对多个按钮中的第一按钮的操作时，该遥控器例如可以产生第三控制信号，并经由遥控信号发送模块将该第三控制信号发送给处理设备。相应地，处理设备中例如可以设置有遥控信号接收模块。处理设备可以在接收到第三控制信号后，根据第三控制信号控制至少两个机械臂的转动。其中，遥控器产生的控制信号例如可以为红外信号等，本公开对此不做限定。

本公开实施例通过遥控设备的设置，可以使得在运动现场的教练等用户可以随身携带，并通过随身携带的遥控设备来对机械臂进行远程控制，以使得机械臂上搭载的视频采集设备所采集的视频数据更为符合实际需求，提高机械臂远程控制的灵活性。

在一实施例中，遥控设备例如还可以与播放设备通信连接，经由类似的原理，遥控设备例如还可以响应于对多个按钮中第二按钮的操作，向播放设备发送第四控制信号。以经由遥控设备对播放设备所播放的视频数据进行调整。

可以理解的是，经由遥控设备对播放设备和处理设备的控制与经由上文描述的控制台对播放设备和处理设备的控制类似，区别仅在于，遥控设备为便携的设备，而控制台通常与播放设备等设置于同一物理空间。

本公开实施例通过控制台或遥控设备的设置，可以实现对机械臂或播放设备的远程控制。如此，在实际场景中，可以根据实际需求控制机械臂上搭载的视频采集设备对不同的目标对象进行视频监控。相较于采用算法识别特定的目标对象，并对特定的目标对象进行监控的技术方案，可以提高监控的准确度，且无需算力支持。

需要说明的是，本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。在本公开的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图12示出了可以用来实施本公开实施例的针对目标对象的视觉跟踪方法的示例电子设备1200的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图12所示，设备1200包括计算单元1201，其可以根据存储在只读存储器(ROM)1202中的计算机程序或者从存储单元1208加载到随机访问存储器(RAM)1203中的计算机程序，来执行各种适当的动作和处理。在RAM 1203中，还可存储设备1200操作所需的各种程序和数据。计算单元1201、ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出(I/O)接口1205也连接至总线1204。

设备1200中的多个部件连接至I/O接口1205，包括：输入单元1206，例如键盘、鼠标等；输出单元1207，例如各种类型的显示器、扬声器等；存储单元1208，例如磁盘、光盘等；以及通信单元1209，例如网卡、调制解调器、无线通信收发机等。通信单元1209允许设备1200通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1201可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1201的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1201执行上文所描述的各个方法和处理，例如针对目标对象的视觉跟踪方法。例如，在一些实施例中，针对目标对象的视觉跟踪方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1208。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1202和/或通信单元1209而被载入和/或安装到设备1200上。当计算机程序加载到RAM 1203并由计算单元1201执行时，可以执行上文描述的针对目标对象的视觉跟踪方法的一个或多个步骤。备选地，在其他实施例中，计算单元1201可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行针对目标对象的视觉跟踪方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。其中，服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(″Virtual Private Server″，或简称″VPS″)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种针对目标对象的视觉跟踪方法，包括：

根据事件相机采集的事件数据，确定执行体操类运动的目标对象的运动信息；

响应于根据所述运动信息确定所述目标对象的运动满足视觉跟踪条件，获取针对所述目标对象在至少两个视角下同步采集的视频数据；以及

根据所述视频数据，生成描述所述目标对象所执行的体操类运动的待播放数据。

2.根据权利要求1所述的方法，还包括：

对所述视频数据中的目标对象进行姿态识别，得到所述待播放数据所描述的体操类运动的动作信息；以及

将所述动作信息和所述待播放数据关联地存储。

3.根据权利要求2所述的方法，其中，所述对所述视频数据中的目标对象进行姿态识别，得到所述待播放数据所描述的体操类运动的动作信息包括：

根据所述视频数据中在所述至少两个视角下同步采集的各时间点的视频帧，确定所述目标对象在所述各时间点的三维关键点信息；以及

根据所述三维关键点信息，确定所述目标对象在所述各时间点的姿态信息；以及

根据所述目标对象在所述各时间点的姿态信息，确定所述动作信息。

4.根据权利要求3所述的方法，其中，所述根据所述目标对象在所述各时间点的姿态信息，确定所述动作信息包括：

根据所述目标对象在所述各时间点的姿态信息，确定所述目标对象执行的体操类运动中包括的至少一个动作；

针对所述至少一个动作中的每个动作，确定所述视频数据中与每个动作对应的视频片段；以及

根据所述目标对象在采集所述视频片段的各时间点的姿态信息，确定所述每个动作的动作信息。

5.根据权利要求3所述的方法，其中，所述根据所述视频数据中在所述至少两个视角下同步采集的各时间点的视频帧，确定所述目标对象在所述各时间点的三维关键点信息包括：

对每个视角下各时间点的视频帧进行姿态识别，得到所述目标对象在所述各时间点针对所述每个视角的三维关键点信息，作为针对所述每个视角的初始关键点信息；

对在所述各时间点针对所述至少两个视角的至少两个三维关键点信息进行融合，得到融合关键点信息；以及

根据所述融合关键点信息，确定所述目标对象在所述各时间点的三维关键点信息。

6.根据权利要求5所述的方法，其中，所述根据所述融合关键点信息，确定所述目标对象在所述各时间点的三维关键点信息包括：

获取深度相机在所述各时间点采集的点云数据，作为参考点云数据；以及

根据所述参考点云数据对所述融合关键点信息进行校正，得到所述目标对象在所述各时间点的三维关键点信息，

其中，所述深度相机设置于所述至少两个视角中的目标视角所对应的位置处；所述目标视角为所述至少两个视角中的任一视角。

7.根据权利要求3所述的方法，其中，所述根据所述视频数据中在所述至少两个视角下同步采集的各时间点的视频帧，确定所述目标对象在所述各时间点的三维关键点信息包括：

根据在所述至少两个视角下同步采集的各时间点的视频帧，生成所述各时间点的点云数据；

根据所述事件相机在所述各时间点采集的事件数据，生成针对所述点云数据的权重数据；以及

根据所述权重数据和所述点云数据，确定所述目标对象在所述各时间点的三维关键点信息。

8.根据权利要求7所述的方法，其中，所述至少两个视角的数量为N；所述根据在所述至少两个视角下同步采集的各时间点的视频帧，生成所述各时间点的点云数据包括：

针对所述各时间点，根据在所述至少两个视角中的目标视角下的视频帧与所述至少两个视角中除所述目标视角外的每一个视角下的视频帧，生成一组初始点云数据；以及

对生成的(N-1)组初始点云数据进行配准，得到所述各时间点的点云数据，

其中，所述目标视角为所述至少两个视角中的任一视角，N为大于1的自然数。

9.根据权利要求2～4中任一项所述的方法，还包括：

根据所述动作信息与预定标准动作信息之间的相似度，确定针对所述体操类运动的评估值。

10.根据权利要求1所述的方法，还包括：

针对多个采集周期中的各采集周期：

根据所述事件相机在所述各采集周期内采集的事件数据中与执行所述体操类运动所依赖的器械所在区域相对应的目标事件数据，确定指示存在事件变化的事件数据所在的目标像素；

确定深度相机采集的点云数据中与所述目标像素对应的目标点云数据；

确定所述目标点云数据的聚类中心，作为针对所述各采集周期的聚类中心；以及

根据针对所述多个采集周期所确定的所述目标点云数据的多个聚类中心的差异，确定所述目标对象的运动速度。

11.根据权利要求1所述的方法，其中，所述根据事件相机采集的事件数据，确定执行体操类运动的目标对象的运动信息包括：

针对多个采集周期中的各采集周期，根据所述事件相机在所述各采集周期内采集的事件数据，确定针对所述目标对象的包围框信息；以及

根据在多个采集周期内针对所述目标对象的多个包围框信息，确定执行所述体操类运动的目标对象的运动信息。

12.根据权利要求1所述的方法，其中，所述响应于根据所述运动信息确定所述目标对象的运动满足视觉跟踪条件，获取针对所述目标对象在至少两个视角下同步采集的视频数据包括：

响应于根据所述运动信息确定所述目标对象的运动满足视觉跟踪条件，根据所述事件相机已采集的事件数据，确定所述目标对象的预测位置信息；

根据所述预测位置信息，确定与所述至少两个视角对应的至少两个机械臂的转动参数；所述至少两个机械臂中的每个机械臂搭载有视频采集设备；以及

在所述至少两个机械臂在所述转动参数下转动的过程中，获取所述至少两个机械臂搭载的至少两个视频采集设备所采集的视频数据。

13.根据权利要求12所述的方法，其中，根据所述事件相机已采集的事件数据，确定针对所述目标对象的预测位置信息包括：

针对多个历史采集周期中的各历史采集周期，根据所述事件相机在所述各历史采集周期内采集的事件数据，确定针对所述目标对象的包围框信息；以及

根据在所述多个历史采集周期内针对所述目标对象的多个包围框信息，确定针对所述目标对象的预测位置信息。

14.根据权利要求11或13所述的方法，其中，确定针对所述目标对象的包围框信息包括：

根据预定尺寸和事件数据所在的像素位置，将事件数据划分为多个像素块；

根据每个像素块中的事件数据，确定所述每个像素块的激活状态；所述激活状态包括被激活状态和未被激活状态；以及

根据处于所述被激活状态的像素块，确定针对所述目标对象的包围框信息。

15.根据权利要求14所述的方法，其中，所述根据处于所述被激活状态的像素块，确定针对所述目标对象的包围框信息包括：

对处于所述被激活状态的像素块进行聚类，得到聚类中心；

确定处于所述被激活状态的像素块中位于以所述聚类中心为中心的预定范围内的目标像素块；以及

根据所述目标像素块的外接矩形框，确定针对所述目标对象的包围框信息。

16.根据权利要求14所述的方法，其中，所述根据每个像素块中的事件数据，确定所述每个像素块的激活状态包括：

响应于所述每个像素块中的事件数据所指示的事件数量大于等于事件数量阈值，确定所述每个像素块为被激活状态；以及

响应于所述每个像素块中的事件数据所指示的事件数量小于所述事件数量阈值，确定所述每个像素块为未被激活状态。

17.根据权利要求13所述的方法，其中，所述根据在所述多个历史采集周期内针对所述目标对象的多个包围框信息，确定针对所述目标对象的预测位置信息包括：

对所述多个包围框信息按所述多个历史采集周期的先后顺序进行平滑处理，确定所述目标对象的运动速度；以及

根据所述运动速度，确定针对所述目标对象的预测位置信息。

18.根据权利要求1所述的方法，还包括：

对所述视频数据中的目标对象进行身份识别，得到所述目标对象的身份信息；以及

将所述身份信息和所述待播放数据关联地存储。

19.一种针对目标对象的视觉跟踪装置，包括：

运动信息确定模块，用于根据事件相机采集的事件数据，确定执行体操类运动的目标对象的运动信息；

数据获取模块，用于响应于根据所述运动信息确定所述目标对象的运动满足视觉跟踪条件，获取针对所述目标对象在至少两个视角下同步采集的视频数据；以及

数据生成模块，用于根据所述视频数据，生成描述所述目标对象所执行的体操类运动的待播放数据。

20.一种针对目标对象的视频跟踪系统，包括：

至少两个视频采集设备，一一对应地设置于执行体操类运动所依赖的器械的至少两个视角的位置处；

事件相机，设置于所述至少两个视频采集设备中其中一个视频采集设备的周边位置；以及

控制设备，与所述至少两个视频采集设备和所述事件相机通信连接，以获取所述至少两个视频采集设备和所述事件相机采集的数据；

其中，所述控制设备被配置为：执行权利要求1-18中任一项所述的针对目标对象的视觉跟踪方法。

21.根据权利要求20所述的系统，还包括：

至少两个机械臂，一一对应地设置在执行体操类运动所依赖的器械的至少两个视角的位置处，所述至少两个视频采集设备一一对应地搭载于所述至少两个机械臂上；

其中，所述控制设备还与所述至少两个机械臂连接，以同步地控制所述至少两个机械臂的转动。

22.根据权利要求21所述的系统，还包括：

深度相机，搭载于设置在所述至少两个视角中目标视角的位置处的目标机械臂上，

其中，所述控制设备还与所述深度相机通信连接，以获取所述深度相机采集的点云数据；所述事件相机设置于所述目标机械臂的周边位置；所述目标视角为所述至少两个视角中的任一视角。

23.根据权利要求21所述的系统，还包括：

播放设备，设置有视频解码器，所述播放设备与所述控制设备通信连接；

所述控制设备还被配置为：将所述待播放数据发送给所述播放设备；所述播放设备被配置为：采用所述视频解码器对所述待播放视频进行解码，以播放解码得到的视频数据。

24.根据权利要求23所述的系统，还包括：

控制台，设置有多个控制按键，所述控制台与所述控制设备通信连接，且与所述播放设备设置于相同的物理空间；所述控制台被配置为：响应于对所述多个控制按键中第一控制按键的操作，向所述控制设备发送第一控制信号；以及

所述控制设备还被配置为：响应于接收到所述第一控制信号，控制所述至少两个机械臂的转动。

25.根据权利要求24所述的系统，其中：

所述控制台还与所述播放设备通信连接；所述控制台还被配置为：响应于对所述多个控制按键中第二控制按键的操作，向所述播放设备发送第二控制信号；

所述播放设备还被配置为：响应于接收到所述第二控制信号，调整所述播放设备所播放的视频数据，

其中，调整所述播放设备所播放的视频数据包括以下至少之一：调整播放速度；切换播放的视频数据。

26.根据权利要求23所述的系统，还包括：

遥控设备，所述遥控设备与所述控制设备通信连接；

所述遥控设备被配置为：响应于对所述遥控设备所设置的多个按钮中第一按钮的操作，向所述控制设备发送第三控制信号；以及

所述控制设备还被配置为：响应于接收到所述第三控制信号，控制所述至少两个机械臂的转动。

27.根据权利要求26所述的系统，其中：

所述遥控设备还与所述播放设备通信连接；所述遥控设备还被配置为：响应于对所述多个按钮中第二按钮的操作，向所述播放设备发送第四控制信号；

所述播放设备还被配置为：响应于接收到所述第四控制信号，调整所述播放设备所播放的视频数据，

28.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1～18中任一项所述的方法。

29.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1～18中任一项所述的方法。

30.一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令存储于可读存储介质和电子设备其中至少之一上，所述计算机程序/指令在被处理器执行时实现根据权利要求1～18中任一项所述方法的步骤。