CN116703968A

CN116703968A - 针对目标对象的视觉跟踪方法、装置、系统、设备和介质

Info

Publication number: CN116703968A
Application number: CN202310431209.2A
Authority: CN
Inventors: 李龙腾; 卢飞翔; 吕以豪; 姜禾; 张良俊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-04-20
Filing date: 2023-04-20
Publication date: 2023-09-05
Anticipated expiration: 2043-04-20
Also published as: CN116703968B

Abstract

本公开提供了一种针对目标对象的视觉跟踪方法、装置、设备和介质，涉及人工智能领域，具体涉及计算机视觉、图像处理和深度学习等技术领域。针对目标对象的视觉跟踪方法的具体实现方案为：根据事件相机采集的第一事件数据，确定与运动的目标对象相对应的目标器械；根据事件相机采集的与目标器械所在区域相对应的第二事件数据，确定目标对象的运动信息；响应于根据运动信息确定目标对象的运动满足视觉跟踪条件，获取针对目标对象采集的视频数据；以及根据视频数据，生成描述目标对象的运动的待播放数据。

Description

针对目标对象的视觉跟踪方法、装置、系统、设备和介质

技术领域

本公开涉及人工智能领域，具体涉及计算机视觉、图像处理和深度学习等技术领域，尤其涉及一种针对目标对象的视觉跟踪方法、装置、系统、设备和介质。

背景技术

随着电子技术的发展，计算机视觉技术在越来越多的场景中得到广泛应用。例如，在运动员的训练场景中，可以采用视频采集设备来跟踪运动员，以记录运动员训练中实施的动作，便于进行动作复盘，提高动作的执行精度等。

发明内容

本公开旨在提供一种利于提高视觉跟踪精度、降低跟踪成本的针对目标对象的视觉跟踪方法、装置、系统、设备和介质。

根据本公开的第一个方面，提供了一种针对目标对象的视觉跟踪方法，包括：根据事件相机采集的第一事件数据，确定与运动的目标对象相对应的目标器械；根据事件相机采集的与目标器械所在区域相对应的第二事件数据，确定目标对象的运动信息；响应于根据运动信息确定目标对象的运动满足视觉跟踪条件，获取针对目标对象采集的视频数据；以及根据视频数据，生成描述目标对象所执行的目标运动的待播放数据，目标运动与目标器械的器械类型相对应。

根据本公开的第二个方面，提供了一种针对目标对象的视觉跟踪装置，包括：器械确定模块，用于根据事件相机采集的第一事件数据，确定与运动的目标对象相对应的目标器械；运动信息确定模块，用于根据事件相机采集的与目标器械所在区域相对应的第二事件数据，确定目标对象的运动信息；数据获取模块，用于响应于根据运动信息确定目标对象的运动满足视觉跟踪条件，获取针对目标对象采集的视频数据；以及数据生成模块，用于根据视频数据，生成描述目标对象所执行的目标运动的待播放数据，目标运动与目标器械的器械类型相对应。

根据本公开的第三个方面，提供了一种针对目标对象的视觉跟踪系统，包括：视频采集设备；事件相机，设置于视频采集设备的周边位置；以及处理设备，与视频采集设备和事件相机通信连接，以获取视频采集设备和事件相机采集的数据；其中，处理设备被配置为：执行本公开第一个方面提供的针对目标对象的视觉跟踪方法。

根据本公开的第四个方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开提供的针对目标对象的视觉跟踪方法。

根据本公开的第五个方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开提供的针对目标对象的视觉跟踪方法。

根据本公开的第六个方面，提供了一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令存储于可读存储介质和电子设备其中至少之一上，所述计算机程序/指令在被处理器执行时实现本公开提供的针对目标对象的视觉跟踪方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的针对目标对象的视觉跟踪方法、装置、系统的应用场景示意图；

图2是根据本公开实施例的针对目标对象的视觉跟踪方法的流程示意图；

图3是根据本公开实施例的确定目标器械的原理示意图；

图4是根据本公开实施例的根据事件数据确定目标对象的运动信息的原理示意图；

图5是根据本公开实施例的获取针对目标对象采集的视频数据的原理示意图；

图6是根据本公开实施例的确定针对目标对象的包围框信息的原理示意图；

图7是根据本公开实施例的生成待播放数据的原理示意图；

图8是根据本公开实施例的确定针对目标运动的第一评估值的原理示意图；

图9是根据本公开实施例的确定针对目标运动的第二评估值的原理示意图；

图10是根据本公开实施例的针对目标对象的视觉跟踪装置的结构框图；

图11是根据本公开第一实施例的针对目标对象的视频跟踪系统的结构示意图；

图12是根据本公开第二实施例的针对目标对象的视频跟踪系统的结构示意图；以及

图13是用来实施本公开实施例的针对目标对象的视频跟踪方法的示例电子设备的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在跳水训练或攀岩训练等训练中，通常需要对运动员的细节动作进行不断地调整优化。除了依赖教练的临场指导外，还可以通过对运动员的动作进行视觉跟踪并将跟踪结果即时反馈给运动员和教练，来使得运动员能够对执行的动作有更清晰的感知。例如，在进行视觉跟踪时，可以采用固定相机进行全景延时拍摄，或者利用相机支架借由人工的移动来实现对运动视频的跟踪录制。

其中，在采用固定相机进行全景延时拍摄的场景中，由于需要顾及全景，因此运动员在画面中通常较小，对于细节动作的识别和复盘会造成困难。而在采用相机支架借由人工的移动来进行跟踪录制时，通常需要两名熟练度以及配合度较高的人员配合工作，人工成本高，且不利于提高训练效率。

在视觉跟踪中，视频录制的时机通常是由人工控制的。或者可以采用目标检测算法、姿态识别算法等深度网络的方式来对实时采集的图像中的运动员进行识别，根据识别结果来确定视频录制的时机。人工控制的方式存在人工成本高，训练效率低的问题。而采用深度网络对运动员进行识别的方式则存在对设备的算力要求高，识别的结果存在延迟的问题。再者，在确定背景复杂、运动高速的动作的录制触发时机时，触发时机的选取误差较大，容易出现误触发的情况。

为了解决上述问题，本公开提供了一种针对目标对象的视觉跟踪方法、装置、系统、设备和介质。以下先结合图1对本公开提供的方法、系统和装置的应用场景进行描述。

图1是根据本公开实施例的针对目标对象的视觉跟踪方法、系统、装置的应用场景示意图。

如图1所示，以跳水训练的场景为例，该应用场景100中可以包括多个预定跳水台面111、112、113，泳池120和目标对象130。其中，多个预定跳水台面111、112、113可以具有相同或不同的高度，且多个预定跳水台面111、112、113的数量可以为任意大于1的数量，本公开对此不做限定。

在该应用场景100中，目标对象130可以为运动员，运动员可以自预定跳水台面112跳入泳池120中，以完成跳水运动。

在该应用场景100中，还可以包括视觉跟踪系统，该视觉跟踪系统至少可以包括视频采集设备141和处理设备142。视频采集设备141用于采集目标对象130在跳水过程中的视频数据。视频采集设备141可以与处理设备142通信连接，如此，处理设备142可以获取视频采集设备141采集的视频数据，并对视频数据进行处理。其中，视频采集设备141例如可以为各种类型的摄像机，处理设备142例如可以为便携式计算机、台式机或服务器等各种具有处理功能的电子设备。

在一实施例中，该应用场景100中还可以设置有事件相机143，用于观测场景中的“运动”，确切地说用于观察场景中亮度的变化，当检测范围内某个像素对应的空间位置处的亮度值发生变化，事件相机143就会回传一个向量(x_i，y_i，t_i，p_i)。其中，(x_i，y_i)表示像素的位置，t_i表示亮度值发生变化的时间戳，p_i表示极性值，代表亮度值是由低至高发生变化还是由高至低发生变化。事件相机143在预定时段内采集到的向量可以形成一组事件数据。该事件相机143例如可以通过网络与处理设备142通信连接。处理设备142还可以用于根据事件相机143采集的事件数据来检测目标对象130并跟踪目标对象130的运动，处理设备142例如可以将目标对象130的运动满足视觉跟踪条件的时机作为视频采集设备141的触发时机，开始获取针对目标对象130采集的视频数据。

可以理解的是，本公开提供的针对目标对象的视觉跟踪方法例如可以由视觉跟踪系统中的处理设备142执行，本公开提供的针对目标对象的视觉跟踪装置可以设置在处理设备142中。

应该理解，图1中预定跳水台面、视频采集设备、处理设备的数目和类型仅仅是示意性的。根据实现需要，可以具有任意数目和类型的预定跳水台面、视频采集设备、处理设备。

以下将结合图2～图9对本公开提供的针对目标对象的视觉跟踪方法进行详细描述。

图2是根据本公开实施例的针对目标对象的视觉跟踪方法的流程示意图。如图2所示，该实施例的方法200可以包括操作S210～操作S240。

在操作S210，根据事件相机采集的第一事件数据，确定与运动的目标对象相对应的目标器械。

该实施例中，事件相机的检测范围可以包括多个预定器械。事件相机的检测周期例如可以为μm级别的，该实施例可以将预定周期(例如1ms)内事件相机回传的向量汇总为一个尺寸为H×W的图像数据。其中，H为事件相机在高度方向的分辨率，W为事件相机在宽度方向的分辨率，图像数据中的每个像素的特征可以由向量序列表示，向量序列中的向量为事件相机回传的针对该每个像素的向量。该实施例可以将图像数据作为事件相机采集的事件数据。

该实施例中，可以实时地获取事件相机采集的事件数据。该实施例可以先根据事件数据确定亮度值发生变化的像素，该亮度值发生变化的像素可以理解为是与运动的目标对象所在的位置相对应的像素。则该实施例可以根据亮度值发生变化的像素与多个预定器械所对应像素之间的位置关系，来确定多个预定器械中与运动的目标对象相对应的目标器械。可以理解的是，预定器械所对应像素可以根据预定器械距离事件相机的距离及事件相机可以采集的空间范围来确定。

例如，在跳水场景中，若多个器械包括距离泳池的高度分别为3m、5m、7m、10m跳水台面，且亮度值发生变化的像素中，在高度方向上位于最下方的像素与高度为5m的预定跳水台面所对应像素之间的距离最小，则可以将该高度为5m的预定跳水台面作为目标跳水台面。例如，在攀岩比赛中，多个器械例如可以包括攀岩墙上位于左侧区域的多个第一岩点构成的第一器械和右侧区域的多个第二岩点构成的第二器械。若亮度值发生变化的像素位于与第二器械所对应的像素区域，则可以确定第二器械为目标器械。

在操作S220，根据事件相机采集的与目标器械所在区域相对应的第二事件数据，确定目标对象的运动信息。

该实施例中，可以在事件相机采集到亮度值发生变化的像素，并根据事件数据确定目标器械之后，实时地获取事件相机采集的事件数据，并对获取的事件数据中与目标器械所在区域相对应的第二事件数据进行分析。其中，目标器械所在区域可以为能够区分该目标器械与其他预定器械的区域。该实施例可以通过分析第二事件数据，来确定每个预定周期获取的第二事件数据中亮度值发生变化的像素，从而定位到每个预定周期内目标对象的位置。该实施例可以根据不同预定周期内目标对象的位置的变化，来确定目标对象的运动信息。该运动信息例如可以包括运动速率、运动方向、运动趋势等，本公开对此不做限定。

可以理解的是，第二事件数据为：事件相机采集得到第一事件数据之后所采集的事件数据中，与目标器械所在区域相对应的像素区域的事件数据。

在操作S230，响应于根据运动信息确定目标对象的运动满足视觉跟踪条件，获取针对目标对象采集的视频数据。

根据本公开的实施例，视觉跟踪条件可以根据实际需求进行设定。例如，在跳水运动中，需要重点关注的是运动员离开跳水台面后在下落过程中所做的翻滚动作等，则可以将视觉跟踪条件设定为运动趋势为竖直向下。在一实施例中，视觉跟踪条件例如还可以包括在竖直方向的运动速率达到预定速度阈值。在攀岩运动中，需要重点关注的是运动员在攀岩过程中的所有动作，则可以将视觉跟踪条件设定为运动员的四肢中任一肢体的运动速度不为0。

该操作S230可以将运动信息与视觉跟踪条件相比较，若运动信息中的运动趋势为竖直向下，达到了视觉跟踪条件，则处理设备可以开始获取视频采集设备所采集的视频数据。处理设备可以将获取的视频数据作为针对目标对象所采集的视频数据。可以理解的是，该视频采集设备的采集范围包括多个预定器械，以及该多个预定器械的周边区域。

在操作S240，根据视频数据，生成描述目标对象所执行的目标运动的待播放数据。

根据本公开的实施例，可以通过对获取的视频采集设备所采集的视频数据进行格式转换或编码，来生成视频播放设备可以识别的数据，作为待播放数据。其中，目标运动与目标器械的器械类型相对应。例如，若目标器械由攀岩墙上的岩点构成，则目标运动为攀岩运动；若目标器械为跳水台面，则目标运动为跳水运动。可以理解的是，上述目标运动的类型仅作为示例以利于理解本公开，本公开对此不做限定。

本公开实施例中，通过根据事件相机采集的事件数据来定位目标对象所在的目标器械，可以避免背景颜色复杂、物体繁多等对目标器械的定位精度的影响。通过根据目标器械所在区域的事件数据来确定目标对象的运动信息，可以实现根据事件数据对目标对象的跟踪。相较于现有技术，可以实现目标对象的自动跟踪，且跟踪技术无需依赖于大量的标注数据来实现，也无需依赖于计算量复杂、识别存在延迟的深度网络。如此，可以提高确定的视觉跟踪的触发时机的精度，提高获取的视频数据的准确性和有效性。

图3是根据本公开实施例的确定目标器械的原理示意图。

根据本公开的实施例，还可以通过统计事件数据，确定与每个器械所在区域对应的事件数量，并根据事件数量来确定目标器械。其中，一个事件数量可以对应于事件数据中亮度值发生变化的一个像素。随后，根据确定的与每个器械所在区域对应的事件数量，来确定多个预定器械中的目标器械。如此，可以更为精准地确定目标对象所在的器械。这是由于在不同器械距离事件相机的距离不同的情况下，若目标对象出现在其中某个器械处时，该目标对象对应的像素可能包括其他器械对应像素的附近像素，此种情况则无法准确地判定目标对象所在器械。而通过确定不同器械所在区域的事件数量，可以更好地区分目标对象相对于不同的器械的位置，从而提高确定的目标器械的精度。

例如，以跳水训练的场景为例，如图3所示，在实施例300中，在确定目标器械时，可以根据多个预定跳水台面相对于事件相机的位置，从第一事件数据中划分出与多个预定跳水台面中每个跳水台面对应的事件子数据。例如，第一事件数据可以为尺寸为H×W的图像数据310，根据多个预定跳水台面301～303相对于事件相机的位置，可以从图像数据中划分出与多个预定跳水台面分别对应的子图像311～313。例如，子图像311与高度为5m的跳水台面301对应，子图像312与高度为7m的跳水台面302对应，子图像313与高度为10m的跳水台面303对应。可以理解的是，若跳水台面与事件相机在水平方向上的距离较大，则与跳水台面对应的子图像在高度方向的尺寸会较小。若跳水台面较高，则与跳水台面对应的子图像在图像数据310中的位置则位于高度方向上靠近图像数据310顶部的位置。

随后，该实施例可以统计与每个跳水台面对应的子图像中像素值发生变化的像素数，将该像素数作为针对每个跳水台面所在区域的第一事件数量。针对多个预定跳水台面，可以得到多个第一事件数量。

例如，可以将取值最大的第一事件数量所针对的跳水台面作为目标跳水台面。

例如，可以将取值大于预定阈值、且取值最大的第一事件数量所针对的跳水台面作为目标器械。在该实施例中，若多个第一事件数量的取值均小于预定阈值，则可以判定为多个预定器械处均未出现目标对象，则继续获取事件相机采集的事件数据并进行分析。通过设定预定阈值，可以提高确定的目标器械的精度，避免外界因素的干扰对确定目标器械的影响。

图4是根据本公开实施例的根据事件数据确定目标对象的运动信息的原理示意图。

根据本公开实施例，在确定目标对象的运动信息时，例如可以将第二事件数据所在的像素区域划分为多个子区域。随后根据各子区域内亮度值发生变化的情况，根据不同采集周期内目标对象所在的子区域，来对目标对象进行跟踪，从而确定目标对象的运动信息。如此，可以在一定程度上避免因目标对象的运动状态不稳定，因上下往复运动而无法准确确定目标对象的运动信息的情况，并因此提高确定的运动信息的准确性。

例如，如图4所示，在实施例400中，可以将第二事件数据所在的像素区域410划分为多个子区域，例如可以划分得到子区域411～417。可以理解的是，考虑到在跳水运动中，视觉跟踪条件通常仅关注目标对象在竖直方向的运动，因此，可以在高度方向将像素区域410划分为多个子区域。根据实际需求，也可以在宽度方向进行子区域的划分，本公开对此不做限定。

在划分得到多个子区域411～417之后，该实施例可以监控后续采集的事件数据中每个子区域的事件数据，并根据每个子区域的事件数据来确定针对每个子区域的第二事件数量。具体地，可以统计每个子区域内的事件数据中，像素值发生变化的像素数量，即表示特征的向量序列中极性值为1或-1的像素数量，将统计得到的数量作为针对每个子区域的第二事件数量。

例如，设定每个子区域的宽度为w，高度为h，则针对该每个子区域的第二事件数量可以采用以下公式(1)计算得到。

其中，m表示任意时刻，(m+1)表示m时刻之后的1ms对应的时刻。E_Positive表示极性值为1的像素个数，E_Positive表示像素值为-1的像素个数。(i，j)表示该每个子区域中像素的位置。P(i，j)表示每个子区域中的像素位置为(i，j)的像素。

在一实施例中，可以将第二事件数量大于第一事件数量阈值的子区域作为目标对象所在的子区域。该实施例可以根据目标对象在不同采集周期内所在的子区域的位置，来确定目标对象的运动信息。

在一实施例中，可以在检测到多个子区域中预定区域的第二事件数量大于第一事件数量阈值后，再对后续各个采集周期采集的每个子区域内的事件数据进行跟踪和统计，以确定后续采集的每个子区域内的事件数据随时间的变化信息。其中，预定区域例如可以为根据实际需求进行设定的区域。例如，在跳水场景中，由于不同跳水比赛的规则不同，目标对象在跳水台面上弹跳的高度也有不同，该实施例可以根据实际的比赛规则来预先设定预定区域。以保证该预定区域为目标对象在下落过程中较早出现目标对象的子区域。在攀岩场景中，预定区域可以为划分得到的多个子区域中的任一子区域。该实施例通过设定预定区域及第一事件数量阈值来确定事件数据的跟踪和统计的时机，可以进一步提高确定的运动信息的精度，避免因出现障碍物等对运动信息的确定的影响。

例如，可以统计各个采集周期内，每个子区域内的事件数据中对应每个像素的事件数据的极性值随时间的变化，从而得到每个子区域内的事件数据随时间的变化信息。随后，该实施例可以根据得到的变化信息来确定目标对象的运动信息。例如，针对各个采集周期，可以将划分得到的多个子区域中，包括的像素中极性值为1的像素数量大于第一事件数量阈值的子区域作为目标对象进入的空间区域所对应的子区域，将包括的像素中极性值为-1的像素数量大于第一事件数量阈值的子区域作为目标对象离开的空间区域所对应的子区域。随后根据随时间排列的多个采集周期内，目标对象进入的空间区域(或者离开的空间区域)所对应的子区域的位置的变化，来确定目标对象的运动趋势和目标对象在竖直方向上的运动速率，从而得到运动信息。

在一实施例中，还可以针对目标对象采集深度数据，根据该深度数据来确定第一事件数量阈值。例如，第一事件数量阈值可以与深度数据的取值负相关。即，若采集得到的深度数据中针对目标对象的深度值较大，则可以设置较小一些的第一事件数量阈值。例如，该实施例可以在视觉跟踪系统中设置深度相机，用于采集深度数据。该实施例可以将目标器械处有目标对象时所采集的深度数据与目标器械处无目标对象时所采集的深度数据的差异，来确定针对目标对象的深度数据。如此，可以为距离事件相机较远的目标对象设置较小的第一事件数量阈值，为距离事件相机较近的目标对象设置较大的第一事件数量阈值，可以弥补因目标对象较远导致的检测精度的不足，提高确定的视觉跟踪的触发时机的精度。

图5是根据本公开实施例的获取针对目标对象采集的视频数据的原理示意图。

根据本公开的实施例，在针对目标对象采集视频数据的过程中，例如可以根据事件相机采集的事件数据继续跟踪目标对象，并根据目标对象的位置来调节视频采集设备的采集角度，以使得目标对象处于采集的视频帧的中心位置，而无需视频采集设备进行全景图像的采集，利于提高采集的视频帧中目标对象的清晰度，如此便于更为清晰的辨识技术动作细节。

例如，如图5所示，该实施例500在响应于根据运动信息确定目标对象的运动满足视觉跟踪条件的情况下，可以先根据事件相机已采集的事件数据510，来确定目标对象的预测位置信息520。例如，该实施例可以对各个采集周期采集到的事件数据中极性值为1的像素进行聚类，将聚类中心作为目标对象在各个采集周期内的位置。如此，根据已采集的事件数据510即可确定目标对象在历史上各个采集周期的位置，从而推理得到目标对象的运动速度。该实施例可以根据目标对象的前一采集周期内的运动速度来预测目标对象在当前采集周期及在后采集周期内的位置。

在确定了预测位置信息520后，该实施例可以根据该预测位置信息520来确定搭载视频采集设备541的机械臂542的转动参数530。例如，可以根据空间位置与视频采集设备541的视线中心之间的线性关系，来确定机械臂542的转动参数530，以尽可能地使得目标对象的位置位于视频采集设备541的视线中心上。

在确定了转动参数530后，该实施例可以经由处理设备来控制机械臂根据该转动参数530转动，同时保持视频采集设备处于数据采集的状态。如此，获取的视频采集设备所采集的视频数据550中，目标对象位于视频帧的中心位置。

可以理解的是，确定预测位置信息和转动参数的步骤可以实时地执行，以实时地调整机械臂的转动，实现视频采集设备对目标对象的跟踪，使得目标对象位于采集的视频数据中每个视频帧的中心位置。

在一实施例中，机械臂能够以两个或更多个轴为中心进行转动。例如，机械臂可以以竖直轴为中心进行转动，以改变视频采集设备的偏航角。机械臂也可以以在水平方向上从机械臂延伸至水面的轴为中心进行转动，以改变视频采集设备的俯仰角。可以理解的是，机械臂可以转动的方向仅作为示例以利于理解本公开，本公开对此不做限定。

通过本公开实施例的获取视频数据的原理，可以实现针对运动的目标对象的跟踪视频的录制，而无需人工介入。由于预测位置信息是根据事件数据来确定的，且事件相机的采集频率高，因此，可以提高确定的预测位置信息的精度，提高机械臂的控制精度，提高针对高速运动的目标对象的视频数据的采集准确性。

在一实施例中，还可以通过根据事件数据确定目标对象的包围框的方式来确定目标对象在历史上各个采集周期的位置。如此，根据多个历史采集周期内针对目标对象的多个包围框，即可确定目标对象的预测位置信息。例如，可以从各个采集周期采集到的事件数据中选出极性值为1的像素，并将极性值为1的像素中排列紧凑的预定比例的像素的外接矩形框，作为各个采集周期内目标对象的包围框。例如，排列紧凑的像素中的每个像素可以与其他像素中的至少一个像素相邻。

图6是根据本公开实施例的确定针对目标对象的包围框信息的原理示意图。

在一实施例中，在确定目标对象的包围框时，可以先将各个采集周期采集到的事件数据划分为多个像素块。随后，确定多个像素块中处于被激活状态的像素块。根据处于被激活状态的像素块来确定包围框。具体地，对事件数据以预定尺寸的像素块为单位进行划分，并根据像素块内的事件数据确定像素块的激活状态，仅根据处于激活状态的像素块来确定包围框。如此，可以剔除掉一些干扰事件对确定包围框的影响，利于提高确定的包围框信息的精度。

例如，如图6所示，该实施例中，可以将各个采集周期采集得到的事件数据600划分为尺寸为预定尺寸a×b的多个像素块。其中，a为小于H的数值，且H为a的整数倍，b为小于W的数值，且W为b的整数倍。例如，a与b的取值可以均为2，则划分得到的像素块数量为H/2*W/2，本公开对此不做限定。

随后，该实施例可以根据每个像素块中的事件数据，确定每个像素块的激活状态。例如，若像素块中的多个事件数据中，极性值的取值为1或-1的事件数据的个数大于等于第二事件数量阈值，即像素块中的事件数据所指示的事件数量大于等于第二事件数量阈值，则可以确定该像素块的激活状态为被激活状态，否则，确定该像素块的激活状态为未被激活状态。例如，如图6所示，具有实心圈的像素为事件数据中极性值的取值为1或-1的像素。例如，通过统计可以确定处于被激活状态的像素块包括像素块601～像素块606。

该实施例中，例如可以将该像素块601～像素块606的外接矩形框，作为目标对象的包围框，并将该包围框的像素位置作为针对目标对象的包围框信息。包围框的像素位置例如可以包括包围框的中心点所在的像素的位置，以及包围框占据的像素的宽度和高度。

在一实施例中，还可以对处于被激活状态的像素块进行聚类，得到聚类中心。随后，以该聚类中心为中心，根据预定半径划定预定范围610。该实施例可以将处于被激活状态的像素块中位于该预定范围内的像素块作为目标像素块。例如，位于预定范围内的像素块可以理解为像素块所占区域中预定比例的区域被圈入该预定范围的像素块。例如，处于被激活状态的像素块601～像素块606中，目标像素块可以包括像素块601～像素块605。随后，可以根据目标像素块的外接矩形框620，来确定目标对象的包围框信息。如此，该实施例可以通过聚类中心对处于被激活状态的像素块进行进一步地筛选，可以进一步地提高确定的包围框信息的精度。

例如，可以将目标像素块的外接矩形框620作为目标对象的包围框，相应地，将外接矩形框620的像素位置作为针对目标对象的包围框信息。外接矩形框620的像素位置例如可以包括外接矩形框620的中心点所在的像素的位置，以及外接矩形框620占据的像素的宽度和高度。

例如，在得到目标像素块的外接矩形框620之后，该实施例还可以根据预先设定的尺寸对外接矩形框620进行外扩，将外扩得到的矩形框630作为目标对象的包围框。其中，预先设定的尺寸可以根据实际需求进行选择，本公开对此不做限定。通过对外接矩形框620进行外扩，可以避免剔除过程中的误剔除导致的包围框无法完整覆盖目标对象的情况，提高确定的包围框信息的精度。

例如，在得到了在多个历史采集周期内针对目标对象的包围框信息之后，可以根据相邻两个历史采集周期内的包围框信息之间的差异及相邻两个历史采集周期之间的时间间隔，来确定目标对象的运动速度。基于类似的方式，可以确定目标对象在各个历史采集周期的运动速度。根据最新采集周期的运动速度，即可预测目标对象在下一采集周期的位置信息。

例如，在得到多个包围框信息之后，可以先对多个包围框信息按多个实例采集周期的先后顺序进行平滑处理，具体可以对多个包围框信息包括的包围框的中心点位置进行平滑处理。随后，根据平滑处理后的多个中心点位置来确定目标对象的运动速度。最后，再根据运动速度，来确定目标对象的预测位置信息。通过平滑处理，可以提高确定的运动速度和预测位置信息的精度。

图7是根据本公开实施例的生成待播放数据的原理示意图。

相关技术中，基于计算机视觉进行自动化视频编码的技术方案通常采用CPU进行编码，对于一段长度为3s～5s的视频，从录制结束到编码结束再到视频播放，通常需要较长的时间，无法达到录制视频的及时播放。

本公开实施例中，为了加快待播放数据的生成效率，在获取视频数据的过程中，可对视频数据进行实时的编码或格式转换。再者，本公开实施例可以采用图形处理器(Graphics Processing Unit，GPU)来进行编码，以进一步加快编码效率。

在一实施例中，还可以采用并行编码的方式来对获取的视频数据进行编码，以此进一步地提高视频编码效率，提高视频的播放时效。其中，为了并行编码，例如可以对视频采集设备采集的视频数据进行切分。切分点可以为视觉跟踪条件的触发时机所对应的视频帧。如图7所示，该实施例700中，可以在通过前述的操作S230确定目标对象的运动满足视觉跟踪条件后，并行地执行操作S710和操作S720。

在操作S710，对目标对象的运动满足视觉跟踪条件之前采集的视频数据进行编码，即对在前的视频流进行编码。例如，可以仅对在前的预定时段内(预定时段的长度例如为5s)采集的视频流进行编码。

在操作S720，对实时采集的视频数据进行编码，即对满足视觉跟踪条件之后实时采集的视频流进行编码。通过并行执行操作S710和操作S720，可以实现对实时获取的视频数据和在目标对象的运动满足视觉跟踪条件之前采集的视频数据的并行编码。

该实施例可以将并行编码所得到的数据保存，得到描述目标对象所执行的目标运动的待播放数据。由于保存的数据是根据目标对象的运动满足视觉跟踪条件之前的视频数据和目标对象的运动满足视觉跟踪条件之后的视频数据得到的，因此，得到的待播放数据为针对目标对象的完整视频数据701。可以理解的是，该并行编码过程例如可以由GPU执行，以进一步提高编码效率。

在得到待播放数据后，例如可以将待播放数据通过通信设备(例如交换机、路由器)发送给播放设备，播放设备对待播放数据解码后，即可进行视频数据的播放。该实施例通过提高编码效率，可以提高视频数据的播放时效性。可以理解的是，播放设备例如也可以借由GPU来进行解码，以进一步提高视频数据的播放时效性。

图8是根据本公开实施例的确定针对目标运动的第一评估值的原理示意图。

在实际场景中，每天会产生大量的待播放数据，若直接存储该大量的待播放数据，不利于对该大量的待播放数据的后续处理。例如不利于后期定位到需要播放的数据，不利于对待播放数据描述的目标运动的细节评估等。

在一实施例中，在得到待播放数据后，例如可以先对待播放数据中的目标对象进行身份识别，得到目标对象的身份信息。随后将身份信息和待播放数据进行关联地存储。其中，例如可以采用行人重识别算法(Re-Identification，简称为Re-ID)或人脸识别算法等来对待播放数据中的目标对象进行身份识别，本公开对此不做限定。识别得到的身份信息例如可以为唯一表示目标对象的ID信息等，本公开对此不做限定。如此，便于依据身份信息，从存储的大量待播放数据中筛选出描述所关注对象的目标运动的待播放数据，并对筛选出的待播放数据进行解码播放。

在一实施例中，在得到待播放数据后，例如可以对待播放数据中的目标对象进行姿态识别，来得到待播放数据描述的目标运动的动作信息。则在存储待播放数据时，将动作信息和待播放数据进行关联地存储。如此，便于依据动作信息，从存储的大量待播放数据中筛选出所关注动作的数据进行播放。

例如，待播放数据中包括多个视频帧，该实施例可以采用姿态识别模型来对每个视频帧中的目标对象进行姿态识别。其中，姿态识别模型例如可以包括关键点识别模型，该实施例可以将识别得到的关键点信息作为针对每个视频帧的动作信息。将针对多个视频帧的动作信息按视频帧的采集顺序排列，例如可以得到待播放数据描述的跳水动作的动作信息。

例如，如图8所示，该实施例800对目标对象进行姿态识别时，例如可以先针对待播放数据810中的视频帧811，对该视频帧811中的目标对象进行姿态识别，得到该视频帧811中目标对象的三维关键点信息821。随后，根据该三维关键点信息821，确定视频帧811中目标对象的姿态信息831。基于此，可以得到待播放视频数据中每个视频帧中目标对象的三维关键点信息和姿态信息。最后，根据多个视频帧中目标对象的姿态信息，来确定目标对象执行的目标运动的动作信息840。例如，对于视频帧812～813，可以根据视频帧812～813各自的目标对象的三维关键点信息822～823，确定视频帧812～813各自的目标对象的姿态信息832～833。随后，可以根据姿态信息831、姿态信息832和状态信息833，得到动作信息840。

其中，例如可以先采用目标检测算法从每个视频帧中检测出目标对象的包围框。随后在包围框的基础上针对单个目标对象做人体骨骼关键点检测，从而得到目标对象的三维关键点信息。或者，可以采用知识蒸馏的轻量级3D人体姿态估计网络(Lightweight 3DHuman Pose Estimation Network Training Using Teacher-Student Learning，MovNect)或者2D-3D人体姿态识别算法等来进行目标对象的三维关键点信息的检测。检测得到的三维关键点例如可以包括24个关键点，以目标对象为人体为例，该24个关键点例如可以用于描述以下人体部位的位置：下巴中心点、脖子中心点、左右侧肩的中心点、左右侧手肘的中心点、左右侧手腕的中心点、左右侧手掌的掌心、左右胸的中心点，脊柱的四个关键点、左右侧髋部的中心点、左右侧膝部的中心点、左右侧脚踝的中心点和左右侧脚掌的中心点。可以理解的是，根据采用的算法的不同，检测得到的三维关键点的数量也有所不同。

在得到三维关键点信息后，该实施例可以计算目标对象的骨骼整体在三维空间中的特征向量，以获取目标对象在空间中的正方向。例如，在跳水训练的场景中，可以根据脚掌的中心点与脚踝的中心点之间的空间向量与泳池法线方向的角度，来确定目标对象的朝向。也可以根据下巴中心点与脖子中心点之间的空间向量与泳池法线方向的角度，来确定目标对象的朝向。例如，还可以根据脊柱的四个关键点的相对位置，确定目标对象是否处于倒立状态。还可以根据肩部的中心点与肘部的中心点之间的第一空间向量、肘部的中心点与手腕的中心点之间的第二空间向量，确定目标对象手臂的姿态信息(例如可以由第一空间向量与第二空间向量之间的夹角来表示)。类似地，可以根据髋部的中心点与膝部的中心点之间的第三空间向量、膝部的中心点与脚腕的中心点之间的第四空间向量，确定目标对象腿部的姿态信息(例如可以由第三空间向量与第四空间向量之间的夹角来表示)。还可以根据脊柱的四个关键点中相邻关键点连接形成的三个空间向量彼此之间的夹角，来确定目标对象背部的姿态信息。可以理解的是，根据实际需求，可以确定上述提及的多个姿态信息中的两个或多个，本公开对此不做限定。

在得到每个视频帧中目标对象的姿态信息后，该实施例可以根据相邻两个视频帧中目标对象的姿态信息的差异，来确定目标对象的转体角度、转体方向等，并将该转体角度、转体方向等作为动作信息。或者，该实施例可以将多个视频帧中目标对象的姿态信息与预定的特殊动作的姿态信息进行比较，确定多个视频帧中目标对象所执行的动作是否包括特殊动作，若包括，则将包括的特殊动作作为动作信息。例如，以跳水训练场景为例，特殊动作可以为屈膝动作、抱膝动作、直腿动作等，例如，若对于多个视频帧中连续的若干个视频帧，上述第三空间向量与第四空间向量之间的夹角逐渐减小，则可以确定目标对象所执行的动作包括屈膝动作。若对应多个视频帧中连续的若干个视频帧，肘部关键点与膝部关键点之间的距离逐渐减小，则可以确定目标对象所执行的动作包括抱膝动作。该实施例通过上述类似的原理，可以确定目标对象执行的目标运动所包括的多个动作，并将该多个动作的动作名称或动作代码作为动作信息。

在一实施例中，动作信息例如可以由动作代码序列构成。其中，以跳水训练场景为例，动作代码序列中，动作代码序列中，可以包括表示目标对象的朝向的动作代码、表示目标对象转体方向的动作代码、表示目标对象在空中转体的半周数的动作代码、表示目标对象是否执行横滚动作的动作代码等。可以理解的是，上述多个动作代码的排列顺序可以根据实际需求预先设定，本公开对此不做限定。

可以理解的是，上述确定姿态信息和动作信息的方式仅作为示例以利于理解本公开，本公开对此不做限定。例如，在一实施例中，通过比较相邻两个视频帧中目标对象的姿态信息的差异，确定的动作信息可以体现多个三维关键点中每个关键点的实时转动角度和实时转动角速度等。

该实施例通过上述动作信息的识别和确定，可以实现对目标对象的动作的量化分析，便于对目标对象执行的目标运动进行细节评估。

根据本公开的实施例，在得到待播放数据描述的目标运动的动作信息后，该实施例800还可以将确定的动作信息840与预定标准动作信息850进行比较，并根据两个动作信息之间的相似度860，来确定针对目标运动的第一评估值870。例如，可以将动作信息840与预定标准动作信息850进行向量化表示，随后根据向量化表示得到的两个向量之间的距离，确定两个动作信息之间的相似度。例如，若两个向量之间的距离越小，则相似度越大，第一评估值的取值越高。例如，动作信息840可以包括上文描述的动作代码和动作的属性信息，动作的属性信息可以包括上文描述的目标对象手臂的姿态信息、腿部的姿态信息和/或背部的姿态信息等。该实施例可以针对某个动作，根据动作信息840中该某个动作的属性信息与预定标准动作信息中该某个动作的属性信息之间的相似度，来确定该某个动作的评估值。则针对目标运动包括的多个动作，可以得到多个动作的评估值。该实施例可以将多个动作的评估值构成的评估值向量，作为目标运动的第一评估值。或者，该实施例可以将多个动作的评估值的加权和或者平均值等，作为目标运动的第一评估值。

该实施例通过得到的第一评估值，还可以在一定程度上反映目标运动的完成度，反映目标运动中动作执行的标准程度。如此，可以在一定程度上为人工对目标对象的目标运动的分析提供参考，利于提高人工分析的效率。

图9是根据本公开实施例的确定针对目标运动的第二评估值的原理示意图。

在一实施例中，在跳水训练场景中，例如还可以根据待播放数据来确定目标对象执行目标运动的过程中，入水时所产生的水花的特征参数。随后，根据该特征参数，来确定针对跳水运动的第二评估值。该第二评估值的确定，可以从入水水花的角度来对跳水运动的完成质量进行评估，可以提高自动化分析的程度，为人工对跳水运动的分析提供参考信息，利于提高人工分析的效率。

例如，如图9所示，该实施例900在确定第二评估值时，可以先根据待播放数据910，来确定目标对象入水所产生的水花的位置信息920。例如，可以采用目标检测模型对待播放数据910中的每帧视频帧进行目标检测，检测得到水花的包围框，并将包围框的位置信息作为水花的位置信息。其中，目标检测模型例如可以采用单阶段目标检测框架，也可以采用两阶段目标检测框架，本公开对此不做限定。

在得到水花的位置信息920之后，该实施例可以根据该水花的位置信息裁剪待播放数据910中的视频帧，得到裁剪后视频帧930。随后，根据该裁剪后视频帧930，确定目标对象入水所产生的水花的特征参数940。通过裁剪视频帧，可以提高确定的特征参数的精度。

例如，可以采用高分辨率网络(High-Resolution Net)等深度网络模型来对裁剪后视频帧930进行处理，由该深度网络模型输出水花的深度信息和/或水花的炸裂程度信息，该实施例可以将深度信息和/或水花炸裂程度信息等作为水花的特征参数940。可以理解的是，深度网络模型可以是预先采用标注有特征参数的跳水视频帧训练得到的网络模型，本公开对此不做限定。

在得到水花的特征参数940之后，该实施例可以根据特征参数与评估值之间的映射关系，来确定针对跳水运动的第二评估值950。其中，映射关系例如可以为简单的线性关系，也可以为较为复杂的非线性关系，具体可以根据实际需求进行设定。在一实施例中，还可以将特征参数作为卷积层的输入，卷积层输出的特征经由嵌入层处理后，可以得到第二评估值。例如，卷积层可以为使用残差连接的卷积层，以降低模型复杂度并防止过拟合。

在一实施例中，在跳水训练的场景中，可以采用上文描述的实施例800确定第一评估值，同时采用实施例900确定第二评估值。随后，该实施例可以根据第一评估值与第二评估值的加权和，确定目标对象执行跳水运动的总评估值。其中，加权时所采用的权重可以根据实际需求进行设定，例如，对于不同的比赛规则，加权所采用的权重不同，本公开对此不做限定。

基于本公开提供的针对目标对象的视觉跟踪方法，本公开还提供了一种针对目标对象的视觉跟踪装置，以下将结合图10对该装置进行详细描述。

图10是根据本公开实施例的针对目标对象的视觉跟踪装置的结构框图。

如图10所示，该实施例的针对目标对象的视觉跟踪装置1000可以包括器械确定模块1010、运动信息确定模块1020、数据获取模块1030和数据生成模块1040。

器械确定模块1010用于根据事件相机采集的第一事件数据，确定与运动的目标对象相对应的目标器械。在一实施例中，器械确定模块1010可以用于执行上文描述的操作S210，在此不再赘述。

运动信息确定模块1020用于根据事件相机采集的与目标器械所在区域相对应的第二事件数据，确定目标对象的运动信息。在一实施例中，运动信息确定模块1020可以用于执行上文描述的操作S220，在此不再赘述。

数据获取模块1030用于响应于根据运动信息确定目标对象的运动满足视觉跟踪条件，获取针对目标对象采集的视频数据。在一实施例中，数据获取模块1030可以用于执行上文描述的操作S230，在此不再赘述。

数据生成模块1040用于根据视频数据，生成描述目标对象所执行的目标运动的待播放数据，该目标运动与目标器械的器械类型相对应。在一实施例中，数据生成模块1040可以用于执行上文描述的操作S240，在此不再赘述。

根据本公开的实施例，上述器械确定模块1010可以包括：第一数量确定子模块，用于根据第一事件数据中与多个预定器械中每个器械所在区域相对应的事件子数据，确定针对每个器械所在区域的第一事件数量；以及器械确定子模块，用于根据针对多个预定器械所在区域的多个第一事件数量，确定多个预定器械中的目标器械。

根据本公开的实施例，上述运动信息确定模块1020可以包括：第二数量确定子模块，用于针对第二事件数据所在的像素区域所包括的多个子区域，根据每个子区域内的事件数据确定针对每个子区域的第二事件数量；变化信息确定子模块，用于响应于针对多个子区域中预定区域的第二事件数量大于第一事件数量阈值，确定后续采集的每个子区域内的事件数据随时间的变化信息；以及运动信息确定子模块，用于根据变化信息确定目标对象的运动信息。

根据本公开的实施例，上述针对目标对象的视觉跟踪装置1000还可以包括：阈值确定模块，用于根据针对目标对象所采集的深度数据，确定第一事件数量阈值，其中，第一事件数量阈值与深度数据的取值负相关。

根据本公开的实施例，上述数据获取模块1030可以包括：位置预测子模块，用于响应于根据运动信息确定目标对象的运动满足视觉跟踪条件，根据事件相机已采集的事件数据，确定针对目标对象的预测位置信息；转动参数确定子模块，用于根据预测位置信息，确定搭载视频采集设备的机械臂的转动参数；以及数据获取子模块，用于获取机械臂在转动参数下转动的过程中视频采集设备采集的视频数据。

根据本公开的实施例，上述位置预测子模块可以包括：包围框确定单元，用于根据已采集的事件数据中各历史采集周期所采集的数据，确定在各历史采集周期内针对目标对象的包围框信息；以及位置预测单元，用于根据在多个历史采集周期内针对目标对象的多个包围框信息，确定针对目标对象的预测位置信息。

根据本公开的实施例，上述包围框确定单元包括：划分子单元，用于根据预定尺寸，将各历史采集周期所采集的事件数据划分为多个像素块；状态确定子单元，用于根据每个像素块中的事件数据，确定每个像素块的激活状态；激活状态包括被激活状态和未被激活状态；以及包围框确定子单元，用于根据处于被激活状态的像素块，确定针对目标对象的包围框信息。

根据本公开的实施例，上述包围框确定子单元具体用于：对处于被激活状态的像素块进行聚类，得到聚类中心；确定处于被激活状态的像素块中位于以聚类中心为中心的预定范围内的目标像素块；以及根据目标像素块的外接矩形框，确定针对目标对象的包围框信息。

根据本公开的实施例，上述状态确定子单元具体用于：响应于每个像素块中的事件数据所指示的事件数量大于等于第二事件数量阈值，确定每个像素块为被激活状态；以及响应于每个像素块中的事件数据所指示的事件数量小于第二事件数量阈值，确定每个像素块为未被激活状态。

根据本公开的实施例，上述位置预测单元可以包括：速度确定子单元，用于对多个包围框信息按多个历史采集周期的先后顺序进行平滑处理，确定目标对象的运动速度；以及位置确定子单元，用于根据运动速度，确定针对目标对象的预测位置信息。

根据本公开的实施例，上述数据生成模块1040具体用于：响应于根据运动信息确定目标对象的运动满足视觉跟踪条件，对实时获取的视频数据和在目标对象的运动满足视觉跟踪条件之前采集的视频数据进行并行编码，得到描述目标对象所执行的目标运动的待播放数据。

根据本公开的实施例，上述针对目标对象的视频跟踪装置1000还可以包括：动作识别模块，用于对待播放数据中的目标对象进行姿态识别，得到待播放数据描述的目标运动的动作信息；以及存储模块，用于将动作信息和待播放数据关联地存储。

根据本公开的实施例，上述动作识别模块包括：关键点识别子模块，用于针对待播放数据中的每个视频帧，对每个视频帧中的目标对象进行姿态识别，得到每个视频帧中目标对象的三维关键点信息；姿态确定子模块，用于根据三维关键点信息，确定每个视频帧中目标对象的姿态信息；以及动作确定子模块，用于根据多个视频帧中目标对象的姿态信息，确定动作信息。

根据本公开的实施例，上述针对目标对象的视频跟踪装置1000还可以包括：第一评估模块，用于根据动作信息与预定标准动作信息之间的相似度，确定针对目标运动的第一评估值。

根据本公开的实施例，上述目标运动包括跳水运动；上述针对目标对象的视频跟踪装置1000还可以包括：水花特征确定模块，用于根据待播放数据，确定目标对象入水所产生的水花的特征参数；以及第二评估模块，用于根据特征参数，确定针对目标运动的第二评估值。

根据本公开的实施例，上述水花特征确定模块可以包括：水花位置确定子模块，用于根据待播放数据，确定目标对象入水所产生的水花的位置信息；裁剪子模块，用于根据水花的位置信息裁剪待播放数据中的视频帧，得到裁剪后视频帧；以及特征确定子模块，用于根据裁剪后视频帧，确定目标对象入水所产生的水花的特征参数。

根据本公开的实施例，上述针对目标对象的视频跟踪装置1000还可以包括：身份识别模块，用于对待播放数据中的目标对象进行身份识别，得到目标对象的身份信息；以及存储模块，用于将身份信息和待播放数据关联地存储。

为了便于上文描述的针对目标对象的视觉跟踪方法的实施，本公开还提供了一种针对目标对象的视觉跟踪系统，以下将结合图11对该系统进行详细描述。

图11是根据本公开第一实施例的针对目标对象的视频跟踪系统的结构示意图。

如图11所示，该实施例的视频跟踪系统1100可以包括视频采集设备1110、事件相机1120和处理设备1130。该视频跟踪系统1100例如还可以包括有机柜，处理设备1130设置于机柜中，视频采集设备1110和事件相机1120固定于机柜的上表面。在跳水场景中，机柜例如可以设置于泳池边。在攀岩仓井中，机柜例如可以设置于攀岩墙的正对面。

在一实施例中，视频采集设备1110用于采集视线范围内的视频数据。事件相机1120可以设置于视频采集设备1110的周边的任意位置，该事件相机1120观测场景中的“运动”，确切地说用于观察场景中亮度的变化。该事件相机1120的工作原理与上文描述的事件相机的工作原理类似，在此不再赘述。

处理设备1130例如可以为便携式计算机、台式计算机、服务器等。该处理设备1130与视频采集设备1110通信连接，以获取视频采集设备1110采集的视频数据，并根据视频数据生成待播放数据。该处理设备1130还可以与事件相机1120通信连接，以获取事件相机1120采集的事件数据，并根据事件数据确定目标对象所在的目标器械和目标对象的运动信息。

在一实施例中，如图11所示，针对目标对象的视频跟踪系统1100还可以包括机械臂1140。机械臂1140可以固定于机柜的上表面，且视频采集设备1110可以搭载于机械臂1140。

在该实施例中，机械臂1140例如可以为上文描述的能够以两个或更多个轴为中心进行转动的机械臂。视频采集设备1110可以设置于该机械臂1140上，并在机械臂1140的转动的带动下，改变偏航角和/或俯仰角等。

在一实施例中，该处理设备1130例如还可以与机械臂1140通信连接，用于根据目标对象的预测位置信息，控制机械臂的转动。

在一实施例中，处理设备1130具体可以用于执行上文描述的针对目标对象的视觉跟踪方法，在此不再赘述。

图12是根据本公开第二实施例的针对目标对象的视频跟踪系统的结构示意图。

在一实施例中，如图12所示，针对目标对象的视觉跟踪系统1200除了机械臂1240、视频采集设备1210、事件相机1220和处理设备1230外，还可以包括深度相机1250，该深度相机1250可以与事件相机1220类似，设置于机械臂的周边的任意位置。或者，该深度相机1250也可以与视频采集设备类似，固定于机械臂1240，以在机械臂的带动下转动。在该实施例中，处理设备1230例如也可以与深度相机1250通信连接，以获取深度相机1250采集的深度数据，并根据深度数据确定上文描述的第一事件数量阈值，在此不再赘述。

在一实施例中，针对目标对象的视觉跟踪系统例如还可以包括播放设备。例如，如图12所示，该播放设备1260可以经由有线通信链路等与处理设备1230通信连接。该播放设备1260例如可以设置于处理设备的周边区域，也可以与处理设备设置于不同的物理空间中。例如，该播放设备1260例如可以设置在比赛场地所设置的休息室，而处理设备设置在比赛场景所设置的泳池旁，或者设置在攀岩墙正对面的区域。

例如，该播放设备1260可以设置有视频解码器和播放器。处理设备1230例如可以将编码得到的待播放数据经由网络发送给播放设备1260，播放设备的视频解码器可以对接收的待播放数据进行解码，得到视频数据。如此，播放器即可对解码得到的视频数据进行播放。在一实施例中，视频解码器例如可以采用GPU，以提高解码效率。相应地，处理设备1230例如可以利用GPU，采用上文描述的并行编码方法对视频数据进行编码。如此，视频录制后，自编码到解码并播放所需的时长，可以大大缩减，可以提高视频播放的时效性。

在一实施例中，针对目标对象的视觉跟踪系统例如还可以包括控制台，该控制台例如可以设置有多个控制按键，且该控制台可以与处理设备1230通信连接。控制台例如可以响应于对多个控制按键中第一控制按键的操作，向处理设备1230发送第一控制信号。则处理设备1230可以在接收到该第一控制信号后，根据该第一控制信号来控制机械臂1240的转动。例如，该控制台例如可以与播放设备1260设置于相同的物理空间。如此，在教练等观看播放设备1260所播放的视频数据时，可以根据采集的视频数据的情况，通过对控制台上的控制按键的操作，实现对机械臂的远程控制。如此，便于根据实际需求实时地更改视频采集设备跟踪拍摄的位置，可以使得机械臂上搭载的视频采集设备1210所采集的视频数据更为符合实际需求，提高视频数据的采集准确性。

例如，控制台向处理设备发送第一控制信号时，可以经由IO转TCP模块等进行发送，以使得发送的第一控制信号为处理设备1230可以识别、且处理设备1230能够处理的预定格式的信号。

例如，经由对控制台中控制按键的操作，还可以使得机械臂处于自动跟踪模式，以使得视觉跟踪系统可以实现对目标对象的自动跟踪。例如，经由对控制台中控制按键的操作，还可以实现对处理设备的远程重启，以在处理设备出现故障时，使得处理设备可以重启并恢复至正常工作状态。

在一实施例中，控制台例如还可以与播放设备1260通信连接，控制台例如还可以响应于对多个控制按键中第二控制按键的操作，向播放设备1260发送第二控制信号，以经由该第二控制信号调整播放设备所播放的视频数据。例如，播放设备1260可以在接收到第二控制信号后，调整播放设备所播放的视频数据。具体例如可以调整视频数据的播放速度，并且/或者，切换播放的视频数据。可以理解的是，针对不同的调整方式，对应操作的第二控制按键为不同的按键。

通过该第二控制按键的设置，在教练等观看播放设备1260所播放的视频数据时，可以根据播放的视频数据的情况，通过对控制台上的控制按键的操作，实现对播放设备的控制。如此，便于根据实际需求实时地调整播放设备所播放的视频数据，可以使得播放设备所播放的视频数据更为符合实际需求。

在一实施例中，针对目标对象的视觉跟踪系统例如还可以设置有遥控设备，遥控设备可以与处理设备通信连接。例如，遥控设备可以包括可以遥控信号发送模块和随身携带的遥控器，遥控器上可以设置有多个按钮。在响应于对多个按钮中的第一按钮的操作时，该遥控器例如可以产生第三控制信号，并经由遥控信号发送模块将该第三控制信号发送给处理设备。相应地，处理设备中例如可以设置有遥控信号接收模块。处理设备可以在接收到第三控制信号后，根据第三控制信号控制机械臂的转动。其中，遥控器产生的控制信号例如可以为红外信号等，本公开对此不做限定。

本公开实施例通过遥控设备的设置，可以使得在运动现场的教练等用户可以随身携带，并通过随身携带的遥控设备来对机械臂进行远程控制，以使得机械臂上搭载的视频采集设备所采集的视频数据更为符合实际需求，提高机械臂远程控制的灵活性。

在一实施例中，遥控设备例如还可以与播放设备通信连接，经由类似的原理，遥控设备例如还可以响应于对多个按钮中第二按钮的操作，向播放设备发送第四控制信号。以经由遥控设备对播放设备所播放的视频数据进行调整。

可以理解的是，经由遥控设备对播放设备和处理设备的控制与经由上文描述的控制台对播放设备和处理设备的控制类似，区别仅在于，遥控设备为便携的设备，而控制台通常与播放设备等设置于同一物理空间。

本公开实施例通过控控制台或遥控设备的设置，可以实现对机械臂或播放设备的远程控制。如此，在实际场景中，可以根据实际需求控制机械臂上搭载的视频采集设备对不同的目标对象进行视频监控。相较于采用算法识别特定的目标对象，并对特定的目标对象进行监控的技术方案，可以提高监控的准确度，且无需算力支持。

需要说明的是，本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。在本公开的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图13示出了可以用来实施本公开实施例的针对目标对象的视觉跟踪方法的示例电子设备1300的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图13所示，设备1300包括计算单元1301，其可以根据存储在只读存储器(ROM)1302中的计算机程序或者从存储单元1308加载到随机访问存储器(RAM)1303中的计算机程序，来执行各种适当的动作和处理。在RAM 1303中，还可存储设备1300操作所需的各种程序和数据。计算单元1301、ROM 1302以及RAM 1303通过总线1304彼此相连。输入/输出(I/O)接口1305也连接至总线1304。

设备1300中的多个部件连接至I/O接口1305，包括：输入单元1306，例如键盘、鼠标等；输出单元1307，例如各种类型的显示器、扬声器等；存储单元1308，例如磁盘、光盘等；以及通信单元1309，例如网卡、调制解调器、无线通信收发机等。通信单元1309允许设备1300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1301的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1301执行上文所描述的各个方法和处理，例如针对目标对象的视觉跟踪方法。例如，在一些实施例中，针对目标对象的视觉跟踪方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1308。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1302和/或通信单元1309而被载入和/或安装到设备1300上。当计算机程序加载到RAM 1303并由计算单元1301执行时，可以执行上文描述的针对目标对象的视觉跟踪方法的一个或多个步骤。备选地，在其他实施例中，计算单元1301可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行针对目标对象的视觉跟踪方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。其中，服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(″Virtual Private Server″，或简称″VPS″)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种针对目标对象的视觉跟踪方法，包括：

根据事件相机采集的第一事件数据，确定与运动的目标对象相对应的目标器械；

根据所述事件相机采集的与所述目标器械所在区域相对应的第二事件数据，确定所述目标对象的运动信息；

响应于根据所述运动信息确定所述目标对象的运动满足视觉跟踪条件，获取针对所述目标对象采集的视频数据；以及

根据所述视频数据，生成描述所述目标对象所执行的目标运动的待播放数据，其中，所述目标运动与所述目标器械的器械类型相对应。

2.根据权利要求1所述的方法，其中，所述根据事件相机采集的第一事件数据，确定与运动的目标对象相对应的目标器械包括：

根据所述第一事件数据中与多个预定器械中每个器械所在区域相对应的事件子数据，确定针对所述每个器械所在区域的第一事件数量；以及

根据针对所述多个预定器械所在区域的多个第一事件数量，确定所述多个预定器械中的所述目标器械。

3.根据权利要求1所述的方法，其中，所述根据所述事件相机采集的与所述目标器械所在区域相对应的第二事件数据，确定所述目标对象的运动信息包括：

针对所述第二事件数据所在的像素区域所包括的多个子区域，根据每个子区域内的事件数据确定针对所述每个子区域的第二事件数量；

响应于针对所述多个子区域中预定区域的第二事件数量大于第一事件数量阈值，确定后续采集的所述每个子区域内的事件数据随时间的变化信息；以及

根据所述变化信息确定所述目标对象的运动信息。

4.根据权利要求3所述的方法，还包括：

根据针对所述目标对象所采集的深度数据，确定所述第一事件数量阈值，

其中，所述第一事件数量阈值与所述深度数据的取值负相关。

5.根据权利要求1所述的方法，其中，所述响应于根据所述运动信息确定所述目标对象的运动满足视觉跟踪条件，获取针对所述目标对象采集的视频数据包括：

响应于根据所述运动信息确定所述目标对象的运动满足视觉跟踪条件，根据所述事件相机已采集的事件数据，确定针对所述目标对象的预测位置信息；

根据所述预测位置信息，确定搭载视频采集设备的机械臂的转动参数；以及

获取所述机械臂在所述转动参数下转动的过程中所述视频采集设备采集的视频数据。

6.根据权利要求5所述的方法，其中，根据所述事件相机已采集的事件数据，确定针对所述目标对象的预测位置信息包括：

根据已采集的事件数据中各历史采集周期所采集的数据，确定在所述各历史采集周期内针对所述目标对象的包围框信息；以及

根据在多个历史采集周期内针对所述目标对象的多个包围框信息，确定针对所述目标对象的预测位置信息。

7.根据权利要求6所述的方法，其中，所述根据已采集的事件数据中各历史采集周期所采集的数据，确定在所述各历史采集周期内针对所述目标对象的包围框信息包括针对各历史采集周期所采集的事件数据：

根据预定尺寸，将各历史采集周期所采集的事件数据划分为多个像素块；

根据每个像素块中的事件数据，确定所述每个像素块的激活状态；所述激活状态包括被激活状态和未被激活状态；以及

根据处于所述被激活状态的像素块，确定针对所述目标对象的包围框信息。

8.根据权利要求7所述的方法，其中，所述根据处于所述被激活状态的像素块，确定针对所述目标对象的包围框信息包括：

对处于所述被激活状态的像素块进行聚类，得到聚类中心；

确定处于所述被激活状态的像素块中位于以所述聚类中心为中心的预定范围内的目标像素块；以及

根据所述目标像素块的外接矩形框，确定针对所述目标对象的包围框信息。

9.根据权利要求7所述的方法，其中，所述根据每个像素块中的数据，确定所述每个像素块的激活状态包括：

响应于所述每个像素块中的事件数据所指示的事件数量大于等于第二事件数量阈值，确定所述每个像素块为被激活状态；以及

响应于所述每个像素块中的事件数据所指示的事件数量小于所述第二事件数量阈值，确定所述每个像素块为未被激活状态。

10.根据权利要求6所述的方法，其中，所述根据在多个历史采集周期内针对所述目标对象的包围框信息，确定针对所述目标对象的预测位置信息包括：

对所述多个包围框信息按所述多个历史采集周期的先后顺序进行平滑处理，确定所述目标对象的运动速度；以及

根据所述运动速度，确定针对所述目标对象的预测位置信息。

11.根据权利要求1所述的方法，所述根据所述视频数据，生成描述所述目标对象的目标运动的待播放数据包括：

响应于根据所述运动信息确定所述目标对象的运动满足所述视觉跟踪条件，对实时获取的所述视频数据和在所述目标对象的运动满足所述视觉跟踪条件之前采集的视频数据进行并行编码，得到描述所述目标对象的目标运动的待播放数据。

12.根据权利要求1所述的方法，还包括：

对所述待播放数据中的目标对象进行姿态识别，得到所述待播放数据描述的目标运动的动作信息；以及

将所述动作信息和所述待播放数据关联地存储。

13.根据权利要求12所述的方法，其中，所述对所述待播放数据中的目标对象进行姿态识别，得到所述待播放数据描述的目标运动的动作信息包括：

针对所述待播放数据中的每个视频帧，对所述每个视频帧中的目标对象进行姿态识别，得到所述每个视频帧中目标对象的三维关键点信息；

根据所述三维关键点信息，确定所述每个视频帧中目标对象的姿态信息；以及

根据所述多个视频帧中目标对象的姿态信息，确定所述动作信息。

14.根据权利要求12所述的方法，还包括：

根据所述动作信息与预定标准动作信息之间的相似度，确定针对所述目标运动的第一评估值。

15.根据权利要求1或14所述的方法，其中，所述目标运动包括跳水运动；所述方法还包括：

根据所述待播放数据，确定所述目标对象入水所产生的水花的特征参数；以及

根据所述特征参数，确定针对所述目标运动的第二评估值。

16.根据权利要求15所述的方法，其中，所述根据所述待播放数据，确定所述目标对象入水所产生的水花的特征参数包括：

根据所述待播放数据，确定所述目标对象入水所产生的水花的位置信息；

根据所述水花的位置信息裁剪所述待播放数据中的视频帧，得到裁剪后视频帧；以及

根据所述裁剪后视频帧，确定所述目标对象入水所产生的水花的特征参数。

17.根据权利要求1所述的方法，还包括：

对所述待播放数据中的目标对象进行身份识别，得到所述目标对象的身份信息；以及

将所述身份信息和所述待播放数据关联地存储。

18.一种针对目标对象的视觉跟踪装置，包括：

器械确定模块，用于根据事件相机采集的第一事件数据，确定与运动的目标对象相对应的目标器械；

运动信息确定模块，用于根据所述事件相机采集的与所述目标器械所在区域相对应的第二事件数据，确定所述目标对象的运动信息；

数据获取模块，用于响应于根据所述运动信息确定所述目标对象的运动满足视觉跟踪条件，获取针对所述目标对象采集的视频数据；以及

数据生成模块，用于根据所述视频数据，生成描述所述目标对象所执行的目标运动的待播放数据，所述目标运动与所述目标器械的器械类型相对应。

19.一种针对目标对象的视频跟踪系统，包括：

视频采集设备；

事件相机，设置于所述视频采集设备的周边位置；以及

处理设备，与所述视频采集设备和所述事件相机通信连接，以获取所述视频采集设备和所述事件相机采集的数据；

其中，所述处理设备被配置为：执行权利要求1-17中任一项所述的针对目标对象的视觉跟踪方法。

20.根据权利要求19所述的系统，还包括：

机械臂，所述视频采集设备搭载于所述机械臂上；

其中，所述控制设备还与所述机械臂连接，以控制所述机械臂的转动。

21.根据权利要求20所述的系统，还包括：

深度相机，搭载于所述机械臂上，

其中，所述控制设备还与所述深度相机通信连接，以获取所述深度相机采集的深度数据。

22.根据权利要求20所述的系统，还包括：

播放设备，设置有视频解码器，所述播放设备与所述处理设备通信连接；

所述处理设备还被配置为：将所述待播放数据发送给所述播放设备；所述播放设备被配置为：采用所述视频解码器对所述待播放数据进行解码，以播放解码得到的视频数据。

23.根据权利要求22所述的系统，还包括：

控制台，设置有多个控制按键，所述控制台与所述处理设备通信连接，且与所述播放设备设置于相同的物理空间；所述控制台被配置为：响应于对所述多个控制按键中第一控制按键的操作，向所述处理设备发送第一控制信号；以及

所述处理设备还被配置为：响应于接收到所述第一控制信号，根据所述第一控制信号控制所述机械臂的转动。

24.根据权利要求23所述的系统，其中：

所述控制台还与所述播放设备通信连接；所述控制台还被配置为：响应于对所述多个控制按键中第二控制按键的操作，向所述播放设备发送第二控制信号；

所述播放设备还被配置为：响应于接收到所述第二控制信号，调整所述播放设备所播放的视频数据，

其中，调整所述播放设备所播放的视频数据包括以下至少之一：调整播放速度；切换播放的视频数据。

25.根据权利要求22所述的系统，还包括：

遥控设备，所述遥控设备与所述处理设备通信连接；

所述遥控设备被配置为：响应于对所述遥控设备所设置的多个按钮中第一按钮的操作，向所述处理设备发送第三控制信号；以及

所述处理设备还被配置为：响应于接收到所述第三控制信号，根据所述第三控控制信号控制所述机械臂的转动。

26.根据权利要求25所述的系统，其中：

所述遥控设备还与所述播放设备通信连接；所述遥控设备还被配置为：响应于对所述多个按钮中第二按钮的操作，向所述播放设备发送第四控制信号；

所述播放设备还被配置为：响应于接收到所述第四控制信号，调整所述播放设备所播放的视频数据，

27.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1～17中任一项所述的方法。

28.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1～17中任一项所述的方法。

29.一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令存储于可读存储介质和电子设备其中至少之一上，所述计算机程序/指令在被处理器执行时实现根据权利要求1～17中任一项所述方法的步骤。