CN113312949A

CN113312949A - 视频数据处理方法、视频数据处理装置和电子设备

Info

Publication number: CN113312949A
Application number: CN202010286034.7A
Authority: CN
Inventors: 张道鑫; 李嘉伟; 朱佳柠; 祝暾; 胡尧; 朱建科
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-04-13
Filing date: 2020-04-13
Publication date: 2021-08-27
Anticipated expiration: 2040-04-13
Also published as: CN113312949B

Abstract

公开了一种视频数据处理方法，视频数据处理装置和电子设备。该视频数据处理方法包括：对当前视频中的关键图像帧进行主体标定以获得所述关键图像帧中的至少一个关键主体的位置和目标区域位置；使用所述至少一个关键主体的位置和所述目标区域位置进行主体跟踪以获得所述关键图像帧的后续图像帧中的至少一个关键主体的位置；以及，使用所述后续图像帧中的所述至少一个关键主体的位置确定所述后续图像帧中的目标区域位置。这样，可以适用于不同类型的多目标场景下的视频处理。

Description

视频数据处理方法、视频数据处理装置和电子设备

技术领域

本申请涉及视频处理技术领域，且更为具体地，涉及一种视频数据处理方法、视频数据处理装置和电子设备。

背景技术

随着各类型消费级屏幕设备的普及，用户在手机、平板等智能设备上观看影视作品的需求与日俱增。

之前，用户在手机、平板等智能设备上观看视频时，一般是采用横屏播放。但是，随着今年来短视频类应用的的兴起，视频的竖屏播放变得越来越普遍，从而使得竖版视频的生产成为了文娱行业的刚需。

对于传统的横版视频来说，如果简单地通过缩放的方式转换为竖版视频，则将会造成视频画面的失真，但是如果能够将已有的海量的存量横版视频适当地转换为竖版视频，则可以显著改善竖版视频的生产。

另外，在其它应用场景下，也期望能够获得视频中的预定区域及其中的对象，以进行诸如遮蔽处理，或者锐化或者钝化处理等其它图像处理。

因此，期望提供一种改进的确定视频中的目标区域及其中的对象的方案。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种视频数据处理方法，视频数据处理装置和电子设备，其通过主体标定来确定关键图像帧中的多个关键主体的位置和目标区域位置，并进而通过主体追踪来确定后续普通帧中的多个关键主体的位置和目标区域位置，从而适用于不同类型的多目标场景下的视频处理。

根据本申请的一方面，提供了一种视频数据处理方法，包括：对当前视频中的关键图像帧进行主体标定以获得所述关键图像帧中的至少一个关键主体的位置和目标区域位置；使用所述至少一个关键主体的位置和所述目标区域位置进行主体跟踪以获得所述关键图像帧的后续图像帧中的至少一个关键主体的位置；以及，使用所述后续图像帧中的所述至少一个关键主体的位置确定所述后续图像帧中的目标区域位置。

在上述视频数据处理方法中，对当前视频中的关键图像帧进行主体标定以获得所述关键图像帧中的至少一个关键主体的位置和目标区域位置包括：使用当前视频中的关键图像帧的主体检测结果、显著性检测结果和图像清晰度检测结果进行主体标定以获得所述关键图像帧中的至少一个关键主体的位置和目标区域位置。

在上述视频数据处理方法中，使用当前视频中的关键图像帧的主体检测结果、显著性检测结果和图像清晰度检测结果进行主体标定以获得所述关键图像帧中的至少一个关键主体的位置和目标区域位置之前包括：通过目标检测确定所述关键图像帧中的至少一个候选主体的主体检测结果，所述主体检测结果包括所述候选主体的类别和与所述候选主体对应的检测框；通过显著性检测确定所述关键图像帧中的显著性检测结果，所述显著性检测结果表示所述关键图像帧中的位置为具有显著性的所述候选主体的概率值；以及，通过模糊检测确定所述关键图像帧的图像清晰度检测结果。

在上述视频数据处理方法中，对当前视频中的关键图像帧进行主体标定以获得所述关键图像帧中的至少一个关键主体的位置包括：确定所述检测框的中心与所述关键图像帧的画面中心的欧氏距离；确定所述检测框的大小；以及，基于分别与所述主体检测结果、所述显著性检测结果、所述图像清晰度检测结果、所述每个检测框的欧氏距离和所述每个检测框的大小对应的学习器的输出值确定所述关键图像帧中的至少一个候选主体的标定分数。

在上述视频数据处理方法中，确定所述关键图像帧中的至少一个候选主体的标定分数包括：基于所述关键图像帧的前一图像帧中的所述至少一个候选主体的主体检测结果预测所述关键图像帧中的所述至少一个候选主体的参考位置；计算所述至少一个候选主体的参考位置与当前位置之间的距离；以及，基于所述距离分别对所述学习器的所述输出值进行加权，并基于加权结果确定所述关键图像帧中的至少一个候选主体的标定分数。

在上述视频数据处理方法中，获得所述关键图像帧中的目标区域位置包括：确定所述目标区域位置以使得所述目标区域包含有较大数目的具有相对高的标定分数的候选主体；和/或，确定所述目标区域位置以使得所述目标区域不划分特定类型的候选主体。

在上述视频数据处理方法中，获得所述关键图像帧中的至少一个关键主体的位置包括：确定所述目标区域内包括的至少一个候选主体为所述至少一个关键主体，并确定其位置。

在上述视频数据处理方法中，基于所述后续图像帧中的至少一个关键主体的位置确定所述后续图像帧中的目标区域位置包括：确定所述后续图像帧中的当前帧中的所述至少一个关键主体的置信度阈值；基于所述置信度阈值确定是否所述至少一个关键主体在所述当前帧的前一帧的目标区域内和是否满足预设条件；以及，响应于所述多个关键主体在所述前一帧的目标区域内和满足预设条件使用最左侧关键主体和最右侧关键主体的中心点作为所述当前帧的裁剪区域中心。

在上述视频数据处理方法中，所述预设条件包括以下的至少其中之一：所述多个关键主体未丢失；所述多个关键主体的置信度阈值大于或等于预定阈值；或者，所述最左侧关键主体和所述最右侧关键主体之间的距离未超出所述裁剪区域的大小。

在上述视频数据处理方法中，进一步包括：响应于不满足预设条件，将所述当前帧确定为所述当前视频的关键图像帧。

在上述视频数据处理方法中，进一步包括：使用所述关键图像帧和所述后续图像帧中的目标区域位置裁剪所述当前视频。

在上述视频数据处理方法中，在基于所述关键图像帧和所述后续图像帧中的裁剪区域位置裁剪所述视频之前进一步包括：对于所述关键图像帧和所述后续图像帧中的裁剪区域位置进行平滑处理。

在上述视频数据处理方法中，在对当前视频中的关键图像帧进行主体标定以获得所述关键图像帧中的至少一个关键主体的位置和目标区域位置之前进一步包括：获取初始视频；对所述初始视频进行分镜边界检测将所述初始视频划分为多个视频片段；确定所述视频片段的画面尺寸；以及，基于所述画面尺寸对所述视频片段进行黑边检测与裁剪以获得所述当前视频。

在上述视频数据处理方法中，基于所述关键图像帧和所述后续图像帧中的裁剪区域位置裁剪所述当前视频包括：检测所述当前视频中的字幕和特定标志；以及，修补裁剪后的视频以包含检测到的字幕和特定标志。

在上述视频数据处理方法中，基于所述关键图像帧和所述后续图像帧中的裁剪区域位置裁剪所述当前视频包括：对裁剪后的视频进行画面增强，所述画面增强包括去噪声、去模糊、高动态范围成像和超分辨率中的至少一个。

根据本申请的另一方面，提供了一种视频数据处理方法，包括：获取使用摄像头采集的当前视频；对所述当前视频中的关键图像帧进行主体标定以获得所述关键图像帧中的至少一个关键主体的位置和目标区域位置；使用所述至少一个关键主体的位置和所述目标区域位置进行主体跟踪以获得所述关键图像帧的后续图像帧中的至少一个关键主体的位置；以及，使用所述后续图像帧中的所述至少一个关键主体的位置确定所述后续图像帧中的目标区域位置。

根据本申请的又一方面，提供了一种用于直播的视频数据处理方法，包括：获取直播中的当前视频；对所述当前视频中的关键图像帧进行主体标定以获得所述关键图像帧中的至少一个关键主体的位置和目标区域位置；使用所述至少一个关键主体的位置和所述目标区域位置进行主体跟踪以获得所述关键图像帧的后续图像帧中的至少一个关键主体的位置；以及，使用所述后续图像帧中的所述至少一个关键主体的位置确定所述后续图像帧中的目标区域位置。

根据本申请的另一方面，提供了一种视频数据处理装置，包括：主体标定单元，用于对当前视频中的关键图像帧进行主体标定以获得所述关键图像帧中的至少一个关键主体的位置和目标区域位置；主体追踪单元，用于使用所述至少一个关键主体的位置和所述目标区域位置进行主体跟踪以获得所述关键图像帧的后续图像帧中的至少一个关键主体的位置；以及，区域确定单元，用于使用所述后续图像帧中的所述至少一个关键主体的位置确定所述后续图像帧中的目标区域位置。

根据本申请的再一方面，提供了一种电子设备，包括：处理器；以及，存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的视频数据处理方法。

根据本申请的又一方面，提供了一种计算机可读介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的视频数据处理方法。

本申请提供的视频数据处理方法，视频数据处理装置和电子设备，其通过主体标定来确定关键图像帧中的多个关键主体的位置和目标区域位置，并进而通过主体追踪来确定后续普通帧中的多个关键主体的位置和目标区域位置，从而适用于不同类型的多目标场景下的视频处理。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1图示了根据本申请实施例的视频数据处理方法的应用场景的示意图。

图2图示了根据本申请实施例的视频数据处理方法的流程图。

图3图示了根据本申请实施例的视频裁剪方法中的主体标定和主体追踪过程的示意图。

图4图示了根据本申请实施例的视频数据处理方法应用于视频裁剪的场景的示意图。

图5图示了根据本申请实施例的视频数据处理方法的应用示例一的示意图。

图6图示了根据本申请实施例的视频数据处理方法的应用示例二的流程图。

图7图示了根据本申请实施例的视频数据处理方法的应用示例三的流程图。

图8图示了根据本申请实施例的视频数据处理装置的框图。

图9图示了根据本申请实施例的电子设备的框图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

示例性方法

如图1所示，针对视频V1，首先获取其关键帧Fs和关键帧Fs后续的普通帧Fc1和Fc2，这里，本领域技术人员可以理解，虽然在图1示出了两个普通帧Fc1和Fc2，但是关键帧后续的普通帧数目不限于两个，而是相邻的两个关键帧之间的其它帧均为普通帧。另外，在根据本申请实施例的视频数据处理方法中，将进行主体标定的图像帧称为关键帧，而将不进行主体标定而是进行主体追踪的图像帧称为普通帧。

然后，对关键帧Fs进行主体标定，其目的是为了确定关键帧Fs中的候选主体，这里，候选主体是图像中的任意对象，比如人、房屋、车辆等，例如如图1所示的T1、T2、T3和T4。并且，通过主体标定，还确定关键帧Fs中的目标区域，如图1中的虚线框所示，这里，所述目标区域是在所述视频中需要进行进一步的图像处理的区域，例如要进行裁剪的区域，要进行遮蔽的区域，或者要进行比如锐化或者钝化等其它图像处理的区域。并且，如图1所示，在本申请实施例中，候选主体并不限于单一类型，而可以是多种类型的候选主体，例如如图1所示的房屋主体T1，以及人物主体T2、T3和T4。

如图1所示，通过主体标定，在关键帧Fs中确定如虚线框所示的目标区域，以及在目标区域内的主体T1和T2。在本申请实施例中，为了与其它候选主体T3和T4区分，将目标区域内的候选主体T1和T2称为关键主体。也就是，在根据本申请实施例中，通过主体标定来确定关键帧中的目标区域，以及目标区域内所包含的候选主体，该目标区域内所包含的候选主体被称为关键主体。

之后，基于对关键帧Fs进行的主体标定的结果，对普通帧Fc1和Fc2进行主体追踪，以便标定出与关键帧中标定出的关键主体相对应的普通帧Fc1和Fc2中的关键主体。例如，如图1所示，在普通帧Fc1包含的候选主体T1和T2、T3和T4中标定出关键主体T1和T2，而在普通帧Fc2中，由于画面的变化，在所包含的候选主体T1、T2和T3中标定出关键主体T1和T2。

在本申请实施例中，视频的第一帧是关键帧，后续的帧是普通帧，基于关键帧的标定结果对普通帧进行追踪。由于普通帧由于画面变化等因素可能会存在追踪失败的情况，因此，如果某一普通帧的追踪失败，则将该普通帧作为关键帧进行主体标定。

并且，基于对于普通帧Fc1和Fc2的主体追踪的结果，在普通帧Fc1和Fc2中标定出目标区域，如图1中的普通帧Fc1和Fc2的虚线框所示。如上所述，所述普通帧中的目标区域要进行进一步的图像处理，比如裁剪、遮蔽等。

下面，将结合图1进一步详细说明根据本申请实施例的视频数据处理方法。

图2图示了根据本申请实施例的视频数据处理方法的流程图。

如图2所示，根据本申请实施例的视频数据处理方法包括如下步骤。

步骤S110，对当前视频中的关键图像帧进行主体标定以获得所述关键图像帧中的至少一个关键主体的位置和目标区域位置。

该步骤S110的目的在于确定单帧图像，即关键图像帧中的多个关键主体位置和目标区域位置，以标定关键帧。也就是，该步骤获取当前视频中的关键图像帧作为输入，并且输出为该帧的目标区域位置和目标区域内的多个关键主体的位置。

在本申请实施例中，为了更加准确地确定关键图像帧中的候选主体的位置，综合目标检测、显著性检测和模糊检测的结果来确定候选主体的位置，下面，将对主体标定的过程进行详细说明。

如图3所示，主体标定包括目标检测、显著性检测、模糊检测以及主体和裁剪选择。

目标检测是一种较为成熟的计算机视觉任务，其以图像为输入，通过计算得到图像中的物体的位置和类别，并且，位置的表示方式为包围该物体的最小框(bounding box)。

如图1所示，在本申请实施例中，通过目标检测，获得关键帧Fs中的候选主体T1、T2、T3和T4的位置和类别，其中，位置以包围候选主体T1、T2、T3和T4的实线矩形框表示。并且，在本申请实施例中，候选主体可以是多种类型的候选主体，不仅限于图1所示的房屋和人，也可以包括人脸、汽车等其它候选主体。具体地，目标检测可以使用各种目标检测模型实现，例如FreeAnchor(NIPS19')和YOLOv3(arxiv1804)。并且，多个类别的候选主体的检测可以在同一检测器中实现，也可以在多个检测器中分别实现。

显著性检测是通过模拟人类视觉注意力机制，在图像或视频帧中寻找引人注目的区域。在本申请实施例中，显著性检测是以图像为输入，通过计算得到图像中的每个位置为显著的候选主体的概率值，其主要是为了避免大光圈等特效带来的背景的候选主体被错误地选为关键主体的情况。也就是，在图像帧中，显著性检测可以用于区分前景和背景，因此如果候选主体在背景中，就可以通过显著性检测将其与前景中的候选主体区分，从而避免背景中的候选主体被选中。在本申请实施例中，显著性检测仅作为主体标定的参考，而不作为主体和裁剪区域选择的核心。具体地，显著性检测可以使用比如CPD(CVPR19')的模型实现。

模糊检测用于提供图像清晰度值，从而实现选择更清晰的主体的目的。在本申请实施例中，模糊检测可以分为三个步骤，首先对输入图像做灰度化处理，之后对灰度图进行拉普拉斯变换，最后对变化后的图像取方差。这样，得到的方差即为图像清晰度值，也就是，可以采用传统的图像处理方法拉普拉斯算法来计算图像清晰度。

因此，在根据本申请实施例的视频裁剪方法中，对当前视频中的关键图像帧进行主体标定以获得所述关键图像帧中的至少一个关键主体的位置和目标区域位置包括：使用当前视频中的关键图像帧的主体检测结果、显著性检测结果和图像清晰度检测结果进行主体标定以获得所述关键图像帧中的至少一个关键主体的位置和目标区域位置。

并且，在根据本申请实施例的视频裁剪方法中，使用当前视频中的关键图像帧的主体检测结果、显著性检测结果和图像清晰度检测结果确定所述关键图像帧中的至少一个关键主体的位置和目标区域位置包括：通过目标检测确定所述关键图像帧中的至少一个候选主体的主体检测结果，所述主体检测结果包括所述候选主体的类别和与所述候选主体对应的检测框；通过显著性检测确定所述关键图像帧中的显著性检测结果，所述显著性检测结果表示所述关键图像帧中的位置为具有显著性的所述候选主体的概率值；以及，通过模糊检测确定所述关键图像帧的图像清晰度检测结果。

继续参考图3，在获得了主体检测结果、显著性检测结果和图像清晰度检测结果之后，可以获得以所述候选主体为中心的单帧图像裁剪方案。如上所述，主体检测结果得到了画面内所有候选主体的位置和类别，显著性检测结果引入了视觉注意力机制从而区分前景和背景，图像清晰度检测结果引入了画质模糊度。基于以上信息，可以确定关键图像帧中的多个候选主体的标定分数，并基于标定分数确定目标区域和目标区域内的关键主体。

具体地，对于视频中的第一图像帧，不需要考虑之前的图像帧的标定结果，其以如上所述的主体检测结果、显著性检测结果和图像清晰度检测结果，以及检测框的中心距离画面中心的欧式距离，和检测框的大小作为输入，分别输入到学习器当中进行计算，并基于所述学习器的输出值来确定标定分数。例如，可以将所述学习器的输出值进行归一化再按权重系数融合，以确定标定分数。

这里，所述学习器可以是通过训练得到的多层感知器，以用于将所述主体检测结果、显著性检测结果和图像清晰度检测结果，以及检测框的中心距离画面中心的欧式距离，和检测框的大小作为输入，来输出与上述每项对应的分数。并且，所述学习器可以同时以上述五项中的一项或多项作为输入，也可以以每项作为输入，因此，所述学习器的数目可以为一个或多个。

也就是，在根据本申请实施例的视频数据处理方法中，进行主体标定以获得所述关键图像帧中的至少一个关键主体的位置和目标区域位置包括：确定所述检测框的中心与所述关键图像帧的画面中心的欧氏距离；确定所述检测框的大小；以及，基于分别与所述主体检测结果、所述显著性检测结果、所述图像清晰度检测结果、所述每个检测框的欧氏距离和所述每个检测框的大小对应的学习器的输出值确定所述关键图像帧中的多个主体的标定分数。

另外，如果关键图像帧不是当前视频的第一帧，则还需要考虑相邻帧的标定结果，也就是，以相邻帧中所确定的候选主体的位置来预测当前帧中的候选主体的位置。具体地，例如可以通过三次样条算法，通过上一帧位置加估计移动速度得到。然后，以各个候选主体的预测位置与通过主体检测所获得的检测位置之间的距离对如上所述的学习器的输出值进行加权，以获得基于相邻帧位置修正的标定分数。例如，如果候选主体的预测位置与检测位置之间的距离远，则加权系数设置为较小，比如0.1，而如果候选主体的预测位置与检测位置之间的距离近，则加权系数设置为较大，比如0.9。这样，通过以该加权系数对如上所述的学习器的输出值进行加权，则距离较近的候选主体所获得的标定分数较高。

也就是，在上述视频数据处理方法中，确定所述关键图像帧中的至少一个候选主体的标定分数包括：基于所述关键图像帧的前一图像帧中的所述至少一个候选主体的主体检测结果预测所述关键图像帧中的所述至少一个候选主体的参考位置；计算所述至少一个候选主体的参考位置与当前位置之间的距离；以及，基于所述距离对学习器的输出值的加权确定所述关键图像帧中的至少一个候选主体的标定分数。

接下来，在画面中存在多个候选主体的情况下，依据主体标定得到的分数，优先选取可以包含最多高分的候选主体的目标区域的位置。同时，还需要根据候选主体的类别进行调整，例如可以设定人物类的候选主体不允许被切割，即，在选择目标区域的位置后会判别目标区域的左右边界是否存在人物类被截断，并进行微调避免该情况发生。

例如，参考图1，假定候选主体T1、T2、T3和T4的标定分数分别为10、6、4、3，则选择包括候选主体T1和T2，而不是包括候选主体T1和T4的区域作为目标区域。另外，如果选择目标区域除候选主体T1和T2以外进一步包含候选主体T3或者T4，则会对候选主体T3或者T4形成截断，因此综合考虑确定如图1的虚线框所示的区域作为目标区域。并且，在确定虚线框所示的区域作为目标区域之后，可以进一步确定目标区域内包含的候选主体，例如如图1所示的T1和T2为关键主体，并且相应地确定关键主体的位置。

因此，在根据本申请实施例的视频数据处理方法中，获得所述关键图像帧中的目标区域位置包括：确定所述目标区域位置以使得所述目标区域包含有较大数目的具有相对高的标定分数的候选主体；和/或，确定所述目标区域位置以使得所述目标区域不划分特定类型的候选主体。

并且，在上述视频数据处理方法中，获得所述关键图像帧中的至少一个关键主体的位置包括：确定所述目标区域内包括的至少一个候选主体为所述至少一个关键主体，并确定其位置。

返回参考图2，根据本申请实施例的视频数据处理方法进一步包括以下步骤。

步骤S120，使用所述至少一个关键主体的位置和所述目标区域位置进行主体追踪以获得所述关键图像帧的后续图像帧中的至少一个关键主体的位置。

也就是，在步骤S120中，基于关键帧中的至少一个关键主体的位置和目标区域位置对后续的普通帧进行目标追踪，这里，目标追踪是一种计算机视觉技术，其用于在视频的一帧上给定初始目标位置，在相邻帧上追踪目标的位置移动。

并且，在本申请实施例中，由于关键帧中包括至少一个关键主体，因此采用多目标追踪，也就是，在关键图像帧中的目标区域位置和目标区域内的关键主体的位置已知的情况下，在相邻普通帧中查找这几个关键主体和其所在位置。具体地，实现方案有两种，首先，可以对多个关键主体运行多次SOT追踪(Single Object Tracking：单物体追踪)算法，或者，可以直接使用MOT追踪(Multi-Object Tracking：多物体追踪)算法直接查找多个关键主体。例如，单物体追踪算法可以采用模型SiamMask(CVPR19')。

此外，在本申请实施例中，可以首先判定需要追踪的关键主体的数目，在关键主体的数目大于预定阈值，例如5时，采用MOT追踪算法，否则采用SOT算法，从而更好地平衡性能和效率。

继续参考图3，在通过主体标定获得关键图像帧中的至少一个关键主体的位置和目标区域位置之后，例如以矩形框的形式，对目标区域内的主体进行多目标追踪，比如多次SOT，从而得到关键图像帧后续相邻的普通帧中的关键主体对应的位置。

步骤S130，使用所述后续图像帧中的至少一个关键主体的位置确定所述后续图像帧中的目标区域位置。具体地，可以使用置信度阈值判定至少一个关键主体是否还在普通帧的画面内，如果是，则使用最左侧主体和最右侧主体的横坐标中心点作为普通帧中的目标区域的中心，从而确定目标区域位置。这里，可以为每个关键主体设置置信度值，从而表示每个关键主体是否在普通帧的画面内的置信度，且如果所述置信度大于置信度阈值，则判定该关键主体仍然在普通帧的画面内，否则判定该关键主体不再在普通帧的画面内。

但是，由于随着画面变化，可能存在普通帧内的关键主体和目标区域标定失败的情况，因此在本申请实施例中，预设普通帧标定的成功条件。这样，如果满足成功条件，则确定普通帧的标定成功，否则，则将标定失败的普通帧转为关键帧，使用如上所述的主体标定的过程进行标定。

在本申请实施例中，成功条件例如可以包括主体目标未丢失，主体目标置信度大于或等于阈值，以及追踪得到的最左和最右主体目标之间距离未超过裁剪区域的大小。

也就是，如图3所示，在未满足成功条件的情况下，从主体追踪返回到主体标定，以进行普通帧补全/失败重标定。

因此，在根据本申请实施例的视频数据处理方法中，基于所述后续图像帧中的至少一个关键主体的位置确定所述后续图像帧中的目标区域位置包括：确定所述后续图像帧中的当前帧中的所述至少一个关键主体的置信度阈值；基于所述置信度阈值确定是否所述至少一个关键主体在所述当前帧的前一帧的目标区域内和是否满足预设条件；以及，响应于所述至少一个关键主体在所述前一帧的目标区域内和满足预设条件使用最左侧关键主体和最右侧关键主体的中心点作为所述当前帧的目标区域中心。

在上述视频数据处理方法中，所述预设条件包括以下的至少其中之一：所述多个关键主体未丢失；所述多个关键主体的置信度阈值大于或等于预定阈值；或者，所述最左侧关键主体和所述最右侧关键主体之间的距离未超出所述目标区域的大小。

并且，在上述视频数据处理方法中，进一步包括：响应于不满足预设条件，将所述当前帧确定为所述当前视频的关键图像帧。

如上所述，根据本申请实施例的视频数据处理方法可以用于视频裁剪、视频遮蔽等视频处理的场景。在一个具体示例中，根据本申请实施例的视频数据处理方法用于视频裁剪，例如将横版视频通过裁剪的方式转换为竖版视频。

因此，根据本申请实施例的视频数据处理方法可以进一步包括基于所述关键图像帧和所述后续图像帧中的目标区域位置裁剪所述当前视频。

如图4所示，根据关键帧Fs和普通帧Fc1和Fc2中由虚线框表示的目标区域位置，裁剪当前视频v1以获得裁剪后的图像帧Ft1、Ft2和Ft3，并进一步组合为裁剪后的视频t2。

如上所述，通过主体标定和主体追踪，可以得到连续的图像帧中的裁剪区域位置，但是，由于在连续的各帧中裁剪区域位置很可能不是渐变的，这体现在结果上就是画面抖动或左右晃动，引起眩晕等较差的体验。对此，可以采用平滑技术以将裁剪区域位置，即裁剪区域位置的中心x_t的坐标进行优化。具体地，可以首先使用了时间序列离群点检测技术，将异常的定位点删除，然后通过差值方法将异常点位补全，再使用卡尔曼滤波(Kalmanfilter)将序列整体平滑，得到最终x'_t的裁剪区域的中心位置，用于最终裁剪。

也就是，在根据本申请实施例的视频数据处理方法中，在基于所述关键图像帧和所述后续图像帧中的目标区域位置裁剪所述视频之前进一步包括：对于所述关键图像帧和所述后续图像帧中的目标区域位置进行平滑处理。

另外，在本申请实施例中，在对当前视频的关键图像帧进行主体标定之前，可以进一步对当前视频进行预处理，以提高主体标定的准确性。

通常，在视频中包括多个场景，分镜边界检测是一种常见的计算机视觉任务，目标是根据视频画面的语义相关性将视频分成多个镜头片段，例如，可以使用模型TransNet(MM19')，从而得到视频中镜头转换的时间点，每个时间点表示在该时间点进行了镜头切换，根据该结果可以将视频切分成多个片段。

这样，针对每个片段，因为在片段内不存在转场、镜头切换等情况，理论上视频片段内的主体目标的运动具有连续性，从而可以提高主体标定的准确性。

另外，可以进行画面尺寸判定。也就是，在本申请实施例中，可以由用户指定目标区域的尺寸，包括纵横比等，也可以在几种常见的画面尺寸中智能选择，例如包括(横：竖)16:9、4:3、1:1、3:4、9:16等。例如，在横版视频转换为竖版视频的场景下，考虑到主流视频多为横版视频，目标视频尺寸优先选择竖版的合适尺寸(即横转竖)。具体地，智能选择的方法可以为随机抽样数帧，检测画面的显著区域大小。该显著区域取决于两方面，首先是(帧)画面中是否显著，其次是视频中是否有明显的运动。依据显著区域的平均大小，选择可以包含显著区域大小进行裁剪，即优先级为9:16>3:4>1:1。

此外，在各类横版视频中，黑边是常用的画面填充方式，给观看者大片的体验，但在竖版中这将严重影响观看。因此，在本申请实施例中可以采用黑边检测和裁剪。具体地，首先使用一系列常用的边缘检测算子(sobel等)提取边缘点，将边缘点集合坐标通过经典霍夫变换(Hough Transform)，投影空间的聚光点即为黑边检测直线参数。得到了黑边位置后，可以将黑边区域全部裁剪掉。

因此，在根据本申请实施例的视频数据处理方法中，对当前视频中的关键图像帧进行主体标定以获得所述关键图像帧中的至少一个关键主体的位置和目标区域位置之前进一步包括：获取初始视频；对所述初始视频进行分镜边界检测将所述初始视频划分为多个视频片段；确定所述视频片段的画面尺寸；以及，基于所述画面尺寸对所述视频片段进行黑边检测与裁剪以获得所述当前视频。

返回参考图4，在获得裁剪后的图像帧Ft1、Ft2和Ft3之后，为了提高合成后的视频质量，可以进行对这些图像帧进行图像处理，以增强图像画质。

具体地，在本申请实施例中，可以对图像帧进行画质提升。这里，画质提升是针对画面裁剪场景定制的方案，主要处理两个问题：一是画面修补，其主要处理裁剪边界可能的字幕和标志的截断问题，二是画质增强，用于提升分辨率，缓解因裁剪带来的实际缩进效果。

对于画面修补，首先在原画面(未进行裁剪前)上进行字幕检测和特定标志，例如logo的检测，得到其位置或分割掩码。若该位置存在在最终裁剪的图像帧中，则将其位置作为输入进行图像修补(Inpainting)。这里，图像修补是一种计算机视觉技术，其在给定图片或视频目标区域位置的情况下，根据该位置和周围画面填充目标位置，使视觉效果趋于真实。

对于画质增强，可以使用多个底层视觉技术，包括去噪声、去模糊、高动态范围成像和超分辨率处理等。画质增强可具有一定灵活性，即，根据用户对于画质的需求和计算资源进行，并且，在画质增强时，最后进行超分辨率处理可以显著地降低整体计算开销。

因此，在根据本申请实施例的视频数据处理方法中，基于所述关键图像帧和所述后续图像帧中的目标区域位置裁剪所述当前视频包括：检测所述当前视频中的字幕和特定标志；以及，修补裁剪后的视频以包含检测到的字幕和特定标志。

并且，在根据本申请实施例的视频数据处理方法中，基于所述关键图像帧和所述后续图像帧中的目标区域位置裁剪所述当前视频包括：对裁剪后的视频进行画面增强，所述画面增强包括去噪声、去模糊、高动态范围成像和超分辨率中的至少一个。

应用示例一

图5图示了根据本申请实施例的视频数据处理方法的应用示例一的示意图。这里，该应用示例可以应用于横转竖，即将横版视频转换成竖版视频，当然，本领域技术人员可以理解，该应用示例也可以应用于横转横，即转换横版视频画面尺寸。

如图5所示，针对所获取的原始视频，首先进行镜头切分，包括镜头边界检测、画面尺寸判定和黑边检测与裁剪，从而得到如图1所示的视频v1。

然后，进行主体标定，如上所述，主体标定的过程包括目标检测、显著性检测、模糊检测和主体与镜头选择。这里，因为如上所述的裁剪区域对应于裁剪后的视频的镜头区域，因此裁剪区域对应于镜头。

之后，进行主体追踪，如上所述，主体追踪的过程包括多目标追踪、主体镜头追踪和镜头平滑。

最后，进行画质提升，包括字幕/Logo检测、画面修补和画质增强，从而获得最终的结果视频。

可以看到，该应用示例适用于多目标场景，且目标可以预先设定类别，同时可以设定某些类别的目标不接受裁剪(例如人脸不能被裁剪)，适用范围广。

针对多目标场景，该应用示例的多目标场景下的主体目标标定算法基于目标检测算法，综合显著性、模糊度、画面位置等选出主体目标，并根据主体目标位置和裁剪目标尺寸选出镜头(裁剪)位置。并且，在主体标定得到的镜头内追踪主体目标，并确定镜头位置以维持镜头的一致性，最终通过滤波等操作保持镜头平滑。

并且，通过优化裁剪后的画质，包括画质提升中的画面修补和画质增强，弥补了部分的截断、分辨率低等问题。

另外，画面尺寸判定可以采用智能识别推荐裁剪画面的功能，且黑边检测与裁剪可以采用黑边自动检测与去除的功能。

应用示例二

如图6所示，根据本申请实施例的视频数据处理方法的应用示例二包括：S210，获取使用摄像头采集的当前视频；S220，对所述当前视频中的关键图像帧进行主体标定以获得所述关键图像帧中的至少一个关键主体的位置和目标区域位置；S230，使用所述至少一个关键主体的位置和所述目标区域位置进行主体跟踪以获得所述关键图像帧的后续图像帧中的至少一个关键主体的位置；以及，S240，使用所述后续图像帧中的所述至少一个关键主体的位置确定所述后续图像帧中的目标区域位置。

也就是，根据本申请实施例的视频数据处理方法的应用示例二应用于比如智慧城市的场景，通过对摄像头，比如交通摄像头，或者路边房屋的监控摄像头采集的视频进行视频数据处理，来实现主体，比如行人和车辆的监控，包括主体的标定和跟踪等。并且，还可以基于标定和跟踪的主体进行进一步的图像处理，例如主体身份的识别、主体的比较等。

这里，本领域技术人员可以理解，根据本申请实施例的视频数据处理方法的应用示例二中的其它细节与之前在“示例性方法”部分中描述的根据本申请实施例的视频数据处理方法的相应细节完全相同，这里为了避免冗余便不再赘述。

应用示例三

如图7所示，根据本申请实施例的视频数据处理方法的应用示例三用于直播场景，包括：S310，获取直播中的当前视频；S320，对所述当前视频中的关键图像帧进行主体标定以获得所述关键图像帧中的至少一个关键主体的位置和目标区域位置；S330，使用所述至少一个关键主体的位置和所述目标区域位置进行主体跟踪以获得所述关键图像帧的后续图像帧中的至少一个关键主体的位置；以及，S340，使用所述后续图像帧中的所述至少一个关键主体的位置确定所述后续图像帧中的目标区域位置。

也就是，根据本申请实施例的视频数据处理方法的应用示例三可以用于直播过程中的视频的处理，例如，通过对直播过程的视频进行视频数据处理，可以实现主体，比如直播主持人的标定和跟踪。并且，还可以基于标定和跟踪的主体进行进一步的图像处理，例如更换直播背景等。

这里，本领域技术人员可以理解，根据本申请实施例的视频数据处理方法的应用示例三中的其它细节与之前在“示例性方法”部分中描述的根据本申请实施例的视频数据处理方法的相应细节完全相同，这里为了避免冗余便不再赘述。

示例性装置

图8图示了根据本申请实施例的视频数据处理装置的框图。

如图8所述，根据本申请实施例的视频数据处理装400包括：主体标定单元410，用于对当前视频中的关键图像帧进行主体标定以获得所述关键图像帧中的至少一个关键主体的位置和目标区域位置；主体追踪单元420，用于使用所述至少一个关键主体的位置和所述目标区域位置进行主体跟踪以获得所述关键图像帧的后续图像帧中的至少一个关键主体的位置；以及，区域确定单元430，用于使用所述后续图像帧中的所述至少一个关键主体的位置确定所述后续图像帧中的目标区域位置。

在一个示例中，在上述视频数据处理装置400中，所述主体标定单元410用于：使用当前视频中的关键图像帧的主体检测结果、显著性检测结果和图像清晰度检测结果进行主体标定以获得所述关键图像帧中的至少一个关键主体的位置和目标区域位置。

在一个示例中，在上述视频数据处理装置400中，所述主体标定单元410用于：在使用当前视频中的关键图像帧的主体检测结果、显著性检测结果和图像清晰度检测结果进行主体标定以获得所述关键图像帧中的至少一个关键主体的位置和目标区域位置之前，通过目标检测确定所述关键图像帧中的至少一个候选主体的主体检测结果，所述主体检测结果包括所述候选主体的类别和与所述候选主体对应的检测框；通过显著性检测确定所述关键图像帧中的显著性检测结果，所述显著性检测结果表示所述关键图像帧中的位置为具有显著性的所述候选主体的概率值；以及，通过模糊检测确定所述关键图像帧的图像清晰度检测结果。

在一个示例中，在上述视频数据处理装置400中，所述主体标定单元410对当前视频中的关键图像帧进行主体标定以获得所述关键图像帧中的至少一个关键主体的位置包括：确定所述检测框的中心与所述关键图像帧的画面中心的欧氏距离；确定所述检测框的大小；以及，基于分别与所述主体检测结果、所述显著性检测结果、所述图像清晰度检测结果、所述每个检测框的欧氏距离和所述每个检测框的大小对应的学习器的输出值确定所述关键图像帧中的至少一个候选主体的标定分数。

在一个示例中，在上述视频数据处理装置400中，所述主体标定单元410用于确定所述关键图像帧中的至少一个候选主体的标定分数包括：基于所述关键图像帧的前一图像帧中的所述至少一个候选主体的主体检测结果预测所述关键图像帧中的所述至少一个候选主体的参考位置；计算所述至少一个候选主体的参考位置与当前位置之间的距离；以及，基于所述距离分别对所述学习器的所述输出值进行加权，并基于加权结果确定所述关键图像帧中的至少一个候选主体的标定分数。

在一个示例中，在上述视频数据处理装置400中，所述主体标定单元410用于获得所述关键图像帧中的目标区域位置包括：确定所述目标区域位置以使得所述目标区域包含有较大数目的具有相对高的标定分数的候选主体；和/或，确定所述目标区域位置以使得所述目标区域不划分特定类型的候选主体。

在一个示例中，在上述视频数据处理装置400中，所述主体标定单元410用于获得所述关键图像帧中的至少一个关键主体的位置包括：确定所述目标区域内包括的至少一个候选主体为所述至少一个关键主体，并确定其位置。

在一个示例中，在上述视频数据处理装置400中，所述区域确定单元430用于：确定所述后续图像帧中的当前帧中的所述至少一个关键主体的置信度阈值；基于所述置信度阈值确定是否所述至少一个关键主体在所述当前帧的前一帧的目标区域内和是否满足预设条件；以及，响应于所述多个关键主体在所述前一帧的目标区域内和满足预设条件使用最左侧关键主体和最右侧关键主体的中心点作为所述当前帧的裁剪区域中心。

在一个示例中，在上述视频数据处理装置400中，所述预设条件包括以下的至少其中之一：所述多个关键主体未丢失；所述多个关键主体的置信度阈值大于或等于预定阈值；或者，所述最左侧关键主体和所述最右侧关键主体之间的距离未超出所述裁剪区域的大小。

在一个示例中，在上述视频数据处理装置400中，进一步包括：关键帧确定单元，用于响应于不满足预设条件，将所述当前帧确定为所述当前视频的关键图像帧。

在一个示例中，在上述视频数据处理装置400中，进一步包括：视频裁剪单元，用于使用所述关键图像帧和所述后续图像帧中的目标区域位置裁剪所述当前视频。

在一个示例中，在上述视频数据处理装置400中，所述视频裁剪单元在基于所述关键图像帧和所述后续图像帧中的裁剪区域位置裁剪所述视频之前进一步用于对于所述关键图像帧和所述后续图像帧中的裁剪区域位置进行平滑处理。

在一个示例中，在上述视频数据处理装置400中，进一步包括：视频预处理单元，用于在对当前视频中的关键图像帧进行主体标定以获得所述关键图像帧中的至少一个关键主体的位置和目标区域位置之前，获取初始视频；对所述初始视频进行分镜边界检测将所述初始视频划分为多个视频片段；确定所述视频片段的画面尺寸；以及，基于所述画面尺寸对所述视频片段进行黑边检测与裁剪以获得所述当前视频。

在一个示例中，在上述视频数据处理装置400中，所述视频裁剪单元用于：检测所述当前视频中的字幕和特定标志；以及，修补裁剪后的视频以包含检测到的字幕和特定标志。

在一个示例中，在上述视频数据处理装置400中，所述视频裁剪单元用于：对裁剪后的视频进行画面增强，所述画面增强包括去噪声、去模糊、高动态范围成像和超分辨率中的至少一个。

这里，本领域技术人员可以理解，上述视频数据处理装置400中的各个单元和模块的具体功能和操作已经在上面参考图1到图4的视频数据处理方法的描述中得到了详细介绍，并因此，将省略其重复描述。

如上所述，根据本申请实施例的视频数据处理装置400可以实现在各种终端设备中，例如用户的智能手机或者用于视频处理的服务器等。在一个示例中，根据本申请实施例的视频数据处理装置400可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如，该视频数据处理装置400可以是该终端设备的操作系统中的一个软件模块，或者可以是针对于该终端设备所开发的一个应用程序；当然，视频数据处理装置400同样可以是该终端设备的众多硬件模块之一。

替换地，在另一示例中，该视频数据处理装置400与该终端设备也可以是分立的设备，并且该视频数据处理装置400可以通过有线和/或无线网络连接到该终端设备，并且按照约定的数据格式来传输交互信息。

示例性电子设备

下面，参考图9来描述根据本申请实施例的电子设备。

图9图示了根据本申请实施例的电子设备的框图。

如图9所示，电子设备10包括一个或多个处理器11和存储器12。

处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本申请的各个实施例的视频数据处理方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如关键图像帧、普通图像帧、关键主体位置、目标区域位置等各种内容。

在一个示例中，电子设备10还可以包括：输入装置13和输出装置14，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

该输入装置13可以包括例如键盘、鼠标等等。

该输出装置14可以向外部输出各种信息，包括视频中的主体的标定结果和跟踪结果等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图9中仅示出了该电子设备10中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备10还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的视频数据处理方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在第一用户计算设备上执行、部分地在第一用户设备上执行、作为一个独立的软件包执行、部分在第一用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的视频数据处理方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种视频数据处理方法，包括：

对当前视频中的关键图像帧进行主体标定以获得所述关键图像帧中的至少一个关键主体的位置和目标区域位置；

使用所述至少一个关键主体的位置和所述目标区域位置进行主体跟踪以获得所述关键图像帧的后续图像帧中的至少一个关键主体的位置；以及

使用所述后续图像帧中的所述至少一个关键主体的位置确定所述后续图像帧中的目标区域位置。

2.根据权利要求1所述的视频数据处理方法，其中，对当前视频中的关键图像帧进行主体标定以获得所述关键图像帧中的至少一个关键主体的位置和目标区域位置包括：

使用当前视频中的关键图像帧的主体检测结果、显著性检测结果和图像清晰度检测结果进行主体标定以获得所述关键图像帧中的至少一个关键主体的位置和目标区域位置。

3.根据权利要求2所述的视频数据处理方法，其中，使用当前视频中的关键图像帧的主体检测结果、显著性检测结果和图像清晰度检测结果进行主体标定以获得所述关键图像帧中的至少一个关键主体的位置和目标区域位置之前包括：

通过目标检测确定所述关键图像帧中的至少一个候选主体的主体检测结果，所述主体检测结果包括所述候选主体的类别和与所述候选主体对应的检测框；

通过显著性检测确定所述关键图像帧中的显著性检测结果，所述显著性检测结果表示所述关键图像帧中的位置为具有显著性的所述候选主体的概率值；以及

通过模糊检测确定所述关键图像帧的图像清晰度检测结果。

4.根据权利要求3所述的视频数据处理方法，其中，对当前视频中的关键图像帧进行主体标定以获得所述关键图像帧中的至少一个关键主体的位置包括：

确定所述检测框的中心与所述关键图像帧的画面中心的欧氏距离；

确定所述检测框的大小；以及

基于分别与所述主体检测结果、所述显著性检测结果、所述图像清晰度检测结果、所述每个检测框的欧氏距离和所述每个检测框的大小对应的学习器的输出值确定所述关键图像帧中的至少一个候选主体的标定分数。

5.根据权利要求4所述的视频数据处理方法，其中，确定所述关键图像帧中的至少一个候选主体的标定分数包括：

基于所述关键图像帧的前一图像帧中的所述至少一个候选主体的主体检测结果预测所述关键图像帧中的所述至少一个候选主体的参考位置；

计算所述至少一个候选主体的参考位置与当前位置之间的距离；以及

基于所述距离分别对所述学习器的所述输出值进行加权，并基于加权结果确定所述关键图像帧中的至少一个候选主体的标定分数。

6.根据权利要求4或者5所述的视频数据处理方法，其中，获得所述关键图像帧中的目标区域位置包括：

确定所述目标区域位置以使得所述目标区域包含有较大数目的具有相对高的标定分数的候选主体；和/或

确定所述目标区域位置以使得所述目标区域不划分特定类型的候选主体。

7.根据权利要求6所述的视频数据处理方法，其中，获得所述关键图像帧中的至少一个关键主体的位置包括：

确定所述目标区域内包括的至少一个候选主体为所述至少一个关键主体，并确定其位置。

8.根据权利要求1所述的视频数据处理方法，其中，基于所述后续图像帧中的至少一个关键主体的位置确定所述后续图像帧中的目标区域位置包括：

确定所述后续图像帧中的当前帧中的所述至少一个关键主体的置信度阈值；

基于所述置信度阈值确定是否所述至少一个关键主体在所述当前帧的前一帧的目标区域内和是否满足预设条件；以及

响应于所述多个关键主体在所述前一帧的目标区域内和满足预设条件使用最左侧关键主体和最右侧关键主体的中心点作为所述当前帧的裁剪区域中心。

9.根据权利要求8所述的视频数据处理方法，其中，所述预设条件包括以下的至少其中之一：

所述多个关键主体未丢失；

所述多个关键主体的置信度阈值大于或等于预定阈值；或者

所述最左侧关键主体和所述最右侧关键主体之间的距离未超出所述裁剪区域的大小。

10.根据权利要求8所述的视频数据处理方法，进一步包括：

响应于不满足预设条件，将所述当前帧确定为所述当前视频的关键图像帧。

11.根据权利要求1所述的视频数据处理方法，进一步包括：

使用所述关键图像帧和所述后续图像帧中的目标区域位置裁剪所述当前视频。

12.根据权利要求11所述的视频数据处理方法，其中，在使用所述关键图像帧和所述后续图像帧中的目标区域位置裁剪所述视频之前进一步包括：

对于所述关键图像帧和所述后续图像帧中的目标区域位置进行平滑处理。

13.根据权利要求1所述的视频数据处理方法，其中，在对当前视频中的关键图像帧进行主体标定以获得所述关键图像帧中的至少一个关键主体的位置和目标区域位置之前进一步包括：

获取初始视频；

对所述初始视频进行分镜边界检测将所述初始视频划分为多个视频片段；

确定所述视频片段的画面尺寸；以及

基于所述画面尺寸对所述视频片段进行黑边检测与裁剪以获得所述当前视频。

14.根据权利要求11所述的视频数据处理方法，其中，基于所述关键图像帧和所述后续图像帧中的目标区域位置裁剪所述当前视频包括：

检测所述当前视频中的字幕和特定标志；以及

修补裁剪后的视频以包含检测到的字幕和特定标志。

15.根据权利要求11所述的视频数据处理方法，其中，基于所述关键图像帧和所述后续图像帧中的目标区域位置裁剪所述当前视频包括：

对裁剪后的视频进行画面增强，所述画面增强包括去噪声、去模糊、高动态范围成像和超分辨率中的至少一个。

16.一种视频数据处理方法，包括：

获取使用摄像头采集的当前视频；

对所述当前视频中的关键图像帧进行主体标定以获得所述关键图像帧中的至少一个关键主体的位置和目标区域位置；

17.一种用于直播的视频数据处理方法，包括：

获取直播中的当前视频；

18.一种视频数据处理装置，包括：

主体标定单元，用于对当前视频中的关键图像帧进行主体标定以获得所述关键图像帧中的至少一个关键主体的位置和目标区域位置；

主体追踪单元，用于使用所述至少一个关键主体的位置和所述目标区域位置进行主体跟踪以获得所述关键图像帧的后续图像帧中的至少一个关键主体的位置；以及

区域确定单元，用于使用所述后续图像帧中的所述至少一个关键主体的位置确定所述后续图像帧中的目标区域位置。

19.一种电子设备，包括：

处理器；以及

存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求1-15中任一项所述的视频数据处理方法，如权利要求16所述的视频数据处理方法和如权利要求17所述的用于直播的视频数据处理方法。