CN111881755B

CN111881755B - 一种视频帧序列的裁剪方法及装置

Info

Publication number: CN111881755B
Application number: CN202010599680.9A
Authority: CN
Inventors: 贺思颖; 张亚彬
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-06-28
Filing date: 2020-06-28
Publication date: 2022-08-23
Anticipated expiration: 2040-06-28
Also published as: CN111881755A

Abstract

本申请实施例提供了一种视频帧序列的裁剪方法及装置，涉及人工智能技术领域，该方法包括：从目标视频中获得视频帧序列，然后根据目标对象在视频帧序列的各个视频帧中的位置，以目标对象被裁剪框裁剪后满足设定条件为基准，确定裁剪框在视频帧序列的每个视频帧中的位置。之后再基于裁剪框在视频帧序列的每个视频帧中的位置，对视频帧序列的每个视频帧进行裁剪，获得多帧裁剪后的目标图像组成的图像序列。最后将设定条件对应的分类标签确定为图像序列的分类标签。采用裁剪框自动从视频帧序列中裁剪出图像序列并获得图像序列的标签，而不需要采用人工方式目标视频并标注，从而提高了获取视频数据以及标注视频数据的效率，同时减少了人力成本。

Description

一种视频帧序列的裁剪方法及装置

技术领域

本申请实施例涉及人工智能技术领域，尤其涉及一种视频帧序列的裁剪方法及装置。

背景技术

基于视频的场景理解是当前深度学习的方向之一，常见的具体任务包括场景分类、动作识别、动作检测等。基于视频的场景理解通常需要大量视频数据作为训练样本，同时依赖于精准的视频标签。目前，通过人工筛选出视频数据，然后通过人工标注的方式得到视频数据的标签，这种方式费时费力。例如，当需要获得目标对象位于视频画面边界的视频数据时，需要通过人工的方式对海量数据进行遍历，找到该场景的视频，然后对该视频进一步人工分类，之后再进行人工标注，该方法效率较低且人力成本较高。

发明内容

本申请实施例提供了一种视频帧序列的裁剪方法及装置，用以自动裁剪出满足预设条件的图像序列，并获得图像序列的标签。

一方面，本申请实施例提供了一种视频帧序列的裁剪方法，该方法包括：

从目标视频中获得视频帧序列，所述视频帧序列的每个视频帧包括目标对象；

根据所述目标对象在所述视频帧序列的各个视频帧中的位置，以所述目标对象被裁剪框裁剪后满足设定条件为基准，确定所述裁剪框在所述视频帧序列的每个视频帧中的位置；

基于所述裁剪框在所述视频帧序列的每个视频帧中的位置，对所述视频帧序列的每个视频帧进行裁剪，获得多帧裁剪后的目标图像组成的图像序列；

将所述设定条件对应的分类标签确定为所述图像序列的分类标签，所述分类标签用于标注所述目标对象在目标图像中满足的所述设定条件。

一方面，本申请实施例提供了一种检测人脸图像的方法，包括：

采用人脸识别模型对视频帧进行检测，确定视频帧中的人脸图像，所述人脸识别模型是采用上述视频帧序列的裁剪方法获取的图像序列训练获得的。

一方面，本申请实施例提供了一种视频帧序列的裁剪装置，该装置包括：

获取模块，用于从目标视频中获得视频帧序列，所述视频帧序列的每个视频帧包括目标对象；

定位模块，用于根据所述目标对象在所述视频帧序列的各个视频帧中的位置，以所述目标对象被裁剪框裁剪后满足设定条件为基准，确定所述裁剪框在所述视频帧序列的每个视频帧中的位置；

裁剪模块，用于基于所述裁剪框在所述视频帧序列的每个视频帧中的位置，对所述视频帧序列的每个视频帧进行裁剪，获得多帧裁剪后的目标图像组成的图像序列；

标注模块，用于将所述设定条件对应的分类标签确定为所述图像序列的分类标签，所述分类标签用于标注所述目标对象在目标图像中满足的所述设定条件。

可选地，所述获取模块具体用于：

对目标视频中各个视频帧进行目标对象检测，确定每个视频帧中的目标位置框和目标位置框的分类权值；

从所述目标视频中获取所述目标位置框的分类权值大于预设阈值的视频帧序列，所述目标位置框用于表征所述目标对象。

可选地，所述定位模块具体用于：

根据所述视频帧序列的各个视频帧中的目标位置框，确定参考位置框；

根据所述参考位置框，以所述目标对象被裁剪框裁剪后满足所述裁剪框内包括所述目标对象的部分图像信息为基准，确定所述裁剪框在所述视频帧序列的每个视频帧中的位置。

可选地，所述定位模块具体用于：

将所述视频帧序列的各个视频帧中的目标位置框中，处于中间位置的目标位置框作为参考位置框。

可选地，所述定位模块具体用于：

根据所述视频帧序列的各个视频帧中的目标位置框中，处于边缘位置的两个目标位置框确定参考位置框。

可选地，所述定位模块具体用于：

根据所述视频帧序列中任一个视频帧中的目标位置框，以所述目标对象被裁剪框裁剪后满足所述裁剪框内包括所述目标对象的部分图像信息为基准，确定所述裁剪框在所述任一个视频帧中的位置。

可选地，还包括筛选模块；

所述筛选模块具体用于：

根据所述目标对象在所述视频帧序列的各个视频帧中的位置，以所述目标对象被裁剪框裁剪后满足设定条件为基准，确定所述裁剪框在所述视频帧序列的每个视频帧中的位置之前，根据所述视频帧序列的各个视频帧中的目标位置框，确定所述视频帧序列的稳定标签以及所述视频帧序列的尺寸标签；

根据所述视频帧序列的各个视频帧中的目标位置框以及目标位置框的分类权值，确定所述视频帧序列的偏离标签；

根据所述视频帧序列中视频帧的数量，确定所述视频帧序列的帧数标签；

确定所述稳定标签、所述尺寸标签、所述偏离标签以及所述帧数标签满足预设条件。

可选地，所述筛选模块具体用于：

当所述视频帧序列的各个视频帧中的目标位置框于预设范围内，则确定所述视频帧序列的稳定标签为视频画面稳定，否则确定所述视频帧序列的稳定标签为视频画面不稳定；

针对所述视频帧序列的每个视频帧，确定每个视频帧中的目标位置框占每个视频帧的比例；

将所述比例大于第一阈值的视频帧确定为待筛选视频帧；

当待筛选视频帧的数量大于第二阈值时，确定所述视频帧序列的尺寸标签为目标对象的尺寸满足裁剪要求，否则确定所述视频帧序列的尺寸标签为目标对象的尺寸不满足裁剪要求。

可选地，所述筛选模块具体用于：

从所述视频帧序列的各个视频帧中的目标位置框中，选取分类权值最大的目标位置框作为基准位置框；

确定所述基准位置框与其他每个视频帧中的目标位置框之间的交并比；

将所述其他视频帧中的目标位置框中，对应的交并比小于第三阈值的目标位置框确定为偏离位置框；

当偏离位置框的数量大于第四阈值时，确定所述视频帧序列的偏离标签为目标对象偏离，否则确定所述视频帧序列的偏离标签为目标对象不偏离。

可选地，所述筛选模块具体用于：

当所述视频帧序列中视频帧的数量大于第五阈值时，确定所述视频帧序列的帧数标签为视频帧数量不满足裁剪要求，否则确定所述视频帧序列的帧数标签为视频帧数量满足裁剪要求。

一方面，本申请实施例提供了一种检测人脸图像的装置，包括：

检测模块，用于采用人脸识别模型对视频帧进行检测，确定视频帧中的人脸图像，所述人脸识别模型是采用上述视频帧序列的裁剪方法获取的图像序列训练获得的。

一方面，本申请实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述视频帧序列的裁剪方法的步骤，或者上述检测人脸图像的方法的步骤。

一方面，本申请实施例提供了一种计算机可读存储介质，其存储有可由计算机设备执行的计算机程序，当所述程序在计算机设备上运行时，使得所述计算机设备执行上述视频帧序列的裁剪方法的步骤，或者上述检测人脸图像的方法的步骤。

本申请实施例中，基于目标对象在视频帧中的位置设置裁剪框，然后采用裁剪框自动从视频帧中裁剪出目标图像，之后再基于裁剪框裁剪的位置可以自动获得多帧裁剪后的目标图像组成的图像序列的标签，而不需要采用人工的方式对海量视频进行遍历，获得目标视频，也不需要人工对目标视频进行标注确定标签，从而提高了获取视频数据以及标注视频数据的效率，同时减少了人力成本。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种直播界面的示意图；

图2为本申请实施例提供的一种直播界面的示意图；

图3为本申请实施例提供的一种在线辅导应用的监督画面的示意图；

图4为本申请实施例提供的一种在线辅导应用的监督画面的示意图；

图5为本申请实施例提供的一种系统架构的示意图；

图6为本申请实施例提供的一种视频帧序列的裁剪方法的流程示意图；

图7为本申请实施例提供的一种裁剪框的示意图；

图8为本申请实施例提供的一种裁剪框的示意图；

图9为本申请实施例提供的一种筛选视频帧序列的方法的流程示意图；

图10为本申请实施例提供的一种目标位置框的示意图；

图11为本申请实施例提供的一种确定稳定标签的方法的示意图；

图12为本申请实施例提供的一种确定稳定标签的方法的示意图；

图13为本申请实施例提供的一种确定参考位置框的方法的示意图；

图14为本申请实施例提供的一种裁剪框的示意图；

图15为本申请实施例提供的一种裁剪框的示意图；

图16为本申请实施例提供的一种裁剪框的示意图；

图17为本申请实施例提供的一种裁剪框的示意图；

图18为本申请实施例提供的一种裁剪框的示意图；

图19为本申请实施例提供的一种裁剪框的示意图；

图20为本申请实施例提供的一种视频帧序列的裁剪方法的流程示意图；

图21为本申请实施例提供的一种视频帧序列的裁剪装置的结构示意图；

图22为本申请实施例提供的一种检测人脸图像的装置的结构示意图；

图23为本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了方便理解，下面对本发明实施例中涉及的名词进行解释。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。比如，本申请实施例中采用计算机视觉技术识别位于视频画面中的人脸图像，其中，人脸图像可以是整张脸的人脸图像，也可以是部分人脸的人脸图像。

下面对本申请实施例的设计思想进行介绍。

在直播或视频通话等场景，若目标对象长时间处于视频画面的边界，目标对象只有部分图像位于视频画面内时，将影响直播观看者或视频通话参与者的视频感官体验。比如，当主播长时间只有部分人脸位于直播画面内时，将影响粉丝的观看体验。在训练用于识别视频画面中部分人脸的模型时，需要足够多的视频数据作为训练样本，同时依赖于精准的视频标签。目前主要采用人工的方式对海量视频进行遍历，找到视频画面中包括部分人脸的视频，然后人工标注，该方法效率较低且人力成本较高。

考虑到针对同一视频片段，可以采用不同的裁剪方式获得不同的训练样本，并且不同的裁剪位置可以对应不同的标签。比如当需要包括部分人脸的视频数据作为训练样本时，可以设置裁剪框从各视频帧中裁剪出包括部分人脸的图像，裁剪出的图像序列的标签为部分人脸。当需要包括整张人脸的视频数据作为训练样本时，可以设置裁剪框从各视频帧中裁剪出包括整张人脸的图像，裁剪出的图像序列的标签为整张人脸。鉴于此，本申请实施例中提出一种视频帧序列的裁剪方法，该方法包括：从目标视频中获得视频帧序列，视频帧序列的每个视频帧包括目标对象。然后根据目标对象在视频帧序列的各个视频帧中的位置，以目标对象被裁剪框裁剪后满足设定条件为基准，确定裁剪框在视频帧序列的每个视频帧中的位置。之后再基于裁剪框在视频帧序列的每个视频帧中的位置，对视频帧序列的每个视频帧进行裁剪，获得多帧裁剪后的目标图像组成的图像序列。最后将设定条件对应的分类标签确定为图像序列的分类标签，分类标签用于标注目标对象在目标图像中满足的设定条件。

在介绍完本申请实施例的设计思想之后，下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍，需要说明的是，以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施时，可以根据实际需要灵活地应用本申请实施例提供的技术方案。

场景一、在直播场景中，首先获取包括同一人脸的多个视频帧，根据视频帧中人脸的位置，在每个视频帧中设置裁剪框，其中，裁剪框内包括部分人脸。然后通过裁剪框裁剪出多帧目标图像，根据裁剪框的位置确定由多帧目标图像组成的图像序列的标签。采用获得的图像序列训练人脸识别模型，训练结束之后采用人脸识别模型对直播画面中的主播进行人脸识别。当识别出主播只有部分人脸位于直播画面时，具体如图1所示，提醒主播移动或调整摄像头等，以使主播的脸全部位于视频画面中，具体如图2所示。

场景二、在在线辅导的监督场景中，首先获取包括同一人脸的多个视频帧，根据视频帧中人脸的位置，在每个视频帧中设置两种裁剪框，第一种裁剪框内包括整张人脸，第二种裁剪框内包括部分人脸。通过第一种裁剪框裁剪出多帧第一目标图像，根据第一种裁剪框的位置确定由多帧第一目标图像组成的第一图像序列的标签。通过第二种裁剪框裁剪出多帧第二目标图像，根据第二种裁剪框的位置确定由多帧第二目标图像组成的第二图像序列的标签。之后再采用获得的第一图像序列和第二图像序列训练人脸识别模型。在线辅导应用在监督学生是否在上课时，采用人脸识别模型对监督画面进行人脸识别，当人脸识别模型识别出监督画面中包括整张人脸时，判定学生正在上课，具体如图3所示。当人脸识别模型识别出监督画面中包括部分人脸，也判定学生正在上课，具体如图4所示。当人脸识别模型在监督画面中没有识别出部分人脸或整张人脸时，判定学生没有上课。

参考图5，其为本申请实施例适用的一种系统架构图，该系统架构至少包括终端501、第一服务器502、第二服务器503。

终端501预先安装视频应用程序，比如直播应用程序、在线辅导应用程序等。当用户使用视频应用程序时，终端501开启摄像头拍摄视频，并将拍摄的视频发送至第一服务器502，第一服务器502为视频应用程序对应的后台服务器，为视频应用程序提供相应的服务，同时保存终端501上传的视频。终端501可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。第一服务器502可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端501与第一服务器502可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

第二服务器503从第一服务器502中拉取一段时间的视频数据，对拉取的视频数据进行目标对象检测，确定包括目标对象的视频帧序列。然后根据目标对象在视频帧序列的各个视频帧中的位置，以目标对象被裁剪框裁剪后满足设定条件为基准，确定裁剪框在视频帧序列的每个视频帧中的位置。之后再基于裁剪框在视频帧序列的每个视频帧中的位置，对视频帧序列的每个视频帧进行裁剪，获得多帧裁剪后的目标图像组成的图像序列。最后将设定条件对应的分类标签确定为图像序列的分类标签，分类标签用于标注目标对象在目标图像中满足的设定条件。第二服务器503可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。第一服务器502与第二服务器503可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

基于图5所示的系统架构图，本申请实施例提供了一种视频帧序列的裁剪方法的流程，如图6所示，该方法的流程由视频帧序列的裁剪装置执行，该装置可以是图5所示的第二服务器503，包括以下步骤：

步骤S601，从目标视频中获得视频帧序列。

具体地，视频帧序列的每个视频帧包括目标对象。视频帧可以是直播视频的视频帧、监控视频的视频帧、影视视频的视频帧、游戏视频的视频帧等。目标对象可以是人脸、动物、植物、生活用品等，对此，本申请不做具体限定。多个视频帧中包括同一目标对象，目标对象在各个视频帧中的位置可以相同，也可以不相同。

步骤S602，根据目标对象在视频帧序列的各个视频帧中的位置，以目标对象被裁剪框裁剪后满足设定条件为基准，确定裁剪框在视频帧序列的每个视频帧中的位置。

具体实施中，根据对目标对象的不同裁剪需求，可以设置不同的裁剪框，比如当需要目标对象的全部图像信息时，可以以目标对象被裁剪框裁剪后满足裁剪框内包括目标对象的全部图像信息为基准，确定裁剪框在视频帧序列的每个视频帧中的位置。又比如，当需要目标对象的部分图像信息时，可以以目标对象被裁剪框裁剪后满足裁剪框内包括目标对象的部分图像信息为基准，确定裁剪框在视频帧序列的每个视频帧中的位置。

示例性地，设定目标对象为人脸，当需要获得包括整张人脸的图像时，可以以裁剪框内包括整张人脸为基准，确定裁剪框在视频帧中的位置，具体如图7所示701。当需要获得包括半张人脸的图像时，可以以裁剪框内包括半张人脸为基准，确定裁剪框在视频帧中的位置，具体如图8所示801。

步骤S603，基于裁剪框在视频帧序列的每个视频帧中的位置，对视频帧序列的每个视频帧进行裁剪，获得多帧裁剪后的目标图像组成的图像序列。

步骤S604，将设定条件对应的分类标签确定为图像序列的分类标签。

具体地，分类标签用于标注目标对象在目标图像中满足的设定条件。由于以目标对象被裁剪框裁剪后满足设定条件为基准确定裁剪框的位置，故不同的设定条件，对应的裁剪框的位置不同，裁剪出的图像序列的分类标签也不同。

比如，若设定条件的分类标签为“半张人脸”，即以目标人脸被裁剪框裁剪后满足裁剪框内包括半张人脸为基准确定裁剪框的位置，则裁剪出的图像序列的分类标签为“半张人脸”。又比如，若设定条件的分类标签为“整张人脸”，即以目标人脸被裁剪框裁剪后满足裁剪框内包括整张人脸为基准确定裁剪框的位置，则裁剪出的图像序列的分类标签为“整张人脸”。又比如，若设定条件的分类标签为“左半张人脸”，即以目标人脸被裁剪框裁剪后满足裁剪框内包括左半张人脸为基准确定裁剪框的位置，则裁剪出的图像序列的分类标签为“左半张人脸”。

可选地，在上述步骤S601中，由于获取的视频数据中可能部分视频帧不包括目标对象，故裁剪获得的图像序列中部分目标图像也不包括目标对象，此时以图像序列作为训练样本时将影响神经网络的训练。鉴于此，本申请实施例中，对目标视频中各个视频帧进行目标对象检测，确定每个视频帧中的目标位置框和目标位置框的分类权值，然后从目标视频中获取目标位置框的分类权值大于预设阈值的视频帧序列，其中，目标位置框用于表征目标对象。

具体实施中，可以采用神经网络模型识别视频帧中的目标对象，获得每个视频帧中的目标位置框和目标位置框的分类权值，其中，获得的各个目标位置框的大小可以是相同的，也可以是不相同的。目标位置框的分类权值越大，说明待识别视频帧中的目标位置框内越有可能是目标对象。示例性地，设定目标对象为人脸A，采用神经网络模型识别视频帧1、视频帧2、视频帧3中是否包括人脸A，获得每个视频帧中人脸A对应的目标位置框以及目标位置框的分类权值，若视频帧1中目标位置框的分类权值小于预设阈值0.5，视频帧2和视频帧3中目标位置框的分类权值大于预设阈值0.5，则将视频帧2和视频帧3作为包括目标对象的视频帧。

通过从获取的目标视频中筛选出包括目标对象的视频帧序列，然后对包括视频对象的视频帧序列进行裁剪获得图像序列，故以图像序列作为训练样本训练神经网络时，可以降低坏样本的数量，提升训练效果。

可选地，由于获取目标视频的渠道多样化，拍摄者的水平也参差不齐，故从目标视频中获取的部分视频帧序列的质量可能较差，比如直播视频帧序列中出现人脸较大程度的远近交替、剧烈晃动，导致视频画面的稳定性较差。又比如，目标视频经过人为剪辑，导致同一人脸在相邻两帧的位置偏离较大，前一帧人脸可能位于视频帧左上角，后一帧人脸则位于视频帧右下角。又比如，视频帧序列中出现多个视频帧中的目标对象的尺寸过大或过小，导致不便于裁剪。再比如，包括同一目标对象的视频帧过多，在视频帧总数一定的情况下，裁剪出的图像序列单一。为了提高裁剪获得的图像序列的质量，本申请在根据目标对象在视频帧序列的各个视频帧中的位置，以目标对象被裁剪框裁剪后满足设定条件为基准，确定裁剪框在视频帧序列的每个视频帧中的位置之前，对视频帧序列进行了筛选，具体包括以下步骤，如图9所示：

步骤S901，根据视频帧序列的各个视频帧中的目标位置框，确定视频帧序列的稳定标签以及视频帧序列的尺寸标签。

具体地，如图10所示，目标位置框1001在视频帧中的位置可以用目标位置框的中心点坐标表示，比如图10所示的坐标(x₀，y₀)。也可以用目标位置框的左上角坐标表示，比如图10所示的坐标(x₁，y₁)。还可以用目标位置框的上边界的中心点坐标表示，比如图10所示的坐标(x₂，y₂)。需要说明的是，目标位置框在视频帧中的位置还可以用目标位置框的其他坐标表示，对此，本申请不做具体限定。

在确定视频帧序列的稳定标签时，本申请实施例至少提供以下两种实施方式：

实施方式一、当视频帧序列的各个视频帧中的目标位置框于预设范围内，则确定视频帧序列的稳定标签为视频画面稳定，否则确定视频帧序列的稳定标签为视频画面不稳定。

示例性地，如图11所示，设定视频帧序列中包括3个视频帧，分别为视频帧1、视频帧2、视频帧3，每个视频中包括一个目标位置框，分别为目标位置框10、目标位置框20、目标位置框30，目标位置框在视频帧中的位置采用目标位置框的中心点坐标表示，获得目标位置框10的坐标为A(x_A0，y_A0)，目标位置框20的坐标为B(x_B0，y_B0)，目标位置框30的坐标为C(x_C0，y_C0)。若以水平方向为基准确定的处于中间位置的目标位置框为目标位置框20，则以目标位置框20作为预设范围，判断目标位置框10的中心点坐标A、目标位置框30的中心点坐标C是否位于目标位置框20内，由图11可知，中心点坐标A、中心点坐标C均位于目标位置框20内，则确定视频帧序列的稳定标签为视频画面稳定。需要说明的是，预设范围并不仅仅是目标位置框20，也可以是以其他方向为基准确定的处于中间位置的目标位置框，还可以是任意一个视频帧中的目标位置框，对此，本申请不做具体限定。

实施方式二、当视频帧序列中，任意相邻的两个视频帧中的目标位置框的距离小于预设阈值时，则确定视频帧序列的稳定标签为视频画面稳定，否则确定视频帧序列的稳定标签为视频画面不稳定。

示例性地，如图12所示，设定视频帧序列中包括3个视频帧，分别为视频帧1、视频帧2、视频帧3，每个视频中包括一个目标位置框，分别为目标位置框10、目标位置框20、目标位置框30，目标位置框在视频帧中的位置采用目标位置框的中心点坐标表示，获得目标位置框10的坐标为A(x_A0，y_A0)，目标位置框20的坐标为B(x_B0，y_B0)，目标位置框30的坐标为C(x_C0，y_C0)。通过计算坐标A(x_A0，y_A0)与坐标B(x_B0，y_B0)之间的距离，获得目标位置框10与目标位置框20之间的距离L_AB。通过计算坐标B(x_B0，y_B0)与坐标B(x_C0，y_C0)之间的距离，获得目标位置框20与目标位置框30之间的距离L_BC。若L_AB和L_BC都小于预设阈值时，则确定视频帧序列的稳定标签为视频画面稳定，否则确定视频帧序列的稳定标签为视频画面不稳定。

本申请实施例中，根据各视频帧中的目标位置框之间的位置变化，确定视频帧序列的稳定性标签，便于后续根据稳定性标签从各个视频帧序列中选取稳定性满足预设条件的视频帧序列，进而提高后续裁剪获得图像序列的质量。

在确定视频帧序列的尺寸标签时，本申请实施例至少提供以下三种实施方式：

实施方式一、针对视频帧序列的每个视频帧，确定每个视频帧中的目标位置框占每个视频帧的比例，将比例大于第一阈值的视频帧确定为待筛选视频帧。当待筛选视频帧的数量大于第二阈值时，确定视频帧序列的尺寸标签为目标对象的尺寸满足裁剪要求，否则确定视频帧序列的尺寸标签为目标对象的尺寸不满足裁剪要求。

具体实施中，将目标位置框的面积与视频帧的面积的比值，确定为目标位置框占视频帧的比例，当目标位置框占视频帧的比例大于第一阈值时，说明视频帧中目标对象的尺寸过大，将影响后续确定裁剪框位置。当目标对象尺寸过大的视频帧很多时，将导致裁剪获得的图像序列的质量较差，故将视频帧序列的尺寸标签确定为目标对象的尺寸不满足裁剪要求。

实施方式二、针对视频帧序列的每个视频帧，确定每个视频帧中的目标位置框占每个视频帧的比例，将比例小于预设阈值的视频帧确定为待筛选视频帧。当待筛选视频帧的数量大于第二阈值时，确定视频帧序列的尺寸标签为目标对象的尺寸满足裁剪要求，否则确定视频帧序列的尺寸标签为目标对象的尺寸不满足裁剪要求。

具体实施中，当目标位置框占视频帧的比例小于预设阈值时，说明视频帧中目标对象的尺寸过小，将影响后续确定裁剪框位置，当目标对象尺寸过小的视频帧很多时，将导致裁剪获得的图像序列的质量较差，故将视频帧序列的尺寸标签确定为目标对象的尺寸不满足裁剪要求。

实施方式三、针对视频帧序列的每个视频帧，确定每个视频帧中的目标位置框占每个视频帧的比例，将比例不位于预设范围内的视频帧确定为待筛选视频帧。当待筛选视频帧的数量大于第二阈值时，确定视频帧序列的尺寸标签为目标对象的尺寸满足裁剪要求，否则确定视频帧序列的尺寸标签为目标对象的尺寸不满足裁剪要求。

具体实施中，当目标位置框占视频帧的比例不位于预设范围内时，说明视频帧中目标对象的尺寸过大或过小，将影响后续确定裁剪框位置，当目标对象尺寸过大或过小的视频帧很多时，将导致裁剪获得的图像序列的质量较差，故将视频帧序列的尺寸标签确定为目标对象的尺寸不满足裁剪要求。

本申请实施例中，根据目标位置框占视频帧的比例，确定尺寸不符合要求的目标对象，然后根据视频帧序列中包括尺寸不符合要求的视频帧的数量确定视频帧序列的尺寸标签，便于后续根据尺寸性标签从各个视频帧序列中选取尺寸满足裁剪需求的视频帧序列，进而提高后续裁剪获得图像序列的质量。

步骤S902，根据视频帧序列的各个视频帧中的目标位置框以及目标位置框的分类权值，确定视频帧序列的偏离标签。

在确定视频帧序列的偏离标签时，本申请实施例至少提供以下两种实施方式：

实施方式一、从视频帧序列的各个视频帧中的目标位置框中，选取分类权值最大的目标位置框作为基准位置框。确定基准位置框与其他每个视频帧中的目标位置框之间的交并比，将其他视频帧中的目标位置框中，对应的交并比小于第三阈值的目标位置框确定为偏离位置框。当偏离位置框的数量大于第四阈值时，确定视频帧序列的偏离标签为目标对象偏离，否则确定视频帧序列的偏离标签为目标对象不偏离。

具体实施中，交并比表示交集与并集的比值，当基准位置框与目标位置框完全重叠时，基准位置框与目标位置框之间的交并比为1，当基准位置框与目标位置框没有重叠时，基准位置框与目标位置框之间的交并比为0。基准位置框与目标位置框之间的交并比越大，说明目标位置框偏离基准位置框的距离越小，基准位置框与目标位置框之间的交并比越小，说明目标位置框偏离基准位置框的距离越大。当交并比小于预设阈值的目标位置框的数量很多时，说明视频帧序列的存在目标对象偏离的视频帧很多，将影响视频帧的裁剪，故将视频帧序列的偏离标签确定为目标对象偏离。

示例性地，设定视频帧序列中包括3个视频帧，分别为视频帧1、视频帧2、视频帧3，每个视频中包括一个目标位置框，分别为目标位置框10、目标位置框20、目标位置框30。设定目标位置框10的分类权重最大，则将目标位置框10作为基准位置框，然后分别计算目标位置框10与目标位置框20之间的交并比I_AB，以及计算目标位置框10与目标位置框30之间的交并比I_AC。若交并比I_AB和交并比均I_AC均大于第三阈值，说明视频帧序列中不包含偏离位置框，则确定视频帧序列的偏离标签为目标对象不偏离。

实施方式二、确定视频帧序列中，任意相邻的两个视频帧中的目标位置框之间交并比，当小于第三阈值的交并比的数量大于第四阈值时，则确定视频帧序列的偏离标签为目标对象偏离，否则确定视频帧序列的偏离标签为目标对象不偏离。

示例性地，设定视频帧序列中包括3个视频帧，分别为视频帧1、视频帧2、视频帧3，每个视频中包括一个目标位置框，分别为目标位置框10、目标位置框20、目标位置框30。计算目标位置框10与目标位置框20之间的交并比I_AB，以及计算目标位置框20与目标位置框30之间的交并比I_BC。若交并比I_AB和交并比均I_BC均大于第三阈值，则确定视频帧序列的偏离标签为目标对象不偏离。

本申请实施例中，根据各视频帧的目标位置框之间的交并比来判断视频帧中的目标对象是否偏离，然后根据视频帧序列中目标对象偏离的视频帧的数量确定视频帧序列的偏离标签，便于后续根据偏离性标签从各个视频帧序列中选取目标对象不偏离的视频帧序列，进而提高后续裁剪获得图像序列的质量。

步骤S903，根据视频帧序列中视频帧的数量，确定视频帧序列的帧数标签。

可选地，当视频帧序列中视频帧的数量大于第五阈值时，确定视频帧序列的帧数标签为视频帧数量不满足裁剪要求，否则确定视频帧序列的帧数标签为视频帧数量满足裁剪要求。由于有些视频场景比较单一，比如小区门口摄像头拍摄的视频中，保安可能长时间没有移动，导致视频中多个视频帧是相同的，此时，通过少量的视频帧即可获得视频中的特征，故可以限制视频帧序列中视频帧的数量，从而在相同总帧数据的情况下，增加视频数据的多样性。

步骤S904，确定稳定标签、尺寸标签、偏离标签以及帧数标签满足预设条件。

具体实施中，可以根据实际需求设置稳定标签、尺寸标签、偏离标签以及帧数标签满足的预设条件。比如，当稳定标签为视频画面稳定，尺寸标签为目标对象的尺寸满足裁剪要求，偏离标签为目标对象不偏离，帧数标签为视频帧数量满足裁剪要求时，根据目标对象在视频帧序列的各个视频帧中的位置，以目标对象被裁剪框裁剪后满足设定条件为基准，确定裁剪框在视频帧序列的每个视频帧中的位置。又比如，当稳定标签为视频画面稳定，尺寸标签为目标对象的尺寸满足裁剪要求，偏离标签为目标对象不偏离，帧数标签为视频帧数量不满足裁剪要求时，根据目标对象在视频帧序列的各个视频帧中的位置，以目标对象被裁剪框裁剪后满足设定条件为基准，确定裁剪框在视频帧序列的每个视频帧中的位置。需要说明的是，稳定标签、尺寸标签、偏离标签以及帧数标签满足的预设条件并不仅限于上述两种，还可以是其他的预设条件，对此，本申请不做具体限定。

由于对视频帧进行裁剪之前，先根据视频帧序列的稳定标签、尺寸标签、偏离标签以及帧数标签对视频帧序列进行了筛选，获得稳定性、偏离度、目标对象尺寸、视频帧数量满足预设条件的视频帧序列，从而提高裁剪获得图像序列的质量，进而提高深度学习训练的训练效果。

可选地，在上述步骤S602中，根据目标对象在视频帧序列的各个视频帧中的位置，以目标对象被裁剪框裁剪后满足设定条件为基准，确定裁剪框在视频帧序列的每个视频帧中的位置，本申请实施例至少提供以下两种实施方式：

一种可能的实施方式，根据视频帧序列的各个视频帧中的目标位置框，确定参考位置框。然后根据参考位置框，以目标对象被裁剪框裁剪后满足裁剪框内包括目标对象的部分图像信息为基准，确定裁剪框在视频帧序列的每个视频帧中的位置。

具体地，采用稳定标签、尺寸标签、偏离标签以及帧数标签筛选获得的视频帧序列中，各个视频帧的目标对象在位置上变化不大，为了提高裁剪的效率，同时提高裁剪后的目标图像的连续性，本申请实施例中考虑采用同一位置的裁剪框对每个视频帧进行裁剪，其中，裁剪框的位置是根据参考位置框确定的，裁剪框内包括目标对象的部分图像信息。

下面介绍根据视频帧序列的各个视频帧中的目标位置框，确定参考位置框的几种方法：

方法一、将视频帧序列的各个视频帧中的目标位置框中，处于中间位置的目标位置框作为参考位置框。

具体实施中，将各个视频帧中的目标位置框置于同一坐标系下，可以以水平方向为基准，确定处于中间位置的目标位置框，也可以以垂直方向为基准，确定处于中间位置的目标位置框，还可以以其他方向为基准，处于中间位置的目标位置框，对此，本申请不做具体限定，然后将处于中间位置的目标位置框作为参考位置框。

示例性地，如图13所示，设定视频帧序列中包括3个视频帧，分别为视频帧1、视频帧2、视频帧3，每个视频中包括一个目标位置框，分别为目标位置框10、目标位置框20、目标位置框30，目标位置框在视频帧中的位置采用目标位置框的中心点坐标表示，获得目标位置框10的坐标为A(x_A0，y_A0)，目标位置框20的坐标为B(x_B0，y_B0)，目标位置框30的坐标为C(x_C0，y_C0)。

当以水平方向为基准确定参考位置框时，由图13可知，处于中间位置的目标位置框为目标位置框20，则将目标位置框20作为参考位置框。

当以垂直方向为基准确定参考位置框时，由图13可知，处于中间位置的目标位置框为目标位置框10，则将目标位置框10作为参考位置框。

方法二、根据视频帧序列的各个视频帧中的目标位置框中，处于边缘位置的两个目标位置框确定参考位置框。

具体地，将各个视频帧中的目标位置框置于同一坐标系下，可以以水平方向为基准，确定处于边缘位置的两个目标位置框；也可以以垂直方向为基准，确定处于边缘位置的两个目标位置框，还可以以其他方向为基准，处于边缘位置的两个目标位置框，对此，本申请不做具体限定，然后根据处于边缘位置的两个目标位置框的位置坐标的平均值，确定参考位置框的位置坐标。

示例性地，如图13所示，设定视频帧序列中包括3个视频帧，分别为视频帧1、视频帧2、视频帧3，每个视频中包括一个目标位置框，分别为目标位置框10、目标位置框20、目标位置框30，三个目标位置框的长和宽均相同。目标位置框在视频帧中的位置采用目标位置框的中心点坐标表示，获得目标位置框10的坐标为A(x_A0，y_A0)，目标位置框20的坐标为B(x_B0，y_B0)，目标位置框30的坐标为C(x_C0，y_C0)。

当以水平方向为基准确定参考位置框时，由图13可知，处于边缘位置的两个目标位置框为目标位置框10和目标位置框30，则计算目标位置框10和目标位置框30的位置坐标的平均值，获得平均位置坐标M

则以平均位置坐标M

为中心点坐标确定参考位置框，其中参考位置框的长和宽与目标位置框10、目标位置框20、目标位置框30的长和宽相同。

当以垂直方向为基准确定参考位置框时，由图13可知，处于边缘位置的两个目标位置框为目标位置框20和目标位置框30，则计算目标位置框20和目标位置框30的位置坐标的平均值，获得平均位置坐标N

则以平均位置坐标N

方法三、从视频帧序列的各个视频帧中的目标位置框中，任选一个目标位置框作为参考位置框。

示例性地，如图13所示，设定视频帧序列中包括3个视频帧，分别为视频帧1、视频帧2、视频帧3，每个视频中包括一个目标位置框，分别为目标位置框10、目标位置框20、目标位置框30，三个目标位置框的长和宽均相同。目标位置框在视频帧中的位置采用目标位置框的中心点坐标表示，获得目标位置框10的坐标为A(x_A0，y_A0)，目标位置框20的坐标为B(x_B0，y_B0)，目标位置框30的坐标为C(x_C0，y_C0)，选取目标位置框10作为参考位置框。

需要说明的是，确定参考位置框的方法并不仅限于上述三种，还可以是其他方法，对此，本申请不做具体限定。

采用上述任意一种方法确定参考位置框后，根据参考位置框，以目标对象被裁剪框裁剪后满足裁剪框内包括目标对象的部分图像信息为基准，确定裁剪框在视频帧序列的每个视频帧中的位置。

具体地，预先设置裁剪框的长和宽，裁剪框内包括的目标对象的部分图像信息可以是目标对象一半的图像信息，具体可以通过裁剪框将参考位置框裁剪为面积相同的两部分来实现，即裁剪框内包括二分之一的参考位置框，裁剪框外包括二分之一的参考位置框。此时，裁剪框的位置至少包括以下几种：

第一种，以参考位置框的中心点作为裁剪框左边界的中心点，确定裁剪框的基准位置，视频帧序列的每个视频中的裁剪框的位置均为该基准位置，此时，裁剪框内包括目标对象的右半部分的图像信息。

示例性地，如图14所示，设定裁剪框的长为h，宽为w，视频帧序列中视频帧的目标位置框内的目标对象为人脸，参考位置框10的中心点坐标为A(x_A0，y_A0)，则以坐标A(x_A0，y_A0)作为裁剪框40左边界的中心点，确定裁剪框40的基准位置，视频帧序列的每个视频中的裁剪框的位置均为该基准位置，此时，裁剪框内包括右半边人脸。

第二种，以参考位置框的中心点作为裁剪框右边界的中心点，确定裁剪框的基准位置，视频帧序列的每个视频中的裁剪框的位置均为该基准位置，此时，裁剪框内包括目标对象的左半部分的图像信息。

示例性地，如图15所示，设定裁剪框的长为h，宽为w，视频帧序列中视频帧的目标位置框内的目标对象为人脸，参考位置框10的中心点坐标为A(x_A0，y_A0)，则以坐标A(x_A0，y_A0)作为裁剪框40右边界的中心点，确定裁剪框40的基准位置，视频帧序列的每个视频中的裁剪框的位置均为该基准位置，此时，裁剪框内包括左半边人脸。

第三种，以参考位置框的中心点作为裁剪框上边界的中心点，确定裁剪框的基准位置，视频帧序列的每个视频中的裁剪框的位置均为该基准位置，此时，裁剪框内包括目标对象的下半部分的图像信息。

示例性地，如图16所示，设定裁剪框的长为h，宽为w，视频帧序列中视频帧的目标位置框内的目标对象为人脸，参考位置框10的中心点坐标为A(x_A0，y_A0)，则以坐标A(x_A0，y_A0)作为裁剪框40上边界的中心点，确定裁剪框40的基准位置，视频帧序列的每个视频中的裁剪框的位置均为该基准位置，此时，裁剪框内包括下半边人脸。

第四种，以参考位置框的中心点作为裁剪框下边界的中心点，确定裁剪框的基准位置，视频帧序列的每个视频中的裁剪框的位置均为该基准位置，此时，裁剪框内包括目标对象的上半部分的图像信息。

示例性地，如图17所示，设定裁剪框的长为h，宽为w，视频帧序列中视频帧的目标位置框内的目标对象为人脸，参考位置框10的中心点坐标为A(x_A0，y_A0)，则以坐标A(x_A0，y_A0)作为裁剪框40下边界的中心点，确定裁剪框40的基准位置，视频帧序列的每个视频中的裁剪框的位置均为该基准位置，此时，裁剪框内包括上半边人脸。

需要说明的是，裁剪框的位置并不仅限于上述四种，还可以是其他能将参考位置框裁剪为面积相同的两部分的位置，对此，本申请不做具体限定。

另外，裁剪框内包括的目标对象的部分图像信息可以不是目标对象一半的图像信息，具体可以通过裁剪框将参考位置框裁剪为面积不相同的两部分来实现。此时，裁剪框的位置至少包括以下几种：

第一种，以参考位置框的中心点的坐标作为裁剪框的四个角中任意一个角的坐标，确定裁剪框的基准位置，视频帧序列的每个视频中的裁剪框的位置均为该基准位置，此时，裁剪框内包括目标对象的四分之一的图像信息。

示例性地，如图18所示，设定裁剪框的长为h，宽为w，视频帧序列中视频帧的目标位置框内的目标对象为人脸，参考位置框10的中心点坐标为A(x_A0，y_A0)，则以坐标A(x_A0，y_A0)作为裁剪框40左上角的坐标，确定裁剪框40的基准位置，视频帧序列的每个视频中的裁剪框的位置均为该基准位置，此时，裁剪框内包括四分之一人脸。

第二种，根据裁剪框与参考位置框存在重叠区域，且裁剪框的各边界不经过参考位置框的中心点，确定裁剪框的基准位置，视频帧序列的每个视频中的裁剪框的位置均为该基准位置。

示例性地，如图19所示，设定裁剪框的长为h，宽为w，视频帧序列中视频帧的目标位置框内的目标对象为人脸，参考位置框10的中心点坐标为A(x_A0，y_A0)，则以裁剪框40右边界将基准位置框10的上下边界均裁剪为三分一和三分之二的两部分为基准，确定裁剪框40的基准位置，视频帧序列的每个视频中的裁剪框的位置均为该基准位置，此时，裁剪框内包括三分之一人脸。

需要说明的是，裁剪框的位置并不仅限于上述几种，还可以是其他能将参考位置框裁剪为面积不相同的两部分的位置，对此，本申请不做具体限定。

本申请实施例中，根据视频帧序列的各个视频帧中的目标位置框确定一个参考位置框，然后基于一个参考位置框确定裁剪框的位置，然后基于相同位置的裁剪框对视频帧序列中的每个视频帧进行裁剪，从而提高了裁剪的效率，同时提高裁剪后的目标图像的连续性。

另一种可能的实施方式，根据视频帧序列中任一个视频帧中的目标位置框，以目标对象被裁剪框裁剪后满足裁剪框内包括目标对象的部分图像信息为基准，确定裁剪框在任一个视频帧中的位置。

具体地，每个视频帧可以单独根据视频帧内的目标位置框确定裁剪框的位置，各个视频帧中的裁剪框的位置可能相同，也可能不相同。另外，针对视频帧序列中的每个视频帧，裁剪框内包括的目标对象的部分图像信息可以是目标对象一半的图像信息，也可以不是目标对象一半的图像信息，裁剪框具体的位置在前文已有介绍，此处不再赘述。

示例性地，设定裁剪框的长为h，宽为w，视频帧序列中视频帧的目标位置框内的目标对象为人脸。视频帧序列中包括3个视频帧，分别为视频帧1、视频帧2、视频帧3，每个视频中包括一个目标位置框，分别为目标位置框10、目标位置框20、目标位置框30，目标位置框在视频帧中的位置采用目标位置框的中心点坐标表示，获得目标位置框10的坐标为A(x_A0，y_A0)，目标位置框20的坐标为B(x_B0，y_B0)，目标位置框30的坐标为C(x_C0，y_C0)。

实施方式一、针对视频帧1，以目标位置框10的坐标A(x_A0，y_A0)作为裁剪框40左边界的中心点，确定裁剪框40在视频帧1中位置，此时，裁剪框内40包括右半边人脸。针对视频帧2，以目标位置框20的坐标B(x_B0，y_B0)作为裁剪框40右边界的中心点，确定裁剪框40在视频帧2中位置，此时，裁剪框内40包括左半边人脸。针对视频帧3，以目标位置框30的坐标C(x_C0，y_C0)作为裁剪框40上边界的中心点，确定裁剪框40在视频帧3中位置，此时，裁剪框内40包括下半边人脸。

实施方式二、针对视频帧1，以目标位置框10的坐标A(x_A0，y_A0)作为裁剪框40左边界的中心点，确定裁剪框40在视频帧1中位置，此时，裁剪框内40包括右半边人脸。针对视频帧2，以目标位置框20的坐标B(x_B0，y_B0)作为裁剪框40左边界的中心点，确定裁剪框40在视频帧2中位置，此时，裁剪框内40包括右半边人脸。针对视频帧3，以目标位置框30的坐标C(x_C0，y_C0)作为裁剪框40左边界的中心点，确定裁剪框40在视频帧3中位置，此时，裁剪框内40包括右半边人脸。

本申请实施例中，每个视频帧单独根据视频帧内的目标位置框确定裁剪框的位置，故在一个视频帧序列中可以裁剪出多种目标图像，从而提高图像的多样性。另外，在目标对象移动时，也可以从视频帧序列中裁剪出质量较好的目标图像。

另一种可能的实施方式，根据视频帧序列的各个视频帧中的目标位置框，确定参考位置框。然后根据参考位置框，以目标对象被裁剪框裁剪后满足裁剪框内包括目标对象的全部图像信息为基准，确定裁剪框在视频帧序列的每个视频帧中的位置。

具体实施中，采用同一位置的裁剪框对每个视频帧进行裁剪，其中，裁剪框的位置是根据参考位置框确定的，裁剪框内包括目标对象的全部图像信息，比如当目标对象为人脸时，裁剪框内包括整张人脸。确定参考位置框的方法以及确定裁剪框的位置的方法前文已有介绍，此处不再赘述。

另一种可能的实施方式，根据视频帧序列中任一个视频帧中的目标位置框，以目标对象被裁剪框裁剪后满足裁剪框内包括目标对象的全部图像信息为基准，确定裁剪框在任一个视频帧中的位置。

具体地，每个视频帧可以单独根据视频帧内的目标位置框确定裁剪框的位置，各个视频帧中的裁剪框的位置可能相同，也可能不相同。另外，针对视频帧序列中的每个视频帧，裁剪框内包括目标对象的全部图像信息，比如当目标对象为人脸时，裁剪框内包括整张人脸。裁剪框具体的位置在前文已有介绍，此处不再赘述。

为了更好地描述本申请实施例，下面结合具体实施场景描述一种视频帧序列的裁剪方法，该方法由视频帧序列的裁剪装置执行，视频帧序列的裁剪装置包括视频帧序列提取模块、稳定滤波器、偏离滤波器、尺寸滤波器、视频帧数判定器、视频帧裁剪模块。设定目标对象为目标人脸，如图20所示，该方法具体包括以下步骤：

将目标视频输入视频帧序列提取模块，视频帧序列提取模块对目标视频中每个视频帧进行目标人脸识别，确定每个视频帧中的目标位置框和目标位置框的分类权值，然后从目标视频中获取目标位置框的分类权值大于预设阈值的视频帧序列。将视频帧序列中所有目标位置框输入稳定滤波器，确定视频帧序列的稳定标签，其中，1表示稳定标签为视频画面不稳定，0表示稳定标签为视频画面稳定。将视频帧序列中所有目标位置框以及所有目标位置框对应的分类权值输入偏离滤波器，确定视频帧序列的偏离标签，其中，1表示偏离标签为目标对象偏离，0表示稳定标签为目标对象不偏离。将视频帧序列中所有目标位置框输入尺寸滤波器，确定视频帧序列的尺寸标签，其中，1表示尺寸标签为目标对象的尺寸不满足裁剪要求，0表示尺寸标签为目标对象的尺寸满足裁剪要求。将视频帧序列输入视频帧数判定器，确定视频帧序列的帧数标签，其中，1表示帧数标签为视频帧数量不满足裁剪要求，0表示帧数标签为视频帧数量满足裁剪要求。

根据稳定滤波器、偏离滤波器、尺寸滤波器、视频帧数判定器输出的结果确定标签列表。当标签列表为[0，0，0，0]时，视频帧裁剪模块将视频帧序列的各个视频帧中的目标位置框中，处于中间位置的目标位置框作为参考位置框。预先设置裁剪框的长和宽，以参考位置框的中心点作为裁剪框左边界的中心点，确定裁剪框的基准位置。视频帧序列的每个视频帧均以该基准位置作为裁剪框的位置，对每个视频帧进行裁剪，获得多帧裁剪后的目标图像组成的图像序列，其中，目标图像中包括右半边人脸。之后再将图像序列的分类标签确定为右半边人脸。最后由视频帧裁剪模块输出带有分类标签“右半边人脸”的图像序列。

在上述任意一种实施方式的基础上，本申请实施例提供了一种检测人脸图像的方法的流程，该方法的流程由检测人脸图像的装置执行，该方法具体包括采用人脸识别模型对视频帧进行检测，确定视频帧中的人脸图像，人脸识别模型是采用前述视频帧序列的裁剪方法获取的图像序列训练获得的。

示例性地，采用前述视频帧序列的裁剪方法获得分类标签为“部分人脸”的图像序列，然后采用分类标签为“半边人脸”的图像序列训练人脸识别模型。训练结束之后采用人脸识别模型对直播画面进行人脸识别。当识别出主播只有部分人脸位于直播画面时，提醒主播移动或调整摄像头等，以使主播的脸全部位于视频画面中。

示例性地，采用前述视频帧序列的裁剪方法分别获得分类标签为“部分人脸”的图像序列以及分类标签“整张人脸”的图像序列，然后采用分类标签为“部分人脸”的图像序列以及分类标签“整张人脸”的图像序列训练人脸识别模型。训练结束之后采用人脸识别模型对在线辅导应用的监督画面进行人脸识别。当人脸识别模型识别出监督画面中包括整张人脸时，判定学生正在上课。当人脸识别模型识别出监督画面中包括部分人脸，也判定学生正在上课。当人脸识别模型在监督画面中没有识别出部分人脸或整张人脸时，判定学生没有上课。

本申请实施例中，采用人脸识别模型对视频画面中的人脸进行识别，在视频画面中只包括部分人脸时，提醒用户移动至视频画面中，从而提高参与者的视频感官体验。另外通过人脸识别模型识别监控画面中的人脸，实现了自动监督的功能。

基于相同的技术构思，本申请实施例提供了一种视频帧序列的裁剪装置，如图21所示，该装置2100包括：

获取模块2101，用于从目标视频中获得视频帧序列，所述视频帧序列的每个视频帧包括目标对象；

定位模块2102，用于根据所述目标对象在所述视频帧序列的各个视频帧中的位置，以所述目标对象被裁剪框裁剪后满足设定条件为基准，确定所述裁剪框在所述视频帧序列的每个视频帧中的位置；

裁剪模块2103，用于基于所述裁剪框在所述视频帧序列的每个视频帧中的位置，对所述视频帧序列的每个视频帧进行裁剪，获得多帧裁剪后的目标图像组成的图像序列；

标注模块2104，用于将所述设定条件对应的分类标签确定为所述图像序列的分类标签，所述分类标签用于标注所述目标对象在目标图像中满足的所述设定条件。

可选地，所述获取模块2101具体用于：

可选地，所述定位模块2102具体用于：

可选地，还包括筛选模块2105；

所述筛选模块2105具体用于：

可选地，所述筛选模块2105具体用于：

将所述比例大于第一阈值的视频帧确定为待筛选视频帧；

可选地，所述筛选模块2105具体用于：

基于相同的技术构思，本申请实施例提供了一种检测人脸图像的装置，如图22所示，该装置2200包括：

检测模块2201，用于采用人脸识别模型对视频帧进行检测，确定视频帧中的人脸图像，所述人脸识别模型是采用上述视频帧序列的裁剪方法获取的图像序列训练获得的。

基于相同的技术构思，本申请实施例提供了一种计算机设备，如图23所示，包括至少一个处理器2301，以及与至少一个处理器连接的存储器2302，本申请实施例中不限定处理器2301与存储器2302之间的具体连接介质，图23中处理器2301和存储器2302之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。

在本申请实施例中，存储器2302存储有可被至少一个处理器2301执行的指令，至少一个处理器2301通过执行存储器2302存储的指令，可以执行上述视频帧序列的裁剪方法的步骤，或者上述检测人脸图像的方法的步骤。

其中，处理器2301是计算机设备的控制中心，可以利用各种接口和线路连接计算机设备的各个部分，通过运行或执行存储在存储器2302内的指令以及调用存储在存储器2302内的数据，从而对视频帧序列进行裁剪。可选的，处理器2301可包括一个或多个处理单元，处理器2301可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器2301中。在一些实施例中，处理器2301和存储器2302可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

处理器2301可以是通用处理器，例如中央处理器(CPU)、数字信号处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器2302作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器2302可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory，RAM)、静态随机访问存储器(Static Random Access Memory，SRAM)、可编程只读存储器(Programmable Read Only Memory，PROM)、只读存储器(Read Only Memory，ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性存储器、磁盘、光盘等等。存储器2302是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本申请实施例中的存储器2302还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

基于同一发明构思，本申请实施例提供了一种计算机可读存储介质，其存储有可由计算机设备执行的计算机程序，当程序在计算机设备上运行时，使得计算机设备执行上述视频帧序列的裁剪方法的步骤，或者上述检测人脸图像的方法的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种视频帧序列的裁剪方法，其特征在于，包括：

从目标视频中获得视频帧序列，所述视频帧序列的每个视频帧包括目标对象，所述目标对象为人脸；

2.如权利要求1所述的方法，其特征在于，所述从目标视频中获得视频帧序列，包括：

从所述目标视频中获取所述目标位置框的分类权值大于预设阈值的视频帧序列。

3.如权利要求2所述的方法，其特征在于，所述根据所述目标对象在所述视频帧序列的各个视频帧中的位置，以所述目标对象被裁剪框裁剪后满足设定条件为基准，确定所述裁剪框在所述视频帧序列的每个视频帧中的位置，包括：

4.如权利要求3所述的方法，其特征在于，所述根据所述视频帧序列的各个视频帧中的目标位置框，确定参考位置框，包括：

5.如权利要求3所述的方法，其特征在于，所述根据所述视频帧序列的各个视频帧中的目标位置框，确定参考位置框，包括：

6.如权利要求2所述的方法，其特征在于，所述根据所述目标对象在所述视频帧序列的各个视频帧中的位置，以所述目标对象被裁剪框裁剪后满足设定条件为基准，确定所述裁剪框在所述视频帧序列的每个视频帧中的位置，包括：

7.如权利要求2至6任一所述的方法，其特征在于，所述根据所述目标对象在所述视频帧序列的各个视频帧中的位置，以所述目标对象被裁剪框裁剪后满足设定条件为基准，确定所述裁剪框在所述视频帧序列的每个视频帧中的位置之前，还包括：

根据所述视频帧序列的各个视频帧中的目标位置框，确定所述视频帧序列的稳定标签以及所述视频帧序列的尺寸标签；

8.如权利要求7所述的方法，其特征在于，所述根据所述视频帧序列的各个视频帧中的目标位置框，确定所述视频帧序列的稳定标签以及所述视频帧序列的尺寸标签，包括：

将所述比例大于第一阈值的视频帧确定为待筛选视频帧；

9.如权利要求7所述的方法，其特征在于，所述根据所述视频帧序列的各个视频帧中的目标位置框以及目标位置框的分类权值，确定所述视频帧序列的偏离标签，包括：

10.如权利要求7所述的方法，其特征在于，所述根据所述视频帧序列中视频帧的数量，确定所述视频帧序列的帧数标签，包括：

11.一种检测人脸图像的方法，其特征在于，包括：

采用人脸识别模型对视频帧进行检测，确定视频帧中的人脸图像，所述人脸识别模型是采用权利要求1至10任一所述方法获取的图像序列训练获得的。

12.一种视频帧序列的裁剪装置，其特征在于，包括：

获取模块，用于从目标视频中获得视频帧序列，所述视频帧序列的每个视频帧包括目标对象，所述目标对象为人脸；

13.一种检测人脸图像的装置，其特征在于，包括：

检测模块，用于采用人脸识别模型对视频帧进行检测，确定视频帧中的人脸图像，所述人脸识别模型是采用权利要求1至10任一所述方法获取的图像序列训练获得的。

14.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1～10任一权利要求所述方法的步骤，或者权利要求11所述方法的步骤。

15.一种计算机可读存储介质，其特征在于，其存储有可由计算机设备执行的计算机程序，当所述程序在计算机设备上运行时，使得所述计算机设备执行权利要求1～10任一所述方法的步骤，或者权利要求11所述方法的步骤。