CN113128454A

CN113128454A - 视频处理方法、装置、存储介质及电子设备

Info

Publication number: CN113128454A
Application number: CN202110483929.4A
Authority: CN
Inventors: 栾鹏龙; 赵飞; 吴伯川; 贾兆柱; 王麒铭
Original assignee: Beijing Zhitong Oriental Software Technology Co ltd
Current assignee: Beijing Zhitong Oriental Software Technology Co ltd
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2021-07-16

Abstract

本公开涉及一种视频处理方法、装置、存储介质及电子设备，该方法包括：获取待处理视频的目标图像帧中人体的头肩检测区域和人体的人脸检测区域；确定头肩检测区域的目标跟踪器以及目标跟踪器的跟踪标识信息，目标跟踪器用于跟踪所述待处理视频中连续出现人体的图像帧；根据人脸检测区域，确定目标图像帧对应的人体的预测年龄信息，并将预测年龄信息存储到跟踪标识信息对应的年龄信息存储空间中，年龄信息存储空间用于存储连续出现人体的每一图像帧各自对应的人体的预测年龄信息；根据年龄信息存储空间中存储的年龄信息，确定是否需要对人脸检测区域进行区域保护处理。通过上述技术方案，提高对视频中人脸区域进行保护处理的稳定性和准确性。

Description

视频处理方法、装置、存储介质及电子设备

技术领域

本公开涉及视频处理技术领域，具体地，涉及一种视频处理方法、装置、存储介质及电子设备。

背景技术

视频能够记录并存储动态影像，其应用非常广泛，例如会议视频、报告视频、活动视频、运动会视频、课程视频，等等。示例地，以课程视频为例，线下智慧教室中通常设置有摄像头，例如朝向黑板的摄像头，该摄像头可以用于录制教师上课时的视频，录制的视频可以供学生复习学习内容，在课程录制过程中，无论在课上时间或课下时间，经常会有学生出现在视频内，为了保护学生隐私，需要对视频中的学生进行模糊处理。对视频中的部分区域进行模糊处理，是视频处理中非常常用的环节，然而相关技术中的处理方式可能不够准确。

发明内容

本公开的目的是提供一种视频处理方法、装置、存储介质及电子设备，可以提高对视频中人脸区域进行保护处理的稳定性和准确性。

为了实现上述目的，第一方面，本公开提供一种视频处理方法，所述方法包括：

获取待处理视频的目标图像帧中人体的头肩检测区域和所述人体的人脸检测区域；

确定所述头肩检测区域的目标跟踪器以及所述目标跟踪器的跟踪标识信息，其中，所述目标跟踪器用于跟踪所述待处理视频中连续出现所述人体的图像帧；

根据所述人脸检测区域，确定所述目标图像帧对应的所述人体的预测年龄信息，并将所述预测年龄信息存储到所述跟踪标识信息对应的年龄信息存储空间中，其中，所述年龄信息存储空间用于存储连续出现所述人体的每一图像帧各自对应的所述人体的预测年龄信息；

根据所述年龄信息存储空间中存储的年龄信息，确定是否需要对所述人脸检测区域进行区域保护处理。

可选地，所述确定所述头肩检测区域的目标跟踪器以及所述目标跟踪器的跟踪标识信息，包括：

在所述目标图像帧不为所述待处理视频的首帧的情况下，获取所述目标图像帧的前一帧中的每一头肩检测区域各自的跟踪器；

针对所述前一帧中的每一头肩检测区域各自的跟踪器，通过该跟踪器预测该跟踪器对应的前一帧中的头肩检测区域在所述目标图像帧中的位置信息，并根据所述位置信息确定该跟踪器在所述目标图像帧中预测的头肩预测区域；

确定是否存在与所述目标图像帧中的所述头肩检测区域相匹配的所述头肩预测区域；

在存在的情况下，将相匹配的所述头肩预测区域对应的跟踪器以及该跟踪器的标识信息，分别作为所述目标跟踪器和所述跟踪标识信息；

在不存在的情况下，为所述目标图像帧中的所述头肩检测区域创建跟踪器，以及为创建的所述跟踪器分配标识信息，其中，所创建的跟踪器作为所述目标跟踪器，为所创建的跟踪器分配的标识信息作为所述跟踪标识信息。

可选地，所述确定是否存在与所述目标图像帧中的所述头肩检测区域相匹配的所述头肩预测区域，包括：

针对每一所述头肩预测区域，确定所述目标图像帧中的所述头肩检测区域与所述头肩预测区域的交并比；

在最大交并比大于或等于预设交并比阈值的情况下，确定所述最大交并比对应的头肩预测区域与所述目标图像帧中的所述头肩检测区域相匹配；

在最大交并比小于所述预设交并比阈值的情况下，确定不存在与所述目标图像帧中的所述头肩检测区域相匹配的所述头肩预测区域。

在所述目标图像帧为所述待处理视频的首帧的情况下，为所述头肩检测区域创建跟踪器，并为创建的所述跟踪器分配标识信息，其中，所创建的跟踪器作为所述目标跟踪器，为所创建的跟踪器分配的标识信息作为所述跟踪标识信息。

可选地，所述获取待处理视频的目标图像帧中人体的头肩检测区域和所述人体的人脸检测区域，包括：

将所述目标图像帧输入到区域检测模型中，得到所述区域检测模型输出的所述目标图像帧中的所述头肩检测区域和所述人脸检测区域，其中，所述区域检测模型通过如下方式进行训练：

获取第一训练样本图像，以及所述第一训练样本图像中的人脸标注区域和头肩标注区域；

将所述第一训练样本图像、所述人脸标注区域、所述头肩标注区域作为第一模型的输入，获得所述第一模型输出的人脸区域和头肩区域；

根据所述第一模型输出的人脸区域与所述人脸标注区域之间的差异信息、以及所述第一模型输出的头肩区域与所述头肩标注区域之间的差异信息，对所述第一模型进行训练，以得到所述区域检测模型。

可选地，所述根据所述人脸检测区域，确定所述目标图像帧对应的所述人体的预测年龄信息，包括：

将所述人脸检测区域输入到年龄预测模型中，得到所述年龄预测模型输出的所述目标图像帧对应的所述人体的预测年龄信息，其中，所述年龄预测模型通过如下方式进行训练：

获取第二训练样本图像，以及所述第二训练样本图像中人脸的标注年龄信息；

将所述第二训练样本图像输入到第二模型中，得到所述第二模型输出的所述第二训练样本图像中人脸的年龄信息；

根据所述第二模型输出的所述年龄信息与所述标注年龄信息之间的差异信息，对所述第二模型进行训练，以得到所述年龄预测模型。

可选地，所述根据所述年龄信息存储空间中存储的年龄信息，确定是否需要对所述人脸检测区域进行区域保护处理，包括：

根据所述年龄信息存储空间中存储的年龄信息，确定所述人体的目标年龄信息；

在所述目标年龄信息小于或等于预设年龄阈值的情况下，确定需要对所述人脸检测区域进行区域保护处理。

可选地，所述根据所述年龄信息存储空间中存储的年龄信息，确定所述人体的目标年龄信息，包括：

在所述年龄信息存储空间中存储的年龄信息的数量为一个的情况下，将所述年龄信息存储空间中存储的年龄信息确定为所述目标年龄信息；

在所述数量为多个的情况下，将所述年龄信息存储空间中存储的多个年龄信息的加权值确定为所述目标年龄信息。

可选地，还包括：

在确定需要对所述人脸检测区域进行区域保护处理的情况下，通过如下方式之一对所述人脸检测区域进行区域保护处理：

对所述人脸检测区域进行图像模糊处理；

通过预设图像对所述人脸检测区域进行覆盖处理，其中，所述预设图像的透明度低于预设的透明度阈值。

第二方面，本公开提供一种视频处理装置，所述装置包括：

获取模块，用于获取待处理视频的目标图像帧中人体的头肩检测区域和所述人体的人脸检测区域；

第一确定模块，用于确定所述头肩检测区域的目标跟踪器以及所述目标跟踪器的跟踪标识信息，其中，所述目标跟踪器用于跟踪所述待处理视频中连续出现所述人体的图像帧；

第二确定模块，用于根据所述人脸检测区域，确定所述目标图像帧对应的所述人体的预测年龄信息，并将所述预测年龄信息存储到所述跟踪标识信息对应的年龄信息存储空间中，其中，所述年龄信息存储空间用于存储连续出现所述人体的每一图像帧各自对应的所述人体的预测年龄信息；

判断模块，用于根据所述年龄信息存储空间中存储的年龄信息，确定是否需要对所述人脸检测区域进行区域保护处理。

可选地，所述第一确定模块，包括：

获取子模块，用于在所述目标图像帧不为所述待处理视频的首帧的情况下，获取所述目标图像帧的前一帧中的每一头肩检测区域各自的跟踪器；

第一确定子模块，用于针对所述前一帧中的每一头肩检测区域各自的跟踪器，通过该跟踪器预测该跟踪器对应的前一帧中的头肩检测区域在所述目标图像帧中的位置信息，并根据所述位置信息确定该跟踪器在所述目标图像帧中预测的头肩预测区域；

判断子模块，用于确定是否存在与所述目标图像帧中的所述头肩检测区域相匹配的所述头肩预测区域；

第二确定子模块，用于在存在的情况下，将相匹配的所述头肩预测区域对应的跟踪器以及该跟踪器的标识信息，分别作为所述目标跟踪器和所述跟踪标识信息；

第一创建子模块，用于在不存在的情况下，为所述目标图像帧中的所述头肩检测区域创建跟踪器，以及为创建的所述跟踪器分配标识信息，其中，所创建的跟踪器作为所述目标跟踪器，为所创建的跟踪器分配的标识信息作为所述跟踪标识信息。

可选地，所述判断子模块，包括：

交并比确定子模块，用于针对每一所述头肩预测区域，确定所述目标图像帧中的所述头肩检测区域与所述头肩预测区域的交并比；

第三确定子模块，用于在最大交并比大于或等于预设交并比阈值的情况下，确定所述最大交并比对应的头肩预测区域与所述目标图像帧中的所述头肩检测区域相匹配；

第四确定子模块，用于在最大交并比小于所述预设交并比阈值的情况下，确定不存在与所述目标图像帧中的所述头肩检测区域相匹配的所述头肩预测区域。

可选地，所述第一确定模块，包括：

第二创建子模块，用于在所述目标图像帧为所述待处理视频的首帧的情况下，为所述头肩检测区域创建跟踪器，并为创建的所述跟踪器分配标识信息，其中，所创建的跟踪器作为所述目标跟踪器，为所创建的跟踪器分配的标识信息作为所述跟踪标识信息。

可选地，所述获取模块，包括：

第一输入子模块，用于将所述目标图像帧输入到区域检测模型中，得到所述区域检测模型输出的所述目标图像帧中的所述头肩检测区域和所述人脸检测区域，其中，所述区域检测模型通过如下方式进行训练：

可选地，所述第二确定模块，包括：

第二输入子模块，用于将所述人脸检测区域输入到年龄预测模型中，得到所述年龄预测模型输出的所述目标图像帧对应的所述人体的预测年龄信息，其中，所述年龄预测模型通过如下方式进行训练：

可选地，所述判断模块，包括：

第五确定子模块，用于根据所述年龄信息存储空间中存储的年龄信息，确定所述人体的目标年龄信息；

第六确定子模块，用于在所述目标年龄信息小于或等于预设年龄阈值的情况下，确定需要对所述人脸检测区域进行区域保护处理。

可选地，所述第五确定子模块用于：

可选地，所述装置还包括：

处理模块，用于在确定需要对所述人脸检测区域进行区域保护处理的情况下，通过如下方式之一对所述人脸检测区域进行区域保护处理：

对所述人脸检测区域进行图像模糊处理；

第三方面，本公开提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本公开第一方面提供的所述方法的步骤。

第四方面，本公开提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现本公开第一方面提供的所述方法的步骤。

通过上述技术方案，首先获取待处理视频的目标图像帧中人体的头肩检测区域和人体的人脸检测区域，并确定头肩检测区域的目标跟踪器以及目标跟踪器的跟踪标识信息，目标跟踪器用于跟踪待处理视频中连续出现该人体的图像帧，采用头肩检测区域进行人体的跟踪，区域范围更大，更容易检测，且跟踪更加稳定。根据人脸检测区域，确定目标图像帧对应的人体的预测年龄信息，并将该预测年龄信息存储到跟踪标识信息对应的年龄信息存储空间中，年龄信息存储空间可用于存储连续出现该人体的每一图像帧各自对应的该人体的预测年龄信息，根据年龄信息存储空间中存储的年龄信息，确定是否需要对目标图像帧中的人脸检测区域进行区域保护处理，可以避免仅根据单个图像帧中人体的预测年龄信息进行判断不够准确的问题，提高对视频中人脸区域进行保护处理的稳定性和准确性。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据一示例性实施例示出的一种视频处理方法的流程图。

图2是根据一示例性实施例示出的一种确定头肩检测区域的目标跟踪器以及目标跟踪器的跟踪标识信息的方法的流程图。

图3是根据一示例性实施例示出的一种确定是否存在与目标图像帧中的头肩检测区域相匹配的头肩预测区域的方法的流程图。

图4是根据一示例性实施例示出的一种视频处理装置的框图。

图5是根据一示例性实施例示出的一种电子设备的框图。

图6是根据另一示例性实施例示出的一种电子设备的框图

具体实施方式

如背景技术所述，对视频中的部分区域进行模糊处理，是视频处理中非常常用的环节，示例地，以对课程视频中的学生进行模糊处理为例，相关技术中通常采用如下几种方式进行处理。第一种，通过讲台识别，出现在讲台区域的判定为教师，出现在其他区域的判定为学生，并对讲台以外区域的人脸进行模糊处理，然而无论在课上时间或课下时间，都可能会有学生出现在讲台区域，因此这种处理方式的效果不够稳定，易造成错误处理或遗漏处理。第二种，搜集所有教师的人脸照片，针对每一教师人脸照片，采用人脸检测算法或人脸特征提取算法得到教师人脸的特征信息，并构成特征库，在对视频进行处理时，如果视频中出现的人脸与特征库中的人脸相匹配，则判定视频中出现的人物为教师，否则为学生，并对视频中的学生进行模糊处理。这种方式也存在一定的不足，例如，需要预先搜集所有教师的人脸照片，每次有新的教师都需要更新教师特征库，若未及时更新，出现在视频中的新的教师也会被模糊处理。而且，人脸特征识别的方式易受到人脸角度、光线等因素的影响，教师讲课过程中，视频拍摄到的可能经常都是教师的侧脸，容易误识别，因此教师也可能会被模糊处理，从而使得该处理方式不够稳定且不够准确。

鉴于此，本公开提供一种视频处理方法、装置、存储介质及电子设备，可以提高对视频中人脸区域进行保护处理的稳定性和准确性。

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

图1是根据一示例性实施例示出的一种视频处理方法的流程图，该方法可应用于具有处理能力的电子设备中，如终端或服务器，如图1所示，该方法可包括S101至S104。

在S101中，获取待处理视频的目标图像帧中人体的头肩检测区域和人体的人脸检测区域。

待处理视频可以是实时拍摄的视频，例如实时拍摄的教师讲课过程中的课程视频，待处理视频也可以是预先存储的视频。

值得说明的是，本公开中以对教师讲课过程中的课程视频为例，仅为解释说明，不构成对本公开实施方式的限制，本公开的应用场景并不局限于此，例如对活动视频的处理、运动会视频的处理、会议视频的处理等等，同样适用于本公开。

目标图像帧可以是待处理视频中的任一图像帧，目标图像帧中可以有一个或多个人体。示例地，例如可将目标图像帧输入到预先训练的区域检测模型中，得到该区域检测模型输出的每一人体各自的头肩检测区域和人脸检测区域。其中，头肩检测区域可以为人体的头部和肩膀共同构成的区域，人脸检测区域可以为人体的人脸构成的区域。考虑到人脸区域相对较小，且由于角度等原因跟踪时容易丢失，因此本公开中同时采用头肩检测区域进行人体的跟踪，头肩检测区域同时包括人体的头部和肩膀，区域范围更大，更容易检测，且跟踪更加稳定。

在S102中，确定头肩检测区域的目标跟踪器以及目标跟踪器的跟踪标识信息。

如果目标图像帧中有多个人体，每一人体各自的头肩检测区域均有目标跟踪器。其中，目标跟踪器用于跟踪待处理视频中连续出现该人体的图像帧。创建目标跟踪器的方式有多种，例如通过头肩检测区域初始化卡尔曼滤波器，便可创建该头肩检测区域的目标跟踪器。

目标跟踪器的跟踪标识信息可用于唯一标识该目标跟踪器，对于跟踪标识信息的形式，本公开不做限定，例如可以通过数字或字母来表示，也可通过数字、字母的组合来表示。

在S103中，根据人脸检测区域，确定目标图像帧对应的人体的预测年龄信息，并将该预测年龄信息存储到跟踪标识信息对应的年龄信息存储空间中。

由于人脸特征更能表征人体的年龄，因此可根据人脸检测区域确定人体的预测年龄信息。示例地，例如可将人脸检测区域输入到预先训练完成的年龄预测模型中，得到该年龄预测模型输出的该人体的预测年龄信息。

目标图像帧对应的人体的预测年龄信息，指的是根据目标图像帧中出现的该人体的人脸检测区域，预测的该人体的年龄信息。可知的是，如果该人体同时出现在多张图像帧中，但是在每张图像帧中该人体的人脸的角度、光线可能均不同，以及人脸的表情可能均不同，因此根据不同图像帧中出现的该人体的人脸，可能预测的该人体的年龄信息均不同。

年龄信息存储空间可用于存储连续出现该人体的每一图像帧各自对应的该人体的预测年龄信息。

示例地，图像帧1和图像帧2为连续的图像帧，例如图像帧2为目标图像帧，这两张图像帧中均有人体A，根据图像帧1中人体A的人脸检测区域得到的该人体A的预测年龄信息为X，根据图像帧2中人体A的人脸检测区域得到的该人体A的预测年龄信息为Y，那么此时可将Y存储到人体A的头肩检测区域的目标跟踪器的跟踪标识信息对应的年龄信息存储空间中，这样年龄信息存储空间中可同时存储有X和Y。

对于年龄信息存储空间的形式，本公开不做限定，该年龄信息存储空间例如可以为队列或数组等。

在S104中，根据年龄信息存储空间中存储的年龄信息，确定是否需要对人脸检测区域进行区域保护处理。

年龄信息存储空间中存储了连续出现该人体的每一图像帧各自对应的该人体的预测年龄信息，根据年龄信息存储空间中存储的年龄信息，确定是否需要对目标图像帧中的人脸检测区域进行区域保护处理，可以避免仅根据单个图像帧中人体的预测年龄信息进行判断不够准确的问题。

其中，学生的年龄一般较小，根据年龄信息存储空间中存储的年龄信息，可判断该人体是否为学生，从而可以判断是否需要对该人体的人脸区域进行区域保护处理。

下面介绍S102中确定头肩检测区域的目标跟踪器以及目标跟踪器的跟踪标识信息的示例性实施方式。

首先介绍目标图像帧为首帧的情况下如何确定目标跟踪器。

在目标图像帧为待处理视频的首帧的情况下，为头肩检测区域创建跟踪器，并为创建的跟踪器分配标识信息。其中，所创建的跟踪器作为目标跟踪器，为所创建的跟踪器分配的标识信息作为跟踪标识信息。

如果目标图像帧为待处理视频的首帧，那么此时目标图像帧中人体的头肩检测区域还没有目标跟踪器，可以为头肩检测区域创建跟踪器，创建跟踪器的方式已在上文示例中给出，例如通过头肩检测区域初始化卡尔曼滤波器，以创建该头肩检测区域的目标跟踪器，并将为所创建的跟踪器分配的标识信息，作为该目标跟踪器的跟踪标识信息。

沿用S103中的示例，例如图像帧1为待处理视频的首帧，图像帧1中出现人体A和人体B，则可以为人体A的头肩检测区域创建跟踪器，并分配标识信息a，即图像帧1中人体A的头肩检测区域的跟踪器为目标跟踪器a，同理，为人体B的头肩检测区域创建跟踪器，并分配标识信息b，即图像帧1中人体B的头肩检测区域的跟踪器为目标跟踪器b。

然后介绍目标图像帧不为首帧的情况下如何确定目标跟踪器。图2是根据一示例性实施例示出的一种确定头肩检测区域的目标跟踪器以及目标跟踪器的跟踪标识信息的方法的流程图，图2所示为目标图像帧不为首帧的情况，如图2所示，该方法可包括S201至S205。

在S201中，在目标图像帧不为待处理视频的首帧的情况下，获取目标图像帧的前一帧中的每一头肩检测区域各自的跟踪器。

沿用上述示例，例如图像帧2为目标图像帧，目标图像帧2中出现人体A、人体B和人体C。可首先获取目标图像帧的前一帧，即图像帧1中每一头肩检测区域各自的跟踪器，即跟踪器a和跟踪器b。

在S202中，针对前一帧中的每一头肩检测区域各自的跟踪器，通过该跟踪器预测该跟踪器对应的前一帧中的头肩检测区域在目标图像帧中的位置信息，并根据该位置信息确定该跟踪器在目标图像帧中预测的头肩预测区域。

示例地，跟踪器a可预测图像帧1中人体A的头肩检测区域、在图像帧2中的位置信息，该位置信息例如可以为二维坐标信息，例如可将该位置信息构成的区域作为跟踪器a在图像帧2中预测的人体A的头肩预测区域。跟踪器b可预测图像帧1中人体B的头肩检测区域、在图像帧2中的位置信息，例如可将该位置信息构成的区域作为跟踪器b在图像帧2中预测的人体B的头肩预测区域。

在S203中，确定是否存在与目标图像帧中的头肩检测区域相匹配的头肩预测区域。

在S204中，在存在的情况下，将相匹配的头肩预测区域对应的跟踪器以及该跟踪器的标识信息，分别作为目标跟踪器和跟踪标识信息。

在S205中，在不存在的情况下，为目标图像帧中的头肩检测区域创建跟踪器，以及为创建的跟踪器分配标识信息。其中，所创建的跟踪器作为目标跟踪器，为所创建的跟踪器分配的标识信息作为跟踪标识信息。

可选地，S203的示例性实施方式可如图3所示，包括S2031至S2033。

在S2031中，针对每一头肩预测区域，确定目标图像帧中的头肩检测区域与头肩预测区域的交并比。

在S2032中，在最大交并比大于或等于预设交并比阈值的情况下，确定最大交并比对应的头肩预测区域与目标图像帧中的头肩检测区域相匹配。

在S2033中，在最大交并比小于预设交并比阈值的情况下，确定不存在与目标图像帧中的头肩检测区域相匹配的头肩预测区域。

以图像帧2中人体A的头肩检测区域为例，可分别确定该头肩检测区域与跟踪器a的头肩预测区域和跟踪器b的头肩预测区域的交并比。例如图像帧2中人体A的头肩检测区域，与跟踪器a在图像帧2中的头肩预测区域的交并比最大，并且该最大交并比大于或等于预设交并比阈值，则可确定跟踪器a在图像帧2中的头肩预测区域与图像帧2中人体A的头肩检测区域相匹配，并可表征人体A在图像帧1和图像帧2中连续出现，可将图像帧1中人体A的头肩检测区域的跟踪器a，作为图像帧2中人体A的头肩检测区域的目标跟踪器，并且标识信息保持不变，将标识信息a作为该目标跟踪器的跟踪标识信息。

以图像帧2中人体B的头肩检测区域为例，可分别确定该头肩检测区域与跟踪器a的头肩预测区域和跟踪器b的头肩预测区域的交并比。例如图像帧2中人体B的头肩检测区域，与跟踪器b在图像帧2中的头肩预测区域的交并比最大，并且该最大交并比大于或等于预设交并比阈值，则可确定跟踪器b在图像帧2中的头肩预测区域与图像帧2中人体B的头肩检测区域相匹配，并可表征人体B在图像帧1和图像帧2中连续出现，可将图像帧1中人体B的头肩检测区域的跟踪器b，作为图像帧2中人体B的头肩检测区域的目标跟踪器，并且标识信息保持不变，将标识信息b作为该目标跟踪器的跟踪标识信息。

以图像帧2中人体C的头肩检测区域为例，可分别确定该头肩检测区域与跟踪器a的头肩预测区域和跟踪器b的头肩预测区域的交并比。例如图像帧2中人体B的头肩检测区域，与跟踪器b在图像帧2中的头肩预测区域的交并比最大，而该最大交并比小于预设交并比阈值，则可确定不存在与图像帧2中人体C的头肩检测区域相匹配的头肩预测区域，并可表征人体C在图像帧2中新出现，则将为图像帧2中人体C的头肩检测区域创建的跟踪器，以及为创建的跟踪器分配的标识信息，分别作为图像帧2中人体C的头肩检测区域的目标跟踪器和跟踪标识信息。

通过上述技术方案，针对待处理视频的首帧，可为首帧中的头肩检测区域创建跟踪器，并分配标识信息，针对不为首帧的图像帧，可通过前一帧中头肩检测区域的跟踪器，在该图像帧中预测头肩预测区域，从而可判断前一帧中出现的人体，在该图像帧中是否依然出现，实现通过跟踪器对待处理视频中连续出现某一人体的图像帧进行跟踪的目的。并且，头肩检测区域同时包括人体的头部和肩膀，区域范围更大，更容易检测，且跟踪更加稳定。

可选地，S101中获取待处理视频的目标图像帧中人体的头肩检测区域和人体的人脸检测区域，可包括：

将目标图像帧输入到区域检测模型中，得到区域检测模型输出的目标图像帧中的头肩检测区域和人脸检测区域，其中，区域检测模型可通过如下方式进行训练：

获取第一训练样本图像，以及第一训练样本图像中的人脸标注区域和头肩标注区域；将第一训练样本图像、人脸标注区域、头肩标注区域作为第一模型的输入，获得第一模型输出的人脸区域和头肩区域；根据第一模型输出的人脸区域与人脸标注区域之间的差异信息、以及第一模型输出的头肩区域与头肩标注区域之间的差异信息，对第一模型进行训练，以得到区域检测模型。

其中，可预先构建用于训练得到区域检测模型的样本集，第一训练样本图像可以为该样本集中的图像。第一训练样本图像可以为包括人体的人脸、头部、肩膀的图像，可对第一训练样本图像中的人脸区域和头肩区域分别进行标注，并得到人脸标注区域和头肩标注区域。之后，将第一训练样本图像、人脸标注区域、头肩标注区域作为第一模型的输入，得到第一模型输出的人脸区域和头肩区域，该第一模型可采用Retinaface，主干网络选择mobilnet-v2。根据第一模型输出的人脸区域与人脸标注区域之间的差异信息、以及第一模型输出的头肩区域与头肩标注区域之间的差异信息，可对第一模型进行训练，例如根据差异信息确定梯度信息，并回传给第一模型，以使第一模型更新自身的参数，以进行训练。示例地，在两种差异信息均最小的情况下，可确定第一模型训练完成，并可将训练完成的模型转换为ncnn支持的格式，通过ncnn进行推理加速，以得到区域检测模型。

通过上述方案，可预先训练得到区域检测模型，在对视频进行处理时，可直接将待处理视频的目标图像帧输入到区域检测模型中，便可得到该区域检测模型输出的目标图像帧中的头肩检测区域和人脸检测区域。

可选地，S103中根据人脸检测区域，确定目标图像帧对应的人体的预测年龄信息，可包括：

将人脸检测区域输入到年龄预测模型中，得到年龄预测模型输出的目标图像帧对应的人体的预测年龄信息，其中，年龄预测模型通过如下方式进行训练：

获取第二训练样本图像，以及第二训练样本图像中人脸的标注年龄信息；将第二训练样本图像输入到第二模型中，得到第二模型输出的第二训练样本图像中人脸的年龄信息；根据第二模型输出的年龄信息与标注年龄信息之间的差异信息，对第二模型进行训练，以得到年龄预测模型。

其中，可预先构建用于训练得到年龄预测模型的样本集，并且样本集中可包括不同角度、光照、模糊程度的人脸图像，第二训练样本图像可以为该样本集中的图像，可对第二训练样本图像中人脸的年龄信息进行标注，得到人脸的标注年龄信息。之后，将第二训练样本图像输入到第二模型中，得到第二模型输出的第二训练样本图像中人脸的年龄信息，该第二模型可采用resnet18。根据第二模型输出的年龄信息与标注年龄信息之间的差异信息，可对第二模型进行训练，例如根据该差异信息确定梯度信息并回传给第二模型，以使第二模型根据梯度信息更新自身的参数，示例地，在该差异信息最小的情况下，可确定第二模型训练完成，并可将训练完成的模型转换为ncnn支持的格式，通过ncnn进行推理加速，以得到年龄预测模型。

通过上述方案，可预先训练得到年龄预测模型，在对视频进行处理时，在得到目标图像帧中人体的人脸检测区域后，可将人脸检测区域输入到该年龄预测模型中，便可得到年龄预测模型输出的目标图像帧对应的人体的预测年龄信息。

可选地，S104中根据年龄信息存储空间中存储的年龄信息，确定是否需要对人脸检测区域进行区域保护处理，可包括：

根据年龄信息存储空间中存储的年龄信息，确定人体的目标年龄信息；

在目标年龄信息小于或等于预设年龄阈值的情况下，确定需要对人脸检测区域进行区域保护处理。

其中，根据年龄信息存储空间中存储的年龄信息，确定人体的目标年龄信息，可包括：

在年龄信息存储空间中存储的年龄信息的数量为一个的情况下，将年龄信息存储空间中存储的年龄信息确定为目标年龄信息；在该数量为多个的情况下，将年龄信息存储空间中存储的多个年龄信息的加权值确定为目标年龄信息。

年龄信息存储空间用于存储连续出现人体的每一图像帧各自对应的人体的预测年龄信息。示例地，在待处理视频的首帧，例如图像帧1，此时跟踪器a对应的年龄信息存储空间中存储的年龄信息的数量为一个，即根据图像帧1中人体A的人脸检测区域得到的人体A的预测年龄信息，可将年龄信息存储空间中存储的年龄信息确定为人体A的目标年龄信息。

在图像帧2，此时跟踪器a对应的年龄信息存储空间中存储的年龄信息的数量为多个，即包括根据图像帧1中人体A的人脸检测区域得到的预测年龄信息、以及根据图像帧2中人体A的人脸检测区域得到的预测年龄信息，可将年龄信息存储空间中存储的多个年龄信息的加权值确定为人体A的目标年龄信息，对于各个年龄信息的权重，本公开不做限制，例如可将年龄信息存储空间中存储的多个年龄信息的平均值确定为目标年龄信息。

在目标年龄信息小于或等于预设年龄阈值的情况下，可表征目标图像帧中该人体的年龄较小，为学生的可能性较大，可确定需要对人脸检测区域进行区域保护处理。如果目标年龄信息大于预设年龄阈值，可表征该人体的年龄相对较大，为教师的可能性较大，可确定不需要对人脸检测区域进行区域保护处理。上述的预设年龄阈值可预先标定出。

本公开提供的视频处理方法还可包括：

在确定需要对人脸检测区域进行区域保护处理的情况下，通过如下方式之一对人脸检测区域进行区域保护处理：

对人脸检测区域进行图像模糊处理；

通过预设图像对人脸检测区域进行覆盖处理，其中，预设图像的透明度低于预设的透明度阈值。

对人脸检测区域进行区域保护处理的方式可以有多种，例如，对人脸检测区域进行区域模糊处理，例如马赛克处理，或者，通过透明度低于预设的透明度阈值的图像对人脸检测区域进行覆盖处理，以保护视频中人物的隐私。

基于同一发明构思，本公开还提供一种视频处理装置，图4是根据一示例性实施例示出的一种视频处理装置的框图，如图4所示，该装置400可包括：

获取模块401，用于获取待处理视频的目标图像帧中人体的头肩检测区域和所述人体的人脸检测区域；

第一确定模块402，用于确定所述头肩检测区域的目标跟踪器以及所述目标跟踪器的跟踪标识信息，其中，所述目标跟踪器用于跟踪所述待处理视频中连续出现所述人体的图像帧；

第二确定模块403，用于根据所述人脸检测区域，确定所述目标图像帧对应的所述人体的预测年龄信息，并将所述预测年龄信息存储到所述跟踪标识信息对应的年龄信息存储空间中，其中，所述年龄信息存储空间用于存储连续出现所述人体的每一图像帧各自对应的所述人体的预测年龄信息；

判断模块404，用于根据所述年龄信息存储空间中存储的年龄信息，确定是否需要对所述人脸检测区域进行区域保护处理。

采用上述装置400，首先获取待处理视频的目标图像帧中人体的头肩检测区域和人体的人脸检测区域，并确定头肩检测区域的目标跟踪器以及目标跟踪器的跟踪标识信息，目标跟踪器用于跟踪待处理视频中连续出现该人体的图像帧，采用头肩检测区域进行人体的跟踪，区域范围更大，更容易检测，且跟踪更加稳定。根据人脸检测区域，确定目标图像帧对应的人体的预测年龄信息，并将该预测年龄信息存储到跟踪标识信息对应的年龄信息存储空间中，年龄信息存储空间可用于存储连续出现该人体的每一图像帧各自对应的该人体的预测年龄信息，根据年龄信息存储空间中存储的年龄信息，确定是否需要对目标图像帧中的人脸检测区域进行区域保护处理，可以避免仅根据单个图像帧中人体的预测年龄信息进行判断不够准确的问题，提高对视频中人脸区域进行保护处理的稳定性和准确性。

可选地，所述第一确定模块402，包括：

可选地，所述判断子模块，包括：

可选地，所述第一确定模块402，包括：

可选地，所述获取模块401，包括：

可选地，所述第二确定模块403，包括：

可选地，所述判断模块404，包括：

可选地，所述第五确定子模块用于：

可选地，所述装置400还包括：

对所述人脸检测区域进行图像模糊处理；

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图5是根据一示例性实施例示出的一种电子设备700的框图。如图5所示，该电子设备700可以包括：处理器701，存储器702。该电子设备700还可以包括多媒体组件703，输入/输出(I/O)接口704，以及通信组件705中的一者或多者。

其中，处理器701用于控制该电子设备700的整体操作，以完成上述的视频处理方法中的全部或部分步骤。存储器702用于存储各种类型的数据以支持在该电子设备700的操作，这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件703可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器702或通过通信组件705发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口704为处理器701和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件705用于该电子设备700与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G、4G、NB-IOT、eMTC、或其他5G等等，或它们中的一种或几种的组合，在此不做限定。因此相应的该通信组件705可以包括：Wi-Fi模块，蓝牙模块，NFC模块等等。

在一示例性实施例中，电子设备700可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的视频处理方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的视频处理方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器702，上述程序指令可由电子设备700的处理器701执行以完成上述的视频处理方法。

图6是根据另一示例性实施例示出的一种电子设备1900的框图。例如，电子设备1900可以被提供为一服务器。参照图6，电子设备1900包括处理器1922，其数量可以为一个或多个，以及存储器1932，用于存储可由处理器1922执行的计算机程序。存储器1932中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理器1922可以被配置为执行该计算机程序，以执行上述的视频处理方法。

另外，电子设备1900还可以包括电源组件1926和通信组件1950，该电源组件1926可以被配置为执行电子设备1900的电源管理，该通信组件1950可以被配置为实现电子设备1900的通信，例如，有线或无线通信。此外，该电子设备1900还可以包括输入/输出(I/O)接口1958。电子设备1900可以操作基于存储在存储器1932的操作系统，例如WindowsServer^TM，Mac OSX^TM，Unix^TM，Linux^TM等等。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的视频处理方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器1932，上述程序指令可由电子设备1900的处理器1922执行以完成上述的视频处理方法。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的视频处理方法的代码部分。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述确定所述头肩检测区域的目标跟踪器以及所述目标跟踪器的跟踪标识信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述确定是否存在与所述目标图像帧中的所述头肩检测区域相匹配的所述头肩预测区域，包括：

4.根据权利要求1所述的方法，其特征在于，所述确定所述头肩检测区域的目标跟踪器以及所述目标跟踪器的跟踪标识信息，包括：

5.根据权利要求1所述的方法，其特征在于，所述获取待处理视频的目标图像帧中人体的头肩检测区域和所述人体的人脸检测区域，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述人脸检测区域，确定所述目标图像帧对应的所述人体的预测年龄信息，包括：

7.根据权利要求1所述的方法，其特征在于，所述根据所述年龄信息存储空间中存储的年龄信息，确定是否需要对所述人脸检测区域进行区域保护处理，包括：

8.根据权利要求7所述的方法，其特征在于，所述根据所述年龄信息存储空间中存储的年龄信息，确定所述人体的目标年龄信息，包括：

9.根据权利要求1-8中任一项所述的方法，其特征在于，还包括：

对所述人脸检测区域进行图像模糊处理；

10.一种视频处理装置，其特征在于，所述装置包括：

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-9中任一项所述方法的步骤。

12.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-9中任一项所述方法的步骤。