CN112052805A

CN112052805A - 人脸检测框显示方法、图像处理装置、设备和存储介质

Info

Publication number: CN112052805A
Application number: CN202010947500.1A
Authority: CN
Inventors: 张阿强; 马啸; 叶小凤
Original assignee: Shenzhen Shuliantianxia Intelligent Technology Co Ltd
Current assignee: Shenzhen Shuliantianxia Intelligent Technology Co Ltd
Priority date: 2020-09-10
Filing date: 2020-09-10
Publication date: 2020-12-08
Anticipated expiration: 2040-09-10
Also published as: CN112052805B

Abstract

本发明公开了一种人脸检测框显示方法，包括：获取人脸检测图像的基准检测框；根据基准检测框获取变换检测框；根据变换检测框获取待训练图像；判断每个待训练图像是否包括基准检测框；根据每个待训练图像的位置数据和判断结果对其进行标注；根据每个待训练图像和训练标注对神经网络模型进行训练，得到预训练的人脸检测模型；获取待检测视频中的目标图像，获取目标图像的基准检测框；放大基准检测框获取放大检测框；获取下一帧的待测图像，根据放大检测框截取待确认图像；将待确认图像输入预训练的人脸检测模型获取人脸检测结果；若确定待确认图像包括人脸图像，则将放大检测框作为待测图像的人脸检测框。本发明可以有效解决人脸检测框抖动问题。

Description

人脸检测框显示方法、图像处理装置、设备和存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及人脸检测框显示方法、图像处理装置、设备和存储介质。

背景技术

目前有很多种进行人脸跟踪的方法，其中一种比较常见的方法是在追踪过程中训练一个快速的目标检测器，对目标周围进行检测，从而能够快速定位目标位置，达到目标快速跟踪的目的。人脸跟踪技术在一些对人脸进行实时处理的场景中应用非常广泛，然而目前的人脸检测算法，由于每一帧的人脸检测存在误差，当人脸保持静止不动的时候，会出现人脸框不停地抖动，十分影响用户的使用体验。

发明内容

基于此，有必要针对上述问题，提出了人脸检测框显示方法、图像处理装置、设备和存储介质。

一种人脸检测框显示方法，包括：获取人脸检测图像，对所述人脸检测图像进行人脸检测，获取所述人脸检测图像的基准检测框；对所述基准检测框进行放大、收缩、移动中的至少一项操作，获取多个变换检测框；根据所述多个变换检测框对所述人脸检测图像进行截图，获取多个待训练图像；判断每个所述待训练图像是否包括所述基准检测框，生成每个所述待训练图像的判断结果；根据每个所述待训练图像对应的变换检测框在所述人脸检测图像中的位置数据和所述每个所述待训练图像的判断结果，对每个所述待训练图像进行标注，以得到每个所述训练图像的训练标注；根据每个所述待训练图像和每个所述待训练图像的训练标注，对神经网络模型进行训练，得到预训练的人脸检测模型；获取待检测视频中目标帧的目标图像，对所述目标图像进行人脸检测，获取所述目标图像的基准检测框；获取待检测视频中目标帧的目标图像，对所述目标图像进行人脸检测，获取所述目标图像的基准检测框；放大所述目标图像的基准检测框，获取放大检测框；获取所述待检测视频中所述目标帧的下一帧的待测图像，根据所述放大检测框截取所述待测图像中待确认图像；将所述待确认图像输入所述预训练的人脸检测模型，获取所述预训练的人脸检测模型的人脸检测结果；若根据所述人脸检测结果确定所述待确认图像包括人脸图像，则将所述放大检测框作为所述待测图像的人脸检测框。

一种图像处理装置，包括：检测模块，用于获取人脸检测图像，对所述人脸检测图像进行人脸检测，获取所述人脸检测图像的基准检测框；变换模块，用于对所述基准检测框进行放大、收缩、移动中的至少一项操作，获取多个变换检测框；截图模块，用于根据所述多个变换检测框对所述人脸检测图像进行截图，获取多个待训练图像；判断模块，用于判断每个所述待训练图像是否包括所述基准检测框，生成每个所述待训练图像的判断结果；标注模块，用于根据每个所述待训练图像对应的变换检测框在所述人脸检测图像中的位置数据和所述每个所述待训练图像的判断结果，对每个所述待训练图像进行标注，以得到每个所述训练图像的训练标注；训练模块，用于根据每个所述待训练图像和每个所述待训练图像的训练标注，对神经网络模型进行训练，得到预训练的人脸检测模型；目标模块，用于获取待检测视频中目标帧的目标图像，对所述目标图像进行人脸检测，获取所述目标图像的基准检测框；获取待检测视频中目标帧的目标图像，对所述目标图像进行人脸检测，获取所述目标图像的基准检测框；放大模块，用于放大所述目标图像的基准检测框，获取放大检测框；检测模块，用于获取所述待检测视频中所述目标帧的下一帧的待测图像，根据所述放大检测框截取所述待测图像中待确认图像；结果模块，用于将所述待确认图像输入所述预训练的人脸检测模型，获取所述预训练的人脸检测模型的人脸检测结果；确定模块，用于若根据所述人脸检测结果确定所述待确认图像包括人脸图像，则将所述放大检测框作为所述待测图像的人脸检测框。

一种图像处理设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如上所述方法的步骤。

一种存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如上所述方法的步骤。

采用本发明实施例，具有如下有益效果：

将人脸检测图像的基准检测框进行多种变换后获取变换检测框，根据变换检测框进行截图获取多个待训练图像，对待训练图像添加训练标识，训练标识包括待训练图像对应的变换检测框位置数据及该变换检测框是否包括基准检测框，由于待训练图像中人脸区域面积较大且待训练图像自身较小，在训练过程中需要的运算量较小，因此训练速度快，效率高，训练所消耗的资源较少，获取目标帧的目标图像的基准检测框，通过放大获取基准检测框的放大检测框，获取目标帧的下一帧的待测图像的基准检测框，若该基准检测框位于放大检测框内则显示放大检测框，从而可以避免人脸追踪时，由于检测误差等原因造成的人脸检测框抖动的问题，通过预训练的神经网络判断放大检测框是否包括了基准检测框，运算数据量较小，运算速度快，能够实现人脸的快速跟踪。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1是本发明提供的人脸检测框显示方法的第一实施例的流程示意图；

图2是本发明提供的人脸检测框显示方法中的基准检测框和变换检测框的示意图；

图3是本发明提供的人脸检测框显示方法中基准检测框和放大检测框的示意图；

图4是本发明提供的人脸检测框显示方法的第二实施例的流程示意图；

图5是本发明提供的人脸检测框显示方法中得得到预训练的人脸检测模型的方法的一实施例的流程示意图；

图6是本发明提供的Linear bottlenecks模块结构示意图；

图7是本发明提供的一种图像处理装置的结构示意图；

图8是本发明提供的图像处理设备的一实施例的结构示意图；

图9是本发明提供的存储介质的一实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前的人脸检测算法，在速度上不能达到实时的要求，此外，准确率不是很高，尤其是当目标快速移动，或者远近移动时，会出现检测效果误差很大的问题。当人脸保持静止不动的时候，还会出现人脸框不停地抖动(每一帧跟踪的人脸框有误差)，十分影响用户的使用体验。

为了解决上述问题，本实施例中提供一种人脸检测框显示方法，能够实现快速的人脸跟踪，并有效提升人脸跟踪的稳定性。

请参阅图1，图1是本发明提供的人脸检测框显示方法的第一实施例的流程示意图。本发明提供的人脸检测框显示方法包括如下步骤：

S101：获取人脸检测图像，对人脸检测图像进行人脸检测，获取人脸检测图像的基准检测框。

在一个具体的实施场景中，获取人脸检测图像，人脸检测图像可以待检测视频的目标帧的目标图像，也可以是其他任何包括人脸图像的图像。对人脸检测图像进行人脸检测，获取人脸检测图像的基准检测框。人脸检测算法包括dlib算法、mtcnn(Multi-taskconvolutional neural network，多任务卷积神经网络)、ssd(Single Shot MultiBoxDetector，多分类单杆检测器)等目标检测算法，在此不做限定。应理解的是，在实际训练过程中，为了保证模型的精准度，人脸检测图像的数量为多个，由于每个人脸检测图像的处理和训练过程相同，本发明实施例以对一个人脸检测图像的处理和训练过程为示例来进行描述。

S102：对基准检测框进行放大、收缩、移动中的至少一项操作，获取多个变换检测框。

在一个具体的实施场景中，对基准检测框进行放大、收缩、移动中的至少一项操作，获取多个变换检测框，请结合参阅图2，图2是本发明提供的人脸检测框显示方法中的基准检测框和变换检测框的示意图。如图2中所示的，基准检测框为C，而D、E、F和G均为变换检测框。例如，变换检测框D是将基准检测框C放大且向下移动后获取的。变换检测框E是将基准检测框C放大且向右移动后获取的。

进一步地，为了避免变换检测框的尺寸过大，或者偏移过多导致变换检测框距离人脸区域过远，在对基准检测框进行放大、收缩、移动中的至少一项操作时，在预设放大比例阈值范围内对基准检测框进行放大；在预设缩小比例阈值范围内对基准检测框进行缩小；在预设位移阈值范围内对基准检测框进行移动。

在其他实施场景中，还可以预设一位置范围，在对基准检测框进行放大、收缩、移动中的至少一项操作时，生成的变换检测框不得超出该位置范围。该位置范围可根据基准检测框的位置和大小以及人脸检测图像的大小进行设置。

在本实施场景中，预设放大比例阈值范围为通用范围，在后续放大基准检测框，获取放大检测框时，也采用同样的预设放大比例阈值范围。

S103：根据多个变换检测框对人脸检测图像进行截图，获取多个待训练图像。

在一个具体的实施场景中，根据多个变换检测框对人脸检测图像进行截图。例如，获取每个变换检测框的四边的位置，根据四边的位置对人脸检测图像进行截图，获取待训练图像，每个变换检测框对应一待训练图像。

S104：判断每个待训练图像是否包括基准检测框，生成每个待训练图像的判断结果。

在一个具体的实施场景中，获取人脸检测图像的基准检测框的位置数据(x0，y0，w0，h0)，其中，x0表示该基准检测框的左上角顶点的横坐标，y0表示该基准检测框的左上角的纵坐标，w0表示该基准检测框的宽，h0表示该基准检测框的高。在其他实施场景中，位置数据也可以采用其他方法表示，例如基准检测框的每个顶点的坐标，或者基准检测框的右上角顶点的坐标以及基准检测框的宽度和高度，或者是基准检测框的两个顶点的坐标以及基准检测框的宽度或者高度等等。

获取每个变换检测框的位置数据(xi，yi，wi，hi)，其中，i表示第i个变换检测框，xi表示第i个变换检测框的左上角顶点的横坐标，yi表示第i个变换检测框的左上角顶点的纵坐标，wi表示第i个变换检测框的宽，hi表示第i个变换检测框的高。在其他实施场景中，位置数据也可以采用其他方法表示，与上文中的人脸检测图像的基准检测框的位置数据类似，此处不再进行赘述。

根据获取的每个变换检测框的位置数据和基准检测框的位置数据判断该变换检测框是否包括完整的基准检测框。例如，可根据基准检测框的左上角顶点的横纵坐标和宽高，计算出基准检测框的四条边或者四个顶点的位置，以及根据变换检测框的左上角顶点的横纵坐标和宽高计算每个变换检测框的四条边或者四个顶点的位置，从而判断变换检测框是否包括完整的基准检测框。

在本实施场景中，设置参数pi表示第i个变换检测框是否包括完整的基准检测框的判断结果，当pi＝1时，表示第i个变换检测框包括完整的基准检测框，pi＝0时，则表示第i个变换检测框不包括完整的基准检测框。

S105：根据每个待训练图像对应的变换检测框在人脸检测图像中的位置数据和每个待训练图像的判断结果，对每个待训练图像进行标注，以得到每个训练图像的训练标注。

在一个具体的实施场景中，将每个待训练图像对应的变换检测框的位置数据(xi，yi，wi，hi)以及该变换检测框是否包括基准检测框的判断结果pi作为该待训练图像的标注，例如第i个待训练图像的标注为(xi，yi，wi，hi，pi)。

S106：根据每个待训练图像和每个待训练图像的训练标注，对神经网络模型进行训练，得到预训练的人脸检测模型。

在一个具体的实施场景中，将每个待训练图像及其训练标注输入神经网络模型进行训练，当神经网络模型训练完成后，得到预训练的人脸检测模型。由于待训练图像中人脸区域的比例较大，且待训练图像的尺寸较小，因此可以使用输入尺寸很小、并且很浅的CNN(Convolutional Neural Networks，卷积神经网络)进行训练。

S107：获取待检测视频中目标帧的目标图像，对目标图像进行人脸检测，获取目标图像的基准检测框。

在一个具体的实施场景中，获取待检测视频，该待检测视频可以是用户预先录制的或者从网络下载的，还可以是用户实时拍摄的。待检测视频包括若干帧的图像。通过预设的人脸检测算法可获取目标帧的目标图像的基准检测框。该基准检测框根据目标图像中检测出的人脸区域进行设置，为一长方形方框，该长方形方框的四条边均靠近人脸区域设置。人脸检测算法包括dlib算法、mtcnn(Multi-task convolutional neural network，多任务卷积神经网络)、ssd(Single Shot MultiBox Detector，多分类单杆检测器)等目标检测算法，在此不做限定。

S108：放大目标图像的基准检测框，获取放大检测框。

在一个具体的实施场景中，对基准检测框进行放大，获取放大检测框。请结合参阅图3，图3是本发明提供的人脸检测框显示方法中基准检测框和放大检测框的示意图。如图3中所示，检测框A为目标图像的基准检测框。图3中检测框B为目标图像的放大检测框。进一步地，可以设置一放大比例阈值，例如根据目标图像中人脸区域占整个目标图像显示区域的比例大小设置，或者根据人脸检测框显示方法的精度需求设置。例如放大比例阈值为1.5倍，则在对基准检测框进行放大时，不得超过该放大比例阈值，例如可以将基准检测框放大1.2倍、1.45倍等等。

S109：获取待检测视频中目标帧的下一帧的待测图像，根据放大检测框截取待测图像中待确认图像。

在一个具体的实施场景中，获取待检测视频中目标帧的下一帧的待测图像。在本实施场景中，目标帧为待检测视频中的第一帧，目标帧的下一帧为待检测视频中的第二帧，在其他实施场景中，目标帧可以为待检测视频中除了最后一帧之外的任意帧，例如第N帧，则目标帧的下一帧为第N+1帧。

获取放大检测框的位置数据，例如放大检测框的四边或者四个顶点在目标图像中的位置数据，根据该位置数据在待测图像中放入放大检测框，根据放大检测框截取待测图像，例如，沿着放大检测框的四边进行截取，获取待确认图像。

S110：将待确认图像输入预训练的人脸检测模型，获取预训练的人脸检测模型的人脸检测结果。

在一个具体的实施场景中，预训练一个人脸检测模型，该人脸检测模型可用于检测待确认图像中是否包括人脸图像。该人脸检测模型根据由于仅对待确认图像进行判断，需要处理的数据量较小，因此运算速度较快。

S111：若根据人脸检测结果确定待确认图像包括人脸图像，则将放大检测框作为待测图像的人脸检测框。

在一个具体的实施场景中，当人脸处于静止状态时，由于检测误差等原因，即使下一帧的待测图像中人脸的位置没有发生位移，通过人脸检测算法获取的基准检测框的位置依然可能与目标图像中的基准检测框的位置不一致，如果连续多帧的待测图像的基准检测框的位置都不一致，若直接将基准检测框作为人脸监控框，则会出现人脸检测框抖动的问题。而针对目标图像中的基准检测框进行预设比例的放大获得放大检测框，将放大检测框作为目标图像的人脸检测框，若待测图像中人脸位置相较于目标图像中的人脸位置不发生位移，或者发生的位移极小，那么即使待测图像中的基准检测框相较于目标图像中的基准检测框发生了位移，该基准检测框依旧位于放大检测框内，依旧将放大检测框作为下一帧的人脸检测框，这样人脸检测框在下一帧的待测图像中的位置相较于上一帧的位置没有发生变化，从而解决了人脸检测框抖动的问题。

通过上述描述可知，在本实施例中，将人脸检测图像的基准检测框进行多种变换后获取变换检测框，根据变换检测框进行截图获取多个待训练图像，对待训练图像添加训练标识，训练标识包括待训练图像对应的变换检测框位置数据及该变换检测框是否包括基准检测框，由于待训练图像中人脸区域面积较大，因此训练速度快，效率高，训练所消耗的资源较少，获取目标帧的目标图像的基准检测框，通过放大获取基准检测框的放大检测框，获取目标帧的下一帧的待测图像的基准检测框，若该基准检测框位于放大检测框内则显示放大检测框，从而可以避免人脸追踪时，由于检测误差等原因造成的人脸检测框抖动的问题，通过预训练的神经网络判断放大检测框是否包括了基准检测框，运算数据量较小，运算速度快，能够实现人脸的快速跟踪。

请参阅图4，图4是本发明提供的人脸检测框显示方法的第二实施例的流程示意图。本发明提供的人脸检测框显示方法包括如下步骤：

S401：获取待检测视频中目标帧的目标图像，对目标图像进行人脸检测，获取目标图像的基准检测框。

在一个具体的实施场景中，步骤4501与本发明提供的人脸检测框显示方法的第一实施例中的步骤S107基本一致，此处不再进行赘述。

S402：放大基准检测框，获取放大检测框，将放大检测框作为目标图像的人脸检测框。

在一个具体的实施场景中，放大基准检测框，获取放大检测框的步骤与本发明提供的人脸检测框显示方法的第一实施例中的步骤S108基本一致，此处不再进行赘述。将放大检测框作为目标图像的人脸检测框，即在显示时，并不显示目标图像的基准检测框，而是显示放大检测框。

S403：获取待检测视频中目标帧的下一帧的待测图像，根据放大检测框截取待测图像中待确认图像。

S404：将待确认图像输入预训练的人脸检测模型，获取预训练的人脸检测模型的人脸检测结果。

在一个具体的实施场景中，步骤S403-S404与本发明提供的人脸检测框显示方法的第一实施例中的步骤S110-S111基本一致，此处不再进行赘述。

S405：若根据人脸检测结果确定待确认图像不包括人脸图像，则对待测图像进行人脸检测，获取待测图像的基准检测框，将基准检测框作为待测图像的人脸检测框。

在一个具体的实施场景中，待确认图像不包括人脸图像，则表示待检测视频中的人物从目标帧到目标帧的下一帧移动的距离较大，已经超出放大检测框的范围。这是由于当待检测视频中的人脸处于快速移动的状态时，下一帧的待测图像中人脸的位置相较于上一帧发生了较大的位移，此时放大检测框中无法包括全部的人脸图像，因此，重新对待测图像进行人脸检测，将待测图像的基准检测框作为待测图像的人脸检测框。

进行人脸检测的算法可以与步骤S101中相同，也可以不同，人脸检测算法包括dlib算法、mtcnn(Multi-task convolutional neural network，多任务卷积神经网络)、ssd(Single Shot MultiBox Detector，多分类单杆检测器)等目标检测算法，在此不做限定。

通过上述描述可知，在本实施例中通过获取目标帧的目标图像的基准检测框，通过放大获取基准检测框的放大检测框，将放大检测框作为目标帧的目标图像的人脸检测框，获取目标帧的下一帧的待测图像的基准检测框，下一帧的待测图像的基准检测框若由于检测误差等原因导致微小的位移时，由于放大检测框包括了发生微小位移的基准检测框，因此，依旧显示放大检测框，也就是说人脸检测框在下一帧不发生变化，从而可以避免人脸追踪时，由于检测误差等原因造成的人脸检测框抖动的问题，通过预训练的神经网络判断放大检测框是否包括了基准检测框，运算数据量较小，运算速度快，能够实现人脸的快速跟踪。

请参阅图5，图5是本发明提供的人脸检测框显示方法中得得到预训练的人脸检测模型的方法的一实施例的流程示意图。本发明提供的人脸检测框显示方法中得到预训练的人脸检测模型的方法包括如下步骤：

S501：计算目标待训练图像对应的变换检测框在人脸检测图像中的位置数据，与人脸检测图像的基准检测框在人脸检测图像中的位置数据之间的位置偏移值，并将位置数据作为目标待训练图像的位置标注，目标待训练图像为任一待训练图像。

在一个具体的实施场景中，从多个待训练图像中任意选择一个作为目标待训练图像，获取该目标待训练图像对应的变换检测框在人脸检测图像中的位置数据，例如，该变换检测框的位置数据为(xi，yi，wi，hi)，其中，i表示第i个变换检测框，xi表示第i个变换检测框的左上角顶点的横坐标，yi表示第i个变换检测框的左上角顶点的纵坐标，wi表示第i个变换检测框的宽，hi表示第i个变换检测框的高。在其他实施场景中，位置数据也可以采用其他方法表示，与上文中的人脸检测图像的基准检测框的位置数据类似，此处不再进行赘述。

将该变换检测框的位置数据(xi，yi，wi，hi)与人脸检测图像的基准检测框位置数据(x0，y0，w0，h0)相减，获取基准检测框和该目标待训练图像对应的变换检测框的位置偏置值(xc，yc，wc，hc)。将该变换检测框的位置数据(xi，yi，wi，hi)作为目标待训练图像的位置标注。

S502：将目标待训练图像对应的判断结果作为目标待训练图像的人脸检测结果标注。

在一个具体的实施场景中，设置参数pi表示第i个变换检测框是否包括完整的基准检测框的判断结果，当pi＝1时，表示第i个变换检测框包括完整的基准检测框，pi＝0时，则表示第i个变换检测框不包括完整的基准检测框。

将目标待训练图像对应的变换检测框是否包括基准检测框的判断结果pi作为该待训练图像的标注，例如第i个待训练图像的标注为(xi，yi，wi，hi，pi)。

S503：将目标待训练图像输入神经网络模型，获取神经网络模型输出的预测位置数据和人脸检测结果数据。

在一个具体的实施场景中，设定模型输入尺寸为64*64,三层Linear bottlenecks(线性瓶颈)模块。请结合参阅图6，图6是本发明提供的Linear bottlenecks模块结构示意图。如图6所示的，输入模块用于接收待处理的数据，1*1卷积模块用于执行卷积核为1*1的卷积，Relu(Rectified Linear Unit，线性整流函数)6，卷积之后通常会接一个ReLU非线性激活，ReLU6就是普通的ReLU但是限制最大输出值为6(对输出值做clip)，这是为了在移动端设备低精度的时候，也能有很好的数值分辨率。3*3卷积模块用于执行卷积核为3*3的卷积。线性器用于执行线性处理。

请结合参阅表1，表1是本发明提供的CNN表格。其中，bottleneck即为图5所示的Linear bottlenecks模块。Conv2d即为2维卷积模块，avgpool为平均池化层。t为扩展因子，c为通道数，n为重复次数，s为步长。

Input	Operator	t	c	n	s
						64643	conv2d	-	16	1	2
323216	bottleneck	1	16	1	1
						323216	bottleneck	3	24	2	2
161624	bottleneck	3	32	1	1
						161632	bottleneck	3	32	2	2
8832	conv2d	-	64	1	1
						8864	avgpool 8*8	-	-	1	-
115	conv2d 1*1	-	k	-	-

表1

在实际使用中，将目标待训练图像依次经过operator栏中的模块处理，获取该目标待训练图像的预测位置数据和人脸结果数据。

S504：根据预测位置数据与目标待训练图像的位置标注计算第一损失。

在一个具体的实施场景中，假设CNN的预测输出为(x’，y’，w’，h’，p’)，其中，(x’，y’，w’，h’)为预测位置数据，p’为人脸结果数据，分别计算(x’，y’，w’，h’)和p’的损失函数，(x’，y’，w’，h’)的第一损失L1可以通过以下公式计算得出：

L1＝|x′-xc|+|y′-yc|+|w′-wc|+|h′-hc|

其中，每一个变换检测框的位置数据(xi，yi，wi，hi)均对应一个位置偏置值(xc，yc，wc，hc)，获取一变换检测框对应的预测位置数据(x’，y’，w’，h’)，根据对应的预测位置数据(x’，y’，w’，h’)和位置偏置值(xc，yc，wc，hc)计算第一损失L1。

S505：根据人脸结果数据与目标待训练图像的人脸检测标注计算第二损失。

在一个具体的实施场景中，P’的损失L2采用softmax cross entropy计算，可以通过以下公式计算得出：

L2＝-∑yc ln(softmax(p′))

S506：根据第一损失和第二损失计算神经网络模型的总损失。

在一个具体的实施场景中，根据第一损失和第二损失计算总损失，具体地说。总损失函数L根据以下公式计算得出：

L＝L1*pi+λ*L2

其中，λ为经验值，可根据用户的使用经验灵活设置，例如0.1、0.2或者1、2等等。

S507：根据总损失对神经网络模型进行迭代调参，直至神经网络模型的收敛，以得到预训练的人脸检测模型。

在一个具体的实施场景中，根据总损失对神经网络模型进行迭代调参，以优化神经网络模型，直至神经网络模型的总损失收敛，或者收敛程度符合预设条件，则判定神经网络模型训练完成，将训练完成的申请网络模型作为预训练的人脸检测模型。

具体地说，根据总损失函数L，采用adam优化器进行模型训练。在本实施场景中，对CNN进行训练时调用Adam模块。Adam算法，即一种对随机目标函数执行一阶梯度优化的算法，该算法基于适应性低阶矩估计。Adam算法很容易实现，并且有很高的计算效率和较低的内存需求，能提升CNN网络的收敛效率。Adam算法是一种计算每个参数的自适应学习率的方法。相当于RMSprop(Root Mean Square Prop)+Momentum除了像RMSprop存储了过去梯度的平方vt的指数衰减平均值，也像Momentum一样保持了过去梯mt的指数衰减平均值。

根据上述描述可知，在本实施例中根据位置偏移数据与目标待训练图像的位置标注计算第一损失，根据人脸结果数据与目标待训练图像的人脸检测标注计算第二损失，可以同时兼顾预测位置数据和预测人脸结果数据两方面的损失，有效提升模型输出结果的可靠性，提升训练结果的可靠性。

请参阅图7，图7是本发明提供的一种图像处理装置的结构示意图。图像处理装置10包括检测模块101、变换模块102、截图模块103、判断模块104、标注模块105、训练模块106、目标模块107、放大模块108、检测模块109、结果模块110、确定模块111。检测模块101用于获取人脸检测图像，对人脸检测图像进行人脸检测，获取人脸检测图像的基准检测框；变换模块102用于对基准检测框进行放大、收缩、移动中的至少一项操作，获取多个变换检测框；截图模块103用于根据多个变换检测框对人脸检测图像进行截图，获取多个待训练图像；判断模块104用于判断每个待训练图像是否包括基准检测框，生成每个待训练图像的判断结果；标注模块105用于根据每个待训练图像对应的变换检测框在人脸检测图像中的位置数据和每个待训练图像的判断结果，对每个待训练图像进行标注，以得到每个训练图像的训练标注；训练模块106用于根据每个待训练图像和每个待训练图像的训练标注，对神经网络模型进行训练，得到预训练的人脸检测模型；目标模块107用于获取待检测视频中目标帧的目标图像，对目标图像进行人脸检测，获取目标图像的基准检测框；放大模块108用于放大目标图像的基准检测框，获取放大检测框；检测模块109用于获取待检测视频中目标帧的下一帧的待测图像，根据放大检测框截取待测图像中待确认图像；结果模块110用于将待确认图像输入预训练的人脸检测模型，获取预训练的人脸检测模型的人脸检测结果；确定模块111用于若根据人脸检测结果确定待确认图像包括人脸图像，则将放大检测框作为待测图像的人脸检测框。

放大模块108还用于将放大检测框作为目标图像的人脸检测框。

确定模块111还用于若根据人脸检测结果确定待确认图像不包括人脸图像，则对待测图像进行人脸检测，获取待测图像的基准检测框，将基准检测框作为待测图像的人脸检测框。

标注模块105还用于计算目标待训练图像对应的变换检测框在人脸检测图像中的位置数据，与人脸检测图像的基准检测框在人脸检测图像中的位置数据之间的位置偏移值，并将位置数据作为目标待训练图像的位置标注，目标待训练图像为任一待训练图像；将目标待训练图像对应的判断结果作为目标待训练图像的人脸检测结果标注。

训练模块106还用于将目标待训练图像输入神经网络模型，获取神经网络模型输出的预测位置数据和人脸检测结果数据；根据预测位置数据与目标待训练图像的位置标注计算第一损失；根据人脸结果数据与目标待训练图像的人脸检测标注计算第二损失；根据第一损失和第二损失计算神经网络模型的总损失；根据总损失对神经网络模型进行迭代调参，直至神经网络模型的收敛，以得到预训练的人脸检测模型。

训练模块106还用于对第一损失和第二损失进行加权求和，得到神经网络模型的总损失。

变换模块102还用于在预设放大比例阈值范围内对基准检测框进行放大；和/或在预设缩小比例阈值范围内对基准检测框进行缩小；和/或在预设位移阈值范围内对基准检测框进行移动。

通过上述描述可知，在本实施例中，图像处理装置将人脸检测图像的基准检测框进行多种变换后获取变换检测框，根据变换检测框进行截图获取多个待训练图像，对待训练图像添加训练标识，训练标识包括待训练图像对应的变换检测框位置数据及该变换检测框是否包括基准检测框，由于待训练图像中人脸区域面积较大，因此训练速度快，效率高，训练所消耗的资源较少，获取目标帧的目标图像的基准检测框，通过放大获取基准检测框的放大检测框，获取目标帧的下一帧的待测图像的基准检测框，若该基准检测框位于放大检测框内则显示放大检测框，从而可以避免人脸追踪时，由于检测误差等原因造成的人脸检测框抖动的问题，通过预训练的神经网络判断放大检测框是否包括了基准检测框，运算数据量较小，运算速度快，能够实现人脸的快速跟踪。

请参阅图8，图8是本发明提供的图像处理设备的一实施例的结构示意图。图像处理设备20包括处理器21、存储器22。处理器21耦接存储器22。存储器22中存储有计算机程序，处理器21在工作时执行该计算机程序以实现如图1和图5-6所示的方法。详细的方法可参见上述，在此不再赘述。

通过上述描述可知，在本实施例中，图像处理设备将人脸检测图像的基准检测框进行多种变换后获取变换检测框，根据变换检测框进行截图获取多个待训练图像，对待训练图像添加训练标识，训练标识包括待训练图像对应的变换检测框位置数据及该变换检测框是否包括基准检测框，由于待训练图像中人脸区域面积较大，因此训练速度快，效率高，训练所消耗的资源较少，获取目标帧的目标图像的基准检测框，通过放大获取基准检测框的放大检测框，获取目标帧的下一帧的待测图像的基准检测框，若该基准检测框位于放大检测框内则显示放大检测框，从而可以避免人脸追踪时，由于检测误差等原因造成的人脸检测框抖动的问题，通过预训练的神经网络判断放大检测框是否包括了基准检测框，运算数据量较小，运算速度快，能够实现人脸的快速跟踪。

请参阅图9，图9是本发明提供的存储介质的一实施例的结构示意图。存储介质30中存储有至少一个计算机程序31，计算机程序31用于被处理器执行以实现如图1和图5-6所示的方法，详细的方法可参见上述，在此不再赘述。在一个实施例中，可读存储介质30可以是终端中的存储芯片、硬盘或者是移动硬盘或者优盘、光盘等其他可读写存储的工具，还可以是服务器等等。

通过上述描述可知，在本实施例中，存储介质中的计算机程序可以用于将人脸检测图像的基准检测框进行多种变换后获取变换检测框，根据变换检测框进行截图获取多个待训练图像，对待训练图像添加训练标识，训练标识包括待训练图像对应的变换检测框位置数据及该变换检测框是否包括基准检测框，由于待训练图像中人脸区域面积较大，因此训练速度快，效率高，训练所消耗的资源较少，获取目标帧的目标图像的基准检测框，通过放大获取基准检测框的放大检测框，获取目标帧的下一帧的待测图像的基准检测框，若该基准检测框位于放大检测框内则显示放大检测框，从而可以避免人脸追踪时，由于检测误差等原因造成的人脸检测框抖动的问题，通过预训练的神经网络判断放大检测框是否包括了基准检测框，运算数据量较小，运算速度快，能够实现人脸的快速跟踪。

区别于现有技术，本发明将人脸检测图像的基准检测框进行多种变换后获取变换检测框，根据变换检测框进行截图获取多个待训练图像，由于待训练图像中人脸区域面积较大，因此训练速度快，效率高，训练所消耗的资源较少，获取目标帧的目标图像的基准检测框，通过放大获取基准检测框的放大检测框，获取目标帧的下一帧的待测图像的基准检测框，若该基准检测框位于放大检测框内则显示放大检测框，从而可以避免人脸追踪时，由于检测误差等原因造成的人脸检测框抖动的问题。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种人脸检测框显示方法，其特征在于，包括：

获取人脸检测图像，对所述人脸检测图像进行人脸检测，获取所述人脸检测图像的基准检测框；

对所述基准检测框进行放大、收缩、移动中的至少一项操作，获取多个变换检测框；

根据所述多个变换检测框对所述人脸检测图像进行截图，获取多个待训练图像；

判断每个所述待训练图像是否包括所述基准检测框，生成每个所述待训练图像的判断结果；

根据每个所述待训练图像对应的变换检测框在所述人脸检测图像中的位置数据和所述每个所述待训练图像的判断结果，对每个所述待训练图像进行标注，以得到每个所述训练图像的训练标注；

根据每个所述待训练图像和每个所述待训练图像的训练标注，对神经网络模型进行训练，得到预训练的人脸检测模型；

获取待检测视频中目标帧的目标图像，对所述目标图像进行人脸检测，获取所述目标图像的基准检测框；

放大所述目标图像的基准检测框，获取放大检测框；

获取所述待检测视频中所述目标帧的下一帧的待测图像，根据所述放大检测框截取所述待测图像中待确认图像；

将所述待确认图像输入所述预训练的人脸检测模型，获取所述预训练的人脸检测模型的人脸检测结果；

若根据所述人脸检测结果确定所述待确认图像包括人脸图像，则将所述放大检测框作为所述待测图像的人脸检测框。

2.根据权利要求1所述的人脸检测框显示方法，其特征在于，所述获取放大检测框的步骤之后，包括：

将所述放大检测框作为所述目标图像的人脸检测框。

3.根据权利要求1所述的人脸检测框显示方法，其特征在于，所述方法还包括：

若根据所述人脸检测结果确定所述待确认图像不包括人脸图像，则对所述待测图像进行人脸检测，获取所述待测图像的基准检测框，将所述基准检测框作为所述待测图像的人脸检测框。

4.根据权利要求1所述的人脸检测框显示方法，其特征在于，所述根据每个所述待训练图像对应的变换检测框在所述人脸检测图像中的位置数据和所述每个所述待训练图像的判断结果，对每个所述待训练图像进行标注，以得到每个所述训练图像的训练标注，包括：

计算目标待训练图像对应的变换检测框在所述人脸检测图像中的位置数据，与所述人脸检测图像的基准检测框在所述人脸检测图像中的位置数据之间的位置偏移值，并将所述位置数据作为所述目标待训练图像的位置标注，所述目标待训练图像为任一待训练图像；

将所述目标待训练图像对应的判断结果作为所述目标待训练图像的人脸检测结果标注。

5.根据权利要求4所述的人脸检测框显示方法，其特征在于，所述根据每个所述待训练图像和所述每个待训练图像的训练标注，对神经网络模型进行训练，得到预训练的人脸检测模型，包括：

将所述目标待训练图像输入所述神经网络模型，获取所述神经网络模型输出的预测位置数据和人脸检测结果数据；

根据所述预测位置数据与所述目标待训练图像的位置标注计算第一损失；

根据所述人脸结果数据与所述目标待训练图像的人脸检测标注计算第二损失；

根据所述第一损失和所述第二损失计算所述神经网络模型的总损失；

根据所述总损失对所述神经网络模型进行迭代调参，直至所述神经网络模型的收敛，以得到所述预训练的人脸检测模型。

6.根据权利要求5所述的人脸检测框显示方法，其特征在于，所述根据所述第一损失和所述第二损失计算所述神经网络模型的总损失，包括：

对所述第一损失和所述第二损失进行加权求和，得到所述神经网络模型的总损失。

7.根据权利要求1所述的人脸检测框显示方法，其特征在于，所述对所述基准检测框进行放大、收缩、移动中的至少一项操作的步骤，包括：

在预设放大比例阈值范围内对所述基准检测框进行放大；和/或

在预设缩小比例阈值范围内对所述基准检测框进行缩小；和/或

在预设位移阈值范围内对所述基准检测框进行移动。

8.一种图像处理装置，其特征在于，包括：

检测模块，用于获取人脸检测图像，对所述人脸检测图像进行人脸检测，获取所述人脸检测图像的基准检测框；

变换模块，用于对所述基准检测框进行放大、收缩、移动中的至少一项操作，获取多个变换检测框；

截图模块，用于根据所述多个变换检测框对所述人脸检测图像进行截图，获取多个待训练图像；

判断模块，用于判断每个所述待训练图像是否包括所述基准检测框，生成每个所述待训练图像的判断结果；

标注模块，用于根据每个所述待训练图像对应的变换检测框在所述人脸检测图像中的位置数据和所述每个所述待训练图像的判断结果，对每个所述待训练图像进行标注，以得到每个所述训练图像的训练标注；

训练模块，用于根据每个所述待训练图像和每个所述待训练图像的训练标注，对神经网络模型进行训练，得到预训练的人脸检测模型；

目标模块，用于获取待检测视频中目标帧的目标图像，对所述目标图像进行人脸检测，获取所述目标图像的基准检测框；

放大模块，用于放大所述目标图像的基准检测框，获取放大检测框；

检测模块，用于获取所述待检测视频中所述目标帧的下一帧的待测图像，根据所述放大检测框截取所述待测图像中待确认图像；

结果模块，用于将所述待确认图像输入所述预训练的人脸检测模型，获取所述预训练的人脸检测模型的人脸检测结果；

确定模块，用于若根据所述人脸检测结果确定所述待确认图像包括人脸图像，则将所述放大检测框作为所述待测图像的人脸检测框。

9.一种图像处理设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。

10.一种存储介质，其特征在于，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。