CN113177526A

CN113177526A - 基于人脸识别的图像处理方法、装置、设备及存储介质

Info

Publication number: CN113177526A
Application number: CN202110583774.1A
Authority: CN
Inventors: 涂必超; 徐娟
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2021-07-27
Anticipated expiration: 2041-05-27
Also published as: CN113177526B

Abstract

本发明涉及人工智能领域，公开了一种基于人脸识别的图像处理方法、装置、设备及存储介质。所述基于人脸识别的图像处理方法包括：获取待处理的视频图像，对所述待处理视频进行视频解码得到视频帧，基于视频帧中关键帧生成关键帧序列；对所述关键帧序列进行人脸检测，得到包含人脸的目标关键帧序列及对应的第一人脸框序列和人脸预测框序列；复用所述人脸预测框参数，基于该人脸预测框序列对所述目标关键帧序列中的关键帧的相邻帧进行人脸检测，得到第二人脸框序列；对得到的第一人脸框序列和第二人脸框序列进行人脸分割，得到人脸掩模并为其添加滤波和重绘肤色实现人像美化，从而减少美颜过程中视频处理的计算量，提升了视频美颜的速度。

Description

基于人脸识别的图像处理方法、装置、设备及存储介质

技术领域

本发明涉及人工智能领域，尤其涉及一种基于人脸识别的图像处理方法、装置、设备及存储介质。

背景技术

图像处理技术可以用于提升图像中人物的形象，因此在图像处理领域得到了广泛的应用。无论是在线视频美颜对视频中的图像帧进行检测人脸后，以一定的美颜强度，对视频帧中的人脸进行美颜，还是静态图像通过检测图像中的人脸后，以一定的美颜强度对图像中的人脸进行美颜，这些通过对视频或者图像进行美颜，能有效提升人物的形象、优化视频的质量。

现有技术中，视频美颜算法主要分为基于人脸分割的和基于GAN的算法，但是这些算法通常采用视频帧遍历的方法从视频帧中提取出人像后，再对其进行美化处理，中间涉及到的视频帧较多，从而需要经过大量的数据计算，导致对视频中人像的美颜处理速度较慢。

发明内容

本发明的主要目的在于解决现有视频美颜方法对视频中人像的美化处理速度较慢的问题。

本发明第一方面提供了一种基于人脸识别的图像处理方法，包括：

获取待处理的视频图像，对所述待处理的视频图像进行解码，得到人像视频帧，并基于所述人像视频帧中的关键帧，生成关键帧序列；

依次对所述关键帧序列进行人脸检测，得到包含人脸的目标关键帧序列以及所述目标关键帧序列对应的人脸预测框序列和第一人脸框序列；

基于所述人脸预测框序列中的人脸预测框，对所述目标关键帧序列中对应的目标关键帧相邻的人像视频帧进行人脸匹配，得到与目标关键帧相邻的人像视频帧对应的第二人脸框序列；

依次对所述第一人脸框序列中的人脸框和所述第二人脸框序列中的人脸框进行人脸分割，得到掩模序列；

依次对所述掩模序列中的掩模添加滤波，并为所述掩模的各区域进行色彩重绘。

可选的，在本发明第一方面的第一种实现方式中，所述获取待处理的视频图像，对所述待处理的视频图像进行解码，得到人像视频帧，并基于所述人像视频帧中的关键帧，生成关键帧序列包括：

获取待处理的视频图像，利用预置视频解码器，对所述待处理的视频图像进行视频解码，得到所述视频图像的全部人像视频帧；

提取所述全部人像视频帧中的所有关键帧，并生成关键帧初始序列；

依次对所述关键帧初始序列中的关键帧进行预处理，得到关键帧序列。

可选的，在本发明第一方面的第二种实现方式中，所述依次对所述关键帧初始序列中的关键帧进行预处理，得到关键帧序列包括：

获取所述关键帧初始序列中的所有关键帧；

对所述所有关键帧进行灰度转换；

将进行灰度转换后的所述所有关键帧的最长边进行缩放，并基于缩放后的所述所有关键帧，生成关键帧序列。

可选的，在本发明第一方面的第三种实现方式中，所述依次对所述关键帧序列进行人脸检测，得到包含人脸的目标关键帧序列以及所述目标关键帧序列对应的人脸预测框序列和第一人脸框序列包括：

将所述关键帧序列中的关键帧依次输入预置人脸检测模型进行人脸检测，所述人脸检测模型包括人脸检测网络层、预测人脸框偏置网络层；

将所述关键帧序列中的关键帧输入所述人脸检测网络层进行人脸识别，得到包含人脸的目标关键帧，并根据所述包含人脸的目标关键帧，生成目标关键帧序列；

将所述目标关键帧序列中的目标关键帧输入所述预测人脸框偏置网络层进行框回归计算，得到偏置信息序列，其中，所述偏置信息序列用于表示待获取的人脸预测框序列相对于预置默认人脸框序列的偏置关系；

根据所述默认人脸框序列及对应的偏置信息序列，计算对应的人脸预测框序列，并基于所述人脸预测框序列中的人脸预测框，对所述目标关键帧序列中对应的目标关键帧进行图像捕捉，得到第一人脸框序列。

可选的，在本发明第一方面的第四种实现方式中，所述基于所述人脸预测框序列中的人脸预测框，对所述目标关键帧序列中对应的目标关键帧相邻的人像视频帧进行人脸匹配，得到与目标关键帧相邻的人像视频帧对应的第二人脸框序列包括：

将所述目标关键帧序列中与目标关键帧相邻的人像视频帧输入所述人脸检测模型的人脸检测网络层进行人脸识别，得到包含人脸的目标视频帧，并根据所述包含人脸的目标视频帧，生成目标视频帧序列；

基于所述人脸预测框序列中的人脸预测框，对所述目标视频帧序列中对应的目标视频帧进行图像捕捉，得到第二人脸框序列。

可选的，在本发明第一方面的第五种实现方式中，所述依次对所述第一人脸框序列中的人脸框和所述第二人脸框序列中的人脸框进行人脸分割，得到掩模序列包括：

依次对所述第一人脸框序列中的人脸框和所述第二人脸框序列中的人脸框进行关键点检测，并对检测得到的所有关键点进行标记；

基于标记的关键点，对所述第一人脸框序列中的相应的人脸框和所述第二人脸框序列中的相应的人脸框进行分割，得到掩模序列。

可选的，在本发明第一方面的第六种实现方式中，所述依次对所述掩模序列中的掩模添加滤波，并为所述掩模的各区域进行色彩重绘包括：

将预置高斯掩模与所述掩模序列中的掩模进行卷积处理，得到平滑的掩模序列；

从预置美颜数据库中获取预置五官RGB参数；

基于所述五官RGB参数，对所述平滑的掩模序列中的掩模各区域重新设定新的RGB值。

本发明第二方面提供了一种基于人脸识别的图像处理装置，包括：

视频帧获取模块，用于获取待处理的视频图像，对所述待处理的视频图像进行解码，得到人像视频帧，并基于所述人像视频帧中的关键帧，生成关键帧序列；

第一人脸检测模块，用于依次对所述关键帧序列进行人脸检测，得到包含人脸的目标关键帧序列以及所述目标关键帧序列对应的人脸预测框序列和第一人脸框序列；

第二人脸检测模块，用于基于所述人脸预测框序列中的人脸预测框，对所述目标关键帧序列中对应的目标关键帧相邻的人像视频帧进行人脸匹配，得到与目标关键帧相邻的人像视频帧对应的第二人脸框序列；

人脸分割模块，用于依次对所述第一人脸框序列中的人脸框和所述第二人脸框序列中的人脸框进行人脸分割，得到掩模序列；

掩模美化模块，用于依次对所述掩模序列中的掩模添加滤波，并为所述掩模的各区域进行色彩重绘。

可选的，在本发明第二方面的第一种实现方式中，所述视频帧获取模块具体用于：

可选的，在本发明第二方面的第二种实现方式中，所述视频帧获取模块具体用于：

获取所述关键帧初始序列中的所有关键帧；

对所述所有关键帧进行灰度转换；

可选的，在本发明第二方面的第三种实现方式中，所述第一人脸检测模块具体用于：

输入单元，用于将所述关键帧序列中的关键帧依次输入预置人脸检测模型进行人脸检测，所述人脸检测模型包括人脸检测网络层、预测人脸框偏置网络层；

第一人脸识别单元，用于将所述关键帧序列中的关键帧输入所述人脸检测网络层进行人脸识别，得到包含人脸的目标关键帧，并根据所述包含人脸的目标关键帧，生成目标关键帧序列；

偏置计算单元，用于将所述目标关键帧序列中的目标关键帧输入所述预测人脸框偏置网络层进行框回归计算，得到偏置信息序列，其中，所述偏置信息序列用于表示待获取的人脸预测框序列相对于预置默认人脸框序列的偏置关系；

第一输出单元，用于根据所述默认人脸框序列及对应的偏置信息序列，计算对应的人脸预测框序列，并基于所述人脸预测框序列中的人脸预测框，对所述目标关键帧序列中对应的目标关键帧进行图像捕捉，得到第一人脸框序列。

可选的，在本发明第二方面的第四种实现方式中，所述第二人脸检测模块具体用于：

第二人脸识别单元，用于将所述目标关键帧序列中与目标关键帧相邻的人像视频帧输入所述人脸检测模型的人脸检测网络层进行人脸识别，得到包含人脸的目标视频帧，并根据所述包含人脸的目标视频帧，生成目标视频帧序列；

第二输出单元，用于基于所述人脸预测框序列中的人脸预测框，对所述目标视频帧序列中对应的目标视频帧进行图像捕捉，得到第二人脸框序列。

可选的，在本发明第二方面的第五种实现方式中，所述人脸分割模块具体用于：

可选的，在本发明第二方面的第五种实现方式中，所述掩模美化模块具体用于：

从预置美颜数据库中获取预置五官RGB参数；

本发明第三方面提供了一种基于人脸识别的图像处理设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于人脸识别的图像处理设备执行上述的基于人脸识别的图像处理方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的基于人脸识别的图像处理方法。

本发明提供的技术方案中，通过对待处理的视频解码，得到人像视频帧，基于视频帧中的关键帧生成关键帧序列，并对关键帧序列进行人脸检测，确定包含人脸的关键帧序列，得到一个人脸预测框序列和第一人脸框序列，然后基于该人脸预测框中的预测框对相应的关键帧的相邻帧进行人脸检测，若检测到人脸，则通过图像捕捉得到相应的人脸框，从而得到与相邻帧对应第二人脸框序列，最后分别对第一人脸框和第二人脸框进行人脸分割，得到相应的掩模，最后对掩模添加美化滤波和重设肤色，达到美化效果。其中，通过将关键帧的人脸预测框复用给相邻帧进行人像检测，提升了视频计算处理速度；通过轻量的人脸检测、分割网络进一步加速了视频美颜的速度；通过获取可以自主配置的五官RGB参数来设定人像五官肤色，实现了美颜参数的灵活设定。

附图说明

图1为本发明实施例中基于人脸识别的图像处理方法的第一个实施例示意图；

图2为本发明实施例中基于人脸识别的图像处理方法的第二个实施例示意图；

图3为本发明实施例中基于人脸识别的图像处理方法的第三个实施例示意图；

图4为本发明实施例中基于人脸识别的图像处理方法的第四个实施例示意图；

图5为本发明实施例中基于人脸识别的图像处理方法的第五个实施例示意图；

图6为本发明实施例中基于人脸识别的图像处理装置的一个实施例示意图；

图7为本发明实施例中基于人脸识别的图像处理装置的另一个实施例示意图；

图8为本发明实施例中基于人脸识别的图像处理设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种基于人脸识别的图像处理方法、装置、设备及存储介质，可以对客服系统中客服人员服务态度的检测和识别。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中基于人脸识别的图像处理方法的一个实施例包括：

101、获取待处理的视频图像，对所述待处理的视频图像进行解码，得到人像视频帧，并基于所述人像视频帧中的关键帧，生成关键帧序列；

流媒体领域，“帧”是一个很重要的概念。对于视频编码/压缩而言，它的核心是采用尽量小的空间存储一组时间上连续的帧数据；而对于视频解码而言，就是把被编码/压缩后的一组帧数据尽量恢复成原来的样子。视频都是由静止的画面组成的,这些静止的画面被称为帧。一般来说,帧率低于15帧/秒，连续的运动视频就会有停顿的感觉。

在本实施例中，通过以视频解码的方式将待美颜的视频图像转换为一张张视频帧。其中视频解码可以通过专业的视频解码器实现，需要注意的是不同的视频可能存在不同的编码标准，而在通过视频解码器进行解码时需要选择相匹配的解码标准的解码器，也可以基于python(编程语言)和opencv(计算机视觉库)进行视频的解码和关键帧的提取，当然还有许多其他的方式。对于这些视频帧而言，其中又分为了普通帧和关键帧，那关键帧就是指角色或者物体运动或变化中的关键动作所处的那一帧，属于计算机动画术语，相当于二维动画中的原画，而关键帧与关键帧之间的帧就是普通帧，或者叫做过度帧。而关键帧序列即是由待美颜视频对应全部视频帧中的所有关键帧经过一定的预处理操作组成的序列，属于一个可迭代的对象，其中预处理是通过一系列的处理手段对关键帧图片进行处理，进而让接下来对关键帧图片的人脸检测效率更高、效果更好。

102、依次对所述关键帧序列进行人脸检测，得到包含人脸的目标关键帧序列以及所述目标关键帧序列对应的人脸预测框序列和第一人脸框序列；

使用基于深度学习与人脸识别技术的检测器对关键帧图像进行人脸检测，其中人脸检测是指对于任意一幅给定的图像，采用一定的策略对其进行搜索以确定其中是否含有人脸，如果是则返回一脸的位置、大小和姿态。人脸检测器能够识别出图片中的人脸，并且返回包含人脸部位的人脸矩形框图片。通过上述方法可以确定哪些关键帧图像包含人脸，将检测出包含人脸的关键帧确定为目标关键帧，并保存于一个可迭代的数据结构中，得到一个目标关键帧序列。其次，根人脸检测的返回结果(人脸矩形框图片对象)构建相应的人脸框序列，值得注意的是所述人脸框序列与所述目标关键帧序列在相同的索引位置上的内容存在对应关系，例如目标关键帧序列中索引为1的位置上为关键帧对象T1，那么人脸框序列中索引为1的位置上则是所述关键帧对象T1的人脸检测返回值t1(人脸矩形框图片对象)。

103、基于所述人脸预测框序列中的人脸预测框，对所述目标关键帧序列中对应的目标关键帧相邻的视频帧进行人脸匹配，得到与目标关键帧相邻的人像视频帧对应的第二人脸框序列；

对所述人脸预测框序列中的人脸预测框的进行复用，根据人脸预测框序列与目标关键帧序列存在的索引内容一一对应的关系，确定复用的人脸预测框对应的目标关键帧，然后从全部的视频帧中找出与所述目标关键帧相邻的视频帧，基于上述人脸检测模型对所述相邻的视频帧进行检测，与上述步骤人脸检测不同的是，本次检测通过复用人脸框序列中的人脸框从而指定了检测区域，无需做框回归计算，只需要针对指定区域进行人脸识别即可，这样能够减少一定的计算量，提升检测效率。当检测到相邻的视频帧中存在人脸时，捕捉复用的人脸预测框序列中所有人脸预测框下的图片内容，生成对应的人脸框序列。

104、依次对所述第一人脸框序列中的人脸框和所述第二人脸框序列中的人脸框进行人脸分割，得到掩模序列；

人脸分割是用于脸部位置提取的一种常见手段，目前基于人脸分割的方法也有很多种，不同的分割方法是基于不同的五官分类标准，整体大概可以分为三个分类标准：基于图论的分割方法、基于像素聚集的分割方法、基于深度语义的分割方法，其中基于图论的分割方法是利用图论领域的理论和方法，将图像映射为带权无向图，把像素视作节点，将图像分割问题看作是图的顶点划分问题，利用最小剪切准则得到图像的最佳分割；而基于像素聚集的分割方法是通过初始化一个粗糙的聚类，使用迭代的方式将颜色、亮度、纹理等特征相似的像素点聚类到同一超像素，迭代直至收敛，从而得到最终的图像分割结果，在人脸分割场景中例如基于肤色的人脸分割方法；最后，基于深度语义的分割方法是通过以某个分类的像素为中心进行多尺度采样，将多尺度的局部图像patch送到CNN分类器中逐一进行分类，最终得到每个像素所属的语义类别，最后根据分类的语义类型进行分割。

105、依次对所述掩模序列中的掩模依次添加滤波，并为所述掩模的各区域进行色彩重绘。

为图片添加滤波是一种常见的图片处理手段，可以帮助图片更好地呈现。从类型上可以分为线性滤波和非线性滤波，常见的滤波由均值滤波，从频率域观点来看均值滤波是一种低通滤波器，高频信号将会去掉，因此可以帮助消除图像尖锐噪声，实现图像平滑，模糊等功能；高斯滤波，这是一类根据高斯函数的形状来选择权值得线性平滑滤波器，对于抑制服从正态分布的噪声非常有效。本实施例通过为待美颜的人像掩模添加滤波，让合成的视频变得更加平滑、清晰等效果。滤波的添加方法有很多，可以借助视频编辑软件添加各种滤波，也可以通过数据科学手段等。

对于掩模的各区域进行色彩重绘，可以通过设定一个五官颜色参数变量来保存颜色参数，当需要美颜时直接获取这个五官颜色参数变量的值，并赋值给对应的掩模的五官颜色参数，完成人像的美颜。值得注意的是，在本实施例中，为了让重绘后的颜色更加贴近五官，对五官颜色的设定直接设定RGB值而不是hsv值。

本实施例中，通过获取待美颜的视频图像，对所述待美颜视频进行视频解码获取关键帧序列，对所述关键帧序列进行人脸检测得到相应的人脸框和人脸预测框，复用所述人脸预测框，基于该人脸预测框对所述关键帧序列中的关键帧的相邻帧进行人脸检测，得到相应的人脸框，对得到的所有人脸框添加滤波和颜色重绘，从而减少美颜过程中视频处理的计算量，提升了视频美颜的速度。

参阅图2，本发明实施例中基于人脸识别的图像处理方法的第二个实施例包括：

201、获取待处理的视频图像，利用预置视频解码器，对所述待处理的视频图像进行视频解码，得到所述视频图像的全部人像视频帧；

在本实施例中，采用python的三方库imageio对视频进行处理，其中imageio是一个python库，提供了一个简单的接口来读取和写入各种图像数据，包括动画图像，视频，体积数据和科学格式，首先在进行视频解码之前，需要安装相应解码器，例如安装conda-forge编译好的ffmpeg视频编解码库，其次在编译器(或者终端)中导入所述三方库imageio，通过imageio库中封装的get_reader方法传入所述待美颜的视频对象以及解码器参数，该方法需要传入待美颜视频的相对路径及文件名，解码器参数为解码器的名称，表示调用什么类型的解码器对传入的视频进行解码，例如reader＝imageio.get_reader(‘/vedio/myvedio.avi’,‘ffmpeg’)，其中待美颜视频的相对路径及文件名为“/vedio/myvedio.avi”，选择的解释器为“ffmpeg”来进行视频的解码，最终得到一个视频解码对象reader，所述视频解码对象中包含了待美颜视频的全部视频帧。

202、提取所述全部人像视频帧中的所有关键帧，生成关键帧初始序列；

对于视频中关键帧的提取，首先必须明确的是“关键帧的定义”，如何提取关键帧根本上取决于关键帧是如何定义，本实施例中采用了基于帧间差分的方法。这种关键帧提取方法的原理是：将两帧图像进行差分，得到图像的平均像素强度可以用来衡量两帧图像的变化大小。因此，基于帧间差分的平均强度，每当视频中的某一帧与前一帧画面内容产生了大的变化，我们便认为它是关键帧，并将其提取出来。首先计算所述视频解码对象reader的每两帧之间的帧间差分，进而得到平均帧间差分强度，最后基于所述平均帧间差分强度确定关键帧并进行提取操作，例如基于所述平均帧间差分强度的顺序确定关键帧，对所有帧按照平均帧间差分强度进行排序，选择平均帧间差分强度最高的若干张图片作为视频的关键帧，也可以基于差分强度阈值确定关键帧，选择平均帧间差分强度高于预设阈值的帧作为视频的关键帧，还可以选择具有平均帧间差分强度局部最大值的帧作为视频的关键帧，本实施例即采用了这种方法，相比于其他两种方法，这种方法提取结果丰富度表现良好，且均匀分散于视频中。通过上述方法获取到待美颜视频中的所有关键帧后，创建一个可迭代的数据结构，将所有的关键帧传入到该数据结构并保存，得到关键帧初始序列。

203、依次对所述关键帧初始序列中的关键帧进行预处理，得到关键帧序列；

关键帧的预处理，包括关键帧图像的灰度转换和关键帧缩放，将原始的彩色关键帧图像色彩设定为灰色，这样在进行人脸检测时计算强度将会明显减少；将原始图片缩放到不同尺度，形成一个“图像金字塔”，在进行人脸检测时对不同尺度的图片通过神经网络计算一遍。这样做的原因在于：原始图片中的人脸存在不同的尺度，如有的人脸比较大，有的人脸比较小。对于比较小的人脸，可以在放大后的图片上检测；对于比较大的人脸，可以在缩小后的图片上检测。这样，就可以在统一的尺度下检测人脸了。

在本实施例中，所述203还包括以下步骤：

获取所述关键帧初始序列中的所有关键帧；

对所述所有关键帧进行灰度转换；

对于关键帧的预处理，首先遍历读取关键帧初始序列中的关键帧图片，通过计算机视觉库中的方法对所述关键帧图片的颜色转换为灰色，降低为一维的灰度以减少计算强度，例如通过opencv库中的ctvColor方法转换图片的颜色，该方法需要传入两个参数，第一个参数即待转换颜色的图片对象，第二个参数是转换的颜色。其次对读取到的每一个关键帧的最长边进行缩放操作，由于缩放范围的压缩或延伸，临近缩防范围的关键帧和曲线段将被移动，但是它们的形状将保持不变，本实施中对关键帧最长边具体的缩放方法不做限定，可以通过常见的视频编辑器进行操作，例如PR，也可以通过计算机视觉库中的处理方法进行处理......在一较佳的实施例中，关键帧最长边的缩放比例为640，最终将缩放结果进行保存，得到关键帧序列。

204、依次对所述关键帧序列进行人脸检测，得到包含人脸的目标关键帧序列以及所述目标关键帧序列对应的人脸预测框序列和第一人脸框序列；

205、基于所述人脸预测框序列中的人脸预测框，对所述目标关键帧序列中对应的目标关键帧相邻的人像视频帧进行人脸匹配，得到与目标关键帧相邻的人像视频帧对应的第二人脸框序列；

206、依次对所述第一人脸框序列中的人脸框和所述第二人脸框序列中的人脸框进行人脸分割，得到掩模序列；

207、依次对所述掩模序列中的掩模添加滤波，并为所述掩模的各区域进行色彩重绘。

本实施例中，详细描述了待美颜视频解码及生成关键帧序列的过程，通过获取视频解码得到视频帧，对视频帧进行美化处理从而达到对视频中出现的人像美化的效果。

参阅图3，本发明实施例中基于人脸识别的图像处理方法的第三个实施例包括：

301、获取待处理的视频图像，对所述待处理的视频图像进行解码，得到人像视频帧，并基于所述人像视频帧中的关键帧，生成关键帧序列；

302、将所述关键帧序列中的关键帧依次输入预置人脸检测模型进行人脸检测，所述人脸检测模型包括人脸检测网络层、预测人脸框偏置网络层；

303、将所述关键帧序列中的关键帧输入所述人脸检测网络层进行人脸识别，得到包含人脸的目标关键帧，并根据所述包含人脸的目标关键帧，生成目标关键帧序列；

本实施例中采用的是基于Retinaface物体检测网络的人脸检测模型，RetinaFace人脸检测模型的mnet本质是基于RetinaNet的结构，采用了特征金字塔的技术，实现了多尺度信息的融合，对检测小物体有重要的作用。所述RetinaFace人脸检测模型包括人脸检测网络层、预测人脸框偏置网络层，当将视频帧图像输入素数RetinaFace模型时，在进入模型输入层时会将视频帧图像转换为一个宽和高皆为12像素，同时是3通道的RGB图像，而人脸检测网络要判断这个12*12的图像中是否含有人脸，输出向量的形状为1*1*2，也就是两个值，分别为该图像是人脸的概率，以及该图像不是人脸的概率。这两个值加起来严格等于1。之所以使用两个值来表示，是为了方便定义交叉损失。

304、将所述目标关键帧序列中的目标关键帧输入所述预测人脸框偏置网络层进行框回归计算，得到偏置信息序列，其中，所述偏置信息序列用于表示待获取的人脸预测框序列相对于预置默认人脸框序列的偏置关系；

预测人脸框偏置网络层用于给出框的准确位置，一般称之为框回归。输入的12*12的图像块可能并不是完美的人脸框的位置，如有的时候人脸并不正好为方形，有的时候12*12的图像块可能偏左或偏右，因此需要输出预测框的位置相对于默认的人脸框位置的偏移。这个偏移由四个变量组成。一般地，对于下图图像中的框，可以用四个数来表示它的位置：框左上角的横坐标、框左上角的纵坐标、框的宽度、框的高度。因此，框回归输出的值是：框左上角的横坐标的相对偏移、框左上角的纵坐标的相对偏移、框的宽度的误差、框的高度的误差，输出向量的形状是1*1*4。

305、根据所述默认人脸框序列及对应的偏置信息序列，计算对应的人脸预测框序列，并基于所述人脸预测框序列中的人脸预测框，对所述目标关键帧序列中对应的目标关键帧进行图像捕捉，得到第一人脸框序列；

最终根据默认预测框及对应的偏移量计算出完美的人脸预测框的位置，生成相应的人脸预测框，将这些人脸预测框保存到一个可迭代的数据结构中，得到一个人脸预测框序列。同时，捕捉所述人脸预测框序列中所有人脸预测框下的图片内容，生成对应的人脸框序列。同样的，人脸预测框序列、人脸框序列与所述目标关键帧序列在索引位置上存在一一对应的关系。

306、基于所述人脸预测框序列中的人脸预测框，对所述目标关键帧序列中对应的目标关键帧相邻的人像视频帧进行人脸匹配，得到与目标关键帧相邻的人像视频帧对应的第二人脸框序列；

307、依次对所述第一人脸框序列中的人脸框和所述第二人脸框序列中的人脸框进行人脸分割，得到掩模序列；

308、依次对所述掩模序列中的掩模添加滤波，并为所述掩模的各区域进行色彩重绘。

本实施例中，详细描述了人脸检测的过程，通过人脸检测网络获取了目标关键帧及其对应的人脸预测框、第一人脸框，随后复用目标关键帧对应的人脸预测框，对其相邻帧进行人脸检测，得到第二人脸框。显而易见，这种传递依赖的方式使用该人脸检测框对关键帧周边的视频帧进行人脸检测，可以快速获取到视频中的人脸。相比于现有技术的传统遍历算法，本发明参考了插入排序算法的思想，将这种思想用于视频帧的处理上，通过这种方法可以减少视频帧的处理数量，更加快速地获取到待美颜的人脸图像。

参阅图4，本发明实施例中基于人脸识别的图像处理方法的第四个实施例包括：

401、获取待处理的视频图像，对所述待处理的视频图像进行解码，得到人像视频帧，并基于所述人像视频帧中的关键帧，生成关键帧序列；

402、依次对所述关键帧序列进行人脸检测，得到包含人脸的目标关键帧序列以及所述目标关键帧序列对应的人脸预测框序列和第一人脸框序列；

403、基于所述人脸预测框序列中的人脸预测框，对所述目标关键帧序列中对应的目标关键帧相邻的人像视频帧进行人脸匹配，得到与目标关键帧相邻的人像视频帧对应的第二人脸框序列；

404、依次对所述第一人脸框序列中的人脸框和所述第二人脸框序列中的人脸框进行关键点检测，并对检测得到的所有关键点进行标记；

在本实施例中，通过基于深度语义进行人脸分割，首先分别对所述目标关键帧序列对应的人脸框序列中的人脸框和所述相邻的视频帧对应的人脸框序列中的人脸框进行关键点检测，Retinaface人脸检测模型中还包括了一个关键点检测网络，提供了对人像的关键点检测，关键点检测的过程即是深度语义的分类过程，例如关键点检测规则中定义检测时提供7个关键点的位置，左眼的位置、右眼的位置、鼻子的位置、左嘴角的位置、右嘴角的位置、左眉的位置、右眉的位置，在如果检测到人脸，那么在相应的人脸框图中将会用点标记出这些位置。

405、基于标记的关键点，对所述第一人脸框序列中的相应的人脸框和所述第二人脸框序列中的相应的人脸框进行分割，得到掩模序列；

其次，基于这些标记出的关键点进行人脸分割，切除人脸以外的部分，切割后剩下的部分即是需要进行美颜的五官掩模，将这些五官掩模保存于一个可迭代的数据结构，得到待美颜的眼膜序列。

406、依次对所述掩模序列中的掩模添加滤波，并为所述掩模的各区域进行色彩重绘。

本实施例中，详细描述了人脸分割的过程，通过关键点检测算法，标记相关掩模的关键点后进行分割，这种分割方法轻量而又快捷，进一步提升了视频美颜的速度。

参阅图5，本发明实施例中基于人脸识别的图像处理方法的第五个实施例包括：

501、获取待处理的视频图像，对所述待处理的视频图像进行解码，得到人像视频帧，并基于所述人像视频帧中的关键帧，生成关键帧序列；

502、依次对所述关键帧序列进行人脸检测，得到包含人脸的目标关键帧序列以及所述目标关键帧序列对应的人脸预测框序列和第一人脸框序列；

503、基于所述人脸预测框序列中的人脸预测框，对所述目标关键帧序列中对应的目标关键帧相邻的人像视频帧进行人脸匹配，得到所述相邻的视频帧对应的第二人脸框序列；

504、依次对所述第一人脸框序列中的人脸框和所述第二人脸框序列中的人脸框进行人脸分割，得到掩模序列；

505、将预置高斯掩模与所述掩模序列中的掩模进行卷积处理，得到平滑的掩模序列；

高斯掩模是一组固定的值，而卷积的过程即是掩膜上每一个位置的值和图像上对应位置的像素值的乘加运算，得到的掩模会变得更加平滑。

506、从预置美颜数据库中获取预置五官RGB参数；

507、基于所述五官RGB参数，对所述平滑的掩模序列中的掩模各区域重新设定新的RGB值。

当对更加平滑的掩模序列进行色彩重绘时，首先会从预置的美颜数据库中获取五官RGB参数，然后将这些参数赋值给掩模完成美颜，例如嘴唇:(187，150，148)，鼻子(222，189，184)，通过python为掩模A进行色彩重绘，首先从三方库Pillow中导入Image模块，这是一个处理图像的类，可以获取并处理图片，其次通过Image类中的open方法获取到掩模A的对象，然后根据像素的行列坐标获取掩模A中嘴唇区域和鼻子区域，将嘴唇区域内的RGB值设定为(187，150，148)，将鼻子区域内的RGB值设定为(222，189，184)，从而改变合成的视频中五官的RGB值。

本实施例中，详细描述了人脸掩模的美化过程，通过添加高斯滤波让图像帧变得更加平滑，设定hsv值让五官肤色更加贴近人体感官，通过数据库中可定义的变量来保存相关肤色的hsv值，实现了美化参数的灵活配置。

上面对本发明实施例中基于人脸识别的图像处理方法进行了描述，下面对本发明实施例中基于人脸识别的图像处理装置进行描述，请参阅图6，本发明实施例中基于人脸识别的图像处理装置的一个实施例包括：

视频帧获取模块601，用于获取待处理的视频图像，对所述待处理的视频图像进行解码，得到人像视频帧，并基于所述人像视频帧中的关键帧，生成关键帧序列；

第一人脸检测模块602，用于依次对所述关键帧序列进行人脸检测，得到包含人脸的目标关键帧序列以及所述目标关键帧序列对应的人脸预测框序列和第一人脸框序列；

第二人脸检测模块603，用于基于所述人脸预测框序列中的人脸预测框，对所述目标关键帧序列中对应的目标关键帧相邻的人像视频帧进行人脸匹配，得到与目标关键帧相邻的人像视频帧对应的第二人脸框序列；

人脸分割模块604，用于依次对所述第一人脸框序列中的人脸框和所述第二人脸框序列中的人脸框进行人脸分割，得到掩模序列；

掩模美化模块605，用于依次对所述掩模序列中的掩模添加滤波，并为所述掩模的各区域进行色彩重绘。

参阅图7，本发明实施例中基于人脸识别的图像处理装置的另一个实施例包括：

视频帧获取模块701，用于获取待处理的视频图像，对所述待处理的视频图像进行解码，得到人像视频帧，并基于所述人像视频帧中的关键帧，生成关键帧序列；

第一人脸检测模块702，用于依次对所述关键帧序列进行人脸检测，得到包含人脸的目标关键帧序列以及所述目标关键帧序列对应的人脸预测框序列和第一人脸框序列；

第二人脸检测模块703，用于基于所述人脸预测框序列中的人脸预测框，对所述目标关键帧序列中对应的目标关键帧相邻的人像视频帧进行人脸匹配，得到与目标关键帧相邻的人像视频帧对应的第二人脸框序列；

人脸分割模块704，用于依次对所述第一人脸框序列中的人脸框和所述第二人脸框序列中的人脸框进行人脸分割，得到掩模序列；

掩模美化模块705，用于依次对所述掩模序列中的掩模添加滤波，并为所述掩模的各区域进行色彩重绘。

可选的，所述视频帧获取模块701具体用于：

可选的，所述视频帧获取模块701还可以用于：

获取所述关键帧初始序列中的所有关键帧；

对所述所有关键帧进行灰度转换；

其中，所述第一人脸检测模块702包括：

输入单元7021，用于将所述关键帧序列中的关键帧依次输入预置人脸检测模型进行人脸检测，所述人脸检测模型包括人脸检测网络层、预测人脸框偏置网络层；

第一人脸检测单元7022，用于将所述关键帧序列中的关键帧输入所述人脸检测网络层进行人脸识别，得到包含人脸的目标关键帧，并根据所述包含人脸的目标关键帧，生成目标关键帧序列；

偏置计算单元7023，用于将所述目标关键帧序列中的目标关键帧输入所述预测人脸框偏置网络层，进行框回归计算，得到偏置信息序列，其中，所述偏置信息序列用于表示待获取的人脸预测框序列相对于预置默认人脸框序列的偏置关系；

第一输出单元7024，用于根据所述默认人脸框序列及对应的偏置信息序列，计算对应的人脸预测框序列，并基于所述人脸预测框序列中的人脸预测框，对所述目标关键帧序列中对应的目标关键帧进行图像捕捉，得到第一人脸框序列。

其中，所述第二人脸检测模块703包括：

第二人脸检测单元7031，用于将所述目标关键帧序列中与目标关键帧相邻的人像视频帧输入所述人脸检测模型的人脸检测网络层进行人脸识别，得到包含人脸的目标视频帧，并根据所述包含人脸的目标视频帧，生成目标视频帧序列；

第二输出单元7032，用于基于所述人脸预测框序列中的人脸预测框，对所述目标视频帧序列中对应的目标视频帧进行图像捕捉，得到第二人脸框序列。

可选的，所述人脸分割模块704具体用于：

可选的，所述掩模美化模块705具体用于：

从预置美颜数据库中获取预置五官RGB参数；

本发明实施例中，模块化的设计让基于人脸识别的图像处理装置各部位的硬件专注于某一功能的实现，最大化实现了硬件的性能，同时模块化的设计也降低了装置的模块之间的耦合性，更加方便维护。

上面图6和图7从模块化功能实体的角度对本发明实施例中的基于人脸识别的图像处理装置进行详细描述，下面从硬件处理的角度对本发明实施例中基于人脸识别的图像处理设备进行详细描述。

图8是本发明实施例提供的一种基于人脸识别的图像处理设备的结构示意图，该基于人脸识别的图像处理设备800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)810(例如，一个或一个以上处理器)和存储器820，一个或一个以上存储应用程序833或数据832的存储介质830(例如一个或一个以上海量存储设备)。其中，存储器820和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对基于人脸识别的图像处理设备800中的一系列指令操作。更进一步地，处理器810可以设置为与存储介质830通信，在基于人脸识别的图像处理设备800上执行存储介质830中的一系列指令操作。

基于人脸识别的图像处理设备800还可以包括一个或一个以上电源840，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口860，和/或，一个或一个以上操作系统831，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图8示出的基于人脸识别的图像处理设备结构并不构成对基于人脸识别的图像处理设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种基于人脸识别的图像处理设备，所述基于人脸识别的图像处理设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述基于人脸识别的图像处理方法的步骤。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述基于人脸识别的图像处理方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于人脸识别的图像处理方法，其特征在于，所述基于人脸识别的图像处理方法包括：

2.根据权利要求1所述的基于人脸识别的图像处理方法，其特征在于，所述获取待处理的视频图像，对所述待处理的视频图像进行解码，得到人像视频帧，并基于所述人像视频帧中的关键帧，生成关键帧序列包括：

3.根据权利要求2所述的基于人脸识别的图像处理方法，其特征在于，所述依次对所述关键帧初始序列中的关键帧进行预处理，得到关键帧序列包括：

获取所述关键帧初始序列中的所有关键帧；

对所述所有关键帧进行灰度转换；

4.根据权利要求1所述的基于人脸识别的图像处理方法，其特征在于，所述依次对所述关键帧序列进行人脸检测，得到包含人脸的目标关键帧序列以及所述目标关键帧序列对应的人脸预测框序列和第一人脸框序列包括：

5.根据权利要求1-4中任一项所述的基于人脸识别的图像处理方法，其特征在于，所述基于所述人脸预测框序列中的人脸预测框，对所述目标关键帧序列中对应的目标关键帧相邻的人像视频帧进行人脸匹配，得到与目标关键帧相邻的人像视频帧对应的第二人脸框序列包括：

6.根据权利要求1所述的基于人脸识别的图像处理方法，其特征在于，所述依次对所述第一人脸框序列中的人脸框和所述第二人脸框序列中的人脸框进行人脸分割，得到掩模序列包括：

7.根据权利要求1或6所述的基于人脸识别的图像处理方法，其特征在于，所述依次对所述掩模序列中的掩模添加滤波，并为所述掩模的各区域进行色彩重绘包括：

从预置美颜数据库中获取预置五官RGB参数；

8.一种基于人脸识别的图像处理装置，其特征在于，所述基于人脸识别的图像处理装置包括：

9.一种基于人脸识别的图像处理设备，其特征在于，所述基于人脸识别的图像处理设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于人脸识别的图像处理设备执行如权利要求1-7中任意一项所述的基于人脸识别的图像处理方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-7中任一项所述的基于人脸识别的图像处理方法。