CN117953568A

CN117953568A - 一种用于视频拍摄中的人脸图像处理方法

Info

Publication number: CN117953568A
Application number: CN202410128594.8A
Authority: CN
Inventors: 孙晓琛; 葛强
Original assignee: Zhiguan Digital Technology Qingdao Co ltd
Current assignee: Zhiguan Digital Technology Qingdao Co ltd
Priority date: 2024-01-30
Filing date: 2024-01-30
Publication date: 2024-04-30

Abstract

本申请公开了一种用于视频拍摄中的人脸图像处理方法，对直播图像中至少两帧图像中的第一人脸图像和第二人脸图像确定其第一夹角和第二夹角，确定两帧图像中的第一夹角的差值绝对值和第二夹角的差值绝对值并进行判断，以确定直播图像中的播客人脸图像和背景人脸图像，对播客人脸图像在每帧图像中的第三夹角与角度阈值进行判断，以进一步确定针对播客人脸图像中主播人脸图像或副播人脸图像，并对于所确定出的主播人脸图像的图像亮度值进行增加，以使主播人脸图像的图像亮度值大于副播人脸图像的图像亮度值，由此可实现对直播图像中的背景人脸图像、主播人脸图像和副播人脸图像筛分确定，由此可提高直播图像中的图像显示效果，突出主播人脸图像显示。

Description

一种用于视频拍摄中的人脸图像处理方法

技术领域

本申请涉及人脸图像处理方法技术领域，尤其涉及一种用于视频拍摄中的人脸图像处理方法。

背景技术

在视频拍摄中处理人脸图像通常涉及到多种方法和技术，其中一些包括：

人脸检测：这是识别图像或视频中人脸位置的第一步。常见的算法包括Haar级联检测器、基于深度学习的方法(如基于卷积神经网络的检测器)等。

人脸对齐：对检测到的人脸进行对齐，以便后续的处理步骤更加准确。这通常包括将人脸旋转、缩放和平移，使其符合标准的参考模型。

人脸识别：利用人脸的特征进行识别，可以通过传统的特征提取和匹配方法，也可以使用深度学习技术如卷积神经网络进行特征学习和匹配。

人脸表情识别：识别人脸表情的情感状态，常用的方法包括使用深度学习模型对表情进行分类，或者使用传统的特征提取和机器学习方法。

人脸跟踪：在视频中跟踪人脸的位置，通常使用卡尔曼滤波器或基于深度学习的跟踪器。

人脸变形和特效：在视频中对人脸进行变形或者添加特效，常用的方法包括基于脸部关键点的变形，或者将虚拟物体叠加在人脸上。

人脸去识别化：保护个人隐私或者匿名处理人脸图像的方法，可以使用模糊、像素化、或者生成对抗网络(GANs)来修改人脸图像。

在网络直播拍摄过程中，需要对不同的人脸图像进行有效识别，以确定当前所识别的人脸图像所属的人物类型，如：主播、副播，亦或是背景人脸图像等，进而针对所识别出具有人物类型特征的人脸图像进行差异化处理。

发明内容

本申请示例性的实施方式中提供一种用于视频拍摄中的人脸图像处理方法，用以对直播图像中的不同人脸图像进行识别处理，并针对所确定出人物类型的人脸图像进行差异化显示。

本申请提供一种用于视频拍摄中的人脸图像处理方法，包括：

获取至少两帧图像，其中每帧所述图像中至少包括第一人脸图像和第二人脸图像；

确定所述第一人脸图像在每帧所述图像中的第一夹角，确定所述第二人脸图像在每帧图像中的第二夹角，所述第一夹角为所述第一人脸图像中的双耳连线与鼻梁所在直线的夹角，所述第二夹角为所述第二人脸图像中的双耳连线与鼻梁所在直线的夹角；

确定所述两帧图像中的两个所述第一夹角的差值绝对值为第一差值，确定所述两帧图像中的两个所述第二夹角的差值绝对值为第二差值，若所述第一差值或所述第二差值大于0，则确定所述第一人脸图像或所述第二人脸图像为播客人脸图像，若所述第一差值或所述第二差值等于0，则确定所述第一人脸图像或所述第二人脸图像为背景人脸图像；

确定所述播客人脸图像在每帧所述图像中鼻梁所在直线与嘴部端点连线的夹角为第三夹角，确定所述两帧图像中的两个所述第三夹角的差值绝对值为第三差值，确定所述播客人脸图像在每帧所述图像中嘴部端点与相应一侧的耳部端点的的连线距离为第一距离，确定所述两帧图像中的两个所述第一距离的差值绝对值为第四差值；

若所述第三差值大于角度阈值且所述第四差值大于距离阈值，则确定所述播客人脸图像为主播人脸图像，否则，则确定所述播客人脸图像为副播人脸图像；

增加所述主播人脸图像的图像亮度值，以使所述主播人脸图像的图像亮度值大于所述副播人脸图像的图像亮度值。

进一步地，所述嘴部端点为嘴部区域的图像点在第一方向上的坐标值的差值最大的两个端点。

进一步地，所述第一方向为所述播客人脸图像中的双耳连线的延伸方向。

进一步地，所述角度阈值为5°。

进一步地，鼻梁所在直线由多个鼻梁特征点的连线所确定。

进一步地，双耳连线由耳部的中心特征点的连线所确定。

进一步地，降低所述背景人脸图像的图像亮度值，以使所述背景人脸图像的图像亮度值低于所述副播人脸图像的图像亮度值。

本申请实施例具备如下有益效果：对直播图像中至少两帧图像中的第一人脸图像和第二人脸图像确定其第一夹角和第二夹角，确定两帧图像中的第一夹角的差值绝对值和第二夹角的差值绝对值并进行判断，以确定直播图像中的播客人脸图像和背景人脸图像，对播客人脸图像在每帧图像中的第三夹角与角度阈值进行判断，以进一步确定针对播客人脸图像中主播人脸图像或副播人脸图像，并对于所确定出的主播人脸图像的图像亮度值进行增加，以使主播人脸图像的图像亮度值大于副播人脸图像的图像亮度值，由此可实现对直播图像中的背景人脸图像、主播人脸图像和副播人脸图像进行筛分确定，并对各背景人脸图像、主播人脸图像和副播人脸图像的图像亮度值进行调整，由此可提高直播图像中的图像显示效果，突出主播人脸图像显示。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示例性示出了本申请实施例提供的一种用于视频拍摄中的人脸图像处理方法的流程图；

图2示例性示出了本申请实施例提供第一人脸图像或第二人脸图像的示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

为进一步说明本申请实施例提供的技术方案，下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本申请实施例提供的执行顺序。

参考图1所示，本申请提供一种用于视频拍摄中的人脸图像处理方法，包括：获取至少两帧图像，其中每帧图像中至少包括第一人脸图像和第二人脸图像。其中，每帧图像为直播画面中以时间轴所获取的在时间轴上相邻的连续两帧图像。在直播画面中会包括多个人脸图像，其中，至少包括第一人脸图像和第二人脸图像。

对图像中的人脸识别技术包括：深度学习模型：使用深度学习模型进行人脸检测和识别，如基于卷积神经网络(CNN)的模型，例如MTCNN、SSD(Single Shot MultiboxDetector)、YOLO(You Only Look Once)等。

人脸识别框架：使用开源人脸识别框架，例如OpenCV、Dlib、face_recognition等，以便快速实现人脸相关的功能。

实时处理：针对网络直播，需要高效的实时图像处理。使用硬件加速、模型量化、模型剪枝等技术可以提高实时性能。

美颜算法：应用美颜算法时，可以使用传统的图像处理技术，如滤波器、颜色修正，也可以使用深度学习模型，例如基于生成对抗网络(GAN)的美颜模型。

安全性和隐私：注意在人脸图像处理中考虑安全性和隐私问题，确保符合相关法规，并采取措施保护用户的个人信息。

确定第一人脸图像在每帧图像中的第一夹角，确定第二人脸图像在每帧图像中的第二夹角，第一夹角为第一人脸图像中的双耳连线与鼻梁所在直线的夹角，第二夹角为第二人脸图像中的双耳连线与鼻梁所在直线的夹角。

具体地，双耳连线由耳部中心特征点的连线所确定。耳部中心特征点为耳部区域的中心点。由双耳的耳部中心特征点的连线定义双耳连线。具体地，双耳中的每只耳部的范围都是由多个特征点所围设形成，通过确定多个特征点来确定出双耳所对应的中心特征点。

通过图像特征点分析确认该所围设形成的区域的几何中心点作为耳部中心特征点，对于所拟合出的不规则区域的几何中心点的确定可通过如下方法进行确定：

质心(Centroid)法：计算不规则区域内所有像素的坐标，然后计算这些坐标的平均值，得到质心。这是最直观的方法，可以用于凸和凹多边形。

最小外接矩形法：将不规则区域包围在一个最小的矩形框内，然后取矩形框的中心点作为几何中心。这种方法适用于任意形状的区域，但对于一些特殊形状可能不够准确。

最小外接圆法：类似于最小外接矩形，但是采用最小外接圆，将圆心作为几何中心。这对于不规则形状更具有鲁棒性。

面积加权质心法：如果不规则区域的某些部分对整体贡献更大，可以考虑按照像素面积进行加权，计算加权平均值得到几何中心。

轮廓法：对不规则区域提取轮廓，然后计算轮廓的中心点。

具体地，鼻梁所在直线由多个鼻梁特征点的连线所确定。多个鼻梁特征点拟合形成直线以确定鼻梁所在直线。参考附图2中，以鼻梁特征点29、30和31拟合形成直线为鼻梁所在直线。

确定两帧图像中的两个第一夹角的差值绝对值为第一差值，确定两帧图像中的两个第二夹角的差值绝对值为第二差值，若第一差值或第二差值大于0，则确定第一人脸图像或第二人脸图像为播客人脸图像，若第一差值或第二差值等于0，则确定第一人脸图像或第二人脸图像为背景人脸图像。

具体地，作为背景人脸图像为静置放置，因此其在相邻的两帧图像中的第一夹角或第二夹角不会发生改变，则可确定第一差值或第二差值为0，进而可通过第一夹角或第二夹角来确定背景人脸图像。而作为播客人脸图像来说，播客人脸图像是通过对播客(包括主播与副播)人脸图像特征点的投影所确定的二位图像，因此在播客的头部发生转动或晃动时，其在相邻的两帧图像的第一夹角或第二夹角会发生改变，因此可通过该差值大于0来确定该人脸图像为播客人脸图像。

其中，在直播画面中的播客人脸图像是包括主播人脸图像和副播人脸图像，作为主播人脸图像而言，是观众所重点关注的对象，也是直播画面中需要整体突出的画面，因此需要进一步对播客人脸图像中的主播人脸图像或副播人脸图像进行区分，以实现差异化亮度显示。

确定播客人脸图像在每帧图像中鼻梁所在直线与嘴部端点连线的夹角为第三夹角，嘴部端点为嘴部区域的图像点在第一方向上的坐标值的差值最大的两个端点。示例地，可参考图2中的图像点49和图像点55作为嘴部端点。

具体地，第一方向为播客人脸图像中的双耳连线的延伸方向。具体地，通过以双耳连线的延伸方向为第一方向可以人脸的器官特征作为基准，进而提高对嘴部端点或鼻梁所在直线进行确定的准确依据，由此可保证嘴部端点是与人脸的整体器官做平移或联动来进行确定，提高对嘴部特征的识别准确性，由此可通过鼻梁所在直线来分别判断与嘴部端点连线的夹角、以及与双耳连线的夹角、以及嘴部端点与其相应一侧的耳部的中心特征点的连线距离，进而对面部的图像识别点可基于鼻梁所在直线作为判断基础进行分别比较判断，降低人脸图像的识别偏差，提高识别精度。

确定播客人脸图像在每帧图像中嘴部端点与相应一侧的耳部端点的的连线距离为第一距离，确定两帧图像中的两个第一距离的差值绝对值为第四差值；

若第三差值大于角度阈值且第四差值大于距离阈值，则确定播客人脸图像为主播人脸图像，否则，则确定播客人脸图像为副播人脸图像。

可选的，角度阈值为5°。具体地，若第三差值大于角度阈值，则说明其嘴部的变化幅度较大，可确定该播客人脸图像即为主播人脸图像，第三差值小于角度阈值说明嘴部变化幅度较小，可确定该播客人脸图像即为副播人脸图像。进一步地，距离阈值为5mm，若第一距离的差值大于距离阈值，则说明播客人脸图像嘴部变化较大，即为主播人脸图像。

增加主播人脸图像的图像亮度值，以使主播人脸图像的图像亮度值大于副播人脸图像的图像亮度值。进而突出主播人脸图像的显示效果，提高用户在观看直播画面时的观看需求及显示效果。

为进一提升直播画面中对于不同人脸图像的差异化显示效果，降低背景人脸图像的图像亮度值，以使背景人脸图像的图像亮度值低于副播人脸图像的图像亮度值。

具体地，用于该人脸识别方法的显示装置为背光分区显示装置，可针对通过该方法所确定识别处的背景人脸图像、主播人脸图像和副播人脸图像的图像亮度值进行分区调整，也就是针对背景人脸图像、主播人脸图像和副播人脸图像的图像亮度值进行调整所对应的背光区域的LED亮度值进行调整，进而实现针对不同的人脸图像进行亮度值调整。

对直播图像中至少两帧图像中的第一人脸图像和第二人脸图像确定其第一夹角和第二夹角，确定两帧图像中的第一夹角的差值绝对值和第二夹角的差值绝对值并进行判断，以确定直播图像中的播客人脸图像和背景人脸图像，对播客人脸图像在每帧图像中的第三夹角与角度阈值进行判断，以进一步确定针对播客人脸图像中主播人脸图像或副播人脸图像，并对于所确定出的主播人脸图像的图像亮度值进行增加，以使主播人脸图像的图像亮度值大于副播人脸图像的图像亮度值，由此可实现对直播图像中的背景人脸图像、主播人脸图像和副播人脸图像进行筛分确定，并对各背景人脸图像、主播人脸图像和副播人脸图像的图像亮度值进行调整，由此可提高直播图像中的图像显示效果，突出主播人脸图像显示。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种用于视频拍摄中的人脸图像处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述嘴部端点为嘴部区域的图像点在第一方向上的坐标值的差值最大的两个端点。

3.根据权利要求2所述的方法，其特征在于，所述第一方向为所述播客人脸图像中的双耳连线的延伸方向。

4.根据权利要求2所述的方法，其特征在于，所述角度阈值为5°。

5.根据权利要求1所述的方法，其特征在于，鼻梁所在直线由多个鼻梁特征点的连线所确定。

6.根据权利要求1所述的方法，其特征在于，双耳连线由耳部的中心特征点的连线所确定。

7.根据权利要求1所述的方法，其特征在于，降低所述背景人脸图像的图像亮度值，以使所述背景人脸图像的图像亮度值低于所述副播人脸图像的图像亮度值。