CN112995522A

CN112995522A - 人脸聚焦方法及装置、电子设备、存储介质

Info

Publication number: CN112995522A
Application number: CN202110456459.2A
Authority: CN
Inventors: 王文龙; 华旭宏; 李�浩; 杨国全; 曹亚曦; 俞鸣园; 王克彦
Original assignee: Zhejiang Huachuang Video Signal Technology Co Ltd
Current assignee: Zhejiang Huachuang Video Signal Technology Co Ltd
Priority date: 2021-04-27
Filing date: 2021-04-27
Publication date: 2021-06-18

Abstract

本发明提供一种人脸聚焦方法及装置、电子设备、存储介质，方法包括：对采集到的图像帧中的脸区域进行检测，确定图像帧中的人脸区域；确定人脸区域所在的第一图像区块，调整第一图像区块的权重值为第一预设值，以及调整第一图像区块的相邻图像区块的权重值为第二预设值；基于人脸区域进行人脸稳定性检测，确定人脸区域的运动参数超过设定阈值时，触发强制聚焦；在人脸丢失后的设定时长内未检测到人脸时，触发强制聚焦；在人脸丢失后的设定时长内检测到人脸，并确定丢失前后的人脸区域之比大于第一阈值或小于第二阈值时，触发强制聚焦；响应于强制聚焦，对人脸的运动趋势进行预测并进行人脸搜索，自动聚焦。本发明保证了人脸图像正常、稳定聚焦。

Description

人脸聚焦方法及装置、电子设备、存储介质

技术领域

本发明涉及人脸聚焦技术，尤其涉及一种人脸聚焦方法及装置、电子设备、存储介质。

背景技术

在视频会议领域，对人物画面的清晰特写的支持是非常重要的，一般地，视频会议专用机芯镜头一般带有聚焦变倍功能，人脸的准确聚焦是关键所在。随着专用机芯镜头的倍率越来越大，视频会议特写聚焦画面中往往存在以下几个问题：(a)、自动聚焦算法因为景深原因导致人脸模糊后背景清晰等现象；(b)、人物特写画面因为特写人物不固定，会存在移动（晃头，起立，手势运动等）触发自动聚焦，导致频繁聚焦；(c)、人物特写画面因人物运动出现的频繁聚焦加大了人脸聚焦的不到位。

发明内容

本发明提供一种人脸聚焦方法及装置、电子设备、存储介质，以至少解决现有技术中存在的以上技术问题。

本发明一方面提供一种人脸聚焦方法，所述方法包括：

对采集到的图像帧中的人脸区域进行检测，确定所述图像帧中的人脸区域；

确定所述人脸区域所在的第一图像区块，调整所述第一图像区块的权重值为第一预设值，以及调整所述第一图像区块的相邻图像区块的权重值为第二预设值；

基于所述人脸区域进行人脸稳定性检测，确定所述人脸区域的运动参数超过设定阈值时，触发强制聚焦；和/或，在人脸丢失后的设定时长内未检测到人脸时，触发强制聚焦；和/或，在人脸丢失后的设定时长内检测到人脸，并确定丢失前后的人脸区域之比大于第一阈值或小于第二阈值时，触发强制聚焦；

响应于强制聚焦，对人脸的运动趋势进行预测，基于所预测的人脸的运动趋势进行人脸搜索，并对所搜索到的人脸进行自动聚焦。

可选地，所述对人脸的运动趋势进行预测，包括：

确定当前时刻的人脸区域小于前一时刻的人脸区域时，人脸呈靠近摄像头的运动趋势；

确定当前时刻的人脸区域大于前一时刻的人脸区域时，人脸呈远离摄像头的运动趋势。

可选地，所述方法还包括：

确定所述人脸区域的运动参数未超过设定阈值时，保持人脸当前的聚焦参数；和/或，

在人脸丢失后的设定时长内检测到人脸，确定丢失前后的人脸区域之比大于或等于第二阈值小于或等于第一阈值时，保持人脸当前的聚焦参数。

可选地，所述确定所述人脸区域的运动参数超过设定阈值，包括：

获取运动前人脸区域的中心坐标，以及运动后人脸区域的中心坐标；

计算运动前人脸区域的中心坐标和运动后人脸区域的中心坐标的横坐标差值及纵坐标差值；计算运动前人脸区域和运动后人脸区域的长度均值，以及运动前人脸区域和运动后人脸区域的宽度均值；

确定运动前人脸区域和运动后人脸区域的面积差值的绝对值与人脸所在的图像帧的图像面积之比大于第三阈值，所述人脸区域的运动参数超过设定阈值；

或，确定所述横坐标差值的绝对值大于等于长度均值与第四阈值之和，所述人脸区域的运动参数超过设定阈值；

或，确定所述纵坐标差值的绝对值大于等于宽度均值与第五阈值之和，所述人脸区域的运动参数超过设定阈值。

可选地，所述方法还包括：

设置所述图像帧中除第一图像区块及其相邻图像区块之外的其他图像区块的权重值为0。

本发明另一方面提供一种人脸聚焦装置，其特征在于，所述装置包括：

检测单元，用于对采集到的图像帧中的人脸区域进行检测，确定所述图像帧中的人脸区域；

调整单元，用于确定所述人脸区域所在的第一图像区块，调整所述第一图像区块的权重值为第一预设值，以及调整所述第一图像区块的相邻图像区块的权重值为第二预设值；

触发单元，用于基于所述人脸区域进行人脸稳定性检测，确定所述人脸区域的运动参数超过设定阈值时，触发强制聚焦；和/或，在人脸丢失后的设定时长内未检测到人脸时，触发强制聚焦；和/或，在人脸丢失后的设定时长内检测到人脸，并确定丢失前后的人脸区域之比大于第一阈值或小于第二阈值时，触发强制聚焦；

预测单元，用于响应于强制聚焦，对人脸的运动趋势进行预测；

聚焦单元，用于基于所预测的人脸的运动趋势进行人脸搜索，并对所搜索到的人脸进行自动聚焦。

可选地，所述预测单元，还用于：

可选地，所述触发单元，还用于：

可选地，所述调整单元，还用于：

本发明另一方面提供一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现所述人脸聚焦方法的步骤。

本发明再一方面提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现所述人脸聚焦方法的步骤。

本发明通过对人脸区域进行检测，对检测后的人脸区域进行自动聚焦，再对聚焦后的人脸区域进行稳定性检测，即在人脸区域的变化较为剧烈，或人脸区域丢失超过设定时长，才对人脸区域进行聚焦调整，并通过预测人脸的运动方向，对人脸区域的聚焦处理更合理，从而保证了人脸图像正常、稳定聚焦。本发明保证了人脸区域的实时聚焦，通过预估人脸区域的实时运动，解决了场景变化时是否触发人脸区域聚焦的难题。

附图说明

图1示出了本发明实施例的人脸聚焦方法的流程图；

图2示出了人脸区域在图像帧中的位置变化示意图；

图3示出了人脸区域在图像帧中的位置变化示意图；

图4示出了人脸运动趋势预测示意图；

图5示出了本发明实施例的人脸聚焦装置的组成结构示意图；

图6示出了本发明实施例的电子设备的结构图。

具体实施方式

为使本发明的目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示出了本发明实施例的人脸聚焦方法的流程图，如图1所示，本发明实施例的人脸聚焦方法包括以下处理步骤：

步骤101，对采集到的图像帧中的人脸区域进行检测，确定所述图像帧中的人脸区域。

本发明实施例中，为能够保证聚焦人脸区域，需要检测识别人脸区域。为提高人脸区域的检测率，可通过当前最新的深度学习算法检测人脸区域。作为一种实现方式，深度学习算法可以被定义为以下四个基本网络框架中具有大量参数和层数的神经网络：无监督预训练网络、卷积神经网络、循环神经网络和递归神经网络。其中，卷积神经网络主要是通过内部卷积来识别图片，内部卷积可以看到图像上识别对象的边缘。通过深度学习算法，能够准确识别出图像帧中的人脸区域。

步骤102，确定所述人脸区域所在的第一图像区块，调整所述第一图像区块的权重值为第一预设值，以及调整所述第一图像区块的相邻图像区块的权重值为第二预设值。

本发明实施例中，还设置所述图像帧中除第一图像区块及其相邻图像区块之外的其他图像区块的权重值为0。

本发明实施例中，当识别出人脸区域后，需要对人脸区域进行自动聚焦处理。在传统的自动聚焦算法中，一般对图像进行分块处理，再对各图像区块进行权重分配，假设图像被分块为15×17，初始的图像区块的权重设置如式（1）所示，其中边缘图像区块权重设置为1，内部图像区块权重设置为2。通过各图像区块权重与各图像区块的清晰度值求取当前画面的清晰度值。

(1)

为保证人脸区域的聚焦效果，本发明实施例对人脸区域进行权重调整，对人脸区域临近区块做权重调整，非相关区块权重下降，自动聚焦的调整参数如式（2）所示。假设人脸区域所占用的图像区块为方框部分，此时人脸区域的图像区块权重更新为2，与人脸区域相邻的图像区块的权重设置为1，其他非相关图像区块权重设置为0，如此，可只关注于人脸区块处的聚焦。

(2)

步骤103，基于所述人脸区域进行人脸稳定性检测，并确定是否对人脸区域进行强制聚焦。

基于所述人脸区域进行人脸稳定性检测，确定所述人脸区域的运动参数超过设定阈值时，触发强制聚焦；和/或，在人脸丢失后的设定时长内未检测到人脸时，触发强制聚焦；和/或，在人脸丢失后的设定时长内检测到人脸，并确定丢失前后的人脸区域之比大于第一阈值或小于第二阈值时，触发强制聚焦。

确定所述人脸区域的运动参数超过设定阈值，包括：

以下结合示例详细阐述本发明实施例的基于稳定性检测的自动聚焦方式。

由于特写的人脸区域存在不稳定性，一方面特写的人脸会由于晃动等原因进行短距离左右、前后移动，另一方面由于侧脸等原因，会导致人脸检测失败，人脸区域丢失。此类原因会导致图像获取方重新触发聚焦，但很多时候，人脸丢失的原因有可能是偶现聚焦不准，或者由于人脸变化导致的，如果按之前的自动聚焦算法，可能会出现频繁聚焦现象，这导致图形帧处理资源被占用，非常不利于图像帧的传输，影响视频会议的图像稳定性。

如图2所示，A、B为人脸区域，其中A为上一时刻人脸稳定聚焦的位置，假设A下一运动时刻出现在B处，人脸区域可以实时检测到，A的中心区域坐标为(x_A,y_A)，B的中心区域坐标为(x_B,y_B)，宽度分别为w_A，wB，高度为hA，hB，整幅图像帧的宽高为w，h。

本发明实施例可以基于人脸区域A、B之间的移动位置及人脸区域的大小变化情况进行自动聚焦与否的判断，从而可以保证图像自动聚焦的调整更合理，不会轻易导致图像的自动聚焦，由于对图像进行实时检测，也不会导致图像的聚焦滞后使画面质量下降。

如图3所示，当检测到A人脸瞬间移动到B人脸处，且水平移动距离较大，同时满足前后人脸面积呈现一定的变化量可触发自动聚焦。

根据人脸区域A、B所在的中心坐标值，基于式（3），来确定人脸区域A、B的水平移动量或者垂直移动量是否超过了一定移动距离，同时前后人脸区域的面积变化量超过了总面积一定程度，需要强制触发一次聚焦，其中Flag_{auto_focus}代表是否需要触发自动聚焦，为1表示需要触发自动聚焦；此外，当前后人脸呈现明显的大小变化，且超过一定大小需要强制触发聚焦。

(3)

其中，

、

均为设定常数，可根据经验设置。其中，式（3）中是以人脸区域A、B的宽度和长度之和的平均值来作为移动是否超出了一定距离的，也可以以A、B的宽度和长度之和的三分之一、四分之一等的运算值作为判断依据。当然，也可以根据经验设置为某常数。当人脸区域的移动量超出设定值后，为避免误判，还可以结合前后人脸区域之间的面积变化是否超过图像帧的五分之一来综合作为自动聚焦的触发条件。当然，也可以直接以人脸区域的运动距离直接作为自动聚焦触发的条件。

本发明实施例中，当确定人脸区域的前后时刻面积变化超过一定图像帧的一定比例后，也可以直接触发自动聚焦的调整。这里的比例设置为三分之一，也可以是其他值如四分之一等。

本发明实施例中，当出现人脸侧偏、人脸检测瞬间丢失的情况时，因为人脸区域FV值瞬间变化，正常情况会强制触发自动聚焦，很多情况下会因为人脸偏移出现侧脸情况，正对人脸区域变成了侧脸区域，从而强制特定区域聚焦，导致自动聚焦触发聚焦后背景；此时当人脸再次出现，会再次强制触发聚焦，此时会出现明显的清晰模糊过程，从而造成不好的体验效果。

为避免这类情况，本发明实施例的采用稳定性自动聚焦策略，在聚焦人脸丢失过程中，不立即触发聚焦，当检测人脸区域丢失，且超过一定时间后人脸区域依旧无法检测到，再触发自动聚焦；若后期重新检测到人脸，则根据新人脸与原人脸的变化量决定是否触发聚焦。在视频会议中，考虑到讲话、遮挡等各类干扰因素，一般设定为4s左右的稳定检测时间，即检测到人脸区域丢失后，4s内暂时不触发自动聚焦，若在4s内重新检测到人脸区域，则不触发自动聚焦。当4s内检测到的人脸区域与人脸区域丢失之前的人脸区域的移动距离超过设定的距离，或人脸区域的面积变化超过设定阈值，则触发自动聚焦。也就是说，本发明实施例中，当人脸区域消失后，在4s内重新检测到人脸区域后，可采用式（3）所示的判断依据判断是否触发自动聚焦。

步骤104，响应于强制聚焦，对人脸的运动趋势进行预测，基于所预测的人脸的运动趋势进行人脸搜索，并对所搜索到的人脸进行自动聚焦。

本发明实施例中，在自动聚焦过程中，由于聚焦初始方法的难以判断，往往加大了聚焦的难度，如图4所示，c点具有两个方向的运动可能性。若初始搜索方向为负方向，往往加大了搜索的区间，导致图像初始模糊的程度。为进一步加快人脸微移过程中，加快聚焦人脸区域，本提案通过人脸区域移动方向实时检测，加入人脸移动方向预测机制，来加快人脸聚焦方向的预判。

如图4所示，当同一人脸处于前后的运动过程中，当人脸特写画面呈现巨大的前后运动变化过程中，人脸区域的面积也会出现明显的变化，假设初始人脸区域的面积为：w_A×h_A，人脸区域运动后面积为：w_B×h_B，对人脸的运动趋势进行预测的方式如下式（4）所示：

(4)

当w_A×h_A小于w_B×h_B时，人脸区域的面积呈变大的趋势，一般往聚焦正方向移动，可实现更快速的聚焦；此外，当人脸区域的面积变小，往聚焦负方向移动，此外维持原始设定的聚焦方向不变。

图5示出了本发明实施例的人脸聚焦装置的组成结构示意图，如图5所示，本发明实施例的人脸聚焦装置包括：

检测单元50，用于对采集到的图像帧中的人脸区域进行检测，确定所述图像帧中的人脸区域；

调整单元51，用于确定所述人脸区域所在的第一图像区块，调整所述第一图像区块的权重值为第一预设值，以及调整所述第一图像区块的相邻图像区块的权重值为第二预设值；

触发单元52，用于基于所述人脸区域进行人脸稳定性检测，确定所述人脸区域的运动参数超过设定阈值时，触发强制聚焦；和/或，在人脸丢失后的设定时长内未检测到人脸时，触发强制聚焦；和/或，在人脸丢失后的设定时长内检测到人脸，并确定丢失前后的人脸区域之比大于第一阈值或小于第二阈值时，触发强制聚焦；

预测单元53，用于响应于强制聚焦，对人脸的运动趋势进行预测；

聚焦单元54，用于基于所预测的人脸的运动趋势进行人脸搜索，并对所搜索到的人脸进行自动聚焦。

作为一种实现方式，所述预测单元53，还用于：

作为一种实现方式，所述触发单元52，还用于：

作为一种实现方式，所述调整单元51，还用于：

在示例性实施例中，检测单元50、调整单元51、触发单元52、预测单元53、聚焦单元54等可以被一个或多个中央处理器（CPU，Central Processing Unit）、图形处理器（GPU，Graphics Processing Unit）、基带处理器（BP，Base Processor）、应用专用集成电路（ASIC，Application Specific Integrated Circuit）、数字信号处理器（Digital SignalProcessor，DSP）、可编程逻辑器件（PLD，Programmable Logic Device）、复杂可编程逻辑器件（CPLD，Complex Programmable Logic Device）、现场可编程门阵列（FPGA，Field-Programmable Gate Array）、通用处理器、控制器、微控制器（MCU，Micro ControllerUnit）、微处理器（Microprocessor）、或其他电子元件实现，用于执行前述实施例的人脸聚焦方法的步骤。

在本公开实施例中，图5示出的人脸聚焦装置中各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

下面，参考图6来描述根据本申请实施例的电子设备11。

如图6所示，电子设备11包括一个或多个处理器111和存储器112。

处理器111可以是中央处理单元（CPU）或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备11中的其他组件以执行期望的功能。

存储器112可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器（RAM）和/或高速缓冲存储器（cache）等。所述非易失性存储器例如可以包括只读存储器（ROM）、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器111可以运行所述程序指令，以实现上文所述的本申请的各个实施例的验证方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备11还可以包括：输入装置113和输出装置114，这些组件通过总线系统和/或其他形式的连接机构（未示出）互连。

该输入装置113可以包括例如键盘、鼠标等等。

该输出装置114可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出装置114可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图5中仅示出了该电子设备11中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备11还可以包括任何其他适当的组件。

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种人脸聚焦方法，其特征在于，所述方法包括：

对采集到的图像帧中的脸区域进行检测，确定所述图像帧中的人脸区域；

2.根据权利要求1所述的方法，其特征在于，所述对人脸的运动趋势进行预测，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述确定所述人脸区域的运动参数超过设定阈值，包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.一种人脸聚焦装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述预测单元，还用于：

8.根据权利要求6或7所述的装置，其特征在于，所述触发单元，还用于：

9.根据权利要求6所述的装置，其特征在于，所述触发单元，还用于：

10.根据权利要求6所述的装置，其特征在于，所述调整单元，还用于：

11.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现权利要求1-5任一项所述的方法步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-5任一项所述的方法步骤。