CN113537139A

CN113537139A - 一种人脸检测定位方法及装置

Info

Publication number: CN113537139A
Application number: CN202110884088.8A
Authority: CN
Inventors: 张煇; 郑世琪
Original assignee: Shanxi Changhe Technology Co ltd
Current assignee: Shanxi Changhe Technology Co ltd
Priority date: 2021-08-03
Filing date: 2021-08-03
Publication date: 2021-10-22

Abstract

本发明提出了一种人脸检测定位方法及装置，其中，本发明的人脸检测定位方法包括：读取监控视频文件，将RGB模式的图像转化为HSV模式的图像；采用帧差法对所述HSV模式的图像提取视频关键帧；对视频关键帧进行人脸检测，以确定人脸位置；以及通过预定点坐标进行人脸对齐，以将人脸图像变换到标准位置，使得输出视频图像。

Description

一种人脸检测定位方法及装置

技术领域

本发明涉及一种人脸检测定位领域，特别涉及一种人脸检测定位方法及装置。

背景技术

人脸目标检测指将人脸作为目标检测的主体，用于确定在输入的图片或视频中人脸的大小和位置，把人脸模块作为前景从图像中分割出来，并对人脸特征点进一步对齐，以便于后续的人脸特征分析和识别任务。人脸目标检测作为目标检测课题中一个重要的研究方向，在智能监控、人证比对和媒体社交等领域的应用已经日趋成熟。

在过去的几年中，由于人工智能的快速发展，深度学习在图像识别领域取得了很大的进展。人脸检测的准确性和跟踪速度不断提高，满足了单目标识别场景的使用。然而，在多目标识别场景中，人脸量的增加会导致计算量的大幅增加，容易导致速度爆炸。目前基于深度学习的目标跟踪算法精度较高，但跟踪速度较慢，难以达到实时性。因此，多目标人脸的检测和定位速度仍需加快。

现有方法在人脸目标检测方面存在一些问题，包括：

(1)用传统目标检测方法对整个视频逐帧进行检测并定位人脸位置，明显费时且计算量巨大；

(2)视频中存在众多人脸姿态不标准以及运动模糊导致难以识别的无效帧图像，以及虽然姿态标准但目标相对静止产生的连续几十帧变化较小的冗余帧图像；

(3)在多目标识别场景下，人脸跟踪能力差、实时性低、鲁棒性差，且无法在速度与精度上取得均衡。

监控视频具有数据量大、冗余的特点，以及同一帧出现众多人脸的情况，这使得可疑人脸检测实时性成为一个难题。

为解决现用技术问题的上述缺陷，有必要提出一种人脸检测定位方法及装置。

发明内容

有鉴于此，本发明提出了一种人脸检测定位方法及装置，本发明的人脸检测定位方法提高了人脸检测的速度以及人脸识别的实时性。

为实现上述目的，本发明的第一方面提出了一种人脸检测定位方法，其特征在于，所述人脸检测定位方法包括：

读取监控视频文件，将RGB模式的图像转化为HSV模式的图像；

采用帧差法对所述HSV模式的图像提取视频关键帧；

对视频关键帧进行人脸检测，以确定人脸位置；以及

通过预定点坐标进行人脸对齐，以将人脸图像变换到标准位置，使得输出视频图像。

如上所述的人脸检测定位方法，其中，所述将RGB模式的图像转化为HSV 模式的图像包括：

将RGB模式的图像在色彩模式下的坐标点(r，g，b)转化为图像在HSV 模式的坐标点(h，s，v)，其中，

r、g、b分别表征图像在RGB模式下的红色值、绿色值以及蓝色值；

h、s、v分别表征图像在HSV模式下的色调值、饱和度值以及明度值。

如上所述的人脸检测定位方法，其中，v为r、g以及b中的最大值，

其中，v＝max(r,g,b) (1)。

如上所述的人脸检测定位方法，其中，s为r、g以及b中的最大值与r、g 以及b中的最小值之差与v的比值，

其中，

如上所述的人脸检测定位方法，其中，采用以下公式(3)-公式(7)计算得到h，

其中，

h＝h'×60 (7)。

如上所述的人脸检测定位方法，其中，

当第i帧与第i-1帧相应像素之间的差异超过预设阈值，则第i帧定义为关键帧，其中，i＝2,……，N，其中，N为大于2的正整数。

本发明的第二方面提出了一种多目标人脸检测定位装置，其中，包括：

读取转换模块，用于读取监控视频文件，将RGB模式的图像转化为HSV 模式的图像；

提取模块，用于采用帧差法对所述HSV模式的图像提取视频关键帧；

定位模块，用于对视频关键帧进行人脸检测，以确定人脸位置；以及

输出模块，用于通过预定点坐标进行人脸对齐，以将人脸图像变换到标准位置，使得输出视频图像。

如上所述的多目标人脸检测定位装置，其中，所述将RGB模式的图像转化为HSV模式的图像包括：

本发明的第二方面提出了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如上所述的人脸检测定位方法的步骤。

本发明的第四方面提出了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上所述的人脸检测定位方法的步骤。

上述技术特征可以各种适合的方式组合或由等效的技术特征来替代，只要能够达到本发明的目的。

附图说明

图1为本发明实施例的一种人脸检测定位方法的流程图；

图2为本发明实施例的人脸检测定位方法的流程图；

图3为本发明实施例的人脸检测改进残差网络结构的示意图；

图4为本发明实施例的关键帧提取处理流程的示意图；

图5为本发明实施例的人脸检测定位装置的结构示意图；以及

图6为本发明实施例提供的终端设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

下面结合附图详细说明本发明实施例的技术方案。

如图1至图4所示，本发明提出了一种人脸检测定位方法，其中，本发明人脸检测定位方法包括：

步骤S1)：读取监控视频文件，将RGB模式的图像转化为HSV模式的图像；

步骤S2)：采用帧差法对所述HSV模式的图像提取视频关键帧；

步骤S3)：对视频关键帧进行人脸检测，以确定人脸位置；以及

步骤S4)：通过预定点坐标进行人脸对齐，以将人脸图像变换到标准位置，使得输出视频图像。

在步骤S1中，具体地，为了减小计算量提高检测效率，在不使用更多传感器检测以及没有对被检测人指令行为干预的前提下，提出了基于颜色空间转换下的关键帧提取方法。在人脸目标检测阶段，则采用单阶段的基于改进深度残差网络的人脸检测方法。

RGB颜色空间利用三个颜色分量的线性组合来表示颜色，任何颜色都与这三个分量有关，而且这三个分量是高度相关的，所以连续变换颜色时并不直观，想对图像的颜色进行调整需要更改这三个分量才行。而自然监控环境下获取的图像容易受自然光照、遮挡和阴影等情况的影响，即对亮度比较敏感。而 RGB颜色空间的三个分量都与亮度密切相关，即只要亮度改变，三个分量都会随之相应地改变，而没有一种更直观的方式来表达。所以，RGB颜色空间适合于显示系统，却并不适合于图像处理。

基于上述理由，在图像处理中使用较多的是HSV颜色空间，它比RGB 更接近人们对彩色的感知经验，可非常直观地表达颜色的色调、鲜艳程度和明暗程度，方便进行颜色的对比。因此，在HSV颜色空间下，比BGR更容易跟踪某种颜色的物体，常用于分割指定颜色的物体。

首先，读取监控视频文件，将RGB模式的图像转化为HSV模式，某种颜色在RGB色彩空间模式下用坐标点(r,g,b)表示，同样还是该种颜色在HSV色彩空间下用坐标点(h,s,v)表示，

其中，r、g、b分别表征图像在RGB模式下的红色值、绿色值以及蓝色值；

两种空间坐标系之间的映射关系如下：

v为r、g以及b中的最大值，

其中，v＝max(r,g,b) (1)。s为r、g以及b中的最大值与r、g以及b中的最小值之差与v的比值，

其中，

其中，

h＝h'×60 (7)。

研究发现，通过上述公式(1)-公式(7)将RGB模式的图像转化为HSV 模式的图像，可以为后面的人脸定位提供精确的数据。

在步骤S2中，具体地，对上个模块颜色空间转换后的图像采用基于帧差法提取视频关键帧。假设监控视频为V,fi为第i帧，即(1，...，N)，视频的总帧数为N，V＝{f₁,f₂....f_N}。将一帧的所有像素减去上一帧的对应像素，然后将所有的对应像素差异相加，并设置阈值K，如果f_m帧和前一帧f_m-1之间的所有的对应像素差异超过阈值，可认定为有一个移动物体，并将f_m帧视为关键帧。

在步骤S3中，具体地，如图3所示，人脸检测阶段采用单阶段的基于改进深度残差网络的人脸检测方法对上阶段产生的关键帧进行人脸检测，该网络使用Resnet-50作为主干网，结合BN-Conv-ReLu-Conv-BN结构，并在第二层网络设置stride＝2，引入权值共享、局部感知，其中，通过卷积核滑窗将每个神经元只与上一层中滑窗覆盖部分神经元相连，感知局部。用一个相同的卷积核卷积整幅图像实现权值共享，其优点在于大大减少网络参数，并提升人脸检测速率。网络中每层只连接上层卷积核滑窗覆盖区域的神经元，而不连接上层的所有神经元，并且在同一特征映射面上的神经元权值是共享的。使用标注有五个关键点位置的训练集进行训练，将人脸部位定位以及五个关键点(眼、鼻、嘴)位置分割出来。

在步骤S4中，具体地，经上一模块确定图像中人脸位置之后，并通过关键点坐标进行人脸对齐(缩放、旋转和平移)，将人脸图像都变换到标准的角度和姿态。

人脸对齐具体步骤：

1、将输入的112×112尺寸大小标准人脸的5个参考位置坐标(5个关键点位置坐标)作为目标点，人脸检测识别到的人脸关键点作为源点。根据源点矩阵和目标矩阵得到变换矩阵。

2、将整张人脸的矩阵坐标与变换矩阵进行相乘运算得到变换后的正脸。

本发明与现有视频图像中人脸检测方法相比较，具有的特点是：

1)本发明中采用间隔帧的方法确定一个适当的间隔帧数，使得识别率在保持较好情况下，减少尽量多的计算帧数，从而提高人脸检测的速度以及人脸识别的实时性。

2)采用脸部关键点(眼、嘴、鼻)依次确认的方式进行人脸姿态调整使其变换到标准的角度和姿态，自适应调整搜索尺度，能够加快检测速度，并提高后续人脸识别准确率。

现结合图1至图6对本发明的一具体实施例进行详细地说明，以使本发明清楚，其并非旨于对本发明的限制。

具体地，在本发明例中，本发明的人脸检测定位方法包括：

(1)读取监控视频文件，将RGB模式的图像转化为HSV模式，某种颜色在RGB色彩空间模式下用坐标点(r,g,b)表示，同样还是该种颜色在HSV色彩空间下用坐标点(h,s,v)表示，则两种空间坐标系之间的映射关系如上公式(1) -公式(7)所示，在此不再再次赘述，利用该步骤，完成从RGB空间到HSV 空间的转化。

(2)对上个模块颜色空间转换后的图像采用基于帧差法提取视频关键帧。假设监控视频为V,f_i为第i帧，即(1，...，N)，视频的总帧数为N，V＝{f₁,f₂....f_N}。将一帧的所有像素减去上一帧的对应像素，然后将所有的对应像素的差异相加，并设置阈值K，如果f_m帧和前一帧f_m-1之间的所有的对应像素的差异超过阈值，可认定为有一个移动物体，并将f_m帧视为关键帧。

(3)人脸检测阶段采用单阶段的基于改进深度残差网络的人脸检测方法对上阶段产生的关键帧进行人脸检测，该网络使用Resnet-50作为主干网，结合BN-Conv-ReLu-Conv-BN结构，并在第二层网络设置stride＝2，引入权值共享、局部感知，其中，通过卷积核滑窗将每个神经元只与上一层中滑窗覆盖部分神经元相连，感知局部。网络中每层只连接上层卷积核覆盖区域的神经元，而不连接上层的所有神经元，并且在同一特征映射面上的神经元权值是共享的。使用标注有五个关键点位置的训练集进行训练，将人脸部位定位以及五个关键点(眼、鼻、嘴)位置分割出来。

(4)经上一模块确定图像中人脸位置之后，并通过关键点坐标进行人脸对齐(缩放、旋转和平移)，将人脸图像都变换到标准的角度和姿态，最终输出视频图像。

本发明针对司法、安防等领域，对监控视频下的多目标人脸检测定位问题，提出了一种固定监控视频窗口的多目标人脸检测定位方法，根据输入的图像进行视频人脸检索。本发明的思路是首先找到视频中镜头变化的关键帧，然后在关键帧中进行人脸检测。关键帧提取的质量直接影响视频检索的效率，所采用的帧间差分法提取关键帧的原理是对两帧图像进行区分，得到图像的平均帧间差强度，以衡量两帧的变化。如果某一帧与前一帧相比变化较大，则视为关键帧。

如图5所示，本发明的第二方面提出了一种多目标人脸检测定位装置，其中，包括：读取转换模块10，用于读取监控视频文件，将RGB模式的图像转化为HSV模式的图像；提取模块20，用于采用帧差法对所述HSV模式的图像提取视频关键帧；定位模块30，用于对视频关键帧进行人脸检测，以确定人脸位置；以及输出模块40，用于通过预定点坐标进行人脸对齐，以将人脸图像变换到标准位置，使得输出视频图像。

其中，读取转换模块10、提取模块20、定位模块30以及输出模块40的详细功能对应于上述步骤S1至S4的过程，在此不再赘述。

图6是本发明一实施例提供的一种终端设备的示意图。如图6所示，该实施例的终端设备6包括：处理器60、存储器61以及存储在存储器61中并可在处理器60上运行的计算机程序62，例如一种多目标人脸检测定位的程序。处理器60执行计算机程序62时实现上述各个多目标人脸检测定位方法的实施例中的步骤，例如上述所示的步骤S1至步骤S4。或者，处理器60执行计算机程序62时实现上述各装置实施例中各模块/单元的功能，例如图5所示模块 10至40的功能。

示例性的，计算机程序62可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器61中，并由处理器60执行，以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序62在终端设备6中的执行过程。

终端设备6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。终端设备6可包括，但不仅限于，处理器60、存储器61。本领域技术人员可以理解，图6仅仅终端设备6的示例，并不构成对终端设备6的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器60可以是中央处理单元(Central Processing Unit，CPU)，还可以是其它通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列 (Field-Programmable Gate Array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器61可以是终端设备6的内部存储单元，例如终端设备6的硬盘或内存。存储器61也可以是终端设备6的外部存储设备，例如终端设备6上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器61还可以既包括终端设备6的内部存储单元也包括外部存储设备。存储器61用于存储计算机程序以及终端设备6所需的其它程序和数据。存储器61还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本发明难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源 /接地连接。此外，可以以框图的形式示出装置，以便避免使本发明难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本发明的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本发明的具体实施例对本发明进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本技术领域技术人员可以理解，本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造，或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序，这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如，计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中，所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随即存储器)、EPROM(Erasable ProgrammableRead-Only Memory，可擦写可编程只读存储器)、EEPROM (Electrically ErasableProgrammable Read-Only Memory，电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是，可读介质包括由设备(例如，计算机)以能够读的形式存储或传输信息的任何介质。本技术领域技术人员可以理解，可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解，可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现，从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。

本技术领域技术人员可以理解，本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。