CN111178261B

CN111178261B - 一种基于视频编码技术的人脸检测加速方法

Info

Publication number: CN111178261B
Application number: CN201911390478.9A
Authority: CN
Inventors: 程艳芳; 陈先相
Original assignee: Wuhan Enzhi Electronic Technology Co ltd
Current assignee: Wuhan Enzhi Electronic Technology Co ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2023-05-16
Anticipated expiration: 2039-12-30
Also published as: CN111178261A

Abstract

本发明公开了一种基于视频编码技术的人脸检测加速方法，包括如下步骤：步骤A、确定人脸检测的关键帧(DI帧)和参考帧(DP帧)；步骤B、对于DI帧，进行常规流程的人脸检测；步骤C、对于DP帧，根据预测信息进行快速人脸检测，其重点在于消除人脸检测图像中的冗余信息和人脸检测过程中的冗余步骤；步骤D、对人脸检测结果(人脸矩形框)进行跟踪，以提供DP帧所需的预测信息。该方法无需改变人脸检测网络的网络结构，在较为低端的硬件设备上，即可实现快速的人脸检测。

Description

一种基于视频编码技术的人脸检测加速方法

技术领域

本发明涉及视频编码和图像模式识别技术领域，尤其涉及一种基于视频编码技术的人脸检测加速方法。

背景技术

人脸检测是人脸抓拍、人脸识别、面部重建等一系列应用的基础，在安防监控、人脸考勤、智慧通行等领域均有广泛应用。

近年来，基于深度学习的人脸检测方法(比如MTCNN、SSD、RetinaFace、FaceBoxes、SSH等)兴起，人脸检测出现了大规模的应用，但随之而来的高计算负载也对硬件性能提出了更高的要求。如何让人脸检测算法快速、准确的执行，特别是低端设备上的人脸检测实时应用，一直是备受关注的问题。

针对深度学习的人脸检测加速方法，最简单的解决方式是减少送检的视频帧图像尺寸或者更换算力更强的硬件设备，但减少送检的图像大小将直接影响最小支持检测的人脸大小，降低人脸检测的召回率；而升级硬件会带来成本的上涨。

更进一步地，在要求的最小人脸检测大小和给定硬件的情况下，一般是通过简化具体的人脸检测网络的网络结构再进行重新训练，而这个过程往往需要多轮训练迭代，对网络训练人员的专业素质要求较高，且简化网络结构也可能带来人脸检测精准率和召回率的损失。

因此，如何在降低硬件成本、保证人脸召回率和不改变人脸检测网络结构的情况下，实现实时、准确的人脸检测，是目前急需解决的问题。

发明内容

本发明提出了一种基于视频编码技术的人脸检测加速方法，以解决上述背景技术中提出的问题。

本发明提出了一种基于视频编码技术的人脸检测加速方法，包括如下步骤：

步骤A、确定人脸检测的关键帧(DI帧)和参考帧(DP帧)；

步骤B、对于DI帧，进行常规流程的人脸检测；

步骤C、对于DP帧，根据预测信息进行快速人脸检测，其重点在于消除人脸检测图像中的冗余信息和人脸检测过程中的冗余步骤；

步骤D、对人脸检测结果(人脸矩形框)进行跟踪，以提供DP帧所需的预测信息。

优选的，在步骤A中，确定关键帧和参考帧的方法为：

在人脸检测初始化和每隔一段时间或帧数，定义一个视频帧为关键帧，其他的视频帧则定义为参考帧；

DI帧不依赖于任何预测信息，独立进行人脸检测，即执行常规的人脸检测流程；DP帧会根据预测信息，去掉检测图像中的冗余信息和检测流程中的冗余步骤，仅针对人脸ROI区域和特定人脸尺寸范围，进行简化流程的人脸检测；

DI帧的帧间隔n可以自行定义，一般每秒钟一个DI帧即可，DI帧的帧间隔n越大，人脸检测加速的效果越明显，但过大的DI帧间隔可能会影响人脸检测的召回率。

优选的，在步骤B中，常规流程人脸检测指的是输入固定尺寸大小的视频帧，在整个视频图像上、覆盖所有人脸检测尺度，执行完整的人脸检测流程。

优选的，在步骤C中，快速人脸检测方法包括：

C1:根据跟踪链表中下一帧人脸的预测位置和预测大小计算当前待检测的视频帧中单个人脸的局部ROI区域和所有人脸的整体ROI区域；

C2:根据跟踪链表中下一帧人脸的预测大小计算当前待检测的视频帧中单个人脸的检测尺寸范围和所有人脸的总体检测尺寸范围；

C3:若所有人脸的局部ROI区域面积之和小于整体的人脸ROI区域面积，则使用单个人脸的局部ROI区域和单个人脸的检测尺寸范围进行人脸加速；反正，使用人脸的整体ROI区域和总体的检测尺寸范围进行人脸加速；

C4：对于级联的人脸检测方法，利用跟踪链表中下一帧人脸的预测位置和神经网络的边框回归能力，直接在当前待检测视频帧上将预测人脸框所在位置上的图像数据作为最后一级网络的输入，去掉前面候选人脸框检测网络调用过程；

C5:对于多尺度输入的人脸检测方法，利用人脸的检测尺度范围，去掉最大最小人脸范围之外的图像尺度输入；

C6：对于单步的人脸检测方法，利用人脸检测尺度范围中的最小人脸大小将输入的视频帧图像缩小到适当范围再进行检测；

C7：对于所有的人脸检测方法，仅将人脸检测ROI区域内的图像数据作为人脸检测网络的输入，去掉无关的图像数据；

C8：针对具体的人脸检测网络，根据实际情况综合使用上述方法，实现对人脸图像中的有效信息进行特定区域、特定尺度、特定步骤的人脸检测。

优选的，在步骤C1和步骤C2中，还包括：

计算的人脸ROI区域和人脸大小范围都有一个预留的调节因子，以防止预测结果出现偏差导致人脸实际位置和大小超出了预测范围；

步骤C1中的人脸的整体ROI区域是所有单个人脸的局部ROI区域取并集的结果；

步骤C2中人脸的总体检测尺寸范围是所有单个人脸的检测尺寸范围取最大值、最小值的结果。

优选的，在步骤C4中还包括：判断是否每一个人脸预测位置上的待检测视频帧数据在经过最后一级网络以后都能得到一个置信度超过一定阈值的人脸检测结果，如果没有检测到人脸或者检测到的人脸置信度过低，则针对此人脸的局部ROI区域和检测尺寸范围重新进行上述步骤C5到步骤C8中的快速人脸检测流程。

优选的，在步骤C7之后还包括：对所有人脸检测结果中的人脸框需要补偿上ROI区域相对于原始视频帧图像的偏移量。

优选的，步骤D还包括：

D1:将人脸检测结果中的人脸框作为人脸跟踪的输入；

D2:建立跟踪链表，跟踪链表中包含了人脸跟踪ID，人脸框轨迹信息、人脸预测位移、人脸大小变化率、下一帧人脸预测位置、下一帧人脸预测大小的信息；

D3:根据最近t帧的人脸框轨迹信息预测跟踪链表中人脸框在当前帧中的位置；

D4:将预测的人脸位置和检测到的实际人脸位置两两计算相交面积，建立二维相交矩阵，循环遍历相交矩阵，建立一对一匹配关系；

其中，相交面积可以为负数，表示实际不相交但是相隔不远的预测人脸位置和实际人脸位置仍然可以正常匹配；

D5:根据匹配状态更新跟踪链表中的人脸框轨迹信息、人脸预测位移、人脸大小变化率、下一帧人脸预测位置、下一帧人脸预测大小的信息；

D6:相交矩阵中对应跟踪链表中未匹配的人脸，认为是跟踪丢失，直接从跟踪链表中删除；相交矩阵中对应实际检测未匹配的人脸，认为出现了新的人脸，添加到跟踪链表中；

D7:根据更新的跟踪链表计算人脸在下一帧中的预测位置和大小：

下一帧人脸的预测位置＝当前帧人脸的实际位置+人脸预测位移；

下一帧人脸的预测大小＝当前帧人脸的大小*人脸大小变化率。

本发明提出的一种基于视频编码技术的人脸检测加速方法，有益效果在于：

该方法无需改变人脸检测网络的网络结构，在较为低端的硬件设备上，即可实现快速的人脸检测。

其跟踪预测计算量非常小，且跟踪输出的人脸ID也为人脸抓拍去重提供了依据。

在hisilicon和mstar上实际测试，测试结果表明本发明在保证人脸检测召回率的同时，不仅有效地降低了人脸检测的误检率，而且实现了实时、准确的人脸检测。

附图说明

图1为本发明实施例中人脸检测加速方法的流程示意图；

图2为本发明实施例中建立人脸框跟踪链表的流程示例图；

图3为本发明实施例中预测人脸框和实际人脸框匹配过程的示例图；

图4为本发明实施例中预测人脸框和实际人脸框相交类型的示例图。

具体实施方式

下面结合具体实施例来对本发明做进一步说明。

本发明实施例中，借鉴视频编码技术的思想，定义了检测关键帧(DI帧)和检测参考帧(DP帧)，通过预测去除了视频帧中的冗余信息和检测流程中的冗余步骤，在保证人脸召回率的同时降低了人脸的误检率，并且有效的加快了视频中人脸检测的速度；

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明实施例中关于基于视频编码技术的人脸检测加速方法进行详细说明。

图1为本发明实施中人脸检测加速方法的流程示意图。如图1所示，该方法主要包括关键帧检测模块、参考帧检测模块和跟踪预测模块。其中，关键帧检测模块是为了保证人脸检测的召回率；参考帧检测模块是为了提高人脸检测的速度和降低人脸检测的误检率；跟踪预测模块是为了给参考帧检测模块在加速时提供计算依据。

具体实现时，需要首先确定关键帧(DI帧)和参考帧(DP帧)。DI帧指不依赖于任何预测信息，独立进行人脸检测的视频帧；DP帧指需要根据预测信息，进行快速人脸检测的视频帧。

进一步地，设N为帧计数，n为DI帧间隔。在系统初始化的时候设置N＝0，每检测完一个视频帧设置N＝N+1，当N≥n时，重新初始化N＝0。定义N＝0时的视频帧为DI帧，N>0时的视频帧为DP帧。

上述过程中，DI帧的帧间隔n可以根据系统性能自行定义，一般每秒钟一个DI帧即可。DI帧的帧间隔n越大，人脸检测加速的效果越明显，但过大的DI帧间隔可能会影响人脸检测的召回率。当n<＝1时，整个流程将退化为常规步骤的人脸检测。

关键帧检测模块，将执行常规的人脸检测流程，即对于输入固定尺寸大小的视频帧，在整个视频图像上、覆盖所有人脸检测尺度，执行完整的人脸检测流程

参考帧检测模块，将根据跟踪预测模块提供的预测信息，只针对人脸图像中的有效信息进行特定区域、特定尺度、特定步骤的快速人脸检测。

进一步地，人脸图像有效信息的获取步骤为：根据预测信息计算当前待检测的视频帧中人脸检测的ROI区域和人脸的大小范围。人脸检测的ROI区域包括单个人脸的局部ROI区域，也包括视频帧中所有人脸的整体ROI区域；人脸大小范围包括单个人脸的大小范围，也包视频帧中所有人脸的总体大小范围。

设当前视频帧的宽度为frame_w，当前视频帧的高度为frame_h，视频帧跟踪链表中的人脸个数为m,第i个人脸在上一帧中的位置为(x0i,y0i,w0i,h0i),人脸预测位移为(dxi,dyi),人脸大小变化率为fsi，则人脸在当前待检测帧中的预测位置(x1i,y1i,w1i,h1i)为：

x1i＝x0i+dxi

y1i＝y0i+dyi

w1i＝w0i*fsi

h1i＝h0i*fsi

其中，(dxi,dyi)可以为负数

确定了人脸在当前待检测帧中的预测位置以后，人脸局部ROI(lroii)区域的计算方法为：

lroii.x0＝max(0,x1i–w1i*α)；

lroii.y0＝max(0,y1i–h1i*α)；

lroii.x1＝min(frame_w,x1i+w1i*(1+α))-1

lroii.y1＝min(frame_h,y1i+h1i*(1+α))-1

其中，α>0，为人脸ROI预留因子，防止预测结果出现偏差导致人脸实际位置超出了预测范围。

人脸整体ROI(groi)区域的计算方法为：

groi.x0＝min(lroi0.x0,lroi1.x0,…,lroim-1.x0)

groi.y0＝min(lroi0.y0,lroi1.y0,…,lroim-1.y0)

groi.x1＝max(lroi0.x1,lroi1.x1,…,lroim-1.x1)

groi.y1＝max(lroi0.y1,lroi1.y1,…,lroim-1.y1)

更进一步地，确定了人脸在当前待检测帧中的预测位置以后，单个人脸尺度范围(lsize)和总体人脸尺度范围(gsize)的计算方法为：

lsizei.min＝min(w1i,h1i)/β

lsizei.max＝max(w1i,h1i)*β

gsize.min＝min(lsize0.min,lsize1.min,…,lsizem-1.min)

gsize.max＝max(lsize0.max,lsize1.max,…,lsizem-1.max)

其中，β>1，为人脸大小调节因子，防止预测结果出现偏差导致人脸实际大小超出了预测范围

接着，计算全部m个人脸局部ROI区域的面积之和areal和人脸总体ROI面积areag：

areal＝∑((lroii.x1–lroii.x0+1)*(lroii.y1-lroii.y0+1))

areag＝(groi.x1–groi.x0+1)*(groi.y1-groi.y0+1)

如果areal<areag*γ，则针对每一个lroii和lsizei分别在当前待检测帧上进行人脸检测，m个这样的人脸检测结果合起来，即为当前帧的人脸检测结果；如果areal≥areag*γ，则只针对groi和gsize在当前待检测帧上进行人脸检测。其中，γ≥1，为调节因子，考虑到系统调度、CPU/GPU协同工作等负载因素，可以根据实际的应用环境和测试结果而定。

特别地，对于级联的人脸检测方法，如MTCNN人脸检测方法，它包含三个级联的网络，分别是快速生成候选窗口的P-Net、进行高精度候选窗口过滤选择的R-Net和生成最终边界框与人脸关键点的O-Net。在预测出人脸在当前待检测帧中的位置(x1i,y1i,w1i,h1i)以后，利用O-Net网络的边框回归能力，直接将预测位置(x1i,y1i,w1i,h1i)所在的图像数据作为O-Net网络的输入进行人脸检测，去掉了P-Net网络和R-Net网络等冗余步骤。实验结果表明，在大多数情况下，仅利用预测位置和O-Net网络即可得到准确的人脸框和人脸关键点位置。为了解决少量预测位置不准确和O-Net边框回归能力有限的问题，需要进一步判断是否每一个预测位置(x1i,y1i,w1i,h1i)在经过O-Net网络以后都能得到一个置信度超过一定阈值的人脸，如果没有检测到人脸或者检测到的人脸置信度过低，则需要利用lroii和lsizei重新进行上述步骤中的快速人脸检测流程。

特别地，对于需要多尺度输入的人脸检测方法，在多尺度缩放比例确定的情况下，一般都是根据需要检测的最大最小人脸范围来确定需要送检的多尺度图像个数和对应尺度上的图像大小。所以，缩小人脸检测的尺度范围，可以有效地减小送检的多尺度图像个数和送检的图像大小。进一步地，对于多尺度输入的人脸检测方法，支持检测的人脸越小，人脸检测的时间就会成指数倍的增加。所以，确定当前待检测帧中的最小人脸大小能够极大地提高人脸检测的速度。

特别地，对于单步(one-stage)的人脸检测方法，如SSD、RetinaFace人脸检测方法，其整个调用过程只有一步。在固定输入图像大小的情况下，网络支持检测的最小人脸(min_face)也是一个固定值。所以，在明确总体人脸尺度范围gsize的情况下，如果gsize.min>min_face*δ,则可以将g_roi区域的图像数据缩小(gsize.min/(min_face*δ))倍再进行人脸检测。同理，在明确单个人脸尺度范围lsizei的情况下，如果lsizei.min>min_face*δ,则可以将lroii区域的图像数据缩小(lsizei.min/(min_face*δ))倍再进行人脸检测。其中，δ>1为调节因子，考虑到缩小送检的人脸图像可能会影响到人脸检测的召回率。需要说明的是，缩小送检的人脸图像，对同时输出人脸关键点的网络而言，可能会损失关键点检测的精度。但大量实验结果表明，对于常规的应用场景，本发明的上述方法能够有效地提高复杂网络的检测速度，对人脸检测召回率和人脸关键点检测精度的影响非常小。

需要进一步说明的是，由于lroii和groi都是视频帧图像中的一块区域，针对ROI区域进行人脸检测结束以后，需要补偿上ROI区域相对于视频帧图像的偏移量。

跟踪预测模块，根据关键帧检测模块和参考帧检测模块的输出人脸框位置信息建立跟踪链表，计算人脸预测位移(dxi,dyi)和人脸大小变化率fsi等信息，供参考帧检测模块使用。

图2为本发明实施例中建立人脸框跟踪链表的流程示例图。如图2所示，其中计算跟踪链表中人脸框在当前帧的预测位置和将预测的人脸框位置与实际检测的人脸框位置进行一一匹配是关键。

设视频帧跟踪链表中最大运动轨迹长度为t,第i个人脸对应的人脸矩形框运动轨迹表示为((xi0,yi0,wi0,hi0),(xi1,yi1,wi1,hi1),…,(xit-1,yit-1,wit-1,hit-1))。在较短的时间内，可以将人脸的运动近似为匀速直线运动，则人脸的预测位移(dxi,dyi)计算方法可以简化为：

dxi＝(∑(xin–xin-1))/(t-1)n＝1,2,…,t-1

dyi＝(∑(yin–yin-1))/(t-1)n＝1,2,…,t-1

即用最近t帧的人脸矩形框运动位移均值来估计下一帧的人脸矩形框运动位移。当运动轨迹中记录的人脸矩形框个数为1时，由于无法计算位移量，直接设置dxi和dyi为0；当运动轨迹中记录的人脸矩形框个数≤t时，以实际的轨迹数计算dxi和dyi即可。大量实验证明，本发明的运动估计效果和kalman滤波的效果相当，但更加简单快速。

同理，在较短的时间内，可以将人脸的大小变化近似为线性变化，则人脸大小变化率fsi的计算可以表示为：

fsi＝(∑(win/win-1)+∑(hin/hin-1))/(2*(t-1))n＝1,2,…,t-1

需要说明的是，由于神经网络本身的特性，微小的像素变化都可能导致输出的人脸检测框的不稳定，但t帧检测结果的平均还是能够较好地反映出人脸的运动变化规律。

图3为本发明实施例中预测人脸框和实际人脸框匹配过程的示例图。建立匹配的目的，就是为了得到同一人脸矩形框的运动轨迹。如图3所示，首先将跟踪链表中上一次计算的下一帧人脸预测位置作为当前待匹配人脸的预测位置；然后将人脸预测位置和当前帧实际检测到的人脸位置进行两两匹配，将相交面积记录在相交矩阵中。

图4为本发明实施例中预测人脸框和实际人脸框相交类型的示例图，若预测人脸和实际人脸不相交，则相交面积为负值。当相交面积小于一定阈值的时候，直接将相交面积设置为-∞，表示相隔太远的预测人脸和实际人脸不能进行匹配。

建立好相交矩阵以后，对相交矩阵进行遍历，找出相交面积最大的位置，将该位置对应的跟踪链表中的预测人脸和实际人脸进行一一匹配，以更新跟踪链表中的人脸框运动轨迹。如果跟踪链表中的人脸框i的轨迹个数已经达到了最大运动轨迹长度t，则需要首先删除轨迹中最老的人脸框信息，再将当前匹配的人脸框信息添加到轨迹中，以保证轨迹中保存的总是最近t帧的人脸框信息。此外，还需要注意将匹配以后的预测人脸和实际人脸在匹配矩阵上对应位置上的值都设置为-∞，防止同一个人脸被匹配多次。重复上述过程，直至无法建立新的匹配关系。

相交矩阵中对应跟踪链表中未匹配的人脸，认为是跟踪丢失或者人脸消失，直接从跟踪链表中删除该人脸相关的跟踪信息；相交矩阵中对应实际检测未匹配的人脸，认为出现了新的人脸，将该人脸信息添加到跟踪链表中

可以发现，本发明提出的跟踪预测方法计算量非常小，相对于人脸检测的计算量而言，跟踪预测的计算负载基本可以忽略不计。由于允许一定范围之内不相交的人脸进行匹配，所以对于低帧率下、快速运动的小人脸，仍然可以准确跟踪。

本发明实施例中，通过借鉴H.264视频编码技术中关键帧、参考帧、运动估计和去除冗余信息的思想，通过建立人脸跟踪链表，预测人脸在下一帧中出现的位置和大小，利用关键帧检测模块和参考帧检测模块协同工作，实现了一种快速、准确的人脸检测方法；同时针对MTCNN、SSD、RetinaFace等人脸检测网络提出了进一步地加速方案。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于视频编码技术的人脸检测加速方法，其特征在于，包括以下步骤：

步骤A、确定人脸检测的关键帧DI帧和参考帧DP帧；

步骤B、对于DI帧，进行常规流程的人脸检测；

步骤D、对人脸检测结果进行跟踪，以提供DP帧所需的预测信息；

快速人脸检测方法包括：

C2: 根据跟踪链表中下一帧人脸的预测大小计算当前待检测的视频帧中单个人脸的检测尺寸范围和所有人脸的总体检测尺寸范围；

C3: 若所有人脸的局部ROI区域面积之和小于整体的人脸ROI区域面积，则使用单个人脸的局部ROI区域和单个人脸的检测尺寸范围进行人脸加速；反正，使用人脸的整体ROI区域和总体的检测尺寸范围进行人脸加速；

C8：针对具体的人脸检测网络，根据实际情况综合使用上述方法，实现对人脸图像中的有效信息进行特定区域、特定尺度、特定步骤的人脸检测；

在步骤C1和步骤C2中，还包括：

步骤C2中人脸的总体检测尺寸范围是所有单个人脸的检测尺寸范围取最大值、最小值的结果；

在步骤C4中还包括：判断是否每一个人脸预测位置上的待检测视频帧数据在经过最后一级网络以后都能得到一个置信度超过一定阈值的人脸检测结果，如果没有检测到人脸或者检测到的人脸置信度过低，则针对此人脸的局部ROI区域和检测尺寸范围重新进行上述步骤C5到步骤C8中的快速人脸检测流程；

在步骤C7之后还包括：对所有人脸检测结果中的人脸框需要补偿上ROI区域相对于原始视频帧图像的偏移量；

步骤D还包括：

D1:将人脸检测结果中的人脸框作为人脸跟踪的输入；

下一帧人脸的预测位置=当前帧人脸的实际位置+人脸预测位移；

下一帧人脸的预测大小=当前帧人脸的大小人脸大小变化率。

2.根据权利要求1所述的一种基于视频编码技术的人脸检测加速方法，其特征在于：在步骤A中，确定关键帧和参考帧的方法为：

在人脸检测初始化和每隔一段时间或帧数，定义一个视频帧为关键帧，其他的视频帧则定义为参考帧。

3.根据权利要求1所述的一种基于视频编码技术的人脸检测加速方法，其特征在于：在步骤B中，常规流程人脸检测指的是输入固定尺寸大小的视频帧，在整个视频图像上、覆盖所有人脸检测尺度，执行完整的人脸检测流程。