CN111178261B - 一种基于视频编码技术的人脸检测加速方法 - Google Patents

一种基于视频编码技术的人脸检测加速方法 Download PDF

Info

Publication number
CN111178261B
CN111178261B CN201911390478.9A CN201911390478A CN111178261B CN 111178261 B CN111178261 B CN 111178261B CN 201911390478 A CN201911390478 A CN 201911390478A CN 111178261 B CN111178261 B CN 111178261B
Authority
CN
China
Prior art keywords
face
frame
detection
face detection
size
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911390478.9A
Other languages
English (en)
Other versions
CN111178261A (zh
Inventor
程艳芳
陈先相
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Enzhi Electronic Technology Co ltd
Original Assignee
Wuhan Enzhi Electronic Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Enzhi Electronic Technology Co ltd filed Critical Wuhan Enzhi Electronic Technology Co ltd
Priority to CN201911390478.9A priority Critical patent/CN111178261B/zh
Publication of CN111178261A publication Critical patent/CN111178261A/zh
Application granted granted Critical
Publication of CN111178261B publication Critical patent/CN111178261B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Studio Devices (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种基于视频编码技术的人脸检测加速方法,包括如下步骤:步骤A、确定人脸检测的关键帧(DI帧)和参考帧(DP帧);步骤B、对于DI帧,进行常规流程的人脸检测;步骤C、对于DP帧,根据预测信息进行快速人脸检测,其重点在于消除人脸检测图像中的冗余信息和人脸检测过程中的冗余步骤;步骤D、对人脸检测结果(人脸矩形框)进行跟踪,以提供DP帧所需的预测信息。该方法无需改变人脸检测网络的网络结构,在较为低端的硬件设备上,即可实现快速的人脸检测。

Description

一种基于视频编码技术的人脸检测加速方法
技术领域
本发明涉及视频编码和图像模式识别技术领域,尤其涉及一种基于视频编码技术的人脸检测加速方法。
背景技术
人脸检测是人脸抓拍、人脸识别、面部重建等一系列应用的基础,在安防监控、人脸考勤、智慧通行等领域均有广泛应用。
近年来,基于深度学习的人脸检测方法(比如MTCNN、SSD、RetinaFace、FaceBoxes、SSH等)兴起,人脸检测出现了大规模的应用,但随之而来的高计算负载也对硬件性能提出了更高的要求。如何让人脸检测算法快速、准确的执行,特别是低端设备上的人脸检测实时应用,一直是备受关注的问题。
针对深度学习的人脸检测加速方法,最简单的解决方式是减少送检的视频帧图像尺寸或者更换算力更强的硬件设备,但减少送检的图像大小将直接影响最小支持检测的人脸大小,降低人脸检测的召回率;而升级硬件会带来成本的上涨。
更进一步地,在要求的最小人脸检测大小和给定硬件的情况下,一般是通过简化具体的人脸检测网络的网络结构再进行重新训练,而这个过程往往需要多轮训练迭代,对网络训练人员的专业素质要求较高,且简化网络结构也可能带来人脸检测精准率和召回率的损失。
因此,如何在降低硬件成本、保证人脸召回率和不改变人脸检测网络结构的情况下,实现实时、准确的人脸检测,是目前急需解决的问题。
发明内容
本发明提出了一种基于视频编码技术的人脸检测加速方法,以解决上述背景技术中提出的问题。
本发明提出了一种基于视频编码技术的人脸检测加速方法,包括如下步骤:
步骤A、确定人脸检测的关键帧(DI帧)和参考帧(DP帧);
步骤B、对于DI帧,进行常规流程的人脸检测;
步骤C、对于DP帧,根据预测信息进行快速人脸检测,其重点在于消除人脸检测图像中的冗余信息和人脸检测过程中的冗余步骤;
步骤D、对人脸检测结果(人脸矩形框)进行跟踪,以提供DP帧所需的预测信息。
优选的,在步骤A中,确定关键帧和参考帧的方法为:
在人脸检测初始化和每隔一段时间或帧数,定义一个视频帧为关键帧,其他的视频帧则定义为参考帧;
DI帧不依赖于任何预测信息,独立进行人脸检测,即执行常规的人脸检测流程;DP帧会根据预测信息,去掉检测图像中的冗余信息和检测流程中的冗余步骤,仅针对人脸ROI区域和特定人脸尺寸范围,进行简化流程的人脸检测;
DI帧的帧间隔n可以自行定义,一般每秒钟一个DI帧即可,DI帧的帧间隔n越大,人脸检测加速的效果越明显,但过大的DI帧间隔可能会影响人脸检测的召回率。
优选的,在步骤B中,常规流程人脸检测指的是输入固定尺寸大小的视频帧,在整个视频图像上、覆盖所有人脸检测尺度,执行完整的人脸检测流程。
优选的,在步骤C中,快速人脸检测方法包括:
C1:根据跟踪链表中下一帧人脸的预测位置和预测大小计算当前待检测的视频帧中单个人脸的局部ROI区域和所有人脸的整体ROI区域;
C2:根据跟踪链表中下一帧人脸的预测大小计算当前待检测的视频帧中单个人脸的检测尺寸范围和所有人脸的总体检测尺寸范围;
C3:若所有人脸的局部ROI区域面积之和小于整体的人脸ROI区域面积,则使用单个人脸的局部ROI区域和单个人脸的检测尺寸范围进行人脸加速;反正,使用人脸的整体ROI区域和总体的检测尺寸范围进行人脸加速;
C4:对于级联的人脸检测方法,利用跟踪链表中下一帧人脸的预测位置和神经网络的边框回归能力,直接在当前待检测视频帧上将预测人脸框所在位置上的图像数据作为最后一级网络的输入,去掉前面候选人脸框检测网络调用过程;
C5:对于多尺度输入的人脸检测方法,利用人脸的检测尺度范围,去掉最大最小人脸范围之外的图像尺度输入;
C6:对于单步的人脸检测方法,利用人脸检测尺度范围中的最小人脸大小将输入的视频帧图像缩小到适当范围再进行检测;
C7:对于所有的人脸检测方法,仅将人脸检测ROI区域内的图像数据作为人脸检测网络的输入,去掉无关的图像数据;
C8:针对具体的人脸检测网络,根据实际情况综合使用上述方法,实现对人脸图像中的有效信息进行特定区域、特定尺度、特定步骤的人脸检测。
优选的,在步骤C1和步骤C2中,还包括:
计算的人脸ROI区域和人脸大小范围都有一个预留的调节因子,以防止预测结果出现偏差导致人脸实际位置和大小超出了预测范围;
步骤C1中的人脸的整体ROI区域是所有单个人脸的局部ROI区域取并集的结果;
步骤C2中人脸的总体检测尺寸范围是所有单个人脸的检测尺寸范围取最大值、最小值的结果。
优选的,在步骤C4中还包括:判断是否每一个人脸预测位置上的待检测视频帧数据在经过最后一级网络以后都能得到一个置信度超过一定阈值的人脸检测结果,如果没有检测到人脸或者检测到的人脸置信度过低,则针对此人脸的局部ROI区域和检测尺寸范围重新进行上述步骤C5到步骤C8中的快速人脸检测流程。
优选的,在步骤C7之后还包括:对所有人脸检测结果中的人脸框需要补偿上ROI区域相对于原始视频帧图像的偏移量。
优选的,步骤D还包括:
D1:将人脸检测结果中的人脸框作为人脸跟踪的输入;
D2:建立跟踪链表,跟踪链表中包含了人脸跟踪ID,人脸框轨迹信息、人脸预测位移、人脸大小变化率、下一帧人脸预测位置、下一帧人脸预测大小的信息;
D3:根据最近t帧的人脸框轨迹信息预测跟踪链表中人脸框在当前帧中的位置;
D4:将预测的人脸位置和检测到的实际人脸位置两两计算相交面积,建立二维相交矩阵,循环遍历相交矩阵,建立一对一匹配关系;
其中,相交面积可以为负数,表示实际不相交但是相隔不远的预测人脸位置和实际人脸位置仍然可以正常匹配;
D5:根据匹配状态更新跟踪链表中的人脸框轨迹信息、人脸预测位移、人脸大小变化率、下一帧人脸预测位置、下一帧人脸预测大小的信息;
D6:相交矩阵中对应跟踪链表中未匹配的人脸,认为是跟踪丢失,直接从跟踪链表中删除;相交矩阵中对应实际检测未匹配的人脸,认为出现了新的人脸,添加到跟踪链表中;
D7:根据更新的跟踪链表计算人脸在下一帧中的预测位置和大小:
下一帧人脸的预测位置=当前帧人脸的实际位置+人脸预测位移;
下一帧人脸的预测大小=当前帧人脸的大小*人脸大小变化率。
本发明提出的一种基于视频编码技术的人脸检测加速方法,有益效果在于:
该方法无需改变人脸检测网络的网络结构,在较为低端的硬件设备上,即可实现快速的人脸检测。
其跟踪预测计算量非常小,且跟踪输出的人脸ID也为人脸抓拍去重提供了依据。
在hisilicon和mstar上实际测试,测试结果表明本发明在保证人脸检测召回率的同时,不仅有效地降低了人脸检测的误检率,而且实现了实时、准确的人脸检测。
附图说明
图1为本发明实施例中人脸检测加速方法的流程示意图;
图2为本发明实施例中建立人脸框跟踪链表的流程示例图;
图3为本发明实施例中预测人脸框和实际人脸框匹配过程的示例图;
图4为本发明实施例中预测人脸框和实际人脸框相交类型的示例图。
具体实施方式
下面结合具体实施例来对本发明做进一步说明。
本发明实施例中,借鉴视频编码技术的思想,定义了检测关键帧(DI帧)和检测参考帧(DP帧),通过预测去除了视频帧中的冗余信息和检测流程中的冗余步骤,在保证人脸召回率的同时降低了人脸的误检率,并且有效的加快了视频中人脸检测的速度;
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明实施例中关于基于视频编码技术的人脸检测加速方法进行详细说明。
图1为本发明实施中人脸检测加速方法的流程示意图。如图1所示,该方法主要包括关键帧检测模块、参考帧检测模块和跟踪预测模块。其中,关键帧检测模块是为了保证人脸检测的召回率;参考帧检测模块是为了提高人脸检测的速度和降低人脸检测的误检率;跟踪预测模块是为了给参考帧检测模块在加速时提供计算依据。
具体实现时,需要首先确定关键帧(DI帧)和参考帧(DP帧)。DI帧指不依赖于任何预测信息,独立进行人脸检测的视频帧;DP帧指需要根据预测信息,进行快速人脸检测的视频帧。
进一步地,设N为帧计数,n为DI帧间隔。在系统初始化的时候设置N=0,每检测完一个视频帧设置N=N+1,当N≥n时,重新初始化N=0。定义N=0时的视频帧为DI帧,N>0时的视频帧为DP帧。
上述过程中,DI帧的帧间隔n可以根据系统性能自行定义,一般每秒钟一个DI帧即可。DI帧的帧间隔n越大,人脸检测加速的效果越明显,但过大的DI帧间隔可能会影响人脸检测的召回率。当n<=1时,整个流程将退化为常规步骤的人脸检测。
关键帧检测模块,将执行常规的人脸检测流程,即对于输入固定尺寸大小的视频帧,在整个视频图像上、覆盖所有人脸检测尺度,执行完整的人脸检测流程
参考帧检测模块,将根据跟踪预测模块提供的预测信息,只针对人脸图像中的有效信息进行特定区域、特定尺度、特定步骤的快速人脸检测。
进一步地,人脸图像有效信息的获取步骤为:根据预测信息计算当前待检测的视频帧中人脸检测的ROI区域和人脸的大小范围。人脸检测的ROI区域包括单个人脸的局部ROI区域,也包括视频帧中所有人脸的整体ROI区域;人脸大小范围包括单个人脸的大小范围,也包视频帧中所有人脸的总体大小范围。
设当前视频帧的宽度为frame_w,当前视频帧的高度为frame_h,视频帧跟踪链表中的人脸个数为m,第i个人脸在上一帧中的位置为(x0i,y0i,w0i,h0i),人脸预测位移为(dxi,dyi),人脸大小变化率为fsi,则人脸在当前待检测帧中的预测位置(x1i,y1i,w1i,h1i)为:
x1i=x0i+dxi
y1i=y0i+dyi
w1i=w0i*fsi
h1i=h0i*fsi
其中,(dxi,dyi)可以为负数
确定了人脸在当前待检测帧中的预测位置以后,人脸局部ROI(lroii)区域的计算方法为:
lroii.x0=max(0,x1i–w1i*α);
lroii.y0=max(0,y1i–h1i*α);
lroii.x1=min(frame_w,x1i+w1i*(1+α))-1
lroii.y1=min(frame_h,y1i+h1i*(1+α))-1
其中,α>0,为人脸ROI预留因子,防止预测结果出现偏差导致人脸实际位置超出了预测范围。
人脸整体ROI(groi)区域的计算方法为:
groi.x0=min(lroi0.x0,lroi1.x0,…,lroim-1.x0)
groi.y0=min(lroi0.y0,lroi1.y0,…,lroim-1.y0)
groi.x1=max(lroi0.x1,lroi1.x1,…,lroim-1.x1)
groi.y1=max(lroi0.y1,lroi1.y1,…,lroim-1.y1)
更进一步地,确定了人脸在当前待检测帧中的预测位置以后,单个人脸尺度范围(lsize)和总体人脸尺度范围(gsize)的计算方法为:
lsizei.min=min(w1i,h1i)/β
lsizei.max=max(w1i,h1i)*β
gsize.min=min(lsize0.min,lsize1.min,…,lsizem-1.min)
gsize.max=max(lsize0.max,lsize1.max,…,lsizem-1.max)
其中,β>1,为人脸大小调节因子,防止预测结果出现偏差导致人脸实际大小超出了预测范围
接着,计算全部m个人脸局部ROI区域的面积之和areal和人脸总体ROI面积areag:
areal=∑((lroii.x1–lroii.x0+1)*(lroii.y1-lroii.y0+1))
areag=(groi.x1–groi.x0+1)*(groi.y1-groi.y0+1)
如果areal<areag*γ,则针对每一个lroii和lsizei分别在当前待检测帧上进行人脸检测,m个这样的人脸检测结果合起来,即为当前帧的人脸检测结果;如果areal≥areag*γ,则只针对groi和gsize在当前待检测帧上进行人脸检测。其中,γ≥1,为调节因子,考虑到系统调度、CPU/GPU协同工作等负载因素,可以根据实际的应用环境和测试结果而定。
特别地,对于级联的人脸检测方法,如MTCNN人脸检测方法,它包含三个级联的网络,分别是快速生成候选窗口的P-Net、进行高精度候选窗口过滤选择的R-Net和生成最终边界框与人脸关键点的O-Net。在预测出人脸在当前待检测帧中的位置(x1i,y1i,w1i,h1i)以后,利用O-Net网络的边框回归能力,直接将预测位置(x1i,y1i,w1i,h1i)所在的图像数据作为O-Net网络的输入进行人脸检测,去掉了P-Net网络和R-Net网络等冗余步骤。实验结果表明,在大多数情况下,仅利用预测位置和O-Net网络即可得到准确的人脸框和人脸关键点位置。为了解决少量预测位置不准确和O-Net边框回归能力有限的问题,需要进一步判断是否每一个预测位置(x1i,y1i,w1i,h1i)在经过O-Net网络以后都能得到一个置信度超过一定阈值的人脸,如果没有检测到人脸或者检测到的人脸置信度过低,则需要利用lroii和lsizei重新进行上述步骤中的快速人脸检测流程。
特别地,对于需要多尺度输入的人脸检测方法,在多尺度缩放比例确定的情况下,一般都是根据需要检测的最大最小人脸范围来确定需要送检的多尺度图像个数和对应尺度上的图像大小。所以,缩小人脸检测的尺度范围,可以有效地减小送检的多尺度图像个数和送检的图像大小。进一步地,对于多尺度输入的人脸检测方法,支持检测的人脸越小,人脸检测的时间就会成指数倍的增加。所以,确定当前待检测帧中的最小人脸大小能够极大地提高人脸检测的速度。
特别地,对于单步(one-stage)的人脸检测方法,如SSD、RetinaFace人脸检测方法,其整个调用过程只有一步。在固定输入图像大小的情况下,网络支持检测的最小人脸(min_face)也是一个固定值。所以,在明确总体人脸尺度范围gsize的情况下,如果gsize.min>min_face*δ,则可以将g_roi区域的图像数据缩小(gsize.min/(min_face*δ))倍再进行人脸检测。同理,在明确单个人脸尺度范围lsizei的情况下,如果lsizei.min>min_face*δ,则可以将lroii区域的图像数据缩小(lsizei.min/(min_face*δ))倍再进行人脸检测。其中,δ>1为调节因子,考虑到缩小送检的人脸图像可能会影响到人脸检测的召回率。需要说明的是,缩小送检的人脸图像,对同时输出人脸关键点的网络而言,可能会损失关键点检测的精度。但大量实验结果表明,对于常规的应用场景,本发明的上述方法能够有效地提高复杂网络的检测速度,对人脸检测召回率和人脸关键点检测精度的影响非常小。
需要进一步说明的是,由于lroii和groi都是视频帧图像中的一块区域,针对ROI区域进行人脸检测结束以后,需要补偿上ROI区域相对于视频帧图像的偏移量。
跟踪预测模块,根据关键帧检测模块和参考帧检测模块的输出人脸框位置信息建立跟踪链表,计算人脸预测位移(dxi,dyi)和人脸大小变化率fsi等信息,供参考帧检测模块使用。
图2为本发明实施例中建立人脸框跟踪链表的流程示例图。如图2所示,其中计算跟踪链表中人脸框在当前帧的预测位置和将预测的人脸框位置与实际检测的人脸框位置进行一一匹配是关键。
设视频帧跟踪链表中最大运动轨迹长度为t,第i个人脸对应的人脸矩形框运动轨迹表示为((xi0,yi0,wi0,hi0),(xi1,yi1,wi1,hi1),…,(xit-1,yit-1,wit-1,hit-1))。在较短的时间内,可以将人脸的运动近似为匀速直线运动,则人脸的预测位移(dxi,dyi)计算方法可以简化为:
dxi=(∑(xin–xin-1))/(t-1)n=1,2,…,t-1
dyi=(∑(yin–yin-1))/(t-1)n=1,2,…,t-1
即用最近t帧的人脸矩形框运动位移均值来估计下一帧的人脸矩形框运动位移。当运动轨迹中记录的人脸矩形框个数为1时,由于无法计算位移量,直接设置dxi和dyi为0;当运动轨迹中记录的人脸矩形框个数≤t时,以实际的轨迹数计算dxi和dyi即可。大量实验证明,本发明的运动估计效果和kalman滤波的效果相当,但更加简单快速。
同理,在较短的时间内,可以将人脸的大小变化近似为线性变化,则人脸大小变化率fsi的计算可以表示为:
fsi=(∑(win/win-1)+∑(hin/hin-1))/(2*(t-1))n=1,2,…,t-1
需要说明的是,由于神经网络本身的特性,微小的像素变化都可能导致输出的人脸检测框的不稳定,但t帧检测结果的平均还是能够较好地反映出人脸的运动变化规律。
图3为本发明实施例中预测人脸框和实际人脸框匹配过程的示例图。建立匹配的目的,就是为了得到同一人脸矩形框的运动轨迹。如图3所示,首先将跟踪链表中上一次计算的下一帧人脸预测位置作为当前待匹配人脸的预测位置;然后将人脸预测位置和当前帧实际检测到的人脸位置进行两两匹配,将相交面积记录在相交矩阵中。
图4为本发明实施例中预测人脸框和实际人脸框相交类型的示例图,若预测人脸和实际人脸不相交,则相交面积为负值。当相交面积小于一定阈值的时候,直接将相交面积设置为-∞,表示相隔太远的预测人脸和实际人脸不能进行匹配。
建立好相交矩阵以后,对相交矩阵进行遍历,找出相交面积最大的位置,将该位置对应的跟踪链表中的预测人脸和实际人脸进行一一匹配,以更新跟踪链表中的人脸框运动轨迹。如果跟踪链表中的人脸框i的轨迹个数已经达到了最大运动轨迹长度t,则需要首先删除轨迹中最老的人脸框信息,再将当前匹配的人脸框信息添加到轨迹中,以保证轨迹中保存的总是最近t帧的人脸框信息。此外,还需要注意将匹配以后的预测人脸和实际人脸在匹配矩阵上对应位置上的值都设置为-∞,防止同一个人脸被匹配多次。重复上述过程,直至无法建立新的匹配关系。
相交矩阵中对应跟踪链表中未匹配的人脸,认为是跟踪丢失或者人脸消失,直接从跟踪链表中删除该人脸相关的跟踪信息;相交矩阵中对应实际检测未匹配的人脸,认为出现了新的人脸,将该人脸信息添加到跟踪链表中
可以发现,本发明提出的跟踪预测方法计算量非常小,相对于人脸检测的计算量而言,跟踪预测的计算负载基本可以忽略不计。由于允许一定范围之内不相交的人脸进行匹配,所以对于低帧率下、快速运动的小人脸,仍然可以准确跟踪。
本发明实施例中,通过借鉴H.264视频编码技术中关键帧、参考帧、运动估计和去除冗余信息的思想,通过建立人脸跟踪链表,预测人脸在下一帧中出现的位置和大小,利用关键帧检测模块和参考帧检测模块协同工作,实现了一种快速、准确的人脸检测方法;同时针对MTCNN、SSD、RetinaFace等人脸检测网络提出了进一步地加速方案。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (3)

1.一种基于视频编码技术的人脸检测加速方法,其特征在于,包括以下步骤:
步骤A、确定人脸检测的关键帧DI帧和参考帧DP帧;
步骤B、对于DI帧,进行常规流程的人脸检测;
步骤C、对于DP帧,根据预测信息进行快速人脸检测,其重点在于消除人脸检测图像中的冗余信息和人脸检测过程中的冗余步骤;
步骤D、对人脸检测结果进行跟踪,以提供DP帧所需的预测信息;
快速人脸检测方法包括:
C1:根据跟踪链表中下一帧人脸的预测位置和预测大小计算当前待检测的视频帧中单个人脸的局部ROI区域和所有人脸的整体ROI区域;
C2: 根据跟踪链表中下一帧人脸的预测大小计算当前待检测的视频帧中单个人脸的检测尺寸范围和所有人脸的总体检测尺寸范围;
C3: 若所有人脸的局部ROI区域面积之和小于整体的人脸ROI区域面积,则使用单个人脸的局部ROI区域和单个人脸的检测尺寸范围进行人脸加速;反正,使用人脸的整体ROI区域和总体的检测尺寸范围进行人脸加速;
C4:对于级联的人脸检测方法,利用跟踪链表中下一帧人脸的预测位置和神经网络的边框回归能力,直接在当前待检测视频帧上将预测人脸框所在位置上的图像数据作为最后一级网络的输入,去掉前面候选人脸框检测网络调用过程;
C5:对于多尺度输入的人脸检测方法,利用人脸的检测尺度范围,去掉最大最小人脸范围之外的图像尺度输入;
C6:对于单步的人脸检测方法,利用人脸检测尺度范围中的最小人脸大小将输入的视频帧图像缩小到适当范围再进行检测;
C7:对于所有的人脸检测方法,仅将人脸检测ROI区域内的图像数据作为人脸检测网络的输入,去掉无关的图像数据;
C8:针对具体的人脸检测网络,根据实际情况综合使用上述方法,实现对人脸图像中的有效信息进行特定区域、特定尺度、特定步骤的人脸检测;
在步骤C1和步骤C2中,还包括:
计算的人脸ROI区域和人脸大小范围都有一个预留的调节因子,以防止预测结果出现偏差导致人脸实际位置和大小超出了预测范围;
步骤C1中的人脸的整体ROI区域是所有单个人脸的局部ROI区域取并集的结果;
步骤C2中人脸的总体检测尺寸范围是所有单个人脸的检测尺寸范围取最大值、最小值的结果;
在步骤C4中还包括:判断是否每一个人脸预测位置上的待检测视频帧数据在经过最后一级网络以后都能得到一个置信度超过一定阈值的人脸检测结果,如果没有检测到人脸或者检测到的人脸置信度过低,则针对此人脸的局部ROI区域和检测尺寸范围重新进行上述步骤C5到步骤C8中的快速人脸检测流程;
在步骤C7之后还包括:对所有人脸检测结果中的人脸框需要补偿上ROI区域相对于原始视频帧图像的偏移量;
步骤D还包括:
D1:将人脸检测结果中的人脸框作为人脸跟踪的输入;
D2:建立跟踪链表,跟踪链表中包含了人脸跟踪ID,人脸框轨迹信息、人脸预测位移、人脸大小变化率、下一帧人脸预测位置、下一帧人脸预测大小的信息;
D3:根据最近t帧的人脸框轨迹信息预测跟踪链表中人脸框在当前帧中的位置;
D4:将预测的人脸位置和检测到的实际人脸位置两两计算相交面积,建立二维相交矩阵,循环遍历相交矩阵,建立一对一匹配关系;
其中,相交面积可以为负数,表示实际不相交但是相隔不远的预测人脸位置和实际人脸位置仍然可以正常匹配;
D5:根据匹配状态更新跟踪链表中的人脸框轨迹信息、人脸预测位移、人脸大小变化率、下一帧人脸预测位置、下一帧人脸预测大小的信息;
D6:相交矩阵中对应跟踪链表中未匹配的人脸,认为是跟踪丢失,直接从跟踪链表中删除;相交矩阵中对应实际检测未匹配的人脸,认为出现了新的人脸,添加到跟踪链表中;
D7:根据更新的跟踪链表计算人脸在下一帧中的预测位置和大小:
下一帧人脸的预测位置=当前帧人脸的实际位置+人脸预测位移;
下一帧人脸的预测大小=当前帧人脸的大小人脸大小变化率。
2.根据权利要求1所述的一种基于视频编码技术的人脸检测加速方法,其特征在于:在步骤A中,确定关键帧和参考帧的方法为:
在人脸检测初始化和每隔一段时间或帧数,定义一个视频帧为关键帧,其他的视频帧则定义为参考帧。
3.根据权利要求1所述的一种基于视频编码技术的人脸检测加速方法,其特征在于:在步骤B中,常规流程人脸检测指的是输入固定尺寸大小的视频帧,在整个视频图像上、覆盖所有人脸检测尺度,执行完整的人脸检测流程。
CN201911390478.9A 2019-12-30 2019-12-30 一种基于视频编码技术的人脸检测加速方法 Active CN111178261B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911390478.9A CN111178261B (zh) 2019-12-30 2019-12-30 一种基于视频编码技术的人脸检测加速方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911390478.9A CN111178261B (zh) 2019-12-30 2019-12-30 一种基于视频编码技术的人脸检测加速方法

Publications (2)

Publication Number Publication Date
CN111178261A CN111178261A (zh) 2020-05-19
CN111178261B true CN111178261B (zh) 2023-05-16

Family

ID=70655930

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911390478.9A Active CN111178261B (zh) 2019-12-30 2019-12-30 一种基于视频编码技术的人脸检测加速方法

Country Status (1)

Country Link
CN (1) CN111178261B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111640134B (zh) * 2020-05-22 2023-04-07 深圳市赛为智能股份有限公司 人脸跟踪方法、装置、计算机设备及其存储装置
CN111898518B (zh) * 2020-07-28 2024-09-17 中移(杭州)信息技术有限公司 一种摔倒检测方法、电子设备和存储介质
CN112507786B (zh) * 2020-11-03 2022-04-08 浙江大华技术股份有限公司 人体多部位检测框关联方法、装置、电子装置和存储介质
AU2021203870A1 (en) * 2020-12-29 2022-07-14 Sensetime International Pte. Ltd. Method and apparatus for detecting associated objects

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10032067B2 (en) * 2016-05-28 2018-07-24 Samsung Electronics Co., Ltd. System and method for a unified architecture multi-task deep learning machine for object recognition
CN106534967B (zh) * 2016-10-25 2019-08-02 司马大大(北京)智能系统有限公司 视频剪辑方法及装置
US10467458B2 (en) * 2017-07-21 2019-11-05 Altumview Systems Inc. Joint face-detection and head-pose-angle-estimation using small-scale convolutional neural network (CNN) modules for embedded systems
CN107609497B (zh) * 2017-08-31 2019-12-31 武汉世纪金桥安全技术有限公司 基于视觉跟踪技术的实时视频人脸识别方法及系统
CN109598211A (zh) * 2018-11-16 2019-04-09 恒安嘉新(北京)科技股份公司 一种实时动态人脸识别方法及系统
CN109919096A (zh) * 2019-03-08 2019-06-21 广州二元科技有限公司 一种视频实时人脸检测的方法
CN110288632A (zh) * 2019-05-15 2019-09-27 北京旷视科技有限公司 一种图像处理方法、装置、终端及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Deep Keyframe Detection in Human Action Videos;Xiang Yan et al.;《arxiv.org》;第1-10页 *
光流估计下的移动端实时人脸检测;魏震宇 等;《计算机应用》;第38卷;第1146-1150页 *

Also Published As

Publication number Publication date
CN111178261A (zh) 2020-05-19

Similar Documents

Publication Publication Date Title
CN111178261B (zh) 一种基于视频编码技术的人脸检测加速方法
CN110378264B (zh) 目标跟踪方法及装置
CN107886048B (zh) 目标跟踪方法及系统、存储介质及电子终端
CN109146912B (zh) 一种基于目标性分析的视觉目标跟踪方法
CN105139420B (zh) 一种基于粒子滤波和感知哈希的视频目标跟踪方法
CN111476814B (zh) 目标跟踪方法、装置、设备及存储介质
CN113783717B (zh) 智慧城市网络流量预测方法及系统
CN112509003B (zh) 解决目标跟踪框漂移的方法及系统
CN111160407A (zh) 一种深度学习目标检测方法及系统
CN107679469B (zh) 一种基于深度学习的非极大值抑制方法
CN107368802B (zh) 基于kcf和人脑记忆机制的运动目标跟踪方法
CN111402303A (zh) 一种基于kfstrcf的目标跟踪架构
CN110717934A (zh) 一种基于strcf的抗遮挡目标跟踪方法
CN109887001A (zh) 目标跟踪方法、装置、计算机设备及存储介质
US7529651B2 (en) Accurate linear parameter estimation with noisy inputs
CN110378932B (zh) 一种基于空间正则矫正的相关滤波视觉跟踪方法
CN110795599B (zh) 基于多尺度图的视频突发事件监测方法及系统
CN113129332A (zh) 执行目标对象跟踪的方法和装置
Firouznia et al. Adaptive chaotic sampling particle filter to handle occlusion and fast motion in visual object tracking
CN109166138B (zh) 基于高阶累积量的目标跟踪方法、装置及存储介质
CN108765451A (zh) 一种自适应背景更新的交通运动目标检测方法
CN112200831A (zh) 一种基于动态模板的密集连接孪生神经网络目标跟踪方法
CN113158904A (zh) 一种基于双掩膜模板更新的孪生网络目标跟踪方法及装置
CN117036740A (zh) 一种用于运动目标的抗遮挡性跟踪方法
CN112084855A (zh) 一种基于改进ransac方法对视频流的外点剔除方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant