CN116110095A - 一种人脸过滤模型的训练方法、人脸识别方法及装置 - Google Patents

一种人脸过滤模型的训练方法、人脸识别方法及装置 Download PDF

Info

Publication number
CN116110095A
CN116110095A CN202211598975.XA CN202211598975A CN116110095A CN 116110095 A CN116110095 A CN 116110095A CN 202211598975 A CN202211598975 A CN 202211598975A CN 116110095 A CN116110095 A CN 116110095A
Authority
CN
China
Prior art keywords
face
feature map
video frame
video
video frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211598975.XA
Other languages
English (en)
Inventor
张海涛
邓宇
张文华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing North Control Beijing Olympic Construction Co ltd
Beijing University of Posts and Telecommunications
Original Assignee
Beijing North Control Beijing Olympic Construction Co ltd
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing North Control Beijing Olympic Construction Co ltd, Beijing University of Posts and Telecommunications filed Critical Beijing North Control Beijing Olympic Construction Co ltd
Priority to CN202211598975.XA priority Critical patent/CN116110095A/zh
Publication of CN116110095A publication Critical patent/CN116110095A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/254Analysis of motion involving subtraction of images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/72Data preparation, e.g. statistical preprocessing of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20224Image subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30232Surveillance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明提供一种人脸过滤模型的训练方法、人脸识别方法及装置,所述人脸过滤模型的训练方法在训练过程中采用SSD网络的预测特征层在样本图片中提取特征图并对各特征图中像素点进行双三次插值,将插值后的各特征图特征叠加后输出得到含有预测人脸位置的图片。人脸识别方法包括:背景过滤器过滤视频帧中的背景视频帧得到第一类视频帧,人脸过滤模型过滤掉不含人脸的视频帧得到第二类视频帧,重复人员过滤器过滤掉第二类视频帧中含重复人脸的视频帧得到一张目标视频帧,预设人脸识别模型识别目标视频帧中的目标人员身份。本发明能够提高人脸识别模型的人脸识别效率和视频帧过滤模型的视频帧过滤效率。

Description

一种人脸过滤模型的训练方法、人脸识别方法及装置
技术领域
本发明涉及人工智能技术领域,尤其涉及一种人脸过滤模型的训练方法、人脸识别方法及装置。
背景技术
在监控视频人脸识别系统中为了实现大规模的视频分析,现有技术中,一方面是从算法模型本身入手,通过剪枝神经网络中不必要的参数使模型轻量化,降低视频分析的计算负载;另一方面,通过借助轻量级算法对视频流数据进行预处理,使用过滤器快速过滤掉大量与目标事件无关的视频帧,从而动态地降低实际到达人脸识别网络模型的视频帧的数量,实现快速的多视频流在线分析。
然而,由于监控视频场景下人脸离监控摄像头距离远,噪声干扰等因素,使得视频帧过滤中模型对部分视频帧中目标人脸的检测变得很困难,无法精准捕获监控视频中的目标人脸,导致部分含有目标人脸的视频帧被过滤掉,从而出现漏检的问题,降低了模型过滤视频帧的准确性,同时视频帧过滤机制中存在多个模型,多模型之间存在资源竞争的关系,并且实际场景是动态变化的,现有人脸识别模型无法场景变化调整过滤机制,从而降低了人脸识别模型对视频帧中人脸的识别效率和识别准确率。
发明内容
鉴于此,本发明实施例提供了一种人脸过滤模型的训练方法、人脸识别方法及装置,以解决现有视频帧过滤模型过滤效率低以及人脸识别效率低的问题。
本发明的一个方面提供了一种人脸过滤模型的训练方法,该方法包括以下步骤:
获取训练样本集,所述训练样本集包括多个样本,每个样本包括一个样本图片,对各样本图片添加真实人脸位置信息并以人脸作为标签;
获取预设神经网络,所述预设神经网络采用SSD网络提取所述样本图片多个尺寸的预测特征图,对每个样本图片的一个或多个预测特征图进行插值、维度统一和叠加后,输入线性激活函数得到融合特征图,基于所述融合特征图识别得到含有预测人脸位置的图片;
采用所述训练样本集对所述预设神经网络进行训练,将位置损失函数和置信损失函数加权求和后构建为总损失函数以对所述预设神经网络的参数迭代更新,得到人脸过滤模型。
在一些实施例中,所所述预设神经网络采用SSD网络提取所述样本图片多个尺寸的预测特征图,对每个样本图片的一个或多个预测特征图进行插值、维度统一和叠加后,输入线性激活函数得到融合特征图,基于所述融合特征图识别得到含有预测人脸位置的图片,包括:
将所述样本图片尺寸调整为300×300后输入所述人脸过滤模型,所述人脸过滤模型中的SSD网络分别利用conv4_3、conv5_3和fc_6三个预测特征层在所述样本图片中提取预测特征图;
采用双三次插值法对所述conv4_3提取的第一预测特征图中的像素点进行插值计算并采用3×3×512的卷积核提取插值后的所述第一预测特征图中的图像特征,对插值后的所述第一预测特征图归一化处理后得到第一特征图;
通过反卷积使得所述conv5_3提取的第二预测特征图的维度与所述第一预测特征图的维度一致,采用双三次插值法对反卷积后的所述第二预测特征图中像素点进行插值计算,并采用3×3×512的卷积核提取插值后的所述第二特征图中图像特征,对插值后的所述第二预测特征图归一化处理后得到第二特征图;
通过反卷积使得所述fc_6提取的第三预测特征图的维度与所述第一预测特征图的维度一致,采用双三次插值法对反卷积后的所述第三预测特征图中像素点进行插值计算,并采用3×3×512的卷积核提取插值后的所述第三特征图中图像特征,对插值后的所述第三预测特征图归一化处理后得到第三特征图;
将所述第一特征图、所述第二特征图以及所述第三特征图中的特征叠加,并输入线性激活函数得到第一融合特征图,将所述第一融合特征图卷积池化后输出得到含有多个预测框的第二融合特征图,过滤掉置信度低于阈值的预测框以及与真实人脸位置框重合率高于阈值的预测框,输出得到所述含有预测人脸位置的图片。
本发明的另一方面提供了一种人脸识别方法,包括:
获取多个视频流,并对各视频流统一编号;
将各视频流按照编号顺序输入视频帧过滤模型,所述视频帧过滤模型包括依次连接的背景帧过滤器、如上述人脸过滤模型训练方法中的人脸过滤模型以及重复人员过滤器;其中,所述背景帧过滤器采用差分检测识别含有运动目标的第一类视频帧;将所述第一类视频帧输入所述人脸过滤模型并筛选得到含有预测人脸位置的第二类视频帧;所述重复人员过滤器采用DSST算法过滤所述第二类视频帧中含有重复人脸的视频帧,对重复的人脸仅保留一张目标视频帧输出;
将所述目标视频帧输入至预设人脸识别模型,进行识别得到目标人员身份信息;
将所述目标人员身份信息标记在对应视频流的各视频帧中,并存储至数据库。
在一些实施例中,所述背景帧过滤器采用差分检测识别含有运动目标的第一类视频帧,包括:
从所述视频流中选取一张视频帧作为背景视频帧,其余作为第三类视频帧;将所述第三类视频帧中像素点的灰度值依次与所述背景视频帧像素点的灰度值做差分运算,得到各第三类视频帧对应的差分图像;对所述差分图像进行二值化处理,将所述差分图像中像素值小于设定阈值的像素点赋值0作为背景点,像素值大于等于阈值的像素点赋值255作为前景点,得到所述第三类视频帧的二值化图像,对所述二值化图像中的前景点进行连通性分析后输出得到含有运动目标的所述第一类视频帧。
在一些实施例中,将所述第三类视频帧中像素点的灰度值依次与所述背景视频帧像素点的灰度值做差分运算,得到各第三类视频帧对应的差分图像,包括:
所述差分图像计算式为:
Dn(x,y)=|fn(cn,yn)-fm(xm,ym)|;
其中,Dn(x,y)表示所述差分图像,fn(xn,yn)表示所述第三类视频帧中像素点的灰度值,fm(xm,ym)表示所述背景视频帧中像素点的灰度值,(xn,yn)表示所述第三类视频帧中像素点的坐标,(xm,ym)表示所述背景视频帧中像素点的坐标,(x,y)表示所述差分图像中像素点的坐标。
在一些实施例中,将所述第一类视频帧输入所述人脸过滤模型并筛选得到含有预测人脸位置的第二类视频帧之后,还包括:
在处理过程中将所述第一类视频帧构建为差分队列,将所述第三类视频帧构建为视频帧队列,以供调用;
在所述差分队列中的所述第一类视频帧数量大于所述视频队列中的所述第三类视频帧数量时,将所述人脸过滤器检出的不包含人脸的视频帧更新为所述背景视频帧,以继续处理所述样本视频流中剩余的视频帧。
在一些实施例中,所述预设人脸识别模型对所述目标视频帧进行识别得到目标人员身份信息之前,还包括:
对所述目标视频帧进行预处理,所述预处理包括:人脸对准,人脸光线补偿,灰度变换、直方图均衡化、归一化、几何校正、中值滤波以及锐化。
在一些实施例中,所述预设人脸识别模型对所述目标视频帧进行识别得到目标人员身份信息,包括:
所述预设人脸识别模型提取所述目标视频帧中所述目标人员的人脸特征并与数据库中存储的多个已知身份信息人员进行人脸特征匹配,若所述目标人员的人脸特征与所述数据库中的一已知身份信息人员的人脸特征匹配度高于匹配度阈值,则认为所述目标人员与所述已知身份信息人员为同一人,从而得到所述目标人员身份信息。
另一方面,本发明还提供一种电子设备,包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现上述方法的步骤。
另一方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
本发明的有益效果至少是:
本发明所述人脸过滤模型的训练方法、人脸识别方法及装置,通过背景帧过滤器过滤掉视频帧中的背景视频帧输出含运动目标的第一类视频帧,人脸过滤模型对第一类视频帧过滤输出含人脸的第二类视频帧,重复人脸过滤器过滤掉第二类视频帧中含重复人脸的视频帧对于相同人脸仅输出一张目标视频帧,预设人脸识别模型对目标视频帧中的人员进行身份信息识别,通过逐级过滤减少了预设人脸识别模型的工作量,同时提高了视频帧过滤模型的视频帧过滤效率。
进一步地,通过双三次插值法对SSD网络中预测特征层提取的预测特征图进行插值计算后特征叠加,增强了预测特征图中的人脸特征,避免了部分视频帧因人脸不清晰而被过滤掉,提高了视频帧过滤模型的过滤准确性。
进一步地,当差分队列中的第一类视频帧数量大于视频帧队列中的第三类视频帧数量时,更新背景视频帧,通过反馈机制,自适应更新背景帧过滤器中的背景视频帧,缓解了各模型处理视频帧速度不同造成的视频帧堆积问题,减少了不同过滤器之间的硬件资源竞争问题,提高了人脸识别模型的识别效率以及视频帧过滤模型的过滤效率。
本发明的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在说明书以及附图中具体指出的结构实现到并获得。
本领域技术人员将会理解的是,能够用本发明实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:
图1为本发明一实施例所述视频帧过滤模型和所述预设人脸识别模型的结构示意图。
图2为本发明一实施例所述人脸过滤模型的三个预测特征图融合处理流程。
图3为本发明一实施例所述SSD网络三个预测特征层特征融合的结构示意图。
图4为本发明一实施例所述背景帧过滤器过滤流程图。
图5为本发明一实施例所述人脸识别方法。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
在此,还需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
在此,还需要说明的是,如果没有特殊说明,术语“连接”在本文不仅可以指直接连接,也可以表示存在中间物的间接连接。
在下文中,将参考附图描述本发明的实施例。在附图中,相同的附图标记代表相同或类似的部件,或者相同或类似的步骤。
视频监控行业发展迅速,校园、社区、工厂等场景的摄像头数量不断增加,但是对大量的监控视频进行事件排查是非常低效的,因此,视频监控场景中应用了大量的智能分析技术,例如目标检测、目标跟踪、人脸识别等。其中,人脸识别的任务最为复杂,基于深度学习的人脸识别技术凭借着复杂的网络模型结构,使得预测准确率大幅提高,但是会带来高昂的硬件成本开销问题,即使在高性能GPU上运行,模型的处理速度也难以支撑大量监控视频流的实时分析。
在监控视频人脸识别系统中,为了在有限计算资源的硬件设备上利用高准确率的人脸识别模型实现大规模的视频分析,现有技术,一方面是从算法模型本身入手,通过剪枝神经网络中不必要的参数使模型轻量化,降低视频分析的计算负载;另一方面,通过借助轻量级算法对视频流数据首先进行预处理,使用过滤器快速过滤掉大量的目标事件无关的视频帧,从而动态地降低实际到达人脸识别网络模型的视频帧的数量,实现快速的多视频流在线分析。由于目标事件发生频率低,并且目标人脸会重复出现在连续的视频帧中,视频流中会存在大量的无关视频帧,即使使用轻量化的人脸识别模型也需要进行逐帧分析,浪费了大量的计算和存储资源,甚至会导致识别准确率下降。
现有的人脸识别过滤方法一般使用背景差分检测、人脸检测、人脸跟踪等技术对视频帧进行过滤,在实际的应用场景中,监控摄像头通常被安装在特定的位置并保持固定的拍摄角度,用于监控出现的人脸,但是目标人脸离监控摄像头距离远,各种噪声等因素的干扰,使得直接对目标人脸的检测变得很困难,部分视频帧会因为模型无法检测小目标人脸被过滤掉,导致过滤系统整体的过滤效率降低,另外,实际监控场景是动态变化的,过滤机制设计不合理无法保证多模型的服务质量,系统也难以稳定运行。因此,本发明提供一种人脸过滤模型的训练方法、人脸识别方法及装置,解决现有人脸过滤机制过滤效率低且识别率低的问题。
本发明的一个方面提供了一种人脸过滤模型的训练方法,该方法包括步骤S101~S103:
S101:获取训练样本集,训练样本集包括多个样本,每个样本包括一个样本图片,对各样本图片添加真实人脸位置信息并以人脸作为标签。
S102:获取预设神经网络,预设神经网络采用SSD网络提取样本图片多个尺寸的预测特征图,对每个样本图片的一个或多个预测特征图进行插值、维度统一和叠加后,输入线性激活函数得到融合特征图,基于融合特征图识别得到含有预测人脸位置的图片。
S103:采用训练样本集对预设神经网络进行训练,将位置损失函数和置信损失函数加权求和后构建为总损失函数以对所述预设神经网络的参数迭代更新,得到人脸过滤模型。
在步骤S101中,将各样本图片中模糊的、做表情的、遮挡的等多种类型的真实人脸位置框出得到真实人脸位置信息并将人脸作为标签。
在步骤S102中,将样本图片尺寸调整为300×300后输入人脸过滤模型,人脸过滤模型中的SSD网络分别利用conv4_3、conv5_3和fc_6三个预测特征层在样本图片中提取预测特征图。如图2所示,采用双三次插值法对conv4_3提取的第一预测特征图中的像素点进行插值计算并采用3×3×512的卷积核提取插值后的第一预测特征图中的图像特征,对插值后的第一预测特征图归一化处理后得到第一特征图。通过反卷积使得conv5_3提取的第二预测特征图的维度与第一预测特征图的维度一致,采用双三次插值法对反卷积后的第二预测特征图中像素点进行插值计算,并采用3×3×512的卷积核提取插值后的第二特征图中图像特征,对插值后的第二预测特征图归一化处理后得到第二特征图。通过反卷积使得fc_6提取的第三预测特征图的维度与第一预测特征图的维度一致,采用双三次插值法对反卷积后的所述第三预测特征图中像素点进行插值计算,并采用3×3×512的卷积核提取插值后的第三特征图中图像特征,对插值后的第三预测特征图归一化处理后得到第三特征图。
如图3所示,将第一特征图、第二特征图以及第三特征图中的特征叠加,并输入线性激活函数得到第一融合特征图,将第一融合特征图卷积池化后输出得到含有多个预测框的第二融合特征图。过滤掉置信度低于阈值的预测框以及与真实人脸位置框重合率高于阈值的预测框,输出含有预测人脸位置的图片。
其中,conv4_3提取的第一预测特征图尺寸为38×38×512,conv5_3提取的第二预测特征图尺寸为19×19×512,fc_6提取的第三预测特征图尺寸为19×19×1024。通过反卷积使得第二预测特征图和第三预测特征图尺寸均变为38×38×512。通过SSD网络中不同的卷积层分别提取高语义低分辨率的高层预测特征图和低语义高分辨率的低层预测特征图,并对各预测特征图进行双三次插值后输入ReLU激活函数得到第一融合特征图,将第一融合特征图卷积池化后输出尺寸为1×1×128的第二融合特征图,将高层预测特征图与低层预测特征图进行融合可以使得模型学习到更多层次的图像特征。通过置信度阈值过滤掉第二融合特征图中置信度低于阈值的预测框,对未过滤掉的预测框进行解码,得到真实人脸框所在位置的参数,通过非极大值抑制去除与真实真实人脸框重合率大于阈值的的预测框,最终得到的预测框所在位置即为视频帧中人脸所在位置,同时人脸过滤模型会对输出的图片中的人脸进行评分。
在一些实施例中,双三次插值的表达式为:
Figure BDA0003997936990000081
Figure BDA0003997936990000082
Figure BDA0003997936990000083
其中,f(·)表示插值后的像素点坐标,x表示待插值像素点的横坐标,y表示待插值像素点的纵坐标,xi表示待插值像素点邻域点的横坐标,yj表示待插值像素点邻域点的纵坐标,i表示待插值像素点的邻域点所在行,j表示待插值像素点的邻域点所在列,a表示超参数。
在步骤S103中,将位置损失函数和置信损失函数加权求和后构建为总损失函数,同时采用adam优化器更新梯度,找到一组可以最小化结构风险的参数,通过总损失函数与adam优化器对预设神经网络更新得到人脸过滤模型。
本发明的另一方面提供了一种人脸识别方法,如图5所示,包括步骤S201~S204:
S201:获取多个视频流,并对各视频流统一编号。
S202:将各视频流按照编号顺序输入视频帧过滤模型,如图1所示,视频帧过滤模型包括依次连接的背景帧过滤器、如上述人脸过滤模型训练方法中的人脸过滤模型以及重复人员过滤器;其中,背景帧过滤器采用差分检测识别含有运动目标的第一类视频帧;将第一类视频帧输入人脸过滤模型,人脸过滤模型采用SSD网络提取第一类视频帧多个尺寸的预测特征图,对每个第一类视频帧的一个或多个预测特征图进行插值、维度统一和叠加后,输入线性激活函数得到融合特征图,基于融合特征图识别所述第一类视频帧中的预测人脸位置,并去除第一类视频帧中不含人脸的视频帧得到含有预测人脸位置的第二类视频帧;重复人员过滤器采用DSST算法过滤第二类视频帧中含有重复人脸的视频帧,对重复的人脸仅保留一张目标视频帧输出。
S203:将目标视频帧输入至预设人脸识别模型,进行识别得到目标人员身份信息。
S204:将目标人员身份信息标记在对应视频流的各视频帧中,并存储至数据库。
在步骤S201中,对不同摄像头采集到的多个视频流中进行编号,便于根据编号对视频流进行排序后依次输入视频帧过滤模型。同时可以根据编号确定各人脸以及相应人员身份信息所属视频流。
在步骤S202中,如图4所示,对输入的各视频流灰度化处理后输入视频帧过滤模型,视频帧过滤模型随机选取一张视频帧作为背景帧过滤器的背景视频帧,其余视频帧作为第三类视频帧。将背景视频帧记为fm,第三类视频帧记为fn,将第三类视频帧与背景视频帧做差分运算,得到差分图像,差分图像的计算式为:
Dn(x,y)=|fn(xn,yn)-fm(xm,ym)|;
其中,Dn(x,y)表示差分图像,fn(xn,yn)表示第三类视频帧中像素点的灰度值,fm(xm,ym)表示背景视频帧中像素点的灰度值,(xn,yn)表示第三类视频帧中像素点的坐标,(xm,ym)表示背景视频帧中像素点的坐标,(x,y)表示差分图像中像素点的坐标。
设定阈值T,逐个对差分图像Dn上的像素点进行二值化处理,得到二值化图像R'n
Figure BDA0003997936990000091
把差分图像Dn中灰度值大于等于T的像素点灰度值设为255作为前景点,把灰度值小于T的像素点灰度值设为0作为背景点,得到二值化图像R'n,对二值化图像R'n上的前景点进行连通性分析,即判断二值化图像的前景点组成的图像是否连续,若前景点组成的图像连续不间断,则将该二值化图像输出为含有完整运动目标的图像Rn,即含有运动目标的第一类视频帧。
在一些实施例中,人脸过滤模型采用SSD网络提取第一类视频帧多个尺寸的预测特征图,对每个第一类视频帧的一个或多个预测特征图进行插值、维度统一和叠加后,输入线性激活函数得到融合特征图,基于融合特征图识别第一类视频帧中的预测人脸位置,并去除第一类视频帧中不含人脸的视频帧得到第二类视频帧之后,还包括步骤S211~S212:
S211:在处理过程中将第一类视频帧构建为差分队列,将第三类视频帧构建为视频帧队列,以供调用。
S212:当差分队列中的第一类视频帧数量大于视频帧队列中的第三类视频帧数量时,将人脸过滤模型检出的不包含人脸的视频帧更新为背景视频帧,以继续处理视频流中剩余的视频帧。
在步骤S211~S212中,当背景帧过滤器中输入的视频帧与输出的第一类视频帧数量相等且人脸过滤模型未输出第二类视频帧时,则表明背景帧过滤器失效,背景帧过滤器失效导致差分队列中的第一类视频帧数量大于视频帧队列中的第三类视频帧数量,降低了模型处理效率。当差分队列中的第一类视频帧数量大于视频帧队列中的第三类视频帧数量时,将人脸过滤模型检出的不包含人脸的视频帧更新为背景视频帧,以保证背景帧过滤器选取的背景帧的准确性,并继续处理样本视频流中剩余的视频帧。既提高了背景帧过滤器过滤背景帧的准确性,又减少了视频帧堆积造成的资源浪费。
将人脸过滤模型输出的第二类视频帧输入重复人员过滤器,重复人员过滤器采用DSST算法过滤含有相同人脸的第二类视频帧,重复人员过滤器基于人脸过滤器对第二类视频帧中的人脸评分,输出一张人脸评分满足设定阈值的第二类视频帧后,对于后续含相同人脸的第二类视频帧不再输出。在视频监控场景中,人脸出现在视频画面的时间可能为几秒,对应的就是100多帧,实际上人脸识别并不需要对这些视频帧都进行比对,因此只需要处理一张含有人脸的视频帧就可以得出其余含相同人脸的视频帧上的人员信息。通过重复人员过滤器过滤掉含有重复人脸的视频帧可以降低人脸识别模型的工作量,提高人脸识别模型的识别效率。
在步骤S203中,将重复人员过滤器输出的目标视频帧构建为跟踪队列并输入预设人脸识别模型前还需要对目标视频帧进行预处理。由于视频帧过滤模型输出的目标视频帧受到各种条件的限制和随机干扰,不能直接使用,因此必须在输入预设人脸识别模型前对目标视频帧进行预处理,预处理包括:人脸对准,人脸光线补偿,灰度变换、直方图均衡化、归一化、几何校正、中值滤波以及锐化。
在一些实施例中,预设人脸识别模型基于FaceNet网络对目标视频帧中的人脸进行人员身份识别输出得到目标人员身份信息。
在一些实施例中,预设人脸识别模型提取目标视频帧中目标人员的人脸特征并与数据库中存储的多个已知身份信息人员进行人脸特征匹配,若目标人员的人脸特征与数据库中的一已知身份信息人员的人脸特征匹配度高于匹配度阈值,则认为目标人员与已知身份信息人员为同一人,从而得到目标人员身份信息。
其中,人脸特征提取是针对人脸的某些特征进行的,也称人脸表征。它是对人脸进行特征建模的过程。人脸特征提取的方法:一种是基于知识的表征方法,即根据人脸器官的形状描述以及它们之间的距离特性来获得人脸分类的特征数据,其特征分量通常包括特征点间的欧氏距离、曲率、和角度等。人脸由眼睛、鼻子、嘴、下巴等局部特征构成,对局部特征和各局部特征之间结构关系的几何描述被称为几何特征。另一种是基于代数特征或统计学习的表征方法,基本思想是将人脸在空域内的高维描述转化为频域或者其他空间内的低维描述,其表征方法为线性投影表征方法和非线性投影表征方法。
在一些实施例中,重复人员过滤器对重复的人脸保留一张目标视频帧输出后,将结果反馈至人脸过滤模型,并对人脸过滤模型中重复的人脸予以标记。预设人脸识别模型识别出目标人员身份信息后,将识别结果反馈至重复人员过滤器,并对重复人员过滤器中与预测人脸相同的人脸赋予身份信息。预设人脸识别模型将识别结果反馈给重复人员过滤器,重复人员过滤器将过滤结果反馈给人脸过滤模型,通过逐级反馈,可以直接在人脸过滤模型中查看到各含有人脸的视频帧中相关目标人员的身份信息。
在步骤S204中,将目标人员身份信息标记在对应视频流的各视频帧中,用于将各视频流编号与相应视频流中的目标人员身份信息以及人脸位置建立对应关系,便于确定各目标人员所属视频流。
综上所述,本发明所述人脸过滤模型的训练方法、人脸识别方法及装置,通过背景帧过滤器过滤掉视频帧中的背景视频帧输出含运动目标的第一类视频帧,人脸过滤模型对第一类视频帧过滤输出含人脸的第二类视频帧,重复人脸过滤器过滤掉第二类视频帧中含重复人脸的视频帧对于相同人脸仅输出一张目标视频帧,预设人脸识别模型对目标视频帧中的人员进行身份信息识别,通过逐级过滤减少了预设人脸识别模型的工作量,同时提高了视频帧过滤模型的视频帧过滤效率。
进一步地,通过双三次插值法对SSD网络中预测特征层提取的预测特征图进行插值计算后特征叠加,增强了预测特征图中的人脸特征,避免了部分视频帧因人脸不清晰而被过滤掉,提高了视频帧过滤模型的过滤准确性。
进一步地,当差分队列中的第一类视频帧数量大于视频帧队列中的第三类视频帧数量时,更新背景视频帧,通过反馈机制,自适应更新背景帧过滤器中的背景视频帧,缓解了各模型处理视频帧速度不同造成的视频帧堆积问题,减少了不同过滤器之间的硬件资源竞争问题,提高了人脸识别模型的识别效率以及视频帧过滤模型的过滤效率。
与上述方法相应地,本发明还提供了一种装置,该装置包括计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现如前所述方法的步骤。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时以实现前述边缘计算服务器部署方法的步骤。该计算机可读存储介质可以是有形存储介质,诸如随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、软盘、硬盘、可移动存储盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。
本领域普通技术人员应该可以明白,结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法,能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
本发明中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他实施方式的特征。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种人脸过滤模型的训练方法,其特征在于,该方法包括以下步骤:
获取训练样本集,所述训练样本集包括多个样本,每个样本包括一个样本图片,对各样本图片添加真实人脸位置信息并以人脸作为标签;
获取预设神经网络,所述预设神经网络采用SSD网络提取所述样本图片多个尺寸的预测特征图,对每个样本图片的一个或多个预测特征图进行插值、维度统一和叠加后,输入线性激活函数得到融合特征图,基于所述融合特征图识别得到含有预测人脸位置的图片;
采用所述训练样本集对所述预设神经网络进行训练,将位置损失函数和置信损失函数加权求和后构建为总损失函数以对所述预设神经网络的参数迭代更新,得到人脸过滤模型。
2.根据权利要求1所述的人脸过滤模型的训练方法,其特征在于,所述预设神经网络采用SSD网络提取所述样本图片多个尺寸的预测特征图,对每个样本图片的一个或多个预测特征图进行插值、维度统一和叠加后,输入线性激活函数得到融合特征图,基于所述融合特征图识别得到含有预测人脸位置的图片,包括:
将所述样本图片尺寸调整为300×300后输入所述人脸过滤模型,所述人脸过滤模型中的SSD网络分别利用conv4_3、conv5_3和fc_6三个预测特征层在所述样本图片中提取预测特征图;
采用双三次插值法对所述conv4_3提取的第一预测特征图中的像素点进行插值计算并采用3×3×512的卷积核提取插值后的所述第一预测特征图中的图像特征,对插值后的所述第一预测特征图归一化处理后得到第一特征图;
通过反卷积使得所述conv5_3提取的第二预测特征图的维度与所述第一预测特征图的维度一致,采用双三次插值法对反卷积后的所述第二预测特征图中像素点进行插值计算,并采用3×3×512的卷积核提取插值后的所述第二特征图中图像特征,对插值后的所述第二预测特征图归一化处理后得到第二特征图;
通过反卷积使得所述fc_6提取的第三预测特征图的维度与所述第一预测特征图的维度一致,采用双三次插值法对反卷积后的所述第三预测特征图中像素点进行插值计算,并采用3×3×512的卷积核提取插值后的所述第三特征图中图像特征,对插值后的所述第三预测特征图归一化处理后得到第三特征图;
将所述第一特征图、所述第二特征图以及所述第三特征图中的特征叠加,并输入线性激活函数得到第一融合特征图,将所述第一融合特征图卷积池化后输出得到含有多个预测框的第二融合特征图,过滤掉置信度低于阈值的预测框以及与真实人脸位置框重合率高于阈值的预测框,输出得到所述含有预测人脸位置的图片。
3.一种人脸识别方法,其特征在于,包括:
获取多个视频流,并对各视频流统一编号;
将各视频流按照编号顺序输入视频帧过滤模型,所述视频帧过滤模型包括依次连接的背景帧过滤器、如权利要求1至2任意一项所述人脸过滤模型训练方法中的人脸过滤模型以及重复人员过滤器;其中,所述背景帧过滤器采用差分检测识别含有运动目标的第一类视频帧;将所述第一类视频帧输入所述人脸过滤模型并筛选得到含有预测人脸位置的第二类视频帧;所述重复人员过滤器采用DSST算法过滤所述第二类视频帧中含有重复人脸的视频帧,对重复的人脸仅保留一张目标视频帧输出;
将所述目标视频帧输入至预设人脸识别模型,进行识别得到目标人员身份信息;
将所述目标人员身份信息标记在对应视频流的各视频帧中,并存储至数据库。
4.根据权利要求3所述的人脸识别方法,其特征在于,所述背景帧过滤器采用差分检测识别含有运动目标的第一类视频帧,包括:
从所述视频流中选取一张视频帧作为背景视频帧,其余作为第三类视频帧;将所述第三类视频帧中像素点的灰度值依次与所述背景视频帧像素点的灰度值做差分运算,得到各第三类视频帧对应的差分图像;对所述差分图像进行二值化处理,将所述差分图像中像素值小于设定阈值的像素点赋值0作为背景点,像素值大于等于阈值的像素点赋值255作为前景点,得到所述第三类视频帧的二值化图像,对所述二值化图像中的前景点进行连通性分析后输出得到含有运动目标的所述第一类视频帧。
5.根据权利要求4所述的人脸识别方法,其特征在于,将所述第三类视频帧中像素点的灰度值依次与所述背景视频帧像素点的灰度值做差分运算,得到各第三类视频帧对应的差分图像,包括:
所述差分图像计算式为:
Dn(x,y)=|fn(xn,yn)-fm(xm,ym)|;
其中,Dn(x,y)表示所述差分图像,fn(xn,yn)表示所述第三类视频帧中像素点的灰度值,fm(xm,ym)表示所述背景视频帧中像素点的灰度值,(xn,yn)表示所述第三类视频帧中像素点的坐标,(xm,ym)表示所述背景视频帧中像素点的坐标,(x,y)表示所述差分图像中像素点的坐标。
6.根据权利要求3所述的人脸识别方法,其特征在于,将所述第一类视频帧输入所述人脸过滤模型并筛选得到含有预测人脸位置的第二类视频帧之后,还包括:
在处理过程中将所述第一类视频帧构建为差分队列,将所述第三类视频帧构建为视频帧队列,以供调用;
在所述差分队列中的所述第一类视频帧数量大于所述视频队列中的所述第三类视频帧数量时,将所述人脸过滤器检出的不包含人脸的视频帧更新为所述背景视频帧,以继续处理所述样本视频流中剩余的视频帧。
7.根据权利要求3所述的人脸识别方法,其特征在于,所述预设人脸识别模型对所述目标视频帧进行识别得到目标人员身份信息之前,还包括:
对所述目标视频帧进行预处理,所述预处理包括:人脸对准,人脸光线补偿,灰度变换、直方图均衡化、归一化、几何校正、中值滤波以及锐化。
8.根据权利要求7所述的人脸识别方法,其特征在于,所述预设人脸识别模型对所述目标视频帧进行识别得到目标人员身份信息,包括:
所述预设人脸识别模型提取所述目标视频帧中所述目标人员的人脸特征并与数据库中存储的多个已知身份信息人员进行人脸特征匹配,若所述目标人员的人脸特征与所述数据库中的一已知身份信息人员的人脸特征匹配度高于匹配度阈值,则认为所述目标人员与所述已知身份信息人员为同一人,从而得到所述目标人员身份信息。
9.一种人脸识别装置,包括处理器和存储器,其特征在于,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现如权利要求1至8中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至8中任一项所述方法的步骤。
CN202211598975.XA 2022-12-14 2022-12-14 一种人脸过滤模型的训练方法、人脸识别方法及装置 Pending CN116110095A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211598975.XA CN116110095A (zh) 2022-12-14 2022-12-14 一种人脸过滤模型的训练方法、人脸识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211598975.XA CN116110095A (zh) 2022-12-14 2022-12-14 一种人脸过滤模型的训练方法、人脸识别方法及装置

Publications (1)

Publication Number Publication Date
CN116110095A true CN116110095A (zh) 2023-05-12

Family

ID=86255264

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211598975.XA Pending CN116110095A (zh) 2022-12-14 2022-12-14 一种人脸过滤模型的训练方法、人脸识别方法及装置

Country Status (1)

Country Link
CN (1) CN116110095A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117197726A (zh) * 2023-11-07 2023-12-08 四川三思德科技有限公司 一种重点人员精准化管控系统及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117197726A (zh) * 2023-11-07 2023-12-08 四川三思德科技有限公司 一种重点人员精准化管控系统及方法
CN117197726B (zh) * 2023-11-07 2024-02-09 四川三思德科技有限公司 一种重点人员精准化管控系统及方法

Similar Documents

Publication Publication Date Title
Bhalla et al. A fuzzy convolutional neural network for enhancing multi-focus image fusion
CN110097568B (zh) 一种基于时空双分支网络的视频对象检测与分割方法
WO2022161286A1 (zh) 图像检测方法、模型训练方法、设备、介质及程序产品
CN109685045B (zh) 一种运动目标视频跟踪方法及系统
CN113591968A (zh) 一种基于非对称注意力特征融合的红外弱小目标检测方法
CN111325051B (zh) 一种基于人脸图像roi选取的人脸识别方法及装置
CN111680690B (zh) 一种文字识别方法及装置
CN110097522B (zh) 一种基于多尺度卷积神经网络的单幅户外图像去雾方法
CN113449606B (zh) 一种目标对象识别方法、装置、计算机设备及存储介质
Sakurai et al. Plant Growth Prediction using Convolutional LSTM.
CN112906794A (zh) 一种目标检测方法、装置、存储介质及终端
CN111626090A (zh) 一种基于深度帧差卷积神经网络的运动目标检测方法
CN111582074A (zh) 一种基于场景深度信息感知的监控视频树叶遮挡检测方法
CN108345835B (zh) 一种基于仿复眼感知的目标识别方法
CN116110095A (zh) 一种人脸过滤模型的训练方法、人脸识别方法及装置
CN112308087B (zh) 基于动态视觉传感器的一体化成像识别方法
Sureshkumar et al. Deep learning framework for component identification
CN113989604A (zh) 基于端到端深度学习的轮胎dot信息识别方法
CN111091056B (zh) 图像中的墨镜识别方法及装置、电子设备、存储介质
CN115019241B (zh) 一种行人识别与追踪方法、装置、可读存储介质及设备
CN116129417A (zh) 一种基于低质量图像的数字仪表读数检测方法
Ghahremannezhad et al. Real-time hysteresis foreground detection in video captured by moving cameras
CN111986233B (zh) 基于特征自学习的大场景极小目标遥感视频跟踪方法
CN114359333A (zh) 运动目标提取方法、装置、计算机设备和存储介质
CN114694090A (zh) 一种基于改进PBAS算法与YOLOv5的校园异常行为检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination