CN114332733B - 基于残差循环神经网络的视频监控人脸识别方法 - Google Patents
基于残差循环神经网络的视频监控人脸识别方法 Download PDFInfo
- Publication number
- CN114332733B CN114332733B CN202210004166.5A CN202210004166A CN114332733B CN 114332733 B CN114332733 B CN 114332733B CN 202210004166 A CN202210004166 A CN 202210004166A CN 114332733 B CN114332733 B CN 114332733B
- Authority
- CN
- China
- Prior art keywords
- face
- video
- frame
- feature
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 30
- 238000000034 method Methods 0.000 title claims abstract description 19
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 10
- 125000004122 cyclic group Chemical group 0.000 title claims abstract description 10
- 230000004927 fusion Effects 0.000 claims abstract description 42
- 238000012549 training Methods 0.000 claims abstract description 20
- 238000001514 detection method Methods 0.000 claims abstract description 7
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 17
- 239000012634 fragment Substances 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000008034 disappearance Effects 0.000 abstract description 4
- 238000007499 fusion processing Methods 0.000 abstract description 4
- 238000012545 processing Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Landscapes
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于残差循环神经网络的视频监控人脸识别方法,其特征在于,包括如下步骤:1)获取视频监控人脸数据;2)进行人脸检测;3)视频人脸特征联合;4)联合特征融合与编码;5)解码隐藏状态及融合特征;6)利用融合特征进行网络训练;7)应用网络进行人脸识别。这种方法将人脸特征与隐藏状态使用残差连接,从而解决特征融合过程中存在梯度消失的问题,为隐藏状态提供了更多的特征,进而有效地提升人脸识别性能,对于长序列的人脸视频具有更好的鲁棒性,并且具有更强的识别能力。
Description
技术领域
本发明涉及智能图像处理技术领域,具体涉及一种基于残差循环神经网络的视频监控人脸识别方法。
背景技术
视频监控下的人脸识别是传统人脸识别是在配合场景下,对目标采集单张清晰正面的人脸图像进行识别。而与传统人脸识别不同的是视频监控人脸识别则是对一段视频片段进行人脸识别,由于这些人脸会存在姿态偏差、低分辨、遮挡等问题,导致现有的人脸识别算法失效,识别准确率严重下滑,无法直接应用。如何从冗余,复杂的人脸视频中提取关键特征,成为视频监控人脸识别的关键研究方向。
现有视频监控下的人脸识别算法分为两类,第一种思路是基于视频帧建模的视频人脸识别,KIM采用线性子空间的建模方法,将视频帧提取特征后拉伸变为一维向量,通过度量两个向量的距离进行人脸识别;第二种思路是基于视频帧融合的视频人脸识别,通过对视频帧的所有特征进行融合,提取视频片段中所有能使用的人脸信息进行识别。Zhong通过对所有视频帧的特征进行聚类,然后根据聚类中心进行特征融合,Rao利用视频帧训练了一个生成对抗网络,融合所有视频帧的特征,尽可能地生成出一张带有所有特征的人脸图像。
无论是基于视频帧建模的视频人脸识别还是基于视频帧融合的视频人脸识别均有显著成效,但仍有不足之处。现有的方案中基于视频帧融合的视频人脸识别中主要的特征融合算法有2D卷积融合、3D卷积融合以及循环神经网络特征融合,有2D卷积与3D卷积的融合方式,对于数量较少的序列具有较好的性能,但随着序列长度的增加,维数也会随之增加,带来计算复杂的问题。循环神经网络的特征融合只以前后两帧作为输入,通过前后两帧的隐藏状态进行特征融合,以递归的方式进行特征融合,但在特征融合过程中存在梯度消失的问题。
发明内容
本发明的目的是针对现有技术的不足,而提供一种基于残差循环神经网络的视频监控人脸识别方法。这种方法将人脸特征与隐藏状态使用残差连接,从而解决特征融合过程中存在梯度消失的问题,为隐藏状态提供了更多的特征,进而有效地提升人脸识别性能,对于长序列的人脸视频具有更好的鲁棒性,并且具有更强的识别能力。
实现本发明目的的技术方案是:
一种基于残差循环神经网络的视频监控人脸识别方法,部署时的前向推理,包括如下步骤:
1)获取视频监控人脸数据:将视频监控采集的人脸进行分割,对在监控摄像头采样范围内第一次检测到的人脸进行SORT跟踪,以跟踪目标为中心,根据第一次人脸检测到的矩形框进行图像分割,得到视频序列人脸图像数据,对数据集进行数据清洗,选取1000段带有正面人脸作为标签的视频序列人脸片段,选出视频序列中质量最高的一帧人脸作为标签,并且选取视频序列时跳过该帧,最后生成序列人脸图像训练集{Ii},i=1,2,3,…,N;
2)视频人脸检测:将步骤1)中获得的序列人脸图像训练集,进行人脸检测后,裁剪出 112×96的人脸区域,对连续可检测到的人脸片段进行筛选,删除连续帧数低于7帧的人脸片段,保留连续帧数高于7帧的人脸片段;
3)视频人脸特征联合:对步骤2)中得到的视频人脸进行特征连接,对单帧人脸图像It、 It前一帧人脸图像It-1、前一帧图像的融合特征输出Rt-1、以及前一帧图像的特征融合输出的隐藏状态ht-1进行通道连接,得到联合特征Zt=Zconcat[It-1,It,ot-1,ht-1],其中,对第一帧人脸图像计算Z0=Zconcat[I0,I1,o0,h0]时,I0,R0,h0均为零矩阵;
4)联合特征融合与编码:对步骤3)中得到的联合特征Zt进行特征融合,得到初始的上下文关联特征其中,Wcon2D为2D卷积操作,σ为激活函数操作,将/>输入K个级联的标准残差块进行处理,每个残差块由两层卷积层组成,卷积核大小均为4×4、通道数均为64、取值为10,残差块的输入输出关系为:/>其中, k∈{1,2,…,K},/>为残差块的特征提取操作,第K标个标准残差块的输出为/>
5)解码隐藏状态及融合特征:对步骤4)中得到的上下文关联特征进行分别解码,得到隐藏状态/>以及融合特征/>式中,Wcon2D为2D卷积操作,σ为激活函数操作;
6)利用融合特征进行网络训练:将步骤5)得到的单帧融合特征Rt输入人脸识别网络,得到训练数据集的单帧人脸的预测矩阵IPt,即IPt=Fclass(Rt),采用各帧人脸的预测矩阵IPt,t=1,2,…,作为网络输入样本进行网络训练,训练时采用交叉熵构造损失函数,计算公式为其中,/>为网络输出的标签,/>为真值标签,n为样本数,损失函数用于计算网络误差值,并通过反向传播机制用于优化网络;
7)应用网络进行人脸识别:对监控视频各人脸帧It′,t=1,2,…,N′,进行识别,其中N′为视频帧数,得到帧的预测矩阵IPt′,进而计算出视频的人脸识别结果IPv′,即
步骤1)中所涉及的目标跟踪与图像分割均为现有技术,目的是从视频监控数据中提取序列人脸图像进行特征融合与人脸识别。
步骤3)中于第一帧人脸图像进行特征联合时,前一帧的人脸It-1、前一帧的输出Rt-1、前一帧输出的隐藏状态ht-1均为零矩阵,对于第一帧往后的所有帧人脸图像进行特征联合时,均以步骤5)输出的前一帧隐藏状态ht-1与融合特征Rt-1以及前一帧的人脸It-1进行特征联合。
步骤6)中人脸识别网络采用VGG-Face人脸识别网络框架。
步骤7)中视频监控人脸识别的识别结果为每一帧的人脸图像经过特征融合后的识别结果的联合。
本技术方案能从冗余、质量差的人脸视频中提取有效的特征,进而有效地提升人脸识别性能,于长序列的视频监控人脸识别具有更好的鲁棒性,并且具有更强的识别能力。
这种方法将人脸特征与隐藏状态使用残差连接,从而解决特征融合过程中存在梯度消失的问题,为隐藏状态提供了更多的特征,进而有效地提升人脸识别性能,对于长序列的人脸视频具有更好的鲁棒性,并且具有更强的识别能力。
附图说明
图1为实施例中方法流程示意图;
图2为实施例中视频监控人脸识别原理示意图。
具体实施方式
下面结合附图和实施例对本发明内容作进一步的说明,但不是对本发明的限定。
实施例:
参照图1,一种基于残差循环神经网络的视频监控人脸识别方法,部署时的前向推理,包括如下步骤:
1)获取视频监控人脸数据:将视频监控采集的人脸进行分割,对在监控摄像头采样范围内第一次检测到的人脸进行SORT跟踪,以跟踪目标为中心,根据第一次人脸检测到的矩形框进行图像分割,得到视频序列人脸图像数据,对数据集进行数据清洗,选取1000段带有正面人脸作为标签的视频序列人脸片段,选出视频序列中质量最高的一帧人脸作为标签,并且选取视频序列时跳过该帧,最后生成序列人脸图像训练集{Ii},i=1,2,3,…,N;
2)视频人脸检测:将步骤1)中获得的序列人脸图像训练集,进行人脸检测后,裁剪出 112×96的人脸区域,对连续可检测到的人脸片段进行筛选,删除连续帧数低于7帧的人脸片段,保留连续帧数高于7帧的人脸片段;
3)视频人脸特征联合:对步骤2)中得到的视频人脸进行特征连接,对单帧人脸图像It、 It前一帧人脸图像It-1、前一帧图像的融合特征输出Rt-1、以及前一帧图像的特征融合输出的隐藏状态ht-1进行通道连接,得到联合特征Zt=Zconcat[It-1,It,ot-1,ht-1],其中,对第一帧人脸图像计算Z0=Zconcat[I0,I1,o0,h0]时,I0,R0,h0均为零矩阵;
4)联合特征融合与编码:如图2所示,对步骤3)中得到的联合特征Zt进行特征融合,得到初始的上下文关联特征其中,Wcon2D为2D卷积操作,σ为激活函数操作,将/>输入K个级联的标准残差块进行处理,每个残差块由两层卷积层组成,卷积核大小均为4×4、通道数均为64、取值为10,残差块的输入输出关系为:/>其中,k∈{1,2,…,K},/>为残差块的特征提取操作,第K标个标准残差块的输出为/>编码网络使用K个标准的残差块提取特征,/>表示最后一个残差块的输出,将编码后的信息与编码前的上下文关联相加,得到序列中某一帧的人脸图像与前面帧人脸图像的上下文关联/>
5)解码隐藏状态及融合特征:对步骤4)中得到的上下文关联特征进行分别解码,得到隐藏状态/>以及融合特征/>式中,Wcon2D为2D卷积操作,σ为激活函数操作,其中,/>为卷积层后添加一个激活函数,/>则不经过激活函数;
6)利用融合特征进行网络训练:将步骤5)得到的单帧融合特征Rt输入人脸识别网络,得到训练数据集的单帧人脸的预测矩阵IPt,即IPt=Fclass(Rt),采用各帧人脸的预测矩阵IPt, t=1,2,…,作为网络输入样本进行网络训练,训练时采用交叉熵构造损失函数,计算公式为其中,/>为网络输出的标签,/>为真值标签,n为样本数,损失函数用于计算网络误差值,并通过反向传播机制用于优化网络;
7)应用网络进行人脸识别:对监控视频各人脸帧It′,t=1,2,…,N′,进行识别,其中N′为视频帧数,得到帧的预测矩阵IPt′,进而计算出视频的人脸识别结果IPv′,即
步骤1)中所涉及的目标跟踪与图像分割均为现有技术,目的是从视频监控数据中提取序列人脸图像进行特征融合与人脸识别。
步骤3)中于第一帧人脸图像进行特征联合时,前一帧的人脸It-1、前一帧的输出Rt-1、前一帧输出的隐藏状态ht-1均为零矩阵,对于第一帧往后的所有帧人脸图像进行特征联合时,均以步骤5)输出的前一帧隐藏状态ht-1与融合特征Rt-1以及前一帧的人脸It-1进行特征联合。
步骤6)中人脸识别网络采用VGG-Face人脸识别网络框架。
步骤7)中视频监控人脸识别的识别结果为每一帧的人脸图像经过特征融合后的识别结果的联合。
Claims (1)
1.一种基于残差循环神经网络的视频监控人脸识别方法,其特征在于,包括如下步骤:
1)获取视频监控人脸数据:对数据集进行数据清洗,选取1000段带有正面人脸作为标签的视频序列人脸片段,选出视频序列中质量最高的一帧人脸作为标签,并且选取视频序列时跳过该帧,最后生成序列人脸图像训练集{Ii},i=1,2,3,…,N;
2)视频人脸检测:将步骤1)中获得的序列人脸图像训练集,进行人脸检测后,裁剪出112×96的人脸区域,对连续可检测到的人脸片段进行筛选,删除连续帧数低于7帧的人脸片段,保留连续帧数高于7帧的人脸片段;
3)视频人脸特征联合:对步骤2)中得到的视频人脸进行特征连接,对单帧人脸图像It、It前一帧人脸图像It-1、前一帧图像的融合特征输出Rt-1、以及前一帧图像的特征融合输出的隐藏状态ht-1进行通道连接,得到联合特征Zt=Zconcat[It-1,It,ot-1,ht-1],其中,对第一帧人脸图像计算Z0=Zconcat[I0,I1,o0,h0]时,I0,R0,h0均为零矩阵;
4)联合特征融合与编码:对步骤3)中得到的联合特征Zt进行特征融合,得到初始的上下文关联特征其中,Wcon2D为2D卷积操作,σ为激活函数操作,将/>输入K个级联的标准残差块进行处理,每个残差块由两层卷积层组成,卷积核大小均为4×4、通道数均为64、取值为10,残差块的输入输出关系为:/>其中,k∈{1,2,…,K},/>为残差块的特征提取操作,第K标个标准残差块的输出为/>
5)解码隐藏状态及融合特征:对步骤4)中得到的上下文关联特征进行分别解码,得到隐藏状态/>以及融合特征/>式中,Wcon 2D为2D卷积操作,σ为激活函数操作;
6)利用融合特征进行网络训练:将步骤5)得到的单帧融合特征Rt输入人脸识别网络,得到训练数据集的单帧人脸的预测矩阵IPt,即IPt=Fclass(Rt),采用各帧人脸的预测矩阵IPt,t=1,2,…,作为网络输入样本进行网络训练,训练时采用交叉熵构造损失函数,计算公式为其中,/>为网络输出的标签,/>为真值标签,n为样本数,损失函数用于计算网络误差值,并通过反向传播机制用于优化网络;
7)应用网络进行人脸识别:对监控视频各人脸帧It,t=1,2,…,N′,进行识别,其中N′为视频帧数,得到帧的预测矩阵IPt′,进而计算出视频的人脸识别结果IPv′,即
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210004166.5A CN114332733B (zh) | 2022-01-04 | 2022-01-04 | 基于残差循环神经网络的视频监控人脸识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210004166.5A CN114332733B (zh) | 2022-01-04 | 2022-01-04 | 基于残差循环神经网络的视频监控人脸识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114332733A CN114332733A (zh) | 2022-04-12 |
CN114332733B true CN114332733B (zh) | 2024-03-15 |
Family
ID=81022272
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210004166.5A Active CN114332733B (zh) | 2022-01-04 | 2022-01-04 | 基于残差循环神经网络的视频监控人脸识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114332733B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108090402A (zh) * | 2016-11-22 | 2018-05-29 | 上海银晨智能识别科技有限公司 | 一种基于循环神经网络的视频人脸识别方法及系统 |
CN110110650A (zh) * | 2019-05-02 | 2019-08-09 | 西安电子科技大学 | 行人中的人脸识别方法 |
CN111444881A (zh) * | 2020-04-13 | 2020-07-24 | 中国人民解放军国防科技大学 | 伪造人脸视频检测方法和装置 |
WO2021184894A1 (zh) * | 2020-03-20 | 2021-09-23 | 深圳市优必选科技股份有限公司 | 一种去模糊的人脸识别方法、系统和一种巡检机器人 |
-
2022
- 2022-01-04 CN CN202210004166.5A patent/CN114332733B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108090402A (zh) * | 2016-11-22 | 2018-05-29 | 上海银晨智能识别科技有限公司 | 一种基于循环神经网络的视频人脸识别方法及系统 |
CN110110650A (zh) * | 2019-05-02 | 2019-08-09 | 西安电子科技大学 | 行人中的人脸识别方法 |
WO2021184894A1 (zh) * | 2020-03-20 | 2021-09-23 | 深圳市优必选科技股份有限公司 | 一种去模糊的人脸识别方法、系统和一种巡检机器人 |
CN111444881A (zh) * | 2020-04-13 | 2020-07-24 | 中国人民解放军国防科技大学 | 伪造人脸视频检测方法和装置 |
Non-Patent Citations (1)
Title |
---|
基于卷积神经网络的视频监控人脸识别方法;晏鹏程;张一鸣;童光红;黄锋;欧先锋;;成都工业学院学报;20200315(01);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114332733A (zh) | 2022-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113936339B (zh) | 基于双通道交叉注意力机制的打架识别方法和装置 | |
CN103593464B (zh) | 基于视觉特征的视频指纹检测及视频序列匹配方法及系统 | |
Dang et al. | RPCA-KFE: Key frame extraction for video using robust principal component analysis | |
CN113158723A (zh) | 一种端到端的视频动作检测定位系统 | |
CN111369548B (zh) | 一种基于生成对抗网络的无参考视频质量评价方法及装置 | |
CN111369565A (zh) | 一种基于图卷积网络的数字病理图像的分割与分类方法 | |
Kortylewski et al. | Probabilistic Compositional Active Basis Models for Robust Pattern Recognition. | |
CN110334622B (zh) | 基于自适应特征金字塔的行人检索方法 | |
CN109982071B (zh) | 基于时空复杂性度量及局部预测残差分布的hevc双压缩视频检测方法 | |
CN112200096B (zh) | 基于压缩视频实现实时异常行为识别的方法、装置及其存储介质 | |
CN113139489A (zh) | 基于背景提取和多尺度融合网络的人群计数方法及系统 | |
CN114693577B (zh) | 一种基于Transformer的红外偏振图像融合方法 | |
CN115424051A (zh) | 一种全景拼接图像质量评价方法 | |
CN115063717A (zh) | 一种基于重点区域实景建模的视频目标检测与跟踪方法 | |
CN116630850A (zh) | 基于多注意力任务融合与边界框编码的孪生目标跟踪方法 | |
Roka et al. | Deep stacked denoising autoencoder for unsupervised anomaly detection in video surveillance | |
Fang et al. | Learning Better Video Query with SAM for Video Instance Segmentation | |
CN114332733B (zh) | 基于残差循环神经网络的视频监控人脸识别方法 | |
CN115171029B (zh) | 基于无人驾驶的城市场景下的实例分割方法及系统 | |
CN117115474A (zh) | 一种基于多阶段特征提取的端到端单目标跟踪方法 | |
CN117351514A (zh) | 一种基于前景分割的跨模态行人重识别方法 | |
CN116597006A (zh) | 基于多尺度特征融合的6d位姿估计方法 | |
CN116188555A (zh) | 一种基于深度网络与运动信息的单目室内深度估计算法 | |
CN114463187B (zh) | 基于聚合边缘特征的图像语义分割方法及系统 | |
CN116311026A (zh) | 基于多层级信息融合Transformer的教室场景身份识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |