CN111738099B - 基于视频图像场景理解的人脸自动检测方法 - Google Patents
基于视频图像场景理解的人脸自动检测方法 Download PDFInfo
- Publication number
- CN111738099B CN111738099B CN202010481014.5A CN202010481014A CN111738099B CN 111738099 B CN111738099 B CN 111738099B CN 202010481014 A CN202010481014 A CN 202010481014A CN 111738099 B CN111738099 B CN 111738099B
- Authority
- CN
- China
- Prior art keywords
- face
- face detection
- data set
- frame
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 100
- 230000007246 mechanism Effects 0.000 claims abstract description 32
- 238000013528 artificial neural network Methods 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 9
- 238000000034 method Methods 0.000 claims description 17
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000012360 testing method Methods 0.000 claims description 9
- 238000013434 data augmentation Methods 0.000 claims description 7
- 239000013598 vector Substances 0.000 claims description 7
- 241001334134 Rugopharynx epsilon Species 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 abstract description 3
- 230000014509 gene expression Effects 0.000 abstract description 3
- 238000013527 convolutional neural network Methods 0.000 abstract description 2
- 238000005286 illumination Methods 0.000 abstract description 2
- 208000001491 myopia Diseases 0.000 abstract 1
- 230000006870 function Effects 0.000 description 18
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 229920002430 Fibre-reinforced plastic Polymers 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000011151 fibre-reinforced plastic Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明提供基于视频图像场景理解的人脸自动检测方法,包括:收集人脸图片数据,进行数据标定,整理为远景人脸数据集和近景人脸数据集;基于Resnet和特征金字塔网络,搭建基于注意力机制的人脸检测神经网络;使用远景人脸数据集和近景人脸数据集分别在所述人脸检测神经网络中训练模型,得到远景人脸检测模型和近景人脸检测模型;基于对特定场景的理解,采用远景人脸检测模型和近景人脸检测模型,实现根据场景进行人脸检测。本发明通过在深度卷积神经网络中嵌入注意力机制,可以有效适应远近景条件下人脸的光照、角度、表情等变化。其次,本发明通过结合远景和近景特征不同的特性,分别训练两个模型进行检测,可以有效提高人脸检测的效果。
Description
技术领域
本发明属于人脸检测领域,具体涉及基于视频图像场景理解的人脸自动检测方法。
背景技术
人脸检测是物体检测的一个重要的分支,是人脸识别、表情识别等技术流程的前提保证。近年来,人脸识别等技术越来越广泛地用在实际生活中,由于实际场景复杂多变,人脸检测的技术要求也越来越高。如何快速准确地检测出人脸,成为了大家共同关注的问题。对于检测领域,主要有两类的解决方案。一种是单阶段的检测,直接对目标的位置进行回归预测,该方法速度快,但是准确率相对偏低;另一种是双阶段的检测,首先对目标的候选区域进行预测,然后再对候选区域进行分类判定,这种方法准确率高,但是速度相对偏低。
目前市面上的人脸检测算法,在面对检测任务时受像素大小、模糊、侧脸等因素的限制,往往无法同时兼顾远景人脸和近景人脸的检测。
发明内容
本发明针对目前人脸检测方法的不足,提供了基于视频图像场景理解的人脸自动检测方法。本发明的目的在于检测出图片中存在的人脸。实现该方案需要两个部分,一是使用大量数据集训练远景人脸检测模型和近景人脸检测模型,二是综合使用两个模型进行人脸检测。
本发明目的通过至少如下方案之一实现。
基于视频图像场景理解的人脸自动检测方法,包括以下步骤:
收集人脸图片数据,进行数据标定,划分为远景人脸数据集和近景人脸数据集;
基于Resnet和特征金字塔网络,搭建基于注意力机制的人脸检测神经网络;
使用远景人脸数据集和近景人脸数据集分别在所述人脸检测神经网络中训练模型,得到远景人脸检测模型和近景人脸检测模型;
根据不同的测试场景设置不同的阈值,采用远景人脸检测模型和近景人脸检测模型,实现根据场景进行人脸检测。
上述方案中,所述进行数据标定,划分为远景人脸数据集和近景人脸数据集,具体包括:使用矩形框对人脸进行标定,同时记录每个矩形框的左上角和右下角坐标为(x1,y1)、(x2,y2),计算出人脸框的宽高值分别为w、h,其中w=|x1-x2|,h=|y1-y2|,统计测试场景中的人脸的宽高范围,分别取宽高范围的中间值为W、H,将矩形框宽高值满足w<W且h<H的图片归为远景人脸数据集,其余的归为近景人脸数据集。
上述方案中,在搭建所述基于注意力机制的人脸检测神经网络前分别对远景人脸数据集和近景人脸数据集进行数据增广,所述数据增广包括随机镜像翻转以及对经过随机镜像翻转的图片进行随机遮挡。
上述方案中,所述随机镜像翻转,随机选择图片以水平中心线或者竖直中心线为轴,进行镜像翻转;所述随机遮挡具体是针对完成了随机镜像翻转的数据集,随机在图片中生成宽高是图片短边的0.3至0.7倍的黑色遮挡区域,如果目标人脸框的中心点不在遮挡区域中,则保留该人脸的标注信息,否则删除该人脸标注信息。
上述方案中,所述基于Resnet和特征金字塔网络,搭建基于注意力机制的人脸检测神经网络,具体包括:在Resnet的基础上构建特征金字塔网络,将特征金字塔网络的P3-P7层输出通道数设定为256;
将特征金字塔网络的P3-P7层输出矩阵分别输入到注意力机制模块,得到与输入相同大小的特征权重矩阵,将特征权重与对应输出矩阵点乘,得到注意力机制模块的输出;
将所述注意力机制模块的输出分别输入到分类模块和回归模块,其中分类模块得到人脸的置信度,回归模块得到人脸框的左上角坐标(X1,Y1)和右下角坐标(X2,Y2);
将所述注意力机制模块的输出分别输入到分类模块和回归模块,其中分类模块得到人脸的置信度,回归模块得到人脸框的左上角坐标(X1,Y1)和右下角坐标(X2,Y2);
构造损失函数 作为网络的总损失函数,其中k表示特征金字塔的输出层;/>表示在第k层中对象的检测框的个数;Ak表示在第k层中对象检测框的集合;/>表示该检测框的真实值,否则/>为0;ai是类别权重参数;p是网络预测的人脸置信度值,pi是基于p的函数;β1、β2是用于平衡损失函数L各项之间权重的参数;/>是指示函数;/>表示真实值是人脸的检测框的个数;/>其中ti是预测的人脸框的坐标值矩阵[X1,Y1,X2,Y2],/>是人脸框的真实坐标值矩阵,R(x)是Smooth L1函数;/>是注意力机制模块的损失函数,mk是注意力机制模块中最后一个卷积层的输出,/>是一个二维向量,大小和mk相同,标记了输入图片中实际有人脸的区域。
上述方案中,所述注意力机制模块包括五个卷积层和一个Sigmod层,卷积层卷积核的大小为(M,N),前四层卷积层卷积核的个数为256,最后一层卷积层的卷积核个数为1。
上述方案中,所述分类模块包括五层卷积层,卷积层卷积核的大小为(M,N),前四层卷积层卷积核的个数为256,最后一层卷积层的卷积核个数为6。
上述方案中,所述回归模块包括五层卷积层,卷积层卷积核的大小为(M,N),前四层卷积层卷积核的个数为256,最后一层卷积层的卷积核个数为24。
上述方案中,所述损失函数中,
其中M′,N′分别是二维向量mk的宽、高大小。
上述方案中,所述根据不同的测试场景设置不同的阈值,采用远景人脸检测模型和近景人脸检测模型,实现根据场景进行人脸检测,具体包括:
对于待检测的图片,将图片分别输入近景人脸模型和远景人脸模型,分别得到近景人脸模型的预测结果和远景人脸模型的预测结果,包括人脸框的左上角坐标、右下角坐标和置信度值,分别记为集合R近和R远,根据场景设定阈值t,其中t∈(0,1),沿纵向在图片t值位置划分界线,将图片分为两部分,分别为上边框到分界线Area上和分界线到下边框Area下,使得Area下中的人脸宽度都大于W、人脸高度都大于H,其中W、H为测试场景中的人脸宽高范围的中间值;根据集合R近和R远和Area上和Area下,构造最终的检测结果R总,若存在预测人脸r,r∈R近且r完全在Area下中,则r∈R总;若存在预测人脸r,r∈R远且r完全在Area上中,则r∈R总;若存在预测人脸r1∈R近,r2∈R远,且r1、r2同时在Area上、Area下中,r1、r2的交并比大于0.5,则根据r1、r2的人脸框面积来决定:设w1、h1为r1人脸框的宽高值,w2、h2为r2人脸框的宽高值,则r1人脸框面基s1=w1*h1,r2人脸框面基s2=w2*h2。若s1>W*H且s2>W*H,则r1∈R总,否则r2∈R总。
本发明提供的基于视频图像场景理解的人脸自动检测方法,首先收集实际生活中的人脸图片,进行标定处理和数据增广后,分为远景人脸和近景人脸两个数据集。然后将两个数据集分别投入构建的神经网络中训练,利用注意力机制提取不同场景中人脸的特征,得到远景人脸检测模型和近景人脸检测模型。最后,根据实际场景,综合使用两个模型来完成人脸检测。
与现有技术相比,本发明具有如下有益效果:
本发明依据远景人脸和近景人脸的特征不同的特点,在神经网络中引入注意力机制,对不同场景下的人脸进行针对性的学习,再综合使用两个模型来共同完成人脸检测。与其他深度学习方法相比,该方法使用特征金字塔网络,适应了不同大小对象的检测场景,同时将每个模型的作用专一化,提高模型的检测效果。本检测方法属于单阶段的检测方法,保证了较快的检测速度。
附图说明
图1为实施方式中基于视频图像场景理解的人脸自动检测方法的流程图。
具体实施方式
以下结合附图对本发明的实施方式作进一步说明,但本发明的实施不限于此。
本发明思路是,通过将人脸检测分为远景人脸检测和近景人脸检测两个独立的任务,利用注意力机制分别针对远景和近景两种不同场景的人脸特征进行针对性学习,训练两个人脸检测模型,综合两个模型进行检测。本发明既提高了人脸检测准确率,又保持了较快的检测速度,可以有效用于实际应用中。
如图1,基于视频图像场景理解的人脸自动检测方法的主要流程包括以下步骤:
第一步,数据收集及预处理阶段,收集现实生活中的人脸图片,对图片中的人脸进行标定,并根据人脸的像素宽高进行划分,划分为远景人脸数据集和近景人脸数据集。
使用矩形框对图片中的人脸进行标定,要求矩形框要恰好包含人脸,同时记录每个矩形框的左上角和右下角坐标为(x1,y1)、(x2,y2),计算出人脸框(即矩形框)的宽高值分别为w、h,其中w=|x1-x2|,h=|y1-y2|。统计测试场景中的人脸的宽高范围,分别取宽高范围的中间值为W、H,将人脸框宽高值满足w<W且h<H的图片归为远景人脸数据集,其余的归为近景人脸数据集。每个数据集的人脸数不少于10万。
第二步,分别对远景人脸数据集和近景人脸数据集进行数据增广操作,获得最终用于训练人脸检测神经网络的两个数据集。
数据增广操作包括随机镜像翻转和随机遮挡。其中随机镜像翻转具体是针对第一步中收集的数据集,以水平中心线或者竖直中心线为轴,随机对图片进行镜像翻转,加入原数据集中。随机遮挡具体是针对完成了随机镜像翻转的数据集,随机在图片中生成宽高是图片短边的0.3至0.7倍的黑色遮挡区域。如果目标人脸框的中心点不在遮挡区域中,则保留该人脸的标注信息,否则删除该人脸标注信息。
第三步,网络构建阶段,基于Resnet和特征金字塔网络,搭建基于注意力机制的人脸检测神经网络。
在Resnet的基础上构建特征金字塔网络,将特征金字塔网络的P3-P7层输出通道数设定为256。将特征金字塔网络的P3-P7层输出矩阵分别输入到注意力机制模块,得到与输入相同大小的特征权重矩阵,将特征权重与对应输出矩阵点乘,得到注意力机制模块的输出。
注意力机制模块包括五个卷积层和一个Sigmod层。卷积层卷积核的大小为(3,3),前四层卷积层卷积核的个数为256,最后一层卷积层的卷积核个数为1。将注意力机制模块的输出分别输入到分类模块和回归模块,其中分类模块得到人脸的置信度,回归模块得到人脸框的左上角坐标(X1,Y1)和右下角坐标(X2,Y2)。
分类模块和回归模块都分别由五个卷积层组成,卷积层卷积核的大小都为(3,3),前四层卷积层卷积核的个数都是256。分类模块最后一层卷积层卷积核个数为6,回归模块最后一层卷积核个数为24。
构造损失函数 作为网络的总损失函数。其中,k表示特征金字塔的输出层,k∈[3,7];/>表示在第k层中对象的检测框的个数;Ak表示在第k层中对象检测框的集合;/>表示该检测框的真实值,如果第i检测框是人脸则/>为1,否则/>为0;αi是类别权重参数,随/>变化,如果/>则αi=0.25,否则αi=0.75;pi是基于p的函数,其中p是网络预测的人脸置信度值,如果/>pi=,否则pi=1-p;β1、β2是用于平衡损失函数L各项之间权重的参数,推荐设置/>是指示函数,当/>为1,否则为0;/>表示真实值是人脸的检测框的个数;/>其中ti是预测的人脸框的坐标值矩阵[X1,Y1,X2,Y2],是人脸框的真实坐标值矩阵,R(x)是Smooth L1函数,x是Smooth L1函数的输入。当|x|<1时,R(x)=0.5*x2,否则R(x)=|x|-0.5;/>是注意力机制模块的损失函数,本实施例中具体是sigmoid交叉熵损失,其中mk是注意力机制模块中最后一个卷积层的输出,/>是一个二维向量,大小和mk相同,标记了输入图片中实际有人脸的区域,有人脸的区域为1,其余为0。γ是一个预设的固定整形参数,在本方法中γ=2。
损失函数公式中,的计算公式如下:
其中M′,N′分别是二维向量mk的宽、高大小,mk,ij和/>分别是二维向量mk和/>第i行第j列的数值;(sigmoid(mk,ij))表示对/>输入到sigmoid函数得到输出。
第四步,网络训练阶段。
使用第二步中最终得到的远景人脸数据集和近景人脸数据集,分别输入人脸检测神经网络中进行训练,分别获得远景人脸检测模型和近景人脸检测模型。
本实施例中使用Adam算法对网络参数进行优化。
第五步,结合两个检测模型进行人脸检测。
对于待检测的图片,将图片分别输入近景人脸模型和远景人脸模型,得到近景人脸模型的预测结果和远景人脸模型的预测结果,包括人脸框的左上角坐标、右下角坐标和置信度值,分别记为集合R近和集合R远;
根据场景设定阈值t,其中t∈(0,1),沿纵向在图片t值位置划分界线,将图片分为两部分,分别为上边框到分界线Area上和分界线到下边框Area下,使得Area下中的人脸宽度都大于W、人脸高度都大于H,其中W、H为第二步中获得的宽高范围的中间值W、H;
根据集合R近和R远和Area上和Area下,构造最终的检测结果R总,R总中每个人脸信息包括人脸框的左上角坐标、右下角坐标和置信度值。若存在预测人脸r,r∈R近且r完全在Area下中,则r∈R总;若存在预测人脸r,r∈R远且r完全在Area上中,则r∈R总;若存在预测人脸r1∈R近,r2∈R远,且r1、r2同时在Area上、Area下中,r1、r2的交并比大于0.5,则根据r1、r2的人脸框面积来决定:设w1、h1为r1人脸框的宽高值,w2、h2为r2人脸框的宽高值,则r1人脸框面基s1=w1*h1,r2人脸框面基s2=w2*h2。若s1>W*H且s2>W*H,则r1∈R总,否则r2∈R总。
本实施例通过在深度卷积神经网络中嵌入注意力机制,可以有效适应远近景条件下人脸的光照、角度、表情等变化,明通过结合远景和近景特征不同的特性,分别训练两个模型进行检测,可以有效提高人脸检测的效果,适合于实际应用。
Claims (8)
1.基于视频图像场景理解的人脸自动检测方法,其特征在于,包括以下步骤:
收集人脸图片数据,进行数据标定,划分为远景人脸数据集和近景人脸数据集;
基于Resnet和特征金字塔网络,搭建基于注意力机制的人脸检测神经网络;
使用远景人脸数据集和近景人脸数据集分别在所述人脸检测神经网络中训练模型,得到远景人脸检测模型和近景人脸检测模型;
根据不同的测试场景设置不同的阈值,采用远景人脸检测模型和近景人脸检测模型,实现根据场景进行人脸检测;
所述基于Resnet和特征金字塔网络,搭建基于注意力机制的人脸检测神经网络,具体包括:
在Resnet的基础上构建特征金字塔网络,将特征金字塔网络的P3-P7层输出通道数设定为256;
将特征金字塔网络的P3-P7层的输出矩阵分别输入到注意力机制模块,得到与输入相同大小的特征权重矩阵,将特征权重矩阵与对应输出矩阵点乘,得到注意力机制模块的输出;
将所述注意力机制模块的输出分别输入到分类模块和回归模块,其中分类模块得到人脸的置信度,回归模块得到人脸框的左上角坐标(X1,Y1)和右下角坐标(X2,Y2);
构造损失函数作为网络的总损失函数,上式中,k表示特征金字塔的输出层,/>表示在第k层中对象的检测框的个数;Ak表示在第k层中对象检测框的集合;/>表示该检测框的真实值,αi是类别权重参数,p是网络预测的人脸置信度值,β1、β2是用于平衡损失函数L各项之间权重的参数,是指示函数;/>表示真实值是人脸的检测框的个数;/>其中ti是预测的人脸框的坐标值矩阵,/>是人脸框的真实坐标值矩阵,R(x)是Smooth L1函数,是注意力机制模块的损失函数,mk是注意力机制模块中最后一个卷积层的输出,是一个二维向量,大小和mk相同,标记了输入图片中实际有人脸的区域;
所述根据不同的测试场景设置不同的阈值,采用远景人脸检测模型和近景人脸检测模型,实现根据场景进行人脸检测,具体包括:
对于待检测的图片,将图片分别输入近景人脸模型和远景人脸模型,分别得到近景人脸模型的预测结果和远景人脸模型的预测结果,包括人脸框的左上角坐标、右下角坐标和置信度值,分别记为集合R近和集合R远;
根据场景设定阈值t,其中t∈(0,1),沿纵向在图片t值位置划分界线,将图片分为两部分,分别为上边框到分界线Area上和分界线到下边框Area下,使得Area下中的人脸宽度都大于W、人脸高度都大于H,其中W、H为测试场景中的人脸宽高范围的中间值;
根据所述集合R近、集合R远、Area上和Area下,构造最终的检测结果R总,若存在预测人脸r,r∈R近且r完全在Area下中,则r∈R总;若存在预测人脸r,r∈R远且r完全在Area上中,则r∈R总;若存在预测人脸r1∈R近,r2∈R远,且r1、r2同时在Area上、Area下中,r1、r2的交并比大于0.5,则根据r1、r2的人脸框面积来决定:设w1、h1为r1人脸框的宽高值,w2、h2为r2人脸框的宽高值,则r1人脸框面基s1=w1*h1,r2人脸框面基s2=w2*h2,若s1>W*H且s2>W*H,则r1∈R总,否则r2∈R总。
2.根据权利要求1所述的基于视频图像场景理解的人脸自动检测方法,其特征在于,所述进行数据标定,划分为远景人脸数据集和近景人脸数据集,具体包括:
使用矩形框对人脸进行标定,同时记录每个矩形框的左上角和右下角坐标为(x1,y1)、(x2,y2);
计算出矩形框的宽高值分别为w、h,其中w=|x1-x2|,h=|y1-y2|;
统计测试场景中的人脸的宽高范围,分别取宽高范围的中间值为W、H,将矩形框宽高值满足w<W且h<H的图片归为远景人脸数据集,其余的归为近景人脸数据集。
3.根据权利要求1所述的基于视频图像场景理解的人脸自动检测方法,其特征在于,在搭建所述基于注意力机制的人脸检测神经网络前分别对远景人脸数据集和近景人脸数据集进行数据增广,所述数据增广包括随机镜像翻转以及对经过随机镜像翻转的图片进行随机遮挡。
4.根据权利要求3所述的基于视频图像场景理解的人脸自动检测方法,其特征在于,
所述随机镜像翻转,随机选择图片以水平中心线或者竖直中心线为轴,进行镜像翻转;
所述随机遮挡,随机在图片中生成宽高是图片短边的0.3至0.7倍的黑色遮挡区域,如果目标人脸框的中心点不在遮挡区域中,则保留该人脸的标注信息,否则删除该人脸标注信息。
5.根据权利要求4所述的基于视频图像场景理解的人脸自动检测方法,其特征在于:所述注意力机制模块包括五个卷积层和一个Sigmod层,卷积层卷积核的大小为(M,N),前四层卷积层卷积核的个数为256,最后一层卷积层的卷积核个数为1。
6.根据权利要求5所述的基于视频图像场景理解的人脸自动检测方法,其特征在于:所述分类模块包括五层卷积层,卷积层卷积核的大小为(M,N),前四层卷积层卷积核的个数为256,最后一层卷积层的卷积核个数为6。
7.根据权利要求5所述的基于视频图像场景理解的人脸自动检测方法,其特征在于:所述回归模块包括五层卷积层,卷积层卷积核的大小为(M,N),前四层卷积层卷积核的个数为256,最后一层卷积层的卷积核个数为24。
8.根据权利要求5所述的基于视频图像场景理解的人脸自动检测方法,其特征在于:所述损失函数中,,其中M′、N′分别是二维向量mk的宽、高大小。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010481014.5A CN111738099B (zh) | 2020-05-30 | 2020-05-30 | 基于视频图像场景理解的人脸自动检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010481014.5A CN111738099B (zh) | 2020-05-30 | 2020-05-30 | 基于视频图像场景理解的人脸自动检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111738099A CN111738099A (zh) | 2020-10-02 |
CN111738099B true CN111738099B (zh) | 2023-11-07 |
Family
ID=72646818
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010481014.5A Active CN111738099B (zh) | 2020-05-30 | 2020-05-30 | 基于视频图像场景理解的人脸自动检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111738099B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022110059A1 (zh) * | 2020-11-27 | 2022-06-02 | 深圳市大疆创新科技有限公司 | 视频处理、景别识别方法、终端设备和拍摄系统 |
CN112613385A (zh) * | 2020-12-18 | 2021-04-06 | 成都三零凯天通信实业有限公司 | 一种基于监控视频的人脸识别方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101645137A (zh) * | 2009-07-17 | 2010-02-10 | 中国科学院声学研究所 | 足球视频远景镜头中对足球位置的自动检测方法 |
CN108875521A (zh) * | 2017-12-20 | 2018-11-23 | 北京旷视科技有限公司 | 人脸检测方法、装置、系统和存储介质 |
CN109543606A (zh) * | 2018-11-22 | 2019-03-29 | 中山大学 | 一种加入注意力机制的人脸识别方法 |
CN109614929A (zh) * | 2018-12-11 | 2019-04-12 | 济南浪潮高新科技投资发展有限公司 | 基于多粒度代价敏感卷积神经网络的人脸检测方法及系统 |
CN110059581A (zh) * | 2019-03-28 | 2019-07-26 | 常熟理工学院 | 基于场景深度信息的人群计数方法 |
CN110717481A (zh) * | 2019-12-12 | 2020-01-21 | 浙江鹏信信息科技股份有限公司 | 一种利用级联卷积神经网络实现人脸检测的方法 |
CN111027382A (zh) * | 2019-11-06 | 2020-04-17 | 华中师范大学 | 一种基于注意力机制的轻量级人脸检测的方法及模型 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030161506A1 (en) * | 2002-02-25 | 2003-08-28 | Eastman Kodak Company | Face detection computer program product for redeye correction |
-
2020
- 2020-05-30 CN CN202010481014.5A patent/CN111738099B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101645137A (zh) * | 2009-07-17 | 2010-02-10 | 中国科学院声学研究所 | 足球视频远景镜头中对足球位置的自动检测方法 |
CN108875521A (zh) * | 2017-12-20 | 2018-11-23 | 北京旷视科技有限公司 | 人脸检测方法、装置、系统和存储介质 |
CN109543606A (zh) * | 2018-11-22 | 2019-03-29 | 中山大学 | 一种加入注意力机制的人脸识别方法 |
CN109614929A (zh) * | 2018-12-11 | 2019-04-12 | 济南浪潮高新科技投资发展有限公司 | 基于多粒度代价敏感卷积神经网络的人脸检测方法及系统 |
CN110059581A (zh) * | 2019-03-28 | 2019-07-26 | 常熟理工学院 | 基于场景深度信息的人群计数方法 |
CN111027382A (zh) * | 2019-11-06 | 2020-04-17 | 华中师范大学 | 一种基于注意力机制的轻量级人脸检测的方法及模型 |
CN110717481A (zh) * | 2019-12-12 | 2020-01-21 | 浙江鹏信信息科技股份有限公司 | 一种利用级联卷积神经网络实现人脸检测的方法 |
Non-Patent Citations (3)
Title |
---|
Liu Weiyang等.phereFace:Deep hypersphere embedding for face recognition.《Conference on Computer Vision and Pattern Recognition》.2017,全文. * |
罗海波 ; 何淼 ; 惠斌 ; 常铮 ; .基于双模全卷积网络的行人检测算法(特邀).红外与激光工程.2018,(02),全文. * |
颜丰 ; 方晓彤 ; .复杂环境下的头部检测方法研究.福建电脑.2006,(01),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111738099A (zh) | 2020-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109584248B (zh) | 基于特征融合和稠密连接网络的红外面目标实例分割方法 | |
CN113065558B (zh) | 一种结合注意力机制的轻量级小目标检测方法 | |
CN109934121B (zh) | 一种基于YOLOv3算法的果园行人检测方法 | |
CN110032925B (zh) | 一种基于改进胶囊网络与算法的手势图像分割与识别方法 | |
CN113160062B (zh) | 一种红外图像目标检测方法、装置、设备及存储介质 | |
CN106897673B (zh) | 一种基于retinex算法和卷积神经网络的行人再识别方法 | |
CN111126412B (zh) | 基于特征金字塔网络的图像关键点检测方法 | |
CN110175504A (zh) | 一种基于多任务级联卷积网络的目标检测和对齐方法 | |
CN112288008A (zh) | 一种基于深度学习的马赛克多光谱图像伪装目标检测方法 | |
CN112733614B (zh) | 一种带有相似尺寸强化识别的害虫图像检测方法 | |
CN113627504B (zh) | 基于生成对抗网络的多模态多尺度特征融合目标检测方法 | |
CN113592911B (zh) | 表观增强深度目标跟踪方法 | |
CN110956082B (zh) | 基于深度学习的人脸关键点检测方法和检测系统 | |
CN111310609B (zh) | 基于时序信息和局部特征相似性的视频目标检测方法 | |
CN111738099B (zh) | 基于视频图像场景理解的人脸自动检测方法 | |
CN109815814A (zh) | 一种基于卷积神经网络的人脸检测方法 | |
CN107341440A (zh) | 基于多任务度量多核学习的室内rgb‑d场景图像识别方法 | |
CN113420643A (zh) | 基于深度可分离空洞卷积的轻量级水下目标检测方法 | |
CN112084952B (zh) | 一种基于自监督训练的视频点位跟踪方法 | |
CN114882222A (zh) | 改进YOLOv5目标检测模型构建方法及用于茶嫩芽识别与采摘点定位方法 | |
CN113971764A (zh) | 一种基于改进YOLOv3的遥感图像小目标检测方法 | |
CN117456330A (zh) | 一种基于MSFAF-Net的低照度目标检测方法 | |
CN113887649B (zh) | 一种基于深层特征和浅层特征融合的目标检测方法 | |
CN111401209B (zh) | 一种基于深度学习的动作识别方法 | |
CN116682178A (zh) | 密集场景下的多人姿态检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |