CN112329702A - 一种快速人脸密度预测和人脸检测方法、装置、电子设备及存储介质 - Google Patents

一种快速人脸密度预测和人脸检测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112329702A
CN112329702A CN202011306982.9A CN202011306982A CN112329702A CN 112329702 A CN112329702 A CN 112329702A CN 202011306982 A CN202011306982 A CN 202011306982A CN 112329702 A CN112329702 A CN 112329702A
Authority
CN
China
Prior art keywords
face
feature
features
image
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011306982.9A
Other languages
English (en)
Other versions
CN112329702B (zh
Inventor
张敏文
周治尹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Dianze Intelligent Technology Co ltd
Original Assignee
Shanghai Dianze Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Dianze Intelligent Technology Co ltd filed Critical Shanghai Dianze Intelligent Technology Co ltd
Priority to CN202011306982.9A priority Critical patent/CN112329702B/zh
Publication of CN112329702A publication Critical patent/CN112329702A/zh
Application granted granted Critical
Publication of CN112329702B publication Critical patent/CN112329702B/zh
Priority to PCT/CN2021/128477 priority patent/WO2022105608A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供一种快速人脸密度预测和人脸检测方法、装置、电子设备及存储介质,该方法包括以下步骤:获取待检测图像;采用特征金字塔残差块提取待检测图像中的多尺度特征;采用互嵌入上采样模块进行特征融合;采用人脸检测模块预测人脸置信度和人脸的宽度、高度。在上述的实现过程中,本申请采用预测高斯分布的方法来预测图像中的人脸密度和检测图像中的人脸,避免使用候选框而带来的不稳定因素;采用一种特征金字塔残差块使用小的卷积核并且不增加网络的深度来增大神经元的感受野;实现不增加网络的深度和参数提高神经元的感受野,使得网络能够提取出更多的人脸信息。

Description

一种快速人脸密度预测和人脸检测方法、装置、电子设备及存 储介质
技术领域
本发明涉及图像信息处理技术,尤其涉及一种快速人脸密度预测和人脸检测方法、装置、电子设备及存储介质。
背景技术
人脸检测在安防监控、人证比对、人机交互、社交等领域都有重要的应用价值。数码相机、智能手机等端上的设备已经大量使用人脸检测技术实现成像时对人脸的对焦、图集整理分类等功能,各种虚拟美颜相机也需要人脸检测技术定位人脸。
目前常见的人脸检测方法(FaceBoxes、MTCNN)需先设置人脸候选框,通过神经网络学习人脸候选框上偏移量来得到人脸在图像中的位置,而候选框的设置会直接影响人脸检测的精度;FaceBoxes模型具有很高的精度,但所包含的参数量较大;MTCNN(Multi-taskCascaded Convolutional Networks)模型参数量较少,但其特征表达能力一般,同时包含三个需要分开训练的神经网络,不容易训练;同时U型特征提取网络,特征融合时只是将高层特征扩展,未充分运用高层特征的纹理信息和低层特征的细节信息。
发明内容
为解决上述技术问题,本发明提出一种人脸检测方法,包括以下步骤:
步骤S1:获取待检测图像;
步骤S2:采用特征金字塔残差块提取待检测图像中的多尺度特征;
步骤S3:采用互嵌入上采样模块进行特征融合;
步骤S4:采用人脸检测模块预测人脸置信度和人脸的宽度、高度。
优选地,所述步骤S2包括:
步骤S2.1:使用3×3的卷积核与所述待检测图像进行卷积,将卷积后的图像送入到所述特征金字塔残差块中提取特征;
步骤S2.2:使用多个所述特征金字塔残差块组合成一个特征提取网络,提取所述步骤S2.1输出的特征图的特征;
步骤S2.3:使用多个所述特征金字塔残差块组合成一个特征提取网络,提取所述步骤S2.2输出的特征图的特征。
优选地,本申请提供的特征金字塔残差块包括:
采用1×1的卷积操作扩展特征图的通道数;将特征图在通道方向平均分成4组,第1组使用空洞大小为1的3×3卷积核卷积所述第1组的特征,第2组使用空洞大小为2的3×3卷积核卷积所述第2组的特征,第3组使用空洞大小为4的3×3卷积核卷积所述第3组的特征,第4组使用空洞大小为8的3×3卷积核卷积所述第4组的特征;将经卷积核卷积后的4组特征按顺序组合起来组成第一特征图,使用1×1的卷积将所述第一特征图进行特征融合形成第二特征图;将所述特征图和所述第二特征图相加起来。
其中,第1组、第2组、第3组、第4组的空洞卷积的感受野分别是3、5、9、17。
本申请通过特征金字塔残差块进行特征融合实现了不增加参数的情况下增大神经元的感受野。4组空洞卷积都是深度卷积,在特征图的通道方向,将原特征图分成单通道的特征图,再使用单通道的卷积核与单通道的特征图卷积,这样又可以减少网络模型的参数。特征金字塔残差块的4组卷积横向分布,不增加网络的深度和参数又提高了神经元的感受野,使得网络能够提取出更多的人脸信息。
优选地,所述步骤S3包括:
步骤S3.1:采用所述互嵌入上采样模块将所述步骤S2.2提取的特征与所述步骤S2.3提取的特征进行特征融合;
步骤S3.2:使用所述互嵌入上采样模块将所述步骤S3.1融合后的特征与所述步骤S2.1提取的特征进行特征融合。
具体地,本申请采用互嵌入上采样模块在高阶段特征图上,采用通道注意力模型得到每个通道的第一注意力系数,将第一注意力系数和低阶段的特征相乘,得到经过所述通道注意力模型融合的第一融合特征;
在低阶段特征图上,采用空间注意力模型得到特征图中每一个点的第二注意力系数,将第二注意力系数和经过上采样的所述高阶段特征图相乘,得到经过所述空间注意力模型融合的第二融合特征;将所述第一融合特征与所述第二融合特征相加,得到最终融合特征。
优选地,所述步骤S4包括:
步骤S4.1:使用一个3×3的卷积核卷积所述步骤S3.2融合后的特征;
步骤S4.2:使用两个1×1的卷积核分别预测人脸置信度和人脸的宽度。
具体地,待检测图像可以看成一个二维坐标系,图像的左上角看成坐标系的原点,那么图像中的人脸可以看作是一个二维的高斯分布。人脸的中心位置是高斯分布的中心点,其坐标值对应二维高斯分布的均值,人脸的宽度和高度对应二维高斯分布的方差。
优选地,本申请另一实施例披露了标签和损失函数进行网络训练过程,具体为:
中心点为
Figure 677380DEST_PATH_IMAGE002
的人脸表示为:
Figure 328941DEST_PATH_IMAGE004
Figure 702154DEST_PATH_IMAGE006
为二维高斯分布
Figure 566204DEST_PATH_IMAGE008
的均值,
Figure 974052DEST_PATH_IMAGE010
为二维高斯分布的方差,分别对应人脸的宽度和高度。因此,一副包含
Figure 265356DEST_PATH_IMAGE012
个人脸的图像对应的人脸分布可以表示为:
Figure 125865DEST_PATH_IMAGE014
而该图像的标签可以表示为:
Figure 793606DEST_PATH_IMAGE016
Figure 55960DEST_PATH_IMAGE018
Figure 518166DEST_PATH_IMAGE020
Figure 865970DEST_PATH_IMAGE022
Figure 71824DEST_PATH_IMAGE024
为预测人脸中心点的标签,
Figure 188684DEST_PATH_IMAGE026
为预测人脸宽度和高度的标签;
损失函数可以表示为:
Figure 87370DEST_PATH_IMAGE028
Figure 922471DEST_PATH_IMAGE030
分别为网络的输出,即人脸置信度(归一化的高斯分布幅值)和人脸的宽度、高度(高斯分布的方差),
Figure 666436DEST_PATH_IMAGE032
为损失比例系数。
本申请实施例还提供了一种快速人脸密度预测和人脸检测装置,包括:
图像获取模块,用于获取待检测图像;
特征提取模块,用于采用特征金字塔残差块提取所述待检测图像中的多尺度特征;
特征融合模块,用于采用互嵌入上采样模块进行特征融合;
检测结果模块,用于采用人脸检测模块预测人脸置信度和人脸的宽度、高度。
本申请实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的机器可读指令,其特征在于,所述处理器执行所述机器可读指令时,执行如上面描述的方法。
本申请实施例还提供了一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器运行时执行如上面描述的方法。
通过上述技术方案,本发明的有益效果是:
本申请采用预测高斯分布的方法来预测图像中的人脸密度和检测图像中的人脸,避免使用候选框而带来的不稳定因素;采用一种特征金字塔残差块使用小的卷积核并且不增加网络的深度来在增大神经元的感受野;实现不增加网络的深度和参数提高神经元的感受野,使得网络能够提取出更多的人脸信息;采用互嵌入上采样模块进行特征融合,实现了高低层特征融合时,充分运用了高层特征的纹理信息和低层特征的细节信息。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的快速人脸密度预测和人脸检测方法的流程示意图;
图2为本申请实施例提供的人脸密度预测和人脸检测模型的结构框图;
图3本申请实施例提供的特征金字塔残差块的结构框图
图4为本申请实施例提供的快速人脸密度预测和人脸检测装置的结构示意图;
图5为本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
请参见图1本申请实施例提供的快速人脸密度预测和人脸检测方法的流程示意图;一种快速人脸密度预测和人脸检测方法包括以下步骤:
步骤S1:获取待检测图像;
待检测图像,是指需要检测是否包括人脸的图像,具体例如:对人脸拍摄的彩色图像、黑白图像或者二值图像等。
上述步骤S1中的待检测图像的获得方式包括:使用摄像机、录像机或彩色照相机等终端设备对目标对象进行拍摄,获得待检测图像;获取预先存储的待检测图像,具体例如:从实时的视频流中或者从文件系统中的视频文件截取,获得待检测图像,或者从数据库中获取待检测图像,或者从移动存储设备中获取待检测图像;使用浏览器等软件获取互联网上的待检测图像,或者使用其它应用程序访问互联网获得待检测图像。
步骤S2:采用特征金字塔残差块提取待检测图像中的多尺度特征;
在本申请实施例中,请参见图2本申请实施例提供的人脸密度预测和人脸检测模型的结构框图,采用特征金字塔残差块提取待检测图像中的多尺度特征还包括以下步骤:
步骤S2.1:第一阶段,使用3×3的卷积核与待检测图像进行卷积,将卷积后的图像送入到特征金字塔残差块中提取特征;
步骤S2.2:第二阶段,使用多个特征金字塔残差块组合成一个特征提取网络,提取步骤S2.1输出的特征图的特征;
步骤S2.3:第三阶段,使用多个特征金字塔残差块组合成一个特征提取网络,提取步骤S2.2输出的特征图的特征。
具体地,特征金字塔残差块参见图4本申请实施例提供的特征金字塔残差块的结构框图;
采用1×1的卷积操作扩展特征图的通道数;将特征图在通道方向平均分成4组,第1组使用空洞大小为1的3×3卷积核卷积所述第1组的特征,第2组使用空洞大小为2的3×3卷积核卷积所述第2组的特征,第3组使用空洞大小为4的3×3卷积核卷积所述第3组的特征,第4组使用空洞大小为8的3×3卷积核卷积所述第4组的特征;将经卷积核卷积后的4组特征按顺序组合起来组成第一特征图,使用1×1的卷积将所述第一特征图进行特征融合形成第二特征图;特征图和所述第二特征图相加起来。
其中,第1组、第2组、第3组、第4组的空洞卷积的感受野分别是3、5、9、17。
特征提取网络中,神经元要获得较大的感受野,要么使用较大的卷积核,要么加深网络的深度。这两种方法都会增加特征提取网络的参数量。本申请采用一种新的特征金字塔残差块,使用小的卷积核并且不增加网络的深度来在增大神经元的感受野。同时,横向扩展神经网络,使得网络能够提取出更多的人脸信息。
步骤S3:采用互嵌入上采样模块进行特征融合;
具体地,本申请实施例采用互嵌入上采样模块在高阶段特征图上,采用通道注意力模型得到每个通道的第一注意力系数,将第一注意力系数和低阶段的特征相乘,得到经过所述通道注意力模型融合的第一融合特征;
在低阶段特征图上,采用空间注意力模型得到特征图中每一个点的第二注意力系数,将第二注意力系数和经过上采样的所述高阶段特征图相乘,得到经过所述空间注意力模型融合的第二融合特征;
将所述第一融合特征与所述第二融合特征相加,得到最终融合特征。
通道注意力模型及空间注意力模型为本领域常见技术,主要聚焦于局部信息的机制,比如图像中的某一个图像区域。随着任务的变化,注意力区域往往会发生变化,本申请在此不赘述。
本申请采用互嵌入上采样模块进行特征融合,实现了高低层特征融合时,充分运用了高层特征的纹理信息和低层特征的细节信息。
步骤S4:采用人脸检测模型网络预测人脸置信度和人脸的宽度、高度。具体地,还包括以下步骤:
步骤S4.1:使用一个3×3的卷积核卷积所述步骤S3.2融合后的特征;
步骤S4.2:使用两个1×1的卷积核分别预测人脸置信度和人脸的宽度、高度。
使用边界框对人脸图像中的人脸区域进行标注,以及对所述人脸区域对应的分类和关键点进行标注获得的,关键点表征人脸区域中的关键特征点;可选地,可以在本方法的末端再接一个输出,用预测人脸中心点位置的方法来检测人脸的关键点。
待检测图像可以看成一个二维坐标系,图像的左上角看成坐标系的原点,那么图像中的人脸可以看作是一个二维的高斯分布。人脸的中心位置是高斯分布的中心点,其坐标值对应二维高斯分布的均值,人脸的宽度和高度对应二维高斯分布的方差。
本申请的另一实施例还提供了标签和损失函数进行网络训练过程,具体为:
中心点为
Figure DEST_PATH_IMAGE034
的人脸表示为:
Figure DEST_PATH_IMAGE036
Figure DEST_PATH_IMAGE038
为二维高斯分布
Figure DEST_PATH_IMAGE040
的均值,
Figure DEST_PATH_IMAGE042
为二维高斯分布的方差,分别对应人脸的宽度和高度。因此,一副包含
Figure DEST_PATH_IMAGE044
个人脸的图像对应的人脸分布可以表示为:
Figure DEST_PATH_IMAGE046
而该图像的标签可以表示为:
Figure DEST_PATH_IMAGE048
Figure DEST_PATH_IMAGE050
Figure DEST_PATH_IMAGE052
Figure DEST_PATH_IMAGE054
Figure DEST_PATH_IMAGE056
为预测人脸中心点的标签,
Figure DEST_PATH_IMAGE058
为预测人脸宽度和高度的标签;
损失函数可以表示为:
Figure DEST_PATH_IMAGE060
Figure DEST_PATH_IMAGE062
分别为网络的输出,即人脸置信度(归一化的高斯分布幅值)和人脸的宽度、高度(高斯分布的方差),
Figure DEST_PATH_IMAGE064
为损失比例系数。
因此,本方法采用预测高斯分布的方法来预测图像中的人脸密度和检测图像中的人脸,避免使用候选框而带来的不稳定因素。
请参见图4示出的本申请实施例提供的快速人脸密度预测和人脸检测装置的结构示意图;本申请实施例提供了一种人脸密度预测和人脸检测装置300,包括:
图像获取模块310,用于获取待检测图像;
特征提取模块320,用于采用特征金字塔残差块提取所述待检测图像中的多尺度特征;
特征融合模块330,用于采用互嵌入上采样模块进行特征融合;
检测结果模块340,用于采用人脸检测模块预测人脸置信度和人脸的宽度、高度,获得人脸检测结果。
应理解的是,该装置与上述的快速人脸密度预测和人脸检测方法实施例对应,能够执行上述方法实施例涉及的各个步骤,该装置具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operating system,OS)中的软件功能模块。
请参见图5示出的本申请实施例提供的电子设备的结构示意图。本申请实施例提供的一种电子设备400,包括:处理器410和存储器420,存储器420存储有处理器410可执行的机器可读指令,机器可读指令被处理器410执行时执行如上的方法。
本申请实施例还提供了一种存储介质430,该存储介质430上存储有计算机程序,该计算机程序被处理器410运行时执行如上的方法。
其中,存储介质430可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM),可编程只读存储器(Programmable Red-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
在本发明的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (12)

1.一种快速人脸密度预测和人脸检测方法,其特征在于,包括以下步骤:
步骤S1:获取待检测图像;
步骤S2:采用特征金字塔残差块提取待检测图像中的多尺度特征;
步骤S3:采用互嵌入上采样模块进行特征融合;
步骤S4:采用人脸检测模块预测人脸置信度和人脸的宽度、高度。
2.根据权利要求1所述的一种快速人脸密度预测和人脸检测方法,其特征在于,所述步骤S2包括:
步骤S2.1:使用3×3的卷积核与所述待检测图像进行卷积,将卷积后的图像送入到所述特征金字塔残差块中提取特征;
步骤S2.2:使用多个所述特征金字塔残差块组合成一个特征提取网络,提取所述步骤S2.1输出的特征图的特征;
步骤S2.3:使用多个所述特征金字塔残差块组合成一个特征提取网络,提取所述步骤S2.2输出的特征图的特征。
3.根据权利要求2所述的一种快速人脸密度预测和人脸检测方法,其特征在于,所述步骤S3包括:
步骤S3.1:采用所述互嵌入上采样模块将所述步骤S2.2提取的特征与所述步骤S2.3提取的特征进行特征融合;
步骤S3.2:使用所述互嵌入上采样模块将所述步骤S3.1融合后的特征与所述步骤S2.1提取的特征进行特征融合。
4.根据权利要求3所述的一种快速人脸密度预测和人脸检测方法,其特征在于,所述步骤S4包括:
步骤S4.1:使用一个3×3的卷积核卷积所述步骤S3.2融合后的特征;
步骤S4.2:使用两个1×1的卷积核分别预测人脸置信度和人脸的宽度、高度。
5.根据权利要求1所述的一种快速人脸密度预测和人脸检测方法,其特征在于,所述特征金字塔残差块包括:
采用1×1的卷积操作扩展特征图的通道数;
将所述特征图在通道方向平均分成4组,第1组使用空洞大小为1的3×3卷积核卷积所述第1组的特征,第2组使用空洞大小为2的3×3卷积核卷积所述第2组的特征,第3组使用空洞大小为4的3×3卷积核卷积所述第3组的特征,第4组使用空洞大小为8的3×3卷积核卷积所述第4组的特征;
将经卷积核卷积后的4组特征按顺序组合起来组成第一特征图,使用1×1的卷积将所述第一特征图进行特征融合形成第二特征图;
将所述特征图和所述第二特征图相加起来。
6.根据权利要求5所述的一种快速人脸密度预测和人脸检测方法,其特征在于,还包括:
所述第2组在空洞卷积前,将所述第2组特征与所述第1组卷积输出的特征相加;
所述第3组在空洞卷积前,将所述第3组特征与所述第2组卷积输出的特征相加;
所述第4组在空洞卷积前,将所述第4组特征与所述第3组卷积输出的特征相加。
7.根据权利要求6所述的一种快速人脸密度预测和人脸检测方法,其特征在于,还包括:
所述第1组、第2组、第3组、第4组的空洞卷积的感受野分别是3、5、9、17。
8.根据权利要求1所述的一种快速人脸密度预测和人脸检测方法,其特征在于,所述互嵌入上采样模块包括:
高阶段特征图上,采用通道注意力模型得到每个通道的第一注意力系数,将所述第一注意力系数和低阶段的特征相乘,得到经过所述通道注意力模型融合的第一融合特征;
低阶段特征图上,采用空间注意力模型得到特征图中每一个点的第二注意力系数,将所述第二注意力系数和经过上采样的所述高阶段特征图相乘,得到经过所述空间注意力模型融合的第二融合特征;
将所述第一融合特征与所述第二融合特征相加,得到最终融合特征。
9.根据权利要求1-8任一所述的一种快速人脸密度预测和人脸检测方法,其特征在于,还包括使用以下标签和损失函数进行网络训练:
中心点为
Figure 676635DEST_PATH_IMAGE001
的人脸表示为:
Figure 173476DEST_PATH_IMAGE002
Figure 823900DEST_PATH_IMAGE003
为二维高斯分布
Figure 482414DEST_PATH_IMAGE004
的均值,
Figure 851079DEST_PATH_IMAGE005
为二维高斯分布的方差,分别对应人脸的宽度和高度;因此,一副包含
Figure 886031DEST_PATH_IMAGE006
个人脸的图像对应的人脸分布可以表示为:
Figure 656541DEST_PATH_IMAGE007
而该图像的标签可以表示为:
Figure 485956DEST_PATH_IMAGE008
Figure 76338DEST_PATH_IMAGE009
Figure 914981DEST_PATH_IMAGE010
Figure 274418DEST_PATH_IMAGE011
Figure 540314DEST_PATH_IMAGE012
为预测人脸中心点的标签,
Figure 617992DEST_PATH_IMAGE013
为预测人脸宽度和高度的标签;
损失函数可以表示为:
Figure 260325DEST_PATH_IMAGE014
Figure 739848DEST_PATH_IMAGE015
分别为网络的输出,即人脸置信度和人脸的宽度、高度,
Figure 176646DEST_PATH_IMAGE016
为损失比例系数。
10.一种快速人脸密度预测和人脸检测装置,其特征在于,包括:
图像获取模块,用于获取待检测图像;
特征提取模块,用于采用特征金字塔残差块提取所述待检测图像中的多尺度特征;
特征融合模块,用于采用互嵌入上采样模块进行特征融合;
检测结果模块,用于采用脸检测模块预测人脸置信度和人脸的宽度、高度。
11.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的机器可读指令,其特征在于,所述处理器执行所述机器可读指令时,实现根据权利要求1-9中任一项所述的快速人脸密度预测和人脸检测方法。
12.一种存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现根据权利要求1-9中任一项所述的快速人脸密度预测和人脸检测方法。
CN202011306982.9A 2020-11-19 2020-11-19 一种快速人脸密度预测和人脸检测方法、装置、电子设备及存储介质 Active CN112329702B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011306982.9A CN112329702B (zh) 2020-11-19 2020-11-19 一种快速人脸密度预测和人脸检测方法、装置、电子设备及存储介质
PCT/CN2021/128477 WO2022105608A1 (zh) 2020-11-19 2021-11-03 一种快速人脸密度预测和人脸检测方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011306982.9A CN112329702B (zh) 2020-11-19 2020-11-19 一种快速人脸密度预测和人脸检测方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112329702A true CN112329702A (zh) 2021-02-05
CN112329702B CN112329702B (zh) 2021-05-07

Family

ID=74321660

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011306982.9A Active CN112329702B (zh) 2020-11-19 2020-11-19 一种快速人脸密度预测和人脸检测方法、装置、电子设备及存储介质

Country Status (2)

Country Link
CN (1) CN112329702B (zh)
WO (1) WO2022105608A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113642545A (zh) * 2021-10-15 2021-11-12 北京万里红科技有限公司 一种基于多任务学习的人脸图像处理方法
CN113658226A (zh) * 2021-08-26 2021-11-16 中国人民大学 一种限高装置高度检测方法和系统
CN113743197A (zh) * 2021-07-23 2021-12-03 北京眼神智能科技有限公司 快速人脸检测方法、装置、电子设备及存储介质
WO2022105608A1 (zh) * 2020-11-19 2022-05-27 上海点泽智能科技有限公司 一种快速人脸密度预测和人脸检测方法、装置、电子设备及存储介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116343308B (zh) * 2023-04-04 2024-02-09 湖南交通工程学院 一种融合人脸图像检测方法、装置、设备及存储介质
CN116935477B (zh) * 2023-09-13 2023-12-26 中南民族大学 一种基于联合注意力的多分支级联的人脸检测方法及装置
CN118097363A (zh) * 2024-04-28 2024-05-28 南昌大学 一种基于近红外成像的人脸图像生成与识别方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180137406A1 (en) * 2016-11-15 2018-05-17 Google Inc. Efficient Convolutional Neural Networks and Techniques to Reduce Associated Computational Costs
CN108364023A (zh) * 2018-02-11 2018-08-03 北京达佳互联信息技术有限公司 基于注意力模型的图像识别方法和系统
CN109117876A (zh) * 2018-07-26 2019-01-01 成都快眼科技有限公司 一种稠密小目标检测模型构建方法、模型及检测方法
CN110136136A (zh) * 2019-05-27 2019-08-16 北京达佳互联信息技术有限公司 场景分割方法、装置、计算机设备及存储介质
CN111723748A (zh) * 2020-06-22 2020-09-29 电子科技大学 一种红外遥感图像舰船检测方法
US20200327337A1 (en) * 2019-04-15 2020-10-15 Hyundai Motor Company Apparatus and method for detecting object of a vehicle

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111178183B (zh) * 2019-12-16 2023-05-23 深圳市华尊科技股份有限公司 人脸检测方法及相关装置
CN111373439B (zh) * 2020-02-10 2023-05-02 香港应用科技研究院有限公司 使用cnn进行图像分割的方法
CN112329702B (zh) * 2020-11-19 2021-05-07 上海点泽智能科技有限公司 一种快速人脸密度预测和人脸检测方法、装置、电子设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180137406A1 (en) * 2016-11-15 2018-05-17 Google Inc. Efficient Convolutional Neural Networks and Techniques to Reduce Associated Computational Costs
CN108364023A (zh) * 2018-02-11 2018-08-03 北京达佳互联信息技术有限公司 基于注意力模型的图像识别方法和系统
CN109117876A (zh) * 2018-07-26 2019-01-01 成都快眼科技有限公司 一种稠密小目标检测模型构建方法、模型及检测方法
US20200327337A1 (en) * 2019-04-15 2020-10-15 Hyundai Motor Company Apparatus and method for detecting object of a vehicle
CN110136136A (zh) * 2019-05-27 2019-08-16 北京达佳互联信息技术有限公司 场景分割方法、装置、计算机设备及存储介质
CN111723748A (zh) * 2020-06-22 2020-09-29 电子科技大学 一种红外遥感图像舰船检测方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022105608A1 (zh) * 2020-11-19 2022-05-27 上海点泽智能科技有限公司 一种快速人脸密度预测和人脸检测方法、装置、电子设备及存储介质
CN113743197A (zh) * 2021-07-23 2021-12-03 北京眼神智能科技有限公司 快速人脸检测方法、装置、电子设备及存储介质
CN113658226A (zh) * 2021-08-26 2021-11-16 中国人民大学 一种限高装置高度检测方法和系统
CN113658226B (zh) * 2021-08-26 2023-09-05 中国人民大学 一种限高装置高度检测方法和系统
CN113642545A (zh) * 2021-10-15 2021-11-12 北京万里红科技有限公司 一种基于多任务学习的人脸图像处理方法
CN113642545B (zh) * 2021-10-15 2022-01-28 北京万里红科技有限公司 一种基于多任务学习的人脸图像处理方法

Also Published As

Publication number Publication date
WO2022105608A1 (zh) 2022-05-27
CN112329702B (zh) 2021-05-07

Similar Documents

Publication Publication Date Title
CN112329702B (zh) 一种快速人脸密度预测和人脸检测方法、装置、电子设备及存储介质
Alhashim et al. High quality monocular depth estimation via transfer learning
Jaritz et al. Sparse and dense data with cnns: Depth completion and semantic segmentation
Neumann et al. Nightowls: A pedestrians at night dataset
CN109376667B (zh) 目标检测方法、装置及电子设备
CN112132156A (zh) 多深度特征融合的图像显著性目标检测方法及系统
CN109816694B (zh) 目标跟踪方法、装置及电子设备
CN110942456B (zh) 篡改图像检测方法、装置、设备及存储介质
CN112802076A (zh) 反射图像生成模型及反射去除模型的训练方法
Jin et al. Vehicle license plate recognition for fog‐haze environments
AU2009347563A1 (en) Detection of objects represented in images
CN116977895A (zh) 用于通用相机镜头的污渍检测方法、装置及计算机设备
CN113657245B (zh) 一种用于人脸活体检测的方法、设备、介质及程序产品
CN116453086A (zh) 识别交通标志的方法、装置和电子设备
CN110659724A (zh) 一种基于目标尺度范围的目标检测卷积神经网络构建方法
CN113807354B (zh) 图像语义分割方法、装置、设备和存储介质
Wang et al. Single image rain removal with reusing original input squeeze‐and‐excitation network
CN114387489A (zh) 电力设备识别方法、装置和终端设备
CN114511702A (zh) 一种基于多尺度分权注意力的遥感图像分割方法和系统
CN112487994A (zh) 一种烟火检测方法及系统、存储介质及终端
CN115346143A (zh) 行为检测方法、电子设备、计算机可读介质
CN116310959B (zh) 一种复杂场景下低质量摄像机画面识别方法及系统
CN112995666B (zh) 一种结合场景切换检测的视频横竖屏转换方法及装置
CN116503721B (zh) 身份证篡改检测方法、装置、设备及存储介质
CN117440104B (zh) 一种基于目标显著性特征的数据压缩重建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant