CN113158862A - 一种基于多任务的轻量级实时人脸检测方法 - Google Patents

一种基于多任务的轻量级实时人脸检测方法 Download PDF

Info

Publication number
CN113158862A
CN113158862A CN202110394121.9A CN202110394121A CN113158862A CN 113158862 A CN113158862 A CN 113158862A CN 202110394121 A CN202110394121 A CN 202110394121A CN 113158862 A CN113158862 A CN 113158862A
Authority
CN
China
Prior art keywords
anchor frame
prediction
neural network
value
convolutional neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110394121.9A
Other languages
English (en)
Other versions
CN113158862B (zh
Inventor
徐勇
郭越超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN202110394121.9A priority Critical patent/CN113158862B/zh
Publication of CN113158862A publication Critical patent/CN113158862A/zh
Application granted granted Critical
Publication of CN113158862B publication Critical patent/CN113158862B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多任务的轻量级实时人脸检测方法,首先将带有标签信息的人脸图像送入轻量级卷积神经网络模型进行训练,然后将待检测图片输入训练好的轻量级卷积神经网络模型中进行检测,得到预测数据。所述轻量级卷积神经网络模型使用DFace‑MobileNetV1作为主干网络对将待检测图片进行特征提取,然后送入GLFPN中对特征图中的全局信息与局部信息进行融合,并传入DSSH进行上下文特征的抽取,最后由MultiHead输出预测数据。为增强对离群点人脸的检测能力,本发明提出了基于离群样本补偿的交并比匹配算法;为促进特征图在人脸区域产生更大的响应,本发明利用弱监督分割预测来辅助学习。本发明在保证实时运行速度的情况下,进一步降低了人脸检测精度的损失。

Description

一种基于多任务的轻量级实时人脸检测方法
技术领域
本发明属于人脸识别领域,具体涉及一种基于多任务的轻量级实时人脸检测方法。
背景技术
传统的人脸检测方法采用手工设计的特征,这些特征稳定性较差,鲁棒性不高,对于各 种遮挡、各种表情以及各种姿态等复杂情况,人脸检测效果极不理想。近年来,深度学习的 异军突起将人工智能的发展推向了一个新的高度,研究表明,用卷积神经网络所提取出来的 含有高级抽象的语义特征是传统手工设计特征所不具备的,而这些特征特别适合于多变场景 下的视觉任务,人脸检测任务也不例外。
由于使用复杂神经网络结构提取特征所消耗的时间和空间资源巨大,不利于实际应用 部署,因此轻量级网络的研究得到了业界的青睐。轻量级网络在损失一定精度的情况下,大 大提高了神经网络运行的速度,使得深度学习能够在有限资源条件下投入应用。因此,如何 在保证实时运行速度的情况下,进一步降低人脸检测精度的损失,成为研究的一个热点。
发明内容
本发明针对上述问题,提供了一种基于多任务的轻量级实时人脸检测方法,为增强对离 群点人脸的检测能力,本发明提出了基于离群样本补偿的交并比匹配算法;为促进特征图在 人脸区域产生更大的响应,本发明利用弱监督分割预测来辅助学习。本发明在保证实时运行 速度的情况下,进一步降低了人脸检测精度的损失。
本发明的技术方案如下:
一种基于多任务的轻量级实时人脸检测方法,包括以下步骤:
S1、将含有人脸边框和人脸关键点标注的图片进行预处理,得到带有标签信息的训练图 像,将所述训练图像送入轻量级卷积神经网络模型进行训练,直到在一定的时间内验证集精 度在所述轻量级卷积神经网络模型中不再增加,得到训练好的轻量级卷积神经网络模型;
S2、将待检测图片输入S1训练好的轻量级卷积神经网络模型中进行检测,得到预测数 据;
S3、将S2得到的预测数据通过阈值过滤掉低质量的预测数据,将过滤后的预测数据通 过非极大值抑制得到最终的检测结果。
进一步的,S1中“将所述训练图像送入轻量级卷积神经网络模型进行训练”前,先使用ImageNet对所述轻量级卷积神经网络模型进行预训练,得到预训练权值文件,将所述预训练 权值文件加载到所述轻量级卷积神经网络模型中。
进一步的,所述轻量级卷积神经网络模型包括轻量级卷积神经网络DFace-MobileNetV1、 轻量级特征金字塔网络GLFPN、上下文增强模块DSSH以及多任务检测头部预测模块 MutiHead,其中,所述轻量级卷积神经网络DFace-MobileNetV1用于对待检测图片的特征信 息进行提取,得到多种尺度特征图,所述轻量级特征金字塔网络GLFPN用于对所述多种尺 度特征图中的多种尺度特征进行融合,同时对所述多种尺度特征图中的全局信息与局部信息 进行融合,所述上下文增强模块DSSH用于增大待检测图片中的目标感受野区域,所述多任 务检测头部预测模块MutiHead用于输出所述轻量级卷积神经网络模型的人脸检测预测数 据。
进一步的,所述轻量级卷积神经网络DFace-MobileNetV1基于MobileNetV1并进行改进, 包括:
将MobileNetV1中的全连接层去除,全连接层是DFace-MobileNetV1中不需要的;
将MobileNetV1中的批量归一化调整为组归一化,用于避开批量数据对所述轻量级卷积 神经网络模型的影响;
增加对待检测图片的输入尺度,将输入尺度改为640*640,用于增加分辨率。
进一步的,所述轻量级特征金字塔网络GLFPN基于原有的特征金字塔网络FPN并进行 改进,包括:
将原有的特征金字塔网络FPN中的卷积运算换成深度可分离卷积运算,用于减少GLFPN参数量并提高计算速度;
在原有的特征金字塔网络FPN的最顶层添加了全局平均池化模块,并将所述全局平均 池化模块得到的特征图采用相加方式融合到原有的特征金字塔网络FPN特征图中,用于增 强DFace-MobileNetV1提取的特征图中的全局信息与局部信息的交互。
所述上下文增强模块DSSH包括三路分支,其中一路分支含有一个3*3的卷积核组,一 路分支含有两个3*3的卷积核组,一路分支含有三个3*3的卷积核组,同时,所述上下文增 强模块DSSH采用可形变卷积DConv提取上下文特征信息。
进一步的,S1中“将所述训练图像送入轻量级卷积神经网络模型进行训练”,具体包括:
S11、对训练图像上的标签进行编码,利用基于离群样本补偿的交并比匹配算法对编码 后的标签与锚框进行匹配;
S12、将所述轻量级卷积神经网络模型输出的人脸检测预测数据与编码后的标签真实值 进行多任务损失计算得到损失值;
S13、将S12得到的损失值通过反向传播进行权重文件更新;
S14、当所述训练图像全部数据集完成一次前向传播,进行一次验证集精度计算,当验 证集精度趋于稳定且不再上升时,终止迭代,得到训练好的轻量级卷积神经网络模型。
进一步的,所述基于离群样本补偿的交并比匹配算法,具体步骤如下:
S111、计算编码后的标签真实值与所有锚框的交并比,得到交并比的二维矩阵;
S112、将S111得到的二维矩阵中与真实值具有最大交并比的锚框匹配为对应真实值的 正样本锚框,将交并比值大于阈值θ的锚框匹配为对应真实值的正样本锚框;
S113、找到S112中未匹配的锚框,根据未匹配锚框坐标偏量预测值,解码得到未匹配 锚框的预测结果,将所述预测结果与所有标签的真实值再求一次交并比,得到第二个二维矩 阵,将第二个二维矩阵中交并比阈值大于α的锚框设置为可忽略锚框;
S114、统计每个编码后的标签真实值在S112中的正样本锚框匹配数量,得到正样本锚 框匹配数量少于N的真实值;
S115、根据第二个二维矩阵,对S114中得到正样本锚框匹配数量少于N的真实值再次 匹配K个正样本锚框,所述K的值等于N减掉S112中已匹配正样本锚框的数量;
S116、将剩下的锚框设置为负样本锚框。
进一步的,S12中所述轻量级卷积神经网络模型输出的人脸检测预测数据包括锚框类别 预测、锚框坐标偏量预测、锚框交并比预测、锚框关键点偏量预测以及弱监督分割预测,S12 具体方法为:
S121、采用基于交叉熵的焦点损失函数计算所述锚框类别预测中的负样本锚框与标签编 码后的真实值类别之间的损失值,所述锚框类别预测中的负样本锚框通过采用困难样本挖掘 方法抽取;
S122、当锚框被分配为正样本锚框时,采用基于距离的交并比损失函数(CIOU)计算 所述锚框坐标偏量预测与标签编码后的真实值坐标偏量之间的损失值;
S123、采用平滑一阶正则损失函数计算所述锚框关键点偏量预测与标签编码后的真实值 关键点偏量之间的损失值;
S124、当锚框被分配为正样本锚框时,采用交叉熵损失函数计算所述锚框交并比预测与 标签编码后的真实值交并比的损失值,其中,所述交并比为回归之后的锚框与真实值的交并 比;
S125、采用交叉熵损失函数计算所述弱监督分割预测的损失值,并对全局特征图进行回 归。
进一步的,S3中所述非极大值抑制的具体过程为:
S31、将所述锚框类别预测数据与所述锚框交并比预测数据相乘得到积分,根据所述积 分对所有的预测数据进行排序;
S32、根据所述积分的排序,从高到低按顺序进行遍历,从第一个开始,如果后面的预 测数据与当前预测数据的交并比大于阈值λ,则后面的预测数据将被抑制掉;
S33、返回没被抑制掉的预测数据,得到最终的检测结果。
本发明提供的一种基于多任务的轻量级实时人脸检测方法,其有益效果是:
1、轻量级特征金字塔网络GLFPN基于原有的特征金字塔网络FPN并进行改进,通过全局特征融合局部特征,让全局引导局部,达到相互促进的效果。
2、上下文增强模块DSSH通过融合多种感受野特征以及上下文局部信息特征,让神经 网络充分利用目标周围局部区域信息来学习,加强目标区域与周边区域的信息交互。
3、多任务检测头部预测模块MultiHead是为多任务学习专门设置的网络输出通过多个 协同相关任务一起进行监督学习,从而提高模型的鲁棒性能。
4、基于离群样本补偿的交并比匹配算法利用锚框来增加离群样本锚框的数量,增加对 离群尺度人脸的召回率,进而提升离群尺度人脸的检测准确率。
5、利用弱监督分割预测来辅助学习,能够更好地促进网络模型学到更加鲁棒的特征, 该分支能促进特征图在人脸区域产生更大的响应,从而帮助检测任务的学习,此分支在预测 阶段将被冻结不会增加额外的推理时间。
附图说明
图1为本发明方法的轻量级卷积神经网络模型结构示意图;
图2为本发明方法的整体流程图;
图3为本发明方法对轻量级卷积神经网络模型训练的流程图;
图4为本发明方法对待检测图片的检测流程图;
图5为本发明方法中交并比的示意图。
具体实施方式
为进一步对本发明的技术方案作详细说明,本实施例在以本发明技术方案为前提下进行 实施,给出了详细的实施方式和具体的步骤。
如图2所示,本发明基于多任务的轻量级实时人脸检测方法,包括以下步骤:
S1、将含有人脸边框和人脸关键点标注的图片进行预处理,得到带有标签信息的训练图 像,将所述训练图像送入轻量级卷积神经网络模型进行训练,直到在一定的时间内验证集精 度在所述轻量级卷积神经网络模型中不再增加,得到训练好的轻量级卷积神经网络模型;
具体地,预处理过程主要包括随机裁剪、随机水平翻转、运动模糊、颜色亮度对比度抖 动、归一化、固定尺度缩放等操作,对于每张图片,采用以上的一个或多个预处理操作对图 片进行数据增强。其中随机裁剪主要为了适应多尺度的目标,具体步骤为:设置裁剪比率为 0.3,0.45,0.6,0.8,1.0,随机取一个比率r,从图片的宽度w和高度h中选择较小的数值s,s=min(w, h),随机裁剪的边长为s*r,值得注意的是,随机裁剪之后目标在原始图片中的相对位置发 生了改变,因此也要相应的对标签进行转换。运动模糊主要为了适应捕捉现实场景中运动人 脸目标而专门设置的数据增强操作,在训练中以0.4的概率,之后以不同的运动方向,不同 程度的模糊进行数据增强。固定尺度缩放主要是固定图片的输入尺度,以保证每次能够送入 多张图片进行同时训练。同时需要根据预处理过程中图片的变换对标签信息做出相应的调 整,训练方式为多尺度训练,其有益效果是通过数据增强提高训练模型的鲁棒性,并提高模 型对多尺度目标的泛化能力。
进一步的,S1中“将所述训练图像送入轻量级卷积神经网络模型进行训练”前,先使用 ImageNet对所述轻量级卷积神经网络模型进行预训练,得到预训练权值文件,将所述预训练 权值文件加载到所述轻量级卷积神经网络模型中。
具体地,加载在ImageNet上预训练的权重文件,一方面可以加快神经网络的收敛,另 一方面,充分利用ImageNet图像数据集来提升特征提取网络的鲁棒性,缓解训练数据不足 的问题,因为对于不同的视觉任务,神经网络在特征提取阶段所提取的特征类型相差不大。
进一步的,如图1所示,所述轻量级卷积神经网络模型包括轻量级卷积神经网络DFace-MobileNetV1、轻量级特征金字塔网络GLFPN、上下文增强模块DSSH以及多任务检 测头部预测模块MutiHead,其中,所述轻量级卷积神经网络DFace-MobileNetV1用于对待 检测图片的特征信息进行提取,得到多种尺度特征图,所述轻量级特征金字塔网络GLFPN 用于对所述多种尺度特征图中的多种尺度特征进行融合,同时对所述多种尺度特征图中的全局信息与局部信息进行融合,所述上下文增强模块DSSH用于增大待检测图片中的目标感受野区域,所述多任务检测头部预测模块MutiHead用于输出所述轻量级卷积神经网络模型的人脸检测预测数据,所述预测数据包括锚框类别预测、锚框坐标偏量预测、锚框交并比预测、 锚框关键点偏量预测以及弱监督分割预测。
具体地,所述轻量级卷积神经网络模型的特征提取部分采用轻量级神经网络DFace-MobileNetV1,所述轻量级卷积神经网络DFace-MobileNetV1基于MobileNetV1并进行改进,包括:将MobileNetV1中的全连接层去除,用于去除冗余的DFace-MobileNetV1结构和DFace-MobileNetV1参数,全连接层是DFace-MobileNetV1中不需要的,将MobileNetV1中的批量归一化调整为组归一化,将BN层替换为GN层,用于避开批量数据对所述轻量级 卷积神经网络模型的影响;增加待检测图像的输入尺度,将输入尺度改为640*640,用于增 加分辨率以防止所述人脸图像信息过度损失,同时增强对小人脸目标的检测能力,同时,在DFace-MobileNetV1网络中将一个常规的3*3卷积分解为一个深度卷积和一个逐点卷积,大大减少了参数量并提高了计算速度。
进一步的,所述轻量级特征金字塔网络GLFPN基于原有的特征金字塔网络FPN并进行 改进,包括:将原有的特征金字塔网络FPN中的卷积运算换成深度可分离卷积运算,用于减少GLFPN参数量并提高计算速度;在原有的特征金字塔网络FPN的最顶层添加了全局平均池化模块,并将所述全局平均池化模块得到的特征图采用相加方式融合到原有的特征金字 塔网络FPN特征图中,用于增强DFace-MobileNetV1提取的特征图中的全局信息与局部信 息的交互。
具体地,所述轻量级特征金字塔网络GLFPN共有三层,特征图的尺寸分别为原图尺寸 的1/8,1/16,1/32,分别对应三个检测分支,采用GLFPN的有益效果是通过全局特征融合局部特征,让全局引导局部,达到相互促进的效果。
进一步的,所述上下文增强模块DSSH包括三路分支,其中一路分支含有一个3*3的卷 积核组,一路分支含有两个3*3的卷积核组,一路分支含有三个3*3的卷积核组,同时,采用可形变卷积DConv提取上下文特征信息。
具体地,所述上下文模块DSSH主要为增大目标的感受野,其结构类似于Inception结 构,含有三路分支,其中一路分支含有一个3*3的卷积核组,另外两个分别含有两个和三个 3*3的卷积核组,同时将所有的卷积层更换为可形变卷积DConv,增强了卷积核提取上下文 特征信息的能力。其有益效果是通过融合多种感受野特征以及上下文局部信息特征,让神经 网络充分利用目标周围局部区域信息来学习,加强目标区域与周边区域的信息交互。一个特 征图分别经过三个分支,得到三种感受野,分别是3*3,5*5,7*7的感受野,最后对三种感 受野进行融合,融合方式采用特征图叠加操作。所述上下文模块DSSH相当于空间注意力机 制,充分考虑到特征图周边区域的特征对该区域的影响。
具体地,所述多任务检测头部预测模块MultiHead是为多任务学习专门设置的网络输出。 其有益效果是通过多个协同相关任务一起进行监督学习,从而提高模型的鲁棒性能。对于人 脸检测任务,一般只需要两个分支即可,一个分支用来进行边界框的锚框坐标偏量预测,另 一个分支用来对预测结果置信度进行评估的锚框类别预测。本实施例使用了五个分支,另外 三个分支分别用来预测人脸的五个关键点、人脸的区域分割以及预测框与真实框之间的交并 比。人脸的锚框关键点偏量预测可用于对检测之后的人脸进行矫正,为人脸表情识别、人脸 识别提提供可靠的输入,弱监督分割预测主要用来协助人脸检测任务,通过额外任务的监督 提升网络的鲁棒性、泛化性;锚框交并比预测主要用来消除回归预测与分类预测之间的不一 致问题,通常情况下,锚框与真实值交并比大于一定的阈值,就将该锚框设置为正样本锚框, 但是却无法描述出匹配程度,即阈值越大匹配程度就越高,为此设计了锚框交并比预测来刻 画锚框与真实值之间的匹配程度,从而为非极大值抑制提供了更为可靠的筛选依据。
具体地,获取训练图像在轻量级卷积神经网络模型中前向传播之后的预测结果,该过程 就是网络的前向传播计算阶段,根据网络结构的特点,训练图像首先经过特征提取网络 DFace-MobileNetV1提取特征,如图3所示,DFace-MobileNetV1的输出作为第二阶段轻量 级特征金字塔网络GLFPN的输入,GLFPN自上而下,高层特征通过上采样与低层特征连接 起来,再次得到三个尺度输出,这三个尺度分别相对于输入训练图像降采样8倍,16倍以及 32倍,大尺度特征图负责小人脸的检测,小尺度特征图负责大人脸的检测。GLFPN将高层的语义信息与低层的精细粒度信息结合起来,实现高精度人脸检测。GLFPN之后将特征图分别送入DSSH上下文模块,提取上下文信息,然后再送入MultiHead模块,得到最终的输出。
进一步的,S1中“将所述训练图像送入轻量级卷积神经网络模型进行训练”,具体包括:
S11、对训练图像上的标签进行编码,利用基于离群样本补偿的交并比匹配算法对编码 后的标签与锚框进行匹配;
具体地,训练图片中每个目标的标签如下:x,y,w,h,p1_x,p1_y,p2_x,p2_y, p3_x,p3_y,p4_x,p4_y,p5_x,p5_y,其中x,y为目标的左上角坐标,w,h为目标的 宽和高,p1_x,p1_y,p2_x,p2_y,p3_x,p3_y,p4_x,p4_y,p5_x,p5_y为人脸五个关键 点的坐标,这五个关键点分别是左眼,右眼,鼻尖,嘴角左,嘴角右。在前向传播之前,根 据坐标在特征图上的位置和特征图的大小将标签坐标值归一化到0-1之间,然后对标签进行 编码。锚框的设置类似于滑动窗口,通常情况下,锚框需要根据目标的特点进行设置,在特 征图上每个位置都预先设置不同长宽比,不同大小的锚框,这里考虑到人脸形状的特殊性, 只设置一种长宽比的锚框,但人脸有多种尺度,为此,锚框人为设置了边长为16,32,64, 128,256,512六种边长尺度的锚框,在降采样8倍的特征图上,设置边长为16,32两种尺 度的锚框,降采样16倍的特征图上设置边长为64,128两种尺度的锚框,在降采样为32倍 的特征图上,设置边长为256,512两种尺度的锚框。
进一步的,利用基于离群样本补偿的交并比匹配算法,具体步骤如下:
S111、计算编码后的标签真实值与所有锚框的交并比,得到交并比的二维矩阵;
S112、将S111得到的二维矩阵中与真实值具有最大交并比的锚框匹配为对应真实值的 正样本锚框,将交并比值大于阈值θ的锚框匹配为对应真实值的正样本锚框,具体地,阈值 θ设置为0.35;
S113、找到S112中未匹配的锚框,根据未匹配锚框坐标偏量预测值,解码得到未匹配 锚框的预测结果,将所述预测结果与所有标签的真实值再求一次交并比,得到第二个二维矩 阵,将第二个二维矩阵中交并比阈值大于α的锚框设置为可忽略锚框,所述可忽略指不参与 损失的计算,具体地,阈值α设置为0.7;
S114、统计每个编码后的标签真实值在S112中的正样本锚框匹配数量,得到正样本锚 框匹配数量少于N的真实值,具体地,所述N设置为3;
S115、根据第二个二维矩阵,对S114中得到正样本锚框匹配数量少于N的真实值再次 匹配K个正样本锚框,所述K的值等于N减掉S112中已匹配正样本锚框的数量;
具体地,K个正样本锚框必须满足的条件:锚框的预测结果与真实值的交并比必须大于阈 值α;锚框的预测结果与真实值交并比值必须在交并比值排序的前k个。
S116、将剩下的锚框设置为负样本锚框。
考虑到传统交并比匹配方法中,某些负样本锚框同样具有很强的回归能力,利用这些锚 框来增加离群样本锚框的数量,其有益效果是增加对离群尺度人脸的召回率,进而提升离群 尺度人脸的检测准确率。
匹配过程完成之后,每个编码后的标签真实值都分配了一定数量的锚框,对于锚框坐标 偏量预测,首先将真实值的边界框转换为(x_c,y_c,w,h)的表示,其中x_c,y_c分别表示真 实值的中心坐标,考虑到目标的大小存在尺度差异,如果不根据目标的大小来求损失,大目 标的损失将主导整体损失,不利于小目标的学习,为此将为边界框的中心点回归以及宽高的 回归损失乘上一个缩放因子,中心点回归中缩放因子为一个固定值乘以负责回归该真实值的 锚框的尺寸,宽高的回归由于涉及到了宽高比,为此仅乘上了一个数值,设匹配的锚框中心 为a_x,a_y,宽高为a_w,a_h,具体编码公式如下:
Figure BDA0003017886890000081
Figure BDA0003017886890000082
对于锚框关键点偏量预测,求的是关键点关于锚框中心点的偏移量,具体的方法和边框 中心点的回归方式相同。值得注意的是,数据集中,小人脸比较多,并非每个人脸都有关键 点的标注,对于没有关键点的人脸,不进行编码以及之后损失的计算。
对于锚框类别预测,上述锚框的匹配过程已经提到,主要设置为正样本锚框,负样本锚 框以及可忽略锚框三种。
对于锚框交并比预测,根据锚框匹配过程步骤S123中得到。
进一步的,弱监督分割预测基于弱监督人脸区域分割方法,对于人脸区域掩码标签生成 如下:
(1)求标签编码后的真实值与所有锚框的交并比,并找到交并比最大时所对应的锚框, 根据该锚框的尺寸,找到对应的特征金字塔层i;
(2)将人脸目标在原图的位置区域映射到特征金字塔层i的位置区域,根据目标在特 征图的映射,特征图上每个点进行编码,如果特征图上的点落在人脸区域,那么该像素点为 1,否则该像素点为0;
(3)为了消除损失回传的混淆歧义,将特征金字塔层i+1和i-1对应的目标区域设置为 可忽略区域,即该区域不参与损失的计算和回传。
由于没有真实的掩码标签,故该方法为弱监督人脸区域分割方法,由于人脸分割标注信 息难以获得,故采用边界框来粗略定义分割区域。通过降采样操作,此粗略的分割标注已非 常接近真实分割标注。其有益效果是,通过增加这一弱监督分割预测分支,能够更好地促进 网络学到更加鲁棒的特征,该分支能促进特征图在人脸区域产生更大的响应,从而帮助检测 任务的学习,此分支在预测阶段将被冻结不会增加额外的推理时间。
S12、将所述轻量级卷积神经网络模型输出的人脸检测预测数据与编码后的标签真实值 进行多任务损失计算得到损失值;
具体地,根据标签编码后的真实值对多任务检测头部预测模块MutiHead输出的预测数 据进行损失计算,进一步的,所述轻量级卷积神经网络模型输出的人脸检测预测数据包括锚 框类别预测、锚框坐标偏量预测、锚框交并比预测、锚框关键点偏量预测以及弱监督分割预 测,S12具体方法为:
S121、采用基于交叉熵的焦点损失函数计算所述锚框类别预测中的负样本锚框与标签编 码后的真实值类别之间的损失值,所述锚框类别预测中的负样本锚框通过采用困难样本挖掘 方法抽取,具体地,所述标签编码后的真实值类别就是S11中利用基于离群样本补偿的交并 比匹配算法对编码后的标签与锚框进行匹配后得到的锚框类别,此步骤的有益效果是平衡正 负样本损失,同时让困难样本主导网络的梯度方向;
具体地,锚框类别预测与标签编码之后的真实值类别采用基于交叉熵的焦点损失函数, 损失函数的定义如下:
Fl(pt)=-at(1-pt)γlog(pt)
其中,at用来平衡正负样本数量,设置为0.25,γ用来加权困难样本,pt表示预测值, 计算锚框类别损失的时候采用了困难样本挖掘的模式,因为负样本锚框居多,如果都拿进来 计算,损失将由负样本类别主导,采用1:7的比例,根据锚框的损失排序提取数量为正样 本锚框7倍的负样本锚框,进行类别损失的计算。
S122、当锚框被分配为正样本锚框时,采用基于距离的交并比损失函数(CIOU)计算 所述锚框坐标偏量预测与标签编码后的真实值坐标偏量之间的损失值,有益效果是基于距离 的交并比的损失函数更能表征预测结果与目标的偏离程度,从而学习到目标更精确的回归表 示;
具体地,关于交并比IOU,如图5所示,
Figure BDA0003017886890000101
传统的IOU无法精确地衡量目标与锚框之间的重叠程度,CIOU将目标与锚框之间的距离、长宽比、重叠率以及尺度都考虑进去,公式如下:
Figure BDA0003017886890000102
其中,
Figure BDA0003017886890000103
Lciou=1-CIOU,ρ为标签编码后的真实值中心与锚框中心的距离,c为标签编码后的真实值预取与锚框区域形成最小闭包的区域的对 角线距离,b为预测的边界框,bgt为标签边界框,α为正则因子,wgt为真实值的宽,hgt为标签编码后的真实值的高,w、h分别为预测值的宽和高,Lciou为损失值。
将网络模型输出的预测值与标签编码之后的真实值进行CIOU损失的计算,得到关于边 界框回归的损失值,这项损失只有锚框被分配为正样本的时候才进行计算。
S123、采用平滑一阶正则损失函数计算所述锚框关键点偏量预测与标签编码后的真实 值关键点偏量之间的损失值;
具体地,锚框的关键点回归采用平滑一阶正则损失函数,损失函数如下,当且仅当目标 有关键点标注的时候才对相应的预测锚框做此损失计算,其中x表示标签编码后的真实值与 预测值之间的偏差值。
Figure BDA0003017886890000104
S124、当锚框被分配为正样本锚框时,采用交叉熵损失函数计算所述锚框交并比预测 与标签编码后的真实值交并比的损失值,其中,所述交并比为回归之后的锚框与真实值的交 并比,有益效果是解决了目标的边界框回归精度与目标的类别得分不一致的问题;
S125、采用交叉熵损失函数计算所述弱监督分割预测的损失值,并对全局特征图进行 回归。
具体地,交并比损失和掩弱监督分割预测损失函数均采用交叉熵损失函数,损失函数如 下:
Figure BDA0003017886890000111
总的损失为上S121-S125五项损失值之和,考虑到损失值得大小以及任务得重要性平衡 关系,这里将S122中边界框回归损失权重设置为2,其余全部设置为1。
S13、将S12得到的损失值通过反向传播进行权重文件更新;
具体地,这个过程主要涉及到反向传播算法进行梯度回传和权重文件更新,将S12计算 得到得损失值,根据梯度一步一步的往后传,然后后更新权重,经过多个批量数据的迭代来 更新权重,不断逼近全局最优。
S14、当所述训练图像全部数据集完成一次前向传播,进行一次验证集精度计算,当验 证集精度趋于稳定且不再上升时,终止迭代,得到训练好的轻量级卷积神经网络模型。
具体地,对于验证集精度计算,考虑到验证需要花费一定得时间,迭代完成一次(一次 前向传播以及一次反向传播)就计算一次验证集精度不太现实,为此,设定迭代完一轮才完 成一次验证集得精度计算,这里得迭代完一轮是指数据集全部进行一次前向传播。当验证集 精度趋于稳定且不再上升时,终止迭代,得到最终得模型。至此,训练过程完成。
S2、将待检测图片输入S1训练好的轻量级卷积神经网络模型中进行检测,得到预测数 据;
具体地,检测过程如图4所示:
S21、加载训练好的轻量级卷积神经网络模型和训练过程中得到的权重文件;
S22、输入待检测图片到网络模型中,这里可以采用原图直接输入,因为所设计轻量级 卷积神经网络为全卷积层,没有全连接层,因此可接受任意尺寸的输入,同时也可以对输入 的待检测图片进行适当的缩放,以保持跟训练时的感受野基本一致;
S23、对待检测图片进行前向传播并得到网络前向传播之后的检测结果,这些结果包含 每个锚框的坐标偏量预测,类别预测,交并比预测以及关键点预测,还有弱监督分割预测。
S3、将S2得到的预测数据通过阈值过滤掉低质量的预测数据,将过滤后的预测数据通 过非极大值抑制得到最终的检测结果。
具体地,S2得到的预测数据大部分都是低质量的,需要先通过一个阈值对类别预测置 信度进行过滤,过滤掉低质量的检测框。对过滤之后保留的检测框进行非极大值抑制。非极 大值抑制前需要对预测结果解码,解码为上次编码的逆过程,解码之后根据基于距离的交并 比进行非极大值抑制。非极大值抑制的具体过程为:
S31、将所述锚框类别预测数据与所述锚框交并比预测数据相乘得到积分,根据所述积 分对所有的预测数据进行排序;
S32、根据所述积分的排序,从高到低按顺序进行遍历,从第一个开始,如果后面的预 测数据与当前预测数据的交并比大于阈值λ,则后面的预测数据将被抑制掉,具体地,时间 复杂度约为O(n2),λ设置为0.4;
S33、返回没被抑制掉的预测数据,得到最终的检测结果。
在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的步骤、方法不仅包括那些要素,而且还包括没有明确列出的其他要 素,或者是还包括为这种步骤、方法所固有的要素。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明 的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本 发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (10)

1.一种基于多任务的轻量级实时人脸检测方法,其特征在于,包括以下步骤:
S1、将含有人脸边框和人脸关键点标注的图片进行预处理,得到带有标签信息的训练图像,将所述训练图像送入轻量级卷积神经网络模型进行训练,直到在一定的时间内验证集精度在所述轻量级卷积神经网络模型中不再增加,得到训练好的轻量级卷积神经网络模型;
S2、将待检测图片输入S1训练好的轻量级卷积神经网络模型中进行检测,得到预测数据;
S3、将S2得到的预测数据通过阈值过滤掉低质量的预测数据,将过滤后的预测数据通过非极大值抑制得到最终的检测结果。
2.根据权利要求1所述的一种基于多任务的轻量级实时人脸检测方法,其特征在于,S1中“将所述训练图像送入轻量级卷积神经网络模型进行训练”前,先使用ImageNet对所述轻量级卷积神经网络模型进行预训练,得到预训练权值文件,将所述预训练权值文件加载到所述轻量级卷积神经网络模型中。
3.根据权利要求1所述的一种基于多任务的轻量级实时人脸检测方法,其特征在于,所述轻量级卷积神经网络模型包括轻量级卷积神经网络DFace-MobileNetV1、轻量级特征金字塔网络GLFPN、上下文增强模块DSSH以及多任务检测头部预测模块MutiHead,其中,所述轻量级卷积神经网络DFace-MobileNetV1用于对待检测图片的特征信息进行提取,得到多种尺度特征图,所述轻量级特征金字塔网络GLFPN用于对所述多种尺度特征图中的多种尺度特征进行融合,同时对所述多种尺度特征图中的全局信息与局部信息进行融合,所述上下文增强模块DSSH用于增大待检测图片中的目标感受野区域,所述多任务检测头部预测模块MutiHead用于输出所述轻量级卷积神经网络模型的人脸检测预测数据。
4.根据权利要求3所述的一种基于多任务的轻量级实时人脸检测方法,其特征在于,所述轻量级卷积神经网络DFace-MobileNetV1基于MobileNetV1并进行改进,包括:
将MobileNetV1中的全连接层去除;
将MobileNetV1中的批量归一化调整为组归一化;
增加对待检测图片的输入尺度,将输入尺度设为640*640。
5.根据权利要求3所述的一种基于多任务的轻量级实时人脸检测方法,其特征在于,所述轻量级特征金字塔网络GLFPN基于现有的特征金字塔网络FPN并进行改进,包括:
将原有的特征金字塔网络FPN中的卷积运算换成深度可分离卷积运算;
在现有的特征金字塔网络FPN的最顶层添加了全局平均池化模块,并将所述全局平均池化模块得到的特征图采用相加方式融合到原有的特征金字塔网络FPN特征图中。
6.根据权利要求3所述的一种基于多任务的轻量级实时人脸检测方法,其特征在于,所述上下文增强模块DSSH包括三路分支,其中一路分支含有一个3*3的卷积核组,一路分支含有两个3*3的卷积核组,一路分支含有三个3*3的卷积核组,所述上下文增强模块DSSH采用可形变卷积DConv提取上下文特征信息。
7.根据权利要求3所述的一种基于多任务的轻量级实时人脸检测方法,其特征在于,S1中“将所述训练图像送入轻量级卷积神经网络模型进行训练”,具体包括:
S11、对训练图像上的标签进行编码,利用基于离群样本补偿的交并比匹配算法对编码后的标签与锚框进行匹配;
S12、将所述轻量级卷积神经网络模型输出的人脸检测预测数据与编码后的标签真实值进行多任务损失计算得到损失值;
S13、将S12得到的损失值通过反向传播进行权重文件更新;
S14、当所述训练图像全部数据集完成一次前向传播,进行一次验证集精度计算,当验证集精度趋于稳定且不再上升时,终止迭代,得到训练好的轻量级卷积神经网络模型。
8.根据权利要求7所述的一种基于多任务的轻量级实时人脸检测方法,其特征在于,所述基于离群样本补偿的交并比匹配算法,具体步骤如下:
S111、计算编码后的标签真实值与所有锚框的交并比,得到交并比的二维矩阵;
S112、将S111得到的二维矩阵中与真实值具有最大交并比的锚框匹配为对应真实值的正样本锚框,将交并比值大于阈值θ的锚框匹配为对应真实值的正样本锚框;
S113、找到S112中未匹配的锚框,根据未匹配锚框坐标偏量预测值,解码得到未匹配锚框的预测结果,将所述预测结果与所有标签的真实值再求一次交并比,得到第二个二维矩阵,将第二个二维矩阵中交并比阈值大于α的锚框设置为可忽略锚框;
S114、统计每个编码后的标签真实值在S112中的正样本锚框匹配数量,得到正样本锚框匹配数量少于N的真实值;
S115、根据第二个二维矩阵,对S114中得到正样本锚框匹配数量少于N的真实值再次匹配K个正样本锚框,所述K的值等于N减掉S112中已匹配正样本锚框的数量;
S116、将剩下的锚框设置为负样本锚框。
9.根据权利要求8所述的一种基于多任务的轻量级实时人脸检测方法,其特征在于,S12中所述轻量级卷积神经网络模型输出的人脸检测预测数据包括锚框类别预测、锚框坐标偏量预测、锚框交并比预测、锚框关键点偏量预测以及弱监督分割预测,S12具体方法为:
S121、采用基于交叉熵的焦点损失函数计算所述锚框类别预测中的负样本锚框与标签编码后的真实值类别之间的损失值,所述锚框类别预测中的负样本锚框通过采用困难样本挖掘方法抽取;
S122、当锚框被分配为正样本锚框时,采用基于距离的交并比损失函数(CIOU)计算所述锚框坐标偏量预测与标签编码后的真实值坐标偏量之间的损失值;
S123、采用平滑一阶正则损失函数计算所述锚框关键点偏量预测与标签编码后的真实值关键点偏量之间的损失值;
S124、当锚框被分配为正样本锚框时,采用交叉熵损失函数计算所述锚框交并比预测与标签编码后的真实值交并比的损失值,其中,所述交并比为回归之后的锚框与真实值的交并比;
S125、采用交叉熵损失函数计算所述弱监督分割预测的损失值,并对全局特征图进行回归。
10.根据权利要求3所述的一种基于多任务的轻量级实时人脸检测方法,其特征在于,S3中所述非极大值抑制的具体过程为:
S31、将所述锚框类别预测数据与所述锚框交并比预测数据相乘得到积分,根据所述积分对所有的预测数据进行排序;
S32、根据所述积分的排序,从高到低按顺序进行遍历,从第一个开始,如果后面的预测数据与当前预测数据的交并比大于阈值λ,则后面的预测数据将被抑制掉;
S33、返回没被抑制掉的预测数据,得到最终的检测结果。
CN202110394121.9A 2021-04-13 2021-04-13 一种基于多任务的轻量级实时人脸检测方法 Active CN113158862B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110394121.9A CN113158862B (zh) 2021-04-13 2021-04-13 一种基于多任务的轻量级实时人脸检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110394121.9A CN113158862B (zh) 2021-04-13 2021-04-13 一种基于多任务的轻量级实时人脸检测方法

Publications (2)

Publication Number Publication Date
CN113158862A true CN113158862A (zh) 2021-07-23
CN113158862B CN113158862B (zh) 2023-08-22

Family

ID=76890075

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110394121.9A Active CN113158862B (zh) 2021-04-13 2021-04-13 一种基于多任务的轻量级实时人脸检测方法

Country Status (1)

Country Link
CN (1) CN113158862B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449712A (zh) * 2021-09-01 2021-09-28 武汉方芯科技有限公司 一种基于改进Alexnet网络的羊脸识别方法
CN113673510A (zh) * 2021-07-29 2021-11-19 复旦大学 一种结合特征点和锚框共同预测和回归的目标检测算法
CN113807330A (zh) * 2021-11-19 2021-12-17 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 面向资源受限场景的三维视线估计方法及装置
CN114299113A (zh) * 2021-12-27 2022-04-08 北京航空航天大学 一种基于孪生网络的目标跟踪方法及装置
CN114882558A (zh) * 2022-04-29 2022-08-09 陕西师范大学 基于人脸识别技术的学习场景实时身份认证方法
CN115631344A (zh) * 2022-10-06 2023-01-20 中国人民解放军国防科技大学 一种基于特征自适应聚合的目标检测方法
CN115661577A (zh) * 2022-11-01 2023-01-31 吉咖智能机器人有限公司 用于对象检测的方法、设备和计算机可读存储介质
CN116416672A (zh) * 2023-06-12 2023-07-11 南昌大学 一种基于GhostNetV2的轻量化人脸与人脸关键点检测方法
CN117523636A (zh) * 2023-11-24 2024-02-06 北京远鉴信息技术有限公司 一种人脸检测方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018054326A1 (zh) * 2016-09-22 2018-03-29 北京市商汤科技开发有限公司 文字检测方法和装置、及文字检测训练方法和装置
CN111291637A (zh) * 2020-01-19 2020-06-16 中国科学院上海微系统与信息技术研究所 一种基于卷积神经网络的人脸检测方法、装置及设备
CN111898406A (zh) * 2020-06-05 2020-11-06 东南大学 基于焦点损失和多任务级联的人脸检测方法
CN111950515A (zh) * 2020-08-26 2020-11-17 重庆邮电大学 一种基于语义特征金字塔网络的小人脸检测方法
CN112200161A (zh) * 2020-12-03 2021-01-08 北京电信易通信息技术股份有限公司 一种基于混合注意力机制的人脸识别检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018054326A1 (zh) * 2016-09-22 2018-03-29 北京市商汤科技开发有限公司 文字检测方法和装置、及文字检测训练方法和装置
CN111291637A (zh) * 2020-01-19 2020-06-16 中国科学院上海微系统与信息技术研究所 一种基于卷积神经网络的人脸检测方法、装置及设备
CN111898406A (zh) * 2020-06-05 2020-11-06 东南大学 基于焦点损失和多任务级联的人脸检测方法
CN111950515A (zh) * 2020-08-26 2020-11-17 重庆邮电大学 一种基于语义特征金字塔网络的小人脸检测方法
CN112200161A (zh) * 2020-12-03 2021-01-08 北京电信易通信息技术股份有限公司 一种基于混合注意力机制的人脸识别检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
赵艳芹;陈真朋;: "SSD神经网络的人脸检测方法", 黑龙江科技大学学报, no. 04, pages 448 - 454 *
顾上航 等: "基于无效卷积核权值回退的神经网络优化方法", 《计算机工程与应用》, vol. 57, no. 22, pages 86 - 91 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113673510A (zh) * 2021-07-29 2021-11-19 复旦大学 一种结合特征点和锚框共同预测和回归的目标检测算法
CN113673510B (zh) * 2021-07-29 2024-04-26 复旦大学 一种结合特征点和锚框共同预测和回归的目标检测方法
CN113449712A (zh) * 2021-09-01 2021-09-28 武汉方芯科技有限公司 一种基于改进Alexnet网络的羊脸识别方法
CN113807330A (zh) * 2021-11-19 2021-12-17 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 面向资源受限场景的三维视线估计方法及装置
CN114299113A (zh) * 2021-12-27 2022-04-08 北京航空航天大学 一种基于孪生网络的目标跟踪方法及装置
CN114882558B (zh) * 2022-04-29 2024-02-23 陕西师范大学 基于人脸识别技术的学习场景实时身份认证方法
CN114882558A (zh) * 2022-04-29 2022-08-09 陕西师范大学 基于人脸识别技术的学习场景实时身份认证方法
CN115631344A (zh) * 2022-10-06 2023-01-20 中国人民解放军国防科技大学 一种基于特征自适应聚合的目标检测方法
CN115661577A (zh) * 2022-11-01 2023-01-31 吉咖智能机器人有限公司 用于对象检测的方法、设备和计算机可读存储介质
CN115661577B (zh) * 2022-11-01 2024-04-16 吉咖智能机器人有限公司 用于对象检测的方法、设备和计算机可读存储介质
CN116416672B (zh) * 2023-06-12 2023-08-29 南昌大学 一种基于GhostNetV2的轻量化人脸与人脸关键点检测方法
CN116416672A (zh) * 2023-06-12 2023-07-11 南昌大学 一种基于GhostNetV2的轻量化人脸与人脸关键点检测方法
CN117523636A (zh) * 2023-11-24 2024-02-06 北京远鉴信息技术有限公司 一种人脸检测方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN113158862B (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
CN113158862A (zh) 一种基于多任务的轻量级实时人脸检测方法
CN113065558B (zh) 一种结合注意力机制的轻量级小目标检测方法
CN111539469B (zh) 一种基于视觉自注意力机制的弱监督细粒度图像识别方法
CN107229904B (zh) 一种基于深度学习的目标检测与识别方法
CN108256562B (zh) 基于弱监督时空级联神经网络的显著目标检测方法及系统
CN111612807B (zh) 一种基于尺度和边缘信息的小目标图像分割方法
CN109948475B (zh) 一种基于骨架特征和深度学习的人体动作识别方法
CN111191583B (zh) 基于卷积神经网络的空间目标识别系统及方法
CN112906485B (zh) 基于改进的yolo模型的视障人士辅助障碍物感知方法
Teow Understanding convolutional neural networks using a minimal model for handwritten digit recognition
CN113657560B (zh) 基于节点分类的弱监督图像语义分割方法及系统
CN112150493A (zh) 一种基于语义指导的自然场景下屏幕区域检测方法
WO2019136591A1 (zh) 基于弱监督时空级联神经网络的显著目标检测方法及系统
Zeng et al. LEARD-Net: Semantic segmentation for large-scale point cloud scene
CN110929665A (zh) 一种自然场景曲线文本检测方法
CN111881731A (zh) 基于人体骨架的行为识别方法、系统、装置及介质
Huang et al. Learning spatio-temporal representations with temporal squeeze pooling
CN114359631A (zh) 基于编码-译码弱监督网络模型的目标分类与定位方法
CN116977844A (zh) 一种轻量级水下目标实时检测方法
CN114492634B (zh) 一种细粒度装备图片分类识别方法及系统
CN114332117B (zh) 基于unet3+与全连接条件随机场融合的震后地貌分割方法
CN116258990A (zh) 一种基于跨模态亲和力的小样本参考视频目标分割方法
CN114972952A (zh) 一种基于模型轻量化的工业零部件缺陷识别方法
CN113792631B (zh) 一种基于多尺度自适应与边域注意力的飞行器检测与跟踪方法
Liu Real-Time Object Detection for Autonomous Driving Based on Deep Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant