CN114973372A - 婴儿表情分类检测方法 - Google Patents

婴儿表情分类检测方法 Download PDF

Info

Publication number
CN114973372A
CN114973372A CN202210600206.2A CN202210600206A CN114973372A CN 114973372 A CN114973372 A CN 114973372A CN 202210600206 A CN202210600206 A CN 202210600206A CN 114973372 A CN114973372 A CN 114973372A
Authority
CN
China
Prior art keywords
loss function
network
feature
prediction
detection method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210600206.2A
Other languages
English (en)
Inventor
陈伟君
肖镇宇
李童
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tuling Video Signal Shenzhen Co ltd
Original Assignee
Tuling Video Signal Shenzhen Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tuling Video Signal Shenzhen Co ltd filed Critical Tuling Video Signal Shenzhen Co ltd
Priority to CN202210600206.2A priority Critical patent/CN114973372A/zh
Publication of CN114973372A publication Critical patent/CN114973372A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种婴儿表情分类检测方法,属于机器视觉识别技术领域,解决了对婴儿表情分类检测的问题,其技术方案要点是基于YOLOv3目标检测工具,进行训练操作和推理操作,训练操作包括依次进行数据输入、Tensor转换、卷积网络特征提取、类别边界框特征点预测、损失函数计算、更新模型参数,推理操作包括在类别边界框特征点预测后进行推理输出,达到了提高检测效率和准确率的效果。

Description

婴儿表情分类检测方法
技术领域
本发明涉及机器视觉识别领域,特别地,涉及一种婴儿表情分类检测方法。
背景技术
目前现有技术中,关于对Yolov3(第三代YOLO:一步式目标检测网络)在技术上已有所公开介绍。YOLO的作者将目标检测问题视为回归问题,首先将整副图划分成[s×s]的网格,如果目标框的中心点落在这个网格中,那么这个网格就负责预测这个目标。
每一个网格都会预测bounding box,confidence以及class probability map:
bounding box包含四个值:[x,y,w,h]其中[x,y]代表预测框的中心点,[w,h]代表预测框的宽和高;
confidence表示预测框包含目标的可能性,训练时的真值为预测框和真值框的IOU;
class probability map表明这个目标所属类别的置信度。
YOLO(You Only Look Once)将整个图像输入到网络中,可以直接预测目标位置和对应的类别。这使得YOLO推理速度很快并且保持较高的精度。
YOLOv3采用了53层卷积层作为主干,又被叫做Darknet-53。发现Darknet-53是由卷积层和残差层组成。同时需要注意的时,最后三层Avgpool,Connected和softmax层是用来在ImageNet数据集上训练分类任务时使用的.当我们使用Darknet-53作为YOLOv3中提取图像特征的主干时,则不再使用最后三层。
我们可以知道:
YOLOv3在3个scale的特征图上分别预测不同大小的目标。即在8倍,16倍和32倍的特征图上进行预测。也就是说如果我们的输入为416×416,那么YOLOv3预测时采用的特征图的大小分别为52×52,32×32以及13×13,对于第一个scale,YOLOV3将输入降采样为13×13,在82层进行预测,此时预测输出的3维Tensor的大小为13×13×255,之后,YOLOv3从第79层获取特征图,接着应用一个卷积层进行通道压缩,然后将其上采样2倍,大小为26×26。然后,该特征图与第61层的特征图进行concat操作。最后,将concat后的特征图在经过几个卷积层进一步提取特征,直到在第94层作为第二个尺度检测的特征图。第二个sace预测输出的3维Tensor的大小为26×26×255。
对于第三个尺度,重复上述操作。即第91层的特征图先接一个卷积层进行通道压缩,然后上采样2倍,大小为52×52,然后与第36层的特征图进行concat操作。接着是几层卷积操作,最终预测层在106层完成,产生的三维Tensor的大小为52×52×255。
总之,YOLOv3在3种不同尺度的特征图上进行检测,因此如果我们输入416×416大小的图像,它将产生3种不同的输出形状张量,13×13×255、26×26×255和52×52×255。
我们可以看到尺寸为416×416的输入图片在进入Darknet-53网络后得到3个分支。这些分支经历一系列卷积、上采样、合并和其他操作。最终获得三个不同尺寸的特征图,形状分别为[13,13,255]、[26,26,255]和[52,52,255]。
基于上述技术发展情况,我们知道对于实际应用上还存在如下问题:
1、处理模型在处理数据流的效率无法根据实际应用进行适配,造成数据量大时无法及时得出结果;
2、模型更新方式的匹配无法根据实际应用得到调整。
在此,通过婴儿表情的检测应用中,需要对上述识别模型的搭建和数据流处理进行改进,提出新的解决方案。
发明内容
本发明的目的在于针对现有技术的不足之处,至少在一定程度上解决相关技术中的技术问题,提供一种婴儿表情分类检测方法,具有提高数据流处理效率,适用在婴儿表情分类检测的实现上的优势。
为了解决上述技术问题,本发明的技术方案是:一种婴儿表情分类检测方法,基于YOLOv3目标检测工具,进行训练操作和推理操作,训练操作包括依次进行数据输入、Tensor转换、卷积网络特征提取、类别边界框特征点预测、损失函数计算、更新模型参数,推理操作包括在类别边界框特征点预测后进行推理输出;
使用降维残差网络替代了残差网络,在完成特征提取后,YOLOv3目标检测工具会对13×13,26×26,52×52和104×104的四个尺度的特征图分别进行目标检测,小尺寸的特征图会在上采样之后与更大尺寸的特征图进行融合;
通过K-means算法选取了九种新的基础边界框尺寸,分别为(7,12),(16,23),(23,40),(44,32),(32,60),(43,75),(52,112),(71,84),(75,128),并从小到大按照两两一组分配给四个尺度的目标检测,最后一组分配三个。
优选的,在训练操作中,输入大量实际带有或不带有婴儿脸部的数据进行标注,通过人工分理出婴儿表情分类这部分图片之后,使用这部分图片作为一个背景图片数据集。
优选的,在识别到婴儿脸部特征之后,通过一种基于EfficientDet的网络实现了对于表情的一步式实时识别,
标注好婴儿人脸的关键点后,使用BiFPN的双向特征金字塔网络用于建立不同尺度的特征图之间的信息沟通,其特征融合函数采用加权函数,特征融合加权函数的表达式为:
Figure BDA0003666568490000041
其中,wi代表权重,Ii代表线性加权,ε为适应性参数用于避免分母为零。
优选的,还包括有预测网络,预测网络对于特征图中每个像素都设置了9个锚点,对应了三个尺寸和三个长宽比,
类别检测网络,其总类别数为13个,输出的总通道数为类别数c×锚点数a;
边界框预测网络,其每个边界框的参数数量是四个,输出的总通道数为4×锚点数a;
特征点预测网络,如果其关键点的数量为k个,输出的总通道数为关键点二维坐标2k×锚点数a;
在关键点坐标的基础上,额外预测两个关键点的偏移量用于对关键点进行微调。
优选的,还使用焦点损失函数:
Lcls=-αt(1-pt)γlog(pt) (2);
pt是各类别置信度,αt是线性参数,γ是非线性指数参数。
优选的,还包括对边界框的检测,使用C-IoU损失函数:
Figure BDA0003666568490000051
wgt是ground truth下的宽,hgt是ground truth下的高,V矩形回归预测中长宽比的相似性,α两者重叠的大小,Lbbox即指代C-IoU损失函数;
其中:第三项为两个边界框中心点的欧几里得距离的平方除以能够同时包含两个边界框的大框的对角线长度的平方。
优选的,包括关键点检测使用误差均方根作为损失函数,同时用v来代表关键点的可见性,如果关键点不可见,则不会反映在损失函数当中,
其损失函数:
Figure BDA0003666568490000052
完整的损失函数:
Ltot=Lcls+LbboxsizeLlandmarkoffLoff (5)
λsize=0.1 and λoff=1.
函数是线性加权的,
Lcls为前面提到的类别检测网络的焦点损失函数,
Lbbox为前面提到的边界框预测网络的C-IoU(C矩形回归预测)损失函数,
Llandmark为前面提到的特征点预测网络的误差均方根损失函数,
λsize是Llandmark的权重,
Loff为额外预测两个关键点的偏移量,用于对关键点进行微调,
λoff是Loff的权重,
Ltot即是指代完整的损失函数,它是三个损失函数的线性加权。
优选的,对关键点进行微调的偏移量与关键点坐标本身的训练方法相同。
相比于背景技术,本发明技术效果主要体现在以下方面:
1、利用迁移学习,采用改进的YOLOv3目标检测工具进行婴儿脸部检测,再使用改进的EfficientDet进行婴儿特有表情的一步式实时识别,可以在图像中同时识别多个类别的多个物体的边界框和类别信息,使用了连续的3x3和1x1的卷积层,增加了残差连接。将整张图片划分为一个特定尺寸的网格,并将图片的特征图转化为与网格尺寸对应的大小在这基础上对每一个网格对应的特征进行解码即可获得在该网格中的目标的信息。这大大提高了检测的速度;
2、使用了Inception Resnet替代了原本的Resnet结构,使得卷积层的总数从原来的53提高到了128,相比基础YOLO的三个检测尺度,新增的第四个尺度可以更好的促进小目标的检测。也适配婴儿脸部识别实际效果;
3、由于两步式检测方式使用了区域提议模块来切割出可能存在目标的边界框,其一定程度上起到了分离前景和背景的作用;然而在一步式检测方式中,由于缺少这种切割,会产生一定的标签(前景和背景)不平衡的问题。为了减少这种问题产生的负面影响,本方法使用了以下的焦点损失函数。使用这个损失函数后,经常出现的标签产生的损失会因为含γ一项而降低,进而赋予不经常出现的标签更大的影响网络学习的能力。
附图说明
图1为实施例中YOLOv3的检测网络结构图;
图2为实施例中EfficientDet的网络结构图;
图3为实施例中三种预测网络的结构和输出预测的维度图。
具体实施方式
以下结合附图,对本发明的具体实施方式作进一步详述,以使本发明技术方案更易于理解和掌握。
实施例:
一种婴儿表情分类检测方法,基于YOLOv3目标检测工具,进行训练操作和推理操作,训练操作包括依次进行数据输入、Tensor转换、卷积网络特征提取、类别边界框特征点预测、损失函数计算、更新模型参数,推理操作包括在类别边界框特征点预测后进行推理输出。相较于很多其他使用滑动窗口做目标检测的方法,YOLO直接将整张图片划分为一个特定尺寸的网格,并将图片的特征图转化为与网格尺寸对应的大小,在这基础上对每一个网格对应的特征进行解码即可获得在该网格中的目标的信息。这大大提高了检测的速度。
在本方案中,相比于现有的YOLO的工具,如图1所示,使用Inception Resnet(降维残差网络)替代了原本的Resnet(残差网络)
其中:
1.保留了原本Resnet的残差单元,解决深度网络的退化问题;
2.使用1x1的卷积核实现降维操作(也间接增加了网络的深度),以此来减小网络的参数量;
3.卷积层数,即网络层数,从原来的53层,提高到了128层;
在完成特征提取后,YOLOv3目标检测工具会对13×13,26×26,52×52和104×104的四个尺度的特征图分别进行目标检测,小尺寸的特征图会在上采样之后与更大尺寸的特征图进行融合;
在完成特征提取后,本方法中的YOLO网络,会对13x13,26x26,52x52和104x104的四个尺度的特征图分别进行目标检测,小尺寸的特征图会在上采样之后与更大尺寸的特征图进行融合。相比基础YOLO的三个检测尺度,新增的第四个尺度可以更好的促进小目标的检测。另外为了配合婴儿脸部识别实际效果,本方法没有使用YOLOv3预设的9种边界框尺寸,而是通过K-means算法选取了九种新的基础边界框尺寸,分别为(7,12),(16,23),(23,40),(44,32),(32,60),(43,75),(52,112),(71,84),(75,128),并从小到大按照两两一组分配给四个尺度的目标检测(最后一组分配三个)。
关于数据与标注:
本方法基于海量实际婴儿的数据进行标注(婴儿脸部),在图片内可能不包含婴儿。在人工分理出这部分图片之后,使用这部分图片作为一个背景图片数据集来增强识别的效果。
表情分类识别:
在识别到婴儿脸部之后,本方法通过一种基于EfficientDet的网络实现了对于表情的一步式实时识别。
本方法中的网络的结构如图2所示:
标注好婴儿人脸的关键点后,本方法使用BiFPN的双向特征金字塔网络用于建立不同尺度的特征图之间的信息沟通。上图中蓝色的箭头表示加权的特征融合,而黄色的线表示上采样。融合的函数如下所示:
Figure BDA0003666568490000091
表达式参数说明:
wi代表权重,
Ii代表线性加权,
其中ε用于避免分母为零。
关于预测网络,本方法使用的一步式检测器没有区域提议网络,因此本网络对于特征图中每个像素都设置了9个锚点(对应了三个尺寸和三个长宽比)。对于类别检测网络,其总类别数为13个,故输出的总通道数为类别数c×锚点数a。对于边界框预测网络,其每个边界框的参数数量是四个,因此输出的总通道数为4×锚点数a。对于特征点预测网络,如果其关键点的数量为k个,则输出的总通道数为关键点(二维坐标)2k×锚点数a。在此关键点坐标的基础上,额外预测两个关键点的偏移量用于对关键点进行微调。三种预测网络的结构和输出预测的维度如图3所示。
一步式检测方式相比两步式检测方式虽然效率更高,但是同样存在一定的缺陷。由于两步式检测方式使用了区域提议模块来切割出可能存在目标的边界框,其一定程度上起到了分离前景和背景的作用;然而在一步式检测方式中,由于缺少这种切割,会产生一定的标签(前景和背景)不平衡的问题。为了减少这种问题产生的负面影响,本方法使用了以下的焦点损失函数:
Lcls=-αt(1-pt)γlog(pt) (2)
函数说明:
pt是各类别置信度,
αt是线性参数,
γ是非线性指数参数,
(经常出现的标签产生的损失会因为含γ一项而降低,进而赋予不经常出现的标签更大的影响网络学习的能力)。
使用这个损失函数后,经常出现的标签产生的损失会因为含γ一项而降低,进而赋予不经常出现的标签更大的影响网络学习的能力。
对于边界框的检测,本方法使用了C-IoU损失函数(C矩形边界框预测):
Figure BDA0003666568490000101
函数说明:
wgt是ground truth下的宽,
hgt是ground truth下的高,
V矩形回归预测中长宽比的相似性,
α两者重叠的大小。
C-IoU不仅考虑到了重合面积占比的大小,还考虑了边界框的长宽比,和中心点的距离。V为两者不考虑尺寸的情况下的长宽比相似性,α为两者重叠的大小(重叠过小则不比较长宽比);Lbbox第三项为两个边界框中心点的欧几里得距离的平方除以能够同时包含两个边界框的大框的对角线长度的平方,将这一项设为损失可以使两者的中心点相互接近。
对于关键点的检测,本方法使用了误差均方根(Rooted MSE)作为损失函数,同时用v来代表关键点的可见性,如果关键点不可见,则不会反映在损失函数当中。其损失函数如下所示。对关键点进行微调的偏移量与关键点坐标本身的训练思路相同。
特征点预测网络(关键点预测网络)采用了误差均方根损失函数:
Figure BDA0003666568490000111
函数说明:
yi是预测值,
Figure BDA0003666568490000112
是ground truth,
完整的损失函数如下所示:
Ltot=Lcls+LbboxsizeLlandmarkoffLoff (5)
λsize=0.1 and λoff=1.
函数说明:
函数是线性加权的;
Lcls为前面提到的类别检测网络的焦点损失函数;
Lbbox为前面提到的边界框预测网络的C-IoU(C矩形回归预测)损失函数;
Llandmark为前面提到的特征点预测网络的误差均方根损失函数;
λsize是Llandmark的权重;
Loff为额外预测两个关键点的偏移量,用于对关键点进行微调;
λoff是Loff的权重;
Ltot即是指代完整的损失函数,它是三个损失函数的线性加权。
当然,以上只是本发明的典型实例,除此之外,本发明还可以有其它多种具体实施方式,凡采用等同替换或等效变换形成的技术方案,均落在本发明要求保护的范围之内。

Claims (8)

1.一种婴儿表情分类检测方法,基于YOLOv3目标检测工具,进行训练操作和推理操作,其特征是:训练操作包括依次进行数据输入、Tensor转换、卷积网络特征提取、类别边界框特征点预测、损失函数计算、更新模型参数,推理操作包括在类别边界框特征点预测后进行推理输出;
使用降维残差网络替代了残差网络,在完成特征提取后,YOLOv3目标检测工具会对13×13,26×26,52×52和104×104的四个尺度的特征图分别进行目标检测,小尺寸的特征图会在上采样之后与更大尺寸的特征图进行融合;
通过K-means算法选取了九种新的基础边界框尺寸,分别为(7,12),(16,23),(23,40),(44,32),(32,60),(43,75),(52,112),(71,84),(75,128),并从小到大按照两两一组分配给四个尺度的目标检测,最后一组分配三个。
2.根据权利要求1所述的婴儿表情分类检测方法,其特征是:在训练操作中,输入大量实际带有或不带有婴儿脸部的数据进行标注,通过人工分理出婴儿表情分类这部分图片之后,使用这部分图片作为一个背景图片数据集。
3.根据权利要求2所述的婴儿表情分类检测方法,其特征是:在识别到婴儿脸部特征之后,通过一种基于EfficientDet的网络实现了对于表情的一步式实时识别,
标注好婴儿人脸的关键点后,使用BiFPN的双向特征金字塔网络用于建立不同尺度的特征图之间的信息沟通,其特征融合函数采用加权函数,特征融合加权函数的表达式为:
Figure FDA0003666568480000021
其中,wi代表权重,Ii代表线性加权,ε为适应性参数用于避免分母为零。
4.根据权利要求1所述的婴儿表情分类检测方法,其特征是:还包括有预测网络,预测网络对于特征图中每个像素都设置了9个锚点,对应了三个尺寸和三个长宽比,
类别检测网络,其总类别数为13个,输出的总通道数为类别数c×锚点数a;
边界框预测网络,其每个边界框的参数数量是四个,输出的总通道数为4×锚点数a;
特征点预测网络,如果其关键点的数量为k个,输出的总通道数为关键点二维坐标2k×锚点数a;
在关键点坐标的基础上,额外预测两个关键点的偏移量用于对关键点进行微调。
5.根据权利要求4所述的婴儿表情分类检测方法,其特征是:还使用焦点损失函数:
Lcls=-αt(1-pt)γlog(pt) (2);
pt是各类别置信度,αt是线性参数,γ是非线性指数参数。
6.根据权利要求1所述的婴儿表情分类检测方法,其特征是:还包括对边界框的检测,使用C-IoU损失函数:
Figure FDA0003666568480000031
wgt是ground truth下的宽,hgt是ground truth下的高,V矩形回归预测中长宽比的相似性,α两者重叠的大小,Lbbox即指代C-IoU损失函数;
其中:第三项为两个边界框中心点的欧几里得距离的平方除以能够同时包含两个边界框的大框的对角线长度的平方。
7.根据权利要求1所述的婴儿表情分类检测方法,其特征是:包括关键点检测使用误差均方根作为损失函数,同时用v来代表关键点的可见性,如果关键点不可见,则不会反映在损失函数当中,
其损失函数:
Figure FDA0003666568480000032
完整的损失函数:
Ltot=Lcls+LbboxsizeLlandmarkoffLoff (5)
λsize=0.1 and λoff=1.
函数是线性加权的,
Lcls为前面提到的类别检测网络的焦点损失函数,
Lbbox为前面提到的边界框预测网络的C-IoU(C矩形回归预测)损失函数,
Llandmark为前面提到的特征点预测网络的误差均方根损失函数,
λsize是Llandmark的权重,
Loff为额外预测两个关键点的偏移量,用于对关键点进行微调,
λoff是Loff的权重,
Ltot即是指代完整的损失函数,它是三个损失函数的线性加权。
8.根据权利要求7所述的婴儿表情分类检测方法,其特征是:对关键点进行微调的偏移量与关键点坐标本身的训练方法相同。
CN202210600206.2A 2022-05-27 2022-05-27 婴儿表情分类检测方法 Pending CN114973372A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210600206.2A CN114973372A (zh) 2022-05-27 2022-05-27 婴儿表情分类检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210600206.2A CN114973372A (zh) 2022-05-27 2022-05-27 婴儿表情分类检测方法

Publications (1)

Publication Number Publication Date
CN114973372A true CN114973372A (zh) 2022-08-30

Family

ID=82958401

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210600206.2A Pending CN114973372A (zh) 2022-05-27 2022-05-27 婴儿表情分类检测方法

Country Status (1)

Country Link
CN (1) CN114973372A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115223114A (zh) * 2022-09-16 2022-10-21 松立控股集团股份有限公司 一种基于双向融合特征金字塔的端到端车辆姿态估计方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115223114A (zh) * 2022-09-16 2022-10-21 松立控股集团股份有限公司 一种基于双向融合特征金字塔的端到端车辆姿态估计方法

Similar Documents

Publication Publication Date Title
CN111126472B (zh) 一种基于ssd改进的目标检测方法
CN111931684B (zh) 一种基于视频卫星数据鉴别特征的弱小目标检测方法
CN110929593B (zh) 一种基于细节辨别区别的实时显著性行人检测方法
CN107609525A (zh) 基于剪枝策略构建卷积神经网络的遥感图像目标检测方法
CN113486764B (zh) 一种基于改进的YOLOv3的坑洼检测方法
CN111753677B (zh) 基于特征金字塔结构的多角度遥感船舶图像目标检测方法
CN103679187B (zh) 图像识别方法和系统
CN110188802B (zh) 基于多层特征图融合的ssd目标检测算法
CN113034444A (zh) 一种基于MobileNet-PSPNet神经网络模型的路面裂缝检测方法
CN112883887B (zh) 一种基于高空间分辨率光学遥感图像的建筑物实例自动提取方法
CN113591617B (zh) 基于深度学习的水面小目标检测与分类方法
CN116645592B (zh) 一种基于图像处理的裂缝检测方法和存储介质
CN112580647A (zh) 一种面向堆叠物体的识别方法及系统
CN111753682A (zh) 一种基于目标检测算法的吊装区域动态监控方法
CN111507353B (zh) 一种基于文字识别的中文字段检测方法及系统
CN112950780A (zh) 一种基于遥感影像的网络地图智能生成方法及系统
CN116824585A (zh) 一种基于多级上下文特征融合网络的航空激光点云语义分割方法与装置
CN116342894A (zh) 基于改进YOLOv5的GIS红外特征识别系统及方法
CN116152226A (zh) 基于可融合的特征金字塔的换向器内侧图像缺陷检测方法
CN116258953A (zh) 一种遥感影像目标检测方法
CN114973372A (zh) 婴儿表情分类检测方法
CN113361496B (zh) 一种基于U-Net的城市建成区统计方法
Wang et al. Based on the improved YOLOV3 small target detection algorithm
CN113888505A (zh) 一种基于语义分割的自然场景文本检测方法
CN114170526A (zh) 基于轻量化网络的遥感影像多尺度目标检测识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination