CN114973372A

CN114973372A - 婴儿表情分类检测方法

Info

Publication number: CN114973372A
Application number: CN202210600206.2A
Authority: CN
Inventors: 陈伟君; 肖镇宇; 李童
Original assignee: Tuling Video Signal Shenzhen Co ltd
Current assignee: Tuling Video Signal Shenzhen Co ltd
Priority date: 2022-05-27
Filing date: 2022-05-27
Publication date: 2022-08-30

Abstract

本发明公开了一种婴儿表情分类检测方法，属于机器视觉识别技术领域，解决了对婴儿表情分类检测的问题，其技术方案要点是基于YOLOv3目标检测工具，进行训练操作和推理操作，训练操作包括依次进行数据输入、Tensor转换、卷积网络特征提取、类别边界框特征点预测、损失函数计算、更新模型参数，推理操作包括在类别边界框特征点预测后进行推理输出，达到了提高检测效率和准确率的效果。

Description

婴儿表情分类检测方法

技术领域

本发明涉及机器视觉识别领域，特别地，涉及一种婴儿表情分类检测方法。

背景技术

目前现有技术中，关于对Yolov3(第三代YOLO：一步式目标检测网络)在技术上已有所公开介绍。YOLO的作者将目标检测问题视为回归问题,首先将整副图划分成[s×s]的网格,如果目标框的中心点落在这个网格中,那么这个网格就负责预测这个目标。

每一个网格都会预测bounding box,confidence以及class probability map:

bounding box包含四个值:[x，y，w，h]其中[x，y]代表预测框的中心点,[w，h]代表预测框的宽和高；

confidence表示预测框包含目标的可能性,训练时的真值为预测框和真值框的IOU；

class probability map表明这个目标所属类别的置信度。

YOLO(You Only Look Once)将整个图像输入到网络中,可以直接预测目标位置和对应的类别。这使得YOLO推理速度很快并且保持较高的精度。

YOLOv3采用了53层卷积层作为主干,又被叫做Darknet-53。发现Darknet-53是由卷积层和残差层组成。同时需要注意的时,最后三层Avgpool,Connected和softmax层是用来在ImageNet数据集上训练分类任务时使用的.当我们使用Darknet-53作为YOLOv3中提取图像特征的主干时,则不再使用最后三层。

我们可以知道:

YOLOv3在3个scale的特征图上分别预测不同大小的目标。即在8倍,16倍和32倍的特征图上进行预测。也就是说如果我们的输入为416×416,那么YOLOv3预测时采用的特征图的大小分别为52×52,32×32以及13×13，对于第一个scale,YOLOV3将输入降采样为13×13,在82层进行预测,此时预测输出的3维Tensor的大小为13×13×255，之后，YOLOv3从第79层获取特征图，接着应用一个卷积层进行通道压缩，然后将其上采样2倍，大小为26×26。然后，该特征图与第61层的特征图进行concat操作。最后，将concat后的特征图在经过几个卷积层进一步提取特征,直到在第94层作为第二个尺度检测的特征图。第二个sace预测输出的3维Tensor的大小为26×26×255。

对于第三个尺度,重复上述操作。即第91层的特征图先接一个卷积层进行通道压缩,然后上采样2倍,大小为52×52,然后与第36层的特征图进行concat操作。接着是几层卷积操作,最终预测层在106层完成,产生的三维Tensor的大小为52×52×255。

总之，YOLOv3在3种不同尺度的特征图上进行检测，因此如果我们输入416×416大小的图像，它将产生3种不同的输出形状张量，13×13×255、26×26×255和52×52×255。

我们可以看到尺寸为416×416的输入图片在进入Darknet-53网络后得到3个分支。这些分支经历一系列卷积、上采样、合并和其他操作。最终获得三个不同尺寸的特征图，形状分别为[13,13,255]、[26,26,255]和[52,52,255]。

基于上述技术发展情况，我们知道对于实际应用上还存在如下问题：

1、处理模型在处理数据流的效率无法根据实际应用进行适配，造成数据量大时无法及时得出结果；

2、模型更新方式的匹配无法根据实际应用得到调整。

在此，通过婴儿表情的检测应用中，需要对上述识别模型的搭建和数据流处理进行改进，提出新的解决方案。

发明内容

本发明的目的在于针对现有技术的不足之处，至少在一定程度上解决相关技术中的技术问题，提供一种婴儿表情分类检测方法，具有提高数据流处理效率，适用在婴儿表情分类检测的实现上的优势。

为了解决上述技术问题，本发明的技术方案是：一种婴儿表情分类检测方法，基于YOLOv3目标检测工具，进行训练操作和推理操作，训练操作包括依次进行数据输入、Tensor转换、卷积网络特征提取、类别边界框特征点预测、损失函数计算、更新模型参数，推理操作包括在类别边界框特征点预测后进行推理输出；

使用降维残差网络替代了残差网络，在完成特征提取后，YOLOv3目标检测工具会对13×13，26×26，52×52和104×104的四个尺度的特征图分别进行目标检测，小尺寸的特征图会在上采样之后与更大尺寸的特征图进行融合；

通过K-means算法选取了九种新的基础边界框尺寸，分别为(7,12)，(16,23),(23,40),(44,32),(32,60),(43,75),(52,112),(71,84),(75,128)，并从小到大按照两两一组分配给四个尺度的目标检测，最后一组分配三个。

优选的，在训练操作中，输入大量实际带有或不带有婴儿脸部的数据进行标注，通过人工分理出婴儿表情分类这部分图片之后，使用这部分图片作为一个背景图片数据集。

优选的，在识别到婴儿脸部特征之后，通过一种基于EfficientDet的网络实现了对于表情的一步式实时识别，

标注好婴儿人脸的关键点后，使用BiFPN的双向特征金字塔网络用于建立不同尺度的特征图之间的信息沟通，其特征融合函数采用加权函数，特征融合加权函数的表达式为：

其中，w_i代表权重，I_i代表线性加权，ε为适应性参数用于避免分母为零。

优选的，还包括有预测网络，预测网络对于特征图中每个像素都设置了9个锚点，对应了三个尺寸和三个长宽比，

类别检测网络，其总类别数为13个，输出的总通道数为类别数c×锚点数a；

边界框预测网络，其每个边界框的参数数量是四个，输出的总通道数为4×锚点数a；

特征点预测网络，如果其关键点的数量为k个，输出的总通道数为关键点二维坐标2k×锚点数a；

在关键点坐标的基础上，额外预测两个关键点的偏移量用于对关键点进行微调。

优选的，还使用焦点损失函数：

L_cls＝-α_t(1-p_t)^γlog(p_t) (2)；

p_t是各类别置信度，α_t是线性参数，γ是非线性指数参数。

优选的，还包括对边界框的检测，使用C-IoU损失函数：

w^gt是ground truth下的宽，h^gt是ground truth下的高，V矩形回归预测中长宽比的相似性，α两者重叠的大小，L_bbox即指代C-IoU损失函数；

其中：第三项为两个边界框中心点的欧几里得距离的平方除以能够同时包含两个边界框的大框的对角线长度的平方。

优选的，包括关键点检测使用误差均方根作为损失函数，同时用v来代表关键点的可见性，如果关键点不可见，则不会反映在损失函数当中，

其损失函数：

完整的损失函数：

L_tot＝L_cls+L_bbox+λ_sizeL_landmark+λ_offL_off (5)

λ_size＝0.1 and λ_off＝1.

函数是线性加权的，

L_cls为前面提到的类别检测网络的焦点损失函数，

L_bbox为前面提到的边界框预测网络的C-IoU(C矩形回归预测)损失函数，

L_landmark为前面提到的特征点预测网络的误差均方根损失函数，

λ_size是L_landmark的权重，

L_off为额外预测两个关键点的偏移量，用于对关键点进行微调，

λ_off是L_off的权重，

L_tot即是指代完整的损失函数，它是三个损失函数的线性加权。

优选的，对关键点进行微调的偏移量与关键点坐标本身的训练方法相同。

相比于背景技术，本发明技术效果主要体现在以下方面：

1、利用迁移学习，采用改进的YOLOv3目标检测工具进行婴儿脸部检测，再使用改进的EfficientDet进行婴儿特有表情的一步式实时识别,可以在图像中同时识别多个类别的多个物体的边界框和类别信息,使用了连续的3x3和1x1的卷积层，增加了残差连接。将整张图片划分为一个特定尺寸的网格，并将图片的特征图转化为与网格尺寸对应的大小在这基础上对每一个网格对应的特征进行解码即可获得在该网格中的目标的信息。这大大提高了检测的速度；

2、使用了Inception Resnet替代了原本的Resnet结构，使得卷积层的总数从原来的53提高到了128，相比基础YOLO的三个检测尺度，新增的第四个尺度可以更好的促进小目标的检测。也适配婴儿脸部识别实际效果；

3、由于两步式检测方式使用了区域提议模块来切割出可能存在目标的边界框，其一定程度上起到了分离前景和背景的作用；然而在一步式检测方式中，由于缺少这种切割，会产生一定的标签(前景和背景)不平衡的问题。为了减少这种问题产生的负面影响，本方法使用了以下的焦点损失函数。使用这个损失函数后，经常出现的标签产生的损失会因为含γ一项而降低，进而赋予不经常出现的标签更大的影响网络学习的能力。

附图说明

图1为实施例中YOLOv3的检测网络结构图；

图2为实施例中EfficientDet的网络结构图；

图3为实施例中三种预测网络的结构和输出预测的维度图。

具体实施方式

以下结合附图，对本发明的具体实施方式作进一步详述，以使本发明技术方案更易于理解和掌握。

实施例：

一种婴儿表情分类检测方法，基于YOLOv3目标检测工具，进行训练操作和推理操作，训练操作包括依次进行数据输入、Tensor转换、卷积网络特征提取、类别边界框特征点预测、损失函数计算、更新模型参数，推理操作包括在类别边界框特征点预测后进行推理输出。相较于很多其他使用滑动窗口做目标检测的方法，YOLO直接将整张图片划分为一个特定尺寸的网格，并将图片的特征图转化为与网格尺寸对应的大小，在这基础上对每一个网格对应的特征进行解码即可获得在该网格中的目标的信息。这大大提高了检测的速度。

在本方案中，相比于现有的YOLO的工具，如图1所示，使用Inception Resnet(降维残差网络)替代了原本的Resnet(残差网络)

其中：

1.保留了原本Resnet的残差单元，解决深度网络的退化问题；

2.使用1x1的卷积核实现降维操作(也间接增加了网络的深度)，以此来减小网络的参数量；

3.卷积层数，即网络层数，从原来的53层，提高到了128层；

在完成特征提取后，YOLOv3目标检测工具会对13×13，26×26，52×52和104×104的四个尺度的特征图分别进行目标检测，小尺寸的特征图会在上采样之后与更大尺寸的特征图进行融合；

在完成特征提取后，本方法中的YOLO网络，会对13x13，26x26，52x52和104x104的四个尺度的特征图分别进行目标检测，小尺寸的特征图会在上采样之后与更大尺寸的特征图进行融合。相比基础YOLO的三个检测尺度，新增的第四个尺度可以更好的促进小目标的检测。另外为了配合婴儿脸部识别实际效果，本方法没有使用YOLOv3预设的9种边界框尺寸，而是通过K-means算法选取了九种新的基础边界框尺寸，分别为(7,12),(16,23),(23,40),(44,32),(32,60),(43,75),(52,112),(71,84),(75,128)，并从小到大按照两两一组分配给四个尺度的目标检测(最后一组分配三个)。

关于数据与标注：

本方法基于海量实际婴儿的数据进行标注(婴儿脸部)，在图片内可能不包含婴儿。在人工分理出这部分图片之后，使用这部分图片作为一个背景图片数据集来增强识别的效果。

表情分类识别：

在识别到婴儿脸部之后，本方法通过一种基于EfficientDet的网络实现了对于表情的一步式实时识别。

本方法中的网络的结构如图2所示：

标注好婴儿人脸的关键点后，本方法使用BiFPN的双向特征金字塔网络用于建立不同尺度的特征图之间的信息沟通。上图中蓝色的箭头表示加权的特征融合，而黄色的线表示上采样。融合的函数如下所示：

表达式参数说明：

w_i代表权重，

I_i代表线性加权，

其中ε用于避免分母为零。

关于预测网络，本方法使用的一步式检测器没有区域提议网络，因此本网络对于特征图中每个像素都设置了9个锚点(对应了三个尺寸和三个长宽比)。对于类别检测网络，其总类别数为13个，故输出的总通道数为类别数c×锚点数a。对于边界框预测网络，其每个边界框的参数数量是四个，因此输出的总通道数为4×锚点数a。对于特征点预测网络，如果其关键点的数量为k个，则输出的总通道数为关键点(二维坐标)2k×锚点数a。在此关键点坐标的基础上，额外预测两个关键点的偏移量用于对关键点进行微调。三种预测网络的结构和输出预测的维度如图3所示。

一步式检测方式相比两步式检测方式虽然效率更高，但是同样存在一定的缺陷。由于两步式检测方式使用了区域提议模块来切割出可能存在目标的边界框，其一定程度上起到了分离前景和背景的作用；然而在一步式检测方式中，由于缺少这种切割，会产生一定的标签(前景和背景)不平衡的问题。为了减少这种问题产生的负面影响，本方法使用了以下的焦点损失函数：

L_cls＝-α_t(1-p_t)^γlog(p_t) (2)

函数说明：

p_t是各类别置信度，

α_t是线性参数，

γ是非线性指数参数，

(经常出现的标签产生的损失会因为含γ一项而降低，进而赋予不经常出现的标签更大的影响网络学习的能力)。

使用这个损失函数后，经常出现的标签产生的损失会因为含γ一项而降低，进而赋予不经常出现的标签更大的影响网络学习的能力。

对于边界框的检测，本方法使用了C-IoU损失函数(C矩形边界框预测)：

函数说明：

w^gt是ground truth下的宽，

h^gt是ground truth下的高，

V矩形回归预测中长宽比的相似性，

α两者重叠的大小。

C-IoU不仅考虑到了重合面积占比的大小，还考虑了边界框的长宽比，和中心点的距离。V为两者不考虑尺寸的情况下的长宽比相似性，α为两者重叠的大小(重叠过小则不比较长宽比)；L_bbox第三项为两个边界框中心点的欧几里得距离的平方除以能够同时包含两个边界框的大框的对角线长度的平方，将这一项设为损失可以使两者的中心点相互接近。

对于关键点的检测，本方法使用了误差均方根(Rooted MSE)作为损失函数，同时用v来代表关键点的可见性，如果关键点不可见，则不会反映在损失函数当中。其损失函数如下所示。对关键点进行微调的偏移量与关键点坐标本身的训练思路相同。

特征点预测网络(关键点预测网络)采用了误差均方根损失函数：

函数说明：

y_i是预测值，

是ground truth，

完整的损失函数如下所示：

L_tot＝L_cls+L_bbox+λ_sizeL_landmark+λ_offL_off (5)

λ_size＝0.1 and λ_off＝1.

函数说明：

函数是线性加权的；

L_cls为前面提到的类别检测网络的焦点损失函数；

L_bbox为前面提到的边界框预测网络的C-IoU(C矩形回归预测)损失函数；

L_landmark为前面提到的特征点预测网络的误差均方根损失函数；

λ_size是L_landmark的权重；

L_off为额外预测两个关键点的偏移量，用于对关键点进行微调；

λ_off是L_off的权重；

当然，以上只是本发明的典型实例，除此之外，本发明还可以有其它多种具体实施方式，凡采用等同替换或等效变换形成的技术方案，均落在本发明要求保护的范围之内。

Claims

1.一种婴儿表情分类检测方法，基于YOLOv3目标检测工具，进行训练操作和推理操作，其特征是：训练操作包括依次进行数据输入、Tensor转换、卷积网络特征提取、类别边界框特征点预测、损失函数计算、更新模型参数，推理操作包括在类别边界框特征点预测后进行推理输出；

2.根据权利要求1所述的婴儿表情分类检测方法，其特征是：在训练操作中，输入大量实际带有或不带有婴儿脸部的数据进行标注，通过人工分理出婴儿表情分类这部分图片之后，使用这部分图片作为一个背景图片数据集。

3.根据权利要求2所述的婴儿表情分类检测方法，其特征是：在识别到婴儿脸部特征之后，通过一种基于EfficientDet的网络实现了对于表情的一步式实时识别，

4.根据权利要求1所述的婴儿表情分类检测方法，其特征是：还包括有预测网络，预测网络对于特征图中每个像素都设置了9个锚点，对应了三个尺寸和三个长宽比，

5.根据权利要求4所述的婴儿表情分类检测方法，其特征是：还使用焦点损失函数：

L_cls＝-α_t(1-p_t)^γlog(p_t) (2)；

p_t是各类别置信度，α_t是线性参数，γ是非线性指数参数。

6.根据权利要求1所述的婴儿表情分类检测方法，其特征是：还包括对边界框的检测，使用C-IoU损失函数：

7.根据权利要求1所述的婴儿表情分类检测方法，其特征是：包括关键点检测使用误差均方根作为损失函数，同时用v来代表关键点的可见性，如果关键点不可见，则不会反映在损失函数当中，

其损失函数：

完整的损失函数：

L_tot＝L_cls+L_bbox+λ_sizeL_landmark+λ_offL_off (5)

λ_size＝0.1 and λ_off＝1.

函数是线性加权的，

L_cls为前面提到的类别检测网络的焦点损失函数，

λ_size是L_landmark的权重，

λ_off是L_off的权重，

8.根据权利要求7所述的婴儿表情分类检测方法，其特征是：对关键点进行微调的偏移量与关键点坐标本身的训练方法相同。