CN112464912B

CN112464912B - 基于YOLO-RGGNet的机器人端人脸检测方法

Info

Publication number: CN112464912B
Application number: CN202011526494.9A
Authority: CN
Inventors: 何志伟; 陈志民; 董哲康; 高明煜
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2024-02-09
Anticipated expiration: 2040-12-22
Also published as: CN112464912A

Abstract

本发明公开了基于YOLO‑RGGNet的机器人端人脸检测方法。设计了轻量化网络提高检测速度；在检测网络中引入通道注意力模块和残差特征增强模块，还在三个预测层临近交叉的位置拼接产生新的预测层，提高多尺度的检测精度；最后结合机器人平台，采用TriF‑Map算法将基于图像的检测位置转换成机器人空间位置坐标，实现的真实场景人机交互。本发明提出的网络模型提高了识别精度和识别反应速度，解决了移动端人脸识别速度慢导致的场景人机交互不真实的问题，并且通过结合机器人交互系统，能够很好的运用在家庭服务机器人人脸实时检测和跟踪、场景人机交互等多种实时性二次开发场景中。

Description

基于YOLO-RGGNet的机器人端人脸检测方法

技术领域

本发明涉及深度学习目标检测和机器人交叉领域，尤其是涉及了基于YOLO-RGGNet的机器人端人脸检测方法。

背景技术

在计算机视觉领域里，对人脸识别与定位对于机器人、基于手机的智能APP、智能显示器支架等应用场合都是一个不可或缺的功能。这种定位通常需要采用双目摄像机、深度摄像机、激光/微波雷达等技术实现，随之而来的是系统硬件成本和算法计算复杂度的提升。

传统的人脸识别算法包括几何特征方法、支持向量机、PCA等。几何特征方法速度快，但识别率较低。支持向量机和PCA方法准确率相对较高，但需要大量的训练样本。

近年来，基于深度学习的人脸识别方法FaceBoxes、MTCNN和FaceNet等，在精度和速度方面都有了巨大的进步，但是这类算法参数量大、资源内存消耗多、实时性不高，不易直接移植到机器人等嵌入式智能终端平台。而随着生活水平的提高，人们迫切需求一种类似于人与人之间的场景真实的人机交互方式，从机器人平台获得更好的情感体验，因而拥有人脸识别、真实情感对话的服务能力的机器人越来越引起人们的关注。如果能将深度学习和机器人结合，构建一种能根据人脸位置变动而实时进行头部转向的的易于移植的人机交互系统，将对开发具有情感和社交智能的个性化机器人方向灌入巨大的潜力，进而对未来人机交互领域产生重大的意义。

发明内容

针对现有技术的不足，本发明提出了基于YOLO-RGGNet的机器人端人脸检测方法，能高效识别出自然环境中人脸并且在机器人平台检测速度快、鲁棒性高。

基于YOLO-RGGNet的机器人端人脸检测方法，具体包括以下步骤：

步骤1、建立数据集

从互联网采集或者拍摄自然场景下的人脸图片，并对图像进行预处理操作扩充数据后划分训练集和验证集，然后标注图像中人脸框的高度、宽度和左上角坐标。

作为优选，对图像进行预处理的操作包括几何变换、高斯模糊和亮度对比度随机调节。

步骤2、构建分类预测网络模型

s2.1、构建特征提取部分

使用5个RGGBlock残差模块代替YOLOv3网络中原有的5个残差块和下采样模块，构建轻量化的DarkRGGNet-44特征提取网络，网络结构依次为3x3卷积块Conv0和5个RGGBlock残差模块；RGGBlock残差模块包括一个RGGNet下采样残差单元块和多个RGGNet残差单元，5个RGGBlock残差模块中RGGNet残差单元的个数依次为1、2、2、2、1个。RGGNet残差单元的结构为将输入的特征依次经过RGG module1、BN层、RELU激活层、RGG module2和BN层后再与恒等映射后的输入特征进行通道拼接操作；RGGNet下采样残差单元块的结构为在RGGNet残差单元的RELU激活层后依次插入1个步长为2的深度可分离卷积、BN层和RELU激活层。

其中，RGG module将通道数为C的输入特征图P_in特征分离为通道数为εC的特征图P_rep和通道数为(1-ε)C的特征图P_red，再使用1x1的卷积块提取特征图P_red的隐含细节信息，将其与使用Group-Ghost module提取P_rep得到的重要信息进行通道拼接。Group-Ghostmodule将Ghost module的本征特征图分为K组后先经过1x1的卷积块得到多样化的特征图后再进行一次Ghost操作生成多个随机特征，再将随机特征与经过恒等映射的本征特征进行拼接。

s2.2、构建预测部分

将YOLOv3原FPN网络中52x52预测层和26x26预测层中的“concat+CBL*5”模块替换为CEC模块，并将52x52预测层中CEC模块的输出输入到26x26预测层的CEC模块中。将26x26预测层的CEC模块的输出与13x13预测层的CBL*5操作的输出一同输入到13x13预测层的CEC模块后，再将结果与第5个RGGBlock残差模块的输出经过RFA模块后加权相加，再经过CBL和CONV操作后作为13x13预测层的输出。

所述CEC模块包括concat操作、eSENet模块和CBLx5操作；其中eSENet模块的结构为：将输入的特征依次经过全局平均池化、全连接层和Sigmoid操作将通道中的空间特征编码为1x1的全局特征，然后与恒等映射后的输入特征进行点加权操作，计算公式为：

其中F为输入特征图，σ为sigmoid函数，H、W分别为特征图高度和宽度，·表示加权相加，FC为全连接层操作。

所述RFA模块通过自适应池化模块将尺度为s的输入特征图更改为不同尺度的N个上下文特征，然后通过1x1的卷积操作对N个不同尺度的上下文特征进行通道降维，再通过上采样模块将其统一放大到s尺度，最后通过ASF模块进行空间融合后输出。

所述ASF模块的结构为：将输入的特征依次经过通道合并操作、1x1的卷积操作、3x3的卷积操作和通道分离操作后与恒等映射后的输入特征进行通道特征增强操作后输出。

RFA模块的计算公式为：

其中F为输入特征图，a_i为自适应尺度参数，表示通道特征增强操作，CU_n表示对第n个特征图进行CONV降维操作+UPSA下采样操作，CAT为通道拼接操作。

步骤3、模型训练与优化

向步骤2中构建的分类预测网络模型输入训练集进行迭代训练，并在每次迭代完成时进行验证，保存当前模型的权重文件与此前训练中最好的模型权重文件，使用Adam算法对模型进行优化，当迭代次数为60、80、100或120时，进行学习率衰减，计算公式为：

其中α’表示衰减后的学习率，α表示初始学习率，r表示衰减率，epoch为当前训练的迭代次数，start表示开始进行学习率衰减的迭代次数，v表示衰减速度。

训练达到设置的迭代次数时，结束训练，并保存最好的模型权重文件。

作为优选，设置初始学习率α为0.01，衰减率r为0.9，衰减速度v为5。

作为优选，设置的迭代次数为300次。

步骤4、模型测试

使用移动端机器人的摄像头对周围环境进行实时录像，通过步骤3训练优化好的分类预测网络模型对采集的视频帧图像进行分析，输出图像中人脸框的高度、宽度以及左上角坐标。

步骤5、目标定位与人机交互

采用TriF-Map方法将分类预测模型输出的人脸框位置信息转换为机器人坐标系信息，具体包括：

s5.1、根据分类预测模型输出的人脸框位置信息确定目标中心点坐标(x，y)和宽度b_w、高度b_H；

s5.2、获取目标的实际尺寸大小；

s5.3、由TriF-Map方法，计算出目标实际位置偏离摄像头的偏航角θ_yaw、俯仰角θ_pitch以及距离ξ_dis：

其中，f为机器人相机焦距。

机器人根据上述计算结果，实时控制头部跟随人脸位置进行转动，实现人脸检测与人机交互。

本发明具有以下有益效果：

1、使用改进的轻量化YOLOv3网络代替原主干网络，从而减少网络计算量和浮点数，提高检测速度，满足交互的实时检测要求；

2、在检测网络中引入通道注意力模块和残差特征增强模块，并在原三个预测层通过跨层级特征拼接产生新的预测层以提高多尺度检测网络的检测精度，满足精确检测的要求；

3、采用TriF-Map算法将基于图像的人脸检测位置转换成机器人空间位置坐标，从而完成机器人端的人脸跟随检测，满足真实场景人机交互要求。

附图说明

图1为本发明人脸检测与人机交互方法的流程框图。

图2为特征提取网络中RGGNet下采样残差单元和RGGNet残差单元结构图。

图3为预测网络中的通道注意力模块eSENet和残差特征增强模块RFA结构图。

图4为本发明构建的分类预测网络模型。

图5为人脸图像位置信息转换成pepper机器人坐标系位置TriF-Map示意图。

图6为实施例中相机坐标系下的pepper机器人响应人脸位置信息的动作示意图。

图7为实施例中世界坐标系下的pepper机器人响应人脸位置信息的动作示意图。

具体实施方式

以下结合附图对本发明作进一步的解释说明；

基于YOLO-RGGNet的机器人端人脸检测方法，如图1所示，具体包括以下步骤：

步骤1、建立数据集

使用机器人拍摄自然场景，得到5000张包含人脸的图像，对这些图像进行几何变换、高斯模糊和亮度对比度随机调节，扩充至8000张，并按6:2的比例随机划分为训练集和验证集，使用标注工具labelImg标注图像中人脸框的高度、宽度以及左上角坐标，将标注后的json文件制作成txt格式的COCO数据集，生成对应的lable文件。

步骤2、构建分类预测网络模型

s2.1、构建特征提取部分

如图2所示，使用5个RGGBlock残差模块代替YOLOv3网络中原有的5个残差块和下采样模块，构建轻量化的DarkRGGNet-44特征提取网络，改善原网络训练复杂和识别速度慢的问题。改进后的特征提取网络结构为3x3卷积块Conv0和5个RGGBlock残差模块；RGGBlock残差模块包括一个RGGNet下采样残差单元块和多个RGGNet残差单元，5个RGGBlock残差模块中RGGNet残差单元的个数依次为1、2、2、2、1个。RGGNet残差单元的结构为将输入的特征依次经过RGG module1、BN层、RELU激活层、RGG module2和BN层后再与恒等映射后的输入特征进行通道拼接操作；RGGNet下采样残差单元块的结构为在RGGNet残差单元的RELU激活层后依次插入1个步长为2的深度可分离卷积、BN层和RELU激活层。其中，RGG module1模块用作扩展层，增加通道数量，RGG module2模块用于减少通道数量，使通道数与恒等映射路径匹配；RGGNet下采样残差单元可以减少网络参数与计算量，并且提高模型训练与检测的速度。

s2.2、构建预测部分

如图3所示，将YOLOv3原FPN网络中52x52预测层和26x26预测层中的“concat+CBL*5”模块替换为CEC模块，并将52x52预测层中CEC模块的输出输入到26x26预测层的CEC模块中；将26x26预测层的CEC模块的输出与13x13预测层的CBL*5操作的输出一同输入到13x13预测层的CEC模块后，再将结果与第5个RGGBlock残差模块的输出经过RFA模块后加权相加，再经过CBL和CONV操作后作为13x13预测层的输出；

所述CEC模块包括concat操作、eSENet模块和CBLx5操作；其中eSENet模块将注意力机制融入FPN-AC检测网络中，在降低网络参数量的同时平衡语义特征的信息冗余，增强特征表达能力，提高网络精度，eSENet模块将SENet模块中的全连接层数量减少为一个，具体结构为：将输入的特征依次经过全局平均池化、全连接层和Sigmoid操作将通道中的空间特征编码为1x1的全局特征，然后与恒等映射后的输入特征进行点加权操作，计算公式为：

所述RFA模块是为了增强残差特征，以解决输出尺寸为13x13的预测分支由于特征通道的减少而导致的信息丢失问题，RFA模块通过自适应池化模块将尺度为s的输入特征图更改为不同尺度的N个上下文特征，然后通过1x1的卷积操作对N个不同尺度的上下文特征进行通道降维，再通过上采样模块将其统一放大到s尺度，最后通过ASF模块进行空间融合后输出。

RFA模块的计算公式为：

步骤3、模型训练与优化

如图4所示，向步骤2中构建的分类预测网络模型输入训练集进行迭代训练，每次迭代完成时进行验证，保存当前模型的权重文件与此前训练中最好的模型权重文件，使用Adam算法对模型进行优化，当迭代次数达到80次时进行学习率衰减，计算公式为：

其中α’表示衰减后的学习率，epoch为当前训练的迭代次数，设置初始学习率α＝0.01，衰减率r＝0.9，衰减速度v＝5。

迭代训练300次后，结束训练与优化，保存最好的模型权重文件。

步骤4、模型测试

使用移动端机器人的摄像头对周围环境进行实时录像，通过步骤3训练优化好的分类预测网络模型对采集的视频帧图像进行分析，输出图像中人脸框的中心点坐标与左上角坐标。测试结果如下表所示：

模型	FLOPs(B)	Weights(M)	Time-spent/ms	mAP/％
					1	48.47	249	129.77	80.52
2	26.62	115	92.56	84.78
					3	29.18	121	103.35	85.46
4	31.32	134	114.42	87.79

其中模型1为YOLOv3网络模型，模型2为仅使用RGGBlock残差模块对YOLOv3进行改进的网络模型，模型3为本发明中仅在预测部分插入eSENet模块和RFA模块的分类预测模型，模型4为本发明提出的分类预测网络模型；FLOPs表示模型的浮点数，Weights表示模型权重参数，Time-spent表示检测一张图片耗费的时间，mAP表示检测平均正确率。

由表中数据可以得到，本发明提出的分类预测网络模型，识别速度和准确率都优于改进前的YOLOv3网络，同时还具有稳定性好、抗干扰能力强、通用性高等优点。

步骤5、目标定位与人机交互

如图5所示，采用TriF-Map方法将分类预测模型输出的人脸框位置信息转换为机器人坐标系信息，具体包括：

s5.2、获取目标的实际尺寸大小H_fact×W_fact；

其中，f为机器人相机焦距。

机器人根据上述计算结果，实时控制头部跟随人脸位置进行转动，实现人脸检测与人机交互，如图6、7所示。

上述具体实施方式用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

1.基于YOLO-RGGNet的机器人端人脸检测方法，其特征在于：具体包括以下步骤：

步骤1、建立数据集

从互联网采集或者拍摄自然场景下的人脸图片，并对图像进行预处理操作扩充数据后划分训练集和验证集，然后标注图像中人脸框的中心点坐标以及4个顶点的坐标；

步骤2、构建分类预测网络模型

s2.1、构建特征提取部分

使用5个RGGBlock残差模块代替YOLOv3网络中原有的5个残差块和下采样模块，构建轻量化的DarkRGGNet-44特征提取网络，网络结构依次为3x3卷积块Conv0和5个RGGBlock残差模块；RGGBlock残差模块包括一个RGGNet下采样残差单元块和多个RGGNet残差单元，5个RGGBlock残差模块中RGGNet残差单元的个数依次为1、2、2、2、1个；RGGNet残差单元的结构为将输入的特征依次经过RGG module1、BN层、RELU激活层、RGG module2和BN层后再与恒等映射后的输入特征进行通道拼接操作；RGGNet下采样残差单元块的结构为在RGGNet残差单元的RELU激活层后依次插入1个步长为2的深度可分离卷积、BN层和RELU激活层；

其中，RGG module将通道数为C的输入特征图P_in特征分离为通道数为εC的特征图P_rep和通道数为(1-ε)C的特征图P_red，再使用1x1的卷积块提取特征图P_red的隐含细节信息，将其与使用Group-Ghost module提取P_rep得到的重要信息进行通道拼接；Group-Ghost module将Ghost module的本征特征图分为K组后先经过1x1的卷积块得到多样化的特征图后再进行一次Ghost操作生成多个随机特征，再将随机特征与经过恒等映射的本征特征进行拼接；

s2.2、构建预测部分

将YOLOv3原FPN网络中52x52预测层和26x26预测层中的“concat+CBL*5”模块替换为CEC模块，并将52x52预测层中CEC模块的输出输入到26x26预测层的CEC模块中；将26x26预测层的CEC模块的输出与13x13预测层的CBL*5操作的输出一同输入到CEC模块后，再将结果与第5个RGGBlock残差模块的输出经过RFA模块后加权相加，再经过CBL和CONV操作后作为13x13预测层的输出；所述CEC模块包括concat操作、eSENet模块和CBLx5操作；其中eSENet模块的结构为：将输入的特征依次经过全局平均池化、全连接层和Sigmoid操作将通道中的空间特征编码为1x1的全局特征，然后与恒等映射后的输入特征进行点加权操作；

所述RFA模块通过自适应池化模块将尺度为s的输入特征图更改为不同尺度的N个上下文特征，然后通过1x1的卷积操作对N个不同尺度的上下文特征进行通道降维，再通过上采样模块将其统一放大到s尺度，最后通过ASF模块进行空间融合后输出；

所述ASF模块的结构为：将输入的特征依次经过通道合并操作、1x1的卷积操作、3x3的卷积操作和通道分离操作后与恒等映射后的输入特征进行通道特征增强操作后输出；

步骤3、模型训练与优化

向步骤2中构建的分类预测网络模型输入训练集进行迭代训练，并在每次迭代完成时进行验证，保存当前模型的权重文件与此前训练中最好的模型权重文件，使用Adam算法对模型进行优化，迭代训练start次后，进行学习率衰减，计算公式为：

其中α’表示衰减后的学习率，α表示初始学习率，r表示衰减率，epoch为当前训练的迭代次数，v表示衰减速度；

训练达到设置的迭代次数时，结束训练，并保存最好的模型权重文件；

步骤4、模型测试

使用移动端机器人的摄像头对周围环境进行实时录像，通过步骤3训练优化好的分类预测网络模型对采集的视频帧图像进行分析，输出图像中人脸框的中心点坐标与左上角坐标；

步骤5、图像检测

对拍摄的图像进行检测，得到图像中人脸框的中心点坐标与左上角坐标，采用TriF-Map方法将人脸框位置信息转换为机器人坐标系信息，具体包括以下步骤：

s5.2、获取目标的实际尺寸大小H_fact×W_fact；

其中，f为机器人相机焦距；

机器人根据变换后的坐标信息，实时控制头部跟随人脸位置进行转动，实现人机交互。

2.如权利要求1所述基于YOLO-RGGNet的机器人端人脸检测方法，其特征在于：步骤1中对图像进行预处理的操作包括几何变换、高斯模糊和亮度对比度随机调节。

3.如权利要求1所述基于YOLO-RGGNet的机器人端人脸检测方法，其特征在于：步骤2.2中，eSENet模块计算公式为：

4.如权利要求1所述基于YOLO-RGGNet的机器人端人脸检测方法，其特征在于：步骤2.2中，RFA模块的计算公式为：

其中F为输入特征图，a_n为自适应尺度参数，表示通道特征增强操作，CU_n表示对第n个特征图进行CONV降维操作+UPSA下采样操作，CAT为通道拼接操作。

5.如权利要求1所述基于YOLO-RGGNet的机器人端人脸检测方法，其特征在于：步骤3中设置初始学习率α为0.01，衰减率r为0.9，衰减速度c为5，结束迭代训练的次数为300次。

6.如权利要求1所述基于YOLO-RGGNet的机器人端人脸检测方法，其特征在于：步骤3中，start的取值为60、80、100或120。