CN112464912B - 基于YOLO-RGGNet的机器人端人脸检测方法 - Google Patents
基于YOLO-RGGNet的机器人端人脸检测方法 Download PDFInfo
- Publication number
- CN112464912B CN112464912B CN202011526494.9A CN202011526494A CN112464912B CN 112464912 B CN112464912 B CN 112464912B CN 202011526494 A CN202011526494 A CN 202011526494A CN 112464912 B CN112464912 B CN 112464912B
- Authority
- CN
- China
- Prior art keywords
- module
- rggnet
- robot
- face
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 28
- 230000003993 interaction Effects 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims description 32
- 238000000034 method Methods 0.000 claims description 26
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000013507 mapping Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 8
- 230000009467 reduction Effects 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 238000000926 separation method Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims 1
- 230000004044 response Effects 0.000 abstract description 3
- 238000011897 real-time detection Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 7
- 235000002566 Capsicum Nutrition 0.000 description 3
- 239000006002 Pepper Substances 0.000 description 3
- 241000722363 Piper Species 0.000 description 3
- 235000016761 Piper aduncum Nutrition 0.000 description 3
- 235000017804 Piper guineense Nutrition 0.000 description 3
- 235000008184 Piper nigrum Nutrition 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000008451 emotion Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000007667 floating Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000012014 frustrated Lewis pair Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
Abstract
本发明公开了基于YOLO‑RGGNet的机器人端人脸检测方法。设计了轻量化网络提高检测速度;在检测网络中引入通道注意力模块和残差特征增强模块,还在三个预测层临近交叉的位置拼接产生新的预测层,提高多尺度的检测精度;最后结合机器人平台,采用TriF‑Map算法将基于图像的检测位置转换成机器人空间位置坐标,实现的真实场景人机交互。本发明提出的网络模型提高了识别精度和识别反应速度,解决了移动端人脸识别速度慢导致的场景人机交互不真实的问题,并且通过结合机器人交互系统,能够很好的运用在家庭服务机器人人脸实时检测和跟踪、场景人机交互等多种实时性二次开发场景中。
Description
技术领域
本发明涉及深度学习目标检测和机器人交叉领域,尤其是涉及了基于YOLO-RGGNet的机器人端人脸检测方法。
背景技术
在计算机视觉领域里,对人脸识别与定位对于机器人、基于手机的智能APP、智能显示器支架等应用场合都是一个不可或缺的功能。这种定位通常需要采用双目摄像机、深度摄像机、激光/微波雷达等技术实现,随之而来的是系统硬件成本和算法计算复杂度的提升。
传统的人脸识别算法包括几何特征方法、支持向量机、PCA等。几何特征方法速度快,但识别率较低。支持向量机和PCA方法准确率相对较高,但需要大量的训练样本。
近年来,基于深度学习的人脸识别方法FaceBoxes、MTCNN和FaceNet等,在精度和速度方面都有了巨大的进步,但是这类算法参数量大、资源内存消耗多、实时性不高,不易直接移植到机器人等嵌入式智能终端平台。而随着生活水平的提高,人们迫切需求一种类似于人与人之间的场景真实的人机交互方式,从机器人平台获得更好的情感体验,因而拥有人脸识别、真实情感对话的服务能力的机器人越来越引起人们的关注。如果能将深度学习和机器人结合,构建一种能根据人脸位置变动而实时进行头部转向的的易于移植的人机交互系统,将对开发具有情感和社交智能的个性化机器人方向灌入巨大的潜力,进而对未来人机交互领域产生重大的意义。
发明内容
针对现有技术的不足,本发明提出了基于YOLO-RGGNet的机器人端人脸检测方法,能高效识别出自然环境中人脸并且在机器人平台检测速度快、鲁棒性高。
基于YOLO-RGGNet的机器人端人脸检测方法,具体包括以下步骤:
步骤1、建立数据集
从互联网采集或者拍摄自然场景下的人脸图片,并对图像进行预处理操作扩充数据后划分训练集和验证集,然后标注图像中人脸框的高度、宽度和左上角坐标。
作为优选,对图像进行预处理的操作包括几何变换、高斯模糊和亮度对比度随机调节。
步骤2、构建分类预测网络模型
s2.1、构建特征提取部分
使用5个RGGBlock残差模块代替YOLOv3网络中原有的5个残差块和下采样模块,构建轻量化的DarkRGGNet-44特征提取网络,网络结构依次为3x3卷积块Conv0和5个RGGBlock残差模块;RGGBlock残差模块包括一个RGGNet下采样残差单元块和多个RGGNet残差单元,5个RGGBlock残差模块中RGGNet残差单元的个数依次为1、2、2、2、1个。RGGNet残差单元的结构为将输入的特征依次经过RGG module1、BN层、RELU激活层、RGG module2和BN层后再与恒等映射后的输入特征进行通道拼接操作;RGGNet下采样残差单元块的结构为在RGGNet残差单元的RELU激活层后依次插入1个步长为2的深度可分离卷积、BN层和RELU激活层。
其中,RGG module将通道数为C的输入特征图Pin特征分离为通道数为εC的特征图Prep和通道数为(1-ε)C的特征图Pred,再使用1x1的卷积块提取特征图Pred的隐含细节信息,将其与使用Group-Ghost module提取Prep得到的重要信息进行通道拼接。Group-Ghostmodule将Ghost module的本征特征图分为K组后先经过1x1的卷积块得到多样化的特征图后再进行一次Ghost操作生成多个随机特征,再将随机特征与经过恒等映射的本征特征进行拼接。
s2.2、构建预测部分
将YOLOv3原FPN网络中52x52预测层和26x26预测层中的“concat+CBL*5”模块替换为CEC模块,并将52x52预测层中CEC模块的输出输入到26x26预测层的CEC模块中。将26x26预测层的CEC模块的输出与13x13预测层的CBL*5操作的输出一同输入到13x13预测层的CEC模块后,再将结果与第5个RGGBlock残差模块的输出经过RFA模块后加权相加,再经过CBL和CONV操作后作为13x13预测层的输出。
所述CEC模块包括concat操作、eSENet模块和CBLx5操作;其中eSENet模块的结构为:将输入的特征依次经过全局平均池化、全连接层和Sigmoid操作将通道中的空间特征编码为1x1的全局特征,然后与恒等映射后的输入特征进行点加权操作,计算公式为:
其中F为输入特征图,σ为sigmoid函数,H、W分别为特征图高度和宽度,·表示加权相加,FC为全连接层操作。
所述RFA模块通过自适应池化模块将尺度为s的输入特征图更改为不同尺度的N个上下文特征,然后通过1x1的卷积操作对N个不同尺度的上下文特征进行通道降维,再通过上采样模块将其统一放大到s尺度,最后通过ASF模块进行空间融合后输出。
所述ASF模块的结构为:将输入的特征依次经过通道合并操作、1x1的卷积操作、3x3的卷积操作和通道分离操作后与恒等映射后的输入特征进行通道特征增强操作后输出。
RFA模块的计算公式为:
其中F为输入特征图,ai为自适应尺度参数,表示通道特征增强操作,CUn表示对第n个特征图进行CONV降维操作+UPSA下采样操作,CAT为通道拼接操作。
步骤3、模型训练与优化
向步骤2中构建的分类预测网络模型输入训练集进行迭代训练,并在每次迭代完成时进行验证,保存当前模型的权重文件与此前训练中最好的模型权重文件,使用Adam算法对模型进行优化,当迭代次数为60、80、100或120时,进行学习率衰减,计算公式为:
其中α’表示衰减后的学习率,α表示初始学习率,r表示衰减率,epoch为当前训练的迭代次数,start表示开始进行学习率衰减的迭代次数,v表示衰减速度。
训练达到设置的迭代次数时,结束训练,并保存最好的模型权重文件。
作为优选,设置初始学习率α为0.01,衰减率r为0.9,衰减速度v为5。
作为优选,设置的迭代次数为300次。
步骤4、模型测试
使用移动端机器人的摄像头对周围环境进行实时录像,通过步骤3训练优化好的分类预测网络模型对采集的视频帧图像进行分析,输出图像中人脸框的高度、宽度以及左上角坐标。
步骤5、目标定位与人机交互
采用TriF-Map方法将分类预测模型输出的人脸框位置信息转换为机器人坐标系信息,具体包括:
s5.1、根据分类预测模型输出的人脸框位置信息确定目标中心点坐标(x,y)和宽度bw、高度bH;
s5.2、获取目标的实际尺寸大小;
s5.3、由TriF-Map方法,计算出目标实际位置偏离摄像头的偏航角θyaw、俯仰角θpitch以及距离ξdis:
其中,f为机器人相机焦距。
机器人根据上述计算结果,实时控制头部跟随人脸位置进行转动,实现人脸检测与人机交互。
本发明具有以下有益效果:
1、使用改进的轻量化YOLOv3网络代替原主干网络,从而减少网络计算量和浮点数,提高检测速度,满足交互的实时检测要求;
2、在检测网络中引入通道注意力模块和残差特征增强模块,并在原三个预测层通过跨层级特征拼接产生新的预测层以提高多尺度检测网络的检测精度,满足精确检测的要求;
3、采用TriF-Map算法将基于图像的人脸检测位置转换成机器人空间位置坐标,从而完成机器人端的人脸跟随检测,满足真实场景人机交互要求。
附图说明
图1为本发明人脸检测与人机交互方法的流程框图。
图2为特征提取网络中RGGNet下采样残差单元和RGGNet残差单元结构图。
图3为预测网络中的通道注意力模块eSENet和残差特征增强模块RFA结构图。
图4为本发明构建的分类预测网络模型。
图5为人脸图像位置信息转换成pepper机器人坐标系位置TriF-Map示意图。
图6为实施例中相机坐标系下的pepper机器人响应人脸位置信息的动作示意图。
图7为实施例中世界坐标系下的pepper机器人响应人脸位置信息的动作示意图。
具体实施方式
以下结合附图对本发明作进一步的解释说明;
基于YOLO-RGGNet的机器人端人脸检测方法,如图1所示,具体包括以下步骤:
步骤1、建立数据集
使用机器人拍摄自然场景,得到5000张包含人脸的图像,对这些图像进行几何变换、高斯模糊和亮度对比度随机调节,扩充至8000张,并按6:2的比例随机划分为训练集和验证集,使用标注工具labelImg标注图像中人脸框的高度、宽度以及左上角坐标,将标注后的json文件制作成txt格式的COCO数据集,生成对应的lable文件。
步骤2、构建分类预测网络模型
s2.1、构建特征提取部分
如图2所示,使用5个RGGBlock残差模块代替YOLOv3网络中原有的5个残差块和下采样模块,构建轻量化的DarkRGGNet-44特征提取网络,改善原网络训练复杂和识别速度慢的问题。改进后的特征提取网络结构为3x3卷积块Conv0和5个RGGBlock残差模块;RGGBlock残差模块包括一个RGGNet下采样残差单元块和多个RGGNet残差单元,5个RGGBlock残差模块中RGGNet残差单元的个数依次为1、2、2、2、1个。RGGNet残差单元的结构为将输入的特征依次经过RGG module1、BN层、RELU激活层、RGG module2和BN层后再与恒等映射后的输入特征进行通道拼接操作;RGGNet下采样残差单元块的结构为在RGGNet残差单元的RELU激活层后依次插入1个步长为2的深度可分离卷积、BN层和RELU激活层。其中,RGG module1模块用作扩展层,增加通道数量,RGG module2模块用于减少通道数量,使通道数与恒等映射路径匹配;RGGNet下采样残差单元可以减少网络参数与计算量,并且提高模型训练与检测的速度。
其中,RGG module将通道数为C的输入特征图Pin特征分离为通道数为εC的特征图Prep和通道数为(1-ε)C的特征图Pred,再使用1x1的卷积块提取特征图Pred的隐含细节信息,将其与使用Group-Ghost module提取Prep得到的重要信息进行通道拼接。Group-Ghostmodule将Ghost module的本征特征图分为K组后先经过1x1的卷积块得到多样化的特征图后再进行一次Ghost操作生成多个随机特征,再将随机特征与经过恒等映射的本征特征进行拼接。
s2.2、构建预测部分
如图3所示,将YOLOv3原FPN网络中52x52预测层和26x26预测层中的“concat+CBL*5”模块替换为CEC模块,并将52x52预测层中CEC模块的输出输入到26x26预测层的CEC模块中;将26x26预测层的CEC模块的输出与13x13预测层的CBL*5操作的输出一同输入到13x13预测层的CEC模块后,再将结果与第5个RGGBlock残差模块的输出经过RFA模块后加权相加,再经过CBL和CONV操作后作为13x13预测层的输出;
所述CEC模块包括concat操作、eSENet模块和CBLx5操作;其中eSENet模块将注意力机制融入FPN-AC检测网络中,在降低网络参数量的同时平衡语义特征的信息冗余,增强特征表达能力,提高网络精度,eSENet模块将SENet模块中的全连接层数量减少为一个,具体结构为:将输入的特征依次经过全局平均池化、全连接层和Sigmoid操作将通道中的空间特征编码为1x1的全局特征,然后与恒等映射后的输入特征进行点加权操作,计算公式为:
其中F为输入特征图,σ为sigmoid函数,H、W分别为特征图高度和宽度,·表示加权相加,FC为全连接层操作。
所述RFA模块是为了增强残差特征,以解决输出尺寸为13x13的预测分支由于特征通道的减少而导致的信息丢失问题,RFA模块通过自适应池化模块将尺度为s的输入特征图更改为不同尺度的N个上下文特征,然后通过1x1的卷积操作对N个不同尺度的上下文特征进行通道降维,再通过上采样模块将其统一放大到s尺度,最后通过ASF模块进行空间融合后输出。
所述ASF模块的结构为:将输入的特征依次经过通道合并操作、1x1的卷积操作、3x3的卷积操作和通道分离操作后与恒等映射后的输入特征进行通道特征增强操作后输出。
RFA模块的计算公式为:
其中F为输入特征图,ai为自适应尺度参数,表示通道特征增强操作,CUn表示对第n个特征图进行CONV降维操作+UPSA下采样操作,CAT为通道拼接操作。
步骤3、模型训练与优化
如图4所示,向步骤2中构建的分类预测网络模型输入训练集进行迭代训练,每次迭代完成时进行验证,保存当前模型的权重文件与此前训练中最好的模型权重文件,使用Adam算法对模型进行优化,当迭代次数达到80次时进行学习率衰减,计算公式为:
其中α’表示衰减后的学习率,epoch为当前训练的迭代次数,设置初始学习率α=0.01,衰减率r=0.9,衰减速度v=5。
迭代训练300次后,结束训练与优化,保存最好的模型权重文件。
步骤4、模型测试
使用移动端机器人的摄像头对周围环境进行实时录像,通过步骤3训练优化好的分类预测网络模型对采集的视频帧图像进行分析,输出图像中人脸框的中心点坐标与左上角坐标。测试结果如下表所示:
模型 | FLOPs(B) | Weights(M) | Time-spent/ms | mAP/% |
1 | 48.47 | 249 | 129.77 | 80.52 |
2 | 26.62 | 115 | 92.56 | 84.78 |
3 | 29.18 | 121 | 103.35 | 85.46 |
4 | 31.32 | 134 | 114.42 | 87.79 |
其中模型1为YOLOv3网络模型,模型2为仅使用RGGBlock残差模块对YOLOv3进行改进的网络模型,模型3为本发明中仅在预测部分插入eSENet模块和RFA模块的分类预测模型,模型4为本发明提出的分类预测网络模型;FLOPs表示模型的浮点数,Weights表示模型权重参数,Time-spent表示检测一张图片耗费的时间,mAP表示检测平均正确率。
由表中数据可以得到,本发明提出的分类预测网络模型,识别速度和准确率都优于改进前的YOLOv3网络,同时还具有稳定性好、抗干扰能力强、通用性高等优点。
步骤5、目标定位与人机交互
如图5所示,采用TriF-Map方法将分类预测模型输出的人脸框位置信息转换为机器人坐标系信息,具体包括:
s5.1、根据分类预测模型输出的人脸框位置信息确定目标中心点坐标(x,y)和宽度bw、高度bH;
s5.2、获取目标的实际尺寸大小Hfact×Wfact;
s5.3、由TriF-Map方法,计算出目标实际位置偏离摄像头的偏航角θyaw、俯仰角θpitch以及距离ξdis:
其中,f为机器人相机焦距。
机器人根据上述计算结果,实时控制头部跟随人脸位置进行转动,实现人脸检测与人机交互,如图6、7所示。
上述具体实施方式用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。
Claims (6)
1.基于YOLO-RGGNet的机器人端人脸检测方法,其特征在于:具体包括以下步骤:
步骤1、建立数据集
从互联网采集或者拍摄自然场景下的人脸图片,并对图像进行预处理操作扩充数据后划分训练集和验证集,然后标注图像中人脸框的中心点坐标以及4个顶点的坐标;
步骤2、构建分类预测网络模型
s2.1、构建特征提取部分
使用5个RGGBlock残差模块代替YOLOv3网络中原有的5个残差块和下采样模块,构建轻量化的DarkRGGNet-44特征提取网络,网络结构依次为3x3卷积块Conv0和5个RGGBlock残差模块;RGGBlock残差模块包括一个RGGNet下采样残差单元块和多个RGGNet残差单元,5个RGGBlock残差模块中RGGNet残差单元的个数依次为1、2、2、2、1个;RGGNet残差单元的结构为将输入的特征依次经过RGG module1、BN层、RELU激活层、RGG module2和BN层后再与恒等映射后的输入特征进行通道拼接操作;RGGNet下采样残差单元块的结构为在RGGNet残差单元的RELU激活层后依次插入1个步长为2的深度可分离卷积、BN层和RELU激活层;
其中,RGG module将通道数为C的输入特征图Pin特征分离为通道数为εC的特征图Prep和通道数为(1-ε)C的特征图Pred,再使用1x1的卷积块提取特征图Pred的隐含细节信息,将其与使用Group-Ghost module提取Prep得到的重要信息进行通道拼接;Group-Ghost module将Ghost module的本征特征图分为K组后先经过1x1的卷积块得到多样化的特征图后再进行一次Ghost操作生成多个随机特征,再将随机特征与经过恒等映射的本征特征进行拼接;
s2.2、构建预测部分
将YOLOv3原FPN网络中52x52预测层和26x26预测层中的“concat+CBL*5”模块替换为CEC模块,并将52x52预测层中CEC模块的输出输入到26x26预测层的CEC模块中;将26x26预测层的CEC模块的输出与13x13预测层的CBL*5操作的输出一同输入到CEC模块后,再将结果与第5个RGGBlock残差模块的输出经过RFA模块后加权相加,再经过CBL和CONV操作后作为13x13预测层的输出;所述CEC模块包括concat操作、eSENet模块和CBLx5操作;其中eSENet模块的结构为:将输入的特征依次经过全局平均池化、全连接层和Sigmoid操作将通道中的空间特征编码为1x1的全局特征,然后与恒等映射后的输入特征进行点加权操作;
所述RFA模块通过自适应池化模块将尺度为s的输入特征图更改为不同尺度的N个上下文特征,然后通过1x1的卷积操作对N个不同尺度的上下文特征进行通道降维,再通过上采样模块将其统一放大到s尺度,最后通过ASF模块进行空间融合后输出;
所述ASF模块的结构为:将输入的特征依次经过通道合并操作、1x1的卷积操作、3x3的卷积操作和通道分离操作后与恒等映射后的输入特征进行通道特征增强操作后输出;
步骤3、模型训练与优化
向步骤2中构建的分类预测网络模型输入训练集进行迭代训练,并在每次迭代完成时进行验证,保存当前模型的权重文件与此前训练中最好的模型权重文件,使用Adam算法对模型进行优化,迭代训练start次后,进行学习率衰减,计算公式为:
其中α’表示衰减后的学习率,α表示初始学习率,r表示衰减率,epoch为当前训练的迭代次数,v表示衰减速度;
训练达到设置的迭代次数时,结束训练,并保存最好的模型权重文件;
步骤4、模型测试
使用移动端机器人的摄像头对周围环境进行实时录像,通过步骤3训练优化好的分类预测网络模型对采集的视频帧图像进行分析,输出图像中人脸框的中心点坐标与左上角坐标;
步骤5、图像检测
对拍摄的图像进行检测,得到图像中人脸框的中心点坐标与左上角坐标,采用TriF-Map方法将人脸框位置信息转换为机器人坐标系信息,具体包括以下步骤:
s5.1、根据分类预测模型输出的人脸框位置信息确定目标中心点坐标(x,y)和宽度bw、高度bH;
s5.2、获取目标的实际尺寸大小Hfact×Wfact;
s5.3、由TriF-Map方法,计算出目标实际位置偏离摄像头的偏航角θyaw、俯仰角θpitch以及距离ξdis:
其中,f为机器人相机焦距;
机器人根据变换后的坐标信息,实时控制头部跟随人脸位置进行转动,实现人机交互。
2.如权利要求1所述基于YOLO-RGGNet的机器人端人脸检测方法,其特征在于:步骤1中对图像进行预处理的操作包括几何变换、高斯模糊和亮度对比度随机调节。
3.如权利要求1所述基于YOLO-RGGNet的机器人端人脸检测方法,其特征在于:步骤2.2中,eSENet模块计算公式为:
其中F为输入特征图,σ为sigmoid函数,H、W分别为特征图高度和宽度,·表示加权相加,FC为全连接层操作。
4.如权利要求1所述基于YOLO-RGGNet的机器人端人脸检测方法,其特征在于:步骤2.2中,RFA模块的计算公式为:
其中F为输入特征图,an为自适应尺度参数,表示通道特征增强操作,CUn表示对第n个特征图进行CONV降维操作+UPSA下采样操作,CAT为通道拼接操作。
5.如权利要求1所述基于YOLO-RGGNet的机器人端人脸检测方法,其特征在于:步骤3中设置初始学习率α为0.01,衰减率r为0.9,衰减速度c为5,结束迭代训练的次数为300次。
6.如权利要求1所述基于YOLO-RGGNet的机器人端人脸检测方法,其特征在于:步骤3中,start的取值为60、80、100或120。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011526494.9A CN112464912B (zh) | 2020-12-22 | 2020-12-22 | 基于YOLO-RGGNet的机器人端人脸检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011526494.9A CN112464912B (zh) | 2020-12-22 | 2020-12-22 | 基于YOLO-RGGNet的机器人端人脸检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112464912A CN112464912A (zh) | 2021-03-09 |
CN112464912B true CN112464912B (zh) | 2024-02-09 |
Family
ID=74804535
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011526494.9A Active CN112464912B (zh) | 2020-12-22 | 2020-12-22 | 基于YOLO-RGGNet的机器人端人脸检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112464912B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112633264B (zh) * | 2021-03-11 | 2021-06-15 | 深圳市安软科技股份有限公司 | 一种车辆属性识别方法、装置、电子设备及存储介质 |
CN112990090A (zh) * | 2021-04-09 | 2021-06-18 | 北京华捷艾米科技有限公司 | 一种人脸活体检测方法及装置 |
CN114390760B (zh) * | 2022-01-20 | 2023-11-21 | 北方工业大学 | 一种灯光控制方法及系统 |
CN116363485B (zh) * | 2023-05-22 | 2024-03-12 | 齐鲁工业大学(山东省科学院) | 一种基于改进YOLOv5的高分辨率目标检测方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108710831A (zh) * | 2018-04-24 | 2018-10-26 | 华南理工大学 | 一种基于机器视觉的小数据集人脸识别算法 |
CN109543606A (zh) * | 2018-11-22 | 2019-03-29 | 中山大学 | 一种加入注意力机制的人脸识别方法 |
-
2020
- 2020-12-22 CN CN202011526494.9A patent/CN112464912B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108710831A (zh) * | 2018-04-24 | 2018-10-26 | 华南理工大学 | 一种基于机器视觉的小数据集人脸识别算法 |
CN109543606A (zh) * | 2018-11-22 | 2019-03-29 | 中山大学 | 一种加入注意力机制的人脸识别方法 |
Non-Patent Citations (1)
Title |
---|
RGGNet: Tolerance Aware LiDAR-Camera Online Calibration With Geometric Deep Learning and Generative Model;Yuan Kaiwen 等;《IEEE Robotics and Automation Letters》;第5卷(第4期);第6956-6963页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112464912A (zh) | 2021-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112464912B (zh) | 基于YOLO-RGGNet的机器人端人脸检测方法 | |
JP7147078B2 (ja) | ビデオフレームの情報ラベリング方法、装置、機器及びコンピュータプログラム | |
CN111126359B (zh) | 基于自编码器与yolo算法的高清图像小目标检测方法 | |
CN114202672A (zh) | 一种基于注意力机制的小目标检测方法 | |
CN109960742B (zh) | 局部信息的搜索方法及装置 | |
CN111950453A (zh) | 一种基于选择性注意力机制的任意形状文本识别方法 | |
CN114565655B (zh) | 一种基于金字塔分割注意力的深度估计方法及装置 | |
US11367195B2 (en) | Image segmentation method, image segmentation apparatus, image segmentation device | |
CN110705566B (zh) | 一种基于空间金字塔池的多模态融合显著性检测方法 | |
CN112200057A (zh) | 人脸活体检测方法、装置、电子设备及存储介质 | |
CN113313703A (zh) | 基于深度学习图像识别的无人机输电线巡检方法 | |
CN109657538B (zh) | 基于上下文信息指导的场景分割方法和系统 | |
CN113724379B (zh) | 融合图像与激光点云的三维重建方法及装置 | |
CN109165654B (zh) | 一种目标定位模型的训练方法和目标定位方法及装置 | |
CN110310305A (zh) | 一种基于bssd检测与卡尔曼滤波的目标跟踪方法与装置 | |
CN114758337B (zh) | 一种语义实例重建方法、装置、设备及介质 | |
CN114693908A (zh) | 一种基于YOLOv5的工业二维码定位方法 | |
CN111368637B (zh) | 一种基于多掩模卷积神经网络的搬运机器人识别目标方法 | |
CN116823885A (zh) | 一种基于金字塔池化注意力机制的端到端单目标跟踪方法 | |
CN116485892A (zh) | 一种弱纹理物体的六自由度位姿估计方法 | |
CN115690770A (zh) | 基于空间注意力特征的非受限场景下的车牌识别方法 | |
CN112084815A (zh) | 一种基于摄像机焦距变换的目标检测方法、存储介质及处理器 | |
CN115937520A (zh) | 基于语义信息引导的点云运动目标分割方法 | |
CN115359091A (zh) | 一种用于移动机器人的装甲板检测跟踪方法 | |
CN115984443A (zh) | 一种可见光相机的空间卫星目标图像仿真方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |