CN115423739A - 基于SimpleBaseline的遥操作机械臂关键点的检测方法 - Google Patents

基于SimpleBaseline的遥操作机械臂关键点的检测方法 Download PDF

Info

Publication number
CN115423739A
CN115423739A CN202210541064.7A CN202210541064A CN115423739A CN 115423739 A CN115423739 A CN 115423739A CN 202210541064 A CN202210541064 A CN 202210541064A CN 115423739 A CN115423739 A CN 115423739A
Authority
CN
China
Prior art keywords
simplebaseline
network
mechanical arm
convolution
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210541064.7A
Other languages
English (en)
Inventor
邱鸿华
郭建文
黄元宝
邓夏雨
伍逸轩
黄嘉乐
殷丰伍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dongguan University of Technology
Original Assignee
Dongguan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dongguan University of Technology filed Critical Dongguan University of Technology
Priority to CN202210541064.7A priority Critical patent/CN115423739A/zh
Publication of CN115423739A publication Critical patent/CN115423739A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于SimpleBaseline的遥操作机械臂关键点的检测方法,涉及遥操作目标检测方法技术领域,用于检测机械臂图像中的关键点,基于视觉获取遥操作机械臂的姿态,包括如下步骤:S1、SimpleBaseline的实现:SimpleBaseline是二维人体关键点检测网络,整个网络的是由主干网络ResNet与3个负责上采样将分辨率恢复的转置卷积组成;S2、SimpleBaseline主干网络轻量化:轻量级的卷积网络从卷积运算去优化;S3、基于姿态蒸馏的轻量化SimpleBaseline:寻找一个合适的姿态知识迁移函数实现优化。本发明研究了基于SimpleBaseline的遥操作机械臂二维关键点检测算法,并在此基础上进行了主干网络轻量化来提高模型的实时性。针对上采样模块存在冗余性的问题,对转置卷积模块进行通道压缩以及姿态蒸馏来进一步提高模型的实时性。

Description

基于SimpleBaseline的遥操作机械臂关键点的检测方法
技术领域
本发明涉及一种遥操作目标检测方法,尤指一种基于SimpleBaseline的遥操作机械臂关键点的检测方法。
背景技术
遥操作系统是很多大科学装置的重要组成部分。考虑辐射对人的影响,大科学装置的热室需要部署由操作人员进行遥操作的动力机械臂完成相应部件的检查、装配、拆卸、运输、修复等操作。由于热室的辐射环境限制了相关传感器的接入,遥操作机械臂位置姿态信息的获取大多基于热室里布置的多个防辐射摄像头,由操作人员观察获得。这种通过频繁切换视角获取遥操作机械臂位置姿态信息的方式影响操作员遥操作的效率。如何基于视觉获取遥操作机械臂的姿态,是热室遥操作要解决的重要问题。为了掌握遥操作机械臂的姿态信息,需要先对机械臂图像中的关键点进行检测。
发明内容
针对上述提出的为了掌握遥操作机械臂的姿态信息,本发明旨在基于SimpleBaseline训练出一个遥操作机械臂关键点的检测模型,同时引入轻量级的主干网络并且通过姿态蒸馏对网络上采样模块的转置卷积层进行通道数压缩,提供一种可提高模型实时性的基于SimpleBaseline的遥操作机械臂关键点的检测方法。
本发明解决技术问题所采用的技术方案是:基于SimpleBaseline的遥操作机械臂关键点的检测方法,所述的检测方法通过以下步骤实现:
S1、SimpleBaseline的实现:SimpleBaseline是二维人体关键点检测网络,整个网络的是由主干网络ResNet与3个负责上采样将分辨率恢复的转置卷积组成;
S2、SimpleBaseline主干网络轻量化:轻量级的卷积网络从卷积运算去优化;
S3、基于姿态蒸馏的轻量化SimpleBaseline:寻找一个合适的姿态知识迁移函数实现优化。
所述的转置卷积首先根据卷积核参数在输入特征图的元素间填充0,然后将卷积核参数进行上下、左右翻转,最后进行正常的卷积运算
S1中运用Pytorch框架进行模型训练,迭代次数为140代,优化器采用adam,初始学习率设置为0.001,迭代次数达到50代时下降10倍。
在S2中使用轻量级网络MobileNetv1、MobileNetv2、MobileNetv3、ShuffleNetv2对主干网络进行轻量化。
使用ShuffleNetv2对主干网络进行轻量化时,首先将输入特征图通过通道分离将分成两组通道,其中一个分支的结构保持不变,另外一个分支减少了通道混洗操作,同时令输入通道数与输出通道数相等;两个分支进行通道堆叠从而保持通道数不变;通道堆叠完成以后进行通道混洗来保证两个分支的信息交流。
使用MobileNetv2对主干网络进行轻量化时,引入倒残差块,首先输入的特征图通过逐点卷积进行通道升维,再经过大小为3×3的深度卷积核进行运算,最后仍然采用逐点卷积进行降维操作。
使用MobileNetv3对主干网络进行轻量化时,先使用h-swish激活函数代替ReLU6,再引入SENet注意力机制,最后进行网络结构的优化。
所述的姿态知识迁移函数为
Figure BDA0003648373750000031
其中,
Figure BDA0003648373750000032
表示操作者模型对第k个关键点的姿态预测值,
Figure BDA0003648373750000033
表示教师模型的预测值。模型的总损失函数如式。
Lfpd=αLpd+(1-α)Lmse
总损失函数为姿态知识迁移函数与原损失函数的加权和。其中,α是一个平衡参数,用来平衡两个损失函数之间的权重。
S3中采用压缩转置卷积层的通道数来实现模型优化,根据遥操作机械臂的关键点个数设定转置卷积层的通道数,设定三个转置卷积的通道数分别为64n,32n,16n,即384,192,96;改变通道数后,计算复杂度缩减为原来的1/3,参数量为原来的2/3。
对遥操作机械臂关键点检测算法进行研究,首先基于SimpleBaseline的遥操作机械臂二维关键点检测算法进行了主干网络轻量化来提高模型的实时性;然后针对上采样模块存在冗余性的问题,对转置卷积模块进行通道压缩以及姿态蒸馏来进一步提高模型的实时性;经过轻量化以及姿态蒸馏后的SimpleBaseline-lite最大限度保留了网络的精度,PCK@40pixel达到了89.4%,推理耗时仅为原来的48%,推理耗时仅为14.78ms。
本发明的有益效果是:本发明对遥操作机械臂关键点检测算法进行研究,首先研究了基于SimpleBaseline的遥操作机械臂二维关键点检测算法,并在此基础上进行了主干网络轻量化来提高模型的实时性。针对上采样模块存在冗余性的问题,对转置卷积模块进行通道压缩以及姿态蒸馏来进一步提高模型的实时性。实验表明,经过轻量化以及姿态蒸馏后的SimpleBaseline-lite最大限度保留了网络的精度,PCK@40pixel达到了89.4%,推理耗时仅为原来的48%,推理耗时仅为14.78ms。
附图说明
图1是本发明中SimpleBaseline网络结构;
图2是本发明中转置卷积上采样过程;
图3是本发明中SimpleBaseline训练流程图;
图4是本发明中损失函数图;
图5是本发明中不同像素阈值下的PCK;
图6是本发明中测试数据集上预测结果可视化图;
图7是本发明中通道混洗后的分组卷积;
图8是本发明中MobileNetv2基本卷积块;
图9是本发明中不同轻量级网络在不同像素阈值下的PCK;
图10是本发明中模型预测结果可视化示意图。
具体实施方式
以下以具体实施例,结合说明书附图详细说明本发明的具体实施方式:
如图1-10所示,一种基于SimpleBaseline的遥操作机械臂关键点的检测方法,其
S1、SimpleBaseline的实现:SimpleBaseline是由Xiao等提出的简单、高效的二维人体关键点检测网络。如图1所示,整个网络的是由主干网络ResNet与3个负责上采样将分辨率恢复的转置卷积组成。
SimpleBaseline的主干网络是ResNet。输入图像经过ResNet的多次下采样后,特征图缩小到原来的1/32,为了能够更好的还原姿态关键点在特征图上的空间位置,需要对特征图进行上采样。常见的上采样方法有线性插值、双线性插值以及最近邻插值等。然后这些上采样方法是根据人为经验进行设置的,在一些场景复杂、变化较多的场合中使用效果并不理想。为了让网络更好的学习上采样,SimpleBaseline采用转置卷积(TransposeConvolution)进行特征图分辨率的还原。转置卷积的运算原理是根据输出特征图的大小和卷积核大小恢复普通卷积前的特征图大小,但是特征图的数值已经发生改变而并非原始值。转置卷积的上采样过程如图2所示,与一般的卷积运算不同,转置卷积首先根据卷积核参数在输入特征图的元素间填充0,然后将卷积核参数进行上下、左右翻转,最后进行正常的卷积运算。
与大多数二维人体关键点检测算法相同,为了让模型准确定位到关键点,需要设计二维人体姿态的损失函数,SimpleBaseline使用均方误差(MeanSquaredError)作为衡量预测热力图与目标热力图之间损失的指标,可以用公式(1)来表示,其中N为关键点个数,mi为真实关键点坐标,
Figure BDA0003648373750000061
为预测关键点坐标。
Figure BDA0003648373750000062
SimpleBaseline的训练过程如图3所示,在模型训练之前,需要设置一些超参数来让模型进行更好的训练。本实施例运用Pytorch框架进行模型训练,迭代次数为140代。采用学习率热身策略,学习率热身策略有助于提高模型的收敛速度。训练开始时使用小学习率进行训练,学习率的大小随着迭代的次数增加而增加,达到初始学习率。优化器采用adam,初始学习率设置为0.001,迭代次数达到50代时下降10倍。损失函数如图4所示,模型在迭代70个epoch的时候就即可完成收敛。
二维关键点检测常用的评价指标是关键点正确预测百分比(PCK)。该评价指标是计算预测的关键点与真值(GroundTruth)之间的归一化距离小于设定阈值的比例。PCK的计算方式如下:
Figure BDA0003648373750000063
Figure BDA0003648373750000064
其中,(xi,yi)是机械臂的二维关键点坐标,
Figure BDA0003648373750000071
是网络预测的二维关键点坐标,ε是像素阈值。
本发明通过统计不同像素阈值下的PCK来分析SimpleBaseline网络的检测性能,图5为不同像素阈值下遥操作机械臂二维关键点的PCK。实验表明,像素阈值为40个像素时,关键点的检测准确率达到了91.5%。图6所示为网络预测的关键点的分布情况,实验结果表明SimpleBaseline网络对于遥操作机械臂的关键点检测效果较好。最后针对本发明的检测对象对SimpleBaseline网络进行检测时间的测试,测试样本为400张测试集的图片,结果显示测试时间为30.21ms/张。
S2、SimpleBaseline主干网络轻量化:轻量级的卷积网络往往是从卷积运算入手去优化的,比如说深度可分离卷积和分组卷积,本实施例使用典型的轻量级网络MobileNetv1、MobileNetv2、MobileNetv3、ShuffleNetv2对主干网络进行轻量化。
ShuffleNet网络是由旷视在2017年提出的一种面向终端部署的轻量级深度学习网络,并且快速发展成ShuffleNetv1、ShuffleNetv2两个版本。ShuffleNetv1的核心是逐点分组卷积(pointwise group convolution)和通道混洗(channel shuffle)。
分组卷积是将特征图的不同通道进行分组,然后与通道数相同的卷积核进行卷积运算。与传统的卷积相比,分组卷积大大降低了卷积核的通道数,降低卷积的计算量。虽然像Xception,MobieNet,ResNeXt等采用了深度可分离卷积来减少网络参数,减少计算量,但是深度可分离卷积采用的密集逐点卷积(dense pointwise convolution),就也会引入冗余的计算量,比如ResNeXt模型中1x1卷积就占用了93.4%的计算量。因此引入逐点分组卷积,通过对1x1的卷积核进行分组,然后进行并行卷积运算,大大减少计算量。
分组卷积还存在另外的弊端,那就是通道之间缺少信息交流与参数共享。如图7(a)所示,由于只输出分组后的一小部分的通道信息,所以网络各个分组通道之间的信息交流能力减弱,影响网络的特征提取能力。所以采用通道混洗,如图7(b)、7(c)所示,通过均匀交换不同组之间的通道信息,使每个组的特征信息更加丰富,提高网络的特征提取能力。
ShuffleNetv2相对于ShuffleNetv1做了如下改进:首先将输入特征图通过通道分离(channelsplit)将分成两组通道,其中一个分支的结构保持不变,另外一个分支减少了通道混洗操作,同时令输入通道数与输出通道数相等;两个分支进行通道堆叠(concat)从而保持通道数不变;通道堆叠完成以后进行通道混洗来保证两个分支的信息交流。
MobileNetv1是谷歌公司在2017年提出的一个轻量级深度学习网络,其核心是使用深度可分离卷积对输入图片进行特征提取。深度可分离卷积由两部分结构组成:深度卷积(depthwise convolution)和逐点卷积(pointwise convolution)。
深度卷积与普通卷积的运算方式不同,深度卷积是将卷积核分成与输入特征图通道数相同的组,然后将这若干个组与输出特征图进行卷积操作,这样得到的输出特征图通道数与输入特征图通道数相等。但是深度卷积在降低模型复杂度,提高模型推理速度的同时会带来另外一个问题,那就是输出特征的维度太少,无法提取更多有效信息。因此引入逐点卷积对特征图进行升维,进一步提高网络的特征提取能力。
逐点卷积的操作与普通1×1卷积相同,作用是对特征图的通道数进行升维和降维。假设输入特征图与输出特征图尺寸相等,输入特征图大小为DF×DF×M,深度卷积的卷积核大小为DK×DK,输出特征图大小为DF×DF×N。则普通卷积的参数量计算如式(4),深度可分离卷积的参数量计算如式(5),将普通卷积的计算量与深度可分离卷积的计算量进行比较如式(6),可以发现使用深度可分离卷积以后,模型的参计算量大幅度减少。
COSTconv=Dk×Dk×M×N×DF×DF (4)
COSTdepth=Dk×Dk×M×DF×DF+M×N×DF×DF (5)
Figure BDA0003648373750000091
MobileNetv2是为了解决MobileNetv1中的深度可分离卷积发生失活现象而提出的。MobileNetv2相对于MobileNetv1做了如下改进:引入倒残差块(InvertedResidualblock)如图8所示,首先输入的特征图通过逐点卷积进行通道升维,再经过大小为3×3的深度卷积核进行运算,最后仍然采用逐点卷积进行降维操作。这样做的好处是进行深度卷积运算之前通过逐点卷积进行通道升维,提高深度卷积的特征提取能力。
MobileNetv3在继承MobileNetv1的深度可分离卷积与MobileNetv2的倒残差结构的同时,还进行了下面三个改进:
(1)使用h-swish激活函数代替ReLU6。h-swish函数是由swish函数演变而来,swish函数如式(7)是一个介于线性函数和ReLU函数之间的平滑函数,具有平滑、非单调以及无上界有下界的特性。在更深的网络以及更大的数据集上,使用swish作为激活函数的网络性能要优于使用ReLU的网络。虽然使用swish函数可以显著提高网络的精度,但是像sigmoid这种非线性激活函数同时带来了计算成本,因此,作者提出了如式(8)基于ReLU6的h-swish激活函数。
f(x)=x·sigmoid(βx) (7)
Figure BDA0003648373750000101
(2)引入SENet注意力机制。为了让网络能够学习到不同通道的特征,SENet注意力机制通过由两个门机制组成的全连接结构(Excitation)对不同通道进行特征描述,通过特征描述子来激励网络学习重要的特征,抑制不重要的特征。具体的计算方式如式()其中δ表示ReLU激活函数,σ表示sigmoid激活函数,W1,W2分别是两个全连接层的权值矩阵。
s=σ(W2δ(W1z)) (9)
(3)网络结构的优化。MobileNetv2倒残差结构的最后一个卷积层使用1×1卷积将网络拓展到更高维的特征空间,提高了网络的特征提取能力的同时,也带来了额外的计算成本。因此MobileNetv3通过将1×1卷积放到全局平均池化层后面,大大减少了计算量,提高模型的推理速度。
本实施例实验分别以MobileNetv1、MobileNetv2、MobileNetv3与ShuffleNetv2替换原始的ResNet50作为特征提取网络,使用相同的实验设置在遥操作机械臂姿态数据训练集上对模型进行训练,并且在测试集上进行结果的验证。将特征提取网络替换为轻量级网络,进行模型微调以后的SimpleBaseline网络在不同轻量级网络上的性能如图9所示。
对比四个不同的轻量级网络的表现,MobileNetv2与MobileNetv3下降幅度较大。结合网络结构进行分析:通过对比四个五个轻量级网络的浅层网络的通道数,ResNet50、MobileNetv1、ShuffleNetv2的浅层网络具有较多的通道数。遥操作机械臂的二维关键点检测需要联系特征图的上下文信息,联系特征图的上下文信息意味着需要丰富的空间信息。而对于浅层网络,通道数越多意味着空间信息越丰富,因此在低维度上拥有较多通道数的主干网络在遥操作机械臂的关键点检测中取得良好的检测效果。
表1轻量级SimpleBaseline在测试集上的性能表现
Figure BDA0003648373750000111
不同的轻量级特征提取网络在遥操作姿态估计数据集上的各项性能对比如表1所示。训练和测试的输入图像的尺寸都是800×160,通过对比轻量级的SimpleBaseline与基于ResNet50的SimpleBaseline可知,轻量级的特征提取网络可以大幅度降低模型的参数量和计算复杂度。其中,基于MobileNetv1的SimpleBaseline的参数量只有原来的27%,计算复杂度下降到原来的55%,推理时间缩短为原来的56%。因此本发明选择基于MobileNetv1的SimpleBaseline网络进行下一步的优化。
输入大小为800×160的主干网络MobileNetv1的计算复杂度(GFLOPs)为1.47。结合MobileNetv1网络与基于MobileNetv1的SimpleBaseline的计算复杂度对比可知,SimpleBaseline的计算量主要来自上采样模块。此外,二维关键点检测空间信息的还原是通过对主干网络输出的高维语义信息进行上采样得到的。因此在主干网络的特征提取性能减弱的情况下,如果仍然用计算开销大的上采样模块进行上采样操作,就会造成模型的冗余,从而影响关键点检测精度。下一节将对上采样模块进行优化,通过对转置卷积通道数的冗余性分析,采用姿态蒸馏的方法对转置卷积的通道进行压缩,提高模型的推理速度。
S3、基于姿态蒸馏的轻量化SimpleBaseline:态蒸馏是由知识蒸馏发展而来。知识蒸馏最早是由Hinton提出来的一种卷积神经网络模型压缩技术,其核心思想是将一个性能好的大网络学习到的知识转移到与其同构或者异构的小网络中,在保证模型精度没有显著降低的情况下压缩模型。知识蒸馏最早应用在分类任务中,关键是重新设计损失函数。传统的分类任务一般使用交叉熵损失,交叉熵损失仅仅使用原始标签即人工标注的标签。而在基于知识蒸馏的分类方法中,轻量级的操作者网络不仅仅要通过损失函数来学习人工标注的标签,还需要学习由性能更强大的教师网络生成的软标签。教师网络生成的软标签可以表示为如式(10)。
Figure BDA0003648373750000131
其中,li表示第i类输出的分类结果,输出大小介于0到1之间,这样做的好处是让模型学习到更多模糊的分类信息,增强模型对模糊样本的分类能力,进而提高模型的泛化能力。ki表示当前类别的输入,kj表示所有类别的输出,Temperature表示温度系数,用于调节分类结果的平滑程度。如式(11)操作者模型的损失函数可以表示为预测值与原始标签的损失值以及预测值与教师模型输出的损失值的加权和。
Losssmall model=pLossori label+qLosssoft label (11)
近年来,知识蒸馏在关键点检测领域也得到了应用,zhang等参考Hinton的知识蒸馏方法的设计思想提出了基于姿态蒸馏的人体关键点检测算法,以8阶级联的沙漏网络作为教师模型,同时构建一个轻量级的4阶级联的网络作为操作者模型,通过性能强大的教师网络指导操作者网络完成训练。
基于姿态蒸馏的轻量级模型训练关键是寻找一个合适的姿态知识迁移函数。一个良好的姿态知识迁移函数可以指导操作者模型吸收教师模型的知识,提高模型的泛化能力。本发明采用的姿态损失函数如式(12)。
Figure BDA0003648373750000141
其中,
Figure BDA0003648373750000142
表示操作者模型对第k个关键点的姿态预测值,
Figure BDA0003648373750000143
表示教师模型的预测值。模型的总损失函数如式(13)。
Lfpd=αLpd+(1-α)Lmse (13)
总损失函数为姿态知识迁移函数与原损失函数的加权和。其中,α是一个平衡参数,用来平衡两个损失函数之间的权重。
上采样模块的冗余度分析如表2所示,
表2转置卷积层的计算复杂度和参数对比
Figure BDA0003648373750000144
SimpleBaseline的上采样模块是由三个通道数为256的转置卷积组成,随着上采样特征图的分辨率不断增加,转置卷积运算带来的计算开销也不断增加。表2展示了SimpleBaseline网络在上采样过程中转置卷积的参数量和计算复杂度的变化。通过分析表格的计算复杂度可以发现,随着特征图的分辨率不断增加,模型的参数量没有发生变化,但是计算开销却呈大幅度增长。MobileNetv1与ResNet50相比,模型的特征提取性能下降,导致转置卷积的输入特征较为稀疏。如果沿用与ResNet相同的通道数,可能造成模型的冗余,降低推理速度。
基于上述对转置卷积计算复杂度的分析,本发明采用压缩转置卷积层的通道数来对模型进行优化。因为网络最终的输出通道数等于遥操作机械臂关键点个数,因此,本发明采用根据遥操作机械臂的关键点个数设定转置卷积层的通道数,设定三个转置卷积的通道数分别为64n,32n,16n,即384,192,96(n为关键点个数,取6)。改变通道数后,计算复杂度缩减为原来的1/3,参数量为原来的2/3。经过通道压缩的SimpleBaseline-a与压缩前的网络各项性能对比如表3所示。通道压缩后模型的冗余度减少,参数量和计算复杂度大幅度降低。虽然模型的复杂度降低,但是检测精度却达到了原始模型的94%,推理时间只有原来的64%。这个结果表明,SimpleBaseline-a网络的上采样模块中仍然存在冗余参数,基于该网络可以通过姿态蒸馏设计出精度更高的模型。
表3 SimpleBaseline-a与MobileNetv1-SimpleBaseline性能对比
Figure BDA0003648373750000151
基于姿态蒸馏的轻量级关键点检测网络的训练过程一般可以分为两个阶段:第一个阶段是训练一条性能强大的关键点检测网络作为教师网络,教师网络往往因为具有更加复杂的网络结构而能够把握图像的整体结构信息,对细微的关键点进行更加精确的定位,教师模型的训练在上一节已经完成,选用基于MobileNetv1的SimpleBaseline网络作为教师模型。
第二个阶段是训练一条保留精度并且兼顾速度的轻量级操作者模型。原始的操作者模型因为网络的分支数以及特征通道数的减少,在一些细微处的关键点往往难以进行定位。此时需要教师模型指导操作者网络进行高级语义信息的获取,加强操作者模型对整体特征空间信息的学习。经过上一小节对SimpleBaseline-a模型的冗余度和精度分析,选用SimpleBaseline-a作为操作者模型。
本实施例实验采用的教师模型为基于MobileNetv1的SimpleBaseline网络,操作者模型为SimpleBaseline-a,实验是基于Pytorch1.5.1-gpu框架,实验操作系统为Ubuntu18.04,CUDA版本为10.2。网络输入图像的分辨率为800×160,初始学习率设置为0.001,优化器采用Adam,批次大小batchsize设置为16,动量系数momentum设置为0.9,迭代轮数设置为140。
实验结果分析如表4所示,
表4姿态蒸馏前后模型性能对比
Figure BDA0003648373750000161
为了验证姿态蒸馏的有效性,分别设置了三组实验来评估模型的精度与速度,其中SimpleBaseline-lite为经过姿态蒸馏后的操作者模型。由表4可以看出,经过姿态蒸馏后的操作者模型的模型精度提升了2%,但是参数量、计算复杂度以及推理速度并没有发生变化。结果表明姿态蒸馏可以提高遥操作机械臂关键点的检测精度。下面从可视化的图像中进一步说明姿态蒸馏的有效性。
原始的操作者模型因为网络模型的简化,导致模型的泛化能力下降,对遥操作机械臂的关键点检测能力减弱。图10展示了遥操作机械臂分别在原始操作者模型SimpleBaseline-a与经过姿态蒸馏后的操作者模型SimpleBaseline-lite的预测可视化效果图。如图10(a)所示,遥操作机械臂在运行过程中不可避免会发生遮挡的情况。对于一些受到遮挡的关键点,操作者模型由于空间特征信息提取的能力下降,模型不能充分学习特征图各通道之间以及特征图之间的知识,导致最后的预测结果与标签之间存在较大的偏差,这也是导致模型检测精度下降的主要原因。经过教师模型的“辅导”以后,如图10(b)所示,由于教师模型具备良好的全局空间信息提取能力,可以给予操作者模型额外的监督,加强了操作者模型对困难特征的信息提取能力,提高了操作者模型对遥操作机械臂的关键点检测能力。
本发明重点对遥操作机械臂关键点检测算法进行研究,首先研究了基于SimpleBaseline的遥操作机械臂二维关键点检测算法,并在此基础上进行了主干网络轻量化来提高模型的实时性。针对上采样模块存在冗余性的问题,对转置卷积模块进行通道压缩以及姿态蒸馏来进一步提高模型的实时性。实验表明,经过轻量化以及姿态蒸馏后的SimpleBaseline-lite最大限度保留了网络的精度,PCK@40pixel达到了89.4%,推理耗时仅为原来的48%,推理耗时仅为14.78ms。
本发明实施例并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案作出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。

Claims (10)

1.基于SimpleBaseline的遥操作机械臂关键点的检测方法,其特征在于:所述的检测方法通过以下步骤实现:
S1、SimpleBaseline的实现:SimpleBaseline是二维人体关键点检测网络,整个网络的是由主干网络ResNet与3个负责上采样将分辨率恢复的转置卷积组成;
S2、SimpleBaseline主干网络轻量化:轻量级的卷积网络从卷积运算去优化;
S3、基于姿态蒸馏的轻量化SimpleBaseline:寻找一个合适的姿态知识迁移函数实现优化。
2.根据权利要求1所述的基于SimpleBaseline的遥操作机械臂关键点的检测方法,其特征在于:所述的转置卷积首先根据卷积核参数在输入特征图的元素间填充0,然后将卷积核参数进行上下、左右翻转,最后进行正常的卷积运算。
3.根据权利要求1所述的基于SimpleBaseline的遥操作机械臂关键点的检测方法,其特征在于:S1中运用Pytorch框架进行模型训练,迭代次数为140代,优化器采用adam,初始学习率设置为0.001,迭代次数达到50代时下降10倍。
4.根据权利要求1所述的基于SimpleBaseline的遥操作机械臂关键点的检测方法,其特征在于:在S2中使用轻量级网络MobileNetv1、MobileNetv2、MobileNetv3、ShuffleNetv2对主干网络进行轻量化。
5.根据权利要求4所述的基于SimpleBaseline的遥操作机械臂关键点的检测方法,其特征在于:使用ShuffleNetv2对主干网络进行轻量化时,首先将输入特征图通过通道分离将分成两组通道,其中一个分支的结构保持不变,另外一个分支减少了通道混洗操作,同时令输入通道数与输出通道数相等;两个分支进行通道堆叠从而保持通道数不变;通道堆叠完成以后进行通道混洗来保证两个分支的信息交流。
6.根据权利要求4所述的基于SimpleBaseline的遥操作机械臂关键点的检测方法,其特征在于:使用MobileNetv2对主干网络进行轻量化时,引入倒残差块,首先输入的特征图通过逐点卷积进行通道升维,再经过大小为3×3的深度卷积核进行运算,最后仍然采用逐点卷积进行降维操作。
7.根据权利要求4所述的基于SimpleBaseline的遥操作机械臂关键点的检测方法,其特征在于:使用MobileNetv3对主干网络进行轻量化时,先使用h-swish激活函数代替ReLU6,再引入SENet注意力机制,最后进行网络结构的优化。
8.根据权利要求1所述的基于SimpleBaseline的遥操作机械臂关键点的检测方法,其特征在于:所述的姿态知识迁移函数为
Figure FDA0003648373740000021
其中,
Figure FDA0003648373740000022
表示操作者模型对第k个关键点的姿态预测值,
Figure FDA0003648373740000023
表示教师模型的预测值。模型的总损失函数如式。
Lfpd=αLpd+(1-α)Lmse
总损失函数为姿态知识迁移函数与原损失函数的加权和。其中,α是一个平衡参数,用来平衡两个损失函数之间的权重。
9.根据权利要求1所述的基于SimpleBaseline的遥操作机械臂关键点的检测方法,其特征在于:S3中采用压缩转置卷积层的通道数来实现模型优化,根据遥操作机械臂的关键点个数设定转置卷积层的通道数,设定三个转置卷积的通道数分别为64n,32n,16n,即384,192,96;改变通道数后,计算复杂度缩减为原来的1/3,参数量为原来的2/3。
10.根据权利要求1-9任一项所述的基于SimpleBaseline的遥操作机械臂关键点的检测方法,其特征在于:对遥操作机械臂关键点检测算法进行研究,首先基于SimpleBaseline的遥操作机械臂二维关键点检测算法进行了主干网络轻量化来提高模型的实时性;然后针对上采样模块存在冗余性的问题,对转置卷积模块进行通道压缩以及姿态蒸馏来进一步提高模型的实时性;经过轻量化以及姿态蒸馏后的SimpleBaseline-lite最大限度保留了网络的精度,PCK@40pixel达到了89.4%,推理耗时仅为原来的48%,推理耗时仅为14.78ms。
CN202210541064.7A 2022-05-17 2022-05-17 基于SimpleBaseline的遥操作机械臂关键点的检测方法 Pending CN115423739A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210541064.7A CN115423739A (zh) 2022-05-17 2022-05-17 基于SimpleBaseline的遥操作机械臂关键点的检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210541064.7A CN115423739A (zh) 2022-05-17 2022-05-17 基于SimpleBaseline的遥操作机械臂关键点的检测方法

Publications (1)

Publication Number Publication Date
CN115423739A true CN115423739A (zh) 2022-12-02

Family

ID=84195677

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210541064.7A Pending CN115423739A (zh) 2022-05-17 2022-05-17 基于SimpleBaseline的遥操作机械臂关键点的检测方法

Country Status (1)

Country Link
CN (1) CN115423739A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115661943A (zh) * 2022-12-22 2023-01-31 电子科技大学 一种基于轻量级姿态评估网络的跌倒检测方法
CN116030016A (zh) * 2023-01-10 2023-04-28 广州市易鸿智能装备有限公司 产品图像缺陷检测方法、装置、电子设备及存储介质
CN116503396A (zh) * 2023-06-26 2023-07-28 广东电网有限责任公司湛江供电局 一种绝缘子污闪快速检测方法、系统和设备
CN116721420A (zh) * 2023-08-10 2023-09-08 南昌工程学院 一种电气设备紫外图像的语义分割模型构建方法及系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115661943A (zh) * 2022-12-22 2023-01-31 电子科技大学 一种基于轻量级姿态评估网络的跌倒检测方法
CN116030016A (zh) * 2023-01-10 2023-04-28 广州市易鸿智能装备有限公司 产品图像缺陷检测方法、装置、电子设备及存储介质
CN116503396A (zh) * 2023-06-26 2023-07-28 广东电网有限责任公司湛江供电局 一种绝缘子污闪快速检测方法、系统和设备
CN116503396B (zh) * 2023-06-26 2024-02-27 广东电网有限责任公司湛江供电局 一种绝缘子污闪快速检测方法、系统和设备
CN116721420A (zh) * 2023-08-10 2023-09-08 南昌工程学院 一种电气设备紫外图像的语义分割模型构建方法及系统
CN116721420B (zh) * 2023-08-10 2023-10-20 南昌工程学院 一种电气设备紫外图像的语义分割模型构建方法及系统

Similar Documents

Publication Publication Date Title
CN115423739A (zh) 基于SimpleBaseline的遥操作机械臂关键点的检测方法
CN110188768B (zh) 实时图像语义分割方法及系统
CN111274869B (zh) 基于并行注意力机制残差网进行高光谱图像分类的方法
CN106951923B (zh) 一种基于多视角信息融合的机器人三维形状识别方法
CN112926641B (zh) 基于多模态数据的三阶段特征融合旋转机械故障诊断方法
CN116342596B (zh) 一种基于YOLOv5改进的变电站设备螺母缺陷识别检测方法
CN110659727A (zh) 一种基于草图的图像生成方法
Wu et al. Pixel-attentive policy gradient for multi-fingered grasping in cluttered scenes
CN110738663A (zh) 双域适应模块金字塔型网络及无监督域适应图像分割方法
CN113706544B (zh) 一种基于完备注意力卷积神经网络的医学图像分割方法
CN111915644A (zh) 孪生导向锚框rpn网络的实时目标跟踪方法
KR20190139539A (ko) 저사양 임베디드 환경에서의 합성곱 신경망 연산을 위한 역 잔여 블록의 채널 확장 매개변수 설정 시스템 및 방법
CN116030537B (zh) 基于多分支注意力图卷积的三维人体姿态估计方法
CN115171052A (zh) 基于高分辨率上下文网络的拥挤人群姿态估计方法
CN113705394B (zh) 一种长短时域特征结合的行为识别方法
CN117115911A (zh) 一种基于注意力机制的超图学习动作识别系统
Kim et al. Acceleration of actor-critic deep reinforcement learning for visual grasping by state representation learning based on a preprocessed input image
Wang et al. Learning latent object-centric representations for visual-based robot manipulation
CN114140524A (zh) 一种多尺度特征融合的闭环检测系统及方法
CN113935473A (zh) 深度学习神经网络的优化方法及应用方法
CN113496228A (zh) 一种基于Res2Net、TransUNet和协同注意力的人体语义分割方法
Jia et al. An improved pointwise convolutional block for efficient model compression
LU102992B1 (en) Siamese network target tracking method based on channel and spatial attention mechanisms
CN116863540A (zh) 一种基于多头mlp架构的骨架动作识别模型构建方法、骨架动作识别方法
CN117576320A (zh) 基于单目彩色图像的三维手部姿态估计方法及其系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination