CN111985549B

CN111985549B - 针对给定刚体目标进行部件自动定位识别的深度学习方法

Info

Publication number: CN111985549B
Application number: CN202010805034.3A
Authority: CN
Inventors: 刘勇; 徐智勇; 张建林; 左颢睿; 魏宇星; 李�杰
Original assignee: Institute of Optics and Electronics of CAS
Current assignee: Institute of Optics and Electronics of CAS
Priority date: 2020-08-12
Filing date: 2020-08-12
Publication date: 2023-03-31
Anticipated expiration: 2040-08-12
Also published as: CN111985549A

Abstract

本发明公开了一种针对给定刚体目标进行部件自动定位识别的深度学习方法，包括对给定刚体目标进行部件分割标注与部件特征点的位置标注；搭建特征提取网络，并在标准图像集上进行预训练进行预训练；搭建用于对给定刚体目标进行部件识别的网络，并为保证网络训练的收敛性，分别定义损失函数与优化方法；根据不同要求对关键点位置估计与语义分割网络分别进行训练；实现对给定刚体的部件自动定位识别的可视化操作等步骤。其识别效果显著，不仅实现对给定刚体目标类的部件定位与识别，还有效保证了遮挡情况中的定位与识别的准确率，而且其获得的部件之间的图关系与关键点定位信息也有助于对该类刚体目标进行空间姿态解算等问题的研究。

Description

针对给定刚体目标进行部件自动定位识别的深度学习方法

技术领域

本发明涉及到深度学习在图像处理领域中关键点定位，姿态估计以及语义分割等方面技术领域，具体涉及一种针对给定刚体目标进行部件自动定位识别的深度学习方法，其为对给定刚体目标进行信息标注、网络训练，实现对目标部件自动进行定位识别的方法。

背景技术

关键点估计问题是指利用相关算法确定某目标物体关键点的的位置关系问题，其在机器人视觉、人体姿态识别和单照相机定标等很多领域都有应用。物体的部件识别问题则是指利用相关算法对目标提取特征关键点并根据关键点间的关系以及先验知识来判断部件类型以及物体的属性，且对关键点估计有着一定的辅助作用。

基于视觉的姿态估计根据算法的不同可分为基于模型的方法、基于学习的方法和基于深度神经网络的方法。其中基于深度神经网络的方法源于深度神经网络强大的特征提取和目标检测能力。通过物体种对某些相似特征的提取获得这些特征间基于位置的关联信息，该物体的位姿信息的定量估计是可以实现的。

近年来以人体作为对象的姿态估计算法发展迅速，但对于其他特定对象的姿态估计以及部件识别问题的研究结果目前尚少，且相关数据集比较匮乏。所以针对特定刚体对象建立相关数据库，为相关课题提供丰富的研究资料是一件很有必要的工作。而针对这些对象进行姿态估计与部件识别的研究，可以客观地实现精准定位、行为阅读、动作模拟等一系列任务。针对特定刚体的姿态位置估计问题的研究难点主要在于如何降低模型分析算法的复杂程度，并能够适应各种多变的情况。其中基于卷积神经网络实现的目标关键点定位效果显著，由于卷积神经网络结构的不断完善，方法也层出不穷。

2015年的CPM模型使用多阶段不同尺度的卷积神经网络层对图像特征与空间信息进行学习，并通过对各阶段损失结果采取中继监督的策略解决网络参数梯度消失的问题，使得网络端到端学习成为可能；2016年的Hourglass模型采用了更简洁的多阶段的残差结构组成的多尺度级联网络将不同分辨率下提取到的图像特征逐步进行融合；2017年的CPN利用ResNet进行关键点的初步检测，利用FPN结构加强特征提取，利用RefineNet进行特征整合，使得一些被遮挡的难以定位的关键点根据融合后的语境信息被更好地定位；2018年的Simple Baselines将多个阶段的hourglass简化为单个阶段的网络，大大提升了定位效果；2019年的HRNet采用了多分辨率分支的并行网络结构进行特征提取与融合的多阶段网络结构，端到端的结果保证了在高分辨率下图像中的定位精确度。而HRNet通过对损失函数计算的方式进行相应的调整同样可以实现语义分割的任务，而语义分割可以有效地解决对刚体部件的识别问题。

发明内容

针对现有技术的不足，本发明提供一种针对给定刚体目标进行部件自动定位识别的深度学习方法，其通过对所搭建的相应深度卷积网络对特定刚体目标的相关标注进行学习训练，能够实现对该类目标的部件定位与识别，获得部件之间的图关系，有效保证了遮挡情况中的定位与识别的准确率。

为达到上述目的，本发明采用的技术方案如下：一种针对给定刚体目标进行部件自动定位识别的深度学习方法，包括如下步骤：

步骤1：根据需求对给定刚体目标进行部件分割标注与部件特征点的位置标注；

步骤2：搭建特征提取网络，在标准图像集上进行预训练；

步骤3：搭建用于对给定刚体目标进行部件识别的网络；

步骤4：定义损失函数与优化方法，保证网络训练的收敛性；

步骤5：根据不同要求对关键点位置估计与语义分割网络分别进行训练；

步骤6：网络实现对给定刚体的部件进行自动定位识别。

进一步地，步骤1中所述对目标进行标注的具体过程如下：

步骤1.1：对给定刚体目标在图像中定义所要识别的部件位置标注，建立部件之间的语义连接关系，作为已知先验关系；

步骤1.2：根据给定刚体数据集的分布比例，划定所需的训练集，验证集与测试集；

步骤1.3：仿照MS COCO人体姿态数据集标注准则，根据步骤1.1的信息，生成给定刚体的标注文件。

进一步地，步骤2中所述分类网络进行预训练的具体过程如下：

步骤2.1：选择VGG-Net作为特征提取的分类网络，其中仅采用其1层结构后接残差模块，利于对样本进行特征初步提取；

步骤2.2：使用ImageNet等通用数据集训练以上分类网络；

步骤2.3：对获得的已收敛的网络参数保留其卷积网络结构，舍弃最后3层的全连接网络结构。

进一步地，步骤3中所述对部件定位与识别网络搭建过程如下：

步骤3.1：建立用于对目标进行部件关键点定位与部件语义分割的网络结构。网络的前端接口与以上进行预训练后的分类网络进行连接，网络按功能分为关键点定位与部件分割两部分；

步骤3.2：网络具体采用简化后的包含卷积下采样模块、级联残差模块、多尺度融合模块构成多支路架构。

进一步地，步骤4中所述损失函数与优化方法的具体设置如下：

步骤4.1：对于部件关键点的定位，损失函数采用最小均方误差函数，优化方法采用Adam优化；

步骤4.2：对于部件的语义分割，损失函数采用交叉熵函数，优化方法采用SGD优化。

进一步地，步骤5中所述的部件关键点位置估计与语义分割的方法具体为：

步骤5.1：处理步骤1.3所生成的数据集标注文件，分别提取其中对应的语义标注信息与关键点标注信息；

步骤5.2：针对部件关键点定位与部件语义分割，使用修改后标注文件生成关键点高斯斑与掩膜标签，分别用于对关键点检测网络与语义分割网络进行训练；

步骤5.3：根据训练样本规模合理拟定学习率与训练迭代次数，获得收敛的网络参数结果。

进一步地，步骤6中所述的网络实现对给定刚体的部件自动定位识别具体为：

步骤6.1：根据步骤1.1所给出的先验关系以及网络关键点定位部分的预测结果，对给定刚体目标所要求的部件关键点进行图连接，获得刚体目标的平面姿态估计结果；

步骤6.2：根据网络语义分割部分的预测结果，对给定刚体目标的各部件进行像素级的语义分割。

本发明的显著效果是：首先根据需求对给定刚体目标进行部件分割标注与部件特征点的位置标注，并搭建特征提取网络，在标准图像集上进行预训练，然后搭建用于对给定刚体目标进行部件识别的网络，为保证网络训练的收敛性，分别定义损失函数与优化方法，接着根据不同要求对关键点位置估计与语义分割网络分别进行训练，最终实现对给定刚体的部件自动定位识别，不仅实现对给定刚体目标类的部件定位与识别，还有效保证了遮挡情况中的定位与识别的准确率，而且其获得的部件之间的图关系与关键点定位信息也有助于对该类刚体目标进行空间姿态解算等问题的研究。

附图说明

图1是本发明的一种针对给定刚体目标进行部件自动定位识别的深度学习方法流程图；

图2是本发明所用到的深层神经网络图；

图3是该网络的初始特征分类模块的结构，即前处理层(注：conv(a,b,c)表示卷积核尺寸为a，卷积跨度为b，填补尺寸为c的卷积层)；

图4是该网络的最终输出特征模块的结构，即后处理层(注：conv(a,b,c)表示卷积核尺寸为a，卷积跨度为b，填补尺寸为c的卷积层)；

图5是该网络中重复用到的残差模块的结构(注：conv(a,b,c)表示卷积核尺寸为a，卷积跨度为b，填补尺寸为c的卷积层)；

图6是该网络中高分辨率模块的多尺度分支结构，即高分辨模型(注：conv(a,b,c)表示卷积核尺寸为a，卷积跨度为b，填补尺寸为c的卷积层；Upsample(m)表示采样倍数为m的最近邻上采样)；

具体实施方式

下面结合附图对本发明的具体实施方式以及工作原理作进一步详细说明。

如图1所示，一种针对给定刚体目标进行部件自动定位识别的深度学习方法，具体步骤如下：

所述对目标进行标注的具体过程如下：

步骤2：搭建特征提取网络，在标准图像集上进行预训练；

所述的搭建特征提取网络并在标准图像集上的预训练过程如下：

步骤2.2：使用ImageNet等通用数据集训练以上分类网络；

所述的网络具体参数配置如表1所示。

表1网络整体的通道参数配置

步骤3：搭建用于对给定刚体目标进行部件识别的网络；

所述对部件定位与识别网络搭建过程如下：

所述的网络结构如图2所示，具体细节部分如图3到图6所示。

图3为前处理层，其采用2次尺寸为3，采样步长为2的卷积核对填补尺寸为1的输入图像信息进行卷积特征提取；为保证卷积特征分布归一化和避免训练中反传梯度消失，每次卷积操作后对输出结果进行一次批处理(bn)和线性整流(ReLU)。

图4为后处理层，其采用1次尺寸为3，采样步长为1的卷积核对填补尺寸为1的输入图像信息进行卷积特征提取，其输出特征通道数等于输出所需的特征数目。

图5为残差模块基本结构。其先采用1个尺寸为1，采样步长为1的卷积核对输入特征信息进行特征通道对准，然后在各给定特征通道上采用1个尺寸为3，采样步长为1的卷积核对填补尺寸为1的前层经过批处理(bn)的特征信息进行卷积特征提取，最后采用1个尺寸为1，采样步长为1的卷积核对前层经过批处理(bn)的特征信息进行特征通道还原。其输出结果经线性整流(ReLU)后，与输入图像信息在对应特征通道上进行特征叠加。以上处理重复进行4次，获得的特征输出将由随后的高分辨模型进行处理。

图6为高分辨模型，其由2个分支网络所组成。

网络分支1保持输入特征图像的原始分辨率，首先采用1个尺寸为3，采样步长为1的卷积核对填补尺寸为1的输入特征信息进行卷积特征提取，并进行批处理(bn)和线性整流(ReLU)，然后采用如以上图5所述的4层残差模块对特征信息进行多次卷积特征提取操作，最后再次采用1个尺寸为3，采样步长为1的卷积核对填补尺寸为1的输入特征信息进行卷积特征提取，并进行批处理(bn)和线性整流(ReLU)，获得网络分支1的输出结果。

网络分支1对输入特征图像的原始分辨率进行折半，首先采用1个尺寸为3，采样步长为2的卷积核对填补尺寸为1的输入特征信息进行卷积特征提取，并进行批处理(bn)和线性整流(ReLU)，然后采用如以上图5所述的4层残差模块对特征信息进行多次卷积特征提取操作，最后再次采用1个尺寸为3，采样步长为1的卷积核对填补尺寸为1的输入特征信息进行卷积特征提取，并进行批处理(bn)和采样倍数为2的最近邻上采样操作，获得同网络分支1尺寸相同，特征通道数一致的输出结果。

最终将两个网络分支的输出图像信息在对应特征通道上进行特征叠加，所得结果将输出如图4所示的后处理层。

步骤4：定义损失函数与优化方法，保证网络训练的收敛性；

所述损失函数与优化方法的具体设置如下：

所述的部件关键点位置估计与语义分割的方法具体为：

步骤6：网络实现对给定刚体的部件进行自动定位识别。

所述的网络实现对给定刚体的部件自动定位识别具体为：

在本实施例中，应用训练迭代次数为20次所得的网络，针对所标注的有关刚体目标数据集的共2000个测试图像进行评估，最终获得了较好的可视化结果，不难看出，本发明有效保证了遮挡情况中的定位与识别的准确率，而且其获得的部件之间的图关系与关键点定位信息也有助于对该类刚体目标进行空间姿态解算等问题的研究。

Claims

1.一种针对给定刚体目标进行部件自动定位识别的深度学习方法，其特征在于：包括如下步骤：

步骤2：搭建特征提取网络，在标准图像集上进行预训练；

步骤3：搭建用于对给定刚体目标进行部件识别的网络；

步骤4：定义损失函数与优化方法，保证网络训练的收敛性；

步骤6：网络实现对给定刚体的部件进行自动定位识别；

其中，步骤1中所述定义所要识别的部件位置标注，具体如下：

步骤1.3：仿照MS COCO人体姿态数据集标注准则，根据步骤1.1的信息，生成给定刚体的标注文件；

步骤2中所述特征提取网络，其预训练过程如下：

步骤2.2：使用ImageNet通用数据集训练以上分类网络；

步骤2.3：对获得的已收敛的网络参数保留其卷积网络结构，舍弃最后3层的全连接网络结构；

步骤3中所述的网络架构，其具体搭建过程如下：

步骤3.1：建立用于对目标进行部件关键点定位与部件语义分割的网络结构，网络的前端接口与以上进行预训练后的分类网络进行连接，网络按功能分为关键点定位与部件分割两部分；

步骤3.2：网络具体采用简化后的包含卷积下采样模块、级联残差模块、多尺度融合模块构成多支路架构，即高分辨模型；

高分辨模型由2个分支网络所组成；

网络分支1保持输入特征图像的原始分辨率，首先采用1个尺寸为3，采样步长为1的卷积核对填补尺寸为1的输入特征信息进行卷积特征提取，并进行批处理(bn)和线性整流(ReLU)，然后采用4层残差模块对特征信息进行多次卷积特征提取操作，最后再次采用1个尺寸为3，采样步长为1的卷积核对填补尺寸为1的输入特征信息进行卷积特征提取，并进行批处理(bn)和线性整流(ReLU)，获得网络分支1的输出结果；

网络分支1对输入特征图像的原始分辨率进行折半，首先采用1个尺寸为3，采样步长为2的卷积核对填补尺寸为1的输入特征信息进行卷积特征提取，并进行批处理(bn)和线性整流(ReLU)，然后采用4层残差模块对特征信息进行多次卷积特征提取操作，最后再次采用1个尺寸为3，采样步长为1的卷积核对填补尺寸为1的输入特征信息进行卷积特征提取，并进行批处理(bn)和采样倍数为2的最近邻上采样操作，获得同网络分支1尺寸相同，特征通道数一致的输出结果；

最终将两个网络分支的输出图像信息在对应特征通道上进行特征叠加，所得结果将输出后处理层；

步骤4中所述定义损失函数与优化方法：

步骤4.2：对于部件的语义分割，损失函数采用交叉熵函数，优化方法采用SGD优化；

步骤5中所述的根据不同要求分别实现对给定刚体的部件自动定位识别的训练方法为：

步骤5.3：根据训练样本规模合理拟定学习率与训练迭代次数，获得收敛的网络参数结果；

步骤6中所述的网络对给定刚体目标的识别的方法，其具体过程为：