CN109409327A

CN109409327A - 基于端到端深度神经网络的rru模块物件位姿检测方法

Info

Publication number: CN109409327A
Application number: CN201811333891.7A
Authority: CN
Inventors: 林伟阳; 程度; 任昕旸; 李湛; 佟明斯; 杨学博
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2018-11-09
Filing date: 2018-11-09
Publication date: 2019-03-01
Anticipated expiration: 2038-11-09
Also published as: CN109409327B

Abstract

基于端到端深度神经网络的RRU模块物件位姿检测方法，本发明涉及RRU模块物件位置与姿态检测方法。本发明的目的是为了解决现有深度神经网络进行目标定位和姿态检测时获得的是粗略的检测结果不能满足工业要求，以及网络训练的复杂、检测速度慢的问题。一：采集的物件图像；二：进行关键点标注；三：进行图像扩增，将扩增后的图像样本分为训练集和验证集；四：进行关键点标注，将图像文件和标签文件打包；五：搭建神经网络模型；六：得到训练好的神经网络；七：采集图像；八：得到边界框中心点位置；九：筛选出物件四个角点位置；十：计算出物件相对于水平位置的旋转角度。本发明用于RRU模块物件位姿检测领域。

Description

基于端到端深度神经网络的RRU模块物件位姿检测方法

技术领域

本发明涉及RRU模块物件位置与姿态检测方法。

背景技术

目前，随着工业中对自动化要求的提高，机械臂自动完成复杂插拔任务是目前一个难点。为了在机械臂能够优秀地完成插拔任务，避免造成物件的损坏，我们需要准确地检测出物体的类别、位置以及物体的旋转方向。远程射频单元(RRU)上的电源口和光口，如图1所示。

经典图像处理方法在检测物体位置和姿态方面往往比较耗时，难以满足工业中实时任务的速度要求，而且准确性和鲁棒性难以得到保证。近年来，随着深度学习技术和卷积神经网络的发展，较经典方法相比，深度神经网络具有鲁棒性强、准确率高等优点。深度学习在姿态检测方面一般直接将旋转角度空间离散化，或者使用多阶段深度网络分开进行目标定位和姿态检测。前者获得的是粗略的检测结果不能满足工业要求，后者带来的是网络训练的复杂、检测速度慢。

发明内容

本发明的目的是为了解决现有采用深度神经网络进行目标定位和姿态检测时，获得的是粗略的检测结果不能满足工业要求的问题，以及网络训练复杂、检测速度慢的问题，而提出基于端到端深度神经网络的RRU模块物件位姿检测方法。

基于端到端深度神经网络的RRU模块物件位姿检测方法具体过程为：

步骤一：在物件处于不同位置和姿态的境况下采集物件图像样本，对采集的物件图像样本进行灰度处理；

步骤二：将灰度处理后的图像样本内的目标物体进行关键点标注；

所述关键点为目标物体的四边形的四个顶点；

步骤三：对标注后的图像样本采用旋转、平移和缩放的增强方式进行图像扩增，将扩增后的图像样本分为训练集和验证集；

步骤四：重复对扩增后的图像样本内的目标物体进行关键点标注，将图像文件和标签文件打包，转换为LMDB格式；

步骤五：使用CAFFE搭建神经网络模型；

步骤六：设定神经网络初始学习率和学习率下降策略，训练网络，得到训练好的神经网络；

步骤七：相机对物件采集图像，将图像进行降采样后传递给主机；

步骤八：主机将得到的图像作为训练好的神经网络的输入，根据权重和阈值神经网络计算物件角点，即物件边界框的四个角点，边界框中心点位置是四个角点的中心位置；

步骤九：利用非极大抑制算法对边界框进行筛选，筛选出物件四个角点位置；

步骤十：根据筛选出的物件四个角点位置，计算出物件相对于水平位置的旋转角度。

本发明的有益效果为：

本发明提供了一种基于端到端深度神经网络的RRU模块物件位置和姿态检测方法，并根据真实环境中采样的图像样本对深度网络进行训练，最后在实际中进行物体检测实验。本发明通过单独的端到端神经网络，替代了多个端到端网络组合完成任务的方式，解决了多个网络组合方法中网络训练复杂和检测速度下降的问题，可以在RRU模块自动化插拔流水线中精确的为机械臂提供物件的类别、位置以及旋转角度信息，并且检测速度达到100fps，足以满足工业实时要求，解决现有深度神经网络进行目标定位和姿态检测时获得的是粗略的检测结果不能满足工业要求。本发明能够明显提高测试效率，节省人力成本，在类似机械臂插拔任务中有重要应用。

附图说明

图1为本发明RRU射频模块图；

图2为本发明网络结构示意图，ResNet-50为包含50个隐含层的残差网络，FeaturePyramid Net为特征金字塔网络，Rotated Priors Detection为旋转先验检测框；

图3为本发明神经网络训练流程图；

图4为本发明损失收敛图，Training iterations为训练代数，Training loss为训练损失；

图5a为本发明检测效果1图；

图5b为本发明检测效果2图；

图5c为本发明检测效果3图；

图5d为本发明检测效果4图，power port为电源端口，optical fiber为光纤，optical为光纤口,optical fiber port为光纤端口；

图5e为本发明检测效果5图；

图5f为本发明检测效果6图；

图5g为本发明检测效果7图；

图6为本发明旋转角度计算示意图，θ₁为左上角点旋转角度，θ₂为左下角点旋转角度，x为横坐标，y为纵坐标。

具体实施方式

具体实施方式一：本实施方式基于端到端深度神经网络的RRU模块物件位姿检测方法具体过程为：

为了在获得较高准确性的同时提高网络的训练速度和检测速度，本专利提出一种基于端到端深度神经网络的RRU模块物件位置与姿态检测方法。训练好的网络模型能够在对RRU模块上电源口和光口进行分类的同时，检测各类物件四个角点的位置，之后将其转化为物件的中心位置和旋转角度。

网络结构如图2所示，特点是：

1、使用ResNet-50预训练模型，节省网络训练时间。

2、引入FPN网络结构，使网络在检测小物体的精度有所提高。

3、引入旋转先验边界框，专为电源口和光口的四边形形状设计，包含物件旋转方向信息。

训练流程如图3所示，其步骤如下：

步骤一：在实际生产环境中，在物件处于不同位置和姿态的境况下采集物件图像样本，要求尽可能多地包含不同的位置和姿态信息，对采集的物件图像样本进行灰度处理，图像样本数据如图所示；

步骤二：使用设计好的图像标注程序(只是将图像中物体四个角点位置信息以树的形式记录在XML文件中，是现有的方法。)将灰度处理后的图像样本内的目标物体进行关键点标注；

所述关键点为目标物体的四边形的四个顶点(如果目标物体不是四边形，将目标物体用最小四边形框起来，找到目标物体对应最小四边形的四个顶点)；

标签文件和图像文件是不同格式的文件，标签文件只记录了图像中标记的像素点的位置信息，没有更改原始图像；标签文件对目标物体进行关键点标注得到；

步骤五：使用CAFFE搭建神经网络模型；

编写网络结构和损失函数的prototxt文件(根据protobuf协议规定的格式将网络层C++类名按照循序写入prototxt，损失函数在prototxt表示为C++类名)；

权重是神经网络中各个神经元之间链接的权重，是通过训练确定的。

阈值是置信度阈值，表示神经网络输出的置信度，介于【0，1】。该值的设定是人为设定的，取决于实际情况中使用者对神经网络输出的严格程度，取值越大表示避免神经网络预测值出现错误情况。

步骤九：利用非极大抑制算法对边界框进行筛选，筛选出物件四个角点位置，确保最终的边界框之间尽量不会重合。

步骤十：根据筛选出的物件四个角点位置，计算出物件相对于水平位置的旋转角度，旋转角度值介于(0，2π)。

具体实施方式二：本实施方式与具体实施方式一不同的是，所述步骤二中使用设计好的图像标注程序(只是将图像中物体四个角点位置信息以树的形式记录在XML文件中，是现有的方法。)将灰度处理后的图像样本内的目标物体进行关键点标注；具体过程为：

从目标物体左上角点开始，以逆时针方向对目标物体的四边形的四个顶点逐个进行标注，直到右上角点结束；

所述关键点为目标物体的四边形的四个顶点。

其它步骤及参数与具体实施方式一相同。

具体实施方式三：本实施方式与具体实施方式一或二不同的是，所述步骤五中使用CAFFE搭建神经网络模型；具体过程为：

构建网络结构和损失函数，损失函数包含三部分，Smooth_L1位置损失、Softmax+Focal loss置信度损失和L2正则化项，如下式所示：

损失函数为：

CAFFE全称Convolutional Architecture for Fast Feature Embedding。是一种常用的深度学习框架，主要应用在视频、图像处理方面的应用上。

式中，L(x,c,l,g)为损失函数，x为1时表示各个类别下先验边界框和真实边边界框相匹配，x为0时表示不匹配；c为类别置信度，l为预测边界框，g为真实边界框，L_conf(x,c)为置信度损失函数；α为位置损失权重，L_loc(x,B_l,B_g)为位置损失函数；B_l为预测边界框，B_g为真实边界框；λ为权重衰减项参数，W为神经网络中神经元链接权重，为W的L2范数的平方；为L2正则化项。

其它步骤及参数与具体实施方式一或二相同。

具体实施方式四：本实施方式与具体实施方式一至三之一不同的是，所述smooth_L1位置损失函数为：

式中，为1时表示各个类别下先验边界框和第p类真实边边界框相匹配，为0时表示不匹配；i为第i个先验边界框，j为第j个真实边界框，p为第p类；smooth_L1为Smooth_L1函数，B_li为第i个预测边界框，为第j个第p类的真实边界框。

其它步骤及参数与具体实施方式一至三之一相同。

具体实施方式五：本实施方式与具体实施方式一至四之一不同的是，所述Softmax+Focal loss置信度损失为：

式中，f_i ^p为中间变量，为经过分类层的输出，为第i个边界框分为第p类的置信度大小，f_i ⁰为图像背景类的f_i ^p(物体一共分为p类，p＝0表示背景类)，为图像背景类的

式中，β为超参数，γ为超参数；

其它步骤及参数与具体实施方式一至四之一相同。

具体实施方式六：本实施方式与具体实施方式一至五之一不同的是，所述步骤六中设定神经网络初始学习率和学习率下降策略，训练网络，得到训练好的神经网络；具体过程为：

采用随机梯度下降算法SGD，学习率衰减方式为Poly，初始学习率设为0.0001，power设为2；

使用CAFFE框架搭建网络，输入训练参数(ResNet-50网络在ImageNet数据集上进行预训练的网络参数)，使用4块1080ti GPU训练网络，网络损失随训练代数变化曲线如图4所示。训练50000次，得到训练好的神经网络；

(训练过程是公知的反向传播算法，神经网络包含的层在网络结构示意图中，ResNet-50是公知的网络结构，feature pyramid networks:《Feature Pyramid Networksfor Object Detection》其中包含的具体层很详细，公知)；如图2。

其它步骤及参数与具体实施方式一至五之一相同。

具体实施方式七：本实施方式与具体实施方式一至六之一不同的是，所述步骤十中根据筛选出的物件四个角点位置，计算出物件相对于水平位置的旋转角度，旋转角度值介于(0，2π)；具体过程为：

定义水平方向为0°，根据边界框四个角点的位置计算物件的中心位置，得到各个角点到中心点的向量，随后计算各个向量相对于0°时对应向量的旋转角度，最后由四次计算的旋转角度的平均值记为物体旋转角度。

基准见图6旋转角度计算示意图，图中黄色矩形框为参考边界框。

整个物体的旋转角度等于四个点旋转角度的平均值，即θ₁到θ₄的平均值。

其它步骤及参数与具体实施方式一至六之一相同。

采用以下实施例验证本发明的有益效果：

实施例一：

本实施例具体是按照以下步骤制备的：

本发明基于端到端深度神经网络检测方向性关键点的位置，进而获取RRU模块电源口与光口的旋转方向，如图1所示。训练该网络的准备工作包括数据采集，数据标注。之后根据损失函数，使用随机梯度下降算法训练网络。最终使用训练好的网络对方向性关键点进行分类、定位，并由关键点位置计算得出目标物体的旋转角度。

如图2所示，网络的主结构为ResNet50+FPN结构，作为特征提取器，之后在五层特征图上生成先验边界框，并对边界框的各个类别的置信度和角点坐标进行预测，最后使用非极大抑制算法获得最终检测结果。

本实施例使用白色LED作为光源，在调整不同光照和对焦条件下，在物体处于不同位置和姿态的境况下对其进行图像采取，采取图像为灰度图。对采集的图像数据进行旋转、平移和缩放的增强方式，增强后的数据库共包含50000个样本，其中40000为训练集，10000为验证集。在本实施例中，关键点的标注从物体的左上角开始，以逆时针方向标记角点，直至到右上角为止，并标记该物体类别，保存到XML文件中。

在获取到样本库之后，使用网络进行检测之前首先要网络进行训练。

步骤一：压缩图像尺寸，本实施例中采样的图像分辨率为2048x2048，经过压缩后变为320x320。

步骤二：构建损失函数，损失函数包含三部分，Smooth_L1位置损失、Softmax+Focal loss置信度损失和L2正则化项，如下式所示。其中位置损失权重α设为2，权重衰减参数设为0.0005，β为0.5，γ为4。

式中，为第i个边界框分为第p类的置信度大小；

步骤三：随后确定训练策略，本实施例使用的是随机梯度下降算法SGD，学习率衰减方式为Poly，初始学习率设为0.0001，power设为2。

步骤四：使用CAFFE框架搭建网络，输入训练参数，使用4块1080ti GPU训练网络，网络损失随训练代数变化曲线如图4所示。训练大约50000次迭代之后，在验证集上能达到71.04％mAP。

步骤五：随后使用训练好的网络检测真实图像中的物体。在将图像输入到网络之前需要将图像下采样为320x320的小图像。之后将小图像输入网络中，获得网络输出之后使用非极大抑制算法获得最终检测结果，其中非极大抑制的阈值设定为0.85。检测结果如图5a、5b、5c、5d、5e、5f、5g所示。

步骤六：最后根据检测得到的关键点位置计算物体旋转角度。如图6所示，本实施例中定义水平方向为0°，根据四个关键点的位置计算物体的中心位置，之后计算各个关键点到中心点的向量，随后计算当下各个向量相对于0°时对应向量的旋转角度，最后由四次计算的旋转角度的平均值记为物体旋转角度。

本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，本领域技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.基于端到端深度神经网络的RRU模块物件位姿检测方法，其特征在于：所述方法具体过程为：

所述关键点为目标物体的四边形的四个顶点；

步骤五：使用CAFFE搭建神经网络模型；

2.根据权利要求1所述基于端到端深度神经网络的RRU模块物件位姿检测方法，其特征在于：所述步骤二中将灰度处理后的图像样本内的目标物体进行关键点标注；具体过程为：

所述关键点为目标物体的四边形的四个顶点。

3.根据权利要求1或2所述基于端到端深度神经网络的RRU模块物件位姿检测方法，其特征在于：所述步骤五中使用CAFFE搭建神经网络模型；具体过程为：

构建网络结构和损失函数，损失函数包含三部分，Smooth_L1位置损失、置信度损失和L2正则化项，如下式所示：

损失函数为：

4.根据权利要求3所述基于端到端深度神经网络的RRU模块物件位姿检测方法，其特征在于：所述smooth_L1位置损失函数为：

5.根据权利要求4所述基于端到端深度神经网络的RRU模块物件位姿检测方法，其特征在于：所述置信度损失为：

式中，f_i ^p为中间变量，为经过分类层的输出，为第i个边界框分为第p类的置信度大小，f_i ⁰为图像背景类的f_i ^p，为图像背景类的

式中，β为超参数，γ为超参数；

6.根据权利要求5所述基于端到端深度神经网络的RRU模块物件位姿检测方法，其特征在于：所述步骤六中设定神经网络初始学习率和学习率下降策略，训练网络，得到训练好的神经网络；具体过程为：

使用CAFFE框架搭建网络，输入训练参数，训练网络，训练50000次，得到训练好的神经网络。

7.根据权利要求6所述基于端到端深度神经网络的RRU模块物件位姿检测方法，其特征在于：所述步骤十中根据筛选出的物件四个角点位置，计算出物件相对于水平位置的旋转角度；具体过程为：