CN112669452A

CN112669452A - 一种基于卷积神经网络多分支结构的物体定位方法

Info

Publication number: CN112669452A
Application number: CN202110024030.6A
Authority: CN
Inventors: 杨嘉琛; 奚萌
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-01-08
Filing date: 2021-01-08
Publication date: 2021-04-16
Anticipated expiration: 2041-01-08
Also published as: CN112669452B

Abstract

本发明提供一种基于卷积神经网络多分支结构的物体定位方法，包括下列步骤：利用3D建模软件构建带有标签的训练集图片数据库与测试集图片数据库；构建一种多分支网络结构，每个分支并行，保持独立，每一个单独的分支采用卷积神经网络的架构：首先是分割模块，对输入网络中的原始相片进行物理分割，分割后的子图像各自并行输入下一模块；其次是多分支模块，在此模块中，存在4个微型的卷积神经网络，分别对应输入的4个子图像和相同的位置标签；输出模块，4个分支分别输出了4个三维位置坐标，对其求平均后输出得到最后的位置估计值；网络模型的训练；使用构建的数据集对第二步搭建的网络进行训练。

Description

一种基于卷积神经网络多分支结构的物体定位方法

技术领域

本发明属于物体定位领域，涉及一种使用卷积神经网络和多分支结构定位物体的方法。

背景技术

目标物体定位在现代工业领域中发挥着十分重要的，同时物体位置信息也是当代众多工业应用的基础信息之一。例如，在工业自动装配中，准确定位机械部件是完成抓取装配的前提；在自动驾驶领域，准确定位视野中障碍物是安全驾驶的必要保障。因此目标物体定位具有着非常重要的工业应用价值。

传统的目标定位检测主要应用了计算机视觉技术。包括单目视觉系统，双目视觉系统以及多目视觉系统等。根据目标的种类可分为合作目标与非合作目标。合作目标上需要设定标识物，包括特征点，特征线，特征面等，利用标识物辅助相机定位。非合作目标无需标识物，但需要提前获知其结构特点等辅助信息。相机在拍摄标识物信息后利用图像处理技术获取特征，包括滤波，去噪，灰度处理，二值化；完成特征获取后进行特征匹配，并通过算法定位物体。

传统的技术方案设备复杂，过程繁琐。双目或多目视觉系统需要多台设备协同工作，多设备协同标定技术复杂，易造成较大误差无法保证技术精度。同时，特征处理与特征匹配过程繁琐复杂，不同应用场景下需要人工设计适应性算法。利用卷积神经网络技术定位物体是一种新兴的技术方案。

卷积神经网络在图像处理领域具有良好的优势，因此被广泛应用于目标检测、图像分类、模式识别等任务中^[1]。通过充分利用图像数据的层次属性，抽象或组合低层信号来构建高层特征，即局部边缘构成主题，主题聚合成部分，部分组成物体，最终使得图像中的物体易于检测或分类。因此，卷积神经网络具有极其优良的数据表征能力^[2]。将卷积神经网应用在物体定位领域具有很大的创新性，可以大大简化传统物体定位技术方案的复杂性，无需特征提取、特征匹配等图像处理过程，也无需设计定位算法。因此与传统的技术方案相比，使用卷积神经网络的技术方案更加方便、快捷、准确、高效。

由于位置具有相对性，因此对物体位置的表示需要依赖参照物。在选定参照物后，建立三维空间直角坐标系，物体的位置可以用一个三维空间坐标表示，因此物体的定位任务即求解物体几何中心的三维空间坐标，将定位问题定量描述为三维求解问题。卷积神经网络的输入是单幅RGB图像，通过卷积核在图像上的滑动提取标识物的纹理特征，神经节点隐式构建数学模型，自动总结图像特征与三维位置标签之间的数学关系，端到端求解物体位置。

在继承卷积神经网络优良特性的基础上，我们首创性地提出了一种多分支并行的神经网络结构目的在于提高物体定位的精确度与鲁棒性。这种多分支并行的结构平均了每个神经网络输出的误差，进一步减小了定位误差，提高了定位精度。

[1]刘硕,吴兆跃,袁家政.物体定位与识别研究综述[C]中国计算机用户协会网络应用分会2017年第二十一届网络新技术与应用年会.2017.

[2]刘栋,李素,曹志冬.深度学习及其在图像物体分类与检测中的应用综述[J].计算机科学,2016,(12):13-23.

发明内容

本发明针对物体检测领域的目标定位问题，提供一种基于卷积神经网络多分支网络结构的物体定位方法。本发明使用单目相机，利用单张RGB图像和实现训练好的多分支结构的卷积神经网络实时定位目标物体。本系统完成了实时单幅图像的输入与3维空间坐标的同步输出。卷积神经网络确保了定位的快速性实时性，多分支网络结构确保了定位的准确性与鲁棒性。技术方案如下：

一种基于卷积神经网络多分支结构的物体定位方法，包括下列步骤：

第一步，利用3D建模软件自行构建带有标签的训练集图片数据库与测试集图片数据库。

第二步，构建一种多分支网络结构，每个分支并行，保持独立，每一个单独的分支采用卷积神经网络的架构：首先是分割模块，对输入网络中的原始相片进行物理分割，分割后的子图像各自并行输入下一模块；其次是多分支模块，在此模块中，存在4个微型的卷积神经网络，分别对应输入的4个子图像和相同的位置标签，每个分支网络使用各自损失函数训练，从而网络权重不同；输出模块，4个分支分别输出了 4个三维位置坐标，对其求平均后输出得到最后的位置估计值；

第三步，网络模型的训练；使用构建的数据集对第二步搭建的网络进行训练；

第四步：对训练好的卷积神经网络模型进行测试。

进一步地，第一步具体包括：

(1)构建的圆柱形规则物体作为待测目标，将棋盘格图标作为标识物附着其上；

(2)将待测目标置于目标相机视野中，待测目标中心，标识物，相机镜头中心位于同一水平中心线，此时在相机坐标系下设定其三维空间坐标；

(3)编写待测目标的运动脚本，改变其空间位置，获取当前位置下相片，并将对应的三维坐标作为训练样本的标签；

(4)批量获取多张相片作为训练集样本，并将其标签进行所需的数据格式处理，满足网络输入的需求；

(5)以同样的方式获取多张相片作为测试集样本。

进一步地，第二步中，每个分支网络，共6层卷积层，每两层或一层卷积层后跟随一层最大池化层，随后跟随一层展平层和三层全连接层输出三维的位置输出。

本发明构建了一种基于卷积神经网络的多分支网络结构用于物体定位,该技术可以实现利用单张RGB 图像快速、准确、实时、端到端的输出待测物体的三维立体空间坐标。与现有技术相比，卷积神经网络的使用大大简化了技术设备与定位流程，避免了繁琐复杂的图像处理与人工算法等流程，可以实现端到端的技术流程。多分支网络结构在卷积神经网络的优势之上进一步提升了定位精度，增强了定位技术方案的鲁棒性。

附图说明

图1：训练集与测试集构建界面

图2：多分支网络结构流程图

图3：分支结构细节图

图4：多分支网络结构与单分支结构的效果对比

图5：多分支网络结构与单分支结构的全局定位效果对比

具体实施方式

为使本发明的技术方案更加清楚，下面结合附图对本发明做进一步阐述.。本发明按以下步骤具体实现：

第一步，利用3D建模软件自行构建带有标签的训练集图片数据库与测试集图片数据库。图1为训练集与测试集构建界面，包括待测物体与相机的三视图和标识物。

(6)构建半径为100mm，高为200mm的圆柱形规则物体作为待测目标，将棋盘格图标作为标识物附着其上。

(7)将待测物体置于目标相机前方0.5m处，表示物处于相机视野中间，此时圆柱物体中心，标识物，相机镜头中心位于同一水平中心线，此时在相机坐标系下设定其三维空间坐标为(0,0,5000)。

(8)编写待测物体的运动脚本，改变其空间位置，获取当前位置下相片，并将对应的三维坐标作为训练样本的标签。

(9)批量获取50000张相片作为训练集样本，并将其标签进行所需的数据格式处理，满足网络输入的需求。

(10)以同样的方式获取1000张相片作为测试集样本。

第二步，构建一种全新型的多分支网络结构，每个分支并行，保持独立。图2是多分支网络结构的流程图。首先是分割模块，对输入网络中的原始相片进行物理分割，分割后的子图像各自并行输入下一模块；其次是多分支模块，在此模块中，存在4个微型的卷积神经网络，分别对应输入的4个子图像和相同的位置标签；最后是输出模块，4个分支模块输出的估计值求平均后输出。具体的细节如下：

(1)图像分割预处理。原始图像大小是640*480，将其分割为大小320*240的4个子图像，分别对应的是原始图像的左上、左下、右上、右下区域。

(2)将4个子图像输入各自对应的分支网络。图3是分支结构细节图。每一个单独的分支采用了卷积神经网络的架构。每个分支网络结构相同但互不干扰，使用各自的子图像训练，但对应同一图像标签即表征同一位置。每个分支网络相互独立，使用各自损失函数训练，从而网络权重不同。公式(1)是网络训练中使用的损失函数计算方法，在反向传播中用以改进网络参数。其中K表示mini_batch，y^pre,y^tru分别是预测定位与真实标签。每个分支网络的输入是320*240的子图像，共6层卷积层，每两层或一层卷积层后跟随一层最大池化层，随后跟随一层展平层和三层全连接层输出三维的位置输出。

(3)4个分支分别输出了4个三维位置坐标，对其求平均后输出得到最后的位置估计值。

第三步，网络模型的训练。使用构建的数据集对自行搭建的网络进行训练。具体的训练参数如下：每一批次epoch选择3000张图片作为本轮的样本；mini_batch＝2，即每一轮的前向传播与后向传播使用两张图片训练，则3000张图片将需要1500次的输入；nb_epoch＝6，即每3000张图片需要重复6次，随后更新下一批次的3000张图片；epoch＝300，即总的训练重复次数为300次，每一次将在上一次训练的权重之上继续。使用网络优化器是SGD，学习率设定为0.003。

第四步：对训练好的卷积神经网络模型进行测试。对测试图片进行相同的分割处理后输入训练好的网络模型，模型输出三维位置估计值，将其与标签值比较衡量网络定位效果。公式(2)表示测试效果的衡量指标。i表示第位置维度图4多分支网络结构MBN-4和单分支网络结构SBN的测试结果对比。

图5是多分支网络结构MBN-4和单分支网络结构SBN的在干扰存在时的全局定位结果对比。

Claims

1.一种基于卷积神经网络多分支结构的物体定位方法，包括下列步骤：

第二步，构建一种多分支网络结构，每个分支并行，保持独立，每一个单独的分支采用卷积神经网络的架构：首先是分割模块，对输入网络中的原始相片进行物理分割，分割后的子图像各自并行输入下一模块；其次是多分支模块，在此模块中，存在4个微型的卷积神经网络，分别对应输入的4个子图像和相同的位置标签，每个分支网络使用各自损失函数训练，从而网络权重不同；输出模块，4个分支分别输出了4个三维位置坐标，对其求平均后输出得到最后的位置估计值；

第四步：对训练好的卷积神经网络模型进行测试。

2.根据权利要求1所述的物体定位方法，其特征在于，第一步具体包括：

(5)以同样的方式获取多张相片作为测试集样本。

3.根据权利要求1所述的物体定位方法，其特征在于，第二步中，每个分支网络，共6层卷积层，每两层或一层卷积层后跟随一层最大池化层，随后跟随一层展平层和三层全连接层输出三维的位置输出。