CN112669452A - 一种基于卷积神经网络多分支结构的物体定位方法 - Google Patents
一种基于卷积神经网络多分支结构的物体定位方法 Download PDFInfo
- Publication number
- CN112669452A CN112669452A CN202110024030.6A CN202110024030A CN112669452A CN 112669452 A CN112669452 A CN 112669452A CN 202110024030 A CN202110024030 A CN 202110024030A CN 112669452 A CN112669452 A CN 112669452A
- Authority
- CN
- China
- Prior art keywords
- branch
- network
- convolutional neural
- target
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明提供一种基于卷积神经网络多分支结构的物体定位方法,包括下列步骤:利用3D建模软件构建带有标签的训练集图片数据库与测试集图片数据库;构建一种多分支网络结构,每个分支并行,保持独立,每一个单独的分支采用卷积神经网络的架构:首先是分割模块,对输入网络中的原始相片进行物理分割,分割后的子图像各自并行输入下一模块;其次是多分支模块,在此模块中,存在4个微型的卷积神经网络,分别对应输入的4个子图像和相同的位置标签;输出模块,4个分支分别输出了4个三维位置坐标,对其求平均后输出得到最后的位置估计值;网络模型的训练;使用构建的数据集对第二步搭建的网络进行训练。
Description
技术领域
本发明属于物体定位领域,涉及一种使用卷积神经网络和多分支结构定位物体的方法。
背景技术
目标物体定位在现代工业领域中发挥着十分重要的,同时物体位置信息也是当代众多工业应用的基础信息之一。例如,在工业自动装配中,准确定位机械部件是完成抓取装配的前提;在自动驾驶领域,准确定位视野中障碍物是安全驾驶的必要保障。因此目标物体定位具有着非常重要的工业应用价值。
传统的目标定位检测主要应用了计算机视觉技术。包括单目视觉系统,双目视觉系统以及多目视觉系统等。根据目标的种类可分为合作目标与非合作目标。合作目标上需要设定标识物,包括特征点,特征线,特征面等,利用标识物辅助相机定位。非合作目标无需标识物,但需要提前获知其结构特点等辅助信息。相机在拍摄标识物信息后利用图像处理技术获取特征,包括滤波,去噪,灰度处理,二值化;完成特征获取后进行特征匹配,并通过算法定位物体。
传统的技术方案设备复杂,过程繁琐。双目或多目视觉系统需要多台设备协同工作,多设备协同标定技术复杂,易造成较大误差无法保证技术精度。同时,特征处理与特征匹配过程繁琐复杂,不同应用场景下需要人工设计适应性算法。利用卷积神经网络技术定位物体是一种新兴的技术方案。
卷积神经网络在图像处理领域具有良好的优势,因此被广泛应用于目标检测、图像分类、模式识别等任务中[1]。通过充分利用图像数据的层次属性,抽象或组合低层信号来构建高层特征,即局部边缘构成主题,主题聚合成部分,部分组成物体,最终使得图像中的物体易于检测或分类。因此,卷积神经网络具有极其优良的数据表征能力[2]。将卷积神经网应用在物体定位领域具有很大的创新性,可以大大简化传统物体定位技术方案的复杂性,无需特征提取、特征匹配等图像处理过程,也无需设计定位算法。因此与传统的技术方案相比,使用卷积神经网络的技术方案更加方便、快捷、准确、高效。
由于位置具有相对性,因此对物体位置的表示需要依赖参照物。在选定参照物后,建立三维空间直角坐标系,物体的位置可以用一个三维空间坐标表示,因此物体的定位任务即求解物体几何中心的三维空间坐标,将定位问题定量描述为三维求解问题。卷积神经网络的输入是单幅RGB图像,通过卷积核在图像上的滑动提取标识物的纹理特征,神经节点隐式构建数学模型,自动总结图像特征与三维位置标签之间的数学关系,端到端求解物体位置。
在继承卷积神经网络优良特性的基础上,我们首创性地提出了一种多分支并行的神经网络结构目的在于提高物体定位的精确度与鲁棒性。这种多分支并行的结构平均了每个神经网络输出的误差,进一步减小了定位误差,提高了定位精度。
[1]刘硕,吴兆跃,袁家政.物体定位与识别研究综述[C]中国计算机用户协会网络应用分会2017年第二十一届网络新技术与应用年会.2017.
[2]刘栋,李素,曹志冬.深度学习及其在图像物体分类与检测中的应用综述[J].计算机科学,2016,(12):13-23.
发明内容
本发明针对物体检测领域的目标定位问题,提供一种基于卷积神经网络多分支网络结构的物体定位方法。本发明使用单目相机,利用单张RGB图像和实现训练好的多分支结构的卷积神经网络实时定位目标物体。本系统完成了实时单幅图像的输入与3维空间坐标的同步输出。卷积神经网络确保了定位的快速性实时性,多分支网络结构确保了定位的准确性与鲁棒性。技术方案如下:
一种基于卷积神经网络多分支结构的物体定位方法,包括下列步骤:
第一步,利用3D建模软件自行构建带有标签的训练集图片数据库与测试集图片数据库。
第二步,构建一种多分支网络结构,每个分支并行,保持独立,每一个单独的分支采用卷积神经网络的架构:首先是分割模块,对输入网络中的原始相片进行物理分割,分割后的子图像各自并行输入下一模块;其次是多分支模块,在此模块中,存在4个微型的卷积神经网络,分别对应输入的4个子图像和相同的位置标签,每个分支网络使用各自损失函数训练,从而网络权重不同;输出模块,4个分支分别输出了 4个三维位置坐标,对其求平均后输出得到最后的位置估计值;
第三步,网络模型的训练;使用构建的数据集对第二步搭建的网络进行训练;
第四步:对训练好的卷积神经网络模型进行测试。
进一步地,第一步具体包括:
(1)构建的圆柱形规则物体作为待测目标,将棋盘格图标作为标识物附着其上;
(2)将待测目标置于目标相机视野中,待测目标中心,标识物,相机镜头中心位于同一水平中心线,此时在相机坐标系下设定其三维空间坐标;
(3)编写待测目标的运动脚本,改变其空间位置,获取当前位置下相片,并将对应的三维坐标作为训练样本的标签;
(4)批量获取多张相片作为训练集样本,并将其标签进行所需的数据格式处理,满足网络输入的需求;
(5)以同样的方式获取多张相片作为测试集样本。
进一步地,第二步中,每个分支网络,共6层卷积层,每两层或一层卷积层后跟随一层最大池化层,随后跟随一层展平层和三层全连接层输出三维的位置输出。
本发明构建了一种基于卷积神经网络的多分支网络结构用于物体定位,该技术可以实现利用单张RGB 图像快速、准确、实时、端到端的输出待测物体的三维立体空间坐标。与现有技术相比,卷积神经网络的使用大大简化了技术设备与定位流程,避免了繁琐复杂的图像处理与人工算法等流程,可以实现端到端的技术流程。多分支网络结构在卷积神经网络的优势之上进一步提升了定位精度,增强了定位技术方案的鲁棒性。
附图说明
图1:训练集与测试集构建界面
图2:多分支网络结构流程图
图3:分支结构细节图
图4:多分支网络结构与单分支结构的效果对比
图5:多分支网络结构与单分支结构的全局定位效果对比
具体实施方式
为使本发明的技术方案更加清楚,下面结合附图对本发明做进一步阐述.。本发明按以下步骤具体实现:
第一步,利用3D建模软件自行构建带有标签的训练集图片数据库与测试集图片数据库。图1为训练集与测试集构建界面,包括待测物体与相机的三视图和标识物。
(6)构建半径为100mm,高为200mm的圆柱形规则物体作为待测目标,将棋盘格图标作为标识物附着其上。
(7)将待测物体置于目标相机前方0.5m处,表示物处于相机视野中间,此时圆柱物体中心,标识物,相机镜头中心位于同一水平中心线,此时在相机坐标系下设定其三维空间坐标为(0,0,5000)。
(8)编写待测物体的运动脚本,改变其空间位置,获取当前位置下相片,并将对应的三维坐标作为训练样本的标签。
(9)批量获取50000张相片作为训练集样本,并将其标签进行所需的数据格式处理,满足网络输入的需求。
(10)以同样的方式获取1000张相片作为测试集样本。
第二步,构建一种全新型的多分支网络结构,每个分支并行,保持独立。图2是多分支网络结构的流程图。首先是分割模块,对输入网络中的原始相片进行物理分割,分割后的子图像各自并行输入下一模块;其次是多分支模块,在此模块中,存在4个微型的卷积神经网络,分别对应输入的4个子图像和相同的位置标签;最后是输出模块,4个分支模块输出的估计值求平均后输出。具体的细节如下:
(1)图像分割预处理。原始图像大小是640*480,将其分割为大小320*240的4个子图像,分别对应的是原始图像的左上、左下、右上、右下区域。
(2)将4个子图像输入各自对应的分支网络。图3是分支结构细节图。每一个单独的分支采用了卷积神经网络的架构。每个分支网络结构相同但互不干扰,使用各自的子图像训练,但对应同一图像标签即表征同一位置。每个分支网络相互独立,使用各自损失函数训练,从而网络权重不同。公式(1)是网络训练中使用的损失函数计算方法,在反向传播中用以改进网络参数。其中K表示mini_batch,ypre,ytru分别是预测定位与真实标签。每个分支网络的输入是320*240的子图像,共6层卷积层,每两层或一层卷积层后跟随一层最大池化层,随后跟随一层展平层和三层全连接层输出三维的位置输出。
(3)4个分支分别输出了4个三维位置坐标,对其求平均后输出得到最后的位置估计值。
第三步,网络模型的训练。使用构建的数据集对自行搭建的网络进行训练。具体的训练参数如下:每一批次epoch选择3000张图片作为本轮的样本;mini_batch=2,即每一轮的前向传播与后向传播使用两张图片训练,则3000张图片将需要1500次的输入;nb_epoch=6,即每3000张图片需要重复6次,随后更新下一批次的3000张图片;epoch=300,即总的训练重复次数为300次,每一次将在上一次训练的权重之上继续。使用网络优化器是SGD,学习率设定为0.003。
第四步:对训练好的卷积神经网络模型进行测试。对测试图片进行相同的分割处理后输入训练好的网络模型,模型输出三维位置估计值,将其与标签值比较衡量网络定位效果。公式(2)表示测试效果的衡量指标。i表示第位置维度图4多分支网络结构MBN-4和单分支网络结构SBN的测试结果对比。
图5是多分支网络结构MBN-4和单分支网络结构SBN的在干扰存在时的全局定位结果对比。
Claims (3)
1.一种基于卷积神经网络多分支结构的物体定位方法,包括下列步骤:
第一步,利用3D建模软件自行构建带有标签的训练集图片数据库与测试集图片数据库。
第二步,构建一种多分支网络结构,每个分支并行,保持独立,每一个单独的分支采用卷积神经网络的架构:首先是分割模块,对输入网络中的原始相片进行物理分割,分割后的子图像各自并行输入下一模块;其次是多分支模块,在此模块中,存在4个微型的卷积神经网络,分别对应输入的4个子图像和相同的位置标签,每个分支网络使用各自损失函数训练,从而网络权重不同;输出模块,4个分支分别输出了4个三维位置坐标,对其求平均后输出得到最后的位置估计值;
第三步,网络模型的训练;使用构建的数据集对第二步搭建的网络进行训练;
第四步:对训练好的卷积神经网络模型进行测试。
2.根据权利要求1所述的物体定位方法,其特征在于,第一步具体包括:
(1)构建的圆柱形规则物体作为待测目标,将棋盘格图标作为标识物附着其上;
(2)将待测目标置于目标相机视野中,待测目标中心,标识物,相机镜头中心位于同一水平中心线,此时在相机坐标系下设定其三维空间坐标;
(3)编写待测目标的运动脚本,改变其空间位置,获取当前位置下相片,并将对应的三维坐标作为训练样本的标签;
(4)批量获取多张相片作为训练集样本,并将其标签进行所需的数据格式处理,满足网络输入的需求;
(5)以同样的方式获取多张相片作为测试集样本。
3.根据权利要求1所述的物体定位方法,其特征在于,第二步中,每个分支网络,共6层卷积层,每两层或一层卷积层后跟随一层最大池化层,随后跟随一层展平层和三层全连接层输出三维的位置输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110024030.6A CN112669452B (zh) | 2021-01-08 | 2021-01-08 | 一种基于卷积神经网络多分支结构的物体定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110024030.6A CN112669452B (zh) | 2021-01-08 | 2021-01-08 | 一种基于卷积神经网络多分支结构的物体定位方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112669452A true CN112669452A (zh) | 2021-04-16 |
CN112669452B CN112669452B (zh) | 2022-07-29 |
Family
ID=75413767
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110024030.6A Active CN112669452B (zh) | 2021-01-08 | 2021-01-08 | 一种基于卷积神经网络多分支结构的物体定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112669452B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113130014A (zh) * | 2021-04-23 | 2021-07-16 | 华东交通大学 | 一种基于多分支神经网络的稀土萃取模拟方法及系统 |
CN115100509A (zh) * | 2022-07-15 | 2022-09-23 | 山东建筑大学 | 基于多分支块级注意力增强网络的图像识别方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106845406A (zh) * | 2017-01-20 | 2017-06-13 | 深圳英飞拓科技股份有限公司 | 基于多任务级联卷积神经网络的头肩检测方法及装置 |
CN107576618A (zh) * | 2017-07-20 | 2018-01-12 | 华南理工大学 | 基于深度卷积神经网络的水稻穗瘟检测方法及系统 |
CN108304921A (zh) * | 2018-02-09 | 2018-07-20 | 北京市商汤科技开发有限公司 | 卷积神经网络的训练方法及图像处理方法、装置 |
US20190114774A1 (en) * | 2017-10-16 | 2019-04-18 | Adobe Systems Incorporated | Generating Image Segmentation Data Using a Multi-Branch Neural Network |
CN109829443A (zh) * | 2019-02-23 | 2019-05-31 | 重庆邮电大学 | 基于图像增强与3d卷积神经网络的视频行为识别方法 |
US20200244997A1 (en) * | 2017-08-28 | 2020-07-30 | Interdigital Vc Holdings, Inc. | Method and apparatus for filtering with multi-branch deep learning |
CN111582094A (zh) * | 2020-04-27 | 2020-08-25 | 西安交通大学 | 并行选取超参数设计多分支卷积神经网络识别行人的方法 |
CN111738111A (zh) * | 2020-06-10 | 2020-10-02 | 杭州电子科技大学 | 基于多分支级联空洞空间金字塔的高分辨遥感图像的道路提取方法 |
-
2021
- 2021-01-08 CN CN202110024030.6A patent/CN112669452B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106845406A (zh) * | 2017-01-20 | 2017-06-13 | 深圳英飞拓科技股份有限公司 | 基于多任务级联卷积神经网络的头肩检测方法及装置 |
CN107576618A (zh) * | 2017-07-20 | 2018-01-12 | 华南理工大学 | 基于深度卷积神经网络的水稻穗瘟检测方法及系统 |
US20200244997A1 (en) * | 2017-08-28 | 2020-07-30 | Interdigital Vc Holdings, Inc. | Method and apparatus for filtering with multi-branch deep learning |
US20190114774A1 (en) * | 2017-10-16 | 2019-04-18 | Adobe Systems Incorporated | Generating Image Segmentation Data Using a Multi-Branch Neural Network |
CN108304921A (zh) * | 2018-02-09 | 2018-07-20 | 北京市商汤科技开发有限公司 | 卷积神经网络的训练方法及图像处理方法、装置 |
CN109829443A (zh) * | 2019-02-23 | 2019-05-31 | 重庆邮电大学 | 基于图像增强与3d卷积神经网络的视频行为识别方法 |
CN111582094A (zh) * | 2020-04-27 | 2020-08-25 | 西安交通大学 | 并行选取超参数设计多分支卷积神经网络识别行人的方法 |
CN111738111A (zh) * | 2020-06-10 | 2020-10-02 | 杭州电子科技大学 | 基于多分支级联空洞空间金字塔的高分辨遥感图像的道路提取方法 |
Non-Patent Citations (6)
Title |
---|
HAIJUN LEI ET AL.: "Attention-guided multi-branch convolutional neural network for mitosis detection from histopathological images", 《IEEE XPLORE》 * |
XINZI SUN ET AL.: "PEOPLE RE-IDENTIFICATION BY MULTI-BRANCH CNN WITH MULTI-SCALE FEATURES", 《IEEE XPLORE》 * |
何召兰等: "基于实例分割的视觉SLAM算法", 《计算机工程与设计》 * |
罗瑚: "基于卷积神经网络的双重JPEG压缩取证研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
蔡晓东等: "基于多分支卷积神经网络的车辆图像比对方法", 《视频应用与工程》 * |
被月亮晒黑: "【CS231n 课程笔记】第十一讲-----图像分割、目标检测与定位", 《CSDN》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113130014A (zh) * | 2021-04-23 | 2021-07-16 | 华东交通大学 | 一种基于多分支神经网络的稀土萃取模拟方法及系统 |
CN113130014B (zh) * | 2021-04-23 | 2023-02-07 | 华东交通大学 | 一种基于多分支神经网络的稀土萃取模拟方法及系统 |
CN115100509A (zh) * | 2022-07-15 | 2022-09-23 | 山东建筑大学 | 基于多分支块级注意力增强网络的图像识别方法及系统 |
CN115100509B (zh) * | 2022-07-15 | 2022-11-29 | 山东建筑大学 | 基于多分支块级注意力增强网络的图像识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112669452B (zh) | 2022-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111553949B (zh) | 基于单帧rgb-d图像深度学习对不规则工件的定位抓取方法 | |
CN111625667A (zh) | 一种基于复杂背景图像的三维模型跨域检索方法及系统 | |
CN110674741A (zh) | 一种基于双通道特征融合的机器视觉中手势识别方法 | |
CN112669452B (zh) | 一种基于卷积神经网络多分支结构的物体定位方法 | |
CN108171249B (zh) | 一种基于rgbd数据的局部描述子学习方法 | |
CN113516693B (zh) | 一种快速通用的图像配准方法 | |
CN112801047B (zh) | 缺陷检测方法、装置、电子设备及可读存储介质 | |
Rubio et al. | Efficient monocular pose estimation for complex 3D models | |
CN114170410A (zh) | 基于PointNet的图卷积与KNN搜索的点云零件级分割方法 | |
CN110310305A (zh) | 一种基于bssd检测与卡尔曼滤波的目标跟踪方法与装置 | |
CN111368733B (zh) | 一种基于标签分布学习的三维手部姿态估计方法、存储介质及终端 | |
Zhuang et al. | Instance segmentation based 6D pose estimation of industrial objects using point clouds for robotic bin-picking | |
CN109784297A (zh) | 一种基于深度学习的三维目标识别与最优抓取方法 | |
CN116385660A (zh) | 室内单视图场景语义重建方法及系统 | |
CN115147644A (zh) | 图像描述模型的训练和描述方法、系统、设备及存储介质 | |
CN117252928B (zh) | 用于电子产品模块化智能组装的视觉图像定位系统 | |
CN114663880A (zh) | 基于多层级跨模态自注意力机制的三维目标检测方法 | |
CN117132737B (zh) | 一种三维建筑模型构建方法、系统及设备 | |
Zhang et al. | Improved feature point extraction method of ORB-SLAM2 dense map | |
CN114022525A (zh) | 基于深度学习的点云配准方法、装置、终端设备及介质 | |
CN116843754A (zh) | 一种基于多特征融合的视觉定位方法及系统 | |
CN116543217A (zh) | 一种结构相似的小目标分类识别与位姿估计方法 | |
CN113723468B (zh) | 一种三维点云的物体检测方法 | |
CN113570713B (zh) | 一种面向动态环境的语义地图构建方法及装置 | |
Walch et al. | Deep Learning for Image-Based Localization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |