CN114332211B - 一种基于边缘重建和密集融合网络的零件位姿计算方法 - Google Patents

一种基于边缘重建和密集融合网络的零件位姿计算方法 Download PDF

Info

Publication number
CN114332211B
CN114332211B CN202210012126.5A CN202210012126A CN114332211B CN 114332211 B CN114332211 B CN 114332211B CN 202210012126 A CN202210012126 A CN 202210012126A CN 114332211 B CN114332211 B CN 114332211B
Authority
CN
China
Prior art keywords
image
edge
pose
multiplied
feature map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210012126.5A
Other languages
English (en)
Other versions
CN114332211A (zh
Inventor
汪俊
张煜奇
刘元朋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202210012126.5A priority Critical patent/CN114332211B/zh
Publication of CN114332211A publication Critical patent/CN114332211A/zh
Application granted granted Critical
Publication of CN114332211B publication Critical patent/CN114332211B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明提供一种基于边缘重建和密集融合网络的零件位姿计算方法,包括采用实例分割对零件场景的RGB图像进行图像分割;采用特征提取网络对分割后的RGB图像的边缘特征进行提取,得到特征图;采用边缘检测器输入H×W×C的特征图,输出单通道特征图H×W×1,单通道特征图随后可视化,得到重建的零件边缘图像;计算特征提取网络的权重,通过密集融合网络回归零件位姿;采用多任务学习策略,建立位姿计算与边缘重建之间的隐式连接,直接回归零件的6D位姿,实现零件位姿计算。本发明解决了对于低纹理甚至无纹理、具有反光表面的零件识别效果较差,难以在实际工业场景中实现高效的零件自动化分拣的问题。

Description

一种基于边缘重建和密集融合网络的零件位姿计算方法
技术领域
本发明属于计算机视觉技术领域,尤其涉及一种基于边缘重建和密集融合网络的零件位姿计算方法。
背景技术
计算机视觉技术在机器人非结构化场景感知中占据重要的地位。视觉图像是获取真实世界信息的有效手段,通过视觉感知算法提取对应任务的特征,如物体位置、角度、姿态等信息,从而使机器人能够执行对应操作,完成指定作业任务。对于工业机器人分拣而言,目前已经能够利用视觉传感器获取场景数据,但如何从场景中识别目标物体,并估计其位置和姿态,从而计算工业机器人的抓取位置和抓取路径则成为核心问题。
随着深度学习技术的快速发展,基于深度学习的位姿估计技术已经成为位姿估计领域的主流算法。但现有的基于深度学习的主流位姿估计算法大都依赖于物体表面的颜色、纹理等信息,对于工业上低纹理甚至无纹理、具有反光表面的零件识别效果较差,难以在实际工业场景中实现高效的零件自动化分拣。
发明内容
本发明针对现有技术中的不足,提供一种基于边缘重建和密集融合网络的零件位姿计算方法。
本发明提供一种基于边缘重建和密集融合网络的零件位姿计算方法,包括:
获取零件场景的RGB图像;
采用实例分割对零件场景的RGB图像进行图像分割;
采用特征提取网络对分割后的RGB图像的边缘特征进行提取,得到特征图;
采用边缘检测器输入H×W×C的特征图,输出单通道特征图H×W×1,单通道特征图随后由sigmoid激活函数可视化,得到重建的零件边缘图像;其中H为特征图的高,W为特征图的长,C为通道数;
计算特征提取网络的权重,通过密集融合网络回归零件位姿;
采用多任务学习策略,建立位姿计算与边缘重建之间的隐式连接,直接回归零件的6D位姿,实现基于边缘重建和密集融合网络的零件位姿计算。
进一步地,所述采用特征提取网络对分割后的RGB图像的边缘特征进行提取,得到特征图,包括:
输入H×W×3的RGB图像,基于PSPnet通过图像卷积分别得到
Figure GDA0003925883840000021
图像大小的特征图,对应特征维数分别为C1、C2、C3、C4
Figure GDA0003925883840000022
图像大小的特征图作为瓶颈层,对瓶颈层进行双线性插值采样,分别得到
Figure GDA0003925883840000023
Figure GDA0003925883840000024
图像大小的特征图,对应特征维数分别为C3’、C2’、C1’;
采用跨层级连接方案,将相同尺寸的特征图特征维度相联接,结合低维具象特征和高维抽象特征,提取高表达性的图像特征,得到与原始图像同尺寸的特征图M,特征图大小为H×W×C0;C0为是特征图M的通道数。
进一步地,所述计算特征提取网络的权重,通过密集融合网络回归零件位姿,包括:
获取零件场景的深度图像;
将深度图像转换为点云,在图像掩码上采样N个像素点;
输出特征图M提取图像特征,根据深度相机的成像原理寻找RGB图像和点云直接的对应关系,逐像素融合图像光流特征与点云几何特征;
基于密集融合策略,每个像素点Ni得到一个变换矩阵[Ri,ti]和一个置信度ci,最终取最高置信度对应的变换矩阵结果为位姿计算结果。
进一步地,所述多任务学习策略包括:
深度学习网络训练方式为端到端的训练,边缘重建和密集融合网络需要输入同一RGB图像,利用共享权值的特征提取网络建立两者之间的隐式连接;
根据两个任务的不同需求定义各自的损失函数,对损失函数求和,指导整体网络训练。
进一步地,所述根据两个任务的不同需求定义各自的损失函数,对损失函数求和,指导整体网络训练,包括:
构建边缘重建的损失函数:
Figure GDA0003925883840000025
其中,β为非边缘部分在整张图像中占的百分比;Egt(i,j)为用于监督的真值边缘图像中位于(i,j)的像素值,当该像素点位于图像物体边缘时为1,否则为0;Ex(i,j)为输入图像上位于(i,j)的像素值;
对于非对称物体,构建密集融合网络的位姿计算损失函数:
Figure GDA0003925883840000031
其中,xn为N个像素点中的第n个点;
Figure GDA0003925883840000032
为真值位姿;
Figure GDA0003925883840000033
为与n对应的像素点i预测的位姿结果;
对于对称物体,消除位姿的模糊性,构建损失函数:
Figure GDA0003925883840000034
构建基于多任务学习的损失函数:
Loss=Lpose+μLedge
其中,Loss为基于多任务学习的损失函数;Lpose为位姿计算损失函数;Ledge为边缘重建损失函数;μ为具有平衡作用的超参数。
本发明提供一种基于边缘重建和密集融合网络的零件位姿计算方法,包括获取零件场景的RGB图像;采用实例分割对零件场景的RGB图像进行图像分割;采用特征提取网络对分割后的RGB图像的边缘特征进行提取,得到特征图;采用边缘检测器输入H×W×C的特征图,输出单通道特征图H×W×1,单通道特征图随后由sigmoid激活函数可视化,得到重建的零件边缘图像;其中H为特征图的高,W为特征图的长,C为通道数;计算特征提取网络的权重,通过密集融合网络回归零件位姿;采用多任务学习策略,建立位姿计算与边缘重建之间的隐式连接,直接回归零件的6D位姿,实现基于边缘重建和密集融合网络的零件位姿计算。本发明采用上述方案,解决了对于工业上低纹理甚至无纹理、具有反光表面的零件识别效果较差,难以在实际工业场景中实现高效的零件自动化分拣的问题。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于边缘重建和密集融合网络的零件位姿计算方法的工作流程图;
图2为本发明实施例提供的零件边缘重建结果示意图;
图3为本发明实施例提供的跨层级连接方案的网络结构示意图;
图4为本发明实施例提供的位姿计算的结果图;
图5为本发明实施例提供的一种基于边缘重建和密集融合网络的零件位姿计算方法的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如背景技术中所述现有的基于深度学习的主流位姿估计算法大都依赖于物体表面的颜色、纹理等信息,对于工业上低纹理甚至无纹理、具有反光表面的零件识别效果较差,难以在实际工业场景中实现高效的零件自动化分拣。
因此,为了解决上述问题,本发明实施例部分提供了一种基于边缘重建和密集融合网络的零件位姿计算方法,如图5所示,图5为本发明提供的一种基于边缘重建和密集融合网络的零件位姿计算方法的结构示意图。
具体的,如图1所示,本发明实施例部分提供一种基于边缘重建和密集融合网络的零件位姿计算方法,包括:
步骤S101,获取零件场景的RGB图像。
步骤S102,采用实例分割对零件场景的RGB图像进行图像分割。
步骤S103,采用特征提取网络对分割后的RGB图像的边缘特征进行提取,得到特征图。
本步骤中,如图2和图3所示,首先输入H×W×3分割后的RGB图像,长为W,高为H,通道数为3,基于PSPnet通过图像卷积分别得到
Figure GDA0003925883840000041
图像大小的特征图,对应特征维数分别为C1=64、C2=64、C3=128、C4=512。
然后以
Figure GDA0003925883840000042
图像大小的特征图作为瓶颈层,对瓶颈层进行双线性插值采样,分别得到
Figure GDA0003925883840000043
Figure GDA0003925883840000044
图像大小的特征图,对应特征维数分别为C3’=1024、C2’=256、C1’=64;
最后采用跨层级连接方案,将相同尺寸的特征图特征维度相联接,结合低维具象特征和高维抽象特征,增强特征图的表达性,提取高表达性的图像特征,得到与原始图像同尺寸的特征图M,特征图大小为H×W×C0,C0为是特征图M的通道数,C0=32。
步骤S104,采用边缘检测器输入H×W×C的特征图M,输出单通道特征图H×W×1,单通道特征图随后由sigmoid激活函数可视化,得到重建的零件边缘图像;其中H为特征图的高,W为特征图的长,C为通道数。
步骤S105,计算特征提取网络的权重,通过密集融合网络回归零件位姿。
本步骤中,首先获取零件场景的深度图像,将深度图像转换为点云,在图像掩码上采样N个像素点;然后输出特征图M提取图像特征,根据深度相机的成像原理寻找RGB图像和点云直接的对应关系,逐像素融合图像光流特征与点云几何特征;本是实施例中N=500。
基于密集融合策略,每个像素点Ni得到一个变换矩阵[Ri,ti]和一个置信度ci,最终取最高置信度对应的变换矩阵结果为位姿计算结果。
权特征提取网络同时为两个分支使用,每一个分支是独立且权值共享的;其中一个分支为边缘重建服务,另一个分支为位姿计算服务,边缘重建任务引导特征提取网络关注边缘信息;位姿计算共享特征提取网络权重,因此,获得对零件纹理更鲁棒的特征图,然后通过密集融合网络回归零件位姿。
步骤S106,采用多任务学习策略,建立位姿计算与边缘重建之间的隐式连接,直接回归零件的6D位姿,实现基于边缘重建和密集融合网络的零件位姿计算。
本步骤中,深度学习网络训练方式为端到端的训练,边缘重建和密集融合网络需要输入同一RGB图像,利用共享权值的特征提取网络建立两者之间的隐式连接,需要定义损失函数,根据两个任务的不同需求定义各自的损失函数,对损失函数求和,指导整体网络训练。
首先,构建边缘重建的损失函数,以带对数的二元交叉熵的形式呈现,具体为:
Figure GDA0003925883840000051
其中,β为非边缘部分在整张图像中占的百分比;Egt(i,j)为用于监督的真值边缘图像中位于(i,j)的像素值,当该像素点位于图像物体边缘时为1,否则为0;Ex(i,j)为输入图像上位于(i,j)的像素值。
其次,构建密集融合网络的位姿计算损失函数,对于非对称物体,损失函数如下:
Figure GDA0003925883840000052
其中,xn为N个像素点中的第n个点;
Figure GDA0003925883840000053
为真值位姿;
Figure GDA0003925883840000054
为与n对应的像素点i预测的位姿结果。
对于对称物体,为了消除位姿的模糊性,构建损失函数如下:
Figure GDA0003925883840000061
最后,定义边缘重建和密集融合的损失函数后,同时考虑两个任务之间的平衡和性能,构建基于多任务学习的损失函数如下:
Loss=Lpose+μLedge
其中,Loss为基于多任务学习的损失函数;Lpose为位姿计算损失函数;Ledge为边缘重建损失函数;μ为具有平衡作用的超参数。
至此,完成整个网络的训练。位姿计算结果可由网络直接回归位姿参数得到。如图4所示,图4展示了该实施例的位姿计算结果,识别的零件用边界框标注。
以上结合具体实施方式和范例性实例对本发明进行了详细说明,不过这些说明并不能理解为对本发明的限制。本领域技术人员理解,在不偏离本发明精神和范围的情况下,可以对本发明技术方案及其实施方式进行多种等价替换、修饰或改进,这些均落入本发明的范围内。本发明的保护范围以所附权利要求为准。

Claims (1)

1.一种基于边缘重建和密集融合网络的零件位姿计算方法,其特征在于,包括:
获取零件场景的RGB图像;
采用实例分割对零件场景的RGB图像进行图像分割;
采用特征提取网络对分割后的RGB图像的边缘特征进行提取,得到特征图;
采用边缘检测器输入H×W×C的特征图,输出单通道特征图H×W×1,单通道特征图随后由sigmoid激活函数可视化,得到重建的零件边缘图像;其中H为特征图的高,W为特征图的长,C为通道数;
计算特征提取网络的权重,通过密集融合网络回归零件位姿;
采用多任务学习策略,建立位姿计算与边缘重建之间的隐式连接,直接回归零件的6D位姿,实现基于边缘重建和密集融合网络的零件位姿计算;
其中,所述采用特征提取网络对分割后的RGB图像的边缘特征进行提取,得到特征图,包括:
输入H×W×3的RGB图像,基于PSPnet通过图像卷积分别得到
Figure FDA0003925883830000011
图像大小的特征图,对应特征维数分别为C1、C2、C3、C4
Figure FDA0003925883830000012
图像大小的特征图作为瓶颈层,对瓶颈层进行双线性插值采样,分别得到
Figure FDA0003925883830000013
Figure FDA0003925883830000014
图像大小的特征图,对应特征维数分别为C’3、C’2、C’1
采用跨层级连接方案,将相同尺寸的特征图特征维度相联接,结合低维具象特征和高维抽象特征,提取高表达性的图像特征,得到与原始图像同尺寸的特征图M,特征图大小为H×W×C0;C0为是特征图M的通道数;
所述计算特征提取网络的权重,通过密集融合网络回归零件位姿,包括:
获取零件场景的深度图像;
将深度图像转换为点云,在图像掩码上采样N个像素点;
输出特征图M提取图像特征,根据深度相机的成像原理寻找RGB图像和点云直接的对应关系,逐像素融合图像光流特征与点云几何特征;
基于密集融合策略,每个像素点Ni得到一个变换矩阵[Ri,ti]和一个置信度ci,最终取最高置信度对应的变换矩阵结果为位姿计算结果;
所述多任务学习策略包括:
深度学习网络训练方式为端到端的训练,边缘重建和密集融合网络需要输入同一RGB图像,利用共享权值的特征提取网络建立两者之间的隐式连接;
根据两个任务的不同需求定义各自的损失函数,对损失函数求和,指导整体网络训练;
其中,所述根据两个任务的不同需求定义各自的损失函数,对损失函数求和,指导整体网络训练,包括:
构建边缘重建的损失函数:
Figure FDA0003925883830000021
其中,β为非边缘部分在整张图像中占的百分比;Egt(i,j)为用于监督的真值边缘图像中位于(i,j)的像素值,当该像素点位于图像物体边缘时为1,否则为0;Ex(i,j)为输入图像上位于(i,j)的像素值;
对于非对称物体,构建密集融合网络的位姿计算损失函数:
Figure FDA0003925883830000022
其中,xn为N个像素点中的第n个点;
Figure FDA0003925883830000023
为真值位姿;
Figure FDA0003925883830000024
为与n对应的像素点i预测的位姿结果;
对于对称物体,消除位姿的模糊性,构建损失函数:
Figure FDA0003925883830000025
构建基于多任务学习的损失函数:
Loss=Lpose+μLedge
其中,Loss为基于多任务学习的损失函数;Lpose为位姿计算损失函数;Ledge为边缘重建损失函数;μ为具有平衡作用的超参数。
CN202210012126.5A 2022-01-06 2022-01-06 一种基于边缘重建和密集融合网络的零件位姿计算方法 Active CN114332211B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210012126.5A CN114332211B (zh) 2022-01-06 2022-01-06 一种基于边缘重建和密集融合网络的零件位姿计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210012126.5A CN114332211B (zh) 2022-01-06 2022-01-06 一种基于边缘重建和密集融合网络的零件位姿计算方法

Publications (2)

Publication Number Publication Date
CN114332211A CN114332211A (zh) 2022-04-12
CN114332211B true CN114332211B (zh) 2022-12-13

Family

ID=81023877

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210012126.5A Active CN114332211B (zh) 2022-01-06 2022-01-06 一种基于边缘重建和密集融合网络的零件位姿计算方法

Country Status (1)

Country Link
CN (1) CN114332211B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117237451B (zh) * 2023-09-15 2024-04-02 南京航空航天大学 一种基于轮廓重建和几何引导的工业零件6d位姿估计方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110910452A (zh) * 2019-11-26 2020-03-24 上海交通大学 一种基于深度学习的低纹理工业零件位姿估计方法
CN111899301A (zh) * 2020-06-02 2020-11-06 广州中国科学院先进技术研究所 一种基于深度学习的工件6d位姿估计方法
CN112270249A (zh) * 2020-10-26 2021-01-26 湖南大学 一种融合rgb-d视觉特征的目标位姿估计方法
CN113221647A (zh) * 2021-04-08 2021-08-06 湖南大学 一种融合点云局部特征的6d位姿估计方法
CN113393522A (zh) * 2021-05-27 2021-09-14 湖南大学 一种基于单目rgb相机回归深度信息的6d位姿估计方法
CN113393503A (zh) * 2021-05-24 2021-09-14 湖南大学 一种分割驱动形状先验变形的类别级物体6d位姿估计方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111311666B (zh) * 2020-05-13 2020-08-14 南京晓庄学院 一种融合边缘特征和深度学习的单目视觉里程计方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110910452A (zh) * 2019-11-26 2020-03-24 上海交通大学 一种基于深度学习的低纹理工业零件位姿估计方法
CN111899301A (zh) * 2020-06-02 2020-11-06 广州中国科学院先进技术研究所 一种基于深度学习的工件6d位姿估计方法
CN112270249A (zh) * 2020-10-26 2021-01-26 湖南大学 一种融合rgb-d视觉特征的目标位姿估计方法
CN113221647A (zh) * 2021-04-08 2021-08-06 湖南大学 一种融合点云局部特征的6d位姿估计方法
CN113393503A (zh) * 2021-05-24 2021-09-14 湖南大学 一种分割驱动形状先验变形的类别级物体6d位姿估计方法
CN113393522A (zh) * 2021-05-27 2021-09-14 湖南大学 一种基于单目rgb相机回归深度信息的6d位姿估计方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"3-D object pose estimation based on iterative image matching: Shading and edge data fusion";Y. Nomura el.;《Proceedings of 13th International Conference on Pattern Recognition》;20020806;全文 *
"Edge Enhanced Implicit Orientation Learning With Geometric Prior for 6D Pose Estimation";Yilin Wen el.;《 IEEE Robotics and Automation Letters》;20200625;全文 *
"基于位置依赖的密集融合的6D位姿估计方法";黄榕彬;《现代信息科技》;20201125;第4卷(第22期);全文 *

Also Published As

Publication number Publication date
CN114332211A (zh) 2022-04-12

Similar Documents

Publication Publication Date Title
CN110111366B (zh) 一种基于多级损失量的端到端光流估计方法
CN112529015A (zh) 一种基于几何解缠的三维点云处理方法、装置及设备
CN112767467B (zh) 一种基于自监督深度学习的双图深度估计方法
CN113554032B (zh) 基于高度感知的多路并行网络的遥感图像分割方法
CN111127538A (zh) 一种基于卷积循环编码-解码结构的多视影像三维重建方法
CN111815665A (zh) 基于深度信息与尺度感知信息的单张图像人群计数方法
CN110458142A (zh) 一种融合2d与3d的人脸识别方法及系统
O'Byrne et al. A stereo‐matching technique for recovering 3D information from underwater inspection imagery
CN113610778A (zh) 一种基于语义分割的桥梁表面裂纹检测方法与系统
CN115423978A (zh) 用于建筑物重建的基于深度学习的图像激光数据融合方法
CN113516126A (zh) 一种基于注意力特征融合的自适应阈值场景文本检测方法
CN112053441A (zh) 一种室内鱼眼图像的全自动布局恢复方法
CN117274756A (zh) 基于多维特征配准的二维图像与点云的融合方法及装置
CN115082254A (zh) 一种变电站精益管控数字孪生系统
CN114332211B (zh) 一种基于边缘重建和密集融合网络的零件位姿计算方法
CN116310219A (zh) 一种基于条件扩散模型的三维脚型生成方法
CN115082540A (zh) 一种适用于无人机平台的多视图深度估计方法及装置
CN110298809B (zh) 一种图像去雾方法及装置
CN116386042A (zh) 一种基于三维池化空间注意力机制的点云语义分割模型
CN116385660A (zh) 室内单视图场景语义重建方法及系统
CN113780305B (zh) 一种基于两种线索交互的显著性目标检测方法
CN113269831A (zh) 基于场景坐标回归网络的视觉重定位方法、系统、装置
Li et al. Inductive Guided Filter: Real-Time Deep Matting with Weakly Annotated Masks on Mobile Devices
Pan et al. 3D transparent visualization of relief-type cultural heritage assets based on depth reconstruction of old monocular photos
Coudron et al. Rapid urban 3d modeling for drone-based situational awareness assistance in emergency situations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant