CN114399515A - 基于语言描述的类级别目标物6d位姿获取方法及存储介质 - Google Patents

基于语言描述的类级别目标物6d位姿获取方法及存储介质 Download PDF

Info

Publication number
CN114399515A
CN114399515A CN202111598303.4A CN202111598303A CN114399515A CN 114399515 A CN114399515 A CN 114399515A CN 202111598303 A CN202111598303 A CN 202111598303A CN 114399515 A CN114399515 A CN 114399515A
Authority
CN
China
Prior art keywords
class
pose
point cloud
target object
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111598303.4A
Other languages
English (en)
Inventor
付彦伟
林海涛
薛向阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN202111598303.4A priority Critical patent/CN114399515A/zh
Publication of CN114399515A publication Critical patent/CN114399515A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于语言描述的类级别目标物6D位姿获取方法及存储介质,其中6D位姿获取方法包括:构建基于语言特征及图像特征的物体二维定位模型;将图片及语言描述输入至二维定位模型,从而根据语言描述生成图片中目标物体的二维定位;将二维定位对深度图像利用相机内参进行反投影以获取目标区域对应的点云数据;构建用于去除背景点云的点云分割模型,将目标区域点云输入点云分割模型以获取目标物体的点云数据;构建用于估计物体在三维空间中位姿的类级别六自由度位姿估计模型,将目标物体点云数据输入至类级别物体位姿估计模型获取目标物体的位姿。与现有技术相比,本发明具有准确性高、实用性强等优点。

Description

基于语言描述的类级别目标物6D位姿获取方法及存储介质
技术领域
本发明涉及视觉定位技术领域,尤其是涉及一种基于语言描述的类级别目标物6D位姿获取方法及存储介质。
背景技术
视觉定位是连接视觉信息和语言信息的重要问题,随着深度神经网络建模能力的提升,通过多模态信息的融合和利用,视觉定位能够在图像空间中检测出符合语言描述的目标位置。但是由于图像描述会存在复杂的关系,因此在语言描述中理解多物体之间的关系及属性是目前存在的挑战。同时目前现有的方法主要关注于在图像平面空间中进行定位,但在机器抓取和人机交互等领域中,推断物体在三维空间中的位姿是机器人与外界物体进行交互的基础。
近年视觉定位相关的研究工作致力于解决图像描述中复杂的关系结构,但相关工作局限于在二维的平面空间下进行定位,尽管目前主流的视觉定位方法致力于学习视觉与语言特征之间的依存关系,以精确定位目标物体在图像平面空间中的位置,但却缺乏在三维场景中应用的能力。
近年关于在三维场景下的视觉定位方法,目标在于解决物体在三维室内空间的视觉定位任务,目前对三维视觉定位局限于在室内场景对已知实例进行定位,但对未知物体和场景的三维视觉定位仍具备探索的空间。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种准确性高、实用性强的基于语言描述的类级别目标物6D位姿获取方法及存储介质。
本发明的目的可以通过以下技术方案来实现:
一种基于语言描述的类级别目标物6D位姿获取方法,所述的6D位姿获取方法包括:
步骤1:构建基于语言特征及图像特征的物体二维定位模型;
步骤2:将图片及语言描述输入至二维定位模型,从而根据语言描述生成图片中目标物体的二维定位;
步骤3:将二维定位对深度图像利用相机内参进行反投影以获取目标区域对应的点云数据;
步骤4:构建用于去除背景点云的点云分割模型,将目标区域点云输入点云分割模型以获取目标物体的点云数据;
步骤5:构建用于估计物体在三维空间中位姿的类级别六自由度位姿估计模型,将目标物体点云数据输入至类级别物体位姿估计模型获取目标物体的位姿。
优选地,所述的步骤1具体为:
步骤1-1:构建语言-图像耦合性置信度模块;
步骤1-2:计算输入文本与每个侯选边界框图像的契合置信度。
更加优选地,所述的语言-图像耦合性置信度模块包括:
物体主体契合置信度单元,将图像特征嵌入编码和语言特征嵌入编码融合后送入编码器回归生成文本描述的目标主体和图片中物体主体的契合置信度;
物体位置契合置信度单元,用真实标注的边界框信息以生成位置嵌入编码,并与语言特征嵌入编码经由编码器预测文本描述的目标位置和图片中物体位置的契合置信度;
物体邻近关系契合置信度单元,使用语言特征嵌入编码以及邻近侯选区域的位置嵌入编码经由编码器预测文本描述的目标—周围物体关系和图片中物体—周围物体关系的契合置信度。
更加优选地,所述的步骤1-1具体为:
将输入的图像通过残差神经网络ResNet提取图像特征嵌入编码,语言描述通过双向循环神经网络Bi-RNN提取语言特征嵌入编码,然后分别计算物体主体契合置信度、物体位置契合置信度和物体邻近关系契合置信度。
更加优选地,所述的编码器为多层感知机。
更加优选地,所述的步骤1-2具体为:
将输入的图像经由区域提案网络RPN生成多个侯选边界框,将每个边界框对应图像及其邻近边界框位置信息作为输入,将步骤1-1预测获得的三种置信度取加权和作为边界框的置信度总和;置信度最高的侯选边界框将作为目标预测边界框,然后将目标预测边界框对应的图像送入Mask-RCNN进一步预测得到物体的类别分割掩码。
优选地,所述的步骤3具体为:
在获得物体边界框或分割掩码后,相应地截取对应的深度图像,并通过相机内参将这部分深度图片进行反向投影以获取该区域内对应的三维点云数据。
优选地,所述的步骤4具体为:
基于三维卷积网络3D-GCN构建点云分割模型,用于对物体点云和背景点云进行分割,并输出每个点云的类别标签进行区分,然后将背景点云删除。
优选地,所述的步骤5具体为:
使用类级别位姿估计网络DONet构建类级别六自由度位姿估计模型,输入该物体的类别和点云数据,类级别六自由度位姿估计模型提取物体的几何特征,同时估计目标物体在相机坐标系下的的旋转和平移以获得目标物六自由度位姿。
一种存储介质,所述的存储介质内存储有上述任一项所述的类级别目标物6D位姿获取方法。
与现有技术相比,本发明具有以下有益效果:
一、准确性高:本发明中的类级别目标物6D位姿获取方法提出在机器抓取场景下通过语言引导方式对场景中的物体进行三维定位的任务,即由二维视觉定位以及六自由度位姿估计的二阶段式网络构成:利用二维视觉定位模块根据语言描述对物体在图像平面中进行边界框定位以及分割掩码;利用六自由度位姿估计网模块,在给定物体边界框或掩码,估计单个或多个物体的六自由度位姿;最后结合二维视觉定位模块以及六自由度位姿估计模块利用语言描述对场景中的特定目标进行定位;此外,三维分割网络为本发明中的6D位姿获取方法提供了对真实深度传感器捕获的点云数据离群点的鲁棒性,即有效去除背景信息,提升了物体的六自由度位姿估计的准确性。
二、实用性强:本发明中的类级别目标物6D位姿获取方法可应用于工业领域以及家用机器人领域,提供了直接通过语音控制机器人进行抓取的方法,实现从语音到控制的人机交互系统,对各类物体具备较高的泛化能力,实用性强。
附图说明
图1为本发明中类级别目标物6D位姿获取方法的流程示意图;
图2为本发明实施例中语言-图像契合性置信度计算模块的结构示意图;
图3为本发明实施例中基于语言描述对目标物体进行类级别六自由度位姿估计方法的结构示意图;
图4为本发明实施例中基于语言描述对目标物体进行类级别六自由度位姿估计方法的任务示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
一种基于语言描述的类级别目标物6D位姿获取方法,其流程如图1和图3所示,包括:
步骤1:构建基于语言特征及图像特征的物体二维定位模型;
步骤1-1:构建语言-图像耦合性置信度模块,具体为:
将输入的图像通过残差神经网络ResNet提取图像特征嵌入编码,语言描述通过双向循环神经网络Bi-RNN提取语言特征嵌入编码,然后分别计算物体主体契合置信度、物体位置契合置信度和物体邻近关系契合置信度;
如图2所示,语言-图像耦合性置信度模块包括:
物体主体契合置信度单元,将图像特征嵌入编码和语言特征嵌入编码融合后送入编码器回归生成文本描述的目标主体和图片中物体主体的契合置信度;
物体位置契合置信度单元,用真实标注的边界框信息以生成位置嵌入编码,并与语言特征嵌入编码经由编码器预测文本描述的目标位置和图片中物体位置的契合置信度;
物体邻近关系契合置信度单元,使用语言特征嵌入编码以及邻近侯选区域的位置嵌入编码经由编码器预测文本描述的目标—周围物体关系和图片中物体—周围物体关系的契合置信度;
本实施例中的编码器采用多层感知机。
步骤1-2:计算输入文本与每个侯选边界框图像的契合置信度,具体为:
将输入的图像经由区域提案网络RPN生成多个侯选边界框,将每个边界框对应图像及其邻近边界框位置信息作为输入,将步骤1-1预测获得的三种置信度取加权和作为边界框的置信度总和;置信度最高的侯选边界框将作为目标预测边界框,然后将目标预测边界框对应的图像送入Mask-RCNN进一步预测得到物体的类别分割掩码;
步骤2:将图片及语言描述输入至二维定位模型,从而根据语言描述生成图片中目标物体的二维定位,具体为:
将语音描述描述转化为文本描述,输入文本描述及场景图片至物体二维定位模型从而生成目标物体的二维定位,该二维定位由边界框或者分割掩码表示;
步骤3:将二维定位对深度图像利用相机内参进行反投影以获取目标区域对应的点云数据,具体为:
场景图片是RGB-D(彩色-深度)对齐的图像,因此,在获得物体边界框或分割掩码后,相应地截取对应的深度图像,并通过相机内参将这部分深度图片进行反向投影以获取该区域内对应的三维点云数据;
步骤4:构建用于去除背景点云的点云分割模型,将目标区域点云输入点云分割模型以获取目标物体的点云数据,具体为:
基于三维卷积网络3D-GCN构建点云分割模型,用于输出每个点云的类别标签进行区分,对物体点云和背景点云进行分割,然后将背景点云删除;
步骤5:构建用于估计物体在三维空间中位姿的类级别六自由度位姿估计模型,将目标物体点云数据输入至类级别物体位姿估计模型获取目标物体的位姿,具体为:
使用类级别位姿估计网络DONet构建类级别六自由度位姿估计模型,输入该物体的类别和点云数据,类级别六自由度位姿估计模型提取物体的几何特征,同时估计目标物体在相机坐标系下的的旋转和平移以获得目标物六自由度位姿。
本实施例还提供一种上述方法的具体应用场景,具体为:
如图4所示,应用本实施例中类级别目标物6D位姿获取方法可以实现使用语音控制机器人进行抓取,实现从语音到控制的人机交互系统。
本实施例还涉及一种存储介质,该介质内存储有上述任一项类级别目标物6D位姿获取方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种基于语言描述的类级别目标物6D位姿获取方法,其特征在于,所述的6D位姿获取方法包括:
步骤1:构建基于语言特征及图像特征的物体二维定位模型;
步骤2:将图片及语言描述输入至二维定位模型,从而根据语言描述生成图片中目标物体的二维定位;
步骤3:将二维定位对深度图像利用相机内参进行反投影以获取目标区域对应的点云数据;
步骤4:构建用于去除背景点云的点云分割模型,将目标区域点云输入点云分割模型以获取目标物体的点云数据;
步骤5:构建用于估计物体在三维空间中位姿的类级别六自由度位姿估计模型,将目标物体点云数据输入至类级别物体位姿估计模型获取目标物体的位姿。
2.根据权利要求1所述的一种基于语言描述的类级别目标物6D位姿获取方法,其特征在于,所述的步骤1具体为:
步骤1-1:构建语言-图像耦合性置信度模块;
步骤1-2:计算输入文本与每个侯选边界框图像的契合置信度。
3.根据权利要求2所述的一种基于语言描述的类级别目标物6D位姿获取方法,其特征在于,所述的语言-图像耦合性置信度模块包括:
物体主体契合置信度单元,将图像特征嵌入编码和语言特征嵌入编码融合后送入编码器回归生成文本描述的目标主体和图片中物体主体的契合置信度;
物体位置契合置信度单元,用真实标注的边界框信息以生成位置嵌入编码,并与语言特征嵌入编码经由编码器预测文本描述的目标位置和图片中物体位置的契合置信度;
物体邻近关系契合置信度单元,使用语言特征嵌入编码以及邻近侯选区域的位置嵌入编码经由编码器预测文本描述的目标—周围物体关系和图片中物体—周围物体关系的契合置信度。
4.根据权利要求3所述的一种基于语言描述的类级别目标物6D位姿获取方法,其特征在于,所述的步骤1-1具体为:
将输入的图像通过残差神经网络ResNet提取图像特征嵌入编码,语言描述通过双向循环神经网络Bi-RNN提取语言特征嵌入编码,然后分别计算物体主体契合置信度、物体位置契合置信度和物体邻近关系契合置信度。
5.根据权利要求4所述的一种基于语言描述的类级别目标物6D位姿获取方法,其特征在于,所述的编码器为多层感知机。
6.根据权利要求2所述的一种基于语言描述的类级别目标物6D位姿获取方法,其特征在于,所述的步骤1-2具体为:
将输入的图像经由区域提案网络RPN生成多个侯选边界框,将每个边界框对应图像及其邻近边界框位置信息作为输入,将步骤1-1预测获得的三种置信度取加权和作为边界框的置信度总和;置信度最高的侯选边界框将作为目标预测边界框,然后将目标预测边界框对应的图像送入Mask-RCNN进一步预测得到物体的类别分割掩码。
7.根据权利要求1所述的一种基于语言描述的类级别目标物6D位姿获取方法,其特征在于,所述的步骤3具体为:
在获得物体边界框或分割掩码后,相应地截取对应的深度图像,并通过相机内参将这部分深度图片进行反向投影以获取该区域内对应的三维点云数据。
8.根据权利要求1所述的一种基于语言描述的类级别目标物6D位姿获取方法,其特征在于,所述的步骤4具体为:
基于三维卷积网络3D-GCN构建点云分割模型,用于输出每个点云的类别标签进行区分,对物体点云和背景点云进行分割,然后将背景点云删除。
9.根据权利要求1所述的一种基于语言描述的类级别目标物6D位姿获取方法,其特征在于,所述的步骤5具体为:
使用类级别位姿估计网络DONet构建类级别六自由度位姿估计模型,输入该物体的类别和点云数据,类级别六自由度位姿估计模型提取物体的几何特征,同时估计目标物体在相机坐标系下的的旋转和平移以获得目标物六自由度位姿。
10.一种存储介质,其特征在于,所述的存储介质内存储有如权利要求1~9中任一项所述的类级别目标物6D位姿获取方法。
CN202111598303.4A 2021-12-24 2021-12-24 基于语言描述的类级别目标物6d位姿获取方法及存储介质 Pending CN114399515A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111598303.4A CN114399515A (zh) 2021-12-24 2021-12-24 基于语言描述的类级别目标物6d位姿获取方法及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111598303.4A CN114399515A (zh) 2021-12-24 2021-12-24 基于语言描述的类级别目标物6d位姿获取方法及存储介质

Publications (1)

Publication Number Publication Date
CN114399515A true CN114399515A (zh) 2022-04-26

Family

ID=81227345

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111598303.4A Pending CN114399515A (zh) 2021-12-24 2021-12-24 基于语言描述的类级别目标物6d位姿获取方法及存储介质

Country Status (1)

Country Link
CN (1) CN114399515A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115408544A (zh) * 2022-08-19 2022-11-29 梅卡曼德(北京)机器人科技有限公司 图像数据库构建方法、装置、设备、存储介质及产品
CN115482279A (zh) * 2022-09-01 2022-12-16 北京有竹居网络技术有限公司 物体位姿估计方法、装置、介质和设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115408544A (zh) * 2022-08-19 2022-11-29 梅卡曼德(北京)机器人科技有限公司 图像数据库构建方法、装置、设备、存储介质及产品
CN115482279A (zh) * 2022-09-01 2022-12-16 北京有竹居网络技术有限公司 物体位姿估计方法、装置、介质和设备

Similar Documents

Publication Publication Date Title
CN109255813B (zh) 一种面向人机协作的手持物体位姿实时检测方法
CN113450408B (zh) 一种基于深度相机的非规则物体位姿估计方法及装置
CN111563446B (zh) 一种基于数字孪生的人-机交互安全预警与控制方法
CN108898063B (zh) 一种基于全卷积神经网络的人体姿态识别装置及方法
EP3678101A2 (en) Ar-enabled labeling using aligned cad models
Zhu et al. Online camera-lidar calibration with sensor semantic information
CN111563442A (zh) 基于激光雷达的点云和相机图像数据融合的slam方法及系统
CN113205466A (zh) 一种基于隐空间拓扑结构约束的残缺点云补全方法
CN111062263B (zh) 手部姿态估计的方法、设备、计算机设备和存储介质
CN114399515A (zh) 基于语言描述的类级别目标物6d位姿获取方法及存储介质
CN110298330B (zh) 一种输电线路巡检机器人单目检测与定位方法
WO2024087962A1 (zh) 车厢姿态识别系统、方法、电子设备及存储介质
CN113781519A (zh) 目标跟踪方法和目标跟踪装置
Chen et al. Design and Implementation of AMR Robot Based on RGBD, VSLAM and SLAM
CN114273826A (zh) 用于大型待焊接工件的焊接位置自动识别方法
CN116543283B (zh) 一种考虑模态不确定性的多模态目标检测方法
KR101225644B1 (ko) 로봇의 물체 인식 및 자세 추정 방법
CN116976721A (zh) 一种配电作业行为规范性评价方法、系统、计算设备
KR20210054355A (ko) 시각 및 언어 기반 공간 탐색 시스템
Liu et al. Building semantic maps for blind people to navigate at home
CN113673484A (zh) 一种无人驾驶场景中的路况识别与决策的方法
CN113894779A (zh) 一种应用于机器人交互的多模态数据处理方法
CN114494857A (zh) 一种基于机器视觉的室内目标物识别和测距方法
Safia et al. Visual path following by an omnidirectional mobile robot using 2d visual servoing
CN112270357A (zh) Vio视觉系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination