CN114399515A

CN114399515A - 基于语言描述的类级别目标物6d位姿获取方法及存储介质

Info

Publication number: CN114399515A
Application number: CN202111598303.4A
Authority: CN
Inventors: 付彦伟; 林海涛; 薛向阳
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-04-26

Abstract

本发明涉及一种基于语言描述的类级别目标物6D位姿获取方法及存储介质，其中6D位姿获取方法包括：构建基于语言特征及图像特征的物体二维定位模型；将图片及语言描述输入至二维定位模型，从而根据语言描述生成图片中目标物体的二维定位；将二维定位对深度图像利用相机内参进行反投影以获取目标区域对应的点云数据；构建用于去除背景点云的点云分割模型，将目标区域点云输入点云分割模型以获取目标物体的点云数据；构建用于估计物体在三维空间中位姿的类级别六自由度位姿估计模型，将目标物体点云数据输入至类级别物体位姿估计模型获取目标物体的位姿。与现有技术相比，本发明具有准确性高、实用性强等优点。

Description

基于语言描述的类级别目标物6D位姿获取方法及存储介质

技术领域

本发明涉及视觉定位技术领域，尤其是涉及一种基于语言描述的类级别目标物6D位姿获取方法及存储介质。

背景技术

视觉定位是连接视觉信息和语言信息的重要问题，随着深度神经网络建模能力的提升，通过多模态信息的融合和利用，视觉定位能够在图像空间中检测出符合语言描述的目标位置。但是由于图像描述会存在复杂的关系，因此在语言描述中理解多物体之间的关系及属性是目前存在的挑战。同时目前现有的方法主要关注于在图像平面空间中进行定位，但在机器抓取和人机交互等领域中，推断物体在三维空间中的位姿是机器人与外界物体进行交互的基础。

近年视觉定位相关的研究工作致力于解决图像描述中复杂的关系结构，但相关工作局限于在二维的平面空间下进行定位，尽管目前主流的视觉定位方法致力于学习视觉与语言特征之间的依存关系，以精确定位目标物体在图像平面空间中的位置，但却缺乏在三维场景中应用的能力。

近年关于在三维场景下的视觉定位方法，目标在于解决物体在三维室内空间的视觉定位任务，目前对三维视觉定位局限于在室内场景对已知实例进行定位，但对未知物体和场景的三维视觉定位仍具备探索的空间。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种准确性高、实用性强的基于语言描述的类级别目标物6D位姿获取方法及存储介质。

本发明的目的可以通过以下技术方案来实现：

一种基于语言描述的类级别目标物6D位姿获取方法，所述的6D位姿获取方法包括：

步骤1：构建基于语言特征及图像特征的物体二维定位模型；

步骤2：将图片及语言描述输入至二维定位模型，从而根据语言描述生成图片中目标物体的二维定位；

步骤3：将二维定位对深度图像利用相机内参进行反投影以获取目标区域对应的点云数据；

步骤4：构建用于去除背景点云的点云分割模型，将目标区域点云输入点云分割模型以获取目标物体的点云数据；

步骤5：构建用于估计物体在三维空间中位姿的类级别六自由度位姿估计模型，将目标物体点云数据输入至类级别物体位姿估计模型获取目标物体的位姿。

优选地，所述的步骤1具体为：

步骤1-1：构建语言-图像耦合性置信度模块；

步骤1-2：计算输入文本与每个侯选边界框图像的契合置信度。

更加优选地，所述的语言-图像耦合性置信度模块包括：

物体主体契合置信度单元，将图像特征嵌入编码和语言特征嵌入编码融合后送入编码器回归生成文本描述的目标主体和图片中物体主体的契合置信度；

物体位置契合置信度单元，用真实标注的边界框信息以生成位置嵌入编码，并与语言特征嵌入编码经由编码器预测文本描述的目标位置和图片中物体位置的契合置信度；

物体邻近关系契合置信度单元，使用语言特征嵌入编码以及邻近侯选区域的位置嵌入编码经由编码器预测文本描述的目标—周围物体关系和图片中物体—周围物体关系的契合置信度。

更加优选地，所述的步骤1-1具体为：

将输入的图像通过残差神经网络ResNet提取图像特征嵌入编码，语言描述通过双向循环神经网络Bi-RNN提取语言特征嵌入编码，然后分别计算物体主体契合置信度、物体位置契合置信度和物体邻近关系契合置信度。

更加优选地，所述的编码器为多层感知机。

更加优选地，所述的步骤1-2具体为：

将输入的图像经由区域提案网络RPN生成多个侯选边界框，将每个边界框对应图像及其邻近边界框位置信息作为输入，将步骤1-1预测获得的三种置信度取加权和作为边界框的置信度总和；置信度最高的侯选边界框将作为目标预测边界框，然后将目标预测边界框对应的图像送入Mask-RCNN进一步预测得到物体的类别分割掩码。

优选地，所述的步骤3具体为：

在获得物体边界框或分割掩码后，相应地截取对应的深度图像，并通过相机内参将这部分深度图片进行反向投影以获取该区域内对应的三维点云数据。

优选地，所述的步骤4具体为：

基于三维卷积网络3D-GCN构建点云分割模型，用于对物体点云和背景点云进行分割，并输出每个点云的类别标签进行区分，然后将背景点云删除。

优选地，所述的步骤5具体为：

使用类级别位姿估计网络DONet构建类级别六自由度位姿估计模型，输入该物体的类别和点云数据，类级别六自由度位姿估计模型提取物体的几何特征，同时估计目标物体在相机坐标系下的的旋转和平移以获得目标物六自由度位姿。

一种存储介质，所述的存储介质内存储有上述任一项所述的类级别目标物6D位姿获取方法。

与现有技术相比，本发明具有以下有益效果：

一、准确性高：本发明中的类级别目标物6D位姿获取方法提出在机器抓取场景下通过语言引导方式对场景中的物体进行三维定位的任务，即由二维视觉定位以及六自由度位姿估计的二阶段式网络构成：利用二维视觉定位模块根据语言描述对物体在图像平面中进行边界框定位以及分割掩码；利用六自由度位姿估计网模块，在给定物体边界框或掩码，估计单个或多个物体的六自由度位姿；最后结合二维视觉定位模块以及六自由度位姿估计模块利用语言描述对场景中的特定目标进行定位；此外，三维分割网络为本发明中的6D位姿获取方法提供了对真实深度传感器捕获的点云数据离群点的鲁棒性，即有效去除背景信息，提升了物体的六自由度位姿估计的准确性。

二、实用性强：本发明中的类级别目标物6D位姿获取方法可应用于工业领域以及家用机器人领域，提供了直接通过语音控制机器人进行抓取的方法，实现从语音到控制的人机交互系统，对各类物体具备较高的泛化能力，实用性强。

附图说明

图1为本发明中类级别目标物6D位姿获取方法的流程示意图；

图2为本发明实施例中语言-图像契合性置信度计算模块的结构示意图；

图3为本发明实施例中基于语言描述对目标物体进行类级别六自由度位姿估计方法的结构示意图；

图4为本发明实施例中基于语言描述对目标物体进行类级别六自由度位姿估计方法的任务示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

一种基于语言描述的类级别目标物6D位姿获取方法，其流程如图1和图3所示，包括：

步骤1：构建基于语言特征及图像特征的物体二维定位模型；

步骤1-1：构建语言-图像耦合性置信度模块，具体为：

将输入的图像通过残差神经网络ResNet提取图像特征嵌入编码，语言描述通过双向循环神经网络Bi-RNN提取语言特征嵌入编码，然后分别计算物体主体契合置信度、物体位置契合置信度和物体邻近关系契合置信度；

如图2所示，语言-图像耦合性置信度模块包括：

物体邻近关系契合置信度单元，使用语言特征嵌入编码以及邻近侯选区域的位置嵌入编码经由编码器预测文本描述的目标—周围物体关系和图片中物体—周围物体关系的契合置信度；

本实施例中的编码器采用多层感知机。

步骤1-2：计算输入文本与每个侯选边界框图像的契合置信度，具体为：

将输入的图像经由区域提案网络RPN生成多个侯选边界框，将每个边界框对应图像及其邻近边界框位置信息作为输入，将步骤1-1预测获得的三种置信度取加权和作为边界框的置信度总和；置信度最高的侯选边界框将作为目标预测边界框，然后将目标预测边界框对应的图像送入Mask-RCNN进一步预测得到物体的类别分割掩码；

步骤2：将图片及语言描述输入至二维定位模型，从而根据语言描述生成图片中目标物体的二维定位，具体为：

将语音描述描述转化为文本描述，输入文本描述及场景图片至物体二维定位模型从而生成目标物体的二维定位，该二维定位由边界框或者分割掩码表示；

步骤3：将二维定位对深度图像利用相机内参进行反投影以获取目标区域对应的点云数据，具体为：

场景图片是RGB-D(彩色-深度)对齐的图像，因此，在获得物体边界框或分割掩码后，相应地截取对应的深度图像，并通过相机内参将这部分深度图片进行反向投影以获取该区域内对应的三维点云数据；

步骤4：构建用于去除背景点云的点云分割模型，将目标区域点云输入点云分割模型以获取目标物体的点云数据，具体为：

基于三维卷积网络3D-GCN构建点云分割模型，用于输出每个点云的类别标签进行区分，对物体点云和背景点云进行分割，然后将背景点云删除；

步骤5：构建用于估计物体在三维空间中位姿的类级别六自由度位姿估计模型，将目标物体点云数据输入至类级别物体位姿估计模型获取目标物体的位姿，具体为：

本实施例还提供一种上述方法的具体应用场景，具体为：

如图4所示，应用本实施例中类级别目标物6D位姿获取方法可以实现使用语音控制机器人进行抓取，实现从语音到控制的人机交互系统。

本实施例还涉及一种存储介质，该介质内存储有上述任一项类级别目标物6D位姿获取方法。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于语言描述的类级别目标物6D位姿获取方法，其特征在于，所述的6D位姿获取方法包括：

步骤1：构建基于语言特征及图像特征的物体二维定位模型；

2.根据权利要求1所述的一种基于语言描述的类级别目标物6D位姿获取方法，其特征在于，所述的步骤1具体为：

步骤1-1：构建语言-图像耦合性置信度模块；

3.根据权利要求2所述的一种基于语言描述的类级别目标物6D位姿获取方法，其特征在于，所述的语言-图像耦合性置信度模块包括：

4.根据权利要求3所述的一种基于语言描述的类级别目标物6D位姿获取方法，其特征在于，所述的步骤1-1具体为：

5.根据权利要求4所述的一种基于语言描述的类级别目标物6D位姿获取方法，其特征在于，所述的编码器为多层感知机。

6.根据权利要求2所述的一种基于语言描述的类级别目标物6D位姿获取方法，其特征在于，所述的步骤1-2具体为：

7.根据权利要求1所述的一种基于语言描述的类级别目标物6D位姿获取方法，其特征在于，所述的步骤3具体为：

8.根据权利要求1所述的一种基于语言描述的类级别目标物6D位姿获取方法，其特征在于，所述的步骤4具体为：

基于三维卷积网络3D-GCN构建点云分割模型，用于输出每个点云的类别标签进行区分，对物体点云和背景点云进行分割，然后将背景点云删除。

9.根据权利要求1所述的一种基于语言描述的类级别目标物6D位姿获取方法，其特征在于，所述的步骤5具体为：

10.一种存储介质，其特征在于，所述的存储介质内存储有如权利要求1～9中任一项所述的类级别目标物6D位姿获取方法。