CN114413910A

CN114413910A - 视觉目标导航方法及装置

Info

Publication number: CN114413910A
Application number: CN202210328453.1A
Authority: CN
Inventors: 杨旭; 许涛; 郑碎武; 乔红
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2022-03-31
Filing date: 2022-03-31
Publication date: 2022-04-29
Anticipated expiration: 2042-03-31
Also published as: CN114413910B

Abstract

本发明提供一种视觉目标导航方法及装置，所述方法包括：基于目标图像，获取目标层级关系特征表示和第一视觉特征表示；并根据目标类别信息，获取类别编码；根据所述目标层级关系特征表示、所述第一视觉特征表示和所述类别编码，获取预测导航动作。本发明通过编码目标类别，赋予机器人在视觉目标导航中的推理能力，一定程度上弥补了全局信息的缺失；通过“目标‑区域”层级关系使得机器人的推理更为高效，在提高导航成功率的同时大幅减少导航步数和时间，在缺乏全局信息输入的条件下，机器人可以快速且精准的完成导航任务。

Description

视觉目标导航方法及装置

技术领域

本发明涉及机器人技术领域，尤其涉及一种视觉目标导航方法及装置。

背景技术

随着机器人领域相关技术的不断发展，机器人技术的应用范围越来越广泛，而对于机器人和其他无人系统来说，目标导航技术无疑是至关重要的。然而传统的机器人目标导航技术对传感器的要求非常高，导航系统过于繁杂，这一定程度上制约了机器人技术的发展。

现如今，视觉目标导航技术仅采用单目相机作为传感器输入，端到端地完成目标导航任务，这大大降低了无人系统的部署成本，使得机器人技术的应用发展更为迅速。

然而，视觉目标导航技术仅采用局部视觉输入作为唯一传感器输入，缺乏地图和GPS等全局信息，使得机器人在未知环境中很难快速且精准地完成导航任务。显然，这不符合机器人领域追求的快速、精准的目标性能要求。

因此，在缺乏全局信息输入的条件下，机器人很难快速且精准的完成导航任务是急需解决的技术问题。

发明内容

本发明提供一种视觉目标导航方法及装置，用以解决现有技术中在缺乏全局信息输入的条件下，机器人很难快速且精准的完成导航任务的缺陷。

本发明提供一种视觉目标导航方法，包括：

基于目标图像，获取目标层级关系特征表示和第一视觉特征表示；并根据目标类别信息，获取类别编码；

根据所述目标层级关系特征表示、所述第一视觉特征表示和所述类别编码，获取预测导航动作。

可选地，所述基于目标图像，获取目标层级关系特征表示和第一视觉特征表示，包括：

对所述目标图像进行目标检测，获取目标特征；

根据所述目标特征，获取目标级关系图；

对所述目标级关系图进行坍缩，获取区域级关系图；

将所述目标级关系图对应的目标级目标特征表示和所述区域级关系图对应的区域级目标特征表示进行融合，获取所述目标层级关系特征表示。

可选地，所述根据所述目标特征，获取目标级关系图，包括：

根据所述目标特征对目标之间的关联性进行编码，获取所述目标级关系图。

可选地，所述根据所述目标层级关系特征表示、所述第一视觉特征表示和所述类别编码，获取预测导航动作，包括：

将所述目标层级关系特征表示、所述第一视觉特征表示和所述类别编码进行融合，获取第二视觉特征表示；

将所述第二视觉特征表示输入导航策略模块，获取预测导航动作。

可选地，所述导航策略模块是利用异步优势表演者-评论家框架对长短期记忆网络进行训练得到的。

可选地，所述区域级目标特征表示是利用图卷积网络对所述区域级关系图进行卷积处理得到的。

本发明还提供一种视觉目标导航装置，包括：

第一获取模块，用于基于目标图像，获取目标层级关系特征表示和第一视觉特征表示；并根据目标类别信息，获取类别编码；

第二获取模块，用于根据所述目标层级关系特征表示、所述第一视觉特征表示和所述类别编码，获取预测导航动作。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述中的任一项所述视觉目标导航方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述中的任一项所述视觉目标导航方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述中的任一项所述视觉目标导航方法。

本发明提供的视觉目标导航方法及装置，通过编码目标类别，赋予机器人在视觉目标导航中的推理能力，一定程度上弥补了全局信息的缺失；通过“目标-区域”层级关系使得机器人的推理更为高效，在提高导航成功率的同时大幅减少导航步数和时间，在缺乏全局信息输入的条件下，机器人可以快速且精准的完成导航任务。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的视觉目标导航方法的流程示意图；

图2是本发明提供的视觉目标导航方法的原理示意图；

图3是本发明提供的视觉目标导航装置的结构示意图；

图4是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明提供的视觉目标导航方法的流程示意图，如图1所示，本发明提供一种视觉目标导航方法，该方法包括：

步骤101，基于目标图像，获取目标层级关系特征表示和第一视觉特征表示；并根据目标类别信息，获取类别编码。

具体地，目标图像是指输入机器人第一视角的红绿蓝（Red Green Blue, RGB）图像。目标类别信息是指输入机器人的各种不同物体类别信息。

图2是本发明提供的视觉目标导航方法的原理示意图，如图2所示，利用一个在ImageNet数据集上训练好的18层深度残差网络（Deep Residual network 18, Resnet-18）网络对输入的RGB图像进行处理，提取图像的视觉特征，从而获取了目标图像的第一视觉特征表示。

利用独热编码器对目标类别信息进行编码，从而获取了类别编码。编码目标类别之间的关联性，赋予机器人在导航过程中一定的推理能力，一定程度上弥补了全局信息的缺失。

基于目标图像，编码目标层级关系，获取目标层级关系特征表示，使机器人的推理更加高效。

对目标图像进行目标检测，获取目标特征；

根据目标特征，获取目标级关系图；

对目标级关系图进行坍缩，获取区域级关系图；

将目标级关系图对应的目标级目标特征表示和区域级关系图对应的区域级目标特征表示进行融合，获取目标层级关系特征表示。

具体地，采用一个在ImageNet数据集上预训练并在AI2-iTHOR环境下进行微调过的更快的基于区域的卷积神经网络（Faster Region-based Convolutional NeuralNetwork, Faster-RCNN）对输入的RGB图像进行目标检测。

将目标检测结果的预测框、置信度以及目标类别标签进行整合作为目标特征。目标特征为编码目标之间的关联性提供了重要特征。

目标特征的表达式如下所示：

式中，

表示目标特征，

表示预测框左上角的横坐标值，

表示预测框左上角的纵坐标值，

表示预测框右下角的横坐标值，

表示预测框右下角的纵坐标值，

表示目标检测的置信度，

表示目标类别标签。

再根据目标特征获取目标级关系图。目标级关系图是指在目标级别的表达目标之间关系的图。

可选地，根据目标特征，获取目标级关系图，包括：

根据目标特征对目标之间的关联性进行编码，获取目标级关系图。

具体地，将得到的目标特征作为图的节点特征，将目标之间的关联性进行编码后作为图的边，构造目标级关系图。目标级关系图的本质是一个知识图谱。目标之间的关联性可以根据目标特征之间的关联性进行确定。

对目标之间的关联性进行编码的过程就是确定目标级关系图中边信息参数的过程。这个过程是先对目标关系图中的边信息参数进行随机初始化，然后对目标关系图进行训练，最终让目标关系图收敛，从而得到边信息的确定参数。

目标级关系图的表达式如下所示：

式中，

表示目标级关系图，

表示目标类别的个数，

表示目标级关系图的邻接矩阵。邻接矩阵是存放目标级关系图中边的数据的二维数组。

对目标级关系图进行初始化之后，采用图卷积神经网络对目标级关系图进行卷积，从而得到了目标级关系图对应的目标级目标特征表示。

目标级关系图对应的目标级目标特征表示的表达式如下所示：

式中，

表示目标级目标特征表示，

表示修正线性单元(Rectified linear unit, ReLU）激活函数，

表示目标级关系图的邻接矩阵，

表示所有目标特征

组成的特征矩阵，

表示目标级关系图对应的卷积嵌入矩阵。

通过利用目标特征对目标之间的关联性进行编码，构建了目标级关系图，结合目标类别编码，使得机器人在导航过程中具备推理能力。

利用改良版可微池化（Differentiable Pooling, DIFFPOOL）算法对目标级关系图进行坍缩，得到了区域级关系图。区域级关系图是指在区域级别的表达目标之间关系的图。

根据区域级关系图可以获取区域级目标特征表示。

可选地，区域级目标特征表示是利用图卷积网络对区域级关系图进行卷积处理得到的。

具体地，得到区域级关系图之后，利用图卷积网络对区域级关系图进行卷积处理，得到了区域级目标特征表示。

区域级目标特征表示的表达式如下所示：

式中，

表示区域级目标特征表示，

表示ReLU激活函数，

表示区域级关系图的邻接矩阵，

表示区域级关系图的顶点特征，

表示区域级关系图对应的卷积嵌入矩阵。

区域级关系图的邻接矩阵

的表达式如下所示：

式中，

表示区域级关系图的邻接矩阵，

表示分配矩阵，

表示目标级关系图的邻接矩阵。

区域级关系图的顶点特征

的表达式如下所示：

式中，

表示区域级关系图的顶点特征，

表示分配矩阵，

表示目标级目标特征表示。

分配矩阵

的表达式如下所示：

式中，

表示分配矩阵，

表示归一化指数函数，

表示ReLU激活函数，

表示目标级关系图的邻接矩阵，

表示所有目标特征

组成的特征矩阵，

表示池化嵌入矩阵。

明确了区域级目标特征表示的获取方式，有利于根据区域级目标特征表示获取目标层级关系特征表示，进一步有利于使机器人的推理更为高效。

将目标级目标特征表示

和区域级目标特征表示

进行融合，获取目标层级关系特征表示。

通过编码“目标-区域”层级关系使得机器人的推理更为高效，在提高导航成功率的同时大幅减少导航步数和时间，提高了导航效率。

步骤102，根据所述目标层级关系特征表示、所述第一视觉特征表示和所述类别编码，获取预测导航动作。

具体地，在获取目标层级关系特征表示、第一视觉特征表示和类别编码之后，在第一视觉特征表示的基础上，利用目标级关系图作为先验信息，结合类别编码，赋予机器人对导航动作的推理能力，再利用目标层级关系特征表示，使机器人对导航动作的推理更加高效。

可选地，根据目标层级关系特征表示、第一视觉特征表示和类别编码，获取预测导航动作，包括：

将目标层级关系特征表示、第一视觉特征表示和类别编码进行融合，获取第二视觉特征表示；

将第二视觉特征表示输入导航策略模块，获取预测导航动作。

具体地，将目标层级关系特征表示、第一视觉特征表示和类别编码进行融合，得到第二视觉特征表示。第二视觉特征表示是最终的视觉表示特征。

将第二视觉特征表示输入导航策略模块，导航策略模块根据输入的第二视觉特征表示获取预测的导航动作。

通过利用目标层级关系特征表示、第一视觉特征表示和类别编码进行融合，获取最终的视觉表示特征，再根据最终的视觉表示特征，获取预测导航动作，实现了在缺乏全局信息输入的条件下，机器人可以快速且精准的完成导航任务。

可选地，导航策略模块是利用异步优势表演者-评论家框架对长短期记忆网络进行训练得到的。

具体地，导航策略模块采用长短期记忆网络(Long Short-Term Memory, LSTM)作为预测器，预测器用于预测导航动作。

利用异步优势表演者-评论家（Asynchronous Advantage Actor-Critic, A3C）框架对LSTM进行训练，训练好的LSTM作为导航策略模块。

通过A3C框架对LSTM进行训练得到了导航策略模块，进一步有利于导航策略模块输出快速且精准的预测导航动作。

本发明提供的视觉目标导航方法，通过编码目标类别，赋予机器人在视觉目标导航中的推理能力，一定程度上弥补了全局信息的缺失；通过“目标-区域”层级关系使得机器人的推理更为高效，在提高导航成功率的同时大幅减少导航步数和时间，在缺乏全局信息输入的条件下，机器人可以快速且精准的完成导航任务。

本发明提供的视觉目标导航方法已经在AI2-iTHOR数据集上进行了实验，数据集包含4个场景，分别是厨房、客厅、浴室和卧室，每个场景30个房间，从每个场景中的30个房间里挑出20个房间作为训练集，5个房间作为验证集，剩余5个房间作为测试集。

表1是不同视觉导航模型在AI2-iTHOR数据集上的性能表，采用了四种代表性的视觉导航模型与本发明提供的视觉目标导航方法进行比较，四种代表性的视觉导航模型分别是：D-SP、D-SAVN、ORG和HOZ，表1中ALL表示所有实验结果，L≧5表示最优路径不小于5的实验结果，SR表示成功率，SPL表示路径长度加权成功率。

表1 不同视觉导航模型在AI2-iTHOR数据集上的性能表

由表1中的实验数据可以看出，本发明提供的视觉目标导航方法在四个衡量指标上均大幅高于对比的D-SP模型、D-SAVN模型和ORG模型，略优于HOZ模型。

将HOZ模型与本发明提供的视觉目标导航方法在导航效率上进行了对比，表2是HOZ模型与本发明提供的视觉目标导航方法的性能表，表2中ALL表示所有实验结果，L≧5表示最优路径不小于5的实验结果，SR表示成功率，SPL表示路径长度加权成功率。

表2 HOZ模型与本发明提供的视觉目标导航方法的性能表

由表2中的实验数据可以看出，在HOZ模型与本发明提供的视觉目标导航方法在达到相近导航效果的情况下，本发明提供的视觉目标导航方法的导航步数大幅减少，导航效率大幅提高。

下面对本发明提供的视觉目标导航装置进行描述，下文描述的视觉目标导航装置与上文描述的视觉目标导航方法可相互对应参照。

图3是本发明提供的视觉目标导航装置的结构示意图，如图3所示，本发明还提供一种视觉目标导航装置，包括：第一获取模块301和第二获取模块302，其中：

第一获取模块301用于基于目标图像，获取目标层级关系特征表示和第一视觉特征表示；并根据目标类别信息，获取类别编码；

第二获取模块302用于根据所述目标层级关系特征表示、所述第一视觉特征表示和所述类别编码，获取预测导航动作。

具体来说，本申请实施例提供的视觉目标导航装置，能够实现上述方法实施例所实现的所有方法步骤，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

图4是本发明提供的电子设备的结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行视觉目标导航方法，该方法包括：基于目标图像，获取目标层级关系特征表示和第一视觉特征表示；并根据目标类别信息，获取类别编码；根据所述目标层级关系特征表示、所述第一视觉特征表示和所述类别编码，获取预测导航动作。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的视觉目标导航方法，该方法包括：基于目标图像，获取目标层级关系特征表示和第一视觉特征表示；并根据目标类别信息，获取类别编码；根据所述目标层级关系特征表示、所述第一视觉特征表示和所述类别编码，获取预测导航动作。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的视觉目标导航方法，该方法包括：基于目标图像，获取目标层级关系特征表示和第一视觉特征表示；并根据目标类别信息，获取类别编码；根据所述目标层级关系特征表示、所述第一视觉特征表示和所述类别编码，获取预测导航动作。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

本申请实施例中术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”所区别的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种视觉目标导航方法，其特征在于，包括：

2.根据权利要求1所述的视觉目标导航方法，其特征在于，所述基于目标图像，获取目标层级关系特征表示和第一视觉特征表示，包括：

对所述目标图像进行目标检测，获取目标特征；

根据所述目标特征，获取目标级关系图；

对所述目标级关系图进行坍缩，获取区域级关系图；

3.根据权利要求2所述的视觉目标导航方法，其特征在于，所述根据所述目标特征，获取目标级关系图，包括：

4.根据权利要求1所述的视觉目标导航方法，其特征在于，所述根据所述目标层级关系特征表示、所述第一视觉特征表示和所述类别编码，获取预测导航动作，包括：

5.根据权利要求4所述的视觉目标导航方法，其特征在于，所述导航策略模块是利用异步优势表演者-评论家框架对长短期记忆网络进行训练得到的。

6.根据权利要求2所述的视觉目标导航方法，其特征在于，所述区域级目标特征表示是利用图卷积网络对所述区域级关系图进行卷积处理得到的。

7.一种视觉目标导航装置，其特征在于，包括：

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6中的任一项所述视觉目标导航方法。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中的任一项所述视觉目标导航方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中的任一项所述视觉目标导航方法。