CN111645073B

CN111645073B - 一种机器人视觉语义导航方法、装置及系统

Info

Publication number: CN111645073B
Application number: CN202010472301.XA
Authority: CN
Inventors: 宋华珠; 金宇
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2022-04-19
Anticipated expiration: 2040-05-29
Also published as: CN111645073A

Abstract

本发明涉及机器人导航技术领域，公开了一种机器人视觉语义导航方法，包括以下步骤：建立场景图像集以及语音指令集；标注所述场景图像集中每一场景图像的图像特征，标注所述语音指令集中每一语音指令的语音特征；结合同一时间的图像特征和语音特征构建语义图谱，得到语义图谱集，标注所述语义图谱集中每一语义图谱的语义特征；融合同一时间的图像特征、语音特征以及语义特征构建状态向量，得到状态向量集；标注所述状态向量集中每一状态向量对应的动作序列，以所述状态向量集作为训练样本对对深度强化学习模型进行训练，得到导航模型；根据所述导航模型对机器人进行导航控制。本发明能够实现不在机器人视野范围内物体的导航。

Description

一种机器人视觉语义导航方法、装置及系统

技术领域

本发明涉及机器人导航技术领域，具体涉及一种机器人视觉语义导航方法、装置、系统以及计算机存储介质。

背景技术

语义和面向目标的导航是具有挑战性的任务，在日常生活中，视觉导航涉及多个问题。首先，机器人可能不知道环境信息，在这种情况下，机器人需要探索环境以更好地了解该环境。其次，机器人开始导航时，目标对象可能不可见，或者在导航过程中可能会超出视野。因此，机器人需要学习有效的搜索策略以找到目标对象。最后，该对象可能可见，但是规划通往对象的合理路径是机器人需要解决的另一个问题处理。

以往的导航方法为基于地图的导航SLAM(Simultaneous Localization andMapping，即时定位与地图构建，1988年被提出，对于完全未知的室内环境，配备激光雷达等核心传感器后，SLAM技术可以帮助机器人构建室内环境地图，助力机器人的自主行走。然而，这种方法无法寻找到视野范围内不可见的物体，只能对视野内可见物体建立地图，然后进行路径规划。

发明内容

本发明的目的在于克服上述技术不足，提供一种机器人视觉语义导航方法、装置、系统以及计算机存储介质，解决现有技术中机器人导航时无法对不在视野范围内的物体进行导航的技术问题。

为达到上述技术目的，本发明的技术方案提供一种机器人视觉语义导航方法，包括以下步骤：

收集机器人拍摄的场景图像，同时收集机器人接收的语音指令，建立场景图像集以及语音指令集；

标注所述场景图像集中每一场景图像的图像特征，标注所述语音指令集中每一语音指令的语音特征；

结合同一时间的图像特征和语音特征构建语义图谱，得到语义图谱集，标注所述语义图谱集中每一语义图谱的语义特征；

融合同一时间的图像特征、语音特征以及语义特征构建状态向量，得到状态向量集；

标注所述状态向量集中每一状态向量对应的动作序列，以所述状态向量集作为训练样本对对深度强化学习模型进行训练，得到导航模型；

根据所述导航模型对机器人进行导航控制。

本发明还提供一种机器人视觉语义导航装置，包括处理器以及存储器，所述存储器上存储有计算机程序，所述计算机程序被所述处理器执行时，实现所述机器人视觉语义导航方法。

本发明还提供一种机器人视觉语义导航系统，包括所述机器人视觉语义导航装置，还包括机器人；

所述机器人包括视觉采集模块、语音采集模块、通讯模块以及移动控制模块；

所述视觉采集模块用于采集场景图像；

所述语音采集模块用于采集语音指令；

所述通讯模块用于将所述场景图像以及语音指令发送至所述机器人视觉语义导航装置，并接收所述机器人视觉语义导航装置发送的导航控制指令；

所述移动控制模块用于根据所述导航控制指令对机器人关节进行导航控制。

本发明还提供一种计算机存储介质，其上存储有计算机程序，所述计算机该程序被处理器执行时，实现所述机器人视觉语义导航方法。

与现有技术相比，本发明的有益效果包括：本发明通过建立导航模型实现机器人的导航。导航模型的输入为状态向量，状态向量不仅包括图像特征和语音特征，同时还包括根据图像特征以及语音特征提取的语义特征，语义特征用于理解不同物体之间的关联，为导航模型建立目标物体与场景图像中存在物体之间的关联关系提供先验知识同时，将语义知识通过语义图谱的形式进行表达，使得语义图谱的语义特征提取得以实现，且便于与深度强化学习模型进行结合。

附图说明

图1是本发明提供的机器人视觉语义导航方法一实施方式的流程图；

图2是本发明提供的机器人视觉语义导航系统一实施方式的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例1

如图1所示，本发明的实施例1提供了机器人视觉语义导航方法，包括以下步骤：

S1、收集机器人拍摄的场景图像，同时收集机器人接收的语音指令，建立场景图像集以及语音指令集；

S2、标注所述场景图像集中每一场景图像的图像特征，标注所述语音指令集中每一语音指令的语音特征；

S3、结合同一时间的图像特征和语音特征构建语义图谱，得到语义图谱集，标注所述语义图谱集中每一语义图谱的语义特征；

S4、融合同一时间的图像特征、语音特征以及语义特征构建状态向量，得到状态向量集；

S5、标注所述状态向量集中每一状态向量对应的动作序列，以所述状态向量集作为训练样本对对深度强化学习模型进行训练，得到导航模型；

S6、根据所述导航模型对机器人进行导航控制。

本发明实施例通过建立导航模型对机器人进行基于视觉以及语义的导航，导航模型基于深度强化学习模型训练而来，具体的本实施例中采用的是Actor-Critic深度强化学习模型。首先标注了场景图像集的图像特征、语音指令集的语音特征以及语义图谱集的语义特征，将这三种特征进行融合作为联合特征，将联合特征作为Actor-Critic深度强化学习模型的状态向量输入，以相应的动作序列作为输出，对Actor-Critic深度强化学习模型进行训练，即可得到导航模型。为了最大程度地减少到达目标的轨迹长度，本实施例定义奖励函数如下：如果在一定数量的步骤内到达来自目标对象类别的任何对象实例，则收到正面奖励10.0，否则，以负奖励-0.01进行惩罚。建立导航模型后，即可通过导航模型预测每个离散时间的动作序列，从而实现机器人的避障，并可以根据语义进行目标物的寻找。

场景图像的图像特征包含了场景图像中所包含的各个物体的类别信息，语音指令的的语音特征包含了需要寻找的目标物体的目标类别信息，语义图谱的语义特征则描述了目标物体与场景图像中各物体之间的关联。由于结合了语义特征，因此本实施例所训练的导航模型可以根据目标物体与场景图像中各物体之间的关联，对不在场景图像中的物体进行寻找导航，实现了基于语义先验知识的导航。例如，如果要找到杯子，先搜索咖啡机以及咖啡机附近的橱柜，如果要找到水果，则搜索冰箱。

具体的，为了提取出语义特征，将语义特征作为导航模型的训练输入数据，首先需要对语义特征进行表示。为了便于语义特征的标注，本实施例先将语义知识以知识图谱的形式表示，用G＝(V,E)表示知识图谱，V和E分别表示节点和边，边即节点之间的连接关系。具体来说，每一个节点表示一个对象类别(即物体类别)；每一条边表示两个对象类别之间的连接关系，两个节点之间的连接关系是：仅当任何关联关系(例如冰箱与水果存在关联关系)的出现频率大于设定数量时，才建立两个节点之间的连接关系；以同一时间状态的图像特征和词向量作为节点特征，这些节点特征记为X＝[x1,x2,...,x|v|]∈R^|v|*D，其中|v|是节点的个数，D为特征维度。使用构建好的场景图像集以及语音指令集作为构建知识图谱集(即语义图谱集)的来源，将每个语义图谱都用节点、节点特征以及节点之间的关系进行注释。用知识图谱的形式表示后便于使用图卷积网络(GCN)计算图上的关系特征作为语义特征，GCN允许我们整合先验知识并作为代理动态更新接收特定于当前环境的信息，理解不同物体之间的关联，提取语义特征。

标注了图像特征、语音特征以及语义特征，得到了状态向量，为每一状态向量标注相应的动作序列，得到导航模型的训练数据集，采用该训练数据集进行训练即可得到导航模型，进而实现机器人的避障及导航。

本发明整合了深度强化学习模型与知识图谱，知识图谱可以对任何形式的知识进行编码，从而为语义先验知识的参与深度强化学习模型的训练提供可能，使得训练得到的导航模型可以根据语义特征准确定义目标物体与场景中其他物体的关系，从而改进对看不见的环境和看不见的目标物体的泛化；通过先验语义知识改善导航效果，在通往目标物体的环境，目标物体的位置或目标物体的确切外观是未知的时，仍然可以进行方向准确的高效导航，改善导航性能。

优选的，根据所述导航模型对机器人进行导航控制，具体为：

获取机器人所采集的实时场景图像，获取用户输入的实时语音指令；

从所述实时场景图像中提取实时图像特征，从所述实时语音指令中提取实时语音特征；

根据所述实时图像特征以及所述实时语音特征构建实时语义图谱，并从所述实时语义图谱中提取实时语义特征；

将所述实时图像特征、所述实时语音特征以及所述实时语义特征融合得到实时状态向量；

将所述实时状态向量输入所述导航模型，得到实时动作序列；

根据所述实时动作序列对机器人进行导航控制。

导航模型建立完成后，即可进行机器人的实时导航控制，此时只需要根据实时场景图像、实时语音指令以及实时语义图谱提取出实时图像特征、实时语音特征以及实时语义特征，进而得到实时状态向量，将实时状态向量输入导航模型即可得到实时动作序列，控制机器人按实时动作序列进行行走，即可找到目标物体。具体阐述如下。

优选的，从所述实时场景图像中提取实时图像特征，具体为：

以所述场景图像集中场景图像作为输入，以所述场景图像上标注的图像特征作为输出，对视觉神经网络进行训练，得到图像特征提取模型；

通过所述图像特征提取模型从所述实时场景图像中提取实时图像特征。

提取实时图像特征时，同样采用建模的方式实现，直接利用导航模型建立时所建立的场景图像集即可实现模型的训练。采用视觉神经网络进行图像特征提取模型的建立，本实施例中采用的视觉神经网络为ResNet-50网络。训练得到图像特征提取模型后，将实时场景图像输入图像特征提取模型即可得到相应的实时图像特征。

优选的，以所述场景图像集中场景图像作为输入，以所述场景图像上标注的图像特征作为输出，对视觉神经网络进行训练，得到图像特征提取模型，具体为：

获取采用ImageNet数据集训练视觉神经网络得到的预训练模型；

以连续多帧场景图像作为输入，以多帧场景图像中最后一帧场景图像对应的图像特征作为输出，对所述预训练模型进行训练，得到所述图像特征提取模型。

为了缩短训练时间，加快训练效率，本实施例在采用场景图像集进行训练前，首先ImageNet数据集对ResNet-50网络进行预训练，得到预训练模型，然后再采用场景图像集对预训练模型进行训练，得到最后的图像特征提取模型。Imagenet数据集有1400多万幅图片，涵盖2万多个类别；其中有超过百万的图片有明确的类别标注和图像中物体位置的标注。因此采用Imagenet数据集进行预训练得到的预训练模型具有一定物体识别能力，从而降低了进一步训练得到图像特征提取模型的难度，降低了对场景图像集的数量要求以及质量要求。

具体的，本实施例中ResNet-50网络的输入为场景图像，即RGB图像，输出为512维图像特征向量。同时，为了融入历史观察信息，ResNet-50网络合并当前帧的特征和过去的多帧(本实施例为三帧)的图像特征向量，从而得出3*512维的级联图像特征向量。为了将3*512维的图像特征向量映射成512维的图像特征向量，ResNet-50网络的基础上添加一个全连接层和一个ReLU层，通过全连接层和一个ReLU层来将级联的图像特征映射为512维的图像特征。ResNet-50网络的结构表如表1所示：

表1：ResNet-50网络结构表

优选的，从所述实时语音指令中提取实时语音特征，具体为：

将所述语音指令转换为描述目标对象类别的自然语言信息，计算所述自然语言信息中每个单词的词向量；

将所述词向量映射为与所述实时图像特征维度相同的实时语音特征。

语音特征提取步骤为：将语音信息通过语音模块转化为自然语言信息，如科大讯飞语音模块，得到的自然语言信息描述了目标物体的类别，即对象类别描述。使用word2vec为自然语言信息中每个单词计算其对应的100维的词向量。然后，为了将100维的词向量映射为与图像特征维度相等的语音特征，即映射为512维的语音特征，同样采用建模的方式实现，直接利用导航模型建立时所建立的语音指令集即可实现模型的训练。以语音指令集中语音指令的词向量作为输入，以标注的语音特征作为输入，对包括全连接层和ReLU层的神经网络进行训练，得到语音特征提取模型。通过语音特征提取模型将词向量映射512维的实时语音特征。

优选的，根据所述实时图像特征以及所述实时语音特征构建实时语义图谱，具体为：

每一对象类别对应所述实时语义图谱中的一个节点，以所述实时图像特征以及所述实时语音特征作为节点特征，根据各对象类别之间的关联建立各节点之间的连接关系，得到语义图谱G＝(V,E)，其中，G表示实时语义图谱，V表示节点集合，E表示连接关系集合，V＝[v1,v2,...,vx]∈R^x*D，x为节点个数，R表示实数集，D为节点特征的维度。

在提取实时语义特征之前，首先需要建立实时语义图谱，即将语义信息通过图谱的形式表示出来。

根据实时语音特征以及实时图像特征建立实时语义图谱的方法，与建立导航模型时，结合同一时间的图像特征和语音特征构建语义图谱的方法是一样的，在此不再过多赘述。

优选的，从所述实时语义图谱中提取实时语义特征，具体为：

将所述语义图谱集中语义图谱转换为邻接矩阵，并对所述邻接矩阵进行正则化处理得到正则化矩阵；

以所述正则化矩阵作为输入，以标注的语义特征作为输出，对图卷积神经网络进行训练，得到语义特征提取模型；

采用所述语义特征提取模型从所述实时语义图谱中提取实时语义特征。

本实施例在提取实时语义特征时，同样采用建模的方式实现，直接利用导航模型建立时所建立的语义图谱集即可实现模型的训练。具体的，本实施例采用三层GCN网络进行语义特征提取模型的建立，将语义图谱的邻接矩阵的正则化形式表示为

设置参数矩阵W，对参数矩阵W进行初始化，采用梯度下降法更新参数矩阵W：

其中H(0)即为语义图谱的初始节点特征X，H(l)为第l层的潜在节点特征，H(l+1)为第l+1层的潜在节点特征。使用三层GCN来执行信息传播，前两层输出1024维潜在节点特征，最后一层通过加和，为每个节点生成单值特征，单值特征所拼接成的向量即为所提取的语义特征。通过训练得到最佳的参数矩阵后，即可获取到语义特征提取模型，语义特征提取模型建立后，将实时语义图谱的正则化矩阵输入语义特征提取模型即可得到实时语义特征。语义特征表征了需要寻找的目标物体与当前场景中包含的物体的关系。

将获取的实时语义特征、实时图像特征以及实时语音特征拼接为3*512维的实时状态向量，将实时状态向量输入导航模型，得到实时动作序列，根据实时动作序列控制机器人的关节运动，即可帮助机器人找到目标物体。

实施例2

本发明的实施例2提供了机器人视觉语义导航装置，包括处理器以及存储器，所述存储器上存储有计算机程序，所述计算机程序被所述处理器执行时，实现实施例1提供的机器人视觉语义导航方法。

本发明实施例提供的机器人视觉语义导航装置，用于实现机器人视觉语义导航方法，因此，机器人视觉语义导航方法所具备的技术效果，机器人视觉语义导航装置同样具备，在此不再赘述。

实施例3

如图2所示，本发明的实施例3提供了机器人视觉语义导航系统，包括实施例2提供的机器人视觉语义导航装置1，还包括机器人2；

所述机器人2包括视觉采集模块、语音采集模块、通讯模块以及移动控制模块；

所述视觉采集模块用于采集场景图像；

所述语音采集模块用于采集语音指令；

所述通讯模块用于将所述场景图像以及语音指令发送至所述机器人视觉语义导航装置1，并接收所述机器人视觉语义导航装置1发送的导航控制指令；

本实施例中机器人视觉语义导航装置1可以集成于机器人2内，也可以单独设置。本实施例将机器人视觉语义导航装置1单独设置，机器人视觉语义导航装置1采用云端服务器实现。当机器人视觉语义导航装置1集成于机器人内时，可以省去机器人的通讯模块，即机器人视觉语义导航装置1直接与机器人2的视觉采集模块、语音采集模型以及移动控制模块连接。

具体的，本实施例中采用kinect作为视觉采集模块，使用HBR640作为语音采集模块，使用两轮差速式移动机器人底盘，机器人的关节电机使用直流减速电机，以无线网卡作为通讯模块实现机器人与云端服务器的通信，机器人所使用的处理器为arm处理器，操作系统为linux操作系统。

云端服务器采用阿里云服务器，云端服务器包括语义推理模块、特征提取模块、特征融合模块、深度强化学习模块、动作序列采样模块。语义推理模块用于根据所述实时图像特征以及所述实时语音特征构建实时语义图谱。特征提取模块用于从所述实时场景图像中提取实时图像特征，从所述实时语音指令中提取实时语音特征，并从所述实时语义图谱中提取实时语义特征。特征融合模块用于将所述实时图像特征、所述实时语音特征以及所述实时语义特征融合得到实时状态向量。深度强化学习模块用于实现步骤S1、S2、S3、S4以及S5。动作序列采样模块用于将所述实时状态向量输入所述导航模型，得到实时动作序列，并发送至移动控制模块，便于移动控制模块根据所述实时动作序列对机器人进行导航控制。

实施例4

本发明的实施例4提供了计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现实施例1提供的机器人视觉语义导航方法。

本发明实施例提供的计算机存储介质，用于实现机器人视觉语义导航方法，因此，机器人视觉语义导航方法所具备的技术效果，计算机存储介质同样具备，在此不再赘述。

以上所述本发明的具体实施方式，并不构成对本发明保护范围的限定。任何根据本发明的技术构思所做出的各种其他相应的改变与变形，均应包含在本发明权利要求的保护范围内。

Claims

1.一种机器人视觉语义导航方法，其特征在于，包括以下步骤：

根据所述导航模型对机器人进行导航控制；

根据所述导航模型对机器人进行导航控制，具体为：

根据所述实时动作序列对机器人进行导航控制；

其中，根据所述实时图像特征以及所述实时语音特征构建实时语义图谱，具体为：

每一对象类别对应所述实时语义图谱中的一个节点，以所述实时图像特征以及所述实时语音特征作为节点特征，根据各对象类别之间的关联建立各节点之间的连接关系，得到语义图谱G＝(V,E)，其中，G表示实时语义图谱，V表示节点集合，E表示连接关系集合，V＝[v1,v2,...,vx]∈R^x*D，x为节点个数，R表示实数集，D为节点特征的维度；

从所述实时语义图谱中提取实时语义特征，具体为：

2.根据权利要求1所述的机器人视觉语义导航方法，其特征在于，从所述实时场景图像中提取实时图像特征，具体为：

3.根据权利要求2所述的机器人视觉语义导航方法，其特征在于，以所述场景图像集中场景图像作为输入，以所述场景图像上标注的图像特征作为输出，对视觉神经网络进行训练，得到图像特征提取模型，具体为：

4.根据权利要求1所述的机器人视觉语义导航方法，其特征在于，从所述实时语音指令中提取实时语音特征，具体为：

5.一种机器人视觉语义导航装置，其特征在于，包括处理器以及存储器，所述存储器上存储有计算机程序，所述计算机程序被所述处理器执行时，实现如权利要求1-4任一所述的机器人视觉语义导航方法。

6.一种机器人视觉语义导航系统，其特征在于，包括如权利要求5所述的机器人视觉语义导航装置，还包括机器人；

所述视觉采集模块用于采集场景图像；

所述语音采集模块用于采集语音指令；

7.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机该程序被处理器执行时，实现如权利要求1-4任一所述的机器人视觉语义导航方法。