CN114460943B

CN114460943B - 服务机器人自适应目标导航方法及系统

Info

Publication number: CN114460943B
Application number: CN202210127277.5A
Authority: CN
Inventors: 周风余; 杨志勇; 夏英翔; 尹磊
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2022-02-10
Filing date: 2022-02-10
Publication date: 2023-07-28
Anticipated expiration: 2042-02-10
Also published as: CN114460943A

Abstract

本发明公开了服务机器人自适应目标导航方法及系统，所述方法包括：获取室内若干幅家庭场景图像，确定导航任务目标图像，将服务机器人视为智能体，获取智能体第一人称视角下的视觉观测图像，提取视觉观测图像的语义特征和目标图像的语义特征；确定目标注意概率分布；确定经验注意概率分布；基于目标注意概率分布和经验注意概率分布，得到融合概率分布；基于融合概率分布、当前时刻视觉观测图像的语义特征、当前时刻目标图像的语义特征和视觉观测图像区域位置空间特征，构建全局注意嵌入向量；将全局注意嵌入向量，输入到深度强化学习网络中，深度强化学习网络输出动作决策，完成目标导航。提高机器人对于新环境的认知能力和探索能力。

Description

服务机器人自适应目标导航方法及系统

技术领域

本发明涉及导航技术领域，特别是涉及服务机器人自适应目标导航方法及系统。

背景技术

本部分的陈述仅仅是提到了与本发明相关的背景技术，并不必然构成现有技术。

近年来，机器人领域的相关研究取得了显著的进展，并产生了一定的社会效应，各种服务型机器人正逐步融入人们生产生活。随着服务机器人应用场景的扩展和功能需求的增加，作为一系列具体下游任务的基础(如视觉问答和物品抓取等)，机器人的灵活性已成为影响其发展推广的重要因素。

经典的室内服务机器人导航技术通常首先需要从构建场景先验(环境地图)开始，然后基于已知或分段确定的目标点来规划和执行规划的轨迹。尽管这些方法多年来取得了相当大的成功，但模块化的设计思路具有根本的限制，阻碍了它们的广泛采用。一个重要的限制是算法非常容易受到传感器噪声的影响，例如，作为导航实现的前提，建图阶段过于依赖传感器的精度，这导致地图的建立和维护很容易受到测量噪声的影响，地图的准确性也会由于环境的变化而随着时间的推移而退化，限制了导航任务在动态环境中的可实现性；传感器噪声也会在建图模块到控制模块的数据管道中累积和传播，从而使这些算法的鲁棒性降低。更重要的是，基于环境模型的导航方法需要大量的特定案例场景驱动的手工特征，这使得算法难以与其他通过数据驱动的下游AI任务相结合，影响了机器人服务功能的实现效果。

随着通用图形处理器(GPU)的普及和并行计算的兴起，CUDA和OpenCL等编程框架陆续出现，促进了人工智能技术的快速崛起。深度强化学习算法将深度学习的感知能力和强化学习的决策能力结合起来，在文本生成、游戏、控制优化、机器人等多个领域中展现了强大的适应性和学习能力，国内外也开始基于深度强化学习来训练智能体学习仅基于视觉输入的导航。与人类或动物在未知环境中的探索性尝试行为模式类似，基于学习的视觉导航方法训练机器人以交互的方式实现感知(如环境中的对象类型)，利用数据集和以往经验的知识，辅助以无监督(缺乏Ground-Truth标注)的方式理解新环境，经过足够的培训后，机器人将具备在全新的环境中执行探索和导航任务的能力。

发明内容

为了解决现有技术的不足，本发明提供了服务机器人自适应目标导航方法及系统。本发明通过提出的语义和空间注意概率模型提取兴趣区域，弥补卷积神经网络在提取RGB图像时的空间结构化学习能力的不足的问题，模型将对通过对比当前观测和目标图像的语义和空间特征，对目标潜在区域提高关注度和加强探索。

第一方面，本发明提供了服务机器人自适应目标导航方法；

服务机器人自适应目标导航方法，包括：

获取室内若干幅家庭场景图像，确定导航任务目标图像，将服务机器人视为智能体，设置智能体的初始位置为场景中的随机点；

获取智能体第一人称视角下的视觉观测图像，基于训练后的卷积神经网络，提取视觉观测图像的语义特征和目标图像的语义特征；

基于目标图像的语义特征，和智能体每执行一个动作所采集的视觉观测图像的语义特征，确定目标注意概率分布；基于智能体每执行一个动作所采集的视觉观测图像的语义特征和智能体当前时刻之前的轨迹中所收集到的经验，确定经验注意概率分布；所述智能体当前时刻之前的轨迹中所收集到的经验，包括：历史动作、按照序列观察到的图像和观测-经验联合表征；

基于目标注意概率分布和经验注意概率分布，得到融合概率分布；基于融合概率分布、当前时刻视觉观测图像的语义特征、当前时刻目标图像的语义特征和视觉观测图像区域位置空间特征，构建全局注意嵌入向量；

将全局注意嵌入向量，输入到深度强化学习网络中，深度强化学习网络输出动作决策，完成目标导航。

第二方面，本发明提供了服务机器人自适应目标导航系统；

服务机器人自适应目标导航系统，包括：

获取模块，其被配置为：获取室内若干幅家庭场景图像，确定导航任务目标图像，将服务机器人视为智能体，设置智能体的初始位置为场景中的随机点；

特征提取模块，其被配置为：获取智能体第一人称视角下的视觉观测图像，基于训练后的卷积神经网络，提取视觉观测图像的语义特征和目标图像的语义特征；

概率分布计算模块，其被配置为：基于目标图像的语义特征，和智能体每执行一个动作所采集的视觉观测图像的语义特征，确定目标注意概率分布；基于智能体每执行一个动作所采集的视觉观测图像的语义特征和智能体当前时刻之前的轨迹中所收集到的经验，确定经验注意概率分布；所述智能体当前时刻之前的轨迹中所收集到的经验，包括：历史动作、按照序列观察到的图像和观测-经验联合表征；

嵌入向量构建模块，其被配置为：基于目标注意概率分布和经验注意概率分布，得到融合概率分布；基于融合概率分布、当前时刻视觉观测图像的语义特征、当前时刻目标图像的语义特征和视觉观测图像区域位置空间特征，构建全局注意嵌入向量；

目标导航模块，其被配置为：将全局注意嵌入向量，输入到深度强化学习网络中，深度强化学习网络输出动作决策，完成目标导航。

第三方面，本发明还提供了一种电子设备，包括：

存储器，用于非暂时性存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，

其中，所述计算机可读指令被所述处理器运行时，执行上述第一方面所述的方法。

第四方面，本发明还提供了一种存储介质，非暂时性地存储计算机可读指令，其中，当所述非暂时性计算机可读指令由计算机执行时，执行第一方面所述方法的指令。

第五方面，本发明还提供了一种计算机程序产品，包括计算机程序，所述计算机程序当在一个或多个处理器上运行的时候用于实现上述第一方面所述的方法。

与现有技术相比，本发明的有益效果是：

本发明通过端到端的导航模式，无需预先提供完整的环境模型，降低传感器精度对算法精度和导航效果的不利影响，提高机器人对于新环境的认知能力和探索能力。

本发明通过提出的语义和空间注意概率模型提取兴趣区域，弥补卷积神经网络在提取RGB图像时的空间结构化学习能力的不足的问题，模型将对通过对比当前观测和目标图像的语义和空间特征，对目标潜在区域提高关注度和加强探索。

本发明通过对高收益的轨迹进行持续经验回溯，加强对环境中特殊标志点和状态的关注，能够提高动作轨迹的平滑度，改善物品遮挡和越过障碍物对算法稳定性的影响，有助于加快模型的收敛和在不同场景中的泛化性。

本发明通过设计分布式的SAC算法，提高模型的训练效率，利用经验回放缓冲区中的导航轨迹进行重复学习，能够有效提高策略训练效益和数据采样效率。

本发明通过在对真实场景进行三维重建的仿真环境中训练算法，降低模型的训练成本，通过微调模型参数，方便后期向实体机器人进行算法移植。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本申请实施例一的自适应目标导航过程整体框架；

图2为本申请实施例一的自适应目标导航算法建模架构图；

图3为本申请实施例一的分布式柔性执行器-评判器模型结构图；

图4(a)～图4(d)为本申请实施例一的模型训练中的部分场景示例(俯视图)；

图5为本申请实施例一的自适应目标导航算法流程图；

图6为本申请实施例一的目标导航模型参数训练流程图；

图7(a)为本申请实施例一的自适应导航策略导航效果轨迹图；

图7(b)为本申请实施例一的非自适应导航策略的导航效果轨迹图；

图8(a)为本申请实施例一的自适应导航策略测试轨迹图；

图8(b)为本申请实施例一的非自适应导航策略测试轨迹图；

图9(a)～图9(b)为本申请实施例一的AI2-THOR室内3D仿真环境。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本实施例所有数据的获取都在符合法律法规和用户同意的基础上，对数据的合法应用。

在场景模型已知的条件下，机器人可以通过轨迹规划实现精准的导航。实际的家庭场景复杂多变，机器人需要具备出色的语义理解和推理探索能力，以应对缺乏场景先验和环境的非结构化等挑战。机器人需要学习针对不同场景，基于目标的类别和结构相关性执行不同的探索行为。本发明主要研究如何将深度强化学习算法应用到未知复杂环境的目标导航任务，实现机器人对缺乏环境先验的新场景的自适应导航。设计语义和空间注意概率模型以实现注意力堆叠，通过到达次级目标状态解决寻找长距离目标对象的问题，改善寻找遮挡物体和穿越障碍物的能力，使用次级目标状态回溯模型和改进的分布式SAC算法来提高导航策略的性能。基于AI-THOR仿真训练平台进行导航策略效果验证，研究注意力机制和成功经验回放对目标导航的影响效果。

基于在深度强化学习、计算机视觉和机器人技术方面的最新进展，学术届开始研究通用的智能机器人视觉导航系统。目标导航(Object Navigation，ObjectNav)被定义为在非结构化和未知环境中导航到由标签指定的对象的问题，机器人将通过离散控制，以最小长度的动作序列从当前位置移动到指定的目标周围。在三维场景中穿越复杂未知的动态环境、导航到给定的目标对象是推进服务机器人智能化的一项重要研究内容，为下游具体的AI任务如视觉问答和目标抓取等找到涉及的目标实体、收集全面的视觉信息支撑。

由于缺少预先给定的环境先验和定位信息，对机器人技术提出了新的挑战，包含了在搜索目标过程中对未知环境进行语义探索和低级控制，因此机器人需要通过广泛的训练和现实的自主探索来建立对于未知环境的内部表征。一次完整的导航任务τ_i＝{e_i,p_i,g_i}∈T包含一个具体的室内场景e_i，当前场景中随机刷出的随机起始点p_i和具体的目标对象g_i，过程中仅仅给予智能体以自我为中心的RGB视觉输入，对于每一个当前状态s_t，在智能体将从预设动作集中选择一个最佳动作a_t并执行，除非发生碰撞或达到最大动作计数。当智能体发出结果判定请求的动作时，目标对象类别的实例“可见”，即目标物体在视觉传感器的视场内且小于规定的距离阈值范围，则认为导航任务成功。目标对象的类别可以从一个预定义的集合G＝{g₀，g₁，...，g_m}中提取，例如“桌子”、“台灯”或“冰箱”等，包含VisualGenome数据集中在家庭场景中出现频率较高的物品，其中m表示目标类别的数量。一系列的场景使用集合E＝{e₀，e₁，...，e_n}表示，分别为不同结构的厨房、起居室、卧室和浴室，其中n表示场景类别的数量。

将目标导航问题建模为由元组{s,a,g,P,r,γ}表示的部分可观测的马尔可夫决策过程(POMDP)，其中S＝{s}表示一组有限状态的集合，A＝{a}表示一组动作的集合P:＝p(s_t+1|s_t,a_t)为环境动态模型，r表示状态奖励函数，γ是奖励折扣因子。一次导航任务τ_i的轨迹由元组{s₁，a₁，r₁；s₂，a₂，r₂；...；s_T，a_T，r_T}组成，奖励函数r_t＝r(s_t,a_t,s_t+1)在每一个时间步接收来自环境的信号，值的大小取决于t时刻智能体的状态和动作。强化学习训练导航策略π_θ(a_t|s_t,g_τ,θ)指导智能体当观察到状态s_t时，选择动作a_t，θ表示强化学习模型中的所有参数。最小化负的期望优势函数J_π(a_t|s_t,θ)和逼近估计值函数J_V(s_t,θ)和收益R的真实值。

J_π(a_t|s_t,θ)＝-logπ(a_t|s_t,g_τ；θ)(r_t+γV_θ(s_t+1)-V_θ(s_t))+β_HH_t(π) (1)

其中，H_t(π)表示策略的熵，β_H为模型超参数。

实施例一

本实施例提供了服务机器人自适应目标导航方法；

服务机器人自适应目标导航方法，包括：

S101：获取室内若干幅家庭场景图像，确定导航任务目标图像，将服务机器人视为智能体，设置智能体的初始位置为场景中的随机点；

S102：获取智能体第一人称视角下的视觉观测图像，基于训练后的卷积神经网络，提取视觉观测图像的语义特征和目标图像的语义特征；

S103：基于目标图像的语义特征，和智能体每执行一个动作所采集的视觉观测图像的语义特征，确定目标注意概率分布；

基于智能体每执行一个动作所采集的视觉观测图像的语义特征和智能体当前时刻之前的轨迹中所收集到的经验，确定经验注意概率分布；所述智能体当前时刻之前的轨迹中所收集到的经验，包括：历史动作、按照序列观察到的图像和观测-经验联合表征；

S104：基于目标注意概率分布和经验注意概率分布，得到融合概率分布；

基于融合概率分布、当前时刻视觉观测图像的语义特征、当前时刻目标图像的语义特征和视觉观测图像区域位置空间特征，构建全局注意嵌入向量；

S105：将全局注意嵌入向量，输入到深度强化学习网络中，深度强化学习网络输出动作决策，完成目标导航。

进一步地，S101：获取室内若干幅家庭场景图像，确定导航任务目标图像，将服务机器人视为智能体，设置智能体的初始位置为场景中的随机点；其中，若干幅家庭场景图像，包括：客厅图像、厨房图像、浴室图像、卧室图像；其中，导航任务目标图像，包括：咖啡机图像。

进一步地，S102：获取智能体第一人称视角下的视觉观测图像，基于训练后的卷积神经网络，提取视觉观测图像的语义特征和目标图像的语义特征；其中，训练后的卷积神经网络，训练过程包括：

构建第一训练集；所述第一训练集为已知语义特征的视觉观测图像；

将第一训练集输入到卷积神经网络中，对卷积神经网络进行训练，得到训练后的卷积神经网络。

示例性地，第一训练集，是Visual Genome数据集中在家庭场景中出现频率高于设定阈值的物品，选用Resnet50来提取语义特征。

进一步地，S103：经验注意概率分布，总结了当前任务中到t-1时刻智能体的探索经验，基于轨迹中已经收集到的信息来聚焦于图像的各个部分；经验注意概率分布，将观测输入和智能体在第t时刻之前的轨迹中所收集到的经验作为输入，即过去的动作、按序列观察到的图像和观测-经验联合表征等。

进一步地，S103：基于目标图像的语义特征，和智能体每执行一个动作所采集的视觉观测图像的语义特征，确定目标注意概率分布；具体包括：

对于所索引为i,j的区域，计算在t时刻状态下的观测-目标联合表征

其中，i的取值范围是1,...,n_p，j的取值范围是1,...,n_p；u_g表示目标图像的语义特征；对来自t时刻智能体视觉观测使用卷积神经网络提取语义信息，输出维度为n_p×n_p×d_p，与观测图像的区域映射索引i,j,...,n_p，(i,j)^t的位置对应于观察到的图像中的区域语义信息用向量表示。目标图像的语义特征用特征向量/>表示，u_g与观测输入特征向量/>之间的相互作用使用向量的内积运算嵌入到相同的特征空间，令可训练的参数矩阵/>和参数/>分别将/>和u_g转换到d维空间。对于所索引为i,j＝{1,...,n_p}的区域，计算在t时刻状态下的观测-目标联合表征/>

对观测-目标联合表征采用softmax函数运算得到目标注意概率分布

进一步地，S103：基于智能体每执行一个动作所采集的视觉观测图像的语义特征和智能体当前时刻之前的轨迹中所收集到的经验，确定经验注意概率分布；具体包括：

基于观测输入图像学习一个概率分布函数，由t-1时刻的LSTM的隐藏状态携带t-1时刻的经验，作为t时刻经验注意模块的输入，其中LSTM的输入是状态观测的联合表征。

将t-1时刻的LSTM隐藏状态表示为使用可训练的参数矩阵/>将其同样映射到d维空间，计算在t时刻状态下的观测-经验联合表征/>

对联合表征应用softmax函数运算得到相应的注意概率分布/>

进一步地，S104：基于目标注意概率分布和经验注意概率分布，得到融合概率分布；具体包括：

将t时刻所有的目标注意概率分布和经验注意概率分布设置权重后，进行点乘并归一化，得到融合概率分布。

其中，模型基于LSTM隐藏状态训练值权函数β_g和β_m，β_g和β_m分别代表目标注意概率分布和经验注意概率分布在当前时刻的重要性。

为了突出每一个概率分布在t时刻的重要性，例如，目标注意模块检测到观测输入的中的某些部分和目标对象特征有较多重合，或者搜索经验注意到某些区域存在目标的概率更高，考虑LSTM-cell在t-1时刻的隐藏状态来了解每个概率分布在t时刻的重要性。

进一步地，S104：基于融合概率分布、视觉观测图像的语义特征、目标图像的语义特征和视觉观测图像区域位置空间特征，构建全局注意嵌入向量；具体包括：

融合概率分布、视觉观测图像的语义特征、目标图像的语义特征和视觉观测图像区域位置空间特征进行拼接，得到全局注意嵌入向量。

所述视觉观测图像区域位置空间特征，是通过对视觉观测图像提取感兴趣区域，对感兴趣区域使用卷积网络提取目标空间位置，得到视觉观测图像区域位置空间特征。

进一步地，所述S105：将全局注意嵌入向量，输入到深度强化学习网络中，深度强化学习网络输出动作决策，完成目标导航；具体包括：

将全局注意嵌入向量按顺序输入到深度强化学习网络SAC(soft actor-critic)中，智能体将基于当前模型中的参数在动作空间中决策选出最佳动作，机器人将根据此指令完成相应的控制运动。

如果输出动作是Done，则目标导航结束，环境将对导航片段进行评估；否则视觉传感器继续检测当前环境状态完成视觉观测输入，循环此过程，直至达到最大运动步数限制，强制结束本次导航任务。

深度强化学习网络的动作执行者Actor收集导航过程中的轨迹，并将轨迹存放在经验缓冲区中；

对经验缓冲区中的成功导航轨迹按照所获收益值的大小由高到低进行序列整理；

对整理后的成功导航轨迹，分批优先采样后用于策略优化；

深度强化学习网络输出动作决策，完成目标导航。

进一步地，所述智能体将基于当前模型中的参数在动作空间中决策选出最佳动作；是通过构建一种次级目标状态回溯模型来搜索经验池中某条成功轨迹中对收益值存在最大影响的中间状态；具体包括：

其中，s_t′表示与当前状态s_t最相关的次级状态。

利用残差函数进行适应性设计，用于处理轨迹中的过去状态，如公式(11)所示，其中，f_ω(s_i)对第i时刻的状态输入s_i进行线性变换，系数α_i是softmax归一化向量α的第i个元素，代表过去时刻的状态s_i与当前状态s_t之间的相关性，亦即状态s_i是一个需要达到的重要次级目标状态的可能性，归一化操作如公式(12)所示，s₁:s_t-1是t时刻前智能体所有状态的串联，q_ω和k_w是关于状态的线性函数。向量α的归一化操作计算如公式(12)所示。

由于Actor在相似的环境中采集了丰富的导航轨迹，模型通过次级目标状态回溯可以探索到在寻找某些目标对象的过程中，常常会遇到的中间对象和上下文线索，合并搜索策略并推广到训练中未曾见过的环境。

当智能体达到最优的次级目标状态后，不仅容易达到最终的目标而且能够最小化行进路程以提高收益值，例如更快地绕过障碍物。智能体前期成功的经验是十分珍贵的，如果一个目标对象产生的成功经验样本仅仅用来训练导航到该指定目标，这样的训练效益和样本效率十分低下。高收益的轨迹需要持续地加以利用，对以往成功轨迹的次级目标状态的关注有助于提高效率加快模型的收敛和在不同场景中的泛化性。不断利用成功的轨迹进行引导性质的训练。

基于注意力机制的自适应目标导航模型：将介绍针对提升目标导航性能设计的语义和空间注意概率模型和次级目标状态回溯模型，说明如何在目标导航过程中通过融合当前观测、目标和以往的成功经验来提升目标导航的性能，最后介绍目标导航算法的整体架构。

语义和空间注意概率模型：目标导航的研究是希望机器人在真实的室内三维家庭场景实现端到端的自适应导航。计算机视觉相关研究证明，一定的空间推理能力有助于提高模型对图像局部和整体关系的感知理解。人类的视觉系统拥有选择性注意的能力，可以在外部环境中主动选择任务关联度高、特征显著性强的部分作为兴趣区域优先进行处理并忽略其他部分信息。类似的，为了合理利用机器人有限的视觉资源，提高不可见环境中的探索效率，算法需要着重选择视觉观测所映射的空间环境中的特定区域，然后重点关注它们。直观地说，算法可以通过将智能体定向到正确的区域来改善导航效果。

为了弥补RGB图像处理中卷积神经网络在空间结构化学习能力的不足，本发明基于目标导航任务的需要提出了一种语义和空间注意概率模型，使用卷积网络编码观测输入和目标输入图像中的语义信息，以及使用图像中区域的注意概率编码空间信息，提取兴趣区域，模型将对兴趣区域的提高关注度和加强探索。

本发明使用预训练的卷积网络来提取视觉观测和给定目标图像的语义信息，卷积神经网络经过广泛的实践应用被证明能够有效地编码图像的中高级语义信息，不同特征图的不同通道常代表不同对象。对来自t时刻智能体视觉观测使用卷积神经网络提取语义信息，输出维度为n_p×n_p×d_p，与观测图像的区域映射索引i,j,...,n_p，(i,j)^t的位置对应于观察到的图像中的区域语义信息可以用向量表示。后期将使用注意概率模型增强该区域的空间信息，在智能体执行动作的每个step对图像提取输出的n_p×n_p特征构造一个注意概率分布，以表示输入图像中包含相关信息的概率。注意概率分布由目标注意和经验注意两个注意单元组成，目标注意单元标记了输入目标图像中的特征信息，而经验注意单元将重点关注先前观测到的图像中的相关信息。最后算法将n_p×n_p特征上的目标注意和经验注意两个概率分布结果融合为图像特征上的整体注意概率分布。

本发明用p^t(i,j)表示t时刻n_p×n_p特征上的融合概率分布，其中i,j＝1,...,n_p。当前观测的联合表征结合了图像中的语义信息和不同物体位置的空间信息，使用点乘计算将二者融合起来：

f^t＝v^t⊙p^t (4)

其中，每一对位置索引子图上的融合计算方式如下：

区域上的注意概率分布数值大小与区域内的语义特征密切相关，当区域不包含目标对象的语义信息时，p^t(i,j)的值将趋近于0，此时同样，若观测图像与目标图像包含较多相似的语义信息，此时将有/>这种联合表征突出了与目标图像相似的语义信息在观测状态中的空间位置，作为导航策略的输入信息引导智能体重点关注更有意义的场景空间，并根据图像的语义和空间信息选择下一步的动作。

目标注意模块用于检测第t时刻观测状态和输入目标图像上的相关性，包括目标和目标位置的视觉线索。例如，如果目标是一个暂时不在视野范围内的咖啡机，考虑以往的训练经验和仿真平台提供的场景关系模拟，智能体应该重点关注经常和咖啡机出现在相同区域的冰箱、水槽等物品。

目标图像的语义特征用特征向量表示，u_g与观测输入特征向量/>之间的相互作用使用向量的内积运算嵌入到相同的特征空间，令可训练的参数/>和参数/>分别将/>和u_g转换到d维空间。

对于所索引为i,j＝{1,...,n_p}的区域，计算在t时刻状态下的观测-目标联合表征

对联合表征应用softmax函数运算得到相应的注意概率分布

经验注意模块总结了当前任务从起始到t-1时刻智能体的探索经验，旨在整合轨迹中已经收集到的信息从而聚焦于图像的某些部分。例如，智能体应该避免将注意力集中在以前探索过的与对象不相关区域，如一面墙或一扇门，这些场景结构对提高搜索效率并无太大帮助。经验注意模块将观测输入和智能体在第t时刻之前的轨迹中所收集到的经验作为输入，即过去的动作、按序列观察到的图像和观测-目标联合表征等。

如上文所述，经验注意模块同样基于观测输入图像学习一个概率分布函数，由t-1时刻的LSTM的隐藏状态携带t-1时刻的经验，作为t时刻经验注意模块的输入，其中LSTM的输入是状态观测的联合表征。将t-1时刻的LSTM隐藏状态表示为使用可训练的参数矩阵/>将其同样映射到d维空间，计算在t时刻状态下的观测-经验联合表征

对联合表征应用softmax函数运算得到相应的注意概率分布/>

注意概率融合模块：将上述两个注意模块各自的概率分布输出进行融合，常用的方法是对进行简单的归一化。为了突出每一个概率分布在t时刻的重要性，例如，目标注意模块检测到观测输入的中的某些部分和目标对象特征有较多重合，或者搜索经验注意到某些区域存在目标的概率更高，考虑引入LSTM在t-1时刻的隐藏状态来预测每个概率分布在t时刻的重要性。训练目标注意模块和经验注意模块的权重系数/>和在每个观测时刻将所有的注意概率分布进行合并：

注意力堆叠，聚焦有利信息，抑制干扰。

智能体缺乏环境模型而孤立地执行导航任务是一个复杂且困难的问题，策略网络需要根据当前的状态感知决定智能体的动作，当前时刻的试探式交互往往会导致下一时刻新的未知状态，轨迹中长期的无奖励甚至负奖励也会影响模型的收敛。智能体前期成功的经验是十分珍贵的，如果一个目标对象产生的成功经验样本仅仅用来训练导航到该指定目标，这样的训练效益和样本效率十分低下。

高收益的轨迹需要持续地加以利用，对以往成功轨迹的次级目标状态的关注有助于加快模型的收敛，提高在同种类型不同结构的场景中的泛化性。智能体在执行导航任务时会经过一系列中间状态，而最有价值的次级状态是能够对获得最大的奖励有最大的影响，即当智能体达到最优的次级目标状态后，不仅容易找到最终的目标对象而且能够最大化导航全过程的收益。

利用残差函数进行适应性设计，用于处理轨迹中的过去状态，如公式(11)所示，其中，f_ω(s_i)对第i时刻的状态输入s_i进行线性变换，系数α_i是softmax归一化向量的第i个元素，代表过去时刻的状态s_i与当前状态s_t之间的相关性，亦即状态s_i是一个需要达到的重要次级目标状态的可能性，归一化操作如公式(12)所示，s₁:s_t-1是t时刻前智能体所有状态的串联，q_ω和k_w是关于状态的线性函数。

本发明基于类似注意力机制的处理思想来识别片段轨迹中目标状态的相关度，通过学习最优价值函数V_θ(s_t)≈V_θ(s_t′)，使状态值函数估计误差最小化来估计预期回报的次级目标状态。将次级目标状态回溯集成到强化学习算法，在接下来同种类型的场景导航训练过程中，学会引导智能体逐步到达对实现成功的目标导航最相关的中间状态，即模型将为导航过程提供对某一类目标对象特定的预期，以增强对环境中特殊标志物的利用率和特殊状态的关注。以在“厨房”场景下寻找“咖啡机”的导航任务为例，如图7(a)和图7(b)所示，智能体将重点关注工作台、桌子等特殊位置，依据过往成功经验轨迹，这些地方与目标对象类型具有较大关联；当需要跨越立式障碍物时，通过最大化收益不断优化行进轨迹，大幅提高动作轨迹的长度和平滑度，从而改善物品遮挡和越过障碍物对算法稳定性的影响，为不断地理解周围复杂的环境提供了捷径。

分布式柔性执行器-评判器算法：在机器人领域，数据收集是十分昂贵的，因此提高样本效率和最大化数据重用是非常有必要的。SAC算法是一种off-policy的强化学习算法，其优势是可以利用经验回放缓冲区中的导航轨迹进行重复学习，能够有效提高策略训练效益和数据采样效率。

SAC算法对于显著偏离样本分布的数据也展现出较好的鲁棒性，通过将目标策略和行为策略分开，可以在保持探索的同时，更能求到全局最优值。本文使用SAC算法来学习端到端的目标导航策略，并对SAC算法进行并行化设计以加速决策网络的训练。分布式SAC算法结构图，如图3所示。

SAC基础算法基于Facebook开源的机器学习库Pytorch实现，算法的输入为智能体当前观测和目标对象RGB输入经过深度学习感知处理的联合特征表示，输出为智能体的行为控制。仿真环境将通过GPU加速渲染构建，Actor在CPU集群中并行化训练执行与环境遍历交互，完成数据的收集过程。

中心共享的经验缓冲区(Experience Replay Buffer，ERB)收集、混合了来自诸多Actor收集导航片段的轨迹{s₁，a₁，r₁；s₂，a₂，r₂；...；s_T，a_T，r_T}。由于导航任务的奖励比较稀疏，而优先经验回放在处理稀疏奖励方面具有强大的优势，因此经验缓冲区将对其中的成功导航轨迹按照所获收益值的大小由高到低进行序列整理和分批优先采样(batch_size的长度为20)后用于策略优化。由于Actor在相似的环境中采集了丰富的导航轨迹，模型通过次级目标状态回溯可以探索到在寻找某些目标对象的过程中，常常会遇到的中间对象和上下文线索，合并搜索策略并推广到训练中未曾见过的环境。

为了提高收益，智能体将学习到更加自然的探索习惯，这些习惯随后取决于物体在当前场景下的状态，智能体对不同类型的对象执行不同的探索行为，例如当物体不可见时原地旋转取得更全面的环境感知；当找不到目标物体时回溯相似物品导航成功轨迹的中间状态，实现更加高效的主动探索；当物体可见时直接走向目标物体，如图3所示。值得注意的是，这些都是从经验池中过往的成功经验学习到的分层搜索策略。

本发明使用8块Nvidia Tesla V100 GPU同步执行随机梯度下降(StochasticGradient Descent，SGD)算法来计算和更新策略模型的参数。自适应导航策略测试轨迹图如图8(a)所示，非自适应导航策略的测试轨迹图如图8(b)所示。

目标导航实验细节：主要介绍了目标导航算法对比测试用到的实验仿真环境、基于单一场景进行端到端导航的策略控制输出和奖励设计、导航效果测试评价指标和相关模型实验参数等。iTHOR是AI2-THOR框架内立在Unity3D物理引擎之上的仿真环境，提供了对于世界物理的精确建模(包括120种室内场景和对应的一组交互对象)，智能体可以在仿真环境中导航并与对象交互以执行训练和测试任务，如图9(a)和图9(b)所示。AI2-THOR框架支持任务和环境的解耦，使得研究者能够轻松地在相同的环境中验证各种各样的任务。

使用iTHOR仿真环境训练和评估提出的端到端算法应用在导航任务上的表现，选择4种不同的家庭场景类别(厨房、起居室、浴室和卧室)测试验证提出的导航策略，与以往的相关算法进行效果对比，并对视觉表示和模型架构的选择进行详细的消融研究。实验选用的部分家庭场景结构如图4(a)～图4(d)所示所示。

1.动作空间(Action Spaces)：智能体在仿真场景中可根据算法策略的输出结果选择性地执行6种离散命令{MoveAhead,RotateRight,RotateLeft,LookUp,LookDown,Done}与环境进行交互。其中，模型通过MoveAhead命令指示智能体前进一个恒定的步长(0.5米)，RotateRight和RotateLeft命令指示智能体分别原地向右和向左旋转恒定的角度(45°)，LookUp和LookDown命令可以调整相机视角的俯仰(30°)，恒定的动作参数本质上将场景空间离散化为网格世界表示；当智能体执行Done命令时与场景并不产生交互行为，仅表示智能体层次上的任务成功判定，这个特殊动作将向环境表明智能体已准备好进行任务结果评估并被重置到新位置。此时如果目标对象在距离智能体1米范围内且在智能体的相机视场范围(观察框)内时，则平台判定智能体完成本次导航任务并给予相应的成功奖励，否则判定任务失败。

2.奖励设计(Reward Design)：

合理的奖励函数设计能够引导有效地引导策略向算法的设计初衷靠拢，极大地鼓励导航策略的进步。本文按照导航任务评估“完成”和“进行中”两个分段给予智能体奖励，首先也是最重要的一点，当任务完成时，模型将得到环境反馈的正向奖励回报(5.0)。其次，综合考虑智能体单次导航任务的执行效率，和实际工程应用涉及的其他相关因素，如能量利用效率等指标，导航策略需要尽可能最小化目标导航的轨迹长度。因此，本发明为决策的每一个step添加了一个相对较小的即时负向奖励回报(-0.01)，以鼓励模型采取更短更直接的轨迹。与环境产生碰撞将判定任务失败。

实施例二

本实施例提供了服务机器人自适应目标导航系统；

服务机器人自适应目标导航系统，包括：

此处需要说明的是，上述获取模块、特征提取模块、概率分布计算模块、嵌入向量构建模块和目标导航模块对应于实施例一中的步骤S101至S105，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述实施例一所述的方法。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元及算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

实施例四

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述的方法。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.服务机器人自适应目标导航方法，其特征是，包括：

2.如权利要求1所述的服务机器人自适应目标导航方法，其特征是，基于目标图像的语义特征，和智能体每执行一个动作所采集的视觉观测图像的语义特征，确定目标注意概率分布；具体包括：

其中，i的取值范围是1,...,n_p，j的取值范围是1,...,n_p；u_g表示目标图像的语义特征；对来自t时刻智能体视觉观测使用卷积神经网络提取语义信息，输出维度为n_p×n_p×d_p，与观测图像的区域映射索引i,j,...,n_p，(i,j)^t的位置对应于观察到的图像中的区域语义信息用向量表示；目标图像的语义特征用特征向量/>表示，u_g与观测输入特征向量/>之间的相互作用使用向量的内积运算嵌入到相同的特征空间，令可训练的参数矩阵/>和参数/>分别将/>和u_g转换到d维空间；对于所索引为i,j＝{1,...,n_p}的区域，计算在t时刻状态下的观测-目标联合表征/>

对观测-目标联合表征采用softmax函数运算得到目标注意概率分布/>

3.如权利要求1所述的服务机器人自适应目标导航方法，其特征是，基于智能体每执行一个动作所采集的视觉观测图像的语义特征和智能体当前时刻之前的轨迹中所收集到的经验，确定经验注意概率分布；具体包括：

基于观测输入图像学习一个概率分布函数，由t-1时刻的LSTM的隐藏状态携带t-1时刻的经验，作为t时刻经验注意模块的输入，其中LSTM的输入是状态观测的联合表征；

对联合表征应用softmax函数运算得到相应的注意概率分布/>

4.如权利要求1所述的服务机器人自适应目标导航方法，其特征是，基于目标注意概率分布和经验注意概率分布，得到融合概率分布；具体包括：

5.如权利要求1所述的服务机器人自适应目标导航方法，其特征是，将全局注意嵌入向量，输入到深度强化学习网络中，深度强化学习网络输出动作决策，完成目标导航；具体包括：

将全局注意嵌入向量按顺序输入到深度强化学习网络SAC中，智能体将基于当前模型中的参数在动作空间中决策选出最佳动作，机器人将根据此指令完成相应的控制运动；

如果输出动作是Done，则目标导航结束，环境将对导航片段进行评估；否则视觉传感器继续检测当前环境状态完成视觉观测输入，循环此过程，直至达到最大运动步数限制，强制结束本次导航任务；

对整理后的成功导航轨迹，分批优先采样后用于策略优化；

深度强化学习网络输出动作决策，完成目标导航。

6.如权利要求5所述的服务机器人自适应目标导航方法，其特征是，所述智能体将基于当前模型中的参数在动作空间中决策选出最佳动作；是通过构建一种次级目标状态回溯模型来搜索经验池中某条成功轨迹中对收益值存在最大影响的中间状态；具体包括：

其中，s_t′表示与当前状态s_t最相关的次级状态；

利用残差函数进行适应性设计，用于处理轨迹中的过去状态，如公式(11)所示，其中，f_ω(s_i)对第i时刻的状态输入s_i进行线性变换，系数α_i是softmax归一化向量α的第i个元素，代表过去时刻的状态s_i与当前状态s_t之间的相关性，亦即状态s_i是一个需要达到的重要次级目标状态的可能性，归一化操作如公式(12)所示，s₁:s_t-1是t时刻前智能体所有状态的串联，q_ω和k_w是关于状态的线性函数；向量α的归一化操作计算如公式(12)所示；

7.如权利要求1所述的服务机器人自适应目标导航方法，其特征是，获取智能体第一人称视角下的视觉观测图像，基于训练后的卷积神经网络，提取视觉观测图像的语义特征和目标图像的语义特征；其中，训练后的卷积神经网络，训练过程包括：

8.服务机器人自适应目标导航系统，其特征是，包括：

9.一种电子设备，其特征是，包括：

存储器，用于非暂时性存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，

其中，所述计算机可读指令被所述处理器运行时，执行上述权利要求1-7任一项所述的方法。

10.一种存储介质，其特征是，非暂时性地存储计算机可读指令，其中，当所述非暂时性计算机可读指令由计算机执行时，执行权利要求1-7任一项所述方法的指令。