CN113253733B

CN113253733B - 一种基于学习和融合的导航避障方法、装置及系统

Info

Publication number: CN113253733B
Application number: CN202110621651.2A
Authority: CN
Inventors: 张文祺; 赵锴; 李鹏; 朱晓; 叶发萍; 江微杰; 王韬
Original assignee: Advanced Institute of Information Technology AIIT of Peking University; Hangzhou Weiming Information Technology Co Ltd
Current assignee: Advanced Institute of Information Technology AIIT of Peking University; Hangzhou Weiming Information Technology Co Ltd
Priority date: 2021-06-03
Filing date: 2021-06-03
Publication date: 2021-11-16
Anticipated expiration: 2041-06-03
Also published as: CN113253733A

Abstract

本发明公开了一种基于学习和融合的导航避障方法、装置及系统。所述方法包括：根据预设条件和融合模型，对多个子专家模型初始模型和门网络模型进行迭代优化训练，直至得到符合预设条件的导航避障模型，以及将机器人所处环境数据输入至导航避障模型中，输出导航指令，并将导航指令发送给机器人。因此，采用本申请实施例，根据预设条件和融合模型，对多个子专家模型初始模型和门网络模型进行迭代优化训练，得到导航避障模型，通过该模型输出导航指令，通过导航指令中携带的行驶、探索及避障信息，对机器人的行驶路线进行精准导航，并且能够灵活避开路上多个高动态障碍物，同时还能避免在死胡同里乱转。

Description

一种基于学习和融合的导航避障方法、装置及系统

技术领域

本发明涉及机器人导航技术领域，特别涉及一种基于学习和融合的导航避障方法、装置及系统。

背景技术

近年来，在机器人导航算法在业界被广泛研究，很多商用服务型机器人具备一定的室内导航能力。但是在真实环境下通常需要轮式或足式机器人在灾难现场、野外等无地图场景中执行救援、探测等任务。在这种紧急场景里往往无法事先提供环境地图，并且环境中还可能存在大量的高速移动障碍物。因此这要求机器人具有良好导航避障能力。

目前，常用的导航算法是基于路径规划和优化来实现安全导航。这种方法通常首先根据当前地图规划出全局路径，然后实时地通过轨迹优化来调整局部路径达到避障的目的。但是在高动态环境下，这种方法效果难以让人满意。因为这种基于地图的全局路径规划和局部路径优化算法必须要依赖地图并且建模复杂，计算量大，实时性能较差，即在高动态的障碍物环境中会极大影响导航避障的结果。

近年来，随着人工智能技术的发展，基于强化学习的方法也可以实现灵活的导航避障，即利用强化学习在模拟器中训练机器人自己学习如何避障和导航。这种基于强化学习的方法能够极大地提高避障能力，但该方法缺乏环境记忆和全局规划的能力，难以应对在复杂场景下的导航任务，即会被围墙阻挡或困在死角从而导致失败，此外基于强化学习的方法实现导航避障对训练环境和训练过程要求较高，容易造成训练出来的模型对当前训练环境的过拟合，鲁棒性较差。

因此，随着无人车、无人机等各种民、商用服务型机器人的兴起和广泛应用，当前急需一种避障性能强，算法鲁棒性好，计算复杂度低的导航避障方法。

发明内容

基于此，有必要针对现有的导航避障方法所存在的避障性能差、算法鲁棒性不好，计算复杂度高的问题，提供一种基于学习和融合的导航避障方法、装置及、系统、计算机设备和存储介质。

第一方面，本申请实施例提供了一种基于学习和融合的导航避障方法，所述方法包括：

在模拟器中设置多种运行环境；

基于所述运行环境训练具有不同专家策略的多个子专家初始模型；

基于所述多个子专家初始模型和随机初始化的门网络模型生成融合模型；

根据预设条件和所述融合模型，对多个子专家模型初始模型和所述门网络模型进行迭代优化训练，直至得到符合所述预设条件的导航避障模型，其中，所述预设条件为停止迭代优化训练的条件；

将所述机器人所处环境数据输入至所述导航避障模型中，输出导航指令，并将所述导航指令发送给所述机器人，所述导航指令中携带有行驶、探索及避障信息，所述行驶、探索及避障信息包括目标行驶信息、用于驶出死胡同并探索新环境的探索信息和用于躲避高动态障碍物的避障信息。

在一种实施方式中，所述多种运行环境包括静态运行环境、动态运行环境和迷宫运行环境，所述在模拟器中设置多种运行环境包括：

在所述模拟器中设置静态运行环境；

在所述模拟器中设置动态运行环境；以及

在所述模拟器中设置迷宫运行环境。

在一种实施方式中，所述子专家初始模型至少包括快速直行子专家初始模型、绕行避障子专家初始模型和环境探索子专家初始模型，所述基于所述运行环境训练具有不同专家策略的多个子专家初始模型包括：

在所述运行环境为静态运行环境的情况下，得到所述快速直行子专家初始模型；

在所述运行环境为动态运行环境的情况下，得到所述绕行避障子专家初始模型；以及

在所述运行环境为迷宫运行环境的情况下，得到所述环境探索子专家初始模型。

在一种实施方式中，所述快速直行子专家初始模型由深度神经网络建模，在静态运行环境中通过强化学习算法训练得到，训练过程中设置的奖励函数中包括目标奖励Rg1、到达奖励Rr1、单步时间惩罚Rt1、总时间惩罚Re1、角速度惩罚Ra1和碰撞惩罚Rc1；根据预设条件，对快速直行子专家模型进行迭代优化训练，直至得到符合所述预设条件的快速直行子专家模型；

所述绕行避障子专家初始模型由深度神经网络建模，在含较多高动态障碍物的运行环境中通过强化学习算法训练得到，训练过程中设置的奖励函数中包括目标奖励Rg2、到达奖励Rr2、单步时间奖励Rt2、总时间奖励Re2、障碍物惩罚Ro2和碰撞惩罚Rc2；根据预设条件，对绕行避障子专家模型进行迭代优化训练，直至得到符合所述预设条件的绕行避障子专家模型；

环境探索子专家初始模型由深度神经网络建模，在含复杂迷宫的运行环境中通过强化学习算法训练得到，训练过程中设置的奖励函数中仅有探索奖励Rn3；根据预设条件，对环境探索子专家模型进行迭代优化训练，直至得到符合所述预设条件的环境探索子专家模型；

其中，Rg1＞Rg2，Rr1＞Rr2，Rc1＜Rc2。

在一种实施方式中，所述基于所述多个子专家初始模型和随机初始化的门网络模型生成融合模型包括：

基于所述多个子专家初始模型进行初始化处理，得到对应的整数倍的子专家初始模型，所述子专家初始模型至少包括快速直行子专家初始模型、绕行避障子专家初始模型和环境探索子专家初始模型；

基于门网络模型对所述整数倍的子专家初始模型的各项参数进行融合，生成所述融合模型。

在一种实施方式中，所述对多个子专家模型初始模型和所述门网络模型进行迭代优化训练包括，在静态环境、含有高动态的多障碍物环境和含较多复杂迷宫的运行环境中，通过并行强化学习算法并行训练优化迭代。

在一种实施方式中，训练过程中设置的奖励函数中含有目标奖励Rg4、到达奖励Rr4、碰撞惩罚Rc4以及探索奖励Rn4；根据预设条件和所述融合模型，对多个子专家模型初始模型和所述门网络模型进行反向梯度传播从而迭代优化，直至得到符合所述预设条件的导航避障模型；

其中，Rg4＝Rg1+Rg2，Rc4=Rc2，Rr4=Rr1，Rn4=Rn3。

第二方面，本申请实施例提供了一种基于学习和融合的导航避障方法，所述方法包括：

接收服务器发送的导航指令，所述导航指令中携带有行驶、探索及避障信息，所述行驶、探索及避障信息包括目标行驶信息、用于驶出死胡同并探索新环境的探索信息和用于躲避高动态障碍物的避障信息；

根据所述行驶、探索及避障信息进行目标行驶、探索新环境以及躲避高动态障碍物。

在一种实施方式中，所述目标行驶信息包括目标行驶规划路线，所述根据所述行驶、探索及避障信息进行目标行驶、探索新环境以及躲避高动态障碍物包括：

根据所述目标行驶信息中的所述目标行驶规划路线行驶至目的地；

根据所述探索信息对所述新环境进行探索；

根据所述避障信息对所述机器人所处环境中的高动态障碍物进行避障。

在一种实施方式中，所述方法还包括：

接收服务器发送的导航指令，所述导航指令还包括控制所述机器人行驶的速度信息、角速度信息和加速度信息；

根据所述导航指令中的所述速度信息、所述角速度信息和所述加速度信息，依据所述目标行驶规划路线行驶至所述目的地。

第三方面，本申请实施例提供了一种基于学习和融合的导航避障装置，所述装置包括：

设置模块，用于在模拟器中设置多种运行环境；

训练模块，用于基于所述设置模块设置的所述运行环境训练具有不同专家策略的多个子专家初始模型；

生成模块，用于基于所述训练模块训练出的所述多个子专家初始模型和随机初始化的门网络模型生成融合模型；

优化模块，用于根据预设条件和所述生成模块生成的所述融合模型，对多个子专家模型初始模型和所述门网络模型进行迭代优化训练，直至得到符合所述预设条件的导航避障模型，其中，所述预设条件为停止迭代优化训练的条件；

处理模块，用于将所述机器人所处环境数据输入至所述优化模块优化出的所述导航避障模型中，输出导航指令，所述导航指令中携带有行驶、探索及避障信息，所述行驶、探索及避障信息包括目标行驶信息、用于驶出死胡同并探索新环境的探索信息和用于躲避高动态障碍物的避障信息；

发送模块，用于将所述处理模块处理得到的所述导航指令发送给所述机器人。

第四方面，本申请实施例提供了一种基于学习和融合的导航避障装置，所述装置包括：

接收模块，用于接收服务器发送的导航指令，所述导航指令中携带有行驶、探索及避障信息，所述行驶、探索及避障信息包括目标行驶信息、用于驶出死胡同并探索新环境的探索信息和用于躲避高动态障碍物的避障信息；

行驶、探索及避障模块，用于根据所述接收模块接收到的所述行驶、探索及避障信息进行目标行驶、探索新环境以及躲避高动态障碍物。

第五方面，本申请实施例提供了一种基于学习和融合的导航避障系统，所述系统包括如上所述的基于学习和融合的导航避障装置。

第六方面，本申请实施例提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行，以实现上述任一所述的基于学习和融合的导航避障方法。

第七方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行，以实现上述任一所述的基于学习和融合的导航避障方法。

本申请实施例提供的技术方案可以包括以下有益效果：

在本申请实施例中根据预设条件和融合模型，对多个子专家模型初始模型和门网络模型进行迭代优化训练，直至得到符合预设条件的导航避障模型；以及将机器人所处环境数据输入至导航避障模型中，输出导航指令，并将导航指令发送给机器人。因此，采用本申请实施例，根据预设条件和融合模型，对多个子专家模型初始模型和门网络模型进行迭代优化训练，最终得到导航避障模型；这样，当将机器人所处环境数据输入至该导航避障模型中，经过数据处理，能够精准地输出导航指令，由于导航指令中携带有行驶、探索及避障信息，行驶、探索及避障信息包括目标行驶信息、用于驶出死胡同并探索新环境的探索信息和用于躲避高动态障碍物的避障信息，这样，能够精准地导航机器人依据目标行驶规划路线行驶，并且基于导航指令能够灵活避开路上多个高动态障碍物，同时还能避免在死胡同里乱转，对机器人进行提前提示，以便于机器人能够提前进行精准且有效的避让。此外，本申请实施例进行导航的导航避障模型采用的算法的鲁棒性好、且计算复杂度低。应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1为本公开实施例提供的一种基于学习和融合的导航避障方法的流程示意图；

图2为本公开实施例提供的一种基于学习和融合的导航避障方法中涉及到的奖励函数和其权重系数设计的示意图；

图3为本公开实施例提供的具体应用场景下的三个专家策略训练场景图；

图4为本公开实施例提供的具体应用场景下的基于多专家融合学习的导航避障方法的流程示意图；

图5为本公开实施例提供的具体应用场景下的融合策略训练场景的示意图；

图6为本公开实施例提供的门网络模型在不同场景下激活不同专家策略的示意图；

图7为本公开实施例提供的具体应用场景下的基于多专家融合学习的避障导航方法的流程示意图；

图8为本公开实施例提供的另一种基于学习和融合的导航避让方法的流程示意图；

图9为本公开实施例提供的一种基于学习和融合的导航避障装置的结构示意图；

图10为本公开实施例提供的另一种基于学习和融合的导航避让装置的结构示意图。

具体实施方式

以下描述和附图充分地示出本发明的具体实施方案，以使本领域的技术人员能够实践它们。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

下面结合附图详细说明本公开的可选实施例。

如图1所示，本公开实施例提供一种基于学习和融合的导航避障方法，该导航避让方法应用于服务器，该导航避让方法具体包括以下方法步骤：

S101：在模拟器中设置多种运行环境。

在本申请实施例中，运行环境包括静态运行环境、动态运行环境和迷宫运行环境。

在本申请实施例中，除了设置上述三种运行环境之外，还可以根据不同应用场景的需要，设置其它的运行环境，在此不再赘述。

在一种可能的实现方式中，多种运行环境包括静态运行环境、动态运行环境和迷宫运行环境，在模拟器中设置多种运行环境包括以下步骤：

在模拟器中设置静态运行环境；

在模拟器中设置动态运行环境；以及

在模拟器中设置迷宫运行环境。

S102：基于运行环境训练具有不同专家策略的多个子专家初始模型。

在本申请实施例中，子专家初始模型至少包括快速直行子专家初始模型、绕行避障子专家初始模型和环境探索子专家初始模型。

在本申请实施例中，不同专家策略具有不同的运行模式：例如，本申请实施例中，至少包括快速直行策略、绕行避障策略和环境探索策略这三种策略。三类策略的输出动作偏好不同，对应的导航结果也会不同。

快速直行策略（go-straight strategy）的设计原理：机器人更关注导航效率，即属于目标驱动型策略，机器人选择以较大线速度和较小角速度快速朝着目标行驶，使其不断接近目标区域。在强化学习训练过程中当越靠近终点则给予更大的奖励，整个导航过程耗时越大则惩罚越大，而发生碰撞的惩罚较小。该策略擅长快速导航，为了导航效率常常牺牲安全性。在这类策略驱动下，机器人遇见阻挡障碍物会倾向选择从障碍物边缘的间隙快速穿行，使机器人以较短时间到达目标，但是也时常使机器人陷入危险。

绕行避障策略（obstacle-avoidance strategy）的设计原理：机器人更关注导航安全，即属于安全驱动策略，机器人常会选择较小线速度和中等角速度谨慎绕行来躲避可能遇见的障碍物，因此甚至会暂时远离目标区域。在强化学习训练中，离障碍物越远则给予更大的奖励，当发生碰撞则给予更大的惩罚，而靠近目标则给予的奖励较相对较小，整个导航避障过程存活时间越长则给予更大的奖励。该策略擅长安全避障，为了安全有时会牺牲效率。在这类策略驱动下，机器人碰撞障碍物会倾向于提前减速、甚至刹车和绕行躲避障，使机器人始终保证安全，但也会延长其导航时间。

环境探索策略的设计原理（environment-exploration strategy）：机器人更关注环境新颖程度，即探索新环境。在训练强化学习算法中首先通过采集样本序列（st，at，st+1）来学习一个环境模型M，环境模型M刻画了环境转移概率st+1=M（st，at），该模型代表了机器人对周边环境进行短时记忆。在训练过程中机器人与周边环境交互，并且通过学到的最新的环境模型M来预测下一时刻的状态st+1’ = M（at，st+1），当预测状态st+1’和实际下一时刻状态st+1差异越大则给予奖励越大。即鼓励机器人去陌生的环境中探索，而不是重复经历熟悉的环境，从而避免陷入死角或死循环。通过这类环境探索策略能够让机器人快速走出复杂障碍物环境，从而增大到达终点的概率。

在本申请实施例中，针对导航过程的不同行为模型来设计功能各不相同的子专家模型，子专家模型由深度强化学习方法来实现，每个子专家模型均包括结构相同的策略网络模型和价值网络模型，通过设计训练环境和奖励函数，从而训练得到多个行为偏好各不相同的子专家模型。

在本申请实施例中，在上述单独训练三类快速直行策略、绕行避障策略和环境探索策略的过程中，还设计了状态转移模型。设计一个基于概率深度模型的环境模型Model，环境模型M的输入是当前机器人的状态St和当前的动作at，输出是下一时刻的预测状态St+1’，在模拟器中通过采集的交互数据（St，at，St+1）上学习环境模型M，将真实的St+1当做数据标签来训练该模型，即通过监督学习的方法学习状态概率转移函数。环境模型刻画了机器人对周边环境的短时记忆，当环境模型预测下一时刻的状态St+1’和St+1越接近，则代表该模型对周边环境的拟合程度越好，也说明机器人可能陷入局部环境中。在交互过程中一直在学习该环境模型M。

本申请实施例提供的导航避障方法设计了强化学习要素，具体如下所述：

首先，设计紧凑的状态空间作为状态输入，机器人的观测向量记为：

，其中机器人通过挂载的2D激光雷达观测到周边环境为向量

，在载体坐标系下目标点相对于机器人投影向量为

，同时还通过前n个时刻记录的激光观测数据

中计算出相对运动向量：

，该相对运动向量

综合了机器人自身运动和外界障碍物的运动。最后机器人在世界坐标系下的自身运动向量记为

。然后为了将本发明应用到更多的机器人平台，动作向量设计为：

，分别代表着机器人自身x轴方向的运动速度，y轴方向的运动速度和旋转角速度。此外本发明还设计八类奖励函数Rg，Ro，Rc，Rr，Rt，Re，Ra，Rn 用于不同的训练过程。每个专家策略均是采用以上八类奖励函数搭配不同的权重系数在强化学习框架下训练，具体参见如图2所示。

正如图2所示，本申请实施例提供的导航避障方法设计了八类不同的奖励函数，针对各个奖励函数做如下说明，具体如下所述：

设置八类奖励函数Rg，Ro，Rc，Rr，Rt，Re，Ra，Rn，其中：

目标奖励

：每一步越靠近目标奖励越大，其计算方法如下：

，代表t时刻相比t-1时刻和目标的欧氏距离之差。

障碍物靠近惩罚

：当小车与障碍物的距离小于0.6m时则给予惩罚，两者距离越近惩罚越大，计算方法如下：

，其中，

代表以激光雷达的360维测量距离中最小的距离。

碰撞惩罚

：在一次仿真模拟过程，当小车与障碍物发生碰撞则给予一定惩罚，计算如下：

。

到达奖励

：代表在一次仿真模拟过程中，小车到达终点则给予一定奖励，计算如下：

。

时间奖励/惩罚

：代表每一步仿真，只要小车依然存活就给予一定奖励或惩罚，计算如下：

。

最大步长奖励/惩罚

：代表当一次仿真小车存活至最大时间步长则给予一定奖励或惩罚，计算如下：

。

探索奖励Rn：代表在训练过程中计算对环境相似程度的判断

Rn=

，首先，利用学习的环境模型Model，环境模型刻画了对周边环境的状态转移过程，即通过M模型计算预测状态St+1’=Model（St，at），将真实的下一时刻状态St+1和预测状态St+1’求其两者向量距离，该距离越小则代表预测和真实越接近，则代表机器人可能陷入局部环境或死循环，则此时探索奖励Rn越小。若两者距离越大则代表环境模型并未对局部环境拟合较好，则说明机器人没有被困在局部环境中。探索奖励Rn本质上是鼓励探索新的状态。

角速度奖励/惩罚

：代表当小车角速度超过一定的范围则给予一定的奖励或惩罚，计算如下：

。其中，在不同专家策略和融合网络训练过程中各个奖励函数项的权重各自不同。强化学习的奖励函数为八类奖励函数的总和，即R = Rg+Ro+Rc+Rr+Rt+Re+Ra+Rn。

如图3所示，为本公开实施例提供的具体应用场景下的三个专家策略训练场景图。如图3所示，左侧对应的是快速执行策略场景，中间对应的是绕行避障策略场景，右侧对应的是环境探索策略场景。

在一种可能的实现方式中，基于运行环境训练具有不同专家策略的多个子专家初始模型包括以下步骤：

在运行环境为静态运行环境的情况下，基于第一强化学习算法和目标驱动的第一奖励函数进行模型训练，得到快速直行子专家初始模型；

在运行环境为动态运行环境的情况下，基于第二强化学习算法和安全驱动的第二奖励函数进行模型训练，得到绕行避障子专家初始模型；以及

在运行环境为迷宫运行环境的情况下，基于第三强化学习算法和好奇心驱动的第三奖励函数进行模型训练，得到环境探索子专家初始模型。

在本申请实施例中，上述第一强化学习算法是在静态运行环境下，结合目标驱动的第一奖励函数进行模型训练时所采用的强化学习算法。

同理，上述第二强化学习算法是在动态运行环境下，结合安全驱动的第二奖励函数进行模型训练时所采用的强化学习算法。

同理，上述第三强化学习算法是在迷宫运行环境下，结合好奇心驱动的第三奖励函数进行模型训练时所采用的强化学习算法。

上述第一强化学习算法、第二强化学习算法和第三强化学习算法所采用的算法可以是相同的，也可以是不同的，在此不做具体限制。

基于上述训练过程中涉及到的奖励函数和其权重系数的设计参见图2。

第一奖励函数中包括目标奖励Rg1、到达奖励Rr1、单步时间惩罚Rt1、总时间惩罚Re1、角速度惩罚Ra1和碰撞惩罚Rc1；第二奖励函数中包括目标奖励Rg2、到达奖励Rr2、单步时间奖励Rt2、总时间奖励Re2、障碍物惩罚Ro2和碰撞惩罚Rc2；第三奖励函数中仅有探索奖励Rn3；其中，Rg1＞Rg2，Rr1＞Rr2，Rc1＜Rc2。通过本发明特定的奖励函数设计，训练出来的三类模型输出动作偏好不同，对应的导航结果也会不同，后面通过融合多个专家能够得到更好的导航结果。

上述三类专家策略采用完全一样的全连接层神经网络建模，输入为上述环境探索策略中的观测向量，输出为环境探索策略的上述动作向量。采用Stage模拟器，采用PPO的强化学习训练框架，采用上述设计的状态空间，在不同的训练场景下训练三类策略：在静态障碍物下训练快速直行策略，并在动态障碍物场景下训练绕行避障专家策略，在具有大路障、迷宫等复杂环境中训练环境探索策略。

在一种可能的实现方式中，在基于运行环境训练具有不同专家策略的多个子专家初始模型之前，本申请实施例提供的导航避障方法还包括以下步骤：

在模拟器上搭建训练环境和强化学习框架，具体搭建过程如下所述：

步骤b1：在stage模拟器上设计多种训练场景。

首先，在Stage模拟器中建立小车模型、障碍物模型，并设计若干训练和测试场景，然后按照真实机器人配置设置小车的物理属性如，质量、速度、加速度、刚度等。其次在模拟器中给小车配置2d激光雷达，按照真实世界的民用级激光雷达性能指标模拟雷达的测量精度、角分辨率、测量范围、扫描频率等参数。最后设置若干静态障碍物场景、动态障碍物、迷宫场景，障碍物的大小和形状各异，障碍物在环境中最大移动速度至少是小车最大速度两倍以上，并且障碍物在环境中随机游走，游走速度在速度范围里随机采样。

步骤b2：搭建基于PPO的强化学习训练框架，包括critic网络和actor网络。

首先搭建深度强化学习模型，采用PPO算法实现，分为动作策略模型（actor模型）和价值网络模型（critic模型），如图4所示，专家策略的actor和critic模型均是由3层神经网络搭建，搭建经验存储池buffer memory存储历史元组，critic模型输出value值，并计算advantage value值，actor模型计算动作输出。

步骤b3：搭建多进程并行强化学习训练框架。

整个训练框架并行运行，即不同进程之间分别仿真模拟交互过程，但是所有进程之间共享了一套动作策略模型和价值网络模型。训练时在训练场景中设置N个机器人，每次交互时每个仿真步长内采集所有的机器人的观测状态S（t）= 和R(t)当前仿真进程中采集到的交互序列（St，at，rt，St+1,done）发送给主进程中的经验存储池buffer memory中存储，并且主进程按照N个仿真进程发送过来的当前状态（St1，St2，St3，...StN）计算对应的N个动作（at1，at2，at3，...atN）并返回给对应的仿真进程。仿真进程执行接收到的动作at实现与环境交互，收集新一时刻的各自的O(t+1)和R(t+1)，依次循环。当主进程的buffermemory中的经验元组超过一定个数，则通过ppo算法更新策略模型和价值模型。

此外，当某个小车在模拟器发生碰撞或达到最大时间步长，模拟器向强化学习框架发送DONE指令，代表本次模拟结束，强化学习框架对应发送RESET指令重启该小车，整个并行训练环境采用同步模式进行。

S103：基于多个子专家初始模型和随机初始化的门网络模型生成融合模型。

在一种可能的实现方式中，基于多个子专家初始模型和随机初始化的门网络模型生成融合模型包括以下步骤：

基于多个子专家初始模型进行初始化处理，得到对应的整数倍的子专家初始模型，子专家初始模型至少包括快速直行子专家初始模型、绕行避障子专家初始模型和环境探索子专家初始模型；

基于门网络模型对整数倍的子专家初始模型的各项参数进行融合，生成融合模型。

在本申请实施例中，设计了门网络模型，门网络模型由长短记忆单元（LSTM）组成的循环神经网络建模，门网络模型输出多个权重系数，通过这多个权重系数来融合各个子专家模型的参数，得到一个融合网络模型，这种参数融合方法不同于传统的结果融合，不易受到样本分布不均匀的影响。其中，各项参数为常规的参数，在此不再赘述。

如图6所示，示出了门网络模型在不同场景下激活上述三类不同专家策略的示意图。通过门网络融合多个行为模式各异的子专家模型的方法步骤具体如下所述：

步骤a1：初始化6个专家策略。

将前述步骤得到的三个专家策略（快速直行策略、绕行避障策略和环境探索策略）各复制2份，得到6个专家策略。即用每个训练好的专家策略各初始化2个神经网络，最后得到6个专家策略网络。

步骤a2：设计门网络模型。

门网络模型采用长短记忆单元（LSTM）组成的循环神经网络，模型的输入是机器人当前的状态

，模型的输出层经过softmax编码后得到6个归一化的权重值。

步骤a3：采用门网络模型来融合权重以上6个子专家网络。

如图4所示，通过门网络融合上述步骤a1中的初始化的6个专家策略，门网络输出得到的6个权重系数将6个专家网络的同一位置的网络权重参数进行融合，得到融合网络，融合网络和专家网络的结构完全一致。具体融合方法如下：

首先，x、y、h1和h2代表融合后网络的输入、输出、和隐藏层维度

然后每个专家网络的参数如下：

融合如下：

其中，

代表专家网络的编号，

代表网络层，而

代表门网络的输出，公式（2）左边代表了融合网络参数，右边是六个专家网络参数和门网络输出权重，这种针对多专家参数进行融合的方式比传统基于多模型结果的融合方法更加有效，避免了样本不均匀导致的偏差。

步骤a4：将上述得到的融合模型在环境中交互采样，具体的，将融合后网络用于前向推理计算输出动作，并与环境交互，如图4所示，并且在强化学习框架下联合6个专家网络和门网络。即融合网络的参数是根据门网络时刻输出权重和6个专家网络最新参数融合而成，仅用于前向推理，即用于计算当前的动作策略网络的输出，用于在模拟器中进行交互，积累样本序列。

S104：根据预设条件和融合模型，对多个子专家模型初始模型和门网络模型进行迭代优化联合训练，直至得到符合预设条件的导航避障模型，其中，预设条件为停止迭代优化训练的条件，该导航避障模型具有避障能力强、鲁棒性好的优良性能。

每次梯度反向传播时对6个专家网络和门网络的参数进行更新。联合训练过程中依然采用PPO强化学习框架训练，输入状态和输出动作和B中单独训练的三个专家策略一样。联合训练的奖励函数按照图2中所示的多专家融合策略设置其系数，具体的，联合训练的奖励函数中含有目标奖励Rg4、到达奖励Rr4、碰撞惩罚Rc4以及探索奖励Rn4，其中，Rg4＝Rg1+Rg2，Rc4=Rc2，Rr4=Rr1，Rn4=Rn3。采用并行训练的方式，同步在多类场景中同时训练，如图5所示，多类场景包括了空旷场景、静态障碍物场景、动态障碍物场景、复杂迷宫场景等；其中，图5a的左侧为静态场景，图5a的右侧为动、静态场景，图5b的左侧为动态场景，图5b的右侧为复杂场景。经过联合训练，6个专家网络得到进化，变成6个行为模式各有不同的策略模型，而门网络也学会了根据不同的观测状态自适应输出不同权重系数，融合出一个通用、自适应的行为策略。该自适应策略能够更好保障机器人的避障导航的效果，并且不会对训练环境过拟合，也不会陷入局部迷宫而死循环。依据本发明多专家策略所设定的奖励函数，通过单独训练子专家和联合两个步骤，能够得到很好的导航避障策略，该策略可以应对多种高动态和复杂环境下的导航任务，能够快速安全地到达终点。

在本申请实施例中，在一种可能的应用场景中，预设条件为：训练优化出的模型的损失函数无限趋于零，这样，能够保证优化出的模型具有较佳的数据处理能力，最终输出的导航指令中携带有行驶、探索及避障信息，行驶、探索及避障信息包括目标行驶信息、用于驶出死胡同并探索新环境的探索信息和用于躲避高动态障碍物的避障信息，这样，能够精准地导航机器人依据目标行驶规划路线行驶，并且基于导航指令能够灵活避开路上多个高动态障碍物，同时还能避免在死胡同里乱转，对机器人进行提前提示，以便于机器人能够提前进行精准且有效的避让。

在本申请实施例中，将上述经由融合处理得到的融合模型和上述门网络模型一起通过强化学习方法进行联合训练优化，通过反向传播更新对应的子专家模型参数和门网络模型参数，并且设计多种复杂训练环境，保证融合模型继续优化各个子专家的行为模式，并且门网络模型也学会根据不同的场景调度不同的子专家。

S105：将机器人所处环境数据输入至导航避障模型中，输出导航指令，并将导航指令发送给机器人，导航指令中携带有行驶、探索及避障信息，行驶、探索及避障信息包括目标行驶信息、用于驶出死胡同并探索新环境的探索信息和用于躲避高动态障碍物的避障信息。

如图7所示，为本公开实施例提供的具体应用场景下的基于多专家融合学习的避障导航方法的流程示意图。

如图7所示，具体应用场景下的基于多专家融合学习的避障导航方法包括以下步骤：

S701：在模拟器中设置静态运行环境，基于第一强化学习算法和目标驱动的奖励函数进行模型训练，得到快速直行子专家初始模型。

S702：在模拟器中设置动态运行环境，基于第二强化学习算法和安全驱动的奖励函数进行模型训练，得到绕行避障子专家初始模型。

S703：在模拟器中设置迷宫运行环境，基于第三强化学习算法和好奇心驱动的奖励函数进行模型训练，得到环境探索子专家初始模型。

S704：用上述三个子专家初始模型初始化出对应的六个子专家初始模型。

S705：基于多个子专家初始模型和随机初始化的门网络模型生成融合模型。

S706：根据预设条件和融合模型，对多个子专家模型初始模型和门网络模型进行迭代优化训练，直至得到符合预设条件的导航避障模型。

S707：将机器人所处环境数据输入至导航避障模型中，输出导航指令，并将导航指令发送给机器人，其中，导航指令中携带有行驶、探索及避障信息，行驶、探索及避障信息包括目标行驶信息、用于驶出死胡同并探索新环境的探索信息和用于躲避高动态障碍物的避障信息。

针对上述步骤中的详细描述，参见前述相同或相似部分的描述，在此不再赘述。

在本公开实施例中，根据预设条件和融合模型，对多个子专家模型初始模型和门网络模型进行迭代优化训练，直至得到符合预设条件的导航避障模型；以及将机器人所处环境数据输入至导航避障模型中，输出导航指令，并将导航指令发送给机器人。因此，采用本申请实施例，根据预设条件和融合模型，对多个子专家模型初始模型和门网络模型进行迭代优化训练，最终得到导航避障模型；这样，当将机器人所处环境数据输入至该导航避障模型中，经过数据处理，能够精准地输出导航指令。由于导航指令中携带有行驶、探索及避障信息，行驶、探索及避障信息包括目标行驶信息、用于驶出死胡同并探索新环境的探索信息和用于躲避高动态障碍物的避障信息，这样，能够精准地导航机器人依据目标行驶规划路线行驶，并且基于导航指令能够灵活避开路上多个高动态障碍物，同时还能避免在死胡同里乱转，对机器人进行提前提示，以便于机器人能够提前进行精准且有效的避让。此外，本申请实施例进行导航的导航避障模型采用的算法的鲁棒性好、且计算复杂度低。

如图8所示，本公开实施例提供一种基于学习和融合的导航避障方法，该导航避让方法应用于机器人，该导航避让方法具体包括以下方法步骤：

S801：接收服务器发送的导航指令，导航指令中携带有行驶、探索及避障信息，行驶、探索及避障信息包括目标行驶信息、用于驶出死胡同并探索新环境的探索信息和用于躲避高动态障碍物的避障信息；

S802：根据行驶、探索及避障信息进行目标行驶、探索新环境以及躲避高动态障碍物。

在一种可能的实现方式中，本公开实施例提供的基于学习和融合的导航避让方法还包括以下步骤：接收服务器发送的导航指令，导航指令还包括控制机器人行驶的速度信息、角速度信息和加速度信息；

根据导航指令中的速度信息、角速度信息和加速度信息，依据目标行驶规划路线行驶至目的地。

下述为本发明基于学习和融合的导航避障装置实施例，可以用于执行本发明基于学习和融合的导航避障方法实施例。对于本发明基于学习和融合的导航避障装置实施例中未披露的细节，请参照本发明基于学习和融合的导航避障方法实施例。

请参见图9，其示出了本发明一个示例性实施例提供的基于学习和融合的导航避障装置的结构示意图。该基于学习和融合的导航避障装置应用于服务器，该导航避障装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。该基于学习和融合的导航避障装置包括设置模块901、训练模块902、生成模块903、优化模块904、处理模块905和发送模块906。

具体而言，设置模块901，用于在模拟器中设置多种运行环境；

训练模块902，用于基于设置模块901设置的运行环境训练具有不同专家策略的多个子专家初始模型；

生成模块903，用于基于训练模块902训练出的多个子专家初始模型和随机初始化的门网络模型生成融合模型；

优化模块904，用于根据预设条件和生成模块903生成的融合模型，对多个子专家模型初始模型和门网络模型进行迭代优化训练，直至得到符合预设条件的导航避障模型，其中，预设条件为停止迭代优化训练的条件；

处理模块905，用于将机器人所处环境数据输入至优化模块904优化出的导航避障模型中，输出导航指令，导航指令中携带有行驶、探索及避障信息，行驶、探索及避障信息包括目标行驶信息、用于驶出死胡同并探索新环境的探索信息和用于躲避高动态障碍物的避障信息；

发送模块906，用于将处理模块905处理得到的导航指令发送给机器人。

可选的，多种运行环境包括静态运行环境、动态运行环境和迷宫运行环境，设置模块901具体用于：

在模拟器中设置静态运行环境；

在模拟器中设置动态运行环境；以及

在模拟器中设置迷宫运行环境。

可选的，子专家初始模型至少包括快速直行子专家初始模型、绕行避障子专家初始模型和环境探索子专家初始模型，训练模块902用于：

在运行环境为静态运行环境的情况下，得到快速直行子专家初始模型；

在运行环境为动态运行环境的情况下，得到绕行避障子专家初始模型；以及

在运行环境为迷宫运行环境的情况下，得到环境探索子专家初始模型。

可选的，优化模块904具体用于：

快速直行子专家初始模型由深度神经网络建模，在静态运行环境中通过强化学习算法训练得到，训练过程中设置的奖励函数中包括目标奖励Rg1、到达奖励Rr1、单步时间惩罚Rt1、总时间惩罚Re1、角速度惩罚Ra1和碰撞惩罚Rc1；根据预设条件，对快速直行子专家模型进行迭代优化训练，直至得到符合预设条件的快速直行子专家模型；

绕行避障子专家初始模型由深度神经网络建模，在含较多高动态障碍物的运行环境中通过强化学习算法训练得到，训练过程中设置的奖励函数中包括目标奖励Rg2、到达奖励Rr2、单步时间奖励Rt2、总时间奖励Re2、障碍物惩罚Ro2和碰撞惩罚Rc2；根据预设条件，对绕行避障子专家模型进行迭代优化训练，直至得到符合预设条件的绕行避障子专家模型；

环境探索子专家初始模型由深度神经网络建模，在含复杂迷宫的运行环境中通过强化学习算法训练得到，训练过程中设置的奖励函数中仅有探索奖励Rn3；根据预设条件，对环境探索子专家模型进行迭代优化训练，直至得到符合预设条件的环境探索子专家模型；

其中，Rg1 ＞Rg2，Rr1＞Rr2，Rc1＜Rc2。

可选的，生成模块903具体用于：

可选的，对多个子专家模型初始模型和门网络模型进行迭代优化训练包括，在静态环境、含有高动态的多障碍物环境和含较多复杂迷宫的运行环境中，通过并行强化学习算法并行训练优化迭代。

可选的，训练过程中设置的奖励函数中含有目标奖励Rg4、到达奖励Rr4、碰撞惩罚Rc4以及探索奖励Rn4；根据预设条件和融合模型，对多个子专家模型初始模型和门网络模型进行反向梯度传播从而迭代优化，直至得到符合预设条件的导航避障模型；

其中，Rg4＝Rg1+Rg2，Rc4=Rc2，Rr4=Rr1，Rn4=Rn3。

需要说明的是，上述实施例提供的基于学习和融合的导航避障装置在执行基于学习和融合的导航避障方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的基于学习和融合的导航避障装置与基于学习和融合的导航避障方法实施例属于同一构思，其体现实现过程详见基于学习和融合的导航避障方法实施例，这里不再赘述。

在本公开实施例中，优化模块用于根据预设条件和融合模型，对多个子专家模型初始模型和门网络模型进行迭代优化训练，直至得到符合预设条件的导航避障模型；以及处理模块用于将机器人所处环境数据输入至导航避障模型中，输出导航指令，并通过发送模块将处理模块处理得到的导航指令发送给机器人。因此，采用本申请实施例，根据预设条件和融合模型，对多个子专家模型初始模型和门网络模型进行迭代优化训练，最终得到导航避障模型；这样，当将机器人所处环境数据输入至该导航避障模型中，经过数据处理，能够精准地输出导航指令。由于导航指令中携带有行驶、探索及避障信息，行驶、探索及避障信息包括目标行驶信息、用于驶出死胡同并探索新环境的探索信息和用于躲避高动态障碍物的避障信息，这样，能够精准地导航机器人依据目标行驶规划路线行驶，并且基于导航指令能够灵活避开路上多个高动态障碍物，同时还能避免在死胡同里乱转，对机器人进行提前提示，以便于机器人能够提前进行精准且有效的避让。此外，本申请实施例进行导航的导航避障模型对应的算法的鲁棒性好、且计算复杂度低。

请参见图10，其示出了本发明一个示例性实施例提供的基于学习和融合的导航避障装置的结构示意图。该基于学习和融合的导航避障装置应用于机器人，该导航避障装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。该基于学习和融合的导航避障装置包括接收模块1001和行驶、探索及避障模块1002。

具体而言，接收模块1001，用于接收服务器发送的导航指令，导航指令中携带有行驶、探索及避障信息，行驶、探索及避障信息包括目标行驶信息、用于驶出死胡同并探索新环境的探索信息和用于躲避高动态障碍物的避障信息；

行驶、探索及避障模块1002，用于根据接收模块1001接收到的导航指令中携带的行驶、探索及避障信息进行目标行驶、探索新环境以及躲避高动态障碍物。可选的，目标行驶信息包括目标行驶规划路线，行驶、探索及避障模块1002具体用于：

根据目标行驶信息中的目标行驶规划路线行驶至目的地；

根据探索信息对新环境进行探索；

根据避障信息对机器人所处环境中的高动态障碍物进行避障。

可选的，接收模块1001还用于：接收服务器发送的导航指令，导航指令还包括控制机器人行驶的速度信息、角速度信息和加速度信息；

行驶避让模块1002还用于：根据接收模块1001接收到的导航指令中的速度信息、角速度信息和加速度信息，依据目标行驶规划路线行驶至目的地。

在本公开实施例中，接收模块用于接收服务器发送的导航指令，导航指令中携带有行驶、探索及避障信息；以及行驶、探索及避障模块，用于根据接收模块接收到的行驶、探索及避障信息进行目标行驶、探索新环境以及躲避高动态障碍物。因此，采用本申请实施例，由于机器人接收到的服务器发送的导航指令中携带有行驶、探索及避障信息，行驶、探索及避障信息包括目标行驶信息、用于驶出死胡同并探索新环境的探索信息和用于躲避高动态障碍物的避障信息，这样，能够精准地导航机器人依据目标行驶规划路线行驶，并且基于导航指令能够灵活避开路上多个高动态障碍物，同时还能避免在死胡同里乱转，对机器人进行提前提示，以便于机器人能够提前进行精准且有效的避让。

在一个实施例中，提出了一种基于学习和融合的导航避障系统，该导航避障系统包括上述执行基于学习和融合的导航避障方法的服务器和上述执行基于学习和融合的导航避障方法的机器人。分别针对在服务器、机器人上执行的基于学习和融合的导航避让方法的详细描述，参见前述描述，在此不再赘述。

在一个实施例中，提出了一种计算机设备，计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：在模拟器中设置多种运行环境；基于运行环境训练具有不同专家策略的多个子专家初始模型；基于多个子专家初始模型和随机初始化的门网络模型生成融合模型；根据预设条件和融合模型，对多个子专家模型初始模型和门网络模型进行迭代优化训练，直至得到符合预设条件的导航避障模型，其中，预设条件为停止迭代优化训练的条件；将机器人所处环境数据输入至导航避障模型中，输出导航指令，并将导航指令发送给机器人，导航指令中携带有行驶、探索及避障信息，行驶、探索及避障信息包括目标行驶信息、用于驶出死胡同并探索新环境的探索信息和用于躲避高动态障碍物的避障信息。

在一个实施例中，提出了一种存储有计算机可读指令的存储介质，该计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行以下步骤：在模拟器中设置多种运行环境；基于运行环境训练具有不同专家策略的多个子专家初始模型；基于多个子专家初始模型和随机初始化的门网络模型生成融合模型；根据预设条件和融合模型，对多个子专家模型初始模型和门网络模型进行迭代优化训练，直至得到符合预设条件的导航避障模型，其中，预设条件为停止迭代优化训练的条件；将机器人所处环境数据输入至导航避障模型中，输出导航指令，并将导航指令发送给机器人，导航指令中携带有行驶、探索及避障信息，行驶、探索及避障信息包括目标行驶信息、用于驶出死胡同并探索新环境的探索信息和用于躲避高动态障碍物的避障信息。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）等非易失性存储介质，或随机存储记忆体（Random Access Memory，RAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于学习和融合的导航避障方法，其特征在于，所述方法包括：

在模拟器中设置多种运行环境；

所述多种运行环境包括静态运行环境、动态运行环境和迷宫运行环境，所述在模拟器中设置多种运行环境包括：

在所述模拟器中设置静态运行环境；

在所述模拟器中设置动态运行环境；以及

在所述模拟器中设置迷宫运行环境；

所述子专家初始模型至少包括快速直行子专家初始模型、绕行避障子专家初始模型和环境探索子专家初始模型，所述基于所述运行环境训练具有不同专家策略的多个子专家初始模型包括：

在所述运行环境为迷宫运行环境的情况下，得到所述环境探索子专家初始模型；

所述基于所述多个子专家初始模型和随机初始化的门网络模型生成融合模型包括：

基于门网络模型对所述整数倍的子专家初始模型的各项参数进行融合，生成所述融合模型；

融合如下：

，其中，

代表专家网络的编号，

代表网络层，而

代表门网络的输出；

所述快速直行子专家初始模型由深度神经网络建模，在静态运行环境中通过强化学习算法训练得到，训练过程中设置的奖励函数中包括目标奖励Rg1、到达奖励Rr1、单步时间惩罚Rt1、总时间惩罚Re1、角速度惩罚Ra1和碰撞惩罚Rc1；根据预设条件，对快速直行子专家模型进行迭代优化训练，直至得到符合所述预设条件的快速直行子专家模型；

其中，Rg1 ＞Rg2，Rr1＞Rr2，Rc1＜Rc2；

所述对多个子专家模型初始模型和所述门网络模型进行迭代优化训练包括，在静态环境、含有高动态的多障碍物环境和含较多复杂迷宫的运行环境中，通过并行强化学习算法并行训练优化迭代；所述并行强化学习算法对应于多进程并行强化学习训练框架，强化学习训练框架包括critic网络和actor网络；

将机器人所处环境数据输入至所述导航避障模型中，输出导航指令，并将所述导航指令发送给所述机器人，所述导航指令中携带有行驶、探索及避障信息，所述行驶、探索及避障信息包括目标行驶信息、用于驶出死胡同并探索新环境的探索信息和用于躲避高动态障碍物的避障信息。

2.根据权利要求1所述的方法，其特征在于，训练过程中设置的奖励函数中含有目标奖励Rg4、到达奖励Rr4、碰撞惩罚Rc4以及探索奖励Rn4；根据预设条件和所述融合模型，对多个子专家模型初始模型和所述门网络模型进行反向梯度传播从而迭代优化，直至得到符合所述预设条件的导航避障模型；

其中，Rg4＝Rg1+Rg2，Rc4=Rc2，Rr4=Rr1，Rn4=Rn3。

3.一种基于学习和融合的导航避障方法，其特征在于，所述方法包括：

所述服务器生成所述导航指令的过程包括：

在模拟器中设置多种运行环境；

在所述模拟器中设置静态运行环境；

在所述模拟器中设置动态运行环境；以及

在所述模拟器中设置迷宫运行环境；

融合如下：

，其中，

代表专家网络的编号，

代表网络层，而

代表门网络的输出；

其中，Rg1 ＞Rg2，Rr1＞Rr2，Rc1＜Rc2；

将机器人所处环境数据输入至所述导航避障模型中，输出导航指令；

4.根据权利要求3所述的方法，其特征在于，所述目标行驶信息包括目标行驶规划路线，所述根据所述行驶、探索及避障信息进行目标行驶、探索新环境以及躲避高动态障碍物包括：

根据所述探索信息对所述新环境进行探索；

根据所述避障信息对机器人所处环境中的高动态障碍物进行避障。

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：

接收服务器发送的导航指令，所述导航指令还包括控制机器人行驶的速度信息、角速度信息和加速度信息；

根据所述导航指令中的所述速度信息、所述角速度信息和所述加速度信息，依据目标行驶规划路线行驶至目的地。

6.一种基于学习和融合的导航避障装置，其特征在于，所述装置包括：

设置模块，用于在模拟器中设置多种运行环境；

所述多种运行环境包括静态运行环境、动态运行环境和迷宫运行环境，所述设置模块具体用于：

在所述模拟器中设置静态运行环境；

在所述模拟器中设置动态运行环境；以及

在所述模拟器中设置迷宫运行环境；

所述子专家初始模型至少包括快速直行子专家初始模型、绕行避障子专家初始模型和环境探索子专家初始模型，所述训练模块具体用于：

所述生成模块具体用于：

融合如下：

，其中，

代表专家网络的编号，

代表网络层，而

代表门网络的输出；

所述优化模块具体用于：

环境探索子专家初始模型由深度神经网络建模，在含复杂迷宫的运行环境中通过强化学习算法训练得到，训练过程中设置的奖励函数中仅有探索奖励Rn3；根据预设条件，对环境探索子专家模型进行迭代优化训练，直至得到符合所述预设条件的环境探索子专家模型；其中，Rg1 ＞Rg2，Rr1＞Rr2，Rc1＜Rc2；

所述优化模块具体用于：在静态环境、含有高动态的多障碍物环境和含较多复杂迷宫的运行环境中，通过并行强化学习算法并行训练优化迭代；所述并行强化学习算法对应于多进程并行强化学习训练框架，强化学习训练框架包括critic网络和actor网络；

处理模块，用于将机器人所处环境数据输入至所述优化模块优化出的所述导航避障模型中，输出导航指令，所述导航指令中携带有行驶、探索及避障信息，所述行驶、探索及避障信息包括目标行驶信息、用于驶出死胡同并探索新环境的探索信息和用于躲避高动态障碍物的避障信息；

7.一种基于学习和融合的导航避障装置，其特征在于，所述装置包括：

所述服务器生成所述导航指令的过程包括：

在模拟器中设置多种运行环境；

在所述模拟器中设置静态运行环境；

在所述模拟器中设置动态运行环境；以及

在所述模拟器中设置迷宫运行环境；

融合如下：

，其中，

代表专家网络的编号，

代表网络层，而

代表门网络的输出；

其中，Rg1 ＞Rg2，Rr1＞Rr2，Rc1＜Rc2；

行驶避让模块，用于根据所述接收模块接收到的所述行驶、探索及避障信息进行目标行驶、探索新环境以及躲避高动态障碍物。

8.一种基于学习和融合的导航避障系统，其特征在于，所述系统包括：

权利要求6所述的基于学习和融合的导航避障装置和权利要求7所述的基于学习和融合的导航避障装置。

9.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行，以实现如权利要求1或2所述的基于学习和融合的导航避障方法，或者如权利要求3-5任一所述的基于学习和融合的导航避障方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行，以实现如权利要求1或2所述的基于学习和融合的导航避障方法，或者如权利要求3-5任一所述的基于学习和融合的导航避障方法。