CN110672101B

CN110672101B - 导航模型训练方法、装置、电子设备及存储介质

Info

Publication number: CN110672101B
Application number: CN201910896810.2A
Authority: CN
Inventors: 周昕; 杭蒙
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-09-20
Filing date: 2019-09-20
Publication date: 2021-09-28
Anticipated expiration: 2039-09-20
Also published as: CN110672101A

Abstract

本申请公开了导航模型训练方法、装置、电子设备及存储介质，涉及人工智能技术领域。具体实现方案为：获取导航模型规划的运动轨迹，运动轨迹是根据预设时间窗口的累加视角信息规划的；判断运动轨迹是否在预设时间窗口的累加视角范围内；若运动轨迹不在预设时间窗口的累加视角范围内，则针对运动轨迹生成惩罚信息；利用惩罚信息对导航模型进行优化。本申请实施例通过对规划的不在累加视角范围内的运动轨迹给出惩罚信息，使得训练得到的导航模型能够控制驱动目标自适应地通过自身运动增加短时间内的累加视角，并使得驱动目标短期内的运动轨迹处于累加视角范围内的安全区域中。

Description

导航模型训练方法、装置、电子设备及存储介质

技术领域

本申请涉及一种计算机技术领域，尤其涉及一种人工智能技术领域。

背景技术

传统的导航路径规划不受视角大小的限制，会规划出视角外的路径。例如，机器人在环境中巡航，需要躲避障碍物。机器人的视角是提供安全导航避障的重要信息。根据参考视角内的障碍物分布可以获取机器人当前可行走的安全区域范围，机器人应该始终保持在安全区域内进行运动而不应该进入障碍物区域和视角未包含的区域。因此当激光雷达或视觉传感器等感知设备的视角较小时，规划出的导航路径可能无法保障安全性。

发明内容

本申请实施例提出一种导航模型训练方法、装置、电子设备及存储介质，以至少解决现有技术中的以上技术问题。

第一方面，本申请实施例提供了一种导航模型训练方法，包括：

获取导航模型规划的运动轨迹，运动轨迹是根据预设时间窗口的累加视角信息规划的；

判断运动轨迹是否在预设时间窗口的累加视角范围内；

若运动轨迹不在预设时间窗口的累加视角范围内，则针对运动轨迹生成惩罚信息；

利用惩罚信息对导航模型进行优化。

本申请实施例中，通过对规划的不在累加视角范围内的运动轨迹给出惩罚信息，使得训练得到的导航模型能够控制驱动目标自适应地通过自身运动增加短时间内的累加视角，并使得驱动目标短期内的运动轨迹处于累加视角范围内的安全区域中。

在一种实施方式中，利用惩罚信息对导航模型进行优化之前，还包括：

判断障碍目标是否位于至少一条运动轨迹上；

若障碍目标位于至少一条运动轨迹上，则针对障碍目标所位于的运动轨迹生成惩罚信息。

本申请实施例中，通过对规划的穿越了障碍目标的运动轨迹给出惩罚信息，使得训练得到的导航模型所规划的运动轨迹避开障碍目标，以保障导航路径的安全性。

在一种实施方式中，累加视角是将预设时间窗口内的感知视角进行叠加得到的；累加视角信息是在累加视角范围内获取的感知信息。

本申请实施例中，将预设时间窗口内的感知视角进行叠加，可扩大观测角度，从而收集到更大视角范围内的信息。

在一种实施方式中，针对运动轨迹生成惩罚信息，包括：

根据运动轨迹偏离累加视角范围的程度生成惩罚值；

将惩罚值作为针对运动轨迹的惩罚信息。

本申请实施例中，可使导航模型在惩罚信息的刺激下，逐步形成对刺激的预期，产生能获得最佳效果的习惯性行为。

在一种实施方式中，利用惩罚信息对导航模型进行优化，包括：

根据惩罚信息更新导航模型的参数；

获取更新后的导航模型规划的运动轨迹；

重复执行针对运动轨迹生成惩罚信息和利用惩罚信息对导航模型进行优化的步骤；

在惩罚值小于预设阈值的情况下，确定完成导航模型的优化过程。

本申请实施例中，如果针对规划的运动轨迹生成了惩罚信息，则导航模型会根据惩罚信息更新导航模型的参数，以使得生成惩罚信息的趋势将减弱。在反复的交互作用中，以学习的方式不断更新导航模型的参数，使得惩罚值趋于最小，以达到优化系统性能目的。

第二方面，本申请实施例提供了一种导航模型训练装置，包括：

获取单元，用于获取导航模型规划的运动轨迹，运动轨迹是根据预设时间窗口的累加视角信息规划的；

判断单元，用于判断运动轨迹是否在预设时间窗口的累加视角范围内；

生成单元，用于：若运动轨迹不在预设时间窗口的累加视角范围内，则针对运动轨迹生成惩罚信息；

优化单元，用于利用惩罚信息对导航模型进行优化。

在一种实施方式中，判断单元还用于：判断障碍目标是否位于至少一条运动轨迹上；

生成单元还用于：若障碍目标位于至少一条运动轨迹上，则针对障碍目标所位于的运动轨迹生成惩罚信息。

在一种实施方式中，生成单元用于：

根据运动轨迹偏离累加视角范围的程度生成惩罚值；

将惩罚值作为针对运动轨迹的惩罚信息。

在一种实施方式中，优化单元用于：

根据惩罚信息更新导航模型的参数；

获取更新后的导航模型规划的运动轨迹；

第三方面，本申请实施例提供了一种电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本申请任意一项实施例所提供的方法。

第四方面，本申请实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使该计算机执行本申请任意一项实施例所提供的方法。

上述申请中的一个实施例具有如下优点或有益效果：通过对规划的不在累加视角范围内的运动轨迹给出惩罚信息，使得训练得到的导航模型能够控制驱动目标自适应地通过自身运动增加短时间内的累加视角，并使得驱动目标短期内的运动轨迹处于累加视角范围内的安全区域中。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请实施例的导航模型训练方法的示意图；

图2是本申请一种示例的导航模型训练方法的路径规划示意图；

图3是根据本申请实施例的导航模型训练方法的流程图；

图4是根据本申请实施例的导航模型训练方法的流程图；

图5是根据本申请实施例的导航模型训练装置结构示意图；

图6是用来实现本申请实施例的导航模型训练方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本申请1实施例的导航模型训练方法的示意图。该导航模型训练方法包括：

步骤S110，获取导航模型规划的运动轨迹，运动轨迹是根据预设时间窗口的累加视角信息规划的；

步骤S120，判断运动轨迹是否在预设时间窗口的累加视角范围内；

步骤S130，若运动轨迹不在预设时间窗口的累加视角范围内，则针对运动轨迹生成惩罚信息；

步骤S140，利用惩罚信息对导航模型进行优化。

传统的导航路径规划不受视角大小的限制。例如，传统的强化学习方法没有考虑到针对小视角进行安全性的保障，没有在训练过程中加入针对超出视角范围运动的惩罚信息。以驱动目标为机器人或无人机为例，当激光雷达或视觉传感器等感知设备的视角较小时，由于没有考虑到针对小视角进行安全性的保障，无论是否采用强化学习方法，规划出的导航路径可能都无法保障安全性。

有鉴于此，本申请实施例提供了一种基于强化学习的考虑驱动目标的视角限制的导航模型训练方法。强化学习用于描述和解决机器学习模型在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习是机器学习模型以“试错”的方式进行学习，通过与环境进行交互获得的奖赏或惩罚信息来指导行为，目标是获得最少的惩罚。强化学习中与环境进行交互获得的奖赏或惩罚信息是对产生动作的好坏做出的一种评价。例如在本申请实施例中，若规划的运动轨迹不在预设时间窗口的累加视角范围内，则针对运动轨迹生成惩罚信息，利用惩罚信息来指导后续规划运动轨迹的行为，使得后续的规划运动轨迹中避免生成惩罚信息的情况，以获得最少的惩罚。

如前述，强化学习的方法把学习看作试探评价过程。本申请实施例中，导航模型选择一个动作用于环境，环境接受该动作后状态发生变化，同时产生一个强化信号反馈给导航模型，例如惩罚信息可以作为一个强化信号。导航模型根据强化信号和环境当前状态再选择下一个动作，选择的原则是使受到惩罚的概率减小。综上，强化学习采用边获得样例边学习的方式，在获得样例之后更新导航模型的参数，利用更新的模型来指导下一步的行动，下一步的行动获得惩罚信息之后再更新模型，不断迭代重复直到模型收敛。

图2是本申请一种示例的导航模型训练方法的路径规划示意图。如图2所示，可定义一个局部地图。导航模型的驱动目标以机器人为例，以当前时刻的机器人位置姿态为坐标系原点，维护固定时间间隔前的一个历史时间点到当前时刻的距离传感器扫描过的区域占据信息。上述固定时间间隔可以预先设置，也就是维护预设时间窗口内的距离传感器扫描过的区域占据信息。例如维护从当前时刻起3秒前到当前时刻这段时间内的距离传感器扫描过的区域占据信息。图2中所示的t₁、t₂、t₃、t₄分别表示机器人在运动过程中的各个时刻，t₁、t₂、t₃、t₄对应的圆圈中点分别表示机器人在运动过程中在各个时刻的所在位置，x、y表示直角坐标系，以t₁、t₂、t₃、t₄对应的圆圈中点为圆心的扇形区域分别表示t₁、t₂、t₃、t₄对应的时刻所维护的预设时间窗口内的距离传感器扫描过的区域范围。如果预设时间窗口设置为3秒，则图2中的扇形面积表示从当前时刻起前3秒内距离传感器扫描过的区域范围。如图2所示，随着时间的推移，机器人的位置在变化，对应的扇形面积范围也随之变化。预设时间窗口也是随着时间的推移而推移的，因此，预设时间窗口也可称为滑动时间窗口。

具体地，可预设迭代次数n。例如，导航模型每0.1秒进行一次轨迹预算，发出一次控制指令。若滑动时间窗口视角的时间设置为3秒，则迭代次数n设置为30次。则最近30次预算所使用的传感器扫描过的区域占据信息就是上述示例中预设时间窗口内的距离传感器扫描过的区域占据信息，也称为预设时间窗口的累加视角信息。则将最近30次预算所使用的传感器扫描过的区域占据信息作为导航模型的输入信息，从而扩大了观测角度。

图2是在上述示例中n取值为3的情况下给出的示意图。例如，t₄为当前时刻，则t₁、t₂、t₃为t₄的历史时刻。以t₁、t₂、t₃对应的圆圈中点为圆心的扇形区域分别表示历史时刻的视角边界。以t₄对应的圆圈中点为圆心的扇形区域分别表示当前时刻的视角边界。在这个示例中，对应于t₁、t₂、t₃三个历史时刻的最近3次预算所使用的传感器扫描过的区域占据信息作为预设时间窗口的累加视角信息。可适当设置n的取值，n取值太小则累加视角不够大，n取值太大则使用长期累积的视角不一定能真实反映一些历史时刻存储的空间信息。

本申请实施例中，导航模型的输入信息是环境信息，输出信息是规划的运动轨迹，规划的运动轨迹可以是预算的短期运动轨迹。仍以驱动目标为机器人或无人机为例，输入的环境信息包括：当前时刻激光雷达、视觉传感器或距离传感器获取的环境信息，以及短时间内的累加视角信息，也就是上述示例中提到的预设时间窗口的累加视角信息。

在导航模型训练和推断过程中，把上述预设时间窗口内的视角进行叠加，得到更全视角的信息。之所以采用短期内的滑动时间窗口视角内的累加视角信息，是因为环境中的障碍目标也是在不断变化的，如行人、车辆的位置在移动，所以使用长期累积的视角不一定能真实反映一些历史时刻存储的空间信息。

在根据预设时间窗口的累加视角信息规划运动轨迹之后，在步骤S110中，获取导航模型规划的运动轨迹。在步骤S120中，判断规划的运动轨迹是否在预设时间窗口的累加视角范围内。在图2的示例中，标号1至8所示的弧线表示导航模型在t₄时刻规划的运动轨迹，{v，ω}表示运动轨迹对应的线速度和角速度指令。其中标号为3、4、5、6、7的弧线在以t₄对应的圆圈中点为圆心的扇形区域内，也就是在t₄时刻的预设时间窗口的累加视角范围内；而其中标号为1、2、8的弧线不在以t₄对应的圆圈中点为圆心的扇形区域内，也就是不在t₄时刻的预设时间窗口的累加视角范围内。

在步骤S130中，若规划的运动轨迹不在预设时间窗口的累加视角范围内，则针对运动轨迹生成惩罚信息。在图2的示例中，标号为1、2、8的弧线不在t₄时刻的预设时间窗口的累加视角范围内，则针对标号为1、2、8的弧线生成惩罚信息。在步骤S140中，利用上述惩罚信息对导航模型进行优化。

图3是根据本申请实施例的导航模型训练方法的流程图。如图3所示，在一种实施方式中，图1中的步骤S140：利用惩罚信息对导航模型进行优化之前，还包括：

步骤S150，判断障碍目标是否位于至少一条运动轨迹上；

步骤S160，若障碍目标位于至少一条运动轨迹上，则针对障碍目标所位于的运动轨迹生成惩罚信息。

在图2的示例中，标号B1、B2、B3、B4表示障碍目标，例如行人、障碍物、障碍车等。如前述，标号为3、4、5、6、7的弧线在t₄时刻的预设时间窗口的累加视角范围内。但对于其中标号为3和7的弧线，如果驱动目标按照该运动轨迹运动则会穿越了障碍目标，也就是说障碍目标位于至少一条运动轨迹上，因此针对标号为3和7的弧线生成惩罚信息。

在图2中，在t₄时刻的预设时间窗口的累加视角范围内，且除去穿越了障碍目标的运动轨迹之外，剩下的没有受到处罚的轨迹4、5、6所在的区域是当前的可行走区域。

在一种实施方式中，针对运动轨迹生成惩罚信息，包括：

根据运动轨迹偏离累加视角范围的程度生成惩罚值；

将惩罚值作为针对运动轨迹的惩罚信息。

本申请实施例中的惩罚信息可以包括对预算的运动轨迹的评价结果。例如评价预算的运动轨迹是否安全。在一个示例中，根据偏离累加视角范围的程度给出惩罚值，偏离累加视角范围越远则惩罚值越大。在图2的示例中，标号为1的弧线和标号为2的弧线都不在t₄时刻的预设时间窗口的累加视角范围内，针对标号为1和2的弧线都会生成惩罚信息。比较而言，标号为1的弧线比标号为2的弧线偏离累加视角范围更远，因此会对标号为1的弧线所生成的惩罚值会更大。根据运动轨迹偏离累加视角范围的程度不同而生成不同惩罚值，可以给模型传递一个强化信号，使模型能够通过惩罚值学习到哪类运动轨迹是会受到处罚的，让模型认识到这类运动轨迹是不安全的。而且惩罚值的大小体现了对运动轨迹的评价，通过反馈惩罚值可以让模型学习到受到惩罚的运动轨迹的危险程度的高低，进而学习到规划出安全的动轨迹的方法。

图4是根据本申请实施例的导航模型训练方法的流程图。如图4所示，在一种实施方式中，图1中的步骤S140：利用惩罚信息对导航模型进行优化，包括：

步骤S210，根据惩罚信息更新导航模型的参数；

步骤S220，获取更新后的导航模型规划的运动轨迹；

步骤S230，重复执行针对运动轨迹生成惩罚信息和利用惩罚信息对导航模型进行优化的步骤；

步骤S240，在惩罚值小于预设阈值的情况下，确定完成导航模型的优化过程。

本申请实施例中，利用惩罚信息对导航模型进行迭代优化，可包括：导航模型发出一条指令后，根据该指令规划的运动轨迹是否安全生成惩罚信息。将惩罚信息反馈给导航模型，使导航模型通过接收惩罚信息获得学习信息并更新模型参数。导航模型在发出下一条指令时可根据惩罚信息和当前的环境信息再预算出短期运动轨迹，然后重复执行针对运动轨迹生成惩罚信息和利用惩罚信息对导航模型进行优化的步骤。如此经过多次迭代对导航模型进行优化。

在训练过程中，参考预设时间窗口的累加视角范围内的障碍物分布，得到短时间内的叠加安全区域范围。限制导航模型的输出，如图2中限制导航模型的输出给机器人的速度v和角速度w指令，使得导航模型输出的下一条指令对应的运动轨迹保持在累加视角所推断出的安全区域内。如图2所示，使得预算的短期运动轨迹弧线不能超出累加视角范围也不能穿越障碍目标。如果某个预算的短期运动轨迹导致惩罚，那么导航模型在后续产生这类运动轨迹的趋势便会减弱。导航模型的目标是在每个时刻预算最佳的运动轨迹以使期望的惩罚达到最小。

其中，惩罚信息可以包括对预算的轨迹进行的评价结果，根据偏离视角范围的程度给出惩罚值。偏离视角范围越远则惩罚值越大。可利用惩罚信息对导航模型进行迭代优化，在惩罚值小于预设阈值或者多次迭代过程中(可预设次数)惩罚值为零的情况下，认为是模型收敛，也说是模型训练好了。将训练好的导航模型部署到驱动目标中，可以使得驱动目标在导航过程中倾向于探索、收集最多的短期视角信息，从而扩大观测角度和安全区域范围。训练的导航模型本身已经具备局部安全的保证，使驱动目标不会进入视角没有覆盖的不安全区域，既保证了安全性也能让驱动目标更大限度地探索周围环境信息。

综上，本申请实施例中，如果针对规划的运动轨迹生成了惩罚信息，则导航模型会根据惩罚信息更新导航模型的参数，以使得生成惩罚信息的趋势将减弱。在反复的交互作用中，以学习的方式不断更新导航模型的参数，使得惩罚值趋于最小，以达到优化系统性能目的。

图5是根据本申请实施例的导航模型训练装置结构示意图。如图5所示，本申请实施例的导航模型训练装置包括：

获取单元100，用于获取导航模型规划的运动轨迹，运动轨迹是根据预设时间窗口的累加视角信息规划的；

判断单元200，用于判断运动轨迹是否在预设时间窗口的累加视角范围内；

生成单元300，用于：若运动轨迹不在预设时间窗口的累加视角范围内，则针对运动轨迹生成惩罚信息；

优化单元400，用于利用惩罚信息对导航模型进行优化。

在一种实施方式中，判断单元200还用于：判断障碍目标是否位于至少一条运动轨迹上；

生成单元300还用于：若障碍目标位于至少一条运动轨迹上，则针对障碍目标所位于的运动轨迹生成惩罚信息。

在一种实施方式中，生成单元300用于：

根据运动轨迹偏离累加视角范围的程度生成惩罚值；

将惩罚值作为针对运动轨迹的惩罚信息。

在一种实施方式中，优化单元400用于：

根据惩罚信息更新导航模型的参数；

获取更新后的导航模型规划的运动轨迹；

本申请实施例的导航模型训练装置中的各单元的功能可以参见上述方法中的对应描述，在此不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图6所示，是根据本申请实施例的导航模型训练的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图6所示，该电子设备包括：一个或多个处理器601、存储器602，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示图形用户界面(Graphical User Interface，GUI)的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。

存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中，存储器存储有可由至少一个处理器执行的指令，以使至少一个处理器执行本申请所提供的导航模型训练的方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的导航模型训练的方法。

存储器602作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的导航模型训练的方法对应的程序指令/模块/单元(例如，附图5所示的获取单元100、判断单元200、生成单元300、优化单元400)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的导航模型训练的方法。

存储器602可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据导航模型训练方法的电子设备的使用所创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器602可选包括相对于处理器601远程设置的存储器，这些远程存储器可以通过网络连接至导航模型训练方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

导航模型训练方法的电子设备还可以包括：输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接，图6中以通过总线连接为例。

输入装置603可接收输入的数字或字符信息，以及产生与导航模型训练方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(Liquid Crystal Display，LCD)、发光二极管(Light EmittingDiode，LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用集成电路(Application Specific Integrated Circuits，ASIC)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(programmable logic device，PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(Cathode Ray Tube，阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(Local Area Network，LAN)、广域网(Wide Area Network，WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，通过对规划的不在累加视角范围内的运动轨迹给出惩罚信息，使得训练得到的导航模型能够控制驱动目标自适应地通过自身运动增加短时间内的累加视角，并使得驱动目标短期内的运动轨迹处于累加视角范围内的安全区域中。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种导航模型训练方法，其特征在于，包括：

获取导航模型规划的运动轨迹，所述运动轨迹是根据在预设时间窗口的累加视角范围内所获取到的感知信息规划的，所述累加视角是所述预设时间窗口内的感知视角进行叠加得到的；

判断所述运动轨迹是否在所述预设时间窗口的累加视角范围内；

若所述运动轨迹不在所述预设时间窗口的累加视角范围内，则针对所述运动轨迹生成惩罚信息；

利用所述惩罚信息对所述导航模型进行优化。

2.根据权利要求1所述的方法，其特征在于，利用所述惩罚信息对所述导航模型进行优化之前，还包括：

在所述累加视角范围内检测障碍目标，判断所述障碍目标是否位于至少一条所述运动轨迹上；

若所述障碍目标位于至少一条所述运动轨迹上，则针对所述障碍目标所位于的运动轨迹生成惩罚信息。

3.根据权利要求1或2所述的方法，其特征在于，针对所述运动轨迹生成惩罚信息，包括：

根据所述运动轨迹偏离所述累加视角范围的程度生成惩罚值；

将所述惩罚值作为针对所述运动轨迹的惩罚信息。

4.根据权利要求3所述的方法，其特征在于，利用所述惩罚信息对所述导航模型进行优化，包括：

根据所述惩罚信息更新所述导航模型的参数；

获取更新后的导航模型规划的运动轨迹；

重复执行针对所述运动轨迹生成惩罚信息和利用所述惩罚信息对所述导航模型进行优化的步骤；

在所述惩罚值小于预设阈值的情况下，确定完成所述导航模型的优化过程。

5.一种导航模型训练装置，其特征在于，包括：

获取单元，用于获取导航模型规划的运动轨迹，所述运动轨迹是根据在预设时间窗口的累加视角范围内所获取到的感知信息规划的，所述累加视角是所述预设时间窗口内的感知视角进行叠加得到的；

判断单元，用于判断所述运动轨迹是否在所述预设时间窗口的累加视角范围内；

生成单元，用于：若所述运动轨迹不在所述预设时间窗口的累加视角范围内，则针对所述运动轨迹生成惩罚信息；

优化单元，用于利用所述惩罚信息对所述导航模型进行优化。

6.根据权利要求5所述的装置，其特征在于，

所述判断单元还用于：在所述累加视角范围内检测障碍目标，判断所述障碍目标是否位于至少一条所述运动轨迹上；

所述生成单元还用于：若所述障碍目标位于至少一条所述运动轨迹上，则针对所述障碍目标所位于的运动轨迹生成惩罚信息。

7.根据权利要求5或6所述的装置，其特征在于，所述生成单元用于：

将所述惩罚值作为针对所述运动轨迹的惩罚信息。

8.根据权利要求7所述的装置，其特征在于，所述优化单元用于：

根据所述惩罚信息更新所述导航模型的参数；

获取更新后的导航模型规划的运动轨迹；

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-4中任一项所述的方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-4中任一项所述的方法。