CN116429137A

CN116429137A - 用于清扫装置的遍历路径生成方法及设备

Info

Publication number: CN116429137A
Application number: CN202310286809.4A
Authority: CN
Inventors: 刘海全; 高帆; 黄跃
Original assignee: Shanghai Zhierxing Technology Co ltd
Current assignee: Shanghai Zhierxing Technology Co ltd
Priority date: 2023-03-22
Filing date: 2023-03-22
Publication date: 2023-07-14

Abstract

本申请提供一种用于清扫装置的遍历路径生成方法及设备，应用于计算机智能计算及自动化清扫作业技术领域。方法包括：根据栅格地图、状态数据和运动约束，得到更新环境状态；根据遍历效果和运动约束，得到奖励数据；将更新环境状态输入策略网络，得到下一步动作和遍历路径；将移动动作、更新环境状态和奖励数据输入到动作价值网络，并将动作价值网络输出的动作价值输出到策略网络中进行训练。生成遍历路径时，将每个时刻的环境状态输入策略网络，输出下一时刻的动作，即可获取下一时刻所在栅格位置和新的环境状态，循环迭代至终止条件满足，生成遍历路径，将其转换至世界坐标系。解决现有的遍历路径生成方法难以满足复杂多样的应用场景的问题。

Description

用于清扫装置的遍历路径生成方法及设备

技术领域

本申请涉及计算机智能计算及自动化清扫作业技术领域，具体涉及一种用于清扫装置的遍历路径生成方法及设备。

背景技术

遍历清扫是清扫装置的常见功能需求，广泛存在于各类清扫装置和作业场景，如各类扫地机器人以及厂区/园区清扫车。人工遍历清扫需要消耗大量重复性人力劳动，且部分清扫作业需要在危险或有害健康的环境(如有害气体、粉尘等)下进行，以及无人化商业清扫(如家用/商用扫地机器人)的逐步流行，自动化遍历清扫功能越来越受到重视。

但是，在某些应用场景(如可变范围的室外清扫，或布置各异的多个室内清扫)中，虽然目标区域已知，但由于其多样性和复杂性，区域形状和障碍物分布不规范，目前的自动化遍历清扫基于经验和逻辑的路线生成难以满足遍历清扫区域的需求。

因此，自动化遍历清扫需要一种新的生成遍历路径的技术方案。

发明内容

有鉴于此，本说明书实施例提供一种用于清扫装置的遍历路径生成方法及设备，以解决现有技术中的遍历路径生成方法难以满足复杂多样的应用场景的问题。

本说明书实施例提供以下技术方案：

本说明书实施例提供一种用于清扫装置的遍历路径生成方法，包括：

对待遍历区域的点云地图进行栅格化处理，得到待遍历区域的栅格地图；

根据栅格地图、清扫装置的状态数据和清扫装置的运动约束，得到清扫装置执行移动动作后的更新环境状态，状态数据表征清扫装置的位置数据和姿态数据，移动动作是清扫装置执行上一步动作后得到的；

根据预设的遍历效果和运动约束，得到清扫装置执行移动动作后的奖励数据；

将更新环境状态输入策略网络，得到策略网络输出的清扫装置的下一步动作和遍历路径，以使清扫装置根据下一步动作进行移动；

将移动动作、更新环境状态和奖励数据输入到动作价值网络，得到动作价值网络输出的动作价值，并将动作价值输出到策略网络中对策略网络进行训练。

在一种优选的实施方式中，运动约束包括：完整运动约束和非完整运动约束。

在一种优选的实施方式中，栅格地图包括离线栅格地图。

在一种优选的实施方式中，根据栅格地图、清扫装置的状态数据和清扫装置的运动约束，得到清扫装置执行移动动作后的更新环境状态，包括：

根据栅格地图和清扫装置的状态数据，得到清扫装置的初始环境状态，初始环境状态表示当前时刻栅格地图中的栅格状态和清扫装置在栅格地图中的状态数据；

根据运动约束设置清扫装置的动作函数，并根据初始环境状态和动作函数，得到清扫装置执行移动动作后的更新环境状态，动作函数表征清扫装置在栅格地图中的移动数据。

在一种优选的实施方式中，根据运动约束设置清扫装置的动作函数，并根据初始环境状态和动作函数，得到清扫装置执行移动动作后的更新环境状态，包括：

根据运动约束设置清扫装置的动作函数；

根据初始环境状态和动作函数，设置清扫装置的状态转移函数，状态转移函数表征清扫装置移动之后环境状态的变化；

根据状态转移函数得到更新环境状态。

在一种优选的实施方式中，将更新环境状态输入策略网络，得到策略网络输出的清扫装置的下一步动作和遍历路径，包括：

将更新环境状态输入策略网络，生成清扫装置下一步的动作的概率分布，并根据概率分布，确定清扫装置的下一步动作，循环迭代，直到终止条件满足，得到遍历路径。

在一种优选的实施方式中，终止条件包括：

遍历路径对栅格地图的覆盖度大于第一预设阈值；

或者，

遍历路径的长度大于第二预设阈值，且覆盖度的增加量小于第三预设阈值。

在一种优选的实施方式中，还包括：

通过多张栅格地图对策略网络和动作价值网络中的参数，基于学习率进行更新，直到奖励数据的变化小于第四预设阈值。

在一种优选的实施方式中，对待遍历区域的点云地图进行栅格化处理，得到待遍历区域的栅格地图，包括：

预先采集包含潜在遍历区域的离线点云地图；

对潜在遍历区域进行区域采样，生成多个待遍历区域；

对多个待遍历区域的点云地图进行栅格化处理，得到多个待遍历区域的栅格地图。

本说明书实施例还提供一种用于清扫装置的遍历路径生成设备，包括：

栅格单元：对待遍历区域的点云地图进行栅格化处理，得到待遍历区域的栅格地图；

状态更新单元：根据栅格地图、清扫装置的状态数据和清扫装置的运动约束，得到清扫装置执行移动动作后的更新环境状态，状态数据表征清扫装置的位置数据和姿态数据，移动动作是清扫装置执行上一步动作后得到的；

奖励生成单元：根据预设的遍历效果和运动约束，得到清扫装置执行移动动作后的奖励数据；

动作生成单元：将更新环境状态输入策略网络，得到策略网络输出的清扫装置的下一步动作和遍历路径，以使清扫装置根据下一步动作进行移动；

训练单元：将移动动作、更新环境状态和奖励数据输入到动作价值网络，得到动作价值网络输出的动作价值，并将动作价值输出到策略网络中对策略网络进行训练。

本说明书实施例还提供一种电子设备，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述的用于清扫装置的遍历路径生成方法。

本说明书实施例还提供一种计算机存储介质，计算机存储介质存储有计算机可执行指令，计算机可执行指令被处理器执行时执行上述的用于清扫装置的遍历路径生成方法。

与现有技术相比，本说明书实施例采用的上述至少一个技术方案能够达到的有益效果至少包括：

通过对环境和奖励的设置，应对不同场景形状、不同障碍物分布的目标区域；

通过动作函数和奖励的设置，应用于存在运动约束的非完整运动系统(如作业车辆)等，例如在遍历过程中不能进行倒车、转向时存在转弯半径等；

使用栅格地图数据进行离线训练，获得模型后可以在实际场景中直接推理生成遍历路线、无需在线迭代计算；

可对陌生的目标区域进行遍历路径规划，如遇到已有模型难以有效完成遍历的难例目标区域，也可针对难例进行专门训练、提升模型对该目标区域的遍历性能；

可通过对模型的设置，实现不同效果的遍历路线，可兼顾遍历覆盖度、行驶里程、路线圆滑度等，并有效避免与离线地图中障碍物的碰撞；

可通过合理的模型选择，在遍历区域的增加的同时，模型进行自我迭代升级，获得更加泛化的遍历路线规划能力。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本申请实施例提供的一种用于清扫装置的遍历路径生成方法的流程示意图；

图2是本申请实施例提供的一种策略网络和动作价值网络组成的强化学习模型的结构示意图；

图3是本申请实施例提供的一种可行的动作价值网络的结构示意图；

图4是本申请实施例提供的一种可行的策略网络的结构示意图。

具体实施方式

下面结合附图对本申请实施例进行详细描述。

以下通过特定的具体实例说明本申请的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。本申请还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本申请的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

要说明的是，下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见，本文中所描述的方面可体现于广泛多种形式中，且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本申请，所属领域的技术人员应了解，本文中所描述的一个方面可与任何其它方面独立地实施，且可以各种方式组合这些方面中的两者或两者以上。举例来说，可使用本文中所阐述的任何数目和方面来实施设备及/或实践方法。另外，可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。

还需要说明的是，以下实施例中所提供的图示仅以示意方式说明本申请的基本构想，图式中仅显示与本申请中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

另外，在以下描述中，提供具体细节是为了便于透彻理解实例。然而，所属领域的技术人员将理解，可在没有这些特定细节的情况下实践。

目前，自动化遍历清扫在路径遍历方法方面已有较多研究和应用，如对环境基于人工逻辑或障碍物统计信息进行分区后执行往返规划、基于生成树的遍历规划等方法。

但是，上述方法应用在自动化遍历清扫场景中，仍有以下不足：第一，目前的路径遍历方法多基于有限区域的遍历清扫，无法灵活应对复杂多样的清扫区域设置；第二，目前的路径遍历方法多应用于完整运动系统(如可原地转向的扫地机器人)，较少考虑非完整运动系统中的运动约束(如部分轮式清扫作业车辆转向系统，无法在后退时执行有效清扫，且无法跟踪较小转弯半径的路线)；第三，目前的路径遍历方法很少采用数据驱动学习的方式进行离线模型训练，大多需要在线模型迭代计算，随着清扫场景的增多，难以对模型参数进行升级，模型能力不会虽清扫场景的增多而增强。

基于上述问题，本申请提出了一种处理方案：基于离线建立的栅格地图，考虑清扫目标与清扫装置的物理约束，使用强化学习的方法训练模型，对遍历路径进行自动化生成，以应对多类型、多范围的目标区域清扫，极大减轻人工设计清扫路线的工作，提高了清扫装置的清扫效率与智能化水平。

以下结合附图，说明本申请各实施例提供的技术方案。

图1是本申请实施例提供的一种用于清扫装置的遍历路径生成方法的流程示意图，如图1所示，本说明书实施例提供一种用于清扫装置的遍历路径生成方法，包括：

步骤S1：对待遍历区域的点云地图进行栅格化处理，得到待遍历区域的栅格地图。

在一种可选的实施方式中，对待遍历区域的点云地图进行栅格化处理，得到待遍历区域的栅格地图，包括：首先，预先采集包含潜在遍历区域的离线点云地图；然后，对潜在遍历区域进行区域采样，生成多个待遍历区域；最后，对多个待遍历区域的点云地图进行栅格化处理，得到多个待遍历区域的栅格地图。

在本说明书实施例中栅格地图包括离线栅格地图，可以通过多个离线栅格地图对本申请中使用的神经网络进行训练，对于复杂场景的离线栅格地图也可以通过本申请进行训练，并更新参数，使生成的遍历路径，可以应对不同的场景，提高清扫装置的遍历性能。

具体地，预先采集包含潜在遍历区域的大范围离线点云地图，并对其进行区域采样，生成多个待遍历区域；处理待遍历区域的点云地图，生成栅格地图。

步骤S2：根据栅格地图、清扫装置的状态数据和清扫装置的运动约束，得到清扫装置执行移动动作后的更新环境状态。

其中，清扫装置的状态数据表征清扫装置的位置数据和姿态数据，移动动作是清扫装置执行上一步动作后得到的。

在一种可选的实施方式中，清扫装置的位置数据可以表示清扫装置在栅格地图中的栅格位置的二维索引，清扫装置的姿态数据可以表示清扫装置的行驶方向，可以通过清扫装置当前时刻所在的位置与n个时刻前所在的位置的连线的向量夹角得到，其中，n表示整数。

在本申请实施例中考虑到非完整运动系统中的运动约束，运动约束包括：完整运动约束和非完整运动约束。例如，部分轮式清扫作业车辆，无法在后退时执行有效清扫，且部分轮式清扫作业车辆的转向系统无法跟踪较小转弯半径的路线。

在本申请实施例中清扫装置执行上一步动作，即移动后，得到即将执行的移动动作。清扫装置在执行任意一个动作后，所处的环境状态会发生变化，在本申请中对清扫装置所处的环境状态进行实时更新。

在一种优选的实施方式中，根据栅格地图、清扫装置的状态数据和清扫装置的运动约束，得到清扫装置执行移动动作后的更新环境状态，包括：根据栅格地图和清扫装置的状态数据，得到清扫装置的初始环境状态；根据运动约束设置清扫装置的动作函数，并根据初始环境状态和动作函数，得到清扫装置执行移动动作后的更新环境状态。

其中，初始环境状态表示当前时刻栅格地图中的栅格状态和清扫装置在栅格地图中的状态数据；动作函数表征清扫装置在栅格地图中的移动数据，即表示清扫装置在栅格地图中的移动方向和在每个移动方向上移动的距离。

在一种可选的实施方式中，根据运动约束设置清扫装置的动作函数，并根据初始环境状态和动作函数，得到清扫装置执行移动动作后的更新环境状态，包括：根据运动约束设置清扫装置的动作函数；根据初始环境状态和动作函数，设置清扫装置的状态转移函数，状态转移函数表征清扫装置移动之后环境状态的变化；根据状态转移函数得到更新环境状态。

具体地，在本申请实施例中可以通过初始环境状态和动作函数，得到清扫装置的状态转移函数，状态转移函数表示清扫装置动作之后环境状态的变化，进而可以根据初始环境状态和状态转移函数得到更新环境状态。

步骤S3：根据预设的遍历效果和运动约束，得到清扫装置执行移动动作后的奖励数据。

其中，预设的遍历效果表示根据清扫装置在待遍历区域的的遍历需求，例如，遍历路径在栅格地图中的覆盖度，或者遍历路径的长度等。

在本申请实施例中，将得到的奖励数据进行反馈，以得到清扫装置即将执行的下一步动作。

步骤S4：将更新环境状态输入策略网络，得到策略网络输出的清扫装置的下一步动作和遍历路径，以使清扫装置根据下一步动作进行移动。

在一种可选的实施方式中，将更新环境状态输入策略网络，得到策略网络输出的清扫装置的下一步动作和遍历路径，包括：将更新环境状态输入策略网络，生成清扫装置下一步的动作的概率分布，并根据概率分布，确定清扫装置的下一步动作，循环迭代，直到终止条件满足，得到遍历路径。

其中，终止条件包括：遍历路径对栅格地图的覆盖度大于第一预设阈值；或者，遍历路径的长度大于第二预设阈值，且覆盖度的增加量小于第三预设阈值。

步骤S5：将移动动作、更新环境状态和奖励数据输入到动作价值网络，得到动作价值网络输出的动作价值，并将动作价值输出到策略网络中对策略网络进行训练。

图2是本申请实施例提供的一种策略网络和动作价值网络组成的强化学习模型的结构示意图，如图2所示，在步骤S4和步骤S5中，建立基于马尔科夫决策过程的强化学习模型。根据栅格地图与清扫装置的状态数据设置初始环境状态，根据运动约束(例如，遍历路径的路线生成仅考虑向前行驶)设置清扫装置的动作函数，根据预设的遍历效果与运动约束(例如对装置设置极限转弯半径)设计奖励反馈(即奖励数据)；建立动作价值网络以评估清扫装置的各个动作，并进行评分；建立策略网络，以生成清扫装置即将执行的动作的概率分布，对该概率分布抽样后得到清扫装置即将执行的动作。清扫装置执行移动动作后，环境模块产生奖励数据和新的环境状态(即更新环境状态)，栅格地图和清扫装置的状态数据得到更新；清扫装置读取新的环境状态后，根据策略网络生成下一步动作的概率分布，从概率分布中抽样得到下一步即将执行的动作，从而继续作用于环境模块。清扫装置的动作价值网络则用于训练策略网络，根据清扫装置的动作、奖励数据和新的环境状态来给出清扫装置各个动作的评分，从而引导策略网络输出的概率分布获取较高的评分。

进一步地，在本申请实施例中还包括：通过多张栅格地图对策略网络和动作价值网络中的参数，基于学习率进行更新，直到奖励数据的变化小于第四预设阈值。

具体地，取多张栅格地图训练强化学习模型，并使用强化学习模型中的部分栅格地图进行测试，评估强化学习模型生成遍历路径的路线的遍历效果；对于待遍历区域的场景形状区别较大或障碍物分布与训练区域区别过大、引起路径遍历效果较差的待遍历区域，使用该待遍历区域对强化学习模型进行针对性训练；随着清扫场景的增多，强化学习模型的参数得到持续的复用和更新，强化学习模型对栅格地图生成遍历路径的能力得到增强。

在使用强化学习模型时，将每个时刻的环境状态输入至策略网络，输出下一时刻清扫装置的动作，即可获取下一时刻的清扫装置所在栅格位置以及新的环境状态。循环迭代至终止条件满足，即完成遍历路径的生成，可将其转换至世界坐标系。

在实际场景需要生成遍历路径时，将每个时刻的环境状态输入至强化学习模型训练得到的策略网络，输出下一时刻清扫装置的动作，即可获取下一时刻的清扫装置所在栅格位置以及新的环境状态，循环迭代至终止条件满足，即完成遍历路径的生成，可将其转换至世界坐标系。

下面以具体的实施例对本申请提供的用于清扫装置的遍历路径生成方法进行详细说明。

步骤P1：预先采集包含潜在遍历区域的大范围离线点云地图，并对其进行区域采样，生成多个待遍历区域。

步骤P2：处理待遍历区域的点云地图，生成二维栅格地图。使用二维矩阵m表示该栅格地图，对于障碍物或边界等清扫装置无法行驶的栅格设置为100，可行驶栅格设置为0。

步骤P3：建立基于马尔科夫决策过程的演员-评论家(Actor-Critic)强化学习模型，如图2所示，清扫装置执行移动动作后，环境模块产生奖励数据和新的环境状态(即更新环境状态)，栅格地图和清扫装置的状态数据得到更新；清扫装置读取新的环境状态后，根据策略网络生成下一步动作的概率分布，从概率分布中抽样得到下一步即将执行的动作，从而继续作用于环境模块。清扫装置的动作价值网络则用于训练策略网络，根据清扫装置的动作、奖励数据和新的环境状态来给出清扫装置各个动作的评分，从而引导策略网络输出的概率分布获取较高的评分。

下面对于步骤P3进行详细说明。

步骤P301：根据栅格地图与清扫装置的状态数据设置初始环境状态s_k＝(m_k,i_k,j_k,k)，其中，m_k表示当前时刻k的栅格状态，包含了已访问栅格、未访问可行驶栅格和障碍物/边界栅格，其中已访问栅格被设置为50；(i_k,j_k)表示清扫装置所在栅格位置的二维索引；h_k表示清扫装置的行驶方向，可通过清扫装置当前的所在位置和n个时刻前的所在位置连线的向量夹角所得。

步骤P302：根据运动约束设置清扫装置的动作函数，以遍历路径的路线生成仅考虑向前行驶为例，动作函数为a_k＝{a_f,a_lf,a_rf}，其中，a_f表示当前清扫装置沿行驶方向往正前方移动一个栅格，a_lf表示沿行驶方向往左前方移动一个栅格，a_rf表示行驶方向往右前方移动一个栅格。

进一步地，根据初始环境状态与清扫装置动作设置状态转移函数s_k+1＝g(s_k,a_k)以表征清扫装置动作之后环境状态的变化，其中栅格矩阵m中装置所在新位置的栅格值由0(未访问可行驶栅格)更新为0.5(已访问栅格)，(i_k,j_k)更新为装置所在的新位置(i_k+1,j_k+1)，h_k更新为新的行驶方向h_k+1。

步骤303：根据预设的遍历效果设计奖励反馈(即奖励数据)r_k＝(α₁r_p,k+β₁r_n1,k+γ₁r_n2,k)+α₂r_p,final+β₂r_n,final+γ₂r_r,final)；

其中，α1，β1，γ1，α2，β2，γ2表示权重系数；r_p,k表示当前时刻k的正向奖励，若当前时刻访问了一个未曾访问的可行驶栅格，则r_p,k为正值，反之为0；r_n1,k表示当前时刻k的负向奖励，用于评估动作的实际可执行性，若动作不可执行则r_n1,k为一个绝对值较大的负奖励：首先考虑碰撞，对{a_f,a_lf,a_rf}内每一个动作之后清扫装置所在的栅格位置，若该位置为障碍物/边界栅格，则认为该动作不可行；再考虑装置转向约束，对{a_f,a_lf,a_rf}内每一个动作之后清扫装置所在的栅格位置，连同最近p个时刻内的访问过的栅格，组成历史栅格窗口序列，将该序列中的栅格点集换算到真实世界坐标系下的二维坐标点集，并求解该点集在真实世界下的曲率。若曲率超过了清扫装置能够转向的最大曲率，则认为该动作不可行；r_n2,k表示当前时刻k的负向奖励，若当前时刻并未结束，则r_n2,k为负值，反之为0；

表示结束时刻正向奖励，表征遍历路径对可访问栅格的覆盖度，其中Count(mfinal,(i,j)＝0.5)表示结束时刻栅格矩阵内被访问过的栅格的总数；Count(m0,(i,j)＝0)表示初始时刻下栅格矩阵内未访问可行驶栅格的总数；

表示负向奖励，表征该遍历路径行驶过总行程，其中finalk表示结束时刻时装置经历的时刻数；r_r,final＝average(ck)表示路径形状奖励，表征遍历路径中包含的转向程度，其中average(ck)为路径上各点在真实世界下的曲率值；其中，i，j表示被访问的栅格(即遍历路径上的点)在二维栅格中的索引，没有具体的取值，ck表示遍历路径上各点在真实世界下的曲率值。

步骤P304：置结束时刻(即终止条件)，若下面任一终止条件满足，则认为路径生成结束：一、覆盖度已足够高，即

大于第一预设阈值，或规划路径已经足够长但覆盖度仍没有增加，即/>

大于某第二预设阈值且最近y个时刻内

的增加量小于第三预设阈值。

步骤305：设置动作价值网络，使用神经网络逼近动作价值网络。

图3是本申请实施例提供的一种可行的动作价值网络的结构示意图，如图3所示，输入为栅格地图、清扫装置在栅格地图中的状态数据(即清扫装置在栅格地图中的位置和朝向角)和清扫装置的动作，由卷积层对二维栅格地图进行特征提取与编码，由全连接层对清扫装置当前的栅格位置和朝向角进行编码，由全连接层对动作进行编码，二者拼接后由全连接层输出q值。

具体地，动作价值网络可使用例如时序差分法(TD error)，通过各的时刻q值来更新网络参数，损失函数为时序差分目标(TD target)与价值网络预测值的均方误差。

步骤P306：设置策略网络，使用神经网络逼近清扫装置的策略网络，图4是本申请实施例提供的一种可行的策略网络的结构示意图，如图4所示，输入为环境状态，包括栅格地图和清扫装置在栅格地图中的状态数据(即清扫装置在栅格地图中的位置和朝向角)，由卷积层对二维栅格地图进行特征提取与编码，由全连接层对清扫装置当前的栅格位置和朝向角进行编码，经过拼接、全连接层和归一化指数(Softmax)函数后，输出为每个动作的概率，对每个动作的概率分布进行抽样后可得到清扫装置即将要执行的动作。可以通过最大化状态价值函数，可以通过例如策略梯度上升来更新策略网络的参数。

步骤P4：取不同的栅格地图做训练数据，训练强化学习模型，对神经网络的参数进行基于学习率的更新，强化学习模型奖励值趋于稳定且人工检查合理后，保存模型并对不同栅格地图进行路线生成。在终止条件满足时，可通过模型指标(如覆盖率)判断路线的遍历效果。对于场景形状区别较大或障碍物分布于训练区域区别过大、引起路径遍历效果较差的区域，使用该区域对强化学习模型进行针对性训练和参数更新，以获得对该类场景的泛化能力。

使用强化学习模型时，将每个时刻的环境状态输入至策略网络，输出下一时刻装置的动作，即可获取下一时刻的清扫装置所在栅格位置以及新的环境状态。循环迭代至终止条件满足，即完成遍历路径的生成，可将其转换至世界坐标系。

本申请实施例中可通过对环境和奖励的设置，应对不同场景形状、不同障碍物分布的目标区域；可通过动作函数和奖励的设置，应用于存在运动约束的非完整运动系统(如作业车辆)等，例如在遍历过程中不能进行倒车、转向时存在转弯半径等；使用地图数据进行离线训练，获得强化学习模型后可以在实际场景中直接推理生成遍历路线、无需在线迭代计算；可对陌生的目标区域进行遍历路径规划，如遇到已有强化学习模型难以有效完成遍历的难例目标区域，也可针对难例进行专门训练、提升强化学习模型对该目标区域的遍历性能；可通过对强化学习模型的设置，实现不同效果的遍历路线，可兼顾遍历覆盖度、行驶里程、路线圆滑度等，并有效避免与离线地图中障碍物的碰撞；可通过合理的模型选择，在遍历区域的增加的同时，模型进行自我迭代升级，获得更加泛化的遍历路线规划能力。

本申请实施例还提供一种用于清扫装置的遍历路径生成设备，包括：

栅格单元：对待遍历区域的点云地图进行栅格化处理，得到待遍历区域的栅格地图。

状态更新单元：根据栅格地图、清扫装置的状态数据和清扫装置的运动约束，得到清扫装置执行移动动作后的更新环境状态，状态数据表征清扫装置的位置数据和姿态数据，移动动作是清扫装置执行上一步动作后得到的。

奖励生成单元：根据预设的遍历效果和运动约束，得到清扫装置执行移动动作后的奖励数据。

动作生成单元：将更新环境状态输入策略网络，得到策略网络输出的清扫装置的下一步动作和遍历路径，以使清扫装置根据下一步动作进行移动。

本申请实施例还提供一种电子设备，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述的用于清扫装置的遍历路径生成方法。

本申请实施例还提供一种计算机存储介质，计算机存储介质存储有计算机可执行指令，计算机可执行指令被处理器执行时执行上述的用于清扫装置的遍历路径生成方法。

本说明书中，各个实施例之间相同相似的部分互相参见即可，每个实施例侧重说明的都是与其他实施例的不同之处。尤其，对于后面说明的产品实施例而言，由于其与方法是对应的，描述比较简单，相关之处参见系统实施例的部分说明即可。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种用于清扫装置的遍历路径生成方法，其特征在于，包括：

对待遍历区域的点云地图进行栅格化处理，得到所述待遍历区域的栅格地图；

根据所述栅格地图、所述清扫装置的状态数据和所述清扫装置的运动约束，得到所述清扫装置执行移动动作后的更新环境状态，所述状态数据表征所述清扫装置的位置数据和姿态数据，所述移动动作是清扫装置执行上一步动作后得到的；

根据预设的遍历效果和所述运动约束，得到所述清扫装置执行移动动作后的奖励数据；

将所述更新环境状态输入策略网络，得到所述策略网络输出的所述清扫装置的下一步动作和遍历路径，以使所述清扫装置根据所述下一步动作进行移动；

将所述移动动作、所述更新环境状态和所述奖励数据输入到动作价值网络，得到所述动作价值网络输出的动作价值，并将所述动作价值输出到所述策略网络中对所述策略网络进行训练。

2.根据权利要求1所述的用于清扫装置的遍历路径生成方法，其特征在于，所述运动约束包括：完整运动约束和非完整运动约束。

3.根据权利要求1所述的用于清扫装置的遍历路径生成方法，其特征在于，所述栅格地图包括离线栅格地图。

4.根据权利要求1所述的用于清扫装置的遍历路径生成方法，其特征在于，所述根据所述栅格地图、所述清扫装置的状态数据和所述清扫装置的运动约束，得到所述清扫装置执行移动动作后的更新环境状态，包括：

根据所述栅格地图和所述清扫装置的状态数据，得到所述清扫装置的初始环境状态，所述初始环境状态表示当前时刻所述栅格地图中的栅格状态和所述清扫装置在所述栅格地图中的所述状态数据；

根据所述运动约束设置所述清扫装置的动作函数，并根据所述初始环境状态和所述动作函数，得到所述清扫装置执行移动动作后的更新环境状态，所述动作函数表征所述清扫装置在所述栅格地图中的移动数据。

5.根据权利要求4所述的用于清扫装置的遍历路径生成方法，其特征在于，所述根据所述运动约束设置所述清扫装置的动作函数，并根据所述初始环境状态和所述动作函数，得到所述清扫装置执行移动动作后的更新环境状态，包括：

根据所述运动约束设置所述清扫装置的所述动作函数；

根据所述初始环境状态和所述动作函数，设置所述清扫装置的状态转移函数，所述状态转移函数表征所述清扫装置移动之后环境状态的变化；

根据所述状态转移函数得到所述更新环境状态。

6.根据权利1所述的用于清扫装置的遍历路径生成方法，其特征在于，所述将所述更新环境状态输入策略网络，得到所述策略网络输出的所述清扫装置的下一步动作和遍历路径，包括：

将所述更新环境状态输入所述策略网络，生成所述清扫装置下一步的动作的概率分布，并根据所述概率分布，确定所述清扫装置的所述下一步动作，循环迭代，直到终止条件满足，得到所述遍历路径。

7.根据权利要求6所述的用于清扫装置的遍历路径生成方法，其特征在于，所述终止条件包括：

所述遍历路径对所述栅格地图的覆盖度大于第一预设阈值；

或者，

所述遍历路径的长度大于第二预设阈值，且所述覆盖度的增加量小于第三预设阈值。

8.根据权利要求1所述的用于清扫装置的遍历路径生成方法，其特征在于，还包括：

通过多张所述栅格地图对所述策略网络和所述动作价值网络中的参数，基于学习率进行更新，直到所述奖励数据的变化小于第四预设阈值。

9.根据权利要求1所述的用于清扫装置的遍历路径生成方法，其特征在于，所述对待遍历区域的点云地图进行栅格化处理，得到所述待遍历区域的栅格地图，包括：

预先采集包含潜在遍历区域的离线点云地图；

对所述潜在遍历区域进行区域采样，生成多个待遍历区域；

对多个所述待遍历区域的点云地图进行栅格化处理，得到多个所述待遍历区域的栅格地图。

10.一种用于清扫装置的遍历路径生成设备，其特征在于，包括：

栅格单元：对待遍历区域的点云地图进行栅格化处理，得到所述待遍历区域的栅格地图；

状态更新单元：根据所述栅格地图、所述清扫装置的状态数据和所述清扫装置的运动约束，得到所述清扫装置执行移动动作后的更新环境状态，所述状态数据表征所述清扫装置的位置数据和姿态数据，所述移动动作是清扫装置执行上一步动作后得到的；

奖励生成单元：根据预设的遍历效果和所述运动约束，得到所述清扫装置执行移动动作后的奖励数据；

动作生成单元：将所述更新环境状态输入策略网络，得到所述策略网络输出的所述清扫装置的下一步动作和遍历路径，以使所述清扫装置根据所述下一步动作进行移动；

训练单元：将所述移动动作、所述更新环境状态和所述奖励数据输入到动作价值网络，得到所述动作价值网络输出的动作价值，并将所述动作价值输出到所述策略网络中对所述策略网络进行训练。

11.一种电子设备，其特征在于，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的用于清扫装置的遍历路径生成方法。

12.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机可执行指令，所述计算机可执行指令被处理器执行时执行权利要求1-9中任一项所述的用于清扫装置的遍历路径生成方法。