CN112237403A

CN112237403A - 用于清扫设备的覆盖路径生成方法和清扫设备

Info

Publication number: CN112237403A
Application number: CN202010930444.0A
Authority: CN
Inventors: 徐一新
Original assignee: Anker Innovations Co Ltd
Current assignee: Anker Innovations Co Ltd
Priority date: 2020-09-07
Filing date: 2020-09-07
Publication date: 2021-01-19
Anticipated expiration: 2040-09-07
Also published as: CN112237403B

Abstract

本申请提供一种用于清扫设备的覆盖路径生成方法和清扫设备，该方法包括：获取待清扫区域的地图信息和清扫设备的初始信息；基于地图信息和初始信息得到清扫状态集合；基于预定义的奖励机制和初始行动策略计算每个清扫状态的奖励值，基于奖励值优化初始行动策略得到新的行动策略，并基于新的行动策略重新计算每个清扫状态的奖励值，如此迭代，直到每个清扫状态的奖励值相对于上一次迭代时的奖励值的变化小于给定阈值，则迭代结束而得到最优行动策略；基于最优行动策略生成覆盖路径，以用于由清扫设备基于覆盖路径在待清扫区域进行清扫。本申请能够实现清扫设备的高效率和高可靠性清扫。

Description

用于清扫设备的覆盖路径生成方法和清扫设备

技术领域

本申请涉及自动清扫设备技术领域，更具体地涉及一种用于清扫设备的覆盖路径生成方法和清扫设备。

背景技术

现有的自动清扫设备(诸如扫地机器人，简称为扫地机)按其路径规划方式可以分为随机式和规划式。与随机式扫地机无路径规划相比，规划式扫地机通过采用额外的传感器如激光雷达或图像传感器等来构建房间地图，提前规划清扫路径，从而可以极大节省清扫时间，提高清扫效率及覆盖率，因而规划式扫地机逐渐成为扫地机的主流。

现有的规划式扫地机在获取了房间的地图信息之后，一般需要对房间进行区域划分，然后在每个划分的区域内进行弓字形清扫。现有的覆盖路径(一般为弓字形路径)生成方式一般包括两种，方式一是：将待规划清扫区域(除去障碍物)分割成多个凸多边形区域，在每个小分割区域生成简单的弓字形路径，最后用最短路径将每个小分割区域连接起来，这样就生成了待清扫区域的覆盖路径。方式二是：扫地机沿着某个固定的方向一直前进，直到检测到运动前方有障碍物，此时清扫设备平移一个机身并掉头，检查前方是否被覆盖过，如果否，则沿着反方向继续刚才的动作，否则如果发现附近的区域都已经被覆盖过，则导航至最近一个未覆盖的区域，重复前述的覆盖过程，直至所有待清扫区域都覆盖完成。

然而，上述方式多采用启发式的方法，带有一定的主观性，没有一定的客观准则评价生成的覆盖路径效果，如覆盖率，重复率等。此外，对于上述方式一，当障碍物较多时，其覆盖路径生成方式计算时间会显著提高，同时清扫效率也会显著降低，因为需将待清扫区域分割成更多的凸多边形区域，在区域相邻的地方存在重复覆盖，并且区域变多，在不同的区域之间导航也会影响清扫效率。对于上述方式二，当障碍物较多时，也存在清扫效率显著降低的问题，因为清扫设备将时间浪费在反复碰到障碍物并掉头，以及需要在大量的不同小区域之间来回导航；另外一个缺点是，覆盖路径与初始方向的选取有关，当初始方向选取不当时，掉头次数过多同样会影响清扫效率。

发明内容

为了解决上述问题中的至少一个而提出了本申请。根据本申请一方面，提供了一种用于清扫设备的覆盖路径生成方法，所述方法包括：获取待清扫区域的地图信息和清扫设备的初始信息，所述初始信息包括所述清扫设备的初始位置信息和姿态信息；基于所述地图信息和所述初始信息得到清扫状态集合，所述清扫状态集合中的每个清扫状态反映在一个时刻所述待清扫区域的被清扫状况以及所述清扫设备的状况；基于预定义的奖励机制和初始行动策略计算所述每个清扫状态的奖励值，基于所述奖励值优化所述初始行动策略得到新的行动策略，并基于所述新的行动策略重新计算所述每个清扫状态的奖励值，如此迭代，直到所述每个清扫状态的奖励值相对于上一次迭代时的奖励值的变化小于给定阈值，则迭代结束而得到最优行动策略；基于所述最优行动策略生成覆盖路径，以用于由所述清扫设备基于所述覆盖路径在所述待清扫区域进行清扫。

根据本申请另一方面，提供了一种清扫设备，所述清扫设备包括传感器模块、运算模块、运动模块和清扫模块，其中：所述传感器模块用于采集待清扫区域的地图信息和所述清扫设备的初始信息，所述初始信息包括所述清扫设备的初始位置信息和姿态信息；所述运算模块用于：基于所述地图信息和所述初始信息得到清扫状态集合，所述清扫状态集合中的每个清扫状态反映在一个时刻所述待清扫区域的被清扫状况以及所述清扫设备的状况；基于预定义的奖励机制和初始行动策略计算所述每个清扫状态的奖励值，基于所述奖励值优化所述初始行动策略得到新的行动策略，并基于所述新的行动策略重新计算所述每个清扫状态的奖励值，如此迭代，直到所述每个清扫状态的奖励值相对于上一次迭代时的奖励值的变化小于给定阈值，则迭代结束而得到最优行动策略；基于所述最优行动策略生成覆盖路径，并基于所述覆盖路径控制所述运动模块和清扫模块，以由所述清扫设备基于所述覆盖路径在所述待清扫区域进行清扫。

在本申请的一个实施例中，所述预定义的奖励机制基于提高清扫效率和/或减少重复清扫的清扫原则定义了所述清扫设备的预设行动集合中每个行动的奖励值；并且每个清扫状态的奖励值基于与该清扫状态相关联的行动状态的奖励值而确定，其中与该清扫状态相关联的行动状态是指在该清扫状态下执行所述预设行动集合中的行动后达到的清扫状态，每个行动状态的奖励值基于该行动的奖励值以及该行动执行后达到的清扫状态的奖励值而确定。

在本申请的一个实施例中，每个行动状态的奖励值为该行动的奖励值与该行动执行后达到的清扫状态的奖励值之和，每个清扫状态的奖励值等于与该清扫状态相关联的行动状态的奖励值的线性组合，组合系数为行动策略决定的相应行动的概率。

在本申请的一个实施例中，每个清扫状态的奖励值等于与该清扫状态相关联的行动状态的奖励值的期望。

在本申请的一个实施例中，所述预设行动集合中每个行动的初始概率分布为均匀分布。

在本申请的一个实施例中，所述地图信息包括与所述待清扫区域对应的二维栅格，所述二维栅格中的每个栅格具有相应的标签值，所述每个栅格的标签值指示该栅格对应的区域是否有障碍物或者指示所述清扫设备是否已访问过该栅格对应的区域，所述预设行动集合中至少一个行动的奖励值与执行该行动后到达的栅格的标签值相关。

在本申请的一个实施例中，每个清扫状态包括在一个时刻所述二维栅格中每个栅格的标签值、所述清扫设备在该时刻所处的栅格的位置以及所述清扫设备在该时刻的朝向。

在本申请的一个实施例中，所述预设行动集合包括停止、前进、左转和右转，停止对应的奖励值为零，左转和右转对应的奖励值均为负数，前进对应的奖励值基于前进后到达的栅格的标签值而确定。

在本申请的一个实施例中，当前进后到达的栅格的标签值表示该栅格对应的区域无障碍物且尚未被清扫设备访问过时，前进对应的奖励值为正数；当前进后到达的栅格的标签值表示该栅格对应的区域有障碍物或无障碍物但已被清扫设备访问过时，前进对应的奖励值为负数。

在本申请的一个实施例中，所述最优行动策略的计算基于以下算法中的任一项：蒙特卡罗算法、时间差分算法以及深度强化学习算法。

根据本申请再一方面，提供了一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序在运行时执行上述用于清扫设备的覆盖路径生成方法。

根据本申请实施例的用于清扫设备的覆盖路径生成方法和清扫设备基于奖励机制反映覆盖路径的评价指标，并基于此而在待清扫区域不断优化覆盖路径，使得最终生成的覆盖路径的评价指标达到最优化，从而实现清扫设备的高效率和高可靠性清扫。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出根据本申请实施例的用于清扫设备的覆盖路径生成方法的示意性流程图。

图2示出根据本申请实施例的用于清扫设备的覆盖路径生成方法中获取的地图信息的示例性示意图。

图3示出根据本申请实施例的用于清扫设备的覆盖路径生成方法中清扫状态的转移的示例性示意图。

图4示出根据本申请实施例的用于清扫设备的覆盖路径生成方法中一个清扫状态以及与该清扫状态相关联的行动状态的示意图。

图5示出根据本申请实施例的清扫设备的示意性框图。

具体实施方式

为了使得本申请的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。基于本申请中描述的本申请实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本申请的保护范围之内。

首先，参照图1来描述根据本申请实施例的用于清扫设备的覆盖路径生成方法。图1示出了根据本申请实施例的用于清扫设备的覆盖路径生成方法100的示意性流程图。如图1所示，根据本申请实施例的用于清扫设备的覆盖路径生成方法100可以包括如下步骤：

在步骤S110，获取待清扫区域的地图信息和清扫设备的初始信息，所述初始信息包括所述清扫设备的初始位置信息和姿态信息。

在本申请的实施例中，可以基于清扫设备的传感器模块来采集待清扫区域的地图信息和清扫设备的初始信息，所述初始信息包括所述清扫设备的初始位置信息和姿态信息。其中，清扫设备的传感器模块可以包括同时定位与建图(simultaneous localizationand mapping，简称为SLAM)模块，该模块可以基于激光雷达或视觉传感器，以及里程计、惯性导航模块等辅助传感器，结合SLAM算法，生成待清扫区域的环境地图(即地图信息)，同时实时输出清扫设备在环境中的位置和姿态(即位姿信息)。

在本申请的实施例中，待清扫区域的地图信息可以包括与待清扫区域对应的二维栅格，该二维栅格将待清扫区域划分为若干区域，每个区域对应于二维栅格中的一个栅格。示例性地，每个栅格可以是矩形栅格，诸如正方形栅格，或者也可以是其他合适形状的栅格。在本申请的实施例中，可以对每个栅格赋予标签值，每个栅格的标签值可以指示该栅格对应的区域是否有障碍物或者指示清扫设备是否已访问(清扫)过该栅格对应的区域。

可以结合图2来理解根据本申请实施例的用于清扫设备的覆盖路径生成方法100中获取的地图信息。图2示出了根据本申请实施例的用于清扫设备的覆盖路径生成方法中获取的地图信息的示例性示意图。在该示例中，如图2所示，待清扫区域被映射为二维栅格，该二维栅格中的每个栅格具有标签值1、0或-1，其中标签值1表示该栅格对应的区域有障碍物，标签值0表示该栅格对应的区域没有障碍物且尚未被清扫设备访问过，标签值-1表示该栅格对应的区域没有障碍物且已被清扫设备访问过。在图2所示的示例中，将待清扫区域分为12个区域，分别对应12个栅格，分别为S1到S12，其中栅格S2、栅格S8和栅格S9对应的区域包含障碍物(标签值均为1)，栅格S1对应的区域已被访问过(标签值为-1，清扫设备初始位置在该位置处，)，其他栅格对应的区域未被访问过(标签值为0)。应理解，这仅是示例性的，在实际应用中，可以将待清扫区域分为任意数量的区域。

在图2所示的示例中，由于没有障碍物的栅格对应的区域可以被清扫，因此清扫设备会访问这样的栅格对应的区域，随着清扫设备移动到某个没有障碍物的、且清扫设备尚未访问过的区域(尚未被清扫的区域)，与该区域对应的栅格的标签值从0变为-1，该标签值-1即指示在该栅格对应的区域已被清扫设备访问过。因此，基于具有标签值的栅格地图，可以反映在不同时刻整个待清扫区域的被清扫状况(包含障碍物无法被清扫的区域对应的栅格的标签值为1，不包含障碍物但尚未被清扫过的区域对应的栅格的标签值为0，不包含障碍物且已被清扫过的区域对应的栅格的标签值为-1)，以用于后续步骤中将描述的行动策略的优化。对于有障碍物的区域对应的栅格，由于其无法被清扫，因此其标签值将一直保持不变，除非该障碍物实时发生了移动，这可以从实时更新的地图信息中得到反映。

在本申请的实施例中，前述的栅格地图可以称为是待清扫区域的区域状态(或者称为房间状态)，其例如可以是M*N的矩阵，矩阵元素为1、0或-1。在本申请的实施例中，可以将清扫设备的位置信息表示为(x,y)，其中x和y分别表示在栅格地图中的横纵坐标，坐标原点可以是预先定义的，例如栅格地图左下角为原点(0,0)，向右向上为正。相应地，可以将清扫设备的姿态信息(即朝向)表示为在栅格地图上向上、向下、向左、向右。或者，也可以以更丰富的姿态信息表示，这可以与后文将描述的预设行动集合中的行动方向相关。

应理解，上述结合图2所述仅是示例性的，根据本申请实施例的用于清扫设备的覆盖路径生成方法中获取的地图信息也可以是其他形式的地图信息。现在返回参考图1，描述根据本申请实施例的用于清扫设备的覆盖路径生成方法的后续步骤。

在步骤S120，基于所述地图信息和所述初始信息得到清扫状态集合，所述清扫状态集合中的每个清扫状态反映在一个时刻所述待清扫区域的被清扫状况以及所述清扫设备的状况。

在本申请的实施例中，基于在步骤S110所获取的待清扫区域的地图信息和清扫设备的初始信息(初始位姿信息)，可以得到清扫状态集合，其中每个清扫状态可以反映在一个时刻所述待清扫区域的被清扫状况以及所述清扫设备的状况。其中，被清扫状况可以包括已被清扫、未被清扫、是障碍物无法清扫这三种可能，清扫设备的位置信息可以表示为二维坐标，清扫设备的姿态信息可以表示为清扫设备的朝向。即，每个清扫状态可以是一个有序对，即表示为：(房间状态，当前位置，当前朝向)。因此，清扫状态集合为所述待清扫区域的被清扫状况的穷举状况以及所述清扫设备的状况(包括位置信息和姿态信息)的穷举状况的集合。

基于所得到的清扫状态集合，可以进行如下将描述的后续操作。

在步骤S130，基于预定义的奖励机制和初始行动策略计算所述每个清扫状态的奖励值，基于所述奖励值优化所述初始行动策略得到新的行动策略，并基于所述新的行动策略重新计算所述每个清扫状态的奖励值，如此迭代，直到每个清扫状态的奖励值相对于上一次迭代时的奖励值的变化小于给定阈值，则迭代结束而得到最优行动策略。

在本申请的实施例中，基于预定义的奖励机制和初始行动策略，可以计算前述清扫状态集合中每个清扫状态的奖励值。其中，对于任意一个清扫状态，清扫设备都有一个可能的行动集合，该行动集合中每一个行动执行后，可进入新的清扫状态。该行动集合中各行动的概率分布即为行动策略。也就是说，行动策略是指从一个清扫状态变为其他清扫状态可采取的各行动的概率分布。在初始的清扫状态(待清扫区域的栅格地图+清扫设备的初始位置+清扫设备的初始朝向)下，初始行动策略中各行动的概率分布可以是均匀分布，即从一个清扫状态变为其他清扫状态采用的各行动的概率相等。下面举例来描述。

具体地，可以根据在步骤S110所获取的地图信息确定清扫设备可能采取的行动。例如，接着图2的示例，地图信息为二维正方形栅格，则当清扫设备位于其中一个栅格时，其可能的运动方向可以包括前方、后方、左方、右方、右前方、右后方、左前方以及左后方，向这样的运动方向移动后对应的栅格即为其上方、下方、左方、右方、右上方、右下方、左上方以及左下方的栅格。相应地，可以根据这样的运动方向定义清扫设备可能的行动集合，例如该行动集合可以包括：停止、前进、后退、左转以及右转。在本申请的一个示例中，为了简洁，将清扫设备可能的运动方向定义为包括前方、后方、左方和右方，将清扫设备的行动集合定义为包括停止、前进、左转和右转。在该示例中，行动集合不包括后退，是考虑到清扫设备尽量朝一个方向运动而避免重复清扫。

在清扫设备采取上述行动时，清扫状态将发生转移，即从一个清扫状态转移至另一个清扫状态，下面结合图3来描述。

如图3所示，假定初始条件下(清扫设备刚进入待清扫区域)具有清扫状态310，即栅格S1到S12中栅格S2、栅格S8和栅格S9对应的区域包含障碍物(标签值均为1)，清扫设备目前位于栅格S1(栅格S1已被访问过，标签值为-1)，清扫设备的位置坐标为(0,0)，清扫设备朝向为向上。基于此，假定清扫设备采取的第一行动是前进，则从清扫状态310转移至清扫状态320，该清扫状态320与清扫状态310相比，栅格S5的标签值发生了变化，从0变为-1，表示栅格S5对应的区域已被清扫设备访问，此时清扫设备的位置坐标为(0,1)，清扫设备朝向为向上。接着，假定清扫设备采取的第二行动是右转，则从清扫状态320转移至清扫状态330，该清扫状态330与清扫状态320相比，各栅格的标签值不变，清扫设备的位置坐标也不变，但清扫设备的朝向变为向右。以此类推，上述过程即为清扫状态的转移。

如前所述的，在本申请的实施例中，在上述预设行动集合中，每个时刻，清扫设备采取行动集合中每个行动可以是有一定概率的。在初始化时，清扫设备从一个清扫状态转移为其他清扫状态所采取的各行动的概率可以是相等的，即行动概率可定义为均匀分布，在上述的示例中，即清扫设备选择停止、前进、左转和右转的概率可以各为1/4。

基于初始行动策略，可根据预定义的奖励机制计算步骤S120中得到的清扫状态集合中每个清扫状态的奖励值，将各清扫状态的奖励值最大化，即可获得最优的行动策略，该最优的行动策略可表示对于每个清扫状态应具体采用哪个行动(即该行动的概率为1)来进入下一清扫状态，如此便可生成清扫设备的覆盖路径。

在本申请的实施例中，预定义的奖励机制是为了提高清扫效率和/或减少重复清扫为目的而定义的，即该预定义的奖励机制可以基于提高清扫效率和/或减少重复清扫的清扫原则预先定义清扫设备的预设行动集合中每个行动的奖励值。在前述的示例中，清扫设备的预设行动集合可以包括停止、前进、左转和右转。相应地，在一个示例中，预定义的奖励机制可以定义停止对应的奖励值为0，左转对应的奖励值为负数(例如-5)，右转对应的奖励值为负数(例如-5)，前进对应的奖励值基于前进后到达的栅格的标签值而确定。例如，当前进后到达的栅格的标签值为零时，前进对应的奖励值为正数(例如奖励值为10)；当前进后到达的栅格的标签值为-1时，前进对应的奖励值为负数(例如奖励值为-10)；当前进后到达的栅格的标签值为1时，前进对应的奖励值为负数(例如奖励值为-20)。该示例中的奖励机制反映了这样的目的：保证清扫设备尽可能减少转弯次数(奖励为负)，尽可能减少重复清扫(奖励为负)，不要前进到障碍物区域(奖励为负)，尽可能覆盖所有的未清扫区域(未清扫栅格奖励为正)。当然，该奖励机制是示例性的，还可以根据其他需求来设置奖励机制。

基于该奖励机制定义的清扫设备的预设行动集合中每个行动的奖励值，可以计算每个清扫状态的奖励值。对于每个清扫状态，清扫设备都有一个可能的行动集合，每一个行动结束，清扫设备进入新的状态，在本申请的实施例中，每个清扫状态的奖励值基于与该清扫状态相关联的行动状态的奖励值而确定，其中与该清扫状态相关联的行动状态是指在该清扫状态下执行所述预设行动集合中的行动后达到的其他清扫状态。具体地，每个行动状态的奖励值可以等于该行动的奖励值与执行该行动后达到的清扫状态的奖励值之和，每个清扫状态的奖励值可以为与该清扫状态相关联的行动状态的奖励值的期望，概率分布由各行动的概率分布决定。这样，清扫状态的奖励值是以递归的形式定义的，即每个清扫状态的奖励值为与该状态相关联的行动状态的奖励值的线性组合，组合系数为行动策略(最初是初始行动策略，之后不断优化得到新的行动策略)决定当前状态下采取每个行动的概率。下面结合图4来描述本申请实施例的用于清扫设备的覆盖路径生成方法中一个清扫状态以及与该清扫状态相关联的行动状态。

如图4所示，假定初始清扫状态为清扫状态410，在该清扫状态下，假定预设行动集合包括前进、左转、右转和停止，则：如果执行前进的操作，则清扫状态变为清扫状态420；如果执行左转的操作，则清扫状态变为清扫状态430；如果执行右转的操作，则清扫状态变为清扫状态440；如果执行停止的操作，则清扫状态变为清扫状态450，清扫状态450与清扫状态410是相同的清扫状态。基于此，清扫状态420、清扫状态430、清扫状态440和清扫状态450即为与清扫状态410相关联的行动状态，这些行动状态各自的奖励值可以分别可以基于达到这些行动状态要采用的行动的奖励值以及该行动执行后达到的清扫状态的奖励值确定。在一个示例中，每个行动状态的奖励值可以为该行动的奖励值与该行动执行后达到的清扫状态的奖励值之和，每个清扫状态的奖励值等于与该清扫状态相关联的行动状态的奖励值的线性组合(例如期望)，组合系数为行动策略决定的相应行动的概率。

现在继续参考图4，根据前述奖励机制对行动奖励值的定义，从清扫状态410变为清扫状态420要采取的行动为前进，对应的奖励值为10；从清扫状态410变为清扫状态430要采取的行动为左转，对应的奖励值为-5；从清扫状态410变为清扫状态440要采取的行动为右转，对应的奖励值为-5；从清扫状态410变为清扫状态450要采取的行动为停止，对应的奖励值为0。假定清扫状态410到清扫状态450各自的奖励值设为x1、x2、x3、x4和x5，则清扫状态410的奖励值x1可以表示为：x1＝a*(x2+10)+b*[x3+(-5)]+c*[x4+(-5)]+d*[x5+(0)]，其中a、b、c和d为系数，即各行动的概率值，在初始行动策略下，a、b、c和d可以相等，均为1/4；(x2+10)、[x3+(-5)]、[x4+(-5)]以及[x5+(0)]分别为与该清扫状态410相关联的四个行动状态各自的奖励值。

通过结合图4描述的示例可知，在本申请的实施例中，每个清扫状态的奖励值的定义是以递归形式定义的，每个清扫状态的奖励值的计算可以看成是求解线性方程组。基于初始行动策略所对应的各清扫状态的奖励值，可以以使每个清扫状态的奖励值最大化为目标，采用迭代的方法生成改进的新的行动策略(即从一个清扫状态变为其他清扫状态可采取的各行动的概率分布得到了优化)，而新的行动策略又可用于计算每个清扫状态的新的奖励值，从而再次优化行动策略得到新的行动策略，如此迭代，直到所述每个清扫状态的奖励值相对于上一次迭代时的奖励值的变化小于给定阈值，则迭代结束，此时的行动策略即为最优的行动策略。如前所述的，该最优的行动策略可表示对于每个清扫状态应具体采用哪个行动(即该行动的概率为1)来进入下一清扫状态，如此便可生成清扫设备的覆盖路径。

在本申请的实施例中，清扫设备开始时处于初始状态，下一时刻的行动可以选为所有可选行动中行动状态奖励值的最大值所对应的行动，因此，只要计算出了每个清扫状态的最优奖励值，则可以根据最优奖励值生成最优行动策略。

在本申请的实施例中，当清扫状态非常多时，对应的线性方程组的计算较为复杂，可以采用简洁的方法来求解最优化的行动策略，诸如采用蒙特卡罗算法、时间差分算法或深度强化学习(DQN)算法等。这样可以减少计算复杂度，进而减少清扫设备的成本。

现在返回参考图1，继续描述根据本申请实施例的用于清扫设备的覆盖路径生成方法的后续步骤。

在步骤S140，基于所述最优行动策略生成覆盖路径，以用于由所述清扫设备基于所述覆盖路径在所述待清扫区域进行清扫。

在本申请的实施例中，基于步骤S130所获取的最优行动策略，可以相应地生成覆盖路径。具体地，基于最优行动策略可以确定待清扫区域中对应的地图中各栅格被清扫的顺序，基于该顺序可以生成相应的路径，清扫设备基于该路径对待清扫区域进行清扫，可以实现高效率的清扫工作。

基于上面的描述，根据本申请实施例的用于清扫设备的覆盖路径生成方法基于奖励机制反映覆盖路径的评价指标，并基于此而在待清扫区域不断优化覆盖路径，使得最终生成的覆盖路径的评价指标达到最优化，从而实现清扫设备的高效率和高可靠性清扫。此外，根据本申请实施例的用于清扫设备的覆盖路径生成方法在障碍物较多时，仍然能够保证优化的清扫效率。进一步地，根据本申请实施例的用于清扫设备的覆盖路径生成方法不需要选取初始方向。

以上示例性地示出了根据本申请实施例的用于清扫设备的覆盖路径生成方法。下面结合图5描述根据本申请另一方面提供的清扫设备。图5示出了根据本申请实施例的清扫设备500的示意性结构框图。如图5所示，清扫设备500包括传感器模块510、运算模块520、运动模块530和清扫模块540，其中：传感器模块510用于采集待清扫区域的地图信息和所述清扫设备的初始信息，所述初始信息包括所述清扫设备的初始位置信息和姿态信息；运算模块520用于：基于所述地图信息和所述初始信息得到清扫状态集合，所述清扫状态集合中的每个清扫状态反映在一个时刻所述待清扫区域的被清扫状况以及所述清扫设备的状况；基于预定义的奖励机制和初始行动策略计算所述每个清扫状态的奖励值，基于所述奖励值优化所述初始行动策略得到新的行动策略，并基于所述新的行动策略重新计算所述每个清扫状态的奖励值，如此迭代，直到所述每个清扫状态的奖励值相对于上一次迭代时的奖励值的变化小于给定阈值，则迭代结束而得到最优行动策略；基于所述最优行动策略生成覆盖路径，并基于所述覆盖路径控制所述运动模块530和清扫模块540，以由所述清扫设备基于所述覆盖路径在所述待清扫区域进行清扫。根据本申请实施例的清扫设备500可以用于执行上文所述的根据本申请实施例的用于清扫设备的覆盖路径生成方法100。本领域技术人员可以参照前文结合图1到图4的描述理解清扫设备500的具体操作，为了简洁，此处仅描述各模块的主要功能，对于具体的细节不再赘述。

在本申请的实施例中，所述预定义的奖励机制基于提高清扫效率和/或减少重复清扫的清扫原则定义了所述清扫设备的预设行动集合中每个行动的奖励值；并且每个清扫状态的奖励值基于与该清扫状态相关联的行动状态的奖励值而确定，其中与该清扫状态相关联的行动状态是指在该清扫状态下执行所述预设行动集合中的行动后达到的清扫状态，每个行动状态的奖励值基于该行动的奖励值以及该行动执行后达到的清扫状态的奖励值而确定。

在本申请的实施例中，每个行动状态的奖励值为该行动的奖励值与该行动执行后达到的清扫状态的奖励值之和，每个清扫状态的奖励值等于与该清扫状态相关联的行动状态的奖励值的线性组合，组合系数为行动策略决定的相应行动的概率。

在本申请的实施例中，每个清扫状态的奖励值等于与该清扫状态相关联的行动状态的奖励值的期望。

在本申请的实施例中，所述预设行动集合中每个行动的初始概率分布为均匀分布。

在本申请的实施例中，所述地图信息包括与所述待清扫区域对应的二维栅格，所述二维栅格中的每个栅格具有相应的标签值，所述每个栅格的标签值指示该栅格对应的区域是否有障碍物或者指示所述清扫设备是否已访问过该栅格对应的区域，所述预设行动集合中至少一个行动的奖励值与执行该行动后到达的栅格的标签值相关。

在本申请的实施例中，每个清扫状态包括在一个时刻所述二维栅格中每个栅格的标签值、所述清扫设备在该时刻所处的栅格的位置以及所述清扫设备在该时刻的朝向。

在本申请的实施例中，所述预设行动集合包括停止、前进、左转和右转，停止对应的奖励值为零，左转和右转对应的奖励值均为负数，前进对应的奖励值基于前进后到达的栅格的标签值而确定。

在本申请的实施例中，当前进后到达的栅格的标签值表示该栅格对应的区域无障碍物且尚未被清扫设备访问过时，前进对应的奖励值为正数；当前进后到达的栅格的标签值表示该栅格对应的区域有障碍物或无障碍物但已被清扫设备访问过时，前进对应的奖励值为负数。

在本申请的实施例中，所述最优行动策略的计算基于以下算法中的任一项：蒙特卡罗算法、时间差分算法以及深度强化学习算法。

此外，根据本申请实施例，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本申请实施例的用于清扫设备的覆盖路径生成方法的相应步骤。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。

此外，根据本申请实施例，还提供了一种计算机程序，在所述计算机程序被计算机或处理器运行时用于执行本申请实施例的用于清扫设备的覆盖路径生成方法的相应步骤。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本申请的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本申请的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本申请的范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本申请并帮助理解各个发明方面中的一个或多个，在对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本申请的方法解释成反映如下意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本申请的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的一些模块的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本申请的具体实施方式或对具体实施方式的说明，本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种用于清扫设备的覆盖路径生成方法，其特征在于，所述方法包括：

获取待清扫区域的地图信息和清扫设备的初始信息，所述初始信息包括所述清扫设备的初始位置信息和姿态信息；

基于所述地图信息和所述初始信息得到清扫状态集合，所述清扫状态集合中的每个清扫状态反映在一个时刻所述待清扫区域的被清扫状况以及所述清扫设备的状况；

基于预定义的奖励机制和初始行动策略计算所述每个清扫状态的奖励值，基于所述奖励值优化所述初始行动策略得到新的行动策略，并基于所述新的行动策略重新计算所述每个清扫状态的奖励值，如此迭代，直到所述每个清扫状态的奖励值相对于上一次迭代时的奖励值的变化小于给定阈值，则迭代结束而得到最优行动策略；

基于所述最优行动策略生成覆盖路径，以用于由所述清扫设备基于所述覆盖路径在所述待清扫区域进行清扫。

2.根据权利要求1所述的方法，其特征在于，所述预定义的奖励机制基于提高清扫效率和/或减少重复清扫的清扫原则定义了所述清扫设备的预设行动集合中每个行动的奖励值；并且

每个清扫状态的奖励值基于与该清扫状态相关联的行动状态的奖励值而确定，其中与该清扫状态相关联的行动状态是指在该清扫状态下执行所述预设行动集合中的行动后达到的清扫状态，每个行动状态的奖励值基于该行动的奖励值以及该行动执行后达到的清扫状态的奖励值而确定。

3.根据权利要求2所述的方法，其特征在于，每个行动状态的奖励值为该行动的奖励值与该行动执行后达到的清扫状态的奖励值之和，每个清扫状态的奖励值等于与该清扫状态相关联的行动状态的奖励值的线性组合。

4.根据权利要求3所述的方法，其特征在于，每个清扫状态的奖励值等于与该清扫状态相关联的行动状态的奖励值的期望。

5.根据权利要求4所述的方法，其特征在于，所述预设行动集合中每个行动的初始概率分布为均匀分布。

6.根据权利要求2-5中的任一项所述的方法，其特征在于，所述地图信息包括与所述待清扫区域对应的二维栅格，所述二维栅格中的每个栅格具有相应的标签值，所述每个栅格的标签值指示该栅格对应的区域是否有障碍物或者指示所述清扫设备是否已访问过该栅格对应的区域，所述预设行动集合中至少一个行动的奖励值与执行该行动后到达的栅格的标签值相关。

7.根据权利要求6所述的方法，其特征在于，每个清扫状态包括在一个时刻所述二维栅格中每个栅格的标签值、所述清扫设备在该时刻所处的栅格的位置以及所述清扫设备在该时刻的朝向。

8.根据权利要求7所述的方法，其特征在于，所述预设行动集合包括停止、前进、左转和右转，停止对应的奖励值为零，左转和右转对应的奖励值均为负数，前进对应的奖励值基于前进后到达的栅格的标签值而确定。

9.根据权利要求8所述的方法，其特征在于，当前进后到达的栅格的标签值表示该栅格对应的区域无障碍物且尚未被清扫设备访问过时，前进对应的奖励值为正数；当前进后到达的栅格的标签值表示该栅格对应的区域有障碍物或无障碍物但已被清扫设备访问过时，前进对应的奖励值为负数。

10.根据权利要求1所述的方法，其特征在于，所述最优行动策略的计算基于以下算法中的任一项：蒙特卡罗算法、时间差分算法以及深度强化学习算法。

11.一种清扫设备，其特征在于，所述清扫设备用于执行权利要求1-10中的任一项所述的用于清扫设备的覆盖路径生成方法，所述清扫设备包括传感器模块、运算模块、运动模块和清扫模块，其中：

所述传感器模块用于采集待清扫区域的地图信息和所述清扫设备的初始信息，所述初始信息包括所述清扫设备的初始位置信息和姿态信息；

所述运算模块用于：

基于所述最优行动策略生成覆盖路径，并基于所述覆盖路径控制所述运动模块和清扫模块，以由所述清扫设备基于所述覆盖路径在所述待清扫区域进行清扫。