CN115049688B

CN115049688B - 基于强化学习思想的栅格地图区域划分方法及装置

Info

Publication number: CN115049688B
Application number: CN202210981480.9A
Authority: CN
Inventors: 郑涛; 宋伟; 吴靖宇; 朱世强; 郝华东
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-08-16
Filing date: 2022-08-16
Publication date: 2022-11-18
Anticipated expiration: 2042-08-16
Also published as: CN115049688A

Abstract

本发明公开了基于强化学习思想的栅格地图区域划分方法及装置，可应用于由圆柱曲面展平生成的栅格地图。本发明将栅格地图转化为矩阵处理，通过设置标记矩阵（标记各栅格当前轮次是否已被划分）和划分矩阵（记录各栅格当前累计的评估值），进行多轮次迭代划分，即每轮次划分时参考上轮次的划分评价结果、划分后对本轮次划分结果按约束条件的符合程度进行奖惩评估，并在迭代结束后对部分栅格进行调整优化处理，确保了在机器人初始位置和数目随机时，所得各划分任务区域面积相近，且各区域间不相交、区域内部全连通。

Description

基于强化学习思想的栅格地图区域划分方法及装置

技术领域

本发明涉及多机器人全覆盖路径规划技术领域，尤其是涉及基于强化学习思想的栅格地图区域划分方法及装置。

背景技术

多机器人协作遍历目标区域是一种高效地完成储罐等大型钢结构物探伤、除锈等任务的方式。为避免各机器人之间发生碰撞、降低重复遍历率、提高任务完成效率，需要对各机器人进行路径规划。

区域划分是解决多机器人遍历路径规划问题的一个重要步骤，它通过将目标区域划分为与机器人数目相同的多个互不相交且内部全连通的子区域的方式，对各机器人进行任务分配，从而将问题转化为多个互相独立的单机器人遍历路径规划问题，同时亦避免了机器人之间发生碰撞。

目前区域划分（单元分解）的相关专利有：一种面向城市绿地的割草机器人遍历路径规划方法（CN202111386248.2）、扫地机器人区域划分系统及方法（CN201711169082.2）、一种基于二次区域划分的机器人全覆盖路径规划方法（CN202110151982.4）等，但这些方法一般都是依据作业区域内障碍物的形状及其分布特点进行的，未考虑所得各子区域的面积大小。若直接应用于多机器人的任务分配，将导致各机器人的任务量可能相差较大，未能充分利用多机器人协作的优势。

专利一种适用于多机器人任务分配的均匀单元分解方法及系统（CN202111430423.3）尽管解决了单元均匀分解的问题，却不适用于圆柱曲面所展平的二维平面，原因在于圆柱曲面沿某一母线展平为二维平面后，该母线两侧的区域在平面上相距一个圆周的距离，因而该专利的方法会将其划分为两个不同的区域，但实际上若将其划分为同一区域，结果可能更优。

因此，需要研究一种可应用于圆柱曲面场景，适用于多机器人协同作业的任务分配，且机器人数目和初始位置随机的区域均分算法。

发明内容

为解决现有技术的不足，实现在机器人数目和初始位置随机时，各划分子区域面积相近的目的，本发明采用如下的技术方案：

一种基于强化学习思想的栅格地图区域划分方法，包括如下步骤：

步骤S1：根据栅格地图，构建对应的标记矩阵和划分矩阵，所述标记矩阵通过栅格地图标记栅格划分状态及障碍物栅格，所述划分矩阵基于栅格地图，确定各未划分栅格避开障碍物栅格后，到各移动对象初始位置所在栅格的最短距离，根据最短距离远近，设定各栅格划分结果初始的评估值大小；

步骤S2：根据各移动对象对应子区域中未连通的栅格数，确定子区域挑选栅格的顺序，各子区域按顺序，从其对应的划分矩阵中选取评估值最小的未划分栅格，划入该子区域内，并更新标记矩阵，重复进行，直至栅格划分完毕；

步骤S3：判断同一子区域的栅格与该子区域内移动对象初始位置所在栅格是否连通，若均连通，则结束区域划分，否则，统计未连通的栅格数，判断当前划分轮次是否达到终止条件，若达到，则结束区域划分，否则，进入步骤S4；

步骤S4：对当前轮次的划分结果进行评估奖励；根据各子区域中属于当前子区域但未连通的栅格数，对各子区域进行升序排序，并得到排序数，并依次更新各子区域对应划分矩阵的栅格评估值，重置标记矩阵，并反回步骤S2；评估值更新方式如下：

对属于当前子区域且连通的栅格，将当前栅格的评估值减去当前子区域排序数；

对属于当前子区域但不连通的栅格，若该栅格不与其他子区域连通，则当前子区域划分矩阵的栅格评估值，均加上当前栅格到当前子区域最近连通栅格的曼哈顿距离；否则，将与当前栅格连通的其他子区域划分矩阵的栅格评估值，均减去连通的其他子区域的排序数。

进一步地，所述方法还包括步骤S5：合并未连通栅格，当划分轮次达到终止条件后，根据属于当前子区域但不连通的栅格的栅格数，对各子区域进行降序排列，从第一个子区域开始，将所有不连通的栅格划入该子区域，再进行连通判断，若仍存在不连通的栅格，则将该栅格划入第二个子区域，以此类推，直至不再有不连通的栅格。

进一步地，所述结束区域划分前，所述方法还包括步骤S6：凸出栅格处理，凸出到相邻子区域的一个和/或一组相连栅格为当前子区域的凸出栅格，设定凸出栅格的相邻栅格中，分属于当前子区域和其他子区域的数量阈值，根据数值阈值，判定是否将凸出栅格合并至其他子区域，以使得凸出栅格总数最少，从而优化去除锯齿状边界。

进一步地，所述步骤S1的栅格地图是基于三维物体表面生成的，将三维物体表面基于一母线展开后，生成平面栅格地图，母线两侧栅格设置为相邻栅格。

进一步地，所述三维物体表面展开为平面并绘制栅格后，再进行膨化处理（若某一格存在障碍物，则认为该栅格为障碍物），从而避免移动对象发生碰撞。

进一步地，所述步骤S1的标记矩阵和划分矩阵维度均与栅格地图的栅格数一致。

进一步地，所述步骤S2中，一个移动对象对应一个划分矩阵，将各移动对象的划分矩阵中对应栅格的评估值相加，得到综合划分矩阵；当多个子区域对应未划分栅格的评估值相等时，选取综合划分矩阵中对应评估值最大的未划分栅格，划分到对应的子区域。

进一步地，所述步骤S4中的曼哈顿距离乘以修正系数后，再加上当前子区域划分矩阵的栅格评估值，作为更新后的评估值，从而控制收敛速度。

进一步地，所述步骤S6中，将如下凸出栅格合并到其他子区域：

对于单个凸出栅格，其上下左右四个相邻栅格中，仅有一个相同子区域的栅格，若存在两个以上栅格属于相同的其他子区域，则将凸出栅格合并到栅格所属相同的其他子区域；

和/或对于两个相连栅格构成的凸出栅格，其周围六个相邻栅格中，两端栅格不属于当前子区域，其他栅格中属于当前子区域的栅格数小于三个；

和/或对于三个相连栅格构成的凸出栅格，其周围八个相邻栅格中，两端栅格不属于当前子区域，其他栅格中属于当前子区域的栅格数小于四个。

一种基于强化学习思想的栅格地图区域划分装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现所述的基于强化学习思想的栅格地图区域划分方法。

本发明的优势和有益效果在于：

本发明的基于强化学习思想的栅格地图区域划分方法及装置，适用于多机协同下储罐等大型钢结构表面的全覆盖遍历场景，为各机器人划分各自遍历任务区域的方法，从而为多机器人在储罐等圆柱结构物上高效协作进行探伤、除锈等作业提供支撑，可通过区域划分将问题简化为多个互相独立的单机器人遍历路径规划问题；同时，本发明基于强化学习的思想，能够在机器人数目和初始位置随机时，确保最终各划分子区域面积相近且内部全连通。

附图说明

图1a是本发明实施例中方法的整体框架图。

图1b是本发明实施例中方法的步骤流程图。

图2是本发明实施例中储罐等圆柱曲面场景地图展平示意图。

图3a是本发明实施例中基于储罐等圆柱曲面场景膨化后的平面示意图。

图3b是本发明实施例中基于膨化后的平面生成的栅格地图。

图4a是本发明实施例中的栅格地图。

图4b是本发明实施例中的划分矩阵示意图。

图4c是本发明实施例中的标记矩阵示意图。

图5是本发明实施例中子区域内部栅格与机器人初始位置栅格的连通性判断图。

图6a是本发明实施例中未连通栅格合并处理前的区域划分结果示意图。

图6b是本发明实施例中未连通栅格合并处理后的区域划分结果示意图。

图7a是本发明实施例中两个凸出栅格的定义示意图。

图7b是本发明实施例中三个凸出栅格的定义示意图。

图8a是本发明实施例中凸出栅格处理前的示意图。

图8b是本发明实施例中凸出栅格处理后的示意图。

图9是本发明实施例中对图3b的区域划分结果示意。

图10是本发明实施例中装置的结构示意图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

区域划分是多个机器人协作，进行已知区域全覆盖遍历的一种任务分配方式，目前的相关划分方式有Voronoi划分、K-Means等多种聚类算法，但这些方法不能确保划分所得的各任务子区域在机器人数目和初始位置随机时面积相近，导致各机器人的任务作业量可能相差较大，若无任务动态分配机制，将出现部分机器人仍在作业而其余机器人空闲的情况，造成系统资源的浪费。

本发明的基于强化学习思想的栅格地图区域划分方法，在将目标任务场景转换为栅格地图后，初始化生成一个标记矩阵和多个划分矩阵（矩阵的大小与地图的栅格数一致），其中标记矩阵用于标记每轮次划分过程中各栅格是否被划入某一子区域；划分矩阵用于存储各轮次划分结果的评估情况，其数目与子区域数目相同。之后基于强化学习的思想，进行多轮次迭代划分，即在每轮次中，各子区域根据各自的划分矩阵轮流挑选一个栅格划归自身区域，当所有栅格划分完毕后，考虑区域连通性等因素，对划分结果进行评估，并更新划分矩阵，此后再进入下一轮迭代划分。当划分结果满足要求或是达到最大迭代次数后，进行划分后处理，结束方法。如图1a、图1b所示，具体包括如下步骤：

本发明实施例中，根据目标任务场景（圆柱曲面等三维场景则先进行展平，如图2所示），对障碍物进行膨化处理，生成平面栅格地图。图3a为由图2地图膨化后的平面图，图3b是基于图3a生成的栅格地图，其中黑色区域表示障碍物，且栅格最左列和最右列实际上是相邻的，机器人若从最左列栅格向左移动，则可直接到达同行最右列栅格，反之亦然。三维物体除了圆柱曲面，也可以是如圆锥、球面等其他三维表面。

本发明实施例中，移动对象为机器人，标记矩阵的标记方式如下：

每个划分矩阵的初始化方式如下：

图4b和图4c是两个机器人时，基于图4a的栅格地图，生成的划分矩阵生成示意图和标记矩阵示意图，其中图4a左上角的栅格到圆形的机器人1的步长为3，则图4b中机器人1的划分矩阵左上角矩阵单元对应的初始评估值设为3，图4a左上角的栅格到三角形形的机器人2的步长为5，则图4b中机器人2的划分矩阵左上角矩阵单元对应的评估值设为5，其中栅格地图由圆柱曲面沿某一母线展开所得，且其竖直方向为原母线方向，因此最左列和最右列栅格实际上相邻，因此左上角栅格到三角形机器人的步长为5。

本发明实施例中，根据各移动对象对应子区域中未连通的栅格数（第一次划分时均为0），对所有子区域进行降序排序，确定各子区域在当前轮次的栅格挑选顺序，根据挑选顺序各子区域依次轮流挑选一个栅格划入当前子区域。

步骤S3：判断同一子区域的栅格与该子区域内移动对象初始位置所在栅格是否连通，若均连通，则结束，否则，统计未连通的栅格数，判断当前划分轮次是否达到终止条件，若达到，则结束，否则，进入步骤S4；

本发明实施例中，由各机器人初始位置所在栅格开始，采用深度优先搜索的方式，判断属于同一子区域的所有栅格与该子区域内机器人初始位置所在栅格的连通情况，并统计各子区域未连通的栅格数目。如图5所示，其中最后一行中较大的黑色正方形为属于该子区域的机器人初始位置所在栅格，其余小正方形为判定的与初始位置连通的栅格（该栅格地图同样由圆柱曲面沿一母线展开所得）。若各子区域内未连通的栅格数目均为0，则跳转至步骤S6，否则判断当前划分轮次是否达到最大迭代次数，若达到最大次数，则跳转至步骤S5。

步骤S4：对当前轮次的划分结果进行评估奖励；根据各子区域中属于当前子区域但未连通的栅格数，对各子区域进行升序排序，并得到排序数，并依次更新各子区域对应划分矩阵的栅格评估值，重置标记矩阵，并反回步骤S2；更新方式如下：

对于属于当前子区域且连通的栅格，将当前栅格的评估值减去当前子区域排序数；

对于属于当前子区域但不连通的栅格，若该栅格不与其他子区域连通，则当前子区域划分矩阵的栅格评估值，均加上当前栅格到当前子区域最近连通栅格的曼哈顿距离；否则，将与当前栅格连通的其他子区域划分矩阵的栅格评估值，均减去连通的其他子区域的排序数。

本发明实施例中，将各子区域的栅格分为：（1）障碍物栅格；（2）不属于当前子区域的栅格；（3）属于当前子区域且连通的栅格；（4）属于当前子区域但不连通的栅格。对当前轮次的划分结果进行评估奖励，奖惩方式如下：对各划分子区域而言，所有栅格可分为四类：（1）障碍物栅格；（2）不属于当前子区域的栅格；（3）属于当前子区域且连通的栅格；（4）属于当前子区域但不连通的栅格。对各子区域按第（4）类栅格数目进行升序排序，并按所得顺序，依次更新各子区域对应划分矩阵的与各栅格对应位置的数值，更新方式（即奖励函数）如下：

其中，p为一修正系数，可根据划分情况更改，初始值为2。

还包括步骤S5：合并未连通栅格，当划分轮次达到终止条件后，根据属于当前子区域但不连通的栅格的栅格数，对各子区域进行降序排列，从第一个子区域开始，将所有不连通的栅格划入该子区域，再进行连通判断，若仍存在不连通的栅格，则将该栅格划入第二个子区域，以此类推，直至不再有不连通的栅格；

本发明实施例中，对各子区域按第（4）类栅格数目进行降序排列，由排序后的第1个子区域开始，将所有第（4）类栅格划入该子区域，再进行连通判断。若仍存在的第（4）类栅格，则将其划入排序后的第2个子区域，以此类推，直到不存在第（4）类栅格。图6a为合并处理前的划分结果，图6b为合并处理后的划分结果。

还包括步骤S6：凸出栅格处理，凸出到相邻子区域的一个和/或一组相连栅格为当前子区域的凸出栅格，设定凸出栅格的相邻栅格中，分属于当前子区域和其他子区域的数量阈值，根据数值阈值，判定是否将凸出栅格合并至其他子区域，以使得凸出栅格总数最少，从而优化去除锯齿状边界。

进一步地，将如下凸出栅格合并到其他子区域：

对于单个凸出栅格，其上下左右四个相邻栅格中，若存在两个以上栅格属于相同的其他子区域，则将凸出栅格合并到栅格所属相同的其他子区域；

本发明实施例中，单个凸出栅格定义为某一栅格的上下左右四个相邻栅格中，有且仅有一个栅格与该栅格同属于一个划分子区域，同时障碍物数目小于2（边界之外视为障碍物栅格），即至少存在1个属于其他子区域的栅格；两个凸出栅格定义为某相连的两个栅格的周围6个栅格中（图7a），3号和4号位置栅格不属于这两个栅格所属的A区域，且这6个相邻栅格中，属于A区域的栅格数量小于3个；三个凸出栅格定义为某相连的三个栅格的周围8个栅格中（图7b），4号和5号位置栅格不属于这两个栅格所属的A区域，且这8个相邻栅格中，属于A区域的栅格数量小于4个。图8a是一凸出栅格处理前示例，图8b是该示例处理后的结果。

完成区域划分。图9是图3b所示栅格地图，在机器人数目为3时的一区域划分结果，其中左下位置的圆形、正方形和三角形分别代表三个机器人的初始位置。

与前述基于强化学习思想的栅格地图区域划分方法的实施例相对应，本发明还提供了基于强化学习思想的栅格地图区域划分装置的实施例。

参见图10，本发明实施例提供的基于强化学习思想的栅格地图区域划分装置，包括存储器和一个或多个处理器，存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现上述实施例中的基于强化学习思想的栅格地图区域划分方法。

本发明基于强化学习思想的栅格地图区域划分装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图10所示，为本发明基于强化学习思想的栅格地图区域划分装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图10所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的基于强化学习思想的栅格地图区域划分方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims

1.一种基于强化学习思想的栅格地图区域划分方法，其特征在于包括如下步骤：

2.根据权利要求1所述的基于强化学习思想的栅格地图区域划分方法，其特征在于：所述方法还包括步骤S5：合并未连通栅格，当划分轮次达到终止条件后，根据属于当前子区域但不连通的栅格的栅格数，对各子区域进行降序排列，从第一个子区域开始，将所有不连通的栅格划入该子区域，再进行连通判断，若仍存在不连通的栅格，则将该栅格划入第二个子区域，以此类推，直至不再有不连通的栅格。

3.根据权利要求1所述的基于强化学习思想的栅格地图区域划分方法，其特征在于：所述结束区域划分前，所述方法还包括步骤S6：凸出栅格处理，凸出到相邻子区域的一个和/或一组相连栅格为当前子区域的凸出栅格，设定凸出栅格的相邻栅格中，分属于当前子区域和其他子区域的数量阈值，根据数值阈值，判定是否将凸出栅格合并至其他子区域。

4.根据权利要求1所述的基于强化学习思想的栅格地图区域划分方法，其特征在于：所述步骤S1的栅格地图是基于三维物体表面生成的，将三维物体表面基于一母线展开后，生成平面栅格地图，母线两侧栅格设置为相邻栅格。

5.根据权利要求1所述的基于强化学习思想的栅格地图区域划分方法，其特征在于：所述步骤S1的标记矩阵和划分矩阵维度均与栅格地图的栅格数一致。

6.根据权利要求1所述的基于强化学习思想的栅格地图区域划分方法，其特征在于：所述步骤S2中，一个移动对象对应一个划分矩阵，将各移动对象的划分矩阵中对应栅格的评估值相加，得到综合划分矩阵；当多个子区域对应未划分栅格的评估值相等时，选取综合划分矩阵中对应评估值最大的未划分栅格，划分到对应的子区域。

7.根据权利要求1所述的基于强化学习思想的栅格地图区域划分方法，其特征在于：所述步骤S4中的曼哈顿距离乘以修正系数后，再加上当前子区域划分矩阵的栅格评估值，作为更新后的评估值。

8.根据权利要求3所述的基于强化学习思想的栅格地图区域划分方法，其特征在于：所述步骤S6中，将如下凸出栅格合并到其他子区域：

对于单个凸出栅格，其上下左右四个相邻栅格中，存在两个以上栅格属于相同的其他子区域，则将凸出栅格合并到栅格所属相同的其他子区域；

9.一种基于强化学习思想的栅格地图区域划分装置，其特征在于，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现权利要求1-8中任一项所述的基于强化学习思想的栅格地图区域划分方法。